CN106021231B

CN106021231B - 一种检测重复聊天内容的方法及装置

Info

Publication number: CN106021231B
Application number: CN201610349113.1A
Authority: CN
Inventors: 霍启圣
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2016-05-24
Filing date: 2016-05-24
Publication date: 2019-03-05
Anticipated expiration: 2036-05-24
Also published as: CN106021231A

Abstract

本发明涉及一种聊天内容检测方法及装置，属于信息处理领域，具体是涉及一种检测重复聊天内容的方法及装置。本发明通过检测每一条聊天内容中字符重复数量和重复比例，来判定该条聊天消息是否为重复，从而删除或隐藏重复消息。

Description

一种检测重复聊天内容的方法及装置

技术领域

本发明涉及一种聊天内容检测方法及装置，属于信息处理领域，具体是涉及一种检测重复聊天内容的方法及装置。

背景技术

主流的聊天室或弹幕视频网站，在一个聊天房间中会有很多用户在聊天，最高甚至可达数万人或数十万人同时在线。

如附图1所示，为聊天室内用户在正常聊天时的示意图；在聊天中，如果有部分人故意连续发表大量重复文本，如附图2，由于聊天区域大小是固定的，大量重复文本很容易就能把正常聊天内容快速刷掉，影响其他用户的正常聊天，并引起他人的反感。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种检测重复聊天内容的方法及装置，其目的在于通过检测每一条聊天内容中字符重复数量和重复比例，来判定该条聊天消息是否为重复，从而删除或隐藏重复消息。

为了解决上述问题，根据本发明的一个方面，提供了一种检测重复聊天内容的方法，包括：

步骤1，接收用户输入的重复字符阈值、重符字符数量阈值和重复字符占有率阈值；

步骤2，接收用户在聊天室中输入的消息，将所述消息拆分成单个字符，并统计各字符在消息中出现的次数；

步骤3，将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符；统计消息中的重复字符数量，并将消息中的所有重复字符的出现次数加权得到重复字符总字数；根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率；

步骤4，将重符字符数量超过重符字符数量阈值和/或重复字符占有率超过重复字符占有率阈值的消息判定为重复消息。

优化的，上述的一种检测重复聊天内容的方法，所述步骤2中具体包括以下子步骤：

步骤201，建立并维护一个字符字典，所述字符字典的每一项存储字符及其对应的次数；

步骤202，遍历消息中的每一个字符，判断字符字典中是否已经缓存了该字符；若已缓存，则将该字符对应的次数加一；若未缓存，则将这个字符缓存如字符字典中，并设置其计数为1。

步骤203，遍历完消息的所有字符后，输出消息中各字符及其对应的出现次数。

优化的，上述的一种检测重复聊天内容的方法，所述步骤4在完成消息的判断后，将字符字典占用的缓存空间销毁并释放。

优化的，上述的一种检测重复聊天内容的方法，丢弃或隐藏被判定为重复消息的消息。

优化的，上述的一种检测重复聊天内容的方法，所述重复字符阈值为2；所述重符字符数量阈值为0；所述重复字符占有率阈值为50%。

为了解决上述问题，根据本发明的另一个方面，提供了一种检测重复聊天内容的装置，包括：

判断规则设置模块，接收用户输入的重复字符阈值、重符字符数量阈值和重复字符占有率阈值；

字符频次统计模块，接收用户在聊天室中输入的消息，将所述消息拆分成单个字符，并统计各字符在消息中出现的次数；

重复指标统计模块，将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符；统计消息中的重复字符数量，并将消息中的所有重复字符的出现次数加权得到重复字符总字数；根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率；

重复消息判定模块，将重符字符数量超过重符字符数量阈值和/或重复字符占有率超过重复字符占有率阈值的消息判定为重复消息。

优化的，上述的一种检测重复聊天内容的装置，所述字符频次统计模块中具体包括以下子单元：

字典维护单元，建立并维护一个字符字典，所述字符字典的每一项存储字符及其对应的次数；

遍历统计单元，遍历消息中的每一个字符，判断字符字典中是否已经缓存了该字符；若已缓存，则将该字符对应的次数加一；若未缓存，则将这个字符缓存如字符字典中，并设置其计数为1。

结果输出单元，遍历完消息的所有字符后，输出消息中各字符及其对应的出现次数。

优化的，上述的一种检测重复聊天内容的装置，所述重复消息判定模块在完成消息的判断后，将字符字典占用的缓存空间销毁并释放。

优化的，上述的一种检测重复聊天内容的装置，丢弃或隐藏被判定为重复消息的消息。

优化的，上述的一种检测重复聊天内容的装置，所述重复字符阈值为2；所述重符字符数量阈值为0；所述重复字符占有率阈值为50%。

总体而言，本发明所构思的以上技术方案与现有技术相比，通过检测每一条聊天内容中字符重复数量和重复比例，来判定该条聊天消息是否为重复，从而删除或隐藏重复消息。

附图说明

附图1是聊天室内用户在正常聊天时的示意图。

附图2是聊天室被刷屏时的示意图。

附图3是聊天内容重复率示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

一种检测重复聊天内容的方法，包括：

步骤2，接收用户在聊天室中输入的消息，将所述消息拆分成单个字符，并统计各字符在消息中出现的次数；步骤2中具体包括以下子步骤：

步骤4，将重符字符数量超过重符字符数量阈值和/或重复字符占有率超过重复字符占有率阈值的消息判定为重复消息，丢弃或隐藏被判定为重复消息的消息；在完成消息的判断后，将字符字典占用的缓存空间销毁并释放。

其中，所述重复字符阈值为2；所述重符字符数量阈值为0；所述重复字符占有率阈值为50%。

一种检测重复聊天内容的装置，包括：

字符频次统计模块，接收用户在聊天室中输入的消息，将所述消息拆分成单个字符，并统计各字符在消息中出现的次数；所述字符频次统计模块中具体包括以下子单元：

重复消息判定模块，将重符字符数量超过重符字符数量阈值和/或重复字符占有率超过重复字符占有率阈值的消息判定为重复消息。重复消息判定模块在完成消息的判断后，将字符字典占用的缓存空间销毁并释放，同时丢弃或隐藏被判定为重复消息的消息。

实施例1：

如图1所示，本发明提供了一种检测重复聊天内容的方法。

详细步骤如下：

（1）从聊天服务器接受一条聊天内容，如附图2中出现的聊天“6666623333333333333333”；

（2）创建一个字符字典（HashMap<Character, Integer>），用来储存聊天内容中每一个字符出现次数

（3）遍历聊天内容中的每一个字符：

A、对于每一个字符，判断字符字典中是否已经缓存了该字符

B、若已缓存，则将这个字符对应的计数加一；若未缓存，则将这个字符缓存如字符字典中，并设置其计数为1；

（4）完成遍历并对字符字典进行数据统计：

A、找出所有计数超过2次（阈值默认为2，开发者可以自行设置阈值，取值最低为1）的字符，称为“重复字符”；重复字符数量，称为“重复数”，如附图3，“6666623333333333333333”，“6”计数为5，“2”计数为1，“3”计数为16，因此“6”和“3”为重复字符,重复数为2

B、计算所有重复字符占有率（重复次数除以内容总字数）之和，称为重复率，如“6666623333333333333333”，共计22字符，“6”占有率为5/22，“3”占有率为16/22，重复字符占有率为21/22（95.45%）

C、根据重复数和重复率两项数据评定，该聊天内容是否为重复聊天内容，默认评定规则为：重复数大于0，并且重复率大于50%（开发者可以根据需要修改判定阈值）

（5）完成判定，销毁字符字典缓存，释放内存空间

（6）结束流程。

以上方法实施例和装置实施例是一一对应的，因此方法实施例的扩展方式亦可用于装置实施例。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种检测重复聊天内容的方法，其特征在于，包括：

步骤1，接收用户输入的重复字符阈值、重复字符数量阈值和重复字符占有率阈值；

步骤4，将重复字符数量超过重复字符数量阈值和重复字符占有率超过重复字符占有率阈值的消息判定为重复消息；

所述步骤2中具体包括以下子步骤：

步骤202，遍历消息中的每一个字符，判断字符字典中是否已经缓存了该字符；若已缓存，则将该字符对应的次数加一；若未缓存，则将这个字符缓存入字符字典中，并设置其计数为1；

2.根据权利要求1所述的一种检测重复聊天内容的方法，其特征在于，所述步骤4在完成消息的判断后，将字符字典占用的缓存空间销毁并释放。

3.根据权利要求1所述的一种检测重复聊天内容的方法，其特征在于，丢弃或隐藏被判定为重复消息的消息。

4.根据权利要求1所述的一种检测重复聊天内容的方法，其特征在于，所述重复字符阈值为2；所述重复字符数量阈值为0；所述重复字符占有率阈值为50％。

5.一种检测重复聊天内容的装置，其特征在于，包括：

判断规则设置模块，接收用户输入的重复字符阈值、重复字符数量阈值和重复字符占有率阈值；

重复消息判定模块，将重复字符数量超过重复字符数量阈值和/或重复字符占有率超过重复字符占有率阈值的消息判定为重复消息；

所述字符频次统计模块中具体包括以下子单元：

遍历统计单元，遍历消息中的每一个字符，判断字符字典中是否已经缓存了该字符；若已缓存，则将该字符对应的次数加一；若未缓存，则将这个字符缓存入字符字典中，并设置其计数为1；

6.根据权利要求5所述的一种检测重复聊天内容的装置，其特征在于，所述重复消息判定模块在完成消息的判断后，将字符字典占用的缓存空间销毁并释放。

7.根据权利要求5所述的一种检测重复聊天内容的装置，其特征在于，丢弃或隐藏被判定为重复消息的消息。

8.根据权利要求5所述的一种检测重复聊天内容的装置，其特征在于，所述重复字符阈值为2；所述重复字符数量阈值为0；所述重复字符占有率阈值为50％。