CN106021231B - 一种检测重复聊天内容的方法及装置 - Google Patents
一种检测重复聊天内容的方法及装置 Download PDFInfo
- Publication number
- CN106021231B CN106021231B CN201610349113.1A CN201610349113A CN106021231B CN 106021231 B CN106021231 B CN 106021231B CN 201610349113 A CN201610349113 A CN 201610349113A CN 106021231 B CN106021231 B CN 106021231B
- Authority
- CN
- China
- Prior art keywords
- character
- message
- rpt
- repeat
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012423 maintenance Methods 0.000 claims description 3
- 230000003111 delayed effect Effects 0.000 claims 1
- 238000012217 deletion Methods 0.000 abstract description 2
- 230000037430 deletion Effects 0.000 abstract description 2
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000003252 repetitive effect Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种聊天内容检测方法及装置,属于信息处理领域,具体是涉及一种检测重复聊天内容的方法及装置。本发明通过检测每一条聊天内容中字符重复数量和重复比例,来判定该条聊天消息是否为重复,从而删除或隐藏重复消息。
Description
技术领域
本发明涉及一种聊天内容检测方法及装置,属于信息处理领域,具体是涉及一种检测重复聊天内容的方法及装置。
背景技术
主流的聊天室或弹幕视频网站,在一个聊天房间中会有很多用户在聊天,最高甚至可达数万人或数十万人同时在线。
如附图1所示,为聊天室内用户在正常聊天时的示意图;在聊天中,如果有部分人故意连续发表大量重复文本,如附图2,由于聊天区域大小是固定的,大量重复文本很容易就能把正常聊天内容快速刷掉,影响其他用户的正常聊天,并引起他人的反感。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种检测重复聊天内容的方法及装置,其目的在于通过检测每一条聊天内容中字符重复数量和重复比例,来判定该条聊天消息是否为重复,从而删除或隐藏重复消息。
为了解决上述问题,根据本发明的一个方面,提供了一种检测重复聊天内容的方法,包括:
步骤1,接收用户输入的重复字符阈值、重符字符数量阈值和重复字符占有率阈值;
步骤2,接收用户在聊天室中输入的消息,将所述消息拆分成单个字符,并统计各字符在消息中出现的次数;
步骤3,将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符;统计消息中的重复字符数量,并将消息中的所有重复字符的出现次数加权得到重复字符总字数;根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率;
步骤4,将重符字符数量超过重符字符数量阈值 和/或 重复字符占有率超过重复字符占有率阈值的消息判定为重复消息。
优化的,上述的一种检测重复聊天内容的方法,所述步骤2中具体包括以下子步骤:
步骤201,建立并维护一个字符字典,所述字符字典的每一项存储字符及其对应的次数;
步骤202,遍历消息中的每一个字符,判断字符字典中是否已经缓存了该字符;若已缓存,则将该字符对应的次数加一;若未缓存,则将这个字符缓存如字符字典中,并设置其计数为1。
步骤203,遍历完消息的所有字符后,输出消息中各字符及其对应的出现次数。
优化的,上述的一种检测重复聊天内容的方法,所述步骤4在完成消息的判断后,将字符字典占用的缓存空间销毁并释放。
优化的,上述的一种检测重复聊天内容的方法,丢弃或隐藏被判定为重复消息的消息。
优化的,上述的一种检测重复聊天内容的方法,所述重复字符阈值为2;所述重符字符数量阈值为0;所述重复字符占有率阈值为50%。
为了解决上述问题,根据本发明的另一个方面,提供了一种检测重复聊天内容的装置,包括:
判断规则设置模块,接收用户输入的重复字符阈值、重符字符数量阈值和重复字符占有率阈值;
字符频次统计模块,接收用户在聊天室中输入的消息,将所述消息拆分成单个字符,并统计各字符在消息中出现的次数;
重复指标统计模块,将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符;统计消息中的重复字符数量,并将消息中的所有重复字符的出现次数加权得到重复字符总字数;根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率;
重复消息判定模块,将重符字符数量超过重符字符数量阈值 和/或 重复字符占有率超过重复字符占有率阈值的消息判定为重复消息。
优化的,上述的一种检测重复聊天内容的装置,所述字符频次统计模块中具体包括以下子单元:
字典维护单元,建立并维护一个字符字典,所述字符字典的每一项存储字符及其对应的次数;
遍历统计单元,遍历消息中的每一个字符,判断字符字典中是否已经缓存了该字符;若已缓存,则将该字符对应的次数加一;若未缓存,则将这个字符缓存如字符字典中,并设置其计数为1。
结果输出单元,遍历完消息的所有字符后,输出消息中各字符及其对应的出现次数。
优化的,上述的一种检测重复聊天内容的装置,所述重复消息判定模块在完成消息的判断后,将字符字典占用的缓存空间销毁并释放。
优化的,上述的一种检测重复聊天内容的装置,丢弃或隐藏被判定为重复消息的消息。
优化的,上述的一种检测重复聊天内容的装置,所述重复字符阈值为2;所述重符字符数量阈值为0;所述重复字符占有率阈值为50%。
总体而言,本发明所构思的以上技术方案与现有技术相比,通过检测每一条聊天内容中字符重复数量和重复比例,来判定该条聊天消息是否为重复,从而删除或隐藏重复消息。
附图说明
附图1是聊天室内用户在正常聊天时的示意图。
附图2是聊天室被刷屏时的示意图。
附图3是聊天内容重复率示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
一种检测重复聊天内容的方法,包括:
步骤1,接收用户输入的重复字符阈值、重符字符数量阈值和重复字符占有率阈值;
步骤2,接收用户在聊天室中输入的消息,将所述消息拆分成单个字符,并统计各字符在消息中出现的次数;步骤2中具体包括以下子步骤:
步骤201,建立并维护一个字符字典,所述字符字典的每一项存储字符及其对应的次数;
步骤202,遍历消息中的每一个字符,判断字符字典中是否已经缓存了该字符;若已缓存,则将该字符对应的次数加一;若未缓存,则将这个字符缓存如字符字典中,并设置其计数为1。
步骤203,遍历完消息的所有字符后,输出消息中各字符及其对应的出现次数。
步骤3,将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符;统计消息中的重复字符数量,并将消息中的所有重复字符的出现次数加权得到重复字符总字数;根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率;
步骤4,将重符字符数量超过重符字符数量阈值 和/或 重复字符占有率超过重复字符占有率阈值的消息判定为重复消息,丢弃或隐藏被判定为重复消息的消息;在完成消息的判断后,将字符字典占用的缓存空间销毁并释放。
其中,所述重复字符阈值为2;所述重符字符数量阈值为0;所述重复字符占有率阈值为50%。
一种检测重复聊天内容的装置,包括:
判断规则设置模块,接收用户输入的重复字符阈值、重符字符数量阈值和重复字符占有率阈值;
字符频次统计模块,接收用户在聊天室中输入的消息,将所述消息拆分成单个字符,并统计各字符在消息中出现的次数;所述字符频次统计模块中具体包括以下子单元:
字典维护单元,建立并维护一个字符字典,所述字符字典的每一项存储字符及其对应的次数;
遍历统计单元,遍历消息中的每一个字符,判断字符字典中是否已经缓存了该字符;若已缓存,则将该字符对应的次数加一;若未缓存,则将这个字符缓存如字符字典中,并设置其计数为1。
结果输出单元,遍历完消息的所有字符后,输出消息中各字符及其对应的出现次数。
重复指标统计模块,将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符;统计消息中的重复字符数量,并将消息中的所有重复字符的出现次数加权得到重复字符总字数;根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率;
重复消息判定模块,将重符字符数量超过重符字符数量阈值 和/或 重复字符占有率超过重复字符占有率阈值的消息判定为重复消息。重复消息判定模块在完成消息的判断后,将字符字典占用的缓存空间销毁并释放,同时丢弃或隐藏被判定为重复消息的消息。
其中,所述重复字符阈值为2;所述重符字符数量阈值为0;所述重复字符占有率阈值为50%。
实施例1:
如图1所示,本发明提供了一种检测重复聊天内容的方法。
详细步骤如下:
(1)从聊天服务器接受一条聊天内容,如附图2中出现的聊天“6666623333333333333333”;
(2)创建一个字符字典(HashMap<Character, Integer>),用来储存聊天内容中每一个字符出现次数
(3)遍历聊天内容中的每一个字符:
A、对于每一个字符,判断字符字典中是否已经缓存了该字符
B、若已缓存,则将这个字符对应的计数加一;若未缓存,则将这个字符缓存如字符字典中,并设置其计数为1;
(4)完成遍历并对字符字典进行数据统计:
A、找出所有计数超过2次(阈值默认为2,开发者可以自行设置阈值,取值最低为1)的字符,称为“重复字符”;重复字符数量,称为“重复数”,如附图3,“6666623333333333333333”,“6”计数为5,“2”计数为1,“3”计数为16,因此“6”和“3”为重复字符,重复数为2
B、计算所有重复字符占有率(重复次数除以内容总字数)之和,称为重复率,如“6666623333333333333333”,共计22字符,“6”占有率为5/22,“3”占有率为16/22,重复字符占有率为21/22(95.45%)
C、根据重复数和重复率两项数据评定,该聊天内容是否为重复聊天内容,默认评定规则为:重复数大于0,并且重复率大于50%(开发者可以根据需要修改判定阈值)
(5)完成判定,销毁字符字典缓存,释放内存空间
(6)结束流程。
以上方法实施例和装置实施例是一一对应的,因此方法实施例的扩展方式亦可用于装置实施例。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (8)
1.一种检测重复聊天内容的方法,其特征在于,包括:
步骤1,接收用户输入的重复字符阈值、重复字符数量阈值和重复字符占有率阈值;
步骤2,接收用户在聊天室中输入的消息,将所述消息拆分成单个字符,并统计各字符在消息中出现的次数;
步骤3,将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符;统计消息中的重复字符数量,并将消息中的所有重复字符的出现次数加权得到重复字符总字数;根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率;
步骤4,将重复字符数量超过重复字符数量阈值和重复字符占有率超过重复字符占有率阈值的消息判定为重复消息;
所述步骤2中具体包括以下子步骤:
步骤201,建立并维护一个字符字典,所述字符字典的每一项存储字符及其对应的次数;
步骤202,遍历消息中的每一个字符,判断字符字典中是否已经缓存了该字符;若已缓存,则将该字符对应的次数加一;若未缓存,则将这个字符缓存入字符字典中,并设置其计数为1;
步骤203,遍历完消息的所有字符后,输出消息中各字符及其对应的出现次数。
2.根据权利要求1所述的一种检测重复聊天内容的方法,其特征在于,所述步骤4在完成消息的判断后,将字符字典占用的缓存空间销毁并释放。
3.根据权利要求1所述的一种检测重复聊天内容的方法,其特征在于,丢弃或隐藏被判定为重复消息的消息。
4.根据权利要求1所述的一种检测重复聊天内容的方法,其特征在于,所述重复字符阈值为2;所述重复字符数量阈值为0;所述重复字符占有率阈值为50%。
5.一种检测重复聊天内容的装置,其特征在于,包括:
判断规则设置模块,接收用户输入的重复字符阈值、重复字符数量阈值和重复字符占有率阈值;
字符频次统计模块,接收用户在聊天室中输入的消息,将所述消息拆分成单个字符,并统计各字符在消息中出现的次数;
重复指标统计模块,将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符;统计消息中的重复字符数量,并将消息中的所有重复字符的出现次数加权得到重复字符总字数;根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率;
重复消息判定模块,将重复字符数量超过重复字符数量阈值和/或重复字符占有率超过重复字符占有率阈值的消息判定为重复消息;
所述字符频次统计模块中具体包括以下子单元:
字典维护单元,建立并维护一个字符字典,所述字符字典的每一项存储字符及其对应的次数;
遍历统计单元,遍历消息中的每一个字符,判断字符字典中是否已经缓存了该字符;若已缓存,则将该字符对应的次数加一;若未缓存,则将这个字符缓存入 字符字典中,并设置其计数为1;
结果输出单元,遍历完消息的所有字符后,输出消息中各字符及其对应的出现次数。
6.根据权利要求5所述的一种检测重复聊天内容的装置,其特征在于,所述重复消息判定模块在完成消息的判断后,将字符字典占用的缓存空间销毁并释放。
7.根据权利要求5所述的一种检测重复聊天内容的装置,其特征在于,丢弃或隐藏被判定为重复消息的消息。
8.根据权利要求5所述的一种检测重复聊天内容的装置,其特征在于,所述重复字符阈值为2;所述重复字符数量阈值为0;所述重复字符占有率阈值为50%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610349113.1A CN106021231B (zh) | 2016-05-24 | 2016-05-24 | 一种检测重复聊天内容的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610349113.1A CN106021231B (zh) | 2016-05-24 | 2016-05-24 | 一种检测重复聊天内容的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106021231A CN106021231A (zh) | 2016-10-12 |
CN106021231B true CN106021231B (zh) | 2019-03-05 |
Family
ID=57093177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610349113.1A Active CN106021231B (zh) | 2016-05-24 | 2016-05-24 | 一种检测重复聊天内容的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106021231B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106559695A (zh) * | 2016-10-14 | 2017-04-05 | 北京金山安全软件有限公司 | 弹幕消息的处理方法、装置以及电子设备 |
CN107766329B (zh) * | 2017-10-23 | 2021-08-06 | Oppo广东移动通信有限公司 | 黑名单配置方法及装置 |
CN107704613A (zh) * | 2017-10-23 | 2018-02-16 | 深圳市金立通信设备有限公司 | 一种信息管理方法、终端及计算机可读存储介质 |
CN108418742A (zh) * | 2017-12-28 | 2018-08-17 | 合肥长天信息技术有限公司 | 一种即时聊天系统刷屏控制方法 |
CN109600239B (zh) * | 2018-12-07 | 2021-01-22 | 合肥万户网络技术有限公司 | 一种基于聊天工具的群体通知管理系统 |
CN110717328B (zh) * | 2019-07-04 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 文本识别方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101114286A (zh) * | 2006-07-26 | 2008-01-30 | 腾讯科技(深圳)有限公司 | 一种过滤聊天室广告的方法及系统 |
CN101114907A (zh) * | 2006-07-28 | 2008-01-30 | 腾讯科技(深圳)有限公司 | 一种管理过滤黑名单的方法及系统 |
CN101197793A (zh) * | 2007-12-28 | 2008-06-11 | 腾讯科技(深圳)有限公司 | 一种垃圾信息检测方法和装置 |
CN103793398A (zh) * | 2012-10-30 | 2014-05-14 | 腾讯科技(深圳)有限公司 | 检测垃圾数据的方法和装置 |
CN105468248A (zh) * | 2014-09-05 | 2016-04-06 | 腾讯科技(深圳)有限公司 | 一种交互界面消息展现方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10673795B2 (en) * | 2009-08-05 | 2020-06-02 | Disney Enterprises, Inc. | Methods and arrangements for content filtering |
-
2016
- 2016-05-24 CN CN201610349113.1A patent/CN106021231B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101114286A (zh) * | 2006-07-26 | 2008-01-30 | 腾讯科技(深圳)有限公司 | 一种过滤聊天室广告的方法及系统 |
CN101114907A (zh) * | 2006-07-28 | 2008-01-30 | 腾讯科技(深圳)有限公司 | 一种管理过滤黑名单的方法及系统 |
CN101197793A (zh) * | 2007-12-28 | 2008-06-11 | 腾讯科技(深圳)有限公司 | 一种垃圾信息检测方法和装置 |
CN103793398A (zh) * | 2012-10-30 | 2014-05-14 | 腾讯科技(深圳)有限公司 | 检测垃圾数据的方法和装置 |
CN105468248A (zh) * | 2014-09-05 | 2016-04-06 | 腾讯科技(深圳)有限公司 | 一种交互界面消息展现方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106021231A (zh) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106021231B (zh) | 一种检测重复聊天内容的方法及装置 | |
CN107786575B (zh) | 一种基于dns流量的自适应恶意域名检测方法 | |
CN105590055B (zh) | 用于在网络交互系统中识别用户可信行为的方法及装置 | |
CN105577660A (zh) | 基于随机森林的dga域名检测方法 | |
JP5397947B2 (ja) | 迷惑情報の判定方法およびシステム | |
Feng et al. | Satar: A self-supervised approach to twitter account representation learning and its application in bot detection | |
CN101119321B (zh) | 网络流量分类处理方法及网络流量分类处理装置 | |
JP6055548B2 (ja) | データストリームにおいてデータパターンを検出する装置、方法、及びネットワークサーバ | |
CN110347716A (zh) | 日志数据处理方法、装置、终端及存储介质 | |
Verkamp et al. | Five incidents, one theme: Twitter spam as a weapon to drown voices of protest | |
CN103780453A (zh) | 多层聊天检测和分类 | |
WO2023093100A1 (zh) | 一种api网关异常调用识别的方法、装置、设备及产品 | |
CN104994128B (zh) | 一种数据编码类型识别及转码方法和装置 | |
CN112235288B (zh) | 一种基于gan的ndn网络入侵检测方法 | |
CN113378899B (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
Van Ham et al. | Centrality based visualization of small world graphs | |
CN114090402A (zh) | 一种基于孤立森林的用户异常访问行为检测方法 | |
Liu et al. | SDHM: A hybrid model for spammer detection in Weibo | |
CN111431884B (zh) | 一种基于dns分析的主机失陷检测方法及装置 | |
CN109120733B (zh) | 一种利用dns进行通信的检测方法 | |
Wilson et al. | Discovery of email communication networks from the enron corpus with a genetic algorithm using social network analysis | |
CN114513791A (zh) | 一种基于机器学习的电信反欺诈方法 | |
CN102413197A (zh) | 访问统计处理方法及装置 | |
CN106910082A (zh) | 一种调取广告进行推送的方法和装置 | |
CN112183052A (zh) | 一种文档重复度检测方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20161012 Assignee: Hubei Special Automobile Network Technology Co.,Ltd. Assignor: WUHAN DOUYU NETWORK TECHNOLOGY Co.,Ltd. Contract record no.: X2023980034618 Denomination of invention: A method and device for detecting duplicate chat content Granted publication date: 20190305 License type: Common License Record date: 20230413 |