CN106021231B - 一种检测重复聊天内容的方法及装置 - Google Patents

一种检测重复聊天内容的方法及装置 Download PDF

Info

Publication number
CN106021231B
CN106021231B CN201610349113.1A CN201610349113A CN106021231B CN 106021231 B CN106021231 B CN 106021231B CN 201610349113 A CN201610349113 A CN 201610349113A CN 106021231 B CN106021231 B CN 106021231B
Authority
CN
China
Prior art keywords
character
message
rpt
repeat
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610349113.1A
Other languages
English (en)
Other versions
CN106021231A (zh
Inventor
霍启圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201610349113.1A priority Critical patent/CN106021231B/zh
Publication of CN106021231A publication Critical patent/CN106021231A/zh
Application granted granted Critical
Publication of CN106021231B publication Critical patent/CN106021231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种聊天内容检测方法及装置,属于信息处理领域,具体是涉及一种检测重复聊天内容的方法及装置。本发明通过检测每一条聊天内容中字符重复数量和重复比例,来判定该条聊天消息是否为重复,从而删除或隐藏重复消息。

Description

一种检测重复聊天内容的方法及装置
技术领域
本发明涉及一种聊天内容检测方法及装置,属于信息处理领域,具体是涉及一种检测重复聊天内容的方法及装置。
背景技术
主流的聊天室或弹幕视频网站,在一个聊天房间中会有很多用户在聊天,最高甚至可达数万人或数十万人同时在线。
如附图1所示,为聊天室内用户在正常聊天时的示意图;在聊天中,如果有部分人故意连续发表大量重复文本,如附图2,由于聊天区域大小是固定的,大量重复文本很容易就能把正常聊天内容快速刷掉,影响其他用户的正常聊天,并引起他人的反感。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种检测重复聊天内容的方法及装置,其目的在于通过检测每一条聊天内容中字符重复数量和重复比例,来判定该条聊天消息是否为重复,从而删除或隐藏重复消息。
为了解决上述问题,根据本发明的一个方面,提供了一种检测重复聊天内容的方法,包括:
步骤1,接收用户输入的重复字符阈值、重符字符数量阈值和重复字符占有率阈值;
步骤2,接收用户在聊天室中输入的消息,将所述消息拆分成单个字符,并统计各字符在消息中出现的次数;
步骤3,将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符;统计消息中的重复字符数量,并将消息中的所有重复字符的出现次数加权得到重复字符总字数;根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率;
步骤4,将重符字符数量超过重符字符数量阈值 和/或 重复字符占有率超过重复字符占有率阈值的消息判定为重复消息。
优化的,上述的一种检测重复聊天内容的方法,所述步骤2中具体包括以下子步骤:
步骤201,建立并维护一个字符字典,所述字符字典的每一项存储字符及其对应的次数;
步骤202,遍历消息中的每一个字符,判断字符字典中是否已经缓存了该字符;若已缓存,则将该字符对应的次数加一;若未缓存,则将这个字符缓存如字符字典中,并设置其计数为1。
步骤203,遍历完消息的所有字符后,输出消息中各字符及其对应的出现次数。
优化的,上述的一种检测重复聊天内容的方法,所述步骤4在完成消息的判断后,将字符字典占用的缓存空间销毁并释放。
优化的,上述的一种检测重复聊天内容的方法,丢弃或隐藏被判定为重复消息的消息。
优化的,上述的一种检测重复聊天内容的方法,所述重复字符阈值为2;所述重符字符数量阈值为0;所述重复字符占有率阈值为50%。
为了解决上述问题,根据本发明的另一个方面,提供了一种检测重复聊天内容的装置,包括:
判断规则设置模块,接收用户输入的重复字符阈值、重符字符数量阈值和重复字符占有率阈值;
字符频次统计模块,接收用户在聊天室中输入的消息,将所述消息拆分成单个字符,并统计各字符在消息中出现的次数;
重复指标统计模块,将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符;统计消息中的重复字符数量,并将消息中的所有重复字符的出现次数加权得到重复字符总字数;根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率;
重复消息判定模块,将重符字符数量超过重符字符数量阈值 和/或 重复字符占有率超过重复字符占有率阈值的消息判定为重复消息。
优化的,上述的一种检测重复聊天内容的装置,所述字符频次统计模块中具体包括以下子单元:
字典维护单元,建立并维护一个字符字典,所述字符字典的每一项存储字符及其对应的次数;
遍历统计单元,遍历消息中的每一个字符,判断字符字典中是否已经缓存了该字符;若已缓存,则将该字符对应的次数加一;若未缓存,则将这个字符缓存如字符字典中,并设置其计数为1。
结果输出单元,遍历完消息的所有字符后,输出消息中各字符及其对应的出现次数。
优化的,上述的一种检测重复聊天内容的装置,所述重复消息判定模块在完成消息的判断后,将字符字典占用的缓存空间销毁并释放。
优化的,上述的一种检测重复聊天内容的装置,丢弃或隐藏被判定为重复消息的消息。
优化的,上述的一种检测重复聊天内容的装置,所述重复字符阈值为2;所述重符字符数量阈值为0;所述重复字符占有率阈值为50%。
总体而言,本发明所构思的以上技术方案与现有技术相比,通过检测每一条聊天内容中字符重复数量和重复比例,来判定该条聊天消息是否为重复,从而删除或隐藏重复消息。
附图说明
附图1是聊天室内用户在正常聊天时的示意图。
附图2是聊天室被刷屏时的示意图。
附图3是聊天内容重复率示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
一种检测重复聊天内容的方法,包括:
步骤1,接收用户输入的重复字符阈值、重符字符数量阈值和重复字符占有率阈值;
步骤2,接收用户在聊天室中输入的消息,将所述消息拆分成单个字符,并统计各字符在消息中出现的次数;步骤2中具体包括以下子步骤:
步骤201,建立并维护一个字符字典,所述字符字典的每一项存储字符及其对应的次数;
步骤202,遍历消息中的每一个字符,判断字符字典中是否已经缓存了该字符;若已缓存,则将该字符对应的次数加一;若未缓存,则将这个字符缓存如字符字典中,并设置其计数为1。
步骤203,遍历完消息的所有字符后,输出消息中各字符及其对应的出现次数。
步骤3,将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符;统计消息中的重复字符数量,并将消息中的所有重复字符的出现次数加权得到重复字符总字数;根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率;
步骤4,将重符字符数量超过重符字符数量阈值 和/或 重复字符占有率超过重复字符占有率阈值的消息判定为重复消息,丢弃或隐藏被判定为重复消息的消息;在完成消息的判断后,将字符字典占用的缓存空间销毁并释放。
其中,所述重复字符阈值为2;所述重符字符数量阈值为0;所述重复字符占有率阈值为50%。
一种检测重复聊天内容的装置,包括:
判断规则设置模块,接收用户输入的重复字符阈值、重符字符数量阈值和重复字符占有率阈值;
字符频次统计模块,接收用户在聊天室中输入的消息,将所述消息拆分成单个字符,并统计各字符在消息中出现的次数;所述字符频次统计模块中具体包括以下子单元:
字典维护单元,建立并维护一个字符字典,所述字符字典的每一项存储字符及其对应的次数;
遍历统计单元,遍历消息中的每一个字符,判断字符字典中是否已经缓存了该字符;若已缓存,则将该字符对应的次数加一;若未缓存,则将这个字符缓存如字符字典中,并设置其计数为1。
结果输出单元,遍历完消息的所有字符后,输出消息中各字符及其对应的出现次数。
重复指标统计模块,将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符;统计消息中的重复字符数量,并将消息中的所有重复字符的出现次数加权得到重复字符总字数;根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率;
重复消息判定模块,将重符字符数量超过重符字符数量阈值 和/或 重复字符占有率超过重复字符占有率阈值的消息判定为重复消息。重复消息判定模块在完成消息的判断后,将字符字典占用的缓存空间销毁并释放,同时丢弃或隐藏被判定为重复消息的消息。
其中,所述重复字符阈值为2;所述重符字符数量阈值为0;所述重复字符占有率阈值为50%。
实施例1:
如图1所示,本发明提供了一种检测重复聊天内容的方法。
详细步骤如下:
(1)从聊天服务器接受一条聊天内容,如附图2中出现的聊天“6666623333333333333333”;
(2)创建一个字符字典(HashMap<Character, Integer>),用来储存聊天内容中每一个字符出现次数
(3)遍历聊天内容中的每一个字符:
A、对于每一个字符,判断字符字典中是否已经缓存了该字符
B、若已缓存,则将这个字符对应的计数加一;若未缓存,则将这个字符缓存如字符字典中,并设置其计数为1;
(4)完成遍历并对字符字典进行数据统计:
A、找出所有计数超过2次(阈值默认为2,开发者可以自行设置阈值,取值最低为1)的字符,称为“重复字符”;重复字符数量,称为“重复数”,如附图3,“6666623333333333333333”,“6”计数为5,“2”计数为1,“3”计数为16,因此“6”和“3”为重复字符,重复数为2
B、计算所有重复字符占有率(重复次数除以内容总字数)之和,称为重复率,如“6666623333333333333333”,共计22字符,“6”占有率为5/22,“3”占有率为16/22,重复字符占有率为21/22(95.45%)
C、根据重复数和重复率两项数据评定,该聊天内容是否为重复聊天内容,默认评定规则为:重复数大于0,并且重复率大于50%(开发者可以根据需要修改判定阈值)
(5)完成判定,销毁字符字典缓存,释放内存空间
(6)结束流程。
以上方法实施例和装置实施例是一一对应的,因此方法实施例的扩展方式亦可用于装置实施例。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (8)

1.一种检测重复聊天内容的方法,其特征在于,包括:
步骤1,接收用户输入的重复字符阈值、重复字符数量阈值和重复字符占有率阈值;
步骤2,接收用户在聊天室中输入的消息,将所述消息拆分成单个字符,并统计各字符在消息中出现的次数;
步骤3,将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符;统计消息中的重复字符数量,并将消息中的所有重复字符的出现次数加权得到重复字符总字数;根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率;
步骤4,将重复字符数量超过重复字符数量阈值和重复字符占有率超过重复字符占有率阈值的消息判定为重复消息;
所述步骤2中具体包括以下子步骤:
步骤201,建立并维护一个字符字典,所述字符字典的每一项存储字符及其对应的次数;
步骤202,遍历消息中的每一个字符,判断字符字典中是否已经缓存了该字符;若已缓存,则将该字符对应的次数加一;若未缓存,则将这个字符缓存入字符字典中,并设置其计数为1;
步骤203,遍历完消息的所有字符后,输出消息中各字符及其对应的出现次数。
2.根据权利要求1所述的一种检测重复聊天内容的方法,其特征在于,所述步骤4在完成消息的判断后,将字符字典占用的缓存空间销毁并释放。
3.根据权利要求1所述的一种检测重复聊天内容的方法,其特征在于,丢弃或隐藏被判定为重复消息的消息。
4.根据权利要求1所述的一种检测重复聊天内容的方法,其特征在于,所述重复字符阈值为2;所述重复字符数量阈值为0;所述重复字符占有率阈值为50%。
5.一种检测重复聊天内容的装置,其特征在于,包括:
判断规则设置模块,接收用户输入的重复字符阈值、重复字符数量阈值和重复字符占有率阈值;
字符频次统计模块,接收用户在聊天室中输入的消息,将所述消息拆分成单个字符,并统计各字符在消息中出现的次数;
重复指标统计模块,将在消息中出现次数超过所述重复字符阈值的字符判断为重复字符;统计消息中的重复字符数量,并将消息中的所有重复字符的出现次数加权得到重复字符总字数;根据所述重复字符总字数与消息的字符数之比得到消息的重复字符占有率;
重复消息判定模块,将重复字符数量超过重复字符数量阈值和/或重复字符占有率超过重复字符占有率阈值的消息判定为重复消息;
所述字符频次统计模块中具体包括以下子单元:
字典维护单元,建立并维护一个字符字典,所述字符字典的每一项存储字符及其对应的次数;
遍历统计单元,遍历消息中的每一个字符,判断字符字典中是否已经缓存了该字符;若已缓存,则将该字符对应的次数加一;若未缓存,则将这个字符缓存入 字符字典中,并设置其计数为1;
结果输出单元,遍历完消息的所有字符后,输出消息中各字符及其对应的出现次数。
6.根据权利要求5所述的一种检测重复聊天内容的装置,其特征在于,所述重复消息判定模块在完成消息的判断后,将字符字典占用的缓存空间销毁并释放。
7.根据权利要求5所述的一种检测重复聊天内容的装置,其特征在于,丢弃或隐藏被判定为重复消息的消息。
8.根据权利要求5所述的一种检测重复聊天内容的装置,其特征在于,所述重复字符阈值为2;所述重复字符数量阈值为0;所述重复字符占有率阈值为50%。
CN201610349113.1A 2016-05-24 2016-05-24 一种检测重复聊天内容的方法及装置 Active CN106021231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610349113.1A CN106021231B (zh) 2016-05-24 2016-05-24 一种检测重复聊天内容的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610349113.1A CN106021231B (zh) 2016-05-24 2016-05-24 一种检测重复聊天内容的方法及装置

Publications (2)

Publication Number Publication Date
CN106021231A CN106021231A (zh) 2016-10-12
CN106021231B true CN106021231B (zh) 2019-03-05

Family

ID=57093177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610349113.1A Active CN106021231B (zh) 2016-05-24 2016-05-24 一种检测重复聊天内容的方法及装置

Country Status (1)

Country Link
CN (1) CN106021231B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106559695A (zh) * 2016-10-14 2017-04-05 北京金山安全软件有限公司 弹幕消息的处理方法、装置以及电子设备
CN107766329B (zh) * 2017-10-23 2021-08-06 Oppo广东移动通信有限公司 黑名单配置方法及装置
CN107704613A (zh) * 2017-10-23 2018-02-16 深圳市金立通信设备有限公司 一种信息管理方法、终端及计算机可读存储介质
CN108418742A (zh) * 2017-12-28 2018-08-17 合肥长天信息技术有限公司 一种即时聊天系统刷屏控制方法
CN109600239B (zh) * 2018-12-07 2021-01-22 合肥万户网络技术有限公司 一种基于聊天工具的群体通知管理系统
CN110717328B (zh) * 2019-07-04 2021-06-18 北京达佳互联信息技术有限公司 文本识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114286A (zh) * 2006-07-26 2008-01-30 腾讯科技(深圳)有限公司 一种过滤聊天室广告的方法及系统
CN101114907A (zh) * 2006-07-28 2008-01-30 腾讯科技(深圳)有限公司 一种管理过滤黑名单的方法及系统
CN101197793A (zh) * 2007-12-28 2008-06-11 腾讯科技(深圳)有限公司 一种垃圾信息检测方法和装置
CN103793398A (zh) * 2012-10-30 2014-05-14 腾讯科技(深圳)有限公司 检测垃圾数据的方法和装置
CN105468248A (zh) * 2014-09-05 2016-04-06 腾讯科技(深圳)有限公司 一种交互界面消息展现方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10673795B2 (en) * 2009-08-05 2020-06-02 Disney Enterprises, Inc. Methods and arrangements for content filtering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114286A (zh) * 2006-07-26 2008-01-30 腾讯科技(深圳)有限公司 一种过滤聊天室广告的方法及系统
CN101114907A (zh) * 2006-07-28 2008-01-30 腾讯科技(深圳)有限公司 一种管理过滤黑名单的方法及系统
CN101197793A (zh) * 2007-12-28 2008-06-11 腾讯科技(深圳)有限公司 一种垃圾信息检测方法和装置
CN103793398A (zh) * 2012-10-30 2014-05-14 腾讯科技(深圳)有限公司 检测垃圾数据的方法和装置
CN105468248A (zh) * 2014-09-05 2016-04-06 腾讯科技(深圳)有限公司 一种交互界面消息展现方法和装置

Also Published As

Publication number Publication date
CN106021231A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106021231B (zh) 一种检测重复聊天内容的方法及装置
CN107786575B (zh) 一种基于dns流量的自适应恶意域名检测方法
CN105590055B (zh) 用于在网络交互系统中识别用户可信行为的方法及装置
CN105577660A (zh) 基于随机森林的dga域名检测方法
JP5397947B2 (ja) 迷惑情報の判定方法およびシステム
Feng et al. Satar: A self-supervised approach to twitter account representation learning and its application in bot detection
CN101119321B (zh) 网络流量分类处理方法及网络流量分类处理装置
JP6055548B2 (ja) データストリームにおいてデータパターンを検出する装置、方法、及びネットワークサーバ
CN110347716A (zh) 日志数据处理方法、装置、终端及存储介质
Verkamp et al. Five incidents, one theme: Twitter spam as a weapon to drown voices of protest
CN103780453A (zh) 多层聊天检测和分类
WO2023093100A1 (zh) 一种api网关异常调用识别的方法、装置、设备及产品
CN104994128B (zh) 一种数据编码类型识别及转码方法和装置
CN112235288B (zh) 一种基于gan的ndn网络入侵检测方法
CN113378899B (zh) 非正常账号识别方法、装置、设备和存储介质
Van Ham et al. Centrality based visualization of small world graphs
CN114090402A (zh) 一种基于孤立森林的用户异常访问行为检测方法
Liu et al. SDHM: A hybrid model for spammer detection in Weibo
CN111431884B (zh) 一种基于dns分析的主机失陷检测方法及装置
CN109120733B (zh) 一种利用dns进行通信的检测方法
Wilson et al. Discovery of email communication networks from the enron corpus with a genetic algorithm using social network analysis
CN114513791A (zh) 一种基于机器学习的电信反欺诈方法
CN102413197A (zh) 访问统计处理方法及装置
CN106910082A (zh) 一种调取广告进行推送的方法和装置
CN112183052A (zh) 一种文档重复度检测方法、装置、设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20161012

Assignee: Hubei Special Automobile Network Technology Co.,Ltd.

Assignor: WUHAN DOUYU NETWORK TECHNOLOGY Co.,Ltd.

Contract record no.: X2023980034618

Denomination of invention: A method and device for detecting duplicate chat content

Granted publication date: 20190305

License type: Common License

Record date: 20230413