CN116822496B - 一种社交信息违规检测方法、系统及存储介质 - Google Patents

一种社交信息违规检测方法、系统及存储介质 Download PDF

Info

Publication number
CN116822496B
CN116822496B CN202310652754.4A CN202310652754A CN116822496B CN 116822496 B CN116822496 B CN 116822496B CN 202310652754 A CN202310652754 A CN 202310652754A CN 116822496 B CN116822496 B CN 116822496B
Authority
CN
China
Prior art keywords
information
illegal
detected
preset
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310652754.4A
Other languages
English (en)
Other versions
CN116822496A (zh
Inventor
黄天财
黄海波
黄俊杰
吕金松
杨艺聪
陈镇国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Shequ Information Technology Co ltd
Original Assignee
Xiamen Shequ Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Shequ Information Technology Co ltd filed Critical Xiamen Shequ Information Technology Co ltd
Priority to CN202310652754.4A priority Critical patent/CN116822496B/zh
Publication of CN116822496A publication Critical patent/CN116822496A/zh
Application granted granted Critical
Publication of CN116822496B publication Critical patent/CN116822496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

一种社交信息违规检测方法、系统及存储介质,包括S1、获取待检测信息,并对其进行第一信息处理,分别得到待检测信息对应的上下文信息、拼音信息、标准形式信息;S2、将待检测信息以及S1得到的信息分别进行预设违规检测匹配,判断是否为可疑违规内容,若是,则执行S3;S3、对可疑违规内容进行第二信息处理,并判断可疑违规内容是否为违规内容,若是,则执行S4;S4、获取违规内容发布者的用户特征与预设违规用户特征,并将二者进行对比,判断用户特征是否符合预设违规用户特征,若是,则执行预设违规处理方式,若否,则生成并下发待复核通知。本发明摈弃了单一检测方式,并且能够提高检测效率与检测准确率。

Description

一种社交信息违规检测方法、系统及存储介质
技术领域
本发明涉及信息检测技术领域,特别是一种社交信息违规检测方法、系统及存储介质。
背景技术
随着现代社会的发展,网络在不断进步,并且公共社交平台也在不断地扩大和规范化。同时,由于智能手机的普遍应用,使得现在的大多数人都可以使用自己的手机或其他通讯工具在网络上浏览信息。当然,也有很多用户在网络上发布着属于自己的信息,分享着属于自己的点滴。
随着社交平台的发展,社交内容呈现数量大、种类多、形态丰富、内容多元等特点。但是,也有一些人会在网络上发布一些内容不当的信息,例如发布违法的信息、私自公布他人的隐私信息、发布危害社会的信息等等,这些都属于内容不当的违规内容。
网络与社交平台的不断发展,加大了对违规信息监测的人力监管成本,并且人力监管的时效性较低,无法有效保障平台的内容及生态的安全健康。传统的敏感词及规则匹配方式检测,刚开始的检测效果良好,但随着违规用户经验的积累,缺陷日渐显著。单一的敏感词及规则匹配方式,误召回率大,无法准确识别;而复杂的敏感词及规则容易漏召回,被违规用户绕过。
同时,违规内容话术变种多,例如同义词、中文和拼音英文组合、特殊字符、藏头诗、拆字、拆词等方式,导致单一检测方式难以全面覆盖和挖掘。若使用传统离线计算结合算法的方式,则检测时效性又较低,且无法应对灵活的话术变种。还有部分违规内容无法从单句话中发现违规特征,需要结合上下文内容综合研判。并且,内容形态的多元性,还会导致一些违规内容通过图片、音频传播,难以被直观发现,例如:在图片上编辑不起眼的违规信息,通过文字方式提示用户放大图片查看等。
综上,现有技术中存在检测方式较为单一,导致检测效率与准确率都较低的问题。
发明内容
本发明的主要目的在于提供了一种社交信息违规检测方法系统及存储介质,旨在解决现有的社交信息违规检测方法较为单一,导致检测效率与准确率都较低的技术问题。
为实现上述目的,本发明提供了一种社交信息违规检测方法,其包括以下步骤:S1、获取待检测信息,并对其进行第一信息处理,第一信息处理至少包括构建上下文、拼音转换与形式转换,分别得到待检测信息对应的上下文信息、拼音信息、标准形式信息;S2、将待检测信息以及其对应的上下文信息、拼音信息、标准形式信息分别进行预设违规检测匹配,判断是否为可疑违规内容,若是,则执行步骤S3;S3、对可疑违规内容进行第二信息处理,并判断可疑违规内容是否为违规内容,若是,则执行步骤S4;S4、获取违规内容发布者的用户特征与预设违规用户特征,并将二者进行对比,判断违规内容发布者的用户特征是否符合预设违规用户特征,若是,则执行预设违规处理方式,若否,则生成并下发待复核通知。
可选的,步骤S1至少包括:获取待检测信息,并判断待检测信息的类型;若待检测信息为文本信息,则直接进行第一信息处理;若待检测信息为图片信息,则对其进行OCR识别处理,将图片信息转换为文本信息后再进行第一信息处理;若待检测信息为音频信息,则对其进行ASR识别处理,将音频信息转换为文本信息后再进行第一信息处理。
可选的,上下文构建具体为:从待检测信息的会话上文的有序集合中计算得到预设时间段内的上文内容或预设数量的上文内容,再与待检测信息进行拼接,得到上下文信息;会话上文的有序集合是通过获取会话id、时间戳,以会话id为key,以时间戳为score,以会话内容为value,将会话内容记录在Redis缓存中间件,并为每个会话建立有一个会话上文的有序集合;拼音转换具体为:将文本信息转换为拼音,得到拼音信息;形式转换具体为:将文本信息的形式转换为标准形式,得到标准形式信息。
可选的,步骤S2中,预设违规检测匹配至少包括词组匹配、正则匹配与信息特征匹配其中之一;词组匹配具体为:通过字典树判断待检测信息中是否存在敏感词,若是,再将待检测信息与第一预设表达式进行匹配,判断待检测信息是否命中第一预设表达式,若是,则为可疑违规内容,若否,则并非可疑违规内容;正则匹配具体为:通过正则匹配判断待检测信息是否命中预设校验表达式,若是,则为可疑违规内容,若否,则并非可疑违规内容;信息特征匹配具体为:获取待检测信息的发布者在指定时间段内的信息特征,并判断其是否超过预设信息特征阈值;若是,则为可疑违规内容,若否,则并非可疑违规内容。
可选的,第一预设表达式是根据敏感词的组合方式形成的;信息特征至少包括信息发布频率、所发布信息之间的信息相似度其中之一,预设信息特征阈值至少包括信息发布频率阈值与信息相似度阈值其中之一。
可选的,步骤S3中,第二信息处理至少包括词组排除处理、词间距判断处理、拆分处理其中一种或两种以上;预设词组排除处理具体为:获取预设排除词组,判断可疑违规内容中是否存在预设排除词组,若是,则并非违规内容,若否,则为违规内容;词间距判断处理具体为:通过字典树判断可疑违规内容中是否存在敏感词,若是,则进一步计算敏感词的位置信息;进行后缀表达式匹配,判断是否命中第二预设表达式,以及位置信息是否满足预设词间距,若是,则为违规内容,若否,则并非违规内容;拆分处理具体为:对可疑违规内容进行拆分,得到拆分结果;将拆分结果进行重组,得到重组结果;判断重组结果中是否存在敏感词,若是,则为违规内容,若否,则并非违规内容。
可选的,步骤S3中判断可疑违规内容是否为违规内容,具体为根据第二信息处理直接判断是否为违规内容,或者通过第二信息处理与特殊判断相结合,判断是否为违规内容;特殊判断至少包括命中率判断、会话长度判断其中一种或两种;命中率判断具体为:获取待检测信息的发布者的违规记录,违规记录至少包括违规次数与违规频率;判断违规次数与违规频率是否大于预设违规次数阈值与预设违规频率阈值,若是,则为违规内容,若否,则并非违规内容;会话长度判断具体为:获取待检测信息对应的会话长度,判断会话长度是否小于预设会话长度阈值,若是,则为违规内容,若否,则并非违规内容。
可选的,步骤S4中的用户特征至少包括用户注册时间、历史处罚记录、性别、认证状态其中一种或两种以上;预设违规处理方式为自动处罚,生成并下发待复核通知后,进入人工复核;所述方法还包括步骤S5、记录违规检测结果与对应的处理结果,并进行归纳处理得到归纳信息,用于更新可疑违规内容与违规内容的判断方式。
与所述社交信息违规检测方法相对应的,本发明提供一种社交信息违规检测系统,其包括:第一信息处理模块,用于获取待检测信息,并对其进行第一信息处理,第一信息处理至少包括上下文构建、拼音转换与形式转换,分别得到待检测信息对应的上下文信息、拼音信息、标准形式信息;可疑违规内容检测模块,用于将待检测信息以及其对应的上下文信息、拼音信息、标准形式信息分别进行预设违规检测匹配,判断是否为可疑违规内容;违规内容检测模块,用于对可疑违规内容进行第二信息处理,并判断可疑违规内容是否为违规内容;用户特征检测模块,用于获取违规内容发布者的用户特征与预设违规用户特征,并将二者进行对比,判断违规内容发布者的用户特征是否符合预设违规用户特征;违规处理模块,用于执行预设违规处理方式,或者生成并下发待复核通知。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有社交信息违规检测程序,所述社交信息违规检测程序被处理器执行时实现如上文所述的社交信息违规检测方法的步骤。
本发明的有益效果是:
(1)与现有技术相比,本发明通过第一信息处理,能够结合上下文信息、拼音信息、标准形式信息多方式一并进行预设违规检测匹配,能够提高检测效率,同时避免单一检测方式无法从某句话中检测到违规特征的情况,或者当待检测信息存在多音字变种、话术变种时,无法检测到违规特征的情况,进而能够提高检测准确率;通过对可疑违规内容进行第二信息处理,并判断可疑违规内容是否为违规内容,以及对用户特征的检测能够在提高检测效率的同时,进一步降低误判率,实现检测准确率的提高;最后,当待检测信息被判定为违规内容,且待检测信息的发布者的用户特征同时符合预设违规用户特征时,直接执行预设违规处理方式,提高处理效率;
(2)与现有技术相比,本发明通过将图片信息与语音信息转换为文本信息,能够避免图片中的文字存在违规内容或语音中存在违规内容,但通过单一的检测方式却无法得到准确的检测结果的情况,提高了违规检测方法的通用性;
(3)与现有技术相比,本发明通过词组匹配,摒弃了单一的敏感词匹配方式,采用敏感词+表达式匹配方式,使得敏感词的组合更加灵活多变,匹配规则更加准确,相应的检测结果也更加准确,并且表达式匹配的过程采用栈的数据结构,满足复杂表达式匹配同时,还能够减少字符串的对比频率,提高匹配性能;通过正则匹配对词组进行补充,解决一些难以召回且有规律的问题;通过信息特征匹配能够进一步把控检测准确率;
(4)与现有技术相比,本发明通过第二信息处理与违规内容检测,丰富了违规检测的维度,实现了从词组、词间距、重组结果、命中率、会话长度等多个方面进行检测,能够大大降低误判率,提高检测准确度;
(5)与现有技术相比,本发明通过归纳处理得到归纳信息,能够便于更新可疑违规内容与违规内容的判断方式,在检测过程中不断更新判断方式,进一步提高检测效率与准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一实施例提供的社交信息违规检测方法的流程简图;
图2为本发明一实施例提供的社交信息违规检测系统的结构简图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明的一种社交信息违规检测方法,其包括以下步骤:S1、获取待检测信息,并对其进行第一信息处理,第一信息处理至少包括构建上下文、拼音转换与形式转换,分别得到待检测信息对应的上下文信息、拼音信息、标准形式信息;S2、将待检测信息以及其对应的上下文信息、拼音信息、标准形式信息分别进行预设违规检测匹配,判断是否为可疑违规内容,若是,则执行步骤S3;S3、对可疑违规内容进行第二信息处理,并判断可疑违规内容是否为违规内容,若是,则执行步骤S4;S4、获取违规内容发布者的用户特征与预设违规用户特征,并将二者进行对比,判断违规内容发布者的用户特征是否符合预设违规用户特征,若是,则执行预设违规处理方式,若否,则生成并下发待复核通知。
本发明通过第一信息处理,能够结合上下文信息、拼音信息、标准形式信息多方式一并进行预设违规检测匹配,能够提高检测效率,同时避免单一检测方式无法从某句话中检测到违规特征的情况,或者当待检测信息存在多音字变种、话术变种时,无法检测到违规特征的情况,进而能够提高检测准确率;通过对可疑违规内容进行第二信息处理,并判断可疑违规内容是否为违规内容,以及对用户特征的检测能够在提高检测效率的同时,进一步降低误判率,实现检测准确率的提高;最后,当待检测信息被判定为违规内容,且待检测信息的发布者的用户特征同时符合预设违规用户特征时,直接执行预设违规处理方式,提高处理效率。
在本实施例中,步骤S1至少包括:获取待检测信息,并判断待检测信息的类型;若待检测信息为文本信息,则直接进行第一信息处理;若待检测信息为图片信息,则对其进行OCR识别处理,将图片信息转换为文本信息后再进行第一信息处理;若待检测信息为音频信息,则对其进行ASR识别处理,将音频信息转换为文本信息后再进行第一信息处理。
本发明通过将图片信息与语音信息转换为文本信息,能够避免图片中的文字存在违规内容或语音中存在违规内容,但通过单一的检测方式却无法得到准确的检测结果的情况,提高了违规检测方法的通用性。
在本实施例中,上下文构建具体为:从待检测信息的会话上文的有序集合中计算得到预设时间段内的上文内容或预设数量的上文内容,再与待检测信息进行拼接,得到上下文信息;会话上文的有序集合是通过获取会话id(会话id是一种唯一标识当前访问服务器的客户的只读值)、时间戳,以会话id为key,以时间戳为score,以会话内容为value,将会话内容记录在Redis缓存中间件,并为每个会话建立有一个会话上文的有序集合;拼音转换具体为:将文本信息转换为拼音,得到拼音信息;形式转换具体为:将文本信息的形式转换为标准形式,得到标准形式信息。
在本实施例中,步骤S2中,预设违规检测匹配至少包括词组匹配、正则匹配与信息特征匹配其中之一;词组匹配具体为:通过字典树(AC树)判断待检测信息中是否存在敏感词,若是,再将待检测信息与第二预设表达式进行匹配,判断待检测信息是否命中第二预设表达式,若是,则为可疑违规内容,若否,则并非可疑违规内容;正则匹配具体为:通过正则匹配判断待检测信息是否命中预设校验表达式,若是,则为可疑违规内容,若否,则并非可疑违规内容;信息特征匹配具体为:获取待检测信息的发布者在指定时间段内的信息特征,并判断其是否超过预设信息特征阈值;若是,则为可疑违规内容,若否,则并非可疑违规内容。
优选的,预设校验表达式至少包括以下校验表达式其中之一:
第一校验表达式,用于校验待检测信息中是否包含联系方式;
第二校验表达式,用于校验待检测信息中是否包含网址;
第三校验表达式,用于校验待检测信息中是否包含特殊符号;
第四校验表达式,用于校验待检测信息中是否包含藏头诗;
当预设校验表达式包括两个以上的校验表达式时,待检测信息命中其中之一即为可疑违规内容。
需要说明的是,上述校验表达式只是本发明的优选实施例,不构成对本发明的不当限定,在实际应用中可根据需要预设其他校验表达式,用于校验待检测信息中是否包含某些存在一定规律的可疑违规内容。
在本实施例中,第一预设表达式是根据敏感词的组合方式形成的;信息特征至少包括信息发布频率、所发布信息之间的信息相似度其中之一,预设信息特征阈值至少包括信息发布频率阈值与信息相似度阈值其中之一。
本发明通过词组匹配,摒弃了单一的敏感词匹配方式,采用敏感词+表达式匹配方式,使得敏感词的组合更加灵活多变,匹配规则更加准确,相应的检测结果也更加准确,并且表达式匹配的过程采用栈的数据结构,满足复杂表达式匹配同时,还能够减少字符串的对比频率,提高匹配性能;
通过正则匹配对词组进行补充,解决一些难以召回且有规律的问题;例如使用Unicode正则解决特殊字符难以召回问题,或者使用正则匹配解决藏头诗难以召回问题等。
通过信息特征匹配能够进一步把控检测准确率,例如:短时间内跟大量的用户发送(根据信息发布频率判断)相同或相似(根据信息相似度判断)的消息,若超过预设信息特征阈值则为可疑违规内容,相反,则并非可疑违规内容。
在本实施例中,步骤S3中,第二信息处理至少包括词组排除处理、词间距判断处理、拆分处理其中一种或两种以上;预设词组排除处理具体为:获取预设排除词组,判断可疑违规内容中是否存在预设排除词组,若是,则并非违规内容,若否,则为违规内容;词间距判断处理具体为:通过字典树判断可疑违规内容中是否存在敏感词,若是,则进一步计算敏感词的位置信息;进行后缀表达式匹配,判断是否命中第二预设表达式,以及位置信息是否满足预设词间距,若是,则为违规内容,若否,则并非违规内容;拆分处理具体为:对可疑违规内容进行拆分,得到拆分结果;将拆分结果进行重组,得到重组结果;判断重组结果中是否存在敏感词,若是,则为违规内容,若否,则并非违规内容。
优选的,词间距判断处理中的第二预设表达式与词组匹配中的第一预设表达式一致。
具体而言,假设词间距判断处理中的敏感词为:“兼”“职”“有兴趣”,第二预设表达式为“(兼)&(职)&(有兴趣)”,预设词间距为范围值[-2,2]。词间距包含正负两种,通过词间距判断处理既能解决词语中间插入字符的问题,也解决词组颠倒的问题。某些广告为绕开敏感词在词中间加入一些符号或颠倒词语,虽不影响语义,但却可以绕开普通的敏感词匹配,例如:“兼,职。有兴趣”、“职,兼。有兴趣”等类似内容。
例1,对于可疑违规内容:你兼职有兴趣吗。
词间距判断处理具体为:先通过字典树匹配后得到“兼”“职”“有兴趣”三个敏感词,进一步计算敏感词的位置信息(2,3,4);再进行后缀表达式匹配,判断[“兼”,2],[“职”,3],[“有兴趣”,4]是否命中第二预设表达式,以及位置信息是否满足预设词间距,其中,数字是每个敏感词的位置信息;
由于用户私信内容同时存在“兼”“职”“有兴趣”三个敏感词,命中第二预设表达式,而3-2=1,属于预设词间距内,4-3=1也属于预设词间距内,满足预设词间距,因此该可疑违规内容属于违规内容。
例2,对于可疑违规内容:你是做过兼职吗?
词间距判断处理具体为:先通过字典树匹配后得到“兼”“职”两个敏感词,进一步计算敏感词的位置信息(2,3);进行后缀表达式匹配后确定可疑违规内容并没有同时存在“兼”“职”“有兴趣”三个敏感词,因此,该可疑违规内容并非违规内容;
例3,对于可疑违规内容:你兼XXX职XXX有兴趣吗(XXX为其他文字)。
词间距判断处理具体为:先通过字典树匹配后得到“兼”“职”“有兴趣”三个敏感词,进一步计算敏感词的位置信息(2,6,10);再进行后缀表达式匹配,判断[“兼”,2],[“职”,6],[“有兴趣”,10]是否命中第二预设表达式,以及位置信息是否满足预设词间距;
由于用户私信内容同时存在“兼”“职”“有兴趣”三个敏感词,命中第二预设表达式,而5-2=3,且8-5=3,不属于预设词间距内,因此该可疑违规内容并非违规内容。
优选的,预设排除词组为容易与敏感词混淆,造成误判的相关词组,例如:要召回“感兴趣”的词组,在进行检测匹配时,“不感兴趣”、“没感兴趣”等正常的会话内容也会被误召回,此时就可以通过将“不感兴趣”、“没感兴趣”等正常的会话内容设置为预设排除词组,以降低误召回,提高准确率。
优选的,拆分处理至少包括拆字处理与拆词处理。
在本实施例中,步骤S3中判断可疑违规内容是否为违规内容,具体为根据第二信息处理直接判断是否为违规内容,或者通过第二信息处理与特殊判断相结合,判断是否为违规内容;特殊判断至少包括命中率判断、会话长度判断其中一种或两种;命中率判断具体为:获取待检测信息的发布者的违规记录,违规记录至少包括违规次数与违规频率;判断违规次数与违规频率是否大于预设违规次数阈值与预设违规频率阈值,若是,则为违规内容,若否,则并非违规内容;会话长度判断具体为:获取待检测信息对应的会话长度,判断会话长度是否小于预设会话长度阈值,若是,则为违规内容,若否,则并非违规内容。
本发明通过第二信息处理与违规内容检测,丰富了违规检测的维度,实现了从词组、词间距、重组结果、命中率、会话长度等多个方面进行检测,能够大大降低误判率,提高检测准确度。
优选的,为保证更高的检测准确率,可通过第二信息处理与特殊判断相结合,判断是否为违规内容,即当待检测信息在第二信息处理中均被判定为违规信息,且在特殊判定中也均被判定为违规信息时,才认为待检测信息为违规信息。更具体地,可根据所需检测准确率的实际需要,调整第二信息处理与特殊判断的所需结合种类。
在本实施例中,步骤S4中的用户特征至少包括用户注册时间、历史处罚记录、性别、认证状态其中一种或两种以上;预设违规处理方式为自动处罚,生成并下发待复核通知后,进入人工复核;所述方法还包括步骤S5、记录违规检测结果与对应的处理结果,并进行归纳处理得到归纳信息,用于更新可疑违规内容与违规内容的判断方式。
优选的,用户特征还包括财富等级,魅力值等。预设违规用户特征可根据实际检测需要进行设置,例如预设合适的用户注册时间实现对用户注册时间的检测,将发布者的历史处罚记录与系统记录的历史违规记录中的用户进行比对,实现对发布者的历史处罚记录的检测;类似的,性别、认证状态等也可以通过类似设置进行检测。
本发明通过归纳处理得到归纳信息,能够便于更新可疑违规内容与违规内容的判断方式,在检测过程中不断更新判断方式,进一步提高检测效率与准确率。
如图2所示,本发明还对应提供一种社交信息违规检测系统,其包括:第一信息处理模块10,用于获取待检测信息,并对其进行第一信息处理,第一信息处理至少包括上下文构建、拼音转换与形式转换,分别得到待检测信息对应的上下文信息、拼音信息、标准形式信息;可疑违规内容检测模块20,用于将待检测信息以及其对应的上下文信息、拼音信息、标准形式信息分别进行预设违规检测匹配,判断是否为可疑违规内容;违规内容检测模块30,用于对可疑违规内容进行第二信息处理,并判断可疑违规内容是否为违规内容;用户特征检测模块40,用于获取违规内容发布者的用户特征与预设违规用户特征,并将二者进行对比,判断违规内容发布者的用户特征是否符合预设违规用户特征;违规处理模块50,用于执行预设违规处理方式,或者生成并下发待复核通知。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有社交信息违规检测程序,所述社交信息违规检测程序被处理器执行时实现如上文所述的社交信息违规检测方法的步骤。该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现图1所示的社交信息违规检测方法。所述计算机可读存储介质可以是只读存储器,磁盘或光盘等。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (9)

1.一种社交信息违规检测方法,其特征在于,包括以下步骤:
S1、获取待检测信息,并对其进行第一信息处理,第一信息处理至少包括构建上下文、拼音转换与形式转换,分别得到待检测信息对应的上下文信息、拼音信息、标准形式信息;
S2、将待检测信息以及其对应的上下文信息、拼音信息、标准形式信息分别进行预设违规检测匹配,判断是否为可疑违规内容,若是,则执行步骤S3;
S3、对可疑违规内容进行第二信息处理,并判断可疑违规内容是否为违规内容,若是,则执行步骤S4;
S4、获取违规内容发布者的用户特征与预设违规用户特征,并将二者进行对比,判断违规内容发布者的用户特征是否符合预设违规用户特征,若是,则执行预设违规处理方式,若否,则生成并下发待复核通知;
步骤S2中,预设违规检测匹配至少包括词组匹配、正则匹配与信息特征匹配其中之一;
词组匹配具体为:通过字典树判断待检测信息中是否存在敏感词,若是,再将待检测信息与第一预设表达式进行匹配,判断待检测信息是否命中第一预设表达式,若是,则为可疑违规内容,若否,则并非可疑违规内容;
正则匹配具体为:通过正则匹配判断待检测信息是否命中预设校验表达式,若是,则为可疑违规内容,若否,则并非可疑违规内容;
信息特征匹配具体为:获取待检测信息的发布者在指定时间段内的信息特征,并判断其是否超过预设信息特征阈值;若是,则为可疑违规内容,若否,则并非可疑违规内容;
步骤S3中,第二信息处理至少包括词组排除处理、词间距判断处理、拆分处理其中一种或两种以上;
词间距判断处理具体为:通过字典树判断可疑违规内容中是否存在敏感词,若是,则进一步计算敏感词的位置信息;进行后缀表达式匹配,判断是否命中第二预设表达式,以及位置信息是否满足预设词间距,若是,则为违规内容,若否,则并非违规内容。
2.根据权利要求1所述的社交信息违规检测方法,其特征在于:步骤S1至少包括:
获取待检测信息,并判断待检测信息的类型;
若待检测信息为文本信息,则直接进行第一信息处理;若待检测信息为图片信息,则对其进行OCR识别处理,将图片信息转换为文本信息后再进行第一信息处理;若待检测信息为音频信息,则对其进行ASR识别处理,将音频信息转换为文本信息后再进行第一信息处理。
3.根据权利要求2所述的社交信息违规检测方法,其特征在于:构建上下文具体为:从待检测信息的会话上文的有序集合中计算得到预设时间段内的上文内容或预设数量的上文内容,再与待检测信息进行拼接,得到上下文信息;会话上文的有序集合是通过获取会话id、时间戳,以会话id为key,以时间戳为score,以会话内容为value,将会话内容记录在Redis缓存中间件,并为每个会话建立有一个会话上文的有序集合;
拼音转换具体为:将文本信息转换为拼音,得到拼音信息;
形式转换具体为:将文本信息的形式转换为标准形式,得到标准形式信息。
4.根据权利要求1所述的社交信息违规检测方法,其特征在于:第一预设表达式是根据敏感词的组合方式形成的;
信息特征至少包括信息发布频率、所发布信息之间的信息相似度其中之一,预设信息特征阈值至少包括信息发布频率阈值与信息相似度阈值其中之一。
5.根据权利要求1所述的社交信息违规检测方法,其特征在于:预设词组排除处理具体为:获取预设排除词组,判断可疑违规内容中是否存在预设排除词组,若是,则并非违规内容,若否,则为违规内容;
拆分处理具体为:对可疑违规内容进行拆分,得到拆分结果;将拆分结果进行重组,得到重组结果;判断重组结果中是否存在敏感词,若是,则为违规内容,若否,则并非违规内容。
6.根据权利要求5所述的社交信息违规检测方法,其特征在于:步骤S3中判断可疑违规内容是否为违规内容,具体为根据第二信息处理直接判断是否为违规内容,或者通过第二信息处理与特殊判断相结合,判断是否为违规内容;
特殊判断至少包括命中率判断、会话长度判断其中一种或两种;
命中率判断具体为:获取待检测信息的发布者的违规记录,违规记录至少包括违规次数与违规频率;判断违规次数与违规频率是否大于预设违规次数阈值与预设违规频率阈值,若是,则为违规内容,若否,则并非违规内容;
会话长度判断具体为:获取待检测信息对应的会话长度,判断会话长度是否小于预设会话长度阈值,若是,则为违规内容,若否,则并非违规内容。
7.根据权利要求1所述的社交信息违规检测方法,其特征在于:步骤S4中的用户特征至少包括用户注册时间、历史处罚记录、性别、认证状态其中一种或两种以上;预设违规处理方式为自动处罚,生成并下发待复核通知后,进入人工复核;
所述方法还包括步骤S5、记录违规检测结果与对应的处理结果,并进行归纳处理得到归纳信息,用于更新可疑违规内容与违规内容的判断方式。
8.一种社交信息违规检测系统,其特征在于,包括:
第一信息处理模块,用于获取待检测信息,并对其进行第一信息处理,第一信息处理至少包括上下文构建、拼音转换与形式转换,分别得到待检测信息对应的上下文信息、拼音信息、标准形式信息;
可疑违规内容检测模块,用于将待检测信息以及其对应的上下文信息、拼音信息、标准形式信息分别进行预设违规检测匹配,判断是否为可疑违规内容;预设违规检测匹配至少包括词组匹配、正则匹配与信息特征匹配其中之一;词组匹配具体为:通过字典树判断待检测信息中是否存在敏感词,若是,再将待检测信息与第一预设表达式进行匹配,判断待检测信息是否命中第一预设表达式,若是,则为可疑违规内容,若否,则并非可疑违规内容;正则匹配具体为:通过正则匹配判断待检测信息是否命中预设校验表达式,若是,则为可疑违规内容,若否,则并非可疑违规内容;信息特征匹配具体为:获取待检测信息的发布者在指定时间段内的信息特征,并判断其是否超过预设信息特征阈值;若是,则为可疑违规内容,若否,则并非可疑违规内容;
违规内容检测模块,用于对可疑违规内容进行第二信息处理,并判断可疑违规内容是否为违规内容;第二信息处理至少包括词组排除处理、词间距判断处理、拆分处理其中一种或两种以上;词间距判断处理具体为:通过字典树判断可疑违规内容中是否存在敏感词,若是,则进一步计算敏感词的位置信息;进行后缀表达式匹配,判断是否命中第二预设表达式,以及位置信息是否满足预设词间距,若是,则为违规内容,若否,则并非违规内容;
用户特征检测模块,用于获取违规内容发布者的用户特征与预设违规用户特征,并将二者进行对比,判断违规内容发布者的用户特征是否符合预设违规用户特征;
违规处理模块,用于执行预设违规处理方式,或者生成并下发待复核通知。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有社交信息违规检测程序,所述社交信息违规检测程序被处理器执行时实现如权利要求1至7任一项所述的社交信息违规检测方法的步骤。
CN202310652754.4A 2023-06-02 2023-06-02 一种社交信息违规检测方法、系统及存储介质 Active CN116822496B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310652754.4A CN116822496B (zh) 2023-06-02 2023-06-02 一种社交信息违规检测方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310652754.4A CN116822496B (zh) 2023-06-02 2023-06-02 一种社交信息违规检测方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN116822496A CN116822496A (zh) 2023-09-29
CN116822496B true CN116822496B (zh) 2024-04-19

Family

ID=88111928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310652754.4A Active CN116822496B (zh) 2023-06-02 2023-06-02 一种社交信息违规检测方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN116822496B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9195808B1 (en) * 2009-07-27 2015-11-24 Exelis Inc. Systems and methods for proactive document scanning
CN109598633A (zh) * 2018-12-13 2019-04-09 平安医疗健康管理股份有限公司 社保违规检测方法、装置、设备及计算机存储介质
CN110941959A (zh) * 2018-09-21 2020-03-31 阿里巴巴集团控股有限公司 文本违规检测、文本还原方法、数据处理方法及设备
CN112231484A (zh) * 2020-11-19 2021-01-15 湖南红网新媒体集团有限公司 一种新闻评论审核方法、系统、装置和存储介质
CN113343058A (zh) * 2021-05-31 2021-09-03 平安普惠企业管理有限公司 语音会话监管方法、装置、计算机设备及存储介质
CN114139533A (zh) * 2021-12-06 2022-03-04 北京邮电大学 一种面向中文小说领域的文本内容审核方法
CN114282097A (zh) * 2021-11-19 2022-04-05 重庆市通信产业服务有限公司中冉信息分公司 一种信息识别方法及其装置
CN114548118A (zh) * 2022-04-27 2022-05-27 中信建投证券股份有限公司 一种服务对话检测方法及系统
CN114610840A (zh) * 2022-03-23 2022-06-10 平安普惠企业管理有限公司 基于敏感词的账务监控方法、装置、设备及存储介质
CN115017898A (zh) * 2022-07-01 2022-09-06 北京百度网讯科技有限公司 敏感文本的识别方法、装置、电子设备及存储介质
CN115809662A (zh) * 2023-02-03 2023-03-17 北京匠数科技有限公司 一种文本内容异常检测的方法、装置、设备及介质
CN115827903A (zh) * 2021-12-28 2023-03-21 北京蓝太平洋科技股份有限公司 媒体信息的违规检测方法、装置、电子设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9195808B1 (en) * 2009-07-27 2015-11-24 Exelis Inc. Systems and methods for proactive document scanning
CN110941959A (zh) * 2018-09-21 2020-03-31 阿里巴巴集团控股有限公司 文本违规检测、文本还原方法、数据处理方法及设备
CN109598633A (zh) * 2018-12-13 2019-04-09 平安医疗健康管理股份有限公司 社保违规检测方法、装置、设备及计算机存储介质
CN112231484A (zh) * 2020-11-19 2021-01-15 湖南红网新媒体集团有限公司 一种新闻评论审核方法、系统、装置和存储介质
CN113343058A (zh) * 2021-05-31 2021-09-03 平安普惠企业管理有限公司 语音会话监管方法、装置、计算机设备及存储介质
CN114282097A (zh) * 2021-11-19 2022-04-05 重庆市通信产业服务有限公司中冉信息分公司 一种信息识别方法及其装置
CN114139533A (zh) * 2021-12-06 2022-03-04 北京邮电大学 一种面向中文小说领域的文本内容审核方法
CN115827903A (zh) * 2021-12-28 2023-03-21 北京蓝太平洋科技股份有限公司 媒体信息的违规检测方法、装置、电子设备及存储介质
CN114610840A (zh) * 2022-03-23 2022-06-10 平安普惠企业管理有限公司 基于敏感词的账务监控方法、装置、设备及存储介质
CN114548118A (zh) * 2022-04-27 2022-05-27 中信建投证券股份有限公司 一种服务对话检测方法及系统
CN115017898A (zh) * 2022-07-01 2022-09-06 北京百度网讯科技有限公司 敏感文本的识别方法、装置、电子设备及存储介质
CN115809662A (zh) * 2023-02-03 2023-03-17 北京匠数科技有限公司 一种文本内容异常检测的方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于主题网络爬虫的不良网页的发现与识别;方育柯;傅彦;周俊临;夏虎;;郑州大学学报(理学版);20100615(第02期);26-30 *
基于敏感词分析的高校舆情监控系统设计与实现;朱金山;;集宁师范学院学报;20171120(第06期);43-47 *

Also Published As

Publication number Publication date
CN116822496A (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
US10777207B2 (en) Method and apparatus for verifying information
US11580993B2 (en) Keyword determinations from conversational data
US20170147682A1 (en) Automated text-evaluation of user generated text
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置
CN110223692B (zh) 用于语音对话平台跨技能的多轮对话方法及系统
CN107451131A (zh) 一种语音识别方法及装置
CN104199956B (zh) 一种erp数据语音搜索方法
WO2017088363A1 (zh) 筛选发音词典有效词条的方法及装置
WO2018086040A1 (zh) 消息处理方法、装置和电子设备
CN112468659A (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
TWI749349B (zh) 文本還原方法、裝置及電子設備與電腦可讀儲存媒體
CN111414764A (zh) 对话文本的技能领域确定方法及系统
CN106558311A (zh) 语音内容提示方法和装置
CN116822496B (zh) 一种社交信息违规检测方法、系统及存储介质
WO2024055603A1 (zh) 一种未成年人文本识别方法及装置
CN111383660B (zh) 一种网站不良信息监测系统及其监测方法
CN112541109A (zh) 答案摘要抽取方法及装置、电子设备、可读介质、产品
CN109905359B (zh) 通信消息处理方法、装置、计算机设备及可读存取介质
CN109273004B (zh) 基于大数据的预测性语音识别方法及装置
KR100742130B1 (ko) 키워드 기반 스팸 검출 방법 및 시스템
CN110992067B (zh) 消息推送方法、装置、计算机设备及存储介质
CN111091812B (zh) 小语种语料的生成方法及系统
CN116244740B (zh) 一种日志脱敏方法、装置、电子设备及存储介质
TWI752474B (zh) 無障礙智能語音系統及其控制方法
CN110209755B (zh) Poi导航地址的扩展方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant