CN108647309B - 基于敏感词的聊天内容审核方法及系统 - Google Patents

基于敏感词的聊天内容审核方法及系统 Download PDF

Info

Publication number
CN108647309B
CN108647309B CN201810439750.7A CN201810439750A CN108647309B CN 108647309 B CN108647309 B CN 108647309B CN 201810439750 A CN201810439750 A CN 201810439750A CN 108647309 B CN108647309 B CN 108647309B
Authority
CN
China
Prior art keywords
text
auditing
sensitive
word
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810439750.7A
Other languages
English (en)
Other versions
CN108647309A (zh
Inventor
周颢钰
文辉
纪达麒
陈运文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Co ltd
Original Assignee
Datagrand Tech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Tech Inc filed Critical Datagrand Tech Inc
Priority to CN201810439750.7A priority Critical patent/CN108647309B/zh
Publication of CN108647309A publication Critical patent/CN108647309A/zh
Application granted granted Critical
Publication of CN108647309B publication Critical patent/CN108647309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于敏感词的聊天内容审核方法及系统。该聊天内容审核方法包括:将敏感词词库划分成包含行话集合的至少两个敏感词集合;将每个所述敏感词集合与文本库进行匹配,生成每个所述敏感词集合对应的文本集合;将所述文本集合中的文本作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型;将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果。本申请解决了解决现有的文本审核系统仅通过关键词对比进行审核容易导致误判,以及无法及时有效的的对新词、行话做出反应的问题。

Description

基于敏感词的聊天内容审核方法及系统
技术领域
本申请涉及一种文本内容审核方法,具体而言,涉及一种基于敏感词的聊 天内容审核方法及系统。
背景技术
随着网络的普及和迅速发展,网络游戏、手机游戏已经取代了单机游戏, 成为了电子游戏的主流。相比于单机游戏,网络游戏、手机游戏最重要的一个 特点是这些游戏都是有多名玩家共同参与的,在游戏期间,玩家与玩家之间也 必然会产生交流。因此,也会产生很多不符合国家法律法规的言论,对游戏的 运营产生风险。另一方面,玩家之家的恶言恶语会使得游戏环境变差,造成玩 家的流失,而一些违规的账号交易更是会直接影响到运营方的营收。因此,在 玩家发表自己的言论之前进行必要的审核是必不可少的一个环节。所以,构建 一套具有针对性的文本审核系统具有重要的应用意义。
传统的文本审核系统一般都是通过关键词与待审核文本直接进行匹配来 判断一段文本是否违规,这样做的问题是经常会出现误杀的情况。例如当玩家 的聊天内容中包含了曹操时,很有可能会因为那个操字导致被判定为违法文本。 此外,互联网热点事件的产生会导致一些新词的诞生,这些新词在短期内具有 较高的关注度和较强的传播能力。其中一些涉及到游戏的词,例如游戏“守望 先锋”被玩家戏称为“守望屁股”,如果因为屁股这个词而判定“守望屁股” 为违规样本显然是有问题的。另外,对于违规交易例如账号买卖等行为,由于 涉及利益,交易者在发现交易词被系统屏蔽时往往不会善罢甘休,而是会想方 设法弄出一套所谓行话来继续交易,例如某手游中使用人民币购买游戏中虚拟 货币的行为称之为收菜。如果无法及时对新词、行话做出反应,便无法对这些 带有新词、行话的文本进行准确的分类,最终将导致整个游戏环境受到极为恶 劣的影响。
针对上述在聊天内容审核中问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种聊天内容审核方法,以解决现有的文本 审核系统仅通过关键词对比进行审核容易导致误判,以及无法及时有效的 的对新词、行话做出反应的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于敏感词 的聊天内容审核方法。
根据本申请的基于敏感词的聊天内容审核方法包括:根据预设的分类方 法将敏感词词库划分成至少两个敏感词集合;将每个所述敏感词集合与文本库 进行匹配,生成每个所述敏感词集合对应的文本集合;将所述文本集合中的文 本作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核 模型;将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核 结果。
进一步的,所述基于敏感词的聊天内容审核方法包括:接收待添加的敏 感词,并根据所述预设的分类方法将所述待添加的敏感词添加到对应的所述敏 感词集合中。
进一步的,所述将所述文本集合中的文本作为训练材料进行机器学习, 生成每个所述敏感词集合对应的分类审核模型,包括:将所述文本集合中的文 本按照预设的文本分解模型进行分词处理,得到文本的分词结果;对所述文本 的分词结果进行独热编码处理,得到所述文本的独热编码;将所述文本集合中 所有文本的独热编码作为训练材料进行机器学习处理,生成每个所述敏感词集 合对应的分类审核模型。
进一步的,所述将所述文本集合中的文本按照预设的文本分解模型进行 分词处理,得到文本的分词结果,包括:对所述文本集合中的文本按照是否被 判定为违规文本进行分类,将每个文本集合划分成违规文本集合和正常文本集 合;将所述违规文本集合和所述正常文本集合中的文本均按照预设的文本分解 模型进行分词处理,得到文本的分词结果。
进一步的,所述将待审核的文本送入一个或多个分类审核模型中进行审 核,并得出审核结果,包括:将所述待审核的文本与每个的所述敏感词集合进 行匹配,确定所述待审核的文本对应的一个或多个所述敏感词集合;将所述待 审核的文本送入所述对应的一个或多个所述敏感词集合对应的分类审核模型 中进行审核,并得出审核结果。
进一步的,所述基于敏感词的聊天内容审核方法包括:收集并储存所有 被判定为正常的文本;对所有被判定为正常的文本按照预设的文本分解模型进 行分词处理,得到文本的分词结果;计算所述分词结果中所有词组在一定时间 内的出现频率提高率,并根据词组的出现频率提高率对词组进行输出。
为了实现上述目的,根据本申请的另一方面,提供了一种基于敏感词 的聊天内容审核系统。
根据本申请的基于敏感词的聊天内容审核系统包括:
敏感词预处理模块,用于根据预设的分类方法将敏感词词库划分成至少两 个敏感词集合;
文本预处理模块,用于生成每个所述敏感词集合对应的文本集合,并对每 个所述文本集合中的文本进行分词、以及独热编码处理;
机器学习模块,用于把每个文本集合的文本独热编码作为训练材料进行机 器学习处理,生成每个所述敏感词集合对应的分类审核模型;
分类审核模块,用于将待审核的文本送入一个或多个分类审核模型中进行 审核,并得出审核结果。
进一步的,所述基于敏感词的聊天内容审核系统包括:
敏感词添加模块,用于接收待添加的敏感词,并将所述待添加的敏感词添 加到对应的所述敏感词集合中;
疑点词反馈模块,用于检测所有被判定为正常的文本中的词组在一定时间 内的出现频率提高率,并根据词组的出现频率提高率对词组进行输出。
在本申请实施例中,采用将敏感词词库划分成包含行话集合的至少两个 敏感词集合的方式,通过机器学习的方式为每个敏感词集合生成对应的分 类审核模型,达到了提高审核准确率、以及针对行话进行审核的目的,从 而解决了现有的文本审核系统仅通过关键词对比进行审核容易导致误判, 以及无法及时有效的的对新词、行话做出反应的问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本 申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及 其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是第一实施例聊天内容审核方法流程示意图;
图2是第二实施例聊天内容审核方法流程示意图;
图3是第三实施例聊天内容审核方法流程示意图;
图4是第四实施例聊天内容审核方法流程示意图;
图5是第五实施例聊天内容审核方法流程示意图;
图6是第六实施例聊天内容审核方法流程示意图;以及
图7是实施例聊天内容审核系统结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施 例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所 描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申 请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所 有其他实施例,都应当属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征 可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,本申请涉及一种基于敏感词的聊天内容审核方法,该聊天内 容审核方法包括步骤S101至步骤S104。
步骤S101,根据预设的分类方法将敏感词词库划分成至少两个敏感词集 合。在本步骤中,将敏感词词库中的敏感词分为三个集合,分别为严重违规词 集合、疑似违规词集合、和行话集合。对于一个敏感词,如果其违规程度非常 深,那么将其划入严重违规词集合;如果其仅仅类似于屁股等词,则将其划入 疑似违规词集合;如果其属于当前游戏中特有的行话,则将其划入行话集。
步骤S102,将每个所述敏感词集合与文本库进行匹配,生成每个所述敏 感词集合对应的文本集合。在本步骤中,所述文本库中储存了包括所有已经审 核过的文本,将文本库中的所有文本通过去HTML标签、标点符号以及游戏 中提供的特殊表情等操作,只保留文字内容,将文本转换为可处理的文本,然 后,直接使用上述的三个敏感词集合中的敏感词来对文本库中的文本进行匹 配,若文本包含某类敏感词,则将其添加进对应的集合当中,由此对上述三个 敏感词集合生成对应的三个文本集合。
步骤S103,将所述文本集合中的文本作为训练材料进行机器学习处理, 生成每个所述敏感词集合对应的分类审核模型。在本步骤中,把步骤S102中 生成的三个文本集合作为训练材料进行机器学习处理,在本申请的一可选实施 例中,机器学习由支持向量机实现,最终生成与每个所述敏感词集合对应的独 立的分类审核模型。
步骤S104,将待审核的文本送入一个或多个分类审核模型中进行审核, 并得出审核结果。在本步骤中,根据所述待审核的文本包含的敏感词种类,将 所述待审核的文本送入对应的一个或多个所述敏感词集合的分类审核模型中 进行审核,如果其中一个所述分类审核模型判定所述待审核的文本为违规文 本,则该文本被判定为违规文本。
如图2所示,所述基于敏感词的聊天内容审核方法还包括步骤S201。
步骤S201,接收待添加的敏感词,并根据所述预设的分类方法将所述待 添加的敏感词添加到对应的所述敏感词集合中。在本步骤中,由于游戏交流中 往往是使用的短句,上下文信息不足,因此难以通过上下文语境和词的共现直 接确定出新的敏感词,依然需要人工添加各类敏感词。因此,本步骤用于不断 的往所述敏感词集合中添加新的敏感词,方便游戏运营方将敏感词库中没有包 含的词加入进来。
如图3所示,所述步骤S103,将所述文本集合中的文本作为训练材料进 行机器学习,生成每个所述敏感词集合对应的分类审核模型,具体包括步骤 S301至步骤S303。
步骤S301,将所述文本集合中的文本按照预设的文本分解模型进行分词 处理,得到文本的分词结果。在本步骤中,对所述文本集合中的文本分别使用 bigram和trigram模型进行分词处理,得到文本的所有单字、二字组、和三字 组。例如,对于文本“曹操快放大”的单字分解为“曹、操、快、放、大”,而通 过bigram模型进行分词处理得到的二字组为“曹操、操快、快放、放大”,而 通过trigram模型进行分词处理得到的三字组为“曹操快、操快放、快放大”。 通过马尔可夫模型可知,在bigram和trigram模型中,有意义的词出现的概率将远高于杂乱的词,因此,使用该模型可以很好得表达出文本代表的意义。进 一步,统计所有单字、二字组、三字组出现的频率,并过滤掉其中前10%和后 10%,原因是出现次数最多的10%往往缺少辨识度,而最少的10%往往是无意 义词组。
步骤S302,对所述文本的分词结果进行独热编码处理,得到所述文本的 独热编码。在本步骤中,使用独热编码对所述步骤S301中得到的文本单字、 二字组、三字组进行编码,并得到文本的独热编码。
步骤S303,将所述文本集合中所有文本的独热编码作为训练材料进行机 器学习处理,生成每个所述敏感词集合对应的分类审核模型。在本步骤中,将 每个敏感词集合对应的文本集合的文本独热编码作为训练数据分别送入支持 向量机进行训练,最终得到三个独立的分类审核模型,每个分类审核模型用于 审核对应的敏感词集合中的敏感词。
如图4所示,在所述步骤S301中,将所述文本集合中的文本按照预设的 文本分解模型进行分词处理,还包括步骤S401至步骤S402。
步骤S401,对所述文本集合中的文本按照是否被判定为违规文本进行分 类,将每个文本集合划分成违规文本集合和正常文本集合。在本步骤中,对于 上述三个敏感词集合对应的三个文本集合按照文本是否判定为违规文本再次 划分,将每个文本集合拆分成违规文本集合和正常文本集合,最终上述三个文 本集合被拆分成六个文本集合。本步骤是对每个文本集合中的违规文本和正常 文本进行区分,文本集合中的文本虽然都含有敏感词集合中的敏感词,但是不 是所有含有敏感词的文本都为违规文本,例如,文本“曹操快放大”,其中“操” 字为敏感词,因此文本被分到“操”字对应的敏感词集合对应的文本集合中,但是文本“曹操快放大”实际为正常文本,通过本步骤将每个文本集合中的违 规文本和正常文本进行区分。
步骤S402,将所述违规文本集合和所述正常文本集合中的文本按照预设 的文本分解模型进行分词处理。在本步骤中,将每个文本集合对应的违规文本 集合和正常文本集合都进行文本分词处理,通过正常文本集合和违规文本集合 两组训练数据进行机器训练,训练生成的分类审核模型能更好的判断出文本是 否违规,极大的提高了审核的准确性。
如图5所示,所述步骤S104,将待审核的文本送入一个或多个分类审核 模型中进行审核,并得出审核结果,具体包括步骤S501至步骤S502。
步骤S501,将所述待审核的文本与每个的所述敏感词集合进行匹配,确 定所述待审核的文本对应的一个或多个所述敏感词集合。在本步骤中,对于待 审核文本先检查其包含哪个敏感词集合中的敏感词,若其包含某个或某些敏感 词集合中的敏感词则将其送入该敏感词集合对应的分类审核模型中。
步骤S502,将所述待审核的文本送入所述对应的一个或多个所述敏感词 集合对应的分类审核模型中进行审核,并得出审核结果。在本步骤中,当待审 核的文本包含某个或某些敏感词集合中的敏感词则将其送入该敏感词集合对 应的分类审核模型中进行审核,当其中一个分类审核模型给出的审核结果表明 该文本违规,那么判定该文本违规,否则判定其为正常文本。
如图6所述,所述基于敏感词的聊天内容审核方法还包括步骤S601至步 骤S603。
步骤S601,收集并储存所有被判定为正常的文本。在本步骤中,收集并 储存所有审核过的且被判定为正常文本的文本。
步骤S602,对所有被判定为正常的文本按照预设的文本分解模型进行分 词处理,得到文本的分词结果。在本步骤中,对于判定为正常的文本使用bigram 模型进行分词处理,得到文本的二字组。
步骤S603,计算所述分词结果中所有词组在一定时间内的出现频率提高 率,并根据词组的出现频率提高率对词组进行输出。在本步骤中,每隔三天统 计出所有判定为正常的文本的二字组中出现评率较高的词,如果其中某些二字 组的出现频率较之前一次统计有超过50%的提升,那么就将该二字组输出交由 人工进行判定,其中三天、50%这些值可以根据具体游戏的流量和文本数量的 多寡进行调整。
由上述可见,该基于敏感词的聊天内容审核方法至少包括如下优点:
1.使用多级敏感词配合与之对应的模型代替了单个关键词的规则,使得 审核更具有针对性,有效地降低了误判的概率,提升审核准确度。
2.通过回顾已审核的正常文本中与出现次数产剧增的词作为疑点词反馈 给运营方核实,同时提供添加新敏感词的结构,在保证了准确率的同时对新词、 行话有较快的反应能力。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行 指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某 些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请的另一方面提供了一种基于敏感词的聊天内容审核系统,如图 7所示,该系统包括:敏感词预处理模块1、文本预处理模块2、机器学习模 块3、和分类审核模块4,其中:
所述敏感词预处理模块1,用于储存上述三个敏感词集合;
所述文本预处理模块2,用于生成每个所述敏感词集合对应的文本集合, 并对每个所述文本集合中的文本进行分词、以及独热编码处理;
所述机器学习模块3,用于把每个文本集合的文本独热编码作为训练材料 送入支持向量机中进行机器学习处理,生成每个所述敏感词集合对应的分类审 核模型;
所述分类审核模块4,用于将待审核的文本送入一个或多个分类审核模型 中进行审核,并得出审核结果。
如图7所示,基于敏感词的聊天内容审核系统还包括:敏感词添加模块5 和疑点词反馈模块6,其中:
所述敏感词添加模块5,用于接收待添加的敏感词,并将所述待添加的敏 感词添加到对应的所述敏感词集合中;
所述疑点词反馈模块6,用于检测所有被判定为正常的文本中的词组在一 定时间内的出现频率提高率,并根据词组的出现频率提高率对词组进行输出。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以 用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多 个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码 来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们 分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集 成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领 域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则 之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之 内。

Claims (8)

1.一种基于敏感词的聊天内容审核方法,其特征在于,包括:
根据预设的分类方法将敏感词词库划分成至少两个敏感词集合;
将每个所述敏感词集合与文本库进行匹配,生成每个所述敏感词集合对应的文本集合;
将所述文本集合中的文本作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型;
将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果;
收集并储存所有被判定为正常的文本;
对所有被判定为正常的文本按照预设的文本分解模型进行分词处理,得到文本的分词结果;
计算所述分词结果中所有词组在一定时间内的出现频率提高率,并根据词组的出现频率提高率对词组进行输出。
2.根据权利要求1所述的基于敏感词的聊天内容审核方法,其特征在于,包括:
接收待添加的敏感词,并根据所述预设的分类方法将所述待添加的敏感词添加到对应的所述敏感词集合中。
3.根据权利要求1所述的基于敏感词的聊天内容审核方法,其特征在于,所述将所述文本集合中的文本作为训练材料进行机器学习,生成每个所述敏感词集合对应的分类审核模型,包括:
将所述文本集合中的文本按照预设的文本分解模型进行分词处理,得到文本的分词结果;
对所述文本的分词结果进行独热编码处理,得到所述文本的独热编码;
将所述文本集合中所有文本的独热编码作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型。
4.根据权利要求3所述的基于敏感词的聊天内容审核方法,其特征在于,所述将所述文本集合中的文本按照预设的文本分解模型进行分词处理,得到文本的分词结果,包括:
对所述文本集合中的文本按照是否被判定为违规文本进行分类,将每个文本集合划分成违规文本集合和正常文本集合;
将所述违规文本集合和所述正常文本集合中的文本均按照预设的文本分解模型进行分词处理,得到文本的分词结果。
5.根据权利要求1所述的基于敏感词的聊天内容审核方法,其特征在于,所述将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果,包括:
将所述待审核的文本与每个的所述敏感词集合进行匹配,确定所述待审核的文本对应的一个或多个所述敏感词集合;
将所述待审核的文本送入所述对应的一个或多个所述敏感词集合对应的分类审核模型中进行审核,并得出审核结果。
6.一种基于敏感词的聊天内容审核系统,其特征在于,包括:
敏感词预处理模块,用于根据预设的分类方法将敏感词词库划分成至少两个敏感词集合;
文本预处理模块,用于生成每个所述敏感词集合对应的文本集合,并对每个所述文本集合中的文本进行分词、以及独热编码处理;
机器学习模块,用于把每个文本集合的文本独热编码作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型;
分类审核模块,用于将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果;
疑点词反馈模块,用于检测所有被判定为正常的文本中的词组在一定时间内的出现频率提高率,并根据词组的出现频率提高率对词组进行输出。
7.根据权利要求6所述的基于敏感词的聊天内容审核系统,其特征在于,包括:
敏感词添加模块,用于接收待添加的敏感词,并将所述待添加的敏感词添加到对应的所述敏感词集合中。
8.一种计算机设备,包括存储器、处理器及储存在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。
CN201810439750.7A 2018-05-09 2018-05-09 基于敏感词的聊天内容审核方法及系统 Active CN108647309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810439750.7A CN108647309B (zh) 2018-05-09 2018-05-09 基于敏感词的聊天内容审核方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810439750.7A CN108647309B (zh) 2018-05-09 2018-05-09 基于敏感词的聊天内容审核方法及系统

Publications (2)

Publication Number Publication Date
CN108647309A CN108647309A (zh) 2018-10-12
CN108647309B true CN108647309B (zh) 2021-08-10

Family

ID=63753834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810439750.7A Active CN108647309B (zh) 2018-05-09 2018-05-09 基于敏感词的聊天内容审核方法及系统

Country Status (1)

Country Link
CN (1) CN108647309B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710734A (zh) * 2018-12-11 2019-05-03 中国联合网络通信集团有限公司 结构化知识的自动审核方法、装置、系统及存储介质
CN109766441B (zh) * 2018-12-28 2021-07-09 奇安信科技集团股份有限公司 文本分类方法、装置及系统
CN110275958B (zh) * 2019-06-26 2021-07-27 北京市博汇科技股份有限公司 网站信息识别方法、装置和电子设备
CN110390016B (zh) * 2019-07-25 2023-07-18 山东浪潮智慧医疗科技有限公司 一种基于文本分类的健康商城商家入驻申请内容检查方法
CN110675269B (zh) * 2019-08-16 2023-01-10 创新先进技术有限公司 文本审核方法以及装置
CN112528638A (zh) * 2019-08-29 2021-03-19 北京沃东天骏信息技术有限公司 异常对象识别方法及装置、电子设备、存储介质
CN110674255B (zh) * 2019-09-24 2022-08-26 湖南快乐阳光互动娱乐传媒有限公司 文本内容审核方法及装置
CN111143557A (zh) * 2019-12-12 2020-05-12 北京小米移动软件有限公司 实时语音交互处理方法及装置、电子设备、存储介质
CN111309855A (zh) * 2019-12-24 2020-06-19 中国银行股份有限公司 一种文本信息的处理方法及系统
CN111222316B (zh) * 2020-01-03 2023-08-29 北京小米移动软件有限公司 文本检测方法、装置及存储介质
CN111881667B (zh) * 2020-07-24 2023-09-29 上海烽烁科技有限公司 一种敏感文本审核方法
CN113762846B (zh) * 2020-10-22 2024-04-16 北京京东振世信息技术有限公司 一种面单文本判别方法和装置
CN112241875A (zh) * 2020-10-23 2021-01-19 成都进托邦互联网信息服务有限公司 基于人工智能技术的网络游戏内容审核方法
CN112559776A (zh) * 2020-12-21 2021-03-26 绿瘦健康产业集团有限公司 一种敏感信息的定位方法及系统
CN112699264A (zh) * 2020-12-23 2021-04-23 绿瘦健康产业集团有限公司 一种基于聊天记录的风控管理方法及系统
CN112711718A (zh) * 2021-01-15 2021-04-27 上海观察者信息技术有限公司 一种评论信息的审核方法、装置、介质及电子设备
CN113010637A (zh) * 2021-02-24 2021-06-22 世纪龙信息网络有限责任公司 一种文本审核方法及装置
CN113132368B (zh) * 2021-04-12 2022-11-04 海南晨风科技有限公司 聊天数据的审核方法、装置及计算机设备
CN113704414A (zh) * 2021-09-02 2021-11-26 京东科技信息技术有限公司 一种数据处理方法、系统、存储介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176984A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种用户生成内容中欺骗性垃圾意见检测方法
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN106844349A (zh) * 2017-02-14 2017-06-13 广西师范大学 基于协同训练的垃圾评论识别方法
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN107515873A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种垃圾信息识别方法及设备
CN107612893A (zh) * 2017-09-01 2018-01-19 北京百悟科技有限公司 短信的审核系统和方法以及构建短信审核模型方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060075228A1 (en) * 2004-06-22 2006-04-06 Black Alistair D Method and apparatus for recognition and real time protection from view of sensitive terms in documents
EP2608431A1 (en) * 2011-12-19 2013-06-26 Thomson Licensing Method for processing an audiovisual content and corresponding device

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176984A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种用户生成内容中欺骗性垃圾意见检测方法
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN107515873A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种垃圾信息识别方法及设备
CN106844349A (zh) * 2017-02-14 2017-06-13 广西师范大学 基于协同训练的垃圾评论识别方法
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN107612893A (zh) * 2017-09-01 2018-01-19 北京百悟科技有限公司 短信的审核系统和方法以及构建短信审核模型方法

Also Published As

Publication number Publication date
CN108647309A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN108647309B (zh) 基于敏感词的聊天内容审核方法及系统
Zhou et al. Fake news early detection: A theory-driven model
Ahmed et al. Detecting opinion spams and fake news using text classification
US10891699B2 (en) System and method in support of digital document analysis
CN110222182B (zh) 一种语句分类方法及相关设备
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
Aisopos et al. Sentiment analysis of social media content using n-gram graphs
CN109831698A (zh) 信息审核方法、装置、电子设备及计算机可读取存储介质
Oliveira et al. Some experiments on modeling stock market behavior using investor sentiment analysis and posting volume from Twitter
CN110069784A (zh) 一种语音质检评分方法、装置、终端及可存储介质
JP5379138B2 (ja) 領域辞書の作成
Ahmed Detecting opinion spam and fake news using n-gram analysis and semantic similarity
CN106874253A (zh) 识别敏感信息的方法及装置
Carstens et al. Using argumentation to improve classification in natural language problems
US20100306214A1 (en) Identifying modifiers in web queries over structured data
Jeronimo et al. Fake news classification based on subjective language
CN111626042B (zh) 指代消解方法及装置
Sims et al. Measuring information propagation in literary social networks
CN110348003A (zh) 文本有效信息的抽取方法及装置
CN110166847A (zh) 弹幕处理方法和装置
YING et al. Towards opinion summarization from online forums
CN110417751B (zh) 一种网络安全预警方法、装置和存储介质
Luo et al. Entity sentiment analysis in the news: A case study based on negative sentiment smoothing model (nssm)
CN106372237A (zh) 欺诈邮件识别方法及装置
Kane et al. Do the communities we choose shape our political beliefs? A study of the politicization of topics in online social groups

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012

Patentee after: Daguan Data Co.,Ltd.

Address before: Room 515, building Y1, No. 112, liangxiu Road, Pudong New Area, Shanghai 201203

Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.