CN106445998B - 一种基于敏感词的文本内容审核方法及系统 - Google Patents

一种基于敏感词的文本内容审核方法及系统 Download PDF

Info

Publication number
CN106445998B
CN106445998B CN201610589166.0A CN201610589166A CN106445998B CN 106445998 B CN106445998 B CN 106445998B CN 201610589166 A CN201610589166 A CN 201610589166A CN 106445998 B CN106445998 B CN 106445998B
Authority
CN
China
Prior art keywords
text
sensitive
word
words
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610589166.0A
Other languages
English (en)
Other versions
CN106445998A (zh
Inventor
张健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Co ltd
Original Assignee
Datagrand Tech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Tech Inc filed Critical Datagrand Tech Inc
Publication of CN106445998A publication Critical patent/CN106445998A/zh
Application granted granted Critical
Publication of CN106445998B publication Critical patent/CN106445998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明公开了一种基于敏感词的文本内容审核方法,包括如下步骤:接收待审核文本,将待审核文本进行解析、分词,获取待审核文本中的所有关键词;根据所有关键词查询预设的敏感词数据库,获取待审核文本中的敏感词,敏感词数据库包括敏感词及其同义词或近义词;获取预设文本长度中与敏感词的共现的关键词,计算敏感词及其共现的关键词的违规权重,判断违规权重是否大于预设的违规阈值;如果违规权重大于预设的违规阈值,则待审核文本为违规文本,否则为正常文本。本发明有效地降低了误判的概率,提升审核准确度,对变形词和网络新词有较快的反应能力。

Description

一种基于敏感词的文本内容审核方法及系统
技术领域
本发明属于互联网技术领域,具体而言,涉及一种基于敏感词的文本内容审核方法及系统。
背景技术
随着互联网行业的高速发展,网络上的信息得到了极大的丰富。伴随而来也会产生许多不符合互联网使用环境甚至违反国家法律法规的内容,如政治敏感、色情词汇等等,导致相关的网站因违反国家法律法规的强制性规定,存在安全运营风险。于此同时,这些负面的信息内容,也极大地伤害了网站的品牌价值,对用户的使用体验也造成消极的影响。
当前的文本审核存储如下三个技术难点:(1)单一关键词规则容易导致误判;(2)变形词难以维护;(3)互联网新词频繁出现。因此,大量网站需对内容发布之前进行审核。现有的网站一般是通过对单个违规关键词进行过滤实现对发布文本的过滤。但是有些在违规文本中高频出现的关键词,在正常文本中也会出现,譬如说违规文本中包含的“乳房”这个关键字,在一些与乳腺癌有关的内容里面也会经常出现;另一方面,敏感关键词的上下文如果出现否定性的定语或谓语,很有可能是处于正常的文本中,譬如说某文本中虽然包含“恐怖组织”关键词,但是前面出现了“反对”、“批判”的词语,这个文本仍然是正常的文本。同时,对违规的关键词或敏感词进行适当的变形后,譬如用变形词“河蟹”用来代替“和谐”也会造成文本审核的漏洞。传统的关键词词库无法迅速应对这些变形词的产生,只能通过人工审核来发现这些敏感关键词的变形形式,这种审核效率低下,而且容易造成关键词词词库难以维护。
发明内容
为解决现有的文本审核技术中无法迅速应对这些变形词、网络新词的产生,只能通过人工审核造成的审核效率低下,而且容易造成关键词词词库难以维护的技术缺陷,本发明通过对已审核的文本进行敏感词处理,获取敏感词或敏感词及其共现的关键词分别在正常文本、违规文本中的违规权重对敏感词数据库进行维护,以提高文本审核的效率,降低文本审核的误审核率。
本发明提供了一种基于敏感词的文本内容审核方法,包括如下步骤:
接收待审核文本,将所述待审核文本分别按照预设的文本长度进行解析、分词,获取预设的文本长度中的所有关键词;
查询预设的敏感词数据库,获取所述所有关键词中包括的敏感词及与其共现的关键词,所述敏感词数据库包括敏感词及其同义词和/或近义词;
计算所述预设的文本长度中的所有关键词中出现的敏感词及其共现的关键词的第一违规权重,判断所述第一违规权重是否超过预设的违规阈值;
如果所述第一违规权重大于预设的违规阈值,则所述待审核文本为违规文本,否则为正常文本。
进一步,所述查询预设的敏感词数据库,获取所述所有关键词中包括的敏感词及与其共现的关键词,所述敏感词数据库包括敏感词及其同义词和/或近义词包括
抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本,将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库;
统计每个所述敏感词分别在所述正常文本、所述违规文本中共现的关键词。
进一步,所述统计每个所述敏感词分别在所述正常文本、所述违规文本中共现的关键词还包括
计算每个敏感词或每个所述敏感词及其共现的关键词的第二违规权重W,将W与预设频次范围进行比较,如果W在预设频率范围则过滤所述敏感词数据库中第二违规权重为W的敏感词或所述敏感词及其共现的关键词。
进一步,所述抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本,将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库之后还包括
查询预设的停用词库,过滤所述敏感词数据库中停用的敏感词。
进一步,所述查询预设的敏感词数据库,获取所述所有关键词中包括的敏感词及与其共现的关键词,所述敏感词数据库包括敏感词及其同义词和/或近义词包括
采用词向量算法计算预设的向量词库中每个关键词的第一词向量值、所述敏感词数据库中每个敏感词的第二词向量值,将第一词向量值与第二词向量值的差值不大于预设值的第一词向量值对应的关键词作为敏感词。
本发明还提供了一种基于敏感词的文本内容审核系统,包括文本模块、查询模块、判断模块及分类模块,其中,
所述文本模块,用于接收待审核文本,将所述待审核文本分别按照预设的文本长度进行解析、分词,获取预设的文本长度中的所有关键词;
所述查询模块,用于查询预设的敏感词数据库,获取所述所有关键词中包括的敏感词及与其共现的关键词,所述敏感词数据库包括敏感词及其同义词和/或近义词;
所述判断模块,用于计算所述预设的文本长度中的所有关键词中出现的敏感词及其共现的关键词的第一违规权重,判断所述第一违规权重是否超过预设的违规阈值。
所述分类模块,用于如果所述第一违规权重大于预设的违规阈值,则所述待审核文本为违规文本,否则为正常文本。
进一步,所述查询模块包括
预处理子模块,用于抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本,将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库;
共现关键词统计子模块,用于统计每个所述敏感词分别在正常文本、违规文本中共现的关键词。
进一步,所述共现关键词统计子模块还包括
共现关键词构建单元,用于计算每个敏感词或每个所述敏感词及其共现的关键词的第二违规权重W,将W与预设频次范围进行比较,如果W在预设频率范围则过滤所述敏感词数据库中第二违规权重为W的敏感词或所述敏感词及其共现的关键词。
进一步,所述预处理子模块还包括
第一过滤单元,用于查询预设的停用词库,过滤所述敏感词数据库中停用的敏感词。
进一步,所述预处理子模块还包括
升级单元,用于采用词向量算法计算预设的向量词库中每个关键词的第一词向量值、所述敏感词数据库中每个敏感词的第二词向量值,将第一词向量值与第二词向量值的差值不大于预设值的第一词向量值对应的关键词作为敏感词。
综上,本发明的有益效果为:
1、使用敏感词+共现的关键词的方式代替了单个关键词的审核的规则,有效地降低了误判的概率,提升审核准确度;
2、通过获取每个敏感词的同义词和/或近义词,扩充升级敏感词数据库库,有效降低关键字规则误判的比例,对变形词和网络新词有较快的反应能力;
3、对敏感词数据库中停用词的过滤有效降低关键字规则误判的比例。
附图说明
图1为本发明所述的基于敏感词的文本内容审核方法的流程示意图;
图2为本发明所述的基于敏感词的文本内容审核方法中其中一个步骤的流程示意图;
图3为本发明所述的基于敏感词的文本内容审核系统的框图结构示意图;
图4为应用本发明所述的基于敏感词的文本内容审核系统的一个实施例的示意图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
传统的文本审核一般采用对单个关键词出现的个数来判断网页是否违规,依靠单个关键词直接对文本过滤。这种审核方法至少包括如下两个方便的技术缺陷:一、有些在违规文本中高频出现的关键词,在正常文本中也会出现,譬如说违规文本中包含的“乳房”这个关键字,在一些与乳腺癌有关的内容里面也会经常出现;而、敏感关键词的上下文如果出现否定性的定语或谓语,很有可能是处于正常的文本中,譬如说某文本中虽然包含“恐怖组织”关键词,但是前面出现了“反对”、“批判”的词语,这个文本仍然是正常的文本。
为了解决上述技术问题,本发明提供了一种基于敏感词的文本内容审核方法。如图1所示,所述方法包括如下步骤:
S101、接收待审核文本,将所述待审核文本分别按照预设的文本长度进行解析、分词,获取预设的文本长度中的所有关键词。
关键词的获取方式是通过分词算法获取的。例如待审核文本为“好看的电影”时,利用分词算法所述待审核文本会被分为“好看”、“的”、“电影”。为了提高审核效率,其中“的”字因为经常出现,会被作为“停用词”给去除。所以最后的关键词结果是“好看”、“电影”。具体实施时,在搜索引擎中所述分词算法中所有关键词可选的以倒排索引的形式存储的。搜索引擎可选将所有关键词存储到倒排索引表中,每一个关键词对应一个倒排索引链表,每一个链表中的块都是该词在某个文档中的信息,包括在文档ID、在文档中出现的次数、在文档中的出现的位置等。
S102、查询预设的敏感词数据库,获取所述所有关键词中包括的敏感词及与其共现的关键词,所述敏感词数据库包括敏感词及其同义词和/或近义词。
传播不良信息的用户为了规避审查,会针对网站的关键词规则规范,对敏感词进行局部修改来应对网站的审核。由此会衍生出很多违规关键词的变形词,譬如用变形词“河蟹”用来代替“和谐”。传统的关键词词库无法迅速应对这些变形词的产生,通过人工审核来发现这些敏感关键词的变形形式效率低下,而且容易造成关键词词词库难以维护。互联网热点事件的产生会导致一些新词的诞生,这些新词在短期内具有较高的关注度和较强的传播能力。其中一些涉及违规内容的敏感关键词,在热点事件发生后常常被部分用户利用来进行恶意违规内容的传播,譬如标题中包含“XX门”。现有的文本审核系统在处理诞生的新词,将部分词语纳入监管的过程相对滞后,不利于网站的运营安全。因此为了解决这种文本本发明通过获取每个敏感词的同义词和/或近义词实现建立所述敏感词数据库,与传统的文件审核方法的词库相比较,本发明所述的敏感词数据利用敏感词的同义词和/或近义词将每个敏感词的变形词或网络新词进行存储,建立完备的敏感词数据库,从而降低文件审核的误判率。
S103、计算所述预设的文本长度中的所有关键词中出现的敏感词及其共现的关键词的第一违规权重,判断所述第一违规权重是否超过预设的违规阈值。
网站通过搜索引擎设置文本审核强度,不同的网站的审核强度可能相同,也可能不同。具体实施时,一个文本可以是一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。文本的的类型不同,审核中预设的文本长度可能不同。例如,若文本为篇章,则该文本对应预设的文本。
S104、如果所述第一违规权重大于预设的违规阈值,则所述待审核文本为违规文本,否则为正常文本。
具体实施时,对于每一个文本,以计算相邻6句话(用句号,问号,感叹号和省略号隔开)为例说明,敏感词或所述敏感词及其共现的关键词的频次,取其最大值作为文本的第一违规权重。判断文本的第一违规权重是否超过固定的违规阈值(违规阈值的设定根据审核力度的强度来制定)来判断该文本是否违规,并且给出关键词频率最高的6句话作为参考依据。
进一步,如图2所示,S102包括如下步骤:
S1021、抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本,将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库。
进一步,具体实施时还可选的,采用词向量算法计算预设的向量词库中每个关键词的第一词向量值、所述敏感词数据库中每个敏感词的第二词向量值,将第一词向量值与第二词向量值的差值不大于预设值的第一词向量值对应的关键词作为敏感词。
具体实施时,可选的通过词向量算法计算每个敏感词数据库的同义词和/或近义词。例如,将敏感词用一个低维实数向量表示,例如[0.179,-0.157,-0.117,0.909,-0.532,…]这种形式,也就是词向量。而且,在词向量空间中,向量距离小的两个点,它们所代表的单词在语义上相似或者相关。本发明通过大量的训练算法得到的词向量,较好地反应出敏感词与预设的分词库中每个关键词之间语义上的相似度。通过词向量方法,可以获得敏感词的相似词语来扩充敏感词词库,尤其可以将一些变形词和网络新词识别出来。
例如敏感词X和敏感词y的相关性similarity(X,Y)用余弦距离来计算:
Figure DEST_PATH_GDA0001158107830000071
本发明可选的使用RNNLM模型对已审核的文本获得的敏感词集合进行训练,获得敏感词的向量表示形式。然后,对所述敏感词数据库中的每个敏感词计算向量距离最近的Top50个敏感词(本发明中以50个为例,具体可实施时,可选的根据审核力度设置向量距离最近的关键词的数量),过滤掉距离大于固定阈值(阈值的设定根据审核力度的强度来制定)的词语,然后加入到所述敏感词数据库。
进一步,具体实施时还可选的,查询预设的停用词库,过滤所述敏感词数据库中停用的敏感词。
S1022、统计每个所述敏感词分别在所述正常文本、所述违规文本中共现的关键词。
本发明首先将已审核过的文本划分为正常文本和违规文本,分别对正常文本、违规文本进行处理获取正常文本、违规文本中包括的敏感词。而具体实施时,可选的通过建立两个倒排列表(inverted list)分别存储与正常文本中的敏感词、违规文本中的关键词共现较多的关键词的情况。列表的每一项初始化为一个空列表作为,列表的元素为对应敏感词共现的关键词、出现频率,形式如表1所示为敏感词分别在正常文本、违规文本中共现的关键词倒排列表:
表1
Figure DEST_PATH_GDA0001158107830000081
Figure DEST_PATH_GDA0001158107830000091
计算敏感词在正常文本中的共现的关键词时,过程如下:
获取正常文本中各个敏感词前后距离为3的关键词(即该关键词与敏感词之间不多于两个词语),如果关键词不在倒排列表的该敏感词的候选列表中,则添加到候选列表,初始化频次为1;否则使该敏感词中关键词对应的频次加1;或获取正常文本中各个敏感词前后距离为3的多个关键词(即该关键词与敏感词之间不多于两个词语),关键字两两组合,以下划线连接作为新的键值。如果键值不在倒排列表的该敏感词的候选列表中,则添加到候选列表,初始化频次为1;否则使该敏感词中键值对应的频次加1。使用同样地方法,即可计算敏感词在违规文本中共现的关键词及其出现频率。
本发明通过对敏感词及其在正常文本中共现的关键词、违规文本中共现的关键词组合的方式,防止某些在违规文本中高频出现的敏感词词,在正常文本中也会出现的情况,譬如说违规文本中包含的“乳房”这个关键字,在一些与乳腺癌有关的内容里面也会经常出现。本发明通过获取敏感词的上下文如果出现共现的关键词(例如否定性的定语或谓语)降低因传统文本审核方法中以命中单个敏感词的方式造成的文本误判的概率,从而提升审核准确度。譬如说某文本中虽然包含“恐怖组织”关键词,但是前面出现了“反对”、“批判”的词语,这个文本仍然是正常的文本。通过挖掘与敏感词共现的关键词能够将部分网络新词识别出来。
进一步,所述S102还可选的包括
S1023、计算每个敏感词或每个所述敏感词及其共现的关键词的第二违规权重W,将W与预设频次范围进行比较,如果W在预设频率范围则过滤所述敏感词数据库中第二违规权重为W的敏感词或所述敏感词及其共现的关键词。
本发明通过利用敏感词及其共现的关键词的降低了文本审核的误判率。然而所述敏感词数据库中某些敏感词在正常文本、违规文本中的区分度较小,这部分敏感词对于文本审核造成障碍,为了排除这部分敏感词对于文本审核造成的影响本发明可选的计算每个敏感词的违规权重,将所述违规权重与预设的频次范围比较比较,将在所述频率范围的敏感词进行删除。
具体实施时,可选的设某敏感词的违规权重为W,其计算公式为:W=Fi/(Fi+Fj),其中,敏感词在违规文本中出现的频率是Fi,在正常文本中出现的频率为。
假设频次范围为[10%,90%],若W大于或等于10%而且小于或等于90%,则该敏感词有很大概率在正常文本和违规文本中都出现,因此对文本是否违规的区分度较低,从而过滤该敏感词作丢弃处理;
若W小于10%,则标记与该敏感词共现词组,则与该敏感词共现的关键词的文本有较大几率是正常的文本;
若W大于90%,则标记与该敏感词共现的关键词有较大几率是违规文本。
本发明还提供了一种基于敏感词的文本内容审核系统,如图3所示,所述系统包括文本模块10、查询模块20及判断模块30及分类模块40。
其中,
所述文本模块10,接收待审核文本,将所述待审核文本分别按照预设的文本长度进行解析、分词,获取预设的文本长度中的所有关键词;
所述查询模块20,用于查询预设的敏感词数据库,获取所述所有关键词中包括的敏感词及与其共现的关键词,所述敏感词数据库包括敏感词及其同义词和/或近义词;
所述判断模块30,用于计算所述预设的文本长度中的所有关键词中出现的敏感词及其共现的关键词的第一违规权重,判断所述第一违规权重是否超过预设的违规阈值;
所述分类模块,用于如果所述第一违规权重大于预设的违规阈值,则所述待审核文本为违规文本,否则为正常文本。
进一步,所述预处理子模块还包括
第一过滤单元,用于查询预设的停用词库,过滤所述敏感词数据库中停用的敏感词。
进一步,所述预处理子模块还包括
升级单元,用于采用词向量算法计算预设的向量词库中每个关键词的第一词向量值、所述敏感词数据库中每个敏感词的第二词向量值,将第一词向量值与第二词向量值的差值不大于预设值的第一词向量值对应的关键词作为敏感词。
具体实施时,所述向量词库可选的为预设的分词库。如图4所示为应用本发明所述的敏感词数据库查询的共现的关键词的示意图。当用户输入敏感词“乳房”后,本发明利用词向量算法计算出的与“乳房”的第二词向量值在预设范围的预设的向量词库中的关键词及其第一词向量值。本发明通过词向量算法获取敏感词的同义词和/近义词,将所述敏感词数据库进行升级。
进一步,所述查询模块包括
预处理子模块,用于抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本,将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库;
共现关键词统计子模块,用于统计每个敏感词分别在正常文本、违规文本中共现的关键词。
更进一步,所述共现关键词统计子模块还包括
共现关键词构建单元,用于计算与每个敏感词共现的关键词的违规权重W,将W与预设的过滤值范围进行比较,如果W在预设过滤值范围内则过滤所述敏感词数据库中违规权重为W的敏感词及其共现的关键词。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于敏感词的文本内容审核方法,包括如下步骤:
接收待审核文本,将所述待审核文本分别按照预设的文本长度进行解析、分词,获取预设的文本长度中的所有关键词;
查询预设的敏感词数据库,获取所述所有关键词中包括的敏感词及与其共现的关键词,所述敏感词数据库包括敏感词及其同义词和/或近义词;
敏感词库的建立包括:抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本,将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库;统计每个所述敏感词分别在所述正常文本、所述违规文本中共现的关键词;
计算所述预设的文本长度中的所有关键词中出现的敏感词及其共现的关键词的第一违规权重,判断所述第一违规权重是否超过预设的违规阈值;
如果所述第一违规权重大于预设的违规阈值,则所述待审核文本为违规文本,否则为正常文本;
其中,通过建立两个倒排列表分别存储与正常文本中的敏感词、违规文本中的关键词共现较多的关键词。
2.根据权利要求1所述的基于敏感词的文本内容审核方法,其特征在于,所述统计每个所述敏感词分别在所述正常文本、所述违规文本中共现的关键词还包括:
计算每个敏感词或每个所述敏感词及其共现的关键词的第二违规权重W,将W与预设频次范围进行比较,如果W在预设频率范围则过滤所述敏感词数据库中第二违规权重为W的敏感词或所述敏感词及其共现的关键词。
3.根据权利要求1所述的基于敏感词的文本内容审核方法,其特征在于,所述抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本,将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库之后还包括:
查询预设的停用词库,过滤所述敏感词数据库中停用的敏感词。
4.根据权利要求1所述的基于敏感词的文本内容审核方法,其特征在于,所述抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本,将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库包括:
采用词向量算法计算预设的向量词库中每个关键词的第一词向量值、所述敏感词数据库中每个敏感词的第二词向量值,将第一词向量值与第二词向量值的差值不大于预设值的第一词向量值对应的关键词作为敏感词。
5.一种基于敏感词的文本内容审核系统,其特征在于,包括文本模块、查询模块、判断模块及分类模块,其中,
所述文本模块,用于接收待审核文本,将所述待审核文本分别按照预设的文本长度进行解析、分词,获取预设的文本长度中的所有关键词;
所述查询模块,用于查询预设的敏感词数据库,获取所述所有关键词中包括的敏感词及与其共现的关键词,所述敏感词数据库包括敏感词及其同义词和/或近义词;
敏感词库的建立包括:抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本,将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库;统计每个所述敏感词分别在所述正常文本、所述违规文本中共现的关键词;
所述判断模块,用于计算所述预设的文本长度中的所有关键词中出现的敏感词及其共现的关键词的第一违规权重,判断所述第一违规权重是否超过预设的违规阈值;
所述分类模块,用于如果所述第一违规权重大于预设的违规阈值,则所述待审核文本为违规文本,否则为正常文本;
其中,通过建立两个倒排列表分别存储与正常文本中的敏感词、违规文本中的关键词共现较多的关键词。
6.根据权利要求5所述的基于敏感词的文本内容审核系统,其特征在于,所述查询模块包括:
预处理子模块,用于抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本,将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库;
共现关键词统计子模块,用于统计每个所述敏感词分别在正常文本、违规文本中共现的关键词。
7.根据权利要求6所述的基于敏感词的文本内容审核系统,其特征在于,所述共现关键词统计子模块还包括:
共现关键词构建单元,用于计算每个敏感词或每个所述敏感词及其共现的关键词的第二违规权重W,将W与预设频次范围进行比较,如果W在预设频率范围则过滤所述敏感词数据库中第二违规权重为W的敏感词或所述敏感词及其共现的关键词。
8.根据权利要求6所述的基于敏感词的文本内容审核系统,其特征在于,所述预处理子模块还包括:
第一过滤单元,用于查询预设的停用词库,过滤所述敏感词数据库中停用的敏感词。
9.根据权利要求8所述的基于敏感词的文本内容审核系统,其特征在于,所述预处理子模块还包括:
升级单元,用于采用词向量算法计算预设的向量词库中每个关键词的第一词向量值、所述敏感词数据库中每个敏感词的第二词向量值,将第一词向量值与第二词向量值的差值不大于预设值的第一词向量值对应的关键词作为敏感词。
CN201610589166.0A 2016-05-26 2016-07-25 一种基于敏感词的文本内容审核方法及系统 Active CN106445998B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2016103618378 2016-05-26
CN201610361837 2016-05-26

Publications (2)

Publication Number Publication Date
CN106445998A CN106445998A (zh) 2017-02-22
CN106445998B true CN106445998B (zh) 2020-08-21

Family

ID=58184277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610589166.0A Active CN106445998B (zh) 2016-05-26 2016-07-25 一种基于敏感词的文本内容审核方法及系统

Country Status (1)

Country Link
CN (1) CN106445998B (zh)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815200A (zh) * 2015-11-30 2017-06-09 任子行网络技术股份有限公司 基于关键词的不良文本检测方法及装置
CN107203922A (zh) * 2017-04-24 2017-09-26 深圳市丰巢科技有限公司 一种订单审核方法及系统
CN107274205B (zh) * 2017-04-24 2021-02-26 深圳市丰巢科技有限公司 一种订单生成方法及系统
CN107169092A (zh) * 2017-05-12 2017-09-15 暴风体育(北京)有限责任公司 交互过程中智能识别并处理敏感内容的方法及系统
CN107193930A (zh) * 2017-05-17 2017-09-22 东莞市华睿电子科技有限公司 一种网站敏感词屏蔽方法
CN107357778B (zh) * 2017-06-22 2020-10-30 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN109547319A (zh) * 2017-09-22 2019-03-29 中移(杭州)信息技术有限公司 一种消息处理方法及装置
CN107609173A (zh) * 2017-09-28 2018-01-19 云天弈(北京)信息技术有限公司 一种用于资讯内容违规量化分析的方法
CN108519970B (zh) * 2018-02-06 2021-08-31 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质
CN108446270B (zh) * 2018-03-06 2021-06-08 平安科技(深圳)有限公司 电子装置、系统敏感内容的预警方法及存储介质
CN108563696B (zh) * 2018-03-22 2021-05-25 创新先进技术有限公司 一种发掘潜在风险词的方法、装置及设备
CN108536859A (zh) * 2018-04-18 2018-09-14 北京小度信息科技有限公司 内容校验方法、装置、电子设备及计算机可读存储介质
US10742605B2 (en) * 2018-05-08 2020-08-11 International Business Machines Corporation Context-based firewall for learning artificial intelligence entities
CN108647309B (zh) * 2018-05-09 2021-08-10 达而观信息科技(上海)有限公司 基于敏感词的聊天内容审核方法及系统
CN108717408B (zh) * 2018-05-11 2023-08-22 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN108829680A (zh) * 2018-06-22 2018-11-16 北京百悟科技有限公司 一种违规宣传检测方法和装置、计算机可读存储介质
CN109344256A (zh) * 2018-10-12 2019-02-15 中国科学院重庆绿色智能技术研究院 一种新闻稿件主题分类及审核方法
CN109446288A (zh) * 2018-10-18 2019-03-08 重庆邮电大学 一种基于Spark互联网涉密地图检测算法
CN109271489B (zh) * 2018-10-25 2020-12-15 第四范式(北京)技术有限公司 一种文本检测方法及装置
CN109492118B (zh) * 2018-10-31 2021-04-16 北京奇艺世纪科技有限公司 一种数据检测方法及检测装置
CN109408824B (zh) * 2018-11-05 2023-04-25 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109657134A (zh) * 2018-11-06 2019-04-19 北京奇虎科技有限公司 一种数据过滤方法及装置
CN110019817A (zh) * 2018-12-04 2019-07-16 阿里巴巴集团控股有限公司 一种视频中文字信息的检测方法、装置及电子设备
CN111310451A (zh) * 2018-12-10 2020-06-19 北京沃东天骏信息技术有限公司 敏感词词典生成方法、装置及存储介质和电子设备
CN110022242B (zh) * 2018-12-13 2020-12-25 北京神州绿盟信息安全科技股份有限公司 一种关键字确定方法及装置
CN109657243A (zh) * 2018-12-17 2019-04-19 江苏满运软件科技有限公司 敏感信息识别方法、系统、设备及存储介质
CN109740053B (zh) * 2018-12-26 2021-03-05 广州灵聚信息科技有限公司 基于nlp技术的敏感词屏蔽方法和装置
CN109829043B (zh) * 2018-12-28 2021-07-20 广州华多网络科技有限公司 词性确认方法、装置、电子设备及存储介质
CN109766441B (zh) * 2018-12-28 2021-07-09 奇安信科技集团股份有限公司 文本分类方法、装置及系统
CN110134785A (zh) * 2019-04-15 2019-08-16 平安普惠企业管理有限公司 论坛文章的管理方法、装置、存储介质及设备
CN110162624B (zh) * 2019-04-16 2024-04-09 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110245212A (zh) * 2019-04-28 2019-09-17 阿里巴巴集团控股有限公司 一种内容审核方法及装置
CN110222182B (zh) * 2019-06-06 2022-12-27 腾讯科技(深圳)有限公司 一种语句分类方法及相关设备
CN110457428B (zh) * 2019-06-26 2023-07-04 北京印刷学院 一种敏感词检测过滤方法、装置与电子设备
CN110275958B (zh) * 2019-06-26 2021-07-27 北京市博汇科技股份有限公司 网站信息识别方法、装置和电子设备
CN110675269B (zh) * 2019-08-16 2023-01-10 创新先进技术有限公司 文本审核方法以及装置
CN110677313A (zh) * 2019-08-25 2020-01-10 北京亚鸿世纪科技发展有限公司 一种vpn软件后台服务器的发现方法
CN110737818B (zh) * 2019-09-06 2024-02-27 平安科技(深圳)有限公司 网络发布数据处理方法、装置、计算机设备和存储介质
CN110767211B (zh) * 2019-09-23 2022-02-18 浙江斑智科技有限公司 一种基于文本内容数据清洗的语音合成播报系统
CN110674255B (zh) * 2019-09-24 2022-08-26 湖南快乐阳光互动娱乐传媒有限公司 文本内容审核方法及装置
CN110727880B (zh) * 2019-10-18 2022-06-17 西安电子科技大学 一种基于词库与词向量模型的敏感语料检测方法
CN110727766B (zh) * 2019-10-18 2023-04-28 上海斗象信息科技有限公司 敏感词的检测方法
CN111062208B (zh) * 2019-12-13 2023-05-12 建信金融科技有限责任公司 一种文件审核的方法、装置、设备及存储介质
CN111309855A (zh) * 2019-12-24 2020-06-19 中国银行股份有限公司 一种文本信息的处理方法及系统
CN111428478B (zh) * 2020-03-20 2023-08-15 北京百度网讯科技有限公司 一种词条同义判别的寻证方法、装置、设备和存储介质
CN111506791A (zh) * 2020-04-10 2020-08-07 安徽博约信息科技股份有限公司 一种属地网站医药内容监测方法
CN111898060A (zh) * 2020-07-14 2020-11-06 大汉软件股份有限公司 一种基于深度学习的内容自动化监控方法
CN112686036B (zh) * 2020-08-18 2022-04-01 平安国际智慧城市科技股份有限公司 风险文本识别方法、装置、计算机设备及存储介质
CN112052424A (zh) * 2020-10-12 2020-12-08 腾讯科技(深圳)有限公司 一种内容审核方法及装置
CN112364153A (zh) * 2020-11-10 2021-02-12 中数通信息有限公司 一种基于干扰特征的关键词识别方法及装置
CN112163585B (zh) * 2020-11-10 2023-11-10 上海七猫文化传媒有限公司 文本的审核方法、装置、计算机设备及存储介质
CN112434522B (zh) * 2020-11-25 2022-08-26 上海极链网络科技有限公司 一种降低敏感词误警率的文本审核后处理装置及方法
CN112597770A (zh) * 2020-12-16 2021-04-02 盐城数智科技有限公司 基于深度学习的敏感信息查询方法
CN113157929A (zh) * 2020-12-30 2021-07-23 龙马智芯(珠海横琴)科技有限公司 一种新词挖掘方法、装置、服务器及计算机可读存储介质
CN112691379B (zh) * 2020-12-31 2023-04-07 完美世界(北京)软件科技发展有限公司 游戏资源文本审核方法及装置、存储介质、计算机设备
CN113010637A (zh) * 2021-02-24 2021-06-22 世纪龙信息网络有限责任公司 一种文本审核方法及装置
CN113010708B (zh) * 2021-03-11 2023-08-25 上海麦糖信息科技有限公司 针对违规朋友圈内容以及违规聊天内容的审核方法及系统
CN115146589A (zh) * 2021-03-29 2022-10-04 腾讯科技(深圳)有限公司 文本处理方法、装置、介质以及电子设备
CN113313693B (zh) * 2021-06-04 2023-07-18 北博(厦门)智能科技有限公司 一种基于神经网络算法的图片违规检测方法与终端
CN113486656B (zh) * 2021-07-16 2023-11-10 支付宝(杭州)信息技术有限公司 一种语料生成方法及装置
CN113794624B (zh) * 2021-09-07 2023-04-07 广州华多网络科技有限公司 即时消息传输控制方法、装置、计算机设备及存储介质
CN113506585A (zh) * 2021-09-09 2021-10-15 深圳市一号互联科技有限公司 一种语音通话的质量评估方法及系统
CN115130139B (zh) * 2022-08-31 2022-12-02 杭州链城数字科技有限公司 数字资产审查方法、装置、系统和存储介质
CN115456589A (zh) * 2022-09-19 2022-12-09 国网河南省电力公司信息通信公司 一种基于深度学习的合同审核方法和装置
CN117294578B (zh) * 2023-11-24 2024-03-05 深圳市蓝晨科技股份有限公司 一种通信方法、系统、计算机设备和存储介质
CN117349407B (zh) * 2023-12-04 2024-01-30 江苏君立华域信息安全技术股份有限公司 一种面向内容安全的自动化检测方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907821A (en) * 1995-11-06 1999-05-25 Hitachi, Ltd. Method of computer-based automatic extraction of translation pairs of words from a bilingual text
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907821A (en) * 1995-11-06 1999-05-25 Hitachi, Ltd. Method of computer-based automatic extraction of translation pairs of words from a bilingual text
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于关联词和扩展规则的敏感词库设计;刘耕等;《四川大学学报(自然科学版)》;20090531;第46卷(第3期);第668-671页 *

Also Published As

Publication number Publication date
CN106445998A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN106445998B (zh) 一种基于敏感词的文本内容审核方法及系统
US9037586B2 (en) Word pair acquisition apparatus, word pair acquisition method, and program
CN111581355B (zh) 威胁情报的主题检测方法、装置和计算机存储介质
Laippala et al. Syntactic n-gram collection from a large-scale corpus of internet finnish
CN106951530B (zh) 一种事件类型抽取方法和装置
CN109522418A (zh) 一种半自动的知识图谱构建方法
RU2491622C1 (ru) Способ классификации документов по категориям
Kim et al. Two-step cascaded textual entailment for legal bar exam question answering
WO2017091985A1 (zh) 停用词识别方法与装置
CN105550168A (zh) 一种确定对象的概念词的方法和装置
Zhang et al. Multilingual sentence categorization and novelty mining
CN111680509A (zh) 基于共现语言网络的文本关键词自动抽取方法和装置
US20240028650A1 (en) Method, apparatus, and computer-readable medium for determining a data domain associated with data
Lamba et al. A survey on plagiarism detection techniques for indian regional languages
Selvaretnam et al. A linguistically driven framework for query expansion via grammatical constituent highlighting and role-based concept weighting
Ding et al. Dependency graph based chinese semantic parsing
CN110222181B (zh) 一种基于Python的影评情感分析方法
Zhang et al. Chinese novelty mining
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
Haggag et al. Keyword Extraction using Clustering and Semantic Analysis
Carvalho et al. Lexical to discourse-level corpus modeling for legal question answering
Tsai et al. Multilingual novelty detection
Garg et al. Feature based clustering considering context dependent words
Al-Thubaity et al. Do words with certain part of speech tags improve the performance of arabic text classification?
Zheng et al. An adaptive LDA optimal topic number selection method in news topic identification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012

Patentee after: Daguan Data Co.,Ltd.

Address before: Room 1208, No. 2305 Zuchongzhi Road, Zhangjiang, Pudong New Area, Shanghai, 200000

Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.