CN110472234A - 敏感文本识别方法、装置、介质和计算机设备 - Google Patents
敏感文本识别方法、装置、介质和计算机设备 Download PDFInfo
- Publication number
- CN110472234A CN110472234A CN201910656205.8A CN201910656205A CN110472234A CN 110472234 A CN110472234 A CN 110472234A CN 201910656205 A CN201910656205 A CN 201910656205A CN 110472234 A CN110472234 A CN 110472234A
- Authority
- CN
- China
- Prior art keywords
- text
- identified
- used word
- rarely used
- sensitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 69
- 238000006243 chemical reaction Methods 0.000 claims abstract description 23
- 230000035945 sensitivity Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 3
- 235000012054 meals Nutrition 0.000 description 22
- 244000178320 Vaccaria pyramidata Species 0.000 description 21
- 235000010587 Vaccaria pyramidata Nutrition 0.000 description 21
- 230000006870 function Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000033228 biological regulation Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000035935 pregnancy Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种敏感文本识别方法、装置、计算机存储介质和计算机设备;该方法包括:判断待识别文本中是否包含生僻字;若包含生僻字,则查询预设生僻字转换表确定所述生僻字对应的常用字;将所述待识别文本中的生僻字替换为与其对应的常用字,生成待识别的替换文本;对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果;根据所述识别处理结果判断所述待识别文本是否为敏感文本。通过本发明技术方案,能够更准确地辨别用户发布的文本是否为敏感文本,并间接地让用户能够发布体现个性的文本,提高用户的使用体验。
Description
技术领域
本发明涉及信息处理领域,具体而言,本发明涉及一种敏感文本识别方法、装置、介质和计算机设备。
背景技术
网络上的信息随着互联网行业的发展变得越来越丰富,但网络上的一些不符合互联网使用环境甚至违反国家法律法规的内容,如政治敏感话题、不文明言论等。为了能够减少这些负面内容对自身的影响,很多网络平台通常会采用计算文本词性序列的出现概率,对出现概率进行分析的方式来对用户试图发布的内容进行识别,并将从文本中识别出的敏感信息屏蔽,以保证用户发布的内容符合互联网使用环境规范、或符合国家法律法规等的规定,这也能维护自身的品牌形象以及提高正常使用网络平台的用户的使用体验。
然而,时下很多年轻人交流时喜欢将文本中的常用字替换为一些字形相似的生僻字。如果直接对这种被替换了常用字的文本进行词性序列分析,得到的词性序列就与实际情况不符,对该词性序列进行分析有可能将该文本误检为敏感文本,这无法准确辨别用户发布的文本是否为敏感文本,另一方面也使得用户无法发布这类能够表达自己个性化的文本,造成用户体验下降。
发明内容
本发明针对现有技术的缺点,提供了一种敏感文本识别方法、装置、介质和计算机设备,通过本发明技术方案,能够更准确地辨别用户发布的文本是否为敏感文本,并间接地让用户能够发布体现个性的文本,提高用户的使用体验。
本发明实施例根据第一方面提供了一种敏感文本识别方法,包括:
判断待识别文本中是否包含生僻字;
若包含生僻字,则查询预设生僻字转换表确定所述生僻字对应的常用字;
将所述待识别文本中的生僻字替换为与其对应的常用字,生成待识别的替换文本;
对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果;
根据所述识别处理结果判断所述待识别文本是否为敏感文本。
进一步地,所述判断待识别文本中是否包含生僻字,包括;
检测待识别文本中是否包含敏感词汇;
若包含敏感词汇,则确定所述待识别文本为敏感文本;
若不包含敏感词汇,则判断待识别文本中是否包含生僻字。
进一步地,所述判断待识别文本中是否包含生僻字,包括:
获取待识别文本,确定所述待识别文本的词性序列信息及其对应的出现概率;
若所述出现概率低于预设阈值,则判断所述待识别文本中是否包含生僻字。
进一步地,所述对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果,包括:
查询预设词性数据库确定所述替换文本对应的词性序列信息;
使用训练好的词性序列处理模型对所述词性序列信息进行处理,得到所述词性序列信息对应的出现概率;
将所述出现概率作为所述替换文本的识别处理结果。
进一步地,所述查询预设词性数据库确定所述替换文本对应的词性序列信息,包括:
对所述替换文本进行分词处理,得到若干个词汇;
查询预设词性数据库确定所述若干个词汇各自对应的词性信息;
按照所述若干个词汇在所述替换文本中的位置信息,对所述若干个词汇各自对应的词性信息进行排列,得到所述替换文本对应的词性序列信息。
更进一步地,所述根据所述识别处理结果判断所述待识别文本是否为敏感文本,包括:
若所述出现概率不低于预设概率阈值,则确定所述待识别文本不是敏感文本;
若所述出现概率低于预设概率阈值,则确定所述待识别文本是敏感文本。
进一步地,所述查询预设生僻字转换表确定所述生僻字对应的常用字,包括:
确定所述待识别文本对应的业务场景标识;
查询与所述业务场景标识对应的预设生僻字转换表,确定所述生僻字对应的常用字。
本发明实施例根据第二方面提供了一种敏感文本识别装置,包括:
生僻字判断模块,用于判断待识别文本中是否包含生僻字;
常用字查询模块,用于当待识别文本中包含生僻字时,查询预设生僻字转换表确定所述生僻字对应的常用字;
替换文本生成模块,用于将所述待识别文本中的生僻字替换为与其对应的常用字,生成待识别的替换文本;
识别处理模块,用于对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果;
敏感文本判断模块,用于根据所述识别处理结果判断所述待识别文本是否为敏感文本。
本发明实施例根据第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的敏感文本识别方法。
本发明实施例根据第四方面提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的敏感文本识别方法。
在本发明实施例中,先判断待识别文本中是否包含生僻字;如果待识别文本中包含了生僻字,就查询预设生僻字转换表确定所述生僻字对应的常用字,并将所述待识别文本中的生僻字替换为与其对应的常用字,生成待识别的替换文本,之后对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果;最后根据所述识别处理结果判断所述待识别文本是否为敏感文本,从而实现更准确地辨别用户发布的文本是否为敏感文本,并间接地让用户能够发布体现个性的文本,提高用户的使用体验。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的敏感文本识别方法流程示意图;
图2为本发明一个实施例的敏感文本识别装置的结构示意图;
图3为本发明一种实施例的计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式,这里使用的“第一”、“第二”仅用于区别同一技术特征,并不对该技术特征的顺序和数量等加以限定。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本发明实施例提供了一种敏感文本识别方法,以下结合附图对本发明的具体实施方式进行详细介绍。如图1所示,本发明实施例提供的敏感文本识别方法包括以下步骤:
S110:判断待识别文本中是否包含生僻字。
需要说明的是,在一些应用场景中,有些用户在撰写文本的时候经常使用生僻字来代替一些常用字,比如,将使用生僻字“莪”来代替常用字“我”来表示“我”字代表的意思。当用户实施了上述操作后会导致待识别文本的词性序列发生变化,进而有可能被识别为敏感文本。
为了更好理解上述描述,以下通过一个例子进行说明:
用户想表示的意思是“我们去吃饭了”,但是其将“我”、“去”分别改为了“莪”、“呿”,得到其最终要发布的文本是“莪们呿吃饭了”;
对“我们去吃饭了”进行词性识别可以确定,“我们”的词性是人称代词(rr),“去”的词性是趋向动词(vf),“吃饭”的词性是不及物动词(vi),“了”的词性是语气词(y),可以组成词性序列“rr-vf-vi-y”;
而对“莪们呿吃饭了”进行词性识别可以确定,“莪”的词性是名词(n),“们”的词性是后缀(k),“呿”的词性是标点符号(w),“吃饭”的词性是不及物动词(vi),“了”的词性是语气词(y),可以组成词性序列“n-k-w-vi-y”;
通过对比可以知道,用户将文本“我们去吃饭了”中的“我”、“去”改为了“莪”、“呿”,得到的文本“莪们呿吃饭了”,两个文本对应的词性序列就发生了变化,即词性序列从“rr-vf-vi-y”变成了“n-k-w-vi-y”。词性序列发生变化主要是因为用户在使用生僻字的时候没有按照生僻字原本的词性来使用,而当词性序列发生了变化后,那么对词性序列的分析结果也会随之变化,而通常用户如果按照字或词汇原本的词性来使用,那么撰写出来的文本所对应的词性序列的出现概率会比较高,反之,则文本对应的词性序列的出现概率会比较低,所以用户使用生僻字来代替常用字后得到的文本“莪们呿吃饭了”被识别为敏感文本的几率就会比较高。
更具体地,当用户想要发布文本内容时,用户客户端向服务器发送文本内容发布请求,该文本内容发布请求关联着用户想要发布的文本内容,即所述待识别文本,服务器在接收到该发布请求后需要对所述待识别文本进行识别,识别后如果确定所述待识别文本不是敏感文本,那么就同意用户的发布请求,并发布所述待识别文本,如果确定所述待识别文本是敏感文本,则拒绝用户的发布请求。
而在本实施例中,服务器在识别所述待识别文本是否为敏感文本的过程中,先判断所述待识别文本中是否包含生僻字,可以先将所述待识别文本进行分词处理,得到若干个单字,比如,待识别文本是“莪们呿吃饭了”,可以拆分为“莪”、“们”、“呿”、“吃”、“饭”和“了”,总共6个单字,在完成对待识别文本的分词处理后将每个单字与预设生僻字表进行匹配,根据匹配结果可以确定所述待识别文本中是否包含生僻字,而如果所述待识别文本中包含了生僻字,那么从预设生僻字表中匹配到的生僻字就是所述待识别文本包含的生僻字,比如,在上述待识别文本“莪们呿吃饭了”里面,可以匹配到生僻字是“莪”、“呿”。
S120:若包含生僻字,则查询预设生僻字转换表确定所述生僻字对应的常用字。
在本实施例中,如果发现所述待识别文本中包含了生僻字,就查询预设生僻字转换表来确定所述生僻字对应的常用字。其中,所述预设生僻字转换表中保存了生僻字与常用字之间的映射关系,比如,生僻字“莪”对应的常用字为“我”,生僻字“呿”对应的常用字为“去”等,那么在查询预设生僻字转换表之后,可以确定上述待识别文本“莪们呿吃饭了”里面的生僻字对应的常用字是“我”和“去”。
其中,所述预设生僻字转换表可以是管理员预先配置的。可以理解的是,在所述预设生僻字转换表中,还包含有一个生僻字对应若干个单字的映射关系,比如,生僻字“烎”对应的常用字是“开火”、“嫑”对应的常用字是“不要”、“孬”对应的常用字是“不好”等。还可以理解的是,不同的生僻字可以对应于同一个单字,比如,生僻字“呿”和“佉”对应的常用字都是“去”。
S130:将所述待识别文本中的生僻字替换为与其对应的常用字,生成待识别的替换文本。
具体地,在确定了生僻字对应的常用字之后,将所述待识别文本中的生僻字替换为与其对应的常用字。
基于上述例子,待识别文本“莪们呿吃饭了”里面的生僻字对应的常用字是“我”和“去”,因此将“莪们呿吃饭了”中的生僻字替换为常用字后可以得到替换文本为“我们去吃饭了”。
S140:对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果。
S150:根据所述识别处理结果判断所述待识别文本是否为敏感文本。
具体地,对所述替换文本进行敏感文本识别处理,以得到所述替换文本的识别处理结果;最后根据所述识别处理结果判断所述待识别文本是否为敏感文本,从而能够实现更准确地辨别用户发布的文本是否为敏感文本,间接地让用户能够发布体现个性的文本,提高用户的使用体验。
在一个实施例中,所述S110:判断待识别文本中是否包含生僻字,包括;
S111:检测待识别文本中是否包含敏感词汇;
S112:若包含敏感词汇,则确定所述待识别文本为敏感文本;
S113:若不包含敏感词汇,则判断待识别文本中是否包含生僻字。
本实施例中,在判断待识别文本中是否包含生僻字之前,可以先检测其中是否已经包含了敏感词汇,如果已经包含了敏感词汇,那么直接可以确定所述待识别文本为敏感文本,而不需要执行后续操作,既提高了对待识别文本的敏感识别效率,又节省计算机资源。
具体地,在检测待识别文本中是否包含敏感词汇之前,需要预先采集大量敏感词汇,建立敏感词库,敏感词汇需要根据具体应用场景来确定,即不同应用场景对应的敏感词汇不一样,比如检测网页文本是否涉黄/暴力内容的应用场景与检测网页文本中是否包含毒品内容的应用场景对应的敏感词汇不一样,或者说同一词汇在某一场景中是属于敏感词汇,而在另一场景中却不属于敏感词汇,如词汇“人流”有一个意思是“妊娠3个月内用人工或药物方法终止妊娠”,在医学知识交流等场景中不属于敏感词汇,而在识别广告推广等场景中就属于敏感词汇。
建立了敏感词库之后,将初始待识别文本利用词性分析算法拆分为若干个词汇和/或单字,在完成拆分之后将所述若干个词汇和/或单字分别与所述敏感词库进行匹配,如果所述词汇或单字能够在所述敏感词库中成功匹配到结果,那么就确定待识别文本中包含了敏感词汇;反之,则确定待识别文本中没有包含敏感词汇。
进一步地,如果本实施例用于识别多个应用场景的文本,则在检测之前需要先确定所述待识别文本对应的场景类型,再使用与所述场景类型对应的敏感词库来检测待识别文本中是否包含敏感词汇。
在另一个实施例中,所述S110:判断待识别文本中是否包含生僻字,包括:
S101:获取待识别文本,确定所述待识别文本的词性序列信息及其对应的出现概率;
S102:若所述出现概率低于预设阈值,则判断所述待识别文本中是否包含生僻字。
在本实施例中,尽管生僻字的使用频率低,然而还是有人正常使用生僻字,而不会将其用于替代与其字形形式的常用字,在这种情况下,正常使用者在使用生僻字的时候会注意生僻字原本的词性,这时即使用户请求发布的文本中包含了生僻字,然而该文本的词性序列对应的出现概率也会是比较高的,所以其不会被识别为敏感文本。
因此在本实施例中,在判断待识别文本中是否包含生僻字之前,可以先对待识别文本进行一次词性序列的识别,以及确定其对应的出现概率,如果所述出现概率不低于预设阈值,那么说明所述待识别文本是正常的文本,也就是非敏感文本;而如果所述出现概率低于预设阈值,那么说明所述待识别文本是敏感文本,这时候需要进行后续操作,以确定所述待识别文本是不是因为用户将常用字替换成生僻字而导致被识别为敏感文本。
其中,所述预设阈值可以是管理员预先配置的,用于辅助判断所述待识别文本是否为敏感文本。
在一个实施例中,所述S120:查询预设生僻字转换表确定所述生僻字对应的常用字,包括:
S121:确定所述待识别文本对应的业务场景标识;
S122:查询与所述业务场景标识对应的预设生僻字转换表,确定所述生僻字对应的常用字。
在本实施例中,考虑到在不同的业务场景中,用户可能使用同一生僻字来替换不同的常用字,因此可以细分业务场景,预设配置对应于不同业务场景的生僻字转换表,从而能够更准确地识别出待识别文本中包含的生僻字是对应哪个常用字。
在一个实施例中,所述S140:对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果,包括:
S141:查询预设词性数据库确定所述替换文本对应的词性序列信息。
具体地,所述S141:查询预设词性数据库确定所述替换文本对应的词性序列信息,包括:
S1411:对所述替换文本进行分词处理,得到若干个词汇;
S1412:查询预设词性数据库确定所述若干个词汇各自对应的词性信息;
S1413:按照所述若干个词汇在所述替换文本中的位置信息,对所述若干个词汇各自对应的词性信息进行排列,得到所述替换文本对应的词性序列信息。
在本实施例中,对所述替换文本进行敏感文本识别处理的过程中,需要先将所述替换文本进行分词处理,以得到若干个词汇,然后查询由管理员预先配置的预设词性数据库,可以分别确定所述若干个词汇各自对应的词性信息,此外还需要确定各个词汇在所述替换文本中的位置信息,然后按照位置信息将各个词汇对应的词性信息进行排列,组成一个词性序列。
比如,替换文本为“我们去吃饭了”,对所述替换文本进行分词处理可以得到若干个词汇,分别为“我们”、“去”、“吃饭”以及“了”,然后再查询预设词性数据库,“我们”的词性是人称代词(rr),“去”的词性是趋向动词(vf),“吃饭”的词性是不及物动词(vi),“了”的词性是语气词(y),可以组成词性序列“rr-vf-vi-y”。
需要说明的是,本实施例中所说的“词汇”可以包括单字以及由若干个单字的组成的组合词,比如单字“我”,以及由两个单字“我”和“们”组成的组合词“我们”等。
S142:使用训练好的词性序列处理模型对所述词性序列信息进行处理,得到所述词性序列信息对应的出现概率;
S143:将所述出现概率作为所述替换文本的识别处理结果。
在本实施例中,可以获取已经识别过的敏感文本和非敏感文本作为训练样本来训练词性序列处理模型,所述词性序列处理模型能够对词性序列信息进行计算,得到所述词性序列信息对应的出现概率,并将所述出现概率作为所述替换文本的识别处理结果。
具体地,在训练模型时可以先确定影响文本敏感度的影响特征,例如文本中符号的占比、中英文比例、数字比例等,然后利用上述训练样本的词性序列来训练词性序列处理模型,确定词性序列处理模型中上述影响特征对应的参数。其中,可以采用采用梯度提升树,xgboost(eXtreme Gradient Boosting,极值梯度提升)训练算法、LR(LogisticRegression,逻辑回归模型)、神经网络算法等进行训练。
进一步地,所述S150:根据所述识别处理结果判断所述待识别文本是否为敏感文本,包括:
S151:若所述出现概率不低于预设概率阈值,则确定所述待识别文本不是敏感文本;
S152:若所述出现概率低于预设概率阈值,则确定所述待识别文本是敏感文本。
在本实施例中,所述预设概率阈值与上述预设阈值是相同的,其可以有管理员预先配置,用于辅助判断所述待识别文本是否为敏感文本。
本实施例将所述替换文本的词性序列的出现概率作为判断待识别文本是否为敏感文本的依据,可以很大程度上排除掉所述待识别文本被识别为敏感文本是因为用户将常用字替换成生僻字而导致的可能性。
在一个实施例中,所述预设生僻字转换表的功能可以由一个生僻字转换模型来代替,在使用时只需要将生僻字输入所述生僻字转换模型,该模型就会输出该生僻字对应的常用字。
在使用所述生僻字转换模型之前,需要对其进行训练,先获取大量包含生僻字的样本文本,将所述样本文本发送给数据标注平台,由数据标注平台对所述样本文本进行数据标识,然后将标注后的数据用来训练模型,使得模型能够确定人们使用生僻字通常用来替换的常用字,如“莪”用来替代“我”,“呿”或“佉”用来替代“去”等。
为了更好地理解本发明技术方案,本发明还提供了一种敏感文本识别装置,如图2所示,包括以下模块:
生僻字判断模块110,用于判断待识别文本中是否包含生僻字;
具体地,在识别所述待识别文本是否为敏感文本的过程中,先判断所述待识别文本中是否包含生僻字,可以先将所述待识别文本进行分词处理,得到若干个单字,比如,待识别文本是“莪们呿吃饭了”,可以拆分为“莪”、“们”、“呿”、“吃”、“饭”和“了”,总共6个单字,在完成对待识别文本的分词处理后将每个单字与预设生僻字表进行匹配,根据匹配结果可以确定所述待识别文本中是否包含生僻字
常用字查询模块120,用于当待识别文本中包含生僻字时,查询预设生僻字转换表确定所述生僻字对应的常用字;
具体地,所述预设生僻字转换表中保存了生僻字与常用字之间的映射关系,比如,生僻字“莪”对应的常用字为“我”,生僻字“呿”对应的常用字为“去”等,那么在查询预设生僻字转换表之后,可以确定上述待识别文本“莪们呿吃饭了”里面的生僻字对应的常用字是“我”和“去”。
替换文本生成模块130,用于将所述待识别文本中的生僻字替换为与其对应的常用字,生成待识别的替换文本;
识别处理模块140,用于对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果;
敏感文本判断模块150,用于根据所述识别处理结果判断所述待识别文本是否为敏感文本。
在本实施例中,能够实现更准确地辨别用户发布的文本是否为敏感文本,间接地让用户能够发布体现个性的文本,提高用户的使用体验
在一个实施例中,所述生僻字判断模块110,包括;
词汇检测子模块111,用于检测待识别文本中是否包含敏感词汇;
敏感文本确定子模块112,用于当待识别文本中包含敏感词汇时,确定所述待识别文本为敏感文本;
生僻字判断子模块113,用于当待识别文本中不包含敏感词汇时,判断待识别文本中是否包含生僻字。
具体地,在检测待识别文本中是否包含敏感词汇之前,需要预先采集大量敏感词汇,建立敏感词库,敏感词汇需要根据具体应用场景来确定。
建立了敏感词库之后,将初始待识别文本利用词性分析算法拆分为若干个词汇和/或单字,在完成拆分之后将所述若干个词汇和/或单字分别与所述敏感词库进行匹配,如果所述词汇或单字能够在所述敏感词库中成功匹配到结果,那么就确定待识别文本中包含了敏感词汇;反之,则确定待识别文本中没有包含敏感词汇。
进一步地,如果本实施例用于识别多个应用场景的文本,则在检测之前需要先确定所述待识别文本对应的场景类型,再使用与所述场景类型对应的敏感词库来检测待识别文本中是否包含敏感词汇。
在另一个实施例中,所述生僻字判断模块110,包括;
概率确定模块101,用于获取待识别文本,确定所述待识别文本的词性序列信息及其对应的出现概率;
待识别文本确定模块102,用于当所述出现概率低于预设阈值时,判断待识别文本中是否包含生僻字。
在本实施例中,在判断待识别文本中是否包含生僻字之前,可以先对待识别文本进行一次词性序列的识别,以及确定其对应的出现概率,如果所述出现概率不低于预设阈值,那么说明所述待识别文本是正常的文本,也就是非敏感文本;而如果所述出现概率低于预设阈值,那么说明所述待识别文本是敏感文本,这时候需要进行后续操作,以确定所述待识别文本是不是因为用户将常用字替换成生僻字而导致被识别为敏感文本。
其中,所述预设阈值可以是管理员预先配置的,用于辅助判断所述待识别文本是否为敏感文本。
在一个实施例中,所述常用字查询模块120,包括:
标识确定子模块121,用于确定所述待识别文本对应的业务场景标识;
常用字查询子模块122,用于查询与所述业务场景标识对应的预设生僻字转换表,确定所述生僻字对应的常用字。
在一个实施例中,所述识别处理模块140,包括:
词性序列确定子模块141,用于查询预设词性数据库确定所述替换文本对应的词性序列信息;
概率确定子模块142,用于使用训练好的词性序列处理模型对所述词性序列信息进行处理,得到所述词性序列信息对应的出现概率;
处理结果确定子模块143,用于将所述出现概率作为所述替换文本的识别处理结果。
在一个实施例中,所述词性序列确定子模块141,包括:
分词处理单元1411,用于对所述替换文本进行分词处理,得到若干个词汇;
词性查询单元1412,用于查询预设词性数据库确定所述若干个词汇各自对应的词性信息;
词性序列确定单元1413,用于按照所述若干个词汇在所述替换文本中的位置信息,对所述若干个词汇各自对应的词性信息进行排列,得到所述替换文本对应的词性序列信息。
在本实施例中,对所述替换文本进行敏感文本识别处理的过程中,需要先将所述替换文本进行分词处理,以得到若干个词汇,然后查询由管理员预先配置的预设词性数据库,可以分别确定所述若干个词汇各自对应的词性信息,此外还需要确定各个词汇在所述替换文本中的位置信息,然后按照位置信息将各个词汇对应的词性信息进行排列,组成一个词性序列。
在一个实施例中,所述敏感文本判断模块150,包括:
第一判断子模块151,用于当所述出现概率不低于预设概率阈值时,确定所述待识别文本不是敏感文本;
第二判断子模块152,用于当所述出现概率低于预设概率阈值时,确定所述待识别文本是敏感文本。
本实施例将所述替换文本的词性序列的出现概率作为判断待识别文本是否为敏感文本的依据,可以很大程度上排除掉所述待识别文本被识别为敏感文本是因为用户将常用字替换成生僻字而导致的可能性。
需要说明的是,本发明实施例提供的敏感文本识别装置能够实现上述敏感文本识别方法实施例所实现的功能,功能的具体实现参照上述敏感文本识别方法中的描述,在此不再赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述敏感文本识别方法。其中,所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable Programmable Read-OnlyMemory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable ProgrammableRead-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器,磁盘或光盘等。
本发明实施例还提供一种计算机设备,所述计算机设备包括:
一个或多个处理器210;
存储装置220,用于存储一个或多个程序200,
当所述一个或多个程序200被所述一个或多个处理器210执行,使得所述一个或多个处理器210实现上述敏感文本识别方法。
如图3所示为本发明计算机设备的结构示意图,包括处理器210、存储装置220、输入单元230以及显示单元240等器件。本领域技术人员可以理解,图3示出的结构器件并不构成对所有计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储装置220可用于存储应用程序200以及各功能模块,处理器210运行存储在存储装置220的应用程序200,从而执行设备的各种功能应用以及数据处理。存储装置220可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储装置包括但不限于这些类型的存储装置。本发明所公开的存储装置220只作为例子而非作为限定。
输入单元230用于接收信号的输入,以及接收用户输入的选择语音文件等相关请求。输入单元230可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元240可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元240可采用液晶显示器、有机发光二极管等形式。处理器210是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储装置220内的软件程序和/或模块,以及调用存储在存储装置内的数据,执行各种功能和处理数据。
在一实施方式中,计算机设备包括一个或多个处理器210,以及一个或多个存储装置220,一个或多个应用程序200,其中所述一个或多个应用程序200被存储在存储装置220中并被配置为由所述一个或多个处理器210执行,所述一个或多个应用程序200配置用于执行以上实施例所述的敏感文本识别方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
应该理解的是,在本发明各实施例中的各功能单元可集成在一个处理模块中,也可以各个单元单独物理存在,也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种敏感文本识别方法,其特征在于,包括:
判断待识别文本中是否包含生僻字;
若包含生僻字,则查询预设生僻字转换表确定所述生僻字对应的常用字;
将所述待识别文本中的生僻字替换为与其对应的常用字,生成待识别的替换文本;
对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果;
根据所述识别处理结果判断所述待识别文本是否为敏感文本。
2.如权利要求1所述的敏感文本识别方法,其特征在于,
所述判断待识别文本中是否包含生僻字,包括;
检测待识别文本中是否包含敏感词汇;
若包含敏感词汇,则确定所述待识别文本为敏感文本;
若不包含敏感词汇,则判断待识别文本中是否包含生僻字。
3.如权利要求1所述的敏感文本识别方法,其特征在于,
所述判断待识别文本中是否包含生僻字,包括:
获取待识别文本,确定所述待识别文本的词性序列信息及其对应的出现概率;
若所述出现概率低于预设阈值,则判断所述待识别文本中是否包含生僻字。
4.如权利要求1所述的敏感文本识别方法,其特征在于,
所述对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果,包括:
查询预设词性数据库确定所述替换文本对应的词性序列信息;
使用训练好的词性序列处理模型对所述词性序列信息进行处理,得到所述词性序列信息对应的出现概率;
将所述出现概率作为所述替换文本的识别处理结果。
5.如权利要求4所述的敏感文本识别方法,其特征在于,
所述查询预设词性数据库确定所述替换文本对应的词性序列信息,包括:
对所述替换文本进行分词处理,得到若干个词汇;
查询预设词性数据库确定所述若干个词汇各自对应的词性信息;
按照所述若干个词汇在所述替换文本中的位置信息,对所述若干个词汇各自对应的词性信息进行排列,得到所述替换文本对应的词性序列信息。
6.如权利要求4所述的敏感文本识别方法,其特征在于,
所述根据所述识别处理结果判断所述待识别文本是否为敏感文本,包括:
若所述出现概率不低于预设概率阈值,则确定所述待识别文本不是敏感文本;
若所述出现概率低于预设概率阈值,则确定所述待识别文本是敏感文本。
7.如权利要求1所述的敏感文本识别方法,其特征在于,
所述查询预设生僻字转换表确定所述生僻字对应的常用字,包括:
确定所述待识别文本对应的业务场景标识;
查询与所述业务场景标识对应的预设生僻字转换表,确定所述生僻字对应的常用字。
8.一种敏感文本识别装置,其特征在于,包括:
生僻字判断模块,用于判断待识别文本中是否包含生僻字;
常用字查询模块,用于当待识别文本中包含生僻字时,查询预设生僻字转换表确定所述生僻字对应的常用字;
替换文本生成模块,用于将所述待识别文本中的生僻字替换为与其对应的常用字,生成待识别的替换文本;
识别处理模块,用于对所述替换文本进行敏感文本识别处理,得到所述替换文本的识别处理结果;
敏感文本判断模块,用于根据所述识别处理结果判断所述待识别文本是否为敏感文本。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的敏感文本识别方法。
10.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一项所述的敏感文本识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910656205.8A CN110472234A (zh) | 2019-07-19 | 2019-07-19 | 敏感文本识别方法、装置、介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910656205.8A CN110472234A (zh) | 2019-07-19 | 2019-07-19 | 敏感文本识别方法、装置、介质和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110472234A true CN110472234A (zh) | 2019-11-19 |
Family
ID=68508237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910656205.8A Pending CN110472234A (zh) | 2019-07-19 | 2019-07-19 | 敏感文本识别方法、装置、介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472234A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241825A (zh) * | 2020-01-08 | 2020-06-05 | 广东博智林机器人有限公司 | 广告词违禁检测模型的训练方法、检测方法及装置 |
CN111274352A (zh) * | 2020-01-14 | 2020-06-12 | 北大方正集团有限公司 | 工具书中特征字的标注方法和设备 |
CN111507350A (zh) * | 2020-04-16 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种文本识别方法和装置 |
CN111626049A (zh) * | 2020-05-27 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 多媒体信息的标题修正方法、装置、电子设备及存储介质 |
CN112434523A (zh) * | 2020-11-25 | 2021-03-02 | 上海极链网络科技有限公司 | 一种降低敏感词谐音匹配误警率的文本审核装置及方法 |
CN114926831A (zh) * | 2022-05-31 | 2022-08-19 | 平安普惠企业管理有限公司 | 基于文本识别方法、装置、电子设备及可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010078792A1 (zh) * | 2009-01-12 | 2010-07-15 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
CN101964000A (zh) * | 2010-11-09 | 2011-02-02 | 焦点科技股份有限公司 | 一种敏感词自动过滤管理系统 |
CN102902766A (zh) * | 2012-09-25 | 2013-01-30 | 中国联合网络通信集团有限公司 | 检测词汇的方法与装置 |
CN105183761A (zh) * | 2015-07-27 | 2015-12-23 | 网易传媒科技(北京)有限公司 | 敏感词替换方法和装置 |
CN107818077A (zh) * | 2016-09-13 | 2018-03-20 | 北京金山云网络技术有限公司 | 一种敏感内容识别方法及装置 |
CN108763202A (zh) * | 2018-05-18 | 2018-11-06 | 广州腾讯科技有限公司 | 识别敏感文本的方法、装置、设备及可读存储介质 |
CN109036410A (zh) * | 2018-08-30 | 2018-12-18 | Oppo广东移动通信有限公司 | 语音识别方法、装置、存储介质及终端 |
CN109977416A (zh) * | 2019-04-03 | 2019-07-05 | 中山大学 | 一种多层次自然语言反垃圾文本方法及系统 |
-
2019
- 2019-07-19 CN CN201910656205.8A patent/CN110472234A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010078792A1 (zh) * | 2009-01-12 | 2010-07-15 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
CN101964000A (zh) * | 2010-11-09 | 2011-02-02 | 焦点科技股份有限公司 | 一种敏感词自动过滤管理系统 |
CN102902766A (zh) * | 2012-09-25 | 2013-01-30 | 中国联合网络通信集团有限公司 | 检测词汇的方法与装置 |
CN105183761A (zh) * | 2015-07-27 | 2015-12-23 | 网易传媒科技(北京)有限公司 | 敏感词替换方法和装置 |
CN107818077A (zh) * | 2016-09-13 | 2018-03-20 | 北京金山云网络技术有限公司 | 一种敏感内容识别方法及装置 |
CN108763202A (zh) * | 2018-05-18 | 2018-11-06 | 广州腾讯科技有限公司 | 识别敏感文本的方法、装置、设备及可读存储介质 |
CN109036410A (zh) * | 2018-08-30 | 2018-12-18 | Oppo广东移动通信有限公司 | 语音识别方法、装置、存储介质及终端 |
CN109977416A (zh) * | 2019-04-03 | 2019-07-05 | 中山大学 | 一种多层次自然语言反垃圾文本方法及系统 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241825A (zh) * | 2020-01-08 | 2020-06-05 | 广东博智林机器人有限公司 | 广告词违禁检测模型的训练方法、检测方法及装置 |
CN111241825B (zh) * | 2020-01-08 | 2023-03-28 | 广东博智林机器人有限公司 | 广告词违禁检测模型的训练方法、检测方法及装置 |
CN111274352A (zh) * | 2020-01-14 | 2020-06-12 | 北大方正集团有限公司 | 工具书中特征字的标注方法和设备 |
CN111274352B (zh) * | 2020-01-14 | 2023-05-26 | 北大方正集团有限公司 | 工具书中特征字的标注方法和设备 |
CN111507350A (zh) * | 2020-04-16 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种文本识别方法和装置 |
CN111507350B (zh) * | 2020-04-16 | 2024-01-05 | 腾讯科技(深圳)有限公司 | 一种文本识别方法和装置 |
CN111626049A (zh) * | 2020-05-27 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 多媒体信息的标题修正方法、装置、电子设备及存储介质 |
CN111626049B (zh) * | 2020-05-27 | 2022-12-16 | 深圳市雅阅科技有限公司 | 多媒体信息的标题修正方法、装置、电子设备及存储介质 |
CN112434523A (zh) * | 2020-11-25 | 2021-03-02 | 上海极链网络科技有限公司 | 一种降低敏感词谐音匹配误警率的文本审核装置及方法 |
CN112434523B (zh) * | 2020-11-25 | 2022-08-26 | 上海极链网络科技有限公司 | 一种降低敏感词谐音匹配误警率的文本审核装置及方法 |
CN114926831A (zh) * | 2022-05-31 | 2022-08-19 | 平安普惠企业管理有限公司 | 基于文本识别方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472234A (zh) | 敏感文本识别方法、装置、介质和计算机设备 | |
CN101568918B (zh) | 基于web的搭配错误证明 | |
JP2017224184A (ja) | 機械学習装置 | |
US9898464B2 (en) | Information extraction supporting apparatus and method | |
US20200004765A1 (en) | Unstructured data parsing for structured information | |
WO2022033426A1 (zh) | 文档处理方法、文档处理装置和电子设备 | |
US11520835B2 (en) | Learning system, learning method, and program | |
WO2021129074A1 (zh) | 用于处理程序代码中的变量的引用的方法和系统 | |
JP2019091450A (ja) | ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム | |
CN111597817A (zh) | 一种事件信息抽取方法及装置 | |
CN113127621A (zh) | 对话模块的推送方法、装置、设备及存储介质 | |
CN105164669A (zh) | 信息处理设备、信息处理方法以及程序 | |
US11288449B2 (en) | Method to input content in a structured manner with real-time assistance and validation | |
CN112581297B (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
WO2010124513A1 (zh) | 功能实时联想型交互系统及方法 | |
US11803796B2 (en) | System, method, electronic device, and storage medium for identifying risk event based on social information | |
KR20200064490A (ko) | 프로필 자동생성서버 및 방법 | |
CN109660621A (zh) | 一种内容推送方法及服务设备 | |
CN109558531A (zh) | 新闻信息推送方法、装置以及计算机设备 | |
CN110489032B (zh) | 用于电子书的词典查询方法及电子设备 | |
CN110852074B (zh) | 生成修正语句的方法和装置、存储介质和电子设备 | |
CN113505293A (zh) | 信息推送方法、装置、电子设备及存储介质 | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
CN110941709A (zh) | 信息筛选方法、装置、电子设备及可读存储介质 | |
CN103605693A (zh) | 用于识别网络游戏中发布消息的广告特征的装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |