CN107357778B - 一种变形词的识别验证方法及系统 - Google Patents

一种变形词的识别验证方法及系统 Download PDF

Info

Publication number
CN107357778B
CN107357778B CN201710482689.XA CN201710482689A CN107357778B CN 107357778 B CN107357778 B CN 107357778B CN 201710482689 A CN201710482689 A CN 201710482689A CN 107357778 B CN107357778 B CN 107357778B
Authority
CN
China
Prior art keywords
words
deformed
word
identifying
verifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710482689.XA
Other languages
English (en)
Other versions
CN107357778A (zh
Inventor
张健
江永青
纪传俊
陈运文
高翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Co ltd
Original Assignee
Datagrand Tech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Tech Inc filed Critical Datagrand Tech Inc
Priority to CN201710482689.XA priority Critical patent/CN107357778B/zh
Publication of CN107357778A publication Critical patent/CN107357778A/zh
Application granted granted Critical
Publication of CN107357778B publication Critical patent/CN107357778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种变形词的识别验证方法及系统,识别验证方法具有以下有益效果:通过语音和字形的扩展,使变形字库可得到扩展,从而其中的变形词的数量得到扩充,质量得到提高,降低了误判的几率;通过训练样本进行上下文概率的训练,从而使变形词的语义验证的误判几率进一步降低,并且精确性得到提高;通过验证结果更新训练样本,使算法的自动更新性能提高,从而能够扩展用于语义验证的概念库,随着验证结果的积累,误判几率不断减小。识别验证系统包括:获取单元、变形训练单元、识别单元以及语义验证单元,实现了与方法相同的有益效果。

Description

一种变形词的识别验证方法及系统
技术领域
本发明涉及机器识别变形词的领域,具体涉及一种变形词的识别验证方法及系统。
背景技术
我们在浏览贴吧、论坛、新闻媒体等类似的各种平台中,会时常看到变形的敏感词。人脑的思维方式让我们能够非常自然地发现这些变形词,因为这些变形词在句子中是“异常”的部分,这种“异常”的感觉会将我们的注意力聚集到这一区域,进而逐渐发现完整的变形词。而机器在直接面对这些变形词(包括间杂特殊符号、同音变换、形近变换、简繁转换、偏旁拆分等)时就显得稍微力不从心,变形词识别是解决中文垃圾内容过滤的一个重要问题。
目前,在申请号为200810224894.7的中国专利申请中,公开了一种敏感词校对的方法及系统:通过组成敏感词的字的内码,及内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;从被校对文本中获取被校对词,通过组成被校对词的汉字内码,及内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;若被校对词与敏感词,彼此之间的拼音字母组成信息相同,则确定被校对词为敏感词,因此通过语音校对,使得敏感词的变形词可以被校对出来,提高了敏感词的校对准确率。
另外在申请号为201210537803的中国专利申请中,公开了一种变形词证认系统及证认方法。在该变形词证认系统中,通过同音变换和拆字变形在变形词库中查找原形词的变形词,然后将变形词提供给变形词检测模块,证认模块通过预先设定的概念库的支持,检测待检测数据的语义背景与原形词概念集合的相似程度,变形词判别模块通过相似度值与预先设定的判别阈值比较,得出所检测的变形词是否为原形词的变形词的结论。
现有的变形词识别技术的不足之处在于,系统和方法均基于固定的变形词库和概念库,其中的变形词、训练样本的数量和质量均有较大的局限性,容易出现误判;算法自动更新性能差,不具备扩展变字词库和概念库的能力。
发明内容
本发明的目的是提供一种变形词的识别验证方法及系统,以解决上述不足之处。
为了实现上述目的,本发明提供如下技术方案:
一种变形词的识别验证方法,包括以下步骤:
获取敏感词和训练样本;
根据所述敏感词进行语音和字形扩展得到变形词,并通过所述训练样本进行基于上下文概率的训练,得到n元语言模型;
输入待检测文本,并根据所述敏感词和变形词对所述待检测文本进行识别;
将所述识别结果输入所述n元语言模型进行上下文语义验证。
上述变形词的识别验证方法,语音的扩展包括以下步骤:
提取所述敏感词的原始拼音,并据其关联得到类似发音的同音拼音;
将所述同音拼音对应的同音词归为语音变形词的范畴。
上述变形词的识别验证方法,字形的扩展包括以下步骤:
对所述敏感词进行偏旁拆解,并获得偏旁变形词;
对所述敏感词进行字形相似判断,并获得相似变形词。
上述变形词的识别验证方法,进行偏旁拆解包括以下步骤:
建立偏旁拆解词典,并据其对所述敏感词进行偏旁拆解;
确立偏旁拆解结果与敏感词中每个字间对应的关系。
上述变形词的识别验证方法,进行字形相似判断包括以下步骤:
通过英文字符对汉字笔画进行一一对应的定义;
根据所述敏感词中字的笔顺统计得到相应的英文字符;
根据所述相应的英文字符的个数和排列顺序,求得所述敏感词中字对应的编辑距离最小的变形字。
上述变形词的识别验证方法,所述n元语言模型的获得包括以下步骤:
对所述训练样本中对应的变形词wk出现的频率进行统计;
定义上下文窗口大小为K,并在所述上下文窗口范围内,对所述训练样本中对应的两个词wi,wk共同出现的频率进行统计;
Figure BDA0001329765960000021
其中,P(Wk=wk)=c(wk)/N,
Figure BDA0001329765960000022
K表示上下文窗口大小,N训练样本的数目,“wi”出现在“wk”后面第k-i位的统计数目。
上述变形词的识别验证方法,对所述待检测文本进行识别包括以下步骤:
遍历所述待检测文本,并根据其中的每个字构建候选变形字集合;
从所述候选变形字集合中识别出与所述待检测文本中字一致的变形字,并据其关联到所述识别结果。
上述变形词的识别验证方法,进行上下文语义验证包括以下步骤:
判断所述识别结果是否在n元语言模型中;
若在,则筛选所述识别结果的上下文距离为m的邻近词,并进行验证计算:
Figure BDA0001329765960000031
若计算结果小于设定的阈值或者所述识别结果不在n元语言模型中时,判断所述识别结果为变形词。
上述变形词的识别验证方法,得到变形词后还包括以下步骤:
输出语义验证结果,并周期性的将其输入所述训练样本中,得到更新样本;
通过所更新样本对所述变形词进行基于上下文概率的训练。
上述技术方案中,本发明提供的一种变形词的识别验证方法,具有以下有益效果:
1)通过语音和字形的扩展,使变形字库可得到扩展,从而其中的变形词的数量得到扩充,质量得到提高,降低了误判的几率;
2)通过训练样本进行上下文概率的训练,从而使变形词的语义验证的误判几率进一步降低,并且精确性得到提高;
3)通过验证结果更新训练样本,使算法的自动更新性能提高,从而能够扩展用于语义验证的概念库,随着验证结果的积累,误判几率不断减小。
一种变形词的识别验证系统,包括:
获取单元,用以获取敏感词和训练样本;
变形训练单元,用以根据所述敏感词进行语音和字形扩展得到变形词,并通过所述训练样本进行基于上下文概率的训练,得到n元语言模型;
识别单元,用以输入待检测文本,并根据所述敏感词和变形词对所述待检测文本进行识别;
语义验证单元,用以将所述识别结果输入所述n元语言模型进行上下文语义验证。
上述技术方案中,本发明提供的一种变形词的识别验证方法,具有以下有益效果:
1)通过变形训练单元使变形字库可得到扩展,从而其中的变形词的数量得到扩充,质量得到提高,降低了误判的几率;
2)通过变形训练单元中的训练样本进行上下文概率的训练,从而使变形词的语义验证的误判几率进一步降低,并且精确性得到提高;
3)通过语义验证单元中的验证结果更新训练样本,使算法的自动更新性能提高,从而能够扩展用于语义验证的概念库,随着验证结果的积累,误判几率不断减小。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的变形词的识别验证方法的流程示意图;
图2为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图3为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图4为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图5为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图6为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图7为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图8为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图9为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图10为本发明实施例提供的变形词的识别验证系统的流程示意图;
图11为本发明实施例提供的变形词的识别验证系统的结构框图;
图12为本发明一优选实施例提供的对待检测文本进行识别的结构示意图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发明作进一步的详细介绍。
如图1、11所示,为本发明实施例提供的一种变形词的识别验证方法,包括以下步骤:
S101、获取敏感词集合和训练样本;
敏感词是指文本中涉及违犯法律、规定或者道德准则的词语的集合;敏感词集合存储于敏感词库中,敏感词库内的敏感词数量会随着更新不断累积。训练样本是指包含变形词的多个文本的集合;变形词全部存储于变形字库中;训练样本中的变形词为确定的,从而可以进行变形词基于上下文概率的训练。
S102、根据所述敏感词进行语音和字形扩展得到变形词,并通过所述训练样本进行基于上下文概率的训练,得到n元语言模型;
变形词是指扩展后得到的变形字,再进行基于敏感词进行组词得到的词语;其可以为一个变形字和多个敏感字组成的词语,也可以全是由变形字组成的词语,与敏感词的词义一一对应即可。
如图2所示,在步骤S102中,语音的扩展包括以下步骤:
S201、提取所述敏感词的原始拼音,并据其关联得到类似发音的同音拼音;
S202、将所述同音拼音对应的同音词归为语音变形词的范畴。
原始拼音是指敏感词对应的汉语拼音;同音拼音是指根据原始拼音关联而来的类似发音的汉语拼音,类似发音可以是原始拼音本身(仅声调不一致)、平翘舌转换、前后鼻音转换等形式;比如:“微信”是敏感词库的一个词,变形字库里面加入“wei”、“xin”和“xing”,读音对应的敏感字分别是“微”、“信”和“信”;组成的同音词可以为“威信”、“卫星”以及“维心”等;上述同音词均可以作为变形词,对变形字库进行扩展。
如图3所示,在步骤S102中,字形的扩展包括以下步骤:
S301、对所述敏感词进行偏旁拆解,并获得偏旁变形词;
偏旁拆解后得到与敏感词中字对应的变形字,一个敏感字对应多个变形字,将这些变形字按照敏感词进行组词,得到偏旁变形词;偏旁变形词中可以仅包含一个变形字,也可以都为变形字。比如:对于敏感词“海淘”,拆解两个偏旁部首分别是“氵每”和“氵匋”。变形字库加入拆解结果以及对应的敏感字;再按照敏感词进行组词得到“氵每氵匋”或者“每匋”等偏旁变形词。
如图4所示,在步骤S301中,进行偏旁拆解包括以下步骤:
S401、建立偏旁拆解词典,并据其对所述敏感词进行偏旁拆解;
S402、确立偏旁拆解结果与敏感词中每个字间对应的关系。
偏旁拆解词典录入汉字中的各个偏旁,按照该词典将敏感词拆解为偏旁和偏旁以外的字形,并将拆解得到的变形字并入变形字库中,敏感词中的字和拆解得到的偏旁+偏旁以外的字形、偏旁以外的字形为对应的关系,即当变形字为偏旁以外的字形或偏旁+偏旁以外的字形时,可以关联到相应的敏感词,如此,可便于通过机器对变形词进行识别。
S302、对所述敏感词进行字形相似判断,并获得相似变形词。
相似判断后得到与敏感词中字对应的变形字,一个敏感字对应多个变形字,将这些变形字按照敏感词进行组词,得到相似变形词;相似变形词中可以仅包含一个变形字,也可以都为变形字;进一步的,字形相似判断是通过计算候选字和敏感字的笔顺的编辑距离值来衡量,获得的变形词在视觉上和原字比较相似。比如:对于敏感词“日本”,对其中一个或两个字的笔画数进行删减,对于“日”得到相似变形字“口”、“目”、“田”,对于“本”得到相似变形字“木”、“术”、“禾”等,再将上述的两个变形字或一个变形字和敏感词中的一个字进行任意组合,得到相似变形词。
如图5所示,在步骤S302中,进行字形相似判断包括以下步骤:
S501、通过英文字符对汉字笔画进行一一对应的定义;
在计算两个字的字形相似程度时,我们先对汉字中的每种笔画都定义为单个字母,包括点、横、竖、撇、捺、横折、横撇、撇折、横折折、横折钩、横折弯钩、横折折撇等。具体而言,“f”表示竖,“c”表示横折,“j”表示横,综上,依次用不同的单个英文字符表示笔画。
S502、根据所述敏感词中字的笔顺统计得到相应的英文字符;
根据一一对应的笔画和英文字符对所有敏感词中的每个字构建笔顺的词典,譬如“日”表示为“fcjj”,“口”字表示为“fcj”;如此,通过英文字符即表示了笔画,还表示了笔顺,从而可以确定一个敏感字,并且在该敏感字上增加或删减笔画等时,能够得到观感相似的变形字。
S503、根据所述相应的英文字符的个数和排列顺序,求得所述敏感词中字对应的编辑距离最小的变形字。
英文字符一一对应,可以表示笔画,英文字符的排列顺序可以表示笔顺,对敏感词中的每个字进行笔画的删减、增加等操作,得到编辑距离最小的变形字。编辑距离是指两个字符串之间,由一个转换成另外一个所需要的最少操作次数,允许的操作包括字符替换、增加字符、减少字符、颠倒字符。举例来讲,apple和apply的编辑距离是1,access和actress的编辑距离是2。
作文本实施例中优选的,通过编辑距离来计算两个字的相似程度,不过定义的操作和原始的编辑距离定义方法不同,此时的字到字之间的转换操作是在笔顺层面的,允许的操作包括笔顺替换、增加笔顺和减少笔顺。譬如说,“口”字的笔画顺序是“竖横折横”,“日”字的笔画顺序是“竖横折横横”,“口”字可以通过增加笔画“横”来转换成“日”字,所以编辑距离为1。
在一些实施例中,最小编辑距离按照敏感词而定,敏感词为“微信”时,对其中的“微”字进行相似变形扩展,“微”的笔顺表示为“ssffbfjspsjsl”,通过计算求得了编辑距离最小的变形字包括“溦”字和“徵”字,对应的笔顺表示分别为“kkifbfjspsjsl”和“ssffbfjjjfjsjsl”,他们和原字的编辑距离分别是3和3。
在一些实施例中,通过字形相似程度计算和敏感词中的字编辑距离小于设定的阈值(譬如说可以设定为3,根据实际情况而定)的变形字,加入到变形字库。
如图6所示,在步骤S102中,所述n元语言模型的获得包括以下步骤:
S601、对所述训练样本中对应的变形词wk出现的频率进行统计;
S602、定义上下文窗口大小为K,并在所述上下文窗口范围内,对所述训练样本中对应的两个词wi,wk共同出现的频率进行统计;
P(W1=w1...,Wk=wk...,WK=wK)=P(Wk=wk)*∏i≠kP(Wi=wi|Wk=wk),
其中,P(Wk=wk)=c(wk)/N,
Figure BDA0001329765960000071
K表示上下文窗口大小,N训练样本的数目,“wi”出现在“wk”后面第k-i位的统计数目。
统计训练样本中的每一个变形词出现的频率,并且在一定长度的上下文窗口内,统计和该变形词共同出现的词,以及在整个训练样本中共同出现的频率;统计完的结果,通过上述公式进行该变形词基于上下文概率的计算,得到一个n元语言模型。
在一些实施例中,设定上下文窗口大小是9,即是训练样本中的某个变形词前面和后面4个词的共现关系;计算流程如下:
Figure BDA0001329765960000072
Figure BDA0001329765960000081
S103、输入待检测文本,并根据所述敏感词和变形词对所述待检测文本进行识别;
待检测文本是指需要对其中的敏感词、变形词进行识别、验证的文档;通过调取敏感词库进行待检测文本中的敏感词的识别,通过调取变形词库进行待检测文本中的变形词的识别,具体识别方式如S701、S702。
如图7所示,在步骤S103中,对所述待检测文本进行识别包括以下步骤:
S701、遍历所述待检测文本,并根据其中的每个字构建候选变形字集合;
S702、从所述候选变形字集合中识别出与所述待检测文本中字一致的变形字,并据其关联到所述识别结果。
具体而言,针对待检测文本中的每个字,都从变形字库中搜寻到与某一个文本中的字对应的候选变形字集合,将变形字集合中的每一个变形字与待检测文本中的该文本字对比,若有类似的,则表明该文本字为变形字;按找上述方式对文本中的每个字都如此操作,得到文本变形字的集合,再根据文本顺序对变形字进行两两组合、拼接成文本变形词,最后根据文本变形词在变形字库中关联到相对应的字库变形词,则认为文本变形词为变形而来的;若在变形字库中未关联到相对应的字库变形词,则认为文本变形词为正常词语。识别结果是指判断为变形词的文本变形词的集合。可选的,在两两组合、拼接成文本变形词后,再根据其判断在敏感词库中是否能关联到相应的字库敏感词,若关联到,则判断为该文本变形词为变形而来。
在一些实施例中,如图12所示,遍历整个句子,通过变形字库查找获得可能是变形的字,包含了“叚”、“証”和“茄”字。对变形字两两组合进行拼接,并且从敏感词库中查找到“假证”是敏感词。
S104、将所述识别结果输入所述n元语言模型进行上下文语义验证。
如图8所示,在步骤S104中,进行上下文语义验证包括以下步骤:
S801、判断所述识别结果是否在n元语言模型中;
S802、若在,则筛选所述识别结果的上下文距离为m的邻近词,并进行验证计算:
Figure BDA0001329765960000082
若计算结果小于设定的阈值或者所述识别结果不在n元语言模型中时,判断所述识别结果为变形词。
举例而言,获得了识别结果w以及获取上下文距离为4以内的邻近词。如果变形词w不在n元语法模型的词典中,那么直接返回识别结果确认为变形词。如果变形词在n元语法模型的词典中,筛选出现在模型词典中的邻近词w1-w9,通过上述公式进行计算,计算结果小于设定的阈值那么判定识别结果确认为变形词,否则是正常词语。通过上下文语义进行了变形词的验证,避免误杀。
如图9所示,在步骤S104后,还包括以下步骤:
S901、输出语义验证结果,并周期性的将其输入所述训练样本中,得到更新样本;
S902、通过所更新样本对所述变形词进行基于上下文概率的训练。
周期性是指按照设定的周期将一个或多个已经验证过的待检测文本归入训练样本中;将验证后的待检测文本输入到训练样本中,使训练样本能够基于的内容不断的自动更新,在根据更新后的样本进行基于上下文概率的训练,从而能够获得精确性、鲁棒性较高的n元语言模型;随着文本的积累,再进行变形词的识别、判断时,具有更强的变形词识别、判断能力,误判的几率会随之不断减小。
上述技术方案中,本发明提供的一种变形词的识别验证方法,具有以下有益效果:
1)通过语音和字形的扩展,使变形字库可得到扩展,从而其中的变形词的数量得到扩充,质量得到提高,降低了误判的几率;
2)通过训练样本进行上下文概率的训练,从而使变形词的语义验证的误判几率进一步降低,并且精确性得到提高;
3)通过验证结果更新训练样本,使算法的自动更新性能提高,从而能够扩展用于语义验证的概念库,随着验证结果的积累,误判几率不断减小。
如图10所示,为本发明实施例还提供的一种变形词的识别验证系统,包括:
获取单元,用以获取敏感词和训练样本;
变形训练单元,用以根据所述敏感词进行语音和字形扩展得到变形词,并通过所述训练样本进行基于上下文概率的训练,得到n元语言模型;
识别单元,用以输入待检测文本,并根据所述敏感词和变形词对所述待检测文本进行识别;
语义验证单元,用以将所述识别结果输入所述n元语言模型进行上下文语义验证。
上述技术方案中,本发明提供的一种变形词的识别验证方法,具有以下有益效果:
1)通过变形训练单元使变形字库可得到扩展,从而其中的变形词的数量得到扩充,质量得到提高,降低了误判的几率;
2)通过变形训练单元中的训练样本进行上下文概率的训练,从而使变形词的语义验证的误判几率进一步降低,并且精确性得到提高;
3)通过语义验证单元中的验证结果更新训练样本,使算法的自动更新性能提高,从而能够扩展用于语义验证的概念库,随着验证结果的积累,误判几率不断减小。
以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。

Claims (10)

1.一种变形词的识别验证方法,其特征在于,包括以下步骤:
获取敏感词和训练样本;
根据所述敏感词进行语音和字形扩展得到变形词,并通过所述训练样本进行基于上下文概率的训练,得到n元语言模型;
输入待检测文本,并根据所述敏感词和变形词对所述待检测文本进行识别;
将所述识别结果输入所述n元语言模型进行上下文语义验证。
2.根据权利要求1所述的变形词的识别验证方法,其特征在于,语音的扩展包括以下步骤:
提取所述敏感词的原始拼音,并据其关联得到类似发音的同音拼音;
将所述同音拼音对应的同音词归为语音变形词的范畴。
3.根据权利要求1所述的变形词的识别验证方法,其特征在于,字形的扩展包括以下步骤:
对所述敏感词进行偏旁拆解,并获得偏旁变形词;
对所述敏感词进行字形相似判断,并获得相似变形词。
4.根据权利要求3所述的变形词的识别验证方法,其特征在于,进行偏旁拆解包括以下步骤:
建立偏旁拆解词典,并据其对所述敏感词进行偏旁拆解;
确立偏旁拆解结果与敏感词中每个字间对应的关系。
5.根据权利要求3所述的变形词的识别验证方法,其特征在于,进行字形相似判断包括以下步骤:
通过英文字符对汉字笔画进行一一对应的定义;
根据所述敏感词中字的笔顺统计得到相应的英文字符;
根据所述相应的英文字符的个数和排列顺序,求得所述敏感词中字对应的编辑距离最小的变形字。
6.根据权利要求1所述的变形词的识别验证方法,其特征在于,所述n元语言模型的获得包括以下步骤:
对所述训练样本中对应的变形词wk出现的频率进行统计;
定义上下文窗口大小为K,并在所述上下文窗口范围内,对所述训练样本中对应的两个词wi,wk共同出现的频率进行统计;
Figure FDA0001329765950000011
其中,P(Wk=wk)=c(wk)/N,
Figure FDA0001329765950000021
K表示上下文窗口大小,N训练样本的数目,“wi”出现在“wk”后面第k-i位的统计数目。
7.根据权利要求1所述的变形词的识别验证方法,其特征在于,对所述待检测文本进行识别包括以下步骤:
遍历所述待检测文本,并根据其中的每个字构建候选变形字集合;
从所述候选变形字集合中识别出与所述待检测文本中字一致的变形字,并据其关联到所述识别结果。
8.根据权利要求1所述的变形词的识别验证方法,其特征在于,进行上下文语义验证包括以下步骤:
判断所述识别结果是否在n元语言模型中;
若在,则筛选所述识别结果的上下文距离为m的邻近词,并进行验证计算:
Figure FDA0001329765950000022
若计算结果小于设定的阈值或者所述识别结果不在n元语言模型中时,判断所述识别结果为变形词。
9.根据权利要求1所述的变形词的识别验证方法,其特征在于,得到变形词后还包括以下步骤:
输出语义验证结果,并周期性的将其输入所述训练样本中,得到更新样本;
通过所更新样本对所述变形词进行基于上下文概率的训练。
10.一种变形词的识别验证系统,其特征在于,包括:
获取单元,用以获取敏感词和训练样本;
变形训练单元,用以根据所述敏感词进行语音和字形扩展得到变形词,并通过所述训练样本进行基于上下文概率的训练,得到n元语言模型;
识别单元,用以输入待检测文本,并根据所述敏感词和变形词对所述待检测文本进行识别;
语义验证单元,用以将所述识别结果输入所述n元语言模型进行上下文语义验证。
CN201710482689.XA 2017-06-22 2017-06-22 一种变形词的识别验证方法及系统 Active CN107357778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710482689.XA CN107357778B (zh) 2017-06-22 2017-06-22 一种变形词的识别验证方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710482689.XA CN107357778B (zh) 2017-06-22 2017-06-22 一种变形词的识别验证方法及系统

Publications (2)

Publication Number Publication Date
CN107357778A CN107357778A (zh) 2017-11-17
CN107357778B true CN107357778B (zh) 2020-10-30

Family

ID=60273121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710482689.XA Active CN107357778B (zh) 2017-06-22 2017-06-22 一种变形词的识别验证方法及系统

Country Status (1)

Country Link
CN (1) CN107357778B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182246B (zh) * 2017-12-28 2020-10-30 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备
CN108647309B (zh) * 2018-05-09 2021-08-10 达而观信息科技(上海)有限公司 基于敏感词的聊天内容审核方法及系统
CN110941959B (zh) * 2018-09-21 2023-05-26 阿里巴巴集团控股有限公司 文本违规检测、文本还原方法、数据处理方法及设备
CN110969176B (zh) * 2018-09-29 2023-12-29 杭州海康威视数字技术股份有限公司 一种车牌样本扩增方法、装置和计算机设备
CN109597987A (zh) * 2018-10-25 2019-04-09 阿里巴巴集团控股有限公司 一种文本还原方法、装置及电子设备
CN109408824B (zh) * 2018-11-05 2023-04-25 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109753968B (zh) * 2019-01-11 2020-12-15 北京字节跳动网络技术有限公司 字符识别模型的生成方法、装置、设备及介质
CN110008307B (zh) * 2019-01-18 2021-12-28 中国科学院信息工程研究所 一种基于规则和统计学习的变形实体识别方法和装置
CN111488732B (zh) * 2019-01-25 2024-04-09 深信服科技股份有限公司 一种变形关键词检测方法、系统及相关设备
CN109977416B (zh) * 2019-04-03 2023-07-25 中山大学 一种多层次自然语言反垃圾文本方法及系统
CN110287286B (zh) * 2019-06-13 2022-03-08 北京百度网讯科技有限公司 短文本相似度的确定方法、装置及存储介质
CN110516232B (zh) * 2019-07-22 2021-06-22 北京师范大学 一种用于汉语评测的自动命题方法和系统
CN111078827A (zh) * 2019-12-23 2020-04-28 上海米哈游天命科技有限公司 一种关键词判断方法、装置、设备和介质
CN113537225B (zh) * 2020-04-22 2024-06-28 华晨宝马汽车有限公司 用于字符识别的方法、电子设备和存储介质
CN111710328B (zh) * 2020-06-16 2024-01-12 北京爱医声科技有限公司 语音识别模型的训练样本选取方法、装置及介质
CN112818108B (zh) * 2021-02-24 2023-10-13 中国人民大学 基于形近字的文本语义曲解聊天机器人及其数据处理方法
CN112989789B (zh) * 2021-03-15 2024-05-17 京东科技信息技术有限公司 文本审核模型的测试方法、装置、计算机设备及存储介质
CN113392772B (zh) * 2021-06-17 2022-04-19 南开大学 一种面向文字识别的文字图像收缩变形增强方法
CN113449199B (zh) * 2021-09-01 2021-11-26 深圳市知酷信息技术有限公司 一种基于综合安全审计的文档监控管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN106649276A (zh) * 2016-12-29 2017-05-10 北京京东尚科信息技术有限公司 标题中核心产品词的识别方法以及装置
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9280536B2 (en) * 2013-03-28 2016-03-08 Hewlett Packard Enterprise Development Lp Synonym determination among n-grams

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN106649276A (zh) * 2016-12-29 2017-05-10 北京京东尚科信息技术有限公司 标题中核心产品词的识别方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
不良文本变体关键词识别的词汇串相似度计算;李少卿等;《计算机应用与软件》;20150331;第32卷(第3期);第151-157页 *

Also Published As

Publication number Publication date
CN107357778A (zh) 2017-11-17

Similar Documents

Publication Publication Date Title
CN107357778B (zh) 一种变形词的识别验证方法及系统
CN107305541B (zh) 语音识别文本分段方法及装置
CN107305768B (zh) 语音交互中的易错字校准方法
CN101133411B (zh) 非罗马字符的容错罗马化输入方法
US7983903B2 (en) Mining bilingual dictionaries from monolingual web pages
CN111639489A (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
Almeman et al. Automatic building of arabic multi dialect text corpora by bootstrapping dialect words
CN104166462A (zh) 一种文字的输入方法和系统
JP2009193159A (ja) 領域抽出プログラム、文字認識プログラム、および文字認識装置
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
JP6427466B2 (ja) 同義語ペア獲得装置、方法、及びプログラム
JP5148671B2 (ja) 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN112489655A (zh) 一种特定领域的语音识别文本纠错方法、系统和存储介质
CN102298589A (zh) 情感倾向性模板的生成方法和装置以及应用方法和装置
KR101086550B1 (ko) 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법
CN111046627B (zh) 一种中文文字显示方法及系统
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
Mekki et al. COTA 2.0: An automatic corrector of Tunisian Arabic social media texts
Ghoshal et al. Web-derived pronunciations
Wray et al. Best practices for crowdsourcing dialectal arabic speech transcription
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.
JP2019159118A (ja) 出力プログラム、情報処理装置及び出力制御方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012

Patentee after: Daguan Data Co.,Ltd.

Address before: Rooms 501A and 501B, Building A, No. 112 Liangxiu Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, 200000

Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.

CP03 Change of name, title or address