CN101976253B - 一种中文变异文本匹配识别方法 - Google Patents

一种中文变异文本匹配识别方法 Download PDF

Info

Publication number
CN101976253B
CN101976253B CN 201010521160 CN201010521160A CN101976253B CN 101976253 B CN101976253 B CN 101976253B CN 201010521160 CN201010521160 CN 201010521160 CN 201010521160 A CN201010521160 A CN 201010521160A CN 101976253 B CN101976253 B CN 101976253B
Authority
CN
China
Prior art keywords
character
characters
string
matched
model string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201010521160
Other languages
English (en)
Other versions
CN101976253A (zh
Inventor
程克非
李红波
郭瑞杰
席珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Zhizai Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN 201010521160 priority Critical patent/CN101976253B/zh
Publication of CN101976253A publication Critical patent/CN101976253A/zh
Application granted granted Critical
Publication of CN101976253B publication Critical patent/CN101976253B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

一种中文变异文本匹配识别方法,该方法通过将目标文本和模式字符串进行特殊的编码转换以提高文本的相似度,并根据模式字符串中汉字字符结构特征对转换后的模式字符串添加适当的通配符,然后采用精确字符串匹配算法(即CV-BM算法)进行匹配。解决了变异文本中形近字替换及基于形近错别字替换的难以匹配的问题。能够解决形近字替换及基于形近错别字替换的文本变异难以匹配的情况,较图像分割识别方法有着更小的时间和空间复杂度,更适宜于高速网络数据传输环境中的中文信息快速匹配,可以广泛的应用于需要对中文信息进行匹配的入侵防御系统、信息检索等系统中。

Description

一种中文变异文本匹配识别方法
技术领域
本发明涉及中文信息检索及内容过滤方法,尤其是中文信息匹配方法。该方法可以广泛的应用于需要对中文信息进行匹配的入侵防御系统、信息检索等系统中。
背景技术
IPS(入侵防御系统)一直以来充当了安全防护系统的重要角色,IPS技术能够对网络进行多层、深层、主动的防护以有效的保证企业网络安全。字符串匹配则是IPS系统性能的一个重要指标,字符串匹配是指给定一组特定的字符串P(模式字符串),找出P在文本T(目标文本)中所有出现。如在文本T中查找到一个与模式字符串P相同的字符串,则模式字符串P与目标文本T匹配,否则不匹配。
在中文环境下,信息检索和内容过滤一般选用基于精确字符串匹配的方法。但为了规避检测,出现了一些以同音字、形近字、错别字替换敏感词,拆分字及在关键词中添加若干无意义符号等变异文本。
在国家高技术研究发展计划(即863计划)的917子项的《中文信息模糊匹配技术》中,通过将关键词根据拼音进行归类并将待匹配字符串按照拼音编码,然后在类串层面上进行精确匹配来解决同音字替换,及部分基于拼音的错别字替换难以匹配的情况;它还通过在预处理时预先将可拆分的关键词进行拆分,并扩展关键词库来解决拆分字无法匹配的情况;另外,它在预处理阶段采用先将无效字符过滤,然后进行精确匹配的方法解决关键字中穿插无效字符难以匹配的情况。该技术很好的解决了同音字替换,拆分字及在关键词中添加无效字符的文本变异情况,但没有将形近字替换或基于形近错别字替换的文本变异情况作为研究对象。
OCR(Optical Character Recognition光学字符识别)系统已经广泛用于字体识别,它通过对文本资料进行扫描,然后对图像文件进行分析处理,以获取文字及版面信息。识别过程主要包括图像输入,预处理,版面分析,字符分割,字符识别,版面恢复,后处理,校对。其中公开号为CN1808468(中国申请号为200510002097.0)的《光学字符识别方法及系统》针对两种语言混排的图像提出了相应的处理方法。然而图像质量对该方法的效果有着重要影响,并且该方法的整体时间复杂度较大,其中仅图像分割算法的最小时间复杂度为O(m·n),即将图像按像素扫描一遍,其中m,n分别为图像的长和宽。这两方面成为该方法移植到IPS系统的瓶颈。除此之外,针对形近字替换及基于形近错别字的文本变异情况目前还没有有效的解决方案。鉴于这种情况,本发明提出一种在形近字替换及基于形近错别字替换的文本变异情况下可以有效检测关键字的方法。
发明内容
为了解决变异文本中形近字替换及基于形近的错别字替换难以匹配的问题,本发明通过将目标文本和模式字符串进行特殊的编码转换以提高文本的相似度,然后采用带有通配符的精确字符串匹配算法进行匹配。
本匹配识别方法包括预处理和模式匹配两个阶段。在预处理阶段,读取模式字符串,对模式字符串进行编码转换,读取目标文本数据,通过查表完成目标文本编码转换;在模式匹配阶段:读取模式字符串和目标文本,调用CV-BM算法(面向中文变异文本的精确字符串匹配算法),对数据进行模式匹配;报告匹配结果。
构建由通配符和标识符组成的基于部首字符编码表和模式字符串编码转换表。基于部首字符编码表的构建具体方法为,拆分单元按照模式字符串字符结构将其拆分为包括字符部首和形旁的字符基本单元;用不同标识符代替字符基本单元,每个字符基本单元设置对应的标识符。根据模式字符串字符,按照汉字字符串结构特征将其结构构造为包括字符部首和形旁的字符基本单元,然后查询基于部首字符编码表,根据字符中形旁位置是否固定确定用相应的通配符替换该字符在基于部首字符编码表中对应标识符的位置。
字符识别单元依次读取模式字符串中字符,逐个与模式字符串编码转换表中标识符比较,将匹配的字符存放在待匹配模式字符串存储单元中。字符识别单元读取模式字符串一个字符,信息匹配单元查询模式字符串编码转换表,如果模式字符串编码转换表中存在当前提取的模式字符串中的字符,则从编码转换表中读取该字符对应的编码转换表中的字符,将其存放在待匹配模式字符串存储单元中,指针信号控制单元触发计数器将模式字符串当前指针加1,字符识别单元读取模式字符串中下一个字符进行查询判断,直至模式字符串中所有字符完成转换。
查询模块查询基于部首字符编码表,获取字符基本单元中形旁存在的位置,并根据形旁存在的位置,在字符基本单元中将表示部首部分的标识符用通配符代替。信息匹配单元调用CV-BM算法对存储单元中的数据进行模式匹配,具体过程为,将模式字符串和待匹配目标文本左对齐后,从右向左扫描(或从左到右),比较模式字符串和待匹配目标文本对应的字符,若对应的字符相同,则继续扫描,直至整个模式字符串扫描完成。若对应的字符不相同时,匹配后跳单元根据CV-BM算法中的坏字符规则、好后缀规则及整′块′后跳规则计算后跳距离。匹配后跳单元选择后跳距离最大者,将最大后跳距离写入后跳临时存储单元,指针控制单元读取后跳临时存储单元的信息,并触发计数器将待匹配目标文本指针移动相应幅度,使模式字符串和待匹配目标文本重新对齐,并继续扫描,直至整个待匹配文本完成扫描。
本发明能够解决形近字替换及基于形近错别字替换的文本变异难以匹配的情况,同时利用CV-BM算法进行匹配进一步提高匹配速度;该方法较图像分割识别方法有着更小的时间和空间复杂度,更适宜于高速网络数据传输环境中的中文信息快速匹配。
附图说明
图1本发明的系统流程图
具体实施方式
下面结合附图和具体实施方式详细描述本发明。
以下针对附图和具体实例对本发明的实施作具体描述。如图1为本发明中文变异文本匹配识别流程图。
构建基于部首字符编码表以及模式字符串编码转换编码表。
基于部首字符编码表的构建具体为,将每个汉字按照结构拆分为包括字符部首和形旁的字符基本单元,用不同标识符(如可采用大小写英文字母,阿拉伯数字等64个字符)作为字符基本单元,本实例基于64个编码转换字符(标识符)构建基于部首字符编码表(如表1),编码表中,每个汉字(模式字符串)采用四个及四个以上不同标识符编码(本发明以四个标识符为例进行介绍)。其中如果不足四位的通过添加特殊的标识符补足(如添加′=′)。
表1:用于构建基于部首字符编码表的标识符
  1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16
  A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P
  17   18   19   20   21   22   23   24   25   26   27   28   29   30   31   32
  Q   R   S   T   U   V   W   X   Y   Z   a   b   c   d   e   f
  33   34   35   36   37   38   39   40   41   42   43   44   45   46   47   48
g h i j k l m n o p q r s t u v
  49   50   51   52   53   54   55   56   57   58   59   60   61   62   63   64
  w   x   y   z   0   1   2   3   4   5   6   7   8   9   +   /
该基于部首字符编码表的编码规则是根据每个汉字字符的构造特征,按照部首、结构拆分为字符部首和形旁的字符基本单元,并全部汉字字符按照部首分类,根据每个部首分类含有的汉字字符多少的排行表,从多到少对部首进行编码。部首编码后,也按此顺序对部首内含有的汉字字符离散散列编码,此时,先对非部首部分在不同部首出现的汉字字符优先编码,并确保其非部首部分编码相同,在部首内其它汉字字符离散散列编码。最后将难检字离散散列编码,确保其不与先前编码冲突。其中不足四个字符的,通过添加′=′将其补足为四位。如字符′红′的编码结果为″sag=″,在对部首′木′内字符进行编码时,优先对字符′杠′编码,并确保非部首部分相同。则其编码结果为″xag=″。
构建模式字符串编码转换表的具体方法为,根据模式字符串字符,按照汉字字符串结构特征将其结构构造为包括字符部首和形旁的字符基本单元,然后查询基于部首字符编码表,根据字符中形旁位置是否固定确定用相应的通配符替换该字符在基于部首字符编码表中对应标识符的位置。具体为,如果该字符中形旁位置固定,在其它字符中其位置没有变化,则用通配符(如′?′)替换该部分在基于部首字符编码表中对应的标识符。如果该字符形旁部分在字符中出现的位置是变化的,则用另外的通配符(如′*′)替换该部分在基于部首字符编码表中可能出现的对应标识符的位置。
如:模式字符串中出现边境中的′境′,对其进行分析为左右结构,将其拆分为左右两部分基本单元,其中左半部分为其部首,查询部首字符编码表,其编码为″fujq″。且其形旁只能存在与右半部分,则用通配符′?′代替部首编码出现的位置,编码格式为″?ujq″。即用′?′代替其部首编码。如果模式字符串中出现′刚′,其为左右结构,其中右半部分为其部首,查询部首编码为″MRJH″,且其形旁可能存在字符的左右部分,则其编码格式为″MR**″和″**MR″,即用通配符′*′替换其部首编码可能出现的位置。
获取模式字符串:信息读取单元读取模式字符串编码转换表,获取预先设置的模式字符串。
完成模式字符串编码转换:字符识别单元对模式字符串中所有字符逐个进行查询判断。与编码转换表中字符比较,如果编码转换表中存在当前字符,则读取编码转换表中其对应的字符串,并将由通配符和标识符组成的该字符串存放在待匹配模式字符串存储单元中。指针信号控制单元触发计数器将模式字符串当前指针加1,字符识别单元对下一个字符进行查询判断,直至模式字符串所有字符完成查询判断。如果编码转换表中不存在当前字符,则字符识别单元报错,退出系统。
读取目标文本数据:信息读取单元从存储器中读取基于部首字符编码表,并从预先设定地址读取目标文本。
完成目标文本编码转换:字符识别单元对目标文本中所有字符逐个进行查询判断,如果基于部首字符编码表中存在当前字符,则读取基于部首字符编码表中对应的字符串,并将由标识符组成的该字符串存放在待匹配目标文本存储单元中,指针信号控制单元触发计数器将目标文本当前指针加1,字符识别单元对下一个字符进行查询判断,完成一个字符的判断目标文本当前指针加1,直至指针数增加到待匹配目标文本字符串数,目标文本所有字符完成查询判断。如果基于部首编码表中不存在当前字符,则字符识别单元报错,退出系统。
读取待匹配模式字符串和目标文本:匹配信息获取单元从待匹配模式字符串存储单元读取模式字符串,然后从待匹配目标文本存储单元中读取待匹配目标文本。
调用CV-BM算法,对数据进行模式匹配:匹配单元将模式字符串和待匹配目标文本左对齐后,从右向左扫描。在模式字符串中,通配符′?′代表一个字符,它与任何字符都相匹配。如果模式字符串当前字符为通配符′*′,则待匹配目标文本当前指针加1,模式字符串当前指针不动。匹配单元继续扫描,在扫描过程中,比较模式字符串和待匹配目标文本对齐的字符,若对齐的字符相同,则继续向左扫描,直至整个模式字符串扫描完成。若对齐的字符不相同时,匹配后跳单元确定后跳距离,可根据CV-BM算法中的坏字符规则、好后缀规则及整′块′后跳规则分别计算后跳距离,匹配后跳单元比较上述后跳距离的大小,并选择三者中最大者将该信息写入后跳临时存储单元。指针控制单元读取后跳临时存储单元的信息,并触发计数器将待匹配目标文本指针移动最大后跳距离,使模式字符串和待匹配目标文本重新对齐,并继续从右向左扫描,直至整个待匹配文本完成扫描(待匹配目标文本当前指针与待匹配目标文本字符数相等)。
若发现模式字符串中某个字符与待匹配目标文本字符不相同时,将包含该字符的四个字符看作一个′块′,直接跳过该′块′。匹配后跳单元分别根据坏字符规则、好后缀规则及整′块′后跳规则分别计算后跳幅度,匹配后跳单元选择三种规则确定的后跳幅度中最大者,将最大后跳距离写入后跳临时存储单元,指针控制单元读取后跳临时存储单元的信息,并触发计数器将待匹配目标文本指针移动最大后跳距离,使模式字符串和待匹配目标文本重新对齐,并继续扫描直至整个待匹配目标文本完成匹配。
CV-BM算法中,坏字符规则具体为,扫描过程中发现某个字符不匹配时,如果该字符在模式字符串中没有出现,后跳距离为模式字符串长度,如果该字符在模式字符串中出现,则以该字符进行对齐。好后缀规则具体为,若模式字符串与待匹配目标文本中某个字符不匹配,且已有部分字符匹配成功时,如果模式字符串中已匹配部分在待匹配文本中也出现,且该部分之前匹配位置的前一个字符与下一次匹配位置的前一个字符不同,则按已匹配部分对齐,如果模式字符串中已匹配部分没有出现,则寻找模式字符串中与已匹配部分中待匹配文本的最长后缀相同的最长的前缀,并将这两部分对齐。整′块′后跳规则具体为根据转换后的字符编码特征,将待匹配目标文本中相互连续的四个标识符看做一个′块′。可基于坏字符规则或好后缀规则,并以′块′为基本单位将其看作为一个字符确定后跳距离。如基于好后缀规则的整′块′后跳规则为:如果该′块′对应的字符在模式字符串中没有出现,则以整块的模式字符串长度作为后跳距离,如果该′块′在模式字符串中出现,则以该′块′进行对齐。
报告匹配结果:在匹配过程中,如果出现待模式字符串的所有字符与待匹配目标文本的某些字符全部匹配。匹配单元触发匹配记录单元,匹配记录单元获取待匹配目标文本与模式字符串完全匹配的字符段地址信息,并将地址信息存储在匹配结果存储单元。系统外其它程序可以通过读取匹配结果存储单元信息获取匹配是否成功信息。否则,匹配单元继续扫描直至整个待匹配目标文本完成匹配。
Unicode 5.0编码收集了70217个汉字,而兼容GB2312的GBK收录了21003个汉字。其中Unicode 5.0编码采用了“四字典排序法”来排序,其部首为214个。劳飞《那个部首下属的汉字最多?》一文中指出《大漢和辭典》中下属字数最多的部首是″卄″,共有2,137个。64×64=4096远大于部首″卄″下属的字数。因此将块确定为4个及以上字符可以有效的避免重码的情况。
表2为基于部首编码构造的编码表,其中′边′的编码为三位,通过添加′=′将其补足为四位。
表2
  明文词组   基于部首编码后词组
  边境   lpv=fujq
  边镜   lpv=qujq
  边境   lpv=gjqb
Lvenshtein distance算法(也称为编辑距离算法)是俄国科学家VladimirLevenshtein 1965年发明用来计算两字符串间相似度的算法。其主要思想是通过计算原串转换到目标串所需的最少的插入,删除和替换的数目来确定其相似度。假定关键字为″边境″,″边镜″与关键字相似度为0.50。而通过部首编码后,字符串″lpv=qujq″与″Ipv=fujq″的相似度为0.875。显然两者相似度大幅提高。
CV-BM算法是Chinese Variation-Boyer-Moore算法的简称,该算法是针对中文变异文本处理具体应用提出的。该算法继承了BM算法的坏字符规则和好后缀规则,同时还添加了整′块′后跳的规则以提高匹配速度。而BM算法是Boyer-Moore算法的简称,1977年由Robert Boyer和L.Moore提出一种精确字符串匹配算法。
结合具体实例将本方法与BM算法进行对比。下表中T为匹配单元读取的待匹配目标文本,P为匹配单元读取的模式字符串。待匹配目标文本的18个连续字符是随机选取的片段。
(a)采用BM算法
在上表中,当模式字符串中字符′q′与待匹配目标文本中字符j′不相同时,根据坏字符规则,将模式字符串右移一位,使模式字符串中最右端的′q′字符与待匹配目标中字符′b′对齐;
1234567890123456789
T:a b c b a d f j b c f a q v t b c e...
P:l p V=?u j q
P:l p V=?u j q
(b)CV-BM算法
在下表中,由于每个汉字字符由四个标识符组成,所以当其中任何一个不一致时,将四个标识符看作一个整体,对模式字符串进行′块′处理。因此当模式字符串中字符′q′与待匹配目标文本中字符′j′不相同时,将模式字符串右移四位,使模式字符串中最右端字符′q′与待匹配目标中字符′a′对齐。加大了后跳距离。
1234567890123456789
T:a b c b a d f j b c f a q v t b c e...
P:l p V=?u j q
P:l p V=?u j q
在匹配阶段,CV-BM算法在最好情况下时间复杂度为O(n/(4m)),小于BM;在最坏情况下时间复杂度为O(n·m),与BM相同。通常在模式匹配时,基本上都逼近BM算法中的最好情形,因而匹配速度显著提高。

Claims (4)

1.中文变异文本匹配识别方法,其特征在于,构建由通配符和标识符组成的基于部首字符编码表及模式字符串编码转换表;字符识别单元依次读取模式字符串中字符,逐个与模式字符串编码转换表中标识符比较,将模式字符串存放在待匹配模式字符串存储单元中;将待匹配目标文本与模式字符串对齐,逐个比较模式字符串和待匹配目标文本中对应的字符,若对应的字符不相同时,匹配后跳单元计算后跳距离,将最大后跳距离写入后跳临时存储单元,指针控制单元读取后跳临时存储单元的信息,并触发计数器将待匹配目标文本指针移动最大后跳距离,使模式字符串和待匹配目标文本按最大后跳距离重新对齐,并继续扫描,直至完成整个待匹配文本匹配;
所述基于部首字符编码表的构建方法为,拆分单元按照模式字符串字符结构将字符拆分为包括字符部首和形旁的字符基本单元,用64个不同标识符代替字符基本单元,每个字符基本单元设置对应的标识符,每个模式字符串采用四个以上不同标识符编码,如果不足四位的通过添加特殊的标识符补足;
所述模式字符串编码转换表的构建方法为,查询模块查询基于部首字符编码表,获取字符基本单元中形旁存在的位置,根据形旁位置在字符中是否固定确定用相应的通配符替换该字符在基于部首字符编码表中对应标识符的位置。
2.根据权利要求1所述的中文变异文本匹配识别方法,其特征在于,计算后跳距离具体为,如模式字符串中某字符在待匹配目标文本中没有出现,后跳距离为模式字符串长度,如某字符在模式字符串中出现,则以模式字符串中该字符和待匹配目标文本中该字符为准对齐。
3.根据权利要求1所述的中文变异文本匹配识别方法,其特征在于,计算后跳距离具体为,如果模式字符串中已匹配部分在待匹配模式字符串中出现,且该已匹配部分之前匹配位置的前一个字符与下一次匹配位置的前一个字符不同,则将已匹配部分对齐,如果模式字符串中已匹配部分在模式字符串中没有出现,则寻找模式字符串中与已匹配部分的最长后缀相同的最长前缀,并将这两部分对齐。
4.根据权利要求1所述的中文变异文本匹配识别方法,其特征在于,计算后跳距离具体为,将目标文本中相互连续的标识符看做一个'块',并以'块'为基本单位作为一个字符,采用权利要求2或3的方法确定后跳距离。
CN 201010521160 2010-10-27 2010-10-27 一种中文变异文本匹配识别方法 Expired - Fee Related CN101976253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010521160 CN101976253B (zh) 2010-10-27 2010-10-27 一种中文变异文本匹配识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010521160 CN101976253B (zh) 2010-10-27 2010-10-27 一种中文变异文本匹配识别方法

Publications (2)

Publication Number Publication Date
CN101976253A CN101976253A (zh) 2011-02-16
CN101976253B true CN101976253B (zh) 2013-03-06

Family

ID=43576139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010521160 Expired - Fee Related CN101976253B (zh) 2010-10-27 2010-10-27 一种中文变异文本匹配识别方法

Country Status (1)

Country Link
CN (1) CN101976253B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122298B (zh) * 2011-03-07 2013-02-20 清华大学 一种中文相似性匹配方法
CN103514238B (zh) * 2012-06-30 2017-12-19 重庆新媒农信科技有限公司 基于分类查找的敏感词识别处理方法
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
JP5928421B2 (ja) * 2013-08-23 2016-06-01 富士ゼロックス株式会社 情報処理装置、画像処理装置、情報処理システム、およびプログラム
CN104866465B (zh) * 2014-02-25 2017-11-03 腾讯科技(深圳)有限公司 敏感文本检测方法及装置
CN104052749B (zh) * 2014-06-23 2017-07-28 中国科学技术大学 一种链路层协议数据类型识别的方法
CN104360988B (zh) * 2014-10-17 2017-10-20 北京锐安科技有限公司 中文字符的编码方式的识别方法和装置
US9600731B2 (en) * 2015-04-08 2017-03-21 Toshiba Tec Kabushiki Kaisha Image processing apparatus, image processing method and computer-readable storage medium
CN106611176B (zh) * 2015-10-26 2019-10-25 北京国双科技有限公司 异常中文字符串的识别方法及装置
CN106897422A (zh) * 2017-02-23 2017-06-27 百度在线网络技术(北京)有限公司 文本处理方法、装置及服务器
CN109063068B (zh) * 2018-07-23 2020-07-03 广州云测信息技术有限公司 一种图片检索方法和装置
CN110298020B (zh) * 2019-05-30 2023-05-16 北京百度网讯科技有限公司 文本反作弊变体还原方法及设备、文本反作弊方法及设备
CN110674859A (zh) * 2019-09-17 2020-01-10 智阳网络技术(上海)有限公司 基于汉字笔画的汉语短文本相似度检测方法及系统
CN110688837B (zh) * 2019-09-27 2023-10-31 北京百度网讯科技有限公司 数据处理的方法及装置
CN111507350B (zh) * 2020-04-16 2024-01-05 腾讯科技(深圳)有限公司 一种文本识别方法和装置
CN111782892B (zh) * 2020-06-30 2023-09-19 中国平安人寿保险股份有限公司 基于前缀树的相似字符识别方法、设备、装置和存储介质
CN112989838B (zh) * 2021-05-17 2021-08-31 北京智慧易科技有限公司 文本联系实体提取方法、装置、设备及可读存储介质
CN113837118B (zh) * 2021-09-28 2024-04-26 支付宝(杭州)信息技术有限公司 文本变异关系的获取方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
CN1300011A (zh) * 1999-12-14 2001-06-20 国际商业机器公司 辨别名自动查找方法和系统
CN101814086A (zh) * 2010-02-05 2010-08-25 山东师范大学 一种基于模糊遗传算法的中文web信息过滤方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
CN1300011A (zh) * 1999-12-14 2001-06-20 国际商业机器公司 辨别名自动查找方法和系统
CN101814086A (zh) * 2010-02-05 2010-08-25 山东师范大学 一种基于模糊遗传算法的中文web信息过滤方法

Also Published As

Publication number Publication date
CN101976253A (zh) 2011-02-16

Similar Documents

Publication Publication Date Title
CN101976253B (zh) 一种中文变异文本匹配识别方法
CN106528536A (zh) 一种基于词典与文法分析的多语种分词方法
CN101079031A (zh) 一种网页主题提取系统和方法
KR20010035679A (ko) 외래어 음차표기의 음성적 거리 계산방법
CN106227808B (zh) 一种去除邮件干扰信息的方法以及垃圾邮件判定方法
CN111178061B (zh) 一种基于编码转换的多国语分词方法
CN100429648C (zh) 一种文本自动分块的方法、分块器和文本到语言合成系统
CN102043808A (zh) 利用网页结构抽取双语词条的方法及设备
CN106030568B (zh) 自然语言处理系统、自然语言处理方法、以及自然语言处理程序
CN111209753B (zh) 一种实体命名识别方法及装置
CN103049458A (zh) 一种修正用户词库的方法和系统
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN105488471B (zh) 一种字形识别方法及装置
Akman et al. A lossless text compression technique using syllable based morphology.
Alhawiti Adaptive models of Arabic text
CN113420766B (zh) 一种融合语言信息的低资源语种ocr方法
CN116822495B (zh) 基于对比学习的汉-老、泰平行句对抽取方法及装置
CN111782773B (zh) 基于级连模式的文本匹配方法及装置
Hocking et al. Optical character recognition for South African languages
CN111428475B (zh) 分词词库的构建方法、分词方法、装置及存储介质
CN112966510A (zh) 一种基于albert的武器装备实体抽取方法、系统及存储介质
Kasthuri et al. An improved rule based iterative affix stripping stemmer for Tamil language using K-mean clustering
CN104994208B (zh) 移动终端联系人信息提取方法及系统
CN108897749A (zh) 基于语法树和文本块密度的网页信息抽取方法及系统
CN116341543B (zh) 一种人名识别与纠错的方法、系统、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190211

Address after: 401120 No. B2-2-6 and B2-2-7, No. 5, Huangshan Avenue, High-tech Park, North New District, Chongqing

Patentee after: Chongqing Zhizai Technology Co.,Ltd.

Address before: 400065 No. 2 Chongwen Road, Huang Jue ya, Nan'an District, Chongqing

Patentee before: Chongqing University of Posts and Telecommunications

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130306