CN101145166A - 基于音节驱动的音译实体名的计算机自动识别方法 - Google Patents

基于音节驱动的音译实体名的计算机自动识别方法 Download PDF

Info

Publication number
CN101145166A
CN101145166A CNA2007101661745A CN200710166174A CN101145166A CN 101145166 A CN101145166 A CN 101145166A CN A2007101661745 A CNA2007101661745 A CN A2007101661745A CN 200710166174 A CN200710166174 A CN 200710166174A CN 101145166 A CN101145166 A CN 101145166A
Authority
CN
China
Prior art keywords
transliteration
name
syllable
storehouse
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101661745A
Other languages
English (en)
Inventor
陈沛
郭永福
许欢庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongsou On-Line Software Coltd
Original Assignee
Beijing Zhongsou On-Line Software Coltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou On-Line Software Coltd filed Critical Beijing Zhongsou On-Line Software Coltd
Priority to CNA2007101661745A priority Critical patent/CN101145166A/zh
Publication of CN101145166A publication Critical patent/CN101145166A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种基于音节驱动的音译实体名的计算机自动识别方法,包括用于计算机检索的音译名,先获原始可信音译名库;再构建用于识别音译实体名的音节信息库;组成大容量的音译名语料库;以原始可信音译名库的音译名为基础统计识别音译名出现的错误类别,修正该音译名语料库,利用该音译名语料库对音译实体名进行自动识别。本发明充分利于音译名用字的构成规律,对计算机自动识别的对比音译名语料库进行渐进式整理,分析提高了识别精度,并通过音节的统计学习得到计算机识别精度更高的音译名资料库,从而建立大型的高精准度音译名资料库并提高搜索中音译名识别精度的,大大降低的音译名实体搜索工程中错误的触发几率和边界识别错误的几率。

Description

基于音节驱动的音译实体名的计算机自动识别方法
技术领域
本发明属于用于特定功能的数据处理方法技术领域,具体的涉及计算机搜索所使用的一种基于音节驱动的音译实体名的计算机自动识别方法。
背景技术
随着信息检索技术的飞速发展,搜索引擎已经成为人们口常生活中信息的重要来源,在每天不计其数的检索请求中,实体名占了很大的一部分,并且伴随着国际化的趋势,越来越多的用户检索请求中包含音译实体名,如人名、地名、机构名、产品名等。在对北京中搜在线软件有限公司检索日志的统计分析中我们发现,这类请求约占整个检索量的2%,并且还有上升趋势。现有搜索引擎采用的技术无法准确识别出文本中的音译实体名,致使无法获得检索结果准确率。例如,现有商用搜索引擎中查询“伊布拉希”(地名)时,排名靠前的结果都是关于“伊布拉希莫维奇”,这是因为现有系统无法准确地判断音译实体名的边界,将“伊布拉希莫维奇”断开为“伊布拉希”+“莫维奇”。
目前实现音译实体名技术通常采用如下方法实现:
(1)基于音译名用字的识别方法:这种方法通过统计,总结出使用频率最高的476个汉字作为音译名用字,根据对样本的学习,得到各个用字之间的转移概率。在识别过程中根据转移概率得到可信度最高的潜在音译名进行识别。
(2)基于角色标注的音译名识别方法:同方法1,对上述音译名用字区分其角色,分首部,中部和尾部。
上述两种技术都是以单字驱动音译名识别的,这种方法误触发的机会非常大,比如音译名用字里的“里”,“不”等都是汉语中的常用单语素。极大地影响音译名的识别精度,在方法2中采用角色标注理论上虽然可以判断音译名的长度,但实际操作起来难度很大,因为音译名尾部用字也掺杂了非常多的常用字,如“内塔尼业胡”,如果以单字标注尾部,则“亚”做尾部字的概率非常大,这就导致“内塔尼亚胡”这个音译名无法被正确识别出来。同样的,“伊布拉希莫维奇”很可能也是因为这个原因无法被正确的判断边界。
音译名和中文姓名的构成规律差别很大是致使识别率较低的主要原因,音译实体名同中国姓名相比,不存在明显的姓氏和名字的区别,有人名间隔符的情况除外,但即使在这种情况下,也应该将姓名拆开处理;音译实体名同中国姓名相比,字数差别很大,中文姓名一般是2,3个字,极少数为4个字,如冠夫姓,而音译名则从2个字到10几个字不等,而且出现几率相差不大。计算机在对中国人名和音译名进行自动识别的时候都面临着相同的问题,即如何启动人名识别,以及如何确定人名的开始以及结束位置,但是因为构词特性,在问题的难度上以及解决的方法上将会迥然不同。
在中文人名的自动识别上,已经有申请的专利提出了一种基于随机数据源学习中国人名构成规律的方法,例如2006年4月26日公告的中国专利ZL00124352.7,提供了一种中文姓名的计算机识别及检索方法,这种方法统计中国人名中的姓氏和名字用字的信息,然后根据一定规则挑选人名,建立不同权重的索引。这种方法扩展到音译名的识别使用时,存在如下局限性和缺陷:
(1)译名识别的机会过多,容易造成错判,例如“立”,“里”等都是正文出现频率相当高音译名用字。如果用上述专利中采用的单字姓氏驱动的方法势必触发大量的识别过程,降低效率,并影响识别的准确性。例如,“里白”若按音译名用字驱动的方法则可以识别为音译名并建立索引,这是错误的,在Google搜索上查找“里白”,无法查到该人物。
(2)边界无法确定,上述专利的技术方案只是针对中国人名,对可能的2字和3字人名都建立索引。这本身就存在一些问题,比如在这种模式下,搜索“陈沛”可能会返回与“陈沛嘉”有关的结果,影响用户的检索感受。同时音译名的长度不等,如果针对每个可能的音译名都建立索引,则大大增加索引量,加重检索负担。例如在一些搜索引擎上查找“马布里”,“布里白”,“里白”都会返回结果“科比终得帮手马布里白砍45分”,这说明上述专利的方法无法有效推广到音译名识别,主要就是上述原因。
(3)该专利的技术方案是建立在中国姓氏和名字地位不均等的基础上的,姓氏和名字本身并没有什么关联,比如“刘德华”、“周德华”都可能是人名,只是姓氏上的差距,而据我们的统计在音译名中姓名同时出现的比例不到10%,如乔治·布什,大部分都是单独的姓氏来标识一个人物,这样姓氏间各个音节的地位是均等的,不像中国人名般有明显的边界区分,所以若用上述专利的识别和检索方法来识别音译名,必然造成大量的漏查。
发明内容
本发明的目的在于提供一种充分利于音译名用字的构成规律,对计算机自动识别的对比音译名语料库进行渐进式整理,分析提高识别精度,并通过统计学习得到计算机识别精度更高的音译名资料库,从而建立大型的高精准度音译名资料库并提高搜索中音译名识别精度的基于音节驱动的音译实体名的计算机自动识别方法,大大降低的音译名搜索工程中错误的触发几率和边界识别错误的几率。
为实现上述发明目的,本发明采用的技术方案如下:
一种基于音节驱动的音译实体名的计算机自动识别方法,包括用于计算机检索的音译名,其特征在于所述自动识别方法包括如下步骤:
(1)从正文库中提取音译名,获得一定容量的可信的音译名样本组成原始可信音译名库;
(2)对原始可信音译名库进行统计分析,构建用于识别音译实体名的音节信息库;
(3)利用步骤(2)得到的音节信息库在正文库中挑选音译名,组成大容量的音译名语料库;
(4)以原始可信音译名库的音译名为基础统计识别步骤(3)得到的音译名语料库的音译名出现的错误类别,修正该音译名语料库,提高识别精度;
(5)利用步骤(4)得到的音译名语料库对输入的音译实体名进行自动识别。
具体的讲,上述基于音节驱动的音译实体名的计算机自动识别方法中,所述步骤(1)中从正文库中提取音译名是指从搜索引擎正文库中抓取、筛选音译名。
所述步骤(2)中的统计分析是指对原始可信音译名库中的音译名进行音节的出现频率、共现频率和连接概率计算。
所述步骤(2)中的音节信息库包括音译名首部音节库、音译名连接音节库和音译名尾部音节库。
所述自动识别方法还包括:在步骤(4)得到修正的音译名语料库后,再对该音译名语料库进行统计分析,构建用于识别音译实体名的音节信息库;利用该音节信息库在正文库中挑选音译名,组成更大容量的音译名语料库;以原始可信音译名库的音译名为基础统计识别得到音译名出现的错误类别,修正该更大容量的音译名语料库;然后重复上述步骤,一直到识别精度不再明显提高为止。
所述步骤(5)中的自动识别是指利用步骤(4)得到的音译名语料库进行统计分析,构建用于识别音译实体名的最终音节信息库,根据该最终音节信息库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库,计算各个音节的连接概率,统计出一个成词概率,根据所有可能的音译名和对应的成词概率进行筛选,然后用选定的音译名对输入的音译实体名进行自动识别。
所述自动识别方法还包括根据自动识别结果对步骤(4)得到的音译名语料库通过审核、过滤或录入方式添加正确音译实体名,构造高精度的可信赖音译名语料库。
所述步骤(2)中的统计分析具体是指:分别统计连续2字长、3字长、4字长的串出现频率,选出出现频率较高的部分结果,对该结果进行筛选分析,对2字长、3字长、4字长的串音节分别设定阈值,选出共现概率较高的音节,并对音译名首部音节、音译名连接音节和音译名尾部音节分别设定不同的阈值进行筛选。
更进一步的讲,所述自动识别方法的具体步骤为:
(1)从搜索引擎正文库中抓取、筛选音译名,获得一定容量的可信的音译名样本组成原始可信音译名库;
(2)对原始可信音译名库的音译名进行音节的出现频率、共现频率和连接概率计算,构建用于识别音译实体名的音节信息库,所述音节信息库包括音译名首部音节库、音译名连接音节库和音译名尾部音节库;
(3)利用步骤(2)得到的音节信息库在正文库中挑选音译名,组成大容量的音译名语料库;
(4)以原始可信音译名库的音译名为基础统计识别步骤(3)得到的音译名语料库的音译名出现的错误类别,修正该音译名语料库,提高识别精度;再对该音译名语料库进行统计分析,构建用于识别音译实体名的音节信息库;利用该音节信息库在正文库中挑选音译名,组成更大容量的音译名语料库;以原始可信音译名库的音译名为基础统计识别得到音译名出现的错误类别,修正该更大容量的音译名语料库;然后重复上述步骤,一直到识别精度不再明显提高为止;
(5)利用上一步骤得到的音译名语料库进行统计分析,构建用于识别音译实体名的最终音节信息库,根据该最终音节信息库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库,计算各个音节的连接概率,统计出一个成词概率,根据所有可能的音译名和对应的成词概率进行筛选,然后用选定的音译名对输入的音译实体名进行自动识别;根据自动识别结果对上一步骤得到的音译名语料库通过审核、过滤或录入方式添加正确音译实体名,构造高精度的可信赖音译名语料库。
本方法可以有效地提高音译实体名的识别精度,在实用上满足对音译实体名的检索要求。本发明中充分利用了音译名用字的构成规律,在经过发明人研究后发现,绝大多数音译名用字不是单独出现的,比如上述例子中的“莫维奇”、“尼亚”、“尼亚胡”等,因此发明人据此提出了一种概念叫做音节音节,它根据在于外国实体名包括中国少数民族人名都是以字母文字命名,其音节的构成有一定规律性,在翻译的过程中,这种构成之间的内在规律通过音译名用字体现出来,如‘-kov’翻译为“科夫”、“可夫”等。因此有效地利用这些信息,就可以大大降低误触发几率和边界识别错误几率。
本发明的有益效果在于,该基于音节驱动的音译实体名的计算机自动识别方法充分利于音译名用字的构成规律,对计算机自动识别的对比音译名语料库进行渐进式整理,分析提高了识别精度,并通过音节的统计学习得到计算机识别精度更高的音译名资料库,从而建立大型的高精准度音译名资料库并提高搜索中音译名识别精度的,大大降低的音译名实体搜索工程中错误的触发几率和边界识别错误的几率。
附图说明
图1是本发明具体实施方式的总框图;
图2是本发明具体实施方式中建立音节信息库的流程框图;
图3是在一定音节信息库下识别音译名的流程图。
具体实施方式
如图1,该基于音节驱动的音译实体名的计算机自动识别方法的具体步骤如下:
从搜索引擎正文库中抓取、筛选音译名,获得一定容量的可信的音译名样本组成原始可信音译名库;
对原始可信音译名库的音译名进行音节频率、共现频率和连接概率计算,构建用于识别音译实体名的音节信息库,所述音节信息库包括音译名首部首节库、音译名连接首节库和音译名尾部首节库;
利用得到的音节信息库从待识别正文库中挑选音译名,组成大容量的音译名语料库;
以原始可信音译名库的音译名为基础统计对上述得到的音译名语料库的音译名进行音译名识别分析,并根据出现的错误类别,修正该音译名语料库,提高识别精度;再对该音译名语料库进行统计分析,构建用于识别音译实体名的音节信息库;利用该音节信息库在正文库中挑选音译名,组成更大容量的音译名语料库;以原始可信音译名库的音译名为基础统计识别得到音译名出现的错误类别,修正该更大容量的音译名语料库;然后重复上述步骤,看精度是否提高,一直到识别精度不再明显提高为止。
利用上一步骤得到的音译名语料库进行统计分析,构建用于识别音译实体名的最终音节信息库和最终音译名库,根据该最终音节信息库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库,计算各个音节的连接概率,统计出一个成词概率,根据所有可能的音译名和对应的成词概率进行筛选,然后用选定的音译名对输入的音译实体名进行自动识别;并可根据自动识别结果对上一步骤得到的音译名语料库通过错误发现,加工去噪,审核、过滤或录入方式添加正确音译实体名,构造高精度的可信赖音译名语料库。
图2中是建立音节信息库的流程框图,首先对音译名库进行统计分析,分别统计连续字串出现的频率,进行对共现概率进行统计排序,选出出现频率较高的部分结果,确定对结果进一步进行筛选,对字串片断分别设定不同的阈值,选出共现概率较高的片断,作为音节。结果分类,对音译名首部音节,音译名连接音节和音译名尾部音节分别设定不同的阈值根据其连接字的共现频率进行筛选。
根据上述对音译名首部音节库,音译名连接音节库和音译名尾部音节库,对各个音节进行连接概率统计,连接概率可以采用马尔科夫模型进行计算,连接概率以及音译名首部音节库,音译名连接音节库和音译名尾部音节库组成最终的音节信息库。
如图3是对待识别正文库中输入的文本音译名进行识别的流程图;  其中
201:逐字进行输入正文的处理;
202:判断是否处理完正文,如果处理完成则跳转到步骤213,否则跳转到步骤203;
203:判断当前串是否出现在音节信息库中的音译名首部音节库中,如果是,则跳转到步骤204,否则转至步骤202;
204:判断当前串对应的首部音节是否是单独成音译名音节,如果是,则跳转到步骤206;
步骤205;将当前音节输出为音译名,并将音节信息库该音节对应的出现概率为成词概率,处理完后,转至步骤206;
步骤206:判断当前音节之后的串是否是音译名停用词串,如果是,则转向步骤212处理,否则转到步骤207处理;
步骤207:判断当前音节的末字开始的串是否出现在音节信息库中,如果是,则转向步骤208,否则转至步骤212处理;
步骤208:判断当前音节的末字开始的串是否出现在音译名尾端音节库中,如果是,则转向步骤211,否则转至步骤209处理;
步骤209:判断当前音节的末字开始的串是否出现在音译名连接音节库中,如果是,则转向步骤210,否则转至步骤212处理;
步骤210:根据连接音节的出现概率、依据该音节与已经提取的前一个音节之间的连接概率和与其它出现音节的共现概率,统一计算出一个成词概率;
步骤211:根据连接音节的出现概率、依据该音节与已经提取的前一个音节之间的连接概率和与其它出现音节的共现概率,统一计算出一个成词概率;
步骤211:根据尾部音节的出现概率、依据该音节与已经提取的前一个音节之间的连接概率和与其它出现音节的共现概率,统一计算出一个成词概率;
步骤212:统计成词概率,输出当前处理的音译名成词概率;
步骤213:结束识别,根据所有可能的音译名和对应的成词概率,进行筛选;。

Claims (9)

1.一种基于音节驱动的音译实体名的计算机自动识别方法,包括用于计算机检索的音译名,其特征在于所述自动识别方法包括如下步骤:
(1)从正文库中提取音译名,获得一定容量的可信的音译名样本组成原始可信音译名库;
(2)对原始可信音译名库进行统计分析,构建用于识别音译实体名的音节信息库;
(3)利用步骤(2)得到的音节信息库在待识别正文库中挑选音译名,组成大容量的音译名语料库;
(4)以原始可信音译名库的音译名为基础统计识别步骤(3)得到的音译名语料库的音译名出现的错误类别,修正该音译名语料库,提高识别精度;
(5)利用步骤(4)得到的音译名语料库对输入的音译实体名进行自动识别。
2.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法,其特征在于所述步骤(1)中从正文库中提取音译名是指从搜索引擎正文库中抓取、筛选音译名。
3.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法,其特征在于所述步骤(2)中的统计分析是指对原始可信音译名库中的音译名进行音节的出现频率、共现频率和连接概率计算。
4.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法,其特征在于所述步骤(2)中的音节信息库包括音译名首部音节库、音译名连接音节库和音译名尾部音节库。
5.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法,其特征在于所述自动识别方法还包括:在步骤(4)得到修正的音译名语料库后,再对该音译名语料库进行统计分析,构建用于识别音译实体名的音节信息库;利用该音节信息库在正文库中挑选音译名,组成更大容量的音译名语料库;以原始可信音译名库的音译名为基础统计识别得到音译名出现的错误类别,修正该更大容量的音译名语料库;然后重复上述步骤,一直到识别精度不再明显提高为止。
6.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法,其特征在于所述步骤(5)中的自动识别是指利用步骤(4)得到的音译名语料库进行统计分析,构建用于识别音译实体名的最终音节信息库,根据该最终音节信息库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库,计算各个音节的连接概率,统计出一个成词概率,根据所有可能的音译名和对应的成词概率进行筛选,然后用选定的音译名对输入的音译实体名进行自动识别。
7.根据权利要求6所述的基于音节驱动的音译实体名的计算机自动识别方法,其特征在于所述自动识别方法还包括根据自动识别结果对步骤(4)得到的音译名语料库通过审核、过滤或录入方式添加正确音译实体名,构造高精度的可信赖音译名语料库。
8.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法,其特征在于所述步骤(2)中的统计分析具体是指:分别统计连续2字长、3字长、4字长的串出现频率,选出出现频率较高的部分结果,对该结果进行筛选分析,对2字长、3字长、4字长的串音节分别设定阈值,选取出现概率较高的串作为音节,并对音译名首部音节、音译名连接音节和音译名尾部音节分别设定不同的阈值进行筛选。
9.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法,其特征在于所述自动识别方法的具体步骤为:
(1)从搜索引擎正文库中抓取、筛选音译名,获得一定容量的可信的音译名样本组成原始可信音译名库;
(2)对原始可信音译名库的音译名进行音节的出现频率、共现频率和连接概率计算,构建用于识别音译实体名的音节信息库,所述音节信息库包括音译名首部音节库、音译名连接音节库和音译名尾部音节库;
(3)利用步骤(2)得到的音节信息库在正文库中挑选音译名,组成大容量的音译名语料库;
(4)以原始可信音译名库的音译名为基础统计识别步骤(3)得到的音译名语料库的音译名出现的错误类别,修正该音译名语料库,提高识别精度;再对该音译名语料库进行统计分析,构建用于识别音译实体名的音节信息库;利用该音节信息库在正文库中挑选音译名,组成更大容量的音译名语料库;以原始可信音译名库的音译名为基础统计识别得到音译名出现的错误类别,修正该更大容量的音译名语料库;然后重复上述步骤,一直到识别精度不再明显提高为止;
(5)利用上一步骤得到的音译名语料库进行统计分析,构建用于识别音译实体名的最终音节信息库,根据该最终音节信息库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库,计算各个音节的连接概率,统计出一个成词概率,根据所有可能的音译名和对应的成词概率进行筛选,然后用选定的音译名对输入的音译实体名进行自动识别;根据自动识别结果对上一步骤得到的音译名语料库通过审核、过滤或录入方式添加正确音译实体名,构造高精度的可信赖音译名语料库。
CNA2007101661745A 2007-11-13 2007-11-13 基于音节驱动的音译实体名的计算机自动识别方法 Pending CN101145166A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101661745A CN101145166A (zh) 2007-11-13 2007-11-13 基于音节驱动的音译实体名的计算机自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101661745A CN101145166A (zh) 2007-11-13 2007-11-13 基于音节驱动的音译实体名的计算机自动识别方法

Publications (1)

Publication Number Publication Date
CN101145166A true CN101145166A (zh) 2008-03-19

Family

ID=39207692

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101661745A Pending CN101145166A (zh) 2007-11-13 2007-11-13 基于音节驱动的音译实体名的计算机自动识别方法

Country Status (1)

Country Link
CN (1) CN101145166A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239289A (zh) * 2013-06-24 2014-12-24 富士通株式会社 音节划分方法和音节划分设备
CN104657343A (zh) * 2013-11-15 2015-05-27 富士通株式会社 识别音译名的方法及装置
CN112883162A (zh) * 2021-03-05 2021-06-01 龙马智芯(珠海横琴)科技有限公司 一种音译名识别方法、装置、识别设备及可读存储介质
CN112883161A (zh) * 2021-03-05 2021-06-01 龙马智芯(珠海横琴)科技有限公司 音译名识别规则的生成方法、装置、生成设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239289A (zh) * 2013-06-24 2014-12-24 富士通株式会社 音节划分方法和音节划分设备
CN104239289B (zh) * 2013-06-24 2017-08-29 富士通株式会社 音节划分方法和音节划分设备
CN104657343A (zh) * 2013-11-15 2015-05-27 富士通株式会社 识别音译名的方法及装置
CN104657343B (zh) * 2013-11-15 2017-10-10 富士通株式会社 识别音译名的方法及装置
CN112883162A (zh) * 2021-03-05 2021-06-01 龙马智芯(珠海横琴)科技有限公司 一种音译名识别方法、装置、识别设备及可读存储介质
CN112883161A (zh) * 2021-03-05 2021-06-01 龙马智芯(珠海横琴)科技有限公司 音译名识别规则的生成方法、装置、生成设备及存储介质

Similar Documents

Publication Publication Date Title
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN100511215C (zh) 多语种翻译存储器和翻译方法
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
Burger et al. Discriminating gender on Twitter
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN100517301C (zh) 改进的拼写检查系统和方法
CN111723215A (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN102662936B (zh) 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
Hämäläinen et al. From the paft to the fiiture: a fully automatic NMT and word embeddings method for OCR post-correction
KR20090014136A (ko) 표의문자적 내용을 가지는 데이터를 서치하고 매칭하기위한 시스템 및 방법
CN106980637A (zh) Sql审核方法和装置
CN106326303A (zh) 一种口语语义解析系统及方法
CN106095778A (zh) 搜索引擎的中文搜索词自动纠错方法
CN101131706A (zh) 一种查询修正方法及系统
CN100524293C (zh) 一种从双语句对获取词对译文的方法及系统
CN109582787B (zh) 一种火力发电领域语料数据的实体分类方法及装置
CN106897364B (zh) 基于事件的中文指代语料库构建方法
CN106528535A (zh) 一种基于编码和机器学习的多语种识别方法
CN108363691A (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN101933017B (zh) 文件检索装置、文件检索系统和文件检索方法
CN101145166A (zh) 基于音节驱动的音译实体名的计算机自动识别方法
CN115186654A (zh) 一种公文文本摘要生成方法
CN112597768B (zh) 文本审核方法、装置、电子设备、存储介质及程序产品
CN106776590A (zh) 一种获取词条译文的方法及系统
Tran et al. Context-aware detection of sneaky vandalism on wikipedia across multiple languages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080319