CN101145166A

CN101145166A - 基于音节驱动的音译实体名的计算机自动识别方法

Info

Publication number: CN101145166A
Application number: CNA2007101661745A
Authority: CN
Inventors: 陈沛; 郭永福; 许欢庆
Original assignee: Beijing Zhongsou On-Line Software Coltd
Current assignee: Beijing Zhongsou On-Line Software Coltd
Priority date: 2007-11-13
Filing date: 2007-11-13
Publication date: 2008-03-19

Abstract

一种基于音节驱动的音译实体名的计算机自动识别方法，包括用于计算机检索的音译名，先获原始可信音译名库；再构建用于识别音译实体名的音节信息库；组成大容量的音译名语料库；以原始可信音译名库的音译名为基础统计识别音译名出现的错误类别，修正该音译名语料库，利用该音译名语料库对音译实体名进行自动识别。本发明充分利于音译名用字的构成规律，对计算机自动识别的对比音译名语料库进行渐进式整理，分析提高了识别精度，并通过音节的统计学习得到计算机识别精度更高的音译名资料库，从而建立大型的高精准度音译名资料库并提高搜索中音译名识别精度的，大大降低的音译名实体搜索工程中错误的触发几率和边界识别错误的几率。

Description

基于音节驱动的音译实体名的计算机自动识别方法

技术领域

本发明属于用于特定功能的数据处理方法技术领域，具体的涉及计算机搜索所使用的一种基于音节驱动的音译实体名的计算机自动识别方法。

背景技术

随着信息检索技术的飞速发展，搜索引擎已经成为人们口常生活中信息的重要来源，在每天不计其数的检索请求中，实体名占了很大的一部分，并且伴随着国际化的趋势，越来越多的用户检索请求中包含音译实体名，如人名、地名、机构名、产品名等。在对北京中搜在线软件有限公司检索日志的统计分析中我们发现，这类请求约占整个检索量的2％，并且还有上升趋势。现有搜索引擎采用的技术无法准确识别出文本中的音译实体名，致使无法获得检索结果准确率。例如，现有商用搜索引擎中查询“伊布拉希”(地名)时，排名靠前的结果都是关于“伊布拉希莫维奇”，这是因为现有系统无法准确地判断音译实体名的边界，将“伊布拉希莫维奇”断开为“伊布拉希”+“莫维奇”。

目前实现音译实体名技术通常采用如下方法实现：

(1)基于音译名用字的识别方法：这种方法通过统计，总结出使用频率最高的476个汉字作为音译名用字，根据对样本的学习，得到各个用字之间的转移概率。在识别过程中根据转移概率得到可信度最高的潜在音译名进行识别。

(2)基于角色标注的音译名识别方法：同方法1，对上述音译名用字区分其角色，分首部，中部和尾部。

上述两种技术都是以单字驱动音译名识别的，这种方法误触发的机会非常大，比如音译名用字里的“里”，“不”等都是汉语中的常用单语素。极大地影响音译名的识别精度，在方法2中采用角色标注理论上虽然可以判断音译名的长度，但实际操作起来难度很大，因为音译名尾部用字也掺杂了非常多的常用字，如“内塔尼业胡”，如果以单字标注尾部，则“亚”做尾部字的概率非常大，这就导致“内塔尼亚胡”这个音译名无法被正确识别出来。同样的，“伊布拉希莫维奇”很可能也是因为这个原因无法被正确的判断边界。

音译名和中文姓名的构成规律差别很大是致使识别率较低的主要原因，音译实体名同中国姓名相比，不存在明显的姓氏和名字的区别，有人名间隔符的情况除外，但即使在这种情况下，也应该将姓名拆开处理；音译实体名同中国姓名相比，字数差别很大，中文姓名一般是2，3个字，极少数为4个字，如冠夫姓，而音译名则从2个字到10几个字不等，而且出现几率相差不大。计算机在对中国人名和音译名进行自动识别的时候都面临着相同的问题，即如何启动人名识别，以及如何确定人名的开始以及结束位置，但是因为构词特性，在问题的难度上以及解决的方法上将会迥然不同。

在中文人名的自动识别上，已经有申请的专利提出了一种基于随机数据源学习中国人名构成规律的方法，例如2006年4月26日公告的中国专利ZL00124352.7，提供了一种中文姓名的计算机识别及检索方法，这种方法统计中国人名中的姓氏和名字用字的信息，然后根据一定规则挑选人名，建立不同权重的索引。这种方法扩展到音译名的识别使用时，存在如下局限性和缺陷：

(1)译名识别的机会过多，容易造成错判，例如“立”，“里”等都是正文出现频率相当高音译名用字。如果用上述专利中采用的单字姓氏驱动的方法势必触发大量的识别过程，降低效率，并影响识别的准确性。例如，“里白”若按音译名用字驱动的方法则可以识别为音译名并建立索引，这是错误的，在Google搜索上查找“里白”，无法查到该人物。

(2)边界无法确定，上述专利的技术方案只是针对中国人名，对可能的2字和3字人名都建立索引。这本身就存在一些问题，比如在这种模式下，搜索“陈沛”可能会返回与“陈沛嘉”有关的结果，影响用户的检索感受。同时音译名的长度不等，如果针对每个可能的音译名都建立索引，则大大增加索引量，加重检索负担。例如在一些搜索引擎上查找“马布里”，“布里白”，“里白”都会返回结果“科比终得帮手马布里白砍45分”，这说明上述专利的方法无法有效推广到音译名识别，主要就是上述原因。

(3)该专利的技术方案是建立在中国姓氏和名字地位不均等的基础上的，姓氏和名字本身并没有什么关联，比如“刘德华”、“周德华”都可能是人名，只是姓氏上的差距，而据我们的统计在音译名中姓名同时出现的比例不到10％，如乔治·布什，大部分都是单独的姓氏来标识一个人物，这样姓氏间各个音节的地位是均等的，不像中国人名般有明显的边界区分，所以若用上述专利的识别和检索方法来识别音译名，必然造成大量的漏查。

发明内容

本发明的目的在于提供一种充分利于音译名用字的构成规律，对计算机自动识别的对比音译名语料库进行渐进式整理，分析提高识别精度，并通过统计学习得到计算机识别精度更高的音译名资料库，从而建立大型的高精准度音译名资料库并提高搜索中音译名识别精度的基于音节驱动的音译实体名的计算机自动识别方法，大大降低的音译名搜索工程中错误的触发几率和边界识别错误的几率。

为实现上述发明目的，本发明采用的技术方案如下：

一种基于音节驱动的音译实体名的计算机自动识别方法，包括用于计算机检索的音译名，其特征在于所述自动识别方法包括如下步骤：

(1)从正文库中提取音译名，获得一定容量的可信的音译名样本组成原始可信音译名库；

(2)对原始可信音译名库进行统计分析，构建用于识别音译实体名的音节信息库；

(3)利用步骤(2)得到的音节信息库在正文库中挑选音译名，组成大容量的音译名语料库；

(4)以原始可信音译名库的音译名为基础统计识别步骤(3)得到的音译名语料库的音译名出现的错误类别，修正该音译名语料库，提高识别精度；

(5)利用步骤(4)得到的音译名语料库对输入的音译实体名进行自动识别。

具体的讲，上述基于音节驱动的音译实体名的计算机自动识别方法中，所述步骤(1)中从正文库中提取音译名是指从搜索引擎正文库中抓取、筛选音译名。

所述步骤(2)中的统计分析是指对原始可信音译名库中的音译名进行音节的出现频率、共现频率和连接概率计算。

所述步骤(2)中的音节信息库包括音译名首部音节库、音译名连接音节库和音译名尾部音节库。

所述自动识别方法还包括：在步骤(4)得到修正的音译名语料库后，再对该音译名语料库进行统计分析，构建用于识别音译实体名的音节信息库；利用该音节信息库在正文库中挑选音译名，组成更大容量的音译名语料库；以原始可信音译名库的音译名为基础统计识别得到音译名出现的错误类别，修正该更大容量的音译名语料库；然后重复上述步骤，一直到识别精度不再明显提高为止。

所述步骤(5)中的自动识别是指利用步骤(4)得到的音译名语料库进行统计分析，构建用于识别音译实体名的最终音节信息库，根据该最终音节信息库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库，计算各个音节的连接概率，统计出一个成词概率，根据所有可能的音译名和对应的成词概率进行筛选，然后用选定的音译名对输入的音译实体名进行自动识别。

所述自动识别方法还包括根据自动识别结果对步骤(4)得到的音译名语料库通过审核、过滤或录入方式添加正确音译实体名，构造高精度的可信赖音译名语料库。

所述步骤(2)中的统计分析具体是指：分别统计连续2字长、3字长、4字长的串出现频率，选出出现频率较高的部分结果，对该结果进行筛选分析，对2字长、3字长、4字长的串音节分别设定阈值，选出共现概率较高的音节，并对音译名首部音节、音译名连接音节和音译名尾部音节分别设定不同的阈值进行筛选。

更进一步的讲，所述自动识别方法的具体步骤为：

(1)从搜索引擎正文库中抓取、筛选音译名，获得一定容量的可信的音译名样本组成原始可信音译名库；

(2)对原始可信音译名库的音译名进行音节的出现频率、共现频率和连接概率计算，构建用于识别音译实体名的音节信息库，所述音节信息库包括音译名首部音节库、音译名连接音节库和音译名尾部音节库；

(4)以原始可信音译名库的音译名为基础统计识别步骤(3)得到的音译名语料库的音译名出现的错误类别，修正该音译名语料库，提高识别精度；再对该音译名语料库进行统计分析，构建用于识别音译实体名的音节信息库；利用该音节信息库在正文库中挑选音译名，组成更大容量的音译名语料库；以原始可信音译名库的音译名为基础统计识别得到音译名出现的错误类别，修正该更大容量的音译名语料库；然后重复上述步骤，一直到识别精度不再明显提高为止；

(5)利用上一步骤得到的音译名语料库进行统计分析，构建用于识别音译实体名的最终音节信息库，根据该最终音节信息库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库，计算各个音节的连接概率，统计出一个成词概率，根据所有可能的音译名和对应的成词概率进行筛选，然后用选定的音译名对输入的音译实体名进行自动识别；根据自动识别结果对上一步骤得到的音译名语料库通过审核、过滤或录入方式添加正确音译实体名，构造高精度的可信赖音译名语料库。

本方法可以有效地提高音译实体名的识别精度，在实用上满足对音译实体名的检索要求。本发明中充分利用了音译名用字的构成规律，在经过发明人研究后发现，绝大多数音译名用字不是单独出现的，比如上述例子中的“莫维奇”、“尼亚”、“尼亚胡”等，因此发明人据此提出了一种概念叫做音节音节，它根据在于外国实体名包括中国少数民族人名都是以字母文字命名，其音节的构成有一定规律性，在翻译的过程中，这种构成之间的内在规律通过音译名用字体现出来，如‘-kov’翻译为“科夫”、“可夫”等。因此有效地利用这些信息，就可以大大降低误触发几率和边界识别错误几率。

本发明的有益效果在于，该基于音节驱动的音译实体名的计算机自动识别方法充分利于音译名用字的构成规律，对计算机自动识别的对比音译名语料库进行渐进式整理，分析提高了识别精度，并通过音节的统计学习得到计算机识别精度更高的音译名资料库，从而建立大型的高精准度音译名资料库并提高搜索中音译名识别精度的，大大降低的音译名实体搜索工程中错误的触发几率和边界识别错误的几率。

附图说明

图1是本发明具体实施方式的总框图；

图2是本发明具体实施方式中建立音节信息库的流程框图；

图3是在一定音节信息库下识别音译名的流程图。

具体实施方式

如图1，该基于音节驱动的音译实体名的计算机自动识别方法的具体步骤如下：

从搜索引擎正文库中抓取、筛选音译名，获得一定容量的可信的音译名样本组成原始可信音译名库；

对原始可信音译名库的音译名进行音节频率、共现频率和连接概率计算，构建用于识别音译实体名的音节信息库，所述音节信息库包括音译名首部首节库、音译名连接首节库和音译名尾部首节库；

利用得到的音节信息库从待识别正文库中挑选音译名，组成大容量的音译名语料库；

以原始可信音译名库的音译名为基础统计对上述得到的音译名语料库的音译名进行音译名识别分析，并根据出现的错误类别，修正该音译名语料库，提高识别精度；再对该音译名语料库进行统计分析，构建用于识别音译实体名的音节信息库；利用该音节信息库在正文库中挑选音译名，组成更大容量的音译名语料库；以原始可信音译名库的音译名为基础统计识别得到音译名出现的错误类别，修正该更大容量的音译名语料库；然后重复上述步骤，看精度是否提高，一直到识别精度不再明显提高为止。

利用上一步骤得到的音译名语料库进行统计分析，构建用于识别音译实体名的最终音节信息库和最终音译名库，根据该最终音节信息库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库，计算各个音节的连接概率，统计出一个成词概率，根据所有可能的音译名和对应的成词概率进行筛选，然后用选定的音译名对输入的音译实体名进行自动识别；并可根据自动识别结果对上一步骤得到的音译名语料库通过错误发现，加工去噪，审核、过滤或录入方式添加正确音译实体名，构造高精度的可信赖音译名语料库。

图2中是建立音节信息库的流程框图，首先对音译名库进行统计分析，分别统计连续字串出现的频率，进行对共现概率进行统计排序，选出出现频率较高的部分结果，确定对结果进一步进行筛选，对字串片断分别设定不同的阈值，选出共现概率较高的片断，作为音节。结果分类，对音译名首部音节，音译名连接音节和音译名尾部音节分别设定不同的阈值根据其连接字的共现频率进行筛选。

根据上述对音译名首部音节库，音译名连接音节库和音译名尾部音节库，对各个音节进行连接概率统计，连接概率可以采用马尔科夫模型进行计算，连接概率以及音译名首部音节库，音译名连接音节库和音译名尾部音节库组成最终的音节信息库。

如图3是对待识别正文库中输入的文本音译名进行识别的流程图；其中

201：逐字进行输入正文的处理；

202：判断是否处理完正文，如果处理完成则跳转到步骤213，否则跳转到步骤203；

203：判断当前串是否出现在音节信息库中的音译名首部音节库中，如果是，则跳转到步骤204，否则转至步骤202；

204：判断当前串对应的首部音节是否是单独成音译名音节，如果是，则跳转到步骤206；

步骤205；将当前音节输出为音译名，并将音节信息库该音节对应的出现概率为成词概率，处理完后，转至步骤206；

步骤206：判断当前音节之后的串是否是音译名停用词串，如果是，则转向步骤212处理，否则转到步骤207处理；

步骤207：判断当前音节的末字开始的串是否出现在音节信息库中，如果是，则转向步骤208，否则转至步骤212处理；

步骤208：判断当前音节的末字开始的串是否出现在音译名尾端音节库中，如果是，则转向步骤211，否则转至步骤209处理；

步骤209：判断当前音节的末字开始的串是否出现在音译名连接音节库中，如果是，则转向步骤210，否则转至步骤212处理；

步骤210：根据连接音节的出现概率、依据该音节与已经提取的前一个音节之间的连接概率和与其它出现音节的共现概率，统一计算出一个成词概率；

步骤211：根据连接音节的出现概率、依据该音节与已经提取的前一个音节之间的连接概率和与其它出现音节的共现概率，统一计算出一个成词概率；

步骤211：根据尾部音节的出现概率、依据该音节与已经提取的前一个音节之间的连接概率和与其它出现音节的共现概率，统一计算出一个成词概率；

步骤212：统计成词概率，输出当前处理的音译名成词概率；

步骤213：结束识别，根据所有可能的音译名和对应的成词概率，进行筛选；。

Claims

1.一种基于音节驱动的音译实体名的计算机自动识别方法，包括用于计算机检索的音译名，其特征在于所述自动识别方法包括如下步骤：

(3)利用步骤(2)得到的音节信息库在待识别正文库中挑选音译名，组成大容量的音译名语料库；

2.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(1)中从正文库中提取音译名是指从搜索引擎正文库中抓取、筛选音译名。

3.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(2)中的统计分析是指对原始可信音译名库中的音译名进行音节的出现频率、共现频率和连接概率计算。

4.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(2)中的音节信息库包括音译名首部音节库、音译名连接音节库和音译名尾部音节库。

5.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述自动识别方法还包括：在步骤(4)得到修正的音译名语料库后，再对该音译名语料库进行统计分析，构建用于识别音译实体名的音节信息库；利用该音节信息库在正文库中挑选音译名，组成更大容量的音译名语料库；以原始可信音译名库的音译名为基础统计识别得到音译名出现的错误类别，修正该更大容量的音译名语料库；然后重复上述步骤，一直到识别精度不再明显提高为止。

6.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(5)中的自动识别是指利用步骤(4)得到的音译名语料库进行统计分析，构建用于识别音译实体名的最终音节信息库，根据该最终音节信息库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库，计算各个音节的连接概率，统计出一个成词概率，根据所有可能的音译名和对应的成词概率进行筛选，然后用选定的音译名对输入的音译实体名进行自动识别。

7.根据权利要求6所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述自动识别方法还包括根据自动识别结果对步骤(4)得到的音译名语料库通过审核、过滤或录入方式添加正确音译实体名，构造高精度的可信赖音译名语料库。

8.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(2)中的统计分析具体是指：分别统计连续2字长、3字长、4字长的串出现频率，选出出现频率较高的部分结果，对该结果进行筛选分析，对2字长、3字长、4字长的串音节分别设定阈值，选取出现概率较高的串作为音节，并对音译名首部音节、音译名连接音节和音译名尾部音节分别设定不同的阈值进行筛选。

9.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述自动识别方法的具体步骤为：