CN101093478A

CN101093478A - 一种根据实体的汉语简称识别汉语全称的方法及系统

Info

Publication number: CN101093478A
Application number: CN 200710119513
Authority: CN
Inventors: 卢汉; 曹存根; 岳小莉
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2007-07-25
Filing date: 2007-07-25
Publication date: 2007-12-26
Anticipated expiration: 2027-07-25
Also published as: CN101093478B

Abstract

本发明公开了一种根据实体的汉语简称识别汉语全称的方法，包括输入待识别缩略语；读入常用词条库；根据待识别缩略语，从所述的常用词条库中筛选出候选原语集合；利用多路优先级函数组合对候选原语集合进行筛选；计算候选原语的优先级，保留优先级较高的候选原语；找出匹配次数最多、优先级最高的一条或几条候选原语作为最终结果。本发明还公开了一种根据实体的汉语简称识别汉语全称的系统，包括输入模块、常用词条库、候选原语产生模块以及候选原语筛选模块。本发明无需借助上下文即可实现对汉语缩略语的识别和理解；方便了用户的检索，提高了自然语言理解和信息检索的准确率。

Description

一种根据实体的汉语简称识别汉语全称的方法及系统

技术领域

本发明涉及中文信息处理和信息检索领域的缩略语识别技术，特别涉及对上下文无关的缩略语的基于优先级函数的识别方法。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要问题。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着计算机和互联网的广泛应用，计算机可处理的自然语言文本数量空前增长，面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长，自然语言处理的对象也从小规模受限语言处理转向大规模真实文本处理，其研究必将对人们的生活产生深远的影响。

中文信息处理是研究如何利用计算机对汉语信息进行自动处理。汉语是一门意合语言，和西方语言相比，缺少显式的标记，语法、语义、语用方面也更加灵活，增加了计算机理解和处理的难度，要让计算机能够处理中文信息，尚有许多困难需要克服。目前，中文信息处理已经在语音识别、分词、机器翻译等领域取得了一些成果。中文信息自动化处理程度的提升，将对我国的科技、文化、经济、安全等带来可观的效益。

信息检索，研究如何从纷繁复杂的大量信息中，快速、准确获取所需信息的技术。信息检索技术经过多年的发展，目前已经相当成熟，新型信息检索技术正朝智能化、动态化、多样化、个性化等方向发展。

汉语缩略语又叫简称，是汉语习惯用法经过精简和压缩得到的短语，并且仍然保留着原习惯用法的意义，与之对应的习惯用法完整形式用法称为原语或全称。汉语缩略语识别技术发展到今天，已经取得了一些成果，但是识别率离真正的应用仍有一定的距离，尤其是在识别一些不同地域和专业领域的文本时，更是错误频频。

常见的缩略语识别方法可分为基于词典的方法和基于统计的方法两大类。传统的基于词典的方法使用简单，准确率较高。目前国内通用领域的缩略语词典有十几种，常用的缩略语词典有《现代汉语缩略语词典》、《常用缩略语词典》等，此外还有很多领域专用的缩略语词典。虽然基于词典方法具有较高的准确率，但由于汉语通用缩略语词典收入的缩略语数量有限，难以满足不同地域和领域人群的需求。而且由于汉字衍生能力强，新词产生速度快，许多词语在被广泛使用的同时也被缩减产生新的缩略语。此外，不同地域、不同领域的人对同一缩略语可能有多种不同理解。这些问题都使得基于词典的方法具有很大的局限性。

另一类统计的方法基于词频或页面引用率高低选择最可能的词条作为原语，常见的如Google等搜索引擎。虽然它在一般常见缩略语识别上有较高识别率，但由于词频统计本身精确性不高，且常受到其他因素的干扰，识别准确率很难进一步提高。例如，用Google检索“香山”，检索结果“香山国际会议”和“香山饭店”排在“北京香山公园”之前。其原因就在于通用的基于统计的缩略语识别，受其他因素干扰太大。在局部范围里，“香山国际会议”和“香山饭店”的页面引用率可能比“香山公园”的高，导致无法第一时间获取最可能的原语。

发明内容

本发明的目的是克服现有技术中的汉语简称识别方法在应用上具有局限性或者识别准确率不高的缺陷，从而提供一种与上下文无关的通用汉语简称识别方法。

为了实现上述目的，本发明提供了一种根据实体的汉语简称识别汉语全称的方法，包括：

步骤1)、输入待识别缩略语；

步骤2)、读入常用词条库，所述的常用词条库包含常用词语和该词语的词频统计信息；

步骤3)、根据待识别缩略语，从所述的常用词条库中筛选出同时满足第一优先级函数和第二优先级函数要求的候选原语集合；

步骤4)、根据所述候选原语集合的规模、词频统计信息及结构特征信息，选择至少一路优先级函数组合，利用所述的优先级函数组合对所述候选原语集合进行筛选，每一路优先级函数组合得到一组对应的候选原语筛选结果；

步骤5)、在每一组候选原语筛选结果中计算候选原语的优先级，根据所述优先级的大小对所述候选原语排序，并保留优先级较高的候选原语；

步骤6)、对各组候选原语筛选结果中所保留的优先级较高的候选原语进行统计和排序，找出匹配次数最多、优先级最高的一条或几条作为最终结果。

上述技术方案中，在所述的步骤1)中，所述的待识别缩略语为单独的词语或为利用分词操作从带有待识别缩略语的文档中得到的待识别缩略语。

上述技术方案中，在所述的步骤1)和步骤2)之间，读入一个缩略语知识库，将所述的待识别缩略语在缩略语知识库中进行检索，若所述待识别缩略语存在于缩略语知识库，则直接返回与所述待识别缩略语对应的原语。

所述的缩略语知识库是根据现有统计结果总结的一批使用频度最高，且已经形成固定形式的缩略语集合。

上述技术方案中，在所述的步骤3)和步骤4)之间，判断所得到的候选原语集合是否为空，当所述的候选原语集合为空时，调整待识别缩略语的语序后重新执行步骤3)。

上述技术方案中，得到所述的最终结果后，验证所述的最终结果。

上述技术方案中，所述的第一优先级函数是指除数合式和部分特殊形式的缩略语外，其他各类缩略语中的每个汉字都来自原语；其中，所述的数合式是指原语并列成分项数和有代表的共同语素组合形成的缩略语。

上述技术方案中，所述的第二优先级函数是指缩略语中每个出现汉字保持它们在全称中语序。

上述技术方案中，所述的优先级函数组合是指从第三优先级函数、第四优先级函数、第五优先级函数、第六优先级函数、第七优先级函数、第八优先级函数、第九优先级函数、第十优先级函数中选择一个以上的优先级函数进行组合。

上述技术方案中，所述的根据所述候选原语集合的规模、词频统计信息及结构特征信息，选择至少一路优先级函数组合是指：

当所述候选原语集合规模超过100，且不同候选原语的词频相差较大时，所述的第三优先级函数、第四优先级函数、第五优先级函数、第六优先级函数形成一路优先级函数组合；所述的第八优先级函数单独形成一路优先级函数组合；所述的第四优先级函数、第七优先级函数、第九优先级函数形成一路优先级函数组合；

当所述的候选原语集合规模小于100时，所述的第三优先级函数、第四优先级函数、第五优先级函数、第六优先级函数形成一路优先级函数组合；所述的第四优先级函数、第七优先级函数、第九优先级函数、第十优先级函数形成一路优先级函数组合。

上述技术方案中，所述的第三优先级函数是指候选原语集合中，长度较短接近缩略语长度时，优先成为缩略语对应的原语。

上述技术方案中，所述的第四优先级函数是指候选原语集合中，缩略语覆盖分词率较高的优先。

上述技术方案中，所述的第五优先级函数是指候选原语集合中，至少有一个是分词采取抽取首字形式出现在缩略语的优先。

上述技术方案中，所述的第六优先级函数是指候选原语集合中，同时出现整体概念和部分概念的，整体概念优先。

上述技术方案中，所述的第七优先级函数是指原语中的如果存在特指成分，则该特指成分必然被抽取到缩略语中；其中，所述的特指成分是原语中必须被保留的分词或分词中的字。

上述技术方案中，所述的第八优先级函数是指候选原语集合中，词频高的优先。

上述技术方案中，所述的第九优先级函数是指如果新的缩略语中包含已有的缩略语作为一个完整分词，则新的缩略语所对应的原语也包含此已有缩略语或它所对应的原语。

上述技术方案中，所述的第十优先级函数是指候选原语集合中，包含区别词较少的候选原语优先；其中，所述的区别词是指候选原语中未被缩略语所覆盖且出现在不同候选原语中的分词。

上述技术方案中，在所述的步骤5)中，所述的计算候选原语的优先级是将各个优先级函数的权重做加成，所述优先级函数的权重是根据优先级函数对原语筛选的影响通过实验得到的。

本发明还提供了一种根据实体的汉语简称识别汉语全称的系统，其特征在于，包括输入模块、常用词条库、候选原语产生模块以及候选原语筛选模块：其中，

输入模块用于输入待识别缩略语；

常用词条库用于存储来源于NKI多学科知识库在通用领域的实体名称或各专业领域收集的名称术语；

候选原语产生模块用于根据待识别的缩略语产生与所述缩略语对应的候选原语的集合；

候选原语筛选模块用于从候选原语的集合中选择与缩略语对应的原语。

上述技术方案中，还包括分词模块，所述分词模块的作用是当所述输入模块输入带有待识别缩略语的文档时，对所述文档做分词操作以得到待识别缩略语。

上述技术方案中，还包括缩略语知识库，所述的缩略语知识库用于存储使用频度高，具有固定形式的缩略语。

上述技术方案中，还包括结果验证模块，所述的结果验证模块用于对所得到的原语进行准确性验证。

本发明的优点在于：本发明无需借助上下文即可实现对汉语缩略语的识别和理解；方便了用户的检索，提高了自然语言理解和信息检索的准确率。

附图说明

图1为汉语缩略语识别流程图：

图2为缩略语系统结构图：

图3为本发明的根据实体的汉语简称识别汉语全称的方法中的产生候选原语集操作的流程图；

图4为本发明的根据实体的汉语简称识别汉语全称的方法中的对候选原语集进行筛选操作的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述：

在对本发明的方法进行说明之前，首先对汉语缩略语的形成规律和构词方法进行整理和总结。按照构词形式，汉语缩略语分为缩节式、删节式、缩合式、数合式和特殊形式：

缩节式：选取保留原语中每个分词的一个或多个语素来组成缩略语。如“北大”、“生物所”等；

删节式：选取保留原语中一个或多个分词的语素，删去其余次要分词形成的缩略语。如“清华”、“二战”；

缩合式：对有共同语素的并列词语，缩减合并其不同成分的语素，并保留其共同语素形成的缩略语。如“工农业”、“节假日”；

数合式：原语并列成分项数和有代表的共同语素组合形成的缩略语。如“三讲”、“四个现代化”；

特殊式：缩略方式不在以上几类之中的，如省名的简称、古代的数合式简称、音译名的简称等。

在本发明中，还定义了10个优先级函数用于说明缩略语和原语间的关系。在对优先级函数进行说明前，列出下面在优先级函数中使用的基本符号：

■Item：表示候选词条

■An：表示缩略语

■Fn：表示原语

■abbr_of(An，Fn)：表示An是Fn的缩略语，Fn是An的原语

■Cfn：表示候选原语

■freq(Item)：表示词条的出现频度

■max_Cfn_freq(An)：表示An候选原语集的最高词频

■c：表示原语或缩略语所包含字符

■c1c2...cn：表示由字符c1、c2...cn组成的字符序列

■p：表示原语所包含的分词

■p1/p2/.../pm：表示由分词p1、p2...pm组成的分词序列，/表示分词间的分隔符

■w(pi)：表示分词在缩略语中出现形式所占比例

■n_Word(Item)：表示词条Item的所有分词数

■include(s1，s2)：表示字符串s1是字符串s2的子串

■length(s)：表示字符串s的长度

■SP(Item)：表示词条Item的特指成分集合，也即形成缩略语时必须保留的成分集合

■n_Cover(An，Fn)：表示被An覆盖的Fn分词数目

■n_NotCover(An，Fn)：表示未被An覆盖的Fn分词数目

■DWS[]：表示所有候选原语中未被缩略语覆盖的不同分词集合向量

■dw(An，Cfn)：表示Cfn作为An的候选原语所包含的区别词数量

■PRI(An，Cfn)：表示候选原语成为待识别缩略语对应原语的优先级下面对各个优先级函数的具体含义进行说明：

优先级函数1：除数合式和部分特殊形式的缩略语外，其他各类缩略语中的每个汉字都来自原语。

一般情况下，原语包含缩略语所包括的所有汉字。例如，abbr_of(“北大”，“北京大学”)，An＝“北大”中的每个汉字都来自于Fn＝“北京大学”。

函数1的形式定义和计算如下：

有两类缩略语不适用函数1：数合式缩略语的数字来自对合并内容的计数，本身不出现在原语中，例如，abbr_of(“三讲”，“讲学习、讲政治、讲正气”)；一些特殊形式缩略语，尤其是省名的单字缩略语用字可能出自古地名而不出现在原语中。例如，abbr_of(“粤”，“广东”)。不过这两类缩略语所占比例很小，可以把这两类缩略语加入到缩略语知识库中，通过检索知识库的方法对其进行识别。

优先级函数2：缩略语中每个出现汉字保持它们在全称中语序。

绝大多数缩略语在缩减时保持着全称中出现分词的语序，这样也有利于缩略语的理解和识别。例如，abbr_of(“奥运会”，“奥林匹克运动会”)，An＝“奥运会”三个字的顺序严格按Fn＝“奥林匹克运动会”中出现顺序排列。

函数2的形式定义和计算如下：

需要注意的是，有时数词和地名的限定成分有可能会引起局部倒置，例如，abbr_of(“哈药三厂”，“哈尔滨第三制药厂”)，对于此类情况，在待识别缩略语直接无法找到匹配原语时，可能需要对缩略语局部交换次序再进行识别。

优先级函数3：候选原语集合中，长度较短接近缩略语长度时，优先成为缩略语对应的原语。

通常规范的缩略语不会过度缩减，以保证多数人能见名知意。因而多数缩略语对应的原语长度在一个范围内，一般在缩略语长度的2-4倍，长度超出这一范围的候选原语成为原语的可能较小。当候选原语长度超过缩略语长度6倍以上时，基本不可能成为原语。

函数3的形式定义和计算如下：

f_{3} (An, Cfn) = \{\begin{matrix} 0 & length (Cfn) / length (An) \leq 1 \\ 0.5 & 1 < length (Cfn) / length (An) < 2 \\ 1 - \log [\frac{length (Cfn)}{2 * length (An)}] & length (Cfn) / length (An) &GreaterEqual; 2 \end{matrix}

例如，An＝“北图”，Cfn₁＝“北京市图书馆”，Cfn₂＝“深圳北图高科信息技术有限公司”，length(Cfn₁)＜length(Cfn₂)，根据函数3，PRI(Cfn₁)＞PRI(Cfn₂)。

优先级函数4：候选原语集合中，缩略语覆盖分词率较高的优先。

候选原语通常由多个分词组成，有的情况下缩略语中原语的一个或多个分词可以被省略，但一般被省略分词不会超出原语分词数的二分之一，候选原语被缩略语覆盖的分词越多，就越可能成为原语。

函数4的形式定义和计算如下：

f_{4} (An, Cfn) = 1 - \log [\frac{n_Word (Cfn)}{n_Cover (An, Cfn)}]

例如，An＝“北大”，Cfn₁＝“北京”/“大学”，Cfn₂＝“北方”/“交通”/“大学”，n_Cover(An，Cfn₁)＝n_Cover(An，Cfn₂)＝2，n_NotCover(An，Cfn₁)＝0，n_NotCover(An，Cfn₂)＝1。根据函数4，PRI(Cfn₁)＞PRI(Cfn₂)。

优先级函数5：候选原语集合中，至少有一个是分词采取抽取首字形式出现在缩略语的优先。

汉语缩略语通常用1-2个字代表原语中整个分词的意义，例如，abbr_of(“中科院”，“中国科学院”)，“中国科学院”＝“中国”/“科学院”。在An＝“中科院”中，Fn＝“中国科学院”的第一个分词p₁＝“中国”用首字“中”表示，第二个分词p₂＝“科学院”用首尾字“科院”表示。原语分词在缩略语中出现形式有6种：完全包含、抽取首字、抽取尾字、抽取首尾字、不出现，抽取首字所占比例最大，因而当分词以抽取首字形式出现在缩略语中时，该候选原语成为缩略语对应原语可能性更大。

函数5的形式定义和计算如下：

f_{5} (An, Cfn) = Σ_{p = 1}^{n_Word (Cfn)} w (p_{i})

优先级函数6：候选原语集合中，同时出现整体概念和部分概念的，整体概念优先。

相对部分概念，整体概念通常具有更高的知名度和普及率，因而整体概念产生缩略语的可能性较高。当候选原语集合中，整体概念和部分概念同时出现时，绝大多数属于机构和下设机构、地名和子地名的关系，而部分概念较整体概念多包含的分词未被缩略语覆盖，则认为只有整体概念才是可能的候选原语。通常这种情况下，整体概念作为部分概念的前缀或后缀出现。

函数6的形式定义和计算如下：

例如，An＝“中科院植物所”，Cfn₁＝“中国科学院植物研究所”，Cfn₂＝“中国科学院植物研究所住宅楼”。Cfn1和Cfn2满足include(Cfn₁，Cfn₂)。根据函数6，PRI(Cfn₁)＞PRI(Cfn₂)。

优先级函数7：原语中的如果存在特指成分，则该特指成分必然被抽取到缩略语中。

特指成分是原语中必须被保留的分词或分词中的字，如果被省略，则产生的缩略语无法和原语保持意义上的一致性以及和其他习语的区别性。一般词条中的特指成分往往由分词中词频较低的分词构成。

函数7的形式定义和计算如下：

例如，An＝“北外”，Cfn₁＝“北京”/“外国语”/“学院”，Cfn₂＝“北京”/“第二”/“外国语”/“学院”，SP(Cfn₁)＝{“外国语”}，SP(Cfn₂)＝{“第二”，“外国语”}。根据函数7，Cfn₂不可能成为An的原语，因为其特指成分“第二”未被包含在An中。

优先级函数8：候选原语集合中，词频高的优先。

候选原语词频高说明该词条使用比较频繁，成为习惯用法，进而产生缩略语的可能性比较大。我们从互联网上通过Google搜索引擎获取了词频信息表，参见表1。需要注意的是，仅当候选集词条间词频相差较大时，可以用此函数滤掉低频词条；当候选集词条的词频都比较接近时，此函数不再适用。

表1：词频信息表(部分)

编号	字/词	词频
编号	字/词	词频	3397339833993400340134023403340434053406	“北京大学”“北京大学出版社”“北京大学档案馆”“北京大学地质博物馆科普基地”“北京大学第三医院”“北京大学电教中心”“北京大学东方文学研究中心”“北京大学附属小学”“北京大学附属中学”“北京大学古代文化研究中心”	10,100,0001,240,0006,5400107,0007752,310150,00017,1000

函数8的形式定义和计算如下：

max_Cfn_freq(An)＝max{freq(Cfn)}

f_{8} (An, Cfn) = \{\begin{matrix} \frac{freq (Cfn)}{\max_CFn_freq (An)} & \frac{freq (Cfn)}{\max_Cfn_freq (An)} &GreaterEqual; 0.2 \\ 0 & \frac{freq (Cfn)}{\max_Cfn_freq (An)} < 0.2 \end{matrix}

例如，An＝“双安”，Cfn₁＝“双安商场”，freq(Cfn₁)＝179,000，Cfn₂＝“双安房地网”，freq(Cfn₂)＝974。freq(Cfn₁)＞＞freq(Cfn₂)。因此，根据函数8，PRI(Cfn₁)＞PRI(Cfn₂)。

优先级函数9：如果新的缩略语中包含已有的缩略语作为一个完整分词，则新的缩略语所对应的原语也包含此已有缩略语或它所对应的原语。

一个习惯用法一旦形成，必然为多数人所接受，并且衍生出许多新的用法，缩略语也是这样。如果一个缩略语包含了已有缩略语为一个完整分词，则其原语中必然包含与原有缩略语意义一致的部分，即原有缩略语或其所对应的原语。

函数9的形式定义和计算如下：

例如，An＝“清华”/“美院”，并且对An中分词p₁＝“清华”有abbr_of(“清华”，“清华大学”)。根据函数9，include(“清华”，Fn)或者include(“清华大学”，Fn)。

优先级函数10：候选原语集合中，包含区别词较少的候选原语优先。

区别词是指候选原语中未被缩略语所覆盖且出现在不同候选原语中的分词。

函数10的形式定义和计算如下：

f₁₀(An，Cfn)＝1-log[dw(An，Cfn)+1]

例如，An＝“北资”，

Cfn₁＝“北大”/“资源”/“公司”，

Cfn₂＝“北京”/“国土”/“资源”/“和”/“房屋”/“管理局”，

DWS[]＝{“公司”||“国土”，“和”，“房屋”，“管理局”)。

|DWS[1]|＜|DWS[2]|，根据函数10，PRI(Cfn₁)＞PRI(Cfn₂)。

在对本发明定义的优先级函数做了详细说明的基础上，参考图1，具体介绍本发明方法的一种最佳实施方式。

本发明的根据实体的汉语简称识别汉语全称的方法包括两大步骤，分别为产生候选原语集和对候选原语集做筛选，下面分别对它们进行说明。

如图3所示，产生候选原语集的具体实现步骤如下：

步骤10、用户输入带有待识别缩略语的文档；

步骤11、读入分词词典，利用分词词典对步骤10中所输入的文档进行分词操作，得到待识别的缩略语；在本步骤中，所述的分词操作是针对汉语句子中的词汇不像西语那样在词与词之间具有天然的分隔，而要将汉语句子中的词汇进行划分。所选用的分词词典可采用现有的分词词典，例如，在本发明的一个实施例中就可采用中国科学院计算技术研究所ICTCLAS分词程序的分词词典。

上述的步骤10和步骤11中假定用户输入的是带有待识别缩略语的文档，这是实际应用中的一种普遍情况，但在使用时也允许用户直接输入待识别缩略语，此时，无需完成步骤11所述的分词操作。

步骤12、将缩略语知识库读入到一个哈希表中。在本步骤中，所述缩略语知识库是根据现有统计结果总结的一批使用频度最高，已经形成固定形式的缩略语集合，用于总结优先级函数和衍生出新生缩略语。最常用的部分缩略语可以直接查询缩略语知识库得到。

步骤13、将步骤11中的待识别缩略语检索步骤12得到的缩略语哈希表，如果待识别缩略语出现在哈希表中，则直接检索哈希表，并返回对应的原语，如果哈希表中没有待识别缩略语，则执行下一步；

上述的步骤12和步骤13介绍了原语识别的一种快速实现方式，这种方式利用过去的缩略语识别结果直接得到待识别缩略语的原语，大大地提高了识别效率，但本领域的普通技术人员也应当明白，在本发明方法的另一种实现中，允许省略上述的步骤12和步骤13，这样做虽然降低了识别效率，但也可完成缩略语识别的基本功能。

步骤14、读入常用词条库。在本步骤中，所述的常用词条库包含常用词语和该词语的词频统计信息。常用词条库中的词语主要有两个来源，一是NKI(The National Knowledge Infrastructure，国家知识基础设施)多学科知识库在通用领域的实体名称；二是各专业领域收集的一些名称术语，例如交通信息领域的地名、机构名等。词条的词频来自于百度、Google等搜索引擎的统计信息。

步骤15、基于汉字的模糊匹配从步骤14读入的常用词条库中筛选出同时满足优先级函数1和优先级函数2要求的候选原语集合；

步骤16、判断步骤15得到的候选原语集合是否为空，若为空，调整待识别缩略语部分的语序，然后重新执行步骤15以获取候选原语集合，若不为空，输出步骤15得到的候选原语集合。

通过上述操作得到候选原语集，然后对候选原语集进行筛选，得到最终的识别结果，参考图4，其具体实现步骤如下：

步骤20、根据输入缩略语产生的候选原语集合的规模以及词频、结构特征等信息选择适合的多路优先级函数组合，确定筛选的原则与筛选的顺序，每一路优先级函数组合得到一组候选原语筛选结果。

上述的优先级函数3-10分别表示了一种根据缩略语选择原语的选择原则，在筛选候选原语时，需要将优先级函数单独或组合后使用。优先级函数的组合有多种，每次筛选根据候选原语集合的规模以及词频、结构特征等信息选取不同的优先级函数组合。例如，当候选原语集合规模超过100，且不同候选原语的词频相差较大时，采用优先级函数3、4、5、6的组合，优先级函数8，优先级函数4、7、9(因为结果集规模较大，故不采用优先级函数10)的组合实现三路筛选；当候选原语集合规模小于100时，则采用优先级函数3、4、5、6的组合，优先级函数4、7、9、10的组合实现两路筛选。

步骤21、对步骤20得到的各组候选原语筛选结果计算候选原语的优先级，并根据优先级的大小对候选原语排序，每组候选原语筛选结果只保留优先级较高的；

由于候选原语集中的原语与缩略语之间具有一定程度的相似性，并且完全或部分满足本发明中所定义的优先级函数，但用户使用的缩略语所指代的原语通常只有一个，因此在本步骤中使用优先级对所有满足条件的候选原语进行排序，把优先级最高的候选原语作为缩略语真正指代的原语。其中，所述的优先级用来度量一个候选原语成为指定缩略语对应原语的可能程度，它的值域为[0，1]。优先级用PRI表示，对优先级的计算公式如下：

PRI = \underset{ri}{Σ} {PRI}_{i} * η_{i}

其中，PRI_i取值为f_i(An，Fn)，η_i为每个函数在综合评价时采取的权重。

函数f_i与η_i间的对应关系如表2所示，函数的杈重根据各优先级函数对原语筛选的影响通过实验得到：

表2

编号	函数内容	函数权重η_i
编号	函数内容	函数权重η_i	f₁	缩略语中的每个汉字都来自原语	0.20
f₂	缩略语中汉字尽量保持原语中语序	0.10	f₁	缩略语中的每个汉字都来自原语	0.20

f₃	原语长度在缩略语长度一定范围内	0.08
f₃	原语长度在缩略语长度一定范围内	0.08	f₄	被缩略语覆盖分词数多的候选原语成为结果可能性较大	0.15
f₅	候选原语至少有一个分词被缩略语包含汉字以首字出现形式的可能性较大	0.15	f₄	被缩略语覆盖分词数多的候选原语成为结果可能性较大	0.15
f₅	候选原语至少有一个分词被缩略语包含汉字以首字出现形式的可能性较大	0.15	f₆	候选原语集合同时出现整体概念和从属于该整体概念的部分概念时，整体概念成为结果可能性较大	0.02
f₇	候选原语包含特指成分时，该成分应被抽取到缩略语中	0.18	f₆	候选原语集合同时出现整体概念和从属于该整体概念的部分概念时，整体概念成为结果可能性较大	0.02
f₇	候选原语包含特指成分时，该成分应被抽取到缩略语中	0.18	f₈	候选原语集合较大时，词频高的候选原语成为结果可能性较大	0.10
f₉	缩略语包含已知缩略语时，候选原语包含该已知缩略语或其所对应的原语的成为结果可能性较大	0.02	f₈	候选原语集合较大时，词频高的候选原语成为结果可能性较大	0.10
f₉	缩略语包含已知缩略语时，候选原语包含该已知缩略语或其所对应的原语的成为结果可能性较大	0.02	f₁₀	候选原语包含区别词少的成为结果可能性较大	0.05

根据上述公式可知，最后的优先级是所使用函数得到的各项优先级权重的加成。

对于每路优先级组合，给定一个阈值ε(0＜ε＜1)，判断该路经过各优先级函数过滤后筛选出的缩略语是否可能成为结果。当PRI≥ε时，认为候选原语较可能成为缩略语所对应的原语，保留在结果集中；否则认为候选原语成为原语的可能性较低，在下一步合并结果时可以忽略。

步骤22、对步骤21得到的候选原语筛选结果进行统计和排序，从中找出匹配次数最多、优先级最高的一条或几条作为最终的结果。

步骤23、验证步骤22得到的最终结果，并将识别结果反馈给用户。

本发明采取自我评测和人工评测相结合的方法对缩略语识别的正确率进行检测。自我评测从形式、语义等方面对结果进行评测。形式上判断构词方式是否合理，缩减方式是否普遍等；语义上判断原语是否和其他候选原语有明显语义区别，逆过程由结果原语缩减产生输入缩略语是否成立等。人工评测由多名来自不同地域、领域的用户，按给定缩略语分为已知组和未知组，对识别的结果进行评测。系统可根据评测结果动态调整优先级函数的使用策略和组合方式，针对特定类型的缩略语识别提高精确率和召回率。

为了说明本发明的实际效果，采用本发明的方法对中国的机构名、城市名、地区名等实体名称做了大量实验，表3中是该实验的结果。从中可以知道，实验中的错误主要是由于所选用实体名称库收词不足(占所有错误的70％)和词频统计的误差(如实体名称的子串重复统计等)造成的。通过实验可以得出如下结论：本发明对汉语全称的识别具有较好的识别效果，平均准确率达90％以上，适用范围广，可以很好弥补汉语全称识别上以往方法的缺陷。

表3：实验结果统计信息表

第n次实验	选用实体名称库	测试词条数单位：条	正确结果单位：条	错误结果		准确率单位：％
				错误结果			识别错误	识别不完整
				1	地名知识库(8万5千条)		识别错误	识别不完整	50	50	0	0	100
2	同上	100	97	1	地名知识库(8万5千条)	1	2	97	50	50	0	0	100
2	同上	100	97	3	同上	1	2	97	42	39	0	3	92

除了上述描述的方法外，本发明还提供了一种根据实体的汉语简称识别汉语全称的系统，参考图2，对该系统的组成进行说明。本发明的系统包括输入模块、分词模块、缩略语知识库、常用词条库、候选原语选取模块、候选原语筛选模块以及结果验证模块，其中，输入模块、分词模块、候选原语产生模块、候选原语筛选模块与结果验证模块依次连接，而候选原语产生模块还分别与缩略语知识库和常用词条库连接。

输入模块的作用是输入带有待识别缩略语的文档。

分词模块的作用是对文档做分词操作。

缩略语知识库的作用是存储使用频度高，具有固定形式的缩略语。

常用词条库的作用是存储来源于NKI多学科知识库在通用领域的实体名称或各专业领域收集的名称术语。

候选原语产生模块用于根据待识别缩略语，从常用词条库中筛选出同时满足第一优先级函数和第二优先级函数要求的候选原语集合；

候选原语筛选模块用于从候选原语的集合中，根据所述候选原语集合的规模、词频统计信息及结构特征信息，选择至少一路优先级函数组合筛选候选原语，并根据筛选结果的优先级选择与缩略语对应的原语。

结果验证模块的作用是对所得到的原语进行准确性验证。

本系统中各个部分功能的具体实现以及相互间的关系在前述本发明的方法中都已做了详细的介绍与说明，因此不再进行详细说明。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1、一种根据实体的汉语简称识别汉语全称的方法，包括：

步骤1)、输入待识别缩略语；

2、根据权利要求1所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，在所述的步骤1)中，所述的待识别缩略语为单独的词语或为利用分词操作从带有待识别缩略语的文档中得到的待识别缩略语。

3、根据权利要求1所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，在所述的步骤1)和步骤2)之间，读入一个缩略语知识库，将所述的待识别缩略语在缩略语知识库中进行检索，若所述待识别缩略语存在于缩略语知识库，则直接返回与所述待识别缩略语对应的原语。

4、根据权利要求3所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，所述的缩略语知识库是根据现有统计结果总结的一批使用频度最高，且已经形成固定形式的缩略语集合。

5、根据权利要求1所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，在所述的步骤3)和步骤4)之间，判断所得到的候选原语集合是否为空，当所述的候选原语集合为空时，调整待识别缩略语的语序后重新执行步骤3)。

6、根据权利要求1所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，得到所述的最终结果后，验证所述的最终结果。

7、根据权利要求1或5或6所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，所述的第一优先级函数是指除数合式和部分特殊形式的缩略语外，其他各类缩略语中的每个汉字都来自原语；其中，所述的数合式是指原语并列成分项数和有代表的共同语素组合形成的缩略语。

8、根据权利要求1或5或6所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，所述的第二优先级函数是指缩略语中每个出现汉字保持它们在全称中的语序。

9、根据权利要求1或5或6所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，所述的优先级函数组合是指从第三优先级函数、第四优先级函数、第五优先级函数、第六优先级函数、第七优先级函数、第八优先级函数、第九优先级函数、第十优先级函数中选择一个以上的优先级函数进行组合。

10、根据权利要求9所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，所述的根据所述候选原语集合的规模、词频统计信息及结构特征信息，选择至少一路优先级函数组合是指：

11、根据权利要求9所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，所述的第三优先级函数是指候选原语集合中，长度较短接近缩略语长度时，优先成为缩略语对应的原语。

12、根据权利要求9所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，所述的第四优先级函数是指候选原语集合中，缩略语覆盖分词率较高的优先。

13、根据权利要求9所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，所述的第五优先级函数是指候选原语集合中，至少有一个是分词采取抽取首字形式出现在缩略语的优先。

14、根据权利要求9所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，所述的第六优先级函数是指候选原语集合中，同时出现整体概念和部分概念的，整体概念优先。

15、根据权利要求9所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，所述的第七优先级函数是指原语中的如果存在特指成分，则该特指成分必然被抽取到缩略语中；其中，所述的特指成分是原语中必须被保留的分词或分词中的字。

16、根据权利要求9所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，所述的第八优先级函数是指候选原语集合中，词频高的优先。

17、根据权利要求9所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，所述的第九优先级函数是指如果新的缩略语中包含已有的缩略语作为一个完整分词，则新的缩略语所对应的原语也包含此已有缩略语或它所对应的原语。

18、根据权利要求9所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，所述的第十优先级函数是指候选原语集合中，包含区别词较少的候选原语优先；其中，所述的区别词是指候选原语中未被缩略语所覆盖且出现在不同候选原语中的分词。

19、根据权利要求9所述的根据实体的汉语简称识别汉语全称的方法，其特征在于，在所述的步骤5)中，所述的计算候选原语的优先级是将各个优先级函数的权重做加成，所述优先级函数的权重是根据优先级函数对原语筛选的影响通过实验得到的。

20、一种根据实体的汉语简称识别汉语全称的系统，其特征在于，包括输入模块、常用词条库、候选原语产生模块以及候选原语筛选模块：其中，

输入模块用于输入待识别缩略语；

候选原语产生模块用于根据待识别缩略语，从所述的常用词条库中筛选出同时满足第一优先级函数和第二优先级函数要求的候选原语集合；

21、根据权利要求20所述的根据实体的汉语简称识别汉语全称的系统，其特征在于，还包括分词模块，所述分词模块的作用是当所述输入模块输入带有待识别缩略语的文档时，对所述文档做分词操作以得到待识别缩略语。

22、根据权利要求20所述的根据实体的汉语简称识别汉语全称的系统，其特征在于，还包括缩略语知识库，所述的缩略语知识库用于存储使用频度高，具有固定形式的缩略语。

23、根据权利要求20所述的根据实体的汉语简称识别汉语全称的系统，其特征在于，还包括结果验证模块，所述的结果验证模块用于对所得到的原语进行准确性验证。