CN106815209B

CN106815209B - 一种维吾尔文农业技术术语识别方法

Info

Publication number: CN106815209B
Application number: CN201510895066.6A
Authority: CN
Inventors: 张海军
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2020-03-17
Anticipated expiration: 2035-11-30
Also published as: CN106815209A

Abstract

本发明公开了一种维吾尔文农业技术术语识别方法，涉及计算机应用技术领域。该方法：从维吾尔文语料中统计所述语料的词语的字串频率和C_value值，选择满足C_value值阈值的C_value值所对应的词语，并将所述词语作为锚点候选术语，统计所述锚点候选术语的统计特征；对所述语料中所有词语进行词性标注及词干和词尾的切分，获得语言特征；应用有限状态自动机，对统计特征和语言特征进行整合，构造状态转移矩阵，实现在有限状态自动机控制下的农业技术术语自动识别。本发明实现了维吾尔文农业领域技术术语识别的准确率提高了4个百分点，召回率提高了约3个百分点，并且填补了维吾尔文农业领域术语识别的空白。

Description

一种维吾尔文农业技术术语识别方法

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种维吾尔文农业技术术语识别方法。

背景技术

目前，未见关于维吾尔文农业领域术语自动识别方法，尽管，维吾尔文除农业外的其他领域术语的识别方法采用基于规则和基于统计的方法，或二者的结合，但是因为这种方法没有充分考虑维吾尔语作为黏着语具有丰富的语言形态变化而形成的语言知识特征，故，在识别过程中需要大量标注语料的支持，识别效果过分依赖于标注语料的规模和标注结果，导致领域术语自动识别的效果较差和识别效率较低，同时，又因为现有其他领域的维语术语识别方法中，基于语言知识的领域特征应用不足，术语提取领域针对性较差；又缺少整合用于术语自动识别的统计特征和语言知识特征的统一框架，各类特征随机使用，导致整体识别效果较差的问题，故，这种方法也不适用于维吾尔文农业领域术语自动识别中。

发明内容

本发明的目的在于提供一种维吾尔文农业技术术语识别方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明所述维吾尔文农业技术术语识别方法，该方法包括：

S1，从维吾尔文语料中统计所述语料的词语的字串频率和C_value值，选择满足C_value值阈值的C_value值所对应的词语，并将所述词语作为锚点候选术语，统计所述锚点候选术语的统计特征；

所述统计特征包括：字串频率、C-value值、左右熵、互信息和倒文档频率；

S2，对所述语料中所有词语进行词性标注及词干和词尾的切分，获得语言特征；所述语言特征包括：词干及词尾特征和多词术语中的词性特征；

S3，应用有限状态自动机，对统计特征和语言特征进行整合，构造状态转移矩阵，实现在有限状态自动机控制下的农业技术术语自动识别。

优选地，步骤S1中，所述锚点候选术语的C_value值按照公式(1)计算：

其中，C_value(a)表示锚点候选术语的多词串的C_value值，a表示锚点候选术语的多词串，|a|表示多词串的长度，f(a)表示多词串在整个语料库中出现的频次，T_a表示以多词串a为子串的多词串集合，P(T_a)表示集合T_a中的元素个数。

优选地，步骤S1中，所述锚点候选术语的互信息按照公式(2)计算：

其中，x，y分别表示两个字串，MI(x，y)表示字串x与字串y的互信息，P(x)、P(y)表示字串x及字串y在语料中出现的概率；p(x,y)表示字串x,y作为一个整体在语料中同时出现的概率。

优选地，步骤S1中，所述锚点候选术语的左右熵按下述计算：

A1、基于逐层剪枝的大规模语料重复模式提取方法，从所述语料中统计确定长度候选字串频率、排序并将结果保存在文件F0中；

基于逐层剪枝的大规模语料重复模式提取方法，从所述语料中提取长度较F0中的字串多1的字串，然后依次进行统计频率、排序处理并将处理结果保存在文件F1中；

将文件F1中所有首字符去掉后，依次进行排序、归并统计频率处理并将处理结果保存在文件F2中；

将F1中所有尾字符去掉后，依次进行排序、归并统计频率处理并将处理结果保存在F3中；然后通过A2和A3分别进行文件F0中记载的字符串的左熵和右熵的计算；

A2、读取文件F0的当前记录R，读取F2的当前记录R＇，按照下述方法计算文件F0中字串的左熵：

判断R与R＇是否相等，如果相等，则进入A21；如果不相等，则进入A22；

A21，计算R＇尾字符对模式R所贡献的熵，F2指针增1并读取当前字符串R＇，重复执行步骤A21，直到F2到达文件尾部，完成文件F0中的所有字串的左熵的计算；

A22，当前模式R的左熵计算结束，F0指针增1，返回A2开始计算文件F0当前字符串的左熵；

A23，重新打开文件F0，打开文件F3，开始进行F0中字串右熵的快速计算：

A3、读取文件F0的当前记录R，读取F3的当前字符串r＇，按照下述方法计算文件F0中字串的右熵：

判断R与r＇是否相等，如果相等，则进入A31；如果不相等，则进入A32；

A31，计算r＇尾字符对模式R所贡献的熵，F3指针增1并读取当前字符串r＇，重复执行步骤A31，直到F3到达文件尾部，完成文件F0中的所有字串的右熵的计算；

A32，当前模式R的右熵计算结束，F0指针增1，返回A3开始计算文件F0当前字符串的右熵。

优选地，步骤S1中，所述阈值是预先设定的阈值或在识别过程中计算的动态阈值。

优选地，步骤S2中，所述多词术语中的词性搭配规则，具体为：A+N、N+N、V+N、V+V、A+A+N、N+A+N、V+A+N、N+C+V、V+C+V、V+C+V+N、V+D+N+N、N+C+V+N、N+A+D+N、A+N+C+V+N、V+N+C+V+N，V+N+C+A+N，其中，A表形容词，N表名词，V表动词，C表连词，D表副词。

优选地，步骤S3具体按照下述步骤实现：

B1，以步骤S1中提取的任意一个锚点候选术语E为基础，判断所述锚点候选术语的词干及词尾特征是否符合预先设定词干及词尾农业领域特征规则，如果是，则进入B2，如果否，则判断下一个锚点候选术语；

B2，判断锚点候选术语E的倒文档频率是否满足单词型术语的倒文档频率阈值，如果满足，进入B3；如果不满足，则返回B1；

B3，通过锚点候选术语E的互信息与左右熵与预先设定的相应阈值的关系；

当互信息小于预先设定的互信息阈值且左右熵大于预先设定的左右熵阈值，则锚点候选术语E与其前、后词结合的紧密度低，锚点候选术语E为单词型术语；

当互信息与左右熵与预先设定的相应阈值的关系是除上述关系外的其他关系时，则锚点候选术语E与其前、后词结合的紧密度高，则检查单词间术语词性特征是否满足多词术语中的词性搭配规则，如果满足，则锚点候选术语E与前、后词组合为多词术语，如果不满足，则锚点候选术语E与前、后词组合不是农业技术术语。

更优选地，在步骤B3中，锚点候选术语E+前词的个数、锚点候选术语E+后词的个数或前词+锚点候选术语E+后词的个数均小于等于5。

优选地，在步骤S3中，所述状态转移矩阵按下述实现构造：

建立具有8种状态5个输入判断条件的状态转移矩阵；

所述8种状态为：

状态1为经过C_value检测的锚点候选术语状态；

状态2为经过语言特征筛选的过渡态；

状态3为拒绝态一，表示不能接受的单词候选串状态；

状态4为经过统计特征检验的初选单词型术语状态；

状态5为任意一个单词型术语向多词型术语扩充，并检验扩充后的字符串是否符合多词数语的状态；

状态6是接受态一，表示识别出一个锚点候选属于是一个单词型术语；

状态7是接受态二，表示识别出扩充后的字符串是多词型术语；

状态8是拒绝态二，表示扩充后的字符串不是维吾尔文农业技术术语；

其中，还另外设置状态0为起始状态；

所述5个输入判断条件为：

条件1，判断C_value值所述语料字符串的C_value值是否大于等于预先设定的C_value值阈值，如果是，则进入状态1，如果否，则进入状态3；

条件2，判断所述语料的字符串的词干及词尾特征是否符合词干词尾农业领域特征组合，如果是，则进入状态2，如果否，则进入状态3；

条件3，判断所述语料的字符串的倒文档率是否大于等于预先设定的倒文档率阈值，如果是，则进入状态4，如果否，则进入状态3；

条件4，判断左右熵和互信息组合特征是否符合预先设定的相应阈值，如果符合，则进入状态5，如果不符合，则进入状态6；

条件5，判断任意一个单词型术语向前、后词扩充后的字符串是否符合所述多词术语中的词性搭配规则，如果符合，则进入状态7；如果不符合，则进入状态8。

本发明的有益效果是：

本发明一种简洁有效的维吾尔文农业领域术语识别方法，提高术语自动识别效果，为维汉机器翻译，维汉双语信息检索提供技术支持，为其他领域术语抽取技术研究提供借鉴和参考。

本发明在基于规则和基于统计的领域特征的基础上，使用有限状态自动机来整合不同特征之间的关系，构造了基于特征的状态转移矩阵，实现多特征下的农业领域术语的自动识别，并可有效兼顾单词型术语和多词型术语的提取。

本发明针对目前领域术语识别中的研究不足，主要做了两点创新，第一，提出了条词干和词尾搭配规则用于领域术语提取，作为基于语言规则的领域特征，实现领域术语的快速识别；第二，构造了面向农业领域的术语识别状态转移矩阵，实现了基于有限状态自动机术语识别特征的整合，使术语识别具有了统一的框架，是对术语识别规范化有益探索。

检验术语识别效果的评价指标是准确率和召回率，实验表明该发明方法的术语识别效果达到了目前的较好水平。因目前没有农业领域术语识别的方法，与其他领域的当前最好水平相比，准确率提高了4个百分点，召回率提高了约3个百分点，并且填补了维吾尔文农业领域术语识别的空白。

附图说明

图1是所述维吾尔文农业技术术语识别方法流程图；

图2是所述维吾尔文农业技术术语识别方法步骤S3中的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

本发明主要针对两类领域术语的识别，第一类是单词型术语的识别，第二类是多词型术语的识别。本发明采用的技术方案是，应用有限状态自动机，整合语言知识特征和统计特征，构造术语识别的状态转换矩阵，在主程序控制器的作用下逐步实现领域术语识别。在具体处理时，针对特定单词，有步骤地、综合地使用多种特征和规则来进行术语识别。识别过程分为：

S1，从维吾尔文语料中统计所述语料的词语的字串频率和C_value值，选择满足C_value值阈值的C_value值所对应的词语，并将所述词语作为锚点候选术语，统计所述锚点候选术语的统计特征；所述统计特征包括：字串频率、C-value值、左右熵、互信息和倒文档频率；

更详细的解释说明为：

(一)在本申请中所述阈值是预先设定的阈值或在识别过程中计算的动态阈值。

1、步骤S1中C_value值

所述的C_value值，是指候选术语的术语度的测度值，其计算涉及候选术语的长度、频率及字串之间的相互包含关系，是一种应用统计手段计算术语的领域相关度的方法，能有效提取候选领域术语。

所述锚点候选术语的C_value值按照公式(1)计算：

目前的大量研究表明，C_value是检测候选词语术语度(Termhood)的有效指标，能有效体现术语长度和嵌套术语的度量问题，很多研究中使用该指标进行术语的提取和过滤。本发明中应用该指标进行候选术语的提取工作，因不同领域中或不同的文档中，以及在不同的语料规模中，具体的阈值都不同，本发明采用动态阈值，需要统计所有词语该统计值的最大值、最小值以及众数值，最后计算得出一个合适的动态阈值，来实现候选术语的提取工作。计算C_value的步骤作为整个术语提取的第一步，主要用于候选术语的提取，候选术语将作为整个术语提取的锚点，在此基础上，进行相关统计量的统计和计算。这里面需要计算的统计量包括：锚点词左右词语的互信息、左右熵及逆文档频率。这些统计信息主要用于对候选术语的单词型术语的界定以及对多词型术语的统计检测。

2、步骤S1中左右熵

所述的左右熵用于衡量变量在上下文搭配的灵活程度，如果很灵活，说明变量作为一个整体的可能性更大，是通过外部使用的灵活度来衡量内部组合的强弱程度。在本发明中主要用于测量多词术语中单词组合的强弱程度，也就是作为一个整体出现的可能性。

所述锚点候选术语的左右熵按下述计算：

根据定义左右熵直接计算，其效率很低，会严重影响了术语识别速度。而本申请中所述左右熵的计算方法可有效计算候选字串的左右熵，是一种计算速度与语料规模成线性关系的方法，与待计算字串规模无关，极大提高了左右熵计算效率。

3、步骤S1中所述互信息

所述的左右互信息用于测量两个变量之间的相互性大小，是两个变量之间相关性的测度，在农业领域术语识别中用于检测两个维吾尔语单词之间的相关联程度，作为多词术语检测的另一个重要测度。

所述锚点候选术语的互信息按照公式(2)计算：

4、步骤S1中所述逆文档频率

所述的逆文档频率用于衡量候选术语的领域区分度，是指候选术语对于文档区分能力的贡献度，如果一个候选术语在多个文档中出现，那么对文档区分的贡献就非常小，反之则大。其采用候选术语在文档中出现频率倒数的对数来计算。

(二)字符串标注、词干和词尾特征、多词术语词性搭配规则

1、所述的标注是指对语料中的词语进行词性标注，也就是对词的语法类别进行标注，包括名词、动词、形容词等信息。

2、所述的词干和词尾切分的对象是维吾尔语单词，因维语的实词是由词干外加词尾所构成，词干体现了词的主体部分，词尾包含构形词尾和构词词尾，在术语识别前需要对词尾进行提取和分析，以便应用其中的语言知识特征和领域特征。

所述词干和词尾规则判定条件是指根据前期研究，总结出的体现领域术语的特定的词尾以及与之相对应的词干种类。这种规则作为特定的语言知识规则，对统计特征进行补充。研究中发现，词干和词尾间的组合方式存在较大的领域相关性，因此可以作为语言知识特征用于领域术语的识别。

3、所述的词性搭配规则是指根据前期的大量研究和总结，得出的多词领域术语单词间的词性搭配关系，这些搭配关系可以从语言规则的层面对术语进行过滤，结构简单，准确率和效率都非常高。因术语一般仅涉及实词，所以在词性组合中考虑特定实词组合来作为词性搭配序列。其形式如：名词+名词，形容词+名词等等。

对于多词型术语，在满足统计特征的同时，还应该满足多词之间的词性搭配关系，本发明也采用已有的多词术语词性搭配关系，提升多词术语的过滤效果。而在本申请，所述多词术语中的词性搭配规则，具体为：A+N、N+N、V+N、V+V、A+A+N、N+A+N、V+A+N、N+C+V、V+C+V、V+C+V+N、V+D+N+N、N+C+V+N、N+A+D+N、A+N+C+V+N、V+N+C+V+N，V+N+C+A+N，其中，A表形容词，N表名词，V表动词，C表连词，D表副词。

(三)步骤S3具体按照下述步骤实现：

当互信息与左右熵与预先设定的相应阈值的关系是除上述关系外的其他关系时，则锚点候选术语E与其前、后词结合的紧密度高，则检查单词间术语词性特征是否满足多词术语中的词性搭配规则，如果满足，则锚点候选术语E与前、后词组合为多词术语，如果不满足，则锚点候选术语E与前、后词组合不是农业技术术语。在步骤B3中，锚点候选术语E+前词的个数、锚点候选术语E+后词的个数或前词+锚点候选术语E+后词的个数均小于等于5。

1、所述的有限状态自动机是指确定有限状态自动机(具体参见图2所示)，是指在当前状态下，针对确定的输入会转移到确定状态的自动机。这种确定性，便于计算机根据确定输入做出确定的状态转换。

2、参照表1，所述的状态转化矩阵，用于实现当前状态同输入特征之间状态迁移的控制矩阵，其内部以表格的形式存储着识别状态与输入特征之间的关系。

在步骤S3中，所述状态转移矩阵按下述实现构造：

建立具有8种状态5个输入判断条件的状态转移矩阵，用于控制有限状态自动机的自动运行，实施基于统计和语言知识规则的领域术语识别；更具体的：

所述8种状态为：

状态1为经过C_value检测的锚点候选术语状态；

状态2为经过语言特征筛选的过渡态；

状态3为拒绝态一，表示不能接受的单词候选串状态；

状态4为经过统计特征检验的初选单词型术语状态；

其中，还另外设置状态0为起始状态；

所述5个输入判断条件为：

表1 8种状态5个输入判断条件的状态转移矩阵

状态转移矩阵逻辑流程：状态0为起始状态；状态1为经过C_value检测的候选术语状态；状态3为经过语言知识领域特征筛选的过渡态，满足者为该领域的候选术语；在状态0、1、2状态下，如果不满足相应的输入判断标准，则转入状态3，是一个拒绝态，表示不能接受的单词候选串状态；状态4为经过术语统计特征检验的状态，基本上已经确定为单词型术语，可以作为多词术语检测的基础；状态6是一个接受态，表示已经识别了一个单词型术语；状态5是一个单词型术语向多词型术语扩充的过程，实行左右逐步扩充方式，如果满足统计标准，再进行词性搭配规则条件检测，满足者作为多词型术语，进入状态7，该状态也是一个接受态，表示接受多词型术语；状态8另一个拒绝态，表示不能接受该多词字符串为术语。

采用本发明所述识别方法进行术语识别实验。第一个实验，2013年7月从昆仑网上下载网页，从中提取农业领域网页100个，经过人工标注，使用本发明方法进行时术语抽取，术语抽取的准确率为88.2％，召回率为77.8％。第二个实验，2013年11月从昆仑网上下载农业领域网页150个，经过人工标注，使用本方法进行时术语抽取的准确率和召回率分别为88.6％，召回率为78.1％。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

在本发明中，作为基于语言规则的知识特征，用于配合统计特征，对候选术语进行过滤。实验表明，该特征的术语领域识别率为96％，效果非常显著。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种维吾尔文农业技术术语识别方法，其特征在于，该方法包括：

S1，从维吾尔文语料中统计所述语料的词语的字串频率和C_value值，选择满足C_value值阈值的C_value值所对应的词语，并将所述满足C_value值阈值的C_value值所对应的词语作为锚点候选术语，统计所述锚点候选术语的统计特征；

所述统计特征包括：字串频率、C_value值、左右熵、互信息和倒文档频率；

2.根据权利要求1所述方法，其特征在于，步骤S1中，所述锚点候选术语的C_value值按照公式(1)计算：

3.根据权利要求1所述方法，其特征在于，步骤S1中，所述锚点候选术语的互信息按照公式(2)计算：

4.根据权利要求1所述方法，其特征在于，步骤S1中，所述锚点候选术语的左右熵按下述计算：

将F1中所有尾字符去掉后，依次进行排序、归并统计频率处理并将处理结果保存在F3中；然后通过A2和A3分别进行文件F0中记载的字串的左熵和右熵的计算；

A21，计算R＇尾字符对当前记录R所贡献的熵，F2指针增1并读取当前记录R＇，重复执行步骤A21，直到F2到达文件尾部，完成文件F0中的所有字串的左熵的计算；

A22，当前记录R的左熵计算结束，F0指针增1，返回A2开始计算文件F0当前字串的左熵；

A3、读取文件F0的当前记录R，读取F3的当前记录R＇，按照下述方法计算文件F0中字串的右熵：

A31，计算r＇尾字符对当前记录R所贡献的熵，F3指针增1并读取当前记录r＇，重复执行步骤A31，直到F3到达文件尾部，完成文件F0中的所有字串的右熵的计算；

A32，当前记录R的右熵计算结束，F0指针增1，返回A3开始计算文件F0当前字串的右熵。

5.根据权利要求1所述方法，其特征在于，步骤S1中，所述阈值是预先设定的阈值或在识别过程中计算的动态阈值。

6.根据权利要求1所述方法，其特征在于，步骤S2中，所述多词术语中的词性特征，具体为：A+N、N+N、V+N、V+V、A+A+N、N+A+N、V+A+N、N+C+V、V+C+V、V+C+V+N、V+D+N+N、N+C+V+N、N+A+D+N、A+N+C+V+N、V+N+C+V+N，V+N+C+A+N，其中，A表形容词，N表名词，V表动词，C表连词，D表副词。

7.根据权利要求1所述方法，其特征在于，步骤S3具体按照下述步骤实现：

B3，比较锚点候选术语E的互信息与左右熵与预先设定的相应阈值的关系；

8.根据权利要求7所述方法，其特征在于，在步骤B3中，锚点候选术语E+前词的个数、锚点候选术语E+后词的个数或前词+锚点候选术语E+后词的个数均小于等于5。

9.根据权利要求1所述方法，其特征在于，在步骤S3中，所述状态转移矩阵按下述实现构造：

建立具有8种状态5个输入判断条件的状态转移矩阵；

所述8种状态为：

状态1为经过C_value检测的锚点候选术语状态；

状态2为经过语言特征筛选的过渡态；

状态3为拒绝态一，表示不能接受的单词候选串状态；

状态4为经过统计特征检验的初选单词型术语状态；

状态5为任意一个单词型术语向多词型术语扩充，并检验扩充后的字串是否符合多词术语的状态；

状态6是接受态一，表示识别出一个锚点候选术语是一个单词型术语；

状态7是接受态二，表示识别出扩充后的字串是多词型术语；

状态8是拒绝态二，表示扩充后的字串不是维吾尔文农业技术术语；

其中，还另外设置状态0为起始状态；

所述5个输入判断条件为：

条件1，判断所述语料字串的C_value值是否大于等于预先设定的C_value值阈值，如果是，则进入状态1，如果否，则进入状态3；

条件2，判断所述语料的字串的词干及词尾特征是否符合词干词尾农业领域特征组合，如果是，则进入状态2，如果否，则进入状态3；

条件3，判断所述语料的字串的倒文档频率是否大于等于预先设定的倒文档频率阈值，如果是，则进入状态4，如果否，则进入状态3；

条件5，判断任意一个单词型术语向前、后词扩充后的字串是否符合所述多词术语中的词性特征，如果符合，则进入状态7；如果不符合，则进入状态8。