CN102708147A

CN102708147A - 一种科技术语的新词识别方法

Info

Publication number: CN102708147A
Application number: CN2012100825363A
Authority: CN
Inventors: 曲晓光; 雷静; 丰瑾; 侯晓艳; 徐锡涛
Original assignee: BEIJING XINFA PATENT INFORMATION CO LTD
Current assignee: BEIJING XINFA PATENT INFORMATION CO LTD
Priority date: 2012-03-26
Filing date: 2012-03-26
Publication date: 2012-10-03
Anticipated expiration: 2032-03-26
Also published as: CN102708147B

Abstract

本发明提供一种新词识别方法，包括：对科技文本进行断句处理，构建机器词典；对断句切分出的短句进行词表匹配分词，然后对剩下的语串进行原子分词，自动抽取二字词、三字词及多字词；应用统计学方法对抽取的词汇进行排序，对排序的词汇进行评价，获得新词。本发明的方法极大地提高了新词识别的准确性和全面性。

Description

一种科技术语的新词识别方法

技术领域

本发明涉及计算机中文信息处理技术，更具体地，涉及一种科技术语的新词识别方法。

背景技术

中文信息处理技术已经在计算机网络、数据库技术、软件工程、文献检索识别等技术领域得到了广泛的应用。中文自动分词是中文信息处理的一项基础性工作，许多中文信息处理项目都涉及分词问题，例如机器翻译、自动文摘、自动分类和中文文献库检索等。由于中文文本是连续书写的，字与字之间、词与词之间没有空格，所以中文文本处理的首要问题是分词，词汇的准确区分是进行中文文本处理的基础。

但词汇的区分对于词典中的词汇没有问题，但对于新词的出现，却不能实现准确的识别。自然语言处理领域的专家一直尝试用不同的方法借助计算机从大规模的文本中自动抽取新词。由于社会和技术的发展以及新词语的不断涌现，导致自动分词中出现很多不成词的散串，影响了分词准确率。因此有效识别新词，对提高中文自动分词的总体效果可以起到重要的作用。

诸如专利文献的科技文献作为技术信息的有效载体，随着技术的迅速发展，不断涌现出各种各样的新概念，这些新概念往往以科技新词汇的形式体现出来。从大量的专利文献中自动发掘这些反映新概念的词汇对于很多应用具有重要价值，例如基于字典的分词、专利检索、专利分类、专利机器翻译。

腾讯科技(深圳)有限公司于2007年6月27日提交名称为“一种中文分词方法及系统”的中国发明专利申请，在该发明的技术方案中，首先通过基于字符串的分词方法、基于理解的分词方法等传统分词方法进行处理，然后通过字间出现的概率和既定阈值相比较，识别新词。该方法对于具有规律性的一些表达但不构成新词的情况没有进行处理，准确率较差。

微软公司于2005年3月16日提交的名称为“切分非切分语言的输入字符序列的方法”的中国发明专利申请，在该申请的技术方案中，首先识别单字符序列，确定作为单字符出现的独立性概率，组合单字符，确定该单字符序列的总独立词概率，判定该概率，确定新词。首先该方法没有将既有词汇排除，容易将既有词汇和新单字混合，准确率较差；另外，该方法没有考虑中文的特殊性，对于中文的应用不具有普适性。

发明内容

为克服现有技术的上述缺陷，本发明提出一种科技术语的新词识别方法。

根据本发明的一个方面，提出了一种新词识别方法，包括：步骤1，对科技文本进行断句处理，构建机器词典；步骤2，对断句切分出的短句进行词表匹配分词，然后对剩下的语串进行原子分词，自动抽取二字词、三字词及多字词；步骤3，应用统计学方法对抽取的词汇进行排序，对排序的词汇进行评价，获得新词。

本发明的方法通过采用机械分词、词表匹配后统计评价，应用多种评价组合方式，进行新词的识别和获取，极大地提高了新词识别的准确性和全面性。

附图说明

图1为根据本发明的新词识别方法的总的流程图。

如图所示，为了能明确实现本发明的实施例的结构，在图中标注了特定的结构和器件，但这仅为示意需要，并非意图将本发明限定在该特定结构、器件和环境中，根据具体需要，本领域的普通技术人员可以将这些器件和环境进行调整或者修改，所进行的调整或者修改仍然包括在后附的权利要求的范围中。

具体实施方式

下面结合附图和具体实施例对本发明提供的一种科技术语的新词识别方法进行详细描述。

在以下的描述中，将描述本发明的多个不同的方面，然而，对于本领域内的普通技术人员而言，可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言，阐述了特定的数目、配置和顺序，但是很明显，在没有这些特定细节的情况下也可以实施本发明。在其他情况下，为了不混淆本发明，对于一些众所周知的特征将不再进行详细阐述。

可以理解，本发明的中文新词识别方法，可以应用于多种终端设备，例如个人计算机、个人数字助理、移动通信设备、平板电脑等各种智能处理设备，因此本发明的方法不限于某种特定类型的终端设备。

总的来说，图1示出根据本发明的新词识别方法的总的流程，如图1所示，该方法包括：首先对专利文本先进行断句处理，构建机器词典，然后对切分出的短句进行分词；在词表匹配后，对剩下的语串进行原子分词；原子切分后，自动抽取二字词、三字词及多字词，应用统计学方法对其进行排序，并且对排序的词汇进行评价，获得新词。进一步可以再由人工加以筛选。

具体地，如图1所示，其中，对于断句处理，包括根据分隔符、回车换行符、标点符号等语句的分隔标志，把整篇的科技文本分隔成多个短句。

其中，对于机器词典构建，包括：将常用词表和技术、专利领域的专业词表合并形成初始机器词典，此后通过不断加入机器识别且通过人工审核的新术语词对机器词典加以扩充。

其中，对于分词，主要是指机械分词，将待分析的汉字串或者短句与一个“充分大的”机器词典中的词条进行配对，若在词典中找到某个字符串，则匹配成功。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配；常用的几种机械分词方法包括正向最大匹配法、逆向最大匹配法、最少切分方法和双向最大匹配法。

具体地，对于逆向最大匹配法，是指：在每个分句中，按从右至左的方向，把最后一个字符与其左边的字符根据设定的最大长度进行组合，然后与机器词典中的词条进行对比，若匹配成功，则视为识别出一个词，否则减少一个字符继续匹配，直至到最短两字符，如果还不能匹配成功，则将右边界向左推进一个字符，再进行上述操作。上述的四种机械分词方法可以组合使用，进行优化筛选。

对于原子切分，包括：将匹配后剩余语串中的一个汉字、短句前后的开始结束标识字段、全角标点符号、相连的数字字母或者单字节字符都视为原子，把语串从左到右切分成单独原子。

对于新词排序，包括：将单独原子按照从左到右或者从右到左的顺序分别组成相邻的两字词汇，并且将这些词汇按照在技术文本或者专利文本中出现的频率由高到低排列。进一步，将单独原子按照从左到右或者从右到左的顺序分别组成相邻的三字或者四字词汇，并且将这些词汇按照在技术文本或者专利文本中出现的频率由高到低排列。

对于评价方法：针对二字词，使用下述三种评价方法获取二字词最终评价。

第一种评价方法是采用基于相似性来判别任意词对的关联程度，基于关联程度，判别为新词。其中，计算方法包括：

logλ＝logL(c₁₂，c₁，p)+logL(c₂-c₁₂，N-c₁，p)-logL(c₁₂，c₁，p₁)-logL(c₂-c₁₂，N-c₁，p₂)，L(k，n，x)＝x^k(1-x)^n-k，

其中用c₁，c₂和c₁₂来表示w₁，w₂和w₁₂在语料库中出现的次数，N表示语料中包含的词语数。

第二种评价方法包括：假设两个字w₁和w₂，语料中共有N个词次，则w₁和w₂构成的二字词情况可通过下表反映：

其中，

表示以w₂结尾但不以w₁开头的二字词组合，应用χ2统计量计算，得到如下公式：

χ^{2} = \frac{N {(O_{11} O_{22} - O_{12} O_{21})}^{2}}{(O_{11} + O_{12}) (O_{11} + O_{21}) (O_{12} + O_{22}) (O_{21} + O_{22})}

其中，O₁₁、O₁₂、O₂₁及O₂₂分别代表w₁w₂、

及

的二字词在语料中出现的频次。假设χ2的置信度水平α＝0.05，则当χ2的取值大于3.841时认为w₁w₂具有高度相关性。

第三种评价方法是采用下面的公式：

I (x, y) = \log_{2} \frac{p (x, y)}{p (x) * p (y)}

其中，如果x和y能够构成有意义的术语，则表明他们之间有强烈的关联，因此p(x，y)将远大于p(x)*p(y)，因此I(x，y)＞＞0；如果x和y之间没有什么必然的关联，那么p(x，y)将近似等于p(x)*p(y)，故I(x，y)近似为0；如果x和y的分布是互补的关系，那么p(x，y)将远小于p(x)*p(y)，故I(x，y)＜＜0。p(x)＝f(x)/N，其中f(x)是x出现的次数，N是文本集合中包含的所有词汇数。

对于三字词及多字词，从具有最大长度的字串开始，候选术语的主要参数是它们在文本中出现的词频。

其中，|t|表示候选术语t的长度，f(t)表示t在语料中出现的总词频，T_t为包含t的候选术语集合，p(T_t)代表包含t的候选术语的数量，f(b)为包含t的候选术语b所具有的词频。

对于上述三种评价方法，在一个实施例中，采用其中一种方法进行评价即可。在另一个实施例中，采用第一种方法进行第一次评价，然后选择第二种或者第三种方法进行第二次评价。在又一个实施例中，采用第一种方法进行评价，随后采用第二种方法和第三种方法进行评价；或者首先采用第一种方法进行评价，随后采用第三种方法和第二种方法进行评价。在进一步的实施例中，第一、第二和第三种方法无论次序，分别执行一次进行评价。

最后应说明的是，以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其他的修改、变化、应用和实施例，并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种新词识别方法，包括：

步骤1，对科技文本进行断句处理，构建机器词典；

步骤2，对断句处理切分出的短句进行词表匹配分词，然后对剩下的语串进行原子分词，自动抽取二字词、三字词及多字词；

步骤3，应用统计学方法对抽取的词汇进行排序，进而对排序后的词汇进行评价，获得新词。

2.根据权利要求1所述的方法，其中，步骤1还包括：

根据诸如分隔符、回车换行符和标点符号的语句分隔标志，把科技文本分隔成多个短句；

基于常用词表和技术、专利领域的专业词表合并形成机器词典。

3.根据权利要求2所述的方法，其中，步骤2还包括：

基于正向最大匹配法、逆向最大匹配法、最少切分方法和双向最大匹配法的一种或者几种，将上述多个短句和机器词典进行匹配，识别旧词；

将识别后剩余语串中的汉字、短句前后的开始结束标识字段、全角标点符号、相连的数字字母或者单字节字符视为原子，把语串从左到右切分成单独原子，提取二字词、三字词和四字词。

4.根据权利要求3所述的方法，其中，步骤3还包括：将单独原子按照从左到右或者从右到左的顺序分别组成相邻的两字词汇，并且将这些词汇按照在技术文本中出现的频率由高到低排列。

5.根据权利要求4的方法，其中，步骤3中评价方法包括：

第一评价方法：采用基于相似性来判别任意词对的关联程度，以判别新词，其中，关联程度logλ＝logL(c₁₂，c₁，p)+logL(c₂-c₁₂，N-c₁，p)-logL(c₁₂，c₁，p₁)-logL(c₂-c₁₂，N-c₁，p₂)，L(k，n，x)＝x^k(1-x)^n-k，

c₁，c₂和c₁₂分别表示w₁，w₂和w₁₂在语料库中出现的次数，N表示语料中包含的词语数；或者

第二评价方法：采用统计相关评价方法来识别新词，

其中，O₁₁、O₁₂、O₂₁及O₂₂分别代表w₁w₂、

及

的二字词在语料中出现的频次，表示以w₂结尾但不以w₁开头的二字词组合，w₁和w₂表示两个字符，语料中共有N个词次；或者

第三评价方法：根据两个字符x和y的相关性来识别新词，当

其中p(x)＝f(x)/N，f(x)是x出现的次数，N是文本中包含的所有词汇数，则识别x和y组成新词。

6.根据权利要求5所述的方法，其中，步骤3还包括：对于第二评价方法，当置信度水平α＝0.05时，当χ2的取值大于3.841时确定w₁w₂具有高度相关性，识别为新词。

7.根据权利要求5所述的方法，其中，步骤3中评价方法包括：采用第一评价方法进行第一次评价，然后选择第二评价方法或者第三评价方法进行第二次评价。

8.根据权利要求5所述的方法，其中，步骤3中评价方法包括：采用第一评价方法进行评价，随后顺序采用第二评价方法和第三评价方法进行评价；或者

首先采用第一评价方法进行评价，随后顺序采用第三评价方法和第二评价方法进行评价。

9.根据权利要求4所述的方法，其中，步骤3还包括：将单独原子按照从左到右或者从右到左的顺序分别组成相邻的三字或者四字词汇，并且将这些词汇按照在技术文本中出现的频率由高到低排列；

根据词频识别为新词，其中，

其中，|t|表示候选词t的长度，f(t)表示t在语料中出现的总词频，T_t为包含t的候选术语集合，p(T_t)代表包含t的候选术语的数量，f(b)为包含t的候选术语b所具有的词频。