CN101950309A

CN101950309A - 一种面向学科领域的新专业词汇识别方法

Info

Publication number: CN101950309A
Application number: CN 201010299588
Authority: CN
Inventors: 刘清堂; 黄涛; 刘瑶瑶; 黄�焕; 吴林静
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2010-10-08
Filing date: 2010-10-08
Publication date: 2011-01-19

Abstract

本发明属于计算机应用和自然语言处理领域，提供一种面向学科领域的新专业词汇识别方法，其原理是将初始文档经过文本预处理、新词串统计、垃圾词串过滤和结果排序等步骤后，输出从文中发现的新词语，本发明可以较好地发现学科领域的专业术语，并对结果进行排序，弥补了现有算法的不足，更有利于人们把握这个学科的发展动向和核心价值。

Description

一种面向学科领域的新专业词汇识别方法

技术领域

本发明属于计算机应用和自然语言处理领域，特别涉及一种面向学科领域的新专业词汇识别方法。

背景技术

面向学科领域的专业词汇与通用词汇不同，具有鲜明的领域特色，通常由基本词根、专业基础词汇等构成，是在通用词汇基础上发展起来的词汇用语。新专业词汇是专业领域的未登录词和新词。未登录词被定义为未在词典中出现的词，通常包括缩略词、专有名词、派生词、复合词、数字类复合词等。新词也是未在词典中出现的词，属于未登录词，包含两层含义：通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语；出现在某一时间段内或自某一时间点以来首次出现的具有新词形、新词义或者新用法的词汇等。

自然语言处理领域的专家一直尝试借助计算机从大规模的文本中自动抽取新词和未登录词。

新词发现的方法通常有基于规则或基于统计方法。基于规则的方法是根据构词特征或词语外型特点建立规则库或模式库，然后通过匹配规则发现新词。领域专家根据语言学原理，结合领域知识体系制定一系列规则来处理各种语言现象，以发现新词。这种方法可发现较高质量的新词，但是灵活性差，而且要制定全面的规则费时费力。基于统计的方法是通过对词语的共现进行概率统计来提取候选串，然后再利用语言知识过滤掉垃圾串；或计算相关度，寻找相关度最大的字与字的组合。这种方法适用于任何领域，但需要大量的训练语料，而且查找的效率并不是很高。主要原因是忽略了不同词语的构词模式，构词能力和上下文语义关系等对各个词语构成新词的影响。比较实用的方法是结合概率统计和规则几何方法进行新词发现，如采用二元统计模型或质子串分解等，利用频次统计选择候选词串，然后利用组词规则等过滤，最后由人工选择确定最终的新词结果。

目前，由于新词出现的速度之快，形式之灵活，且没有固定的形成规律，导致当前并没有权威的标准来判断一个词语是否为新词，所以对结果的检验很大程度上依赖于人工的经验判断。常用的方法中，统计的方法会受数据稀疏问题的影响，不利于低频新词和长度较长的新词的发现。基于规则的方法中，过滤的效果也依赖于规则获取的完备性。

发明内容

本发明就是针对上述背景技术中的不足之处，而提出的一种面向学科领域的新专业词汇识别方法，以快速发现较高质量的新词。

本发明的目的是通过如下技术措施来实现的。

一种面向学科领域的新专业词汇识别方法，该方法使用的硬件部分包括文本预处理部件、基于贪婪的原子词汇构词法的新词串构建与统计部件、垃圾词串过滤部件、重复子串筛选部件、新专业词汇提炼和结果排序部件，其特征在于该方法依次包括以下步骤：

（1）文本预处理部件对文本格式进行转换，然后进行文本清洗、去除噪音文字，再抽取出文中用特殊符号标志的长度不大于10的词串，形成候选新词表1；

（2）基于贪婪的原子词汇构词法的新词串构建与统计部件首先对经过上述文本预处理后的内容进行分词，然后按照词性去除不能构词的词语，再采用原子词汇构词法对文中的候选词串进行统计，形成候选新词表2；

（3）垃圾词串过滤部件主要是针对领域特点来对候选新词表进行过滤，过滤掉不符合领域特点的部分，具体可以利用专业词库、规则库或者模式库等进行匹配过滤；

（4）重复子串筛选部件利用频率相减法对包含有相同内容的重复子串进行筛选；

（5）新专业词汇提炼和结果排序部件先借助领域词汇库的热点词根来进一步筛选掉部分垃圾词串，生成新词表，再通过排序算法计算所发现的每个新词的序值来对结果进行排序。领域词汇库主要是从专业领域文献、教材、资料等中预先分拣出的属于该专业领域的词所组成的。

在上述技术方案中，步骤（1）中所述的文本预处理部件包括格式转换模块、文档清洗模块和具有特殊符号标志的词串抽取模块；其中格式转换模块是把其他格式的文档全部转换为便于处理的TXT格式；文档清洗模块是去除文中的无用信息，包括图形图像、图表、作者信息和参考文献；具有特殊符号标志的词串抽取模块是指抽取出用“”、‘’、（）、《》标记的长度不大于10的内容。

在上述技术方案中，步骤（2）中所述的基于贪婪的原子词汇构词法的新词串构建与统计部件的具体工作步骤如下：

（2-1）用基于通用词库的分词系统，如中国科学院的ICTCLAS系统、哈尔滨工业大学统计分词系统或者SEG分词系统和SEGTAG系统等对所有文章进行分词，并做好词性标注；分词结果中，词与词之间用空格隔开，标点符号和停用词都去掉，在其所在的位置用“#”代替；

（2-2）对于分词结果，考虑到现代汉语中有很多不具有构词能力或者构词能力较弱的词语，而这些词语多是助词、介词、代词、叹词、副词、连词、语气词、方位词、时间词、数词、拟声词、成语等，所以将属于这些词性的词语直接从分词结果中删除；

（2-3）对处理过后的分词结果，使用原子词汇构词法进行候选新词串统计，将可能构成新词的候选词串全部写进候选新词表2中。具体实现过程如下：

（2-3-1）针对分词结果，以“#/”为分隔符将全文切分成一个个字符串，并去掉只包含有一个词语的字符串，例如：从教/v 学/v 技术/n #/学习/v 技术/n #/嬗变/vn #/顺应/v #/这种/r 发展/v 趋势/n，切分为：“从教/v 学/v 技术/n ”、“学习/v 技术/n”、“这种/r 发展/v 趋势/n”三个字符串；

（2-3-2）对剩下的由多个词连续构成的字符串从后向前进行扫描，每次以一个词语作为一个扫描单位，进行如下处理：

（a）将当前扫描的词串作为后缀1，后缀2为空；

（b）扫描下一个词语，作为前缀；

（c）判断后缀1是否为空，若为空转到步骤（e），如果不为空，用前缀+后缀1组成新词串；

（d）判断新词串是否已存在于候选新词表2中，如果在就将其频次加1，如果不在就将它加到新词表2中；

（e）判断后缀2是否为空，如果是，转到步骤（g），如果不为空，用前缀+后缀2组成新词串；

（f）判断新词串是否已存在于候选新词表2中，如果在就将其频次加1，如果不在就将它加到新词表2中；

（g）将当前前缀作为后缀2，当前词串作为后缀1；

（h）判断当前前缀是否为该字符串中最后一个字符，如果是则算法结束，如果不是转向步骤（b）。

在上述技术方案中，步骤（3）中所述的垃圾词串过滤部件的具体工作步骤如下：对构造出来的候选新词串，利用已有的规则库、词库或者模式库，如常用前缀词汇库、后缀词汇库、“互斥性子串”过滤规则、特殊词过滤、模式匹配规则等，对于凡是不满足上述规则要求的词串全部删除。

在上述技术方案中，步骤（5）中所述的新专业词汇提炼和结果排序部件的具体工作步骤如下：

（5-1）利用已有的领域词汇库，根据库中各热点词根的频度，计算新词串为专业词汇的概率值；库中各词根频度的计算方法为，取该词根在领域词汇库中的出现频次，除以该表中所有词根的总频次，若新词串中包含有领域词汇库中的词，那么直接利用各个热点词根的频度；若构成新词串的词不在领域词汇库中，那么其频度的计算方法为：以把该词加入到领域词汇库中后的词根数量作为被除数，除数为1，取二者之商作为其频度；最后通过将构成该新词串的所有词语的频度值相乘得到该新词串的概率值；即对于新词ABC，若词根A、B和C在学科领域词汇库中的概率分别为P(A)、P(B)和P(C)，则新词ABC的领域相关度的计算方法为P(A)×P(B)×P(C)。经多次实验测试，根据数据的正态分布特征，取所有数据的前25%进行保留，加入新词表，否则进行删除；

（5-2）对于已选出来候选新词表1中的内容，如果词条的长度大于6，将其进行分词，按以上步骤进行处理，对于长度不大于6的词条，去掉表示序号而与新词无关的词，然后将其直接加入新词表中；

（5-3）计算各个新词的序值，对新词进行排序输出。

本发明一种面向学科领域的新专业词汇识别方法可以较好地发现学科领域的专业术语，并对结果进行排序，弥补了现有算法的不足，更有利于人们把握这个学科的发展动向和核心价值。

附图说明

图1是本发明的基本原理图。

图2是本发明核心算法基于贪婪的原子词汇构词法的流程图。

图3是本发明重复子串处理的流程图。

具体实施方式

下面结合附图及实施例对本发明作进一步的描述。

如图1所示，为本发明的基本原理图。初始文档经过文本预处理、新词串统计、垃圾词串过滤和结果排序后，将从文中发现的新词语输出，其中要用到一个分词系统、一个或多个规则库，在词汇领域相关度的计算部分，用到了已经构建好的领域词汇库，并且在计算新词的序值以对结果进行排序时还要用已发现的新词来充实分词系统的通用词典。本发明的核心算法用在候选新词串的统计部分，同时在过滤垃圾词串的过程中充分考虑了词性、词语的构词能力和构词方式等因素。在对重复子串进行处理，在对结果进行排序的过程中，也直观地体现了该新词的“热点”程度。

本发明一种面向学科领域的新专业词汇识别方法，该方法使用的硬件部分包括文本预处理部件、基于贪婪的原子词汇构词法的新词串构建与统计部件、垃圾词串过滤部件、重复子串筛选部件、新专业词汇提炼和结果排序部件，其特征在于该方法依次包括以下步骤：

在上述实施例中，步骤（1）中所述的文本预处理部件包括格式转换模块、文档清洗模块和具有特殊符号标志的词串抽取模块；其中格式转换模块是把其他格式的文档全部转换为便于处理的TXT格式，为了不影响效果，要求尽量保留原文的格式和字符顺序；文档清洗模块是去除文中的无用信息，包括图形图像、图表、作者信息和参考文献；具有特殊符号标志的词串抽取模块是指对所有文章进行扫描，抽取出文中用“”、‘‘、（）、《》、——等标记的长度不大于10的内容，形成候选新词表1，并从原文中剔除关联内容，在其出现的位置用“#”填补。

在上述实施例中，步骤（2）中所述的基于贪婪的原子词汇构词法的新词串构建与统计部件的工作步骤如下：

（2-1）用通用词汇库构造的分词系统对所有文章进行分词，并做好词性标注。分词结果中，词与词之间用空格隔开；去掉标点符号和停用词，将其所在的位置用“#”代替。例如：“从工业社会到信息社会的巨大转折中。”的分词结果为：“从/p 工业/n 社会/n #/信息/n 社会/n #/巨大/a 转折/vn 中/f。”；

（2-2）对于分词结果，考虑到某些词性的词语不具有构词能力，或者构词能力较弱，将这些词从文中删除。被删除的对象是属于助词、介词、代词、叹词、副词、连词、语气词、方位词、时间词、数词、拟声词、成语等的词语，如“的”，“在”、“前”等，将其所在的位置用“#”代替；

（2-3）对处理过后的文档，使用贪婪的原子词汇构词法构建候选词串，统计候选词串形成候选新词表2。构建候选新词的算法的主要思想为：如果一个词语的前面或后面紧跟着的是标点符号，那么这个词语不可能与标点符号前面或者后面的词语构成新词，如果这个词语的前面或者后面紧挨着的是“的”，“了”，“地”，“还”之类构词能力很差的词语，那么这个词语也不可能与这些词语或者这些词之前与之后的词语构成新词；

具体实现过程如下：

（a）将当前扫描的词串作为后缀1，后缀2为空；

（b）扫描下一个词语，作为前缀；

（d）判断新词串是否已存在于候选新词表中，如果在就将其频次加1，如果不在就将它加到候选新词表2中；

（f）判断新词串是否已存在于候选新词表中，如果在就将其频次加1，如果不在就将它加到候选新词表2中；

（g）将当前前缀作为后缀2，当前词串作为后缀1；

上述算法的步骤流程如图2所示，为本发明中核心算法。使用这个算法进行统计，是基于以下前提：如果一个词语的前面或后面紧跟着的是标点符号，那么这个词语不可能与标点符号前面或者后面词语构成新词，如果这个词语的前面或者后面紧挨着的是“的”，“了”，“地”，“还”之类的停用词，那么这个词语也不可能与这些停用词之前或之后的词语构成新词。如果以一个词语作为一个单位，那么每三个或者两个连续的单位构成的新词串都是统计的对象，按照从后向前的顺序扫描整个字符串，在算法的执行过程中，如果以当前读取的词作为前缀，那么后缀就有两个，根据当前新词串的后缀对象的不同，分别进行处理。

在上述实施例中，步骤（3）中所述的垃圾词串过滤部件的具体工作步骤如下：对构造出来的候选新词串，已有的规则库、词库或者模式库，如常用前缀词汇库、后缀词汇库、“互斥性子串”过滤规则、特殊词过滤、模式匹配规则等，对于凡是不满足上述规则要求的词串全部删除。

在上述实施例中，步骤（4）中所述的重复子串筛选部件的具体工作步骤为对于候选词串表中剩下的词串，类似于“手提电脑”、“手提电”、“ 提电脑”含有相同内容的部分，采用频率相减法进行过滤，该方法的执行过程如图3所示：

计算长词串Y的频率PL(Y) 减去短词串X的频率PL(X)，建立规则：

R1：若差值>=0，则说明X每次均出现在Y中，则将其去除；

R2：若差值<0，则说明X也作为新词串单独出现，则将X保留，且PL(X)=PL(X)-PL(Y)；

R3：若差值<0且PL(Y)<=3，则将长词串Y删除。

其原理为对于含有相同内容的子串和父串，计算其频度差，然后根据不同的结果进行取舍，即可淘汰一部分出现频度比较低的词串。

在上述实施例中，步骤（5）中所述的新专业词汇提炼和结果排序部件包括新专业词汇提炼模块和结果排序模块。其中新专业词汇提炼模块的具体工作步骤如下：利用已有的学科领域词汇库，根据库中各热点词根的频度，计算新词串为专业词汇的概率值；库中各词根频度的计算方法为，取该词根在领域词汇库中的出现频次，除以该表中所有词根的总频次，若新词串中包含有领域词汇库中的词，那么直接利用各个热点词根的频度；若构成新词串的词不在领域词汇库中，那么其频度的计算方法为：以把该词加入到领域词汇库中后的词根数量作为被除数，除数为1，取二者之商作为其频度；最后通过将构成该新词串的所有词语的频度值相乘得到该新词串的概率值。即对于新词ABC，若词根A、B和C在学科领域词汇库中的概率分别为P(A)、P(B)和P(C)，则新词ABC的领域相关度的计算方法为P(A)×P(B)×P(C)。经多次实验测试，根据数据的正态分布特征，取所有数据的前25%进行保留，加入最终新词表，将其保留，否则进行删除。

步骤（5）中所述的结果排序模块的具体工作步骤为：

（5-1）对于候选新词表1中存放的用“ ”、‘ ’、（）、《》等特殊符号标记的长度不大于10的词条，如果词条的长度大于6，将其进行分词，按以上方法进行处理，对于长度不大于6的词条，去掉“1”，“2”， “一”，“二”，“图一”，“图二”， “第一”，“第二”，“如图一所示”，等表示序号而与新词无关的词，然后将其直接加入新词表中；

（5-2）将经过上述处理的新词加到分词系统的词典中，再次对原文进行分词，并统计重新分词后的词语个数，新词串的个数；

（5-3）计算各个新词的序值，对新词进行排序，新词序值的计算公式为：

F(w)=f(w)*N*p(w)

其中w为某一新词串；F(w)为词串w经计算后的最终序值；

f(w)为测试语料中词串w的出现频度；p(w)为词串w在测试语料中的文档覆盖率；N为测试语料中的总词数。

对于所有构造出来的候选词串，总是有相当一部分不符合语法要求，也缺乏实在的语法意义，需要过滤掉。在具体的处理过程中，采用三个步骤来实现：（1）垃圾词串筛选，利用常用前缀词汇库、后缀词汇库、“互斥性子串”过滤规则、特殊词过滤、模式匹配规则等，将不满足规则要求的词串全部删除。在这一处理中充分考虑了词义对构词的影响。（2）重复子串的处理，对于“手提电脑”、“手提电”、“ 提电脑”这样含有相同内容的词串，通过分析发现，总有部分是垃圾串，像该例中的“手提电”和“提电脑”就不符合语法要求，采用频率相减法，通过比较子串和父串的频度关系，可以过滤掉部分垃圾词串。（3）专业词汇频度计算，这个步骤中利用已经构建好的领域词汇库，计算各个词语为专业词汇的概率值，这里主要是利用了词语的频度差异，所以测试语料库的大小会对结果有一定影响。

Claims

1.一种面向学科领域的新专业词汇识别方法，该方法使用的硬件部分包括文本预处理部件、基于贪婪的原子词汇构词法的新词串构建与统计部件、垃圾词串过滤部件、重复子串筛选部件、新专业词汇提炼和结果排序部件，其特征在于该方法包括以下步骤：

（1）文本预处理部件对文本格式进行转换，进行文本清洗、去除噪音文字，再抽取出文中用特殊符号标志的长度不大于10的词串，形成候选新词表1；

（3）垃圾词串过滤部件针对领域特点对候选新词表进行过滤，过滤掉不符合领域特点的部分；

（5）新专业词汇提炼和结果排序部件先借助领域词汇库的热点词根来筛选掉部分垃圾词串，生成新词表，再通过排序算法计算所发现的每个新词的序值对结果进行排序；其中领域词汇库是从专业领域文献、教材、资料等中预先分拣出的属于该专业领域的词所组成的。

2.根据权利要求1所述的一种面向学科领域的新专业词汇识别方法，其特征在于：步骤（1）中所述的文本预处理部件包括格式转换模块、文档清洗模块和具有特殊符号标志的词串抽取模块；其中格式转换模块是把其他格式的文档全部转换为便于处理的TXT格式；文档清洗模块是去除文中的无用信息，包括图形图像、图表、作者信息和参考文献；具有特殊符号标志的词串抽取模块是指抽取出用“”、‘’、（）、《》标记的长度不大于10的内容。

3.根据权利要求1所述的一种面向学科领域的新专业词汇识别方法，其特征在于步骤（2）中所述的基于贪婪的原子词汇构词法的新词串构建与统计部件的具体工作步骤如下：

（2-1）用基于通用词库的分词系统对所有文章进行分词，并做好词性标注；分词结果中，词与词之间用空格隔开，标点符号和停用词都去掉，在其所在的位置用“#”代替；所述通用词库的分词系统为中国科学院的ICTCLAS系统、哈尔滨工业大学统计分词系统或者SEG分词系统和SEGTAG系统；

（2-2）对于分词结果，考虑到现代汉语中有很多不具有构词能力或者构词能力较弱的词语，而这些词语多是助词、介词、代词、叹词、副词、连词、语气词、方位词、时间词、数词、拟声词、成语，所以将属于这些词性的词语直接从分词结果中删除；

（2-3）对处理过后的分词结果，使用原子词汇构词法进行候选新词串统计，将可能构成新词的候选词串全部写进候选新词表2中；具体实现过程如下：

（2-3-1）针对分词结果，以“#/”为分隔符将全文切分成一个个字符串，并去掉只包含有一个词语的字符串；

（2-3-2）对每个字符串从后向前进行扫描，每次以一个词语作为一个扫描单位，进行如下处理：

（a）将当前扫描的词串作为后缀1，后缀2为空；

（b）扫描下一个词语，作为前缀；

（g）将当前前缀作为后缀2，当前词串作为后缀1；

4.根据权利要求1所述的一种面向学科领域的新专业词汇识别方法，其特征在于步骤（3）中所述的垃圾词串过滤部件的具体工作步骤如下：对构造出来的候选新词串，利用已有的规则库、词库或者模式库，如常用前缀词汇库、后缀词汇库、“互斥性子串”过滤规则、特殊词过滤、模式匹配规则，对于凡是不满足上述规则要求的词串全部删除。

5.根据权利要求1所述的一种面向学科领域的新专业词汇识别方法，其特征在于步骤（5）中所述的新专业词汇提炼和结果排序部件的具体工作步骤如下：

（5-3）计算各个新词的序值，对新词进行排序输出。