CN100489863C

CN100489863C - 一种新词发现方法和系统

Info

Publication number: CN100489863C
Application number: CNB2007101752299A
Authority: CN
Inventors: 龚才春; 黄玉兰
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2007-09-27
Filing date: 2007-09-27
Publication date: 2009-05-20
Anticipated expiration: 2027-09-27
Also published as: CN101131705A

Abstract

本发明公开了一种发现新词的方法，包括以下步骤：查找语料中所有出现频次大于一定阈值的字符串；统计每一个字符串在语料中所有出现位置的左侧和右侧各有多少个不同的字符或词语；若字符串左右侧不同字符或词语数量均大于某个预先设定的阈值，则将该字符串作为新词输出；否则在搜索引擎网站对字符串进行精确搜索和模糊搜索，若精确搜索返回结果数量大于一定阈值，和/或精确搜索和模糊搜索返回的结果数量之比大于一定阈值，和/或精确搜索返回结果网页中字符串的左右侧字符或词语种类数大于一定阈值，则将该字符串作为新词输出。本发明既能够发现在语料中出现频次较高的新词，也能够发现在语料中出现频次较低的新词，同时新词发现的准确率较高。

Description

一种新词发现方法和系统

技术领域

本发明涉及一种文本信息处理领域，特别是一种利用搜索引擎来辅助发现语料中新词的方法和系统。

背景技术

在自然语言处理或计算语言学中，新词是指以前从来没有出现过的词汇，或者是以前出现过的词汇的新用法。新词一般在词典中没有收录，因此也有不少人把新词等同于未登录词。

随着时代的进步和经济的发展，在人们日常生活的各方各面都不断涌现出大量的新词，尤其是随着互联网在中国的日益普及，大量网络新词层出不穷，日常生活中产生的新词也得以更快的传播。据报道，我国每年至少出现汉语新词或新用法1000个以上。新词出现的速度不断加快，新词出现的领域不断增多，而使用传统的人工方法搜集新词语并编篡词典的方法，既耗时又耗力，而且很难保证不遗漏新词。人们迫切需要使用自动检测方法快速输出若干候选新词供人工筛选，从而减轻工作量。在每个学科和领域都有相应的领域术语，收集和整理这些领域术语对各领域的学术研究和交流也具有重要的意义。然而领域专家一般不是词典编篡专家，领域专家一般很难胜任领域术语的编篡工作；而词典编篡专家一般也不是特定领域的技术专家，所以词典编篡专家也很难单独编写各领域的领域词典。人们在编篡领域词典的时候也迫切希望通过计算机处理相关的领域语料，自动挖掘该领域的候选术语集合，在此基础上进行人工编篡。

现有一种利用搜索引擎的用户搜索日志来发现新词的方法，在大量用户提交的搜索关键词中统计各关键词的出现频次，如果大于某个预先设定的阈值，则作为新词输出，该方法能够比较准确、实时地发现互联网的新词。但是其很难用于特定领域的术语抽取和领域词典编篡，而且该方法所需要的搜索日志一般只有商用搜索引擎公司可以获得，一般用户根本无法使用该方法。

也有学者提出了“有意义串”的概念，有意义串一般认为是具有特定语义，能够独立使用的语言单位，其很大一部分就是新词。

现有技术一般通过考查字符串的稳定性、独立性和完整性三个方面来判断字符串是否是有意义串。有意义串的稳定性是指一个有意义串应该具有一定的使用频次，不是偶尔出现的字符串；有意义串的独立性是指有意义串应该使用灵活，可以在很多语用环境中出现；有意义串的完整性是指有意义串应具有完整的语义。

现有技术中，判断一个字符串是否是有意义的，一般也可以从稳定性、独立性和完整性三个方面考查。首先统计字符串在语料中的出现频次，如果字符串的出现频次大于一定阈值，一般认为字符串是稳定的；再统计字符串在语料中所有出现位置左侧和右侧不同的字符或词语的数量，如果左右两侧不同的字符或词语数量大于一定阈值，则认为字符串是独立的；然后判断字符串A是否是完整的，即当且仅当不存在任何字符串B，字符串A是B的子串，且字符串B的出现频次也大于预先设定的阈值。

但是，基于字符串的稳定性、独立性和完整性三个方面判断字符串是否为有意义串或新词的方法，很难设定一个合适的阈值。阈值太小，新词发现的准确率很低，很多没有意义的垃圾串有可能输出；阈值太大，语料中部分有意义串或新词将不能输出。基于字符串的稳定性、独立性和完整性的方法也只能识别大规模语料中出现频次比较高的那部分新词，对于部分具有明确语义，能够独立使用的新词，很可能由于在语料中的使用频次不是很高而不能输出。

发明内容

本发明所要解决的技术问题在于提供一种新词发现方法和系统，既能够有效发现语料中的高频新词，又能有效发现语料中出现频次较低的新词。

为了解决上述问题，本发明提供了一种新词发现方法，其特点在于，包括以下步骤：

步骤A，获取语料中出现频次大于第一预设阈值的所有字符串；

步骤B，确定符合预先设定规则的字符串；

步骤C，对剩余的字符串，计算每个字符串在语料中所有位置的左右侧不同字符或词语的数量；

步骤D，将所述剩余的字符串左右侧不同字符或词语数均大于第二预设阈值的字符串，作为新词输出；

步骤E，将剩下的字符串作为查询关键词，到搜索引擎中进行搜索，统计返回的搜索结果数量、以及搜索结果记录；

步骤F，根据返回的搜索结果数量和搜索结果记录与预设阈值比较结果，判断并确定最终新词。

优选的，所述的新词发现方法，所述步骤A中，所述获取字符串是使用重复串发现方法获取语料中出现频次大于第一预设阈值的所有字符串。

优选的，所述的新词发现方法，所述重复串发现方法为基于后缀树索引的重复串发现方法、基于后缀数组的重复串发现方法、基于N元递增的重复串发现方法、以及基于Apriori的重复串发现方法中的一种。

优选的，所述的新词发现方法，确定符合预先设定规则的字符串，所述步骤B中，所述预先设定规则为：

去掉以特定字符开始的字符串；和/或

去掉以特定字符结束的字符串。

优选的，所述的新词发现方法，所述步骤E中，所述在搜索引擎中进行搜索，统计返回的搜索结果数量、以及搜索结果记录，包括如下步骤：

在搜索引擎中进行精确搜索，或进行精确搜索和模糊搜索，统计返回的精确搜索结果数量、模糊搜索结果数量、以及精确搜索前多条结果记录。

优选的，所述的新词发现方法，所述步骤E中，返回的搜索结果数量和搜索结果记录与预设阈值的比较结果，具体为：

返回的精确搜索结果数大于第三预设阈值；

和/或精确搜索结果数与模糊搜索结果数的比值大于第四预设阈值；

和/或字符串在精确搜索前多条结果记录中的左右侧不同字符或词语数量均大于第五预设阈值。

优选的，所述的新词发现方法，通过将剩下的字符串作为查询关键词直接输入到搜索框查询，分别到搜索引擎进行精确搜索和模糊搜索，获得返回的精确搜索结果数量和模糊搜索结果数量。

优选的，所述的新词发现方法，所述步骤F中，所述判断并确定最终新词，包括以下步骤中的一个或一个以上的组合：

步骤F1，如果精确搜索结果数量大于所述第三预设阈值，则将该字符串作为最终新词输出；

步骤F2，如果精确搜索结果数与模糊搜索结果数的比值大于所述第四预设阈值，则将该字符串作为最终新词输出；

步骤F3，如果在精确搜索前多条结果记录中该字符串左右侧不同的字符或词语数量均大于所述第五预设阈值，则将该字符串作为最终新词输出。

为实现本发明目的还提供一种新词发现系统，包括获取模块，过滤模块，搜索模块和判断模块，其中：

所述获取模块，用于获取语料中出现频次大于第一预设阀值的所有字符串；

所述过滤模块，用于确定符合预先设定规则的字符串集合，并对符合预先设定规则的字符串，计算每个字符串在语料中所有位置的左右侧不同字符或词语的数量，将左右侧不同字符或词语数大于第二预设阈值的字符串作为新词输出；

所述搜索模块，用于将剩下的字符串作为查询关键词，在搜索引擎中进行搜索，统计返回的搜索结果数量、以及搜索结果记录；

所述判断模块，用于根据返回的搜索结果数量和搜索结果记录与预设阈值的比较结果，判断并确定最终新词。

所述搜索模块中的搜索是指精确搜索，或者精确搜索和模糊搜索；所述搜索模块中的搜索结果数量，是指精确搜索结果数量、模糊搜索结果数量；所述搜索模块中的搜索结果记录，是指精确搜索前多条结果记录。

所述判断模块中返回的搜索结果数量和搜索结果记录与预设阈值的比较结果，是指：

返回的精确搜索结果数大于第三预设阈值；

和/或字符串在返回的精确搜索前多条结果记录中的左右侧不同字符或词语数量均大于第五预设阈值。

本发明所述方法与现有技术相比，具有以下优点：

1、采用计算机自动处理，获取语料中的新词，可以大大缩减人工收集和整理新词的时间；

2、如果语料为特定领域的语料，则可以实现领域术语的挖掘并实现领域词典的自动生成，缩减领域专家和词典编篡专家的工作量；

3、不仅可以发现大规模语料的新词，也可以发现小规模语料的新词；既可以发现语料中出现频次较高的新词，也可以发现语料中频次较低的新词。

附图说明

图1是本发明新词发现方法过程的流程图；

图2是本发明新词发现系统示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的一种新词发现方法和系统进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的核心思想在于，当一个字符串在语料中的出现频次较低时，已有的方法无法有效判断该字符串是否为新词；或者当语料规模不足够大时，可能语料中有很多新词由于频次不是很高而不能有效识别，而本发明到搜索引擎分别精确搜索和/或模糊搜索低频字符串，这相当于使用了搜索引擎索引了的庞大的数据库作为语料，无疑扩展了语料的规模，从而能够发现一部分原始语料中频次较低的新词。

例如，在《西游记》一书中，“铁扇公主”一词只在孙行者三调芭蕉扇时出现，而在其它章节没有出现，在《西游记》全书中总共才出现6次，使用已有方法几乎都不可能发现这个新词。而在百度中精确搜索可以找到251,000篇与“铁扇公主”相关的网页，通过对精确搜索返回结果数量和精确搜索返回结果记录左右侧不同字符数量的统计都可以识别“铁扇公主”为新词。

本发明利用搜索引擎发现新词的方法包括以下步骤：

步骤S1，获取语料中出现频次大于第一预设阈值的所有字符串。

步骤S2，确定符合预先设定规则的字符串。所述预先设定的规则可以是去掉以特定字符开始的字符串；和/或去掉以特定字符结束的字符串。

步骤S3，计算每个字符串在语料中所有位置的左右侧不同字符或词语的数量。

例如，假设字符串“禽流感”在如下五个句子出现：

钟南山透露禽流感病毒尚未明显变异。

广东的防控禽流感形势趋缓。

有7人感染禽流感事件。

发现一宗禽流感疑似病例。

颁布5条禁令防控禽流感。

则“禽流感”左侧的字符分别为{露，控，染，宗，控}，右侧的字符为{病，形，事，疑，EOS}，因此左侧不同的字符有为{露，控、染，宗}，右侧不同的字符为{病，形，事，疑，EOS}，其中EOS表示句子结束。通过这种方法即可计算出每个字符串在语料中所有位置的左右侧不同字符或词语的数量。

步骤S4，若字符串左右侧不同字符或词语数均大于第二预设阈值，则将该字符串作为新词输出。

步骤S5，将剩下的字符串作为查询关键词，到搜索引擎中进行精确搜索，或进行精确搜索和模糊搜索，并由此统计返回的精确搜索结果数量、模糊搜索结果数量、以及精确搜索的前多条结果记录；

步骤S6，若返回的精确搜索结果数大于第三预设阈值，和/或精确搜索结果数与模糊搜索结果数的比值大于第四预设阈值，和/或字符串在精确搜索前多条返回结果记录中的左右侧不同字符或词语数量均大于第五预设阈值，则将该字符串作为新词输出。

在本发明中，利用搜索引擎进行精确搜索和模糊搜索，根据精确搜索返回结果数、模糊搜索返回结果数、以及精确搜索前多条结果记录等，判断剩下的字符串(即频次较低的字符串)是否为新词，例如，通过如下几个步骤中的其中一个或任意几个步骤来辅助判断剩下的字符串是否为新词：

(1)如果精确搜索结果数量大于第三预设阈值，则将该字符串作为新词输出。

(2)如果精确搜索结果数与模糊搜索结果数的比值大于第四预设阈值，则将该字符串作为新词输出。

(3)如果在前多条精确搜索结果记录中该字符串左右侧不同的字符或词语数量均大于第五预设阈值，则将该字符串作为最终新词输出。

例如，如果在剩下的字符串中有“足球宝贝”，在比较常用的搜索引擎如百度中精确搜索“足球宝贝”可以返回4,440,000个返回结果，模糊搜索“足球宝贝”可以返回4,450,000个返回结果，可以看出在一般网页中若既出现“足球”一词，又出现“宝贝”一词，则很可能是“足球”和“宝贝”连续出现且“足球”在“宝贝”之前，字符串“足球宝贝”很可能是一个新词。

再例如，在百度中精确搜索“火速桌面搜索”返回2,690个结果，而模糊搜索“火速桌面搜索”返回250,000个结果。获取精确搜索“火速桌面搜索”的前100条结果记录，“火速桌面搜索”左右侧不同的字符数分别为124和97，若左右侧不同字符数阈值为90，则“火速桌面搜索”应作为新词输出。

本发明中所述的所有阀值可以分别通过预先设定而得到，也可以通过语料训练而得到。

语料训练方法是一种现有技术，如通过隐马尔可夫模型(Hidden MarkovModel，HMM)对训练语料进行训练的方法。其不是本发明的发明点，因此，在本发明中不再一一详细描述。

下面结合图1对本发明的具体实施方式进行详细说明。

步骤101，获取语料中所有出现频次大于预设阈值的字符串。

可以使用各种重复串发现方法，或者是基于后缀树索引的重复串发现方法；或者是基于后缀数组的重复串发现方法；或者是基于N元递增的重复串发现方法；或者是基于Apriori的重复串发现方法等，来获取语料中所有出现频次大于预设阀值的字符串。

重复串发现方法可以基于字符发现频次大于阈值的若干个连续的字符，也可以先对语料进行分词，发现频次大于阈值的若干个连续的词语。

步骤102，确定符合预先设定规则的字符串，对步骤101中产生的字符串按照预先设定的规则进行过滤，过滤掉一些不能为新词的字符串，过滤掉以特定字符开始或结束的字符串，例如以“们”开始的字符串或以“的”结束的字符串很多都不能为新词，可以过滤掉。

步骤103，统计字符串左侧右侧不同的字符(或词语)的数量，如果左侧或右侧不同的字符(或词语)的数量大于一预先设定的阈值，则将字符串作为新词输出。

步骤104，将剩下的字符串作为出现关键词到搜索引擎(如Google)做精确搜索和模糊搜索，获取精确搜索和模糊搜索的返回结果数，若精确搜索返回结果数大于一阈值，或精确搜索返回结果数与模糊搜索返回结果数之比大于一阈值，则将该字符串作为新词输出。

步骤105，获取精确搜索的前多条搜索记录。

步骤106，统计在精确搜索前多条记录中字符串左侧和右侧的不同字符(或词语)，如果左右两侧不同字符(或词语)的数量均大于一定阈值，则将字符串作为新词输出。

相应于本发明的新词发现方法，本发明还提供一种新词发现系统，其包括获取模块，过滤模块，搜索模块和判断模块，其中：

所述获取模块，用于获取语料中所有出现频次大于第一预设阀值的字符串；

所述过滤模块，用于确定符合预先设定规则的字符串集合，过滤掉不符合预先设定规则的字符串；并对符合预先设定规则的字符串，计算每个字符串在语料中所有位置的左右侧不同字符或词语的数量，若字符串左右侧不同字符或词语数大于第二预设阈值，则将字符串作为新词输出；

搜索模块在搜索引擎中进行精确搜索，或进行精确搜索和模糊搜索，统计返回的精确搜索结果数量、模糊搜索结果数量、以及返回的精确搜索前多条结果记录。

判断模块中将返回的搜索结果数量和搜索结果记录与预设阈值的比较结果，是指：返回的精确搜索结果数大于第三预设阈值；和/或精确搜索结果数与模糊搜索结果数的比值大于第四预设阈值；和/或字符串在精确搜索返回的前多条结果记录中的左右侧不同字符或词语数量均大于第五预设阈值。

判断模块判断并确定最终新词，是指以下过程中的一个或一个以上的组合：

如果精确搜索结果数量大于所述第三预设阈值，则将该字符串作为最终新词输出；

如果精确搜索结果数与模糊搜索结果数的比值大于所述第四预设阈值，则将该字符串作为最终新词输出；

如果精确搜索前多条结果记录中该字符串左右侧不同的字符或词语数量均大于所述第五预设阈值，则将该字符串作为最终新词输出。

本发明中的一种新词发现系统，以与本发明的一种新词发现方法相同的过程进行工作，因此，在本发明实施例中，不再一一进行重复详细描述。

本发明所述的新词发现方法和系统采用计算机自动处理，获取语料中的新词，可以大大缩减人工收集和整理新词的时间，如果语料为特定领域的语料，则可以实现领域术语的挖掘并实现领域词典的自动生成，缩减领域专家和词典编篡专家的工作量；而且，其不仅可以发现大规模语料的新词，也可以发现小规模语料的新词；既可以发现语料中出现频次较高的新词，也可以发现语料中频次较低的新词。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变型，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1、一种新词发现方法，其特征在于，包括以下步骤：

步骤B，确定符合预先设定规则的字符串；

步骤C，对剩余的字符串，计算每个字符串在语料中所有位置的左侧不同字符或词语的数量以及每个字符串在语料中所有位置的右侧不同字符或词语的数量；所述剩余的字符串为符合预先设定规则的字符串；

步骤D，将所述剩余的字符串中左侧不同字符或词语的数量以及右侧不同字符或词语的数量均大于第二预设阈值的字符串，作为新词输出；

步骤E，将剩下的字符串作为查询关键词，在搜索引擎中进行搜索，统计返回的搜索结果数量、以及搜索结果记录；所述剩下的字符串为剩余的字符串除去作为新词输出的字符串之后剩下的字符串；

步骤F，根据返回的搜索结果数量和搜索结果记录与预设阈值的比较结果，判断并确定最终新词。

2、根据权利要求1所述的新词发现方法，其特征在于，所述步骤A中，所述获取字符串是使用重复串发现方法获取语料中出现频次大于第一预设阈值的所有字符串。

3、根据权利要求2所述的新词发现方法，其特征在于，所述重复串发现方法为基于后缀树索引的重复串发现方法、基于后缀数组的重复串发现方法、基于N元递增的重复串发现方法、以及基于Apriori的重复串发现方法中的一种。

4、根据权利要求1所述的新词发现方法，其特征在于，所述步骤B中，所述预先设定规则为：

去掉以特定字符开始的字符串；和/或

去掉以特定字符结束的字符串。

5、根据权利要求1所述的新词发现方法，其特征在于，所述步骤E中，所述在搜索引擎中进行搜索，统计返回的搜索结果数量、以及搜索结果记录，包括如下步骤：

在搜索引擎中进行精确搜索和模糊搜索，统计返回的精确搜索结果数量、模糊搜索结果数量、以及精确搜索前多条结果记录。

6、根据权利要求5所述的新词发现方法，其特征在于，所述步骤F中，返回的搜索结果数量和搜索结果记录与预设阈值的比较结果，具体为：

返回的精确搜索结果数大于第三预设阈值；

和/或字符串在精确搜索前多条结果记录中的左侧不同字符或词语的数量以及右侧不同字符或词语的数量均大于第五预设阈值。

7、根据权利要求6所述的新词发现方法，其特征在于，所述步骤F中，所述判断并确定最终新词，包括以下步骤中的一个或一个以上的组合：

步骤F3，如果在精确搜索前多条结果记录中该字符串左侧不同的字符或词语的数量以及右侧不同的字符或词语的数量均大于所述第五预设阈值，则将该字符串作为最终新词输出。

8、一种新词发现系统，其特征在于，包括获取模块，过滤模块，搜索模块和判断模块，其中：

所述获取模块，用于获取语料中出现频次大于第一预设阈值的所有字符串；

所述过滤模块，用于确定符合预先设定规则的字符串集合，对于剩余的字符串，计算每个字符串在语料中所有位置的左侧不同字符或词语的数量以及每个字符串在语料中所有位置的右侧不同字符或词语的数量，将左侧不同字符或词语的数量以及右侧不同字符或词语的数量均大于第二预设阈值的字符串作为新词输出；所述剩余的字符串为符合预先设定规则的字符串；

所述搜索模块，用于将剩下的字符串作为查询关键词，在搜索引擎中进行搜索，统计返回的搜索结果数量、以及搜索结果记录；所述剩下的字符串为剩余的字符串除去作为新词输出的字符串之后剩下的字符串；

9、根据权利要求8所述的新词发现系统，其特征在于，所述搜索模块中的搜索是指精确搜索和模糊搜索；所述搜索模块中的搜索结果数量，是指精确搜索结果数量、模糊搜索结果数量；所述搜索模块中的搜索结果记录，是指精确搜索前多条结果记录。

10、根据权利要求9所述的新词发现系统，其特征在于，所述判断模块中返回的搜索结果数量和搜索结果记录与预设阈值的比较结果，是指：

返回的精确搜索结果数大于第三预设阈值；

和/或字符串在返回的精确搜索前多条结果记录中的左侧不同字符或词语的数量以及右侧不同字符或词语的数量均大于第五预设阈值。