CN101118556A

CN101118556A - 一种短文本的新词发现方法和系统

Info

Publication number: CN101118556A
Application number: CNA2007101218776A
Authority: CN
Inventors: 龚才春; 黄玉兰
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2007-09-17
Filing date: 2007-09-17
Publication date: 2008-02-06
Anticipated expiration: 2027-09-17
Also published as: CN100478961C

Abstract

本发明公开了一种从短文本中发现新词的方法，包括以下步骤：获取短文本中所有多个连续字符或词语，构成候选新词集合；确定符合预先设定规则的候选新词；将候选新词作为查询关键词，在搜索引擎中进行精确搜索和模糊搜索，获取返回结果的数量和前多条精确搜索结果记录；利用搜索引擎精确搜索返回结果数、模糊搜索结果数、精确搜索前多条结果记录等判断候选新词是否为新词。本发明所述方法能够发现短文本中出现的新词，即便该新词在短文本中就只出现一次，同时新词发现的准确率也很高。

Description

一种短文本的新词发现方法和系统

技术领域

本发明涉及一种文本信息处理领域，特别是涉及一种从短文本中发现新词的方法和系统。

背景技术

在自然语言处理或计算语言学中，新词是指以前从来没有出现过的词汇，或者是以前出现过的词汇的新用法。新词一般在词典中没有收录，因此也有不少人把新词等同于未登录词。

随着时代的进步和经济的发展，在人们日常生活的各方各面都不断涌现出大量的新词，尤其是随着互联网在中国的日益普及，大量网络新词层出不穷，日常生活中产生的新词也得以更快的传播。据报道，我国每年至少出现汉语新词或新用法1000个以上。由于移动通信在中国的普及，手机短信在中国成了男女老少都喜欢的交流方式，在手机短信中也产生了很多新词语、新说法；即时通信软件，如腾讯QQ、微软MSN、雅虎通、Google Talk、AOL的ICQ等，都拥有庞大的用户群，每时每刻都有无数即时消息从互联网发送；在线聊天室、BBS等也都有集聚了众多的眼球……有大量新词是通过手机短信、即时消息、BBS等创造并传播的，从这些短文本中发现新词也具有巨大的商业价值。

现有技术的一种利用搜索引擎的用户搜索日志来发现新词的方法，在大量用户提交的搜索关键词中统计各关键词的出现频次，如果大于某个预先设定的阈值，则作为新词输出。该技术能够比较准确、实时地发现互联网的新词，但是该方法所需要的搜索日志一般只有商用搜索引擎公司可以获得，一般用户根本无法使用该方法。

也有学者提出了“有意义串”的概念，有意义串一般认为是具有特定语义，能够独立使用的语言单位，其很大一部分就是新词。

现有技术中通过考查字符串的稳定性、独立性和完整性三个方面来判断字符串是否是有意义串。有意义串的稳定性是指一个有意义串应该具有一定的使用频次，不是偶尔出现的字符串；有意义串的独立性是指有意义串应该使用灵活，可以在很多语用环境中出现；有意义串的完整性是指有意义串应具有完整的语义。

现有技术中，判断一个字符串是否是有意义的，一般也可以从稳定性、独立性和完整性三个方面考查。首先统计字符串在语料中的出现频次，如果字符串的出现频次大于一定阈值，一般认为字符串是稳定的；再统计字符串在语料中所有出现位置左侧和右侧不同的字符或词语的数量，如果左右两侧不同的字符或词语数量大于一定阈值，则认为字符串是独立的；然后判断字符串是否是完整的，即当且仅当不存在任何字符串B，字符串A是字符串B的子串，且字符串A的出现频次也大于预先设定的阈值，则认为字符串A是完整的。

但是，基于字符串的稳定性、独立性和完整性三个方面判断字符串是否为有意义串或新词的方法，只适合于从大规模语料中发现新词。

当给定的语料只是一个较短的文本，如一篇文章，一个段落，甚至只有一个句子，一条手机短信或一条即时消息时，一般情况下该短文本中很难出现频次较高的字符串。而现有技术基于搜索日志的新词发现方法需要大量的搜索日志，基于字符串稳定性、独立性和完整性的新词发现方法也需要大规模的语料，这些新词发现方法几乎都不可能发现单个短文本中的新词。例如，如果用户只给定了一个句子“今年的足球宝贝真漂亮！”，假定词典中已经包含词语今年、的、足球、宝贝、真、漂亮，现有方法不能从单独的这个句子中发现“足球宝贝”是一个新词。

发明内容

本发明所要解决的技术问题在于提供一种短文本的新词发现方法和系统，能够有效地从很短的文本中发现新词。

为了解决上述问题，本发明提供了一种短文本的新词发现方法，包括以下步骤：

步骤A，获取短文本的所有连续的多个字符或词语的组合，构成候选新词集合；

步骤B，利用设置的系统词典库，过滤并确定符合预先设定规则的候选新词；

步骤C，将候选新词作为查询关键词，在搜索引擎中搜索，并由此统计返回的搜索结果数量以及搜索结果记录；

步骤D，根据搜索模块得到的精确搜索结果数和模糊搜索结果数，以及搜索结果记录，判断候选新词是否为最终新词。

所述搜索为精确搜索，或者精确搜索和模糊搜索；

所述搜索结果数量为精确搜索结果数量、模糊搜索结果数量；

所述搜索结果记录为精确搜索结果中的前多条精确搜索结果记录。

所述判断候选新词是否为最终新词，包括以下步骤中的一个或者一个以上步骤的组合：

步骤D1，如果精确搜索结果数量大于第一预定阈值，则将候选新词作为最终新词输出；

步骤D2，如果精确搜索结果数与模糊搜索结果数的比值大于第二预定阈值，则将候选新词作为最终新词输出；

步骤D3，如果在前多条精确搜索结果记录中候选新词左右侧不同的字符或词语数量均大于第三预定阈值，则将候选新词作为最终新词输出。

所述步骤A还可以包括下列步骤：

步骤A1，设定一预定阀值，短文本中所有连续多个字符或者词语组合所包含的字符或词语长度小于所述预定阈值。

步骤A2，将所述组合限制在一个句子，一个分句或所有以标点符号隔开的句子单元中。

所述步骤B可以包括下列步骤：

步骤B1，在确定符合预先设定规则的候选新词时，如果一个候选新词在系统词典库出现，则去掉该候选新词；

步骤B2，在确定符合预先设定规则的候选新词时，去掉以特定字符或词语开始的候选新词。

为实现本发明还提供一种短文本的新词发现系统，包括获取模块，过滤模块、搜索模块、判断模块，其中：

所述获取模块，获取短文本的所有连续的多个字符或词语的组合，构成候选新词集合；

所述过滤模块，用于利用设置的系统词典库，过滤并确定符合预先设定规则的候选新词；

所述搜索模块，用于将候选新词作为查询关键词，在搜索引擎中搜索，并由此统计返回的搜索结果数量以及搜索结果记录；

所述判断模块，用于根据搜索模块得到的精确搜索结果数和模糊搜索结果数，以及搜索结果记录，判断候选新词是否为最终新词。

所述搜索为精确搜索，或者精确搜索和模糊搜索；

所述判断模块，包括第一判断模块，第二判断模块，第三判断模块，其中：

所述第一判断模块，用于当精确搜索结果数量大于第一预定阈值，则将候选新词作为最终新词输出；

所述第二判断模块，用于当精确搜索结果数与模糊搜索结果数的比值大于第二预定阈值，则将候选新词作为最终新词输出；

所述第三判断模块，用于当前多条精确搜索结果记录中候选新词左右侧不同的字符或词语数量均大于第三预定阈值，则将候选新词作为最终新词输出。

所述的阀值分别通过预先设定而得到，或者通过语料训练而得到。

本发明的短文本的新词发现方法和系统与现有技术相比，具有以下优点：1、采用计算机自动处理，能够有效发现短文本中的新词。2、能够有效发现那些在语料中出现频次非常低，甚至只出现一次的新词。

附图说明

图1是本发明短文本的新词发现方法的流程示意图；

图2是本发明短文本的新词发现系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的一种短文本的新词发现方法和系统进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的核心思想在于，当文本规模非常小，甚至只有一个句子时，能够有效发现短文本中的新词。并且，本发明用搜索引擎分别精确搜索和模糊搜索短文本中的候选新词，这相当于使用了搜索引擎庞大的数据库作为语料，相当于扩展文本的规模，从而能够发现短文本中的新词。

如图1所示，本发明利用搜索引擎从短文本中发现新词的方法包括以下步骤：

步骤101，获取短文本的所有连续的多个字符或词语的组合，构成候选新词集合；

获取短文本中所有候选新词，产生短文本中所有连续的字符或词语的组合。

其中，既可以获取短文本中所有连续若干字符的组合，也可以获取连续若干词语的组合。

所述短文本既可以是一个句子，也可以是多个句子的组合。

较佳地，为了降低处理规模，可以对组合包含的字符或词语数设定一个最大值，即候选新词长度小于一阈值。并且，可以将组合限制在一个句子，一个分句或所有以标点符号隔开的句子单元中，即保证候选新词中不出现逗号、句号、疑问号、感叹号等标点符号。

步骤102，利用设置的系统词典库，过滤并确定符合预先设定规则的候选新词。

其中，可以设置一个系统词典库，如果一个候选新词在系统词典库中出现，则去掉该候选新词。还可以去掉以某些特定字符或词语开始的候选新词。

步骤103，将候选新词作为查询关键词，在搜索引擎中进行精确搜索，或进行精确搜索和模糊搜索，并由此统计返回的精确搜索结果数量、模糊搜索结果数量、以及返回的精确搜索结果中的前多条精确搜索结果记录。

其中，通过将候选新词作为查询关键词，到搜索引擎进行精确搜索，可获得返回的精确搜索结果数量和前多条精确搜索结果记录。通过将候选新词作为查询关键词直接输入到搜索框查询，到搜索引擎进行模糊搜索，可获得返回的模糊搜索结果数量。

所述的前多条精确搜索结果记录，指利用搜索引擎进行精确搜索，得到的结果记录中，排序在前的，并被搜索引擎认为，与查询关键词相关度较高的多条搜索结果记录，例如，利用Google搜索引擎进行精确搜索，返回得到10000条搜索结果记录，则前多条精确搜索结果记录，可以是其返回结果中的前10条或者前100条等精确搜索结果记录。

所述搜索引擎是一种现有技术，如Google搜索引擎，百度搜索引擎，Yahoo搜索引擎等各种公开公用的搜索引擎或者其它的专用搜索引擎。在这些搜索引擎中，可以进行精确搜索和模糊搜索，并获得搜索结果及其排名。本领域技术人员根据本发明的描述，可以实现通过现有搜索引擎利用精确搜索和模糊搜索，获得搜索结果和排名，因此，在本发明中不再一一详细描述。

步骤104，根据搜索模块得到的精确搜索结果数和模糊搜索结果数，以及精确搜索结果记录，判断候选新词是否为最终新词。

在本发明中，可以通过如下几个步骤中的其中一个或任意几个步骤来判断确定最终新词：

(1)如果精确搜索结果数量大于第一预定阈值，则将候选新词作为最终新词输出。

(2)如果精确搜索结果数与模糊搜索结果数的比值大于第二预定阈值，则将候选新词作为最终新词输出。

(3)如果在前多条精确搜索结果记录中候选新词左右侧不同的字符或词语数量均大于第三预定阈值，则将候选新词作为最终新词输出。

例如，如果对于候选新词“足球宝贝”，在比较常用的搜索引擎如百度中精确搜索“足球宝贝”可以返回4,440,000个返回结果，模糊搜索“足球宝贝”可以返回4,450,000个返回结果，可以看出“足球宝贝”一词在互联网上已经非常频繁地出现了，把“足球宝贝”作为新词输出。

再例如，若将第二阈值设为60％，如果某个候选新词的精确搜索结果为2000个，模糊搜索结果为3000个，那么两者比值为66.6％，大于该第二阈值60％，故应将该候选新词作为新词输出。

再例如，若候选新词“禽流感”有如下五条返回结果记录：

钟南山透露禽流感病毒尚未明显变异。

广东的防控禽流感形势趋缓。

有7人感染禽流感事件。

发现一宗禽流感疑似病例。

颁布5条禁令防控禽流感。

则“禽流感”左侧的字符分别为{露，控，染，宗，控}，右侧的字符为{病，形，事，疑，EOS}，因此左侧不同的字符为{露，控、染，宗}，右侧不同的字符为{病，形，事，疑，EOS}，其中EOS表示句子结束。

在百度中精确搜索“火速桌面搜索”返回2,690个结果，而模糊搜索“火速桌面搜索”返回250,000个结果。获取精确搜索“火速桌面搜索”的前100条结果记录，“火速桌面搜索”左右侧不同的字符数分别为124和97，若左右侧不同字符数阈值为90，则“火速桌面搜索”作为新词输出。

相应于本发明的短文本新词发现方法，本发明还提供一种短文本的新词发现系统，如图2所示，其包括获取模块21，过滤模块22、搜索模块23、判断模块24，其中：

所述获取模块21，获取短文本的所有连续的多个字符或词语的组合，构成候选新词集合。

所述过滤模块22，用于利用设置的系统词典库，过滤并确定符合预先设定规则的候选新词。

所述搜索模块23，用于将候选新词作为查询关键词，在搜索引擎中搜索，并由此统计返回的搜索结果数量以及搜索结果记录。

所述判断模块24，用于根据搜索模块得到的精确搜索结果数和模糊搜索结果数，以及精确搜索结果记录，判断候选新词是否为最终新词。

较佳地，所述判断模块24，包括第一判断模块241，第二判断模块242，第三判断模块243，其中：

所述第一判断模块241，用于当精确搜索结果数量大于第一预定阈值，则将候选新词作为最终新词输出；

所述第二判断模块242，用于当精确搜索结果数与模糊搜索结果数的比值大于第二预定阈值，则将候选新词作为最终新词输出；

所述第三判断模块243，用于当前多条精确搜索结果记录中候选新词左右侧不同的字符或词语数量均大于第三预定阈值，则将候选新词作为最终新词输出。

本发明的短文本新词发现系统，以与本发明的短文本新词发现方法相同的过程工作，因此，在本发明实施例中，不再一一重复描述。

下面结合图1，以一具体实施例详细说明本发明在短文本中发现新词的方法和系统。

例如，如果用户只给定了一个句子“今年的足球宝贝真漂亮！”，如系统词典库只已经包含词语今年、的、足球、宝贝、真、漂亮，现有方法几乎都不可能从单独的这个句子中发现“足球宝贝”是一个新词，而候选新词“足球宝贝”在比较常用的搜索引擎如百度中精确搜索“足球宝贝”可以返回4,440,000个返回结果，模糊搜索“足球宝贝”可以返回4,450,000个返回结果，可以看出在一般网页中若既出现“足球”一词，又出现“宝贝”一词，则很可能是“足球”和“宝贝”连续出现且“足球”在“宝贝”之前，候选新词“足球宝贝”很可能是一个新词。

如图1中步骤101所示，获取文本中所有候选新词，就是产生文本中所有连续的字符或词语的组合。例如若字符组合最大长度为4，则文本“今年的足球宝贝真漂亮”包含的候选新词有：

●今年、年的、的足、足球、球宝、宝贝、贝真、真漂、漂亮

●今年的、年的足、的足球、足球宝、球宝贝、宝贝真、真漂亮

●今年的足、年的足球、的足球宝、足球宝贝、球宝贝真、宝贝真漂、贝真漂亮

如图1步骤102所示，确定符合预先设定规则的候选新词，就是对步骤101中产生的候选新词按照一些规则进行过滤，例如，系统词典库已经包含词语：今年、足球、宝贝、漂亮，则可以过滤掉这些词典已有词语。

确定符合预先设定规则的候选新词，还可以过滤掉一些不能成为新词的字符串，如过滤掉以特定字符开始或结束的字符串，例如以“的”开始的候选新词不能为新词，从而可以过滤掉候选新词：的足、的足球、的足球宝。

如图1步骤103所示，将候选新词作为出现关键词到搜索引擎(如Google)做精确搜索和模糊搜索，获取精确搜索和模糊搜索的返回结果数，以及精确搜索的前多条搜索返回结果记录。

如图1步骤104所示，判断候选新词是否为新词，可以从精确搜索返回结果数、模糊搜索返回结果数来判断，例如若精确搜索返回结果数大于一阈值，且精确搜索返回结果数与模糊搜索返回结果数之比大于一阈值，则将候选新词作为新词输出。

或者，如图1步骤104所示，判断候选新词是否为新词，还可以统计在精确搜索前多条记录中候选新词左侧和右侧的不同字符(或词语)数量，如果不同字符(或词语)的数量大于一阈值，则将字符串作为新词输出。

本发明中所述的所有阀值可以分别通过预先设定而得到，也可以通过语料训练而得到。

语料训练方法是一种现有技术，如通过隐马尔可夫模型(Hidden MarkovModel，HMM)对训练语料进行训练的方法。其不是本发明的发明点，因此，在本发明中不再一一详细描述。

本发明的短文本新词发现方法和系统与现有技术相比，采用计算机自动处理，能够有效发现短文本中的新词，发现那些在语料中出现频次非常低，甚至只出现一次的新词。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变型，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种短文本的新词发现方法，其特征在于，包括以下步骤：

步骤C，将候选新词作为查询关键词，在搜索引擎中搜索，并由此统计返回的搜索结果以及搜索结果记录；

步骤D，根据搜索模块得到的精确搜索结果数和模糊搜索结果数，以及精确搜索结果记录，判断候选新词是否为最终新词。

2.根据权利要求1所述的短文本的新词发现方法，其特征在于，所述搜索为精确搜索，或者精确搜索和模糊搜索；

3.根据权利要求1或2所述的短文本的新词发现方法，其特征在于，所述判断候选新词是否为最终新词，包括以下步骤中的一个或者一个以上步骤的组合：

4.根据权利要求1所述的短文本的新词发现方法，其特征在于，所述步骤A还包括下列步骤：

5.根据权利要求1所述的短文本的新词发现方法，其特征在于，所述步骤B包括下列步骤：

6.一种短文本的新词发现系统，其特征在于，包括获取模块，过滤模块、搜索模块、判断模块，其中：

所述搜索模块，用于将候选新词作为查询关键词，在搜索引擎中搜索，并由此统计返回的搜索结果以及搜索结果记录；

7.根据权利要求6所述的短文本的新词发现系统，其特征在于，所述搜索为精确搜索，或者精确搜索和模糊搜索；

所述搜索结果为精确搜索结果数量、模糊搜索结果数量；

8.根据权利要求6或7所述的短文本的新词发现系统，其特征在于，所述判断模块，包括第一判断模块，第二判断模块，第三判断模块，其中：

9.根据权利要求8所述的短文本的新词发现系统，其特征在于，所述的阀值分别通过预先设定而得到，或者通过语料训练而得到。