CN102541865B

CN102541865B - 利用分词过程中识别的新词改善分词性能的方法

Info

Publication number: CN102541865B
Application number: CN201010588841.0A
Authority: CN
Inventors: 毛新年
Original assignee: Shengle Information Technolpogy Shanghai Co Ltd
Current assignee: Lianshang Xinchang Network Technology Co Ltd
Priority date: 2010-12-15
Filing date: 2010-12-15
Publication date: 2018-07-06
Anticipated expiration: 2030-12-15
Also published as: CN102541865A

Abstract

本发明公开了一种利用分词过程中识别的新词改善分词性能的方法；包括：分词数据库的训练过程和利用分词数据库进行分词的过程。本发明无需用户事先给予新词词表，采用在分词过程中动态产生的新词作为新词词表，作为新词知识源来提高分词性能。本发明不需要用户事先提供用户词表，而是利用分词过程中动态产生的新词来改善分词的性能。

Description

利用分词过程中识别的新词改善分词性能的方法

技术领域

本发明涉及一种中文分词的方法。

背景技术

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。

新词，也就是那些在分词词典中没有收录，但又确实能称为词的那些词。对于搜索引擎来说，分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

目前分词系统中利用用户提供的新词词表来改善分词的性能，这些新词词表需要用户事先提供给分词系统。分词系统为了提高文本中新词的切分性能，往往需要将新词作为一种知识源提供给分词系统在分词时使用，现有系统在利用新词作为分词知识源时来提高分词性能时，需要用户事先编辑好新词词表，才能交给分词系统使用，这种新词词表的获取非常困难。

发明内容

本发明所要解决的技术问题是提供一种利用分词过程中识别的新词改善分词性能的方法，它可以使用户无需事先给予新词词表，在分词过程中动态产生的新词作为新词词表，改善分词的性能。

为了解决以上技术问题，本发明提供了一种利用分词过程中识别的新词改善分词性能的方法；包括：分词数据库的训练过程和利用分词数据库进行分词的过程，所述分词数据库的训练过程包括以下步骤：

步骤1：从待切分文本中获取基本特征；

步骤2：利用新词词表，获取新词特征；

步骤3：利用训练得到的分词数据库进行分词，如果分词结果中有新词，将该新词加入到新词词表中。

所述利用分词数据库进行分词的步骤包括以下步骤：

步骤1:抽取分词的文本的基本特征,包括抽取一个或多个窗口的字特征；

步骤2：抽取分词的文本的新词特征；

步骤3：对抽取的特征进行训练，得到分词用的数据库。

本发明的有益效果在于：无需用户事先给予新词词表，采用在分词过程中动态产生的新词作为新词词表，作为新词知识源来提高分词性能。本方法不需要用户事先提供用户词表，而是利用分词过程中动态产生的新词来改善分词的性能。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明。

图1是本发明实施例所述分词数据库的训练过程示意图；

图2是本发明实施例所述利用分词数据库进行分词的过程示意图。

具体实施方式

如图1所示的分词数据库的训练过程，其中包括以下步骤：

步骤1：从待切分文本中获取基本特征；

步骤2：利用新词词表，获取新词特征；

步骤3：利用图1中步骤训练得到的分词数据库进行分词，如果分词结果中有新词，将该新词加入到新词词表中。

如图2所示的是利用分词数据库进行分词的过程。本图展示了利用分词数据库对待切分的原始文本进行分词的过程：

步骤1:对人工分词的文本抽取基本特征,主要是抽取一个或多个窗口的字特征，目前已有的分词训练模块也具备这一步骤；

步骤2：对人工分词的文本抽取新词特征；

步骤3：对抽取的特征进行训练，得到分词用的数据库。

本发明所述的新词和新词特征的获取包括以下内容：

1.训练过程中的新词获取。

训练过程中，新词从训练语料中直接获取。

2.分词过程中的新词获取。

分词系统具备新词获取能力，在分词过程中，建立动态新词词表，一旦分词系统识别出新词，就将该新词加入的新词词表中。

3.训练过程中新词特征获取。

新词词表作为分词知识源是通过新词特征来实现的，新词特征通过新词词表与待分词的原始文本进行匹配(正向最大匹配或者逆向最大匹配)，分词算法中最经常使用的正向(由左到右的方向)最大匹配和反向(由右到左的方向)最大匹配。这种两种方法都是机械分词方法，它是按照一定的策略将待分析的汉字串与一个机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配。

如果某些文字被成功匹配，这些文字就被赋以如下特征：

该字是成功匹配的新词的首字：B-NewWord；或

该字是成功匹配的新词的中间字：I-NewWord；或

该字是成功匹配的新词的尾字：E-NewWord；或

其他没有被匹配成功的文字被赋以:Other。

4.分词过程中新词特征获取

分词过程中新词特征获取同训练过程中新词特征获取方法，只是新词词表获取方式不同而已。

本发明并不限于上文讨论的实施方式。以上对具体实施方式的描述旨在于为了描述和说明本发明涉及的技术方案。基于本发明启示的显而易见的变换或替代也应当被认为落入本发明的保护范围。以上的具体实施方式用来揭示本发明的最佳实施方法，以使得本领域的普通技术人员能够应用本发明的多种实施方式以及多种替代方式来达到本发明的目的。

Claims

1.一种利用分词过程中识别的新词改善分词性能的方法；其特征在于，包括：分词数据库的训练步骤和利用分词数据库进行分词的步骤，

所述分词数据库的训练步骤包括以下步骤：

步骤1：从待切分文本中获取基本特征；

步骤2：利用新词词表，获取新词特征，其中，所述新词词表包括：新词词表从训练语料中直接获取，和在分词过程中，建立动态新词词表，分词系统识别出新词后将该新词加入到新词词表中，所述新词特征通过新词词表与待分词的原始文本进行匹配得到；

步骤3：利用训练得到的分词数据库进行分词，如果分词结果中有新词，将该新词加入到新词词表中，其中，新词词表作为分词知识源是通过新词特征来实现的；

所述利用分词数据库进行分词的步骤包括以下步骤：

步骤1：抽取分词的文本的基本特征，包括抽取一个或多个窗口的字特征；

步骤2：抽取分词的文本的新词特征；

步骤3：对抽取的特征进行训练，得到分词用的数据库。

2.如权利要求1所述的利用分词过程中识别的新词改善分词性能的方法，其特征在于，新词特征通过新词词表与待分词的基本特征进行匹配，如果某些文字被成功匹配，这些文字就被赋以如下特征：

该文字是成功匹配的新词的首字；或，

该文字是成功匹配的新词的中间字；或，

该文字是成功匹配的新词的尾字；或，

其他没有被匹配成功的文字。