CN106033462B

CN106033462B - 一种新词发现方法及系统

Info

Publication number: CN106033462B
Application number: CN201510121855.4A
Authority: CN
Inventors: 汪洋; 陈志刚; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2015-03-19
Filing date: 2015-03-19
Publication date: 2019-11-15
Anticipated expiration: 2035-03-19
Also published as: CN106033462A

Abstract

本发明公开了一种新词发现方法及系统，该方法包括：预先基于字串的边界特征训练新词发现模型，所述字串的边界特征是指所述字串的统计学特征；获取新语料；对所述新语料进行分词，并提取分词结果的边界特征；根据所述新词发现模型对所述边界特征分类识别，得到新词候选集合；对所述新词候选集合中的候选新词进行置信度判断，得到新词。利用本发明，可以在减少人工标注工作量的条件下实现语料新词的有效发现。

Description

一种新词发现方法及系统

技术领域

本发明涉及信息挖掘领域，具体涉及一种新词发现方法及系统。

背景技术

信息化、电子化和网络化的迅猛发展和普及带来了信息爆炸式的增长，大量不存在于传统词典中的新词不断涌现，包括网络新词及各类专有名词等。网络新词是指从未出现过、由使用者创造出的词语，往往具有特定的含义，如“给力”、“伤不起”、“大衣哥”等。专有名词也称为命名实体，包括人名、地名、机构名称等特定称谓。随着各类新词急剧增长，为了不断提高人机交互的便利性，持续跟踪和更新现有词库显然很有必要。

由于互联网语料规模的巨大，通过人工筛选标注新词的方法显然无法满足实用化的要求，此外，由于中文最小独立语言单位词语之间并没有显式分隔符将其分隔，以及互联网词汇的多变复杂性，大大增加了新词发现识别的难度。对此有研究人员提出了有监督学习和无监督学习新词发现算法，实现从海量数据中的新词自动发现。

在有监督学习算法中，需要在大量标注语料上训练得到模型参数，而所述标注为了保证准确性往往是由人工标注实现的。和有监督学习不同，无监督学习算法并不需要人工标注的训练集，而是直接根据语料分词的统计特征进行新词辨识。

有监督学习算法的识别结果质量较好，技术较为成熟，但其识别结果主要依赖于训练集的质量。在大规模语料应用环境下，通过人工标注获取训练集是一个极为困难的任务。而无监督学习虽不需要大量训练集的支持，但输出的新词质量不高，往往需要加入大量的规则过滤结果。

发明内容

本发明实施例提供一种新词发现方法及系统，在减少人工标注工作量的条件下实现语料新词的有效发现。

为此，本发明实施例提供如下技术方案：

一种新词发现方法，包括：

预先基于字串的边界特征训练新词发现模型，所述字串的边界特征是指所述字串的统计学特征；

获取新语料；

对所述新语料进行分词，并提取分词结果的边界特征；

根据所述新词发现模型对所述边界特征分类识别，得到新词候选集合；

对所述新词候选集合中的候选新词进行置信度判断，得到新词。

优选地，所述基于字串的边界特征训练新词发现模型包括：

获取训练语料；

对所述训练语料进行分词，并提取分词结果的边界特征；

利用所述分词结果的边界特征训练新词发现模型。

优选地，所述利用所述分词结果的边界特征训练新词发现模型包括：

组合所述分词结果的边界特征，得到边界特征组合；所述边界特征组合包括：所述分词结果的边界前后向特征、以及以所述分词结果的边界为中心，滑动窗口设定宽度内的所有边界前后向特征；

根据所述边界特征组合，训练新词发现模型。

优选地，所述获取新语料包括：

从互联网中抓取网页文本；

从所述网页文本中获取新语料。

优选地，所述对所述新词候选集合中的候选新词进行置信度判断，得到新词包括：

采用以下判断规则中的一种或多种组合来确定新词候选集合中的每个新词是否为新词：

(1)如果候选新词的词首单字或词尾单字的成词概率大于设定的概率阈值，则确定该候选新词是新词；

(2)如果候选新词在语料上下文中的重要程度得分大于设定的程度阈值，则确定该候选新词是新词，所述重要程度包括：候选新词的灵活度、候选新词在语料中的TF-IDF值；

(3)如果候选新词在历史语料中的词频波动幅度大于预设幅度阈值，则确定该候选词是新词。

计算所述候选新词的置信度；

如果所述置信度大于设定的置信度阈值，则确定所述候选新词为新词。

优选地，所述计算所述候选新词的置信度包括：

根据以下任意一项参数或多项参数加权计算所述候选新词的置信度：

候选新词的词首单字或词尾单字的成词概率、候选新词在语料上下文中的重要程度、候选新词在历史语料中的词频波动幅度。

优选地，所述方法还包括：

根据得到的新词重新训练新词发现模型。

一种新词发现系统，包括：

模型训练模块，用于预先基于字串的边界特征训练新词发现模型，所述字串的边界特征是指所述字串的统计学特征；

新语料获取模块，用于获取新语料；

分词模块，用于对所述新语料进行分词；

边界特征提取模块，用于提取分词结果的边界特征；

识别模块，用于根据所述新词发现模型对所述边界特征分类识别，得到新词候选集合；

判断模块，用于对所述新词候选集合中的候选新词进行置信度判断，得到新词。

优选地，所述模型训练模块包括：

训练语料获取单元，用于获取训练语料；

分词单元，用于对所述训练语料进行分词；

特征提取单元，用于提取分词结果的边界特征；

训练单元，用于利用所述分词结果的边界特征训练新词发现模型。

优选地，所述训练单元，具体用于组合所述分词结果的边界特征，得到边界特征组合，并根据所述边界特征组合，训练新词发现模型；所述边界特征组合包括：所述分词结果的边界前后向特征、以及以所述分词结果的边界为中心，滑动窗口设定宽度内的所有边界前后向特征。

优选地，所述新语料获取模块包括：

网页抓取单元，用于从互联网中抓取网页文本；

清洗单元，用于从所述网页文本中获取新语料。

优选地，所述判断模块采用以下判断规则中的一种或多种组合来确定新词候选集合中的每个新词是否为新词：

优选地，所述判断模块包括：

置信度计算单元，用于计算所述候选新词的置信度；

判断单元，用于在所述置信度大于设定的置信度阈值时，确定所述候选新词为新词。

优选地，所述置信度计算单元根据以下任意一项参数或多项参数加权计算所述候选新词的置信度：

优选地，所述模型训练模块，还用于根据所述判断模块得到的新词重新训练新词发现模型。

本发明实施例提供的新词发现方法及，基于字串的边界特征训练新词发现模型，无需人工对训练语料进行标注，大大降低了人工工作量，提高了新词发现效率。而且，在新词发现过程中，通过对候选新词置信度的判断，大大提升了新词发现的可靠性。

进一步地，根据新词发现结果更新系统词典及训练语料，进而重新训练新词发现模型，从而使本发明方法具有自主学习优化效果的能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例新词发现方法的流程图；

图2是本发明实施例新词发现系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例新词发现方法的流程图，包括以下步骤：

步骤101，预先基于字串的边界特征训练新词发现模型。

在本发明实施例中，可以利用现有的系统词典对训练语料进行分词，根据分词结果提取字串边界特征，再使用分类方法训练新词发现模型。具体的训练过程如下：

(1)获取训练语料。

所述训练语料可以是包括大量词语及其搭配用法、覆盖多个领域的大规模语料，该语料能够较为真实地反映中文在语法、语义等方面的特征。

(2)对所述训练语料进行分词，并提取分词结果的边界特征。

具体地，可以通过现有的词典对所述训练语料进行分词，以汉语为例，所述词典应涵盖汉语中所有的单字、日常词汇、常见领域的专有名词等，并且能够较为全面地反映中文词汇的特征，例如包括词汇和长度的关系，单字位于词首词尾的分布等。

需要说明的是，本发明实施例的方法对其它需要做分词的语种同样适用，例如日语。

在进行分词时，可以采用现有的一些分词方法，比如通过ngram最短路径方法等。

所述边界特征是指边界上的字串的统计学特征。

所述训练语料分词结果的边界特征包括正确分词结果和不正确分词结果的边界特征。例如：对于切分后的句子“提供/正确/的/H7N9/禽流感/预防/常识”，正确分词结果指两个词语之间的边界，如：“供/正”、“确/的”、“的/H”、“9/禽”、“感/预”、“防/常”；不正确分词结果指一个词语内部的字符之间的边界，如：“提/供”、“正/确”等。

(3)利用所述分词结果的边界特征训练新词发现模型。

在本发明实施例中，可以组合所述分词结果的边界特征，得到边界特征组合。然后，再利用该边界特征组合，训练得到新词发现模型。

所述边界特征组合可以包括：所述分词结果的边界前后向特征、以及以所述分词结果的边界为中心，滑动窗口设定宽度内的所有边界前后向特征。

下面对边界特征组合举例说明。

定义Si为两个字串Wi、Wi+1之间的分词边界，则分词边界的前向特征Vi+如下：

Vi+＝{P(WiWi+1),P(Wi+1|Wi),H(Wj|Wi),H(Wj|Wi+1)} (1)

其中，P(WiWi+1)＝count(WiWi+1)/N，其中count(WiWi+1)表示字串WiWi+1在语料中出现的次数，N表示所有字串在语料中出现的次数之和；

P(Wi+1|Wi)＝P(WiWi+1)/P(Wi)，其中P(Wi)＝count(Wi)/N，count(Wi)表示字串Wi在语料中出现的次数，N表示所有字串在语料中出现次数之和；

H(Wj|Wi)＝H(Wj,Wi)-H(Wi)，其中Wj表示Wi在语料中的全部右邻接词，H(Wj,Wi)为Wj,Wi的联合熵，H(Wi)为Wi的熵；

H(Wj+1|Wi+1)＝H(Wj+1,Wi+1)-H(Wi+1)，其中Wj+1表示Wi+1在语料中的全部右邻接词，H(Wj+1,Wi+1)为Wj+1,Wi+1的联合熵，H(Wi+1)为Wi+1的熵。

同理，将该句语序逆序，获得分词边界的后向特征Vi-。

所述前后向特征Vi＝{Vi+,Vi-}。

相应地，定义滑动窗口长度为3，则滑动窗口内的所有边界前后向特征表示为Vi-more＝{Vi-1ViVi+1}。

在得到上述前后向特征后，训练新词发现模型，具体可以使用分类算法(例如SVM，逻辑回归等)在训练集上训练统计模型。

所述新词发现模型为数学统计模型，具体可选用SVM模型等。

利用训练得到的新词发现模型，执行以下步骤，即可获得语料中的新词。

步骤102，获取新语料。

具体地，可以以一定的时间间隔从互联网中抓取网页文本，并按照一定规则清洗该原始语料。考虑到新词往往具有较强的时效性，所以每次抓取时，需要时间较新的网页，从网页中抽取文本作为新词发现的语料。所述的语料清洗规则包括：去除包含在特定网页结构中的一些特定字符串、去掉包含特定字符串模式的语句等。

步骤103，对所述新语料进行分词，并提取分词结果的边界特征。

具体地，可以根据系统词典对新语料进行分词，提取分词结果边界特征。

步骤104，根据所述新词发现模型对所述边界特征分类识别，得到新词候选集合。

利用新词模型对边界特征分类识别，获取新词候选集合。

例如：对于输入“禽流感预防”，判定其中为分词边界的位置在“感/预”，所以，“禽流感”是一个完整的新词，加入候选集合。

步骤105，对所述新词候选集合中的候选新词进行置信度判断，得到新词。

具体地，可以采用以下判断规则中的一种或多种组合来确定新词候选集合中的每个新词是否为真正的新词。

(1)考察候选新词的词首单字、词尾单字

若候选新词的词首单字成词概率p(charAtHead)大于设定的概率阈值，则确定该候选词语是新词。同理，若候选新词的词尾单字成词概率p(charAtTail)大于设定的概率阈值，则确定该候选词语是新词。所述概率阈值可以通过人工经验设置，也可以通过语料训练确定。

上述词首单字成词概率p(charAtHead)和词尾单字成词概率p(charAtTail)可以在背景语料(即海量的包括各种主题的文本语料)中统计得到，其中：

首字成词的概率p(charAtHead)＝count(charAtHead)/count(char)。

统计尾字成词的概率p(charAtTail)＝count(charAtTail)/count(char)。

(2)考察候选新词在语料上下文中的重要程度

若候选新词在语料上下文中的重要程度得分大于设定的程度阈值，则确定该候选词语是新词。

所述的重要程度与候选新词的灵活度、候选新词在语料中的TF-IDF(TermFrequency–Inverse Document Frequency，词频--反转文档频率)值相关。所述的TF-IDF值是TF*IDF，其中TF为词频(Term Frequency)，指候选新词在语料中出现的次数，IDF为反转文档频率(Inverse Document Frequency)，IDF＝log(N/(1+Nc))，其中N为语料中的句子总数，Nc为语料中包含候选新词的句子个数。

具体地，可以定义重要程度得分如下：

Scroe＝A*Score_A+B*TF*IDF

其中，A、B为预设系数，Score_A为灵活度，指的是统计候选词在语料中，分词后左右邻接的不重复的语言单元的个数中的最小值。例如：假设“H7N9”出现在句子中，切分后如下，<s>表示句首，</s>表示句尾，“/”表示词语间切分：

则“H7N9”的左邻接语言单元为{的，<s>，了解，新型，亚型}，右邻接语言单元为{禽流感，亚型}，故“H7N9”的左邻接语言单元数为5，右邻接语言单元数为2，灵活度为2。

(3)考察候选新词在历史语料中的词频波动程度

若所述的词频波动幅度大于预设幅度阈值，则确定该候选词是新词。

定义词频波动幅度tf_raise为：

tf_raise＝a*today_ht/short_ht+b*today_ht/long_ht

其中，a、b为预设系数，today_ht是当天该候选新词的词频，short_ht是最近短期(如7天内)内该候选新词的平均词频，long_ht是最近长期(如30天)内候选新词的平均词频。词频波动幅度以词语在较长时间内的平均状态为基准，同时兼顾考虑突发事件带来的词语频度变化。

需要说明的是，上述的各阈值及系数，可以通过人工经验设置，也可以通过语料训练确定。

当然，在实际应用中，还可以根据上述任意一项或多项参数计算候选新词的置信度，比如，在有多项参数时，通过加权计算得到候选新词的置信度，然后判断该置信度是否大于设定的置信度阈值，如果是，则确定所述候选新词为新词。

本发明实施例的新词发现方法，基于字串的边界特征训练新词发现模型，无需人工对训练语料进行标注，大大降低了人工工作量，提高了新词发现效率。而且，在新词发现过程中，通过对候选新词置信度的判断，大大提升了新词发现的可靠性。

进一步地，在本发明方法另一实施例中，还可以根据新词发现结果更新系统词典及训练语料，进而重新训练新词发现模型，从而使本发明方法具有自主学习优化效果的能力。

相应地，本发明实施例还提供一种新词发现系统，如图2所示，该新词发现系统包括：

模型训练模块201，用于预先基于字串的边界特征训练新词发现模型200，所述字串的边界特征是指所述字串的统计学特征；

新语料获取模块202，用于获取新语料；

分词模块203，用于对所述新语料进行分词；

边界特征提取模块204，用于提取分词结果的边界特征；

识别模块205，用于根据所述新词发现模型对所述边界特征分类识别，得到新词候选集合；

判断模块206，用于对所述新词候选集合中的候选新词进行置信度判断，得到新词。

上述模型训练模块201具体可以包括以下各单元：

训练语料获取单元，用于获取训练语料；

分词单元，用于对所述训练语料进行分词；

特征提取单元，用于提取分词结果的边界特征；

其中，所述训练单元可以通过组合所述分词结果的边界特征，得到边界特征组合，并根据所述边界特征组合，训练新词发现模型；所述边界特征组合包括：所述分词结果的边界前后向特征、以及以所述分词结果的边界为中心，滑动窗口设定宽度内的所有边界前后向特征。

上述新语料获取模块202具体可以以一定的时间间隔从互联网中抓取网页文本，并按照一定规则清洗该原始语料。新语料获取模块202的一种具体结构包括：网页抓取单元和清洗单元，其中，网页抓取单元用于从互联网中抓取网页文本；清洗单元用于从所述网页文本中获取新语料，比如去除包含在特定网页文本中的一些特定字符串、以及包含特定字符串模式的语句等。

在实际应用中，上述判断模块206可以采用以下判断规则中的一种或多种组合来确定新词候选集合中的每个新词是否为新词：

当然，在实际应用中，上述判断模块206还可以根据上述任意一项或多项参数计算候选新词的置信度，并根据该置信度确定所述候选新词是否为新词。相应地，在这种情况下，判断模块206的具体结构可以包括：置信度计算单元和判断单元，其中，置信度计算单元用于计算所述候选新词的置信度；判断单元用于在所述置信度大于设定的置信度阈值时，确定所述候选新词为新词。所述置信度计算单元具体根据以下任意一项参数或多项参数加权计算所述候选新词的置信度：候选新词的词首单字或词尾单字的成词概率、候选新词在语料上下文中的重要程度、候选新词在历史语料中的词频波动幅度。这些参数的具体计算过程可参照前面本发明方法实施例中的说明，在此不再赘述。

进一步地，在本发明方法另一实施例中，所述模型训练模块201还可以根据所述判断模块得到的新词重新训练新词发现模型。

本发明实施例的新词发现系统，基于字串的边界特征训练新词发现模型，无需人工对训练语料进行标注，大大降低了人工工作量，提高了新词发现效率。而且，在新词发现过程中，通过对候选新词置信度的判断，大大提升了新词发现的可靠性。

进一步地，模型训练模块还可根据新词发现结果重新训练新词发现模型，从而使本发明方法具有自主学习优化效果的能力。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种新词发现方法，其特征在于，包括：

预先基于字串的边界特征训练新词发现模型，所述字串的边界特征是指所述字串的统计学特征；所述新词发现模型用于输出分词正确与否的分类结果；

获取新语料；

对所述新语料进行分词，并提取分词结果的边界特征；

根据所述新词发现模型对所述边界特征分类识别，得到新词候选集合；所述新词候选集合内包括真伪待定的候选新词；

2.根据权利要求1所述的方法，其特征在于，所述基于字串的边界特征训练新词发现模型包括：

获取训练语料；

对所述训练语料进行分词，并提取分词结果的边界特征；

利用所述分词结果的边界特征训练新词发现模型。

3.根据权利要求2所述的方法，其特征在于，所述利用所述分词结果的边界特征训练新词发现模型包括：

根据所述边界特征组合，训练新词发现模型。

4.根据权利要求1所述的方法，其特征在于，所述获取新语料包括：

从互联网中抓取网页文本；

从所述网页文本中获取新语料。

5.根据权利要求1所述的方法，其特征在于，所述对所述新词候选集合中的候选新词进行置信度判断，得到新词包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述新词候选集合中的候选新词进行置信度判断，得到新词包括：

计算所述候选新词的置信度；

7.根据权利要求6所述的方法，其特征在于，所述计算所述候选新词的置信度包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

根据得到的新词重新训练新词发现模型。

9.一种新词发现系统，其特征在于，包括：

模型训练模块，用于预先基于字串的边界特征训练新词发现模型，所述字串的边界特征是指所述字串的统计学特征；所述新词发现模型用于输出分词正确与否的分类结果；

新语料获取模块，用于获取新语料；

分词模块，用于对所述新语料进行分词；

边界特征提取模块，用于提取分词结果的边界特征；

识别模块，用于根据所述新词发现模型对所述边界特征分类识别，得到新词候选集合；所述新词候选集合内包括真伪待定的候选新词；

10.根据权利要求9所述的系统，其特征在于，所述模型训练模块包括：

训练语料获取单元，用于获取训练语料；

分词单元，用于对所述训练语料进行分词；

特征提取单元，用于提取分词结果的边界特征；

11.根据权利要求10所述的系统，其特征在于，

所述训练单元，具体用于组合所述分词结果的边界特征，得到边界特征组合，并根据所述边界特征组合，训练新词发现模型；所述边界特征组合包括：所述分词结果的边界前后向特征、以及以所述分词结果的边界为中心，滑动窗口设定宽度内的所有边界前后向特征。

12.根据权利要求9所述的系统，其特征在于，所述新语料获取模块包括：

网页抓取单元，用于从互联网中抓取网页文本；

清洗单元，用于从所述网页文本中获取新语料。

13.根据权利要求9所述的系统，其特征在于，所述判断模块采用以下判断规则中的一种或多种组合来确定新词候选集合中的每个新词是否为新词：

14.根据权利要求9所述的系统，其特征在于，所述判断模块包括：

置信度计算单元，用于计算所述候选新词的置信度；

15.根据权利要求14所述的系统，其特征在于，所述置信度计算单元根据以下任意一项参数或多项参数加权计算所述候选新词的置信度：

16.根据权利要求9至15任一项所述的系统，其特征在于，

所述模型训练模块，还用于根据所述判断模块得到的新词重新训练新词发现模型。