CN108595433A

CN108595433A - 一种新词发现方法及装置

Info

Publication number: CN108595433A
Application number: CN201810409087.6A
Authority: CN
Inventors: 张明珠; 陈雁; 刘玉玺; 赵加奎; 欧阳红; 袁葆; 吴佐平
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Beijing China Power Information Technology Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Beijing China Power Information Technology Co Ltd
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2018-09-28

Abstract

本申请提供了一种新词发现方法及装置，新词发现方法包括获取电力行业文档；基于通用词库对电力行业文档进行分词操作并获得分词结果；对分词结果执行筛选操作，获得符合筛选条件的候选词集；在所述候选词集中基于信息熵的大小来确定新词。本申请通过信息熵的大小来确定有无新词，可以满足新词出现速度快、消亡快的需求。

Description

一种新词发现方法及装置

技术领域

本申请涉及通信技术领域，尤其涉及一种新词发现方法及装置。

背景技术

电力行业通常具有其专业词库，专业词库有着本领域中具有精确语义的、覆盖领域范围广的全面的专业词汇，是对本行业的文档进行文本分析的根本。可以理解的是，伴随着行业的快速发展，电力行业会不断出现一些新词。

发现新词是完善专业词库的有效途径，目前新词发现方法大多采用基于统计方法发现新词，或者，基于语言规则发现新词。

其中，基于统计方法发现新词，是通过运用统计方法计算词汇的统计特征来发现新词，或，通过机器学习的方法抽取新词汇。但是本方法需要大量的较全面的训练语料库，而随着电力行业新词的出现必须再次训练模型需要耗费一定时间成本，无法满足新词出现速度快、消亡快的需求。

其中，基于语言规则的方法，其核心是根据语言学原理和知识制定一系列共性规则和个性规则，以处理自动分析中遇到的各种语言现象。该方法的语言规则是针对特定领域制定的，词义的歧义性与灵活性较差。

发明内容

鉴于此，本申请提供一种新词发现方法及装置，可以快速发现电力行业的新词。

为了实现上述目的，本申请提供了下述技术特征：

一种新词发现方法，包括：

获取电力行业文档；

基于通用词库对电力行业文档进行分词操作并获得分词结果；

对分词结果执行筛选操作，获得符合筛选条件的候选词集；

在所述候选词集中基于信息熵的大小来确定新词。

可选的，所述在所述候选词集中确定新词，包括：

针对候选词集中各候选词执行下述步骤：

计算候选词的左信息熵；

若所述左信息熵不大于阈值，则将候选词与左邻接分词重新组成候选词，直到左信息熵大于阈值；

若所述左信息熵大于阈值，则计算候选词的右信息熵；

若所述右信息熵不大于阈值，则将候选词与右邻接分词重新组成候选词汇，直到右信息熵大于阈值；

将候选词确定为作为新词。

可选的，在将候选词确定为作为新词之前还包括：

将所述候选词拆分为两个词汇；

计算所述两个词汇的互信息熵；

若所述两个词汇的互信息熵大于阈值，则执行将所述候选词确定为新词的步骤。

可选的，在所述左信息熵大于阈值，以及，在右信息熵大于阈值之后，还包括：

判断候选词的长度是否大于预设长度；

若候选词的长度大于预设长度，则删除所述候选词。

可选的，在所述候选词集中确定新词之后，还包括：

利用条件随机场特征模型对新词进行词性标注；

添加标注词性的新词至电力行业词库。

一种新词发现装置，包括：

获取文档单元，用于获取电力行业文档；

分词单元，用于基于通用词库对电力行业文档进行分词操作并获得分词结果；

筛选单元，用于对分词结果执行筛选操作，获得符合筛选条件的候选词集；

确定单元，用于在所述候选词集中确定新词。

可选的，所述确定单元包括：

左信息熵计算单元，用于计算候选词的左信息熵；

左重组单元，用于若所述左信息熵不大于阈值，则将候选词与左邻接分词重新组成候选词，直到左信息熵大于阈值；

右信息熵计算单元，用于若所述左信息熵大于阈值，则计算候选词的右信息熵；

右重组单元，用于若所述右信息熵不大于阈值，则将候选词与右邻接分词重新组成候选词汇，直到右信息熵大于阈值；

新词确定单元，用于将候选词确定为作为新词。

可选的，还包括：

互信息计算单元，用于在将候选词确定为作为新词之前，将所述候选词拆分为两个词汇，计算所述两个词汇的互信息熵；

判断单元，用于若所述两个词汇的互信息熵大于阈值，则进入新词确定单元执行将所述候选词确定为新词的步骤。

可选的，还包括：

删除单元，用于在所述左信息熵大于阈值，以及，在右信息熵大于阈值之后，判断候选词的长度是否大于预设长度；若候选词的长度大于预设长度，则删除所述候选词。

可选的，还包括：

词性标注单元，用于在所述候选词集中确定新词之后，利用条件随机场特征模型对新词进行词性标注；

添加单元，用于添加标注词性的新词至电力行业词库。

通过以上技术手段，可以实现以下有益效果：

本申请提供了一种新词发现方法，可以获取电力行业文档；基于通用词库对电力行业文档进行分词操作并获得分词结果；对分词结果执行筛选操作，获得符合筛选条件的候选词集；在所述候选词集中基于信息熵的大小来确定新词，在所述候选词集中基于信息熵的大小来确定新词。本申请通过信息熵的大小来确定有无新词，可以满足新词出现速度快、消亡快的需求。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种新词发现方法的流程图；

图2为本申请实施例公开的又一种新词发现方法的流程图；

图3为本申请实施例公开的又一种新词发现方法的流程图；

图4为本申请实施例公开的一种新词发现装置的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

术语解释：

条件随机场：英文全称为conditional random field，简称为CRF。

本申请提供一种新词发现方法的实施例。参见图1，包括以下步骤：

步骤S101：获取电力行业文档。

本实施例可以采用自动采集方式获取电力行业文档：对业务系统中文本数据进行采集从而实现文本正文内容的自动提取。当然也可以采用手动添加方式获取电力行业文档，作为自动采集行业文档的有效补充手段。

可以理解的是，经过自动采集和手动采集后获得行业文档的特点是分散的、异构的、不确定的、冗余的、不完备的和含噪音的，还不能直接用来挖掘新词，完善电力词库。

因此，可以对文档进行一些预处理操作，例如，去重操作、去噪操作、统一文档格式操作等等，预处理操作可以根据实际情况而定。预处理操作过程已为成熟技术，在此不再赘述。

步骤S102：基于通用词库对电力行业文档进行分词操作并获得分词结果。

依据开源的通用词库对电力行业文档进行文本分词操作，得到基于词库进行分词后的分词结果。本实施例可以采用jieba分词技术对电力行业文档进行分词操作获得分词结果。

例如，以电力行业文档中以一段文本“最新概念为区块链技术”为例，利用jieba分词技术分词后获得的分词结果可以为：“最新”、“概念”、“为”“区”、“块”、“链”“技术”等多个分词，当然还有其它分词再次不再一一列举。

步骤S103：对分词结果执行筛选操作，获得符合筛选条件的候选词集。

可以理解的是，步骤S102中获得的分词结果一部分是重复词语，一部分是已有词，所以预先设置一些筛选条件过滤一些重复词语和已有词，获得候选词集。本步骤已为成熟技术在此不再赘述。

延续上述举例，可以过滤“最新”、“概念”和“技术”已有词，剩余“区”、“块”、“链”三个候选词组成候选词集。

步骤S104：在候选词集中确定新词。

参见图2，本步骤可以分为以下步骤：

步骤S201：计算候选词的左信息熵。

计算候选词的左信息熵，也即，左邻接分词与候选词一起出现的信息熵。

左信息熵计算公式：

其中，H_l(W)是候选词w的左信息熵；sl是候选词w的左邻接分词集合；wl是候选词w的左邻接分词集合中的一个，p(wl|w)是候选词w出现的情况下其左邻接分词是wl的条件概率。

延续上述举例，以候选词为“区”为例，“区”的左邻接分词“为”，则sl是候选词“区”的左邻接分词集合(电力行业文档中“区”的所有左邻接分词)，p(wl|w)是候选词“区”出现的情况下其左邻接分词是“为”的条件概率。

步骤S202：判断候选词的左信息熵是否大于阈值；若否，则进入步骤S203；若是则进入步骤S204。

本实施例中采用信息熵来衡量边界自由度的大小，边界自由度在本实施例中是指候选词的邻接分词种类的数量。边界自由度越大，表明候选词的邻接分词种类越多，那么候选词成为边界的可能性就越大，反之亦然。

在本书实例中若候选词的左信息熵大于阈值，则说明候选词的左边界确定。若候选词的左信息熵不大于阈值，则说明候选词的左边界未确定，可以向左扩展。

步骤S203：候选词与左邻接分词组成新的候选词，进入步骤S201。

步骤S204：判断候选词的长度是否大于预设长度，若是删除候选词汇，否则进入步骤S205。

通常情况下会设定一个新词的预设长度(例如5个字符)，若候选词的长度大于预设长度，则说明候选词汇的长度超出规定，此时剔除该候选词。若候选词汇的长度未超出规定，则进入步骤S205。

步骤S205：计算候选词汇的右信息熵。

计算候选词的右信息熵，也即，右邻接分词与候选词一起出现的信息熵。

右信息熵计算公式：

其中，H_r(W)是候选词w的右信息熵；sr是候选词w的右邻接分词集合；wr是候选词w的右邻接分词集合中的一个；p(wr|w)是候选词w出现的情况下其右邻接分词是wr的条件概率。

延续上述举例，以候选词为“区”为例，“区”的右邻接分词“块”，则sr是候选词“区”的右邻接分词集合(电力行业文档中“区”的所有右邻接分词)，p(wr|w)是候选词“区”出现的情况下其右邻接分词是“块”的条件概率。

步骤S206：判断候选词的右信息熵是否大于阈值；若否则进入步骤S207；若是则进入步骤S208。

在本书实例中若候选词的右信息熵大于阈值，则说明候选词的右边界确定。若候选词的右信息熵不大于阈值，则说明候选词的右边界未确定，可以向右扩展。

步骤S207：候选词汇与右邻接分词组成新的候选词汇，进入步骤S205。

步骤S208：判断候选词汇的长度是否大于预设长度，若是剔除候选词汇，否则进入步骤S209。

延续上述举例在左边界和右边界确定后，得到候选词“区块链”。

步骤S209：计算候选词的互信息熵。

前述步骤是通过左信息熵确定左边界和通过右信息熵确定的右边界确定出的候选词，为了再次确定候选词是一个词汇，本实施例采用互信息熵来衡量候选词中分词的互相依赖程度，也即候选词中分词的内部结合紧密程度。

互信息熵为两个词汇之间的信息熵，将候选词拆分为两个词汇，然后计算两个词汇的互信息熵。

互信息熵计算公式如下：

对于候选词而言，p(x,y)是词汇x和词汇y(词汇中字的个数大于等于1)在语料里同时出现的概率；p(x)是词汇x单独出现的概率；p(y)是词汇y单独出现的概率。

当I(X,Y)>>0时，说明词汇x和词汇y是高度相关的，即词汇x和词汇y经常同时出现，候选词xy越有可能构成新词。当I(X,Y)＝0，表明词汇x和词汇y是相互独立分布的；当I(x,y)<<0时，表明词汇x和词汇y是互不相关分布的。

步骤S210：判断互信息熵是否大于阈值，若是将候选词汇作为新词。若否，则删除该候选词汇。

接步骤S104进入步骤S105：对新词进行词性标注。

在利用电力行业词库进行信息处理过程中，电力行业词库中词汇词性的准确度对信息处理有很大影响。词性标注主要将词汇归类为名词、动词、助词、副词、连词、介词、形容词、时间词、代词、数词、量词、前缀、后缀等词性。

参见图3，本步骤可以包括如下步骤：

步骤S301：获得包含新词的上下文以及除新词外其它词位置和词性。

由于中文博大精深，同一文本在不同上下文信息中其词性不同。因此，在确定新词后再提取新词所在的上下文。其中，包含新词的上下文是指以新词为基线、包括其前后若干分词的一个观测窗口。

新词前后的词性对新词的词性有很大影响，所以本实施例还会获取除新词外其它词的词性。

步骤S302：包含新词的上下文以及除新词外其它词位置和词性输入至条件随机场特征模型，获得条件随机场特征模型基于上下文输出的新词词性。

条件随机场特征模型为利用大量电力行业语料和标注词性训练后得到的、可以识别词汇词性的机器模型。条件随机场特征模型可以接收包含新词的上下文，上下文中各个词的位置，以及上下文中除新词之外各词的词性，通过特征模型的分析和计算，最终输出上下文中新词词性。

条件随机场特征模型中包含新词的上下文可以采用X＝(x₁，x₂，…x_n)表示，上下文对应的词性标注结果序列可表示为Y＝(y₁，y₂，…y_n)。条件随机场特征模型会找出X＝(x₁，x₂，…x_n)对应的Y＝(y₁，y₂，…y_n)，从而使得条件概率p(y|x)最大。

即为每个可能为新词的标注y均计算条件概率p(y|x)，选取最大条件概率值所对应的词性作为新词的词性。本实施例中，为消除词语歧义采用条件随机场对新词词性标注，从而获得准确的词汇词性。

其中，条件随机场特征模型中定义的条件概率分布为：

其中：

对于(X，Y)，条件概率分布p(Y|X)由局部特征向量f和对应的权重向量λ确定，i表示x在上下文的位置，f(y，x，i)表示在i位置中x，y组成的特征向量。

下面对条件随机场特征模型进行一些描述：

利用条件随机场特征模型进行词性标注的优点是特征选择灵活，根据要解决的问题，能够融入任意的特征。选择不同的特征，所得实验结果不同。对于特征的选择，利用了新词的上下文，所谓上下文是指以当前词为基线的、包括其前后若干词的一个观测窗口。

下表是对上下文词性标注特征的示例，其中，中心词也即新词。

编号	特征	说明
			1	w＝w₀	中心词
2	w＝w_-2	中心词前面第二个词
			3	w＝w_-1	中心词前面第一个词
4	w＝w₁	中心词后面第二个词
			5	w＝w₂	中心词后面第二个词
6	p＝p_-2	中心词前面第二个词词性
			7	p＝p_-1	中心词前面第一个词词性

在条件随机场模型中，每个特征函数以下列信息作为输入：

一个上下文形成的语句s；分词在语句s中的位置i；中心词的标签l_i；前k个词的标签l_i-k，0＜k＜i。

为更好地理解特征方程的含义，以词性标注的特征为例介绍特征方程：

如果y_i＝“副词”，且第i个词以“-地”结尾，则f₁(y_i,y_i-1,x,i)＝1；否则f(y_i,y_i-1,x,i)＝0。如果该特征在条件概率计算公式中的权重值λ＝u₁为取值较大的正数，则该特征表明条件概率倾向于将以“-地”结果的单词标记为“副词”。权重值为训练特征模型后得到的权重。

如果y_i-1＝“形容词”，y_i＝“名称”则f₂(y_i,y_i-1,x,i)＝1；否则f₂(y_i,y_i-1,x,i)＝0。同样，如果权重值λ＝u₂为正，表明形容词后面倾向于跟着名词。

如果y_i-1＝“介词”,y_i＝“介词”；f₃(y_i,y_i-1,x,i)＝1；否则f₂(y_i,y_i-1,x,i)＝0。如果该特征方程的权重值λ＝u₃为负，意味着介词后面一般不会紧跟着一个介词，所以应该避免这样的标注。

特征方程输出的是一个实数值(一般是0或1)。通过限制这些特征只依赖于当前与之前的词的标签，而不是语句中的任意标签，从而建立一种特殊的线性条件随机场。

接步骤S105进入步骤S106：将新词添加至行业词库中。

将已标注词性的新词补充到行业词库中。

通过上述描述可知本实施例具有以下有益效果：

第一，本申请选取现有通用词库作为分词依据，以简化本申请的一些处理过程，避免不必要的重复劳动；通用词库主要是基于外部开放的词库进行自动获取，其目的在于覆盖各种范围的汉语词汇，为智能问答、语音质检等提供完备支撑。

第二，本申请利用左右信息熵计算词汇的边界自由度，并计算候选词的互信息熵，并将互信息熵作为内部结合度再次从候选词中筛选新词(将内部结合度大于阈值确定为行业新词)。本申请既发挥匹配分词切分速度快、效率高的特点，又具有无词典分词结合上下文识别新词的优点。

第三，本申请使用条件随机场进行中文的词性标注。条件随机场通过建立概率模型来进行标注，其特点是在进行词性标注时不但利用了词的上下文作为特征，而且充分利用训练样本的统计信息作为特征，同时根据汉语的构词特点，使用词的后缀信息作为特征，在标注新词时起到很好的效果，可以获得消除词语歧义的词汇词性。

下面介绍本申请的一个应用场景：

以电力行业为例，在利用上述方案更新行业词库后，行业词库中便添加最新词汇。在客服人员在获得用户问题描述后，客服人员在行业词库中快速准确地定位到客户诉求热点并及时给予答复，避免出现用户诉求热点无法在行业词库中查询到出现问题沟通时间超长、满意度低的难点。

与图1所示的一种新词发现方法对应，本申请还提供了一种新词发现装置。参见图4，新词发现装置包括：

获取文档单元41，用于获取电力行业文档；

分词单元42，用于基于通用词库对电力行业文档进行分词操作并获得分词结果；

筛选单元43，用于对分词结果执行筛选操作，获得符合筛选条件的候选词集；

确定单元44，用于在所述候选词集中确定新词。

其中，确定单元44所述在所述候选词集中确定新词，包括：

左信息熵计算单元441，用于计算候选词的左信息熵；

左重组单元442，用于若所述左信息熵不大于阈值，则将候选词与左邻接分词重新组成候选词，直到左信息熵大于阈值；

右信息熵计算单元443，用于若所述左信息熵大于阈值，则计算候选词的右信息熵；

右重组单元444，用于若所述右信息熵不大于阈值，则将候选词与右邻接分词重新组成候选词汇，直到右信息熵大于阈值；

互信息计算单元445，用于在将候选词确定为作为新词之前，将所述候选词拆分为两个词汇，计算所述两个词汇的互信息熵；

判断单元446，用于若所述两个词汇的互信息熵大于阈值，则进入新词确定单元447执行将所述候选词确定为新词的步骤。

新词确定单元447，用于将候选词确定为作为新词。

删除单元448，用于在所述左信息熵大于阈值，以及，在右信息熵大于阈值之后，判断候选词的长度是否大于预设长度；若候选词的长度大于预设长度，则删除所述候选词。

词性标注单元45，用于利用条件随机场特征模型对新词进行词性标注；

添加单元46，用于添加标注词性的新词至电力行业词库。

关于新词发现装置的详细过程，可参见图1-图3所示的实施例，在此不再赘述。

通过上述描述可知本实施例具有以下有益效果：

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种新词发现方法，其特征在于，包括：

获取电力行业文档；

对分词结果执行筛选操作，获得符合筛选条件的候选词集；

在所述候选词集中基于信息熵的大小来确定新词。

2.如权利要求1所述的方法，其特征在于，所述在所述候选词集中确定新词，包括：

针对候选词集中各候选词执行下述步骤：

计算候选词的左信息熵；

若所述左信息熵大于阈值，则计算候选词的右信息熵；

将候选词确定为作为新词。

3.如权利要求2所述的方法，其特征在于，在将候选词确定为作为新词之前还包括：

将所述候选词拆分为两个词汇；

计算所述两个词汇的互信息熵；

4.如权利要求2所述的方法，其特征在于，在所述左信息熵大于阈值，以及，在右信息熵大于阈值之后，还包括：

判断候选词的长度是否大于预设长度；

若候选词的长度大于预设长度，则删除所述候选词。

5.如权利要求1所述的方法，其特征在于，在所述候选词集中确定新词之后，还包括：

利用条件随机场特征模型对新词进行词性标注；

添加标注词性的新词至电力行业词库。

6.一种新词发现装置，其特征在于，包括：

获取文档单元，用于获取电力行业文档；

确定单元，用于在所述候选词集中确定新词。

7.如权利要求6所述的装置，其特征在于，所述确定单元包括：

左信息熵计算单元，用于计算候选词的左信息熵；

新词确定单元，用于将候选词确定为作为新词。

8.如权利要求7所述的装置，其特征在于，还包括：

9.如权利要求7所述的装置，其特征在于，还包括：

10.如权利要求6所述的装置，其特征在于，还包括：

添加单元，用于添加标注词性的新词至电力行业词库。