CN112560448B

CN112560448B - 一种新词提取方法及装置

Info

Publication number: CN112560448B
Application number: CN202110190709.2A
Authority: CN
Inventors: 蓝建敏; 池沐霖
Original assignee: Excellence Information Technology Co ltd
Current assignee: Excellence Information Technology Co ltd
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2021-06-22
Anticipated expiration: 2041-02-20
Also published as: CN112560448A

Abstract

本发明公开了一种新词提取方法，包括：获取给定语料，并对给定语料进行分词处理，获得若干第一词组；其中，给定语料包括若干篇文章；计算每一第一词组的凝固度和自由度，继而提取凝固度和自由度符合预设阈值条件的若干第一词组，作为第二词组；计算每一第二词组在给定语料中各文章的篇频；其中，篇频为词组在一篇文章中出现的次数；根据各文章的文章影响力对每一第二词组的各篇频进行加权计算，获得各第二词组的加权篇频；根据每一第二词组的加权篇频进行排序，并根据排序结果提取出新词。通过实施本发明实施例能够避免总词频较低的词被遗漏，提高新词提取的准确性。

Description

一种新词提取方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种新词提取方法及装置。

背景技术

在信息爆炸的时代各种新词层出不穷，新词的提取对于诸如信息检索、自动分词、词典编纂以及机器翻译等众多中文信息处理领域有重要意义。现有技术中对新词的提取主要通过对给定语料如以多篇文章作为给定语料，然后进行分词，并计算词在所给定的语料中的总词频，最终根据总体词频进行排序并提取，但采用上述方式进行新词提取，会导致一些总词频较小的新词，但是运用广泛，流行程度高的词组被忽略无法提取出来。例如假设给定语料有10篇文章，词A仅在其中两篇文章出现过，出现的总次数为50次，而词B在10篇文章均有出现，出现的总次数为40次，这时词B在10篇文章中均有出现说明词B的运用广泛，流行程度高应该被提取出来，但若采用现有技术的方案由于词A的总词频高于词B，所以在最终排序时A会排在词B前面，所以最终在提取新词的时候词A更容易被提取出来，而词B会容易被遗漏，进而导致新词提取不准确。这种情况在以法律法规、专项政策、领导演讲稿等公文作为语料的时候尤其突出，例如现如今各个政府领导在演讲中经常会提及的“绿水青山，就是金山银山”这句话，这句话经常出现在不同领导的演讲稿中，运用广泛，但是这句话起一个纲领的作用在每个领导的演讲稿中可能只会出现一两次，不会在同一篇演讲稿中被频繁提及。若以各不同领导的演讲稿为给定语料，采用现有的新词提取方法，会导致“绿水青山，就是金山银山”内的词组很容易被遗漏不会被提取出来。

发明内容

本发明实施例提供一种新词提取方法及装置，能够避免总词频较低的词被遗漏，提高新词提取的准确性。

本发明一实施例提供一种新词提取方法，包括：

获取给定语料，并对所述给定语料进行分词处理，获得若干第一词组；其中，所述给定语料包括若干篇文章；

计算每一所述第一词组的凝固度和自由度，继而提取凝固度和自由度符合预设阈值条件的若干第一词组，作为第二词组；

计算每一所述第二词组在所述给定语料中各文章的篇频；其中，所述篇频为词组在一篇文章中出现的次数；

根据各所述文章的文章影响力对每一所述第二词组的各篇频进行加权计算，获得各所述第二词组的加权篇频；

根据每一所述第二词组的加权篇频进行排序，并根据排序结果提取出新词。

进一步的，通过以下公式计算一所述文章的文章影响力：

；

其中,

为待评估文章、

为待评估文章的文章影响力、

为引用了待评估文章

的文章集合、

为

集合中的一篇文章、

为文章

的影响力，

为文章

所引用的文章数量。

进一步的，在获得若干第二词组之后，在计算每一所述第二词组在所述给定语料中各文章的篇频之前，还包括：剔除开头或结尾为停用词的第二词组。

进一步的，在提取出所述新词后，根据各所述新词所属文章的领域类型，设置所述新词的类别标签，对所述新词进行分类。

在上述方法项实施例的基础上，本发明对应提供了装置项实施例：

本发明另一实施例提供了一种新词提取装置，包括分词处理模块、第二词组提取模块、篇频计算模块、加权篇频计算模块以及新词提取模块；

所述分词处理模块，用于获取给定语料，并对所述给定语料进行分词处理，获得若干第一词组；其中，所述给定语料包括若干篇文章；

所述第二词组提取模块，用于计算每一所述第一词组的凝固度和自由度，继而提取凝固度和自由度符合预设阈值条件的若干第一词组，作为第二词组；

所述篇频计算模块，用于计算每一所述第二词组在所述给定语料中各文章的篇频；其中，所述篇频为词组在一篇文章中出现的次数；

所述加权篇频计算模块，用于根据各所述文章的文章影响力对每一所述第二词组的各篇频进行加权计算，获得各所述第二词组的加权篇频；

所述新词提取模块，用于根据每一所述第二词组的加权篇频进行排序，并根据排序结果提取出新词。

进一步的，还包括停用词剔除模块；所述停用词剔除模块，用于剔除开头或结尾为停用词的第二词组。

进一步的，还包括:新词分类模块；所述新词分类模块，用于在提取出所述新词后，根据各所述新词所属文章的领域类型，设置所述新词的类别标签，对所述新词进行分类。

通过实施本发明实施例具有如下有益效果：

本发明实施例提供了一种新词提取方法及装置，所述方法将若干篇文章组成给定语料，然后对给定语料进行分词，获得各个第一词组，紧接着计算各第一词组的自由度和凝固度，根据自由度和凝固度提取出若干第二词组，然后计算每一第二词组的在每一篇文章中的篇频，并根据每一篇文章的影响力计算出每一第二词组的加权篇频，最终根据加权篇频进行排序，提取出新词。与现有技术相比，本发明在排序时不再根据词组的在给定语料中总体词频进行排序，而是考虑到了各词组在语料中的分布情况，分别计算出词组在给定语料中各篇文章中的篇频，然后依据各篇文章的影响力对各篇频进行加权计算，得出一个加权篇频，根据加权篇频进行排序，这样在提取新词时，综合考虑了词组在给定语料中各文章的分布情况以及各文章的影响力，从而提高了新词提取的准确性，避免了应用广泛，流行度高但是总体词频小的新词被遗漏。

附图说明

图1是本发明一实施例提供的一种新词提取方法的流程示意图。

图2是本发明一实施例提供的一种新词提取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一实施例提供了一种新词提取方法，包括：

S101：获取给定语料，并对所述给定语料进行分词处理，获得若干第一词组；其中，所述给定语料包括若干篇文章。

S102：计算每一所述第一词组的凝固度和自由度，继而提取凝固度和自由度符合预设阈值条件的若干第一词组，作为第二词组。

S103：计算每一所述第二词组在所述给定语料中各文章的篇频；其中，所述篇频为词组在一篇文章中出现的次数。

S104：根据各所述文章的文章影响力对每一所述第二词组的各篇频进行加权计算，获得各所述第二词组的加权篇频。

S105：根据每一所述第二词组的加权篇频进行排序，并根据排序结果提取出新词。

对于步骤S101、在本发明中选取各类文章组合成上述给定语料；优选的上述文章可以为法律法规文件、专项政策文件以及政府官员演讲稿件等。

对于步骤S102、首先是凝固度的计算；进行分词后所获得的每个第一词组是由各个不成词的“单字”组成，或由“单字”和“子级词语”共同组成；例如假设一个第一词组为“电影院”那么这个第一词组的组成方式可以由：单字“电”和子级词语“影院”组成，也可以有单字“院”和子级词语“电影”组成；而如果一个第一词组为“电影”那么其由两个单字“电”和“影”组成；

将“单字”和“子级词语”定义为第一词组的各个组成元素；

对于只由“单字”组成的第一词组，在计算凝固度时，由于只有一种组成方式，所以直接将各个“组成元素”在语料中的词频（即在语料中出现的次数）相乘之后除以第一词组在语料中的词频，既可得到对应的凝固度。

例如假设第一词组为“电影”那么其凝固度为：

C（电影）=（P(电)*P(影)）÷P(电影)；

C（电影）为第一词组“电影”的凝固度，P(电)为“电”字在整个给定语料中出现的次数（即“电”在给定语料中的词频）；P(影)为“影”字在整个给定语料中出现的次数；P(电影)为“电影”这个词组在整个给定语料中出现的次数。

对于由“单字”和“子级词语”共同组成的第一词组，在计算凝固度时，先分别计算各中组合方式对应的凝固度，选取凝固度最小的作为第一词组的凝固度。同样在计算每种组合方式的凝固度，也是将各个“组成元素”在语料中的词频（即在语料中出现的次数）相乘之后除以第一词组在语料中的词频。

例如第一词组为“电影院”，那么其有两种组成方式：第一种由组成元素 “电”和组成元素“影院”组成，第二种由组成元素“院”和组成元素“电影”组成；

则第一种组成方式的凝固度C1=(P(电)*P(影院))÷p(电影院)；

则第一种组成方式的凝固度C2=(P(电影)*P(院))÷p(电影院)；

若C1≥C2，则C(电影院)=C2；若C1＜C2则C(电影院)=C1；

C（电影院）为第一词组“电影院”的凝固度，P(电)为“电”字在整个给定语料中出现的次数；P(院)为“院”字在整个给定语料中出现的次数；P(影院)为“影院”这个词在整个给定语料中出现的次数；P(电影)为“电影”这个词在整个给定语料中出现的次数；P(电影院)为“电影院”这个词组在整个给定语料中出现的次数。

紧接着是计算自由度：

通过以下公式计算第一词组U的左信息熵；

;

式中

为第一词组U的左信息熵、i为在第一词组U左边的词、

是词i紧靠第一词组U左边出现的次数，与紧靠第一词组U左边出现的所有词的总次数之间比值；例如第一词组为“电影院”，有个语料仅为“我们去电影院看电影”“我们在电影院里”；在这句语料中“去”和“在”即为上述词i,第一词组“电影院”的左信息熵为：

;

;

为“去”字紧靠第一词组“电影院”左边出现的次数，

为“在”字紧靠第一词组“电影院”左边出现的次数。

通过以下公式计算第一词组U的右信息熵；

;

式中

为第一词组U的右信息熵、

为在第一词组U右边的词、

为词

紧靠第一词组U右边出现的次数，与紧靠第一词组U右边出现的所有词的总次数之间比值；例如第一词组为“电影院”，有个语料仅为“我们去电影院看电影”“我们在电影院里”；在这句语料中“看”和“里”即为上述词

,第一词组“电影院”的右信息熵为：

为“看”字紧靠第一词组“电影院”右边出现的次数，

为“里”字紧靠第一词组“电影院”右边出现的次数。

比较左信息熵和右信息熵的大小取较小的作为第一词组的自由度。

通过上述方式计算出每一第一词组的自由度和凝固度，然后将满足预先设定的阈值条件（例如为，凝固度大于2.5，自由度大于40）的第一词组选取出来，获得上述若干第二词组；

对于步骤S103,在一个优选的实施例中，在获得若干第二词组之后，在计算每一所述第二词组在所述给定语料中各文章的篇频之前，还包括：剔除开头或结尾为停用词的第二词组。通过剔除停用词提高新词提取的准确性。

紧接计算剩余的每一第二词组在给定语料中各文章的篇频。假设给定语料有5篇文章，第二词组“电影院”在每篇文章均有出现,出现的次数分别为，5次、6次、3次、2次和10次，那么第二词组“电影院”对应的各篇频为：5、6、3、2以及10。

对于步骤S104、在一个优选的实施例中，通过以下公式计算一所述文章的文章影响力：

；

其中,

为待评估文章、

为待评估文章的文章影响力、

为引用了待评估文章

的文章集合、

为

集合中的一篇文章、

为文章

的影响力，

为文章

所引用的文章数量。通过上述式子进行迭代多次计算（优选的为10次）然后将得到的

根据正态分布缩放至0-3的区间，获得待评估文章u的文章影响力。上述公式为一迭代公式，对于初始的各文章的影响力可设置为1。

在得出每个文章的影响力后然后与对应篇频相乘得到第二词组的加权篇频。

例如：第二词组“电影院”对应的各篇频为：5、6、3、2以及10。对应的各文章的影响力为：1、1.5、2、2.5、3，那么第二词组“电影院”的加权篇频为：5*1+6*1.5+3*2+2*2.5+3*10=55。

对于步骤S105、具体的，在一个优选的实施例中，按各第二词组的加权篇频按从大到小进行排序，然后提取前95%的词，作为所提取的新词。

在一个优选的实施例中，在提取出所述新词后，根据各所述新词所属文章的领域类型，设置所述新词的类别标签，对所述新词进行分类。

具体的，每篇文章都提前设置有一个领域类型标识，统计一新词所在的各个文章的领域类型，将文章最多的领域类型作为所提取的新词的标签

例如：有个词出在5篇文章中出现过，3次出现在生物领域相关的文章中，对该词则打上生物领域的标签分类。

在实际情况中，不同文章的影响力不同。有的文章被广泛引用影响力强，那么在这些文章内所出现的新词同样会被广泛运用，流行程度高。那么在这些影响力强的文章内出现的新词就是比较重要的新词，在新词提取的时候应该优先被提取出来。而有的文章几乎没有被引用，影响力低，那么在这些文章内所出现的新词应当视为小众领域的新词，流行程度较低，在新词提取时优先级应低于在影响力强的文章内出现的新词。因此本发明根据词组在每篇文章出现的次数（篇频）以及对应文章的影响力，计算每一第二词组的加权篇频，从而综合衡量每个词组的影响力，将最终的加权篇频作为排序的依据进行新词提取，相比与现有的仅靠词频进行新词提取的方案来说，本申请所提取出来的新词运用更广泛，流行程度更高，更加合理从而提高了新词的准确性，避免了一些被广泛运用的新词，但是在给定语料中总体词频较小的新词被遗漏。另外对于法律法规、专项政策和政府领导演讲稿件这些稿件的新词提取，相比与现有技术能够跟准确的提取出新词。

如图2所示，在上述方法项实施例的基础上，本发明对应提供了装置项实施例。

在一个优选的实施例中，还包括停用词剔除模块；所述停用词剔除模块，用于剔除开头或结尾为停用词的第二词组。

在一个优选的实施例中，还包括:新词分类模块；所述新词分类模块，用于在提取出所述新词后，根据各所述新词所属文章的领域类型，设置所述新词的类别标签，对所述新词进行分类。

需说明的是，上述装置项实施例是与本发明实施例相对应的，其能够实现本发明任意一项方法项实施例所述的新词提取方法。另，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。