CN107066441A

CN107066441A - 一种计算词性相关性的方法及装置

Info

Publication number: CN107066441A
Application number: CN201611135878.1A
Authority: CN
Inventors: 李强; 刘鹏
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2017-08-18

Abstract

本发明实施例公开了一种计算词性相关性的方法及装置。该方法包括：获取文本并进行分词处理，根据TF‑IDF权重计算方法计算所有词汇的TF‑IDF权重值，并筛选关键词汇；获取每个关键词汇对应的特征向量；计算关键词汇的特征向量之间的向量距离；若所述向量距离大于预设距离阈值，则确定所述向量距离对应的关键词汇具有词汇相关性。本发明需要统计一定时间内词汇出现的频次，根据出现的频次计算出词汇的增长率向量来计算词汇之间的相关性大小。另外，本发明可以研究某一领域的词汇相关性，通过某领域内特定的目标关键词来预测与其相关词汇的出现，利用该特性可以进行事件与事件之间的相互检索。

Description

一种计算词性相关性的方法及装置

技术领域

本发明实施例涉及自然语言处理中词汇相关性计算领域，尤其涉及一种计算词性相关性的方法及装置。

背景技术

词汇的相关性研究是在自然语言处理的一个基本研究课题，相关性计算水平的提高对文本聚类、语义消歧、语义Web、信息检索等众多应用领域具有重要意义。在传统的词语相关性研究中，大多关注一对词汇之间的相关性；并且大多都存在一个假设：即相关的词汇至少应该以“共同出现”为基础。

在国外，词汇的相关性研究起步较早，成果也相对较多。目前较为成熟的相关性语义词典有WordNet、FrameNetE、MindNet等。而国内汉语方面也有HOW—Net、同义词词林等。这些语义词典从本质上是通过研究词与词之间的关系相互映射，并通过大量统计得到。它们均是靠人为统计和计算，从研发到产品上线大都需要耗费一定的人力和资源。

目前被广泛研究与采用的两种方法是基于世界知识(Ontology)或某种分类体系(Taxonomy)的方法和基于统计的上下文向量空间模型方法。由于一些理论上以及运行条件的限制，现有的技术还存在很多问题，难以发挥理想的效果。例如，在单文本或是单个自然段中，基于上下文统计的词汇相关性计算方法比较有说服力，但当文本数据量大，且讨论在一段时间内的词汇相关性或讨论在某一领域内(如金融，军事)的词汇相关性时，这种传统的相关性计算方法就很难起到作用了。

发明内容

本发明实施例的目的在于提出一种计算词性相关性的方法及装置，旨在解决如何在文本数据量大的情况下获取词性相关性的问题。

为达此目的，本发明实施例采用以下技术方案：

第一方面，一种计算词性相关性的方法，所述方法包括：

获取文本并进行分词处理，根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值，并筛选关键词汇；

获取每个关键词汇对应的特征向量，所述特征向量包括频次向量或者增长率向量，所述频次向量用于标识所述关键词汇的频次，所述增长率向量用于标识所述关键词汇的变化率；

计算关键词汇的特征向量之间的向量距离；

若所述向量距离大于预设距离阈值，则确定所述向量距离对应的关键词汇具有词汇相关性。

优选地，所述获取文本并进行分词处理，根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值，并筛选关键词汇，包括：

获取预设第一时间间隔内的特定类型文本作为实验文本集，并将数据按照预设第二时间间隔进行存储；

通过文本分词技术将所述第二时间间隔内的文本进行分词，并统计所有词汇在所述第二时间间隔内出现的频次；

通过统计每个词汇的频次，根据所述每个词汇的频次和所述文本在所述第二时间间隔内出现的次数来计算所述每个词汇的TF-IDF值，并将所有词汇根据TF-IDF值进行词汇排序，将TF-IDF值大的词汇筛选为关键词汇。

优选地，所述获取每个关键词汇对应的频次向量，包括：

获取每个关键词汇在所述第一时间间隔内的所有频次值，将所述频次值按照向量来表示，并形成了一个多维的向量。

优选地，所述获取每个关键词汇对应的增长率向量，包括：

获取每个关键词汇在所述第一时间间隔内的所有频次值；

根据所述所有频次值计算(Fi+1-Fi)/Fi，所述Fi为所述频次向量对应第i个频次值，所述Fi+1为所述频次向量对应的第i+1个频次值；

将计算得到的(Fi+1-Fi)/Fi按照向量来表示，并形成了一个多维的向量。

优选地，所述方法还包括：

若所述向量距离小于等于所述预设距离阈值，则确定所述向量距离对应的关键词汇不具有词汇相关性。

第二方面，一种计算词性相关性的装置，所述装置包括：

第一获取模块，用于获取文本并进行分词处理，根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值，并筛选关键词汇；

第二获取模块，用于获取每个关键词汇对应的特征向量，所述特征向量包括频次向量或者增长率向量，所述频次向量用于标识所述关键词汇的频次，所述增长率向量用于标识所述关键词汇的变化率；

计算模块，用于计算关键词汇的特征向量之间的向量距离；

第一确定模块，用于若所述向量距离大于预设距离阈值，则确定所述向量距离对应的关键词汇具有词汇相关性。

优选地，所述第一获取模块，具体用于：

优选地，所述第二获取模块，具体用于：

优选地，所述第二获取模块，还具体用于：

获取每个关键词汇在所述第一时间间隔内的所有频次值；

优选地，所述装置还包括：

第二确定模块，用于若所述向量距离小于等于所述预设距离阈值，则确定所述向量距离对应的关键词汇不具有词汇相关性。

本发明实施例提供的一种计算词性相关性的方法及装置，获取文本并进行分词处理，根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值，并筛选关键词汇；获取每个关键词汇对应的特征向量，所述特征向量包括频次向量或者增长率向量，所述频次向量用于标识所述关键词汇的频次，所述增长率向量用于标识所述关键词汇的变化率；计算关键词汇的特征向量之间的向量距离；若所述向量距离大于预设距离阈值，则确定所述向量距离对应的关键词汇具有词汇相关性。本发明需要统计一定时间内词汇出现的频次，根据出现的频次计算出词汇的增长率向量来计算词汇之间的相关性大小。另外，本发明可以研究某一领域的词汇相关性，通过某领域内特定的目标关键词来预测与其相关词汇的出现，利用该特性可以进行事件与事件之间的相互检索。

附图说明

图1是本发明实施例提供的一种计算词性相关性的方法的流程示意图；

图2是本发明实施例提供的一种计算词性相关性的装置的功能模块示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

参考图1，图1是本发明实施例提供的一种计算词性相关性的方法的流程示意图。

如图1所示，所述计算词性相关性的方法包括：

步骤101，获取文本并进行分词处理，根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值，并筛选关键词汇；

具体的，本发明采取网络爬虫获取2015年金融领域新闻文本作为实验文本集，并将数据按照日期存储，以天为单位。

通过文本分词技术，将当天的文本进行分词，并统计所有词汇在当天出现的频次。因为统计周期为一年365天，这样每个词汇在每一天都对应一个频次值(当某个词汇在某一天没有出现时，当天频次为0)。

通过统计词汇的频次，根据频次和文本出现的天数来计算词汇的TF-IDF值，并将所有词汇根据TF-IDF(term frequency–inverse document frequency) 值将词汇排序，将值大的词汇作为文本关键词汇。

步骤102，获取每个关键词汇对应的特征向量，所述特征向量包括频次向量或者增长率向量，所述频次向量用于标识所述关键词汇的频次，所述增长率向量用于标识所述关键词汇的变化率；

优选地，所述获取每个关键词汇对应的频次向量，包括：

具体的，词汇的统计周期为365天，这样每个词汇就对应了365个频次值，将频次按照向量来表示，就形成了一个365维的向量，并且所有词汇的对应的向量的维度均一一对应。

优选地，所述获取每个关键词汇对应的增长率向量，包括：

获取每个关键词汇在所述第一时间间隔内的所有频次值；

具体的，利用词汇的频次向量可以匹配频次大小一致的词汇，但当两个词汇的变化趋势相近，但频次大小不一致时，利用频次向量很难将其匹配，所以引入增长率向量的概念，将词汇频次在原有基础上加1，防止在计算增长率时出现分母为0的情况，计算公式为：

A＝(Fi+1-Fi)/Fi

其中，Fi为词汇频次向量对应第i个频次值。Fi+1为第i+1个频次值。

步骤103，计算关键词汇的特征向量之间的向量距离；

具体的，计算向量夹角来衡量词汇之间的相关性。其计算公式为：

S值越小，说明两个词汇越相关。

步骤104，若所述向量距离大于预设距离阈值，则确定所述向量距离对应的关键词汇具有词汇相关性。

具体的，例如在金融领域来筛选关键词，通过TF-IDF权重计算后，得到权重较高的三个词汇“央行降息”，“信托公司”，“大盘跳水”三个词汇，并且这三个词汇可以代表三个事件，通过统计365天的频次，然后再计算向量之间的距离，得到以下数据：

L(央行降息，信托公司)＝0.135397

L(大盘跳水，信托公司)＝0.115351

L(央行降息，大盘跳水)＝0.253832。

优选地，所述方法还包括：

本发明实施例提供的一种计算词性相关性的方法，获取文本并进行分词处理，根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值，并筛选关键词汇；获取每个关键词汇对应的特征向量，所述特征向量包括频次向量或者增长率向量，所述频次向量用于标识所述关键词汇的频次，所述增长率向量用于标识所述关键词汇的变化率；计算关键词汇的特征向量之间的向量距离；若所述向量距离大于预设距离阈值，则确定所述向量距离对应的关键词汇具有词汇相关性。本发明需要统计一定时间内词汇出现的频次，根据出现的频次计算出词汇的增长率向量来计算词汇之间的相关性大小。另外，本发明可以研究某一领域的词汇相关性，通过某领域内特定的目标关键词来预测与其相关词汇的出现，利用该特性可以进行事件与事件之间的相互检索。

参考图2，图2是本发明实施例提供的一种计算词性相关性的装置的功能模块示意图。

如图2所示，所述装置包括：

第一获取模块201，用于获取文本并进行分词处理，根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值，并筛选关键词汇；

优选地，所述第一获取模块201，具体用于：

第二获取模块202，用于获取每个关键词汇对应的特征向量，所述特征向量包括频次向量或者增长率向量，所述频次向量用于标识所述关键词汇的频次，所述增长率向量用于标识所述关键词汇的变化率；

优选地，所述第二获取模块202，具体用于：

优选地，所述第二获取模块202，还具体用于：

获取每个关键词汇在所述第一时间间隔内的所有频次值；

计算模块203，用于计算关键词汇的特征向量之间的向量距离；

第一确定模块204，用于若所述向量距离大于预设距离阈值，则确定所述向量距离对应的关键词汇具有词汇相关性。

优选地，所述装置还包括：

本发明实施例提供的一种计算词性相关性的装置，获取文本并进行分词处理，根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值，并筛选关键词汇；获取每个关键词汇对应的特征向量，所述特征向量包括频次向量或者增长率向量，所述频次向量用于标识所述关键词汇的频次，所述增长率向量用于标识所述关键词汇的变化率；计算关键词汇的特征向量之间的向量距离；若所述向量距离大于预设距离阈值，则确定所述向量距离对应的关键词汇具有词汇相关性。本发明需要统计一定时间内词汇出现的频次，根据出现的频次计算出词汇的增长率向量来计算词汇之间的相关性大小。另外，本发明可以研究某一领域的词汇相关性，通过某领域内特定的目标关键词来预测与其相关词汇的出现，利用该特性可以进行事件与事件之间的相互检索。

以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理，而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式，这些方式都将落入本发明实施例的保护范围之内。

Claims

1.一种计算词性相关性的方法，其特征在于，所述方法包括：

计算关键词汇的特征向量之间的向量距离；

2.根据权利要求1所述的方法，其特征在于，所述获取文本并进行分词处理，根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值，并筛选关键词汇，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取每个关键词汇对应的频次向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取每个关键词汇对应的增长率向量，包括：

获取每个关键词汇在所述第一时间间隔内的所有频次值；

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述方法还包括：

6.一种计算词性相关性的装置，其特征在于，所述装置包括：

计算模块，用于计算关键词汇的特征向量之间的向量距离；

7.根据权利要求6所述的装置，其特征在于，所述第一获取模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述第二获取模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述第二获取模块，还具体用于：

获取每个关键词汇在所述第一时间间隔内的所有频次值；

10.根据权利要求6至9任意一项所述的装置，其特征在于，所述装置还包括：