CN110489759A

CN110489759A - 基于词频的文本特征加权及短文本相似性计算方法、系统和介质

Info

Publication number: CN110489759A
Application number: CN201910864611.3A
Authority: CN
Inventors: 蒋艳凰; 贺依依; 宋卓; 李�根; 余硕军; 赵强利; 张少伟; 雷鹏
Original assignee: Human And Future Biotechnology (changsha) Co Ltd
Current assignee: Human And Future Biotechnology (changsha) Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2019-11-22
Anticipated expiration: 2039-09-12
Also published as: CN110489759B

Abstract

本发明公开了一种基于词频的文本特征加权及短文本相似性计算方法、系统和介质，本发明基于语料库进行词频统计实现基于词频的文本特征加权，可以用于自然语言处理领域中多个任务。比如文本分类，关键词提取，相似度计算等任务；本发明基于词频的文本特征加权进一步提供文本相似度的计算方法，通过给予文本中的词不同的权重，实现信息的非线性分布，能够提高文本的相似度计算的准确率，这种权重设计能够降低词频低的词的权重，同时也能够赋予词频高的词的较低的权重，增加中间段词频的词的权重，减少词频低的词和词频高的词对整个文本向量的影响，提高文本间的相似度计算的准确率。

Description

基于词频的文本特征加权及短文本相似性计算方法、系统和介质

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于词频的文本特征加权及短文本相似性计算方法、系统和介质。

背景技术

在自然语言处理领域中，文本特征加权的方法可以广泛的使用在各项文本相关任务中。比如在文本的预处理中，一般都会采用TF-IDF(term frequence-inverse documentfrequency)，用于对文本进行加权。基于TF-IDF的文本加权，可以直接用于后续的文本分类，文本相似度，关键词提取等任务中。但是TF-IDF这种方法本身过度放大了低频词和生僻词的作用。另一种统计学中的加权方式是CHI(Chi-square)卡方检验法，这种方法利用了统计学中“假设检验”的基本思想，需要数据集有标签。而本文重点在于无标签的文本处理。

文本相似度计算是自然语言处理领域中多数任务的基础，对后续的文本相关任务起着非常关键的作用。比如在文本聚类方面，相似度阈值可以作为聚类的标准。主流的文本相似度计算分为三类：基于字符串的方法、基于统计的经验主义方法与基于规则的理性主义方法。基于字符串的方法通过计算两个字符串的字面差异来定义字符串之间的距离。但是基于字符串的方法没有考虑到文本蕴含的特征信息，现阶段主流的文本相似度算法从统计和规则两个方面进行考虑。

基于统计的经验主义方法主要是利用统计方法，通过构建文本向量，来计算文本间的相似度。其中一类方法是基于语料库，对文本中出现的词进行加权，构建得到对应的向量。比如TF-IDF通过耦合语料库中出现的各个词频率(TF)与逆向文本频率(IDF)来生成单个词的权重。其中权重越小的词，在TF-IDF词表述中对全文文本特征表述的影响越大。而平滑倒词频(smooth inverse frequency SIF)方法是一种计算每个词加权系数的方法。对于每个词ω的权重为a/(a+p(ω))，其中a为平滑参数，p(ω)为词频，SIF方法是对TF-IDF的一种改进。但是这类加权的方法，都高估了低词频的作用。另一类基于统计的方法是利用深度学习的方法，构建相关向量进行相似度计算。这类方法最大的问题在于需要数据集提供标签，而实际工程中，给数据集打标签是一项繁琐的工作。基于规则的方法，一般是采用人工构建的知识库，定义知识库中的规则来进行文本相似度的计算。

采用基于语料库的文本加权的方法，比如TF-IDF，以及SIF算法，都存在将低词频权重设置过高的问题。对于词频低的词，比如生僻词，给予权重过高，会误认为文本的关键词。而对于词频高的词，不具备文本间的区分度，应给给予低权重。因此，如何实现新的权重计算规则，则仍然是一项亟待解决的技术问题。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提出了一种基于词频的文本特征加权及短文本相似性计算方法、系统和介质，其中基于词频的文本特征加权方法为本发明的核心内容，短文本相似性计算方法为基于词频的文本特征加权方法的应用。本发明基于语料库进行词频统计提出了一种新的基于词频的文本加权的方式，这种文本加权的方式可以用于自然语言处理领域中多个任务。比如文本分类，关键词提取，相似度计算等任务。同时本发明中提供了一种文本相似度的计算方式，通过文本的加权，给予文本中的词不同的权重，实现信息的非线性分布，能够提高文本的相似度计算的准确率，这种权重设计能够降低词频低的词的权重，同时也能够赋予词频高的词的较低的权重，增加中间段词频的词的权重，减少词频低的词和词频高的词对整个文本向量的影响，提高文本间的相似度计算的准确率。

为了解决上述技术问题，本发明采用的技术方案为：

首先，本发明提供一种基于词频的文本特征加权方法，实施步骤包括：

1)获取待处理数据；

2)针对待处理数据提取文本并进行预处理得到文本集合D＝{D₁，D₂…D_j…D_M}，其中D_j表示一个文本，j∈[1，M]，M为文本的总数；对文本集合D进行分词，得到所有词的词集合T＝{T₁，T₂…T_i…T_N}，其中T_i表示词，i∈[1，N]，N表示词的总数；

3)统计词集合中词的集合T中每个词出现的次数，得到词对应的频数集合Z＝{(T₁，x₁)，(T₂，x₂)…(T_i，x_i)…(T_N，x_N)}，其中(T_i，x_i)表示词T_i对应的词频x_i，x_i∈N₊，其中N₊表示正整数；基于词对应的频数集合Z进行词频权重计算词集合T中各个词T_i对应的归一化后的权重w_i，从而得到权重集合W＝{(T₁，w₁)，(T₂，w₂)…(T_i，w_i)…(T_N，w_N)}，其中(T_i，w_i)为T_i对应的权重w_i。

可选地，步骤2)中的预处理包括删除特殊字符、去掉停用词、统一大小写、去重。

可选地，步骤3)中进行词频权重计算词集合T中各个词T_i对应的归一化后的权重w_i的详细步骤包括：

3.1)根据输入的词对应的频数集合Z统计词频数对应的词的种类数，得到集合Y：

Y＝{(x₁，y₁)，(x₂，y₂)，…(x_j，y_j)…(x_n，y_n)}

其中x_j为词频，y_j为对应词频的词的种类数，其中词频x_j从小到大排序，并且j∈[1，n]，n为词频的种类数，x_j∈N₊，y_j∈N₊，N₊表示正整数；

3.2)使用预设的公式X_k对集合Y中所有的x_j对应的y_j，按照设定的区间x_j∈[C^k-1，C^k)累加求和y_j，直到最后一个(x_j，y_j)计算结束，从而得到集合X＝{X₁，X₂…X_k…X_K}，k∈[1，K]其中K为X_k的个数；其中，预设的公式X_k为：

上式中，N₊表示正整数，其中C为可调的超参数，C^k表示上限区间，C^k-1表示下限区间；

3.3)使用词对应的频数集合Z拟合高斯函数F(X)；

3.4)对拟合的高斯函数F(X)求导得到权重计算函数f(x)；

3.5)针对词集合T中各个词T_i通过权重计算函数f(x)计算得到的权重进行归一化处理，得到该词最后的权重w(f(x))；

3.6)词集合T中各个词T_i的权重w(f(x))记为w_i，从而得到权重集合W＝{(T₁，w₁)，(T₂，w₂)…(T_i，w_i)…(T_N，w_N)}，其中(T_i，w_i)表示词T_i及其对应的权重w_i，i∈[1，N]，N表示词集合T中词的总数。

可选地，步骤3.3)中高斯函数F(X)的函数表达式如下式所示：

上式中，a，b，c为需要拟合的参数；

步骤3.4中权重计算函数f(x)的函数表达式如下式所示：

上式中，a，b，c为高斯函数F(X)中的参数，x为词频。

可选地，步骤3.4)中权重w(f(x))的函数表达式如下式所示：

上式中，f(x)为权重计算函数，min(f(x))为所有词频计算出的权重中的最小值，max(f(x))为所有词频计算出的权重中的最大值，c为超参数。

此外，本发明还提供一种基于词频的文本特征加权系统，包括：

输入程序单元，用于获取待处理数据；

预处理程序单元，用于针对待处理数据提取文本并进行预处理得到D＝{D₁，D₂…D_j…D_M}，其中D_j表示一个文本，j∈[1，M]，M为文本的总数；对文本集合D进行分词，得到所有词的词集合T＝{T₁，T₂…T_i…T_N}，其中T_i表示词，i∈[1，N]，N表示词的总数；

权重计算程序单元，用于统计词集合中词的集合T中每个词出现的次数，得到词对应的频数集合Z＝{(T₁，x₁)，(T₂，x₂)…(T_i，x_i)…(T_N，x_N)}，其中(T_i，x_i)表示词T_i对应的词频x_i，x_i∈N₊，其中N₊表示正整数；基于词对应的频数集合Z进行词频权重计算词集合T中各个词T_i对应的归一化后的权重w_i，从而得到权重集合W＝{(T₁，w₁)，(T₂，w₂)…(T_i，w_i)…(T_N，w_N)}，其中(T_i，w_i)为T_i对应的权重w_i。

此外，本发明还提供一种基于词频的文本特征加权系统，包括计算机设备，该计算机设备被编程或配置以执行所述基于词频的文本特征加权方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行所述基于词频的文本特征加权方法的计算机程序。

此外，本发明还提供一种短文本相似性计算方法，实施步骤包括：

S1)针对待处理数据采用所述基于词频的文本特征加权方法得到词的集合T以及词的集合T中各个词T_i对应的归一化后的权重w_i构成的权重集合W；

S2)基于文本集合D和词集合T＝{T₁，T₂…T_i…T_N}表示为词向量模式，得到词向量集合V＝{(T₁，v₁)，(T₂，v₂)，…(T_i，v_i)…(T_N，v_N)}，(T_i，v_i)表示词T_i对应的词向量为v_i；

S3)结合词向量集合V及权重集合W计算得到加权词向量集合H＝{(T₁，h₁)，(T₂，h₂)，…(T_i，h_i)…(T_N，h_N)}，其中h_i＝w_i×v_i，词权重w_i和词向量v_i分别通过词T_i查找词权重集合W和词向量集合V得到；

S4)针对文本集合D中的任意文本D_j计算对应的向量表示得到文本集合D对应的向量表示集合

S5)针对文本集合D中的任意两个文本C_m、C_n，计算文本C_m、C_n在向量表示集合对应的向量表示之间的距离作为两个文本C_m、C_n之间的相似度S_mn。

此外，本发明还提供一种短文本相似性计算系统，包括计算机设备，该计算机设备被编程或配置以执行所述短文本相似性计算方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行所述短文本相似性计算方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行所述基于词频的文本特征加权方法的计算机程序，或该计算机可读存储介质上存储有被编程或配置以执行所述短文本相似性计算方法的计算机程序。

和现有技术相比，本发明具有下述优点：在大规模文本数据集中对于出现次数少的单词，如果赋予较高权重，选取为特征项，不具有代表性。同时对于只出现一两次的词来说，很多情况是由于书写错误造成的。而对于大量出现的词，不具备有区分度，因此权重较高的数据应该在中间段。本发明基于语料库进行词频统计提出了一种新的基于词频的文本加权的方式，可用于多种文本处理任务。同时使用基于词频加权的方式，来进行文本相似度的计算，通过给予文本中的词不同的权重，实现信息的非线性分布，能够提高文本的相似度计算的准确率，这种权重设计能够降低词频低的词的权重，同时也能够赋予词频高的词的较低的权重，增加中间段词频的词的权重，减少词频低的词和词频高的词对整个文本向量的影响，提高文本间的相似度计算的准确率。

附图说明

图1为本发明实施例基于词频的文本特征加权方法的流程图。

图2为本发明实施例中词频分布示意图。

图3为本发明实施例中拟合得到的高斯函数。

图4为本发明实施例中短文本相似性计算方法的基本步骤示意图。

具体实施方式

下文将以数据来源为pubmed数据集中200多万篇论文摘要中作者的单位为例，对本发明基于词频的文本特征加权及短文本相似性计算方法、系统和介质进行进一步的详细说明。

如图1所示，本实施例基于词频的文本特征加权方法的实施步骤包括：

1)获取待处理数据；

本实施例中，步骤1)获取待处理数据的数据来源为pubmed数据集中200多万篇论文摘要，抽取这200多万篇摘要中作者的单位表述，且只保留最大一级的单位表述。

本实施例中，步骤2)中的预处理包括删除特殊字符、去掉停用词、统一大小写。

本实施例中，步骤3)中进行词频权重计算词集合T中各个词T_i对应的归一化后的权重w_i的详细步骤包括：

Y＝{(x₁，y₁)，(x₂，y₂)，…(x_j，y_j)…(x_n，y_n)}

其中x_j为词频，y_j为对应词频的词的种类数，其中词频x_j从小到大排序，并且j∈[1，n]，n为词频的种类数，x_j∈N₊，y_j∈N₊，N₊表示正整数；本实施例中，基于集合Z统计词频数对应的词的种类数时，得到的词频分布如图2所示，其中x＝log x，y＝y。

C∈N₊，C＞1，k∈N₊

上式中，N₊表示正整数，其中C为可调的超参数，C^k表示上限区间，C^k-1表示下限区间；本实施例中，超参数设置为C＝2。

3.3)使用词对应的频数集合Z拟合高斯函数F(X)；

3.4)对拟合的高斯函数F(X)求导得到权重计算函数f(x)；

本实施例中，步骤3.3)中高斯函数F(X)的函数表达式如下式所示：

上式中，a，b，c为需要拟合的参数；本实施例中最终拟合得到的高斯函数F(X)如图3所示，其中a＝a₁，b＝b₁，c＝c₁。

本实施例中，步骤3.4)中权重计算函数f(x)的函数表达式如下式所示：

上式中，a，b，c为高斯函数F(X)中的参数，x为词频。

本实施例中，步骤3.4)中权重w(f(x))的函数表达式如下式所示：

上式中，f(x)为权重计算函数，min(f(x))为所有词频计算出的权重中的最小值，max(f(x))为所有词频计算出的权重中的最大值，c为超参数。本实施例中，设置超参数c＝1，最终得到最后的得到词对应的权重集合W＝{(T₁，w₁)，(T₂，w₂)…，(T_N，w_N)}。本实施例中的上述权重w(f(x))的函数表达式能够保证下界可控，用于避免低权重的词的权值为零导致向量距离计算过程中为无效数据，同时能够放大高权值差异、减小低权值差异，使向量特征表示更集中在高权值词上同时不忽略低权值的作用。

此外，本实施例还提供一种基于词频的文本特征加权系统，包括：

输入程序单元，用于获取待处理数据；

此外，本实施例还提供一种基于词频的文本特征加权系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行前述基于词频的文本特征加权方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行前述基于词频的文本特征加权方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行前述基于词频的文本特征加权方法的计算机程序。

如图4所示，作为本实施例前述基于词频的文本特征加权方法的一种典型应用，本实施例还提供一种基于词频的文本特征加权方法的短文本相似性计算方法，实施步骤包括：

S1)针对待处理数据采用前述基于词频的文本特征加权方法得到词的集合T以及词的集合T中各个词T_i对应的归一化后的权重w_i构成的权重集合W；

此外，本实施例还提供一种短文本相似性计算系统，包括计算机设备，该计算机设备被编程或配置以执行前述短文本相似性计算方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行前述短文本相似性计算方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行前述短文本相似性计算方法的计算机程序。

需要说明的是，前述基于词频的文本特征加权方法具有广泛的应用前景，其应用场景并不局限于上式短文本相似性计算方法这一特定的实施方式。

综上所述，本实施例提取文本集合并分词获取词集合，统计词集合的频数集合并计算权重集合。基于文本集合和词集合表示为词向量得到词向量集合，结合词向量集合及权重集合计算加权词向量集合；针对任意文本，得出向量表示，并根据两个文本的向量表示，计算两个文本的相似度。本发明通过词频的统计本发明通过给予文本中的词不同的权重，能够实现信息的非线性分布。对于下游的文本相关任务，能够提供一种新的预处理方式。比如对于文本相似度计算，能够提高一定的准确率，这种权重设计能够降低词频低的词的权重，同时也能够赋予词频高的词的较低的权重，增加中间段词频的词的权重，减少词频低的词和词频高的词对整个文本向量的影响，提高文本间的相似度计算的准确率。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于词频的文本特征加权方法，其特征在于实施步骤包括：

1)获取待处理数据；

2.根据权利要求1中所述的基于词频的文本特征加权方法，其特征在于，步骤2)中的预处理包括删除特殊字符、去掉停用词、统一大小写、去重。

3.根据权利要求1中所述的基于词频的文本特征加权方法，其特征在于，步骤3)中进行词频权重计算词集合T中各个词T_i对应的归一化后的权重w_i的详细步骤包括：

Y＝{(x₁，y₁)，(x₂，y₂)，…(x_j，y_j)…(x_n，y_n)}

3.3)使用词对应的频数集合Z拟合高斯函数F(X)；

3.4)对拟合的高斯函数F(X)求导得到权重计算函数f(x)；

4.根据权利要求3中所述的基于词频的文本特征加权方法，其特征在于，步骤3.3)中高斯函数F(X)的函数表达式如下式所示：

上式中，a，b，c为需要拟合的参数；

步骤3.4中权重计算函数f(x)的函数表达式如下式所示：

上式中，a，b，c为高斯函数F(X)中的参数，x为词频。

5.根据权利要求3中所述的基于词频的文本特征加权方法，其特征在于，步骤3.4)中权重w(f(x))的函数表达式如下式所示：

6.一种基于词频的文本特征加权系统，其特征在于包括：

输入程序单元，用于获取待处理数据；

7.一种基于词频的文本特征加权系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～5中任意一项所述基于词频的文本特征加权方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行权利要求1～5中任意一项所述基于词频的文本特征加权方法的计算机程序。

8.一种短文本相似性计算方法，其特征在于实施步骤包括：

S1)针对待处理数据采用权利要求1～5中任意一项所述基于词频的文本特征加权方法得到词的集合T以及词的集合T中各个词T_i对应的归一化后的权重w_i构成的权重集合W；

9.一种短文本相似性计算系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求8所述短文本相似性计算方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行权利要求8所述短文本相似性计算方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～5中任意一项所述基于词频的文本特征加权方法的计算机程序，或该计算机可读存储介质上存储有被编程或配置以执行权利要求8所述短文本相似性计算方法的计算机程序。