CN109597995A

CN109597995A - 一种基于bm25加权结合词向量的文本表示方法

Info

Publication number: CN109597995A
Application number: CN201811476643.8A
Authority: CN
Inventors: 付俊峰; 郑锦坤; 梁良
Original assignee: Information And Communication Branch Of Jiangxi Electric Power Co Ltd; State Grid Corp of China SGCC
Current assignee: Information And Communication Branch Of Jiangxi Electric Power Co Ltd; State Grid Corp of China SGCC
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2019-04-09

Abstract

本发明公开了一种基于BM25加权结合词向量的文本表示方法，包括如以下步骤：步骤1：词的切分，将文档中的句子分解成为单独的词以便进行后续处理；步骤2：预训练词向量，使用当前流行的词向量表示，稀疏和离散的“单热”表示难以捕捉词之间的语义关联性；步骤3：计算词的BM25权重，通过BM25算法给予与文档相关的词更高的权重；步骤4：得到文档向量表示，通过对词的向量与词的权重进行加权求和，能够得到文档的向量表示，并将其作为最终进行分类的特征表示；步骤5：分类，通过分类器进行判断该文档分类到各个类别的概率。本发明使用BM25加权模式，可以从文本中识别出最重要的单词，并在将单词组合成文本表示时赋予它们更大的权重，更加有效且高效。

Description

一种基于BM25加权结合词向量的文本表示方法

技术领域

本发明涉及到数据库数据复制技术领域，特别涉及一种基于BM25加权结合词向量的文本表示方法。

背景技术

将文本表示成有意义和有效的形式是自然语言处理中的一项基本任务。它也是许多基于文本的预测任务(如文档分类)的初始步骤。由于它的重要性，因此有许多前人工作致力于开发高效和有效的算法来表示有利于下游任务的文本。

早期的研究依赖于特征工程，通过从原始文本中提取词n元句法、词汇和句法特征来构造它们的特征集。它们使用一个超大维向量，如果某个词出现，则该向量对应维度为1，因此称为“单热”表示。这样的表示通常是稀疏的和离散的，不能捕捉特征之间的深层语义关联。其他各种技术，使用外部资源，如WordNet，以缓解特征稀疏问题。

表示学习的最新进展缓解了上述问题。表示学习的目的是学习为文本学习一个稠密的，连续的向量，并捕捉语义之间的相关性文本。根据他们是否依赖外部监督，可以进一步分类为无监督和监督的方法。无监督的方法，如Word2vec，段落向量，首先随机初始化文本表示，然后更新表示来预测其上下文。共享相似上下文的文本在向量空间中彼此接近。有监督的任务通常是任务相关的，它根据特定的任务来定制文本表示，并且被训练以最大化模型的性能。

现有工作的局限性是：第一，离散和稀疏表示不能捕获文本段之间的深层语义关联；第二，虽然无监督的方法容易且高效地训练，但它们不适合特定任务。因此，它们通常比监督的效果差。第三，监督一个通常是难以训练，递归神经网络和许多其他的深度学习方法通常有许多参数需要调节。

发明内容

发明的目的在于提供一种基于BM25加权结合词向量的文本表示方法，本发明使用BM25加权模式，可以从文本中识别出最重要的单词，并在将单词组合成文本表示时赋予它们更大的权重，以捕获词之间的语义关联性，本发明的方法有效且高效，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于BM25加权结合词向量的文本表示方法，从一个句子输入到模型中，到最后系统判定其是否为点击诱饵的实施过程分解包括如以下步骤：

步骤1：词的切分，将文档中的句子分解成为单独的词以便进行后续处理；

步骤2：预训练词向量，使用当前流行的词向量表示，稀疏和离散的“单热”表示难以捕捉词之间的语义关联性，而词向量表示连续和稠密，被训练来预测上下文中的周围单词；

步骤3：计算词的BM25权重，在进行文本表示时，需要综合考虑词的局部重要性和全局重要性，计算每个词相对整篇文档的权重时，通过BM25算法给予与文档相关的词更高的权重；

步骤4：得到文档向量表示，通过在引入的BM25函数获得单词向量及每个词对文档的相对重要性，可以获得一个文本的稠密向量表示，通过对词的向量与词的权重进行加权求和，能够得到文档的向量表示，并将其作为最终进行分类的特征表示；

步骤5：分类，将词向量加权得到的向量作为文本的特征输入，通过分类器进行判断该文档分类到各个类别的概率，将概率最大的类别作为模型的输出。

进一步地，模型的框架由BM25加权模块、文本表示组件以及分类组件组成，其中，

BM25加权模块测量文本中每个单词的重要性；

文本表示组件计算用于文档表示的每个单词的加权平均值；

分类组件使用文本表示作为其输入，并作出最终的预测。

进一步地，单词的单词向量堆叠在词汇表中，通过函数查找L找到对应的给定词的词向量。

进一步地，BM25的一个正式定义，计算文档d中词W_i的相关性得分如下：

其中b，k₁均为超参数，|d|为文档的长度,，|avgdl|为整个数据集中文档的平均长度，IDF用于计算词的反文档频率。

进一步地，IDF的计算方法如下：

其中N数据集中文档数目，f(w_i，d)表示词在文档中出现的频率。

进一步地，文档的向量表示为：

e_d＝∑score(w_i，d)·ew_i。

进一步地，通过softmax分类器预测e_d的类别，公式如下：

p(y|e_d)＝softmax(f(e_d))

其中f是一个非线性激活函数，y是文档的类别，则整个模型只需要最小化如下的损失函数：

J(θ)＝-log(p(y|e_d；θ))。

与现有技术相比，本发明的有益效果是：本发明提出的基于BM25加权结合词向量的文本表示方法，本发明使用BM25加权模式，使用BM25对文本中的每个单词进行局部和全局的加权，可以从文本中识别出最重要的单词，并在将单词组合成文本表示时赋予它们更大的权重，预训练的词向量包含上下文知识，以捕获词之间的语义关联性，结合了无监督和监督的方法的优点，实验结果表明，与现有的基于特征的、无监督的和监督的基线相比，本发明的方法有效且高效。

附图说明

图1为本发明的流程图；

图2为本发明的步骤1的程序代码图；

图3为本发明的步骤2的程序代码图；

图4为本发明的步骤3的程序代码图；

图5为本发明的步骤4的程序代码图；

图6为本发明的步骤5的程序代码图；

图7为本发明的模型的整体框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于BM25加权结合词向量的文本表示方法，流程如图1，从一个句子输入到模型中，到最后系统判定其是否为点击诱饵的实施过程分解包括如以下步骤：

步骤1：词的切分，目的是将文档中的句子分解成为单独的词以便进行后续处理(程序代码如图2)；

步骤2：预训练词向量，使用当前流行的词向量表示，稀疏和离散的“单热”表示难以捕捉词之间的语义关联性(如同义词)，而词向量表示是连续的和稠密的，被训练来预测上下文中的周围单词，使得在向量空间中具有相似意义的词彼此接近，使用在大型新闻数据集上预先训练的词向量(程序代码如图3)；

步骤3：计算词的BM25权重，每个单词对文档的整体含义有不同的贡献，常用词或语气词在文章或句子中出现的频率很高，但是其重要性偏弱，有些词比其他词显示出更大的相关性，因此在进行文本表示时，需要综合考虑词的局部重要性和全局重要性，计算每个词相对整篇文档的权重时，通过BM25算法给予与文档相关的词更高的权重(程序代码如图4)；

步骤4：得到文档向量表示，通过在引入的BM25函数获得单词向量及每个词对文档的相对重要性，可以获得一个文本的稠密向量表示，通过对词的向量与词的权重进行加权求和，能够得到文档的向量表示，并将其作为最终进行分类的特征表示(程序代码如图5)；

步骤5：分类，将词向量加权得到的向量作为文本的特征输入，通过分类器进行判断该文档分类到各个类别的概率，将概率最大的类别作为模型的输出(程序代码如图6)。

基于上述的方法，该方法的模型的整体框架如图7，模型的框架由BM25加权模块、文本表示组件以及分类组件组成，BM25加权模块测量文本中每个单词的重要性；文本表示组件计算用于文档表示的每个单词的加权平均值；分类组件使用文本表示作为其输入，并作出最终的预测。对各个组件的具体阐述为：

1.词向量表示

使用当前流行的词向量表示。稀疏和离散的“单热”表示难以捕捉词之间的语义关联性(如同义词)，而词向量表示是连续的和稠密的。被训练来预测上下文中的周围单词，使得在向量空间中具有相似意义的词彼此接近。使用在大型新闻数据集上预先训练的词向量。把单词的单词向量堆叠在词汇表中。通过函数查找函数L找到对应的给定词的词向量。

2.词权重计算

每个单词对文档的整体含义有不同的贡献，有些词比其他词显示出更大的相关性，现有的深度学习研究要么考虑每个单词同等重要，要么使用注意机制来计算每个单词的权重，这对于大数据集来说计算效率低下。为了使模型有效，同时保持有效性，使用BM25函数来计算文档中每个单词的相关性，BM25是信息检索中的函数，将每个文档的相关性排序为给定的查询。使用它计算一个词的相对于文本的相关性，考虑到一个词的局部以及全局重要性。

BM25的一个正式定义，计算文档d中词W_i的相关性得分如下：

其中b，k₁均为超参数，|d|为文档的长度,，|avgdl|为整个数据集中文档的平均长度，IDF用于计算词的反文档频率，IDF的计算方法如下：

其中N数据集中文档数目，f(w_i，d)表示词在文档中出现的频率。为了使得同一篇文档中的词加权为1，使用L2正则化处理。

1.文本表示

通过在引入的BM25函数获得单词向量及其对文档的相对重要性，可以获得一个文本的稠密向量表示，给定文档中各个词的向量e_w1，e_w2，…，e_wn以及各词的相对文档的权重score(w₁，d)，score(w₂，d)，…，score(w_n，d)，通过加权求和，就能得到文档的向量表示：

e_d＝∑score(w_i，d)·e_wi。

2.分类

一旦我们获得了文档表示e_d，可以通过softmax分类器来预测它的类别公式如下：

p(y|e_d)＝softmax(f(e_d))

J(θ)＝-log(p(y|e_d；θ))。

本发明使用BM25加权模式，可以从文本中识别出最重要的单词，并在将单词组合成文本表示时赋予它们更大的权重，预训练的词向量包含上下文知识，以捕获词之间的语义关联性。例如，“足球”和“篮球”在向量空间中是很接近的。如果当看到文本里面的“足球”时把该文本分类为“体育”类别，同样可以把提到“篮球”的文本分类为“体育”类别，对一个常用的文档分类数据集进行了实验，数据集包含20个不同的类别，范围从“体育”到“政治”。与各种现有的监督和无监督的方法进行比较，实验结果表明，本发明的方法具有有效性和鲁棒性。同时，结合BM25加权模式和预训练单词向量的文本表示非常有前景。

综上所述，本发明提出的基于BM25加权结合词向量的文本表示方法，本发明使用BM25加权模式，使用BM25对文本中的每个单词进行局部和全局的加权，可以从文本中识别出最重要的单词，并在将单词组合成文本表示时赋予它们更大的权重，预训练的词向量包含上下文知识，以捕获词之间的语义关联性，结合了无监督和监督的方法的优点，实验结果表明，与现有的基于特征的、无监督的和监督的基线相比，本发明的方法有效且高效。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于BM25加权结合词向量的文本表示方法，其特征在于，从一个句子输入到模型中，到最后系统判定其是否为点击诱饵的实施过程分解包括如以下步骤：

2.根据权利要求1所述的一种基于BM25加权结合词向量的文本表示方法，其特征在于，模型的框架由BM25加权模块、文本表示组件以及分类组件组成，其中，

BM25加权模块测量文本中每个单词的重要性；

文本表示组件计算用于文档表示的每个单词的加权平均值；

分类组件使用文本表示作为其输入，并作出最终的预测。

3.根据权利要求1所述的一种基于BM25加权结合词向量的文本表示方法，其特征在于，单词的单词向量堆叠在词汇表中，通过函数查找L找到对应的给定词的词向量。

4.根据权利要求1所述的一种基于BM25加权结合词向量的文本表示方法，其特征在于，BM25的一个正式定义，计算文档d中词W_i的相关性得分如下：

5.根据权利要求4所述的一种基于BM25加权结合词向量的文本表示方法，其特征在于，IDF的计算方法如下：

6.根据权利要求1所述的一种基于BM25加权结合词向量的文本表示方法，其特征在于，文档的向量表示为：

e_d＝∑score(w_i，d)·e_wi。

7.根据权利要求6所述的一种基于BM25加权结合词向量的文本表示方法，其特征在于，通过softmax分类器预测e_d的类别，公式如下：

p(y|e_d)＝softmax(f(e_d))

J(θ)＝-log(p(y|e_d；θ))。