CN109885813A

CN109885813A - 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质

Info

Publication number: CN109885813A
Application number: CN201910119133.3A
Authority: CN
Inventors: 徐乐乐
Original assignee: Wuhan Ouyue Netvision Co Ltd
Current assignee: Wuhan Ouyue Netvision Co Ltd
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-06-14
Anticipated expiration: 2039-02-18
Also published as: CN109885813B

Abstract

本发明涉及一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质，所述方法运用分词器对弹幕库的弹幕进行分词，再运用TF‑IDF公式及改进‑余弦相似度公式计算弹幕的词向量矩阵以及任意两个弹幕之间的特征词覆盖度，最后得出文本相似度结果，由此降低噪音的干扰。

Description

一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质

技术领域

本发明涉及大数据领域，具体涉及一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质。

背景技术

在信息时代，人们迫切希望从海量信息中获取与自身需要和兴趣吻合度高的内容。为了满足此需求，出现了多种应用，如搜索引擎、自动问答系统、文档分类与聚类、文献查重、文献精准推送等，而这些应用场景的关键技术之一就是文本相似度计算技术，在直播间的弹幕的文本相似度，通常使用的是余弦相似度运算方法、或者欧式距离，通过空间距离判断文本的相似度，这些运算方法都有缺陷，均没有考虑文本间相同的特征词进行统计，会导致运算结果错误率较高。

发明内容

鉴于现有技术存在的问题，本发明的目的是提供一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质，运用分词器对弹幕库的弹幕进行分词，再运用TF-IDF公式及改进-余弦相似度公式计算弹幕的词向量矩阵以及任意两个弹幕之间的特征词覆盖度，最后得出文本相似度结果。

为了实现上述目的，本发明采用的技术方案为一种基于词语覆盖度的文本相似度的运算方法，所述方法包括以下步骤：

S1、运用分词器对弹幕库的各条弹幕进行分词；

S2、运用第一公式，计算步骤S1中各条弹幕的词向量矩阵，并基于词向量矩阵，将各条弹幕进行向量化的表示；

S3、选取步骤2中向量化表示的任意两个弹幕，计算任意两个弹幕间特征词的相互覆盖度，并结合第二公式，计算所述两个弹幕之间的相似度。

在上述技术方案中，所述步骤S1中，所述分词器还去除弹幕中停用词。

在上述技术方案中，所述步骤S2中，所述第一公式为：其中，W_ij表示第i句文本中第j个词的TF- IDF权重，tf_ij表示第i句文本中第j个词的词频，N表示总的文本数， n_j表示出现第j个词的总文本数。

在上述技术方案中，所述步骤S3中，所述第二公式为改进的余弦相似度公式：其中，将短语A 通过TF-IDF向量化表示，同理，n表示的维数，所述维数即为向量的数量，m_A,B表示句子A、B的相同特征词个数，min(m_A,B)表示特征词数较少的文本长度，λ表示的句子中互不重复的特征词数。

在上述技术方案中，所述步骤S3中所述相互覆盖度包括任意两个弹幕之间的相同的特征词，两个弹幕的长度以及两个弹幕互不重复词语长度。

本发明还公开一种基于词语覆盖度的文本相似度的运算系统，所述系统包括分词模块、第一计算模块、第二计算模块：

分词模块，用于运用分词器对弹幕库的各条弹幕进行分词；

第一计算模块，用于运用第一公式，计算分词模块中各条弹幕的词向量矩阵，并基于词向量矩阵，将各条弹幕进行向量化的表示；

第二计算模块，用于选取第一计算模块中向量化表示的任意两个弹幕，计算任意两个弹幕间特征词的相互覆盖度，并结合第二公式，计算所述两个弹幕之间的相似度。

在上述技术方案中，所述分词模块中，所述分词器还去除弹幕中停用词。

在上述技术方案中，所述第二计算模块中所述相互覆盖度包括任意两个弹幕之间的相同的特征词，两个弹幕的长度以及两个弹幕互不重复词语长度。：

本发明还公开一种基于词语覆盖度的文本相似度的运算系统的服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述一种基于词语覆盖度的文本相似度的运算方法的步骤。

本发明还公开一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述一种基于词语覆盖度的文本相似度的运算方法的步骤。

本发明一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质，具有以下有益效果：运用分词器对弹幕库的弹幕进行分词，再运用TF-IDF公式及改进-余弦相似度公式计算弹幕的词向量矩阵以及任意两个弹幕之间的特征词覆盖度，最后得出文本相似度结果，由此降低噪音的干扰。

附图说明

图1为本发明实施例一提供的一种基于词语覆盖度的文本相似度的运算方法的流程图；

图2本发明实施例二提供一种基于词语覆盖度的文本相似度的运算系统模块图；

图3为本发明实施例三提供的服务器的结构示意图。

具体实施方式

本发明提供一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质，运用分词器对弹幕库的弹幕进行分词，再运用TF-IDF公式及改进-余弦相似度公式计算弹幕的词向量矩阵以及任意两个弹幕之间的特征词覆盖度，最后得出文本相似度结果。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明如图1所示实施例一提供一种基于词语覆盖度的文本相似度的运算方法，所述方法包括以下步骤：

S1、运用分词器对弹幕库的各条弹幕进行分词；

可选的，所述分词器为Jieba分词器，其中，Jieba分词算法使用了基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG),再采用了动态规划查找最大概率路径，找出基于词频的最大切分组合，对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。Jieba分词支持三种分词模式：1.精确模式，试图将句子最精确地切开，适合文本分析； 2.全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；3.搜索引擎模式，在精确模式的基础上，对长词再词切分，提高召回率，适合用于搜索引擎分词。Jiaba分词还支持繁体分词和支持自定义分词。

可选的，所述步骤S1中，所述分词器还去除弹幕中停用词。所述停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。但是，并没有一个明确的停用词表能够适用于所有的工具。停用词大致分为两类。一类是人类语言中包含的功能词，这些功能词极其普遍，与其他词相比，功能词没有什么实际含义，比如'the'、 'is'、'at'、'which'、'on'等。但是特别是像'The Who'、'The The' 或'Take The'等复合名词时，停用词的使用就会导致问题。另一类词包括词汇词，比如'want'等，这些词应用十分广泛。

可选的，所述步骤S2中，所述第一公式为TF-IDF公式：其中，W_ij表示第i句文本中第j个词的TF- IDF权重，tf_ij表示第i句文本中第j个词的词频，N表示总的文本数， n_j表示出现第j个词的总文本数。

可选的，运用TF-IDF公式，计算出弹幕的TF-IDF的词向量矩阵，可以对所有句子进行向量化的表示。

其中，所述TF-IDF公式为TF-IDF(Term Frequency-Inverse Do cumentFrequency,词频-逆文件频率)，是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-ID F实际上是：TF*IDF。

词频(Term Frequency，TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。)

逆向文件频率(Inverse Document Frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

TF-IDF按照如下的方式对文档d中的词项t赋予权重：当t只在少数几篇文档中多次出现时，权重取值最大(此时能够对这些文档提供最强的区分能力)；当t在一篇文档中出现次数很少，或者在很多文档中出现，权重取值次之(此时对最后的相关度计算作用不大)；如果t在所有文档中都出现，那么权重取值最小。

通过TF-IDF公式，得到句子的向量空间表示，通过用TF-IDF表示词的权重，就可以把文档看成是一个向量(vector)，其中的每个分量都对应词典中的一个词，分量值为词的权重值(可用TF-IDF计算，也有其他方法计算权重值)。当某词在文档中没有出现时，其对应的分量值为0。这种向量形式对于评分和排序十分重要。一系列文档在同一向量空间中的表示被称为向量空间模型(vector space mo del，简称VSM)，它是信息检索领域一系列相关处理的基础，比如文档的评分、文档的分类及聚类。

用TF-IDF构建有权词向量空间(TFIDF_space.py)，构建词向量空间W，每一个词都是W的一个维度(好比是三维空间中的x,y,z), 该维度上的值是该词的权重(由TF-IDF算出)，为了减少W的维度, 要把没用的词(如”的”,“了”等)去掉,为实现这个功能可以使用一个停用词表,把没用的词剔除，该部分最后的运行结果有两个:(1) 词典(单词及其对应的序号),(2)权重矩阵tdm(该矩阵是二维的, 即tdm[i][j]表示第i个词在第j个类别中的权值)。

具体的，有很多不同的数学公式用来计算TF-IDF。词频(TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个，而某个词语出现了3次，那么该词在该文件中的词频就是3/100＝0.03。一个计算文件频率(DF)的方法是测定有多少份文件出现过“母牛”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是10,000,00 0份的话，其逆向文件频率就是log(10,000,000/1,000)＝4。最后的TF-IDF的分数为0.03*4＝0.12。

根据关键字k1,k2,k3进行搜索结果的相关性就变成TF1*IDF1+ TF2*IDF2+TF3*IDF3。比如document1的term总量为1000，k1,k 2,k3在document1出现的次数是100，200，50。包含了k1,k2,k 3的docuement总量分别是1000，10000，5000。document set的总量为10000。TF1＝100/1000＝0.1，TF2＝200/1000＝0.2，TF3＝50/1000 ＝0.05，IDF1＝log(10000/1000)＝log(10)＝2.3，IDF2＝log(10000/100 000)＝log(1)＝0；IDF3＝log(10000/5000)＝log(2)＝0.6，这样关键字k 1,k2,k3与docuement1的相关性＝0.1*2.3+0.2*0+0.05*0.69＝0.2645 其中k1比k3的比重在document1要大，k2的比重是0。

在某个一共有一千词的网页中“原子能”、“的”和“应用”分别出现了2次、35次和5次，那么它们的词频就分别是0.002、0.035 和0.005。将这三个数相加，其和0.042就是相应网页和查询“原子能的应用”相关性的一个简单的度量。概括地讲，如果一个查询包含关键词w1,w2,...,wN，它们在一篇特定网页中的词频分别是:TF 1,TF2,...,TFN。(TF:termfrequency)。那么，这个查询和该网页的相关性就是:TF1+TF2+...+TFN。

在上述示例中，词“的”站了总词频的80％以上，而它对确定网页的主题几乎没有用。称这种词叫“应删除词”(Stopwords)，也就是说在度量相关性是不应考虑它们的频率。在汉语中，应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后，上述网页的相似度就变成了0.007，其中“原子能”贡献了0.0 02，“应用”贡献了0.005。在汉语中，“应用”是个很通用的词，而“原子能”是个很专业的词，后者在相关性排名中比前者重要。因此需要给汉语中的每一个词给一个权重，这个权重的设定必须满足下面两个条件：1.一个词预测主题能力越强，权重就越大，反之，权重就越小。在网页中看到“原子能”这个词，或多或少地能了解网页的主题。看到“应用”一次，对主题基本上还是一无所知。因此，“原子能“的权重就应该比应用大。2.应删除词的权重应该是零。

如果一个关键词只在很少的网页中出现，通过它就容易锁定搜索目标，它的权重也就应该大。反之如果一个词在大量网页中出现，看到它仍然不很清楚要找什么内容，因此它应该小。概括地讲，假定一个关键词w在Dw个网页中出现过，那么Dw越大，w的权重越小，反之亦然。

S3、选取步骤2中向量化表示的任意两个弹幕，计算任意两个弹幕间特征词的相互覆盖度，并结合运用第二公式，计算所述两个弹幕之间的相似度。

可选的，所述步骤S3中，所述第二公式为改进的余弦相似度公式：其中，将短语A通过TF-I DF向量化表示，同理，n表示的维数，所述维数即为向量的数量，m_A,B表示句子A、B的相同特征词个数，min(m_A,B)表示特征词数较少的文本长度，λ表示的句子中互不重复的特征词数。

其中，相似度度量(Similarity)，即计算个体间的相似程度，相似度度量的值越小，说明个体间相似度越小，相似度的值越大说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何，是将这些文本中词语，映射到向量空间，形成文本中文字和向量数据的映射关系，通过计算几个或者多个不同的向量的差异的大小，来计算文本的相似度。

其中，所述步骤S3包括以下步骤：

S31、计算任意两个弹幕间特征词的相互覆盖度；所述覆盖度是指任意两个弹幕的相同的部分包括任意两个弹幕之间的相同的特征词，两个弹幕的长度以及两个弹幕互不重复词语长度。

S32、对比步骤S31中任意两个弹幕的相互覆盖度，若两个弹幕的特征词完全相同，则相似度高，反之则低。

可选的，通过改进的余弦相似度公式计算任意两个弹幕间特征词的相互覆盖度，如果两个句子的特征词完全相同，则他们的相似度越高；反之则越低。这样可以放大文本之间的差异，降低噪音的干扰；同时通过λ放大相似结果。

本发明实施例二如图2所示提供一种基于词语覆盖度的文本相似度的运算系统，所述系统包括分词模块、第一计算模块、第二计算模块：

分词模块，用于运用分词器对弹幕库的各条弹幕进行分词；

可选的，所述分词模块中，所述分词器还去除弹幕中停用词。

可选的，所述第二计算模块中所述相互覆盖度包括任意两个弹幕之间的相同的特征词，两个弹幕的长度以及两个弹幕互不重复词语长度。通过以下实施例对本发明进行说明：

假设我们有一份弹幕语料集合，对语料集合中的每一条弹幕进行分词，并去除停用词。

输入句子A＝我想去北京读大学，待匹配B＝北京的大学真好玩，利用jieba分词后可以得到：

A＝我/n想去/adv北京/n读/v大学/n

B＝北京/n的/adv大学/n真/adj好玩/adj

其中，句子A、B的互不相同的词项集合Uword＝{我,想去,北京, 读,大学,的,真,好玩}

那么对应词性权重的U＝{0.7,0,0.7,0.6,0.7,0,0,0}

因此

句子A的词性权重g_i＝{0.7,0,0.7,0.6,0.7,0,0,0}

句子B的词性权重g′_i＝{0,0,0.7,0,0.7,0,0,0}

句子A，B在TF-IDF的向量空间映射为：

W_ai＝{0.1,0.2,0.3,0.1,0.6,0.1,0.1,0.1}

W_bi＝{0.1,0.2,0.5,0.2,0.6,0.3,0.4,0.3}

因此A、B两个句子中共同出现的特征词有A&B＝{北京,大学},A、B两句的长度均为5,互补重复的词语集合长度为8；因此根据公式改进余弦相似度公式进行计算：

因此句子A、B相似度的评分为2.94。

本发明实施例三如图3所示提供一种基于词语覆盖度的文本相似度的运算系统的服务器结构示意图，所述实施例的服务器包括：处理器30、存储器31以及存储在所述存储器31中并可在所述处理器 30上运行的计算机程序32。所述处理器30执行所述计算机程序32时实现上述各方法实施例中的步骤，所述处理器30执行所述计算机程序32时实现上述装置实施例中各模块的功能。

所述一种基于词语覆盖度的文本相似度的运算系统的服务器可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备，所述一种基于词语覆盖度的文本相似度的运算系统的服务器可包括，但不限于，处理器30、存储器31。图3仅仅是对此服务器的示例，并不构成对此服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，所述一种基于词语覆盖度的文本相似度的运算系统的服务器还可以包括输入输出设备33、显示设备34等。

所述处理器30可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器31可以是所述一种基于词语覆盖度的文本相似度的运算系统的服务器的内部存储单元、硬盘或内存。所述存储器31也可以是所述服务器的外部存储设备，或配备的插接式硬盘，智能存储卡，安全数字卡，闪存卡等。

进一步地，所述存储器31还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述存储器31用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。

所述的输入输出设备33可用于接收输入的数字或字符信息，具体的，输入输出设备33还可以包括但不限于键盘、鼠标、操作杆等中的一种和多种。

所述的显示设备34可用于显示由用户输入的信息或提供给用户信息以及终端的各种菜单，显示设备34可包括显示面板，可选的，可采用液晶显示器。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实施例的模块、方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于词语覆盖度的文本相似度的运算方法，其特征在于，所述方法包括以下步骤:

S1、运用分词器对弹幕库的各条弹幕进行分词；

2.根据权利要求1所述一种基于词语覆盖度的文本相似度的运算方法，其特征在于，所述步骤S1中，所述分词器还去除弹幕中停用词。

3.根据权利要求1所述一种基于词语覆盖度的文本相似度的运算方法，其特征在于，所述步骤S2中，所述第一公式为：其中，W_ij表示第i句文本中第j个词的TF-IDF权重，tf_ij表示第i句文本中第j个词的词频，N表示总的文本数，n_j表示出现第j个词的总文本数。

4.根据权利要求1所述一种基于词语覆盖度的文本相似度的运算方法，其特征在于，所述步骤S3中，所述第二公式为改进的余弦相似度公式：其中，将短语A通过TF-IDF向量化表示，同理，n表示的维数,所述维数即为向量的数量，m_A,B表示句子A、B的相同特征词个数，min(m_A,B)表示特征词数较少的文本长度，λ表示的句子中互不重复的特征词数。

5.根据权利要求4所述一种基于词语覆盖度的文本相似度的运算方法，其特征在于，所述步骤S3中所述相互覆盖度包括任意两个弹幕之间的相同的特征词，两个弹幕的长度以及两个弹幕互不重复词语长度。

6.一种基于词语覆盖度的文本相似度的运算系统，其特征在于，所述系统包括分词模块、第一计算模块、第二计算模块：

分词模块，用于运用分词器对弹幕库的各条弹幕进行分词；

7.根据权利要求6所述一种基于词语覆盖度的文本相似度的运算系统，其特征在于，所述分词模块中，所述分词器还去除弹幕中停用词。

8.根据权利要求6所述一种基于词语覆盖度的文本相似度的运算系统，其特征在于，所述第二计算模块中所述相互覆盖度包括任意两个弹幕之间的相同的特征词，两个弹幕的长度以及两个弹幕互不重复词语长度。

9.一种基于词语覆盖度的文本相似度的运算系统的服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述一种基于词语覆盖度的文本相似度的运算方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述一种基于词语覆盖度的文本相似度的运算方法的步骤。