CN110956033A - 一种文本相似度计算方法及装置 - Google Patents
一种文本相似度计算方法及装置 Download PDFInfo
- Publication number
- CN110956033A CN110956033A CN201911228960.2A CN201911228960A CN110956033A CN 110956033 A CN110956033 A CN 110956033A CN 201911228960 A CN201911228960 A CN 201911228960A CN 110956033 A CN110956033 A CN 110956033A
- Authority
- CN
- China
- Prior art keywords
- target
- word
- text
- word set
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 144
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000009849 deactivation Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 8
- 238000010276 construction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本相似度计算方法,包括:对第一文本和第二文本进行预处理,得到第一目标词集和第二目标词集,其中,第一目标词集包含第一数量的词,第二目标词集包含第二预设数量的词;将第一目标词集和第二目标词集传递给采用预设的训练方法构建的目标word2vec模型分别转化为第一目标词向量和第二目标词向量;计算第一目标词向量和第二目标词向量的余弦相似度;当余弦相似度大于预设相似度阈值时,判定第一文本和第二文本相似。上述方法,采用word2vec模型确定第一目标词向量和第二目标词向量,由于word2vec模型加入了语义相似度计算的内容,不再将字符或者是词语作为独立的知识单元,提高了相似度计算的准确率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本相似度计算方法及装置。
背景技术
在信息爆炸时代,人们迫切希望从海量信息中获取与自身需要和兴趣吻合度高的内容。为了满足此需求,出现了多种应用,如搜索引擎、自动问答系统、文档分类与聚类、文献查重、文献精准推送等,而这些应用场景的关键技术之一就是文本相似度计算技术。
现在常用的相似度计算方法都属于字符串匹配算法,以字符串共现和重复程度为相似性的衡量方法,典型的有SimHash算法。SimHash算法的原理是将一个文档转换成64位的字节,然后我们可以通过判断两个字节的汉明距离就知道是否相似。
当前基于字符串的方法是在字面层次上的文本比较,但不足的是将字符或词语作为独立的知识单元,并未考虑词语本身的含义和词语之间的关系。以同义词为例,尽管表达不同,但具有相同的含义,而这类词语的相似度依靠基于字符串的方法并不能准确计算。
发明内容
有鉴于此,本发明提供了一种文本相似度计算方法及装置,用以解决在相似度计算过程中当前基于字符串的方法是在字面层次上的文本比较,但不足的是将字符或词语作为独立的知识单元,并未考虑词语本身的含义和词语之间的关系。以同义词为例,尽管表达不同,但具有相同的含义,而这类词语的相似度依靠基于字符串的方法并不能准确计算的问题。具体方案如下:
一种文本相似度计算方法,其特征在于,包括:
对第一文本和第二文本进行预处理,得到第一目标词集和第二目标词集,其中,所述第一目标词集包含第一数量的词,所述第二目标词集包含第二预设数量的词;
将所述第一目标词集和所述第二目标词集传递给采用预设的训练方法构建的目标word2vec模型分别转化为第一目标词向量和第二目标词向量;
计算所述第一目标词向量和所述第二目标词向量的余弦相似度;
当所述余弦相似度大于预设相似度阈值时,判定所述第一文本和所述第二文本相似。
上述的方法,可选的,对第一文本和第二文本进行预处理,包括:
分别对所述第一文本和所述第二文本进行分词处理,得到第一词集和第二词集;
分别将所述第一词集和所述第二词集中的词与预设的停用词库进行比较;
当所述第一词集和/或所述第二词集中出现与所述预设的停用词库中任意停用词相同的目标停用词时,将所述目标停用词进行删除处理。
上述的方法,可选的,分别对所述第一文本和所述第二文本进行分词处理,得到第一词集和第二词集,包括;
确定所述第一文本和所述第二文本所属行业;
依据所述行业,确定所述行业的目标专业词汇库;
依据所述目标专业词汇库,分别对所述第一文本和所述第二文本进行jieba分词,得到第一词集和第二词集。
上述的方法,可选的,将所述第一目标词集和所述第二目标词集传递给采用预设的训练方法构建的目标word2vec模型分别转化为第一目标词向量和所述第二目标词向量,包括:
将所述第一目标词集和所述第二目标词集基于所述目标word2vec模型中的连续词袋架构转化为第一数量预设维度的词向量和第二数量预设维度的词向量;
分别将所述第一数量预设维度词向量和所述第二数量预设维度词向量的对应项进行求和取平均,得到所述第一目标词向量和所述第二目标词向量。
上述的方法,可选的,采用预设的训练方法构建的目标word2vec模型,包括:
依据所述第一文本和所述第二文本所属行业,构建word2vec模型;
采用历史文本对所述word模型进行语义学习训练,其中,所述历史数据的目标历史词向量已知;
当所述word2vec模型输出的历史词向量与所述目标历史词向量的相似度达到目标相似度阈值时,当前word2vec模型为目标word2vec模型。
一种文本相似度计算装置,包括:
预处理模块,用于对第一文本和第二文本进行预处理,得到第一目标词集和第二目标词集,其中,所述第一目标词集包含第一数量的词,所述第二目标词集包含第二预设数量的词;
转化模块,用于将所述第一目标词集和所述第二目标词集传递给采用预设的训练方法构建的目标word2vec模型分别转化为第一目标词向量和第二目标词向量;
计算模块,用于计算所述第一目标词向量和所述第二目标词向量的余弦相似度;
判定模块,用于当所述余弦相似度大于预设相似度阈值时,判定所述第一文本和所述第二文本相似。
上述的装置,可选的,所述预处理模块包括:
分词单元,用于分别对所述第一文本和所述第二文本进行分词处理,得到第一词集和第二词集;
比较单元,用于分别将所述第一词集和所述第二词集中的词与预设的停用词库进行比较;
删除单元,用于当所述第一词集和/或所述第二词集中出现与所述预设的停用词库中任意停用词相同的目标停用词时,将所述目标停用词进行删除处理。
上述的装置,可选的,所述分词单元包括;
行业确定子单元,用于确定所述第一文本和所述第二文本所属行业;
词汇库确定子单元,用于依据所述行业,确定所述行业的目标专业词汇库;
分词子单元,用于依据所述目标专业词汇库,分别对所述第一文本和所述第二文本进行jieba分词,得到第一词集和第二词集。
上述的装置,可选的,所述转化模块包括:
转化单元,用于将所述第一目标词集和所述第二目标词集基于所述目标word2vec模型中的连续词袋架构转化为第一数量预设维度的词向量和第二数量预设维度的词向量;
处理单元,用于分别将所述第一数量预设维度词向量和所述第二数量预设维度词向量的对应项进行求和取平均,得到所述第一目标词向量和所述第二目标词向量。
上述的装置,可选的,所述转化模块中采用预设的训练方法构建的目标word2vec模型,包括:
构建单元,用于依据所述第一文本和所述第二文本所属行业,构建word2vec模型;
训练单元,用于采用历史文本对所述word模型进行语义学习训练,其中,所述历史数据的目标历史词向量已知;
确定单元,用于当所述word2vec模型输出的历史词向量与所述目标历史词向量的相似度达到目标相似度阈值时,当前word2vec模型为目标word2vec模型。
与现有技术相比,本发明包括以下优点:
本发明公开了一种文本相似度计算方法,包括:对第一文本和第二文本进行预处理,得到第一目标词集和第二目标词集,其中,第一目标词集包含第一数量的词,第二目标词集包含第二预设数量的词;将第一目标词集和第二目标词集传递给采用预设的训练方法构建的目标word2vec模型分别转化为第一目标词向量和第二目标词向量;计算第一目标词向量和第二目标词向量的余弦相似度;当余弦相似度大于预设相似度阈值时,判定第一文本和第二文本相似。上述方法,采用word2vec模型确定第一目标词向量和第二目标词向量,由于word2vec模型加入了语义相似度计算的内容,不再将字符或者是词语作为独立的知识单元,提高了相似度计算的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种文本相似度计算方法流程图;
图2为现有技术中公开的一种连续词袋架构示意图;
图3为本申请实施例公开的一种文本相似度计算方法又一流程图;
图4为本申请实施例公开的一种文本相似度计算方法又一流程图;
图5为本申请实施例公开的一种文本相似度计算装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明公开了一种文本相似度计算方法及装置,应用在文本相似度的计算过程中,可以应用于各个行业的文本相似度计算,本发明实施例中,以电力行业为例进行说明,主要针对电力行业中不同年份或者不同节点的可行性研究报告的相似度计算过程进行说明,95598国家电网客服中心(以下简称国网客服中心)为了避免每年新建项目功能重复性建设,造成经济损失与浪费,设计了一套面向95598项目重复性功能筛查系统,通过对每年新报的项目可行性研究报告中的功能点与历史项目可行性研究报告功能点进行文本相似度匹配,查找出那些相似度较高的功能点。在现阶段的功能相似度计算应用的是基于字符串的方法,该方法通过比较两个句子的词语的重复和相似程度、词序相似度等来衡量句子的相似度,这种方法的弊端在于但字符或词语作为独立的知识单元,并未考虑词语本身的含义和词语之间的关系,无法实现句子语义相似度的计算,以同义词为例,尽管表达不同,但具有相同的含义,而这类词语的相似度依靠基于字符串的方法并不能准确计算。因此本发明提供了一种文本语义相似度计算方法,用于解决上述问题,所述计算方法的执行流程如图1所示,包括步骤:
S101、对第一文本和第二文本进行预处理,得到第一目标词集和第二目标词集,其中,所述第一目标词集包含第一数量的词,所述第二目标词集包含第二预设数量的词;
本发明实施例中,所述第一文本和所述第二文本为两版不同的可行性研究报告中针对同一部分选取的一段文本,选取的方式可以以段落、逗号或者句号为分割点,优选的,本发明实施例中以句号作为不同文本之间的分割点,其中,可行性研究报告优选的以word形式存在,分别将获取到的所述第一文本和所述第二文本进行分词和去停用词处理,得到所述第一目标词集和所述第二目标词集,所述第一目标词集包含第一数量的词,所述第二目标词集包含第二预设数量的词,其中,所述第一数量和所述第二数量与所述第一文本和所述第二文本的选取有关。
S102、将所述第一目标词集和所述第二目标词集传递给采用预设的训练方法构建的目标word2vec模型分别转化为第一目标词向量和第二目标词向量;
本发明实施例中,所述目标word2vec模型是采用预设的构建方法进行构建的,所述目标word2vec模型的输入为所述第一目标词集和所述第二目标词集,输出分别为所述第一目标词向量和所述第二目标词向量,由于词向量具有良好的语义特性,是表示词语特征的常用方式。词向量的每一维的值代表一个具有一定的语义和语法上解释的特征。故可以将词向量的每一维称为一个词语特征。词向量用Distributed Representation表示,一种低维实数向量。目标Word2vec模型是一种典型的词向量模型。其核心架构包括CBOW和Skip-gram。本发明实施例中采用连续词袋CBOW(Continuous Bag-of-Words Model)架构,所述CBOW的结构示意图如图2所示,CBOW不考虑word之间的先后顺序,一起放进词袋,也就是在上面NNLM的projection层将映射后的结果求和/求平均(而非按照先后顺序连接起来)输入不止用了历史词语,还用了未来词语。即用w(t-n+1)…w(t-2),w(t-1),w(t+1),w(t+2)…w(t+n-1)作为输入INPUT,输出OUTPUT是正确分类得到w(t)。通过所述目标word2vec模型转化后,得到了第一数量预设维度的词向量和第二数量预设维度的词向量,其中,优选的,所述预设维度为100维,即所述第一数量预设维度的词向量和所述第二数量预设维度的词向量中所有词语的长度为100维的词向量。在各个词向量中,具有相同含义的词语在100维的向量空间中余弦距离非常近。达到了语义理解的效果。
进一步的,分别将所述第一数量预设维度词向量和所述第二数量预设维度词向量的对应项进行求和取平均,得到所述第一目标词向量和所述第二目标词向量。
例如,第一文本:基于工单数据重复拨打投诉预警模型建设
第二文本:频繁投诉预警客户模型构建
第一文本进行预处理后,形成词语串基于、工单、数据、重复、拨打、投诉、预警、模型、建设。第二文本进行预处理后,形成词语串频繁、投诉、预警、客户、模型、构建。
将预处理后的第一词向量和第二词向量进行100维的词向量表示。如基于的词向量为[-0.08924282-0.07175838-0.06493252...0.13612315-0.12897308]、投诉的词向量为[-0.15537643-0.20690495-0.05841175...-0.02878227-0.09665265]等等。将所述第一文本和所述第二文本词向量表示后,采用平均求和计算整个句子的向量表示。向量平均求和的公式为公式(1)。
vecs[i]是词向量数组中的第i个词向量。数组的长度为k。vec是最终的目标词向量表示。
S103、计算所述第一目标词向量和所述第二目标词向量的余弦相似度;
本发明实施例中,针对所述第一目标词向量和所述第二目标词向量,采用余弦相似度计算它们之间的相似度。余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。余弦相似度计算公式为公式(2):
其中,xi-第一目标词向量;
yi-第二目标词向量
S104、当所述余弦相似度大于预设相似度阈值时,判定所述第一文本和所述第二文本相似。
本发明实施例中,所述预设的相似度阈值可以依据经验、或者具体情况进行设定,本发明实施例中,对所述预设相似度阈值的具体取值不进行限定,当所述余弦相似度大于所述预设的相似度阈值时,判定所述第一文本和所述第二文本相似,反之,判定所述第一文本和所述第二文本不相似。
进一步的,针对不同版本可行性报告进行分析时,假设,不同版本的可行性报告针对某一段落将进行相似度计算,段落分别为A段落和B段落,优选的,以句号作为段落中不同文本的区分,假设A段落中包含7个第一文本,B段落在包含9个第二文本,在相似度计算过程,针对每一个第一文本,分别与B段落中的各个第二文本进行相似度计算,得到相似度计算结果。
本发明公开了一种文本相似度计算方法,包括:对第一文本和第二文本进行预处理,得到第一目标词集和第二目标词集,其中,第一目标词集包含第一数量的词,第二目标词集包含第二预设数量的词;将第一目标词集和第二目标词集传递给采用预设的训练方法构建的目标word2vec模型分别转化为第一目标词向量和第二目标词向量;计算第一目标词向量和第二目标词向量的余弦相似度;当余弦相似度大于预设相似度阈值时,判定第一文本和第二文本相似。上述方法,采用word2vec模型确定第一目标词向量和第二目标词向量,由于word2vec模型加入了语义相似度计算的内容,不再将字符或者是词语作为独立的知识单元,提高了相似度计算的准确率。
本发明实施例中,对第一文本和第二文本进行预处理的执行流程如图3所示,包括步骤:
S201、分别对所述第一文本和所述第二文本进行分词处理,得到第一词集和第二词集;
本发明实施例中,首先依据所述第一文本和所述第二文本中的标识或者关键词确定所述第一文本和所述第二文本所属于的行业,其中,所述标识可以为字母或者数字等形式,本发明实施例,假设所述行业为电力行业,获取与所述电力行业对应的目标专业词汇库,本发明实施例中,电力行业专业词汇库中包含9084个电力行业专业词汇,提高了分词的准确性,优选的,为例进一步提高分词的准确性,所述目标专业词汇库可以每间隔预设的时长进行更新,依据所述目标专业词汇库,分别对所述第一文本和所述第二文本进行jieba分词,得到第一词集和第二词集,其中,jieba分词是国内使用人数最多的中文分词工具,jieba分词支持三种模式,即精确模式:试图将句子最精确地切开,适合文本分析;全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。同时jieba分词可以很好的解决未登录词问题,其采用了基于汉字成词能力的HMM模型,采用Viterbi算法进行计算并进行词性标注,有利于提高分词的准确性。优选的,本发明实施例中才用精确模式进行分词。
S202、分别将所述第一词集和所述第二词集中的词与预设的停用词库进行比较;
本发明实施例中,为提高计算效率及分类精度,需要剔除文本中不具有明确意义、只是起辅助作用的词语,如“的”“得”“地”“吧”等助词或连接词、语气词等,以及在绝大多数文本中频繁出现但对于重大服务事件识别没有意义的词语,如“通话质量”,“录音”等。本项目结合场景需求,收集整理了共1622个停用词,将其存入预设的停用词库,分别将所述第一词集和所述第二词集中的词与预设的停用词库进行比较,判断是否存在于所述预设的停用词库相同的目标停用词。
S203、当所述第一词集和/或所述第二词集中出现与所述预设的停用词库中任意停用词相同的目标停用词时,将所述目标停用词进行删除处理。
本发明实施例中,当所述第一词集和/或所述第二词集中出现与所述预设的停用词库中任意停用词相同的目标停用词时,将所述目标停用词进行删除处理,优选的,当检测到更新指令时,对所述预设的通用词库进行更新。
本发明实施例中,采用预设的训练方法构建目标word2vec模型的执行流程如图4所示,包括:
S301、依据所述第一文本和所述第二文本所属行业,构建word2vec模型;
本发明实施例中,所述第一文本和所述第二文本所属行业不同,对应的word2vec模型不同,构建与所述第一文本和所述第二文本所属行业对应的word2vec模型。
S302、采用历史文本对所述word模型进行语义学习训练,其中,所述历史数据的目标历史词向量已知;
本发明实施例中,所述word2vec模型中相关参数需要通过训练的方式进行调整,具体的训练过程如下:将历史可行性研究报告文本进行采集,形成待训练的模型训练数据。可行性研究报告是以docx文件进行保存。采用python中的docx模块(python-docx模块会把word文档,文档中的段落、文本、字体等都看作对象,对对象进行处理就是对word文档的内容处理)将docx文件内容抽取保存在corpus.txt文件中形成模型将要使用的历史数据,
所述word2vec模型的一般形式直观、准确,n元模型中假设在不改变词语在上下文中的顺序前提下,距离相近的词语关系越近,距离较远的关联度越远,当距离足够远时,词语之间则没有关联度。word2vec模型模型是一种新兴的自然语言处理算法,该模型通过学习训练语料获取词向量,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离sim(X,Y)如下公式的大小代表了词语之间关系的远近,
对所述历史数据进行预处理,预处理完成的语料传递给word2vec模型,得到历史词向量,所述历史数据的目标历史词向量已知,
S303、当所述word2vec模型输出的历史词向量与所述目标历史词向量的相似度达到目标相似度阈值时,当前word2vec模型为目标word2vec模型。
本发明实施例中,当所述word2vec模型输出的历史词向量与所述目标历史词向量的相似度达到目标相似度阈值时,当前word2vec模型为目标word2vec模型。反之,对所述word2vec模型中的参数进行调整,重新进行S301-S303的训练,直至达到预设的相似度阈值为止,其中,所述目标相似度阈值依据经验或者具体情况进行设定,本发明实施例中,对所述目标相似度阈值的具体取值不进行限定。
基于上述的一种文本相似度计算方法,本发明实施例中,还提供了一种文本相似度计算装置,所述计算装置的结构框图如图5所示,包括:
预处理模块401、转化模块402、计算模块403和判定模块404。
其中,
所述预处理模块401,用于对第一文本和第二文本进行预处理,得到第一目标词集和第二目标词集,其中,所述第一目标词集包含第一数量的词,所述第二目标词集包含第二预设数量的词;
所述转化模块402,用于将所述第一目标词集和所述第二目标词集传递给采用预设的训练方法构建的目标word2vec模型分别转化为第一目标词向量和第二目标词向量;
所述计算模块403,用于计算所述第一目标词向量和所述第二目标词向量的余弦相似度;
所述判定模块404,用于当所述余弦相似度大于预设相似度阈值时,判定所述第一文本和所述第二文本相似。
本发明公开了一种文本相似度计算装置,包括:对第一文本和第二文本进行预处理,得到第一目标词集和第二目标词集,其中,第一目标词集包含第一数量的词,第二目标词集包含第二预设数量的词;将第一目标词集和第二目标词集传递给采用预设的训练方法构建的目标word2vec模型分别转化为第一目标词向量和第二目标词向量;计算第一目标词向量和第二目标词向量的余弦相似度;当余弦相似度大于预设相似度阈值时,判定第一文本和第二文本相似。上述装置,采用word2vec模型确定第一目标词向量和第二目标词向量,由于word2vec模型加入了语义相似度计算的内容,不再将字符或者是词语作为独立的知识单元,提高了相似度计算的准确率。
本发明实施例中,所述预处理模块401包括:
分词单元405、比较单元406和删除单元407。
其中,
所述分词单元405,用于分别对所述第一文本和所述第二文本进行分词处理,得到第一词集和第二词集;
所述比较单元406,用于分别将所述第一词集和所述第二词集中的词与预设的停用词库进行比较;
所述删除单元407,用于当所述第一词集和/或所述第二词集中出现与所述预设的停用词库中任意停用词相同的目标停用词时,将所述目标停用词进行删除处理。
本发明实施例中,所述分词单元405包括;
行业确定子单元408、词汇库确定子单元409和分词子单元410。
其中,
所述行业确定子单元408,用于确定所述第一文本和所述第二文本所属行业;
所述词汇库确定子单元409,用于依据所述行业,确定所述行业的目标专业词汇库;
所述分词子单元410,用于依据所述目标专业词汇库,分别对所述第一文本和所述第二文本进行jieba分词,得到第一词集和第二词集。
本发明实施例中,所述转化模块402包括:
转换单元411和处理单元412。
其中,
所述转化单元411,用于将所述第一目标词集和所述第二目标词集基于所述目标word2vec模型中的连续词袋架构转化为第一数量预设维度的词向量和第二数量预设维度的词向量;
所述处理单元412,用于分别将所述第一数量预设维度词向量和所述第二数量预设维度词向量的对应项进行求和取平均,得到所述第一目标词向量和所述第二目标词向量。
本发明实施例中,所述转化模块402中采用预设的训练方法构建的目标word2vec模型,包括:
构建单元413、训练单元414和确定单元415。
其中,
所述构建单元413,用于依据所述第一文本和所述第二文本所属行业,构建word2vec模型;
所述训练单元414,用于采用历史文本对所述word模型进行语义学习训练,其中,所述历史数据的目标历史词向量已知;
所述确定单元415,用于当所述word2vec模型输出的历史词向量与所述目标历史词向量的相似度达到目标相似度阈值时,当前word2vec模型为目标word2vec模型。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种文本相似度计算方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种文本相似度计算方法,其特征在于,包括:
对第一文本和第二文本进行预处理,得到第一目标词集和第二目标词集,其中,所述第一目标词集包含第一数量的词,所述第二目标词集包含第二预设数量的词;
将所述第一目标词集和所述第二目标词集传递给采用预设的训练方法构建的目标word2vec模型分别转化为第一目标词向量和第二目标词向量;
计算所述第一目标词向量和所述第二目标词向量的余弦相似度;
当所述余弦相似度大于预设相似度阈值时,判定所述第一文本和所述第二文本相似。
2.根据权利要求1所述的方法,其特征在于,对第一文本和第二文本进行预处理,包括:
分别对所述第一文本和所述第二文本进行分词处理,得到第一词集和第二词集;
分别将所述第一词集和所述第二词集中的词与预设的停用词库进行比较;
当所述第一词集和/或所述第二词集中出现与所述预设的停用词库中任意停用词相同的目标停用词时,将所述目标停用词进行删除处理。
3.根据权利要求1所述的方法,其特征在于,分别对所述第一文本和所述第二文本进行分词处理,得到第一词集和第二词集,包括;
确定所述第一文本和所述第二文本所属行业;
依据所述行业,确定所述行业的目标专业词汇库;
依据所述目标专业词汇库,分别对所述第一文本和所述第二文本进行jieba分词,得到第一词集和第二词集。
4.根据权利要求1所述的方法,其特征在于,将所述第一目标词集和所述第二目标词集传递给采用预设的训练方法构建的目标word2vec模型分别转化为第一目标词向量和所述第二目标词向量,包括:
将所述第一目标词集和所述第二目标词集基于所述目标word2vec模型中的连续词袋架构转化为第一数量预设维度的词向量和第二数量预设维度的词向量;
分别将所述第一数量预设维度词向量和所述第二数量预设维度词向量的对应项进行求和取平均,得到所述第一目标词向量和所述第二目标词向量。
5.根据权利要求1所述的方法,其特征在于,采用预设的训练方法构建的目标word2vec模型,包括:
依据所述第一文本和所述第二文本所属行业,构建word2vec模型;
采用历史文本对所述word模型进行语义学习训练,其中,所述历史数据的目标历史词向量已知;
当所述word2vec模型输出的历史词向量与所述目标历史词向量的相似度达到目标相似度阈值时,当前word2vec模型为目标word2vec模型。
6.一种文本相似度计算装置,其特征在于,包括:
预处理模块,用于对第一文本和第二文本进行预处理,得到第一目标词集和第二目标词集,其中,所述第一目标词集包含第一数量的词,所述第二目标词集包含第二预设数量的词;
转化模块,用于将所述第一目标词集和所述第二目标词集传递给采用预设的训练方法构建的目标word2vec模型分别转化为第一目标词向量和第二目标词向量;
计算模块,用于计算所述第一目标词向量和所述第二目标词向量的余弦相似度;
判定模块,用于当所述余弦相似度大于预设相似度阈值时,判定所述第一文本和所述第二文本相似。
7.根据权利要求6所述的装置,其特征在于,所述预处理模块包括:
分词单元,用于分别对所述第一文本和所述第二文本进行分词处理,得到第一词集和第二词集;
比较单元,用于分别将所述第一词集和所述第二词集中的词与预设的停用词库进行比较;
删除单元,用于当所述第一词集和/或所述第二词集中出现与所述预设的停用词库中任意停用词相同的目标停用词时,将所述目标停用词进行删除处理。
8.根据权利要求6所述的装置,其特征在于,所述分词单元包括;
行业确定子单元,用于确定所述第一文本和所述第二文本所属行业;
词汇库确定子单元,用于依据所述行业,确定所述行业的目标专业词汇库;
分词子单元,用于依据所述目标专业词汇库,分别对所述第一文本和所述第二文本进行jieba分词,得到第一词集和第二词集。
9.根据权利要求6所述的装置,其特征在于,所述转化模块包括:
转化单元,用于将所述第一目标词集和所述第二目标词集基于所述目标word2vec模型中的连续词袋架构转化为第一数量预设维度的词向量和第二数量预设维度的词向量;
处理单元,用于分别将所述第一数量预设维度词向量和所述第二数量预设维度词向量的对应项进行求和取平均,得到所述第一目标词向量和所述第二目标词向量。
10.根据权利要求6所述的装置,其特征在于,所述转化模块中采用预设的训练方法构建的目标word2vec模型,包括:
构建单元,用于依据所述第一文本和所述第二文本所属行业,构建word2vec模型;
训练单元,用于采用历史文本对所述word模型进行语义学习训练,其中,所述历史数据的目标历史词向量已知;
确定单元,用于当所述word2vec模型输出的历史词向量与所述目标历史词向量的相似度达到目标相似度阈值时,当前word2vec模型为目标word2vec模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911228960.2A CN110956033A (zh) | 2019-12-04 | 2019-12-04 | 一种文本相似度计算方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911228960.2A CN110956033A (zh) | 2019-12-04 | 2019-12-04 | 一种文本相似度计算方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110956033A true CN110956033A (zh) | 2020-04-03 |
Family
ID=69979696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911228960.2A Pending CN110956033A (zh) | 2019-12-04 | 2019-12-04 | 一种文本相似度计算方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956033A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581109A (zh) * | 2020-05-15 | 2020-08-25 | 杭州安恒信息技术股份有限公司 | 一种接口返回数据校验的方法、系统及设备 |
CN111899085A (zh) * | 2020-06-15 | 2020-11-06 | 东方微银科技(北京)有限公司 | 一种身份交叉验证方法及装置 |
CN112257431A (zh) * | 2020-10-30 | 2021-01-22 | 中电万维信息技术有限责任公司 | 一种基于nlp的短文本数据加工的方法 |
CN115017915A (zh) * | 2022-05-30 | 2022-09-06 | 北京三快在线科技有限公司 | 一种模型训练、任务执行的方法及装置 |
CN116091000A (zh) * | 2023-02-14 | 2023-05-09 | 深圳市万特网络科技有限公司 | 一种基于oa系统的资源智能化管理系统及方法 |
CN117493568A (zh) * | 2023-11-09 | 2024-02-02 | 中安启成科技有限公司 | 一种端到端软件功能点提取与识别方法 |
CN118211588A (zh) * | 2024-05-20 | 2024-06-18 | 品茗科技股份有限公司 | 文本数据相似度确定方法和系统 |
CN118569612A (zh) * | 2024-08-02 | 2024-08-30 | 国泰新点软件股份有限公司 | 一种工单查重方法、系统、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462378A (zh) * | 2014-12-09 | 2015-03-25 | 北京国双科技有限公司 | 用于文本识别的数据处理方法及装置 |
CN106844346A (zh) * | 2017-02-09 | 2017-06-13 | 北京红马传媒文化发展有限公司 | 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统 |
CN106844331A (zh) * | 2016-12-13 | 2017-06-13 | 苏州大学 | 一种句子相似度计算方法和系统 |
CN107273426A (zh) * | 2017-05-18 | 2017-10-20 | 四川新网银行股份有限公司 | 一种基于深度语义路径搜索的短文本聚类方法 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
US20190220749A1 (en) * | 2018-01-17 | 2019-07-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Text processing method and device based on ambiguous entity words |
-
2019
- 2019-12-04 CN CN201911228960.2A patent/CN110956033A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462378A (zh) * | 2014-12-09 | 2015-03-25 | 北京国双科技有限公司 | 用于文本识别的数据处理方法及装置 |
CN106844331A (zh) * | 2016-12-13 | 2017-06-13 | 苏州大学 | 一种句子相似度计算方法和系统 |
CN106844346A (zh) * | 2017-02-09 | 2017-06-13 | 北京红马传媒文化发展有限公司 | 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统 |
CN107273426A (zh) * | 2017-05-18 | 2017-10-20 | 四川新网银行股份有限公司 | 一种基于深度语义路径搜索的短文本聚类方法 |
US20190220749A1 (en) * | 2018-01-17 | 2019-07-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Text processing method and device based on ambiguous entity words |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581109A (zh) * | 2020-05-15 | 2020-08-25 | 杭州安恒信息技术股份有限公司 | 一种接口返回数据校验的方法、系统及设备 |
CN111899085A (zh) * | 2020-06-15 | 2020-11-06 | 东方微银科技(北京)有限公司 | 一种身份交叉验证方法及装置 |
CN112257431A (zh) * | 2020-10-30 | 2021-01-22 | 中电万维信息技术有限责任公司 | 一种基于nlp的短文本数据加工的方法 |
CN115017915A (zh) * | 2022-05-30 | 2022-09-06 | 北京三快在线科技有限公司 | 一种模型训练、任务执行的方法及装置 |
CN116091000A (zh) * | 2023-02-14 | 2023-05-09 | 深圳市万特网络科技有限公司 | 一种基于oa系统的资源智能化管理系统及方法 |
CN116091000B (zh) * | 2023-02-14 | 2023-12-08 | 宁波紫熙物联科技有限公司 | 一种基于oa系统的资源智能化管理系统及方法 |
CN117493568A (zh) * | 2023-11-09 | 2024-02-02 | 中安启成科技有限公司 | 一种端到端软件功能点提取与识别方法 |
CN117493568B (zh) * | 2023-11-09 | 2024-04-19 | 中安启成科技有限公司 | 一种端到端软件功能点提取与识别方法 |
CN118211588A (zh) * | 2024-05-20 | 2024-06-18 | 品茗科技股份有限公司 | 文本数据相似度确定方法和系统 |
CN118569612A (zh) * | 2024-08-02 | 2024-08-30 | 国泰新点软件股份有限公司 | 一种工单查重方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956033A (zh) | 一种文本相似度计算方法及装置 | |
CN109033307B (zh) | 基于crp聚类的词语多原型向量表示及词义消歧方法 | |
CN116775847B (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
CN110413764B (zh) | 基于预建词库的长文本企业名称识别方法 | |
RU2704531C1 (ru) | Способ и устройство для анализа семантической информации | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN112307364B (zh) | 一种面向人物表征的新闻文本发生地抽取方法 | |
CN111158641B (zh) | 基于语义分析和文本挖掘的事务类功能点自动识别方法 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN110717041B (zh) | 一种案件检索方法及系统 | |
CN110990532A (zh) | 一种处理文本的方法和装置 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN113886604A (zh) | 一种职位知识图谱生成方法和系统 | |
CN110727769B (zh) | 语料库生成方法及装置、人机交互处理方法及装置 | |
CN111177402A (zh) | 基于分词处理的评价方法、装置、计算机设备及存储介质 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
CN113935314A (zh) | 基于异构图网络的摘要抽取方法、装置、终端设备及介质 | |
CN117349423A (zh) | 一种模板匹配式水利领域知识问答模型 | |
CN111815108A (zh) | 一种电网工程设计变更与现场签证审批单的评价方法 | |
JP2004070636A (ja) | 概念検索装置 | |
CN117076636A (zh) | 一种智能客服的信息查询方法、系统和设备 | |
CN114077834A (zh) | 确定相似文本的方法、装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200403 |