CN110874528B - 文本相似度的获取方法及装置 - Google Patents

文本相似度的获取方法及装置 Download PDF

Info

Publication number
CN110874528B
CN110874528B CN201810910162.7A CN201810910162A CN110874528B CN 110874528 B CN110874528 B CN 110874528B CN 201810910162 A CN201810910162 A CN 201810910162A CN 110874528 B CN110874528 B CN 110874528B
Authority
CN
China
Prior art keywords
vector
word
text
stem
tested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810910162.7A
Other languages
English (en)
Other versions
CN110874528A (zh
Inventor
陈功
马雅奇
陈彦宇
谭泽汉
陈明威
仲丽君
孙秀丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201810910162.7A priority Critical patent/CN110874528B/zh
Publication of CN110874528A publication Critical patent/CN110874528A/zh
Application granted granted Critical
Publication of CN110874528B publication Critical patent/CN110874528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请提供了一种文本相似度的获取方法及装置,其中,该方法包括:针对待测试与目标文本的相似度的待测试文本,获取待测试文本的句子的第二主干词,以及获取目标文本的句子的第一主干词;依据第二主干词和第一主干词确定待测试文本的第二向量和目标文本的第一向量,依据所述第二向量和所述第一向量,确定待测试文本和目标文本的相似度。采用上述技术方案,依据主干词的文本向量确定文本之间的相似度,保证了对比结果的真实有效性,提供了测试准确率,解决了相关技术中计算文本相似度准确率较低的问题。

Description

文本相似度的获取方法及装置
技术领域
本申请涉及通信领域,具体而言,涉及一种文本相似度的获取方法及装置。
背景技术
在相关技术中,在自然语言处理领域,由于文本分析的需要,经常需要比较两篇文本的相似度,作为自然语言处理领域里的一个基本任务,文本相似度计算在该领域应用非常广泛,比如文本分类、问答系统、机器翻译、搜索引擎等。并且在各种任务中占据非常重要的地位,相似度计算的准确率直接影响到问答系统等任务的性能。
针对相关技术中计算文本相似度准确率较低的问题,目前还没有有效的解决方案。
发明内容
本申请实施例提供了一种文本相似度的获取方法及装置,以至少解决相关技术中计算文本相似度准确率较低的问题。
根据本申请的一个实施例,提供了一种文本相似度的获取方法,包括:获取所述待测试文本的句子的第二主干词,以及获取目标文本的句子的第一主干词;依据所述第二主干词和所述第一主干词确定所述待测试文本的第二向量和所述目标文本的第一向量;依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度。
根据本申请的另一个实施例,还提供了一种文本相似度的获取方法,包括:确定待测试文本中每个词语的词性,依据所述词性删除所述待测试文本中的虚词和指定词性的词语,获取所述待测试文本的第二主干词;确定目标文本的句子的第一主干词;依据所述第二主干词和所述第一主干词确定所述待测试文本的第二向量和所述目标文本的第一向量;依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度。
根据本发明的另一个实施例,还提供了一种文本相似度的获取装置,包括:第一获取模块,用于获取所述待测试文本的句子的第二主干词,以及获取目标文本的句子的第一主干词;第一确定模块,用于依据所述第二主干词和所述第一主干词确定所述待测试文本的第二向量和所述目标文本的第一向量;第二确定模块,用于依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度。
根据本发明的另一个实施例,还提供了一种文本相似度的获取装置,包括:第三确定模块,用于确定待测试文本中每个词语的词性,依据所述词性删除所述待测试文本中的虚词和指定词性的词语,获取所述待测试文本的第二主干词;第四确定模块,用于确定目标文本的句子的第一主干词;第五确定模块,用于依据所述第二主干词和所述第一主干词确定所述待测试文本的第二向量和所述目标文本的第一向量;第六确定模块,用于依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度。
根据本申请的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请,针对待测试与目标文本的相似度的待测试文本,获取待测试文本的句子的第二主干词,以及获取目标文本的句子的第一主干词;依据第二主干词和第一主干词确定待测试文本的第二向量和目标文本的第一向量,依据所述第二向量和所述第一向量,确定待测试文本和目标文本的相似度。采用上述技术方案,依据主干词的文本向量确定文本之间的相似度,保证了对比结果的真实有效性,提供了测试准确率,解决了相关技术中计算文本相似度准确率较低的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的一种文本相似度的获取方法的移动终端的硬件结构框图;
图2是根据本申请实施例的文本相似度的获取方法的流程图;
图3是根据本申请文件的文本相似度计算方法示意图;
图4是根据本申请的使用词向量得到文本向量的方法流程图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例一
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本申请实施例的一种文本相似度的获取方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输装置106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的文本相似度的获取方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端的文本相似度的获取方法,图2是根据本申请实施例的文本相似度的获取方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取待测试文本的句子的第二主干词,以及获取目标文本的句子的第一主干词;
步骤S204,依据所述第二主干词和所述第一主干词确定所述待测试文本的第二向量和所述目标文本的第一向量;
步骤S206,依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度。
上述主干词可以是一句话中的主谓宾的主干含义,也可以是具体实体意义的主干词语,例如“喜马拉雅山位于辽阔的青藏高原”的主干词可以是“喜马拉雅山位于青藏高原”,此处仅是举例,针对不同语言场景,形容词等状语也是有含义的。也可以依据每个词语的词性确定是否为主干词,例如虚词等不是主干词,还可以用户自定义,或者依据大数据进行机器学习。
通过上述步骤,针对待测试与目标文本的相似度的待测试文本,获取待测试文本的句子的第二主干词,以及获取目标文本的句子的第一主干词;依据第二主干词和第一主干词确定待测试文本的第二向量和目标文本的第一向量,依据所述第二向量和所述第一向量,确定待测试文本和目标文本的相似度。采用上述技术方案,依据主干词的文本向量确定文本之间的相似度,保证了对比结果的真实有效性,提供了测试准确率,解决了相关技术中计算文本相似度准确率较低的问题。
可选地,依据所述第二主干词和所述第一主干词确定,所述待测试文本的第二向量,和所述目标文本的第一向量,包括:确定所述第二主干词数量和第一主干词数量,计算二者的和值;创建维度取值为所述和值的两个初始向量,分别为第二初始向量和第一初始向量,其中,每个初始向量中包括所述第一主干词和所述第二主干词,且每个初始向量的初始值为0;在所述第一初始向量中,依据所述第一主干词与预设元素集合的匹配结果进行赋值,形成所述第一向量;在所述第二初始向量中,依据所述第二主干词与所述预设元素集合的匹配结果进行赋值,形成所述第二向量。
每个初始向量中包括第一主干词和所述第二主干词的含义参见后续实施例中的(a,b,c,d,e,f,g)的举例,初始取值均为0。
可选地,所述预设元素集合中包括所述第一主干词,以及所述第一主干词的相似词;
第一主干词的相似词可以是预先在词向量模型中确定的。
所述方法包括以下至少之一:
在所述第一主干词与所述预设元素集合中的主干词部分匹配时,将所述第一初始向量中对应的维度赋值1;
在所述第一主干词与所述预设元素集合中的相似词部分匹配时,将匹配到的相似词的相似度赋值到所述第一初始向量中对应的维度;此处对应的维度即是,哪个主干词匹配到相似词了,将该相似词的相似度赋值该主干词对应的向量维度下;
在所述第二主干词与所述预设元素集合中的主干词部分匹配时,将所述第二初始向量中对应的维度赋值1,即将1赋值到第二初始向量中匹配成功的词对应的维度上;
在所述第二主干词与所述预设元素集合中的相似词部分匹配时,将匹配到的相似词的相似度赋值到所述第二初始向量中对应的维度。
上述赋值规则可以参见后续的另一个实施例进行理解,相似度是0到1之间的闭区间。
可选地,获取待测试文本,获取所述待测试文本的句子的第二主干词之后,包括:使用TFIDF方法确定所述待测试文本中每个句子的每个第二主干词的TFIDF值,作为每个第二主干词的权重;使用TFIDF方法确定所述目标文本中每个句子的每个第一主干词的TFIDF值,作为每个第一主干词的权重。
可选地,依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度,包括:依据所述待测试文本中每个句子的第二主干词的TFIDF值,确定待测试文本的每个句子的第二TFIDF向量,将所述第二TFIDF向量与所述第二向量进行点乘运算,获取最终第二向量;依据所述目标文本中每个句子的第一主干词的TFIDF值,确定待所述目标文本的每个句子的第一TFIDF向量,将所述第一TFIDF向量与所述第一向量进行点乘运算,获取最终第一向量;使用余弦相似度计算方法获取所述最终第二向量和所述最终第一向量的相似度。
需要补充的是,上述获取最终第二向量和获取第一最终向量的先后顺序不做限定,也可以同时进行。
可选地,获取所述待测试文本的句子的第二主干词,以及获取目标文本的句子的第一主干词:对所述文本中的语句进行分词,确定每个词语的词性;依据所述词性删除所述文本中的虚词和指定词性的词语,获取主干词。此处的指定词性的词语,可以是用户自定义的词语,例如连词,叹词,前接成分,后接成分,习用语,拟声词等。采用该实施例的方案,可以迅速准确的确定文本的主干词。
根据本申请的另一个实施例,还提供了一种文本相似度的获取方法,该方法包括以下步骤:
步骤一,确定待测试文本中每个词语的词性,依据所述词性删除所述待测试文本中的虚词和指定词性的词语,获取所述待测试文本的第二主干词;
步骤二,确定目标文本的句子的第一主干词;
此处获取目标文本的第一主干词可以是预先确定的,也可以采用与步骤一中确定第二主干词相同的方式。
步骤三,依据所述第二主干词和所述第一主干词确定所述待测试文本的第二向量和所述目标文本的第一向量;
步骤四,依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度。
通过上述步骤,依据词性获取待测试文本和目标文本的主干词,进一步确定二者的向量进行相似度计算,考虑了语句中的词性,依据主干词的文本向量确定文本之间的相似度,提升了计算的文本相似度的准确性,提供了测试准确率,解决了相关技术中计算文本相似度准确率较低的问题。
下面结合本申请另一个实施例进行说明。
传统的文本相似度计算方法中,有基于向量空间模型的方法、基于字符个数统计的方法、基于概率统计的方法等,如今也有使用神经网络将文本句子映射成向量的方法,这些方法应用比较普遍,但是它们有两个缺点:第一,忽略了词语之间的依存关系;第二,忽略了词性对文本相似度计算的影响。这些缺点对于相似度计算均有一定的影响,进而影响了使用相似度计算开发系统的性能。
本申请提供了一种使用词向量技术的文本相似度计算方法,该方法考虑到了文本句子中各词的词性问题,并将每个可用词映射成一个词向量,分别计算两个句子中相同词性的词的相似度,并通过词频逆文本频率指数(Term Frequency Inverse DocumentFrequency,简称为TFIDF)算法对每个词进行加权,计算得到两个文本句子的相似度,该方法通过词袋方法和词向量方法的结合,来计算文本的相似度,解决了相关技术中词袋方法相似度计算准确率较低的问题,并且考虑到句子中的词性,对于大数据集仍有较高的准确率,该方法具有较高的通用性。
图3是根据本申请文件的文本相似度计算方法示意图,如图3所示,本申请提供的基于词向量的文本相似度方法的计算流程包括:
301:将百度百科数据集和搜狐新闻语料作为词向量训练数据;
302,使用python中的gensim模块来训练词向量模型,词向量模型包含每个词对应的向量参数,并且可以使用这个模型得到输入词的向量;
303:确定待测试文本集;
304,切词,词性标注,并根据词性去停用词。具体地,对给定的文本集进行处理,首先使用jieba分词工具对所有的语句进行分词,进而进行词性标注,最后按照词性,删除所有虚词和非重要词性的词,具体为:c:连词,e:叹词,h:前接成分,k:后接成分,l:习用语,o:拟声词,p:介词,q:量词,r:代词,u:助词,x:非语素字,z:状态词,w:标点符号,y:语气词(如:啊,呢)。得到句子的主干词备用;
305,获取词料库中每个句子中每个词的TFIDF值,具体地,对于304步骤中得到的文本集主干词语料,使用TFIDF方法计算每个文本句子中每个词的TFIDF值,作为这个词的权重;
306,根据词向量得到表示每个句子的向量,具体地,使用词向量模型,计算与目标文本(即需要和其他文本计算相似度的文本句子)中每个词相似度最大的两个词,得到词名和相似度;
307,计算文本句子相似度,具体地,利用得到的目标文本词向量得到表示每个句子的向量,并计算二者的相似度。
上述步骤307的具体步骤如图4所示,图4是根据本申请的使用词向量得到文本向量的方法流程图,如图4所示包括以下步骤:
步骤401,准备数据文本D1和文本D2,以及相似词向量。具体地,假设目标文本中有三个词(a,b,c),匹配文本中有四个词(d,e,f,g),其中目标文本中(a,b,c)相似词向量分别为(a1,a2),(b1,b2),(c1,c2);
步骤402,初始化D1和D2相应维度均为(a,b,c,d,e,f,g)两个维度为7(此数值为目标文本词数和匹配文本词数的和)的向量D1,D2,每维度分别为(a,b,c,d,e,f,g),初始值均为0。
步骤403,对于D1和D2,判断维度(d,e,f,g)存在于(a,a1,a2,b,b1,b2,c,c1,c2)向量D1为目标文本向量,D2为匹配文本向量,分别给两个向量的每个维度赋值。
步骤404,D1的赋值规则为,分别将(a,b,c)中的每个元素与(a,a1,a2,b,b1,b2,c,c1,c2)中的元素匹配,如果匹配到(a,a1,a2,b,b1,b2,c,c1,c2)中的(a,b,c),则将向量相应的维度值赋1,如果匹配到(a1,a2,b1,b2,c1,c2),则将(a1,a2,b1,b2,c1,c2)中匹配到的元素值的相似度值赋给相应的维度;
步骤405,D2的赋值规则为,分别将(d,e,f,g)中的每个元素与(a,a1,a2,b,b1,b2,c,c1,c2)中的元素匹配,如果匹配到(a,a1,a2,b,b1,b2,c,c1,c2)中的(a,b,c),则将向量相应的维度值赋1,如果匹配到(a1,a2,b1,b2,c1,c2),则将(a1,a2,b1,b2,c1,c2)中匹配到的元素值的相似度值赋给相应的维度,最后得到两个赋值完毕的向量D1,D2;
步骤406,得到文本D1和D2的文本向量,具体地,根据303步中计算得到的句子TFIDF值,得到句子的TFIDF向量,与第二步中计算得到的向量进行点乘计算,得到最终的文本向量D1,D2。
步骤407,使用余弦相似度方法计算上步得到的D1,D2的相似度。完毕。
本实施例提供的方法,通过结合相关技术中的向量空间模型方法和词向量方法,充分考虑了词频和词相似度,得到句子的相似度计算向量,在向量空间模型方法的基础上相似度计算准确率有很大的提升,同时也提供了一种利用词相似度计算文本相似度的方法。
上述实施步骤中的303步骤可省略,即不需要计算文本中每个词的TFIDF值,直接使用305步骤中得到的文本向量计算文本之间的相似度。这样做的缺点是:虽然通过词向量得到了文本向量,但是没有定义每个词在整个句子中所占的权重,对最终计算得到的文本相似度的准确率有影响。
本方案提供的方法,通过结合传统的向量空间模型方法和词向量方法,充分考虑了词频和词相似度,得到句子的相似度计算向量,在向量空间模型方法的基础上相似度计算准确率有很大的提升,同时也提供了一种利用词相似度计算文本相似度的方法。并且在考虑词性的基础上,对词性相同的词做了相似度的比较,为文本相似度计算准确率提升奠定了基础。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例二
在本实施例中还提供了一种文本相似度的获取装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
根据本申请的一个实施例,提供了一种文本相似度的获取装置,包括:
第一获取模块,用于获取所述待测试文本的句子的第二主干词,以及获取目标文本的句子的第一主干词;
第一确定模块,用于依据所述第二主干词和所述第一主干词确定所述待测试文本的第二向量和所述目标文本的第一向量;
第二确定模块,用于依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度。
根据本申请的另一个实施例,还提供了一种文本相似度的获取装置,包括:
第三确定模块,用于确定待测试文本中每个词语的词性,依据所述词性删除所述待测试文本中的虚词和指定词性的词语,获取所述待测试文本的第二主干词;
第四确定模块,用于确定目标文本的句子的第一主干词;
第五确定模块,用于依据所述第二主干词和所述第一主干词确定所述待测试文本的第二向量和所述目标文本的第一向量;
第六确定模块,用于依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度。
针对待测试与目标文本的相似度的待测试文本,获取待测试文本的句子的第二主干词,以及获取目标文本的句子的第一主干词;依据第二主干词和第一主干词确定待测试文本的第二向量和目标文本的第一向量,依据所述第二向量和所述第一向量,确定待测试文本和目标文本的相似度。采用上述技术方案,依据主干词的文本向量确定文本之间的相似度,保证了对比结果的真实有效性,提供了测试准确率,解决了相关技术中计算文本相似度准确率较低的问题。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
根据本申请的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本相似度的获取方法,其特征在于,包括:
获取待测试文本的句子的第二主干词,以及获取目标文本的句子的第一主干词;
依据所述第二主干词和所述第一主干词确定所述待测试文本的第二向量和所述目标文本的第一向量;
依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度,
其中,依据所述第二主干词和所述第一主干词确定,所述待测试文本的第二向量,和所述目标文本的第一向量,包括:确定第二主干词数量和第一主干词数量,计算二者的和值;创建维度取值为所述和值的两个初始向量,分别为第二初始向量和第一初始向量,其中,每个初始向量中包括所述第一主干词和所述第二主干词,且每个初始向量的初始值为0;在所述第一初始向量中,依据所述第一主干词与预设元素集合的匹配结果进行赋值,形成所述第一向量;在所述第二初始向量中,依据所述第二主干词与所述预设元素集合的匹配结果进行赋值,形成所述第二向量。
2.根据权利要求1所述的方法,其特征在于,所述预设元素集合中包括所述第一主干词,以及所述第一主干词的相似词;
所述方法包括以下至少之一:
在所述第一主干词与所述预设元素集合中的主干词部分匹配时,将所述第一初始向量中对应的维度赋值1;
在所述第一主干词与所述预设元素集合中的相似词部分匹配时,将匹配到的相似词的相似度赋值到所述第一初始向量中对应的维度;
在所述第二主干词与所述预设元素集合中的主干词部分匹配时,将所述第二初始向量中对应的维度赋值1;
在所述第二主干词与所述预设元素集合中的相似词部分匹配时,将匹配到的相似词的相似度赋值到所述第二初始向量中对应的维度。
3.根据权利要求1所述的方法,其特征在于,获取所述待测试文本的句子的第二主干词之后,包括:
使用TFIDF方法确定所述待测试文本中每个句子的每个第二主干词的TFIDF值,作为每个第二主干词的权重;
使用TFIDF方法确定所述目标文本中每个句子的每个第一主干词的TFIDF值,作为每个第一主干词的权重。
4.根据权利要求3所述的方法,其特征在于,依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度,包括:
依据所述待测试文本中每个句子的第二主干词的TFIDF值,确定待测试文本的每个句子的第二TFIDF向量,将所述第二TFIDF向量与所述第二向量进行点乘运算,获取最终第二向量;
依据所述目标文本中每个句子的第一主干词的TFIDF值,确定所述目标文本的每个句子的第一TFIDF向量,将所述第一TFIDF向量与所述第一向量进行点乘运算,获取最终第一向量;
使用余弦相似度计算方法获取所述最终第二向量和所述最终第一向量的相似度。
5.根据权利要求1所述的方法,其特征在于,获取所述待测试文本的句子的第二主干词,以及获取目标文本的句子的第一主干词,包括:
对所述文本中的语句进行分词,确定每个词语的词性;
依据所述词性删除所述文本中的虚词和指定词性的词语,获取主干词。
6.一种文本相似度的获取方法,其特征在于,包括:
确定待测试文本中每个词语的词性,依据所述词性删除所述待测试文本中的虚词和指定词性的词语,获取所述待测试文本的句子的第二主干词;
确定目标文本的句子的第一主干词;
依据所述第二主干词和所述第一主干词确定所述待测试文本的第二向量和所述目标文本的第一向量;
依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度,
依据所述第二主干词和所述第一主干词确定,所述待测试文本的第二向量,和所述目标文本的第一向量,包括:确定第二主干词数量和第一主干词数量,计算二者的和值;创建维度取值为所述和值的两个初始向量,分别为第二初始向量和第一初始向量,其中,每个初始向量中包括所述第一主干词和所述第二主干词,且每个初始向量的初始值为0;在所述第一初始向量中,依据所述第一主干词与预设元素集合的匹配结果进行赋值,形成所述第一向量;在所述第二初始向量中,依据所述第二主干词与所述预设元素集合的匹配结果进行赋值,形成所述第二向量。
7.一种文本相似度的获取装置,其特征在于,包括:
第一获取模块,用于获取待测试文本的句子的第二主干词,以及获取目标文本的句子的第一主干词;
第一确定模块,用于依据所述第二主干词和所述第一主干词确定所述待测试文本的第二向量和所述目标文本的第一向量;
第二确定模块,用于依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度,
其中,所述第一确定模块包括:确定子模块,用于确定第二主干词数量和第一主干词数量,计算二者的和值;创建子模块,用于创建维度取值为所述和值的两个初始向量,分别为第二初始向量和第一初始向量,其中,每个初始向量中包括所述第一主干词和所述第二主干词,且每个初始向量的初始值为0;第一赋值子模块,用于在所述第一初始向量中,依据所述第一主干词与预设元素集合的匹配结果进行赋值,形成所述第一向量;第二赋值子模块,用于在所述第二初始向量中,依据所述第二主干词与所述预设元素集合的匹配结果进行赋值,形成所述第二向量。
8.一种文本相似度的获取装置,其特征在于,包括:
第三确定模块,用于确定待测试文本中每个词语的词性,依据所述词性删除所述待测试文本中的虚词和指定词性的词语,获取所述待测试文本的句子的第二主干词;
第四确定模块,用于确定目标文本的句子的第一主干词;
第五确定模块,用于依据所述第二主干词和所述第一主干词确定所述待测试文本的第二向量和所述目标文本的第一向量;
第六确定模块,用于依据所述第二向量和所述第一向量,确定所述待测试文本和所述目标文本的相似度,
其中,所述第五确定模块包括:确定子模块,用于确定第二主干词数量和第一主干词数量,计算二者的和值;创建子模块,用于创建维度取值为所述和值的两个初始向量,分别为第二初始向量和第一初始向量,其中,每个初始向量中包括所述第一主干词和所述第二主干词,且每个初始向量的初始值为0;第一赋值子模块,用于在所述第一初始向量中,依据所述第一主干词与预设元素集合的匹配结果进行赋值,形成所述第一向量;第二赋值子模块,用于在所述第二初始向量中,依据所述第二主干词与所述预设元素集合的匹配结果进行赋值,形成所述第二向量。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。
CN201810910162.7A 2018-08-10 2018-08-10 文本相似度的获取方法及装置 Active CN110874528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810910162.7A CN110874528B (zh) 2018-08-10 2018-08-10 文本相似度的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810910162.7A CN110874528B (zh) 2018-08-10 2018-08-10 文本相似度的获取方法及装置

Publications (2)

Publication Number Publication Date
CN110874528A CN110874528A (zh) 2020-03-10
CN110874528B true CN110874528B (zh) 2020-11-10

Family

ID=69714178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810910162.7A Active CN110874528B (zh) 2018-08-10 2018-08-10 文本相似度的获取方法及装置

Country Status (1)

Country Link
CN (1) CN110874528B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581347B (zh) * 2020-04-28 2023-07-21 中国工商银行股份有限公司 语句相似度匹配方法及装置
CN112507684B (zh) * 2020-11-30 2023-09-22 北京百度网讯科技有限公司 用于检测原创文本的方法、装置、电子设备及存储介质
CN112613295B (zh) * 2020-12-21 2023-12-22 竹间智能科技(上海)有限公司 语料识别方法及装置、电子设备、存储介质
CN112559691B (zh) * 2020-12-22 2023-11-14 珠海格力电器股份有限公司 语义相似度的确定方法及确定装置、电子设备
CN113297835B (zh) * 2021-06-24 2024-03-29 中国平安人寿保险股份有限公司 文本相似度计算方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294681A (zh) * 2012-02-23 2013-09-11 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN105426354A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种句向量的融合方法和装置
EP3255558A1 (en) * 2015-02-02 2017-12-13 National Institute of Information and Communication Technology Syntax analyzing device, learning device, machine translation device and recording medium
CN108227564A (zh) * 2017-12-12 2018-06-29 深圳和而泰数据资源与云技术有限公司 一种信息处理方法、终端及计算机可读介质
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294681A (zh) * 2012-02-23 2013-09-11 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
EP3255558A1 (en) * 2015-02-02 2017-12-13 National Institute of Information and Communication Technology Syntax analyzing device, learning device, machine translation device and recording medium
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN105426354A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种句向量的融合方法和装置
CN108227564A (zh) * 2017-12-12 2018-06-29 深圳和而泰数据资源与云技术有限公司 一种信息处理方法、终端及计算机可读介质
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统

Also Published As

Publication number Publication date
CN110874528A (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
CN110874528B (zh) 文本相似度的获取方法及装置
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN111310440B (zh) 文本的纠错方法、装置和系统
CN108763535B (zh) 信息获取方法及装置
CN110866093A (zh) 机器问答方法及装置
CN111222305A (zh) 一种信息结构化方法和装置
CN111898643B (zh) 一种语义匹配方法及装置
CN110162780A (zh) 用户意图的识别方法和装置
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN106502987B (zh) 一种基于种子句子的句子模板召回的方法和设备
US20220058349A1 (en) Data processing method, device, and storage medium
CN110046344B (zh) 添加分隔符的方法及终端设备
CN114511083A (zh) 一种模型的训练方法、装置、存储介质及电子装置
WO2022022049A1 (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN115129831A (zh) 数据处理方法、装置、电子设备及计算机存储介质
CN110287284B (zh) 语义匹配方法、装置及设备
CN110427626B (zh) 关键词的提取方法及装置
CN112632254A (zh) 对话状态确定方法、终端设备及存储介质
CN111680514B (zh) 信息处理和模型训练方法、装置、设备及存储介质
CN109885812B (zh) 一种动态添加热词的方法、装置及可读存储介质
CN111783425A (zh) 基于句法分析模型的意图识别方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant