CN110287312A - 文本相似度的计算方法、装置、计算机设备及计算机存储介质 - Google Patents

文本相似度的计算方法、装置、计算机设备及计算机存储介质 Download PDF

Info

Publication number
CN110287312A
CN110287312A CN201910390792.0A CN201910390792A CN110287312A CN 110287312 A CN110287312 A CN 110287312A CN 201910390792 A CN201910390792 A CN 201910390792A CN 110287312 A CN110287312 A CN 110287312A
Authority
CN
China
Prior art keywords
sentence
vector
text
sentences
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910390792.0A
Other languages
English (en)
Other versions
CN110287312B (zh
Inventor
申超波
阮晓雯
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910390792.0A priority Critical patent/CN110287312B/zh
Publication of CN110287312A publication Critical patent/CN110287312A/zh
Application granted granted Critical
Publication of CN110287312B publication Critical patent/CN110287312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本相似度的计算方法及装置,涉及文本处理技术领域,能够在复杂表达的文本中准确计算文本之间的相似度。所述方法包括:获取对不同句长的文本语料进行分词化后得到的训练分词语料;将所述训练分词语料作为训练数据输入至监督模型中进行训练,构建句向量转换模型,所述句向量转换模型用于将文本语料中的句子转换为表征文本特征的句向量;根据训练得到的表征文本特征的句向量,对所述句向量转换模型中的特征参数进行调整;基于调整后的句向量转换模型,对多个目标文本进行句向量转换,得到多个表征目标文本特征的句向量;根据所述多个表征目标文本特征的句向量,计算所述多个目标文本之间的相似度。

Description

文本相似度的计算方法、装置、计算机设备及计算机存储介质
技术领域
本发明涉及文本处理技术领域,尤其是涉及到文本相似度的计算方法、装置、计算机设备及计算机存储介质。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,在做自然语言处理的过程中,经常会遇到找出相似语句的场景或者找出句子的近似表达,则需要利用计算文本相似度的方式将类似的句子进行归类。
文本相似度计算是自然语言处理领域最常见的应用问题,目前,通常以文本字符串距离、文本词向量化等方式来计算文本之间的相似度然而,这类计算文本之间相似度的方式都是将文本拆分为字符串与词向量来表示,而通过字符串或者词向量的简单组合并不能准确表达文本,使得在复杂表达的文本中很难准确计算文本之间的相似度,导致计算得到的文本相似度结果不理想。
发明内容
有鉴于此,本发明提供了一种文本相似度的计算方法、装置、计算机设备及计算机存储介质,主要目的在于解决计算得到的文本相似度结果不理想的问题。
依据本发明一个方面,提供了一种文本相似度的计算方法,该方法包括:
获取对不同句长的文本语料进行分词化后得到的训练分词语料,所述文本语料中包含多对句子组合,每对句子组合中包含两个句子,并且携带有两个句子之间的相似度标签;
将所述训练分词语料作为训练数据输入至监督模型中进行训练,构建句向量转换模型,所述句向量转换模型用于将文本语料中的句子转换为表征文本特征的句向量;
根据训练得到的表征文本特征的句向量,对所述句向量转换模型中的特征参数进行调整;
基于调整后的句向量转换模型,对多个目标文本进行句向量转换,得到多个表征目标文本特征的句向量;
根据所述多个表征目标文本特征的句向量,计算所述多个目标文本之间的相似度。
进一步地,所述监督模型为多层结构的网络模型,所述将所述训练文本语料作为样本数据输入至监督模型中进行训练,构建句向量转换模型包括:
通过所述网络模型的输入层以所述训练文本语料中的每个句子组合为单位,将所述句子组合中每个句子分别映射到向量空间中,得到句子组合的矩阵表示,所述矩阵表示中的列向量为句子组合中每个句子的向量表示,每个句子的向量表示中包括每个分词的向量表示;
通过所述网络模型的隐含层根据所述矩阵表示中的每个句子的向量表示和所述每个分词的向量表示提取句子组合中每个句子的句子特征,根据两个句子之间的相似度标签对所述句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数;
通过所述网络模型的输出层汇总所述每个分词在句子中的特征参数,得到文本特征的句向量。
进一步地,所述通过所述网络模型的隐含层根据所述矩阵表示中的每个句子的向量表示和所述每个分词的向量表示提取句子组合中每个句子的句子特征,根据两个句子之间的相似度标签对所述句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数包括:
通过所述网络模型的隐含层将所述矩阵表示中的每个句子的向量表示和所述每个分词的向量表示进行级联或者累加求平均,提取句子组合中每个句子的句子特征;
根据两个句子之间的相似度标签,通过多次从每个句子中滑动采样固定长度的分词来对所述句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数。
进一步地,所述根据训练得到的表征文本特征的句向量,对所述句向量转换模型中的特征参数进行调整包括:
将所述句子组合中每个句子的句子特征随机初始化后输入至所述句向量模型,得到多次训练得到的表征文本特征的句向量;
基于梯度下降算法计算所述多次训练得到的表征文本特征的句向量在训练过程中的损失值;
判断所述损失值是否在预设数值范围内,若否,则对所述句向量转换模型中的特征参数进行调整,若是,则生成调整后的句向量模型。
进一步地,所述根据所述多个表征目标文本特征的句向量,计算所述多个目标文本之间的相似度包括:
获取所述多个表征文本特征的句向量中每个句向量的实数值表示,得到多个句向量的实数值表示;
利用欧式距离计算所述多个句向量的实数值表示之间的绝对距离,得到多个目标文本之间的相似度。
依据本发明另一个方面,提供了一种文本相似度的计算装置,所述装置包括:
获取单元,用于获取对不同句长的文本语料进行分词化后得到的训练分词语料,所述文本语料中包含多对句子组合,每对句子组合中包含两个句子,并且携带有两个句子之间的相似度标签;
构建单元,用于将所述训练分词语料作为训练数据输入至监督模型中进行训练,构建句向量转换模型,所述句向量转换模型用于将文本语料中的句子转换为表征文本特征的句向量;
调整单元,用于根据训练得到的表征文本特征的句向量,对所述句向量转换模型中的特征参数进行调整;
转换单元,用于基于调整后的句向量转换模型,对多个目标文本进行句向量转换,得到多个表征目标文本特征的句向量;
计算单元,用于根据所述多个表征目标文本特征的句向量,计算所述多个目标文本之间的相似度。
进一步地,所述监督模型为多层结构的网络模型,所述构建单元包括:
映射模块,用于通过所述网络模型的输入层以所述训练文本语料中的每个句子组合为单位,将所述句子组合中每个句子分别映射到向量空间中,得到句子组合的矩阵表示,所述矩阵表示中的列向量为句子组合中每个句子的向量表示,每个句子的向量表示中包括每个分词的向量表示;
提取模块,用于通过所述网络模型的隐含层根据所述矩阵表示中的每个句子的向量表示和所述每个分词的向量表示提取句子组合中每个句子的句子特征,根据两个句子之间的相似度标签对所述句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数;
汇总模块,用于通过所述网络模型的输出层汇总所述每个分词在句子中的特征参数,得到文本特征的句向量。
进一步地,所述提取模块包括:
提取子模块,用于通过所述网络模型的隐含层将所述矩阵表示中的每个句子的向量表示和所述每个分词的向量表示进行级联或者累加求平均,提取句子组合中每个句子的句子特征;
训练子模块,用于根据两个句子之间的相似度标签,通过多次从每个句子中滑动采样固定长度的分词来对所述句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数。
进一步地,所述调整单元包括:
训练模块,用于将所述句子组合中每个句子的句子特征随机初始化后输入至所述句向量模型,得到多次训练得到的表征文本特征的句向量;
第一计算模块,用于基于梯度下降算法计算所述多次训练得到的表征文本特征的句向量在训练过程中的损失值;
判断模块,用于判断所述损失值是否在预设数值范围内,若否,则对所述句向量转换模型中的特征参数进行调整,若是,则生成调整后的句向量模型。
进一步地,所述计算单元包括:
获取模块,用于获取所述多个表征文本特征的句向量中每个句向量的实数值表示,得到多个句向量的实数值表示;
第二计算模块,用于利用欧式距离计算所述多个句向量的实数值表示之间的绝对距离,得到多个目标文本之间的相似度。
依据本发明又一个方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现文本相似度的计算方法的步骤。
依据本发明再一个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现文本相似度的计算方法的步骤。
借由上述技术方案,本发明提供一种文本相似度的计算方法及装置,通过获取对不同句长的文本语料进行分词化后得到的训练语料,并将训练分词语料作为训练数据输入至监督模型中进行训练,构建句向量转换模型,该句向量转换模型可以将文本语料中的句子转换为表征文本特征的句向量,基于句向量转换模型,对多个目标文本进行句向量转换,能够得到多个表征目标文本特征的句向量,从而根据多个表征目标特征的句向量,计算多个目标文本之间的相似度。与现有技术中通过字符串或者词向量的简单组合来计算文本相似度的方式相比,本发明构建的句向量转换模型在训练表征文本特征的句向量过程中充分考虑到了分词在句子中的主旨含义,使得转换得到的句向量能够准确表达文本,适用于较丰富业务场景下的文本语料,从而提高在复杂表达的文本中计算文本之间相似度的准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文本相似度的计算方法流程示意图;
图2示出了本发明实施例提供的另一种文本相似度的计算方法流程示意图;
图3示出了本发明实施例提供的另一种文本相似度的计算方法流程示意图;
图4示出了本发明实施例提供的另一种文本相似度的计算方法流程示意图;
图5示出了本发明实施例提供的一种文本相似度的计算装置的结构示意图;
图6示出了本发明实施例提供的另一种文本相似度的计算装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种文本相似度的计算方法,能够在复杂表达的文本中准确计算文本之间的相似度,如图1所示,该方法包括:
101、获取对不同句长的文本语料进行分词化后得到的训练分词语料。
其中,文本语料中包含多对句子组合,每对句子组合中包含两个句子,并且携带有两个句子之间的相似度标签。
对于本发明实施例,具体可以为采用分词工具对文本语料中句子组合的每个句子进行分词化后得到的训练分词语料,还可以采用字符串匹配的方法对每个中文句子进行分词。例如,可以采用jieba分词工具,通过直接调用jieba库的分词函数,还可以采用pynlpir、thulac等分词工具。
需要说明的是,每对句子组合中的两个句子之间的相似度可以通过句子中出现词语的相似性来计算,还可以利用检测系统来检测两个句子之间的相似度,这里对句子组合中两个句子之间的相似度不进行限定。
102、将所述训练分词语料作为训练数据输入至监督模型中进行训练,构建句向量转换模型。
其中,监督模型可以为doc2vec模型,还可以为word2vec模型,该监督模型可以用于将文本语料中的句子转换为表征文本特征的句向量,该监督模型可以根据句子中每个分词的上下文预测文本主旨,从而使得生成的句向量更准确,而不是像其他类型句向量算法是通过组成该句的词向量加权平均生成的。
由于输入至监督模型中的训练数据中携带有句子组合中两个句子之间的相似度标签,具体地,根据句子组合中两个句子之间的相似度标签可以训练输入训练分词语料与表征文本特征的句向量之间的映射关系,从而根据分词语料可以获取表征文本特征的句向量。
对于本发明实施例,这里监督模型可以为循环神经网络模型,具体可以通过反复训练对不同句长的文本语料进行分词化后得到的训练分词语料,构建句向量转换模型的网络结构,该网络结构可以对输入的数据进行训练,并给出正确的输入-输出关系,相当于文本对应的分词语料与表征文本特征的句向量之间的映射关系。
具体循环神经网络模型的结构可以通过输入层、隐含层以及全连接层结构实现,这里的输入层用于将语料分词映射到向量空间,得到矩阵表示,隐含层可以为多层结构,用于提取句子组合中每个句子的句子特征,对句子组合中的每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数;在递归神经网络模型中,全连接层与隐含层相连,隐含层的神经元和上一层输出局部区域相连,当然为了减少输出特征参数过多,可以设置两个全连接层在训练数据通过若干个隐含层训练后对训练输出的特征参数进行整合,得到文本特征的句向量。
103、根据训练得到的表征文本特征的句向量,对所述句向量转换模型中的特征参数进行调整。
可以理解的是,训练得到的表征文本特征的句向量并非是最终稳定下来的句向量,可能存在一定误差,为了提高转换得到句向量的准确性,基于训练得到的表征文本特征的句向量,对句向量转换模型中的特征参数进行调整,具体可以将表征文本特征的句向量随机初始化后放入转换模型中,通过设置损失函数不断迭代计算损失值,并调整转换模型中的特征参数,直至损失值处于一定的数值范围内。
104、基于调整后的句向量转换模型,对多个目标文本进行句向量转换,得到多个表征目标文本特征的句向量。
对于本发明实施例,多个目标文本为未知相似度的句子,对于每个目标文本经过句向量转换模型后,都可以得到表征每个目标文本特征的句向量,该句向量将文本句子作为整体来表示,考虑到句子中分词排序对目标文本信息的影响,能够准确表达目标文本。
105、根据所述多个表征目标文本特征的句向量,计算所述多个目标文本之间的相似度。
对于本发明实施例,多个表征目标文本特征的句向量可以将一段句子表征为实数向量,具体可以利用余弦或者欧氏距离求取多个目标文本之间的相似度,这里不进行限定。
本发明实施例提供一种文本相似度的计算方法,通过获取对不同句长的文本语料进行分词化后得到的训练语料,并将训练分词语料作为训练数据输入至监督模型中进行训练,构建句向量转换模型,该句向量转换模型可以将文本语料中的句子转换为表征文本特征的句向量,基于句向量转换模型,对多个目标文本进行句向量转换,能够得到多个表征目标文本特征的句向量,从而根据多个表征目标特征的句向量,计算多个目标文本之间的相似度。与现有技术中通过字符串或者词向量的简单组合来计算文本相似度的方式相比,本发明构建的句向量转换模型在训练表征文本特征的句向量过程中充分考虑到了分词在句子中的主旨含义,使得转换得到的句向量能够准确表达文本,适用于较丰富业务场景下的文本语料,从而提高在复杂表达的文本中计算文本之间相似度的准确性。
本发明实施例提供了另一种文本相似度的计算方法,具体在将训练文本语料作为样本数据输入至监督模型中进行训练,构建句向量转换模型的过程中,如图2所示,具体包括:
201、通过所述网络模型的输入层以所述训练文本语料中的每个句子组合为单位,将所述句子组合中每个句子分别映射到向量空间中,得到句子组合的矩阵表示,所述矩阵表示中的列向量为句子组合中每个句子的向量表示。
对于本发明实施例,网络模型的输入层可以将句子组合转换为矩阵表示,该矩阵表示中包含句子的向量表示和句子中分词的向量表示,句子的向量表示与分词的向量表示的维数虽然一样,但是来自两个不同的向量空间,在之后的计算力,句子的向量和分词的向量累加或者连接起来,作为分类层的输入。
具体在提取句子组合中每个句子的句子特征的过程中,可以每次从一个句子中滑动采样固定长度的分词,取其中一个分词作为预测值,其他作为输入词,输入词对应有分词的向量表示和句子的向量表示。
202、通过所述网络模型的隐含层根据所述矩阵表示中的每个句子的向量表示和所述每个分词的向量表示提取句子组合中每个句子的句子特征,根据两个句子之间的相似度标签对所述句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数。
对于本发明实施例,具体可以将矩阵表示中的每个句子的向量表示和每个分词的向量表示进行级联或者累加求平均,提取句子组合中每个句子的句子特征,进一步根据两个句子之间的相似度标签,通过多次从每个句子中滑动采样固定长度的分词来对句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数。
203、通过所述网络模型的输出层汇总所述每个分词在句子中的特征参数,得到文本特征的句向量。
对于本发明实施例,由于每次训练只会截取每个句子的小部分分词进行训练,在输入层增加了每个句子的向量表示,可以被看作是另一个分词向量,用于记忆本次训练分词以外的句子中的其他分词,这样训练出来的每个分词的向量表示,不会忽略文本中分词的词序问题,将每个句子的向量表示在训练每个句子中的分词过程中是共享的,所以同一个句子会经过多次训练后汇总每个分词在句子中的特征参数,从而保证训练得到的句向量能够更贴近文本主旨。
本发明实施例提供了另一种文本相似度的计算方法,具体在根据训练得到的表征文本特征的句向量,对句向量转换模型中的特征参数进行调整的过程中,如图3所示,具体包括:
301、将所述句子组合中每个句子的句子特征随机初始化后输入至所述句向量模型,得到多次训练得到的表征文本特征的句向量。
对于本发明实施例,为了保证训练得到的表征文本特征的句向量能够准确表达文本主旨,通过将句子组合中每个句子的句子特征随机初始化后输入至句向量模型,经过句向量模型再次对每个句子的句子特征进行反复训练,得到多次训练得到的表征文本特征的句向量。
302、基于梯度下降算法计算所述多次训练得到的表征文本特征的句向量在训练过程中的损失值。
对于本发明实施例,采用梯度下降算法计算得到的损失值能够表明表征文本特征的句向量的稳定性,损失值越小,说明表明表征文本特征的句向量越趋于稳定。
303、判断所述损失值是否在预设数值范围内。
由于在每次训练的过程中都会得到表征文本特征的句向量,如果基于梯度下降算法计算得到的损失值并非在预设范围内,说明该文本特征的句向量并非是最终稳定下来的句向量,进一步判断损失值是否在预设数值范围内,通常情况为了保证句向量的准确性,会设置较小的预设数值范围。
304a、若否,则对所述句向量转换模型中的特征参数进行调整。
304b、若是,则生成调整后的句向量模型。
本发明实施例提供了另一种文本相似度的计算方法,具体在根据多个表征目标文本特征的句向量,计算所述多个目标文本之间的相似度的过程中,如图4所示,具体包括:
401、获取所述多个表征文本特征的句向量中每个句向量的实数值表示,得到多个句向量的实数值表示。
通过句向量转换模型可以将文本中的每个句子转换为表征文本特征的句向量,并且每个句向量中在数值上具有大小,在方向上具有角度,结合每个句向量在数值上的大小以及在方向上的角度,获取每个句向量的实数值表示,该实数值表示包含数值大小以及方向角度。
402、利用欧式距离计算所述多个句向量的实数值表示之间的绝对距离,得到多个目标文本之间的相似度。
对于本发明实施例,具体可以利用欧式距离计算方法对获取的任意两个句向量的实数值表示之间的绝对距离进行计算,如下述公式所示,
其中,(x1、x2、…、xn)、(y1、y2、…、yn)分别为两个表征目标文本的句向量的实数值表示。
通过欧式距离计算方法计算得到的绝对距离即为两个目标文本之间的相似度,对于其他目标文本,皆可以通过欧氏距离计算方法计算多个目标文本之间的绝对距离,进而得到多个目标文本之间的相似度。
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种文本相似度的计算装置,如图5所示,所述装置包括:获取单元51、构建单元52、调整单元53、转换单元54、计算单元55。
获取单元51,用于获取对不同句长的文本语料进行分词化后得到的训练分词语料,所述文本语料中包含多对句子组合,每对句子组合中包含两个句子,并且携带有两个句子之间的相似度标签;
构建单元52,可以用于将所述训练分词语料作为训练数据输入至监督模型中进行训练,构建句向量转换模型,所述句向量转换模型用于将文本语料中的句子转换为表征文本特征的句向量;
调整单元53,可以用于根据训练得到的表征文本特征的句向量,对所述句向量转换模型中的特征参数进行调整;
转换单元54,可以用于基于调整后的句向量转换模型,对多个目标文本进行句向量转换,得到多个表征目标文本特征的句向量;
计算单元55,可以用于根据所述多个表征目标文本特征的句向量,计算所述多个目标文本之间的相似度。
本发明提供的一种文本相似度的计算装置,通过获取对不同句长的文本语料进行分词化后得到的训练语料,并将训练分词语料作为训练数据输入至监督模型中进行训练,构建句向量转换模型,该句向量转换模型可以将文本语料中的句子转换为表征文本特征的句向量,基于句向量转换模型,对多个目标文本进行句向量转换,能够得到多个表征目标文本特征的句向量,从而根据多个表征目标特征的句向量,计算多个目标文本之间的相似度。与现有技术中通过字符串或者词向量的简单组合来计算文本相似度的方式相比,本发明构建的句向量转换模型在训练表征文本特征的句向量过程中充分考虑到了分词在句子中的主旨含义,使得转换得到的句向量能够准确表达文本,适用于较丰富业务场景下的文本语料,从而提高在复杂表达的文本中计算文本之间相似度的准确性。
作为图5中所示文本相似度的计算装置的进一步说明,图6是根据本发明实施例另一种文本相似度的计算装置的结构示意图,如图6所示,所述监督模型为多层结构的网络模型,所述构建单元52包括:
映射模块521,可以用于通过所述网络模型的输入层以所述训练文本语料中的每个句子组合为单位,将所述句子组合中每个句子分别映射到向量空间中,得到句子组合的矩阵表示,所述矩阵表示中的列向量为句子组合中每个句子的向量表示,每个句子的向量表示中包括每个分词的向量表示;
提取模块522,可以用于通过所述网络模型的隐含层根据所述矩阵表示中的每个句子的向量表示和所述每个分词的向量表示提取句子组合中每个句子的句子特征,根据两个句子之间的相似度标签对所述句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数;
汇总模块523,可以用于通过所述网络模型的输出层汇总所述每个分词在句子中的特征参数,得到文本特征的句向量。
进一步地,所述提取模块522包括:
提取子模块5221,可以用于通过所述网络模型的隐含层将所述矩阵表示中的每个句子的向量表示和所述每个分词的向量表示进行级联或者累加求平均,提取句子组合中每个句子的句子特征;
训练子模块5222,可以用于根据两个句子之间的相似度标签,通过多次从每个句子中滑动采样固定长度的分词来对所述句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数。
进一步地,所述调整单元53包括:
训练模块531,可以用于将所述句子组合中每个句子的句子特征随机初始化后输入至所述句向量模型,得到多次训练得到的表征文本特征的句向量;
第一计算模块532,可以用于基于梯度下降算法计算所述多次训练得到的表征文本特征的句向量在训练过程中的损失值;
判断模块533,可以用于判断所述损失值是否在预设数值范围内,若否,则对所述句向量转换模型中的特征参数进行调整,若是,则生成调整后的句向量模型。
进一步地,所述计算单元55包括:
获取模块551,可以用于获取所述多个表征文本特征的句向量中每个句向量的实数值表示,得到多个句向量的实数值表示;
第二计算模块552,可以用于利用欧式距离计算所述多个句向量的实数值表示之间的绝对距离,得到多个目标文本之间的相似度。
需要说明的是,本实施例提供的一种文本相似度的计算装置所涉及各功能单元的其他相应描述,可以参考图1-图4中的对应描述,在此不再赘述。
基于上述如图1-图4所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1-图4所示的文本相似度的计算方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1-图4所示的方法,以及图5、图6所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1-图4所示的文本相似度的计算方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的文本相似度的计算装置的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与现有技术中通过字符串或者词向量的简单组合来计算文本相似度的方式相比,本发明构建的句向量转换模型在训练表征文本特征的句向量过程中充分考虑到了分词在句子中的主旨含义,使得转换得到的句向量能够准确表达文本,适用于较丰富业务场景下的文本语料,从而提高在复杂表达的文本中计算文本之间相似度的准确性。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种文本相似度的计算方法,其特征在于,所述方法包括:
获取对不同句长的文本语料进行分词化后得到的训练分词语料,所述文本语料中包含多对句子组合,每对句子组合中包含两个句子,并且携带有两个句子之间的相似度标签;
将所述训练分词语料作为训练数据输入至监督模型中进行训练,构建句向量转换模型,所述句向量转换模型用于将文本语料中的句子转换为表征文本特征的句向量;
根据训练得到的表征文本特征的句向量,对所述句向量转换模型中的特征参数进行调整;
基于调整后的句向量转换模型,对多个目标文本进行句向量转换,得到多个表征目标文本特征的句向量;
根据所述多个表征目标文本特征的句向量,计算所述多个目标文本之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述监督模型为多层结构的网络模型,所述将所述训练文本语料作为样本数据输入至监督模型中进行训练,构建句向量转换模型包括:
通过所述网络模型的输入层以所述训练文本语料中的每个句子组合为单位,将所述句子组合中每个句子分别映射到向量空间中,得到句子组合的矩阵表示,所述矩阵表示中的列向量为句子组合中每个句子的向量表示,每个句子的向量表示中包括每个分词的向量表示;
通过所述网络模型的隐含层根据所述矩阵表示中的每个句子的向量表示和所述每个分词的向量表示提取句子组合中每个句子的句子特征,根据两个句子之间的相似度标签对所述句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数;
通过所述网络模型的输出层汇总所述每个分词在句子中的特征参数,得到文本特征的句向量。
3.根据权利要求2所述的方法,其特征在于,所述通过所述网络模型的隐含层根据所述矩阵表示中的每个句子的向量表示和所述每个分词的向量表示提取句子组合中每个句子的句子特征,根据两个句子之间的相似度标签对所述句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数包括:
通过所述网络模型的隐含层将所述矩阵表示中的每个句子的向量表示和所述每个分词的向量表示进行级联或者累加求平均,提取句子组合中每个句子的句子特征;
根据两个句子之间的相似度标签,通过多次从每个句子中滑动采样固定长度的分词来对所述句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数。
4.根据权利要求2所述的方法,其特征在于,所述根据训练得到的表征文本特征的句向量,对所述句向量转换模型中的特征参数进行调整包括:
将所述句子组合中每个句子的句子特征随机初始化后输入至所述句向量模型,得到多次训练得到的表征文本特征的句向量;
基于梯度下降算法计算所述多次训练得到的表征文本特征的句向量在训练过程中的损失值;
判断所述损失值是否在预设数值范围内,若否,则对所述句向量转换模型中的特征参数进行调整,若是,则生成调整后的句向量模型。
5.根据权利要求1所述的方法,其特征在于,所述根据所述多个表征目标文本特征的句向量,计算所述多个目标文本之间的相似度包括:
获取所述多个表征文本特征的句向量中每个句向量的实数值表示,得到多个句向量的实数值表示;
利用欧式距离计算所述多个句向量的实数值表示之间的绝对距离,得到多个目标文本之间的相似度。
6.一种文本相似度的计算装置,其特征在于,所述装置包括:
获取单元,用于获取对不同句长的文本语料进行分词化后得到的训练分词语料,所述文本语料中包含多对句子组合,每对句子组合中包含两个句子,并且携带有两个句子之间的相似度标签;
构建单元,用于将所述训练分词语料作为训练数据输入至监督模型中进行训练,构建句向量转换模型,所述句向量转换模型用于将文本语料中的句子转换为表征文本特征的句向量;
调整单元,用于根据训练得到的表征文本特征的句向量,对所述句向量转换模型中的特征参数进行调整;
转换单元,用于基于调整后的句向量转换模型,对多个目标文本进行句向量转换,得到多个表征目标文本特征的句向量;
计算单元,用于根据所述多个表征目标文本特征的句向量,计算所述多个目标文本之间的相似度。
7.根据权利要求6所述的装置,其特征在于,所述监督模型为多层结构的网络模型,所述构建单元包括:
映射模块,用于通过所述网络模型的输入层以所述训练文本语料中的每个句子组合为单位,将所述句子组合中每个句子分别映射到向量空间中,得到句子组合的矩阵表示,所述矩阵表示中的列向量为句子组合中每个句子的向量表示,每个句子的向量表示中包括每个分词的向量表示;
提取模块,用于通过所述网络模型的隐含层根据所述矩阵表示中的每个句子的向量表示和所述每个分词的向量表示提取句子组合中每个句子的句子特征,根据两个句子之间的相似度标签对所述句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数;
汇总模块,用于通过所述网络模型的输出层汇总所述每个分词在句子中的特征参数,得到文本特征的句向量。
8.根据权利要求7所述的装置,其特征在于,所述提取模块包括:
提取子模块,用于通过所述网络模型的隐含层将所述矩阵表示中的每个句子的向量表示和所述每个分词的向量表示进行级联或者累加求平均,提取句子组合中每个句子的句子特征;
训练子模块,用于根据两个句子之间的相似度标签,通过多次从每个句子中滑动采样固定长度的分词来对所述句子组合中每个句子的句子特征进行训练,得到每个分词在每个句子中的特征参数。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201910390792.0A 2019-05-10 2019-05-10 文本相似度的计算方法、装置、计算机设备及计算机存储介质 Active CN110287312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910390792.0A CN110287312B (zh) 2019-05-10 2019-05-10 文本相似度的计算方法、装置、计算机设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910390792.0A CN110287312B (zh) 2019-05-10 2019-05-10 文本相似度的计算方法、装置、计算机设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110287312A true CN110287312A (zh) 2019-09-27
CN110287312B CN110287312B (zh) 2023-08-25

Family

ID=68001576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910390792.0A Active CN110287312B (zh) 2019-05-10 2019-05-10 文本相似度的计算方法、装置、计算机设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110287312B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738059A (zh) * 2019-10-21 2020-01-31 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及系统
CN110781686A (zh) * 2019-10-30 2020-02-11 普信恒业科技发展(北京)有限公司 一种语句相似度计算方法、装置及计算机设备
CN111104799A (zh) * 2019-10-16 2020-05-05 中国平安人寿保险股份有限公司 文本信息表征方法、系统及计算机设备、存储介质
CN111125301A (zh) * 2019-11-22 2020-05-08 泰康保险集团股份有限公司 文本方法及装置、电子设备和计算机可读存储介质
CN111178082A (zh) * 2019-12-05 2020-05-19 北京葡萄智学科技有限公司 一种句向量生成方法、装置及电子设备
CN111259113A (zh) * 2020-01-15 2020-06-09 腾讯科技(深圳)有限公司 文本匹配方法、装置、计算机可读存储介质和计算机设备
CN111368081A (zh) * 2020-03-03 2020-07-03 支付宝(杭州)信息技术有限公司 一种精选文本内容确定方法和系统
CN111401076A (zh) * 2020-04-09 2020-07-10 支付宝(杭州)信息技术有限公司 一种文本的相似度确定方法、装置和电子设备
CN111401928A (zh) * 2020-04-01 2020-07-10 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN111414765A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
CN112215270A (zh) * 2020-09-27 2021-01-12 苏州浪潮智能科技有限公司 一种模型的相似度对比方法、系统、设备以及介质
CN112231471A (zh) * 2020-09-04 2021-01-15 大箴(杭州)科技有限公司 文本处理方法及装置、计算机设备、存储介质
JP2021111420A (ja) * 2020-01-15 2021-08-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド テキストエンティティの語義記述処理方法、装置及び機器
CN113204630A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 一种文本匹配方法、装置、计算机设备及可读存储介质
CN113312475A (zh) * 2020-02-27 2021-08-27 北京搜狗科技发展有限公司 一种文本相似度确定方法及装置
CN113590963A (zh) * 2021-08-04 2021-11-02 浙江新蓝网络传媒有限公司 均衡的文本推荐方法
CN115017915A (zh) * 2022-05-30 2022-09-06 北京三快在线科技有限公司 一种模型训练、任务执行的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679144A (zh) * 2017-09-25 2018-02-09 平安科技(深圳)有限公司 基于语义相似度的新闻语句聚类方法、装置及存储介质
CN107729322A (zh) * 2017-11-06 2018-02-23 广州杰赛科技股份有限公司 分词方法及装置、建立句子向量生成模型方法及装置
JP2018032213A (ja) * 2016-08-24 2018-03-01 シャープ株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN108304437A (zh) * 2017-09-25 2018-07-20 腾讯科技(深圳)有限公司 一种自动问答方法、装置及存储介质
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统
WO2018153217A1 (zh) * 2017-02-27 2018-08-30 芋头科技(杭州)有限公司 一种句子相似度判断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018032213A (ja) * 2016-08-24 2018-03-01 シャープ株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
WO2018153217A1 (zh) * 2017-02-27 2018-08-30 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN107679144A (zh) * 2017-09-25 2018-02-09 平安科技(深圳)有限公司 基于语义相似度的新闻语句聚类方法、装置及存储介质
CN108304437A (zh) * 2017-09-25 2018-07-20 腾讯科技(深圳)有限公司 一种自动问答方法、装置及存储介质
CN107729322A (zh) * 2017-11-06 2018-02-23 广州杰赛科技股份有限公司 分词方法及装置、建立句子向量生成模型方法及装置
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104799A (zh) * 2019-10-16 2020-05-05 中国平安人寿保险股份有限公司 文本信息表征方法、系统及计算机设备、存储介质
CN111104799B (zh) * 2019-10-16 2023-07-21 中国平安人寿保险股份有限公司 文本信息表征方法、系统及计算机设备、存储介质
CN110738059B (zh) * 2019-10-21 2023-07-14 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及系统
CN110738059A (zh) * 2019-10-21 2020-01-31 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及系统
CN110781686A (zh) * 2019-10-30 2020-02-11 普信恒业科技发展(北京)有限公司 一种语句相似度计算方法、装置及计算机设备
CN110781686B (zh) * 2019-10-30 2023-04-18 普信恒业科技发展(北京)有限公司 一种语句相似度计算方法、装置及计算机设备
CN111125301A (zh) * 2019-11-22 2020-05-08 泰康保险集团股份有限公司 文本方法及装置、电子设备和计算机可读存储介质
CN111178082A (zh) * 2019-12-05 2020-05-19 北京葡萄智学科技有限公司 一种句向量生成方法、装置及电子设备
CN111259113B (zh) * 2020-01-15 2023-09-19 腾讯科技(深圳)有限公司 文本匹配方法、装置、计算机可读存储介质和计算机设备
US11669690B2 (en) 2020-01-15 2023-06-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for processing sematic description of text entity, and storage medium
CN111259113A (zh) * 2020-01-15 2020-06-09 腾讯科技(深圳)有限公司 文本匹配方法、装置、计算机可读存储介质和计算机设备
JP7113097B2 (ja) 2020-01-15 2022-08-04 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキストエンティティの語義記述処理方法、装置及び機器
JP2021111420A (ja) * 2020-01-15 2021-08-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド テキストエンティティの語義記述処理方法、装置及び機器
CN113312475A (zh) * 2020-02-27 2021-08-27 北京搜狗科技发展有限公司 一种文本相似度确定方法及装置
CN113312475B (zh) * 2020-02-27 2024-03-15 北京搜狗科技发展有限公司 一种文本相似度确定方法及装置
CN111368081A (zh) * 2020-03-03 2020-07-03 支付宝(杭州)信息技术有限公司 一种精选文本内容确定方法和系统
CN111414765A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
CN111401928B (zh) * 2020-04-01 2022-04-12 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN111401928A (zh) * 2020-04-01 2020-07-10 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN111401076B (zh) * 2020-04-09 2023-04-25 支付宝(杭州)信息技术有限公司 一种文本的相似度确定方法、装置和电子设备
CN111401076A (zh) * 2020-04-09 2020-07-10 支付宝(杭州)信息技术有限公司 一种文本的相似度确定方法、装置和电子设备
CN112231471B (zh) * 2020-09-04 2022-06-07 大箴(杭州)科技有限公司 文本处理方法及装置、计算机设备、存储介质
CN112231471A (zh) * 2020-09-04 2021-01-15 大箴(杭州)科技有限公司 文本处理方法及装置、计算机设备、存储介质
CN112215270A (zh) * 2020-09-27 2021-01-12 苏州浪潮智能科技有限公司 一种模型的相似度对比方法、系统、设备以及介质
CN112215270B (zh) * 2020-09-27 2022-12-20 苏州浪潮智能科技有限公司 一种模型的相似度对比方法、系统、设备以及介质
CN113204630A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 一种文本匹配方法、装置、计算机设备及可读存储介质
CN113590963A (zh) * 2021-08-04 2021-11-02 浙江新蓝网络传媒有限公司 均衡的文本推荐方法
CN115017915A (zh) * 2022-05-30 2022-09-06 北京三快在线科技有限公司 一种模型训练、任务执行的方法及装置

Also Published As

Publication number Publication date
CN110287312B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN110287312A (zh) 文本相似度的计算方法、装置、计算机设备及计算机存储介质
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
Heigold et al. An extensive empirical evaluation of character-based morphological tagging for 14 languages
CN110334110A (zh) 自然语言分类方法、装置、计算机设备以及存储介质
CN105096934B (zh) 构建语音特征库的方法、语音合成方法、装置及设备
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
WO2018196718A1 (zh) 图像消歧方法、装置、存储介质和电子设备
CN111666766B (zh) 数据处理方法、装置和设备
CN108959474B (zh) 实体关系提取方法
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN110457677A (zh) 实体关系识别方法及装置、存储介质、计算机设备
CN111198939A (zh) 语句相似度的分析方法、装置及计算机设备
CN112632226A (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
CN110795572A (zh) 一种实体对齐方法、装置、设备及介质
CN110941951A (zh) 文本相似度计算方法、装置、介质及电子设备
CN111079374A (zh) 字体生成方法、装置和存储介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN111444695A (zh) 基于人工智能的文本生成方法、装置、设备及存储介质
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
CN113536784A (zh) 文本处理方法、装置、计算机设备和存储介质
CN114417891B (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质
CN115510212A (zh) 一种文本事件抽取方法、装置、设备及存储介质
CN111221880B (zh) 特征组合方法、装置、介质和电子设备
CN110245231B (zh) 一种针对乱码的训练样本特征提取方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant