CN113221530B - 一种文本相似度匹配方法、装置、计算机设备和储存介质 - Google Patents

一种文本相似度匹配方法、装置、计算机设备和储存介质 Download PDF

Info

Publication number
CN113221530B
CN113221530B CN202110417707.2A CN202110417707A CN113221530B CN 113221530 B CN113221530 B CN 113221530B CN 202110417707 A CN202110417707 A CN 202110417707A CN 113221530 B CN113221530 B CN 113221530B
Authority
CN
China
Prior art keywords
sample
model
anchor
samples
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110417707.2A
Other languages
English (en)
Other versions
CN113221530A (zh
Inventor
刘伟
杨红飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Huiyidao Technology Co.,Ltd.
Original Assignee
Hangzhou Firestone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Firestone Technology Co ltd filed Critical Hangzhou Firestone Technology Co ltd
Priority to CN202110417707.2A priority Critical patent/CN113221530B/zh
Publication of CN113221530A publication Critical patent/CN113221530A/zh
Application granted granted Critical
Publication of CN113221530B publication Critical patent/CN113221530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质,其涉及计算机信息处理技术领域,所述方法包括:S1样本准备;S2模型训练;S3模型预测;在S2模型训练阶段,首先使用孪生网络结构分批训练上述样本集;然后分别计算锚样本与正样本、负样本之间的距离:利用electra模型计算样本的3)使用circle loss损失函数计算损失值,接着利用electra模型计算每个样本的特征表示,将circle loss损失函数与electra模型相结合,并使其应用到问答系统中,可得到文本相似度匹配速度与精度均较高的问题收集方法。

Description

一种文本相似度匹配方法、装置、计算机设备和储存介质
技术领域
本发明涉及计算机信息处理技术领域,特别涉及一种文本相似度匹配方法、装置、计算机设备和储存介质。
背景技术
近年来,随着人工智能相关学科,特别是计算语言学的发展,各种各样的问答系统应运而生,它允许用户以自然语言的方式提问,通过理解与检索等过程将简短、准确的答案返回给用户。文本匹配是检索过程的最要一环。文本匹配主要由传统的基于词的字面匹配和基于深度学习的向量匹配。
传统的BM25/Jaccard/Cosine Similarity等基于词匹配的模型都具有表示方法简洁、运算方便的特点,解决了词汇层面的匹配问题。但是基于词匹配的模型也有一定的局限,不能解决一词多义、同义词关联以及语序问题。基于深度学习的的文本匹配方法主要分为两类,一类是Representation-based模型,这类方法先分别学习出query和question的句向量表示,然后用两个向量做余弦相似度计算或者连接多层感知机(MLP)得到最后的匹配分,重点是学习query和question对应的句向量表示;另外一类是Interaction-based模型,这类先构建匹配矩阵(Matching Matrix),然后利用匹配矩阵学习一个匹配函数,最后连接多层感知机输出匹配分。第二类方法在实际应用中会有很大的延时。Representation-based模型最为有代表性的是基于孪生网络(Siamese Network)的文本匹配。但孪生网络在实际应用中对于训练语料中未出现的句子匹配效果较差。为了提高文本匹配的泛化能力,引入了Triplet Loss用以提高了文本匹配的泛化能力。在Triplet Loss中,训练期间有三个输入,分别是锚样本(anchor sample),正样本(positive sample)和负样本(negtivesample)。锚是参考输入,正样本是锚样本的相似样本,负样本与锚样本不相似。TripletLoss的思想是:最大化锚样本和负样本之间的距离,同时拉近或最小化锚样本和正样本之间的距离。但当正样本或负样本与锚样本具有相同的距离时,或者正样本只是相比负样本稍微接近锚样本时,正样本到锚样本的距离与负样本到锚样本的距离差(margin)为零,也就是损失是零,此时就不会进行校正,尽管它仍然应该把正样本拉的更近,把负样本推得更远。
但在训练过程中存在两对正样本和负样本之间有相同margin(正样本到锚样本的距离与负样本到锚样本的距离差),但其中一对离anchor更近另一对离点更远,如图6所示,在Triplet Loss训练过程中两对样本会得到相对的梯度,两对样本具有相同的最优性,利用Triplet Loss无法准确且快速的完成文本匹配。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种基于circle loss的文本相似度匹配方法,解决了利用Triplet Loss模型针对两对具有相同margin的样本时无法准确且快速完成文本匹配的问题,实用性较高。
为了实现上述目的,本发明所采用的技术方案为:一种基于circle loss的文本相似度匹配方法,包括如下步骤:
S1样本准备:收集问题集、确定锚样本、正样本与负样本,并对锚样本、正样本与负样本进行排序;
S2模型训练:构建并训练模型;
S3模型预测:测试训练完成的模型;
其中,S2模型训练具体为,使用孪生网络结构分批训练上述样本集;1)分别计算锚样本与正样本、负样本之间的距离;2)使用circle loss损失函数计算损失值;
计算锚样本与正样本的距离和锚样本与负样本的距离,其过程具体为:1)使用无监督模型计算每个样本的特征表示,无监督模型选用为electra模型;2)通过卷积神经网络,对每个样本的特征表示进行学习,获取每个样本的特征向量(200维);3)利用公式1和公
式2来分别计算锚样本与正样本、负样本之间的距离。
Distance=1–similarity 公式2
其中:A代表锚样本的语义向量;B代表正样本或负样本的语义向量;Distance代表锚样本与正样本的距离或锚样本与负样本的距离。
优选的,S1样本准备包括:1)收集问题集,使用分类模型分类问题集;2)在分类后的样本集中选择锚样本、正样本和负样本;3)将选择的样本分为三列,第一列为锚样本,第二列为正样本;第三列为负样本;在收集并分类问题集后,使用收集的问题集及外部医疗数据训练BM25模型,使用训练好的BM25模型选择锚样本、正样本与负样本。
优选的,分类模型选择为基于bert的分类模型。
优选的,在S3模型预测过程中,将所有问题集通过上述训练好的模型,获得问题的语义向量,使用faiss模型构建向量索引优选的,在模型预测过程中,将所有问题集通过上述训练好的模型,获得问题的语义向量,使用faiss构建向量索引。
优选的,选择锚样本、正样本和负样本的过程为:1)使用BM25模型选择锚样本:从收集到的问题集中随机选择30%作为样本,使用BM25模型计算样本之间的相似度,过滤掉相似度大于0.6的样本,其余样本作为锚样本;
2)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.8的样本为正样本;
3)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.6、小于0.8的样本作为困难样本,小于0.5的样本作为容易样本,最后将困难样本和容易样本按照7:3的比例混合,作为负样本。
优选的,困难样本均是相同领域的问题,容易样本中,相同领域与不同领域比例控制在7:3。
优选的,一种基于circle loss的文本相似度匹配装置,包括:预处理模块,对用户输入的文本进行分词,根据预先的同义词库和缩写库分别进行同义词替换和缩写替换,替换后会得到多个句子;
句子语义向量抽取模块,将每个句子通过electra模型得到的每个句子中所有的字向量进行求均值操作,将均值向量作为每句话的句子语义向量,最后对所有句子向量进行平均,获取多句话的平均语义向量;
相似度计算模块,将上述获取的平均语义向量,与所有问题的语义向量进行相似度计算,最后选取相似度靠前的问题,返回给用户。
优选的,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
优选的,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明的优点在于:(1)利用circle loss模型来计算损失值,并将circle loss模型与electra模型相结合,解决了目前Triplet Loss模型在问答系统的文本相似度匹配中存在的匹配速度和精度低的问题,十分具有应用前景;(2)利用训练好的BM25模型来选择锚样本、正样本与负样本,在样本的选择方式上进行改进,使用此样本训练出来的模型精准度更高;(3)在样本选择完成后,对样本进行排序,实现样本在后期的分批、有序训练;(4)将上述文本相似度匹配方法与计算机设备或计算机可读存储介质相结合,使其应用到问答系统中,处理问题的效率与精度更高,具有较好的市场前景。
附图说明
图1为实施例1的方法流程图;
图2为实施例1中方法的大体框架流程图;
图3为实施例1中S1的具体方法流程图;
图4为实施例1中装置结构简图;
图5为实施例1中计算机设备的结构示意图;
图6为背景技术附图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
实施例1
如图1至图3所示的一种基于circle loss的文本相似度匹配方法,具体包括:
S1样本准备:收集问题集、确定锚样本、正样本与负样本,并对锚样本、正样本与负样本进行排序;
S2模型训练:构建并训练模型;
S3模型预测:测试训练完成的模型。
其中,如图3所示,S1样本准备包括:1)收集问题集,使用分类模型分类问题集,此处的分类模型选择基于bert的分类模型;
2)在分类后的样本集中选择锚样本、正样本和负样本;
3)将选择的样本分为三列,第一列为锚样本,第二列为正样本;第三列为负样本;在收集并分类问题集后,使用收集的问题集及外部医疗数据训练BM25模型,使用训练好的BM25模型选择锚样本、正样本与负样本。
此处以医疗问题为例,首先收集医疗问题集,使用构建的基于bert的疾病分类模型,将问题进行分类,比如“糖尿病怎么治疗,分类为糖尿病”、“肝病怎么治疗,分类为肝病”。
在选择锚样本、正样本和负样本阶段,首先需使用收集的所有问题集及外部医疗数据共7G训练BM25模型,并利用BM25模型来选择锚样本、正样本与负样本。
上述利用BM25模型选择锚样本、正样本与负样本的步骤包括:1)从收集到的问题集中随机选择30%作为样本,使用BM25模型计算样本之间的相似度,过滤掉相似度大于0.6的样本,其余样本作为锚样本,保证选择的锚样本之间的相似度很低;
2)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.8的样本为正样本;
3)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.6、小于0.8的样本作为hard example(困难样本),小于0.5的样本作为easy example(容易样本),最后将hardexample(困难样本)和easy example(容易样本)按照7:3的比例混合,作为负样本。
需要注意的是,为了提高模型的鲁棒性,hard example(困难样本)均是从相同领域中选择的问题,在选择easy example(容易样本)时,使得easy example(容易样本)由相同领域与不同领域比例控制在7:3的问题组成。此处的hard example是指与锚样本相近,但又不是正样本的数据。
本实施例对选择锚样本、正样本与负样本的方法进行了改进,使用此方法得到的样本对,更高效训练模型。
S2模型训练具体为使用孪生网络结构分批训练上述样本集,具体结合图1和图2进行理解:
1)分别计算锚样本与正样本之间的距离(Sp)、锚样本与负样本之间的距离(Sn);
2)使用circle loss损失函数计算损失值;
计算锚样本与正样本的距离和锚样本与负样本的距离,其过程具体为:
1)使用无监督模型计算每个样本的特征表示,无监督模型选用为electra模型;
2)通过CNN网络(卷积神经网络),对每个样本的特征表示进行学习,获取每个样本的特征向量(200维);
3)利用公式1和公式2来分别计算锚样本与正样本、负样本之间的距离。
Distance=1–similarity 公式2
其中:A代表锚样本的语义向量;B代表正样本或负样本的语义向量;Distance代表锚样本与正样本的距离或锚样本与负样本的距离。
当A表示锚样本的语义向量,B表示正样本的语义向量时,则similarity与Distance计算的数值分别为锚样本与正样本的相似度数值、锚样本与正样本之间的距离(Sp)。
当A表示锚样本的语义向量,B表示负样本的语义向量时,则similarity与Distance计算的数值分别为锚样本与负样本的相似度数值、锚样本与负样本之间的距离(Sn)。
上述步骤完成之后,开始计算损失值。其包含的内容具体为:使用公式3计算circle loss的损失值,Lcircle代表着各样本的损失值。为了避免出现损失值为0的情况,添加了自定义常量margin m和缩放因子γ,另外需要自定义了余量Δn和Δp;文中设置Op=1+m,On=-m,Δp=1-m,Δn=m来降低超参数,αn和αp是独立的权重因子,允许Sn和Sp以不同的速度学习因此只需要设置γ和m。
公式3circle loss损失函数。
在S3模型预测阶段中,将所有问题通过上述训练好的模型,获得问题的语义向量,使用faiss构建向量索引,当用户输入问题时,将用户的问题使用上述训练好的模型获得其语义向量,然后使用faiss进行相似度计算,获取相似度最高的前K个问题返回用户,此处的K是个自定义的常数。
在实际训练过程中对于两对正样本和负样本之间有相同margin(正样本到锚的距离与负样本到锚的距离差),但是其中一对离anchor更近另一对离点更远,如图6所示情形。若使用当前应用最多的Triplet Loss进行训练,训练过程中两对样本会得到相对的梯度,无法完成精确且快速的匹配过程。在我们的发明中,当正样本已经很接近anchor(锚样本,可视为参考样本,与正样本距离较近,与负样本距离较远)时,模型会把注意力更多地放在把负样本推开上,当正样本和负样本都离我们很远时,模型会把注意力更多地放在把正样本拉向anchor。为了解决这一问孙奕帆等人提出了Circle Loss。Circle Loss通过对每个相似度评分、Sn、Sp分别给予不同的惩罚强度(Sp为类内相似度评分,Sn为类间相似度评分),从而使优化更加灵活。并将(Sn—Sp)推广到(αn*Sn—αp*Sp),其中,αn和αp是独立的权重因子,允许Sn和Sp以不同的速度学习。
Circle loss也给出了一个更明确的收敛点。在Triplet Loss中,上面的两对具有相同的最优性。但在Circle Loss中倾向于不是太接近锚样本(因为这意味着平均负样本更接近锚点)和不是太远离锚样本(因为正样样本会离锚太远)的样本对。为了提高文本匹配的准确度与速度,我们将circle loss结合electra首次应用到文本匹配中,实现了技术的创新。
本发明还公开了一种基于circle loss的文本相似度匹配装置,如图4所示,其包括预处理模块、句子语义向量抽取模块和相似度计算模块。
上述装置预设并构件语义向量索引,具体为:将搜集到的所有问题通过预处理,去除无意义字符后,将所有句子分别通过electra模型得到的句子中所有的字向量进行求均值操作,最终将均值向量作为每句话的句子语义向量。然后使用faiss模块对语义向量构建欧式距离(faiss.indexFlatL2)索引。
其中,预处理模块,对用户输入的文本进行分词,根据预先的同义词库和缩写库分别进行同义词替换和缩写替换,替换后会得到多个句子。
句子语义向量抽取模块,将每个句子通过electra模型得到的每个句子中所有的字向量进行求均值操作,将均值向量作为每句话的句子语义向量。最后对所有句子向量进行平均,获取多句话的平均语义向量。
相似度计算模块,将上述获取的平均语义向量,与所有问题的语义向量经过文中的匹配方法进行相似度计算,最后选取相似度topK,返回给用户。K是一个自定义常数,比如10个、20个等。
本实施例描述的文本相似度匹配装置,通过将circle loss模型与electra模型相结合,提高了文本相似度的匹配精度与匹配效率,在问答系统的问题匹配过程中,通过本发明实施例提供的文本相似度计算方法可实现从答案库中选取出相对准确、完整的答案回复集,提高答案的完整度以及答案与问题之间的相关度。
本发明公开了计算机设备,如图5所示,该计算机设备包括:处理器、存储系统及存储在存储系统上并可在处理器上运行的计算机程序。
其中,处理器的数量可以是一个或多个,本实施例以一个处理器为例展开描述,如图所示,处理器执行所述计算机程序时实现如上述文本相似度计算方法。如图所示,所述计算机设备还可以包括用于输入输出的I/O端,处理器通过高性能计算来实现模型预测。
存储系统作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块。处理器先通过运行存储在存储系统中的软件程序、指令以及模块,后续高速缓存到内存,以执行电子设备的各种功能应用以及数据处理,即实现上述的文本相似度计算方法。
本发明还公开了一种包含计算机可执行的存储介质,上面存储有计算机程序,计算机程序被处理器执行时用于实现一种文本相似度匹配的方法,该方法包括:
样本准备:收集问题集、确定锚样本、正样本与负样本,并对锚样本、正样本与负样本进行排序;
模型训练:构建并训练模型;
模型预测:测试训练完成的模型。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本相似度计算相关操作。
尽管以上详细地描述了本发明的优选实施例,但是应该清楚地理解,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于circle loss的文本相似度匹配方法,其特征在于,包括如下步骤:
S1样本准备:收集问题集,确定锚样本、正样本与负样本,并对锚样本、正样本与负样本进行排序,形成样本集;
S2模型训练:构建并训练模型;
S3模型预测:测试训练完成的模型;
S1样本准备具体步骤如下:
1)收集问题集,使用分类模型分类问题集;2)在分类后的样本集中选择锚样本、正样本和负样本;3)将选择的样本分为三列,第一列为锚样本,第二列为正样本;第三列为负样本;在收集并分类问题集后,使用收集的问题集及外部医疗数据训练BM25模型,使用训练好的BM25模型选择锚样本、正样本与负样本;
选择锚样本、正样本和负样本的过程为:1)使用BM25模型选择锚样本:从收集到的问题集中随机选择30%作为样本,使用BM25模型计算样本之间的相似度,过滤掉相似度大于0.6的样本,其余样本作为锚样本;
2)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.8的样本为正样本;
3)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.6、小于0.8的样本作为困难样本,小于0.5的样本作为容易样本,最后将困难样本和容易样本按照7:3的比例混合,作为负样本;
S2模型训练具体为,使用孪生网络结构分批训练上述样本集:1)分别计算锚样本与正样本、负样本之间的距离;2)使用circle loss损失函数计算损失值;
计算锚样本与正样本的距离和锚样本与负样本的距离,其过程具体为:1)使用无监督模型计算每个样本的特征表示,无监督模型选用为electra模型;2)通过卷积神经网络,对每个样本的特征表示进行学习,获取每个样本的特征向量,200维;3)利用公式1和公式2来分别计算锚样本与正样本、负样本之间的距离;
Distance=1–similarity 公式2
其中:A代表锚样本的语义向量;B代表正样本或负样本的语义向量;Distance代表锚样本与正样本的距离或锚样本与负样本的距离。
2.根据权利要求1所述的基于circle loss的文本相似度匹配方法,其特征在于,分类模型选择为基于bert的分类模型。
3.根据权利要求1所述的基于circle loss的文本相似度匹配方法,其特征在于,在S3模型预测过程中,将所有问题集通过上述训练好的模型,获得问题的语义向量,使用faiss模型构建向量索引。
4.根据权利要求1所述的基于circle loss的文本相似度匹配方法,其特征在于,困难样本均是相同领域的问题,容易样本中,相同领域与不同领域比例控制在7:3。
5.一种基于circleloss的文本相似度匹配装置,采用权利要求1至4任一所述文本相似度匹配方法,其特征在于,包括:
预处理模块,对用户输入的文本进行分词,根据预先的同义词库和缩写库分别进行同义词替换和缩写替换,替换后会得到多个句子;
句子语义向量抽取模块,将每个句子通过electra模型得到的每个句子中所有的字向量进行求均值操作,将均值向量作为每句话的句子语义向量,最后对所有句子向量进行平均,获取多句话的平均语义向量;
相似度计算模块,将上述获取的平均语义向量,与所有问题的语义向量进行相似度计算,最后选取相似度靠前的问题,返回给用户。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202110417707.2A 2021-04-19 2021-04-19 一种文本相似度匹配方法、装置、计算机设备和储存介质 Active CN113221530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110417707.2A CN113221530B (zh) 2021-04-19 2021-04-19 一种文本相似度匹配方法、装置、计算机设备和储存介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110417707.2A CN113221530B (zh) 2021-04-19 2021-04-19 一种文本相似度匹配方法、装置、计算机设备和储存介质

Publications (2)

Publication Number Publication Date
CN113221530A CN113221530A (zh) 2021-08-06
CN113221530B true CN113221530B (zh) 2024-02-13

Family

ID=77087902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110417707.2A Active CN113221530B (zh) 2021-04-19 2021-04-19 一种文本相似度匹配方法、装置、计算机设备和储存介质

Country Status (1)

Country Link
CN (1) CN113221530B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722441B (zh) * 2021-08-31 2023-09-05 平安银行股份有限公司 一种相似文本的生成方法、装置、设备及存储介质
CN114996466B (zh) * 2022-08-01 2022-11-01 神州医疗科技股份有限公司 一种医学标准映射模型的建立方法、系统及使用方法
CN115062607B (zh) * 2022-08-17 2022-11-11 杭州火石数智科技有限公司 对比学习的样本构造方法、装置、计算机设备及存储介质
CN115329063B (zh) * 2022-10-18 2023-01-24 江西电信信息产业有限公司 一种用户的意图识别方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201210661D0 (en) * 2012-06-15 2012-08-01 Qatar Foundation Unsupervised cross-media summarization from news and twitter
CN105653840A (zh) * 2015-12-21 2016-06-08 青岛中科慧康科技有限公司 基于词句分布表示的相似病例推荐系统及相应的方法
AU2018100321A4 (en) * 2018-03-15 2018-04-26 Chen, Jinghan Mr Person ReID method based on metric learning with hard mining
CN107967255A (zh) * 2017-11-08 2018-04-27 北京广利核系统工程有限公司 一种判定文本相似性的方法和系统
WO2018219016A1 (zh) * 2017-06-02 2018-12-06 腾讯科技(深圳)有限公司 一种人脸检测训练方法、装置及电子设备
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及系统
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110826341A (zh) * 2019-11-26 2020-02-21 杭州微洱网络科技有限公司 一种基于seq2seq模型的语义相似度计算方法
WO2020107840A1 (zh) * 2018-11-28 2020-06-04 平安科技(深圳)有限公司 基于机器学习的句子距离映射方法、装置和计算机设备
CN111259127A (zh) * 2020-01-15 2020-06-09 浙江大学 一种基于迁移学习句向量的长文本答案选择方法
CN111898465A (zh) * 2020-07-08 2020-11-06 北京捷通华声科技股份有限公司 一种人脸识别模型的获取方法和装置
CN112182144A (zh) * 2020-12-01 2021-01-05 震坤行网络技术(南京)有限公司 搜索词标准化方法、计算设备和计算机可读存储介质
CN112308743A (zh) * 2020-10-21 2021-02-02 上海交通大学 一种基于三元组相似任务的审判风险预警方法
CN112560932A (zh) * 2020-12-10 2021-03-26 山东建筑大学 一种基于双分支网络特征融合的车辆重识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11093560B2 (en) * 2018-09-21 2021-08-17 Microsoft Technology Licensing, Llc Stacked cross-modal matching
CN109902665A (zh) * 2019-03-28 2019-06-18 北京达佳互联信息技术有限公司 相似人脸检索方法、装置及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201210661D0 (en) * 2012-06-15 2012-08-01 Qatar Foundation Unsupervised cross-media summarization from news and twitter
CN105653840A (zh) * 2015-12-21 2016-06-08 青岛中科慧康科技有限公司 基于词句分布表示的相似病例推荐系统及相应的方法
WO2018219016A1 (zh) * 2017-06-02 2018-12-06 腾讯科技(深圳)有限公司 一种人脸检测训练方法、装置及电子设备
CN107967255A (zh) * 2017-11-08 2018-04-27 北京广利核系统工程有限公司 一种判定文本相似性的方法和系统
AU2018100321A4 (en) * 2018-03-15 2018-04-26 Chen, Jinghan Mr Person ReID method based on metric learning with hard mining
WO2020107840A1 (zh) * 2018-11-28 2020-06-04 平安科技(深圳)有限公司 基于机器学习的句子距离映射方法、装置和计算机设备
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及系统
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110826341A (zh) * 2019-11-26 2020-02-21 杭州微洱网络科技有限公司 一种基于seq2seq模型的语义相似度计算方法
CN111259127A (zh) * 2020-01-15 2020-06-09 浙江大学 一种基于迁移学习句向量的长文本答案选择方法
CN111898465A (zh) * 2020-07-08 2020-11-06 北京捷通华声科技股份有限公司 一种人脸识别模型的获取方法和装置
CN112308743A (zh) * 2020-10-21 2021-02-02 上海交通大学 一种基于三元组相似任务的审判风险预警方法
CN112182144A (zh) * 2020-12-01 2021-01-05 震坤行网络技术(南京)有限公司 搜索词标准化方法、计算设备和计算机可读存储介质
CN112560932A (zh) * 2020-12-10 2021-03-26 山东建筑大学 一种基于双分支网络特征融合的车辆重识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Multi-perspective sentence similarity modeling with convolutional neural networks;He H等;Proceedings of the 2015Conference on Empirical Methods in Natural Language Processing;1576-1586 *
基于word2vec和LSTM的句子相似度计算及其在水稻FAQ问答系统中的应用;梁敬东;崔丙剑;姜海燕;沈毅;谢元澄;;南京农业大学学报(第05期);178-185 *
基于文本驱动的动画素材自动检索系统设计;王永强;韩磊;;现代电子技术(第24期);177-179 *

Also Published As

Publication number Publication date
CN113221530A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN113221530B (zh) 一种文本相似度匹配方法、装置、计算机设备和储存介质
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
CN107273490B (zh) 一种基于知识图谱的组合错题推荐方法
CN107133211A (zh) 一种基于注意力机制的作文评分方法
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN107832439B (zh) 多轮状态追踪的方法、系统及终端设备
US20220044081A1 (en) Method for recognizing dialogue intention, electronic device and storage medium
CN113157885B (zh) 一种面向人工智能领域知识的高效智能问答系统
CN110929498B (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN108920599B (zh) 一种基于知识本体库的问答系统答案精准定位和抽取方法
CN114357127A (zh) 基于机器阅读理解及常用问题解答模型的智能问答方法
CN109145083B (zh) 一种基于深度学习的候选答案选取方法
CN112084307B (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN111159345B (zh) 一种中文知识库答案获取方法及其装置
CN109740158A (zh) 一种文本语义解析方法及装置
CN113204611A (zh) 建立阅读理解模型的方法、阅读理解方法及对应装置
CN111160041A (zh) 语义理解方法、装置、电子设备和存储介质
CN111552773A (zh) 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN112632250A (zh) 一种多文档场景下问答方法及系统
CN110543551B (zh) 一种问题语句处理方法和装置
CN115080717A (zh) 基于文本理解推理的问答方法和系统
CN112800205B (zh) 基于语义变化流形分析获取问答相关段落的方法、装置
CN112905750A (zh) 一种优化模型的生成方法和设备
CN116720519B (zh) 一种苗医药命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 310000 room 905, floor 9, building a, No. 369, Internet of things street, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Huiyidao Technology Co.,Ltd.

Country or region after: China

Address before: 310000 room 905, floor 9, building a, No. 369, Internet of things street, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou Firestone Technology Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address