CN112613320A - 一种获取相似语句的方法、装置、存储介质及电子设备 - Google Patents
一种获取相似语句的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN112613320A CN112613320A CN201910887581.8A CN201910887581A CN112613320A CN 112613320 A CN112613320 A CN 112613320A CN 201910887581 A CN201910887581 A CN 201910887581A CN 112613320 A CN112613320 A CN 112613320A
- Authority
- CN
- China
- Prior art keywords
- similar
- sentence
- sentences
- target
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004364 calculation method Methods 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 33
- 238000012163 sequencing technique Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000010276 construction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种获取相似语句的方法、装置、存储介质及电子设备,该方法在从语料库中检索得到与目标语句相似的候选相似语句后,分别计算各个候选相似语句与目标语句的语义相似度,最后根据各个候选相似语句与目标语句的语义相似度,从各个候选相似语句中选出目标语句的相似语句。上述相似语句获取过程,在常规检索相似语句的同时,还兼顾度量选出的相似语句与目标语句之间的语义相似度,由此可以保证选出的相似语句与目标语句在语义上也相似,即可以保证选出与目标语句真正相似的语句,从而可以提高获取相似语句的准确度。
Description
技术领域
本发明涉及文本检索技术领域,更具体地说,涉及一种获取相似语句的方法、装置、存储介质及电子设备。
背景技术
相似语句检索,是信息查询和信息检索中常见的处理内容。
通常情况下,相似语句检索是从语料库中检索与目标语句字面相关的语句,作为目标语句的相似语句。但是在实际情况中,很多语句之间虽然字面相关,但是语义却完全不同,而对于用户来说,只有与目标语句的语义相似的语句,才是真正的与目标语句相似的语句。因此,现有的相似语句检索方案不能保证检索到的语句是与目标语句真正相似的语句,其检索准确度不高。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的获取相似语句的方法、装置、存储介质及电子设备,采用本发明技术方案可以获取与目标语句真正相似的语句,从而提高相似语句检索的准确度。
为了达到上述目的,本发明具体提出如下技术方案:
一种获取相似语句的方法,包括:
从预设的语料库中检索与目标语句相似的语句,得到候选相似语句;
利用预先训练的语义相似度计算模型,分别计算确定各个候选相似语句与所述目标语句的语义相似度;其中,所述语义相似度计算模型基于bert模型构建,并且至少通过计算样本语句对的语义相似度训练得到;
根据各个候选相似语句与所述目标语句的语义相似度,从各个候选相似语句中选出设定数量的候选相似语句,作为所述目标语句的相似语句;
其中,所选出的候选相似语句中的任意一个候选相似语句与所述目标语句的语义相似度,大于未被选出的任意一个候选相似语句与所述目标语句的语义相似度。
可选的,所述方法还包括:
通过计算所述目标语句与各个相似语句之间的要素标签相似度,对所述各个相似语句进行排序;其中,所述要素标签为标识语句内容的要素的标签。
可选的,所述通过计算所述目标语句与各个相似语句之间的要素标签相似度,对所述各个相似语句进行排序,包括:
分别获取所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签;
根据所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签,分别计算得到所述目标语句的各个相似语句与所述目标语句之间的要素标签相似度;
按照与所述目标语句的要素标签相似度由高到低的顺序,对所述目标语句的各个相似语句进行排序。
可选的,所述分别获取所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签,包括:
分别将所述目标语句,以及所述目标语句的各个相似语句输入预先训练的要素标签识别模型,得到所述目标语句,以及所述目标语句的各个相似语句的要素标签;
其中,所述要素标签识别模型至少通过识别语句样本的要素标签训练得到。
可选的,所述利用预先训练的语义相似度计算模型,分别计算确定各个候选相似语句与所述目标语句的语义相似度,包括:
分别将各个候选相似语句与所述目标语句组成语句对;
分别将各个语句对输入预先训练的语义相似度计算模型,计算确定各个语句对所包含的候选相似语句与所述目标语句之间的语义相似度。
一种获取相似语句的装置,包括:
检索处理单元,用于从预设的语料库中检索与目标语句相似的语句,得到候选相似语句;
第一计算单元,用于利用预先训练的语义相似度计算模型,分别计算确定各个候选相似语句与所述目标语句的语义相似度;其中,所述语义相似度计算模型基于bert模型构建,并且至少通过计算样本语句对的语义相似度训练得到;
语句筛选单元,用于根据各个候选相似语句与所述目标语句的语义相似度,从各个候选相似语句中选出设定数量的候选相似语句,作为所述目标语句的相似语句;
其中,所选出的候选相似语句中的任意一个候选相似语句与所述目标语句的语义相似度,大于未被选出的任意一个候选相似语句与所述目标语句的语义相似度。
可选的,所述装置还包括:
排序处理单元,用于通过计算所述目标语句与各个相似语句之间的要素标签相似度,对所述各个相似语句进行排序;其中,所述要素标签为标识语句内容的要素的标签。
可选的,所述排序处理单元,包括:
标签获取单元,用于分别获取所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签;
第二计算单元,用于根据所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签,分别计算得到所述目标语句的各个相似语句与所述目标语句之间的要素标签相似度;
语句排序单元,用于按照与所述目标语句的要素标签相似度由高到低的顺序,对所述目标语句的各个相似语句进行排序。
一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现上述的获取相似语句的方法。
一种电子设备,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述的获取相似语句的方法。
借由上述技术方案,本发明提供的获取相似语句的方法,在从语料库中检索得到与目标语句相似的候选相似语句后,分别计算各个候选相似语句与目标语句的语义相似度,最后根据各个候选相似语句与目标语句的语义相似度,从各个候选相似语句中选出目标语句的相似语句。上述相似语句获取过程,在常规检索相似语句的同时,还兼顾度量选出的相似语句与目标语句之间的语义相似度,由此可以保证选出的相似语句与目标语句在语义上也相似,即可以保证选出与目标语句真正相似的语句,从而可以提高获取相似语句的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种获取相似语句的方法的流程示意图;
图2示出了本发明实施例提供的构建及训练语义相似度计算模型的处理过程示意图;
图3示出了本发明实施例提供的语料集数据文件结构示意图;
图4示出了本发明实施例提供的语义相似度计算模型的工作过程示意图;
图5示出了本发明实施例提供的另一种获取相似语句的方法的流程示意图;
图6示出了本发明实施例提供的获取相似语句的方法的处理过程示意图;
图7示出了本发明实施例提供的一种获取相似语句的装置的结构示意图;
图8示出了本发明实施例提供的一种设备的结构示意图。
具体实施方式
本发明实施例技术方案适用于检索与目标语句相似的语句的应用场景,采用本发明实施例技术方案,能够准确地检索得到与目标语句相似的语句。
其中,上述的与目标语句相似的语句,具体是指在字面及语义上与目标语句均相似的语句。
示例性的,本发明实施例技术方案可以应用于处理器等硬件处理设备,或者可以被封装成软件程序等被执行。当上述硬件处理器执行本发明实施例技术方案,或者由本发明实施例技术方案封装得到的软件程序被运行时,可以实现本发明实施例提出的获取相似语句的方法的处理过程。
本发明实施例技术方案可应用于任意行业的相似语句检索业务场景中,为便于介绍说明,本发明实施例以司法智能问答系统的相似问句获取业务场景为例,介绍本发明实施例提出的获取相似语句的方法的具体处理过程。
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参见图1所示,本发明实施例提出的获取相似语句的方法,包括:
S101、从预设的语料库中检索与目标语句相似的语句,得到候选相似语句;
具体的,上述的语料库是指存储语料的数据库。作为优选的实现方式,上述预料库可以设置为与目标语句相同领域的语料库。
例如,当本发明实施例技术方案应用于司法智能问答系统时,上述的目标语句可以为用户在司法智能问答系统提交的用于咨询某些信息的问句。为了提高相似问句检索的效率和准确度,上述的语料库可以设置为司法领域的语料库,更进一步的,上述语料库还可以被设置为司法领域的问句库。
作为一种示例性的实现方式,上述从预设的语料库中检索与目标语句相似的语句,可以基于语料库自身的语句查询功能实现。语料库的语句查询功能,可以根据输入的目标语句,计算语料库中的语句与目标语句的相关度评分,然后根据相关度评分从语料库中选出与目标语句高度相关的语句,作为目标语句的相似语句。
以从司法智能问答系统的ElasticSearch语料库中检索与用户输入的问句相似的问句为例,ElasticSearch对问句进行候选相似问句的获取,主要是通过计算相关度评分之后排序得到的。ElasticSearch的相关度评分即搜索问句和索引中的问句的相关联程度,打分公式比较复杂,主要通过使用TF-IDF算法和字段长度归一化的值来进行计算。
TF表示一个词在内容(如某文章)中出现的次数,出现次数越多表示越相关,ElasticSearch(lucene)中的TF(Term Frequency)计算公式为 即某个词t在文档d中出现的次数的平方根。IDF表示词条在整个索引的所有文档中出现了多少次,出现的次数越多,就越不相关,ElasticSearch(lucene)中的IDF(InverseDocument Frequency)为idf(t)=1+log(numDocs/(docFreq+1)),即1+log(索引中的文档总数/(包含该词的文档数+1))。TF-IDF值即为TF和IDF的乘积。
ElasticSearch中,还有一个概念叫字段长度的归一化(Field-Length Norm),计算公式为即:1/词出现次数的平方根。字段内容越短,权重越大。如果一个关键词出现在较短的字段中,就比它出现在长字段中更能表达文本的特性。
ElasticSearch语料库按照上述规则对库中的问句进行检索排序,召回一定数量的候选相似问句。
S102、利用预先训练的语义相似度计算模型,分别计算确定各个候选相似语句与所述目标语句的语义相似度;其中,所述语义相似度计算模型基于bert模型构建,并且至少通过计算样本语句对的语义相似度训练得到;
具体的,上述的从语料库中检索与目标语句相关的语句,只能检索到与目标语句字面相似或相关的语句,也就是说,上述的候选相似语句,均为与目标语句字面相似或相关的语句。
通常情况下,字面相似或相关的不同语句之间的语义也相关,但也存在不同语句之间虽然字面相似,但是语义却截然不同的情况。例如,“这是一台崭新的笔记本电脑”与“这是一本崭新的笔记本”,两者在字面上高度相似,但是实际语义却完全不同。
因此,通过执行上述步骤S101得到的候选相似语句中,可能存在与目标语句只是字面相似,但是实际语义却并不相似的语句,比如,当语句中含有否定词时,其与不含否定词的语句在字面上非常相似,但是意思却完全相反。例如“有婚前财产的婚姻财产分割”和“无婚前财产的婚姻财产分割”,两者在字面上很相似,但是语句意思却不同。而本发明实施例意在检索得到与目标语句在字面及语义上均相似的语句。因此,本发明实施例对于上述步骤S101得到的候选相似语句进行进一步的筛选,从中选出与目标语句语义相似的语句,作为与目标语句真正相似的语句。
为达到上述目的,本发明实施例预先利用bert模型构建语义相似度计算模型,并且利用样本语句对对该模型进行训练,直到该模型能够准确计算输入的样本语句对之间的语义相似度,即准确识别到输入的语句对的语义是否相似时,结束对该模型的训练。
在具体利用上述的bert模型时,需要对模型进行与任务相对应的匹配调整,其调整处理可以参照现有技术中对于bert模型的应用的规定执行,本发明实施例不再具体介绍,本发明实施例着重介绍对于bert模型的功能训练及应用。
当执行步骤S101检索得到与目标语句相似的候选相似语句时,将得到的候选相似语句与上述的目标语句输入该预先训练好的语义相似度计算模型,利用该模型计算得到各个候选相似语句与该目标语句之间的语义相似度。
借助与bert模型在自然语言处理领域的出色性能,经过少量的训练,即可得到足够准确的语义相似度计算效果。因此,本发明实施例基于bert模型构建语义相似度计算模型并进行训练,可以为本发明实施例筛选与目标文本语义相似的语句提供工具基础。
作为一种示例性的实现方式,由于上述的语义相似度计算模型在训练阶段是通过计算语句对之间的语义相似度训练得到的,因此该语义相似度计算模型更适于计算语句对之间的语义相似度。
当利用上述的语义相似度计算模型计算上述的目标语句与各个候选显示语句之间的语义相似度时,本发明实施例首先分别将各个候选相似语句与上述目标语句组成语句对,即通过执行步骤S101得到的每个候选相似语句,分别与目标语句组成语句对。
然后,分别将各个语句对输入上述预先训练的语义相似度计算模型,利用该模型计算每个语句对之间的语义相似度,也就是计算得到每个语句对所包含的候选相似语句与目标语句之间的语义相似度。当上述的语义相似度计算模型分别计算完成各个语句对之间的语义相似度时,即确定了各个候选相似语句与目标语句之间的语义相似度。
S103、根据各个候选相似语句与所述目标语句的语义相似度,从各个候选相似语句中选出设定数量的候选相似语句,作为所述目标语句的相似语句;
其中,所选出的候选相似语句中的任意一个候选相似语句与所述目标语句的语义相似度,大于未被选出的任意一个候选相似语句与所述目标语句的语义相似度。
具体的,在分别确定各个候选相似语句与目标语句之间的语义相似度后,本发明实施例从各个候选相似语句中,选出设定数量的、与上述目标语句之间的语义相似度最高的候选相似语句,作为上述目标语句的相似语句。
示例性的,可以根据各个候选相似语句与目标语句之间的语义相似度,按照与目标语句的语义相似度由高到低的顺序,对各个候选相似语句进行排序,得到候选相似语句序列。
然后,从序列中选取TOP-N的候选相似语句,也就是选取排在序列前N的候选相似语句,作为上述目标语句的相似语句。其中,前述的N即为上述的设定数量。
作为另一种示例性的实现方式,在分别计算得到各个候选相似语句与目标语句之间的语义相似度后,也可以设置语义相似度阈值,将各个候选相似语句中的、与目标语句的语义相似度大于上述的语义相似度阈值的候选相似语句,设定为上述目标语句的相似语句。
可以理解,本发明实施例技术方案利用预先构建及训练的语义相似度计算模型,度量各个候选相似语句与目标语句之间的语义相似度,从而选出与目标语句在语义上相似的语句。该处理过程实现了对相似语句之间的语义度量,可以使选出的相似语句之间的语义相似,即可以保证选出与目标语句真正相似的语句。
通过上述介绍可见,本发明实施例提出的获取相似语句的方法,在从语料库中检索得到与目标语句相似的候选相似语句后,分别计算各个候选相似语句与目标语句的语义相似度,最后根据各个候选相似语句与目标语句的语义相似度,从各个候选相似语句中选出目标语句的相似语句。上述相似语句获取过程,在常规检索相似语句的同时,还兼顾度量选出的相似语句与目标语句之间的语义相似度,由此可以保证选出的相似语句与目标语句在语义上也相似,即可以保证选出与目标语句真正相似的语句,从而可以提高获取相似语句的准确度。
可以理解,上述基于bert模型构建的语义相似度计算模型,是本发明实施例获取与目标语句语义相似的语句的关键,因此,对于上述的语义相似度计算模型的构建和训练,是实现本发明实施例技术方案的基础。
作为一种示例性的实现方式,本发明实施例还公开了上述语义相似度计算模型的构建及训练过程。
以本发明实施例技术方案应用于司法智能问答系统中的相似问句检索为例,上述的语义相似度计算模型的训练应以准确计算索引语句与用户输入语句的语义相似度为目的。此时,参见图2所示,本发明实施例构建及训练上述的语义相似度计算模型的具体处理过程包括:
1)构建语料;
本发明实施例使用已经标注好的相同语义问句对来构造正例,使用ElasticSearch检索问句,寻找与输入问句字面相似但不同语义的问句来构造负例。每个问句都有一个相应的标签label,相同语义问句的label相同,不同语义问句的label不同。语料集的数据文件结构如图3所示。
其中,Sim_Label指标注的标签,取值为0和1,相同语义标注为1,不同语义标注为0。Query1_Id和Query2_Id是问句的Id。这些Id是得到所有正反例数据中所有的问句之后进行排序确定的。
正例的数据直接根据字段“label”进行同义问句对构造。而对于反例数据,根据Elastic Search检索的特点,即检索结果是按字面相似性打分排序的,其中可能包含相同语义的问句,也包含字面相似但实际上语义不同的问句,因此需要根据“label”进行筛选,从中筛选出label不同的问句对。
得到反例数据之后以上述数据结构进行构造。将正例数据和反例数据进行合并并且打乱(shuffle),形成标注语料集。
2)划分训练集、验证集和测试集;
按照7:2:1的比例对标注语料集进行训练集、验证集和测试集的划分,用于语义相似度计算模型的训练、验证和测试。
3)BERT模型微调;
BERT模型采用了Transformer模型的Encoder来作为语言模型,完全采用Attention机制来进行input-output之间关系的计算。基于BERT模型进行下游自然语言处理任务有两种方式,一种是微调(fine-tuning),另一种是固定特征提取器(fixed featureextractor)。本发明实施例提出的方法采用微调的方式来对模型进行简单修改。本发明实施例使用谷歌的中文的BERT预训练模型(BERT-base-chinese)来对问句对语义匹配与否进行分类。
如图4所示,当利用上述的BERT模型度量问句对之间的语义相似度时,首先输入文本语句对,文本语句对之间使用[SEP]分隔符分隔,再在句子开始加上一个分类任务标记符号[CLS]。然后输入BERT预训练模型,使用BERT_model.get_pooled_output()方法来获取[CLS]单词的最后一个隐含状态C,shape=[batch_size,hidden_size],加一层权重W,再经过一个softmax层之后来计算类别标签class label的概率。根据class label的概率向量(例如[0.00232,0.9923])来确定语句对之间的语义匹配与否的类别,索引为0的值表征语义不匹配,索引为1的值表征语义匹配,并且将class label对应的概率值作为问句对相似度进行返回。
4)语义匹配模型训练;
进行微调后,设置好预训练模型路径等参数,加载谷歌提供的预训练好的中文BERT模型,开始进行语义相似度计算模型训练。
当训练至该模型可以准确度量语句对之间的语义相似度时,为该模型封装相似度计算接口。
当计算候选相似语句与目标语句之间的语义相似度时,调用该语义相似度计算模型的相似度计算接口,分别计算各个候选相似语句与目标语句之间的语义相似度。
需要说明的是,上述对语义相似度计算模型的构建和训练,还可以参照常用的深度学习模型的构建及训练过程实现。上述的bert模型也可以替换为其它的深度学习模型,本发明实施例只对上述语义相似度计算模型的功能进行限定,但并不严格限定模型的具体构建基础和训练过程。
作为一种优选的实现方式,本发明实施例提出的获取相似语句的方法,还包括:
通过计算所述目标语句与各个相似语句之间的要素标签相似度,对所述各个相似语句进行排序。
其中,上述的要素标签为标识语句内容的要素的标签。
具体的,bert模型具有出色的语义理解能力,但是仍存在某些情况下,bert模型无法准确捕捉其语义差别,例如对于“抚养”和“领养”,两者在语义上有些相似,但是两者的语义又存在本质差别,而bert模型则可能无法准确地捕捉到该语义区别,可能造成对语义相似度度量不准确。
为了改善这一情况,本发明实施例进一步引入语句的要素标签,用于标识语句内容的要素。
例如在司法领域,语句的要素标签是人工定义的层级要素体系,一共有三级,比如婚姻家庭领域包括财产分割、婚姻状况、子女抚养等一级标签,每个一级标签下又有更具体的二级标签,比如财产分割下又包括有夫妻共同财产、无夫妻共同财产、有婚前财产、无婚前财产等要素标签。
借助语句的要素标签,可以对目标语句以及目标语句的相似语句的内容要素进行表示。理论上,不同语句的内容要素越相似,则语句之间的语义也越相似,因此,目标语句的相似语句的要素标签与目标语句的要素标签之间的相似度,可以反映出目标语句的相似语句与目标语句之间的语义的相似度。
本发明实施例通过计算目标语句与上述各个相似语句之间的要素标签相似度,用于表示各个相似语句与目标语句的语义内容相似度,并以此为基础对各个相似语句进行排序。优选的,按照与目标语句的要素标签相似度由高到低的顺序对各个相似语句进行排序,可以将与目标语句最相似的语句排在靠前的位置。
参见图5所示,上述的通过计算所述目标语句与各个相似语句之间的要素标签相似度,对所述各个相似语句进行排序,包括:
S504、分别获取所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签;
示例性的,本发明实施例预先构建及训练得到要素标签识别模型,利用该模型对目标语句以及各个相似语句进行要素标签标注。
具体的,分别将上述的目标语句,以及与上述目标语句的各个相似语句输入预先训练的要素标签识别模型,得到上述目标语句,以及与上述目标语句的各个相似语句的要素标签。
其中,所述要素标签识别模型至少通过识别语句样本的要素标签训练得到。
需要说明的是,由于上述目标语句,以及上述目标语句的相似语句的语句长短、具体内容等各不相同,一个目标语句,或一个目标语句的相似语句的要素标签可能为一个,也可能为多个。
S505、根据所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签,分别计算得到所述目标语句的各个相似语句与所述目标语句之间的要素标签相似度;
具体的,本发明实施例将上述目标语句,与上述各个相似语句分别构成语句对,然后利用杰卡德相似系数公式来计算目标语句与上述各个相似语句组成的语句对之间的要素标签相似度,该公式如下:
其中,q1_labels表示目标语句,q2_labels表示目标语句的相似语句,Set(q1_labels)表示目标语句的要素标签集合,Set(q2_labels)表示相似语句的要素标签集合,Len(Set(q1_labels)∩Set(q2_labels))表示目标语句与相似语句的要素标签集合的交集个数,Len(Set(q1_labels)∪Set(q2_labels))表示目标语句与相似语句的要素标签集合的并集个数,则目标语句与相似语句之间的要素标签相似度具体表示为两者要素标签集合的交集个数和并集个数的比值。
S506、按照与所述目标语句的要素标签相似度由高到低的顺序,对所述目标语句的各个相似语句进行排序。
具体的,在分别计算确定上述各个相似语句与目标语句之间的要素标签相似度后,本发明实施例按照上述各个相似语句与目标语句的要素标签相似度由高到低的顺序,对目标语句的各个相似语句进行排序。则通过该排序结果,可以直观地确定与目标语句最相似的语句,以及次相似的语句等。
至此,如图6所示,以司法智能问答系统中的相似问句检索为例,采用本发明实施例技术方案获取用户提问的问句的相似语句时,先利用常用的ES库检索相似语句并排序,然后利用训练的bert模型计算检索出的问句与用户提问的问句的语义相似度,并利用该相似度对检索出的问句进行排序;接下来,再计算检索出的问句与用户提问的问句之间的要素标签相似度,并依据该相似度对检索结果进行再次排序,此时得到的排序结果,可以直观、准确地表示出从ES库中检索出的问句与用户提问的问句之间的相似度,即能够检索得到与用户提问问句真正相似的问句。
可以理解,本发明实施例在常规的相似语句检索的基础上,进一步增加了语义相似度和语句内容要素相似度度量,从而使检索出的相似语句更准确。
图5所示的实施例中的步骤S501~S503分别对应图1所示的方法实施例中的步骤S101~S103,其具体内容请参见图1所示的方法实施例的内容,此处不再赘述。
与上述的获取相似语句的方法相对应的,本发明另一实施例还公开了一种获取相似语句的装置,参见图7所示,该装置包括:
检索处理单元100,用于从预设的语料库中检索与目标语句相似的语句,得到候选相似语句;
第一计算单元110,用于利用预先训练的语义相似度计算模型,分别计算确定各个候选相似语句与所述目标语句的语义相似度;其中,所述语义相似度计算模型基于bert模型构建,并且至少通过计算样本语句对的语义相似度训练得到;
语句筛选单元120,用于根据各个候选相似语句与所述目标语句的语义相似度,从各个候选相似语句中选出设定数量的候选相似语句,作为所述目标语句的相似语句;
其中,所选出的候选相似语句中的任意一个候选相似语句与所述目标语句的语义相似度,大于未被选出的任意一个候选相似语句与所述目标语句的语义相似度。
作为一种可选的实现方式,所述装置还包括:
排序处理单元,用于通过计算所述目标语句与各个相似语句之间的要素标签相似度,对所述各个相似语句进行排序;其中,所述要素标签为标识语句内容的要素的标签。
作为一种可选的实现方式,所述排序处理单元,包括:
标签获取单元,用于分别获取所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签;
第二计算单元,用于根据所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签,分别计算得到所述目标语句的各个相似语句与所述目标语句之间的要素标签相似度;
语句排序单元,用于按照与所述目标语句的要素标签相似度由高到低的顺序,对所述目标语句的各个相似语句进行排序。
作为一种可选的实现方式,所述标签获取单元分别获取所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签时,具体用于:
分别将所述目标语句,以及所述目标语句的各个相似语句输入预先训练的要素标签识别模型,得到所述目标语句,以及所述目标语句的各个相似语句的要素标签;
其中,所述要素标签识别模型至少通过识别语句样本的要素标签训练得到。
作为一种可选的实现方式,所述第一计算单元110利用预先训练的语义相似度计算模型,分别计算确定各个候选相似语句与所述目标语句的语义相似度,包括:
分别将各个候选相似语句与所述目标语句组成语句对;
分别将各个语句对输入预先训练的语义相似度计算模型,计算确定各个语句对所包含的候选相似语句与所述目标语句之间的语义相似度。
上述获取相似语句的装置的各个实施例中的各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。
所述获取相似语句的装置包括处理器和存储器,上述检索处理单元、第一计算单元、语句筛选单元和排序处理单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来获取与目标语句相似的语句。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述获取相似语句的方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述获取相似语句的方法。
本发明实施例提供了一种设备,该设备包括至少一个处理器200、以及与处理器200连接的至少一个存储器210、总线220;其中,处理器200、存储器210通过总线220完成相互间的通信;处理器200用于调用存储器210中的程序指令,以执行上述的获取相似语句的方法。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
从预设的语料库中检索与目标语句相似的语句,得到候选相似语句;
利用预先训练的语义相似度计算模型,分别计算确定各个候选相似语句与所述目标语句的语义相似度;其中,所述语义相似度计算模型基于bert模型构建,并且至少通过计算样本语句对的语义相似度训练得到;
根据各个候选相似语句与所述目标语句的语义相似度,从各个候选相似语句中选出设定数量的候选相似语句,作为所述目标语句的相似语句;
其中,所选出的候选相似语句中的任意一个候选相似语句与所述目标语句的语义相似度,大于未被选出的任意一个候选相似语句与所述目标语句的语义相似度。
可选的,所述方法还包括:
通过计算所述目标语句与各个相似语句之间的要素标签相似度,对所述各个相似语句进行排序;其中,所述要素标签为标识语句内容的要素的标签。
可选的,所述通过计算所述目标语句与各个相似语句之间的要素标签相似度,对所述各个相似语句进行排序,包括:
分别获取所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签;
根据所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签,分别计算得到所述目标语句的各个相似语句与所述目标语句之间的要素标签相似度;
按照与所述目标语句的要素标签相似度由高到低的顺序,对所述目标语句的各个相似语句进行排序。
可选的,所述分别获取所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签,包括:
分别将所述目标语句,以及所述目标语句的各个相似语句输入预先训练的要素标签识别模型,得到所述目标语句,以及所述目标语句的各个相似语句的要素标签;
其中,所述要素标签识别模型至少通过识别语句样本的要素标签训练得到。
可选的,所述利用预先训练的语义相似度计算模型,分别计算确定各个候选相似语句与所述目标语句的语义相似度,包括:
分别将各个候选相似语句与所述目标语句组成语句对;
分别将各个语句对输入预先训练的语义相似度计算模型,计算确定各个语句对所包含的候选相似语句与所述目标语句之间的语义相似度。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、存储器和总线。该设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种获取相似语句的方法,其特征在于,包括:
从预设的语料库中检索与目标语句相似的语句,得到候选相似语句;
利用预先训练的语义相似度计算模型,分别计算确定各个候选相似语句与所述目标语句的语义相似度;其中,所述语义相似度计算模型基于bert模型构建,并且至少通过计算样本语句对的语义相似度训练得到;
根据各个候选相似语句与所述目标语句的语义相似度,从各个候选相似语句中选出设定数量的候选相似语句,作为所述目标语句的相似语句;
其中,所选出的候选相似语句中的任意一个候选相似语句与所述目标语句的语义相似度,大于未被选出的任意一个候选相似语句与所述目标语句的语义相似度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过计算所述目标语句与各个相似语句之间的要素标签相似度,对所述各个相似语句进行排序;其中,所述要素标签为标识语句内容的要素的标签。
3.根据权利要求2所述的方法,其特征在于,所述通过计算所述目标语句与各个相似语句之间的要素标签相似度,对所述各个相似语句进行排序,包括:
分别获取所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签;
根据所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签,分别计算得到所述目标语句的各个相似语句与所述目标语句之间的要素标签相似度;
按照与所述目标语句的要素标签相似度由高到低的顺序,对所述目标语句的各个相似语句进行排序。
4.根据权利要求3所述的方法,其特征在于,所述分别获取所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签,包括:
分别将所述目标语句,以及所述目标语句的各个相似语句输入预先训练的要素标签识别模型,得到所述目标语句,以及所述目标语句的各个相似语句的要素标签;
其中,所述要素标签识别模型至少通过识别语句样本的要素标签训练得到。
5.根据权利要求1所述的方法,其特征在于,所述利用预先训练的语义相似度计算模型,分别计算确定各个候选相似语句与所述目标语句的语义相似度,包括:
分别将各个候选相似语句与所述目标语句组成语句对;
分别将各个语句对输入预先训练的语义相似度计算模型,计算确定各个语句对所包含的候选相似语句与所述目标语句之间的语义相似度。
6.一种获取相似语句的装置,其特征在于,包括:
检索处理单元,用于从预设的语料库中检索与目标语句相似的语句,得到候选相似语句;
第一计算单元,用于利用预先训练的语义相似度计算模型,分别计算确定各个候选相似语句与所述目标语句的语义相似度;其中,所述语义相似度计算模型基于bert模型构建,并且至少通过计算样本语句对的语义相似度训练得到;
语句筛选单元,用于根据各个候选相似语句与所述目标语句的语义相似度,从各个候选相似语句中选出设定数量的候选相似语句,作为所述目标语句的相似语句;
其中,所选出的候选相似语句中的任意一个候选相似语句与所述目标语句的语义相似度,大于未被选出的任意一个候选相似语句与所述目标语句的语义相似度。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
排序处理单元,用于通过计算所述目标语句与各个相似语句之间的要素标签相似度,对所述各个相似语句进行排序;其中,所述要素标签为标识语句内容的要素的标签。
8.根据权利要求7所述的装置,其特征在于,所述排序处理单元,包括:
标签获取单元,用于分别获取所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签;
第二计算单元,用于根据所述目标语句的要素标签,以及所述目标语句的各个相似语句的要素标签,分别计算得到所述目标语句的各个相似语句与所述目标语句之间的要素标签相似度;
语句排序单元,用于按照与所述目标语句的要素标签相似度由高到低的顺序,对所述目标语句的各个相似语句进行排序。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现如权利要求1至5中任意一项所述的获取相似语句的方法。
10.一种电子设备,其特征在于,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1-5中任一项所述的获取相似语句的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910887581.8A CN112613320A (zh) | 2019-09-19 | 2019-09-19 | 一种获取相似语句的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910887581.8A CN112613320A (zh) | 2019-09-19 | 2019-09-19 | 一种获取相似语句的方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112613320A true CN112613320A (zh) | 2021-04-06 |
Family
ID=75224226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910887581.8A Pending CN112613320A (zh) | 2019-09-19 | 2019-09-19 | 一种获取相似语句的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613320A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722452A (zh) * | 2021-07-16 | 2021-11-30 | 上海通办信息服务有限公司 | 一种问答系统中基于语义的快速知识命中方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020230A (zh) * | 2012-12-14 | 2013-04-03 | 中国科学院声学研究所 | 一种语义模糊匹配方法 |
CN105653671A (zh) * | 2015-12-29 | 2016-06-08 | 畅捷通信息技术股份有限公司 | 相似信息推荐方法及系统 |
CN107491547A (zh) * | 2017-08-28 | 2017-12-19 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
US20180082183A1 (en) * | 2011-02-22 | 2018-03-22 | Thomson Reuters Global Resources | Machine learning-based relationship association and related discovery and search engines |
CN108038091A (zh) * | 2017-10-30 | 2018-05-15 | 上海思贤信息技术股份有限公司 | 一种基于图的裁判文书案件相似计算与检索方法及系统 |
CN109740126A (zh) * | 2019-01-04 | 2019-05-10 | 平安科技(深圳)有限公司 | 文本匹配方法、装置及存储介质、计算机设备 |
-
2019
- 2019-09-19 CN CN201910887581.8A patent/CN112613320A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082183A1 (en) * | 2011-02-22 | 2018-03-22 | Thomson Reuters Global Resources | Machine learning-based relationship association and related discovery and search engines |
CN103020230A (zh) * | 2012-12-14 | 2013-04-03 | 中国科学院声学研究所 | 一种语义模糊匹配方法 |
CN105653671A (zh) * | 2015-12-29 | 2016-06-08 | 畅捷通信息技术股份有限公司 | 相似信息推荐方法及系统 |
CN107491547A (zh) * | 2017-08-28 | 2017-12-19 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN108038091A (zh) * | 2017-10-30 | 2018-05-15 | 上海思贤信息技术股份有限公司 | 一种基于图的裁判文书案件相似计算与检索方法及系统 |
CN109740126A (zh) * | 2019-01-04 | 2019-05-10 | 平安科技(深圳)有限公司 | 文本匹配方法、装置及存储介质、计算机设备 |
Non-Patent Citations (1)
Title |
---|
夏远远: "社区问答系统问句检索方法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 02, pages 138 - 2492 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722452A (zh) * | 2021-07-16 | 2021-11-30 | 上海通办信息服务有限公司 | 一种问答系统中基于语义的快速知识命中方法及装置 |
CN113722452B (zh) * | 2021-07-16 | 2024-01-19 | 上海通办信息服务有限公司 | 一种问答系统中基于语义的快速知识命中方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188168B (zh) | 语义关系识别方法和装置 | |
CN111488426A (zh) | 一种查询意图确定方法、装置及处理设备 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
CN116911312B (zh) | 一种任务型对话系统及其实现方法 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN111125086B (zh) | 获取数据资源的方法、装置、存储介质及处理器 | |
CN110019668A (zh) | 一种文本检索方法及装置 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
US20200272674A1 (en) | Method and apparatus for recommending entity, electronic device and computer readable medium | |
CN110019669B (zh) | 一种文本检索方法及装置 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
JP2020512651A (ja) | 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 | |
CN109408802A (zh) | 一种提升句向量语义的方法、系统及存储介质 | |
CN103678422A (zh) | 网页分类方法和装置、网页分类器的训练方法和装置 | |
KR20180097120A (ko) | 전자 문서 검색 방법 및 그 서버 | |
CN112948449A (zh) | 一种信息推荐的方法及装置 | |
CN109284389A (zh) | 一种文本数据的信息处理方法、装置 | |
CN110019670A (zh) | 一种文本检索方法及装置 | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
CN110728135A (zh) | 文本主题标引方法、装置、电子设备及计算机存储介质 | |
CN113988057A (zh) | 基于概念抽取的标题生成方法、装置、设备及介质 | |
CN112613320A (zh) | 一种获取相似语句的方法、装置、存储介质及电子设备 | |
CN110717029A (zh) | 一种信息处理方法和系统 | |
CN110955845A (zh) | 用户兴趣识别方法及装置、搜索结果处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |