CN114969339B - 一种文本匹配方法、装置、电子设备及可读存储介质 - Google Patents
一种文本匹配方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN114969339B CN114969339B CN202210602460.6A CN202210602460A CN114969339B CN 114969339 B CN114969339 B CN 114969339B CN 202210602460 A CN202210602460 A CN 202210602460A CN 114969339 B CN114969339 B CN 114969339B
- Authority
- CN
- China
- Prior art keywords
- text
- keyword
- matched
- intention
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000009826 distribution Methods 0.000 claims abstract description 117
- 238000012549 training Methods 0.000 claims description 247
- 230000011218 segmentation Effects 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 16
- 239000013604 expression vector Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012216 screening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种文本匹配方法、装置、电子设备及可读存储介质,获取待匹配文本组;分别从待匹配文本组所包括的第一待匹配文本和第二待匹配文本中提取出第一关键词、第一文本意图、第二关键词和第二文本意图;利用文本匹配模型分别确定第一关键词与第二关键词之间的关键词条件概率,以及第一文本意图与第二文本意图之间的意图条件概率;基于关键词条件概率和意图条件概率,确定第一待匹配文本与第二待匹配文本之间的组合概率分布;根据组合概率分布,确定第一待匹配文本与第二待匹配文本是否具有相同语义。这样,可以充分利用待匹配文本中所包含的关键词信息和意图信息,可以提高文本匹配结果的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其是涉及一种文本匹配方法、装置、电子设备及可读存储介质。
背景技术
文本匹配任务旨在预测给定对比文本对之间的语义相似性,是自然语言处理领域的一项基本任务,并在社区问答、信息检索等领域中得到了广泛的应用。近年来,随着预训练语言模型技术的快速发展,由于,预训练语言模型展现出了卓越的表征学习能力,因此,加速了文本匹配技术的进步。预训练语言模型可利用大规模语料库和精心设计的自监督学习方式更好地学习到不同语义的表示方式,可以以较高的准确率实现文本匹配,甚至在用于对通用的文本匹配时,准确率超越了非专家的人类水平。
目前,预训练语言模型在应用于文本匹配任务时,通常是对待匹配文本组中的待匹配文本对进行简单的分类,在这种方式下,对待匹配文本中每个词汇的处理方式都是一致的。然而,在不同的文本中,即使是相同词汇所表达的含义也会存在区别,因此,仅是依据采取相同方式处理得到的词汇,对待匹配文本组中的待匹配文本进行分类,然后再以文本组为单位,分别确定待匹配文本组中的待匹配文本是否具有相同语义并不准确。
发明内容
有鉴于此,本申请的目的在于提供一种文本匹配方法、装置、电子设备及可读存储介质,可充分利用待匹配文本所包含的关键词信息和意图信息,可提高文本匹配结果的准确性。
本申请实施例提供了一种文本匹配方法,所述文本匹配方法包括:
获取待匹配文本组;其中,所述待匹配文本组中包括第一待匹配文本和第二待匹配文本;
从所述第一待匹配文本中提取出第一关键词和第一文本意图,以及从所述第二待匹配文本中提取出第二关键词和第二文本意图;
利用文本匹配模型分别确定所述第一关键词与所述第二关键词之间的关键词条件概率,以及所述第一文本意图与所述第二文本意图之间的意图条件概率;所述关键词条件概率用于表征所述第一关键词与所述第二关键词之间是否具有相同语义,所述意图条件概率用于表征所述第一文本意图与所述第二文本意图之间是否具有相同语义;
基于所述关键词条件概率和所述意图条件概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布;所述组合概率分布用于表征所述第一待匹配文本与所述第二待匹配文本之间是否具有相同语义;
根据所述组合概率分布,确定所述第一待匹配文本与所述第二待匹配文本是否具有相同语义。
在一种可能的实施方式中,所述从所述第一待匹配文本中提取出第一关键词和第一文本意图,以及从所述第二待匹配文本中提取出第二关键词和第二文本意图,包括:
分别对所述第一待匹配文本和所述第二待匹配文本进行分词,得到第一待匹配文本的第一单词表示序列和第二待匹配文本的第二单词表示序列;
结合预设分词字符,拼接所述第一单词表示序列和所述第二单词表示序列得到整体表示序列;
对所述整体表示序列进行编码,得到匹配文本表示向量;
通过预先训练好的关键词-意图分类器,基于所述匹配文本表示向量,确定出表征所述第一待匹配文本的所述第一关键词和所述第一文本意图,以及表征所述第二待匹配文本的所述第二关键词以及所述第二文本意图。
在一种可能的实施方式中,通过以下步骤训练所述关键词-意图分类器:
获取多个样本分词的样本表示向量以及每个样本分词的弱标签;
根据每个样本分词的弱标签,将所述多个样本分词分类为潜在关键词样本组和潜在意图样本组;
利用所述潜在关键词样本组和所述潜在意图样本组,通过分类损失调整所述关键词-意图分类器所涉及的分类参数,得到训练好的关键词-意图分类器。
在一种可能的实施方式中,通过以下步骤训练所述文本匹配模型:
获取多个训练文本组;其中,每个训练文本组中包括第一训练文本和第二训练文本;所述第一训练文本包括第一训练关键词和第一训练意图,所述第二训练文本包括第二训练关键词和第二训练意图;
通过每个训练文本组中第一训练文本与第二训练文本图之间的全局匹配概率分布的负对数似然损失,初步调节所述文本匹配模型所涉及的匹配参数,得到预训练的文本匹配模型;
通过预训练的文本匹配模型,基于所述第一训练关键词、所述第一训练意图、所述第二训练关键词以及所述第二训练意图,确定所述训练文本组的组合概率分布;
利用每个训练文本组的所述全局匹配概率分布与所述组合概率分布之间的散度损失,分别调节预训练的文本匹配模型所涉及的匹配参数,得到训练好的文本匹配模型。
在一种可能的实施方式中,所述通过预训练的文本匹配模型,基于所述第一训练关键词、所述第一训练意图、所述第二训练关键词以及所述第二训练意图,确定所述训练文本组的组合概率分布,包括:
通过预训练的文本匹配模型,分别预测所述第一训练关键词与所述第二训练关键词之间的关键词条件概率,以及所述第一训练意图与所述第二训练意图之间的意图条件概率;
组合所述关键词条件概率和所述意图条件概率,得到所述训练文本组的组合概率分布。
在一种可能的实施方式中,所述基于所述关键词条件概率和所述意图条件概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布,包括:
分别确定所述第一待匹配文本与所述第二待匹配文本之间的关键词边缘概率和意图边缘概率;
基于所述关键词条件概率和所述关键词边缘概率,确定所述第一待匹配文本与所述第二待匹配文本之间的关键词联合概率;
基于所述意图条件概率和所述意图边缘概率,确定所述第一待匹配文本与所述第二待匹配文本之间的意图联合概率;
基于所述关键词联合概率和所述意图联合概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布。
本申请实施例还提供了一种文本匹配装置,所述文本匹配装置包括:
获取模块,用于获取待匹配文本组;其中,所述待匹配文本组中包括第一待匹配文本和第二待匹配文本;
提取模块,用于从所述第一待匹配文本中提取出第一关键词和第一文本意图,以及从所述第二待匹配文本中提取出第二关键词和第二文本意图;
第一分布确定模块,用于利用文本匹配模型分别确定所述第一关键词与所述第二关键词之间的关键词条件概率,以及所述第一文本意图与所述第二文本意图之间的意图条件概率;所述关键词条件概率用于表征所述第一关键词与所述第二关键词之间是否具有相同语义,所述意图条件概率用于表征所述第一文本意图与所述第二文本意图之间是否具有相同语义;
第二分布确定模块,用于基于所述关键词条件概率和所述意图条件概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布;所述组合概率分布用于表征所述第一待匹配文本与所述第二待匹配文本之间是否具有相同语义;
匹配模块,用于根据所述组合概率分布,确定所述第一待匹配文本与所述第二待匹配文本是否具有相同语义。
在一种实施方式中,所述提取模块在用于从所述第一待匹配文本中提取出第一关键词和第一文本意图,以及从所述第二待匹配文本中提取出第二关键词和第二文本意图时,所述提取模块用于:
分别对所述第一匹配文本和所述第二匹配文本进行分词,得到第一单词表示序列和第二单词表示序列;
结合预设分词字符,拼接所述第一单词表示序列和所述第二单词表示序列得到整体表示序列;
对所述整体表示序列进行编码,得到匹配文本表示向量;
通过预先训练好的关键词-意图分类器,基于所述匹配文本表示向量,确定出表征所述第一待匹配文本的所述第一关键词和所述第一文本意图,以及表征所述第二待匹配文本的所述第二关键词以及所述第二文本意图。
在一种可能的实施方式中,所述文本匹配装置还包括第二训练模块,所述第二训练模块用于通过以下步骤训练所述关键词-意图分类器:
获取多个样本分词的样本表示向量以及每个样本分词的弱标签;
根据每个样本分词的弱标签,将所述多个样本分词分类为潜在关键词样本组和潜在意图样本组;
利用所述潜在关键词样本组和所述潜在意图样本组,通过分类损失调整所述关键词-意图分类器所涉及的分类参数,得到训练好的关键词-意图分类器。
在一种可能的实施方式中,所述文本匹配装置还包括第一训练模块,所述第一训练模块用于通过以下步骤训练所述文本匹配模型:
获取多个训练文本组;其中,每个训练文本组中包括第一训练文本和第二训练文本;所述第一训练文本包括第一训练关键词和第一训练意图,所述第二训练文本包括第二训练关键词和第二训练意图;
通过每个训练文本组中第一训练文本与第二训练文本图之间的全局匹配概率分布的负对数似然损失,初步调节所述文本匹配模型所涉及的匹配参数,得到预训练的文本匹配模型;
通过预训练的文本匹配模型,基于所述第一训练关键词、所述第一训练意图、所述第二训练关键词以及所述第二训练意图,确定所述训练文本组的组合概率分布;
利用每个训练文本组的所述全局匹配概率分布与所述组合概率分布之间的散度损失,分别调节预训练的文本匹配模型所涉及的匹配参数,得到训练好的文本匹配模型。
在一种可能的实施方式中,所述第一训练模块在用于通过预训练的文本匹配模型,基于所述第一训练关键词、所述第一训练意图、所述第二训练关键词以及所述第二训练意图,确定所述训练文本组的组合概率分布时,所述第一训练模块用于:
通过预训练的文本匹配模型,分别预测所述第一训练关键词与所述第二训练关键词之间的关键词条件概率,以及所述第一训练意图与所述第二训练意图之间的意图条件概率;
组合所述关键词条件概率和所述意图条件概率,得到所述训练文本组的组合概率分布。
在一种实施方式中,所述第二分布确定模块在用于基于所述关键词条件概率和所述意图条件概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布时,所述第二分布确定模块用于:
分别确定所述第一待匹配文本与所述第二待匹配文本之间的关键词边缘概率和意图边缘概率;
基于所述关键词条件概率和所述关键词边缘概率,确定所述第一待匹配文本与所述第二待匹配文本之间的关键词联合概率;
基于所述意图条件概率和所述意图边缘概率,确定所述第一待匹配文本与所述第二待匹配文本之间的意图联合概率;
基于所述关键词联合概率和所述意图联合概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的文本匹配方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的文本匹配方法的步骤。
本申请实施例提供的文本匹配方法、装置、电子设备及可读存储介质,获取待匹配文本组;其中,所述待匹配文本组中包括第一待匹配文本和第二待匹配文本;从所述第一待匹配文本中提取出第一关键词和第一文本意图,以及从所述第二待匹配文本中提取出第二关键词和第二文本意图;利用文本匹配模型分别确定所述第一关键词与所述第二关键词之间的关键词条件概率,以及所述第一文本意图与所述第二文本意图之间的意图条件概率;基于所述关键词条件概率和所述意图条件概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布;根据所述组合概率分布,确定所述第一待匹配文本与所述第二待匹配文本是否具有相同语义。这样,可以充分利用待匹配文本所包含的关键词信息和意图信息,能够提高文本匹配结果的准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种文本匹配方法的流程图;
图2为本申请实施例所提供的一种文本匹配装置的结构示意图之一;
图3为本申请实施例所提供的一种文本匹配装置的结构示意图之二;
图4为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
经研究发现,预训练语言模型在应用于文本匹配任务时,通常是对待匹配文本组中的待匹配文本对进行简单的分类,在这种方式下,对待匹配文本中每个词汇的处理方式都是一致的。然而,在不同的文本中,即使是相同词汇所表达的含义也会存在区别,因此,仅是依据采取相同方式处理得到的词汇,对待匹配文本组中的待匹配文本进行分类,然后再以文本组为单位,分别确定待匹配文本组中的待匹配文本是否具有相同语义并不准确。
基于此,本申请实施例提供了一种文本匹配方法,可以利用待匹配文本中所包含的不同类型信息来匹配两个待匹配文本,进而,可以提高文本匹配结果的准确性。
请参阅图1,图1为本申请实施例所提供的一种文本匹配方法的流程图。如图1中所示,本申请实施例提供的文本匹配方法,包括:
S101、获取待匹配文本组。
S102、从所述第一待匹配文本中提取出第一关键词和第一文本意图,以及从所述第二待匹配文本中提取出第二关键词和第二文本意图。
S103、利用文本匹配模型分别确定所述第一关键词与所述第二关键词之间的关键词条件概率,以及所述第一文本意图与所述第二文本意图之间的意图条件概率。
S104、基于所述关键词条件概率和所述意图条件概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布。
S105、根据所述组合概率分布,确定所述第一待匹配文本与所述第二待匹配文本是否具有相同语义。
本申请实施例所提供的文本匹配方法,能够分别从获取到的第一待匹配文本和第二待匹配文本中提取出第一关键词、第一文本意图、第二关键词以及第二文本意图,从而,通过分别确定第一关键词与第二关键词之间的关键词条件概率,以及第一文本意图与第二文本意图之间的意图条件概率,将待匹配文本组的文本匹配任务,拆分为关键词匹配和意图匹配两个子匹配任务;进而,可以通过关键词匹配的关键词条件概率和意图匹配的意图条件概率,确定出第一待匹配文本与第二待匹配文本之间的联合分布概率分布;并根据组合概率分布来确定第一待匹配文本与第二待匹配文本是否具有相同语义;这样,可以分别从关键词和意图两个发明上,对待匹配文本之间是否具有相同语义进行判断,以此,可以充分利用待匹配语句所包含的不同类型的信息,能够提高文本匹配结果的准确性。
文本匹配通常是指对两个待匹配文本是否具有相同语义进行判断;而对于一段文本来说,其所包括的关键词和意图,是可以描述该文本的不同类型的信息;因此,在匹配待匹配文本时,可以通过充分地利用待匹配文本所蕴含的不同信息,更加准确地对待匹配文本是否具有相同语义进行判断。
在步骤S101中,获取待匹配文本组;这里,待匹配文本组中至少包括有两个待匹配文本,即待匹配文本组中包括第一待匹配文本和第二待匹配文本。
在步骤S102中,为了能够利用待匹配文本所蕴含的不同类型的信息对待匹配文本是否具有相同语义进行判断,首先,需分别从第一待匹配文本中提取出所蕴含的第一关键词和第一文本意图,以及从第二待匹配文本中提取出所蕴含的第二关键词和第二文本意图。
对于一段待匹配文本来说,其所包括的分词并非是全部都需要用于后续的判定过程中,此时,可对全部的分词进行筛选,从中筛选出能够表征第一待匹配文本的第一关键词和第一文本意图,以及能够表征第二待匹配文本的第二关键词以及第二文本意图。
在一种实施方式中,步骤S102包括:分别对所述第一待匹配文本和所述第二待匹配文本进行分词,得到第一待匹配文本的第一单词表示序列和第二待匹配文本的第二单词表示序列;结合预设分词字符,拼接所述第一单词表示序列和所述第二单词表示序列得到整体表示序列;对所述整体表示序列进行编码,得到匹配文本表示向量;通过预先训练好的关键词-意图分类器,基于所述匹配文本表示向量,确定出表征所述第一待匹配文本的所述第一关键词和所述第一文本意图,以及表征所述第二待匹配文本的所述第二关键词以及所述第二文本意图。
该步骤中,需通过预先训练好的关键词-意图分类器,来确定待匹配文本中的关键词和意图;对于关键词-意图分类器来说,所能够识别的文本形式为向量形式,即需要将待识别文本以向量的形式表示出来,才能够通过关键词-意图分类器对于关键词和意图进一步地进行筛选。
具体的,首先,分别对第一待匹配文本和第二待匹配文本进行分词处理,得到第一待匹配文本的第一单词表示序列其中,Sa为第一待匹配文本的第一单词表示序列,wla a为第一待匹配文本中的la个分词;相应的,得到第二待匹配文本的第二单词表示序列其中,Sb为第二待匹配文本的第二单词表示序列,wlb b为第一待匹配文本中的lb个分词。
其次,可结合预设分词字符,通过拼接第一单词表示序列和第二单词表示序列,得到能够整体上表征出待匹配文本组,即表征出第一单词表示序列和第二单词表示序列的整体表示序列。
这里,预设分词字符用于区分两个待匹配文本,即以分词字符为间隔,分词字符两端的单词表示序列所表示的文本并不相同。
通过预先设定好的分词字符(wsep)间隔第一单词表示序列与第二单词表示序列,拼接第一单词表示序列和第二单词表示序列,得到表征出第一待匹配文本与第二待匹配文本的整体表示序列[Sa;wsep;Sb]。
进一步的,为了避免关键词-意图分类器漏识待匹配文本所包括的分词,可以通过添加开始字符(wcls)的方式,为关键词-意图分类器指明进行关键词和意图筛选开始时机;以此,得到的整体表示序列为[wcls;Sa;wsep;Sb]。
然后,可通过预训练语言模型对整体表示序列进行编码,目的在于能够将整体表示序列转换为关键词-意图分类器能够识别的向量形式的同时,还能够清楚的表征出每个待匹配文本所蕴含的语义,得到匹配文本组的匹配文本表示向量(Ha,b)。
最后,将匹配文本表示向量输入至关键词-意图分类器中,通过预先训练好的关键词-意图分类器,确定出表征第一待匹配文本的第一关键词和第一文本意图,以及表征第二待匹配文本的第二关键词和第二文本意图。
这里,经过预训练语言模型编码得到的匹配文本表示向量维度过高,因此,为了进一步地降低匹配文本表示向量的维度,可通过参数矩阵对匹配文本表示向量进行降维处理;具体的,可以通过乘以参数矩阵,将匹配文本表示向量映射为低维度的向量;以此,可以减少关键词-意图分类器在进行关键词和意图筛选过程中的计算量,有助于提高关键词和意图提取效率。
在一种实施方式中,通过以下步骤训练所述关键词-意图分类器:
步骤a:获取多个样本分词的样本表示向量以及每个样本分词的弱标签。
该步骤中,在训练关键词-意图分类器时,需获取多个样本分词的样本表示向量,以及每个样本分词的弱标签;这里,弱标签可以表明样本分词是关键词还是意图。
具体的,首先,基于自然语言工具包(NLTK)等提取具有名词、动词和形容词等词性标签的潜在的样本分词;然后,通过使用知识库来分析潜在的样本分词,确定出每个样本分词的弱标签,这里,知识库包括英文语料、中文语料库等等;其中,弱标签为二进制IO格式,即通过二进制IO格式来标记出每个样本分词是否属于关键字还是属于意图。
步骤b:根据每个样本分词的弱标签,将所述多个样本分词分类为潜在关键词样本组和潜在意图样本组。
该步骤中,为了使得关键词-意图分类器能够学会区分关键词和意图,根据每个样本分词的弱标签,将多个样本分词分为两组,一组是潜在关键词样本组,该样本组中的样本分词均为潜在关键词;另一组是潜在意图样本组,该样本组中的样本分词均为潜在意图。
步骤c:利用所述潜在关键词样本组和所述潜在意图样本组,通过分类损失(Lds)调整所述关键词-意图分类器所涉及的分类参数,得到训练好的关键词-意图分类器。
该步骤中,分别利用潜在关键词样本组和潜在意图样本组中的样本分词训练关键词-意图分类器,并在训练过程中,通过分类损失(Lds)不断调整关键词-意图分类器所涉及的分类参数,得到训练好的关键词-意图分类器。
具体的,通过以下公式计算分类损失:
Sigmoid函数是一个S型函数,由于其具有单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的激活函数,将变量映射到0-1之间。
进一步的,为了避免受到样本分词数量上的限制,本申请中还可以通过预定扩充方式实现样本分词的扩充;其中,预定扩充方式包括词源掩码方式、随机掩码方式以及特征掩码方式;预定扩充方式是指通过随机掩盖该样本分词的样本表示向量中至少一个元素,使得具有相同弱标签的样本表示向量更具有多样化。
在步骤S103中,在确定出第一待匹配文本的第一关键词和第一文本意图,以及第二待匹配文本的第二关键词和第二文本意图之后,可通过文本匹配模型分别匹配第一关键词与第二关键词,以及第一文本意图与第二文本意图;具体的,通过文本匹配模型,预测第一关键词与第二关键词之间的关键词条件概率,以及预测第一文本意图与所述第二文本意图之间的意图条件概率;以此,将文本匹配问题转换为关键词匹配和意图匹配问题。
这里,关键词条件概率是指在第一文本意图与第二文本意图具有相同语义的情况下,第一关键词与第二关键词具有相同语义的概率,即关键词条件概率能够用于表征出第一关键词与第二关键词之间是否具有相同语义。
相应地,意图条件概率是指在第一关键词与第二关键词具有相同语义的情况下,第一文本意图与第二文本意图具有相同语义的概率,即意图条件概率能够用于表征第一文本意图与第二文本意图之间是否具有相同语义。
在一种实施方式中,通过以下步骤训练所述文本匹配模型:
步骤1:获取多个训练文本组。
该步骤中,获取包括第一训练文本和第二训练文本的多个训练文本组;其中,第一训练文本包括能够表征出第一训练文本的第一训练关键词和第一训练意图;第二训练文本包括能够表征出第二训练关键词和第二训练意图。
步骤2:通过每个训练文本组中第一训练文本与第二训练文本之间的全局匹配概率分布的负对数似然损失,初步调节所述文本匹配模型所涉及的匹配参数,得到预训练的文本匹配模型。
该步骤中,可以利用每个训练文本组中第一训练文本、第二训练文本以及该训练文本组的训练标签,整体上地对文本匹配模型进行训练,使得文本匹配模型学会预测第一训练文本与第二训练文本之间的全局匹配概率分布;在训练过程中,通过每个训练文本组中第一训练文本与第二训练文本之间的全局匹配概率分布,计算得到文本匹配模型的负对数似然损失(Lsm),并利用负对数似然损失(Lsm)调节文本匹配模型所涉及的匹配参数,得到预训练的文本匹配模型;此时,得到的预训练文本匹配模型能够整体上的对待匹配文本组中的第一待匹配文本和第二待匹配文本之间的是有相同语义进行预测。
具体的,通过以下公式计算负对数似然损失:
Lsm=-logP(y|Sm,Sn);
其中,Lsm为负对数似然损失,P(y|Sm,Sn)为第一训练文本m与第二训练文本n之间的全局匹配概率分布。
步骤3:通过预训练的文本匹配模型,基于所述第一训练关键词、所述第一训练意图、所述第二训练关键词以及所述第二训练意图,确定所述第一训练文本与第二训练文本之间的组合概率分布。
该步骤中,本申请中为了可以利用到待匹配文本中更多的信息(例如,关键词信息和意图信息)对待匹配文本是否具有相同语义进行判断,在实际的匹配过程中并未使用预训练的文本匹配模型对待匹配文本组中第一待匹配文本和第二待匹配文本的全局匹配概率分布进行预测;这里,全局匹配概率分布的作用在于,在训练过程中对第一训练文本和第二训练文本之间的组合概率分布进行约束。
具体的,可通过预训练的文本匹配模型,分别基于第一训练文本所包括的第一训练关键词和第一训练意图,以及第二训练文本所包括的第二训练关键词和第二训练意图,确定第一训练文本与第二训练文本之间的组合概率分布。
在一种实施方式中,步骤3包括:针对于每个训练样本,通过预训练的文本匹配模型,分别预测所述第一训练关键词与所述第二训练关键词之间的关键词条件概率,以及所述第一训练意图与所述第二训练意图之间的意图条件概率;组合所述关键词条件概率和所述意图条件概率,得到所述训练文本组的组合概率分布。
该步骤中,通过预训练得到的文本匹配模型,基于第一训练文本的第一训练关键词和第二训练文本的第二训练关键词,预测出第一训练文本与第二训练文本之间的关键词条件概率;同时,通过预训练得到的文本匹配模型,基于第一训练文本的第一训练意图和第二训练文本的第二训练意图,预测出第一训练文本与第二训练文本之间的意图条件概率。
这里,关键词条件概率能够表示出两个训练文本之间的关键词是否匹配,即两个训练文本之间的关键词是否具有相同语义;意图条件概率能够表示出两个训练文本之间的意图是否匹配,即两个训练文本之间的意图是否具有相同语义。
结合第一训练文本与第二训练文本之间的关键词条件概率和意图条件概率,计算得到第一训练文本与第二训练文本之间的组合概率分布,即计算得到第一训练文本与第二训练文本所属训练文本组的组合概率分布。
具体的,通过以下公式计算得到组合概率分布:
其中,Cn和Cm表示匹配类别,可以是二分类,例如0/1分别代表匹配和不匹配;也可以是多分类,例如0/1/2分别代表不匹配、部分匹配和完全匹配;Cn>Cm表示匹配类别为Cn的匹配程度大于匹配类别为Cm的匹配程度;例如Cn为2,Cm为0,Cn>Cm表示前者完全匹配,后者不匹配,前者的匹配程度大于后者;表示第一训练文本与第二训练文本的关键字匹配类别为Cn,意图匹配类别为Cm的概率。
步骤4:利用每个训练文本组的所述全局匹配概率分布与所述组合概率分布之间的散度损失,分别调节预训练的文本匹配模型所涉及的匹配参数,得到训练好的文本匹配模型。
该步骤中,利用每个训练文本组的全局匹配概率分布和组合概率分布,计算该训练文本组训练后所产生的散度损失(Ldc);并利用每个训练文本组的散度损失分别调节预训练的文本匹配模型的匹配参数,进而得到可以分别对待匹配文本组中第一待匹配文本与第二待匹配文本之间的关键词条件概率以及意图条件概率进行预测的文本匹配模型。
具体的,通过以下公式计算散度损失:
Ldc=DKL[P(y|Sm,Sn)]]Q(y|Sm,sn)];
其中,Ldc为散度损失,P(y|Sm,Sn)为第一训练文本m与第二训练文本n之间的全局匹配概率分布,Q(y|Sm,Sn)为第一训练文本m与第二训练文本n之间的组合概率分布。
在步骤S104中,可以根据第一待匹配文本与第二待匹配文本之间的关键词条件概率和意图条件概率,确定出第一待匹配文本与第二待匹配文本之间的组合概率分布,即确定出第一待匹配文本与第二待匹配文本所属待匹配文本组的组合概率分布。
这里,组合概率分布用于表征第一待匹配文本与第二待匹配文本之间是否具有相同语义。
在一种实施方式中,步骤S104包括:分别确定所述第一待匹配文本与所述第二待匹配文本之间的关键词边缘概率和意图边缘概率;基于所述关键词条件概率和所述关键词边缘概率,确定所述第一待匹配文本与所述第二待匹配文本之间的关键词联合概率;基于所述意图条件概率和所述意图边缘概率,确定所述第一待匹配文本与所述第二待匹配文本之间的意图联合概率;基于所述关键词联合概率和所述意图联合概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布。
该步骤中,首先,基于从第一待匹配文本中提取出的第一关键词,以及从第二待匹配文本中提取出的第二关键词,确定第一待匹配文本与第二待匹配文本之间的关键词边缘概率;其次,基于从第一待匹配文本中提取出的第一文本意图,以及从第二待匹配文本中提取出的第二文本意图,确定第一待匹配文本与第二待匹配文本之间的意图边缘概率;然后,利用第一待匹配文本与第二待匹配文本之间的关键词边缘概率和关键词条件概率,计算得到第一待匹配文本与第二待匹配文本之间的关键词联合概率;相应的,利用第一待匹配文本与第二待匹配文本之间的意图边缘概率和意图条件概率,计算得到第一待匹配文本与第二待匹配文本之间的意图联合概率;最后,利用第一待匹配文本与第二待匹配文本之间的关键词联合概率和意图联合概率,确定第一待匹配文本与第二待匹配文本之间的组合概率分布。
具体的,通过以下公式计算组合概率分布:
P(kw,in)=P(kw)P(in/kw)+P(in)P(kw/in);
其中,P(kw,in)为组合概率分布,P(kw)为关键词边缘概率,P(in/kw)为关键词条件概率,P(in)为意图边缘概率,P(kw/in)为意图条件概率。
在步骤S105中,可进一步的根据组合概率分布分析第一待匹配文本与第二待匹配文本是否具有相同语义。
该步骤中,在得到第一待匹配文本与第二待匹配文本之间的组合概率分布后,可通过分析总结组合概率分布所表征出的概率规律,确定第一待匹配文本与第二待匹配文本之间是否具有相同语义。
这里,组合概率分布可以是最简单的二项分布,即组合概率分布中包括两种语义匹配结果对应的不同概率值,例如,组合概率分布中包括第一待匹配文本与第二待匹配文本之间具有相同语义的概率“概率1”,以及第一待匹配文本与第二待匹配文本之间具有不同语义的概率“概率2”;从前述两个概率中选择出较大的概率,即从“概率1”与“概率2”中确定出概率值较大的概率,将较大概率对应的匹配结果确定为第一待匹配文本与第二待匹配文本的匹配结果,即若“概率1”大于“概率2”,则确定第一待匹配文本与第二待匹配文本之间具有相同语义;相反的,若“概率2”大于“概率1”,则确定第一待匹配文本与第二待匹配文本之间具有不同语义。
需要说明的是,本实施例仅是以组合概率分布为二项分布为例进行说明,在其他实施例中组合分布概率还可以为其他概率分布形式,例如,正态分布、指数分布、泊松分布以及均匀分布等。
本申请实施例提供的文本匹配方法,获取待匹配文本组;其中,所述待匹配文本组中包括第一待匹配文本和第二待匹配文本;从所述第一待匹配文本中提取出第一关键词和第一文本意图,以及从所述第二待匹配文本中提取出第二关键词和第二文本意图;利用文本匹配模型分别确定所述第一关键词与所述第二关键词之间的关键词条件概率,以及所述第一文本意图与所述第二文本意图之间的意图条件概率;基于所述关键词条件概率和所述意图条件概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布;根据所述组合概率分布,确定所述第一待匹配文本与所述第二待匹配文本是否具有相同语义。这样,可以充分利用待匹配文本所包含的关键词信息和意图信息,能够提高文本匹配结果的准确性。
请参阅图2、图3,图2为本申请实施例所提供的一种文本匹配装置的结构示意图之一,图3为本申请实施例所提供的一种文本匹配装置的结构示意图之二。如图2中所示,所述文本匹配装置200包括:
获取模块210,用于获取待匹配文本组;其中,所述待匹配文本组中包括第一待匹配文本和第二待匹配文本;
提取模块220,用于从所述第一待匹配文本中提取出第一关键词和第一文本意图,以及从所述第二待匹配文本中提取出第二关键词和第二文本意图;
第一分布确定模块230,用于利用文本匹配模型分别确定所述第一关键词与所述第二关键词之间的关键词条件概率,以及所述第一文本意图与所述第二文本意图之间的意图条件概率;所述关键词条件概率用于表征所述第一关键词与所述第二关键词之间是否具有相同语义,所述意图条件概率用于表征所述第一文本意图与所述第二文本意图之间是否具有相同语义;
第二分布确定模块240,用于基于所述关键词条件概率和所述意图条件概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布;所述组合概率分布用于表征所述第一待匹配文本与所述第二待匹配文本之间是否具有相同语义;
匹配模块250,用于根据所述组合概率分布,确定所述第一待匹配文本与所述第二待匹配文本是否具有相同语义。
进一步的,所述提取模块220在用于从所述第一待匹配文本中提取出第一关键词和第一文本意图,以及从所述第二待匹配文本中提取出第二关键词和第二文本意图时,所述提取模块220用于:
分别对所述第一匹配文本和所述第二匹配文本进行分词,得到第一单词表示序列和第二单词表示序列;
结合预设分词字符,拼接所述第一单词表示序列和所述第二单词表示序列得到整体表示序列;
对所述整体表示序列进行编码,得到匹配文本表示向量;
通过预先训练好的关键词-意图分类器,基于所述匹配文本表示向量,确定出表征所述第一待匹配文本的所述第一关键词和所述第一文本意图,以及表征所述第二待匹配文本的所述第二关键词以及所述第二文本意图。
进一步的,如图3所示,所述文本匹配装置200还包括第一训练模块260,所述第一训练模块260用于通过以下步骤训练所述文本匹配模型:
获取多个训练文本组;其中,每个训练文本组中包括第一训练文本和第二训练文本;所述第一训练文本包括第一训练关键词和第一训练意图,所述第二训练文本包括第二训练关键词和第二训练意图;
通过每个训练文本组中第一训练文本与第二训练文本图之间的全局匹配概率分布的负对数似然损失,初步调节所述文本匹配模型所涉及的匹配参数,得到预训练的文本匹配模型;
通过预训练的文本匹配模型,基于所述第一训练关键词、所述第一训练意图、所述第二训练关键词以及所述第二训练意图,确定所述训练文本组的组合概率分布;
利用每个训练文本组的所述全局匹配概率分布与所述组合概率分布之间的散度损失,分别调节预训练的文本匹配模型所涉及的匹配参数,得到训练好的文本匹配模型。
进一步的,所述第一训练模块260在用于通过预训练的文本匹配模型,基于所述第一训练关键词、所述第一训练意图、所述第二训练关键词以及所述第二训练意图,确定所述训练文本组的组合概率分布时,所述第一训练模块260用于:
通过预训练的文本匹配模型,分别预测所述第一训练关键词与所述第二训练关键词之间的关键词条件概率,以及所述第一训练意图与所述第二训练意图之间的意图条件概率;
组合所述关键词条件概率和所述意图条件概率,得到所述训练文本组的组合概率分布。
进一步的,如图3所示,所述文本匹配装置200还包括第二训练模块270,所述第二训练模块270用于通过以下步骤训练所述关键词-意图分类器:
获取多个样本分词的样本表示向量以及每个样本分词的弱标签;
根据每个样本分词的弱标签,将所述多个样本分词分类为潜在关键词样本组和潜在意图样本组;
利用所述潜在关键词样本组和所述潜在意图样本组,通过分类损失调整所述关键词-意图分类器所涉及的分类参数,得到训练好的关键词-意图分类器。
进一步的,所述第二分布确定模块240在用于基于所述关键词条件概率和所述意图条件概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布时,所述第二分布确定模块240用于:
分别确定所述第一待匹配文本与所述第二待匹配文本之间的关键词边缘概率和意图边缘概率;
基于所述关键词条件概率和所述关键词边缘概率,确定所述第一待匹配文本与所述第二待匹配文本之间的关键词联合概率;
基于所述意图条件概率和所述意图边缘概率,确定所述第一待匹配文本与所述第二待匹配文本之间的意图联合概率;
基于所述关键词联合概率和所述意图联合概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布。
本申请实施例提供的文本匹配装置,获取待匹配文本组;其中,所述待匹配文本组中包括第一待匹配文本和第二待匹配文本;从所述第一待匹配文本中提取出第一关键词和第一文本意图,以及从所述第二待匹配文本中提取出第二关键词和第二文本意图;利用文本匹配模型分别确定所述第一关键词与所述第二关键词之间的关键词条件概率,以及所述第一文本意图与所述第二文本意图之间的意图条件概率;基于所述关键词条件概率和所述意图条件概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布;根据所述组合概率分布,确定所述第一待匹配文本与所述第二待匹配文本是否具有相同语义。这样,可以充分利用待匹配文本所包含的关键词信息和意图信息,能够提高文本匹配结果的准确性。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1所示方法实施例中的文本匹配方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的文本匹配方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种文本匹配方法,其特征在于,所述文本匹配方法包括:
获取待匹配文本组;其中,所述待匹配文本组中包括第一待匹配文本和第二待匹配文本;
从所述第一待匹配文本中提取出第一关键词和第一文本意图,以及从所述第二待匹配文本中提取出第二关键词和第二文本意图;
利用文本匹配模型分别确定所述第一关键词与所述第二关键词之间的关键词条件概率,以及所述第一文本意图与所述第二文本意图之间的意图条件概率;所述关键词条件概率用于表征在所述第一文本意图与所述第二文本意图具有相同语义的情况下,所述第一关键词与所述第二关键词之间具有相同语义的概率,所述意图条件概率用于表征在所述第一关键词与所述第二关键词具有相同语义的情况下,所述第一文本意图与所述第二文本意图之间具有相同语义的概率;
基于所述关键词条件概率和所述意图条件概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布;所述组合概率分布用于表征所述第一待匹配文本与所述第二待匹配文本之间是否具有相同语义;所述组合概率分布是通过组合关键词联合概率和意图联合概率所得到的;所述关键词联合概率是基于所述关键词条件概率和关键词边缘概率所确定出的;所述意图联合概率是基于所述意图条件概率和意图边缘概率所确定出的;所述关键词边缘概率是指所述第一关键词与所述第二关键词具有相同语义的概率;所述意图边缘概率是指所述第一文本意图与所述第二文本意图具有相同语义的概率;
根据所述组合概率分布,通过分析总结所述组合概率分布所表征出的概率规律,确定所述第一待匹配文本与所述第二待匹配文本是否具有相同语义。
2.根据权利要求1所述的文本匹配方法,其特征在于,所述从所述第一待匹配文本中提取出第一关键词和第一文本意图,以及从所述第二待匹配文本中提取出第二关键词和第二文本意图,包括:
分别对所述第一待匹配文本和所述第二待匹配文本进行分词,得到第一待匹配文本的第一单词表示序列和第二待匹配文本的第二单词表示序列;
结合预设分词字符,拼接所述第一单词表示序列和所述第二单词表示序列得到整体表示序列;
对所述整体表示序列进行编码,得到匹配文本表示向量;
通过预先训练好的关键词-意图分类器,基于所述匹配文本表示向量,确定出表征所述第一待匹配文本的所述第一关键词和所述第一文本意图,以及表征所述第二待匹配文本的所述第二关键词以及所述第二文本意图。
3.根据权利要求2所述的文本匹配方法,其特征在于,通过以下步骤训练所述关键词-意图分类器:
获取多个样本分词的样本表示向量以及每个样本分词的弱标签;
根据每个样本分词的弱标签,将所述多个样本分词分类为潜在关键词样本组和潜在意图样本组;
利用所述潜在关键词样本组和所述潜在意图样本组,通过分类损失调整所述关键词-意图分类器所涉及的分类参数,得到训练好的关键词-意图分类器。
4.根据权利要求1所述的文本匹配方法,其特征在于,通过以下步骤训练所述文本匹配模型:
获取多个训练文本组;其中,每个训练文本组中包括第一训练文本和第二训练文本;所述第一训练文本包括第一训练关键词和第一训练意图,所述第二训练文本包括第二训练关键词和第二训练意图;
通过每个训练文本组中第一训练文本与第二训练文本图之间的全局匹配概率分布的负对数似然损失,初步调节所述文本匹配模型所涉及的匹配参数,得到预训练的文本匹配模型;
通过预训练的文本匹配模型,基于所述第一训练关键词、所述第一训练意图、所述第二训练关键词以及所述第二训练意图,确定所述训练文本组的组合概率分布;
利用每个训练文本组的所述全局匹配概率分布与所述组合概率分布之间的散度损失,分别调节预训练的文本匹配模型所涉及的匹配参数,得到训练好的文本匹配模型。
5.根据权利要求4所述的文本匹配方法,其特征在于,所述通过预训练的文本匹配模型,基于所述第一训练关键词、所述第一训练意图、所述第二训练关键词以及所述第二训练意图,确定所述训练文本组的组合概率分布,包括:
通过预训练的文本匹配模型,分别预测所述第一训练关键词与所述第二训练关键词之间的关键词条件概率,以及所述第一训练意图与所述第二训练意图之间的意图条件概率;
组合所述关键词条件概率和所述意图条件概率,得到所述训练文本组的组合概率分布。
6.根据权利要求1所述的文本匹配方法,其特征在于,所述基于所述关键词条件概率和所述意图条件概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布,包括:
分别确定所述第一待匹配文本与所述第二待匹配文本之间的关键词边缘概率和意图边缘概率;
基于所述关键词条件概率和所述关键词边缘概率,确定所述第一待匹配文本与所述第二待匹配文本之间的关键词联合概率;
基于所述意图条件概率和所述意图边缘概率,确定所述第一待匹配文本与所述第二待匹配文本之间的意图联合概率;
基于所述关键词联合概率和所述意图联合概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布。
7.一种文本匹配装置,其特征在于,所述文本匹配装置包括:
获取模块,用于获取待匹配文本组;其中,所述待匹配文本组中包括第一待匹配文本和第二待匹配文本;
提取模块,用于从所述第一待匹配文本中提取出第一关键词和第一文本意图,以及从所述第二待匹配文本中提取出第二关键词和第二文本意图;
第一分布确定模块,用于利用文本匹配模型分别确定所述第一关键词与所述第二关键词之间的关键词条件概率,以及所述第一文本意图与所述第二文本意图之间的意图条件概率;所述关键词条件概率用于表征在所述第一文本意图与所述第二文本意图具有相同语义的情况下,所述第一关键词与所述第二关键词之间具有相同语义的概率,所述意图条件概率用于表征在所述第一关键词与所述第二关键词具有相同语义的情况下,所述第一文本意图与所述第二文本意图之间具有相同语义的概率;
第二分布确定模块,用于基于所述关键词条件概率和所述意图条件概率,确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分布;所述组合概率分布用于表征所述第一待匹配文本与所述第二待匹配文本之间是否具有相同语义;所述组合概率分布是通过组合关键词联合概率和意图联合概率所得到的;所述关键词联合概率是基于所述关键词条件概率和关键词边缘概率所确定出的;所述意图联合概率是基于所述意图条件概率和意图边缘概率所确定出的;所述关键词边缘概率是指所述第一关键词与所述第二关键词具有相同语义的概率;所述意图边缘概率是指所述第一文本意图与所述第二文本意图具有相同语义的概率;
匹配模块,用于根据所述组合概率分布,通过分析总结所述组合概率分布所表征出的概率规律,确定所述第一待匹配文本与所述第二待匹配文本是否具有相同语义。
8.根据权利要求7所述的文本匹配装置,其特征在于,所述文本匹配装置还包括第一训练模块,所述第一训练模块用于:
通过以下步骤训练所述文本匹配模型:
获取多个训练文本组;其中,每个训练文本组中包括第一训练文本和第二训练文本;所述第一训练文本包括第一训练关键词和第一训练意图,所述第二训练文本包括第二训练关键词和第二训练意图;
通过每个训练文本组中第一训练文本与第二训练文本图之间的全局匹配概率分布的负对数似然损失,初步调节所述文本匹配模型所涉及的匹配参数,得到预训练的文本匹配模型;
通过预训练的文本匹配模型,基于所述第一训练关键词、所述第一训练意图、所述第二训练关键词以及所述第二训练意图,确定所述训练文本组的组合概率分布;
利用每个训练文本组的所述全局匹配概率分布与所述组合概率分布之间的散度损失,分别调节预训练的文本匹配模型所涉及的匹配参数,得到训练好的文本匹配模型。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的文本匹配方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一所述的文本匹配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210602460.6A CN114969339B (zh) | 2022-05-30 | 2022-05-30 | 一种文本匹配方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210602460.6A CN114969339B (zh) | 2022-05-30 | 2022-05-30 | 一种文本匹配方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114969339A CN114969339A (zh) | 2022-08-30 |
CN114969339B true CN114969339B (zh) | 2023-05-12 |
Family
ID=82958458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210602460.6A Active CN114969339B (zh) | 2022-05-30 | 2022-05-30 | 一种文本匹配方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969339B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804532A (zh) * | 2018-05-03 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种查询意图的挖掘和查询意图的识别方法、装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2012121711A (ru) * | 2009-12-04 | 2013-11-27 | Сони Корпорейшн | Устройство поиска, способ поиска программы |
CN105574091B (zh) * | 2015-12-10 | 2019-08-02 | 百度在线网络技术(北京)有限公司 | 信息推送方法及装置 |
CN109785833A (zh) * | 2019-01-02 | 2019-05-21 | 苏宁易购集团股份有限公司 | 用于智能设备的人机交互语音识别方法及系统 |
CN113139816B (zh) * | 2021-04-26 | 2024-07-16 | 北京沃东天骏信息技术有限公司 | 信息处理方法、装置、电子设备和存储介质 |
CN113886531B (zh) * | 2021-10-28 | 2024-08-02 | 中国平安人寿保险股份有限公司 | 智能问答话术确定方法、装置、计算机设备和存储介质 |
CN114297338B (zh) * | 2021-12-02 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、存储介质和程序产品 |
-
2022
- 2022-05-30 CN CN202210602460.6A patent/CN114969339B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804532A (zh) * | 2018-05-03 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种查询意图的挖掘和查询意图的识别方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114969339A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
CN107085581B (zh) | 短文本分类方法和装置 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN109408824B (zh) | 用于生成信息的方法和装置 | |
CN111506726B (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
CN109815400A (zh) | 基于长文本的人物兴趣提取方法 | |
CN112364628B (zh) | 一种新词识别方法、装置、电子设备及存储介质 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN113836938A (zh) | 文本相似度的计算方法及装置、存储介质、电子装置 | |
CN111639185B (zh) | 关系信息抽取方法、装置、电子设备和可读存储介质 | |
CN110413992A (zh) | 一种语义分析识别方法、系统、介质和设备 | |
Patel et al. | Dynamic lexicon generation for natural scene images | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN114048729A (zh) | 医学文献评价方法、电子设备、存储介质和程序产品 | |
CN114970536A (zh) | 一种分词、词性标注和命名实体识别的联合词法分析方法 | |
CN111898375B (zh) | 一种基于词向量句子链的文章论点论据自动检测划分方法 | |
CN116680590B (zh) | 基于工作说明书解析的岗位画像标签提取方法及装置 | |
CN114969339B (zh) | 一种文本匹配方法、装置、电子设备及可读存储介质 | |
CN108021918B (zh) | 文字识别方法及装置 | |
CN110750712A (zh) | 基于数据驱动的软件安全需求推荐方法 | |
CN111611394B (zh) | 一种文本分类方法、装置、电子设备及可读存储介质 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 | |
CN115496066A (zh) | 文本分析系统、方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |