CN111898643A - 一种语义匹配方法及装置 - Google Patents
一种语义匹配方法及装置 Download PDFInfo
- Publication number
- CN111898643A CN111898643A CN202010623998.6A CN202010623998A CN111898643A CN 111898643 A CN111898643 A CN 111898643A CN 202010623998 A CN202010623998 A CN 202010623998A CN 111898643 A CN111898643 A CN 111898643A
- Authority
- CN
- China
- Prior art keywords
- character
- question
- target question
- vector
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 183
- 238000006243 chemical reaction Methods 0.000 claims abstract description 41
- 238000007499 fusion processing Methods 0.000 claims abstract description 14
- 230000015654 memory Effects 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请公开一种语义匹配方法及装置,属于语义匹配技术领域,该方法包括:获取目标问句,获取与目标问句至少包含部分相同词语的多个标准问句,确定目标问句中的关键词,采用不同的字符转换规则对目标问句中包含在关键词中的字符和未包含在关键词中的字符进行转换,得到每个字符转换后的字符,对获取的目标问句中每个字符的第一词嵌入向量和该字符转换处理后的字符的第二词嵌入向量进行融合处理,得到该字符的特征向量,将目标问句中各字符的特征向量和每个标准问句中各字符的特征向量输入到深度文本匹配模型中,得到目标问句和标准问句之间的语义相似度,根据目标问句和各标准问句之间的语义相似度,从各标准问句的答案中确定目标问句的答案。
Description
技术领域
本申请涉及语义匹配技术领域,尤其涉及一种语义匹配方法及装置。
背景技术
目前,一些企业为了帮助用户解决问题、同时为了节省人力成本,会提供人工总结的常见问题解答(Frequently Asked Questions,FAQ)知识库。但当用户遇到问题时,需要自己先去了解FAQ知识库的使用方法,然后再去FAQ知识库查找相关答案,或者,需要将自己的问题告诉人工客服,由人工客服去FAQ知识库查找相关答案后再答复用户,FAQ知识库使用起来不是很方便。
而且,随着人力成本的逐年增高,这种FAQ知识库的使用成本也比较高。
发明内容
本申请实施例提供一种语义匹配方法及装置,用以解决现有技术中为用户解答问题的方式不方便,而且成本比较高的问题。
第一方面,本申请实施例提供的一种语义匹配方法,包括:
获取目标问句;
获取与所述目标问句至少包含部分相同词语的多个标准问句,其中,每个词语包含至少一个字符;
确定所述目标问句中的关键词,采用不同的字符转换规则对所述目标问句中包含在关键词中的字符和未包含在关键词中的字符进行转换处理,得到所述目标问句中每个字符转换处理后的字符;
对所述目标问句中的每个字符,获取预先设置的该字符的第一词嵌入向量,并获取预先设置的该字符转换处理后的字符的第二词嵌入向量,对所述第一词嵌入向量和所述第二词嵌入向量进行融合处理,得到该字符的特征向量;
将所述目标问句中各字符的特征向量和每个标准问句中各字符的特征向量输入到预先建立的深度文本匹配模型中,得到所述目标问句和所述标准问句之间的语义相似度;
根据所述目标问句和各标准问句之间的语义相似度,从各标准问句的答案中确定所述目标问句的答案。
在一种可能的实施方式中,在对所述第一词嵌入向量和所述第二词嵌入向量进行融合处理之前,还包括:
根据该字符在所述目标问句中的位置,生成该字符的位置向量;以及
对所述第一词嵌入向量和所述第二词嵌入向量进行融合处理,包括:
对所述第一词嵌入向量、所述第二词嵌入向量和所述位置向量进行融合处理,得到该字符的特征向量。
在一种可能的实施方式中,对所述第一词嵌入向量、所述第二词嵌入向量和所述位置向量进行融合处理,包括:
对所述第一词嵌入向量、所述第二词嵌入向量和所述位置向量中位于相同位置上的元素进行加和处理,得到该字符的特征向量。
在一种可能的实施方式中,根据所述目标问句和各标准问句之间的语义相似度,从各标准问句的答案中确定所述目标问句的答案,包括:
根据每个标准问句与所述目标问句之间的语义相似度,对各标准问句进行排序;
选择排名高于设定名词的标准问句作为目标标准问句;
从所述目标标准问句的答案中选择所述目标问句的答案。
第二方面,本申请实施例提供的一种语义匹配装置,包括:
第一获取模块,用于获取目标问句;
第二获取模块,用于获取与所述目标问句至少包含部分相同词语的多个标准问句,其中,每个词语包含至少一个字符;
转换模块,用于确定所述目标问句中的关键词,采用不同的字符转换规则对所述目标问句中包含在关键词中的字符和未包含在关键词中的字符进行转换处理,得到所述目标问句中每个字符转换处理后的字符;
融合模块,用于对所述目标问句中的每个字符,获取预先设置的该字符的第一词嵌入向量,并获取预先设置的该字符转换处理后的字符的第二词嵌入向量,对所述第一词嵌入向量和所述第二词嵌入向量进行融合处理,得到该字符的特征向量;
匹配模块,用于将所述目标问句中各字符的特征向量和每个标准问句中各字符的特征向量输入到预先建立的深度文本匹配模型中,得到所述目标问句和所述标准问句之间的语义相似度;
答案确定模块,用于根据所述目标问句和各标准问句之间的语义相似度,从各标准问句的答案中确定所述目标问句的答案。
在一种可能的实施方式中,还包括:
生成模块,用于在对所述第一词嵌入向量和所述第二词嵌入向量进行融合处理之前,根据该字符在所述目标问句中的位置,生成该字符的位置向量;
所述融合模块,还用于对所述第一词嵌入向量、所述第二词嵌入向量和所述位置向量进行融合处理,得到该字符的特征向量。
在一种可能的实施方式中,所述融合模块具体用于:
对所述第一词嵌入向量、所述第二词嵌入向量和所述位置向量中位于相同位置上的元素进行加和处理,得到该字符的特征向量。
在一种可能的实施方式中,所述答案确定模块具体用于:
根据每个标准问句与所述目标问句之间的语义相似度,对各标准问句进行排序;
选择排名高于设定名词的标准问句作为目标标准问句;
从所述目标标准问句的答案中选择所述目标问句的答案。
第三方面,本申请实施例提供的一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
存储器存储有可被至少一个处理器执行的指令,该指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述语义匹配方法。
第四方面,本申请实施例提供的一种计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述语义匹配方法。
本申请实施例中,获取到目标问句后,获取与目标问句至少包含部分相同词语的多个标准问句,其中,每个词语包含至少一个字符,并确定目标问句中的关键词,采用不同的字符转换规则对目标问句中包含在关键词中的字符和未包含在关键词中的字符进行转换处理,得到目标问句中每个字符转换处理后的字符,之后,对目标问句中的每个字符,获取预先设置的该字符的第一词嵌入向量,并获取预先设置的该字符转换处理后的字符的第二词嵌入向量,对第一词嵌入向量和第二词嵌入向量进行融合处理,得到该字符的特征向量,将目标问句中各字符的特征向量和每个标准问句中各字符的特征向量输入到预先建立的深度文本匹配模型中,得到目标问句和该标准问句之间的语义相似度,进而根据目标问句和各标准问句之间的语义相似度,从各标准问句的答案中确定目标问句的答案。这样,不但可以自动确定出目标问句的答案,而且,在确定目标问句中每个字符的特征向量时,既考虑了该字符的词嵌入向量,又考虑了该字符根据关键词信息转换后的字符的词嵌入向量,对该字符的特征向量的表达更丰富,因此,确定出的目标语句与每个标准问句之间的语义相似度更准确,最终确定出的目标问句的答案也更准确。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种语义匹配方法的流程图;
图2为本申请实施例提供的又一种语义匹配方法的流程图;
图3为本申请实施例提供的一种语义匹配装置的结构示意图;
图4为本申请实施例提供的一种用于实现语义匹配方法的电子设备的硬件结构示意图。
具体实施方式
为了解决现有技术中为用户解答问题的方式不方便,而且成本比较高的问题,本申请实施例提供了一种语义匹配方法及装置。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请实施例提供的语义匹配方法的执行主体既可以是终端如机器人、手机、电脑、Ipad等,也可以是后台服务器。
图1为本申请实施例提供的一种语义匹配方法的流程图,包括以下步骤:
S101:获取目标问句。
具体实施时,当执行主体是终端时,终端可以从自身的音频采集设备获取目标问句;当执行主体是后台服务器时,后台服务器可以从与自身通信连接的终端获取目标问句,而且,此时,后台服务器可以同时为多个终端提供问答服务。
S102:获取与目标问句至少包含部分相同词语的多个标准问句,其中,每个词语包含至少一个字符。
在一种可能的实施方式中,可以使用词频-逆文档频率(Term Frequency–InverseDocument Frequency,TF-IDF),按照倒排索引的方式,获取FAQ知识库中与目标问句至少包含部分相同词语的多个标准问句(即与目标问句关联的标准问句)。
具体地,可预先建立包含多个标准问句的FAQ知识库,并且,可建立词频对应表,该词频对应表中存储FAQ知识库中每个词的索引与该词的权重、该词在各标准问句中的出现频次之间的对应关系,其中,该词的权重也叫做逆文档频率(Inverse DocumentFrequency,IDF),并且,该词的IDF大小与该词的常见程度成反比。
后续,在获取到目标问句之后,可对目标问句进行分词处理,得到目标问句包含的词语,进而根据目标问句中每个词的索引信息,从词频对应表中查询包含该词的标准问句、以及该词在每个标准问句中的出现频次,进一步地,根据该词的权重和该词在每个标准问句中的出现频次,计算每个标准问句的得分。最后,对查询到的所有标准问句的得分按照从低到高的顺序进行排序,取前N个标准问句作为获取的多个标准问句。
在另一种可能的实施方式中,可从FAQ知识库中获取与目标问句包含相同词语的所有标准问句,然后,将与目标问句包含相同词语个数最多的N个标准语句作为与目标问句关联的标准问句,其中,N为预设的大于1的整数。
S103:确定目标问句中的关键词,采用不同的字符转换规则对目标问句中包含在关键词中的字符和未包含在关键词中的字符进行转换处理,得到目标问句中每个字符转换处理后的字符。
具体实施时,可利用预设的关键词识别算法对目标问句进行关键词分析,从而得到目标问句中的关键词,进一步地,对目标问句中的每个字符,若确定该字符包含在目标问句的关键词中,则可采用第一字符转换规则对该字符进行转换处理;若确定该字符未包含在目标问句的关键词中,则可采用第二字符转换规则对该字符进行转换处理。
比如,第一字符转换规则如将该字符转换为“1”,第二字符转换规则如将该字符转换为“0”。
S104:对目标问句中的每个字符,获取预先设置的该字符的第一词嵌入向量,并获取预先设置的该字符转换处理后的字符的第二词嵌入向量,对第一词嵌入向量和第二词嵌入向量进行融合处理,得到该字符的特征向量。
具体实施时,可预先建立第一词向量库,该第一词向量库中存储有问句中可能包含的所有字符的第一词嵌入向量,并且,还可建立第二词向量库,该第二词向量库中存储有问句中可能包含的所有字符在转换后的字符的第二词嵌入向量。
因此,对目标问句中每个字符,可从第一词向量库中查询该字符的第一词嵌入向量,并且,可从第二词向量库中查询该字符转换处理后的字符的第二词嵌入向量。
进一步地,可对该字符的第一词嵌入向量和该字符转换处理后的字符的第二词嵌入向量进行融合处理,得到该字符的特征向量。
比如,对该字符的第一词嵌入向量和该字符转换处理后的字符的第二词嵌入向量中相同位置上的元素进行加和处理,从而得到该字符的特征向量。
S105:将目标问句中各字符的特征向量和每个标准问句中各字符的特征向量输入到预先建立的深度文本匹配模型中,得到目标问句和该标准问句之间的语义相似度。
具体实施时,可以预先建立深度文本匹配模型如bert模型,利用深度文本匹配模型对目标问句中各字符的特征向量和每个标准问句中各字符的特征向量进行分析,从而得到目标问句和该标准问句之间的语义相似度。
S106:根据目标问句和各标准问句之间的语义相似度,从各标准问句的答案中确定目标问句的答案。
具体实施时,可根据每个标准问句与目标问句之间的语义相似度,对各标准问句进行排序,选择排名高于设定名词的标准问句作为目标标准问句,进而从目标标准问句的答案中选择目标问句的答案。
进一步地,当执行主体是终端时,终端可直接输出目标问句的答案;当执行主体是后台服务器时,后台服务器可将目标问句的答案发送给终端,然后,由终端输出目标问句的答案。
需要说明的是,上述S102和S103-S104之间没有严格的先后顺序关系。
本申请实施中,不但可以自动确定出目标问句的答案,而且,在确定目标问句中每个字符的特征向量时,既考虑了该字符的词嵌入向量,又考虑了该字符根据关键词信息转换后的字符的词嵌入向量,对该字符的特征向量的表达更丰富,因此,确定出的目标语句与每个标准问句之间的语义相似度更准确,最终确定出的目标问句的答案也更准确。
图2为本申请实施例提供的一种语义匹配方法的流程图,包括以下步骤:
S201:获取目标问句。
S202:获取与目标问句至少包含部分相同词语的多个标准问句,其中,每个词语包含至少一个字符。
一般地,可以获取部分关键词与目标问句的关键词相同的标准问句。比如,采用elastic search获取与目标问句包含相同关键词的标准问句。
S203:确定目标问句中的关键词,采用不同的字符转换规则对目标问句中包含在关键词中的字符和未包含在关键词中的字符进行转换处理,得到目标问句中每个字符转换处理后的字符。
具体实施时,对目标问句中的每个字符,若确定该字符包含在目标问句的关键词中,则可采用第一字符转换规则对该字符进行转换处理;若确定该字符未包含在目标问句的关键词中,则可采用第二字符转换规则对该字符进行转换处理。
S204:对目标问句中的每个字符,获取预先设置的该字符的第一词嵌入向量,并获取预先设置的该字符转换处理后的字符的第二词嵌入向量,根据该字符在目标问句中的位置生成该字符的位置向量。
比如,目标问句中第一个字符的位置向量可以为(1,0,0,0,0,0),目标问句中第二个字符的位置向量可以为(0,1,0,0,0,0),依次类推。
S205:对第一词嵌入向量、第二词嵌入向量和位置向量进行融合处理,得到该字符的特征向量。
比如,对第一词嵌入向量、第二词嵌入向量和位置向量中位于相同位置上的元素进行加和处理,得到该字符的特征向量。
S206:将目标问句中各字符的特征向量和每个标准问句中各字符的特征向量输入到预先建立的深度文本匹配模型中,得到目标问句和该标准问句之间的语义相似度。
具体实施时,可以预先建立深度文本匹配模型如bert模型,利用深度文本匹配模型分析目标问句中各字符的特征向量和每个标准问句中各字符的特征向量,从而得到目标问句和该标准问句之间的语义相似度。
S207:根据目标问句和各标准问句之间的语义相似度,从各标准问句的答案中确定目标问句的答案。
具体实施时,可根据每个标准问句与目标问句之间的语义相似度,对各标准问句进行排序,选择排名高于设定名词的标准问句作为目标标准问句,进而从目标标准问句的答案中选择目标问句的答案。
需要说明的是,上述S202和S203-S205之间没有严格的先后顺序关系。
本申请实施中,不但可以自动确定出目标问句的答案,而且,在确定目标问句中每个字符的特征向量时,既考虑了该字符的词嵌入向量和位置向量,又考虑了该字符根据关键词信息转换后的字符的词嵌入向量,对该字符的特征向量的表达更丰富,因此,确定出的目标语句与每个标准问句之间的语义相似度更准确,最终确定出的目标问句的答案也更准确。
下面结合具体的实施例对本申请的技术方案进行介绍。
假设后台服务器从终端获取到的目标问句为:□□□□□□,其中,每个“□”代表一个字符如汉字。
那么,可获取与目标问句至少包含部分相同词语的多个标准问句,其中,每个词语包含至少一个字符。假设从FAQ知识库中获取到的标准问句为:标准问句1、标准问句2和标准问句3。
并且,可对目标问句进行关键词分析,确定目标问句中的关键词。假设灰色字符所示为目标问句中的关键词,进一步地,可采用不同的字符转换规则对目标问句中包含在关键词中的字符和未包含在关键词中的字符进行转换处理,得到目标问句中每个字符转换处理后的字符。
假设字符转换规则为:包含在关键词中的字符用“1”表示,不包含在关键词中的字符用“0”表示,那么,对目标问句中的各字符进行转换处理后得到的关键词向量为:(1,0,1,1,0,0)。
进一步地,对目标问句中的每个字符,可从预先建立的第一词向量库中查询该字符的第一词嵌入向量,从预先建立的第二词向量库中查询该字符转换处理后的字符的第二词嵌入向量,并根据该字符在目标问句中的位置,生成该字符的位置向量。
比如,目标问句中第一个字符的位置向量可以为(1,0,0,0,0,0),目标问句中第二个字符的位置向量可以为(0,1,0,0,0,0),依次类推。
然后,可将字符的第一词嵌入向量、该字符转换处理后的字符的第二词嵌入向量和该字符的位置向量中位于相同位置上的元素进行加和处理,从而得到该字符的特征向量。
假设该字符的第一词嵌入向量为(a1,b1,c1),该字符转换处理后的字符的第二词嵌入向量为(a2,b2,c2),该字符的位置向量为(a3,b3,c3),那么,该字符的特征向量可以为(a1+a2+a3,b1+b2+b3,c1+c2+c3)。
进一步地,可将目标问句中个字符的特征向量和每个标准问句中各字符的特征向量输入到预先建立的bert模型(可包含12个attention层,也可以包含24个attention层)中,得到目标问句和该标准问句之间的语义相似度。
假设目标问句和标准问句1之间的语义相似度为68%,目标问句和标准问句2之间的语义相似度为81%,目标问句和标准问句3之间的语义相似度为90%,则可将标准问句3的答案确定为目标问句的答案。
然后,后台服务器可将目标问句的答案发送给终端,由终端输出目标问句的答案,比如,终端将目标问句的答案显示在显示屏上,再比如,终端语音播报目标问句的答案。
当本申请实施例中提供的方法以软件或硬件或软硬件结合实现的时候,电子设备中可以包括多个功能模块,每个功能模块可以包括软件、硬件或其结合。
图3为本申请实施例提供的一种语义匹配装置的结构示意图,包括第一获取模块301、第二获取模块302、转换模块303、融合模块304、匹配模块305和答案确定模块306。
第一获取模块301,用于获取目标问句;
第二获取模块302,用于获取与所述目标问句至少包含部分相同词语的多个标准问句,其中,每个词语包含至少一个字符;
转换模块303,用于采用不同的字符转换规则对所述目标问句中包含在关键词中的字符和未包含在关键词中的字符进行转换处理,得到所述目标问句中每个字符转换处理后的字符;
融合模块304,用于对所述目标问句中的每个字符,获取预先设置的该字符的第一词嵌入向量,并获取预先设置的该字符转换处理后的字符的第二词嵌入向量,对所述第一词嵌入向量和所述第二词嵌入向量进行融合处理,得到该字符的特征向量;
匹配模块305,用于将所述目标问句中各字符的特征向量和每个标准问句中各字符的特征向量输入到预先建立的深度文本匹配模型中,得到所述目标问句和所述标准问句之间的语义相似度;
答案确定模块306,用于根据所述目标问句和各标准问句之间的语义相似度,从各标准问句的答案中确定所述目标问句的答案。
在一种可能的实施方式中,还包括:
生成模块307,用于在对所述第一词嵌入向量和所述第二词嵌入向量进行融合处理之前,根据该字符在所述目标问句中的位置,生成该字符的位置向量;
所述融合模块304,还用于对所述第一词嵌入向量、所述第二词嵌入向量和所述位置向量进行融合处理,得到该字符的特征向量。
在一种可能的实施方式中,所述融合模块304具体用于:
对所述第一词嵌入向量、所述第二词嵌入向量和所述位置向量中位于相同位置上的元素进行加和处理,得到该字符的特征向量。
在一种可能的实施方式中,所述答案确定模块306具体用于:
根据每个标准问句与所述目标问句之间的语义相似度,对各标准问句进行排序;
选择排名高于设定名词的标准问句作为目标标准问句;
从所述目标标准问句的答案中选择所述目标问句的答案。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。各个模块相互之间的耦合可以是通过一些接口实现,这些接口通常是电性通信接口,但是也不排除可能是机械接口或其它的形式接口。因此,作为分离部件说明的模块可以是或者也可以不是物理上分开的,既可以位于一个地方,也可以分布到同一个或不同设备的不同位置上。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
图4为本申请实施例提供的一种电子设备的结构示意图,该电子设备包括收发器401以及处理器402等物理器件,其中,处理器402可以是一个中央处理单元(centralprocessing unit,CPU)、微处理器、专用集成电路、可编程逻辑电路、大规模集成电路、或者为数字处理单元等等。收发器401用于电子设备和其他设备进行数据收发。
该电子设备还可以包括存储器403用于存储处理器402执行的软件指令,当然还可以存储电子设备需要的一些其他数据,如电子设备的标识信息、电子设备的加密信息、用户数据等。存储器403可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器403也可以是非易失性存储器(non-volatilememory),例如只读存储器(read-only memory,ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器403是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器403可以是上述存储器的组合。
本申请实施例中不限定上述处理器402、存储器403以及收发器401之间的具体连接介质。本申请实施例在图4中仅以存储器403、处理器402以及收发器401之间通过总线404连接为例进行说明,总线在图4中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器402可以是专用硬件或运行软件的处理器,当处理器402可以运行软件时,处理器402读取存储器403存储的软件指令,并在所述软件指令的驱动下,执行前述实施例中涉及的语义匹配方法。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行前述实施例中涉及的语义匹配方法。
在一些可能的实施方式中,本申请提供的语义匹配方法的各个方面还可以实现为一种程序产品的形式,所述程序产品中包括有程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行前述实施例中涉及的语义匹配方法。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例中用于语义匹配的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种语义匹配方法,其特征在于,包括:
获取目标问句;
获取与所述目标问句至少包含部分相同词语的多个标准问句,其中,每个词语包含至少一个字符;
确定所述目标问句中的关键词,采用不同的字符转换规则对所述目标问句中包含在关键词中的字符和未包含在关键词中的字符进行转换处理,得到所述目标问句中每个字符转换处理后的字符;
对所述目标问句中的每个字符,获取预先设置的该字符的第一词嵌入向量,并获取预先设置的该字符转换处理后的字符的第二词嵌入向量,对所述第一词嵌入向量和所述第二词嵌入向量进行融合处理,得到该字符的特征向量;
将所述目标问句中各字符的特征向量和每个标准问句中各字符的特征向量输入到预先建立的深度文本匹配模型中,得到所述目标问句和所述标准问句之间的语义相似度;
根据所述目标问句和各标准问句之间的语义相似度,从各标准问句的答案中确定所述目标问句的答案。
2.如权利要求1所述的方法,其特征在于,在对所述第一词嵌入向量和所述第二词嵌入向量进行融合处理之前,还包括:
根据该字符在所述目标问句中的位置,生成该字符的位置向量;以及
对所述第一词嵌入向量和所述第二词嵌入向量进行融合处理,包括:
对所述第一词嵌入向量、所述第二词嵌入向量和所述位置向量进行融合处理,得到该字符的特征向量。
3.如权利要求2所述的方法,其特征在于,对所述第一词嵌入向量、所述第二词嵌入向量和所述位置向量进行融合处理,包括:
对所述第一词嵌入向量、所述第二词嵌入向量和所述位置向量中位于相同位置上的元素进行加和处理,得到该字符的特征向量。
4.如权利要求1-3任一所述的方法,其特征在于,根据所述目标问句和各标准问句之间的语义相似度,从各标准问句的答案中确定所述目标问句的答案,包括:
根据每个标准问句与所述目标问句之间的语义相似度,对各标准问句进行排序;
选择排名高于设定名词的标准问句作为目标标准问句;
从所述目标标准问句的答案中选择所述目标问句的答案。
5.一种语义匹配装置,其特征在于,包括:
第一获取模块,用于获取目标问句;
第二获取模块,用于获取与所述目标问句至少包含部分相同词语的多个标准问句,其中,每个词语包含至少一个字符;
转换模块,用于确定所述目标问句中的关键词,采用不同的字符转换规则对所述目标问句中包含在关键词中的字符和未包含在关键词中的字符进行转换处理,得到所述目标问句中每个字符转换处理后的字符;
融合模块,用于对所述目标问句中的每个字符,获取预先设置的该字符的第一词嵌入向量,并获取预先设置的该字符转换处理后的字符的第二词嵌入向量,对所述第一词嵌入向量和所述第二词嵌入向量进行融合处理,得到该字符的特征向量;
匹配模块,用于将所述目标问句中各字符的特征向量和每个标准问句中各字符的特征向量输入到预先建立的深度文本匹配模型中,得到所述目标问句和所述标准问句之间的语义相似度;
答案确定模块,用于根据所述目标问句和各标准问句之间的语义相似度,从各标准问句的答案中确定所述目标问句的答案。
6.如权利要求5所述的装置,其特征在于,还包括:
生成模块,用于在对所述第一词嵌入向量和所述第二词嵌入向量进行融合处理之前,根据该字符在所述目标问句中的位置,生成该字符的位置向量;
所述融合模块,还用于对所述第一词嵌入向量、所述第二词嵌入向量和所述位置向量进行融合处理,得到该字符的特征向量。
7.如权利要求6所述的装置,其特征在于,所述融合模块具体用于:
对所述第一词嵌入向量、所述第二词嵌入向量和所述位置向量中位于相同位置上的元素进行加和处理,得到该字符的特征向量。
8.如权利要求5-7任一所述的装置,其特征在于,所述答案确定模块具体用于:
根据每个标准问句与所述目标问句之间的语义相似度,对各标准问句进行排序;
选择排名高于设定名词的标准问句作为目标标准问句;
从所述目标标准问句的答案中选择所述目标问句的答案。
9.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-4任一所述的方法。
10.一种计算机可读介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1-4任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010623998.6A CN111898643B (zh) | 2020-07-01 | 2020-07-01 | 一种语义匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010623998.6A CN111898643B (zh) | 2020-07-01 | 2020-07-01 | 一种语义匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111898643A true CN111898643A (zh) | 2020-11-06 |
CN111898643B CN111898643B (zh) | 2024-02-23 |
Family
ID=73191387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010623998.6A Active CN111898643B (zh) | 2020-07-01 | 2020-07-01 | 一种语义匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898643B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613295A (zh) * | 2020-12-21 | 2021-04-06 | 竹间智能科技(上海)有限公司 | 语料识别方法及装置、电子设备、存储介质 |
CN112667904A (zh) * | 2020-12-31 | 2021-04-16 | 深圳追一科技有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
CN113033210A (zh) * | 2021-05-31 | 2021-06-25 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于社交媒体数据分析的药物潜在副作用挖掘方法 |
CN113408268A (zh) * | 2021-06-22 | 2021-09-17 | 平安科技(深圳)有限公司 | 槽位填充方法、装置、设备及存储介质 |
CN113553412A (zh) * | 2021-06-30 | 2021-10-26 | 北京百度网讯科技有限公司 | 问答处理方法、装置、电子设备和存储介质 |
CN114254090A (zh) * | 2021-12-08 | 2022-03-29 | 马上消费金融股份有限公司 | 问答知识库的扩充方法及装置 |
CN114372460A (zh) * | 2021-12-08 | 2022-04-19 | 北京金山数字娱乐科技有限公司 | 字符判别方法、装置、电子设备和存储介质 |
WO2022121171A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 相似文本匹配方法、装置、电子设备及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646119A (zh) * | 2013-12-26 | 2014-03-19 | 北京西塔网络科技股份有限公司 | 用户行为记录的生成方法及装置 |
CN103955449A (zh) * | 2014-04-21 | 2014-07-30 | 安一恒通(北京)科技有限公司 | 定位目标样本的方法和装置 |
CN110647614A (zh) * | 2019-08-01 | 2020-01-03 | 平安科技(深圳)有限公司 | 智能问答方法、装置、介质及电子设备 |
-
2020
- 2020-07-01 CN CN202010623998.6A patent/CN111898643B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646119A (zh) * | 2013-12-26 | 2014-03-19 | 北京西塔网络科技股份有限公司 | 用户行为记录的生成方法及装置 |
CN103955449A (zh) * | 2014-04-21 | 2014-07-30 | 安一恒通(北京)科技有限公司 | 定位目标样本的方法和装置 |
CN110647614A (zh) * | 2019-08-01 | 2020-01-03 | 平安科技(深圳)有限公司 | 智能问答方法、装置、介质及电子设备 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022121171A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 相似文本匹配方法、装置、电子设备及计算机存储介质 |
CN112613295A (zh) * | 2020-12-21 | 2021-04-06 | 竹间智能科技(上海)有限公司 | 语料识别方法及装置、电子设备、存储介质 |
CN112613295B (zh) * | 2020-12-21 | 2023-12-22 | 竹间智能科技(上海)有限公司 | 语料识别方法及装置、电子设备、存储介质 |
CN112667904A (zh) * | 2020-12-31 | 2021-04-16 | 深圳追一科技有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
CN113033210A (zh) * | 2021-05-31 | 2021-06-25 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于社交媒体数据分析的药物潜在副作用挖掘方法 |
CN113408268A (zh) * | 2021-06-22 | 2021-09-17 | 平安科技(深圳)有限公司 | 槽位填充方法、装置、设备及存储介质 |
CN113553412A (zh) * | 2021-06-30 | 2021-10-26 | 北京百度网讯科技有限公司 | 问答处理方法、装置、电子设备和存储介质 |
CN113553412B (zh) * | 2021-06-30 | 2023-07-25 | 北京百度网讯科技有限公司 | 问答处理方法、装置、电子设备和存储介质 |
CN114254090A (zh) * | 2021-12-08 | 2022-03-29 | 马上消费金融股份有限公司 | 问答知识库的扩充方法及装置 |
CN114372460A (zh) * | 2021-12-08 | 2022-04-19 | 北京金山数字娱乐科技有限公司 | 字符判别方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111898643B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898643B (zh) | 一种语义匹配方法及装置 | |
CN109886326B (zh) | 一种跨模态信息检索方法、装置和存储介质 | |
CN110647614B (zh) | 智能问答方法、装置、介质及电子设备 | |
US10942958B2 (en) | User interface for a query answering system | |
US20190042663A1 (en) | Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation | |
US10157174B2 (en) | Utilizing a dialectical model in a question answering system | |
US20150278253A1 (en) | Images for a question answering system | |
CN109858045B (zh) | 机器翻译方法和装置 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
CN113204621B (zh) | 文档入库、文档检索方法,装置,设备以及存储介质 | |
CN110807311B (zh) | 用于生成信息的方法和装置 | |
CN110795541B (zh) | 文本查询方法、装置、电子设备及计算机可读存储介质 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN109190123B (zh) | 用于输出信息的方法和装置 | |
US20210174161A1 (en) | Method and apparatus for multi-document question answering | |
US11423219B2 (en) | Generation and population of new application document utilizing historical application documents | |
CN110059172B (zh) | 基于自然语言理解的推荐答案的方法和装置 | |
CN110232920B (zh) | 语音处理方法和装置 | |
CN116882372A (zh) | 文本生成方法、装置、电子设备以及存储介质 | |
CN110738056B (zh) | 用于生成信息的方法和装置 | |
CN117171328A (zh) | 文本问答处理方法、装置、电子设备及存储介质 | |
CN107656627B (zh) | 信息输入方法和装置 | |
CN110765357A (zh) | 在线文档的搜索方法、装置、设备及存储介质 | |
CN114020896A (zh) | 一种智能问答方法、系统、电子设备及存储介质 | |
CN112925889A (zh) | 自然语言处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |