CN109740077B - 基于语义索引的答案搜索方法、装置及其相关设备 - Google Patents
基于语义索引的答案搜索方法、装置及其相关设备 Download PDFInfo
- Publication number
- CN109740077B CN109740077B CN201811642862.9A CN201811642862A CN109740077B CN 109740077 B CN109740077 B CN 109740077B CN 201811642862 A CN201811642862 A CN 201811642862A CN 109740077 B CN109740077 B CN 109740077B
- Authority
- CN
- China
- Prior art keywords
- answer
- vector
- semantic
- question
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明公开了一种基于语义索引的答案搜索方法、装置、电子设备和存储介质。其中,方法包括:获取用户输入的问题文本;根据预先训练的语义索引模型对问题文本进行向量转化,得到问题的语义向量表达;将问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配;其中,答案向量索引库是根据语义索引模型将答案样本池中所有答案转化为向量表达而构建的;根据匹配到的答案向量表达,获取对应的答案文本,并将对应的答案文本作为搜索结果提供给用户。该方法可以解决相关技术中普通相似度匹配技术仅是单纯从字面上匹配问题,从而只能得到一些字面相关的回答的技术问题,节省了用户筛选答案的时间,提升了用户的使用体验。
Description
技术领域
本发明涉及搜索技术领域,尤其涉及一种基于语义索引的答案搜索方法、装置、电子设备和计算机可读存储介质。
背景技术
互联网中普遍存在问答需求的问题,例如,“人工智能是什么”、“流行性感冒通过什么传染”、“101个水的实现的作者”等,当前用户只能通过搜索引擎来获取相关信息。相关技术中,搜索引擎在接收到用户输入的问题文本时,通过相似度匹配技术从海量数据中寻找答案,比如计算该问题与答案的相似度,选取最匹配的作为该问题的答案。
但是目前存在的问题是:上述传统的相似度匹配技术,只能建模对称匹配,其偏字面上的匹配,例如,问题是“天空为什么是蓝色的”,利用传统的相似度匹配技术,匹配到相似度高的答案往往都是字面上和“天空”、“蓝色”相关的句子,不是真实的答案,而是需要用户从这些答案中选择可能是其真实的答案,浪费用户的时间,且使用体验差。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种基于语义索引的答案搜索方法。该方法可以解决相关技术中普通相似度匹配技术仅是单纯从字面上匹配问题,从而只能得到一些字面相关的回答的技术问题,节省了用户筛选答案的时间,提升了用户的使用体验。
本发明的第二个目的在于提出一种基于语义索引的答案搜索装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
为达到上述目的,本发明第一方面实施例提出的基于语义索引的答案搜索方法,包括:获取用户输入的问题文本;根据预先训练的语义索引模型对所述问题文本进行向量转化,得到所述问题的语义向量表达;将所述问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配;其中,所述答案向量索引库是根据所述语义索引模型将答案样本池中所有答案转化为向量表达而构建的;根据匹配到的答案向量表达,获取对应的答案文本,并将所述对应的答案文本作为搜索结果提供给所述用户。
本发明实施例的基于语义索引的答案搜索方法,可获取用户输入的问题文本,并根据预先训练的语义索引模型对问题文本进行向量转化,得到问题的语义向量表达,并将问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配,之后,可根据匹配到的答案向量表达,获取对应的答案文本,并将对应的答案文本作为搜索结果提供给用户。即通过语义索引模型能够建模非对称匹配的功能,以此召回问题相关的回答,是最接近用户想知道的真实的答案,从而解决了相关技术中普通相似度匹配技术仅是单纯从字面上匹配问题,从而只能得到一些字面相关的回答的技术问题,通过将最接近用户想知道的真实的答案直接提供给用户,节省了用户筛选答案的时间,提升了用户的使用体验。
为达到上述目的,本发明第二方面实施例提出的基于语义索引的答案搜索装置,包括:问题文本获取模块,用于获取用户输入的问题文本;向量转化模块,用于根据预先训练的语义索引模型对所述问题文本进行向量转化,得到所述问题的语义向量表达;匹配模块,用于将所述问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配;其中,所述答案向量索引库是根据所述语义索引模型将答案样本池中所有答案转化为向量表达而构建的;第一答案获取模块,用于根据匹配到的答案向量表达,获取对应的答案文本;答案提供模块,用于将所述对应的答案文本作为搜索结果提供给所述用户。
本发明实施例的基于语义索引的答案搜索装置,可通过问题文本获取模块获取用户输入的问题文本,向量转化模块根据预先训练的语义索引模型对问题文本进行向量转化,得到问题的语义向量表达,匹配模块将问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配,第一答案获取模块可根据匹配到的答案向量表达,获取对应的答案文本,答案提供模块将对应的答案文本作为搜索结果提供给用户。即通过语义索引模型能够建模非对称匹配的功能,以此召回问题相关的回答,是最接近用户想知道的真实的答案,从而解决了相关技术中普通相似度匹配技术仅是单纯从字面上匹配问题,从而只能得到一些字面相关的回答的技术问题,通过将最接近用户想知道的真实的答案直接提供给用户,节省了用户筛选答案的时间,提升了用户的使用体验。
为达到上述目的,本发明第三方面实施例提出的电子设备,包括:存储器、处理器及存储在所述存储器并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本发明第一方面实施例所述的基于语义索引的答案搜索方法。
为达到上述目的,本发明第四方面实施例提出的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明第一方面实施例所述的基于语义索引的答案搜索方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的基于语义索引的答案搜索方法的流程图;
图2是根据本发明实施例的属性键值对数据的示例图;
图3是根据本发明实施例的语义索引模型训练的示例图;
图4是根据本发明一个具体实施例的基于语义索引的答案搜索方法的流程图;
图5是根据本发明一个实施例的基于语义索引的答案搜索装置的结构示意图;
图6是根据本发明另一个实施例的基于语义索引的答案搜索装置的结构示意图;
图7是根据本发明又一个实施例的基于语义索引的答案搜索装置的结构示意图;
图8是根据本发明一个实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于语义索引的答案搜索方法、装置、电子设备和计算机可读存储介质。
图1是根据本发明一个实施例的基于语义索引的答案搜索方法的流程图。需要说明的是,本发明实施例的基于语义索引的答案搜索方法可应用于本发明实施例的基于语义索引的答案搜索装置。其中,该答案搜索装置可被配置于电子设备上,作为一种示例,该电子设备可以是搜索引擎的服务器设备等。
如图1所示,该基于语义索引的答案搜索方法可以包括:
S110,获取用户输入的问题文本。
举例而言,本发明实施例的答案搜索方法可为用户提供问题输入接口,该接口可以支持文本输入,和/或语音输入,和/或图片输入,当用户通过该接口输入问题文本时,可直接获得该用户输入的问题文本;当用户通过该接口输入语音时,可通过语音识别技术对该语音进行识别得到对应的问题文本;当用户通过该接口输入图像,该图像中含有问题时,可通过图像识别技术对该图片进行识别,得到该图像中的问题文本。
S120,根据预先训练的语义索引模型对问题文本进行向量转化,得到问题的语义向量表达。
作为一种示例,可通过以下方式预先训练所述语义索引模型:获取训练数据,所述训练数据包括多个问题回答对样本数据,并根据所述训练数据对神经网络模型进行模型训练,得到所述语义索引模型。其中,在本示例中,所述神经网络模型包括编码模块和转义模块,所述编码模块用于对所述问题回答对样本数据中的问题样本和回答样本分别进行编码,得到所述问题样本的语义向量表达和所述回答样本的语义向量表达,所述转义模块用于对所述回答样本的语义向量表达进行转义,得到所述回答样本的转义向量表达。
需要说明的是,在本发明的实施例中,所述训练数据与问答需求类问题分类相对应,问答需求类问题可包含两类:实体型问题和解释型问题(或称为概念型问题)。其中,实体型问题是指问题的答案是一个实体,实体可以是人也可以是物体实物,也可以是抽象概念,比如,“中国的首都”,回答是实体“北京”。对于该类问题,可使用具有属性键值对这类数据来训练,例如,可使用百科中的属性键值对数据来作为训练数据,比如属性键值对数据可如图2所示。根据上述键值对数据,可以将“词条名与键”作为问题,将“值”作为答案,比如,“三国演义集数”为问题,“52集”为答案,以此作为训练数据。解释型问题是指问题的答案是一段解释文本,比如,“天空为什么是蓝色的”,回答是一段文本。对于该类问题,可使用问答对数据库中的数据作为训练数据。
在模型训练的过程中,对于实体型问题和解释型问题的训练数据,可以使用一个模型来训练。例如,如图3所示,input代表问题,response代表回答,模型包含了编码模块(Encoder)和转义模块两部分。其中,编码模块主要作用是将文本转化为向量表达,问题和答案共享一份编码器。转义模块主要是将回答的向量表达进行转义,因为直接将问题和回答进行匹配,往往得分较高的是字面相似的回答,需要对回答的向量表达进行变换,让模型感知到“某人的出生日期”这种问题的答案,应该是一个日期。综上,对于不同的训练数据,可以得到不同语义索引模型,用于解决不同类型的问答需求问题。
在本步骤中,可通过所述语义索引模型中的编码模块对所述用户输入的问题文本进行向量转化,对应的得到该问题的语义向量表达。
S130,将问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配;其中,所述答案向量索引库是根据语义索引模型将答案样本池中所有答案转化为向量表达而构建的。
也就是说,在预先训练得到语义索引模型之后,可利用该语义索引模型将答案样本池中所有答案转化为向量表达,以建立所述答案向量索引库。例如,以答案样本池为百科库为例,可利用语义索引模型将百科库中所有的句子都转化为向量表达,建立针对该百科库的答案向量索引库。
在本步骤中,可计算所述问题的语义向量表达与所述答案向量索引库中每个答案向量表达之间的相似度,并根据所述相似度,从所述答案向量索引库中匹配到所述相似度大于或等于预设阈值的答案向量表达。也就是说,可基于所述语音索引模型,将所述问题的语义向量表达与所述答案向量索引库中的每个答案向量表达进行相似匹配,召回打分最高的答案向量表达作为该匹配结果。
S140,根据匹配到的答案向量表达,获取对应的答案文本,并将对应的答案文本作为搜索结果提供给用户。
本发明实施例的基于语义索引的答案搜索方法,可获取用户输入的问题文本,并根据预先训练的语义索引模型对问题文本进行向量转化,得到问题的语义向量表达,并将问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配,之后,可根据匹配到的答案向量表达,获取对应的答案文本,并将对应的答案文本作为搜索结果提供给用户。即通过语义索引模型能够建模非对称匹配的功能,以此召回问题相关的回答,是最接近用户想知道的真实的答案,从而解决了相关技术中普通相似度匹配技术仅是单纯从字面上匹配问题,从而只能得到一些字面相关的回答的技术问题,通过将最接近用户想知道的真实的答案直接提供给用户,节省了用户筛选答案的时间,提升了用户的使用体验。
图4是根据本发明一个具体实施例的基于语义索引的答案搜索方法的流程图。
为了进一步提高召回的准确率,提升用户的使用体验,在本发明的实施例中,可将召回过程分为两段式召回,其中,第一段可先通过普通相似性模型召回TOP N个最相似的词条名,第二段可通过语音索引模型,在该TOP N个词条名中,召回最相似的回答。具体地,如图4所示,该基于语义索引的答案搜索方法可以包括:
S410,获取用户输入的问题文本。
S420,根据问题文本,通过文本相似性模型获取对应的多个答案结果,其中,文本相似性模型为用以比较文本之间字面相似性的模型。
可选地,在获得用户输入的问题文本时,可通过文本相似性模型,召回与该问题文本最相似的词条作为本阶段召回的结果,以便后续下一召回阶段利用语义索引模型从该结果中召回最终结果。
需要说明的是,所述文本相似性模型可理解为用以比较文本之间字面相似性的模型。也就是说,该模型是建模对称匹配,是采用从字面上匹配问题的。例如,以问题文本为“明星A的出生日期”为例,利用该文本相似性模型召回的结果大多是与该问题文本字面上相似的结果,例如,“明星A的丈夫是B”、“明星A的好友”、“明星A参见的节目”等与真实回答不相关的结果。而本发明通过文本相似性模型,可以先获取与所述问题文本相关的词条,以便后续利用语义索引模型从获取的相关词条中获取最接近真实的答案结果。这是因为,比如问题是“明星A的出生日期”,如果直接用语义索引模型进行答案召回,有可能答案会在一个不相关的词条上,召回一个日期(比如明星A参与的某个节目的开播日期)作为答案,为了弥补这个缺陷,本发明可先利用文本相似性模型获取与所述问题文本相关的词条,以便后续再利用语义索引模型从这些相关词条中召回最接近真实的答案。
还需要说明的是,所述文本相似性模型可以是任意一个字面匹配的模型,本发明不作具体限定。
S430,根据预先训练的语义索引模型对问题文本进行向量转化,得到问题的语义向量表达。
S440,根据语义索引模型分别对多个答案结果进行向量转化,得到多个答案的向量表达。
也就是说,在通过文本相似性模型获取所述问题文本对应的多个答案结果之后,可通过语义索引模型分别对该多个答案结果进行向量转化,得到多个答案的向量表达。
S450,从多个答案的向量表达中,获取存在于答案向量索引库中的目标答案向量表达。
S460,将问题的语义向量表达与目标答案向量表达进行匹配。
可选地,基于语义索引模型,计算所述问题的语义向量表达与目标答案向量表达中的任一个之间的相似度,并将相似度大于或等于预设阈值的答案向量表达作为最终的结果,即匹配到的答案向量表达。
S470,根据匹配到的答案向量表达,获取对应的答案文本,并将对应的答案文本作为搜索结果提供给用户。
可选地,在将问题的语义向量表达与目标答案向量表达进行匹配时,可从该目标答案向量表达中匹配到最终的答案向量表达,之后,可获取该答案向量表达对应的答案文本,并将该答案文本作为最终的搜索结果提供给用户。也就是说,可将召回过程分为两段式召回,其中,第一段可先通过普通相似性模型召回TOP N个最相似的词条名,第二段可通过语音索引模型,在该TOP N个词条名中,召回最相似的回答。
本发明实施例的基于语义索引的答案搜索方法,在将问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配之前,可先根据问题文本,通过文本相似性模型获取对应的多个答案结果,其中,所述文本相似性模型为用以比较文本之间字面相似性的模型,之后,可利用语义索引模型从该多个答案结果中获取最终的答案结果进行召回,并将召回到的答案文本作为搜索结果提供给用户,进一步提高了召回的准确率,提升了用户的使用体验。
与上述几种实施例提供的基于语义索引的答案搜索方法相对应,本发明的一种实施例还提供一种基于语义索引的答案搜索装置,由于本发明实施例提供的基于语义索引的答案搜索装置与上述几种实施例提供的基于语义索引的答案搜索方法相对应,因此在前述基于语义索引的答案搜索方法的实施方式也适用于本实施例提供的基于语义索引的答案搜索装置,在本实施例中不再详细描述。图5是根据本发明一个实施例的基于语义索引的答案搜索装置的结构示意图。如图5所示,该基于语义索引的答案搜索装置500可以包括:问题文本获取模块510、向量转化模块520、匹配模块530、第一答案获取模块540和答案提供模块550。
具体地,问题文本获取模块510用于获取用户输入的问题文本。
向量转化模块520用于根据预先训练的语义索引模型对问题文本进行向量转化,得到问题的语义向量表达。
作为一种示例,如图6所示,该答案搜索装置500还可包括:模型训练模块560。其中,模型训练模块560用于预先训练所述语义索引模型。作为一种示例,模型训练模块560具体用于:获取训练数据,所述训练数据包括多个问题回答对样本数据;根据所述训练数据对神经网络模型进行模型训练,得到所述语义索引模型;其中,所述神经网络模型包括编码模块和转义模块,所述编码模块用于对所述问题回答对样本数据中的问题样本和回答样本分别进行编码,得到所述问题样本的语义向量表达和所述回答样本的语义向量表达,所述转义模块用于对所述回答样本的语义向量表达进行转义,得到所述回答样本的转义向量表达。
匹配模块530用于将问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配;其中,答案向量索引库是根据语义索引模型将答案样本池中所有答案转化为向量表达而构建的。作为一种示例,匹配模块530具体用于:计算所述问题的语义向量表达与所述答案向量索引库中每个答案向量表达之间的相似度;根据所述相似度,从所述答案向量索引库中匹配到所述相似度大于或等于预设阈值的答案向量表达。
第一答案获取模块540用于根据匹配到的答案向量表达,获取对应的答案文本。
答案提供模块550用于将对应的答案文本作为搜索结果提供给用户。
为了进一步提高召回的准确率,提升用户的使用体验,可选地,在本发明的一个实施例中,如图7所示,该答案搜索装置500还可包括:第二答案获取模块570。其中,第二答案获取模块570用于在将所述问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配之前,根据所述问题文本,通过文本相似性模型获取对应的多个答案结果,其中,所述文本相似性模型为用以比较文本之间字面相似性的模型。
其中,在本发明的实施例中,匹配模块530具体用于:根据所述语义索引模型分别对所述多个答案结果进行向量转化,得到所述多个答案的向量表达;从所述多个答案的向量表达中,获取存在于所述答案向量索引库中的目标答案向量表达;将所述问题的语义向量表达与所述目标答案向量表达进行匹配。
本发明实施例的基于语义索引的答案搜索装置,可通过问题文本获取模块获取用户输入的问题文本,向量转化模块根据预先训练的语义索引模型对问题文本进行向量转化,得到问题的语义向量表达,匹配模块将问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配,第一答案获取模块可根据匹配到的答案向量表达,获取对应的答案文本,答案提供模块将对应的答案文本作为搜索结果提供给用户。即通过语义索引模型能够建模非对称匹配的功能,以此召回问题相关的回答,是最接近用户想知道的真实的答案,从而解决了相关技术中普通相似度匹配技术仅是单纯从字面上匹配问题,从而只能得到一些字面相关的回答的技术问题,通过将最接近用户想知道的真实的答案直接提供给用户,节省了用户筛选答案的时间,提升了用户的使用体验。
为了实现上述实施例,本发明还提出了一种电子设备。
图8是根据本发明一个实施例的电子设备的结构示意图。如图8所示,该电子设备800可以包括:存储器810、处理器820及存储在存储器810并可在处理器820上运行的计算机程序830,处理器820执行计算机程序830时,实现本发明上述任一个实施例所述的基于语义索引的答案搜索方法。
为了实现上述实施例,本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明上述任一个实施例所述的基于语义索引的答案搜索方法。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于语义索引的答案搜索方法,其特征在于,包括以下步骤:
获取用户输入的问题文本;
根据预先训练的语义索引模型对所述问题文本进行向量转化,得到所述问题的语义向量表达;其中,通过以下步骤预先训练所述语义索引模型:
获取训练数据,所述训练数据包括多个问题回答对样本数据;
根据所述训练数据对神经网络模型进行模型训练,得到所述语义索引模型;其中,所述神经网络模型包括编码模块和转义模块,所述编码模块用于对所述问题回答对样本数据中的问题样本和回答样本分别进行编码,得到所述问题样本的语义向量表达和所述回答样本的语义向量表达,所述转义模块用于对所述回答样本的语义向量表达进行转义,得到所述回答样本的转义向量表达;
将所述问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配;其中,所述答案向量索引库是根据所述语义索引模型将答案样本池中所有答案转化为向量表达而构建的;
根据匹配到的答案向量表达,获取对应的答案文本,并将所述对应的答案文本作为搜索结果提供给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述将所述问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配,包括:
计算所述问题的语义向量表达与所述答案向量索引库中每个答案向量表达之间的相似度;
根据所述相似度,从所述答案向量索引库中匹配到所述相似度大于或等于预设阈值的答案向量表达。
3.根据权利要求1所述的方法,其特征在于,在将所述问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配之前,所述方法还包括:
根据所述问题文本,通过文本相似性模型获取对应的多个答案结果,其中,所述文本相似性模型为用以比较文本之间字面相似性的模型。
4.根据权利要求3所述的方法,其特征在于,所述将所述问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配,包括:
根据所述语义索引模型分别对所述多个答案结果进行向量转化,得到所述多个答案的向量表达;
从所述多个答案的向量表达中,获取存在于所述答案向量索引库中的目标答案向量表达;
将所述问题的语义向量表达与所述目标答案向量表达进行匹配。
5.一种基于语义索引的答案搜索装置,其特征在于,包括:
问题文本获取模块,用于获取用户输入的问题文本;
向量转化模块,用于根据预先训练的语义索引模型对所述问题文本进行向量转化,得到所述问题的语义向量表达;
匹配模块,用于将所述问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配;其中,所述答案向量索引库是根据所述语义索引模型将答案样本池中所有答案转化为向量表达而构建的;
第一答案获取模块,用于根据匹配到的答案向量表达,获取对应的答案文本;
答案提供模块,用于将所述对应的答案文本作为搜索结果提供给所述用户;
所述装置还包括:
模型训练模块,用于预先训练所述语义索引模型;
其中,所述模型训练模块具体用于:
获取训练数据,所述训练数据包括多个问题回答对样本数据;
根据所述训练数据对神经网络模型进行模型训练,得到所述语义索引模型;其中,所述神经网络模型包括编码模块和转义模块,所述编码模块用于对所述问题回答对样本数据中的问题样本和回答样本分别进行编码,得到所述问题样本的语义向量表达和所述回答样本的语义向量表达,所述转义模块用于对所述回答样本的语义向量表达进行转义,得到所述回答样本的转义向量表达。
6.根据权利要求5所述的装置,其特征在于,所述匹配模块具体用于:
计算所述问题的语义向量表达与所述答案向量索引库中每个答案向量表达之间的相似度;
根据所述相似度,从所述答案向量索引库中匹配到所述相似度大于或等于预设阈值的答案向量表达。
7.根据权利要求5所述的装置,其特征在于,还包括:
第二答案获取模块,用于在将所述问题的语义向量表达与预先建立的答案向量索引库中的每个答案向量表达进行匹配之前,根据所述问题文本,通过文本相似性模型获取对应的多个答案结果,其中,所述文本相似性模型为用以比较文本之间字面相似性的模型。
8.根据权利要求7所述的装置,其特征在于,所述匹配模块具体用于:
根据所述语义索引模型分别对所述多个答案结果进行向量转化,得到所述多个答案的向量表达;
从所述多个答案的向量表达中,获取存在于所述答案向量索引库中的目标答案向量表达;
将所述问题的语义向量表达与所述目标答案向量表达进行匹配。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现根据权利要求1至4中任一项所述的基于语义索引的答案搜索方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1至4中任一项所述的基于语义索引的答案搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811642862.9A CN109740077B (zh) | 2018-12-29 | 2018-12-29 | 基于语义索引的答案搜索方法、装置及其相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811642862.9A CN109740077B (zh) | 2018-12-29 | 2018-12-29 | 基于语义索引的答案搜索方法、装置及其相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109740077A CN109740077A (zh) | 2019-05-10 |
CN109740077B true CN109740077B (zh) | 2021-02-12 |
Family
ID=66362595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811642862.9A Active CN109740077B (zh) | 2018-12-29 | 2018-12-29 | 基于语义索引的答案搜索方法、装置及其相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109740077B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287296A (zh) * | 2019-05-21 | 2019-09-27 | 平安科技(深圳)有限公司 | 一种问题答案选取方法、装置、计算机设备及存储介质 |
CN111767737A (zh) * | 2019-05-30 | 2020-10-13 | 北京京东尚科信息技术有限公司 | 文本意图相似度确定方法、装置、电子设备和存储介质 |
CN110188360B (zh) * | 2019-06-06 | 2023-04-25 | 北京百度网讯科技有限公司 | 模型训练方法和装置 |
CN110263144A (zh) * | 2019-06-27 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 一种答案获取方法及装置 |
US20210004406A1 (en) * | 2019-07-02 | 2021-01-07 | Baidu Usa Llc | Method and apparatus for storing media files and for retrieving media files |
CN110750616B (zh) * | 2019-10-16 | 2023-02-03 | 网易(杭州)网络有限公司 | 检索式聊天方法、装置以及计算机设备 |
CN111008267A (zh) * | 2019-10-29 | 2020-04-14 | 平安科技(深圳)有限公司 | 智能对话方法及相关设备 |
CN111125335B (zh) | 2019-12-27 | 2021-04-06 | 北京百度网讯科技有限公司 | 问答处理方法、装置、电子设备和存储介质 |
CN111368034A (zh) * | 2020-03-02 | 2020-07-03 | 复旦大学 | 双向语义特征匹配方法及供给内容推荐装置 |
CN111460231A (zh) * | 2020-03-10 | 2020-07-28 | 华为技术有限公司 | 电子设备以及电子设备的搜索方法、介质 |
CN111382255B (zh) * | 2020-03-17 | 2023-08-01 | 北京百度网讯科技有限公司 | 用于问答处理的方法、装置、设备和介质 |
CN111949765A (zh) * | 2020-08-20 | 2020-11-17 | 深圳市卡牛科技有限公司 | 基于语义的相似文本搜索方法、系统、设备和存储介质 |
CN112163083B (zh) * | 2020-10-20 | 2023-11-03 | 珠海格力电器股份有限公司 | 智能问答方法、装置、电子设备和存储介质 |
CN112287085B (zh) * | 2020-11-06 | 2023-12-05 | 中国平安财产保险股份有限公司 | 语义匹配方法、系统、设备及存储介质 |
CN112507078B (zh) * | 2020-12-15 | 2022-05-10 | 浙江诺诺网络科技有限公司 | 一种语义问答方法、装置、电子设备及存储介质 |
CN113204697A (zh) * | 2021-04-29 | 2021-08-03 | 五八有限公司 | 一种搜索方法、装置、电子设备及存储介质 |
CN113111154B (zh) * | 2021-06-11 | 2021-10-29 | 北京世纪好未来教育科技有限公司 | 相似度评估方法、答案搜索方法、装置、设备及介质 |
CN114925185B (zh) * | 2022-05-13 | 2023-02-07 | 北京百度网讯科技有限公司 | 交互方法、模型的训练方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
CN105608218A (zh) * | 2015-12-31 | 2016-05-25 | 上海智臻智能网络科技股份有限公司 | 智能问答知识库的建立方法、建立装置及建立系统 |
WO2016112679A1 (zh) * | 2015-01-14 | 2016-07-21 | 百度在线网络技术(北京)有限公司 | 实现智能问答的方法、系统和存储介质 |
CN106844368A (zh) * | 2015-12-03 | 2017-06-13 | 华为技术有限公司 | 用于人机对话的方法、神经网络系统和用户设备 |
CN107391549A (zh) * | 2017-06-05 | 2017-11-24 | 北京百度网讯科技有限公司 | 基于人工智能的新闻召回方法、装置、设备及存储介质 |
CN109002519A (zh) * | 2018-07-09 | 2018-12-14 | 北京慧闻科技发展有限公司 | 基于卷积循环神经网络的答案选择方法、装置和电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885844A (zh) * | 2017-11-10 | 2018-04-06 | 南京大学 | 基于分类检索的自动问答方法及系统 |
-
2018
- 2018-12-29 CN CN201811642862.9A patent/CN109740077B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
WO2016112679A1 (zh) * | 2015-01-14 | 2016-07-21 | 百度在线网络技术(北京)有限公司 | 实现智能问答的方法、系统和存储介质 |
CN106844368A (zh) * | 2015-12-03 | 2017-06-13 | 华为技术有限公司 | 用于人机对话的方法、神经网络系统和用户设备 |
CN105608218A (zh) * | 2015-12-31 | 2016-05-25 | 上海智臻智能网络科技股份有限公司 | 智能问答知识库的建立方法、建立装置及建立系统 |
CN107391549A (zh) * | 2017-06-05 | 2017-11-24 | 北京百度网讯科技有限公司 | 基于人工智能的新闻召回方法、装置、设备及存储介质 |
CN109002519A (zh) * | 2018-07-09 | 2018-12-14 | 北京慧闻科技发展有限公司 | 基于卷积循环神经网络的答案选择方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109740077A (zh) | 2019-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740077B (zh) | 基于语义索引的答案搜索方法、装置及其相关设备 | |
CN113591902B (zh) | 基于多模态预训练模型的跨模态理解与生成方法和装置 | |
CN108280061B (zh) | 基于歧义实体词的文本处理方法和装置 | |
CN108875074B (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
WO2017092380A1 (zh) | 用于人机对话的方法、神经网络系统和用户设备 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN111078837B (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN114757176B (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN110162596B (zh) | 自然语言处理的训练方法、装置、自动问答方法和装置 | |
CN116992007B (zh) | 基于问题意图理解的限定问答系统 | |
CN113742446A (zh) | 一种基于路径排序的知识图谱问答方法及系统 | |
CN112559709A (zh) | 基于知识图谱的问答方法、装置、终端以及存储介质 | |
CN112328778A (zh) | 确定用户特征和模型训练的方法、装置、设备及介质 | |
KR20210089626A (ko) | 확장성 및 강인성을 갖는 대화 시스템 및 방법 | |
CN110390050B (zh) | 一种基于深度语义理解的软件开发问答信息自动获取方法 | |
CN117076598A (zh) | 基于自适应权重的语义检索模型融合方法及系统 | |
CN107609096B (zh) | 一种智能律师专家应答方法 | |
CN115098655A (zh) | 一种常见问题解答方法、系统、设备和介质 | |
US20220277145A1 (en) | Domain Context Ellipsis Recovery for Chatbot | |
CN115658935B (zh) | 一种个性化评论生成方法及装置 | |
CN118051635A (zh) | 基于大语言模型的对话式图像检索方法和装置 | |
CN117453951A (zh) | 模型训练方法、数据检索方法、装置及电子设备 | |
CN117034928A (zh) | 模型构建方法、装置、设备及存储介质 | |
CN114579606A (zh) | 预训练模型数据处理方法、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |