CN116955559A - 问答匹配方法、装置、电子设备及存储介质 - Google Patents

问答匹配方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116955559A
CN116955559A CN202310908299.XA CN202310908299A CN116955559A CN 116955559 A CN116955559 A CN 116955559A CN 202310908299 A CN202310908299 A CN 202310908299A CN 116955559 A CN116955559 A CN 116955559A
Authority
CN
China
Prior art keywords
keyword
question
text
word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310908299.XA
Other languages
English (en)
Inventor
章翔
顾孙炎
沈继坤
徐运
陆韬宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202310908299.XA priority Critical patent/CN116955559A/zh
Publication of CN116955559A publication Critical patent/CN116955559A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及智能问答技术领域,提供一种问答匹配方法、装置、电子设备及存储介质。该方法包括:获取问答请求文本对应的第一分词集合,及问答请求文本对应的至少一个召回候选文本各自的第二分词集合;将第一分词集合及至少一个第二分词集合,分别输入至双向长短期记忆模型中,得到双向长短期记忆模型输出的第一分词集合对应的第一关键词集合,及至少一个第二分词集合各自对应的第二关键词集合;从至少一个第二关键词集合中,确定第一关键词集合对应的目标关键词集合;根据目标关键词集合,确定问答请求文本对应的答复文本。该方法无需对双向长短期记忆模型进行离线计算,可有效降低离线模型的训练时间,使得最终得到的答复文本的准确性较高。

Description

问答匹配方法、装置、电子设备及存储介质
技术领域
本申请涉及智能问答技术领域,具体涉及一种问答匹配方法、装置、电子设备及存储介质。
背景技术
现有基于知识库的检索式智能问答(Questions and Answers,QA)匹配方法可以包括基于完全深度学习模型的相似度QA问答匹配方法,或,基于分词模型的相似度QA问答匹配方法,以确定用户请求文本对应的答复文本。
然而,上述方法涉及的模型都需要进行离线计算后再更新到线上,这样就会出现对于可能实时更新数据的知识库还存在无法实时上线模型的问题,导致最终获取的答复文本不够准确。
发明内容
本申请实施例提供一种问答匹配方法、装置、电子设备及存储介质,该方法根据问答请求文本和召回候选文本各自的分词集合,采用双向长短期记忆模型,输出各自对应的关键词集合,以确定该问答请求文本对应的答复文本。整个问答匹配过程无需对该双向长短期记忆模型进行离线计算,使得整个过程在很大程度上能够有效降低离线模型的训练时间,提高了该过程的便捷性和实时性,进一步使得最终确定的答复文本更加的符合用户的期待和需求,也即该答复文本的准确性较高。
第一方面,本申请实施例提供一种问答匹配方法,包括:
获取问答请求文本对应的第一分词集合,及所述问答请求文本对应的至少一个召回候选文本各自的第二分词集合;
将所述第一分词集合及至少一个第二分词集合,分别输入至双向长短期记忆模型中,得到所述双向长短期记忆模型输出的所述第一分词集合对应的第一关键词集合,及至少一个第二分词集合各自对应的第二关键词集合;
从至少一个第二关键词集合中,确定所述第一关键词集合对应的目标关键词集合;
根据所述目标关键词集合,确定所述问答请求文本对应的答复文本。
在一个实施例中,所述从至少一个第二关键词集合中,确定所述第一关键词集合对应的目标关键词集合,包括:针对各第二关键词集合,确定所述第一关键词集合与所述第二关键词集合之间的文本相似度;从至少一个文本相似度中,确定最高文本相似度;将所述最高文本相似度对应的第二关键词集合确定为所述目标关键词集合。
在一个实施例中,所述第一关键词集合包括至少一个第一关键词,所述第二关键词集合包括至少一个第二关键词,所述确定所述第一关键词集合与所述第二关键词集合之间的文本相似度,包括:针对各第一关键词,确定所述第一关键词与所述至少一个第二关键词各自对应的第一词相似度;从至少一个第一词相似度中,确定目标词相似度,并从所述至少一个第二关键词中,确定所述目标词相似度对应的目标关键词;根据所述第一关键词与所述目标关键词之间的距离,对所述第一词相似度进行优化,得到所述第一关键词对应的第二词相似度;根据所述至少一个第一关键词各自对应的第二词相似度,确定所述文本相似度。
在一个实施例中,所述从至少一个第一词相似度中,确定目标词相似度,包括:将所述至少一个第一词相似度中的最大第一词相似度确定为所述目标词相似度。
在一个实施例中,所述根据所述至少一个第一关键词各自对应的第二词相似度,确定所述文本相似度,包括:将至少一个第二词相似度的均值确定为所述文本相似度。
在一个实施例中,所述获取问答请求文本对应的第一分词集合,及所述问答请求文本对应的至少一个召回候选文本各自的第二分词集合,包括:将所述问答请求文本输入至分词模型中,得到所述分词模型输出的所述第一分词集合;从预设的候选知识库中,确定所述问答请求文本对应的至少一个召回候选文本;针对各召回候选文本,将所述召回候选文本输入至所述分词模型中,得到所述分词模型输出的第二分词集合。
第二方面,本申请实施例提供一种问答匹配装置,包括:
获取模块,用于获取问答请求文本对应的第一分词集合,及所述问答请求文本对应的至少一个召回候选文本各自的第二分词集合;
处理模块,用于将所述第一分词集合及至少一个第二分词集合,分别输入至双向长短期记忆模型中,得到所述双向长短期记忆模型输出的所述第一分词集合对应的第一关键词集合,及至少一个第二分词集合各自对应的第二关键词集合;从至少一个第二关键词集合中,确定所述第一关键词集合对应的目标关键词集合;根据所述目标关键词集合,确定所述问答请求文本对应的答复文本。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的问答匹配方法的步骤。
第四方面,本申请实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的问答匹配方法的步骤。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的问答匹配方法的步骤。
本申请实施例提供的问答匹配方法、装置、电子设备及存储介质,通过获取问答请求文本对应的第一分词集合,及所述问答请求文本对应的至少一个召回候选文本各自的第二分词集合;将所述第一分词集合及至少一个第二分词集合,分别输入至双向长短期记忆模型中,得到所述双向长短期记忆模型输出的所述第一分词集合对应的第一关键词集合,及至少一个第二分词集合各自对应的第二关键词集合;从至少一个第二关键词集合中,确定所述第一关键词集合对应的目标关键词集合;根据所述目标关键词集合,确定所述问答请求文本对应的答复文本。该方法根据问答请求文本和召回候选文本各自的分词集合,采用双向长短期记忆模型,输出各自对应的关键词集合,以确定该问答请求文本对应的答复文本。整个问答匹配过程中,无需对该双向长短期记忆模型进行离线计算,使得整个过程在很大程度上能够有效降低离线模型的训练时间,提高了该过程的便捷性和实时性,进一步使得最终确定的答复文本更加的符合用户的期待和需求,也即该答复文本的准确性较高。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的问答匹配方法的流程示意图;
图2是本申请实施例提供的双向长短期记忆模型的结构示意图;
图3是本申请实施例提供的关键词集合的匹配示意图;
图4是本申请实施例提供的距离约束的效果示意图;
图5本申请实施例提供的文本相似度计算的示意图;
图6是本申请实施例提供的问答匹配装置的结构示意图;
图7是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了更好地理解本申请实施例,下面对相关技术进行说明:
现有基于知识库的检索式智能问答QA匹配方法可以包括以下两种方案:
方案一:基于完全深度学习模型的相似度QA问答匹配方法
首先,通过完全深度学习模型,直接对问答请求文本和用户文本进行语义相似度编码,然后,通过弹性搜索(Elastic Search,ES)或脸书(facebook)的faiss库检索等方法进行数据的粗召回,若针对存在多个领域知识库的问答请求,则可能会涉及文本分类等处理;接着,对于粗召回的数据进行特征处理并输入到精排序模型进行等级(ranking)相似度排序,进而将该粗召回的数据各自的等级相似度进行排序,并向用户输出该问答请求文本对应的答复文本。
上述方案一的缺点在于:由于完全深度学习模型的可解释性弱,该完全深度学习模型需要进行离线计算后再更新到线上,存在对于可能实时更新数据的知识库还存在无法实时上线模型的问题。
方案二:基于分词模型的相似度QA问答匹配方法
首先,通过关键词检测或通过ES数据库等方法进行最优K(topK)个候选答案的粗召回;然后,对这topK个候选答案通过jieba等分词工具进行文本分词处理,并基于预先设置的停用词表执行无意义的停用词过滤处理;之后,再通过单词的预设权重进行候选答案相似度的计算并排序;最终输出排序后,向用户输出该问答请求文本对应的答复文本。
上述方案二的缺点在于:(1)在对停用词进行过滤的过程中,主要通过预先设置的停用词表进行停用词等低意义词语的过滤,该过滤方法对于不同语境文本经过分词后的相同词语无法区分语境,只能统一过滤或保留。即该过滤方法存在无法通过上下文语义考虑单个词语意义的问题,从而对所有的词语进行无差别条件的过滤或保留。
(2)在对部分特定专有名词进行处理的过程可能存在被误分词的情况,被误分词之后可能会被预先设置的停用词表过滤。若在分词之前加入特定的分词词表,则需要重新训练后续相似度计算使用的词向量模型。此时,同样存在只能离线构建模型并上线的问题,对于更新的知识库数据无法做到实时更改生效。
综上,无论是方案一,还是方案二,都会出现对于可能实时更新数据的知识库还存在无法实时上线模型的问题,这样就导致电子设备根据任一方案获取的答复文本的准确性不够。
基于此,本申请实施例提供的问答匹配方法中,根据问答请求文本和召回候选文本各自的分词集合,采用双向长短期记忆模型,输出各自对应的关键词集合,以确定该问答请求文本对应的答复文本。整个问答匹配过程中,无需对该双向长短期记忆模型进行离线计算,使得整个过程在很大程度上能够有效降低离线模型的训练时间,提高了该过程的便捷性和实时性,进一步使得最终确定的答复文本更加的符合用户的期待和需求,也即该答复文本的准确性较高。
图1为本申请实施例提供的问答匹配方法的流程示意图。参照图1,本申请实施例提供一种问答匹配方法,可以包括:
101、获取问答请求文本对应的第一分词集合,及问答请求文本对应的至少一个召回候选文本各自的第二分词集合。
其中,问答请求文本指的是用户与电子设备进行交互时,向该电子设备输入的询问信息。示例性的,用户使用电子设备的过程中,可对着该电子设备询问:您好,请问今天天气如何;或者,对着该电子设备询问:办卡服务需要哪些信息。上述“您好,请问今天天气如何”和“办卡服务需要哪些信息”都可以作为问答请求文本。
第一分词集合是由至少一个第一分词构成的,每个第一分词可以包括词向量、词性向量和长度向量等特征信息。
召回候选文本指的是用户与电子设备进行交互时,该电子设备基于该用户输入的询问信息而输出的答案信息。示例性的,用户使用电子设备的过程中,该电子设备输出:今天天气阴;或者,携带身份证。上述“今天天气阴”和“携带身份证”都可以作为召回候选文本。
第二分词集合是由至少一个第二分词构成的,每个第二分词可以包括词向量、词性向量和长度向量等特征信息。
用户在与电子设备进行交互的过程中,可先向该电子设备中输入问答请求指令;然后,该电子设备响应该问答请求指令,并基于该问答请求指令,确定问答请求文本;接着,该电子设备对该问答请求文本进行解析,得到该问答请求文本对应的至少一个第一分词;接着,该电子设备根据这至少一个第一分词,构建该问答请求文本对应的第一分词集合,以备后续确定第一关键词集合。
然后,该电子设备再确定该问答请求文本对应的至少一个召回候选文本;接着,针对这至少一个召回候选文本中的任一召回候选文本,该电子设备可对该召回候选文本进行解析,得到该召回候选文本对应的至少一个第二分词;接着,该电子设备根据这至少一个第二分词,构建该召回候选文本对应的第二分词集合。这样一来,有多少个召回候选文本,该电子设备最终就会获取多少个第二分词集合,以备后续确定至少一个召回候选文本各自对应的第二关键词集合。
示例性的,针对问答请求文本w,电子设备确定该问答请求文本w对应的三个召回候选文本,分别为召回候选文本w′、召回候选文本w″以及召回候选文本w″′。
电子设备确定问答请求文本w对应的第一分词集合为(w1,w2,w3,w4,w5);
该电子设备确定召回候选文本w′对应的第二分词集合为(w′1,w′2,w′3,w′4);
该电子设备确定召回候选文本w″对应的第二分词集合为(w″1,w″2,w″3,w″4,w″5);以及,
该电子设备确定召回候选文本w″′对应的第二分词集合为(w1″′,w2″′,w3″′,w4″′,w5″′,w6″′)。
在一些实施例中,电子设备获取问答请求文本对应的第一分词集合,及问答请求文本对应的至少一个召回候选文本各自的第二分词集合,包括:电子设备将问答请求文本输入至分词模型中,得到分词模型输出的第一分词集合;该电子设备从预设的候选知识库中,确定问答请求文本对应的至少一个召回候选文本;该电子设备针对各召回候选文本,将召回候选文本输入至分词模型中,得到分词模型输出的第二分词集合。
其中,分词模型指的是对问答请求文本和/或召回候选文本进行词语分割的模型。
预设的候选知识库也可称为预设的知识数据库,可以包括至少一个召回候选文本。
电子设备在获取问答请求文本之后,可将该问答请求文本输入至分词模型中,该分词模型可对该问答请求文本进行词语拆分,得到至少一个第一分词,这样一来,该电子设备就可以得到该分词模型输出的由这至少一个第一分词构成的第一分词集合。
然后,该电子设备再将该问答请求文本与预设的候选知识库进行数据匹配,得到该问答请求文本对应的至少一个召回候选文本;接着,针对各召回候选文本,该电子设备再将该召回候选文本输入至上述分词模型中,以得到该分词模型输出的由至少一个第二分词构成的第二分词集合。
需要说明的是,电子设备获取第一分词集合与该电子设备确定召回候选文本的时序不限。
可选的,电子设备从预设的候选知识库中,确定问答请求文本对应的至少一个召回候选文本,可以包括:电子设备采用粗召回算法,从预设的候选知识库中,确定问答请求文本对应的topK个召回候选文本,K≥1。
可选的,粗召回算法可以包括:BM25算法、词频-逆向文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法等,或者借助第三方开源数据库(ES)等。
示例性的,假设粗召回算法为BM25算法,那么,电子设备可以根据该BM25算法中的BM25得分公式,确定问答请求文本对应的所有召回候选文本各自的评分;然后,该电子设备对所有评分进行排序,并确定该问答请求文本对应的topK个召回候选文本。
其中,BM25得分公式为:
score(D,Q)表示评分;Q表示问答请求文本,包括关键字q1,…,qi,…,qn,n≥1;D表示召回候选文本;表示关键字qi的逆文档频值,N表示召回候选文本D的总数量;
n(qi)表示包括关键字qi的召回候选文本D的数量;f(qi,D)表示关键字qi在召回候选文本D的频数;k1表示第一超参值,该值越小,大词频的词对整体得分的贡献越会被抑制,一般取值为1.2;b表示第二超参值,该值越大,包括相同关键字qi的情况下,召回候选文本越短得分越高,一般取值为0.75;|D|表示召回候选文本D包括的token个数;agvdl表示所有召回候选文本D包括的token均值,即为所有token个数总和除以召回候选文本D的总数量。
基于上述过程,由于预设的知识数据库中的数据总数量是变化的,所以,电子设备对所有预设的知识数据库进行问答请求文本的匹配所需耗时可能会很长,使得整个匹配过程的时效性差。基于此,该电子设备可采用粗召回算法对所有预设的知识数据库中的数据进行粗召回,只确定与该问答请求文本比较相似的topK个召回候选文本,以缩短匹配时长,进而提高匹配效率。
102、将第一分词集合及至少一个第二分词集合,分别输入至双向长短期记忆模型中,得到双向长短期记忆模型输出的第一分词集合对应的第一关键词集合,及至少一个第二分词集合各自对应的第二关键词集合。
其中,双向长短期记忆模型(Bidirectional Long Short-Term Memory,Bi-LSTM)也可称为无效词过滤模型,由前向LSTM与后向LSTM组合而成。
第一关键词集合指的是由第一分词集合中权重较高的至少一个第一分词所构建的集合。
针对各第二关键词集合,该第二关键词集合指的是由对应的第二分词集合中权重较高的至少一个第二分词所构建的集合。
示例性的,如图2所示,为本申请实施例提供的双向长短期记忆模型的结构示意图。从图2中可以看出,该双向长短期记忆模型的输入由各个文本对应的分词词向量、词性向量和长度向量这三部分组成,可以更好地捕捉各文本中所存在双向的语义依赖。其中,该双向长短期记忆模型相比于使用更复杂的Transformer模型而言,具备计算速度更快,更符合实时性的要求等优点,同时,该双向长短期记忆模型可以从两个方向判断句子中当前分词的重要性,充分考虑了该当前分词的周围信息,以便保留权重较高的分词(即关键词)用于后续的相似度计算。
其中,该双向长短期记忆模型的输入可以包括L个文本,L≥1,分别为X1、X2,…,XL,该双向长短期记忆模型的输出为关键词集合,X1对应O1、X2对应O2,…,XL对应OL。
结合图2所示的双向长短期记忆模型,如图3所示,为本申请实施例提供的关键词集合的匹配示意图。从图3中可以看出,电子设备可将第一分词集合(w1,w2,w3,w4,w5)输入该双向长短期记忆模型中,得到该双向长短期记忆模型输出的问答请求文本w对应的第一关键词集合为(w1,w2,w3);
该电子设备将第二分词集合(w′1,w′2,w′3,w′4)输入双向长短期记忆模型中,得到该双向长短期记忆模型输出的召回候选文本w′对应的第二关键词集合为(w′1,w′2,w′3);
该电子设备将第二分词集合(w″1,w″2,w″3,w″4,w″5)输入双向长短期记忆模型中,得到该双向长短期记忆模型输出的召回候选文本w″对应的第二关键词集合为(w″1,w″2);以及,
该电子设备将第二分词集合(w1″′,w2″′,w3″′,w4″′,w5″′,w6″′)输入双向长短期记忆模型中,得到该双向长短期记忆模型输出的召回候选文本w″′对应的第二关键词集合为(w1″′,w2″′,w3″′,w4″′)。
需要说明的是,上述四个关键词集合中的关键词都是较为准确的。也就是说,电子设备在传统的Bi-LSTM模型的基础上,优化了模型的输入向量,提出了将分词词向量、词性向量和长度向量进行拼接后输入该Bi-LSTM模型的方法。其中,融合了分词的词性向量和长度信息的词向量可以更好地考虑到该分词前后的内容信息,有助于该Bi-LSTM模型对分词重要性的判断,以输出权重较高的分词。
此外,该Bi-LSTM模型无需考虑引入新增专有名词知识对相似度计算过程中误差的影响,使得知识库数据中的数据增删改都可以实时进行反馈,无延迟时效。避免频繁更新通用词向量也是对模型稳定性的一种保护。
103、从至少一个第二关键词集合中,确定第一关键词集合对应的目标关键词集合。
电子设备在获取至少一个第二关键词集合中,可从这些第二关键词集合中,确定第一关键词集合对应的目标关键词集合,以备后续准确确定问答请求文本对应的答复文本。
在一些实施例中,电子设备从至少一个第二关键词集合中,确定第一关键词集合对应的目标关键词集合,包括:电子设备针对各第二关键词集合,确定第一关键词集合与第二关键词集合之间的文本相似度;该电子设备从至少一个文本相似度中,确定最高文本相似度;该电子设备将最高文本相似度对应的第二关键词集合确定为目标关键词集合。
其中,文本相似度指的是第一关键词集合对应的问答请求文本与各第二关键词集合对应的召回候选文本之间的相似度。
电子设备针对各第二关键词集合,可先确定第一关键词集合与第二关键词集合之间的文本相似度,此时,有多少个第二关键词集合,该电子设备就可以获取多少个文本相似度;如果该第二关键词集合的数量为1个,那么,该第二关键词集合即为目标关键词集合;如果该第二关键词集合的数量为至少两个,那么,该电子设备需要将这多个第二关键词集合各自的文本相似度进行比较,并确定出最高文本相似度;最后,该电子设备将该最高文本相似度对应的第二关键词集合确定为目标关键词集合。这样一来,可保证后续确定的答复文本的准确性较高。
在一些实施例中,电子设备第一关键词集合包括至少一个第一关键词,第二关键词集合包括至少一个第二关键词,确定第一关键词集合与第二关键词集合之间的文本相似度,包括:电子设备针对各第一关键词,确定第一关键词与至少一个第二关键词各自对应的第一词相似度;从至少一个第一词相似度中,确定目标词相似度,并从至少一个第二关键词中,确定目标词相似度对应的目标关键词;根据第一关键词与目标关键词之间的距离,对第一词相似度进行优化,得到第一关键词对应的第二词相似度;该电子设备根据至少一个第一关键词各自对应的第二词相似度,确定文本相似度。
其中,词相似度指的是第一关键词与第二关键词之间的相似度。
可选的,距离可以包括以下其中一种:文本拼音的编辑距离和文本的欧式距离等。
结合图3,示例性的,以第一关键词集合为(w1,w2,w3)和第二关键词集合为(w″1,w″2)为例:
电子设备可根据公式(1)Si=max(sim(wi,w′j)),j=1,2,…,β1,β1≥1,确定各第一关键词与各第二关键词之间的第一词相似度。
其中,Si表示第一关键词集合中第i个第一关键词对应的第一词相似度;sim(·)表示余弦函数;wi表示第一关键词集合中的第i个第一关键词;w′j表示第二关键词集合中的第j个第二关键词;β1表示第二关键词集合中第二关键词的总数量,此时,β1的取值为2。
针对各第一关键词而言,该第一关键词会对应两个第一词相似度,然后,该电子设备将这两个第一词相似度中的任一第一词相似度,确定为该第一关键词对应的目标词相似度。其中,目标词相似度的数量与第一关键词的数量相同。
接着,该电子设备可根据公式(2)S′i=Si-α*di,对第一词相似度进行优化,得到第一关键词对应的第二词相似度。
其中,S′i表示第一关键词对应的第二词相似度;α表示预设参数;di表示第一关键词与目标关键词之间的距离,该距离即为该第一关键词与该目标关键词之间的约束。
如图4所示,为本申请实施例提供的距离约束的效果示意图。从图4中可以看出,在优化第一词相似度的过程中,增加了距离约束可以在后续强化文本相似度计算的准确率,即使越相近的分词之间最终的词相似度越高,存在一定距离的分词相似度进行惩罚略微的下降。该距离约束的最终目的是提升用户输入的问答请求文本的响应准确率,避免输出错误响应给用户。
这样一来,该电子设备利用第一关键词与目标关键词之间的距离,可有效加强后续用户提出的问答请求文本得到的相应的正确性,最大程度地避免相关性低或错误的问题响应输出给该用户,也就是说,该电子设备采用上述公式(2),得到的第二词相似度比第一词相似度更为准确,可有效提高后续答复文本的准确性。其中,第二词相似度的数量与第一关键词的数量相同。
最后,该电子设备根据各第一关键词各自对应的第二词相似度,确定各第二关键词集合对应的文本相似度。由于该第二词相似度的准确性较高,所以,该电子设备最终得到的文本相似度也是较为准确的。其中,文本相似度的数量与第二关键词集合的数量相同。
示例性的,如图5所示,为本申请实施例提供的文本相似度计算的示意图。从图5中可以看出,电子设备可采用距离约束,确定第一关键词集合(w1,w2,w3)中各第一关键词与第二关键词集合(w″1,w″2)中各第二关键词之间的词相似度。整个过程通过计算问答请求文本和召回候选文本之间不同分词的余弦相似度、距离约束DIS_i实现两文本之间语义相似度的综合计算。该基于距离约束的相似度分层计算方法可以显著的将含义相近的分词相似度拉近,而将含义不相似的分词相似度降低,进而在后续筛选出召回候选文本中与问答请求文本最相似的召回候选文本。
其中,在图5中,①表示第一关键词w1与第二关键词w″1之间的第一词相似度;②表示第一关键词w1与第二关键词w″2之间的第一词相似度;MAX(①,②)表示像两个第一次相似度中确定目标词相似度;MAX_1表示第一关键词w1对应的目标词相似度;DIS_1第一关键词w1与目标词相似度对应第二关键词之间的距离;FIX_MAX_1表示第一关键词w1对应的第二词相似度;AVG(FIX_MAX_1,FIX_MAX_2,FIX_MAX_3)表示第一关键词集合(w1,w2,w3)与第二关键词集合(w″1,w″2)之间的文本相似度。
在一些实施例中,电子设备从至少一个第一词相似度中,确定目标词相似度,包括:电子设备将至少一个第一词相似度中的最大第一词相似度确定为目标词相似度。
针对各第一关键词而言,该第一关键词会对应至少一个第一词相似度,然后,该电子设备将这至少一个第一词相似度中的最大第一词相似度,确定为该第一关键词对应的目标词相似度,以备后续准确确定该第一关键词对应的第二词相似度。
在一些实施例中,电子设备根据至少一个第一关键词各自对应的第二词相似度,确定文本相似度,包括:电子设备将至少一个第二词相似度的均值确定为文本相似度。
电子设备在之前已经获取了第一关键词集合与该各第二关键词集合对应的至少一个第二词相似度;然后,针对各第二关键词集合,该电子设备可将该第二关键词集合对应的至少一个第二词相似度的均值,确定为该第二关键词集合对应的文本相似度。这样一来,有多少个第二关键词集合,该电子设备就会获取多少个文本相似度。
也就是说,针对各第二关键词集合,电子设备根据公式(3)Sm=avg(s′mi),i=1,2,…,β2,β2≥1,可准确确定第一关键词集合与该各第二关键词集合之间的文本相似度。
其中,Sm表示问答请求文本与第m个召回候选文本之间的文本相似度,m≥1;s′mi表示问答请求文本与第m个召回候选文本对应的至少一个第二词相似度中的最大第二词相似度;β2表示第一关键词集合中第一关键词的总数量,此时,β2的取值为3。
104、根据目标关键词集合,确定问答请求文本对应的答复文本。
其中,答复文本指的是目标关键词集合对应的召回候选文本。
由于电子设备将最高文本相似度对应的第二关键词集合确定为目标关键词集合,所以,该电子设备根据该目标关键词集合,可准确确定问答请求文本对应的目标召回候选文本,并将该,吧召回候选文本确定为该问答请求文本对应的答复文本。
在本发明实施例中,获取问答请求文本对应的第一分词集合,及问答请求文本对应的至少一个召回候选文本各自的第二分词集合;将第一分词集合及至少一个第二分词集合,分别输入至双向长短期记忆模型中,得到双向长短期记忆模型输出的第一分词集合对应的第一关键词集合,及至少一个第二分词集合各自对应的第二关键词集合;从至少一个第二关键词集合中,确定第一关键词集合对应的目标关键词集合;根据目标关键词集合,确定问答请求文本对应的答复文本。该方法根据问答请求文本和召回候选文本各自的分词集合,采用双向长短期记忆模型,输出各自对应的关键词集合,以确定该问答请求文本对应的答复文本。整个问答匹配过程中,无需对该双向长短期记忆模型进行离线计算,使得整个过程在很大程度上能够有效降低离线模型的训练时间,提高了该过程的便捷性和实时性,进一步使得最终确定的答复文本更加的符合用户的期待和需求,也即该答复文本的准确性较高。
下面对本申请实施例提供的问答匹配装置进行描述,下文描述的问答匹配装置与上文描述的问答匹配方法可相互对应参照。
如图6所示,为本申请实施例提供的问答匹配装置的结构示意图,可以包括:
获取模块601,用于获取问答请求文本对应的第一分词集合,及该问答请求文本对应的至少一个召回候选文本各自的第二分词集合;
处理模块602,用于将该第一分词集合及至少一个第二分词集合,分别输入至双向长短期记忆模型中,得到该双向长短期记忆模型输出的该第一分词集合对应的第一关键词集合,及至少一个第二分词集合各自对应的第二关键词集合;从至少一个第二关键词集合中,确定该第一关键词集合对应的目标关键词集合;根据该目标关键词集合,确定该问答请求文本对应的答复文本。
可选的,处理模块602,具体用于针对各第二关键词集合,确定该第一关键词集合与该第二关键词集合之间的文本相似度;从至少一个文本相似度中,确定最高文本相似度;将该最高文本相似度对应的第二关键词集合确定为该目标关键词集合。
可选的,该第一关键词集合包括至少一个第一关键词,该第二关键词集合包括至少一个第二关键词,处理模块602,具体用于针对各第一关键词,确定该第一关键词与该至少一个第二关键词各自对应的第一词相似度;从至少一个第一词相似度中,确定目标词相似度,并从该至少一个第二关键词中,确定该目标词相似度对应的目标关键词;根据该第一关键词与该目标关键词之间的距离,对该第一词相似度进行优化,得到该第一关键词对应的第二词相似度;根据该至少一个第一关键词各自对应的第二词相似度,确定该文本相似度。
可选的,处理模块602,具体用于将该至少一个第一词相似度中的最大第一词相似度确定为该目标词相似度。
可选的,处理模块602,具体用于将至少一个第二词相似度的均值确定为该文本相似度。
可选的,获取模块601,具体用于将该问答请求文本输入至分词模型中,得到该分词模型输出的该第一分词集合;从预设的候选知识库中,确定该问答请求文本对应的至少一个召回候选文本;针对各召回候选文本,将该召回候选文本输入至该分词模型中,得到该分词模型输出的第二分词集合。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communication Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的计算机程序,以执行问答匹配方法的步骤,例如包括:获取问答请求文本对应的第一分词集合,及所述问答请求文本对应的至少一个召回候选文本各自的第二分词集合;将所述第一分词集合及至少一个第二分词集合,分别输入至双向长短期记忆模型中,得到所述双向长短期记忆模型输出的所述第一分词集合对应的第一关键词集合,及至少一个第二分词集合各自对应的第二关键词集合;从至少一个第二关键词集合中,确定所述第一关键词集合对应的目标关键词集合;根据所述目标关键词集合,确定所述问答请求文本对应的答复文本。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的问答匹配方法的步骤,例如包括:获取问答请求文本对应的第一分词集合,及所述问答请求文本对应的至少一个召回候选文本各自的第二分词集合;将所述第一分词集合及至少一个第二分词集合,分别输入至双向长短期记忆模型中,得到所述双向长短期记忆模型输出的所述第一分词集合对应的第一关键词集合,及至少一个第二分词集合各自对应的第二关键词集合;从至少一个第二关键词集合中,确定所述第一关键词集合对应的目标关键词集合;根据所述目标关键词集合,确定所述问答请求文本对应的答复文本。
另一方面,本申请实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行上述各实施例提供的问答匹配方法的步骤,例如包括:获取问答请求文本对应的第一分词集合,及所述问答请求文本对应的至少一个召回候选文本各自的第二分词集合;将所述第一分词集合及至少一个第二分词集合,分别输入至双向长短期记忆模型中,得到所述双向长短期记忆模型输出的所述第一分词集合对应的第一关键词集合,及至少一个第二分词集合各自对应的第二关键词集合;从至少一个第二关键词集合中,确定所述第一关键词集合对应的目标关键词集合;根据所述目标关键词集合,确定所述问答请求文本对应的答复文本。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种问答匹配方法,其特征在于,包括:
获取问答请求文本对应的第一分词集合,及所述问答请求文本对应的至少一个召回候选文本各自的第二分词集合;
将所述第一分词集合及至少一个第二分词集合,分别输入至双向长短期记忆模型中,得到所述双向长短期记忆模型输出的所述第一分词集合对应的第一关键词集合,及至少一个第二分词集合各自对应的第二关键词集合;
从至少一个第二关键词集合中,确定所述第一关键词集合对应的目标关键词集合;
根据所述目标关键词集合,确定所述问答请求文本对应的答复文本。
2.根据权利要求1所述的问答匹配方法,其特征在于,所述从至少一个第二关键词集合中,确定所述第一关键词集合对应的目标关键词集合,包括:
针对各第二关键词集合,确定所述第一关键词集合与所述第二关键词集合之间的文本相似度;
从至少一个文本相似度中,确定最高文本相似度;
将所述最高文本相似度对应的第二关键词集合确定为所述目标关键词集合。
3.根据权利要求2所述的问答匹配方法,其特征在于,所述第一关键词集合包括至少一个第一关键词,所述第二关键词集合包括至少一个第二关键词,所述确定所述第一关键词集合与所述第二关键词集合之间的文本相似度,包括:
针对各第一关键词,确定所述第一关键词与所述至少一个第二关键词各自对应的第一词相似度;从至少一个第一词相似度中,确定目标词相似度,并从所述至少一个第二关键词中,确定所述目标词相似度对应的目标关键词;根据所述第一关键词与所述目标关键词之间的距离,对所述第一词相似度进行优化,得到所述第一关键词对应的第二词相似度;
根据所述至少一个第一关键词各自对应的第二词相似度,确定所述文本相似度。
4.根据权利要求3所述的问答匹配方法,其特征在于,所述从至少一个第一词相似度中,确定目标词相似度,包括:
将所述至少一个第一词相似度中的最大第一词相似度确定为所述目标词相似度。
5.根据权利要求3或4所述的问答匹配方法,其特征在于,所述根据所述至少一个第一关键词各自对应的第二词相似度,确定所述文本相似度,包括:
将至少一个第二词相似度的均值确定为所述文本相似度。
6.根据权利要求1-4任一项所述的问答匹配方法,其特征在于,所述获取问答请求文本对应的第一分词集合,及所述问答请求文本对应的至少一个召回候选文本各自的第二分词集合,包括:
将所述问答请求文本输入至分词模型中,得到所述分词模型输出的所述第一分词集合;
从预设的候选知识库中,确定所述问答请求文本对应的至少一个召回候选文本;
针对各召回候选文本,将所述召回候选文本输入至所述分词模型中,得到所述分词模型输出的第二分词集合。
7.一种问答匹配装置,其特征在于,包括:
获取模块,用于获取问答请求文本对应的第一分词集合,及所述问答请求文本对应的至少一个召回候选文本各自的第二分词集合;
处理模块,用于将所述第一分词集合及至少一个第二分词集合,分别输入至双向长短期记忆模型中,得到所述双向长短期记忆模型输出的所述第一分词集合对应的第一关键词集合,及至少一个第二分词集合各自对应的第二关键词集合;从至少一个第二关键词集合中,确定所述第一关键词集合对应的目标关键词集合;根据所述目标关键词集合,确定所述问答请求文本对应的答复文本。
8.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的问答匹配方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的问答匹配方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的问答匹配方法的步骤。
CN202310908299.XA 2023-07-21 2023-07-21 问答匹配方法、装置、电子设备及存储介质 Pending CN116955559A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310908299.XA CN116955559A (zh) 2023-07-21 2023-07-21 问答匹配方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310908299.XA CN116955559A (zh) 2023-07-21 2023-07-21 问答匹配方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116955559A true CN116955559A (zh) 2023-10-27

Family

ID=88445778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310908299.XA Pending CN116955559A (zh) 2023-07-21 2023-07-21 问答匹配方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116955559A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708283A (zh) * 2023-11-29 2024-03-15 北京中关村科金技术有限公司 召回内容的确定方法、召回内容的确定装置和电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708283A (zh) * 2023-11-29 2024-03-15 北京中关村科金技术有限公司 召回内容的确定方法、召回内容的确定装置和电子设备

Similar Documents

Publication Publication Date Title
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN110196901B (zh) 对话系统的构建方法、装置、计算机设备和存储介质
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
US8639517B2 (en) Relevance recognition for a human machine dialog system contextual question answering based on a normalization of the length of the user input
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
WO2017127296A1 (en) Analyzing textual data
CN110347787B (zh) 一种基于ai辅助面试场景的面试方法、装置及终端设备
CN111414746B (zh) 一种匹配语句确定方法、装置、设备及存储介质
US20220351634A1 (en) Question answering systems
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN112307190B (zh) 医学文献排序方法、装置、电子设备及存储介质
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN116955559A (zh) 问答匹配方法、装置、电子设备及存储介质
EP3832485A1 (en) Question answering systems
CN117370190A (zh) 测试用例生成方法、装置、电子设备和存储介质
US11854537B2 (en) Systems and methods for parsing and correlating solicitation video content
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
WO2023177723A1 (en) Apparatuses and methods for querying and transcribing video resumes
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
CN115455142A (zh) 文本检索方法、计算机设备和存储介质
CN116150306A (zh) 问答机器人的训练方法、问答方法及装置
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
US12008080B1 (en) Apparatus and method for directed process generation
US20240029463A1 (en) Apparatus and method for internet-based validation of task completion
CN112632287B (zh) 电力知识图谱构建方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination