CN113590789A - 应用于智能问答系统的问题检索方法、装置、设备及介质 - Google Patents
应用于智能问答系统的问题检索方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113590789A CN113590789A CN202110878071.1A CN202110878071A CN113590789A CN 113590789 A CN113590789 A CN 113590789A CN 202110878071 A CN202110878071 A CN 202110878071A CN 113590789 A CN113590789 A CN 113590789A
- Authority
- CN
- China
- Prior art keywords
- question
- candidate
- user input
- answering system
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及人工智能技术领域,尤其是一种应用于智能问答系统的问题检索方法、装置、设备及介质。该问题检索方法包括:利用关键词将用户输入问题在实时搜索引擎ElasticSearch(ES)数据库中进行粗匹配,检索出与用户输入问题相关的候选问题集;使用基于预训练语言模型(BERT)的文本嵌入模型将用户输入问题与该候选问题集中的各个候选问题进行精匹配,检索出与用户输入问题最相近的候选问题。本公开通过采用层次化检索策略,对用户输入问题分别进行粗匹配和精匹配,检索出与用户输入问题最相近的候选问题,并将其作为最佳回复输出,使得每一个用户输入问题均能精准匹配到最佳回复,显著提高了问题检索的准确性,解决现有智能问答系统存在的答非所问的问题。
Description
技术领域
本公开涉及人工智能技术领域,尤其是一种应用于智能问答系统的问题检索方法、装置、设备及介质。
背景技术
问答(Question Answering,QA)系统起源于图灵测试,随着时间的发展,问答系统领域也发生了重大变革。按照处理的数据格式不同,问答系统分别经历了结构化知识库阶段、无结构文本阶段、基于问题答案数据阶段。
近年来,随着大数据技术和人工智能技术的发展,智能问答系统也取得了很大的发展和进步,已经有很多智能问答系统产品问世,例如IBM研发的智能问答机器人Watson在美国智力竞赛节目中战胜了人类选手。苹果公司的Siri系统和微软公司的cortana分别在iPhone手机中和Windows10操作系统中都取得看很好的效果。
在国内,众多企业和研究团体也推出了很多以智能问答技术为核心的机器人。例如:微软公司的“小冰”、百度公司的“度秘”和中科汇联公司的“爱客服”等。这些产品涉及众多业务领域,如日常生活,医疗,交通,电子商务,旅游业,金融,教育等。
在保险领域,智能问答系统主要应用于客服系统,客服系统是保险行业中解决售前咨询、售后服务、业务扩展的主要方式之一。客服系统的好坏会直接影响公司业务转化和业绩的增长。当前保险行业内,客服系统主要有两种技术形态。第一种、通过技术方式构建人工在线客服服务平台,通过时时通讯的方式,依靠人工服务解决客户咨询问题,而客服人员则通过对内部知识库的查询得到相应客服答案进行问题解答;第二种、通过智能问答系统实现的自动化客服系统,通过对用户咨询内容进行分词或语义分析与知识库内容进行匹配,从而得到关联性较高的答案。
现有对保险领域问答系统的答案检索基本上都是使用基于模板的方式,即首先将用户提出的问题根据场景进行规范化处理,与模板进行匹配得出规范化问句,实现问题的规范化;然后再根据规范化问题基于关键词匹配从知识库中检索出相应的答案。
由于在知识库中进行检索时是基于关键词匹配,使得现有方法的检索出正确问题及答案的准确性低。并且,现有方法虽然对问题进行归一化处理,但是在检索时还是简单的关键词匹配,在关键词较少的情况下极易出现候选答案多且答非所问的问题。
发明内容
(一)要解决的技术问题
有鉴于此,本公开的主要目的在于提供一种应用于智能问答系统的问题检索方法、装置、设备及介质,以提高问题检索的准确性。
(二)技术方案
本公开的第一方面,提供了一种应用于智能问答系统的问题检索方法,包括:利用关键词将用户输入问题在实时搜索引擎(Elastic Search,ES)数据库中进行粗匹配,检索出与用户输入问题相关的候选问题集;使用基于预训练语言模型(BERT)的文本嵌入模型将用户输入问题与该候选问题集中的各个候选问题进行精匹配,检索出与用户输入问题最相近的候选问题。
在一些实施例中,所述利用关键词将用户输入问题在实时搜索引擎ES数据库中进行粗匹配,检索出与用户输入问题相关的候选问题集,包括:对保险领域的问答QA数据进行分词并存储在ES数据库中,该分词对应于ES数据库中存储的ES关键词;从用户输入问题中提取出问题关键词,将该问题关键词与ES数据库中存储的ES关键词进行匹配,从ES数据库中筛选出与用户输入问题相关的多个候选问题,并构成候选问题集。
在一些实施例中,所述对保险领域的问答QA数据进行分词并存储在ES数据库中的步骤中,存储的数据格式至少包括以下字段:
“question”:问题;
“keywords”:问题关键词;
“max_answer”:最佳回复;
“intention”:问题类别;
“answers”:回复集合。
在一些实施例中,所述使用基于预训练语言模型BERT的文本嵌入模型将用户输入问题与该候选问题集中的各个候选问题进行精匹配,检索出与用户输入问题最相近的候选问题,包括:使用基于预训练语言模型BERT的文本嵌入模型计算用户输入问题与该候选问题集中的各个候选问题的词向量;利用余弦相似度对各个候选问题进行排序,选择与用户输入问题最相近的候选问题。
在一些实施例中,所述利用余弦相似度对各个候选问题进行排序,选择与用户输入问题最相近的候选问题,包括:计算用户输入问题与各个候选问题词向量的余弦相似度;选择余弦相似度最高的候选问题作为与用户输入问题最相近的候选问题。
在一些实施例中,所述计算用户输入问题与各个候选问题词向量的余弦相似度之后,还包括:按照由高到低的顺序对余弦相似度进行排序。
在一些实施例中,所述选择余弦相似度最高的候选问题作为与用户输入问题最相近的候选问题之后,还包括:将与用户输入问题最相近的候选问题的回复作为最佳回复并输出。
本公开的另一方面,提供了一种应用于智能问答系统的问题检索装置,包括:候选问题粗匹配模块,用于利用关键词将用户输入问题在实时搜索引擎ES数据库中进行粗匹配,检索出与用户输入问题相关的候选问题集;候选问题精匹配模块,用于使用基于预训练语言模型BERT的文本嵌入模型将用户输入问题与该候选问题集中的各个候选问题进行精匹配,检索出与用户输入问题最相近的候选问题。
本公开的又一方面,提供了一种应用于智能问答系统的问题检索设备,包括:一个或多个处理器;存储器,其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器实现所述的应用于智能问答系统的问题检索方法。
本公开的再一方面,提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令被执行时实现所述的应用于智能问答系统的问题检索方法。
本公开的再一方面,提供了一种计算机程序,包括:计算机可执行指令,所述指令被执行时用于实现所述的应用于智能问答系统的问题检索方法。
(三)有益效果
从上述技术方案可以看出,本公开提供的应用于智能问答系统的问题检索方法、装置、设备及介质,相对于现有技术具有以下有益效果:
本公开提供的应用于智能问答系统的问题检索方法、装置、设备及介质,通过采用层次化检索策略,对用户输入问题分别进行粗匹配和精匹配,检索出与用户输入问题最相近的候选问题,并将其回复作为最佳回复输出,使得每一个用户输入问题均能精准匹配到最佳回复,显著提高了问题检索的准确性。
本公开提供的应用于智能问答系统的问题检索方法、装置、设备及介质,通过采用层次化检索策略,有效地检索出与用户输入问题最相近的候选问题,并将其回复作为最佳回复输出,使得每一个用户输入问题均能精准匹配到最佳回复,有效解决了现有智能问答系统存在的答非所问的问题,提升了用户满意度。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1是依照本公开实施例的应用于智能问答系统的问题检索方法的流程图。
图2是依照本公开实施例的应用于智能问答系统的问题检索装置的框图。
图3是依照本公开实施例的应用于智能问答系统的问题检索方法的示意图。
图4是依照本公开实施例的应用于智能问答系统的问题检索设备的框图。
【附图标记】:
S1、S2:步骤
200:应用于智能问答系统的问题检索装置
201:候选问题粗匹配模块
202:候选问题精匹配模块
S31、S32、S33、S34、S35:步骤
400:应用于智能问答系统的问题检索设备
410:处理器
420:存储器
421:计算机程序
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
并且图中各部件的形状和尺寸不反映真实大小和比例,而仅示意本公开实施例的内容。另外,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。
再者,单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。说明书与权利要求书中所使用的序数例如“S1”、“S2”、“S3”等的用词,以修饰权利要求项的步骤,其本身并不意含及代表该请求步骤有任何之前的序数,也不代表某一请求步骤与另一请求步骤的顺序、或是制造方法上的顺序,这些序数的使用仅用来使具有某命名的一请求步骤得以和另一请求步骤能作出清楚区分。
针对现有技术中检索出正确问题的准确性低、极易出现候选答案多且答非所问的等技术问题,本公开的实施例对现有应用于智能问答系统的问题检索方法进行了改进,提供了图1所示的应用于智能问答系统的问题检索方法。
本公开的实施例提供了一种应用于智能问答系统的问题检索方法,如图1所示,图1是依照本公开实施例的应用于智能问答系统的问题检索方法的流程图。需要注意的是,图1所示仅为可以应用本公开实施例的应用场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他环境或场景。
如图1所示,根据本公开实施例的应用于智能问答系统的问题检索方法,包括如下步骤:
步骤S1:利用关键词将用户输入问题在实时搜索引擎(Elastic Search,ES)数据库中进行粗匹配,检索出与用户输入问题相关的候选问题集;
在本步骤中,所述利用关键词将用户输入问题在实时搜索引擎ES数据库中进行粗匹配,检索出与用户输入问题相关的候选问题集,包括:
步骤S11:对保险领域的问答QA数据进行分词并存储在ES数据库中,该分词对应于ES数据库中存储的ES关键词;
在本公开的一个实施例中,所述对保险领域的问答QA数据进行分词并存储在ES数据库中的步骤中,存储的数据格式至少包括以下字段:
“question”:问题;
“keywords”:问题关键词;
“max_answer”:最佳回复;
“intention”:问题类别;
“answers”:回复集合。
对于字段“answers”:回复集合,因为有些问题的回复可能不止一个,在需要展示所有回复时使用。
以下是针对上述各字段的一个具体实例,仅做实施例举例使用,并不用于限定本公开:
{″question″:″父母岁数大了面临的风险都有哪些?″,
″keywords″:[‘父母’,’岁数’,’面临’,’风险’],
″max_answer″:″老人大都已经过了奋斗期,基本不用再承担养育子女、还房贷等家庭责任,甚至很多人已经在准备退休,所以收入损失的风险变得越来越小。但是,随着年岁渐长身体变弱,老年人因生病、意外住院的风险日益增加而伴着养老期“支出大于收入”的趋势,转移这类风险的需求会更加迫切。另外如果父母在奋斗期未提前准备养老金的话,跨入养老期时,养老金的需求也非常急迫。\n″,
″intention″:0,
″answers″:[″老人大都已经过了奋斗期,基本不用再承担养育子女、还房贷等家庭责任,甚至很多人已经在准备退休,所以收入损失的风险变得越来越小。但是,随着年岁渐长身体变弱,老年人因生病、意外住院的风险日益增加而伴着养老期“支出大于收入”的趋势,转移这类风险的需求会更加迫切。另外如果父母在奋斗期未提前准备养老金的话,跨入养老期时,养老金的需求也非常急迫。\n″]}
步骤S12:从用户输入问题中提取出问题关键词,将该问题关键词与ES数据库中存储的ES关键词进行匹配,从ES数据库中筛选出与用户输入问题相关的多个候选问题,并构成候选问题集。
步骤S2:使用基于预训练语言模型BERT的文本嵌入模型将用户输入问题与该候选问题集中的各个候选问题进行精匹配,检索出与用户输入问题最相近的候选问题;
在本步骤中,所述使用基于预训练语言模型BERT的文本嵌入模型将用户输入问题与该候选问题集中的各个候选问题进行精匹配,检索出与用户输入问题最相近的候选问题,包括:
步骤S21:使用基于预训练语言模型BERT的文本嵌入模型计算用户输入问题与该候选问题集中的各个候选问题的词向量;
步骤S22:利用余弦相似度对各个候选问题进行排序,选择与用户输入问题最相近的候选问题;
在本公开的一个实施例中,所述利用余弦相似度对各个候选问题进行排序,选择与用户输入问题最相近的候选问题,包括:
步骤S221:计算用户输入问题与各个候选问题词向量的余弦相似度;
步骤S222:选择余弦相似度最高的候选问题作为与用户输入问题最相近的候选问题。
在本公开的一个实施例中,步骤S221中所述计算用户输入问题与各个候选问题词向量的余弦相似度之后,还包括:按照由高到低的顺序对余弦相似度进行排序。
在本公开的一个实施例中,步骤S222中所述选择余弦相似度最高的候选问题作为与用户输入问题最相近的候选问题之后,还包括:将与用户输入问题最相近的候选问题的回复作为最佳回复并输出。
图1所示的依照本公开实施例的应用于智能问答系统的问题检索方法,对现有应用于智能问答系统的问题检索方法进行了有效地改进,通过采用层次化检索策略,对用户输入问题分别进行粗匹配和精匹配,检索出与用户输入问题最相近的候选问题,并将该最相近的候选问题的回复作为最佳回复输出,使得每一个用户输入问题均能精准匹配到最佳回复,显著提高了问题检索的准确性。
同时,图1所示的依照本公开实施例的应用于智能问答系统的问题检索方法,通过采用层次化检索策略,有效地检索出与用户输入问题最相近的候选问题,并将与用户输入问题最相近的候选问题的回复作为最佳回复输出,使得每一个用户输入问题均能精准匹配到最佳回复,有效解决了现有智能问答系统存在的答非所问的问题,提升了用户满意度。
基于图1所示的依照本公开实施例的应用于智能问答系统的问题检索方法的流程图,图2示意性示出了依照本公开实施例的应用于智能问答系统的问题检索装置的框图。
如图2所示,本公开实施例提供的应用于智能问答系统的问题检索装置200,包括候选问题粗匹配模块201和候选问题精匹配模块202,其中:候选问题粗匹配模块201用于利用关键词将用户输入问题在实时搜索引擎ES数据库中进行粗匹配,检索出与用户输入问题相关的候选问题集;候选问题精匹配模块202用于使用基于预训练语言模型BERT的文本嵌入模型将用户输入问题与该候选问题集中的各个候选问题进行精匹配,检索出与用户输入问题最相近的候选问题。
应当理解,候选问题粗匹配模块201和候选问题精匹配模块202可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。
根据本公开的实施例,候选问题粗匹配模块201和候选问题精匹配模块202中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,候选问题粗匹配模块201和候选问题精匹配模块202中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
图2所示的依照本公开实施例的应用于智能问答系统的问题检索装置的框图,对现有应用于智能问答系统的问题检索方式进行了有效地改进,通过采用层次化检索策略,对用户输入问题分别进行粗匹配和精匹配,检索出与用户输入问题最相近的候选问题,并将该最相近的候选问题的回复作为最佳回复输出,使得每一个用户输入问题均能精准匹配到最佳回复,显著提高了问题检索的准确性。
同时,图2所示的依照本公开实施例的应用于智能问答系统的问题检索装置的框图,通过采用层次化检索策略,有效地检索出与用户输入问题最相近的候选问题,并将与用户输入问题最相近的候选问题的回复作为最佳回复输出,使得每一个用户输入问题均能精准匹配到最佳回复,有效解决了现有智能问答系统存在的答非所问的问题,提升了用户满意度。
基于图1所示的依照本公开实施例的应用于智能问答系统的问题检索方法的流程图以及图2所示的依照本公开实施例的应用于智能问答系统的问题检索装置的框图,图3示意性示出了依照本公开实施例的应用于智能问答系统的问题检索方法的示意图。
如图3所示,本公开实施例提供的应用于智能问答系统的问题检索方法,该方法首先利用关键词将用户输入问题在实时搜索引擎ES数据库中进行粗匹配,检索出与用户输入问题相关的候选问题集;然后使用基于预训练语言模型BERT的文本嵌入模型将用户输入问题与该候选问题集中的各个候选问题进行精匹配,检索出与用户输入问题最相近的候选问题;最后将该最相近的候选问题的回复作为最佳回复输出,使得每一个用户输入问题均能精准匹配到最佳回复,显著提高了问题检索的准确性。
图3所示实施例的应用于智能问答系统的问题检索方法,具体步骤如下:
S31:对保险领域的问答QA数据进行分词并存储在ES数据库中,该分词对应于ES数据库中存储的ES关键词;
S32:接收用户输入问题,从用户输入问题中提取出问题关键词,将该问题关键词与ES数据库中存储的ES关键词进行匹配,从ES数据库中筛选出与用户输入问题相关的多个候选问题,并构成候选问题集;
S33:使用基于预训练语言模型(BERT)的文本嵌入模型计算用户输入问题与该候选问题集中的各个候选问题的词向量;
S34:计算用户输入问题与各个候选问题词向量的余弦相似度,按照由高到低的顺序对余弦相似度进行排序,选择余弦相似度最高的候选问题作为与用户输入问题最相近的候选问题;
S35:将与用户输入问题最相近的候选问题的回复作为最佳回复并输出。
本公开实施例还提供了一种应用于智能问答系统的问题检索设备,如图4所示,图4示意性示出了依照本公开实施例的应用于智能问答系统的问题检索设备400的框图。该应用于智能问答系统的问题检索设备400包括:一个或多个处理器410;存储器420,其存储有计算机可执行程序,该程序在被所述处理器410执行时,使得所述处理器410实现图1所示的应用于智能问答系统的问题检索方法。
具体地,处理器410例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器410还可以包括用于缓存用途的板载存储器。处理器410可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
存储器420,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
存储器420可以包括计算机程序421,该计算机程序421可以包括代码/计算机可执行指令,其在由处理器410执行时使得处理器410执行根据本公开实施例的方法或其任何变形。
计算机程序421可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序421中的代码可以包括至少一个程序模块,例如包括模块421A、模块421B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器410执行时,使得处理器410可以执行根据本公开实施例的方法或其任何变形。
本公开实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的应用于智能问答系统的问题检索方法。
根据本公开的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是一—但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。
本公开还提供了一种计算机程序,该计算机程序包括:计算机可执行指令,所述指令被执行时用于实现根据本公开实施例的应用于智能问答系统的问题检索方法。
至此,已经结合附图对本公开进行了详细描述。依据以上描述,本领域技术人员应当对本公开有了清楚的认识。
需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
当然,根据实际需要,本公开还可以包含其他的部分,由于同本公开的创新之处无关,此处不再赘述。
类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
此外,在附图或说明书描述中,相似或相同的部分都使用相同的图号。说明书中示例的各个实施例中的技术特征在无冲突的前提下可以进行自由组合形成新的方案,另外每个权利要求可以单独作为一个实施例或者各个权利要求中的技术特征可以进行组合作为新的实施例。再者,附图中未绘示或描述的元件或实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。
除非存在技术障碍或矛盾,本公开的上述各种实施方式可以自由组合以形成另外的实施例,这些另外的实施例均在本公开的保护范围中。
虽然结合附图对本公开进行了说明,但是附图中公开的实施例旨在对本公开优选实施方式进行示例性说明,而不能理解为对本公开的一种限制。附图中的尺寸比例仅仅是示意性的,并不能理解为对本公开的限制。
虽然本公开总体构思的一些实施例已被显示和说明,本领域普通技术人员将理解,在不背离本总体公开构思的原则和精神的情况下,可对这些实施例做出改变,本公开的范围以权利要求和它们的等同物限定。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (11)
1.一种应用于智能问答系统的问题检索方法,其特征在于,包括:
利用关键词将用户输入问题在实时搜索引擎ES数据库中进行粗匹配,检索出与用户输入问题相关的候选问题集;
使用基于预训练语言模型BERT的文本嵌入模型将用户输入问题与该候选问题集中的各个候选问题进行精匹配,检索出与用户输入问题最相近的候选问题。
2.根据权利要求1所述的应用于智能问答系统的问题检索方法,其特征在于,所述利用关键词将用户输入问题在实时搜索引擎ES数据库中进行粗匹配,检索出与用户输入问题相关的候选问题集,包括:
对保险领域的问答QA数据进行分词并存储在ES数据库中,该分词对应于ES数据库中存储的ES关键词;
从用户输入问题中提取出问题关键词,将该问题关键词与ES数据库中存储的ES关键词进行匹配,从ES数据库中筛选出与用户输入问题相关的多个候选问题,并构成候选问题集。
3.根据权利要求2所述的应用于智能问答系统的问题检索方法,其特征在于,所述对保险领域的问答QA数据进行分词并存储在ES数据库中的步骤中,存储的数据格式至少包括以下字段:
“question”:问题;
“keywords”:问题关键词;
“max_answer”:最佳回复;
“intention”:问题类别;
“answers”:回复集合。
4.根据权利要求2所述的应用于智能问答系统的问题检索方法,其特征在于,所述使用基于预训练语言模型BERT的文本嵌入模型将用户输入问题与该候选问题集中的各个候选问题进行精匹配,检索出与用户输入问题最相近的候选问题,包括:
使用基于预训练语言模型BERT的文本嵌入模型计算用户输入问题与该候选问题集中的各个候选问题的词向量;
利用余弦相似度对各个候选问题进行排序,选择与用户输入问题最相近的候选问题。
5.根据权利要求4所述的应用于智能问答系统的问题检索方法,其特征在于,所述利用余弦相似度对各个候选问题进行排序,选择与用户输入问题最相近的候选问题,包括:
计算用户输入问题与各个候选问题词向量的余弦相似度;
选择余弦相似度最高的候选问题作为与用户输入问题最相近的候选问题。
6.根据权利要求5所述的应用于智能问答系统的问题检索方法,其特征在于,所述计算用户输入问题与各个候选问题词向量的余弦相似度之后,还包括:
按照由高到低的顺序对余弦相似度进行排序。
7.根据权利要求5所述的应用于智能问答系统的问题检索方法,其特征在于,所述选择余弦相似度最高的候选问题作为与用户输入问题最相近的候选问题之后,还包括:
将与用户输入问题最相近的候选问题的回复作为最佳回复并输出。
8.一种应用于智能问答系统的问题检索装置,其特征在于,包括:
候选问题粗匹配模块,用于利用关键词将用户输入问题在实时搜索引擎ES数据库中进行粗匹配,检索出与用户输入问题相关的候选问题集;
候选问题精匹配模块,用于使用基于预训练语言模型BERT的文本嵌入模型将用户输入问题与该候选问题集中的各个候选问题进行精匹配,检索出与用户输入问题最相近的候选问题。
9.一种应用于智能问答系统的问题检索设备,其特征在于,包括:
一个或多个处理器;
存储器,其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器实现权利要求1-7中任一项所述的应用于智能问答系统的问题检索方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令被执行时实现权利要求1-7中任一项所述的应用于智能问答系统的问题检索方法。
11.一种计算机程序,其特征在于,包括:计算机可执行指令,所述指令被执行时用于实现权利要求1-7中任一项所述的应用于智能问答系统的问题检索方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410166421.5A CN117972065A (zh) | 2021-07-30 | 2021-07-30 | 应用于智能问答系统的问题检索方法、装置、设备及介质 |
CN202110878071.1A CN113590789A (zh) | 2021-07-30 | 2021-07-30 | 应用于智能问答系统的问题检索方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110878071.1A CN113590789A (zh) | 2021-07-30 | 2021-07-30 | 应用于智能问答系统的问题检索方法、装置、设备及介质 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410166421.5A Division CN117972065A (zh) | 2021-07-30 | 2021-07-30 | 应用于智能问答系统的问题检索方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113590789A true CN113590789A (zh) | 2021-11-02 |
Family
ID=78253394
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110878071.1A Pending CN113590789A (zh) | 2021-07-30 | 2021-07-30 | 应用于智能问答系统的问题检索方法、装置、设备及介质 |
CN202410166421.5A Pending CN117972065A (zh) | 2021-07-30 | 2021-07-30 | 应用于智能问答系统的问题检索方法、装置、设备及介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410166421.5A Pending CN117972065A (zh) | 2021-07-30 | 2021-07-30 | 应用于智能问答系统的问题检索方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN113590789A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117240634A (zh) * | 2023-11-16 | 2023-12-15 | 中国科学技术大学 | 一种面向MySQL协议的智能安全蜜罐方法、系统及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153876A (zh) * | 2017-12-26 | 2018-06-12 | 爱因互动科技发展(北京)有限公司 | 智能问答方法及系统 |
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答系统实现方法 |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及系统 |
CN111259647A (zh) * | 2020-01-16 | 2020-06-09 | 泰康保险集团股份有限公司 | 基于人工智能的问答文本匹配方法、装置、介质及电子设备 |
CN111538824A (zh) * | 2020-05-25 | 2020-08-14 | 武汉烽火普天信息技术有限公司 | 一种基于bert的智能问答实现方法及系统 |
CN112667794A (zh) * | 2020-12-31 | 2021-04-16 | 民生科技有限责任公司 | 一种基于孪生网络bert模型的智能问答匹配方法及系统 |
CN112766507A (zh) * | 2021-01-20 | 2021-05-07 | 河海大学 | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 |
CN112765306A (zh) * | 2020-12-30 | 2021-05-07 | 金蝶软件(中国)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
-
2021
- 2021-07-30 CN CN202110878071.1A patent/CN113590789A/zh active Pending
- 2021-07-30 CN CN202410166421.5A patent/CN117972065A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153876A (zh) * | 2017-12-26 | 2018-06-12 | 爱因互动科技发展(北京)有限公司 | 智能问答方法及系统 |
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答系统实现方法 |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及系统 |
CN111259647A (zh) * | 2020-01-16 | 2020-06-09 | 泰康保险集团股份有限公司 | 基于人工智能的问答文本匹配方法、装置、介质及电子设备 |
CN111538824A (zh) * | 2020-05-25 | 2020-08-14 | 武汉烽火普天信息技术有限公司 | 一种基于bert的智能问答实现方法及系统 |
CN112765306A (zh) * | 2020-12-30 | 2021-05-07 | 金蝶软件(中国)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN112667794A (zh) * | 2020-12-31 | 2021-04-16 | 民生科技有限责任公司 | 一种基于孪生网络bert模型的智能问答匹配方法及系统 |
CN112766507A (zh) * | 2021-01-20 | 2021-05-07 | 河海大学 | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117240634A (zh) * | 2023-11-16 | 2023-12-15 | 中国科学技术大学 | 一种面向MySQL协议的智能安全蜜罐方法、系统及设备 |
CN117240634B (zh) * | 2023-11-16 | 2024-03-29 | 中国科学技术大学 | 一种面向MySQL协议的智能安全蜜罐方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117972065A (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885660B (zh) | 一种知识图谱赋能的基于信息检索的问答系统和方法 | |
WO2022022421A1 (zh) | 语言表示模型系统、预训练方法、装置、设备及介质 | |
CN112164391B (zh) | 语句处理方法、装置、电子设备及存储介质 | |
US10720071B2 (en) | Dynamic identification and validation of test questions from a corpus | |
US10957213B2 (en) | Managing answer feasibility | |
CN110532368B (zh) | 问答方法、电子设备及计算机可读存储介质 | |
CN111078837A (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN110956479A (zh) | 基于销售线索交互记录的产品推荐方法 | |
CN111666416A (zh) | 用于生成语义匹配模型的方法和装置 | |
WO2021169485A1 (zh) | 一种对话生成方法、装置及计算机设备 | |
US10552461B2 (en) | System and method for scoring the geographic relevance of answers in a deep question answering system based on geographic context of a candidate answer | |
CN111737544A (zh) | 搜索意图识别方法、装置、电子设备和存储介质 | |
CN111782787A (zh) | 问题生成模型训练方法、问题生成方法 | |
CN116150399A (zh) | 知识图谱问答方法、电子设备及存储介质 | |
KR20200041199A (ko) | 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체 | |
CN112860865A (zh) | 一种智能问答的实现方法、装置、设备及存储介质 | |
CN116882372A (zh) | 文本生成方法、装置、电子设备以及存储介质 | |
CN116610815A (zh) | 一种知识图谱的关系预测方法、装置、设备及存储介质 | |
CN113590789A (zh) | 应用于智能问答系统的问题检索方法、装置、设备及介质 | |
CN112528062A (zh) | 一种跨模态武器检索方法及系统 | |
CN111639160A (zh) | 领域识别的方法、交互的方法、电子设备及存储介质 | |
CN109002475B (zh) | 内容输出方法及系统、计算机系统及计算机可读存储介质 | |
CN115658845A (zh) | 一种适用于开源软件供应链的智能问答方法及装置 | |
CN113590790B (zh) | 应用于多轮问答的问题检索方法、装置、设备及介质 | |
CN114186048A (zh) | 基于人工智能的问答回复方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |