CN112632255B - 一种获取问答结果的方法及装置 - Google Patents

一种获取问答结果的方法及装置 Download PDF

Info

Publication number
CN112632255B
CN112632255B CN202011586960.2A CN202011586960A CN112632255B CN 112632255 B CN112632255 B CN 112632255B CN 202011586960 A CN202011586960 A CN 202011586960A CN 112632255 B CN112632255 B CN 112632255B
Authority
CN
China
Prior art keywords
question
similarity
candidate question
answering
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011586960.2A
Other languages
English (en)
Other versions
CN112632255A (zh
Inventor
董逸晨
李金凯
王冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Visual Technology Co Ltd
Original Assignee
Hisense Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Visual Technology Co Ltd filed Critical Hisense Visual Technology Co Ltd
Priority to CN202011586960.2A priority Critical patent/CN112632255B/zh
Publication of CN112632255A publication Critical patent/CN112632255A/zh
Application granted granted Critical
Publication of CN112632255B publication Critical patent/CN112632255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及问答系统技术领域,提供一种获取问答结果的方法及装置,用以解决传统问答系统无法准确获取与用户提问相关的问答结果的问题,其中,方法包括:获取用户发送的请求信息,并将请求信息发送给至少一个问答系统;在接收到至少两个问答系统返回的候选问答结果时,分别对请求信息与至少两个候选问答结果之间进行相似度匹配,得到对应的第一相似度;基于超过预设第一阈值的第一相似度对应的候选问答结果,确定请求信息的目标问答结果。当接收到两个及两个以上的候选问答结果时,通过相似度计算,确定每个候选问答结果与请求信息之间的第一相似度,选出与请求信息关联度高的问答结果,提高了获取答案的准确率。

Description

一种获取问答结果的方法及装置
技术领域
本申请涉及问答系统技术领域,提供了一种获取问答结果的方法及装置。
背景技术
问答系统(Question Answering System,QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。问答系统是人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。
目前存在两种类型的问答系统,一种是自研问答系统,另一种是自研问答系统结合第三方问答系统。在使用这两类问答系统时会产生以下问题:
若在训练自研问答系统时,针对某个领域采集的问答数据较少,那么自研问答系统在该领域中的问答覆盖面比较少,会出现无法回复用户提问的情况。而在使用自研问答系统结合第三方问答系统时,自研问答系统无法判断何时采取自身系统输出的问答结果,何时调用第三方问答系统搜索答案,以及在获取到来自不同第三方问答系统的问答结果时,自研问答系统总是选取优先级最高的第三方问答系统返回的问答结果,可能会出现答非所问的情况。
有鉴于此,本申请实施例提供了一种获取问答结果的方法及装置。
发明内容
本申请实施例提供一种获取问答结果的方法及装置,以解决传统问答系统无法准确获取与用户提问相关的问答结果的问题。
第一方面,本申请实施例提供的一种获取问答结果的方法,包括:
获取用户发送的请求信息,并将所述请求信息发送给至少一个问答系统;
在接收到所述至少两个问答系统返回的候选问答结果时,分别对所述请求信息与至少两个候选问答结果之间进行相似度匹配,得到对应的第一相似度;
基于超过预设第一阈值的第一相似度对应的候选问答结果,确定所述请求信息的目标问答结果。
可选的,分别对所述请求信息与至少两个候选问答结果之间进行相似度匹配,得到对应的第一相似度,包括:
针对一个候选问答结果执行以下操作:
对所述请求信息和所述一个候选问答结果进行预处理;
对预处理后的请求信息和预处理后的一个候选问答结果进行分词处理,并获得所述预处理后的请求信息的词频向量,和所述预处理后的一个候选问答结果的综合向量;其中,所述词频向量是基于所述预处理后的请求信息中各个词的词频得到的,所述综合向量是基于所述预处理后的一个候选问答结果中各个词的综合权重得到的,一个综合权重是基于一个词的词频与逆文档频率得到的;
基于所述词频向量与所述综合向量进行余弦相似度计算,得到第二相似度;
基于所述第二相似度与一个问答系统的预设置信度,得到所述第一相似度;其中,所述一个问答系统是输出所述一个候选问答结果的系统。
可选的,在得到对应的第一相似度之后,进一步包括:
若第一相似度均低于第一阈值,且候选问答结果总数量低于预设第二阈值,则将第一相似度最大值对应的候选问答结果,确定为所述目标问答结果;
否则,将候选问答结果两两组合,并分别对各个候选问答结果对进行相似度匹配,得到对应的第三相似度;基于第三相似度最大值对应的候选问答结果对,确定所述目标问答结果。
可选的,分别对各个候选问答结果对进行相似度匹配,得到对应的第三相似度,包括:
针对一个候选问答结果对执行以下操作:
对所述一个候选问答结果对中的第一候选问答结果和第二候选问答结果进行预处理;
对预处理后的第一候选问答结果和预处理后的第二候选问答结果进行分词处理,并分别获得所述预处理后的第一候选问答结果和所述预处理后的第二候选问答结果的综合向量;
基于两个综合向量进行余弦相似度计算,得到第三相似度。
可选的,基于第三相似度最大值对应的候选问答结果对,确定所述目标问答结果,包括:
基于所述候选问答结果对中第三候选问答结果的第三相似度和对应问答系统的预设置信度,得到所述第三候选问答结果的第四相似度,以及基于所述候选问答结果对中第四候选问答结果的第三相似度和对应问答系统的预设置信度,得到所述第四候选问答结果的第四相似度;
将第四相似度最大值对应的候选问答结果,确定为所述目标问答结果。
第二方面,本申请实施例还提供了一种获取问答结果的装置,包括:
获取模块,用于获取用户发送的请求信息,并将所述请求信息发送给至少一个问答系统;
决策模块,用于在接收到所述至少两个问答系统返回的候选问答结果时,分别对所述请求信息与至少两个候选问答结果之间进行相似度匹配,得到对应的第一相似度;
基于超过预设第一阈值的第一相似度对应的候选问答结果,确定所述请求信息的目标问答结果。
可选的,所述决策模块用于:
针对一个候选问答结果执行以下操作:
对所述请求信息和所述一个候选问答结果进行预处理;
对预处理后的请求信息和预处理后的一个候选问答结果进行分词处理,并获得所述预处理后的请求信息的词频向量,和所述预处理后的一个候选问答结果的综合向量;其中,所述词频向量是基于所述预处理后的请求信息中各个词的词频得到的,所述综合向量是基于所述预处理后的一个候选问答结果中各个词的综合权重得到的,一个综合权重是基于一个词的词频与逆文档频率得到的;
基于所述词频向量与所述综合向量进行余弦相似度计算,得到第二相似度;
基于所述第二相似度与一个问答系统的预设置信度,得到所述第一相似度;其中,所述一个问答系统是输出所述一个候选问答结果的系统。
可选的,在得到对应的第一相似度之后,所述决策模块进一步用于:
若第一相似度均低于第一阈值,且候选问答结果总数量低于预设第二阈值,则将第一相似度最大值对应的候选问答结果,确定为所述目标问答结果;
否则,将候选问答结果两两组合,并分别对各个候选问答结果对进行相似度匹配,得到对应的第三相似度;基于第三相似度最大值对应的候选问答结果对,确定所述目标问答结果。
可选的,所述决策模块用于:
针对一个候选问答结果对执行以下操作:
对所述一个候选问答结果对中的第一候选问答结果和第二候选问答结果进行预处理;
对预处理后的第一候选问答结果和预处理后的第二候选问答结果进行分词处理,并分别获得所述预处理后的第一候选问答结果和所述预处理后的第二候选问答结果的综合向量;
基于两个综合向量进行余弦相似度计算,得到第三相似度。
可选的,所述决策模块用于:
基于所述候选问答结果对中第三候选问答结果的第三相似度和对应问答系统的预设置信度,得到所述第三候选问答结果的第四相似度,以及基于所述候选问答结果对中第四候选问答结果的第三相似度和对应问答系统的预设置信度,得到所述第四候选问答结果的第四相似度;
将第四相似度最大值对应的候选问答结果,确定为所述目标问答结果。
第三方面,本申请实施例还提供了一种电子设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种获取问答结果的方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行上述任意一种获取问答结果的方法的步骤。
本申请有益效果如下:
本申请实施例提供的一种获取问答结果的方法及装置,获取用户发送的请求信息,并将请求信息发送给至少一个问答系统;在接收到至少两个问答系统返回的候选问答结果时,分别对请求信息与至少两个候选问答结果之间进行相似度匹配,得到对应的第一相似度;基于超过预设第一阈值的第一相似度对应的候选问答结果,确定请求信息的目标问答结果。当接收到两个及两个以上的候选问答结果时,通过相似度计算,确定每个候选问答结果与请求信息之间的第一相似度,并从第一相似度较高的候选问答结果中,选出目标问答结果,这样可以在接收到多个来源不同的问答结果时,选出与请求信息关联度高的问答结果,提高了获取答案的准确率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为获取问答结果方法的流程示意图;
图2为计算一个候选问答结果X与请求信息之间的第一相似度的流程示意图;
图3为计算一个候选问答结果对Y的第三相似度的流程示意图;
图4为获取问答结果的装置的结构示意图;
图5为电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。
目前存在两种类型的问答系统,一种是自研问答系统,顾名思义,即对开发人员采集到的问答数据进行文本清洗、填充处理后得到问答对,基于多个问答对和知识图谱训练得到的问答系统,一旦针对某个领域采集的问答数据较少,那么自研问答系统从该领域中学习到的内容较少,对该领域的问答覆盖面比较少,可能会出现无法回复用户提问的情况;另一种是自研问答系统结合第三方问答系统,在这种方式里虽然增加了获取问答结果的渠道,但是在整个系统中没有执行决策的模块,即无法判断何时采取自研问答系统输出的问答结果,何时调用第三方问答系统搜索答案,以及在获取到来自不同第三方问答系统的问答结果时,仅以第三方系统的优先级作为唯一的评判标准,可能会出现答非所问的情况。有鉴于此,本申请实施例提出了一种新的获取问答结果的方法。
参阅图1示出的流程示意图,对获取问答结果的过程进行详细介绍。
S101:获取用户发送的请求信息,并将请求信息发送给至少一个问答系统。
在本申请实施例中,请求信息是文本内容,多数情况下是一句或者一段包含主谓宾结构的问句,也有可能是一句省略主语的简短问句,如“几点了?”。将请求信息发送给至少一个问答系统,问答系统根据输入的请求信息,从网络中或者自身内部数据库中检索到与该提问有关的答案(即本申请实施例中的候选问答结果),并将问答结果反馈给决策模块。
S102:在接收到至少两个问答系统返回的候选问答结果时,分别对请求信息与至少两个候选问答结果之间进行相似度匹配,得到对应的第一相似度。
假设,共有三个问答系统,每个问答系统返回一个候选问答结果,那么此时应有三个候选问答结果,则分别计算(请求信息,候选问答结果1)、(请求信息,候选问答结果2)和(请求信息,候选问答结果3)的第一相似度。由于每个候选问答结果与请求信息之间的相似度计算步骤都是一样的,为了便于描述和理解,以一个候选问答结果X为例,参阅图2示出的流程示意图,对计算一个第一相似度的过程进行介绍。
S1021:对请求信息和候选问答结果X进行预处理。
根据上述介绍可知,请求信息和候选问答结果X都是文本内容,通常来说,在一段话中除了关键词出现频率较高之外,常用语气词(如,啊、吧、哈等等)和停用词(如,的、地、得、了等等)出现频率也比较高,但常用语气词和停用词对于理解这段话想表达的核心思想是没有意义的,因此,对于决策模块来说,这些词属于冗余的文本信息,需要通过文本清洗的方式,从请求信息和候选问答结果X中剔除这些词,以免对后续的决策判断产生不良影响。
S1022:对预处理后的请求信息和预处理后的候选问答结果X进行分词处理,并获得预处理后的请求信息的词频向量,和预处理后的候选问答结果的综合向量;其中,词频向量是基于预处理后的请求信息中各个词的词频得到的,综合向量是基于预处理后的候选问答结果X中各个词的综合权重得到的,一个综合权重是基于一个词的词频与逆文档频率得到的。
首先,是对两个文本内容进行分词处理,得到第一词序列和第二词序列,其中,第一词序列是基于预处理后的请求信息得到的,第二词序列是基于预处理后的候选问答结果X得到的,一个词序列的格式形如[中国,蜜蜂,养殖];
其次,计算第一词序列中的各个词的词频,得到第一词序列的词频向量,以及采用词频-逆文本频率指数(Term Frequency–Inverse Document Frequency,TF-IDF)算法,计算第二词序列中各个词的综合向量。
TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术,该算法的主要思想是,如果某个词或者短语在一个文档中出现的频率越高(即TF高),且在其他文档中很少出现(即IDF高),则认为这个词或者短语具有很好的类别区分能力,适合用来分类。
词频,顾名思义,指的是一个词或者短语在一个文档中出现的频次,但因为文档的长度对词或者短语出现的频次影响很大,因此,需要对词频进行归一化。词频的计算公式为:
Figure BDA0002867443830000081
逆文档频率指的是,如果一个词或者短语在其他文档中出现的频次越少,说明这个词或者短语对文档的区分能力越强。逆文档频率的计算公式为:
Figure BDA0002867443830000082
分母加1是采用了拉普拉斯平滑,避免部分新词没有在语料库中出现过而导致分母为0的情况出现,增强了算法的健壮性。
而词频与逆文档频率的乘积是综合权重,表征了这个词或者短语对文章的重要性。综合权重越大,表征这个词或者短语对文章的重要性越高;反之,表征这个词或者短语对文章的重要性越低。
S1023:基于词频向量与综合向量进行余弦相似度计算,得到第二相似度。
余弦相似度的基本思想是,将词频向量和综合向量想象成是空间中从原点出发的两条线段,由于两条线段拥有共同点——原点,那么在两条线段之间将会形成一个夹角,如果夹角为0度,说明两条线段方向相同、线段重合;如果夹角为90度,说明两条线段形成直角,方向完全不相似;如果夹角为180度,说明两条线段的方向完全相反,因此,可以根据夹角的大小,来判断向量的相似程度。余弦值越接近1,说明夹角越接近0度,也说明两个向量越相似。
假设A是n维的词频向量[A1,A2,…,An],B是n维的综合向量[B1,B2,…,Bn](由于两个向量只有在维数相同的情况下才能进行线性计算,如果出现两个向量维数不同的情况,需要以两者之间的维数最大值为基准,先将另一个向量缺少的维数补为0),则A与B之间夹角的余弦计算公式为:
Figure BDA0002867443830000091
Figure BDA0002867443830000092
例如,A为[1,2,2,1,1,1,0],B为[1,2,2,1,1,2,1],则
Figure BDA0002867443830000093
S1024:基于第二相似度与一个问答系统的预设置信度,得到第一相似度;其中,一个问答系统是输出候选问答结果X的系统。
将第二相似度与预设置信度的乘积,确定为第一相似度。第二相似度越高,说明候选问答结果与请求信息之间的匹配度越高,预设置信度越高,说明问答系统输出的结果可信度越高,那么基于第二相似度和预设置信度得到的第一相似度越高,说明对应的候选问答结果的匹配度、可信度均很高,作为目标问答结果输出的概率也会更大。
在得到对应的第一相似度之后,若存在一个或者多个超过第一阈值的第一相似度,则执行步骤103;
若第一相似度均低于第一阈值,且候选问答结果总数量低于预设第二阈值,则将第一相似度最大值对应的候选问答结果,确定为目标问答结果;
否则,将候选问答结果两两组合,并分别对各个候选问答结果对进行相似度匹配,得到对应的第三相似度;基于第三相似度最大值对应的候选问答结果对,确定目标问答结果。
假定第一阈值设为0.8,第二阈值设为3,共返回2个候选问答结果,候选问答结果1的第一相似度是0.5,候选问答结果2的第一相似度是0.67,则将候选问答结果2确定为目标问答结果。
假定第一阈值设为0.8,第二阈值设为3,共返回3个候选问答结果,且每个候选问答结果的第一相似度均低于0.8,经过排列组合后得到以下3组,(候选问答结果1,候选问答结果2)、(候选问答结果1,候选问答结果3)和(候选问答结果2,候选问答结果3),分别计算上述三组的第三相似度,选出相似度最高的一组候选问答结果,再从这组中确定出目标问答结果。
由于每组候选问答结果的相似度计算步骤都是一样的,为了便于描述和理解,以一个候选问答结果对Y为例,参阅图3示出的流程示意图,对计算一个第三相似度的过程进行介绍。
S301:对候选问答结果对Y中的第一候选问答结果和第二候选问答结果进行预处理。
预处理的方式就是步骤1021里介绍的文本清洗的方式,具体的操作过程上述已经介绍过了,在此不再赘述。
S302:对预处理后的第一候选问答结果和预处理后的第二候选问答结果进行分词处理,并分别获得预处理后的第一候选问答结果和预处理后的第二候选问答结果的综合向量。
首先,是对两个文本内容进行分词处理,得到第三词序列和第四词序列,其中,第三词序列是基于预处理后的第一候选问答结果得到的,第四词序列是基于预处理后的第二候选问答结果得到的;
其次,采用TF-IDF算法,分别计算第三词序列和第四词序列中各个词的综合向量。具体的计算过程和计算公式在步骤1022中已经介绍过了,在此不再赘述。
S303:基于两个综合向量进行余弦相似度计算,得到第三相似度。
余弦相似度的计算过程和计算公式已经在步骤1023中介绍过了,在此不再赘述。
S103:基于超过预设第一阈值的第一相似度对应的候选问答结果,确定请求信息的目标问答结果。
若存在一个超过第一阈值的第一相似度,则将该第一相似度对应的候选问答结果,确定为目标问答结果;
若存在两个及两个以上超过第一阈值的第一相似度,则随机选取一个第一相似度,将其对应的候选问答结果确定为目标问答结果;当然,在这种情况下,还有一种更优的实施例方式,那便是将第一相似度最大值对应的候选问答结果,确定为目标问答结果。
可选的,在选出相似度最高的一组候选问答结果后,需要根据对应问答系统的预设置信度,从该组候选问答结果中确定出目标问答结果。具体过程如下:
首先,基于候选问答结果对中第三候选问答结果的第三相似度和对应问答系统的预设置信度,得到第三候选问答结果的第四相似度,以及基于候选问答结果对中第四候选问答结果的第三相似度和对应问答系统的预设置信度,得到第四候选问答结果的第四相似度;
其次,将第四相似度最大值对应的候选问答结果,确定为目标问答结果。
在计算第四相似度时,是将第三相似度与预设置信度的乘积确定为第四相似度的,这样可以选出候选问答结果中匹配度和可信度最高的,保证了答案的准确性。
参阅图4示出的结构示意图,获取问答结果的装置可以包括获取模块401和决策模块402,其中,
获取模块401,用于获取用户发送的请求信息,并将所述请求信息发送给至少一个问答系统;
决策模块402,用于在接收到所述至少两个问答系统返回的候选问答结果时,分别对所述请求信息与至少两个候选问答结果之间进行相似度匹配,得到对应的第一相似度;
基于超过预设第一阈值的第一相似度对应的候选问答结果,确定所述请求信息的目标问答结果。
可选的,所述决策模块402用于:
针对一个候选问答结果执行以下操作:
对所述请求信息和所述一个候选问答结果进行预处理;
对预处理后的请求信息和预处理后的一个候选问答结果进行分词处理,并获得所述预处理后的请求信息的词频向量,和所述预处理后的一个候选问答结果的综合向量;其中,所述词频向量是基于所述预处理后的请求信息中各个词的词频得到的,所述综合向量是基于所述预处理后的一个候选问答结果中各个词的综合权重得到的,一个综合权重是基于一个词的词频与逆文档频率得到的;
基于所述词频向量与所述综合向量进行余弦相似度计算,得到第二相似度;
基于所述第二相似度与一个问答系统的预设置信度,得到所述第一相似度;其中,所述一个问答系统是输出所述一个候选问答结果的系统。
可选的,在得到对应的第一相似度之后,所述决策模块402进一步用于:
若第一相似度均低于第一阈值,且候选问答结果总数量低于预设第二阈值,则将第一相似度最大值对应的候选问答结果,确定为所述目标问答结果;
否则,将候选问答结果两两组合,并分别对各个候选问答结果对进行相似度匹配,得到对应的第三相似度;基于第三相似度最大值对应的候选问答结果对,确定所述目标问答结果。
可选的,所述决策模块402用于:
针对一个候选问答结果对执行以下操作:
对所述一个候选问答结果对中的第一候选问答结果和第二候选问答结果进行预处理;
对预处理后的第一候选问答结果和预处理后的第二候选问答结果进行分词处理,并分别获得所述预处理后的第一候选问答结果和所述预处理后的第二候选问答结果的综合向量;
基于两个综合向量进行余弦相似度计算,得到第三相似度。
可选的,所述决策模块402用于:
基于所述候选问答结果对中第三候选问答结果的第三相似度和对应问答系统的预设置信度,得到所述第三候选问答结果的第四相似度,以及基于所述候选问答结果对中第四候选问答结果的第三相似度和对应问答系统的预设置信度,得到所述第四候选问答结果的第四相似度;
将第四相似度最大值对应的候选问答结果,确定为所述目标问答结果。
在一些可能的实施方式中,本申请实施例还提供一种电子设备,参阅图5所示,电子设备可以至少包括至少一个处理器501、以及至少一个存储器502。其中,存储器502存储有程序代码,当程序代码被处理器501执行时,使得处器501执行本说明书上述描述的根据本申请各种示例性实施方式的获取问答结果的方法中的步骤。例如,处理器501可以执行如图1中所示的步骤。
在一些可能的实施方式中,本申请提供的获取问答结果的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的获取问答结果的方法中的步骤,例如,电子设备可以执行如图1中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于业务控制的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中,远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置,或者,可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (9)

1.一种获取问答结果的方法,其特征在于,包括:
获取用户发送的请求信息,并将所述请求信息发送给至少一个问答系统;
在接收到至少两个问答系统返回的候选问答结果时,分别对所述请求信息与至少两个候选问答结果之间进行相似度匹配,得到对应的第一相似度;其中,针对一个候选问答结果执行以下操作:对所述请求信息进行向量化处理,获得词频向量,以及对所述一个候选问答结果进行向量化处理,获得综合向量,通过对所述词频向量与所述综合向量进行余弦相似度计算,获得第二相似度,并基于所述第二相似度与输出所述一个候选问答结果的问答系统的预设置信度,获得相应的第一相似度;
当存在至少一个超过预设第一阈值的第一相似度时,基于超过所述第一阈值的第一相似度对应的候选问答结果,确定所述请求信息的目标问答结果;
当各第一相似度均低于所述第一阈值,且候选问答结果总数量不小于第二阈值时,将获得的各候选问答结果两两组合,生成多个候选问答结果对,分别确定各候选问答结果对各自的第三相似度;
基于第三相似度最大值对应的候选问答结果对中第三候选问答结果的第三相似度和对应问答系统的预设置信度,得到所述第三候选问答结果的第四相似度,以及基于所述候选问答结果对中第四候选问答结果的第三相似度和对应问答系统的预设置信度,得到所述第四候选问答结果的第四相似度;
将第四相似度最大值对应的候选问答结果,确定为目标问答结果。
2.如权利要求1所述的方法,其特征在于,对所述请求信息和所述一个候选问答结果进行向量化处理,分别得到相应的词频向量与综合向量,包括:
对所述请求信息和所述一个候选问答结果进行预处理;
对预处理后的请求信息和预处理后的一个候选问答结果进行分词处理,并获得所述预处理后的请求信息的词频向量,和所述预处理后的一个候选问答结果的综合向量;其中,所述词频向量是基于所述预处理后的请求信息中各个词的词频得到的,所述综合向量是基于所述预处理后的一个候选问答结果中各个词的综合权重得到的,一个综合权重是基于一个词的词频与逆文档频率得到的。
3.如权利要求1所述的方法,其特征在于,在得到对应的第一相似度之后,进一步包括:
当所述各第一相似度均低于第一阈值,且候选问答结果总数量低于预设第二阈值,则将第一相似度最大值对应的候选问答结果,确定为所述目标问答结果。
4.如权利要求1所述的方法,其特征在于,分别确定各候选问答结果对各自的第三相似度,包括:
针对一个候选问答结果对执行以下操作:
对所述一个候选问答结果对中的第一候选问答结果和第二候选问答结果进行预处理;
对预处理后的第一候选问答结果和预处理后的第二候选问答结果进行分词处理,并分别获得所述预处理后的第一候选问答结果和所述预处理后的第二候选问答结果的综合向量;
基于两个综合向量进行余弦相似度计算,得到第三相似度。
5.一种获取问答结果的装置,其特征在于,包括:
获取模块,用于获取用户发送的请求信息,并将所述请求信息发送给至少一个问答系统;
决策模块,用于在接收到至少两个问答系统返回的候选问答结果时,分别对所述请求信息与至少两个候选问答结果之间进行相似度匹配,得到对应的第一相似度;其中,针对一个候选问答结果执行以下操作:对所述请求信息进行向量化处理,获得词频向量,以及对所述一个候选问答结果进行向量化处理,获得综合向量,通过对所述词频向量与所述综合向量进行余弦相似度计算,获得第二相似度,并基于所述第二相似度与输出所述一个候选问答结果的问答系统的预设置信度,获得相应的第一相似度;
当存在至少一个超过预设第一阈值的第一相似度时,基于超过所述第一阈值的第一相似度对应的候选问答结果,确定所述请求信息的目标问答结果;
当各第一相似度均低于所述第一阈值,且候选问答结果总数量不小于第二阈值时,将获得的各候选问答结果两两组合,生成多个候选问答结果对,分别确定各候选问答结果对各自的第三相似度;
基于第三相似度最大值对应的候选问答结果对中第三候选问答结果的第三相似度和对应问答系统的预设置信度,得到所述第三候选问答结果的第四相似度,以及基于所述候选问答结果对中第四候选问答结果的第三相似度和对应问答系统的预设置信度,得到所述第四候选问答结果的第四相似度;
将第四相似度最大值对应的候选问答结果,确定为目标问答结果。
6.如权利要求5所述的装置,其特征在于,所述决策模块用于:
对所述请求信息和所述一个候选问答结果进行预处理;
对预处理后的请求信息和预处理后的一个候选问答结果进行分词处理,并获得所述预处理后的请求信息的词频向量,和所述预处理后的一个候选问答结果的综合向量;其中,所述词频向量是基于所述预处理后的请求信息中各个词的词频得到的,所述综合向量是基于所述预处理后的一个候选问答结果中各个词的综合权重得到的,一个综合权重是基于一个词的词频与逆文档频率得到的。
7.如权利要求5所述的装置,其特征在于,在得到对应的第一相似度之后,所述决策模块进一步用于:
当所述各第一相似度均低于第一阈值,且候选问答结果总数量低于预设第二阈值,则将第一相似度最大值对应的候选问答结果,确定为所述目标问答结果。
8.如权利要求5所述的装置,其特征在于,所述决策模块用于:
针对一个候选问答结果对执行以下操作:
对所述一个候选问答结果对中的第一候选问答结果和第二候选问答结果进行预处理;
对预处理后的第一候选问答结果和预处理后的第二候选问答结果进行分词处理,并分别获得所述预处理后的第一候选问答结果和所述预处理后的第二候选问答结果的综合向量;
基于两个综合向量进行余弦相似度计算,得到第三相似度。
9.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~4中任一项所述方法的步骤。
CN202011586960.2A 2020-12-29 2020-12-29 一种获取问答结果的方法及装置 Active CN112632255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011586960.2A CN112632255B (zh) 2020-12-29 2020-12-29 一种获取问答结果的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011586960.2A CN112632255B (zh) 2020-12-29 2020-12-29 一种获取问答结果的方法及装置

Publications (2)

Publication Number Publication Date
CN112632255A CN112632255A (zh) 2021-04-09
CN112632255B true CN112632255B (zh) 2023-07-14

Family

ID=75286199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011586960.2A Active CN112632255B (zh) 2020-12-29 2020-12-29 一种获取问答结果的方法及装置

Country Status (1)

Country Link
CN (1) CN112632255B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303919A (zh) * 2022-11-30 2023-06-23 荣耀终端有限公司 一种问答方法及系统
CN116860951B (zh) * 2023-09-04 2023-11-14 贵州中昂科技有限公司 一种基于人工智能的信息咨询服务管理方法及管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815482A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 一种新闻交互的方法、装置、设备和计算机存储介质
CN111723308A (zh) * 2020-06-22 2020-09-29 北京环球优路教育科技股份有限公司 一种基于互联网的教育信息搜索系统
CN111782794A (zh) * 2020-05-29 2020-10-16 北京沃东天骏信息技术有限公司 问答响应方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9607035B2 (en) * 2014-05-21 2017-03-28 International Business Machines Corporation Extensible validation framework for question and answer systems
CN105159996B (zh) * 2015-09-07 2018-09-07 百度在线网络技术(北京)有限公司 基于人工智能的深度问答服务提供方法和装置
CN107357855B (zh) * 2017-06-29 2018-06-08 北京神州泰岳软件股份有限公司 支持场景关联的智能问答方法及装置
CN107908803B (zh) * 2017-12-26 2020-10-27 上海智臻智能网络科技股份有限公司 问答交互的响应方法及装置、存储介质、终端
CN111159363A (zh) * 2018-11-06 2020-05-15 航天信息股份有限公司 一种基于知识库的问题答案确定方法及装置
CN111782789A (zh) * 2020-07-03 2020-10-16 江苏瀚涛软件科技有限公司 智能问答方法与系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815482A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 一种新闻交互的方法、装置、设备和计算机存储介质
CN111782794A (zh) * 2020-05-29 2020-10-16 北京沃东天骏信息技术有限公司 问答响应方法和装置
CN111723308A (zh) * 2020-06-22 2020-09-29 北京环球优路教育科技股份有限公司 一种基于互联网的教育信息搜索系统

Also Published As

Publication number Publication date
CN112632255A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN110647614B (zh) 智能问答方法、装置、介质及电子设备
CN109086303B (zh) 基于机器阅读理解的智能对话方法、装置、终端
US20190057164A1 (en) Search method and apparatus based on artificial intelligence
CN106960030B (zh) 基于人工智能的推送信息方法及装置
CN112035730B (zh) 一种语义检索方法、装置及电子设备
CN110598078B (zh) 数据检索方法及装置、计算机可读存储介质、电子设备
CN113239169B (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
US20210056127A1 (en) Method for multi-modal retrieval and clustering using deep cca and active pairwise queries
CN110990533B (zh) 确定查询文本所对应标准文本的方法及装置
CN111159359A (zh) 文档检索方法、装置及计算机可读存储介质
CN112632255B (zh) 一种获取问答结果的方法及装置
US11461613B2 (en) Method and apparatus for multi-document question answering
US10970488B2 (en) Finding of asymmetric relation between words
CN111611452A (zh) 搜索文本的歧义识别方法、系统、设备及存储介质
CN111428027A (zh) 查询意图确定方法及相关装置
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN114003682A (zh) 一种文本分类方法、装置、设备及存储介质
US20180285742A1 (en) Learning method, learning apparatus, and storage medium
CN109902152B (zh) 用于检索信息的方法和装置
CN117609479B (zh) 一种模型处理方法、装置、设备、介质及产品
CN112599211A (zh) 一种医疗实体关系抽取方法及装置
CN115033683B (zh) 摘要生成方法、装置、设备及存储介质
CN116108181A (zh) 客户信息的处理方法、装置及电子设备
CN113792131B (zh) 一种关键词的提取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant