CN110175241A - 问答库构建方法、装置、电子设备及计算机可读介质 - Google Patents

问答库构建方法、装置、电子设备及计算机可读介质 Download PDF

Info

Publication number
CN110175241A
CN110175241A CN201910433697.4A CN201910433697A CN110175241A CN 110175241 A CN110175241 A CN 110175241A CN 201910433697 A CN201910433697 A CN 201910433697A CN 110175241 A CN110175241 A CN 110175241A
Authority
CN
China
Prior art keywords
inquiry
inquiry message
label
intended
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910433697.4A
Other languages
English (en)
Other versions
CN110175241B (zh
Inventor
王卓然
亓超
马宇驰
郭伟
陈华荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Triangle Animal (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Triangle Animal (beijing) Technology Co Ltd filed Critical Triangle Animal (beijing) Technology Co Ltd
Priority to CN201910433697.4A priority Critical patent/CN110175241B/zh
Publication of CN110175241A publication Critical patent/CN110175241A/zh
Application granted granted Critical
Publication of CN110175241B publication Critical patent/CN110175241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种问答库构建方法、装置、电子设备及计算机可读介质,所述方法包括:获取多个询问信息及每个询问信息对应的询问应答,确定每个询问信息所对应的询问意图;基于询问意图对多个询问信息进行分类,得到多个询问信息集合;针对每个询问信息集合,基于询问信息集合内多个询问信息确定询问标签,在与询问信息对应的多个询问应答中确定最优应答;将每个询问信息集合确定的询问标签、多个询问信息及最优应答对应的存入问答库。本发明对于同一询问意图的不同描述,问答库中均存在对应的询问标签,进而便于根据询问标签找出最优问题。

Description

问答库构建方法、装置、电子设备及计算机可读介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种问答库构建方法、装置、电子设备及计算机可读介质。
背景技术
目前,现有技术中问答库构建的方式为,获取问题以及问题对应的答案,将获取的问题以及问题对应的答案放入问答库中建立起来,在接收到用户问题时,会将用户问题与问答库中的问题进行匹配,查找问题的相似度,以根据问题的相似度寻找用户问题对应的答案。
但是采用当前方法,对于银行问题查询、查话费账单等问答库中的内容较少(问题以及问题对应的答案较少)时,将用户问题与问答库中的问题进行匹配时,很难找到与用户问题对应的相似问题。因此反馈给用户问题对应的答案经常不准确。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明提供了一种问答库构建方法、装置、电子设备及计算机可读介质。
第一方面,本发明提供了一种问答库构建方法,包括:
获取多个询问信息及每个询问信息对应的询问应答;
确定每个询问信息所对应的询问意图,所述询问意图用于反映每个询问信息的目的;
基于询问意图对多个所述询问信息进行分类,得到多个询问信息集合,所述询问信息集合与所述询问意图一一对应;
针对每个询问信息集合,基于所述询问信息集合内多个询问信息确定询问标签,在与询问信息对应的多个询问应答中确定最优应答;
将每个所述询问信息集合确定的所述询问标签、多个所述询问信息及所述最优应答对应的存入问答库。
可选地,所述方法还包括:
若接收到用户输入的待应答询问信息,提取所述待应答询问信息的意图特征;
将所述意图特征与所述问答库中的各询问标签进行相似度计算;
确定所述问答库中与所述意图特征相似度最高的询问标签为目标询问标签;
在问答库中查找与所述目标询问标签对应的最优应答;
将所述最优应答确定为响应于所述待应答询问信息的询问应答,并输出。
可选地,所述方法还包括:
判断所述待应答询问信息是否在与所述目标询问标签对应的询问信息集合中;
若所述待应答询问信息不在与所述目标询问标签对应的询问信息集合中,将所述待应答询问信息加入到所述与所述目标询问标签对应的询问信息集合中。
可选地,在将所述待应答询问信息加入到所述与所述目标询问标签对应的询问信息集合中后,所述方法还包括:
对所述待应答询问信息进行分词;
重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;
基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
可选地,在将所述待应答询问信息加入到所述与所述目标询问标签对应的询问信息集合中后,所述方法还包括:
在预设的包含多个词语和意图特征之间对应关系的词语意图集合中,获取与所述待应答询问信息的意图特征对应的词语;
将获取的词语加入与所述目标询问标签对应的询问信息集合中;
重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;
基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
可选地,确定每个询问信息所对应的询问意图,包括:
针对每个询问信息,提取所述询问信息中的关键词;
将所述关键词与预设意图集合中的各参考意图进行匹配;
将匹配度超过预设匹配度阈值的参考意图确定为所述询问信息的询问意图。
可选地,基于询问意图对多个所述询问信息进行分类,得到多个询问信息集合,所述询问信息集合与所述询问意图一一对应,包括:
将多个询问信息所对应的询问意图中互不相同的询问意图确定为目标意图;
为目标意图建立对应的询问信息集合;
针对每个询问信息,将询问信息的询问意图分别与所述目标意图对比;
若询问信息的询问意图与任一所述目标意图相同,将所述询问信息加入与该目标意图对应的询问信息集合。
可选地,针对每个询问信息集合,基于所述询问信息集合内多个询问信息确定询问标签,包括:
针对每个询问信息集合,对所述询问信息集合内多个询问信息分别进行分词;
统计分词得到的各个词语的出现次数;
基于出现次数大于或者等于预设阈值的词语生成询问标签。
第二方面,本发明提供了一种问答库构建装置,包括:
第一获取模块,用于获取多个询问信息及每个询问信息对应的询问应答;
第一确定模块,用于确定每个询问信息所对应的询问意图,所述询问意图用于反映每个询问信息的目的;
分类模块,用于基于询问意图对多个所述询问信息进行分类,得到多个询问信息集合,所述询问信息集合与所述询问意图一一对应;
第二确定模块,用于针对每个询问信息集合,基于所述询问信息集合内多个询问信息确定询问标签,在与询问信息对应的多个询问应答中确定最优应答;
第三确定模块,用于将每个所述询问信息集合确定的所述询问标签、多个所述询问信息及所述最优应答对应的存入问答库。
可选地,所述方法还包括:
提取模块,用于若接收到用户输入的待应答询问信息,提取所述待应答询问信息的意图特征;
计算模块,用于将所述意图特征与所述问答库中的各询问标签进行相似度计算;
第四确定模块,用于确定所述问答库中与所述意图特征相似度最高的询问标签为目标询问标签;
查找模块,用于在问答库中查找与所述目标询问标签对应的最优应答;
第五确定模块,用于将所述最优应答确定为响应于所述待应答询问信息的询问应答,并输出。
可选地,所述装置还包括:
判断模块,用于判断所述待应答询问信息是否在与所述目标询问标签对应的询问信息集合中;
第一添加模块,用于若所述待应答询问信息不在与所述目标询问标签对应的询问信息集合中,将所述待应答询问信息加入到所述与所述目标询问标签对应的询问信息集合中。
可选地,在添加模块后,所述装置还包括:
分词模块,用于对所述待应答询问信息进行分词;
第一统计模块,用于重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;
第一生成模块,用于基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
可选地,在添加模块后,所述装置还包括:
第二获取模块,用于在预设的包含多个词语和意图特征之间对应关系的词语意图集合中,获取与所述待应答询问信息的意图特征对应的词语;
第二添加模块,用于将获取的词语加入与所述目标询问标签对应的询问信息集合中;
第二统计模块,用于重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;
第二生成模块,用于基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
可选地,所述第一确定模块,包括:
提取单元,用于针对每个询问信息,提取所述询问信息中的关键词;
匹配单元,用于将所述关键词与预设意图集合中的各参考意图进行匹配;
第一确定单元,用于将匹配度超过预设匹配度阈值的参考意图确定为所述询问信息的询问意图。
可选地,所述分类模块,包括:
第二确定单元,用于将多个询问信息所对应的询问意图中互不相同的询问意图确定为目标意图;
建立单元,用于为目标意图建立对应的询问信息集合;
对比单元,用于针对每个询问信息,将询问信息的询问意图分别与所述目标意图对比;
加入单元,用于若询问信息的询问意图与任一所述目标意图相同,将所述询问信息加入与该目标意图对应的询问信息集合。
可选地,所述第二确定模块,包括:
分词单元,用于针对每个询问信息集合,对所述询问信息集合内多个询问信息分别进行分词;
统计单元,用于统计分词得到的各个词语的出现次数;
生成单元,用于基于出现次数大于或者等于预设阈值的词语生成询问标签。
第三方面,本发明提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一所述的方法的步骤。
第四方面,本发明提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述第一方面任一所述方法。
本发明实施例提供的上述技术方案与现有技术相比具有如下优点:
本发明实施例通过首先获取多个询问信息及每个询问信息对应的询问应答,确定每个询问信息所对应的询问意图,然后基于询问意图对多个所述询问信息进行分类,得到多个询问信息集合,所述询问信息集合与所述询问意图一一对应,再针对每个询问信息集合,基于所述询问信息集合内多个询问信息确定询问标签,再在与询问信息对应的多个询问应答中确定最优应答,最后可以将每个所述询问信息集合确定的所述询问标签、多个所述询问信息及所述最优应答对应的存入问答库。
本发明实施例能够将具有相同询问意图的询问信息划分至同一询问信息集合,进而基于每个询问信息集合确定的询问标签、多个所述询问信息及所述最优应答构建问答库,也就是说,构建的问答库中询问标签、多个所述询问信息及所述最优应答均是与询问意图对应的,这样,对于同一询问意图的不同描述,本发明的问答库中均存在对应的询问标签,进而便于根据询问标签找出最优问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种问答库构建方法的流程图;
图2为本发明实施例提供的一种对应关系示意图;
图3为本发明实施例提供的一种问答库构建方法的流程图;
图4为本发明实施例提供的一种问答库构建方法的流程图;
图5为本发明实施例提供的一种问答库构建装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有技术中,对于银行问题查询、查话费账单等问答库中的内容较少(问题以及问题对应的答案较少)时,将用户问题与问答库中的问题进行匹配时,很难找到与用户问题对应的相似问题。因此反馈给用户问题对应的答案经常不准确,为此,在本发明的一个实施例中,提供一种问答库构建方法、装置、电子设备及计算机可读介质,所述问答库构建方法可以应用于计算机中,如图1所示,所述方法可以包括以下步骤:
步骤S101,获取多个询问信息及每个询问信息对应的询问应答;
在该步骤中,可以获取用户历史输入的询问信息及每个询问信息对应的询问应答,询问信息可以为用户输入的问题的信息,询问应答可以为针对用户输入的问题输出给用户的答案。
示例性的,询问信息可以为:你好。
询问应答相应的可以为:您好,请问有什么可以帮您
询问信息可以为:在吗?
询问应答相应的可以为:您好,我在,请问有什么可以帮您?
询问信息可以为:有人吗?
询问应答相应的可以为:您好,我在呢,请问有什么可以帮您。
步骤S102,确定每个询问信息所对应的询问意图,所述询问意图用于反映每个询问信息的目的;
在该步骤中,可以针对每个询问信息,提取所述询问信息中的关键词,将所述关键词与预设意图集合中的各参考意图进行匹配,将匹配度超过预设匹配度阈值的参考意图确定为所述询问信息的询问意图。
示例性的,询问信息为:本期账单欠款多少?询问意图可以为:查询本期账单。
确定每个询问信息所对应的询问意图的方式有多种,可以通过对询问信息进行分词,基于分词获取询问信息所对应的询问意图;也可以通过对询问信息进行自然语言处理,获得询问信息的语义片段,基于语义片段获取询问信息所对应的询问意图;也可以直接通过机器学习模型,对询问信息进行意图识别,获取询问信息所对应的询问意图,本实施例不对确定每个询问信息所对应的询问意图的方式进行限定。
步骤S103,基于询问意图对多个所述询问信息进行分类,得到多个询问信息集合,所述询问信息集合与所述询问意图一一对应;
在该步骤中,可以首先将多个询问信息所对应的询问意图中互不相同的询问意图确定为目标意图;
示例性的,如图2所示,询问信息A-1和询问信息A-n所对应的询问意图均是询问意图A,询问信息N-1和询问信息N-1所对应的询问意图均为询问意图N,由于询问意图A和询问意图N为互补相同的询问意图,则可以将询问意图A确定问目标意图A,将询问意图N确定为目标意图N,也即:只保留互不相同的询问意图作为目标意图);
再例如,询问意图包括:A、A、B、B、C、C、C、D、D和D;则目标意图可以为:A、B、C和D。
然后为目标意图建立对应的询问信息集合;
参见图2,为目标意图A建立空的询问信息集合A,为目标意图N建立空的询问信息集合N。
再针对每个询问信息,将询问信息的询问意图分别与所述目标意图对比,最后若询问信息的询问意图与任一所述目标意图相同,将所述询问信息加入与该目标意图对应的询问信息集合;
如图2,可以先将询问信息A-1的询问意图A与目标意图A对比,由于目标意图A是“由询问意图A确定的”,所以二者必然一致,所以可以将询问信息A-1加入询问信息集合A;
然后将询问信息A-n的询问意图A与目标意图A对比,同理,由于目标意图A是“由询问意图A确定的”,所以二者必然一致,所以可以将询问信息A-n加入询问信息集合A;
再将询问信息N-1的询问意图N与目标意图N对比,同理,由于目标意图N是“由询问意图N确定的”,所以二者必然一致,所以可以将询问信息N-1加入询问信息集合N;
最后将询问信息N-n的询问意图N与目标意图N对比,同理,由于目标意图N是“由询问意图N确定的”,所以二者必然一致,所以可以将询问信息N-n加入询问信息集合N。
步骤S104,针对每个询问信息集合,基于所述询问信息集合内多个询问信息确定询问标签,在与询问信息对应的多个询问应答中确定最优应答;
在该步骤中,针对每个询问信息集合,对所述询问信息集合内多个询问信息分别进行分词,统计分词得到的各个词语的出现次数,基于出现次数大于或者等于预设阈值的词语生成询问标签。
示例性的,询问信息与询问标签可以如下表1所示。
在与询问信息对应的多个询问应答中确定最优应答,示例性的,可以获取用户对每个询问应答的评价分数,将评价分数最高的询问应答确定为最优应答。
步骤S105,将每个所述询问信息集合确定的所述询问标签、多个所述询问信息及所述最优应答对应的存入问答库。
本发明实施例通过首先获取多个询问信息及每个询问信息对应的询问应答,确定每个询问信息所对应的询问意图,然后基于询问意图对多个所述询问信息进行分类,得到多个询问信息集合,所述询问信息集合与所述询问意图一一对应,再针对每个询问信息集合,基于所述询问信息集合内多个询问信息确定询问标签,再在与询问信息对应的多个询问应答中确定最优应答,最后可以将每个所述询问信息集合确定的所述询问标签、多个所述询问信息及所述最优应答对应的存入问答库。
本发明实施例能够将具有相同询问意图的询问信息划分至同一询问信息集合,进而基于每个询问信息集合确定的询问标签、多个所述询问信息及所述最优应答构建问答库,也就是说,构建的问答库中询问标签、多个所述询问信息及所述最优应答均是与询问意图对应的,这样,对于同一询问意图的不同描述,本发明的问答库中均存在对应的询问标签,进而便于根据询问标签找出最优问题。
在实际应用中,在问答库构建完成后,将会根据用户输入的问题查询问答库,所以,在本发明的又一实施例中,如图3所示,所述方法还包括:
步骤S201,若接收到用户输入的待应答询问信息,提取所述待应答询问信息的意图特征;
在该步骤中,可以提取待应答询问信息中的关键词,将所述关键词与预设意图集合中的各参考意图进行匹配,将匹配度超过预设匹配度阈值的参考意图确定为待应答询问信息的意图特征。
步骤S202,将所述意图特征与所述问答库中的各询问标签进行相似度计算;
示例性的,若意图特征为:查询本期账单,其中一个询问标签为:主动转人工,二者并无重复的词语,所以相似度为0%;
示例性的,若意图特征为:查询本期账单,其中一个询问标签为:本期账单查询,二者的词语全部重复,则相似度100%;
示例性的,若意图特征为:查询本期账单,其中一个询问标签为:退款查询,二者存在一个重复的词语,此处可以将询问标签认为包含3个词语,据此,计算相似度为33%。
以上仅为举例说明,在实际应用中可以根据实际情况使用其它相似度计算方法,本发明不做限定。
步骤S203,确定所述问答库中与所述意图特征相似度最高的询问标签为目标询问标签;
在该步骤中,可以将相似度为0%、相似度100%和相似度为33%比较,其中相似度最高的为100%,所以可以将“本期账单查询”作为目标询问标签。
步骤S204,在问答库中查找与所述目标询问标签对应的最优应答;
由于问答库中包括多组询问标签、多个询问信息及最优应答之间的对应关系,所以可以根据目标询问标签在问答库中查找到最优应答。
步骤S205,将所述最优应答确定为响应于所述待应答询问信息的询问应答,并输出。
本发明实施例能够基于构建完成的问答库实现问题查询及答复,也就是说,能够实现对于同一询问意图的不同描述,本发明的问答库中均存在对应的询问标签,进而便于根据询问标签找出最优问题。
由于实际应用中,由于训练的样本有限,所以问答库中可能存储的询问标签也随之有限,不同用户对于同一询问意图可能存在无限多中提问方式,所以可能某些用户输入的待应答问题并未存储于问答库中,为此,在本发明的又一实施例中,如图4所示,所述方法还包括:
步骤S301,判断所述待应答询问信息是否在与所述目标询问标签对应的询问信息集合中;
在该步骤中,可以将待应答询问信息与目标询问标签对应的询问信息集合中的全部询问信息逐一比较,若均不同,则可以确定待应答询问信息不在与所述目标询问标签对应的询问信息集合中。
步骤S302,若所述待应答询问信息不在与所述目标询问标签对应的询问信息集合中,将所述待应答询问信息加入到所述与所述目标询问标签对应的询问信息集合中。
步骤S303,对所述待应答询问信息进行分词;
步骤S304,重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;
步骤S305,基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
在本发明的另一种实施方式中,在预设的包含多个词语和意图特征之间对应关系的词语意图集合中,获取与所述待应答询问信息的意图特征对应的词语;将获取的词语加入与所述目标询问标签对应的询问信息集合中;重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
通过本发明实施例,能够不断丰富问答库内询问标签的数量,使的问答库中的询问标签更加全面,进而便于后续使用。
在本发明的又一实施例中,如图5所示,还提供一种问答库构建装置,所述装置包括:
第一获取模块11,用于获取多个询问信息及每个询问信息对应的询问应答;
第一确定模块12,用于确定每个询问信息所对应的询问意图,所述询问意图用于反映每个询问信息的目的;
分类模块13,用于基于询问意图对多个所述询问信息进行分类,得到多个询问信息集合,所述询问信息集合与所述询问意图一一对应;
第二确定模块14,用于针对每个询问信息集合,基于所述询问信息集合内多个询问信息确定询问标签,在与询问信息对应的多个询问应答中确定最优应答;
第三确定模块15,用于将每个所述询问信息集合确定的所述询问标签、多个所述询问信息及所述最优应答对应的存入问答库。
在本发明的又一实施例中,所述方法还包括:
提取模块,用于若接收到用户输入的待应答询问信息,提取所述待应答询问信息的意图特征;
计算模块,用于将所述意图特征与所述问答库中的各询问标签进行相似度计算;
第四确定模块,用于确定所述问答库中与所述意图特征相似度最高的询问标签为目标询问标签;
查找模块,用于在问答库中查找与所述目标询问标签对应的最优应答;
第五确定模块,用于将所述最优应答确定为响应于所述待应答询问信息的询问应答,并输出。
在本发明的又一实施例中,所述装置还包括:
判断模块,用于判断所述待应答询问信息是否在与所述目标询问标签对应的询问信息集合中;
第一添加模块,用于若所述待应答询问信息不在与所述目标询问标签对应的询问信息集合中,将所述待应答询问信息加入到所述与所述目标询问标签对应的询问信息集合中。
在本发明的又一实施例中,在添加模块后,所述装置还包括:
分词模块,用于对所述待应答询问信息进行分词;
第一统计模块,用于重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;
第一生成模块,用于基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
在本发明的又一实施例中,在添加模块后,所述装置还包括:
第二获取模块,用于在预设的包含多个词语和意图特征之间对应关系的词语意图集合中,获取与所述待应答询问信息的意图特征对应的词语;
第二添加模块,用于将获取的词语加入与所述目标询问标签对应的询问信息集合中;
第二统计模块,用于重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;
第二生成模块,用于基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
在本发明的又一实施例中,所述第一确定模块,包括:
提取单元,用于针对每个询问信息,提取所述询问信息中的关键词;
匹配单元,用于将所述关键词与预设意图集合中的各参考意图进行匹配;
第一确定单元,用于将匹配度超过预设匹配度阈值的参考意图确定为所述询问信息的询问意图。
在本发明的又一实施例中,所述分类模块,包括:
第二确定单元,用于将多个询问信息所对应的询问意图中互不相同的询问意图确定为目标意图;
建立单元,用于为目标意图建立对应的询问信息集合;
对比单元,用于针对每个询问信息,将询问信息的询问意图分别与所述目标意图对比;
加入单元,用于若询问信息的询问意图与任一所述目标意图相同,将所述询问信息加入与该目标意图对应的询问信息集合。
在本发明的又一实施例中,所述第二确定模块,包括:
分词单元,用于针对每个询问信息集合,对所述询问信息集合内多个询问信息分别进行分词;
统计单元,用于统计分词得到的各个词语的出现次数;
生成单元,用于基于出现次数大于或者等于预设阈值的词语生成询问标签。
在本发明的又一实施例中,还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法实施例所述的方法的步骤。
在本发明的又一实施例中,还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行所述方法实施例所述的方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。
本发明实施例还包括:
A1.一种问答库构建方法,包括:
获取多个询问信息及每个询问信息对应的询问应答;
确定每个询问信息所对应的询问意图,所述询问意图用于反映每个询问信息的目的;
基于询问意图对多个所述询问信息进行分类,得到多个询问信息集合,所述询问信息集合与所述询问意图一一对应;
针对每个询问信息集合,基于所述询问信息集合内多个询问信息确定询问标签,在与询问信息对应的多个询问应答中确定最优应答;
将每个所述询问信息集合确定的所述询问标签、多个所述询问信息及所述最优应答对应的存入问答库。
A2.根据A1所述的问答库构建方法,所述方法还包括:
若接收到用户输入的待应答询问信息,提取所述待应答询问信息的意图特征;
将所述意图特征与所述问答库中的各询问标签进行相似度计算;
确定所述问答库中与所述意图特征相似度最高的询问标签为目标询问标签;
在问答库中查找与所述目标询问标签对应的最优应答;
将所述最优应答确定为响应于所述待应答询问信息的询问应答,并输出。
A3.根据A2所述的问答库构建方法,所述方法还包括:
判断所述待应答询问信息是否在与所述目标询问标签对应的询问信息集合中;
若所述待应答询问信息不在与所述目标询问标签对应的询问信息集合中,将所述待应答询问信息加入到所述与所述目标询问标签对应的询问信息集合中。
A4.根据A3所述的问答库构建方法,在将所述待应答询问信息加入到所述与所述目标询问标签对应的询问信息集合中后,所述方法还包括:
对所述待应答询问信息进行分词;
重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;
基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
A5.根据A3所述的问答库构建方法,在将所述待应答询问信息加入到所述与所述目标询问标签对应的询问信息集合中后,所述方法还包括:
在预设的包含多个词语和意图特征之间对应关系的词语意图集合中,获取与所述待应答询问信息的意图特征对应的词语;
将获取的词语加入与所述目标询问标签对应的询问信息集合中;
重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;
基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
A6.根据A1所述的问答库构建方法,确定每个询问信息所对应的询问意图,包括:
针对每个询问信息,提取所述询问信息中的关键词;
将所述关键词与预设意图集合中的各参考意图进行匹配;
将匹配度超过预设匹配度阈值的参考意图确定为所述询问信息的询问意图。
A7.根据A1所述的问答库构建方法,基于询问意图对多个所述询问信息进行分类,得到多个询问信息集合,所述询问信息集合与所述询问意图一一对应,包括:
将多个询问信息所对应的询问意图中互不相同的询问意图确定为目标意图;
为目标意图建立对应的询问信息集合;
针对每个询问信息,将询问信息的询问意图分别与所述目标意图对比;
若询问信息的询问意图与任一所述目标意图相同,将所述询问信息加入与该目标意图对应的询问信息集合。
A8.根据A1所述的问答库构建方法,针对每个询问信息集合,基于所述询问信息集合内多个询问信息确定询问标签,包括:
针对每个询问信息集合,对所述询问信息集合内多个询问信息分别进行分词;
统计分词得到的各个词语的出现次数;
基于出现次数大于或者等于预设阈值的词语生成询问标签。
B9.一种问答库构建装置,包括:
第一获取模块,用于获取多个询问信息及每个询问信息对应的询问应答;
第一确定模块,用于确定每个询问信息所对应的询问意图,所述询问意图用于反映每个询问信息的目的;
分类模块,用于基于询问意图对多个所述询问信息进行分类,得到多个询问信息集合,所述询问信息集合与所述询问意图一一对应;
第二确定模块,用于针对每个询问信息集合,基于所述询问信息集合内多个询问信息确定询问标签,在与询问信息对应的多个询问应答中确定最优应答;
第三确定模块,用于将每个所述询问信息集合确定的所述询问标签、多个所述询问信息及所述最优应答对应的存入问答库。
B10.根据权利要求B9所述的问答库构建装置,所述方法还包括:
提取模块,用于若接收到用户输入的待应答询问信息,提取所述待应答询问信息的意图特征;
计算模块,用于将所述意图特征与所述问答库中的各询问标签进行相似度计算;
第四确定模块,用于确定所述问答库中与所述意图特征相似度最高的询问标签为目标询问标签;
查找模块,用于在问答库中查找与所述目标询问标签对应的最优应答;
第五确定模块,用于将所述最优应答确定为响应于所述待应答询问信息的询问应答,并输出。
B11.根据B10所述的问答库构建装置,所述装置还包括:
判断模块,用于判断所述待应答询问信息是否在与所述目标询问标签对应的询问信息集合中;
第一添加模块,用于若所述待应答询问信息不在与所述目标询问标签对应的询问信息集合中,将所述待应答询问信息加入到所述与所述目标询问标签对应的询问信息集合中。
B12.根据B11所述的问答库构建装置,在添加模块后,所述装置还包括:
分词模块,用于对所述待应答询问信息进行分词;
第一统计模块,用于重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;
第一生成模块,用于基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
B13.根据B11所述的问答库构建方法,在添加模块后,所述装置还包括:
第二获取模块,用于在预设的包含多个词语和意图特征之间对应关系的词语意图集合中,获取与所述待应答询问信息的意图特征对应的词语;
第二添加模块,用于将获取的词语加入与所述目标询问标签对应的询问信息集合中;
第二统计模块,用于重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;
第二生成模块,用于基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
B14.根据B9所述的问答库构建装置,所述第一确定模块,包括:
提取单元,用于针对每个询问信息,提取所述询问信息中的关键词;
匹配单元,用于将所述关键词与预设意图集合中的各参考意图进行匹配;
第一确定单元,用于将匹配度超过预设匹配度阈值的参考意图确定为所述询问信息的询问意图。
B15.根据B9所述的问答库构建装置,所述分类模块,包括:
第二确定单元,用于将多个询问信息所对应的询问意图中互不相同的询问意图确定为目标意图;
建立单元,用于为目标意图建立对应的询问信息集合;
对比单元,用于针对每个询问信息,将询问信息的询问意图分别与所述目标意图对比;
加入单元,用于若询问信息的询问意图与任一所述目标意图相同,将所述询问信息加入与该目标意图对应的询问信息集合。
B16.根据B9所述的问答库构建装置,所述第二确定模块,包括:
分词单元,用于针对每个询问信息集合,对所述询问信息集合内多个询问信息分别进行分词;
统计单元,用于统计分词得到的各个词语的出现次数;
生成单元,用于基于出现次数大于或者等于预设阈值的词语生成询问标签。
C17.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述A1至A8任一项所述的方法的步骤。
D18.一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行所述A1至A8任一所述方法。

Claims (10)

1.一种问答库构建方法,其特征在于,包括:
获取多个询问信息及每个询问信息对应的询问应答;
确定每个询问信息所对应的询问意图,所述询问意图用于反映每个询问信息的目的;
基于询问意图对多个所述询问信息进行分类,得到多个询问信息集合,所述询问信息集合与所述询问意图一一对应;
针对每个询问信息集合,基于所述询问信息集合内多个询问信息确定询问标签,在与询问信息对应的多个询问应答中确定最优应答;
将每个所述询问信息集合确定的所述询问标签、多个所述询问信息及所述最优应答对应的存入问答库。
2.根据权利要求1所述的问答库构建方法,其特征在于,所述方法还包括:
若接收到用户输入的待应答询问信息,提取所述待应答询问信息的意图特征;
将所述意图特征与所述问答库中的各询问标签进行相似度计算;
确定所述问答库中与所述意图特征相似度最高的询问标签为目标询问标签;
在问答库中查找与所述目标询问标签对应的最优应答;
将所述最优应答确定为响应于所述待应答询问信息的询问应答,并输出。
3.根据权利要求2所述的问答库构建方法,其特征在于,所述方法还包括:
判断所述待应答询问信息是否在与所述目标询问标签对应的询问信息集合中;
若所述待应答询问信息不在与所述目标询问标签对应的询问信息集合中,将所述待应答询问信息加入到所述与所述目标询问标签对应的询问信息集合中。
4.根据权利要求3所述的问答库构建方法,其特征在于,在将所述待应答询问信息加入到所述与所述目标询问标签对应的询问信息集合中后,所述方法还包括:
对所述待应答询问信息进行分词;
重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;
基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
5.根据权利要求3所述的问答库构建方法,其特征在于,在将所述待应答询问信息加入到所述与所述目标询问标签对应的询问信息集合中后,所述方法还包括:
在预设的包含多个词语和意图特征之间对应关系的词语意图集合中,获取与所述待应答询问信息的意图特征对应的词语;
将获取的词语加入与所述目标询问标签对应的询问信息集合中;
重新统计与所述目标询问标签对应的询问信息集合中各个词语的出现次数;
基于出现次数大于或者等于预设阈值的词语重新生成为询问标签。
6.根据权利要求1所述的问答库构建方法,其特征在于,确定每个询问信息所对应的询问意图,包括:
针对每个询问信息,提取所述询问信息中的关键词;
将所述关键词与预设意图集合中的各参考意图进行匹配;
将匹配度超过预设匹配度阈值的参考意图确定为所述询问信息的询问意图。
7.根据权利要求1所述的问答库构建方法,其特征在于,基于询问意图对多个所述询问信息进行分类,得到多个询问信息集合,所述询问信息集合与所述询问意图一一对应,包括:
将多个询问信息所对应的询问意图中互不相同的询问意图确定为目标意图;
为目标意图建立对应的询问信息集合;
针对每个询问信息,将询问信息的询问意图分别与所述目标意图对比;
若询问信息的询问意图与任一所述目标意图相同,将所述询问信息加入与该目标意图对应的询问信息集合。
8.一种问答库构建装置,其特征在于,包括:
第一获取模块,用于获取多个询问信息及每个询问信息对应的询问应答;
第一确定模块,用于确定每个询问信息所对应的询问意图,所述询问意图用于反映每个询问信息的目的;
分类模块,用于基于询问意图对多个所述询问信息进行分类,得到多个询问信息集合,所述询问信息集合与所述询问意图一一对应;
第二确定模块,用于针对每个询问信息集合,基于所述询问信息集合内多个询问信息确定询问标签,在与询问信息对应的多个询问应答中确定最优应答;
第三确定模块,用于将每个所述询问信息集合确定的所述询问标签、多个所述询问信息及所述最优应答对应的存入问答库。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至7任一所述方法。
CN201910433697.4A 2019-05-23 2019-05-23 问答库构建方法、装置、电子设备及计算机可读介质 Active CN110175241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910433697.4A CN110175241B (zh) 2019-05-23 2019-05-23 问答库构建方法、装置、电子设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910433697.4A CN110175241B (zh) 2019-05-23 2019-05-23 问答库构建方法、装置、电子设备及计算机可读介质

Publications (2)

Publication Number Publication Date
CN110175241A true CN110175241A (zh) 2019-08-27
CN110175241B CN110175241B (zh) 2021-08-03

Family

ID=67691981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910433697.4A Active CN110175241B (zh) 2019-05-23 2019-05-23 问答库构建方法、装置、电子设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN110175241B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035610A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域问答对的生成方法、装置、计算机设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答系统及构建问答实例库的方法
KR20150096295A (ko) * 2014-02-14 2015-08-24 주식회사 플런티코리아 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
CN105893523A (zh) * 2016-03-31 2016-08-24 华东师范大学 利用答案相关性排序的评估度量来计算问题相似度的方法
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106909572A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种问答知识库的构建方法和装置
CN107918634A (zh) * 2017-06-27 2018-04-17 上海壹账通金融科技有限公司 智能问答方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答系统及构建问答实例库的方法
KR20150096295A (ko) * 2014-02-14 2015-08-24 주식회사 플런티코리아 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
CN106909572A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种问答知识库的构建方法和装置
CN105893523A (zh) * 2016-03-31 2016-08-24 华东师范大学 利用答案相关性排序的评估度量来计算问题相似度的方法
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107918634A (zh) * 2017-06-27 2018-04-17 上海壹账通金融科技有限公司 智能问答方法、装置及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035610A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域问答对的生成方法、装置、计算机设备和介质

Also Published As

Publication number Publication date
CN110175241B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
CN109635117B (zh) 一种基于知识图谱识别用户意图方法及装置
WO2020077896A1 (zh) 提问数据生成方法、装置、计算机设备和存储介质
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN111797210A (zh) 基于用户画像的信息推荐方法、装置、设备及存储介质
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN111400607B (zh) 搜索内容输出方法、装置、计算机设备及可读存储介质
WO2017097061A1 (zh) 智能应答方法及装置
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN110414550B (zh) 人脸识别模型的训练方法、装置、系统和计算机可读介质
CN110795542A (zh) 对话方法及相关装置、设备
CN108287875B (zh) 人物共现关系确定方法、专家推荐方法、装置及设备
WO2023134057A1 (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN110390084A (zh) 文本查重方法、装置、设备及存储介质
WO2018176913A1 (zh) 搜索方法、装置及非临时性计算机可读存储介质
CN112468659A (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN112749558A (zh) 一种目标内容获取方法、装置、计算机设备和存储介质
CN114328878A (zh) 一种信息回复方法、装置、介质
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN110175241A (zh) 问答库构建方法、装置、电子设备及计算机可读介质
Liang et al. Detecting novel business blogs
CN111752898B (zh) 一种文件处理方法及装置
CN113887214A (zh) 基于人工智能的意愿推测方法、及其相关设备
CN111597368B (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200723

Address after: 518000 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Applicant after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: 100029 Beijing Chaoyang District Huixin East Street No. 2 Residence General Real Estate Building 804

Applicant before: Tricorn (Beijing) Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant