CN108509617A - 知识库构建、基于知识库的智能问答方法及装置、存储介质、终端 - Google Patents
知识库构建、基于知识库的智能问答方法及装置、存储介质、终端 Download PDFInfo
- Publication number
- CN108509617A CN108509617A CN201810299452.2A CN201810299452A CN108509617A CN 108509617 A CN108509617 A CN 108509617A CN 201810299452 A CN201810299452 A CN 201810299452A CN 108509617 A CN108509617 A CN 108509617A
- Authority
- CN
- China
- Prior art keywords
- knowledge base
- answer
- construction
- service data
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种知识库构建、基于知识库的智能问答方法及装置、存储介质、终端,知识库构建方法包括:获取原始客服数据,所述原始客服数据包括多个会话,每一会话包括至少一个问题及其答案;对所述多个会话进行分析,以确定各个问题和/或答案之间的上下文关系;根据各个问题和/或答案之间的上下文关系,确定每一问题之后可能出现的下一问题及其出现概率,并加入所述知识库。本发明技术方案可以提高数据库的质量,提升用户交互体验。
Description
技术领域
本发明涉及语音交互技术领域,尤其涉及一种知识库构建、基于知识库的智能问答方法及装置、存储介质、终端。
背景技术
在智能客服领域,通常是基于知识库回答用户问题。知识库的质量将会影响反馈给用户的答案的准确性。
现有的客服领域中,在建立知识库时需要人工整理知识点。用户需要在原始文档中抽取关键词,人工整理知识点,人工增加扩展问。最终生成的知识库中知识点是一问一答的形式,多个知识点之间是相互独立的。
但是,现有技术中人工整理知识点费时费力;且由于知识点之间无关联,因此在与用户进行交互的过程中,影响用户体验。
发明内容
本发明解决的技术问题是如何提高数据库的质量,提升用户交互体验。
为解决上述技术问题,本发明实施例提供一种知识库构建方法,知识库构建方法包括:获取原始客服数据,所述原始客服数据包括多个会话,每一会话包括至少一个问题及其答案;对所述多个会话进行分析,以确定各个问题和/或答案之间的上下文关系;根据各个问题和/或答案之间的上下文关系,确定每一问题之后可能出现的下一问题及其出现概率,并加入所述知识库。
可选的,所述上下文关系包括各个问题和/或答案的顺序关系。
可选的,所述对所述多个会话进行分析,以确定各个问题和/或答案之间的上下文关系包括:分析提取各个会话对应的业务主题,并按照所述业务主题对所述知识库中的各个问题及其答案进行分类;在每一业务主题下,确定其中各个问题和/或答案之间的上下文关系。
可选的,利用预先训练的主题模型提取每一会话对应的业务主题,所述主题模型是采用词频逆文档频率算法或TextRank算法构建的。
可选的,所述知识库构建方法还包括:确定所述原始客服数据中各个问题的相似问题,以作为所述问题的扩展问题,并加入所述知识库;或者,提取所述原始客服数据中的各个问题,并通过爬虫方式获取所述问题的相似问题,并加入所述知识库。
可选的,所述原始客服数据为人工客服数据。
可选的,所述对所述多个会话进行分析之前还包括:对所述原始客服数据进行数据清洗,以剔除无效数据。
为解决上述技术问题,本发明实施例还公开了一种基于知识库的智能问答方法,基于知识库的智能问答方法包括:获取用户问题;将所述用户问题与知识库构建方法构建的知识库中的问题进行匹配;将与所述用户问题匹配的问题之后出现概率最大的预设数量个问题推送给用户,以供所述用户选择。
可选的,所述将所述知识库中与所述用户问题匹配的问题之后可能出现的概率最大的问题推送给用户包括:确定与所述用户问题匹配的问题所在会话对应的业务主题;在所述业务主题下,将与所述用户问题匹配的问题之后出现概率最大的预设数量个问题推送给所述用户。
可选的,所述基于知识库的智能问答方法还包括:将所述用户选择的问题作为新的用户问题,继续与所述知识库中的问题进行匹配。
为解决上述技术问题,本发明实施例还公开了一种知识库构建装置,知识库构建装置包括:原始客服数据获取模块,适于获取原始客服数据,所述原始客服数据包括多个会话,每一会话包括至少一个问题及其答案;分析模块,适于对所述多个会话进行分析,以确定各个问题和/或答案之间的上下文关系;概率确定模块,适于根据各个问题和/或答案之间的上下文关系,确定每一问题之后可能出现的下一问题及其出现概率,并加入所述知识库。
可选的,所述上下文关系包括各个问题和/或答案的顺序关系。
可选的,所述分析模块包括:分类单元,适于分析提取各个会话对应的业务主题,并按照所述业务主题对所述知识库中的各个问题及其答案进行分类;上下文关系确定单元,适于在每一业务主题下,确定其中各个问题和/或答案之间的上下文关系。
可选的,利用预先训练的主题模型提取每一会话对应的业务主题,所述主题模型是采用词频逆文档频率算法或TextRank算法构建的。
可选的,所述知识库构建装置还包括:扩展问确定模块,适于确定所述原始客服数据中各个问题的相似问题,以作为所述问题的扩展问题,并加入所述知识库;扩展问获取模块,适于提取所述原始客服数据中的各个问题,并通过爬虫方式获取所述问题的相似问题,并加入所述知识库。
可选的,所述原始客服数据为人工客服数据。
可选的,所述知识库构建装置还包括:清洗模块,适于对所述原始客服数据进行数据清洗,以剔除无效数据。
本发明实施例还公开了一种基于知识库的智能问答装置,基于知识库的智能问答装置包括:问题获取模块,适于获取用户问题;匹配模块,适于将所述用户问题与知识库构建方法构建的知识库中的问题进行匹配;推送模块,适于将与所述用户问题匹配的问题之后出现概率最大的预设数量个问题推送给用户,以供用户选择。
可选的,所述推送模块包括:业务主题确定单元,适于确定与所述用户问题匹配的问题所在会话对应的业务主题;推送单元,适于在所述业务主题下,将与所述用户问题匹配的问题之后出现概率最大的预设数量个问题推送给所述用户。
可选的,所述基于知识库的智能问答装置还包括:迭代模块,适于将所述用户选择的问题作为新的用户问题,继续与所述知识库中的问题进行匹配。
本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述知识库构建方法的步骤,或者执行所述的基于知识库的智能问答方法的步骤。
本发明实施例还公开了一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述知识库构建方法的步骤,或者执行基于知识库的智能问答方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明技术方案获取原始客服数据,所述原始客服数据包括多个会话,每一会话包括至少一个问题及其答案;对所述多个会话进行分析,以确定各个问题和/或答案之间的上下文关系;根据各个问题和/或答案之间的上下文关系,确定每一问题之后可能出现的下一问题及其出现概率,并加入所述知识库。本发明技术方案通过对原始客服数据中的会话进行分析,确定各个问题和/或答案之间的上下文关系,进而可以确定每一问题之后可能出现的下一问题及其出现概率。由于知识库中的各个问题和/或答案之间具备上下文关系以及出现概率,从而使得各个问题和/或答案之间具备关联;在使用知识库与用户进行交互时,在回复用户问题的答案时,还可以预测用户的下一问题,实现了对用户行为的预测,提高了用户的交互体验。
进一步地,分析提取各个会话对应的业务主题,并按照所述业务主题对所述知识库中的各个问题及其答案进行分类;在每一业务主题下,确定其中各个问题和/或答案之间的上下文关系。本发明技术方案通过提取业务主题,并确定各个业务主题下的上下文关系;由此,知识库中包括各个业务主题下的各个问题和/或答案的上下文关系以及下一问题出现概率,在用户进行基于场景的交互时,进一步提升交互体验。
附图说明
图1是本发明实施例一种知识库构建方法的流程图;
图2是图1所示步骤S102的具体实施流程图;
图3是本发明实施例一种基于知识库的智能问答方法的流程图;
图4是本发明实施例一种知识库构建装置的结构示意图;
图5是图4所示分析模块402的具体结构示意图;
图6是本发明实施例一种基于知识库的智能问答装置的结构示意图。
具体实施方式
如背景技术中所述,现有技术中人工整理知识点费时费力;且由于知识点之间无关联,因此在与用户进行交互的过程中,影响用户体验。
本发明技术方案通过对原始客服数据中的会话进行分析,确定各个问题和/或答案之间的上下文关系,进而可以确定每一问题之后可能出现的下一问题及其出现概率。由于知识库中的各个问题和/或答案之间具备上下文关系以及出现概率,从而使得各个问题和/或答案之间具备关联;在使用知识库与用户进行交互时,在回复用户问题的答案时,还可以预测用户的下一问题,实现了对用户行为的预测,提高了用户的交互体验。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例一种知识库构建方法的流程图。
图1所示知识库构建方法可以包括以下步骤:
步骤S101:获取原始客服数据,所述原始客服数据包括多个会话,每一会话包括至少一个问题及其答案;
步骤S102:对所述多个会话进行分析,以确定各个问题和/或答案之间的上下文关系;
步骤S103:根据各个问题和/或答案之间的上下文关系,确定每一问题之后可能出现的下一问题及其出现概率,并加入所述知识库。
在步骤S101的具体实施中,原始客服数据可以包括多个会话。每一会话包括至少一个问题及其答案。进一步地,每一问题可以具有多个答案。例如,对于用户的一个问题,客服给出了答案以及反问。具体地,原始客服数据可以是通话记录、问答记录等。
优选地,所述原始客服数据可以是预先采集的人工客服数据。由于人工客服针对用户的问题的答复更加精准,因此本发明实施例基于人工客服数据来构建知识库,可以使得知识库中各个问题的答案更加精准。
在步骤S102的具体实施中,可以对各个会话进行分析。由于各个会话中多个问题及答案之间具备时间上的顺序,因此利用该顺序关系可以确定各个问题和/或答案之间的上下文关系。进一步地,各个问题和/或答案之间的上下文关系可以是指各个问题和/或答案的顺序关系。
具体而言,各个问题之间的上下文关系可以是各个问题在时间上的顺序关系,例如,问题1的下一问题是问题2,问题2的下一问题是问题3。各个问题和答案之间的上下文关系可以是各个问题及其答案在时间上的顺序关系。例如,问题1的答案1之后是问题2和答案2,问题2和答案2之后是问题3和答案3。
由于各个问题和/或答案之间的上下文关系可以表征用户的行为倾向,也即用户在提出当前问题后的下一问题,因此在步骤S103的具体实施中,根据各个问题和/或答案之间的上下文关系,确定每一问题之后可能出现的下一问题及其出现概率。至此,知识库可以包括多个问题及其答案,以及每一问题之后可能出现的下一问题及其出现概率。
具体地,每一问题之后可能出现的下一问题的出现概率可以是通过原始客服数据统计得到。更具体地,可以根据原始客服数据中,各个问题之后出现的各个下一问题的频次计算其出现概率。
本发明实施例通过对原始客服数据中的会话进行分析,确定各个问题和/或答案之间的上下文关系,进而可以确定每一问题之后可能出现的下一问题及其出现概率。由于知识库中的各个问题和/或答案之间具备上下文关系以及出现概率,从而使得各个问题和/或答案之间具备关联;在使用知识库与用户进行交互时,在回复用户问题的答案时,还可以预测用户的下一问题,实现了对用户行为的预测,提高了用户的交互体验。
在利用上述知识库针对用户问题进行交互时,不仅可以针对用户问题给出答案,还可以确定用户问题之后可能出现的下一问题及其出现概率。将用户问题之后可能出现的下一问题呈现给用户,可以实现交互过程的智能性,提升用户体验。
本发明一个优选实施例中,请参照图2,图1所示步骤S102还可以包括以下步骤:
步骤S201:分析提取各个会话对应的业务主题,并按照所述业务主题对所述知识库中的各个问题及其答案进行分类;
步骤S202:在每一业务主题下,确定其中各个问题和/或答案之间的上下文关系。
本实施例中,在对所述多个会话进行分析时,可以提取各个会话对应的业务主题。例如,业务主题可以是查询余额业务、查积分业务等。
具体地,会话对应的业务主题可以是该会话的关键词,可以表征该会话的主要内容或其所属类别。
由此,在得到各个会话对应的业务主题后,可以按照所述业务主题对所述知识库中的各个问题及其答案进行分类,以得到各个业务主题下的问题及其答案。进而,在每一业务主题下,确定各个问题和/或答案之间的上下文关系。
本实施例中,由于确定上下文关系是在各个业务主题下进行的,因此仅需在各个业务主题下的问题及其答案中分析上下文关系即可,避免了在所有的大量数据中分析确定上下文关系,减小了计算量。
此外,由于确定上下文关系是在各个业务主题下进行的,因此知识库包括各个业务主题下的问题及其答案,以及每一问题之后可能出现的下一问题及其出现概率。在用户进行基于场景的交互时,可以进一步提升交互体验。
例如,当用户在“查询余额业务”场景下进行交互时,可以使用知识库中业务主题为“查询余额业务”下的问答数据与用户进行交互,避免了在其他业务主题下查找答案,提升了交互效率。
进一步而言,利用预先训练的主题模型提取每一会话对应的业务主题,所述主题模型是采用词频逆文档频率算法或TextRank算法构建的。
具体实施中,采用词频逆文档频率算法构建的主题模型提取业务主题的过程如下:通过词语在会话中出现的频度TF,来提升词语在主题中的权重;然后通过IDF值,也即逆向文档频来降低公共词的主题权重。频度TF和IDF值的乘积可以表示词语的权重。然后按照权重值的大小进行排序,排序靠前的N个词语可以表示会话的业务主题。N的大小可以根据实际的应用场景进行设置。
具体实施中,采用TextRank算法构建的主题模型提取业务主题的过程如下:词语与词语之间的联系可以通过词语之间的距离来表示,任何一个词语与其左右距离为预设值的词语都是具备外链关系的。通过不断的权重计算,并且移动词语排序,重新迭代计算权重,最终达到一定的收敛条件即停止,并得到相应的业务主题。
本领域技术人员可以理解的是,还可以采用其他任意可实施的关键词提取算法构建主题模型,本发明实施例对此不做限制。
本发明另一个优选实施例中,图1所示知识库构建方法还可以包括以下步骤:
确定所述原始客服数据中各个问题的相似问题,以作为所述问题的扩展问题,并加入所述知识库;
或者,提取所述原始客服数据中的各个问题,并通过爬虫方式获取所述问题的相似问题,并加入所述知识库。
本实施例中,为了扩展知识库的丰富性,避免出现无法回答用户问题的看,提高对用户问题回复的全面性,还可以在知识库中加入扩展问。
本发明实施例通过在大量的原始客服数据中确定各个问题的相似问题,以作为扩展问题。还可以通过爬虫方式在网页中获取各个问题的相似问题,以作为扩展问题加入知识库。具体地,通过爬虫方式获取相似问题的来源可以是问答平台。
相较于现有技术中人工撰写扩展问,本发明实施例基于原始客服数据获取扩展问题,或者通过爬虫的方式获取扩展问题,可以保证扩展问题的快速生成,同时保证扩展问题的丰富性。
在本发明一个具体实施例中,在步骤S102之前还可以包括以下步骤:对所述原始客服数据进行数据清洗,以剔除无效数据。
具体而言,原始客服数据中可能包含大量无效数据,为了提高知识库构建的效率,可以预先对原始客服数据进行清洗,纠正原始客服数据中可识别的错误,以剔除无效数据。例如,检查原始客服数据的一致性,处理无效值和缺失值、去除原始客服数据中的停用词等。
可以理解的是,对原始客服数据进行数据清洗的过程可以采用任意可实施的算法进行,本发明实施例对此不做限制。
本发明一个具体应用场景中,知识库中各个问题和答案及其之后出现的下一问题的概率如下所述:全球通套餐后各个问题及其概率分别为全球通上网套餐0.27、介绍全球通0.22、全球通本地套餐0.19;全球通上网套餐之后各个问题及其概率分别为:全球通上网套餐58元档0.41、全球通上网套餐88元档0.25、全球通上网套餐128元档0.17;全球通上网套餐58元档之后各个问题及其概率分别为:介绍全球通上网套餐58元档0.37、开通全球通上网套餐58元档0.25、全球通上网套餐88元档0.07。
请参照图3,本发明实施例还公开了一种基于知识库的智能问答方法,基于知识库的智能问答方法可以包括以下步骤:
步骤S301:获取用户问题;
步骤S302:将所述用户问题与所述知识库构建方法构建的知识库中的问题进行匹配;
步骤S303:将与所述用户问题匹配的问题之后出现概率最大的预设数量个(例如,1个、2个、3个或者更多个)问题推送给用户,以供所述用户选择。
本实施例中的智能问答方法可以用于客户端,供用户使用。
本实施例中,通过图1至图2所示方法得到知识库后,可以利用该知识库与用户进行交互。
用户需要交互时,可以输入用户问题。用户问题可以是语音,也可以是文本。在步骤S301的具体实施中,可以获取所述用户问题。具体地,在用户问题为语音数据时,可以将语音数据转换为文本数据,以便用于后续步骤的语义匹配。
在步骤S302的具体实施中,将用户问题与知识库中的问题进行匹配。具体地,此处的匹配过程可以是语义匹配,将用户问题与知识库中的问题进行语义匹配。更具体地,可以计算用户问题与知识库中问题的语义相似度;如果语义相似度达到预设阈值,则表示用户问题与知识库中的问题相匹配;反之则表示用户问题与知识库中的问题不匹配。
本领域技术人员可以理解的是,可以采用任意可实施的算法计算语义相似度,本发明实施例对此不做些限制。
可以将与用户问题相匹配的知识库中问题对应的答案反馈给用户。
进而在步骤S303的具体实施中,还可以将与用户问题相匹配的问题之后出现概率最大的预设数量个问题推送给用户。更具体地,还可以将与用户问题相匹配的问题之后可能出现的全部问题推送给用户。
例如,在反馈针对用户问题的答案之后,将用户问题后出现概率最大的问题1、问题2和问题3呈现给用户,用户可以在上述三个问题中进行选择以进行下一次的交互过程。
具体应用场景中,用户与智能问答机器人进行交互。用户输入的用户问题为“查询积分”,智能问答机器人回复的答案是“输入用户的身份证号”;智能问答机器人还可以推送消息“现在有积分活动,是否需要办理”。
具体地,推送的多个问题可以是图形、文字、语音等任意可实施的形式。
由此,利用本实施例的知识库与用户交互时,可以对用户问题之后的问题进行预测和推送,提升了用户体验。
本发明一个优选实施例中,图3所示步骤S303可以包括以下步骤:确定与所述用户问题匹配的问题所在会话对应的业务主题;在所述业务主题下,将与所述用户问题匹配的问题之后出现概率最大的预设数量个问题推送给所述用户。
本实施例中,由于知识库中的问题和答案是按照业务主题分类的,因此可以先确定业务主题,再推送用户问题之后出现概率最大的预设数量个问题。
具体地,对于同一问题,在不同的业务主题下其答案,以及之后出现的问题可能不同。在与所述用户问题匹配的问题所在会话存在多个业务主题时,可以由用户选择确定业务主题,并在后续步骤中,在上述确定的业务主题下推送下一问题。
本实施例中针对确定的业务场景推送用户问题之后的问题,可以在减小计算量,提升交互响应速度的同时,提升对用户行为预测的准确性,进一步提升用户交互体验。
本发明一个优选实施例中,图3所示步骤S303之后还可以包括以下步骤:将所述用户选择的问题作为新的用户问题,继续与所述知识库中的问题进行匹配。
本实施例中,在针对用户输入的用户问题推送其之后出现的问题后,用户可以选择其中一个或多个问题。进而,针对用户选择的问题,可以继续与知识库中的问题进行匹配,也即重复图3所示步骤。
本发明实施例通过将用户选择的问题作为新的用户问题,实现了与用户的闭环交互过程,提升了用户体验。
请参照图4,图4是本发明实施例一种知识库构建装置的结构示意图。
知识库构建装置40可以包括原始客服数据获取模块401、分析模块402和概率确定模块403。
其中,原始客服数据获取模块401适于获取原始客服数据,所述原始客服数据包括多个会话,每一会话包括至少一个问题及其答案;分析模块402适于对所述多个会话进行分析,以确定各个问题和/或答案之间的上下文关系;概率确定模块403适于根据各个问题和/或答案之间的上下文关系,确定每一问题之后可能出现的下一问题及其出现概率,并加入所述知识库。
原始客服数据包括多个会话。每一会话包括至少一个问题及其答案。进一步地,每一问题可以具有多个答案。例如,对于用户的一个问题,客服给出了答案以及反问。具体地,原始客服数据可以是通话记录、问答记录等。
优选地,所述原始客服数据可以是预先采集的人工客服数据。由于人工客服针对用户的问题的答复更加精准,因此本发明实施例基于人工客服数据来构建知识库,可以使得知识库中各个问题的答案更加精准。
由于各个会话中多个问题及答案之间具备时间上的顺序,因此利用该顺序关系可以确定各个问题和/或答案之间的上下文关系。进一步地,各个问题和/或答案之间的上下文关系可以是指各个问题和/或答案的顺序关系。具体而言,各个问题之间的上下文关系可以是各个问题在时间上的顺序关系。
由于各个问题和/或答案之间的上下文关系可以表征用户的行为倾向,也即用户在提出当前问题后的下一问题,因此根据各个问题和/或答案之间的上下文关系,确定每一问题之后可能出现的下一问题及其出现概率。至此,知识库可以包括多个问题及其答案,以及每一问题之后可能出现的下一问题及其出现概率。
本发明实施例通过对原始客服数据中的会话进行分析,确定各个问题和/或答案之间的上下文关系,进而可以确定每一问题之后可能出现的下一问题及其出现概率。由于知识库中的各个问题和/或答案之间具备上下文关系以及出现概率,从而使得各个问题和/或答案之间具备关联;在使用知识库与用户进行交互时,在回复用户问题的答案时,还可以预测用户的下一问题,实现了对用户行为的预测,提高了用户的交互体验。
本发明一个优选实施例中,请参照图5,分析模块402可以包括分类单元4021,适于分析提取各个会话对应的业务主题,并按照所述业务主题对所述知识库中的各个问题及其答案进行分类;上下文关系确定单元4022,适于在每一业务主题下,确定其中各个问题和/或答案之间的上下文关系。
本实施例中,在对所述多个会话进行分析时,可以提取各个会话对应的业务主题。例如,业务主题可以是查询余额业务、查积分业务等。
具体地,会话对应的业务主题可以是该会话的关键词,可以表征该会话的主要内容或其所属类别。
由此,在得到各个会话对应的业务主题后,可以按照所述业务主题对所述知识库中的各个问题及其答案进行分类,以得到各个业务主题下的问题及其答案。进而,在每一业务主题下,确定各个问题和/或答案之间的上下文关系。
本实施例中,由于确定上下文关系是在各个业务主题下进行的,因此仅需在各个业务主题下的问题及其答案中分析上下文关系即可,避免了在所有的大量数据中分析确定上下文关系,减小了计算量。
此外,由于确定上下文关系是在各个业务主题下进行的,因此知识库包括各个业务主题下的问题及其答案,以及每一问题之后可能出现的下一问题及其出现概率。在用户进行基于场景的交互时,可以进一步提升交互体验。
进一步地,利用预先训练的主题模型提取每一会话对应的业务主题,所述主题模型是采用词频逆文档频率算法或TextRank算法构建的。
本发明另一个优选实施例中,图4所示知识库构建装置40还可以包括扩展问确定模块(图未示),适于确定所述原始客服数据中各个问题的相似问题,以作为所述问题的扩展问题,并加入所述知识库;扩展问获取模块(图未示),适于提取所述原始客服数据中的各个问题,并通过爬虫方式获取所述问题的相似问题,并加入所述知识库。
本实施例中,为了扩展知识库的丰富性,避免出现无法回答用户问题的看,提高对用户问题回复的全面性,还可以在知识库中加入扩展问。
本发明实施例通过在大量的原始客服数据中确定各个问题的相似问题,以作为扩展问题。还可以通过爬虫方式在网页中获取各个问题的相似问题,以作为扩展问题加入知识库。具体地,通过爬虫方式获取相似问题的来源可以是问答平台。
相较于现有技术中人工撰写扩展问,本发明实施例基于原始客服数据获取扩展问题,或者通过爬虫的方式获取扩展问题,可以保证扩展问题的快速生成,同时保证扩展问题的丰富性。
本发明另一个具体实施例中,图4所示知识库构建装置40还可以包括清洗模块(图未示),适于对所述原始客服数据进行数据清洗,以剔除无效数据。
具体而言,原始客服数据中可能包含大量无效数据,为了提高知识库构建的效率,可以预先对原始客服数据进行清洗,纠正原始客服数据中可识别的错误,以剔除无效数据。例如,检查原始客服数据的一致性,处理无效值和缺失值、去除原始客服数据中的停用词等。
可以理解的是,对原始客服数据进行数据清洗的过程可以采用任意可实施的算法进行,本发明实施例对此不做限制。
关于所述知识库构建装置40的工作原理、工作方式的更多内容,可以参照图1至图3中的相关描述,这里不再赘述。
请参照图6,基于知识库的智能问答装置60可以包括问题获取模块601、匹配模块602和推送模块603。
其中,问题获取模块601适于获取用户问题;匹配模块602适于将所述用户问题与知识库构建方法构建的知识库中的问题进行匹配;推送模块603适于将与所述用户问题匹配的问题之后出现概率最大的预设数量个问题推送给用户,以供用户选择。
用户需要交互时,可以输入用户问题。用户问题可以是语音,也可以是文本。可以获取所述用户问题。具体地,在用户问题为语音数据时,可以将语音数据转换为文本数据,以便用于后续步骤的语义匹配。
将用户问题与知识库中的问题进行匹配。具体地,此处的匹配过程可以是语义匹配,将用户问题与知识库中的问题进行语义匹配。更具体地,可以计算用户问题与知识库中问题的语义相似度;如果语义相似度达到预设阈值,则表示用户问题与知识库中的问题相匹配;反之则表示用户问题与知识库中的问题不匹配。
本领域技术人员可以理解的是,可以采用任意可实施的算法计算语义相似度,本发明实施例对此不做些限制。
可以将与用户问题相匹配的知识库中问题对应的答案反馈给用户。
具体实施中,还可以将与用户问题相匹配的问题之后出现概率最大的预设数量个问题推送给用户。更具体地,还可以将与用户问题相匹配的问题之后可能出现的全部问题推送给用户。
例如,在反馈针对用户问题的答案之后,将用户问题后出现概率最大的问题1、问题2和问题3呈现给用户,用户可以在上述三个问题中进行选择以进行下一次的交互过程。
具体应用场景中,用户与智能问答机器人进行交互。用户输入的用户问题为“查询积分”,智能问答机器人回复的答案是“输入用户的身份证号”;智能问答机器人还可以推送消息“现在有积分活动,是否需要办理”。
具体地,推送的多个问题可以是图形、文字、语音等任意可实施的形式。
由此,利用本实施例的知识库与用户交互时,可以对用户问题之后的问题进行预测和推送,提升了用户体验。
本发明一个具体实施例中,推送模块603可以包括业务主题确定单元(图未示),适于确定与所述用户问题匹配的问题所在会话对应的业务主题;推送单元(图未示),适于在所述业务主题下,将与所述用户问题匹配的问题之后出现概率最大的预设数量个问题推送给所述用户。
本发明另一个具体实施例中,基于知识库的智能问答装置60还可以包括迭代模块(图未示),适于将所述用户选择的问题作为新的用户问题,继续与所述知识库中的问题进行匹配。
本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时可以执行图1、图2中所示知识库构建方法的步骤,或者执行图3中所示的基于知识库的智能问答方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。
本发明实施例还公开了一种终端,所述终端可以包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1、图2中所示知识库构建方法的步骤,或者执行图3中所示的基于知识库的智能问答方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (22)
1.一种知识库构建方法,其特征在于,包括:
获取原始客服数据,所述原始客服数据包括多个会话,每一会话包括至少一个问题及其答案;
对所述多个会话进行分析,以确定各个问题和/或答案之间的上下文关系;
根据各个问题和/或答案之间的上下文关系,确定每一问题之后可能出现的下一问题及其出现概率,并加入所述知识库。
2.根据权利要求1所述的知识库构建方法,其特征在于,所述上下文关系包括各个问题和/或答案的顺序关系。
3.根据权利要求1所述的知识库构建方法,其特征在于,所述对所述多个会话进行分析,以确定各个问题和/或答案之间的上下文关系包括:
分析提取各个会话对应的业务主题,并按照所述业务主题对所述知识库中的各个问题及其答案进行分类;
在每一业务主题下,确定其中各个问题和/或答案之间的上下文关系。
4.根据权利要求3所述的知识库构建方法,其特征在于,利用预先训练的主题模型提取每一会话对应的业务主题,所述主题模型是采用词频逆文档频率算法或TextRank算法构建的。
5.根据权利要求1所述的知识库构建方法,其特征在于,还包括:
确定所述原始客服数据中各个问题的相似问题,以作为所述问题的扩展问题,并加入所述知识库;
或者,提取所述原始客服数据中的各个问题,并通过爬虫方式获取所述问题的相似问题,并加入所述知识库。
6.根据权利要求1所述的知识库构建方法,其特征在于,所述原始客服数据为人工客服数据。
7.根据权利要求1所述的知识库构建方法,其特征在于,所述对所述多个会话进行分析之前还包括:
对所述原始客服数据进行数据清洗,以剔除无效数据。
8.一种基于知识库的智能问答方法,其特征在于,包括:
获取用户问题;
将所述用户问题与权利要求1至7中任一项所述的知识库构建方法构建的知识库中的问题进行匹配;
将与所述用户问题匹配的问题之后出现概率最大的预设数量个问题推送给用户,以供所述用户选择。
9.根据权利要求8所述的基于知识库的智能问答方法,其特征在于,所述将所述知识库中与所述用户问题匹配的问题之后可能出现的概率最大的问题推送给用户包括:
确定与所述用户问题匹配的问题所在会话对应的业务主题;
在所述业务主题下,将与所述用户问题匹配的问题之后出现概率最大的预设数量个问题推送给所述用户。
10.根据权利要求8所述的基于知识库的智能问答方法,其特征在于,还包括:将所述用户选择的问题作为新的用户问题,继续与所述知识库中的问题进行匹配。
11.一种知识库构建装置,其特征在于,包括:
原始客服数据获取模块,适于获取原始客服数据,所述原始客服数据包括多个会话,每一会话包括至少一个问题及其答案;
分析模块,适于对所述多个会话进行分析,以确定各个问题和/或答案之间的上下文关系;
概率确定模块,适于根据各个问题和/或答案之间的上下文关系,确定每一问题之后可能出现的下一问题及其出现概率,并加入所述知识库。
12.根据权利要求11所述的知识库构建装置,其特征在于,所述上下文关系包括各个问题和/或答案的顺序关系。
13.根据权利要求11所述的知识库构建装置,其特征在于,所述分析模块包括:分类单元,适于分析提取各个会话对应的业务主题,并按照所述业务主题对所述知识库中的各个问题及其答案进行分类;
上下文关系确定单元,适于在每一业务主题下,确定其中各个问题和/或答案之间的上下文关系。
14.根据权利要求13所述的知识库构建装置,其特征在于,利用预先训练的主题模型提取每一会话对应的业务主题,所述主题模型是采用词频逆文档频率算法或TextRank算法构建的。
15.根据权利要求11所述的知识库构建装置,其特征在于,还包括:
扩展问确定模块,适于确定所述原始客服数据中各个问题的相似问题,以作为所述问题的扩展问题,并加入所述知识库;
扩展问获取模块,适于提取所述原始客服数据中的各个问题,并通过爬虫方式获取所述问题的相似问题,并加入所述知识库。
16.根据权利要求11所述的知识库构建装置,其特征在于,所述原始客服数据为人工客服数据。
17.根据权利要求11所述的知识库构建装置,其特征在于,还包括:
清洗模块,适于对所述原始客服数据进行数据清洗,以剔除无效数据。
18.一种基于知识库的智能问答装置,其特征在于,包括:
问题获取模块,适于获取用户问题;
匹配模块,适于将所述用户问题与权利要求1至7中任一项所述的知识库构建方法构建的知识库中的问题进行匹配;
推送模块,适于将与所述用户问题匹配的问题之后出现概率最大的预设数量个问题推送给用户,以供用户选择。
19.根据权利要求18所述的基于知识库的智能问答装置,其特征在于,所述推送模块包括:
业务主题确定单元,适于确定与所述用户问题匹配的问题所在会话对应的业务主题;
推送单元,适于在所述业务主题下,将与所述用户问题匹配的问题之后出现概率最大的预设数量个问题推送给所述用户。
20.根据权利要求18所述的基于知识库的智能问答装置,其特征在于,还包括:迭代模块,适于将所述用户选择的问题作为新的用户问题,继续与所述知识库中的问题进行匹配。
21.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至7中任一项所述知识库构建方法的步骤,或者执行权利要求8至10中任一项所述的基于知识库的智能问答方法的步骤。
22.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至7中任一项所述知识库构建方法的步骤,或者执行权利要求8至10中任一项所述的基于知识库的智能问答方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810299452.2A CN108509617A (zh) | 2018-04-04 | 2018-04-04 | 知识库构建、基于知识库的智能问答方法及装置、存储介质、终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810299452.2A CN108509617A (zh) | 2018-04-04 | 2018-04-04 | 知识库构建、基于知识库的智能问答方法及装置、存储介质、终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108509617A true CN108509617A (zh) | 2018-09-07 |
Family
ID=63380686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810299452.2A Pending CN108509617A (zh) | 2018-04-04 | 2018-04-04 | 知识库构建、基于知识库的智能问答方法及装置、存储介质、终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108509617A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388697A (zh) * | 2018-10-10 | 2019-02-26 | 成都小多科技有限公司 | 处理问答语料的方法、装置及电子终端 |
CN109388694A (zh) * | 2018-09-21 | 2019-02-26 | 神思电子技术股份有限公司 | 一种用于对话系统的富文本存储及展示方法 |
CN109446304A (zh) * | 2018-10-10 | 2019-03-08 | 长沙师范学院 | 智能客服会话方法及系统 |
CN109582778A (zh) * | 2018-12-12 | 2019-04-05 | 东软集团股份有限公司 | 一种智能问答方法、装置、设备及介质 |
CN110046234A (zh) * | 2019-02-12 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 问答模型优化方法及装置、问答机器人系统 |
CN110138986A (zh) * | 2019-04-30 | 2019-08-16 | 五竹科技(天津)有限公司 | 与外呼流程相关的知识图谱的构建方法、装置及存储介质 |
CN110442690A (zh) * | 2019-06-26 | 2019-11-12 | 重庆兆光科技股份有限公司 | 一种基于概率推理的询问优化方法、系统和介质 |
CN111046151A (zh) * | 2018-10-15 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种消息处理方法及装置 |
CN111382265A (zh) * | 2018-12-28 | 2020-07-07 | 中国移动通信集团贵州有限公司 | 搜索方法、装置、设备和介质 |
CN111382264A (zh) * | 2018-12-27 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 会话质量评价方法、装置及电子设备 |
CN111460085A (zh) * | 2020-04-17 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 基于图结构的知识点推荐方法及装置 |
CN112015875A (zh) * | 2020-08-24 | 2020-12-01 | 北京智齿博创科技有限公司 | 在线客服助手的构建方法 |
CN112287082A (zh) * | 2019-12-31 | 2021-01-29 | 北京来也网络科技有限公司 | 结合rpa与ai的数据的处理方法、装置、设备及存储介质 |
CN112528010A (zh) * | 2020-12-15 | 2021-03-19 | 建信金融科技有限责任公司 | 知识推荐方法、装置、计算机设备及可读存储介质 |
CN113111155A (zh) * | 2020-01-10 | 2021-07-13 | 阿里巴巴集团控股有限公司 | 信息展示方法、装置、设备及存储介质 |
CN113535915A (zh) * | 2018-09-28 | 2021-10-22 | 北京百度网讯科技有限公司 | 用于扩充数据集的方法 |
CN113569028A (zh) * | 2021-07-27 | 2021-10-29 | 北京政信1890智能科技有限公司 | 智能客服知识库模型训练方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答系统实现方法 |
CN103455535A (zh) * | 2013-05-08 | 2013-12-18 | 深圳市明唐通信有限公司 | 基于历史咨询数据构建知识库的方法 |
CN106484801A (zh) * | 2016-09-23 | 2017-03-08 | 厦门快商通科技股份有限公司 | 一种智能客服机器人的对话方法及其知识库管理系统 |
US20170076204A1 (en) * | 2013-02-06 | 2017-03-16 | International Business Machines Corporation | Natural language question expansion and extraction |
CN106570708A (zh) * | 2016-10-31 | 2017-04-19 | 厦门快商通科技股份有限公司 | 一种智能客服知识库的管理方法及系统 |
CN107451199A (zh) * | 2017-07-05 | 2017-12-08 | 阿里巴巴集团控股有限公司 | 问题推荐方法及装置、设备 |
-
2018
- 2018-04-04 CN CN201810299452.2A patent/CN108509617A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答系统实现方法 |
US20170076204A1 (en) * | 2013-02-06 | 2017-03-16 | International Business Machines Corporation | Natural language question expansion and extraction |
CN103455535A (zh) * | 2013-05-08 | 2013-12-18 | 深圳市明唐通信有限公司 | 基于历史咨询数据构建知识库的方法 |
CN106484801A (zh) * | 2016-09-23 | 2017-03-08 | 厦门快商通科技股份有限公司 | 一种智能客服机器人的对话方法及其知识库管理系统 |
CN106570708A (zh) * | 2016-10-31 | 2017-04-19 | 厦门快商通科技股份有限公司 | 一种智能客服知识库的管理方法及系统 |
CN107451199A (zh) * | 2017-07-05 | 2017-12-08 | 阿里巴巴集团控股有限公司 | 问题推荐方法及装置、设备 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388694A (zh) * | 2018-09-21 | 2019-02-26 | 神思电子技术股份有限公司 | 一种用于对话系统的富文本存储及展示方法 |
CN113535915A (zh) * | 2018-09-28 | 2021-10-22 | 北京百度网讯科技有限公司 | 用于扩充数据集的方法 |
CN109388697A (zh) * | 2018-10-10 | 2019-02-26 | 成都小多科技有限公司 | 处理问答语料的方法、装置及电子终端 |
CN109446304A (zh) * | 2018-10-10 | 2019-03-08 | 长沙师范学院 | 智能客服会话方法及系统 |
CN111046151A (zh) * | 2018-10-15 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种消息处理方法及装置 |
CN109582778A (zh) * | 2018-12-12 | 2019-04-05 | 东软集团股份有限公司 | 一种智能问答方法、装置、设备及介质 |
CN111382264A (zh) * | 2018-12-27 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 会话质量评价方法、装置及电子设备 |
CN111382264B (zh) * | 2018-12-27 | 2023-06-09 | 阿里巴巴集团控股有限公司 | 会话质量评价方法、装置及电子设备 |
CN111382265A (zh) * | 2018-12-28 | 2020-07-07 | 中国移动通信集团贵州有限公司 | 搜索方法、装置、设备和介质 |
CN111382265B (zh) * | 2018-12-28 | 2023-09-19 | 中国移动通信集团贵州有限公司 | 搜索方法、装置、设备和介质 |
CN110046234A (zh) * | 2019-02-12 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 问答模型优化方法及装置、问答机器人系统 |
CN110046234B (zh) * | 2019-02-12 | 2023-03-14 | 创新先进技术有限公司 | 问答模型优化方法及装置、问答机器人系统 |
CN110138986A (zh) * | 2019-04-30 | 2019-08-16 | 五竹科技(天津)有限公司 | 与外呼流程相关的知识图谱的构建方法、装置及存储介质 |
CN113051405A (zh) * | 2019-04-30 | 2021-06-29 | 五竹科技(北京)有限公司 | 基于对话场景的智能外呼知识图谱构建方法及装置 |
CN112911073A (zh) * | 2019-04-30 | 2021-06-04 | 五竹科技(北京)有限公司 | 外呼流程对话内容的智能化知识图谱构建方法及装置 |
CN110442690A (zh) * | 2019-06-26 | 2019-11-12 | 重庆兆光科技股份有限公司 | 一种基于概率推理的询问优化方法、系统和介质 |
CN110442690B (zh) * | 2019-06-26 | 2021-08-17 | 重庆兆光科技股份有限公司 | 一种基于概率推理的询问优化方法、系统和介质 |
CN112287082A (zh) * | 2019-12-31 | 2021-01-29 | 北京来也网络科技有限公司 | 结合rpa与ai的数据的处理方法、装置、设备及存储介质 |
CN113111155A (zh) * | 2020-01-10 | 2021-07-13 | 阿里巴巴集团控股有限公司 | 信息展示方法、装置、设备及存储介质 |
CN113111155B (zh) * | 2020-01-10 | 2024-04-19 | 阿里巴巴集团控股有限公司 | 信息展示方法、装置、设备及存储介质 |
CN111460085A (zh) * | 2020-04-17 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 基于图结构的知识点推荐方法及装置 |
CN112015875B (zh) * | 2020-08-24 | 2022-09-02 | 北京智齿博创科技有限公司 | 在线客服助手的构建方法 |
CN112015875A (zh) * | 2020-08-24 | 2020-12-01 | 北京智齿博创科技有限公司 | 在线客服助手的构建方法 |
CN112528010A (zh) * | 2020-12-15 | 2021-03-19 | 建信金融科技有限责任公司 | 知识推荐方法、装置、计算机设备及可读存储介质 |
CN113569028A (zh) * | 2021-07-27 | 2021-10-29 | 北京政信1890智能科技有限公司 | 智能客服知识库模型训练方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509617A (zh) | 知识库构建、基于知识库的智能问答方法及装置、存储介质、终端 | |
CN104951428B (zh) | 用户意图识别方法及装置 | |
CN107451199B (zh) | 问题推荐方法及装置、设备 | |
JP7343568B2 (ja) | 機械学習のためのハイパーパラメータの識別および適用 | |
EP3617952A1 (en) | Information search method, apparatus and system | |
WO2017071251A1 (zh) | 信息推送方法和装置 | |
CN113360622B (zh) | 用户对话信息的处理方法、装置及计算机设备 | |
CN112669096B (zh) | 对象推荐模型训练方法以及装置 | |
CN105574025A (zh) | 用于计算排序分及建立模型的方法、装置及商品推荐系统 | |
CN109167816A (zh) | 信息推送方法、装置、设备和存储介质 | |
JP2021166109A (ja) | 融合順序付けモデルの訓練方法と装置、検索の順序付け方法と装置、電子デバイス、記憶媒体、及びプログラム | |
CN109739961A (zh) | 一种人机语言交互方法及装置 | |
CN103942268B (zh) | 搜索与应用相结合的方法、设备以及应用接口 | |
CN110909182A (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
US20200334697A1 (en) | Generating survey responses from unsolicited messages | |
KR102458510B1 (ko) | 실시간 보완 가능한 마케팅 시스템 | |
CN109948036A (zh) | 一种分词词项权重的计算方法和装置 | |
CN108153909A (zh) | 关键词投放拓词方法、装置及电子设备、存储介质 | |
CN109446431A (zh) | 用于信息推荐的方法、装置、介质、和计算设备 | |
CN108182200A (zh) | 基于语义相似度的关键词拓展方法和装置 | |
CN110008396B (zh) | 对象信息推送方法、装置、设备及计算机可读存储介质 | |
CN107679186A (zh) | 基于实体库进行实体搜索的方法及装置 | |
CN111966885B (zh) | 一种用户画像的构建方法和装置 | |
CN110377803B (zh) | 信息处理方法以及装置 | |
CN115203395A (zh) | 基于大数据的商品关键词确定方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1255703 Country of ref document: HK |
|
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180907 |
|
RJ01 | Rejection of invention patent application after publication |