CN114153948A - 问答知识库的构建方法、智能交互方法及装置 - Google Patents

问答知识库的构建方法、智能交互方法及装置 Download PDF

Info

Publication number
CN114153948A
CN114153948A CN202111503752.6A CN202111503752A CN114153948A CN 114153948 A CN114153948 A CN 114153948A CN 202111503752 A CN202111503752 A CN 202111503752A CN 114153948 A CN114153948 A CN 114153948A
Authority
CN
China
Prior art keywords
question
text
knowledge base
answer
question text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111503752.6A
Other languages
English (en)
Inventor
潘宏
程强
黄青君
马波
李刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202111503752.6A priority Critical patent/CN114153948A/zh
Publication of CN114153948A publication Critical patent/CN114153948A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种问答知识库的构建方法、智能交互方法及装置,涉及人工智能技术领域,包括:获取用于构建问答知识库的语料集合对语料集合中的每一问题文本进行语义解析处理,得到每一问题文本的用户意图,根据各问题文本各自对应的用户意图确定语料集合的问题文本覆盖范围,根据每一问题文本的用户意图对语料集合中的各问题文本进行归类处理,得到各问题文本各自对应的类别属性,根据语料集合的问题文本覆盖范围、各问题文本各自对应的类别属性构建问答知识库,问答知识库用于对用户发起的交互消息进行反馈,实现了构建问答知识库的自动化和智能化,提高了基于问答知识库对用户的问题进行答复时的准确性和有效性。

Description

问答知识库的构建方法、智能交互方法及装置
技术领域
本公开涉及人工智能技术领域,尤其涉及一种问答知识库的构建方法、智能交互方法及装置。
背景技术
问答系统广泛应用于如电商智能客服、聊天机器、智能语音助手等领域,问答知识库是问答系统中重要构成部分之一。问答知识库为问答系统提供常见问题解答(Frequently Asked Questions,FAQ),其构建效率和质量对问答系统的效果有着重要的影响。
在现有技术中,问答知识库的构建方法包括:知识库维护人员通过excel表格收集或编辑数据,然后人工筛选出自己心目认为用户可能或者日常提出的问题,通过维护模块编辑录入存储器,从而得到问答知识库。
然而,采用上述人工的方式构建问答知识库,存在效率低且准确性偏低的问题。
发明内容
本公开实施例提供一种问答知识库的构建方法、智能交互方法及装置,用以解决构建问答知识库的效率低的问题。
第一方面,本公开实施例提供一种问答知识库的构建方法,包括:
获取用于构建问答知识库的语料集合,其中,所述语料集合中的每一语料包括问题文本、以及与问题文本对应的答案文本;
对所述语料集合中的每一问题文本进行语义解析处理,得到每一问题文本的用户意图,根据各问题文本各自对应的用户意图确定所述语料集合的问题文本覆盖范围,并根据每一问题文本的用户意图对所述语料集合中的各问题文本进行归类处理,得到各问题文本各自对应的类别属性;
根据所述语料集合的问题文本覆盖范围、各问题文本各自对应的类别属性构建所述问答知识库,其中,所述问答知识库包括粗分类器和至少一个细分类器,所述粗分类器用于确定所述问答知识库的问题文本覆盖范围,所述至少一个细分类器用于确定各问题文本各自对应的类别属性,所述问答知识库用于对用户发起的交互消息进行反馈。
在一些实施例中,对所述语料集合中的每一问题文本进行语义解析处理,得到每一问题文本的用户意图,包括;
对每一问题文本进行关键词提取处理,得到每一问题文本的关键词,并对每一问题文本进行实体词识别且合并处理,得到每一问题文本的实体词;
根据每一问题文本的关键词、每一问题文本的实体词确定每一问题文本的用户意图。
在一些实施例中,对每一问题文本进行关键词提取处理,得到每一问题文本的关键词,并对每一问题文本进行实体词识别且合并处理,得到每一问题文本的实体词,包括:
对每一问题文本进行分词处理,得到每一问题文本的各分词,确定每一分词的词性信息;
根据各分词的词性信息从各分词中进行关键词提取处理,得到每一问题文本的关键词,并根据各分词的词性信息对各分词进行实体词识别且合并处理,得到每一问题文本的实体词。
在一些实施例中,根据各问题文本各自对应的用户意图确定所述语料集合的问题文本覆盖范围,包括:
根据每一问题文本对应的用户意图确定每一问题文本所表征的所述问答知识库的性能属性,并根据各问题文本各自所表征的所述问答知识库的性能属性确定所述语料集合的问题文本覆盖范围。
在一些实施例中,还包括:
接收更新所述问答知识库的语料,其中,更新所述知识库的语料中包括问题更新文本;
若根据所述粗分类器确定所述问题更新文本的覆盖范围被包含于所述问答知识库的问题文本覆盖范围,则根据每一细分类器预测所述问题更新文本属于每一细分类器的类别属性置信度,并根据各类别属性置信度对所述问答知识库的细分类器进行更新。
在一些实施例中,细分类器中包括问题文本列表;根据各类别属性置信度对所述问答知识库的细分类器进行更新,包括:
从各类别属性置信度中确定最高类别属性置信度,并从所述最高类别属性置信度的细分类器中,确定并输出与所述问题更新文本的相似度大于预设相似度阈值的问题文本列表、以及确定出的问题文本列表的答案文本;
响应于接收到针对输出的与所述问题更新文本的相似度大于预设相似度阈值的问题文本列表、以及确定出的问题文本列表的答案文本的确认指示,将所述问题更新文本添加至所述最高类别属性置信度的细分类器的问题文本列表,以对所述问答知识库的细分类器进行更新。
在一些实施例中,所述最高类别属性置信度的细分类器的问题文本列表包括相似问题文本列表和非相似性问题文本列表;将所述问题更新文本添加至所述最高类别属性置信度的细分类器的问题文本列表中,包括:
将所述问题更新文本与所述相似问题文本列表中的问题文本进行相似性比对,得到比对结果;
若所述比对结果表征所述问题更新文本与所述相似性文本列表中的问题文本的相似性大于预设的相似性阈值,则将所述问题更新文本添加至所述相似性文本列表;
若所述比对结果表征所述问题更新文本与所述相似性文本列表中的问题文本的相似性小于或等于所述相似性阈值,则将所述问题更新文本添加至所述非相似性文本列表;
其中,所述相似性文本和所述非相似性文本用于更新所述问题知识库。
第二方面,本公开实施例提供了一种智能交互方法,包括:
接收用户发起的交互消息,其中,所述交互消息中携带问题信息;
从预设问答知识库中确定与所述问题信息对应的答案文本,并根据所述答案问题生成并输出与所述交互消息对应的反馈消息,其中,所述问题知识库是基于如第一方面所述的方法构建的。
第三方面,本公开实施例提供了一种问答知识库的构建装置,包括:
获取单元,用于获取用于构建问答知识库的语料集合,其中,所述语料集合中的每一语料包括问题文本、以及与问题文本对应的答案文本;
解析单元,用于对所述语料集合中的每一问题文本进行语义解析处理,得到每一问题文本的用户意图;
第一确定单元,用于根据各问题文本各自对应的用户意图确定所述语料集合的问题文本覆盖范围;
归类单元,用于根据每一问题文本的用户意图对所述语料集合中的各问题文本进行归类处理,得到各问题文本各自对应的类别属性;
构建单元,用于根据所述语料集合的问题文本覆盖范围、各问题文本各自对应的类别属性构建所述问答知识库,其中,所述问答知识库包括粗分类器和至少一个细分类器,所述粗分类器用于确定所述问答知识库的问题文本覆盖范围,所述至少一个细分类器用于确定各问题文本各自对应的类别属性,所述问答知识库用于对用户发起的交互消息进行反馈。
在一些实施例中,所述解析单元,包括:
提取子单元,用于对每一问题文本进行关键词提取处理,得到每一问题文本的关键词;
识别子单元,用于对每一问题文本进行实体词识别且合并处理,得到每一问题文本的实体词;
第一确定子单元,用于根据每一问题文本的关键词、每一问题文本的实体词确定每一问题文本的用户意图。
在一些实施例中,提取子单元用于,对每一问题文本进行分词处理,得到每一问题文本的各分词,确定每一分词的词性信息,并根据各分词的词性信息从各分词中进行关键词提取处理,得到每一问题文本的关键词;
识别子单元用于,根据各分词的词性信息对各分词进行实体词识别且合并处理,得到每一问题文本的实体词。
在一些实施例中,第一确定单元,包括:
第二确定子单元,用于根据每一问题文本对应的用户意图确定每一问题文本所表征的所述问答知识库的性能属性;
第三确定子单元,用于根据各问题文本各自所表征的所述问答知识库的性能属性确定所述语料集合的问题文本覆盖范围。
在一些实施例中,还包括:
第一接收单元,用于接收更新所述问答知识库的语料,其中,更新所述知识库的语料中包括问题更新文本;
预测单元,用于若根据所述粗分类器确定所述问题更新文本的覆盖范围被包含于所述问答知识库的问题文本覆盖范围,则根据每一细分类器预测所述问题更新文本属于每一细分类器的类别属性置信度;
更新单元,用于根据各类别属性置信度对所述问答知识库的细分类器进行更新。
在一些实施例中,细分类器中包括问题文本列表;所述更新单元,包括:
第四确定子单元,用于从各类别属性置信度中确定最高类别属性置信度,并从所述最高类别属性置信度的细分类器中,确定并输出与所述问题更新文本的相似度大于预设相似度阈值的问题文本列表、以及确定出的问题文本列表的答案文本;
添加子单元,用于响应于接收到针对输出的与所述问题更新文本的相似度大于预设相似度阈值的问题文本列表、以及确定出的问题文本列表的答案文本的确认指示,将所述问题更新文本添加至所述最高类别属性置信度的细分类器的问题文本列表,以对所述问答知识库的细分类器进行更新。
在一些实施例中,所述最高类别属性置信度的细分类器的问题文本列表包括相似问题文本列表和非相似性问题文本列表;所述添加子单元用于,将所述问题更新文本与所述相似问题文本列表中的问题文本进行相似性比对,得到比对结果,若所述比对结果表征所述问题更新文本与所述相似性文本列表中的问题文本的相似性大于预设的相似性阈值,则将所述问题更新文本添加至所述相似性文本列表,若所述比对结果表征所述问题更新文本与所述相似性文本列表中的问题文本的相似性小于或等于所述相似性阈值,则将所述问题更新文本添加至所述非相似性文本列表;
其中,所述相似性文本和所述非相似性文本用于更新所述问题知识库。
第四方面,本公开实施例提供了一种智能交互装置,包括:
第二接收单元,用于接收用户发起的交互消息,其中,所述交互消息中携带问题信息;
第二确定单元,用于从预设问答知识库中确定与所述问题信息对应的答案文本;
生成单元,用于根据所述答案问题生成与所述交互消息对应的反馈消息;
输出单元,用于输出所述反馈消息,其中,所述问题知识库是基于如第一方面所述的方法构建的。
第五方面,本公开实施例提供了一种电子设备,包括:存储器,处理器;
存储器,用于存储所述处理器可执行指令;
其中,所述处理器被配置为执行如第一方面所述的方法;或者,所述处理器被配置为执行如第二方面所述的方法。
第六方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法;或者,所述计算机执行指令被处理器执行时用于实现如第二方面所述的方法。
第七方面,本公开实施例提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面所述的方法;或者,所述计算机程序在被处理器执行时实现根据第二方面所述的方法。
本实施例提供了一种问答知识库的构建方法、智能交互方法及装置,包括:获取用于构建问答知识库的语料集合,其中,语料集合中的每一语料包括问题文本、以及与问题文本对应的答案文本,对语料集合中的每一问题文本进行语义解析处理,得到每一问题文本的用户意图,根据各问题文本各自对应的用户意图确定语料集合的问题文本覆盖范围,并根据每一问题文本的用户意图对语料集合中的各问题文本进行归类处理,得到各问题文本各自对应的类别属性,根据语料集合的问题文本覆盖范围、各问题文本各自对应的类别属性构建问答知识库,其中,问答知识库包括粗分类器和至少一个细分类器,粗分类器用于确定问答知识库的问题文本覆盖范围,至少一个细分类器用于确定各问题文本各自对应的类别属性,问答知识库用于对用户发起的交互消息进行反馈,在本实施例中,引入了:根据各用户意图确定语料集合的问题文本覆盖范围,以根据该覆盖范围构建粗分类器,并根据各问题文本各自对应的类别属性构建细分类器,以构建包括粗分类器和细分类器的问答知识库的技术特征,避免了相关技术中采用人工方式构建问答知识库造成的成本高、效率低、可靠性低等技术问题,实现了构建问答知识库的自动化和智能化,且使得问答知识库包括多个维度的内容,以提高当基于问答知识库对用户的问题进行答复时的准确性和有效性的技术效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为根据本公开一个实施例的问答知识库的构建方法的示意图;
图2为根据本公开另一实施例的问答知识库的构建方法的示意图;
图3为根据本公开实施例的智能交互方法的示意图;
图4为根据本公开一个实施例的问答知识库的构建装置的示意图;
图5为根据本公开另一实施例的问答知识库的构建装置的示意图;
图6为根据本公开实施例的智能交互装置的示意图;
图7为根据本公开实施例的问答知识库的构建方法的电子设备的框图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
问答系统广泛应用于如电商智能客服、聊天机器、智能语音助手等领域,问答知识库是问答系统中重要构成部分之一。
在相关技术中,问答知识库的构建方法包括:问答知识库维护人员通过excel表格收集或编辑数据,然后人工筛选出自己心目认为用户可能或者日常提出的问题和答案,通过问答系统中的维护模块编辑录入至问答系统的存储器。
其中,为了提高问答知识库中的数据质量,还可以通过审核机制对录入至问答知识库的数据进行质量审查,即普通维护人员通过知识库维护模块编辑问题和答案数据,然后提交给审核人员进行审核,审核人员通过后存入问答系统。
一般而言,问答系统中的问答知识库依赖于存储器的选型,而大多存储器直接使用检索系统,整个问答知识库的组织形式也依赖于外部存储,而问答系统也是一个检索式的系统,质量和构建效率无法保证。另外,问答知识库本身也没有一个自我学习组织提升的手段去有效的构建自己。
基于上述分析,相关技术是采用采用人工的方式构建问答知识库,然而,采用人工的方式构建问答知识库,存在下述技术问题中的一种或多种:
效率低代价高:人工构建问答知识库最大的缺点便是效率低下,如果问答系统涉及问题较多且更新较为频繁,那么需要大量人员进行编辑,这样人力成本较高。
质量差:问答知识库的维护人员通常不止一个人,然而,每个人对同一个问题的理解是不一样的,存在一定的偏差。同时,问答知识库维护人员录入问答系统的问题和用户提出的问题通常也不一致,因此,这会降低智能问答系统的问答准确率。
可扩展性差:目前很多问答知识库大多服务于某一特殊领域,很难很快的应用到其他领域。
问答知识库无组织:当前大多问答系统较为简单,其回答的方法依赖检索系统,或依赖关键词匹配等技术,因此,其问答知识库组织方式也较为简单。
更新迭代慢:问答知识库经常已经录入很长时间不太更新或者更新不及时,没有自动构建学习的过程。
为了避免上述技术问题中的一种或多种,本公开的发明人经过创造性的劳动,得到了本公开的发明构思:对问题文本进行语义解析处理,得到用户意图,根据用户意图确定语料集合的覆盖范围,并根据用户意图对问题文本进行分类处理,得到各自对应的类别属性,以基于覆盖范围构建粗分类器,类别属性构建细分类器,从而得到问答数据库。
下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例进行描述。
根据本公开实施例的一个方面,本公开实施例提供了一种问答知识库的构建方法。
请参阅图1,图1为根据本公开一个实施例的问答知识库的构建方法的示意图。
如图1所示,该方法包括:
S101:获取用于构建问答知识库的语料集合。其中,语料集合中的每一语料包括问题文本、以及与问题文本对应的答案文本。
示例性的,本实施例的执行主体可以为问答知识库的构建装置(下文简称为构建装置),构建装置可以为服务器(如云端服务器,或者,本地服务器),也可以为终端设备,也可以为计算机,也可以为处理器,也可以为芯片等,本实施例不做限定。
本实施例对语料集合中的语料的数量不做限定,语料集合中的语料的数量可以基于需求、历史记录、以及试验等方式进行确定。
例如,针对要求相对较高的交互场景的问答知识库,可以采用相对较多的语料,而针对要求相对较低的交互场景的问答知识库,可以采用相对较少的语料。
且针对同一答案文本,可以有多个问题文本与之对应,即一个答案文本对应多个问题文本,而通常而言,一个问题文本对应一个答案文本。
需要说明的是,本实施例对获取语料集合的方式不做限定,例如可以通过线上抓取的方式获取语料集合,也可以通过线下筛选的方式获取语料集合,也可以采用该两种方式相结合获取语料集合,等等,此处不再一一列举。
S102:对语料集合中的每一问题文本进行语义解析处理,得到每一问题文本的用户意图。
其中,本实施例对语义解析处理的方式不做限定,例如可以通过字符串解析的方式实现。
S103:根据各问题文本各自对应的用户意图确定语料集合的问题文本覆盖范围,并根据每一问题文本的用户意图对语料集合中的各问题文本进行归类处理,得到各问题文本各自对应的类别属性。
示例性的,在确定出各问题文本各自对应的用户意图之后,可以基于所有的用户意图确定语料集合可以覆盖的问题的范围,并可以确定每一问题文本对应的类别属性。
其中,类别属性是指问题文本所涉及的问题的行业的类别,如体育、新闻、财经等类别。
S104:根据语料集合的问题文本覆盖范围、各问题文本各自对应的类别属性构建问答知识库。其中,问答知识库包括粗分类器和至少一个细分类器,粗分类器用于确定问答知识库的问题文本覆盖范围,至少一个细分类器用于确定各问题文本各自对应的类别属性,问答知识库用于对用户发起的交互消息进行反馈。
也就是说,在本实施例中,可以基于语料集合的问题文本覆盖范围构建粗分类器,根据类别属性构建细分类器,以便构建包括粗分类器和细分类器的问答知识库。
基于上述分析可知,本公开实施例提供了一种问答知识库的构建方法,包括:获取用于构建问答知识库的语料集合,其中,语料集合中的每一语料包括问题文本、以及与问题文本对应的答案文本,对语料集合中的每一问题文本进行语义解析处理,得到每一问题文本的用户意图,根据各问题文本各自对应的用户意图确定语料集合的问题文本覆盖范围,并根据每一问题文本的用户意图对语料集合中的各问题文本进行归类处理,得到各问题文本各自对应的类别属性,根据语料集合的问题文本覆盖范围、各问题文本各自对应的类别属性构建问答知识库,其中,问答知识库包括粗分类器和至少一个细分类器,粗分类器用于确定问答知识库的问题文本覆盖范围,至少一个细分类器用于确定各问题文本各自对应的类别属性,问答知识库用于对用户发起的交互消息进行反馈,在本实施例中,引入了:根据各用户意图确定语料集合的问题文本覆盖范围,以根据该覆盖范围构建粗分类器,并根据各问题文本各自对应的类别属性构建细分类器,以构建包括粗分类器和细分类器的问答知识库的技术特征,避免了相关技术中采用人工方式构建问答知识库造成的成本高、效率低、可靠性低等技术问题,实现了构建问答知识库的自动化和智能化,且使得问答知识库包括多个维度的内容,以提高当基于问答知识库对用户的问题进行答复时的准确性和有效性的技术效果。
请参阅图2,图2为根据本公开另一实施例的问答知识库的构建方法的示意图。
如图2所示,该方法包括:
S201:获取用于构建问答知识库的语料集合。其中,语料集合中的每一语料包括问题文本、以及与问题文本对应的答案文本。
值得说明的是,关于本实施例与上述实施例中相同的技术特征,本实施例不再赘述。
在一些实施例中,问答系统可以包括语料收集器,由语料收集器对语料集合中的每一语料进行收集,例如,可以语料收集器可以由工作人员手动录入的语料,也可以从线上获取语料,也可以从线下获取语料,也可以在问答系统运行过程中,如在问答系统与用户交互时,获取用户发起的语料等,此处不再一一列举。
S202:对每一问题文本进行关键词提取处理,得到每一问题文本的关键词,并对每一问题文本进行实体词识别且合并处理,得到每一问题文本的实体词。
在一些实施例中,S202可以包括如下步骤:
第一步骤:对每一问题文本进行分词处理,得到每一问题文本的各分词,确定每一分词的词性信息。
第二步骤:根据各分词的词性信息从各分词中进行关键词提取处理,得到每一问题文本的关键词,并根据各分词的词性信息对各分词进行实体词识别且合并处理,得到每一问题文本的实体词。
其中,问答系统可以包括预处理器,以由该预处理器对语料集合中的语料进行预处理,如本实施例中的分词处理等。
且更具体的,预处理器可以包括分词模型,该分词模型可以对每一问题文本进行分词处理,得到每一问题文本的各分词,并可以确定每一分词的词性信息。
例如,分词模型将问题文本切分成独立的词语,并标记其中的名词、形容词、动词,去掉无意义的词以及特殊符号。可以将独立的词语加入预先设置的词库,这样可以识别专属领域的词汇;可以将没有意义的词加入预设的停用词表,以去掉无意义以及专属领域不关心的词;可以标记出词性可以便于提取出感兴趣的词;还可以去掉特殊符号如空格等没有实际意义的词。
预处理器还可以包括关键词提取模型,以提取得到每一问题文本中的关键词,其中,关键词是指可以较为准确的表示问题文本大概的含义的词。
预处理器还可以包括实体词提取模型,以提取得到每一问题文本中的实体词,其中,实体词是指具有专门含义的词,如地名和人名等。
值得说明的是,在本实施例中,通过分词处理、提取关键词、提取实体词处理,可以较为准确的确定出问题文本的用户意图,从而使得构建的问答知识库具有较高的准确性和可靠性,满足交互应用需求,进而提高交互的可靠性和有效性的技术效果。
S203:根据每一问题文本的关键词、每一问题文本的实体词确定每一问题文本的用户意图。
在本实施例中,通过根据关键词和实体词确定用户意图,可以使得用户意图较为全面和完整的体现了问题文本的相关含义,提高了确定出的用户意图的准确性和可靠性的技术效果。
S204:根据各问题文本各自对应的用户意图确定语料集合的问题文本覆盖范围。
在一些实施例中,S204可以包括如下步骤:
第一步骤:根据每一问题文本对应的用户意图确定每一问题文本所表征的问答知识库的性能属性。
第二步骤:根据各问题文本各自所表征的问答知识库的性能属性确定语料集合的问题文本覆盖范围。
在一些实施例中,问答系统可以包括模型训练器,以通过模拟训练器根据语料集合训练得到粗分类器,例如由模拟训练器根据各用户意图训练训练得到粗分类器,且可以基于逻辑回归、支持向量机、随机森林、神经网络等方法(包括单独或相互组合),确定问题文本覆盖范围,从而得到对问题文本对应的范围进行分类的粗分类器。
其中,性能属性是指问答知识库可以支持的问题类型,或者,可以支持的交互的方向,如客服服务的问答知识库,又如天气服务的问答知识库等。
在本实施例中,通过确定性能属性,并基于性能属性确定语料集合的问题文本覆盖范围,以构建粗分类器,可以提高构建的粗分类器的准确性和可靠性的技术效果。
S205:根据每一问题文本的用户意图对语料集合中的各问题文本进行归类处理,得到各问题文本各自对应的类别属性。
S206:根据语料集合的问题文本覆盖范围、各问题文本各自对应的类别属性构建问答知识库。其中,问答知识库包括粗分类器和至少一个细分类器,粗分类器用于确定问答知识库的问题文本覆盖范围,至少一个细分类器用于确定各问题文本各自对应的类别属性。
S207:接收更新问答知识库的语料。其中,更新知识库的语料中包括问题更新文本。
其中,更新问答知识库的语料,可以为在交互过程中,用户发起的语料,也可以为对问答知识库进行更新,而主动采集的线上或线下的语料,也可以为接收到的工作人员输入的语料,本实施例不做限定。
S208:若根据粗分类器确定问题更新文本的覆盖范围被包含于问答知识库的问题文本覆盖范围,则根据每一细分类器预测问题更新文本属于每一细分类器的类别属性置信度,并根据各类别属性置信度对问答知识库的细分类器进行更新。
结合上述分析,粗分类器可以用于确定问答知识库中各问题文本的覆盖范围,即问答系统可以顺利完成交互的问题的覆盖范围。相应的,若获取到问题更新文本,则可以基于粗分类器确定该问题更新文本的覆盖范围是否被包含于问答知识库的问题文本覆盖范围之内,如果是,则说明问答系统可以对该问题更新文本进行相应的答复,则可以进一步确定是否对细分类器进行更新。
例如,问答知识库的覆盖范围为客服问答,那么如果用户提出关于天气等问题,那么可以直接过滤掉该类问题,以精简问答知识库,提高问答知识库的质量,进一步提高问答系统的准确率。
另外,粗分类器可以给出是否在问答知识库的覆盖范围内的打分(如0~1分),0分为问答知识库完全不覆盖,1分为完全在问答知识库覆盖范围中,中间值如0.9为在问答知识库覆盖范围之类的概率值。那么,可以配置一个阈值来根据实际情况进行灵活筛选。比如,若粗分类器输出的分值大于0.9,则认为该问题是在问答知识库范围之内,反之,则在问答知识库范围之外。
在本实施例中,通过结合粗分类器和细分类器两层结构确定是否对问答知识库进行更新,以提高更新的准确性、有效性和可靠性的技术效果。
在一些实施例中,细分类器中包括问题文本列表;根据各类别属性置信度对问答知识库的细分类器进行更新,包括如下步骤:
第一步骤:从各类别属性置信度中确定最高类别属性置信度,并从最高类别属性置信度的细分类器中,确定并输出与问题更新文本的相似度大于预设相似度阈值的问题文本列表、以及确定出的问题文本列表的答案文本。
第二步骤:响应于接收到针对输出的与问题更新文本的相似度大于预设相似度阈值的问题文本列表、以及确定出的问题文本列表的答案文本的确认指示,将问题更新文本添加至最高类别属性置信度的细分类器的问题文本列表,以对问答知识库的细分类器进行更新。
其中,不同的细分类器具有不同的类别属性,如体育、新闻、以及财经等。相应的,针对每一细分类器,包括问题文本列表,如体育的问题文本类别,新闻的问题文本列表等。
在本实施例中,通过从各类别属性置信度中确定最高类别属性置信度,并结合与工作人员之间的交互(即确认指示),确定对问答知识库的细分类器进行更新,随着时间的推移,可以使得文旦知识库的质量越来越好,最终利于问答系统的应答效果的提升。
在一些实施例中,问答系统还包括用户反馈收集器,以通过用户反馈收集器获取用户的确认指示。
值得说明的是,在一些实施例中,细分类器的数量可以为类别属性的数量相
同,即针对每一类别属性,均有一个细分类器与之对应。在另一些实施例中,细分类器的数量也可以为一个,即通过一个细分类器对各类别属性进行区分,本实施例不做限定。
在一些实施例中,最高类别属性置信度的细分类器的问题文本列表包括相似问题文本列表和非相似性问题文本列表;将问题更新文本添加至最高类别属性置信度的细分类器的问题文本列表中,包括如下子步骤:
第一子步骤:将问题更新文本与相似问题文本列表中的问题文本进行相似性比对,得到比对结果。
第二子步骤:若比对结果表征问题更新文本与相似性文本列表中的问题文本的相似性大于预设的相似性阈值,则将问题更新文本添加至相似性文本列表。
第三子步骤:若比对结果表征问题更新文本与相似性文本列表中的问题文本的相似性小于或等于相似性阈值,则将问题更新文本添加至非相似性文本列表。
其中,相似性文本和非相似性文本用于更新问题知识库。
在本实施例中,问题文本列表可以包括两种不同类别的列表,一种为相似性问题文本列表,一种为非相似性问题文本列表,相似性的比较可以基于两个文本所表征的意图进行确定,本实施例不做限定。
其中,将问题更新文本与相似性文本列表中的问题文本进行相似性比较,从二者是否相似的层面而言,可能存在另种结果,一种为相似,另一种为不相似,因此,如果二者相似,则可以将问题更新文本添加至相似性文本列表,以对问题知识库中的相似性文本列表进行更新,反之,如果二者不相似,则将问题更新文本添加至非相似性文本列表,以对问题知识库中的非相似性文本列表进行更新,从而提高对问题知识库更新的准确性、可靠性、全面性、以及灵活性的技术效果。
根据本公开实施例的另一个方面,本公开实施例提供了一种智能交互方法。
请参阅图3,图3为根据本公开实施例的智能交互方法的示意图。
如图3所示,该方法包括:
S301:接收用户发起的交互消息。其中,交互消息中携带问题信息。
示例性的,本实施例的执行主体可以为智能交互装置,智能交互装置可以为与构建装置相同的装置,也可以为与构建装置不相同的装置,本实施例不做限定。
S302:从预设问答知识库中确定与问题信息对应的答案文本,并根据答案问题生成并输出与交互消息对应的反馈消息。其中,问题知识库是基于如上任一实施例所述的方法构建的。
结合上述分析可知,问题知识库具有较高的准确性和可靠性,因此,当基于问题知识库进行交互时,可以提高交互的准确性和可靠性的技术效果。
结合上述分析问答知识库包括粗分类器和细分类器,相应的,S302可以包括:
第一步骤:根据粗分类器确定问题信息所涉及的覆盖范围是否被问答知识库所涉及的覆盖范围所覆盖。
例如,上述实施例中阐述的,由粗分类器对问题信息是否被问答知识库所涉及的覆盖范围所覆盖进行打分,若分较高如大于0.9,则说明被问答知识库所涉及的覆盖范围所覆盖,则可以执行下述第二步骤,反之,则可以输出提示消息,以提示问答系统无法对问题信息进行答复的消息。
第二步骤:根据细分类其确定该问题信息对应的类别属性,并确定问题信息所属的问题文本列表,并根据问题文本列表确定相应的答案文本。
第三步骤:根据答案文本确定输出与交互消息对应的反馈消息。
在一些实施例中,问题系统可以包括排序器,排序器可以对从问题文本列表中,各问题文本与问题信息的相似度进行计算并排序,以得到与问题信息相匹配的标准问题排序列表,并根据该标准问题排序列表确定至少一个答案文本,如果答案文本的数量为一个,则可以基于该答案文本确定输出与交互消息对应的反馈消息,如果答案文本的数量为多个,则可以选择排序最前(如果是基于匹配程度的降序排列)的答案文本确定输出与交互消息对应的反馈消息。
结合上述分析可知,问答系统还包括用户反馈收集器,以通过用户反馈收集器获取用户的确认指示。在另一些实施例中,用户反馈收集器还可以用于对用户针对反馈消息的评价信息,以通过评价信息对问答知识库进行更新。
例如,若评价信息表征反馈消息与问题消息不对应,即“答非所问”,则可以对问题信息对应的问题文本的答案问题进行校验并修改。
根据本公开实施例的另一个方面,本公开实施例还提供了一种问答知识库的构建装置。
请参阅图4,图4为根据本公开一个实施例的问答知识库的构建装置的示意图,如图4所示,问答知识库的构建装置400包括:
获取单元401,用于获取用于构建问答知识库的语料集合,其中,所述语料集合中的每一语料包括问题文本、以及与问题文本对应的答案文本。
解析单元402,用于对所述语料集合中的每一问题文本进行语义解析处理,得到每一问题文本的用户意图。
第一确定单元403,用于根据各问题文本各自对应的用户意图确定所述语料集合的问题文本覆盖范围。
归类单元404,用于根据每一问题文本的用户意图对所述语料集合中的各问题文本进行归类处理,得到各问题文本各自对应的类别属性。
构建单元405,用于根据所述语料集合的问题文本覆盖范围、各问题文本各自对应的类别属性构建所述问答知识库,其中,所述问答知识库包括粗分类器和至少一个细分类器,所述粗分类器用于确定所述问答知识库的问题文本覆盖范围,所述至少一个细分类器用于确定各问题文本各自对应的类别属性,所述问答知识库用于对用户发起的交互消息进行反馈。
请参阅图5,图5为根据本公开另一实施例的问答知识库的构建装置的示意图,如图5所示,问答知识库的构建装置500包括:
获取单元501,用于获取用于构建问答知识库的语料集合,其中,所述语料集合中的每一语料包括问题文本、以及与问题文本对应的答案文本。
解析单元502,用于对所述语料集合中的每一问题文本进行语义解析处理,得到每一问题文本的用户意图。
结合图5可知,在一些实施例中,解析单元502,包括:
提取子单元5021,用于对每一问题文本进行关键词提取处理,得到每一问题文本的关键词。
在一些实施例中,提取子单元5021用于,对每一问题文本进行分词处理,得到每一问题文本的各分词,确定每一分词的词性信息,并根据各分词的词性信息从各分词中进行关键词提取处理,得到每一问题文本的关键词。
识别子单元5022,用于对每一问题文本进行实体词识别且合并处理,得到每一问题文本的实体词。
在一些实施例中,识别子单元5022用于,根据各分词的词性信息对各分词进行实体词识别且合并处理,得到每一问题文本的实体词。
第一确定子单元5023,用于根据每一问题文本的关键词、每一问题文本的实体词确定每一问题文本的用户意图。
第一确定单元503,用于根据各问题文本各自对应的用户意图确定所述语料集合的问题文本覆盖范围。
结合图5可知,在一些实施例中,第一确定单元503,包括:
第二确定子单元5031,用于根据每一问题文本对应的用户意图确定每一问题文本所表征的所述问答知识库的性能属性。
第三确定子单元5032,用于根据各问题文本各自所表征的所述问答知识库的性能属性确定所述语料集合的问题文本覆盖范围。
归类单元504,用于根据每一问题文本的用户意图对所述语料集合中的各问题文本进行归类处理,得到各问题文本各自对应的类别属性。
构建单元505,用于根据所述语料集合的问题文本覆盖范围、各问题文本各自对应的类别属性构建所述问答知识库,其中,所述问答知识库包括粗分类器和至少一个细分类器,所述粗分类器用于确定所述问答知识库的问题文本覆盖范围,所述至少一个细分类器用于确定各问题文本各自对应的类别属性,所述问答知识库用于对用户发起的交互消息进行反馈。
第一接收单元506,用于接收更新所述问答知识库的语料,其中,更新所述知识库的语料中包括问题更新文本。
预测单元507,用于若根据所述粗分类器确定所述问题更新文本的覆盖范围被包含于所述问答知识库的问题文本覆盖范围,则根据每一细分类器预测所述问题更新文本属于每一细分类器的类别属性置信度。
更新单元508,用于根据各类别属性置信度对所述问答知识库的细分类器进行更新。
在一些实施例中,细分类器中包括问题文本列表;结合图5可知,更新单元508包括:
第四确定子单元5081,用于从各类别属性置信度中确定最高类别属性置信度,并从所述最高类别属性置信度的细分类器中,确定并输出与所述问题更新文本的相似度大于预设相似度阈值的问题文本列表、以及确定出的问题文本列表的答案文本。
添加子单元5082,用于响应于接收到针对输出的与所述问题更新文本的相似度大于预设相似度阈值的问题文本列表、以及确定出的问题文本列表的答案文本的确认指示,将所述问题更新文本添加至所述最高类别属性置信度的细分类器的问题文本列表,以对所述问答知识库的细分类器进行更新。
在一些实施例中,所述最高类别属性置信度的细分类器的问题文本列表包括相似问题文本列表和非相似性问题文本列表;所述添加子单元5082用于,将所述问题更新文本与所述相似问题文本列表中的问题文本进行相似性比对,得到比对结果,若所述比对结果表征所述问题更新文本与所述相似性文本列表中的问题文本的相似性大于预设的相似性阈值,则将所述问题更新文本添加至所述相似性文本列表,若所述比对结果表征所述问题更新文本与所述相似性文本列表中的问题文本的相似性小于或等于所述相似性阈值,则将所述问题更新文本添加至所述非相似性文本列表;
其中,所述相似性文本和所述非相似性文本用于更新所述问题知识库。
根据本公开实施例的另一个方面,本公开实施例还提供了一种智能交互装置。
请参阅图6,图6为根据本公开实施例的智能交互装置的示意图。
如图6所示,智能交互装置600,包括:
第二接收单元601,用于接收用户发起的交互消息,其中,所述交互消息中携带问题信息。
第二确定单元602,用于从预设问答知识库中确定与所述问题信息对应的答案文本。
生成单元603,用于根据所述答案问题生成与所述交互消息对应的反馈消息。
输出单元604,用于输出所述反馈消息,其中,所述问题知识库是基于如第一方面所述的方法构建的。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
根据本公开的实施例,本公开还提供了一种计算机程序产品,程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
如图7所示,是根据本公开实施例的问答知识库的构建方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。
存储器702即为本公开所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本公开所提供的问答知识库的构建方法。本公开的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本公开所提供的问答知识库的构建方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本公开实施例中的问答知识库的构建方法对应的程序指令/模块。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的问答知识库的构建方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据问答知识库的构建方法的电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至问答知识库的构建方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
问答知识库的构建方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与问答知识库的构建方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (13)

1.一种问答知识库的构建方法,包括:
获取用于构建问答知识库的语料集合,其中,所述语料集合中的每一语料包括问题文本、以及与问题文本对应的答案文本;
对所述语料集合中的每一问题文本进行语义解析处理,得到每一问题文本的用户意图,根据各问题文本各自对应的用户意图确定所述语料集合的问题文本覆盖范围,并根据每一问题文本的用户意图对所述语料集合中的各问题文本进行归类处理,得到各问题文本各自对应的类别属性;
根据所述语料集合的问题文本覆盖范围、各问题文本各自对应的类别属性构建所述问答知识库,其中,所述问答知识库包括粗分类器和至少一个细分类器,所述粗分类器用于确定所述问答知识库的问题文本覆盖范围,所述至少一个细分类器用于确定各问题文本各自对应的类别属性,所述问答知识库用于对用户发起的交互消息进行反馈。
2.根据权利要求1所述的方法,其中,对所述语料集合中的每一问题文本进行语义解析处理,得到每一问题文本的用户意图,包括;
对每一问题文本进行关键词提取处理,得到每一问题文本的关键词,并对每一问题文本进行实体词识别且合并处理,得到每一问题文本的实体词;
根据每一问题文本的关键词、每一问题文本的实体词确定每一问题文本的用户意图。
3.根据权利要求2所述的方法,其中,对每一问题文本进行关键词提取处理,得到每一问题文本的关键词,并对每一问题文本进行实体词识别且合并处理,得到每一问题文本的实体词,包括:
对每一问题文本进行分词处理,得到每一问题文本的各分词,确定每一分词的词性信息;
根据各分词的词性信息从各分词中进行关键词提取处理,得到每一问题文本的关键词,并根据各分词的词性信息对各分词进行实体词识别且合并处理,得到每一问题文本的实体词。
4.根据权利要求1所述的方法,其中,根据各问题文本各自对应的用户意图确定所述语料集合的问题文本覆盖范围,包括:
根据每一问题文本对应的用户意图确定每一问题文本所表征的所述问答知识库的性能属性,并根据各问题文本各自所表征的所述问答知识库的性能属性确定所述语料集合的问题文本覆盖范围。
5.根据权利要求1-4中任一项所述的方法,还包括:
接收更新所述问答知识库的语料,其中,更新所述知识库的语料中包括问题更新文本;
若根据所述粗分类器确定所述问题更新文本的覆盖范围被包含于所述问答知识库的问题文本覆盖范围,则根据每一细分类器预测所述问题更新文本属于每一细分类器的类别属性置信度,并根据各类别属性置信度对所述问答知识库的细分类器进行更新。
6.根据权利要求5所述的方法,其中,细分类器中包括问题文本列表;根据各类别属性置信度对所述问答知识库的细分类器进行更新,包括:
从各类别属性置信度中确定最高类别属性置信度,并从所述最高类别属性置信度的细分类器中,确定并输出与所述问题更新文本的相似度大于预设相似度阈值的问题文本列表、以及确定出的问题文本列表的答案文本;
响应于接收到针对输出的与所述问题更新文本的相似度大于预设相似度阈值的问题文本列表、以及确定出的问题文本列表的答案文本的确认指示,将所述问题更新文本添加至所述最高类别属性置信度的细分类器的问题文本列表,以对所述问答知识库的细分类器进行更新。
7.根据权利要求6所述的方法,其中,所述最高类别属性置信度的细分类器的问题文本列表包括相似问题文本列表和非相似性问题文本列表;将所述问题更新文本添加至所述最高类别属性置信度的细分类器的问题文本列表中,包括:
将所述问题更新文本与所述相似问题文本列表中的问题文本进行相似性比对,得到比对结果;
若所述比对结果表征所述问题更新文本与所述相似性文本列表中的问题文本的相似性大于预设的相似性阈值,则将所述问题更新文本添加至所述相似性文本列表;
若所述比对结果表征所述问题更新文本与所述相似性文本列表中的问题文本的相似性小于或等于所述相似性阈值,则将所述问题更新文本添加至所述非相似性文本列表;
其中,所述相似性文本和所述非相似性文本用于更新所述问题知识库。
8.一种智能交互方法,包括:
接收用户发起的交互消息,其中,所述交互消息中携带问题信息;
从预设问答知识库中确定与所述问题信息对应的答案文本,并根据所述答案问题生成并输出与所述交互消息对应的反馈消息,其中,所述问题知识库是基于如权利要求1-7中任一项所述的方法构建的。
9.一种问答知识库的构建装置,包括:
获取单元,用于获取用于构建问答知识库的语料集合,其中,所述语料集合中的每一语料包括问题文本、以及与问题文本对应的答案文本;
解析单元,用于对所述语料集合中的每一问题文本进行语义解析处理,得到每一问题文本的用户意图;
第一确定单元,用于根据各问题文本各自对应的用户意图确定所述语料集合的问题文本覆盖范围;
归类单元,用于根据每一问题文本的用户意图对所述语料集合中的各问题文本进行归类处理,得到各问题文本各自对应的类别属性;
构建单元,用于根据所述语料集合的问题文本覆盖范围、各问题文本各自对应的类别属性构建所述问答知识库,其中,所述问答知识库包括粗分类器和至少一个细分类器,所述粗分类器用于确定所述问答知识库的问题文本覆盖范围,所述至少一个细分类器用于确定各问题文本各自对应的类别属性,所述问答知识库用于对用户发起的交互消息进行反馈。
10.一种智能交互装置,包括:
第二接收单元,用于接收用户发起的交互消息,其中,所述交互消息中携带问题信息;
第二确定单元,用于从预设问答知识库中确定与所述问题信息对应的答案文本;
生成单元,用于根据所述答案问题生成与所述交互消息对应的反馈消息;
输出单元,用于输出所述反馈消息,其中,所述问题知识库是基于如权利要求1-7中任一项所述的方法构建的。
11.一种电子设备,包括:存储器,处理器;
存储器,用于存储所述处理器可执行指令;
其中,所述处理器被配置为执行如权利要求1-7中任一项所述的方法;或者,所述处理器被配置为执行如权利要求8所述的方法。
12.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7中任一项所述的方法;或者,所述计算机执行指令被处理器执行时用于实现如权利要求8所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法;或者,所述计算机程序在被处理器执行时实现根据权利要求8所述的方法。
CN202111503752.6A 2021-12-09 2021-12-09 问答知识库的构建方法、智能交互方法及装置 Pending CN114153948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111503752.6A CN114153948A (zh) 2021-12-09 2021-12-09 问答知识库的构建方法、智能交互方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111503752.6A CN114153948A (zh) 2021-12-09 2021-12-09 问答知识库的构建方法、智能交互方法及装置

Publications (1)

Publication Number Publication Date
CN114153948A true CN114153948A (zh) 2022-03-08

Family

ID=80453972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111503752.6A Pending CN114153948A (zh) 2021-12-09 2021-12-09 问答知识库的构建方法、智能交互方法及装置

Country Status (1)

Country Link
CN (1) CN114153948A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7370115B1 (ja) 2023-04-26 2023-10-27 堺財経電算合同会社 回答装置及び回答方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7370115B1 (ja) 2023-04-26 2023-10-27 堺財経電算合同会社 回答装置及び回答方法

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
US11003863B2 (en) Interactive dialog training and communication system using artificial intelligence
EP3729231A1 (en) Domain-specific natural language understanding of customer intent in self-help
CN108885623A (zh) 基于知识图谱的语意分析系统及方法
CN111666380A (zh) 一种智能呼叫方法、装置、设备和介质
CN111797226A (zh) 会议纪要的生成方法、装置、电子设备以及可读存储介质
CN111125435A (zh) 视频标签的确定方法、装置和计算机设备
US10740406B2 (en) Matching of an input document to documents in a document collection
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN116501960B (zh) 内容检索方法、装置、设备及介质
CN111984774B (zh) 搜索方法、装置、设备以及存储介质
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN111782785A (zh) 自动问答方法、装置、设备以及存储介质
CN111966781A (zh) 数据查询的交互方法及装置、电子设备和存储介质
CN111385188A (zh) 对话元素的推荐方法、装置、电子设备和介质
CN111523019B (zh) 用于输出信息的方法、装置、设备以及存储介质
CN114153948A (zh) 问答知识库的构建方法、智能交互方法及装置
CN112329429A (zh) 文本相似度学习方法、装置、设备以及存储介质
US20230206007A1 (en) Method for mining conversation content and method for generating conversation content evaluation model
CN114490986B (zh) 计算机实施的数据挖掘方法、装置、电子设备及存储介质
CN116303951A (zh) 对话处理方法、装置、电子设备和存储介质
US20200184521A1 (en) Method and system for initiating an interface concurrent with generation of a transitory sentiment community
CN113870998A (zh) 问诊方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination