CN111125374B - 知识库构建方法、装置、电子设备和存储介质 - Google Patents

知识库构建方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111125374B
CN111125374B CN201911330202.1A CN201911330202A CN111125374B CN 111125374 B CN111125374 B CN 111125374B CN 201911330202 A CN201911330202 A CN 201911330202A CN 111125374 B CN111125374 B CN 111125374B
Authority
CN
China
Prior art keywords
service type
query
query text
knowledge base
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911330202.1A
Other languages
English (en)
Other versions
CN111125374A (zh
Inventor
邱志国
李莉
赵乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201911330202.1A priority Critical patent/CN111125374B/zh
Publication of CN111125374A publication Critical patent/CN111125374A/zh
Application granted granted Critical
Publication of CN111125374B publication Critical patent/CN111125374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种知识库构建方法、装置、电子设备和存储介质,其中方法包括:确定多个问询文本;将任一问询文本输入至语义理解模型,得到语义理解模型输出的该问询文本的语义理解结果;其中,语义理解模型是基于样本问询文本及其样本语义理解结果训练得到的,语义理解结果包括业务类型语义片段、操作类型语义片段和文本特征中的至少一种;基于每一问询文本的语义理解结果,构建知识库。本发明实施例提供的方法、装置、电子设备和存储介质,基于语义理解结果实现知识库的自动构建,有效减少了人力在知识库构建中的参与度,从而减少了人力消耗,节约了知识库的构建时间,提高了知识库的构建质量及其可靠性。

Description

知识库构建方法、装置、电子设备和存储介质
技术领域
本发明涉及人机交互技术领域,尤其涉及一种知识库构建方法、装置、电子设备和存储介质。
背景技术
随着人工智能技术的迅猛发展,人机交互系统的广泛应用,智能客服应运而生。智能客服能够基于知识库回答用户问题,为用户提供全天候的服务。
当前,知识库的构建通常是通过人工完成的,需要工作人员对相关领域的知识点以及对应标准问进行整理归纳,并在此基础上对每个标准问进行扩充。上述方法需要耗费大量的人力和时间,且过于依赖工作人员的专业能力,由此得到的知识库的质量参差不齐。
发明内容
本发明实施例提供一种知识库构建方法、装置、电子设备和存储介质,用以解决现有的知识库构建费时费力、质量欠佳的问题。
第一方面,本发明实施例提供一种知识库构建方法,包括:
确定多个问询文本;
将任一问询文本输入至语义理解模型,得到所述语义理解模型输出的所述任一问询文本的语义理解结果;其中,所述语义理解模型是基于样本问询文本及其样本语义理解结果训练得到的,所述语义理解结果包括业务类型语义片段、操作类型语义片段和文本特征中的至少一种;
基于每一问询文本的语义理解结果,构建知识库。
优选地,所述基于每一问询文本的语义理解结果,构建知识库,具体包括:
基于任一问询文本的业务类型语义片段,确定所述任一问询文本所对应的业务类型;
基于任一业务类型所对应的每一问询文本的所述操作类型语义片段和/或所述文本特征,对所述任一业务类型所对应的每一问询文本进行聚类,得到所述任一业务类型的聚类结果;
基于每一业务类型的聚类结果,构建知识库。
优选地,所述基于任一问询文本的业务类型语义片段,确定所述任一问询文本所对应的业务类型,具体包括:
基于任一问询文本的业务类型语义片段,确定所述任一问询文本所对应的初始业务类型;
基于任一初始业务类型所对应的问询文本数量和/或任一初始业务类型包含的业务类型实体数量,确定所述任一初始业务类型所对应的问询文本的业务类型。
优选地,所述基于任一初始业务类型所对应的问询文本数量和/或任一初始业务类型包含的业务类型实体数量,确定所述任一初始业务类型所对应的问询文本的业务类型,具体包括:
若任一初始业务类型所对应的问询文本数量小于第一预设数量阈值,则确定所述任一初始业务类型所对应的问询文本的业务类型为空缺;
删除所述业务类型为空缺且不包含所述操作类型语义片段的问询文本。
优选地,所述基于任一初始业务类型所对应的问询文本数量和/或任一初始业务类型包含的业务类型实体数量,确定所述任一初始业务类型所对应的问询文本的业务类型,具体包括:
若任一初始业务类型包含多个业务类型实体,且所述任一初始业务类型所对应的问询文本数量小于第二预设数量阈值,则确定所述任一初始业务类型所对应的问询文本的业务类型为每一业务类型实体分别对应的业务类型。
优选地,基于任一业务类型所对应的每一问询文本的所述操作类型语义片段和/或所述文本特征,对所述任一业务类型所对应的每一问询文本进行聚类,得到所述任一业务类型的聚类结果,具体包括:
基于任一业务类型所对应的每一问询文本的所述文本特征,对所述任一业务类型所对应的每一问询文本进行聚类,得到所述任一业务类型的初始聚类结果;
基于所述任一业务类型的初始聚类结果,以及所述任一业务类型所对应的每一问询文本的所述操作类型语义片段,确定所述任一业务类型的聚类结果。
优选地,所述基于每一业务类型的聚类结果,构建知识库,具体包括:
针对任一业务类型的聚类结果中的任一簇,将所述任一簇中距离所述任一簇的中心最近的问询文本作为一个标准问,将所述任一簇中其余每一问询文本作为所述标准问的扩展问;
基于每一标准问以及每一标准问的扩展问,构建所述知识库。
第二方面,本发明实施例提供一种知识库构建装置,包括:
语料确定单元,用于确定多个问询文本;
语义理解单元,用于将任一问询文本输入至语义理解模型,得到所述语义理解模型输出的所述任一问询文本的语义理解结果;其中,所述语义理解模型是基于样本问询文本及其样本语义理解结果训练得到的,所述语义理解结果包括业务类型语义片段、操作类型语义片段和文本特征中的至少一种;
知识库构建单元,用于基于每一问询文本的语义理解结果,构建知识库。
第三方面,本发明实施例提供一种电子设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑命令,以执行如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种知识库构建方法、装置、电子设备和存储介质,通过语义理解模型输出问询文本的语义理解结果,进而基于语义理解结果实现知识库的自动构建,有效减少了人力在知识库构建中的参与度,从而减少了人力消耗,节约了知识库的构建时间,提高了知识库的构建质量及其可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的知识库构建方法的流程示意图;
图2为本发明实施例提供的基于语义理解结果构建知识库的方法的流程示意图;
图3为本发明实施例提供的业务类型分类方法的流程示意图;
图4为本发明实施例提供的业务类型所对应的问询文本聚类方法的流程示意图;
图5为本发明另一实施例提供的知识库构建方法的流程示意图;
图6为本发明实施例提供的知识库构建装置的结构示意图;
图7为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
知识库,又称智能数据库或者人工智能数据库,是针对某一种或某些领域的问题求解需要而构造的结构化的知识集群。知识库一般由标准问及其对应的扩展问组成,标准问是对某个意图的标准化描述,其对应的扩展问则是对该意图的口语化描述。例如,对于查询话费这一意图,标准问可以定义为“查询话费”,扩展问则可以表示为“请帮我查一下这个月的话费”、“我这个月话费多少”等。知识库作为智能客服系统的重要组成部分,其质量直接影响智能客服向用户返回信息的准确性。
当前,知识库的构建通常是通过人工完成的,需要耗费大量的人力和时间,且过于依赖工作人员的专业能力。对此,本发明实施例提供了一种知识库构建方法,以实现自动化的知识库构建。图1为本发明实施例提供的知识库构建方法的流程示意图,如图1所示,该方法包括:
步骤110,确定多个问询文本。
具体地,问询文本即用于构建知识库的问题对应的文本,问询文本可以基于人人会话或者人机会话过程中产生的语料数据得到,会话所属领域与所需构建的知识库的领域一致。此处,语料数据可以是文本,也可以是语音数据,可以通过语音识别对语音数据进行转写,进而得到问询文本。
步骤120,将任一问询文本输入至语义理解模型,得到语义理解模型输出的该问询文本的语义理解结果;其中,语义理解模型是基于样本问询文本及其样本语义理解结果训练得到的,语义理解结果包括业务类型语义片段、操作类型语义片段和文本特征中的至少一种。
具体地,语义理解模型用于对输入的问询文本进行语义理解,进而确定问询文本所包含的意图和实体等信息,并输出语义理解结果。此处,语义理解结果包括业务类型语义片段、操作类型语义片段和文本特征中的至少一种。
其中,业务类型语义片段是指问询文本中包含的业务类型实体,操作类型语义片段是指问询文本中包含的操作意图。针对单一问询文本,其业务类型语义片段可以为空,也可以包含一个或多个业务类型实体,同样地,其操作类型语义片段可以为空,也可以包含一个或多个操作意图,本发明实施例对此不作具体限定。
例如,问询文本“查询话费和流量”的业务类型语义片段为“话费流量”,操作类型语义片段为“查询”;问询文本“我现在的套餐是什么”的业务类型语义片段为“套餐”,操作类型语义片段为“查询”;问询文本“你好”的业务类型语义片段和操作类型语义片段均为空。
此外,文本特征是指问询文本所对应的向量特征,文本特征可以是问询文本中每个分词的词向量,也可以是问询文本中每个分字的字向量,还可以是问询文本中每个分词或者分字的上下文向量,或者上述几种向量的任意组合等,本发明实施例对此不做具体限定。
在执行步骤120之前,还可以预先训练得到语义理解模型,具体可以通过如下方式训练得到语义理解模型:首先,收集大量样本问询文本,并通过人工标注得到样本问询文本的样本语义理解结果。随即,将样本问询文本及其样本语义理解结果至初始模型进行训练,从而得到语义理解模型。
步骤130,基于每一问询文本的语义理解结果,构建知识库。
具体地,可以基于每一问询文本的业务类型语义片段中包含的业务类型实体,对问询文本进行业务类型分类,并基于分类结果构建知识库;也可以基于每一问询文本的操作类型语义片段中包含的操作意图,对问询文本进行操作意图分类,并基于分类结果构建知识库;还可以基于每一问询文本的文本特征进行聚类,并基于聚类结果构建知识库。此外,还可以结合业务类型语义片段、操作类型语义片段和文本特征中的任意两种或者全部,对问询文本进行类型划分,从而实现知识库的构建。
本发明实施例提供的方法,通过语义理解模型输出问询文本的语义理解结果,进而基于语义理解结果实现知识库的自动构建,有效减少了人力在知识库构建中的参与度,从而减少了人力消耗,节约了知识库的构建时间,提高了知识库的构建质量及其可靠性。
基于上述实施例,图2为本发明实施例提供的基于语义理解结果构建知识库的方法的流程示意图,如图2所示,步骤130具体包括:
步骤131,基于任一问询文本的业务类型语义片段,确定该问询文本所对应的业务类型。
具体地,可以基于任一问询文本的业务类型语义片段中包含的业务类型实体,对该问询文本进行业务类型分类,从而确定该问询文本所对应的业务类型。需要说明的是,单一问询文本所对应的业务类型可以是一个或多个,也可以为空。
例如,问询文本“我的套餐四月份是多少钱”的业务类型语义片段为“套餐”,对应的业务类型为“套餐”;问询文本“你好”的业务类型语义片段为空,所对应的业务类型为空。
通过确定每个问询文本所对应的业务类型,可以按照业务类型将上述多个问询文本划分为若干个集合,每一集合包含若干个对应于同一业务类型的问询文本,每一集合对应一个业务类型。
步骤132,基于任一业务类型所对应的每一问询文本的操作类型语义片段和/或文本特征,对该业务类型所对应的每一问询文本进行聚类,得到该业务类型的聚类结果。
具体地,在根据业务类型进行分类之后,可以对任一业务类型所对应的问询文本进行进一步划分。具体应用的聚类算法可以是k-means聚类算法、DBSCAN聚类算法、chameleon聚类算法等,本发明实施例对此不作具体限定。
此处,针对任一业务类型,可以基于该业务类型所对应的每一问询文本的操作类型语义片段和/或文本特征,对每一问询文本进行无监督聚类,例如基于每一问询文本的操作类型语义片段中每一操作意图对应的向量,对每一问询文本进行聚类,又例如基于每一问询文本的文本特征,对每一问询文本进行聚类,还例如基于每一问询文本的操作类型语义片段中每一操作意图对应的向量,以及文本特征,对每一问询文本进行聚类。
此处,针对任一业务类型所对应的每一问询文本进行聚类得到的聚类结果可以包含若干个簇,每个簇中包含若干个问询文本。
步骤133,基于每一业务类型的聚类结果,构建知识库。
具体地,在得到每一业务类型的聚类结果后,可以基于每一业务类型下的一个簇确定一个标准问,将该簇中的问询文本作为该标准问对应的扩展问,进而实现知识库的构建。
本发明实施例提供的方法,在业务类型分类的基础上对单一业务类型所对应的每一问询文本进行聚类,从而实现基于语义理解结果的知识点细化,以便于实现准确可靠的知识库构建。
基于上述任一实施例,步骤132中,可以应用chameleon聚类算法对任一业务类型所对应的每一问询文本进行聚类,具体聚类方法如下:
首先,构建稀疏图。此处,稀疏图是通过K-最近邻图的方法构建的,稀疏图中每个顶点对应一个问询文本。
其次,划分稀疏图,通过图划分算法将稀疏图划分为大量相对较小的子簇。
随后,基于子簇的相似度进行子簇之间的合并,得到聚类结果。常规方法中使用子簇之间的相对互联性RI和相对接近性RC来确定两个子簇之间的相似度。而本发明实施例中,则通过计算两个子簇中每一问询文本之间的相似度,评估两个子簇的相似度,具体方法即首先确定任一子簇中的任一问询文本与另一子簇中的每一问询文本的相似度,在此基础上累计该子簇中的每一问询文本与另一子簇中的每一问询文本的相似度之和,并将相似度之和与两个子簇中所有问询文本两两组合的总数相除,得到两两组合的问询文本的相似度的均值,作为两个子簇的相似度。两个子簇的相似度公式如下:
Figure BDA0002329367490000081
式中,Ci和Cj分别为子簇i和子簇j,S(Ci,Cj)为两个子簇的相似度。
其中,Ci={qi,1,qi,2,qi,3,...,qi,m},qi,t即子簇i中的问询文本t,Cj={qj,1,qj,2,qj,3,...,qj,n},qj,k即子簇j中的问询文本k,S(qi,t,qj,k)为子簇i中的问询文本t与子簇j中的问询文本k的相似度,m和n分别为子簇i和j中的问询文本总数。
通过上述公式计算得到的两个子簇的相似度,与通过RI和RC计算得到的两个子簇的相似度相比,所需耗用的计算量更少,计算效率更高。
基于上述任一实施例,图3为本发明实施例提供的业务类型分类方法的流程示意图,如图3所示,步骤131具体包括:
步骤1311,基于任一问询文本的业务类型语义片段,确定该问询文本所对应的初始业务类型。
具体地,可以基于任一问询文本的业务类型语义片段中包含的业务类型实体,对该问询文本进行业务类型的初分类,例如直接将业务类型语义片段中包含的业务类型实体,作为问询文本所对应的初始业务类型。
例如,问询文本“查询话费和流量”的业务类型语义片段为“话费流量”,初始业务类型为“话费流量”;问询文本“我这个月还剩多少流量”的业务类型语义片段为“流量”,初始业务类型为“流量”;问询文本“订购流量”的业务类型语义片段为“流量”,初始业务类型为“流量”。
步骤1312,基于任一初始业务类型所对应的问询文本数量和/或任一初始业务类型包含的业务类型实体数量,确定该初始业务类型所对应的问询文本的业务类型。
具体地,针对于任一初始业务类型,可以通过统计得到该初始业务类型所对应的问询文本数量,从而基于问询文本数量的大小判断该初始业务类型是否需要单独作为一个业务类型;也可以基于该初始业务类型中包含的业务类型实体数量和所对应的问询文本数量,判断是将该初始业务类型单独作为一个业务类型,还是将该初始业务类型拆分合并至每一业务类型实体对应的业务类型中。
基于任一初始业务类型所对应的问询文本数量和/或任一初始业务类型包含的业务类型实体数量,可以判断是否对问询文本的初始业务类型进行修改,进而确定问询文本最终对应的业务类型。
本发明实施例提供的方法,基于任一初始业务类型所对应的问询文本数量和/或任一初始业务类型包含的业务类型实体数量对初始业务类型进行完善,进而确定每一问询文本最终的业务类型,以便于提高知识库的合理性和可靠性。
基于上述任一实施例,步骤1312具体包括:若任一初始业务类型所对应的问询文本数量小于第一预设数量阈值,则确定该初始业务类型所对应的问询文本的业务类型为空缺;删除业务类型为空缺且不包含操作类型语义片段的问询文本。
具体地,第一预设数量阈值为预先设定的业务类型所对应的问询文本数量的最小值。若任一初始业务类型所对应的问询文本数量小于第一预设数量阈值,则确定该初始业务类型不符合单独作为一个业务类型的条件,将该初始业务类型所对应的问询文本最终的业务类型均设置为空缺,即无对应的业务类型。
通过第一预设数量阈值的设置和应用,滤除极其少数问询文本所对应的初始业务类型,从而避免最终得到的业务类型分类过细,影响后续聚类的问题。
此外,在执行步骤132之前,可以对业务类型为空缺的问询文本进行筛除,删除其中不包含操作类型语义片段的问询文本,以减小后续处理压力。此处,业务类型为空缺且不包含操作类型语义片段的问询文本,例如“你好”,即不具备实际价值、无需调用知识库进行回复的问询文本,因此也无需将上述问询文本纳入知识库中。
基于上述任一实施例,步骤1312具体包括:若任一初始业务类型包含多个业务类型实体,且该初始业务类型所对应的问询文本数量小于第二预设数量阈值,则确定该初始业务类型所对应的问询文本的业务类型为每一业务类型实体分别对应的业务类型。
具体地,第二预设数量阈值为预先设定的包含多个业务类型实体的业务类型所对应的问询文本数量的最小值。针对于包含有多个业务类型实体的单一初始业务类型,例如“话费流量”,需要确定该初始业务类型所对应的问询文本数量。若该初始业务类型所对应的问询文本数量小于第二预设数量阈值,则确定该初始业务类型不符合单独作为一个业务类型的条件,将该初始业务类型拆分合并至每一业务类型实体对应的业务类型中,例如确定初始业务类型“话费流量”所对应的问询文本最终的业务类型为“话费”和“流量”。
本发明实施例提供的方法,通过第二预设数量阈值的设置和应用,滤除极其少数问询文本所对应的初始业务类型,从而避免最终得到的业务类型分类过细,影响后续聚类的问题。
基于上述任一实施例,图4为本发明实施例提供的业务类型所对应的问询文本聚类方法的流程示意图,如图4所示,步骤132具体包括:
步骤1321,基于任一业务类型所对应的每一问询文本的文本特征,对该业务类型所对应的每一问询文本进行聚类,得到该业务类型的初始聚类结果。
具体地,针对任一业务类型,可以基于该业务类型所对应的每一问询文本的文本特征,对每一问询文本进行聚类,由此得到初始聚类结果。此处,初始聚类结果可以包括若干个簇,每个簇中包含有若干个文本特征相类似的问询文本。
步骤1322,基于该业务类型初始聚类结果,以及该业务类型所对应的每一问询文本的操作类型语义片段,确定该业务类型的聚类结果。
具体地,在得到初始聚类结果后,可以基于该业务类型所对应的每一问询文本的操作类型语义片段,判断初始聚类结果中是否存在语义相同的两个簇,如果存在则进行合并。将基于该业务类型所对应的每一问询文本的操作类型语义片段整合后的初始聚类结果,作为该业务类型最终的聚类结果。
此处,基于该业务类型所对应的每一问询文本的操作类型语义片段,对初始聚类结果进行整合的方法有多种,例如针对任意两个簇,若其中一个簇中包含的问询文本的操作类型语义片段与另一个簇中包含的问询文本的操作类型语义片段的相似度高于预先设定的相似度阈值,则对上述两个簇进行合并。
本发明实施例提供的方法,结合文本特征和操作类型语义片段对单一业务类型所对应的问询文本进行聚类,以便于实现准确可靠的知识库构建。
基于上述任一实施例,步骤133具体包括:针对任一业务类型的聚类结果中的任一簇,将该簇中距离该簇的中心最近的问询文本作为一个标准问,将该簇中其余每一问询文本作为标准问的扩展问;基于每一标准问以及每一标准问的扩展问,构建知识库。
具体地,任一业务类型的聚类结果可以包含若干个簇,其中每个簇可以包含若干个问询文本。针对任意一个簇,存在簇中心。簇中心的确定方法有多种,例如将簇中每一问询文本的文本特征的均值均为簇中心。将簇中距离该簇的中心最近的问询文本,即文本特征与簇中心之间的距离最小的问询文本,作为该簇所对应的标准问,将该簇中其余各个问询文本,作为该标准问的扩展问。
通过上述方法,可以得到每一业务类型下的每个簇所对应的标准问及其扩展问,由此即可实现知识库的构建。
基于上述任一实施例,图5为本发明另一实施例提供的知识库构建方法的流程示意图,如图5所示,该方法包括如下步骤:
步骤510,确定问询文本。
步骤520,基于语义理解模型,确定业务类型语义片段、操作类型语义片段和文本特征:
将任一问询文本输入至预先训练好的语义理解模型中,由语义理解模型对问询文本进行语义理解,并输出问询文本的语义理解结果。此处,语义理解结果包括业务类型语义片段、操作类型语义片段和文本特征。
步骤530,基于业务类型语义片段,确定问询文本的业务类型:
业务类型语义片段中可以包含一个或多个业务类型实体,可以基于任一问询文本的业务类型语义片段中包含的业务类型实体,对该问询文本进行业务类型分类,从而确定该问询文本所对应的业务类型。
步骤540,基于文本特征,对业务类型下的问询文本进行聚类:
针对于任一业务类型,可以基于该业务类型所对应每一问询文本的文本特征,对该业务类型所对应的每一问询文本进行聚类,得到该业务类型的聚类结果。
步骤550,基于操作类型语义片段,整合聚类结果:
针对于任一业务类型,可以基于该业务类型所对应的每一问询文本的操作类型语义片段,合并步骤540中得到的聚类结果中语义相同的簇,从而实现聚类结果的整合。
步骤560,基于聚类结果,构建知识库:
在执行步骤550整合得到的每一业务类型的聚类结果后,可以基于每一业务类型下的一个簇确定一个标准问,将该簇中的问询文本作为该标准问对应的扩展问,进而实现知识库的构建。
本发明实施例提供的方法,通过语义理解模型输出问询文本的语义理解结果,进而基于语义理解结果实现知识库的自动构建,有效减少了人力在知识库构建中的参与度,从而减少了人力消耗,节约了知识库的构建时间,提高了知识库的构建质量及其可靠性。
基于上述任一实施例,图6为本发明实施例提供的知识库构建装置的结构示意图,如图6所示,该装置包括语料确定单元610、语义理解单元620和知识库构建单元630;
其中,语料确定单元610用于确定多个问询文本;
语义理解单元620用于将任一问询文本输入至语义理解模型,得到所述语义理解模型输出的所述任一问询文本的语义理解结果;其中,所述语义理解模型是基于样本问询文本及其样本语义理解结果训练得到的,所述语义理解结果包括业务类型语义片段、操作类型语义片段和文本特征中的至少一种;
知识库构建单元630用于基于每一问询文本的语义理解结果,构建知识库。
本发明实施例提供的装置,通过语义理解模型输出问询文本的语义理解结果,进而基于语义理解结果实现知识库的自动构建,有效减少了人力在知识库构建中的参与度,从而减少了人力消耗,节约了知识库的构建时间,提高了知识库的构建质量及其可靠性。
基于上述任一实施例,知识库构建单元630包括:
业务类型确定单元,用于基于任一问询文本的业务类型语义片段,确定所述任一问询文本所对应的业务类型;
聚类单元,用于基于任一业务类型所对应的每一问询文本的所述操作类型语义片段和/或所述文本特征,对所述任一业务类型所对应的每一问询文本进行聚类,得到所述任一业务类型的聚类结果;
构建单元,用于基于每一业务类型的聚类结果,构建知识库。
基于上述任一实施例,业务类型确定单元包括:
初始业务确定子单元,用于基于任一问询文本的业务类型语义片段,确定所述任一问询文本所对应的初始业务类型;
最终业务确定子单元,用于基于任一初始业务类型所对应的问询文本数量和/或任一初始业务类型包含的业务类型实体数量,确定所述任一初始业务类型所对应的问询文本的业务类型。
基于上述任一实施例,最终业务确定子单元具体用于:
若任一初始业务类型所对应的问询文本数量小于第一预设数量阈值,则确定所述任一初始业务类型所对应的问询文本的业务类型为空缺;
删除所述业务类型为空缺且不包含所述操作类型语义片段的问询文本。
基于上述任一实施例,最终业务确定子单元具体用于:
若任一初始业务类型包含多个业务类型实体,且所述任一初始业务类型所对应的问询文本数量小于第二预设数量阈值,则确定所述任一初始业务类型所对应的问询文本的业务类型为每一业务类型实体分别对应的业务类型。
基于上述任一实施例,聚类单元具体用于:
基于任一业务类型所对应的每一问询文本的所述文本特征,对所述任一业务类型所对应的每一问询文本进行聚类,得到所述任一业务类型的初始聚类结果;
基于所述任一业务类型的初始聚类结果,以及所述任一业务类型所对应的每一问询文本的所述操作类型语义片段,确定所述任一业务类型的聚类结果。
基于上述任一实施例,构建单元具体用于:
针对任一业务类型的聚类结果中的任一簇,将所述任一簇中距离所述任一簇的中心最近的问询文本作为一个标准问,将所述任一簇中其余每一问询文本作为所述标准问的扩展问;
基于每一标准问以及每一标准问的扩展问,构建所述知识库。
图7为本发明实施例提供的电子设备的结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑命令,以执行如下方法:确定多个问询文本;将任一问询文本输入至语义理解模型,得到所述语义理解模型输出的所述任一问询文本的语义理解结果;其中,所述语义理解模型是基于样本问询文本及其样本语义理解结果训练得到的,所述语义理解结果包括业务类型语义片段、操作类型语义片段和文本特征中的至少一种;基于每一问询文本的语义理解结果,构建知识库。
此外,上述的存储器730中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:确定多个问询文本;将任一问询文本输入至语义理解模型,得到所述语义理解模型输出的所述任一问询文本的语义理解结果;其中,所述语义理解模型是基于样本问询文本及其样本语义理解结果训练得到的,所述语义理解结果包括业务类型语义片段、操作类型语义片段和文本特征中的至少一种;基于每一问询文本的语义理解结果,构建知识库。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种知识库构建方法,其特征在于,包括:
确定多个问询文本;
将任一问询文本输入至语义理解模型,得到所述语义理解模型输出的所述任一问询文本的语义理解结果;其中,所述语义理解模型是基于样本问询文本及其样本语义理解结果训练得到的,所述语义理解结果包括业务类型语义片段、操作类型语义片段和文本特征中的至少一种;所述操作类型语义片段是指问询文本中包含的操作意图;
基于每一问询文本的语义理解结果,构建知识库;
所述基于每一问询文本的语义理解结果,构建知识库,具体包括:
基于任一问询文本的业务类型语义片段,确定所述任一问询文本所对应的业务类型;
基于任一业务类型所对应的每一问询文本的所述操作类型语义片段和/或所述文本特征,对所述任一业务类型所对应的每一问询文本进行聚类,得到所述任一业务类型的聚类结果;
基于每一业务类型的聚类结果,构建知识库;
所述基于每一业务类型的聚类结果,构建知识库,具体包括:
针对任一业务类型的聚类结果中的任一簇,将所述任一簇中距离所述任一簇的中心最近的问询文本作为一个标准问,将所述任一簇中其余每一问询文本作为所述标准问的扩展问;
基于每一标准问以及每一标准问的扩展问,构建所述知识库。
2.根据权利要求1所述的知识库构建方法,其特征在于,所述基于任一问询文本的业务类型语义片段,确定所述任一问询文本所对应的业务类型,具体包括:
基于任一问询文本的业务类型语义片段,确定所述任一问询文本所对应的初始业务类型;
基于任一初始业务类型所对应的问询文本数量和/或任一初始业务类型包含的业务类型实体数量,确定所述任一初始业务类型所对应的问询文本的业务类型。
3.根据权利要求2所述的知识库构建方法,其特征在于,所述基于任一初始业务类型所对应的问询文本数量和/或任一初始业务类型包含的业务类型实体数量,确定所述任一初始业务类型所对应的问询文本的业务类型,具体包括:
若任一初始业务类型所对应的问询文本数量小于第一预设数量阈值,则确定所述任一初始业务类型所对应的问询文本的业务类型为空缺;
删除所述业务类型为空缺且不包含所述操作类型语义片段的问询文本。
4.根据权利要求2所述的知识库构建方法,其特征在于,所述基于任一初始业务类型所对应的问询文本数量和/或任一初始业务类型包含的业务类型实体数量,确定所述任一初始业务类型所对应的问询文本的业务类型,具体包括:
若任一初始业务类型包含多个业务类型实体,且所述任一初始业务类型所对应的问询文本数量小于第二预设数量阈值,则确定所述任一初始业务类型所对应的问询文本的业务类型为每一业务类型实体分别对应的业务类型。
5.根据权利要求1至4中任一项所述的知识库构建方法,其特征在于,基于任一业务类型所对应的每一问询文本的所述操作类型语义片段和/或所述文本特征,对所述任一业务类型所对应的每一问询文本进行聚类,得到所述任一业务类型的聚类结果,具体包括:
基于任一业务类型所对应的每一问询文本的所述文本特征,对所述任一业务类型所对应的每一问询文本进行聚类,得到所述任一业务类型的初始聚类结果;
基于所述任一业务类型的初始聚类结果,以及所述任一业务类型所对应的每一问询文本的所述操作类型语义片段,确定所述任一业务类型的聚类结果。
6.一种知识库构建装置,其特征在于,包括:
语料确定单元,用于确定多个问询文本;
语义理解单元,用于将任一问询文本输入至语义理解模型,得到所述语义理解模型输出的所述任一问询文本的语义理解结果;其中,所述语义理解模型是基于样本问询文本及其样本语义理解结果训练得到的,所述语义理解结果包括业务类型语义片段、操作类型语义片段和文本特征中的至少一种;所述操作类型语义片段是指问询文本中包含的操作意图;
知识库构建单元,用于基于每一问询文本的语义理解结果,构建知识库;
所述知识库构建单元,具体用于:
基于任一问询文本的业务类型语义片段,确定所述任一问询文本所对应的业务类型;
基于任一业务类型所对应的每一问询文本的所述操作类型语义片段和/或所述文本特征,对所述任一业务类型所对应的每一问询文本进行聚类,得到所述任一业务类型的聚类结果;
基于每一业务类型的聚类结果,构建知识库;
所述知识库构建单元,具体用于:
针对任一业务类型的聚类结果中的任一簇,将所述任一簇中距离所述任一簇的中心最近的问询文本作为一个标准问,将所述任一簇中其余每一问询文本作为所述标准问的扩展问;
基于每一标准问以及每一标准问的扩展问,构建所述知识库。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的知识库构建方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5中任一项所述的知识库构建方法的步骤。
CN201911330202.1A 2019-12-20 2019-12-20 知识库构建方法、装置、电子设备和存储介质 Active CN111125374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911330202.1A CN111125374B (zh) 2019-12-20 2019-12-20 知识库构建方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911330202.1A CN111125374B (zh) 2019-12-20 2019-12-20 知识库构建方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111125374A CN111125374A (zh) 2020-05-08
CN111125374B true CN111125374B (zh) 2022-12-06

Family

ID=70501638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911330202.1A Active CN111125374B (zh) 2019-12-20 2019-12-20 知识库构建方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111125374B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742448A (zh) * 2021-07-30 2021-12-03 科大讯飞股份有限公司 知识点生成方法、装置、电子设备、计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649742A (zh) * 2016-12-26 2017-05-10 上海智臻智能网络科技股份有限公司 数据库维护方法和装置
CN106777232A (zh) * 2016-12-26 2017-05-31 上海智臻智能网络科技股份有限公司 问答抽取方法、装置及终端
CN109033270A (zh) * 2018-07-09 2018-12-18 深圳追科技有限公司 一种基于人工客服日志自动构建客服知识库的方法
CN109800879A (zh) * 2018-12-21 2019-05-24 科大讯飞股份有限公司 知识库构建方法和装置
CN110019305A (zh) * 2017-12-18 2019-07-16 上海智臻智能网络科技股份有限公司 知识库扩展方法及存储介质、终端

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10489712B2 (en) * 2016-02-26 2019-11-26 Oath Inc. Quality-based scoring and inhibiting of user-generated content
CN107220380A (zh) * 2017-06-27 2017-09-29 北京百度网讯科技有限公司 基于人工智能的问答推荐方法、装置和计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649742A (zh) * 2016-12-26 2017-05-10 上海智臻智能网络科技股份有限公司 数据库维护方法和装置
CN106777232A (zh) * 2016-12-26 2017-05-31 上海智臻智能网络科技股份有限公司 问答抽取方法、装置及终端
CN110019305A (zh) * 2017-12-18 2019-07-16 上海智臻智能网络科技股份有限公司 知识库扩展方法及存储介质、终端
CN109033270A (zh) * 2018-07-09 2018-12-18 深圳追科技有限公司 一种基于人工客服日志自动构建客服知识库的方法
CN109800879A (zh) * 2018-12-21 2019-05-24 科大讯飞股份有限公司 知识库构建方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于自动生成知识库的智能问答系统设计;王飞鸿等;《中国科技信息》;20180630;第50-52页 *

Also Published As

Publication number Publication date
CN111125374A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
CN109033387B (zh) 一种融合多源数据的物联网搜索系统、方法及存储介质
US20190073416A1 (en) Method and device for processing question clustering in automatic question and answering system
CN108416375B (zh) 工单分类方法及装置
CN106997342B (zh) 基于多轮交互的意图识别方法和装置
US11429810B2 (en) Question answering method, terminal, and non-transitory computer readable storage medium
CN109558533B (zh) 一种基于多重聚类的个性化内容推荐方法及装置
WO2023019933A1 (zh) 构建检索数据库的方法、装置、设备以及存储介质
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质
CN110569289A (zh) 基于大数据的列数据处理方法、设备及介质
CN104064182A (zh) 一种基于分类规则的语音识别系统及方法
CN110428816B (zh) 一种语音细胞库训练和分享的方法及装置
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN115329176A (zh) 搜索请求的处理方法、装置、计算机设备及存储介质
CN111125374B (zh) 知识库构建方法、装置、电子设备和存储介质
CN111125379B (zh) 知识库扩充方法、装置、电子设备和存储介质
CN114444514B (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN110633468A (zh) 一种关于对象特征提取的信息处理方法及装置
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
US20230196020A1 (en) Learning framework for processing communication session transcripts
CN116010545A (zh) 一种数据处理方法、装置及设备
CN112528021B (zh) 一种模型训练方法、模型训练装置及智能设备
CN113326688A (zh) 一种基于思想政治词语查重处理方法和装置
CN111767730A (zh) 一种事件类型识别方法及装置
CN111625636A (zh) 一种人机对话的拒绝识别方法、装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant