CN109635117A - 一种基于知识图谱识别用户意图方法及装置 - Google Patents
一种基于知识图谱识别用户意图方法及装置 Download PDFInfo
- Publication number
- CN109635117A CN109635117A CN201811602913.5A CN201811602913A CN109635117A CN 109635117 A CN109635117 A CN 109635117A CN 201811602913 A CN201811602913 A CN 201811602913A CN 109635117 A CN109635117 A CN 109635117A
- Authority
- CN
- China
- Prior art keywords
- user
- entity
- demand
- business scenario
- event description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于知识图谱识别用户意图方法及、装置,该基于知识图谱识别用户意图方法包括:识别输入的用户诉求中包含的实体;依据所述用户诉求,构建所述实体的事件描述;基于所述用户诉求对应的各所述实体的事件描述以及预先设置的知识图谱,确定所述用户诉求对应的分类域;将所述用户诉求输入所述分类域对应的已训练好的意图分类模型,识别用户意图。可以有效提升意图识别的准确率。
Description
技术领域
本申请涉及信息处理技术领域,具体而言,涉及一种基于知识图谱识别用户意图方法及装置。
背景技术
随着人工智能(AI,Artificial Intelligence)技术的发展,对话机器人已广泛应用到客服、外呼、销售、智能搜索等众多领域,为用户提供客户筛选、咨询问题解答、简单任务实现等功能。其中,业务型对话机器人是指以完成用户诉求为目的的对话机器人。该业务型对话机器人至少包含两个对话要素:意图和槽位。其中,意图是指对话交互过程中,确定用户诉求(用户任务)的目的,例如,用户诉求为“查询XX城市天气信息”,“办理XX移动套餐业务”,“解释XX现象”等,需要从用户诉求中确定其意图。槽位是指业务型对话机器人完成用户意图所需要的关键信息,例如,对于用户诉求为“查询北京的天气”的情形,“北京”、“天气”为“查询XX城市天气信息”诉求对应的槽位,该用户意图为查询北京天气。
现有的业务型对话机器人,基于用户诉求,一般通过搜索式和分类式识别用户诉求中包含的用户意图。其中,搜索式是指维护一系列意图对应的表述方式,当用户提出一用户诉求时,通过确定用户诉求中包含的关键词,搜索与确定的关键词最相似的表述方式,从而获取该用户诉求对应的意图。分类式是指预先训练一意图分类模型,当用户提出一用户诉求时,将该用户诉求输入训练好的意图分类模型,使用该训练好的分类模型确定用户诉求的意图。
但现有的搜索式方法,对于包含相同或相似关键词的用户诉求,可能会对应一同义表达方式,也可能会命中不同的意图,如当用户诉求为“刘德华的爸爸是谁”,“刘德华是谁的爸爸”时,该搜索式方法难以解决该意图缠绕的问题,使得用户意图的识别效率较低。而通过分类式方法,如常用的支持向量机(SVM,Support Vector Machine)、深度学习分类器、神经网络分类器等,在进行分类模型训练时,是针对海量的训练样本进行意图训练,不仅前期具有较高的训练成本,而且,随着业务的细分和变化,分类模型中包含的意图的数量不断增加,导致分类的精度可能不断下降,使得意图识别的准确率不断下降,从而也导致对话机器人的交互效果较差,降低了用户的体验效果。
发明内容
有鉴于此,本申请的目的在于提供一种基于知识图谱识别用户意图方法及装置,提升意图识别的准确率。
第一方面,本申请实施例提供了一种基于知识图谱识别用户意图方法,该方法包括:
识别输入的用户诉求中包含的实体;
依据所述用户诉求,构建所述实体的事件描述;
基于所述用户诉求对应的各所述实体的事件描述以及预先设置的知识图谱,确定所述用户诉求对应的分类域;
将所述用户诉求输入所述分类域对应的已训练好的意图分类模型,识别用户意图。
可选地,所述识别输入的用户诉求中包含的实体,包括:
对输入的用户诉求进行预处理,去掉无意义词,得到预处理文本;
对所述预处理文本进行分词处理,得到实体。
可选地,在所述识别输入的用户诉求中包含的实体之后,依据所述用户诉求,构建所述实体的事件描述之前,所述方法还包括:
查询预先设置的历史标注实体与归一化实体的映射关系集,获取所述实体映射的归一化实体,并对获取的归一化实体进行合并,作为所述用户诉求中包含的实体。
可选地,所述依据所述用户诉求,构建所述实体的事件描述,包括:
对所述用户诉求进行句法分析,确定各实体的主谓宾关系、词性以及定状补关系,基于各实体的主谓宾关系、词性以及定状补关系,构建实体的事件描述。
可选地,所述基于所述用户诉求对应的各所述实体的事件描述以及预先设置的知识图谱,确定所述用户诉求对应的分类域,包括:
确定所述用户诉求对应的业务场景;
针对所述用户诉求对应的每一所述实体的事件描述,计算该实体的事件描述与所述业务场景下各问法的相似度;
依据所述用户诉求对应的问法,确定所述用户诉求在知识图谱中对应的操作;
依据确定的操作确定对应的实体;
依据确定的实体确定所述用户诉求对应的分类域。
可选地,构建所述知识图谱,包括:
收集标注样本数据集,依据所述标注样本数据集进行业务场景分类并确定分类的业务场景对应的业务场景关键词集;
针对每一分类的业务场景,提取该业务场景对应的业务场景标注样本数据集,依据所述业务场景标注样本数据集对该业务场景进行域业务场景分类;
针对每一分类的域业务场景,提取该域业务场景对应的域业务场景标注样本数据集,依据所述域业务场景标注样本数据集对该业务场景进行实体分类;
针对每一实体,为该实体设置一个或多个操作;
针对每一操作,提取该操作对应的操作标注样本数据集,依据所述操作标注样本数据集,为该操作配置一个或多个问法。
可选地,构建所述分类域对应的意图分类模型,包括:
获取分类域对应的训练数据集,对所述训练数据集中每一训练数据分别进行意图标注;
以所述训练数据集中的训练数据作为所述意图分类模型的输入,以该训练数据标注的意图作为所述意图分类模型的输出,对所述意图分类模型进行训练,得到所述已训练好的意图分类模型。
可选地,所述对所述意图分类模型进行训练,得到所述已训练好的意图分类模型,包括:
以预设的测试数据集中的测试数据作为训练的意图分类模型的输入,获取输出的意图,将所述输出的意图与该测试数据标注的意图进行比较,得到比较结果;
统计各测试数据对应的比较结果的准确度,若统计的准确度大于或等于预设的准确度阈值,得到所述已训练好的意图分类模型,若统计的准确度小于预设的准确度阈值,继续进行训练直至统计的准确度大于或等于预设的准确度阈值。
可选地,在所述识别用户意图后,所述方法还包括:
获取与识别的用户意图以及所述用户诉求对应的用户信息相匹配的回复信息,向所述用户诉求对应的用户返回所述回复信息。
第二方面,本申请实施例提供了一种基于知识图谱识别用户意图装置,该装置包括:
实体识别模块,用于识别输入的用户诉求中包含的实体;
事件描述构建模块,用于依据所述用户诉求,构建所述实体的事件描述;
分类域确定模块,用于基于所述用户诉求对应的各所述实体的事件描述以及预先设置的知识图谱,确定所述用户诉求对应的分类域;
意图识别模块,用于将所述用户诉求输入所述分类域对应的已训练好的意图分类模型,识别用户意图。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
本申请实施例提供的一种基于知识图谱识别用户意图方法及装置,通过识别输入的用户诉求中包含的实体;依据所述用户诉求,构建所述实体的事件描述;基于所述用户诉求对应的各所述实体的事件描述以及预先设置的知识图谱,确定所述用户诉求对应的分类域;将所述用户诉求输入所述分类域对应的已训练好的意图分类模型,识别用户意图。这样,利用知识图谱对用户诉求进行分类域确定,再依据该分类域对应的意图分类模型,对用户诉求进行意图识别,可以有效提升意图识别的准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的基于知识图谱识别用户意图方法流程示意图;
图2为本申请实施例提供的银行业务场景知识图谱示意图;
图3为本申请实施例提供的基于知识图谱识别用户意图装置结构示意图;
图4为本申请实施例提供的一种计算机设备400的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的基于知识图谱识别用户意图方法流程示意图。如图1所示,该方法包括:
步骤101,识别输入的用户诉求中包含的实体;
本申请实施例中,作为一可选实施例,识别输入的用户诉求中包含的实体,包括:
A11,对输入的用户诉求进行预处理,去掉无意义词,得到预处理文本;
本申请实施例中,对用户诉求对应的文本进行预处理,例如,将影响识别的标点符号转换为分隔符,去掉语气词、表情等无意义词。
例如,对用户诉求:我家的路由器灯老是不亮。手机连wifi,网页有时候能打开,有时候又打不开。这种情况怎么处理?进行预处理,具体包括:首先,将标点符号转换为分隔符,然后,去掉无意义词,得到的预处理文本为:路由器灯老是不亮/手机连wifi/网页有时能打开/有时打不开。
本申请实施例中,可以依据预先设置的无意义词集,对文本进行预处理。
A12,对所述预处理文本进行分词处理,得到实体。
本申请实施例中,可以结合预先设置的条件随机场(CRF,Conditional RandomField)分词模型提取预处理文本中包含的实体。作为一可选实施例,对“路由器灯老是不亮/手机连wifi/网页有时能打开/有时打不开”进行实体识别,可以得到如下实体:路由器、灯、手机、wifi、网页。
步骤102,依据所述用户诉求,构建所述实体的事件描述;
本申请实施例中,由于不同用户输入的用户诉求可能包含有大量的同义词或近义词,为了降低对实体的处理量,作为一可选实施例,在所述识别输入的用户诉求中包含的实体之后,依据所述用户诉求,构建所述实体的事件描述之前,该方法还包括:
查询预先设置的历史标注实体与归一化实体的映射关系集,获取所述实体映射的归一化实体,并对获取的归一化实体进行合并,作为所述用户诉求中包含的实体。
本申请实施例中,作为一可选实施例,以路由器为例,归一化实体为路由器,该归一化实体映射的历史标注实体集包括但不限于:路由器、集线器、网卡、猫等。这样,通过预先构建归一化实体与历史标注实体的映射关系,将用户诉求中包含的实体进行归一化处理,可以有效减少后续待处理的实体数量。
本申请实施例中,作为再一可选实施例,实际应用中,还可以对提取出的实体进行核心实体区分,去掉不重要的实体。
本申请实施例中,作为一可选实施例,依据所述用户诉求,构建所述实体的事件描述,包括:
对所述用户诉求进行句法分析,确定各实体的主谓宾关系、词性以及定状补关系,基于各实体的主谓宾关系、词性以及定状补关系,构建实体的事件描述。
本申请实施例中,构建实体的事件描述包括:
对于实体:路由器、灯,对应的描述为:不亮;实体的事件描述为:路由器/灯/不亮;
对于实体:手机、wifi,对应的描述为:连;实体的事件描述为:手机/连/wifi;
对于实体:网页,对应的描述为:能、打开、打不开;实体的事件描述为:网页/能/打开;网页/打不开。
本申请实施例中,作为另一可选实施例,也可以对实体的事件描述进行归一化处理。例如,根据实体和与实体相关的主谓宾关系以及定状补关系,使用预先设置的序列标注模型识别实体相关的事件,得到实体的事件描述,并对实体的事件描述进行归一化。
步骤103,基于所述用户诉求对应的各所述实体的事件描述以及预先设置的知识图谱,确定所述用户诉求对应的分类域;
本申请实施例中,作为一可选实施例,知识图谱为领域业务知识图谱,每一领域对应一知识图谱,根据标注样本数据集进行构建得到,包括:业务场景、域业务场景、实体、操作以及问法,以业务场景为银行为例,如图2所示,图2为本申请实施例提供的银行业务场景知识图谱示意图。其中,
银行业务场景包括不同的域业务场景,例如,包括:信用卡业务场景、积分业务场景、储蓄卡业务场景等;
每一域业务场景,又可分为不同的实体,例如,对于信用卡业务场景,包括:信用卡、账单等实体;
对于每一实体,又包括不同的操作,例如,对于信用卡实体,包括:查询额度、查询办理进度等操作;
对于每一操作,包括不同的问法,例如,对于查询额度操作,对应的问法可以包括:(查、额度)、(额度、多少)等。
本申请实施例中,作为一可选实施例,可以通过如下步骤构建知识图谱:
A21,收集标注样本数据集,依据所述标注样本数据集进行业务场景分类并确定分类的业务场景对应的业务场景关键词集;
本申请实施例中,标注样本数据集可以是人工标注的各对话机器人或网络上的数据。作为一可选实施例,业务场景包括但不限于:银行业务场景、通信业务场景、快递业务场景、旅游业务场景等。在分类得到业务场景后,为每一分类的业务场景配置对应的业务场景关键词集。
A22,针对每一分类的业务场景,提取该业务场景对应的业务场景标注样本数据集,依据所述业务场景标注样本数据集对该业务场景进行域业务场景分类;
A23,针对每一分类的域业务场景,提取该域业务场景对应的域业务场景标注样本数据集,依据所述域业务场景标注样本数据集对该业务场景进行实体分类;
本申请实施例中,可以对提取的实体进行归一化处理。
A24,针对每一实体,为该实体设置一个或多个操作;
本申请实施例中,例如,对于信用卡实体,可以设置:查询额度操作、查询办理进度操作等。
A25,针对每一操作,提取该操作对应的操作标注样本数据集,依据所述操作标注样本数据集,为该操作配置一个或多个问法。
本申请实施例中,对于查询额度操作,分析其对应的操作标注样本数据集,可以配置对应的问法,例如,配置的问法包括:(查、额度)、(额度、多少)等。
本申请实施例中,作为另一可选实施例,还可以依据后续获取的更多的标注样本数据集,对知识图谱进行更新。
本申请实施例中,当业务发生变化时,如新增业务“办理9.9元不限量套餐”(办理套餐),与原有的“办理不限流量套餐”(办理宽带)产生意图缠绕时,只需在知识图谱中增加对应“办理/9.9元/套餐”的问法描述,对话机器人便能迅速作出响应,不需要重新标注数据、重新训练分类模型,从而延误业务发展。
本申请实施例中,作为一可选实施例,基于所述用户诉求对应的各所述实体的事件描述以及预先设置的知识图谱,确定所述用户诉求对应的分类域,包括:
B11,确定所述用户诉求对应的业务场景;
本申请实施例中,作为一可选实施例,可以依据用户诉求包含的各实体,与各业务场景对应的实体词集进行匹配,从而确定匹配度最高的业务场景作为该用户诉求对应的业务场景。
B12,针对所述用户诉求对应的每一所述实体的事件描述,计算该实体的事件描述与所述业务场景下各问法的相似度;
B13,选取相似度最高对应的问法,作为所述用户诉求对应的问法;
B14,依据所述用户诉求对应的问法,确定所述用户诉求在知识图谱中对应的操作;
B15,依据确定的操作确定对应的实体;
B16,依据确定的实体确定所述用户诉求对应的分类域。
本申请实施例中,分类域为域业务场景。
本申请实施例中,也可以依据通过实体的事件描述,计算该实体的事件描述与所述业务场景下各问法的相似度,将相似度最高对应的问法作为该实体的事件描述对应的问法。依据各实体的事件描述分别对应的问法,确定各实体的事件描述分别对应的分类域。例如,对于实体的事件描述:路由器/灯/不亮,匹配知识图谱,对应的分类域为宽带域;对于实体的事件描述:手机/连/wifi,对应的分类域为无域;对于实体的事件描述:网页/能/打开,对应的分类域为宽带域;对于实体的事件描述:网页/打不开,对应的分类域为宽带域。
步骤104,将所述用户诉求输入所述分类域对应的已训练好的意图分类模型,识别用户意图。
本申请实施例中,作为一可选实施例,针对业务场景下的每一分类域,预先训练好一意图分类模型。该意图分类模型包括一个或多个意图。
本申请实施例中,作为一可选实施例,可以利用如下步骤训练分类域对应的意图分类模型:
B21,获取分类域对应的训练数据集,对所述训练数据集中每一训练数据分别进行意图标注;
本申请实施例中,通过获取分类域对应的训练数据集,基于训练数据集进行该分类域对应的意图分类模型训练,相比于通过各分类域对应的训练数据集进行训练,训练的数据准确性高,因而,训练得到的模型的精度也较高。
本申请实施例中,作为一可选实施例,可以通过对分类域对应的训练数据集进行聚类,可以获取该分类域包含的意图并进行相应数据标注。作为另一可选实施例,也可以人工对分类域包含的意图进行分类,并人工对分类域对应的训练数据集中的每一训练数据进行相应标注。例如,以分类域为宽带域为例,将该宽带域对应的训练数据集中的每一训练数据,标注为办理宽带、咨询宽带、查询宽带、宽带故障中的一种。
B22,以所述训练数据集中的训练数据作为所述意图分类模型的输入,以该训练数据标注的意图作为所述意图分类模型的输出,对所述意图分类模型进行训练,得到所述已训练好的意图分类模型。
本申请实施例中,作为一可选实施例,所述对所述意图分类模型进行训练,得到所述已训练好的意图分类模型,包括:
以预设的测试数据集中的测试数据作为训练的意图分类模型的输入,获取输出的意图,将所述输出的意图与该测试数据标注的意图进行比较,得到比较结果;
统计各测试数据对应的比较结果的准确度,若统计的准确度大于或等于预设的准确度阈值,得到所述已训练好的意图分类模型,若统计的准确度小于预设的准确度阈值,继续进行训练直至统计的准确度大于或等于预设的准确度阈值。
本申请实施例中,作为一可选实施例,对于用户诉求对应的分类域为一个的情形,将用户诉求输入该分类域对应的已训练好的意图分类模型后,概率值最高的用户意图为识别的用户意图。例如,宽带域对应的意图分类模型中,意图包括但不限于:办理宽带、咨询宽带、查询宽带、宽带故障,最后取概率值最高对应的宽带故障作为识别的意图。
而对于用户诉求对应的分类域为多个的情形,将用户诉求分别输入多个分类域对应的已训练好的意图分类模型后,多个已训练好的意图分类模型输出的概率值中,概率值最高的用户意图为识别的用户意图。
本申请实施例中,作为一可选实施例,在所述识别用户意图后,该方法还包括:
获取与识别的用户意图以及所述用户诉求对应的用户信息相匹配的回复信息,向所述用户诉求对应的用户返回所述回复信息。
本申请实施例中,例如,对于用户意图为宽带故障的情形,获取用户诉求对应的用户信息,例如,定位用户输入用户诉求的位置信息,查询该位置信息内的维护人员,确定维护人员执行维护的时间信息,将维护的时间信息和维护人员的联系方式作为回复信息通知给用户。
本申请实施例的意图识别方法,适用于对话理解的意图识别部分,尤其是特定业务场景下或特定领域内的、有限集合的意图识别。该对话理解常用于对话机器人或文本信息提取。
本申请实施例中,当用户向对话机器人发起用户诉求时,对话机器人从用户诉求中分析问题描述,提取问题描述所对应的实体。根据实体和对实体的事件描述,对应知识图谱,确定用户诉求所涉及的业务分类域,对话机器人即可分辨用户诉求所属的问题域(分类域)。这样,通过先对用户诉求所属的分类域进行区分,用户诉求对应的问题被精确到一个或少数几个问题域,结合精确的分类域对应的意图分类模型进行用户意图识别,意图分类的精确程度得到了大幅提高,且分类域对应的意图分类模型所需的训练数据可以大幅缩减,训练投入低;进一步地,每个分类域下的意图较少,利用分类域对应的数据进行训练,也提升了模型精度;此外,知识图谱与意图分类模型紧密结合,通过维护知识图谱的方式,可以应对可能的业务变化,使对话机器人可以及时响应业务的演进,可以方便地维护和提升模型效果,对模型进行干预,响应业务变化。而现有基于搜索的处理方式:在知识库中搜索用户诉求对应的问题,搜到“手机连wifi的功能打不开”“路由器打不开网页”“老是打不开路由器”,不能进行用户意图的正确识别。基于分类的处理方式:由于“宽带异常”和“通信异常”意图缠绕,用户意图的分类可能不准确。
图3为本申请实施例提供的基于知识图谱识别用户意图装置结构示意图。如图3所示,该装置包括:
实体识别模块301,用于识别输入的用户诉求中包含的实体;
本申请实施例中,作为一可选实施例,实体识别模块301具体用于:
对输入的用户诉求进行预处理,去掉无意义词,得到预处理文本;
对所述预处理文本进行分词处理,得到实体。
本申请实施例中,进行预处理,具体包括:首先,将标点符号转换为分隔符,然后,去掉无意义词。可以结合预先设置的CRF分词模型提取预处理文本中包含的实体。
事件描述构建模块302,用于依据所述用户诉求,构建所述实体的事件描述;
本申请实施例中,作为一可选实施例,事件描述构建模块302具体用于:
对所述用户诉求进行句法分析,确定各实体的主谓宾关系、词性以及定状补关系,基于各实体的主谓宾关系、词性以及定状补关系,构建实体的事件描述。
分类域确定模块303,用于基于所述用户诉求对应的各所述实体的事件描述以及预先设置的知识图谱,确定所述用户诉求对应的分类域;
本申请实施例中,作为一可选实施例,分类域确定模块303具体用于:
确定所述用户诉求对应的业务场景;
针对所述用户诉求对应的每一所述实体的事件描述,计算该实体的事件描述与所述业务场景下各问法的相似度;
依据所述用户诉求对应的问法,确定所述用户诉求在知识图谱中对应的操作;
依据确定的操作确定对应的实体;
依据确定的实体确定所述用户诉求对应的分类域。
意图识别模块304,用于将所述用户诉求输入所述分类域对应的已训练好的意图分类模型,识别用户意图。
本申请实施例中,作为一可选实施例,针对业务场景下的每一分类域,预先训练好一意图分类模型。该意图分类模型包括一个或多个意图。
本申请实施例中,作为一可选实施例,该装置还包括:
归一化模块(图中未示出),用于查询预先设置的历史标注实体与归一化实体的映射关系集,获取所述实体映射的归一化实体,并对获取的归一化实体进行合并,作为所述用户诉求中包含的实体,输出至事件描述构建模块302。
本申请实施例中,作为一可选实施例,构建所述知识图谱,包括:
收集标注样本数据集,依据所述标注样本数据集进行业务场景分类并确定分类的业务场景对应的业务场景关键词集;
针对每一分类的业务场景,提取该业务场景对应的业务场景标注样本数据集,依据所述业务场景标注样本数据集对该业务场景进行域业务场景分类;
针对每一分类的域业务场景,提取该域业务场景对应的域业务场景标注样本数据集,依据所述域业务场景标注样本数据集对该业务场景进行实体分类;
针对每一实体,为该实体设置一个或多个操作;
针对每一操作,提取该操作对应的操作标注样本数据集,依据所述操作标注样本数据集,为该操作配置一个或多个问法。
本申请实施例中,作为一可选实施例,构建所述分类域对应的意图分类模型,包括:
获取分类域对应的训练数据集,对所述训练数据集中每一训练数据分别进行意图标注;
以所述训练数据集中的训练数据作为所述意图分类模型的输入,以该训练数据标注的意图作为所述意图分类模型的输出,对所述意图分类模型进行训练,得到所述已训练好的意图分类模型。
本申请实施例中,作为一可选实施例,所述对所述意图分类模型进行训练,得到所述已训练好的意图分类模型,包括:
以预设的测试数据集中的测试数据作为训练的意图分类模型的输入,获取输出的意图,将所述输出的意图与该测试数据标注的意图进行比较,得到比较结果;
统计各测试数据对应的比较结果的准确度,若统计的准确度大于或等于预设的准确度阈值,得到所述已训练好的意图分类模型,若统计的准确度小于预设的准确度阈值,继续进行训练直至统计的准确度大于或等于预设的准确度阈值。
本申请实施例中,作为一可选实施例,该装置还包括:
交互模块(图中未示出),用于获取与识别的用户意图以及所述用户诉求对应的用户信息相匹配的回复信息,向所述用户诉求对应的用户返回所述回复信息。
如图4所示,本申请一实施例提供了一种计算机设备400,用于执行图1的基于知识图谱识别用户意图方法,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述基于知识图谱识别用户意图方法的步骤。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述基于知识图谱识别用户意图方法。
对应于图1的基于知识图谱识别用户意图方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述基于知识图谱识别用户意图方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述解析便携式文档格式文档表格的方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种基于知识图谱识别用户意图方法,其特征在于,该方法包括:
识别输入的用户诉求中包含的实体;
依据所述用户诉求,构建所述实体的事件描述;
基于所述用户诉求对应的各所述实体的事件描述以及预先设置的知识图谱,确定所述用户诉求对应的分类域;
将所述用户诉求输入所述分类域对应的已训练好的意图分类模型,识别用户意图。
2.如权利要求1所述的方法,其特征在于,所述识别输入的用户诉求中包含的实体,包括:
对输入的用户诉求进行预处理,去掉无意义词,得到预处理文本;
对所述预处理文本进行分词处理,得到实体。
3.如权利要求1所述的方法,其特征在于,在所述识别输入的用户诉求中包含的实体之后,依据所述用户诉求,构建所述实体的事件描述之前,所述方法还包括:
查询预先设置的历史标注实体与归一化实体的映射关系集,获取所述实体映射的归一化实体,并对获取的归一化实体进行合并,作为所述用户诉求中包含的实体。
4.如权利要求1所述的方法,其特征在于,所述依据所述用户诉求,构建所述实体的事件描述,包括:
对所述用户诉求进行句法分析,确定各实体的主谓宾关系、词性以及定状补关系,基于各实体的主谓宾关系、词性以及定状补关系,构建实体的事件描述。
5.如权利要求1至4任一项所述的方法,其特征在于,所述基于所述用户诉求对应的各所述实体的事件描述以及预先设置的知识图谱,确定所述用户诉求对应的分类域,包括:
确定所述用户诉求对应的业务场景;
针对所述用户诉求对应的每一所述实体的事件描述,计算该实体的事件描述与所述业务场景下各问法的相似度;
依据所述用户诉求对应的问法,确定所述用户诉求在知识图谱中对应的操作;
依据确定的操作确定对应的实体;
依据确定的实体确定所述用户诉求对应的分类域。
6.如权利要求1至4任一项所述的方法,其特征在于,构建所述知识图谱,包括:
收集标注样本数据集,依据所述标注样本数据集进行业务场景分类并确定分类的业务场景对应的业务场景关键词集;
针对每一分类的业务场景,提取该业务场景对应的业务场景标注样本数据集,依据所述业务场景标注样本数据集对该业务场景进行域业务场景分类;
针对每一分类的域业务场景,提取该域业务场景对应的域业务场景标注样本数据集,依据所述域业务场景标注样本数据集对该业务场景进行实体分类;
针对每一实体,为该实体设置一个或多个操作;
针对每一操作,提取该操作对应的操作标注样本数据集,依据所述操作标注样本数据集,为该操作配置一个或多个问法。
7.如权利要求1至4任一项所述的方法,其特征在于,构建所述分类域对应的意图分类模型,包括:
获取分类域对应的训练数据集,对所述训练数据集中每一训练数据分别进行意图标注;
以所述训练数据集中的训练数据作为所述意图分类模型的输入,以该训练数据标注的意图作为所述意图分类模型的输出,对所述意图分类模型进行训练,得到所述已训练好的意图分类模型。
8.如权利要求7所述的方法,其特征在于,所述对所述意图分类模型进行训练,得到所述已训练好的意图分类模型,包括:
以预设的测试数据集中的测试数据作为训练的意图分类模型的输入,获取输出的意图,将所述输出的意图与该测试数据标注的意图进行比较,得到比较结果;
统计各测试数据对应的比较结果的准确度,若统计的准确度大于或等于预设的准确度阈值,得到所述已训练好的意图分类模型,若统计的准确度小于预设的准确度阈值,继续进行训练直至统计的准确度大于或等于预设的准确度阈值。
9.如权利要求1至4任一项所述的方法,其特征在于,在所述识别用户意图后,所述方法还包括:
获取与识别的用户意图以及所述用户诉求对应的用户信息相匹配的回复信息,向所述用户诉求对应的用户返回所述回复信息。
10.一种基于知识图谱识别用户意图装置,其特征在于,该装置包括:
实体识别模块,用于识别输入的用户诉求中包含的实体;
事件描述构建模块,用于依据所述用户诉求,构建所述实体的事件描述;
分类域确定模块,用于基于所述用户诉求对应的各所述实体的事件描述以及预先设置的知识图谱,确定所述用户诉求对应的分类域;
意图识别模块,用于将所述用户诉求输入所述分类域对应的已训练好的意图分类模型,识别用户意图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811602913.5A CN109635117B (zh) | 2018-12-26 | 2018-12-26 | 一种基于知识图谱识别用户意图方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811602913.5A CN109635117B (zh) | 2018-12-26 | 2018-12-26 | 一种基于知识图谱识别用户意图方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635117A true CN109635117A (zh) | 2019-04-16 |
CN109635117B CN109635117B (zh) | 2021-05-14 |
Family
ID=66077852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811602913.5A Active CN109635117B (zh) | 2018-12-26 | 2018-12-26 | 一种基于知识图谱识别用户意图方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635117B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083685A (zh) * | 2019-04-26 | 2019-08-02 | 北京零秒科技有限公司 | 用于意图识别的数据配置方法及装置 |
CN110119353A (zh) * | 2019-04-18 | 2019-08-13 | 上海蔚来汽车有限公司 | 测试数据生成方法、装置以及控制器和介质 |
CN110263254A (zh) * | 2019-06-20 | 2019-09-20 | 北京百度网讯科技有限公司 | 事件分级方法、装置、设备和介质 |
CN110298445A (zh) * | 2019-05-30 | 2019-10-01 | 合肥阿拉丁智能科技有限公司 | 深度学习自主运行方法 |
CN110516050A (zh) * | 2019-07-15 | 2019-11-29 | 上海文思海辉金信软件有限公司 | 一种基于知识图谱的多路径训练场景的构建方法 |
CN110543573A (zh) * | 2019-08-28 | 2019-12-06 | 珠海格力电器股份有限公司 | 一种基于知识图谱的垃圾分类方法及装置 |
CN110795532A (zh) * | 2019-10-18 | 2020-02-14 | 珠海格力电器股份有限公司 | 一种语音信息的处理方法、装置、智能终端以及存储介质 |
CN111291156A (zh) * | 2020-01-21 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于知识图谱的问答意图识别方法 |
CN111309879A (zh) * | 2020-01-20 | 2020-06-19 | 北京文思海辉金信软件有限公司 | 基于知识图谱的人机训练场景构建方法和装置 |
WO2020248366A1 (zh) * | 2019-06-14 | 2020-12-17 | 平安科技(深圳)有限公司 | 文本意图智能分类方法、装置及计算机可读存储介质 |
CN112115240A (zh) * | 2019-06-21 | 2020-12-22 | 百度在线网络技术(北京)有限公司 | 分类处理方法、装置、服务器和存储介质 |
CN112132633A (zh) * | 2020-09-30 | 2020-12-25 | 哈尔滨工业大学 | 一种基于消费事理图谱的消费意图识别和预测方法 |
WO2021003819A1 (zh) * | 2019-07-05 | 2021-01-14 | 平安科技(深圳)有限公司 | 基于知识图谱的人机对话方法及人机对话装置 |
CN112883175A (zh) * | 2021-02-10 | 2021-06-01 | 武汉大学 | 结合预训练模型及模板生成的气象服务交互方法及系统 |
CN113010689A (zh) * | 2021-03-22 | 2021-06-22 | 平安科技(深圳)有限公司 | 佛学知识甄别方法、装置、设备及存储介质 |
CN114339859A (zh) * | 2020-09-27 | 2022-04-12 | 中国移动通信集团广东有限公司 | 识别全屋无线网络WiFi潜在用户的方法、装置及电子设备 |
TWI768513B (zh) * | 2020-10-20 | 2022-06-21 | 宏碁股份有限公司 | 人工智慧模型訓練系統及人工智慧模型訓練方法 |
CN114708047A (zh) * | 2022-06-06 | 2022-07-05 | 上海荣数信息技术有限公司 | 一种基于知识图谱的外呼策略运营方法与系统 |
CN114785674A (zh) * | 2022-04-27 | 2022-07-22 | 中国电信股份有限公司 | 故障定位方法及装置、计算机可存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107562816A (zh) * | 2017-08-16 | 2018-01-09 | 深圳狗尾草智能科技有限公司 | 用户意图自动识别方法及装置 |
CN107832414A (zh) * | 2017-11-07 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN107861951A (zh) * | 2017-11-17 | 2018-03-30 | 康成投资(中国)有限公司 | 智能客服中的会话主题识别方法 |
CN108304372A (zh) * | 2017-09-29 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 实体提取方法和装置、计算机设备和存储介质 |
-
2018
- 2018-12-26 CN CN201811602913.5A patent/CN109635117B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107562816A (zh) * | 2017-08-16 | 2018-01-09 | 深圳狗尾草智能科技有限公司 | 用户意图自动识别方法及装置 |
CN108304372A (zh) * | 2017-09-29 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 实体提取方法和装置、计算机设备和存储介质 |
CN107832414A (zh) * | 2017-11-07 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN107861951A (zh) * | 2017-11-17 | 2018-03-30 | 康成投资(中国)有限公司 | 智能客服中的会话主题识别方法 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119353A (zh) * | 2019-04-18 | 2019-08-13 | 上海蔚来汽车有限公司 | 测试数据生成方法、装置以及控制器和介质 |
CN110119353B (zh) * | 2019-04-18 | 2023-10-10 | 上海蔚来汽车有限公司 | 测试数据生成方法、装置以及控制器和介质 |
CN110083685A (zh) * | 2019-04-26 | 2019-08-02 | 北京零秒科技有限公司 | 用于意图识别的数据配置方法及装置 |
CN110083685B (zh) * | 2019-04-26 | 2021-05-04 | 北京零秒科技有限公司 | 用于意图识别的数据配置方法及装置 |
CN110298445A (zh) * | 2019-05-30 | 2019-10-01 | 合肥阿拉丁智能科技有限公司 | 深度学习自主运行方法 |
WO2020248366A1 (zh) * | 2019-06-14 | 2020-12-17 | 平安科技(深圳)有限公司 | 文本意图智能分类方法、装置及计算机可读存储介质 |
CN110263254A (zh) * | 2019-06-20 | 2019-09-20 | 北京百度网讯科技有限公司 | 事件分级方法、装置、设备和介质 |
CN112115240B (zh) * | 2019-06-21 | 2024-07-09 | 百度在线网络技术(北京)有限公司 | 分类处理方法、装置、服务器和存储介质 |
CN112115240A (zh) * | 2019-06-21 | 2020-12-22 | 百度在线网络技术(北京)有限公司 | 分类处理方法、装置、服务器和存储介质 |
WO2021003819A1 (zh) * | 2019-07-05 | 2021-01-14 | 平安科技(深圳)有限公司 | 基于知识图谱的人机对话方法及人机对话装置 |
CN110516050A (zh) * | 2019-07-15 | 2019-11-29 | 上海文思海辉金信软件有限公司 | 一种基于知识图谱的多路径训练场景的构建方法 |
CN110543573A (zh) * | 2019-08-28 | 2019-12-06 | 珠海格力电器股份有限公司 | 一种基于知识图谱的垃圾分类方法及装置 |
CN110795532A (zh) * | 2019-10-18 | 2020-02-14 | 珠海格力电器股份有限公司 | 一种语音信息的处理方法、装置、智能终端以及存储介质 |
CN111309879A (zh) * | 2020-01-20 | 2020-06-19 | 北京文思海辉金信软件有限公司 | 基于知识图谱的人机训练场景构建方法和装置 |
CN111291156B (zh) * | 2020-01-21 | 2024-01-12 | 同方知网(北京)技术有限公司 | 一种基于知识图谱的问答意图识别方法 |
CN111291156A (zh) * | 2020-01-21 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于知识图谱的问答意图识别方法 |
CN114339859A (zh) * | 2020-09-27 | 2022-04-12 | 中国移动通信集团广东有限公司 | 识别全屋无线网络WiFi潜在用户的方法、装置及电子设备 |
CN114339859B (zh) * | 2020-09-27 | 2023-08-15 | 中国移动通信集团广东有限公司 | 识别全屋无线网络WiFi潜在用户的方法、装置及电子设备 |
CN112132633A (zh) * | 2020-09-30 | 2020-12-25 | 哈尔滨工业大学 | 一种基于消费事理图谱的消费意图识别和预测方法 |
TWI768513B (zh) * | 2020-10-20 | 2022-06-21 | 宏碁股份有限公司 | 人工智慧模型訓練系統及人工智慧模型訓練方法 |
CN112883175A (zh) * | 2021-02-10 | 2021-06-01 | 武汉大学 | 结合预训练模型及模板生成的气象服务交互方法及系统 |
CN112883175B (zh) * | 2021-02-10 | 2022-06-14 | 武汉大学 | 结合预训练模型及模板生成的气象服务交互方法及系统 |
CN113010689A (zh) * | 2021-03-22 | 2021-06-22 | 平安科技(深圳)有限公司 | 佛学知识甄别方法、装置、设备及存储介质 |
CN114785674A (zh) * | 2022-04-27 | 2022-07-22 | 中国电信股份有限公司 | 故障定位方法及装置、计算机可存储介质 |
CN114708047A (zh) * | 2022-06-06 | 2022-07-05 | 上海荣数信息技术有限公司 | 一种基于知识图谱的外呼策略运营方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109635117B (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635117A (zh) | 一种基于知识图谱识别用户意图方法及装置 | |
CN109522556B (zh) | 一种意图识别方法及装置 | |
CN110377911B (zh) | 对话框架下的意图识别方法和装置 | |
CN110147726B (zh) | 业务质检方法和装置、存储介质及电子装置 | |
JP6894534B2 (ja) | 情報処理方法及び端末、コンピュータ記憶媒体 | |
CN105630827B (zh) | 一种信息处理方法、系统及辅助系统 | |
CN110781204B (zh) | 目标对象的标识信息确定方法、装置、设备及存储介质 | |
CN109978020B (zh) | 一种基于多维特征的社交网络账号马甲身份辨识方法 | |
CN110046648B (zh) | 基于至少一个业务分类模型进行业务分类的方法及装置 | |
CN108027814A (zh) | 停用词识别方法与装置 | |
CN112632239A (zh) | 基于人工智能技术的类脑问答系统 | |
CN109033281A (zh) | 一种知识资源库的智能推送系统 | |
CN112364622A (zh) | 对话文本分析方法、装置、电子装置及存储介质 | |
CN113051380A (zh) | 信息生成方法、装置、电子设备和存储介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN115577172A (zh) | 物品推荐方法、装置、设备及介质 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN113204643B (zh) | 一种实体对齐方法、装置、设备及介质 | |
CN113887214A (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
CN113095723A (zh) | 优惠券的推荐方法及装置 | |
CN115905187B (zh) | 一种面向云计算工程技术人员认证的智能化命题系统 | |
CN109635289A (zh) | 词条分类方法及审计信息抽取方法 | |
CN115203382A (zh) | 业务问题场景识别方法、装置、电子设备及存储介质 | |
CN113505293A (zh) | 信息推送方法、装置、电子设备及存储介质 | |
Zou et al. | An improved model for spam user identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |