CN117151107A - 一种意图识别方法、装置、存储介质和电子设备 - Google Patents
一种意图识别方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN117151107A CN117151107A CN202210570098.9A CN202210570098A CN117151107A CN 117151107 A CN117151107 A CN 117151107A CN 202210570098 A CN202210570098 A CN 202210570098A CN 117151107 A CN117151107 A CN 117151107A
- Authority
- CN
- China
- Prior art keywords
- intention
- information
- identified
- determining
- feature text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004590 computer program Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种意图识别方法、装置、存储介质和电子设备,涉及自然语言处理技术领域。该意图识别方法包括:获取待识别信息;从多个预设领域中,确定所述待识别信息对应的目标领域;基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度;基于所述第一特征文本与所述意图之间的联合相似度,确定所述待识别信息对应的目标意图。如此,由于同时考虑了语义距离和意图知识图谱的深度信息,因此,针对同一待识别信息,在存在多个相似意图的情况下,能够准确确定出待识别信息对应的目标意图。
Description
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种意图识别方法、装置、存储介质和电子设备。
背景技术
随着网络的不断发展及5G网络的不断成熟,运营商的网络越来越复杂,业务需求也逐渐多样化,导致运营管理的复杂度不断加剧。
相关技术中,无法准确识别用户意图;因此,为了更好的满足用户需求,需要对用户意图进行准确识别。
发明内容
本公开提供了一种意图识别方法、装置、存储介质和电子设备,进而,由于同时考虑了语义距离和意图知识图谱的深度信息,因此,针对同一待识别信息,在存在多个相似意图的情况下,能够准确确定出待识别信息对应的目标意图。
第一方面,本公开一个实施例提供了一种意图识别方法,包括:
获取待识别信息;
从多个预设领域中,确定所述待识别信息对应的目标领域;
基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度;
基于所述第一特征文本与所述意图之间的联合相似度,确定所述待识别信息对应的目标意图。
在本公开一个可选的实施例中,从多个预设领域中,确定所述待识别信息对应的目标领域,包括:
提取所述待识别信息的第二特征文本集;
对所述第二特征文本集中的每一第二特征文本进行领域预测,并基于每一所述第二特征文本的预测结果确定所述待识别信息对应的目标领域。
在本公开一个可选的实施例中,对所述第二特征文本集中的每一第二特征文本进行领域预测,并基于每一所述第二特征文本的预测结果确定所述待识别信息对应的目标领域,包括:
确定每一所述第二特征文本与多个所述预设领域中每一所述预设领域的关联概率;
将关联概率最大的预设领域作为所述第二特征文本对应的领域,得到所述第二特征文本集对应的领域;
将所述第二特征文本集对应的领域中出现次数最多的领域作为所述待识别信息对应的目标领域。
在本公开一个可选的实施例中,基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度,包括:
确定所述待识别信息的第一特征文本与所述意图之间的语义距离;
基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,确定所述意图与所述第一特征文本的最小深度;
基于所述语义距离和所述最小深度,确定所述第一特征文本与所述意图之间的联合相似度。
在本公开一个可选的实施例中,基于所述语义距离和所述最小深度,确定所述第一特征文本与所述意图之间的联合相似度,包括:
基于预设参数和所述最小深度确定第一运算结果;
对所述第一运算结果和所述语义距离进行加权,确定第二运算结果;
基于所述第一运算结果和所述第二运算结果的比值确定所述联合相似度。
在本公开一个可选的实施例中,基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度,包括:
确定所述待识别信息的第一特征文本与所述意图之间的语义距离;
在存在两个或两个以上意图与所述第一特征文本的语义距离小于第一预设阈值的情况下,将所述两个或两个以上意图作为候选意图;
基于所述候选意图在所述意图知识图谱中的深度信息,以及所述第一特征文本与所述候选意图之间的语义距离,确定所述第一特征文本与所述候选意图之间的联合相似度。
在本公开一个可选的实施例中,基于所述第一特征文本与所述意图之间的联合相似度,确定所述待识别信息对应的目标意图,包括:
将与所述第一特征文本的所述联合相似度大于第二预设阈值的意图,作为所述待识别信息对应的目标意图。
第二方面,本公开一个实施例提供了一种意图识别装置,该装置包括:
信息获取模块,用于获取待识别信息;
目标领域确定模块,用于从多个预设领域中,确定所述待识别信息对应的目标领域;
联合相似度确定模块,用于基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度;
目标意图确定模块,基于所述第一特征文本与所述意图之间的联合相似度,确定所述待识别信息对应的目标意图。
第三方面,本公开一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上的方法。
第四方面,本公开一个实施例提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行如上的方法。
本公开的技术方案具有以下有益效果:
上述意图识别方法,获取待识别信息;从多个预设领域中,确定所述待识别信息对应的目标领域;基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度;基于所述第一特征文本与所述意图之间的联合相似度,确定所述待识别信息对应的目标意图。如此,由于同时考虑了语义距离和意图知识图谱的深度信息,因此,针对同一待识别信息,在存在多个相似意图的情况下,能够准确确定出待识别信息对应的目标意图。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施方式,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本示例性实施方式中一种意图识别方法的应用场景示意图;
图2示出本示例性实施方式中一种意图识别方法的流程图;
图3示出本示例性实施方式中一种意图识别方法中基于客户投诉5G业务场景构建的一种意图知识图谱的示意图;
图4示出本示例性实施方式中一种意图识别方法的流程图;
图5示出本示例性实施方式中一种意图识别方法的流程图;
图6示出本示例性实施方式中一种意图识别方法的流程图;
图7示出本示例性实施方式中一种意图识别方法的流程图;
图8示出本示例性实施方式中一种意图识别方法的流程图;
图9示出本示例性实施方式中一种意图识别装置结构示意图;
图10示出本示例性实施方式中一种电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例性实施方式。然而,示例性实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例性实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
相关技术中,需要基于标注信息对用户需求进行意图识别,且无法完全适用于用户的非结构化意图识别,进而,无法准确满足用户需求;因此,为了更好的满足用户需求,需要准确对用户需求进行意图识别。
鉴于上述问题,本公开实施例提供了一种意图识别方法,首先,获取待识别信息;其次,从多个预设领域中,确定所述待识别信息对应的目标领域;再次,基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度;最后,基于所述第一特征文本与所述意图之间的联合相似度,确定所述待识别信息对应的目标意图。如此,由于同时考虑了语义距离和意图知识图谱的深度信息,因此,针对同一待识别信息,在存在多个相似意图的情况下,能够准确确定出待识别信息对应的目标意图。
以下对本公开实施例提供的意图识别方法的应用环境作简单介绍:
请参见图1,本公开实施例提供的意图识别方法应用于运营商运营管理系统100,该运营商运营管理系统100至少包括:网络层101、采控层102、资源管理层103、服务层104、业务层105与意图层106。
其中,网络层101用于采集用户的输入信息;采控层102用于从网络层101获取用户的输入信息;资源管理层103用于对运营商运营管理系统100所支持的业务所涉及的资源(比如:营销资源、云网资源等)进行管理;服务层104用于将不同的服务开放给业务层105并为用户呈现意图执行结果;业务层105用于提供对内开放、对外开放的能力;意图层106用于构建意图知识图谱,并对用户的输入信息进行意图识别。
在一种可能的实现方式中,该运营商运营管理系统100应用于客服场景;在一种可能的实现方式中,该运营商运营管理系统100应用于投诉场景;在一种可能的实现方式中,该运营商运营管理系统100应用于业务办理场景等人机交互场景,此处不做限定。
下面以上述意图层106为执行主体,将该意图识别方法应用于上述的意图层106确定用户意图为例进行举例说明。请参见图2,本公开实施例提供的意图识别方法包括如下步骤201-步骤204:
步骤201、获取待识别信息。
其中,待识别信息可以是不同格式的,比如:结构化信息、半结构化信息或非结构化信息;结构化信息可以是表格、数据库等按照一定格式表示的信息;非结构化信息可以是文本、音频、视频、图片等信息;半结构化信息介于上述非结构化信息和结构化信息之间,可以理解为对结构化信息做了较大的结构变化之后得到的信息。
其中,待识别信息可以是用户输入的信息,在一种可能的实现方式中,待识别信息的获取可以通过以下过程实现:接收用户通过前端页面或系统提供的接口输入的待识别信息,并将待识别信息发送至后端进行数据处理。
步骤202、从多个预设领域中,确定所述待识别信息对应的目标领域。
其中,多个预设领域可以根据应用场景确定,比如:在客户投诉业务场景中,可以根据业务类型确定;具体地,在业务类型包括无线家庭娱乐、智能家居等的情况下,将无线家庭娱乐、智能家居确定为预设领域。
目标领域的确定可以通过分类器实现,在一种可能的实现方式中,可以通过朴素贝叶斯分类器实现;进一步地,如果待识别信息是结构化信息,可以直接采用朴素贝叶斯分类器确定待识别信息对应的目标领域;如果待识别信息是非结构化信息,首先,需要对待识别信息进行分词,其次,对分词结果进行主干提取,得到中心词集合,再次,对中心词集合采用朴素贝叶斯分类器进行分类,以根据分类结果确定待识别信息对应的目标领域;在待识别信息为音频的情况下,在分词前先将音频转换为文本。
步骤203、基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度。
在一种可能的实现方式中,在步骤203之前,可以预先根据应用场景构建意图知识图谱;在一种可能的实现方式中,可以直接利用数据库中的意图知识图谱;其中,意图知识图谱的构建可以通过对应用场景的数据进行知识抽取、知识融合、知识加工和知识更新实现;如图3所示,为基于客户投诉5G业务场景构建的一种意图知识图谱的示意图,这里,意图可以理解为意图知识图谱中的实体-关系-实体三元组表征的含义,意图在意图知识图谱中的深度信息基于该意图对应的实体-关系-实体在意图知识图谱中的层级确定;比如:对于图3中的意图知识图谱,高清视频-卡顿三元组,可以看出实体高清视频的层级为2,实体卡顿的层级为3,此时,可以将两个实体的平均层级作为高清视频-卡顿三元组的层级(深度信息),即,将2.5作为高清视频-卡顿三元组的深度信息。
其中,第一特征文本可以理解为待识别信息的关键词,可以通过对待识别信息进行关键词提取得到。
由于不同深度实体-关系-实体三元组可能表征相似的意图,因此,引入深度信息,并基于深度信息和语义距离确定联合相似度,能够在相似的意图中更准确的识别用户需求。
步骤204、基于所述第一特征文本与所述意图之间的联合相似度,确定所述待识别信息对应的目标意图。
本公开实施例提供的意图识别方法,首先,获取待识别信息;其次,从多个预设领域中,确定所述待识别信息对应的目标领域;再次,基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度;最后,基于所述第一特征文本与所述意图之间的联合相似度,确定所述待识别信息对应的目标意图;如此,由于同时考虑了语义距离和意图知识图谱的深度信息,因此,针对同一待识别信息,在存在多个相似意图的情况下,能够准确确定出待识别信息对应的目标意图。
请参见图4,在本公开一个可选实施例中,上述步骤202从多个预设领域中,确定所述待识别信息对应的目标领域,包括如下步骤401-步骤402:
步骤401、提取所述待识别信息的第二特征文本集。
其中,第二特征文本集可以对应上述中心词集合;在一种可能的实现方式中,可以通过对待识别信息进行主干提取,得到第二特征文本集;比如:对待识别信息“游戏A的加载时间变长了”进行主干提取,得到的第二特征文本集包括:游戏A、加载时间长。
步骤402、对所述第二特征文本集中的每一第二特征文本进行领域预测,并基于每一所述第二特征文本的预测结果确定所述待识别信息对应的目标领域。
其中,可以通过朴素贝叶斯分类器对第二特征文本集中的每一第二特征文本进行领域预测,比如:第二特征文本集包括:游戏A、加载时间长,那么,采用朴素贝叶斯分类器对第二特征文本集中的第二特征文本“游戏A”和第二特征文本“加载时间长”分别进行领域预测,进而,基于每一第二特征文本的预测结果确定待识别信息对应的目标领域。
本公开实施例通过提取所述待识别信息的第二特征文本集,然后对所述第二特征文本集中的每一第二特征文本进行领域预测,并基于每一所述第二特征文本的预测结果确定所述待识别信息对应的目标领域,可以确定出待识别信息对应的目标领域,以实现对待识别信息的领域分类。
请参见图5,在本公开一个可选实施例中,上述步骤402对所述第二特征文本集中的每一第二特征文本进行领域预测,并基于每一所述第二特征文本的预测结果确定所述待识别信息对应的目标领域,包括如下步骤501-步骤503:
步骤501、确定每一所述第二特征文本与多个所述预设领域中每一所述预设领域的关联概率。
其中,可以通过朴素贝叶斯算法确定每一第二特征文本与多个预设领域中每一预设领域的关联概率;这里,关联概率可以理解为第二特征文本属于预设领域的概率,比如:在第二特征文本为xn、多个预设领域为Y={y1,y2,....ym}的情况下,关联概率就是xn属于ym的概率,可以用P(xn|yi)表示。
在一种可能的实现方式中,在第二特征文本集为X={x1,x2,....xn}、多个预设领域为Y={y1,y2,....ym}的情况下,可以对第二特征文本进行批量化处理;具体地,可以先对第二特征文本集进行向量化,然后再通过朴素贝叶斯算法进行计算,如下公式(1)和(2)所示:
步骤502、将关联概率最大的预设领域作为所述第二特征文本对应的领域,得到所述第二特征文本集对应的领域。
在第二特征文本集为X={x1,x2,....xn}、多个预设领域为Y={y1,y2,....ym}的情况下,通过对第二特征文本x1、x2…xn进行领域预测,能够得到每一第二特征文本对应的领域,比如:如表1所示,第二特征文本x1至第二特征文本xn均对应领域y1,其中,y1表示无线家庭娱乐领域。
表1
步骤503、将所述第二特征文本集对应的领域中出现次数最多的领域作为所述待识别信息对应的目标领域。
基于图5的方法,首先,确定每一所述第二特征文本与多个所述预设领域中每一所述预设领域的关联概率;其次,将关联概率最大的预设领域作为所述第二特征文本对应的领域,得到所述第二特征文本集对应的领域;最后,将所述第二特征文本集对应的领域中出现次数最多的领域作为所述待识别信息对应的目标领域;如此,在从待识别信息中提取出多个第二特征文本的情况下,能够准确对待识别信息进行分类,确定出待识别信息对应的目标领域。
请参见图6,在本公开一个可选实施例中,上述步骤203基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度,包括如下步骤601-步骤603:
步骤601、确定所述待识别信息的第一特征文本与所述意图之间的语义距离。
其中,在执行步骤601之前,可以先确定待识别信息的第一特征文本;在一种可能的实现方式中,第一特征文本可以是关键词,进而可以通过对待识别信息进行关键词提取得到第一特征文本;进一步地,可以通过TF-IDF进行关键词提取,计算如下公式(3)至(5)所示:
其中,nt表示词语t在文件中出现的次数;∑knk表示所有词汇在文件中出现的次数。
其中,N为总文件数;n为包含词语t的文件数。
TF-IDF=TF(t)×IDF(t) (5);
语义相似度可以基于语义距离确定,计算如下公式(6)所示:
其中,n1为关键词;n2为意识知识图谱中的意识;为语义距离;α表示语义相似度为0.5时的语义距离,为可调节参数。
如表2所示,对文本text1-text6进行关键词提取,得到text1-text6的关键词如下表所示:
文本 | 关键词 |
text1 | 看剧,模糊 |
text2 | 看新闻,加载时间长 |
text3 | 3D虚拟,卡顿 |
text4 | VR,卡顿 |
text5 | 游戏A,加载时间长 |
text6 | 游戏B,加载时间长 |
表2
如表3所示,对文本text1-text6提取出的关键词和意图知识图谱中的意图进行语义相似度的计算,得到的计算结果如下表所示:
表3
步骤602、基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,确定所述意图与所述第一特征文本的最小深度。
其中,深度信息可以是意图的节点与目标领域的节点之间的距离,基于表征意图的实体-关系-实体三元组在意识知识图谱中的层级确定,其中,三元组中的一个实体可以视为一个节点。
最小深度可以理解为意图与第一特征文本的深度信息中的小者,因此,将意图与第一特征文本的深度信息中的较小者确定为最小深度,可以表示为其中,/>表示第一特征文本的深度信息,dn2表示意图的深度信息。
步骤603、基于所述语义距离和所述最小深度,确定所述第一特征文本与所述意图之间的联合相似度。
这里,结合语义距离和最小深度确定第一特征文本与意图之间的联合相似度,由于引入了深度,因此,针对同一第一特征文本,在不同的深度存在相似的意图的情况下,能够准确确定出该第一特征文本的意图。
本公开实施例提供的意图识别方法,首先,确定所述待识别信息的第一特征文本与所述意图之间的语义距离;其次,基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,确定所述意图与所述第一特征文本的最小深度;最后,基于所述语义距离和所述最小深度,确定所述第一特征文本与所述意图之间的联合相似度;如此,针对同一第一特征文本,在不同的深度存在相似的意图的情况下,能够准确确定出该第一特征文本的意图。
请参见图7,在本公开一个可选实施例中,上述步骤603基于所述语义距离和所述最小深度,确定所述第一特征文本与所述意图之间的联合相似度,包括如下步骤701-步骤703:
步骤701、基于预设参数和所述最小深度确定第一运算结果。
步骤702、对所述第一运算结果和所述语义距离进行加权,确定第二运算结果。
步骤703、基于所述第一运算结果和所述第二运算结果的比值确定所述联合相似度。
其中,联合相似度的计算如下公式(7)所示:
其中,β为预设参数;为关键词n1与意图n2的最小深度;为关键词n1与意图n2之间的语义距离;一般地,β是基于经验数据设置的,范围在[1.2,1.8]。
公式(7)中的分子可以理解为第一运算结果;
公式(7)中的分母可以理解为第二运算结果。
本公开实施例提供的意图识别方法,首先,基于预设参数和所述最小深度确定第一运算结果;其次,对所述第一运算结果和所述语义距离进行加权,确定第二运算结果;最后,基于所述第一运算结果和所述第二运算结果的比值确定所述联合相似度;如此,能够结合语义距离和最小深度确定出在意图知识图谱中衡量相似意图的联合相似度。
请参见图8,在本公开一个可选实施例中,上述步骤203基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度,还包括如下步骤801-步骤803:
步骤801、确定所述待识别信息的第一特征文本与所述意图之间的语义距离。
其中,语义距离的计算参考上述公式(6)或公式(7)中的
步骤802、在存在两个或两个以上意图与所述第一特征文本的语义距离小于第一预设阈值的情况下,将所述两个或两个以上意图作为候选意图。
其中,第一预设阈值是通过经验数据确定的。这里,存在两个或两个以上意图与第一特征文本的语义距离小于第一预设阈值的情况,可以理解为,无法根据语义距离确定出第一特征文本的意图的情况,此时,将小于第一预设阈值的意图作为候选意图,比如:通过计算语义距离,第一特征文本“看剧、模糊”存在两个语义距离小于第一预设阈值的意图“超高清视频-卡顿”和“AR/VR-卡顿”,那么,将意图“超高清视频-卡顿”和“AR/VR-卡顿”作为候选意图。
步骤803、基于所述候选意图在所述意图知识图谱中的深度信息,以及所述第一特征文本与所述候选意图之间的语义距离,确定所述第一特征文本与所述候选意图之间的联合相似度。
这里,确定第一特征文本与候选意图之间的联合相似度参考公式(7),区别在于,公式(7)中的意图可以是意图知识图谱中的任一意图,而本步骤中的意图为候选意图中的任一意图。
本公开实施例提供的意图识别方法,首先,确定所述待识别信息的第一特征文本与所述意图之间的语义距离;其次,在存在两个或两个以上意图与所述第一特征文本的语义距离小于第一预设阈值的情况下,将所述两个或两个以上意图作为候选意图;最后,基于所述候选意图在所述意图知识图谱中的深度信息,以及所述第一特征文本与所述候选意图之间的语义距离,确定所述第一特征文本与所述候选意图之间的联合相似度;如此,在通过语义距离无法确定出第一特征文本的意图的情况下,结合语义距离和最小深度,能够在候选意图中准确确定出第一特征文本的意图。
在本公开一个可选实施例中,上述步骤204基于所述第一特征文本与所述意图之间的联合相似度,确定所述待识别信息对应的目标意图,包括:将与所述第一特征文本的所述联合相似度大于第二预设阈值的意图,作为所述待识别信息对应的目标意图。
其中,第二预设阈值可以通过经验数据确定。
在一些实施例中,可以将联合相似度最大的意图作为待识别信息对应的目标意图。
在本步骤之后,还可以执行待识别信息对应的目标意图,具体地,可以将待识别信息对应的目标意图下发至系统开发态(离线模型训练)和运行态(在线运行实现),进行执行策略分析和决策;然后,将目标意图的执行结果通过系统接口反馈给用户。
本公开实施例通过将与所述第一特征文本的所述联合相似度大于第二预设阈值的意图,作为所述待识别信息对应的目标意图;如此,能够在针对同一待识别信息存在两个或两个以上的相似意图(候选意图)的情况下,通过联合相似度准确确定出待识别信息对应的目标意图。
请参见图9,为了实现上述意图识别方法,本公开的一个实施例中提供一种意图识别装置900。图9示出了意图识别装置900的示意性架构图,该意图识别装置900包括:信息获取模块901、目标领域确定模块902、联合相似度确定模块903和目标意图确定模块904,其中:
信息获取模块901,用于获取待识别信息;
目标领域确定模块902,用于从多个预设领域中,确定所述待识别信息对应的目标领域;
联合相似度确定模块903,用于基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度;
目标意图确定模块904,用于基于所述第一特征文本与所述意图之间的联合相似度,确定所述待识别信息对应的目标意图。
在一个可选的实施例中,该目标领域确定模块902具体用于,提取所述待识别信息的第二特征文本集;对所述第二特征文本集中的每一第二特征文本进行领域预测,并基于每一所述第二特征文本的预测结果确定所述待识别信息对应的目标领域。
在一个可选的实施例中,该目标领域确定模块902具体还用于,确定每一所述第二特征文本与多个所述预设领域中每一所述预设领域的关联概率;将关联概率最大的预设领域作为所述第二特征文本对应的领域,得到所述第二特征文本集对应的领域;将所述第二特征文本集对应的领域中出现次数最多的领域作为所述待识别信息对应的目标领域。
在一个可选的实施例中,该联合相似度确定模块903具体用于,确定所述待识别信息的第一特征文本与所述意图之间的语义距离;基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,确定所述意图与所述第一特征文本的最小深度;基于所述语义距离和所述最小深度,确定所述第一特征文本与所述意图之间的联合相似度。
在一个可选的实施例中,该联合相似度确定模块903具体还用于,基于预设参数和所述最小深度确定第一运算结果;对所述第一运算结果和所述语义距离进行加权,确定第二运算结果;基于所述第一运算结果和所述第二运算结果的比值确定所述联合相似度。
在一个可选的实施例中,该联合相似度确定模块903具体用于,确定所述待识别信息的第一特征文本与所述意图之间的语义距离;在存在两个或两个以上意图与所述第一特征文本的语义距离小于第一预设阈值的情况下,将所述两个或两个以上意图作为候选意图;基于所述候选意图在所述意图知识图谱中的深度信息,以及所述第一特征文本与所述候选意图之间的语义距离,确定所述第一特征文本与所述候选意图之间的联合相似度。
在一个可选的实施例中,该目标意图确定模块904具体用于,将与所述第一特征文本的所述联合相似度大于第二预设阈值的意图,作为所述待识别信息对应的目标意图。
本公开的示例性实施方式还提供了一种计算机可读存储介质,可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种实施方式中,该程序产品可以实现为便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。在本公开实施例中,计算机可读存储介质中存储的程序代码被执行时可以实现如上导航卫星星座确定方法中的任一步骤。
请参见图10,本公开的示例性实施方式还提供了一种电子设备1000,可以是信息平台的后台服务器。下面参考图10对该电子设备1000进行说明。应当理解,图10显示的电子设备1000仅仅是一个示例,不应对本公开实施方式的功能和使用范围带来任何限制。
如图10所示,电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于:至少一个处理单元1010、至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030。
其中,存储单元存储有程序代码,程序代码可以被处理单元1010执行,使得处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元1010可以执行如图2所示的方法步骤等。
存储单元1020可以包括易失性存储单元,例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022,还可以进一步包括只读存储单元(ROM)1023。
存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024,这样的程序模块1025包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1030可以包括数据总线、地址总线和控制总线。
电子设备1000也可以与一个或多个外部设备2000(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口1040进行。电子设备1000还可以通过网络适配器1050与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1050通过总线1030与电子设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在本公开实施例中,电子设备中存储的程序代码被执行时可以实现如上导航卫星星座确定方法中的任一步骤。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。
Claims (10)
1.一种意图识别方法,其特征在于,包括:
获取待识别信息;
从多个预设领域中,确定所述待识别信息对应的目标领域;
基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度;
基于所述第一特征文本与所述意图之间的联合相似度,确定所述待识别信息对应的目标意图。
2.根据权利要求1所述的意图识别方法,其特征在于,所述从多个预设领域中,确定所述待识别信息对应的目标领域,包括:
提取所述待识别信息的第二特征文本集;
对所述第二特征文本集中的每一第二特征文本进行领域预测,并基于每一所述第二特征文本的预测结果确定所述待识别信息对应的目标领域。
3.根据权利要求2所述的意图识别方法,其特征在于,所述对所述第二特征文本集中的每一第二特征文本进行领域预测,并基于每一所述第二特征文本的预测结果确定所述待识别信息对应的目标领域,包括:
确定每一所述第二特征文本与多个所述预设领域中每一所述预设领域的关联概率;
将关联概率最大的预设领域作为所述第二特征文本对应的领域,得到所述第二特征文本集对应的领域;
将所述第二特征文本集对应的领域中出现次数最多的领域作为所述待识别信息对应的目标领域。
4.根据权利要求1所述的意图识别方法,其特征在于,所述基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度,包括:
确定所述待识别信息的第一特征文本与所述意图之间的语义距离;
基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,确定所述意图与所述第一特征文本的最小深度;
基于所述语义距离和所述最小深度,确定所述第一特征文本与所述意图之间的联合相似度。
5.根据权利要求4所述的意图识别方法,其特征在于,所述基于所述语义距离和所述最小深度,确定所述第一特征文本与所述意图之间的联合相似度,包括:
基于预设参数和所述最小深度确定第一运算结果;
对所述第一运算结果和所述语义距离进行加权,确定第二运算结果;
基于所述第一运算结果和所述第二运算结果的比值确定所述联合相似度。
6.根据权利要求1所述的意图识别方法,其特征在于,所述基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度,包括:
确定所述待识别信息的第一特征文本与所述意图之间的语义距离;
在存在两个或两个以上意图与所述第一特征文本的语义距离小于第一预设阈值的情况下,将所述两个或两个以上意图作为候选意图;
基于所述候选意图在所述意图知识图谱中的深度信息,以及所述第一特征文本与所述候选意图之间的语义距离,确定所述第一特征文本与所述候选意图之间的联合相似度。
7.根据权利要求1至6任一项所述的意图识别方法,其特征在于,所述基于所述第一特征文本与所述意图之间的联合相似度,确定所述待识别信息对应的目标意图,包括:
将与所述第一特征文本的所述联合相似度大于第二预设阈值的意图,作为所述待识别信息对应的目标意图。
8.一种意图识别装置,其特征在于,所述装置包括:
信息获取模块,用于获取待识别信息;
目标领域确定模块,用于从多个预设领域中,确定所述待识别信息对应的目标领域;
联合相似度确定模块,用于基于意图知识图谱中所述目标领域下的意图在所述意图知识图谱中的深度信息,以及所述待识别信息的第一特征文本与所述意图之间的语义距离,确定所述第一特征文本与所述意图之间的联合相似度;
目标意图确定模块,基于所述第一特征文本与所述意图之间的联合相似度,确定所述待识别信息对应的目标意图。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210570098.9A CN117151107A (zh) | 2022-05-24 | 2022-05-24 | 一种意图识别方法、装置、存储介质和电子设备 |
PCT/CN2023/096071 WO2023227030A1 (zh) | 2022-05-24 | 2023-05-24 | 一种意图识别方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210570098.9A CN117151107A (zh) | 2022-05-24 | 2022-05-24 | 一种意图识别方法、装置、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117151107A true CN117151107A (zh) | 2023-12-01 |
Family
ID=88906783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210570098.9A Pending CN117151107A (zh) | 2022-05-24 | 2022-05-24 | 一种意图识别方法、装置、存储介质和电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117151107A (zh) |
WO (1) | WO2023227030A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150286709A1 (en) * | 2014-04-02 | 2015-10-08 | Samsung Electronics Co., Ltd. | Method and system for retrieving information from knowledge-based assistive network to assist users intent |
CN111291156B (zh) * | 2020-01-21 | 2024-01-12 | 同方知网(北京)技术有限公司 | 一种基于知识图谱的问答意图识别方法 |
CN111737430B (zh) * | 2020-06-16 | 2024-04-05 | 北京百度网讯科技有限公司 | 实体链接方法、装置、设备以及存储介质 |
CN112560505A (zh) * | 2020-12-09 | 2021-03-26 | 北京百度网讯科技有限公司 | 一种对话意图的识别方法、装置、电子设备及存储介质 |
CN112905774A (zh) * | 2021-02-22 | 2021-06-04 | 武汉市聚联科软件有限公司 | 一种基于事理图谱的人机对话深度意图理解方法 |
CN113127626B (zh) * | 2021-04-22 | 2024-04-30 | 广联达科技股份有限公司 | 基于知识图谱的推荐方法、装置、设备及可读存储介质 |
-
2022
- 2022-05-24 CN CN202210570098.9A patent/CN117151107A/zh active Pending
-
2023
- 2023-05-24 WO PCT/CN2023/096071 patent/WO2023227030A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023227030A1 (zh) | 2023-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241286B (zh) | 用于生成文本的方法和装置 | |
CN109918513B (zh) | 图像处理方法、装置、服务器及存储介质 | |
US11144569B2 (en) | Operations to transform dataset to intent | |
CN113806588B (zh) | 搜索视频的方法和装置 | |
CN113032673B (zh) | 资源的获取方法、装置、计算机设备及存储介质 | |
US11423219B2 (en) | Generation and population of new application document utilizing historical application documents | |
CN117011581A (zh) | 图像识别方法、介质、装置和计算设备 | |
CN113096687B (zh) | 音视频处理方法、装置、计算机设备及存储介质 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
US9626433B2 (en) | Supporting acquisition of information | |
CN113767403B (zh) | 知识图中过指定和欠指定的自动解析 | |
US11532174B2 (en) | Product baseline information extraction | |
CN115062135B (zh) | 一种专利筛选方法与电子设备 | |
US20230237399A1 (en) | Identifying regulatory data corresponding to executable rules | |
CN117151107A (zh) | 一种意图识别方法、装置、存储介质和电子设备 | |
CN111552780B (zh) | 医用场景的搜索处理方法、装置、存储介质及电子设备 | |
CN112926297B (zh) | 处理信息的方法、装置、设备和存储介质 | |
US20210295036A1 (en) | Systematic language to enable natural language processing on technical diagrams | |
CN115017385A (zh) | 一种物品搜索方法、装置、设备和存储介质 | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 | |
CN114662002A (zh) | 对象推荐方法、介质、装置和计算设备 | |
AU2019290658B2 (en) | Systems and methods for identifying and linking events in structured proceedings | |
CN114065727A (zh) | 资讯去重方法、设备及计算机可读介质 | |
Vrochidis et al. | A multimodal analytics platform for journalists analyzing large-scale, heterogeneous multilingual, and multimedia content | |
US11900106B2 (en) | Personalized patch notes based on software usage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |