CN116167355A - 一种意图识别方法、装置、设备及存储介质 - Google Patents
一种意图识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116167355A CN116167355A CN202111414006.XA CN202111414006A CN116167355A CN 116167355 A CN116167355 A CN 116167355A CN 202111414006 A CN202111414006 A CN 202111414006A CN 116167355 A CN116167355 A CN 116167355A
- Authority
- CN
- China
- Prior art keywords
- intention
- keyword
- data
- preset
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 230000015654 memory Effects 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 24
- 238000004891 communication Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 229910052573 porcelain Inorganic materials 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000005291 magnetic effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种意图识别方法、装置、设备及存储介质;其中,所述方法包括:获取待识别数据;基于预设关键词集合,对所述待识别数据进行检测,确定所述待识别数据的关键词标签;基于所述预设关键词集合对应的意图标签列表和所述待识别数据的关键词标签,确定所述待识别数据的意图。本申请实施例无需关注待识别数据中的关键词顺序,就能准确识别待识别数据的意图。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种意图识别方法、装置、设备及存储介质。
背景技术
相关技术中,意图识别领域实现意图识别主要通过规则匹配和深度学习实现。其中,基于规则匹配的意图识别,一个意图对应多个规则匹配模板,表示方式稍有变化就会造成模板匹配失败,扩展性较差;基于深度学习的意图识别,需要大量的带有标注的语料数据,语料数据的标注需要消耗大量的人力和时间,成本较高。
发明内容
为解决上述技术问题,本申请实施例提供一种意图识别方法、装置、设备及存储介质,通过预设关键词集合确定待识别数据中的关键词,将关键词对应的关键词标签与意图标签列表中的标签进行比对,能够准确识别待识别数据的意图。
为达到上述目的,本申请的技术方案是这样实现的:
本申请实施例提供一种意图识别方法,所述方法包括:
获取待识别数据;
基于预设关键词集合,对所述待识别数据进行检测,确定所述待识别数据的关键词标签;
基于所述预设关键词集合对应的意图标签列表和所述待识别数据的关键词标签,确定所述待识别数据的意图。
本申请实施例提供一种意图识别装置,所述装置包括:
第一获取模块,用于获取待识别数据;
第一确定模块,基于预设关键词集合,对所述待识别数据进行检测,确定所述待识别数据的关键词标签;
第二确定模块,基于所述预设关键词集合对应的意图标签列表和所述待识别数据的关键词标签,确定所述待识别数据的意图。
本申请实施例还提供一种电子设备,所述电子设备包括:处理器、存储器和通信总线;其中,所述通信总线用于实现所述处理器和所述存储器之间的通信连接;
所述处理器用于执行所述存储器中的程序,以实现上述任一意图识别方法。
相应地,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或多个程序,所述一个或多个程序可被一个或者多个处理器执行,以实现上述任一所述的意图识别方法。
本申请实施例提供的意图识别方法、装置、设备及存储介质,首先,获取待识别数据;其次,基于预设关键词集合,对所述待识别数据进行检测,确定所述待识别数据的关键词标签;最后,基于所述预设关键词集合对应的意图标签列表和所述待识别数据的关键词标签,确定所述待识别数据的意图;如此,无需关注待识别数据中的关键词顺序,就能准确识别待识别数据的意图。
附图说明
图1为本申请实施例提供的一种意图识别方法的实现流程示意图;
图2为本申请实施例提供的一种意图识别方法的实现流程示意图;
图3为本申请实施例提供的一种意图识别方法的实现流程示意图;
图4为本申请实施例提供的一种意图识别方法的实现流程示意图;
图5为本申请实施例提供的一种意图识别方法的实现流程示意图;
图6为本申请实施例提供的一种意图识别方法的实现流程示意图;
图7为本申请实施例提供的一种意图识别方法的实现流程示意图;
图8为本申请实施例提供的一种基于关键词匹配的意图识别方法的实现流程示意图;
图9为本申请实施例提供的一种意图识别装置的组成结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为便于理解本申请实施例的技术方案,以下对本申请实施例的相关技术进行说明。
随着神经网络的发展,特别是深度神经网络技术的异军突起,自然语言处理(Natural Language Process,以下简称NLP)领域也取得了非常大的进展,NLP中的语义理解(Natural Language Understand,以下简称NLU)也有了明显的进步,但是距离人们的期望还有较大的差距,因此越来越多的深度神经网络的技术应用到NLP中,期望在NLP领域取得革命性的进步。
NLP领域最重要的就是语义理解,意图识别是实现语义理解的关键技术。相关技术中,NLP领域实现意图识别主要有两种方法:规则匹配和深度学习。基于规则匹配的方法,需要对同一种意图的不同表达方式设计匹配的规则模板,使该规则模板能够尽可能多的匹配同一种意图的表达方式。基于规则的匹配是属于精准匹配,待匹配文本进入某个意图的规则匹配模板后,能够完全匹配,则完成该文本对应的意图识别;如果不能完全匹配,则文本不属于该意图。基于深度学习的意图识别方法需要收集大量的语料数据,每种意图的训练数据都不相同,需要标注的词槽类型和词槽内容也不相同,训练语料标注完成后,利用深度学习模型进行训练,得到一个训练后的模型,然后使用该训练后的模型对待预测文本进行意图识别。
相关技术存在以下缺点:
1)基于规则匹配的意图识别,一个意图对应多个规则匹配模板,表示方式稍有变化就会造成模板匹配失败,该方法简单,但是扩展性较差,维护成本较高;
2)基于深度学习的意图识别,需要大量的带有标注的语料数据,语料数据的标注需要消耗大量的人力和时间,成本较高;
3)对于关键词顺序颠倒、文本长尾等情况,规则匹配和深度学习都无法进行正确的意图识别。
为此,提出了本申请实施例的以下技术方案,为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
本申请实施例提供一种意图识别方法,图1为本申请实施例提供的一种意图识别方法的实现流程示意图,如图1所示,该方法包括:
步骤S101:获取待识别数据。
在一些实施例中,待识别数据可以是文本数据,该文本数据可以通过语音输入,也可以通过文本输入等等,此处不做限制,比如:基于语音输入的方式输入一段自然语言,或者,基于文本输入的方式输入一段文本。
步骤S102:基于预设关键词集合,对所述待识别数据进行检测,确定所述待识别数据的关键词标签。
在一些实施例中,预设关键词集合用于确定上述待识别数据中的关键词。预设关键词集合可以包括多种类别的关键词,不同类别的关键词用不同的标签(tag)表示,比如:第一类关键词用标签1表示,第二类关键词用标签2表示,或者,第一类关键词用标签A表示,第二类关键词用标签B表示,或者,每一类关键词用该类关键词的分类名称表示,等等,此处不做限制。
在一些实施例中,基于预设关键词集合,对所述待识别数据进行检测,确定所述待识别数据的关键词标签,可以通过以下过程实现:首先,从预设关键词集合中,确定待识别数据中的关键词;其次,基于预设关键词集合中关键词与标签的对应关系,确定待识别数据中的关键词对应的标签;即,关键词标签,比如:对于待识别数据“我想听周杰伦的青花瓷”,或者是“青花瓷周杰伦演唱的很好听,给我播放一下”,基于预设关键词集合确定待识别数据的关键词“我想听,播放一下”,“周杰伦”和“青花瓷”,其中,“我想听,播放一下”对应的标签是播放,“周杰伦”对应的标签是歌手,“青花瓷”对应的标签是歌曲;也就是说,从待识别数据中提取出的关键词标签是:播放、歌手和歌曲。
步骤S103:基于所述预设关键词集合对应的意图标签列表和所述待识别数据的关键词标签,确定所述待识别数据的意图。
在一些实施例中,识别的是待识别数据的意图,因此,意图可以包括多个。每一意图对应一个意图标签列表,比如:intent_1=[tag1,tag2,…];也就是说,意图标签列表用于确定意图;意图标签列表中的元素(即上述tag1、tag2等等)对应不同类别的关键词集合;也就是说,不同类别的关键词集合用不同的标签表示,该点上面已说明,此处不赘述。综上,意图、意图标签列表与关键词集合之间的关系为:对于每一意图,均有其对应的意图标签列表,对于列表中的每一标签,均有其对应的关键词集合。
在一些实施例中,基于所述预设关键词集合对应的意图标签列表和所述待识别数据的关键词标签,确定所述待识别数据的意图,可以通过以下过程实现:首先,将待识别数据与关键词集合进行匹配,得到关键词标签;其次,将关键词标签与意图标签列表进行比对,得到比对结果;最后,根据比对结果,确定待识别数据的意图。
在本申请实施例中,首先,获取待识别数据;其次,基于预设关键词集合,对所述待识别数据进行检测,确定所述待识别数据的关键词标签;最后,基于所述预设关键词集合对应的意图标签列表和所述待识别数据的关键词标签,确定所述待识别数据的意图;如此,无需关注待识别数据中的关键词顺序,就能准确识别待识别数据的意图。
在一些实施例中,在确定待识别数据的关键词标签之前,需要先构建意图、意图标签列表与关键词集合之间的关系;图2为本申请实施例提供的一种意图识别方法的实现流程示意图,如图2所示,该方法包括:
步骤S201:在预设意图集合中,确定每一预设意图匹配的预设关键词集合。
在一些实施例中,预设意图集合可以是用户预设(构建)的多个意图,每一预设意图均有其对应的预设关键词集合。
在一些实施例中,在预设意图集合中,确定每一预设意图匹配的预设关键词集合,可以通过以下过程实现:首先,构建多个意图,得到预设意图集合;其次,构建每一预设意图相匹配的预设关键词集合,得到每一预设意图匹配的预设关键词集合。
步骤S202:基于所述预设关键词集合中的关键词类别,确定所述每一预设意图的意图标签列表。
在一些实施例中,关键词集合中包括不同种类的关键词,不同类别的关键词采用不同的标签表示;由于每一意图对应一个意图标签列表,每一意图标签列表中的元素是不同类别的关键词集合,因此,预设关键词集合中的关键词类别,决定意图标签列表,比如:意图标签列表包括:播放、歌手和歌曲,其中,播放对应的关键词集合包括:想听、播放等等,歌手对应的关键词集合包括:歌手A、歌手B等等,歌曲对应的关键词集合包括:歌手A的歌曲a,歌手A的歌曲b,歌手B的歌曲1,歌手B的歌曲2等等。
在本申请实施例中,首先,在预设意图集合中,确定每一预设意图匹配的预设关键词集合;其次,基于所述预设关键词集合中的关键词类别,确定所述每一预设意图的意图标签列表;如此,能够构建出预设意图集合及每一预设意图对应的预设关键词集合。
在一些实施例中,基于预设意图生成该意图对应的关键词集合;图3为本申请实施例提供的一种意图识别方法的实现流程示意图,如图3所示,步骤S201包括:
步骤S301:确定所述每一预设意图匹配的意图类关键词和实体类关键词。
在一些实施例中,关键词包括:意图类关键词和实体类关键词;其中,意图类关键词,比如:换台、购买、播放等等,是能够体现用户想法的词语;实体类关键词,比如:中央一台、空气净化器、歌手A的歌曲B,是能够体现用户想法指向的,与具体选择相关的关键词;其中,意图关键词“换台”可以与实体类关键词“中央一台”对应,意图类关键词“购买”可以与实体类关键词“空气净化器”对应,意图类关键词“播放”可以与实体类关键词“歌手A的歌曲B”对应。
在一些实施例中,基于每一预设意图,确定每一预设意图匹配的意图类关键词和实体类关键词,比如:基于“换台”这一预设意图,可以将“换台”作为意图类关键词,将“中央一台”作为实体类关键词。
步骤S302:对所述意图类关键词进行同义词扩展,得到第一关键词集合。
在一些实施例中,由于每一预设意图体现的是同一意图,即,体现的是用户的同一想法,因此,对意图类关键词进行同义词扩展,即可得到意图类关键词集合,即,第一关键词集合,比如:基于“换台”这一预设意图,可以将“换台”、“换频道”、“不想看”、“不喜欢”、“不感兴趣”等构成的集合作为意图类关键词集合,即,第一关键词集合。
步骤S303:基于所述每一预设意图的需求信息,对所述实体类关键词进行扩展,得到第二关键词集合。
在一些实施例中,由于每一预设意图指向的,与具体选择相关的关键词是多种多样的,因此,基于每一预设意图的需求信息,对实体类关键词进行扩展,即可得到实体类关键词集合,即,第二关键词集合,比如:基于“换台”这一预设意图,可以将“中央一台”、“中央三台”、“中央八台”等作为实体类关键词。
步骤S304:基于所述第一关键词集合和所述第二关键词集合,得到所述预设关键词集合。
在一些实施例中,将基于每一预设意图得到意图类关键词集合(第一关键词集合),和实体类关键词集合(第二关键词集合),作为预设关键词集合。
在本申请实施例中,首先,确定所述每一预设意图匹配的意图类关键词和实体类关键词;其次,对所述意图类关键词进行同义词扩展,得到第一关键词集合;再次,基于所述每一预设意图的需求信息,对所述实体类关键词进行扩展,得到第二关键词集合;最后,基于所述第一关键词集合和所述第二关键词集合,得到所述预设关键词集合;如此,能够基于预设意图生成该意图对应的关键词集合。
在一些实施例中,为不同类别的关键词集合赋予不同的标签,进而得到预设意图的意图标签列表;图4为本申请实施例提供的一种意图识别方法的实现流程示意图,如图4所示,步骤S202包括:
步骤S401:确定所述每一预设意图对应的至少一种关键词类别。
在一些实施例中,不同类别的关键词集合赋予不同的标签,因此,需要确定每一预设意图对应的至少一种关键词类别,比如:关键词“歌手A”、“歌手B”、“歌手C”等的类别可以是“歌手”;“歌曲a”、“歌曲b”、“歌曲c”等的类别可以是“歌曲”。
步骤S402:基于所述每一预设意图对应的预设关键词的数量,在所述至少一种关键词类别中确定所述每一预设意图的意图标签列表。
在一些实施例中,确定了关键词类别之后,基于每一预设意图对应的预设关键词的数量,在至少一种关键词类别中确定每一预设意图的意图标签列表,比如:预设关键词数量较多,那么,对预设关键词按类别进行分类,为不同类别的预设关键词赋予不同的标签,进而,得到意图标签列表。
在本申请实施例中,首先,确定所述每一预设意图对应的至少一种关键词类别;其次,基于所述每一预设意图对应的预设关键词的数量,在所述至少一种关键词类别中确定所述每一预设意图的意图标签列表;如此,能够为每一预设意图对应的不同类别的关键词集合赋予不同的标签,进而得到每一预设意图的意图标签列表。
在一些实施例中,基于预设关键词集合,对所述待识别数据进行检测,确定所述待识别数据的关键词标签,是通过匹配的手段实现的;图5为本申请实施例提供的一种意图识别方法的实现流程示意图,如图5所示,步骤S102包括:
步骤S501:基于所述预设关键词集合和对应的意图标签列表,对所述待识别数据进行关键词匹配,得到所述待识别数据的关键词标签。
在一些实施例中,基于所述预设关键词集合和对应的意图标签列表,对所述待识别数据进行关键词匹配,得到所述待识别数据的关键词标签,可以通过以下过程实现:首先,采用预设关键词集合对待识别数据进行匹配,以确定待识别数据中的核心关键词;其次,将核心关键词对应的意图标签列表中的标签,作为待识别数据的关键词标签。
在本申请实施例中,基于所述预设关键词集合和对应的意图标签列表,对所述待识别数据进行关键词匹配,得到所述待识别数据的关键词标签;由于采用匹配的技术手段确定关键词标签,因此,属于精确匹配,能够准确得到关键词标签。
在一些实施例中,上述匹配手段可以是Trie树或者AC自动机等;图6为本申请实施例提供的一种意图识别方法的实现流程示意图,如图6所示,步骤S501包括:
步骤S601:基于所述意图标签列表中的每一意图标签对应的多个预设关键词,创建关键词匹配自动机的字典。
在一些实施例中,上述基于所述预设关键词集合和对应的意图标签列表,对所述待识别数据进行关键词匹配,得到所述待识别数据的关键词标签,其中,匹配手段可以是Trie树或者AC自动机等。
在一些实施例中,AC自动机算法分为三步:构造一棵Trie树,构造失败指针和模式匹配过程。具体来讲,AC自动机就是在Trie树的基础上增加一个fail指针,如果当前点匹配失败,则将指针转移到fail指针指向的地方,这样就不用回溯,而可一路匹配下去了,比如:当前模式串后缀和fail指针指向的模式串部分前缀相同,如abce和bcd,我们找到c发现下一个要找的不是e,就跳到bcd中的c处,看看此处的下一个字符(d)是不是应该找的那一个。
在一些实施例中,采用AC自动机进行匹配,一个类别内所有的关键词对应一个AC自动机;因此,基于所述意图标签列表中的每一意图标签对应的多个预设关键词,创建关键词匹配自动机的字典。
步骤S602:将所述每一意图标签,作为创建的所述关键词匹配自动机的匹配标签。
在一些实施例中,不同意图标签对应的关键词匹配自动机是相互独立的。如此,即使相同的关键词位于多个AC自动机中,但关键词匹配后得到的标签是不同的,从而,能够准确识别待识别数据的意图。
步骤S603:基于所述关键词匹配自动机的字典和所述匹配标签,对所述待识别数据进行关键词匹配,确定所述待识别数据的关键词标签。
在一些实施例中,基于所述关键词匹配自动机的字典和所述匹配标签,对所述待识别数据进行关键词匹配,确定所述待识别数据的关键词标签,可以通过以下过程实现:首先,采用关键词匹配自动机对待识别数据进行关键词匹配,得到待识别数据中的关键词;其次,将上述得到的待识别数据中的关键词对应的匹配标签,作为待识别数据的关键词标签。
在本申请实施例中,首先,基于所述意图标签列表中的每一意图标签对应的多个预设关键词,创建关键词匹配自动机的字典;其次,将所述每一意图标签,作为创建的所述关键词匹配自动机的匹配标签;最后,基于所述关键词匹配自动机的字典和所述匹配标签,对所述待识别数据进行关键词匹配,确定所述待识别数据的关键词标签;如此,采用预设关键词集合和对应的意图标签列表构建关键词匹配自动机,以快速确定待识别数据中关键词对应的关键词标签。
在一些实施例中,采用意图标签列表,对关键词标签的意图进行识别;图7为本申请实施例提供的一种意图识别方法的实现流程示意图,如图7所示,步骤S103包括:
步骤S701:在所述意图标签列表中,识别与所述待识别数据的关键词标签相匹配的目标意图标签集合。
在一些实施例中,在所述意图标签列表中,识别与所述待识别数据的关键词标签相匹配的目标意图标签集合,可以通过以下过程实现:将关键词标签与意图标签列表中的标签进行比对,将与关键词标签一致的意图标签列表中的标签作为目标意图标签集合。
在一些实施例中,一个域(比如:音乐领域、文学领域等等)对应一个核心关键词标签(tag)列表,该列表包含这个域内的所有意图,每个意图对应若干标签组合。域(domain,D)、意图(intent,I)、关键词集合(tag,T)之间的关系如下:
步骤S702:对所述目标意图标签集合中包括的目标意图进行识别。
在一些实施例中,对所述目标意图标签集合中包括的目标意图进行识别,可以通过以下过程实现:确定目标意图标签集合所属的意图标签列表。
步骤S703:响应于识别到至少一个目标意图,基于所述至少一个目标意图,确定所述待识别数据的意图。
在一些实施例中,响应于识别到至少一个目标意图,基于所述至少一个目标意图,确定所述待识别数据的意图,可以通过以下过程实现:目标意图标签集合属于哪个意图标签列表,待识别数据对应的意图即为这个意图标签列表对应的意图。
在本申请实施例中,首先,在所述意图标签列表中,识别与所述待识别数据的关键词标签相匹配的目标意图标签集合;其次,对所述目标意图标签集合中包括的目标意图进行识别;最后,响应于识别到至少一个目标意图,基于所述至少一个目标意图,确定所述待识别数据的意图;如此,能够准确识别待识别数据的意图。
在一些实施例中,识别出的意图可以是一个,也可以是多个;在识别出的意图为一个的情况下,步骤S703包括:
步骤S731:响应于识别到一个目标意图,将所述一个目标意图,作为所述待识别数据的意图。
在本申请实施例中,响应于识别到一个目标意图,将所述一个目标意图,作为所述待识别数据的意图;如此,在识别出的意图为一个的情况下,直接将该意图作为待识别数据的意图。
在一些实施例中,识别出的意图可以是一个,也可以是多个;在识别出的意图为多个的情况下,步骤S703包括:
步骤S733:响应于识别到至少两个目标意图,确定每一目标意图的置信度。
在一些实施例中,从识别出的多个意图中确定待识别数据的意图,可以通过多个意图的置信度确定待识别数据的意图。
在一些实施例中,置信度为每个意图对应的关键词字数长度的加权和,关键词的权重可以根据标签在意图中的重要程度确定,意图置信度对应的计算公式为:
步骤S734:基于所述每一目标意图的置信度,确定所述待识别数据的意图。
在一些实施例中,基于所述每一目标意图的置信度,确定所述待识别数据的意图,可以通过以下过程实现:基于每一目标意图的置信度,将置信度最高的意图作为待识别数据的意图。
在本申请实施例中,首先,响应于识别到至少两个目标意图,确定每一目标意图的置信度;其次,基于所述每一目标意图的置信度,确定所述待识别数据的意图;如此,在识别出的意图为多个的情况下,将置信度最高的意图作为待识别数据的意图。
在一些实施例中,还存在未识别出意图的情况,此时,该方法包括:
步骤S736:响应于未识别到所述目标意图标签,基于所述待识别数据中的关键词标签,更新所述预设关键词集合。
在一些实施例中,在未识别出意图的情况下,响应于未识别到所述目标意图标签,基于所述待识别数据中的关键词标签,更新所述预设关键词集合;也就是说,在未识别出意图的情况下,直接采用待识别数据中的关键词标签,更新预设关键词集合;即,将待识别数据中的关键词标签加入预设关键词集合;如此,预设关键词集合是持续扩充的。
步骤S737:基于更新的预设关键词集合,更新所述意图标签列表。
在一些实施例中,基于更新的预设关键词集合,更新所述意图标签列表,可以通过以下过程实现:根据更新的预设关键词集合中关键词的类别,更新意图标签列表;即,将关键词类别对应的标签,加入对应的意图标签列表,或者,新建预设意图及其对应的意图标签列表。
在本申请实施例中,首先,响应于未识别到所述目标意图标签,基于所述待识别数据中的关键词标签,更新所述预设关键词集合;其次,基于更新的预设关键词集合,更新所述意图标签列表;如此,在未识别出意图的情况下,能够持续扩充预设关键词集合,并更新意图标签列表。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用,以基于关键词匹配的意图识别为例进行以下说明。
本申请实施例提供一种基于关键词匹配的意图识别方法,该方法包含三部分:核心关键词构建、关键词匹配和意图识别;图8为本申请实施例提供的一种基于关键词匹配的意图识别方法的实现流程示意图,如图8所示,该方法包括:
步骤S801:构建核心关键词。
在一些实施例中,核心关键词的构建包括两部分:核心关键词标签列表构建和关键词集合构建;其中,核心关键词标签列表对应上述意图标签列表,关键词集合对应上述预设关键词集合,比如:在音乐领域,播放专辑意图intent_play Album={tag_play,tag_album},表示播放音乐专辑必须要有tag_play和tag_album这两个tag对应的关键词,如果输入文本中可以检测出相应的关键词,则可以判断输入文本对应的意图为播放专辑。
在一些实施例中,关键词集合的丰富程度决定意图识别的效果,如果某个tag集合中关键词较少,输入文本中虽然有该tag的关键词,但是该关键词不在tag集合中,则关键词匹配算法仍然无法匹配。
在一些实施例中,将意图转化为关键词对应标签的集合,通过关键词匹配完成意图识别,因此每个意图对应的关键词组合都是不同的,所有意图的关键词标签即为核心关键词标签列表。关键词集合构建是扩充每个标签中关键词的数量,比如:音乐领域,歌手(singer)的集合,包括大陆、港台、欧美、男、女、乐队组合等所有的歌手名称,singer集合的内容越丰富,覆盖范围越广
在一些实施例中,核心关键词标签列表的构建用于确定意图。每个意图对应一个核心关键词标签列表,核心关键词标签列表的元素是关键词不同类别的集合,关键词集合类别用标签表示。不同意图对应核心关键词标签列表包含的标签数量不同,有些意图核心关键词较少,需要包含所有标签才属于该意图;有些意图核心关键词较多,且某些关键词之间是同级关系,只要符合特定tag的组合就属于该意图。
关键词集合用于确定哪些文本属于核心关键词,每个类别的关键词用一个不同的标签表示。本申请中关键词分为意图类和实体类关键词,意图类关键词可以通过同义词扩展技术丰富,实体类关键词需要根据需求构建。关键词集合里面的数据越丰富,能够匹配的内容越多。对于比较重要的关键词集合,数据量可能会有百万级,而且关键词的集合需要随着系统的运行持续扩充。
步骤S802:关键词匹配。
在一些实施例中,关键词匹配是根据核心关键词标签列表中的关键词集合对输入文本进行检测,提取输入文本中的关键词信息。关键词匹配属于精确匹配方法,每个意图有多个关键词集合,每个关键词集合中的关键词数量非常的大,在进行关键词匹配时要考虑匹配的时效性。
在一些实施例中,关键词匹配的方法可以是Trie树或者AC自动机等,这些方法都对关键词匹配进行了优化,并且关键词还可以添加相应的标签,完成关键词匹配后,即可得到关键词的标签信息。
在一些实施例中,使用AC自动机进行关键词匹配,一个领域内所有的关键词列表对应一个AC自动机。构建AC自动机的字典是核心关键词tag列表中所有关键词的集合,关键词作为key,关键词对应的tag作为AC自动机的标签。不同AC自动机是相互独立的,即使相同的关键词位于多个AC自动机中,但是关键词匹配后得到的tag是不同的。
步骤S803:意图识别。
在一些实施例中,意图识别需要根据关键词匹配得到的标签信息,与核心关键词标签列表中的标签进行比对,确定文本对应的意图。意图识别包括两个步骤:匹配的关键词标签与核心关键词标签列表比对,多意图结果的判定。
在一些实施例中,经过输入文本关键词标签集合与核心关键词标签列表比对后,意图识别的结果有三种情况:未匹配,匹配一个意图,匹配多个意图。未匹配表示输入文本不在待识别意图范围内,匹配一个意图表示输入文本属于意图集合中的某一个意图,匹配多个意图表示输入文本可以匹配到意图集合中的多个意图。对于前两种匹配结果不需要进一步处理,匹配多个意图时,需要从多个意图中确定最终的一个意图。
在一些实施例中,多意图的优化通过意图的置信度确定,置信度最高的意图即为最终的意图。
本申请实施例中,首先,构建核心关键词;其次,关键词匹配;最后,意图识别;如此,无需关注待识别数据中的关键词顺序,就能准确识别待识别数据的意图。
本申请实施例提供一种数据处理装置,图9为本申请实施例提供的一种意图识别装置的组成结构示意图,如图9所示,意图识别装置900包括:
第一获取模块901,用于获取待识别数据;
第一确定模块902,基于预设关键词集合,对所述待识别数据进行检测,确定所述待识别数据的关键词标签;
第二确定模块903,基于所述预设关键词集合对应的意图标签列表和所述待识别数据的关键词标签,确定所述待识别数据的意图。
在一些实施例中,意图识别装置900还包括:
第三确定模块,用于在预设意图集合中,确定每一预设意图匹配的预设关键词集合;
第四确定模块,用于基于所述预设关键词集合中的关键词类别,确定所述每一预设意图的意图标签列表。
在一些实施例中,上述第三确定模块,包括:
第一确定子模块,用于确定所述每一预设意图匹配的意图类关键词和实体类关键词;
第一扩展子模块,对所述意图类关键词进行同义词扩展,得到第一关键词集合;
第二扩展子模块,基于所述每一预设意图的需求信息,对所述实体类关键词进行扩展,得到第二关键词集合;
第二确定子模块,基于所述第一关键词集合和所述第二关键词集合,得到所述预设关键词集合。
在一些实施例中,上述第四确定模块,包括:
第三确定子模块,用于确定所述每一预设意图对应的至少一种关键词类别;
第四确定子模块,用于基于所述每一预设意图对应的预设关键词的数量,在所述至少一种关键词类别中确定所述每一预设意图的意图标签列表。
在一些实施例中,上述第一确定模块902,包括:
第一匹配模块,用于基于所述预设关键词集合和对应的意图标签列表,对所述待识别数据进行关键词匹配,得到所述待识别数据的关键词标签。
在一些实施例中,上述第一匹配模块,包括:
第一构建子模块,用于基于所述意图标签列表中的每一意图标签对应的多个预设关键词,创建关键词匹配自动机的字典;
第五确定子模块,用于将所述每一意图标签,作为创建的所述关键词匹配自动机的匹配标签;其中,不同意图标签对应的关键词匹配自动机是相互独立的;
第一匹配子模块,用于基于所述关键词匹配自动机的字典和所述匹配标签,对所述待识别数据进行关键词匹配,确定所述待识别数据的关键词标签。
在一些实施例中,上述第二确定模块903,包括:
第一识别子模块,用于在所述意图标签列表中,识别与所述待识别数据的关键词标签相匹配的目标意图标签集合;
第二识别子模块,用于对所述目标意图标签集合中包括的目标意图进行识别;
第一响应模块,用于响应于识别到至少一个目标意图,基于所述至少一个目标意图,确定所述待识别数据的意图。
在一些实施例中,上述第一响应模块,包括:
第一响应子模块,用于响应于识别到一个目标意图,将所述一个目标意图,作为所述待识别数据的意图。
在一些实施例中,上述第一响应模块,还包括:
第六确定子模块,用于响应于识别到至少两个目标意图,确定每一目标意图的置信度;
第七确定子模块,用于基于所述每一目标意图的置信度,确定所述待识别数据的意图。
在一些实施例中,上述第一响应模块,还包括:
第一更新子模块,用于响应于未识别到所述目标意图标签,基于所述待识别数据中的关键词标签,更新所述预设关键词集合;
第二更新子模块,用于基于更新的预设关键词集合,更新所述意图标签列表。
本申请实施例提供一种电子设备,图10为本申请实施例提供的一种电子设备的结构示意图,如图10所示,电子设备1000包括:
处理器1001、存储器1002和通信总线1003;其中,所述通信总线1003用于实现所述处理器1001和所述存储器1002之间的通信连接;
所述处理器1001用于执行所述存储器1002中的程序,以实现如上述所述的意图识别方法。
本申请实施例提供一种计算机可读存储介质,其上存储有存储有一个或多个程序,所述一个或多个程序可被一个或者多个处理器执行,以实现上述任一意图识别方法。
需要说明的是,上述计算机可读存储介质可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种处理器,如移动电话、计算机、平板设备、个人数字助理等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所描述的方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (13)
1.一种意图识别方法,其特征在于,所述方法包括:
获取待识别数据;
基于预设关键词集合,对所述待识别数据进行检测,确定所述待识别数据的关键词标签;
基于所述预设关键词集合对应的意图标签列表和所述待识别数据的关键词标签,确定所述待识别数据的意图。
2.根据权利要求1所述的方法,其特征在于,所述基于预设关键词集合,对所述待识别数据进行检测,确定所述待识别数据的关键词标签之前,所述方法还包括:
在预设意图集合中,确定每一预设意图匹配的预设关键词集合;
基于所述预设关键词集合中的关键词类别,确定所述每一预设意图的意图标签列表。
3.根据权利要求2所述的方法,其特征在于,所述在预设意图集合中,确定每一预设意图匹配的预设关键词集合,包括:
确定所述每一预设意图匹配的意图类关键词和实体类关键词;
对所述意图类关键词进行同义词扩展,得到第一关键词集合;
基于所述每一预设意图的需求信息,对所述实体类关键词进行扩展,得到第二关键词集合;
基于所述第一关键词集合和所述第二关键词集合,得到所述预设关键词集合。
4.根据权利要求2所述的方法,其特征在于,所述基于所述预设关键词集合中的关键词类别,确定所述每一预设意图的意图标签列表,包括;
确定所述每一预设意图对应的至少一种关键词类别;
基于所述每一预设意图对应的预设关键词的数量,在所述至少一种关键词类别中确定所述每一预设意图的意图标签列表。
5.根据权利要求1所述的方法,其特征在于,所述基于预设关键词集合,对所述待识别数据进行检测,确定所述待识别数据的关键词标签,包括:
基于所述预设关键词集合和对应的意图标签列表,对所述待识别数据进行关键词匹配,得到所述待识别数据的关键词标签。
6.根据权利要求5所述的方法,其特征在于,所述基于所述预设关键词集合和对应的意图标签列表,对所述待识别数据进行关键词匹配,得到所述待识别数据的关键词标签,包括:
基于所述意图标签列表中的每一意图标签对应的多个预设关键词,创建关键词匹配自动机的字典;
将所述每一意图标签,作为创建的所述关键词匹配自动机的匹配标签;其中,不同意图标签对应的关键词匹配自动机是相互独立的;
基于所述关键词匹配自动机的字典和所述匹配标签,对所述待识别数据进行关键词匹配,确定所述待识别数据的关键词标签。
7.根据权利要求1所述的方法,其特征在于,所述基于所述预设关键词集合对应的意图标签列表和所述待识别数据的关键词标签,确定所述待识别数据的意图,包括:
在所述意图标签列表中,识别与所述待识别数据的关键词标签相匹配的目标意图标签集合;
对所述目标意图标签集合中包括的目标意图进行识别;
响应于识别到至少一个目标意图,基于所述至少一个目标意图,确定所述待识别数据的意图。
8.根据权利要求6所述的方法,其特征在于,所述响应于识别到至少一个目标意图,基于所述至少一个目标意图,确定所述待识别数据的意图,包括:
响应于识别到一个目标意图,将所述一个目标意图,作为所述待识别数据的意图。
9.根据权利要求6所述的方法,其特征在于,所述响应于识别到至少一个目标意图,基于所述至少一个目标意图,确定所述待识别数据的意图,包括:
响应于识别到至少两个目标意图,确定每一目标意图的置信度;
基于所述每一目标意图的置信度,确定所述待识别数据的意图。
10.根据权利要求6所述的方法,其特征在于,所述方法还包括:
响应于未识别到所述目标意图标签,基于所述待识别数据中的关键词标签,更新所述预设关键词集合;
基于更新的预设关键词集合,更新所述意图标签列表。
11.一种意图识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别数据;
第一确定模块,基于预设关键词集合,对所述待识别数据进行检测,确定所述待识别数据的关键词标签;
第二确定模块,基于所述预设关键词集合对应的意图标签列表和所述待识别数据的关键词标签,确定所述待识别数据的意图。
12.一种电子设备,其特征在于,所述电子设备包括:处理器、存储器和通信总线;其中,所述通信总线用于实现所述处理器和所述存储器之间的通信连接;
所述处理器用于执行所述存储器中的程序,以实现如权利要求1至10任一所述的意图识别方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或多个程序,所述一个或多个程序可被一个或者多个处理器执行,以实现如权利要求1至10任一所述的意图识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111414006.XA CN116167355A (zh) | 2021-11-25 | 2021-11-25 | 一种意图识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111414006.XA CN116167355A (zh) | 2021-11-25 | 2021-11-25 | 一种意图识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116167355A true CN116167355A (zh) | 2023-05-26 |
Family
ID=86416939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111414006.XA Pending CN116167355A (zh) | 2021-11-25 | 2021-11-25 | 一种意图识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116167355A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116933800A (zh) * | 2023-09-12 | 2023-10-24 | 深圳须弥云图空间科技有限公司 | 一种基于模版的生成式意图识别方法及装置 |
CN117540107A (zh) * | 2024-01-09 | 2024-02-09 | 浙江同花顺智能科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-11-25 CN CN202111414006.XA patent/CN116167355A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116933800A (zh) * | 2023-09-12 | 2023-10-24 | 深圳须弥云图空间科技有限公司 | 一种基于模版的生成式意图识别方法及装置 |
CN116933800B (zh) * | 2023-09-12 | 2024-01-05 | 深圳须弥云图空间科技有限公司 | 一种基于模版的生成式意图识别方法及装置 |
CN117540107A (zh) * | 2024-01-09 | 2024-02-09 | 浙江同花顺智能科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN117540107B (zh) * | 2024-01-09 | 2024-05-07 | 浙江同花顺智能科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191016B (zh) | 一种多轮对话处理方法、装置及计算设备 | |
CN101499277B (zh) | 一种服务智能导航方法和系统 | |
CN108959559B (zh) | 问答对生成方法和装置 | |
US20230169100A1 (en) | Method and apparatus for information acquisition, electronic device, and computer-readable storage medium | |
CN110232129B (zh) | 场景纠错方法、装置、设备和存储介质 | |
CN111046221A (zh) | 歌曲推荐方法、装置、终端设备以及存储介质 | |
CN101563685A (zh) | 利用用户反馈处理查询的系统和方法 | |
CN116167355A (zh) | 一种意图识别方法、装置、设备及存储介质 | |
JP2023076413A (ja) | 言語モデルを利用してドメインに特化した対話を提供する方法、コンピュータ装置、およびコンピュータプログラム | |
CN112287095A (zh) | 确定问题答案的方法、装置、计算机设备及存储介质 | |
CN111209753B (zh) | 一种实体命名识别方法及装置 | |
CN110096599B (zh) | 知识图谱的生成方法及装置 | |
KR20200014047A (ko) | 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램 | |
CN113722457A (zh) | 意图识别方法以及装置、存储介质、电子装置 | |
CN111198936B (zh) | 一种语音搜索方法、装置、电子设备及存储介质 | |
CN111081225B (zh) | 技能语音唤醒方法及装置 | |
KR20230156242A (ko) | 시맨틱 분석을 통한 의미 검색 서비스 제공 방법 | |
US20210149900A1 (en) | Method, system and computer program for semantic triple-based knowledge extension | |
CN116610815A (zh) | 一种知识图谱的关系预测方法、装置、设备及存储介质 | |
CN114896382A (zh) | 人工智能问答模型生成方法、问答方法、装置及存储介质 | |
Marulli et al. | Tuning SyntaxNet for POS tagging Italian sentences | |
CN113076740A (zh) | 政务服务领域的同义词挖掘方法及装置 | |
CN112800775A (zh) | 语义理解方法、装置、设备及存储介质 | |
CN106227876B (zh) | 一种活动安排辅助决策方法和装置 | |
KR20180113444A (ko) | 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |