CN112257432A - 一种自适应意图识别方法、装置及电子设备 - Google Patents
一种自适应意图识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112257432A CN112257432A CN202011201728.2A CN202011201728A CN112257432A CN 112257432 A CN112257432 A CN 112257432A CN 202011201728 A CN202011201728 A CN 202011201728A CN 112257432 A CN112257432 A CN 112257432A
- Authority
- CN
- China
- Prior art keywords
- intention
- layer
- intention recognition
- text
- ith
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 25
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 238000012512 characterization method Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 9
- 230000003993 interaction Effects 0.000 abstract description 9
- 238000012545 processing Methods 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种自适应意图识别方法、装置及电子设备,所述方法包括:创建BERT模型,其中,所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器;将待识别文本输入所述BERT模型进行第i层意图识别;若所述第i层意图识别结果不满足意图识别要求,对所述第i层意图识别结果进行第i+1层意图识别,直至当前层意图识别结果满足意图识别要求,将所述当前层意图识别结果作为所述待识别文本的意图输出,并删除所述待识别文本。本发明能够有效提高模型的意图识别速度,避免在用户与语音机器人的交互中出现语音机器人回答速度慢,用户等待时间久的现象,提升语音机器人与用户的语音交互效果。
Description
技术领域
本发明涉及语音智能技术领域,具体而言,涉及一种自适应意图识别方法、装置、电子设备及计算机可读介质。
背景技术
随着人工智能技术的发展,语音机器人的应用也越来越广泛。语音机器人基于语音识别、语音合成、自然语言理解等技术,能够为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。目前,语音机器人已广泛应用于电话销售、智能问答、智能质检、实时演讲字幕、访谈录音等场景。
语音机器人首先对用户的语音进行自然语音理解来识别用户意图,再根据用户意图通过自然语音生成技术生成对用户的问答语音,从而完成与用户的语音问答。在自然语音理解过程中语音机器人将用户的语音通过语音识别(Automatic Speech Recognition,ASR)技术转化为文字,再通过自然语言理解(Natural Language Understanding,NLU)技术识别用户意图。
其中,NLU过程中主要采用数据量大,参数比较多的机器学习模型,比如,循环神经网络模型(Recurrent Neural Network,RNN)、长短记忆网络模型(Long Short-TermMemory,LSTM)等来处理。而这些机器学习模型因为数据量庞大,平均识别一条语音意图需要200毫秒,导致意图识别的速度比较慢。在用户与语音机器人的交互中出现语音机器人回答速度慢,用户等待时间久的现象,严重影响语音交互效果。
发明内容
本发明旨在解决语音机器人对用户意图识别速度慢的技术问题。
为了解决上述技术问题,本发明第一方面提出一种自适应意图识别方法,所述方法包括:
创建基于变换器的双向编码表征BERT模型,其中,所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器;
将待识别文本输入所述BERT模型进行第i层意图识别;
若所述第i层意图识别结果不满足意图识别要求,对所述第i层意图识别结果进行第i+1层意图识别,直至当前层意图识别结果满足意图识别要求,将所述当前层意图识别结果作为所述待识别文本的意图输出,并删除所述待识别文本;
其中,i=1、2、…N,所述第i层意图识别包括:
将所述待识别文本依次输入第i层特征编码器以及与所述第i特征编码器连接的第i分类器,得到所述第i层意图识别结果;
判断所述第i层意图识别结果是否满足意图识别要求。
根据本发明一种优选的实施方式,所述判断所述第i层意图识别结果是否满足意图识别要求包括:
计算所述第i层意图识别结果的信息熵;
若所述第i层识别结果的信息熵小于预设值,确定所述第i层意图识别结果是否满足意图识别要求。
根据本发明一种优选的实施方式,所述第i层意图识别结果的信息熵S为:
其中,总共有M类意图,Pj为所述第i层意图识别结果为第j类意图的概率。
根据本发明一种优选的实施方式,所述创建基于变换器的双向编码表征BERT模型包括:
采集用户历史语料和对应的意图数据作为意图训练集;
通过所述意图训练集对所述N层特征编码器和各个层的分类器进行微调,得到能够识别意图的BERT模型。
根据本发明一种优选的实施方式,所述创建基于变换器的双向编码表征BERT模型包括:
采集用户历史语料和对应的意图数据作为意图训练集;
通过所述意图训练集对所述N层特征编码器进行微调并固定所述N层特征编码器的参数,得到能够识别意图的N层特征编码器;
将测试集依次输入所述能够识别意图的N层特征编码器,得到意图排列序列PT;
将所述测试集分别输入各个分类器中,得到意图概率序列PSr;
优化第r分类器使得第r分类器的PSr与PT之间的差别小于阈值。
根据本发明一种优选的实施方式,所述将待识别文本输入所述BERT模型进行第i层意图识别之前,所述方法还包括:
采集用户音频数据;
将所述用户音频数据转换为文本数据;
将所述文本数据转换为词向量;
将所述词向量作为待识别文本。
为了解决上述技术问题,本发明第二方面提供一种自适应意图识别装置,所述装置包括:
创建模块,用于创建基于变换器的双向编码表征BERT模型,其中,所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器;
识别模块,用于将待识别文本输入所述BERT模型进行第i层意图识别;
输出模块,用于若所述第i层意图识别结果不满足意图识别要求,对所述第i层意图识别结果进行第i+1层意图识别,直至当前层意图识别结果满足意图识别要求,将所述当前层意图识别结果作为所述待识别文本的意图输出,并删除所述待识别文本;
其中,i=1、2、…N,所述识别模块包括:
子识别模块,用于将所述待识别文本依次输入第i层特征编码器以及与所述第i特征编码器连接的第i分类器,得到所述第i层意图识别结果;
判断模块,判断所述第i层意图识别结果是否满足意图识别要求。
根据本发明一种优选的实施方式,所述判断模块包括:
计算模块,用于计算所述第i层意图识别结果的信息熵;
子判断模块,用于若所述第i层识别结果的信息熵小于预设值,确定所述第i层意图识别结果是否满足意图识别要求。
根据本发明一种优选的实施方式,所述第i层意图识别结果的信息熵S为:
其中,总共有M类意图,Pj为所述第i层意图识别结果为第j类意图的概率。
根据本发明一种优选的实施方式,所述创建模块包括:
第一采集模块,用于采集用户历史语料和对应的意图数据作为意图训练集;
微调模块,用于通过所述意图训练集对所述N层特征编码器和各个层的分类器进行微调,得到能够识别意图的BERT模型。
根据本发明一种优选的实施方式,所述创建模块包括:
第二采集模块,用于采集用户历史语料和对应的意图数据作为意图训练集;
微调固定模块,用于通过所述意图训练集对所述N层特征编码器进行微调并固定所述N层特征编码器的参数,得到能够识别意图的N层特征编码器;
第一输入模块,用于将测试集依次输入所述能够识别意图的N层特征编码器,得到意图排列序列PT;
第二输入模块,用于将所述测试集分别输入各个分类器中,得到意图概率序列PSr;
优化模块,用于优化第r分类器使得第r分类器的PSr与PT之间的差别小于阈值。
根据本发明一种优选的实施方式,所述装置还包括:
采集模块,用于采集用户音频数据;
第一转换模块,用于将所述用户音频数据转换为文本数据;
第二转换模块,用于将所述文本数据转换为词向量;
确定模块,用于将所述词向量作为待识别文本。
为解决上述技术问题,本发明第三方面提供一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行上述的方法。
为了解决上述技术问题,本发明第四方面提出一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述方法。
本发明通过创建基于变换器的双向编码表征BERT模型,其中,所述BERT模型包括N层特征编码器,并且每层特征编码器分别连接一个分类器。待识别文本输入BERT模型后,从最底层的特征编码器及与该特征编码器连接的分类器开始逐层进行意图识别;当每层意图识别完成后,判断该层意图识别结果是否满足意图识别要求。若满足,则无需进入下一层意图识别,直接输出该层意图识别结果,结束当前文本的意图识别,从而有效提高模型的意图识别速度,避免在用户与语音机器人的交互中出现语音机器人回答速度慢,用户等待时间久的现象,提升语音机器人与用户的语音交互效果。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明一种自适应意图识别方法的流程示意图;
图2是本发明BERT模型的结构框架示意图;
图3是本发明BERT模型的内部结构框架示意图;
图4是本发明BERT模型进行意图识别的示意图;
图5是本发明一种自适应意图识别装置的结构框架示意图;
图6是根据本发明的一种电子设备的示例性实施例的结构框图;
图7是本发明一个计算机可读介质实施例的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
本发明实施例提供的方案涉及人工智能的自然语言理解和深度学习等技术,现通过如下实施例进行说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
自然语言理解(Natural Language Understanding,NLU)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言理解以语音学为基础,融合逻辑学、计算机科学等学科,通过对语义、语法、语用的分析,获取自然语音的语义表示。自然语言理解的主要功能包括实体识别、用户意图识别、用户情感识别、指代消解、省略恢复、回复确认及拒识判断等。
意图识别指运用各种机器学习方法,让机器学习并理解一段文本所表示的语义意图,涉及语音学、计算语言学、人工智能、机器学习等多个学科。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
深度学习是机器学习的核心部分,其通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。基于深度学习的自然语音理解技术在获得自然语音的向量化表示后,通过采用端到端的方法直接生产回复,其最典型的框架是Encoder-Decoder框架。其不仅可以应用到聊天机器人领域,还可以应用在机器翻译、文本摘要、句法分析等应用场景中。其中,语言模型是将深度学习引入自然语言理解的核心技术之一。
本发明基于待识别文本的意图识别的难易程度不同,采用基于变换器的双向编码表征BERT模型对待识别文本进行意图识别。其中,BERT模型包括N层特征编码器,并且每层特征编码器分别连接一个分类器。待识别文本输入BERT模型后,从最底层的特征编码器及与分类器开始逐层进行意图识别;当每层意图识别完成后,判断该层意图识别结果是否满足意图识别要求。对于比较容易识别的文本,在前几层就可满足意图识别要求,则无需进入下一层意图识别,直接输出该层意图识别结果,结束当前文本的意图识别,从而有效提高模型的意图识别速度,避免在用户与语音机器人的交互中出现语音机器人回答速度慢,用户等待时间久的现象,提升语音机器人与用户的语音交互效果。
请参阅图1,图1是本发明提供的一种自适应意图识别方法的流程图,如图1所示,所述方法包括:
S1、创建BERT模型。
本发明中,所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器。其中,所述分类器可以采用决策树模型、朴素贝叶斯模型、Logistic分类器、支持向量机分类器等,本发明不作具体限定。
图2示出了BERT模型的结构。其中,BERT模型本质上是由双向Transformer组成的语言模型。BERT模型可以包含12层Transformer(BERT-base模型),也可以包含24层Transformer(BERT-lager模型)。即:N可以取12,也可以取24。 在图2中,BERT模型包括顺次堆叠设置的N层结构相同的特征编码器Er,并且每层特征编码器Er都连接一个分类器Fr。所述特征编码器指的是Transformer的encoder。图3示出了BERT模型的内部结构。在图3中,E表示词的embedding,T表示经过BERT模型编码后每个词的新的特征表示,Trm指代的是Transformer的encoder,F表示与每层的特征编码器连接的分类器。
在一种创建BERT模型的过程中,对N层特征编码器和各个层的分类器采用同步微调的方式进行训练。即先采用大量的语料对BERT模型进行预训练,再采集用户历史语料和对应的意图数据作为意图训练集;通过所述意图训练集对所述N层特征编码器和各个层的分类器进行微调,得到能够识别意图的BERT模型。
具体的,对于任意一个训练语料,获取该训练语料的词向量、句子编码向量和位置编码向量;将该词向量、该句子编码向量和该位置编码向量进行相加处理;将得到的特征向量作为特征依次输入BERT模型的第一层特征编码器和第一层分类器,根据意图训练集中的意图数据判断第一层分类器输出的意图结果是否满足意图输出条件,若满足将该层意图结果作为最终意图结果输出,并删除该特征向量。若不满足,通过堆叠设置的各层特征编码器及对应的分类器依次对该输入特征进行意图识别处理,并判断每层分类器输出的意图结果是否满足意图输出条件,直至意图结果满足意图输出条件或者到最后一层特征编码器及对应的分类器意图识别为止,其中,上一层分类器的输出作为下一层特征编码器的输入;将分类器输出的意图结果确定为该训练语料的意图向量序列。
举例来说,图2为句子“w1 w2,w3”的输入形式表示。每个词的输入由 3部分构成,一个是词本身的embedding,即词向量;第二个是表示上下句的embedding,如果是上句,使用A embedding,如果是下句,使用B embedding,即句子编码向量;最后,根据Transformer的特点还要加上位置编码,这里的位置编码是通过学习得到的;将词向量、句子编码向量和位置编码向量三者相加作为该句的输入。
此外,在每个句子的开头还需要加一个Classification(CLS)符号,并通过符号(SEP)来区分句与句。 即,图2示出了句子中每一个词的输入的组成成分。即,每一个词的输入由Token Embedding(词嵌入编码)201、Segment Embedding(句子编码)202、PositionEmbedding(位置编码)303三个部分相加得到。其中,Token Embedding是一个查表操作,Segment Embedding表示该词所属的句子,Position Embedding是该字在句子中对应的位置信息。
在另一种创建BERT模型的过程中,先对N层特征编码器进行微调并固定参数,再采用测试集对N层特征编码器的意图预测结果和各个分类器的意图预测结果进行优化。具体的,先采集用户历史语料和对应的意图数据作为意图训练集;通过所述意图训练集对所述N层特征编码器进行微调并固定所述N层特征编码器的参数,得到能够识别意图的N层特征编码器;将测试集依次输入所述能够识别意图的N层特征编码器,得到意图排列序列PT,其中,T=1、2…N。同时将所述测试集分别输入各个分类器中,得到意图概率序列PSr;其中,r=1、2…N。根据每层特征编码器输出的意图优化该层分类器,具体对于第r分类器而言,使得第r分类器的PSr与PT之间的差别小于阈值,其中r=T,所述阈值可以根据模型精度来确定。
本发明中,由于BERT模型采用多层Transformer对文本进行双向学习,且Transformer采用一次性读取方式对文本进行读取,因此可以更准确地学习到文本中词之间的上下文关系,对语境的理解更加深刻,即双向训练的语言模型对语境的理解会比单向的语言模型更深刻,从而能够准确地对文本进行处理,因此,BERT模型相较于处理自然语言理解任务的其他模型而言,具有更好的任务处理效果。
S2、将待识别文本输入所述BERT模型进行第i层意图识别;
在本步骤之前,可以先将采集的用户音频数据进行处理,比如,先通过ASR技术将用户音频数据转换为文本数据;再通过word2vec模型将所述文本数据转换为词向量,最后将所述词向量作为待识别文本输入所述BERT模型进行第i层意图识别。
其中,i=1、2、…N,所述第i层意图识别包括:
S21、将所述待识别文本依次输入第i层特征编码器以及与所述第i特征编码器连接的第i分类器,得到所述第i层意图识别结果;
S22、判断所述第i层意图识别结果是否满足意图识别要求。
本发明中,通过信息熵来判断第i层意图识别结果是否满足意图识别要求。信息熵用于描述某种特定信息的出现概率(离散随机事件的出现概率),是系统有序化程度的一个度量。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。
具体的,先计算所述第i层意图识别结果的信息熵S:
其中,总共有M类意图,Pj为所述第i层意图识别结果为第j类意图的概率。
若所述第i层识别结果的信息熵小于预设值,确定所述第i层意图识别结果是否满足意图识别要求。其中,所述预设值可以根据BERT模型的精度要求进行设置。
S3、若所述第i层意图识别结果不满足意图识别要求,对所述第i层意图识别结果进行第i+1层意图识别,直至当前层意图识别结果满足意图识别要求,将所述当前层意图识别结果作为所述待识别文本的意图输出,并删除所述待识别文本;
示例性的,如图4所示,词向量序列A1、A2、A3、A4、A5依次输入BERT模型41后,按顺序对每个词向量从第1层开始逐层进行意图识别。以词向量A1为例,词向量A1先依次输入第1层特征编码器E1和第1层分类器F1进行第1层意图识别,若A1的第1层意图识别不满足意图识别要求,则将A1的第1层意图识别结果依次输入第2层特征编码器E2和第2层分类器F2进行第2层意图识别,若A1的第2层意图识别满足意图识别要求,则将A1的第2层意图识别结果作为A1的意图输出,并在词向量序列中删除A1,A1将不再进入后续层的特征编码器和分类器中,有效节约了意图识别时间。
图5是本发明一种自适应意图识别装置的架构示意图,如图5所示,所述装置包括:
创建模块51,用于创建基于变换器的双向编码表征BERT模型,其中,所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器;
识别模块52,用于将待识别文本输入所述BERT模型进行第i层意图识别;
输出模块53,用于若所述第i层意图识别结果不满足意图识别要求,对所述第i层意图识别结果进行第i+1层意图识别,直至当前层意图识别结果满足意图识别要求,将所述当前层意图识别结果作为所述待识别文本的意图输出,并删除所述待识别文本;
其中,i=1、2、…N,所述识别模块52包括:
子识别模块521,用于将所述待识别文本依次输入第i层特征编码器以及与所述第i特征编码器连接的第i分类器,得到所述第i层意图识别结果;
判断模块522,判断所述第i层意图识别结果是否满足意图识别要求。
在一种具体实施方式中,所述判断模块522包括:
计算模块,用于计算所述第i层意图识别结果的信息熵;
子判断模块,用于若所述第i层识别结果的信息熵小于预设值,确定所述第i层意图识别结果是否满足意图识别要求。
其中,所述第i层意图识别结果的信息熵S为:
其中,总共有M类意图,Pj为所述第i层意图识别结果为第j类意图的概率。
在一种可选的实施方式中,所述创建模块51包括:
第一采集模块,用于采集用户历史语料和对应的意图数据作为意图训练集;
微调模块,用于通过所述意图训练集对所述N层特征编码器和各个层的分类器进行微调,得到能够识别意图的BERT模型。
在另一种可选的实施方式中,所述创建模块51包括:
第二采集模块,用于采集用户历史语料和对应的意图数据作为意图训练集;
微调固定模块,用于通过所述意图训练集对所述N层特征编码器进行微调并固定所述N层特征编码器的参数,得到能够识别意图的N层特征编码器;
第一输入模块,用于将测试集依次输入所述能够识别意图的N层特征编码器,得到意图排列序列PT;
第二输入模块,用于将所述测试集分别输入各个分类器中,得到意图概率序列PSr;
优化模块,用于优化第r分类器使得第r分类器的PSr与PT之间的差别小于阈值。
进一步的,所述装置还包括:
采集模块,用于采集用户音频数据;
第一转换模块,用于将所述用户音频数据转换为文本数据;
第二转换模块,用于将所述文本数据转换为词向量;
确定模块,用于将所述词向量作为待识别文本。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图6是根据本发明的一种电子设备的示例性实施例的结构框图。图6显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,该示例性实施例的电子设备600以通用数据处理设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同电子设备组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元620存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元610执行,使得所述处理单元610执行本发明各种实施方式的步骤。例如,所述处理单元610可以执行如图1所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备300(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备300与该电子设备600交互,和/或使得该电子设备600能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口650进行,还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图6中未示出,电子设备600中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID电子设备、磁带驱动器以及数据备份存储电子设备等。
图7是本发明的一个计算机可读介质实施例的示意图。如图7所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:创建基于变换器的双向编码表征BERT模型,其中,所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器;将待识别文本输入所述BERT模型进行第i层意图识别;若所述第i层意图识别结果不满足意图识别要求,对所述第i层意图识别结果进行第i+1层意图识别,直至当前层意图识别结果满足意图识别要求,将所述当前层意图识别结果作为所述待识别文本的意图输出,并删除所述待识别文本;其中,i=1、2、…N,所述第i层意图识别包括:将所述待识别文本依次输入第i层特征编码器以及与所述第i特征编码器连接的第i分类器,得到所述第i层意图识别结果;判断所述第i层意图识别结果是否满足意图识别要求。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语音的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语音包括面向对象的程序设计语音—诸如Java、C++等,还包括常规的过程式程序设计语音—诸如“C”语音或类似的程序设计语音。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种自适应意图识别方法,其特征在于,所述方法包括:
创建基于变换器的双向编码表征BERT模型,其中,所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器;
将待识别文本输入所述BERT模型进行第i层意图识别;
若所述第i层意图识别结果不满足意图识别要求,对所述第i层意图识别结果进行第i+1层意图识别,直至当前层意图识别结果满足意图识别要求,将所述当前层意图识别结果作为所述待识别文本的意图输出,并删除所述待识别文本;
其中,i=1、2、…N,所述第i层意图识别包括:
将所述待识别文本依次输入第i层特征编码器以及与所述第i特征编码器连接的第i分类器,得到所述第i层意图识别结果;
判断所述第i层意图识别结果是否满足意图识别要求。
2.根据权利要求1所述的方法,其特征在于,所述判断所述第i层意图识别结果是否满足意图识别要求包括:
计算所述第i层意图识别结果的信息熵;
若所述第i层识别结果的信息熵小于预设值,确定所述第i层意图识别结果是否满足意图识别要求。
4.根据权利要求2所述的方法,其特征在于,所述创建基于变换器的双向编码表征BERT模型包括:
采集用户历史语料和对应的意图数据作为意图训练集;
通过所述意图训练集对所述N层特征编码器和各个层的分类器进行微调,得到能够识别意图的BERT模型。
5.根据权利要求2所述的方法,其特征在于,所述创建基于变换器的双向编码表征BERT模型包括:
采集用户历史语料和对应的意图数据作为意图训练集;
通过所述意图训练集对所述N层特征编码器进行微调并固定所述N层特征编码器的参数,得到能够识别意图的N层特征编码器;
将测试集依次输入所述能够识别意图的N层特征编码器,得到意图排列序列PT;
将所述测试集分别输入各个分类器中,得到意图概率序列PSr;
优化第r分类器使得第r分类器的PSr与PT之间的差别小于阈值。
6.根据权利要求1所述的方法,其特征在于,所述将待识别文本输入所述BERT模型进行第i层意图识别之前,所述方法还包括:
采集用户音频数据;
将所述用户音频数据转换为文本数据;
将所述文本数据转换为词向量;
将所述词向量作为待识别文本。
7.一种自适应意图识别装置,其特征在于,所述装置包括:
创建模块,用于创建基于变换器的双向编码表征BERT模型,其中,所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器;
识别模块,用于将待识别文本输入所述BERT模型进行第i层意图识别;
输出模块,用于若所述第i层意图识别结果不满足意图识别要求,对所述第i层意图识别结果进行第i+1层意图识别,直至当前层意图识别结果满足意图识别要求,将所述当前层意图识别结果作为所述待识别文本的意图输出,并删除所述待识别文本;
其中,i=1、2、…N,所述识别模块包括:
子识别模块,用于将所述待识别文本依次输入第i层特征编码器以及与所述第i特征编码器连接的第i分类器,得到所述第i层意图识别结果;
判断模块,判断所述第i层意图识别结果是否满足意图识别要求。
8.一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011201728.2A CN112257432A (zh) | 2020-11-02 | 2020-11-02 | 一种自适应意图识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011201728.2A CN112257432A (zh) | 2020-11-02 | 2020-11-02 | 一种自适应意图识别方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112257432A true CN112257432A (zh) | 2021-01-22 |
Family
ID=74268398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011201728.2A Pending CN112257432A (zh) | 2020-11-02 | 2020-11-02 | 一种自适应意图识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112257432A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989844A (zh) * | 2021-03-10 | 2021-06-18 | 北京奇艺世纪科技有限公司 | 一种模型训练及文本识别方法、装置、设备及存储介质 |
CN115408509A (zh) * | 2022-11-01 | 2022-11-29 | 杭州一知智能科技有限公司 | 一种意图识别方法、系统、电子设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569502A (zh) * | 2019-07-31 | 2019-12-13 | 苏宁云计算有限公司 | 一种违禁广告语的识别方法、装置、计算机设备及存储介质 |
CN110928997A (zh) * | 2019-12-04 | 2020-03-27 | 北京文思海辉金信软件有限公司 | 意图识别方法、装置、电子设备及可读存储介质 |
CN110968671A (zh) * | 2019-12-03 | 2020-04-07 | 北京声智科技有限公司 | 一种基于Bert的意图确定方法及装置 |
CN111078878A (zh) * | 2019-12-06 | 2020-04-28 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
CN111125331A (zh) * | 2019-12-20 | 2020-05-08 | 京东方科技集团股份有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
CN111274797A (zh) * | 2020-01-13 | 2020-06-12 | 平安国际智慧城市科技股份有限公司 | 用于终端的意图识别方法、装置、设备及存储介质 |
US20200242302A1 (en) * | 2019-01-29 | 2020-07-30 | Ricoh Company, Ltd. | Intention identification method, intention identification apparatus, and computer-readable recording medium |
CN111753052A (zh) * | 2020-06-19 | 2020-10-09 | 微软技术许可有限责任公司 | 提供针对知识意图问题的知识性回答 |
-
2020
- 2020-11-02 CN CN202011201728.2A patent/CN112257432A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200242302A1 (en) * | 2019-01-29 | 2020-07-30 | Ricoh Company, Ltd. | Intention identification method, intention identification apparatus, and computer-readable recording medium |
CN110569502A (zh) * | 2019-07-31 | 2019-12-13 | 苏宁云计算有限公司 | 一种违禁广告语的识别方法、装置、计算机设备及存储介质 |
CN110968671A (zh) * | 2019-12-03 | 2020-04-07 | 北京声智科技有限公司 | 一种基于Bert的意图确定方法及装置 |
CN110928997A (zh) * | 2019-12-04 | 2020-03-27 | 北京文思海辉金信软件有限公司 | 意图识别方法、装置、电子设备及可读存储介质 |
CN111078878A (zh) * | 2019-12-06 | 2020-04-28 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
CN111125331A (zh) * | 2019-12-20 | 2020-05-08 | 京东方科技集团股份有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
CN111274797A (zh) * | 2020-01-13 | 2020-06-12 | 平安国际智慧城市科技股份有限公司 | 用于终端的意图识别方法、装置、设备及存储介质 |
CN111753052A (zh) * | 2020-06-19 | 2020-10-09 | 微软技术许可有限责任公司 | 提供针对知识意图问题的知识性回答 |
Non-Patent Citations (2)
Title |
---|
SURAT TEERAPITTAYANON等: "BranchyNet: Fast Inference via Early Exiting from Deep Neural Networks", 《IEEE》, pages 2462 - 2469 * |
WANGCHUNSHU ZHOU等: "BERT Loses Patience:Fast and Robust Inference with Early Exit", pages 1 - 14, Retrieved from the Internet <URL:https://arxiv.abs/2006.04152v3> * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989844A (zh) * | 2021-03-10 | 2021-06-18 | 北京奇艺世纪科技有限公司 | 一种模型训练及文本识别方法、装置、设备及存储介质 |
CN115408509A (zh) * | 2022-11-01 | 2022-11-29 | 杭州一知智能科技有限公司 | 一种意图识别方法、系统、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vashisht et al. | Speech recognition using machine learning | |
CN112037773B (zh) | 一种n最优口语语义识别方法、装置及电子设备 | |
CN113205817B (zh) | 语音语义识别方法、系统、设备及介质 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
CN107315737A (zh) | 一种语义逻辑处理方法及系统 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
CN112101045B (zh) | 一种多模态语义完整性识别方法、装置及电子设备 | |
CN109992669B (zh) | 一种基于语言模型和强化学习的关键词问答方法 | |
CN110532558B (zh) | 一种基于句子结构深层解析的多意图识别方法及系统 | |
US20230395075A1 (en) | Human-machine dialogue system and method | |
CN113901191A (zh) | 问答模型的训练方法及装置 | |
US11450310B2 (en) | Spoken language understanding | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
WO2023226239A1 (zh) | 对象情绪的分析方法、装置和电子设备 | |
CN114330371A (zh) | 基于提示学习的会话意图识别方法、装置和电子设备 | |
CN113823272A (zh) | 语音处理方法、装置、电子设备以及存储介质 | |
CN114911932A (zh) | 基于主题语义增强的异构图结构多会话者情感分析方法 | |
CN112257432A (zh) | 一种自适应意图识别方法、装置及电子设备 | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
CN112307179A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN113393841A (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN111414466A (zh) | 一种基于深度模型融合的多轮对话建模方法 | |
CN115374784A (zh) | 一种多模态信息选择性融合的中文命名实体识别方法 | |
CN112270192B (zh) | 一种基于词性和停用词过滤的语义识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |