CN113704433A - 人机对话语音意图识别方法、装置、设备及存储介质 - Google Patents
人机对话语音意图识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113704433A CN113704433A CN202111016591.8A CN202111016591A CN113704433A CN 113704433 A CN113704433 A CN 113704433A CN 202111016591 A CN202111016591 A CN 202111016591A CN 113704433 A CN113704433 A CN 113704433A
- Authority
- CN
- China
- Prior art keywords
- phrase
- category
- generalized
- participle
- phrases
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000008485 antagonism Effects 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000003042 antagnostic effect Effects 0.000 claims abstract 2
- 239000013598 vector Substances 0.000 claims description 66
- 230000011218 segmentation Effects 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 230000003993 interaction Effects 0.000 claims description 15
- 230000009849 deactivation Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000007621 cluster analysis Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract 2
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及AI技术领域,并公开了一种一种人机对话语音意图识别方法、装置、设备及存储介质,通过得到待识别人机对话语音信息包含的短语;对各短语分别进行切分,得到各类别的短语分词后,利用预设的泛化词表,对各类别的短语分词进行泛化,得到各类别的短语泛化分词;确定各短语泛化分词在各自所属类别中的重要性权重,利用各短语泛化分词及其在各自所属类别中的重要性权重,对语音识别模型进行对抗性训练,得到对抗语音识别网络;根据对抗语音识别网络,识别人机对话语音信息包含的各短语所属的语义类别。提高语音意图识别中由于短语泛化性较差导致的识别不准确问题。
Description
技术领域
本申请涉及AI技术领域,尤其涉及一种人机对话语音意图识别方法、装置、设备及存储介质。
背景技术
目前,利用大数据模型对人机对话中的语音意图识别中,意图识别模型的准确性取决于意图模型所采用的样本以及在训练过程中对所采用样本的学习程度。由于在机器学习过程中往往无法对专业样本(客服的话语)进行适应性的理解,当实际话语的意图与机器理解的样本意图不同时,导致意图识别模型的识别准确性不高。因此,在用于人机对话意图识别的模型中,如何提高意图识别模型的准确是亟待解决的技术问题。
发明内容
本申请提供了一种人机对话语音意图识别方法、装置、设备及存储介质,通过人机对话中的各短语泛化分词及其在所属类别中的重要性权重,提高语音意图识别中由于短语泛化性较差导致的识别不准确问题。
第一方面,本申请提供了一种人机对话语音意图识别方法,所述方法包括:
获取待识别的人机对话语音信息,将所述人机对话语音信息输入预设的语音识别模型进行识别,得到所述人机对话语音信息包含的短语;
对各所述短语分别进行切分,得到各类别的短语分词;
利用预设的泛化词表,对所述各类别的短语分词进行泛化,得到各类别的短语泛化分词;
确定各所述短语泛化分词在各自所属类别中的重要性权重,利用各所述短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型进行对抗性训练,得到对抗语音识别网络;
根据所述对抗语音识别网络,识别所述人机对话语音信息包含的各短语所属的语义类别得到所述人机对话语音信息的意图。
第二方面,本申请还提供了一种人机对话语音意图识别装置,包括:
第一识别模块,用于获取待识别的人机对话语音信息,将所述人机对话语音信息输入预设的语音识别模型进行识别,得到所述人机对话语音信息包含的短语;
切分模块,用于对各所述短语分别进行切分,得到各类别的短语分词;
泛化模块,用于利用预设的泛化词表,对所述各类别的短语分词进行泛化,得到各类别的短语泛化分词;
训练模块,用于确定各所述短语泛化分词在各自所属类别中的重要性权重,利用各短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型进行对抗性训练,得到对抗语音识别网络;
第二识别模块,用于根据所述对抗语音识别网络,识别所述人机对话语音信息包含的各短语所属的语义类别得到所述人机对话语音信息的意图。
第三方面,本申请还提供了一种人机对话语音意图识别设备,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上第一方面所述的人机对话语音意图识别方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上第一方面所述的人机对话语音意图识别方法的步骤。
本申请公开了一种人机对话语音意图识别方法、装置、设备及存储介质,首先通过将待识别的人机对话语音输入预设的语音识别模型进行识别,得到所述人机对话语音信息包含的短语;然后对各短语分别进行切分,得到各类别的短语分词后,利用预设的泛化词表,对各类别的短语分词进行泛化,得到各类别的短语泛化分词;再次确定各所述短语泛化分词在各自所属类别中的重要性权重,利用各短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型进行对抗性训练,得到对抗语音识别网络;最后根据所述对抗语音识别网络,识别所述人机对话语音信息包含的各短语所属的语义类别。实现了根据人机对话中的各短语泛化分词及其在所属类别中的重要性权重,提高语音意图识别中由于短语泛化性较差导致的识别不准确问题。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的人机对话语音意图识别方法的实现流程图;
图2是图1中S102的具体实现流程图;
图3是图1中S104的具体实现流程图;
图4是本申请实施例提供的人机对话语音意图识别装置的结构示意图;
图5是本申请实施例提供的人机对话语音意图识别设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种人机对话语音意图识别方法、装置、设备及存储介质。本申请实施例提供的人机对话语音意图识别方法,首先通过将待识别的人机对话语音输入预设的语音识别模型进行识别,得到所述人机对话语音信息包含的短语;然后对各短语分别进行切分,得到各类别的短语分词后,利用预设的泛化词表,对各类别的短语分词进行泛化,得到各类别的短语泛化分词;再次确定各所述短语泛化分词在各自所属类别中的重要性权重,利用各短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型进行对抗性训练,得到对抗语音识别网络;最后根据所述对抗语音识别网络,识别所述人机对话语音信息包含的各短语所属的语义类别。实现了根据人机对话中的各短语泛化分词及其在所属类别中的重要性权重,提高语音意图识别中由于短语泛化性较差导致的识别不准确问题。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请一实施例提供的人机对话语音意图识别方法的示意流程图。该人机对话语音意图识别方法可以由服务器或者终端实现,所述服务器可以是单个服务器或者服务器集群。所述终端可以是手持终端、笔记本电脑、可穿戴设备或者机器人等。
如图1所示,图1是本申请一实施例提供的人机对话语音意图识别方法的实现流程图。具体包括:步骤S101至步骤S105。详述如下:
S101,获取待识别的人机对话语音信息,将所述人机对话语音信息输入预设的语音识别模型进行识别,得到所述人机对话语音信息包含的短语。
在本申请的实施例中,预设的语音识别模型可以是现有常见的语音识别模型,例如,GMM-HMM语音识别模型或者CSDN语音识别模型等;示例性地,以GMM-HMM语音识别模型为例,对得到所述人机对话语音信息包含的短语的过程进行示例性地说明。首先,将GMM-HMM语音识别模型将获取的人机对话语音信息切分成等长的语音信息,对每个语音信息提取音频特征;通过GMM对每个音频特征进行分析,得到每个音频特征属于每个意图状态的第一概率;根据每个音频特征对应的预设单词的HMM状态转移概率计算生成对应音频特征的意图状态的第二概率,确定使第二概率最大的HMM状态转移概率对应的单词,与该单词关联的短语为所述人机对话语音信息包含的短语。
可以理解地,本实施例仅是以GMM-HMM语音识别模型为例,对得到人机对话语音信息包含的短语的过程进行了示例性的说明,选择不同的语音识别模型,对应的识别原理不同,在此不做具体限定。
S102,对各短语分别进行切分,得到各类别的短语分词。
示例性地,如图2所示,图2是图1中S102的具体实现流程图;由图2可知,在本实施例中,S102包括S1020至S1023。详述如下:
S1020,对所述各短语进行聚类分析,得到各所述短语的类别。
示例性地,所述对各短语进行聚类分析,得到各短语各自对应的类别,包括:提取各短语包含的第一关键词,将所述第一关键词向量化,得到各短语各自对应的第一向量;获取预先设定的第二关键词,将所述第二关键词向量化,得到第二向量;分别计算所述第一向量和各所述第二向量之间的距离;根据各所述第一向量和各所述第二向量之间的距离,确定各所述第一向量的聚类类型;根据各所述第一向量的聚类类型,确定各短语各自对应的类别。
具体地,所述根据各所述第一向量的聚类类型,确定各所述短语的类别,包括:将各所述第一向量所属的聚类类型进行聚合,得到聚类集合;计算所述聚类集合中各第一向量中的第一关键词在第i个聚类类型中的词频,以及所述聚类集合中各第一向量中的第一关键词在除所述第i个聚类类型之外的其它聚类类型中的逆向词频率;根据所述词频和所述逆向词频,得到所述聚类集合中各第一向量中的第一关键词对应的词频与逆向词频值;根据所述词频与逆向词频值,确定所述第一向量中各所述短语的类别。
其中,所述第一向量和所述第二向量具有相同的数据结构,如HASHSET数据结构的向量。
此外,可以利用下列公式(1)计算第一向量包含的第一关键词和第二向量包含的第二关键词之间的距离。具体地,公式(1)可以表示为:
其中,计算所述第一向量包含的第一关键词和各所述第二向量包含的第二关键词之间的距离,若有所述第一向量包含的各第一关键词与所述第二向量包含的各第二关键词之间的距离均小于或等于预设距离值,则确定该所述第一向量的聚类类型为所述第二向量的第二关键词对应的类别。
具体地,根据TF×IDF得到所述聚类类型中各第一向量中关键词的词频与逆向词频值TF-IDF,其中,TF表示所述聚类类型中各第一向量中的关键词在所述聚类类型中的出现频率,IDF表示所述聚类类型中各第一向量中的关键词在所述聚类类型之外的其它聚类类型中的出现频率,可以表示为:
其中,nik为第i个聚类类型中包含第一关键词k的文本数量,Si为第i个聚类类型中的第一向量的总数,n~ik为在第i个聚类类型之外的其它聚类类型中包含关键词k的第一向量数量,S~i为在第i个聚类类型之外的其它聚类类型中的第一向量的总数;i和k为大于等于1的整数。所述IDF值反映了第一关键词在不同聚类类型中的重要性,能够更加准确地确定各短语的类别。
S1021,对各不同类别的短语进行分词和去停用词语处理,分别统计每个短语在各自对应的类别中出现的次数,得到对应类别的高频词汇。
其中,对各不同类别的短语进行分词和去停用词语处理,分别统计每个短语在各自对应的类别中出现的次数,得到对应类别的高频词汇的过程,包括:对各不同类别的短语进行分词处理,得到动词、名词、介词和连词;将各类别的短语包含的介词和连词作为停用词语删掉,得到各类别的短语包含的名词短语和动词短语,分别统计各类别的短语包含的名词短语和动词短语出现的次数,得到对应类别的高频词汇。
S1022,利用各类别的高频词汇,分别确定各类别的分词边界。
S1023,根据各类别的所述分词边界对各类别的短语分别进行分词处理,得到各类别的所述短语分词。
具体地,分别以各类别的高频词汇所在的位置为各类别的分词边界,对各类别的短语进行分词处理,从各类别的短语中划分出各类别的高频词汇,以划分出的高频词汇作为各类别的短语分词。
S103,利用预设的泛化词表,对各类别的短语分词进行泛化,得到各类别的短语泛化分词。
其中,预设的泛化词表包括预设类别的短语分词和预设类别的短语分词各自对应的泛化模式之间的映射关系,利用所述映射关系,可以确定各类别的短语分词各自对应的泛化模式,根据各类别的短语分词各自对应的泛化模型,可以得到各类别的短语泛化分词。示例性地,利用预设的泛化词表,对各类别的短语分词进行泛化,得到各类别的短语泛化分词,可以包括:利用预设的泛化词表,确定各类别的短语分词各自对应的泛化模式;根据各类别的短语分词各自对应的泛化模式,得到各类别的短语泛化分词。
其中,所述短语泛化分词包括泛化模式和对应泛化模式下的短语分词,具体地,所述短语泛化分词以所述短语分词对应的泛化模式为前缀,以所述短语分词为后缀,例如短语分词天津对应的短语泛化分词可以表示为:【地名】天津。
例如,如表1所示,表示预设的泛化词表。根据表1所述的泛化词表,可以确定短语分词包括:景都小区、圆明园、海边、深圳湾公园、天津、广州......,对应的泛化模式为【地名】,对应的短语泛化分词可以表示为【地名】景都小区、圆明园、海边、深圳湾公园、天津、广州......等。
S104,确定各所述短语泛化分词在各自所属类别中的重要性权重,利用各短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型进行对抗性训练,得到对抗语音识别网络。
其中,所述确定各所述短语泛化分词在各自所属类别中的重要性权重,包括:根据预设的类别权重公式,计算各短语泛化分词在各自所属类别中的重要性权重。
示例性地,如图3所示,图3是图1中S104的具体实现流程图。由图3可知,在本实施例中,S104包括S1040至S1043。详述如下:
S1040,根据预设的类别权重公式,计算各短语泛化分词在各自所属类别中的重要性权重。
具体地,预设的类别权重公式可以表示为:
w=tf*idf
其中,所述w是所述T在所述K的重要性权重,所述tf与所述T在所述K中出现的次数成正比且与所述K中所有样本泛化分词出现的次数成反比,所述idf与所有类别中包含所述T的类别数量成反比。
S1041,利用各短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型的隐藏层基于各短语泛化分词在各自所属类别中的重要性权重值进行扰动,以使所述语音识别模型对各短语泛化分词进行分析。
S1042,监测所述语音识别模型对应的损失函数值,若所述语音识别模型对应的损失函数值增大,则不断增强各短语泛化分词的泛化性。
S1043,基于增强泛化性之后的各短语泛化分词对所述语音识别模型进行再训练,使得所述语音识别模型对应的损失函数值减小,直至小于或等于预设的损失函数阈值,得到训练完成的所述对抗语音识别网络。
在本实施例中,根据预设的语音识别模型的预测结果,得到的人机对话语音信息包含的短语,并根据各短语的短语泛化分词在各自所属类别中的重要性权重,对预设的语音识别模型进行重新训练,具体根据各短语泛化分词在各自所属类别中的重要性权重对预设的语音识别模型的隐藏层embedding进行扰动,在扰动过程中,重要性权重较大的短语会使预设的语音识别模型的损失函数值loss值增大,之后再最小化预设的语音识别模型的损失函数值loss,来更新预设的语音识别模型的参数(例如,采用梯度下降法进行更新),以此达到对各短语分词的泛化增强,提高语音意图识别中由于短语泛化性较差导致的识别不准确问题。
此外,需要说明的是,本申请的实施例对预设的语音识别模型的隐藏层和损失函数不做具体限定。
S105,根据所述对抗语音识别网络,识别所述人机对话语音信息包含的各短语所属的语义类别。
通过上述分析可知,本实施例提供的人机对话语音意图识别方法,首先通过将待识别的人机对话语音输入预设的语音识别模型进行识别,得到所述人机对话语音信息包含的短语;然后对各短语分别进行切分,得到各类别的短语分词后,利用预设的泛化词表,对各类别的短语分词进行泛化,得到各类别的短语泛化分词;再次确定各所述短语泛化分词在各自所属类别中的重要性权重,利用各短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型进行对抗性训练,得到对抗语音识别网络;最后根据所述对抗语音识别网络,识别所述人机对话语音信息包含的各短语所属的语义类别。实现了根据人机对话中的各短语泛化分词及其在所属类别中的重要性权重,提高语音意图识别中由于短语泛化性较差导致的识别不准确问题。
请参阅图4所示,图4是本申请实施例提供的人机对话语音识别装置的结构示意图。该人机对话语音识别装置400用于执行图1实施例所示的人机对话语音识别方法的步骤。该人机对话语音识别装置400可以是单个服务器或服务器集群,或者该人机对话语音识别装置400可以是终端,该终端可以是手持终端、笔记本电脑、可穿戴设备或者机器人等。
如图4所示,人机对话语音识别装置400包括:
第一识别模块401,用于获取待识别的人机对话语音信息,将所述人机对话语音信息输入预设的语音识别模型进行识别,得到所述人机对话语音信息包含的短语;
切分模块402,用于对各所述短语分别进行切分,得到各类别的短语分词;
泛化模块403,用于利用预设的泛化词表,对所述各类别的短语分词进行泛化,得到所述各类别的短语泛化分词;
训练模块404,用于确定各所述短语泛化分词在各自所属类别中的重要性权重,利用各短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型进行对抗性训练,得到对抗语音识别网络;
第二识别模块405,用于根据所述对抗语音识别网络,识别所述人机对话语音信息包含的各短语所属的语义类别得到所述人机对话语音信息的意图。
在一实施例中,切分模块402,包括:
分析单元,用于对各所述短语进行聚类分析,得到各所述短语的类别;
处理单元,用于对各不同类别的短语进行分词和去停用词语处理,分别统计每个短语在各自对应的类别中出现的次数,得到各类别的高频词汇;
第一确定单元,用于利用各类别的高频词汇,分别确定各类别的分词边界;
第一得到单元,用于根据各类别的所述分词边界对各类别的短语分别进行分词处理,得到各类别的所述短语分词。
在一实施例中,所述分析单元,具体用于:
提取各所述短语包含的第一关键词,将所述第一关键词向量化,得到各所述短语的第一向量;
获取预先设定的第二关键词,将所述第二关键词向量化,得到第二向量;
计算所述第一向量包含的第一关键词和各所述第二向量包含的第二关键词之间的距离,若有所述第一向量包含的各第一关键词与所述第二向量包含的各第二关键词之间的距离均小于或等于预设距离值,则确定该所述第一向量的聚类类型为所述第二向量的第二关键词对应的类别;
根据各所述第一向量所属聚类类型的聚类集合,计算所述聚类集合中各所述第一向量中的关键词的词频与逆向词频值,根据所述第一向量中关键词的词频与逆向词频值确定各所述短语的类别。
在一实施例中,所述处理单元,具体用于:
对各不同类别的短语进行分词处理,得到动词、名词、介词和连词;
将各类别的短语包含的介词和连词作为停用词语删掉,得到各类别的短语包含的名词短语和动词短语,分别统计各类别的短语包含的名词短语和动词短语出现的次数,得到对应类别的高频词汇。
在一实施例中,泛化模块403,包括:
第二确定单元,用于利用预设的泛化词表,确定所述各类别的短语分词的泛化模式;
第二得到单元,用于以所述各类别的短语分词对应的泛化模式为前缀,以所述各类别的短语分词为后缀,分别得到所述各类别的短语泛化分词。
在一实施例中,训练模块404,包括:
计算单元,用于根据预设的类别权重公式,计算各短语泛化分词在各自所属类别中的重要性权重;
扰动单元,用于利用各短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型的隐藏层基于各短语泛化分词在各自所属类别中的重要性权重值进行扰动,以使所述语音识别模型对各短语泛化分词进行分析;
监测单元,用于监测所述语音识别模型对应的损失函数值,若所述语音识别模型对应的损失函数值增大,则不断增强各短语泛化分词的泛化性;
训练单元,用于基于增强泛化性之后的各短语泛化分词对所述语音识别模型进行再训练,使得所述语音识别模型对应的损失函数值减小,直至小于或等于预设的损失函数阈值,得到训练完成的所述对抗语音识别网络。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的人机对话语音意图识别装置和各模块的具体工作过程,可以参考图1实施例所述的人机对话语音意图识别方法实施例中的对应过程,在此不再赘述。
上述的人机对话语音意图识别方法可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的装置上运行。
请参阅图5,图5是本申请实施例提供的人机对话语音意图识别设备的结构示意性框图。该人机对话语音意图识别设备500包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种人机对话语音意图识别方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种人机对话语音意图识别方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的人机对话语音意图识别设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待识别的人机对话语音信息,将所述人机对话语音信息输入预设的语音识别模型进行识别,得到所述人机对话语音信息包含的短语;
对各所述短语分别进行切分,得到各类别的短语分词;
利用预设的泛化词表,对所述各类别的短语分词进行泛化,得到所述各类别的短语泛化分词;
确定各所述短语泛化分词在各自所属类别中的重要性权重,利用各所述短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型进行对抗性训练,得到对抗语音识别网络;
根据所述对抗语音识别网络,识别所述人机对话语音信息包含的各短语所属的语义类别得到所述人机对话语音信息的意图。
在一实施例中,所述对各短语分别进行切分,得到各类别的短语分词,包括:
对各所述短语进行聚类分析,得到各所述短语的类别;
对各不同类别的短语进行分词和去停用词语处理,分别统计每个短语在各自对应的类别中出现的次数,得到各类别的高频词汇;
利用所述各类别的高频词汇,分别确定各类别的分词边界;
根据各类别的所述分词边界对各类别的短语分别进行分词处理,得到各类别的所述短语分词。
在一实施例中,所述对各所述短语进行聚类分析,得到各所述短语各自对应的类别,包括:
提取各所述短语包含的第一关键词,将所述第一关键词向量化,得到各所述短语的第一向量;
获取预先设定的第二关键词,将所述第二关键词向量化,得到第二向量;
计算所述第一向量包含的第一关键词和各所述第二向量包含的第二关键词之间的距离,若有所述第一向量包含的各第一关键词与所述第二向量包含的各第二关键词之间的距离均小于或等于预设距离值,则确定该所述第一向量的聚类类型为所述第二向量的第二关键词对应的类别;
根据各所述第一向量所属聚类类型的聚类集合,计算所述聚类集合中各所述第一向量中的关键词的词频与逆向词频值,根据所述第一向量中关键词的词频与逆向词频值确定各所述短语的类别。
在一实施例中,所述对各不同类别的短语进行分词和去停用词语处理,分别统计每个短语在各自对应的类别中出现的次数,得到对应类别的高频词汇,包括:
对各不同类别的短语进行分词处理,得到动词、名词、介词和连词;
将各类别的短语包含的介词和连词作为停用词语删掉,得到各类别的短语包含的名词短语和动词短语,分别统计各类别的短语包含的名词短语和动词短语出现的次数,得到对应类别的高频词汇。
在一实施例中,所述利用预设的泛化词表,对所述各类别的短语分词进行泛化,得到所述各类别的短语泛化分词,包括:
利用预设的泛化词表,确定所述各类别的短语分词的泛化模式;
以所述各类别的短语分词对应的泛化模式为前缀,以所述各类别的短语分词为后缀,分别得到所述各类别的短语泛化分词。
在一实施例中,所述确定各所述短语泛化分词在各自所属类别中的重要性权重,包括:
根据预设的类别权重公式,计算各短语泛化分词在各自所属类别中的重要性权重。
在一实施例中,所述利用各短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型进行对抗性训练,得到对抗语音识别网络,包括:
利用各短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型的隐藏层基于各短语泛化分词在各自所属类别中的重要性权重值进行扰动,以使所述语音识别模型对各短语泛化分词进行分析;
监测所述语音识别模型对应的损失函数值,若所述语音识别模型对应的损失函数值增大,则不断增强各短语泛化分词的泛化性;
基于增强泛化性之后的各短语泛化分词对所述语音识别模型进行再训练,使得所述语音识别模型对应的损失函数值减小,直至小于或等于预设的损失函数阈值,得到训练完成的所述对抗语音识别网络。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请图1实施例提供的人机对话语音意图识别方法的步骤。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种人机对话语音意图识别方法,其特征在于,所述方法包括:
获取待识别的人机对话语音信息,将所述人机对话语音信息输入预设的语音识别模型进行识别,得到所述人机对话语音信息包含的短语;
对各所述短语分别进行切分,得到各类别的短语分词;
利用预设的泛化词表,对所述各类别的短语分词进行泛化,得到所述各类别的短语泛化分词;
确定各所述短语泛化分词在各自所属类别中的重要性权重,利用各所述短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型进行对抗性训练,得到对抗语音识别网络;
根据所述对抗语音识别网络,识别所述人机对话语音信息包含的各短语所属的语义类别得到所述人机对话语音信息的意图。
2.根据权利要求1所述的人机对话语音意图识别方法,其特征在于,所述对各短语分别进行切分,得到各类别的短语分词,包括:
对各所述短语进行聚类分析,得到各所述短语的类别;
对各不同类别的短语进行分词和去停用词语处理,分别统计每个短语在各自对应的类别中出现的次数,得到各类别的高频词汇;
利用所述各类别的高频词汇,分别确定各类别的分词边界;
根据各类别的所述分词边界对各类别的短语分别进行分词处理,得到各类别的所述短语分词。
3.根据权利要求2所述的人机对话语音意图识别方法,其特征在于,所述对各所述短语进行聚类分析,得到各所述短语各自对应的类别,包括:
提取各所述短语包含的第一关键词,将所述第一关键词向量化,得到各所述短语的第一向量;
获取预先设定的第二关键词,将所述第二关键词向量化,得到第二向量;
计算所述第一向量包含的第一关键词和各所述第二向量包含的第二关键词之间的距离,若有所述第一向量包含的各第一关键词与所述第二向量包含的各第二关键词之间的距离均小于或等于预设距离值,则确定该所述第一向量的聚类类型为所述第二向量的第二关键词对应的类别;
根据各所述第一向量所属聚类类型的聚类集合,计算所述聚类集合中各所述第一向量中的关键词的词频与逆向词频值,根据所述第一向量中关键词的词频与逆向词频值确定各所述短语的类别。
4.根据权利要求2或3所述的人机对话语音意图识别方法,其特征在于,所述对各不同类别的短语进行分词和去停用词语处理,分别统计每个短语在各自对应的类别中出现的次数,得到对应类别的高频词汇,包括:
对各不同类别的短语进行分词处理,得到动词、名词、介词和连词;
将各类别的短语包含的介词和连词作为停用词语删掉,得到各类别的短语包含的名词短语和动词短语,分别统计各类别的短语包含的名词短语和动词短语出现的次数,得到对应类别的高频词汇。
5.根据权利要求1所述的人机对话语音意图识别方法,其特征在于,所述利用预设的泛化词表,对所述各类别的短语分词进行泛化,得到所述各类别的短语泛化分词,包括:
利用预设的泛化词表,确定所述各类别的短语分词的泛化模式;
以所述各类别的短语分词对应的泛化模式为前缀,以所述各类别的短语分词为后缀,分别得到所述各类别的短语泛化分词。
6.根据权利要求5所述的人机对话语音意图识别方法,其特征在于,所述确定各所述短语泛化分词在各自所属类别中的重要性权重,包括:
根据预设的类别权重公式,计算各短语泛化分词在各自所属类别中的重要性权重。
7.根据权利要求6所述的人机对话语音意图识别方法,其特征在于,所述利用各短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型进行对抗性训练,得到对抗语音识别网络,包括:
利用各短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型的隐藏层基于各短语泛化分词在各自所属类别中的重要性权重值进行扰动,以使所述语音识别模型对各短语泛化分词进行分析;
监测所述语音识别模型对应的损失函数值,若所述语音识别模型对应的损失函数值增大,则不断增强各短语泛化分词的泛化性;
基于增强泛化性之后的各短语泛化分词对所述语音识别模型进行再训练,使得所述语音识别模型对应的损失函数值减小,直至小于或等于预设的损失函数阈值,得到训练完成的所述对抗语音识别网络。
8.一种人机对话语音意图识别装置,其特征在于,包括:
第一识别模块,用于获取待识别的人机对话语音信息,将所述人机对话语音信息输入预设的语音识别模型进行识别,得到所述人机对话语音信息包含的短语;
切分模块,用于对各所述短语分别进行切分,得到各类别的短语分词;
泛化模块,用于利用预设的泛化词表,对各所述类别的短语分词进行泛化,得到所述各类别的短语泛化分词;
训练模块,用于确定各所述短语泛化分词在各自所属类别中的重要性权重,利用各所述短语泛化分词及其在各自所属类别中的重要性权重,对所述语音识别模型进行对抗性训练,得到对抗语音识别网络;
第二识别模块,用于根据所述对抗语音识别网络,识别所述人机对话语音信息包含的各短语所属的语义类别得到所述人机对话语音信息的意图。
9.一种人机对话语音意图识别设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的人机对话语音意图识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的人机对话语音意图识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111016591.8A CN113704433A (zh) | 2021-08-31 | 2021-08-31 | 人机对话语音意图识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111016591.8A CN113704433A (zh) | 2021-08-31 | 2021-08-31 | 人机对话语音意图识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113704433A true CN113704433A (zh) | 2021-11-26 |
Family
ID=78658356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111016591.8A Pending CN113704433A (zh) | 2021-08-31 | 2021-08-31 | 人机对话语音意图识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704433A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416940A (zh) * | 2021-12-28 | 2022-04-29 | 北京百度网讯科技有限公司 | 表格问答中的短语泛化方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823809A (zh) * | 2012-11-16 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
US20200242302A1 (en) * | 2019-01-29 | 2020-07-30 | Ricoh Company, Ltd. | Intention identification method, intention identification apparatus, and computer-readable recording medium |
CN111625634A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 词槽识别方法及装置、计算机可读存储介质、电子设备 |
CN112989035A (zh) * | 2020-12-22 | 2021-06-18 | 平安普惠企业管理有限公司 | 基于文本分类识别用户意图的方法、装置及存储介质 |
-
2021
- 2021-08-31 CN CN202111016591.8A patent/CN113704433A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823809A (zh) * | 2012-11-16 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
US20200242302A1 (en) * | 2019-01-29 | 2020-07-30 | Ricoh Company, Ltd. | Intention identification method, intention identification apparatus, and computer-readable recording medium |
CN111625634A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 词槽识别方法及装置、计算机可读存储介质、电子设备 |
CN112989035A (zh) * | 2020-12-22 | 2021-06-18 | 平安普惠企业管理有限公司 | 基于文本分类识别用户意图的方法、装置及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416940A (zh) * | 2021-12-28 | 2022-04-29 | 北京百度网讯科技有限公司 | 表格问答中的短语泛化方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN109493850A (zh) | 成长型对话装置 | |
CN112256822A (zh) | 文本搜索方法、装置、计算机设备和存储介质 | |
WO2022257453A1 (zh) | 释义分析模型训练方法、装置、终端设备及存储介质 | |
CN111667817A (zh) | 一种语音识别方法、装置、计算机系统及可读存储介质 | |
CN112732882A (zh) | 用户意图识别方法、装置、设备及计算机可读存储介质 | |
CN113254643A (zh) | 文本分类方法、装置、电子设备和 | |
CN111460806A (zh) | 基于损失函数的意图识别方法、装置、设备及存储介质 | |
CN112765357A (zh) | 文本分类方法、装置和电子设备 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN112307048A (zh) | 语义匹配模型训练方法、匹配方法、装置、设备及存储介质 | |
CN113704433A (zh) | 人机对话语音意图识别方法、装置、设备及存储介质 | |
WO2022022049A1 (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN113299277A (zh) | 一种语音语义识别方法及系统 | |
CN112445914A (zh) | 文本分类方法、装置、计算机设备和介质 | |
CN117216275A (zh) | 一种文本处理方法、装置、设备以及存储介质 | |
CN115357720B (zh) | 基于bert的多任务新闻分类方法及装置 | |
EP4024393A2 (en) | Training a speech recognition model | |
CN113095073B (zh) | 语料标签生成方法、装置、计算机设备和存储介质 | |
CN113724738B (zh) | 语音处理方法、决策树模型训练方法、装置、设备及存储介质 | |
CN111506764B (zh) | 音频数据筛选方法、计算机设备和存储介质 | |
CN113590774A (zh) | 事件查询方法、装置以及存储介质 | |
CN112784046A (zh) | 文本聚簇的方法、装置、设备及存储介质 | |
CN111898377A (zh) | 一种情感识别方法、装置、计算机设备及存储介质 | |
CN112182235A (zh) | 一种构建知识图谱的方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |