CN112908315A - 一种基于声音特征和语音识别的问答意图判断方法 - Google Patents
一种基于声音特征和语音识别的问答意图判断方法 Download PDFInfo
- Publication number
- CN112908315A CN112908315A CN202110262520.XA CN202110262520A CN112908315A CN 112908315 A CN112908315 A CN 112908315A CN 202110262520 A CN202110262520 A CN 202110262520A CN 112908315 A CN112908315 A CN 112908315A
- Authority
- CN
- China
- Prior art keywords
- voice
- question
- reply
- characteristic parameters
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000008451 emotion Effects 0.000 claims abstract description 37
- 230000004044 response Effects 0.000 claims abstract description 37
- 238000003062 neural network model Methods 0.000 claims abstract description 26
- 230000002996 emotional effect Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 16
- 239000013598 vector Substances 0.000 description 10
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例提供了一种基于声音特征和语音识别的问答意图判断方法,该方法包括提取答复语音中的语音特征参数;将语音特征参数作为预先训练的神经网络模型的输入进行运算,得到与答复语音对应的情绪特征参数;提取出答复语音中的关键词的词频,得到与答复语音对应的词频特征参数;将神经网络模型的输出作为预先训练的BERT模型的输入进行运算,得到与答复语音对应的语义特征参数;基于情绪特征参数、词频特征参数和语义特征参数确定出问题答复者的答复意图。本申请公开的基于声音特征和语音识别的问答意图判断方法可准确确定出答复者的答复意图。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于声音特征和语音识别的问答意图判断方法。
背景技术
随着人工智能的飞速发展,基于语音的意图识别也越来越被广泛应用于各种场景中。
目前,对于语音的意图识别常采用的方案是通过自然语言处理(NaturalLanguage Processing,NLP)对语音进行识别,自然语言处理的过程主要是将语音转换成机器可理解的、结构化的、完整的语义表示,然后根据确定的结构化数据、文本、音视频等生成人类可以理解的自然语言形式的文本。
然而,由于自然语言所表达的语义本身存在一定的不确定性,同一语句在不同态度下所表达的含义也不尽相同,因此往往不能准确地对语音进行意图识别。
发明内容
本申请实施例提供一种基于声音特征和语音识别的问答意图判断方法,用以解决现有技术存在的不能准确地对语音进行意图识别的问题。
本申请实施例采用下述技术方案:
本申请实施例提供了一种基于声音特征和语音识别的问答意图判断方法,包括:
提取出问题答复者所对应的答复语音中的语音特征参数;
将所述语音特征参数作为预先训练的神经网络模型的输入进行运算,得到与所述答复语音对应的情绪特征参数;
提取出所述答复语音中的关键词的词频,得到与所述答复语音对应的词频特征参数;
将所述神经网络模型的输出作为预先训练的BERT模型的输入进行运算,得到与所述答复语音对应的语义特征参数;
基于所述情绪特征参数、所述词频特征参数和所述语义特征参数确定出所述问题答复者的答复意图,所述答复意图表征所述问题答复者在答复问题时处于积极或消极状态。
可选的,所述答复语音为多个,所述方法还包括:
将所述问题答复者与提问者对话的对话语音分割成多个语音短句;
通过语音识别技术将所述多个语音短句转换为文本,得到与所述多个语音短句一一对应的多个目标文本;
从所述多个目标文本提取出与所述问题答复者对应的多个答复文本;
将与所述多个答复文本对应的多个语音短句作为所述问题答复者所对应的多个答复语音。
可选的,所述提取出问题答复者所对应答复语音中的语音特征参数,包括:
从所述问题答复者所对应的多个答复语音中提取出与所述多个答复语音一一对应的多个语音特征参数;
所述将所述语音特征参数作为预先训练的神经网络模型的输入进行运算,得到与所述答复语音对应的情绪特征参数,包括:
将所述多个语音特征参数分别作为预先训练的神经网络模型的输入进行运算,得到与所述多个答复语音一一对应的多个情绪特征参数;
所述提取出所述答复语音中的关键词的词频,得到与所述答复语音对应的词频特征参数,包括:
提取出所述多个答复语音中的关键词的词频,得到与所述多个答复语音一一对应的多个词频特征参数;
所述将所述神经网络模型的输出作为预先训练的BERT模型的输入进行运算,得到与所述答复语音对应的语义特征参数,包括:
将所述多个情绪特征参数分别作为预先训练的BERT模型的输入进行运算,得到与所述多个答复语音一一对应的多个语义特征参数;
所述基于所述情绪特征参数、所述词频特征参数和所述语义特征参数确定出所述问题答复者的答复意图,包括:
基于所述多个情绪特征参数、所述多个词频特征参数和所述多个语义特征参数,确定出所述问题答复者的答复意图。
可选的,所述基于所述多个情绪特征参数、所述多个词频特征参数和所述多个语义特征参数,确定出所述问题答复者的答复意图,包括:
将对应同一答复语音的情绪特征参数、词频特征参数和语义特征参数进行融合,得到与所述多个答复语音一一对应的多个目标特征参数;
通过支持向量机算法或极端梯度提升算法对所述多个目标特征参数进行分类,得到所述答复意图。
可选的,所述将所述问题答复者与提问者对话的对话语音分割成多个语音短句,包括:
基于贝叶斯信息准则或通过逐帧计算语音能量将所述对话语音分割成多个语音短句。
可选的,所述从所述多个目标文本提取出与所述问题答复者对应的多个答复文本,包括:
通过隐马尔可夫模型或文本分类算法TextCNN将所述多个目标文本进行分类,得到与所述问题答复者对应的多个答复文本。
可选的,所述语音特征参数包括共振峰频率、基音周期、低水平特征、过零率和音频能量中的至少一种。
本申请一个或多个实施例采用的上述技术方案能够达到以下有益效果:
由于在意图识别过程中确定出答复语音所对应的情绪特征参数、词频特征参数和语义特征参数,并根据情绪特征参数、词频特征参数和语义特征参数确定问题答复者的答复意图。在此过程中,除词频特征参数外还考虑情绪特征和语义特征等各个维度的参数,从而能够准确确定出答复者的答复意图,确保意图识别的准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一个实施例提供的基于声音特征和语音识别的问答意图判断方法的流程示意图。
图2为本申请一个实施例提供的提取答复语音的流程示意图。
图3为本申请一个实施例提供的确定问题答复者的答复意图的流程示意图。
图4为本申请一个实施例提供的电子设备的结构示意图。
图5为本申请一个实施例提供的基于声音特征和语音识别的问答意图判断装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了准确地对语音进行意图识别,本申请实施例提供了一种基于声音特征和语音识别的问答意图判断方法,该基于声音特征和语音识别的问答意图判断方法能够准准确确定出答复者的答复意图。
下面将对本申请实施例提供的基于声音特征和语音识别的问答意图判断方法进行详细说明。
本申请实施例提供的基于声音特征和语音识别的问答意图判断方法可应用于用户终端或服务器,所述用户终端可以是,但不限于个人电脑、智能手机、平板电脑、人数字助理、智能机器人等,所述服务器可以是网络服务器或数据库服务器。
可选的,该基于声音特征和语音识别的问答意图判断方法的流程如图1所示,可以包括如下步骤:
步骤S101,提取出问题答复者所对应的答复语音中的语音特征参数。
其中,语音特征参数可以包括共振峰频率、基音周期、低水平特征(low leveldescriptors,LLDs)、过零率和音频能量中的至少一种。本申请实施例中,语音特征参数包括共振峰频率、基音周期、低水平特征、过零率和音频能量。
在提取语音特征参数时,可直接通过开源的音频处理库直接提取出答复语音中共振峰频率、基音周期、低水平特征、过零率和音频能量,本申请实施例中不做具体说明。
所述答复语音为可以是一个或多个,一个答复语音可以是指一个完整的语音短句。
为确保对答复意图的准确识别,本申请实施例中,答复语音为多个。因此在提取语音特征参数时,可从问题答复者所对应的多个答复语音中提取出与多个答复语音一一对应的多个语音特征参数,每个语音特征参数中均包括共振峰频率、基音周期、低水平特征、过零率和音频能量。
所述答复语音可以是从提问者与问题答复者对话的对话语音中提取出的,具体的,提取答复语音的过程如图2所示,可以包括如下步骤:
步骤S201,将问题答复者与提问者对话的对话语音分割成多个语音短句。
本申请实施例中,在进行意图识别之前,可先由提问者向问题答复者提问,问题答复者对提出的问题进行答复,记录整个过程的语音,从而得到提问者与问题答复者对话的对话语音。然后,可将问题答复者与提问者对话的对话语音分割成多个语音短句。
其中,将对话语音分割成多个语音短句可以采用,但不限于贝叶斯信息准则(Bayesian Information Criterion,BIC)或通过逐帧计算语音能量实现,本申请实施例中不做具体限定。
步骤S202,通过语音识别技术将多个语音短句转换为文本,得到与多个语音短句一一对应的多个目标文本。
步骤S203,从多个目标文本提取出与所述问题答复者对应的多个答复文本。
具体的,可先对多个答复文本进行分类,识别出与提问者对应的多个提问文本和问题答复者对应的多个答复文本,然后过滤掉提问者对应的多个提问文本。
本申请实施例中,可以通过,但不限于隐马尔可夫模型(Hidden Markov Model,HMM)或文本分类算法TextCNN将所述多个目标文本进行分类,得到与问题答复者对应的多个答复文本,该多个答复文本即为问题答复者的答复语音所对应的文本。
步骤S204,将与多个答复文本对应的多个语音短句作为问题答复者所对应的多个答复语音。
例如,多个答复文本包括答复文本A、B和C,其中答复文本A是有语音短句a转换成的文本,答复文本B是有语音短句b转换成的文本,答复文本C是有语音短句c转换成的文本。则可将语音短句a、b和c作为问题答复者所对应的多个答复语音。
步骤S102,将语音特征参数作为预先训练的神经网络模型的输入进行运算,得到与答复语音对应的情绪特征参数。
本申请实施例中,预先训练有用于情绪特征识别的神经网络(Neural Network,NN)模型,该神经网络包括多个全连接层,在训练时可以将量化后的语音特征参数作为神经网络模型的输入,情绪特征参数作为神经网络模型的输出进行训练。情绪特征参数可以是问题答复者的情绪特征量化后得到的多维向量。其中,情绪特征可以是表征问题答复者情绪如高兴、悲伤、愤怒等的特征,本申请实施例中不做具体限定。
本申请实施例中,由于提取的语音特征参数为多个,因此在进行运算时,可以将多个语音特征参数分别作为预先训练的神经网络模型的输入进行运算,得到与多个答复语音一一对应的多个情绪特征参数。
需要说明的是,在将语音特征参数作为神经网络模型的输入时,需先将语音特征参数进行量化,得到一多维向量,然后将量化后得到的多维向量作为神经网络模型的输入进行运算。
步骤S103,提取出答复语音中的关键词的词频,得到与所述答复语音对应的词频特征参数。
其中,答复语音中的关键词可预先定义,如明确表示问题答复者态度的词语,例如可以是“好的”、“不行”、“可以”、“没问题”等。
提取关键词的词频时,可针对每个答复语音,提取出多个答复语音中的每个答复语音的关键词的词频,得到与多个答复语音一一对应的多个词频特征参数,该词频特征参数用于表征答复语音中的关键词出现的频率。
需要说明的是,步骤S102与步骤S103的顺序并不限定。
步骤S104,将神经网络模型的输出作为预先训练的BERT模型的输入进行运算,得到与答复语音对应的语义特征参数。
本申请实施中,还预先训练有用于确定答复语音的语义特征参数的BERT(Bidirectional Encoder Representation from Transformers)模型,在将多个语音特征参数分别作为预先训练的神经网络模型的输入进行运算,得到与多个答复语音一一对应的多个情绪特征参数后,可将该多个情绪特征参数分别作为预先训练的BERT模型的输入进行运算,得到与多个答复语音一一对应的多个语义特征参数,该语义特征参数为一向量,用于抽象表示语义,不同向量值可用于表示不同的语义。
步骤S105,基于情绪特征参数、词频特征参数和语义特征参数确定出问题答复者的答复意图。
本申请实施例中,可基于所述多个情绪特征参数、所述多个词频特征参数和所述多个语义特征参数,确定出所述问题答复者的答复意图。
其中,答复意图可以是用于表征问题答复者在答复问题时处于积极或消极状态。
具体的,确定问题答复者的答复意图的流程如图3所示,可以包括如下步骤:
步骤S301,将对应同一答复语音的情绪特征参数、词频特征参数和语义特征参数进行融合,得到与多个答复语音一一对应的多个目标特征参数。
在确定问题答复者的答复意图时,可以先将对应同一答复语音的情绪特征参数、词频特征参数和语义特征参数进行融合,得到与多个答复语音一一对应的多个目标特征参数。
融合过程中,可将情绪特征参数、(量化后的)词频特征参数以及语义特征参数组合,得到的向量即为对应的目标特征参数。
例如,针对同一答复语音,情绪特征参数所对应的向量为(1,0),词频特征参数所对应的向量为(0,3,3),语义特征参数所对应的向量为(2,1,2),则组合后得到的目标特征参数可表示为多维向量(1,0,0,3,3,2,1,2)。
步骤S302,通过支持向量机算法对多个目标特征参数进行分类,得到所述答复意图。
具体的,可通过支持向量机(Support Vector Machine,SVM)算法,对每个目标特征参数进行分类,得到与每个答复语音对应的答复意图(如积极状态或消极状态),然后综合考虑多个答复语音对应的答复意图,确定出问题答复者的答复意图。
例如,与多个答复语音一一对应的多个答复意图中,如果表征积极状态的答复意图的数量高于表征消极状态的答复意图的数量,则得到的是表征问题答复者在答复问题时处于积极状态的答复意图。
本申请实施例中,对目标特征参数进行分类采用支持向量机算法,可以理解的,在其他的一些实施例中也可以采用其他的方式对目标特征参数进行分类,例如还可以采用极端梯度提升(eXtreme Gradient Boosting,XGBoost)算法。
综上所述,本申请实施例提供的基于声音特征和语音识别的问答意图判断方法,通过在意图识别过程中确定出答复语音所对应的情绪特征参数、词频特征参数和语义特征参数,并根据情绪特征参数、词频特征参数和语义特征参数确定问题答复者的答复意图,在此过程中,除词频特征参数外还考虑情绪特征和语义特征等各个维度的参数,从而能够准确确定出答复者的答复意图,确保意图识别的准确性。同时,在识别过程中,尽可收集有用的音频的特征,剔除掉提问者的语音,从而消除掉无用的噪声,进一步保障识别的准确性。
图4是本申请的一个实施例电子设备的结构示意图。请参考图4,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成基于声音特征和语音识别的问答意图判断装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
提取出问题答复者所对应的答复语音中的语音特征参数;
将所述语音特征参数作为预先训练的神经网络模型的输入进行运算,得到与所述答复语音对应的情绪特征参数;
提取出所述答复语音中的关键词的词频,得到与所述答复语音对应的词频特征参数;
将所述神经网络模型的输出作为预先训练的BERT模型的输入进行运算,得到与所述答复语音对应的语义特征参数;
基于所述情绪特征参数、所述词频特征参数和所述语义特征参数确定出所述问题答复者的答复意图,所述答复意图表征所述问题答复者在答复问题时处于积极或消极状态。
上述如本申请图4所示实施例揭示的基于声音特征和语音识别的问答意图判断装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1-3的方法,并实现基于声音特征和语音识别的问答意图判断装置在图1-3所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1-3所示实施例的方法,并具体用于执行以下操作:
提取出问题答复者所对应的答复语音中的语音特征参数;
将所述语音特征参数作为预先训练的神经网络模型的输入进行运算,得到与所述答复语音对应的情绪特征参数;
提取出所述答复语音中的关键词的词频,得到与所述答复语音对应的词频特征参数;
将所述神经网络模型的输出作为预先训练的BERT模型的输入进行运算,得到与所述答复语音对应的语义特征参数;
基于所述情绪特征参数、所述词频特征参数和所述语义特征参数确定出所述问题答复者的答复意图,所述答复意图表征所述问题答复者在答复问题时处于积极或消极状态。
图5是本申请的一个实施例基于声音特征和语音识别的问答意图判断装置的结构示意图。请参考图5,在一种软件实施方式中,基于声音特征和语音识别的问答意图判断装置可包括:
第一提取模块,用于提取出问题答复者所对应的答复语音中的语音特征参数;
第一运算模块,用于将所述语音特征参数作为预先训练的神经网络模型的输入进行运算,得到与所述答复语音对应的情绪特征参数;
第二提取模块,用于提取出所述答复语音中的关键词的词频,得到与所述答复语音对应的词频特征参数;
第二运算模块,用于将所述神经网络模型的输出作为预先训练的BERT模型的输入进行运算,得到与所述答复语音对应的语义特征参数;
确定模块,用于基于所述情绪特征参数、所述词频特征参数和所述语义特征参数确定出所述问题答复者的答复意图,所述答复意图表征所述问题答复者在答复问题时处于积极或消极状态。
采用上述装置,可在意图识别过程中确定出答复语音所对应的情绪特征参数、词频特征参数和语义特征参数,并根据情绪特征参数、词频特征参数和语义特征参数确定问题答复者的答复意图,在此过程中,除词频特征参数外还考虑情绪特征和语义特征等各个维度的参数,从而能够准确确定出答复者的答复意图,确保意图识别的准确性。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (7)
1.一种基于声音特征和语音识别的问答意图判断方法,其特征在于,包括:
提取出问题答复者所对应的答复语音中的语音特征参数;
将所述语音特征参数作为预先训练的神经网络模型的输入进行运算,得到与所述答复语音对应的情绪特征参数;
提取出所述答复语音中的关键词的词频,得到与所述答复语音对应的词频特征参数;
将所述神经网络模型的输出作为预先训练的BERT模型的输入进行运算,得到与所述答复语音对应的语义特征参数;
基于所述情绪特征参数、所述词频特征参数和所述语义特征参数确定出所述问题答复者的答复意图,所述答复意图表征所述问题答复者在答复问题时处于积极或消极状态。
2.根据权利要求1所述的方法,其特征在于,所述答复语音为多个,所述方法还包括:
将所述问题答复者与提问者对话的对话语音分割成多个语音短句;
通过语音识别技术将所述多个语音短句转换为文本,得到与所述多个语音短句一一对应的多个目标文本;
从所述多个目标文本提取出与所述问题答复者对应的多个答复文本;
将与所述多个答复文本对应的多个语音短句作为所述问题答复者所对应的多个答复语音。
3.根据权利要求2所述的方法,其特征在于,所述提取出问题答复者所对应答复语音中的语音特征参数,包括:
从所述问题答复者所对应的多个答复语音中提取出与所述多个答复语音一一对应的多个语音特征参数;
所述将所述语音特征参数作为预先训练的神经网络模型的输入进行运算,得到与所述答复语音对应的情绪特征参数,包括:
将所述多个语音特征参数分别作为预先训练的神经网络模型的输入进行运算,得到与所述多个答复语音一一对应的多个情绪特征参数;
所述提取出所述答复语音中的关键词的词频,得到与所述答复语音对应的词频特征参数,包括:
提取出所述多个答复语音中的关键词的词频,得到与所述多个答复语音一一对应的多个词频特征参数;
所述将所述神经网络模型的输出作为预先训练的BERT模型的输入进行运算,得到与所述答复语音对应的语义特征参数,包括:
将所述多个情绪特征参数分别作为预先训练的BERT模型的输入进行运算,得到与所述多个答复语音一一对应的多个语义特征参数;
所述基于所述情绪特征参数、所述词频特征参数和所述语义特征参数确定出所述问题答复者的答复意图,包括:
基于所述多个情绪特征参数、所述多个词频特征参数和所述多个语义特征参数,确定出所述问题答复者的答复意图。
4.根据权利要求3所述的方法,其特征在于,所述基于所述多个情绪特征参数、所述多个词频特征参数和所述多个语义特征参数,确定出所述问题答复者的答复意图,包括:
将对应同一答复语音的情绪特征参数、词频特征参数和语义特征参数进行融合,得到与所述多个答复语音一一对应的多个目标特征参数;
通过支持向量机算法或极端梯度提升算法对所述多个目标特征参数进行分类,得到所述答复意图。
5.根据权利要求2所述的方法,其特征在于,所述将所述问题答复者与提问者对话的对话语音分割成多个语音短句,包括:
基于贝叶斯信息准则或通过逐帧计算语音能量将所述对话语音分割成多个语音短句。
6.根据权利要求2所述的方法,其特征在于,所述从所述多个目标文本提取出与所述问题答复者对应的多个答复文本,包括:
通过隐马尔可夫模型或文本分类算法TextCNN将所述多个目标文本进行分类,得到与所述问题答复者对应的多个答复文本。
7.根据权利要求1所述的方法,其特征在于,所述语音特征参数包括共振峰频率、基音周期、低水平特征、过零率和音频能量中的至少一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110262520.XA CN112908315B (zh) | 2021-03-10 | 2021-03-10 | 一种基于声音特征和语音识别的问答意图判断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110262520.XA CN112908315B (zh) | 2021-03-10 | 2021-03-10 | 一种基于声音特征和语音识别的问答意图判断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112908315A true CN112908315A (zh) | 2021-06-04 |
CN112908315B CN112908315B (zh) | 2023-04-21 |
Family
ID=76104792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110262520.XA Active CN112908315B (zh) | 2021-03-10 | 2021-03-10 | 一种基于声音特征和语音识别的问答意图判断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908315B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255328A (zh) * | 2021-06-28 | 2021-08-13 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
CN113724705A (zh) * | 2021-08-31 | 2021-11-30 | 平安普惠企业管理有限公司 | 语音应答方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213002A1 (en) * | 2014-01-24 | 2015-07-30 | International Business Machines Corporation | Personal emotion state monitoring from social media |
CN108564942A (zh) * | 2018-04-04 | 2018-09-21 | 南京师范大学 | 一种基于敏感度可调的语音情感识别方法及系统 |
CN110188361A (zh) * | 2019-06-10 | 2019-08-30 | 北京智合大方科技有限公司 | 结合文本、语音与情绪特征的语音意图识别方法及装置 |
CN110569508A (zh) * | 2019-09-10 | 2019-12-13 | 重庆邮电大学 | 融合词性和自注意力机制的情感倾向性分类方法及系统 |
CN110807388A (zh) * | 2019-10-25 | 2020-02-18 | 深圳追一科技有限公司 | 交互方法、装置、终端设备及存储介质 |
CN111627462A (zh) * | 2020-05-22 | 2020-09-04 | 云知声(上海)智能科技有限公司 | 一种基于语义分析的情绪识别方法和设备 |
CN112163419A (zh) * | 2020-09-23 | 2021-01-01 | 南方电网数字电网研究院有限公司 | 文本的情绪识别方法、装置、计算机设备和存储介质 |
CN112163067A (zh) * | 2020-09-24 | 2021-01-01 | 平安直通咨询有限公司上海分公司 | 一种语句答复方法、语句答复装置及电子设备 |
-
2021
- 2021-03-10 CN CN202110262520.XA patent/CN112908315B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213002A1 (en) * | 2014-01-24 | 2015-07-30 | International Business Machines Corporation | Personal emotion state monitoring from social media |
CN108564942A (zh) * | 2018-04-04 | 2018-09-21 | 南京师范大学 | 一种基于敏感度可调的语音情感识别方法及系统 |
CN110188361A (zh) * | 2019-06-10 | 2019-08-30 | 北京智合大方科技有限公司 | 结合文本、语音与情绪特征的语音意图识别方法及装置 |
CN110569508A (zh) * | 2019-09-10 | 2019-12-13 | 重庆邮电大学 | 融合词性和自注意力机制的情感倾向性分类方法及系统 |
CN110807388A (zh) * | 2019-10-25 | 2020-02-18 | 深圳追一科技有限公司 | 交互方法、装置、终端设备及存储介质 |
CN111627462A (zh) * | 2020-05-22 | 2020-09-04 | 云知声(上海)智能科技有限公司 | 一种基于语义分析的情绪识别方法和设备 |
CN112163419A (zh) * | 2020-09-23 | 2021-01-01 | 南方电网数字电网研究院有限公司 | 文本的情绪识别方法、装置、计算机设备和存储介质 |
CN112163067A (zh) * | 2020-09-24 | 2021-01-01 | 平安直通咨询有限公司上海分公司 | 一种语句答复方法、语句答复装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
温雯等: "基于多类别语义词簇的新闻读者情绪分类", 《计算机应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255328A (zh) * | 2021-06-28 | 2021-08-13 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
CN113255328B (zh) * | 2021-06-28 | 2024-02-02 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
CN113724705A (zh) * | 2021-08-31 | 2021-11-30 | 平安普惠企业管理有限公司 | 语音应答方法、装置、设备及存储介质 |
CN113724705B (zh) * | 2021-08-31 | 2023-07-25 | 平安普惠企业管理有限公司 | 语音应答方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112908315B (zh) | 2023-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543190B (zh) | 一种意图识别方法、装置、设备及存储介质 | |
CN111312231B (zh) | 音频检测方法、装置、电子设备及可读存储介质 | |
CN106875936B (zh) | 语音识别方法及装置 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
CN112735374B (zh) | 一种自动语音交互的方法及装置 | |
CN110097870A (zh) | 语音处理方法、装置、设备和存储介质 | |
CN112562640B (zh) | 多语言语音识别方法、装置、系统及计算机可读存储介质 | |
CN112908315B (zh) | 一种基于声音特征和语音识别的问答意图判断方法 | |
JP7178394B2 (ja) | 音声信号を処理するための方法、装置、機器、および媒体 | |
CN116384411B (zh) | 基于外呼机器人的用户意图识别模型的训练方法和装置 | |
CN114596845A (zh) | 语音识别模型的训练方法、语音识别方法及装置 | |
CN112597301A (zh) | 一种语音意图识别方法及装置 | |
CN114627868A (zh) | 意图识别方法、装置、模型及电子设备 | |
CN117496984A (zh) | 目标对象的交互方法、装置、设备及可读存储介质 | |
CN111522937A (zh) | 话术推荐方法、装置和电子设备 | |
CN111739537A (zh) | 语义识别方法、装置、存储介质及处理器 | |
CN117496945A (zh) | 语音合成模型的训练方法、语音处理方法及装置 | |
CN115456114A (zh) | 一种模型训练和业务执行的方法、装置、介质及设备 | |
CN112687296B (zh) | 音频不流利的识别方法、装置、设备及可读存储介质 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN111414468B (zh) | 话术选择方法、装置和电子设备 | |
CN113111855A (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
CN116959421B (zh) | 处理音频数据的方法及装置、音频数据处理设备和介质 | |
CN116307833A (zh) | 服务质量检测方法、质量检测模型的训练方法及相关设备 | |
CN114691840A (zh) | 意图识别方法、装置、智能对话平台及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |