CN109767758A - 车载语音分析方法、系统、存储介质以及设备 - Google Patents
车载语音分析方法、系统、存储介质以及设备 Download PDFInfo
- Publication number
- CN109767758A CN109767758A CN201910027138.3A CN201910027138A CN109767758A CN 109767758 A CN109767758 A CN 109767758A CN 201910027138 A CN201910027138 A CN 201910027138A CN 109767758 A CN109767758 A CN 109767758A
- Authority
- CN
- China
- Prior art keywords
- text
- speech
- automobile
- similarity
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 50
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000002372 labelling Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 230000000306 recurrent effect Effects 0.000 claims description 13
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 21
- 230000003993 interaction Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 11
- 238000013459 approach Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000008733 Citrus aurantifolia Nutrition 0.000 description 1
- 241001178520 Stomatepia mongo Species 0.000 description 1
- 235000011941 Tilia x europaea Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004571 lime Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种车载语音分析方法、系统、存储介质以及设备,其中,方法包括:获取待识别的车载语音信号以及汽车的标识信息;根据待识别的车载语音信号,调用基于Kaldi训练的语音识别模型、基于CMUSphinx训练的语音识别模型以及多个语音识别服务商接口,获得多个待融合的语音文本;通过多源文本融合模型将多个待融合的语音文本进行融合,获得融合后的语音文本;根据汽车的标识信息以及语音文本,在汽车指令数据库中获得匹配的汽车操作指令。本发明提高了语音识别的准确性,提高了人机交互的效率和体验,使机器能更好地理解人类语言。
Description
技术领域
本发明涉及语音控制领域,特别是涉及一种车载语音分析方法、系统、存储介质以及设备。
背景技术
随着计算机技术的快速发展,利用计算机来实现语音识别已经日渐成熟。近年来,实现人机之间更加智能化的有效交互,构建更加高效流畅的人机交流环境已经成为当前信息技术领域不可或缺的热点话题。语音识别技术是当前实现人机交互最便捷的方式,它使得语音输入、语音搜索、智能家居控制等各种语音识别产品受到广大用户的青睐。
在汽车领域,相比于传统的按键、触屏操作,通过语音识别的方式来完成车辆操作和控制已经成为车载智能的标准配置,通过语音识别方式,可以减少驾驶员视线和双手的转移,有利于驾驶员集中精力驾驶,提高行车安全。
发明人在实现本发明的过程中,发现一般的车载智能语音操作控制,需要遵循车载系统的语音规律,语音识别准确率低,人机交互体验显得呆板,不灵活。
发明内容
基于此,本发明的目的在于,提供一种车载语音分析方法,其具有能更精确地进行语音识别,使人机交互的体验更高效的优点。
一种车载语音分析方法,包括如下步骤:
获取待识别的车载语音信号以及汽车的标识信息;
根据待识别的车载语音信号,调用基于Kaldi训练的语音识别模型、基于CMUSphinx训练的语音识别模型以及多个语音识别服务商接口,获得多个待融合的语音文本;
通过多源文本融合模型将多个所述待融合的语音文本进行融合,获得融合后的语音文本;
根据所述汽车的标识信息以及所述语音文本,在汽车指令数据库中获得匹配的汽车操作指令。
本发明通过调用多个语音识别服务商接口、基于Kaldi训练的语音识别模型、以及基于CMUSphinx训练的语音识别模型,获得多个待融合的语音文本,再将获得的多个待融合的语音文本进行融合,以融合后的语音文本来匹配控制汽车的操作指令,提高了语音识别的准确性,提高了人机交互的效率和体验,使机器能更好地理解人类语言。
在一个实施例中,所述根据所述汽车的标识信息以及所述语音文本,在汽车指令数据库中获得匹配的汽车操作指令的步骤,包括:
根据所述汽车的标识信息,从汽车指令数据库中查询获得对应汽车的指令文字集以及操作指令集;
将所述语音文本和所述指令文字集中的各指令文字分别进行语义角色标注;
计算语义角色标注后的语音文本与语义角色标注后的各指令文字的语义相似度、词形相似度和句长相似度;
将所述语义相似度、词形相似度和句长相似度按照预设的权重进行累加,获得最高的累加值对应的指令文字或者按累加值降序排列时在预设范围内的累加值对应的指令文字,并将所述指令文字对应的操作指令作为匹配的汽车操作指令。
通过结合语义相似度、词形相似度和句长相似度进行相似度匹配,提高了操作指令的匹配精确度。
在一个实施例中,所述语义相似度的计算方式为:
上述公式中,T1和T2分别表示语义角色标注后的语音文本与语义角色标注后的指令文字;Similarity(T1,T2)表示T1和T2之间的语义相似度;m,n分别表示T1中标注的语义角色的数量和T2中标注的语义角色的数量;(i,j)∈{(p,q)|rq,rq∈r(F1)∩r(F2),1≤p≤m,1≤q≤n};v1,v2分别表示T1中的动词和T2中的动词,Similarity(v1,v1)为动词v1和动词v2的词语相似度;ei和ej分别表示T1中的动词和T2中的论元,Similarity(ei,ej)为论元ei和论元ej间的相似度;α为谓词相似度在全句中所占的权重;
所述词形相似度的计算方式为:
上述公式中,WordSimilarity(T1,T2)表示T1和T2之间的词形相似度;Len(T1)和Len(T2)分别为T1和T2中词的数量,SameWord为T1和T2中相同词的个数;
所述句长相似度的计算方式为:
上述公式中,LenSimilarity(T1,T2)表示T1和T2之间的句长相似度;Len(T1)和Len(T2)分别为T1和T2两个句子中词的数量。
在一个实施例中,所述语义相似度、词形相似度和句长相似度按照预设的权重进行累加的计算方式为:
multiSimilarity(T1,T2)=γ1Similarity(T1,T2)+γ2WordSimilarity(T1,T2)+γ3LenSimilarity(T1,T2)
上述公式中,γi权重,i∈[1,2,3]且
在一个实施例中,所述汽车的标识信息包括车辆品牌型号和车辆编号;所述汽车指令数据库包括各汽车的品牌型号、各汽车的车辆编号、各汽车对应的指令文字集以及操作指令集。
在一个实施例中,所述调用基于Kaldi训练的语音识别模型、基于CMUSphinx训练的语音识别模型以及多个语音识别服务商接口,获得多个待融合的语音文本的步骤,还包括:
将在预设时间内返回的文本作为待融合的语音文本;或
将预设数量内的文本作为待融合的语音文本。
在一个实施例中,所述多源文本融合模型包括两个循环神经网络,其中一个循环神经网络将多个待融合的语音文本作为输入,并输出一词向量;另一个循环神经网络将所述词向量解码为融合后的语音文本。
本发明还提供一种车载语音分析系统,包括:
语音获取模块,用于获取待识别的车载语音信号以及汽车的标识信息;
语音识别模块,用于根据待识别的车载语音信号,调用基于Kaldi训练的语音识别模型、基于CMUSphinx训练的语音识别模型以及多个语音识别服务商接口,获得多个待融合的语音文本;
文本融合模块,用于通过多源文本融合模型将多个所述待融合的语音文本进行融合,获得融合后的语音文本;
匹配模块,用于根据所述汽车的标识信息以及所述语音文本,在汽车指令数据库中获得匹配的汽车操作指令。
本发明通过调用多个语音识别服务商接口、基于Kaldi训练的语音识别模型、以及基于CMUSphinx训练的语音识别模型,获得多个待融合的语音文本,再将获得的多个待融合的语音文本进行融合,以融合后的语音文本来匹配控制汽车的操作指令,提高了语音识别的准确性,提高了人机交互的效率和体验,使机器能更好地理解人类语言。
本发明还提供一种计算机可读存储介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上述任意一项所述的车载语音分析方法的步骤。
本发明还提供一种计算机设备,其特征在于,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的车载语音分析方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明车载语音分析方法的流程图;
图2为本发明车载语音分析方法的原理图;
图3为本发明匹配获得控制汽车的操作指令的流程图;
图4为本发明车载语音分析系统的结构框图;
图5本发明匹配模块的结构框图。
具体实施方式
请同时参阅图1和图2,本发明的车载语音分析方法,包括如下步骤:
步骤S1:获取待识别的车载语音信号以及汽车的标识信息。
其中,所述待识别的车载语音信号可为各种终端语音采集设备,包括但不限于平板电脑,手机,笔记本电脑、MP4等设备采集到的语音数据。所述汽车的标识信息可包括车辆品牌型号和车辆编号等信息。
步骤S2:根据待识别的车载语音信号,调用基于Kaldi训练的语音识别模型、基于CMUSphinx训练的语音识别模型以及多个语音识别服务商接口,获得多个待融合的语音文本。
在一个实施例中,对于待识别的车载语音信号,还可通过场景融合的噪声消除算法进行去噪处理,以便于语音信号的识别和分析。
其中,所述语音识别服务商接口包括但不限于科大讯飞语音听写API(Application Programming Interface,简称应用程序编程接口)、阿里云语音识别API或者是SDK(Software Development Kit,简称软件开发工具包)的形式,通过所述语音识别服务商接口,可将待识别的车载语音信号直接返回到待融合的语音文本。
由于语音识别服务商接口的语音识别框架通常是基于GMM-HMM的,而浅层的模型结构的建模能力有限,不能捕获到数据特征之间的高阶相关性,因此,本申请在本地服务器增加了基于Kaldi训练的语音识别模型、以及基于CMUSphinx训练的语音识别模型同时进行文本识别,其中,基于Kaldi训练的语音识别模型以及基于CMUSphinx训练的语音识别模型是采用车载领域的语音数据集训练出来的模型,其对于车载语音信号的识别具有更准确的识别能力,而且通过将基于Kaldi训练的语音识别模型、以及基于CMUSphinx训练的语音识别模型和多个语音识别服务商接口反馈的待融合的语音文本进行融合来获得语音文本,提高了车载语音识别的准确性。
步骤S3:通过多源文本融合模型将所述多个语音文本进行融合,获得融合后的语音文本。
步骤S4:根据所述语音文本以及汽车的标识信息,从汽车指令数据库中匹配获得控制汽车的操作指令。
本发明通过调用多个语音识别服务商接口、基于Kaldi训练的语音识别模型、以及基于CMUSphinx训练的语音识别模型,获得多个待融合的语音文本,再将获得的多个待融合的语音文本进行融合,以融合后的语音文本来匹配控制汽车的操作指令,提高了语音识别的准确性,提高了人机交互的效率和体验,使机器能更好地理解人类语言。
在一个实施例中,基于Kaldi训练的语音识别模型可为自定义配置CD-DNN-HMM神经网络结构训练的识别模型。实质上,语音识别的问题可以看成是使得概率p(w|o)最大的语句:
上式公式中,p(w)为语言模型(Language Model,LM)的概率,即词序列w在自然语言中发生的概率;p(o|w)是声学模型(Acoustic Mode,AM)的概率;o是语言信号提取出的声学特征向量序列,对于任一词序列而言,p(o)为一个定值;p(w|o)为对应词序列的概率。用维特比算法(Viterbi)解码的方式对其进行展开:
上式公式中,p(ot|qt)为似然概率,T为状态的时序标签;p(ot|qt)可通过贝叶斯定理计算如下:
上式公式中,p(qt|ot)是从DNN中估计的状态后验概率;p(ot)是独立于词序列的固定不变值;p(qt)是训练集中估计的各状态的先验概率,是训练过程中训练出来的,即把观测值(特征向量)状态上对齐,跟某个状态对齐的观测值的个数占比即为该状态的先验概率,因此,通过上述公式即可实现对CD-DNN-HMM中的神经网络结构的解码和训练,从而获得基于Kaldi训练的语音识别模型。
在一个实施例中,所述基于CMUSphinx训练的语音识别模型的获取步骤,包括:在服务器配置CMUSphinx工具包,包括语言模型训练工具和声学模型训练工具;结合语音语料库训练声学模型;在原有语音模型基础上结合车载领域文本,训练语言模型;指定训练好的声学模型、语言模型和字典文件,传入待识别语音信号,即可获得输出的待融合的语音文本。其中,所述字典文件时指包含要训练的全部词语以及与该词语相应的音素集,即字到语音单元的映射结合,例如:天窗t ian ch uang。
在一个实施例中,由于在调用多个语音识别服务商接口时,有些语音识别服务商在某些时间段会因网络阻塞,服务不能访问等因素导致返回文本信息失败,因此,为了提高识别的效率,设置获取待融合的语音文本的预设时间,将在预设时间内返回的文本作为待融合的语音文本,在预设时间之后返回的文本则放弃不使用。或者,设置获取待融合的语音文本的预设数量,根据文本的获得时间顺序,在预设数量内的文本作为待融合的语音文本,超出预设数量范围内的文本则放弃不使用。
在一个实施例中,所述多源文本融合模型包括两个循环神经网络(RecurrentNeural Network,RNN),其中一个循环神经网络用于将多个待融合的语音文本作为输入,并输出一词向量,此过程为编码过程,另一个循环神经网络用于将词向量解码为句子即为融合后的语音文本,此过程为解码过程。在编码过程中RNN的最终隐藏状态包含了所有输入序列的信息并输出一个词向量;在解码过程中的RNN会获取这个词向量,将其作为起始状态并输出一个融合后的句子。训练该神经网络模型使用包含源句子的文件和包含目标句子的文件,通过组合,将包含源句子的文件与目标句子的文件组成源句子-目标句子对。特别地,为提高训练模型训练的效果,可以增加全部训练数据的训练次数,且当模型在基于NIST评分值在达到理想阈值时,表明模型训练完成。通过调用多源文本融合模型将多个所述待融合的语音文本进行融合,获得融合后的语音文本。
请参阅图3,在一个实施例中,为提高操作指令的匹配精度,所述根据所述汽车的标识信息以及所述语音文本,在汽车指令数据库中获得匹配的汽车操作指令的步骤,包括:
步骤S41:根据所述汽车的标识信息,从汽车指令数据库中查询获得对应汽车的指令文字集以及操作指令集。
其中,所述汽车指令数据库可包括各汽车的品牌型号、各汽车的车辆编号、各汽车对应的指令文字集以及操作指令集。所述汽车指令数据库可为MySQL、Mongo或Redis数据库。根据所述汽车的标识信息如车辆品牌型号和车辆编号,可以获得该车辆的指令文字集以及对应的操作指令集。
步骤S42:将所述语音文本和所述指令文字集中的各指令文字分别进行语义角色标注。
其中,将所述语音文本和所述指令文字集中的各指令文字分别进行语义角色标注,进而可将标注句型之间的相似度转化为动词和角色标签相同的语义搭配之间的相似度。例如:语音文本内容为“帮我[施事者]打开[动词]天窗[受事者]”,而指令数据库的指令文字中的“打开[动词]音乐[受事者]”。前者(打开,天窗)与后者(打开,音乐)可以组成一个语义配对计算相似度。
步骤S43:计算语义角色标注后的语音文本与语义角色标注后的各指令文字的语义相似度、词形相似度和句长相似度。
在一个实施例中,所述语义相似度的计算方式为:
其中,T1和T2分别表示语义角色标注后的语音文本与语义角色标注后的指令文字;m,n分别表示T1中标注的语义角色的数量和T2中标注的语义角色的数量;(i,j)∈{(p,q)|rq,rq∈r(F1)∩r(F2),1≤p≤m,1≤q≤n};v1,v2分别表示T1中的动词和T2中的动词;Similarity(v1,v1)为动词v1和动词v2的词语相似度,其中词语相似度Similarity(v1,v1)的计算方法包括但不限于基于词向量方法或者HowNet的方法;具体的,基于词向量方法是借助word2vec在给定语料训练出模型的基础上,将词语表示成向量的形式,并计算词语之间的余弦相似度,即对于任意两个词语,用词向量表示v1=(x1,x2,…xn)和v2=(y1,y2,…yn),其中,n表示向量维度;则这两个词语之间的余弦相似度的计算方式为:
Similarity(ei,ej)为T1中的论元ei和T2中的论元ej之间的相似度,其中论元是指带有论旨角色的名词短语,例如“打电话给张三”,则“张三”就是论元;“今天我去外婆家”,则“我”和“外婆家”就是论元;α为谓词相似度在全句中所占的权重。α可根据实际情况调节其权重;在本实施例中,α可以取值为0.5。
当T1和T2中的论元数量均小于2个,即论元ei和论元ej中的词语数量均小于2个时,Similarity(ei,ej)的计算方法与Similarity(v1,v1)相同;而T1和T2中有一个论元数量等于或大于2个,即论元ei和论元ej中有一个的词语数量等于或大于2个时,则将论元ei和论元ej看作两个词集合,分别包含M和N个元素。设论元ei中第M个词和论元ej中第N个词之间的相似度为Smn,可以得到相似度矩阵:
则论元ei和论元ej的相似度的计算方式为:
上述公式中,
在一个实施例中,语音文本中的动词v也可能是单个,也可能是多个。当动词v是单个词时,即语音文本中指令只包含一个操作信息,按原式计算;当动词v是一个1*K维有序数组时,遍历数组动词v中每个元素,依次计算其与各指令文字的相似度。
在一个实施例中,所述词形相似度的计算方式为:
上述公式中,Len(T1)和Len(T2)分别为T1和T2中词的数量,SameWord为T1和T2中相同词的个数。
在一个实施例中,所述句长相似度的计算方式为:
上述公式中,Len(T1)和Len(T2)分别为T1和T2中词的数量。
步骤S44:将所述语义相似度、词形相似度和句长相似度按照预设的权重进行累加,获得最高的累加值对应的指令文字或者按累加值降序排列时在预设范围内的多个累加值对应的指令文字,并将所述指令文字对应的操作指令作为匹配的汽车操作指令。
在一个实施例中,所述语义相似度、词形相似度和句长相似度按照预设的权重进行累加的计算方式为:
multiSimilarity(T1,T2)=γ1Similarity(T1,T2)+γ2WordSimilarity(T1,T2)+γ3LenSimilarity(T1,T2)
上述公式中,γi权重,i∈[1,2,3]且
在一个实施例中,语音文本中的动词v为一个时,则获得最高的累加值对应的指令文字,并将所述指令文字对应的操作指令作为匹配的汽车操作指令。当语音文本中的动词v为多个时,则根据动词个数设置预设范围,获取按累加值降序排列时在预设范围内的多个累加值对应的指令文字,并将所述指令文字对应的操作指令作为匹配的汽车操作指令。例如设置与动词v个数一样的数量范围,如动词v个数为3,则预设范围也为3,再获取按累加值降序排列时在排名预设范围内即排列前3位的3个累加值对应的指令文字,并将这些指令文字对应的操作指令作为匹配的汽车操作指令。当最高累加值低于指定的阈值时,则返回语音指令不正确的信息。
请参阅图4,本发明还提供一种车载语音分析系统1,包括:
语音获取模块11,用于获取待识别的车载语音信号以及汽车的标识信息。
语音识别模块12,用于根据待识别的车载语音信号,调用基于Kaldi训练的语音识别模型、基于CMUSphinx训练的语音识别模型以及多个语音识别服务商接口,获得多个待融合的语音文本。
文本融合模块13,用于通过多源文本融合模型将多个所述待融合的语音文本进行融合,获得融合后的语音文本。
匹配模块14,用于根据所述汽车的标识信息以及所述语音文本,在汽车指令数据库中获得匹配的汽车操作指令。
本发明通过调用多个语音识别服务商接口、基于Kaldi训练的语音识别模型、以及基于CMUSphinx训练的语音识别模型,获得多个待融合的语音文本,再将获得的多个待融合的语音文本进行融合,以融合后的语音文本来匹配控制汽车的操作指令,提高了语音识别的准确性,提高了人机交互的效率和体验,使机器能更好地理解人类语言。
在一个实施例中,所述多源文本融合模型包括两个循环神经网络(RecurrentNeural Network,RNN),其中一个循环神经网络用于将多个待融合的语音文本作为输入,并输出一词向量,此过程为编码过程,另一个循环神经网络用于将词向量解码为句子即为融合后的语音文本,此过程为解码过程。在编码过程中RNN的最终隐藏状态包含了所有输入序列的信息并输出一个词向量;在解码过程中的RNN会获取这个词向量,将其作为起始状态并输出一个融合后的句子。训练该神经网络模型使用包含源句子的文件和包含目标句子的文件,通过组合,将包含源句子的文件与目标句子的文件组成源句子-目标句子对。特别地,为提高训练模型训练的效果,可以增加全部训练数据的训练次数,且当模型在基于NIST评分值在达到理想阈值时,表明模型训练完成。通过调用多源文本融合模型将多个所述待融合的语音文本进行融合,获得融合后的语音文本。
请参阅图5,在一个实施例中,所述匹配模块14,具体包括:
查询模块141,用于根据所述汽车的标识信息,从汽车指令数据库中查询获得对应汽车的指令文字集以及操作指令集。
语义角色标注模块142,用于将所述语音文本和所述指令文字集中的各指令文字分别进行语义角色标注。
计算模块143,用于计算语义角色标注后的语音文本与语义角色标注后的各指令文字的语义相似度、词形相似度和句长相似度。
指令获取模块144,用于将所述语义相似度、词形相似度和句长相似度按照预设的权重进行累加,获得最高的累加值对应的指令文字或者按累加值降序排列时在预设范围内的多个累加值对应的指令文字,并将所述指令文字对应的操作指令作为匹配的汽车操作指令。
在一个实施例中,所述语义相似度的计算方式为:
其中,T1和T2分别表示语义角色标注后的语音文本与语义角色标注后的指令文字;m,n分别表示T1中标注的语义角色的数量和T2中标注的语义角色的数量;(i,j)∈{(p,q)|rq,rq∈r(F1)∩r(F2),1≤p≤m,1≤q≤n};v1,v2分别表示T1中的动词和T2中的动词;Similarity(v1,v1)为动词v1和动词v2的词语相似度,其中词语相似度Similarity(v1,v1)的计算方法包括但不限于基于词向量方法或者HowNet的方法;具体的,基于词向量方法是借助word2vec在给定语料训练出模型的基础上,将词语表示成向量的形式,并计算词语之间的余弦相似度,即对于任意两个词语,用词向量表示v1=(x1,x2,…xn)和v2=(y1,y2,…yn),其中,n表示向量维度;则这两个词语之间的余弦相似度的计算方式为:
Similarity(ei,ej)为T1中的论元ei和T2中的论元ej之间的相似度,其中论元是指带有论旨角色的名词短语,例如“打电话给张三”,则“张三”就是论元;“今天我去外婆家”,则“我”和“外婆家”就是论元;α为谓词相似度在全句中所占的权重。α可根据实际情况调节其权重;在本实施例中,α可以取值为0.5。
当T1和T2中的论元数量均小于2个,即论元ei和论元ej中的词语数量均小于2个时,Similarity(ei,ej)的计算方法与Similarity(v1,v1)相同;而T1和T2中有一个论元数量等于或大于2个,即论元ei和论元ej中有一个的词语数量等于或大于2个时,则将论元ei和论元ej看作两个词集合,分别包含M和N个元素。设论元ei中第M个词和论元ej中第N个词之间的相似度为Smn,可以得到相似度矩阵:
则论元ei和论元ej的相似度的计算方式为:
上述公式中,
在一个实施例中,语音文本中的动词v也可能是单个,也可能是多个。当动词v是单个词时,即语音文本中指令只包含一个操作信息,按原式计算;当动词v是一个1*K维有序数组时,遍历数组动词v中每个元素,依次计算其与各指令文字的相似度。
在一个实施例中,所述词形相似度的计算方式为:
上述公式中,Len(T1)和Len(T2)分别为T1和T2中词的数量,SameWord为T1和T2中相同词的个数。
在一个实施例中,所述句长相似度的计算方式为:
上述公式中,Len(T1)和Len(T2)分别为T1和T2中词的数量。
在一个实施例中,所述语义相似度、词形相似度和句长相似度按照预设的权重进行累加的计算方式为:
multiSimilarity(T1,T2)=γ1Similarity(T1,T2)+γ2WordSimilarity(T1,T2)+γ3LenSimilarity(T1,T2)
上述公式中,γi权重,i∈[1,2,3]且
在一个实施例中,语音文本中的动词v为一个时,则获得最高的累加值对应的指令文字,并将所述指令文字对应的操作指令作为匹配的汽车操作指令。当语音文本中的动词v为多个时,则根据动词个数设置预设范围,获取按累加值降序排列时在预设范围内的多个累加值对应的指令文字,并将所述指令文字对应的操作指令作为匹配的汽车操作指令。例如设置与动词v个数一样的数量范围,如动词v个数为3,则预设范围也为3,再获取按累加值降序排列时在排名预设范围内即排列前3位的3个累加值对应的指令文字,并将这些指令文字对应的操作指令作为匹配的汽车操作指令。当最高累加值低于指定的阈值时,则返回语音指令不正确的信息。
本发明还提供一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的车载语音分析方法的步骤。
本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本发明还提供一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的车载语音分析方法的步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (10)
1.一种车载语音分析方法,其特征在于,包括如下步骤:
获取待识别的车载语音信号以及汽车的标识信息;
根据待识别的车载语音信号,调用基于Kaldi训练的语音识别模型、基于CMUSphinx训练的语音识别模型以及多个语音识别服务商接口,获得多个待融合的语音文本;
通过多源文本融合模型将多个所述待融合的语音文本进行融合,获得融合后的语音文本;
根据所述汽车的标识信息以及所述语音文本,在汽车指令数据库中获得匹配的汽车操作指令。
2.根据权利要求1所述的车载语音分析方法,其特征在于,所述根据所述汽车的标识信息以及所述语音文本,在汽车指令数据库中获得匹配的汽车操作指令的步骤,包括:
根据所述汽车的标识信息,从汽车指令数据库中查询获得对应汽车的指令文字集以及操作指令集;
将所述语音文本和所述指令文字集中的各指令文字分别进行语义角色标注;
计算语义角色标注后的语音文本与语义角色标注后的各指令文字的语义相似度、词形相似度和句长相似度;
将所述语义相似度、词形相似度和句长相似度按照预设的权重进行累加,获得最高的累加值对应的指令文字或者按累加值降序排列时在预设范围内的累加值对应的指令文字,并将所述指令文字对应的操作指令作为匹配的汽车操作指令。
3.根据权利要求2所述的车载语音分析方法,其特征在于,
所述语义相似度的计算方式为:
上述公式中,T1和T2分别表示语义角色标注后的语音文本与语义角色标注后的指令文字;Similarity(T1,T2)表示T1和T2之间的语义相似度;m,n分别表示T1中标注的语义角色的数量和T2中标注的语义角色的数量;(i,j)∈{(p,q)|rq,rq∈r(F1)∩r(F2),1≤p≤m,1≤q≤n};v1,v2分别表示T1中的动词和T2中的动词,Similarity(v1,v1)为动词v1和动词v2的词语相似度;ei和ej分别表示T1中的动词和T2中的论元,Similarity(ei,ej)为论元ei和论元ej间的相似度;α为谓词相似度在全句中所占的权重;
所述词形相似度的计算方式为:
上述公式中,WordSimilarity(T1,T2)表示T1和T2之间的词形相似度;Len(T1)和Len(T2)分别为T1和T2中词的数量,SameWord为T1和T2中相同词的个数;
所述句长相似度的计算方式为:
上述公式中,LenSimilarity(T1,T2)表示T1和T2之间的句长相似度;Len(T1)和Len(T2)分别为T1和T2中词的数量。
4.根据权利要求3所述的车载语音分析方法,其特征在于,
所述语义相似度、词形相似度和句长相似度按照预设的权重进行累加的计算方式为:
multiSimilarity(T1,T2)=γ1Similarity(T1,T2)+γ2WordSimilarity(T1,T2)+γ3LenSimilarity(T1,T2)
上述公式中,γi权重,i∈[1,2,3]且
5.根据权利要求2所述的车载语音分析方法,其特征在于,所述汽车的标识信息包括车辆品牌型号和车辆编号;所述汽车指令数据库包括各汽车的品牌型号、各汽车的车辆编号、各汽车对应的指令文字集以及操作指令集。
6.根据权利要求1所述的车载语音分析方法,其特征在于,所述调用基于Kaldi训练的语音识别模型、基于CMUSphinx训练的语音识别模型以及多个语音识别服务商接口,获得多个待融合的语音文本的步骤,还包括:
将在预设时间内返回的文本作为待融合的语音文本;或
将预设数量内的文本作为待融合的语音文本。
7.根据权利要求1-6中任一权利要求所述的车载语音分析方法,其特征在于,所述多源文本融合模型包括两个循环神经网络,其中一个循环神经网络将多个待融合的语音文本作为输入,并输出一词向量;另一个循环神经网络将所述词向量解码为融合后的语音文本。
8.一种车载语音分析系统,其特征在于,包括:
语音获取模块,用于获取待识别的车载语音信号以及汽车的标识信息;
语音识别模块,用于根据待识别的车载语音信号,调用基于Kaldi训练的语音识别模型、基于CMUSphinx训练的语音识别模型以及多个语音识别服务商接口,获得多个待融合的语音文本;
文本融合模块,用于通过多源文本融合模型将多个所述待融合的语音文本进行融合,获得融合后的语音文本;
匹配模块,用于根据所述汽车的标识信息以及所述语音文本,在汽车指令数据库中获得匹配的汽车操作指令。
9.一种计算机可读存储介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的车载语音分析方法的步骤。
10.一种计算机设备,其特征在于,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的车载语音分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910027138.3A CN109767758B (zh) | 2019-01-11 | 2019-01-11 | 车载语音分析方法、系统、存储介质以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910027138.3A CN109767758B (zh) | 2019-01-11 | 2019-01-11 | 车载语音分析方法、系统、存储介质以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109767758A true CN109767758A (zh) | 2019-05-17 |
CN109767758B CN109767758B (zh) | 2021-06-08 |
Family
ID=66453775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910027138.3A Active CN109767758B (zh) | 2019-01-11 | 2019-01-11 | 车载语音分析方法、系统、存储介质以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109767758B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460834A (zh) * | 2020-04-09 | 2020-07-28 | 北京北大软件工程股份有限公司 | 基于lstm网络的法条语义标注方法及装置 |
CN112668337A (zh) * | 2020-12-23 | 2021-04-16 | 广州橙行智动汽车科技有限公司 | 一种语音指令分类方法和装置 |
CN113450785A (zh) * | 2020-03-09 | 2021-09-28 | 上海擎感智能科技有限公司 | 车载语音处理的实现方法、系统、介质及云端服务器 |
CN113779201A (zh) * | 2021-09-16 | 2021-12-10 | 北京百度网讯科技有限公司 | 用于识别指令的方法、装置以及语音交互屏幕 |
CN117198292A (zh) * | 2023-11-08 | 2023-12-08 | 太平金融科技服务(上海)有限公司 | 一种语音融合处理方法、装置、设备及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1454381A (zh) * | 2000-09-08 | 2003-11-05 | 高通股份有限公司 | 在话音识别的说话者独立型和依赖型模式中组合dtw和hmm |
US20090138265A1 (en) * | 2007-11-26 | 2009-05-28 | Nuance Communications, Inc. | Joint Discriminative Training of Multiple Speech Recognizers |
CN101777042A (zh) * | 2010-01-21 | 2010-07-14 | 西南科技大学 | 基于神经网络和标签库的语句相似度算法 |
CN103474069A (zh) * | 2013-09-12 | 2013-12-25 | 中国科学院计算技术研究所 | 用于融合多个语音识别系统的识别结果的方法及系统 |
CN108182295A (zh) * | 2018-02-09 | 2018-06-19 | 重庆誉存大数据科技有限公司 | 一种企业知识图谱属性抽取方法及系统 |
CN108334627A (zh) * | 2018-02-12 | 2018-07-27 | 北京百度网讯科技有限公司 | 新媒体内容的搜索方法、装置和计算机设备 |
CN108415923A (zh) * | 2017-10-18 | 2018-08-17 | 北京邮电大学 | 封闭域的智能人机对话系统 |
CN108538292A (zh) * | 2018-04-26 | 2018-09-14 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及可读存储介质 |
CN108768676A (zh) * | 2018-04-28 | 2018-11-06 | 山东亚华电子股份有限公司 | 一种呼叫通信方法及系统 |
CN109003611A (zh) * | 2018-09-29 | 2018-12-14 | 百度在线网络技术(北京)有限公司 | 用于车辆语音控制的方法、装置、设备和介质 |
CN109119073A (zh) * | 2018-06-25 | 2019-01-01 | 福来宝电子(深圳)有限公司 | 基于多源识别的语音识别方法、系统、音箱及存储介质 |
-
2019
- 2019-01-11 CN CN201910027138.3A patent/CN109767758B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1454381A (zh) * | 2000-09-08 | 2003-11-05 | 高通股份有限公司 | 在话音识别的说话者独立型和依赖型模式中组合dtw和hmm |
US20090138265A1 (en) * | 2007-11-26 | 2009-05-28 | Nuance Communications, Inc. | Joint Discriminative Training of Multiple Speech Recognizers |
CN101777042A (zh) * | 2010-01-21 | 2010-07-14 | 西南科技大学 | 基于神经网络和标签库的语句相似度算法 |
CN103474069A (zh) * | 2013-09-12 | 2013-12-25 | 中国科学院计算技术研究所 | 用于融合多个语音识别系统的识别结果的方法及系统 |
CN108415923A (zh) * | 2017-10-18 | 2018-08-17 | 北京邮电大学 | 封闭域的智能人机对话系统 |
CN108182295A (zh) * | 2018-02-09 | 2018-06-19 | 重庆誉存大数据科技有限公司 | 一种企业知识图谱属性抽取方法及系统 |
CN108334627A (zh) * | 2018-02-12 | 2018-07-27 | 北京百度网讯科技有限公司 | 新媒体内容的搜索方法、装置和计算机设备 |
CN108538292A (zh) * | 2018-04-26 | 2018-09-14 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及可读存储介质 |
CN108768676A (zh) * | 2018-04-28 | 2018-11-06 | 山东亚华电子股份有限公司 | 一种呼叫通信方法及系统 |
CN109119073A (zh) * | 2018-06-25 | 2019-01-01 | 福来宝电子(深圳)有限公司 | 基于多源识别的语音识别方法、系统、音箱及存储介质 |
CN109003611A (zh) * | 2018-09-29 | 2018-12-14 | 百度在线网络技术(北京)有限公司 | 用于车辆语音控制的方法、装置、设备和介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113450785A (zh) * | 2020-03-09 | 2021-09-28 | 上海擎感智能科技有限公司 | 车载语音处理的实现方法、系统、介质及云端服务器 |
CN113450785B (zh) * | 2020-03-09 | 2023-12-19 | 上海擎感智能科技有限公司 | 车载语音处理的实现方法、系统、介质及云端服务器 |
CN111460834A (zh) * | 2020-04-09 | 2020-07-28 | 北京北大软件工程股份有限公司 | 基于lstm网络的法条语义标注方法及装置 |
CN111460834B (zh) * | 2020-04-09 | 2023-06-06 | 北京北大软件工程股份有限公司 | 基于lstm网络的法条语义标注方法及装置 |
CN112668337A (zh) * | 2020-12-23 | 2021-04-16 | 广州橙行智动汽车科技有限公司 | 一种语音指令分类方法和装置 |
CN113779201A (zh) * | 2021-09-16 | 2021-12-10 | 北京百度网讯科技有限公司 | 用于识别指令的方法、装置以及语音交互屏幕 |
CN113779201B (zh) * | 2021-09-16 | 2023-06-30 | 北京百度网讯科技有限公司 | 用于识别指令的方法、装置以及语音交互屏幕 |
CN117198292A (zh) * | 2023-11-08 | 2023-12-08 | 太平金融科技服务(上海)有限公司 | 一种语音融合处理方法、装置、设备及介质 |
CN117198292B (zh) * | 2023-11-08 | 2024-02-02 | 太平金融科技服务(上海)有限公司 | 一种语音融合处理方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109767758B (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jain et al. | Contextual RNN-T for open domain ASR | |
Le et al. | Deep shallow fusion for RNN-T personalization | |
Zhang et al. | Spontaneous speech emotion recognition using multiscale deep convolutional LSTM | |
CN109767758A (zh) | 车载语音分析方法、系统、存储介质以及设备 | |
CN110516253B (zh) | 中文口语语义理解方法及系统 | |
WO2020051192A1 (en) | Dialogue systems | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
Xu et al. | Exploiting shared information for multi-intent natural language sentence classification. | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN108711421A (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
CN111368541B (zh) | 命名实体识别方法及装置 | |
CN108008832A (zh) | 一种输入方法和装置、一种用于输入的装置 | |
KR20220054704A (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
CN114596844B (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
CN110070859B (zh) | 一种语音识别方法及装置 | |
US11604925B1 (en) | Architecture for gazetteer-augmented named entity recognition | |
CN111046653B (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
US11289075B1 (en) | Routing of natural language inputs to speech processing applications | |
Sun et al. | Tree-constrained pointer generator for end-to-end contextual speech recognition | |
US20210233520A1 (en) | Contextual multi-channel speech to text | |
CN112825114A (zh) | 语义识别方法、装置、电子设备及存储介质 | |
Zhu et al. | Catslu: The 1st chinese audio-textual spoken language understanding challenge | |
Zhang et al. | Using bidirectional transformer-crf for spoken language understanding | |
Sun et al. | Tree-constrained pointer generator with graph neural network encodings for contextual speech recognition | |
Benayas et al. | Unified transformer multi-task learning for intent classification with entity recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |