CN110164416B - 一种语音识别方法及其装置、设备和存储介质 - Google Patents

一种语音识别方法及其装置、设备和存储介质 Download PDF

Info

Publication number
CN110164416B
CN110164416B CN201811498047.XA CN201811498047A CN110164416B CN 110164416 B CN110164416 B CN 110164416B CN 201811498047 A CN201811498047 A CN 201811498047A CN 110164416 B CN110164416 B CN 110164416B
Authority
CN
China
Prior art keywords
determining
node
score
scores
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811498047.XA
Other languages
English (en)
Other versions
CN110164416A (zh
Inventor
唐立亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201811498047.XA priority Critical patent/CN110164416B/zh
Publication of CN110164416A publication Critical patent/CN110164416A/zh
Application granted granted Critical
Publication of CN110164416B publication Critical patent/CN110164416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种语音识别方法及其装置、设备和存储介质,其中,所述方法包括:确定语音数据的声学模型得分和语言模型得分;根据所述语音数据的声学模型得分和语言模型得分,对预设词图中的节点进行筛选,得到目标词图;在所述目标词图中,确定第一综合得分满足第一预设条件的路径;根据所述第一综合得分满足第一预设条件的路径,确定所述语音数据的语音识别结果。

Description

一种语音识别方法及其装置、设备和存储介质
技术领域
本申请涉及语音识别技术领域,涉及但不限于一种语音识别方法及其装置、设备和存储介质。
背景技术
随着自动语音识别的技术发展,语音识别在识别效果上取得了长足的进步,应用场景也变得更加丰富。近年来,不仅在智能手机上的语音输入,语音搜索越来越普及;在诸如智能电视、智能音箱、电视盒子等智能设备上也应用越来越广泛。
在智能设备上对语音识别正确率的要求比手机上的更加苛刻。以智能电视为例,用语音来控制电视的各种功能,其对识别正确率的要求比在智能手机上更高,因为智能手机上的识别错误,可以通过文字输入矫正,但是智能设备上的识别错误,则只能通过寻找遥控器或者重说修正。
智能设备上的语音识别的应用,更多是关键词的语音识别。用户往往使用某些固定的词来控制智能设备完成某个任务;比如,利用语音控制电视换台,控制音量大小;如果在识别过程中关键词识别出现错误,比如“放大音量”识别成“缩小音量”,会造成误操作,伤害用户体验。所以,提升智能设备上的语音识别正确率,特别是关键词的识别正确率,变得十分重要。。
发明内容
有鉴于此,本申请实施例期望提供一种语音识别方法及其装置、设备和存储介质。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种语音识别方法,所述方法包括:
确定语音数据的声学模型得分和语言模型得分;
根据所述语音数据的声学模型得分和语言模型得分,对预设词图中的节点进行筛选,得到目标词图;
在所述目标词图中,确定第一综合得分满足第一预设条件的路径;
根据所述第一综合得分满足第一预设条件的路径,确定所述语音数据的语音识别结果。
本申请实施例提供一种语音识别装置,所述装置包括:第一确定模块、筛选模块、第二确定模块和第三确定模块,其中:
所述第一确定模块,用于确定语音数据的声学模型得分和语言模型得分;
所述筛选模块,用于根据所述语音数据的声学模型得分和语言模型得分,对预设词图中的节点进行筛选,得到目标词图;
所述第二确定模块,用于在所述目标词图中,确定第一综合得分满足第一预设条件的路径;
第三确定模块,用于根据所述第一综合得分满足第一预设条件的路径,确定所述语音数据的语音识别结果。
在其他实施例中,所述筛选模块进一步包括:
第一确定单元,用于根据所述语音数据的声学模型得分和语言模型得分,从所述预设词图中确定第二节点集合;
第二确定单元,用于从所述第二节点集合中确定节点综合得分满足第二预设条件的Q个节点,得到第一节点集合;
第三确定单元,用于根据所述第一节点集合,确定目标词图。
在其他实施例中,所述第一确定单元进一步包括:
第一获取子单元,用于从所述预设词图中,获取当前的活跃节点集合;
第一确定子单元,用于根据所述预设词图,确定所述当前的活跃节点集合中最高层级的各个第一活跃节点的前驱节点;
第二确定子单元,用于如果所有的第一活跃节点的前驱节点都为所述预设词图中的开始节点,将所述当前的活跃节点集合确定为第二节点集合。
在其他实施例中,所述第一确定单元还包括:
第三确定子单元,用于如果存在前驱节点为所述预设词图中的非开始节点的第一活跃节点,根据所述语音数据的声学模型得分和语音数据语言模型得分,从所述各个前驱节点中确定加入到活跃节点集合的N个节点;
加入子单元,用于将所述N个节点加入所述活跃节点集合;
第四确定子单元,用于根据所述预设词图,确定所述当前的活跃节点集合中最高层级的各个第一活跃节点的前驱节点。
在其他实施例中,第三确定子单元,还用于:
根据所述语音数据的声学模型得分,从所述预设词图中确定声学模型得分满足第三预设条件的L条路径,其中,所述L条路径的起点为所述前驱节点;
根据所述语音数据的语言模型得分,确定所述L条路径的语言模型得分;
根据所述L条路径的声学模型得分和所述L条路径的语言模型得分,确定所述L条路径的第二综合得分;
根据所述L条路径的第二综合得分,从L个前驱节点中确定加入到所述活跃节点集合的N个节点。
在其他实施例中,所述第三确定子单元还用于:
根据所述语音数据的声学模型得分,确定各个前驱节点的声学模型得分;
根据所述各个前驱节点的声学模型得分,从所述预设词图中确定声学模型得分满足第三预设条件的L条路径。
在其他实施例中,所述第三确定子单元还用于:
获取所述L条路径的声学模型得分对应的第一预设权重值和所述L条路径的语言模型得分对应的第二预设权重值;
根据所述第一预设权重值、第二预设权重值、所述L条路径的声学模型得分和所述L条路径的语言模型得分,确定所述L条路径的第二综合得分。
在其他实施例中,所述第三确定子单元还用于:
将所述L条路径的第二综合得分确定为所述L条路径对应的L个前驱节点的节点综合得分;
根据所述L个前驱节点的节点综合得分,确定加入到所述活跃节点集合的N个节点。
在其他实施例中,所述第二节点集合中至少包括各个节点、各个节点的层级信息和各个节点的节点综合得分,相应地,所述第二确定单元进一步包括:
第五确定子单元,用于确定所述第二节点集合属于各个层级的节点;
第六确定子单元,用于根据各个节点的节点综合得分,从每一层级的节点中确定出满足第二预设条件的节点;
第七确定子单元,用于将各个层级中满足第二预设条件的节点,确定为第一节点集合。
在其他实施例中,所述第三确定单元进一步包括:
第八确定子单元,用于将各个层级中的节点与相邻层级的节点进行全连接,以得到目标词图。
在其他实施例中,所述第三确定模块进一步包括:
第四确定单元,用于确定所述目标词图中的P个备选路径、所述P个备选路径的声学模型得分、所述P个备选路径的语言模型得分;
第五确定单元,用于至少根据所述P个备选路径的声学模型得分和所述P个备选路径的语言模型得分确定P个所述备选路径的第一综合得分;
第六确定单元,用于根据所述P个所述备选路径的第一综合得分,从所述P个备选路径中确定第一综合得分满足第一预设条件的路径。
在其他实施例中,所述第五确定单元进一步包括:
第二获取子单元,用于获取所述P个备选路径的声学模型得分对应的第三预设权重值和所述P个备选路径的语言模型得分对应的第四预设权重值;
第八确定子单元,用于根据所述第三预设权重值、第四预设权重值、所述P个备选路径的声学模型得分和所述P个备选路径的语言模型得分,确定P个所述备选路径的第一综合得分。
在其他实施例中,所述第五确定单元还包括:
第九确定子单元,用于确定所述P个备选路径的激励得分和所述P个备选路径的激励得分对应的第五预设权重值;
第十确定子单元,用于根据所述第三预设权重值、第四预设权重值、第五预设权重值、所述P个备选路径的声学模型得分、所述P个备选路径的语言模型得分和所述P个备选路径的激励得分,确定P个所述备选路径的第一综合得分。
在其他实施例中,所述第九确定子单元,还用于:
确定所述P个备选路径对应的P个文本内容;
分别将P个所述文本内容与预设的热词集合进行匹配,如果所述文本内容中包含所述热词集合中的热词,获取所述热词对应的热词激励得分;
根据所述热词对应的热词激励得分,确定所述备选路径的热词激励得分。
本申请实施例提供一种语音识别设备,所述语音识别设备至少包括:存储器、通信总线和处理器,其中:
所述存储器,用于存储语音识别程序;
所述通信总线,用于实现处理器和存储器之间的连接通信;
所述处理器,用于执行存储器中存储的语音识别程序,以实现本申请实施例提供的语音识别方法中的步骤。
本申请实施例提供一种存储介质,所述存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时实现如上所述的语音识别方法的步骤。
本申请实施例提供一种语音识别方法及其装置、设备和存储介质,其中,首先确定语音数据的声学模型得分和语言模型得分;然后根据所述语音数据的声学模型得分和语言模型得分,对预设词图中的节点进行筛选,得到目标词图;进而在所述目标词图中,确定第一综合得分满足第一预设条件的路径;最后根据所述第一综合得分满足第一预设条件的路径,确定所述语音数据的语音识别结果;如此,通过对预设词图中的节点进行筛选,确定出更优的目标词图,进而根据目标词图确定路径,得到识别结果,这样解决了现有技术中进行语音识别时准确率不高的技术问题,能够在降低计算复杂度的基础上,进一步提高识别正确率。
附图说明
图1为本申请实施例一应用场景的示意图;
图2为本申请实施例语音识别方法的实现流程示意图;
图3A为本申请实施例语音识别方法的又一实现流程示意图;
图3B为本申请实施例确定第二节点集合的实现流程示意图;
图4为本申请实施例再一种语音识别方法的实现流程示意图;
图5为本申请实施例语音识别装置的组成结构示意图;
图6为本申请实施例语音识别设备的组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
需要指出,本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
对本申请实施例进行进一步详细说明之前,对本申请实施例相关技术中语音识别方法的实现流程,以及本申请实施例涉及的算法和术语进行说明。
1)声学特征:用于表征音频的能量、过零率、线性预测(Linear PredictionCoefficient,LPC)系数等,声学特征包括时域特征和频域特征,其中,时域特征是直接在原始的语音信号基础上所提取的特征,而频域特征是把原始的语音信号先进行傅里叶变换,将原始信号转换到频域,然后再频域上提取的特征。
在本实施例中,提取的声学特征为频域特征,例如可以基于滤波器组的(Filterbank,Fbank)特征、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)特征、感知线性预测系数(Perceptual Linear Predictive,PLP)特征等。
2)声学模型(Acoustic Model,AM),对声学、语音学、环境的变量、说话人性别、口音等的差异化的知识表示,包括基于隐马尔可夫模型(Hidden Markov Model,HMM,)的声学模型,例如混合高斯-隐马尔科夫模型(GMM-HMM)和深度神经网络-隐马尔科夫模型((DeepNeural Networks,DNN)-HMM)表示,隐马尔可夫模型是一个离散时域的加权有限状态自动机;当然,还可以包括端到端(End to End)的声学模型,例如连接时序分类(ConnectionistTemporal Classification,CTC)模型、长短时记忆(Long-Short Term Memory,LSTM)模型和注意力(Attention)模型。
声学模型的每个状态中表示语音单元(例如词、音节和音素等)的语音特征在该状态的概率分布,并通过状态与状态之间的转移连接成一个有序的状态序列,即得到一段语音信号所代表的语音单元的序列,假设W为语音单元的序列,记为:W={w1,w2,……,wn},声学模型概率P(O|W)表示W与观测序列O的匹配程度。
3)语言模型(Language Model,LM),是语言结构的知识表示,这里语言结构可以包括词语、句子之间的规律,例如语法、词语常用搭配等的知识表示,语言模型可以包括N元模子(N-gram)模型、递归神经网络(Recurrent Neural Network,RNN)等。
4)维特比算法,是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释相关的动态规划算法。例如在统计句法分析中动态规划算法可以被用于发现最可能的上下文无关的派生(解析)的字符串,有时被称为“维特比分析”。
现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号作为观察到的事件序列,而文本字符串,被看作是隐含的产生声音信号的原因,因此可对声音信号应用维特比算法寻找最有可能的文本字符串。
维特比算法的基础可以概括为下面三点:
第一、如果概率最大的路径经过篱笆网络的某点,则从开始点到该点的子路径也一定是从开始到该点路径中概率最大的。
第二、假定第i时刻有k个状态,从开始到第i时刻的k个状态有k条最短路径,而最终的最短路径必然经过其中的一条,其中,i和k为自然数。
第三、根据上述性质,在计算第i+1状态的最短路径时,只需要考虑从开始到当前的k个状态值的最短路径和当前状态值到第i+1状态值的最短路径即可,如求t=3时的最短路径,等于求t=2时的所有状态结点的最短路径加上t=2到t=3的各节点的最短路径。
4)贪心算法,又称贪婪算法,是指在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,所做出的是在某种意义上的局部最优解。
下面结合应用场景对本申请实施例进行说明,图1为本申请实施例一应用场景的示意图,如图1所示,该应用场景中包括用户101、终端1021、终端1022和服务器103。
作为一个示例,本申请实施例提供的语音识别方法可以是实施于终端1021(例如智能手机、平板电脑、智能电视等)的离线识别方案,如图1所示,终端1021会基于用户101发出的语音数据通过预先向云端获取语音识别的相关数据,依赖于终端的处理器和存储器进行不依赖于服务器的语音识别,例如各种APP中的语音输入。
作为另一个示例,本申请实施例提供的语音识别方法可以是实施于云端的语音识别方案,如图1所示,在终端1022接收到用户101发出的语音数据后,将语音数据发送给服务器103,由服务器103进行语音识别,并在得到识别结果后,将识别结果发送给终端1022。该云端语音识别方案应用到的产品是需要调用语音识别功能的相关场景,比如智能家居场景,语音输入转写,车载导航,智能音箱等,通过调用云端的语音识别能力完成场景应用,可以封装为语音识别APP,嵌入到各种APP中的语音识别引擎,为各种智能语音交互的场景提供有效的语音识别支撑。
结合图1所示的应用场景示意图,以下对语音识别方法及语音识别装置、设备的各实施例进行说明。
本实施例提供一种语音识别方法,图2为本申请实施例语音识别方法的实现流程示意图,如图2所示,所述方法包括:
步骤S201,确定语音数据的声学模型得分和语言模型得分。
这里,所述步骤S201可以是由语音识别设备实现的,其中,所述语音识别设备可以是智能终端,例如可以是移动电话(手机)、平板电脑、笔记本电脑等具有无线通信能力的移动终端,还可以是不便移动的具有计算功能的台式计算机、桌面电脑等;所述语音识别设备还可以是服务器,在本实施例中,服务器可以是指一台服务器,也可以是由多台服务器构成的服务器集群、云计算中心等等,在此不加以限定。
所述步骤S201在实现时,可以包括:
首先,对获取到的语音数据进行特征提取,得到所述语音数据的声学特征;其中,声学特征可以是提取语音数据的Fbank特征,还可以是提取MFCC特征、PLP特征,当然也可以是提取其他类型的声学特征,本申请实施例不加限定。
然后,将所述声学特征输入预设的声学模型,得到所述声学特征的声学模型得分;其中,所述预设的声学模型可以是CTC模型,当然也可以是LSTM声学模型,CNN-DNN声学模型等。
最后,根据预设的语言模型,确定所述语音数据的语言模型得分。其中,所述预设的语言模型可以是N-gram模型。
在其他实施例中,在所述步骤S201之前,所述方法还包括:获取待识别的语音数据。
当所述步骤S201是由终端实现时,获取待识别的语音数据可以是终端基于自身的语音采集装置采集用户发出的语音数据,还可以是终端从自身的存储介质中获取已经保存的语音数据。
当所述步骤S201是由服务器实现时,获取待识别的语音数据可以是接收终端发送的语音数据。
步骤S202,根据所述语音数据的声学模型得分和语言模型得分,对预设词图中的节点进行筛选,得到目标词图。
这里,所述步骤S202可以是由终端,还可以是由服务器实现的。
所述步骤S202在实现时,可以是根据语音数据的声学模型得分和语言模型得分,从所述预设词图的尾节点向前回溯,一直回溯到预设词图的开始节点结束,从所述预设词图中筛选出第一节点集合,然后再根据第一节点集合中的各个节点以及各个节点的层级,生成目标词图。
为了更好地理解本发明实施例,首先对词图进行相关介绍。词图是常用的一种语音识别结果表现形式,它将在语音识别过程中解码器所解码的多候选结果在一个有向无环图上加以表示。词图以弧表示词,以节点表示词的连接关系,而每个词都属于一个从开始节点到结束节点的路径,也就是说,词图的一条路径可以表示由弧所表示的词组成的一句话,例如,词图上有一条路径S,包括开始节点、节点A、节点B、节点C、节点D和结束节点,其中,节点A和节点B之间的弧表示“我”,节点B和节点C之间的弧表示“要”,节点C和节点D之间的弧表示“吃饭”,那么路径S就表示“我要吃饭”。
在本实施例中,所述预设词图是预先设置好的,可以是利用维特比算法进行最佳路径寻优时使用的词图。
步骤S203,在所述目标词图中,确定第一综合得分满足第一预设条件的路径。
这里,所述步骤S203可以是由终端,还可以是由服务器实现的。所述第一综合得分的考量维度包括至少声学模型得分和语言模型得分,在其他实施例中,所述第一综合得分的考量维度还可以包括热词激励得分。
所述步骤S203在实现时,可以是根据预设的搜索算法例如A*算法,从目标词图中寻找出P个备选路径,并获取P个备选路径的声学模型得分和P个备选路径的语言模型得分,再获取所述P个备选路径的声学模型得分对应的第三预设权重值和所述P个备选路径的语言模型得分对应的第四预设权重值;继而根据所述第三预设权重值、第四预设权重值、所述P个备选路径的声学模型得分和所述P个备选路径的语言模型得分,对P个备选路径的声学模型得分和语言模型得分进行加权求和,以确定P个所述备选路径的第一综合得分,然后对第一综合得分进行排序,确定出满足第一预设条件的路径。
在其他实施例中,在获取了P个备选路径的声学模型得分和P个备选路径的语言模型得分之后,还可以进一步基于热词列表确定P个备选路径的热词激励得分和所述P个备选路径的激励得分对应的第五预设权重值;再根据所述第三预设权重值、第四预设权重值、第五预设权重值、所述P个备选路径的声学模型得分、所述P个备选路径的语言模型得分和所述P个备选路径的激励得分进行加权求和,以确定P个所述备选路径的第一综合得分,并对P个第一综合得分进行排序,确定出满足第一预设条件的路径。
在本实施例中,满足第一预设条件的路径可以是P个备选路径中第一综合得分最高的一个路径,还可以是第一综合得分最高的几个路径。
步骤S204,根据所述第一综合得分满足第一预设条件的路径,确定所述语音数据的语音识别结果。
这里,所述步骤S204可以是由终端,还可以是由服务器实现的。
所述步骤S204在实现时,可以是根据所述第一综合得分满足第一预设条件的路径,获取各个路径对应的文本内容,再将各个路径对应的文本内容,确定为所述语音数据的语音识别结果。
当所述步骤S204是由终端实现时,在所述步骤S204之后,所述终端在确定了语音识别结果之后,输出显示所述语音识别结果,或者是基于确定的语音识别结果进行后续的诸如搜索等处理过程。
当所述步骤S204是由服务器实现时,在所述步骤S204之后,所述服务器将所述语音识别结果发送给终端,然后终端在接收到语音识别结果后,输出显示所述语音识别结果,或者是基于确定的语音识别结果进行后续的诸如搜索等处理过程。
在本申请实施例提供的语音识别方法中,首先确定语音数据的声学模型得分和语言模型得分;然后根据所述语音数据的声学模型得分和语言模型得分,对预设词图中的节点进行筛选,得到目标词图;进而在所述目标词图中,确定第一综合得分满足第一预设条件的路径;最后根据所述第一综合得分满足第一预设条件的路径,确定所述语音数据的语音识别结果;如此,通过对预设词图中的节点进行筛选,确定出更优的目标词图,进而根据目标词图确定路径,得到识别结果,这样能够在降低计算复杂度的基础上,进一步提高识别正确率。
本申请实施例再提供一种语音识别方法,应用于语音识别设备,所述语音识别设备可以是终端,还可以是服务器。图3A为本申请实施例语音识别方法的又一实现流程示意图,如图3A所示,所述方法包括:
步骤S301,语音识别设备获取待识别的语音数据。
这里,如果所述语音识别设备为终端,所述步骤S301在实现时,可以是基于用户进行语音识别的操作指令,获取用户录入的待识别的语音数据,也可以是基于用户的进行语音识别的操作指令,获取所述操作指令所对应的终端自身存储的语音数据。
如果所述语音识别设备为服务器,所述步骤S301在实现时,可以是接收终端发送的待识别的语音数据。
步骤S302,所述语音识别设备确定语音数据的声学模型得分和语言模型得分。
这里,所述步骤S302在实现时,可以是首先对获取到的语音数据进行特征提取,得到所述语音数据的声学特征,然后将所述声学特征输入预设的声学模型,得到所述声学特征的声学模型得分;并根据预设的语言模型,确定所述语音数据的语言模型得分。
步骤S303,根据所述语音数据的声学模型得分和语言模型得分,从所述预设词图中确定第二节点集合。
这里,所述步骤S303在实现时,可以是利用回溯的方法,根据语音数据的声学模型得分和语言模型得分,从预设词图中筛选出,声学模型得分和语言模型得分的综合得分较高的节点,从而得到第二节点集合。所述步骤S303的详细实现过程可以参见图3B以及下述关于图3B的说明。
步骤S304,从所述第二节点集合中确定节点综合得分满足第二预设条件的Q个节点,得到第一节点集合。
这里,所述第二节点集合中至少包括各个节点、各个节点的层级信息和各个节点的节点综合得分。在实际应用过程中,步骤S304可以通过以下步骤实现:
步骤S3041,确定所述第二节点集合属于各个层级的节点。
这里,假设第二节点集合中包括{A-1-ScoreA、B-1-ScoreB、C-1-ScoreC、D-2-ScoreD、E-2-ScoreE、F-2-ScoreF、R-3-ScoreR、S-3-ScoreS、T-3-ScoreT},其中,A-1-ScoreA表示,节点A的层级为第一层级,综合得分为ScoreA,那么在第二节点集合中,属于第一层级的节点包括:A、B、C;属于第二层级的节点包括D、E、F;属于第三层级的节点包括R、S、T。
步骤S3042,根据各个节点的节点综合得分,从每一层级的节点中确定出综合得分满足第二预设条件的节点。
这里,所述步骤S3042在实现时,可以是将各个层级中的节点按照综合得分从大到小或者从小到大进行排序,并将综合得分最高的前M的节点确定为满足第二预设条件的节点。
例如,将第一层级中A、B、C按照综合得分从大到小进行排序,得到B、A、C;将第二层级的节点按照综合得分从大到小进行排序,得到D、E、F;将第三层级的节点按照综合得分从大到小进行排序,得到T、S、R。将每一层级中综合得分最高的两个节点作为满足第二预设条件的节点。也即第一层级中的B、A,第二层级中的D、E,第三层级中的T、S为满足第二预设条件的节点。
步骤S3043,将各个层级中满足第二预设条件的节点,确定为第一节点集合。
这里,第一节点集合为{A-1-ScoreA、B-1-ScoreB、D-2-ScoreD、E-2-ScoreE、S-3-ScoreS、T-3-ScoreT}。
步骤S305,根据所述第一节点集合,确定目标词图。
这里,所述步骤S305在实现时,可以是将各个层级中的节点与相邻层级的节点进行全连接,以得到目标词图。
步骤S306,确定所述目标词图中的P个备选路径、所述P个备选路径的声学模型得分、所述P个备选路径的语言模型得分。
这里,所述步骤S305在实现时,可以是根据预设的路径搜索算法从所述目标词图中获取P个备选路径,然后再获取P个备选路径的声学模型得分和语言模型得分。
步骤S307,确定所述P个备选路径的热词激励得分。
这里,在实际应用过程中,所述步骤S307可以通过以下步骤实现:
步骤S3071,确定所述P个备选路径对应的P个文本内容;
步骤S3072,分别将P个所述文本内容与预设的热词集合进行匹配,如果所述文本内容中包含所述热词集合中的热词,获取所述热词对应的热词激励得分。
这里,所述热词集合中的热词可以是容易识别错误的一些词语,或者是专业术语等,每个热词可以对应一个热词激励得分。
步骤S3073,根据所述热词对应的热词激励得分,确定所述备选路径的热词激励得分。
这里,如果所述文本内容中包括多个热词,所述步骤S3073在实现时,可以是将各个热词对应的热词激励得分相加确定为所述备选路径的热词激励得分,还可以是将各个热词对应的热词激励得分中最高的一个,确定为所述备选路径的热词激励得分。
步骤S308,根据所述P个备选路径的声学模型得分、所述P个备选路径的语言模型得分和所述P个备选路径的热词激励得分,确定P个所述备选路径的第一综合得分。
这里,在实际应用过程中,可以通过公式(3-1)确定备选路径的第一综合得分:
Com_Scorei=K1*am_scorei+K2*lm_scorei+K3*hotword_scorei(3-1);
在公式(3-1)中,Com_Scorei为备选路径i的第一综合得分,am_scorei为备选路径i的声学模型得分,lm_scorei为备选路径i的语言模型得分,hotword_scorei为备选路径i的热词激励得分,K1、K2、K3为预先设置好的加权系数,且K1+K2+K3=1。
步骤S309,根据所述P个所述备选路径的第一综合得分,从所述P个备选路径中确定第一综合得分满足第一预设条件的路径。
这里,所述步骤S309在实现过程中,可以是根据P个所述备选路径的第一综合得分,对P个备选路径进行排序,将第一综合得分最高的X个路径作为满足第一预设条件的路径,其中X为大于0的整数,一般情况下X为1,也就是说可以将P个备选路径中第一综合得分最高的一个路径确定为满足第一预设条件的路径。当然,为了进一步提高识别正确率,X还可以为2、3,以为用户提供更多的识别结果。
步骤S310,根据所述第一综合得分满足第一预设条件的路径,确定所述语音数据的语音识别结果。
这里,所述步骤S310在实现时,可以是根据所述第一综合得分满足第一预设条件的路径,获取各个路径对应的文本内容,再将各个路径对应的文本内容,确定为所述语音数据的语音识别结果。
在本申请实施例提供的语音识别方法中,首先获取待识别的语音数据,然后确定语音数据的声学模型得分和语言模型得分;再根据所述语音数据的声学模型得分和语言模型得分,从所述预设词图中利用回溯方法确定第一节点集合;进而根据所述第一节点集合,确定目标词图,由于在确定目标词图的过程中采用了回溯方法,具有较低的计算复杂度;并且在确定第一节点集合时对各个节点的得分进行了综合判决,在使用目标词图进行语音识别时能够提高识别的精准性;在确定所述目标词图中的P个备选路径的激励得分之后,基于所述P个备选路径的语言模型得分和所述P个备选路径的热词激励得分,确定P个所述备选路径的第一综合得分;根据所述P个所述备选路径的第一综合得分,从所述P个备选路径中确定第一综合得分满足第一预设条件的路径,进而得到语音识别结果,因此通过设置热词列表,能够有效的对热词的内容进行激励,同时在确定第一综合得分时还集合声学和语言模型得分进行综合判定,能够进一步提高语音识别正确率,并且由于只对热词内容进行激励,从而不会对其他词的识别结果产生影响。
图3B为本申请实施例确定第二节点集合的实现流程示意图,如图3B所示,所述流程包括:
步骤S3031,从所述预设词图中,获取当前的活跃节点集合。
这里,在本实施例中,活跃节点集合的初始值为所述预设词图的尾节点,然后从尾节点开始向前回溯,确定加入到活跃节点集合中的各个节点。
步骤S3032,根据所述预设词图,确定所述当前的活跃节点集合中最高层级的各个第一活跃节点的前驱节点。
这里,假设当前的活跃节点集合为{</sil>、C-1、T-1、F-1},其中,</sil>表示尾节点,假设尾节点的层级为0,C-1表示C为第一层级的节点,那么在当前的活跃节点集合中,最高层级为第1层级,此时根据预设词图,确定C、T和F的前驱节点,假设,C-1的前驱节点为N-2和B-2,F-1的前驱节点为E-2和J-2,T-1的前驱节点为S-2。
在本实施例中,根据当前的活跃节点集合中的最高层级可以确定出已经回溯到哪一层级。
步骤S3033,判断是否所有的第一活跃节点的前驱节点都为所述预设词图中的开始节点。
这里,如果所有的第一活跃节点的前驱节点都为所述预设词图的开始节点,说明对预设词图的筛选结束,此时进入步骤S3039;如果不是所有的第一活跃节点的前驱节点都为所述预设词图的开始节点,也就是说,如果存在前驱节点为所述预设词图中的非开始节点的第一活跃节点,那么说明还需要继续进行筛选,此时进入步骤S3034。
步骤S3034,根据所述语音数据的声学模型得分,从所述预设词图中确定声学模型得分满足第三预设条件的L条路径。
这里,所述L条路径的起点为所述前驱节点,L为大于1的自然数。
所述步骤S3034在实现时,可以首先确定各个前驱节点的声学模型得分,然后再根据各个前驱节点的声学模型得分,确定出按照声学模型得分从大到小排序的前L个前驱节点。
承接步骤S3032中的举例,例如各个前驱节点N-2、B-2、E-2、J-2、S-2按照声学模型得分从大到小排序为:B-2、E-2、N-2、S-2、J-2,假设L为3,那么排在前3个的前驱节点为B-2、E-2、N-2,对应的3条路径为B-C-</sil>,E-F-</sil>,N-C-</sil>。
步骤S3035,根据所述语音数据的语言模型得分,确定所述L条路径的语言模型得分。
步骤S3036,根据所述L条路径的声学模型得分和所述L条路径的语言模型得分,确定所述L条路径的第二综合得分。
这里,所述步骤S3036在实现过程中,可以是对所述L条路径的声学模型得分和所述L条路径的语言模型得分进行加权求和,以确定所述L条路径的第二综合得分。
步骤S3037,根据所述L条路径的第二综合得分,从L个前驱节点中确定加入到所述活跃节点集合的N个节点。
这里,所述步骤S3037在实现时,可以是将所述L条路径的第二综合得分确定为L个前驱节点的节点综合得分,然后再将根据L个前驱节点的节点综合得分按照从大到小进行排序,将排序结果中的前N个前驱节点确定为加入到所述活跃节点集合的N个节点。其中,N为大于1的自然数,且N小于或者等于L。
这里,通过步骤S3034至步骤S3037即完成了根据所述语音数据的声学模型得分和语言模型得分,从所述各个前驱节点中确定加入到活跃节点集合的N个节点的处理过程。
步骤S3038,将所述N个节点加入所述活跃节点集合,转入步骤S3032。
步骤S3039,将所述当前的活跃节点集合确定为第二节点集合。
在实际应用过程中,所述步骤S3034“根据所述语音数据的声学模型得分,从所述预设词图中确定声学模型得分满足第三预设条件的L条路径”可以通过以下步骤实现:
步骤51,根据所述语音数据的声学模型得分,确定各个前驱节点的声学模型得分;
步骤52,根据所述各个前驱节点的声学模型得分,从所述预设词图中确定声学模型得分满足第三预设条件的L条路径。
这里,所述步骤52在实现时,可以是根据各个前驱节点的声学模型得分,确定声学模型得分最高的L个前驱节点,以所述L个前驱节点为起点,确定L条路径,其中,所述L条路径通过活跃节点集合中的第一活跃节点。
在实际应用过程中,所述步骤S3036“根据所述L条路径的声学模型得分和所述L条路径的语言模型得分,确定所述L条路径的第二综合得分”可以通过以下步骤实现:
步骤61,获取所述L条路径的声学模型得分对应的第一预设权重值和所述L条路径的语言模型得分对应的第二预设权重值。
步骤62,根据所述第一预设权重值、第二预设权重值、所述L条路径的声学模型得分和所述L条路径的语言模型得分,确定所述L条路径的第二综合得分。
这里,可以根据公式(3-2)确定路径的第二综合得分:
Score_comj=am_scorej+K*lm_scorej   (3-2);
其中,Score_comj为路径j的第二综合得分,am_scorej为路径j的声学模型得分,lm_scorej为路径j的语言模型得分,第一预设权值值为1,K为第二预设权重值。
在其他实施例中,所述步骤S3037“根据所述L条路径的第二综合得分,从L个前驱节点中确定加入到所述活跃节点集合的N个节点”,可以通过以下步骤实现:
步骤71,将所述L条路径的第二综合得分确定为所述L条路径对应的L个前驱节点的节点综合得分;
步骤72,根据所述L个前驱节点的节点综合得分,确定加入到所述活跃节点集合的N个节点。
本申请实施例再提供一种语音识别方法,图4为本申请实施例再一种语音识别方法的实现流程示意图,如图4所示,所示流程包括:
步骤S401,获取用户输入的语音。
这里,假设获取到用户说的“放大音量”的语音。
步骤S402,对输入的语音进行声学特征提取。
这里,可以提取输入语音的FBank特征,当然,在其他实施例中,还可以是提取输入语音的MFCC特征、PLP特征。
步骤S403,计算获取声学似然。
这里,所述步骤S403在实现时,可以是将提取出的声学特征输入声学模型,以确定输入语音的声学似然,也即输入语音的声学模型得分,在本实施例中,可以是采用CTC声学模型计算声学似然,当然也可以使用其他声学模型计算声学似然,本申请不做限定。
步骤S404,利用维特比算法进行路径寻优,进而根据步骤S403计算的声学似然和根据N-gram计算的语言模型得分,生成最优词图。
这里,在本实施例中,生成最优词图在实现时可以采用回溯算法,即从最后的尾节点向前回溯,在实际应用过程中,可以通过以下步骤实现:
步骤S4041,记录活跃(Active)节点集合;
这里,初始时活跃节点集合为尾节点;假设尾节点为</sil>,那么初始Active集合为{</sil>}。
步骤S4042,在图中检索所有以Actice中节点为结束节点的节点BNode,并记录其层数。
这里,检索所有以<sil>为结束节点的点,假设有“量-1”“爽-1”,“玩-1”,“唐-1”等,其中“-1”表示第一层,因为它们是<sil>的前驱,即尾节点的前驱。
步骤S4043,对节点BNode进行N-gram语言模型得分和CTC声学模型得分的计算。
这里,步骤S4043在实现时,可以是回溯Active的前驱节点,采用贪心算法,每个前驱节点根据发音(phone)计算CTC声学模型得分,选出最大的L条路径,然后逐一计算各个路径的N-gram得分,在实现过程中,可以根据公式(4-1)计算每个节点的节点综合得分:
Score1=Score_CTC+K*Score_NgramLm   (4-1);
其中,在公式(4-1)中,Score1为节点的节点综合得分,Score_CTC为节点的CTC声学模型得分,Score_NgramLm为节点的N-gram语言模型得分
步骤S4044,取出综合得分最大的N个节点加入到Active集合中。
这里,假设“量-1”得分为score1,“爽-1”得分为score2,“玩-1”得分为score3,“唐-1”得分为score4,假设N为3,则采用快速排序算法对上述四个节点进行排序,取前三个,加入Active集合。
步骤S4045,判断BNode是否为开始节点,BNode不是开始节点,则转到步骤S4042,BNode是开始节点,则结束;
这里,假设判断“量-1”“爽-1”,“玩-1”,“唐-1”是否等于开始节点</sil>,若等于</sil>,则结束对活跃节点的搜索,若不等于,则继续搜索以上述节点为结束节点的点,并将其层数记录为“-2”。
直到所有的节点都走到</sil>,则转到步骤S4046,</sil>是所有路径的开始节点。
步骤S4046,将所有的活跃节点集合中每层的节点按照综合得分进行排序,将每层的最大的M个节点连接起来,得到生成最优词图。
步骤S405,根据步骤S404得到的最优词图生成P个最好(N-best)结果,即多个识别结果;
这里,所述步骤S405在实现时,根据A*算法,从最优词图中寻找最优路径,取得分最高,并且到达尾点的P个最优路径作为N-best结果,并记录每个路径的声学和语言模型得分。
步骤S406,判断N-best结果是不是在热词列表中,如果在列表中,则可以选择加权;
这里,所述步骤S406在实现是,可以是将步骤S405产出的N-best结果在热词列表中进行检索,若热词列表中有词是和N-best结果一致或者是N-best结果的子集,则记录该热词对应的热词激励得分hotword_score。
步骤S407,根据N-best结果的原有得分和激励结果进行综合计算。
这里,将所有N-best结果的加权得分进行综合计算,得到各个N-best结果的总分,在实现过程中,可以通过公式(3-1)计算。
步骤S408,得到最终语音识别结果。
这里,所述步骤S408在实现时,可以是采用快速排序算法将各个N-best结果根据重新计算的Score进行排序,将得分最高的结果作为最终结果输出。
通过nbest关键词激励的计算,本申请好处如下:
在本申请实施例中,将目前的识别结果进一步提取出最优词图,也就是其他实施例中的目标词图,提取最优词图的策略采用回溯和节点的综合判决,并取出N-best结果进行二次处理;二次处理通过灵活设置热词列表,有效的对热词的内容进行激励,同时集合声学和语言模型得分进行综合判定,能够显著提升识别正确率,并且对其他词识别结果无影响;相对于其他的增加命令词权重和强制映射的方案,本申请通过识别过程中结合已有CTC声学模型得分和N-gram语言模型得分进行分析,对整体识别概率分布影响更小,更加可控和精准;可以实时动态更新热词列表,从而使得识别过程更加灵活;相对于增加关键词权重的策略,本申请实施例提供的语音识别方法具有更好的灵活性,并且可以实时更新关键词列表,从而能够更好的应用于产品实践。
基于前述的实施例,本申请实施例提供一种语音识别装置,该装置包括所包括的各单元、以及各单元所包括的各模块,可以通过语音识别设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。
图5为本申请实施例语音识别装置的组成结构示意图,如图5所示,所述装置500包括:第一确定模块501、筛选模块502、第二确定模块503和第三确定模块504,其中:
所述第一确定模块501,用于确定语音数据的声学模型得分和语言模型得分;
所述筛选模块502,用于根据所述语音数据的声学模型得分和语言模型得分,对预设词图中的节点进行筛选,得到目标词图;
所述第二确定模块503,用于在所述目标词图中,确定第一综合得分满足第一预设条件的路径;
所述第三确定模块504,用于根据所述第一综合得分满足第一预设条件的路径,确定所述语音数据的语音识别结果。
在其他实施例中,所述筛选模块502进一步包括:
第一确定单元,用于根据所述语音数据的声学模型得分和语言模型得分,从所述预设词图中确定第二节点集合;
第二确定单元,用于从所述第二节点集合中确定节点综合得分满足第二预设条件的Q个节点,得到第一节点集合;
第三确定单元,用于根据所述第一节点集合,确定目标词图。
在其他实施例中,所述第一确定单元进一步包括:
第一获取子单元,用于从所述预设词图中,获取当前的活跃节点集合;
第一确定子单元,用于根据所述预设词图,确定所述当前的活跃节点集合中最高层级的各个第一活跃节点的前驱节点;
第二确定子单元,用于如果所有的第一活跃节点的前驱节点都为所述预设词图中的开始节点,将所述当前的活跃节点集合确定为第二节点集合。
在其他实施例中,所述第一确定单元还包括:
第三确定子单元,用于如果存在前驱节点为所述预设词图中的非开始节点的第一活跃节点,根据所述语音数据的声学模型得分和语音数据语言模型得分,从所述各个前驱节点中确定加入到活跃节点集合的N个节点;
加入子单元,用于将所述N个节点加入所述活跃节点集合;
第四确定子单元,用于根据所述预设词图,确定所述当前的活跃节点集合中最高层级的各个第一活跃节点的前驱节点。
在其他实施例中,第三确定子单元,还用于:
根据所述语音数据的声学模型得分,从所述预设词图中确定声学模型得分满足第三预设条件的L条路径,其中,所述L条路径的起点为所述前驱节点;
根据所述语音数据的语言模型得分,确定所述L条路径的语言模型得分;
根据所述L条路径的声学模型得分和所述L条路径的语言模型得分,确定所述L条路径的第二综合得分;
根据所述L条路径的第二综合得分,从L个前驱节点中确定加入到所述活跃节点集合的N个节点。
在其他实施例中,所述第三确定子单元还用于:
根据所述语音数据的声学模型得分,确定各个前驱节点的声学模型得分;
根据所述各个前驱节点的声学模型得分,从所述预设词图中确定声学模型得分满足第三预设条件的L条路径。
在其他实施例中,所述第三确定子单元还用于:
获取所述L条路径的声学模型得分对应的第一预设权重值和所述L条路径的语言模型得分对应的第二预设权重值;
根据所述第一预设权重值、第二预设权重值、所述L条路径的声学模型得分和所述L条路径的语言模型得分,确定所述L条路径的第二综合得分。
在其他实施例中,所述第三确定子单元还用于:
将所述L条路径的第二综合得分确定为所述L条路径对应的L个前驱节点的节点综合得分;
根据所述L个前驱节点的节点综合得分,确定加入到所述活跃节点集合的N个节点。
在其他实施例中,所述第二节点集合中至少包括各个节点、各个节点的层级信息和各个节点的节点综合得分,相应地,所述第二确定单元进一步包括:
第五确定子单元,用于确定所述第二节点集合属于各个层级的节点;
第六确定子单元,用于根据各个节点的节点综合得分,从每一层级的节点中确定出满足第二预设条件的节点;
第七确定子单元,用于将各个层级中满足第二预设条件的节点,确定为第一节点集合。
在其他实施例中,所述第三确定单元进一步包括:
第八确定子单元,用于将各个层级中的节点与相邻层级的节点进行全连接,以得到目标词图。
在其他实施例中,所述第三确定模块504进一步包括:
第四确定单元,用于确定所述目标词图中的P个备选路径、所述P个备选路径的声学模型得分、所述P个备选路径的语言模型得分;
第五确定单元,用于至少根据所述P个备选路径的声学模型得分和所述P个备选路径的语言模型得分确定P个所述备选路径的第一综合得分;
第六确定单元,用于根据所述P个所述备选路径的第一综合得分,从所述P个备选路径中确定第一综合得分满足第一预设条件的路径。
在其他实施例中,所述第五确定单元进一步包括:
第二获取子单元,用于获取所述P个备选路径的声学模型得分对应的第三预设权重值和所述P个备选路径的语言模型得分对应的第四预设权重值;
第八确定子单元,用于根据所述第三预设权重值、第四预设权重值、所述P个备选路径的声学模型得分和所述P个备选路径的语言模型得分,确定P个所述备选路径的第一综合得分。
在其他实施例中,所述第五确定单元还包括:
第九确定子单元,用于确定所述P个备选路径的激励得分和所述P个备选路径的激励得分对应的第五预设权重值;
第十确定子单元,用于根据所述第三预设权重值、第四预设权重值、第五预设权重值、所述P个备选路径的声学模型得分、所述P个备选路径的语言模型得分和所述P个备选路径的激励得分,确定P个所述备选路径的第一综合得分。
在其他实施例中,所述第九确定子单元,还用于:
确定所述P个备选路径对应的P个文本内容;
分别将P个所述文本内容与预设的热词集合进行匹配,如果所述文本内容中包含所述热词集合中的热词,获取所述热词对应的热词激励得分;
根据所述热词对应的热词激励得分,确定所述备选路径的热词激励得分。
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的语音识别方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
对应地,本申请实施例再提供一种可读存储介质,所述可读存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时实现上述的语音识别方法的步骤。
对应地,本申请实施例提供一种语音识别设备,图6为本申请实施例语音识别设备的组成结构示意图,如图6所示,所述设备600包括:至少一个处理器601、至少一个通信总线602、用户接口603、至少一个外部通信接口604和存储器605。其中:
语音识别设备600中的各个组件通过通信总线602耦合在一起。可理解,通信总线602用于实现这些组件之间的连接通信。通信总线602除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图Y中将各种总线都标为通信总线602。
用户接口603可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
外部通信接口604可以包括标准的有线接口和无线接口。
存储器605可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、闪存(Flash Memory)等。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static RandomAccess Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random AccessMemory)。本申请实施例描述的存储器605旨在包括这些和任意其它适合类型的存储器。
作为本申请实施例提供的方法采用软硬件结合实施的示例,本申请实施例所提供的方法可以直接体现为由处理器601执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器605,处理器601读取存储器605中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器601以及连接到通信总线602的其他组件)以实现以下步骤:
确定语音数据的声学模型得分和语言模型得分;
根据所述语音数据的声学模型得分和语言模型得分,对预设词图中的节点进行筛选,得到目标词图;
在所述目标词图中,确定第一综合得分满足第一预设条件的路径;
根据所述第一综合得分满足第一预设条件的路径,确定所述语音数据的语音识别结果。
作为示例,处理器601可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
以上语音识别设备和存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请语音识别设备和存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种语音识别方法,其特征在于,包括:
确定语音数据的声学模型得分和语言模型得分;
根据所述语音数据的声学模型得分和语言模型得分,从预设词图的尾节点向前回溯直至预设词图的开始节点,从所述预设词图中确定第二节点集合,从所述第二节点集合中确定节点综合得分满足第二预设条件的Q个节点,得到第一节点集合,其中,Q为大于2的整数,所述第二节点集合中至少包括各个节点、各个节点的层级信息和各个节点的节点综合得分,根据所述第一节点集合中的各个节点以及各个节点的层级,生成目标词图;
在所述目标词图中,根据预设搜索算法得到多个备选路径,对所述备选路径的声学模型得分、语言模型得分以及热词激励得分进行加权求和得到第一综合得分,确定所述第一综合得分满足第一预设条件的路径;
根据所述第一综合得分满足第一预设条件的路径,确定所述语音数据的语音识别结果;
所述根据所述语音数据的声学模型得分和语言模型得分,从预设词图的尾节点向前回溯直至预设词图的开始节点,从所述预设词图中确定第二节点集合,包括:从所述预设词图中,获取当前的活跃节点集合;根据所述预设词图,确定所述当前的活跃节点集合中最高层级的各个第一活跃节点的前驱节点;如果所有第一活跃节点的前驱节点都为所述预设词图中的开始节点,将所述当前的活跃节点集合确定为第二节点集合;
所述从所述第二节点集合中确定节点综合得分满足第二预设条件的Q个节点,得到第一节点集合,包括:确定所述第二节点集合属于各个层级的节点;根据各个节点的节点综合得分,从每一层级的节点中确定出满足第二预设条件的节点;将各个层级中满足第二预设条件的节点,确定为第一节点集合;
所述根据所述第一节点集合中的各个节点以及各个节点的层级,生成目标词图,确定目标词图,包括:将所述第一节点集合中各个层级中的节点与相邻层级的节点进行全连接,以得到目标词图。
2.根据权利要求1中所述的方法,其特征在于,根据所述语音数据的声学模型得分和语言模型得分,从所述预设词图中确定第二节点集合,还包括:
如果存在前驱节点为所述预设词图中的非开始节点的第一活跃节点,根据所述语音数据的声学模型得分和语言模型得分,从各个前驱节点中确定加入到活跃节点集合的N个节点,其中,N为大于0的整数;
将所述N个节点加入所述活跃节点集合;
根据所述预设词图,确定所述当前的活跃节点集合中最高层级的各个第一活跃节点的前驱节点。
3.根据权利要求2中所述的方法,其特征在于,所述如果存在前驱节点为所述预设词图中的非开始节点的第一活跃节点,根据所述语音数据的声学模型得分和语言模型得分,从所述各个前驱节点中确定加入到活跃节点集合的N个节点,包括:
根据所述语音数据的声学模型得分,从所述预设词图中确定声学模型得分满足第三预设条件的L条路径,其中,所述L条路径的起点为所述前驱节点,其中,L为大于0的整数;
根据所述语音数据的语言模型得分,确定所述L条路径的语言模型得分;
根据所述L条路径的声学模型得分和所述L条路径的语言模型得分,确定所述L条路径的第二综合得分;
根据所述L条路径的第二综合得分,从L个前驱节点中确定加入到所述活跃节点集合的N个节点。
4.根据权利要求3中所述的方法,其特征在于,所述根据所述语音数据的声学模型得分,从所述预设词图中确定声学模型得分满足第三预设条件的L条路径,包括:
根据所述语音数据的声学模型得分,确定各个前驱节点的声学模型得分;
根据所述各个前驱节点的声学模型得分,从所述预设词图中确定声学模型得分满足第三预设条件的L条路径。
5.根据权利要求3中所述的方法,其特征在于,所述根据所述L条路径的声学模型得分和所述L条路径的语言模型得分,确定所述L条路径的第二综合得分,包括:
获取所述L条路径的声学模型得分对应的第一预设权重值和所述L条路径的语言模型得分对应的第二预设权重值;
根据所述第一预设权重值、第二预设权重值、所述L条路径的声学模型得分和所述L条路径的语言模型得分,确定所述L条路径的第二综合得分。
6.根据权利要求3中所述的方法,其特征在于,所述根据所述L条路径的第二综合得分,从L个前驱节点中确定加入到所述活跃节点集合的N个节点,包括:
将所述L条路径的第二综合得分确定为所述L条路径对应的L个前驱节点的节点综合得分;
根据所述L个前驱节点的节点综合得分,确定加入到所述活跃节点集合的N个节点。
7.根据权利要求6中所述的方法,其特征在于,所述在所述目标词图中,确定第一综合得分满足第一预设条件的路径,包括:
确定所述目标词图中的P个备选路径、所述P个备选路径的声学模型得分、所述P个备选路径的语言模型得分,其中P为大于1的整数;
至少根据所述P个备选路径的声学模型得分和所述P个备选路径的语言模型得分,确定所述P个备选路径的第一综合得分;
根据所述P个所述备选路径的第一综合得分,从所述P个备选路径中确定第一综合得分满足第一预设条件的路径。
8.根据权利要求7中所述的方法,其特征在于,所述至少根据所述P个备选路径的声学模型得分和所述P个备选路径的语言模型得分,确定P个所述备选路径的第一综合得分,包括:
获取所述P个备选路径的声学模型得分对应的第三预设权重值和所述P个备选路径的语言模型得分对应的第四预设权重值;
根据所述第三预设权重值、第四预设权重值、所述P个备选路径的声学模型得分和所述P个备选路径的语言模型得分,确定P个所述备选路径的第一综合得分。
9.根据权利要求8中所述的方法,其特征在于,所述至少根据所述P个备选路径的声学模型得分和所述P个备选路径的语言模型得分,确定P个所述备选路径的第一综合得分,还包括:
确定所述P个备选路径的激励得分和所述P个备选路径的激励得分对应的第五预设权重值;
根据所述第三预设权重值、第四预设权重值、第五预设权重值、所述P个备选路径的声学模型得分、所述P个备选路径的语言模型得分和所述P个备选路径的激励得分,确定P个所述备选路径的第一综合得分。
10.根据权利要求9中所述的方法,其特征在于,所述确定所述P个备选路径的热词激励得分,包括:
确定所述P个备选路径对应的P个文本内容;
分别将P个所述文本内容与预设的热词集合进行匹配,如果所述文本内容中包含所述热词集合中的热词,获取所述热词对应的热词激励得分;
根据所述热词对应的热词激励得分,确定所述备选路径的热词激励得分。
11.一种语音识别装置,其特征在于,所述语音识别装置包括:第一确定模块、筛选模块、第二确定模块和第三确定模块,其中:
所述第一确定模块,用于确定语音数据的声学模型得分和语言模型得分;
所述筛选模块,用于根据所述语音数据的声学模型得分和语言模型得分,从预设词图的尾节点向前回溯直至预设词图的开始节点,从所述预设词图中确定第二节点集合,从所述第二节点集合中确定节点综合得分满足第二预设条件的Q个节点,得到第一节点集合,其中,Q为大于2的整数,所述第二节点集合中至少包括各个节点、各个节点的层级信息和各个节点的节点综合得分,根据所述第一节点集合中的各个节点以及各个节点的层级,生成目标词图;
所述第二确定模块,用于在所述目标词图中,根据预设搜索算法得到多个备选路径,对所述备选路径的声学模型得分、语言模型得分以及热词激励得分进行加权求和得到第一综合得分,确定所述第一综合得分满足第一预设条件的路径;
所述第三确定模块,用于根据所述第一综合得分满足第一预设条件的路径,确定所述语音数据的语音识别结果;
所述第一确定单元包括:第一获取子单元、第一确定子单元、第二确定子单元,其中:
所述第一获取子单元,用于从所述预设词图中,获取当前的活跃节点集合;
所述第一确定子单元,用于根据所述预设词图,确定所述当前的活跃节点集合中最高层级的各个第一活跃节点的前驱节点;
所述第二确定子单元,用于如果所有的第一活跃节点的前驱节点都为所述预设词图中的开始节点,将所述当前的活跃节点集合确定为第二节点集合;
所述第二确定单元包括:第五确定子单元、第六确定子单元、第七确定子单元,其中:
所述第五确定子单元,用于确定所述第二节点集合属于各个层级的节点;
所述第六确定子单元,用于根据各个节点的节点综合得分,从每一层级的节点中确定出满足第二预设条件的节点;
所述第七确定子单元,用于将各个层级中满足第二预设条件的节点,确定为第一节点集合;
所述第三确定单元包括:第八确定子单元,其中:所述第八确定子单元,用于将所述第一节点集合中各个层级中的节点与相邻层级的节点进行全连接,以得到目标词图。
12.一种语音识别设备,其特征在于,所述语音识别设备至少包括:存储器、通信总线和处理器,其中:
所述存储器,用于存储语音识别程序;
所述通信总线,用于实现处理器和存储器之间的连接通信;
所述处理器,用于执行存储器中存储的语音识别程序,以实现权利要求1至10中任一项所述的语音识别方法的步骤。
13.一种存储介质,其特征在于,所述存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时实现1至10任一项中所述的语音识别方法的步骤。
CN201811498047.XA 2018-12-07 2018-12-07 一种语音识别方法及其装置、设备和存储介质 Active CN110164416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811498047.XA CN110164416B (zh) 2018-12-07 2018-12-07 一种语音识别方法及其装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811498047.XA CN110164416B (zh) 2018-12-07 2018-12-07 一种语音识别方法及其装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110164416A CN110164416A (zh) 2019-08-23
CN110164416B true CN110164416B (zh) 2023-05-09

Family

ID=67645280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811498047.XA Active CN110164416B (zh) 2018-12-07 2018-12-07 一种语音识别方法及其装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110164416B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767218A (zh) * 2019-10-31 2020-02-07 南京励智心理大数据产业研究院有限公司 端到端语音识别方法、系统、装置及其存储介质
CN112863489B (zh) * 2021-04-26 2021-07-27 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及介质
CN113436612B (zh) * 2021-06-23 2024-02-27 平安科技(深圳)有限公司 基于语音数据的意图识别方法、装置、设备及存储介质
CN116580701B (zh) * 2023-05-19 2023-11-24 国网物资有限公司 告警音频识别方法、装置、电子设备和计算机介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592595A (zh) * 2012-03-19 2012-07-18 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
CN103903619A (zh) * 2012-12-28 2014-07-02 安徽科大讯飞信息科技股份有限公司 一种提高语音识别准确率的方法及系统
CN103915092A (zh) * 2014-04-01 2014-07-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN104143328A (zh) * 2013-08-15 2014-11-12 腾讯科技(深圳)有限公司 一种关键词检测方法和装置
CN105096944A (zh) * 2015-07-20 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法及装置
CN105513589A (zh) * 2015-12-18 2016-04-20 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106782513A (zh) * 2017-01-25 2017-05-31 上海交通大学 基于置信度的语音识别实现方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592595A (zh) * 2012-03-19 2012-07-18 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
CN103903619A (zh) * 2012-12-28 2014-07-02 安徽科大讯飞信息科技股份有限公司 一种提高语音识别准确率的方法及系统
CN104143328A (zh) * 2013-08-15 2014-11-12 腾讯科技(深圳)有限公司 一种关键词检测方法和装置
WO2015021844A1 (en) * 2013-08-15 2015-02-19 Tencent Technology (Shenzhen) Company Limited Keyword detection for speech recognition
CN103915092A (zh) * 2014-04-01 2014-07-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN105096944A (zh) * 2015-07-20 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法及装置
CN105513589A (zh) * 2015-12-18 2016-04-20 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106782513A (zh) * 2017-01-25 2017-05-31 上海交通大学 基于置信度的语音识别实现方法及系统

Also Published As

Publication number Publication date
CN110164416A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
US11398236B2 (en) Intent-specific automatic speech recognition result generation
US10878808B1 (en) Speech processing dialog management
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US8170866B2 (en) System and method for increasing accuracy of searches based on communication network
US11495229B1 (en) Ambient device state content display
US11043205B1 (en) Scoring of natural language processing hypotheses
US11823678B2 (en) Proactive command framework
CN110164416B (zh) 一种语音识别方法及其装置、设备和存储介质
KR101780760B1 (ko) 가변길이 문맥을 이용한 음성인식
US9666188B2 (en) System and method of performing automatic speech recognition using local private data
JP2021018797A (ja) 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム
US11081104B1 (en) Contextual natural language processing
US11016968B1 (en) Mutation architecture for contextual data aggregator
US10152298B1 (en) Confidence estimation based on frequency
US20240153489A1 (en) Data driven dialog management
US10049656B1 (en) Generation of predictive natural language processing models
US9922650B1 (en) Intent-specific automatic speech recognition result generation
US11289075B1 (en) Routing of natural language inputs to speech processing applications
US11532301B1 (en) Natural language processing
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
US10783876B1 (en) Speech processing using contextual data
US20240211206A1 (en) System command processing
JP2021096847A (ja) ユーザの発言に基づくマルチメディア推奨
US11626107B1 (en) Natural language processing
US11947912B1 (en) Natural language processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant