CN105679310A

CN105679310A - 一种用于语音识别方法及系统

Info

Publication number: CN105679310A
Application number: CN201510790077.8A
Authority: CN
Inventors: 王育军; 赵恒艺
Original assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd
Current assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority date: 2015-11-17
Filing date: 2015-11-17
Publication date: 2016-06-15
Also published as: WO2017084360A1

Abstract

本发明实施例公开了一种用于语音识别的方法及系统，包括：从监听的语音信号中截取第一语音片段，对所述第一语音片段进行分析确定能量谱；依据所述能量谱对所述第一语音片段进行特征提取，确定语音特征；依据所述语音特征对所述第一语音片段的能量谱进行分析，截取第二段语音片段；对所述第二段语音片段进行语音识别，得到语音识别结果。通过实施上述方法，解决了现有技术中在离线状态下，识别功能单一、识别率低的问题。

Description

一种用于语音识别方法及系统

技术领域

本发明涉及语音检测领域，特别是涉及一种用于语音识别的方法，以及一种用于语音识别的系统。

背景技术

目前，在电信、服务业和工业生产线的电子产品开发中，许多产品上使用了语音识别技术，并创造出一批新颖的语音产品，如语音记事本、声控玩具、语音摇控器及家用服务器等，从而极大地减轻了劳动强度、提高了工作效率，并日益改变着人们的日常生活。因此，目前语音识别技术被视为本世纪最有挑战性、最具市场前景的应用技术之一。

如今随着语音技术的发展、用户语音数据量的爆发、计算资源和能力的迭代以及无线连接速度的大幅提升。使语音识别的云服务成为语音技术的主流产品和应用。用户通过自己的终端设备把语音提交到语音云的服务器上进行处理，处理结果返回到终端，显示相应的识别结果或执行相应的指令操作。

然而，在语音识别技术中仍然存在一些缺陷，如：在没有无线连接的情况下，即离线状态，用户无法将语音片段传送到云服务器上进行处理，导致语音识别因没有云服务器的帮助，无法得到精准的识别结果，又如：在离线状态下，无法精确的判断出语音信号的起始位置、识别单一，只能对单个词或者词组进行识别、语音识别过程中因压缩语音信号降低了识别率。

因此，本领域技术人员亟需解决的问题在于：提出一种用于语音识别的方法及系统，用于解决现有技术中在离线状态下，识别功能单一、识别率低的问题。

发明内容

本发明实施例提供一种用于语音识别方法及系统，用以解决现有技术中识别功能单一、识别率低的问题。

本发明实施例公开了一种用于语音识别的方法包括：从监听的语音信号中截取第一语音片段，对第一语音片段进行分析确定能量谱；依据能量谱对第一语音片段进行特征提取，确定语音特征；依据语音特征对第一语音片段的能量谱进行分析，截取第二段语音片段；对第二段语音片段进行语音识别，得到语音识别结果。

相应的，本发明实施例还公开了一种用于语音识别的系统，包括：第一截取模块，用于从监听的语音信号中截取第一语音片段，对第一语音片段进行分析确定能量谱；特征提取模块，用于依据能量谱对第一语音片段进行特征提取，确定语音特征；第二截取模块，用于依据语音特征对第一语音片段的能量谱进行分析，截取第二段语音片段；语音识别模块，用于对第二段语音片段进行语音识别，得到语音识别结果。

本发明实施例提供的一种用于语音识别方法及系统，终端对语音信号进行监听，从监听的语音信号中截取第一语音片段，对第一语音片段进行分析确定能量谱，依据能量谱对第一段语音信号进行特征提取，依据提取到的语音特征对第一语音片段进行截取，得到更精确的第二语音片段，对第二语音片段进行语音识别，得到语音识别结果，并根据语音识别结果进行语义解析，终端直接对监听的语音信号进行处理，从而无需上传服务器即可对语音进行识别，获取语音识别结果，且直接对语音的能量谱进行识别，提高了语音的识别率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种用于语音识别的方法的步骤流程图；

图2是本发明另一个实施例的一种用于语音识别的方法的步骤流程图；

图3是本发明另一个实施例的一种用于语音识别的方法中声学模型的结构框图；

图4是本发明一个实施例的一种用于语音识别的系统的结构框图；

图5是本发明另一个实施例的一种用于语音识别的系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了本发明一个实施例的一种用于语音识别的方法的步骤流程图，具体可以包括如下步骤：

步骤S102、从监听的语音信号中截取第一语音片段，对第一语音片段进行分析确定能量谱。

现有语音识别往往是终端将语音数据上传给网络侧的服务器，由服务器对上传的语音数据进行识别。但是，终端有时可能处于没有网络的环境中，无法联网上传语音给服务器识别。本实施例提供了离线语音识别方法，能够有效利用本地资源进行离线的语音识别。

首先，需要终端设备监听用户发出的语音信号，依据可调整的能量阈值范围对语音信号进行截取，截取超出能量阈值范围的语音信号，其次，将截取到的语音信号作为第一语音片段。

其中，第一语音片段用于提取需要识别的语音数据，为了能够保证获取有效识别的语音部分，可以采用模糊的方式截取第一语音片段，即其在截取第一语音片段时将截取范围扩大，如扩大接收待识别语音信号的截取范围，以保证有效语音片段全部落入第一语音片段中。则第一语音片段包括有效语音片段、无效语音片段如静音、噪声等部分。

再将第一段语音片段进行时频分析，转换为与第一语音片段对应的能量谱；其中，时频分析包括了将第一段语音片段对应的语音信号的时域波形信号转换为频域波形信号，再将其频域波形信号去除相位信息，得到能量谱，该能量谱用于后续语音特征的提取以及语音识别的其他处理中。

步骤S104、依据能量谱对第一语音片段进行特征提取，确定语音特征。

依据能量谱，对第一语音片段对应的语音信号进行特征提取，提取得到语音特征，如语音识别特征、说话人语音特征以及基频特征等。

其中，语音特征提取的方式有多种，例如将第一语音片段对应的语音信号通过预置模型，提取得到语音特征系数，确定语音特征。

步骤S106、依据语音特征对第一语音片段的能量谱进行分析，截取第二段语音片段。

依据上述提取到的语音特征，对第一语音片段对应的语音信号依次进行检测，由于第一语音片段在截取时，预设的截取范围较大以保证全部有效语音片段落入第一语音片段中，这样在第一语音片段中既包括有效语音片段还包括非有效语音片段，为了提高语音识别效率，还可以对第一语音片段进行二次截取，去除掉非有效语音片段，精确提取出有效语音片段作为第二语音片段。

现有技术中的语音识别通常仅对单个词语或者词组进行识别，本发明实施例中，能够对第二语音片段的语音进行完整识别，后续执行该语音所需要的各种操作。

步骤S108、对第二段语音片段进行语音识别，得到语音识别结果。

依据提取到的语音特征，对第二段语音片段对应的语音信号进行语音识别，例如，可以采用隐马尔科夫的声学模型进行语音识别，得到语音识别结果，语音识别结果为一段语音文字，包括了第二语音片段的全部信息。

如第二语音片段对应的语音识别结果为一段话，再将上述得到的一段话分解为一个或者多个操作步骤，依据语音识别结果，进行语义解析得到的操作步骤，执行相应的操作，解决了语音识别单一的问题，通过细化操作步骤，因此也提高了识别率。

综上，实施上述本发明实施例，终端对语音信号进行监听，对监听的语音信号中截取第一语音片段，对第一语音片段进行分析确定能量谱，依据能量谱对第一段语音信号进行特征提取，依据提取到的语音特征对第一语音片段进行截取，得到更精确的第二语音片段，对第二语音片段进行语音识别，得到语音识别结果，终端直接对监听的语音信号进行处理，从而无需上传服务器即可对语音进行识别，获取语音识别结果，且直接对语音的能量谱进行识别，提高了语音的识别率。

参照图2，示出了本发明另一个实施例一种数据录制方法的步骤流程图，具体可以包括如下步骤：

步骤S202、预先存储各用户的用户语音特征。

步骤S204、依据每个用户的用户语音特征构建说用户语音模型。

在进行语音识别之前，预先录入各个用户的语音特征，将每个用户的语音特征进行总合构成一个完整的用户特征，将上述每个完整的用户特征进行存储并对用户的个人信息进行标识，将所有用户完整的特征和个人信息标识集合成一个用户语音模型，其中，用户语音模型用于说话人验证。

其中，预先录入的各个用户语音特征包括：用户元音信号、浊音信号及轻辅音信号的声调特征、基音轮廓、共振峰及其带宽及语音强度等。

步骤S206、监听语音信号，对监听的语音信号的能量值进行检测。

终端设备监听用户录入的语音信号，再确定出语音信号的能量值，对能量值进行检测，依据能量值后续对信号进行截取。

步骤S208、依据第一能量阈值与第二能量阈值，确定语音信号的起点与终点。

预设第一能量阈值与第二能量阈值，其中第一能量阈值大于第二能量阈值，将高于第一能量阈值N倍的语音信号的首个信号点作为语音信号的起点，确定起点后，将低于第二能量阈值M倍的语音信号的首个信号点作为语音信号的终点，其中，M、N可以根据用户发出的语音信号能量值的大小进行调整。

其中，还可以根据实际需要进行时间设置，设定第一时间阈值，当语音信号的能量值超出第一能量阈值第一时间阈值后，则认定在第一时间阈值前该语音信号进入语音部分，类似的，当语音信号的能量值低于第二能量阈值第一时间阈值后，则认定在第一时间阈值前该语音信号进入非语音部分。

例如：采用时域信号均方根能量为判据，预设初始语音和非语音的均方根能量。当信号均方根能量连续一段时间(比如60毫秒)超过非语音信号能量的若干分贝(如10分贝)则认为信号60毫秒之前进入语音部分；类似的，当信号均方根能量连续一段时间(比如60毫秒)低于语音信号能量的若干分贝(如10分贝)则认为信号60毫秒之前进入非语音部分，其中，初始语音的均方根能量值为第一能量阈值，非语音的均方根能量为第二能量阈值。

步骤S210、将起点与终点间的语音信号作为第一语音片段。

依据确定的语音信号的起点与终点，将起点与终点间的语音信号作为第一语音片段，其中，第一语音片段作为有效语音片段，用于后续对语音信号的处理工作。

步骤S212、对第一语音片段进行时域分析，得到第一语音片段的时域信号。

步骤S214、将时域信号变换为频域信号，去除频域信号中的相位信息。

步骤S216、将频域信号转换为能量谱。

对第一段语音片段进行时频分析；将第一语音片段对应的语音信号转换为时域信号，得到第一段语音片段对应语音信号的时域信号，将第一段语音片段对应语音信号的时域信号转换为频域信号，再将频域信号转换为能量谱；其中，时频分析包括将第一段语音片段对应的语音信号的时域信号转换为频域信号，再将其频域信号去除相位信息，得到能量谱。

本发明实施例的一种优选方案可以通过快速傅里叶变换将时域信号转换为频域信号。

步骤S218、基于第一模型对第一语音片段对应的能量谱进行分析，提取语音识别特征。

将第一语音片段对应的能量谱依次通过第一模型，提取到语音识别特征，其中，语音识别特征包括：MFCC(MelFrequencyCepstralCoefficient，频倒谱系数)特征、PLP(PerceptualLinearPredictive，感知线性预测系数)特征、或LDA(LinearDiscriminantAnalysis，线性鉴别分析)特征。

Mel(梅尔)是主观频率的单位，而Hz(赫兹)则是客观音高的单位。Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。

语音信息大多集中在低频部分，而高频部分易受环境噪音干扰；FCC系数将线性频标转化为Mel频标，强调语音的低频信息，从而除了具有LPCC(LinearPredictiveCepstralCoefficient，线性预测倒谱系数)的优点之外，还突出了有利于识别的信息，屏蔽了噪音的干扰。

MFCC系数没有任何前提假设，在各种情况下都可使用。而LPCC系数假设所处理的信号是AR信号，对于动态特性较强的辅音，该假设并不严格成立，所以MFCC系数在说话人识别中优于LPCC系数；MFCC系数提取过程中需要FFT(FastFourierTransformation，快速傅里叶变换)变换，可以以此获得语音信号频域上的所有信息。

步骤S220、基于第二模型对第一语音片段对应的能量谱进行分析，提取说话人语音特征。

将第一语音片段对应的能量谱依次通过第二模型，依据第二语音片段提取到说话人语音特征，其中，说话人语音特征包括：高阶频倒谱系数MFCC特征。

例如，将频倒谱系数MFCC的前后帧进行差分运算得到高阶的频倒谱系数MFCC，以高阶的频倒谱系数MFCC作为说话人语音特征。

说话人语音特征用于验证第二语音片段所属用户。

步骤S222、将第一语音片段对应的能量谱转换功率谱，分析功率谱得到基频特征。

对第一语音片段对应的能量谱进行分析，比如通过FFT或者DCT(DiscreteCosineTransform，离散余弦变换)变换将第一语音片段对应的语音信号施加于功率谱上，再进行特征提取，说话人的基频或声调会以峰值的形式出现在分析结果的高阶部分，对这些峰值使用动态规划沿着时间轴进行追踪，即可得到声音信号内是否存在基频以及基频的值。

其中，基频特征包括：元音信号、浊音信号及轻辅音信号的声调特征。

基频反映声带振动和声调高低，所以可以辅助二次截取和说话人验证。

步骤S224、依据语音识别特征与基频特征，基于第三模型检测第一语音片段的能量谱，确定静音部分和语音部分。

步骤S226、依据第一语音片段中的第一个语音部分确定起点。

步骤S228、当静音部分的时长超过静音阈值时，依据静音部分之前的语音部分确定终点。

步骤S230、提取起点和终点之间的语音信号生成第二语音片段。

依据语音识别特征中的频倒谱系数MFCC特征与基频特征中用户的声调特征，对第一语音片段对应的语音信号依次通过第三模型，检测出第一语音片段的静音部分和语音部分，其中，第三模型包括但不限于隐马尔科夫模型(HiddenMarkovModel，HMM)。

第三模型预设两种状态，静音状态和语音状态，第一语音片段对应的语音信号依次通过该第三模型，第一语音片段对应的语音信号的每个信号点依次不停游走于两个状态之间，直到确定该点落在静音状态或者语音状态为止，即可确定出该段语音信号语音部分和静音部分。

依据第一语音片段的静音部分和语音部分，确定语音部分的起点与终点，提取语音部分作为第二语音片段，其中第二语音片段用于后续语音识别。

其中，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性，是较为理想的一种语音模型。

例如：参照图3，HMM模型有两个状态：sil和speech。分别对应静音(非语音)部分和语音部分。检测系统从sil状态开始，不停游走于这两个状态，直到某个时间段(比如200毫秒)内系统不断驻留在sil状态上，说明系统检测到静音，从此时间段回溯状态游走的历史，即可知道历史中的语音起点和终点。

步骤S232、将说话人语音特征和基频特征输入用户语音模型进行说话人验证。

将说话人语音特征如高阶频倒谱系数MFCC特征与基频特征如元音信号、浊音信号及轻辅音信号的声调特征对应的特征参数依次输入到用户语音模型，户语音模型依据上述特征与预先储存的各个用户语音特征进行用户匹配，得出最佳的匹配结果，确定说话人。

本发明实施例的一种优选方案可以采用后验概率或置信度是否大于某个阈值的方式进行用户匹配。

步骤S234、当说话人验证通过时，从第二段语音片段中提取唤醒信息，并对第二段语音片段进行语音识别，得到语音识别结果。

说话人验证通过后，继续执行后续一系列的语音识别步骤，对第二段语音片段中进行语音识别，得到语音识别结果，其中，语音识别结果中包括唤醒信息，唤醒信息包括唤醒词或唤醒意图信息。

在对第二段语音片段进行语音识别过程中，还可以利用数据词典辅助语音识别，例如，通过数据词典中存储的本地数据和网络数据对语音识别进行模糊匹配，以便快速得出识别结果。

唤醒词可以包括预先设定的词组，例如：展示通讯录；唤醒意图信息可以包括：识别结果中带有明显操作性意图的词语或句子，例如：播放甄嬛传第三集。

预设唤醒步骤，系统通过对识别结果进行检测，当检测到识别结果中包含唤醒信息时，则开启唤醒，进行交互模式。

步骤S236、采用预置语义规则对语音识别结果进行语义解析匹配。

步骤S238、对语义解析结果进行场景分析，提取至少一个语义标签。

步骤S240、依据语义标签确定操作指令，执行操作指令。

采用预置语义规则对语音识别结果进行语义解析匹配，其中预置语义规则可以包括：BNF语法，语义解析匹配包括以下至少一种：精确匹配、语义要素匹配和模糊匹配，上述三种匹配方式可以按照先后顺序进行匹配，如：精确匹配已完全解析出语音识别结果后就不需要进行后边的匹配；又如：精确匹配只匹配出百分之八十的语音识别结果，后续就需要进行语义要素匹配和/或模糊匹配。

精确匹配是指对语音识别结果进行全部精准匹配，例如：调用通讯录，通过精准匹配可以直接解析出调用通讯录的操作指示。

语义要素匹配是指对语音识别结果进行语义要素提取，根据提取到的语义要素进行匹配，例如：播放甄嬛传第三集，提到的语义要素分别为播放、甄嬛传以及第三集，通过语音要素匹配按照匹配的结果依次执行操作指示。

模糊匹配是指对于语音识别结果中不清楚的识别结果进行模糊匹配，例如：识别结果为“调用通讯录中的联系人陈琦”，但在通讯录中的联系人只有陈霁没有陈琦，通过模糊匹配将识别结果中的陈琦替换为陈霁，在执行操作指示。

依据数据词典对语义解析结果进行场景分析，将识别结果放入对应的特定场景中，在特定场景下提取至少一个语音标签，将语音标签进行格式化转换；其中数据词典包括本地数据与网络数据，格式化转换包括转换为JSON格式数据。

数据词典实质为一数据包，存储了本地数据与网络数据，在语音识别和语义解析过程中，数据词典辅助对第二语音片段的语音识别以及辅助对语音识别结果的语音解析。

当本地系统有网络连接时，可以把一些不敏感的用户偏好数据发送到云端服务器。云端服务器根据用户上传的数据，结合云端基于大数据的推荐，把新的相关高频视频名称或音乐名称添加到词典，并才减掉低频词条，然后推送回本地终端。另外本地的一些词典，比如通讯录，会经常被追加。这些词典在识别服务不重启的情况下，可以被热更新，从而不断的提高语音识别率和解析成功率。

依据转换后的数据确定对应的操作指令，依据操作指令执行所要执行的动作。

如：识别结果为“播放甄嬛传”经过解析后，意图为“电视剧”。“电视剧”这个意图下应该有三个关键语义标签：

其一、操作，取值“播放”；

其二、剧名：取值“甄嬛传”；

其三、集序号：unspecified。

此处“unspecified”是和应用层开发者约定的一个值，意为“未设定”。

将上述语义标签对识别结果进行格式化转换，依据转换后的数据，调用底层接口，执行该操作，如：调用音频播放程序，依据语义标签，搜索甄嬛传，按照标签的集序号播放甄嬛传。

实施上述本发明实施例，终端对语音信号进行监听，对监听的语音信号中截取第一语音片段，对第一语音片段进行分析确定能量谱，依据能量谱对第一段语音信号进行特征提取，分别提取语音识别特征、说话人特征及基频特征，据语音识别特征与基频特征对第一语音片段进行截取，得到更精确的第二语音片段，依据说话人语音特征和基频特确定语音片段所属用户，再预设唤醒步骤，对第二语音片段进行语音识别，得到语音识别结果，终端直接对监听的语音信号进行处理，从而无需上传服务器即可对语音进行识别，获取语音识别结果，且直接对语音的能量谱进行识别，提高了语音的识别率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明一个实施例一种用于语音识别的系统的结构框图，具体可以包括如下模块：

第一截取模块402，用于从监听的语音信号中截取第一语音片段，对第一语音片段进行分析确定能量谱；特征提取模块404，用于依据能量谱对第一语音片段进行特征提取，确定语音特征；第二截取模块406，用于依据语音特征对第一语音片段的能量谱进行分析，截取第二段语音片段；语音识别模块408，用于对第二段语音片段进行语音识别，得到语音识别结果。

本发明实施例的语音识别系统在离线状态下即可进行语音识别和通过语音进行控制，首先，第一截取模块402监听待识别语音信号，并截取第一语音片段作为后续语音处理的基础语音信号，其次，特征提取模块404对第一截取模块402截取到的第一语音片段进行特征提取，第二截取模块406再对第一语音片段进行二次截取，得到第二语音片段，最后，语音识别模块408通过对第二语音片段进行语音识别得到语音识别结果。

综上，依据本发明方法实施例部分实施本发明实施例系统部分，通过对监听的语音信号中截取第一语音片段，对第一语音片段进行分析确定能量谱，依据能量谱对第一段语音信号进行特征提取，依据提取到的语音特征对第一语音片段进行截取，得到更精确的第二语音片段，对第二语音片段进行语音识别，得到语音识别结果，解决了离线状态下语音识别功能单一、识别率低的问题。

对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图5，示出了本发明另一实施例第一种用于语音识别的系统结构框图，具体可以包括如下模块：

存储模块410，用于预先存储各用户的用户语音特征；建模模块412，依据每个用户的用户语音特征构建说用户语音模型，其中，用户语音模型用于确定语音信号对应用户；监听子模块40202，用于监听语音信号，对监听的语音信号的能量值进行检测；起点终点确定子模块40204，用于依据第一能量阈值与第二能量阈值，确定语音信号的起点与终点；其中，第一能量阈值大于第二能量阈值；截取子模块40206，用于将起点与终点间的语音信号作为第一语音片段；时域分析子模块40208，用于对第一语音片段进行时域分析，得到第一语音片段的时域信号；频域分析子模块40210，用于将时域信号变换为频域信号，去除频域信号中的相位信息；能量谱确定子模块40212，用于将频域信号转换为能量谱。

第一特征提取子模块4042，用于基于第一模型对第一语音片段对应的能量谱进行分析，提取语音识别特征，其中，语音识别特征包括：频倒谱系数MFCC特征、感知线性预测PLP特征、或线性鉴别分析LDA特征；第二特征提取子模块4044，用于基于第二模型对第一语音片段对应的能量谱进行分析，提取说话人语音特征，其中，说话人语音特征包括：高阶频倒谱系数MFCC特征；第三特征提取子模块4046，用于将第一语音片段对应的能量谱转换功率谱，分析功率谱得到基频特征。

检测子模块40602，用于依据语音识别特征与基频特征，基于第三模型检测第一语音片段的能量谱，确定静音部分和语音部分；起点确定子模块40604，用于依据第一语音片段中的第一个语音部分确定起点；终点确定子模块40608，用于当静音部分的时长超过静音阈值时，依据静音部分之前的语音部分确定终点；提取子模块40610，用于提取起点和终点之间的语音信号生成第二语音片段。

验证模块414，用于将说话人语音特征和基频特征输入用户语音模型进行说话人验证；唤醒模块416，用于当说话人验证通过时，从第二段语音片段中提取唤醒信息，其中唤醒信息包括唤醒词或唤醒意图信息；语义解析模块418，用于采用预置语义规则对语音识别结果进行语义解析匹配，其中，语义解析匹配包括以下至少一种：精确匹配、语义要素匹配和模糊匹配；标签提取模块420，用于对语义解析结果进行场景分析，提取至少一个语义标签；执行模块422，用于依据语义标签确定操作指令，执行操作指令。

综上，依据本发明方法实施例部分实施本发明实施例系统部分，通过对监听的语音信号中截取第一语音片段，对第一语音片段进行分析确定能量谱，依据能量谱对第一段语音信号进行特征提取，分别提取语音识别特征、说话人特征及基频特征，据语音识别特征与基频特征对第一语音片段进行截取，得到更精确的第二语音片段，依据说话人语音特征和基频特确定语音片段所属用户，再预设唤醒步骤，对第二语音片段进行语音识别，得到语音识别结果，解决了离线状态下语音识别功能单一、识别率低，以及无法识别特定用户的问题。

以上所描述的系统实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种数据录制方法和一种数据录制装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于语音识别的方法，其特征在于，包括：

从监听的语音信号中截取第一语音片段，对所述第一语音片段进行分析确定能量谱；

依据所述能量谱对所述第一语音片段进行特征提取，确定语音特征；

依据所述语音特征对所述第一语音片段的能量谱进行分析，截取第二段语音片段；

对所述第二段语音片段进行语音识别，得到语音识别结果。

2.根据权利要求1所述方法，其特征在于，所述从监听的语音信号中截取第一语音片段，包括：

监听语音信号，对监听的语音信号的能量值进行检测；

依据第一能量阈值与第二能量阈值，确定所述语音信号的起点与终点；其中，第一能量阈值大于第二能量阈值；

将起点与终点间的语音信号作为第一语音片段。

3.根据权利要求1所述方法，其特征在于，所述依据所述能量谱对所述第一语音片段进行特征提取，确定语音特征，包括：

基于第一模型对第一语音片段对应的能量谱进行分析，提取语音识别特征，其中，语音识别特征包括：频倒谱系数MFCC特征、感知线性预测PLP特征、或线性鉴别分析LDA特征；

基于第二模型对第一语音片段对应的能量谱进行分析，提取说话人语音特征，其中，说话人语音特征包括：高阶频倒谱系数MFCC特征；

将第一语音片段对应的能量谱转换功率谱，分析功率谱得到基频特征。

4.根据权利要求1所述方法，其特征在于，所述依据所述语音特征对所述第一语音片段的能量谱进行分析，截取第二段语音片段，包括：

依据语音识别特征与基频特征，基于第三模型检测第一语音片段的能量谱，确定静音部分和语音部分；

依据所述第一语音片段中的第一个语音部分确定起点；

当所述静音部分的时长超过静音阈值时，依据所述静音部分之前的语音部分确定终点；

提取起点和终点之间的语音信号生成第二语音片段。

5.根据权利要求1所述方法，其特征在于，所述的方法还包括：

预先存储各用户的用户语音特征；

依据每个用户的用户语音特征构建说用户语音模型，其中，所述用户语音模型用于确定语音信号对应用户。

6.根据权利要求5所述方法，其特征在于，对所述第二段语音片段进行语音识别，得到语音识别结果之前，还包括：

将说话人语音特征和基频特征输入用户语音模型进行说话人验证；

当说话人验证通过时，从所述第二段语音片段中提取唤醒信息，其中，所述唤醒信息包括唤醒词或唤醒意图信息。

7.根据权利要求1-6所述的任一方法，其特征在于，得到语音识别结果之后，所述方法还包括：

采用预置语义规则对语音识别结果进行语义解析匹配，其中，所述语义解析匹配包括以下至少一种：精确匹配、语义要素匹配和模糊匹配；

对语义解析结果进行场景分析，提取至少一个语义标签；

依据语义标签确定操作指令，执行所述操作指令。

8.一种用于语音识别的系统，其特征在于，包括：

第一截取模块，用于从监听的语音信号中截取第一语音片段，对所述第一语音片段进行分析确定能量谱；

特征提取模块，用于依据所述能量谱对所述第一语音片段进行特征提取，确定语音特征；

第二截取模块，用于依据所述语音特征对所述第一语音片段的能量谱进行分析，截取第二段语音片段；

语音识别模块，用于对所述第二段语音片段进行语音识别，得到语音识别结果。

9.根据权利要求8所述系统，其特征在于，所述第一截取模块，包括：

监听子模块，用于监听语音信号，对监听的语音信号的能量值进行检测；

起点终点确定子模块，用于依据第一能量阈值与第二能量阈值，确定所述语音信号的起点与终点；其中，第一能量阈值大于第二能量阈值；

截取子模块，用于将起点与终点间的语音信号作为第一语音片段。

10.根据权利要求8所述系统，其特征在于，所述特征提取模块，包括：

第一特征提取子模块，用于基于第一模型对第一语音片段对应的能量谱进行分析，提取语音识别特征，其中，语音识别特征包括：频倒谱系数MFCC特征、感知线性预测PLP特征、或线性鉴别分析LDA特征；

第二特征提取子模块，用于基于第二模型对第一语音片段对应的能量谱进行分析，提取说话人语音特征，其中，说话人语音特征包括：高阶频倒谱系数MFCC特征；

第三特征提取子模块，用于将第一语音片段对应的能量谱转换功率谱，分析功率谱得到基频特征。

11.根据权利要求8所述系统，其特征在于，所述第二截取模块，包括：

检测子模块，用于依据语音识别特征与基频特征，基于第三模型检测第一语音片段的能量谱，确定静音部分和语音部分；

起点确定子模块，用于依据所述第一语音片段中的第一个语音部分确定起点；

终点确定子模块，用于当所述静音部分的时长超过静音阈值时，依据所述静音部分之前的语音部分确定终点；

提取子模块，用于提取起点和终点之间的语音信号生成第二语音片段。

12.根据权利要求8所述系统，其特征在于，所述系统还包括：

存储模块，用于预先存储各用户的用户语音特征；

建模模块，依据每个用户的用户语音特征构建说用户语音模型，其中，所述用户语音模型用于确定语音信号对应用户。

13.根据权利要求12所述系统，其特征在于，所述系统还包括：

验证模块，用于将说话人语音特征和基频特征输入用户语音模型进行说话人验证；

唤醒模块，用于当说话人验证通过时，从所述第二段语音片段中提取唤醒信息，其中所述唤醒信息包括唤醒词或唤醒意图信息。

14.根据权利要求8-13所述任一系统，其特征在于，所述系统还包括：

语义解析模块，用于采用预置语义规则对语音识别结果进行语义解析匹配，其中，所述语义解析匹配包括以下至少一种：精确匹配、语义要素匹配和模糊匹配；

标签提取模块，用于对语义解析结果进行场景分析，提取至少一个语义标签；

执行模块，用于依据语义标签确定操作指令，执行所述操作指令。