CN115273912A

CN115273912A - 语音状态判定方法、装置、终端及存储介质

Info

Publication number: CN115273912A
Application number: CN202210844154.3A
Authority: CN
Inventors: 裴新华
Original assignee: Shanghai Pharud Intelligent Technology Co ltd
Current assignee: Shanghai Pharud Intelligent Technology Co ltd
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-11-01

Abstract

本申请提供语音状态判定方法、装置、终端及存储介质，包括：基于语音活动检测算法对待判定语音段进行语音状态判定；若判定语音状态为未开始说话且当前语音段未结束，则提取从判定有语音的语音帧开始到当前语音帧之间的语音帧集合；基于自动语音识别算法对所述语音帧集合进行语音状态再判定，以判定所述待判定语音段的语音状态是否确为未开始说话。本发明使用ASR识别结果作为VAD检测开始说话的兜底错误，规避了单一VAD的识别遗漏，从而提升了开始说话的判定准确率；基于大批量的人声语音统计数据，对VAD开始、结束说话判定进行策略优化，规避了纯概率预测的无针对性，使判定符合人发声特点提升了开始、结束说话判定的准确率。

Description

语音状态判定方法、装置、终端及存储介质

技术领域

本申请涉及语音识别技术领域，特别是涉及语音状态判定方法、装置、终端及存储介质。

背景技术

随着数据处理技术的进步以及移动互联网的快速普及，计算机技术被广泛地运用到了社会的各个领域，随之而来的则是海量数据的产生。其中，语音数据受到了人们越来越多的重视，语音判定是一门交叉学科。近二十年来。语音判定技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音判定技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

目前，语音开始、语音结束的判断都是依赖VAD技术判定的，VAD(Voice ActivityDetection)是指语音活动检测，又称为语音端点检测或语音边界检测，目的是从声音信号流中判定并消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，静音抑制可以节省宝贵的带宽资源，可以有利于减少用户感觉到的端到端的时延。但是，单纯依赖VAD判定语音开始和语音结束的准确率偏低。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供，用于解决现有技术中单纯依赖VAD判定语音开始和语音结束的准确率偏低的问题。

为实现上述目的及其他相关目的，本申请的第一方面提供一种语音状态判定方法，包括：基于语音活动检测算法对待判定语音段进行语音状态判定；若判定语音状态为未开始说话且当前语音段未结束，则提取从判定有语音的语音帧开始到当前语音帧之间的语音帧集合；基于自动语音识别算法对所述语音帧集合进行语音状态再判定，以判定所述待判定语音段的语音状态是否确为未开始说话。

于本申请的第一方面的一些实施例中，所述基于自动语音识别算法对所述语音帧集合进行语音状态再判定，包括：若所述自动语音识别算法对所述语音帧结合的识别结果中的字符数量大于零，则判定语音状态为开始说话，否则判定语音状态确为未开始说话。

于本申请的第一方面的一些实施例中，还包括：若基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话，则直接确定语音状态为开始说话。

于本申请的第一方面的一些实施例中，所述基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话的过程包括：将最先被判定为有语音的语音帧设定为持续计时起始帧，若从所述持续计时起始帧起算的语音持续时间满足标准持续时长，则判定所述待判定语音段的语音状态为开始说话。

于本申请的第一方面的一些实施例中，所述基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话的过程还包括：将最先被判定为有语音的语音帧设定为持续计时起始帧，舍弃从所述持续计时起始帧起算的语音持续时间不满足标准尾部误判时长的语音帧段，并依序寻找新的持续计时起始帧，以重新进行开始说话判定。

于本申请的第一方面的一些实施例中，还包括结束说话判定；所述结束说话判定的方式包括：根据从停顿计时起始帧起算的停顿时间与标准停顿时长之间的关系以及停顿计时尾帧有无语音，判定所述待判定语音段的语音状态是否为结束说话。

于本申请的第一方面的一些实施例中，所述结束说话判定的过程包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，若从所述停顿计时起始帧起算的停顿持续时间达到标准停顿时长且尾帧无语音，则判定所述待判定语音段的语音状态为结束说话。

于本申请的第一方面的一些实施例中，所述结束说话判定的过程包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，舍弃在停顿计时范围内出现的语音持续时间不满足标准尾部误判时长的语音帧段；若从所述停顿计时起始帧起算的停顿持续时间达到标准停顿时长且尾帧无语音，则判定所述待判定语音段的语音状态为结束说话。

于本申请的第一方面的一些实施例中，所述结束说话判定的过程包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，并以所述停顿计时起始帧之后的第一个有语音的语音帧作为尾部误判计时起始帧，若语音持续时间满足标准尾部误判时长，则依序寻找下一个无语音的语音帧作为新的停顿计时起始帧，以重新开始停顿计时。

于本申请的第一方面的一些实施例中，所述结束说话判定的过程包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，若从所述停顿计时起始帧起算的停顿计时范围的尾帧有语音，则舍弃当前的停顿计时判定，并依序寻找新的停顿计时起始帧。

为实现上述目的及其他相关目的，本申请的第二方面提供一种语音状态判定装置，包括：初判定模块，用于基于语音活动检测算法对待判定语音段进行语音状态判定；再判定模块，用于若判定语音状态为未开始说话且当前语音段未结束，则提取从判定有语音的语音帧开始到当前语音帧之间的语音帧集合；基于自动语音识别算法对所述语音帧集合进行语音状态再判定，以判定所述待判定语音段的语音状态是否确为未开始说话。

为实现上述目的及其他相关目的，本申请的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述语音状态判定方法。

为实现上述目的及其他相关目的，本申请的第四方面提供一种电子终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述语音状态判定方法。

如上所述，本申请的语音状态判定方法、装置、终端及存储介质，具有以下有益效果：

(1)使用ASR识别结果作为VAD检测开始说话的兜底错误，规避了单一VAD的识别遗漏，从而提升了开始说话的判定准确率。

(2)基于大批量的人声语音统计数据，对VAD开始、结束说话判定进行策略优化，规避了纯概率预测的无针对性，使判定符合人发声特点提升了开始、结束说话判定的准确率。

附图说明

图1显示为本申请一实施例中的一种语音状态判定方法的流程示意图。

图2显示为本申请一实施例中的一种语音状态判定方法的流程示意图。

图3A显示为本申请一实施例中使用VAD算法判定开始说话的场景示意图。

图3B显示为本申请一实施例中使用VAD算法判定开始说话的场景示意图。

图4A显示为本申请一实施例中判定结束说话的场景示意图。

图4B显示为本申请一实施例中判定结束说话的场景示意图。

图4C显示为本申请一实施例中判定结束说话的场景示意图。

图4D显示为本申请一实施例中判定结束说话的场景示意图。

图5显示为本申请一实施例中语音状态判定终端的结构示意图。

图6显示为本申请一实施例中语音状态判定装置的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本申请的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本申请。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在本申请中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

在对本发明进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释：

<1>VAD(Voice Activity Detection)：语音活动检测，又称语音断点检测或语音边界检测，目的是从声音信号流中判定和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用；静音抑制可以节省宝贵的带宽资源，可以有利于减少用户感觉到的端到端的时延。

<2>ASR(Automatic Speech Recognition)：自动语音判定技术，是一种将人的语音转换为文本的技术，目标是将人类语言中的词汇内容转换为计算机可读的输入。

如图1所示，展示了本发明实施例中的一种语音状态判定方法的流程示意图。在本实施例中，所述语音状态判定方法包括多个步骤，各步骤的具体内容如下：

步骤S11：基于语音活动检测算法对待判定语音段进行语音状态判定。

需说明的是，本实施例中的语音活动检测算法也可简称为VAD算法，故应理解下文中出现的语音活动检测算法或VAD算法实为同一种算法。

VAD算法常见的应用场合示例如下：用户打电话时，并不是总在占用通话信道。根据传统电话业务的统计，一方用户实际占用通话信道的时间不会满足整个通话时间的40％。这主要包括以下几个方面的原因：一是正在听对方说话；二是由于思考、稍事休息等原因引起的一段话之间的停顿；三是说话中间的停顿，如犹豫、呼吸、口吃等。第一种情况下停顿间隙长而出现频率低；第三种情况停顿间隙短而出现频率高；第二种情况界于一、三种情况之间。语音源的这种特性叫做开关特性，有时也叫话音/静默特性。

步骤S12：若判定语音状态为未开始说话且当前语音段未结束，则提取从判定有语音的语音帧开始到当前语音帧之间的语音帧集合。

具体而言，在本实施例的技术方案中，若VAD算法对开始说话判定为假且判定语音段说话未结束，此时还不能直接认定当前不说话，而是要获取从VAD判定有语音的语音帧作为起始时间点到当前时间点之间的所有语音帧以进行二次判定。

步骤S13：基于自动语音识别算法对所述语音帧集合进行语音状态再判定，以判定所述待判定语音段的语音状态是否确为未开始说话。

需说明的是，本实施例中的自动语音识别算法也可简称为ASR算法，故应理解下文中出现的自动语音识别算法或ASR算法实为同一种算法。

ASR算法是一种将人的语音转换为文本的技术，其目标就是将人类语言中的词汇内容转换为计算机可读的输入。通常而言，ASR算法的处理过程如下：

第一步是预先构建声学模型；常用的声学模型例如可采用隐马尔科夫模型进行建模。对于同一个词，由于每个人的发音、语调、语速等都各不相同，为了能让机器识别出更多的人，在声学模型建立过程中需要录入大量的原始用户声音，提取出其中的特征进行处理，并建立声学模型数据库，在声学训练步骤中估算出声学模型的参数。

第二步是预先构建语言模型；语言模型包括由识别语音命令构成的语法网络或者由统计方法构成的语言模型。根据语言的客观事实，进行语言抽象数学建模，这是一种对应关系。语言模型可以很好地调整声学模型所得到的不合逻辑的词，使得识别结果变得通顺且正确，这对于自然语音的信息处理也有着重要的意义。

第三步是进行语音识别；根据预先构建的声学模型和语言模型形成数据库，可存储在本地或者云端；将用户的语音输入进行编码和特征提取，再将提取到的特征与声学模型进行匹配得到单词，再与语言模型进行匹配得到最为匹配的词。

在一些示例中，所述基于自动语音识别算法对所述语音帧集合进行语音状态再判定，包括：若所述自动语音识别算法对所述语音帧结合的识别结果中的字符数量大于零，则判定语音状态为开始说话，否则判定语音状态确为未开始说话。

为便于理解，现结合图2的判断逻辑图进行进一步的说明如下：

步骤S21：输入待判定语音段。

步骤S22：基于VAD算法判定语音状态是否为开始说话。

步骤S23：若VAD算法判定开始说话，则可直接确认开始说话。

步骤S24：若VAD算法判定未开始说话，则基于ASR算法进行再判定。

步骤S25：若ASR判定结果中character(字符)数＞0，则确认开始说话。

步骤S26：若ASR判定结果中character(字符)数＝0，则确认未开始说话。

在一些示例中，基于所述语音活动检测算法判定所述待判定语音段的语音状态为开始说话的过程包括：将最先被判定为有语音的语音帧设定为持续计时起始帧，若从所述持续计时起始帧起算的语音持续时间满足标准持续时长，则判定所述待判定语音段的语音状态为开始说话。

需说明的是，所述标准持续时长是基于大量的原始用户声音数据提取出的经验值，用于作为判定是否开始说话的标准。本申请在分析大量的原始用户声音数据后将所述标准持续时长设定为300ms，但应理解的是300ms仅是本实施例所选的一个较优值而非限定，本领域技术人员可根据实际应用场景调整所述标准持续时长的具体选值。

为便于理解，现结合图3A并以使用VAD算法判定开始说话的场景为例进行说明如下：图中的横轴表示时间轴，时间轴上的每个标识点是语音帧，值为0说明该语音帧没有声音，值为1说明该语音帧有声音；从时间轴的左边起算，第一个值为1的语音帧作为持续计时起始帧A1，语音持续时间≥标准持续时长(本实施例中设定为300ms)，那么将这段语音帧段的尾帧A2作为用户开始说话的标志。

在一些示例中，所述基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话的过程还包括：将最先被判定为有语音的语音帧设定为持续计时起始帧，舍弃从所述持续计时起始帧起算的语音持续时间不满足标准尾部误判时长的语音帧段，并依序寻找新的持续计时起始帧，以重新进行开始说话判定。

需说明的是，所述标准尾部误判时长是基于大量的原始用户声音数据提取出的经验值，用于作为判定是否是语音段尾部的标准。本申请在分析大量的原始用户声音数据后将所述标准尾部误判时长设定为180ms，但应理解的是180ms仅是本实施例所选的一个较优值而非限定，本领域技术人员可根据实际应用场景调整所述标准尾部误判时长的具体选值。

为便于理解，现结合图3B并以使用VAD算法判定开始说话的场景为例进行说明如下：图中的横轴表示时间轴，时间轴上的每个标识点是语音帧，值为0说明该语音帧没有声音，值为1说明该语音帧有声音；从时间轴的左边起算，第一个值为1的语音帧作为语音持续计时的起始帧B1，从起始帧B1起算中途出现了一段语音持续时间不满足标准尾部误判时长(本实施例中设定为180ms)的语音帧段，将这段语音帧段舍弃掉；从舍弃的语音帧段后出现的第一个有语音的语音帧作为新的起始帧B2，从起始帧B2起算，若仍有语音持续时间不满足标准尾部误判时长的语音帧段则继续舍弃，直至语音持续时间满足标准持续时长(本实施例中设定为300ms)，那么将这段语音帧段的尾帧B3作为用户开始说话的标志。

在一些示例中，所述语音状态判定方法还包括结束说话判定；所述结束说话判定的过程包括：根据从停顿计时起始帧起算的停顿时间与标准停顿时长之间的关系以及停顿计时尾帧有无语音，判定所述待判定语音段的语音状态是否为结束说话。

需说明的是，所述标准停顿时长是基于大量的原始用户声音数据提取出的经验值，用于作为判定是否是语音停顿的标准。本申请在分析大量的原始用户声音数据后将所述标准停顿时长设定为500ms，但应理解的是500ms仅是本实施例所选的一个较优值而非限定，本领域技术人员可根据实际应用场景调整所述标准停顿时长的具体选值。

在一些示例中，判定所述待判定语音段的语音状态是否为结束说话的方式包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，若从所述停顿计时起始帧起算的停顿持续时间达到标准停顿时长且尾帧无语音，则判定所述待判定语音段的语音状态为结束说话。

为便于理解，现结合图4A中判定结束说话的场景为例进行说明如下：图中的横轴表示时间轴，时间轴上的每个标识点是语音帧，值为0说明该语音帧没有声音，值为1说明该语音帧有声音；从时间轴的左边起算，第一个值为1的语音帧作为停顿计时起始帧C1，若从停顿计时起始帧C1起算的停顿持续时间达到标准停顿时长(本实施例中设定为500ms)，那么将这段语音帧段的尾帧C2作为用户结束说话的标志。

在一些示例中，判定所述待判定语音段的语音状态是否为结束说话的方式包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，舍弃在停顿计时范围内出现的语音持续时间不满足标准尾部误判时长的语音帧段；若从所述停顿计时起始帧起算的停顿持续时间达到标准停顿时长且尾帧无语音，则判定所述待判定语音段的语音状态为结束说话。

为便于理解，现结合图4B中判定结束说话的场景进行说明如下：图中的横轴表示时间轴，时间轴上的每个标识点是语音帧，值为0说明该语音帧没有声音，值为1说明该语音帧有声音；从时间轴的左边起算，第一个值为0的语音帧作为停顿计时起始帧D1；从停顿计时起始帧D1起的停顿计时范围内出现的第一个值为1的语音帧D2，开始尾部误判计时，若从语音帧D2起算的语音持续时间(本示例中是指值为1的语音帧的持续时间)≤标准尾部误判时长(本实施例中设定为180ms)，则舍弃这段语音帧段，同理语音帧D3也应被舍弃。将应舍弃的均被舍弃后，若从停顿计时起始帧D1起算的停顿持续时间达到标准停顿时长且尾帧的值为0，则判定所述待判定语音段的语音状态为结束说话，尾帧D4即为用户结束说话的标志。

在一些示例中，判定所述待判定语音段的语音状态是否为结束说话的方式包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，并以所述停顿计时起始帧之后的第一个有语音的语音帧作为尾部误判计时起始帧，若语音持续时间满足标准尾部误判时长，则依序寻找下一个无语音的语音帧作为新的停顿计时起始帧，以重新开始停顿计时。

为便于理解，现结合图4C中判定结束说话的场景为例进行说明如下：图中的横轴表示时间轴，时间轴上的每个标识点是语音帧，值为0说明该语音帧没有声音，值为1说明该语音帧有声音；从时间轴的左边起算，第一个值为0的语音帧作为停顿计时起始帧E1；从停顿计时起始帧E1起算的第一个值为1的语音帧作为尾部误判计时起始帧E2，从尾部误判计时起始帧E2起算的语音持续时间＞标准尾部误判时长(本实施例中设定为180ms)，则依序寻找下一个无语音的语音帧作为新的停顿计时起始帧E3，并重新开始停顿计时。

在一些示例中，判定所述待判定语音段的语音状态是否为结束说话的方式包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，若从所述停顿计时起始帧起算的停顿计时范围的尾帧有语音，则舍弃当前的停顿计时判定，并依序寻找新的停顿计时起始帧。

为便于理解，现结合图4D中判定结束说话的场景为例进行说明如下：图中的横轴表示时间轴，时间轴上的每个标识点是语音帧，值为0说明该语音帧没有声音，值为1说明该语音帧有声音；从时间轴的左边起算，第一个值为0的语音帧作为停顿计时起始帧F1；若从停顿计时起始帧F1起算的停顿计时范围的尾帧F2值为1，则应直接舍弃当前判断，寻找下一个语音停顿计时。

本发明实施例提供的语音状态判定方法可以采用终端侧或服务器侧实施，就语音状态判定终端的硬件结构而言，请参阅图5，为本发明实施例提供的语音状态判定终端500的一个可选的硬件结构示意图，该终端500可以是移动电话、计算机设备、平板设备、个人数字处理设备、工厂后台处理设备等。语音状态判定终端500包括：至少一个处理器501、存储器502、至少一个网络接口504和用户接口506。装置中的各个组件通过总线系统505耦合在一起。可以理解的是，总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统。

其中，用户接口506可以包括显示器、键盘、鼠标、轨迹球、点击枪、按键、按钮、触感板或者触摸屏等。

可以理解，存储器502可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous StaticRandomAccess Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类别的存储器。

本发明实施例中的存储器502用于存储各种类别的数据以支持语音状态判定终端500的操作。这些数据的示例包括：用于在语音状态判定终端500上操作的任何可执行程序，如操作系统5021和应用程序5022；操作系统5021包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序5022可以包含各种应用程序，例如媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例提供的语音状态判定方法可以包含在应用程序5022中。

上述本发明实施例揭示的方法可以应用于处理器501中，或者由处理器501实现。处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器501可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供的配件优化方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，语音状态判定终端500可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex ProgrammableLogicDevice)，用于执行前述方法。

如图6所示，展示了本发明实施例中的一种语音状态判定装置的结构示意图。本实施例中的语音状态判定装置600包括：初判定模块601和再判定模块602。

所述初判定模块601用于基于语音活动检测算法对待判定语音段进行语音状态判定。

在一些示例中，若所述初判定模块601判定所述待判定语音段的语音状态为开始说话，则直接确定语音状态为开始说话。

在一些示例中，所述基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话的过程包括：将最先被判定为有语音的语音帧设定为持续计时起始帧，若从所述持续计时起始帧起算的语音持续时间满足标准持续时长，则判定所述待判定语音段的语音状态为开始说话。

在一些示例中，还包括结束说话判定；所述结束说话判定的方式包括：根据从停顿计时起始帧起算的停顿时间与标准停顿时长之间的关系以及停顿计时尾帧有无语音，判定所述待判定语音段的语音状态是否为结束说话。

在一些示例中，所述结束说话判定的过程包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，若从所述停顿计时起始帧起算的停顿持续时间达到标准停顿时长且尾帧无语音，则判定所述待判定语音段的语音状态为结束说话。

在一些示例中，所述结束说话判定的过程包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，舍弃在停顿计时范围内出现的语音持续时间不满足标准尾部误判时长的语音帧段；若从所述停顿计时起始帧起算的停顿持续时间达到标准停顿时长且尾帧无语音，则判定所述待判定语音段的语音状态为结束说话。

在一些示例中，所述结束说话判定的过程包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，并以所述停顿计时起始帧之后的第一个有语音的语音帧作为尾部误判计时起始帧，若语音持续时间满足标准尾部误判时长，则依序寻找下一个无语音的语音帧作为新的停顿计时起始帧，以重新开始停顿计时。

在一些示例中，所述结束说话判定的过程包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，若从所述停顿计时起始帧起算的停顿计时范围的尾帧有语音，则舍弃当前的停顿计时判定，并依序寻找新的停顿计时起始帧。

所述再判定模块602用于若判定语音状态为未开始说话且当前语音段未结束，则提取从判定有语音的语音帧开始到当前语音帧之间的语音帧集合；基于自动语音识别算法对所述语音帧集合进行语音状态再判定，以判定所述待判定语音段的语音状态是否确为未开始说话。

在一些示例中，所述再判定模块602进行再判定的过程包括：若所述自动语音识别算法对所述语音帧结合的识别结果中的字符数量大于零，则判定语音状态为开始说话，否则判定语音状态确为未开始说话。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述语音状态判定方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

于本申请提供的实施例中，所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外，任何连接都可以适当地称为计算机可读介质。例如，如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术，从网站、服务器或其它远程源发送的，则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而，应当理解的是，计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质，而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中，磁盘通常磁性地复制数据，而光盘则用激光来光学地复制数据。

综上所述，本申请提供语音状态判定方法、装置、终端及存储介质，本发明使用ASR识别结果作为VAD检测开始说话的兜底错误，规避了单一VAD的识别遗漏，从而提升了开始说话的判定准确率；基于大批量的人声语音统计数据，对VAD开始、结束说话判定进行策略优化，规避了纯概率预测的无针对性，使判定符合人发声特点提升了开始、结束说话判定的准确率。所以，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种语音状态判定方法，其特征在于，包括：

基于语音活动检测算法对待判定语音段进行语音状态判定；

若判定语音状态为未开始说话且当前语音段未结束，则提取从判定有语音的语音帧开始到当前语音帧之间的语音帧集合；

基于自动语音识别算法对所述语音帧集合进行语音状态再判定，以判定所述待判定语音段的语音状态是否确为未开始说话。

2.根据权利要求1所述的语音状态判定方法，其特征在于，所述基于自动语音识别算法对所述语音帧集合进行语音状态再判定，包括：若所述自动语音识别算法对所述语音帧结合的识别结果中的字符数量大于零，则判定语音状态为开始说话，否则判定语音状态确为未开始说话。

3.根据权利要求1所述的语音状态判定方法，其特征在于，还包括：若基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话，则直接确定语音状态为开始说话。

4.根据权利要求2所述的语音状态判定方法，其特征在于，所述基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话的过程包括：将最先被判定为有语音的语音帧设定为持续计时起始帧，若从所述持续计时起始帧起算的语音持续时间满足标准持续时长，则判定所述待判定语音段的语音状态为开始说话。

5.根据权利要求2所述的语音状态判定方法，其特征在于，所述基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话的过程还包括：将最先被判定为有语音的语音帧设定为持续计时起始帧，舍弃从所述持续计时起始帧起算的语音持续时间不满足标准尾部误判时长的语音帧段，并依序寻找新的持续计时起始帧，以重新进行开始说话判定。

6.根据权利要求1所述的语音状态判定方法，其特征在于，还包括结束说话判定；所述结束说话判定的方式包括：根据从停顿计时起始帧起算的停顿时间与标准停顿时长之间的关系以及停顿计时尾帧有无语音，判定所述待判定语音段的语音状态是否为结束说话。

7.根据权利要求6所述的语音状态判定方法，其特征在于，所述结束说话判定的过程包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，若从所述停顿计时起始帧起算的停顿持续时间达到标准停顿时长且尾帧无语音，则判定所述待判定语音段的语音状态为结束说话。

8.根据权利要求6所述的语音状态判定方法，其特征在于，所述结束说话判定的过程包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，舍弃在停顿计时范围内出现的语音持续时间不满足标准尾部误判时长的语音帧段；若从所述停顿计时起始帧起算的停顿持续时间达到标准停顿时长且尾帧无语音，则判定所述待判定语音段的语音状态为结束说话。

9.根据权利要求6所述的语音状态判定方法，其特征在于，所述结束说话判定的过程包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，并以所述停顿计时起始帧之后的第一个有语音的语音帧作为尾部误判计时起始帧，若语音持续时间满足标准尾部误判时长，则依序寻找下一个无语音的语音帧作为新的停顿计时起始帧，以重新开始停顿计时。

10.根据权利要求6所述的语音状态判定方法，其特征在于，所述结束说话判定的过程包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，若从所述停顿计时起始帧起算的停顿计时范围的尾帧有语音，则舍弃当前的停顿计时判定，并依序寻找新的停顿计时起始帧。

11.一种语音状态判定装置，其特征在于，包括：

初判定模块，用于基于语音活动检测算法对待判定语音段进行语音状态判定；

再判定模块，用于若判定语音状态为未开始说话且当前语音段未结束，则提取从判定有语音的语音帧开始到当前语音帧之间的语音帧集合；基于自动语音识别算法对所述语音帧集合进行语音状态再判定，以判定所述待判定语音段的语音状态是否确为未开始说话。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的语音状态判定方法。

13.一种语音识别终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至10中任一项所述的语音状态判定方法。