CN110875059A

CN110875059A - 收音结束的判断方法、装置以及储存装置

Info

Publication number: CN110875059A
Application number: CN201811011907.2A
Authority: CN
Inventors: 熊友军; 李浩明; 夏严辉; 李利阳; 温品秀
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2020-03-10
Anticipated expiration: 2038-08-31
Also published as: US20200074992A1; CN110875059B; US10891945B2

Abstract

本申请公开了一种收音结束的判断方法、装置以及存储装置，其中方法包括：对当前声音片段进行语音活动检测获取第一值；通过深度学习对当前声音片段与下一条声音片段进行语义相关检测获取第二值；对第一值与所第二值进行加权计算以获取第三值；将第三值与预设阈值进行比较；根据所述比较的结果确定所述当前声音片段是否收音结束。通过上述方式，本申请提供的一种收音结束的判断方法、装置以及存储装置中，采用多检测方式获得第一值、第二值，并进一步采用权重算法获得第三值，最后进行比较判断是否收音结束，大大提升了准确率。

Description

收音结束的判断方法、装置以及储存装置

技术领域

本申请涉及收音结束判断领域，特别是涉及一种收音结束的判断方法、装置以及存储装置。

背景技术

目前，智能设备与人之间的语言交互越来越频繁，如对话机器人，现有的对话机器人中，由于无法直接了解到对人类一段语言的语义，所以需要将采集到声音分成多个独立的语句，并分别对每个语句进行处理以执行相应的命令，因此如何将采集的声音进行识别并准确分成多个独立的语句显得较为重要，但是现有对话机器人仅仅通过人类说话中是否进行停顿来判断其说话是否结束，然后才执行或处理其结束的语言，这样可能会漏掉其后续的一些信息，导致执行上的失败与错误，准确率较差，且用户体验感不佳。且这样对于多人声(如人声，或电视人声等)的场景而言，由于是连续的，无法判断下指令的人类的语音是否结束，从而无法正确的识别出人类的指令信息。

发明内容

本申请提供一种收音结束的判断方法、装置以及存储装置，能够解决现有含有人声的声音片段中对于语言收音结束判断准确率不高的问题。

本申请采用的一个技术方案是：提供一种收音结束的判断方法，其方法包括：对当前声音片段进行语音活动检测获取第一值；通过深度学习对所述当前声音片段与下一条声音片段进行语义相关检测获取第二值；对所述第一值与所述第二值进行加权计算以获取第三值；将所述第三值与预设阈值进行比较；根据所述比较的结果确定所述当前声音片段是否收音结束。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种收音结束的判断装置，所述装置包括存储器及连接所述存储器的处理器；其中，所述处理器对当前声音片段进行语音活动检测获取第一值；所述处理器通过深度学习对所述当前声音片段与下一条声音片段进行语义相关检测获取第二值；所述处理器对所述第一值与所述第二值进行加权计算以获取第三值；将所述第三值与预设阈值进行比较；根据所述比较的结果确定所述当前声音片段是否收音结束。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种存储装置，包括能实现上述方法的程序文件。

本申请的有益效果是：区别于现有技术，本申请提供一种收音结束的判断方法、装置以及存储装置，通过采用语音活动检测来获取当前声音片段的第一值，通过深度学习对当前声音片段与下一条声音片段进行语义相关检测获取第二值，并将第一值与第二值的权重计算结果与预设阈值进行比较，如果小于预设阈值，则确定当前声音片段已经收音结束，相比现有仅仅采用语音活动检测方式来判断是否收音结束而言，本申请引入了深度学习的方法，对语义进行释义与相关性的计算，从而增加了整个收音结束判断的准确性。

附图说明

图1是本申请收音结束的判断方法一实施方式的结构示意图；

图2是本申请收音结束的判断的装置一实施方式的结构示意框图；

图3是本申请存储装置一实施方式的结构示意图。

实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

请参阅图1，图1是本申请一种收音结束的判断方法的流程示意图，其具体包括如下步骤：

S11，对当前声音片段进行语音活动检测获取第一值。

在一具体应用场景中，首先对当前所采集的声音片段进行语音活动检测，获得其声音片段中关于语言的端点值，其具体也就是语言活动的一个结束标识，由于声音本身是一种波，具有一定能量，包括了频率和振幅的特征，因此在检测过程中可将声音片段分成多个数据帧，然后判断其中的数据帧中是否有能量骤然下降的情况，或者频率、振幅等突然发生了改变等等来判断声音片段中的语音活动是否存在了停止现象，也就声音片段中的语音活动是否结束，从而获得第一值，这里的第一值即端点值或声音片段的语言结束标识，例如其可以是0或者1来表示，如果声音片段中的语音活动存在停止现象，则其第一值可以为0，如果不存在则第一值为可以1，也可以是存在为1，不存在为0。

这里还可以采用其他常用的方法进行判断声音片段中的语音活动是否停止，这里不做限定。

S12，通过深度学习对当前声音片段与下一条声音片段进行语义相关检测获取第二值。

深度学习能够通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示，虽然对于人类语言而言，一般计算机只能将其转换成机器语言，只能做最简单的处理，然而采用深度学习可以对人类语言进行进一步的学习了解，进行释义解析，从而得到其大概的语义意思，并进行深度的完善，虽然计算机本身不具有理解功能，但还是并不妨碍计算机根据相关的语义进行扩展而进行处理与执行。

因此通过深度学习的方法对当前声音片段中的语音进行释义以获得其大概的语义，随后对下一条声音片段中的语音进行释义以获得其大概的语义，随后判断当前声音片段中的语音与下一条声音片段中的语音是否存在语义上的关联，及语义是否相关，语句是否连贯或者通顺，如当前声音片段的语音的语义可能是我需要，下一条声音片段中的语义是音量加大，因此其符合人类说话的习惯，通过深度学习可以认为其两个片段是具有一定相关性的，其相关性决定了第二值，相关性越强，则第二值越大，例如其相关性可以为0％至100％，第二值所对应的取值可以为0至1，如上述两个片段的第二值例如可以为0.5，如当前声音片段的语音的语义可能是跳舞，下一条声音片段中的语义是开灯，这两个具有不同的释义，且其不符合人类说话的连贯性，且比较难认为两个片段是相关联，所以认为其两个片段是无相关性或弱相关性的，或者在另一场景中，如当前声音片段的语音的语义可能是跳舞，下一条声音片段中并没有语言，只有部分环境噪音，因此可以认为两个片段是无相关性，其第二值例如可以为0。

这里也可以对当前声音片段中语言的末端字词和下一条声音片段的开端字词进行释义、拼写的解析对两个声音片段的相关性进行完善，从而提高相关性判断的准确率。

同时，还可以进行增加通过语调等其他语言特征等来对相关性进行判断，或者作为机器人或者其他计算机智能设备，如家用机器人，可以进一步针对当前用户的语言习惯进行多次学习，了解用户的语言特点，并根据其语言特性对相关性、预设阈值、预设权重等进行修改，以提高判断的准确性。

S13，对所述第一值与所述第二值进行加权计算以获取第三值。

上述已经获得第一值与第二值，为了达到更好的准确性，需要对第一值与第二值进行加权计算来获得第三值作为两个片段的总相关性。如可以给第一值赋予一个预设权重从而得到第一权重值，给第二值赋予一个预设权重得到第二权重值，对第一权重值与第二权重值进行计算获取第三值，如在具体场景中，例如第一值为0，表示当前声音片段中存在有语言活动结束的现象，例如第二值为0.5，代表着两个声音片段是有中等相关性的，例如将第一预设权重与第二预设权重设置均设置为0.5，则本场景中的第三值为0.5*0+0.5*0.5＝0.25。

S14，将第三值与预设阈值进行比较。

获得第三值后，将第三值与预先设置的预设阈值进行比较，以判断当前声音片段是否已经收音结束，如在一个具体应用场景中，例如可以将预设阈值设置为0.4，这里包括权重与阈值的设定不是固定不变，而是随着深度学习的一个完善的过程，以达到更好的判断准确率。

S15，根据所述比较的结果确定所述当前声音片段是否收音结束。

如按照上述具体场景中已经得到第三值，也设定了预设阈值，如当第三值为0.25时，预设阈值为0.4时，0.25<0.4，因此第三值小于预设阈值，则可以确定当前声音片段已经收音结束。

在其他实施例中，可以根据具体的情况设定，如可以是大于预设阈值而确定收音结束等。

在完成一次判断后，无论其比较结果如何，进一步将下一条声音片段作为当前声音片段，下下一条声音片段作为下一条声音片段的下一条声音片段，重复进行上述检测判断。

综上所述，上述实施例通过采用语音活动检测来获取当前声音片段的第一值，通过深度学习对当前声音片段与下一条声音片段进行语义相关检测获取第二值，并将第一值与第二值的权重计算结果与预设阈值进行比较，如果小于预设阈值，则确定当前声音片段已经收音结束，相比现有仅仅采用语音活动检测方式来判断是否收音结束而言，本申请引入了深度学习的方法，对当前语言片段与下一条语言片段的语义进行释义与相关性的计算，从而确定下一条语言片段是否是当前语言片段的一个语句延伸，从而减少了整个收音结束判断的误差，提高了准确率。

请参阅图2，图2是本申请可穿戴设备的一实施方式结构示意框图。

本实施例提供的可穿戴设备具体包括处理器10以及存储器11，其中，处理器10连接存储器11。

其中，处理器10还可以称为CPU(Central Processing Unit，中央处理单元)。处理器10可能是一种集成电路芯片，具有信号的处理能力。处理器10还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本实施中，处理器10可以用于当前声音片段进行语音活动检测获取第一值；通过深度学习对当前声音片段与下一条声音片段进行语义相关检测获取第二值，处理器还可以对第一值与第二值进行加权计算以获取第三值；并将第三值与预设阈值进行比较；如果第三值小于预设阈值，则确定当前声音片段已经收音结束。

上述设备的其他模块终端可分别执行上述方法实施例中对应的步骤，故在此不对各模块进行赘述，详细请参阅以上对应步骤的说明。

参阅图3，图3为本申请存储装置一实施方式的结构示意图，有能够实现上述所有方法的指令文件21，该指令文件21可以以软件产品的形式存储在上述存储装置中，同时还是记录各种计算的数据，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，智能机器人，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。

所述指令文件21还具有一定独立性，可以在运行系统、备份系统发生故障时候继续配合处理器10执行相关指令，在升级、引导程序升级以及修复中不会被替换、损坏以及清空。

而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

综上所述，上述实施例本申请通过采用语音活动检测来获取当前声音片段的第一值，通过深度学习对当前声音片段与下一条声音片段进行语义相关检测获取第二值，并将第一值与第二值的权重计算结果与预设阈值进行比较，如果小于预设阈值，则确定当前声音片段已经收音结束，相比现有技术中仅仅采用语音活动检测方式来判断是否收音结束而言，本申请引入了深度学习的方法，对当前语言片段与下一条语言片段的语义进行释义与相关性的计算，从而确定下一条语言片段是否是当前语言片段的一个语句延伸，从而减少了整个收音结束判断的误差，提高了准确率，增强了用户体验。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结果或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种收音结束的判断方法，其特征在于，所述方法包括：

对当前声音片段进行语音活动检测获取第一值；

通过深度学习对所述当前声音片段与下一条声音片段进行语义相关检测获取第二值；

对所述第一值与所述第二值进行加权计算以获取第三值；

将所述第三值与预设阈值进行比较；

根据所述比较的结果确定所述当前声音片段是否收音结束。

2.根据权利要求1所述的判断方法，其特征在于，所述通过深度学习对所述当前声音片段与下一条声音片段进行语义相关检测获取第二值包括：

对所述当前声音片段与所述下一条声音片段进行学习性解析其语义之间的相关性以获得所述当前声音片段与所述下一条声音片段的第二值。

3.根据权利要求1所述的判断方法，其特征在于，所述对所述第一值与所述第二值进行加权计算以获取第三值包括：

给所述第一值赋予第一预设权重获得第一权重值；

给所述第二值赋予第二预设权重获得第二权重值；

对所述第一权重值与所述第二权重值进行计算获取所述第三值。

4.根据权利要求1所述的判断方法，其特征在于，所述对当前声音片段进行语音活动检测获取第一值包括：

将所述当前声音片段分成多个数据帧，对所述多个数据帧进行处理获取到所述当前声音片段的第一值。

5.根据权利要求1所述的判断方法，其特征在于，所述第一值为所述声音片段的语言结束标识，所述第一值用于标识所述声音片段的语音活动是否存在停止现象。

6.一种语言收音结束的判断装置，其特征在于，所述装置包括存储器及连接所述存储器的处理器；

其中，所述处理器对当前声音片段进行语音活动检测获取第一值；所述处理器通过深度学习对所述当前声音片段与下一条声音片段进行语义相关检测获取第二值；所述处理器对所述第一值与所述第二值进行加权计算以获取第三值；将所述第三值与预设阈值进行比较；根据所述比较的结果确定所述当前声音片段是否收音结束。

7.根据权利要求6所述的判断装置，其特征在于，所述处理器所述通过深度学习对所述当前声音片段与下一条声音片段进行语义相关检测获取第二值包括：

所述处理器对所述当前声音片段与所述下一条声音片段进行学习性解析其语义之间的相关性以获得所述当前声音片段与所述下一条声音片段的第二值。

8.根据权利要求6所述的判断装置，其特征在于，所述处理器对所述第一值与所述第二值进行加权计算以获取第三值包括：

给所述第一值赋予第一预设权重获得第一权重值；

给所述第二值赋予第二预设权重获得第二权重值；

9.根据权利要求6所述的判断装置，其特征在于，所述处理器对当前声音片段进行语音活动检测获取第一值包括：

10.一种存储装置，其特征在于，存储有能够实现如权利要求1-5中任一项所述方法的程序文件。