CN106921911A

CN106921911A - 语音采集方法及装置

Info

Publication number: CN106921911A
Application number: CN201710242000.6A
Authority: CN
Inventors: 蔡正浩
Original assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Current assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Priority date: 2017-04-13
Filing date: 2017-04-13
Publication date: 2017-07-04
Anticipated expiration: 2037-04-13
Also published as: CN106921911B

Abstract

本发明提供一种语音采集方法，应用于分布式语音系统中，分布式语音系统包括一个中心终端和至少一个附属终端，中心终端和附属终端内设有声音采集模块和功能芯片，附属终端通过电力线与中心终端通信相连，语音采集方法包括以下步骤：获取中心终端和附属终端基于声音采集模块采集的有效语音信号；当采集的有效语音信号的数量大于1时，在有效语音信号中选择最优信号确认为输入信号；当采集的有效语音信号的数量为1时将该有效语音信号确认为输入信号。本发明还提供一种语音采集装置。本发明通过设置中心终端和附属终端，提高了语音采集的范围，同时，在采集到多个语音信号的时候，通过筛选确认最优信号，提高了语音信号采集的质量。

Description

语音采集方法及装置

技术领域

本发明涉及语音识别领域，尤其涉及一种语音采集方法及装置。

背景技术

随着物联网的发展，近年来，人们的工作逐渐向趋于智能化发展，例如依托智能设备搭建的智能家居、智能办公等。现有的智能设备的控制方式主要包括输入式控制和自动控制，其中自动控制主要依托传感器采集信号并控制相应的设备，例如利用光传感器采集环境亮度信息以调节照明度等，这种控制方式较为呆板，只能按照预设程序进行调节，无法满足使用者灵活多变的需求。现有的输入式控制主要包括直接在终端上的输入式控制，例如通过手机、平板电脑上的APP进行操控，但是这种控制方式较为麻烦；而输入式控制还包括语音控制，即识别采集到的语音信号，并进行控制，典型的语音控制为苹果公司的Siri和微软公司的Cortana。现有的语音控制方式仍存在一定缺陷，现有的语音识别设备识别距离短，采集效果差，一般来说，现有的语音识别设备工作范围一般在3米以内，所以使用过程中，需要靠近语音识别设备才能完成语音采集，给使用带来较多不便。

发明内容

本发明的主要目的在于提供一种语音采集方法及装置，旨在提高语音信号的采集范围和质量。

为实现上述目的，本发明提供的一种语音采集方法，所述语音采集方法应用于分布式语音系统，所述分布式语音系统包括一个中心终端和至少一个附属终端，所述中心终端和附属终端内设有声音采集模块和功能芯片，所述附属终端通过电力线与中心终端通信相连，所述语音采集方法包括以下步骤：

获取所述中心终端和附属终端基于声音采集模块采集的有效语音信号；

判断采集的有效语音信号的数量是否大于1；

若采集的有效语音信号的数量大于1，则在所述有效语音信号中选择最优信号确认为输入信号；

若采集的有效语音信号的数量为1，则将该有效语音信号确认为输入信号。

优选的，所述获取所述中心终端和附属终端基于声音采集模块采集的有效语音信号的步骤包括：

中心终端和附属终端基于声音采集模块采集语音信号；

将音量大于第一预设值的语音信号确认为有效语音信号，并获取所述有效语音信号的核心信息，其中，所述核心信息包括语音信号的声纹、开始时间、结束时间和语音音量；

将所述附属终端采集的有效语音信号的核心信息通过电力线载波通信发送至所述中心终端。

优选的，所述判断采集到语音信号的数量是否大于1包括：

依据核心信息获取具有相同声纹，且开始时间的间隔小于第二预设值的有效语音信号的数量；

判断所述具有相同声纹，且开始时间的间隔小于第二预设值的有效语音信号的数量是否大于1。

优选的，所述在所述语音信号中选择最优信号确认为输入信号具体包括：

将具有相同声纹，且开始时间的间隔小于第二预设值的有效语音信号中语音音量最大的语音信号确认为输入信号。

优选的，所述语音采集方法还包括：

当检测到输入信号时，解析所述输入信号；

依据解析结果判断所述输入信号是否为预设语音指令；

当所述输入信号为预设语音指令时，执行所述语音指令。

此外，为实现上述目的，本发明还提供一种语音采集装置，所述语音采集装置应用于分布式语音系统，所述分布式语音系统包括一个中心终端和至少一个附属终端，所述中心终端和附属终端内设有声音采集模块和功能芯片，所述附属终端通过电力线与中心终端通信相连，所述语音采集装置包括：

获取模块，用于获取所述中心终端和附属终端基于声音采集模块采集的有效语音信号；

第一判断模块，用于判断采集的有效语音信号的数量是否大于1；

第一确认模块，用于在采集的有效语音信号的数量大于1时，在所述有效语音信号中选择最优信号确认为输入信号；

第二确认模块，用于在采集的有效语音信号的数量为1时，将该有效语音信号确认为输入信号。

优选的，所述中心终端和附属终端基于声音采集模块采集语音信号；

所述获取模块包括：

确认单元，用于将音量大于第一预设值的语音信号确认为有效语音信号，并获取所述有效语音信号的核心信息，其中，所述核心信息包括语音信号的声纹、开始时间、结束时间和语音音量；

发送单元，用于将所述附属终端采集的有效语音信号的核心信息通过电力线载波通信发送至所述中心终端。

优选的，所述第一判断模块包括：

获取单元，用于依据核心信息获取具有相同声纹，且开始时间的间隔小于第二预设值的有效语音信号的数量；

判断单元，用于判断所述具有相同声纹，且开始时间的间隔小于第二预设值的有效语音信号的数量是否大于1。

优选的，所述在第一确认模块用于：

在采集的有效语音信号的数量大于1时，将具有相同声纹，且开始时间的间隔小于第二预设值的有效语音信号中语音音量最大的语音信号确认为输入信号。

优选的，所述语音采集装置包括：

解析模块，用于在检测到输入信号时，解析所述输入信号；

第二判断模块，用于依据解析结果判断所述输入信号是否为预设语音指令；

执行模块，用于在所述输入信号为预设语音指令时，执行所述语音指令。

本发明的语音采集方法，所述语音采集方法应用于分布式语音系统，所述分布式语音系统包括一个中心终端和至少一个附属终端，所述中心终端和附属终端内设有声音采集模块和功能芯片，所述附属终端通过电力线与中心终端通信相连，所述语音采集方法包括以下步骤：获取所述中心终端和附属终端基于声音采集模块采集的有效语音信号；判断采集的有效语音信号的数量是否大于1；若采集的有效语音信号的数量大于1，则在所述有效语音信号中选择最优信号确认为输入信号；若采集的有效语音信号的数量为1，则将该有效语音信号确认为输入信号。本发明通过设置中心终端和附属终端，提高了语音采集的范围，同时，在采集到多个语音信号的时候，通过筛选确认最优信号，提高了语音信号采集的质量。

附图说明

图1为本发明分布式语音系统实施例的结构示意图；

图2为本发明语音采集方法第一实施例的流程示意图；

图3为本发明语音采集方法第二实施例的流程示意图；

图4为本发明语音采集装置第一实施例的功能模块示意图；

图5为本发明语音采集装置第二实施例的功能模块示意图；

图6为本发明语音采集装置第三实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供的一种语音采集方法。

该语音采集方法应用于分布式语音系统中，如图1所示，在一实施例中，所述分布式语音系统包括一个中心终端100和至少一个附属终端200，所述中心终端100和附属终端200内设有声音采集装置和控制芯片，所述控制芯片用于识别语音信号和建立通信连接，所述附属终端200通过电力线通信与所述中心终端100相连。

本发明实施例的技术方案是基于分布式语音系统实现的，应当理解的是，具体使用过程中，应当根据设置场所的面积、结构和环境来设定终端的位置和数量。在本实施例中，语音采集终端包括一个中心终端100和六个附属终端200，中心终端100和附属终端200的结构和功能基本相同，主要包括声音采集装置，一般为话筒，为了提高用户体验，在某些实施例中，还在语音采集终端中设置了音箱，可以用于播放音乐及作出语音回复等。附属终端200通过电力线通信与中心终端100相连，电力线通信(Power Line Communication，英文简称PLC)是指利用电力线传输数据和媒体信号的一种通信方式，该技术是把载有信息的高频加载于电流然后用电线传输接受信息的适配器再把高频从电流中分离出来并传送到计算机或电话以实现信息传递。中心终端100和附属终端200的不同之处之一在于中心终端100需要支持其他通信方式，其应当支持蓝牙、WIFI连接、红外数据传输和网线接口等数据传输方式中的至少一种，用以将采集到的语音信号发送至上位机，其中上位机可以为计算机，在某些实施例中，考虑到计算机可能处于关机状态，还可以以云服务器、智能冰箱等24小时持续工作的设备作为具有控制功能的上位机。本实施例的技术方案通过将附属终端200和中心终端100利用电力线通信连接可以避免占用网关中的Wlan流量，避免影响用户的上网体验，同时只要有插座的地方就可以设置语音采集终端，也有效的提高了语音信号的采集范围。

如图2所示，在本实施例中的某些具体实施方式中，设置了四个附属终端200和一个中心终端100以覆盖整个房间，其中中心终端100设置于书房中，在两个卧室、客厅和厨房中各设置了一个附属终端200。在其他一些具体实施方式中，在面积较大的客厅中，为了更好的采集语音输入信号，设置了两个附属终端200；在环境相对吵杂的临街卧室里，守环境噪声影响，语音采集终端的有效工作范围会有一定程度上的减小，因此也可以设置两个附属终端200，在另一卧室和厨房中各设有一个附属终端200，在环境相对安静的书房中，设置了一个中心终端100，所述附属终端200通过电力线通信与中心终端100相连，所述中心终端100通过WIFI网络连接至家庭网关，并与计算机相连。由于所述中心终端100和附属终端200必须设置于插座上，所以所述中心终端100和附属终端200一般来说均设置于墙体上，但是墙体会隔绝部分区域的覆盖，可以考虑合理利用门口以增加覆盖范围，减少信号损失。同时，至于某些覆盖死角可以合理设置衣柜、冰箱等大件家具，实现对整个目标区域的合理覆盖。所述计算机与房屋中的智能设备相连，其中智能设备包括但不限于智能电视、智能冰箱、智能照明系统、智能窗帘、智能洗衣机和扫地机器人等设备。

下面基于上述实施例中的分布式语音系统提出本发明语音采集方法的第一实施例。如图3所示，在该实施例中，所述方法包括以下步骤：

S100、获取所述中心终端100和附属终端200基于声音采集模块采集的有效语音信号；

本实施例的技术方案中，中心终端100和附属终端200始终采集环境的声音信息，当采集到周围环境的声音信息之后，经过控制芯片的识别和分析过滤掉其中的噪声和背景声音，并识别其中的语音信号。具体的，可以根据预设规则对采集到的声音进行过滤。例如，智能电视所播放的节目中演员的说话声音也可能被识别为语音信号，但是采集这种语音信号并没有意义，因此可通过与该智能电视相连的上位机设定相应的控制程序将智能电视的音响中的声音直接从语音采集终端采集到的声音中过滤掉。

S200、判断采集到语音信号的数量是否大于1；若是，则执行S210步骤，若否则执行S220步骤；

应当理解的是，由于语音采集终端的位置设置关系和性能的关系，导致可能存在部分语音采集终端采集了同样的语音信号。因此，本实施例的技术方案中进一步判断采集到的语音信号的数量，该采集到的语音信号的数量也就是采集到该语音信号的语音采集终端的数量。

S210、若采集的有效语音信号的数量大于1，则在所述有效语音信号中选择最优信号确认为输入信号；

S220、若采集的有效语音信号的数量为1，则将该有效语音信号确认为输入信号。

由于分布式语音系统在设置时已经覆盖了目标区域的主要范围，因此在正常使用过程中，当有多个语音采集终端采集到语音信号时，证明声音源处于多个语音采集终端的交汇处，此时将其中最优信号确认为输入信号，应当注意的是，本实施例中的最优是一个综合评定的结果，具体从语音信号的完整程度、清晰度等因素评定；如果仅采集到一个语音信号，则在正常状态下，证明该语音信号的声音源处于某个语音采集终端的最佳工作范围内，则可直接将该语音信号确认为输入信号。

本实施例的技术方案通过设置中心终端100和多个附属终端200，同时，本实施例中的附属终端200和中心终端100基于电力线通信连接，只要有电源插座的地方就能设置附属终端200或中心终端100，提高了适用性和覆盖范围，同时也避免使用WIFI等占用局域网关带宽的连接方式，可以减少对网络连接速度的影响。进一步的，通过判断采集到的语音信号的数量，并在采集到多个语音信号时将其中最优信号确认为输入信号，提高了语音信号采集结果的质量。

请参阅图4，下面基于上述实施例提出本发明语音采集方法的第二实施例。在该实施例中，所述步骤S100包括：

S101、中心终端100和附属终端200基于声音采集模块采集语音信号；

S102、将音量大于第一预设值的语音信号确认为有效语音信号，并获取所述有效语音信号的核心信息，其中，所述核心信息包括语音信号的声纹、开始时间、结束时间和语音音量；

S103、将所述附属终端200采集的有效语音信号的核心信息通过电力线载波通信发送至所述中心终端100。

应当理解是，如果对所有的声音信息进行采集分析，则会耗费过多的资源对采集到的声音信号进行除噪，因此本实施例的技术方案设定了第一预设值，并只对单位时间内音量大于该第一预设值的语音信号进行分析。该第一预设值的设定可以是具体的数值。在一具体实施方式中，所述第一预设值被设定为48分贝，具体的，在0.1s内平均音量超过48分贝时认为可能是用户发出的语音指令；但是考虑到一般消费者对于音量大小的衡量并无一准确概念，在又一具体实施方式中，使用者在作为上位机的计算机中点击测试按钮，然后以某音量发出声音，语音采集终端采集到该声音后，以该声音的音量数值下浮10％作为第一预设值。

当语音信号的音量大于第一预设值时，则该语音信号可能是一个语音控制命令，本实施例中进一步提取该语音信号的核心信息，包括语音信号的声纹、开始时间、结束时间和语音音量。在一具体实施方式中，附属终端200在接收语音0.2s后分析出声纹特征、统计平均音量大小两项关键信息，其中平均音量按每30ms取样一次然后求平均值得到。在某些具体实施方式中，提取到的声纹信息还用于作为确认该信号是否为有效语音信号的条件之一，在这些具体实施方式中，只有在系统中获得备案的声纹才会被确认为有效语音信号。

每一附属终端200将监听到的语音的核心信息发送至中心终端100，并在中心终端100内汇总处理。

在本发明语音采集方法基于上述实施例的第三实施例中，所述判断采集到语音信号的数量是否大于1具体包括：

S201、依据核心信息获取具有相同声纹，且开始时间的间隔小于第二预设值的有效语音信号的数量；

S202、判断所述具有相同声纹，且开始时间的间隔小于第二预设值的有效语音信号的数量是否大于1。

本实施例的技术方案中，在首次接收到来自语音采集终端的语音信号后，为此次监听事件标记一初始标记代码，例如INIT_ID，然后分析后续的预设时长内，例如0.1秒内，是否有声纹、开始时间、结束时间等核心信息相同或基本相同的语音信号，并统计为具有相同核心信息的语音信号数量。因为首次采集到的语音信号必然来自距离最近的附属终端200或中央采集终端，以声速340米/计算，如果在0.1秒以后采集到的语音信号，那么采集到该声音信号的语音采集终端至少在34米以外，一般来说，在办公室及家庭环境中不会出现大于该距离，即使存在，由于距离过远，其采集的语音信号已经无参考价值，在较近距离上，也必然存在更优的语音采集终端，因此，本实施例的技术方案中将在初次接收到响应0.1秒以后接收到的相似语音信号均确认为无效监听信号。

下面基于上述实施例提出本申请语音采集方法的第四实施例。在本实施例中，所述步骤S210包括：

一般来说，由于覆盖范围的限制，能够有效的接收同一语音信号的语音采集终端的数量并不会太多，为了保证语音信号采集效果，同时也避免增加系统负载，本实施例中仅选择平均音量最大的两个附属终端200采集的语音信号和中心终端100采集的语音信号进行对比。其中，中心终端100采集的语音信号的音量应当大于所述第一预设值，否则也不参与对比。

在本实施例的技术方案中，每经过单位时间，例如一秒，所选定的附属终端200向中心终端100发送一次包含采集到的信号的核心信息的报告，该核心信息可以为完整的核心信息，也可以仅包含本段语音的平均音量。该报告发送时间持续至语音结束或持续至预设截止时长为止。应当理解的是，由于可能出现突发的外在噪声，所以可能导致某个时刻的音量增大，本实施例中通过两种方式过滤这种突发的大音量噪声，一方面，本实施例中对有效语音信号的声纹信息进行识别，仅将具有相同声纹的有效语音信号进行对比；另一方面，还通过对每一单位时间采集的语音信号的平均音量作为评估因素，避免因为某一时刻的语音音量过大而提高了对该语音信号整体的音量评估。本实施例中，该预设截止时长定义为八秒，根据经验，一条语音命令的持续时间不会长于八秒，如果语音命令的持续时间过长，会严重降低识别的成功率。

本实施例中，进一步以下经验公式评估每个终端采集到的语音信号的质量。

F＝Ave*Rq-R1*σ/Ave

其中F为语音的总得分，总得分越高表示越优质。Ave是整段语音的平均音量，单位是分贝，将之前终端提供的每一小段语音平均音量求平均值得到。Rq是音质系数，根据音箱的音质好坏而定；本实施例中，中心终端100的音质系数为1.2，附属终端200的音质系数为1，因为一般来说，中心终端100的结构更加复杂，成本更高，所以用料和质量相对较好；R1是音量方差系数，本实施例中为10；σ是对之前终端提供的每一小段语音平均音量组成的数据列表求得的标准差。其计算公式是

其中σ表示标准差，N表示小段语音的数目，Xi表示第i个小段语音的平均音量，μ为整段语音的平均音量。

在基于上述实施例的第五实施例中，优选的，还包括步骤：

S300、当检测到输入信号时，解析所述输入信号；

S400、依据解析结果判断所述输入信号是否为预设语音指令；

S500、当所述输入信号为预设语音指令时，执行所述语音指令。

应当理解的是，在确认输入信号后，则应当解析该输入信号，并判断该输入信号是否为预设的语音指令，如果该输入信号为预设语音指令，例如查询天气、告知股票行情、回答今天有没有行程安排等，如果是则执行所述预设语音指令，如果不是支持的预设语音指令则可以检测所述步骤S210中是否由于预设截止时间设置的过短导致未将语音信号接收完全，显然，为了减少系统负载，还可以选择直接退出本次语音识别并清空缓存数据以等待其他输入语音信号。

此外，为实现上述目的，本发明还提供一种语音采集装置。

如图1所示，在一实施例中，所述分布式语音系统包括一个中心终端100和至少一个附属终端200，所述中心终端100和附属终端200内设有声音采集装置和控制芯片，所述控制芯片用于识别语音信号和建立通信连接，所述附属终端200通过电力线通信与所述中心终端100相连。

下面基于上述实施例中的分布式语音系统提出本发明语音采集装置的第一实施例。如图5所示，在该实施例中，所述装置包括：

获取模块10，用于获取所述中心终端100和所述附属终端200采集的语音信号。

第一判断模块20，用于判断采集到语音信号的数量是否大于1。

第一确认模块30，用于在采集到语音信号的数量大于1时，在所述语音信号中选择最优信号确认为输入信号。

第二确认模块40，用于在采集到语音信号的数量不大于1时，将所述语音信号确认为输入信号。

下面基于上述实施例提出本发明语音采集装置的第二实施例。请参阅图6，在该实施例中，所述获取模块10包括：

确认单元11，用于将音量大于第一预设值的语音信号确认为有效语音信号，并获取所述有效语音信号的核心信息，其中，所述核心信息包括语音信号的声纹、开始时间、结束时间和语音音量。

发送单元12，用于将所述附属终端200采集的有效语音信号的核心信息通过电力线载波通信发送至所述中心终端100。

在本发明的第三实施例中，所述第一判断模块20具体包括：

获取单元，依据核心信息获取具有相同声纹，且开始时间的间隔小于第二预设值的有效语音信号的数量；

判断单元，判断所述具有相同声纹，且开始时间的间隔小于第二预设值的有效语音信号的数量是否大于1。

在本发明语音采集装置基于上述实施例的第四实施例中，所述第一确认模块30用于：

F＝Ave*Rq-R1*σ/Ave

其中F为语音的总得分，总得分越高表示越优质。Ave是整段语音的平均音量，单位是分贝，将之前终端提供的每一小段语音平均音量求平均值得到。Rq是音质系数，根据音箱的音质好坏而定；本实施例中，中心终端100的音质系数为1.2，附属终端200的音质系数为1，因为一般来说，中心终端100的结构更加复杂，成本更高，所以用料和质量相对较好，显然；R1是音量方差系数，本实施例中为10；σ是对之前终端提供的每一小段语音平均音量组成的数据列表求得的标准差。其计算公式是

下面基于上述实施例提出本发明语音采集装置的第五实施例，在该实施例中，还包括：

解析模块，用于在检测到输入信号时，解析所述输入信号；

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音采集方法，其特征在于，所述语音采集方法应用于分布式语音系统，所述分布式语音系统包括一个中心终端和至少一个附属终端，所述中心终端和附属终端内设有声音采集模块和功能芯片，所述附属终端通过电力线与中心终端通信相连，所述语音采集方法包括以下步骤：

判断采集的有效语音信号的数量是否大于1；

2.如权利要求2所述的语音采集方法，其特征在于，所述获取所述中心终端和附属终端基于声音采集模块采集的有效语音信号的步骤包括：

中心终端和附属终端基于声音采集模块采集语音信号；

3.如权利要求3所述的语音采集方法，其特征在于，所述判断采集到语音信号的数量是否大于1包括：

4.如权利要求4所述的语音采集方法，其特征在于，所述在所述语音信号中选择最优信号确认为输入信号具体包括：

5.如权利要求1-4任一项所述的语音采集方法，其特征在于，所述语音采集方法还包括：

当检测到输入信号时，解析所述输入信号；

依据解析结果判断所述输入信号是否为预设语音指令；

当所述输入信号为预设语音指令时，执行所述语音指令。

6.一种语音采集装置，其特征在于，所述语音采集装置应用于分布式语音系统，所述分布式语音系统包括一个中心终端和至少一个附属终端，所述中心终端和附属终端内设有声音采集模块和功能芯片，所述附属终端通过电力线与中心终端通信相连，所述语音采集装置包括：

7.如权利要求6所述的语音采集装置，其特征在于，所述中心终端和附属终端基于声音采集模块采集语音信号；

所述获取模块包括：

8.如权利要求7所述的语音采集装置，其特征在于，所述第一判断模块包括：

9.如权利要求8所述的语音采集装置，其特征在于，所述在第一确认模块用于：

10.如权利要求6-9任一项所述的语音采集装置，其特征在于，所述语音采集装置包括：

解析模块，用于在检测到输入信号时，解析所述输入信号；