CN110737422A

CN110737422A - 一种声音信号采集方法及装置

Info

Publication number: CN110737422A
Application number: CN201910965394.7A
Authority: CN
Inventors: 丛若男
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2020-01-31
Anticipated expiration: 2039-10-11
Also published as: CN110737422B

Abstract

公开了一种声音采集方法、装置、计算机可读存储介质及电子设备，该方法包括：通过至少一个声音采集设备采集的第一声音信号；对所述第一声音信号进行说话人识别，得到至少两个说话人；基于所述第一声音信号，从所述至少两个说话人中确定第一说话人和第二说话人，所述第一说话人和第二说话人处于对话状态；对所述第一说话人对应的第二声音信号及所述第二说话人对应的第三声音信号进行声源定位，得到所述第一说话人的第一位置信息和所述第二说话人的第二位置信息；当所述第一位置信息和所述第二位置信息满足第一预设条件时，通过距离所述第一说话人位置最近的声音采集设备采集第一说话人的第四声音信号。通过本公开的技术方案，可提高声音信号采集的灵活性。

Description

一种声音信号采集方法及装置

技术领域

本申请涉及人工智能及信号处理技术领域，且更具体地，涉及一种声音信号采集方法及装置。

背景技术

目前乘车空间的增大，不仅增加了乘客人数，提高了乘客乘车时的舒适性，而且日益先进的车载语音系统为乘客提供了丰富的有声收听资源。但是，车内乘客在进行对话时，考虑到车内环境的变化可能会出现听不清、听错及听漏的现象。因此，通常需要采集说话人的声音信号。

目前的声音信号采集方法，主要通过车内的麦克风实时采集车内的说话人的声音信号。

但是，上述声音信号采集方法的灵活性较差。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种声音信号采集方法、装置、计算机可读存储介质及电子设备，可提高声音信号采集的灵活性。

根据本申请的一个方面，提供了一种声音信号采集方法，包括：

通过至少一个声音采集设备采集的第一声音信号；

对所述第一声音信号进行说话人识别，得到至少两个说话人；

基于所述第一声音信号，从所述至少两个说话人中确定第一说话人和第二说话人，所述第一说话人和第二说话人处于对话状态；

对所述第一说话人对应的第二声音信号及所述第二说话人对应的第三声音信号进行声源定位，得到所述第一说话人的第一位置信息和所述第二说话人的第二位置信息；

当所述第一位置信息和所述第二位置信息满足第一预设条件时，通过距离所述第一说话人位置最近的声音采集设备采集第一说话人的第四声音信号。

根据本申请的第二方面，提供了一种声音信号采集装置，包括：

第一获取模块，用于通过至少一个声音采集设备采集的第一声音信号；

识别模块，用于对所述第一声音信号进行说话人识别，得到至少两个说话人；

对话人确定模块，用于基于所述第一声音信号，从所述至少两个说话人中确定第一说话人和第二说话人，所述第一说话人和第二说话人处于对话状态；

定位模块，用于对所述第一说话人对应的第二声音信号及所述第二说话人对应的第三声音信号进行声源定位，得到所述第一说话人的第一位置信息和所述第二说话人的第二位置信息；

采集模块，用于当所述第一位置信息和所述第二位置信息满足第一预设条件时，通过距离所述第一说话人位置最近的声音采集设备采集第一说话人的第四声音信号。

根据本申请的第三方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述的声音信号采集方法。

根据本申请的第四方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述的声音信号采集方法。

与现有技术相比，本申请提供的声音信号采集方法、装置、计算机可读存储介质及电子设备，至少包括以下有益效果：

本实施例通过确定正在对话的两个说话人，判断正在对话的两个说话人分别对应的位置信息是否满足预设条件，从而确定正在对话的两个说话人之间的对话情况，当对话不顺利时，为了将一方说话人的说话内容传达给另一方说话人，通过距离说话人最近的声音采集设备采集该说话人的声音信号。综上，综上，通过本实施例的技术方案，可提高声音信号采集的灵活性，实现声音信号采集的智能化，确保采集到的声音信号可满足对话双方之间的对话需求，进而提高对话双方在对话不顺利时的沟通效率。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请一个或多个实施例适用的一种应用场景的示意图。

图2是本申请第一个示例性实施例提供的声音信号采集方法的流程示意图。

图3是本申请第二个示例性实施例提供的声音信号采集方法的流程示意图。

图4是本申请第三个示例性实施例提供的声音信号采集方法的流程示意图。

图5是本申请第四个示例性实施例提供的声音信号采集方法的流程示意图。

图6是本申请第五个示例性实施例提供的声音信号采集方法的流程示意图。

图7是本申请第一个示例性实施例提供的声音信号采集装置的结构示意图。

图8是本申请第二个示例性实施例提供的声音信号采集装置的结构示意图。

图9是本申请第三个示例性实施例提供的声音信号采集装置的结构示意图。

图10是本申请第四个示例性实施例提供的声音信号采集装置的结构示意图。

图11是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

乘车空间的增大，不仅增加了乘客人数，提高了乘客乘车时的舒适性，而且日益先进的车载语音系统为乘客提供了丰富的有声收听资源。但是，车内乘客在进行对话时，考虑到车内环境的变化可能会出现听不清、听错及听漏的现象。因此，通常需要采集说话人的声音信号，从而将一方说话人的说话内容传达给另一方说话人。

但是，上述声音采集设备的数量通常是多个，通过多个声音采集设备一起采集说话人的声音信号，没有对声音采集设备的灵活控制，同时如果两个说话人之间的对话顺利，则无需采集说话人的声音信号，综上，上述声音信号采集方法的灵活性较差。

本公开通过对声音信号进行说话人识别，确定出若干个说话人，确定若干个说话人中正在对话的两个说话人，通过判断正在对话的两个说话人分别对应的位置信息是否满足第一预设条件，从而确定正在对话的两个说话人之间的对话情况，即确定出一方说话人能否听清另一方说话人的说话内容，若不能，为了确保对话双方之间的对话顺利，通常需要通过距离说话人最近的声音采集设备采集该说话人的声音信号，从而提高声音信号采集的灵活性，实现声音信号采集的智能化，同时确保采集的声音信号能够满足对话需求，通过将一方说话人的声音信号对应的说话内容传达给另一方说话人，从而确保正在对话的两个说话人之间的沟通效率。

在介绍本申请的基本构思之后，下面将结合附图来具体介绍本申请所述提供技术方案的各种非限制性实施例。

示例性方法

本实施例可应用在电子设备上，具体可以应用在服务器或一般计算机上。如图2所示，本申请第一个示例性实施例提供的声音信号采集方法至少包括如下步骤：

步骤201，通过至少一个声音采集设备采集的第一声音信号。

说话人说话产生的声波传播到若干个声音采集设备，从而使得若干个声音采集设备能够采集说话人的声波信号，在这里，说话人的声波信号即为第一声音信号。声音采集设备具体指的是能够采集说话人的声波信号的输入设备，具体地，声音采集设备可以是麦克风。

需要说明的是，第一声音信号的开始时间点和结束时间点之间的时间差满足预设时段。举例来说，声音采集设备为麦克风，麦克风实时采集说话人的声波信号，对于t_i时刻，将t_i时刻之前预设时段内的说话人的声波信号确定为第一声音信号，比如，预设时段为t_n，则第一声音信号包括说话人在(t_i-t_n)时刻到t_i时刻之间的时间段的声波信号，若干个麦克风采集第一声音信号。步骤202，对至少一个声音采集设备采集的第一声音信号进行说话人识别，得到至少两个说话人。

说话人识别具体指的是通过对说话人的声音信号的分析处理，自动确认说话人是否在所记录的说话人集合中，从而确认说话人是谁。考虑到发音器官和发音习惯的差异都以复杂的形式反映在说话人的声音信号中，使得每个说话人的声音信号都带有强烈的个人色彩，这是对说话人进行识别的客观保证。具体地，对声音信号进行预处理和特征提取，即提取能够表征说话人特征的参数，将声音信号中的语义信息平均化，挖掘出包含在声音信号中的说话人的个性因素，强调不同说话人之间的特征差异，然后，建立说话人模型并训练说话人模型的参数，测试声音信号与说话人模型的匹配关系，之后，即可将第一声音信号输入说话人模型中进行说话人识别，从而确定至少两个说话人。

步骤203，基于所述第一声音信号，从所述至少两个说话人中确定第一说话人和第二说话人，所述第一说话人和第二说话人处于对话状态。

对话需求指示了正在对话的两个说话人中一方说话人要传达给另一方说话人的说话内容。因此，为了确定对话需求，通常需要确定正在对话的两个说话人。具体地，根据第一声音信号携带的时间信息，确定距离第一声音信号的结束时间点最近的第一历史说话人，确定与第一历史说话人在时间上相继的第二历史说话人，第二历史说话人的说话时间早于第一历史说话人的说话时间，之后，确定第一历史说话人的开始说话时间点和第二历史说话人的结束说话时间点之间的时间差值，当时间差值满足一定范围(比如0.3s-3s)时，可认为第一历史说话人和第二历史说话人处于对话状态。此时，可将第一历史说话人确定为第一说话人，第二历史说话人确定为第二说话人。第二说话人接收第一说话人的说话内容，并对第一说话人的说话内容进行答复，第一说话人接收到第二说话人的说话内容，对第二说话人的说话内容进行答复。

步骤204，对所述第一说话人对应的第二声音信号及所述第二说话人对应的第三声音信号进行声源定位，得到所述第一说话人的第一位置信息和所述第二说话人的第二位置信息。

考虑到对话双方之间的对话顺利时，无需声音采集设备采集声音信号，因此，通常需要确定出正在对话的两个说话人的对话情况，从而确定声音采集设备是否需要采集声音信号。考虑到第一说话人的位置及第二说话人的位置能够间接的指示第一说话人和第二说话人的对话情况，因此，通过第一说话人对应的第二声音信号及第二说话人对应的第三声音信号，确定第一说话人的第一位置信息及第二说话人的第二位置信息。

在这里，第一说话人对应的第二声音信号是若干个声音采集设备采集的第一说话人说话时的声音信号，第二说话人对应的第三声音信号是若干个声音采集设备采集的第二说话人说话时的声音信号。显而易见的，说话人识别和声源定位可以同时进行。

需要说明的是，声音采集设备可以是麦克风，麦克风的数量为多个，多个麦克风按照一定拓扑结构组成以形成麦克风列阵，麦克风列正通过波束成形算法对不同方向上的声音信号形成不用的响应，使得麦克风阵列具有声源定位功能，从而获取说话人的位置信息，具体地，说话人的位置信息指示了说话人的坐标。

步骤205，当所述第一位置信息和所述第二位置信息满足第一预设条件时，通过距离所述第一说话人位置最近的声音采集设备采集第一说话人的第四声音信号。

第一位置信息及第二位置信息满足预设条件则说明第一说话人和第二说话人之间的存在沟通障碍，即第二说话人听不清或者听不到第一说话人的说话内容，相应的，第一说话人也听不清或者听不到第一说话人的说话内容。因此，在一种可能的实现方式中，当第一说话人说话时，需要获取第一说话人的声音信号，为了确保获取的第一说话人的声音信号的准确性及有效性，通过距离第一说话人位置最近的声音采集设备采集第一说话人的第四声音信号。当第二说话人说话时，需要获取第二说话人的声音信号，为了确保获取的第二说话人的声音信号的准确性及有效性，通过距离第二说话人位置最近的声音采集设备采集第二说话人的第六声音信号。在另一种可能的实现方式中，通过距离第一说话人位置最近的声音采集设备采集第一说话人在第一声音信号中的第四声音信号，以及距离第二说话人位置最近的声音采集设备采集第二说话人在第一声音信号中的第六声音信号，显而易见的，第四声音信号及第六声音信号均为声波信号。。

具体地，根据第一说话人的位置信息，确定第一说话人距离每个声音采集设备的位置的距离值，利用最小距离值对应的声音采集设备采集第一说话人的第四声音信号。需要说明的是，距离第二说话人位置最近的声音采集设备的确定方法和上述确定距离第一说话人位置最近的声音采集设备相似，这里不做过多的描述。

需要说明的是，第二说话人通常对应有多个说话时段，同时多个说话时段在时间上相继，每个说话时段指示了第二说话人开始说话时间点到结束说话时间点对应的时间段，在一种可能的实现方式中，确定当前时刻之前的预设时段内的第二说话人的若干个说话时段，通过距离第二说话人位置最近的声音采集设备采集第二说话人在若干个说话时段分别对应的声波信号，这些声波信号为第三声音信号，举例来说，预设时段为t_m，当前时刻为t_M，在确定第一说话人听不见或听不清第二说话人的说话内容的时候，确定(t_M-t_m)时刻到t_M时刻之间的时间段内的第二说话人的至少一个说话时段，通过距离第二说话人位置最近的声音采集设备采集第二说话人在至少一个说话时段对应的声波信号，这些声音声波信号为第三声音信号。在另一种可能的实现方式中，确定距离当前时刻最近的第二说话人的说话时段，说话时段的结束时间点可以是当前时刻，通过距离第二说话人位置最近的声音采集设备采集第二说话人在该说话时段的声波信号，该声波信号为第三声音信号。显而易见的，无论是对于第一说话人还是第二说话人，当需要距离其最近的声音采集设备采集其声波信号时，均可按照上述相似的方法采集需要传达给另一方说话人的声音信号，若当前时刻的说话人正在说话，则需要实时采集说话人的声波信号直到说话人说完话，从而确保对话双方之间的沟通效率。在第一种可能的实现方式中，第一位置信息和第二位置信息满足第一预设条件包括根据第一位置信息和第二位置信息计算获得的第一说话人和第二说话人之间的距离值大于预设值。在这里，第一说话人和第二说话人之间的距离值大于预设值时，第一说话人听不到或者听不清第二说话人的说话内容，第二说话人也听不到或者听不清第一说话人的说话内容，说明第一说话人和第二说话人之间的沟通出现了障碍。

在第二种可能的实现方式中，第一位置信息和所述第二位置信息满足第一预设条件包括根据所述第一位置信息和所述第二位置信息计算获得的第一说话人和第二说话人的相对位置满足前后位置关系。在这里，第一说话人位于第二说话人的前方或者后方时，第一说话人听不到或者听不清第二说话人的说话内容，即第一说话人和第二说话人之间的沟通出现了障碍。在这里，前后位置关系包括第一排驾驶座位或副驾驶与第一排座位后的任意一排乘客座位，或者第一排座位后的至少两排座位中的任意两排座位。

需要说明的是，当对话双方的两个说话人发生变化时，相应的，距离说话人位置最近的声音采集设备也会发生改变，从而可灵活的采集声音信号，同时确保采集的声音信号能够满足对话双方之间的对话需求。

本实施例提供的声音信号采集方法的有益效果至少在于：

如图3所示，在上述图1所示实施例的基础上，本申请第二个示例性实施例提供的声音信号采集方法还包括如下步骤：

步骤301，获取所述第四声音信号对应的第五声音信号。

为了确保能够播放声音信号，通常需要将声波信号转化成数字信号，之后将数字信号转化为模拟信号，而第四声音信号是声波信号，因此，需要将第四声音信号转化为第五声音信号，第五声音信号是模拟信号。

具体地，通过声音采集设备将第三声音信号转化为数字信号，之后，通过音讯数字模拟转换器(audio digital-to-analog converter，简称audio DAC)将数字信号转换为模拟信号，即将第四声音信号转化为第五声音信号。

需要说明的是，当第四声音信号包含若干个时间上相继的说话时段对应的声波信号时，具体地，确定距离当前时刻最近的说话时段对应的声波信号，获取该声波信号对应的模拟信号。步骤302，通过距离所述第二说话人位置最近的声音播放设备播放所述第五声音信号。

为了确保第二说话人能够更为准确的接收到第一说话人的说话内容，通过距离第二说话人位置最近的声音播放设备播放第五声音信号，从而确保第二说话人能够了解到第一说话人的说话内容。

需要说明的是，声音播放设备是能够播放声音的输出设备，通常指的是扬声器，因此，第四声音信号通常需要通过音讯放大器(audio amplifier)放大，从而驱动扬声器播放第五声音信号，使得第二说话人能够接收到第一说话人的说话内容。

本实施例通过将声波信号转化为模拟信号，利用距离说话人最近的声音播放设备播放模拟信号，从而将一方说话人的说话内容传达给另一方说话人，确保对话双方之间的沟通效率。

如图4所示，在上述图1所示实施例的基础上，本申请第三个示例性实施例提供的声音信号采集方法还包括如下步骤：

步骤401，对所述第四声音信号进行语音识别，以获得第一说话文本。

语音识别是以语音为研究对象，通过声音信号处理和模式识别让机器自动识别和理解人类口述的语言，尽可能将不同说话人的差异归一化，是让机器通过识别和理解过程把声音信号转变为相应的文本或者命令的高技术。

通过对第四声音信号进行语音识别，能够得到第四声音信号中的第一说话文本，第一说话文本是第一说话人的说话内容，第一说话人的说话内容是第二说话人需要了解的信息，即第一说话人的说话内容指示了对话需求。

需要说明的是，当第四声音信号包含若干个时间上相继的说话时段对应的声波信号时，具体地，可以识别各个说话时段对应的声波信号的说话文本，从而便于一方说话人能够更为准确的理解另一方说话人的说话内容，进而提高对话双方之间的沟通效率。步骤402，根据显示设备显示所述第一说话文本。

显示设备具体指的是能够提供符合视觉感受因素的视觉信息的设备。在这里，利用显示设备显示第一说话文本，从而使得第二说话人能够了解到第一说话人的第一说话文本，从而确保第二说话人能够了解到第一说话人的说话内容，进而确保第一说话人和第二说话人之间的沟通效率。在这里，显示设备可以是中控屏幕或者第二说话人对应的屏幕。利用显示设备显示说话人的说话内容，可进一步确保对话双方之间的信息交互的准确性，当显示设备为中控屏幕时，方便其他人加入对话。

本实施例通过对说话人的声音信号进行识别从而获取说话人的说话内容，通过显示设备显示说话人的说话内容，从而使得一方说话人能够了解到另一方说话人的说话内容，确保对话双方之间的沟通效率，同时可进一步确保对话双方之间的信息交互的准确性，当显示设备为中控屏幕时，方便其他人加入对话。

如图5所示，在上述图3所示实施例的基础上，本申请第四个示例性实施例提供的声音信号采集方法还包括如下步骤：

步骤501，对所述第四声音信号进行语音识别，以获得第一说话文本。

步骤502，根据显示设备显示所述第一说话文本。

本实施例通过将说话人的声波信号转化为模拟信号，利用距离说话人最近的声音播放设备播放模拟信号，同时对声音信号进行识别从而获取说话人的说话内容，通过显示设备显示说话人的说话内容，从而使得一方说话人能够了解到另一方说话人的说话内容，确保对话双方之间的沟通效率。

如图6所示，在上述图1所示实施例的基础上，本申请第五个示例性实施例提供的声音信号采集方法至少包括如下步骤：

步骤601，判断所述第三声音信号是否满足第二预设条件；

为了确定第一说话人和第二说话人之间的对话情况，同时考虑到说话人的声音信号能够反映出第一说话人和第二说话人之间的对话情况，因此，通过判断第三声音信号是否满足第二预设条件和/或第二声音信号是否满足第二预设条件，从而确定第一说话人和第二说话人的对话情况。

步骤602，当所述第三声音信号满足第二预设条件时，执行当所述第一位置信息和所述第二位置信息满足第一预设条件和所述第三声音信号满足第二预设条件时，通过距离所述第一说话人位置最近的声音采集设备采集第一说话人的第四声音信号的步骤。

第三声音信号满足第二预设条件时，则说明第一说话人和第二说话人之间的对话可能不顺利，即第二说话人可能听不清或者听不到第一说话人的说话内容，相应的，第一说话人可能听不清或者听不到第二说话人的说话内容，因此，当第一位置信息和第二位置信息满足第一预设条件、第三声音信号满足第二预设条件时，可确定第一说话人和第二说话人之间的存在沟通障碍，此时，为了确保获取的第一说话人的说话内容的准确性及有效性，通过距离第一说话人位置最近的声音采集设备采集第一说话人的第四声音信号；对于第二说话人来说，在一种可能的实现方式中，在第一位置信息和第二位置信息满足第一预设条件、第三声音信号满足第二预设条件时，通过距离第二说话人位置最近的声音采集设备采集第二说话人的第六声音信号。在另一种可能的实现方式中，当第一位置信息和第二位置信息满足第一预设条件、第二声音信号满足第二预设条件时，通过距离第二说话人位置最近的声音采集设备采集第二说话人的第六声音信号。

具体地，第三声音信号满足预设条件包括对第三声音信号进行语音识别得到的第二说话文本中包括预设关键词。在这里，预设关键词具体指的是预设习惯性询问词语，比如“啊”、“什么”、“你说什么”、“我没听清”、“我没听懂”等词语。当对第三声音信号进行语音识别得到的第二说话文本中包括预设关键词时，则说明第二说话人可能听不到或者听不清第一说话人的说话内容，即第一说话人和第二说话人之间的存在沟通障碍。第二声音信号满足预设条件包括对第三声音信号进行语音识别得到的第二说话文本中包括预设关键词。

需要说明的是，在该实施例中，可以将第四声音信号转化为第五声音信号，利用声音播放设备播放第五声音信号，和/或对第四声音信号进行语音识别从而获取说话人的说话内容，通过显示设备显示说话人的说话内容，从而使得一方说话人能够了解到另一个说话人的说话内容，确保对话双方之间的沟通效率。

请参考图1，声音采集设备为麦克风，声音播放设备为扬声器，车内配置了四个麦克风及四个扬声器，四个麦克风不间断地采集汽车内的若干个说话人的声波，从而获取第一声音信号，车内的电子设备可对第一声音信号进行说话人识别，即可确定出四个说话人，之后，从这四个说话人中确定出正在对话的第一说话人和第二说话人，第三说话人和第四说话人未处于对话状态，此时，即可通过第一声音信号中的第一说话人对应的第二声音信号及第二说话人对应的第三声音信号，确定出第一说话人的第一位置信息及第二说话人的第二位置信息，当第一位置信息及第二位置信息满足第一预设条件，同时第三声音信号满足第二预设条件时，则判断第二说话人听不清或者听不见第一说话人的说话内容，此时，当第一说话人说话时，通过距离第一说话人最近的麦克风获取第一说话人的第四声音信号，获取第四声音信号对应的第五声音信号，并利用距离第二说话人最近的扬声器播放第五声音信号，并利用中控屏幕和/或第二说话人对应的屏幕显示对第四声音信号进行语音识别获得的说话内容，使得第二说话人能够了解到第一说话人的说话内容，当第二说话人说话时，通过距离第二说话人最近的麦克风获取第二说话人的声音信号，并利用上述方式将第二说话人的说话内容传达给第一说话人，从而确保第一说话人和第二说话人之间的沟通效率。在这里，第一说话人对应的第二声音信号具体指的是，第一说话人说话时，汽车内的四个麦克风采集的第一说话人的声音信号。第二说话人对应的第三声音信号具体指的是，第二说话人说话时，汽车内的四个麦克风采集的第二说话人的声音信号。

本实施例在判断一方说话人的声音信号可能不满足对话要求时，通过两个说话人分别对应的位置信息进一步判断对话双方之间的对话情况，从而确保判断的对话双方的对话情况的准确性，进而确保采集的说话人的声音信号满足对话需求。

示例性装置

基于与本申请方法实施例相同的构思，本申请实施例还提供了声音信号采集装置。

图7示出了本申请第一个示例性实施例提供的声音信号采集装置的结构示意图。

如图7所示，本申请第一个示例性实施例提供的声音信号采集装置，包括：

第一获取模块701，用于通过至少一个声音采集设备采集的第一声音信号；

识别模块702，用于对所述第一声音信号进行说话人识别，得到至少两个说话人；

对话人确定模块703，用于基于所述第一声音信号，从所述至少两个说话人中确定第一说话人和第二说话人，所述第一说话人和第二说话人处于对话状态；

定位模块704，用于对所述第一说话人对应的第二声音信号及所述第二说话人对应的第三声音信号进行声源定位，得到所述第一说话人的第一位置信息和所述第二说话人的第二位置信息；

采集模块705，用于当所述第一位置信息和所述第二位置信息满足第一预设条件时，通过距离所述第一说话人位置最近的声音采集设备采集第一说话人的第四声音信号。

图8示出了本申请第二个示例性实施例提供的声音信号采集装置的结构示意图。

如图8所示，在如图7所示的实施例的基础上，本申请第二个示例性实施例提供的声音信号采集装置，还包括：

第二获取模块801，用于获取所述第四声音信号对应的第五声音信号；

播放模板802，用于通过距离所述第二说话人位置最近的声音播放设备播放所述第五声音信号。

图9示出了本申请第三个示例性实施例提供的声音信号采集装置的结构示意图。

如图9所示，在如图7所示的实施例的基础上，本申请第三个示例性实施例提供的声音信号采集装置，还包括：

文本确定模块901，用于对所述第四声音信号进行语音识别，以获得第一说话文本；

显示模块902，用于根据显示设备显示所述第一说话文本。

图10示出了本申请第四个示例性实施例提供的声音信号采集装置的结构示意图。

如图10所示，在如图7所示的实施例的基础上，本申请第四个示例性实施例提供的声音信号采集装置，还包括：

判断模块706，用于判断所述第三声音信号是否满足第二预设条件；

触发模块707，用于当所述第三声音信号满足第二预设条件时，触发所述采集模块705。

示例性电子设备

图11图示了根据本申请实施例的电子设备的框图。

如图11所示，电子设备110包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备110中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的声音信号采集方法以及/或者其他期望的功能。

在一个示例中，电子设备110还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

当然，为了简化，图11中仅示出了该电子设备110中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备110还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的声音信号采集方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的声音信号采集方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种声音信号采集方法，包括：

通过至少一个声音采集设备采集的第一声音信号；

2.根据权利要求1所述的方法，其中，所述第一位置信息和所述第二位置信息满足第一预设条件包括根据所述第一位置信息和所述第二位置信息计算获得的所述第一说话人和第二说话人之间的距离值大于预设值。

3.根据权利要求1所述的方法，其中，所述第一位置信息和所述第二位置信息满足第一预设条件包括根据所述第一位置信息和所述第二位置信息计算获得的所述第一说话人和第二说话人的相对位置满足前后位置关系。

4.根据权利要求1所述的方法，其中，所述方法还包括：

获取所述第四声音信号对应的第五声音信号；

通过距离所述第二说话人位置最近的声音播放设备播放所述第五声音信号。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述第四声音信号进行语音识别，以获得第一说话文本；

根据显示设备显示所述第一说话文本，所述显示设备包括中控屏幕和/或所述第二说话人对应的屏幕。

6.根据权利要求1至5中任一项所述的方法，其中，所述方法还包括：

判断所述第三声音信号是否满足第二预设条件；

当所述第三声音信号满足第二预设条件时，执行当所述第一位置信息和所述第二位置信息满足第一预设条件时，通过距离所述第一说话人位置最近的声音采集设备采集第一说话人的第四声音信号的步骤。

7.根据权利要求6所述的方法，其中，所述第三声音信号满足第二预设条件包括对所述第三声音信号进行语音识别得到的第二说话文本中包括预设关键词。

8.一种声音信号采集装置，包括：

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的声音信号采集方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的声音信号采集方法。