WO2017210991A1

WO2017210991A1 - 一种语音过滤的方法、装置及系统

Info

Publication number: WO2017210991A1
Application number: PCT/CN2016/093963
Authority: WO
Inventors: 李鹏博; 刘苗; 王煜辰
Original assignee: 中兴通讯股份有限公司
Priority date: 2016-06-06
Filing date: 2016-08-08
Publication date: 2017-12-14
Also published as: CN107464570A

Abstract

一种语音过滤的方法、装置及系统，包括：接收原始语音流，根据原始语音流中每一个声源的方位，对原始语音流进行语音分离，获得每一个方位相对应的目标语音流；提取语音分离后获得的所有目标语音流中的声纹特征；将提取的声纹特征与声纹库中与发送端相对应的声纹特征进行匹配，并发送声纹特征匹配成功的目标语音流。本发明实施例语音分离后仅发送声纹匹配的目标语音流，实现了对语音传输中无关人员的声音和环境噪声等进行过滤，提高了语音质量，提高了电话会议的会议质量。

Description

一种语音过滤的方法、装置及系统

技术领域

本文涉及但不限于音频处理技术，尤其涉及一种语音过滤的方法、装置及系统。

背景技术

目前基于网络的电话会议中，由于参会人员所处的环境的不同，会议通常会受到外界无关人员的声音和环境噪声的影响，导致会议效率降低。而相关技术中，不存在将语音传输中无关人员的声音和环境噪音等进行过滤的方法，因此，影响会议质量和效率。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种语音过滤的方法、装置及系统，能过滤与当前会议无关的声音和环境噪声，提高会议质量。

本发明实施例的技术方案是这样实现的：

根据本发明实施例的一方面，提供一种语音过滤的方法，所述方法包括：

接收原始语音流；

根据所述原始语音流中每一个声源的方位，对所述原始语音流进行语音分离，获得每一个方位相对应的目标语音流；

提取语音分离后获得的所有目标语音流中的声纹特征；

将提取的所述声纹特征与声纹库中与发送端相对应的声纹特征进行匹配，并发送声纹特征匹配成功的目标语音流。

可选的，所述接收原始语音流之后，所述方法还包括：

根据所述原始语音流中每一个声源到达所述发送端的时间差和/或强度差，定位出所述原始语音流中每一个声源的方位。

可选的，所述接收原始语音流之前，所述方法还包括：

接收语音流样本；

提取所述语音流样本中的声纹特征，将提取所述语音流样本中的声纹特征作为所述与发送端相对应的声纹特征，并保存到所述声纹库。

可选的，所述方法还包括：

接收到所述发送端发送的退出请求后，清除所述声纹库中所述与发送端相对应的声纹特征。

根据本发明实施例的另一方面，提供一种语音过滤的装置，所述装置包括：语音流处理单元、语音分离单元、声纹特征提取单元和声纹特征匹配单元；其中，

所述语音流处理单元，设置为接收发送端发送的原始语音流；向所述发送端发送声纹特征匹配成功的目标语音流；

所述语音分离单元，设置为根据所述原始语音流中每一个声源的方位，对所述原始语音流进行语音分离，获得每一个方位相对应的目标语音流；

所述声纹特征提取单元，设置为提取语音分离后的获得的所有目标语音流中的声纹特征；

所述声纹特征匹配单元，设置为将提取的所述声纹特征与声纹库中与发送端相对应的声纹特征进行匹配，并向所述语音流处理单元发送声纹特征匹配成功的目标语音流。

可选的，所述装置还包括：声源定位单元，设置为根据所述原始语音流中每一个声源到达所述发送端的时间差和/或强度差，定位出所述原始语音流中每一个声源的方位。

可选的，所述语音流处理单元还设置为，接收发送端发送的语音流样本；

所述声纹库提取单元还用于，提取所述语音流样本中的声纹特征，将提取所述语音流样本中的声纹特征作为所述与发送端相对应的声纹特征，并保存到所述声纹库。

可选的，所述装置还包括：

数据清除单元，设置为接收到所述发送端发送的退出请求后，清除所述声纹库中所述与发送端相对应的声纹特征。

根据本发明实施例的再一方面，提供一种语音过滤的系统，所述系统包括客户端、服务器、以及上述的语音过滤的装置，

所述客户端设置为，通过所述服务器与所述语音过滤的装置交互；

所述服务器设置为，为所述客户端与所述装置的交互建立通信；

所述装置设置为，通过所述服务器与所述客户端建立连接。

可选的，所述装置设置于所述服务器或所述客户端中。

可选的，所述客户端包括一个或一个以上对讲终端。

与相关技术相比，本发明实施例提供的技术方案，包括：接收原始语音流，根据原始语音流中每一个声源的方位，对原始语音流进行语音分离，获得每一个方位相对应的目标语音流；提取语音分离后获得的所有目标语音流中的声纹特征；将提取的声纹特征与声纹库中与发送端相对应的声纹特征进行匹配，并发送声纹特征匹配成功的目标语音流。如此，能够将语音传输中无关的语音流过滤，仅保留正确的语音流，达到了屏蔽干扰、提升会议质量和会议效率的目的。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图概述

图1为本发明实施例一种语音过滤的方法的流程示意图；

图2为本发明实施例一种语音过滤的装置的组成结构示意图；

图3为本发明实施例一种语音过滤的系统的组成结构示意图。

本发明的实施方式

下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图1为本发明实施例一种语音过滤的方法的流程示意图；如图1所示，该方法包括：

步骤101，接收原始语音流；

这里，原始语音流可以由客户端发送；在网络电话会议的应用中，客户端可以包括多个对讲终端，原始语音流可以由客户端中的其中一个对讲终端发送；

步骤102，根据原始语音流中每一个声源的方位，对原始语音流进行语音分离，获得每一个方位相对应的目标语音流；

这里，由于环境的不同、障碍物的不同，很容易导致原始语音流中每一中声源到达该原始语音流的发送端的时间差和/或强度差也不同；而采用原始语音流中每一个声源到达原始语音流的发送端的时间差和/或强度差，作为声源定位的依据，能够准确定位出原始语音流中每一个声源的方位；根据原始语音流中每一个声源的方位，对原始语音流进行语音分离，将属于同一方位的语音流作为目标语音流。

需要说明的是，获取时间差和/或强度差的方法属于本领域技术人员的惯用技术手段，例如、基于麦克风阵列的声源定位，可以任意分离两路来自不同方位的语音信号。语音分离的方法为本领域技术人员的惯用技术手段，分离后的语音流声纹特征相同的就可以确定同一方位的语音流为目标语音流。

步骤103，提取语音分离后获得的所有目标语音流中的声纹特征；

步骤104，将提取的声纹特征与声纹库中与发送端相对应的声纹特征进行匹配，并发送声纹特征匹配成功的目标语音流。

可选的，可将声纹特征匹配成功的目标语音流发送到客户端。

在实际应用中，本发明实施例的语音过滤方法可以应用于多种场景下，比如：网络电话会议。下面基于网络电话会议中的语音过滤为例进行说明。

在网络电话会议中，客户端包括多个对讲终端，多个对讲终端与服务器通信，主要用于执行语音对讲事务。可选的，通过对讲终端中的通讯录好友身份编码(ID)或通讯群组ID，向服务器发起语音对讲、接收服务器的对讲邀请、申请对讲发言、播放其他对讲成员的语音、显示参与本次会议的对讲成员人数及列表、以及退出本次会议对讲等功能。

在多个对讲终端均正常登录到服务器后，选择任意一个对讲终端向服务器发送对讲请求；可选的，根据该对讲终端选择的聊天对象进入聊天室，并创建本次对讲的对讲ID，再根据对讲接入号和对讲ID，创建会议室。会议室建立成功后，与该对讲终端建立语音链路，同时更新对讲消息；这里的对讲消息可以包括：对讲ID、对讲成员ID、群组ID、会议室总人数和/或成员列表。之后服务器查询需参加会议的对讲终端，并向需参加会议的对讲终端发出对讲邀请；需参加会议的对讲终端接受对讲邀请后，向服务器查询会议室成员，服务器把当前会议室人数及成员列表响应给对讲终端；对讲终端收到服务器响应后，如果同意参与对讲，用对讲接入号和对讲ID通过呼叫服务器，请求加入到已经创建的会议室，服务器与对讲终端之间的语音链路建立成功，并更新当前的对讲消息，对讲消息中包括：对讲ID、对讲成员ID、群组ID、会议室总人数和/或成员列表。加入到会议室中的对讲终端向服务器发送身份保存请求，在身份保存请求响应成功后开始发送一段语音到服务器，服务器将收到的语音进行处理后，得到该语音的语音流，将该语音流作为语音流样本，并提取该语音流样本中的声纹特征，保存到声纹库，声纹特征与对讲终端中每一个成员ID相对应。

会议室中，需要发言的对讲终端向服务器发送对讲请求，服务器同意该对讲请求后，该对讲终端开始发言；服务器接收该发言所产生的原始语音流，根据该原始语音流中每一个声源到达该对讲终端的时间差和/或强度差，可以定位出原始语音流中每一个声源的方位；可选的，根据原始语音流中每一个声源的方位，对原始语音流进行语音分离，获得每一个方位相对应的目标语音流，换句话说，可以将属于同一种声源的语音流和不属于同一种声源的语音流分别进行组合，形成成员语音流和过滤语音流(属于同一声源包括与成员ID对应的声纹特征匹配成功的语音流。与成员ID对应的声纹特征匹配失败的语音流为过滤语音流。这里的成员语音流意思就是与成员ID声纹特征匹配的语音流)；提取被语音分离后的目标语音流中的声纹特征；将声纹特征与声纹库中对应对讲终端中对讲ID的声纹特征进行匹配，将声纹特征匹配成功的目标语音流发送到会议室中的其他对讲终端，会议室所有成员收听发言。

在本发明实施例中，本发明实施例方法还包括：接收到发送端发送的退出请求后，清除声纹库中与发送端相对应的声纹特征。

这里，当该对讲终端中该对讲成员发言结束后，该对讲终端向服务器发送发言结束请求，服务器收到发言结束请求后，结束该对讲成员的发言，并保存该对讲成员结束发言状态，接受新的对讲成员的发言请求。当该对讲成员要退出该会议室时，向服务器发送退出请求，服务器收到该退出请求后，清除对讲成员对应的对讲ID、对讲成员ID以及该对讲成员ID在声纹库中对应的声纹特征，同时该对讲成员成功退出。

在本发明实施例中，服务器还可以根据接收语音流的预设时间，检测该对讲成员是否继续发言；例如，当服务器在预设时间内，比如5分钟未收到该对讲成员发送的原始语音流时，则直接结束对讲成员的发言，并保存该对讲成员结束发言状态，接受新的对讲成员的发言请求。如此，是为了防止该对讲成员因网络中断或离席，但未及时结束本次发言程度，而导致其他对讲成员也无法申请发言的情况。当该对讲成员退出该会议室时，服务器清除对讲成员对应的对讲ID、对讲成员ID以及该对讲成员ID在声纹库中对应的声纹特征，同时该对讲成员成功退出。

本发明实施例还提供一种计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于执行上述语音过滤的方法。

图2为本发明实施例一种语音过滤的装置21的组成结构示意图，如图2所示，该语音过滤装置21包括：语音流处理单元210、语音分离单元212、声纹特征提取单元213和声纹特征匹配单元214；

其中，语音流处理单元210，设置为接收发送端发送的原始语音流；向发送端发送声纹特征匹配成功的目标语音流；

语音分离单元212，设置为根据原始语音流中每一个声源的方位，对原始语音流进行语音分离，获得每一个方位相对应的目标语音流；

声纹特征提取单元213，设置为提取语音分离后的获得的所有目标语音流中的声纹特征；

声纹特征匹配单元214，设置为将提取的声纹特征与声纹库215中与发送端相对应的声纹特征进行匹配，并向语音流处理单元210发送声纹特征匹配成功的目标语音流。

在实际应用中，本发明实施例的语音过滤装置可以应用于多种场景下，比如：网络电话会议。

下面，基于网络电话会议中的语音过滤为例进行说明。在网络电话会议中，客户端包括多个对讲终端，多个对讲终端与服务器通信，主要设置为执行语音对讲事务，而该客户端中的某个对讲终端就可以包括发送端。可选的，通过对讲终端中的通讯录好友ID或通讯群组ID向服务器发起语音对讲、接收服务器的对讲邀请、申请对讲发言、播放其他对讲成员的语音、显示参与本次会议的对讲成员人数及列表、以及退出本次会议对讲等功能。

在多个对讲终端均正常登录到服务器后，选择任意一个对讲终端向服务器发送对讲请求；可选的，根据该对讲终端选择的聊天对象进入聊天室，并创建本次对讲的对讲ID，再根据对讲接入号和对讲ID，创建会议室。会议室建立成功后，与该对讲终端建立语音链路，同时更新对讲消息；这里的对讲消息可以包括：对讲ID、对讲成员ID、群组ID、会议室总人数和/或成员列表。之后服务器查询需参加会议的对讲终端，并向需参加会议的对讲终端发出对讲邀请；需参加会议的对讲终端接受对讲邀请后，向服务器查询会议室成员，服务器把当前会议室人数及成员列表响应给对讲终端；对讲终端收到服务器响应后，如果同意参与对讲，用对讲接入号和对讲ID通过呼叫服务器，请求加入到已经创建的会议室，服务器与对讲终端之间的语音链路建立成功，并更新当前的对讲消息，对讲消息中包括：对讲ID、对讲成员ID、群组ID、会议室总人数和/或成员列表。加入到会议室中的对讲终端向服务器发送身份保存请求，在身份保存请求响应成功后开始发送一段语音到服务器，服务器将收到的语音进行处理后，得到该语音的语音流，将该语音流作为语音流样本发送到语音流处理单元210，语音流处理单元210接收到语音流样本后，将语音流样本发送到声纹特征提取单元213，由声纹特征提取单元213提取语音流样本中的声纹特征，并保存到声纹库215中。其中，声纹特征与对讲终端中每一个成员ID相对应。

在本发明实施例中，语音过滤装置21还包括声源定位单元211，设置为根据原始语音流中每一个声源到达发送端的时间差和/或强度差，定位出原始语音流中每一个声源的方位。

这里，在会议室中，需要发言的对讲终端向服务器发送对讲请求，服务器同意该对讲请求后，该对讲终端开始发言；服务器接收该发言所产生的原始语音流后，将原始语音流发送到语音流处理单元210，语音流处理单元210再将该原始语音流发送到声源定位单元211，声源定位单元211根据该原始语音流中每一个声源到达该对讲终端的时间差和/或强度差，可以定位出原始语音流中每一个声源的方位；可选的，语音分离单元212根据原始语音流中每一个声源的方位，对原始语音流进行语音分离。其中，语音分离是将属于同一种声源的语音流和不属于同一种声源的语音流分别进行组合，形成成员语音流和过滤语音流(属于同一声源包括与成员ID对应的声纹特征匹配成功的语音流。与成员ID对应的声纹特征匹配失败的语音流为过滤语音流。这里的成员语音流意思就是与成员ID声纹特征匹配的语音流)；之后由声纹特征提取单元213提取被语音分离后的目标语音流中的声纹特征，然后将声纹特征发送到声纹特征匹配单元214；声纹特征匹配单元214将声纹特征与声纹库215中对应对讲终端中对讲ID的声纹特征进行匹配，将匹配成功的目标语音流发送到语音流处理单元210，再由语音流处理单元210通过消息转发单元发送到会议室中的其他对讲终端，会议室所有成员收听发言。

可选的，在本发明实施例中，装置还包括：数据清除单元216，设置为在接收到发送端发送的退出请求后，清除声纹库中与发送端相对应的声纹特征。

这里，当该对讲终端中该对讲成员发言结束后，该对讲终端向服务器发送发言结束请求，服务器收到发言结束请求后，结束该对讲成员的发言，并保存该对讲成员结束发言状态，接受新的对讲成员的发言请求。当该对讲成员要退出该会议室时，向服务器发送退出请求，服务器收到该退出请求后，将该通出请求发送至数据清除单元216，数据清除单元216收到该退出请求后，清除对讲成员对应的对讲ID、对讲成员ID以及该对讲成员ID在声纹库中对应的声纹特征，同时该对讲成员成功退出。

在本发明实施例中，服务器还可以根据接收语音流的预设时间，检测该对讲成员是否继续发言；例如，当服务器在预设时间内，比如5分钟未收到该对讲成员发送的原始语音流时，则直接结束对讲成员的发言，并保存该对讲成员结束发言状态，接受新的对讲成员的发言请求。当该对讲成员要退出该会议室时，向服务器发送退出请求，服务器收到该退出请求后，将该通出请求发送至数据清除单元216，数据清除单元216收到该退出请求后，清除对讲成员对应的对讲ID、对讲成员ID以及该对讲成员ID在声纹库中对应的声纹特征，同时该对讲成员成功退出。

图3为本发明实施例一种语音过滤的系统的组成结构示意图。如图3所示，系统包括：客户端31、服务器32和上述语音过滤的装置21，客户端31通过服务器32与语音过滤装置21交互。

在实际应用中，本发明实施例的语音过滤系统可以应用于多种场景下，比如：网络电话会议。

下面，基于网络电话会议中的语音过滤为例进行说明。在网络电话会议中，客户端31包括多个对讲终端311，多个对讲终端311与服务器32中的对讲终端接入管理单元321、呼叫控制单元322、消息转发单元323均能通信，主要设置为执行语音对讲事务。可选的，通过对讲终端311中的通讯录好友ID或通讯群组ID向服务器32发起语音对讲、接收服务器32的对讲邀请、申请对讲发言、播放其他对讲成员的语音、显示参与本次会议的对讲成员人数及列表、以及退出本次会议对讲等功能。

对讲终端接入管理单元321与对讲终端311连接，主要设置为实现对讲成员管理，确保对讲成员正常登录到服务器32，在多个对讲终端311均登录到该对讲终端接入管理单元321时，对讲终端接入管理单元321确保其已正常接入到服务器32之后，选择任意一个对讲终端311向呼叫控制单元322发送对讲请求，通过呼叫控制单元322来呼叫会议桥单元324；可选的，根据该对讲终端311选择的聊天对象进入聊天室，并创建本次对讲的对讲ID，再根据对讲接入号和对讲ID通过呼叫控制单元322呼叫会议桥单元324。

会议桥单元324收到该对讲请求后，创建会议室，并与该对讲终端311建立语音链路，同时通知对讲管理单元325更新对讲消息；这里的对讲消息可以包括：对讲ID、对讲成员ID、群组ID、会议室总人数和/或成员列表。对讲管理单元325根据该对讲消息，查询需参加会议的对讲终端311，并通过消息转发单元323向需参加会议的对讲终端311发出对讲邀请；需参加会议的对讲终端311接受对讲邀请后，向对讲管理单元325查询会议室成员，对讲管理单元325把当前会议室人数及成员列表响应给对讲终端311；对讲终端311收到对讲管理单元325响应后，如果同意参与对讲，用对讲接入号和对讲ID通过呼叫控制单元322向会议桥单元324发起呼叫，请求加入到已经创建的会议室，会议桥单元324与对讲终端311之间的语音链路建立成功，并通知对讲管理单元325更新当前的对讲消息，对讲消息中包括：对讲ID、对讲成员ID、群组ID、会议室总人数和/或成员列表。加入到会议室中的对讲终端311向对讲管理单元325发送身份保存请求，在身份保存请求响应成功后开始发送一段语音到对讲管理单元325，对讲管理单元325将收到的语音进行处理后，得到该语音的语音流，将该语音流作为语音流样本发送到语音过滤装置21中的语音流处理单元210，再由语音流处理单元210将语音流样本发送到声纹特征提取单元213，声纹特征提取单元213收到语音流样本后，提取语音流样本中的声纹特征，并保存到声纹库215中。其中，声纹特征与对讲终端中每一个成员ID相对应。

会议室中，需要发言的对讲终端311向对讲管理单元325发送对讲请求，对讲管理单元325同意该对讲请求后，该对讲终端311开始发言；对讲管理单元325接收该发言所产生的原始语音流后，将该原始语音流发送到语音过滤装置21中的语音流处理单元210，再由语音流处理单元210将收到的原始语音流发送到声源定位单元211，声源定位单元211根据该原始语音流中每一个声源到达该对讲终端的时间差和/或强度差，可以定位出原始语音流中每一个声源的方位；可选的，语音分离单元212，根据原始语音流中每一个声源的方位，对原始语音流进行语音分离；其中，语音分离是将属于同一种声源的语音流和不属于同一种声源的语音流分别进行组合，形成成员语音流和过滤语音流(属于同一声源包括与成员ID对应的声纹特征匹配成功的语音流。与成员ID对应的声纹特征匹配失败的语音流为过滤语音流。这里的成员语音流意思就是与成员ID声纹特征匹配的语音流)；之后由声纹特征提取单元213提取被语音分离后的目标语音流中的声纹特征，然后将声纹特征发送到声纹特征匹配单元214；声纹特征匹配单元214将声纹特征与声纹库215 中对应对讲终端中对讲ID的声纹特征进行匹配，将匹配成功的目标语音流发送到语音流处理单元210，再由语音流处理单元210通过消息转发单元323发送到会议室中的其他对讲终端311，会议室所有成员收听发言。

在本发明实施例中，语音过滤的装置21还包括：数据清除单元216，设置为在接收到对讲终端311发送的退出请求后，清除声纹库中与对讲终端311中成员ID相对应的声纹特征。

这里，当该对讲终端311中该对讲成员发言结束后，该对讲终端311向对讲管理单元325发送发言结束请求，对讲管理单元325收到发言结束请求后，结束该对讲成员的发言，并保存该对讲成员结束发言状态，接受新的对讲成员的发言请求。当该对讲成员要退出该会议室时，向对讲管理单元325发送退出请求，对讲管理单元325收到该退出请求后，将该退出请求发送至数据清除单元216，数据清除单元216收到该退出请求后，清除对讲成员对应的对讲ID、对讲成员ID以及该对讲成员ID在声纹库中对应的声纹特征，同时对讲成员成功退出。

在本发明实施例中，对讲管理单元325还可以根据接收语音流的预设时间，检测该对讲成员是否继续发言；例如，当对讲管理单元325在预设时间内，比如5分钟未收到该对讲成员发送的原始语音流时，则直接结束对讲成员的发言，并保存该对讲成员结束发言状态，接受新的对讲成员的发言请求。当该对讲成员要退出该会议室时，向对讲管理单元325发送退出请求，对讲管理单元325收到该退出请求后，将该退出请求发送到数据清除单元216，数据清除单元216收到该退出请求后，清除对讲成员对应的对讲ID、对讲成员ID以及该对讲成员ID在声纹库中对应的声纹特征，同时该对讲成员成功退出。

本发明实施例中，语音过滤装置21可以设置于服务器32中，当语音过滤装置21位于服务器32中时，客户端31中的对讲终端311通过远程方式完成语音流的语音分离、声纹特征提取和声纹特征匹配，并讲匹配成功的目标语音流通过服务器32发送给客户端31中的其他对讲终端311.

本发明实施例中，语音过滤装置21也可以设置于客户端31中，当语音过滤装置21位于客户端31中时，客户端31中的对讲终端311通过可以通过本地方式完成语音流的语音分离、声纹特征提取和声纹特征匹配，并讲匹配成功的目标语音流通过语音链路直接发送给客户端31中的其他对讲终端311。

在实际应用中，对讲终端接入管理单元321、呼叫控制单元322、消息转发单元323、呼叫会议桥单元324和对讲管理单元325均可由位于服务器中的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。

语音流处理单元210、声源定位单元211、语音分离单元212、声纹特征提取单元213、声纹特征匹配单元214、声纹库215和数据清除单元216均可由语音过滤装置21中的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。

语音过滤装置21设置于客户端31中时，可以由客户端31中的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。

语音过滤装置21设置于服务器中时，可以由服务器中的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的可选实施例而已，并非用于限定本发明的保护范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的每个模块/单元可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请，如本发明实施方式中的具体的实现方法。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

工业实用性

上述技术方案实现了对语音传输中无关人员的声音和环境噪声等进行过滤，提高了语音质量，提高了电话会议的会议质量。

Claims

一种语音过滤的方法，所述方法包括：

接收原始语音流；

根据所述原始语音流中每一个声源的方位，对所述原始语音流进行语音分离，获得每一个方位相对应的目标语音流；

提取语音分离后获得的所有目标语音流中的声纹特征；

将提取的所述声纹特征与声纹库中与发送端相对应的声纹特征进行匹配，并发送声纹特征匹配成功的目标语音流。
根据权利要求1所述的方法，所述接收原始语音流之后，所述方法还包括：

根据所述原始语音流中每一个声源到达所述发送端的时间差和/或强度差，定位出所述原始语音流中每一个声源的方位。
根据权利要求1所述的方法，所述接收原始语音流之前，所述方法还包括：

接收语音流样本；

提取所述语音流样本中的声纹特征，将提取所述语音流样本中的声纹特征作为所述与发送端相对应的声纹特征，并保存到所述声纹库。
根据权利要求1～3任一项所述的方法，所述方法还包括：

接收到所述发送端发送的退出请求后，清除所述声纹库中所述与发送端相对应的声纹特征。
一种语音过滤的装置，所述装置包括：语音流处理单元、语音分离单元、声纹特征提取单元和声纹特征匹配单元；其中，

所述语音流处理单元，设置为接收发送端发送的原始语音流；向所述发送端发送声纹特征匹配成功的目标语音流；

所述语音分离单元，设置为根据所述原始语音流中每一个声源的方位，对所述原始语音流进行语音分离，获得每一个方位相对应的目标语音流；

所述声纹特征提取单元，设置为提取语音分离后的获得的所有目标语音流中的声纹特征；

所述声纹特征匹配单元，设置为将提取的所述声纹特征与声纹库中与发送端相对应的声纹特征进行匹配，并向所述语音流处理单元发送声纹特征匹配成功的目标语音流。
根据权利要求5所述的装置，所述装置还包括：声源定位单元，设置为根据所述原始语音流中每一个声源到达所述发送端的时间差和/或强度差，定位出所述原始语音流中每一个声源的方位。
根据权利要求5所述的装置，

所述语音流处理单元还设置为，接收发送端发送的语音流样本；

所述声纹库提取单元还用于，提取所述语音流样本中的声纹特征，将提取所述语音流样本中的声纹特征作为所述与发送端相对应的声纹特征，并保存到所述声纹库。
根据权利要求5～7任一项所述的装置，所述装置还包括：

数据清除单元，设置为接收到所述发送端发送的退出请求后，清除所述声纹库中所述与发送端相对应的声纹特征。
一种语音过滤的系统，所述系统包括客户端、服务器、以及权利要求5至8任一项所述的语音过滤的装置，

所述客户端设置为，通过所述服务器与所述语音过滤的装置交互；

所述服务器设置为，为所述客户端与所述装置的交互建立通信；

所述装置设置为，通过所述服务器与所述客户端建立连接。
根据权利要求9所述的系统，其中，所述装置设置于所述服务器或所述客户端中。
根据权利要求9或10所述的系统，其中，所述客户端包括一个或一个以上对讲终端。