CN109979467B

CN109979467B - 人声过滤方法、装置、设备及存储介质

Info

Publication number: CN109979467B
Application number: CN201910070823.4A
Authority: CN
Inventors: 李倩
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2021-02-23
Anticipated expiration: 2039-01-25
Also published as: CN109979467A

Abstract

本公开提供了一种人声过滤方法，包括：判断接收到的语音是否是目标说话人的语音；以及如果接收到的语音不是目标说话人的语音，则生成提示信息，如果接收到的语音是目标说话人的语音，则不生成提示信息。本公开还提供了一种人声过滤装置、电子设备及可读存储介质。

Description

人声过滤方法、装置、设备及存储介质

技术领域

本公开涉及一种人声过滤方法、人声过滤装置、电子设备及可读存储介质。

背景技术

在现有的语音交互系统中，经常会出现旁边有其他人在说话/聊天，导致系统误认为是主说话人在说话，导致整个语音交互流程无法正常进行下去。

现有技术中的技术方案基本上是用噪音训练一个VAD模型来判断是否有人声，但是这种技术方案针对来自于主说话人以外的人声的噪音是无解的，只能依靠能量值来过滤较远处的人说话的声音，但是无法过滤在主说话人附近的人的说话的声音。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种人声过滤方法、人声过滤装置、电子设备及可读存储介质。

根据本公开的一个方面，一种人声过滤方法，包括：判断接收到的语音是否是目标说话人的语音；以及如果接收到的语音不是目标说话人的语音，则生成提示信息，如果接收到的语音是目标说话人的语音，则不生成提示信息。

根据本公开的至少一个实施方式，在判断接收到的语音是否是目标说话人的语音之前，还包括识别目标说话人。

根据本公开的至少一个实施方式，识别目标说话人，具体地包括：将接收到的第一段语音的说话人的ID作为目标说话人的ID。

根据本公开的至少一个实施方式，识别目标说话人，具体地包括：统计接收到的n段语音的说话人的ID，如果某一说话人的ID的数目大于n/2，则将该说话人的ID作为目标说话人的ID，如果未出现某一说话人的ID的数目大于n/2，则继续接收m段语音，直至某一说话人的ID的数目大于(n+m)/2，并将该说话人的ID作为目标说话人的 ID；其中，n为大于等于3的自然数，m为大于等于1的自然数。

根据本公开的至少一个实施方式，通过识别说话人的声纹来确定说话人的ID。

根据本公开的至少一个实施方式，判断接收到的语音是否是目标说话人的语音，具体地包括：将接收到的语音的说话人的ID与目标说话人的ID进行比对，如果相同，则接收到的语音是目标说话人的语音，如果不同，则接收到的语音不是目标说话人的语音。

根据本公开的至少一个实施方式，在识别目标说话人之前，还包括预先存储多个说话人的ID。

根据本公开的另一方面，一种人声过滤装置，包括：判断装置，判断装置判断接收到的语音是否是目标说话人的语音；以及生成装置，如果接收到的语音不是目标说话人的语音，则生成装置生成提示信息，如果接收到的语音是目标说话人的语音，则生成装置不生成提示信息。

根据本公开的又一方面，一种电子设备，包括：存储器，存储器存储计算机执行指令；以及处理器，处理器执行存储器存储的计算机执行指令，使得处理器执行上述的方法。

根据本公开的再一方面，一种可读存储介质，可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述的方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是根据本公开一个实施方式的人声过滤方法的示意性流程图。

图2是根据本公开一个实施方式的人声过滤方法的示意性流程图。

图3是根据本公开一个实施方式的人声过滤方法的示意性流程图。

图4是根据本公开一个实施方式的人声过滤方法中的识别目标说话人的方法的示意性流程图。

图5是根据本公开一个实施方式的人声过滤装置的示意性结构图。

图6是根据本公开一个实施方式的人声过滤装置的示意性结构图。

图7是根据本公开一个实施方式的人声过滤装置的示意性结构图。

图8是根据本公开一个实施方式的电子设备的示意性视图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。

如图1所示，本公开一个实施方式的人声过滤方法，包括：判断接收到的语音是否是目标说话人的语音；以及如果接收到的语音不是目标说话人的语音，则生成提示信息，如果接收到的语音是目标说话人的语音，则不生成提示信息。

其中，提示信息例如是提示说话人当前通话环境嘈杂，请求说话人重新输入语音，例如将上述人声过滤方法应用于问言系统中。提示信息还例如是提示风险或者请求目标说话人输入语音，例如将上述人声过滤方法应用于问言系统。本领域技术人员应当理解，目标说话人即所期望的输入语音的说话人。提示信息还可以是发送给后台系统或风控系统的用于提示风险的信息，例如将上述人声过滤方法应用于智能反欺诈系统，如果接收到的语音不是目标说话人的语音，或者接收到的语音的说话人发生了改变(比如目标说话人是A，接续语音的说话人变成了B)，则生成提示信息并发送给智能反欺诈系统的后台系统或风控系统用于提示风险，提示信息可以是文字信息、声信息等等。

在本公开的一个实施方式中，在判断接收到的语音是否是目标说话人的语音之前，还包括识别目标说话人。如图2所示，该实施方式的人声过滤方法，包括：识别目标说话人；判断接收到的语音是否是目标说话人的语音；以及如果接收到的语音不是目标说话人的语音，则生成提示信息，如果接收到的语音是目标说话人的语音，则不生成提示信息。

在本公开的一个实施方式中，识别目标说话人，具体地包括：将接收到的第一段语音的说话人的ID(即身份识别码，可以通过数字、字母和/或文字等表示)作为目标说话人的ID。例如上述人声过滤方法应用于问言系统时，将输入第一段语音的说话人作为目标说话人。其中，可以通过识别说话人的声纹来确定说话人的ID。例如识别接收到的第一段语音中包含的声纹信息，根据该声纹信息确定该说话人即目标说话人的ID。

在本公开的一个实施方式中，在识别目标说话人之前，还包括预先存储多个说话人的ID。如图3所示，该实施方式的人声过滤方法，包括：预先存储多个说话人的ID；识别目标说话人；判断接收到的语音是否是目标说话人的语音；以及如果接收到的语音不是目标说话人的语音，则生成提示信息，如果接收到的语音是目标说话人的语音，则不生成提示信息。例如预先存储2个或3个甚至更多个说话人的ID，说话人的ID同样可以通过识别说话人的声纹来确定。

在本公开的一个实施方式中，识别目标说话人，如图4所示，具体地包括：统计接收到的n段语音的说话人的ID，如果某一说话人的 ID的数目大于n/2，则将该说话人的ID作为目标说话人的ID，如果未出现某一说话人的ID的数目大于n/2，则继续接收m段语音，直至某一说话人的ID的数目大于(n+m)/2，并将该说话人的ID作为目标说话人的ID；其中，n为大于等于3的自然数，m为大于等于1的自然数。例如上述人声过滤方法应用于问言系统时，例如目标说话人周围存在多个其他说话人，统计接收到的n段语音的说话人的ID，例如统计接收到的3段语音，2段语音的说话人的ID相同，1段语音的说话人的ID不同于上述2段语音的说话人的ID，则将上述2段语音的说话人的ID对应的说话人作为目标说话人；例如统计接收到的3 段语音，3段语音的说话人的ID各不相同，则继续接收m段语音，例如继续接收1段语音，如果该1段语音的说话人的ID与上述3段语音的说话人的ID中的一个相同或者与上述3段语音的说话人的ID各不相同，则仍然未出现某一说话人的ID的数目大于(n+m)/2即(3+1) /2，则继续接收m段语音，例如继续接收1段语音，如果该1段语音的说话人的ID与刚才接收到的1段语音的说话人的ID相同且与上述 3段语音的说话人的ID中的一个相同，则出现了某一说话人的ID的数目是3，大于(3+1+1)/2，则将该说话人作为目标说话人。本领域技术人员应当理解，n和m的数目可以适当增大。

在本公开的一个实施方式中，判断接收到的语音是否是目标说话人的语音，具体地包括：将接收到的语音的说话人的ID与目标说话人的ID进行比对，如果相同，则接收到的语音是目标说话人的语音，如果不同，则接收到的语音不是目标说话人的语音。例如确定目标说话人之后，对于接续语音，将接续语音的说话人ID与目标说话人的ID 进行比对，如果相同，则接续语音是目标说话人的语音，如果不同，则接续语音不是目标说话人的语音。

如图5所示，本公开一个实施方式的人声过滤装置100，包括：判断装置11，判断装置11判断接收到的语音是否是目标说话人的语音；以及生成装置12，如果接收到的语音不是目标说话人的语音，则生成装置12生成提示信息，如果接收到的语音是目标说话人的语音，则生成装置12不生成提示信息。

如图6所示，本公开一个实施方式的人声过滤装置200，包括：识别装置21，识别装置21识别目标说话人；判断装置22，判断装置 22判断接收到的语音是否是目标说话人的语音；以及生成装置23，如果接收到的语音不是目标说话人的语音，则生成装置23生成提示信息，如果接收到的语音是目标说话人的语音，则生成装置23不生成提示信息。识别装置21识别目标说话人，具体地包括：将接收到的第一段语音的说话人的ID作为目标说话人的ID。或者，识别装置21识别目标说话人，具体地包括：统计接收到的n段语音的说话人的ID，如果某一说话人的ID的数目大于n/2，则将该说话人的ID作为目标说话人的ID，如果未出现某一说话人的ID的数目大于n/2，则继续接收 m段语音，直至某一说话人的ID的数目大于(n+m)/2，并将该说话人的ID作为目标说话人的ID；其中，n为大于等于3的自然数，m 为大于等于1的自然数。

如图7所示，本公开一个实施方式的人声过滤装置300，包括识别装置31，识别装置31识别目标说话人；存储装置34，存储装置34 预先存储多个说话人的ID；判断装置32，判断装置32判断接收到的语音是否是目标说话人的语音；以及生成装置33，如果接收到的语音不是目标说话人的语音，则生成装置33生成提示信息，如果接收到的语音是目标说话人的语音，则生成装置33不生成提示信息。

优选地，识别装置31基于存储装置34中存储的多个说话人的ID 来识别目标说话人，具体地，通过将接收到的语音的说话人的声纹信息与存储装置34中预先存储的多个说话人的声纹信息进行匹配，来确定接收到的语音的说话人的ID，如果接收到的语音的说话人的声纹信息未能与存储装置34中预先存储的多个说话人的声纹信息匹配，则将该接收到的语音的说话人的声纹信息存储在存储装置34中并配置相应的ID。

优选地，判断装置32基于存储装置34中存储的多个说话人的ID 来判断后续接收到的语音(即接续语音)是否是目标说话人的语音，具体地，判断装置32通过将接续语音的说话人的声纹信息与存储装置 34中预先存储的多个说话人的声纹信息进行匹配，来确定接续语音是否是目标说话人的语音，如果接续语音的说话人的声纹信息未能与存储装置34中预先存储的多个说话人的声纹信息匹配，则将该接续语音的说话人的声纹信息存储在存储装置34中并配置相应的ID。

通过上述优选地实施方式，图7示出的人声过滤装置300可以从多个说话人中识别出存储装置34中存储的说话人。

本公开还提供一种电子设备，如图8所示，该设备包括：通信接口 1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信，进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。处理器3000执行所述计算机程序时实现上述实施方式中方法。所述存储器2000和处理器3000的数量可以为一个或多个。

存储器2000可以包括高速RAM存储器，也可以还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果通信接口1000、存储器2000及处理器3000独立实现，则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上，则通信接口1000、存储器2000、及处理器 3000可以通过内部接口完成相互间的通信。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种人声过滤方法，其特征在于，包括：

识别目标说话人，包括：统计接收到的n段语音的说话人的ID，如果某一说话人的ID的数目大于n/2，则将该说话人的ID作为目标说话人的ID，如果未出现某一说话人的ID的数目大于n/2，则继续接收m段语音，直至某一说话人的ID的数目大于(n+m)/2，并将该说话人的ID作为目标说话人的ID；其中，n为大于等于3的自然数，m为大于等于1的自然数；

判断接收到的语音是否是目标说话人的语音；以及

如果接收到的语音不是目标说话人的语音，则生成提示信息，如果接收到的语音是目标说话人的语音，则不生成提示信息。

2.根据权利要求1所述的人声过滤方法，其特征在于，通过识别说话人的声纹来确定所述说话人的ID。

3.根据权利要求1或2所述的人声过滤方法，其特征在于，判断接收到的语音是否是目标说话人的语音，包括：将接收到的语音的说话人的ID与目标说话人的ID进行比对，如果相同，则接收到的语音是目标说话人的语音，如果不同，则接收到的语音不是目标说话人的语音。

4.根据权利要求1或2所述的人声过滤方法，其特征在于，在识别目标说话人之前，还包括预先存储多个说话人的ID。

5.一种人声过滤装置，其特征在于，包括：

识别装置，所述识别装置识别目标说话人，具体用于：统计接收到的n段语音的说话人的ID，如果某一说话人的ID的数目大于n/2，则将该说话人的ID作为目标说话人的ID，如果未出现某一说话人的ID的数目大于n/2，则继续接收m段语音，直至某一说话人的ID的数目大于(n+m)/2，并将该说话人的ID作为目标说话人的ID；其中，n为大于等于3的自然数，m为大于等于1的自然数；

判断装置，所述判断装置判断接收到的语音是否是目标说话人的语音；以及

生成装置，如果接收到的语音不是目标说话人的语音，则所述生成装置生成提示信息，如果接收到的语音是目标说话人的语音，则所述生成装置不生成提示信息。

6.一种电子设备，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行如权利要求1至4中任一项所述的方法。

7.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现如权利要求1至4中任一项所述的方法。