CN116312564A

CN116312564A - 一种基于声纹技术的视频会议用啸叫抑制设备

Info

Publication number: CN116312564A
Application number: CN202310573131.8A
Authority: CN
Inventors: 王庆伟; 王军帅; 刘伟
Original assignee: Anhui Putu Technology Co ltd
Current assignee: Anhui Putu Technology Co ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-06-23

Abstract

本发明提供一种基于声纹技术的视频会议用啸叫抑制设备，涉及声纹识别技术领域，所述基于声纹技术的视频会议用啸叫抑制设备包括：身份识别模块、语音输入模块、处理模块、储存模块、啸叫抑制模块、声纹识别模块和语音输出模块；所述啸叫抑制模块用于对输入的语音进行降噪处理；所述声纹识别模块包括声纹提取单元、声纹建模单元和声纹比对单元。该方案最终实现在语音输出前通过声纹识别模块对用户的声音进行声纹比对，只允许当前用户的语音信息通过，且只输出该用户本人的声音，不会带入他人的声音进入视频会议内，提高视频会议时语音通话的抗干扰性。

Description

一种基于声纹技术的视频会议用啸叫抑制设备

技术领域

本发明涉及声纹识别技术领域，尤其涉及一种基于声纹技术的视频会议用啸叫抑制设备。

背景技术

视频会议是指位于两个或多个地点的用户，通过通信设备和网络，进行视频交谈的会议，根据参会地点数目不同，视频会议可分为点对点会议和多点会议，在视频会议的过程中，要求有稳定安全的网络、可靠的会议质量、正式的会议环境条件，则需要使用专业的视频会议设备，组建专门的视频会议系统。

声纹识别技术，是一种通过声音判别说话人身份的技术，多应用于语音信号处理、声纹特征提取、声纹建模、声纹比对、判别决策等，而应用在视频会议的声音啸叫抑制中，有助于对发出声音的用户进行身份的识别。

现有的视频会议在一用户进行语音演讲时，多采用啸叫抑制设备对环境音及杂音进行抑制及消除，提高人声拾音的效果，使得人声更加清晰，环境内其他人声，仍能够进入视频会议的语音输出，如何避免外人讲话的声音对当前会议演讲语音造成干扰，有待进一步的研究。

因此，有必要提供一种基于声纹技术的视频会议用啸叫抑制设备，以解决上述技术问题。

发明内容

本发明提供一种基于声纹技术的视频会议用啸叫抑制设备，解决了相关技术中，如何避免外人讲话的声音对当前会议演讲语音造成干扰，有待进一步的研究的问题。

为解决上述技术问题，本发明提供的基于声纹技术的视频会议用啸叫抑制设备包括：

身份识别模块、语音输入模块、处理模块、储存模块、啸叫抑制模块、声纹识别模块和语音输出模块；

所述身份识别模块通过所述处理模块对用户身份的录入或认证，获取设备的使用权限；

所述语音输入模块通过所述处理模块对目标语音进行输入；

所述啸叫抑制模块用于对输入的语音进行降噪处理；

所述声纹识别模块包括声纹提取单元、声纹建模单元和声纹比对单元，所述声纹提取单元从降噪处理后的语音中提取声纹特征，所述声纹建模单元用于将提取的声纹特征生成制定的声纹模型，所述声纹比对单元用于对声纹模型进行比对；

所述储存模块用于储存用户及声纹模型的信息。

优选地，所述声纹提取单元中提取所有在讲话的声音，根据用户声纹特征将声音分成多个声纹特征组，每个所述声纹特征组通过所述声纹建模单元生成所述声纹模型，所有所述声纹模型通过所述声纹比对单元依次进行声纹比对。

优选地，所述声纹建模单元包括A类模型和B类模型，所述A类模型为用户提供用于录入的声纹模型a，所述B类模型为用户提供用于比对的声纹模型b。

优选地，所述声纹比对单元将所述声纹模型b与所述声纹模型a进行比对，判断所述声纹模型b是否为身份录入的用户。

优选地，所述储存模块包括身份储存单元、模型储存单元及模型管理单元，所述身份储存单元用于储存所有录入用户的身份信息，所述模型储存单元用于储存所有录入用户的声纹模型信息，所述模型管理单元用于提取当前使用用户的身份信息及该用户的声纹模型信息，为所述声纹特征比对提供唯一用户的身份信息及声纹模型信息。

优选地，所述基于声纹技术的视频会议用啸叫抑制设备还包括语音管理模块；

所述语音管理模块包括身份分级单元和语音分级单元，所述身份分级单元用于多设备进入视频会议时，将各设备进行分级管理，所述语音分级单元用于对分级管理的设备提供语音优先级的选择。

优选地，所述语音管理模块还包括语音缓存单元，所述语音缓存单元用于对不在优先级的语音输出进行缓存，缓存后生成缓存语音显示在视频会议的栏目内，为选择性点击播放提供支持。

优选地，所述语音管理模块还包括语音转换单元，所述语音转环单元为所述缓存语音提供文字转换的支持。

优选地，所述语音管理模块还包括管控单元，所述管控单元用于身份分级的管理、缓存语音的管理、语音转换的管理。

与相关技术相比较，本发明提供的基于声纹技术的视频会议用啸叫抑制设备具有如下有益效果：

通过所述身份识别模块认证后的用户在使用设备，既能够实现声纹的录入和存留，又能够在会议的过程中滤除环境噪音、回声及啸叫，提高语音输出的清晰度，在语音输出前通过声纹识别模块对用户的声音进行声纹比对，只允许当前用户的语音信息通过，且只输出该用户本人的声音，不会带入他人的声音进入视频会议内，提高视频会议时语音通话的抗干扰性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明提供的基于声纹技术的视频会议用啸叫抑制设备的第一实施例的系统框图；

图2为图1所示的储存模块的框图；

图3为图1所示的声纹识别模块的框图；

图4为图3所示的声纹建模单元的框图；

图5本发明第一实施例的声纹模型录入的流程图；

图6为本发明第一实施例的语音识别且输出的流程图；

图7为本发明提供的基于声纹技术的视频会议用啸叫抑制设备的第二实施例的系统框图；

图8为图7所示的语音管理模块的框图；

图9为图8所示的身份分级单元的框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例：

本发明提供一种基于声纹技术的视频会议用啸叫抑制设备。

请结合参阅图1至图2，本发明的第一实施例中，基于声纹技术的视频会议用啸叫抑制设备包括：

所述语音输入模块通过所述处理模块对目标语音进行输入；

所述啸叫抑制模块用于对输入的语音进行降噪处理；

所述储存模块用于储存用户及声纹模型的信息。

在本实施例中，所述语音输入模块包括拾音器和语音输出信号，所述拾音器用于直接接收来自外界的语音，所述语音输出信号从视频会议的会议音频中接收语音。

所述啸叫抑制模块采用Ai语音降噪模块，型号为：LM-6214，用于环境噪音、回声及啸叫的抑制，语音输入更加清晰。

所述语音输出模块包括播放器和视频会议的语音输入信号，所述播放器用于直接播放从视频会议中的会议语音，只有使用者可以听到播放器的声音，所述语音输入信号向视频会议的会议音频中传输，向视频会议中的所有人发送，再通过播放器收听。

通过所述身份识别模块认证后的用户在设备时，既能够实现声纹的录入和存留，又能够在会议的过程中滤除环境噪音、回声及啸叫，提高语音输出的清晰度，在语音输出前通过声纹识别模块对用户的声音进行声纹比对，只允许当前用户的语音信息通过，且只输出该用户本人的声音，不会带入他人的声音进入视频会议内，提高视频会议时语音通话的抗干扰性。

所述声纹提取单元中提取所有在讲话的声音，根据用户声纹特征将声音分成多个声纹特征组，每个所述声纹特征组通过所述声纹建模单元生成所述声纹模型，所有所述声纹模型通过所述声纹比对单元依次进行声纹比对。

方便对语音中用户的声纹特征进行比对及筛选，只保留属于身份认证通过的用户，所发出的语音信息，避免他人讲话对整个视频会议产生干扰。

请再次参阅图3，所述声纹建模单元包括A类模型和B类模型，所述A类模型为用户提供用于录入的声纹模型a，所述B类模型为用户提供用于比对的声纹模型b。

所述声纹模型a和所述声纹模型b在本实施例中：

若为同一号用户的声音，则声纹特征相似度≥95%，属于能够输出的声音；

若为不同用户的声音，则声纹特征相似度＜95%，属于不能输出的声音。

在本实施例中，所述声纹模型a储存在所述储存模块范围内，可记录多用户的声纹模型信息。

不同的使用模式下，生成不同的声纹模型，以便于声纹模型的储存及比对。

例如：

一号用户录入模式时通过A类模型生成声纹模型a1，一号用户会议模式时通过B类模型生成声纹模型b1，声纹模型b1与声纹模型a1进行比对，声纹特征相似度≥95%时，判定为一号用户发出的声音，声纹模型b1通过所述处理模块将模型还原至语音信号，从所述语音输出模块输出该语音信号；否则，语音信号不输出；

二号用户录入模式时通过A类模型生成声纹模型a2，二号用户会议模式时通过B类模型生成声纹模型b2，声纹模型b2与声纹模型a2进行比对，声纹特征相似度≥95%时，判定为二号用户发出的声音，声纹模型b2通过所述处理模块将模型还原至语音信号，从所述语音输出模块输出该语音信号；否则，语音信号不输出；

三号用户录入模式时通过A类模型生成声纹模型a3，三号用户会议模式时通过B类模型生成声纹模型b3，声纹模型b3与声纹模型a3进行比对，声纹特征相似度≥95%时，判定为三号用户发出的声音，声纹模型b3通过所述处理模块将模型还原至语音信号，从所述语音输出模块输出该语音信号；否则，语音信号不输出。

在录入模式下：

所述声纹比对单元不比对，所述声纹建模单元直接构建属于当前身份的A类声纹模型，并且录入至所述储存模块中；若用户已有A类声纹模型，则直接对A类声纹模型进行替换更新，删除原有的A类声纹模型。

在会议模式下：

所述声纹比对单元将所述声纹模型b与所述声纹模型a进行比对，判断所述声纹模型b是否为身份录入的用户。

通过声纹特征的比对，来完成声音身份的确认。

请再次参阅图4，所述储存模块包括身份储存单元、模型储存单元及模型管理单元，所述身份储存单元用于储存所有录入用户的身份信息，所述模型储存单元用于储存所有录入用户的声纹模型信息，所述模型管理单元用于提取当前使用用户的身份信息及该用户的声纹模型信息，为所述声纹特征比对提供唯一用户的身份信息及声纹模型信息。

将当前使用用户的身份信息及声纹模型信息单独提取，且用于所述声纹比对单元的比对，不需要再经过多用户查找及多声纹模型信息的查找，且只能够与当前使用用户进行比对，避免已录入用户对当前使用用户的语音造成干扰，语音输出单一。

设备使用时，一号用户身份确认后，提取一号用户对应的声纹模型信息及身份信息，所述声纹比对单元比对通过，一号用户声音能够输出；期间，二号用户在所述语音输入模块附近讲话时，所述声纹比对单元比对不通过，二号用户声音不能输出（两个用户的身份信息均已录入）。

设备关闭或重新启动后，所述模型管理单元自动清空；

使用前，三号用户需要重新进行身份认证，认证后，身份信息及声纹模型信息提取至所述模型管理单元，为所述声纹比对单元的比对，以及三号用户语音的单独输出提供支持。

在面对多用户信息录入且讲话的环境下，设备能够识别当前使用用户的语音内容，且只输出当前使用用户的语音信息。

本实施例提供的基于声纹技术的视频会议用啸叫抑制设备的工作原理如下：

身份信息录入原理：

步骤S1，通过身份识别模块进行用户身份信息识别，录入用户c；

步骤S2，通过所述语音输入模块对用户c进行用户语音录入，获得语音c；

步骤S3，所述啸叫抑制模块对所述语音c进行环境噪音消除，获得语音c0；

步骤S4，所述声纹提取单元对所述语音c0进行声纹提取，获得声纹特征c0，所述声纹建模单元将所述声纹特征c0生成声纹模型a；

步骤S5，判断所述声纹模型a是否存在；

步骤S51，若声纹模型a存在，则更新用户c对应的声纹模型a；

步骤S52，若声纹模型a不存在，则新建用户身份信息及新的声纹模型a的储存文件；

步骤S6，用户c声纹模型录入完成。

视频会议时语音输入原理（用户d已录入声纹模型信息）：

步骤T1，通过身份识别模块进行身份信息的登入，认证为用户d，所述模型管理单元提取用户d的身份信息及声纹模型a；

步骤T2，通过所述语音输入模块对用户d进行用户语音录入，获得语音d；

步骤T3，所述啸叫抑制模块对所述语音d进行环境噪音消除，获得语音d0；

步骤T4，所述声纹提取单元对所述语音d0进行声纹提取，获得声纹特征d0，所述声纹建模单元将所述声纹特征d0生成声纹模型b；

步骤T5，所述声纹比对单元将声纹模型b与所述模型管理单元上的声纹特征信息进行比对，判断声纹模型b与所述模型管理单元上的声纹模型a是否匹配；

步骤T51，若匹配，则声纹模型b通过所述语音输出模块进行语音还原及输出；

步骤T51，若不匹配，则所述语音输出模块不输出语音内容。

实施例

请结合参阅图7至图9，基于本发明的第一实施例提供的一种基于声纹技术的视频会议用啸叫抑制设备，本发明的第二实施例提出另一种基于声纹技术的视频会议用啸叫抑制设备。第二实施例仅仅是第一实施例优选的方式，第二实施例的实施对第一实施例的单独实施不会造成影响。

具体的，本发明的第二实施例提供的基于声纹技术的视频会议用啸叫抑制设备的不同之处在于，所述基于声纹技术的视频会议用啸叫抑制设备还包括语音管理模块；

由于视频会议为多用户通过网络视频进行会议，在会议时，多用户可自由的发言，在一人进行发言的过程中，会被其他发言人发出的声音进行干扰，影响实际视频会议的效果，间接的产生了会议噪音。

如图9所示，所述身份分级单元包括一级用户、二级用户、三级用户、……、N级用户；其中，身份信息的优先级为：

一级用户＞二级用户＞三级用户＞……＞N级用户。

所述语音分级单元根据用户身份信息的优先级，与语音输出的优先级相互对应；

所述语音分级单元包括一级语音、二级语音、三级语音、……、N级语音；其中，语音的优先级为：

一级语音＞二级语音＞三级语音＞……＞N级语音（在一级语音及二级语音同时生成时，一级语音享有优先输出的权利，二级语音被忽略）。

通过对进入会议内部的身份信息进行分级管理，每级用户对应语音发言的等级，在上一级用户在发言的过程中，下一级用户输出的语音信息无法发送至视频会议的输出音频中，减少多用户发言的相互干扰，具有单一用户语音输出的功能，有助于有效发言，减少不必要的语音输出。

在下一级用户进行发言的过程中，上一级用户具有抢断权，以便于及时的制止下一级用户的一些不必要发言，也可提醒下一级发言人注意自己的言辞后继续发言。

请再次参阅图8，所述语音管理模块还包括语音缓存单元，所述语音缓存单元用于对不在优先级的语音输出进行缓存，缓存后生成缓存语音显示在视频会议的栏目内，为选择性点击播放提供支持。

被优先级的语音阻挡的语音会被缓存，缓存后通过视频会议进行展示，展示内容包含用户信息及被阻挡的语音内容，展示后可单独点击播放，该播放只有点击的用户可听到（独立播放），并不会在视频会议中进行播放（不通过视频会议传输）。

所述语音管理模块还包括语音转换单元，所述语音转环单元为所述缓存语音提供文字转换的支持。

在视频会议正在发言的过程中，所述语音转换单元可通过点击，将所述缓存语音转换为文字呈现在视频会议中，以便于无声查看缓存语音。

所述语音管理模块还包括管控单元，所述管控单元用于身份信息分级的管理、缓存语音的管理、语音转换的管理。

在本实施例中，所述身份信息分级的管理：一级用户具有自主管控视频会议人员的身份信息层级（一级用户只有一人）；

所述缓存语音的管理：一级用户具有对缓存语音删除的权限，所有人享有缓存语音的播放权；

所述语音转换的管理：一级用户具有对缓存语音是否自动转换成文字的控制权（开启时，缓存语音自动转换为文字；关闭时，缓存语音需要点击转换）。

本实施例提供的基于声纹技术的视频会议用啸叫抑制设备的工作原理：

在多用户进行视频会议的过程中；

一级用户发言的过程中，一级以下的用户输出的语音被缓存且显示在视频会议的显示范围内，所有用户均可通过点击显示的缓存语音进行播放或文字转换；

二级用户发言的过程中，二级以下的用户输出的语音被缓存且显示在视频会议的显示范围内；

二级以上的用户输出的语音会阻断二级用户的发言，方便一级用户管理二级用户的发言，减少不必要的发言内容，提高视频会议中发言的质量。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于声纹技术的视频会议用啸叫抑制设备，其特征在于，包括：

所述语音输入模块通过所述处理模块对目标语音进行输入；

所述啸叫抑制模块用于对输入的语音进行降噪处理；

所述储存模块用于储存用户及声纹模型的信息。

2.根据权利要求1所述的基于声纹技术的视频会议用啸叫抑制设备，其特征在于，所述声纹提取单元中提取所有在讲话的声音，根据用户声纹特征将声音分成多个声纹特征组，每个所述声纹特征组通过所述声纹建模单元生成所述声纹模型，所有所述声纹模型通过所述声纹比对单元依次进行声纹比对。

3.根据权利要求2所述的基于声纹技术的视频会议用啸叫抑制设备，其特征在于，所述声纹建模单元包括A类模型和B类模型，所述A类模型为用户提供用于录入的声纹模型a，所述B类模型为用户提供用于比对的声纹模型b。

4.根据权利要求3所述的基于声纹技术的视频会议用啸叫抑制设备，其特征在于，所述声纹比对单元将所述声纹模型b与所述声纹模型a进行比对，判断所述声纹模型b是否为身份录入的用户。

5.根据权利要求4所述的基于声纹技术的视频会议用啸叫抑制设备，其特征在于，所述储存模块包括身份储存单元、模型储存单元及模型管理单元，所述身份储存单元用于储存所有录入用户的身份信息，所述模型储存单元用于储存所有录入用户的声纹模型信息，所述模型管理单元用于提取当前使用用户的身份信息及该用户的声纹模型信息，为所述声纹特征比对提供唯一用户的身份信息及声纹模型信息。

6.根据权利要求5所述的基于声纹技术的视频会议用啸叫抑制设备，其特征在于，所述基于声纹技术的视频会议用啸叫抑制设备还包括语音管理模块；

7.根据权利要求6所述的基于声纹技术的视频会议用啸叫抑制设备，其特征在于，所述语音管理模块还包括语音缓存单元，所述语音缓存单元用于对不在优先级的语音输出进行缓存，缓存后生成缓存语音显示在视频会议的栏目内，为选择性点击播放提供支持。

8.根据权利要求7所述的基于声纹技术的视频会议用啸叫抑制设备，其特征在于，所述语音管理模块还包括语音转换单元，所述语音转环单元为所述缓存语音提供文字转换的支持。

9.根据权利要求8所述的基于声纹技术的视频会议用啸叫抑制设备，其特征在于，所述语音管理模块还包括管控单元，所述管控单元用于身份分级的管理、缓存语音的管理、语音转换的管理。