CN110767229B

CN110767229B - 基于声纹的音频输出方法、装置、设备及可读存储介质

Info

Publication number: CN110767229B
Application number: CN201910981040.1A
Authority: CN
Inventors: 郑琳琳; 陈昊亮; 曹虎
Original assignee: Guangzhou Speakin Intelligent Technology Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2022-02-01
Anticipated expiration: 2039-10-15
Also published as: CN110767229A

Abstract

本发明公开了一种基于声纹的音频输出方法，该方法包括：当接收到音频信息时，获取所述音频信息中的声纹信息，并在声纹数据库中查找与所述声纹信息对应的声纹样本；判断音频数据库中是否存在与所述音频信息对应的音频样本；若所述音频数据库中不存在与所述音频信息对应的音频样本，则向视频识别装置输出唇形获取指令，以获取目标唇形；根据所述目标唇形和所述声纹样本生成目标音频，并将所述目标音频输出。本发明还公开了一种基于声纹的音频输出装置、设备及可读存储介质。本发明实现了在周边环境等不可控因素影响的情况下，提高了音频播放的质量。

Description

基于声纹的音频输出方法、装置、设备及可读存储介质

技术领域

本发明涉及语音处理领域，尤其涉及一种基于声纹的音频输出方法、装置、设备及可读存储介质。

背景技术

随着办公智能化的快速发展，由于不受地域限制，可以容纳更多的人员，视频会议被越来越多地运用在办公中。

现有的视频会议中，发言人在发言时，很容易受到自身及周围环境的影响，从而造成播出的声音音质嘈杂，音量大小变化，从而导致收听发言的人员参会体验下降，影响视频会议的效果，在受到发言人自身及周边环境等不可控因素的影响下，如何使视频会议播放的声音质量得到提高成为了亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种基于声纹的音频输出方法，旨在解决在受到发言人自身及周边环境等不可控因素的影响下，使视频会议播放的声音质量得到提高的技术问题。

此外，为实现上述目的，本发明还提供一种基于声纹的音频输出方法，所述基于声纹的音频输出方法包括以下步骤：

当接收到音频信息时，获取所述音频信息中的声纹信息，并在声纹数据库中查找与所述声纹信息对应的声纹样本；

判断音频数据库中是否存在与所述音频信息对应的音频样本；

若所述音频数据库中不存在与所述音频信息对应的音频样本，则向视频识别装置输出唇形获取指令，以获取目标唇形；

根据所述目标唇形和所述声纹样本生成目标音频，并将所述目标音频输出。

可选地，所述当接收到音频信息时，获取所述音频信息中的声纹信息，并在声纹数据库中查找与所述声纹信息对应的声纹样本的步骤之后，包括：

若在所述声纹数据库中未查找到与所述声纹信息对应的声纹样本，则输出发言人异常的提示信息；

若在所述声纹数据库中查找到与所述声纹信息对应的声纹样本，则执行所述判断音频数据库中是否存在与所述音频信息对应的音频样本的步骤。

可选地，所述向视频识别装置输出唇形获取指令，以获取目标唇形的步骤包括：

若基于唇形获取指令未获取到有效唇形，则输出发言角度异常的提示信息；

若基于唇形获取指令获取到有效唇形，则判断唇形数据库中是否存在与所述有效唇形匹配的唇形样本；

若所述唇形数据库中存在与所述有效唇形匹配的唇形样本，则将所述有效唇形作为目标唇形。

可选地，所述若所述唇形数据库中存在与所述有效唇形匹配的唇形样本，则将所述有效唇形作为目标唇形的步骤之后，包括：

判断所述唇形样本是否属于预设唇形集合；

若所述唇形样本属于所述预设唇形集合，则向音频播放装置输出禁播指令，以使所述音频播放装置不播出任何音频；

若所述唇形样本不属于所述预设唇形集合，则执行所述根据所述目标唇形和所述声纹样本生成目标音频，并将所述目标音频输出的步骤。

可选地，所述当接收到音频信息时，获取所述音频信息中的声纹信息，并在声纹数据库中查找与所述声纹信息对应的声纹样本的步骤包括：

当接收到音频信息时，获取所述音频信息中的声纹信息，提取所述声纹信息中的特征，并根据所述特征建立声纹模型；

在声纹数据库中查找与所述声纹模型相似度最高且超过预设相似度的目标声纹模型，并将所述目标声纹模型作为声纹样本。

可选地，所述判断音频数据库中是否存在与所述音频信息对应的音频样本的步骤之后，包括：

若所述音频数据库中存在与所述音频信息对应的音频样本，则获取所述音频信息中的音频强度，将所述音频强度调整为预设音频强度，并将调整了音频强度后的音频信息输出；

若所述音频数据库中不存在与所述音频信息对应的音频样本，则获取目标音频的音频强度，将所述音频强度调整为预设音频强度，并将调整了音频强度后的目标音频输出。

可选地，所述若所述音频数据库中不存在与所述音频信息对应的音频样本，则向视频识别装置输出唇形获取指令，以获取目标唇形的步骤包括：

若音频数据库中不存在与音频信息对应的音频样本，则判断所述音频信息是否属于噪声音频集合；

若所述音频信息属于所述噪声音频集合，则向音频播放装置输出禁播指令，以使所述音频播放装置不播出任何音频；

若所述音频信息不属于所述噪声音频集合，则向视频识别装置输出唇形获取指令，以获取目标唇形。

此外，为实现上述目的，本发明还提供一种基于声纹的音频输出装置，所述基于声纹的音频输出装置包括：

获取模块，用于当接收到音频信息时，获取所述音频信息中的声纹信息，并在声纹数据库中查找与所述声纹信息对应的声纹样本；

判断模块，用于判断音频数据库中是否存在与所述音频信息对应的音频样本；

输出模块，用于若所述音频数据库中不存在与所述音频信息对应的音频样本，则向视频识别装置输出唇形获取指令，以获取目标唇形；

生成模块，用于根据所述目标唇形和所述声纹样本生成目标音频，并将所述目标音频输出。

此外，为实现上述目的，本发明还提供一种基于声纹的音频输出设备，所述基于声纹的音频输出设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声纹的音频输出程序，所述基于声纹的音频输出程序被所述处理器执行时实现如上述的基于声纹的音频输出方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有基于声纹的音频输出程序，所述基于声纹的音频输出程序被处理器执行时实现如上述的基于声纹的音频输出方法的步骤。

本发明实施例提出的一种基于声纹的音频输出方法、装置、设备及可读存储介质。本发明实施例中当语音接收设备(如麦克风)接收到音频信息后，基于声纹的音频输出程序将会获取音频信息中的声纹信息，并在声纹数据库中查找与声纹信息对应的声纹样本，基于声纹的音频输出程序还将判断音频数据库中是否存在与音频信息对应的音频样本，若音频数据库中不存在与音频信息对应的音频样本，基于声纹的音频输出程序便会向视频识别装置输出唇形获取指令，以获取音频信息录入者的目标唇形，将目标唇形对应的音频输入声纹样本得到目标音频，最终将目标音频输出，目标唇形和声纹样本仅与音频录入者有关，将目标唇形对应的音频输入声纹样本得到的目标音频也仅与音频录入者有关，即，输出的目标音频仅是音频录入者的语音，相当于过滤掉了非音频录入者本人语音的其他音频，实现了提高音频播放质量的目的。

附图说明

图1为本发明实施例提供的基于声纹的音频输出设备一种实施方式的硬件结构示意图；

图2为本发明基于声纹的音频输出方法第一实施例的流程示意图；

图3为本发明基于声纹的音频输出方法第二实施例的流程示意图；

图4为本发明基于声纹的音频输出方法第三实施例的流程示意图；

图5为本发明基于声纹的音频输出方法第四实施例的流程示意图；

图6为本发明基于声纹的音频输出方法第五实施例的流程示意图；

图7为本发明基于声纹的音频输出方法第六实施例的流程示意图；

图8为本发明基于声纹的音频输出装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

本发明实施例基于声纹的音频输出终端(又叫终端、设备或者终端设备)可以是PC，也可以是智能手机、平板电脑、视频识别装置(例如，摄像头)、麦克风和扬声器等具有信息采集、信息处理和信息输出功能的设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于声纹的音频输出程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的基于声纹的音频输出程序，所述基于声纹的音频输出程序被处理器执行时实现下述实施例提供的基于声纹的音频输出方法中的操作。

基于上述设备硬件结构，提出了本发明基于声纹的音频输出方法的实施例。

参照图2，在本发明基于声纹的音频输出方法的第一实施例中，所述基于声纹的音频输出方法包括：

步骤S10，当接收到音频信息时，获取所述音频信息中的声纹信息，并在声纹数据库中查找与所述声纹信息对应的声纹样本。

本实施例中基于声纹的音频输出方法应用于基于声纹的音频输出设备(又叫终端、设备或者终端设备)，基于声纹的音频输出设备包括智能手机、PC、平板电脑、视频识别装置(例如，摄像头)、麦克风和扬声器等具有信息采集、信息处理和信息输出功能的设备。

本实施例中基于声纹的音频输出方法应用于视频会议等向麦克风输入音频并从扬声器输出音频的场景，音频信息是指麦克风接收到的语音(例如，人向开启收音功能的麦克风发声)信息，可知地，声纹具有特殊性，声纹，不受说话者声音大小和语气的影响，每个人都有其与众不同的声纹，声纹信息用于区分每个人不同的语音，选取声纹信息中与其他声纹信息不同的特征，并用这些特征构建声纹模型，构建好的声纹模型就叫声纹样本。具体地，选取特征的方式方法以及构建模型的方式方法本实施例不做详述。

声纹数据库是指保存有一个或多个声纹样本的数据库，每个声纹样本对应每个不同的人。

步骤S20，判断音频数据库中是否存在与所述音频信息对应的音频样本。

本实施例中音频样本是指，录入者录入的音频，且音频中不包含噪音杂音等其他非录入者本人发出的音频，选取音频中必要的且与其他音频信息不同的特征，并用这些特征构建音频模型，构建好的音频模型就叫音频样本。具体地，选取特征的方式方法以及构建模型的方式方法本实施例不做详述。

判断音频数据库中是否存在与音频信息对应的音频样本的目的是，判断音频信息中是否夹杂了噪音杂音等其他非录入者本人发出的音频，已知地，因为音频数据库中保存的音频样本均是选取无噪音和杂音的音频的特征构建的，所以当录入者本人录入的音频中夹杂了其他音频时，麦克风接收到的音频信息将会出现杂乱无规律的现象，音频数据库中也不存在与这个音频信息对应的音频文件。

步骤S30，若所述音频数据库中不存在与所述音频信息对应的音频样本，则向视频识别装置输出唇形获取指令，以获取目标唇形。

已知地，因为音频数据库中保存的音频样本均是选取无噪音和杂音的音频的特征构建的，所以若音频数据库中不存在对应的音频样本，则可判定音频信息中夹杂了其他噪音杂音等非录入者本人发出的音频，基于声纹的音频输出程序将向视频识别装置(例如，摄像头)输出唇形获取指令，其中，所述视频识别装置安放的位置不做限制，但需要保证视频识别装置能够清晰地拍摄到音频录入者的唇，以准确获取音频录入者在录入音频时的唇形，可知地，唇形具有识别音频的作用，每一段无杂音和噪音的音频都对应一个不同的唇形。音频的分段与汉语的字有关，即，录入的语音中，每一个字对应一段音频，目标唇形是指音频录入者在录入音频时视频识别装置获取到的唇形。

步骤S40，根据所述目标唇形和所述声纹样本生成目标音频，并将所述目标音频输出。

可知地，唇形具有识别音频的作用，每一段无杂音和噪音的音频都对应一个不同的唇形，相反，目标唇形也对应一段无杂音和噪音的音频，根据获取到的录入者的目标唇形和与录入者对应的声纹样本可生成目标音频，具体地，将目标唇形对应的音频输入到声纹模型(已知，选取声纹信息中必要的且与其他声纹信息不同的特征，并用这些特征构建声纹模型，构建好的声纹模型就叫声纹样本)中，音频输入到声纹模型中后，经过计算可得到目标音频，输入声纹模型中的音频是无杂音和噪音的音频，得到的目标音频即是有录入者语音特色(因为声纹模型仅与录入者有关)的无杂音和噪音的音频，将目标音频输出，即实现了提高音频播放质量的目的。

在本实施例中当语音接收设备(如麦克风)接收到音频信息后，基于声纹的音频输出程序将会获取音频信息中的声纹信息，并在声纹数据库中查找与声纹信息对应的声纹样本，基于声纹的音频输出程序还将判断音频数据库中是否存在与音频信息对应的音频样本，若音频数据库中不存在与音频信息对应的音频样本，基于声纹的音频输出程序便会向视频识别装置输出唇形获取指令，以获取音频信息录入者的目标唇形，将目标唇形对应的音频输入声纹样本得到目标音频，最终将目标音频输出，即实现了提高音频播放质量的目的。

进一步地，参照图3，在本发明上述实施例的基础上，提出了本发明基于声纹的音频输出方法的第二实施例。

本实施例是第一实施例中步骤S10之后的步骤，本实施例与本发明上述实施例的区别在于：

步骤S50，若在所述声纹数据库中未查找到与所述声纹信息对应的声纹样本，则输出发言人异常的提示信息。

可知地，声纹具有特定性，且不受说话者声音大小和语气的影响，每个人都有其与众不同的声纹，声纹信息用于区分每个人不同的语音。

本实施例给出一种具体应用场景，某部门召开视频会议，指定陈某和张某两个人发言，在视频会议召开前，基于声纹的音频输出设备录入陈某和张某的一段音频(音频不限定内容)，基于声纹的音频输出程序获取陈某和张某录入的音频中的声纹信息，并构建陈某和张某特有的声纹样本，将声纹样本保存至声纹数据库。会议期间，由于种种原因，王某发了言，基于声纹的音频输出设备在接收到王某的音频信息后，获取王某的音频信息中的声纹信息，并基于王某的声纹信息构建声纹样本，因为声纹数据库中并未保存王某的声纹样本，所以在声纹数据库中查找不到与王某的声纹信息对应的声纹样本，这种情况下，基于声纹的音频输出程序将输出发言人异常的提示信息，以提示视频会议组织者会议过程中出现不正常发言。

可知地，声纹数据库也可以在视频会议召开过程中更改，例如，某部门召开视频会议，指定陈某于7点至8点期间发言，指定张某于8点至9点期间发言，视频会议召开前，声纹数据库中保存有陈某和张某的声纹样本，视频会议召开到7点时，计划陈某发言，基于声纹的音频输出程序还可暂时将张某的声纹样本移出声纹数据库，这样，声纹数据库中就只有陈某的声纹样本，同理，张某发言期间也可进行相同的操作。

具体地，声纹样本的保存和移出方法，发言人异常提示信息的提示形式和具体内容，本实施例不做限制和详述。

步骤S60，若在所述声纹数据库中查找到与所述声纹信息对应的声纹样本，则执行所述判断音频数据库中是否存在与所述音频信息对应的音频样本的步骤。

可知地，若声纹数据库中查找到与声纹信息对应的声纹样本，即，发言人符合发言规则，本实施例是第一实施例中步骤S10之后的步骤，当声纹数据库中查找的到与声纹信息对应的声纹样本时，执行第一实施例中所述的步骤S20。

在本实施例中通过判断是否能在声纹数据库中查找到与声纹信息对应的声纹样本，进一步详述若在声纹数据库中未查找到与声纹信息对应的声纹样本时的解决方法，实现了对音频输入的规范化管理，为提高音频播放质量打下了基础。

进一步地，参照图4，在本发明上述实施例的基础上，提出了本发明基于声纹的音频输出方法的第三实施例。

本实施例是第一实施例中步骤S30细化的步骤，本实施例与本发明上述实施例的区别在于：

步骤S31，若基于唇形获取指令未获取到有效唇形，则输出发言角度异常的提示信息。

本实施例中有效唇形是指，视频识别装置(如摄像头)获取到的可用于信息分析的唇形。

本实施例中给出一种具体应用场景，某部门召开视频会议，陈某发言期间，由于环境噪音的影响，音频接收设备(例如麦克风)接收到包含噪音的音频信息，基于声纹的音频输出程序向摄像头输出唇形获取指令，若陈某没有正视摄像头，由于拍摄角度问题，摄像头无法获取到陈某的有效唇形，这种情况下，基于声纹的音频输出程序将输出发言角度异常的提示信息，以提示会议组织者或者陈某发言角度有问题，发言角度异常提示信息的具体提示形式和内容，本实施例不做限制和详述。

步骤S32，若基于唇形获取指令获取到有效唇形，则判断唇形数据库中是否存在与所述有效唇形匹配的唇形样本。

本实施例，基于声纹的音频输出方法中唇形具有特定性，以汉字举例，发出每个汉字的音频对应一个或一些唇形特征，用这些唇形特征构建唇形模型，构建好的唇形模型就叫唇形样本。判断唇形数据库中是否存在与有效唇形匹配的唇形样本的方法为，提取有效唇形的唇形特征，用这些特征构建唇形样本，进而判断唇形数据库中是否存在由有效唇形构建的唇形样本。

本实施例中给出一种具体应用场景，某部门召开视频会议，陈某发言期间，由于环境噪音的影响，音频接收设备(例如麦克风)接收到包含噪音的音频信息，基于声纹的音频输出程序向摄像头输出唇形获取指令，由于陈某没有正视摄像头(但摄像头仍能获取陈某的唇形)，摄像头获取到的陈某的唇形是异样变形的，基于声纹的音频输出程序在唇形数据库中没有查找到与摄像头获取到的异样变形的唇形匹配的唇形样本。

步骤S33，若所述唇形数据库中存在与所述有效唇形匹配的唇形样本，则将所述有效唇形作为目标唇形。

可知地，唇形具有识别音频的作用，每一段无杂音和噪音的音频都对应一个不同的唇形，目标唇形也对应一段无杂音和噪音的音频。已知，每段无杂音和噪音的音频对应一个或一些唇形特征，用这些唇形特征构建唇形样本，则每个唇形样本也对应一段无杂音和噪音的音频，若唇形数据库中存在与有效唇形匹配的唇形样本，则有效唇形可作为目标唇形。

具体地，步骤S33之后的步骤，还包括：

步骤a1，判断所述唇形样本是否属于预设唇形集合。

唇形样本与语言有关，以汉字举例，发出每个汉字的音频对应一个唇形样本，每个唇形样本也对应一段无杂音和噪音的音频，但唇形样本对应的音频确不一定有声音，举例说明，唇形样本对应的目标唇形可以为噘嘴或者嘟嘴等不发出声音的唇形，这些由不发出声音的唇形对应的唇形样本形成的唇形集合就是预设唇形集合。

步骤a2，若所述唇形样本属于所述预设唇形集合，则向音频播放装置输出禁播指令，以使所述音频播放装置不播出任何音频。

预设唇形集合是由不发出声音的唇形对应的唇形样本形成的唇形集合，若唇形样本属于预设唇形集合，则与唇形样本匹配的目标唇形为不发出声音的唇形，因为本实施例中基于声纹的音频输出方法能够实现，即使发言者不发出声音，只做出发言的唇形动作，也能实现高质量的音频播放。所以当基于声纹的音频输出唇形判定目标唇形为不发出声音的唇形时，基于声纹的音频输出程序将向音频播放装置(如扬声器)输出禁播指令，以使音频播放装置静音。

步骤a3，若所述唇形样本不属于所述预设唇形集合，则执行所述根据所述目标唇形和所述声纹样本生成目标音频，并将所述目标音频输出的步骤。

若唇形样本不属于预设唇形集合，根据预设唇形集合的定义可知，唇形样本对应的唇形为发出声音的唇形，则执行第一实施例中步骤S40。

在本实施例中通过对没有获取到唇形进行补充，以及对获取到的唇形进行判断，实现了唇形与音频相结合的音频输出方法。

进一步地，参照图5，在本发明上述实施例的基础上，提出了本发明基于声纹的音频输出方法的第四实施例。

本实施例是第一实施例中步骤S10细化的步骤，本实施例与本发明上述实施例的区别在于：

步骤S11，当接收到音频信息时，获取所述音频信息中的声纹信息，提取所述声纹信息中的特征，并根据所述特征建立声纹模型。

本实施例中音频信息是指麦克风接收到的语音信息，语音信息中可包含声纹信息，可知地，声纹具有特殊性，每个人都有其与众不同的声纹。本实施例中特征是指，声纹信息中特有的区别于其他声纹的标志，其中，特征可为一个也可为多个，提取声纹信息中的特征，并用这些特征构建声纹模型。具体地，选取特征的方法以及构建模型的方法本实施例不做详述。

步骤S12，在声纹数据库中查找与所述声纹模型相似度最高且超过预设相似度的目标声纹模型，并将所述目标声纹模型作为声纹样本。

声纹数据库中的声纹模型是根据预先录入的音频信息构建的，已知预先录入的音频信息是无噪音和杂音的音频信息，但麦克风接收到的音频信息可能包含一些杂音，这就使得根据麦克风接收到的音频信息构建的声纹模型，可能会与声纹数据库中的声纹模型之间存在偏差，这就需要对声纹模型进行相似度对比。

本实施例给出一种具体应用场景，某部门召开一场视频会议，参会者包括陈某，张某，王某和李某共四位，会议之前预先设定陈某，张某和王某发言，会议开始前，声纹数据库中提前录入了陈某，张某和王某的声纹模型，录入是在无噪环境下完成的，陈某，张某和王某的声纹模型分别是声纹模型1，声纹模型2和声纹模型3，如表1所示，会议期间，张某在较嘈杂的环境下发言，麦克风录入张某的音频信息，基于声纹的音频输出程序对张某的音频信息进行处理得到声纹模型4，通过将声纹模型4与声纹数据库中的三个声纹模型进行对比，得到声纹模型4与声纹模型2的相似度最高，相似度为90％。会议期间，没有设定发言的李某发了言，麦克风录入李某的音频信息，基于声纹的音频输出程序对李某的音频信息进行处理得到声纹模型5，通过将声纹模型5与声纹数据库中的三个声纹模型进行对比，得到声纹模型的相似度分别为25％，33％和28％，已知预设相似度为70％，则声纹模型2为本实施例中的目标声纹模型。

表1

在本实施例中详述了在声纹数据库中查找与声纹信息对应的声纹样本的过程。

进一步地，参照图6，在本发明上述实施例的基础上，提出了本发明基于声纹的音频输出方法的第五实施例。

本实施例是第一实施例中步骤S20之后的步骤，本实施例与本发明上述实施例的区别在于：

步骤S70，若所述音频数据库中存在与所述音频信息对应的音频样本，则获取所述音频信息中的音频强度，将所述音频强度调整为预设音频强度，并将调整了音频强度后的音频信息输出。

本实施例中给出一种具体应用场景，某部门召开视频会议，指定张某和陈某发言，张某发言期间，由于张某与麦克风之间的距离忽远忽近，造成播放的声音忽大忽小，直接影响了音频播放的质量和人员的参会体验。本实施例中预设音频强度是根据参会人数和会议室的大小等其他因素综合设置的一个衡量播放声音大小的值，预设音频强度的大小本实施例不做限制。若音频数据库中存在与音频信息对应的音频样本，则通过调整音频强度后音频信息会直接经过麦克风进行播放。

步骤S80，若所述音频数据库中不存在与所述音频信息对应的音频样本，则获取目标音频的音频强度，将所述音频强度调整为预设音频强度，并将调整了音频强度后的目标音频输出。

若音频数据库中不存在与音频信息对应的音频样本，则基于声纹的音频输出程序将向视频识别装置输出唇形获取指令，基于唇形获取指令获取到目标唇形后，根据目标唇形和声纹样本生成目标音频，将目标音频的音频强度调整为预设音频强度，通过麦克风将调整后的目标音频输出。

在本实施例中通过调整输出音频的音频强度，避免了播放声音忽大忽小的现象，提高了音频播放的质量。

进一步地，参照图7，在本发明上述实施例的基础上，提出了本发明基于声纹的音频输出方法的第六实施例。

步骤S34，若音频数据库中不存在与音频信息对应的音频样本，则判断所述音频信息是否属于噪声音频集合。

麦克风接收到的音频信息还可能仅包含噪声和杂音，即，不包含发言者的语音，可知地，噪音或杂音的音频信息具有杂乱无章的特点，而人发出的语音具有一定发的规律性，以此来区分人发出的语音与杂音噪音。音频样本具有一定的规律性，通过这个特点确定音频信息是否具有一定的规律性，进而判断音频数据库中是否存在与音频信息对应的音频样本，若音频数据库中不存在与音频信息对应的音频样本，则可判定音频信息属于噪声音频集合，本实施例中噪声音频集合并不是指一个具有特定元素数量的集合，而是泛指任何无规律的音频的集合。

步骤S35，若所述音频信息属于所述噪声音频集合，则向音频播放装置输出禁播指令，以使所述音频播放装置不播出任何音频。

若判定音频信息属于噪声音频集合，则基于声纹的音频输出程序将向音频播放装置(例如，扬声器)输出禁播指令，基于禁播指令，音频播放装置将静音。

步骤S36，若所述音频信息不属于所述噪声音频集合，则向视频识别装置输出唇形获取指令，以获取目标唇形。

若判定音频信息不属于噪声音频集合，则确定音频数据库中存在与音频信息对应的音频样本，则基于声纹的音频输出程序将向视频识别装置(例如，摄像头)输出唇形获取指令，其中，所述视频识别装置安放的位置不做限制，但需要保证视频识别装置能够清晰地拍摄到音频录入者的唇，以准确获取音频录入者在录入音频时的唇形。

在本实施例中在音频数据库中不存在与音频信息对应的音频样本的情况下，通过判断音频信息是否属于噪声音频集合，进而执行禁播操作或者获取目标唇形，实现了对音频播出的进一步管理。

可以理解的是，本领域的技术人员可以清楚地了解到上述实施例的方法，并从第二至第六实施例中任意选择一个或多个实施例与第一实施例的技术方案结合。

例如，上述第五实施例可以与第一实施例进行简单的结合，即，当接收到音频信息时，获取音频信息中的声纹信息，并在声纹数据库中查找与声纹信息对应的声纹样本；判断音频数据库中是否存在与音频信息对应的音频样本；若音频数据库中存在与音频信息对应的音频样本，则获取音频信息中的音频强度，将音频强度调整为预设音频强度，并将调整了音频强度后的音频信息输出；若音频数据库中不存在与音频信息对应的音频样本，则向视频识别装置输出唇形获取指令，以获取目标唇形，根据目标唇形和声纹样本生成目标音频，获取目标音频的音频强度，将音频强度调整为预设音频强度，并将调整了音频强度后的目标音频输出。

可以理解的是，上述实施例之间的结合仅做举例说明，并不代表所有的可以结合的实施例。

此外，参照图8，本发明实施例还提出一种基于声纹的音频输出装置，所述基于声纹的音频输出装置包括：

获取模块10，用于当接收到音频信息时，获取所述音频信息中的声纹信息，并在声纹数据库中查找与所述声纹信息对应的声纹样本；

判断模块20，用于判断音频数据库中是否存在与所述音频信息对应的音频样本；

输出模块30，用于若所述音频数据库中不存在与所述音频信息对应的音频样本，则向视频识别装置输出唇形获取指令，以获取目标唇形；

生成模块40，用于根据所述目标唇形和所述声纹样本生成目标音频，并将所述目标音频输出。

上述各程序模块所执行的方法可参照本发明方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件商品的形式体现出来，该计算机软件商品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机和平板电脑等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于声纹的音频输出方法，其特征在于，所述基于声纹的音频输出方法包括以下步骤：

根据所述目标唇形和所述声纹样本生成目标音频，并将所述目标音频输出；

其中，所述根据所述目标唇形和所述声纹样本生成目标音频的步骤包括：

将所述目标唇形对应的音频输入基于所述声纹样本构建的声纹模型中，接收所述声纹模型输出的目标音频。

2.如权利要求1所述的基于声纹的音频输出方法，其特征在于，所述当接收到音频信息时，获取所述音频信息中的声纹信息，并在声纹数据库中查找与所述声纹信息对应的声纹样本的步骤之后，包括：

3.如权利要求1所述的基于声纹的音频输出方法，其特征在于，所述向视频识别装置输出唇形获取指令，以获取目标唇形的步骤包括：

4.如权利要求3所述的基于声纹的音频输出方法，其特征在于，所述若所述唇形数据库中存在与所述有效唇形匹配的唇形样本，则将所述有效唇形作为目标唇形的步骤之后，包括：

判断所述唇形样本是否属于预设唇形集合，其中，所述预设唇形集合由不发出声音的唇形对应的唇形样本组成；

5.如权利要求1所述的基于声纹的音频输出方法，其特征在于，所述当接收到音频信息时，获取所述音频信息中的声纹信息，并在声纹数据库中查找与所述声纹信息对应的声纹样本的步骤包括：

6.如权利要求1所述的基于声纹的音频输出方法，其特征在于，所述判断音频数据库中是否存在与所述音频信息对应的音频样本的步骤之后，包括：

7.如权利要求1至6任意一项所述的基于声纹的音频输出方法，其特征在于，所述若所述音频数据库中不存在与所述音频信息对应的音频样本，则向视频识别装置输出唇形获取指令，以获取目标唇形的步骤包括：

8.一种基于声纹的音频输出装置，其特征在于，所述基于声纹的音频输出装置包括：

生成模块，用于根据所述目标唇形和所述声纹样本生成目标音频，并将所述目标音频输出；

其中，所述生成模块包括：

目标音频输出单元，用于将所述目标唇形对应的音频输入基于所述声纹样本构建的声纹模型中，接收所述声纹模型输出的目标音频。

9.一种基于声纹的音频输出设备，其特征在于，所述基于声纹的音频输出设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声纹的音频输出程序，所述基于声纹的音频输出程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于声纹的音频输出方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有基于声纹的音频输出程序，所述基于声纹的音频输出程序被处理器执行时实现如权利要求1至7中任一项所述的基于声纹的音频输出方法的步骤。