CN110300001B

CN110300001B - 会议音频控制方法、系统、设备及计算机可读存储介质

Info

Publication number: CN110300001B
Application number: CN201910432253.9A
Authority: CN
Inventors: 齐燕
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2022-03-15
Anticipated expiration: 2039-05-21
Also published as: WO2020233068A1; CN110300001A

Abstract

本发明提供一种基于语音检测技术的会议音频控制方法、系统、设备及计算机可读存储介质，该方法包括：接收会议音频，对所述会议音频进行语音检测，判断所述会议音频中是否包含用户语音；若所述会议音频中包含用户语音，则提取所述会议音频中的用户语音，将所述用户语音转换为文本数据；将所述文本数据与预置的会议关键词进行对比匹配，并根据所述文本数据与所述会议关键词的匹配结果判断是否输出所述会议音频。本发明可自动静音不发言的用户，减少人工操作，提升效率。

Description

会议音频控制方法、系统、设备及计算机可读存储介质

技术领域

本发明涉及会议音频控制技术领域，尤其涉及一种会议音频控制方法、系统、设备及计算机可读存储介质。

背景技术

目前的多方会议系统多人接入时，通常需要手动控制每个与会方的音频是否打开。这需要一个会议发起人不断地看是否有人说话，并打开此方话筒。这种操作需要大量手动控制，自动化程度低，会议效率低。

发明内容

本发明的主要目的在于提供一种会议音频控制方法，旨在解决现有会议音频控制系统智能化程度较低的技术问题。

为实现上述目的，本发明提供一种会议音频控制方法，所述会议音频控制方法包括以下步骤：

接收会议音频，对所述会议音频进行语音检测，判断所述会议音频中是否包含用户语音；

若所述会议音频中包含用户语音，则提取所述会议音频中的用户语音，将所述用户语音转换为文本数据；

将所述文本数据与预置的会议关键词进行对比匹配，并根据所述文本数据与所述会议关键词的匹配结果判断是否输出所述会议音频。

可选地，所述对所述会议音频进行语音检测，判断所述会议音频中是否包含用户语音的步骤包括：

从所述会议音频中提取音频帧，并获得所述音频帧的信号能量；

将所述音频帧的信号能量与预置的能量阈值进行大小比较；

若所述音频帧的信号能量大于预置的能量阈值，则判定所述音频帧为语音帧。

可选地，所述将所述音频帧的信号能量与预置的能量阈值进行大小比较的步骤之前包括：

输出用户静音提示，对无用户语音状态下的背景噪声进行采集，并获得背景噪声能量；

基于所述背景噪声能量以及预设的阈值公式计算预置的能量阈值，所述阈值公式为：E_rnew＝(1-p)E_rold+pE_silence，其中，E_rnew为新的阈值，E_rold为旧的阈值，E_silence为背景噪声能量，p为加权值，p满足0<p<1。

可选地，所述将所述文本数据与预置的会议关键词进行对比匹配的步骤之前包括：

获取预存的会议资料，并基于所述会议资料获得目标文本集合，将所述目标文本集合中的目标文本进行分词，获得分词后的目标词语；

获得所述目标词语的词语特征，基于所述词语特征计算所述目标词语的权重值，其中，所述词语特征至少包括词性、词位置以及词频；

将权重值大于预设阀值的所述目标词语作为预置的会议关键词。

可选地，所述将所述文本数据与预置的会议关键词进行对比匹配的步骤包括：

对所述文本数据进行分词，获得分词后的话语关键词；

将所述话语关键词与预置的会议关键词进行对比，判断所述话语关键词中是否包含所述会议关键词；

若所述话语关键词中包含所述会议关键词，则所述文本数据与所述会议关键词匹配成功。

可选地，所述根据所述文本数据与所述会议关键词的匹配结果判断是否输出所述会议音频的步骤包括：

若所述文本数据与所述会议关键词匹配成功，则获取会议图像；

检测所述会议图像中的人脸，并提取检测到的所述人脸的嘴唇特征，根据所述嘴唇特征判断所述人脸是否符合言语特征；

若所述人脸符合言语特征，则判定输出所述会议音频。

可选地，所述检测所述会议图像中的人脸的步骤之后包括：

对检测到的所述人脸进行正面侧面识别；

若所述人脸为正面，则执行所述提取检测到的所述人脸的嘴唇特征的步骤；

若所述人脸为侧面，则判定不输出所述会议音频。

此外，为实现上述目的，本发明还提供一种会议音频控制系统，所述会议音频控制系统包括：

语音检测模块，接收会议音频，对所述会议音频进行语音检测，判断所述会议音频中是否包含用户语音；

文本转换模块，若所述会议音频中包含用户语音，则提取所述会议音频中的用户语音，将所述用户语音转换为文本数据；

匹配输出模块，将所述文本数据与预置的会议关键词进行对比匹配，并根据所述文本数据与所述会议关键词的匹配结果判断是否输出所述会议音频。

此外，为实现上述目的，本发明还提供一种会议音频控制设备，所述会议音频控制设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的会议音频控制程序，其中所述会议音频控制程序被所述处理器执行时，实现如上述的会议音频控制方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有会议音频控制程序，其中所述会议音频控制程序被处理器执行时，实现如上述的会议音频控制方法的步骤。

本发明实施例通过接收会议音频，对所述会议音频进行语音检测，判断所述会议音频中是否包含用户语音；若所述会议音频中包含用户语音，则提取所述会议音频中的用户语音，将所述用户语音转换为文本数据；将所述文本数据与预置的会议关键词进行对比匹配，并根据所述文本数据与所述会议关键词的匹配结果判断是否输出所述会议音频，可自动静音不发言的用户，去除背景噪声，减少人工操作，提升效率，并根据语音内容筛除与会议无关的会议音频，降低噪音干扰，减少网络带宽浪费。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的会议音频控制设备结构示意图；

图2为本发明会议音频控制方法一实施例的流程示意图；

图3为本发明会议音频控制系统一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参见图1，图1为本发明所提供的会议音频控制设备的硬件结构示意图。

会议音频控制设备可以是PC，也可以是智能手机、平板电脑、便携计算机、台式计算机等设备，会议成员通过会议音频控制设备参与会议，会议音频控制设备上可安装音、视频采集装置，也可以是由会议音频控制设备外接音、视频采集设备，会议音频控制设备还可安装显示装置以及音频输出装置，用于显示会议视频及输出会议音频；可选地，会议音频控制设备也可以是服务器设备，连接分布在不同地址的会议终端，接收会议终端发送的会议音频，并将分析后可输出的会议音频输出到会议终端。

会议音频控制设备可以包括：处理器101以及存储器201等部件。在会议音频控制设备中，处理器101与存储器201连接，存储器201上存储有会议音频控制程序，处理器101可以调用存储器201中存储的会议音频控制程序，并实现如下述会议音频控制方法各实施例的步骤。

本领域技术人员可以理解，图1中示出的会议音频控制设备结构并不构成对会议音频控制设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

基于上述结构，提出本发明会议音频控制方法的下述各个实施例。

本发明提供一种会议音频控制方法。

参照图2，图2为本发明会议音频控制方法第一实施例的流程示意图。

本实施例中，会议音频控制方法包括以下步骤：

步骤S10，接收会议音频，对所述会议音频进行语音检测，判断所述会议音频中是否包含用户语音；

由上文可知，会议音频控制设备可以为会议终端设备，此处的会议终端设备指会议成员用以参与会议的终端设备，例如，会议成员通过智能手机参与到企业部门会议中，此例中的智能手机即为会议音频控制设备；会议音频控制设备也可以为服务器设备，其中，服务器设备指远程处理会议数据的设备，处理会议数据可指将来自某一会议成员的会议音频传输到其他会议成员终端设备，例如，服务器设备H连接会议成员A、B、C，会议成员A、B、C分别通过三个不同的会议终端设备a、b、c参与到会议中，设备a将会议成员A的音频传输到服务器设备H，再由服务器设备H传输给会议终端设备b、c。

在本发明会议音频控制方法各实施例的解释说明中，以会议终端设备作为会议音频控制设备为例进行说明，且在下文中，会议音频控制设备可简称为设备。

在一实施方式中，会议音频指本地装置/设备采集的会议音频，即设备上的音频采集装置(录音装置)或者设备外接的音频采集设备采集所处空间内的音频信号，音频采集装置/设备将采集的音频信号传输给设备，即设备接收本地的会议音频。例如，会议成员A通过设备a参与到会议中，设备a外接的录音设备L采集会议成员A所在空间的音频信号，并传输给设备a，此处由录音设备L采集的音频信号即为本实施例中的会议音频。在本实施方式中，在将可传输的会议音频直接或(通过服务器)间接输出到其他会议成员终端之前，在本地对会议音频进行分析处理(分析处理指语音检测、文本关键词检测等处理操作)，而不是将采集的会议音频通过网络带宽直接或(通过服务器)间接输出到其他会议成员终端，因而避免对无需输出给其他会议成员的音频进行不必要的网络传输，节省网络带宽，提升会议数据传输速率，进而提升会议数据传输的实时性。

在另一实施方式中，会议音频指服务器远程传输到本设备的其他会议成员的会议音频，例如，服务器设备H连接会议成员A、B、C，会议成员A、B、C分别通过三个不同的设备a、b、c参与到会议中，设备a将会议成员A的音频传输到服务器设备H，再由服务器设备H传输给设备b、c，其中，设备b、c接收到的会议成员A的音频为本实施例中的会议音频。在设备接收到服务器远程传输到本设备的其他会议成员的会议音频后，对接收的会议音频进行语音检测、文本关键词检测等处理、判断操作后确定输出或不输出。

对会议音频进行语音检测，即检测会议音频中是否存在用户语音，可基于音频信号能量差异分析是否存在语音，会议场景下的信噪比通常较高，因而语音对应的音频能量较高、背景噪音对应的音频能量较低，通过分析会议音频的能量分布状况可检测出其中是否存在语音以及语音分布与噪音分布。若会议音频中不包含用户语音，则不对会议音频进行后续操作，不输出会议音频。

步骤S20，若所述会议音频中包含用户语音，则提取所述会议音频中的用户语音，将所述用户语音转换为文本数据；

鉴于背景噪音中也可能包含其他人的语音或者会议音频中包含与会议内容无关的发言内容，则为获得噪音更少的传输音频，获得更好的会议效果，本实施例还通过文本内容过滤噪音。

可对预设长度的会议音频进行语音转文本操作，判断会议发言内容是否与会议相关，若不相关，则很有可能是背景杂音或其他无需传输的声音，可不传输对应的会议音频。具体地，首先提取会议音频中的用户语音段，可通过分析会议音频中音频信号能量的变化确定用户语音段，具体地，获得语音对应的语音能量阈值，将各时刻音频对应的音频信号能量与语音能量阈值进行比较，确定音频信号能量大于或等于语音能量阈值的音频段，将该音频信号能量大于或等于语音能量阈值的音频段作为用户语音段。其次，将用户语音段转换为文字，获得用户语音段对应的文本数据。最后，将用户语音段对应的文本数据与预置的会议关键词进行对比，以判断用户语音段与会议是否相关。

其中，将用户语音段转换为文本数据包括：将用户语音段划分为语音帧，分别从各语音帧中提取各语音帧对应的声学特征，此处的声学特征可以为MFCC(Mel-FrequencyCepstral Coefficients)特征；将各语音帧对应的声学特征输入到声学模型，由声学模型输出音素，其中，该声学模型可以为隐马尔可夫模型或深度学习模型，或者二者的混合模型；基于声学模型输出的音素组合成文本词语，即用户语音段对应的文本数据。

步骤S30，将所述文本数据与预置的会议关键词进行对比匹配，并根据所述文本数据与所述会议关键词的匹配结果判断是否输出所述会议音频。

将文本数据与预置的会议关键词进行对比匹配，以判断用户语音段与会议是否相关，进而判断是否有必要输出会议音频。

预置的会议关键词，可预存在本地或服务器的预设地址中。可预置关键词库，关键词库中存储有对应不同主题会议的关键词集合，可以由会议成员选择目标会议主题，进而确定对应的会议关键词，其中，目标会议主题可选择一个或多个。可选地，还可以由具有特殊权限的会议成员输入或指定会议关键词。每次会议中，在首次获得会议关键词后，将会议关键词缓存，以供该次会议的后续音频控制步骤中快速获取并使用。

将文本数据与预置的会议关键词进行对比匹配，其中，文本数据由多个词语构成，因而，可将文本数据分词后获得文本词语，将各文本词语分别与预置的会议关键词进行是否相同以及是否含义相似的判断，若文本词语与预置的会议关键词相同或含义相似，则该文本词语与预置的会议关键词匹配成功。

在一实施方式中，只要文本数据中存在与预置的会议关键词匹配成功的文本词语，文本数据与预置的会议关键词就匹配成功，即用户语音段与会议相关，有必要输出会议音频；在另一实施方式中，文本数据中与会议关键词匹配成功的文本词语占比大于预设值时，文本数据与预置的会议关键词才匹配成功，例如，预设值为1/50，将文本数据分词后获得文本词语25个，其中与预置的会议关键词匹配成功的文本词语为5个，即文本数据中与会议关键词匹配成功的文本词语占比为5/25＝1/5>1/50，则文本数据与预置的会议关键词匹配成功。

将文本数据与会议关键词进行对比匹配，根据文本数据与会议关键词间的匹配结果判断会议音频中的语音内容是否与会议相关，若相关，则输出会议音频，若不相关，则不输出会议音频，其中，在一实施方式中，设备接收本地的会议音频，再进行本实施例中的语音检测、文本转换步骤之后，判定可输出会议音频，此处的输出指：将会议音频直接或间接输出到其他会议成员的终端；在另一实施方式中，会议音频指服务器远程传输到本设备的其他会议成员的会议音频，在传输到本设备之后，对会议音频进行本实施例中的语音检测、文本转换步骤之后，判定可输出会议音频，此处的输出指：将会议音频在本地会议终端输出。

本实施例通过接收会议音频，对所述会议音频进行语音检测，判断所述会议音频中是否包含用户语音，可避免将不包含用户语音的噪音进行输出，也可自动静音不发言的用户，去除背景噪声，减少人工操作，提升会议效率；若所述会议音频中包含用户语音，则提取所述会议音频中的用户语音，将所述用户语音转换为文本数据；将所述文本数据与预置的会议关键词进行对比匹配，并根据所述文本数据与所述会议关键词的匹配结果判断是否输出所述会议音频，可根据语音内容筛除与会议无关的会议音频，降低噪音干扰，减少网络带宽浪费。

进一步地，基于上述实施例，在本发明第二实施例中，步骤S10中所述对所述会议音频进行语音检测，判断所述会议音频中是否包含用户语音的步骤包括：

步骤S11，从所述会议音频中提取音频帧，并获得所述音频帧的信号能量；

可以根据预设的采样时间将会议音频划分为音频帧，采样时间可以为2.5ms～60ms，含义为取2.5ms～60ms为单位的数据量为一个音频帧。一段会议音频可能被划分为多个音频帧，后续能量大小判断以单个的音频帧为单位进行。可依据时间顺序依次提取会议音频中的音频帧。

对于音频帧的信号能量，可以用单位时间流经某处单位面积介质的能量的平均值的多少来表示这个地方声音的能量，公式为(P*w²*u*A²)/2，其中，P为介质密度，w声音频率，A为振幅，u为波速。

步骤S12，将所述音频帧的信号能量与预置的能量阈值进行大小比较；

步骤S13，若所述音频帧的信号能量大于预置的能量阈值，则判定所述音频帧为语音帧。

预置的能量阈值，指预先经实验确定的阈值，也可以是经验值，大于该预置的能量阈值，则对应音频帧能量较高，该音频帧为语音帧，小于该预置的能量阈值，则对应音频帧能量较低，该音频帧为非语音帧。

将音频帧的信号能量与预置的能量阈值进行大小比较，并根据大小比较结果分别对从会议音频中提取的所有音频帧进行语音帧与非语音帧的判定。

可选地，所述步骤S12之前包括：

步骤S14，输出用户静音提示，对无用户语音状态下的背景噪声进行采集，并获得背景噪声能量；

可以在会议开始之前或者会议之初，通过对无用户语音状态下的会议音频进行背景噪声能量采集，计算获得对应预置的能量阈值。

用户静音提示，即提示会议成员保持静音、不要讲话的提示，可以以语音形式或文字形式输出，可选地，用户静音提示可包括保持静音的时间，如“请保持静音5秒”，可输出倒计时以提醒会议成员；可选地，用户静音提示可以一直保持，直至采集完无用户语音状态下的背景噪声。无用户语音状态，即在输出用户静音提示后、用户应保持静止的时间段。可选地，为防止因会议成员在用户静音提示后未保持静音导致用户语音被纳入背景噪声，可对此状态下的音频进行采集并进行语音检测，若存在语音，则重新输出用户静音提示，并重新进行背景噪声及其能量采集。

步骤S15，基于所述背景噪声能量以及预设的阈值公式计算预置的能量阈值，所述阈值公式为：E_rnew＝(1-p)E_rold+pE_silence，其中，E_rnew为新的阈值，E_rold为旧的阈值，E_silence为背景噪声能量，p为加权值，p满足0<p<1。

在获得背景噪声能量后，即可基于背景噪声能量以及预设的阈值公式计算获得预置的能量阈值。预设的阈值公式存储于预设地址，在需计算预置的能量阈值时，仅需从预设地址获得，也可将获得的预置的能量阈值存储于固定地址，在需要进行语音判断时，从该固定地址直接获得预置的能量阈值，以便快速进行语音检测。

本实施例通过从所述会议音频中提取音频帧，并获得所述音频帧的信号能量；将所述音频帧的信号能量与预置的能量阈值进行大小比较；若所述音频帧的信号能量大于预置的能量阈值，则判定所述音频帧为语音帧，同时，采用基于无用户语音状态下的背景噪声能量及预设的阈值公式计算预置的能量阈值，可顺利实现对音频帧是否为语音帧的判断，以对是否进行后续的语音转文本操作以及输出操作进行判断。

进一步地，基于上述实施例，在本发明第三实施例中，步骤S30之前包括：

步骤S31，获取预存的会议资料，并基于所述会议资料获得目标文本集合，将所述目标文本集合中的目标文本进行分词，获得分词后的目标词语；

会议资料，指与会议有关的图文资料、音视频资料等，可以由会议成员上传，并存储于预置的资料地址，也可以针对不同的会议主题预存对应的会议资料。

基于所述会议资料获得目标文本集合，指将会议资料中的图文资料、音视频资料进行图像转文字、音频转文字操作，得到各自对应文本，作为关键词提取的目标文本集合；对目标文本集合中的所有目标文本进行分词，得到分词后的词语，将该分词后得到的词语作为目标词语。其中，在将会议资料中的音频资料转化为文本数据之前，可以对其进行“降噪”处理，将文本数据中的无意义语气词去除后，再对文本数据进行分词。

步骤S32，获得所述目标词语的词语特征，基于所述词语特征计算所述目标词语的权重值，其中，所述词语特征至少包括词性、词位置以及词频；

分别对各个目标词语进行词语特征的提取，词语特征至少包括词性、词位置以及词频。在提取目标词语的词性特征时，将目标词语与不同词性库中的词语进行对比，确定目标词语所属词性库，该所属词性库对应的词性即为目标词语的词性；在提取目标词语的词位置特征时，获得目标词语在其所属文本的位置，可能为标题、首段、尾段、首句、尾句等；在提取目标词语的词频特征时，统计目标词语在目标文本集合中出现的总次数以及在其所属文本中出现的总次数。

不同词性、词位置以及词频对应着不同子权重值，可预先为不同词性、词位置以及词频赋予不同的子权重值。具体地，对于词性，可以为不同词性预置对应的子权重值，如名词动词的子权重值为0.8，形容词/副词的子权重值为0.5，其他词性的的子权重值为0。

对于词位置，需预置各个位置的词的系数，用以标识不同位置在反映主题内容的重要性。出现在标题中的词比出现在文章其他位置(如段首、正文、段尾)的词更能反映主题，而出现在段首中的词比出现在段尾中的词更能反映主题，正文中的词比重最小。例如，对标题赋予系数0.8，段首为0.6，段尾为0.5，正文为0.2，则对于某个词语，其位置对应子权重值(Y)为：

Y＝xl×0.8+x2×0.6+x3×0.5+x4×0.2

其中，x1指词在标题中出现的次数；x2指词在段首出现的次数；x3指词在段尾出现的次数；x4指词在正文中出现的次数。

对于词频，可以基于公式M＝f/(1+f)计算词语的子权重值，其中，f表示词语在一篇文章中的词频，基于上述公式可使词语的子权重值随词频的增加而逐渐上升，当词语的词频逐渐增大时，该公式逐渐向1收敛，即词语出现的次数越多，该词作为关键词的可能性越大，同时可能性的增长又不是线性的，当词频特别高时，基本趋于稳定，比线性公式更加符合语言的实际。

在计算获得词性、词位置以及词频各自对应的子权重值后，可将各子权重值求和，即可得到目标词语的权重值。

步骤S33，将权重值大于预设阀值的所述目标词语作为预置的会议关键词。

将权重值大于预设阀值的所有目标词语作为预置的会议关键词，在权重值大于预设阀值时，说明对应目标词语在会议资料中的重要性程度较高，可以作为会议关键词。预设阀值可以为经验值。

本实施例通过对预存的会议资料进行分词，并对分词获得的目标词语进行词语特征提取，并基于词语特征计算所述目标词语的权重值，其中，所述词语特征至少包括词性、词位置以及词频；将权重值大于预设阀值的所述目标词语作为预置的会议关键词，可根据会议资料自动生成会议关键词，比起由会议成员手动输入会议关键词，本实施例可以获得更客观、全面的会议关键词，使得后续会议音频中用户语音与会议是否相关的判断更为准确。

进一步地，基于上述实施例，在本发明第四实施例中，步骤S30中所述将所述文本数据与预置的会议关键词进行对比匹配的步骤包括：

步骤S34，对所述文本数据进行分词，获得分词后的话语关键词；

对文本数据进行分词后，获得分词后的词语。将分词后得到的所有词语作为话语关键词，也可将分词后得到的所有词语进行词性划分，将其中的名词、动名词、动词作为话语关键词。

步骤S35，将所述话语关键词与预置的会议关键词进行对比，判断所述话语关键词中是否包含所述会议关键词；

话语关键词可能有多个，预置的会议关键词可能也有多个，则将各话语关键词分别与所有的会议关键词进行对比，判断话语关键词是否与至少一个会议关键词相同或含义相同/近似。本实施例中的“包含”会议关键词，指与会议关键词相同或含义相同/近似。

具体地，首先判断话语关键词是否与至少一个会议关键词相同，若与至少一个会议关键词相同，则可确定话语关键词中包含会议关键词，若与所有会议关键词都不相同，则进一步判断话语关键词是否与至少一个会议关键词含义相同/近似，若与至少一个会议关键词含义相同/近似，则可确定话语关键词中包含会议关键词，若与所有会议关键词含义都不相同/近似，则可确定话语关键词中不包含会议关键词。

其中，可以预先创建语料库，语料库中存储有与会议关键词含义相同/近似的词语，在判断话语关键词是否与至少一个会议关键词含义相同/近似时，从语料库中获取与会议关键词含义相同/近似的关联词语，将话语关键词与关联词语进行对比，判断话语关键词是否与至少一个关联词语相同，若话语关键词与至少一个关联词语相同，则可判定话语关键词与至少一个会议关键词含义相同/近似。

步骤S36，若所述话语关键词中包含所述会议关键词，则所述文本数据与所述会议关键词匹配成功。

若话语关键词中包含会议关键词，则文本数据与所述会议关键词匹配成功，可输出会议音频；反之，若话语关键词中不包含会议关键词，则文本数据与会议关键词匹配不成功，说明会议音频中的用户语音可能与会议内容无关，无需输出会议音频。

本实施例中，只要话语关键词中包含会议关键词，则文本数据与会议关键词匹配成功，可避免匹配要求太高导致漏掉会议音频中的重要用户语音。

进一步地，基于上述实施例，在本发明第五实施例中，步骤S30中所述根据所述文本数据与所述会议关键词的匹配结果判断是否输出所述会议音频的步骤包括：

步骤S370，若所述文本数据与所述会议关键词匹配成功，则获取会议图像；

在文本数据与会议关键词匹配成功后，可基于图像分析进一步判断是否输出会议音频。本实施例中的会议图像，指会议音频来源处的会议图像，即：会议音频来源的会议成员所处空间的图像。例如，若会议音频是由本地声音采集设备采集的本地音频，则会议图像为本地图像；若会议音频是由服务器网络传输的远程空间的音频，则会议图像为对应远程空间的图像。又例如，会议音频来源于会议成员A，则会议图像指会议成员A所处空间的图像。

步骤S371，检测所述会议图像中的人脸，并提取检测到的所述人脸的嘴唇特征，根据所述嘴唇特征判断所述人脸是否符合言语特征；

对会议图像进行人脸识别，获得其中的人脸，一个会议图像中可能包含多张人脸，则对每张人脸进行嘴唇特征检测以及是否符合言语特征的判断，若会议图像至少一张人脸符合言语特征，则可判定会议图像中的人脸符合言语特征。基于人脸五官位置特性，可直接对该人脸进行图像识别，以定位其中的嘴唇位置。可将嘴唇特征输入预置的语言判断模型中，由语言判断模型基于嘴唇特征判断该人脸是否符合言语特征。对于语言判断模型，可将标注了说话口型与非说话口型的唇部图像分别作为正例和反例对语言判断模型进行训练，在获得最优模型参数后，将包含最优模型参数的语言判断模型用于基于嘴唇特征的说话判断。

步骤S372，若所述人脸符合言语特征，则判定输出所述会议音频。

如果人脸符合言语特征，说明会议音频对应空间的会议成员正在说话，则可确定会议音频中有会议成员说话的语音，则需要输出会议音频；若人脸不符合言语特征，则说明会议音频对应空间的会议成员并没有说话，则说明会议音频中应该不会有会议成员说话的语音，则会议音频中已有的用户语音很可能是噪音，则判定不输出会议音频。

本实施例通过对会议音频对应的会议图像进行图像识别，提取会议图像中人脸的嘴唇特征，并根据所述嘴唇特征判断所述人脸是否符合言语特征，即确定其是否说话，若会议图像中至少一个人脸符合言语特征，则可输出会议音频，如此，可基于图像特征和音频特征共同确定是否应该输出会议音频，可获得更为准确的会议音频筛选结果。

可选地，步骤S371中所述检测所述会议图像中的人脸的步骤之后包括：

步骤S373，对检测到的所述人脸进行正面侧面识别；

可预置正面侧面识别的判别模型，将经过正面、侧面标注的人脸图像作为训练样本对判别模型进行训练，直至获得包含最优模型参数的判别模型，可将检测到的人脸图像输入该判别模型，由该判别模型输出正面侧面识别结果。

步骤S374，若所述人脸为正面，则执行所述提取检测到的所述人脸的嘴唇特征的步骤；

如果人脸为正面，则说明会议成员正对会议屏幕，在认真参与会议，同时，因为在正面状态下，可以检测到完整的人脸嘴唇，因此，为进一步准确筛选必要输出的会议音频，可进一步执行所述提取检测到的所述人脸的嘴唇特征的步骤，对其是否在说话进行判断，即执行步骤S371-S372。

步骤S375，若所述人脸为侧面，则判定不输出所述会议音频。

如果人脸为侧面，则会议成员可能是需要与其他成员进行私下讨论，则判定不输出所述会议音频，可增强会议音频筛选的灵活性，对于远程会议场景而言，也具有较好的实用性。

此外，本发明还提供一种与上述会议音频控制方法各步骤对应的会议音频控制系统。

参照图3，图3为本发明会议音频控制系统第一实施例的功能模块示意图。

在本实施例中，本发明会议音频控制系统包括：

语音检测模块10，用于接收会议音频，对所述会议音频进行语音检测，判断所述会议音频中是否包含用户语音；

文本转换模块20，用于若所述会议音频中包含用户语音，则提取所述会议音频中的用户语音，将所述用户语音转换为文本数据；

匹配输出模块30，用于将所述文本数据与预置的会议关键词进行对比匹配，并根据所述文本数据与所述会议关键词的匹配结果判断是否输出所述会议音频。

进一步地，所述语音检测模块10，还用于从所述会议音频中提取音频帧，并获得所述音频帧的信号能量；将所述音频帧的信号能量与预置的能量阈值进行大小比较；若所述音频帧的信号能量大于预置的能量阈值，则判定所述音频帧为语音帧。

进一步地，所述语音检测模块10，还用于输出用户静音提示，对无用户语音状态下的背景噪声进行采集，并获得背景噪声能量；基于所述背景噪声能量以及预设的阈值公式计算预置的能量阈值，所述阈值公式为：E_rnew＝(1-p)E_rold+pE_silence，其中，E_rnew为新的阈值，E_rold为旧的阈值，E_silence为背景噪声能量，p为加权值，p满足0<p<1。

进一步地，所述会议音频控制系统还包括：

会议关键词确定模块，用于获取预存的会议资料，并基于所述会议资料获得目标文本集合，将所述目标文本集合中的目标文本进行分词，获得分词后的目标词语；获得所述目标词语的词语特征，基于所述词语特征计算所述目标词语的权重值，其中，所述词语特征至少包括词性、词位置以及词频；将权重值大于预设阀值的所述目标词语作为预置的会议关键词。

进一步地，所述匹配输出模块30，还用于对所述文本数据进行分词，获得分词后的话语关键词；将所述话语关键词与预置的会议关键词进行对比，判断所述话语关键词中是否包含所述会议关键词；若所述话语关键词中包含所述会议关键词，则所述文本数据与所述会议关键词匹配成功。

进一步地，所述匹配输出模块30，还用于若所述文本数据与所述会议关键词匹配成功，则获取会议图像；检测所述会议图像中的人脸，并提取检测到的所述人脸的嘴唇特征，根据所述嘴唇特征判断所述人脸是否符合言语特征；若所述人脸符合言语特征，则判定输出所述会议音频。

进一步地，所述匹配输出模块30，还用于对检测到的所述人脸进行正面侧面识别；若所述人脸为正面，则执行所述提取检测到的所述人脸的嘴唇特征的步骤；若所述人脸为侧面，则判定不输出所述会议音频。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序。计算机可读存储介质可以是图1的会议音频控制设备中的存储器201，也可以是如ROM(Read-OnlyMemory，只读存储器)/RAM(Random Access Memory，随机存取存储器)、磁碟、光盘中的至少一种，计算机可读存储介质包括若干指令用以使得一台具有处理器的设备(可以是手机，计算机，服务器，网络设备或本发明实施例中的会议音频控制设备等)执行本发明各个实施例的方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、设备中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种会议音频控制方法，其特征在于，所述会议音频控制方法包括以下步骤：

将所述文本数据与预置的会议关键词进行对比匹配，并根据所述文本数据与所述会议关键词的匹配结果判断是否输出所述会议音频；

所述若所述会议音频中包含用户语音，则提取所述会议音频中的用户语音，将所述用户语音转换为文本数据的步骤，包括：

若所述会议音频中包含用户语音，则提取所述会议音频中预设长度的用户语音；

根据所述用户语音确定用户语音段；

将所述用户语音段划分为语音帧，分别从各语音帧中提取各语音帧对应的声学特征，所述声学特征为频率倒谱系数特征；

将所述声学特征输入到预设声学模型，获得音素；

根据所述音素构建文本词语，将所述文本词语作为文本数据；

所述根据所述文本数据与所述会议关键词的匹配结果判断是否输出所述会议音频的步骤包括：

若所述人脸符合言语特征，则判定输出所述会议音频。

2.如权利要求1所述的会议音频控制方法，其特征在于，所述对所述会议音频进行语音检测，判断所述会议音频中是否包含用户语音的步骤包括：

将所述音频帧的信号能量与预置的能量阈值进行大小比较；

3.如权利要求2所述的会议音频控制方法，其特征在于，所述将所述音频帧的信号能量与预置的能量阈值进行大小比较的步骤之前包括：

基于所述背景噪声能量以及预设的阈值公式计算预置的能量阈值，所述阈值公式为：E_rnew＝(1-p)E_rold+pE_silence，其中，E_rnew为新的阈值，E_rold为旧的阈值，E_silence为背景噪声能量，p为加权值，p满足0＜p＜1。

4.如权利要求1所述的会议音频控制方法，其特征在于，所述将所述文本数据与预置的会议关键词进行对比匹配的步骤之前包括：

5.如权利要求1所述的会议音频控制方法，其特征在于，所述将所述文本数据与预置的会议关键词进行对比匹配的步骤包括：

对所述文本数据进行分词，获得分词后的话语关键词；

6.如权利要求1所述的会议音频控制方法，其特征在于，所述检测所述会议图像中的人脸的步骤之后包括：

对检测到的所述人脸进行正面侧面识别；

若所述人脸为侧面，则判定不输出所述会议音频。

7.一种会议音频控制系统，其特征在于，所述会议音频控制系统包括：

语音检测模块，用于接收会议音频，对所述会议音频进行语音检测，判断所述会议音频中是否包含用户语音；

文本转换模块，用于若所述会议音频中包含用户语音，则提取所述会议音频中的用户语音，将所述用户语音转换为文本数据；

匹配输出模块，用于将所述文本数据与预置的会议关键词进行对比匹配，并根据所述文本数据与所述会议关键词的匹配结果判断是否输出所述会议音频；

所述文本转换模块，还用于若所述会议音频中包含用户语音，则提取所述会议音频中预设长度的用户语音；根据所述用户语音确定用户语音段；将所述用户语音段划分为语音帧，分别从各语音帧中提取各语音帧对应的声学特征，所述声学特征为频率倒谱系数特征；将所述声学特征输入到预设声学模型，获得音素；根据所述音素构建文本词语，将所述文本词语作为文本数据；

所述匹配输出模块，还用于若所述文本数据与所述会议关键词匹配成功，则获取会议图像；检测所述会议图像中的人脸，并提取检测到的所述人脸的嘴唇特征，根据所述嘴唇特征判断所述人脸是否符合言语特征；若所述人脸符合言语特征，则判定输出所述会议音频。

8.一种会议音频控制设备，其特征在于，所述会议音频控制设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的会议音频控制程序，其中所述会议音频控制程序被所述处理器执行时，实现如权利要求1至6中任一项所述的会议音频控制方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有会议音频控制程序，其中所述会议音频控制程序被处理器执行时，实现如权利要求1至6中任一项所述的会议音频控制方法的步骤。