CN115331676A

CN115331676A - 一种结合语音和图像的字符记录方法及执行芯片

Info

Publication number: CN115331676A
Application number: CN202211101475.0A
Authority: CN
Inventors: 王嘉诚; 张少仲; 张栩
Original assignee: Zhongcheng Hualong Computer Technology Co Ltd
Current assignee: Zhongcheng Hualong Computer Technology Co Ltd
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2022-11-11

Abstract

本发明公开了一种结合语音和图像的字符记录方法及执行芯片，属于计算机技术领域，包括：采集会议现场发言的音频数据和发言者的视频数据，对音频数据进行预处理，得到音频特征参数，对视频数据进行预处理，得到视频特征参数；将音频特征参数输入音频神经网络模型，输出语音识别结果；将视频特征参数输入视频神经网络模型，输出视频识别结果；将语音识别结果和视频识别结果进行相似度比对，若比对结果不低于设定的阈值，则保存语音识别结果，生成会议记录，若比对结果小于设定的阈值，则保存该段音频数据和视频数据，供人工介入识别。通过对语音和视频识别结果进行结合比对，在声音复杂的环境下，自动字符记录也能保证较高的准确性。

Description

一种结合语音和图像的字符记录方法及执行芯片

技术领域

本发明属于计算机技术领域，特别涉及一种结合语音和图像的字符记录方法及执行芯片。

背景技术

在一些会议中常常需要用文字的方式记录下每个人所陈述的话语，这部分的工作往往需要人工进行记录，但是人的注意力是有限的，使用人工的方式往往会传统的人工记录方式会存在各种问题，比如记录不全、错记漏记的情况。所以可能常常需要再进行人工返工和审核，但在二次修改时可能需要对录像和录音重新定位搜寻，反复确认，才能准确的记录，在此期间耗费大量的时间和精力。

目前随着人工智能的发展，语音识别技术逐渐成熟，通过语音识别把声音转化为文字，一定程度上可以辅助或代替重复利用人力进行会议记录及总结工作。此外，随着声纹识别技术的发展，可通过声纹识别来判断声音的来源人，将语音识别和声纹识别结合，对不同发言人讲述的文本进行区分标注，会使得会议记录更为准确和高效。为了解决传统人工记录方式存在的记录效率低的问题，公开号为“CN112017632A”的中国发明专利公开了一种自动化会议记录生成方法，其具体方案如下：收集音频数据，对音频数据进行预处理，采用DNN算法模型对处理后的数据进行声纹识别，识别说话人；采用翻译模型对处理后的数据进行语音识别，将语音转换为文字，获取文本数据；采用TextRank算法对文本信息进行文本摘要；采用了DCNN模型对文本信息进行句子级情感识别；最后生成会议记录。但是，对于声音环境复杂的场景比如大型会议，往往存在外部声音干扰以及拾音存在不准确的情况，导致自动化生成的会议记录准确率仍然不够高。

发明内容

本发明提供一种结合语音和图像的字符记录方法及执行芯片，旨在解决声音环境复杂场景下的会议字符记录准确率不够高的问题。

为解决上述技术问题，本发明结合音频神经网络以及视频神经网络，分别对会议语音和发言者的唇部视频进行识别，通过对两种识别结果进行比对纠正，有效提高会议记录的准确性，具体方案如下：

一种结合语音和图像的字符记录方法，包括以下步骤：

S1：采集会议现场发言的音频数据和发言者的视频数据，对音频数据附加时间参数并进行预处理，得到第一音频特征参数，对视频数据附加时间参数并进行预处理，得到第一视频特征参数；

S2：将所述第一音频特征参数输入训练好的音频神经网络模型，输出语音识别结果；将所述第一视频特征参数输入训练好的视频神经网络模型，输出视频识别结果；所述音频神经网络模型与视频神经网络模型包括依序设置的卷积神经网络和循环神经网络，所述循环神经网络通过双向长短期记忆结构进行唇动序列时序特征的学习；

S3：将所述语音识别结果和视频识别结果进行相似度比对，若比对结果不低于设定的阈值，则保存语音识别结果，生成会议记录；若比对结果小于设定的阈值，则保存该段音频数据和视频数据，供人工介入识别。

优选地，所述步骤S1中对音频数据进行预处理的流程包括端点检测、预加重、分帧和加窗、快速傅里叶变换及特征向量提取：

端点检测，通过区分有声段、无声段和浊音段的信号以区划语句的开头与结尾，得到有效语音序列；

预加重，增加所述有效语音序列的高频能量，提高信噪比，得到加重语音序列；

分帧和加窗，对所述加重语音序列按设定的时间间隔进行分段，然后利用带通滤波器过滤信号，以减小信号的误差，得到依赖于时间的帧序列；

快速傅里叶变换，将所述帧序列输入快速傅里叶变换专用的FFT硬件模块中进行计算，把时域图转换为各帧的频谱；

特征向量提取，使用感知线性预测技术将关键频带、强度-响度压缩和等响度预强调相结合，提取所述频谱的特征向量，生成第二音频特征参数，特征向量提取的步骤交由专用硬件模块进行计算。

优选地，所述步骤S1中的视频数据预处理步骤具体如下：

视频关键帧提取，将输入的视频数据转换为图像序列，生成关键帧；

人脸检测，将所述关键帧输入图像检测硬件计算模块，使用AdaBoost算法从所述图像序列检测出人脸区域，然后对检测出的人脸区域进行人脸关键点进行标注；

唇部检测，将所述人脸关键点信息输入图像检测硬件计算模块，根据所述人脸关键点裁剪出嘴部区域的图像序列，生成视频特征参数。

优选地，所述步骤S2中音频神经网络模型和视频神经网络模型的训练和识别流程具体包括以下步骤：

S201：获取用于训练的音频数据样本集和视频数据样本集；

S202：对所述音频数据样本集附加时间参数，并进行与所述步骤S1相同的预处理，获得语音数据第一特征参数，对所述视频数据样本集附加时间参数，并进行与所述步骤S1相同的预处理，获得视频数据第一特征参数；

S203：将所述语音数据第一特征参数输入音频神经网络进行训练，所述视频数据第一特征参数输入视频神经网络进行训练；

S204：保存训练结果，获得用于音频神经网络模型和视频神经网络模型；

S205：将所述步骤S1采集的音频数据输入所述步骤S204中的音频神经网络模型，获得语音识别结果；将所述步骤S1采集的视频数据输入所述步骤S204中的视频神经网络模型，获得视频识别结果。

优选地，所述步骤S2中的音频神经网络和视频神经网络均包括依序设置的卷积神经网络和循环神经网络；

卷积神经网络对输入的音频特征参数和视频特征参数进行卷积，提取音频特征参数和视频特征参数的局部特征，同时减少频域变化，生成语音特征图和视频特征图送入循环神经网络；

循环神经网络对输入的特征图按照时间参数进行拆分，将拆分后的特征图依序封装成两个矩阵，利用BiLSTM节点对前一个矩阵分别进行正向传播以及对后一个矩阵进行反向传播，输出语音识别结果和视频识别结果；

所述卷积神经网络和循环神经网络均由专用硬件计算模块实现。

优选地，用于所述卷积神经网络包括依序连接的第一卷积层、池化层和第二卷积层：第一卷积层为256个大小为1×9的过滤器，横向步长设置为2，通道设置为1；池化层为大小为1×3的最大池化层，步长设置为1；第二卷积层为512个大小为1×4的过滤器，横向步长设置为1，通道设置为128。

优选地，所述循环神经网络对单向的长短期记忆结构提出改进，使用双向长短期记忆结构进行唇动序列特征的学习。

优选地，采用Dropout技术解决所述卷积神经网络和循环神经网络产生的过拟合问题，在每次训练的过程中，将神经网络隐藏层中的神经元以概率p随机丢弃，p优选为0.4。

优选地，所述双向长短期记忆结构的节点数量优选为4096个，其中2048个节点只连接一个矩阵，用于进行正向传播；另外2048个节点连接另外一个矩阵，用于反向传播。

优选地，所述端点检测方法优选为双门限法，其中语音能量的计算公式为：

其中，

为检测点的语音能量，

为第

点的语音广义分贝值，

为检测点的数量。

优选地，所述分帧和加窗步骤优选为汉明窗，其公式如下：

其中，

是样本步长为

的窗口系数，

是汉明窗的窗长，

是步长；窗长默认值为25ms，步长默认值为10ms。

一种结合语音和图像的字符记录执行芯片，所述执行芯片用于上述的方法。

与现有技术相比，本发明具有以下技术效果：

对会议的发言分别进行语音识别与唇部动作识别，在进行字符记录的过程中根据语音识别、唇部动作对比结果获得准确的字符记录结果，使得字符记录可以应用于声音环境复杂的场景，能够消除外部干扰噪声影响字符记录结果的准确性，扩展了自动字符记录的应用范围，提高字符记录的准确性。

附图说明

图1是本发明所述的一种结合语音和图像的字符记录方法流程图；

图2是本发明所述的一种结合语音和图像的字符记录方法的音频数据预处理示意图；

图3是本发明所述的一种结合语音和图像的字符记录方法的AdaBoost算法强分类器级联示意图。

图中：1、加重语音序列；2、帧序列；3、第二音频特征参数。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例，并参照附图，对本发明技术方案进行清楚、完整地描述。

请参阅图1，本发明提供了一种结合语音和图像的字符记录方法，包括以下步骤：

S1：采集会议现场发言的音频数据和发言者的视频数据，对音频数据和视频数据附加时间参数，用于校准音频数据和视频数据的时间轴，为后续识别出的字符记录比对提供时间参考，对音频数据进行预处理，得到第一音频特征参数，对视频数据进行预处理，得到第一视频特征参数。

S2：将音频特征参数输入训练好的音频神经网络模型，输出语音识别结果；将视频特征参数输入训练好的视频神经网络模型，输出视频识别结果。

S3：将语音识别结果和视频识别结果进行相似度比对，若比对结果不低于设定的阈值，则保存语音识别结果，生成会议记录；若比对结果小于设定的阈值，则保存该段音频数据和视频数据，供人工介入识别。

步骤S1中对音频数据进行预处理的流程包括端点检测、预加重、分帧和加窗：

端点检测，通过区分有声段、无声段和浊音段的信号以区划语句的开头与结尾，得到有效语音序列。对语音信号进行时域分析，可以明显辨别出原始语音信息包含有声段、无声段和浊音段，端点检测通过区分以上不同段的信号以找到语音信号的起始点和结束点。本实施例中的端点检测方法采用双门限法，通过计算语音能量的方式来判断语音的端点，预先设置双门的门限能量

，然后分别计算每个时刻的语音能量

，若

，则生成门限序列为1；若

，则生成门限序列为0；从而得到门限序列，将门限序列点乘原始语音序列，得到有效语音序列。语音能量的计算公式为：

端点检测方法优选为双门限法，其中语音能量的计算公式为：

其中，

为检测点的语音能量，

为第

点的语音广义分贝值，

为所有检测点的数量。

预加重，增加有效语音序列的高频能量，提高信噪比，得到加重语音序列1。语音信息往往夹杂着环境中的各种其他声音信息，由于人类发音的特性，语音信息经过频率转换后往往大部分集中于低频带，从而使得低频能量过高，高频能量过低，难以有效提取高频语音信息。预加重预先添加高频信号，与原始语音信号叠加后，高频段和低频段的能量相当，使得后续的识别效率明显提升。

分帧和加窗，对加重语音序列1按设定的时间间隔进行分段，然后利用带通滤波器过滤信号，以减小信号的误差，得到依赖于时间的帧序列2。一段信号整体是不稳定的，但从局部看，语音信号可假定为短时平稳的（10-30ms内可以认为语音信号近似不变为一个音素的发音，一般情况下取 25ms），所以需要对整段语音信号进行分帧处理。本实施例中加窗采用汉明窗，由于加上汉明窗，只有中间的数据体现出来，两边的数据信息丢失，所以相邻的窗之间有重叠的部分，本实施例的窗长为25ms，步长为10ms，即每个窗的后15ms与后续相邻窗的前15ms为重叠部分。汉明窗的公式如下：

其中，

是样本步长为

的窗口系数，

是汉明窗的窗长，

是步长；窗长默认值为25ms，步长默认值为10ms。

快速傅里叶变换（FFT），将帧序列2从时域图转换为各帧的频谱。语音信号在时域上特性的特性不明显，所以通常转换为频域上的能量分布，对每帧经过窗函数处理的信号做快速傅里叶变换将时域图转换成各帧的频谱，然后对每个窗口的频谱叠加得到语谱图。

特征向量提取，使用感知线性预测技术（PLP）将关键频带、强度-响度压缩和等响度预强调相结合，提取频谱的特征向量，生成音频特征参数3。对FFT后的语谱图幅度求平方，然后进行临界频带积分，接着进行等响度预加重，接着求立方根（对强度进行等响度压缩），然后是进行逆傅里叶变换，最后再经过线性预测即可得到PLP。

步骤S1中的视频数据预处理步骤包括视频关键帧提取、人脸检测和唇部检测：

视频关键帧提取，将输入的视频数据转换为图像序列。由于后续神经网络的输入是基于静态图像的，因此需要将视频转换成图像序列，从每段独立的发音视频中采样出固定长度的序列，将提取出的序列作为关键帧。

人脸检测，使用AdaBoost算法从每一帧视频图像检测出人脸区域，然后对检测出的人脸区域进行人脸关键点进行标注。采用AdaBoost算法，利用OpenCV的开源计算机视觉库，将用于人脸标识的Haar特征与AdaBoost级联分类器相结合用于人脸检测。Haar特征值反应了图像的灰度变化，适合简单和描述特定方向的图形结构，如水平、垂直和对角线结构，而脸部特征可以由矩形特征进行描述，由于区分人脸区域与非人脸区域。AdaBoost则根据弱分类器的反馈，在下次迭代过程中提高正确样本的权重，同时降低错误样本的权重，使得当前分类器优于上一个分类器，经过若干次迭代后得到与迭代次数相同数量的弱分类器，将各弱分类器通过加权投票，从而组成一个强分类器，可以在保证检测速度的同时提高人脸检测的效果。最终将多个强分类器通过cascade级联算法形成级联分类器，可以极大地提高人脸检测的效果。

唇部检测，根据人脸关键点裁剪出嘴部区域的图像序列，生成视频特征参数。在图像序列中检测到人脸区域图像后，进一步提取唇部区域，以排除面部表情干扰的同时降低图像运算的复杂度。本实施例中理由Dlib进行人脸68个关键点的检测，利用点49、51、53、55和58这五个嘴唇边界点坐标精确定位嘴唇区域，分别代表左和右两个嘴角点、上嘴唇的两个最高点和下嘴唇的的一个最低点，然后将提取到的嘴唇区域图像变换为相同尺寸的图像。

步骤S2中音频神经网络模型和视频神经网络模型的训练、识别流程具体包括以下步骤：

S201：获取用于训练的音频数据样本集和视频数据样本集；

S202：对音频数据样本集进行预处理，获得语音数据第一特征参数，对视频数据样本集进行预处理，获得视频数据第一特征参数；预处理方式与步骤S1中对音频数据和视频数据的预处理方式相同。

S203：将语音数据第一特征参数输入音频神经网络进行训练，视频数据第一特征参数输入视频神经网络进行训练；音频神经网络和视频神经网络均包括依序设置的卷积神经网络（CNN）和循环神经网络（RNN）。

卷积神经网络包括依序连接的第一卷积层、池化层和第二卷积层：第一卷积层为256个大小为1×9的过滤器，横向步长设置为2，通道设置为1；池化层为大小为1×3的最大池化层，步长设置为1；第二卷积层为512个大小为1×4的过滤器，横向步长设置为1，通道设置为128。用于对输入的音频特征参数和视频特征参数进行卷积，提取音频特征参数和视频特征参数的局部特征，同时减少频域变化，生成语音特征图和视频特征图送入循环神经网络。

循环神经网络对输入的特征图按照时间参数进行拆分，将拆分后的特征图依序封装成两个矩阵，利用LSTM（LongShort-TermMemory，长短期记忆）来记录唇动图像序列的时序特征。由于唇部识别中的发音序列一般较长，整个唇动序列是上下文相关的，即对于独立的唇动视频，t时刻的输出不仅与t时刻之前的唇动信息有关，t时刻之后的唇动信息对t时刻的输出也有很大的影响。为充分利用唇部的动态信息，有效学习唇动序列的帧间信息，本实施例对单向LSTM进行改进，使用BiLSTM（Bi-directionalLongShort-TermMemory，双向长短期记忆）结构进行唇动序列时序特征的学习，用LSTM单元替换了双向RNN中的隐含层，使其可以同时利用过去时刻和未来时刻两个方向的信息，将当前图片的特征扩充至整个序列图片中，实现对整个唇动时序特征的有效学习，使得最终的预测结果更加准确。利用BiLSTM节点对前一个矩阵分别进行正向传播以及对后一个矩阵进行反向传播，输出语音识别结果和视频识别结果。BiLSTM的节点数量优选为4096个，其中2048个节点只连接一个矩阵，用于进行正向传播；另外2048个节点连接另外一个矩阵，用于反向传播。

鉴于采用CNN-BiLSTM的混合模型相对复杂，因此在训练过程中会产生过拟合的问题。为了缓解模型在训练过程中出现的过拟合问题，提高模型的泛化能力，本实施例采用Dropout技术，并且将dropout率设置为0.4，在每次训练过程中随机丢弃一部分神经元，降低模型的复杂度，从而提高模型的泛化能力。

S204：保存训练结果，将步骤获得用于音频神经网络模型和视频神经网络模型；

S205：将步骤S1采集的音频数据输入步骤S204中的音频神经网络模型，获得字符形式的语音识别结果；将步骤S1采集的视频数据输入步骤S204中的视频神经网络模型，获得字符形式的视频识别结果。将语音识别结果与视频识别结果进行相似度比对，并将比对结果与设定的阈值相比，若比对结果不低于阈值，则保存语音识别结果，生成会议字符记录；若比对结果小于阈值，则标注该段内容同时保存语音识别结果和视频识别结果，供人工实时介入或者后续介入修改纠正。

一种执行芯片，执行芯片用于执行上述所有方法。

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种结合语音和图像的字符记录方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种结合语音和图像的字符记录方法，其特征在于，所述步骤S1中对音频数据进行预处理的流程包括端点检测、预加重、分帧和加窗、快速傅里叶变换及特征向量提取：

预加重，增加所述有效语音序列的高频能量，提高信噪比，得到加重语音序列（1）；

分帧和加窗，对所述加重语音序列（1）按设定的时间间隔进行分段，然后利用带通滤波器过滤信号，以减小信号的误差，得到依赖于时间的帧序列（2）；

快速傅里叶变换，将所述帧序列（2）输入快速傅里叶变换专用的FFT硬件模块中进行计算，把时域图转换为各帧的频谱；

特征向量提取，使用感知线性预测技术将关键频带、强度-响度压缩和等响度预强调相结合，提取所述各帧的频谱的特征向量，生成第二音频特征参数（3），特征向量提取的步骤交由特征向量提取硬件模块进行计算。

3.根据权利要求1所述的一种结合语音和图像的字符记录方法，其特征在于，所述步骤S1中的视频数据预处理步骤具体如下：

4.根据权利要求1所述的一种结合语音和图像的字符记录方法，其特征在于，所述步骤S2中音频神经网络模型和视频神经网络模型的训练和识别流程具体包括以下步骤：

S201：获取用于训练的音频数据样本集和视频数据样本集；

5.根据权利要求1所述的一种结合语音和图像的字符记录方法，其特征在于，所述步骤S2中的音频神经网络和视频神经网络均包括依序设置的卷积神经网络和循环神经网络；

所述卷积神经网络对输入的音频特征参数和视频特征参数进行卷积，提取音频特征参数和视频特征参数的局部特征，同时减少频域变化，生成语音特征图和视频特征图送入循环神经网络；

所述循环神经网络对输入的特征图按照时间参数进行拆分，将拆分后的特征图依序封装成两个矩阵，利用BiLSTM节点对前一个矩阵分别进行正向传播以及对后一个矩阵进行反向传播，输出语音识别结果和视频识别结果；

6.根据权利要求5所述的一种结合语音和图像的字符记录方法，其特征在于，用于所述卷积神经网络包括依序连接的第一卷积层、池化层和第二卷积层：第一卷积层为256个大小为1×9的过滤器，横向步长设置为2，通道设置为1；池化层为大小为1×3的最大池化层，步长设置为1；第二卷积层为512个大小为1×4的过滤器，横向步长设置为1，通道设置为128。

7.根据权利要求5所述的一种结合语音和图像的字符记录方法，其特征在于，所述循环神经网络对单向的长短期记忆结构提出改进，使用双向长短期记忆结构进行唇动序列特征的学习。

8.根据权利要求5所述的一种结合语音和图像的字符记录方法，其特征在于，采用Dropout技术解决所述卷积神经网络和循环神经网络产生的过拟合问题，在每次训练的过程中，将神经网络隐藏层中的神经元以概率p随机丢弃，p默认值为0.4。

9.根据权利要求7所述的一种结合语音和图像的字符记录方法，其特征在于，所述双向长短期记忆结构的节点数量默认值为4096个，其中2048个节点只连接一个矩阵，用于进行正向传播；另外2048个节点连接另外一个矩阵，用于反向传播。

10.根据权利要求2所述的一种结合语音和图像的字符记录方法，其特征在于，所述端点检测方法选择双门限法，其中语音能量的计算公式为：