CN115331676A - 一种结合语音和图像的字符记录方法及执行芯片 - Google Patents
一种结合语音和图像的字符记录方法及执行芯片 Download PDFInfo
- Publication number
- CN115331676A CN115331676A CN202211101475.0A CN202211101475A CN115331676A CN 115331676 A CN115331676 A CN 115331676A CN 202211101475 A CN202211101475 A CN 202211101475A CN 115331676 A CN115331676 A CN 115331676A
- Authority
- CN
- China
- Prior art keywords
- neural network
- video
- audio
- voice
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003062 neural network model Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims description 40
- 238000001514 detection method Methods 0.000 claims description 28
- 238000010586 diagram Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 11
- 238000009432 framing Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 125000004122 cyclic group Chemical group 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000006872 improvement Effects 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims description 2
- 230000036962 time dependent Effects 0.000 claims description 2
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种结合语音和图像的字符记录方法及执行芯片,属于计算机技术领域,包括:采集会议现场发言的音频数据和发言者的视频数据,对音频数据进行预处理,得到音频特征参数,对视频数据进行预处理,得到视频特征参数;将音频特征参数输入音频神经网络模型,输出语音识别结果;将视频特征参数输入视频神经网络模型,输出视频识别结果;将语音识别结果和视频识别结果进行相似度比对,若比对结果不低于设定的阈值,则保存语音识别结果,生成会议记录,若比对结果小于设定的阈值,则保存该段音频数据和视频数据,供人工介入识别。通过对语音和视频识别结果进行结合比对,在声音复杂的环境下,自动字符记录也能保证较高的准确性。
Description
技术领域
本发明属于计算机技术领域,特别涉及一种结合语音和图像的字符记录方法及执行芯片。
背景技术
在一些会议中常常需要用文字的方式记录下每个人所陈述的话语,这部分的工作往往需要人工进行记录,但是人的注意力是有限的,使用人工的方式往往会传统的人工记录方式会存在各种问题,比如记录不全、错记漏记的情况。所以可能常常需要再进行人工返工和审核,但在二次修改时可能需要对录像和录音重新定位搜寻,反复确认,才能准确的记录,在此期间耗费大量的时间和精力。
目前随着人工智能的发展,语音识别技术逐渐成熟,通过语音识别把声音转化为文字,一定程度上可以辅助或代替重复利用人力进行会议记录及总结工作。此外,随着声纹识别技术的发展,可通过声纹识别来判断声音的来源人,将语音识别和声纹识别结合,对不同发言人讲述的文本进行区分标注,会使得会议记录更为准确和高效。为了解决传统人工记录方式存在的记录效率低的问题,公开号为“CN112017632A”的中国发明专利公开了一种自动化会议记录生成方法,其具体方案如下:收集音频数据,对音频数据进行预处理,采用DNN算法模型对处理后的数据进行声纹识别,识别说话人;采用翻译模型对处理后的数据进行语音识别,将语音转换为文字,获取文本数据;采用TextRank算法对文本信息进行文本摘要;采用了DCNN模型对文本信息进行句子级情感识别;最后生成会议记录。但是,对于声音环境复杂的场景比如大型会议,往往存在外部声音干扰以及拾音存在不准确的情况,导致自动化生成的会议记录准确率仍然不够高。
发明内容
本发明提供一种结合语音和图像的字符记录方法及执行芯片,旨在解决声音环境复杂场景下的会议字符记录准确率不够高的问题。
为解决上述技术问题,本发明结合音频神经网络以及视频神经网络,分别对会议语音和发言者的唇部视频进行识别,通过对两种识别结果进行比对纠正,有效提高会议记录的准确性,具体方案如下:
一种结合语音和图像的字符记录方法,包括以下步骤:
S1:采集会议现场发言的音频数据和发言者的视频数据,对音频数据附加时间参数并进行预处理,得到第一音频特征参数,对视频数据附加时间参数并进行预处理,得到第一视频特征参数;
S2:将所述第一音频特征参数输入训练好的音频神经网络模型,输出语音识别结果;将所述第一视频特征参数输入训练好的视频神经网络模型,输出视频识别结果;所述音频神经网络模型与视频神经网络模型包括依序设置的卷积神经网络和循环神经网络,所述循环神经网络通过双向长短期记忆结构进行唇动序列时序特征的学习;
S3:将所述语音识别结果和视频识别结果进行相似度比对,若比对结果不低于设定的阈值,则保存语音识别结果,生成会议记录;若比对结果小于设定的阈值,则保存该段音频数据和视频数据,供人工介入识别。
优选地,所述步骤S1中对音频数据进行预处理的流程包括端点检测、预加重、分帧和加窗、快速傅里叶变换及特征向量提取:
端点检测,通过区分有声段、无声段和浊音段的信号以区划语句的开头与结尾,得到有效语音序列;
预加重,增加所述有效语音序列的高频能量,提高信噪比,得到加重语音序列;
分帧和加窗,对所述加重语音序列按设定的时间间隔进行分段,然后利用带通滤波器过滤信号,以减小信号的误差,得到依赖于时间的帧序列;
快速傅里叶变换,将所述帧序列输入快速傅里叶变换专用的FFT硬件模块中进行计算,把时域图转换为各帧的频谱;
特征向量提取,使用感知线性预测技术将关键频带、强度-响度压缩和等响度预强调相结合,提取所述频谱的特征向量,生成第二音频特征参数,特征向量提取的步骤交由专用硬件模块进行计算。
优选地,所述步骤S1中的视频数据预处理步骤具体如下:
视频关键帧提取,将输入的视频数据转换为图像序列,生成关键帧;
人脸检测,将所述关键帧输入图像检测硬件计算模块,使用AdaBoost算法从所述图像序列检测出人脸区域,然后对检测出的人脸区域进行人脸关键点进行标注;
唇部检测,将所述人脸关键点信息输入图像检测硬件计算模块,根据所述人脸关键点裁剪出嘴部区域的图像序列,生成视频特征参数。
优选地,所述步骤S2中音频神经网络模型和视频神经网络模型的训练和识别流程具体包括以下步骤:
S201:获取用于训练的音频数据样本集和视频数据样本集;
S202:对所述音频数据样本集附加时间参数,并进行与所述步骤S1相同的预处理,获得语音数据第一特征参数,对所述视频数据样本集附加时间参数,并进行与所述步骤S1相同的预处理,获得视频数据第一特征参数;
S203:将所述语音数据第一特征参数输入音频神经网络进行训练,所述视频数据第一特征参数输入视频神经网络进行训练;
S204:保存训练结果,获得用于音频神经网络模型和视频神经网络模型;
S205:将所述步骤S1采集的音频数据输入所述步骤S204中的音频神经网络模型,获得语音识别结果;将所述步骤S1采集的视频数据输入所述步骤S204中的视频神经网络模型,获得视频识别结果。
优选地,所述步骤S2中的音频神经网络和视频神经网络均包括依序设置的卷积神经网络和循环神经网络;
卷积神经网络对输入的音频特征参数和视频特征参数进行卷积,提取音频特征参数和视频特征参数的局部特征,同时减少频域变化,生成语音特征图和视频特征图送入循环神经网络;
循环神经网络对输入的特征图按照时间参数进行拆分,将拆分后的特征图依序封装成两个矩阵,利用BiLSTM节点对前一个矩阵分别进行正向传播以及对后一个矩阵进行反向传播,输出语音识别结果和视频识别结果;
所述卷积神经网络和循环神经网络均由专用硬件计算模块实现。
优选地,用于所述卷积神经网络包括依序连接的第一卷积层、池化层和第二卷积层:第一卷积层为256个大小为1×9的过滤器,横向步长设置为2,通道设置为1;池化层为大小为1×3的最大池化层,步长设置为1;第二卷积层为512个大小为1×4的过滤器,横向步长设置为1,通道设置为128。
优选地,所述循环神经网络对单向的长短期记忆结构提出改进,使用双向长短期记忆结构进行唇动序列特征的学习。
优选地,采用Dropout技术解决所述卷积神经网络和循环神经网络产生的过拟合问题,在每次训练的过程中,将神经网络隐藏层中的神经元以概率p随机丢弃,p优选为0.4。
优选地,所述双向长短期记忆结构的节点数量优选为4096个,其中2048个节点只连接一个矩阵,用于进行正向传播;另外2048个节点连接另外一个矩阵,用于反向传播。
优选地,所述端点检测方法优选为双门限法,其中语音能量的计算公式为:
优选地,所述分帧和加窗步骤优选为汉明窗,其公式如下:
一种结合语音和图像的字符记录执行芯片,所述执行芯片用于上述的方法。
与现有技术相比,本发明具有以下技术效果:
对会议的发言分别进行语音识别与唇部动作识别,在进行字符记录的过程中根据语音识别、唇部动作对比结果获得准确的字符记录结果,使得字符记录可以应用于声音环境复杂的场景,能够消除外部干扰噪声影响字符记录结果的准确性,扩展了自动字符记录的应用范围,提高字符记录的准确性。
附图说明
图1是本发明所述的一种结合语音和图像的字符记录方法流程图;
图2是本发明所述的一种结合语音和图像的字符记录方法的音频数据预处理示意图;
图3是本发明所述的一种结合语音和图像的字符记录方法的AdaBoost算法强分类器级联示意图。
图中:1、加重语音序列;2、帧序列;3、第二音频特征参数。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例,并参照附图,对本发明技术方案进行清楚、完整地描述。
请参阅图1,本发明提供了一种结合语音和图像的字符记录方法,包括以下步骤:
S1:采集会议现场发言的音频数据和发言者的视频数据,对音频数据和视频数据附加时间参数,用于校准音频数据和视频数据的时间轴,为后续识别出的字符记录比对提供时间参考,对音频数据进行预处理,得到第一音频特征参数,对视频数据进行预处理,得到第一视频特征参数。
S2:将音频特征参数输入训练好的音频神经网络模型,输出语音识别结果;将视频特征参数输入训练好的视频神经网络模型,输出视频识别结果。
S3:将语音识别结果和视频识别结果进行相似度比对,若比对结果不低于设定的阈值,则保存语音识别结果,生成会议记录;若比对结果小于设定的阈值,则保存该段音频数据和视频数据,供人工介入识别。
步骤S1中对音频数据进行预处理的流程包括端点检测、预加重、分帧和加窗:
端点检测,通过区分有声段、无声段和浊音段的信号以区划语句的开头与结尾,得到有效语音序列。对语音信号进行时域分析,可以明显辨别出原始语音信息包含有声段、无声段和浊音段,端点检测通过区分以上不同段的信号以找到语音信号的起始点和结束点。本实施例中的端点检测方法采用双门限法,通过计算语音能量的方式来判断语音的端点,预先设置双门的门限能量,然后分别计算每个时刻的语音能量,若,则生成门限序列为1;若,则生成门限序列为0;从而得到门限序列,将门限序列点乘原始语音序列,得到有效语音序列。语音能量的计算公式为:
端点检测方法优选为双门限法,其中语音能量的计算公式为:
预加重,增加有效语音序列的高频能量,提高信噪比,得到加重语音序列1。语音信息往往夹杂着环境中的各种其他声音信息,由于人类发音的特性,语音信息经过频率转换后往往大部分集中于低频带,从而使得低频能量过高,高频能量过低,难以有效提取高频语音信息。预加重预先添加高频信号,与原始语音信号叠加后,高频段和低频段的能量相当,使得后续的识别效率明显提升。
分帧和加窗,对加重语音序列1按设定的时间间隔进行分段,然后利用带通滤波器过滤信号,以减小信号的误差,得到依赖于时间的帧序列2。一段信号整体是不稳定的,但从局部看,语音信号可假定为短时平稳的(10-30ms内可以认为语音信号近似不变为一个音素的发音,一般情况下取 25ms),所以需要对整段语音信号进行分帧处理。本实施例中加窗采用汉明窗,由于加上汉明窗,只有中间的数据体现出来,两边的数据信息丢失,所以相邻的窗之间有重叠的部分,本实施例的窗长为25ms,步长为10ms,即每个窗的后15ms与后续相邻窗的前15ms为重叠部分。汉明窗的公式如下:
快速傅里叶变换(FFT),将帧序列2从时域图转换为各帧的频谱。语音信号在时域上特性的特性不明显,所以通常转换为频域上的能量分布,对每帧经过窗函数处理的信号做快速傅里叶变换将时域图转换成各帧的频谱,然后对每个窗口的频谱叠加得到语谱图。
特征向量提取,使用感知线性预测技术(PLP)将关键频带、强度-响度压缩和等响度预强调相结合,提取频谱的特征向量,生成音频特征参数3。对FFT后的语谱图幅度求平方,然后进行临界频带积分,接着进行等响度预加重,接着求立方根(对强度进行等响度压缩),然后是进行逆傅里叶变换,最后再经过线性预测即可得到PLP。
步骤S1中的视频数据预处理步骤包括视频关键帧提取、人脸检测和唇部检测:
视频关键帧提取,将输入的视频数据转换为图像序列。由于后续神经网络的输入是基于静态图像的,因此需要将视频转换成图像序列,从每段独立的发音视频中采样出固定长度的序列,将提取出的序列作为关键帧。
人脸检测,使用AdaBoost算法从每一帧视频图像检测出人脸区域,然后对检测出的人脸区域进行人脸关键点进行标注。采用AdaBoost算法,利用OpenCV的开源计算机视觉库,将用于人脸标识的Haar特征与AdaBoost级联分类器相结合用于人脸检测。Haar特征值反应了图像的灰度变化,适合简单和描述特定方向的图形结构,如水平、垂直和对角线结构,而脸部特征可以由矩形特征进行描述,由于区分人脸区域与非人脸区域。AdaBoost则根据弱分类器的反馈,在下次迭代过程中提高正确样本的权重,同时降低错误样本的权重,使得当前分类器优于上一个分类器,经过若干次迭代后得到与迭代次数相同数量的弱分类器,将各弱分类器通过加权投票,从而组成一个强分类器,可以在保证检测速度的同时提高人脸检测的效果。最终将多个强分类器通过cascade级联算法形成级联分类器,可以极大地提高人脸检测的效果。
唇部检测,根据人脸关键点裁剪出嘴部区域的图像序列,生成视频特征参数。在图像序列中检测到人脸区域图像后,进一步提取唇部区域,以排除面部表情干扰的同时降低图像运算的复杂度。本实施例中理由Dlib进行人脸68个关键点的检测,利用点49、51、53、55和58这五个嘴唇边界点坐标精确定位嘴唇区域,分别代表左和右两个嘴角点、上嘴唇的两个最高点和下嘴唇的的一个最低点,然后将提取到的嘴唇区域图像变换为相同尺寸的图像。
步骤S2中音频神经网络模型和视频神经网络模型的训练、识别流程具体包括以下步骤:
S201:获取用于训练的音频数据样本集和视频数据样本集;
S202:对音频数据样本集进行预处理,获得语音数据第一特征参数,对视频数据样本集进行预处理,获得视频数据第一特征参数;预处理方式与步骤S1中对音频数据和视频数据的预处理方式相同。
S203:将语音数据第一特征参数输入音频神经网络进行训练,视频数据第一特征参数输入视频神经网络进行训练;音频神经网络和视频神经网络均包括依序设置的卷积神经网络(CNN)和循环神经网络(RNN)。
卷积神经网络包括依序连接的第一卷积层、池化层和第二卷积层:第一卷积层为256个大小为1×9的过滤器,横向步长设置为2,通道设置为1;池化层为大小为1×3的最大池化层,步长设置为1;第二卷积层为512个大小为1×4的过滤器,横向步长设置为1,通道设置为128。用于对输入的音频特征参数和视频特征参数进行卷积,提取音频特征参数和视频特征参数的局部特征,同时减少频域变化,生成语音特征图和视频特征图送入循环神经网络。
循环神经网络对输入的特征图按照时间参数进行拆分,将拆分后的特征图依序封装成两个矩阵,利用LSTM(LongShort-TermMemory,长短期记忆)来记录唇动图像序列的时序特征。由于唇部识别中的发音序列一般较长,整个唇动序列是上下文相关的,即对于独立的唇动视频,t时刻的输出不仅与t时刻之前的唇动信息有关,t时刻之后的唇动信息对t时刻的输出也有很大的影响。为充分利用唇部的动态信息,有效学习唇动序列的帧间信息,本实施例对单向LSTM进行改进,使用BiLSTM(Bi-directionalLongShort-TermMemory,双向长短期记忆)结构进行唇动序列时序特征的学习,用LSTM单元替换了双向RNN中的隐含层,使其可以同时利用过去时刻和未来时刻两个方向的信息,将当前图片的特征扩充至整个序列图片中,实现对整个唇动时序特征的有效学习,使得最终的预测结果更加准确。利用BiLSTM节点对前一个矩阵分别进行正向传播以及对后一个矩阵进行反向传播,输出语音识别结果和视频识别结果。BiLSTM的节点数量优选为4096个,其中2048个节点只连接一个矩阵,用于进行正向传播;另外2048个节点连接另外一个矩阵,用于反向传播。
鉴于采用CNN-BiLSTM的混合模型相对复杂,因此在训练过程中会产生过拟合的问题。为了缓解模型在训练过程中出现的过拟合问题,提高模型的泛化能力,本实施例采用Dropout技术,并且将dropout率设置为0.4,在每次训练过程中随机丢弃一部分神经元,降低模型的复杂度,从而提高模型的泛化能力。
S204:保存训练结果,将步骤获得用于音频神经网络模型和视频神经网络模型;
S205:将步骤S1采集的音频数据输入步骤S204中的音频神经网络模型,获得字符形式的语音识别结果;将步骤S1采集的视频数据输入步骤S204中的视频神经网络模型,获得字符形式的视频识别结果。将语音识别结果与视频识别结果进行相似度比对,并将比对结果与设定的阈值相比,若比对结果不低于阈值,则保存语音识别结果,生成会议字符记录;若比对结果小于阈值,则标注该段内容同时保存语音识别结果和视频识别结果,供人工实时介入或者后续介入修改纠正。
一种执行芯片,执行芯片用于执行上述所有方法。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (12)
1.一种结合语音和图像的字符记录方法,其特征在于,包括以下步骤:
S1:采集会议现场发言的音频数据和发言者的视频数据,对音频数据附加时间参数并进行预处理,得到第一音频特征参数,对视频数据附加时间参数并进行预处理,得到第一视频特征参数;
S2:将所述第一音频特征参数输入训练好的音频神经网络模型,输出语音识别结果;将所述第一视频特征参数输入训练好的视频神经网络模型,输出视频识别结果;所述音频神经网络模型与视频神经网络模型包括依序设置的卷积神经网络和循环神经网络,所述循环神经网络通过双向长短期记忆结构进行唇动序列时序特征的学习;
S3:将所述语音识别结果和视频识别结果进行相似度比对,若比对结果不低于设定的阈值,则保存语音识别结果,生成会议记录;若比对结果小于设定的阈值,则保存该段音频数据和视频数据,供人工介入识别。
2.根据权利要求1所述的一种结合语音和图像的字符记录方法,其特征在于,所述步骤S1中对音频数据进行预处理的流程包括端点检测、预加重、分帧和加窗、快速傅里叶变换及特征向量提取:
端点检测,通过区分有声段、无声段和浊音段的信号以区划语句的开头与结尾,得到有效语音序列;
预加重,增加所述有效语音序列的高频能量,提高信噪比,得到加重语音序列(1);
分帧和加窗,对所述加重语音序列(1)按设定的时间间隔进行分段,然后利用带通滤波器过滤信号,以减小信号的误差,得到依赖于时间的帧序列(2);
快速傅里叶变换,将所述帧序列(2)输入快速傅里叶变换专用的FFT硬件模块中进行计算,把时域图转换为各帧的频谱;
特征向量提取,使用感知线性预测技术将关键频带、强度-响度压缩和等响度预强调相结合,提取所述各帧的频谱的特征向量,生成第二音频特征参数(3),特征向量提取的步骤交由特征向量提取硬件模块进行计算。
3.根据权利要求1所述的一种结合语音和图像的字符记录方法,其特征在于,所述步骤S1中的视频数据预处理步骤具体如下:
视频关键帧提取,将输入的视频数据转换为图像序列,生成关键帧;
人脸检测,将所述关键帧输入图像检测硬件计算模块,使用AdaBoost算法从所述图像序列检测出人脸区域,然后对检测出的人脸区域进行人脸关键点进行标注;
唇部检测,将所述人脸关键点信息输入图像检测硬件计算模块,根据所述人脸关键点裁剪出嘴部区域的图像序列,生成视频特征参数。
4.根据权利要求1所述的一种结合语音和图像的字符记录方法,其特征在于,所述步骤S2中音频神经网络模型和视频神经网络模型的训练和识别流程具体包括以下步骤:
S201:获取用于训练的音频数据样本集和视频数据样本集;
S202:对所述音频数据样本集附加时间参数,并进行与所述步骤S1相同的预处理,获得语音数据第一特征参数,对所述视频数据样本集附加时间参数,并进行与所述步骤S1相同的预处理,获得视频数据第一特征参数;
S203:将所述语音数据第一特征参数输入音频神经网络进行训练,所述视频数据第一特征参数输入视频神经网络进行训练;
S204:保存训练结果,获得用于音频神经网络模型和视频神经网络模型;
S205:将所述步骤S1采集的音频数据输入所述步骤S204中的音频神经网络模型,获得语音识别结果;将所述步骤S1采集的视频数据输入所述步骤S204中的视频神经网络模型,获得视频识别结果。
5.根据权利要求1所述的一种结合语音和图像的字符记录方法,其特征在于,所述步骤S2中的音频神经网络和视频神经网络均包括依序设置的卷积神经网络和循环神经网络;
所述卷积神经网络对输入的音频特征参数和视频特征参数进行卷积,提取音频特征参数和视频特征参数的局部特征,同时减少频域变化,生成语音特征图和视频特征图送入循环神经网络;
所述循环神经网络对输入的特征图按照时间参数进行拆分,将拆分后的特征图依序封装成两个矩阵,利用BiLSTM节点对前一个矩阵分别进行正向传播以及对后一个矩阵进行反向传播,输出语音识别结果和视频识别结果;
所述卷积神经网络和循环神经网络均由专用硬件计算模块实现。
6.根据权利要求5所述的一种结合语音和图像的字符记录方法,其特征在于,用于所述卷积神经网络包括依序连接的第一卷积层、池化层和第二卷积层:第一卷积层为256个大小为1×9的过滤器,横向步长设置为2,通道设置为1;池化层为大小为1×3的最大池化层,步长设置为1;第二卷积层为512个大小为1×4的过滤器,横向步长设置为1,通道设置为128。
7.根据权利要求5所述的一种结合语音和图像的字符记录方法,其特征在于,所述循环神经网络对单向的长短期记忆结构提出改进,使用双向长短期记忆结构进行唇动序列特征的学习。
8.根据权利要求5所述的一种结合语音和图像的字符记录方法,其特征在于,采用Dropout技术解决所述卷积神经网络和循环神经网络产生的过拟合问题,在每次训练的过程中,将神经网络隐藏层中的神经元以概率p随机丢弃,p默认值为0.4。
9.根据权利要求7所述的一种结合语音和图像的字符记录方法,其特征在于,所述双向长短期记忆结构的节点数量默认值为4096个,其中2048个节点只连接一个矩阵,用于进行正向传播;另外2048个节点连接另外一个矩阵,用于反向传播。
12.一种结合语音和图像的字符记录执行芯片,其特征在于,所述执行芯片用于执行权利要求1-11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211101475.0A CN115331676A (zh) | 2022-09-09 | 2022-09-09 | 一种结合语音和图像的字符记录方法及执行芯片 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211101475.0A CN115331676A (zh) | 2022-09-09 | 2022-09-09 | 一种结合语音和图像的字符记录方法及执行芯片 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115331676A true CN115331676A (zh) | 2022-11-11 |
Family
ID=83930986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211101475.0A Pending CN115331676A (zh) | 2022-09-09 | 2022-09-09 | 一种结合语音和图像的字符记录方法及执行芯片 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115331676A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110719436A (zh) * | 2019-10-17 | 2020-01-21 | 浙江同花顺智能科技有限公司 | 一种会议文档信息获取方法、装置及其相关设备 |
US20200193998A1 (en) * | 2018-12-18 | 2020-06-18 | Krystal Technologies | Voice commands recognition method and system based on visual and audio cues |
CN111640424A (zh) * | 2019-03-01 | 2020-09-08 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN112204564A (zh) * | 2018-02-15 | 2021-01-08 | 得麦股份有限公司 | 经由基于集成音频和视觉的语音识别进行语音理解的系统和方法 |
US20210110831A1 (en) * | 2018-05-18 | 2021-04-15 | Deepmind Technologies Limited | Visual speech recognition by phoneme prediction |
CN114255740A (zh) * | 2021-12-21 | 2022-03-29 | 游密科技(深圳)有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
-
2022
- 2022-09-09 CN CN202211101475.0A patent/CN115331676A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112204564A (zh) * | 2018-02-15 | 2021-01-08 | 得麦股份有限公司 | 经由基于集成音频和视觉的语音识别进行语音理解的系统和方法 |
US20210110831A1 (en) * | 2018-05-18 | 2021-04-15 | Deepmind Technologies Limited | Visual speech recognition by phoneme prediction |
US20200193998A1 (en) * | 2018-12-18 | 2020-06-18 | Krystal Technologies | Voice commands recognition method and system based on visual and audio cues |
CN111640424A (zh) * | 2019-03-01 | 2020-09-08 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN110719436A (zh) * | 2019-10-17 | 2020-01-21 | 浙江同花顺智能科技有限公司 | 一种会议文档信息获取方法、装置及其相关设备 |
CN114255740A (zh) * | 2021-12-21 | 2022-03-29 | 游密科技(深圳)有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | Deep learning based assistive technology on audio visual speech recognition for hearing impaired | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN113035227B (zh) | 一种多模态语音分离方法及系统 | |
CN110991238B (zh) | 一种基于语音情感分析和微表情识别的演讲辅助系统 | |
CN112053690A (zh) | 一种跨模态多特征融合的音视频语音识别方法及系统 | |
CN112735482B (zh) | 基于联合深度神经网络的端点检测方法及系统 | |
CN112581979A (zh) | 一种基于语谱图的语音情绪识别方法 | |
CN111341294B (zh) | 将文本转换为指定风格语音的方法 | |
WO2022100691A1 (zh) | 音频识别方法和装置 | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
WO2022100692A1 (zh) | 人声音频录制方法和装置 | |
CN112507311A (zh) | 一种基于多模态特征融合的高安全性身份验证方法 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN111968622A (zh) | 一种基于注意力机制的语音识别方法、系统及装置 | |
CN114581812B (zh) | 视觉语言识别方法、装置、电子设备及存储介质 | |
Jin et al. | Speech separation and emotion recognition for multi-speaker scenarios | |
CN115910045B (zh) | 一种语音唤醒词的模型训练方法和识别方法 | |
CN115331676A (zh) | 一种结合语音和图像的字符记录方法及执行芯片 | |
CN115328661A (zh) | 一种基于语音和图像特征的算力均衡执行方法及芯片 | |
CN113488069A (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 | |
CN113628639A (zh) | 一种基于多头注意力机制的语音情感识别方法 | |
Sushma et al. | Emotion analysis using signal and image processing approach by implementing deep neural network | |
Jadczyk et al. | Audio-visual speech processing system for Polish with dynamic Bayesian Network Models | |
CN115547362B (zh) | 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 | |
CN114120973B (zh) | 一种语音语料生成系统训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221111 |