CN109714608B

CN109714608B - 视频数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN109714608B
Application number: CN201811550722.9A
Authority: CN
Inventors: 李成玲
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2023-03-10
Anticipated expiration: 2038-12-18
Also published as: CN109714608A

Abstract

本申请涉及语音识别技术领域，提供了一种视频数据处理方法、装置、计算机设备和存储介质。方法包括：获取待处理视频数据中的音频流数据，对音频流数据进行分帧处理，获取音频流数据的音节特征信息，查找与音节特征信息匹配的目标方言库，根据目标方言库，对音频流数据进行语音识别，生成字幕数据，将字幕数据添加至待处理视频数据，获得处理后的视频数据，避免了在通过视频进行沟通交流的过程中因无法准确理解方言表达的语义的问题，提高了视频沟通效率。

Description

视频数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音识别技术领域，特别是涉及一种视频数据处理方法、装置、计算机设备和存储介质。

背景技术

随着网络技术的不断发展，出现了视频技术，语音视频也得到了越来广泛的运用，在日常生活中，人们可用视频代替电话，实现远程面对面的交流。

在金融领域的借贷等业务中，需要用户更自然地表达来进行视频面审。然而，根据地域文化的差异性，有的客户并不能熟练使用普通话进行交流，而是更习惯于使用常用的方言进行表达，如果强行要求用户使用普通话来进行面审问答，会给面审中的用户情绪判断结果等带来干扰，但如果让用户使用日常使用的方言来进行面审问答，又存在面审工作人员无法准确理解用户表达的语义的问题，从而导致通过视频进行交流沟通的效率不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高视频沟通效率的视频数据处理方法、装置、计算机设备和存储介质。

一种视频数据处理方法，所述方法包括：

获取待处理视频数据中的音频流数据；

对所述音频流数据进行分帧处理，获取所述音频流数据的音节特征信息；

查找与所述音节特征信息匹配的目标方言库；

根据所述目标方言库，对所述音频流数据进行语音识别，生成字幕数据；

将所述字幕数据添加至所述待处理视频数据，获得处理后的视频数据。

在其中一个实施例中，所述对所述音频流数据进行分帧处理，获取所述音频流数据的音节特征信息包括：

获取所述音频流数据的各组成语音片段；

根据预设的窗函数，对所述语音片段进行音节加窗分帧处理，获取所述语音片段的各语音帧；

将所述各语音帧输入预设的声学特征提取模型，获得所述各语音帧的声学特征；

根据所述各语音帧的声学特征，确定所述音频流数据的音节特征信息。

在其中一个实施例中，所述获取所述音频流数据的各组成语音片段包括：

获取所述音频流数据的高频信号数据，根据所述高频信号数据，对所述音频流数据进行预加重处理；

对经过预加重处理的音频流数据进行端点检测；

根据检测到的端点信息，将所述音频流数据划分为语音片段

在其中一个实施例中，所述根据所述各语音帧的声学特征，确定所述音频流数据的音节特征信息包括：

根据所述各语音帧的声学特征，提取所述各语音帧组成音节的声母特征、韵母特征以及音调特征；

根据所述各语音帧组成音节的声母特征、韵母特征以及音调特征，确定所述音频流数据的音节特征信息。

在其中一个实施例中，所述查找与所述音节特征信息匹配的方言库包括：

获取预设各方言库携带的音节特征标签集；

将所述音节特征信息与各所述音节特征标签集进行匹配，确定所述预设各方言库中与所述音节特征信息匹配的目标方言库。

在其中一个实施例中，所述根据所述目标方言库，对所述音频流数据进行语音识别，生成字幕数据包括：

获取与所述目标方言库对应的方言识别模型；

将所述音频流数据的各语音帧输入所述方言识别模型，获取语音识别文本；

根据所述语音识别文本，生成字幕数据。

在其中一个实施例中，所述将所述字幕数据添加至所述待处理视频数据，获得处理后的视频数据包括：

获取所述待处理视频数据的各画面帧的第一时间信息，以及所述字幕数据携带的第二时间信息；

根据所述第一时间信息和所述第二时间信息，将所述字幕数据与所述待处理视频数据的各画面帧对齐，并将所述字幕数据添加至对齐的所述各画面帧，获得处理后的视频数据。

一种视频数据处理装置，所述装置包括：

音频流数据获取模块，用于获取待处理视频数据中的音频流数据；

分帧模块，用于对所述音频流数据进行分帧处理，获取所述音频流数据的视频数据处理；

目标方言库查找模块，用于查找与所述音节特征信息匹配的目标方言库；

语音识别模块，用于根据所述目标方言库，对所述音频流数据进行语音识别，生成字幕数据；

字幕数据添加模块，用于将所述字幕数据添加至所述待处理视频数据，获得处理后的视频数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待处理视频数据中的音频流数据；

查找与所述音节特征信息匹配的目标方言库；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待处理视频数据中的音频流数据；

查找与所述音节特征信息匹配的目标方言库；

上述视频数据处理方法、装置、计算机设备和存储介质，通过获取待处理视频数据中的音频流数据，对音频流数据进行分帧处理，获得音节特征信息，查找与音节特征信息匹配的目标方言库，根据目标方言库，对音频流数据进行语音识别，生成字幕数据，将字幕数据添加到待处理视频数据中，从而获得带字幕的视频数据，避免了在通过视频进行沟通交流的过程中因无法准确理解方言表达的语义的问题，提高了视频沟通效率。

附图说明

图1为一个实施例中视频数据处理方法的应用场景图；

图2为一个实施例中视频数据处理方法的流程示意图；

图3为另一个实施例中视频数据处理方法的流程示意图；

图4为一个实施例中图3中步骤S320的子步骤的流程示意图；

图5为一个实施例中图3中步骤S380的子步骤的流程示意图；

图6为一个实施例中视频数据处理装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的视频数据处理方法，可以应用于如图1所示的应用环境中。其中，第一终端102和第二终端106分别通过网络与服务器104进行连接。第一终端102采集携带方言音频的待处理视频数据，并经过编码处理通过网络上传至服务器104，服务器104接收待处理视频数据，经过解码处理，获取待处理视频数据中的音频流数据，对音频流数据进行分帧处理，获得音节特征信息，查找与音节特征信息匹配的目标方言库，根据目标方言库，对音频流数据进行语音识别，生成字幕数据，将字幕数据添加到待处理视频数据中，从而获得带字幕的视频数据展示于第二终端106。其中，第一终端102和第二终端106可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种视频数据处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S200，获取待处理视频数据中的音频流数据。

待处理视频数据是指第一终端通过服务器与第二终端进行视频交流时，由第一终端集采到的视频数据，待处理视频数据包含音频流数据和视频流数据，其中，音频流数据包括方言音频流数据。在实施例中，可以应用于视频面审过程，第一终端采集到待处理的面审视频数据，并对待处理视频数据进行编码，转换成电脉冲信号上传至服务器，服务器接收到编码数据后，进行解码处理，根据解码文件的数据格式，将音频流数据与视频流数据分离，提取出待处理视频数据中的音频流数据。

步骤S300，对音频流数据进行分帧处理，获取音频流数据的音节特征信息。

音频流数据由大量的音节组成，分帧是指将音频流数据分为一段一段来分析其特征参数，其中每一段称为一“帧”，分帧可以采用交叠分段的方法，使帧与帧之前平滑过渡，保持其连续性。前一针和后一帧的交叠部分称为帧移。在实施例中，可以采用帧长25ms、帧移10ms的分帧，通过分帧处理，分析得到由每一帧特征参数组成的特征参数时间序列，根据特征参数时间序列，通过预设的声学特征提取模型，将特征参数时间序列转换为音节特征信息，其中音节特征信息包括声母特征、韵母特征以及音调特征。

步骤S400，查找与音节特征信息匹配的目标方言库。

方言是指跟标准语有区别的、只通行于一个地区的语言，例如中国的标准语为普通话，而粤语、闽南语等地方性语言属于方言，方言库是指包含该地方性语言的语料库，方言库可以通过采集该地区性方言的方言语料，并对方言语料进行特征分析，构建携带有音节特征标签集的方言库。根据音节特征信息与方言库中携带的音节特征标签集进行匹配，查找得到与音节特征信息匹配的目标方言库。在实施例中，可以根据将音节特征信息中的声母特征、韵母特征以及音调特征，遍历各方言库携带的音节特征标签集，将获得的匹配程度满足预设阈值的方言库设为目标方言库。

步骤S500，根据目标方言库，对音频流数据进行语音识别，生成字幕数据。

语音识别是指将音频流数据转换为文本数据的处理过程，语音识别可以通过语音识别模型进行处理完成，不同的方言具有不同的表达方式，其语音音调和句法都存在一定的差异，根据各方言库中包含的方言语料，预先训练得到各方言库对应的语言识别模型，用于针对各类方言进行语音识别，获得语音识别文本，通过对语音识别文本进行语句拆分，得到字幕数据。其中，各方言库对应的语言识别模型的训练过程包括：按照预设的方言分类，搜集各类方言语料以及各方言语料对应的语音文本，建立方言库，方言库包含方言语料和语音文本的对应映射关系，对方言库中的方言语料进行预加重、加窗分帧处理、端点检测和降噪等预处理，对方言语料的高频部分进行加重，去除口鼻辐射的影响，增加高频分辨率，并去除静音部分和噪声，提高信噪比。然后，将同一方言库中的方言语料进行音节特征和句法特征的提取处理，得到方言语料的声母特征、韵母特征以及音调特征等方言音节特征，以及词序、句式等方言句法特征，将提取的方言音节特征和方言句法特征构成方言语料的特征矢量，将该特征矢量输入初始的方言语音识别模型，将方言语料的特征矢量与语音文本的预设特征矢量进行匹配，确定初始匹配参数，并通过多个方言语料的匹配程度，对初始匹配参数进行调整，当语音文本和方言语料的特征矢量数据通过匹配参数，其匹配程度达到设定要求，如达到95％以上时，确定匹配参数，完成方言语音识别模型的训练。在方言语料的识别过程中，将待识别的方言语料经过预处理和特征矢量提取后，将提取的特征矢量输入训练完成的语言识别模型，语音识别模型根据匹配参数对方言语料的特征矢量进行语音文本的匹配，根据匹配结果得到方言语料的语音识别文本。

步骤S600，将字幕数据添加至待处理视频数据，获得处理后的视频数据。

字幕数据是待处理视频数据中音频流数据对应的文本数据，在一个实施例中，服务器根据字幕数据携带的时间戳，将字幕数据添加到待处理视频数据的对应画面帧，从而得到携带有字幕的视频数据，并将携带有字幕的视频数据发送至第二终端。在一个实施例中，第二终端通过服务器提供的访问地址，从服务器下载视频数据和字幕数据，服务器将字幕数据的配置参数发送至第二终端H5视频播放组件的字幕遮罩层，在字幕遮罩层显示对应字幕，服务器将视频数据发送至第二终端的H5视频播放组件，将字幕数据与待处理视频数据同步播放，从而得到包含字幕的视频数据。

上述视频数据处理方法，通过获取待处理视频数据中的音频流数据，对音频流数据进行分帧处理，获得音节特征信息，查找与音节特征信息匹配的目标方言库，根据目标方言库，对音频流数据进行语音识别，生成字幕数据，将字幕数据添加到待处理视频数据中，从而获得带字幕的视频数据，避免了在通过视频进行沟通交流的过程中因无法准确理解方言表达的语义的问题，提高了视频沟通效率。

在一个实施例中，如图3所示，步骤S300，对音频流数据进行分帧处理，获取音频流数据的音节特征信息包括：

步骤S320，获取音频流数据的各组成语音片段。

步骤S340，根据预设的窗函数，对语音片段进行音节加窗分帧处理，获取语音片段的各语音帧。

步骤S360，将各语音帧输入预设的声学特征提取模型，获得各语音帧的声学特征。

步骤S380，根据各语音帧的声学特征，确定音频流数据的音节特征信息。

语音片段是去除外界噪音与首尾端静音的语音段，通过将音频流数据划分为语音片段，可以降低噪声等干扰。窗函数是指为了减少频谱能量泄漏，可采用截取函数对信号进行截断的函数。加窗分帧处理包括加窗和分帧，由于语音信号具有短时平稳性，通过将语音信号进行分帧处理，分帧采用可移动的有限长度的窗口进行加权的方法来实现的，例如采用汉明窗或矩形窗等窗函数，形成加窗语音信号来实现，从而将语音片段切分为一段段的语音帧，由于语音帧的波形在时域上几乎没有描述能力，通过预设的声学特征提取模型，将每一帧波形转换为多维向量，每一维度均包含该语音帧的声学特征等内容信息，将各语音帧的多维向量组合成矩阵，该矩阵用以表述各语音片段的音节特征信息。在实施例中，声学特征提取模型包括MFCC特征提取模型，通过语音训练样本，对MFCC特征提取模型进行训练，提取各语音帧的MFCC特征参数，当MFCC特征提取模型的召回率和精确度达到预设要求时，训练得到预设的声学特征提取模型。

在一个实施例中，如图4所示，步骤S320，获取音频流数据的各组成语音片段包括：

步骤S322，获取音频流数据的高频信号数据，根据高频信号数据，对音频流数据进行预加重处理。

步骤S324，对经过预加重处理的音频流数据进行端点检测。

步骤S326，根据检测到的端点信息，将音频流数据划分为语音片段。

人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量存在着一定的影响，服务器通过对音频流数据进行预加重和端点检测等处理，使后续语音处理得到的信号更均匀、平滑，提高语音处理质量。预加重是指预加重处理是利用信号特性和噪声特性的差别来有效地对信号进行处理，对语音的高频部分进行加重，去除口鼻辐射的影响，增加语音的高频分辨率，高频端大约在800Hz以上按6dB/oct(倍频程)衰减，频率越高相应的成分越小，在对音频流数据进行分析之前对其高频部分加以提升。在实施例中，通过传递函数为：H(z)＝1-az^(-1)的高通数字滤波器来实现预加重，其中a为预加重系数，0.9<a<1.0。设n时刻的语音采样值为x(n)，经过预加重处理后的结果为y(n)＝x(n)-ax(n-1)。端点检测是指端点检测是从一段给定的语音信号中找出语音的起始点和结束点，减少计算量和缩短处理时间，并能排除无声段的噪声干扰、提高语音识别的正确率，在实施例中，可以根据过零率，能量值来进行端点判断，将音频流数据进行端点标记，根据端点标记可将音频流数据划分为语音片段。在实施例中，第一终端对通过麦克风采集音频流数据，通过摄像头采集视频流数据，并根据数据流的采集时间，将音频流数据与视频流数据组合为待处理视频数据，并进行编码上传至服务器，由于在数据传输过程中，高频信号的损失较大，在编码处理之前，对音频流数据的高频信号进行预加重处理，以降低音频流在第一终端与服务器的传输过程中的高频信号损失，此外还可以对音频流数据进行语音降噪处理，可以通过自适应滤波器或谱减法或维纳滤波法等降噪算法来实现，从而提高性噪比。在服务器对音频流数据进行预加重处理，可以降低音频流在服务器与第二终端的传输过程中的高频信号损失。

在一个实施例中，如图5所示，步骤S380，根据各语音帧的声学特征，确定音频流数据的音节特征信息包括：

步骤S382，根据各语音帧的声学特征，提取各语音帧组成音节的声母特征、韵母特征以及音调特征。

步骤S384，根据各语音帧组成音节的声母特征、韵母特征以及音调特征，确定音频流数据的音节特征信息。

基于时域特征参数或基于频域特征参数的方法，对音频流数据个语音片段的矩阵进行分析，得到声母特征、韵母特征以及音调特征，在实施例中，时域特征参数包括短时平均能量En、短时过零率Zn、平均能量过零数积A＝En*Zn及平均能量过零数比B＝En/Zn，还可以通过利用语音信号的谱特征如LPC(Linear Predictive Coding，线性预测编码)倒谱、MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)倒谱等，利用清、浊音频谱的能量分布及谱值幅度不同，可用判别出清、浊音，得到各语音片段的声母特征、韵母特征以及音调特征，声母特征、韵母特征以及音调特征组合得到音频流数据的音节特征信息。

在一个实施例中，如图3所示，步骤S400，查找与音节特征信息匹配的方言库包括：

步骤S420，获取预设各方言库携带的音节特征标签集。

步骤S440，将音节特征信息与各音节特征标签集进行匹配，确定预设各方言库中与音节特征信息匹配的目标方言库。

针对各类方言，预先构建对应的方言库，在实施例中，通过采集该地区性方言的方言语料，对语音样本进行预处理，提取特征矢量，包括声母特征参数、韵母特征参数、音调特征参数以及句法特征参数等，基于样本数据的特征矢量，构建携带有音节特征标签集的方言库，服务器获取预设各方言库携带的音节特征标签集，将音节特征信息中的声母特征、韵母特征以及音调特征与预设各方言库携带的音节特征标签集进行匹配，筛选出匹配度满足设定要求的方言库，当筛选出的方言库为一个时，将该方言库作为目标方言库，当筛选出的方言库包括多个时，进一步获取方言库中的句法特征标签，对音频流数据进行句法特征提取，根据词序特征与句式特征，对筛选出的多个方言库进行进一步匹配，确定句法特征匹配度最高的方言库作为目标方言库。

在一个实施例中，如图3所示，步骤S500，根据目标方言库，对音频流数据进行语音识别，生成字幕数据包括：

步骤S520，获取与目标方言库对应的方言识别模型。

步骤S540，将音频流数据的各语音帧输入方言识别模型，获取语音识别文本。

步骤S560，根据语音识别文本，生成字幕数据。

获取各方言库中包含的方言语料，预先训练得到各方言库对应的语言识别模型，将音频流数据的各语音帧输入预先训练好的对应方言识别模型，获得该方言的语音识别文本，其中，由于不同的方言句法特征，表达的语序和用词和标准语存在一定的差异，通过不同方言的语音识别模型和预设的标准语与方言的语料对比库，可以获得标准语表达的语音识别文本，以及方言表达的语言识别文本，根据检测到的端点信息，对语音识别文本进行语句拆分，得到字幕数据，字幕数据可以包括标准语字幕，或同时包括标准语字幕和方言字幕。

在一个实施例中，如图3所示，步骤S600，将字幕数据添加至待处理视频数据，获得处理后的视频数据包括：

步骤S620，获取待处理视频数据的各画面帧的第一时间信息，以及字幕数据携带的第二时间信息。

步骤S640，根据第一时间信息和第二时间信息，将字幕数据与待处理视频数据的各画面帧对齐，并字幕数据添加至对齐的各画面帧，获得处理后的视频数据。

在一个实施例中，服务器获取待处理视频数据和字幕数据的配置参数，提取待处理视频数据的各画面帧的第一时间信息，以及字幕数据携带的第二时间信息分别，根据第一时间信息和第二时间信息，将字幕数据与待处理视频数据的各画面帧对齐，并字幕数据添加至对齐的各画面帧，获得处理后的视频数据，生成处理后的写的带有字幕数据的视频数据，并发送至第二终端。

在一个实施例中，服务器将待处理视频数据转码处理为RTMP格式的视频数据，并向第二终端发送视频数据与字幕数据的访问地址，第二终端通过访问地址从服务器获取视频和字幕，服务器将字幕数据的配置参数发送至第二终端H5视频播放组件的字幕遮罩层，在字幕遮罩层显示对应字幕，并根据字幕携带的时间戳和视频的画面帧的时间戳，通过H5视频播放组件同步播放视频和字幕，使第二终端的用户获取到携带字幕的视频数据。

应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种视频数据处理装置，包括：

音频流数据获取模块200，用于获取待处理视频数据中的音频流数据；

分帧模块300，用于对音频流数据进行分帧处理，获取音频流数据的视频数据处理；

目标方言库查找模块400，用于查找与音节特征信息匹配的目标方言库；

语音识别模块500，用于根据目标方言库，对音频流数据进行语音识别，生成字幕数据；

字幕数据添加模块600，用于将字幕数据添加至待处理视频数据，获得处理后的视频数据。

在一个实施例中，分帧模块300，还用于获取音频流数据的各组成语音片段，根据预设的窗函数，对语音片段进行音节加窗分帧处理，获取语音片段的各语音帧，将各语音帧输入预设的声学特征提取模型，获得各语音帧的声学特征，根据各语音帧的声学特征，确定音频流数据的音节特征信息。

在一个实施例中，分帧模块300，还用于获取音频流数据的高频信号数据，根据高频信号数据，对音频流数据进行预加重处理，对经过预加重处理的音频流数据进行端点检测，根据检测到的端点信息，将音频流数据划分为语音片段。

在一个实施例中，分帧模块300，还用于根据各语音帧的声学特征，提取各语音帧组成音节的声母特征、韵母特征以及音调特征，根据各语音帧组成音节的声母特征、韵母特征以及音调特征，确定音频流数据的音节特征信息。

在一个实施例中，目标方言库查找模块400，还用于获取预设各方言库携带的音节特征标签集，将音节特征信息与各音节特征标签集进行匹配，确定预设各方言库中与音节特征信息匹配的目标方言库。

在一个实施例中，语音识别模块500，还用于获取与目标方言库对应的方言识别模型，将音频流数据的各语音帧输入方言识别模型，获取语音识别文本，根据语音识别文本，生成字幕数据。

在一个实施例中，字幕数据添加模块600，还用于获取待处理视频数据的各画面帧的第一时间信息，以及字幕数据携带的第二时间信息，根据第一时间信息和第二时间信息，将字幕数据与待处理视频数据的各画面帧对齐，并字幕数据添加至对齐的各画面帧，获得处理后的视频数据。

上述视频数据处理装置，通过获取待处理视频数据中的音频流数据，对音频流数据进行分帧处理，获得音节特征信息，查找与音节特征信息匹配的目标方言库，根据目标方言库，对音频流数据进行语音识别，生成字幕数据，将字幕数据添加到待处理视频数据中，从而获得带字幕的视频数据，避免了在通过视频进行沟通交流的过程中因无法准确理解方言表达的语义的问题，提高了视频沟通效率。

关于视频数据处理装置的具体限定可以参见上文中对于视频数据处理方法的限定，在此不再赘述。上述视频数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待处理视频数据中的音频流数据；

对音频流数据进行分帧处理，获取音频流数据的音节特征信息；

查找与音节特征信息匹配的目标方言库；

根据目标方言库，对音频流数据进行语音识别，生成字幕数据；

将字幕数据添加至待处理视频数据，获得处理后的视频数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取音频流数据的各组成语音片段；

根据预设的窗函数，对语音片段进行音节加窗分帧处理，获取语音片段的各语音帧；

将各语音帧输入预设的声学特征提取模型，获得各语音帧的声学特征；

根据各语音帧的声学特征，确定音频流数据的音节特征信息。

获取音频流数据的高频信号数据，根据高频信号数据，对音频流数据进行预加重处理；

对经过预加重处理的音频流数据进行端点检测；

根据检测到的端点信息，将音频流数据划分为语音片段。

根据各语音帧的声学特征，提取各语音帧组成音节的声母特征、韵母特征以及音调特征；

根据各语音帧组成音节的声母特征、韵母特征以及音调特征，确定音频流数据的音节特征信息。

获取预设各方言库携带的音节特征标签集；

将音节特征信息与各音节特征标签集进行匹配，确定预设各方言库中与音节特征信息匹配的目标方言库。

获取与目标方言库对应的方言识别模型；

将音频流数据的各语音帧输入方言识别模型，获取语音识别文本；

根据语音识别文本，生成字幕数据。

获取待处理视频数据的各画面帧的第一时间信息，以及字幕数据携带的第二时间信息；

根据第一时间信息和第二时间信息，将字幕数据与待处理视频数据的各画面帧对齐，并字幕数据添加至对齐的各画面帧，获得处理后的视频数据。

上述用于实现视频数据处理方法的计算机设备，通过获取待处理视频数据中的音频流数据，对音频流数据进行分帧处理，获得音节特征信息，查找与音节特征信息匹配的目标方言库，根据目标方言库，对音频流数据进行语音识别，生成字幕数据，将字幕数据添加到待处理视频数据中，从而获得带字幕的视频数据，避免了在通过视频进行沟通交流的过程中因无法准确理解方言表达的语义的问题，提高了视频沟通效率。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待处理视频数据中的音频流数据；

查找与音节特征信息匹配的目标方言库；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取音频流数据的各组成语音片段；

对经过预加重处理的音频流数据进行端点检测；

根据检测到的端点信息，将音频流数据划分为语音片段。

获取预设各方言库携带的音节特征标签集；

获取与目标方言库对应的方言识别模型；

根据语音识别文本，生成字幕数据。

上述用于实现视频数据处理方法的计算机可读存储介质，通过获取待处理视频数据中的音频流数据，对音频流数据进行分帧处理，获得音节特征信息，查找与音节特征信息匹配的目标方言库，根据目标方言库，对音频流数据进行语音识别，生成字幕数据，将字幕数据添加到待处理视频数据中，从而获得带字幕的视频数据，避免了在通过视频进行沟通交流的过程中因无法准确理解方言表达的语义的问题，提高了视频沟通效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频数据处理方法，所述方法包括：

获取待处理视频数据中的音频流数据；

获取预设各方言库携带的音节特征标签集，将所述音节特征信息中的声母特征、韵母特征以及音调特征与预设各方言库携带的音节特征标签集进行匹配，筛选出匹配度满足预设要求的方言库，当筛选出的方言库包括多个时，获取方言库中的句法特征标签，对所述音频流数据进行句法特征提取，得到句法特征，所述句法特征包括词序特征和句式特征，根据所述词序特征与所述句式特征，对筛选出的多个方言库进行匹配，确定句法特征匹配度最高的方言库作为目标方言库；

获取与所述目标方言库对应的语言识别模型，根据所述语言识别模型和预设的标准语与方言的语料对比库，对所述音频流数据进行语音识别，得到标准语表达的语音识别文本以及方言表达的语言识别文本，对所述标准语表达的语音识别文本以及所述方言表达的语言识别文本进行语句拆分，得到字幕数据，所述字幕数据包括标准语字幕和方言字幕；

2.根据权利要求1所述的方法，其特征在于，所述对所述音频流数据进行分帧处理，获取所述音频流数据的音节特征信息包括：

获取所述音频流数据的各组成语音片段；

3.根据权利要求2所述的方法，其特征在于，所述获取所述音频流数据的各组成语音片段包括：

对经过预加重处理的音频流数据进行端点检测；

根据检测到的端点信息，将所述音频流数据划分为语音片段。

4.根据权利要求2所述的方法，其特征在于，所述根据所述各语音帧的声学特征，确定所述音频流数据的音节特征信息包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标方言库，对所述音频流数据进行语音识别，生成字幕数据包括：

获取与所述目标方言库对应的方言识别模型；

根据所述语音识别文本，生成字幕数据。

6.根据权利要求1所述的方法，其特征在于，所述将所述字幕数据添加至所述待处理视频数据，获得处理后的视频数据包括：

7.一种视频数据处理装置，其特征在于，所述装置包括：

目标方言库查找模块，用于获取预设各方言库携带的音节特征标签集，将所述音节特征信息中的声母特征、韵母特征以及音调特征与预设各方言库携带的音节特征标签集进行匹配，筛选出匹配度满足预设要求的方言库，当筛选出的方言库包括多个时，获取方言库中的句法特征标签，对所述音频流数据进行句法特征提取，得到句法特征，所述句法特征包括词序特征和句式特征，根据所述词序特征与所述句式特征，对筛选出的多个方言库进行匹配，确定句法特征匹配度最高的方言库作为目标方言库；

语音识别模块，用于获取与所述目标方言库对应的语言识别模型，根据所述语言识别模型和预设的标准语与方言的语料对比库，对所述音频流数据进行语音识别，得到标准语表达的语音识别文本以及方言表达的语言识别文本，对所述标准语表达的语音识别文本以及所述方言表达的语言识别文本进行语句拆分，得到字幕数据，所述字幕数据包括标准语字幕和方言字幕；

8.根据权利要求7所述的装置，其特征在于，所述分帧模块还用于获取所述音频流数据的各组成语音片段，根据预设的窗函数，对所述语音片段进行音节加窗分帧处理，获取所述语音片段的各语音帧，将所述各语音帧输入预设的声学特征提取模型，获得所述各语音帧的声学特征，根据所述各语音帧的声学特征，确定所述音频流数据的音节特征信息。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。