CN112992148A

CN112992148A - 视频内的语音识别方法及装置

Info

Publication number: CN112992148A
Application number: CN202110232996.9A
Authority: CN
Inventors: 李策凡; 刘金山; 梁侃; 曾德林
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-18

Abstract

一种视频内的语音识别方法及装置，可用于金融领域或其他领域。所述方法包括：从待处理视频中获取语音文件，利用预设的语音识别模型对语音文件进行识别，得到对应的文字识别结果；从待处理视频中获取与语音文件对应的视频背景图像，利用图像识别技术，对视频背景图像进行识别，得到背景识别结果；从待处理视频中获取与语音文件对应的人物表情图像，对人物表情图像进行表情识别，得到表情识别结果；利用层次分析法对文字识别结果、背景识别结果及表情识别结果进行计算，得到语音识别结果。本发明通过校正语音文字识别结果，满足了快捷、准确的语音转写文字需求，提供了可靠的识别结果，代替人工听写模式，节省人力，提高工作效率。

Description

视频内的语音识别方法及装置

技术领域

本发明涉及语音识别技术领域，尤指一种视频内的语音识别方法及装置。

背景技术

目前，视频中的语音转文字只着重对音频文件进行分析，但是针对一些发音不是很标准或是一些同音不同字的情况，转换效率和准确率很低。而现在飞速发展的视频行业需要更精准的转写功能，例如，现在兴起的直播行业。因此，针对视频、直播等添加字幕的场景，如何实现快速精准地将视频内人的讲话抽取成文字，是目前亟待解决的问题。

发明内容

针对现有技术中存在的问题，本发明实施例的主要目的在于提供一种视频内的语音识别方法及装置，实现借助视频内容满足对语音转写文字的快速准确的需求。

为了实现上述目的，本发明实施例提供一种视频内的语音识别方法，所述方法包括：

从待处理视频中获取语音文件，并利用预设的语音识别模型对所述语音文件进行识别，得到对应的文字识别结果；

从待处理视频中获取与所述语音文件对应的视频背景图像，并利用图像识别技术，对所述视频背景图像进行识别，得到背景识别结果；

从待处理视频中获取与所述语音文件对应的人物表情图像，对所述人物表情图像进行表情识别，得到表情识别结果；

利用层次分析法对所述文字识别结果、背景识别结果及表情识别结果进行计算，得到语音识别结果。

可选的，在本发明一实施例中，所述方法还包括：从待处理视频中获取视频辅助信息；其中，所述视频辅助信息包括视频名称及视频简介信息。

可选的，在本发明一实施例中，所述方法还包括：对所述视频背景图像进行识别，得到背景文字结果。

可选的，在本发明一实施例中，所述利用层次分析法对所述文字识别结果、所述背景识别结果及所述表情识别结果进行计算，得到语音识别结果包括：

将所述文字识别结果、背景识别结果、表情识别结果、视频辅助信息及背景文字结果分别对应的预设权重值作为加权值，并利用各加权值建立判断矩阵；

利用层次分析法，根据所述文字识别结果、背景识别结果、表情识别结果、视频辅助信息及背景文字结果分别对应的相似度及所述判断矩阵进行计算，得到语音识别结果。

本发明实施例还提供一种视频内的语音识别装置，所述装置包括：

文字识别模块，用于从待处理视频中获取语音文件，并利用预设的语音识别模型对所述语音文件进行识别，得到对应的文字识别结果；

背景识别模块，用于从待处理视频中获取与所述语音文件对应的视频背景图像，并利用图像识别技术，对所述视频背景图像进行识别，得到背景识别结果；

表情识别模块，用于从待处理视频中获取与所述语音文件对应的人物表情图像，对所述人物表情图像进行表情识别，得到表情识别结果；

语音识别模块，用于利用层次分析法对所述文字识别结果、背景识别结果及表情识别结果进行计算，得到语音识别结果。

可选的，在本发明一实施例中，所述装置还包括：辅助信息模块，用于从待处理视频中获取视频辅助信息；其中，所述视频辅助信息包括视频名称及视频简介信息。

可选的，在本发明一实施例中，所述装置还包括：背景文字模块，用于对所述视频背景图像进行识别，得到背景文字结果。

可选的，在本发明一实施例中，所述语音识别模块包括：

判断矩阵单元，用于将所述文字识别结果、背景识别结果、表情识别结果、视频辅助信息及背景文字结果分别对应的预设权重值作为加权值，并利用各加权值建立判断矩阵；

语音识别单元，用于利用层次分析法，根据所述文字识别结果、背景识别结果、表情识别结果、视频辅助信息及背景文字结果分别对应的相似度及所述判断矩阵进行计算，得到语音识别结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明通过对视频内容中的背景环境识别、人物表情识别等手段校正语音文字识别结果，满足了快捷、准确的语音转写文字的需求，提供了更可靠的识别结果，代替人工听写模式，节省人力，提高工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种视频内的语音识别方法的流程图；

图2为本发明实施例中确定语音识别结果的流程图；

图3为本发明一具体实施例中视频内的语音识别方法的流程图；

图4为本发明实施例一种视频内的语音识别装置的结构示意图；

图5为本发明实施例中语音识别模块的结构示意图；

图6为本发明一实施例所提供的电子设备的结构示意图。

具体实施方式

本发明实施例提供一种视频内的语音识别方法及装置，可用于金融领域或其他领域，需要说明的是，本发明的视频内的语音识别方法及装置可用于金融领域，也可用于除金融领域之外的任意领域，本发明的视频内的语音识别方法及装置应用领域不做限定。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明实施例一种视频内的语音识别方法的流程图，本发明实施例提供的视频内的语音识别方法的执行主体包括但不限于计算机。图中所示方法包括：

步骤S1，从待处理视频中获取语音文件，并利用预设的语音识别模型对所述语音文件进行识别，得到对应的文字识别结果。

其中，从待处理视频文件时抽取出语音文件，视频文件中的语音文件可以为多个。此外，对语音文件进行语音信号预处理，包括：利用DTW(动态时间规整)算法进行分帧，预加重，端点检测，特征提取，语音匹配等。

进一步的，使用ASR(自动语音识别技术)对语音文件进行语音信号处理和模式识别。具体的，预先建立语音识别所需的模型，再利用语音识别模型对输入的语音文件进行匹配分析，将结果转成文字识别结果。其中，文字识别结果包括在识别过程中出现的多个相似匹配结果的词汇(匹配度小于15％--20％时认为是相似结果)。例如，某语音文件中的某一词汇发音为“deng,ji”，对应的文字识别结果为：1)“登记”，相似度为98％；2)“登机”，相似度为97％；3)“登基”，相似度为95％。

步骤S2，从待处理视频中获取与所述语音文件对应的视频背景图像，并利用图像识别技术，对所述视频背景图像进行识别，得到背景识别结果。

其中，若语音文件为多个，则从待处理视频中获取与各语音文件对应的视频背景图像。具体的，视频背景图像可以为静态图像或动态图像。依据图像识别技术来识别视频背景图像，由此识别出视频内背景场景，和预设的模板库中的场景进行对比，确定当时说话的语境，即得到背景识别结果。具体的，背景识别结果包括识别出的背景及对应的相似度，例如，某视频背景图像被识别为办事大厅，相似度为90％。

步骤S3，从待处理视频中获取与所述语音文件对应的人物表情图像，对所述人物表情图像进行表情识别，得到表情识别结果。

其中，若语音文件为多个，则从待处理视频中获取与各语音文件对应的人物表情图像。进一步的，若视频背景图像包括人物，则人物表情图像可以与视频背景图像相同。具体的，人物表情图像可以为静态图像或动态图像。使用表情识别技术对人物表情图像进行识别，具体的过程包括：利用光流来判断肌肉运动的主要方向，然后提取局部空间中的光流值，组成表情特征向量，最后使用卷积神经网络中的主流框架mini_XCEPTION进行深度可分离卷积分析特征向量，将跨深度和跨空间的相关性分离，搭建人脸表情识别系统。再利用该人脸表情识别系统对人物表情图像进行识别，具体的，从给定的静态图像或动态视频序列来识别说话人当时的表情状态，心理情绪，输出表情。表情识别结果包括识别出的表情及对应的相似度，例如，某人物表情图像被识别为开心，相似度为90％。

步骤S4，利用层次分析法对所述文字识别结果、背景识别结果及表情识别结果进行计算，得到语音识别结果。

其中，利用AHP(层次分析法)对文字识别结果中多个识别结果，以及背景识别结果、表情识别结果进行加权值计算。具体的，加权值计算过程为：将文字识别结果相似度作为占比权重，计算结果。例如，文字识别结果为登记，相似度为98％；背景识别结果为办公室，相似度为70％；人物表情识别结果为开心，相似度为55％，则此时各加权值为98，70，55。进一步的，利用各加权值构建判断矩阵，使用AHP层次分析法对判断矩阵进行计算，由此得到语音识别结果。

作为本发明的一个实施例，方法还包括：从待处理视频中获取视频辅助信息；其中，所述视频辅助信息包括视频名称及视频简介信息。

其中，获取视频对应的视频名称(如电影名)，视频简介信息等。以及获取用来识别其他与视频有关的信息，例如视频名，视频信息简介内容等，作为有效的视频辅助信息。

在本实施例中，所述方法还包括：对所述视频背景图像进行识别，得到背景文字结果。

其中，对所述视频背景图像进行识别，识别出视频背景图像中的文字。具体过程可以为：对视频文件中出现的文字进行抽帧，将所得视频背景图像文件进行图像预处理包括但不限于净化图片文字内容，去除显见噪声，调整文字倾斜角，对横板竖版文字进行切分，单个文字分离，标点判别。最后将所得单个文字进行OCR光学识别进行结果分析，由此得到背景文字结果。背景文字结果包括识别出的文字及其对应的相似度。

在本实施例中，如图2所示，利用层次分析法对所述文字识别结果、所述背景识别结果及所述表情识别结果进行计算，得到语音识别结果包括：

步骤S21，将所述文字识别结果、背景识别结果、表情识别结果、视频辅助信息及背景文字结果分别对应的预设权重值作为加权值，并利用各加权值建立判断矩阵。

步骤S22，利用层次分析法，根据所述文字识别结果、背景识别结果、表情识别结果、视频辅助信息及背景文字结果分别对应的相似度及所述判断矩阵进行计算，得到语音识别结果。

其中，利用AHP(层次分析法)对文字识别结果中多个识别结果，以及背景识别结果、表情识别结果、视频辅助信息及背景文字结果各项对应的预设权重值进行加权值计算。具体的，可根据文字识别结果相似度预先设置各项占比的权重值，计算结果。具体的，例如，文字识别结果为登记，相似度为98％；背景识别结果为办公室，相似度为70％；人物表情识别结果为开心，相似度为55％；无输入的其他视频辅助信息，则相似度为0％，则此时各项权重值，即加权值可以预设为98，70，55，0，0。进一步的，利用各加权值构建判断矩阵，使用AHP层次分析法对判断矩阵进行计算，选出文字识别结果中最优选择词，由此得到语音识别结果。具体的，可求取判断矩阵与背景识别结果、表情识别结果、视频辅助信息及背景文字结果各项对应的相似度的乘积，根据乘积结果，取最大值对应的识别结果作为最优选择词。

具体的，本发明以微表情为首要考量参数，微表情产生的表情识别结果会对语音转写结果产生更多的关联，由此影响语音识别的结果。在一些微表情识别产生的表情情绪为平静，或是视频中未能捕获到表情的情况时，会去使用其他一些场景信息来关联转写结果，获得一个更符合语音本意的文本内容。比如在背景识别为宫殿场景下时，(deng,ji)这个发音更多的会被识别为“登基”而不是“登记”。同样的，若是在办事大厅或者医院等场景下则会被识别为“登记”。

在本发明一具体的实施例中，如图3所示的语音识别过程具体包括：

①将待处理的目标视频做分割和抽离操作，分割成需要识别的小段；

②将①中产生的视频进行音频与视频抽离，得到语音文件；

③对②中的语音文件进行语音转写，文字识别结果中存在多个识别结果的词汇，继续进行视频背景识别、人物表情识别等。

④对①中的视频片段进行视频背景识别、人物表情识别、获取视频复制信息及背景文字识别，得到对应的加权值，并标注出备选结果的不同加权值。

⑤利用层次分析法，根据④的场景识别结果选择最优方式进行关联转写结果，得到可靠的转写结果。

在本发明一具体的实施例中，以某视频中语音内容转写结果作为示例。发音为“san’bai’wu’shi’yi”，文字识别结果为“三百五十亿”和“三百五十一”，相似度相差不大，前者为98％，后者为97％。此时文字识别结果内容靠近，通过视频内容的场景进行辅助识别。例如，获取视频中三帧图像作为视频背景图像及人物表情图像，将视频背景图像及人物表情图像内容作为语音转写内容的辅助参考。具体过程为：

(1)对第一帧图像进行识别。获取到的识别结果为：视频背景识别为图中人在吃东西；人物表情识别为疑惑；背景文字识别为“女孩”、“男友收入”及“回答”；辅助信息识别为没有有效信息。得到各识别结果后，对各个场景识别结果进行加权值计算。

(2)第二帧图像主要为了将语音内容和视频内容对齐，无实际意义。

(3)对第三帧图像进行识别。获取到的识别结果为：视频背景识别为食材，及人物正在吃东西；人物表情识别为女孩开心、满意；背景文字识别为“女孩”、“男友收入”及“回答”；辅助信息识别为没有有效信息。得到各识别结果后，对各个场景识别结果进行加权值计算。

根据表情，背景内容，文字，辅助信息，构造判断矩阵。由于本发明侧重表情识别结果，所以在有表情识别结果时候，将表情识别内容重要占比扩大到1.5倍，其他项同等重要。然后根据预设的权重值，表情：背景内容(3：2)，表情：文字识别(3：2)，背景内容：文字识别(1：1)构造表情，背景内容，文字识别的判断矩阵为

使用公式

计算可以得到相关权重向量为[0.42 0.29 0.29]。这里主要使用AHP层次法来构建获取一个权重向量，根据权重向量与上述识别到的内容的相似度做乘积，(假设此处识别结果的为：表情：“开心”85％，背景内容：“吃饭”70％，文字识别信息：“收入”90％)。可以得到乘积结果为(0.36，0.20，0.26)，比较选出最大值，可得表情识别结果即“开心”为最优判断决策。

(4)根据第一帧第三帧的识别内容对相似结果“三百五十亿”和“三百五十一”进行筛选。发现女孩表情“开心”以及关键词“收入”的相关度与识别结果“三百五十亿”更接近。所以确定输出识别结果为“三百五十亿”。

如图4所示为本发明实施例一种视频内的语音识别装置的结构示意图，图中所示装置包括：

文字识别模块10，用于从待处理视频中获取语音文件，并利用预设的语音识别模型对所述语音文件进行识别，得到对应的文字识别结果。

背景识别模块20，用于从待处理视频中获取与所述语音文件对应的视频背景图像，并利用图像识别技术，对所述视频背景图像进行识别，得到背景识别结果。

表情识别模块30，用于从待处理视频中获取与所述语音文件对应的人物表情图像，对所述人物表情图像进行表情识别，得到表情识别结果。

语音识别模块40，用于利用层次分析法对所述文字识别结果、背景识别结果及表情识别结果进行计算，得到语音识别结果。

作为本发明的一个实施例，所述装置还包括：辅助信息模块，用于从待处理视频中获取视频辅助信息；其中，所述视频辅助信息包括视频名称及视频简介信息。

在本实施例中，所述装置还包括：背景文字模块，用于对所述视频背景图像进行识别，得到背景文字结果。

在本实施例中，如图5所示，所述语音识别模块40包括：

判断矩阵单元41，用于将所述文字识别结果、背景识别结果、表情识别结果、视频辅助信息及背景文字结果分别对应的预设权重值作为加权值，并利用各加权值建立判断矩阵；

语音识别单元42，用于利用层次分析法，根据所述文字识别结果、背景识别结果、表情识别结果、视频辅助信息及背景文字结果分别对应的相似度及所述判断矩阵进行计算，得到语音识别结果。

基于与上述一种视频内的语音识别方法相同的申请构思，本发明还提供了上述一种视频内的语音识别装置。由于该一种视频内的语音识别装置解决问题的原理与一种视频内的语音识别方法相似，因此该一种视频内的语音识别装置的实施可以参见一种视频内的语音识别方法的实施，重复之处不再赘述。

如图6所示，该电子设备600还可以包括：通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是，电子设备600也并不是必须要包括图6中所示的所有部件；此外，电子设备600还可以包括图6中没有示出的部件，可以参考现有技术。

如图6所示，中央处理器100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中，存储器140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序，以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142，该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143，该数据存储部143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132，以经由扬声器131提供音频输出，并接收来自麦克风132的音频输入，从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器130还耦合到中央处理器100，从而使得可以通过麦克风132能够在本机上录音，且使得可以通过扬声器131来播放本机上存储的声音。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频内的语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：从待处理视频中获取视频辅助信息；其中，所述视频辅助信息包括视频名称及视频简介信息。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：对所述视频背景图像进行识别，得到背景文字结果。

4.根据权利要求3所述的方法，其特征在于，所述利用层次分析法对所述文字识别结果、所述背景识别结果及所述表情识别结果进行计算，得到语音识别结果包括：

5.一种视频内的语音识别装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：辅助信息模块，用于从待处理视频中获取视频辅助信息；其中，所述视频辅助信息包括视频名称及视频简介信息。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：背景文字模块，用于对所述视频背景图像进行识别，得到背景文字结果。

8.根据权利要求7所述的装置，其特征在于，所述语音识别模块包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至4任一项所述方法的计算机程序。