CN108882033B

CN108882033B - 一种基于视频语音的人物识别方法、装置、设备和介质

Info

Publication number: CN108882033B
Application number: CN201810798832.0A
Authority: CN
Inventors: 宋旭博
Original assignee: Shanghai Yingpu Technology Co Ltd
Current assignee: Shanghai Yingpu Technology Co ltd
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2021-12-14
Anticipated expiration: 2038-07-19
Also published as: CN108882033A

Abstract

本申请公开了一种基于视频语音的人物识别方法、装置、设备和介质。该方法包括：识别视频中出现的人物的面部图像，基于所述面部图像确定该人物的身份信息，得到第一身份信息集合，其中，所述第一身份集合至少包括一个身份信息；基于对与所述视频对应的音频进行检测得到的人物姓名列表，对所述第一身份信息集合进行过滤，得到第二身份信息集合。通过该方法，能够将人物头像识别和音频信息相结合，利用语音识别出的人名信息辅助识别人物身份，从而能够区分长相接近的演员，在远景镜头人物头像模糊的情况下，能够提高识别的准确性，减少无法识别和错误识别的情况。

Description

一种基于视频语音的人物识别方法、装置、设备和介质

技术领域

本申请涉及视频处理技术领域，特别是涉及一种基于视频语音的人物识别方法、装置、设备和介质。

背景技术

在对视频中的人物进行识别时，通常的做法是将视频帧中出现的人物头像与数据库的样品集中的照片进行比对，从而识别出人物的身份，并对该人物进行标注。但是随着演艺界人员和影视作品数量的增多，演员之间经常会发生“撞脸”的情况，由于某些演员的长相非常接近，风格也比较类似，在对人物进行识别的时候经常发生识别错误的情况，对于远景镜头而言，误识的情况更为常见，导致人物识别的准确性降低。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于视频语音的人物识别方法，包括：

人物身份识别步骤：识别视频中出现的人物的面部图像，基于所述面部图像确定该人物的身份信息，得到第一身份信息集合，其中，所述第一身份集合至少包括一个身份信息；

身份信息过滤步骤：基于对与所述视频对应的音频进行检测得到的人物姓名列表，对所述第一身份信息集合进行过滤，得到第二身份信息集合。

通过该方法，能够将人物头像识别和音频信息相结合，利用语音识别出的人名信息辅助识别人物身份，从而能够区分长相接近的演员，在远景镜头人物头像模糊的情况下，能够提高识别的准确性，减少无法识别和错误识别的情况。

可选地，所述人物姓名列表通过以下步骤获得：

视频语音识别步骤：对与所述视频对应的音频进行语音识别，得到语音识别文本；

人物姓名列表获取步骤：基于人物姓名词库，对所述语音识别文本进行检测，得到所述语音识别文本中出现的人物姓名列表。

该步骤能够通过自然语言处理，识别出视频语音中提及的人物姓名，即使该视频不能提供可以直接使用的该视频中出现的人物姓名信息的情况下，也能够基于视频的音频，通过语音识别的方式得到人物姓名列表，从而辅助图像识别，极大了提高识别的准确率。

可选地，人物姓名词库中包括以下数据中的一个或多个：人物的真实姓名、艺名、英文名、曾用名。

可选地，在所述人物身份识别步骤中，对于所述视频中的每一帧，通过卷积神经网络识别视频帧中出现的人物的面部图像；基于所述面部图像通过经训练的VGG模型确定该人物的身份信息和置信度，得到第一身份信息集合，其中，所述第一身份集合至少包括一个身份信息和该身份信息的置信度。

该方法通过结合使用卷积神经网络和VGG模型，能够充分利用两种模型的优势，对图片中人物的面部图像进行识别，并且进一步对面部图像的人物身份进行识别，从而能够在视频帧的内容丰富的数据中，识别出人物图像，得到身份信息，和人工识别相比，更加高效和便捷，对于大型的视频而言，处理速度更快，优势更加明显。

可选地，述身份信息过滤步骤包括：将所述第一身份信息集合中的身份信息按照置信度从高到低排序，将所述第一身份信息集合的身份信息依次与所述人物姓名列表进行比较，如果所述身份信息出现在所述人物姓名列表中，则将所述身份信息作为所述第二身份信息集合中的元素。

该步骤能够利用视频语音信息对人脸图像的识别结果进行过滤和确认，降低了从图形识别算法的角度入手提高模型识别准确性的难度，能够针对完整视频的特点，从一个全新的角度寻找解决问题的思路和方案，从而达到提高识别准确率的技术效果。

根据本申请的另一个方面，还提供了一种基于视频语音的人物识别装置，包括：

人物身份识别模块，其配置成用于识别视频中出现的人物的面部图像，基于所述面部图像确定该人物的身份信息，得到第一身份信息集合，其中，所述第一身份集合至少包括一个身份信息；和

身份信息过滤模块，其配置成用于基于对与所述视频对应的音频进行检测得到的人物姓名列表，对所述第一身份信息集合进行过滤，得到第二身份信息集合。

通过该装置，能够将人物头像识别和音频信息相结合，利用语音识别出的人名信息辅助识别人物身份，从而能够区分长相接近的演员，在远景镜头人物头像模糊的情况下，能够提高识别的准确性，减少无法识别和错误识别的情况。

可选地，所述人物姓名列表通过以下模块获得：

视频语音识别模块，其配置成用于对与所述视频对应的音频进行语音识别，得到语音识别文本；和

人物姓名列表获取模块，其配置成用于基于人物姓名词库，对所述语音识别文本进行检测，得到所述语音识别文本中出现的人物姓名列表。

可选地，所述身份信息过滤模块用于：将所述第一身份信息集合中的身份信息按照置信度从高到低排序，将所述第一身份信息集合的身份信息依次与所述人物姓名列表进行比较，如果所述身份信息出现在所述人物姓名列表中，则将所述身份信息作为所述第二身份信息集合中的元素。

根据本申请的另一个方面，还提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的另一个方面，还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据下文结合附图对本申请的具体实施方案的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施方案。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请的基于视频语音的人物识别方法的一个实施方案的示意性流程图；

图2是根据本申请的人物姓名列表获得步骤的一个实施方案的示意性流程图；

图3是根据本申请的基于视频语音的人物识别装置的一个实施方案的示意性框图；

图4是根据本申请的人物姓名列表获得模块的一个实施方案的示意性框图；

图5是本申请的计算设备的一个实施方案的示意性框图；

图6是本申请的计算机可读存储介质的一个实施方案的示意性框图。

具体实施方式

本申请的一个实施方式提供了一种基于视频语音的人物识别方法。图1是根据本申请的基于视频语音的人物识别方法的一个实施方案的示意性流程图。该方法可以包括：

S100人物身份识别步骤：识别视频中出现的人物的面部图像，基于所述面部图像确定该人物的身份信息，得到第一身份信息集合，其中，所述第一身份集合至少包括一个身份信息；

S200身份信息过滤步骤：基于对与所述视频对应的音频进行检测得到的人物姓名列表，对所述第一身份信息集合进行过滤，得到第二身份信息集合。

可选地，所述视频是综艺节目视频。可以理解的是，本申请的视频包括涉及各种动态影像的储存格式的数据，包括但不限于运动比赛、纪录片、新闻、采访、综艺节目等。本方法针对的处理对象为完整的视频数据。该视频具有与之相对应的音频或者同步的音频。

图2是根据本申请的人物姓名列表获得步骤的一个实施方案的示意性流程图。可选地，所述人物姓名列表可以通过以下的人物姓名列表获得步骤获得，所述人物姓名列表获得步骤可以包括：

S010视频语音识别步骤：基于语音词库，对与所述视频对应的音频进行语音识别，得到语音识别文本；

S020文本检测步骤：基于人物姓名词库，对所述语音识别文本进行检测，得到所述语音识别文本中出现的人物姓名列表。

可选地，在S010视频语音识别步骤中，语音识别可以基于语音识别引擎实现，通过语音识别引擎对与所述视频对应的音频进行语音识别，得到语音识别文本。该语音识别引擎的语音词库可以自行定义，该语音词库中包括人物姓名以及对应的音频特征。可以针对待处理的视频的类型定义不同的语音词库，例如，针对运动比赛定义的比赛词库，该比赛词库包括比赛术语、运动员姓名等；针对综艺节目定义的综艺节目词库，该综艺节目词库包括明星姓名、主持人姓名等。该步骤采用针对人物姓名进行优化的语音识别引擎能够提高对音频中人物姓名识别的准确度，降低人名容易被误识的概率。

可选地，所述人物姓名词库中可以包括以下数据中的一个或多个：人物的真实姓名、艺名、英文名、曾用名等。

在一个可选的实施方案中，在所述S020文本检测步骤中，基于人物姓名词库，将所述语音识别文本中出现的人物姓名提取出来，经过去重处理得到人物姓名列表。

通过该方法，能够快速音频中提及的所有人物的姓名，方法实现简单并且效率高。

在另一个可选的实施方案中，在所述S020文本检测步骤中，基于人物姓名词库将语音识别文本中所有的人物姓名进行标注，对该人物姓名及其附近的情感词进行语义分析，得到所述视频中出现的人物的姓名，经过去重处理后得到人物姓名列表。

该步骤通过人物姓名词库能够对语音识别文本中的人名进行标注和定位；对该人物姓名及其附近的词语进行语义分析能够检测到语句的含义是描述视频中出现的人物，还是视频中没出现的但是和该视频内容相关的人物，例如，与该视频中的人物相似的人物，或者目前比较流行的事件中的人物等。

所述S020文本检测步骤可以包括：

人物姓名词库建立步骤：对每个人物建立人物姓名集合，人物姓名集合中包括：真实姓名、艺名、英文名、曾用名、与该人物长相相似的人物，将真实姓名作为基准词，将其他姓名作为同类词；

语音识别处理步骤：对音频进行语音识别，识别出人物姓名和相关的情感词；

语义分析步骤：进行聚类分析，识别和语义相关的人物姓名和情感词，进行语义判断；

分析结果输出步骤：得到所述视频中出现的人物的姓名，经过去重处理后得到人物姓名列表。

其中，语音识别处理步骤可以包括：

文本转换步骤：利用语音识别引擎对音频进行语音识别，转换成文本；

文字处理步骤：完成分词、词性标注、基础语义识别等自然语言理本过程，保存到数据库；

标注步骤：对人物姓名和相关的情感词进行识别和标注。

其中，所述语义分析步骤可以包括：

聚类分析步骤：进行聚类分析，识别和语义相关的人物姓名词和情感词；

语义分析步骤：计算人物姓名距离向量之差，若小于预设值，则根据人物姓名与情感词的词序进行度量计算，从而进行语义判断。

例如，音频中存在如下语句：“欢迎A的到来，A长得和B真的很像啊”，其中，A和B分别表示不同的人物姓名。首先进行聚类分析，识别出人物姓名词A、人物姓名词B和情感词：欢迎、到来、很像，本申请中的情感词不限于表达情感的形容词和副词，也可以包括表达感情的动词。可以理解是的，情感词可以根据不同视频类型中惯用的语言表达方式进行设置。计算人物姓名A和人物姓名B之间的距离向量之差，结果小于预设值；分别计算人物姓名词A与欢迎、到来、很像之间的量度，以及分别计算人物姓名词B与欢迎、到来、很像之间的量度，比较量度值，可以得到“很像”与人物姓名词“B”更为匹配，“欢迎”、“到来”人物姓名词与“A”更为匹配，从而得出正确语义。

如果按照普通的识别方法，得到的人物姓名列表中包括人物A和人物B。但是实际上，人物B虽然在音频中被提及，但是并没有出现在视频中。因此，该步骤能够通过语义分析将音频中提及的，与视频中人物相关的人物姓名删除，从而避免对人物头像识别带来干扰。

可选地，在所述人物姓名列表获取步骤中的去重处理可以包括：

去除重复的姓名；

基于人物姓名词库判断姓名的类型，若为同类词，则将该姓名替换为该同类词的基准词，得到人物姓名列表。

该步骤能够避免后续将第一身份信息集合与人物姓名列表对比时，重复进行信息比较，提高了对比的速度。

可选地，在所述S100人物身份识别步骤中，对于所述视频中的每一帧，通过卷积神经网络识别视频帧中出现的人物的面部图像；基于所述面部图像通过经训练的VGG模型确定该人物的身份信息和置信度，得到第一身份信息集合，其中，所述第一身份集合至少包括一个身份信息和该身份信息的置信度。

利用卷积神经网络CNN识别人物面部图像时，可以基于人物姓名，在互联网上获取大量包括该人物面部图像的图片，面部图像包括正面照和侧面照，这些图片形成训练数据集合。在训练阶段，首先搭建卷积神经网络，该卷积神经网络包括依次连接的多个卷积层和多个反卷积层，其中，每个卷积层均连接有一规范化操作和一激励操作；初始化所述卷积神经网络的权重值；将预先建立的训练数据集合的图片输入经初始化后的卷积神经网络中，以最小化代价函数为目标对卷积神经网络进行迭代训练，模型输出为图片上人物面部图像，该面部图像为图片的截图，其中，每迭代一次则更新一次所述权重值，直达模型收敛为止。在使用阶段，得到经过训练的卷积神经网络；将视频中的每一帧输入经训练得到的卷积神经网络中，输出对应的人物面部图像和位置信息。

基于所述面部图像，通过经训练的VGG模型确定该人物的身份信息和置信度，得到第一身份信息集合，其中，所述第一身份集合至少包括一个身份信息和该身份信息的置信度。在训练阶段，以1000人以上的人脸图片数据为训练数据，每个人不少于100张，包括正面到侧面的多种角度。VGG模型训练结果应当满足对于目标视频截图的测试集的平均准确率mAP>0.87。可以理解的是，可以使用VGG等模型进行训练，也可以是使用现有的人脸识别工具进行识别。

可选地，所述S200身份信息过滤步骤可以包括：将所述第一身份信息集合中的身份信息按照置信度从高到低排序，将所述第一身份信息集合的身份信息依次与所述人物姓名列表进行比较，如果所述身份信息出现在所述人物姓名列表中，则将所述身份信息作为所述第二身份信息集合中的元素。

可选地，在所述身份信息没有出现在所述人物姓名列表中的情况下，则第二身份信息为空集，表明没有正确识别结果。

可选地，在所述身份信息没有出现在所述人物姓名列表中的情况下，将第一身份信息集合中的身份信息的置信度大于第二阈值的身份信息作为所述第二身份信息集合中的元素。

可选地，在所述第一身份信息集合中的身份信息中，最高置信度小于第二阈值的情况下，则第二身份信息为空集，表明未识别出人物身份。

在一个可选的实施方案中，该方法还可以包括：

身份信息二次过滤步骤：基于所述视频的演职员表中的第二人物姓名列表，对所述第二身份信息集合进行过滤，得到第三身份信息集合。

通过该方法，能够将人物头像识别和文字识别相结合，利用演职员表的信息辅助识别人物身份，从而能够区分长相接近的演员，能够提高识别的准确性，减少无法识别和错误识别的情况。

该视频包括演职员表，演职员表包括视频中的出现的演员和/或职员的姓名、角色、职责等，一般在片尾出现。

该方法还可以包括演职员表获得步骤。在视频中，所述演职员表可以通过以下的演职员表获得步骤获得，演职员表获得步骤可以包括：

演职员表识别步骤：识别所述视频中演职员表所在的视频帧部分；

演职员表内容识别步骤：对所述视频帧部分进行文本检测，得到所述视频帧部分中每个视频的具有人物名称属性的截图，对所述截图进行光学字符识别，得到演职员表中出现的人物姓名列表。

该步骤能够识别出视频中的演职员表，即使该演职员表不能提供可以直接使用的文字信息的情况下，也能够基于视频帧图像，通过文本检测和光学字符识别得到人物姓名列表，该方法能够得到批量的人物姓名数据，极大了提高数据处理能力。

可选地，在该演职员表识别步骤中，使用深度学习网络识别视频中演职员表所在的视频帧部分，得到视频帧序列。

可选地，该深度学习网络可以是ResNeXt网络、Xception网络或DenseNet网络。以Xception为例，该网络模型是一种深度可分类卷积网络，能够对场景进行分类。对于所述视频中的前后两个视频帧，进行图片的二分类训练。在训练阶段，使用视频的有演职员表部分为正例，对应的非演职员表部分为反例。每次输入一张图片，根据图片特征和图片的标签进行分类训练，输出为该图片是正例或反例的结果。在使用的测试集结果基本收敛则停止训练。在使用阶段，将待分析的视频的每个视频帧组成的图片序列顺次输入深度学习网络，在大量出现连续正例的判别结果位置，则是目标位置，即，演职员表所在的视频帧部分，从而得到视频帧序列。

通过该方法，能够对视频中画面的种类进行区分，找出视频中的演职员表部分，以便从演职员表中分析出人物姓名。

可选地，在所述演职员表内容识别步骤中，可以使用复合神经网络进行文本检测，并得到人物姓名列表。其中，复合神经网络可以包括文本检测网络和文本识别组件。

文本检测网络可以是YOLOv3网络。在训练阶段，采用标注后的演职员表文本信息为训练数据，在训练数据中，对演职员表中所有文字均进行标注，而不是仅仅标注人名。在使用阶段，文本检测网络的输入是视频帧序列中的每一个视频帧图片，输出是该视频帧中感兴趣部分的截图，从而得到视频帧序列的截图集合。

文本识别组件可以是光学字符识别(Optical Character Recognition，OCR)组件，例如，Tesseract-OCR组件。以Tesseract-OCR为例，在训练时，将图片转换成tif格式，以便生成box文件。利用jTessBoxEditor对tif格式的截图进行矫正并训练。该步骤能够对演员的人名进行优化校调。在使用时，将截图集合中的截图输入该组件，能够得到该截图中的人名，进而得到演职员表中出现的第二人物姓名列表。

可选地，在所述演职员表内容识别步骤中还包括：对第二人物姓名列表进行去重处理，得到去重后的第二人物姓名列表。该步骤可以避免后续将第二身份信息集合与第二人物姓名列表对比时，重复进行信息比较，提高了对比的速度。

可选地，在演职员表内容识别步骤之前，演职员表获得步骤还可以包括视频帧去重步骤：将视频帧部分的前后两个视频帧进行相似度比较，如果相似度高于第一阈值，则将后一视频帧从视频帧部分中删除。该步骤能够在得到演职员表后，删除冗余的视频帧，减少演职员表内容识别步骤的数据处理量。对于一些视频，演职员表部分每隔一段时间间隔切换一个画面，或者以较慢的速度滚动，采用该步骤能够去除多余的视频帧，避免对相同的视频帧重复进行内容识别。

本申请的一个实施方案还提供了一种基于视频语音的人物识别装置。图3是根据本申请的基于视频语音的人物识别装置的一个实施方案的示意性框图。该装置可以包括：

人物身份识别模块100，其配置成用于识别视频中出现的人物的面部图像，基于所述面部图像确定该人物的身份信息，得到第一身份信息集合，其中，所述第一身份集合至少包括一个身份信息；

身份信息过滤模块200，其配置成用于基于对与所述视频对应的音频进行检测得到的人物姓名列表，对所述第一身份信息集合进行过滤，得到第二身份信息集合。

通过该装置，能够将人物头像识别和文字识别相结合，利用视频语音的信息辅助识别人物身份，从而能够区分长相接近的演员，在远景镜头人物头像模糊的情况下，能够提高识别的准确性，减少无法识别和错误识别的情况。

可选地，该装置还可以包括人物姓名列表获得模块。图4是根据本申请的人物姓名列表获得模块的一个实施方案的示意性框图。该人物姓名列表获得可以包括：

视频语音识别模块010，其配置成用于基于语音词库，对与所述视频对应的音频进行语音识别，得到语音识别文本；

文本检测模块020，其配置成用于基于人物姓名词库，对所述语音识别文本进行检测，得到所述语音识别文本中出现的人物姓名列表。

在一个可选实施方案中，所述文本检测模块020用于基于人物姓名词库，将所述语音识别文本中出现的人物姓名提取出来，经过去重处理得到人物姓名列表。

在另一个可选实施方案中，所述文本检测模块020用于基于人物姓名词库将语音识别文本中所有的人物姓名进行标注，对该人物姓名及其附近的情感词进行语义分析，得到所述视频中出现的人物的姓名，经过去重处理后得到人物姓名列表。

所述文本检测模块020可以包括：

人物姓名词库建立模块：用于对每个人物建立人物姓名集合，人物姓名集合中可以包括：真实姓名、艺名、英文名、曾用名、与该人物长相相似的人物，将真实姓名作为基准词，将其他姓名作为同类词；

语音识别处理模块：用于对音频进行语音识别，识别出人物姓名和相关的情感词；

语义分析模块：用于进行聚类分析，识别和语义相关的人物姓名和情感词，进行语义判断；

分析结果输出模块：用于得到所述视频中出现的人物的姓名，经过去重处理后得到人物姓名列表。

其中，语音识别处理模块可以包括：

文本转换模块：用于利用语音识别引擎对音频进行语音识别，转换成文本；

文字处理模块：用于完成分词、词性标注、基础语义识别等自然语言理本过程，保存到数据库；

步骤模块：用于对人物姓名和相关的情感词进行识别和标注。

其中，所述语义分析模块可以包括：

聚类分析模块；用于进行聚类分析，识别和语义相关的人物姓名词和情感词；

语义分析模块：用于计算人物姓名距离向量之差，若小于预设值，则根据人物姓名与情感词的词序进行度量计算，从而进行语义判断。

可选地，在所述人物姓名列表获取模块中的去重处理可以包括：去除重复的姓名，基于人物姓名词库判断姓名的类型，若为同类词，则将该姓名替换为该同类词的基准词，得到人物姓名列表。

可选地，所述人物身份识别模块100中用于对于所述视频中的每一帧，通过卷积神经网络识别视频帧中出现的人物的面部图像；基于所述面部图像通过经训练的VGG模型确定该人物的身份信息和置信度，得到第一身份信息集合，其中，所述第一身份集合至少包括一个身份信息和该身份信息的置信度。

可选地，所述身份信息过滤模块200用于：将所述第一身份信息集合中的身份信息按照置信度从高到低排序，将所述第一身份信息集合的身份信息依次与所述人物姓名列表进行比较，如果所述身份信息出现在所述人物姓名列表中，则将所述身份信息作为所述第二身份信息集合中的元素。

在一个可选的实施方案中，该装置还可以包括：

身份信息二次过滤模块，其配置为用于基于所述视频的演职员表中的第二人物姓名列表，对所述第二身份信息集合进行过滤，得到第三身份信息集合。

可选地，该装置还包括演职员表获得模块。所述演职员表通过该演职员表获得模块获得。该演职员表获得模块可以包括：

演职员表识别模块，其配置成用于识别所述视频中演职员表所在的视频帧部分；

演职员表内容识别模块，其配置成用于对所述视频帧部分进行文本检测，得到所述视频帧部分中每个视频的具有人物名称属性的截图，对所述截图进行光学字符识别，得到演职员表中出现的第二人物姓名列表。

可选地，演职员表获得模块还可以包括视频帧去重模块，其配置成用于将视频帧部分的前后两个视频帧进行相似度比较，如果相似度高于第一阈值，则将后一视频帧从视频帧部分中删除。该模块能够在得到演职员表后，删除冗余的视频帧，减少演职员表内容识别步骤的数据处理量。

可选地，所述演职员表识别模块用于使用深度学习网络识别视频中演职员表所在的视频帧部分，得到视频帧序列。

可选地，所述演职员表内容识别模块用于利用目标检测网络模型对所述视频帧部分进行文本检测，得到所述视频帧部分的文字的属性。可选地，所述演职员表内容识别模块用于使用复合神经网络进行文本检测，并得到第二人物姓名列表。其中，复合神经网络可以包括文本检测网络和文本识别组件。

本申请的实施方案还提供了一种计算设备，参照图5，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请的实施方案还提供了一种计算机可读存储介质。参照图6，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131’，该程序被处理器执行。

本申请实施方案还提供了一种包含指令的计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算设备执行时，导致所述计算设备执行如上所述的方法。

在上述实施方案中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施方案所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施方案描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施方案方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于视频语音的人物识别方法，包括：

人物身份识别步骤：识别视频中出现的人物的面部图像，基于所述面部图像确定该人物的身份信息，得到第一身份信息集合，其中，所述第一身份信息集合至少包括一个身份信息；和

身份信息过滤步骤：基于对与所述视频对应的音频进行检测得到的人物姓名列表，对所述第一身份信息集合进行过滤，得到第二身份信息集合；

所述人物姓名列表通过以下步骤获得：

视频语音识别步骤：对与所述视频对应的音频进行语音识别，得到语音识别文本；和

人物姓名列表获取步骤：基于人物姓名词库，对所述语音识别文本进行检测，得到所述语音识别文本中出现的人物姓名列表；

在所述身份信息没有出现在所述人物姓名列表中的情况下，将第一身份信息集合中的身份信息的置信度大于第二阈值的身份信息作为所述第二身份信息集合中的元素。

2.根据权利要求1所述的方法，其特征在于，所述人物姓名词库通过以下步骤获得：

分析结果输出步骤：得到所述视频中出现的人物的姓名，经过去重处理后得到人物姓名词库。

3.根据权利要求2所述的方法，其特征在于，所述人物姓名词库中包括以下数据中的一个或多个：人物的真实姓名、艺名、英文名、曾用名。

4.根据权利要求1所述的方法，其特征在于，在所述人物身份识别步骤中，对于所述视频中的每一帧，通过卷积神经网络识别视频帧中出现的人物的面部图像；基于所述面部图像通过经训练的VGG模型确定该人物的身份信息和置信度，得到第一身份信息集合，其中，所述第一身份集合至少包括一个身份信息和该身份信息的置信度。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述身份信息过滤步骤包括：将所述第一身份信息集合中的身份信息按照置信度从高到低排序，将所述第一身份信息集合的身份信息依次与所述人物姓名列表进行比较，如果所述身份信息出现在所述人物姓名列表中，则将所述身份信息作为所述第二身份信息集合中的元素。

6.一种基于视频语音的人物识别装置，包括：

人物身份识别模块，其配置成用于识别视频中出现的人物的面部图像，基于所述面部图像确定该人物的身份信息，得到第一身份信息集合，其中，所述第一身份信息集合至少包括一个身份信息；和

身份信息过滤模块，其配置成用于基于对与所述视频对应的音频进行检测得到的人物姓名列表，对所述第一身份信息集合进行过滤，得到第二身份信息集合；

所述人物姓名列表通过以下模块获得：

人物姓名列表获取模块，其配置成用于基于人物姓名词库，对所述语音识别文本进行检测，得到所述语音识别文本中出现的人物姓名列表；

7.根据权利要求6所述的装置，其特征在于，所述人物姓名词库通过以下模块获得：

分析结果输出模块：用于得到所述视频中出现的人物的姓名，经过去重处理后得到人物姓名词库。

8.根据权利要求6所述的装置，其特征在于，所述身份信息过滤模块用于：将所述第一身份信息集合中的身份信息按照置信度从高到低排序，将所述第一身份信息集合的身份信息依次与所述人物姓名列表进行比较，如果所述身份信息出现在所述人物姓名列表中，则将所述身份信息作为所述第二身份信息集合中的元素。

9.一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。

10.一种计算机可读存储介质，为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1至5中任一项所述的方法。