CN113362832A - 一种用于音视频人物的命名方法及相关装置 - Google Patents
一种用于音视频人物的命名方法及相关装置 Download PDFInfo
- Publication number
- CN113362832A CN113362832A CN202110604453.5A CN202110604453A CN113362832A CN 113362832 A CN113362832 A CN 113362832A CN 202110604453 A CN202110604453 A CN 202110604453A CN 113362832 A CN113362832 A CN 113362832A
- Authority
- CN
- China
- Prior art keywords
- face
- voice
- video
- text information
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000012634 fragment Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种用于音视频人物的命名方法及相关装置,方法包括:对获取的音视频进行分离处理,得到音频数据和视频数据;对音频数据进行人声语音检测,得到若干语音片段,并对视频数据依次进行人脸跟踪和人脸识别,得到若干携带有人脸身份信息的人脸视频片段;基于各语音片段的声纹特征对各语音片段添加初始人物名称,并将各语音片段的初始人物名称关联到对应的人脸视频片段;对各语音片段进行语音识别,得到语音文本信息,对人脸视频片段进行唇语识别,得到唇语文本信息;根据语音文本信息、唇语文本信息和人脸身份信息对人脸视频片段关联的初始人物名称进行修正,得到修正后人物名称,改善了现有的命名方法存在的准确性低的技术问题。
Description
技术领域
本申请涉及用于音视频处理技术领域,尤其涉及一种用于音视频人物的命名方法及相关装置。
背景技术
通过对音视频中的人物进行命名可以用于构建数据库,或建档,方便管理和检索。传统的命名方法大都通过人工一个一个去浏览视频然后命名,命名速度慢,效率低。为了改善该问题,现有技术通过采集音视频,然后对音视频进行语音分析来进行命名,该方法存在命名准确性低的技术问题。
发明内容
本申请提供了一种用于音视频人物的命名方法及相关装置,用于改善现有的命名方法存在的准确性低的技术问题。
有鉴于此,本申请第一方面提供了一种用于音视频人物的命名方法,包括:
对获取的音视频进行分离处理,得到音频数据和视频数据;
对所述音频数据进行人声语音检测,得到若干语音片段,并对所述视频数据依次进行人脸跟踪和人脸识别,得到若干携带有人脸身份信息的人脸视频片段;
基于各所述语音片段的声纹特征对各所述语音片段添加初始人物名称,并将各所述语音片段的所述初始人物名称关联到对应的所述人脸视频片段;
对各所述语音片段进行语音识别,得到语音文本信息,对所述人脸视频片段进行唇语识别,得到唇语文本信息;
根据所述语音文本信息、所述唇语文本信息和所述人脸身份信息对所述人脸视频片段关联的所述初始人物名称进行修正,得到修正后人物名称。
可选的,所述基于各所述语音片段的声纹特征对各所述语音片段添加初始人物名称,包括:
对各所述语音片段进行特征提取,得到若干声纹特征;
对各所述语音片段的所述声纹特征进行相似度计算,并基于得到的第一相似度值对所述声纹特征进行聚类,得到聚类结果;
根据所述聚类结果对各所述语音片段添加初始人物名称。
可选的,所述根据所述语音文本信息、所述唇语文本信息和所述人脸身份信息对所述人脸视频片段关联的所述初始人物名称进行修正,得到修正后人物名称,包括:
对所述语音文本信息和所述唇语文本信息进行相似度计算,得到第二相似度值;
根据大于预置阈值的所述第二相似度值的唇语文本信息对应的所述人脸视频片段的人脸身份信息,对该人脸视频片段关联的所述初始人物名称进行修正,得到修正后人物名称。
可选的,所述根据所述语音文本信息、所述唇语文本信息和所述人脸身份信息对所述人脸视频片段关联的所述初始人物名称进行修正,得到修正后人物名称,之后还包括:
将各所述语音文本信息输入到对话语言分析模型进行人名预测,根据预测结果修正各所述语音文本信息的初始人物名称。
可选的,所述对所述视频数据依次进行人脸跟踪和人脸识别,得到若干携带有人脸身份信息的人脸视频片段,包括:
将所述视频数据中的各帧图像输入到人脸跟踪模型进行人脸跟踪,获取若干帧人脸图像;
将各帧所述人脸图像输入到人脸识别模型进行人脸识别,得到各帧所述人脸图像的人脸身份信息;
根据所述人脸身份信息,将连续帧的同一人脸的所述人脸图像编码成视频,得到若干携带有人脸身份信息的人脸视频片段。
本申请第二方面提供了一种用于音视频人物的命名装置,包括:
分离单元,用于对获取的音视频进行分离处理,得到音频数据和视频数据;
处理单元,用于对所述音频数据进行人声语音检测,得到若干语音片段,并对所述视频数据依次进行人脸跟踪和人脸识别,得到若干携带有人脸身份信息的人脸视频片段;
关联单元,用于基于各所述语音片段的声纹特征对各所述语音片段添加初始人物名称,并将各所述语音片段的所述初始人物名称关联到对应的所述人脸视频片段;
识别单元,用于对各所述语音片段进行语音识别,得到语音文本信息,对所述人脸视频片段进行唇语识别,得到唇语文本信息;
第一修正单元,用于根据所述语音文本信息、所述唇语文本信息和所述人脸身份信息对所述人脸视频片段关联的所述初始人物名称进行修正,得到修正后人物名称。
可选的,所述关联单元具体用于:
对各所述语音片段进行特征提取,得到若干声纹特征;
对各所述语音片段的所述声纹特征进行相似度计算,并基于得到的第一相似度值对所述声纹特征进行聚类,得到聚类结果;
根据所述聚类结果对各所述语音片段添加初始人物名称,并将各所述语音片段的所述初始人物名称关联到对应的所述人脸视频片段。
可选的,还包括:
第二修正单元,用于将各所述语音文本信息输入到对话语言分析模型进行人名预测,根据预测结果修正各所述语音文本信息的初始人物名称。
本申请第三方面提供了一种电子设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的用于音视频人物的命名方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面任一种所述的用于音视频人物的命名方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种用于音视频人物的命名方法,包括:对获取的音视频进行分离处理,得到音频数据和视频数据;对音频数据进行人声语音检测,得到若干语音片段,并对视频数据依次进行人脸跟踪和人脸识别,得到若干携带有人脸身份信息的人脸视频片段;基于各语音片段的声纹特征对各语音片段添加初始人物名称,并将各语音片段的初始人物名称关联到对应的人脸视频片段;对各语音片段进行语音识别,得到语音文本信息,对人脸视频片段进行唇语识别,得到唇语文本信息;根据语音文本信息、唇语文本信息和人脸身份信息对人脸视频片段关联的初始人物名称进行修正,得到修正后人物名称。
本申请中,通过对音视频中音频数据进行处理,对得到的语音片段添加初始人物名称后,通过对音视频中的视频数据进行分析、处理,获取人脸视频片段的唇语文本信息和人脸身份信息,再根据音频数据的语音文本信息、唇语文本信息和人脸身份信息对人脸视频片段关联的初始人物名称进行修正,以提高命名准确性,从而改善了现有的命名方法存在的准确性低的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种用于音视频人物的命名方法的一个流程示意图;
图2为本申请实施例提供的一种用于音视频人物的命名方法的另一个流程示意图;
图3为本申请实施例提供的一种用于音视频人物的命名装置的一个结构示意图。
具体实施方式
本申请提供了一种用于音视频人物的命名方法及相关装置,用于改善现有的命名方法存在的准确性低的技术问题。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种用于音视频人物的命名方法的一个实施例,包括:
步骤101、对获取的音视频进行分离处理,得到音频数据和视频数据。
可以通过音视频采集设备采集音视频,在获取到音视频后,对音视频的图像和音频进行分离,得到音频数据和视频数据。
步骤102、对音频数据进行人声语音检测,得到若干语音片段,并对视频数据依次进行人脸跟踪和人脸识别,得到若干携带有人脸身份信息的人脸视频片段。
对音频数据进行人声语音检测,可以得到若干语音片段,各语音片段携带有时间信息,该时间信息可以通过音频数据获取。
将视频数据中的各帧图像输入到人脸跟踪模型进行人脸跟踪,获取若干帧人脸图像;将各帧人脸图像输入到人脸识别模型进行人脸识别,得到各帧人脸图像的人脸身份信息;根据人脸身份信息,将连续帧的同一人脸的人脸图像编码成视频,得到若干携带有人脸身份信息的人脸视频片段。其中,人脸视频片段也携带有时间信息,该时间信息可以通过视频数据获取。
步骤103、基于各语音片段的声纹特征对各语音片段添加初始人物名称,并将各语音片段的初始人物名称关联到对应的人脸视频片段。
对各语音片段进行特征提取,得到若干声纹特征;对各语音片段的声纹特征进行相似度计算,并基于得到的第一相似度值对声纹特征进行聚类,得到聚类结果;根据聚类结果对各语音片段添加初始人物名称。
可以通过训练好的深度卷积神经模型来提取语音片段的声纹特征,具体训练过程属于现有技术,在此不再进行赘述。对各语音片段的声纹特征进行相似度计算,并基于得到的第一相似度值对声纹特征进行聚类,得到聚类结果,根据聚类结果对各语音片段添加初始人物名称。具体的,将聚类结果中属于同一类别的语音片段添加同一初始人物名称,该初始人物名称为虚拟的人物名称。
在对各语音片段添加了初始人物名称后,可以根据时间将各语音片段的初始人物名称关联到对应的人脸视频片段,可以是将语音片段的初始人物名称关联到与该语音片段的交叉时间大于预置交叉阈值的人脸视频片段。
步骤104、对各语音片段进行语音识别,得到语音文本信息,对人脸视频片段进行唇语识别,得到唇语文本信息。
可以通过语音识别模型对各语音片段进行语音识别,得到语音文本信息,该语音文本信息也携带有时间信息。
可以通过语音文本信息的时间与人脸视频片段的时间做对比,对交叉时间大于预设时间阈值的人脸视频片段通过人脸关键点检测模型,得到嘴唇视频片段,然后再调用唇语识别模型对嘴唇视频片段进行唇语识别,得到唇语文本信息。
步骤105、根据语音文本信息、唇语文本信息和人脸身份信息对人脸视频片段关联的初始人物名称进行修正,得到修正后人物名称。
对语音文本信息和唇语文本信息进行相似度计算,得到第二相似度值;根据大于预置阈值的第二相似度值的唇语文本信息对应的人脸视频片段的人脸身份信息,对该人脸视频片段关联的初始人物名称进行修正,得到修正后人物名称。
具体的,对各语音文本信息和各唇语文本信息进行相似度计算,得到各语音文本信息与各唇语文本信息的第二相似度值,第二相似度值越大,该相似度值对应的语音文本信息和唇语文本信息越相似。对大于预置阈值的第二相似度值,根据大于预置阈值的该第二相似度值对应的唇语文本信息可以确定对应的人脸视频片段,然后根据该人脸视频片段的人脸身份信息对该人脸视频片段关联的初始人物名称进行修正,得到修正后人物名称。通过人脸身份信息来修正前述的初始人物名称,可以得到更准确的命名。
本申请实施例中,通过对音视频中音频数据进行处理,对得到的语音片段添加初始人物名称后,通过对音视频中的视频数据进行分析、处理,获取人脸视频片段的唇语文本信息和人脸身份信息,再根据音频数据的语音文本信息、唇语文本信息和人脸身份信息对人脸视频片段关联的初始人物名称进行修正,以提高命名准确性,从而改善了现有的命名方法存在的准确性低的技术问题。
以上为本申请提供的一种用于音视频人物的命名方法的一个实施例,以下为本申请提供的一种用于音视频人物的命名方法的另一个实施例。
请参考图2,本申请实施例提供的一种用于音视频人物的命名方法,包括:
步骤201、对获取的音视频进行分离处理,得到音频数据和视频数据。
步骤202、对音频数据进行人声语音检测,得到若干语音片段,并对视频数据依次进行人脸跟踪和人脸识别,得到若干携带有人脸身份信息的人脸视频片段。
步骤203、基于各语音片段的声纹特征对各语音片段添加初始人物名称,并将各语音片段的初始人物名称关联到对应的人脸视频片段。
步骤204、对各语音片段进行语音识别,得到语音文本信息,对人脸视频片段进行唇语识别,得到唇语文本信息。
步骤205、根据语音文本信息、唇语文本信息和人脸身份信息对人脸视频片段关联的初始人物名称进行修正,得到修正后人物名称。
本申请实施例中的步骤201至步骤205的具体内容与前述步骤101至步骤105的具体内容一致,在此不再进行赘述。
步骤206、将各语音文本信息输入到对话语言分析模型进行人名预测,根据预测结果修正各语音文本信息的初始人物名称。
预先收集大量的人物对话数据,提取3~5轮对话内容及人物名称、下一轮与上述对话具有强关联性对话内容以及人物名称编码成训练数据,通过该训练数据训练深度神经网络,得到对话语言分析模型。其中,当前对话内容是对前3~5轮对话具有问题回答、名词解释、问题和观点分析、理论延伸等直接或者间接的文本。
将各语音文本信息按时间顺序输入到对话语言分析模型进行人名预测,根据预测结果修正各语音文本信息的初始人物名称,得到最终人物命名。
本申请实施例中,通过对音视频中音频数据进行处理,对得到的语音片段添加初始人物名称后,通过对音视频中的视频数据进行分析、处理,获取人脸视频片段的唇语文本信息和人脸身份信息,再根据音频数据的语音文本信息、唇语文本信息和人脸身份信息对人脸视频片段关联的初始人物名称进行修正,以提高命名准确性,从而改善了现有的命名方法存在的准确性低的技术问题。
进一步,本申请在通过语音文本信息、唇语文本信息和人脸身份信息对人脸视频片段关联的初始人物名称进行修正后,进一步通过对话语言分析模型对语音文本信息进行人名预测,根据预测结果修正各语音文本信息的初始人物名称,进一步提高命名的准确性。
以上为本申请提供的一种用于音视频人物的命名方法的另一个实施例,以下为本申请提供的一种用于音视频人物的命名装置的一个实施例。
请参考图3,本申请实施例提供的一种用于音视频人物的命名装置,包括:
分离单元,用于对获取的音视频进行分离处理,得到音频数据和视频数据;
处理单元,用于对音频数据进行人声语音检测,得到若干语音片段,并对视频数据依次进行人脸跟踪和人脸识别,得到若干携带有人脸身份信息的人脸视频片段;
关联单元,用于基于各语音片段的声纹特征对各语音片段添加初始人物名称,并将各语音片段的初始人物名称关联到对应的人脸视频片段;
识别单元,用于对各语音片段进行语音识别,得到语音文本信息,对人脸视频片段进行唇语识别,得到唇语文本信息;
第一修正单元,用于根据语音文本信息、唇语文本信息和人脸身份信息对人脸视频片段关联的初始人物名称进行修正,得到修正后人物名称。
作为进一步地改进,关联单元具体用于:
对各语音片段进行特征提取,得到若干声纹特征;
对各语音片段的声纹特征进行相似度计算,并基于得到的第一相似度值对声纹特征进行聚类,得到聚类结果;
根据聚类结果对各语音片段添加初始人物名称,并将各语音片段的初始人物名称关联到对应的人脸视频片段。
作为进一步地改进,第一修正单元具体用于:
对语音文本信息和唇语文本信息进行相似度计算,得到第二相似度值;
根据大于预置阈值的第二相似度值的唇语文本信息对应的人脸视频片段的人脸身份信息,对该人脸视频片段关联的初始人物名称进行修正,得到修正后人物名称。
作为进一步地改进,还包括:
第二修正单元,用于将各语音文本信息输入到对话语言分析模型进行人名预测,根据预测结果修正各语音文本信息的初始人物名称。
本申请实施例中,通过对音视频中音频数据进行处理,对得到的语音片段添加初始人物名称后,通过对音视频中的视频数据进行分析、处理,获取人脸视频片段的唇语文本信息和人脸身份信息,再根据音频数据的语音文本信息、唇语文本信息和人脸身份信息对人脸视频片段关联的初始人物名称进行修正,以提高命名准确性,从而改善了现有的命名方法存在的准确性低的技术问题。
进一步,本申请在通过语音文本信息、唇语文本信息和人脸身份信息对人脸视频片段关联的初始人物名称进行修正后,进一步通过对话语言分析模型对语音文本信息进行人名预测,根据预测结果修正各语音文本信息的初始人物名称,进一步提高命名的准确性。
本申请实施例还提供了一种电子设备,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述方法实施例中的用于音视频人物的命名方法。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述方法实施例中的用于音视频人物的命名方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:RandomAccess Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种用于音视频人物的命名方法,其特征在于,包括:
对获取的音视频进行分离处理,得到音频数据和视频数据;
对所述音频数据进行人声语音检测,得到若干语音片段,并对所述视频数据依次进行人脸跟踪和人脸识别,得到若干携带有人脸身份信息的人脸视频片段;
基于各所述语音片段的声纹特征对各所述语音片段添加初始人物名称,并将各所述语音片段的所述初始人物名称关联到对应的所述人脸视频片段;
对各所述语音片段进行语音识别,得到语音文本信息,对所述人脸视频片段进行唇语识别,得到唇语文本信息;
根据所述语音文本信息、所述唇语文本信息和所述人脸身份信息对所述人脸视频片段关联的所述初始人物名称进行修正,得到修正后人物名称。
2.根据权利要求1所述的用于音视频人物的命名方法,其特征在于,所述基于各所述语音片段的声纹特征对各所述语音片段添加初始人物名称,包括:
对各所述语音片段进行特征提取,得到若干声纹特征;
对各所述语音片段的所述声纹特征进行相似度计算,并基于得到的第一相似度值对所述声纹特征进行聚类,得到聚类结果;
根据所述聚类结果对各所述语音片段添加初始人物名称。
3.根据权利要求1所述的用于音视频人物的命名方法,其特征在于,所述根据所述语音文本信息、所述唇语文本信息和所述人脸身份信息对所述人脸视频片段关联的所述初始人物名称进行修正,得到修正后人物名称,包括:
对所述语音文本信息和所述唇语文本信息进行相似度计算,得到第二相似度值;
根据大于预置阈值的所述第二相似度值的唇语文本信息对应的所述人脸视频片段的人脸身份信息,对该人脸视频片段关联的所述初始人物名称进行修正,得到修正后人物名称。
4.根据权利要求1所述的用于音视频人物的命名方法,其特征在于,所述根据所述语音文本信息、所述唇语文本信息和所述人脸身份信息对所述人脸视频片段关联的所述初始人物名称进行修正,得到修正后人物名称,之后还包括:
将各所述语音文本信息输入到对话语言分析模型进行人名预测,根据预测结果修正各所述语音文本信息的初始人物名称。
5.根据权利要求1所述的用于音视频人物的命名方法,其特征在于,所述对所述视频数据依次进行人脸跟踪和人脸识别,得到若干携带有人脸身份信息的人脸视频片段,包括:
将所述视频数据中的各帧图像输入到人脸跟踪模型进行人脸跟踪,获取若干帧人脸图像;
将各帧所述人脸图像输入到人脸识别模型进行人脸识别,得到各帧所述人脸图像的人脸身份信息;
根据所述人脸身份信息,将连续帧的同一人脸的所述人脸图像编码成视频,得到若干携带有人脸身份信息的人脸视频片段。
6.一种用于音视频人物的命名装置,其特征在于,包括:
分离单元,用于对获取的音视频进行分离处理,得到音频数据和视频数据;
处理单元,用于对所述音频数据进行人声语音检测,得到若干语音片段,并对所述视频数据依次进行人脸跟踪和人脸识别,得到若干携带有人脸身份信息的人脸视频片段;
关联单元,用于基于各所述语音片段的声纹特征对各所述语音片段添加初始人物名称,并将各所述语音片段的所述初始人物名称关联到对应的所述人脸视频片段;
识别单元,用于对各所述语音片段进行语音识别,得到语音文本信息,对所述人脸视频片段进行唇语识别,得到唇语文本信息;
第一修正单元,用于根据所述语音文本信息、所述唇语文本信息和所述人脸身份信息对所述人脸视频片段关联的所述初始人物名称进行修正,得到修正后人物名称。
7.根据权利要求6所述的用于音视频人物的命名装置,其特征在于,所述关联单元具体用于:
对各所述语音片段进行特征提取,得到若干声纹特征;
对各所述语音片段的所述声纹特征进行相似度计算,并基于得到的第一相似度值对所述声纹特征进行聚类,得到聚类结果;
根据所述聚类结果对各所述语音片段添加初始人物名称,并将各所述语音片段的所述初始人物名称关联到对应的所述人脸视频片段。
8.根据权利要求6所述的用于音视频人物的命名装置,其特征在于,还包括:
第二修正单元,用于将各所述语音文本信息输入到对话语言分析模型进行人名预测,根据预测结果修正各所述语音文本信息的初始人物名称。
9.一种电子设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的用于音视频人物的命名方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-5任一项所述的用于音视频人物的命名方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110604453.5A CN113362832A (zh) | 2021-05-31 | 2021-05-31 | 一种用于音视频人物的命名方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110604453.5A CN113362832A (zh) | 2021-05-31 | 2021-05-31 | 一种用于音视频人物的命名方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113362832A true CN113362832A (zh) | 2021-09-07 |
Family
ID=77530588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110604453.5A Pending CN113362832A (zh) | 2021-05-31 | 2021-05-31 | 一种用于音视频人物的命名方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362832A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387653A (zh) * | 2022-01-13 | 2022-04-22 | 平安普惠企业管理有限公司 | 视频数据处理方法、装置、设备及存储介质 |
CN114398517A (zh) * | 2021-12-31 | 2022-04-26 | 北京达佳互联信息技术有限公司 | 视频数据获取方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110505504A (zh) * | 2019-07-18 | 2019-11-26 | 平安科技(深圳)有限公司 | 视频节目处理方法、装置、计算机设备及存储介质 |
CN110717067A (zh) * | 2019-12-16 | 2020-01-21 | 北京海天瑞声科技股份有限公司 | 视频中音频聚类的处理方法和装置 |
CN110853646A (zh) * | 2019-11-20 | 2020-02-28 | 深圳前海微众银行股份有限公司 | 会议发言角色的区分方法、装置、设备及可读存储介质 |
CN111696559A (zh) * | 2019-03-15 | 2020-09-22 | 微软技术许可有限责任公司 | 提供情绪管理辅助 |
CN111785279A (zh) * | 2020-05-18 | 2020-10-16 | 北京奇艺世纪科技有限公司 | 视频说话人的识别方法、装置、计算机设备及存储介质 |
CN112565885A (zh) * | 2020-11-30 | 2021-03-26 | 清华珠三角研究院 | 一种视频分割方法、系统、设备及存储介质 |
-
2021
- 2021-05-31 CN CN202110604453.5A patent/CN113362832A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696559A (zh) * | 2019-03-15 | 2020-09-22 | 微软技术许可有限责任公司 | 提供情绪管理辅助 |
CN110505504A (zh) * | 2019-07-18 | 2019-11-26 | 平安科技(深圳)有限公司 | 视频节目处理方法、装置、计算机设备及存储介质 |
CN110853646A (zh) * | 2019-11-20 | 2020-02-28 | 深圳前海微众银行股份有限公司 | 会议发言角色的区分方法、装置、设备及可读存储介质 |
CN110717067A (zh) * | 2019-12-16 | 2020-01-21 | 北京海天瑞声科技股份有限公司 | 视频中音频聚类的处理方法和装置 |
CN111785279A (zh) * | 2020-05-18 | 2020-10-16 | 北京奇艺世纪科技有限公司 | 视频说话人的识别方法、装置、计算机设备及存储介质 |
CN112565885A (zh) * | 2020-11-30 | 2021-03-26 | 清华珠三角研究院 | 一种视频分割方法、系统、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398517A (zh) * | 2021-12-31 | 2022-04-26 | 北京达佳互联信息技术有限公司 | 视频数据获取方法及装置 |
CN114387653A (zh) * | 2022-01-13 | 2022-04-22 | 平安普惠企业管理有限公司 | 视频数据处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107562760B (zh) | 一种语音数据处理方法及装置 | |
CN106601243B (zh) | 一种视频文件识别方法及装置 | |
CN112533051A (zh) | 弹幕信息显示方法、装置、计算机设备和存储介质 | |
CN113850162B (zh) | 一种视频审核方法、装置及电子设备 | |
CN113362832A (zh) | 一种用于音视频人物的命名方法及相关装置 | |
JP2011188342A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN111444349A (zh) | 信息抽取方法、装置、计算机设备和存储介质 | |
CN107172482B (zh) | 图像互换格式图片的生成方法及装置 | |
CN113283327A (zh) | 一种视频文本生成方法、装置、设备及存储介质 | |
CN110413998B (zh) | 一种面向电力行业的自适应中文分词方法及其系统、介质 | |
CN112464036B (zh) | 一种违规数据的审核方法及装置 | |
CN112768070A (zh) | 一种基于对话交流的精神健康评测方法和系统 | |
CN111488813B (zh) | 视频的情感标注方法、装置、电子设备及存储介质 | |
CN109213974B (zh) | 一种电子文档转换方法及装置 | |
CN113936236A (zh) | 一种基于多模态特征的视频实体关系及交互识别方法 | |
CN114357206A (zh) | 基于语义分析的教育类视频彩色字幕生成方法及系统 | |
CN117939238A (zh) | 角色识别方法、系统及计算设备、计算机可读存储介质 | |
CN114943549A (zh) | 一种广告投放方法及装置 | |
CN117708290A (zh) | 问答方法、装置、电子设备和存储介质 | |
CN110570838B (zh) | 语音流处理方法和装置 | |
CN112256864A (zh) | 多意图识别的方法、装置、电子设备及可读存储介质 | |
CN114996360B (zh) | 数据分析方法、系统、可读存储介质及计算机设备 | |
KR102078541B1 (ko) | 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체 | |
CN111027557A (zh) | 一种基于题目图像的科目识别方法及电子设备 | |
CN113326829B (zh) | 视频中手势的识别方法、装置、可读存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |