CN116781856A - 基于深度学习的视听转换控制方法、系统及存储介质 - Google Patents

基于深度学习的视听转换控制方法、系统及存储介质 Download PDF

Info

Publication number
CN116781856A
CN116781856A CN202310853444.9A CN202310853444A CN116781856A CN 116781856 A CN116781856 A CN 116781856A CN 202310853444 A CN202310853444 A CN 202310853444A CN 116781856 A CN116781856 A CN 116781856A
Authority
CN
China
Prior art keywords
audio
data
lip
video
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310853444.9A
Other languages
English (en)
Inventor
张正
骆真
蔡春明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aimshi E Commerce Co ltd
Original Assignee
Shenzhen Aimshi E Commerce Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aimshi E Commerce Co ltd filed Critical Shenzhen Aimshi E Commerce Co ltd
Priority to CN202310853444.9A priority Critical patent/CN116781856A/zh
Publication of CN116781856A publication Critical patent/CN116781856A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及多媒体控制的技术领域,特别是涉及一种基于深度学习的视听转换控制方法,其能够高效地从多组别讨论会议或竞技比赛的视频中提取每个与会人员的发言视频,解决设备和工作量的问题,并提高操作效率;所述方法包括:采集相同时间节点内,不同组别的现场讨论视频信息;将视频信息转换为音频数据和图像数据;遍历音频数据,根据不同与会人员的声音特征,分别提取每个与会人员的语音信息数据;其中语音信息数据由若干段独立分割的音频组成,并且若干段独立的音频均隶属于同一个与会人员,其中每段音频均标记有时间戳;遍历图像数据,根据不同与会人员的人脸特征,分别提取每个与会人员的唇语信息数据。

Description

基于深度学习的视听转换控制方法、系统及存储介质
技术领域
本发明涉及多媒体控制的技术领域,特别是涉及一种基于深度学习的视听转换控制方法、系统及存储介质。
背景技术
在同一时间内多组别讨论会议或多组别竞技比赛的环境下,由于同一时间节点内发言人数较多,如果想要在会议或比赛之后收集每个与会人员的发言视频,现有的方法有两种,一种是为每个与会人员单独配摄像设备,此方式仅适用于与会人数较少的场景,当与会人数过多时对于设备数量及操作人员数量要求较高,难以实施;另一种是采用单一高清设备采集视频,后期通过人工进行剪辑,由于同时段发言人数较多,在后期剪辑过程中需要对音频分别进行剥离并将其与发言人员匹配,工作量很大,人工操作效率较低。
发明内容
为解决上述技术问题,本发明提供一种能够高效地从多组别讨论会议或竞技比赛的视频中提取每个与会人员的发言视频,解决设备和工作量的问题,并提高操作效率的基于深度学习的视听转换控制方法。
第一方面,本发明提供了基于深度学习的视听转换控制方法,所述方法包括:
采集相同时间节点内,不同组别的现场讨论视频信息;
将视频信息转换为音频数据和图像数据;
遍历音频数据,根据不同与会人员的声音特征,分别提取每个与会人员的语音信息数据;其中语音信息数据由若干段独立分割的音频组成,并且若干段独立的音频均隶属于同一个与会人员,其中每段音频均标记有时间戳;
遍历图像数据,根据不同与会人员的人脸特征,分别提取每个与会人员的唇语信息数据;其中唇语信息数据由若干段独立分割的图像组成,并且若干段独立的图像均隶属于同一个与会人员,其中每段图像均标记有时间戳;
利用预先构建的特征信息匹配模型对语音信息数据和唇语信息数据进行特征匹配;
利用每段音频和每段图像上标记的时间戳,将匹配成功的音频和图像对齐,得到与会人员的发言视频片段;
为每个与会人员分别建立个人视频库,将隶属于同一位与会人员的多段发言视频片段保存至相对应的个人视频库内。
另一方面,本申请还提供了基于深度学习的视听转换控制系统,所述系统包括:
数据采集模块,用于采集相同时间节点内不同组别的现场讨论视频信息,并发送;
视频处理模块,用于接收现场讨论视频信息,并将将视频信息转换为音频数据和图像数据,并发送;
语音信息提取模块,用于接收音频数据,通过遍历音频数据,根据不同与会人员的声音特征,分别提取每个与会人员的语音信息数据,并发送;
唇语信息提取模块,用于接收图像数据,通过遍历图像数据,根据不同与会人员的人脸特征,分别提取每个与会人员的唇语信息数据,并发送;
特征匹配模块,用于接收语音信息数据和唇语信息数据,并利用预先构建的特征信息匹配模型,对语音信息数据和唇语信息数据进行特征匹配,并将匹配结果发送;
视频对齐模块,用于接收匹配结果,并利用每段音频和每段图像上标记的时间戳,将匹配成功的音频和图像对齐,得到与会人员的发言视频片段,并发送;
个人视频库模块,用于接收发言视频片段,并为每个与会人员分别建立个人视频库,将隶属于同一位与会人员的多段发言视频片段保存至相应的个人视频库内。
第三方面,本申请提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现上述任意一项所述方法中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述方法中的步骤。
进一步地,所述分别提取每个与会人员的语音信息数据,包括以下方法:
对转换得到的音频数据进行预处理;
收集已知身份的语音样本,用作训练数据集;
使用深度学习技术从每个音频样本中提取特征向量;
使用准备好的训练数据集和提取的特征向量,训练深度学习模型;
利用已训练的模型,对新的音频进行语音特征识别,确定该音频中各个音轨分别所属与会人员;
对音频数据中的多个音轨进行分割,并为每个音轨添加正确的时间戳,将每个音轨标记为属于与会人员;
将每个音轨转换成文本表达,并将该文本表达标记为属于与会人员。
进一步地,所述分别提取每个与会人员的唇语信息数据,包括以下方法:
使用人脸检测算法,对图像数据进行处理,以检测出图像中的人脸区域;
使用人脸关键点检测算法定位每个检测到的人脸的关键点,包括嘴唇区域;
根据人脸关键点的位置,确定唇部区域的位置,并利用几何算法进行唇部区域提取;
对提取的唇部区域进行数据增强;
对经过数据增强后的唇部图像,提取唇部区域的特征表达;
根据提取到的唇语特征,使用训练好的唇语识别模型进行唇语的识别,将唇语映射为相应的文本表达。
进一步地,特征信息匹配模型对音频转文本表达结果和唇语转文本表达结果的匹配,包括以下方法:
对于音频转文本和唇语转文本的两个结果,进行文本预处理;
使用词嵌入模型,将文本转换为向量表示;
利用相似度度量方法,计算音频转文本向量表示和唇语图像转文本向量表示之间的相似度;
设定匹配阈值;
当计算得到的文本向量表示相似度超过或等于匹配阈值,则两个文本的相似程度达到了预设的要求,语音信息数据和唇语信息数据匹配成功;
如果相似度分数低于匹配阈值,则两个文本的相似程度未能达到预设的要求,语音信息数据和唇语信息数据匹配失败。
进一步地,利用时间戳将匹配成功的音频和图像对齐,包括以下方法:
通过时间戳来确定每个音频段和图像段的时长和起止时间;
将匹配成功的音频和图像按时间戳进行排序和对齐;
根据音频内容的时长和唇语信息的相关特征,选择对应的图像段进行匹配,并将它们合并为一个发言视频片段;
重复上述步骤,直到遍历完所有的音频和图像,并得到所有与会人员的发言视频片段。
进一步地,构建个人视频库,包括以下方法:
利用人脸检测和人脸识别技术,识别所有与会人员;
根据每个与会人员的唯一识别信息,创建独立的个人视频库;
将每个与会人员的唯一识别信息和他们的发言视频片段相关联;
将每个与会人员的发言视频片段,保存到相应的个人视频库路径下;
检查发言视频片段的时长和内容是否与原始音频和图像匹配。
进一步地,所述词嵌入模型采用自然语言处理技术。
与现有技术相比本发明的有益效果为:
1、相比于手动剪辑和匹配音频和图像的人工方法,本发明利用深度学习技术自动提取语音和唇语信息,并进行匹配和对齐,极大地减轻了人力工作量,提高了操作效率。
2、本发明适用于同一时间节点内多组别讨论会议或多组别竞技比赛的环境,能够同时处理多个与会人员的发言视频;同时能够适应不同与会人数的场景,因为该方法不需要为每个与会人员单独配备摄像设备,也不需要大量的操作人员来进行人工剪辑;使其更适用于大规模的多组别讨论会议或竞技比赛环境。
3、通过将视频信息转换为音频数据和图像数据,可以同时利用语音和唇语信息对与会人员进行识别和匹配,提供更全面的视听数据处理。
4、通过独立分割音频和图像数据,并为每段音频和图像标记时间戳,确保匹配过程准确无误,得到准确的与会人员发言视频片段。
5、针对每个与会人员,可以建立个人视频库,将与该人员相关的多段发言视频片段保存在其个人视频库中,方便后续查找和管理。
附图说明
图1是基于深度学习的视听转换控制方法的流程图;
图2是提取与会人员语音信息数据的流程图;
图3是提取与会人员唇语信息数据的流程图;
图4是构建个人视频库的流程图;
图5是基于深度学习的视听转换控制系统的模块结构示意图。
具体实施方式
在本申请的描述中,所属技术领域的技术人员应当知道,本申请可以实现为方法、装置、电子设备及计算机可读存储介质。因此,本申请可以具体实现为以下形式:完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外,在一些实施例中,本申请还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式,该计算机可读存储介质中包含计算机程序代码。
上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括:电、磁、光、电磁、红外或半导体的系统、装置或器件,或者以上任意的组合。计算机可读存储介质更具体的例子包括:便携式计算机磁盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器、闪存、光纤、光盘只读存储器、光存储器件、磁存储器件或以上任意组合。在本申请中,计算机可读存储介质可以是任意包含或存储程序的有形介质,该程序可以被指令执行系统、装置、器件使用或与其结合使用。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律的相关规定。
本申请通过流程图和/或方框图描述所提供的方法、装置、电子设备。
应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样,存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。
也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。
下面结合本申请中的附图对本申请进行描述。
实施例一
如图1至图4所示,本发明的基于深度学习的视听转换控制方法,方法包括以下步骤:
S1、采集相同时间节点内,不同组别的现场讨论视频信息;
具体的,在会议或竞技比赛场地中,安装高清摄像机,使用高清摄像机记录会议或比赛期间的整个过程;要求摄像机将面向会议或比赛场地,以便能够捕捉到不同组别的讨论区域或比赛场地上的与会人员;其中,对高清摄像机的数量要求为:只要满足能够将整个会议或比赛现场中所有与会人员的面部采集到即可。
摄像头实时采集视频流,并将其保存为原始视频文件;每个摄像头生成的视频文件应包含时间戳信息,用于后续的数据匹配和对齐;针对不同组别的讨论或比赛,需要将相应的摄像头视频进行同步;通过使用时间戳将不同组别的视频进行对齐,使用网络时间协议或其他时间同步方法来实现,确保它们在时间上是一致的。另外,将同步后的视频存储在适当的存储设备或云平台中,确保数据的安全性和可访问性。
由于本步骤涉及到场地布置和视频数据采集,因此需要根据实际情况进行细致的规划和设计;确保摄像头的位置选择合适,能够有效地捕捉到与会人员的讨论或比赛活动,并保证视频质量的可靠性;此外,采集的视频数据应具备一定的分辨率和帧率,以便后续的音频和图像数据处理及匹配。
S2、将视频信息转换为音频数据和图像数据;
具体的,S1中采集的视频以特定编码格式存储,如H.264、MPEG-4等;首先,使用视频解码器,如FFmpeg、OpenCV等,将视频文件解码成一系列连续的帧;解码后的视频包含一系列图像帧;通过逐帧处理视频,将每一帧图像分离出来;使用音频提取工具,如FFmpeg、OpenCV等,从视频中提取音频轨道;通过解码后的视频文件直接获取音频信号,或者将原始视频文件中的音频流提取出来。
对每一帧图像进行图像处理,提取需要的信息;利用人脸检测和识别、关键点检测、唇语识别等技术;常用的方法包括使用人脸检测器,如OpenCV、Dlib等,检测图像中的人脸,并根据人脸特征进行识别;此外,还可以使用目标识别和跟踪算法对特定的部位对象进行跟踪和提取,例如唇部区域;
对从视频中提取的音频进行处理;包括语音信号的分帧、特征提取或模型预测;分帧是将音频信号切分成小的时间窗口,通常使用短时傅里叶变换来将时域信号转换为频域表示;然后,通过语音特征提取算法,如Mel频谱特征,提取音频的语音特征;
需要注意的是,S2步骤中的具体实现方法需要根据具体的场景和需求进行调整;例如,如果视频中的人脸都是清晰可见的,并且音频质量良好,那么可以直接使用人脸检测和语音识别算法进行处理;但如果视频质量较差或存在遮挡问题,可能需要使用更复杂的图像处理和音频处理算法;总之,S2步骤的目标是从视频中提取音频数据和图像数据,可以借助视频解码、帧分离、音频提取、图像处理和音频处理等技术方法来实现;具体的实现方案需要根据具体的应用场景和需求进行综合考虑和调整。
S3、遍历音频数据,根据不同与会人员的声音特征,分别提取每个与会人员的语音信息数据;其中语音信息数据由若干段独立分割的音频组成,并且若干段独立的音频均隶属于同一个与会人员,其中每段音频均标记有时间戳;
在S3步骤中,实现遍历音频数据,并根据不同与会人员的声音特征,分别提取每个与会人员的语音信息数据的关键是使用深度学习技术进行声纹识别;声纹识别是一种用于识别和验证个体身份的技术,类似于指纹识别或人脸识别;具体包括以下步骤:
S31、数据预处理:将采集得到的音频数据进行预处理;可以使用一些音频处理技术,如降噪、去除杂音和回声等,以提高声音质量;
S32、训练数据集准备:为了进行声纹识别,需要有一组已知身份的语音样本,并将其用作训练数据集;这些样本应该包括每个与会人员的语音录音;训练数据集可以通过对与会人员参会之前的电话确认进行录音或要求每位与会人员录制语音自我介绍等方式进行收集;
S33、特征提取:使用深度学习技术从每个音频样本中提取特征向量;常用的方法是使用卷积神经网络或循环神经网络对音频进行特征提取,例如使用Mel频谱特征或梅尔频率倒谱系数;
S34、模型训练:使用准备好的训练数据集和提取的特征向量,训练一个深度学习模型,如卷积神经网络或循环神经网络,来学习对不同声纹特征进行编码和识别;
S35、语音特征匹配:根据已训练的模型,对新的音频进行语音特征匹配;对于每个与会人员,通过将其提取的特征向量与训练模型中对应的声纹特征进行比对,可以确定该音频中各个音轨分别所属的与会人员;
S36、分割和标记:对一段音频中的多个音轨进行分割,并为每个音轨添加正确的时间戳,将每个音轨标记为属于与会人员;这样就能够将每个人的发言片段与其声纹特征进行关联;
S37、音频识别和转换:音频识别涉及将语音信号转换为相应的文本表示;通过采用深度学习技术,训练一个以音轨作为输入、输出对应文字的深度学习模型,并使用大规模的标注语音数据进行训练;该模型通过学习到音频特征和文本之间的映射关系,从而能够将每个音轨转换成文本表达,并将该文本表达标记为属于与会人员。
在本步骤中,通过使用深度学习进行声纹识别,可以实现对音频数据的自动处理和分析,消除了对人工操作的需求,提高了处理效率;通过将音频数据分别提取为独立的音频段,并根据声音特征将其分配给不同的与会人员,可以实现高效的语音信息提取和分类,减少了后续处理的复杂性;每段音频均标记有时间戳,确保了语音信息数据和与会人员之间的对齐,方便后续的音频与图像匹配;能够有效地将多个与会人员的语音信息从混合的音频数据中提取出来,并进行个体化的处理,为后续的人工操作和发言视频的生成提供了重要的基础。
S4、遍历图像数据,根据不同与会人员的人脸特征,分别提取每个与会人员的唇语信息数据;其中唇语信息数据由若干段独立分割的图像组成,并且若干段独立的图像均隶属于同一个与会人员,其中每段图像均标记有时间戳;
当设计S4步骤中的图像数据遍历过程以提取每个与会人员的唇语信息数据时,通过以下详细步骤进行实现:
S41、人脸检测与定位:使用先进的人脸检测算法,例如基于深度学习的人脸检测器,对每一帧的图像数据进行处理,以检测出图像中的人脸区域;这些算法能够识别人脸的位置和边界框;
S42、人脸关键点定位:一旦人脸被检测到,使用人脸关键点检测算法定位每个检测到的人脸的关键点,包括嘴唇区域;这些关键点可以表示人脸的特征点位置;
S43、唇部区域提取:根据人脸关键点的位置,确定唇部区域的位置;这可以通过选择合适的关键点进行裁剪或者利用形状模型和几何算法进行精确的唇部区域提取;
S44、数据增强:为了提高模型的鲁棒性和模型的泛化能力,可以对提取的唇部区域进行数据增强操作,例如旋转、缩放、平移、亮度调整等;这样可以增加唇语模型对于多样唇部外观和环境变化的适应能力;
S45、唇语特征提取:对经过数据增强后的唇部图像,应用深度学习模型或其他特征提取算法,提取唇部区域的特征表达;这些特征可以是基于卷积神经网络的特征,也可以是传统的图像特征表示;
S46、唇语识别:根据提取到的唇语特征,使用训练好的唇语识别模型进行唇语的识别和分类;唇语识别模型可以是基于深度学习的模型,如卷积神经网络或循环神经网络,也可以是传统的机器学习模型;模型经过训练,能够将唇语映射为相应的文本表达。
在本步骤中,本步骤能够准确地从视频中提取唇语信息,并将其分割为独立的图像片段;这种高效的唇语信息提取可以为后续的处理和分析提供清晰、可操作的数据。通过为每个图像片段都标记时间戳,以指示其在视频中的时间位置,这些时间标记使得对唇语信息和声音信息之间的对齐和匹配变得更加准确和可靠。通过将唇语信息数据分割成若干段独立的图像片段便于对每个与会人员进行个别处理和分析。这种个别处理能够更好地了解每个与会人员的唇语表达,有助于提高数据的准确性和可靠性。
S5、利用预先构建的特征信息匹配模型对语音信息数据和唇语信息数据进行特征匹配;
具体在本步骤中,S3中已经将语音信息数据中的音频转换成文本表达;S4中已经将唇语信息数据中的唇部动作图像转换成文本表达;特征信息匹配模型对于音频转文本表达结果和唇语图像转文本表达结果的匹配,包括以下步骤:
S51、预处理文本数据:对于音频转文本和唇语图像转文本的两个结果,首先需要对文本进行预处理,包括去除标点符号、转换为小写字母、去除停用词等;这样可以减少噪声和干扰,提取文本的关键信息;
S52、构建文本表示向量:使用词嵌入模型,如Word2Vec、GloVe或BERT,将文本转换为向量表示;通过以上模型将词或文本形式的语义信息编码为低维向量;通过这种方式,文本可以在向量空间中进行比较和匹配;
S53、计算文本相似度:使用相似度度量方法,如余弦相似度、欧几里得距离或编辑距离,计算音频转文本和唇语图像转文本之间的相似度;这些度量方法可以根据向量表示之间的距离或相似度来衡量文本的相似性;通常,相似度值越高表示匹配程度越高;
S54、设定匹配阈值:根据实际情况和需求,设定一个合适的匹配阈值;匹配阈值是用来判断两个文本表示之间是否足够相似以进行匹配的界限;当计算得到的文本相似度超过或等于匹配阈值,则可以认为两个文本表示是匹配的,这意味着它们之间的相似程度达到了预设的要求;如果相似度分数低于匹配阈值,则可以认为两个文本表示不匹配,这表示它们之间的相似程度不够高,不满足匹配的要求。
需要注意的是,选择合适的文本表示模型和相似度度量方法取决于具体的应用场景和需求;在实践中,可以根据实验结果进行调试和优化,以获得最佳的匹配效果。
S6、利用每段音频和每段图像上标记的时间戳,将匹配成功的音频和图像对齐,得到与会人员的发言视频片段;
在本步骤,需要利用S5中已匹配成功的音频和图像数据,以及它们对应的时间戳,将它们对齐以得到与会人员的发言视频片段;具体包括以下步骤:
S61、通过时间戳来确定每个音频段和图像段的时长和起止时间;这些时间信息能够帮助在后续的对齐过程中进行准确的切割和匹配;
S62、针对每个与会人员,将匹配成功的音频数据和图像数据按时间戳进行排序和对齐;通过使用时间戳信息来确保每个音频和图像都能正确对应到相应的时间段;
S63、对于每个时间段,根据音频内容的时长和唇语信息的相关特征,选择对应的图像段进行匹配,并将它们合并为一个发言视频片段;
S64、重复上述步骤,直到遍历完所有的音频和图像数据,并得到所有与会人员的发言视频片段。
通过利用时间戳和预先构建的特征信息匹配模型,能够自动对音频和图像数据进行对齐;自动化对齐过程能够减少人工干预,提高效率,并且降低了对操作人员的要求,使得整个流程更容易实施。通过对音频和图像数据进行时间戳对齐,并根据音频内容和唇语信息进行匹配,可以精确提取出每个与会人员的发言视频片段;有助于获取更精细的个人发言信息,以便后续整理、分析和利用。
S7、为每个与会人员分别建立个人视频库,将隶属于同一位与会人员的多段发言视频片段保存至相对应的个人视频库内;
当构建个人视频库时,包括以下步骤:
S71、识别与会人员:首先,使用人脸检测和人脸识别技术,在会议或比赛的视频中识别出每个与会人员的面部;通过使用深度学习模型,如卷积神经网络或基于特征的方法,如主成分分析或局部二值模式等算法来实现;人脸识别模型会根据先前训练好的数据来确定与会人员的身份;
S72、创建个人视频库:根据每个与会人员的唯一识别信息,例如姓名、ID等,为他们创建一个独立的个人视频库;这可以是一个文件夹或数据库,用于存储与会人员的发言视频片段;每个个人视频库应该具有唯一的标识符和对应的存储路径;
S73、组织个人视频库:将每个与会人员的唯一识别信息和他们的发言视频片段相关联;通过使用数据结构,如字典或数据库表格,来记录每个与会人员的信息,并将其与相应的发言视频片段关联起来;便于后续管理和检索个人视频库;
S74、存储发言视频片段:对于每个与会人员的发言视频片段,将其保存到相应的个人视频库路径下;将匹配成功的音频和图像片段合并为一个发言视频片段,并将其保存到个人视频库中;通过使用视频处理库或框架,如OpenCV、FFmpeg等,来实现视频片段的合并和保存;
S75、确认准确性:在将发言视频片段存储到个人视频库之后,需要进一步验证,以确保视频片段的准确性和完整性;例如,通过检查视频片段的时长和内容是否与原始音频和图像匹配,以确保没有出现处理错误。
在本步骤中,为每个与会人员分别建立个人视频库;每个个人视频库将包含该与会人员的所有发言视频片段,并且可以轻松地进行检索、浏览和分析;能够便于管理和使用与会人员的发言内容,并进行进一步的处理和分析。
实施例二
如图5所示,本发明的基于深度学习的视听转换控制系统,系统包括:
数据采集模块,用于采集相同时间节点内不同组别的现场讨论视频信息,并发送;
视频处理模块,用于接收现场讨论视频信息,并将将视频信息转换为音频数据和图像数据,并发送;
语音信息提取模块,用于接收音频数据,通过遍历音频数据,根据不同与会人员的声音特征,分别提取每个与会人员的语音信息数据,并发送;
唇语信息提取模块,用于接收图像数据,通过遍历图像数据,根据不同与会人员的人脸特征,分别提取每个与会人员的唇语信息数据,并发送;
特征匹配模块,用于接收语音信息数据和唇语信息数据,并利用预先构建的特征信息匹配模型,对语音信息数据和唇语信息数据进行特征匹配,并将匹配结果发送;
视频对齐模块,用于接收匹配结果,并利用每段音频和每段图像上标记的时间戳,将匹配成功的音频和图像对齐,得到与会人员的发言视频片段,并发送;
个人视频库模块,用于接收发言视频片段,并为每个与会人员分别建立个人视频库,将隶属于同一位与会人员的多段发言视频片段保存至相应的个人视频库内。
在本实施例中,相较于为每个与会人员单独配摄像设备的方式,该系统使用单一高清设备采集视频,大大减少了需要的摄像设备数量和操作人员数量。
传统的剪辑过程需要对每个参与者的音频进行剥离,并将其与对应的参与者匹配;该系统通过语音信息提取模块和唇语信息提取模块,自动分别提取每个与会人员的语音信息和唇语信息数据,减少了人工操作和剪辑工作量。
系统通过深度学习模型提取并匹配语音和唇语信息数据,实现自动化的特征匹配,从而大大提高了操作效率并减少了人工操作的时间消耗。
系统采用数据采集模块和视频处理模块,能够实时采集和处理现场讨论视频信息;通过特征匹配模块和视频对齐模块,系统能够根据语音和唇语信息数据精确匹配每个参与者的发言视频片段,保证了收集的视频信息的实时性和准确性。
系统通过个人视频库模块,为每个与会人员建立个人视频库,将相应的发言视频片段保存在各自的视频库中,以便后续管理和使用。
综上所述,该系统通过自动化的数据处理和匹配流程,有效地解决了多组别讨论会议或竞技比赛环境下发言视频收集的问题,减少了设备和操作人员的需求,提高了操作效率和收集的视频信息的准确性;同时,对于后续的管理和使用,系统通过个人视频库模块提供了便利。
前述实施例一中的基于深度学习的视听转换控制方法的各种变化方式和具体实施例同样适用于本实施例的基于深度学习的视听转换控制系统,通过前述对基于深度学习的视听转换控制方法的详细描述,本领域技术人员可以清楚的知道本实施例中基于深度学习的视听转换控制系统的实施方法,所以为了说明书的简洁,在此不再详述。
此外,本申请还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述控制输出数据的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (10)

1.一种基于深度学习的视听转换控制方法,其特征在于,所述方法包括:
采集相同时间节点内,不同组别的现场讨论视频信息;
将视频信息转换为音频数据和图像数据;
遍历音频数据,根据不同与会人员的声音特征,分别提取每个与会人员的语音信息数据;其中语音信息数据由若干段独立分割的音频组成,并且若干段独立的音频均隶属于同一个与会人员,其中每段音频均标记有时间戳;
遍历图像数据,根据不同与会人员的人脸特征,分别提取每个与会人员的唇语信息数据;其中唇语信息数据由若干段独立分割的图像组成,并且若干段独立的图像均隶属于同一个与会人员,其中每段图像均标记有时间戳;
利用预先构建的特征信息匹配模型对语音信息数据和唇语信息数据进行特征匹配;
利用每段音频和每段图像上标记的时间戳,将匹配成功的音频和图像对齐,得到与会人员的发言视频片段;
为每个与会人员分别建立个人视频库,将隶属于同一位与会人员的多段发言视频片段保存至相对应的个人视频库内。
2.如权利要求1所述的基于深度学习的视听转换控制方法,其特征在于,所述分别提取每个与会人员的语音信息数据,包括以下方法:
对转换得到的音频数据进行预处理;
收集已知身份的语音样本,用作训练数据集;
使用深度学习技术从每个音频样本中提取特征向量;
使用准备好的训练数据集和提取的特征向量,训练深度学习模型;
利用已训练的模型,对新的音频进行语音特征识别,确定该音频中各个音轨分别所属与会人员;
对音频数据中的多个音轨进行分割,并为每个音轨添加正确的时间戳,将每个音轨标记为所属与会人员;
将每个音轨转换成文本表达,并将该文本表达标记为所属与会人员。
3.如权利要求2所述的基于深度学习的视听转换控制方法,其特征在于,所述分别提取每个与会人员的唇语信息数据,包括以下方法:
使用人脸检测算法,对图像数据进行处理,以检测出图像中的人脸区域;
使用人脸关键点检测算法定位每个检测到的人脸的关键点,包括嘴唇区域;
根据人脸关键点的位置,确定唇部区域的位置,并利用几何算法进行唇部区域提取;
对提取的唇部区域进行数据增强;
对经过数据增强后的唇部图像,提取唇部区域的特征表达;
根据提取到的唇语特征,使用训练好的唇语识别模型进行唇语的识别,将唇语映射为相应的文本表达。
4.如权利要求3所述的基于深度学习的视听转换控制方法,其特征在于,特征信息匹配模型对音频转文本表达结果和唇语转文本表达结果的匹配,包括以下方法:
对于音频转文本和唇语转文本的两个结果,进行文本预处理;
使用词嵌入模型,将文本转换为向量表示;
利用相似度度量方法,计算音频转文本向量表示和唇语图像转文本向量表示之间的相似度;
设定匹配阈值;
当计算得到的文本向量表示相似度超过或等于匹配阈值,则两个文本的相似程度达到了预设的要求,语音信息数据和唇语信息数据匹配成功;
如果相似度分数低于匹配阈值,则两个文本的相似程度未能达到预设的要求,语音信息数据和唇语信息数据匹配失败。
5.如权利要求4所述的基于深度学习的视听转换控制方法,其特征在于,利用时间戳将匹配成功的音频和图像对齐,包括以下方法:
通过时间戳来确定每个音频段和图像段的时长和起止时间;
将匹配成功的音频和图像按时间戳进行排序和对齐;
根据音频内容的时长和唇语信息的相关特征,选择对应的图像段进行匹配,并将它们合并为一个发言视频片段;
重复上述步骤,直到遍历完所有的音频和图像,并得到所有与会人员的发言视频片段。
6.如权利要求1所述的基于深度学习的视听转换控制方法,其特征在于,构建个人视频库,包括以下方法:
利用人脸检测和人脸识别技术,识别所有与会人员;
根据每个与会人员的唯一识别信息,创建独立的个人视频库;
将每个与会人员的唯一识别信息和他们的发言视频片段相关联;
将每个与会人员的发言视频片段,保存到相应的个人视频库路径下;
检查发言视频片段的时长和内容是否与原始音频和图像匹配。
7.如权利要求4所述的基于深度学习的视听转换控制方法,其特征在于,所述词嵌入模型采用自然语言处理技术。
8.一种基于深度学习的视听转换控制系统,其特征在于,所述系统包括:
数据采集模块,用于采集相同时间节点内不同组别的现场讨论视频信息,并发送;
视频处理模块,用于接收现场讨论视频信息,并将将视频信息转换为音频数据和图像数据,并发送;
语音信息提取模块,用于接收音频数据,通过遍历音频数据,根据不同与会人员的声音特征,分别提取每个与会人员的语音信息数据,并发送;
唇语信息提取模块,用于接收图像数据,通过遍历图像数据,根据不同与会人员的人脸特征,分别提取每个与会人员的唇语信息数据,并发送;
特征匹配模块,用于接收语音信息数据和唇语信息数据,并利用预先构建的特征信息匹配模型,对语音信息数据和唇语信息数据进行特征匹配,并将匹配结果发送;
视频对齐模块,用于接收匹配结果,并利用每段音频和每段图像上标记的时间戳,将匹配成功的音频和图像对齐,得到与会人员的发言视频片段,并发送;
个人视频库模块,用于接收发言视频片段,并为每个与会人员分别建立个人视频库,将隶属于同一位与会人员的多段发言视频片段保存至相应的个人视频库内。
9.一种基于深度学习的视听转换控制的电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述方法中的步骤。
10.一种基于深度学习的视听转换控制方法的计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述方法中的步骤。
CN202310853444.9A 2023-07-12 2023-07-12 基于深度学习的视听转换控制方法、系统及存储介质 Pending CN116781856A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310853444.9A CN116781856A (zh) 2023-07-12 2023-07-12 基于深度学习的视听转换控制方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310853444.9A CN116781856A (zh) 2023-07-12 2023-07-12 基于深度学习的视听转换控制方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN116781856A true CN116781856A (zh) 2023-09-19

Family

ID=88009862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310853444.9A Pending CN116781856A (zh) 2023-07-12 2023-07-12 基于深度学习的视听转换控制方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN116781856A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170323655A1 (en) * 2011-06-17 2017-11-09 At&T Intellectual Property I, L.P. Speaker association with a visual representation of spoken content
CN108305632A (zh) * 2018-02-02 2018-07-20 深圳市鹰硕技术有限公司 一种会议的语音摘要形成方法及系统
CN110853646A (zh) * 2019-11-20 2020-02-28 深圳前海微众银行股份有限公司 会议发言角色的区分方法、装置、设备及可读存储介质
CN111651632A (zh) * 2020-04-23 2020-09-11 深圳英飞拓智能技术有限公司 视频会议中发言人音视频输出方法及装置
CN112148922A (zh) * 2019-06-28 2020-12-29 鸿富锦精密工业(武汉)有限公司 会议记录方法、装置、数据处理设备及可读存储介质
CN112565885A (zh) * 2020-11-30 2021-03-26 清华珠三角研究院 一种视频分割方法、系统、设备及存储介质
CN114298170A (zh) * 2021-12-08 2022-04-08 上海交通大学 一种多模态会议数据结构化方法、装置及计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170323655A1 (en) * 2011-06-17 2017-11-09 At&T Intellectual Property I, L.P. Speaker association with a visual representation of spoken content
CN108305632A (zh) * 2018-02-02 2018-07-20 深圳市鹰硕技术有限公司 一种会议的语音摘要形成方法及系统
CN112148922A (zh) * 2019-06-28 2020-12-29 鸿富锦精密工业(武汉)有限公司 会议记录方法、装置、数据处理设备及可读存储介质
CN110853646A (zh) * 2019-11-20 2020-02-28 深圳前海微众银行股份有限公司 会议发言角色的区分方法、装置、设备及可读存储介质
CN111651632A (zh) * 2020-04-23 2020-09-11 深圳英飞拓智能技术有限公司 视频会议中发言人音视频输出方法及装置
CN112565885A (zh) * 2020-11-30 2021-03-26 清华珠三角研究院 一种视频分割方法、系统、设备及存储介质
CN114298170A (zh) * 2021-12-08 2022-04-08 上海交通大学 一种多模态会议数据结构化方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
US10497382B2 (en) Associating faces with voices for speaker diarization within videos
Makino et al. Recurrent neural network transducer for audio-visual speech recognition
Chung et al. Learning to lip read words by watching videos
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
CN106297776B (zh) 一种基于音频模板的语音关键词检索方法
CN106601243B (zh) 一种视频文件识别方法及装置
JP2001092974A (ja) 話者認識方法及びその実行装置並びに音声発生確認方法及び装置
CN111785275A (zh) 语音识别方法及装置
WO2023197979A1 (zh) 一种数据处理方法、装置、计算机设备及存储介质
WO2021120190A1 (zh) 数据处理方法、装置、电子设备和存储介质
CN113327619B (zh) 一种基于云—边缘协同架构的会议记录方法及系统
Liu et al. MSDWild: Multi-modal Speaker Diarization Dataset in the Wild.
CN116708055B (zh) 智能多媒体视听图像处理方法、系统及存储介质
Leonzio et al. Audio splicing detection and localization based on acquisition device traces
Ahmad et al. Speech enhancement for multimodal speaker diarization system
CN116781856A (zh) 基于深度学习的视听转换控制方法、系统及存储介质
CN115831124A (zh) 一种基于声纹识别的会议记录角色分离系统及方法
CN113889081A (zh) 语音识别方法、介质、装置和计算设备
CN211788155U (zh) 智能会议记录系统
CN114495946A (zh) 声纹聚类方法、电子设备和存储介质
Kunka et al. Multimodal English corpus for automatic speech recognition
Hukkeri et al. Erratic navigation in lecture videos using hybrid text based index point generation
Chaloupka A prototype of audio-visual broadcast transcription system
Liu et al. End-to-End Chinese Lip-Reading Recognition Based on Multi-modal Fusion
CN117854507A (zh) 语音识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination