CN110719436A - 一种会议文档信息获取方法、装置及其相关设备 - Google Patents

一种会议文档信息获取方法、装置及其相关设备 Download PDF

Info

Publication number
CN110719436A
CN110719436A CN201910989409.3A CN201910989409A CN110719436A CN 110719436 A CN110719436 A CN 110719436A CN 201910989409 A CN201910989409 A CN 201910989409A CN 110719436 A CN110719436 A CN 110719436A
Authority
CN
China
Prior art keywords
conference
audio
feature
features
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910989409.3A
Other languages
English (en)
Other versions
CN110719436B (zh
Inventor
谌明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tonghuashun Intelligent Technology Co Ltd
Original Assignee
Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Tonghuashun Intelligent Technology Co Ltd filed Critical Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority to CN201910989409.3A priority Critical patent/CN110719436B/zh
Publication of CN110719436A publication Critical patent/CN110719436A/zh
Application granted granted Critical
Publication of CN110719436B publication Critical patent/CN110719436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种会议文档信息获取方法,包括采集会议视频信息和会议音频信息;对所述会议视频信息进行特征提取,获得对应的唇语特征和文本特征;对所述会议音频信息进行特征提取,获得对应的音频特征;对所述唇语特征、所述文本特征和所述音频特征进行特征融合,获得融合特征;对所述融合特征进行处理,获得会议文档信息;该会议文档信息获取方法可以在保证会议记录效率的同时,提高会议记录的全面性和准确性。本申请还公开了一种会议文档信息获取装置、设备及计算机可读存储介质,均具有上述有益效果。

Description

一种会议文档信息获取方法、装置及其相关设备
技术领域
本申请涉及多媒体技术领域,特别涉及一种会议文档信息获取方法,还涉及一种会议文档信息获取装置、设备以及计算机可读存储介质。
背景技术
在视频会议中,有效、有质量地整理会议中的视频、音频、PPT等信息,以形成完整的文字记录材料尤为重要。传统的会议转录方法主要包括通过纸笔进行人工记录和基于语音识别技术的自动化记录。
对于通过纸笔进行人工记录的方法效率极为低下;基于语音识别技术的自动化记录方法,获得的也只是单一语音模态下的转录文档,没有会议场景中的其他信息,如PPT信息的补充等,同样存在信息记录不全的问题,而且,当语音环境较为嘈杂时,语音识别的准确率会明显下降,从而导致会议记录出现不准确的问题。
因此,如何在保证会议记录效率的同时,提高会议记录的全面性和准确性是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种会议文档信息获取方法,该会议文档信息获取方法可以在保证会议记录效率的同时,提高会议记录的全面性和准确性;本申请的另一目的是提供一种会议文档信息获取装置、设备以及计算机可读存储介质,也具有上述有益效果。
为解决上述技术问题,本申请提供了一种会议文档信息获取方法,所述会议文档信息获取方法包括:
采集会议视频信息和会议音频信息;
对所述会议视频信息进行特征提取,获得对应的唇语特征和文本特征;
对所述会议音频信息进行特征提取,获得对应的音频特征;
对所述唇语特征、所述文本特征和所述音频特征进行特征融合,获得融合特征;
对所述融合特征进行处理,获得会议文档信息。
优选的,所述会议文档信息获取方法还包括:
根据所述会议视频信息获得第一音频信号;
所述对所述会议音频信息进行特征提取,获得对应的音频特征,包括:
根据所述会议音频信息获得第二音频信号;
对所述第一音频信号和所述第二音频信号进行强制对齐处理,获得统一音频信号;
对所述统一音频信号进行特征提取,获得所述音频特征。
优选的,所述对所述统一音频信号进行特征提取,获得所述音频特征,包括:
利用移动窗函数对所述统一音频信号进行分帧处理,获得分帧后的音频信号;
对所述音频信号进行编码处理,获得所述音频特征。
优选的,对所述会议视频信息进行特征提取,获得对应的唇语特征,包括:
对所述会议视频信息进行分帧处理,获得分帧后的图像帧;
在所有所述图像帧中采样获得面部图像帧;
对所述面部图像帧进行面部追踪,获得唇部动作图像;
对所述唇部动作图像进行landmark点检测,获得检测信息;
对所述检测信息进行编码处理,获得所述唇语特征。
优选的,对所述会议视频信息进行特征提取,获得对应的文本特征,包括:
在所有所述图像帧中采样获得文本图像帧;
对所述文本图像帧进行文本定位,获得文本图像;
对所述文本图像进行文本识别,获得文本信息;
对所述文本信息进行编码处理,获得所述文本特征。
优选的,所述对所述唇语特征、所述文本特征和所述音频特征进行特征融合,获得融合特征,包括:
利用多头注意网络对所述唇语特征、所述文本特征和所述音频特征进行加权融合,获得所述融合特征。
优选的,所述会议文档信息获取方法还包括:
对所述会议视频信息、所述会议音频信息以及所述会议文档信息进行存储。
为解决上述技术问题,本申请还提供了一种会议文档信息获取装置,所述会议文档信息获取装置包括:
信息采集模块,用于采集会议视频信息和会议音频信息;
第一特征提取模块,用于对所述会议视频信息进行特征提取,获得对应的唇语特征和文本特征;
第二特征提取模块,用于对所述会议音频信息进行特征提取,获得对应的音频特征;
特征融合模块,用于对所述唇语特征、所述文本特征和所述音频特征进行特征融合,获得融合特征;
会议记录模块,用于对所述融合特征进行处理,获得会议文档信息。
为解决上述技术问题,本申请还提供了一种会议文档信息获取设备,所述会议文档信息获取设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任意一种会议文档信息获取方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种会议文档信息获取方法的步骤。
本申请所提供的一种会议文档信息获取方法,包括采集会议视频信息和会议音频信息;对所述会议视频信息进行特征提取,获得对应的唇语特征和文本特征;对所述会议音频信息进行特征提取,获得对应的音频特征;对所述唇语特征、所述文本特征和所述音频特征进行特征融合,获得融合特征;对所述融合特征进行处理,获得会议文档信息。
可见,本申请所提供的会议文档信息获取方法,基于多模态特征实现了会议记录,该多模态特征包括音频特征、唇语特征以及文本特征,通过将多模态特征进行融合,并将融合特征转换为会议记录文档,完成会议记录,避免了信息遗漏,有效提高了会议记录的全面性和准确性,而且,该种实现方式无需人工手动操作,有效保证了会议记录效率。
本申请所提供的一种会议文档信息获取装置、设备以及计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请所提供的一种会议文档信息获取方法的流程示意图;
图2为本申请所提供的一种会议文档信息获取系统架构图;
图3为本申请所提供的一种会议文档信息获取系统中计算模块的结构示意图;
图4为本申请所提供的一种音频编码流程图;
图5为本申请所提供的一种图像编码流程图;
图6为本申请所提供的一种文本编码流程图;
图7为本申请所提供的一种特征信息解码流程图;
图8为本申请所提供的一种会议文档信息获取装置的结构示意图;
图9为本申请所提供的一种会议文档信息获取设备的结构示意图。
具体实施方式
本申请的核心是提供一种会议文档信息获取方法,该会议文档信息获取方法可以在保证会议记录效率的同时,提高会议记录的全面性和准确性;本申请的另一核心是提供一种会议文档信息获取装置、设备以及计算机可读存储介质,也具有上述有益效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参考图1,图1为本申请所提供的一种会议文档信息获取方法的流程示意图,该会议文档信息获取方法可以包括:
S100:采集会议视频信息和会议音频信息;
本步骤旨在实现会议视频信息和会议音频信息的采集,即对会议过程中的视频信息和音频信息进行采集,可分别通过视频采集设备和音频采集设备实现。具体的,在会议开启时,处理器响应会议记录指令,进而基于该指令启动视频采集设备和音频采集设备,从而获得会议视频信息和会议音频信息。其中,上述会议记录指令的获取方式并不唯一,可在会议开始时由工作人员通过相应的终端设备输入,也可在会议开始时自动触发,本申请对此不做限定。
另外,上述视频采集设备和音频采集设备的种类和型号并不影响本技术方案的实施,能够实现会议视频信息和会议音频信息的采集即可,视频采集设备如全景摄像头,音频采集设备如电容型麦克风等,本申请对此同样不做限定。
S200:对会议视频信息进行特征提取,获得对应的唇语特征和文本特征;
本步骤旨在对会议视频信息进行特征提取,以获得与会人员的唇语特征和会议终端的文本特征,其中,与会人员即为参加会议的工作人员,其数量并不唯一,会议终端即为会议中所使用的终端设备,其数量同样不唯一。而对于特征提取的方法,可采用已有技术中的任意一种,本申请对此不做限定。
优选的,上述对会议视频信息进行特征提取,获得对应的唇语特征,可以包括:对会议视频信息进行分帧处理,获得分帧后的图像帧;在所有图像帧中采样获得面部图像帧;对面部图像帧进行面部追踪,获得唇部动作图像;对唇部动作图像进行landmark点检测,获得检测信息;对检测信息进行编码处理,获得所述唇语特征。
本优选实施例提供了一种较为具体的唇语特征的提取方法,对于采集到的会议视频信息,可依次进行分帧、采样、面部追踪、唇部检测以及图像编码处理,即可获得相应的唇语特征。其中,分帧过程可利用OpenCV(Open Source Computer Vision Library,开源计算机视觉库)实现,面部追踪过程可利用时空卷积网络实现,唇部检测可利用DCNN(DeepConvolutional Neural Networks,深度卷积神经网络)实现。
可以理解的是,以上各技术的选用仅为本申请实施例所提供的一种实现方式,并不唯一,采用已有技术中的任意一种均可实现,具体由技术人员根据实际情况进行选择即可。
优选的,上述对会议视频信息进行特征提取,获得对应的文本特征,可以包括:在所有图像帧中采样获得文本图像帧;对文本图像帧进行文本定位,获得文本图像;对文本图像进行文本识别,获得文本信息;对文本信息进行编码处理,获得文本特征。
本优选实施例提供了一种较为具体的文本特征的提取方法,对于采集到的会议视频信息,在进行分帧处理后,同样进行采样处理,获得文本图像帧,再依次进行文本定位、文本识别以及文本编码处理,即可获得相应的文本特征。其中,文本定位可利用连接文本提议网络实现,文本识别可利用CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)实现。
同样的,以上各技术的使用仅为本申请实施例所提供的一种实现方式,并不唯一,采用已有技术中的任意一种均可实现,具体由技术人员根据实际情况进行选择即可。
S300:对会议音频信息进行特征提取,获得对应的音频特征;
本步骤旨在对会议音频信息进行特征提取,以获得与会人员的音频特征,类似于上述对会议视频信息的特征提取,其具体的特征提取方法,可采用已有技术中的任意一种,本申请对此不做限定。
作为一种优选实施例,该会议文档信息获取方法还可以包括:根据会议视频信息获得第一音频信号;则上述对会议音频信息进行特征提取,获得对应的音频特征,可以包括:根据会议音频信息获得第二音频信号;对第一音频信号和第二音频信号进行强制对齐处理,获得统一音频信号;对统一音频信号进行特征提取,获得音频特征。
本申请提供了一种较为具体的音频特征的提取方法,具体的,在会议视频信息中,除图像信息外,还包括与会人员的音频信号,为进一步保证会议记录的准确性和全面性,可先剥离会议视频信息中的音频信号,即上述第一音频信号,再获取会议音频信息中的音频信号,即上述第二音频信号,进而按照时间将第一音频信号和第二音频信号进行强制对齐,以形成统一音频信号,最后从统一音频信号中提取获得音频特征,保证了音频信号的完整性,进而保证了后续会议记录的全面性。
优选的,上述对统一音频信号进行特征提取,获得音频特征,可以包括:利用移动窗函数对统一音频信号进行分帧处理,获得分帧后的音频信号;对音频信号进行编码处理,获得音频特征。
本优选实施例对从统一音频信号中提取音频特征的过程进行了详细说明,具体的,由于语音信号,即音频信号在宏观上是不稳定的,在微观上却是平稳的,具有短时平稳性(一般在10~30ms内可以认为语音信号近似不变),因此,在进行音频特征提取之前,可对统一音频信号进行分帧处理,该实现过程类似于视频分帧处理流程,将统一音频信号分割成小段,以获得分帧后的音频信号,对于其具体实现方法,可采用移动窗函数实现,如矩形窗、海宁窗、汉明窗等;进一步,再利用音频编码器对分帧后的音频信号进行编码,即可获得音频特征。
可以理解的是,上述S200和S300的执行顺序并不影响本技术方案的实施,为保证效率,二者可同时执行,当然也可先后执行,本申请对此不做限定。
S400:对唇语特征、文本特征和音频特征进行特征融合,获得融合特征;
本步骤旨在实现特征融合,以获得融合特征,可以理解的是,被融合的特征即为前述特征提取过程中所获得的唇语特征、文本特征以及音频特征,通过对三者进行特征融合处理,即可获得最终的融合特征。
优选的,上述对唇语特征、文本特征和音频特征进行特征融合,获得融合特征,可以包括:利用多头注意网络对唇语特征、文本特征和音频特征进行加权融合,获得融合特征。
本申请提供了一种较为具体的特征融合方法,即可以利用多头注意网络将上述三类特征融合为单一特征,其中,在特征融合的过程中,可采用加权融合的方法实现,例如,如果在安静环境,则设置音频特征权重更大,而在嘈杂环境中,则是定视觉特征(唇语特征和文本特征)权重更大。
S500:对融合特征进行处理,获得会议文档信息。
本步骤旨在实现会议文档信息的获取,即获得会议记录文件。在具体实现过程中,可通过采集大量样本进行训练,以构建语言模型;由此,在获得融合特征后,利用该语言模型进行处理,即可获得会议文档信息。
作为一种优选实施例,该会议文档信息获取方法还可以包括:对会议视频信息、会议音频信息以及会议文档信息进行存储。
本优选实施例旨在实现信息存储,具体的,可预先设置存储空间,对于采集到的信息,如会议音频信息和会议视频信息,以及最终所获得的会议文档信息,均可存储至该预设存储空间,以便后续查询分析以及整理等。
更进一步的,还可以及时的将最终获得的会议转录文档转发至各个会议终端,便于与会人员实时查看,保障了会议信息的实时性。
本申请所提供的会议文档信息获取方法,基于多模态特征实现了会议记录,该多模态特征包括音频特征、唇语特征以及文本特征,通过将多模态特征进行融合,并将融合特征转换为会议记录文档,完成会议记录,避免了信息遗漏,有效提高了会议记录的全面性和准确性,而且,该种实现方式无需人工手动操作,有效保证了会议记录效率。
在上述各实施例的基础上,本申请实施例提供了一种更为具体的实现方式。
请参考图2,图2为本申请所提供的一种会议文档信息获取系统架构图,该会议文档信息获取系统主要包括数据流部分和算法部分,数据部分包括数据采集、存储及其预处理,算法部分主要包括计算模块,其中,数据源101包括会议中的视频(唇语),音频(包括现场讨论音频)以及视频中的文本内容(如word,PPT等)。
1、数据流处理流程:
(1)通过屏幕录制软件截取会议视频,通过录音设备录取现场讨论音频,并将这些数据存储于数据存储模块102;
(2)数据预处理模块103读取存储模块102中的数据,并剥离视频中的音频信号,将现场音频信号按照时间与视频中的音频信号进行强制对齐,形成统一音频信号;
(3)将视频信息和音频信息分别输出给算法部分的计算模块104。
2、算法部分处理流程:
首先,请参考图3,图3为本申请所提供的一种会议文档信息获取系统中计算模块的结构示意图,其执行流程主要包括音频特征提取(音频信息转换并编码形成音频特征)、唇语特征提取(分割视频并提取嘴部图像,追踪每一帧嘴部图像并编码形成唇语特征)、文本特征提取(分割视频并提取屏幕文本,编码形成文本特征)、多模态特征融合及解码(三个模态特征融合并进行解码生成会议转录文本)四部分。
进一步,请参考图4、图5以及图6,图4为本申请所提供的一种音频编码流程图,图5为本申请所提供的一种图像编码流程图,图6为本申请所提供的一种文本编码流程图。其中,各图中所示多头注意网络之前还包含位置编码(正弦/余弦函数)。以下,对上述三种特征的提取过程进行详细介绍:
(1)音频特征提取:
结合图3和图4,首先,使用移动窗函数对语音信号(音频信息201)进行分帧,得到音频信号301,其中,分帧后所得帧数nf的计算公式为:nf=(nx-wlen+inc)/inc,其中,nx为语音信号总长度,wlen为窗长(帧长度),inc为帧移,例如,对1个小时的语音信号进行分帧,每帧长度分割为25ms,帧移为10ms,则帧数为359998帧。
进一步,如图3所示音频编码流程,每一帧时域音频信号301经过短时傅里叶变换302(Short Time Fourier Transform,STFT)后得到音频信号频谱矩阵,或是通过MFCC(Mel-Frequency Cepstral Coefficients,梅尔频率倒谱系数)特征提取方法把每一帧时域音频信号301变为一个多维向量,即提取声学特征,进而将其结果作为多头注意网络303的输入,其中,该多头注意网络加上前馈即形成单一的Transformer单元,构成音频编码器,例如,假设帧数为m,每一帧维度为n,结果可得到一个m*n的矩阵,最后,Transformer单元的输出结果为音频特征304(201)。
(2)唇语特征提取:
结合图3和图5,首先,使用但不限于OpenCV对视频信息203进行镜头分割204,并采样包含面部的图像205(如每25fps采样一次);进一步,使用时空卷积网络(SpatiotemporalConvolutional Network,SCNet)识别面部图像205中的动作,以实现追踪说话者嘴唇动作206;进一步,使用但不限于OpenCV,DCNN对追踪的嘴唇动作图像landmark点进行检测207,再使用一定尺寸大小的mask(如112*112pixels)进行提取,获得嘴唇区域图像305。
进一步,如图4所示图像编码流程,对于嘴唇区域图像305,使用包含但不限于SCNet、残差网络(Residual Network,ResNet)、双向长短时记忆网络(Bidirectional LongShort-Term Memory Network,BiLSTM)组合网络等提取获得唇语特征矩阵306,进而将其通过多头注意网络307(Transformer单元)进一步增强,得到最终的唇语特征308(208)。
(3)文本特征提取:
结合图3和图6,首先,使用但不限于OpenCV对视频信息203进行镜头分割204,并采样包含文本的图像(可不包含人脸,但为了减少计算量,可复用唇语特征提取中采样的图像);进一步,使用连接文本提议网络(Connectionist Text Proposal Network,CTPN)对采样图像中的文本(包括word,PPT,代码等内容)进行定位,随后使用卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)对文本进行识别209,结果输出文本信号309,其中包含屏幕文本。
进一步,如图4所示文本编码流程,对于文本信号309,使用语言模型3010(Language Model,LM),具体可包括但不限于word2vec,ELMo,GPT,BERT等进行处理,获得屏幕文本特征,进而通过多头注意网络3011(Transformer单元)进一步增强,得到文本特征3012(2010)。
最后,请参考图3和图7,图7为本申请所提供的一种特征信息解码流程图。
具体的,先使用多头注意网络404(Transformer单元)对三个模态特征401(308)、402(304)、403(3012)融合为单一特征,该多头注意网络404可为不同条件下的模态特征进行加权,例如,如果在安静环境下,则音频特征402权重更大,而在嘈杂环境中,则视觉特征401和403权重会更大;进而通过语言模型405对融合特征进行解码,获得会议的转录文本406。
可见,本申请实施例所提供的会议文档信息获取方法,基于多模态特征实现了会议记录,该多模态特征包括音频特征、唇语特征以及文本特征,通过将多模态特征进行融合,并将融合特征转换为会议记录文档,完成会议记录,避免了信息遗漏,有效提高了会议记录的全面性和准确性,而且,该种实现方式无需人工手动操作,有效保证了会议记录效率。
为解决上述问题,请参考图8,图8为本申请所提供的一种会议文档信息获取装置的结构示意图,该会议文档信息获取装置可包括:
信息采集模块10,用于采集会议视频信息和会议音频信息;
第一特征提取模块20,用于对会议视频信息进行特征提取,获得对应的唇语特征和文本特征;
第二特征提取模块30,用于对会议音频信息进行特征提取,获得对应的音频特征;
特征融合模块40,用于对唇语特征、文本特征和音频特征进行特征融合,获得融合特征;
会议记录模块50,用于对融合特征进行处理,获得会议文档信息。
对于本申请提供的装置的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述问题,请参考图9,图9为本申请所提供的一种会议文档信息获取设备的结构示意图,该会议文档信息获取设备可包括:
存储器11,用于存储计算机程序;
处理器12,用于执行计算机程序时实现如上述任意一种会议文档信息获取方法的步骤。
对于本申请提供的设备的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述问题,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如上述任意一种会议文档信息获取方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的会议文档信息获取方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围要素。

Claims (10)

1.一种会议文档信息获取方法,其特征在于,包括:
采集会议视频信息和会议音频信息;
对所述会议视频信息进行特征提取,获得对应的唇语特征和文本特征;
对所述会议音频信息进行特征提取,获得对应的音频特征;
对所述唇语特征、所述文本特征和所述音频特征进行特征融合,获得融合特征;
对所述融合特征进行处理,获得会议文档信息。
2.如权利要求1所述的会议文档信息获取方法,其特征在于,还包括:
根据所述会议视频信息获得第一音频信号;
所述对所述会议音频信息进行特征提取,获得对应的音频特征,包括:
根据所述会议音频信息获得第二音频信号;
对所述第一音频信号和所述第二音频信号进行强制对齐处理,获得统一音频信号;
对所述统一音频信号进行特征提取,获得所述音频特征。
3.如权利要求2所述的会议文档信息获取方法,其特征在于,所述对所述统一音频信号进行特征提取,获得所述音频特征,包括:
利用移动窗函数对所述统一音频信号进行分帧处理,获得分帧后的音频信号;
对所述音频信号进行编码处理,获得所述音频特征。
4.如权利要求1所述的会议文档信息获取方法,其特征在于,对所述会议视频信息进行特征提取,获得对应的唇语特征,包括:
对所述会议视频信息进行分帧处理,获得分帧后的图像帧;
在所有所述图像帧中采样获得面部图像帧;
对所述面部图像帧进行面部追踪,获得唇部动作图像;
对所述唇部动作图像进行landmark点检测,获得检测信息;
对所述检测信息进行编码处理,获得所述唇语特征。
5.如权利要求1所述的会议文档信息获取方法,其特征在于,对所述会议视频信息进行特征提取,获得对应的文本特征,包括:
在所有所述图像帧中采样获得文本图像帧;
对所述文本图像帧进行文本定位,获得文本图像;
对所述文本图像进行文本识别,获得文本信息;
对所述文本信息进行编码处理,获得所述文本特征。
6.如权利要求1至5任意一项所述的会议文档信息获取方法,其特征在于,所述对所述唇语特征、所述文本特征和所述音频特征进行特征融合,获得融合特征,包括:
利用多头注意网络对所述唇语特征、所述文本特征和所述音频特征进行加权融合,获得所述融合特征。
7.如权利要求6所述的会议文档信息获取方法,其特征在于,还包括:
对所述会议视频信息、所述会议音频信息以及所述会议文档信息进行存储。
8.一种会议文档信息获取装置,其特征在于,包括:
信息采集模块,用于采集会议视频信息和会议音频信息;
第一特征提取模块,用于对所述会议视频信息进行特征提取,获得对应的唇语特征和文本特征;
第二特征提取模块,用于对所述会议音频信息进行特征提取,获得对应的音频特征;
特征融合模块,用于对所述唇语特征、所述文本特征和所述音频特征进行特征融合,获得融合特征;
会议记录模块,用于对所述融合特征进行处理,获得会议文档信息。
9.一种会议文档信息获取设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任意一项所述的会议文档信息获取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的会议文档信息获取方法的步骤。
CN201910989409.3A 2019-10-17 2019-10-17 一种会议文档信息获取方法、装置及其相关设备 Active CN110719436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910989409.3A CN110719436B (zh) 2019-10-17 2019-10-17 一种会议文档信息获取方法、装置及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910989409.3A CN110719436B (zh) 2019-10-17 2019-10-17 一种会议文档信息获取方法、装置及其相关设备

Publications (2)

Publication Number Publication Date
CN110719436A true CN110719436A (zh) 2020-01-21
CN110719436B CN110719436B (zh) 2021-05-07

Family

ID=69212770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910989409.3A Active CN110719436B (zh) 2019-10-17 2019-10-17 一种会议文档信息获取方法、装置及其相关设备

Country Status (1)

Country Link
CN (1) CN110719436B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112087653A (zh) * 2020-09-18 2020-12-15 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN112786052A (zh) * 2020-12-30 2021-05-11 科大讯飞股份有限公司 语音识别方法、电子设备和存储装置
CN114342413A (zh) * 2020-08-10 2022-04-12 北京小米移动软件有限公司 多模态数据发送方法和装置、多模态数据处理方法和装置
CN115331676A (zh) * 2022-09-09 2022-11-11 中诚华隆计算机技术有限公司 一种结合语音和图像的字符记录方法及执行芯片

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111601A (zh) * 2009-12-23 2011-06-29 大猩猩科技股份有限公司 内容可适性的多媒体处理系统与处理方法
US20160328806A1 (en) * 2013-04-30 2016-11-10 Intuit Inc. Video-voice preparation of electronic tax return summary
US9843768B1 (en) * 2016-09-23 2017-12-12 Intel Corporation Audience engagement feedback systems and techniques
CN107845422A (zh) * 2017-11-23 2018-03-27 郑州大学第附属医院 一种基于多模态线索融合的远程会诊会话理解与摘要方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108008824A (zh) * 2017-12-26 2018-05-08 安徽声讯信息技术有限公司 公文速记本多链路数据采集的方法
CN108346427A (zh) * 2018-02-05 2018-07-31 广东小天才科技有限公司 一种语音识别方法、装置、设备及存储介质
CN109257622A (zh) * 2018-11-01 2019-01-22 广州市百果园信息技术有限公司 一种音视频处理方法、装置、设备及介质
CN109918684A (zh) * 2019-03-05 2019-06-21 腾讯科技(深圳)有限公司 模型训练方法、翻译方法、相关装置、设备及存储介质
CN110234018A (zh) * 2019-07-09 2019-09-13 腾讯科技(深圳)有限公司 多媒体内容描述生成方法、训练方法、装置、设备及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111601A (zh) * 2009-12-23 2011-06-29 大猩猩科技股份有限公司 内容可适性的多媒体处理系统与处理方法
US20160328806A1 (en) * 2013-04-30 2016-11-10 Intuit Inc. Video-voice preparation of electronic tax return summary
US9843768B1 (en) * 2016-09-23 2017-12-12 Intel Corporation Audience engagement feedback systems and techniques
CN107845422A (zh) * 2017-11-23 2018-03-27 郑州大学第附属医院 一种基于多模态线索融合的远程会诊会话理解与摘要方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108008824A (zh) * 2017-12-26 2018-05-08 安徽声讯信息技术有限公司 公文速记本多链路数据采集的方法
CN108346427A (zh) * 2018-02-05 2018-07-31 广东小天才科技有限公司 一种语音识别方法、装置、设备及存储介质
CN109257622A (zh) * 2018-11-01 2019-01-22 广州市百果园信息技术有限公司 一种音视频处理方法、装置、设备及介质
CN109918684A (zh) * 2019-03-05 2019-06-21 腾讯科技(深圳)有限公司 模型训练方法、翻译方法、相关装置、设备及存储介质
CN110234018A (zh) * 2019-07-09 2019-09-13 腾讯科技(深圳)有限公司 多媒体内容描述生成方法、训练方法、装置、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114342413A (zh) * 2020-08-10 2022-04-12 北京小米移动软件有限公司 多模态数据发送方法和装置、多模态数据处理方法和装置
CN112087653A (zh) * 2020-09-18 2020-12-15 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN112786052A (zh) * 2020-12-30 2021-05-11 科大讯飞股份有限公司 语音识别方法、电子设备和存储装置
CN115331676A (zh) * 2022-09-09 2022-11-11 中诚华隆计算机技术有限公司 一种结合语音和图像的字符记录方法及执行芯片

Also Published As

Publication number Publication date
CN110719436B (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN110719436B (zh) 一种会议文档信息获取方法、装置及其相关设备
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
CN109741732B (zh) 命名实体识别方法、命名实体识别装置、设备及介质
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
CN111325817A (zh) 一种虚拟人物场景视频的生成方法、终端设备及介质
CN111508498B (zh) 对话式语音识别方法、系统、电子设备和存储介质
CN106971723A (zh) 语音处理方法和装置、用于语音处理的装置
CN112435653A (zh) 语音识别方法、装置和电子设备
CN111462758A (zh) 智能会议角色分类的方法、装置、设备及存储介质
CN111554279A (zh) 一种基于Kinect的多模态人机交互系统
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
CN114267347A (zh) 一种基于智能语音交互的多模态拒识方法和系统
CN113450774A (zh) 一种训练数据的获取方法及装置
CN106550268B (zh) 视频处理方法和视频处理装置
CN111797265A (zh) 一种基于多模态技术的拍照命名方法与系统
CN109686365B (zh) 一种语音识别方法和语音识别系统
CN112328830A (zh) 一种基于深度学习的信息定位方法及相关设备
CN113822187A (zh) 手语翻译、客服、通信方法、设备和可读介质
CN111261187B (zh) 一种将语音转换成唇形的方法、系统、装置和存储介质
CN112466306A (zh) 会议纪要生成方法、装置、计算机设备及存储介质
CN115439614B (zh) 虚拟形象的生成方法、装置、电子设备和存储介质
CN111462732B (zh) 语音识别方法和装置
CN103268316A (zh) 一种图片识别语音翻译方法及其翻译设备
CN114283493A (zh) 基于人工智能的识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant