CN106782545B - 一种将音视频数据转化成文字记录的系统和方法 - Google Patents

一种将音视频数据转化成文字记录的系统和方法 Download PDF

Info

Publication number
CN106782545B
CN106782545B CN201611170040.6A CN201611170040A CN106782545B CN 106782545 B CN106782545 B CN 106782545B CN 201611170040 A CN201611170040 A CN 201611170040A CN 106782545 B CN106782545 B CN 106782545B
Authority
CN
China
Prior art keywords
data
speaker
audio
module
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611170040.6A
Other languages
English (en)
Other versions
CN106782545A (zh
Inventor
李纯冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Guangzhou Shirui Electronics Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Guangzhou Shirui Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd, Guangzhou Shirui Electronics Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201611170040.6A priority Critical patent/CN106782545B/zh
Priority to PCT/CN2017/077035 priority patent/WO2018107605A1/zh
Publication of CN106782545A publication Critical patent/CN106782545A/zh
Application granted granted Critical
Publication of CN106782545B publication Critical patent/CN106782545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces

Abstract

本发明涉及一种将音视频数据转化成文字记录的系统和方法,其中系统包括数据收集部分、数据识别部分以及数据组织部分;所述数据收集部分包括音频采集模块和视频采集模块;所述数据识别部分包括语音和声纹识别模块以及人脸和表情识别模块;所述数据组织部分根据所述文字信息、识别的开始时间、当前说话者的身份标签、当前说话者的情绪,生成文字记录。本发明更加细致完整地保存整个音视频数据过程,更贴近真实的情况;本发明将音视频数据转换为文本格式进行保存,大大降低了存储和传输的成本,也便于后续查看记录,可以更加快速地浏览和定位会议内容。

Description

一种将音视频数据转化成文字记录的系统和方法
技术领域
本发明涉及一种数据处理技术,具体涉及一种将音视频数据转化成文字记录的系统和方法。
背景技术
在召开音视频会议时,为了记录会议内容,通常使用摄像头采集视频数据和麦克风采集音频数据或者仅使用麦克风采集音频数据,将音视频数据或音频数据保存成多媒体文件,存储到存储设备中;通过播放多媒体文件,可以观看或收听到会议内容。或者可以由专门的会议记录员通过计算机等输入设备或者手写方式进行笔录,记录下会议内容。
采用摄像头、麦克风等设备记录音视频数据的方式,需要将音视频文件存储到存储设备中,因此需要占用较大的存储空间,成本较高,并且后期是通过播放多媒体文件来查看会议内容,不能快速浏览和定位到具体的话题上,因此需要花费较多的时间,并且可能会出现内容的遗漏,导致效率低下。采用笔录的方式记录会议内容虽然有助于快速浏览和定位具体话题,但对记录员的要求较高,如果记录速度远低于会议中讨论的速度,就容易遗漏和出错,导致内容不够完整和细致,并且在后续查看记录无法还原当时的情景。
现有技术公开了一种汉语外语有声影像资料双向可逆语音转换并加注字幕的方法,通过识别有声影像资料,将其中的语音识别成文本,并将文本翻译成指定的外文,以字幕的形式叠加在画面上,与原来的语音一起存储或同步输出,从而使有声影像资料变成带有指定外文字幕的有声影像资料。但该方法只是简单地将语音识别成文本,并将文本翻译成指定外文后以字幕的形式在画面上同步显示,但没有根据说话者的不同而将字幕组织成更加贴近真实情况的内容。
发明内容
为了解决上述记录的会议内容不完整和细致,并且在后续查看记录无法还原当时的情景的技术问题,本发明提供了一种将音视频数据转化成文字记录的系统和方法,技术方案如下。
一种将音视频数据转化成文字记录的系统,包括数据收集部分、数据识别部分以及数据组织部分;
所述数据收集部分包括音频采集模块和视频采集模块;
所述音频采集模块用于捕获当前说话者的音频数据,并记录其说话的开始时间;
所述视频采集模块用于捕获当前说话者的图像,并记录其说话的开始时间;
所述数据识别部分包括语音和声纹识别模块以及人脸和表情识别模块;
所述语音和声纹识别模块对所述音频采集模块捕获的音频数据进行处理,将其转化成文本格式的文字信息,并对所述音频采集模块捕获的音频数据进行处理,用以识别当前说话者,并对每个说话者赋予一个身份标签;
所述人脸和表情识别模块利用表情识别技术对所述视频采集模块捕获的图像进行处理,识别当前说话者的表情,获得该说话者的情绪,并对所述视频采集模块捕获的图像进行处理,用以识别当前说话者,并对每个说话者赋予一个身份标签;
所述数据组织部分根据所述文字信息、识别的开始时间、当前说话者的身份标签以及当前说话者的情绪,生成文字记录。
进一步地,所述文字记录为对话形式的文字记录。
进一步地,所述系统还包括数据补充和修正部分,所述数据补充和修正部分用于对所述文字记录进行补充和修正。
进一步地,所述音频采集模块为麦克风,和/或,所述视频采集模块为摄像头。
进一步地,所述系统还包括存储模块,所述存储模块存储有记录包含说话者的身份标签、声纹特征数据和脸部特征数据的数据表。
一种将音视频数据转化成文字记录的方法,包括以下步骤:
步骤S21、数据收集:捕获当前说话者的音频数据和当前说话者的图像,并记录其说话的开始时间;
步骤S22、数据识别:对捕获的音频数据进行处理,将其转化成文本格式的文字信息;对捕获的图像进行处理,识别当前说话者的表情,获得该说话者的情绪;对捕获的音频数据和/或对捕获的图像进行处理,用以识别当前说话者,并为每个说话者赋予一个身份标签;
步骤23、数据组织:所述数据组织部分根据所述文字信息、识别的开始时间、当前说话者的身份标签以及当前说话者的情绪,生成文字记录。
进一步地,所述文字记录为对话形式的文字记录。
进一步地,所述方法还包括步骤S24、数据补充和修正:对所述文字记录进行补充和修正。
进一步地,所述身份标签与说话者的声纹特征数据和/或脸部特征数据相关联地存储在存储模块中,在对每个说话者赋予身份标签前,先查找该存储模块中是否已经存储有与该说话者匹配的身份标签,如果没有查找到,则赋予该说话者一个身份标签。
一种将音视频数据转化成文字记录的方法,包括以下步骤:
步骤S30、准备工作:启动麦克风和摄像头,创建说话者列表,创建保存文本的文件地址,其中说话者列表的项目包括说话者的唯一的身份标签、说话者的声纹特征数据和脸部特征数据;
步骤S31:捕获数据:说话者开始发言时,麦克风捕获当前发言的说话者的语音输入获得当前发言的说话者的音频数据,记录当前发言的与会者音频数据的开始时间;同时摄像头捕获当前发言的说话者的图像获得当前发言的说话者的视频数据,记录当前发言的与会者视频数据的开始时间;
步骤S32:使用声纹识别技术分析和处理麦克风获取的当前发言的说话者的音频数据,并进行声纹特征识别;使用人脸识别技术分析和处理摄像头获取的当前发言的说话者的视频数据,并进行脸部特征识别;
步骤S33:判断是否成功识别到声纹特征数据以及是否成功识别到脸部特征数据,如果成功识别到声纹特征数据和/或脸部特征数据,则进入步骤S34;如果未成功识别到声纹特征数据和脸部特征数据,则进入步骤S35;
步骤S34:判断说话者列表中是否已经存在与该声纹特征数据和/或该脸部特征数据相匹配的说话者,如果存在,则进入步骤S35,同时补充完整该说话者的相关信息;如果不存在,则在说话者列表中加入新条目,保存新说话者的身份标签、声纹特征数据和脸部特征数据,同时进入步骤S35;
步骤S35:使用语音识别技术分析处理音频数据,进行音频数据转化成文字的操作;
步骤S36:判断音频数据是否成功转化成文字,如果是,则进入步骤S37;如果否,则返回步骤S35继续进行转化操作;
步骤S37:使用表情识别技术分析处理视频数据,获取当前发言的说话者的情绪;
步骤S38:获取当前的日期和时间;
步骤S39:将日期、时间、匹配声纹和/或脸部特征数据的说话者的身份标签、语音识别的文字、表情识别的情绪组织成对话形式的文字记录,并保存在创建的文件地址中;
步骤S40:返回步骤S31继续执行,保存不同说话者发言的内容,直到会话过程结束。
本发明的有益效果:
本发明更加细致完整地保存整个音视频数据过程,更贴近真实的情况;本发明将音视频数据转换为文本格式进行保存,大大降低了存储和传输的成本,也便于后续查看记录,可以更加快速地浏览和定位会议内容。
本发明利用声纹识别技术、人脸识别技术,识别出不同的与会者;并将语音识别技术和表情识别技术得到的文本内容进行整理和组织,形成对话形式的文字记录。
本发明提供方便用户进行补充修正记录的接口,以保证文字记录的正确性,提高可读性。
附图说明
图1是本发明提出的将音视频数据转化成文字记录的系统的结构框图;
图2是本发明提出的将音视频数据转化成文字记录的系统的结构示意图;
图3本发明提出的将音视频数据转化成文字记录的方法的第一种流程图;
图4本发明提出的将音视频数据转化成文字记录的方法的第二种流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。实施例中以视频会议录像为例进行说明,但本领域技术人员知晓,该方法可用在所有视频影像中,并不局限于附图和以下实施例。
本发明需要利用语音识别技术、声纹识别技术、人脸识别技术、表情识别技术等公知技术,用于获取必要的数据。现有的各个识别技术已经相对完善,可以实现“与文本无关的声纹识别”、“脸部跟踪”、“脸部动作识别”、“表情变化识别”等,本发明不再对这些技术做详细的描述和说明。本发明提出的将音视频数据转化成文字记录的系统和方法根据这些数据能够将音视频数据组织成完整又形象的对话形式的文字记录。
实施例1:
如图1和图2所示,本发明提出的将音视频数据转化成文字记录的系统包括数据收集部分、数据识别部分、数据组织部分以及数据补充和修正部分。
数据收集部分包括麦克风、摄像头等数据采集装置。
麦克风用于捕获当前发言的与会者的音频数据,与会者开始发言时,麦克风采集当前发言的与会者的音频数据,根据采集到的音频数据的强度大小判断当前发言的与会者正在发言还是停顿,如果停顿超过一定时间(例如3s)则认为该与会者发言结束,记录当前发言的与会者音频数据的开始时间和结束时间,将当前发言的与会者的音频数据连同开始时间(也可以加上结束时间)以及麦克风的设备标识符一起传送给数据识别部分。其中传送麦克风的设备标识符的作用是为了在多方会议时用以区分不同的会议方。
摄像头用于捕获当前发言的与会者的图像,与会者开始发言时,摄像头采集当前发言的与会者的图像,根据采集到的图像判断当前发言的与会者正在发言还是停顿,如果停顿超过一定时间(例如3s)则认为该与会者发言结束,记录当前发言的与会者发言的起始时间和结束时间,将采集的图像连同开始时间(也可以加上结束时间)以及摄像头的设备标识符一起传送给数据识别部分。其中传送摄像头的设备标识符的作用是为了在多方会议时用以区分不同的会议方。
其中,为了保证麦克风和摄像头记录的时间一致,麦克风和摄像头采用相同的标准时间。
数据识别部分包括语音和声纹识别模块以及人脸和表情识别模块。
语音和声纹识别模块接收麦克风捕获的音频数据、开始时间(也可以加上结束时间)以及麦克风的设备标识符;利用语音识别技术对捕获的音频数据进行处理,将音频格式的音频数据转化成文本格式的文字信息,并利用声纹识别技术对捕获的音频数据进行处理,用以识别当前发言的与会者。
人脸和表情识别模块接收摄像头捕获的图像、开始时间(也可以加上结束时间)以及摄像头的设备标识符,利用表情识别技术对捕获的图像进行处理,识别当前发言的与会者的表情,获得该与会者当时的情绪,并利用人脸识别技术对捕获的图像进行处理,用以识别当前发言的与会者。
利用声纹识别技术可以识别当前发言的与会者的声纹特征数据,利用人脸识别技术可以识别当前发言的与会者的脸部特征数据,因此,语音和声纹识别模块根据声纹特征数据以及人脸和表情识别模块根据脸部特征数据可以识别和区分出不同的与会者。另外,语音和声纹识别模块利用麦克风的设备标识符以及人脸和表情识别模块利用摄像头的设备标识符可以识别和区分出不同的会议方。
语音和声纹识别模块以及人脸和表情识别模块在处理过程中给每个发言的与会者赋予唯一的身份标签,例如:一方会议时,可以用“与会者A”、“与会者B”、“与会者C”等作为身份标签赋给与会者;多方会议时,可以用“与会者A1”、“与会者B2”、“与会者C1”等作为身份标签赋给与会者,其中标签中第一位字符“A”、“B”、“C”代表各会议方,第二位字符“1”、“2”代表某会议方中的某位与会者。为了方便数据组织部分组织文字记录,语音和声纹识别模块以及人脸和表情识别模块对同一与会者赋予的身份标签应当相同,例如,可以根据接收到的开始时间将语音和声纹识别模块以及人脸和表情识别模块识别出的与会者的身份标签进行统一。
为了便于查找和管理,可以建立记录包含与会者的身份标签、声纹特征数据和脸部特征数据的数据表,用于记录发言的与会者的信息,该数据表存储在存储模块(图中未示出)中。声纹特征数据和脸部特征数据通过声纹识别技术和人脸识别技术可以得到,例如通过21点模型定位位置的人脸识别技术,通过这些关键点就可以描述脸部的特征,精确度可达到96%。
数据组织部分根据数据识别部分处理得到的文字信息、开始时间、与会者的身份标签、与会者的情绪等数据,按照一定的格式将这些数据组织起来,生成包含开始时间、与会者的身份标签、与会者的情绪和文字信息的文字记录并保存。
为了便于查看,不同与会者的内容换行记录。
组织格式例如可以是:
【日期】
【时分秒】【与会者】(【情绪】):“【文本】”
【日期】
【时分秒】【与会者】(【情绪】):“【文本】”
……
上述组织格式中,符号“【】”表示从前述各部分获得的内容;
符号“()”表示是该内容为可选内容,有数据就添加;
符号“:”表示其后为发言的内容。
例如:
2016年11月15日
09:24:12与会者A:“我们先讨论问题a”
2016年11月15日
09:24:16与会者B(生气):“问题a已经讨论过了,应该讨论问题b”
……
为了精简记录内容,可以将同个日期的内容进行整合,例如前述的记录可以整合为:
2016年11月15日
09:24:12与会者A:“我们先讨论问题a”
09:24:16与会者B(生气):“问题a已经讨论过了,应该讨论问题b”
……
数据补充和修正部分用于对数据组织部分保存的文字记录进行补充和修正,以提高文字记录的可读性,保证文字记录的正确性。例如提供方便用户对保存的文字记录进行补充和修正的界面和提示,并将补充和修正者的姓名、补充和修正时间、补充和修正内容进行记录,便于查阅。
补充的方式和内容例如为:提供输入框让用户输入会议的主题、问题的摘要、会议结论等信息,方便他人快速了解会议内容;
修正的内容例如为文字记录中的文字错误,也可以为替换某些信息,例如:整个会议过程识别到有3个与会者发言,此时弹出提示框提示用户是否需要将“与会者A、B、C”的身份标签替换成各自真实的名字。
实施例2:
本发明还提出了一种将音视频数据转化成文字记录的方法,该方法流程图如图3所示,包括以下步骤:
步骤S21、数据收集:
与会者开始发言时,麦克风采集当前发言的与会者的音频数据,根据采集到的音频数据的强度大小判断当前发言的与会者正在发言还是停顿,如果停顿超过一定时间(例如3s)则认为该与会者发言结束,记录当前发言的与会者音频数据的开始时间和结束时间,将当前发言的与会者的音频数据连同开始时间(也可以加上结束时间)以及麦克风的设备标识符一起传送给数据识别步骤。其中传送麦克风的设备标识符的作用是为了在多方会议时用以区分不同的会议方;
摄像头用于捕获当前发言的与会者的图像,与会者开始发言时,摄像头采集当前发言的与会者的图像,根据采集到的图像判断当前发言的与会者正在发言还是停顿,如果停顿超过一定时间(例如3s)则认为该与会者发言结束,记录当前发言的与会者发言的起始时间和结束时间,将采集的图像连同开始时间(也可以加上结束时间)以及摄像头的设备标识符一起传送给数据识别步骤。其中传送摄像头的设备标识符的作用是为了在多方会议时用以区分不同的会议方。
其中,为了保证麦克风和摄像头记录的时间一致,麦克风和摄像头采用相同的标准时间。
步骤S22、数据识别:
接收麦克风捕获的音频数据、开始时间(也可以加上结束时间)以及麦克风的设备标识符;利用语音识别技术对捕获的音频数据进行处理,将音频格式的音频数据转化成文本格式的文字信息,并利用声纹识别技术对捕获的音频数据进行处理,用以识别当前发言的与会者。
接收摄像头捕获的图像、开始时间(也可以加上结束时间)以及摄像头的设备标识符,利用表情识别技术对捕获的图像进行处理,识别当前发言的与会者的表情,获得该与会者当时的情绪,并利用人脸识别技术对捕获的图像进行处理,用以识别当前发言的与会者。
利用声纹识别技术可以识别当前发言的与会者的声纹特征数据,利用人脸识别技术可以识别当前发言的与会者的脸部特征数据,因此,语音和声纹识别模块根据声纹特征数据以及人脸和表情识别模块根据脸部特征数据可以识别和区分出不同的与会者。另外,语音和声纹识别模块利用麦克风的设备标识符以及人脸和表情识别模块利用摄像头的设备标识符可以识别和区分出不同的会议方。
语音和声纹识别模块以及人脸和表情识别模块在处理过程中给每个发言的与会者赋予唯一的身份标签,例如:一方会议时,可以用“与会者A”、“与会者B”、“与会者C”等作为身份标签赋给与会者;多方会议时,可以用“与会者A1”、“与会者B2”、“与会者C1”等作为身份标签赋给与会者,其中标签中第一位字符“A”、“B”、“C”代表各会议方,第二位字符“1”、“2”代表某会议方中的某位与会者。为了方便组织文字信息,语音和声纹识别模块以及人脸和表情识别模块对同一与会者赋予的身份标签应当相同,例如,可以根据接收到的开始时间将语音和声纹识别模块以及人脸和表情识别模块识别出的与会者的身份标签进行统一。
为了便于查找和管理,可以建立记录包含与会者的身份标签、声纹特征数据和脸部特征数据的数据表,用于记录发言的与会者的信息,保证同一与会者的身份标签唯一,并且保证声纹特征数据和脸部特征数据与相应的与会者的身份标签对应一致。声纹特征数据和脸部特征数据通过声纹识别技术和人脸识别技术可以得到,例如通过21点模型定位位置的人脸识别技术,通过这些关键点就可以描述脸部的特征,精确度可达到96%。
步骤S23、数据组织:
根据数据识别步骤处理得到的文字信息、开始时间、与会者的身份标签、与会者的情绪等数据,按照一定的格式将这些数据组织起来,生成包含开始时间、与会者的身份标签、与会者的情绪和文字信息的文字记录并以对话的形式进行保存。
为了便于查看,不同与会者的内容换行记录。
组织格式例如可以是:
【日期】
【时分秒】【与会者】(【情绪】):“【文本】”
【时分秒】【与会者】(【情绪】):“【文本】”
……
上述组织格式中,符号“【】”表示从前述各步骤获得的内容;
符号“()”表示是该内容为可选内容,有数据就添加;
符号“:”表示其后为发言的内容。
例如:
2016年11月15日
09:24:12与会者A:“我们先讨论问题a”
2016年11月15日
09:24:16与会者B(生气):“问题a已经讨论过了,应该讨论问题b”
……
为了精简记录内容,节约存储空间,可以将同个日期的内容进行整合,例如前述的记录可以整合为:
2016年11月15日
09:24:12与会者A:“我们先讨论问题a”
09:24:16与会者B(生气):“问题a已经讨论过了,应该讨论问题b”
……
步骤S24、数据补充和修正
对数据组织步骤保存的文字记录进行补充和修正,以提高文字记录的可读性,保证文字记录的正确性。例如提供方便用户对保存的文字记录进行补充和修正的界面和提示,并将补充和修正者的姓名、补充和修正时间、补充和修正内容进行记录,便于查阅。
补充的方式和内容例如为:提供输入框让用户输入会议的主题、问题的摘要、会议结论等信息,方便他人快速了解会议内容;
修正的内容例如为文字记录中的文字错误,也可以为替换某些信息,例如:整个会议过程识别到有3个与会者发言,此时弹出提示框提示用户是否需要将“与会者A、B、C”的身份标签替换成各自真实的名字。
实施例3:
本发明还提出了一种将音视频数据转化成文字记录的方法,该方法流程图如图4所示,包括以下步骤:
步骤S30、准备工作:
启动麦克风和摄像头,创建与会者列表,创建保存文本的文件地址,其中与会者列表包括与会者的唯一的身份标签,还包括后续要采集的与会者的声纹特征数据和脸部特征数据;
每个与会者被赋予唯一的身份标签,例如:一方会议时,可以用“与会者A”、“与会者B”、“与会者C”等作为身份标签赋给与会者;多方会议时,可以用“与会者A1”、“与会者B2”、“与会者C1”等作为身份标签赋给与会者,其中标签中第一位字符“A”、“B”、“C”代表各会议方,第二位字符“1”、“2”代表某会议方中的某位与会者。
步骤S31:与会者开始发言时,麦克风捕获当前发言的与会者的语音输入获得当前发言的与会者的音频数据,记录当前发言的与会者音频数据的开始时间;同时摄像头捕获当前发言的与会者的图像获得当前发言的与会者的视频数据,记录当前发言的与会者视频数据的开始时间;
步骤S32:使用声纹识别技术分析和处理麦克风获取的当前发言的与会者的音频数据,并进行声纹特征识别;使用人脸识别技术分析和处理摄像头获取的当前发言的与会者的视频数据,并进行脸部特征识别;
步骤S33:判断是否成功识别到声纹特征数据以及是否成功识别到脸部特征数据,如果成功识别到声纹特征数据和/或脸部特征数据,则进入步骤S34;如果未成功识别到声纹特征数据和脸部特征数据,则进入步骤S35;
步骤S34:判断与会者列表中是否已经存在与该声纹特征数据和/或该脸部特征数据相匹配的与会者,如果存在,则进入步骤S35,同时补充完整该与会者的相关信息(即如果与会者列表中仅存在声纹特征数据而没有脸部特征数据,则补充脸部特征数据;如果与会者列表中仅存在脸部特征数据而没有声纹特征数据,则补充声纹特征数据);如果不存在,则在与会者列表中加入新条目,保存新与会者的身份标签、声纹特征数据和脸部特征数据,同时进入步骤S35;
步骤S35:使用语音识别技术分析处理音频数据,进行音频数据转化成文字的操作;
步骤S36:判断音频数据是否成功转化成文字,如果是,则进入步骤S37;如果否,则返回步骤S35继续进行转化操作;
步骤S37:使用表情识别技术分析处理视频数据,获取当前发言的与会者的情绪;
步骤S38:获取当前的日期和时间;
步骤S39:将日期、时间、匹配声纹和/或脸部特征数据的与会者的身份标签、语音识别的文字、表情识别的情绪组织成对话形式的文字记录,并保存在创建的文件地址中;
所述格式例如可以是:
【日期】
【时分秒】【与会者】(【情绪】):“【文本】”
【时分秒】【与会者】(【情绪】):“【文本】”
……
上述组织格式中,符号“【】”表示从前述各步骤获得的内容;
符号“()”表示是该内容为可选内容,有数据就添加;
符号“:”表示其后为发言的内容。
例如:
2016年11月15日
09:24:12与会者A:“我们先讨论问题a”
2016年11月15日
09:24:16与会者B(生气):“问题a已经讨论过了,应该讨论问题b”
……
为了精简记录内容,节约存储空间,可以将同个日期的内容进行整合,例如前述的记录可以整合为:
2016年11月15日
09:24:12与会者A:“我们先讨论问题a”
09:24:16与会者B(生气):“问题a已经讨论过了,应该讨论问题b”
……
步骤S40:返回步骤S31继续执行,保存不同与会者发言的内容,直到整个会议结束。
以上,对本发明的实施方式进行了说明。但是,本发明不限定于上述实施方式。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种将音视频数据转化成文字记录的系统,其特征在于,包括数据收集部分、数据识别部分以及数据组织部分;
所述数据收集部分包括音频采集模块和视频采集模块;
所述音频采集模块用于捕获当前说话者的音频数据;根据所述音频采集模块捕获的当前说话者的音频数据的强度大小,获取并记录其说话的开始时间;
所述视频采集模块用于捕获当前说话者的图像;根据所述视频采集模捕获的当前说话者的图像,获取并记录其说话的开始时间;所述音频采集模块和所述视频采集模块采用相同的标准时间;
所述数据识别部分包括语音和声纹识别模块以及人脸和表情识别模块;
所述语音和声纹识别模块对所述音频采集模块捕获的音频数据进行处理,将其转化成文本格式的文字信息,并对所述音频采集模块捕获的音频数据进行处理,用以识别当前说话者,并对每个说话者赋予一个身份标签;
所述人脸和表情识别模块利用表情识别技术对所述视频采集模块捕获的图像进行处理,识别当前说话者的表情,获得该说话者的情绪,并对所述视频采集模块捕获的图像进行处理,用以识别当前说话者,并对每个说话者赋予一个身份标签;
所述数据组织部分根据所述文字信息、所述音频采集模块记录的当前说话者的说话的开始时间、所述视频采集模块记录的当前说话者的说话的开始时间、所述语音和声纹识别模块对当前说话者赋予的身份标签、所述人脸和表情识别模块对当前说话者赋予的身份标签以及当前说话者的情绪,生成文字记录;
其中,根据所述音频采集模块记录的当前说话者的说话的开始时间和所述视频采集模块记录的当前说话者的说话的开始时间,将所述语音和声纹识别模块对当前说话者赋予的身份标签与所述人脸和表情识别模块对当前说话者赋予的身份标签进行统一。
2.根据权利要求1所述的系统,其特征在于,所述文字记录为对话形式的文字记录。
3.根据权利要求1或2所述的系统,其特征在于,所述系统还包括数据补充和修正部分,所述数据补充和修正部分用于对所述文字记录进行补充和修正。
4.根据权利要求1或2所述的系统,其特征在于,所述语音和声纹识别模块对所述音频采集模块捕获的音频数据进行处理,还附加地利用所述捕获的当前说话者的音频数据的音频采集模块的设备标识符,识别当前说话者;
所述人脸和表情识别模块对所述视频采集模块捕获的图像进行处理,还附加地利用所述捕获的当前说话者的图像的视频采集模块的设备标识符,识别当前说话者。
5.根据权利要求1或2所述的系统,其特征在于,所述系统还包括存储模块,所述存储模块存储有记录包含说话者的身份标签、声纹特征数据和脸部特征数据的数据表。
6.一种将音视频数据转化成文字记录的方法,其特征在于,包括以下步骤:
步骤S21、数据收集:音频采集模块捕获当前说话者的音频数据;根据所述音频采集模捕获的当前说话者的音频数据的强度大小,获取并记录其说话的开始时间;视频采集模块捕获当前说话者的图像;根据所述视频采集模捕获的当前说话者的图像,获取并记录其说话的开始时间;所述音频采集模块和所述视频采集模块采用相同的标准时间;
步骤S22、数据识别:语音和声纹识别模块对所述音频采集模块捕获的音频数据进行处理,将其转化成文本格式的文字信息,并对所述音频采集模块捕获的音频数据进行处理,用以识别当前说话者,并对每个说话者赋予一个身份标签;人脸和表情识别模块利用表情识别技术对所述视频采集模块捕获的图像进行处理,识别当前说话者的表情,获得该说话者的情绪,并对所述视频采集模块捕获的图像进行处理,用以识别当前说话者,并为每个说话者赋予一个身份标签;
步骤23、数据组织:数据组织部分根据所述文字信息、所述音频采集模块记录的当前说话者的说话的开始时间、所述视频采集模块记录的当前说话者的说话的开始时间、所述语音和声纹识别模块对当前说话者赋予的身份标签、所述人脸和表情识别模块对当前说话者赋予的身份标签以及当前说话者的情绪,生成文字记录;
其中,根据所述音频采集模块记录的当前说话者的说话的开始时间和所述视频采集模块记录的当前说话者的说话的开始时间,将所述语音和声纹识别模块对当前说话者赋予的身份标签与所述人脸和表情识别模块对当前说话者赋予的身份标签进行统一。
7.根据权利要求6所述的方法,其特征在于,所述文字记录为对话形式的文字记录。
8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括步骤S24、数据补充和修正:对所述文字记录进行补充和修正。
9.根据权利要求6或7所述的方法,其特征在于,所述身份标签与说话者的声纹特征数据和脸部特征数据相关联地存储在存储模块中,在对每个说话者赋予身份标签前,先查找该存储模块中是否已经存储有与该说话者匹配的身份标签,如果没有查找到,则赋予该说话者一个身份标签。
10.一种采用如权利要求1至5中任一项所述的系统将音视频数据转化成文字记录的方法,其特征在于,包括以下步骤:
步骤S30、准备工作:启动麦克风和摄像头,创建说话者列表,创建保存文本的文件地址,其中说话者列表的项目包括说话者的唯一的身份标签、说话者的声纹特征数据和脸部特征数据;
步骤S31:捕获数据:说话者开始发言时,麦克风捕获当前发言的说话者的语音输入获得当前发言的说话者的音频数据,记录当前发言的与会者音频数据的开始时间;同时摄像头捕获当前发言的说话者的图像获得当前发言的说话者的视频数据,记录当前发言的与会者视频数据的开始时间;所述麦克风和所述摄像头采用相同的标准时间;
步骤S32:使用声纹识别技术分析和处理麦克风获取的当前发言的说话者的音频数据,并进行声纹特征识别;使用人脸识别技术分析和处理摄像头获取的当前发言的说话者的视频数据,并进行脸部特征识别;
步骤S33:判断是否成功识别到声纹特征数据以及是否成功识别到脸部特征数据,如果成功识别到声纹特征数据和脸部特征数据,则进入步骤S34;如果未成功识别到声纹特征数据和脸部特征数据,则进入步骤S35;
步骤S34:判断说话者列表中是否已经存在与该声纹特征数据和该脸部特征数据相匹配的说话者,如果存在,则进入步骤S35,同时补充完整该说话者的相关信息;如果不存在,则在说话者列表中加入新条目,保存新说话者的身份标签、声纹特征数据和脸部特征数据,同时进入步骤S35;
步骤S35:使用语音识别技术分析处理音频数据,进行音频数据转化成文字的操作;
步骤S36:判断音频数据是否成功转化成文字,如果是,则进入步骤S37;如果否,则返回步骤S35继续进行转化操作;
步骤S37:使用表情识别技术分析处理视频数据,获取当前发言的说话者的情绪;
步骤S38:获取当前的日期和所述麦克风记录的当前发言的与会者音频数据的开始时间以及所述摄像头记录的当前发言的与会者视频数据的开始时间;
步骤S39:将日期、时间、匹配声纹和脸部特征数据的说话者的身份标签、语音识别的文字、表情识别的情绪组织成对话形式的文字记录,并保存在创建的文件地址中;
步骤S40:返回步骤S31继续执行,保存不同说话者发言的内容,直到会话过程结束。
CN201611170040.6A 2016-12-16 2016-12-16 一种将音视频数据转化成文字记录的系统和方法 Active CN106782545B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201611170040.6A CN106782545B (zh) 2016-12-16 2016-12-16 一种将音视频数据转化成文字记录的系统和方法
PCT/CN2017/077035 WO2018107605A1 (zh) 2016-12-16 2017-03-17 一种将音视频数据转化成文字记录的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611170040.6A CN106782545B (zh) 2016-12-16 2016-12-16 一种将音视频数据转化成文字记录的系统和方法

Publications (2)

Publication Number Publication Date
CN106782545A CN106782545A (zh) 2017-05-31
CN106782545B true CN106782545B (zh) 2019-07-16

Family

ID=58892306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611170040.6A Active CN106782545B (zh) 2016-12-16 2016-12-16 一种将音视频数据转化成文字记录的系统和方法

Country Status (2)

Country Link
CN (1) CN106782545B (zh)
WO (1) WO2018107605A1 (zh)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019286B (zh) * 2017-07-19 2021-10-29 中国移动通信有限公司研究院 一种基于用户社交关系的表情推荐方法及装置
CN109285548A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 信息处理方法、系统、电子设备、和计算机存储介质
CN107609045B (zh) * 2017-08-17 2020-09-29 深圳壹秘科技有限公司 一种会议记录生成装置及其方法
CN107818785A (zh) * 2017-09-26 2018-03-20 平安普惠企业管理有限公司 一种从多媒体文件中提取信息的方法及终端设备
CN107689225B (zh) * 2017-09-29 2019-11-19 福建实达电脑设备有限公司 一种自动生成会议记录的方法
CN107885723B (zh) * 2017-11-03 2021-04-09 广州杰赛科技股份有限公司 对话角色区分方法和系统
CN108062359B (zh) * 2017-11-28 2021-03-16 歌尔科技有限公司 一种机器人采访与撰稿的方法和采访与撰稿的机器人
CN107918771B (zh) * 2017-12-07 2023-11-24 河北工业大学 人物识别方法和佩戴式人物识别系统
CN109920428A (zh) * 2017-12-12 2019-06-21 杭州海康威视数字技术股份有限公司 一种笔录录入方法、装置、电子设备及存储介质
JP2019153099A (ja) * 2018-03-05 2019-09-12 コニカミノルタ株式会社 会議支援システム及び会議支援プログラム
CN110278398B (zh) * 2018-03-16 2022-01-21 杭州海康威视数字技术股份有限公司 数据存储方法、视频片段搜索方法、装置及电子设备
CN108256513A (zh) * 2018-03-23 2018-07-06 中国科学院长春光学精密机械与物理研究所 一种智能视频分析方法及智能视频记录系统
CN108764010A (zh) * 2018-03-23 2018-11-06 姜涵予 情绪状态确定方法及装置
CN108573033A (zh) * 2018-03-27 2018-09-25 中国科学院长春光学精密机械与物理研究所 基于人脸识别的电子人脉网建立方法及相关设备
CN108537508A (zh) * 2018-03-30 2018-09-14 上海爱优威软件开发有限公司 会议记录方法及系统
CN108922538B (zh) * 2018-05-29 2023-04-07 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN110557678B (zh) * 2018-05-31 2022-05-03 北京百度网讯科技有限公司 视频处理方法、装置及设备
CN108810446A (zh) * 2018-06-07 2018-11-13 北京智能管家科技有限公司 一种视频会议的标签生成方法、装置、设备和介质
CN110661923A (zh) * 2018-06-28 2020-01-07 视联动力信息技术股份有限公司 一种在会议中记录发言信息的方法和装置
CN108920639B (zh) * 2018-07-02 2022-01-18 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN108986825A (zh) * 2018-07-02 2018-12-11 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN109150556A (zh) * 2018-07-31 2019-01-04 何镝 基于语音识别的多人远程会议记录系统
CN108712624A (zh) * 2018-08-08 2018-10-26 上海启诺信息科技有限公司 基于文字记录的录像存档装置及方法
CN109118626B (zh) * 2018-08-08 2022-09-13 腾讯科技(深圳)有限公司 锁具的控制方法、装置、存储介质及电子装置
CN110895575B (zh) * 2018-08-24 2023-06-23 阿里巴巴集团控股有限公司 一种音频处理方法及装置
CN109325737A (zh) * 2018-09-17 2019-02-12 态度国际咨询管理(深圳)有限公司 一种企业智能虚拟助理系统及其方法
CN109525800A (zh) * 2018-11-08 2019-03-26 江西国泰利民信息科技有限公司 一种远程会议语音识别数据传输方法
CN109361825A (zh) * 2018-11-12 2019-02-19 平安科技(深圳)有限公司 会议纪要记录方法、终端及计算机存储介质
CN111291179B (zh) * 2018-12-06 2023-12-08 北京嘀嘀无限科技发展有限公司 一种对话分类方法、装置、电子设备及存储介质
CN109788232A (zh) * 2018-12-18 2019-05-21 视联动力信息技术股份有限公司 一种视频会议的会议记要记录方法、装置和系统
CN109817221B (zh) * 2018-12-26 2021-01-01 出门问问信息科技有限公司 多人视频方法、装置、设备及存储介质
CN109817245A (zh) * 2019-01-17 2019-05-28 深圳壹账通智能科技有限公司 会议纪要的生成方法、装置、计算机设备及存储介质
CN109979458A (zh) * 2019-01-17 2019-07-05 平安科技(深圳)有限公司 基于人工智能的新闻采访稿自动生成方法及相关设备
CN113056908B (zh) * 2019-01-29 2024-04-05 深圳市欢太科技有限公司 视频字幕合成方法、装置、存储介质及电子设备
CN110139062B (zh) * 2019-05-09 2022-10-18 平安科技(深圳)有限公司 一种视频会议记录的创建方法、装置及终端设备
CN110378226A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 基于远程庭审的图像处理方法、装置、计算机设备和存储介质
CN110297907B (zh) * 2019-06-28 2022-03-08 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
CN110232925A (zh) * 2019-06-28 2019-09-13 百度在线网络技术(北京)有限公司 生成会议记录的方法、装置和会议终端
TWI764020B (zh) * 2019-07-24 2022-05-11 圓展科技股份有限公司 視訊會議系統及其方法
CN110196914B (zh) 2019-07-29 2019-12-27 上海肇观电子科技有限公司 一种将人脸信息录入数据库的方法和装置
CN112584078B (zh) * 2019-09-27 2022-03-18 深圳市万普拉斯科技有限公司 视频通话方法、装置、计算机设备和存储介质
CN110674351A (zh) * 2019-10-09 2020-01-10 常州市小先信息技术有限公司 一种用于监控系统的音频数字标签检索系统及方法
CN110853646B (zh) * 2019-11-20 2023-11-03 深圳前海微众银行股份有限公司 会议发言角色的区分方法、装置、设备及可读存储介质
CN111369384A (zh) * 2019-12-23 2020-07-03 国网河南省电力公司郑州供电公司 变电运维隐患全过程管控系统
CN111221987A (zh) * 2019-12-30 2020-06-02 秒针信息技术有限公司 混合音频标记方法和装置
CN111708912A (zh) * 2020-05-06 2020-09-25 深圳震有科技股份有限公司 视频会议记录查询处理方法、装置
CN111785271A (zh) * 2020-05-15 2020-10-16 深圳奥尼电子股份有限公司 语音识别处理方法及系统、电子设备
WO2022016994A1 (zh) * 2020-07-23 2022-01-27 平安科技(深圳)有限公司 基于ai识别的会议纪要生成方法、装置、设备及介质
CN111860915A (zh) * 2020-07-31 2020-10-30 贵州东冠科技有限公司 基于监狱管理的亲情帮扶系统
CN111899743A (zh) * 2020-07-31 2020-11-06 斑马网络技术有限公司 获取目标声音的方法、装置、电子设备及存储介质
CN112037791B (zh) * 2020-08-12 2023-01-13 广东电力信息科技有限公司 会议纪要转录方法、设备和存储介质
CN111968657B (zh) * 2020-08-17 2022-08-16 北京字节跳动网络技术有限公司 语音处理方法、装置、电子设备和计算机可读介质
CN111916053B (zh) * 2020-08-17 2022-05-20 北京字节跳动网络技术有限公司 语音生成方法、装置、设备和计算机可读介质
CN111938674A (zh) * 2020-09-07 2020-11-17 南京宇乂科技有限公司 一种对话的情绪识别控制系统
CN114333853A (zh) * 2020-09-25 2022-04-12 华为技术有限公司 一种音频数据的处理方法、设备和系统
CN112185391A (zh) * 2020-09-30 2021-01-05 深圳供电局有限公司 一种用于客服笔录自动修改处理方法
CN112669847A (zh) * 2020-12-03 2021-04-16 安徽宝信信息科技有限公司 一种可用于会议记录自动编辑整理的智慧屏
CN115050375A (zh) * 2021-02-26 2022-09-13 华为技术有限公司 一种设备的语音操作方法、装置和电子设备
CN114023351B (zh) * 2021-12-17 2022-07-08 广东讯飞启明科技发展有限公司 一种基于嘈杂环境的语音增强方法及系统
CN114299953B (zh) * 2021-12-29 2022-08-23 湖北微模式科技发展有限公司 一种结合嘴部运动分析的话者角色区分方法与系统
CN114745213A (zh) * 2022-04-11 2022-07-12 深信服科技股份有限公司 一种会议记录生成方法、装置及电子设备和存储介质
CN116757646B (zh) * 2023-08-15 2023-11-10 成都市青羊大数据有限责任公司 一种教学综合管理系统
CN117577115B (zh) * 2024-01-15 2024-03-29 杭州讯意迪科技有限公司 一种智慧型无纸化会议系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298694A (zh) * 2011-06-21 2011-12-28 广东爱科数字科技有限公司 一种应用于远程信息服务的人机交互识别系统
CN103903074A (zh) * 2012-12-24 2014-07-02 华为技术有限公司 一种视频交流的信息处理方法及装置
CN104932665A (zh) * 2014-03-19 2015-09-23 联想(北京)有限公司 一种信息处理方法以及一种电子设备
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
CN106033339A (zh) * 2015-03-13 2016-10-19 联想(北京)有限公司 一种信息处理方法及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053750B2 (en) * 2011-06-17 2015-06-09 At&T Intellectual Property I, L.P. Speaker association with a visual representation of spoken content

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298694A (zh) * 2011-06-21 2011-12-28 广东爱科数字科技有限公司 一种应用于远程信息服务的人机交互识别系统
CN103903074A (zh) * 2012-12-24 2014-07-02 华为技术有限公司 一种视频交流的信息处理方法及装置
CN104932665A (zh) * 2014-03-19 2015-09-23 联想(北京)有限公司 一种信息处理方法以及一种电子设备
CN106033339A (zh) * 2015-03-13 2016-10-19 联想(北京)有限公司 一种信息处理方法及电子设备
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置

Also Published As

Publication number Publication date
CN106782545A (zh) 2017-05-31
WO2018107605A1 (zh) 2018-06-21

Similar Documents

Publication Publication Date Title
CN106782545B (zh) 一种将音视频数据转化成文字记录的系统和方法
CN106657865B (zh) 会议纪要的生成方法、装置及视频会议系统
CN108305632B (zh) 一种会议的语音摘要形成方法及系统
CN108346034B (zh) 一种会议智能管理方法及系统
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
US8315866B2 (en) Generating representations of group interactions
CN109003608A (zh) 庭审控制方法、系统、计算机设备及存储介质
US20070188657A1 (en) Synchronizing method and system
CN112037791B (zh) 会议纪要转录方法、设备和存储介质
CN107527623B (zh) 传屏方法、装置、电子设备及计算机可读存储介质
CN110853615B (zh) 一种数据处理方法、装置及存储介质
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
CN111193890B (zh) 会议记录解析装置、方法和会议记录播放系统
CN102207844A (zh) 信息处理设备、信息处理方法和程序
CN104978145A (zh) 一种实现录音的方法、装置和移动终端
CN106488300A (zh) 一种视频内容查看方法及装置
CN110211590B (zh) 一种会议热点的处理方法、装置、终端设备及存储介质
CN111415128A (zh) 控制会议的方法、系统、装置、设备和介质
CN111883168A (zh) 一种语音处理方法及装置
CN116246610A (zh) 基于多模态识别的会议记录生成方法及系统
JP2008032825A (ja) 発言者表示システム、発言者表示方法および発言者表示プログラム
CN109376145B (zh) 影视对白数据库的建立方法、建立装置及存储介质
CN103594086B (zh) 语音处理系统、装置及方法
KR102346668B1 (ko) 회의 통역 장치
CN111461946A (zh) 一种智能公安审讯系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant