CN107220228A - 一种教学录播数据修正装置 - Google Patents
一种教学录播数据修正装置 Download PDFInfo
- Publication number
- CN107220228A CN107220228A CN201710444172.1A CN201710444172A CN107220228A CN 107220228 A CN107220228 A CN 107220228A CN 201710444172 A CN201710444172 A CN 201710444172A CN 107220228 A CN107220228 A CN 107220228A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- speech
- voice
- amendment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 25
- 238000012552 review Methods 0.000 claims abstract description 17
- 239000012634 fragment Substances 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 7
- 238000004088 simulation Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 13
- 230000002452 interceptive effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001012 protector Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供一种教学录播数据修正装置,所述装置使用录音设备将在网络教学或在线会议过程中的语音信号转换成带有时间戳的原始语音数据,使用语音识别模型将所述原始语音数据识别转换成原始文本数据,对所述原始文本数据进行校对,使用新文本内容替换需要修正的旧文本内容,实现对原始文本数据的修正形成修正文本数据,使用时间戳进行定位,将新文本内容的标准语音数据替换旧文本内容的相应语音数据片段,形成修正语音数据。使用本发明的装置,可以修正教学录播数据,解决了教学录播系统中,由于课堂教学中存在的各种错说、漏说、表达不标准的问题给用户带来的困扰和误导。
Description
技术领域
本发明涉及一种网络教学录播技术,可以用于基于网络教学或者在线会议等的教学活动或会议过程的录制和播放,特别是涉及一种能够对录制的教学语音数据进行修正的装置。
背景技术
近些年来,由于传统教学模式已经越来越不能满足用户对于多媒体、信息化、便于回放等新型教学方式的需求,随着互联网技术,特别是移动互联网技术的快速发展和普及,各种网络教学录播系统蓬勃发展。在网络教学中,通过课堂录制将教学过程录制下来,可以在互联网上共享教学资源,用户可以使用终端在线访问这些教学资源,可以满足用户远程学习和回顾的需求。
教学录播方面早期的技术,比如CN101141271A(公开日2008年3月12日)公开了一种网络教学的录播系统,包括:录制器、处理器、第一网络、第二网络,服务器、数据库及三个客户端。其中,录制器主要包括摄像头及无线数字话筒以录制课件的视频信息及语音数据。第一网络于将所述课件信息传送至服务器。服务器一方面用于进一步处理所述课件信息,产生课件数据,另一方面用于在数据库中搜寻并调用所述课件数据,进而将所述课件数据转换回所述课件信息。数据库用于存储所述课件数据。第二网络用于连接客户端与服务器。客户端用于方便用户查询课件信息及调用课件信息。所述专利申请公开了一种比较典型的流媒体格式录制课程的技术,现在看其主要缺点在于录制后形成的文件比较大,上传下载速度慢,需要的存储空间大等。
教学录播方面近期的技术,比如CN105306861A(公开日2016年2月3日)公开了一种有效的课堂教学录播方法和系统,在网络教学或在线会议过程中,可以实现对于用户使用多媒体白板的功能操作、讲话/说话语音、与其他用户的交流和/或辅导等的交流语音进行录制,分别形成不同的数据流,并且由网络教学的录播系统产生统一的时间戳对各种数据流进行标记,而不是完全以流媒体的格式将整个事件记录下来,使得网络用户可随时随地方便的通过网络从云端服务器或局域网服务器下载各种需要播放的数据流,获取数据流后用户终端的客户端根据时间戳再现获得数据流,有机组合播放出来给用户进行展示,从而完成点播浏览。所述专利申请公开了一种根据时间戳以三种数据流格式分别存储和记录课堂教学数据的课堂录播方法。
随着对录制课程品质的追求越来越高,越来越多的教学录播系统采用了语音识别技术,通常需要将语音转换成文字,在屏幕上以字幕方式显示或者保存为文本格式。现有技术中,关于语音识别,特别是将语音转换为文字或者将文字转换为语音的专利申请不在少数,比如:
CN101354748A(公开日2009年1月28日)公开了一种文字识别装置,包括摄像装置、字符识别装置、语音转换装置、及语音输出装置,所述摄像装置,用于摄入文字信息,将摄入的文字信息以图片形式发送到所述字符识别装置;所述字符识别装置,用于在上述图片中识别出上述文字信息,发送到所述语音转换装置;所述语音转换装置,用于将上述文字信息转换为语音数据,发送到所述语音输出装置;所述语音输出装置,用于播放上述语音数据。所述专利申请公开了一种采集和识别图像信息中的文字符号,然后将文字符号转换成语音的技术。
CN102956231A(公开日2013年3月6日)公开了一种语音识别技术领域的基于半自动校正的语音关键信息记录装置及方法,所述装置包括:关键信息提取单元和与之相连的信息校正单元,其中:关键信息提取单元获取未经校正的文本数据并提取出关键信息后输出至信息校正单元,信息校正单元输出用户反馈确认后的文本数据。本发明通过半自动的信息校正单元,降低了人工校正的工作量;利用数据库对特殊名词如地名、专业工具名称进行校正,降低了人工校正中操作员的知识量限制所造成的影响;提取语音数据中的关键信息,从而提高所记录信息的有效信息量。所述专利申请旨在解决语音转换成文本之后,对文本数据进行半自动校正的问题。
CN105159870A(公开日2015年12月16日)公开了一种精确完成连续自然语音文本化的处理系统,所述处理系统包括云端语音识别引擎及语音识别后修正平台,所述语音识别后修正平台与所述云端语音识别引擎连接,所述语音识别后修正平台包括显示单元、修正操作单元、控制单元及三维一体生成单元,所述修正操作单元包括语音修正、键盘修正、鼠标修正及键盘加鼠标的修正操作方式,其中公开了可以对于待识别的语音文件进行精细切分,实现精准识别。
CN105808197A(公开日2016年7月27日)公开了一种信息处理方法,应用于具有语音识别模块的电子设备,所述方法包括:接收输入语音数据;在依据预设的语音识别模型对所述输入语音数据进行识别得到识别结果后,当所述识别结果中的第一信息为需要修正的内容时,所述第一信息为所述识别结果中的至少一个字符,采用通过操作体输入的方式对所述识别结果中的第一信息进行修正,所述用操作体输入的方式对识别结果中的第一信息进行修正,只需对目的修正的部分进行修正,而无需用户再次输入语音数据即可得到目的结果,操作过程简单,提高了信息输入的整体速度。所述专利申请公开了可以只需要通过对语音识别后的第一处需要修正的内容进行修正,从而提高了修正的速度,但是这样的修正只是针对识别后的文本数据,其中在语音识别的过程中,使用了将待识别信息与标准语音数据进行比对,进而提高识别准确率的方式。
CN106328145A(公开日2017年1月11日)公开了一种语音修正方法及装置,包括:获取用户输入的语音数据;对所述语音数据进行识别,以得到所述语音数据对应的文本内容;当所述文本内容中包含第一预设关键词时,根据所述第一预设关键词将所述文本内容划分为原始文本和编辑文本,其中,所述编辑文本用于对所述原始文本进行修正;根据所述编辑文本从所述原始文本中提取出待修正文本;根据所述编辑文本和所述待修正文本修正所述原始文本,以得到修正后的文本。所述专利申请公开了,可以通过关键字识别的方式获得原始文本中需要编辑的文本即编辑文本,针对性的进行修正。
CN102215233A(公开日2011年10月12日)公开了一种信息系统客户端,安装于用户的终端设备中,可以应用于微博、博客、论坛或个人空间等,包括:用户交互模块以及连接所述用户交互模块的语音模块,优选的,还包括反馈模块,转换模块,所述语音模块包括语音采集单元、语音识别单元、语音合成单元,语音采集单元用于采集用户的语音;语音识别单元将语音采集单元采集的语音识别为文字输出至所述用户交互模块;语音合成单元将所述用户交互模块从所述信息系统服务器上获取的文字转换为语音向用户输出;所述反馈模块,连接所述语音识别单元,用于确认所述语音识别为文字是否正确,若正确,所述反馈模块将所述文字输出至所述用户交互模块,若不正确,所述反馈模块使所述语音采集单元重新采集用户的语音或者所述语音识别单元修正所述文字直至确认正确。所述专利申请公开了一种可以进行语音和文字分别互相转换的技术,旨在将一种格式的信息转换成另一种格式的信息,所述反馈模块如果输出的文字信息不正确,就重新采集用户语音,或者直接修正所述输出的文字信息。
CN106486113A(2017年3月8日)公开了一种会议记录方法,包括:获取语音信号;由语音转化软件将所述语音信号转化成对应的文字信息,并在文档中予以显示,其中,所述文字信息包括正确文字信息和错误文字信息;对文档中的错误文字信息进行标记,并将标记的所述错误文字信息与对应所述错误文字信息的语音信号进行关联链接;点击所述错误文字信息时,采用所述语音转化软件对与所述错误文字信息关联链接的语音信号进行二次识别,并在文档中对二次识别出来的文字信息进行可编辑显示;通过可编辑显示中对错误文字信息进行更正编辑,以得到更正的文字信息,并用所述更正的文字信息替换所述错误文字信息。
综上可见,在现有技术中,无论是教学录播领域,还是语音识别转换领域,都没有涉及对于待识别语音本身的修正构思,大家关心的都是语音识别转换特别是语音转换成文字的准确率的问题。然而,在各种教学或者会议过程中,对于任何说话者来说,都可能存在错说、漏说或者发音不标准,甚至表达不标准的情况,对于这些问题,通常是采用在语音识别时,也就是转换成文字时(比如以字幕呈现),加上文字标注(比如以括号中解释的方式)的方式进行标识。
特别地,对于教学录播系统,由于讲授的课程要进行录制并且通过网络重现给用户,错说、漏说、表达不标准等问题带来的影响因为语言数据被压缩而变得突出而且影响很大,一方面,因为用户通常难以识别出这些错误,而且即使以字幕方式进行标识,另一方面,因为使用环境的原因,用户可能不方便看字幕,仅能以语音的形式收听,语音表达不清楚,进一步影响了用户学习的效果。
针对现有技术中存在的问题,本发明旨在提供一种教学录播数据修正装置,在对语音转换成的文本进行修正的基础上,对于具体修正的文字,使用标准的语音数据替换所述修正的文字内容所对应的在原始录播语音数据中的相应的语音片段,形成标准的语音数据和对应的文本,使得在事后点播回顾录播数据的时候,可以播放不同于原始录制语音数据的正确语音,以及显示对应的正确字幕信息。
发明内容
本发明旨在提供一种具备语音修正功能的教学录播数据修正装置,包括使用录音设备将在网络教学或在线会议过程中的语音信号转换成带有时间戳的原始语音数据,使用语音识别模型将所述原始语音数据识别转换成原始文本数据,对所述原始文本数据进行校对,使用新文本内容替换需要修正的旧文本内容,实现对原始文本数据的修正形成修正文本数据,使用时间戳进行定位,将新文本内容的标准语音数据替换旧文本内容的相应语音数据片段,形成修正语音数据。
应该理解的是,尽管说明书中主要以网络教学的录播系统或者网络会议系统的名义描述了本发明的实施例,但是可以理解的是,本发明的装置还可以用于其他网络在线交流过程的录制和播放。也就是说,本发明涉及给予网络教学、在线培训、应急指挥(地图标注和语音录制)、金融系统或者在线会议登系统的教学活动或者会议过程录制及播放的方法、系统以及计算机程序产品,在网络教学、在线培训、应急指挥(地图标注及语音录制)、金融系统(操盘讲解)或者在线会议的过程中,只要涉及录制语音数据的,通过对所述语音数据识别转换后形成的文本数据的修正,将修正的文本内容的标准语音数据替换原始录制的相应语音数据,可以实现对于录制语音数据的修正。
本发明提供一种教学录播数据修正装置,在对多媒体课堂(或网络课堂)或类似场景的录制和点播回顾过程中,特别是在对多媒体课堂进行录制时,包括将语音数据、多媒体白板上的动作数据(电子白板板书)、用户终端屏幕上的操作数据、录像设备录制的视频数据等以数据流格式添加时间戳后分别保存,形成录制数据,用户登录网络教学录播系统之后,使用有线或无线局域或广域网络,获得所述录制数据,借助时间戳在用户终端上实现重现或模拟重现课堂的授课过程,从而实现对录制课堂的回顾播放或点播播放。
本发明的教学录播数据修正装置,包括文件标识生成单元、语音数据采集单元、语音数据修正单元、其他数据采集单元、录制数据播放单元和错误信息反馈单元,其中,
文件标识生成单元,用于在开始录制教学过程时,生成文件标识ID;
语音数据采集单元,用于使用音频采集设备将语音信号转换成原始语音数据,以语音数据流格式保存;
语音数据修正单元,用于修正所述原始语音数据需要修正的语音数据,形成修正语音数据;
其他数据采集单元,用于采集以下数据中的至少一种:多媒体白板上的动作数据、用户终端屏幕上的操作数据、录像设备的视频数据,对于采集的每种数据添加所述时间戳,均以数据流格式分别保存,与所述修正语音数据流和所述修正文本数据共同形成可以播放的录制数据;
录制数据播放单元,用户使用终端通过网络获取所述录制数据,根据所述时间戳组合不同数据流,从而在所述终端上播放所述录制数据,重现和/或模拟重现教学过程,实现对教学过程的学习和/或复习;
错误信息反馈单元,用户使用所述终端播放所述录制数据时,可以将发现的所述修正文本数据中的错误文字内容选定并提交反馈,反馈的内容经由管理员确认之后,更新所述修正文本数据,并重复所述语音数据替换单元,更新所述修正语音数据。
所述语音数据修正单元进一步包括语音数据识别单元、文本数据修正单元和语音数据替换单元,其中:
语音数据识别单元,用于将所述原始语音数据识别转换成原始文本数据;
文本数据修正单元,用于对所述原始文本数据进行校对,将其中需要修正的旧文字内容,修正为准确的新文字内容,形成修正文本数据;
语音数据替换单元,用于使用所述新文字内容的标准语音数据替换在所述原始语音数据中的所述旧文字内容的语音数据流片段,形成修正语音数据流。
所述语音数据采集单元,用于从至少一个语音源采集至少一个语音数据,并添加时间戳,以语音数据流格式保存;
所述语音数据识别单元,用于将所述语音数据流识别转换成文本数据,所述文本数据包含所述时间戳,根据所述时间戳可以确定所述文本数据中的每个文字内容的时间坐标。
所述语音数据替换单元,用于从标准语音数据库中,调取所述新文字内容的标准语音数据,根据所述时间戳,使用所述标准语音数据替换所述原始语音数据中的所述旧文字内容对应的语音数据流片段,从而形成修正语音数据流。
所述修正文本数据,根据所述时间戳,以字幕方式显示在所述终端的屏幕上,优选的是,显示在在播放视频数据的屏幕区域,更优选的是,所述文本数据以可编辑的方式如可选定的方式,显示在所述终端的特定区域。
在对文本数据和语音数据进行修正或更新时,形成修正历史记录,所述修正历史记录可以包括修正时间、修正内容、修正操作人、问题发现人等等。
所述语音数据替换单元,用于根据被替换的旧文字内容在所述原始语音数据中的发音时间以及新文字内容的标准语音数据的发音时间,计算出平滑系数,再根据所述平滑系数,调整所述新文字内容的发音时间,由此使得替换前后语音数据的平滑和同步。
所述旧文字内容可以为空内容,也就是,替换所述空内容的新文字内容是遗漏的,现在需要添加的文字内容。
所述新文字内容可以为空内容,也就是,被替换的所述旧文字内容是多余的,现在需要删除的文字内容。
通过本发明的方法,提高了课堂录制的水平,借助时间戳的标识,分别保存各种数据,通过对语音数据的识别转换和文本数据的修正,并根据修正的文本内容修正语音数据,修正了原始录制语音数据中需要修正的内容,克服了课堂上“少说、错说和漏说”等带来的问题,可以获得双修正后的语音数据和文本数据(字幕信息)。
本发明的上述和进一步的目的以及特征,根据结合附图的以下详细说明就会更加清楚和完整。
附图说明
图1是根据本发明的录播系统架构图;
图2是根据本发明的录播步骤流程图;和
图3是根据本发明的语音修正流程图。
具体实施方式
以下,将结合附图对本发明的具体实施方式进行进一步详细的描述。
本发明中网络教学不局限于学生和教师的课堂教学形式,其可以包括以教师和学生、或培训人为参与主体的在线网络教学、远程网络教学、本地网络教学,和以企事业单位员工等为参与主体的在线网络会议、远程网络会议、本地网络会议,以及其他的利用网络进行在线交流和/或文件内容展示的交流/交互形式,比如远程协同工作。
如图1所示,教师1、学生2分别使用安装有网络教学录播系统客户端的终端设备,通过互联网连接至教学服务器3,由此实现多媒体课堂的网络授课/听课/录制/点播/回顾等。
所述终端设备包括:处理器、网络模块、控制模块、显示模块以及智能操作系统,可以智能手机、PAD、笔记本电脑、台式电脑等。所述终端上可以设有通过数据总线连接各种拓展类设备和配件的多种数据接口。所述智能操作系统包括Windows、Android及其改进、iOS,在其上可以安装、运行应用软件,实现在智能操作系统下的各种应用软件、服务和应用程序商店/平台的功能。
终端设备可以通过RJ45/Wi-Fi/蓝牙/2G/3G/4G/G.hn/Zigbee/Z-ware/RFID等连接方式连接到互联网络,并借助互联网连接到其它的终端或其它电脑及设备,通过1394/USB/串行/SATA/SCSI/PCI-E/Thunderbolt/数据卡接口等多种数据接口或者总线方式,通过HDMI/YpbPr/SPDIF/AV/DVI/VGA/TRS/SCART/Displayport等音视频接口等连接方式,来连接各种拓展类设备和配件,组成了一个会议/教学设备互动系统。带有软件形式的声音捕捉控制模块和动作捕捉控制模块,或通过数据总线板载硬件形式的声音捕捉控制模块和动作捕捉控制模块,来实现声控和形控功能;通过音视频接口连接显示/投影模块、麦克风、音响设备和其它音视频设备,来实现显示、投影、声音接入、音视频播放,以及数字或模拟的音视频输入和输出功能;通过数据接口连接摄像头、麦克风、电子白板、RFID读取设备,实现影像接入、声音接入、电子白板的使用控制和录屏,RFID读取功能,并通过相应的接口可接入和管控移动存储设备、数字设备和其它设备;通过DLNA/IGRS技术和互联网络技术,来实现的包括多屏设备之间的操控、互动和甩屏等功能。
本发明中,处理器定义为包括但不限于:指令执行系统,如基于计算机/处理器的系统、专用集成电路(ASIC)、计算设备、或能够从非暂时性存储介质或非暂时性计算机可读存储介质取得或获取逻辑并执行非暂时性存储介质或非暂时性计算机可读存储介质中包含的指令的硬件和/或软件系统。所述处理器还可以包括任意控制器,状态机,微处理器,基于互联网络的实体、服务或特征,或它们的任意其它模拟的、数字的和/或机械的实现方式。
本发明中,互联网可以包括局域网和广域互联网,可以是有线互联网,也可以是无线互联网,或者这些网络的任意组合。
如图2所示,根据本发明的网络教学录播的主要步骤:
S100:启动录播系统:用户使用终端登录,智能电子白板、教师终端屏幕操作动作捕捉程序、摄像机、麦克风等多媒体教学设备进入工作状态,所述摄像机可以不止一个,所述麦克风包括至少一个,分别用于捕捉教师的语音和用于捕捉学生的语音,录播系统的教学服务器可以用于产生数字时间戳。
S200:开始网络教学:教师开始课堂教学,录播系统生成一个教学文件ID,在教学过程中,比如教师使用智能电子白板进行展示(作为授课板书或者讲解题板)、使用实时语音进行讲解、使用实时交互语音进行交流、还可以在教师终端上使用电子文档比如PPT文档进行展示和说明,从而进行多媒体授课及与学生互动问答交流。
S300:录制数据保存:在录制过程中,智能电子白板上的动作以“动作数据流+时间戳”的方式传输和保存,授课及互动过程中的语音以“语音数据流+时间戳”的方式传输和保存,教师终端上涉及的电子文档如PPT文档的操作动作以“电子文档操作数据流+时间戳”的方式传输和保存,采集的视频数据以“视频数据流+时间戳”的方式传输和保存。整个授课过程中的所有这些数据流与教学文件ID绑定实现对应录制课程的标识。这些数据,可以根据需要进行添加或删减,一种典型的情况是所录制数据包括语音数据、视频数据和PPT文档演示数据,而PPT文档演示数据通常也可以以视频数据的方式进行展示,不一定非要使用动作操作进行重现。在现有技术中,分类录制分屏展示是比较成熟的技术。录制得到的各种数据可以先保存到本地数据库或者终端数据库,再由这些数据库通过网络上传到远程教学服务器,也可直接保存到远程教学服务器。
在一个示例中,对于语音数据的采集,可以使用语音采集设备比如各种可用的麦克风采集语音信号,将语音信号转换成语音数据,以数据流格式保存。对于单一语音源的情况,可以标记出语音源的性别,这样在进行后续语音修正(替换)操作时,可以选择相应性别的标准语音。对于多个语音源的情况,可以分别识别出语音源的性别,这些多个语音源可以识别出来,添加时间戳后分别进行保存,将多个语音源分别识别出来的方法可以使用现有技术,在此不再赘述。
S400:语音数据转换:对于录制的原始语音数据,首先通过语音模型进行识别转换形成原始文本数据,再对所述原始文本数据进行校对修正。在形成原始文本数据时,将原始语音数据的时间戳添加到文本数据中,使得可以对文本数据中的文字内容进行时间定位。所述文字内容可以是文本数据中的至少一个字、词、句或段。通过所述时间定位获取可以标记音频数据的时间维度的时钟数据,也就是可以相对定位一个音频数据中某个数据片段的时间点的时钟参数。
在进行识别转换时,可以使用各种可用的语音模型将原始语音数据识别转换为原始文本数据,在进行语音数据识别转换时,首先识别语音源的性别,并且将性别信息添加到所述文本数据中。对于文本数据的校对修正包括人工校对、半自动校对、语音校对等。
S500:语音数据修正:使用语音修正指令即使用语音校对方式(CN106406807A)对原始文本数据进行修正,但是本发明不限于此。语音校对单元包括,接受语音修正指令,在待修正的文本数据中识别与所述语音修正指令读音相同的所有文字以及这些文字内容的时间戳,确定识别出的所有文字中的待修正文字,显示所述待修正文字对应的备选文字列表,接受备选文字选定指令,进行替换操作,形成修正文本数据,从而完成文本修正。
完成文本修正的过程中,从标准语音数据库中调取修正文字的标准发音信息,根据被修正的文字的时间戳,用标准发音信息替换对应的语音数据片段,形成修正语音数据。所述标准语音数据库可以包括女生标准语音数据库、男生标准语音数据库和/或个性化标准语音数据库。所述个性化标准语音数据库是,通过对于特定发音人录制形成的标准语音数据库,或者通过语料训练,形成的特定发音人的语音模型,可以用于语音识别,还可以用于生成个性化标准语音数据库。
在从标准语音数据中调取标准发音信息时,根据所述原始文本数据的语音源性别信息,或者其他个性化信息,选择相应的标准语音。作为一种选择,所述旧文字内容可以为空内容,也就是,替换所述空内容的新文字内容是遗漏的,现在需要添加的文字内容。所述新文字内容可以为空内容,也就是,被替换的所述旧文字内容是多余的,现在需要删除的文字内容。
如图3所示,在一个示例中,语音修正的具体步骤如下:
S11:接收指令
当识别的文本数据发现问题时,如需要修正的文字为“胡建”,接收语音修正指令,如用户可以通过此单元发出“选中胡建”的语音指令,发起修正问题文字“胡建”的指令。
S12:查找文字
在原始文本数据中识别与所述语音修正指令指定读音相同的所有文字。
S13:确定文字
确定识别出的文本数据中的所有待修正文字。
其中,当在文本数据中出现多个与语音修正指令指定读音相同的文字时,用户可以通过进一步的语音指令明确哪个文字需要修正。例如,在待修正文本数据中从前往后识别出读音为“hujian”的文字依次有:“胡建”、“互见”、“护肩”...等,用户当前想要将识别出的第一个文字进行修正,则可发出“第一个”的语音来将识别出的第一个文字确定为当前待修正的文字。
S14:备选列表
显示所述待修正的文字对应的备选文字列表;所述备选文字与所述待修正的文字同音。
其中,当选定了待修正的文字后,在所述文字的附近显示同音的备选文字列表,便于用户后续选择备选文字。例如:若将文本数据中的第一个发音为“hujian”的文字“胡建”确定为待修正文字,则此步骤中在文本数据中的第一个发音为“hujian”的文字“胡建”附近显示备选文字列表:1、福建;2、附件;3、护肩;4、互见,...
S15:选定指令
接收备选文字选定指令。
其中,用户可以通过语音说出备选文字在备选文字列表中的位置,完成备选文字选中的工作。比如使用福建替换胡建。
S16:修正文字
将所述待修正文字修正为所述备选文字选定指令所指定的备选文字。在进行修正替换的过程中,将待修正文字的时间位置信息,以时间戳进行标记,从而准确定位被修正文字所对应的语音数据的时间位置信息。优选的是,在修正文本数据和语音数据流的过程中,形成修正历史记录,所述修正历史记录包括修正时间、修正内容、修正操作人等等。
S17:语音片段
从标准语音库中,根据备选文字搜索其标准语音数据,如果多字词或句子,就组合形成一段新的语音数据片段。优选的是,文本数据中包含有语音源的性别信息,在进行所述搜索时,就可以根据性别信息获得女生发音或男生发音,或者各种高音、低音等不同的语音数据。
S18:语音替换
根据之前所述的时间位置信息,将所述新的语音数据片段替换原始语音数据中的相应语音数据片段,形成新的语音数据。优选的是,由于标准语音的发音时间和被替换的语音的发音时间,即使文字内容完全相同,发音时间也不一定相同,为了平滑的无缝替换,可以先根据两个语音片段的发音时间计算出平滑系数,根据所述平滑系数,加快或减慢所述标准发音时间,使得替换后和替换前同样文字内容的发音持续时间保持一致。
用户使用终端通过互联网登录录播系统,可以实现对录制课堂的回顾播放或点播播放。当然,对于某些用户比如网络在线会议用户,这些录制课堂可以是网络在线会议的过程记录文件,录播系统会把用户请求回顾或点播的教学文件ID通过Socket加密信道发送给教学服务器,通过教学文件ID获取此课程的带有时间戳的动作数据流、语音数据流、电子文档操作数据流、视频数据流以及文本数据等发送给请求相应教学文件ID的用户终端,用户终端在本地根据时间戳还原(重现或者模拟重现)整个课堂教学过程。这些数据流可以在用户终端的各个功能区分别进行显示或者切换式显示。对于视频一般可以在用户终端上进行重现,但是对于电子白板的操作,通过电子白板的模拟程序,可以实现模拟重现。
当然,用户可以选择只播放这些数据流的至少一种,比如可以只听语音。对于文本数据,可以以字幕的方式显示在用户终端的特定区域,比如视频展示区内。
在一个示例中,起到字幕作用的文本数据可以显示在特定的可编辑区域,使得用户可以进行选定操作等,这样对于发现的不标准的语音数据或者文字信息,只需要选定相应的文字信息即可进行反馈。录播系统的管理员在接到用户的反馈之后,进行核实,如果发现确实存在错误,就重复前面的文本数据和语音数据流的修正步骤,使得文本数据和语音数据能够得到不断的完善和改进。
在上述实施例中,终端和服务器是可以由与包含互联网在内的通信网络进行连接的构成,所以也可以是以经由通信网络下载程序代码的方式流动地承载程序代码的媒体。在这样从通信网络下载程序代码的情况下,也可以是所述下载用的程序预先保存在主体装置中或者从别的记录媒体进行安装的构成。此外,本发明可以通过上述程序代码以电子传输所体现的、被嵌入于载波中的计算机数据信号的形态而得以实现。以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修正、替换、改进,均应包含在本发明所附的权利要求概况的保护范围之内。
Claims (10)
1.一种教学录播数据修正装置,包括文件标识生成单元、语音数据采集单元、和语音数据修正单元,其特征在于,
所述文件标识生成单元,用于在开始录制教学过程时,生成文件标识ID;
所述语音数据采集单元,用于使用音频采集设备将录制的语音信号转换成原始语音数据,并以语音数据流格式保存;
语音数据修正单元,用于修正所述原始语音数据中需要修正的语音数据,形成修正语音数据。
2.根据权利要求1的装置,所述语音数据修正单元具体包括:
语音数据识别单元,用于将所述原始语音数据识别转换成原始文本数据;
文本数据修正单元,用于对所述原始文本数据进行校对,将其中需要修正的旧文字内容,修正为准确的新文字内容,形成修正文本数据;
语音数据替换单元,用于使用所述新文字内容的标准语音数据替换在所述原始语音数据中的所述旧文字内容的语音数据流片段,形成修正语音数据流。
3.根据权利要求2的装置,其特征在于,
所述语音数据采集单元,用于从至少一个语音源采集至少一个语音数据,并添加时间戳,以语音数据流格式保存;
所述语音数据识别单元,用于将所述语音数据流识别转换成文本数据,所述文本数据包含所述时间戳,根据所述时间戳可以确定所述文本数据中的每个文字内容的时间坐标。
4.根据权利要求3的装置,其特征在于,
所述语音数据替换单元,用于从标准语音数据库中,调取所述新文字内容的标准语音数据,根据所述时间戳,使用所述标准语音数据替换所述原始语音数据中的所述旧文字内容对应的语音数据流片段,从而形成修正语音数据流。
5.根据权利要求4的装置,进一步包括其他数据采集单元,
所述其他数据采集单元,用于采集以下数据中的至少一种:多媒体白板上的动作数据、用户终端屏幕上的操作数据、录像设备的视频数据,对于采集的每种数据添加时间戳,并均以数据流格式分别保存,与所述修正语音数据流和所述修正文本数据共同形成可以播放的录制数据。
6.根据权利要求5的装置,进一步包括录制数据播放单元,
通过所述录制数据播放单元,用户使用终端通过网络获取所述录制数据,根据所述时间戳组合获取的不同数据流,从而在所述终端上播放所述录制数据,重现和/或模拟重现教学过程,实现对教学过程的学习和/或复习。
7.根据权利要求6的装置,其特征在于,
所述修正文本数据,根据所述时间戳,以字幕方式显示在所述终端的屏幕上,优选的是,显示在在播放视频数据的屏幕区域,更优选的是,所述文本数据以可编辑的方式如可选定的方式,显示在所述终端的特定区域。
8.根据权利要求7的装置,进一步包括错误信息反馈单元,
所述错误信息反馈单元,用户使用所述终端播放所述录制数据时,可以将发现的所述修正文本数据中的错误文字内容选定并提交反馈,反馈的内容经由管理员确认之后,更新所述修正文本数据,并通过所述语音数据替换单元,更新所述修正语音数据。
9.根据权利要求8的装置,其特征在于,
在对文本数据和语音数据进行修正时,形成修正历史记录,所述修正历史记录可以包括修正时间、修正内容、修正操作人、问题发现人等等。
10.根据权利要求4的装置,其特征在于,
所述语音数据替换单元,用于根据被替换的旧文字内容在所述原始语音数据中的发音时间以及新文字内容的标准语音数据的发音时间,计算出平滑系数,再根据所述平滑系数,调整所述新文字内容的发音时间,由此使得替换前后语音数据的平滑和同步。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710444172.1A CN107220228B (zh) | 2017-06-13 | 2017-06-13 | 一种教学录播数据修正装置 |
PCT/CN2017/099055 WO2018227761A1 (zh) | 2017-06-13 | 2017-08-25 | 一种教学录播数据修正装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710444172.1A CN107220228B (zh) | 2017-06-13 | 2017-06-13 | 一种教学录播数据修正装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107220228A true CN107220228A (zh) | 2017-09-29 |
CN107220228B CN107220228B (zh) | 2019-08-16 |
Family
ID=59948760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710444172.1A Active CN107220228B (zh) | 2017-06-13 | 2017-06-13 | 一种教学录播数据修正装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107220228B (zh) |
WO (1) | WO2018227761A1 (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767871A (zh) * | 2017-10-12 | 2018-03-06 | 安徽听见科技有限公司 | 文本显示方法、终端及服务器 |
CN107820112A (zh) * | 2017-11-15 | 2018-03-20 | 安徽声讯信息技术有限公司 | 一种音频文字直播系统 |
CN108320318A (zh) * | 2018-01-15 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN108962293A (zh) * | 2018-07-10 | 2018-12-07 | 武汉轻工大学 | 录像修正方法、系统、终端设备及存储介质 |
CN109243484A (zh) * | 2018-10-16 | 2019-01-18 | 上海庆科信息技术有限公司 | 一种会议发言记录的生成方法及相关装置 |
WO2019019406A1 (zh) * | 2017-07-28 | 2019-01-31 | 深圳市鹰硕技术有限公司 | 一种用于更新教学录播数据的装置 |
CN109300468A (zh) * | 2018-09-12 | 2019-02-01 | 科大讯飞股份有限公司 | 一种语音标注方法及装置 |
CN109685049A (zh) * | 2017-10-16 | 2019-04-26 | 富士施乐株式会社 | 信息处理装置 |
CN109782986A (zh) * | 2018-12-14 | 2019-05-21 | 浙江学海教育科技有限公司 | 一种教学课件的制作方法、存储介质、及应用系统 |
CN109858005A (zh) * | 2019-03-07 | 2019-06-07 | 百度在线网络技术(北京)有限公司 | 基于语音识别的文档更新方法、装置、设备及存储介质 |
CN110390930A (zh) * | 2018-04-15 | 2019-10-29 | 高翔 | 一种音频文字校对的方法和系统 |
CN110534100A (zh) * | 2019-08-27 | 2019-12-03 | 北京海天瑞声科技股份有限公司 | 一种基于语音识别的中文语音校对方法和装置 |
CN110858492A (zh) * | 2018-08-23 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 音频剪辑方法、装置、设备和系统及数据处理方法 |
CN110880316A (zh) * | 2019-10-16 | 2020-03-13 | 苏宁云计算有限公司 | 一种音频的输出方法和系统 |
CN110930997A (zh) * | 2019-12-10 | 2020-03-27 | 四川长虹电器股份有限公司 | 一种利用深度学习模型对音频进行标注的方法 |
CN111399800A (zh) * | 2020-03-13 | 2020-07-10 | 胡勇军 | 一种语音输入法系统 |
CN116524910A (zh) * | 2023-06-25 | 2023-08-01 | 安徽声讯信息技术有限公司 | 一种基于麦克风的文稿预制方法及系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110459233B (zh) * | 2019-03-19 | 2022-02-11 | 深圳壹秘科技有限公司 | 语音的处理方法、装置和计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207769A (zh) * | 2012-01-16 | 2013-07-17 | 联想(北京)有限公司 | 语音修正的方法及用户设备 |
CN105244022A (zh) * | 2015-09-28 | 2016-01-13 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366731B (zh) * | 2012-03-31 | 2019-02-01 | 上海果壳电子有限公司 | 语音合成方法及系统 |
CN103366741B (zh) * | 2012-03-31 | 2019-05-17 | 上海果壳电子有限公司 | 语音输入纠错方法及系统 |
CN105306861B (zh) * | 2015-10-15 | 2017-03-01 | 深圳市鹰硕技术有限公司 | 一种网络教学录播方法及系统 |
CN106710597B (zh) * | 2017-01-04 | 2020-12-11 | 广东小天才科技有限公司 | 语音数据的录音方法及装置 |
-
2017
- 2017-06-13 CN CN201710444172.1A patent/CN107220228B/zh active Active
- 2017-08-25 WO PCT/CN2017/099055 patent/WO2018227761A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207769A (zh) * | 2012-01-16 | 2013-07-17 | 联想(北京)有限公司 | 语音修正的方法及用户设备 |
CN105244022A (zh) * | 2015-09-28 | 2016-01-13 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019019406A1 (zh) * | 2017-07-28 | 2019-01-31 | 深圳市鹰硕技术有限公司 | 一种用于更新教学录播数据的装置 |
CN107767871A (zh) * | 2017-10-12 | 2018-03-06 | 安徽听见科技有限公司 | 文本显示方法、终端及服务器 |
CN109685049A (zh) * | 2017-10-16 | 2019-04-26 | 富士施乐株式会社 | 信息处理装置 |
CN107820112A (zh) * | 2017-11-15 | 2018-03-20 | 安徽声讯信息技术有限公司 | 一种音频文字直播系统 |
CN108320318A (zh) * | 2018-01-15 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN108320318B (zh) * | 2018-01-15 | 2023-07-28 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN110390930A (zh) * | 2018-04-15 | 2019-10-29 | 高翔 | 一种音频文字校对的方法和系统 |
CN108962293B (zh) * | 2018-07-10 | 2021-11-05 | 武汉轻工大学 | 录像修正方法、系统、终端设备及存储介质 |
CN108962293A (zh) * | 2018-07-10 | 2018-12-07 | 武汉轻工大学 | 录像修正方法、系统、终端设备及存储介质 |
CN110858492A (zh) * | 2018-08-23 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 音频剪辑方法、装置、设备和系统及数据处理方法 |
CN109300468A (zh) * | 2018-09-12 | 2019-02-01 | 科大讯飞股份有限公司 | 一种语音标注方法及装置 |
CN109300468B (zh) * | 2018-09-12 | 2022-09-06 | 科大讯飞股份有限公司 | 一种语音标注方法及装置 |
CN109243484A (zh) * | 2018-10-16 | 2019-01-18 | 上海庆科信息技术有限公司 | 一种会议发言记录的生成方法及相关装置 |
CN109782986A (zh) * | 2018-12-14 | 2019-05-21 | 浙江学海教育科技有限公司 | 一种教学课件的制作方法、存储介质、及应用系统 |
CN109858005A (zh) * | 2019-03-07 | 2019-06-07 | 百度在线网络技术(北京)有限公司 | 基于语音识别的文档更新方法、装置、设备及存储介质 |
CN109858005B (zh) * | 2019-03-07 | 2024-01-12 | 百度在线网络技术(北京)有限公司 | 基于语音识别的文档更新方法、装置、设备及存储介质 |
CN110534100A (zh) * | 2019-08-27 | 2019-12-03 | 北京海天瑞声科技股份有限公司 | 一种基于语音识别的中文语音校对方法和装置 |
CN110880316A (zh) * | 2019-10-16 | 2020-03-13 | 苏宁云计算有限公司 | 一种音频的输出方法和系统 |
CN110930997B (zh) * | 2019-12-10 | 2022-08-16 | 四川长虹电器股份有限公司 | 一种利用深度学习模型对音频进行标注的方法 |
CN110930997A (zh) * | 2019-12-10 | 2020-03-27 | 四川长虹电器股份有限公司 | 一种利用深度学习模型对音频进行标注的方法 |
CN111399800A (zh) * | 2020-03-13 | 2020-07-10 | 胡勇军 | 一种语音输入法系统 |
CN116524910A (zh) * | 2023-06-25 | 2023-08-01 | 安徽声讯信息技术有限公司 | 一种基于麦克风的文稿预制方法及系统 |
CN116524910B (zh) * | 2023-06-25 | 2023-09-08 | 安徽声讯信息技术有限公司 | 一种基于麦克风的文稿预制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107220228B (zh) | 2019-08-16 |
WO2018227761A1 (zh) | 2018-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220228B (zh) | 一种教学录播数据修正装置 | |
CN109324811B (zh) | 一种用于更新教学录播数据的装置 | |
CN109698920B (zh) | 一种基于互联网教学平台的跟随教学系统 | |
CN109801193B (zh) | 一种具有语音评价功能的跟随教学系统 | |
US12080299B2 (en) | Systems and methods for team cooperation with real-time recording and transcription of conversations and/or speeches | |
US8997004B2 (en) | System and method for real-time observation assessment | |
CN209980508U (zh) | 一种智慧黑板,及智慧教室的教学系统 | |
CN102819969B (zh) | 多媒体教育平台的实现方法及多媒体教育平台系统 | |
CN109801194A (zh) | 一种具有远程评价功能的跟随教学方法 | |
US6516340B2 (en) | Method and apparatus for creating and executing internet based lectures using public domain web page | |
JP2018517916A (ja) | ネット教育における記録・再生方法およびシステム | |
US8930308B1 (en) | Methods and systems of associating metadata with media | |
CN106375296A (zh) | 一种多媒体课件教学直播方法 | |
CN204887304U (zh) | 一种录屏终端设备 | |
US12020722B2 (en) | Systems and methods for processing and presenting conversations | |
CN104408984A (zh) | 一种多个教学端的智慧教学系统 | |
CN109697906B (zh) | 一种基于互联网教学平台的跟随教学方法 | |
TW201624467A (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
US20150213793A1 (en) | Methods and systems for converting text to video | |
TW201624468A (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
US20090112604A1 (en) | Automatically Generating Interactive Learning Applications | |
CN114913042A (zh) | 教学课件生成方法、装置、电子设备及存储介质 | |
CN105378829A (zh) | 记笔记辅助系统、信息递送设备、终端、记笔记辅助方法和计算机可读记录介质 | |
KR20190142761A (ko) | 멀티미디어 핵심추출로 새로운 콘텐츠 만들기 | |
CN116312083A (zh) | 课程文件生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200828 Address after: 512000 101, building 31, Huangshaping Innovation Park, phase I, guanshaocheng, Wujiang District, Shaoguan City, Guangdong Province Patentee after: YINGSHUO (Shaoguan) Information Industry Group Co., Ltd Address before: 518100 Guangdong city of Shenzhen province Baoan District Xin'an three industrial zone 1 road Cantor Fitzgerald building two floor, Room 202 Patentee before: SHENZHEN EAGLESOUL TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |