CN106409296A - 基于分核处理技术的语音快速转写校正系统 - Google Patents

基于分核处理技术的语音快速转写校正系统 Download PDF

Info

Publication number
CN106409296A
CN106409296A CN201610826618.2A CN201610826618A CN106409296A CN 106409296 A CN106409296 A CN 106409296A CN 201610826618 A CN201610826618 A CN 201610826618A CN 106409296 A CN106409296 A CN 106409296A
Authority
CN
China
Prior art keywords
recording
voice
processor
microcontroller
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610826618.2A
Other languages
English (en)
Inventor
虞焰兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Voice Communication Information Technology Co Ltd
Original Assignee
Anhui Voice Communication Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Voice Communication Information Technology Co Ltd filed Critical Anhui Voice Communication Information Technology Co Ltd
Priority to CN201610826618.2A priority Critical patent/CN106409296A/zh
Publication of CN106409296A publication Critical patent/CN106409296A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/16Storage of analogue signals in digital stores using an arrangement comprising analogue/digital [A/D] converters, digital memories and digital/analogue [D/A] converters 

Abstract

本发明公开了一种基于分核处理技术的语音快速转写校正系统,包括语音采集单元、录音单元、语音识别处理器、录音播放处理器、文档编辑器和微控制器。本发明通过语音采集单元获取语音信息,通过录音单元录制语音信息,通过语音识别处理器将语音转写为文字,通过录音播放处理器播放录音,基于分核处理技术,双核双线程同时工作,实现录音和文字同步处理,并且通过延时模块将录音延时输出,用户先浏览文字,再收听到录音,方便用户理解录音内容,更好的对文字进行修正;使用微控制器对两个处理器单独控制,在不影响将语音转写为文字的情况下,单独控制录音在线播放或暂停,方便用户校正文字,提高语音识别和文字校正的准确性。

Description

基于分核处理技术的语音快速转写校正系统
技术领域
本发明属于语音识别技术领域,涉及一种语音转写校正系统,具体是一种基于分核处理技术的语音快速转写校正系统。
背景技术
目前,电视台字幕都是预先准备好的,然后播音员读出来,观众也是看着文字听声音,印象深刻,但是,预先需要准备文字,耗费时间,采编也比较麻烦,并且在直播采访时无法同步字幕;还有很多会议,都是速录师打字,观众根据文字听声音,但是,都是声音读完了,文字才出来,不能同步,文字也只是一些要点记录,使用语音速记本,也是先有声音,文字才能显示,但是,修改的时候,修改的速度跟不上说话的速度,从而,修改难以持续下去,因而,需要提供一种声音和文字能够同步输出的系统,本案由此产生。
发明内容
本发明的目的在于提供一种使用方便、准确率高的基于分核处理技术的语音快速转写校正系统。
本发明的目的可以通过以下技术方案实现:
基于分核处理技术的语音快速转写校正系统,包括语音采集单元、录音单元、数据存储单元、语音识别处理器、录音播放处理器、文档编辑器、微控制器、输入单元、显示器以及音频播放器;
所述的语音采集单元连接录音单元和语音识别处理器,用于采集用户的语音信息,并输出到录音单元和语音识别处理器;
所述的录音单元连接数据存储单元和录音播放处理器,用于录制用户的语音信息,并进行编码,生成音频文件,将录制的语音信息实时发送到录音播放处理器,将最终生成的音频文件发送到数据存储单元;
所述的输入单元连接微控制器和文档编辑器,用于向微控制器输入控制指令以及向文档编辑器输入文字信息;
所述的微控制器连接语音识别处理器和录音播放处理器,用于根据接收到的控制指令,输出控制信号分别控制语音识别处理器和录音播放处理器;
所述的语音识别处理器连接文档编辑器,用于对接收到的语音信息进行识别,转写为文字信息,发送到文档编辑器;
所述的文档编辑器连接显示器和数据存储单元,用于将接收到的文字信息发送到显示器进行实时显示,同时用户可通过输入单元对文档编辑器内文字信息进行修改,最终生成文档文件输出到数据存储单元;
所述的数据存储单元,用于保存接收到的音频文件和文档文件;
所述的录音播放处理器连接音频播放器,用于对录音单元录制的语音信息进行处理,生成音频流输出到音频播放器进行在线播放,并根据微控制器的控制信号控制录音的播放/暂停。
进一步地,所述的录音播放处理器包括
时钟模块,用于记录录音播放的起始时间以及停止时间;
播放模块,用于对录音单元录制的语音信息进行处理,生成音频流输出;
延时模块,用于将播放模块生成的音频流延迟预设时间后输出;其中,预设时间为500ms。
本发明的有益效果:本发明通过语音采集单元获取语音信息,通过录音单元录制语音信息,通过语音识别处理器将语音转写为文字,通过录音播放处理器播放录音,基于分核处理技术,双核双线程同时工作,实现录音和文字同步处理,并且通过延时模块将录音延时输出,用户先浏览文字,再收听到录音,方便用户理解录音内容,更好的对文字进行修正;使用微控制器对两个处理器单独控制,在不影响将语音转写为文字的情况下,单独控制录音在线播放或暂停,方便用户校正文字,提高语音识别和文字校正的准确性。
附图说明
下面结合附图和具体实施例对本发明作进一步详细描述。
图1是本发明的系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于分核处理技术的语音快速转写校正系统,包括语音采集单元、录音单元、数据存储单元、语音识别处理器、录音播放处理器、文档编辑器、微控制器(MCU)、输入单元、显示器以及音频播放器。
语音采集单元连接录音单元和语音识别处理器,用于采集用户的语音信息,并输出到录音单元和语音识别处理器;其中,语音采集单元使用高清麦克风采集语音信息。
录音单元连接数据存储单元和录音播放处理器,用于录制用户的语音信息,并进行编码,生成音频文件,将录制的语音信息实时发送到录音播放处理器,将最终生成的音频文件发送到数据存储单元。
输入单元连接微控制器和文档编辑器,用于向微控制器输入控制指令以及向文档编辑器输入文字信息;其中,输入单元可采用鼠标、键盘或触摸屏等。
微控制器连接语音识别处理器和录音播放处理器,用于根据接收到的控制指令,采用分核处理技术,输出控制信号分别控制语音识别处理器和录音播放处理器。
语音识别处理器连接文档编辑器,用于对接收到的语音信息进行识别,转写为文字信息,发送到文档编辑器。
文档编辑器连接显示器和数据存储单元,用于将接收到的文字信息发送到显示器进行实时显示,同时用户可通过输入单元对文档编辑器内文字信息进行修改,最终生成文档文件输出到数据存储单元。
数据存储单元,用于保存接收到的音频文件和文档文件;其中,数据存储单元采用本地硬盘。
录音播放处理器连接音频播放器,用于对录音单元录制的语音信息进行处理,生成音频流输出到音频播放器进行在线播放,并根据微控制器的控制信号控制录音的播放/暂停。
录音播放处理器包括时钟模块、播放模块和延时模块。
时钟模块,用于记录录音播放的起始时间以及停止时间。
播放模块,用于对录音单元录制的语音信息进行处理,生成音频流输出。
延时模块,用于将播放模块生成的音频流延迟预设时间后输出;其中,预设时间为500ms。
本发明工作过程:首先,语音采集单元采集用户语音信息,并发送到录音单元和语音识别处理器,录音单元对语音信息进行录制,并进行编码,生成音频文件存储到数据存储单元,同时将录制的语音信息实时发送到录音播放处理器;
用户通过输入单元输入控制指令,微控制器根据接收到的控制指令分别控制语音识别处理器和录音播放处理器工作,语音识别处理器对接收到的语音信息进行识别,转写为文字信息,发送到文档编辑器,并通过显示器实时显示;录音播放处理器的播放模块对录音单元录制的语音信息进行处理,生成音频流,经延时模块延时500ms后,输出到音频播放器进行在线播放,同时,通过时钟模块记录播放的起始时间。
用户通过显示器查看文字信息,通过音频播放器收听录音,通过输入单元对文档编辑器内的文字进行修正,并生成文本文档保存到数据存储单元。由于录音延迟播放,用户先浏览文字,再收听到录音,方便用户理解录音内容,更好的对文字进行修正。
当用户修正文字编辑器内的文字时,可通过输入单元输入控制指令,微处理器控制录音播放处理器暂停工作,暂停录音的播放,此时时钟模块记录播放的停止时间;当用户需要继续播放录音时,通过输入单元输入控制指令,微处理器控制录音播放处理器工作,播放模块根据时钟模块记录的起始时间和停止时间获取录音的播放时间,从暂停节点开始继续播放,时钟模块再次记录播放的起始时间,实现录音在线播放的播放/暂停,方便用户校正文字。
本发明通过语音采集单元获取语音信息,通过录音单元录制语音信息,通过语音识别处理器将语音转写为文字,通过录音播放处理器播放录音,基于分核处理技术,双核双线程同时工作,实现录音和文字同步处理,并且通过延时模块将录音延时输出,用户先浏览文字,再收听到录音,方便用户理解录音内容,更好的对文字进行修正;使用微控制器对两个处理器单独控制,在不影响将语音转写为文字的情况下,单独控制录音在线播放或暂停,方便用户校正文字,提高语音识别和文字校正的准确性,可广泛用于会议记录、直播字幕制作等方面。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (2)

1.基于分核处理技术的语音快速转写校正系统,其特征在于:包括语音采集单元、录音单元、数据存储单元、语音识别处理器、录音播放处理器、文档编辑器、微控制器、输入单元、显示器以及音频播放器;
所述的语音采集单元连接录音单元和语音识别处理器,用于采集用户的语音信息,并输出到录音单元和语音识别处理器;
所述的录音单元连接数据存储单元和录音播放处理器,用于录制用户的语音信息,并进行编码,生成音频文件,将录制的语音信息实时发送到录音播放处理器,将最终生成的音频文件发送到数据存储单元;
所述的输入单元连接微控制器和文档编辑器,用于向微控制器输入控制指令以及向文档编辑器输入文字信息;
所述的微控制器连接语音识别处理器和录音播放处理器,用于根据接收到的控制指令,输出控制信号分别控制语音识别处理器和录音播放处理器;
所述的语音识别处理器连接文档编辑器,用于对接收到的语音信息进行识别,转写为文字信息,发送到文档编辑器;
所述的文档编辑器连接显示器和数据存储单元,用于将接收到的文字信息发送到显示器进行实时显示,同时用户可通过输入单元对文档编辑器内文字信息进行修改,最终生成文档文件输出到数据存储单元;
所述的数据存储单元,用于保存接收到的音频文件和文档文件;
所述的录音播放处理器连接音频播放器,用于对录音单元录制的语音信息进行处理,生成音频流输出到音频播放器进行在线播放,并根据微控制器的控制信号控制录音的播放/暂停。
2.根据权利要求1所述的基于分核处理技术的语音快速转写校正系统,其特征在于:所述的录音播放处理器包括
时钟模块,用于记录录音播放的起始时间以及停止时间;
播放模块,用于对录音单元录制的语音信息进行处理,生成音频流输出;
延时模块,用于将播放模块生成的音频流延迟预设时间后输出;其中,预设时间为500ms。
CN201610826618.2A 2016-09-14 2016-09-14 基于分核处理技术的语音快速转写校正系统 Pending CN106409296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610826618.2A CN106409296A (zh) 2016-09-14 2016-09-14 基于分核处理技术的语音快速转写校正系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610826618.2A CN106409296A (zh) 2016-09-14 2016-09-14 基于分核处理技术的语音快速转写校正系统

Publications (1)

Publication Number Publication Date
CN106409296A true CN106409296A (zh) 2017-02-15

Family

ID=57998277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610826618.2A Pending CN106409296A (zh) 2016-09-14 2016-09-14 基于分核处理技术的语音快速转写校正系统

Country Status (1)

Country Link
CN (1) CN106409296A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316642A (zh) * 2017-06-30 2017-11-03 联想(北京)有限公司 视频文件录制方法、音频文件录制方法及移动终端
CN107748602A (zh) * 2017-11-15 2018-03-02 安徽声讯信息技术有限公司 一种基于语音识别的智能语音计算机
CN108172247A (zh) * 2017-12-22 2018-06-15 北京壹人壹本信息科技有限公司 录音播放方法、移动终端及具有存储功能的装置
CN108364653A (zh) * 2018-02-12 2018-08-03 王磊 语音数据处理方法及处理装置
CN108986800A (zh) * 2017-05-31 2018-12-11 上海智觅智能科技有限公司 一种基于多处理器协调链表逻辑实时离线语音交互系统及方法
CN109600307A (zh) * 2019-01-29 2019-04-09 北京百度网讯科技有限公司 即时通讯方法、终端、设备、计算机可读介质
CN110853639A (zh) * 2019-10-23 2020-02-28 天津讯飞极智科技有限公司 语音转写方法及相关装置
CN112925500A (zh) * 2021-01-20 2021-06-08 深圳康佳电子科技有限公司 一种会议设备
CN113068058A (zh) * 2021-03-19 2021-07-02 安徽宝信信息科技有限公司 一种基于语音识别及转写技术的实时字幕上屏直播系统
CN113571061A (zh) * 2020-04-28 2021-10-29 阿里巴巴集团控股有限公司 语音转写文本编辑系统、方法、装置及设备
WO2022204937A1 (zh) * 2021-03-30 2022-10-06 江苏树实科技有限公司 基于语音识别设备的文本输入系统及其方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5031113A (en) * 1988-10-25 1991-07-09 U.S. Philips Corporation Text-processing system
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
CN1460246A (zh) * 2001-03-29 2003-12-03 皇家菲利浦电子有限公司 在同步回放的过程中文本编辑所识别的语音
GB2390930B (en) * 1999-02-05 2004-03-10 Custom Speech Usa Inc System and method for automating transcription services
US20060195318A1 (en) * 2003-03-31 2006-08-31 Stanglmayr Klaus H System for correction of speech recognition results with confidence level indication
US20070118373A1 (en) * 2005-11-23 2007-05-24 Wise Gerald B System and method for generating closed captions
CN101253549A (zh) * 2005-08-26 2008-08-27 皇家飞利浦电子股份有限公司 将声音和人工转录文本进行同步的系统和方法
CN104123932A (zh) * 2014-07-29 2014-10-29 科大讯飞股份有限公司 一种语音转换系统及方法
CN104469543A (zh) * 2014-11-07 2015-03-25 重庆晋才富熙科技有限公司 一种基于语音技术的视频标记装置
CN104469542A (zh) * 2014-11-07 2015-03-25 重庆晋才富熙科技有限公司 一种用于全视频标记的装置
CN105791546A (zh) * 2016-02-18 2016-07-20 安徽声讯信息技术有限公司 一种由手机屏幕操控的录音和文字转写装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5031113A (en) * 1988-10-25 1991-07-09 U.S. Philips Corporation Text-processing system
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
GB2390930B (en) * 1999-02-05 2004-03-10 Custom Speech Usa Inc System and method for automating transcription services
CN1460246A (zh) * 2001-03-29 2003-12-03 皇家菲利浦电子有限公司 在同步回放的过程中文本编辑所识别的语音
US20060195318A1 (en) * 2003-03-31 2006-08-31 Stanglmayr Klaus H System for correction of speech recognition results with confidence level indication
CN101253549A (zh) * 2005-08-26 2008-08-27 皇家飞利浦电子股份有限公司 将声音和人工转录文本进行同步的系统和方法
US20070118373A1 (en) * 2005-11-23 2007-05-24 Wise Gerald B System and method for generating closed captions
CN104123932A (zh) * 2014-07-29 2014-10-29 科大讯飞股份有限公司 一种语音转换系统及方法
CN104469543A (zh) * 2014-11-07 2015-03-25 重庆晋才富熙科技有限公司 一种基于语音技术的视频标记装置
CN104469542A (zh) * 2014-11-07 2015-03-25 重庆晋才富熙科技有限公司 一种用于全视频标记的装置
CN105791546A (zh) * 2016-02-18 2016-07-20 安徽声讯信息技术有限公司 一种由手机屏幕操控的录音和文字转写装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986800A (zh) * 2017-05-31 2018-12-11 上海智觅智能科技有限公司 一种基于多处理器协调链表逻辑实时离线语音交互系统及方法
CN107316642A (zh) * 2017-06-30 2017-11-03 联想(北京)有限公司 视频文件录制方法、音频文件录制方法及移动终端
WO2019000721A1 (zh) * 2017-06-30 2019-01-03 联想(北京)有限公司 视频文件录制方法、音频文件录制方法及移动终端
CN107748602A (zh) * 2017-11-15 2018-03-02 安徽声讯信息技术有限公司 一种基于语音识别的智能语音计算机
CN108172247A (zh) * 2017-12-22 2018-06-15 北京壹人壹本信息科技有限公司 录音播放方法、移动终端及具有存储功能的装置
CN108364653A (zh) * 2018-02-12 2018-08-03 王磊 语音数据处理方法及处理装置
CN109600307A (zh) * 2019-01-29 2019-04-09 北京百度网讯科技有限公司 即时通讯方法、终端、设备、计算机可读介质
CN110853639A (zh) * 2019-10-23 2020-02-28 天津讯飞极智科技有限公司 语音转写方法及相关装置
CN110853639B (zh) * 2019-10-23 2023-09-01 天津讯飞极智科技有限公司 语音转写方法及相关装置
CN113571061A (zh) * 2020-04-28 2021-10-29 阿里巴巴集团控股有限公司 语音转写文本编辑系统、方法、装置及设备
CN112925500A (zh) * 2021-01-20 2021-06-08 深圳康佳电子科技有限公司 一种会议设备
CN113068058A (zh) * 2021-03-19 2021-07-02 安徽宝信信息科技有限公司 一种基于语音识别及转写技术的实时字幕上屏直播系统
WO2022204937A1 (zh) * 2021-03-30 2022-10-06 江苏树实科技有限公司 基于语音识别设备的文本输入系统及其方法

Similar Documents

Publication Publication Date Title
CN106409296A (zh) 基于分核处理技术的语音快速转写校正系统
CN106340291A (zh) 一种双语字幕制作方法及系统
CN103559214B (zh) 视频自动生成方法及装置
KR102481871B1 (ko) 미리 레코딩된 비디오들에 대한 자동화된 보이스 번역 더빙
CN103414949B (zh) 一种基于智能电视的多媒体编辑系统与方法
CN108259965B (zh) 一种视频剪辑方法和剪辑系统
JPH11162107A (ja) デジタルビデオ情報及びオーディオ情報を編集するためのシステム
EP1754221A1 (en) Method of and system for modifying messages
CN105704538A (zh) 一种音视频字幕生成方法及系统
CN106792145A (zh) 一种音视频自动叠加字幕的方法和装置
WO2011103258A3 (en) Video display with rendering control using metadata embedded in the bitstream
CN105679120B (zh) 基于tts技术制作标准普通话语音微课件的方法
CN103647909B (zh) 字幕调节方法及装置
WO2008070105A3 (en) System and method for capturing, editing, searching, and delivering multi-media content
CN104902145B (zh) 一种直播流视频的播放方法及装置
CN106412678A (zh) 一种视频新闻实时转写存储方法及系统
Barra Invisible mediations: The role of adaptation and dubbing professionals in shaping US TV for Italian audiences
CN109274900A (zh) 一种视频配音方法
CN110781649A (zh) 一种字幕编辑方法、装置及计算机存储介质、电子设备
JP6268131B2 (ja) 字幕制作装置および字幕制作方法
JP6485977B2 (ja) 字幕制作装置および字幕制作方法
JP2015061194A (ja) 情報処理装置、情報処理方法、及びプログラム
CN105895135A (zh) 一种基于音频编辑的动感座椅的动感数据生成方法
CN202026434U (zh) 一种语音转换机顶盒
JP4210723B2 (ja) 自動字幕番組制作システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170215