CN101178790A - 智能虚拟断句实现协同听打录入的方法 - Google Patents

智能虚拟断句实现协同听打录入的方法 Download PDF

Info

Publication number
CN101178790A
CN101178790A CNA2006101383923A CN200610138392A CN101178790A CN 101178790 A CN101178790 A CN 101178790A CN A2006101383923 A CNA2006101383923 A CN A2006101383923A CN 200610138392 A CN200610138392 A CN 200610138392A CN 101178790 A CN101178790 A CN 101178790A
Authority
CN
China
Prior art keywords
typing
point
punctuate
server
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006101383923A
Other languages
English (en)
Inventor
胡鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNA2006101383923A priority Critical patent/CN101178790A/zh
Publication of CN101178790A publication Critical patent/CN101178790A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明为:智能虚拟断句实现协同听打录入的方法。本发明公开了一种在网络环境下进行多人协同听打录入的方法,包括步骤有:通过计算机采集语音;将语音文件同步传输给服务器及各录入端;由其中一台或多台计算机,根据语音间歇计算出断句点,并将时码信息发送给服务器;服务器根据录入端的请求,组织分配给录入端任务,并将分配任务的断句时码信息作为控制命令发送给录入端;录入端根据分配任务的时码起点和终点录入指定部分语音对应的文字,并传回服务器;服务器将片段文本根据时码顺序拼合出完整的文稿。采用本发明方法的技术方案,能够使多人协同完成一个听打录入的任务,降低了对单个录入人员录入速度的要求,并提高录入文稿的质量。

Description

智能虚拟断句实现协同听打录入的方法
技术领域
本发明公开了一种在网络环境下进行多人协同完成从语音到文字转换的听打录入的方法。
背景技术
目前已有的计算机记录语音的听打方式主要有三种:一种是传统的一个人一边听一边打,独立完成全部听打任务;一种是将音频文件录制下来,然后通过程序或者手工分成以分钟设置小时计算的大片段,然后交给不同的录入人员进行听打,最后通过人工把各大片段文稿拼合到一起完成录入工作,原理上和第一种是一样的;第三种是通过将采集音频实时地分成连续地以秒为单位的小文件,然后将这些小文件传给不同的人进行录入,然后通过服务器整合出来完整的文稿。
前两种方式并不能完成实时的协同工作,而最后一种方式能够达到,但在大规模应用中,其基于服务器进行文件中转的方式,会导致服务器传输压力大,带宽需求高,运营成本高;而且由于因为每个录入端只有自己录入的小文件的语音信息,在需要上下文的时候,无法及时调用前后的语音文件进行辅助处理。
发明内容
本发明的目的是提供一种智能虚拟断句实现协同听打录入的方法。
本发明技术方案包括:
步骤1)通过计算机采集语音信号;
步骤2)将语音文件同步传输给服务器及各录入端;
步骤3)通过服务器指派网络上参与这一录入任务的任意一台或多台计算机进行断句点运算;
步骤4)接收到断句计算任务的计算机根据语音间歇的特征计算出断句点,并将断句点时码信息发送给服务器;
步骤5)服务器根据录入端的请求,组织分配给录入端录入任务,并将分配任务的断句时码信息作为控制命令发送给相应的录入端;
步骤6)录入端根据分配任务的时码起点和终点录入指定部分语音对应的文字,并回传给服务器;
步骤7)服务器将各录入端的文本根据任务分配计划的时码顺序拼合出完整的文字内容,完成将语音转化成文字的听打录入工作。
根据上面叙述的流程,所述智能虚拟断句实现协同听打录入的方法,其特征在于所属步骤2)、步骤3)、步骤4),即传输机制、分布式运算机制和断句点计算方法。
本方法中步骤2)采用点对点(P2P)的传输机制,即负责语音采集的计算机作为信息源,向服务器和录入端计算机传输所采集的语音文件;而参与该听打录入任务的服务器和录入端计算机既是文件的接收端,同时也是已经接受部分文件的服务端,向其它没有得到该部分文件的计算机传输该部分文件。这样就可以将采集的音频文件实时传输给服务器和参与该项工作的每个录入端计算机。
本方法的步骤3)中服务器将根据各录入端启动登录时运行的一个小测试程序发给服务器的系统综合性能参数,来指定其中一台或多台计算机来完成断句点的计算任务,参与计算断句点的计算机不仅包括各录入端计算机,也包括服务器本身。
本方法中步骤4)计算断句点的方法的典型步骤如下:
步骤10)取语音文件的前10秒读入缓冲区;
步骤20)根据这10秒音频文件的波形数据,找到波形峰值中最高的前10个;
步骤30)如果这10个峰值中有5个以上等于0,判断为静音片段,以这段音频文件的终点为断句点;
步骤40)记录下这个断句点;
步骤50)从语音文件断句点之后再取10秒读入缓冲区;
步骤60)如果未处理的语音文件还大于10秒,重复执行步骤20);如果已经不足10秒,跳转到步骤70)。
步骤70)直接以终点为断句点,流程结束
步骤80)如果该10个峰值中有5个以上不等于0,以这10个峰值的算数平均值的10%做为降噪基值,对这10秒音频文件进行强制降噪处理;
步骤90)判断降噪后是否出现值等于0的区域,即静音片段;
步骤100)如果没有静音片段,返回步骤60)再次进行强制降噪处理。
步骤110)计算降噪后的波形文件中每个静音片段间的间隔,如果间隔小于0.1秒,即将间隔的波形替换为等长的静音,将两个静音片段合并成一个静音片段;
步骤120)计算步骤110)处理后的波形文件中时间值在三秒以后的每个静音片段的长度;
步骤130)判断这些静音片是否有超过0.5秒的;
步骤140)如果出现超过0.5秒的静音片段,取其中最长的一个静音片段的终点做为断句点,并跳转到步骤40);
步骤150)如果没有超过0.5秒的静音片段,跳转到步骤80);
附图说明
附图1为本发明智能虚拟断句实现协同听打录入的方法的流程图
附图2为计算断句点的流程图
附图3为10秒钟语音文件的原始波形图
附图4为第一次强制降噪后的10秒钟波形
附图5为第二次强制降噪后的10秒钟波形
具体实施方式
下面结合附图进一步说明本发明的具体实施方式。
附图1为整个实现协同听打录入的方法的流程图:
步骤1)通过计算机采集语音信号;
步骤2)将语音文件同步传输给服务器及各录入端;
步骤3)通过服务器指派网络上参与这一录入任务的任意一台或多台计算机进行断句点运算;
步骤4)接收到断句计算任务的计算机根据语音间歇的特征计算出断句点,并将断句点时码信息发送给服务器;
步骤5)服务器根据录入端的请求,组织分配给录入端录入任务,并将分配任务的断句时码信息作为控制命令发送给相应的录入端;
步骤6)录入端根据分配任务的时码起点和终点录入指定部分语音对应的文字,并回传给服务器;
步骤7)服务器将各录入端的文本根据任务分配计划的时码顺序拼合出完整的文字内容,完成将语音转化成文字的听打录入工作。
附图2是上面步骤4)中指定计算机根据语音间歇的特征计算断句点的流程图:
步骤10)取语音文件的前10秒读入缓冲区;
步骤20)根据这10秒音频文件的波形数据,如附图3-10秒钟语音文件的原始波形图,找到波形峰值中最高的前10个;
步骤30)如果这10个峰值中有5个以上等于0,判断为静音片段,以这段音频文件的终点为断句点。静音片的特征很明显,波形为一条直线,如果其中出现人声,根据人声发音的特征,那怕是半秒钟的音频也一定会大大超过5个以上的峰值;另一种10秒钟中出现低于5个峰值的情况是出现在延续时间长而且有规律的音频中,如示波器出现的正弦波形,根据人声发音的特征,正常的语音发音也是不可能发出这样的声音的,所以对听打录入没有实际意义,故也被视同为静音片。
步骤40)记录下这个断句点;
步骤50)从语音文件断句点之后再取10秒读入缓冲区;
步骤60)如果未处理的语音文件还大于10秒,重复执行步骤20);如果已经不足10秒,跳转到步骤70)。
步骤70)直接以终点为断句点,流程结束
步骤80)如果该10个峰值中有5个以上不等于0,以这10个峰值的算数平均值的10%做为降噪基值,对这10秒音频文件进行强制降噪处理;
步骤90)判断降噪后是否出现值等于0的区域,即静音片段;
步骤100)如果处理后如附图4-第一次强制降噪后的10秒钟波形,没有静音片段,返回步骤60)再次进行强制降噪处理,直到得到如附图5-第二次强制降噪后的10秒钟波形所示的有静音片段的波形。
步骤110)计算降噪后的波形文件中每个静音片段间的间隔,如果间隔小于0.1秒,即将间隔的波形替换为等长的静音,将两个静音片段合并成一个静音片段;
步骤120)计算步骤110)处理后的波形文件中时间值在三秒以后的每个静音片段的长度;
步骤130)判断这些静音片是否有超过0.5秒的;
步骤140)如果出现超过0.5秒的静音片段,取其中最长的一个静音片段的终点做为断句点,并跳转到步骤40);
步骤150)如果没有超过0.5秒的静音片段,跳转到步骤80);
综上所述,通过这样的方法就可以由多人协同完成从语音到文字转换的听打录入的工作,并且具备多项优点:通过P2P架构分发语音文件,能够有效利用网络带宽,降低了大规模应用中对服务器带宽的要求;每个录入端都有完整的语音信息,所以参与这项任务的每台计算机都可以参与断句点的计算;并且当发生录入端断线或者退出等情况时,服务器调整分配的任务,只需要将任务控制信息传给其他的录入端,而不需要再次传输语音文件;通过服务器分派任务,实现多人协作完成听打录入工作,每个人只负责其中的一部分,大幅度降低了对单个录入人员录入速度的要求,同时也提高了录入文稿的完整性。

Claims (5)

1.一种智能虚拟断句实现协同听打录入的方法,其特征在于,包括:
步骤1)通过计算机采集语音信号;
步骤2)将语音文件同步传输给服务器及各录入端;
步骤3)通过服务器指派网络上参与这一录入任务的任意一台或多台计算机进行断句点运算;
步骤4)接收到断句计算任务的计算机根据语音间歇的特征计算出断句点,并将断句点时码信息发送给服务器;
步骤5)服务器根据录入端的请求,组织分配给录入端录入任务,并将分配任务的断句时码信息作为控制命令发送给相应的录入端;
步骤6)录入端根据分配任务的时码起点和终点录入指定部分语音对应的文字,并回传给服务器;
步骤7)  服务器将各录入端的文本根据任务分配计划的时码顺序拼合出完整的文字内容,完成将语音转化成文字的听打录入工作。
2.根据权利要求1所述的智能虚拟断句实现协同听打录入的方法,其特征在于,所属步骤2)、步骤3)、步骤4),即传输机制、分布式运算机制和断句点计算方法。
3.根据权利要求2所述的智能虚拟断句实现协同听打录入的方法,其特征在于,步骤2)采用点对点(P2P)的传输机制,即负责语音采集的计算机作为信息源,向服务器和录入端计算机传输所采集的语音文件;而参与该听打录入任务的服务器和录入端计算机既是文件的接收端,同时也是已经接受部分文件的服务端,向其它没有得到该部分文件的计算机传输该部分文件;这样就可以将采集的音频文件实时传输给服务器和参与该项工作的每个录入端计算机。
4.根据权利要求2所述的智能虚拟断句实现协同听打录入的方法,其特征在于,步骤3)中服务器将根据各录入端启动登录时运行的一个小测试程序发给服务器的系统综合性能参数,来指定其中一台或多台计算机来完成断句点的计算任务,参与计算断句点的计算机不仅包括各录入端计算机,也包括服务器本身。
5.根据权利要求2所述的智能虚拟断句实现协同听打录入的方法,其特征在于,步骤4)计算断句点的方法如下步骤:
步骤10)取语音文件的前10秒读入缓冲区;
步骤20)通过自动增益将音量调整到适合人耳听觉合适的范围中;
步骤30)根据这10秒音频文件的波形数据,找到波形最低点和次最低点,如果波形只有最低点而没有次最低点,判断为静音片段,以这段音频文件的终点为断句点;
步骤40)记录下这个断句点;
步骤50)从语音文件断句点之后再取10秒读入缓冲区,重复执行步骤20);
步骤60)如果该10秒波形有次最低点,以次最低点的波形数值做为降噪基值,对这10秒音频文件进行强制降噪处理;
步骤70)计算降噪后的波形文件中每个静音片段间的间隔,如果间隔小于0.1秒,即将间隔的波形替换为等长的静音,将两个静音片段合并成一个静音片段;
步骤80)计算步骤70)处理后的波形文件中时间值在三秒以后的每个静音片段的长度,如果出现超过0.5秒的静音片段,取其中最长的一个静音片段的终点做为断句点;
步骤90)记录下这个断句点;
步骤100)从语音文件断句点之后再取10秒读入缓冲区,重复执行步骤20),直到语音文件结束;
步骤110)如果没有找到断句点,则根据步骤30)降噪处理后的波形文件,在此找到波形次最低点,以这个点的数字做为降噪基值,对这10秒音频文件进行再次强制降噪处理;
步骤120)重复步骤60)继续处理。
CNA2006101383923A 2006-11-10 2006-11-10 智能虚拟断句实现协同听打录入的方法 Pending CN101178790A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2006101383923A CN101178790A (zh) 2006-11-10 2006-11-10 智能虚拟断句实现协同听打录入的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006101383923A CN101178790A (zh) 2006-11-10 2006-11-10 智能虚拟断句实现协同听打录入的方法

Publications (1)

Publication Number Publication Date
CN101178790A true CN101178790A (zh) 2008-05-14

Family

ID=39405033

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006101383923A Pending CN101178790A (zh) 2006-11-10 2006-11-10 智能虚拟断句实现协同听打录入的方法

Country Status (1)

Country Link
CN (1) CN101178790A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646645A (zh) * 2013-12-13 2014-03-19 南京丰泰通信技术股份有限公司 一种基于语音转译电文输出的方法
CN105378829A (zh) * 2013-03-19 2016-03-02 日本电气方案创新株式会社 记笔记辅助系统、信息递送设备、终端、记笔记辅助方法和计算机可读记录介质
CN105868400A (zh) * 2016-04-19 2016-08-17 乐视控股(北京)有限公司 录音信息处理方法及装置
CN108469894A (zh) * 2018-03-13 2018-08-31 深圳阿凡达智控有限公司 语音识别芯片控制方法、装置以及系统
CN109102804A (zh) * 2018-08-17 2018-12-28 飞救医疗科技(赣州)有限公司 一种语音病历终端输入的方法及其系统
CN109215673A (zh) * 2018-08-06 2019-01-15 杭州摸象大数据科技有限公司 一种VoIP电话网络RTP语音流降噪方法
CN109754808A (zh) * 2018-12-13 2019-05-14 平安科技(深圳)有限公司 语音转换文字的方法、装置、计算机设备及存储介质
CN111986654A (zh) * 2020-08-04 2020-11-24 云知声智能科技股份有限公司 降低语音识别系统延时的方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105378829A (zh) * 2013-03-19 2016-03-02 日本电气方案创新株式会社 记笔记辅助系统、信息递送设备、终端、记笔记辅助方法和计算机可读记录介质
CN105378829B (zh) * 2013-03-19 2019-04-02 日本电气方案创新株式会社 记笔记辅助系统、信息递送设备、终端、记笔记辅助方法和计算机可读记录介质
CN103646645A (zh) * 2013-12-13 2014-03-19 南京丰泰通信技术股份有限公司 一种基于语音转译电文输出的方法
CN103646645B (zh) * 2013-12-13 2016-03-02 南京丰泰通信技术股份有限公司 一种基于语音转译电文输出的方法
CN105868400A (zh) * 2016-04-19 2016-08-17 乐视控股(北京)有限公司 录音信息处理方法及装置
CN108469894A (zh) * 2018-03-13 2018-08-31 深圳阿凡达智控有限公司 语音识别芯片控制方法、装置以及系统
CN109215673A (zh) * 2018-08-06 2019-01-15 杭州摸象大数据科技有限公司 一种VoIP电话网络RTP语音流降噪方法
CN109215673B (zh) * 2018-08-06 2020-12-04 杭州摸象大数据科技有限公司 一种VoIP电话网络RTP语音流降噪方法
CN109102804A (zh) * 2018-08-17 2018-12-28 飞救医疗科技(赣州)有限公司 一种语音病历终端输入的方法及其系统
CN109754808A (zh) * 2018-12-13 2019-05-14 平安科技(深圳)有限公司 语音转换文字的方法、装置、计算机设备及存储介质
CN109754808B (zh) * 2018-12-13 2024-02-13 平安科技(深圳)有限公司 语音转换文字的方法、装置、计算机设备及存储介质
CN111986654A (zh) * 2020-08-04 2020-11-24 云知声智能科技股份有限公司 降低语音识别系统延时的方法及系统
CN111986654B (zh) * 2020-08-04 2024-01-19 云知声智能科技股份有限公司 降低语音识别系统延时的方法及系统

Similar Documents

Publication Publication Date Title
CN101178790A (zh) 智能虚拟断句实现协同听打录入的方法
CN104822093B (zh) 弹幕发布方法和装置
CN104777911B (zh) 一种基于全息技术的智能交互方法
CN102629936B (zh) 一种移动终端处理文本的方法、相关设备及系统
EP2482208A3 (en) Generic online ranking system and method suitable for syndication
CN108462883B (zh) 一种直播互动方法、装置、终端设备及存储介质
CN112328142B (zh) 直播互动方法、装置、电子设备和存储介质
Luck et al. Exploring the spatio-temporal properties of simple conducting gestures using a synchronization task
CN105208039A (zh) 在线演唱会大合唱的方法及系统
CN102456340A (zh) 基于互联网的卡拉ok对唱方法及系统
TW202006532A (zh) 播報語音的確定方法、裝置和設備
CN103337240A (zh) 处理语音数据的方法、终端、服务器及系统
CN104052958B (zh) 分发控制系统和分发系统
WO2006047405A3 (en) Internet based qualitative research method and system and synchronous and asynchronous audio and video message board
DE602004003839T2 (de) Verbesserte Audiokommunikation in einer interaktiven Umgebung
CN108877749A (zh) 一种脑波ai音乐的生成方法及系统
CN106531201A (zh) 歌曲录制的方法和装置
CN101389385B (zh) 通信游戏系统和通信游戏控制方法
EP1045390A3 (en) Information converting method, information converting apparatus and information reproducing apparatus
CN101763238A (zh) 提高音频播放质量的方法、音频数据采集方法及系统
CN106557156A (zh) 一种基于情感的智能音乐播放系统
CN106067991A (zh) 一种基于用户页面行为轨迹的白名单生成系统及方法
CN104080026B (zh) 一种信息处理的方法及一种线控耳机
CN102467909A (zh) 网络混音方法
CN109947693B (zh) 连载作品的交互方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Hu Peng

Document name: Notification of Publication of the Application for Invention

C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Hu Peng

Document name: Notification before expiration of term

DD01 Delivery of document by public notice

Addressee: Hu Peng

Document name: Notification that Application Deemed to be Withdrawn

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080514