CN101178790A

CN101178790A - 智能虚拟断句实现协同听打录入的方法

Info

Publication number: CN101178790A
Application number: CNA2006101383923A
Authority: CN
Inventors: 胡鹏
Original assignee: Individual
Current assignee: Individual
Priority date: 2006-11-10
Filing date: 2006-11-10
Publication date: 2008-05-14

Abstract

本发明为：智能虚拟断句实现协同听打录入的方法。本发明公开了一种在网络环境下进行多人协同听打录入的方法，包括步骤有：通过计算机采集语音；将语音文件同步传输给服务器及各录入端；由其中一台或多台计算机，根据语音间歇计算出断句点，并将时码信息发送给服务器；服务器根据录入端的请求，组织分配给录入端任务，并将分配任务的断句时码信息作为控制命令发送给录入端；录入端根据分配任务的时码起点和终点录入指定部分语音对应的文字，并传回服务器；服务器将片段文本根据时码顺序拼合出完整的文稿。采用本发明方法的技术方案，能够使多人协同完成一个听打录入的任务，降低了对单个录入人员录入速度的要求，并提高录入文稿的质量。

Description

智能虚拟断句实现协同听打录入的方法

技术领域

本发明公开了一种在网络环境下进行多人协同完成从语音到文字转换的听打录入的方法。

背景技术

目前已有的计算机记录语音的听打方式主要有三种：一种是传统的一个人一边听一边打，独立完成全部听打任务；一种是将音频文件录制下来，然后通过程序或者手工分成以分钟设置小时计算的大片段，然后交给不同的录入人员进行听打，最后通过人工把各大片段文稿拼合到一起完成录入工作，原理上和第一种是一样的；第三种是通过将采集音频实时地分成连续地以秒为单位的小文件，然后将这些小文件传给不同的人进行录入，然后通过服务器整合出来完整的文稿。

前两种方式并不能完成实时的协同工作，而最后一种方式能够达到，但在大规模应用中，其基于服务器进行文件中转的方式，会导致服务器传输压力大，带宽需求高，运营成本高；而且由于因为每个录入端只有自己录入的小文件的语音信息，在需要上下文的时候，无法及时调用前后的语音文件进行辅助处理。

发明内容

本发明的目的是提供一种智能虚拟断句实现协同听打录入的方法。

本发明技术方案包括：

步骤1)通过计算机采集语音信号；

步骤2)将语音文件同步传输给服务器及各录入端；

步骤3)通过服务器指派网络上参与这一录入任务的任意一台或多台计算机进行断句点运算；

步骤4)接收到断句计算任务的计算机根据语音间歇的特征计算出断句点，并将断句点时码信息发送给服务器；

步骤5)服务器根据录入端的请求，组织分配给录入端录入任务，并将分配任务的断句时码信息作为控制命令发送给相应的录入端；

步骤6)录入端根据分配任务的时码起点和终点录入指定部分语音对应的文字，并回传给服务器；

步骤7)服务器将各录入端的文本根据任务分配计划的时码顺序拼合出完整的文字内容，完成将语音转化成文字的听打录入工作。

根据上面叙述的流程，所述智能虚拟断句实现协同听打录入的方法，其特征在于所属步骤2)、步骤3)、步骤4)，即传输机制、分布式运算机制和断句点计算方法。

本方法中步骤2)采用点对点(P2P)的传输机制，即负责语音采集的计算机作为信息源，向服务器和录入端计算机传输所采集的语音文件；而参与该听打录入任务的服务器和录入端计算机既是文件的接收端，同时也是已经接受部分文件的服务端，向其它没有得到该部分文件的计算机传输该部分文件。这样就可以将采集的音频文件实时传输给服务器和参与该项工作的每个录入端计算机。

本方法的步骤3)中服务器将根据各录入端启动登录时运行的一个小测试程序发给服务器的系统综合性能参数，来指定其中一台或多台计算机来完成断句点的计算任务，参与计算断句点的计算机不仅包括各录入端计算机，也包括服务器本身。

本方法中步骤4)计算断句点的方法的典型步骤如下：

步骤10)取语音文件的前10秒读入缓冲区；

步骤20)根据这10秒音频文件的波形数据，找到波形峰值中最高的前10个；

步骤30)如果这10个峰值中有5个以上等于0，判断为静音片段，以这段音频文件的终点为断句点；

步骤40)记录下这个断句点；

步骤50)从语音文件断句点之后再取10秒读入缓冲区；

步骤60)如果未处理的语音文件还大于10秒，重复执行步骤20)；如果已经不足10秒，跳转到步骤70)。

步骤70)直接以终点为断句点，流程结束

步骤80)如果该10个峰值中有5个以上不等于0，以这10个峰值的算数平均值的10％做为降噪基值，对这10秒音频文件进行强制降噪处理；

步骤90)判断降噪后是否出现值等于0的区域，即静音片段；

步骤100)如果没有静音片段，返回步骤60)再次进行强制降噪处理。

步骤110)计算降噪后的波形文件中每个静音片段间的间隔，如果间隔小于0.1秒，即将间隔的波形替换为等长的静音，将两个静音片段合并成一个静音片段；

步骤120)计算步骤110)处理后的波形文件中时间值在三秒以后的每个静音片段的长度；

步骤130)判断这些静音片是否有超过0.5秒的；

步骤140)如果出现超过0.5秒的静音片段，取其中最长的一个静音片段的终点做为断句点，并跳转到步骤40)；

步骤150)如果没有超过0.5秒的静音片段，跳转到步骤80)；

附图说明

附图1为本发明智能虚拟断句实现协同听打录入的方法的流程图

附图2为计算断句点的流程图

附图3为10秒钟语音文件的原始波形图

附图4为第一次强制降噪后的10秒钟波形

附图5为第二次强制降噪后的10秒钟波形

具体实施方式

下面结合附图进一步说明本发明的具体实施方式。

附图1为整个实现协同听打录入的方法的流程图：

步骤1)通过计算机采集语音信号；

步骤2)将语音文件同步传输给服务器及各录入端；

附图2是上面步骤4)中指定计算机根据语音间歇的特征计算断句点的流程图：

步骤10)取语音文件的前10秒读入缓冲区；

步骤20)根据这10秒音频文件的波形数据，如附图3-10秒钟语音文件的原始波形图，找到波形峰值中最高的前10个；

步骤30)如果这10个峰值中有5个以上等于0，判断为静音片段，以这段音频文件的终点为断句点。静音片的特征很明显，波形为一条直线，如果其中出现人声，根据人声发音的特征，那怕是半秒钟的音频也一定会大大超过5个以上的峰值；另一种10秒钟中出现低于5个峰值的情况是出现在延续时间长而且有规律的音频中，如示波器出现的正弦波形，根据人声发音的特征，正常的语音发音也是不可能发出这样的声音的，所以对听打录入没有实际意义，故也被视同为静音片。

步骤40)记录下这个断句点；

步骤50)从语音文件断句点之后再取10秒读入缓冲区；

步骤70)直接以终点为断句点，流程结束

步骤90)判断降噪后是否出现值等于0的区域，即静音片段；

步骤100)如果处理后如附图4-第一次强制降噪后的10秒钟波形，没有静音片段，返回步骤60)再次进行强制降噪处理，直到得到如附图5-第二次强制降噪后的10秒钟波形所示的有静音片段的波形。

步骤130)判断这些静音片是否有超过0.5秒的；

步骤150)如果没有超过0.5秒的静音片段，跳转到步骤80)；

综上所述，通过这样的方法就可以由多人协同完成从语音到文字转换的听打录入的工作，并且具备多项优点：通过P2P架构分发语音文件，能够有效利用网络带宽，降低了大规模应用中对服务器带宽的要求；每个录入端都有完整的语音信息，所以参与这项任务的每台计算机都可以参与断句点的计算；并且当发生录入端断线或者退出等情况时，服务器调整分配的任务，只需要将任务控制信息传给其他的录入端，而不需要再次传输语音文件；通过服务器分派任务，实现多人协作完成听打录入工作，每个人只负责其中的一部分，大幅度降低了对单个录入人员录入速度的要求，同时也提高了录入文稿的完整性。

Claims

1.一种智能虚拟断句实现协同听打录入的方法，其特征在于，包括：

步骤1)通过计算机采集语音信号；

步骤2)将语音文件同步传输给服务器及各录入端；

步骤7) 服务器将各录入端的文本根据任务分配计划的时码顺序拼合出完整的文字内容，完成将语音转化成文字的听打录入工作。

2.根据权利要求1所述的智能虚拟断句实现协同听打录入的方法，其特征在于，所属步骤2)、步骤3)、步骤4)，即传输机制、分布式运算机制和断句点计算方法。

3.根据权利要求2所述的智能虚拟断句实现协同听打录入的方法，其特征在于，步骤2)采用点对点(P2P)的传输机制，即负责语音采集的计算机作为信息源，向服务器和录入端计算机传输所采集的语音文件；而参与该听打录入任务的服务器和录入端计算机既是文件的接收端，同时也是已经接受部分文件的服务端，向其它没有得到该部分文件的计算机传输该部分文件；这样就可以将采集的音频文件实时传输给服务器和参与该项工作的每个录入端计算机。

4.根据权利要求2所述的智能虚拟断句实现协同听打录入的方法，其特征在于，步骤3)中服务器将根据各录入端启动登录时运行的一个小测试程序发给服务器的系统综合性能参数，来指定其中一台或多台计算机来完成断句点的计算任务，参与计算断句点的计算机不仅包括各录入端计算机，也包括服务器本身。

5.根据权利要求2所述的智能虚拟断句实现协同听打录入的方法，其特征在于，步骤4)计算断句点的方法如下步骤：

步骤10)取语音文件的前10秒读入缓冲区；

步骤20)通过自动增益将音量调整到适合人耳听觉合适的范围中；

步骤30)根据这10秒音频文件的波形数据，找到波形最低点和次最低点，如果波形只有最低点而没有次最低点，判断为静音片段，以这段音频文件的终点为断句点；

步骤40)记录下这个断句点；

步骤50)从语音文件断句点之后再取10秒读入缓冲区，重复执行步骤20)；

步骤60)如果该10秒波形有次最低点，以次最低点的波形数值做为降噪基值，对这10秒音频文件进行强制降噪处理；

步骤70)计算降噪后的波形文件中每个静音片段间的间隔，如果间隔小于0.1秒，即将间隔的波形替换为等长的静音，将两个静音片段合并成一个静音片段；

步骤80)计算步骤70)处理后的波形文件中时间值在三秒以后的每个静音片段的长度，如果出现超过0.5秒的静音片段，取其中最长的一个静音片段的终点做为断句点；

步骤90)记录下这个断句点；

步骤100)从语音文件断句点之后再取10秒读入缓冲区，重复执行步骤20)，直到语音文件结束；

步骤110)如果没有找到断句点，则根据步骤30)降噪处理后的波形文件，在此找到波形次最低点，以这个点的数字做为降噪基值，对这10秒音频文件进行再次强制降噪处理；

步骤120)重复步骤60)继续处理。