CN100365620C

CN100365620C - 互联网语音分片速记方法

Info

Publication number: CN100365620C
Application number: CNB2005100568735A
Authority: CN
Inventors: 何宏山
Original assignee: Individual
Current assignee: Individual
Priority date: 2005-03-28
Filing date: 2005-03-28
Publication date: 2008-01-30
Anticipated expiration: 2025-03-28
Also published as: CN1664923A

Abstract

本发明公开了一种互联网语音分片速记方法，包括步骤获取语音；对语音进行分片；发送分片给有请求的录入端；由录入端将分片录入为文字分片；整合所述语音所对应的所有文字分片为一文字整体。采用本发明互联网语音分片速记方法的技术方案可以避免“手指追赶语音”，从而提高速记准确度。

Description

互联网语音分片速记方法

技术领域

本发明涉及语音速记领域，尤指一种避免“手指追赶语音”的互联网语音分片速记方法。

背景技术

速记指将人的语音信息转化为文字信息的过程。

人说话的速度一般在200-300字/分钟，有时可达到400字以上。速记的目的就是通过手指记录的方法，准确、完整地记录下人说话时的语音信息。

目前在实际使用中有两种速记方法。一是“手写速记”；二是“电脑速录”。

“手写速记”是一种采用特殊的书写符号记录语言的方法，在经过专门的训练后，速度可以达到100字左右，最快的速度也只能达到180字。“手写速记”无论是它的速度，还是面临当前文字电脑化的需求下，已经不能胜任速记的需要了。因此它已完全处于被淘汰的边缘了。

“电脑速录”是随着电子技术和计算机技术的发展而出现的，是采用计算机键盘或专用的“速记键盘”记录下听到的文字，使“手写速记”提升到了“电脑速录”的境界。应该说，现在已经进入到“电脑速录”的时代。目前仅就中文速录而言，最好的电脑速录的方法应该是“亚伟速录”。它是使用一种叫做“亚伟速录机”的特制键盘，在进行了专门培训后，速录员的速度可以达到150字以上/分钟。达到200字以上/分钟的有，但仍属少数。个别的最高速度虽然能达到400字以上/分钟，但那只是对所谓的熟文章的表演行为，而没有真正的实际意义。实用的速记速度应该是对生文章而言的。

由于录入员受到人体生理条件限制的缘故，能达到实用速度(生文章200字以上/分钟)的速录员仍然是少数，而且极难培养。从现在亚伟速录员培训的情况来看。大部分人的录入速度从不会到150字/分钟是比较容易的。一般周期为3-6个月。但从150字/分钟提速到200字以上/分钟，绝大部分人需要6个月或更长的时间。而要真正达到能独立完成速录的，有时往往需要一年以上，甚至几年时间的实践才能达到。这也是目前国内真正高水平的速录员仍很稀缺的主要原因，更是影响速记准确性的主要原因之一。

即使是能够达到实用速度的速录员，在实际的速记过程中。因为要长时间地录入，必然会出现身心的疲惫，或是遇到生疏的字词和打错字的时候，这时就肯定会出现跟不上讲话人的速度情况。此时，一般的速录员就不可避免地漏掉一些语音内容，无法完整地完成速记内容。即便是优秀的亚伟速录员也只能根据记忆的语音内容进行总结性地文字录入。无论是漏掉还是总结性的记录，这样的速记都不能称之为一个完整的速记。

无论是“手写速记”还是“电脑速录”，都没有摆脱依靠“手指追赶语音”的听音记录过程，受到人体生理条件和个人能力的限制的速记方法就必然难以达到真正意义上的和具有普遍的实际意义的速记。

发明内容

本发明要解决的问题是提供一种避免“手指追赶语音”的互联网语音分片速记方法。

为了解决上述问题，本发明互联网语音分片速记方法的技术方案包括：

步骤10)获取语音；

步骤20)对语音进行分片，包括以下子步骤；

步骤200)隔固定时间间隔或随意间隔对语音进行分片；

步骤201)在分片的音频波形数据中的峰值点预分割所述分片为更小分片；

步骤202)逐个比较所述分片预分割成的更小分片；

步骤203)判断是否找到所述分片的分割点，所述分片的分割点指去噪平均值小于零且占空比最大的更小分片的中间点；

所述去噪平均值指所述更小分片的平均值减去所述分片平均值后的值；

所述更小分片平均值是波形在这个更小分片时间内的值；

所述分片平均值是整个待分割分片波形的平均值；

所述占空比指所述更小分片在所述分片中所占的时间比值；

若未找到所述分片的分割点，步骤204)将所述分片与下一个分片合并为一个分片，重复执行步骤201)；

若找到所述分片的分割点，步骤205)在所述分片的分割点分割所述分片；

步骤206)将分片中分割点前的部分存入分片音频缓冲区，所述分片音频缓冲区用于存放已分割好的分片；

步骤207)将分片中分割点后的部分与下一个分片合并为一个分片，重复执行步骤201)；

步骤30)发送分片给有请求的录入端；

步骤40)由录入端将分片录入为文字分片；

步骤50)整合所述语音所对应的所有文字分片为一文字整体。

所述步骤206)后还包括步骤206a)为存入分片音频缓冲区中的每一个分片设置用于标识该分片的分片控制信息。

所述步骤206a)中的所述分片控制信息包括下列字段：

客户号，用于表示语音信息被速记的一方；

速记号，用于语音信息被速记的一方的语音信息的编号；

序号，用于表示所述分片的编号；

时码，用于表示所述分片在整个语音信息中的时间位置；

时长，用于表示所述分片的时间；

状态，用于表示所述分片录为文字分片的情况。

所述步骤40)后还包括步骤41)若录入端无法录入该分片，将所述分片的分片控制信息的状态字段置为未被识别，并将该分片回传至问题分片数据库表中，所述问题分片数据库表用于存放分片控制信息的状态字段为未被识别的分片。

所述步骤200)中的所述固定时间间隔为5秒。

与现有技术相比，本发明互联网语音分片速记方法的有益效果为：

首先，由于本发明互联网语音分片速记方法采用对语音进行分片，将分片发给有请求的录入端，也就是说，当录入端把当前分片录入完后，其请求下一个分片，才被分配下一个分片，从而避免了“手指追赶语音”的听音记录过程，并且一段语音可分配给多个录入端录入，从而可使得速记过程不受人体生理条件(如疲劳等)的限制。

其次，由于采用在分片的分割点对分片进一步分割，且分片分割点的确定采用的是动态离散聚类平均值的方法，使得经过分割后得到的分片正好是通常人们讲话的间歇点范围，即通常的有逗号或句号的地方，从而避免录入端听到半截话，因此有利于提高录入的准确度。

再者，在需录入的语音中，可能会出现如方言、外语或者录入端不懂的技术术语等，使得录入端无法完成该分片的录入，本发明互联网语音分片速记方法采用将录入端无法完成的分片标记为“未被识别”状态并回传入问题分片数据库中，将存放在问题分片数据库中的问题分片分配给其它录入端录入，从而大大提高了录入的准确度，避免录入端胡乱猜测。

然后，由于连续语音被分解成小的“语音分片”，它的长度一般被控制在1.5-10秒之间。经过压缩处理后，它的数据大小一般只有几K到十几K字节。这样大小的数据符合互联网传输的特点。因为如果数据太大的话，容易受到互联网传输阻塞的影响。这些小数据量的“语音分片”可以在互联网上被有效地实时传输。因此可以做到，分割一片，传送一片，控制分发一片。在录入端可以及时地录入一片“语音分片”，在客户端又可以及时地回收到一片“文字分片”。这种连续的语音流不断被分割和录入一片一片的推进过程，“文字分片”和“语音分片”可以保持在一个准同步的状态。即文字内容对应语音内容只有一个几秒到十几秒的滞后。因此将整段语音内容录入完成为文字交给客户的时间就是最后一个“文字分片”返回的时间。那么最后一个语音分片从分发、传送，到最后一个文字分片录入、回传的过程一般可以控制在1分钟之内。其实在这个过程中文字录入的时间是最长的，一般是语音分片长度的2-3倍(一般的录入员水平)。即按语音长度为5秒计算，录入用的时间最长为15秒。在这里，因为文字分片的数据长度很小，即便是加上各种控制参数也不过200-300个字节。所以其传输的时间，也就是“文字分片”回传的时间是很短的。另外，就是加上服务器控制的时间和网络传输等各种因素的影响，在最后一个“语音分片”结束时，1-3分钟内完成文字最后出稿是完全可以做到的。这就是说，几乎达到了“语音落、文字出”的实时速记的效果。

最后，由于可以采用互联网来传输分片，也就是说录入端可以在世界各地，只要在互联网遍及的地方即可，将分好的语音分片通过互联网传给世界各地的录入端，最后再将世界各地的录入端录入的文字进行整合为一个整体。这样能有效地利用世界各地的录入员资源，从而避免了某个地方录入员资源匮乏的局面，而且录入员可以在家里(能上互联网)就进行录入，不必到现场，从而节省了很多费用。

附图说明

图1是本发明互联网语音分片速记方法的流程图；

图2是本发明互联网语音分片速记方法中分片分割的流程图；

图3是一个5秒分片的音频波形图；

图4是本发明互联网语音分片速记方法的实施例的音频波形图；

图5是图4中第一个分片的音频波形图；

图6是本发明互联网语音分片速记方法的实施例经过压缩及加密后的语音分片文件示意图。

具体实施方式

如图1所示，本发明互联网语音分片速记方法包括：

步骤10)获取语音；

步骤20)对语音进行分片；

步骤30)发送分片给有请求的录入端；

步骤40)由录入端将分片录入为文字分片；

步骤50)整合所述语音所对应的所有文字分片为一文字整体。

本发明互联网语音分片速记方法，在获取需录入为文字的语音后，对其进行分片，若录入端请求分片，即录入端空闲，则将一个语音分片分配给该录入端，最后，再将已录成的文字分片整合为一个文字整体，这样就避免了当录入端还没有录完当前所听到的语音内容时，后续的语音内容已进入录入端的耳朵，避免了“手指追赶语音”的局面。而且，一段语音内容所分割成的多个分片可由不同的录入端录入，这样整个语音的速记时间就相当于是最后一个分片的录入时间。

对于对语音进行分片，可按固定时间间隔分片也可以随意间隔进行分片，只要保证录入端不必费力地记住这片语音信息，避免“手指追赶语音”的局面即可。

如图2所示，本发明互联网语音分片速记方法的所述步骤20)又进一步分为步骤200)隔固定时间间隔对语音进行分片。

所述步骤200)之后还包括：

步骤202)逐个比较所述分片预分割成的更小分片；

步骤203)判断是否找到所述分片的分割点，所述分片的分割点指去噪平均值小于零且占空比最大的更小分片的中间值。

所述去噪平均值指所述更小分片的平均值减去所述分片平均值后的值。

所述更小分片平均值是波形在这个更小分片时间内的值；

所述分片平均值是整个待分割分片波形的平均值；

所述占空比指所述更小分片在所述分片中所占的时间比值；

步骤206)将分片中分割点前的部分存入分片音频缓冲区，所述分片音频缓冲区用于存放已分割完成的分片；

步骤207)将分片中分割点后的部分与下一个分片合并为一个分片，重复执行步骤201)。

所述步骤206a)中的所述分片控制信息包括下列字段：

客户号，用于表示语音信息被速记的一方；

速记号，用于表示语音信息被速记的一方的语音信息的编号；

序号，用于表示所述分片的编号；

时码，用于表示所述分片在整个语音信息中的时间位置；

时长，用于表示所述分片的时间；

状态，用于表示所述分片录为文字分片的情况。

上述对分片进一步分割的方法，又可称为“动态离散聚类平均值”的方法对分片进行分割。也就是按分片的音频波形数据中波峰值出现的间隔和大小，在其峰值点将分片分割为更小的语音片断(分片)，然后对这些更小的语音片断进行聚类计算平均值。每个更小语音片断都有两个重要的数据：占空比和“去噪平均值”。占空比是这个更小分片在整个分片(如：5秒)中所占的时间值，例如0.2秒，其占空比就为0.04。而去噪平均值是指更小分片的平均值减去整个片断(5秒的)平均值后的值。这个去噪平均值可以大于零，也可以小于零。

在得到这些更小分片之后，逐个比较这些更小分片，找到“去噪平均值”小于零的，且占空比最大的更小分片，就可以得到这个5秒语音分片的分割点。

如图3所示，图中B点就是去噪平均值最小、占空比最大(0.104)的更小分片，B点所在的更小分片的平均值为200，整个分片的平均值为460(音频采样的最大值为32767)。那么去噪平均值为200-460＝-260，它就小于零；A点的更小分片的平均值是3160，占空比是0.046。那么去噪平均值为3163-460＝2703。因此B点所在的最小分片的中间点就是整个分片的分割点。

由于通常小于1.5秒的都是一些短语或词组的语音片断，对速记来讲没有实际的意义，因此小于1.5秒的更小分片不被比较，即不作为分割点。但所有更小分片的数据都要保留，用来进行5秒的整个分片噪音平均值的计算。因此，一般来说分片的分割点应在1.5秒到5秒之间。比如：4.1秒。此时，分割处理就将这个4.1秒的音频波形数据送到“分片音频缓冲区”中。而剩下的0.9秒的音频波形数据被暂时保留在“分片分割缓冲区”中，所述分片分割缓冲区用于存放待分割的分片。加到下一个5秒的分片的前面统一进行处理，即下一个被处理的是5.9秒的音频波形数据。在得到4.1秒的音频波形数据的同时，在“分片控制信息”中记录这个“语音分片”的序号、时码、时长和速记号、客户号等信息来表示分片的有关信息。

在这个分片分割的过程中，会有例外的情况，就是由于背景噪音(如音乐，嘈杂声等)过大，在这个5秒的音频波形数据中不能找到一个符合要求的分割点。那么，例外的处理就将未找到分割点的5秒的音频波形数据暂时保留在“分片分割缓冲区”中。然后加到下一个5秒的数据的前面统一进行处理。但此时的整个分片的平均值将被自动地提高一倍，从而保证了在这个10秒的语音片断中找到一个分割点。这就是所谓“动态地”调整了去噪平均值的计算方法。

这种语音分片的分割方法，可以确保所有的语音分片介于1.5-10秒之间。通过实验，这个范围也正好是通常人们讲话的间歇点范围。即通常的有逗号、句号的地方。

本发明互联网语音分片速记方法的步骤40)后还包括步骤41)若录入端无法录入该分片，将所述分片的分片控制信息的状态字段置为未被识别，并将该分片回传至问题分片数据表中，所述问题分片数据库表用于存放分片控制信息的状态字段为未被识别的分片。

在录入端进行录入的过程中，很可能录入端听不懂分片的语音内容，如方言，外语或不懂的名词术语等，进而使得录入端无法录入该分片，本发明将录入端听不懂的分片称为问题分片。对于问题分片，录入端将该分片的状态字段置为未被识别，并回传至问题分片数据表中。当有其他的录入端申请分片时，首先判断录入员的能力属性是否匹配“问题分片”，如具有相同的方言、外语或有相应专业背景知识的，即如果匹配，则把这个问题分片传送给此录入端。这样，问题分片在整个处理过程中就会被优先处理。

下面描述将一段具体的语音内容速记为文字的过程来详述本发明互联网语音分片速记方法的技术方案。

本例涉及到客户端、录入端和速记服务器端。客户端、录入端以及速记服务器端通过互联网连接。在客户端执行语音的采集、分片并对分片作进一步地分割、对分片加解密以及将已录入成的文字分片整合为一个文字整体；录入端完成将语音分片听打录入成文字分片；速记服务器端用于存储已分割的分片并执行将分片分发给录入端。

首先，通过电脑的语音卡接收语音的音频波形数据(WAV格式)。由客户端进行录音采集，将得到的音频波形数据暂存到音频数据缓冲区中。本例采用的分片分解值为5秒，即将音频波形数据每5秒作为一个分片，也就是说，每隔5秒从音频数据缓冲区中取出一个分片的音频波形数据，然后对其进行分割。通过对5秒的分片进一步分割，可以得到的分片的时间值在1.5秒到10秒之间。通过大量的实验分析得出，人说话时语音的间歇时间点绝大部分是在这个范围内。而且，在这个时间范围内，按照基本的语速(300字/分钟)，它的文字范围在7.5-50字之间。这也是普通速录员在听音的瞬间能够记住语音内容的范围。文字太少，效率就低。太多就容易漏字或完全记不住。而且，实验的结果，根据现有的统计，采用5秒的分片分解值，其分割点比较好的分布在5秒左右，即大部分的分割点在3-7秒之间。

如图4所示，为一个109.8秒的语音波形，取自BBC中文广播的一段新闻，本例对其进行速记。

图中的序号是这个语音的语音分片分割点，对应的时间和文字如下表：


				1	6.9	国家大酒店的玻璃被炸得粉碎，附近的车辆被炸得一片狼籍。	25
2	5.3	电视画面显示，一具尸体就躺在饭店外一辆被炸毁的汽车旁。	25	1	6.9	国家大酒店的玻璃被炸得粉碎，附近的车辆被炸得一片狼籍。	25
2	5.3	电视画面显示，一具尸体就躺在饭店外一辆被炸毁的汽车旁。	25	3	3.5	一名目击者描述了他所看到的景象。	15
4	5.5	我们听到爆炸声是在10点到11点之间。我是附近一家商店的保安。	27	3	3.5	一名目击者描述了他所看到的景象。	15
4	5.5	我们听到爆炸声是在10点到11点之间。我是附近一家商店的保安。	27	5	3.7	我看到一辆奔驰汽车，附近都是破碎的玻璃。	18
6	6.5	一具尸体躺在旁边，另一具尸体躺在路上。国家大酒店的玻璃全都被炸碎了。	31	5	3.7	我看到一辆奔驰汽车，附近都是破碎的玻璃。	18
6	6.5	一具尸体躺在旁边，另一具尸体躺在路上。国家大酒店的玻璃全都被炸碎了。	31	7	3.6	开始时我以为爆炸是从那辆奔驰车上引发的。	19
8	3.7	但是后来我注意到那辆车只是玻璃被震碎了。	19	7	3.6	开始时我以为爆炸是从那辆奔驰车上引发的。	19
8	3.7	但是后来我注意到那辆车只是玻璃被震碎了。	19	9	3.7	我想爆炸一定发生在附近的一家餐馆。	16
10	3.7	目前还没有情报表明肇事者是些什么人。	17	9	3.7	我想爆炸一定发生在附近的一家餐馆。	16
10	3.7	目前还没有情报表明肇事者是些什么人。	17	11	7.8	但莫斯科市长卢日科夫说，可能是一名或两名女性自杀式炸弹攻击者制造了这次事件。	36
12	3.9	近些年来，莫斯科遭受了一系列的炸弹攻击。	18	11	7.8	但莫斯科市长卢日科夫说，可能是一名或两名女性自杀式炸弹攻击者制造了这次事件。	36
12	3.9	近些年来，莫斯科遭受了一系列的炸弹攻击。	18	13	4.8	几天前，俄国南部的一辆火车刚刚受到自杀式炸弹的袭击，	24
14	6.6	导致至少36人丧生。官方把那次行动归咎于车臣反叛份子。	24	13	4.8	几天前，俄国南部的一辆火车刚刚受到自杀式炸弹的袭击，	24
14	6.6	导致至少36人丧生。官方把那次行动归咎于车臣反叛份子。	24	15	4.3	而这次爆炸则发生在下院杜马选举的两天之后。	20
16	6.3	当时为了确保投票能够安全顺利地进行，俄国警方出动了大批的警员。	29	15	4.3	而这次爆炸则发生在下院杜马选举的两天之后。	20
16	6.3	当时为了确保投票能够安全顺利地进行，俄国警方出动了大批的警员。	29	17	5.5	莫斯科卡内基基金会的军事防务分析人士皮卡耶夫认为：	24
18	4.4	这次最新的爆炸事件也与车臣反叛份子有关。	19	17	5.5	莫斯科卡内基基金会的军事防务分析人士皮卡耶夫认为：	24
18	4.4	这次最新的爆炸事件也与车臣反叛份子有关。	19	19	2.1	我认为车臣反叛份子，	9
20	4.5	肯定希望能在这次议会选举前制造炸弹事件，	19	19	2.1	我认为车臣反叛份子，	9

21	3.1	就像他们在车臣选举前所做的那样。	15
21	3.1	就像他们在车臣选举前所做的那样。	15	22	4.0	这次莫斯科爆炸事件之所以发生在选举之后。	19
23	6.4	可能是因为当时保安措施太严，而在之后确放松了的缘故。	24	22	4.0	这次莫斯科爆炸事件之所以发生在选举之后。	19

现在取第一个分片作为分片分割的实例，波形如图5所示，本例中，因为是第一个分片，起始位置中有差不多1.6秒左右的静音，因此实际判断分片的位置从第一个有波形的位置开始计算，那么当第一个5秒到时(A点)，实际的语音长度不到5秒，约3.4秒。因此合并到第二个5秒到时(B点)，即第一个被待分割语音片断是10秒的长度。为了忠实原音，因此1.6秒的静音仍然保留在语音分片中。(注：通常在语音的起始处，或中途有较长时间的停顿时，都会有这种情形出现)

本例中使用下列伪代码来实现分片的分割处理。

AddLeaveWaveDataToWaveFormBuffer；//添加分片分割缓冲区中的波

//形数据到波形缓冲区数据的前边

N＝FindWavePeakPoint； //找到波形数据的峰值点，有N个

AvgValue0＝0； //置整个分片的平均值0

FOR I＝1 TO N DO BEGIN

TimeRate[I]＝PeakPointTimeRate； //计算峰值点的时间占空比

AvgValue[I]＝SumPeakPointAvgValue； //计算峰值点的波形平均值

AvgValue0＝AvgValue0+AvgValue[I]； //累计整个波形数据的平均值

END

AvgValue0＝AvgValue0/N； //得到整个波形数据的平均值

MaxTimeRate＝0； //初始化最大占空比

MaxTimeRateI＝0；

FOR I＝1 TO N DO BEGIN

AvgValue[I]＝AvgValue[I]-AvgValue0；//峰值片断平均值减去波形数据平均值

IF(AvgValue[I]＜0)

AND(MaxTimeRate＜TimeRate[I])THEN BEGIN //如果峰值平均

//值小于0并且最大占空比的

//值小于这个峰值占空比

MaxTimeRate＝TimeRate[I]； //则置最大占空比为这个占空比

MaxTimeRateI＝I； //记住这个占空比的位置。

END

IF I＞0 THEN BEGIN //如果有最大占空比时

PutWaveFormDataToSplitWaveFormBuffer； //保存波形数据到语音分片文件

SetControlDataToSplitControlData； //记录这个分片的控制信息

END ELSE BEGIN

PutWaveFormToLeaveWaveData； //否则，将波形数据存放到分片分割缓

//冲区中，留做后面的处理使用

END

上面那个10秒待分割语音片断经过处理后，得到一个6.9秒的语音分片(图5中的S点分割点)。

在得到已分割好的语音分片后，首先对其进行压缩。本例采用的是MP3压缩方法。在压缩的同时，为保证在互联网上传输的安全性，对其进行了加密处理。经过压缩和加密处理的分片被存为一个“语音分片文件”，然后将其通过互联网发送到速记服务器端，与此同时还要将每个分片的分片控制信息发送给速记服务器端。

如图6所示，经过压缩加密处理后得到一个语音分片文件00001.mp3和对应的控制信息为：

速记号：20201；

分片序号：00001；

分片时码：00:00:00；

分片时长：6.9秒。

(注：在客户端的客户号是唯一的，因此在客户端的分片控制信息则不需要记录客户号。也就是说，客户端所有的分片都是属于这个客户号的)

按照客户端首先传送语音分片文件，然后传送控制信息的顺序，在速记服务器端首先接收语音分片文件00001.mp3，将其存到指定目录audio\20201下得到速记服务器端的语音分片文件为audio\20201\00001.mp3。然后返回给客户端信息，语音分片文件已经收到。这时，客户端将分片控制信息(速记号：20201；分片序号：00001；时长：6.9秒。因时码只在文字整合时有用，因此不被传送到速记服务器端和录入端)送到速记服务器端。此时速记服务器端的“语音分片分发”控制程序启动“分片控制信息接收”这个分片控制信息，将其存放到“分片数据表”中。“分片数据表”的基本字段和本例的数据值如下表：


				1	速记号	ItemNo	20201
2	分片序号	SplitNo	00001	1	速记号	ItemNo	20201
2	分片序号	SplitNo	00001	3	分片时长	SplitTimeLen	6.9
4	分片状态	SplitFlag	等待录入	3	分片时长	SplitTimeLen	6.9

分片的分片控制信息的状态字段在一接收到这个分片时就被设置为“等待录入”。当录入端有申请录入请求到来时，则从“分片数据表中”检索到一个分片状态为“等待录入”标志的分片发送到录入端，同时将状态置为“正在录入”的标志。

录入端就是将语音分片录入为文字分片的过程。当录入端空闲时，向速记服务器端发出“申请分片”的请求时，速记服务器端将发送一个分片控制信息为：(速记号：20201；序号：0001；时长：6.9秒)给录入端，录入端将其记录到“录入端分片数据表”中后，所述录入端分片数据表是一个数据库表，再向速记服务器端发出“申请分片文件”的请求，速记服务器将该分片发送给录入端，录入端将接收到的文件(MP3格式)暂存到语音分片文件目录中。接着对其进行解密和解压转换为一个可进行听打录入的语音文件(WAV格式)。

录入端得到了分片的分片控制信息和相应的WAV格式语音文件后，录入端就可以对其进行听打录入了。在录入端完成文字录入之后，将录入好的文字存放到“文字分片数据表”中，并在“录入端分片数据数据表”中加注标志说明这个分片已被录入。然后在对文字分片加密后发送到速记服务器端。

“录入端分片数据表”和“文字分片数据表”的字段和本例的值分别如下表所示：


				1	速记号	ItemNo	20201
2	分片序号	SplitNo	00001	1	速记号	ItemNo	20201
2	分片序号	SplitNo	00001	3	分片时长	SplitTimeLen	6.9
4	分片状态	SplitFlag	已被录入	3	分片时长	SplitTimeLen	6.9


				1	速记号	ItemNo	20201
2	分片序号	SplitNo	00001	1	速记号	ItemNo	20201
2	分片序号	SplitNo	00001	3	分片文字	SplitText	国家大酒店的玻璃被炸得粉碎，附近的车辆被炸得一片狼籍。
4	分片字长	SplitTextLen	25	3	分片文字	SplitText	国家大酒店的玻璃被炸得粉碎，附近的车辆被炸得一片狼籍。

在发送到速记服务器的时候，同时给这个文字分片加上相关的控制信息，在本例中，在发送文字分片到服务器时不需要将“语音分片文件”和“分片时长”再回送到服务器，它们只在录入员录入时是有用的，当录入完文字后，这两个参数也就完成了使命。回送到服务器端的只是“分片文字”和“分片字长”，加上分片的速记号、和分片序号回送到速记服务器端)，本例发送到服务器端的信息如下：

速记号：20201；

分片序号：00001；

分片文字：“国家大酒店的玻璃被炸得粉碎，附近的车辆被炸得一片狼籍。”

分片字长：25；

注：速记号和分片序号的作用是让服务器端能够识别出这个分片文字是属于那个语音分片的。在服务器端收到文字分片的时候，同时改写服务器端“分片数据表”中的分片状态字段为“已被录入”。

另外，如果录入端发现这个语音分片有自己不熟悉的方言、外语或专业术语等时，可将该分片的分片控制信息的状态字段置为未被识别，并回传给速记服务器端存入问题分片数据表中。当录入端再有申请分片的请求时，先判断录入端的能力是否能处理问题分片，若可以则将问题分片发送给该录入端，若不可以则将状态字段为未录入的分片发送给该录入端，就开始了新一轮的听打录入过程了。然后这样不断循环往复，直到速记服务器端没有新的分片为止。

当文字分片被传送到速记服务器端后，首先将文字分片存放到文字分片数据表中，然后在分片数据表中将这个分片的状态标志置为“已被录入”的状态。

当客户端有获取文字分片请求的时候，根据客户号，从分片数据表中判断是否有对应这个客户的、已经完成的文字分片(就是状态标志为“已被录入”的)。如果有，则从“文字分片数据表”中提取文字分片发送到客户端。同时置分片的状态为“已被获取”。这主要是为了防止被客户端再次申请获取。

在客户端，首先判断“分片控制信息”中是否还有未被获取文字的分片。如果有，则向速记服务器端发出获取文字分片的申请。如果得到了一个新的文字分片，则先将其存到文字分片缓冲区中，再对文字分片缓冲区中的文字分片解密，将解密后的文本存到文字分片数据表中。同时在分片控制信息表中置该分片为“已被获取”状态。

当所有的文字分片都被获取后，即所有的分片都被置为“已被获取”的状态后，则启动“文字分片整合”处理进行文字的整合输出。由于每个“文字分片”都对应“语音分片”的序号，因此，整合就非常简单，即按文字分片的序号顺序地把它们连接到一起，就得到了一个完整的文字内容。而且是与语音完全一一对应的文字内容。

在整合时，根据客户的需要，可以按文稿格式或字幕格式(字幕格式需要分片时码)输出文本。在这里给出本例的两种输出格式如下：

文稿格式：

国家大酒店的玻璃被炸得粉碎，附近的车辆被炸得一片狼籍。电视画面显示，一具尸体就躺在饭店外一辆被炸毁的汽车旁。一名目击者描述了他所看到的景象。我们听到爆炸声是在10点到11点之间。我是附近一家商店的保安。我看到一辆奔驰汽车，附近都是破碎的玻璃。一具尸体躺在旁边，另一具尸体躺在路上。国家大酒店的玻璃全都被炸碎了。开始时我以为爆炸是从那辆奔驰车上引发的。但是后来我注意到那辆车只是玻璃被震碎了。我想爆炸一定发生在附近的一家餐馆。目前还没有情报表明肇事者是些什么人。但莫斯科市长卢日科夫说，可能是一名或两名女性自杀式炸弹攻击者制造了这次事件。近些年来，莫斯科遭受了一系列的炸弹攻击。几天前，俄国南部的一辆火车刚刚受到自杀式炸弹的袭击。导致至少36人丧生。官方把那次行动归咎于车臣反叛份子。而这次爆炸则发生在下院杜马选举的两天之后。当时为了确保投票能够安全顺利地进行，俄国警方出动了大批的警员。莫斯科卡内基基金会的军事防务分析人士皮卡耶夫认为：这次最新的爆炸事件也与车臣反叛份子有关。我认为车臣反叛份子，肯定希望能在这次议会选举前制造炸弹事件。就像他们在车臣选举前所做的那样。这次莫斯科爆炸事件之所以发生在选举之后。可能是因为当时保安措施太严，而在之后确放松了的缘故。

字幕格式：

[00:00:00]国家大酒店的玻璃被炸得粉碎，附近的车辆被炸得一片狼籍。[00:00:06]电视画面显示，一具尸体就躺在饭店外一辆被炸毁的汽车旁。[00:00:12]一名目击者描述了他所看到的景象。[00:00:15]我们听到爆炸声是在10点到11点之间。我是附近一家商店的保安。[00:00:21]我看到一辆奔驰汽车，附近都是破碎的玻璃。[00:00:24]一具尸体躺在旁边，另一具尸体躺在路上。国家大酒店的玻璃全都被炸碎了。[00:00:31]开始时我以为爆炸是从那辆奔驰车上引发的。[00:00:35]但是后来我注意到那辆车只是玻璃被震碎了。

[00:00:38]我想爆炸一定发生在附近的一家餐馆。[00:00:42]目前还没有情报表明肇事者是些什么人。[00:00:46]但莫斯科市长卢日科夫说，可能是一名或两名女性自杀式炸弹攻击者制造了这次事件。[00:00:53]近些年来，莫斯科遭受了一系列的炸弹攻击。[00:00:57]几天前，俄国南部的一辆火车刚刚受到自杀式炸弹的袭击。[00:01:02]导致至少36人丧生。官方把那次行动归咎于车臣反叛份子。[00:01:09]而这次爆炸则发生在下院杜马选举的两天之后。[00:01:13]当时为了确保投票能够安全顺利地进行，俄国警方出动了大批的警员。[00:01:19]莫斯科卡内基基金会的军事防务分析人士皮卡耶夫认为：[00:01:25]这次最新的爆炸事件也与车臣反叛份子有关。[00:01:29]我认为车臣反叛份子，[00:01:31]肯定希望能在这次议会选举前制造炸弹事件，[00:01:36]就像他们在车臣选举前所做的那样。[00:01:39]这次莫斯科爆炸事件之所以发生在选举之后。[00:01:43]可能是因为当时保安措施太严，而在之后确放松了的缘故。

本发明互联网语音分片速记方法的处理步骤都是异步并发的，即每个处理都是工作在单独的进程中。每个处理的工作都是通过处理之间的触发信号进行的。那么，当获取语音后，就对其进行分片，当得到第一个“语音分片”的时候，就触发了其后的其他处理一环扣一环地对这个“语音分片”进行处理。而此时的语音已经开始了第二个、第三个“语音分片”的获得分割。那么当语音获得分割的处理正在做第N个“语音分片”的时候，录入端已经在做第N-n个分片的“听打录入”；此时，“文字分片”的接收处理已经是在做第N-m个分片的处理了。举例来说，如语音采集分割正在做第5个分片的时候，那么第4个分片在速记服务器端正在等待录入，第3个分片已经在录入端正在录入，第2个分片已经在服务器端等待获取，第一个分片已经回传到了客户端等待整合输出。

本例中，最后一个语音分片被分割完毕后，从它被传送到速记服务器端，再被录入端获取录入，再传回到速记服务器端，再被客户端获取，这时才进行整个文本的整合输出。这最后一个分片经过这些环节后滞后时间是整个文字输出的滞后时间。根据实验得到，一般情况下可以被控制在1分钟时间内，最长也不会超过3分钟的时间。

以上所述仅是本发明互联网语音分片速记方法的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明互联网语音分片速记方法的原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明互联网语音分片速记方法的保护范围。

Claims

1.一种互联网语音分片速记方法，其特征在于，包括：

步骤10)获取语音；

步骤20)对语音进行分片，包括以下子步骤：

步骤200)隔固定时间间隔或随意间隔对语音进行分片；

步骤202)逐个比较所述分片预分割成的更小分片；

所述更小分片平均值是波形在这个更小分片时间内的值；

所述分片平均值是整个待分割分片波形的平均值；

所述占空比指所述更小分片在所述分片中所占的时间比值；

步骤30)发送分片给有请求的录入端；

步骤40)由录入端将分片录入为文字分片；

步骤50)整合所述语音所对应的所有文字分片为一文字整体。

2.如权利要求1所述的互联网语音分片速记方法，其特征在于，所述步骤206)后还包括步骤206a)为存入分片音频缓冲区中的每一个分片设置用于标识该分片的分片控制信息。

3.如权利要求2所述的互联网语音分片速记方法，其特征在于，所述步骤206a)中的所述分片控制信息包括下列字段：

客户号，用于表示语音信息被速记的一方；

速记号，用于语音信息被速记的一方的语音信息的编号；

序号，用于表示所述分片的编号；

时码，用于表示所述分片在整个语音信息中的时间位置；

时长，用于表示所述分片的时间；

状态，用于表示所述分片录为文字分片的情况。

4.如权利要求3所述的互联网语音分片速记方法，其特征在于，所述步骤40)后还包括步骤41)若录入端无法录入该分片，将所述分片的分片控制信息的状态字段置为未被识别，并将该分片回传至问题分片数据库表中，所述问题分片数据库表用于存放分片控制信息的状态字段为未被识别的分片。

5.如权利要求1至4之一所述的互联网语音分片速记方法，其特征在于，所述步骤200)中的所述固定时间间隔为5秒。