CN110265000A

CN110265000A - 一种实现快速语音文字记录的方法

Info

Publication number: CN110265000A
Application number: CN201910517798.XA
Authority: CN
Inventors: 徐先胜
Original assignee: Guangzhou Microphone Technology Co Ltd
Current assignee: Guangzhou Microphone Technology Co Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-09-20

Abstract

本发明涉及一种实现快速语音文字记录的方法，该方法中由于通过主机端进行前端端点检测，提取到有效的录音文件，后期在后台服务器端不再需要对录音文件进行语音识别的预处理以及背景噪音干扰的过滤，因此，可有效提高后期文件识别速度，也缓解了后台服务器计算压力，另外，对通过端点检测的有效音频进行时间标记，后期可快速、准确的复原各个发言人的原始发言内容，且便于现场及事后查询、阅读及纠正复原原始发言内容。

Description

一种实现快速语音文字记录的方法

技术领域

本发明涉及文字记录技术领域，尤其是涉及一种实现快速语音文字记录的方法。

背景技术

现有庭审/会议记录为速录员在庭审过程中进行文字录入，人工记录在速度上难以跟上与会人员的口诉速度，导致记录过程中发言人特意控制发言节奏，影响庭审/会议效率，且庭审/会议记录大多经过记录人员“加工”造成事后与会人员需要花费大量时间进行记录校对，庭审/会议效率不高。

为提高记录速度，现有技术中采用的一种技术方案是引入庭审/会议实时语音识别，通过语音识别实现庭审/会议记录，但实时语音识别存在现场修改文字难问题，而且根据用户使用环境不同、与会参与人发言音量大小等造成庭审/会议拾音环境变化，导致识别效果变差，加上实时语音受背景噪声、方言、口音以及语义理解等因素限制，面向法庭真实场景的大量词汇连续语音识别性能远远无法满足实际应用中的要求。

发明内容

本发明解决的技术问题在于提供一种实现快速语音文字记录的方法，可准确复原各个发言人的原始发言内容，且便于现场及事后查询、阅读及纠正复原原始发言内容。

为解决上述技术问题，本发明采用下述技术方案：

一种实现快速语音文字记录的方法，其包括如下步骤：

设置对应每个发言人的音频采集装置，每个音频采集装置采集一路音频信号；

主机端对每个音频采集装置采集到的该路音频信号进行端点检测；

主机端对每路音频信号中通过端点检测的有效音频进行标记，生成对应该有效音频的标记文件，将该标记文件与该有效音频文件生成为录音文件；

服务器端根据主机端发来的各路录音文件进行语音识别，将各个有效音频文件转写成对应的整段文字信息并根据各个有效音频文件对应的标记文件添加该段文字信息对应的有序时间戳；

服务器端根据各路录音文件的语音识别结果，按照各段文字信息对应的有序时间戳的开始时间进行排序，按序插入各有序时间戳对应的整段文字，组合成复原各个发言人发言内容的文字记录文档。

其中，所述主机端对每个音频采集装置采集到的该路音频信号进行端点检测为：

检测音频大小是否超过端点检测阀值，若超过则确定为端点有效音频文件起点，后续若检测到音频大小小于端点检测阀值，则确定为端点有效音频文件终点。

其中，所述端点检测包括对该路音频信号中的背景噪音、干扰进行过滤。

其中，所述端点检测采用隐马尔柯夫模型检测方法。

其中，所述语音识别包括：

对录音文件提取特征码；

根据所述特征码、声学模型和语言模型以及字典库进行识别，输出对应的文本。

其中，所述声学模型和语言模型为基于法院专有训练的声学模型和语言模型。

其中，所述语音识别得到的后续词组为词网格，词网格成分散状态，语音识别过程中采用相识度来对后续词组进行得分表示，把相近得分表示的词汇编排形成最终语音识别结果。

另外，还包括对语音识别结果中候选生成的词汇进行错误修正。

另外，还包括：设置通道标识，每路音频信号对应一个通道标识。

其中，所述音频采集装置为麦克风。

本发明具有如下有益效果：根据上述本发明提供的方法，通过设置对应每个发言人的音频采集装置，每个音频采集装置采集一路音频信号；主机端对每个音频采集装置采集到的该路音频信号进行端点检测；主机端对每路音频信号中通过端点检测的有效音频进行标记，生成对应该有效音频的标记文件，将该标记文件与该有效音频文件生成为录音文件；服务器端根据主机端发来的各路录音文件进行语音识别，将各个有效音频文件转写成对应的整段文字信息并根据各个有效音频文件对应的标记文件添加该段文字信息对应的有序时间戳；服务器端根据各路录音文件的语音识别结果，按照各段文字信息对应的有序时间戳的开始时间进行排序，按序插入各有序时间戳对应的整段文字，组合成复原各个发言人发言内容的文字记录文档。由于通过主机端进行前端端点检测，提取到有效的录音文件，后期在后台服务器端不再需要对录音文件进行语音识别的预处理以及背景噪音干扰的过滤，因此，可有效提高后期文件识别速度，也缓解了后台服务器计算压力，另外，对通过端点检测的有效音频进行时间标记，后期可快速、准确的复原各个发言人的原始发言内容，且便于现场及事后查询、阅读及纠正复原原始发言内容。

附图说明

图1为本发明实现快速语音文字记录的方法一个具体实施例流程图；

图2为本发明实现快速语音文字记录的方法中进行语音识别的一个具体实施例示意图；

图3为本发明实现快速语音文字记录的方法中组合得到文字记录文档的一个具体实施例示意图；

图4-6为本发明实现快速语音文字记录的方法中实现候选字修正过程的一个具体实施例示意图。

具体实施方式

下面结合附图给出的实施例对本发明作进一步详细说明。

参考图1，该图为本发明实现快速语音文字记录的方法的一个具体实施例流程图，其主要包括如下步骤：

步骤S101，设置对应每个发言人的音频采集装置，每个音频采集装置采集一路音频信号，具体实现时，所述音频采集装置可为麦克风或者其他可采集音频信号的装置，这里不做具体限定；

步骤S102，主机端对每个音频采集装置采集到的该路音频信号进行端点检测；

步骤S103，主机端对每路音频信号中通过端点检测的有效音频进行标记，生成对应该有效音频的标记文件，将该标记文件与该有效音频文件生成为录音文件，具体实现时，所述标记至少可以包括时间标记，即端点的有效时间戳，实际中还可以采用其他标记，这里不做具体限定；

步骤S104，服务器端根据主机端发来的各路录音文件进行语音识别，将各个有效音频文件转写成对应的整段文字信息并根据各个有效音频文件对应的标记文件添加该段文字信息对应的有序时间戳；

步骤S105，服务器端根据各路录音文件的语音识别结果，按照各段文字信息对应的有序时间戳的起始时间进行排序，按序插入各有序时间戳对应的整段文字，组合成复原各个发言人发言内容的文字记录文档。

需要说明的，本实施例中得到的文字记录文档与标记文件的标记完全对应，根据标记找到保存的录音文件可实现记录内容回听录音，而回听录音根据标记可对应转写为记录文字，另外也可根据标记找到回听录音进行现场校对，提高校对效率。

作为本实施例较佳的一种选择方式，所述音频采集装置采用麦克风(即话筒)，具体实现时，麦克风数量可根据具体情况而定，例如有多个话筒，每个话筒对应一个发言人，也相应对应一个音频信号采集通道或者音频录制通道，可预先设置通道标识或角色分配结果标识，每路音频信号或每个发言人对应一个通道标识或角色分配结果标识。由于在某些场合会有多种角色进行发言讨论，比如庭审过程中通常有多个席位，比如民庭：法官席、原告席、被告席位，刑庭：法官席、公诉人席、辩护人席、嫌疑人席，而每个席位通常会有多个发言人，因此，将本实施例应用到庭审中时，可以设计法官席采用3个会议话筒进行音频信号采集，原告/被告，公诉/辩护各采用2支话筒，嫌疑人采用1支话筒，也就是法庭现场采用8支话筒对庭审现场的各个发言人进行音频信号采集。以此，能够对每个角色发言的内容分开进行采集和识别，可避免多人同时发言时形成干扰，进行语音识别较为困难的问题。每个话筒对应不同的角色，庭审过程中录制音频时，每个话筒所采集的音频信号独自录制成一路独立的录音文件。

由于在庭审过程中根据流程每个角色进行独立发言，所以在每路通道录制的音频文件中会存在诸多没有人为发声的时间段，因此，为了提高后期的语音识别速度，本实施例中采用端点检测的方法，后期服务器中可直接根据有效的音频文件进行识别，可极大的提高语音识别速度，本实施例中在主机端进行端点检测是采用检测该路音频信号大小是否超过端点检测阀值，若超过则确定为端点有效音频文件起点，后续若检测到音频信号大小小于端点检测阀值，则确定为有效音频文件终点；

需要说明的，本实施例中在检测到端点后，即同时进行时间标记，当音频信号大小超过端点检测阀值时文件自动进行开始时间标记，标记开始时间，后续当音频信号大小小于端点检测阀值时标记结束时间，开始到结束为一个时间端点周期，而这个时间端点周期之间的内容为录音文件的实际有效音频文件，标记后生成对应该有效音频的标记文件，将该标记文件和对应的有效音频文件一起生成录音文件，作为具体的例子，例如假若开始录制的时间设为0，在开始录制后1分钟时检测到第一个端点，那么生成的标记文件中可标记生成一个有序时间戳为[00：01:00]；

另外，在对录制的音频文件进行端点检测后，根据端点对应的标记文件，例如标记文件中的时间戳，在后期服务器端进行语音识别时，会分别对每个有效音频文件进行语音识别，识别结果会形成多个独立的长段，每个长段对应一个有效的音频段，在语音识别结束后会形成多个无序的长段文本，由于庭审过程中一般是各个发言人间隔式发言，为了使识别后的文本方便查阅，需要将多个长段按照发言人原始的发言顺序进行排列，以准确呈现出一篇完整的庭审记录文本，为此，参考图2，本实施例中多路识别结果、多路有序时间戳以及角色识别都进入到服务器端的缓存平台，其中一路识别结果会得到一路文字信息，一路文字信息可能包括多个长段，多路识别结果为多路文字信息，而一路文字信息中每个长段对应一个有序时间戳，多路有序时间戳为若干个有序时间戳，而角色识别在录音开始前已经进行了角色定位，且角色的定位支持任何时间重定义，系统可根据最终的定义进行分配，而无论是对每路音频信号进行检测端点时，还是生成录音文件，进行语音识别时，均可以根据通道标识或者角色分配结果标识进行角色定位，服务器端的缓冲平台通过分析多路识别结果，根据有序时间戳进行数据排列，因存在多路识别文字，数据排列时可按照有序时间戳的开始时间排序，排序后按照有序时间戳顺序插入该时间戳对应的整段文字，整段插入完毕后排列到下一时间戳开始点，再插入该下一时间戳对应的整段文字，系统按照录音文件数量进行同一时刻顺序遍历直到所有文件处理完毕并实现最终的文字记录文档输出，而通道标识或角色分配结果标识始终与某路识别文字对应，即角色识别在缓冲平台中与录音文件的语音识别结果实现关联，以区分转写的最终角色。

以上将本发明的方法应用到庭审中仅为本发明的一种应用具体实施例，并非仅限于此，本发明适用于多种场合，比如在多人讨论发言场合中，或者需要对语音进行录制后期输出记录文本的场合，例如会议等场合。

需要说明的，在对音频信号的采集过程中，一般会有多种噪音干扰，此噪音干扰通常会影响端点检测与语音识别结果，因此，优选的，在本实施例中端点检测还包括对该路音频信号中的背景噪音、干扰进行过滤，主要用于过滤部分背景噪声及电路噪声，使语音识别前的音频信号更干净，且使得语音识别时提取特征码更能反映语音的本质特征。

作为优选的实施例，端点检测的准确性在某种程度上直接决定了整个录音文件语音识别的成败，没有足够准确的端点检测(尤其是起点)，语音识别的工作往往劳而无功。本实施例中采用隐马尔柯夫模型(HMM)检测方法，此端点检测方式把备检信号看作由背景(s-ilence)和废料(garbage，在语音识别领域通常为无用信号)构成，在音频信号采集处理阶段用定向解码方式对基础训练模型语音进行分解，求出语音部分哪些帧与背景匹配，哪些帧与废料匹配从而计算出声音的临界点。

另外，需要说明的，语音识别由声学模型和语言模型共同构成统计模型，声学模型是识别系统的底层模型，其目标是通过模型度量，寻找语音特征向量序列对应的发音。作为本实施例的一种较佳选择，声学模型可采用隐马尔可夫模型(HMM)，HMM模型可以看成一个双重随机过程，一个马尔可夫链的各个状态可以产生出各种输出，这种机制较合理地模仿了人类语言活动的过程，对孤立词和连续语音识别来说都是较理想的声学模型。语言模型的作用是通过提供字或词之间的上下文信息和语义信息，对于大词汇量连续语音识别，语言模型是必不可少的关键技术之一，作为本实施例的一种较佳选择，采用统计语言模型，采用N元文法(N-gram)，其核心是根据已知前(N-1)个字或词，预测第N个字或词出现的概率。

另外，为了提高语音识别的准确率，并应用于不同场景，可对本实施例中的声学模型和语音模型做不同的优化处理，例如应用于法院庭审中，所述声学模型和语言模型可采用基于法院专有训练的声学模型和语言模型，根据法院庭审时发言对象性别、地域口音(如南方/北方男生口音、南方/北方女生口音)等预先进行训练，并根据不同的行业主题如经济、政策、科技、民生等方面学习训练成一个通用语言模型。然后针对法院行业诸如法律条款、法律词汇、裁判文书、笔录文档样式、证据资料、案件资料等进行学习训练为法院行业专用语言模型再导入到通用语言模型，形成针对法院行业的语音识别专用库。对于部分非常规词组，比如人名，语音识别结果一般会因为同音字的存在而导致识别错误，所以，在每个案件庭审之前，可预先令语音识别模块学习具体案件的特定内容，比如人名等。

如图3所示为本实施例的语音识别流程，具体主要是对每路录音文件提取特征码；然后根据所述特征码、声学模型和语言模型以及字典库进行识别，输出对应的文本，需要说明的，每路原始音频信号在经过时间标记后生成该路发言人的录音文件，从录音文件中可提取出若干特征向量用于识别，因录音文件在前端主机端录制时已经过语音端点检测(VAD)处理，部分背景噪音、干扰已做过滤，录音文件中的有效音频信号更干净，使得语音识别时提取得到的特征码更能反映语音的本质特征，在特征提取阶段把语音信号切分成几十毫秒的帧量，对每一帧提取一个特征向量，由于这种方式会丢失帧与帧之间的联接信息造成失真，无法反映帧之间的变化过程，因此，本实施例中特征提取加上连续函数中的一阶导数和二阶导数共同构成特征码，将提取的录音文件特征码+标记文件同步传输到服务器端的语音识别系统，结合声学模型、语言模型和字典库，识别出该路录音文件各个有效音频文件对应的各个长句或者说对应的整段文字信息，然后根据标记信息添加各段文字信息对应的有序时间戳，最终得到该路录音文件对应的文本。

需要说明的，具体实现时，语音识别得到的后续词组为词网格，词网格成分散状态，语音识别过程中可采用相识度来对后续词组进行得分表示，把相近得分表示的词汇编排形成最终语音识别结果。

另外，需要说明的，由于受限于语音识别的准确性，语音识别的结果常常会出现错误，这将对语音理解的后续工作造成障碍，增加了语音理解的难度，语音识别结果的纠错是语音理解过程中的一项重要工作，语音识别结果的纠错可以对一些错误结果进行纠正，从而提高语音理解的准确性，为此，本实施例中还需要对语音识别结果中候选生成的词汇进行错误修正，例如采用基于词的识别结果概率信息统计方式进行候选修正，具体实现时，候选词采用上下文词汇进行语音识别错误纠错，该方法需要较大的语料，设定一个窗口长度，定义在中心词周围范围内都算作词汇的邻居，遍历文本统计每个词的邻居和出现次数，并对邻居进行排序，根据识别错误的词和读音相似的候选词对于上下文距离判断识别结果是否是错误的词，并找出正确的候选词。如图4系统通过语音特征码提取与识别内容音节相符的大量词汇假设，构成一个个窗格，窗口对齐后得出如图5的对齐窗格，再通过相识度对相邻词汇进行评分量化，计算出如图6所示结果。

以上所述者，仅为本发明的较佳实施例而已，当不能以此限定本发明实施的范围，即大凡依本发明申请专利范围及发明说明内容所作的简单的等效变化与修饰，皆仍属本发明专利涵盖的范围内。

Claims

1.一种实现快速语音文字记录的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述主机端对每个音频采集装置采集到的该路音频信号进行端点检测为：

3.根据权利要求2所述的方法，其特征在于，所述端点检测包括对该路音频信号中的背景噪音、干扰进行过滤。

4.根据权利要求2所述的方法，其特征在于，所述端点检测采用隐马尔柯夫模型检测方法。

5.根据权利要求1所述的方法，其特征在于，所述语音识别包括：

对录音文件提取特征码；

6.根据权利要求5所述的方法，其特征在于，所述声学模型和语言模型为基于法院专有训练的声学模型和语言模型。

7.根据权利要求5所述的方法，其特征在于，所述语音识别得到的后续词组为词网格，词网格成分散状态，语音识别过程中采用相识度来对后续词组进行得分表示，把相近得分表示的词汇编排形成最终语音识别结果。

8.根据权利要求1所述的方法，其特征在于，还包括对语音识别结果中候选生成的词汇进行错误修正。

9.根据权利要求1所述的方法，其特征在于，还包括：设置通道标识，每路音频信号对应一个通道标识。

10.根据权利要求1所述的方法，其特征在于，所述音频采集装置为麦克风。