CN107342080B

CN107342080B - 一种会议现场同步速记的系统和方法

Info

Publication number: CN107342080B
Application number: CN201710538599.8A
Authority: CN
Inventors: 卢捷; 柯登峰
Original assignee: Xiamen Chuangkemao Network Technology Co ltd
Current assignee: Xiamen Chuangkemao Network Technology Co ltd
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2020-07-24
Anticipated expiration: 2037-07-04
Also published as: CN107342080A

Abstract

本发明公开了一种会议现场同步速记的系统和方法；系统由终端、服务器和客户端组成；终端包括中文速录机、语音采集模块；中文速录机通过速录机通讯模块和服务器的文字接收模块相连接；语音采集模块通过时间延迟模块和服务器的语音识别解码模块相连接；服务器包括自动分词模块，自动分词模块分别和文法生成模块、潜在语义分析模块、字型到音素模块相连接。方法包括多个步骤。本发明了通用模型对特定领域识别率不高的问题，在速记员人工输入信息的帮助下，语音识别系统错误率相对降低了80％；解决了大型会议需要速记员数量多的问题，并且大大提高了速记员的工作效率，节省了大量人力，更加经济、方便、使用。

Description

一种会议现场同步速记的系统和方法

技术领域

本发明涉及一种同步速记的系统和方法，尤其涉及一种会议现场同步速记的系统和方法。

背景技术

由于一些重要会议、重要发言需要进行现场速记，使人们一直在培养专业的速记人员以及开发相关的速记系统或设备。速记员由于工作量的限制，在速记过程中往往会漏听或错记一些关键话语，导致速记内容的不完整或者存在记录错误等问题，有时有些大型会议需要大量的速记人员，很难找到合适且数量众多的速记人员。此外，目前还没有一款能配合速记人员提供速记速度且错误率较低的速记系统或方法。

因此需要一款能并且提高速记员的工作效率、错误率较低且能节省了大量人力，方便、使用的会议现场同步速记的系统和方法。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种会议现场同步速记的系统和方法。

为了解决以上技术问题，本发明采用的技术方案是：一种会议现场同步速记的系统，系统由终端、服务器和客户端组成；终端包括中文速录机、语音采集模块；中文速录机通过速录机通讯模块和服务器的文字接收模块相连接；语音采集模块通过时间延迟模块和服务器的语音识别解码模块相连接；服务器包括自动分词模块，自动分词模块分别和文法生成模块、潜在语义分析模块、字型到音素模块相连接；

文法生成模块和大文法模型相连接，大文法模型连接在语音识别解码模块上；潜在语义分析模块通过文法语义映射表连接到大文法模型上，字型到音素模块通过发音词典和语音识别解码模块相连接。

语音识别解码模块连接客户端的语音文字排版输出模块，语音识别解码模块上设置有声学模型和小文法模型。

方法的具体步骤如下：

会场的语音经过语音采集模块采集后，形成16K16比特单通道PCM格式录音，在时间延迟模块中缓存至少30秒钟，后经过时间延迟模块检测并分成若干句话，送到语音识别解码模块进行语音识别，语音识别解码模块采用基于动态有限状态机网络的集束搜索算法，需要声学模型、发音词典、大文法模型，小文法模型作为输入，最终的识别结果含有每个词的时间信息和置信度信息，由语音文字排版输出模块用不同颜色显示出来，速记员速录的文字信息总是比语音信息提前30秒以上到达服务器的语音识别解码模块并被语音识别解码模块所利用；

速记员使用终端的中文速录机，在中文速录机中进行文字录入，速录机通讯模块实时监控中文速录机并通过USB端口取出速记员录入的文字信息送到服务器，由服务器中的文字接收模块接收，随后送给自动分词模块进行分词，分词结果如果出现词典中没有的词，送到字型到音素模块自动注音，将单词和注音结果添加到发音词典中，所有的分词结果在潜在语义分析模块中进行语义分析，分析出排名前十名的潜在语义，并从文法语义映射表中查出对应潜在语义的文法，在大文法模型修改对应潜在语义的文法的对数概率，排名第一名的文法的对数概率值增加2.0，排名第二名的文法的对数概率值增加1.9，排名第三名的文法的对数概率值增加1.8，以此类推；

在文法生成模块中将自动分词结果中出现的二元文法、三元文法、四元文法、五元文法全部赋予对数概率-0.1，赋予回退对数概率0，插入到大文法模型中，发音词典和大文法模型随着速记员的录入文字改变而改变，从而影响语音识别解码模块的识别结果；

最终由语音识别解码模块输出最终的语音识别信息到语音文字排版输出模块中进行排版。

声学模型采用三音子状态作为输出，采用梅尔频率倒谱系数或者梅尔频率子带对数能量谱作为输入的深度神经网络，该网络可以为前馈型网络、循环网络或双向循环网络。

发音词典采用多元文法模型并表示成两个加权有限状态机网络的动态组合。

发音词典采用声母和带调的韵母为汉语的词汇注音，采用国际音标为外来语言注音；所述语音的解码算法采用基于动态构建有限状态机网络的集束搜索算法。

本发明实现了速记员不需要每一句话都完整的记录下来，只需要记录核心信息或关键信息，漏记的部分由语音识别系统自动补足及校正；同时本发明避免了通用模型对特定领域识别率不高的问题，在速记员人工输入信息的帮助下，语音识别系统错误率相对降低了80％；解决了大型会议需要速记员数量多的问题，本发明的使用使大型会议所需速记员数量减少一半，并且大大提高了速记员的工作效率，节省了大量人力，更加经济、方便、使用。

附图说明

图1为本发明系统的组成框图及工作流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，会议现场同步速记的系统，由终端、服务器和客户端组成。

终端包括中文速录机S5、语音采集模块S1；中文速录机S5通过速录机通讯模块S6和服务器的文字接收模块S7相连接；语音采集模块S1通过时间延迟模块S2和服务器的语音识别解码模块S3相连接；服务器包括自动分词模块S8，自动分词模块S8分别和文法生成模块S14、潜在语义分析模块S11、字型到音素模块S9相连接；文法生成模块S14和大文法模型S13相连接，大文法模型S13连接在语音识别解码模块S3上；潜在语义分析模块S11通过文法语义映射表S12连接到大文法模型S13上，字型到音素模块S9通过发音词典S10和语音识别解码模块S3相连接。语音识别解码模块S3连接客户端的语音文字排版输出模块S4。语音识别解码模块S3上设置有声学模型S16和小文法模型S15。

如图1所示，会场的语音经过语音采集模块S1采集后，形成16K16比特单通道PCM格式录音，在时间延迟模块S2中缓存至少30秒钟，后经过时间延迟模块S2检测并分成若干句话，送到语音识别解码模块S3进行语音识别，语音识别解码模块S3采用基于动态有限状态机网络的集束搜索算法，需要声学模型S16、发音词典S10、大文法模型S13，小文法模型S15作为输入，最终的识别结果含有每个词的时间信息和置信度信息，由语音文字排版输出模块S4用不同颜色显示出来(置信度高的单词采用黑色表示，置信度低的单词采用灰色表示)，速记员速录的文字信息总是比语音信息提前30秒以上到达服务器的语音识别解码模块S3并被语音识别解码模块S3所利用，语音识别解码模块S3具备语音识别的性能，并最终获得错误率极低的识别结果；速记员使用终端的中文速录机S5，在中文速录机S5中进行文字录入(中文速录机S5可以使用亚伟中文速录机YW-III)，速录机通讯模块S6实时监控中文速录机S5并通过USB端口取出速记员录入的文字信息送到服务器，由服务器中的文字接收模块S7接收，随后送给自动分词模块S8进行分词，分词结果如果出现词典中没有的词，送到字型到音素模块(G2P)S9自动注音，将单词和注音结果添加到发音词典S10中，所有的分词结果在潜在语义分析模块S11中进行语义分析，分析出排名前十名的潜在语义，并从文法语义映射表S12中查出对应潜在语义的文法，在大文法模型S13修改对应潜在语义的文法的对数概率，排名第一名的文法的对数概率值增加2.0，排名第二名的文法的对数概率值增加1.9，排名第三名的文法的对数概率值增加1.8，以此类推，在文法生成模块S14中将自动分词结果中出现的二元文法、三元文法、四元文法、五元文法全部赋予对数概率-0.1，赋予回退对数概率0，插入到大文法模型中，发音词典S10和大文法模型S13随着速记员的录入文字改变而改变，从而影响语音识别解码模块S3的识别结果；

最终由语音识别解码模块S3输出最终的语音识别信息到语音文字排版输出模块S4中进行排版。

声学模型S16采用三音子状态(senone)作为输出，采用梅尔频率倒谱系数(MFCC)或者梅尔频率子带对数能量谱(FBANK)作为输入的深度神经网络，该网络可以为前馈型网络、循环网络或双向循环网络，典型的如DBN-DNN、Deep CNN、Deep LSTM或Deep BLSTM。

发音词典S10采用多元文法模型(N-gram)并表示成两个加权有限状态机网络(WFST)的动态组合(Composition)，其中小文法模型S15记为HCLG网络，大文法模型S13记为G1网络。HCLG网络采用小三元文法模型G和发音词典L和上下文关系C以及状态映射关系H组合生成并采用minimize和determinize进行网络约简，并用push进行概率往前推送。G1网络采用加权有限状态机网络表示的五元文法模型并且实现了动态添加文法、动态添加词汇的功能。发音词典采用声母和带调的韵母为汉语的词汇注音，采用国际音标为英语等外来语言注音。语音解码算法采用基于动态构建(On-the-fly Composition)有限状态机网络的集束搜索算法。

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种会议现场同步速记的系统，其特征在于：所述系统由终端、服务器和客户端组成；所述终端包括中文速录机(S5)、语音采集模块(S1)；中文速录机(S5)通过速录机通讯模块(S6)和服务器的文字接收模块(S7)相连接；语音采集模块(S1)通过时间延迟模块(S2)和服务器的语音识别解码模块(S3)相连接；服务器包括自动分词模块(S8)，自动分词模块(S8)分别和文法生成模块(S14)、潜在语义分析模块(S11)、字型到音素模块(S9)相连接；

所述文法生成模块(S14)和大文法模型(S13)相连接，大文法模型(S13)连接在语音识别解码模块(S3)上；潜在语义分析模块(S11)通过文法语义映射表(S12)连接到大文法模型(S13)上，字型到音素模块(S9)通过发音词典(S10)和语音识别解码模块(S3)相连接。

2.根据权利要求1所述的会议现场同步速记的系统，其特征在于：所述语音识别解码模块(S3)连接客户端的语音文字排版输出模块(S4)，语音识别解码模块(S3)上设置有声学模型(S16)和小文法模型(S15)。

3.一种会议现场同步速记的方法，其特征在于：所述方法的具体步骤如下：

会场的语音经过语音采集模块(S1)采集后，形成16K16比特单通道PCM格式录音，在时间延迟模块(S2)中缓存至少30秒钟，后经过时间延迟模块(S2)检测并分成若干句话，送到语音识别解码模块(S3)进行语音识别，语音识别解码模块(S3)采用基于动态有限状态机网络的集束搜索算法，需要声学模型(S16)、发音词典(S10)、大文法模型(S13)，小文法模型(S15)作为输入，最终的识别结果含有每个词的时间信息和置信度信息，由语音文字排版输出模块(S4)用不同颜色显示出来，速记员速录的文字信息总是比语音信息提前30秒以上到达服务器的语音识别解码模块(S3)并被语音识别解码模块(S3)所利用；

速记员使用终端的中文速录机(S5)，在中文速录机(S5)中进行文字录入，速录机通讯模块(S6)实时监控中文速录机(S5)并通过USB端口取出速记员录入的文字信息送到服务器，由服务器中的文字接收模块(S7)接收，随后送给自动分词模块(S8)进行分词，分词结果如果出现词典中没有的词，送到字型到音素模块(S9)自动注音，将单词和注音结果添加到发音词典(S10)中，所有的分词结果在潜在语义分析模块(S11)中进行语义分析，分析出排名前十名的潜在语义，并从文法语义映射表(S12)中查出对应潜在语义的文法，在大文法模型(S13)修改对应潜在语义的文法的对数概率，排名第一名的文法的对数概率值增加2.0，排名第二名的文法的对数概率值增加1.9，排名第三名的文法的对数概率值增加1.8，以此类推；

在文法生成模块(S14)中将自动分词结果中出现的二元文法、三元文法、四元文法、五元文法全部赋予对数概率-0.1，赋予回退对数概率0，插入到大文法模型中，发音词典(S10)和大文法模型(S13)随着速记员的录入文字改变而改变，从而影响语音识别解码模块(S3)的识别结果；

最终由语音识别解码模块(S3)输出最终的语音识别信息到语音文字排版输出模块(S4)中进行排版。

4.根据权利要求3所述的会议现场同步速记的方法，其特征在于：所述声学模型(S16)采用三音子状态作为输出，采用梅尔频率倒谱系数或者梅尔频率子带对数能量谱作为输入的深度神经网络，该网络可以为前馈型网络、循环网络或双向循环网络。

5.根据权利要求3所述的会议现场同步速记的方法，其特征在于：所述发音词典(S10)采用多元文法模型并表示成两个加权有限状态机网络的动态组合。

6.根据权利要求3所述的会议现场同步速记的方法，其特征在于：所述发音词典(S10)采用声母和带调的韵母为汉语的词汇注音，采用国际音标为外来语言注音；所述语音的解码算法采用基于动态构建有限状态机网络的集束搜索算法。