CN115938368A

CN115938368A - 语音识别管理系统及方法

Info

Publication number: CN115938368A
Application number: CN202211509179.4A
Authority: CN
Inventors: 阮建山; 张军; 张宇; 蔡佳君; 李德阳
Original assignee: HUADI COMPUTER GROUP CO Ltd
Current assignee: HUADI COMPUTER GROUP CO Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-04-07

Abstract

本申请公开了一种语音识别管理系统及方法。该系统可以包括实时识别模块、声纹设置模块、本地词库：声纹设置模块设置用户对应的声纹；本地词库用于存储并管理常用词、敏感词、语气词；实时识别模块根据本地词库识别文本文件，根据声纹设置模块识别声纹对应的用户。本发明通过系统内部算法模型来实现角色区分，降低设备成本以及增加便携性。

Description

语音识别管理系统及方法

技术领域

本发明涉及语音识别领域，更具体地，涉及一种语音识别管理系统及方法。

背景技术

在会议演讲等各种场景中，都需要及时留存文字记录。通常由专门人员负责记录和整理相关文档材料，但在多人发言、语速较快等情况下，人工记录的准确性难以保障，效率较低。尤其在一些不方便录音的场合，对实际情况的准确记录将更加困难。

已有同类产品功能单一，往往只具备语音转写或声纹识别的功能，不能进行文本编辑，只能满足一些简单的会议记录的应用，缺少针对特定场景的功能。用户需要使用多个产品才能将语音信息转换成格式化的文字数据，过程繁琐，不能有效减少工作量。

在已有语音转写产品中，语音转写和声纹识别准确率的提升都离不开对用户语音文件的学习。大部分产品采用将用户数据上传到云端的方式，这将带来数据隐私泄漏等方面的安全隐患。而会议等音频内容往往涉及政府机关、企业单位的内部敏感或机密信息，一旦泄漏，后果不堪设想。

因此，有必要开发一种语音识别管理系统及方法。

公开于本发明背景技术部分的信息仅仅旨在加深对本发明的一般背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

本发明提出了一种语音识别管理系统及方法，其能够通过系统内部算法模型来实现角色区分，降低设备成本以及增加便携性。

第一方面，本公开实施例提供了一种语音识别管理系统，包括实时识别模块、声纹设置模块、本地词库：

所述声纹设置模块设置用户对应的声纹；

所述本地词库用于存储并管理常用词、敏感词、语气词；

所述实时识别模块根据所述本地词库识别文本文件，根据所述声纹设置模块识别声纹对应的用户。

优选地，所述实时识别模块通过端到端的语音识别识别所述文本信息，包括：

信号处理及特征提取单元，用于从输入信号中提取特征；

统计声学模型，用于处理提取的所述特征；

发音词典，包含所述系统所能处理的词汇集及其发音，所述发音词典还包括统计声学模型与语言模型间的映射；

语言模型，用于对语言中的词语搭配关系进行归纳，抽象成概率模型；

解码器，根据所述统计声学模型、所述发音词典、所述语言模型，确定所述输入信号对应的词串。

优选地，所述实时识别模块还包括：

文本断句单元，基于深度学习从文本中学习语义特征的权重分布，对语音识别的文本文件进行自动标点预测。

优选地，所述实时识别模块还包括：

声纹识别单元，用于针对所述文本文件提取声纹，通过深度神经网络模型进行训练，与所述声纹设置模块对比确定所述声纹对应的用户。

优选地，还包括：

录音识别模块，用于根据所述本地词库识别音频的文本文件，根据所述声纹设置模块识别声纹对应的用户。

优选地，还包括：

地点管理模块，用于设定实时识别的地点，缩小所述声纹设置模块的匹配范围。

优选地，还包括：

识别历史模块，用于存储识别的文本文件，用户能够通过所述识别历史模块对所述文本文件进行管理。

优选地，还包括：

本地词库管理模块，用于针对外部文本与外部词库进行学习，更新所述本地词库。

第二方面，本公开实施例还提供了一种语音识别管理方法，包括：

加载所述本地词库与所述声纹设置模块；

所述实时识别模块实时识别用户与语音信息；

根据所述用户与对应的语音信息，获取所述文本文件并存储。

优选地，所述实时识别模块实时识别用户与语音信息包括：

判断是否修改所述用户，若是，提取当前用户的声纹并保存至所述声纹设置模块，加载该声纹进行文本识别。

其有益效果在于：本发明不需要外部搭配特定的外部设备来进行区分角色，通过系统内部算法模型来实现角色区分，降低设备成本以及增加便携性。

本发明使用当前最先进的端到端语音识别算法和大数据训练的模型，在各种口音、噪声场景下准确率高；

联合使用说话人日志和声纹技术，无论是否注册都可以自动进行角色区分和标注，并且不限定一次会议中的角色数量；系统自动计算出角色数量，也可指定；支持会议过程中，实时进行角色区分和标注；以及会议结束之后最终的角色区分和标注。并支持各种自定义模板编辑导出。

融合基于语义和语音信号的断句技术，能自动断开在时间上连续的不同人的说话内容，并且对断开文本给出正确的标点符号。

本发明的方法和系统具有其它的特性和优点，这些特性和优点从并入本文中的附图和随后的具体实施方式中将是显而易见的，或者将在并入本文中的附图和随后的具体实施方式中进行详细陈述，这些附图和具体实施方式共同用于解释本发明的特定原理。

附图说明

通过结合附图对本发明示例性实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了根据本发明的一个实施例的一种语音识别管理系统的框图。

图2示出了根据本发明的一个实施例的语音识别管理方法的步骤的流程图。

附图标记说明：

1、实时识别模块；101、信号处理及特征提取单元；102、统计声学模型；103、发音词典；104、语言模型；105、解码器；106、文本断句单元；107、声纹识别单元；2、声纹设置模块；3、本地词库；4、录音识别模块；5、地点管理模块；6、识别历史模块；7、本地词库管理模块。

具体实施方式

下面将更详细地描述本发明的优选实施方式。虽然以下描述了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。

为便于理解本发明实施例的方案及其效果，以下给出两个具体应用示例。本领域技术人员应理解，该示例仅为了便于理解本发明，其任何具体细节并非意在以任何方式限制本发明。

实施例1

一种语音识别管理系统，包括实时识别模块、声纹设置模块、本地词库：

声纹设置模块设置用户对应的声纹；

本地词库用于存储并管理常用词、敏感词、语气词；

实时识别模块根据本地词库识别文本文件，根据声纹设置模块识别声纹对应的用户。

在一个示例中，实时识别模块通过端到端的语音识别识别文本信息，包括：

信号处理及特征提取单元，用于从输入信号中提取特征；

统计声学模型，用于处理提取的特征；

发音词典，包含系统所能处理的词汇集及其发音，发音词典还包括统计声学模型与语言模型间的映射；

解码器，根据统计声学模型、发音词典、语言模型，确定输入信号对应的词串。

在一个示例中，实时识别模块还包括：

声纹识别单元，用于针对文本文件提取声纹，通过深度神经网络模型进行训练，与声纹设置模块对比确定声纹对应的用户。

在一个示例中，还包括：

录音识别模块，用于根据本地词库识别音频的文本文件，根据声纹设置模块识别声纹对应的用户。

在一个示例中，还包括：

地点管理模块，用于设定实时识别的地点，缩小声纹设置模块的匹配范围。

在一个示例中，还包括：

识别历史模块，用于存储识别的文本文件，用户能够通过识别历史模块对文本文件进行管理。

在一个示例中，还包括：

具体地，该语音识别管理系统，包括实时识别模块1、声纹设置模块2、本地词库3：

声纹设置模块2设置用户对应的声纹，包含人员管理、群组管理，其中人员管理包括人员的管理以及人员对应的声纹管理。声纹为实时识别模板的加载声纹库。为了提高人员声纹的识别率，将声纹分为标准声纹(通过人员管理添加)、过程声纹(实时识别过程中添加)，优先根据标准声纹进行匹配。

本地词库3用于存储并管理常用词、敏感词、语气词；常用词管理主要是针对一些平常习惯用词进行替换；敏感词管理可根据用户自定义敏感词以及相对应的替换词；语气管理可设置屏蔽一些常用语气词，类似嗯、啊等。

实时识别模块1根据本地词库3识别文本文件，根据声纹设置模块2识别声纹对应的用户。实时识别模块1用于开始转录，可选择转写模式、会议地点、模板，转写模式支持会谈模式、口述模式，其中会谈模式会自动角色分离识别说话人，口述模式只是识别文字；会议地点可缩小声纹库的范围更加精准匹配声纹，识别率大大提升；选择模板可直接在语音识别过程中在模板中编辑文字，节省会后梳理整理时间。在完善开始信息之后，会自动初始化语音引擎加载本地词库，其中本地词库可在系统直接维护，初始化完成后可根据语音识别内容自动转录，并支持在过程中实时编辑。

实时识别模块1通过端到端的语音识别识别文本信息，通过语义理解技术对转写结果自动断句，并且给出标点符号；对断句之后的语音片段，使用说话人日志和声纹特征技术实现实时的说话人角色标注。具体包括：

信号处理及特征提取单元101，用于从输入信号中提取特征，供统计声学模型102处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。

统计声学模型102，用于处理提取的特征。传统的声学模型大多使用混合高斯模型-隐马尔科夫模型(GMM-HMM)。近些年，深度神经网络(Deep Neural Network,DNN)在对声学特征建模上表现出更好的效果。基于深度神经网络的声学模型，比如上下文相关的深度神经网络-隐马尔科夫模型(CD-DNN-HMM,context dependent)在语音识别领域已经大幅度超越了过去的GMM-HMM模型。DNN应用到语音识别领域后取得了非常明显的效果，随着DNN技术的成功，越来越多新的异构神经网络应用到语音识别上，从CNN到RNN，LSTM再到RNN与CTC的结合等等，伴随着这个过程，语音识别的性能也在持续提升。

发音词典103，包含系统所能处理的词汇集及其发音，发音词典还包括统计声学模型102与语言模型104间的映射。

语言模型104，用于对语言中的词语搭配关系进行归纳，抽象成概率模型；语言建模是对语言中的词语搭配关系进行归纳，抽象成概率模型。这一模型在解码过程中对解码空间形成约束，不仅减小计算量，而且可以提高解码精度。传统语言模型多基于N元法(n-gram)，近年来基于递归神经网络(RNN)的语言模型发展很快，在某些识别任务中取得了比n-gram模型更好的结果。语言模型要解决的主要问题是如何对低频词进行平滑。不论是n-gram模型还是RNN模型，低频词很难积累足够的统计量，因而无法得到较好的概率估计。平滑方法借用高频词或相似词的统计量，提高对低频词概率估计的准确性。

解码器105，根据统计声学模型102、发音词典103、语言模型104，确定输入信号对应的词串。解码器105是语音识别系统的核心之一，其任务是对输入的信号，根据统计声学模型102、发音词典103、语言模型104，寻找能够以最大概率输出该信号的词串。解码是利用统计声学模型102、发音词典103、语言模型104中积累的知识，对语音信号序列进行推理，从而得到相应语音内容的过程。早期的解码器一般为动态解码，即在开始解码前，将各种知识源以独立模块形式加载到内存中，动态构造解码图。现代语音识别系统多采用静态解码，即将各种知识源统一表达成加权有限状态转移机(Weighted Finite-State Transducers,WFST)，并将各层次的WFST嵌套组合在一起，形成解码图。解码时，一般采用Viterbi算法在解码图中进行路径搜索。为加快搜索速度，一般对搜索路径进行剪枝，保留最有希望的路径，即beam search。使用海量带标注的音频数据，训练基于注意力机制的端到端语音识别模型，相比传统的hybrid系统性能大幅提升。基于TLG decoder框架，实现个性化定制功能，可以定制热词和领域偏移。受益于端到端模型强大的表达能力，比hybrid系统有更低的资源占用，和更快的解码速度。

文本断句单元106，基于深度学习从文本中学习语义特征的权重分布，对语音识别的文本文件进行自动标点预测。基于深度学习的方法，从海量文本中学习语义特征的权重分布，实现对语音识别文本进行自动标点预测的功能。同时，在工程端实现了基于最小置信度的流式断句逻辑，配合语音识别的流式输出，达到一种自然的流式标点效果。

声纹识别单元107，用于针对文本文件提取声纹，通过深度神经网络模型进行训练，与声纹设置模块2对比确定声纹对应的用户。对语义断句之后的语音片段提取声纹，声纹提取算法采用最新的深度神经网络模型，使用海量带角色的语音数据训练模型，模型具备提取时间稳定，区分性极强声纹的能力。其次计算两两声纹之间的相似度，采取余弦距离作为相似度。余弦距离的计算公式：假如A、B分别是两个声纹，那么A、B的相似度为cos_similarity＝(A*B)/(|A||B|)。采用层次凝聚聚类方法(Hierarchical AgglomerativeClustering)对声纹进行聚类，层次凝聚聚类的cost采用相似度的相反数。聚类完成之后，就完成了说话人角色的标注。

该语音识别管理系统还包括：

录音识别模块4，用于根据本地词库3识别音频的文本文件，根据声纹设置模块2识别声纹对应的用户。直接上传一段音频文件，会自动识别根据音频文件生成转录成文本文件并进行自动角色分离，其中音频文件格式支持上传wav、mp3、wma、ogg、m4a、avi和mp4格式。由于目前所有的语音识别引擎都只支持Linear PCM编码的数据(wav格式文件)输入，在系统内部集成ffmpeg工具，文件上传之后会默认进行一个格式的转换，转换主要是使用ffmpeg对音频的样本格式的转换、采样通道数转换、采样率转换。

地点管理模块5，包含地点新增和删除功能，用于设定实时识别的地点，缩小声纹设置模块的匹配范围，提高人员声纹识别匹配率。

识别历史模块6，用于存储识别的文本文件，用户能够通过识别历史模块6对文本文件进行管理。包含实时识别历史、录音识别历史。分别对实时识别数据、录音识别数据进行管理，包含对数据文件的下载、删除以及编辑，其中编辑可直接数据文字内容和说话人，以及模板切换修改模板内容。

本地词库管理模块7，用于针对外部文本与外部词库进行学习，更新本地词库3。

模板管理模块，包含新建模板、删除模板、导入模板。其中新建模板我们采取了内置wps插件，可直接在界面使用wps界面进行制作模板并可直接在实时识别功能中引用该模板，便于直接在实时识别途中整理记录。

更换图片模块，用于用户自定义主题图片，并支持重置为默认功能。

本系统支持在线编辑修改以及各种模板格式直接编辑。采用二进制数据存储，将每个文字都打上对应的时间戳，包含开始时间和结束时间。再通过WebSocket协议(基于TCP的一种新的网络协议。它实现了浏览器与服务器全双工(full-duplex)通信--允许服务器主动发送信息给客户端)发送到客户端，达到可在实时识别过程中编辑功能。并在实时识别界面内置wps插件可直接使用wps功能，在语音识别过程中整理书写模板内容，编辑完成之后可支持word、wps格式导出下载。

实施例2

如图2所示，该语音识别管理方法包括：

加载本地词库与声纹设置模块；

实时识别模块实时识别用户与语音信息；

根据用户与对应的语音信息，获取文本文件并存储。

在一个示例中，实时识别模块实时识别用户与语音信息包括：

判断是否修改用户，若是，提取当前用户的声纹并保存至声纹设置模块，加载该声纹进行文本识别。

具体地，填写开会信息，包括会议地点、语音模板等。加载本地词库与声纹设置模块；实时识别模块实时识别用户与语音信息，实时判断是否修改用户，若是，提取当前用户的声纹并保存至声纹设置模块，加载该声纹进行文本识别。根据用户与对应的语音信息，获取文本文件并存储。

本领域技术人员应理解，上面对本发明的实施例的描述的目的仅为了示例性地说明本发明的实施例的有益效果，并不意在将本发明的实施例限制于所给出的任何示例。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims

1.一种语音识别管理系统，其特征在于，包括实时识别模块、声纹设置模块、本地词库：

所述声纹设置模块设置用户对应的声纹；

所述本地词库用于存储并管理常用词、敏感词、语气词；

2.根据权利要求1所述的语音识别管理系统，其中，所述实时识别模块通过端到端的语音识别识别所述文本信息，包括：

信号处理及特征提取单元，用于从输入信号中提取特征；

统计声学模型，用于处理提取的所述特征；

3.根据权利要求2所述的语音识别管理系统，其中，所述实时识别模块还包括：

4.根据权利要求3所述的语音识别管理系统，其中，所述实时识别模块还包括：

5.根据权利要求1所述的语音识别管理系统，其中，还包括：

6.根据权利要求1-4中任意一项所述的语音识别管理系统，其中，还包括：

7.根据权利要求1-5中任意一项所述的语音识别管理系统，其中，还包括：

8.根据权利要求1-5中任意一项所述的语音识别管理系统，其中，还包括：

9.一种语音识别管理方法，利用权利要求1-8中任意一项所述的语音识别管理系统，其特征在于，包括：

加载所述本地词库与所述声纹设置模块；

所述实时识别模块实时识别用户与语音信息；

10.根据权利要求9所述的语音识别管理方法，其中，所述实时识别模块实时识别用户与语音信息包括：