CN113129895A

CN113129895A - 一种语音检测处理系统

Info

Publication number: CN113129895A
Application number: CN202110426438.6A
Authority: CN
Inventors: 李斌; 高晓冬; 谢利蓉; 王宣懿
Original assignee: Shanghai Xianjian Culture Media Co ltd
Current assignee: Shanghai Xianjian Culture Media Co ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-16
Anticipated expiration: 2041-04-20
Also published as: CN113129895B

Abstract

本发明公开了一种语音检测处理系统，所述语音检测处理系统包括，多个语音终端和应用服务器，所述多个语音终端用于语音信号的接收，所述应用服务器用于对语音数据的处理和语音文本的转换校正通过在应用服务器中的语音端点检测，过滤虚词和关键词优化，有效地分析出文本信息中的关键字和校正信息，能够高效快捷地生成对应的会议报告数据，进而提高会议语音数据的处理效率和识别准确率。

Description

一种语音检测处理系统

技术领域

本发明涉及一种网络信息安全领域，特别是语音数据的修正识别。

背景技术

随着经济的发展，网络会议或多终端在线会议信息极为常见，尤其是语音会议和视频会议等，随着信息技术的发展与人工智能概念的普及，越来越多的会议服务正朝着智能化的方向发展，人们可以通过简单的语音输入与智能设备即可实现，人工与语音数据的识别。

网络会议中，对于会议内容执行分类和精准的识别是提高会议记录者或会议内容整理的重要手段，目前语音检测识别应用系统已应用于法庭笔录的记录等，但是在法庭笔录的记录中存在的适用场景是低噪音背景情况下的语音识别。众所周知，真实的会议系统尤其是讨论的语音会议而言，背景的噪音是多样的且是嘈杂的，如何从语音信息中，准确地识别出准确的语音信息将噪音信息剔除或抑制，有效地分析出文本信息中的关键字和校正信息，并根据校正信息对文本信息进行校正，有效地生成对应的会议报告数据，进而能够有效地提高会议语音数据的处理效率和识别准确率，成为目前研究的一个热点。

有鉴于以上情形。如何保障上述语音数据被准确识别和提高会议记录效率，本发明提出了一种语音检测处理系统。

发明内容

一种语音检测处理系统，所述语音检测处理系统包括，多个语音终端和应用服务器，所述多个语音终端用于语音信号的接收，所述应用服务器用于语音数据的处理和接收。

所述应用服务器包括，语音文本转换模块，其用于获取终端根据录音指令上传的语音数据，对语音数据进行特征提取，得到多个语音特征信息后，获取预设的声纹识别模型，通过声纹识别模型对所述语音特征信息进行声纹识别，由此能够有效得到多个语音片段和有效识别出对应的声纹标识，进而根据声纹标识将多个语音片段转换为对应的文本信息；

所述语音文本转换处理模块，包括端点检测单元，所述端点检测单元用于采用短时的能量和熵共同作用来检测语音端点的；

所述应用服务器中数据管理显示单元，对所有通过本系统转写的实时录制的音频文本数据和本地上传的音频文本数据进行管理，通过列表形式进行展现，通过数据管理显示单元随时查看和编辑，并且根据主题词信息快速检索。

进一步，所述应用服务器包括语气过滤模块，所述语音过滤模块，设置在文本转换模块前，用于在实时语音转写开始前或者进行文稿整理时，对重复的停顿的语气词执行过滤。

进一步，所述应用服务器包括关键词优化模块，所述关键词优化模块用于提供关键词优化功能，提前录入人名、地名、专业词汇专有名词，关键词优化模块中基于关键词领域样本数据库，对语音转换文本数据或关键词样本数据做处理，其中，所述领域样本数据库存储在应用服务器中的存储模块中，所述关键词优化模块包括具有网页抓取单元，根据网页抓取单元执行关键词系统化的更新，所述关键词系统的更新是根据会议主题而执行；

进一步，所述关键词模块用于将网页中抓取的网页安全的报道讲话内容进行关键词次的聚类分析和集中处理，并提供给语义转换模块，在语音文本转换模块执行在语音转换识别时，依据网页报道时间参数和技术领域信息权重因素，将模糊识别的语音转换为文字。

进一步，所述关键词模块的，关键词来源于终端的会议请求消息中的关键词。

进一步，所述语音文本转换模块，进一步包括输出校正单元，所述输出训练校正单元用于将发言人的文章及历史讲话稿进行文本数据处理，并以提供给语音文本转化模块。

所述进行文本数据处理，具体是：采用有监督的学习方法将关系抽取任务当做分类问题，通过远程监督方法，来提升标注语料，减少知识库中错误的label标签的影响，在使用网页数据和个人讲话类数据时，借助使用远程监督方法扩充数据集，使用注意attention机制，给不同的语料赋予不同的权重。

进一步，所述训练校正模块，用于增加个性化关键词和主要会议讲话的语料的权重值，通过公司或企业架构的层级关系，赋予不同公司层架话语语料的标签权重值，标签权重值和企业公司层级结构相关联。

进一步，语音文本处理模块，用于依据存储模块中存储的历史信息存储刻画人物画像信息，根据人物画像信息，判断模糊识别信息的语义信息。

进一步，所述语音文本转换处理模块，包括语音端点检测单元，所述语音端点检测单元用于采用短时的能量和熵共同作用来检测语音端点的，具体是：采用固定帧长，帧移，对语音信号进行分帧处理，计算每一帧的能量：提高低信噪比语音信号的熵值，采用熵和短时能量相结合，获得参数EEF_i＝(1+|E_i*H_i|)^1/2i＝1，…,n

其中，

其中s_k是原始带噪音语音信号采样值，n是对语音信号进行分帧，计算每一帧i的能量。

其中，

表示第i帧的熵，P_K是某频率分量成分的概率密度；

采用如下规则进行熵能量信息与语音段结合的判断规则：若大于设定的熵能量信息大于阈值且；

设某语音段从i点开始，到j点结束，语音段的长度是k＝j-i+1，第i个语音帧与其前相邻的最后一个语音段的距离定义为a，语音段的发音长度最小为mincount＝200ms，两音段之间的最长距离是maxcount＝250ms；准则1：若k<mincount，则该语音段是噪音段；修改熵能量集。准则2：若k>mincount，且a<maxcount，说明该语音段与其前的最后一个语音段属于同一个语音段，合并语音段。准则3：若k>mincount，且a>maxcount，说明该语音段是一单独的语音段；按上述的准则对熵能量集中的每帧以及与其相邻的帧来判定是否为语音帧，最终得到正确的带噪语音端点。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现模块中的功能。

本发明通过在应用服务器中的语音端点检测和过滤虚词，有效地分析出文本信息中的关键字和校正信息，并根据校正信息对文本信息进行校正，有效地生成对应的会议报告数据，能够有效地提高会议语音数据的处理效率和识别准确率，。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制。

图1本发明的语音检测处理系统的示意框架图。

具体实施方式

参看下面的说明以及附图，本发明的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解，其中说明和附图形成了说明书的一部分。然而，可以清楚地理解，附图仅用作说明和描述的目的，并不意在限定本发明的保护范围。可以理解的是，附图并非按比例绘制。本发明中使用了多种结构图用来说明根据本发明的实施例的各种变形。

实施例1

本发明的智能语音检测处理系统从系统逻辑架构上，将智能语音识别系统，从系统逻辑架构上共分为三层：基础设施层、平台层、应用层。

基础设施层提供基础计算能力、存储能力、网络支撑能力，保障整个系统安全、稳定、高效运行；平台层提供中文语音转写、全文检索等智能语音与基础业务能力；应用层针对中文语音转写提供控制管理终端实现对系统以及业务的管理，屏幕显示终端实现会议过程中结果展现给参会人员的功能；音频采集服务通过声卡、麦克风等硬件设备完成音频的实时采集。

基于语音检测处理系统的智能语音识别会议子系统由服务器平台和部署在各会议室的终端设备构成。服务端设备主要服务类型包含：中文转写引擎服务、应用服务、全文检索及存储服务。

应用服务器可应用于智能会议中的语音等转写等业务服务，包括用户管理、文件存储、文件全文检索等服务，同时还提供接口服务。转写引擎服务器主要部署核心转写引擎以及引擎服务，提供音频到文字的转写能力。

可选的，本申请的系统的装置可简要地体现为语音终端和应用服务器构成的系统，其中终端通过网络与应用服务器进行通信。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，应用服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。用户可以通过对应的终端向服务器发送会议记录请求，以对会议过程中的语音进行记录，会议记录请求携带了会议主题。

可选的应用服务器接收到终端发送的会议记录请求后，根据会议记录请求向终端发送录音指令，终端则根据录音指令录制会议过程中的语音数据并上传。通过应用服务器中的提供的功能模块或功能单元，执行中文转写引擎服务、应用服务、全文检索及存储服务。

应用服务器则获取终端根据录音指令上传的语音数据，对语音数据进行特征提取，得到多个语音特征信息后，获取预设的声纹识别模型，通过声纹识别模型对所述语音特征信息进行声纹识别，由此能够有效得到多个语音片段和有效识别出对应的声纹标识，应用服务器进而根据声纹标识将多个语音片段转换为对应的文本信息。可选的语音文本转换的功能可由应用服务器中的语音文本转换模块来完成。

应用服务器将获取到的语音信号转换到语义分析模型，通过语音分析模型和预先设置的关键词匹配，所属关键词匹配即会议请求或会议通知中的关键词词语。比如，会议是基于视频语音数据的算法改进发起的会议讨论，则可以在预先的关键词中，凡是出现“程序”，“改进”等词汇时，在语音分析过程中做聚类处理，提炼出不同发言者的主题类型，进行分类信息的匹配。可选的，对于技术类的发言分析中，加入语气过滤模块，对语音过滤模块，在实时语音转写开始前或者进行文稿整理时，根据需要选择是否开启“语气词过滤”功能，若开启则能可将语气词和多余的词汇去除，以保证文稿的规整。

所述语气过滤模块用于根据预先预期声纹特征执行预期过滤，在语气过滤模块中，触发分段处理，将会议内容实时语音转写成文字的过程中，做智能分段机制，让系统自动结合前后文语义、停顿时长等进行分段。

所述应用服务器进一步包括关键词优化模块，所述关键词优化模块用于提供关键词优化功能，提前录入人名、地名、专业词汇等专有名词，能有效提升该关键词的识别准确率。

优选的，关键词优化模块基于关键词领域样本数据库，对语音转化文本数据或关键词样本数据做处理。所述领域样本数据库存储在应用服务器中的存储模块中，所述关键词优化模块包括具有网页抓取单元，根据网页抓取单元执行关键词系统化的更新，所述关键词系统的更新是根据会议主题而执行。比如会议主题是安全管理整治主题，则将网页中抓取的网页安全的报道讲话等内容进行关键词的聚类分析和集中处理，在语音转换文本识别时，通过网页报道时间参数和技术领域信息将模糊识别的转义为文字，对存在逻辑语段错误的句子的识别中，提高时间和本领域的关键词信息的权重。所属关键词优化模块进一步用于在语音文本转换模块中的声纹特征信息相匹配，对于固定场所使用的智能会议系统，对主要发言人有执行特征匹配，依据存储模块中存储的历史信息刻画或提前人物画像信息，根据人物画像信息，判断模糊识别信息的语义信息，从而提高语音转化的准确性。

所述语音会话检测识别系统包括的语音文本转换模块包括训练校正单元，所述训练校正单元可以将本系统或单位主要人员的文章及历史讲话稿作为文本数据训练样本，并将分类识别结果提供给语音文本转换模块进行使用。可选的所述文本数据的输入学习跳转和分类识别可以采用知识图谱判断的方式。

所述训练校正单元采用有监督的学习方法将关系抽取任务当做分类问题，通过远程监督方法，来提升标注语料，减少知识库中错误的label标签的影响，在使用网页数据和个人讲话类数据时，借助使用远程监督方法扩充数据集，同时使用注意attention机制，来减少远程监督带来的的噪声数据，给定一个知识图谱中的实体对和其对应的关系，引入attention机制，给不同的语料赋予不同的权重，尽量减轻错误label标签的负面影响，以此来提升分类器的性能。所述训练校正模块，可增加个性化关键词和主要会议讲话的语料的权重值，比如系统内容讲话等通过公司或企业架构的层级关系，赋予不同公司层架话语预料的权重值，比如母公司的讲话语料在提取关键词或学习跳转中的参数权重大于子公司的权重，管理者，主管者和项目课题主持者的语料标签权重值大于普通发言者的，将标签权重值和企业公司层级结构相关联，提高分类效率。在所述校正分类中结合上下文的语义理解，同时融合外部语料的不同的权重值，校正不同主题语言或语义分类的参数。比如发言者提到的专有名词的含义或缩写在于母公司或项目主持者的提法不同时，在进行标注的同时，分类识别中统一成官方释义，从而提升口误和学习的自我校正。

所述应用服务器中数据管理显示单元，语音检测识别系统支持对所有通过本系统转写的实时录制的音频文本数据和本地上传的音频文本数据进行管理，通过列表形式进行展现，支持通过数据管理显示单元随时查看和编辑，并且可以根据名称等信息快速检索。此外，编辑后的全文本、重点文本以及音频、特定角色的文本，都支持快速导出，满足应用需求。

应用服务器中可以预设语义分析模型，所述语义分析模块设置在语音文本转换模块中，可知的，也可以结合在训练校正单元中，通过语义分析模型对文本信息进行上下文语义分析，由此能够准确有效地分析出文本信息中的关键字和校正信息，并根据校正信息对文本信息进行校正，并对校正后的文本信息添加对应的关键字，进而根据会议主题和添加关键字的文本信息按照预设方式生成对应的会议报告数据。

可选的，所述应用服务器还包括语音端点检测模块，所述语音端点检测模块，在语音数据执行识别时，对语音的端点进行检测。端点检测是判断语音信号片段中有意义信号的起止端点，在噪声情况下，单纯使用短时能量或短时过零率不能检测出语音信号，传统的语音特征选用Mel频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)。MFCC是一种基于人耳听觉模型的特征。它将信号的频谱在频域由线性刻度转换为Mel频率,再变换到倒谱域得到倒谱系数。然而在会议过程中，现场的会议场所，如会议室等存在多种噪音，比如多个不同的麦克之间的声音回声干扰以及会议室中的其它人员发声的干扰，为提高和减少后端文本转换模块的处理性能提升处理性能，所述系统在语音文本转换模块中设置一个语音端点检测单元，采用短时的能量和熵共同作用来检测语音端点的。其具体是：采用固定帧长，帧移，对语音信号进行分帧处理，计算每一帧的能量：提高低信噪比语音信号的熵值，采用熵和短时能量相结合，获得参数EEF_i＝(1+|E_i*H_i|)^1/2i＝1，…,n

其中，

其中，

表示第i帧的熵，P_K是某频率分量成分的概率密度。

将语音段执行划分，采用判定规则，来检测语音帧和非语音帧，可选的，对每一帧的熵能力进行归一化，得到熵能量集，加权平均之后获得到阈值Vth，当大于门限值时，判定位语音，针对不同的噪音背景，选择不同的阈值范围。判断语音段起止端点的基本准则是，能量集中的eef_i大于门限值得判断为语音信号。但现有技术中我们发现，单纯的使用大于阈值的判断为语音与实际情形并不相符合，比如不同的麦克发声的存在和发音时其它杂音的存在，比如“吧吧”“啊啊”词汇的短音的存在，单纯的阈值判断未必是语音信号，同时语音信号中即时发言过程中存在思考过程会存在静音区，同样的不适用上述规则。可选的，采用基于熵能量信息的结合的语音段判定准则。

设某语音段从i点开始，到j点结束，语音段的长度是k＝j-i+1，第i个语音帧与其前相邻的最后一个语音段的距离定义为a，语音段的发音长度最小为mincount，两音段之间的最长距离是maxcount(其中mincount和maxcount根据研究选取的语音长度最少为200ms，两语音间最大的静音距离为250ms)。准则1：若k<mincount，则该语音段是噪音段，修改熵能量集。准则2：若k>mincount，且a<maxcount，说明该语音段与其前的最后一个语音段属于同一个语音段(即为一个完整的语音)，合并语音段。准则3：若k>mincount，且a>maxcount，说明该语音段是一单独的语音段。按上述的准则对熵能量集中的每帧以及与其相邻的帧来判定是否为语音帧，最终得到正确的带噪语音端点。

判断之后，系统将获取到的语音数据根据所述特征参数序列对所述语音特征信息进行切分，得到多个语音片段；发送给后端的语音文本转换模块，所述语音文本转换模块，将上述语音根据，计算所述多个语音片段的特征参数序列的相似度，执行分类区别，从而获得文本。

实施例2

可选的，所述应用服务器中的模块化的功能也可以由软件来或软硬件来实现，当用软件或计算机程序实现时，所述应用服务器包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行以实现实施例1中的功能。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种语音检测处理系统，其特征在于：所述语音检测处理系统包括，多个语音终端和应用服务器，所述多个语音终端用于语音信号的接收，所述应用服务器用于对语音数据的处理和语音文本的转换校正；

所述应用服务器包括语音文本转换模块，所述语音文本转换模块用于获取语音终端根据录音指令上传的语音数据，对语音数据进行特征提取，得到多个语音特征信息后，获取预设的声纹识别模型，通过声纹识别模型对所述语音特征信息进行声纹识别，由此能够有效得到多个语音片段和有效识别出对应的声纹标识，进而根据声纹标识将多个语音片段转换为对应的文本信息；

所述语音文本转换模块，进一步包括语音端点检测单元，所述语音端点检测单元采用短时能量和熵来检测语音端点；

所述应用服务器包括，数据管理显示单元，所述数据管理显示单元用于对所有通过所述系统转写的实时录制的音频文本数据和本地上传的音频文本数据进行管理，通过列表形式进行展现，数据管理显示单元还用于查看和编辑，并且根据主题词信息执行快速检索。

2.如权利要求1所述的系统，其特征在于，所述应用服务器还包括语气过滤模块，所述语音过滤模块设置在文本转换模块前，用于在实时语音转写开始前或者进行文稿整理时，对重复的停顿的语气词执行过滤。

3.如权利要求1所述的系统，其特征在于，所述应用服务器还包括关键词优化模块，所述关键词优化模块用于提供关键词优化功能，提前录入人名、地名、专业词汇专有名词。

4.如权利要求3所述的系统，其特征在于，所述应用服务器中的关键词优化模块还用于基于关键词领域样本数据库，对语音转化文本数据或关键词样本数据做处理，其中，所述关键词领域样本数据库存储在应用服务器中的存储模块中；所述关键词优化模块包括具有网页抓取单元，根据网页抓取单元执行关键词系统化的更新，所述关键词系统化的更新是根据会议主题而执行。

5.如权利要求4所述的系统，其特征在于，所述关键词优化模块用于将网页中抓取的网页的报道讲话内容进行关键词的聚类分析处理，并提供给语音文本转换模块，在语音文本转换模块执行在语音转换识别时，将网页报道的时间和技术领域信息作为权重因素，对模糊识别的语音转换为文字。

6.如权利要求5所述的系统，其特征在于，其中，所述关键词优化模块中的会议主题来源于各个语音终端的会议请求消息中的关键词的聚类。

7.如权利要求6所述的系统，其特征在于，其中，所述文本语音转换模块，进一步包括训练校正单元，所述训练校正单元用于将发言人的文章及历史讲话稿进行文本数据处理，并以提供给语音文本转换模块。

8.如权利要求7所述的系统，其特征在于，所述训练校正模块，在文本数据处理中，增加个性化关键词和正式会议讲话的语料的标签权重值，依据公司或企业架构的层级关系，赋予不同公司层级讲话语料的标签权重值，标签权重值和企业公司层级结构相关联。

9.如权利要求8所述的系统，其特征在于，所述语音文本转换模块，用于依据存储模块中存储的历史信息提取人物画像信息，根据人物画像信息，判断模糊识别信息的语义信息。

10.如权利要求1-9所述的任一系统，其特征在于，所述语音检测处理系统应用于网络会议中。