CN113129895A - 一种语音检测处理系统 - Google Patents
一种语音检测处理系统 Download PDFInfo
- Publication number
- CN113129895A CN113129895A CN202110426438.6A CN202110426438A CN113129895A CN 113129895 A CN113129895 A CN 113129895A CN 202110426438 A CN202110426438 A CN 202110426438A CN 113129895 A CN113129895 A CN 113129895A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- module
- text
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 238000012937 correction Methods 0.000 claims abstract description 20
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 27
- 238000005457 optimization Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000013518 transcription Methods 0.000 claims description 11
- 230000035897 transcription Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 7
- 238000013523 data management Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000009432 framing Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Abstract
本发明公开了一种语音检测处理系统,所述语音检测处理系统包括,多个语音终端和应用服务器,所述多个语音终端用于语音信号的接收,所述应用服务器用于对语音数据的处理和语音文本的转换校正通过在应用服务器中的语音端点检测,过滤虚词和关键词优化,有效地分析出文本信息中的关键字和校正信息,能够高效快捷地生成对应的会议报告数据,进而提高会议语音数据的处理效率和识别准确率。
Description
技术领域
本发明涉及一种网络信息安全领域,特别是语音数据的修正识别。
背景技术
随着经济的发展,网络会议或多终端在线会议信息极为常见,尤其是语音会议和视频会议等,随着信息技术的发展与人工智能概念的普及,越来越多的会议服务正朝着智能化的方向发展,人们可以通过简单的语音输入与智能设备即可实现,人工与语音数据的识别。
网络会议中,对于会议内容执行分类和精准的识别是提高会议记录者或会议内容整理的重要手段,目前语音检测识别应用系统已应用于法庭笔录的记录等,但是在法庭笔录的记录中存在的适用场景是低噪音背景情况下的语音识别。众所周知,真实的会议系统尤其是讨论的语音会议而言,背景的噪音是多样的且是嘈杂的,如何从语音信息中,准确地识别出准确的语音信息将噪音信息剔除或抑制,有效地分析出文本信息中的关键字和校正信息,并根据校正信息对文本信息进行校正,有效地生成对应的会议报告数据,进而能够有效地提高会议语音数据的处理效率和识别准确率,成为目前研究的一个热点。
有鉴于以上情形。如何保障上述语音数据被准确识别和提高会议记录效率,本发明提出了一种语音检测处理系统。
发明内容
一种语音检测处理系统,所述语音检测处理系统包括,多个语音终端和应用服务器,所述多个语音终端用于语音信号的接收,所述应用服务器用于语音数据的处理和接收。
所述应用服务器包括,语音文本转换模块,其用于获取终端根据录音指令上传的语音数据,对语音数据进行特征提取,得到多个语音特征信息后,获取预设的声纹识别模型,通过声纹识别模型对所述语音特征信息进行声纹识别,由此能够有效得到多个语音片段和有效识别出对应的声纹标识,进而根据声纹标识将多个语音片段转换为对应的文本信息;
所述语音文本转换处理模块,包括端点检测单元,所述端点检测单元用于采用短时的能量和熵共同作用来检测语音端点的;
所述应用服务器中数据管理显示单元,对所有通过本系统转写的实时录制的音频文本数据和本地上传的音频文本数据进行管理,通过列表形式进行展现,通过数据管理显示单元随时查看和编辑,并且根据主题词信息快速检索。
进一步,所述应用服务器包括语气过滤模块,所述语音过滤模块,设置在文本转换模块前,用于在实时语音转写开始前或者进行文稿整理时,对重复的停顿的语气词执行过滤。
进一步,所述应用服务器包括关键词优化模块,所述关键词优化模块用于提供关键词优化功能,提前录入人名、地名、专业词汇专有名词,关键词优化模块中基于关键词领域样本数据库,对语音转换文本数据或关键词样本数据做处理,其中,所述领域样本数据库存储在应用服务器中的存储模块中,所述关键词优化模块包括具有网页抓取单元,根据网页抓取单元执行关键词系统化的更新,所述关键词系统的更新是根据会议主题而执行;
进一步,所述关键词模块用于将网页中抓取的网页安全的报道讲话内容进行关键词次的聚类分析和集中处理,并提供给语义转换模块,在语音文本转换模块执行在语音转换识别时,依据网页报道时间参数和技术领域信息权重因素,将模糊识别的语音转换为文字。
进一步,所述关键词模块的,关键词来源于终端的会议请求消息中的关键词。
进一步,所述语音文本转换模块,进一步包括输出校正单元,所述输出训练校正单元用于将发言人的文章及历史讲话稿进行文本数据处理,并以提供给语音文本转化模块。
所述进行文本数据处理,具体是:采用有监督的学习方法将关系抽取任务当做分类问题,通过远程监督方法,来提升标注语料,减少知识库中错误的label标签的影响,在使用网页数据和个人讲话类数据时,借助使用远程监督方法扩充数据集,使用注意attention机制,给不同的语料赋予不同的权重。
进一步,所述训练校正模块,用于增加个性化关键词和主要会议讲话的语料的权重值,通过公司或企业架构的层级关系,赋予不同公司层架话语语料的标签权重值,标签权重值和企业公司层级结构相关联。
进一步,语音文本处理模块,用于依据存储模块中存储的历史信息存储刻画人物画像信息,根据人物画像信息,判断模糊识别信息的语义信息。
进一步,所述语音文本转换处理模块,包括语音端点检测单元,所述语音端点检测单元用于采用短时的能量和熵共同作用来检测语音端点的,具体是:采用固定帧长,帧移,对语音信号进行分帧处理,计算每一帧的能量:提高低信噪比语音信号的熵值,采用熵和短时能量相结合,获得参数EEFi=(1+|Ei*Hi|)1/2i=1,…,n
采用如下规则进行熵能量信息与语音段结合的判断规则:若大于设定的熵能量信息大于阈值且;
设某语音段从i点开始,到j点结束,语音段的长度是k=j-i+1,第i个语音帧与其前相邻的最后一个语音段的距离定义为a,语音段的发音长度最小为mincount=200ms,两音段之间的最长距离是maxcount=250ms;准则1:若k<mincount,则该语音段是噪音段;修改熵能量集。准则2:若k>mincount,且a<maxcount,说明该语音段与其前的最后一个语音段属于同一个语音段,合并语音段。准则3:若k>mincount,且a>maxcount,说明该语音段是一单独的语音段;按上述的准则对熵能量集中的每帧以及与其相邻的帧来判定是否为语音帧,最终得到正确的带噪语音端点。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现模块中的功能。
本发明通过在应用服务器中的语音端点检测和过滤虚词,有效地分析出文本信息中的关键字和校正信息,并根据校正信息对文本信息进行校正,有效地生成对应的会议报告数据,能够有效地提高会议语音数据的处理效率和识别准确率,。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制。
图1本发明的语音检测处理系统的示意框架图。
具体实施方式
参看下面的说明以及附图,本发明的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本发明的保护范围。可以理解的是,附图并非按比例绘制。本发明中使用了多种结构图用来说明根据本发明的实施例的各种变形。
实施例1
本发明的智能语音检测处理系统从系统逻辑架构上,将智能语音识别系统,从系统逻辑架构上共分为三层:基础设施层、平台层、应用层。
基础设施层提供基础计算能力、存储能力、网络支撑能力,保障整个系统安全、稳定、高效运行;平台层提供中文语音转写、全文检索等智能语音与基础业务能力;应用层针对中文语音转写提供控制管理终端实现对系统以及业务的管理,屏幕显示终端实现会议过程中结果展现给参会人员的功能;音频采集服务通过声卡、麦克风等硬件设备完成音频的实时采集。
基于语音检测处理系统的智能语音识别会议子系统由服务器平台和部署在各会议室的终端设备构成。服务端设备主要服务类型包含:中文转写引擎服务、应用服务、全文检索及存储服务。
应用服务器可应用于智能会议中的语音等转写等业务服务,包括用户管理、文件存储、文件全文检索等服务,同时还提供接口服务。转写引擎服务器主要部署核心转写引擎以及引擎服务,提供音频到文字的转写能力。
可选的,本申请的系统的装置可简要地体现为语音终端和应用服务器构成的系统,其中终端通过网络与应用服务器进行通信。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,应用服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。用户可以通过对应的终端向服务器发送会议记录请求,以对会议过程中的语音进行记录,会议记录请求携带了会议主题。
可选的应用服务器接收到终端发送的会议记录请求后,根据会议记录请求向终端发送录音指令,终端则根据录音指令录制会议过程中的语音数据并上传。通过应用服务器中的提供的功能模块或功能单元,执行中文转写引擎服务、应用服务、全文检索及存储服务。
应用服务器则获取终端根据录音指令上传的语音数据,对语音数据进行特征提取,得到多个语音特征信息后,获取预设的声纹识别模型,通过声纹识别模型对所述语音特征信息进行声纹识别,由此能够有效得到多个语音片段和有效识别出对应的声纹标识,应用服务器进而根据声纹标识将多个语音片段转换为对应的文本信息。可选的语音文本转换的功能可由应用服务器中的语音文本转换模块来完成。
应用服务器将获取到的语音信号转换到语义分析模型,通过语音分析模型和预先设置的关键词匹配,所属关键词匹配即会议请求或会议通知中的关键词词语。比如,会议是基于视频语音数据的算法改进发起的会议讨论,则可以在预先的关键词中,凡是出现“程序”,“改进”等词汇时,在语音分析过程中做聚类处理,提炼出不同发言者的主题类型,进行分类信息的匹配。可选的,对于技术类的发言分析中,加入语气过滤模块,对语音过滤模块,在实时语音转写开始前或者进行文稿整理时,根据需要选择是否开启“语气词过滤”功能,若开启则能可将语气词和多余的词汇去除,以保证文稿的规整。
所述语气过滤模块用于根据预先预期声纹特征执行预期过滤,在语气过滤模块中,触发分段处理,将会议内容实时语音转写成文字的过程中,做智能分段机制,让系统自动结合前后文语义、停顿时长等进行分段。
所述应用服务器进一步包括关键词优化模块,所述关键词优化模块用于提供关键词优化功能,提前录入人名、地名、专业词汇等专有名词,能有效提升该关键词的识别准确率。
优选的,关键词优化模块基于关键词领域样本数据库,对语音转化文本数据或关键词样本数据做处理。所述领域样本数据库存储在应用服务器中的存储模块中,所述关键词优化模块包括具有网页抓取单元,根据网页抓取单元执行关键词系统化的更新,所述关键词系统的更新是根据会议主题而执行。比如会议主题是安全管理整治主题,则将网页中抓取的网页安全的报道讲话等内容进行关键词的聚类分析和集中处理,在语音转换文本识别时,通过网页报道时间参数和技术领域信息将模糊识别的转义为文字,对存在逻辑语段错误的句子的识别中,提高时间和本领域的关键词信息的权重。所属关键词优化模块进一步用于在语音文本转换模块中的声纹特征信息相匹配,对于固定场所使用的智能会议系统,对主要发言人有执行特征匹配,依据存储模块中存储的历史信息刻画或提前人物画像信息,根据人物画像信息,判断模糊识别信息的语义信息,从而提高语音转化的准确性。
所述语音会话检测识别系统包括的语音文本转换模块包括训练校正单元,所述训练校正单元可以将本系统或单位主要人员的文章及历史讲话稿作为文本数据训练样本,并将分类识别结果提供给语音文本转换模块进行使用。可选的所述文本数据的输入学习跳转和分类识别可以采用知识图谱判断的方式。
所述训练校正单元采用有监督的学习方法将关系抽取任务当做分类问题,通过远程监督方法,来提升标注语料,减少知识库中错误的label标签的影响,在使用网页数据和个人讲话类数据时,借助使用远程监督方法扩充数据集,同时使用注意attention机制,来减少远程监督带来的的噪声数据,给定一个知识图谱中的实体对和其对应的关系,引入attention机制,给不同的语料赋予不同的权重,尽量减轻错误label标签的负面影响,以此来提升分类器的性能。所述训练校正模块,可增加个性化关键词和主要会议讲话的语料的权重值,比如系统内容讲话等通过公司或企业架构的层级关系,赋予不同公司层架话语预料的权重值,比如母公司的讲话语料在提取关键词或学习跳转中的参数权重大于子公司的权重,管理者,主管者和项目课题主持者的语料标签权重值大于普通发言者的,将标签权重值和企业公司层级结构相关联,提高分类效率。在所述校正分类中结合上下文的语义理解,同时融合外部语料的不同的权重值,校正不同主题语言或语义分类的参数。比如发言者提到的专有名词的含义或缩写在于母公司或项目主持者的提法不同时,在进行标注的同时,分类识别中统一成官方释义,从而提升口误和学习的自我校正。
所述应用服务器中数据管理显示单元,语音检测识别系统支持对所有通过本系统转写的实时录制的音频文本数据和本地上传的音频文本数据进行管理,通过列表形式进行展现,支持通过数据管理显示单元随时查看和编辑,并且可以根据名称等信息快速检索。此外,编辑后的全文本、重点文本以及音频、特定角色的文本,都支持快速导出,满足应用需求。
应用服务器中可以预设语义分析模型,所述语义分析模块设置在语音文本转换模块中,可知的,也可以结合在训练校正单元中,通过语义分析模型对文本信息进行上下文语义分析,由此能够准确有效地分析出文本信息中的关键字和校正信息,并根据校正信息对文本信息进行校正,并对校正后的文本信息添加对应的关键字,进而根据会议主题和添加关键字的文本信息按照预设方式生成对应的会议报告数据。
可选的,所述应用服务器还包括语音端点检测模块,所述语音端点检测模块,在语音数据执行识别时,对语音的端点进行检测。端点检测是判断语音信号片段中有意义信号的起止端点,在噪声情况下,单纯使用短时能量或短时过零率不能检测出语音信号,传统的语音特征选用Mel频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)。MFCC是一种基于人耳听觉模型的特征。它将信号的频谱在频域由线性刻度转换为Mel频率,再变换到倒谱域得到倒谱系数。然而在会议过程中,现场的会议场所,如会议室等存在多种噪音,比如多个不同的麦克之间的声音回声干扰以及会议室中的其它人员发声的干扰,为提高和减少后端文本转换模块的处理性能提升处理性能,所述系统在语音文本转换模块中设置一个语音端点检测单元,采用短时的能量和熵共同作用来检测语音端点的。其具体是:采用固定帧长,帧移,对语音信号进行分帧处理,计算每一帧的能量:提高低信噪比语音信号的熵值,采用熵和短时能量相结合,获得参数EEFi=(1+|Ei*Hi|)1/2i=1,…,n
将语音段执行划分,采用判定规则,来检测语音帧和非语音帧,可选的,对每一帧的熵能力进行归一化,得到熵能量集,加权平均之后获得到阈值Vth,当大于门限值时,判定位语音,针对不同的噪音背景,选择不同的阈值范围。判断语音段起止端点的基本准则是,能量集中的eefi大于门限值得判断为语音信号。但现有技术中我们发现,单纯的使用大于阈值的判断为语音与实际情形并不相符合,比如不同的麦克发声的存在和发音时其它杂音的存在,比如“吧吧”“啊啊”词汇的短音的存在,单纯的阈值判断未必是语音信号,同时语音信号中即时发言过程中存在思考过程会存在静音区,同样的不适用上述规则。可选的,采用基于熵能量信息的结合的语音段判定准则。
设某语音段从i点开始,到j点结束,语音段的长度是k=j-i+1,第i个语音帧与其前相邻的最后一个语音段的距离定义为a,语音段的发音长度最小为mincount,两音段之间的最长距离是maxcount(其中mincount和maxcount根据研究选取的语音长度最少为200ms,两语音间最大的静音距离为250ms)。准则1:若k<mincount,则该语音段是噪音段,修改熵能量集。准则2:若k>mincount,且a<maxcount,说明该语音段与其前的最后一个语音段属于同一个语音段(即为一个完整的语音),合并语音段。准则3:若k>mincount,且a>maxcount,说明该语音段是一单独的语音段。按上述的准则对熵能量集中的每帧以及与其相邻的帧来判定是否为语音帧,最终得到正确的带噪语音端点。
判断之后,系统将获取到的语音数据根据所述特征参数序列对所述语音特征信息进行切分,得到多个语音片段;发送给后端的语音文本转换模块,所述语音文本转换模块,将上述语音根据,计算所述多个语音片段的特征参数序列的相似度,执行分类区别,从而获得文本。
实施例2
可选的,所述应用服务器中的模块化的功能也可以由软件来或软硬件来实现,当用软件或计算机程序实现时,所述应用服务器包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行以实现实施例1中的功能。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种语音检测处理系统,其特征在于:所述语音检测处理系统包括,多个语音终端和应用服务器,所述多个语音终端用于语音信号的接收,所述应用服务器用于对语音数据的处理和语音文本的转换校正;
所述应用服务器包括语音文本转换模块,所述语音文本转换模块用于获取语音终端根据录音指令上传的语音数据,对语音数据进行特征提取,得到多个语音特征信息后,获取预设的声纹识别模型,通过声纹识别模型对所述语音特征信息进行声纹识别,由此能够有效得到多个语音片段和有效识别出对应的声纹标识,进而根据声纹标识将多个语音片段转换为对应的文本信息;
所述语音文本转换模块,进一步包括语音端点检测单元,所述语音端点检测单元采用短时能量和熵来检测语音端点;
所述应用服务器包括,数据管理显示单元,所述数据管理显示单元用于对所有通过所述系统转写的实时录制的音频文本数据和本地上传的音频文本数据进行管理,通过列表形式进行展现,数据管理显示单元还用于查看和编辑,并且根据主题词信息执行快速检索。
2.如权利要求1所述的系统,其特征在于,所述应用服务器还包括语气过滤模块,所述语音过滤模块设置在文本转换模块前,用于在实时语音转写开始前或者进行文稿整理时,对重复的停顿的语气词执行过滤。
3.如权利要求1所述的系统,其特征在于,所述应用服务器还包括关键词优化模块,所述关键词优化模块用于提供关键词优化功能,提前录入人名、地名、专业词汇专有名词。
4.如权利要求3所述的系统,其特征在于,所述应用服务器中的关键词优化模块还用于基于关键词领域样本数据库,对语音转化文本数据或关键词样本数据做处理,其中,所述关键词领域样本数据库存储在应用服务器中的存储模块中;所述关键词优化模块包括具有网页抓取单元,根据网页抓取单元执行关键词系统化的更新,所述关键词系统化的更新是根据会议主题而执行。
5.如权利要求4所述的系统,其特征在于,所述关键词优化模块用于将网页中抓取的网页的报道讲话内容进行关键词的聚类分析处理,并提供给语音文本转换模块,在语音文本转换模块执行在语音转换识别时,将网页报道的时间和技术领域信息作为权重因素,对模糊识别的语音转换为文字。
6.如权利要求5所述的系统,其特征在于,其中,所述关键词优化模块中的会议主题来源于各个语音终端的会议请求消息中的关键词的聚类。
7.如权利要求6所述的系统,其特征在于,其中,所述文本语音转换模块,进一步包括训练校正单元,所述训练校正单元用于将发言人的文章及历史讲话稿进行文本数据处理,并以提供给语音文本转换模块。
8.如权利要求7所述的系统,其特征在于,所述训练校正模块,在文本数据处理中,增加个性化关键词和正式会议讲话的语料的标签权重值,依据公司或企业架构的层级关系,赋予不同公司层级讲话语料的标签权重值,标签权重值和企业公司层级结构相关联。
9.如权利要求8所述的系统,其特征在于,所述语音文本转换模块,用于依据存储模块中存储的历史信息提取人物画像信息,根据人物画像信息,判断模糊识别信息的语义信息。
10.如权利要求1-9所述的任一系统,其特征在于,所述语音检测处理系统应用于网络会议中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110426438.6A CN113129895B (zh) | 2021-04-20 | 2021-04-20 | 一种语音检测处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110426438.6A CN113129895B (zh) | 2021-04-20 | 2021-04-20 | 一种语音检测处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113129895A true CN113129895A (zh) | 2021-07-16 |
CN113129895B CN113129895B (zh) | 2022-12-30 |
Family
ID=76778408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110426438.6A Expired - Fee Related CN113129895B (zh) | 2021-04-20 | 2021-04-20 | 一种语音检测处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113129895B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539269A (zh) * | 2021-07-20 | 2021-10-22 | 上海明略人工智能(集团)有限公司 | 音频信息处理方法、系统和计算机可读存储介质 |
CN116978384A (zh) * | 2023-09-25 | 2023-10-31 | 成都市青羊大数据有限责任公司 | 一种公安一体化大数据管理系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012221440A (ja) * | 2011-04-14 | 2012-11-12 | Konica Minolta Business Technologies Inc | 会議システム、会議管理装置およびプログラム |
CA2779774A1 (en) * | 2012-05-30 | 2013-11-30 | One Inc. | Universal recognition platform |
CN106682642A (zh) * | 2017-01-06 | 2017-05-17 | 竹间智能科技(上海)有限公司 | 多面向语言行为识别方法及系统 |
CN107316644A (zh) * | 2017-08-22 | 2017-11-03 | 北京百度网讯科技有限公司 | 用于信息交互的方法及装置 |
WO2018069580A1 (en) * | 2016-10-13 | 2018-04-19 | University Of Helsinki | Interactive collaboration tool |
CN108133013A (zh) * | 2017-12-22 | 2018-06-08 | 平安养老保险股份有限公司 | 信息处理方法、装置、计算机设备和存储介质 |
JP2019121093A (ja) * | 2017-12-28 | 2019-07-22 | 株式会社リコー | 情報生成システム、情報生成方法、情報処理装置、プログラム、端末装置 |
CN110322872A (zh) * | 2019-06-05 | 2019-10-11 | 平安科技(深圳)有限公司 | 会议语音数据处理方法、装置、计算机设备和存储介质 |
CN110839112A (zh) * | 2019-11-18 | 2020-02-25 | 广东电网有限责任公司佛山供电局 | 一种问题语音的检测方法和装置 |
WO2020111374A1 (ko) * | 2018-11-26 | 2020-06-04 | 주식회사 산타 | 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 |
CN111968632A (zh) * | 2020-07-14 | 2020-11-20 | 招联消费金融有限公司 | 通话语音获取方法、装置、计算机设备和存储介质 |
CN112188017A (zh) * | 2020-08-24 | 2021-01-05 | 维知科技张家口有限责任公司 | 信息交互方法及信息交互系统、处理设备、存储介质 |
CN112487197A (zh) * | 2020-11-06 | 2021-03-12 | 中科云谷科技有限公司 | 基于会议记录构建知识图谱的方法、装置及处理器 |
-
2021
- 2021-04-20 CN CN202110426438.6A patent/CN113129895B/zh not_active Expired - Fee Related
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012221440A (ja) * | 2011-04-14 | 2012-11-12 | Konica Minolta Business Technologies Inc | 会議システム、会議管理装置およびプログラム |
CA2779774A1 (en) * | 2012-05-30 | 2013-11-30 | One Inc. | Universal recognition platform |
WO2018069580A1 (en) * | 2016-10-13 | 2018-04-19 | University Of Helsinki | Interactive collaboration tool |
CN106682642A (zh) * | 2017-01-06 | 2017-05-17 | 竹间智能科技(上海)有限公司 | 多面向语言行为识别方法及系统 |
CN107316644A (zh) * | 2017-08-22 | 2017-11-03 | 北京百度网讯科技有限公司 | 用于信息交互的方法及装置 |
CN108133013A (zh) * | 2017-12-22 | 2018-06-08 | 平安养老保险股份有限公司 | 信息处理方法、装置、计算机设备和存储介质 |
JP2019121093A (ja) * | 2017-12-28 | 2019-07-22 | 株式会社リコー | 情報生成システム、情報生成方法、情報処理装置、プログラム、端末装置 |
WO2020111374A1 (ko) * | 2018-11-26 | 2020-06-04 | 주식회사 산타 | 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 |
CN110322872A (zh) * | 2019-06-05 | 2019-10-11 | 平安科技(深圳)有限公司 | 会议语音数据处理方法、装置、计算机设备和存储介质 |
CN110839112A (zh) * | 2019-11-18 | 2020-02-25 | 广东电网有限责任公司佛山供电局 | 一种问题语音的检测方法和装置 |
CN111968632A (zh) * | 2020-07-14 | 2020-11-20 | 招联消费金融有限公司 | 通话语音获取方法、装置、计算机设备和存储介质 |
CN112188017A (zh) * | 2020-08-24 | 2021-01-05 | 维知科技张家口有限责任公司 | 信息交互方法及信息交互系统、处理设备、存储介质 |
CN112487197A (zh) * | 2020-11-06 | 2021-03-12 | 中科云谷科技有限公司 | 基于会议记录构建知识图谱的方法、装置及处理器 |
Non-Patent Citations (4)
Title |
---|
刘晓曦: "人工智能语音技术在广电媒体的应用", 《广播电视信息》 * |
孙炯宁: "基于熵和能量的语音端点检测算法", 《计算机工程与设计》 * |
李智诚等: "面向电力行业的智能会议录音回溯系统", 《现代计算机》 * |
艾星等: ""知会"会议语音记录系统的设计", 《电子测试》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539269A (zh) * | 2021-07-20 | 2021-10-22 | 上海明略人工智能(集团)有限公司 | 音频信息处理方法、系统和计算机可读存储介质 |
CN116978384A (zh) * | 2023-09-25 | 2023-10-31 | 成都市青羊大数据有限责任公司 | 一种公安一体化大数据管理系统 |
CN116978384B (zh) * | 2023-09-25 | 2024-01-02 | 成都市青羊大数据有限责任公司 | 一种公安一体化大数据管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113129895B (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10950242B2 (en) | System and method of diarization and labeling of audio data | |
AU2017294791B2 (en) | Method and system for automatically diarising a sound recording | |
US10977299B2 (en) | Systems and methods for consolidating recorded content | |
US6434520B1 (en) | System and method for indexing and querying audio archives | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
CN111933129A (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
JP2019514045A (ja) | 話者照合方法及びシステム | |
WO2022105861A1 (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
CN112102850B (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
US20130030794A1 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
CN113129895B (zh) | 一种语音检测处理系统 | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
WO2023048746A1 (en) | Speaker-turn-based online speaker diarization with constrained spectral clustering | |
Singhal et al. | Estimation of Accuracy in Human Gender Identification and Recall Values Based on Voice Signals Using Different Classifiers | |
JP3727436B2 (ja) | 音声原稿最適照合装置および方法 | |
CN109801622B (zh) | 一种语音识别模板训练方法、语音识别方法及装置 | |
Sai Tharun et al. | Voice Data-Mining on Audio from Audio and Video Clips | |
Ricketts | Speech Recognition Application With Tone Analyzer | |
CN114333784A (zh) | 信息处理方法、装置、计算机设备和存储介质 | |
CN117711376A (zh) | 语种识别方法、系统、设备及存储介质 | |
CN113555016A (zh) | 语音交互方法、电子设备及可读存储介质 | |
Rodriguez et al. | Filipino Emotion Classification in Speech Signals based on Audio Features and Transcribed Text | |
Alguliyev et al. | Issues of speech technologies application in the Azerbaijani |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221230 |