CN111292723A

CN111292723A - 一种语音识别系统

Info

Publication number: CN111292723A
Application number: CN202010082667.6A
Authority: CN
Inventors: 田兴邦; 赵茂祥; 胡运燎
Original assignee: Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Current assignee: Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2020-06-16

Abstract

本发明涉及语音识别技术领域，且公开了一种语音识别系统，该语音识别系统具有：端点检测，是对输入的语音、哑语、唇语进行分析，以确定语音或者动作中包括用户说话的起始和结束过程；噪声消除，是将除去语音之外的外界噪音进行去除，同时包括由于话筒本身的因素产生的噪声，系统本身需要经过多种噪声的测试；特征提取，将去除噪音的语音进行提取，或者将哑语的肢体动作或者唇语的嘴型动作特征进行提取。该一种语音识别系统，通过设置专门的手语动作和唇语动作的端点检测设备，使得言语障碍的人们使用唇语或者手语的动作与人们进行文字交流，使得该系统的功能更加强大，给言语障碍的人们带来了福音，使得他们能够自由的与人们进行沟通。

Description

一种语音识别系统

技术领域

本发明涉及语音识别技术领域，具体为一种语音识别系统。

背景技术

语音识别技术，也称为自动语音识别，其目的是将人类的语音中的词汇内容转换为计算机可读的输入，语音识别技术涉及信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等领域，作为人机交互的关键技术，语音识别技术在呼叫中心、电信增值、企业信息化系统、智能机器人、智能外呼、智能车载等应用系统中有了广泛的应用。

目前的语音识别只是针对人们的说话的声音进行识别，将人们说话的内容转化成文字，然而这些只是针对一些语言无障碍的人员进行设计的，对于一些言语障碍的人们来说，如果想要和正常人进行交流时，对于一些不懂得哑语的人们来说，是无法进行交流的，这样使得言语障碍的人们只能与会哑语的人们进行交流，使得他们长时间处于自己的个人封闭环境下，容易造成心理疾病。

现在的语音识别系统在使用的过程中容易受到除语音之外其他的环境噪声影响，有些语音识别系统在进行端点检测时就会出现阻碍，进而导致识别错误。

发明内容

本发明提供了一种语音识别系统，具备可对唇语和哑语进行识别，使得言语障碍患者能够与人们进行交流，强大的噪音处理模块使得语音识别错误率降低的优点，解决了以上背景技术中提到的问题。

本发明提供如下技术方案：一种语音识别系统，包括端点检测模块、噪声消除模块、特征提取模块、解码器模块以及输出文字模块，所述端点检测模块用以获取用户发出的声音、唇语动作、手语动作；所述噪声消除模块用以对所述端点检测获取的用户声音进行噪音去除，所述噪音去除模块包括外部环境噪音和设备噪声；所述特征提取模块用以提取所述用户发出的声音、唇语动作以及手语动作的特征；所述资源包模块包括声学模型、语言模型、系统字典、发音生成器、唇语模型、手语模型，为后期的搜索、对比提供依据；所述解码器模块根据特征提取出的特征在所述资源包内搜索与特征最相匹配的特征，所述最相匹配的特征包括语音文字序列和动作文字序列；所述输出文字模块用以将解码器搜索获取的文字序列进行输出。

优选的，所述MIC模块用以采集用户发出的声音，所述摄像头模块用以采集用户的唇语动作和手语动作。

优选的，所述噪声消除模块用以从有噪声的环境中降低、抑制噪声干扰，提取语音信号。

优选的，所述资源包模块是通过文本语科进行语言模拟训练形成语言模型，通过声学语科进行声学模型训练形成的声学模型，通过文本语科进行动作模拟训练形成的唇语模型和哑语模型。

优选的，所述解码器模块通过灵活裁剪、二次检索、自动优化、动态优化结果对所述资源包进行提取以及优化。

本发明具备以下有益效果：

1、该语音识别系统，通过设置专门的手语动作和唇语动作的端点检测模块，使得言语障碍的人们使用唇语或者手语的动作与人们进行文字交流，使得该系统的功能更加强大，给言语障碍的人们带来了福音，使得他们能够自由的与人们进行沟通。

2、该语音识别系统，通过大量的动作模型训练、语言模型训练、声学模型训练，使得该系统储存的内容更多，能够识别的语音或者动作更多，该系统通过噪声消除模块的设置，具有高效的抗噪能力，并且能够有效的消除部分噪声，进而使得该系统在不同的环境下均能够有效的对语音进行识别。

附图说明

图1为本发明结构系统流程图；

图2为本发明结构功能框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。本发明实施例中的附图：图中不同种类的剖面线不是按照国标进行标注的，也不对元件的材料进行要求，是对图中元件的剖视图进行区分。

请参阅图1-2，一种语音识别系统，包括端点检测模块、噪声消除模块、特征提取模块、解码器模块以及输出文字模块，该语音识别系统具有：

端点检测用以获取用户发出的声音、唇语动作、手语动作，MIC模块用以采集用户发出的声音，摄像头模块用以采集用户的唇语动作和手语动作，通过设置专门的手语动作和唇语动作的端点检测模块，使得言语障碍的人们使用唇语或者手语的动作与人们进行文字交流，使得该系统的功能更加强大，给言语障碍的人们带来了福音，使得他们能够自由的与人们进行沟通。

噪声消除用以对端点检测获取的用户声音进行噪音去除，噪音去除包括外部环境噪音和设备噪声，噪声消除模块用以从有噪声的环境中降低、抑制噪声干扰，提取语音信号。

资源包包括声学模型、语言模型、系统字典、发音生成器、唇语模型、手语模型，为后期的搜索、对比提供依据，资源包模块是通过文本语科进行语言模拟训练形成语言模型，通过声学语科进行声学模型训练形成的声学模型，通过文本语科进行动作模拟训练形成的唇语模型和哑语模型，通过大量的动作模型训练、语言模型训练、声学模型训练，使得该系统储存的内容更多，能够识别的语音或者动作更多，该系统通过噪声消除模块的设置，具有高效的抗噪能力，并且能够有效的消除部分噪声，进而使得该系统在不同的环境下均能够有效的对语音进行识别。

解码器模块根据特征提取出的特征在资源包内搜索与特征最相匹配的特征，最相匹配的特征包括语音文字序列和动作文字序列，解码器模块通过灵活裁剪、二次检索、自动优化、动态优化结果对资源包进行提取以及优化。

灵活裁剪：由于搜索过程的复杂性，在现有的计算物质条件下，必须要对搜索结果进行裁剪，以更快的找出最优的搜索结果。

二次检索：可以输出更多的模糊结果，以支持更加精确的二次检索，供用户查找最新的热点信息。

自动优化：能够自动检测系统运行情况，以动态调整语音识别过程的策略，而不使系统情况成为该过程的性能瓶颈，在系统较忙时，为了避免用户等待太长时间，自动采用计算量小但具有足够精度的策略以保证系统的响应速度。

动态优化结果：根据当前的处理状态和语言模型对结果的区分性，智能判断是否对语言模型自动优化，以动态配置语言模型对声音识别作用的最大化效果。

输出文字模块用以将解码器搜索获取的文字序列进行输出。

工作原理，该系统在进行使用之前，需要通过文本语科对该系统进行大量的语言模型训练以及动作模型训练，通过声语学科对该徐彤进行声学模型训练，进而建立强大的声学模型、发音词典、语言模型、唇语模型和哑语模型，进而保证系统的内容充分，使得识别的内容通过解码器能够搜索的到，在进行使用时，人们通过摄像头模块和MIC模块对人们的声音或者动作进行检测，然后通过特征提取，对声学特征或者动作学特征进行提取，再由解码器搜索与语音或者动作最相关的文字序列，从而输出文字。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种语音识别系统，包括端点检测模块、噪声消除模块、特征提取模块、解码器模块以及输出文字模块，其特征在于:

所述端点检测模块用以获取用户发出的声音、唇语动作、手语动作；

所述噪声消除模块用以对所述端点检测获取的用户声音进行噪音去除，所述噪音去除包括外部环境噪音和设备噪声；

所述特征提取模块用以提取所述用户发出的声音、唇语动作以及手语动作的特征；

所述资源包模块包括声学模型、语言模型、系统字典、发音生成器、唇语模型、手语模型，为后期的搜索、对比提供依据；

所述解码器模块根据特征提取出的特征在所述资源包内搜索与特征最相匹配的特征，所述最相匹配的特征包括语音文字序列和动作文字序列；

所述输出文字模块用以将解码器搜索获取的文字序列进行输出。

2.根据权利要求1所述的一种语音识别系统，其特征在于：所述MIC模块用以采集用户发出的声音，所述摄像头模块用以采集用户的唇语动作和手语动作。

3.根据权利要求1所述的一种语音识别系统，其特征在于：所述噪声消除模块用以从有噪声的环境中降低、抑制噪声干扰，提取语音信号。

4.根据权利要求1所述的一种语音识别系统，其特征在于：所述资源包模块是通过文本语科进行语言模拟训练形成语言模型，通过声学语科进行声学模型训练形成的声学模型，通过文本语科进行动作模拟训练形成的唇语模型和哑语模型。

5.根据权利要求1所述的一种语音识别系统，其特征在于：所述解码器模块通过灵活裁剪、二次检索、自动优化、动态优化结果对所述资源包进行提取以及优化。