CN111292723A - 一种语音识别系统 - Google Patents

一种语音识别系统 Download PDF

Info

Publication number
CN111292723A
CN111292723A CN202010082667.6A CN202010082667A CN111292723A CN 111292723 A CN111292723 A CN 111292723A CN 202010082667 A CN202010082667 A CN 202010082667A CN 111292723 A CN111292723 A CN 111292723A
Authority
CN
China
Prior art keywords
module
language
voice
action
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010082667.6A
Other languages
English (en)
Inventor
田兴邦
赵茂祥
胡运燎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Original Assignee
Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Puqiang Times Zhuhai Hengqin Information Technology Co ltd filed Critical Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Priority to CN202010082667.6A priority Critical patent/CN111292723A/zh
Publication of CN111292723A publication Critical patent/CN111292723A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Psychiatry (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Social Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音识别技术领域,且公开了一种语音识别系统,该语音识别系统具有:端点检测,是对输入的语音、哑语、唇语进行分析,以确定语音或者动作中包括用户说话的起始和结束过程;噪声消除,是将除去语音之外的外界噪音进行去除,同时包括由于话筒本身的因素产生的噪声,系统本身需要经过多种噪声的测试;特征提取,将去除噪音的语音进行提取,或者将哑语的肢体动作或者唇语的嘴型动作特征进行提取。该一种语音识别系统,通过设置专门的手语动作和唇语动作的端点检测设备,使得言语障碍的人们使用唇语或者手语的动作与人们进行文字交流,使得该系统的功能更加强大,给言语障碍的人们带来了福音,使得他们能够自由的与人们进行沟通。

Description

一种语音识别系统
技术领域
本发明涉及语音识别技术领域,具体为一种语音识别系统。
背景技术
语音识别技术,也称为自动语音识别,其目的是将人类的语音中的词汇内容转换为计算机可读的输入,语音识别技术涉及信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等领域,作为人机交互的关键技术,语音识别技术在呼叫中心、电信增值、企业信息化系统、智能机器人、智能外呼、智能车载等应用系统中有了广泛的应用。
目前的语音识别只是针对人们的说话的声音进行识别,将人们说话的内容转化成文字,然而这些只是针对一些语言无障碍的人员进行设计的,对于一些言语障碍的人们来说,如果想要和正常人进行交流时,对于一些不懂得哑语的人们来说,是无法进行交流的,这样使得言语障碍的人们只能与会哑语的人们进行交流,使得他们长时间处于自己的个人封闭环境下,容易造成心理疾病。
现在的语音识别系统在使用的过程中容易受到除语音之外其他的环境噪声影响,有些语音识别系统在进行端点检测时就会出现阻碍,进而导致识别错误。
发明内容
本发明提供了一种语音识别系统,具备可对唇语和哑语进行识别,使得言语障碍患者能够与人们进行交流,强大的噪音处理模块使得语音识别错误率降低的优点,解决了以上背景技术中提到的问题。
本发明提供如下技术方案:一种语音识别系统,包括端点检测模块、噪声消除模块、特征提取模块、解码器模块以及输出文字模块,所述端点检测模块用以获取用户发出的声音、唇语动作、手语动作;所述噪声消除模块用以对所述端点检测获取的用户声音进行噪音去除,所述噪音去除模块包括外部环境噪音和设备噪声;所述特征提取模块用以提取所述用户发出的声音、唇语动作以及手语动作的特征;所述资源包模块包括声学模型、语言模型、系统字典、发音生成器、唇语模型、手语模型,为后期的搜索、对比提供依据;所述解码器模块根据特征提取出的特征在所述资源包内搜索与特征最相匹配的特征,所述最相匹配的特征包括语音文字序列和动作文字序列;所述输出文字模块用以将解码器搜索获取的文字序列进行输出。
优选的,所述MIC模块用以采集用户发出的声音,所述摄像头模块用以采集用户的唇语动作和手语动作。
优选的,所述噪声消除模块用以从有噪声的环境中降低、抑制噪声干扰,提取语音信号。
优选的,所述资源包模块是通过文本语科进行语言模拟训练形成语言模型,通过声学语科进行声学模型训练形成的声学模型,通过文本语科进行动作模拟训练形成的唇语模型和哑语模型。
优选的,所述解码器模块通过灵活裁剪、二次检索、自动优化、动态优化结果对所述资源包进行提取以及优化。
本发明具备以下有益效果:
1、该语音识别系统,通过设置专门的手语动作和唇语动作的端点检测模块,使得言语障碍的人们使用唇语或者手语的动作与人们进行文字交流,使得该系统的功能更加强大,给言语障碍的人们带来了福音,使得他们能够自由的与人们进行沟通。
2、该语音识别系统,通过大量的动作模型训练、语言模型训练、声学模型训练,使得该系统储存的内容更多,能够识别的语音或者动作更多,该系统通过噪声消除模块的设置,具有高效的抗噪能力,并且能够有效的消除部分噪声,进而使得该系统在不同的环境下均能够有效的对语音进行识别。
附图说明
图1为本发明结构系统流程图;
图2为本发明结构功能框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明实施例中的附图:图中不同种类的剖面线不是按照国标进行标注的,也不对元件的材料进行要求,是对图中元件的剖视图进行区分。
请参阅图1-2,一种语音识别系统,包括端点检测模块、噪声消除模块、特征提取模块、解码器模块以及输出文字模块,该语音识别系统具有:
端点检测用以获取用户发出的声音、唇语动作、手语动作,MIC模块用以采集用户发出的声音,摄像头模块用以采集用户的唇语动作和手语动作,通过设置专门的手语动作和唇语动作的端点检测模块,使得言语障碍的人们使用唇语或者手语的动作与人们进行文字交流,使得该系统的功能更加强大,给言语障碍的人们带来了福音,使得他们能够自由的与人们进行沟通。
噪声消除用以对端点检测获取的用户声音进行噪音去除,噪音去除包括外部环境噪音和设备噪声,噪声消除模块用以从有噪声的环境中降低、抑制噪声干扰,提取语音信号。
资源包包括声学模型、语言模型、系统字典、发音生成器、唇语模型、手语模型,为后期的搜索、对比提供依据,资源包模块是通过文本语科进行语言模拟训练形成语言模型,通过声学语科进行声学模型训练形成的声学模型,通过文本语科进行动作模拟训练形成的唇语模型和哑语模型,通过大量的动作模型训练、语言模型训练、声学模型训练,使得该系统储存的内容更多,能够识别的语音或者动作更多,该系统通过噪声消除模块的设置,具有高效的抗噪能力,并且能够有效的消除部分噪声,进而使得该系统在不同的环境下均能够有效的对语音进行识别。
解码器模块根据特征提取出的特征在资源包内搜索与特征最相匹配的特征,最相匹配的特征包括语音文字序列和动作文字序列,解码器模块通过灵活裁剪、二次检索、自动优化、动态优化结果对资源包进行提取以及优化。
灵活裁剪:由于搜索过程的复杂性,在现有的计算物质条件下,必须要对搜索结果进行裁剪,以更快的找出最优的搜索结果。
二次检索:可以输出更多的模糊结果,以支持更加精确的二次检索,供用户查找最新的热点信息。
自动优化:能够自动检测系统运行情况,以动态调整语音识别过程的策略,而不使系统情况成为该过程的性能瓶颈,在系统较忙时,为了避免用户等待太长时间,自动采用计算量小但具有足够精度的策略以保证系统的响应速度。
动态优化结果:根据当前的处理状态和语言模型对结果的区分性,智能判断是否对语言模型自动优化,以动态配置语言模型对声音识别作用的最大化效果。
输出文字模块用以将解码器搜索获取的文字序列进行输出。
工作原理,该系统在进行使用之前,需要通过文本语科对该系统进行大量的语言模型训练以及动作模型训练,通过声语学科对该徐彤进行声学模型训练,进而建立强大的声学模型、发音词典、语言模型、唇语模型和哑语模型,进而保证系统的内容充分,使得识别的内容通过解码器能够搜索的到,在进行使用时,人们通过摄像头模块和MIC模块对人们的声音或者动作进行检测,然后通过特征提取,对声学特征或者动作学特征进行提取,再由解码器搜索与语音或者动作最相关的文字序列,从而输出文字。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种语音识别系统,包括端点检测模块、噪声消除模块、特征提取模块、解码器模块以及输出文字模块,其特征在于:
所述端点检测模块用以获取用户发出的声音、唇语动作、手语动作;
所述噪声消除模块用以对所述端点检测获取的用户声音进行噪音去除,所述噪音去除包括外部环境噪音和设备噪声;
所述特征提取模块用以提取所述用户发出的声音、唇语动作以及手语动作的特征;
所述资源包模块包括声学模型、语言模型、系统字典、发音生成器、唇语模型、手语模型,为后期的搜索、对比提供依据;
所述解码器模块根据特征提取出的特征在所述资源包内搜索与特征最相匹配的特征,所述最相匹配的特征包括语音文字序列和动作文字序列;
所述输出文字模块用以将解码器搜索获取的文字序列进行输出。
2.根据权利要求1所述的一种语音识别系统,其特征在于:所述MIC模块用以采集用户发出的声音,所述摄像头模块用以采集用户的唇语动作和手语动作。
3.根据权利要求1所述的一种语音识别系统,其特征在于:所述噪声消除模块用以从有噪声的环境中降低、抑制噪声干扰,提取语音信号。
4.根据权利要求1所述的一种语音识别系统,其特征在于:所述资源包模块是通过文本语科进行语言模拟训练形成语言模型,通过声学语科进行声学模型训练形成的声学模型,通过文本语科进行动作模拟训练形成的唇语模型和哑语模型。
5.根据权利要求1所述的一种语音识别系统,其特征在于:所述解码器模块通过灵活裁剪、二次检索、自动优化、动态优化结果对所述资源包进行提取以及优化。
CN202010082667.6A 2020-02-07 2020-02-07 一种语音识别系统 Pending CN111292723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010082667.6A CN111292723A (zh) 2020-02-07 2020-02-07 一种语音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010082667.6A CN111292723A (zh) 2020-02-07 2020-02-07 一种语音识别系统

Publications (1)

Publication Number Publication Date
CN111292723A true CN111292723A (zh) 2020-06-16

Family

ID=71025535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010082667.6A Pending CN111292723A (zh) 2020-02-07 2020-02-07 一种语音识别系统

Country Status (1)

Country Link
CN (1) CN111292723A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883151A (zh) * 2020-07-30 2020-11-03 云知声智能科技股份有限公司 音频信号的处理方法、装置、设备和存储介质
CN111933174A (zh) * 2020-08-16 2020-11-13 云知声智能科技股份有限公司 语音处理方法、装置、设备和系统
CN112617755A (zh) * 2020-12-28 2021-04-09 深圳市艾利特医疗科技有限公司 言语功能障碍检测方法、装置、设备、存储介质及系统
CN113345472A (zh) * 2021-05-08 2021-09-03 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102376305A (zh) * 2011-11-29 2012-03-14 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
CN104392721A (zh) * 2014-11-28 2015-03-04 东莞中国科学院云计算产业技术创新与育成中心 基于语音识别的智能应急指挥系统及其语音识别方法
CN105976675A (zh) * 2016-05-17 2016-09-28 福建万亿店中店电子商务有限责任公司 聋哑人与人的智能信息交流装置及其交流方法
CN108510988A (zh) * 2018-03-22 2018-09-07 深圳市迪比科电子科技有限公司 一种用于聋哑人的语言识别系统及方法
CN108766434A (zh) * 2018-05-11 2018-11-06 东北大学 一种手语识别翻译系统及方法
CN109857262A (zh) * 2019-03-16 2019-06-07 上海萃钛智能科技有限公司 一种智能交流装置及智能交流装置系统及交流方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102376305A (zh) * 2011-11-29 2012-03-14 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
CN104392721A (zh) * 2014-11-28 2015-03-04 东莞中国科学院云计算产业技术创新与育成中心 基于语音识别的智能应急指挥系统及其语音识别方法
CN105976675A (zh) * 2016-05-17 2016-09-28 福建万亿店中店电子商务有限责任公司 聋哑人与人的智能信息交流装置及其交流方法
CN108510988A (zh) * 2018-03-22 2018-09-07 深圳市迪比科电子科技有限公司 一种用于聋哑人的语言识别系统及方法
CN108766434A (zh) * 2018-05-11 2018-11-06 东北大学 一种手语识别翻译系统及方法
CN109857262A (zh) * 2019-03-16 2019-06-07 上海萃钛智能科技有限公司 一种智能交流装置及智能交流装置系统及交流方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883151A (zh) * 2020-07-30 2020-11-03 云知声智能科技股份有限公司 音频信号的处理方法、装置、设备和存储介质
CN111933174A (zh) * 2020-08-16 2020-11-13 云知声智能科技股份有限公司 语音处理方法、装置、设备和系统
CN112617755A (zh) * 2020-12-28 2021-04-09 深圳市艾利特医疗科技有限公司 言语功能障碍检测方法、装置、设备、存储介质及系统
CN113345472A (zh) * 2021-05-08 2021-09-03 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111292723A (zh) 一种语音识别系统
CN110364143B (zh) 语音唤醒方法、装置及其智能电子设备
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
CN107945790B (zh) 一种情感识别方法和情感识别系统
CN108074576B (zh) 审讯场景下的说话人角色分离方法及系统
CN106504768B (zh) 基于人工智能的电话拨测音频分类方法及装置
CN110047481B (zh) 用于语音识别的方法和装置
CN105679310A (zh) 一种用于语音识别方法及系统
CN109036412A (zh) 语音唤醒方法和系统
CN109559754B (zh) 一种针对摔倒识别的语音救援方法及系统
WO2014120291A1 (en) System and method for improving voice communication over a network
CN107767861A (zh) 语音唤醒方法、系统及智能终端
CN112102850A (zh) 情绪识别的处理方法、装置、介质及电子设备
CN109104534A (zh) 一种提高外呼机器人意图检测准确率、召回率的系统
JP6605105B1 (ja) 文章記号挿入装置及びその方法
CN112116909A (zh) 语音识别方法、装置及系统
WO2023063718A1 (en) Method and system for device feature analysis to improve user experience
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
CN110933236A (zh) 一种基于机器学习的空号识别方法
CN111292748B (zh) 一种可适应多种频率的语音录入系统
CN113486208A (zh) 一种基于人工智能的语音搜索设备及其搜索方法
Zhou et al. Environmental sound classification of western black-crowned gibbon habitat based on spectral subtraction and VGG16
CN111326141A (zh) 一种处理获取人声数据的方法
KR20200109826A (ko) 스피치 인식 방법을 실행 시키기 위한 프로그램이 기록된 컴퓨터에서 읽을 수 있는 기록매체
Kumari et al. An efficient un-supervised Voice Activity Detector for clean speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination