CN109545220A - 一种人工智能语音识别系统 - Google Patents

一种人工智能语音识别系统 Download PDF

Info

Publication number
CN109545220A
CN109545220A CN201910037413.XA CN201910037413A CN109545220A CN 109545220 A CN109545220 A CN 109545220A CN 201910037413 A CN201910037413 A CN 201910037413A CN 109545220 A CN109545220 A CN 109545220A
Authority
CN
China
Prior art keywords
module
voice
output end
stored
input terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910037413.XA
Other languages
English (en)
Inventor
葛星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Dachidu Network Media Co Ltd
Original Assignee
Anhui Dachidu Network Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Dachidu Network Media Co Ltd filed Critical Anhui Dachidu Network Media Co Ltd
Priority to CN201910037413.XA priority Critical patent/CN109545220A/zh
Publication of CN109545220A publication Critical patent/CN109545220A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种人工智能语音识别系统,包括控制模块,控制模块包括语音采集模块、语音传输模块、语音识别分析模块、存储模块、输出模块,语音采集模块的输出端分别连接有语音传输模块和存储模块的输入端,语音传输模块的输出端连接有语音识别分析模块的输入端,语音识别分析模块的输出端连接有存储模块的输入端,存储模块的输出端连接有输出模块的输入端。本发明中多个语音采集模块的平行设置,能够同是碱性多方面的语音信息进行采集,采集范围较大,同时多个语音采集模块实现信息共享能够保证工作即使其中一个不能发正常工作的情况下仍然能够进行正常的采集工作。

Description

一种人工智能语音识别系统
技术领域
本发明涉及语音识别技术领域,尤其涉及一种人工智能语音识别系统。
背景技术
人工智能(ArtificialIntelligence,简称AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
语音是最为方便、快捷、自然的人际交流手段,采用自然语音作为人与计算机交互的手段,使计算机能像人一样,具有听、说和理解的能力,是智能语音技术应用发展的基础。在其中所需的各种技术中,以语音识别技术最具挑战性,因而被国外众多媒体和专家评为21世纪前十年将对人类生活方式产生重大影响的十大科技进展之一。
语音识别技术相当复杂,包括了声学、语言学、数字信号处理、统计模式、概率论和信息论、发声机理和听觉机理、人工智能等多学科技术的一项综合性技术,研究所投入的人力、物力等非常大,所需时间相对也比较长。
语音识别属于多维模式识别和智能计算机接口的范畴,语音识别研究的根本目的是研究出一种具有听觉功能的机器,能直接接受人的语音命令,理解人的意图并作出相应的反应。事实上,让机器听懂人的语言,一直是人类长期追求的理想,有着广泛的应用需求。例如,带有语音接口的计算机可以改变人们目前对电脑的操作方式,引起操作系统的革命;实现两种语言间的直接通信,即通过“语音识别-机器翻译-文本合成”将一种语言直接转换成另一种语言;语音世界可以使用户通过语音直接检索数据库,也就是类似互联网搜索引擎的语音搜索,获取所需的信息,或者语音电话拨号,这在特定环境中,如汽车驾驶过程中将显得非常重要和便捷。
以上这些应用需求来源于语音信号的本质特点:一方面它是人们最自然、最便捷的界湖工具,不需要再做专门训练,而且反应速度特别快,可以达到毫秒量级;另一方面语音信号无严格方向限制,且可以在黑暗中传播,是图片、文字或按钮等其它视、触觉信息所无法替代的。
但是,要让计算机听懂人的语言却面临着诸多困难,主要体现以下几个方面:1.语音信号的声学特征随其前后与之相连的语音不同而产生很大的变异,且连续语流中各语音单位之间不存在明显的边界;2.语音特征会随发音人的不同、发音人心理或生理状态的变化而产生很大的差异;3.传声设备的差异及环境噪声干扰也将直接影响语音特征的准确提取;4.一个语句所表达的意思,是与上下文内容、说话时的环境条件以及背景等因素有关的,而语句的语法结构又是多变化的,并且语境信息几乎是计算机自动语音识别无法利用的;5.语音识别在具体应用中不能只是单纯的识别技术,而要形成一个分布式的系统,来满足大量并发的语音识别服务。为此提出一种人工智能语音识别系统。
发明内容
本发明提出的一种人工智能语音识别系统,以解决上述问题。
为了实现上述目的,本发明采用了如下技术方案:
设计一种人工智能语音识别系统,包括控制模块,所述控制模块包括语音采集模块、语音传输模块、语音识别分析模块、存储模块、输出模块,所述语音采集模块的输出端分别连接有所述语音传输模块和所述存储模块的输入端,所述语音传输模块的输出端连接有所述语音识别分析模块的输入端,所述语音识别分析模块的输出端连接有所述存储模块的输入端,所述存储模块的输出端连接有所述输出模块的输入端;
其中,所述语音采集模块用于对语音信息的收集;
所述语音传输模块用于将语音采集模块采集到的信息传输给语音识别分析模块;
所述语音识别分析模块用于对所接收到的语音信息进行分析整理;
所述存储模块用于对语音采集模块采集到的信息以及语音识别分析模块分析出的信息结果进行存储;
所述输出模块用于对信息的结果的输出。
优选的,所述语音采集模块包括第一语音采集模块、第二语音采集模块、第三语音采集模块,所述语音采集模块的各个模块实现信息即时共享。
优选的,所述语音识别分析模块包括语音预处理模块、语音特征提取模块、语音训练识别模块,
其中,所述语音预处理模块用于对所接收的语音信息进行降噪、过滤处理;
所述语音特征提取模块用于对预处理之后语音信息进行特征处理;
所述语音训练识别模块用于对语言信息预先存储模块中预先存储的语言信息进行对比、训练和校对。
优选的,所述存储模块包括语言信息预先存储模块、语音信息存储模块、语言归类存储模块;所述语言信息预先存储模块的输出端连接所述语言归类存储模块的输入端,所述语音信息存储模块的输入端连接有语音训练识别模块的输出端,所述语音信息存储模块的输出端连接语言归类存储模块的输入端,所述语言归类存储模块的输出端连接所述输出模块;
其中,所述语言信息预先存储模块内部含有预先存储的语音校对模块;
所述语音信息存储模块用于对接收语音采集模块和语音识别分析模块传送的信息进行存储;
所述语言归类存储模块用于对语音信息以及经过语音识别分析模块处理之后的语音信息进行分类存储。
优选的,所述输出模块包括语言选择模块和人机交互模块,所述语言选择模块的输出端连接所述人机交互模块的输入端;所述语言选择模块用于输出语言的选择,便于使用者;所述人机交互模块用于将分析识别出的语音信息结果呈现至使用终端。
本发明提出的一种人工智能语音识别系统,有益效果在于:本发明中多个语音采集模块的平行设置,能够同是碱性多方面的语音信息进行采集,采集范围较大,同时多个语音采集模块实现信息共享能够保证工作即使其中一个不能发正常工作的情况下仍然能够进行正常的采集工作;设置语音预处理模块能够对采集到的语音信息进行初步处理,使语音在进行特征提取的过程中,精确度更高,以保证语音识别的准确性。
附图说明
图1为本发明的工作流程示意图。
图2为本发明的结构示意图。
图3为本发明的语音采集模块结构示意图。
图4为本发明的语音识别分析模块结构示意图。
图5为本发明的存储模块结构示意图。
图6为本发明的输出模块结构示意图。
图中:1-控制模块,11-语音采集模块,12-语音传输模块,13-语音识别分析模块,14-存储模块,15-输出模块,101-第一语音采集模块,102-第二语音采集模块,103-第三语音采集模块,301-语音预处理模块,302-语音特征提取模块,303-语音训练识别模块,401-语言信息预先存储模块,402-语音信息存储模块,403-语言归类存储模块,501-语言选择模块,502-人机交互模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-6,一种人工智能语音识别系统,包括控制模块1,控制模块1包括语音采集模块11、语音传输模块12、语音识别分析模块13、存储模块14、输出模块15,语音采集模块11的输出端分别连接有语音传输模块12和存储模块14的输入端,语音传输模块12的输出端连接有语音识别分析模块13的输入端,语音识别分析模块13的输出端连接有存储模块14的输入端,存储模块14的输出端连接有输出模块15的输入端;
其中,语音采集模块11用于对语音信息的收集;语音采集模块11包括第一语音采集模块101、第二语音采集模块102、第三语音采集模块103,语音采集模块11的各个模块实现信息即时共享。
多个语音采集模块的平行设置,能够同是碱性多方面的语音信息进行采集,采集范围较大,同时多个语音采集模块实现信息共享能够保证工作即使其中一个不能发正常工作的情况下仍然能够进行正常的采集工作。
语音传输模块12用于将语音采集模块11采集到的信息传输给语音识别分析模块13;
语音识别分析模块13用于对所接收到的语音信息进行分析整理;
存储模块14用于对语音采集模块11采集到的信息以及语音识别分析模块13分析出的信息结果进行存储;
输出模块15用于对信息的结果的输出。
语音识别分析模块13包括语音预处理模块301、语音特征提取模块302、语音训练识别模块303,
其中,语音预处理模块301用于对所接收的语音信息进行降噪、过滤处理;设置语音预处理模块301能够对采集到的语音信息进行初步处理,使语音在进行特征提取的过程中,精确度更高,以保证语音识别的准确性。
语音特征提取模块302用于对预处理之后语音信息进行特征处理;
语音训练识别模块303用于对语言信息预先存储模块401中预先存储的语言信息进行对比、训练和校对。
存储模块14包括语言信息预先存储模块401、语音信息存储模块402、语言归类存储模块403;语言信息预先存储模块401的输出端连接语言归类存储模块403的输入端,语音信息存储模块402的输入端连接有语音训练识别模块303的输出端,语音信息存储模块402的输出端连接语言归类存储模块403的输入端,语言归类存储模块403的输出端连接输出模块15;
其中,语言信息预先存储模块401内部含有预先存储的语音校对模块;
语音信息存储模块402用于对接收语音采集模块11和语音识别分析模块13传送的信息进行存储;
语言归类存储模块403用于对语音信息以及经过语音识别分析模块13处理之后的语音信息进行分类存储。
输出模块15包括语言选择模块501和人机交互模块502,语言选择模块501的输出端连接人机交互模块502的输入端;语言选择模块501用于输出语言的选择,便于使用者;人机交互模块502用于将分析识别出的语音信息结果呈现至使用终端。
在本发明的描述中,需要理解的是,术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括至少一个该特征。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种人工智能语音识别系统,其特征在于:包括控制模块(1),所述控制模块(1)包括语音采集模块(11)、语音传输模块(12)、语音识别分析模块(13)、存储模块(14)、输出模块(15),所述语音采集模块(11)的输出端分别连接有所述语音传输模块(12)和所述存储模块(14)的输入端,所述语音传输模块(12)的输出端连接有所述语音识别分析模块(13)的输入端,所述语音识别分析模块(13)的输出端连接有所述存储模块(14)的输入端,所述存储模块(14)的输出端连接有所述输出模块(15)的输入端;
其中,所述语音采集模块(11)用于对语音信息的收集;
所述语音传输模块(12)用于将语音采集模块(11)采集到的信息传输给语音识别分析模块(13);
所述语音识别分析模块(13)用于对所接收到的语音信息进行分析整理;
所述存储模块(14)用于对语音采集模块(11)采集到的信息以及语音识别分析模块(13)分析出的信息结果进行存储;
所述输出模块(15)用于对信息的结果的输出。
2.根据权利要求1所述的一种人工智能语音识别系统,其特征在于:所述语音采集模块(11)包括第一语音采集模块(101)、第二语音采集模块(102)、第三语音采集模块(103),所述语音采集模块(11)的各个模块实现信息即时共享。
3.根据权利要求1所述的一种人工智能语音识别系统,其特征在于:所述语音识别分析模块(13)包括语音预处理模块(301)、语音特征提取模块(302)、语音训练识别模块(303),所述语音预处理模块(301)的输入端连接所述语音传输模块(12)的输出端,所述语音预处理模块(301)的输出端连接语音特征提取模块(302)的输入端,所述语音特征提取模块(302)的输出端连接语音训练识别模块(303)的输入端;
其中,所述语音预处理模块(301)用于对所接收的语音信息进行降噪、过滤处理;
所述语音特征提取模块(302)用于对预处理之后语音信息进行特征处理;
所述语音训练识别模块(303)用于对语言信息预先存储模块(401)中预先存储的语言信息进行对比、训练和校对。
4.根据权利要求3所述的一种人工智能语音识别系统,其特征在于:所述存储模块(14)包括语言信息预先存储模块(401)、语音信息存储模块(402)、语言归类存储模块(403);所述语言信息预先存储模块(401)的输出端连接所述语言归类存储模块(403)的输入端,所述语音信息存储模块(402)的输入端连接有语音训练识别模块(303)的输出端,所述语音信息存储模块(402)的输出端连接语言归类存储模块(403)的输入端,所述语言归类存储模块(403)的输出端连接所述输出模块(15);
其中,所述语言信息预先存储模块(401)内部含有预先存储的语音校对模块;
所述语音信息存储模块(402)用于对接收语音采集模块(11)和语音识别分析模块(13)传送的信息进行存储;
所述语言归类存储模块(403)用于对语音信息以及经过语音识别分析模块(13)处理之后的语音信息进行分类存储。
5.根据权利要求1所述的一种人工智能语音识别系统,其特征在于:所述输出模块(15)包括语言选择模块(501)和人机交互模块(502),所述语言选择模块(501)的输出端连接所述人机交互模块(502)的输入端;所述语言选择模块(501)用于输出语言的选择,便于使用者;所述人机交互模块(502)用于将分析识别出的语音信息结果呈现至使用终端。
CN201910037413.XA 2019-01-15 2019-01-15 一种人工智能语音识别系统 Pending CN109545220A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910037413.XA CN109545220A (zh) 2019-01-15 2019-01-15 一种人工智能语音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910037413.XA CN109545220A (zh) 2019-01-15 2019-01-15 一种人工智能语音识别系统

Publications (1)

Publication Number Publication Date
CN109545220A true CN109545220A (zh) 2019-03-29

Family

ID=65835221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910037413.XA Pending CN109545220A (zh) 2019-01-15 2019-01-15 一种人工智能语音识别系统

Country Status (1)

Country Link
CN (1) CN109545220A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288996A (zh) * 2019-07-22 2019-09-27 厦门钛尚人工智能科技有限公司 一种语音识别装置和语音识别方法
CN114944163A (zh) * 2022-04-19 2022-08-26 合肥亚慕信息科技有限公司 基于人工智能算法数据交互系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101867742A (zh) * 2010-05-21 2010-10-20 中山大学 一种基于声控控制下的电视系统
CN106448654A (zh) * 2016-09-30 2017-02-22 安徽省云逸智能科技有限公司 一种机器人语音识别系统及其工作方法
US20180293230A1 (en) * 2018-06-14 2018-10-11 Chun-Ai Tu Multifunction simultaneous interpretation device
CN108922526A (zh) * 2018-06-25 2018-11-30 广州市锐尚展柜制作有限公司 一种可实现人机交互的智能家居语音控制系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101867742A (zh) * 2010-05-21 2010-10-20 中山大学 一种基于声控控制下的电视系统
CN106448654A (zh) * 2016-09-30 2017-02-22 安徽省云逸智能科技有限公司 一种机器人语音识别系统及其工作方法
US20180293230A1 (en) * 2018-06-14 2018-10-11 Chun-Ai Tu Multifunction simultaneous interpretation device
CN108922526A (zh) * 2018-06-25 2018-11-30 广州市锐尚展柜制作有限公司 一种可实现人机交互的智能家居语音控制系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288996A (zh) * 2019-07-22 2019-09-27 厦门钛尚人工智能科技有限公司 一种语音识别装置和语音识别方法
CN114944163A (zh) * 2022-04-19 2022-08-26 合肥亚慕信息科技有限公司 基于人工智能算法数据交互系统
CN114944163B (zh) * 2022-04-19 2023-02-28 合肥亚慕信息科技有限公司 基于人工智能算法数据交互系统

Similar Documents

Publication Publication Date Title
Wu et al. Multimodal large language models: A survey
WO2020182153A1 (zh) 基于自适应语种进行语音识别的方法及相关装置
CN108000526B (zh) 用于智能机器人的对话交互方法及系统
CN107665708B (zh) 智能语音交互方法及系统
CN106919646B (zh) 中文文本摘要生成系统及方法
CN106469212B (zh) 基于人工智能的人机交互方法和装置
CN106294854B (zh) 一种用于智能机器人的人机交互方法及装置
CN110070065A (zh) 基于视觉以及语音智能的手语系统以及通讯方法
CN109960747A (zh) 视频描述信息的生成方法、视频处理方法、相应的装置
CN101834809B (zh) 一种互联网即时消息通讯系统
CN106486122A (zh) 一种智能语音交互机器人
CN109101663A (zh) 一种基于互联网的机器人对话系统
CN110070855A (zh) 一种基于迁移神经网络声学模型的语音识别系统及方法
CN109545220A (zh) 一种人工智能语音识别系统
CN106557165A (zh) 智能设备的动作模拟交互方法和装置及智能设备
Sonawane et al. Speech to Indian sign language (ISL) translation system
CN110909879A (zh) 自回归神经网络消歧模型、训练及使用方法、装置、系统
CN104679733B (zh) 一种语音对话翻译方法、装置及系统
CN111128175A (zh) 口语对话管理方法及系统
CN117371459A (zh) 一种基于智能语音ai实时翻译的会议辅助系统及方法
Zhang et al. Research on spectrum sensing system based on composite neural network
CN206672636U (zh) 一种具有云端交互功能的智能机器人
Qin Research on the application of intelligent speech recognition technology in medical big data fog computing system
CN114238606A (zh) 一种智能语音客服机器人对话管理方法及装置
CN103824560A (zh) 中文语音识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190329