CN111489745A - 一种应用于人工智能的汉语语音识别系统 - Google Patents
一种应用于人工智能的汉语语音识别系统 Download PDFInfo
- Publication number
- CN111489745A CN111489745A CN201910078666.1A CN201910078666A CN111489745A CN 111489745 A CN111489745 A CN 111489745A CN 201910078666 A CN201910078666 A CN 201910078666A CN 111489745 A CN111489745 A CN 111489745A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- recognition system
- converting
- frequency
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 239000003550 marker Substances 0.000 claims abstract description 4
- 238000000926 separation method Methods 0.000 claims abstract description 4
- 230000026676 system process Effects 0.000 claims abstract 2
- 238000012545 processing Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000000034 method Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 6
- 210000005069 ears Anatomy 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims 1
- 238000011160 research Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音识别技术领域,提供一种应用于人工智能的汉语语音识别系统,所述语音识别系统对语音信号处理包括以下操作步骤:步骤1:预滤波处理;步骤2:特征提取:将预滤波处理后的wav格式语音信号通过梅尔倒频谱算法转换为神经网络需要的二维频谱图像信号;步骤3:获得学模型;步骤4:解码:对声学模型的输出中连续相同的符号进行合并,并去除静音分隔标记符,获得语音拼音符号序列;步骤5:使用统计语言模型,将拼音转换为最终的识别文本并输出本发明旨在提供一种运算速度快、识别准确的汉语智能语音识别系统。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及一种应用于人工智能的汉语语音识别系统。
背景技术
语音信号处理是目前发展最为迅速的信息科学研究领域中的一个,是目前极为活跃和热门的研究领域,其研究成果具有重要的学术及应用价值。语音信号处理的研究,对于机器语言、语音识别、语音合成等领域都具有很大的意义。
近年来,深度学习在人工智能领域兴起,其对语音识别也产生了深远影响,深层的神经网络逐步替代了原来的GMM-HMM模型。在人类的交流和知识传播中,大约70%的信息是来自于语音。未来,语音识别将必然成为智能生活里重要的一部分,它可以为语音助手、语音输入等提供必不可少的基础,这将会成为一种新的人机交互方式。因此,我们需要让机器听懂人的声音。
发明内容
解决的技术问题
针对现有技术的不足,本发明提供了一种应用于人工智能的汉语语音识别系统,旨在提供一种运算速度快、识别准确的汉语智能语音识别系统。
技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种应用于人工智能的汉语语音识别系统,所述语音识别系统对语音信号处理包括以下操作步骤:
步骤1:预滤波处理:用于抑制电源工频干扰和防止混叠干扰;
步骤2:特征提取:将预滤波处理后的wav格式语音信号通过梅尔倒频谱算法转换为神经网络需要的二维频谱图像信号;
步骤3:声学模型:基于TensorFlow框架搭建,采用基于CNN的深层的卷积神经网络作为网络模型,并通过语音数据进行训练获得,输入是特征向量,输出为音素信息;
步骤4:解码:对声学模型的输出中连续相同的符号进行合并,并去除静音分隔标记符,获得语音拼音符号序列;
步骤5:使用统计语言模型,将拼音转换为最终的识别文本并输出。
更进一步地,所述语音识别系统的客户端分为UWP客户端和WPF客户端,源码均需要使用VS2017来开发和编译,使用C#和XAML编写。
更进一步地,所述客户端引入arm指令集,做多指令集优化,加速运算,对于耗时的运算采用多线程并发处理。
更进一步地,所述客户端可选取人声频段,并剔除非人声频段减少冗余计算;同时具备静音检测功能,减少不必要的时间片段。
更进一步地,步骤2中所述的梅尔倒频谱算法包括如下操作步骤:
输入声音文件,解析成原始的声音数据(时域信号);
通过短时傅里叶变换,加窗分帧将时域信号转换为频域信号;
通过梅尔频谱变换,将频率转换成人耳能感知的线性关系;
采用DCT变换将直流信号分量和正弦信号分量分离;
提取声音频谱特征向量,并将向量转换为图像。
更进一步地,所述语音识别系统设有增大型训练语料库,所述训练语料库可自主选取不同的语料库适应不同的说话场景。
有益效果
本发明提供了一种应用于人工智能的汉语语音识别系统,与现有公知技术相比,本发明的具有如下有益效果:
本发明的语音识别系统采用采用基于CNN的深层的卷积神经网络作为网络模型,并采用梅尔倒频谱算法将语音文件直接转换为语谱图像作为网络模型的输入,在输出端通过解码处理,实现整个模型的端到端训练,将声音波形信号直接转录为中文普通话拼音序列。在语言模型上采用马尔可夫模型,同时客户端通过指令集优化和算法加速提高人声语音识别的处理速度,较现有技术的语音识别系统具有更快的运算处理速度和准确的语音、语境识别能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的语音识别系统流程示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
本实施例的一种应用于人工智能的汉语语音识别系统,参照图1:语音识别系统对语音信号处理包括以下操作步骤:
步骤1:预滤波处理:用于抑制电源工频干扰和防止混叠干扰;
步骤2:特征提取:将预滤波处理后的wav格式语音信号通过梅尔倒频谱算法转换为神经网络需要的二维频谱图像信号;
步骤3:声学模型:基于TensorFlow框架搭建,采用基于CNN的深层的卷积神经网络作为网络模型,并通过语音数据进行训练获得,输入是特征向量,输出为音素信息;
步骤4:解码:对声学模型的输出中连续相同的符号进行合并,并去除静音分隔标记符,获得语音拼音符号序列;
步骤5:使用统计语言模型,将拼音转换为最终的识别文本并输出。
语音识别系统的客户端分为UWP客户端和WPF客户端,源码均需要使用VS2017来开发和编译,使用C#和XAML编写。
客户端引入arm指令集,做多指令集优化,加速运算,对于耗时的运算采用多线程并发处理。
客户端可选取人声频段,并剔除非人声频段减少冗余计算;同时具备静音检测功能,减少不必要的时间片段。
步骤2中的梅尔倒频谱算法包括如下操作步骤:输入声音文件,解析成原始的声音数据(时域信号);通过短时傅里叶变换,加窗分帧将时域信号转换为频域信号;通过梅尔频谱变换,将频率转换成人耳能感知的线性关系;采用DCT变换将直流信号分量和正弦信号分量分离;提取声音频谱特征向量,并将向量转换为图像。
其中加窗分帧是为了满足语音在时域的短时平稳特性,梅尔频谱变换是为了将人耳对频率的感知度转化为线性关系,倒谱分析的重点是理解傅里叶变换,任何信号都可以通过傅里叶变换而分解成一个直流分量和若干个正弦信号的和。
语音识别系统设有增大型训练语料库,训练语料库可自主选取不同的语料库适应不同的说话场景;如果你应用与新闻,那么最好直接选取新闻语料,应用于搜索引擎,就最好直接选取普通互联网语料,如果是语音识别,那么普通人说话的场景下的语料更合适些。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种应用于人工智能的汉语语音识别系统,其特征在于,所述语音识别系统对语音信号处理包括以下操作步骤:
步骤1:预滤波处理:用于抑制电源工频干扰和防止混叠干扰;
步骤2:特征提取:将预滤波处理后的wav格式语音信号通过梅尔倒频谱算法转换为神经网络需要的二维频谱图像信号;
步骤3:声学模型:基于TensorFlow框架搭建,采用基于CNN的深层的卷积神经网络作为网络模型,并通过语音数据进行训练获得,输入是特征向量,输出为音素信息;
步骤4:解码:对声学模型的输出中连续相同的符号进行合并,并去除静音分隔标记符,获得语音拼音符号序列;
步骤5:使用统计语言模型,将拼音转换为最终的识别文本并输出。
2.根据权利要求1所述的一种应用于人工智能的汉语语音识别系统,其特征在于,所述语音识别系统的客户端分为UWP客户端和WPF客户端,源码均需要使用VS2017来开发和编译,使用C#和XAML编写。
3.根据权利要求2所述的一种应用于人工智能的汉语语音识别系统,其特征在于,所述客户端引入arm指令集,做多指令集优化,加速运算,对于耗时的运算采用多线程并发处理。
4.根据权利要求2所述的一种应用于人工智能的汉语语音识别系统,其特征在于,所述客户端可选取人声频段,并剔除非人声频段减少冗余计算;同时具备静音检测功能,减少不必要的时间片段。
5.根据权利要求1所述的一种应用于人工智能的汉语语音识别系统,其特征在于,步骤2中所述的梅尔倒频谱算法包括如下操作步骤:
输入声音文件,解析成原始的声音数据(时域信号);
通过短时傅里叶变换,加窗分帧将时域信号转换为频域信号;
通过梅尔频谱变换,将频率转换成人耳能感知的线性关系;
采用DCT变换将直流信号分量和正弦信号分量分离;
提取声音频谱特征向量,并将向量转换为图像。
6.根据权利要求1所述的一种应用于人工智能的汉语语音识别系统,其特征在于,所述语音识别系统设有增大型训练语料库,所述训练语料库可自主选取不同的语料库适应不同的说话场景。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910078666.1A CN111489745A (zh) | 2019-01-28 | 2019-01-28 | 一种应用于人工智能的汉语语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910078666.1A CN111489745A (zh) | 2019-01-28 | 2019-01-28 | 一种应用于人工智能的汉语语音识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111489745A true CN111489745A (zh) | 2020-08-04 |
Family
ID=71794096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910078666.1A Pending CN111489745A (zh) | 2019-01-28 | 2019-01-28 | 一种应用于人工智能的汉语语音识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111489745A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786019A (zh) * | 2021-01-04 | 2021-05-11 | 中国人民解放军32050部队 | 一种通过图像识别方式实现语音转写系统及方法 |
CN113327586A (zh) * | 2021-06-01 | 2021-08-31 | 深圳市北科瑞声科技股份有限公司 | 一种语音识别方法、装置、电子设备以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN106920544A (zh) * | 2017-03-17 | 2017-07-04 | 深圳市唯特视科技有限公司 | 一种基于深度神经网络特征训练的语音识别方法 |
US20170243114A1 (en) * | 2016-02-19 | 2017-08-24 | International Business Machines Corporation | Adaptation of model for recognition processing |
KR20180028893A (ko) * | 2016-09-09 | 2018-03-19 | 한국전자통신연구원 | 음성 인식 시스템 및 방법 |
CN108281139A (zh) * | 2016-12-30 | 2018-07-13 | 深圳光启合众科技有限公司 | 语音转写方法和装置、机器人 |
CN108564940A (zh) * | 2018-03-20 | 2018-09-21 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
-
2019
- 2019-01-28 CN CN201910078666.1A patent/CN111489745A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170243114A1 (en) * | 2016-02-19 | 2017-08-24 | International Business Machines Corporation | Adaptation of model for recognition processing |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
KR20180028893A (ko) * | 2016-09-09 | 2018-03-19 | 한국전자통신연구원 | 음성 인식 시스템 및 방법 |
CN108281139A (zh) * | 2016-12-30 | 2018-07-13 | 深圳光启合众科技有限公司 | 语音转写方法和装置、机器人 |
CN106920544A (zh) * | 2017-03-17 | 2017-07-04 | 深圳市唯特视科技有限公司 | 一种基于深度神经网络特征训练的语音识别方法 |
CN108564940A (zh) * | 2018-03-20 | 2018-09-21 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
李灿;孙浩;李开;: "基于Deep Speech的语音识别系统的实现与改进", 计算机与数字工程, no. 08 * |
王海坤;潘嘉;刘聪;: "语音识别技术的研究进展与展望", 电信科学, no. 02, pages 5 - 6 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786019A (zh) * | 2021-01-04 | 2021-05-11 | 中国人民解放军32050部队 | 一种通过图像识别方式实现语音转写系统及方法 |
CN113327586A (zh) * | 2021-06-01 | 2021-08-31 | 深圳市北科瑞声科技股份有限公司 | 一种语音识别方法、装置、电子设备以及存储介质 |
CN113327586B (zh) * | 2021-06-01 | 2023-11-28 | 深圳市北科瑞声科技股份有限公司 | 一种语音识别方法、装置、电子设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223705B (zh) | 语音转换方法、装置、设备及可读存储介质 | |
CN105244026B (zh) | 一种语音处理方法及装置 | |
CN111508498B (zh) | 对话式语音识别方法、系统、电子设备和存储介质 | |
CN111477216A (zh) | 一种用于对话机器人的音意理解模型的训练方法及系统 | |
CN111429889A (zh) | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 | |
CN105118501A (zh) | 语音识别的方法及系统 | |
CN104252861A (zh) | 视频语音转换方法、装置和服务器 | |
CN110767210A (zh) | 一种生成个性化语音的方法及装置 | |
CN112435653B (zh) | 语音识别方法、装置和电子设备 | |
CN110853629A (zh) | 一种基于深度学习的语音识别数字的方法 | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN113744722B (zh) | 一种用于有限句库的离线语音识别匹配装置与方法 | |
CN111489754A (zh) | 一种基于智能语音技术的话务数据分析方法 | |
CN114495904B (zh) | 语音识别方法以及装置 | |
CN114550706A (zh) | 基于深度学习的智慧校园语音识别方法 | |
CN115762489A (zh) | 语音识别模型的数据处理系统及方法、语音识别方法 | |
CN111489745A (zh) | 一种应用于人工智能的汉语语音识别系统 | |
CN111968622A (zh) | 一种基于注意力机制的语音识别方法、系统及装置 | |
CN111785256A (zh) | 声学模型训练方法、装置、电子设备及存储介质 | |
CN115798455A (zh) | 语音合成方法、系统、电子设备及存储介质 | |
CN115985320A (zh) | 智能设备控制方法、装置、电子设备及存储介质 | |
CN114203180A (zh) | 会议纪要的生成方法、装置、电子设备及存储介质 | |
CN113112993A (zh) | 一种音频信息处理方法、装置、电子设备以及存储介质 | |
CN117935787B (zh) | 一种数据筛选标注方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200804 |
|
WD01 | Invention patent application deemed withdrawn after publication |