CN109192197A - 基于互联网的大数据语音识别系统 - Google Patents
基于互联网的大数据语音识别系统 Download PDFInfo
- Publication number
- CN109192197A CN109192197A CN201811086883.7A CN201811086883A CN109192197A CN 109192197 A CN109192197 A CN 109192197A CN 201811086883 A CN201811086883 A CN 201811086883A CN 109192197 A CN109192197 A CN 109192197A
- Authority
- CN
- China
- Prior art keywords
- module
- speech recognition
- acoustics
- word
- big data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000009897 systematic effect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种基于互联网的大数据语音识别系统,包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块;所述特征分类模块的输出端与特征提取模块的输入端信号连接,特征提取模块的输出端与声学训练模块的输入端信号连接,声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接,语音识别模块的输出端与识别输出模块的输入端信号连接。通过互联网大数据来获取标准词或者因素以及自然语言中的词序,在构建词典、语法方面具有数据数量上的优势,可以节省大量的系统训练时间;系统事先将语言内容进行过领域,并通过已识别的内容作为再次识别的基础,修正效率高。
Description
技术领域
本发明涉及大数据的数据分析和挖掘领域,尤其涉及一种基于互联网的大数据语音识别系统。
背景技术
大数据分析是指对规模巨大的数据进行分析,大数据具有数据量大、速度快、类型多、价值高等特点。伴随着大数据的普及,对应的数据管理、数据安全、数据分析、数据挖掘等深度利用场景成为行业热点。随着大数据的应用越来越广泛,从海量大数据中找出规律,提炼具有价值的关键信息,变得越来越重要。随着互联网、移动网络的高速发展,网络带宽瓶颈得到了有效缓解,传输速率和可靠性得到了极大提高,基于大数据进行高效、实时数据分析提炼的网络条件已经成熟。
近年来,语音识别技术取得了显著的进步,在很多日常场景中,语音智能识别替代其他输入,给人们的生活带来了极大的便利。但是,语音识别的辨识率总体还不高,个人情绪、语调、口音、语速、方言等发音特征和发音习惯都会影响语音的准确识别。正是由于语音识别率不理想,语音识别替代其他信息输入还有很长的路要走。
发明内容
有鉴于此,本发明提出了一种数据来源广泛、能高效提取声学特征、语音识别比较可靠的基于互联网的大数据语音识别系统。
本发明的技术方案是这样实现的:本发明提供了一种基于互联网的大数据语音识别系统,包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块;所述特征分类模块的输出端与特征提取模块的输入端信号连接,特征提取模块的输出端与声学训练模块的输入端信号连接,声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接,语音识别模块的输出端与识别输出模块的输入端信号连接;
所述声学词典模块是从大数据中搜集标准词或者因素以及自然语言中的词序,构建语音识别训练用的标准信息,形成声学词典;特征分类模块从大数据中获取需要识别的语音信息,按照语音上下文的内容进行领域分类,;经特征分类模块进行领域分类的语音信息输出至特征提取模块,特征提取模块对分类后的语音信息进行降噪、语速调整和分段处理,然后将处理后的信息输出至语音识别模块,语音识别模块内预设有声学模型,声学模型结合声学词典对降噪、语速调整和分段处理后的语音信息进行匹配和识别,识别出的结果作为基础进行再次识别和纠错,直到需要识别的语音信息完全被识别后,语音识别模块将识别后的语音信息发送至识别输出模块输出。
在以上技术方案的基础上,优选的,所述特征提取模块对分类后的语音信息进行降噪,采用的高斯低通滤波算法。
在以上技术方案的基础上,优选的,所述声学词典模块形成声学词典采用训练构建,其构建过程为:
假设A=(m1,m2,...mn)mn为词的最小组成元素,A为词拆除词素的结果,L(Dw,θ)为损失函数,Dw为供训练用的词的列表,θ为模型参数,通过损失函数来确定模型参数θ,定义最大后验概率θMAX如下:
θMAX=arg maxp(θ|Dw)=arg maxp(θ)p(Dw|θ)
其中p(θ)为最大化模型先验,p(Dw|θ)为数据似然概率,对上式换算得到:
L(Dw,θ)=-logp(θ)-p(Dw|θ)
通过对瞬时函数L(Dw,θ)取最小值得到模型参数θ,通过上述训练,构建词的最小组成元素A的发音信息。
在以上技术方案的基础上,优选的,所述语音识别模块内设的声学模型,定义为:给定语音观测序列x,x对应的词的序列的公式为:
w是观测序列x对应的所有词的序列合集,p(w|x)为观测序列x对应的词的概率,W为词集合中发生最大概率的词序列;根据贝叶斯公式:
上式可转换为:
上式中,p(x|w)为声学模型,p(w)为词序列在自然语言中的先验概率。
在以上技术方案的基础上,优选的,所述语音识别模块通过HMM-GMM模型进行语音识别。
本发明提出了一种基于互联网的大数据语音识别系统,该系统相对于现有技术具有以下有益效果:
(1)通过互联网大数据来获取标准词或者因素以及自然语言中的词序,在构建词典、语法方面具有数据数量上的优势,可以节省大量的系统训练时间;
(2)系统事先将语言内容进行过领域分类,对行业、地域、方言、习惯都进行细分,待识别的语音信息需要对比的数据范围大大缩小;
(3)系统通过已识别的内容作为再次识别的基础,修正效率高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于互联网的大数据语音识别系统的模块控制图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
图1为本发明基于互联网的用户行为大数据分析系统的模块控制图。如图1所示,本发明提供了一种基于互联网的大数据语音识别系统,包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块。特征分类模块的输出端与特征提取模块的输入端信号连接,特征提取模块的输出端与声学训练模块的输入端信号连接,声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接,语音识别模块的输出端与识别输出模块的输入端信号连接。
声学词典模块是从大数据中搜集标准词或者因素以及自然语言中的词序,构建语音识别训练用的标准信息,形成声学词典;特征分类模块从大数据中获取需要识别的语音信息,按照语音上下文的内容进行领域分类,;经特征分类模块进行领域分类的语音信息输出至特征提取模块,特征提取模块对分类后的语音信息进行降噪、语速调整和分段处理,此处降噪采用高斯低通滤波算法,分段处理是将语音信息分割为25ms一帧的片段,相邻帧有10ms的重叠部分。然后将处理后的信息输出至语音识别模块,语音识别模块内预设有声学模型,声学模型结合声学词典对降噪、语速调整和分段处理后的语音信息进行匹配和识别,语音识别模块通过HMM-GMM模型进行语音识别。识别出的结果作为基础进行再次识别和纠错,直到需要识别的语音信息完全被识别后,语音识别模块将识别后的语音信息发送至识别输出模块输出。
上述声学词典模块形成声学词典采用训练构建,其构建过程为:
假设A=(m1,m2,...mn)mn为词的最小组成元素,A为词拆除词素的结果,L(Dw,θ)为损失函数,Dw为供训练用的词的列表,θ为模型参数,通过损失函数来确定模型参数θ,定义最大后验概率θMAX如下:
θMAX=argmaxp(θ|Dw)=argmaxp(θ)p(Dw|θ)
其中p(θ)为最大化模型先验,p(Dw|θ)为数据似然概率,对上式换算得到:
L(Dw,θ)=-logp(θ)-p(Dw|θ)
通过对瞬时函数L(Dw,θ)取最小值得到模型参数θ,通过上述训练,构建词的最小组成元素A的发音信息。
上述语音识别模块内设的声学模型,定义为:给定语音观测序列x,x对应的词的序列的公式为:
w是观测序列x对应的所有词的序列合集,p(w|x)为观测序列x对应的词的概率,W为词集合中发生最大概率的词序列;根据贝叶斯公式:
上式可转换为:
上式中,p(x|w)为声学模型,p(w)为词序列在自然语言中的先验概率,即常用语法中的词序。
本发明提出的基于互联网的大数据语音识别系统系统,通过互联网大数据来获取标准词或者因素以及自然语言中的词序,在构建词典、语法方面具有数据数量上的优势,可以节省大量的系统训练时间;系统事先将语言内容进行过领域分类,对行业、地域、方言、习惯都有细分,待识别的语音信息需要对比的数据范围大大缩小;系统通过已识别的内容作为再次识别的基础,修正效率高。本发明能很好的改善现有语音识别技术中存在的识别率不够理想的问题,具有很好的识别效果。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于互联网的大数据语音识别系统,包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块;其特征在于:所述特征分类模块的输出端与特征提取模块的输入端信号连接,特征提取模块的输出端与声学训练模块的输入端信号连接,声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接,语音识别模块的输出端与识别输出模块的输入端信号连接;
所述声学词典模块是从大数据中搜集标准词或者因素以及自然语言中的词序,构建语音识别训练用的标准信息,形成声学词典;特征分类模块从大数据中获取需要识别的语音信息,按照语音上下文的内容进行领域分类;经特征分类模块进行领域分类的语音信息输出至特征提取模块,特征提取模块对分类后的语音信息进行降噪、语速调整和分段处理,然后将处理后的信息输出至语音识别模块,语音识别模块内预设有声学模型,声学模型结合声学词典对降噪、语速调整和分段处理后的语音信息进行匹配和识别,识别出的结果作为基础进行再次识别和纠错,直到需要识别的语音信息完全被识别后,语音识别模块将识别后的语音信息发送至识别输出模块输出。
2.如权利要求1所述的基于互联网的大数据语音识别系统,其特征在于:所述特征提取模块对分类后的语音信息进行降噪,采用的高斯低通滤波算法。
3.如权利要求1所述的基于互联网的大数据语音识别系统,其特征在于:所述声学词典模块形成声学词典采用训练构建,其构建过程为:
假设A=(m1,m2,...mn)mn为词的最小组成元素,A为词拆除词素的结果,L(Dw,θ)为损失函数,Dw为供训练用的词的列表,θ为模型参数,通过损失函数来确定模型参数θ,定义最大后验概率θMAX如下:
θMAX=arg max p(θ|Dw)=arg max p(θ)p(Dw|θ)
其中p(θ)为最大化模型先验,p(Dw|θ)为数据似然概率,对上式换算得到:
L(Dw,θ)=-log p(θ)-p(Dw|θ)
通过对瞬时函数L(Dw,θ)取最小值得到模型参数θ,通过上述训练,构建词的最小组成元素A的发音信息。
4.如权利要求1所述的基于互联网的大数据语音识别系统,其特征在于:所述语音识别模块内设的声学模型,定义为:给定语音观测序列x,x对应的词的序列的公式为:
w是观测序列x对应的所有词的序列合集,p(w|x)为观测序列x对应的词的概率,W为词集合中发生最大概率的词序列;根据贝叶斯公式:
上式可转换为:
上式中,p(x|w)为声学模型,p(w)为词序列在自然语言中的先验概率。
5.如权利要求1所述的基于互联网的大数据语音识别系统,其特征在于:所述语音识别模块通过HMM-GMM模型进行语音识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811086883.7A CN109192197A (zh) | 2018-09-18 | 2018-09-18 | 基于互联网的大数据语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811086883.7A CN109192197A (zh) | 2018-09-18 | 2018-09-18 | 基于互联网的大数据语音识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109192197A true CN109192197A (zh) | 2019-01-11 |
Family
ID=64911821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811086883.7A Pending CN109192197A (zh) | 2018-09-18 | 2018-09-18 | 基于互联网的大数据语音识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109192197A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522971A (zh) * | 2020-04-08 | 2020-08-11 | 广东小天才科技有限公司 | 一种直播教学中辅助用户听课的方法及装置 |
CN111883160A (zh) * | 2020-08-07 | 2020-11-03 | 上海茂声智能科技有限公司 | 一种定向麦克风阵列拾音降噪方法及装置 |
CN112331194A (zh) * | 2019-07-31 | 2021-02-05 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102280106A (zh) * | 2010-06-12 | 2011-12-14 | 三星电子株式会社 | 用于移动通信终端的语音网络搜索方法及其装置 |
CN104217717A (zh) * | 2013-05-29 | 2014-12-17 | 腾讯科技(深圳)有限公司 | 构建语言模型的方法及装置 |
CN104281695A (zh) * | 2014-10-13 | 2015-01-14 | 安徽华贞信息科技有限公司 | 基于组合理论的类自然语言的语义信息抽取方法及其系统 |
CN105654954A (zh) * | 2016-04-06 | 2016-06-08 | 普强信息技术(北京)有限公司 | 一种云端语音识别系统及方法 |
CN105679314A (zh) * | 2015-12-28 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
-
2018
- 2018-09-18 CN CN201811086883.7A patent/CN109192197A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102280106A (zh) * | 2010-06-12 | 2011-12-14 | 三星电子株式会社 | 用于移动通信终端的语音网络搜索方法及其装置 |
CN104217717A (zh) * | 2013-05-29 | 2014-12-17 | 腾讯科技(深圳)有限公司 | 构建语言模型的方法及装置 |
CN104281695A (zh) * | 2014-10-13 | 2015-01-14 | 安徽华贞信息科技有限公司 | 基于组合理论的类自然语言的语义信息抽取方法及其系统 |
CN105679314A (zh) * | 2015-12-28 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
CN105654954A (zh) * | 2016-04-06 | 2016-06-08 | 普强信息技术(北京)有限公司 | 一种云端语音识别系统及方法 |
Non-Patent Citations (2)
Title |
---|
严勤: "《北京:国防工业出版社》", 31 December 2015 * |
黄孝平: "《当代机器深度学习方法与应用研究》", 30 November 2017 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112331194A (zh) * | 2019-07-31 | 2021-02-05 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和电子设备 |
CN111522971A (zh) * | 2020-04-08 | 2020-08-11 | 广东小天才科技有限公司 | 一种直播教学中辅助用户听课的方法及装置 |
CN111883160A (zh) * | 2020-08-07 | 2020-11-03 | 上海茂声智能科技有限公司 | 一种定向麦克风阵列拾音降噪方法及装置 |
CN111883160B (zh) * | 2020-08-07 | 2024-04-16 | 上海茂声智能科技有限公司 | 一种定向麦克风阵列拾音降噪方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109817213B (zh) | 用于自适应语种进行语音识别的方法、装置及设备 | |
CN110263322B (zh) | 用于语音识别的音频语料筛选方法、装置及计算机设备 | |
CN101447185B (zh) | 一种基于内容的音频快速分类方法 | |
CN103700370B (zh) | 一种广播电视语音识别系统方法及系统 | |
WO2022134833A1 (zh) | 语音信号的处理方法、装置、设备及存储介质 | |
CN109192197A (zh) | 基于互联网的大数据语音识别系统 | |
WO2005050621A3 (en) | Topic specific models for text formatting and speech recognition | |
CN110634469B (zh) | 基于人工智能的语音信号处理方法、装置及存储介质 | |
CN103971675A (zh) | 自动语音识别方法和系统 | |
CN112927679B (zh) | 一种语音识别中添加标点符号的方法及语音识别装置 | |
KR100904049B1 (ko) | 음성 인식에 대한 통계적 의미 분류 시스템 및 방법 | |
JP2005084681A (ja) | 意味的言語モデル化および信頼性測定のための方法およびシステム | |
CN112489637A (zh) | 语音识别方法和装置 | |
CN112509566B (zh) | 一种语音识别方法、装置、设备、存储介质及程序产品 | |
CN110120221A (zh) | 用于车机系统的用户个性化离线语音识别方法及其系统 | |
CN112883721B (zh) | 基于bert预训练模型的新词识别方法和装置 | |
WO2020198799A1 (en) | Instant messaging/chat system with translation capability | |
CN104485106B (zh) | 语音识别方法、语音识别系统和语音识别设备 | |
CN116665676B (zh) | 一种用于智能语音外呼系统的语义识别方法 | |
CN114999463B (zh) | 语音识别方法、装置、设备及介质 | |
KR20220130739A (ko) | 스피치 인식 | |
CN109545202B (zh) | 一种调整语义逻辑混乱的语料的方法及系统 | |
CN111062221A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN110503943B (zh) | 一种语音交互方法以及语音交互系统 | |
CN109376224A (zh) | 语料过滤方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190111 |
|
RJ01 | Rejection of invention patent application after publication |