CN111754987A - 一种大数据分析语音识别方法 - Google Patents
一种大数据分析语音识别方法 Download PDFInfo
- Publication number
- CN111754987A CN111754987A CN202010579264.2A CN202010579264A CN111754987A CN 111754987 A CN111754987 A CN 111754987A CN 202010579264 A CN202010579264 A CN 202010579264A CN 111754987 A CN111754987 A CN 111754987A
- Authority
- CN
- China
- Prior art keywords
- signal
- vocabulary
- recognition
- complex
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000007405 data analysis Methods 0.000 title claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 7
- 230000007547 defect Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种大数据分析语音识别方法,包括:A、采集待识别的语音信号后,将待识别的语音信号发送至分类模块,分类模块将待识别的语音信号分为简单词汇信号和复杂词汇信号,简单词汇信号发送至第一识别模块,复杂词汇信号发送至第二识别模块;B、第一识别模块将简单词汇信号与数据库中的数据进行对比,得到与简单词汇信号相似度高于设定阈值的初筛数据集;C、第二识别模块根据初筛数据集确定识别参数,第二识别模块对复杂词汇信号进行识别后,在初筛数据集中选择与复杂词汇信号识别结果相关性最大的数据,与复杂词汇信号识别结果组成最终的识别结果。本发明能够改进现有技术的不足,提高语音识别的速度和准确度。
Description
技术领域
本发明涉及语音识别技术领域,尤其是一种大数据分析语音识别方法。
背景技术
随着智能机器人技术的发展,通过语音直接控制机器人行为这一便捷的控制方式逐步普及开来。不过,由于现有语音识别技术的限制,机器人对于语音控制指令的识别速度和识别率均不高,这就导致语音控制只能作为一种辅助控制手段存在,限制了语音控制机器人的应用。
发明内容
本发明要解决的技术问题是提供一种大数据分析语音识别方法,能够解决现有技术的不足,提高语音识别的速度和准确度。
为解决上述技术问题,本发明所采取的技术方案如下。
一种大数据分析语音识别方法,包括以下步骤:
A、采集待识别的语音信号后,将待识别的语音信号发送至分类模块,分类模块将待识别的语音信号分为简单词汇信号和复杂词汇信号,简单词汇信号发送至第一识别模块,复杂词汇信号发送至第二识别模块;
B、第一识别模块将简单词汇信号与数据库中的数据进行对比,得到与简单词汇信号相似度高于设定阈值的初筛数据集,将初筛数据集发送至第二识别模块;
C、第二识别模块根据初筛数据集确定识别参数,第二识别模块对复杂词汇信号进行识别后,在初筛数据集中选择与复杂词汇信号识别结果相关性最大的数据,与复杂词汇信号识别结果组成最终的识别结果。
作为优选,步骤A中,分类模块对待识别的语音信号进行傅里叶变换,在变换得到的信号频谱中检索特征频谱段,若同一时间段内存在至少两个特征频谱,则将这一时间段的语音信号定义为简单词汇信号,遍历整个待识别的语音信号后,将未定义为简单词汇信号的部分定义为复杂词汇信号。
作为优选,步骤B中,使用简单词汇信号对应的特征频谱在数据库中进行比对,对每个特征频谱设置对应的一级权重值,对同一简单词汇信号内不同的特征频谱设置统一的二级权重值,在计算相似度时首先使用一级权重值对相似度进行加权计算,然后对计算结果再通过二级权重值进行二次加权计算。
作为优选,步骤C中,第二识别模块建立神经网络模型,使用在数据库中与初筛数据集关联性大于设定阈值的数据对神经网络模型进行训练,确定模型参数;将复杂词汇信号输入神经网络模型进行计算,得到预测结果集;建立每个预测结果与其时间维度上相邻数据的关联映射,对预测结果进行调整,使关联映射全部收敛,调整后的预测结果集为复杂词汇信号识别结果。
作为优选,复杂词汇信号输入神经网络模型前,提取复杂词汇信号的非线性特征和线性特征,使用线性特征的组合代替非线性特征。
作为优选,在非线性特征两端设置接口部,接口部具有非线性特征的特征点集合。
采用上述技术方案所带来的有益效果在于:本发明利用特征频谱对语音信号进行快速分类,实现对于简单词汇信号的快速比对识别,然后,开创性的对特征频谱赋予两级权重,实现对相似度计算时的多维度加权。对于复杂词汇信号,采用神经网络模型对其进行预测。为了提高预测准确度,本发明专门使用数据库中于与初筛数据集具有高关联性的数据对神经网络进行训练。对于预测结果建立其收敛的关联映射,利用预测结果之间语义之间的内在关联对预测结果进行修正,从而进一步提高预测结果的准确性。此外,为了简化神经网络的运算量,在对复杂词汇信号进行计算前,通过对其进行非线性特征进行替代,以减少非线性特征对于神经网络运算过程带来的额外的训练量。
附图说明
图1是本发明一个具体实施方式的结构图。
图中:1、分类模块;2、第一识别模块;3、第二识别模块。
具体实施方式
参照图1,本发明一个具体实施方式包括以下步骤:
A、采集待识别的语音信号后,将待识别的语音信号发送至分类模块1,分类模块1将待识别的语音信号分为简单词汇信号和复杂词汇信号,简单词汇信号发送至第一识别模块2,复杂词汇信号发送至第二识别模块3;
B、第一识别模块2将简单词汇信号与数据库中的数据进行对比,得到与简单词汇信号相似度高于设定阈值的初筛数据集,将初筛数据集发送至第二识别模块3;
C、第二识别模块3根据初筛数据集确定识别参数,第二识别模块3对复杂词汇信号进行识别后,在初筛数据集中选择与复杂词汇信号识别结果相关性最大的数据,与复杂词汇信号识别结果组成最终的识别结果。
步骤A中,分类模块1对待识别的语音信号进行傅里叶变换,在变换得到的信号频谱中检索特征频谱段,若同一时间段内存在至少两个特征频谱,则将这一时间段的语音信号定义为简单词汇信号,遍历整个待识别的语音信号后,将未定义为简单词汇信号的部分定义为复杂词汇信号。
步骤B中,使用简单词汇信号对应的特征频谱在数据库中进行比对,对每个特征频谱设置对应的一级权重值,对同一简单词汇信号内不同的特征频谱设置统一的二级权重值,在计算相似度时首先使用一级权重值对相似度进行加权计算,然后对计算结果再通过二级权重值进行二次加权计算。
步骤C中,第二识别模块3建立神经网络模型,使用在数据库中与初筛数据集关联性大于设定阈值的数据对神经网络模型进行训练,确定模型参数;将复杂词汇信号输入神经网络模型进行计算,得到预测结果集;建立每个预测结果与其时间维度上相邻数据的关联映射,对预测结果进行调整,使关联映射全部收敛,调整后的预测结果集为复杂词汇信号识别结果。
复杂词汇信号输入神经网络模型前,提取复杂词汇信号的非线性特征和线性特征,使用线性特征的组合代替非线性特征。在非线性特征两端设置接口部,接口部具有非线性特征的特征点集合。在对非线性特征进行代替时,首先将非线性特征分段,针对每段非线性特征设计与其对应的线性特征组合,且相邻的线性特征组合之间具有部分重复部分。这中代替过程可以提高代替前后的信号一致性,且可以有效减少代替后出现新的非线性特征的几率。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.一种大数据分析语音识别方法,其特征在于包括以下步骤:
A、采集待识别的语音信号后,将待识别的语音信号发送至分类模块(1),分类模块(1)将待识别的语音信号分为简单词汇信号和复杂词汇信号,简单词汇信号发送至第一识别模块(2),复杂词汇信号发送至第二识别模块(3);
B、第一识别模块(2)将简单词汇信号与数据库中的数据进行对比,得到与简单词汇信号相似度高于设定阈值的初筛数据集,将初筛数据集发送至第二识别模块(3);
C、第二识别模块(3)根据初筛数据集确定识别参数,第二识别模块(3)对复杂词汇信号进行识别后,在初筛数据集中选择与复杂词汇信号识别结果相关性最大的数据,与复杂词汇信号识别结果组成最终的识别结果。
2.根据权利要求1所述的大数据分析语音识别方法,其特征在于:步骤A中,分类模块(1)对待识别的语音信号进行傅里叶变换,在变换得到的信号频谱中检索特征频谱段,若同一时间段内存在至少两个特征频谱,则将这一时间段的语音信号定义为简单词汇信号,遍历整个待识别的语音信号后,将未定义为简单词汇信号的部分定义为复杂词汇信号。
3.根据权利要求2所述的大数据分析语音识别方法,其特征在于:步骤B中,使用简单词汇信号对应的特征频谱在数据库中进行比对,对每个特征频谱设置对应的一级权重值,对同一简单词汇信号内不同的特征频谱设置统一的二级权重值,在计算相似度时首先使用一级权重值对相似度进行加权计算,然后对计算结果再通过二级权重值进行二次加权计算。
4.根据权利要求3所述的大数据分析语音识别方法,其特征在于:步骤C中,第二识别模块(3)建立神经网络模型,使用在数据库中与初筛数据集关联性大于设定阈值的数据对神经网络模型进行训练,确定模型参数;将复杂词汇信号输入神经网络模型进行计算,得到预测结果集;建立每个预测结果与其时间维度上相邻数据的关联映射,对预测结果进行调整,使关联映射全部收敛,调整后的预测结果集为复杂词汇信号识别结果。
5.根据权利要求4所述的大数据分析语音识别方法,其特征在于:复杂词汇信号输入神经网络模型前,提取复杂词汇信号的非线性特征和线性特征,使用线性特征的组合代替非线性特征。
6.根据权利要求5所述的大数据分析语音识别方法,其特征在于:在非线性特征两端设置接口部,接口部具有非线性特征的特征点集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010579264.2A CN111754987A (zh) | 2020-06-23 | 2020-06-23 | 一种大数据分析语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010579264.2A CN111754987A (zh) | 2020-06-23 | 2020-06-23 | 一种大数据分析语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111754987A true CN111754987A (zh) | 2020-10-09 |
Family
ID=72676551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010579264.2A Pending CN111754987A (zh) | 2020-06-23 | 2020-06-23 | 一种大数据分析语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111754987A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2163017C (en) * | 1993-06-24 | 2000-01-25 | Vishwa Nath Gupta | Speech recognition method using a two-pass search |
US20070156403A1 (en) * | 2003-03-01 | 2007-07-05 | Coifman Robert E | Method and apparatus for improving the transcription accuracy of speech recognition software |
US20150058018A1 (en) * | 2013-08-23 | 2015-02-26 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
CN106297800A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学院计算技术研究所 | 一种自适应的语音识别的方法和设备 |
US20170256262A1 (en) * | 2016-03-02 | 2017-09-07 | Wipro Limited | System and Method for Speech-to-Text Conversion |
CN109783637A (zh) * | 2018-12-12 | 2019-05-21 | 国网浙江省电力有限公司杭州供电公司 | 基于深度神经网络的电力检修文本挖掘方法 |
CN110956959A (zh) * | 2019-11-25 | 2020-04-03 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
-
2020
- 2020-06-23 CN CN202010579264.2A patent/CN111754987A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2163017C (en) * | 1993-06-24 | 2000-01-25 | Vishwa Nath Gupta | Speech recognition method using a two-pass search |
US20070156403A1 (en) * | 2003-03-01 | 2007-07-05 | Coifman Robert E | Method and apparatus for improving the transcription accuracy of speech recognition software |
US20150058018A1 (en) * | 2013-08-23 | 2015-02-26 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
US20170256262A1 (en) * | 2016-03-02 | 2017-09-07 | Wipro Limited | System and Method for Speech-to-Text Conversion |
CN106297800A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学院计算技术研究所 | 一种自适应的语音识别的方法和设备 |
CN109783637A (zh) * | 2018-12-12 | 2019-05-21 | 国网浙江省电力有限公司杭州供电公司 | 基于深度神经网络的电力检修文本挖掘方法 |
CN110956959A (zh) * | 2019-11-25 | 2020-04-03 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
田雪等: "一种混合的汉语简单名词短语识别方法", 《小型微型计算机系统》 * |
高敏行等: "基于语义记忆策略的言语治疗模式", 《中国康复医学杂志》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144496B (zh) | 一种基于混合卷积神经网络的垃圾分类方法 | |
CN102799899B (zh) | 基于svm和gmm的特定音频事件分层泛化识别方法 | |
CN105469784B (zh) | 一种基于概率线性鉴别分析模型的说话人聚类方法及系统 | |
CN110717147A (zh) | 一种构建汽车行驶工况的方法 | |
CN1975856A (zh) | 一种基于支持向量机的语音情感识别方法 | |
CN111461025B (zh) | 一种自主进化的零样本学习的信号识别方法 | |
JP2021082269A (ja) | 分類モデルを訓練する方法及び装置並びに分類方法 | |
CN111751714A (zh) | 一种基于svm和hmm的射频模拟电路故障诊断方法 | |
CN101964063A (zh) | 一种改进的AdaBoost分类器构造方法 | |
CN111126819A (zh) | 一种城市行驶工况智能分析方法 | |
CN108919067A (zh) | 一种用于gis局部放电模式的识别方法 | |
CN114626435B (zh) | 一种高准确率的滚动轴承智能故障特征选择方法 | |
CN110751101A (zh) | 基于无监督极限学习机多重聚类算法的疲劳驾驶判断方法 | |
CN116861303A (zh) | 一种变电站数字孪生多源信息融合诊断方法 | |
CN115034206B (zh) | 一种客服热点事件发现方法及系统 | |
CN110910902B (zh) | 一种基于集成学习的混合模型语音情感识别方法及系统 | |
CN112528774A (zh) | 一种复杂电磁环境下未知雷达信号智能分选系统及方法 | |
CN116340746A (zh) | 一种基于随机森林改进的特征选择方法 | |
CN112200000A (zh) | 一种焊接稳定性识别模型训练方法、焊接稳定性识别方法 | |
CN116524960A (zh) | 一种基于混合熵下采样和集成分类器的语音情感识别系统 | |
CN110598747A (zh) | 基于自适应k均值聚类算法的道路分类方法 | |
CN111754987A (zh) | 一种大数据分析语音识别方法 | |
CN111428224B (zh) | 基于人脸识别的电脑账户登录的方法 | |
CN113523904A (zh) | 一种刀具磨损检测方法 | |
CN116861985A (zh) | 一种基于卷积层相对信息熵的神经网络剪枝子网搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20230929 |
|
AD01 | Patent right deemed abandoned |