CN114550741A - 一种语义识别的方法和系统 - Google Patents
一种语义识别的方法和系统 Download PDFInfo
- Publication number
- CN114550741A CN114550741A CN202011338810.XA CN202011338810A CN114550741A CN 114550741 A CN114550741 A CN 114550741A CN 202011338810 A CN202011338810 A CN 202011338810A CN 114550741 A CN114550741 A CN 114550741A
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- voice signal
- speech
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000005070 sampling Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000013507 mapping Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 17
- 241000252794 Sphinx Species 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 2
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及计算机技术领域,尤其为一种语义识别的方法和系统,包括以下步骤:S1,语音信号的采样和量化;S2,通过预处理模块对输入的原始语音信号进行处理;S3,特征提取;S4,语音解码和搜索算法;S5,文本输出,通过特征提取从语音信号中提取出语音的特征序列,提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量;声学模型训练用lstm+ctc训练,得到语音特征到音素的映射;语言模型训练用SRILM工具做LM的训练得到3‑gram and 4‑gram,是词与词、词与句子的映射;字典是字词对应的音素index集合,是字词和音素之间的映射,能够有效的提高语义分析的准确度。
Description
技术领域
本发明涉及计算机技术领域,具体为一种语义识别的方法和系统。
背景技术
随着人工智能技术的发展,对句子的语义识别逐渐发展起来,对句子的语义识别可以应用到各种场景中,其中,运用最广泛的就是电子商务中处理投诉信息且确定对应的定责信息,以下以电子商务中处理投诉信息且确定对应的定责信息,对如何具体进行句子的语义识别进行说明。
随着计算机及互联网技术的发展,电子商务逐渐发展起来。电子商务(ElectronicCommerce)是以信息网络技术为手段,以商品交换为中心的商务活动。随着电子商务的发展,由电子商务服务商基于互联网提供售卖商品的服务,使得人们可以在家直接方便地进行网上购物。在电子商务提供各种服务时,常常通过互联网在电子商务服务商与客户之间进行通信,以沟通各种服务相关事宜。其中,客户在进行电子商务过程中,常常会对电子商务的各个环节作出评价,在此过程中,也可能产生投诉信息,且将投诉发送给电子商务服务商,电子商务服务商在接收到后,对投诉信息进行分析,确定对应的确定定责信息,从而完成整个电子商务过程。
现有的电子商务服务商在处理投诉信息且确定对应的定责信息时,主要采用人工与机器学习算法的结合方式来完成。具体地说,将接收到的投诉信息拼接在一起,构成长文本,再基于所构成的长文本采用设置的机器学习算法,对长文本进行文本分类,得到对应的定责信息,从而实现定责问题。
为了能够更好的分析和实现计算机客服的对话交流,实现准确的识别语义信息,因此需要一种语义识别的方法和系统对上述问题做出改善。
发明内容
本发明的目的在于提供一种语义识别的方法和系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种语义识别的方法和系统,包括以下步骤:
S1,语音信号的采样和量化;
S2,通过预处理模块对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)、语音信号的加窗处理;
S3,特征提取:去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来,也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理;
S4,语音解码和搜索算法;
S5,文本输出。
优选的,所述S1语音信号的采样和量化,语音信号是一个时间和幅度都连续变化的一维模拟信号,而语音识别的过程是一个对语音信号进行数字处理的过程,在对语音信号处理之前,必须要对其进行数字化,这个过程就是模/数(A/D)转化、模/数转化过程要经过采样和量化两个过程,从而得到时间和幅度上的离散数字信号,根据奈奎斯特采样定律,采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息,而且能从采样信号中准确的重构原始信号的波形,正常人的发音范围是从40Hz到340OHz左右。
优选的,所述S2语音信号的预加重语音信号从嘴唇辐射后,高频端大约在800Hz以上有6dB/倍频的衰减,因此,在对语音信号进行分析之前,一般要对语音信号加以提升(预加重)。
优选的,所述S2语音信号的加窗处理为了能对语音信号进行处理,语音频谱特性和语音特征参数恒定,因此需将语音信号划分为一个一个的短时段,每一个短时段称为一帧,为了从语音信号中切去出样本信号,就要用时间窗函数乘以原始语音信号,这种操作就称为加窗。
优选的,所述S2语音信号的端点检测其目的是从语音信号中检测出语音信号段和噪音段,准确的端点检测不仅可以减少计算量,而且可以提高系统的识别率,常用的端点检测是基于双门限比较法的端点检测,就是根据语音信号的特征参数(能量和过零率)进行清音,噪音判别,从而完成端点检测的,经过对语音信号的预处理之后就要进行特征参数的提取。
优选的,所述S3特征提取采用Sphinx,在sphinx中也是用MFCC特征的,MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数,在sphinx中,用帧frames去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示。
优选的,所述S4语音解码和搜索算法包括语音数据库、特征提取、声学模型训练、声学模型、字典、语音模型、语音模型训练、文本数据库,所述算法选用主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法中的一种。
优选的,包括特征提取、声学模型、语音模型和字典,所述特征提取从语音信号中提取出语音的特征序列,提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量;
所述声学模型训练用lstm+ctc训练,得到语音特征到音素的映射;
所述语言模型训练用SRILM工具做LM的训练得到3-gram and 4-gram,是词与词、词与句子的映射;
所述字典是字词对应的音素index集合,是字词和音素之间的映射。
与现有技术相比,本发明的有益效果是:
本发明中,通过特征提取从语音信号中提取出语音的特征序列,提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量;声学模型训练用lstm+ctc训练,得到语音特征到音素的映射;语言模型训练用SRILM工具做LM的训练得到3-gram and 4-gram,是词与词、词与句子的映射;字典是字词对应的音素index集合,是字词和音素之间的映射,对语言文本进行语义分析映射,能够有效的提高语义分析的准确度。
附图说明
图1为本发明整体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:
一种语义识别的方法和系统,包括以下步骤:
S1,语音信号的采样和量化;
S2,通过预处理模块对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)、语音信号的加窗处理;
S3,特征提取:去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来,也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理;
S4,语音解码和搜索算法;
S5,文本输出。
所述S1语音信号的采样和量化,语音信号是一个时间和幅度都连续变化的一维模拟信号,而语音识别的过程是一个对语音信号进行数字处理的过程,在对语音信号处理之前,必须要对其进行数字化,这个过程就是模/数(A/D)转化、模/数转化过程要经过采样和量化两个过程,从而得到时间和幅度上的离散数字信号,根据奈奎斯特采样定律,采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息,而且能从采样信号中准确的重构原始信号的波形,正常人的发音范围是从40Hz到340OHz左右。
所述S2语音信号的预加重语音信号从嘴唇辐射后,高频端大约在800Hz以上有6dB/倍频的衰减,因此,在对语音信号进行分析之前,一般要对语音信号加以提升(预加重),“预加重的目的是滤除低频干扰,尤其是50Hz或者60Hz的工频干扰,提升对语音识别有用的高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析”。
所述S2语音信号的加窗处理为了能对语音信号进行处理,我们可以假定在1Oms~30ms之间语音信号是平稳的,语音频谱特性和语音特征参数恒定,因此需将语音信号划分为一个一个的短时段,每一个短时段称为一帧,为了从语音信号中切去出样本信号,就要用时间窗函数乘以原始语音信号,这种操作就称为加窗。
所述S2语音信号的端点检测其目的是从语音信号中检测出语音信号段和噪音段,准确的端点检测不仅可以减少计算量,而且可以提高系统的识别率,常用的端点检测是基于双门限比较法的端点检测,就是根据语音信号的特征参数(能量和过零率)进行清音,噪音判别,从而完成端点检测的,经过对语音信号的预处理之后就要进行特征参数的提取。
所述S3特征提取采用Sphinx,在sphinx中也是用MFCC特征的,MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数,在sphinx中,用帧frames去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示。
所述S4语音解码和搜索算法包括语音数据库、特征提取、声学模型训练、声学模型、字典、语音模型、语音模型训练、文本数据库,所述算法选用主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法中的一种。
一种语义识别系统,包括特征提取、声学模型、语音模型和字典,所述特征提取从语音信号中提取出语音的特征序列,提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量;
所述声学模型训练用lstm+ctc训练,得到语音特征到音素的映射;
所述语言模型训练用SRILM工具做LM的训练得到3-gram and 4-gram,是词与词、词与句子的映射;
所述字典是字词对应的音素index集合,是字词和音素之间的映射。
实施例:语音信号的采样和量化,语音信号是一个时间和幅度都连续变化的一维模拟信号,而语音识别的过程是一个对语音信号进行数字处理的过程,在对语音信号处理之前,必须要对其进行数字化,这个过程就是模/数(A/D)转化、模/数转化过程要经过采样和量化两个过程,从而得到时间和幅度上的离散数字信号,根据奈奎斯特采样定律,采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息,而且能从采样信号中准确的重构原始信号的波形,正常人的发音范围是从40Hz到340OHz左右;具体来说就是输入一段语音信号,要找到一个文字序列(由字或者词组成),使得它与语音信号的匹配程度最高,这个匹配程度,一般都是用概率来表示的,用X表示语音信号,用W表示文字序列,则要解的是下面这个问题:W*=argmaxP(W|X)但是一般语音是由文字产生的,已知文字才能发出语音,所以对于上面的条件概率公式我们想要已知结果求该条件下发生概率,这时候自然而然就想到贝叶斯公式:
由于我们要优化W,P(X)可以看作常数,可以省略分母。由上边的步骤来看,求文字串、计算语言模型概率、求音素串、求音素分界点、计算声学模型概率几个步骤似乎是依次进行的。其实不然,在实际编码过程中,因为文字串、音素分界点都有非常多种可能,枚举是不现实的。实际中,这几个步骤同时进行并互相制约,随时砍掉不够优的可能,最终在可接受的时间内求出最优解:W*=argmaxP(W|X),通过预处理模块对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)、语音信号的加窗处理;语音信号的预加重语音信号从嘴唇辐射后,高频端大约在800Hz以上有6dB/倍频的衰减,因此,在对语音信号进行分析之前,一般要对语音信号加以提升(预加重),“预加重的目的是滤除低频干扰,尤其是50Hz或者60Hz的工频干扰,提升对语音识别有用的高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析”;语音信号的加窗处理为了能对语音信号进行处理,我们可以假定在1Oms~30ms之间语音信号是平稳的,语音频谱特性和语音特征参数恒定,因此需将语音信号划分为一个一个的短时段,每一个短时段称为一帧,为了从语音信号中切去出样本信号,就要用时间窗函数乘以原始语音信号,这种操作就称为加窗;语音信号的端点检测其目的是从语音信号中检测出语音信号段和噪音段,准确的端点检测不仅可以减少计算量,而且可以提高系统的识别率,常用的端点检测是基于双门限比较法的端点检测,就是根据语音信号的特征参数(能量和过零率)进行清音,噪音判别,从而完成端点检测的,经过对语音信号的预处理之后就要进行特征参数的提取;特征提取:特征提取采用Sphinx,在sphinx中也是用MFCC特征的,MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数,在sphinx中,用帧frames去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示,也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理;语音解码和搜索算,语音解码和搜索算法通过语音数据库、特征提取、声学模型训练、声学模型、字典、语音模型、语音模型训练、文本数据库,算法选用主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法中的一种对语言语义进行解码分析,通过特征提取从语音信号中提取出语音的特征序列,提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量;通过声学模型训练用lstm+ctc训练,得到语音特征到音素的映射;通过语言模型训练用SRILM工具做LM的训练得到3-gramand 4-gram,是词与词、词与句子的映射;通过字典是字词对应的音素index集合,是字词和音素之间的映射,对文本语义分析输出。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种语义识别的方法,其特征在于:包括以下步骤:
S1,语音信号的采样和量化;
S2,通过预处理模块对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)、语音信号的加窗处理;
S3,特征提取:去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来,也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理;
S4,语音解码和搜索算法;
S5,文本输出。
2.根据权利要求1所述的一种语义识别的方法,其特征在于:所述S1语音信号的采样和量化,语音信号是一个时间和幅度都连续变化的一维模拟信号,而语音识别的过程是一个对语音信号进行数字处理的过程,在对语音信号处理之前,必须要对其进行数字化,这个过程就是模/数(A/D)转化、模/数转化过程要经过采样和量化两个过程,从而得到时间和幅度上的离散数字信号,根据奈奎斯特采样定律,采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息,而且能从采样信号中准确的重构原始信号的波形,正常人的发音范围是从40Hz到340OHz左右。
3.根据权利要求1所述的一种语义识别的方法,其特征在于:所述S2语音信号的预加重语音信号从嘴唇辐射后,高频端大约在800Hz以上有6dB/倍频的衰减,因此,在对语音信号进行分析之前,一般要对语音信号加以提升(预加重)。
4.根据权利要求1所述的一种语义识别的方法,其特征在于:所述S2语音信号的加窗处理为了能对语音信号进行处理,语音频谱特性和语音特征参数恒定,因此需将语音信号划分为一个一个的短时段,每一个短时段称为一帧,为了从语音信号中切去出样本信号,就要用时间窗函数乘以原始语音信号,这种操作就称为加窗。
5.根据权利要求1所述的一种语义识别的方法,其特征在于:所述S2语音信号的端点检测其目的是从语音信号中检测出语音信号段和噪音段,准确的端点检测不仅可以减少计算量,而且可以提高系统的识别率,常用的端点检测是基于双门限比较法的端点检测,就是根据语音信号的特征参数(能量和过零率)进行清音,噪音判别,从而完成端点检测的,经过对语音信号的预处理之后就要进行特征参数的提取。
6.根据权利要求1所述的一种语义识别的方法,其特征在于:所述S3特征提取采用Sphinx,在sphinx中也是用MFCC特征的,MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数,在sphinx中,用帧frames去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示。
7.根据权利要求1所述的一种语义识别的方法,其特征在于:所述S4语音解码和搜索算法包括语音数据库、特征提取、声学模型训练、声学模型、字典、语音模型、语音模型训练、文本数据库,所述算法选用主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法中的一种。
8.一种语义识别系统,包括特征提取、声学模型、语音模型和字典,其特征在于:
所述特征提取从语音信号中提取出语音的特征序列,提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量;
所述声学模型训练用lstm+ctc训练,得到语音特征到音素的映射;
所述语言模型训练用SRILM工具做LM的训练得到3-gram and 4-gram,是词与词、词与句子的映射;
所述字典是字词对应的音素index集合,是字词和音素之间的映射。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011338810.XA CN114550741A (zh) | 2020-11-25 | 2020-11-25 | 一种语义识别的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011338810.XA CN114550741A (zh) | 2020-11-25 | 2020-11-25 | 一种语义识别的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114550741A true CN114550741A (zh) | 2022-05-27 |
Family
ID=81660065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011338810.XA Pending CN114550741A (zh) | 2020-11-25 | 2020-11-25 | 一种语义识别的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114550741A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863914A (zh) * | 2022-06-29 | 2022-08-05 | 慧言科技(天津)有限公司 | 构建端到端语音评测模型的深度学习方法 |
-
2020
- 2020-11-25 CN CN202011338810.XA patent/CN114550741A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863914A (zh) * | 2022-06-29 | 2022-08-05 | 慧言科技(天津)有限公司 | 构建端到端语音评测模型的深度学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hu et al. | Pitch‐based gender identification with two‐stage classification | |
US5596680A (en) | Method and apparatus for detecting speech activity using cepstrum vectors | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
US20080059156A1 (en) | Method and apparatus for processing speech data | |
CN108108357B (zh) | 口音转换方法及装置、电子设备 | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN111508498A (zh) | 对话式语音识别方法、系统、电子设备和存储介质 | |
CN108682432B (zh) | 语音情感识别装置 | |
Milner et al. | Clean speech reconstruction from MFCC vectors and fundamental frequency using an integrated front-end | |
Shahnawazuddin et al. | Pitch-normalized acoustic features for robust children's speech recognition | |
CN111968622A (zh) | 一种基于注意力机制的语音识别方法、系统及装置 | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
US6470311B1 (en) | Method and apparatus for determining pitch synchronous frames | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN114550741A (zh) | 一种语义识别的方法和系统 | |
CN108597497B (zh) | 一种字幕语音精准同步系统及方法、信息数据处理终端 | |
CN113782005B (zh) | 语音识别方法及装置、存储介质及电子设备 | |
CN114913844A (zh) | 一种基音归一化重构的广播语种识别方法 | |
Kotnik et al. | Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems | |
Prakash et al. | Fourier-Bessel based Cepstral Coefficient Features for Text-Independent Speaker Identification. | |
Malewadi et al. | Development of Speech recognition technique for Marathi numerals using MFCC & LFZI algorithm | |
Islam et al. | Noise robust speaker identification using PCA based genetic algorithm | |
Sajeer et al. | Novel approach of implementing speech recognition using neural networks for information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |