CN116486786B - 一种融合方言和小语种的语音识别控制方法 - Google Patents
一种融合方言和小语种的语音识别控制方法 Download PDFInfo
- Publication number
- CN116486786B CN116486786B CN202310468020.0A CN202310468020A CN116486786B CN 116486786 B CN116486786 B CN 116486786B CN 202310468020 A CN202310468020 A CN 202310468020A CN 116486786 B CN116486786 B CN 116486786B
- Authority
- CN
- China
- Prior art keywords
- information
- voice information
- noise reduction
- noise
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000001914 filtration Methods 0.000 claims abstract description 52
- 238000004364 calculation method Methods 0.000 claims abstract description 45
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 230000009467 reduction Effects 0.000 claims description 205
- 238000013528 artificial neural network Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 23
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 claims description 4
- 230000004069 differentiation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 230000035945 sensitivity Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 12
- 230000010354 integration Effects 0.000 description 8
- 238000011176 pooling Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000007787 long-term memory Effects 0.000 description 5
- 230000006403 short-term memory Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000003313 weakening effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本发明涉及人工智能技术领域,尤其涉及一种语音识别控制方法。该方法包括以下步骤:获取用户输入语音信息,通过对用户语音信息预处理,分为三种不同的用户输入信息,通过噪声合并公式得到预处理语音信息;对预处理语音信息进行过滤特征计算,从而获得音频频域信息;利用与构建改进型语音拟合模型对音频频域信息进行拟合处理,从而获得拟合音频识别信息;对拟合音频识别信息进行方言和小语种特定匹配语义转化,从而获得方言和小语种文本信息。本发明可以提高语音在噪声环境中识别的灵敏度,拥有较高的可扩展性和灵活性,大大提高方言和小语种在语音识别的准确度。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音识别控制方法。
背景技术
目前,随着社会科技的不断发展,人工智能技术也在迅速进步。其中,语音识别领域的研究和应用领域也越来越深入和广泛。语音识别技术是通过一种计算机设备将人类所说的语言转化为二进制编码继而被机器所理解。目前市面上对使用率比较高的标准语言语音识别功能适配比较完善,但是对于特定的方言和小语种语言等还存在一定的局限性。对于说标准语种但带有强烈方言色彩和说小语种语言的人群来说,语音识别就难以正常工作。市面上的带语音识别控制的产品就会受到极大的限制。如何通过语音识别技术提供有效的方言和小语种识别的文本便成为了一个问题。
发明内容
本发明提供一种融合了方言和小语种的语音识别控制方法,以解决上述问题。
为实现上述目的,本发明提供一种解决方言和小语种的语音识别控制方法,包括:
步骤S1:获取用户输入语音信息,并根据用户输入语音信息进行预处理,从而获取预处理语音信息;
步骤S2:对处理语音信息进行过滤特征计算,从而获得音频频域信息;
步骤S3:利用预构建改进型语音拟合模型对音频频域信息进行拟合处理,从而获得拟合音频识别信息;
步骤S4:对拟合音频识别信息进行方言和小语种特定匹配语义转化,从而获得方言/小语种文本信息。
本发明通过采集用户输入的语音信息,根据用户语音信息对信息进行预处理,对直接采集的语音信号进行语音文件到语音信号之间的转化并去除在环境中的非有效信息类的声音信号进行弱化,提升语音识别系统的准确性和鲁棒性;对预处理后的语音信息进行过滤特征计算,有效提高模型的效率,减少了特征选择的成本,降低了过拟合的风险;利用预构建的改进型端到端语音拟合模型对音频频域信息进行拟合处理获得拟合音频识别信息,使得语音识别系统能够自适应不同的说话人、说话环境和语言习惯等,从而解决了方言和小语种难以识别的问题;对拟合音频识别信息进行方言和小语种特定匹配语义转化,能将训练好的结果更好的匹配上准确意思,能够让模型可以更好的拟合正确的含义。
可选地,获取用户输入语音信息并根据用户输入语音信息进行预处理,包括:
步骤S11:获取用户输入语音信息;
步骤S12:对用户输入语音信息进行降噪处理,从而获得降噪语音信息;
步骤S13:对降噪语音进行分帧处理,生成分帧语音信息;
步骤S14:根据分帧语音信息进行归一化处理,从而获得预处理语音信息。
本发明在获取用户输入语音信息并根据用户输入语音信息进行预处理时,对用户输入语音信息进行了降噪处理,削弱了语音信号中无效信息的干扰,并对降噪语音信息进行分帧处理,分成了若干个数据帧进行传输,减少了传输过程中的等待时间,提高了数据传输的速率和效率;对分帧语音信息进行归一化处理,提高了模型的准确性,加速了模型的收敛速度。
可选地,基于噪声种类不同的用户语音信息,用户输入语音信息包括第一用户语音信息、第二用户语音信息以及第三用户语音信息,其中第一用户语音信息、第二用户语音信息以及第三用户语音信息为噪声不同的语音信息,降噪语音信息包括第一降噪语音信息、第二降噪语音信息以及第三降噪语音信息,步骤S12具体为:
对第一用户语音信息进行第一降噪作业,从而获得第一降噪语音信息;
对第二用户语音信息进行第二降噪作业,从而获得第二降噪语音信息;
对第三用户语音信息进行第三降噪作业,从而获得第三降噪语音信息。
其中第一降噪语音信息为使用时域滤波降噪生成,第二降噪语音信息为使用频率域滤波降噪生成,第三降噪语音信息为使用子代降噪生成。
本发明对用户输入的语音信息分成了三个不同状态的用户的语音信息,对第一用户语音信息进行第一降噪作业,得到第一降噪语音信息;对第二用户语音信息进行第二降噪作业,从而获得第二降噪语音信息;对第三用户语音信息进行第三降噪作业,从而获得第三降噪语音信息,并且其中第一降噪语音信息为使用时域滤波降噪生成,第二降噪语音信息为使用频率域滤波降噪生成,第三降噪语音信息为使用子代降噪生成。不同降噪方式分别在用户输入语音信息在不同频域对噪声进行降噪作业,有效的防止了现实环境对用户输入语音信息的污染,减少了误判率,降低了信号传输的成本。
可选地,根据获取到的第一降噪语音信息、第二降噪语音信息以及第三降噪语音信息利用如下噪声合并计算公式进行计算降噪语音信息,其中噪声合并计算公式具体为:
W为降噪语音信息,e为自然对数,σ为第一降噪信息的归一调整项,w1为第一降噪语音信息的修正信息,S1为第一降噪语音信息的权重,θ为第二降噪信息的降维系数,w2为第二降噪语音信息的修正信息,S2为第二降噪语音信息的权重,w3为第三降噪语音信息的修正信息,S3为第三降噪语音信息的权重,δ为历史误差调整项,m为误差系数,μ为归一降噪语音信息的修正项。
进一步地,利用噪声合并计算公式计算的降噪语音信息是使用改进型的加权平均计算得来,第一降噪作业使用时域滤波降噪消除高频噪声,采样其中一段窗口来分析第一用户语音信息的局部,用一个滤波器削弱窗口内的噪声,同时保留了第一用户语音信息中信号的有效部分,在加权平均计算过程需要对其进行归一调整,在第一降噪语音信息中,用自然对数的w1次方取其的σ归一调整后乘第一降噪语音信息的权值S1,得到第一降噪语音信息在噪声合并计算公式中的加权项;第二降噪作业使用频率域滤波降噪消除高频噪声,把第二用户语音信息的语音信号转换为图像信号,基于图像信号的频率特性除去信号中的高频率部分,在加权平均计算过程中对其的图像信号进行降维调整,用自然对数的w2次方/>取其的θ降维后乘第二降噪语音信息的权值S2,得到第二降噪语音信息在噪声合并计算公式中的加权项;第三降噪作业使用子代降噪消除语音信号背景噪声,对语音信号使用快速傅里叶变换之后使用时域降噪,用自然对数的w3次方/>乘上权值S3。
可选地,基于噪声合并计算公式,其中的第一降噪语音信息的权重、第二降噪语音信息的权重以及第三降噪语音信息的权重是根据语音信息的信噪比计算设置。
可以利用如下公式来计算出第一降噪语音信息的信噪比、第二降噪语音信息的信噪比以及第三降噪语音信息的信噪比;
其中,Sα是目标所述信噪比,α为1、2、3,abs()表示绝对值,T表示降噪语音信号的周期,f(tp)表示有效信号的电压信号,f(tn)表示噪音的电压信号;dt表示对时间t的微分。详细地,所述公式中f(tp)和f(tn)平方可以得出有效信号和噪音信号的电压因数,对所述周期T内对|f(tp)|2进行积分可以得出有效信号和噪音信号的积分,再对积分公式的1/2T时间段取极限,时间T趋近于无穷,得出有效信号和噪声信号的值,再对和/>取绝对值的比后取对数的二十倍,得出第一降噪语音信息的信噪比、第二降噪语音信息的信噪比以及第三降噪语音信息的信噪比。
本发明使用计算信噪比的方式作为上述噪声合并公式中的权重部分对比了第一降噪语音信息、第二降噪语音信息和第三降噪语音信息之间的占比程度,信噪比越高,说明在第一降噪作业、第二降噪作业和第三降噪作业中的效果越好,提高了降噪语音信息的信号质量,节省了后续传输和拟合过程的成本,让后续计算可以更快的拟合出所需的拟合音频识别信息。
可选地,其中过滤特征计算方法包括滤波、压缩、分域计算、加窗处理以及傅里叶变换,具体为:
步骤S21:利用一阶高通滤波器对预处理信息进行滤波处理,生成预处理滤波语音信息,对预处理滤波信息进行压缩得到滤波压缩信息;
步骤S22:通过预设的分域长度对滤波压缩信息进行分域计算,从而获得分域信息;
步骤S23:对分域信息进行汉宁窗加窗处理,从而获得汉宁窗语音帧;
步骤S24:将汉宁窗语音帧进行傅里叶变换,得到音频频域信息。
本发明通过使用过滤特征计算,减少了数据集中的噪声,有效地提高了后续拟合过程中的模型效率,减少了过多特征使模型计算量增加的影响,从而更好地保证了模型的可靠性和准确性。本发明还对预处理滤波信息进行了压缩,从而有效地降低了数据传输过程中的特征选择成本,减弱了因为大量特征数据中导致数据传输成本过高的风险,提高了模型的效率和可靠性。本发明还通过过滤掉无关、冗余的噪声特征,提高了精度模型的性能。这种方法可以防止无效特征对模型的影响,从而更好地提高了模型的可靠性和准确性。同时,本发明还使用汉宁窗加窗傅里叶变换降低了传统的单一傅里叶变换中因为极端变量导致数据过拟合的风险,从而更好地提高了模型的鲁棒性和性能。
可选地,所述改进型语音拟合模型包括卷积神经网络、长短期记忆记忆递归神经网络、多层感知器以及深度神经网络,具体为:
步骤S31:利用卷积神经网络对音频频域信息进行特征提取,生成一阶音帧特征信息;
步骤S32:将一阶音帧特征信息输入到长短期记忆记忆递归神经网络中进行降维处理,生成二阶音帧特征信息;
步骤S33:将二阶音帧特征信息输入到多层感知器中,进行拟合预处理,生成语音频特征信息;
步骤S34:将语音频特征信息全连接到深度神经网络中,生成拟合音频识别信息。
本发明使用了一种改进型语音拟合模型,其特征在于结合了四种神经网络模型,从而提高了模型的准确率和鲁棒性。本发明通过利用各个神经网络的不同特点和能力,实现了神经网络之间的互相补充,从而提高了整体的准确率。此外,本发明还通过多个神经网络的结合,提高了整体的鲁棒性,其中一个神经网络难以处理的数据可以在另一个神经网络轻松处理。通过使用不同的神经网络结构和训练技巧,本发明进一步减少了过拟合的风险,提高了模型的泛化能力。本发明还采用了一种分步式计算的方法,即多个神经网络结合进行分步式计算,从而大大缩短了训练时间,提高了效率。同时,本发明还采用了并行计算的方式,即多个神经网络结合进行并行计算,从而提高了计算速度,同时也扩展了可计算的任务规模。因此,本发明在提高了模型的准确率、鲁棒性和泛化能力的同时,还大大提高了训练和计算的效率,具有广泛的应用前景。
可选地,所述对拟合音频识别信息进行方言和小语种特定匹配语义转化获得方言/小语种信息方法,具体为:
步骤S41:采用动态规划算法中的维特比算法对拟合音频识别信息进行处理,得出候选序列集;
步骤S42:根据候选序列集进行束搜索筛选,从而获得最高概率序列;
步骤S43:通过N-gram模型对最高概率序列进行上下文信息计算,从而获得高级语音语义集,并利用预设的多个解码器对高级语音语义集进行重解码,从而获得语义关系重解码数据;
步骤S44:对语义关系重解码数据进行语义转换,从而获得方言/小语种文本信息。
可选地,所述束搜索方法具体为生成维护窗口并利用维护窗口对候选序列结果进行筛选处理,从而生成高概率子序列集;对高概率序列集进行迭代得分比较,从而获得最高概率序列。
本发明采用维比特算法对拟合音频识别信息进行动态规划处理,避免了重复计算,从而提高计算效率;使用束搜索算法处理模棱俩可的结果,并不单单考虑最好的结果,会考虑多个结果,避免陷入局部最优解,提高达到全局最优解的可能;使用N-gram概率模型来处理历史信息,并将最高概率序列中上下文的信息进行比对,做出恰当的判断,得到高级语音语义集,并利用预设的多个解码器对高级语音语义集进行重解码,对输出的结果进行多次评估,减小由于在不同语言体系中相同音节导致的不同含义,导致在拟合模型中因为语义的问题过拟合;排序选择最优结果,并基于候选式自动语法树,大幅缩短时间,增强了实时性能。
本发明的有益效果在于:1)通过用户输入语音的信息之后首先对用户输入语音信息进行预处理,从而提高语音识别的准确度以及鲁棒性;预处理阶段将用户输入的语音信息分成第一用户语音信息、第二用户语音信息和第三用户语音信息,目的是为了在后续过程中对其进行不同的降噪作业处理,然后采用改进型的加权平均的方式对降噪信息进行噪声合并计算,减少极端情况下以及部分误差的数值影响,能够更准确的反映出整体的趋势;根据预先构建的多层机器学习神经网络对带有方言和小语种的语音信息进行拟合学习处理,提高准确率和自适应性,并且还具有更高的可扩展性。
2)改进型语音拟合模型由四种主要模型组成,分别是卷积神经网络、长短期记忆记忆递归神经网络、多层感知器以及深度神经网络复合而成,不同神经网络之间的集合,使得改进型语音拟合模型具有更加强大的表示能力,以处理更加复杂的数据和任务,解决了单一模型解决一个数据集效果较好但是另外数据集效果不好的问题,结合多个神经网络的优点进行分布计算,并且还可以避免传统神经网络模型只增加层数所带来的过度拟合的问题,减少了神经元之间强耦合的依赖关系,避免了无法对模型进行扩展的问题,提高了学习速度,更容易避免随着层数增加所带来的梯度消失问题;使用束搜索对候选结果进行筛选处理,比传统广度优先和深度优先更快速,只保留优先节点数,节省内存,高扩展性。
附图说明
通过阅读参照以下附图所作的对非限制性实施所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本发明实施例提供的语音识别控制方法的步骤流程图;
图2为本发明实施例提供的预处理获取预处理语音信息的步骤流程图;
图3为本发明实施例提供的过滤特征计算的步骤流程图;
图4为本发明实施例提供的语音拟合模型对音频频域信息进行拟合处理的步骤流程图;
图5为本法明实施例提供的对方言和小语种特定匹配语义转化的步骤流程图。
本发明的实现、功能特点及优点将结合实施例,参照附图做进一步的说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种融合方言和小语种的语音识别控制方法。所述语音识别控制方法的执行主题包括但是不限于服务端、终端能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述语音识别控制方法可以由安装在终端设备或服务端设备的软件或硬件执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云储存、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供语音识别控制方法的步骤流程图,本申请提供一种融合方言和小语种的语音识别控制方法。在本实施例中,所述语音识别控制方法包括:
步骤S1:获取用户输入语音信息,并根据用户输入语音信息进行预处理,从而获取预处理语音信息;
具体为,在用户选择输入语音信息的时候,会提示输入三次语音信息,再对用户输入的语音信息进行预处理。
本发明实施例中,所述用户输入语音信息指的是用户经过前端的提醒完成自己在输入终端的三次语音信息,每录入一次语音信息就发送语音数据到服务器,服务器记录数据并做出相应的标识。
本发明实施例中,参照图2所示,所述对用户输入语音信息进行预处理得到与预处理语音信息,包括:
步骤S11:获取用户输入语音信息;
步骤S12:对用户输入语音信息进行降噪处理,从而获得降噪语音信息;
详细地,所述对用户输入语音信息进行降噪处理获得降噪语音信息,包括:
基于不同的用户语音信息,用户输入语音信息包括第一用户语音信息、第二用户语音信息以及第三用户语音信息,其中第一用户语音信息、第二用户语音信息以及第三用户语音信息为噪声不同的语音信息,降噪语音信息包括第一降噪语音信息、第二降噪语音信息以及第三降噪语音信息:
具体地,对第一用户语音信息进行第一降噪作业,从而获得第一降噪语音信息;对第二用户语音信息进行第二降噪作业,从而获得第二降噪语音信息;对第三用户语音信息进行第三降噪作业,从而获得第三降噪语音信息。
其中第一降噪语音信息为使用时域滤波降噪生成,第二降噪语音信息为使用频率域滤波降噪生成,第三降噪语音信息为使用子代降噪生成。
本发明对用户输入的语音信息分成了三个不同状态的用户的语音信息,针对单一降噪方式的局限性,本发明采用对用户输入的语音信息进行单独降噪取加权平均的方式进行合并计算,对第一用户语音信息进行第一降噪作业,得到第一降噪语音信息;对第二用户语音信息进行第二降噪作业,从而获得第二降噪语音信息;对第三用户语音信息进行第三降噪作业,从而获得第三降噪语音信息,并且其中第一降噪语音信息为使用时域滤波降噪生成,时域滤波降噪是一种在线滤波方法,可以保留信号的时间特性,不会对时间的分布造成影响;第二降噪语音信息为使用频率域滤波降噪生成,频率域滤波降噪是一种固定范围的降噪方法,使用面宽,可以进行可视化分析,在本发明中将语音信号转为图像信号进行处理,能直观的观察信号频率分布情况;第三降噪语音信息为使用子代降噪生成,子代降噪是一种基于信号分解的方法,在本发明中基于时域和频域相结合的方式进行降噪处理,可扩展性强。不同降噪方式分别在用户输入语音信息在相同频域对噪声进行降噪作业,有效的防止了多种现实环境对用户输入语音信息的污染,减少了误判率,降低了信号传输的成本。
在本发明实施例中,所述对第一用户语音信息进行第一降噪作业,从而获得第一降噪语音信息。
具体地,第一降噪作业为使用时域滤波降噪生成第一降噪语音信息,所述第一降噪作业可以使用统计滤波实现时域滤波降噪。
详细地,统计滤波可以使用中值滤波算法,把一段时间内的信号数据取中间值作为这段时间的输出值。
详细地,中值算法可以使用Python语言中median函数来实现。
对第二用户语音信息进行第二降噪作业,从而获得第二降噪语音信息;
详细地,第二降噪作业首先利用快速傅里叶变换将第二用户语音信息从时域信号转换为频域信号,得到语音信号的频谱,再对频谱进行均衡化处理,分析频谱图并确定阈值,构建一个应用滤波器,去除阈值以上的所有频率分量,将剩余产生相位变化,需要添加一个低通滤波器进一步滤波,还原信号的相位,最后输出信号,即为第二降噪语音信息。
具体地,应用滤波器的构建可以使用Python来实现。
对第三用户语音信息进行第三降噪作业,从而获得第三降噪语音信息。
具体地,第三降噪作业为使用子代降噪。
详细地,首先需要读取第三用户语音信息,具体使用Python中的wave库进行读取,将语音信号进行分带滤波处理,得到不同频段的子代信号,根据确定的降噪算法对不同频段的子代信号进行处理,再将处理后的子代信号合并再一起,得到合并的语音信号,这个语音即为第三降噪语音信号。
可选地,根据获取到的第一降噪语音信息、第二降噪语音信息以及第三降噪语音信息利用如下噪声合并计算公式进行计算降噪语音信息,其中噪声合并计算公式具体为:
W为降噪语音信息,e为自然对数,σ为第一降噪信息的归一调整项,w1为第一降噪语音信息的修正信息,S1为第一降噪语音信息的权重,θ为第二降噪信息的降维系数,w2为第二降噪语音信息的修正信息,S2为第二降噪语音信息的权重,w3为第三降噪语音信息的修正信息,S3为第三降噪语音信息的权重,δ为历史误差调整项,m为误差系数,μ为归一降噪语音信息的修正项。
进一步地,利用噪声合并计算公式计算的降噪语音信息是使用改进型的加权平均计算得来,第一降噪作业使用时域滤波降噪消除高频噪声,采样其中一段窗口来分析第一用户语音信息的局部,用一个滤波器削弱窗口内的噪声,同时保留了第一用户语音信息中信号的有效部分,在加权平均计算过程需要对其进行归一调整,在第一降噪语音信息中,用自然对数的w1次方取其的σ归一调整后乘第一降噪语音信息的权值S1,得到第一降噪语音信息在噪声合并计算公式中的加权项;第二降噪作业使用频率域滤波降噪消除高频噪声,把第二用户语音信息的语音信号转换为图像信号,基于图像信号的频率特性除去信号中的高频率部分,在加权平均计算过程中对其的图像信号进行降维调整,用自然对数的w2次方/>取其的θ降维后乘第二降噪语音信息的权值S2,得到第二降噪语音信息在噪声合并计算公式中的加权项;第三降噪作业使用子代降噪消除语音信号背景噪声,对语音信号使用快速傅里叶变换之后使用时域降噪,用自然对数的w3次方/>乘上权值S3。
根据所述噪声合并公式对第一降噪语音信息、第二降噪语音信息和第三降噪语音信息进行噪声合并计算,得到降噪语音信息。
本发明使用计算信噪比的方式作为上述噪声合并公式中的权重部分对比了第一降噪语音信息、第二降噪语音信息和第三降噪语音信息之间的占比程度,信噪比越高,说明在第一降噪作业、第二降噪作业和第三降噪作业中的效果越好,提高了降噪语音信息的信号质量,节省了后续传输和拟合过程的成本,让后续计算可以更快的拟合出所需的拟合音频识别信息。
可选地,基于噪声合并计算公式,其中的第一降噪语音信息的权重、第二降噪语音信息的权重以及第三降噪语音信息的权重是根据语音信息的信噪比计算设置。
可以利用如下公式来计算出第一降噪语音信息的信噪比、第二降噪语音信息的信噪比以及第三降噪语音信息的信噪比;
其中,Sα是目标所述信噪比,α为1、2、3,abs()表示绝对值,T表示降噪语音信号的周期,f(tp)表示有效信号的电压信号,f(tn)表示噪音的电压信号;dt表示对时间t的微分。
详细地,所述公式中f(tp)和f(tn)平方可以得出有效信号和噪音信号的电压因数,对所述周期T内对|f(tp)|2进行积分可以得出有效信号和噪音信号的积分,再对积分公式的1/2T时间段取极限,时间T趋近于无穷,得出有效信号和噪声信号的值,再对和/>取绝对值的比后取对数的二十倍,得出第一降噪语音信息的信噪比、第二降噪语音信息的信噪比以及第三降噪语音信息的信噪比。
步骤S13:对降噪语音进行分帧处理,生成分帧语音信息;
具体地,按照固定的长度对降噪语音信息进行分段,并在每一段的开始和末尾出添加重叠。
在本发明实施例中,上述固定长度一般为20毫秒至30毫秒之间,在每一段的开始和末尾出添加的重叠一般为邻段长度的一半,一般为10毫秒至15毫秒。
步骤S14:根据分帧语音信息进行归一化处理,从而获得预处理语音信息。
详细地,将处理的帧汇聚通常使用矩阵汇聚。
步骤S2:对处理语音信息进行过滤特征计算,从而获得音频频域信息;
可选地,其中过滤特征计算方法包括滤波、压缩、分域计算、加窗处理以及傅里叶变换,具体为:
本发明实施例中,参照图3所示,步骤S21:利用一阶高通滤波器对预处理信息进行滤波处理,生成预处理滤波语音信息,对预处理滤波信息进行压缩得到滤波压缩信息;
所述一阶高通滤波器是一种电子滤波器,可以使用电容和电阻来实现。
通过预设的分域长度对滤波压缩信息进行分域计算,从而获得分域信息;
详细地,所述分域长度是对滤波压缩信息分域处理后的长度,所述分域长度优选为20毫秒。
对分域信息进行汉宁窗加窗处理,从而获得汉宁窗语音帧;
将汉宁窗语音帧进行傅里叶变换,得到音频频域信息。
详细地,对于选定的分域信息加上汉宁窗函数,窗函数以外的信息学不参与傅里叶变换,对得到的加窗函数进行离散傅里叶变换,通过窗口的移动重复执行上述步骤。
步骤S3:利用预构建改进型语音拟合模型对音频频域信息进行拟合处理,从而获得拟合音频识别信息;
可选地,所述改进型语音拟合模型包括卷积神经网络、长短期记忆记忆递归神经网络、多层感知器以及深度神经网络,具体为:
本发明实施例中,参照图4,步骤S31:利用卷积神经网络对音频频域信息进行特征提取,生成一阶音帧特征信息;
详细地,卷积神经网络部分主要分为三层,第一层可以为9乘9的时域-频域滤波器,第二层可以为4乘3的滤波器,第三层可以为2乘2的滤波器,池化层可以采用最大池化法的策略,也可以为平均池化法的策略或者I2池化法的策略。最后一层卷积神经网络不接池化层。
具体地,所述最大池化法是在给定的区域内选在最大的特征值作为输出;平均池化法是在给定区域内计算平均值作为输出;I2池化法∏是在给定区域内计算欧几里得距离作为输出。
步骤S32:将一阶音帧特征信息输入到长短期记忆记忆递归神经网络中进行降维处理,生成二阶音帧特征信息;
进一步地,长短期记忆神经网络主要为两层,每个长短时记忆神经网络可以采用832个神经元,512维映射。输出状态标签延迟5帧,此时多层感知器可以更好的预测当前帧。
步骤S33:将二阶音帧特征信息输入到多层感知器中,进行拟合预处理,生成语音频特征信息;
在本发明实施例中,多层感知器神经网络是一种特殊的神经网络,可以设置1至2个隐藏层,如果有更复杂的任务,可以尝试更深的网络,并增加神经元的数量来提高性能。
步骤S34:将语音频特征信息全连接到深度神经网络中,生成拟合音频识别信息。
在本发明实施例中,深度神经网络可以用TensorFlow、Keras或者PyTorch等框架建立。
步骤S4:对拟合音频识别信息进行方言和小语种特定匹配语义转化,从而获得方言/小语种文本信息。
在本法名实施例中,参照图5,所述对拟合音频识别信息进行方言和小语种特定匹配语义转化获得方言/小语种信息方法,具体为:
步骤S41:采用动态规划算法中的维特比算法对拟合音频识别信息进行处理,得出候选序列集;
详细地,所述维比特算法是一种动态规划算法,主要用于对模型中计算最有可能的状态序列。
在本发明具体实施例中,对于维比特算法,可以定义状态转移矩阵a,发射矩阵b以及初始状态概率向量Pi。同时定义两个变量,T表示时刻,i表示状态,并初始化0和起始状态1,从t=1开始,对于每个时刻t和状态i,计算达到该状态的最大概率,即:
δt(i)=max{δt-1(j)ajibi(Ot)}
其中,aji表示从状态j转移到状态i的概率,bi(Ot)表示在状态i下,生成观测Ot的概率。在所有时刻中,选择δt(i)最大的状态i,得到最大概率路径的状态j,然后沿着路径回溯,得到候选序列集。
步骤S42:根据候选序列集进行束搜索筛选,从而获得最高概率序列;
详细地,所述束搜索是一个用于序列生成任务中的贪心算法,束搜索在每个时间步维护一个大小为k的候选列表,选择概率最大的k个进行计算。
本发明实施例中,可以首先根据给定模型和输入计算每个输出单元的概率值,从起始状态开始,选择概率最高的k个输出单元作为当前状态的候选项,并记录这些候选项的概率值,对于每个候选项,向后推进一步,再计算每个输出单元的概率值,对于所有候选项,将他们推进一步得到输出单元组合形成新的候选项,并计算他们的概率值,从中选择概率最高的k个候选项作为新的候选项集合,如果新的候选项集合中,所有的候选项最终输出符号都是停止符号,或者已经达到了预设的最大长度限制,则结束搜索,返回概率最高的选项作为结果。
详细地,给定的模型可以是卷积神经网络模型或者是深度神经网路模型。
步骤S43:通过N-gram模型对最高概率序列进行上下文信息计算,从而获得高级语音语义集,并利用预设的多个解码器对高级语音语义集进行重解码,从而获得语义关系重解码数据。
步骤S44:对语义关系重解码数据进行语义转换,从而获得方言/小语种文本信息。
详细地,预设的解码器可以是基于统计的解码器Viterbi算法,也可以是基于神经网络的解码器CTC(Connectionist Temporal Classification)解码器和Attention-based解码器。
在本发明所提供的几个具体实施例中,应当理解到,所述的方法,都可以通过其他的方式实现。例如上述提到的模型仅仅是示意性的,例如神经网络模型的组合,仅仅为一种逻辑,实际实现时可以有另外的组合。
另外,在本发明各个实施步骤可以在一个模块实现,也可以是各个独立的功能模块。可以根据实际的需要选择其中的部分或者全部。
对于本领域的技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离发明的精神或者基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附本申请而不是上述说明限定,因此旨在将落在本申请中的任何相关联图标记视为限制所涉及的权利要求。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能是利用计算机或者计算机所控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (6)
1.一种融合方言和小语种的语音识别控制方法,其特征在于,包括以下步骤:
步骤S1:获取用户输入语音信息,并根据用户输入语音信息进行预处理,从而获取预处理语音信息;步骤S1具体为:
步骤S11:获取用户输入语音信息;
步骤S12:对用户输入语音信息进行降噪处理,从而获得降噪语音信息;其中,用户输入语音信息包括第一用户语音信息、第二用户语音信息以及第三用户语音信息,其中第一用户语音信息、第二用户语音信息以及第三用户语音信息为噪声不同的语音信息,降噪语音信息包括第一降噪语音信息、第二降噪语音信息以及第三降噪语音信息,步骤S12具体为:
对第一用户语音信息进行第一降噪作业,从而获得第一降噪语音信息;
对第二用户语音信息进行第二降噪作业,从而获得第二降噪语音信息;
对第三用户语音信息进行第三降噪作业,从而获得第三降噪语音信息,其中第一降噪作业、第二降噪作业以及第三降噪作业采用的音频降噪方式不同;其中,第一降噪语音信息为使用时域滤波降噪生成,第二降噪语音信息为使用频率域滤波降噪生成,第三降噪语音信息为子代降噪生成,步骤S12还包括以下步骤:
根据第一降噪语音信息、第二降噪语音信息以及第三降噪语音信息通过噪声合并计算公式进行计算,从而获得降噪语音信息,其中语音噪声合并计算公式具体为:
为降噪语音信息,/>为自然对数,/>为第一降噪信息的归一调整项,/>为第一降噪语音信息的修正信息,/>为第一降噪语音信息的权重,/>为第二降噪信息的降维系数,/>为第二降噪语音信息的修正信息,/>为第二降噪语音信息的权重,/>为第三降噪语音信息的修正信息,/>为第三降噪语音信息的权重,/>为历史误差调整项,/>为误差系数,/>为归一降噪语音信息的修正项;
步骤S13:对降噪语音进行分帧处理,生成分帧语音信息;
步骤S14:根据分帧语音信息进行归一化处理,从而获得预处理语音信息;
步骤S2:对处理语音信息进行过滤特征计算,从而获得音频频域信息;
步骤S3:利用预构建改进型语音拟合模型对音频频域信息进行拟合处理,从而获得拟合音频识别信息;
步骤S4:对拟合音频识别信息进行方言和小语种特定匹配语义转化,从而获得方言/小语种文本信息。
2.根据权利要求1所述的融合方言和小语种的语音识别控制方法,其特征在于,噪声合并计算公式中的权重//>//>是通过计算第一降噪语音信息、第二降噪语音信息和第三降噪语音信息中的信噪比来设置,第一降噪语音信息的权重、第二降噪语音信息的权重和第三降噪语音信息的权重具体计算公式为:
其中,是目标所述信噪比,/>为1、2、3,/>表示绝对值,/>表示降噪语音信号的周期,表示有效信号的电压信号,/>表示噪音的电压信号;/>表示对时间t的微分。
3.根据权利要求1所述的融合方言和小语种的语音识别控制方法,其特征在于,过滤特征计算包括滤波、压缩、分域计算、加窗处理以及傅里叶变换,步骤S2具体为:
步骤S21:利用一阶高通滤波器对预处理信息进行滤波处理,生成预处理滤波语音信息,对预处理滤波信息进行压缩得到滤波压缩信息;
步骤S22:通过预设的分域长度对滤波压缩信息进行分域计算,从而获得分域信息;
步骤S23:对分域信息进行汉宁窗加窗处理,从而获得汉宁窗语音帧;
步骤S24:将汉宁窗音帧进行傅里叶变换,得到音频频域信息。
4.根据权利要求1所述的融合方言和小语种的语音识别控制方法,其特征在于,改进型语音拟合模型包括卷积神经网络、长短期记忆递归神经网络、多层感知器以及深度神经网络,步骤S3包括:
步骤S31:利用卷积神经网络对音频频域信息进行特征提取,生成一阶音帧特征信息;
步骤S32:将一阶音帧特征信息输入到长短期记忆递归神经网络中进行降维处理,生成二阶音帧特征信息;
步骤S33:将二阶音帧特征信息输入到多层感知器中,进行拟合预处理,生成语音频特征信息;
步骤S34:将语音频特征信息全连接到深度神经网络中,生成拟合音频识别信息。
5.根据权利要求1所述的融合方言和小语种的语音识别控制方法,其特征在于,步骤S4包括:
步骤S41:采用动态规划算法中的维特比算法对拟合音频识别信息进行处理,得出候选序列集;
步骤S42:根据候选序列集进行束搜索筛选,从而获得最高概率序列;
步骤S43:通过N-gram模型对最高概率序列进行上下文信息计算,从而获得高级语音语义集,并利用预设的多个解码器高级语音语义集进行重解码,从而获得语义关系重解码数据;
步骤S44: 对语义关系重解码数据进行语义转换,从而获得方言/小语种文本信息。
6.根据权利要求5所述的融合方言和小语种的语音识别控制方法,其特征在于,束搜索包括以下步骤:
生成维护窗口并利用维护窗口对候选序列结果进行筛选处理,从而生成高概率子序列集;
对高概率序列集进行迭代得分比较,从而获得最高概率序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310468020.0A CN116486786B (zh) | 2023-04-19 | 2023-04-19 | 一种融合方言和小语种的语音识别控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310468020.0A CN116486786B (zh) | 2023-04-19 | 2023-04-19 | 一种融合方言和小语种的语音识别控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116486786A CN116486786A (zh) | 2023-07-25 |
CN116486786B true CN116486786B (zh) | 2024-04-26 |
Family
ID=87224839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310468020.0A Active CN116486786B (zh) | 2023-04-19 | 2023-04-19 | 一种融合方言和小语种的语音识别控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486786B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005114656A1 (en) * | 2004-05-14 | 2005-12-01 | Loquendo S.P.A. | Noise reduction for automatic speech recognition |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11003994B2 (en) * | 2017-12-13 | 2021-05-11 | Cognizant Technology Solutions U.S. Corporation | Evolutionary architectures for evolution of deep neural networks |
US11315570B2 (en) * | 2018-05-02 | 2022-04-26 | Facebook Technologies, Llc | Machine learning-based speech-to-text transcription cloud intermediary |
US11069331B2 (en) * | 2018-11-19 | 2021-07-20 | Perkinelmer Health Sciences, Inc. | Noise reduction filter for signal processing |
-
2023
- 2023-04-19 CN CN202310468020.0A patent/CN116486786B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005114656A1 (en) * | 2004-05-14 | 2005-12-01 | Loquendo S.P.A. | Noise reduction for automatic speech recognition |
Non-Patent Citations (1)
Title |
---|
基于双向长短时记忆-联结时序分类和加权有限状态转换器的端到端中文语音识别系统;姚煜;RYAD Chellali;;计算机应用;20180910(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116486786A (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
US9818431B2 (en) | Multi-speaker speech separation | |
CN112581979B (zh) | 一种基于语谱图的语音情绪识别方法 | |
US10762417B2 (en) | Efficient connectionist temporal classification for binary classification | |
CN111461173A (zh) | 一种基于注意力机制的多说话人聚类系统及方法 | |
CN109036470B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Braun et al. | On training targets for noise-robust voice activity detection | |
CN112735482A (zh) | 基于联合深度神经网络的端点检测方法及系统 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
US11080600B2 (en) | Recurrent neural network based acoustic event classification using complement rule | |
CN113129900A (zh) | 一种声纹提取模型构建方法、声纹识别方法及其相关设备 | |
Alamsyah et al. | Speech gender classification using bidirectional long short term memory | |
Park et al. | The Second DIHARD Challenge: System Description for USC-SAIL Team. | |
Li et al. | A Convolutional Neural Network with Non-Local Module for Speech Enhancement. | |
CN116486786B (zh) | 一种融合方言和小语种的语音识别控制方法 | |
CN115881156A (zh) | 基于多尺度的多模态时域语音分离方法 | |
Rituerto-González et al. | End-to-end recurrent denoising autoencoder embeddings for speaker identification | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
CN114416948A (zh) | 一种基于语义感知的一对多对话生成方法及装置 | |
Richiardi et al. | Confidence and reliability measures in speaker verification | |
Jothimani et al. | A new spatio-temporal neural architecture with Bi-LSTM for multimodal emotion recognition | |
Yoshida et al. | Audio-visual voice activity detection based on an utterance state transition model | |
Xu et al. | Improve Data Utilization with Two-stage Learning in CNN-LSTM-based Voice Activity Detection | |
CN117037789B (zh) | 一种客服语音识别方法、装置、计算机设备及存储介质 | |
Xia et al. | Research on speech accurate recognition technology based on deep learning DNN-HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |