CN116137149A - 语音识别方法、装置和设备 - Google Patents

语音识别方法、装置和设备 Download PDF

Info

Publication number
CN116137149A
CN116137149A CN202310411684.3A CN202310411684A CN116137149A CN 116137149 A CN116137149 A CN 116137149A CN 202310411684 A CN202310411684 A CN 202310411684A CN 116137149 A CN116137149 A CN 116137149A
Authority
CN
China
Prior art keywords
voice data
character
recognized
target
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310411684.3A
Other languages
English (en)
Other versions
CN116137149B (zh
Inventor
王金桥
孔清培
黄文俊
曾关生
朱贵波
谭大伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nexwise Intelligence China Ltd
Original Assignee
Nexwise Intelligence China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nexwise Intelligence China Ltd filed Critical Nexwise Intelligence China Ltd
Priority to CN202310411684.3A priority Critical patent/CN116137149B/zh
Publication of CN116137149A publication Critical patent/CN116137149A/zh
Application granted granted Critical
Publication of CN116137149B publication Critical patent/CN116137149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种语音识别方法、装置和设备,属于语音识别领域,该方法包括:获取待识别的语音数据;将语音数据输入训练后的语音识别模型,得到语音数据对应的目标文本;语音识别模型,包括:预处理层;预处理层用于获取语音数据的频域特征;编码层;编码层用于对语音数据的频域特征进行编码,得到语音数据对应的局部特征和上下文时序特征;解码层;解码层用于对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定语音数据对应的目标文本。本发明的方法实现了语音数据的准确识别。

Description

语音识别方法、装置和设备
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法、装置和设备。
背景技术
随着现代科学和计算机技术的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式。一般来讲,人与机器的语言通信大致分为两种情况:第一种情况就是机器讲话,人听话。这就是“人工嘴巴”即语音的人工合成;第二种情况就是人讲话,机器听话。这即是“人工耳朵”,即语音的人工识别和理解。
相关技术中,语音识别较语音合成而言,技术上要复杂,但应用却更加广泛。因而如此准确地进行语音识别是本领域技术人员亟需解决的技术问题。
发明内容
针对现有技术中的问题,本发明实施例提供一种语音识别方法、装置和设备。
具体地,本发明实施例提供了以下技术方案:
第一方面,本发明实施例提供了一种语音识别方法,包括:
获取待识别的语音数据;
将所述语音数据输入训练后的语音识别模型,得到所述语音数据对应的目标文本;
所述语音识别模型,包括:
预处理层;所述预处理层用于获取语音数据的频域特征;
编码层;所述编码层用于对所述语音数据的频域特征进行编码,得到所述语音数据对应的局部特征和上下文时序特征;所述编码层基于卷积神经网络CNN和循环神经网络RNN构建;所述CNN基于门控线性单元GLU构建;
解码层;所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码,得到所述语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定所述语音数据对应的目标文本。
进一步地,所述语音识别模型基于如下方式进行训练:
将语音数据样本输入初始语音识别模型,得到预测文本样本;
根据所述预测文本样本和所述语音数据样本对应的字符序列进行训练,得到训练后的所述语音识别模型。
进一步地,所述解码层用于对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率值;
根据语音数据样本生成多个词组;各个词组包括第一字符和第二字符;将多个词组根据第一字符进行分组,将第一字符作为键,将第一字符对应的第二字符所组成的第一序列作为键值,根据键和键值生成词语集合;
根据各个词组和各个词组在语音数据样本中的概率,得到各个词组的权重,组成权重集合;
将目标文本中第一个字符对应的各个候选字的概率值进行降序排列,将概率值最大的候选字作为目标文本中第一个字符的识别结果;将第一个字符的识别结果作为已识别字符;
步骤a、将已识别字符和词语集合中的键进行匹配,得到已识别字符对应的第一序列;
步骤b、根据目标文本中各个字符的各个候选字的概率值,确定待识别字符所对应的各个候选字的概率值;待识别字符为已识别字符之后紧邻的一个字符;
步骤c、根据待识别字符所对应的各个候选字的概率值,确定待识别字符对应的K个候选字,生成候选字序列;
步骤d、将候选字序列中的K个候选字分别与第一序列中的字符进行比对,根据权重集合更新待识别字符的各个目标候选字的概率值,得到待识别字符的各个目标候选字的目标概率值;
步骤e、根据待识别字符的各个目标候选字的目标概率值,得到待识别字符的识别结果;
将待识别字符的识别结果,作为已识别字符,重复执行步骤a-e,直至已识别字符为目标文本中的最后一个字符。
进一步地,所述根据各个词组和各个词组在语音数据样本中的概率,得到各个词组的权重,包括:
基于如下公式确定词组的权重:
Figure SMS_1
其中,ρ(x)表示词组的权重;ε代表初始权重;µ表示一个比例系数,表示词组出现频率对词组权重的影响程度;β表示权重阈值;x表示词组的出现次数。
进一步地,所述根据权重集合更新待识别字符的各个目标候选字的概率值,得到待识别字符的各个目标候选字的目标概率值,包括:
利用如下公式确定目标候选字的目标概率值:
Figure SMS_2
其中,
Figure SMS_3
表示目标候选字的目标概率值;/>
Figure SMS_4
表示权重集合中目标候选词组的权重;/>
Figure SMS_5
表示更新前的目标候选字的概率值。
第二方面,本发明实施例还提供了一种语音识别装置,包括:
获取模块,用于获取待识别的语音数据;
识别模块,用于将所述语音数据输入训练后的语音识别模型,得到所述语音数据对应的目标文本;
所述语音识别模型,包括:
预处理层;所述预处理层用于获取语音数据的频域特征;
编码层;所述编码层用于对所述语音数据的频域特征进行编码,得到所述语音数据对应的局部特征和上下文时序特征;所述编码层基于卷积神经网络CNN和循环神经网络RNN构建;所述CNN基于门控线性单元GLU构建;
解码层;所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码,得到所述语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定所述语音数据对应的目标文本。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述语音识别方法。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述语音识别方法。
第五方面,本发明实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述语音识别方法。
本发明实施例提供的语音识别方法、装置和设备,通过获取待识别的语音数据,并通过语音识别模型提取语音数据的局部特征和上下文时序特征,并对语音数据的局部特征和上下文时序特征进行解码,也就可以得到语音数据对应的各个字符的各个候选字的概率,进而根据各个字符的各个候选字的概率,也就可以得到语音数据对应的目标文本。另一方面,本发明实施例中采用GLU门控线性单元和GLU激活函数构建编码层,相较于Relu效果要好,使得语音识别模型的收敛速度比其他模型和激活函数更快,从而使得语音识别模型可以更加准确地进行用户语音数据的识别。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音识别方法的流程示意图;
图2是本发明实施例提供的语音识别装置的结构示意图;
图3是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的方法可以应用于语音识别场景中,实现用户语音的准确识别。
相关技术中,语音识别较语音合成而言,技术上要复杂,但应用却更加广泛。因而如此准确地进行语音识别是本领域技术人员亟需解决的技术问题。
本发明实施例的语音识别方法,通过获取待识别的语音数据,并通过语音识别模型提取语音数据的局部特征和上下文时序特征,并对语音数据的局部特征和上下文时序特征进行解码,也就可以得到语音数据对应的各个字符的各个候选字的概率,进而根据各个字符的各个候选字的概率,也就可以得到语音数据对应的目标文本。另一方面,本发明实施例中采用GLU门控线性单元和GLU激活函数构建编码层,相较于Relu效果要好,使得语音识别模型的收敛速度比其他模型和激活函数更快,从而使得语音识别模型可以更加准确地进行用户语音数据的识别。
下面结合图1-图3以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1是本发明实施例提供的语音识别方法一实施例的流程示意图。如图1所示,本实施例提供的方法,包括:
步骤101、获取待识别的语音数据;
具体地,为了实现对用户语音的准确识别,本发明实施例中首先获取待识别的语音数据;可选地,待识别的语音数据可以是预先存储的语音数据,也可以是实时采集的用户的语音数据;可选地,用户的语音数据可以是中文语音数据,也可以是英文语音数据或其他类型的语音数据,本发明实施例中不做具体限定。
步骤102、将语音数据输入训练后的语音识别模型,得到语音数据对应的目标文本;
语音识别模型,包括:
预处理层;预处理层用于获取语音数据的频域特征;
编码层;编码层用于对语音数据的频域特征进行编码,得到语音数据对应的局部特征和上下文时序特征;编码层基于卷积神经网络CNN和循环神经网络RNN构建;CNN基于门控线性单元GLU构建;
解码层;解码层用于对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定语音数据对应的目标文本。
具体地,在获取待识别的语音数据后,本发明实施例中将获取到的待识别的语音数据输入至语音识别模型,得到语音数据对应的目标文本;也就是语音识别模型用于识别语音数据,并将语音数据转换为对应的包括字符序列的目标文本。
可选地,本发明实施例中的语音识别模型包括预处理层、编码层和解码层;其中,预处理层用于对获取的语音数据进行预处理,包括选择合适的采样率对语音数据进行模数转换,进行声音文件的压缩,并对音频数据进行振幅的归一化处理,进行幅频变换得到信号的频域特征;例如,把连续的语音数据转为离散的数据进行模数转化,处理过程中最关键的参数就是“采样率”,即每秒钟用多少份数据表达声音信号。此外每份数据大小以及声道数,与采样率一起,决定了保存后声音和原声间的差距。
可选地,编码层用于对语音数据的频域特征进行编码,得到语音数据对应的局部特征和上下文时序特征;其中,局部特征包括语音信号的强度、频率、响度和时延;上下文时序特征包括语音信号的振幅信息;可选地,本发明实施例中的编码层基于卷积神经网络(Convolutional Neural Networks, CNN)和循环神经网络(Recurrent Neural Network,RNN)构建;CNN基于门控线性单元(Gated Linear Unit,GLU)构建;可选地,卷积神经网络堆叠的卷积层里面嵌套了两个自定义的卷积ConvBn层,ConvBn层的卷积核大小都为3,步长是2,输出的通道数为32。可选地,循环神经网络包括卷积层组、循环层组还有输出层三大模块,卷积层组由两层二维卷积组成,基于门控线性单元GLU构建,激活函数为GLU。循环层组默认使用5层的单向的GRU层。本发明实施例中采用GLU门控线性单元和GLU激活函数构建编码层,相较于矫正线性函数Relu效果要好,使得语音识别模型的收敛速度比其他模型和激活函数更快,从而使得语音识别模型可以更加准确地进行用户语音数据的识别。
可选地,本发明在通过解码器对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率后,基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定语音数据对应的目标文本;其中,本发明实施例中的基于马尔可夫假设的中文同音字辅助识别算法是本发明中的发明点,具体在后续实施中进行介绍,本发明实施例中基于马尔可夫假设的中文同音字辅助识别算法用于对各个候选字的概率值进行更新,从而基于更新后的概率值可以更加准确的识别语音数据对应的目标文本。
上述实施例的方法,通过获取待识别的语音数据,并通过语音识别模型提取语音数据的局部特征和上下文时序特征,并对语音数据的局部特征和上下文时序特征进行解码,也就可以得到语音数据对应的各个字符的各个候选字的概率,进而根据各个字符的各个候选字的更新后的概率,也就可以得到语音数据对应的目标文本。另一方面,本发明实施例中采用GLU门控线性单元和GLU激活函数构建编码层,相较于Relu效果要好,使得语音识别模型的收敛速度比其他模型和激活函数更快,从而使得语音识别模型可以更加准确地进行用户语音数据的识别。
在一实施例中,语音识别模型基于如下方式进行训练:
将语音数据样本输入初始语音识别模型,得到预测文本样本;
根据预测文本样本和语音数据样本对应的字符序列进行训练,得到训练后的语音识别模型。
具体地,本发明实施例中的语音识别模型用于识别语音数据,并将语音数据转换为对应的包括字符序列的目标文本。可选地,语音模型训练过程中,是通过将语音数据样本输入初始语音识别模型,得到预测文本样本,进而根据预测文本样本和语音数据样本对应的字符序列进行训练,得到训练后的语音识别模型;其中,预测文本样本为预测出的语音数据对应的字符序列;语音数据样本对应的字符序列为用户语音数据对应的真实的字符序列,也就是将用户语音数据对应的真实的字符序列作为标签信息进行有监督的训练,从而使得训练出的语音识别模型可以准确的输出用户语音数据对应的字符序列。
上述实施例的方法,通过初始语音识别模型预测出语音数据对应的字符序列,并通过用户语音数据对应的真实的字符序列作为标签信息进行有监督的训练,从而使得训练出的语音识别模型可以准确的输出用户语音数据对应的字符序列,提高了语音识别模型的识别准确性。
在一实施例中,解码层用于对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率值;
根据语音数据样本生成多个词组;各个词组包括第一字符和第二字符;将多个词组根据第一字符进行分组,将第一字符作为键,将第一字符对应的第二字符所组成的第一序列作为键值,根据键和键值生成词语集合;
根据各个词组和各个词组在语音数据样本中的概率,得到各个词组的权重,组成权重集合;
将目标文本中第一个字符对应的各个候选字的概率值进行降序排列,将概率值最大的候选字作为目标文本中第一个字符的识别结果;将第一个字符的识别结果作为已识别字符;
步骤a、将已识别字符和词语集合中的键进行匹配,得到已识别字符对应的第一序列;
步骤b、根据目标文本中各个字符的各个候选字的概率值,确定待识别字符所对应的各个候选字的概率值;待识别字符为已识别字符之后紧邻的一个字符;
步骤c、根据待识别字符所对应的各个候选字的概率值,确定待识别字符对应的K个候选字,生成候选字序列;
步骤d、将候选字序列中的K个候选字分别与第一序列中的字符进行比对,根据权重集合更新待识别字符的各个目标候选字的概率值,得到待识别字符的各个目标候选字的目标概率值;
步骤e、根据待识别字符的各个目标候选字的目标概率值,得到待识别字符的识别结果;
将待识别字符的识别结果,作为已识别字符,重复执行步骤a-e,直至已识别字符为目标文本中的最后一个字符。
具体地,语音识别模型的解码层对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率值后,为了准确的确定目标文本中的各个字符,本发明实施例中,基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定语音数据对应的目标文本,具体如下:第一方面,根据语音数据样本生成多个词组,各个词组包括第一字符和第二字符,并将多个词组根据第一字符进行分组,得到词语集合;词语集合中键为各个第一字符,词语集合中的键值为第一字符对应的各个第二字符组成的第一序列;第二方面,根据各个词组和各个词组在语音数据样本中的概率,得到各个词组的权重;根据各个词组和各个词组的权重,得到权重集合。可选地,语音数据样本为真实应用场景、真实语言场景中的语音数据的字符序列。
例如,将语音数据样本中的任意两个字符组成词组,并将词组根据第一字符进行分组,从而得到词语集合。如语音数据样本中的任意两个字符组成词组包括:词组1(字符1,字符2);词组2(字符1,字符3);词组3(字符2,字符3),然后将词组根据第一字符进行分组,从而得到词语集合,如词组1和词组2中的第一字符都是字符1,则词语集合中包括的键包括字符1和字符2;其中,键为字符1时,对应的键值为字符2和字符3组成的序列;键为字符2时,对应的键值为字符3。
例如,根据各个词组和各个词组在语音数据样本中的概率,得到各个词组的权重;根据各个词组和各个词组的权重,得到权重集合,如基于语音数据样本共生成了100个词组,词组1出现了2次;可选地,词组的权重可以通过词组的概率大小进行确定,也可以按照预设的规则进行确定;可选地,词组的概率越大,对应的词组的权重也就越大;如词组2出现了5次,则词组1的概率为0.02,权重为w1,词组2的概率为0.05,权重为w2,从而根据词组1、词组2和词组1的权重、词组2的权重,就可以得到权重集合。
根据语音识别模型的解码层得到语音数据对应的各个候选字的概率值(初始概率)后,将目标文本中第一个字符对应的各个候选字的概率值进行降序排列,将概率值最大的候选字作为目标文本中第一个字符的识别结果,如解码层得到的第一个字符有10个候选字,其中第二个候选字的概率最大,其中第一个字符的第二个候选字为“天”,则将第二个候选字为“天”作为待识别语音数据所识别的第一个字符,也就是将“天”作为待识别语音数据中的已识别字符。
可选地,在确定待识别语音数据的第一个已识别字符的情况下,则执行步骤a-步骤e,确定待识别语音数据对应的第二个字符,具体如下:
步骤a、将已识别字符和词语集合中的键进行匹配,得到已识别字符对应的第一序列;
例如,已识别字符为“天”,词语集合中键为“天”的情况下,对应的键值为对应的第一序列(妻、气、七、起、期、其),则将已识别字符“天”和词语集合中的键“天”进行匹配,已识别字符“天”与词语集合中的键“天”匹配成功,从而得到已识别字符“天”对应的第一序列(妻、气、七、起、期、其);
步骤b、根据目标文本中各个字符的各个候选字的概率值,确定待识别字符所对应的各个候选字的概率值;待识别字符为已识别字符之后紧邻的一个字符;
例如,语音识别模型的解码层得到各个字符的各个候选字的概率值后,已识别字符“天”之后紧邻的一个字符即为待识别字符,如语音识别模型的解码层得到第二个字符的候选字分别为气、七、起、晴、听,其对应的概率值分别为30%、30%、20%、10%、10%。
步骤c、根据待识别字符所对应的各个候选字的概率值,确定待识别字符对应的K个候选字,生成候选字序列;
例如,可以将待识别字符对应的候选字的概率值进行降序排序,选取降序排序后前四位的候选字生成候选字序列,即候选字序列为气、七、起、晴,将听从候选字序列中舍弃掉;也就是基于待识别字符所对应的各个候选字的概率值,对候选字进行初步筛查,保留概率较大的候选字,将概率较小的候选字进行排除,从而在保证识别准确性的基础上,提高待识别字符的识别效率,从而也就提高了待识别语音数据的识别效率。
步骤d、将候选字序列中的K个候选字分别与第一序列中的字符进行比对,根据权重集合更新待识别字符的各个目标候选字的概率值,得到待识别字符的各个目标候选字的目标概率值;
例如,将候选字序列中的候选字气、七、起、晴分别与第一序列中的字符(妻、气、七、起、期、其)进行比对,得到比对一致的候选字将其作为目标候选字,目标候选字为气、七、起,根据权重集合中词组“天气”、“天七”、“天起”的权重,将目标候选字“气、七、起”三个字符的概率值会进行调整,得到目标候选字“气、七、起”的目标概率值。
步骤e、根据待识别字符的各个目标候选字的目标概率值,得到待识别字符的识别结果;
例如,将待识别字符的各个目标候选字的目标概率进行降序排列,并将降序排列后概率最高的目标候选字作为待识别字符的识别结果。如基于权重集合中词组的概率(权重)X1、X2、X3和待识别字符的各个候选字的概率值30%、30%、20%,确定目标候选字“气”的对应的目标概率最大,则将目标候选字“气”作为待识别字符的识别结果,也就是确定出了待识别语音数据对应的第二个字符为“气”。
可选地,将待识别字符的识别结果,作为已识别字符,重复执行步骤a-h,直至已识别字符为目标文本中的最后一个字符。
例如,将待识别字符的识别结果“气”,也就是将待识别语音数据对应的第二个字符为“气”作为已识别字符,重复执行步骤a-h,从而识别出语音数据对应的第三个字符,依此方法,也就可以准确的识别出语音数据对应的各个字符,从而也就可以准确的得到待识别语音数据对应的字符序列,也就可以得到待识别语音数据对应的目标文本。
上述实施例的方法,在语音识别模型的解码层对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率值后,不是简单的根据各个候选字的概率值去进行字符的识别,而是结合实际应用场景中的语音数据样本对应的词语集合和权重集合,从而使得最终识别出的字符更加贴合实际的语言场景,从而也就使得字符的识别效率和识别准确性更高。
在一实施例中,根据各个词组和各个词组在语音数据样本中的概率,得到各个词组的权重,包括:
基于如下公式确定词组的权重:
Figure SMS_6
其中,ρ(x)表示词组的权重;ε代表初始权重;µ表示一个比例系数,表示词组出现频率对词组权重的影响程度;β表示权重阈值;x表示词组的出现次数。
具体地,本发明实施例中不是简单的根据各个候选字的概率值去进行字符的识别,而是结合实际应用场景中的语音数据样本对应的词语集合和权重集合,从而使得最终识别出的字符更加贴合实际的语言场景,从而也就使得字符的识别效率和识别准确性更高。其中,权重集合是根据各个词组和各个词组的权重得到的;各个词组的权重是根据各个词组在语音数据样本中的概率确定的,可选地,词组的权重可以基于如下公式确定:
Figure SMS_7
其中,ρ(x)表示词组的权重;ε代表初始权重;µ表示一个比例系数,表示词组出现频率对词组权重的影响程度;β表示权重阈值;x表示词组的出现次数,从而实现了基于词组在语音数据样本中的概率准确确定词组的权重。通过上述公式确定每个词组的权重有两个优势:一方面可以解决内存溢出的问题,另一方面可以方便交叉熵损失函数的求导计算,加快反向传播的速度。
上述实施例的方法,基于词组在语音数据样本中的概率准确确定词组的权重,从而使得确定出的词组权重可以准确的反映各个词组在实际应用场景中的重要程度和使用频繁程度,进而在进行语音数据的识别过程中不仅仅是简单的根据各个候选字的概率值去进行字符的识别,而是结合实际应用场景中的语音数据样本对应的词语集合和权重集合,从而使得最终识别出的字符更加贴合实际的语言场景,从而也就使得字符的识别效率和识别准确性更高。
在一实施例中,根据权重集合更新待识别字符的各个目标候选字的概率值,得到待识别字符的各个目标候选字的目标概率值,包括:
利用如下公式确定目标候选字的目标概率值:
Figure SMS_8
;/>
其中,
Figure SMS_9
表示目标候选字的目标概率值;/>
Figure SMS_10
表示权重集合中目标候选词组的权重;/>
Figure SMS_11
表示更新前的目标候选字的概率值。
具体地,本发明实施例中不是简单的根据各个候选字的概率值去进行字符的识别,而是结合实际应用场景中的语音数据样本对应的词语集合和权重集合,从而使得最终识别出的字符更加贴合实际的语言场景,从而也就使得字符的识别效率和识别准确性更高。可选地,利用如下公式确定目标候选字的目标概率:
Figure SMS_12
其中,
Figure SMS_13
表示目标候选字的目标概率;/>
Figure SMS_14
表示目标候选词组的权重;/>
Figure SMS_15
表示目标候选字的概率值;可选地,目标候选字是通过将候选字序列中的候选字与第一序列中的字符进行比对得到的,如将候选字序列中的候选字气、七、起、晴分别与第一序列中的字符(妻、气、七、起、期、其)进行比对,得到目标候选字气、七、起;/>
Figure SMS_16
表示目标候选字气、七、起的概率值;目标候选词组是通过待识别字符的目标候选字与已识别字符确定的;如通过已识别字符“天”与待识别的第二字符的目标候选字“气、七、起”得到目标候选词组“天气”、“天七”、“天起”,/>
Figure SMS_17
表示目标候选词组“天气”、“天七”、“天起”的权重,也就是在进行语音数据对应的字符的识别过程中,不仅仅简单的基于解码器输出的各个字符的各个候选字的概率值,而且也参考了实际的应用场景和实际语言场景中各个词组的重要程度和使用频繁程度,将解码器输出的各个字符的各个候选字的概率值与实际的应用场景和实际语言场景中各个词组的重要程度和使用频繁程度对应的词组权重的乘积,作为语音数据对应的字符的各个目标候选字的目标概率。可选地,在确定语音数据对应的字符的各个目标候选字的目标概率后,可以将目标概率最大的候选字作为识别出的语音数据的字符。
上述实施例的方法,在在进行语音数据对应的字符的识别过程中,不仅仅简单的基于解码器输出的各个字符的各个候选字的概率值,而且也参考了实际的应用场景和实际语言场景中各个词组的重要程度和使用频繁程度,将解码器输出的各个字符的各个候选字的概率值与实际的应用场景和实际语言场景中各个词组的重要程度和使用频繁程度对应的词组权重的乘积,作为语音数据对应的字符的各个目标候选字的目标概率,从而使得最终基于目标概率确定出的的语音数据的字符更加的准确合理和有效。
示例性的,本发明实施例中的语音识别方法具体流程如下:
选择合适的采样率对输入的声音进行模数转换,并进行声音文件的压缩;读取音频文件,并对音频数据进行振幅的归一化处理,进行幅频变换得到信号的频域特征。将前面预处理好的声谱信号输入,通过CNN层对相关特征进行提取,并对输入的长度进行缩减;使用门控卷积GLU学习其上下文时序特征;可选地,语音识别模型结构使用已有的深度语音模型结构,分别是卷积层组、循环层组还有输出层三大模块。可选地,本发明实施例中解码层得到语音数据对应的各个字符的各个候选字的概率值的过程与已有的深度语音模型中得到各个字符的各个候选字的概率值的过程一致,但需要说明的是,本发明实施例中采用GLU门控线性单元和GLU激活函数构建编码层,相较于Relu效果要好,使得语音识别模型的收敛速度比其他模型和激活函数更快,从而使得语音识别模型可以更加准确地进行用户语音数据的识别。并且基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,从而基于更新后的各个候选字的概率值可以更加准确的确定语音数据对应的目标文本。
可选地,根据字符的概率分布生成转录文本,包括:
将语音数据样本训练集中所有字符都提取出来,组成候选词组的集合。
提取过程中,以句子为单位,将两个连续的字符构成如(a i ,a i+1)的词组,其中i为任意一个大于0的整数,a i 代表一个句子中的第i个字符。每个词组都分为两个位置,即前置位(如上例中的a i )和后置位(如上例中的a i+1)。
上述词组的集合,组成了列表M,即所有的(a i ,a i+1)∈M。在列表M的词组中,a i 表示一个特定的汉字,不同词组中前置位的字符可能相同。也就是说,假设i、j都为任意一个大于0的整数,在i不等于j的情况下,a i a j 可能代表相同的汉字。在不同的句子中,也可能出现前置位相同的汉字。如果存在两个或多个不同词组,且它们前置位的字符相同,那么就将它们合并起来。例如:假设有词组(a i1 ,a i1+1 ),(a i2 ,a i2+1 ),(a i3 ,a i3+1 )。如果a i1 =a i2 =a i3 ,则将这三个词组合并,合并结果表示为{a i1 :L},其中L=[a i1+1 ,a i2+1 ,a i3+1 ]。像上述例子这样,将M中所有前置位相同的词组合并完后,便可获得词语集合D1。
此外,本实施例中还需要通过计算每个词组出现的频率,建立一个权重集合D2。在D2中,每一个词组(a i1 ,a i+1 )会有一个其对应的权重ρ,用于调整神经网络最终的预测结果。每个词组的权重ρ都是通过列表M得到,其计算公式如下:
Figure SMS_18
在上述公式中,ε代表初始权重,即一个词组在整个数据集中只出现一次时,对该词组赋予的权重;µ是一个比例系数,用于调整词组频率对权重影响的大小。此外,为了防止最终权重无休止地增加,设定了最大值β来限制最终权重,即一个词组在整个数据集中出现了一定次数后,其对应的的权重也不再改变。x是相应词组的出现次数。通过上述公式确定每个词组的权重有两个优势:一方面可以解决溢出的问题,另一方面可以方便交叉熵损失函数的求导计算,加快反向传播的速度。
在权重集合D2中,每一个词组(a i1 ,a i+1 )被当作一个键(key),其对应的权重ρ被当作这个键的值(value)。因此集合D2可以表示为{(a i1 ,a i1+1 ):ρ}∈D2。
至此,词语集合D1和权重集合D2完成建立。模型基于词语集合D1和权重集合D2可以逐个字符进行预测。并且,当前正准备预测的字符是基于前一个预测出来的字符。可以根据前一个预测出来的字符来调整当前需要预测的字符。输出序列Y代表整个语音识别的最终结果,也就是最终输出的字符序列。这个序列不是一次性输出,而是逐个输出。也就是说,在输出前一个字符后,把前一个字符当作后一个字符输入的一部分,才能继续识别下一个字符。在输出序列Y中,y i 代表当前正准备预测的字符,
Figure SMS_19
代表前一个输出的字符。根据
Figure SMS_20
,在集合D1中找出其对应的词组序列L。
另一方面,在经过神经网络模型识别后,对于当前准备预测的字符,会有n个候选字,在这之后会根据每个候选字对应的概率得分p来确定最终的预测字符。这些候选字表示为C,C=((c 1,p 1 ),(c 2,p 2 ),(c n,p n ))。其中c i 代表候选字符,p i 代表其对应的概率得分。神经网络将概率最高的一项选中,作为第i位的输出结果y i ,并在C中提取概率高的k个样本(表示为Cˆ):Cˆ=top_k(C);
在上述公式中,top_k(·)是选择其中概率最高的k个候选字的函数。
数值k的选择对MAR的性能和效果有着一定影响。一方面,如果候选字符太少,就不能发挥好的作用。另一方面,当k的值过大时,会削弱编码器和解码器的作用,这可能对实验结果产生负面影响。多次实验表明,k=5时可以达到最佳效果在获取概率分数高的候选字序列Cˆ后,将其中的每一个候选字与上文中获取的序列L一一作对比,判断两个个序列是否有相同的字符。设当前候选字序列Cˆ=[(c 1,p 1 ),(c 2,p 2 ),…,(c k,p k )]。以
Figure SMS_21
为关键字,在集合D1中查找到的序列L=[a 1 , a 2 ,···,a l ]。若存在c u =a j (u<k,j<l),则在集合D2中,以(
Figure SMS_22
,a j )为关键字,查找其对应的权重ρ。如此循环操作,将Cˆ中所有的字符都放入L中进行查找比对,若成功匹配到相同的字符,则集合D2中寻找对应的ρ。在这一步完成后,Cˆ将根据所有的ρ,对其序列中的每个字概率得分p进行更新:
Figure SMS_23
;/>
Figure SMS_24
特别地,如果c i ∈/L,那么将其对应的权重设为ρ i =1,也就是不改变这个字符的概率得分。在更新完Cˆ中各个候选字的权重后,将选出其中权重最高的候选字作为当前预测的输出y i 。至此,该轮预测结束,
Figure SMS_25
y i 向前移动一位,进行下一轮预测(每轮预测识别出一个字),如此循环直至这个句子全部识别完成。
下面对本发明提供的语音识别装置进行描述,下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。
图2是本发明提供的语音识别装置的结构示意图。本实施例提供的语音识别装置,包括:
获取模块710,用于获取待识别的语音数据;
识别模块720,用于将语音数据输入训练后的语音识别模型,得到语音数据对应的目标文本;
语音识别模型,包括:
预处理层;预处理层用于获取语音数据的频域特征;
编码层;编码层用于对语音数据的频域特征进行编码,得到语音数据对应的局部特征和上下文时序特征;编码层基于卷积神经网络CNN和循环神经网络RNN构建;CNN基于门控线性单元GLU构建;
解码层;解码层用于对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定语音数据对应的目标文本。
可选地,语音识别模型基于如下方式进行训练:
将语音数据样本输入初始语音识别模型,得到预测文本样本;
根据预测文本样本和语音数据样本对应的字符序列进行训练,得到训练后的语音识别模型。
可选地,解码层用于
对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率值;
根据语音数据样本生成多个词组;各个词组包括第一字符和第二字符;将多个词组根据第一字符进行分组,将第一字符作为键,将第一字符对应的第二字符所组成的第一序列作为键值,根据键和键值生成词语集合;
根据各个词组和各个词组在语音数据样本中的概率,得到各个词组的权重,组成权重集合;
将目标文本中第一个字符对应的各个候选字的概率值进行降序排列,将概率值最大的候选字作为目标文本中第一个字符的识别结果;将第一个字符的识别结果作为已识别字符;
步骤a、将已识别字符和词语集合中的键进行匹配,得到已识别字符对应的第一序列;
步骤b、根据目标文本中各个字符的各个候选字的概率值,确定待识别字符所对应的各个候选字的概率值;待识别字符为已识别字符之后紧邻的一个字符;
步骤c、根据待识别字符所对应的各个候选字的概率值,确定待识别字符对应的K个候选字,生成候选字序列;
步骤d、将候选字序列中的K个候选字分别与第一序列中的字符进行比对,根据权重集合更新待识别字符的各个目标候选字的概率值,得到待识别字符的各个目标候选字的目标概率值;
步骤e、根据待识别字符的各个目标候选字的目标概率值,得到待识别字符的识别结果;
将待识别字符的识别结果,作为已识别字符,重复执行步骤a-e,直至已识别字符为目标文本中的最后一个字符。
可选地,所述识别模块720,具体用于:基于如下公式确定词组的权重:
Figure SMS_26
其中,ρ(x)表示词组的权重;ε代表初始权重;µ表示一个比例系数,表示词组出现频率对词组权重的影响程度;β表示权重阈值;x表示词组的出现次数。
可选地,所述识别模块720,具体用于:利用如下公式确定目标候选字的目标概率值:
Figure SMS_27
其中,
Figure SMS_28
表示目标候选字的目标概率值;/>
Figure SMS_29
表示权重集合中目标候选词组的权重;/>
Figure SMS_30
表示更新前的目标候选字的概率值。本发明实施例的装置,其用于执行前述任一方法实施例中的方法,其实现原理和技术效果类似,此次不再赘述。
图3示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行语音识别方法,该方法包括:获取待识别的语音数据;将语音数据输入训练后的语音识别模型,得到语音数据对应的目标文本;语音识别模型,包括:预处理层;预处理层用于获取语音数据的频域特征;编码层;编码层用于对语音数据的频域特征进行编码,得到语音数据对应的局部特征和上下文时序特征;编码层基于卷积神经网络CNN和循环神经网络RNN构建;CNN基于门控线性单元GLU构建;解码层;解码层用于对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定语音数据对应的目标文本。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音识别方法,该方法包括:获取待识别的语音数据;将语音数据输入训练后的语音识别模型,得到语音数据对应的目标文本;语音识别模型,包括:预处理层;预处理层用于获取语音数据的频域特征;编码层;编码层用于对语音数据的频域特征进行编码,得到语音数据对应的局部特征和上下文时序特征;编码层基于卷积神经网络CNN和循环神经网络RNN构建;CNN基于门控线性单元GLU构建;解码层;解码层用于对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定语音数据对应的目标文本。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语音识别方法,该方法包括:获取待识别的语音数据;将语音数据输入训练后的语音识别模型,得到语音数据对应的目标文本;语音识别模型,包括:预处理层;预处理层用于获取语音数据的频域特征;编码层;编码层用于对语音数据的频域特征进行编码,得到语音数据对应的局部特征和上下文时序特征;编码层基于卷积神经网络CNN和循环神经网络RNN构建;CNN基于门控线性单元GLU构建;解码层;解码层用于对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定语音数据对应的目标文本。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种语音识别方法,其特征在于,包括:
获取待识别的语音数据;
将所述语音数据输入训练后的语音识别模型,得到所述语音数据对应的目标文本;
所述语音识别模型,包括:
预处理层;所述预处理层用于获取语音数据的频域特征;
编码层;所述编码层用于对所述语音数据的频域特征进行编码,得到所述语音数据对应的局部特征和上下文时序特征;所述编码层基于卷积神经网络CNN和循环神经网络RNN构建;所述CNN基于门控线性单元GLU构建;
解码层;所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码,得到所述语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定所述语音数据对应的目标文本。
2.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别模型基于如下方式进行训练:
将语音数据样本输入初始语音识别模型,得到预测文本样本;
根据所述预测文本样本和所述语音数据样本对应的字符序列进行训练,得到训练后的所述语音识别模型。
3.根据权利要求2所述的语音识别方法,其特征在于,所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码,得到所述语音数据对应的各个字符的各个候选字的概率值;
根据语音数据样本生成多个词组;各个所述词组包括第一字符和第二字符;将多个所述词组根据第一字符进行分组,将第一字符作为键,将第一字符对应的第二字符所组成的第一序列作为键值,根据所述键和键值生成词语集合;
根据各个词组和各个词组在语音数据样本中的概率,得到各个词组的权重,组成权重集合;
将目标文本中第一个字符对应的各个候选字的概率值进行降序排列,将概率值最大的候选字作为目标文本中第一个字符的识别结果;将所述第一个字符的识别结果作为已识别字符;
步骤a、将已识别字符和所述词语集合中的键进行匹配,得到所述已识别字符对应的第一序列;
步骤b、根据目标文本中各个字符的各个候选字的概率值,确定待识别字符所对应的各个候选字的概率值;所述待识别字符为所述已识别字符之后紧邻的一个字符;
步骤c、根据所述待识别字符所对应的各个候选字的概率值,确定所述待识别字符对应的K个候选字,生成候选字序列;
步骤d、将所述候选字序列中的K个候选字分别与所述第一序列中的字符进行比对,根据权重集合更新待识别字符的各个目标候选字的概率值,得到待识别字符的各个目标候选字的目标概率值;
步骤e、根据待识别字符的各个目标候选字的目标概率值,得到所述待识别字符的识别结果;
将所述待识别字符的识别结果,作为已识别字符,重复执行步骤a-e,直至所述已识别字符为所述目标文本中的最后一个字符。
4.根据权利要求3所述的语音识别方法,其特征在于,所述根据各个词组和各个词组在语音数据样本中的概率,得到各个词组的权重,包括:
基于如下公式确定词组的权重:
Figure QLYQS_1
其中,ρ(x)表示词组的权重;ε代表初始权重;µ表示一个比例系数,表示词组出现频率对词组权重的影响程度;β表示权重阈值;x表示词组的出现次数。
5.根据权利要求4所述的语音识别方法,其特征在于,所述根据权重集合更新待识别字符的各个目标候选字的概率值,得到待识别字符的各个目标候选字的目标概率值,包括:
利用如下公式确定目标候选字的目标概率值:
Figure QLYQS_2
其中,
Figure QLYQS_3
表示目标候选字的目标概率值;/>
Figure QLYQS_4
表示权重集合中目标候选词组的权重;/>
Figure QLYQS_5
表示更新前的目标候选字的概率值。
6.一种语音识别装置,其特征在于,包括:
获取模块,用于获取待识别的语音数据;
识别模块,用于将所述语音数据输入训练后的语音识别模型,得到所述语音数据对应的目标文本;
所述语音识别模型,包括:
预处理层;所述预处理层用于获取语音数据的频域特征;
编码层;所述编码层用于对所述语音数据的频域特征进行编码,得到所述语音数据对应的局部特征和上下文时序特征;所述编码层基于卷积神经网络CNN和循环神经网络RNN构建;所述CNN基于门控线性单元GLU构建;
解码层;所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码,得到所述语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定所述语音数据对应的目标文本。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述的语音识别方法。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一项所述的语音识别方法。
CN202310411684.3A 2023-04-18 2023-04-18 语音识别方法、装置和设备 Active CN116137149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310411684.3A CN116137149B (zh) 2023-04-18 2023-04-18 语音识别方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310411684.3A CN116137149B (zh) 2023-04-18 2023-04-18 语音识别方法、装置和设备

Publications (2)

Publication Number Publication Date
CN116137149A true CN116137149A (zh) 2023-05-19
CN116137149B CN116137149B (zh) 2023-07-14

Family

ID=86334712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310411684.3A Active CN116137149B (zh) 2023-04-18 2023-04-18 语音识别方法、装置和设备

Country Status (1)

Country Link
CN (1) CN116137149B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6662180B1 (en) * 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US20080004877A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Method, Apparatus and Computer Program Product for Providing Adaptive Language Model Scaling
JP2019036246A (ja) * 2017-08-21 2019-03-07 オリンパス株式会社 情報処理装置、情報取得機器、トランスクライバーシステム、表示方法、生成方法およびプログラム
WO2021087665A1 (zh) * 2019-11-04 2021-05-14 深圳市欢太科技有限公司 数据处理方法、装置、服务器和存储介质
WO2021135444A1 (zh) * 2020-06-28 2021-07-08 平安科技(深圳)有限公司 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN113743409A (zh) * 2020-08-28 2021-12-03 北京沃东天骏信息技术有限公司 一种文本识别方法和装置
US20220115006A1 (en) * 2020-10-13 2022-04-14 Mitsubishi Electric Research Laboratories, Inc. Long-context End-to-end Speech Recognition System
CN115312034A (zh) * 2022-06-23 2022-11-08 北京云思智学科技有限公司 基于自动机和字典树处理语音信号的方法、装置和设备
CN115440197A (zh) * 2022-08-31 2022-12-06 中国人民解放军战略支援部队信息工程大学 基于领域分类和热词前缀树集束搜索的语音识别方法及系统
WO2023273612A1 (zh) * 2021-06-30 2023-01-05 北京有竹居网络技术有限公司 语音识别模型的训练方法、语音识别方法、装置、介质及设备
CN115831102A (zh) * 2022-11-28 2023-03-21 中国电子科技集团公司第三十六研究所 基于预训练特征表示的语音识别方法、装置及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6662180B1 (en) * 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US20080004877A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Method, Apparatus and Computer Program Product for Providing Adaptive Language Model Scaling
JP2019036246A (ja) * 2017-08-21 2019-03-07 オリンパス株式会社 情報処理装置、情報取得機器、トランスクライバーシステム、表示方法、生成方法およびプログラム
WO2021087665A1 (zh) * 2019-11-04 2021-05-14 深圳市欢太科技有限公司 数据处理方法、装置、服务器和存储介质
WO2021135444A1 (zh) * 2020-06-28 2021-07-08 平安科技(深圳)有限公司 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN113743409A (zh) * 2020-08-28 2021-12-03 北京沃东天骏信息技术有限公司 一种文本识别方法和装置
US20220115006A1 (en) * 2020-10-13 2022-04-14 Mitsubishi Electric Research Laboratories, Inc. Long-context End-to-end Speech Recognition System
WO2023273612A1 (zh) * 2021-06-30 2023-01-05 北京有竹居网络技术有限公司 语音识别模型的训练方法、语音识别方法、装置、介质及设备
CN115312034A (zh) * 2022-06-23 2022-11-08 北京云思智学科技有限公司 基于自动机和字典树处理语音信号的方法、装置和设备
CN115440197A (zh) * 2022-08-31 2022-12-06 中国人民解放军战略支援部队信息工程大学 基于领域分类和热词前缀树集束搜索的语音识别方法及系统
CN115831102A (zh) * 2022-11-28 2023-03-21 中国电子科技集团公司第三十六研究所 基于预训练特征表示的语音识别方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUO-SHING HUANG 等: "An automatic speech recognition system on DSP board", 2016 INTERNATIONAL AUTOMATIC CONTROL CONFERENCE, pages 224 - 226 *
张志强等: "非标准化供需对接移动互联网系统关键技术研究", 科技创新与应用, no. 13, pages 62 *
董广宇;吕学强;王涛;施水才;: "基于N-gram语言模型的汉字识别后处理研究", 微计算机信息, no. 10, pages 276 - 278 *

Also Published As

Publication number Publication date
CN116137149B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN109582789B (zh) 基于语义单元信息的文本多标签分类方法
CN108984530B (zh) 一种网络敏感内容的检测方法及检测系统
US10740564B2 (en) Dialog generation method, apparatus, and device, and storage medium
US11210306B2 (en) Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
US11741109B2 (en) Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
CN111199727B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN110134971B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN110163181B (zh) 手语识别方法及装置
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN110085215A (zh) 一种基于生成对抗网络的语言模型数据增强方法
CN111581374A (zh) 文本的摘要获取方法、装置及电子设备
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN111145729A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN110569505A (zh) 一种文本输入方法及装置
CN110826298B (zh) 一种智能辅助定密系统中使用的语句编码方法
CN112329476A (zh) 一种文本纠错方法及装置、设备、存储介质
Karita et al. Sequence training of encoder-decoder model using policy gradient for end-to-end speech recognition
CN113254582A (zh) 一种基于预训练模型的知识驱动对话方法
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
Zapotoczny et al. Lattice Generation in Attention-Based Speech Recognition Models.
CN115762489A (zh) 语音识别模型的数据处理系统及方法、语音识别方法
CN116137149B (zh) 语音识别方法、装置和设备
CN112800752B (zh) 纠错方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant