CN113555006B - 一种语音信息识别方法、装置、电子设备及存储介质 - Google Patents
一种语音信息识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113555006B CN113555006B CN202111115243.6A CN202111115243A CN113555006B CN 113555006 B CN113555006 B CN 113555006B CN 202111115243 A CN202111115243 A CN 202111115243A CN 113555006 B CN113555006 B CN 113555006B
- Authority
- CN
- China
- Prior art keywords
- voice information
- recognition
- character
- information
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本发明提供了一种语音信息识别方法,包括:通过语音信息识别模型中的声学子模型对字音特征向量进行处理,得到至少一个语音识别结果;通过语音信息识别模型中的语言子模型对语音识别结果进行语义识别处理,得到语音识别结果对应的文字通顺度;根据不同语音识别结果所分别对应的文字通顺度进行筛选,以实现对目标语音信息的识别,由此,可以高效地对待识别语音信息进行识别,同时能够使得语音识别模型的泛化能力更强,有利于语音识别模型在各类型智能设备中的大规模部署,另外通过语音信息识别模型不仅省去了人工标注混淆集的繁琐步骤,而且可以减少由于近似读音对语音信息识别的干扰,对近似读音的语音信息的识别准确度更高,提升用户的使用体验。
Description
技术领域
本发明涉及信息处理技术,尤其涉及语音信息识别方法、装置、电子设备及存储介质。
背景技术
随着机器学习技术的发展,机器学习可以通过相应的语音识别模型机制实现,并且可以结合云技术实现,云技术是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术,也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站,因此云技术需要以云计算作为支撑。
需要说明的是,云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池平台,简称云平台,一般称为基础设施即服务(IaaS,Infrastructure as a Service),在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(可为虚拟化机器,包含操作系统)、存储设备和网络设备。但是,在使用神经网络模型对应的模型对语音数据进行处理的过程中,对于数字类语音信息场景的指令识别中,由于用户语句的发音多种多样较为复杂,交互成功率较低,影响用户的使用体验。因此,在特定目标类型场景下对用户意图识别精度要求更高,智能设备需要懂得如何准确地响应用户的语音指令语句。
发明内容
有鉴于此,本发明实施例提供一种语音信息识别方法、装置、电子设备及存储介质,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种语音信息识别方法,包括:
获取目标语音信息,并且对所述目标语音信息进行特征提取处理,得到待识别语音信息;
通过语音信息识别模型中的声学子模型对所述待识别语音信息进行字音识别处理,得到所述待识别语音信息对应的字音特征向量;
通过语音信息识别模型中的声学子模型对所述字音特征向量进行处理,得到至少一个语音识别结果;
通过语音信息识别模型中的语言子模型对所述语音识别结果进行语义识别处理,得到所述语音识别结果对应的文字通顺度;
根据不同语音识别结果所分别对应的文字通顺度进行筛选,获得对所述目标语音信息的识别结果。
本发明实施例还提供了一种语音信息识别装置,所述装置包括:
信息传输模块,用于获取目标语音信息,并且对所述目标语音信息进行特征提取处理,得到待识别语音信息;
信息处理模块,用于通过语音信息识别模型中的声学子模型对所述待识别语音信息进行字音识别处理,得到所述待识别语音信息对应的字音特征向量;
所述信息处理模块,用于通过语音信息识别模型中的声学子模型对所述字音特征向量进行处理,得到至少一个语音识别结果;
所述信息处理模块,用于通过语音信息识别模型中的语言子模型对所述语音识别结果进行语义识别处理,得到所述语音识别结果对应的文字通顺度;
所述信息处理模块,用于根据不同语音识别结果所分别对应的文字通顺度进行筛选,获得对所述目标语音信息的识别结果。
上述方案中,所述信息处理模块,用于根据所述目标语音信息的识别环境,提取所述目标语音信息所携带的语音参数信息,触发相应的分词库;
所述信息处理模块,用于通过所触发的所述分词库单词词典对所述目标语音信息进行分词处理,提取中文字符文本,形成不同的词语级特征向量;
所述信息处理模块,用于对所述不同的词语级特征向量进行除噪处理,形成与所述目标语音信息相对应的词语级特征向量集合。
上述方案中,所述信息处理模块,用于确定与所述目标语音信息的识别环境相匹配的动态噪声阈值;
所述信息处理模块,用于根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;
所述信息处理模块,用于根据与所述动态噪声阈值相匹配的动态分词策略,对所述目标语音信息进行分词处理,提取所述目标语音信息中的动态词语级特征向量集合。
上述方案中,所述信息处理模块,用于确定与所述目标语音信息的识别环境相对应的固定噪声阈值;
所述信息处理模块,用于根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述固定噪声阈值相匹配的固定分词策略;
所述信息处理模块,用于根据与所述固定噪声阈值相匹配的固定分词策略,对所述目标语音信息进行分词处理,提取所述目标语音信息中的固定词语级特征向量集合。
上述方案中,所述信息处理模块,用于通过所述语音信息识别模型中的字义编码器网络,对所述待识别语音信息进行处理,确定与所述待识别语音信息所对应的字符特征向量;
所述信息处理模块,用于通过所述字义编码器网络,根据所述字符特征向量确定与所述待识别语音信息所对应的至少一个词语级的隐变量;
所述信息处理模块,用于通过所述字义编码器网络,根据所述至少一个词语级的隐变量以及与所述待识别语音信息所对应的字符特征向量,确定所述待识别语音信息对应的字义特征向量。
上述方案中,所述信息处理模块,用于根据所述目标语音信息的识别环境,通过所述语音信息识别模型中的字音编码器网络,提取所述待识别语音信息中每一个字符对应的拼音,以及所述待识别语音信息中每一个字符对应的语调;
所述信息处理模块,用于根据所述待识别语音信息中每一个字符对应的拼音,以及所述待识别语音信息中每一个字符对应的语调,确定所述待识别语音信息中每一个字符级别的单一字符读音特征向量;
所述信息处理模块,用于通过所述语音信息识别模型中的字音编码器网络,对所述待识别语音信息中每一个字符对应的单一字符读音特征向量进行组合处理,形成语句级别的读音特征向量;
所述信息处理模块,用于基于所述语句级别的读音特征向量,确定所述待识别语音信息对应的字音特征向量;
所述信息处理模块,用于基于所述语句级别的读音特征向量,确定所述待识别语音信息对应的字音特征向量。
上述方案中,所述信息处理模块,用于通过所述语音信息识别模型中的字形编码器网络,对所待识别语音信息对应的字符图像进行单一化提取;
所述信息处理模块,用于通过所述字形编码器网络对经过单一化处理的字符图像进行降噪处理;
所述信息处理模块,用于通过所述字形编码器网络对经过降噪处理的字符的图像进行交叉降采样处理,得到所述字符图像的降采样结果,并对所述降采样结果进行归一化处理;
所述信息处理模块,用于对所述字符图像的降采样结果进行横向规范化处理,得到横向规范化处理结果;
所述信息处理模块,用于根据所述横向规范化处理结果,确定与待识别语音信息对应的字形特征向量。
上述方案中,所述信息处理模块,用于获取语音识别结果对应的待识别图像,其中,所述待识别图像包括所述语音识别结果中的待识别文字;
通过所述语言子模型从所述待识别图像中提取图像特征,并根据所述图像特征确定与所述待识别文字所对应候选文字的第一编码序列以及第一概率,所述第一编码序列包括所述候选文字中各字符组的编码信息,所述第一概率表示所述待识别文字是所述候选文字的概率;
根据所述候选文字的第二编码序列,获取所述候选文字对应的第二概率,所述第二编码序列包括所述候选文字中各字符的编码信息,所述第二概率表示所述候选文字是正确文字的概率;
根据所述第一概率和所述第二概率,确定所述语音识别结果对应的文字通顺度。
上述方案中,所述信息处理模块,用于根据所述目标语音信息的识别环境,确定所述目标语音信息的识别结果数量;
所述信息处理模块,用于对不同语音识别结果所分别对应的文字通顺度进行排序;
所述信息处理模块,用于根据所述目标语音信息的识别结果数量,对不同语音识别结果所分别对应的文字通顺度的排序结果进行筛选,得到相应的语音识别结果,获得对所述目标语音信息的识别结果。
上述方案中,所述装置还包括训练模块,所述训练模块,用于根据所述目标语音信息的识别环境类型,确定与所述语音信息识别模型相匹配的训练样本集合,其中,所述训练样本集合包括至少一组训练样本;
所述训练模块,用于通过所述语音信息识别模型相匹配的噪音阈值提取与所述训练样本相匹配的训练样本集合;
所述训练模块,用于根据与所述训练样本相匹配的训练样本集合对所述语音信息识别模型进行训练。
上述方案中,所述训练模块,用于基于所述多任务损失函数,调整所述语音信息识别模型中的不同编码器网络参数和解码器网络参数,直至所述语音信息识别模型对应的不同维度的损失函数达到相应的收敛条件;以实现所述语音信息识别模型的参数与目标语音信息的识别环境类型相适配。
上述方案中,所述训练模块,用于基于所述目标语音信息的使用环境,确定与所述目标语音信息相匹配的发音规则;
所述训练模块,用于基于所述发音规则,生成与所述目标语音信息对应的语音信息的发音;
所述训练模块,用于将所述目标语音信息对应的语音信息的发音添加至第一发音词典中,形成第二发音词典,以实现通过所述第二发音词典对所述声学子模型的训练结果进行检测。
上述方案中,所述训练模块,用于当所目标语音信息的类型为方言类型时,通过方言类型的正则匹配,确定所述目标语音信息中的方言类型目标语音信息;
所述训练模块,用于基于所述方言类型的正则表达式,确定所述方言类型目标语音信息所归属的子类型;
所述训练模块,用于根据所述方言类型目标语音信息所归属的子类型,确定与所述目标类型的文本信息相匹配的发音规则,其中所述发音规则包括所述方言类型目标语音信息所有相匹配的发音组合。
本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中实现前序的语音信息识别方法。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的语音信息识别方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前序的语音信息识别方法。
本发明实施例具有以下有益效果:
本发明实施例通过获取目标语音信息,并且对所述目标语音信息进行特征提取处理,得到待识别语音信息;通过语音信息识别模型中的声学子模型对所述待识别语音信息进行字音识别处理,得到所述待识别语音信息对应的字音特征向量;通过语音信息识别模型中的声学子模型对所述字音特征向量进行处理,得到至少一个语音识别结果;通过语音信息识别模型中的语言子模型对所述语音识别结果进行语义识别处理,得到所述语音识别结果对应的文字通顺度;根据不同语音识别结果所分别对应的文字通顺度进行筛选,以实现对所述目标语音信息的识别,由此,可以高效地对待识别语音信息进行识别,同时能够使得语音识别模型的泛化能力更强,有利于语音识别模型在各类型智能设备中的大规模部署,另外通过语音信息识别模型不仅省去了人工标注混淆集的繁琐步骤,而且可以减少由于近似读音对语音信息识别的干扰,对近似读音的语音信息的识别准确度更高,提升用户的使用体验。
附图说明
图1为本发明实施例提供的语音信息识别方法的使用场景示意图;
图2为本发明实施例提供的电子设备的组成结构示意图;
图3为本发明实施例提供的语音信息识别方法一个可选的流程示意图;
图4为本发明实施例中语音信息识别模型的模型结构示意图;
图5为本发明实施例中语音信息识别模型一个可选的结构示意图;
图6为本发明实施例中语音信息识别模型一个可选的识别过程示意图;
图7为本发明实施例中语音信息识别模型中编码器一个可选的结构示意图;
图8为本发明实施例中语音信息识别模型中编码器的向量拼接示意图;
图9为本发明实施例中语音信息识别模型中编码器的编码过程示意图;
图10为本发明实施例中语音信息识别模型中解码器的解码过程示意图;
图11为本发明实施例中语音信息识别模型中解码器的解码过程示意图;
图12为本发明实施例中语音信息识别模型中解码器的解码过程示意图;
图13为本发明实施例提供的语音信息识别方法一个可选的流程示意图;
图14为本发明实施例中语音信息识别模型的识别过程示意图;
图15为本发明实施例所提供的语音信息识别模型的工作过程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)分词库:又称切词库,指一种特定的分词方法,不同的分词库各自对应的单词字典,并可以根据各自对应的单词字典对相应的语音信息进行分词处理。
3)模型训练,对图像数据集进行多分类学习。该模型可采用TensorFlow、torch等深度学习框架进行构建,使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵,模型输出为多分类概率,通过softmax等算法最终输出网页类别。在训练时,模型通过交叉熵等目标函数向正确趋势逼近。
4)加权有限状态转换机(WFST,Finite-State Transducer),加权有限状态自动机在加权有限状态自动机的基础上,每个转移既包括输入符号也包括输出符号,输入符号和输出符号使用“:”连接,WFST的一条路径的输出符号是路径中所有转移的输出符号的串联。
5)知识源,即解码器(Decoder)基于语音信号的特征序列解码得到识别结果时所需要的知识的来源,有如下几种基于WFST表示的知识源。
5.1)声学子模型(AM,Acoustic Model),对声学、语音学、环境的变量、说话人性别、口音等的差异化的知识表示,包括基于隐马尔可夫模型(HMM,Hidden Markov Model)的声学子模型,例如混合高斯-隐马尔科夫模型(GMM-HMM)和深度神经网络-隐马尔科夫模型(DNN-HMM)表示,隐马尔可夫模型是一个离散时域的加权有限状态自动机;当然,还可以包括端到端(End to End)的声学子模型,例如连接时序分类-长短时记忆(CTC-LSTM)模型和注意力(Attention)模型。
声学子模型的每个状态中表示语音单元(例如词、音节和音素等)的语音特征在该状态的概率分布,并通过状态与状态之间的转移连接成一个有序的状态序列,即得到一段语音信号所代表的语音单元的序列,假设为语音单元的序列,记为:,声学子模型概率表示与观测序列的匹配程度。
5.2)语言模型(LM,Language Model),本文中使用G表示,输入符合和输出符号相同,是语言结构(包括词语、句子之间的规律,例如语法、词语常用搭配等)的知识表示,语言模型概率用于表示语音单元的序列在一段语音信号中出现的先验概率。
5.3)声学上下文因素模型,用C表示,也称为三音子模型,输入符号:上下文相关(Triphone,称为三音子),输出符号:音素(Monophnoe);表示从三音子到音素的对应关系。
5.4)发音词典,用L表示,输入符号:音素,输出符号:词;包含单词的集合及其发音。
6)小程序(Mini Program),是一种基于面向前端的语言(例如JavaScript)开发的、在超文本标记语言(HTML,Hyper Text Markup Language)页面中实现服务的程序,由客户端(例如浏览器或内嵌浏览器核心的任意客户端)经由网络(如互联网)下载、并在客户端的浏览器环境中解释和执行的软件,节省在客户端中安装的步骤。例如,通过语音指令唤醒终端中的小程序实现在社交网络客户端中可以下载、运行用于实现机票购买、任务处理与制作、数据展示等各种服务的小程序。
7)BERT:全称为Bidirectional Encoder Representations from Transformers,一种利用海量文本的语言模型训练方法。该方法被广泛用于多种自然语言处理任务,如文本分类、文本匹配、机器朗读理解等。
8)hidden representation:隐向量表示,一个连续的向量,表示所代表单词或者语句的语义信息。sentence-level/word-level:语句级别和单词级别。
9)神经网络(Neural Network,NN):人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
下面对本申请所提供语音信息识别方法的使用环境进行说明,参考图1,图1为本发明实施例提供语音信息识别方法的使用场景示意图,参考图1,终端(包括终端10-1和终端10-2)上设置有语义理解软件的客户端,用户通过所设置的语义理解软件客户端可以输入相应的待语义理解语句,人工智能客户端(例如即时通讯客户端中的语音助手小程序)也可以接收相应的语义理解结果,并将所接收的语义理解结果向用户进行展示;终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输,其中,本发明所提供语音信息识别方法可以作为云服务的形式服务可类型的客户(封装于车载终端或者封装于不同的移动电子设备中),本申请不做具体限制,其中,作为云服务提供给企业客户,帮助其根据不同的设备使用环境对语音识别模型进行训练。
作为一个示例,服务器200用于布设所述语音识别模型并对所述语音识别模型进行训练,并将经过训练的语音识别模型部署在相应的终端中,并通过终端(终端10-1和/或终端10-2)利用所部署的语音识别模型对携带数字信息的语音指令使用环境中的语音信息进行处理。
其中,本申请实施例所提供语音信息识别方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如,可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition,ASR),其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。
例如可以涉及机器学习(Machine learning,ML),机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术,深度学习包括人工神经网络(artificial neural network),例如卷积神经网络(ConvolutionalNeural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、深度神经网络(Deep neural network,DNN)等。
下面对本发明实施例的电子设备的结构做详细说明,电子设备可以各种形式来实施,如带有文本处理功能的专用终端,也可以为带有文本处理功能的电子设备,例如前述图1中的服务器200。图2为本发明实施例提供的电子设备的组成结构示意图,可以理解,图2仅仅示出了电子设备的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的电子设备包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。电子设备20中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的语音信息识别装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的语音信息识别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的语音信息识别方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的语音信息识别装置采用软硬件结合实施的示例,本发明实施例所提供的语音信息识别装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的语音信息识别方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的语音信息识别装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的语音信息识别方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持电子设备20的操作。这些数据的示例包括:用于在电子设备20上操作的任何可执行指令,如可执行指令,实现本发明实施例的从语音信息识别方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的语音信息识别装置可以采用软件方式实现,图2示出了存储在存储器202中的语音信息识别装置2020,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括语音信息识别装置2020,语音信息识别装置2020中包括以下的软件模块:信息传输模块2081,信息处理模块2082。当语音信息识别装置2020中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的语音信息识别方法,下面对语音信息识别装置2020中各个软件模块的功能进行介绍:
信息传输模块2081,用于获取目标语音信息,并且对所述目标语音信息进行特征提取处理,得到待识别语音信息。
信息处理模块2082,用于通过语音信息识别模型中的声学子模型对所述待识别语音信息进行字音识别处理,得到所述待识别语音信息对应的字音特征向量。
所述信息处理模块2082,用于通过语音信息识别模型中的声学子模型对所述字音特征向量进行处理,得到至少一个语音识别结果。
所述信息处理模块2082,用于通过语音信息识别模型中的语言子模型对所述语音识别结果进行语义识别处理,得到所述语音识别结果对应的文字通顺度。
所述信息处理模块2082,用于根据不同语音识别结果所分别对应的文字通顺度进行筛选,获得对所述目标语音信息的识别结果。
根据图2所示的电子设备,在本申请的一个方面中,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述语音信息识别方法的各种可选实现方式中所提供的不同实施例及实施例的组合。
结合图2示出的电子设备20说明本发明实施例提供的语音信息识别方法,参见图3,图3为本发明实施例提供的语音信息识别方法一个可选的流程示意图,可以理解地,图3所示的步骤可以由运行语音信息识别装置的各种电子设备执行,例如可以是如带有检索指令检查处理功能的专用终端、带有对输入字符进行检测功能的电子设备或者检查用户上传语音信息的电子设备集群。下面针对图3示出的步骤进行说明。
步骤301:语音信息识别装置获取目标语音信息,并且对目标语音信息进行特征提取处理,得到待识别语音信息。
在本发明的一些实施例中,对目标语音信息进行特征提取处理,得到待识别语音信息,可以通过以下方式实现:
根据所述目标语音信息的识别环境,提取所述目标语音信息所携带的语音参数信息,触发相应的分词库;通过所触发的所述分词库单词词典对所述目标语音信息进行分词处理,提取中文字符文本,形成不同的词语级特征向量;对所述不同的词语级特征向量进行除噪处理,形成与所述目标语音信息相对应的词语级特征向量集合。在预处理的过程中,可以不将目标语音信息中的阿拉伯数字转为汉字,仅做与数字无关的转换,例如保留句子中的阿拉伯数字的原始形式,删除目标语音信息的语音助词或者语气助词等无关信息,同时,与数字连接的国际单位制缩写,比如表示重量的单位g,kg,表示长度的单位cm、m以及表示时间的单位s、ms等,也不做转换,保留原始状态。对于中文文本,相应的需要对中文文本进行分词,因为在汉语里面词语才能包含完整的信息。相应的可以使用中文分词工具Jieba对中文文本进行分词。其中,“这件事发生在二零二一年”,分词之后变成了“这/件/事/发/生/在/二/零/二/一/年”。其中,所谓分词,即有动词含义也有名词含义;每个分词就是一个单词或者词组,即有确定意义的最小语义单元;对于所接收的不同的用户或者不同的语音信息识别模型的使用环境,其需要划分其中包含的最小语义单位也是不同的,需要及时地做出调整,这一过程叫做分词,即分词可以指上述划分最小语义单位的过程;另一方面,划分后获得的最小语义单位,也常常被称为分词,即分词这个操作执行后获得的单词;有时为了将两个意思相互区别,将后一个意思所指称的最小语义单位称为分词对象(Term);本申请中即使用分词对象这个称呼;分词对象对应于倒排表中作为索引依据的关键词。对于汉语而言,由于作为最小语义单位的词往往是由不同数量的字组成的,词之间不存在空白隔断等拼音文字中天然的区分标志,因此,对于汉语而言,准确进行分词以获得合理的分词对象是一个重要的步骤。在分词处理时,可以根据使用环境的不同,触发医疗、专业文本、新闻、娱乐读书、直播、游戏等不同类型的分词词典,获得更加准确的分词结果。
在本发明的一些实施例中,对所述不同的词语级特征向量进行除噪处理,形成与所述目标语音信息相对应的词语级特征向量集合,可以通过以下方式实现:
确定与所述目标语音信息的识别环境相匹配的动态噪声阈值;根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;根据与所述动态噪声阈值相匹配的动态分词策略,对所述目标语音信息进行分词处理,提取所述目标语音信息中的动态词语级特征向量集合。也可以确定与所述目标语音信息的识别环境相对应的固定噪声阈值;根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述固定噪声阈值相匹配的固定分词策略;根据与所述固定噪声阈值相匹配的固定分词策略,对所述目标语音信息进行分词处理,提取所述目标语音信息中的固定词语级特征向量集合。具体来说,通过即时通讯客户端的语音助手(或者智能机器人)的查找服务进行语音信息的识别时,由于语音朗读作业的文本信息的使用环境中,终端所显示的语音信息仅包括了课本中的固定文章的语音信息,与所述语音信息识别模型的使用环境相匹配的动态噪声阈值需要小于娱乐信息文本的朗读环境中的动态噪声阈值。相反的,当语音信息识别模型固化于相应的硬件机构中,例如使用环境为车载智能系统的数字类文本信息的口语指令,或者智能台灯的课文朗读时,由于噪声较为单一,通过固定语音信息识别模型相对应的固定噪声阈值,能够有效提升语音信息识别模型的处理速度,减少用户的等待时间,提升用户的使用体验。
步骤302:语音信息识别装置通过语音信息识别模型中的声学子模型对所述待识别语音信息进行字音识别处理,得到所述待识别语音信息对应的字音特征向量。
步骤303:语音信息识别装置通过语音信息识别模型中的声学子模型对所述字音特征向量进行处理,得到至少一个语音识别结果。
在本发明的一些实施例中,参考图4,图4为本发明实施例中语音信息识别模型的模型结构示意图,其中,语音信息识别模型的模型包括:声学子模型和语言子模型,其中,声学子模型对待识别语音信息进行字音识别处理,语言子模型对语音识别结果进行语义识别处理,判断语音识别结果是否通顺。下面分别对语言子模型和声学子模型的工作过程进行说明。
继续参考图5,图5为本发明实施例中语音信息识别模型一个可选的结构示意图,其中,Encoder包括:N=6个相同的layers组成,每一层包含两个sub-layers。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。
Decoder包括:由N=6个相同的Layer组成,其中layer和encoder并不相同, 这里的layer包含了三个sub-layers,其中有一个self-attention layer, encoder-decoderattention layer最后是一个全连接层。前两个sub-layer都是基于multi-head attentionlayer。具体的,左侧的Nx表示编码器的其中一层的结构,这一层中包括两个子层,第一个子层为多头注意力层,第二个子层为前向传播层。每个子层的输入和输出都存在关联,当前子层的输出作为下一个子层的一个输入数据。每个子层的后面紧接着一个归一化操作,归一化操作能够提高模型的收敛速度。右侧的Nx表示解码器的其中一层的结构,解码器的一层中包括三个子层,第一个子层为mask矩阵控制的多头注意力子层,用来建模已经生成的目标端句子向量,在训练的过程中,需要一个mask矩阵来控制,使得每次多头注意力计算的时候,只计算到前t-1个词。第二个子层是多头注意力子层,是编码器和解码器之间的注意力机制,也就是在源文本中查找相关的语义信息,该层的计算使用了点积的方式。第三个子层是前向传播子层,与编码器中的前向传播子层的计算方式一致。解码器的每个子层之间也都存在着关联,当前子层的输出作为下一个子层的一个输入数据。并且解码器的每个子层之后同样紧接着一个归一化操作,以加快模型收敛。结合图5所示,声学子模型的处理结果可以直接作为语言子模型的输入特征。
继续参考图6,图6为本发明实施例中语音信息识别模型一个可选的识别过程示意图,其中,其中,encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后,输出到了decoder部分的每一个decoder中;输入待识别语句为中文“我是学生”经过语音信息识别模型的处理,输出的识别结果为:“我/是/学/生”。
继续参考图7,图7为本发明实施例中语音信息识别模型中编码器一个可选的结构示意图,其中,其输入由维度为d的查询(Q)和键(K)以及维度为d的值(V)组成,所有键计算查询的点积,并应用softmax函数获得值的权重。
继续参考图7,图7为本发明实施例中语音信息识别模型中编码器的向量示意图,其中Q,K和V的是通过输入encoder的向量x与W^Q,W^K,W^V相乘得到Q,K和V。W^Q,W^K,W^V在文章的维度是(512,64),然后假设我们inputs的维度是(m,512),其中m代表了字的个数。所以输入向量与W^Q, W^K,W^V相乘之后得到的Q、K和V的维度就是(m,64)。
继续参考图8,图8为本发明实施例中语音信息识别模型中编码器的向量拼接示意图,其中,Z0到Z7就是对应的8个并行的head(维度是(m,64)),然后concat这个8个head之后就得到了(m,512)维度。最后与W^O相乘之后就到了维度为(m,512)的输出的矩阵,那么这个矩阵的维度就和进入下一个encoder的维度保持一致。
继续参考图9,图9为本发明实施例中语音信息识别模型中编码器的编码过程示意图,其中,x1经过self-attention到了z1的状态,通过了self-attetion的张量还需要进过残差网络和Later Norm的处理,然后进入到全连接的前馈网络中,前馈网络需要进行同样的操作,进行的残差处理和正规化。最后输出的张量才可以的进入到了下一个encoder之中,然后这样的操作,迭代经过了6次,迭代处理的结果进入到decoder中。
继续参考图10,图10为本发明实施例中语音信息识别模型中解码器的解码过程示意图,其中,decoder的输入输出和解码过程:
输出:对应i位置的输出词的概率分布;
输入:encoder的输出&对应i-1位置decoder的输出。所以中间的attention不是self-attention,它的K,V来自encoder,Q来自上一位置decoder的输出。
继续参考图11和图12,图11为本发明实施例中语音信息识别模型中解码器的解码过程示意图,其中。解码器网络的最后一个decoder输出的向量会经过Linear层和softmax层。图12为本发明实施例中语音信息识别模型中解码器的解码过程示意图,Linear层的作用就是对decoder部分出来的向量做映射成一个logits向量,然后softmax层根据这个logits向量,将其转换为了概率值,最后找到概率最大值的位置,即完成了解码器的输出。
步骤304:语音信息识别装置通过语音信息识别模型中的语言子模型对所述语音识别结果进行语义识别处理,得到所述语音识别结果对应的文字通顺度。
结合图2所示的模型结构,参见图13,图13为本发明实施例提供的语音信息识别方法一个可选的流程示意图,可以理解地,图13所示的步骤可以由运行语音信息识别装置的各种电子设备执行,以得到待识别语音信息对应的字音特征向量和字形特征向量,具体包括以下步骤:
步骤1301:根据所述目标语音信息的识别环境,通过所述语音信息识别模型中的字音编码器网络,提取所述待识别语音信息中每一个字符对应的拼音,以及所述待识别语音信息中每一个字符对应的语调。
步骤1302:根据所述待识别语音信息中每一个字符对应的拼音,以及所述待识别语音信息中每一个字符对应的语调,确定所述待识别语音信息中每一个字符级别的单一字符读音特征向量。
步骤1303:通过所述语音信息识别模型中的字音编码器网络,对所述待识别语音信息中每一个字符对应的单一字符读音特征向量进行组合处理,形成语句级别的读音特征向量。
在本发明的一些实施例中,进行字音识别处理时,语句级别字音编码采用4层的Transformer模型,输入为字级别字音编码器的输出。需要说明的是,门控循环单元网络(GRU Gated Recurrent Unit)是比LSTM参数更少的能够很好处理序列信息的模型,接下来将融合特征输入前馈神经网络,目的是为了处理其他特征的有效信息。将错误字符识别作为预测发生概率问题,使用sigmoid函数(逻辑函数)作为输出层,损失函数是标准的交叉熵损失,可以参考公式1:
其中,GRU层是为了进行深度特征抽取,也可以省略GRU层替换为多拼接几层前馈神经网络层,同样能够有效的处理和融合特征。
在本发明的一些实施例中,还可以通过所述文字语音转换服务器,根据发音词典将所述待识别文本所包含的每个字符转换成音节标识;构建所述音节标识与所述待识别文本所包含的字符之间的映射关系集合,形成不同的音节组合序列,作为所述待识别语音信息特征集合中的元素。具体来说,待识别文本为中文时,每个汉字为一个字符,每个字符的读音对应音节标识。例如,待识别语音信息为“为”字,其读音可以是第二声,也可以是第四声,每个读音分配一个标识ID(Identifier)用于作为音节标识,进而构建音节标识与待识别文本所包含的字符之间的映射关系集合,形成不同的音节组合序列,作为待识别语音信息特征集合中的元素,进一步地,语音信息为“触发”时,可以为每个读音分配一个标识ID(Identifier)用于作为音节标识,即“chu/fa”,进而构建音节标识与待识别文本所包含的字符之间的映射关系集合,形成不同的音节组合序列,作为待识别语音信息特征集合中的元素。
步骤1304:基于所述语句级别的读音特征向量,确定所述待识别语音信息对应的字音特征向量。
步骤1305:通过语音信息识别模型中的语言子模型的字形编码器网络,对所述语音识别结果对应的字符图像进行单一化提取,并通过所述字形编码器网络对经过单一化处理的字符图像进行降噪处理。
步骤1306:通过所述字形编码器网络对经过降噪处理的字符的图像进行交叉降采样处理,得到所述字符图像的降采样结果,并对所述降采样结果进行归一化处理。
步骤1307:对所述字符图像的降采样结果进行横向规范化处理,得到横向规范化处理结果。
其中,横向规范化处理综合考虑一层所有维度的输入,计算该层的平均输入值和输入方差,然后用同一个规范化操作来转换各个维度的输入。横向规范化处理(LayerNormalization)针对单个训练样本进行,不依赖于其他数据,因此可以避免BN中受mini-batch数据分布影响的问题,可以用于小mini-batch场景、动态网络场景和RNN,特别是自然语言处理领域。此外,LN不需要保存 mini-batch的均值和方差,节省了额外的存储空间。
步骤1308:根据所述横向规范化处理结果,确定与待识别语音信息对应的字形特征向量。
步骤1309:对所述语音识别结果对应的字形特征向量进行转换处理,得到所述语音识别结果对应的文字通顺度。
在本发明的一些实施例中,语言子模型还可以携带字形模型,字形模型可以采用连接短时分类模型或者LF-MMI(Lattice-Free Maximum MutualInformation,无格最大互信息)模型,具体来说,获取语音识别结果对应的待识别图像,其中,所述待识别图像包括所述语音识别结果中的待识别文字通过所述语言子模型从所述待识别图像中提取图像特征,并根据所述图像特征确定与所述待识别文字所对应候选文字的第一编码序列以及第一概率,所述第一编码序列包括所述候选文字中各字符组的编码信息,所述第一概率表示所述待识别文字是所述候选文字的概率;根据所述候选文字的第二编码序列,获取所述候选文字对应的第二概率,所述第二编码序列包括所述候选文字中各字符的编码信息,所述第二概率表示所述候选文字是正确文字的概率;根据所述第一概率和所述第二概率,确定所述语音识别结果对应的文字通顺度。
参考图14,图14为本发明实施例中语音信息识别模型的识别过程示意图以N元文法语言模型为例,N元文法语言模型的功能是计算给定上文计算下文出现概率。计算公式参考公式2:
其中,计算给定前i-1个词,第i个词出现的概率。一般情况下,考虑上文的长度,一般会截取前m个上文词,即考虑前m个词作为上文,计算当前词的出现概率。语言模型最简单的应用就是输入法。通常输入法都会有联想功能,在输入的过程中不需要输入完整的文字,只需要输入部分文字,下文会联想出来。比如,考虑输入“腾讯微”,很多情况下,输入这三个字之后,输入法会自动联想出“信”,即“腾讯微信”。这表明,输入法认为,在输入“腾讯微”这三个字后,下一个字最有可能是“信”字。这种根据语义修正识别结果的功能在自动语音识别中很有帮助。比如一段语音中包含了“深圳”这两个字,但在识别过程中被识别成了“深真”。而显然,作为“真”的音近字,“圳”出现在“深”的后边语义更通顺。因此,对语音识别结果进行语义识别处理,得到语音识别结果对应的文字通顺度;并且根据不同语音识别结果所分别对应的文字通顺度进行筛选,可以对出现识别错误的语音信息进行纠正。
在本发明的一些实施例中,如果只考虑声学子模型,待识别语音信息中的文字被识别成了“举世属目”。显然,这个识别结果是不对的。识别错的第三个字,“瞩”识别成了“属”,出现了对近似读音的文本信息的识别错误。
由于声学子模型的输出是每一个字的归一化概率,参考公式3:
确定语音识别结果对应的文字通顺度时,在第三个字的出现的位置,“属”出现的概率大于“瞩”出现的概率。因此只考虑发音,“属”字被识别出来。然而,前两个字是“举也”,第三个字是“属”的概率很低(举:也-3.28,也:瞩-2.83,分数越接近0越准确),但前两个字是“举世”,第三个字是“瞩”的概率非常高(举:世-1.70,世:瞩-1.04)。因此,考虑了语言模型的语义信息,第二个字和第三个字被识别为“举世瞩”,识别正确。类似的,第四个字,“瞩”字之后出现“目”字的概率(-0.60)明显好于“属”字之后出现“目”字的概率(-3.42)。因此,语音信息中“举世瞩目”可以通过图4所示的模型结构实现准确地识别。
当确定若干个语音识别结果对应的文字通顺度之后,可以继续执行步骤305。
步骤305:语音信息识别装置根据不同语音识别结果所分别对应的文字通顺度进行筛选,获得对所述目标语音信息的识别结果。
在本发明的一些实施例中,可以根据所述目标语音信息的识别环境,确定所述目标语音信息的识别结果数量;
对不同语音识别结果所分别对应的文字通顺度进行排序;
根据所述目标语音信息的识别结果数量,对不同语音识别结果所分别对应的文字通顺度的排序结果进行筛选,得到相应的语音识别结果,获得对所述目标语音信息的识别结果。其中,在普通话使用环境中,可以通过即时通讯客户端的语音助手,确定排序结果中第一位的一个音识别结果向用户进行推荐,由用户点击确认,在方言使用环境中,可以通过即时通讯客户端的语音助手,在终端的显示界面中呈现2个以上的识别结果供用户选择使用,避免由于方言中的近似读音所造成的语音识别的不准确。
当然在服务器中部署语音信息识别模型之前,还需对语音信息识别模型进行训练以确定模型参数,具体来说,可以根据所述目标语音信息的识别环境类型,确定与所述语音信息识别模型相匹配的训练样本集合,其中,所述训练样本集合包括至少一组训练样本;通过所述语音信息识别模型相匹配的噪音阈值提取与所述训练样本相匹配的训练样本集合;根据与所述训练样本相匹配的训练样本集合对所述语音信息识别模型进行训练。训练过程中,可以确定与所述语音信息识别模型相匹配的多任务损失函数;基于所述多任务损失函数,调整所述语音信息识别模型中的不同编码器网络参数和解码器网络参数,直至所述语音信息识别模型对应的不同维度的损失函数达到相应的收敛条件;以实现所述语音信息识别模型的参数与目标语音信息的识别环境类型相适配。
在训练完成之后,可以通过语音测试集对语音信息识别模型进行检测,具体来说,语音测试集的类型包括:智能音箱测试集、新闻测试集、游戏测试集以及直播测试集,在使用传统的语音识别和本申请所提供的语音信息识别方法时,出现识别错误的概率参考表1。
表1
由表1可见,通过本申请提供的语音信息识别方法,对自动语音识别的准确率有较大的提升,提升幅度达到7%~10%,由此,对近似读音的语音信息的识别准确度更高,提升用户的使用体验。
下面以封装于相应APP中的语音信息识别模型对本发明实施例所提供的语音信息识别模型进行说明,其中,如图15所示,本发明所提供的语音识别模型训练方法可以作为云服务的形式服务各个类型的客户(例如:封装于车载终端或者封装于不同的移动电子设备中),其中,本发明所提供的语音识别模型训练方法可以作为云服务的形式服务可类型的客户(封装于车载终端或者封装于不同的移动电子设备中),图15为本发明实施例所提供的语音信息识别模型的工作过程示意图,具体包括以下步骤:
步骤1501:获取待处理语音信息和关联语音信息,并触发即时通讯APP中的语音信息识别模型。
步骤1502:基于即时通讯APP中对话信息,确定使用语境类型。
其中,用户可以通过相应的语音指令对电子设备进行语音控制,执行与唤醒语音特征相匹配的任务,来替代传统的手动操作,具体来说,用户输入目标语音信息时,仅仅需要通过语音指令说出所需任务操作对应的唤醒词,即可通过语音控制方式,控制电子设备执行相应的操作。例如:当电子设备为车载智能中控系统时,电子设备的唤醒词为“准备出发的地图”或者“准备触发音乐”,由于智能设备可以随时采集到音频数据,电子设备可以采集到音频数据准备出发的地图”或者“准备触发音乐”,并通过电子设备执行与所述唤醒语音特征相匹配的任务,实现电子设备播放歌曲或者调用车载地图。
步骤1503:获取目标语音信息,并且对所述目标语音信息进行特征提取处理,得到待识别语音信息;
步骤1504:通过语音信息识别模型对所述待识别语音信息进行字义识别处理,得到所述待识别语音信息对应的字义特征向量;
步骤1505:通过语音信息识别模型中的声学子模型对所述待识别语音信息进行字音识别处理,得到所述待识别语音信息对应的字音特征向量;
步骤1506:通过语音信息识别模型中的语言子模型对所述待识别语音信息进行语义识别处理,得到所述待识别语音信息对应的字形特征向量;
步骤1507:对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到融合特征向量;
步骤1508:与阈值比较,执行不同处理的语音信息对应的指令。
具体来说,当与阈值比较后,可以确定目标语音信息的识别结果,当确定电子设备可以采集到音频数据为“准备触发音乐”时,可以调用音乐播放程序播放歌曲,以节省用户的手动操作时间。
有益技术效果:
本发明实施例通过获取目标语音信息,并且对所述目标语音信息进行特征提取处理,得到待识别语音信息;通过语音信息识别模型中的声学子模型对所述待识别语音信息进行字音识别处理,得到所述待识别语音信息对应的字音特征向量;通过语音信息识别模型中的声学子模型对所述字音特征向量进行处理,得到至少一个语音识别结果;通过语音信息识别模型中的语言子模型对所述语音识别结果进行语义识别处理,得到所述语音识别结果对应的文字通顺度;根据不同语音识别结果所分别对应的文字通顺度进行筛选,以实现对所述目标语音信息的识别,由此,可以高效地对待识别语音信息进行识别,同时能够使得语音识别模型的泛化能力更强,有利于语音识别模型在各类型智能设备中的大规模部署,另外通过语音信息识别模型不仅省去了人工标注混淆集的繁琐步骤,而且可以减少由于近似读音对语音信息识别的干扰,对近似读音的语音信息的识别准确度更高,提升用户的使用体验。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种语音信息识别方法,其特征在于,所述方法包括:
获取目标语音信息,并且对所述目标语音信息进行特征提取处理,得到待识别语音信息;
根据所述目标语音信息的识别环境,通过语音信息识别模型中的字音编码器网络,提取所述待识别语音信息中每一个字符对应的拼音,以及所述待识别语音信息中每一个字符对应的语调;
根据所述待识别语音信息中每一个字符对应的拼音,以及所述待识别语音信息中每一个字符对应的语调,确定所述待识别语音信息中每一个字符级别的单一字符读音特征向量;
通过所述语音信息识别模型中的字音编码器网络,对所述待识别语音信息中每一个字符对应的单一字符读音特征向量进行组合处理,形成语句级别的读音特征向量;
基于所述语句级别的读音特征向量,确定所述待识别语音信息对应的字音特征向量;
通过语音信息识别模型中的声学子模型对所述字音特征向量进行处理,得到至少一个语音识别结果;
通过语音信息识别模型中的语言子模型对所述语音识别结果进行语义识别处理,得到所述语音识别结果对应的文字通顺度;
根据不同语音识别结果所分别对应的文字通顺度进行筛选,获得对所述目标语音信息的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取目标语音信息,并且对所述目标语音信息进行特征提取处理,得到待识别语音信息,包括:
根据所述目标语音信息的识别环境,提取所述目标语音信息所携带的语音参数信息,触发相应的分词库;
通过所触发的所述分词库单词词典对所述目标语音信息进行分词处理,提取中文字符文本,形成不同的词语级特征向量;
对所述不同的词语级特征向量进行除噪处理,形成与所述目标语音信息相对应的词语级特征向量集合。
3.根据权利要求2所述的方法,其特征在于,所述对所述不同的词语级特征向量进行除噪处理,形成与所述目标语音信息相对应的词语级特征向量集合,包括:
确定与所述目标语音信息的识别环境相匹配的动态噪声阈值;
根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;
根据与所述动态噪声阈值相匹配的动态分词策略,对所述目标语音信息进行分词处理,提取所述目标语音信息中的动态词语级特征向量集合。
4.根据权利要求2所述的方法,其特征在于,所述对所述不同的词语级特征向量进行除噪处理,形成与所述目标语音信息相对应的词语级特征向量集合,包括:
确定与所述目标语音信息的识别环境相对应的固定噪声阈值;
根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述固定噪声阈值相匹配的固定分词策略;
根据与所述固定噪声阈值相匹配的固定分词策略,对所述目标语音信息进行分词处理,提取所述目标语音信息中的固定词语级特征向量集合。
5.根据权利要求1所述的方法,其特征在于,所述通过语音信息识别模型中的语言子模型对所述语音识别结果进行语义识别处理,得到所述语音识别结果对应的文字通顺度,包括:
通过语音信息识别模型中的语言子模型的字形编码器网络,对所述语音识别结果对应的字符图像进行单一化提取;
通过所述字形编码器网络对经过单一化处理的字符图像进行降噪处理;
通过所述字形编码器网络对经过降噪处理的字符的图像进行交叉降采样处理,得到所述字符图像的降采样结果,并对所述降采样结果进行归一化处理;
对所述字符图像的降采样结果进行横向规范化处理,得到横向规范化处理结果;
根据所述横向规范化处理结果,确定与所述语音识别结果对应的字形特征向量;
对所述语音识别结果对应的字形特征向量进行转换处理,得到所述语音识别结果对应的文字通顺度。
6.根据权利要求1所述的方法,其特征在于,所述通过语音信息识别模型中的语言子模型对所述语音识别结果进行语义识别处理,得到所述语音识别结果对应的文字通顺度,包括:
获取语音识别结果对应的待识别图像,其中,所述待识别图像包括所述语音识别结果中的待识别文字;
通过所述语言子模型从所述待识别图像中提取图像特征,并根据所述图像特征确定与所述待识别文字所对应候选文字的第一编码序列以及第一概率,所述第一编码序列包括所述候选文字中各字符组的编码信息,所述第一概率表示所述待识别文字是所述候选文字的概率;
根据所述候选文字的第二编码序列,获取所述候选文字对应的第二概率,所述第二编码序列包括所述候选文字中各字符的编码信息,所述第二概率表示所述候选文字是正确文字的概率;
根据所述第一概率和所述第二概率,确定所述语音识别结果对应的文字通顺度。
7.根据权利要求1所述的方法,其特征在于,所述根据不同语音识别结果所分别对应的文字通顺度进行筛选,获得对所述目标语音信息的识别结果,包括:
根据所述目标语音信息的识别环境,确定所述目标语音信息的识别结果数量;
对不同语音识别结果所分别对应的文字通顺度进行排序;
根据所述目标语音信息的识别结果数量,对不同语音识别结果所分别对应的文字通顺度的排序结果进行筛选,得到相应的语音识别结果,获得对所述目标语音信息的识别结果。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述目标语音信息的识别环境类型,确定与所述语音信息识别模型相匹配的训练样本集合,其中,所述训练样本集合包括至少一组训练样本;
通过所述语音信息识别模型相匹配的噪音阈值提取与所述训练样本相匹配的训练样本集合;
根据与所述训练样本相匹配的训练样本集合对所述语音信息识别模型进行训练。
9.根据权利要求8所述的方法,其特征在于,所述根据与所述训练样本相匹配的训练样本集合对所述语音信息识别模型进行训练,包括:
确定与所述语音信息识别模型相匹配的多任务损失函数;
基于所述多任务损失函数,调整所述语音信息识别模型中的不同编码器网络参数和解码器网络参数,直至所述语音信息识别模型对应的不同维度的损失函数达到相应的收敛条件;以实现所述语音信息识别模型的参数与目标语音信息的识别环境类型相适配。
10.根据权利要求8所述的方法,其特征在于,所述方法还包括:
基于所述目标语音信息的使用环境,确定与所述目标语音信息相匹配的发音规则;
基于所述发音规则,生成与所述目标语音信息对应的语音信息的发音;
将所述目标语音信息对应的语音信息的发音添加至第一发音词典中,形成第二发音词典,以实现通过所述第二发音词典对所述声学子模型的训练结果进行检测。
11.根据权利要求10所述的方法,其特征在于,所述基于所述目标语音信息的使用环境,确定与所述目标语音信息相匹配的发音规则,包括:
当所目标语音信息的类型为方言类型时,通过方言类型的正则匹配,确定所述目标语音信息中的方言类型目标语音信息;
基于所述方言类型的正则表达式,确定所述方言类型目标语音信息所归属的子类型;
根据所述方言类型目标语音信息所归属的子类型,确定与所述目标类型的文本信息相匹配的发音规则,其中所述发音规则包括所述方言类型目标语音信息所有相匹配的发音组合。
12.一种语音信息识别装置,其特征在于,所述装置包括:
信息传输模块,用于获取目标语音信息,并且对所述目标语音信息进行特征提取处理,得到待识别语音信息;
信息处理模块,用于根据所述目标语音信息的识别环境,通过语音信息识别模型中的字音编码器网络,提取所述待识别语音信息中每一个字符对应的拼音,以及所述待识别语音信息中每一个字符对应的语调;
所述信息处理模块,用于根据所述待识别语音信息中每一个字符对应的拼音,以及所述待识别语音信息中每一个字符对应的语调,确定所述待识别语音信息中每一个字符级别的单一字符读音特征向量;
所述信息处理模块,用于通过所述语音信息识别模型中的字音编码器网络,对所述待识别语音信息中每一个字符对应的单一字符读音特征向量进行组合处理,形成语句级别的读音特征向量;
所述信息处理模块,用于基于所述语句级别的读音特征向量,确定所述待识别语音信息对应的字音特征向量;
所述信息处理模块,用于通过语音信息识别模型中的声学子模型对所述字音特征向量进行处理,得到至少一个语音识别结果;
所述信息处理模块,用于通过语音信息识别模型中的语言子模型对所述语音识别结果进行语义识别处理,得到所述语音识别结果对应的文字通顺度;
所述信息处理模块,用于根据不同语音识别结果所分别对应的文字通顺度进行筛选,获得对所述目标语音信息的识别结果。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至11任一项所述的语音信息识别方法。
14.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至11任一项所述的语音信息识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111115243.6A CN113555006B (zh) | 2021-09-23 | 2021-09-23 | 一种语音信息识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111115243.6A CN113555006B (zh) | 2021-09-23 | 2021-09-23 | 一种语音信息识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113555006A CN113555006A (zh) | 2021-10-26 |
CN113555006B true CN113555006B (zh) | 2021-12-10 |
Family
ID=78106564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111115243.6A Active CN113555006B (zh) | 2021-09-23 | 2021-09-23 | 一种语音信息识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113555006B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020098A (zh) * | 2012-07-11 | 2013-04-03 | 腾讯科技(深圳)有限公司 | 提供具有语音识别功能的导航业务的搜索方法 |
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN110211588A (zh) * | 2019-06-03 | 2019-09-06 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及电子设备 |
CN111862954A (zh) * | 2020-05-29 | 2020-10-30 | 北京捷通华声科技股份有限公司 | 一种语音识别模型的获取方法及装置 |
CN112349294A (zh) * | 2020-10-22 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 语音处理方法及装置、计算机可读介质、电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102260216B1 (ko) * | 2019-07-29 | 2021-06-03 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버 |
-
2021
- 2021-09-23 CN CN202111115243.6A patent/CN113555006B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020098A (zh) * | 2012-07-11 | 2013-04-03 | 腾讯科技(深圳)有限公司 | 提供具有语音识别功能的导航业务的搜索方法 |
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN110211588A (zh) * | 2019-06-03 | 2019-09-06 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及电子设备 |
CN111862954A (zh) * | 2020-05-29 | 2020-10-30 | 北京捷通华声科技股份有限公司 | 一种语音识别模型的获取方法及装置 |
CN112349294A (zh) * | 2020-10-22 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 语音处理方法及装置、计算机可读介质、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113555006A (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
WO2021072875A1 (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN111862977B (zh) | 一种语音对话处理方法和系统 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112037773B (zh) | 一种n最优口语语义识别方法、装置及电子设备 | |
JP7266683B2 (ja) | 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム | |
CN111739520B (zh) | 一种语音识别模型训练方法、语音识别方法、装置 | |
CN113707125B (zh) | 一种多语言语音合成模型的训练方法及装置 | |
US11961515B2 (en) | Contrastive Siamese network for semi-supervised speech recognition | |
Zhao et al. | End-to-end-based Tibetan multitask speech recognition | |
CN114360504A (zh) | 音频处理方法、装置、设备、程序产品及存储介质 | |
CN112185361A (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
CN112599129B (zh) | 语音识别方法、装置、设备和存储介质 | |
CN113761883A (zh) | 一种文本信息识别方法、装置、电子设备及存储介质 | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
KR20210051523A (ko) | 도메인 자동 분류 대화 시스템 | |
CN113555006B (zh) | 一种语音信息识别方法、装置、电子设备及存储介质 | |
CN115374784A (zh) | 一种多模态信息选择性融合的中文命名实体识别方法 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
Harere et al. | Quran recitation recognition using end-to-end deep learning | |
CN113096646A (zh) | 音频识别方法、装置、电子设备及存储介质 | |
Venkatasubramanian et al. | A Deep Convolutional Neural Network-Based Speech-to-Text Conversion for Multilingual Languages | |
Yang et al. | Self-Supervised Learning with Multi-Target Contrastive Coding for Non-Native Acoustic Modeling of Mispronunciation Verification. | |
Chen et al. | Robust dialogue act detection based on partial sentence tree, derivation rule, and spectral clustering algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40055187 Country of ref document: HK |