CN110176230A - 一种语音识别方法、装置、设备和存储介质 - Google Patents
一种语音识别方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN110176230A CN110176230A CN201811508402.7A CN201811508402A CN110176230A CN 110176230 A CN110176230 A CN 110176230A CN 201811508402 A CN201811508402 A CN 201811508402A CN 110176230 A CN110176230 A CN 110176230A
- Authority
- CN
- China
- Prior art keywords
- keyword
- weight
- state diagram
- true edge
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000010586 diagram Methods 0.000 claims abstract description 238
- 230000005284 excitation Effects 0.000 claims abstract description 52
- 238000013138 pruning Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 17
- 230000002708 enhancing effect Effects 0.000 description 12
- 238000012546 transfer Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000339337 Saturnia pavonia Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音识别方法、装置、设备和存储介质。本发明实施例加载预设的第一状态图和第二状态图;在第一状态图中提取基准边,在第二状态图中查找与基准边标签相同的边,作为关键词边;获取基准边的权重,根据基准边的权重更新关键词边的权重;将第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重;将待识别语音输入预设语音识别模型,得到语音识别模型输出的词序列路径,语音识别模型包括语言识别模型;根据语言识别模型中边的激励权重,在词序列路径中选出目标路径,得到语音识别结果。该方案提高了语音识别结果中关键词出现的概率,在保障语音识别速度的同时,提升了语音识别结果的准确性。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种语音识别方法、装置、设备和存储介质。
背景技术
语音识别技术能够将人类语音转换成为对应的字符或编码,在智能家居、实时语音转写等领域应用广泛。解码器根据人们说出的语音,在由声学模型、字典和语言模型等知识源组成的搜索空间中搜出最佳的词序列,将得到的词序列组合即可得到该语音对应的文本描述,也即识别结果。
目前,进行语音识别时使用的语言识别模型通常是对大语言模型剪枝得到的,在语言层为解码器提供词的搜索路径。剪枝后的语言模型数据量较小,信息较为匮乏,虽然能够适当提高语音识别速度,但是导致了准确性的降低。
发明内容
本发明实施例提供一种语音识别方法、装置、设备和存储介质,旨在提高语音识别的准确性。
本发明实施例提供一种语音识别方法,包括:
加载预设的第一状态图和第二状态图,所述第一状态图为关键词语言模型的状态图,所述第二状态图为大语言模型的状态图;
在所述第一状态图中提取基准边,在所述第二状态图中查找与所述基准边标签相同的边,作为关键词边;
获取所述基准边的权重,根据基准边的权重更新所述关键词边的权重;
将所述第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,所述语言识别模型为所述大语言模型剪枝后的语言模型;
将待识别语音输入预设语音识别模型,得到所述语音识别模型输出的词序列路径,所述语音识别模型包括所述语言识别模型;
根据所述语言识别模型中边的激励权重,在所述词序列路径中选出目标路径,得到语音识别结果。
在一些实施例中,所述在所述第一状态图中提取基准边,包括:
获取所述第一状态图的起始节点,根据预设的遍历深度和所述起始节点确定基准边。
在一些实施例中,所述根据预设的遍历深度和所述起始节点获取基准边,包括:
将所述起始节点的输出边确定为第一基准边;
在预设的递归深度内,对所述第一基准边进行递归,获取所述第一基准边的递归边;
若所述递归边的输出标签不是预设符号,则将所述递归边确定为第二基准边。
在一些实施例中,在所述第二状态图中查找与所述基准边标签相同的边,作为关键词边,包括:
在所述第二状态图中,查找与所述第一基准边标签相同的边,作为第一关键词边;
在所述第一关键词边的递归边中,查找与所述第二基准边标签相同的边,作为第二关键词边。
在一些实施例中,所述根据基准边的权重更新所述关键词边的权重,包括:
获取预设的插值参数及所述关键词边的初始权重;
根据所述基准边的权重、插值参数和关键词边的初始权重,计算得到关键词边的目标权重;
使用所述目标权重,替换所述第二状态图中所述关键词边的初始权重。
在一些实施例中,所述方法还包括:
若在所述第二状态图中未找到与所述基准边标签相同的边,则将所述基准边映射到所述第二状态图中,得到关键词边。
在一些实施例中,所述方法还包括:
在所述第二状态图中,筛选出标签与预设词表中的词相同的边,作为关键词起始边;
获取所述关键词起始边的初始权重,根据预设的比例系数和所述关键词起始边的初始权重,更新所述关键词起始边的权重;
将所述第二状态图中关键词起始边更新后的权重,配置为语言识别模型中对应边的激励权重。
在一些实施例中,所述在所述第二状态图中,筛选出标签与预设词表中的词相同的边,作为关键词起始边之前,包括:
对所述关键词进行分词处理,将分词得到的第一个词配置到预设的词表中。
在一些实施例中,所述方法还包括:
获取预设的关键词,根据所述关键词训练关键词语言模型;
构建所述关键词语言模型的加权有限状态转换器,获取所述关键词语言模型加权有限状态转换器指示的状态图为第一状态图。
在一些实施例中,所述方法还包括:
获取预设的通用语料,根据所述通用语料训练大语言模型;
构建所述大语言模型的加权有限状态转换器,获取所述大语言模型加权有限状态转换器指示的状态图为第二状态图。
在一些实施例中,所述方法还包括:
实时采集待识别语音。
本发明实施例还提供一种语音识别装置,包括:
加载单元,用于加载预设的第一状态图和第二状态图,所述第一状态图为关键词语言模型的状态图,所述第二状态图为大语言模型的状态图;
关键词单元,用于在所述第一状态图中提取基准边,在所述第二状态图中查找与所述基准边标签相同的边,作为关键词边;
更新单元,用于获取所述基准边的权重,根据基准边的权重更新所述关键词边的权重;
激励单元,用于将所述第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,所述语言识别模型为所述大语言模型剪枝后的语言模型;
识别单元,用于将待识别语音输入预设语音识别模型,得到所述语音识别模型输出的词序列路径,所述语音识别模型包括所述语言识别模型;
结果单元,用于根据所述语言识别模型中边的激励权重,在所述词序列路径中选出目标路径,得到语音识别结果。
本发明实施例还提供一种语音识别设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序,所述语音识别程序被所述处理器执行时实现本发明实施例所提供的任一语音识别方法的步骤。
在一些实施例中,所述设备还包括语音采集装置,所述语音采集装置用于实时采集待识别语音。
本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一语音识别方法的步骤。
本发明实施例加载预设的第一状态图和第二状态图,第一状态图为关键词语言模型的状态图,第二状态图为大语言模型的状态图;在第一状态图中提取基准边,在第二状态图中查找与基准边标签相同的边,作为关键词边;获取基准边的权重,根据基准边的权重更新关键词边的权重;将第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,语言识别模型为大语言模型剪枝后的语言模型;将待识别语音输入预设语音识别模型,得到语音识别模型输出的词序列路径,语音识别模型包括语言识别模型;根据语言识别模型中边的激励权重,在词序列路径中选出目标路径,得到语音识别结果。由于关键词语言模型的语料远小于大语言模型的语料,因此,第一状态图中关键词的边权重大于第二状态图中同一关键词边的权重。该方案使用第一状态图关键词边的权重,增强第二状态图中同一关键词边的权重,进而激励语音识别模型中关键词边的权重,从而在语音识别时,提高语言识别模型中包含关键词的路径中边的权重,进而提高包含关键词的路径作为识别结果的概率。由此,该方案提高了语音识别结果中关键词出现的概率,在保障语音识别速度的同时,提升了语音识别结果的准确性。并且,该方案还适用于各种主题场景,可以利用各主题场景的关键词来提高语音识别结果的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的信息交互系统的场景示意图;
图1b是本发明实施例提供的语音识别方法的流程示意图;
图2是本发明实施例提供的另一语音识别方法的流程示意图;
图3a是本发明实施例提供的第一状态图示意图;
图3b是本发明实施例提供的第二状态图示意图;
图3c是本发明实施例提供的另一第二状态图示意图;
图4a是本发明实施例提供的语音识别装置结构示意图;
图4b是本发明实施例提供的另一语音识别装置结构示意图;
图5a是本发明实施例提供的语音识别设备结构示意图;
图5b是本发明实施例提供的语音识别设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种语音识别方法、装置、设备及存储介质。
本发明实施例提供一种信息交互系统,该系统包括本发明实施例任一提供的语音识别装置,该语音识别装置可以集成在服务器等设备中;此外,该系统还可以包括其他设备,比如终端等。终端可以是移动终端或个人计算机(PC,Personl Computer)等设备。
参考图1a,本发明实施例提供一种信息交互系统,包括服务器和终端,语音识别装置集成在该服务器中。
用户可使用终端输入需要增强的关键词,终端将用户输入的关键词发送给服务器。或者,用户直接在服务器中输入关键词,由服务器根据用户输入的关键词训练关键词模型,获取第一状态图。第二状态图可以是预设的。终端可以实时采集待识别语音,输入服务器中。
服务器加载预设的第一状态图和第二状态图,第一状态图为关键词语言模型的状态图,第二状态图为大语言模型的状态图;在第一状态图中提取基准边,在第二状态图中查找与基准边标签相同的边,作为关键词边;获取基准边的权重,根据基准边的权重更新关键词边的权重;将第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,语言识别模型为大语言模型剪枝后的语言模型;将待识别语音输入预设语音识别模型,得到语音识别模型输出的词序列路径,所述语音识别模型包括所述语言识别模型;根据语言识别模型中边的激励权重,在词序列路径中选出目标路径,得到语音识别结果。
由于关键词语言模型的语料远小于大语言模型的语料,因此,第一状态图中关键词的边权重大于第二状态图中同一关键词边的权重。语音识别装置使用第一状态图关键词边的权重,增强第二状态图中同一关键词边的权重,进而激励语音识别模型中关键词边的权重,从而在语音识别时,提高语言识别模型中包含关键词的路径中边的权重,进而提高包含关键词的路径作为识别结果的概率。由此,该方案提高了语音识别结果中关键词出现的概率,在保障语音识别速度的同时,提升了语音识别结果的准确性。
上述图1a的例子只是实现本发明实施例的一个系统架构实例,本发明实施例并不限于上述图1a所示的系统结构,基于该系统架构,提出本发明各个实施例。
在本实施例中,将从语音识别装置的角度进行描述,该语音识别装置具体可以集成在网络设备如服务器等设备中。如图1b所示,该语音识别方法的具体流程可以如下:
101、加载预设的第一状态图和第二状态图,第一状态图为关键词语言模型的状态图,第二状态图为大语言模型的状态图。
其中,第一状态图即为关键词语言模型的加权有向状态图,记载了各个节点和节点之间的有向连接关系,以描述关键词语言模型中关键词对象的可能状态以及状态的转移路径。其中,节点即为关键词对象的状态,节点根据次序连接形成有向边,边连接形成关键词的转移路径,每条路径即为关键词的词序列路径,包含了关键词对象及关键词对象的输出顺序。
第一状态图中,每条边有对应的标签和权重。其中,标签包括输入标签和输出标签,输入标签和输出标签相同,即为关键词对象;权重表征了边出现在转移路径中的概率,权重可以是概率值,也可以根据概率值计算得到。以第一状态图中任意一条边为例,以10为底或以e为底,对该边的概率取对数(log)值,将计算得到的对数值作为该边的权重。
关键词语言模型可以是根据预设关键词构建的语言模型,例如n-gram(n元汉语言模型)。本实施例中,以n为3,关键词语言模型为三阶的tri-gram(三元语言模型)为例进行说明,也即关键词语言模型的中第3个词的出现只与前2个词相关,与其他任何词不相关。
第二状态图为大语言模型的有向状态图,记载了各个节点和节点的有向连接关系,以描述大语言模型中词对象的可能状态以及状态的转移路径。其中,节点即为词对象的状态,节点根据次序连接形成有向边,边连接形成词的转移路径,每条路径即为词的词序列路径,包含了词对象及词对象的输出顺序。第二状态图中,每条边有对应的标签和权重。其中,标签包括输入标签和输出标签,输入标签和输出标签相同,即为词对象;权重表征了边出现在转移路径中的概率,权重可以是概率值,也可以根据概率值计算得到。大语言模型可以为语料信息丰富且未经过剪枝的大规模语言模型。
由于语言模型的不同,第一状态图和第二状态图中标签相同的边权重可能不同。
在一些实施例中,语音识别装置可以获取预设的关键词,根据关键词训练关键词语言模型;构建关键词语言模型的加权有限状态转换器,获取关键词语言模型加权有限状态转换器指示的状态图为第一状态图。
其中,预设的关键词可以是待识别语音所在领域的相关语料,具体可根据需要灵活配置。预设的关键词可以有一个或多个。
加权有限状态转换器为Weighted Finite-State Transducers,本实施例中可简称为WFST。WFST能够识别从词的初始状态到结束状态的整条路径,词的状态可以理解为节点。而节点根据次序连接形成有向边,边有对应的标签和权重。其中,标签包括输入标签和输出标签,输入标签和输出标签相同。权重表征了边出现在整条路径中的概率,权重可以是概率值,也可以根据概率值计算得到。整条路径的概率可以根据路径中各个边的权重或概率计算得到。
语音识别装置将关键词作为训练语料,输入tri-gram进行训练,得到关键词语言模型。然后,语音识别装置构建关键词语言模型的加权有限状态转换器。由此,语音识别装置可以获取关键词语言模型WFST中的各个节点,及节点之间的连接关系,得到关键词语言模型WFST指示的状态图,将关键词语言模型WFST指示的状态图作为第一状态图。
在一些实施例中,语音识别装置可以获取预设的通用语料,根据通用语料训练大语言模型;构建大语言模型的加权有限状态转换器,获取大语言模型加权有限状态转换器指示的状态图为第二状态图。
其中,通用语料可以是人们常用的大规模语料。
语音识别装置将通用语料输入预设的语言模型,例如二阶的bi-gram(二元语言模型),进行训练,得到大语言模型。然后,语音识别装置构建大语言模型的加权有限状态转换器。由此,语音识别装置可以获取大语言模型WFST中的各个节点,及节点之间的连接关系,得到大语言模型WFST指示的状态图,将第一词语言模型WFST指示的状态图作为第二状态图。
由于关键词语言模型WFST中的关键词数量远小于大语言模型WFST中的语料数量,因此,相同的边在关键词语言模型WFST中的权重,大于其在大语言模型WFST中的权重,由此,相同的边在第一状态图中的权重大于其在语言识别模型中的权重。
在进行语音识别前,或是在进行语音识别的过程中,语音识别装置同时加载第一状态图和第二状态图。
102、在第一状态图中提取基准边,在第二状态图中查找与基准边标签相同的边,作为关键词边。
其中,若基准边包括前缀路径,则前缀路径相同,且标签相同的边即为与基准边相同的关键词边。
语音识别装置首先从第一状态图中提取出基准边,例如,可以获取第一状态图的起始节点,根据预设的遍历深度和起始节点获取基准边。
在一些实施例中,步骤“获取第一状态图的起始节点,根据预设的遍历深度和起始节点获取基准边”可以包括:将起始节点的输出边确定为第一基准边;在预设的递归深度内,对第一基准边进行递归,获取第一基准边的递归边;若递归边的输出标签不是预设符号,则将递归边确定为第二基准边。
其中,起始节点可以根据需要灵活配置。例如,本实施例中,第一状态图中的第一个节点为开始节点,第二个节点为二阶状态节点,第三个节点为一阶节点,因此,可以将第一状态图的第三个节点作为其起始节点。
递归深度可根据语言模型的阶数配置。例如,语音识别装置获取关键词语言模型的阶数,作为递归深度。本实施例中,以关键词语言模型的阶数为三阶举例,则语音识别装置将递归深度配置为3。
语音识别模型将起始节点的输出边作为第一基准边,以在第二状态图中查找相同的边。
然后,语音识别模型根据递归深度,继续查找第一状态图中可作为基准边的边。具体地,以任一第一基准边为例,语音识别模型将在预设的递归深度内,对第一基准边进行递归,获取第一基准边的递归边;若递归边的输出标签不是预设符号,则将递归边确定为第二基准边。
其中,预设符号为预设的语句结束符号和回退符号。
例如,递归深度为3,则语音识别模型将第一基准边终点节点的输出边,以及该输出边的输出边,作为3阶内的递归边,共包含4个节点。
在得到递归边后,语音识别模型检测递归边的输出标签,是否为预设符号。若递归边的输出标签不是预设的语句结束符号或回退符号,则将该递归边确定为第二基准边,需要在第二状态图中查找与其相同的边。若递归边的输出标签是预设的语句结束符号或回退符号,则将该递归边确定为非基准边,不需要在第二状态图中查找与其相同的边。
需要说明的是,以起始节点的任一输出边为例,若该输出边的输出标签为预设的回退符号,则忽略该输出边,将其作为不需要增强权重的第一基准边,不对第二状态图中与其相同的第一关键词边做权重更新。然后,语音识别装置获取该第一基准边的输出边,将该第一基准边的输出边中,输出标签不是预设符号边的作为起始节点的输出边,也即第二基准边,该第二基准边可以用来对第二状态图中与其相同的第二关键词边做权重更新。
在得到基准边后,语音识别装置在第二状态图中遍历,查找与基准边相同的关键词边。
例如,步骤“在第二状态图中查找与基准边标签相同的边,作为关键词边”可以包括:在第二状态图中,查找与第一基准边标签相同的边,作为第一关键词边;在第一关键词边的递归边中,作为与第二基准边标签相同的边,得到第二关键词边。
以任一第一基准边为例,语音识别装置在第二状态图中,查找与第一基准边标签相同的边。其中,标签相同可以指输出标签相同和/或输出标签相同。由于本实施例中,状态图中同一条边的输入标签和输出标签相同,因此,语音识别装置可以是查找与第一基准边的输入标签相同的边,或是查找与第一基准边的输出标签相同的边,或是查找与第一基准边输入标签相同且输出标签相同的边。
语音识别装置将与第一基准边标签相同的边,确定为与第一基准边相同的第一关键词边。
然后,语音识别装置根据预设的递归深度,在该第一关键词边的递归边中,查找与第二基准边标签相同的边,得到第二关键词边。其中,标签相同可以指输出标签相同和/或输出标签相同。
由此,语音识别装置分别找到与各第一基准边相同的第一关键词边,以及与各第二基准边相同的第二关键词边。
103、获取基准边的权重,根据基准边的权重更新关键词边的权重。
其中,第一状态图中记载了基准边的权重,第二状态图中记载了关键词边的初始权重。
以任一基准边为例,语音识别装置可以使用基准边的权重,替换与其相同的关键词边的权重,实现对关键词边权重的更新。
在一些实施例中,步骤“根据基准边的权重更新关键词边的权重”可以包括:获取预设的插值参数及关键词边的初始权重;根据基准边的权重、插值参数和关键词边的初始权重,计算得到关键词边的目标权重;使用目标权重,替换第二状态图中关键词边的初始权重。
其中,预设的插值参数可根据实际需要灵活配置。
语音识别装置根据第二状态图,获取与基准边相同的关键词边的初始权重。然后,语音识别装置可根据如下公式,计算关键词边的目标权重。
其中,wnew为关键词边的目标权重,wold为关键词边的初始权重,wk为基准边的权重,lambda为插值系数。
然后,语音识别装置使用关键词边的目标权重,替换掉第二状态图中该关键词边的初始权重。
若有多个基准边,则语音识别装置分别更新与各基准边相同的关键词边的权重。
104、将第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,语言识别模型为大语言模型剪枝后的语言模型。
其中,语言识别模型是对大语言模型进行剪枝得到的语言模型。语音识别装置可以对大语言模型进行剪枝处理,得到语言识别模型。例如,使用entropy-based(基于熵)的剪枝或是rank-based(基于秩的)剪枝,减掉大语言模型中不重要分支路径,使剪枝后的语言识别模型与剪枝前的大语言识别模型最大相似化,从而在压缩模型数据量的同时,减低对路径概率的影响。
第二状态图中关键词边的权重更新后,语音识别装置将第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,也可理解为配置为语言识别模型中相同边的激励权重。由于语言识别模型是经由对大语言模型剪枝得到的,因此,语言识别模型中的各边均存在于大语言模型的状态图中。语言识别模型中,边的激励权重优先级高于其初始权重。
例如,语音识别装置建立第二状态图中关键词边和语言识别模型中对应边的映射关系,进而将关键词边的目标权重配置为语言识别模型中对应边的激励权重。
本实施例不需要对语言识别模型中边的权重进行修改,即可使用激励权重来计算词序列路径的得分。
由于在不同的应用场景中,需要增强的关键词可能不同,因此,可以训练不同的关键词模型,根据得到的第一状态图来配置语言识别模型中对应边的激励权重,而不会影响到语言识别模型中的其他边。在完成语音识别后,可根据用户输入的解除指令或是切换的应用场景,来解除当前激励权重的映射关系,清除增强的关键词权重,进而去除当前关键词对语言识别模型的影响,以便于根据下一场景需求重新配置语言识别模型的激励权重,提高语音识别的准确性。
由此,本实施例使用映射关系配置激励权重,替代直接赋值的方式,提高了语言识别模型和语音识别模型的通用性。本方案适用性强,可以应用于多种场景,不会因为关键词增强而影响到后续在其他场景的使用,降低了维护成本。不同的语音识别场景或模式,均能够有效提高语音识别的准确性,避免了交叉影响。
105、将待识别语音输入预设语音识别模型,得到语音识别模型输出的词序列路径,语音识别模型包括语言识别模型。
需要说明的是,步骤105可以同步骤101同时执行,在增强语言识别模型中关键词权重的同时,进行语音识别,实现在线语音识别。当然,步骤105也可以在步骤104之后执行,使用关键词权重已被增强的语言识别模型,进行词路径的筛选,实现离线语音识别。
预设的语音识别模型可以是HCLG模型。其中,H是HMM(Hidden Markov Model,隐马尔可夫模型)构建的WFST,可以把HMM的状态号映射为triphone(三音素)。C是单音素(monophone)扩展成三音素(triphone)所构建的上下文WFST。L是发音词典构建的WFST,可以把输入的音素转换成词。G是语言识别模型构建的WFST,用来表示词的上下文的概率关系。
语音识别装置将待识别语音输入语音识别模型,经过音素识别、因素被转换成词等步骤后,将词元输入语言识别模型WFST,得到语言识别模型WFST输出的各词序列路径,进而计算各词序列路径的得分。
需要说明的是,词序列路径由其在隐马尔可夫模型WFST、上下文WFST、发音词典WFST和语言识别模型WFST中的各边组成。
106、根据语言识别模型中边的激励权重,在词序列路径中选出目标路径,得到语音识别结果。
语音识别装置计算各词序列路径的得分。
具体地,各词序列的得分,是根据各词序列路径的中边的权重计算得到。
以任一词序列为例,语音识别装置获取其路径中的各条边,一条路径包括其在隐马尔可夫模型WFST、上下文WFST、发音词典WFST和语言识别模型WFST中的各边。
然后,语音识别装置获取词序列路径在隐马尔可夫模型WFST、上下文WFST、发音词典WFST和语言识别模型WFST中各边的权重。并且,语音识别装置检测该词序列路径在语言识别模型WFST中的边是否有激励权重。
以该词序列路径在语言识别模型WFST中的任一条边举例说明,若该边有激励权重,则该激励权重代替该边的初始权重,来计算路径的得分;若该边没有激励权重,则使用该边的初始权重,来计算路径的得分。
由此,语音识别装置根据词序列路径中各边的权重,通过加和或乘积等方式,计算得到该词序列路径的得分。
然后,语音识别装置根据得分最高的词序列路径,组合词序列,得到待识别语音对应的文本,也即识别结果。
由上可知,本发明实施例加载预设的第一状态图和第二状态图,第一状态图为关键词语言模型的状态图,第二状态图为大语言模型的状态图;在第一状态图中提取基准边,在第二状态图中查找与基准边标签相同的边,作为关键词边;获取基准边的权重,根据基准边的权重更新关键词边的权重;将第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,语言识别模型为大语言模型剪枝后的语言模型;将待识别语音输入预设语音识别模型,得到语音识别模型输出的词序列路径,语音识别模型包括语言识别模型;根据语言识别模型中边的激励权重,在词序列路径中选出目标路径,得到语音识别结果。由于关键词语言模型的语料远小于大语言模型的语料,因此,第一状态图中关键词的边权重大于第二状态图中同一关键词边的权重。该方案使用第一状态图关键词边的权重,增强第二状态图中同一关键词边的权重,进而激励语音识别模型中关键词边的权重,从而在语音识别时,提高语言识别模型中包含关键词的路径中边的权重,进而提高包含关键词的路径作为识别结果的概率。由此,该方案提高了语音识别结果中关键词出现的概率,在保障语音识别速度的同时,提升了语音识别结果的准确性。并且,该方案还适用于各种主题场景,可以利用各主题场景的关键词来提高语音识别结果的准确性。
根据前面实施例所描述的方法,以下将以语音识别模型集成在服务器中,举例作进一步详细说明。
例如,参照图2,本发明实施例提供一种语音识别方法,包括:
201、加载预设的第一状态图和第二状态图,第一状态图为关键词语言模型的状态图,第二状态图为大语言模型的状态图。
具体实施方式可参照上述语音识别方法实施例中步骤101的描述,在此不再赘述。
202、在第一状态图中提取基准边,在第二状态图中查找与基准边标签相同的边,作为关键词边。
具体实施方式可参照上述语音识别方法实施例中步骤102的描述,在此不再赘述。
203、若在第二状态图中未找到与基准边标签相同的边,则将基准边映射到第二状态图中,得到关键词边。
例如,若服务器在第二状态图中,未找到与第一基准边标签相同的边,则查询第一基准边在第一状态图中的起始节点的序号,然后,在第二状态图中找到该序号对应的节点,以该节点为起始节点建立与第一基准边相同的虚拟边,作为第一关键词边,实现第一基准边的映射。
若服务器在第一关键词边的递归边中,未找到与第二基准边标签相同的边,则将第一关键词边的终点节点作为起始节点,建立与第二基准边标签相同的虚拟边,作为第二关键词边,实现第二基准边的映射。
需要说明的是,映射得到的第一关键词边和第二关键词边的初始权重可以是预设值。
204、获取基准边的权重,根据基准边的权重更新关键词边的权重。
具体实施方式可参照上述语音识别方法实施例中步骤103的描述,在此不再赘述。
205、将第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,语言识别模型为大语言模型剪枝后的语言模型。
具体实施方式可参照上述语音识别方法实施例中步骤104的描述,在此不再赘述。
206、在第二状态图中,筛选出标签与预设词表中的词相同的边,作为关键词起始边。
其中,预设词表中记录了关键词被分词后得到的第一个词。
例如,在步骤206之前,还可以包括:对关键词进行分词处理,将分词得到的第一个词配置到预设的词表中。
预设的关键词可以有一个或多个,服务器对关键词分别进行分词处理,并将各个关键词分词得到的第一个词配置到词表中。
在进行语音识别时,为了提高进入关键词路径的概率,服务器在第二状态图中,筛选出与标签与预设词表中的词相同的边,作为关键词起始边。
207、获取关键词起始边的初始权重,根据预设的比例系数和关键词起始边的初始权重,更新关键词起始边的权重。
例如,服务器可以使用如下公式计算关键词起始边的目标权重:
wnew=wold×(1-l);
其中,wnew为关键词起始边的目标权重,wold为关键词起始边的初始权重,l为预设的比例系数。
然后,服务器使用关键词起始边的目标权重替换其初始权重,实现对关键词起始边权重的更新。
由此,服务器增强了第二状态图中关键词起始边的权重。
208、将第二状态图中关键词起始边更新后的权重,配置为语言识别模型中对应边的激励权重。
在得到关键词起始边及其更新后的权重后,服务器在语言识别模型中查找与该关键词起始边标签相同的边,并建立映射关系,进而,将关键起始词边的目标权重,配置为语言识别模型中对应边的激励权重。
209、将待识别语音输入预设语音识别模型,得到语音识别模型输出的词序列路径,语音识别模型包括语言识别模型。
具体实施方式可参照上述语音识别方法实施例中步骤105的描述,在此不再赘述。
其中,需要说明的是,在语音识别模型中遍历或查找词序列路径时,若未找到标签为特定词的边时,可在大语言模型中通过映射得到的关键词边里,查找标签为特定词的边,作为词序列中的边,并获取该关键词边的目标权重,以计算词序列路径的得分。
210、根据语言识别模型中边的激励权重,在词序列路径中选出目标路径,得到语音识别结果。
具体实施方式可参照上述语音识别方法实施例中步骤106的描述,在此不再赘述。
右上可知,本发明使用关键词语言模型中关键词路径的权重,增强语言识别模型中关键词路径的权重,提高关键词在识别结果中出现的概率,提升语音识别结果的准确性。在第二状态图中未找到与基准边标签相同的边时,采用映射的方式在第二状态图中添加关键词边,从而在语音识别时,能够采用该映射的关键词边,提高该关键词在识别结果中出现的概率。并且,通过增强关键词初始边的权重,实现了上下文增强,从而在语言识别时,提高了关键词被找到的概率,也即词序列进入关键词路径的概率。由此,本实施例从多个方面提高了语音识别的准确性。
根据前面实施例所描述的方法,以下将举例作进一步详细说明。
例如,参照图3a和图3b,在本实施例中,将以该语音识别装置具体集成在解码器中进行说明。
(一)实时采集待识别语音。
解码器获取语音采集装置实时采集得到的待识别语音,进行在线语音识别。
(二)将待识别语音输入语音识别模型。
解码器将待识别语音输入语音识别模型,通过音素识别、因素被转换成词等步骤后,将词元输入语言识别模型。
(三)获取第一状态图和第二状态图,并加载。
在将词元输入语言识别模型之前,或同时,服务器加载第一状态图和第二状态图,从而对关键词边的权重进行加强。
例如,解码器获取预设的关键词,根据关键词训练关键词语言模型;构建关键词语言模型的加权有限状态转换器,获取关键词语言模型加权有限状态转换器指示的状态图为第一状态图。本实施例中,以关键词语言模型为三阶的tri-gram为例进行说明。
以关键词为“张俊岐”为例,解码器得到的第一状态图可参照图3a,其中,节点2为二阶状态;节点3为第一状态图的起始节点;节点之间通过连接线连接,成为边,边的箭头方向指示了连接关系,也可理解为路径方向,边上依次记载了边的输入标签、输出标签和权重,本实施例中以边的权重为其概率的对数值进行举例说明。其中,预设的语句结束符号可以是符号“</s>”,预设的回退符号可以是符号“#phi”。
同时,解码器获取预设的通用语料,根据通用语料训练大语言模型;构建大语言模型的加权有限状态转换器,获取大语言模型加权有限状态转换器指示的状态图为第二状态图。本实施例中,以大语言模型为二阶的bi-gram为例进行说明。
解码器得到的第二状态图可参照图3b,其中,节点2为二阶状态;节点3为第一状态图的起始节点;节点之间通过连接线连接,成为边,边的箭头方向指示了连接关系,也可理解为路径方向,边上依次记载了边的输入标签、输出标签和权重,本实施例中以边的权重为其概率的对数值进行举例说明。其中,预设的语句结束符号可以是符号“</s>”,预设的回退符号可以是符号“#phi”。
(四)依据第一状态图,增强第二状态图中关键词边的权重。
解码器在第一状态图中提取基准边,在第二状态图中查找与基准边标签相同的边,作为关键词边;获取基准边的权重,根据基准边的权重更新关键词边的权重。
例如,第一状态图和第二状态图同时从节点2沿着相同的路径往下走。第一状态图中,节点3至节点8的边,作为第一基准边3-9,标签为“张俊”,第二状态如中节点3至节点9的边,标签也为“张俊”,因此,得到与3-8标签相同的第一关键词边3-9。然后,获取第一基准边的权重0,以及第一关键词边的初始权重-16.8,根据上述实施例中记载的公式:log(e-16.8×0.9+e0×0.1)=-2.3,计算得到第一关键词边3-9的目标权重为-2.3,相对于-16.8得到了增强,也即边3-9的概率得到了提高。
然后,解码器对第一状态图中的第一基准边进行递归,由于关键词语言模型为三阶模型,因此,递归深度为3,得到第二基准边8-9,标签为“岐”。并且,解码器在第一关键词边3-9的输出边中,找到标签为“岐”的边9-10,作为第二关键词边。解码器根据第二基准边8-9的权重0,以及第二关键词边9-10的初始权重-12.7,计算得到第二关键词边9-10的目标权重-2.3,增强了第二关键词边的权重。由于第一状态图中,节点9两条边的输出标签分别为回退符号和语句结束符号,因此,不能作为基准边来增强第二状态图中边的权重。
同时,解码器忽略第一状态图和第二状态图中标签为回退符号的边3-5,对其进行递归,在第一状态图的节点5,获取第二基准边5-6和5-7。第二状态图中与第一基准边5-6标签“张俊”相同的第二关键词边为5-7,与第一基准边5-7标签“岐”相同的第二关键词边为5-8。由此,根据第一基准边5-6的权重-1.0986,和第二关键词边为5-7的初始权重-18.5,计算可得第二关键词边5-7的目标权重为-3.4;根据第一基准边5-7的权重-1.0986,和第二关键词边为5-8的初始权重-17.38,计算可得第二关键词边5-8的目标权重为-3.4。
并且,解码器根据递归深度,在第一状态图中的节点6找到第二基准边6-9,以及第二状态图中与其相同的第二关键词边7-10。解码器根据第一基准边6-9的权重0,和第二关键词边为7-10的初始权重-12.7,计算可得第二关键词边7-10的目标权重为-2.3。
由此,实现了关键词边权重的更新。第二状态图中,与第一状态图中关键词相关的边权重均得到提高,对应的,由大语言模型剪枝得到的语言识别模型中对应边的权重也得到提升,解码时出现这些词的概率就会比之前大上很多。
然后,解码器将各关键词边的权重,分别对应配置为语言识别模型中各对应的边的激励权重。
(五)关键词边的映射。
参照图3c,以第一状态图为图3a为例,第二状态图为图3c为例。
第一状态图路径由节点3-8-9构成的路径(张俊,岐),无法在第二状态图中找到。若要在第二状态图中找到(张俊,岐),则需要在节点9通过回退的方式,来读入“岐”,降低关键词增强效果。
为此,解码器利用第一状态图中高阶的边,将第二状态图中部分节点的序号和第一状态图中部分节点的序号关联起来,进行边的映射。从而在加码器解码的过程中,若在语言识别模型中找不到输入标签为特定词的时候,通过映射关系,提高词序列路径得分。
例如,解码器在第二状态图的节点9,添加与第一状态图中第二基准边8-9相同的虚拟边,作为第二基准边8-9相同的第二关键词边,实现边的映射,并更新该第二关键词边的权重,实现权重增强。
由此,在进行解码时,解码器如果在语言识别模型中找不到路径(张俊,岐),则在第二状态图中,根据映射的虚拟边,确定路径(张俊,岐)的权重。
(六)关键词上下文增强。
通过第二状态图中关键词边的权重增强和映射,本实施例可以在几乎不影响正常识别结果的前提下,将关键词的召回率提升到85%以上,满足了绝大多数的场景需求。
由于一个关键词大部分情况下是被分割成多个粒度更小的词,来进行识别和语言训练的。因此,可以通过提升这些关键词内部的小粒度词的权重,来提高关键词的召回率。尤其是在用户没有配置关键词的上下文语料时,在语音识别过程中进入到关键词被分出来的第一个词的节点上就会比较困难。为此,本实施例增强由关键词的上文词的节点,进入到关键词被分割出来第一个词的概率。
具体地,解码器对关键词进行分词处理,将分词得到的第一个词配置到预设的词表中。然后,在第二状态图中,筛选出标签与预设词表中的词相同的边,作为关键词起始边;获取关键词起始边的初始权重,根据预设的比例系数和关键词起始边的初始权重,更新关键词起始边的权重;将第二状态图中关键词起始边更新后的权重,配置为语言识别模型中对应边的激励权重。
(七)获取语音识别模型输出的词序列路径,计算词序列路径得分,得到识别结果。
解码器将词元输入到语言识别模型构建的WFST,获取语言识别模型WFST输出的各个词序列路径。然后,解码器根据词序列路径在语言识别模型中的各边权重,计算各个词序列路径的得分,将得分最高的词序列路径作为识别结果输出。
由上可知,用户可在本发明实施例中,快速配置会议等场景的关键词,增强关键词在识别结果中的出现概率,提高了语音识别的准确性。本实施例缩短了操作流程,节约了大量的时间,并且,对解码器的实时率没有影响,具有低时延的优点。
为了更好地实施以上方法,本发明实施例还提供一种语音识别装置,该语音识别装置具体可以集成在网络设备如服务器等设备中。
例如,如图4a所示,该语音识别装置可以包括加载单元401、关键词单元402、更新单元403、激励单元404、识别单元405和结果单元406,如下:
(一)加载单元401;
加载单元401,用于加载预设的第一状态图和第二状态图,第一状态图为关键词语言模型的状态图,第二状态图为大语言模型的状态图。
其中,第一状态图即为关键词语言模型的有向状态图,记载了各个节点和节点之间的有向连接关系,以描述关键词语言模型中关键词对象的可能状态以及状态的转移路径。
关键词语言模型可以是根据预设关键词构建的语言模型,例如n-gram(n元汉语言模型)。本实施例中,以n为3,关键词语言模型为三阶的tri-gram(三元语言模型)为例进行说明,也即关键词语言模型的中第3个词的出现只与前2个词相关,与其他任何词不相关。
第二状态图为大语言模型的加权有向状态图。大语言模型可以为语料信息丰富且未经过剪枝的大规模语言模型。
由于语言模型的不同,第一状态图和第二状态图中标签相同的边权重可能不同。
在一些实施例中,加载单元401具体可以用于:获取预设的关键词,根据关键词训练关键词语言模型;构建关键词语言模型的加权有限状态转换器,获取关键词语言模型加权有限状态转换器指示的状态图为第一状态图。
其中,预设的关键词可以是待识别语音所在领域的相关语料,具体可根据需要灵活配置。预设的关键词可以有一个或多个。
加权有限状态转换器为Weighted Finite-State Transducers,本实施例中可简称为WFST。WFST能够识别从词的初始状态到结束状态的整条路径,词的状态可以理解为节点。而节点根据次序连接形成有向边,边有对应的标签和权重。其中,标签包括输入标签和输出标签,输入标签和输出标签相同。权重表征了边出现在整条路径中的概率,权重可以是概率值,也可以根据概率值计算得到。整条路径的概率可以根据路径中各个边的权重或概率计算得到。
加载单元401将关键词作为训练语料,输入tri-gram进行训练,得到关键词语言模型。然后,加载单元401构建关键词语言模型的加权有限状态转换器。由此,加载单元401可以获取关键词语言模型WFST中的各个节点,及节点之间的连接关系,得到关键词语言模型WFST指示的状态图,将关键词语言模型WFST指示的状态图作为第一状态图。
在一些实施例中,加载单元401具体可以用于:获取预设的通用语料,根据通用语料训练大语言模型;构建大语言模型的加权有限状态转换器,获取大语言模型加权有限状态转换器指示的状态图为第二状态图。
其中,通用语料可以是人们常用的大规模语料。
加载单元401将通用语料输入预设的语言模型,例如二阶的bi-gram(二元语言模型),进行训练,得到大语言模型。然后,加载单元401构建大语言模型的加权有限状态转换器。由此,加载单元401可以获取大语言模型WFST中的各个节点,及节点之间的连接关系,得到大语言模型WFST指示的状态图,将第一词语言模型WFST指示的状态图作为第二状态图。
由于关键词语言模型WFST中的关键词数量远小于大语言模型WFST中的语料数量,因此,相同的边在关键词语言模型WFST中的权重,大于其在大语言模型WFST中的权重,由此,相同的边在第一状态图中的权重大于其在语言识别模型中的权重。
在进行语音识别前,或是在进行语音识别的过程中,加载单元401同时加载第一状态图和第二状态图。
(二)关键词单元402;
关键词单元402,用于在第一状态图中提取基准边,在第二状态图中查找与基准边标签相同的边,作为关键词边。
其中,若基准边包括前缀路径,则前缀路径相同,且标签相同的边即为与基准边相同的关键词边。
关键词单元402首先从第一状态图中提取出基准边,例如,可以获取第一状态图的起始节点,根据预设的遍历深度和起始节点获取基准边。
在一些实施例中,关键词单元402具体可以用于:将起始节点的输出边确定为第一基准边;在预设的递归深度内,对第一基准边进行递归,获取第一基准边的递归边;若递归边的输出标签不是预设符号,则将递归边确定为第二基准边。
其中,起始节点可以根据需要灵活配置。例如,本实施例中,第一状态图中的第一个节点为开始节点,第二个节点为二阶状态节点,第三个节点为一阶节点,因此,可以将第一状态图的第三个节点作为其起始节点。
递归深度可根据语言模型的阶数配置。例如,关键词单元402获取关键词语言模型的阶数,作为递归深度。本实施例中,以关键词语言模型的阶数为三阶举例,则语音识别装置将递归深度配置为3。
关键词单元402将起始节点的输出边作为第一基准边,以在第二状态图中查找相同的边。
然后,关键词单元402根据递归深度,继续查找第一状态图中可作为基准边的边。具体地,以任一第一基准边为例,关键词单元402在预设的递归深度内,对第一基准边进行递归,获取第一基准边的递归边;若递归边的输出标签不是预设符号,则将递归边确定为第二基准边。
其中,预设符号为预设的语句结束符号和回退符号。
例如,递归深度为3,则关键词单元402将第一基准边终点节点的输出边,以及该输出边的输出边,作为3阶内的递归边,共包含4个节点。
在得到递归边后,关键词单元402检测递归边的输出标签,是否为预设符号。若递归边的输出标签不是预设的语句结束符号或回退符号,则将该递归边确定为第二基准边,需要在第二状态图中查找与其相同的边。若递归边的输出标签是预设的语句结束符号或回退符号,则将该递归边确定为非基准边,不需要在第二状态图中查找与其相同的边。
需要说明的是,以起始节点的任一输出边为例,若该输出边的输出标签为预设的回退符号,则忽略该输出边,将其作为不需要增强权重的第一基准边,不对第二状态图中与其相同的第一关键词边做权重更新。然后,关键词单元402获取该第一基准边的输出边,将该第一基准边的输出边中,输出标签不是预设符号边的作为起始节点的输出边,也即第二基准边,该第二基准边可以用来对第二状态图中与其相同的第二关键词边做权重更新。
在得到基准边后,关键词单元402在第二状态图中遍历,查找与基准边相同的关键词边。
例如,关键词单元402具体可以用于:在第二状态图中,查找与第一基准边标签相同的边,作为第一关键词边;在第一关键词边的递归边中,作为与第二基准边标签相同的边,得到第二关键词边。
以任一第一基准边为例,关键词单元402在第二状态图中,查找与第一基准边标签相同的边。其中,标签相同可以指输出标签相同和/或输出标签相同。由于本实施例中,状态图中同一条边的输入标签和输出标签相同,因此,关键词单元402可以是查找与第一基准边的输入标签相同的边,或是查找与第一基准边的输出标签相同的边,或是查找与第一基准边输入标签相同且输出标签相同的边。
关键词单元402将与第一基准边标签相同的边,确定为与第一基准边相同的第一关键词边。
然后,关键词单元402根据预设的递归深度,在该第一关键词边的递归边中,查找与第二基准边标签相同的边,得到第二关键词边。其中,标签相同可以指输出标签相同和/或输出标签相同。
由此,关键词单元402分别找到与各第一基准边相同的第一关键词边,以及与各第二基准边相同的第二关键词边。
(三)更新单元403;
更新单元403,用于获取基准边的权重,根据基准边的权重更新关键词边的权重。
其中,第一状态图中记载了基准边的权重,第二状态图中记载了关键词边的初始权重。
以任一基准边为例,更新单元403可以使用基准边的权重,替换与其相同的关键词边的权重,实现对关键词边权重的更新。
在一些实施例中,更新单元403具体可以用于:获取预设的插值参数及关键词边的初始权重;根据基准边的权重、插值参数和关键词边的初始权重,计算得到关键词边的目标权重;使用目标权重,替换第二状态图中关键词边的初始权重。
其中,预设的插值参数可根据实际需要灵活配置。
更新单元403根据第二状态图,获取与基准边相同的关键词边的初始权重。然后,更新单元403可根据如下公式,计算关键词边的目标权重。
其中,Wnew为关键词边的目标权重,Wold为关键词边的初始权重,wk为基准边的权重,lambda为插值系数。
然后,更新单元403使用关键词边的目标权重,替换掉第二状态图中该关键词边的初始权重。
若有多个基准边,则更新单元403分别更新与各基准边相同的关键词边的权重。
(四)激励单元404;
激励单元404,用于将第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,语言识别模型为大语言模型剪枝后的语言模型。
其中,语言识别模型是对大语言模型进行剪枝得到的语言模型。激励单元404可以对大语言模型进行剪枝处理,得到语言识别模型。
第二状态图中关键词边的权重更新后,激励单元404将第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,也可理解为配置为语言识别模型中相同边的激励权重。由于语言识别模型是经由对大语言模型剪枝得到的,因此,语言识别模型中的各边均存在于大语言模型的状态图中。语言识别模型中,边的激励权重优先级高于其初始权重。
例如,激励单元404建立第二状态图中关键词边和语言识别模型中对应边的映射关系,进而将关键词边的目标权重配置为语言识别模型中对应边的激励权重。
(五)识别单元405;
识别单元405,用于将待识别语音输入预设语音识别模型,得到语音识别模型输出的词序列路径,语音识别模型包括语言识别模型。
需要说明的是,识别单元405可以同加载单元401同时运行,在增强语言识别模型中关键词权重的同时,进行语音识别,实现在线语音识别。当然,识别单元405也可以在激励单元404运行结束后开始运行,使用关键词权重已被增强的语言识别模型,进行词路径的筛选,实现离线语音识别。
预设的语音识别模型可以是HCLG模型。其中,H是HMM(Hidden Markov Model,隐马尔可夫模型)构建的WFST,可以把HMM的状态号映射为triphone(三音素)。C是单音素(monophone)扩展成三音素(triphone)所构建的上下文WFST。L是发音词典构建的WFST,可以把输入的音素转换成词。G是语言识别模型构建的WFST,用来表示词的上下文的概率关系。
识别单元405将待识别语音输入语音识别模型,经过音素识别、因素被转换成词等步骤后,将词元输入语言识别模型WFST,得到语言识别模型WFST输出的各词序列路径。
需要说明的是,词序列路径由其在隐马尔可夫模型WFST、上下文WFST、发音词典WFST和语言识别模型WFST中的各边组成。
(六)结果单元406;
结果单元406,用于根据语言识别模型中边的激励权重,在词序列路径中选出目标路径,得到语音识别结果。
结果单元406计算各词序列路径的得分。
具体地,各词序列的得分,是根据各词序列路径的中边的权重计算得到。
以任一词序列为例,结果单元406获取其路径中的各条边,一条路径包括其在隐马尔可夫模型WFST、上下文WFST、发音词典WFST和语言识别模型WFST中的各边。
然后,结果单元406获取词序列路径在隐马尔可夫模型WFST、上下文WFST、发音词典WFST和语言识别模型WFST中各边的权重。并且,检测该词序列路径在语言识别模型WFST中的边是否有激励权重。
以该词序列路径在语言识别模型WFST中的任一条边举例说明,若该边有激励权重,则该激励权重代替该边的初始权重,来计算路径的得分;若该边没有激励权重,则使用该边的初始权重,来计算路径的得分。
由此,结果单元406根据词序列路径中各边的权重,通过加和或乘积等方式,计算得到该词序列路径的得分。
然后,结果单元406根据得分最高的词序列路径,组合词序列,得到待识别语音对应的文本,也即识别结果。
由上可知,本发明实施例加载单元401加载预设的第一状态图和第二状态图,第一状态图为关键词语言模型的状态图,第二状态图为大语言模型的状态图;关键词单元402在第一状态图中提取基准边,在第二状态图中查找与基准边标签相同的边,作为关键词边;更新单元403获取基准边的权重,根据基准边的权重更新关键词边的权重;激励单元404将第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,语言识别模型为大语言模型剪枝后的语言模型;识别单元405将待识别语音输入预设语音识别模型,得到语音识别模型输出的词序列路径,语音识别模型包括语言识别模型;结果单元406根据语言识别模型中边的激励权重,在词序列路径中选出目标路径,得到语音识别结果。由于关键词语言模型的语料远小于大语言模型的语料,因此,第一状态图中关键词的边权重大于第二状态图中同一关键词边的权重。该方案使用第一状态图关键词边的权重,增强第二状态图中同一关键词边的权重,进而激励语音识别模型中关键词边的权重,从而在语音识别时,提高语言识别模型中包含关键词的路径中边的权重,进而提高包含关键词的路径作为识别结果的概率。由此,该方案提高了语音识别结果中关键词出现的概率,在保障语音识别速度的同时,提升了语音识别结果的准确性。并且,该方案还适用于各种主题场景,可以利用各主题场景的关键词来提高语音识别结果的准确性。
此外,参照图4b,该语音识别装置还可以包括映射单元407、上下文单元408和采集单元409,如下:
(七)映射单元407;
映射单元407,用于若在第二状态图中未找到与基准边标签相同的边,则将基准边映射到第二状态图中,得到关键词边。
例如,若关键词单元402在第二状态图中,未找到与第一基准边标签相同的边,则映射单元407查询第一基准边在第一状态图中的起始节点的序号,然后,在第二状态图中找到该序号对应的节点,以该节点为起始节点建立与第一基准边相同的虚拟边,作为第一关键词边,实现第一基准边的映射。
若映射单元407在第一关键词边的递归边中,未找到与第二基准边标签相同的边,则将第一关键词边的终点节点作为起始节点,建立与第二基准边标签相同的虚拟边,作为第二关键词边,实现第二基准边的映射。
需要说明的是,映射得到的第一关键词边和第二关键词边的初始权重可以是预设值。
(八)上下文单元408;
上下文单元408,用于在第二状态图中,筛选出标签与预设词表中的词相同的边,作为关键词起始边;获取关键词起始边的初始权重,根据预设的比例系数和关键词起始边的初始权重,更新关键词起始边的权重;将第二状态图中关键词起始边更新后的权重,配置为语言识别模型中对应边的激励权重。
其中,预设词表中记录了关键词被分词后得到的第一个词。
例如,上下文单元408具体还可以用于:对关键词进行分词处理,将分词得到的第一个词配置到预设的词表中。
预设的关键词可以有一个或多个,上下文单元408对关键词分别进行分词处理,并将各个关键词分词得到的第一个词配置到词表中。
在进行语音识别时,为了提高进入关键词路径的概率,上下文单元408在第二状态图中,筛选出与标签与预设词表中的词相同的边,作为关键词起始边。
例如,上下文单元408可以使用如下公式计算关键词起始边的目标权重:
wnew=wold×(1-l);
其中,Wnew为关键词起始边的目标权重,wold为关键词起始边的初始权重,l为预设的比例系数。
然后,上下文单元408使用关键词起始边的目标权重替换其初始权重,实现对关键词起始边权重的更新。
由此,上下文单元408增强了第二状态图中关键词起始边的权重。
在得到关键词起始边及其更新后的权重后,上下文单元408在语言识别模型中查找与该关键词起始边标签相同的边,并建立映射关系,进而,将关键起始词边的目标权重,配置为语言识别模型中对应边的激励权重。
(九)采集单元409。
采集单元409,用于实时采集待识别语音。
采集单元409实时采集得到待识别语音,进行在线语音识别。
由上可知,本发明使用关键词语言模型中关键词路径的权重,增强语言识别模型中关键词路径的权重,提高关键词在识别结果中出现的概率,提升语音识别结果的准确性。在第二状态图中未找到与基准边标签相同的边时,采用映射的方式在第二状态图中添加关键词边,从而在语音识别时,能够采用该映射的关键词边,提高该关键词在识别结果中出现的概率。并且,通过增强关键词初始边的权重,实现了上下文增强,从而在语言识别时,提高了关键词被找到的概率,也即词序列进入关键词路径的概率。由此,本实施例从多个方面提高了语音识别的准确性。
本发明实施例还提供一种语音识别设备,如图5a所示,其示出了本发明实施例所涉及的语音识别设备的结构示意图,具体来讲:
该语音识别设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图5a中示出的语音识别设备结构并不构成对语音识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该语音识别设备的控制中心,利用各种接口和线路连接整个语音识别设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行语音识别设备的各种功能和处理数据,从而对语音识别设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如语音识别功能等)等;存储数据区可存储根据语音识别设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
语音识别设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源状态图或者逆变器、电源状态指示器等任意组件。
该语音识别设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。用户可以使用输入单元504输入关键词。
尽管未示出,语音识别设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,语音识别设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
加载预设的第一状态图和第二状态图,第一状态图为关键词语言模型的状态图,第二状态图为大语言模型的状态图;在第一状态图中提取基准边,在第二状态图中查找与基准边标签相同的边,作为关键词边;获取基准边的权重,根据基准边的权重更新关键词边的权重;将第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,语言识别模型为大语言模型剪枝后的语言模型;将待识别语音输入预设语音识别模型,得到语音识别模型输出的词序列路径,语音识别模型包括语言识别模型;根据语言识别模型中边的激励权重,在词序列路径中选出目标路径,得到语音识别结果。
处理器501运行存储在存储器502中的应用程序,还可以实现如下功能:
获取第一状态图的起始节点,根据预设的遍历深度和起始节点确定基准边。
处理器501运行存储在存储器502中的应用程序,还可以实现如下功能:
将起始节点的输出边确定为第一基准边;在预设的递归深度内,对第一基准边进行递归,获取第一基准边的递归边;若递归边的输出标签不是预设符号,则将递归边确定为第二基准边。
处理器501运行存储在存储器502中的应用程序,还可以实现如下功能:
在第二状态图中,查找与第一基准边标签相同的边,作为第一关键词边;在第一关键词边的递归边中,查找与第二基准边标签相同的边,作为第二关键词边。
处理器501运行存储在存储器502中的应用程序,还可以实现如下功能:
获取预设的插值参数及关键词边的初始权重;根据基准边的权重、插值参数和关键词边的初始权重,计算得到关键词边的目标权重;使用目标权重,替换第二状态图中关键词边的初始权重。
处理器501运行存储在存储器502中的应用程序,还可以实现如下功能:
若在第二状态图中未找到与基准边标签相同的边,则将基准边映射到第二状态图中,得到关键词边。
处理器501运行存储在存储器502中的应用程序,还可以实现如下功能:
在第二状态图中,筛选出标签与预设词表中的词相同的边,作为关键词起始边;获取关键词起始边的初始权重,根据预设的比例系数和关键词起始边的初始权重,更新关键词起始边的权重;将第二状态图中关键词起始边更新后的权重,配置为语言识别模型中对应边的激励权重。
处理器501运行存储在存储器502中的应用程序,还可以实现如下功能:
对关键词进行分词处理,将分词得到的第一个词配置到预设的词表中。
处理器501运行存储在存储器502中的应用程序,还可以实现如下功能:
获取预设的关键词,根据关键词训练关键词语言模型;构建关键词语言模型的加权有限状态转换器,获取关键词语言模型加权有限状态转换器指示的状态图为第一状态图。
处理器501运行存储在存储器502中的应用程序,还可以实现如下功能:
获取预设的通用语料,根据通用语料训练大语言模型;构建大语言模型的加权有限状态转换器,获取大语言模型加权有限状态转换器指示的状态图为第二状态图。
此外,参照图5b,该语音识别设备还可以包括语音采集装置505,例如麦克风等,用于实时采集待识别语音。
处理器501运行存储在存储器502中的应用程序,还可以实现如下功能:
实时采集待识别语音。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种语音识别方法中的步骤。例如,该指令可以执行如下步骤:
加载预设的第一状态图和第二状态图,第一状态图为关键词语言模型的状态图,第二状态图为大语言模型的状态图;在第一状态图中提取基准边,在第二状态图中查找与基准边标签相同的边,作为关键词边;获取基准边的权重,根据基准边的权重更新关键词边的权重;将第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,语言识别模型为大语言模型剪枝后的语言模型;将待识别语音输入预设语音识别模型,得到语音识别模型输出的词序列路径,语音识别模型包括语言识别模型;根据语言识别模型中边的激励权重,在词序列路径中选出目标路径,得到语音识别结果。
该指令还可以执行如下步骤:
获取第一状态图的起始节点,根据预设的遍历深度和起始节点确定基准边。
该指令还可以执行如下步骤:
将起始节点的输出边确定为第一基准边;在预设的递归深度内,对第一基准边进行递归,获取第一基准边的递归边;若递归边的输出标签不是预设符号,则将递归边确定为第二基准边。
该指令还可以执行如下步骤:
在第二状态图中,查找与第一基准边标签相同的边,作为第一关键词边;在第一关键词边的递归边中,查找与第二基准边标签相同的边,作为第二关键词边。
该指令还可以执行如下步骤:
获取预设的插值参数及关键词边的初始权重;根据基准边的权重、插值参数和关键词边的初始权重,计算得到关键词边的目标权重;使用目标权重,替换第二状态图中关键词边的初始权重。
该指令还可以执行如下步骤:
若在第二状态图中未找到与基准边标签相同的边,则将基准边映射到第二状态图中,得到关键词边。
该指令还可以执行如下步骤:
在第二状态图中,筛选出标签与预设词表中的词相同的边,作为关键词起始边;获取关键词起始边的初始权重,根据预设的比例系数和关键词起始边的初始权重,更新关键词起始边的权重;将第二状态图中关键词起始边更新后的权重,配置为语言识别模型中对应边的激励权重。
该指令还可以执行如下步骤:
对关键词进行分词处理,将分词得到的第一个词配置到预设的词表中。
该指令还可以执行如下步骤:
获取预设的关键词,根据关键词训练关键词语言模型;构建关键词语言模型的加权有限状态转换器,获取关键词语言模型加权有限状态转换器指示的状态图为第一状态图。
该指令还可以执行如下步骤:
获取预设的通用语料,根据通用语料训练大语言模型;构建大语言模型的加权有限状态转换器,获取大语言模型加权有限状态转换器指示的状态图为第二状态图。
该指令还可以执行如下步骤:
实时采集待识别语音。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种语音识别方法中的步骤,因此,可以实现本发明实施例所提供的任一种语音识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种语音识别方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种语音识别方法,其特征在于,包括:
加载预设的第一状态图和第二状态图,所述第一状态图为关键词语言模型的状态图,所述第二状态图为大语言模型的状态图;
在所述第一状态图中提取基准边,在所述第二状态图中查找与所述基准边标签相同的边,作为关键词边;
获取所述基准边的权重,根据基准边的权重更新所述关键词边的权重;
将所述第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,所述语言识别模型为所述大语言模型剪枝后的语言模型;
将待识别语音输入预设语音识别模型,得到所述语音识别模型输出的词序列路径,所述语音识别模型包括所述语言识别模型;
根据所述语言识别模型中边的激励权重,在所述词序列路径中选出目标路径,得到语音识别结果。
2.如权利要求1所述的方法,其特征在于,所述在所述第一状态图中提取基准边,包括:
获取所述第一状态图的起始节点,根据预设的遍历深度和所述起始节点确定基准边。
3.如权利要求2所述的方法,其特征在于,所述根据预设的遍历深度和所述起始节点获取基准边,包括:
将所述起始节点的输出边确定为第一基准边;
在预设的递归深度内,对所述第一基准边进行递归,获取所述第一基准边的递归边;
若所述递归边的输出标签不是预设符号,则将所述递归边确定为第二基准边。
4.如权利要求3所述的方法,其特征在于,在所述第二状态图中查找与所述基准边标签相同的边,作为关键词边,包括:
在所述第二状态图中,查找与所述第一基准边标签相同的边,作为第一关键词边;
在所述第一关键词边的递归边中,查找与所述第二基准边标签相同的边,作为第二关键词边。
5.如权利要求1所述的方法,其特征在于,所述根据基准边的权重更新所述关键词边的权重,包括:
获取预设的插值参数及所述关键词边的初始权重;
根据所述基准边的权重、插值参数和关键词边的初始权重,计算得到关键词边的目标权重;
使用所述目标权重,替换所述第二状态图中所述关键词边的初始权重。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
若在所述第二状态图中未找到与所述基准边标签相同的边,则将所述基准边映射到所述第二状态图中,得到关键词边。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
在所述第二状态图中,筛选出标签与预设词表中的词相同的边,作为关键词起始边;
获取所述关键词起始边的初始权重,根据预设的比例系数和所述关键词起始边的初始权重,更新所述关键词起始边的权重;
将所述第二状态图中关键词起始边更新后的权重,配置为语言识别模型中对应边的激励权重。
8.如权利要求7所述的方法,其特征在于,所述在所述第二状态图中,筛选出标签与预设词表中的词相同的边,作为关键词起始边之前,包括:
对所述关键词进行分词处理,将分词得到的第一个词配置到预设的词表中。
9.如权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:
获取预设的关键词,根据所述关键词训练关键词语言模型;
构建所述关键词语言模型的加权有限状态转换器,获取所述关键词语言模型加权有限状态转换器指示的状态图为第一状态图。
10.如权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:
获取预设的通用语料,根据所述通用语料训练大语言模型;
构建所述大语言模型的加权有限状态转换器,获取所述大语言模型加权有限状态转换器指示的状态图为第二状态图。
11.如权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:
实时采集待识别语音。
12.一种语音识别装置,其特征在于,包括:
加载单元,用于加载预设的第一状态图和第二状态图,所述第一状态图为关键词语言模型的状态图,所述第二状态图为大语言模型的状态图;
关键词单元,用于在所述第一状态图中提取基准边,在所述第二状态图中查找与所述基准边标签相同的边,作为关键词边;
更新单元,用于获取所述基准边的权重,根据基准边的权重更新所述关键词边的权重;
激励单元,用于将所述第二状态图中关键词边更新后的权重,配置为语言识别模型中对应边的激励权重,所述语言识别模型为所述大语言模型剪枝后的语言模型;
识别单元,用于将待识别语音输入预设语音识别模型,得到所述语音识别模型输出的词序列路径,所述语音识别模型包括所述语言识别模型;
结果单元,用于根据所述语言识别模型中边的激励权重,在所述词序列路径中选出目标路径,得到语音识别结果。
13.一种语音识别设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序,所述语音识别程序被所述处理器执行时实现如权利要求1至11中任一项所述的方法的步骤。
14.如权利要求13所述的设备,其特征在于,所述设备还包括语音采集装置,所述语音采集装置用于实时采集待识别语音。
15.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至11任一项所述的语音识别方法中的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811508402.7A CN110176230B (zh) | 2018-12-11 | 2018-12-11 | 一种语音识别方法、装置、设备和存储介质 |
PCT/CN2019/120558 WO2020119432A1 (zh) | 2018-12-11 | 2019-11-25 | 一种语音识别方法、装置、设备和存储介质 |
US17/192,316 US20210193121A1 (en) | 2018-12-11 | 2021-03-04 | Speech recognition method, apparatus, and device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811508402.7A CN110176230B (zh) | 2018-12-11 | 2018-12-11 | 一种语音识别方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110176230A true CN110176230A (zh) | 2019-08-27 |
CN110176230B CN110176230B (zh) | 2021-10-08 |
Family
ID=67689294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811508402.7A Active CN110176230B (zh) | 2018-12-11 | 2018-12-11 | 一种语音识别方法、装置、设备和存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210193121A1 (zh) |
CN (1) | CN110176230B (zh) |
WO (1) | WO2020119432A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705282A (zh) * | 2019-09-04 | 2020-01-17 | 东软集团股份有限公司 | 关键词提取方法、装置、存储介质及电子设备 |
WO2020119432A1 (zh) * | 2018-12-11 | 2020-06-18 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、设备和存储介质 |
CN111933119A (zh) * | 2020-08-18 | 2020-11-13 | 北京字节跳动网络技术有限公司 | 用于生成语音识别网络的方法、装置、电子设备和介质 |
CN111968648A (zh) * | 2020-08-27 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 语音识别方法、装置、可读介质及电子设备 |
CN112802476A (zh) * | 2020-12-30 | 2021-05-14 | 深圳追一科技有限公司 | 语音识别方法和装置、服务器、计算机可读存储介质 |
CN112820280A (zh) * | 2020-12-30 | 2021-05-18 | 北京声智科技有限公司 | 规则语言模型的生成方法及装置 |
CN113763938A (zh) * | 2021-10-27 | 2021-12-07 | 杭州网易智企科技有限公司 | 语音识别方法、介质、装置和计算设备 |
CN114360528A (zh) * | 2022-01-05 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014011B (zh) * | 2024-04-07 | 2024-07-05 | 蚂蚁科技集团股份有限公司 | 大语言模型训练及训练数据构建方法、装置、设备、介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2026327A1 (en) * | 2006-05-31 | 2009-02-18 | NEC Corporation | Language model learning system, language model learning method, and language model learning program |
US20160035345A1 (en) * | 2006-04-03 | 2016-02-04 | Google Inc. | Automatic Language Model Update |
CN105810193A (zh) * | 2015-01-19 | 2016-07-27 | 三星电子株式会社 | 训练语言模型的方法和设备及识别语言的方法和设备 |
CN105869629A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 语音识别方法及装置 |
US20170018268A1 (en) * | 2015-07-14 | 2017-01-19 | Nuance Communications, Inc. | Systems and methods for updating a language model based on user input |
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN107146604A (zh) * | 2017-04-27 | 2017-09-08 | 北京捷通华声科技股份有限公司 | 一种语言模型优化方法及装置 |
CN107660303A (zh) * | 2015-06-26 | 2018-02-02 | 英特尔公司 | 使用远程源对本地语音识别系统的语言模型修改 |
CN107665705A (zh) * | 2017-09-20 | 2018-02-06 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
CN107845382A (zh) * | 2012-06-21 | 2018-03-27 | 谷歌有限责任公司 | 动态语言模型 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2008127509A (ru) * | 2005-12-08 | 2010-01-20 | Конинклейке Филипс Электроникс Н.В. (Nl) | Система распознавания речи с огромным словарем |
FR3018933A1 (fr) * | 2014-03-20 | 2015-09-25 | Airbus | Procede de determination de l'etat d'un equipement d'aeronef. |
US10140981B1 (en) * | 2014-06-10 | 2018-11-27 | Amazon Technologies, Inc. | Dynamic arc weights in speech recognition models |
WO2016044321A1 (en) * | 2014-09-16 | 2016-03-24 | Min Tang | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9966066B1 (en) * | 2016-02-03 | 2018-05-08 | Nvoq Incorporated | System and methods for combining finite state transducer based speech recognizers |
US10606893B2 (en) * | 2016-09-15 | 2020-03-31 | International Business Machines Corporation | Expanding knowledge graphs based on candidate missing edges to optimize hypothesis set adjudication |
US10943583B1 (en) * | 2017-07-20 | 2021-03-09 | Amazon Technologies, Inc. | Creation of language models for speech recognition |
CN108711422B (zh) * | 2018-05-14 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机可读存储介质和计算机设备 |
CN108735201B (zh) * | 2018-06-29 | 2020-11-17 | 广州视源电子科技股份有限公司 | 连续语音识别方法、装置、设备和存储介质 |
CN110176230B (zh) * | 2018-12-11 | 2021-10-08 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、设备和存储介质 |
-
2018
- 2018-12-11 CN CN201811508402.7A patent/CN110176230B/zh active Active
-
2019
- 2019-11-25 WO PCT/CN2019/120558 patent/WO2020119432A1/zh active Application Filing
-
2021
- 2021-03-04 US US17/192,316 patent/US20210193121A1/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160035345A1 (en) * | 2006-04-03 | 2016-02-04 | Google Inc. | Automatic Language Model Update |
EP2026327A1 (en) * | 2006-05-31 | 2009-02-18 | NEC Corporation | Language model learning system, language model learning method, and language model learning program |
CN107845382A (zh) * | 2012-06-21 | 2018-03-27 | 谷歌有限责任公司 | 动态语言模型 |
CN105810193A (zh) * | 2015-01-19 | 2016-07-27 | 三星电子株式会社 | 训练语言模型的方法和设备及识别语言的方法和设备 |
CN107660303A (zh) * | 2015-06-26 | 2018-02-02 | 英特尔公司 | 使用远程源对本地语音识别系统的语言模型修改 |
US20170018268A1 (en) * | 2015-07-14 | 2017-01-19 | Nuance Communications, Inc. | Systems and methods for updating a language model based on user input |
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN105869629A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 语音识别方法及装置 |
CN107146604A (zh) * | 2017-04-27 | 2017-09-08 | 北京捷通华声科技股份有限公司 | 一种语言模型优化方法及装置 |
CN107665705A (zh) * | 2017-09-20 | 2018-02-06 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
MURAT SARACLAR,等: "AN EMPIRICAL STUDY OF CONFUSION MODELING IN KEYWORD SEARCH FOR LOWRESOURCE LANGUAGES", 《IEEE XPLORE》 * |
刘秉权,等: "一种面向用户的语言模型及其机器学习方法", 《哈尔滨工业大学学报》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020119432A1 (zh) * | 2018-12-11 | 2020-06-18 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、设备和存储介质 |
CN110705282A (zh) * | 2019-09-04 | 2020-01-17 | 东软集团股份有限公司 | 关键词提取方法、装置、存储介质及电子设备 |
CN111933119A (zh) * | 2020-08-18 | 2020-11-13 | 北京字节跳动网络技术有限公司 | 用于生成语音识别网络的方法、装置、电子设备和介质 |
CN111933119B (zh) * | 2020-08-18 | 2022-04-05 | 北京字节跳动网络技术有限公司 | 用于生成语音识别网络的方法、装置、电子设备和介质 |
CN111968648A (zh) * | 2020-08-27 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 语音识别方法、装置、可读介质及电子设备 |
CN111968648B (zh) * | 2020-08-27 | 2021-12-24 | 北京字节跳动网络技术有限公司 | 语音识别方法、装置、可读介质及电子设备 |
CN112802476B (zh) * | 2020-12-30 | 2023-10-24 | 深圳追一科技有限公司 | 语音识别方法和装置、服务器、计算机可读存储介质 |
CN112802476A (zh) * | 2020-12-30 | 2021-05-14 | 深圳追一科技有限公司 | 语音识别方法和装置、服务器、计算机可读存储介质 |
CN112820280A (zh) * | 2020-12-30 | 2021-05-18 | 北京声智科技有限公司 | 规则语言模型的生成方法及装置 |
CN113763938A (zh) * | 2021-10-27 | 2021-12-07 | 杭州网易智企科技有限公司 | 语音识别方法、介质、装置和计算设备 |
CN113763938B (zh) * | 2021-10-27 | 2024-06-07 | 杭州网易智企科技有限公司 | 语音识别方法、介质、装置和计算设备 |
CN114360528A (zh) * | 2022-01-05 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN114360528B (zh) * | 2022-01-05 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020119432A1 (zh) | 2020-06-18 |
US20210193121A1 (en) | 2021-06-24 |
CN110176230B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110176230A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN106611597B (zh) | 基于人工智能的语音唤醒方法和装置 | |
US10649990B2 (en) | Linking ontologies to expand supported language | |
CN103871403B (zh) | 建立语音识别模型的方法、语音识别方法及对应装置 | |
CN111090727B (zh) | 语言转换处理方法、装置及方言语音交互系统 | |
CN108573693A (zh) | 使用自动编码器的文本到语音合成 | |
CN108305634A (zh) | 解码方法、解码器及存储介质 | |
US20140207776A1 (en) | Method and system for linking data sources for processing composite concepts | |
CN107832286A (zh) | 智能交互方法、设备及存储介质 | |
CN105975531B (zh) | 基于对话知识库的机器人对话控制方法和系统 | |
CN107797984A (zh) | 智能交互方法、设备及存储介质 | |
CN108735201A (zh) | 连续语音识别方法、装置、设备和存储介质 | |
CN109977215B (zh) | 基于关联兴趣点的语句推荐方法和装置 | |
CA2508946A1 (en) | Method and apparatus for natural language call routing using confidence scores | |
CN110377745B (zh) | 信息处理方法、信息检索方法、装置及服务器 | |
JP2015219583A (ja) | 話題決定装置、発話装置、方法、及びプログラム | |
Wagner et al. | A systematic comparison of different HMM designs for emotion recognition from acted and spontaneous speech | |
CN106254696A (zh) | 外呼结果确定方法、装置及系统 | |
KR102468481B1 (ko) | 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템 | |
CN110148403A (zh) | 解码网络生成方法、语音识别方法、装置、设备及介质 | |
WO2024103609A1 (zh) | 一种对话模型的训练方法及装置、对话响应方法及装置 | |
CN110532354A (zh) | 内容的检索方法及装置 | |
CN110147544A (zh) | 一种基于自然语言的指令生成方法、装置以及相关设备 | |
CN108595609A (zh) | 基于人物ip的机器人回复生成方法、系统、介质及设备 | |
CN110085217A (zh) | 语音导航方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |