CN113808594A - 编码节点处理方法、装置、计算机设备及存储介质 - Google Patents
编码节点处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113808594A CN113808594A CN202110178750.8A CN202110178750A CN113808594A CN 113808594 A CN113808594 A CN 113808594A CN 202110178750 A CN202110178750 A CN 202110178750A CN 113808594 A CN113808594 A CN 113808594A
- Authority
- CN
- China
- Prior art keywords
- node
- coding node
- current
- determining
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000004913 activation Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 abstract description 16
- 230000004044 response Effects 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请提出一种编码节点处理方法、装置、计算机设备及存储介质,编码节点,用于进行语音识别,该方法包括确定当前编码节点,当前编码节点,是采用解码图对语音数据进行解码时,当前时间待匹配的编码节点;根据目标阈值对当前编码节点进行目标处理,其中,目标阈值,是根据当前编码节点的利用率确定得到的。通过本申请,由于采用了当前编码节点的利用率作为裁剪的参考,从而能够有效提升裁剪的合理性,能够有效避免编码节点产生冗余,有效提升编码节点在语音识别当中的利用率,从而保障后续的解码路径的选取效率,提升语音识别的响应时效性。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种编码节点处理方法、装置、计算机设备及存储介质。
背景技术
随着深度学习的不断发展,语音识别的准确度和速度不断提高,在安静环境下,标准口音和常见词汇场景下的语音识别准确率已经超过95%,这意味着相关技术中的语音识别技术已经具备了与人类相仿的语言识别能力。然而,在实际的应用中,经常会遇到语音识别响应不够快的问题。
基于加权有限状态转换器(Weighted Finite State Transducers,WFST)的解码方法,通常与声学模型相结合,在语音识别中,先将隐马尔可夫有限状态转换器(FiniteState Transducers,FST)、上下文FST、发音词典FST与语言模型FST共同构建成解码图,而后,根据声学模型输出的声学模型得分,在解码图之中进行匹配搜索,得到解码结果。
在实际的应用中,解码图包含了海量的编码节点和解码路径,而解码的过程,即是在解码图上按照时间的顺序进行匹配搜索,在每一时间点,都会有大量的编码节点作为候选,每个解码结点对应大量的传向下个时刻的解码路径,则随着时间的传递,所存在的节点数目会越来越多,由此,需要采用一些裁剪方法来控制解码图节点数目的增长。
相关技术中,通常采用累计集束(beam)剪枝,即,从当前概率最大的解码路径的分值中,减去beam值作为阈值,小于阈值的分值所属的编码节点被裁剪,或者是采用直方图剪枝,例如,设定编码节点的最大激活数目,在每一时间点上仅保留一定数量的编码节点。
这些方式中,在对解码图中的编码节点进行裁剪过后,仍然会存在大量的节点冗余,从而影响解码路径的选取效率,导致语音识别的响应时效性不高。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的目的在于提出一种编码节点处理方法、装置、计算机设备及存储介质,能够有效提升裁剪的合理性,能够有效避免编码节点产生冗余,有效提升编码节点在语音识别当中的利用率,从而保障后续的解码路径的选取效率,提升语音识别的响应时效性。
为达到上述目的,本申请第一方面实施例提出的编码节点处理方法,所述编码节点,用于进行语音识别,包括:确定当前编码节点,所述当前编码节点,是采用解码图对语音数据进行解码时,当前时间待匹配的编码节点;根据目标阈值对所述当前编码节点进行目标处理,其中,所述目标阈值,是根据所述当前编码节点的利用率确定得到的。
本申请第一方面实施例提出的编码节点处理方法,通过确定当前编码节点,当前编码节点,是采用解码图对语音数据进行解码时,当前时间待匹配的编码节点,并且根据目标阈值对当前编码节点进行目标处理,其中,目标阈值,是根据当前编码节点的利用率确定得到的,由于采用了当前编码节点的利用率作为裁剪的参考,从而能够有效提升裁剪的合理性,能够有效避免编码节点产生冗余,有效提升编码节点在语音识别当中的利用率,从而保障后续的解码路径的选取效率,提升语音识别的响应时效性。
为达到上述目的,本申请第二方面实施例提出的编码节点处理装置,所述编码节点,用于进行语音识别,包括:第一确定模块,用于确定当前编码节点,所述当前编码节点,是采用解码图对语音数据进行解码时,当前时间待匹配的编码节点;处理模块,用于根据目标阈值对所述当前编码节点进行目标处理,其中,所述目标阈值,是根据所述当前编码节点的利用率确定得到的。
本申请第二方面实施例提出的编码节点处理装置,通过确定当前编码节点,当前编码节点,是采用解码图对语音数据进行解码时,当前时间待匹配的编码节点,并且根据目标阈值对当前编码节点进行目标处理,其中,目标阈值,是根据当前编码节点的利用率确定得到的,由于采用了当前编码节点的利用率作为裁剪的参考,从而能够有效提升裁剪的合理性,能够有效避免编码节点产生冗余,有效提升编码节点在语音识别当中的利用率,从而保障后续的解码路径的选取效率,提升语音识别的响应时效性。
本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本申请第一方面实施例提出的编码节点处理方法。
本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面实施例提出的编码节点处理方法。
本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如本申请第一方面实施例提出的编码节点处理方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一实施例提出的编码节点处理方法的流程示意图;
图2为相关技术中的解码图示意图;
图3是本申请另一实施例提出的编码节点处理方法的流程示意图;
图4为本申请实施例中语音识别过程示意图;
图5为本申请实施例中编码节点处理方法的流程示意图;
图6是本申请另一实施例提出的编码节点处理方法的流程示意图;
图7是本申请另一实施例提出的编码节点处理方法的流程示意图;
图8是本申请一实施例提出的编码节点处理装置的结构示意图;
图9是本申请另一实施例提出的编码节点处理装置的结构示意图;
图10示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一实施例提出的编码节点处理方法的流程示意图。
其中,需要说明的是,本实施例的编码节点处理方法的执行主体为编码节点处理装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
本申请实施例中的编码节点,是辅助用于进行语音识别的,解码图之中的节点。
如图1所示,包括以下步骤。
在步骤S101中,确定当前编码节点,当前编码节点,是采用解码图对语音数据进行解码时,当前时间待匹配的编码节点。
本申请实施例具体应用在对语音数据进行语音识别的过程中,其中的语音数据例如为一段语音,该语音中通常会包含声频、音频,以及语义特征,语音识别,即识别该语音数据当中的声频、音频,以及语义特征等,对此不做限制。
在对语音进行识别的过程中,如图2所示,图2为相关技术中的解码图示意图。解码图包含了海量的编码节点和解码路径,而解码的过程,即是在解码图上按照时间的顺序进行匹配搜索,在每一时间点,都会有大量的编码节点作为候选。
由此,本申请实施例中,当前编码节点,是采用如图2所示(图2仅是示意,并不作为限制)解码图对语音数据进行解码时,当前时间待匹配的编码节点,也即是说,本申请可以首先在匹配编码节点之前,可以分析该编码节点是否存在冗余,在匹配之前即对编码节点进行相应的处理,以提升裁剪的合理性,避免编码节点产生冗余。
可以理解的是,在每一时间点,都会有大量的编码节点作为候选,则实际上,本申请实施例中当前时间待匹配的编码节点的数量可以为多个,则可以针对每个编码节点均进行相应的处理。
可选地,一些实施例中,如图3所示,图3是本申请另一实施例提出的编码节点处理方法的流程示意图,在确定当前编码节点之后,还包括:
S301:如果与当前编码节点相匹配的语音数据帧属于语音数据的前两帧,则根据预设的激活数目和预设集束值,确定目标阈值。
其中的目标阈值,是在对当前编码节点进行目标处理时作为参考的门限值,该目标阈值,具体可以例如,与声学模型输出的代价相对应的代价门限值,其中的代价,则是声学模型对当前编码节点对应的语音数据帧进行信号处理和特征提取,从而输出的与代价函数对应的函数值(该代价函数,是与声学模型相关联的)。
也即是说,语音数据可以是由多帧的语音数据帧构成的,在语音识别的过程中,是对各帧的语音数据帧进行逐帧匹配,从而从解码图匹配得到解码结果。
上述实施例中,如果与当前编码节点相匹配的语音数据帧属于语音数据的前两帧,则根据预设的激活数目和预设集束值,确定目标阈值,其中的预设的激活数目,可以具体例如预设的最大激活数目和最小激活数目,而预设集束值,即可以是相关技术中累计集束(beam)剪枝之中的beam值,而后,可以对预设的激活数目和预设集束值进行一些数学运算,将数学运算得到的值作为目标阈值。
S302:如果与当前编码节点相匹配的语音数据帧不属于语音数据的前两帧,则确定与当前编码节点对应的利用率,并将利用率作为目标阈值。
图3所示实施例中,提供了一种利用与当前编码节点对应的利用率确定目标阈值的方法,具体地,如果与当前编码节点相匹配的语音数据帧属于语音数据的前两帧,则根据预设的激活数目和预设集束值,确定目标阈值,如果与当前编码节点相匹配的语音数据帧不属于语音数据的前两帧,则确定与当前编码节点对应的利用率,并将利用率作为目标阈值,能够有效地辅助减少冗余的编码节点,在简单运算的基础上即能够较大程度的降低冗余,具有较好的适配性能。
另外一些实施例中,如果与当前编码节点相匹配的语音数据帧不属于语音数据的前两帧,则确定与当前编码节点对应的利用率,并将利用率作为目标阈值。
可选地,确定与当前编码节点对应的利用率,可以是从解码图之中确定出当前时间对应的至少一个第一编码节点,其中,当前编码节点属于至少一个第一编码节点;从解码图之中确定出上一时间点对应的至少一个第二编码节点,其中,上一时间点是编码时间序列之中早于当前时间的时间点,且上一时间点与当前时间点,在编码时间序列之中相邻;确定第一编码节点对第二编码节点的利用率并作为与当前编码节点对应的利用率。
结合上述描述,在每一时间点,都会有大量的编码节点作为候选,则实际上,本申请实施例中当前时间待匹配的编码节点的数量可以为多个,则当前时间待匹配的多个编码节点,均可以被称为第一编码节点,而在实际处理当中,当前处理的待匹配编码节点,是属于至少一个第一编码节点的。
另外,根据解码图的解码原理并结合上述描述,本申请实施例中上一时间点待匹配的编码节点的数量也可以为多个,则上一时间点待匹配的多个编码节点,均可以被称为第二编码节点,当前时间和上一时间点,是与解码图相对应的编码时间序列之中的时间点,例如,上一时间点是编码时间序列之中早于当前时间的时间点,且上一时间点与当前时间点,在编码时间序列之中相邻。
则本申请实施例中,可以确定第一编码节点对第二编码节点的利用率并作为与当前编码节点对应的利用率,也即是说,本申请实施例实现递推式的确定当前编码节点对应的利用率,在对每个时间点待匹配的编码节点进行匹配之前,均动态地、自适应地确定当前时间编码节点的利用率,能够有效地实现避免各个时间点上待匹配的编码节点产生冗余,有效提升整体的语音识别响应效率。
如图4和图5所示,图4为本申请实施例中语音识别过程示意图,图5为本申请实施例中编码节点处理方法的流程示意图,图5中具体示出了基于利用率的阈值确定方法。
结合图4和图5对本申请实施例中的基于利用率的阈值确定方法的说明如下:图4中的语音识别过程可以是基于WFST的语音识别系统来进行语音识别,基于WFST的语音识别系统主要包括三个部分:声学模型、语言模型、解码器,首先,对收集到语音数据进行信号处理和特征提取,得到声学模型需要的输入特征,而后,将得到的特征输入到声学模型的前向计算中,经过声学模型(神经网络模型)的运算之后,得到声学模型的得分(该得分可以是代价函数的函数值)。最后,根据声学模型得分,在包含了语言模型信息的解码图之中进行匹配搜索,选出概率最大的句子,即为语音识别结果。
在图5中示意的流程图中,可以输入与当前编码节点相匹配的语音数据帧的声学模型代价和解码图,如果与当前编码节点相匹配的语音数据帧为前两帧,则根据最大激活数目和最小激活数目以及预设集束值,确定解码对当前时间待匹配编码节点(token)的裁剪阈值,如果与当前编码节点相匹配的语音数据帧为第二帧之后的语音数据帧,则根据利用率来确定对当前时间待匹配编码节点(token)的裁剪阈值,其中利用率的计算方法如下;
假设,在语音识别过程中,编码处理逻辑是在编码时间序列T=(t0,t1,t2,…,tn)的时间轴进行传递,在待匹配编码节点(token)从t0向t1时刻进行扩展的时候,t0时刻裁剪剩余的token用A表示(第二编码节点),在待匹配编码节点(token)从t1向t2时刻进行扩展的过程中,t1时刻裁剪剩余的token用B表示(第一编码节点),统计B(第一编码节点)中所用到的A(第二编码节点),也就是计算A(第二编码节点)中有效编码节点(token)的比例,从而按比例缩减有效编码节点(token)数目。利用率的计算公式如下:
其中,ration表示利用率,countB_A表示B(第一编码节点)中所用到的A(第二编码节点)的数量,countB表示B(第一编码节点)的数量。
由此可见,本实施例中,正是通过上述确定第一编码节点对第二编码节点的利用率并作为与当前编码节点对应的利用率,从而有效地减少上一时间点编码节点的冗余对当前时间编码节点造成的影响,有效提升冗余处理的合理性和实用性。
在步骤S102中,根据目标阈值对当前编码节点进行目标处理,其中,目标阈值,是根据当前编码节点的利用率确定得到的。
上述在确定当前编码节点,并确定了与当前编码节点对应的目标阈值之后,可以根据目标阈值对当前编码节点进行目标处理。
举例而言,可以确定与当前编码节点对应的描述值(描述值例如,与当前编码节点对应的语音数据帧,对应于声学模型的得分),而后,将该描述值与目标阈值进行比对,如果描述值与目标阈值之间的比对情况符合设定条件,则可以保留该当前编码节点,从而基于该当前编码节点进行语音识别,而如果描述值与目标阈值之间的比对情况不符合设定条件,则可以直接删除该当前编码节点,也即是说,对该当前编码节点进行删除处理,对此不做限制。
本实施例中,通过确定当前编码节点,当前编码节点,是采用解码图对语音数据进行解码时,当前时间待匹配的编码节点,并且根据目标阈值对当前编码节点进行目标处理,其中,目标阈值,是根据当前编码节点的利用率确定得到的,由于采用了当前编码节点的利用率作为裁剪的参考,从而能够有效提升裁剪的合理性,能够有效避免编码节点产生冗余,有效提升编码节点在语音识别当中的利用率,从而保障后续的解码路径的选取效率,提升语音识别的响应时效性。
图6是本申请另一实施例提出的编码节点处理方法的流程示意图。
如图6所示,包括以下步骤。
在步骤S601中,确定当前编码节点,当前编码节点,是采用解码图对语音数据进行解码时,当前时间待匹配的编码节点。
步骤S601的说明可以具体参见上述实施例,在此不再赘述。
在步骤S602中,确定当前编码节点的第一描述值。
其中,与当前编码节点对应的描述值(描述值例如,与当前编码节点对应的语音数据帧,对应于声学模型的得分),可以被称为第一描述值。
在步骤S603中,如果第一描述值大于目标阈值,则删除当前编码节点。
也即是说,可以将当前编码节点的第一描述值,与上述基于利用率确定出的目标阈值进行比对,如果第一描述值大于目标阈值,则删除当前编码节点,即在语音识别的过程中,不基于该当前编码节点进行编码路径的扩展。
在步骤S604中,如果第一描述值小于或者等于目标阈值,则将当前编码节点添加至与当前时间对应的第一节点扩展列表之中。
其中,第一节点扩展列表,被用于生成与下一时间点对应的第二节点扩展列表,下一时间点是编码时间序列之中晚于当前时间的时间点,且下一时间点与当前时间点,在编码时间序列之中相邻。
也即是说,可以将当前编码节点的第一描述值,与上述基于利用率确定出的目标阈值进行比对,如果第一描述值小于或者等于目标阈值,则将当前编码节点添加至与当前时间对应的第一节点扩展列表之中,即在语音识别的过程中,基于该当前编码节点进行编码路径的扩展,与当前时间对应的节点扩展列表,可以被称为第一节点扩展列表。
上述的第一节点扩展列表中包括至少一个编码节点,且第一节点扩展列表之中的各个编码节点可被用于进行编码路径的扩展,第一节点扩展列表之中的编码节点可以是属于上述的多个第一编码节点中的部分编码节点。
上述在将当前编码节点添加至与当前时间对应的第一节点扩展列表之中,可以触发后续步骤。
在步骤S605中,遍历第一节点扩展列表中的各个编码节点,并确定与第一节点扩展列表之中的当前编码节点存在关联关系的多条候选解码路径。
步骤S605-步骤S607提供了一种根据当前时间对应的第一节点扩展列表,扩展下一时间点对应的第二节点扩展列表的方法,可以理解的是,基于语音识别编解码原理,在解码图中进行匹配搜索,是一个逐个时间点匹配搜索,以从解码图之中确定出最优的解码路径的过程,在每个时间点上匹配出部分编码节点,从而基于该部分编码节点进行下一时间点上编码节点的扩展。
上述在形成与当前时间对应的第一节点扩展列表之后,可以遍历第一节点扩展列表中的各个编码节点,并确定与第一节点扩展列表之中的当前编码节点存在关联关系的多条候选解码路径。
该候选解码路径,可以是与当前编码节点存在关联关系的,向下一时间点扩展的可能的解码路径,也即是说,与当前编码节点存在关联关系的候选解码路径的数量通常为多条,本实施例中,支持根据目标阈值,从多条候选解码路径之中确定出目标解码路径,从而基于选取的较优的解码路径辅助进行下一时间点上编码节点的扩展。
在步骤S606中,根据目标阈值,从多条候选解码路径之中确定出目标解码路径。
可选地,一些实施例中,根据目标阈值,从多条候选解码路径之中确定出目标解码路径,可以是获取参考解码路径,参考解码路径是与当前编码节点存在关联关系,且在当前时间之前所解码匹配出的解码路径,确定与参考解码路径对应的第一路径描述值,并确定与多个候选解码路径分别对应的多个第二路径描述值,根据第一路径描述值和多个第二路径描述值,确定与多个候选解码路径分别对应的候选路径描述值,候选路径描述值是第一路径描述值和对应的第二路径描述值的加和值,以及将小于目标阈值的候选路径描述值对应的候选解码路径作为目标解码路径。
与参考解码路径对应的路径描述值(路径描述值例如,与参考解码路径对应的语音数据帧(比如参考解码路径所连接的编码节点对应的语音数据帧),对应于声学模型的得分),可以被称为第一路径描述值。
与候选解码路径对应的路径描述值(路径描述值例如,与候选解码路径对应的语音数据帧(比如候选解码路径所连接的编码节点对应的语音数据帧),对应于声学模型的得分),可以被称为第二路径描述值。
上述在确定与多个候选解码路径分别对应的候选路径描述值时,可以具体是将参考解码路径对应的第一路径描述值,与各个候选解码路径对应的第二路径描述值分别作加和值,以得到与多个候选解码路径分别对应的候选路径描述值。
举例而言,与当前编码节点存在关联关系的多条候选解码路径是B1、B2、B3,与当前编码节点存在关联关系,且在当前时间之前所解码匹配出的解码路径是A,相应的,候选解码路径B1、B2、B3分别对应的第二路径描述值是B11、B21、B31,参考解码路径对应的第一路径描述值是A0,则相应的,与多个候选解码路径分别对应的候选路径描述值分别是:A0+B11、A0+B21、A0+B31,对此不做限制。
上述在确定了与多个候选解码路径分别对应的候选路径描述值,可以将小于目标阈值的候选路径描述值对应的候选解码路径作为目标解码路径,例如,可以将A0+B11、A0+B21、A0+B31,分别与上述基于利用率确定的目标阈值作比对,从而确定出目标解码路径。
在步骤S607中,根据与目标解码路径存在关联关系的下一编码节点生成与下一时间点对应的第二节点扩展列表,直至第一节点扩展列表中的编码节点遍历完毕。
上述在确定出目标解码路径之后,表示可以基于该目标解码路径向后进行编码扩展,将该目标解码路径所关联的下一编码节点添加至与下一时间点对应的第二节点扩展列表之中,直至第一节点扩展列表中的编码节点遍历完毕,而后,可以采用上述实施例中所描述的扩展方式,对第二节点扩展列表之中的编码节点进行遍历,以逐步地向后进行编码扩展。
举例而言,如图7所示,图7是本申请另一实施例提出的编码节点处理方法的流程示意图,(1)计算目标阈值;(2)基于目标阈值对当前编码节点进行裁剪;若当前时间的当前编码节点token的代价大于目标阈值,则将该token删除,否则将其加入第一节点扩展列表;(3)对加入第一节点扩展列表中的当前编码节点token进行扩展,对于第一节点扩展列表中的每一个当前编码节点token,遍历与该当前编码节点token存在关联关系的解码图中的候选解码路径,并计算每一条可能的候选解码路径的代价,该代价为当前编码节点token的代价与候选解码路径基于声学模型的代价和基于语言模型代价的加和值,若代价小于目标阈值,则将该目标解码路径所关联的下一编码节点添加至与下一时间点对应的第二节点扩展列表之中;(4)在下一时间点,重复执行前述步骤,直至基于解码图解码完毕。
通过应用本实施例中的解码优化方法,可以实现在有效地保障解码准确度的情况下,有效地节约70%左右的解码搜索时间,大幅提升语音识别的解码速度,从而提升语音识别的响应时效性。
本实施例中,通过确定当前编码节点,当前编码节点,是采用解码图对语音数据进行解码时,当前时间待匹配的编码节点,并且根据目标阈值对当前编码节点进行目标处理,其中,目标阈值,是根据当前编码节点的利用率确定得到的,由于采用了当前编码节点的利用率作为裁剪的参考,从而能够有效提升裁剪的合理性,能够有效避免编码节点产生冗余,有效提升编码节点在语音识别当中的利用率,从而保障后续的解码路径的选取效率,可以实现在有效地保障解码准确度的情况下,有效地节约70%左右的解码搜索时间,大幅提升语音识别的解码速度,从而提升语音识别的响应时效性。
图8是本申请一实施例提出的编码节点处理装置的结构示意图。
如图8所示,编码节点,用于进行语音识别,该编码节点处理装置80包括:
第一确定模块801,用于确定当前编码节点,当前编码节点,是采用解码图对语音数据进行解码时,当前时间待匹配的编码节点;
处理模块802,用于根据目标阈值对当前编码节点进行目标处理,其中,目标阈值,是根据当前编码节点的利用率确定得到的。
在本申请的一些实施例中,处理模块802,具体用于:
确定当前编码节点的第一描述值;
如果第一描述值大于目标阈值,则删除当前编码节点;
如果第一描述值小于或者等于目标阈值,则将当前编码节点添加至与当前时间对应的第一节点扩展列表之中;
其中,第一节点扩展列表,被用于生成与下一时间点对应的第二节点扩展列表,下一时间点是编码时间序列之中晚于当前时间的时间点,且下一时间点与当前时间点,在编码时间序列之中相邻。
在本申请的一些实施例中,处理模块802,具体用于:
遍历第一节点扩展列表中的各个编码节点,并确定与第一节点扩展列表之中的当前编码节点存在关联关系的多条候选解码路径;
根据目标阈值,从多条候选解码路径之中确定出目标解码路径;
根据与目标解码路径存在关联关系的下一编码节点生成与下一时间点对应的第二节点扩展列表,直至第一节点扩展列表中的编码节点遍历完毕。
在本申请的一些实施例中,如图9所示,图9是本申请另一实施例提出的编码节点处理装置的结构示意图,还包括:
第二确定模块803,用于在与当前编码节点相匹配的语音数据帧属于语音数据的前两帧,则根据预设的激活数目和预设集束值,确定目标阈值,在与当前编码节点相匹配的语音数据帧不属于语音数据的前两帧时,则确定与当前编码节点对应的利用率,并将利用率作为目标阈值。
在本申请的一些实施例中,第二确定模块803,具体用于:
从解码图之中确定出当前时间对应的至少一个第一编码节点,其中,当前编码节点属于至少一个第一编码节点;
从解码图之中确定出上一时间点对应的至少一个第二编码节点,其中,上一时间点是编码时间序列之中早于当前时间的时间点,且上一时间点与当前时间点,在编码时间序列之中相邻;
确定第一编码节点对第二编码节点的利用率并作为与当前编码节点对应的利用率。
在本申请的一些实施例中,处理模块802,具体用于:
获取参考解码路径,参考解码路径是与当前编码节点存在关联关系,且在当前时间之前所解码匹配出的解码路径;
确定与参考解码路径对应的第一路径描述值,并确定与多个候选解码路径分别对应的多个第二路径描述值;
根据第一路径描述值和多个第二路径描述值,确定与多个候选解码路径分别对应的候选路径描述值,候选路径描述值是第一路径描述值和对应的第二路径描述值的加和值;
将小于目标阈值的候选路径描述值对应的候选解码路径作为目标解码路径。
与上述图1至图7实施例提供的编码节点处理方法相对应,本申请还提供一种编码节点处理装置,由于本申请实施例提供的编码节点处理装置与上述图1至图7实施例提供的编码节点处理方法相对应,因此在编码节点处理方法的实施方式也适用于本申请实施例提供的编码节点处理装置,在本申请实施例中不再详细描述。
本实施例中,通过确定当前编码节点,当前编码节点,是采用解码图对语音数据进行解码时,当前时间待匹配的编码节点,并且根据目标阈值对当前编码节点进行目标处理,其中,目标阈值,是根据当前编码节点的利用率确定得到的,由于采用了当前编码节点的利用率作为裁剪的参考,从而能够有效提升裁剪的合理性,能够有效避免编码节点产生冗余,有效提升编码节点在语音识别当中的利用率,从而保障后续的解码路径的选取效率,提升语音识别的响应时效性。
为了实现上述实施例,本申请还提出一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如本申请前述实施例提出的编码节点处理方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请前述实施例提出的编码节点处理方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,当计算机程序产品中的指令处理器执行时,执行如本申请前述实施例提出的编码节点处理方法。
图10示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图10显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图10未显示,通常称为“硬盘驱动器”)。尽管图10中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的编码节点处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (14)
1.一种编码节点处理方法,其特征在于,所述编码节点,用于进行语音识别,所述方法包括:
确定当前编码节点,所述当前编码节点,是采用解码图对语音数据进行解码时,当前时间待匹配的编码节点;
根据目标阈值对所述当前编码节点进行目标处理,其中,所述目标阈值,是根据所述当前编码节点的利用率确定得到的。
2.如权利要求1所述的方法,其特征在于,所述根据目标阈值,对所述当前编码节点进行目标处理,包括:
确定所述当前编码节点的第一描述值;
如果所述第一描述值大于所述目标阈值,则删除所述当前编码节点;
如果所述第一描述值小于或者等于所述目标阈值,则将所述当前编码节点添加至与所述当前时间对应的第一节点扩展列表之中;
其中,所述第一节点扩展列表,被用于生成与下一时间点对应的第二节点扩展列表,所述下一时间点是编码时间序列之中晚于当前时间的时间点,且所述下一时间点与所述当前时间点,在所述编码时间序列之中相邻。
3.如权利要求2所述的方法,其特征在于,在所述将所述当前编码节点添加至与所述当前时间对应的第一节点扩展列表之中后,还包括:
遍历所述第一节点扩展列表中的各个编码节点,并确定与所述第一节点扩展列表之中的当前编码节点存在关联关系的多条候选解码路径;
根据目标阈值,从所述多条候选解码路径之中确定出目标解码路径;
根据与所述目标解码路径存在关联关系的下一编码节点生成与下一时间点对应的第二节点扩展列表,直至所述第一节点扩展列表中的编码节点遍历完毕。
4.如权利要求1所述的方法,其特征在于,在所述确定当前编码节点之后,还包括:
如果与所述当前编码节点相匹配的语音数据帧属于所述语音数据的前两帧,则根据预设的激活数目和预设集束值,确定所述目标阈值;
如果与所述当前编码节点相匹配的语音数据帧不属于所述语音数据的前两帧,则确定与所述当前编码节点对应的利用率,并将所述利用率作为所述目标阈值。
5.如权利要求4所述的方法,其特征在于,所述确定与所述当前编码节点对应的利用率,包括:
从所述解码图之中确定出当前时间对应的至少一个第一编码节点,其中,所述当前编码节点属于所述至少一个第一编码节点;
从所述解码图之中确定出上一时间点对应的至少一个第二编码节点,其中,所述上一时间点是编码时间序列之中早于当前时间的时间点,且所述上一时间点与所述当前时间点,在编码时间序列之中相邻;
确定所述第一编码节点对所述第二编码节点的利用率并作为与所述当前编码节点对应的利用率。
6.如权利要求3所述的方法,其特征在于,所述根据目标阈值,从所述多条候选解码路径之中确定出目标解码路径,包括:
获取参考解码路径,所述参考解码路径是与所述当前编码节点存在关联关系,且在所述当前时间之前所解码匹配出的解码路径;
确定与所述参考解码路径对应的第一路径描述值,并确定与所述多个候选解码路径分别对应的多个第二路径描述值;
根据所述第一路径描述值和所述多个第二路径描述值,确定与所述多个候选解码路径分别对应的候选路径描述值,所述候选路径描述值是所述第一路径描述值和对应的所述第二路径描述值的加和值;
将小于所述目标阈值的候选路径描述值对应的候选解码路径作为所述目标解码路径。
7.一种编码节点处理装置,其特征在于,所述编码节点,用于进行语音识别,所述装置包括:
第一确定模块,用于确定当前编码节点,所述当前编码节点,是采用解码图对语音数据进行解码时,当前时间待匹配的编码节点;
处理模块,用于根据目标阈值对所述当前编码节点进行目标处理,其中,所述目标阈值,是根据所述当前编码节点的利用率确定得到的。
8.如权利要求7所述的装置,其特征在于,所述处理模块,具体用于:
确定所述当前编码节点的第一描述值;
如果所述第一描述值大于所述目标阈值,则删除所述当前编码节点;
如果所述第一描述值小于或者等于所述目标阈值,则将所述当前编码节点添加至与所述当前时间对应的第一节点扩展列表之中;
其中,所述第一节点扩展列表,被用于生成与下一时间点对应的第二节点扩展列表,所述下一时间点是编码时间序列之中晚于当前时间的时间点,且所述下一时间点与所述当前时间点,在所述编码时间序列之中相邻。
9.如权利要求8所述的装置,其特征在于,所述处理模块,具体用于:
遍历所述第一节点扩展列表中的各个编码节点,并确定与所述第一节点扩展列表之中的当前编码节点存在关联关系的多条候选解码路径;
根据目标阈值,从所述多条候选解码路径之中确定出目标解码路径;
根据与所述目标解码路径存在关联关系的下一编码节点生成与下一时间点对应的第二节点扩展列表,直至所述第一节点扩展列表中的编码节点遍历完毕。
10.如权利要求7所述的装置,其特征在于,还包括:
第二确定模块,用于在与所述当前编码节点相匹配的语音数据帧属于所述语音数据的前两帧,则根据预设的激活数目和预设集束值,确定所述目标阈值,在与所述当前编码节点相匹配的语音数据帧不属于所述语音数据的前两帧时,则确定与所述当前编码节点对应的利用率,并将所述利用率作为所述目标阈值。
11.如权利要求10所述的装置,其特征在于,所述第二确定模块,具体用于:
从所述解码图之中确定出当前时间对应的至少一个第一编码节点,其中,所述当前编码节点属于所述至少一个第一编码节点;
从所述解码图之中确定出上一时间点对应的至少一个第二编码节点,其中,所述上一时间点是编码时间序列之中早于当前时间的时间点,且所述上一时间点与所述当前时间点,在编码时间序列之中相邻;
确定所述第一编码节点对所述第二编码节点的利用率并作为与所述当前编码节点对应的利用率。
12.如权利要求9所述的装置,其特征在于,所述处理模块,具体用于:
获取参考解码路径,所述参考解码路径是与所述当前编码节点存在关联关系,且在所述当前时间之前所解码匹配出的解码路径;
确定与所述参考解码路径对应的第一路径描述值,并确定与所述多个候选解码路径分别对应的多个第二路径描述值;
根据所述第一路径描述值和所述多个第二路径描述值,确定与所述多个候选解码路径分别对应的候选路径描述值,所述候选路径描述值是所述第一路径描述值和对应的所述第二路径描述值的加和值;
将小于所述目标阈值的候选路径描述值对应的候选解码路径作为所述目标解码路径。
13.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-6中任一所述的方法。
14.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110178750.8A CN113808594A (zh) | 2021-02-09 | 2021-02-09 | 编码节点处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110178750.8A CN113808594A (zh) | 2021-02-09 | 2021-02-09 | 编码节点处理方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113808594A true CN113808594A (zh) | 2021-12-17 |
Family
ID=78892815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110178750.8A Pending CN113808594A (zh) | 2021-02-09 | 2021-02-09 | 编码节点处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113808594A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080091429A1 (en) * | 2006-10-12 | 2008-04-17 | International Business Machines Corporation | Enhancement to viterbi speech processing algorithm for hybrid speech models that conserves memory |
US20080154590A1 (en) * | 2006-12-22 | 2008-06-26 | Sap Ag | Automated speech recognition application testing |
CN106664430A (zh) * | 2014-06-11 | 2017-05-10 | Lg电子株式会社 | 利用嵌入块分割对视频信号进行编码和解码的方法及装置 |
US20180254039A1 (en) * | 2015-12-14 | 2018-09-06 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech recognition method and device |
CN110689876A (zh) * | 2019-10-14 | 2020-01-14 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备及存储介质 |
WO2020119351A1 (zh) * | 2018-12-14 | 2020-06-18 | 腾讯科技(深圳)有限公司 | 语音解码方法、装置、计算机设备及存储介质 |
CN112102815A (zh) * | 2020-11-13 | 2020-12-18 | 深圳追一科技有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
-
2021
- 2021-02-09 CN CN202110178750.8A patent/CN113808594A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080091429A1 (en) * | 2006-10-12 | 2008-04-17 | International Business Machines Corporation | Enhancement to viterbi speech processing algorithm for hybrid speech models that conserves memory |
US20080154590A1 (en) * | 2006-12-22 | 2008-06-26 | Sap Ag | Automated speech recognition application testing |
CN106664430A (zh) * | 2014-06-11 | 2017-05-10 | Lg电子株式会社 | 利用嵌入块分割对视频信号进行编码和解码的方法及装置 |
US20180254039A1 (en) * | 2015-12-14 | 2018-09-06 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech recognition method and device |
WO2020119351A1 (zh) * | 2018-12-14 | 2020-06-18 | 腾讯科技(深圳)有限公司 | 语音解码方法、装置、计算机设备及存储介质 |
CN110689876A (zh) * | 2019-10-14 | 2020-01-14 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN112102815A (zh) * | 2020-11-13 | 2020-12-18 | 深圳追一科技有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
李伟 等: "基于前后向语言模型的语音识别词图生成算法", 计算机应用, vol. 30, no. 10, pages 2563 - 2571 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6837298B2 (ja) | 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置 | |
CN109887497B (zh) | 语音识别的建模方法、装置及设备 | |
US11688391B2 (en) | Mandarin and dialect mixed modeling and speech recognition | |
CN110415679B (zh) | 语音纠错方法、装置、设备和存储介质 | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
JP7368479B2 (ja) | モデルをトレーニングするためのトレーニング・データ修正 | |
CN110287303B (zh) | 人机对话处理方法、装置、电子设备及存储介质 | |
CN113674732B (zh) | 语音置信度检测方法、装置、电子设备和存储介质 | |
CN116670757A (zh) | 用于简化的流式和非流式语音识别的级联编码器 | |
CN117099157A (zh) | 用于端到端自动语音识别置信度和删除估计的多任务学习 | |
JP2024508196A (ja) | 拡張された自己注意によってコンテキストを取り込むための人工知能システム | |
CN114492426B (zh) | 子词切分方法、模型训练方法、装置和电子设备 | |
CN117043856A (zh) | 高效流式非递归设备上的端到端模型 | |
JP2023162265A (ja) | テキストエコー消去 | |
CN112750461A (zh) | 语音通信优化方法、装置、电子设备及可读存储介质 | |
KR20240065125A (ko) | 희귀 단어 스피치 인식을 위한 대규모 언어 모델 데이터 선택 | |
EP4295358A1 (en) | Lookup-table recurrent language model | |
CN114512123A (zh) | Vad模型的训练方法及装置、语音端点检测方法及装置 | |
JP4069715B2 (ja) | 音響モデル作成方法および音声認識装置 | |
WO2024001662A1 (zh) | 语音识别方法、装置、设备和存储介质 | |
WO2023193442A1 (zh) | 语音识别方法、装置、设备和介质 | |
CN113808594A (zh) | 编码节点处理方法、装置、计算机设备及存储介质 | |
CN108897872B (zh) | 对话处理方法、装置、计算机设备和存储介质 | |
JP7095756B2 (ja) | 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム | |
CN114399992B (zh) | 语音指令响应方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |