CN112802467B - 语音识别方法及装置 - Google Patents

语音识别方法及装置 Download PDF

Info

Publication number
CN112802467B
CN112802467B CN202011519104.5A CN202011519104A CN112802467B CN 112802467 B CN112802467 B CN 112802467B CN 202011519104 A CN202011519104 A CN 202011519104A CN 112802467 B CN112802467 B CN 112802467B
Authority
CN
China
Prior art keywords
model
generate
coding sequence
recognition
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011519104.5A
Other languages
English (en)
Other versions
CN112802467A (zh
Inventor
张彬彬
吴迪
雷欣
李志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Go Out And Ask Wuhan Information Technology Co ltd
Original Assignee
Go Out And Ask Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Go Out And Ask Wuhan Information Technology Co ltd filed Critical Go Out And Ask Wuhan Information Technology Co ltd
Priority to CN202011519104.5A priority Critical patent/CN112802467B/zh
Publication of CN112802467A publication Critical patent/CN112802467A/zh
Application granted granted Critical
Publication of CN112802467B publication Critical patent/CN112802467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)

Abstract

公开了一种语音识别方法及装置。该方法应用于电子设备,所述电子设备包括流式语音识别模型,所述流式语音识别模型包括:CTC模型和Transformer模型,该方法包括:接收语音信息;对所述语音信息进行编码,生成编码序列;当所述编码序列中除最后一个元素外的任一元素生成时,利用CTC模型对所述元素进行识别,生成中间识别结果;输出所述中间识别结果;利用Transformer模型对所述编码序列进行识别,生成最终识别结果;输出所述最终识别结果。

Description

语音识别方法及装置
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种语音识别方法及装置。
背景技术
目前,变形(Transformer)模型已经在图像、自然语言处理、语音等领域取得了突破性的进展,在很多任务上都取得了目前业界最好的效果。
但是,Transformer模型结构包括编码器(Encoder)和解码器(Decoder)。Transformer模型的Encoder(简称Transformer Encoder)用于对语音信息进行识别,生成编码序列,Transformer模型的Decoder(简称Transformer Decoder)用于对编码序列进行识别,生成识别结果。假设Transformer Encoder输出的编码序列为{x1,x2,....,xt},根据Transformer模型的注意力(Attention)机制,Transformer Decoder的识别需要依赖完整的编码序列{x1,x2,....,xt},也就是Transformer Decoder的识别必须等到TransformerEncoder的输出完整的编码序列之后才可以开始。可以看出,由于Transformer模型的结构限制,基于Transformer模型无法进行流式语音识别。
而在语音识别任务许多场景中,如输入法、语音助手、嵌入式端语音识别等,均要求能够进行流式语音识别,生成中间识别结果,并且中间识别结果需要以较低的延迟呈现给用户,基于Transformer模型的语音识别方法无法满足上述需求。
发明内容
为解决上述问题,本发明提供一种语音识别方法及装置,能够实现流式语音识别,即时输出中间识别结果,从而提升用户体验。
为了实现上述目的,在第一方面,本发明实施例提供了一种语音识别方法,该方法应用于电子设备,该电子设备包括流式语音识别模型,该流式语音识别模型包括:时间序列分类(Connectionist Temporal Classification,CTC)模型和Transformer模型,该方法包括:
接收语音信息;
对所述语音信息进行编码,生成编码序列;
当所述编码序列中除最后一个元素外的任一元素生成时,利用CTC模型对所述元素进行识别,生成中间识别结果;
输出所述中间识别结果;
利用Transformer模型对所述编码序列进行识别,生成最终识别结果;
输出所述最终识别结果。
优选的,所述利用Transformer模型对所述编码序列进行识别,生成最终识别结果,包括:当所述编码序列中的最后一个元素生成时,利用CTC模型对所述最后一个元素进行识别,生成多个参考最终识别结果;利用Transformer模型根据所述编码序列调整所述多个参考最终识别结果的权重;将权重最高的参考最终识别结果确定为最终识别结果。
优选的,所述利用CTC模型对所述元素进行识别,生成中间识别结果,包括:利用CTC模型对所述元素进行识别,生成多个参考中间识别结果;将所述多个参考中间识别结果中权重最高的参考中间识别结果确定为所述元素对应的中间识别结果。
优选的,所述对所述语音信息进行编码,生成编码序列,包括:利用Transformer模型对所述语音信息进行编码,生成编码序列。
在第二方面,本发明实施例提供了一种语音识别装置,该装置应用于电子设备,所述电子设备包括流式语音识别模型,所述流式语音识别模型包括:CTC模型和Transformer模型,所述装置包括:
接收单元,用于接收语音信息;
编码单元,用于对所述语音信息进行编码,生成编码序列;
第一识别单元,用于当所述编码序列中除最后一个元素外的任一元素生成时,利用CTC模型对所述元素进行识别,生成中间识别结果;
输出单元,用于输出所述中间识别结果;
第二识别单元,用于利用Transformer模型对所述编码序列进行识别,生成最终识别结果;
所述输出单元,还用于输出所述最终识别结果。
优选的,所述第二识别单元,具体用于:当所述编码序列中的最后一个元素生成时,利用CTC模型对所述最后一个元素进行识别,生成多个参考最终识别结果;利用Transformer模型根据所述编码序列调整所述多个参考最终识别结果的权重;将权重最高的参考最终识别结果确定为最终识别结果。
优选的,所述第一识别单元,具体用于:利用CTC模型对所述元素进行识别,生成多个参考中间识别结果;将所述多个参考中间识别结果中权重最高的参考中间识别结果确定为所述元素对应的中间识别结果。
优选的,所述编码单元,具体用于:利用Transformer模型对所述语音信息进行编码,生成编码序列。
在第三方面,本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面所述的语音识别方法。
在第四方面,本发明实施例提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述第一方面所述的语音识别方法。
利用本发明提供的语音识别方法及装置,对语音信息进行编码,生成编码序列,当编码序列中的除最后一个元素外的任一元素生成时,利用CTC模型对该元素进行识别,生成中间识别结果,并输出中间识别结果;利用Transformer模型对该编码序列进行识别,生成最终识别结果,并输出最终识别结果。可以看出,利用由CTC模型和Transformer模型构成的流式语音识别模型对语音信息进行识别,能够实现流式语音识别,即时输出中间识别结果,从而提升用户体验。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为本申请示例性实施例提供的一种流式语音识别模型的结构示意图;
图2为本申请示例性实施例提供的一种语音识别方法的流程示意图;
图3为本申请示例性实施例提供的一种语音识别装置的结构图;
图4为本申请示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
本申请实施例示出的一种语音识别方法,该语音识别方法可应用于电子设备,该电子设备包括流式语音识别模型,其中,该流式语音识别模型包括:CTC模型和Transformer模型。该流式语音识别模型的结构如图1所示。
图2为本申请实施例示出的一种语音识别方法的流程示意图。该方法包括:
步骤201,接收语音信息。
步骤202,对该语音信息进行编码,生成编码序列。
在一个例子中,利用共享编码器(Shared Encoder)对该语音信息进行编码,生成编码序列,如,{x1,x2,....,xt}。其中,Shared Encode可以为Transformer Encode。由于该序列编码后续需要被CTC模型和Transformer模型共用,因此该序列编码也可称为共享编码序列。
步骤203,当该编码序列中除最后一个元素外的任一元素生成时,利用CTC模型对该元素进行识别,生成中间识别结果。
在一个例子中,利用CTC模型对该元素进行识别,生成中间识别结果,可以具体包括:利用CTC模型对该元素进行识别,生成多个参考中间识别结果;将该多个参考中间识别结果中权重最高的参考中间识别结果确定为该元素对应的中间识别结果。
具体的,以编码序列{x1,x2,....,xt}为例,CTC模型的解码器(Decoder)和SharedEncoder的连接没有attention机制,因此,每当Shared Encoder产生输出编码序列的一个元素,如x4,的时候,CTC模型的Decoder可以独立的对x4进行识别,得到多个识别结果,然后分别结合x1、x2、x3分别对应的多个识别结果,得到多个识别结果序列,该多个识别结果序列即为参考中间识别结果,根据CTC模型的Decoder的机制,每个参考中间识别结果对应一权重值,权重越高说明越接近真实意思表示,因此将参考中间识别结果中权重最高的参考中间识别结果确定为x4对应的中间识别结果。
步骤204,输出该中间识别结果。
由于在生成编码序列的过程中,每生成一元素即可生成一中间识别结果,并输出该中间识别结果,从而实现了流失的语音识别,可即时将中间识别结果呈现给用户。
步骤205,利用Transformer模型对该编码序列进行识别,生成最终识别结果。
在生成完整的编码序列后,可以仅利用Transformer模型的Decoder对该编码序列进行识别,生成最终识别结果,该方法与现有技术相同,在此不再赘述。该方法生成的最终识别结果的正确率高,但由于需要由Transformer模型的Decoder对该编码序列进行完整的识别,效率较低,会影响流式语音识别模型的性能。
优选的,在一个例子中,为提高流式语音识别模型的识别效率及性能,可以将CTC模型和Transformer模型进行结合,来识别出的最终识别结果。具体的,步骤205,可以包括:
步骤2501,当该编码序列中的最后一个元素生成时,利用CTC模型对最后一个元素进行识别,生成多个参考最终识别结果。
具体的,生成多个参考最终识别结果的过程与步骤203中生成多个参考中间识别结果的过程相同,在此不再赘述。
步骤2502,利用Transformer模型根据该编码序列调整多个参考最终识别结果的权重。
步骤2503,将权重最高的参考最终识别结果确定为最终识别结果。
可以理解的是,基于步骤2501到2503,Transformer模型不需要对编码序列进行识别,且CTC模型在编码序列的每生成一个元素就识别一个元素,当最后一个元素生成时,CTC模型只需要识别最后一个元素,即可生成多个参考最终识别结果,因此,CTC模型生成多个参考最终识别结果所用的时间远小于Transformer模型对编码序列进行识别生成最终识别结果所用的时间,且对多个参考最终识别结果的权重进行调整及确定最终识别结果的耗时很短。这样可以有效提高最终识别结果的识别效率及流式语音识别模型的性能。同时,由于Transformer模型会根据该编码序列调整多个参考最终识别结果的权重,因此相较于仅利用Transformer模型识别出的最终识别结果不会有较大正确率损失。
步骤206,输出该最终识别结果。
通过利用本发明实施例提供的语音识别方法,对语音信息进行编码,生成编码序列,当编码序列中的除最后一个元素外的任一元素生成时,利用CTC模型对该元素进行识别,生成中间识别结果,并输出中间识别结果;利用Transformer模型对该编码序列进行识别,生成最终识别结果,并输出最终识别结果。可以看出,利用由CTC模型和Transformer模型构成的流式语音识别模型对语音信息进行识别,能够实现流式语音识别,即时输出中间识别结果,从而提升用户体验。
本发明实施例提供一种语音识别装置,图3为该语音识别装置的结构图。该装置可应用于电子设备。该电子设备包括流式语音识别模型,其中,该流式语音识别模型包括:CTC模型和Transformer模型。该流式语音识别模型的结构如图1所示。
如图3所示,该语音识别装置包括:
接收单元301,用于接收语音信息;
编码单元302,用于对所述语音信息进行编码,生成编码序列;
第一识别单元303,用于当所述编码序列中除最后一个元素外的任一元素生成时,利用CTC模型对所述元素进行识别,生成中间识别结果;
输出单元304,用于输出所述中间识别结果;
第二识别单元305,用于利用Transformer模型对所述编码序列进行识别,生成最终识别结果;
所述输出单元304,还用于输出所述最终识别结果。
优选的,所述第二识别单元305,具体用于:当所述编码序列中的最后一个元素生成时,利用CTC模型对所述最后一个元素进行识别,生成多个参考最终识别结果;利用Transformer模型根据所述编码序列调整所述多个参考最终识别结果的权重;将权重最高的参考最终识别结果确定为最终识别结果。
优选的,所述第一识别单元303,具体用于:利用CTC模型对所述元素进行识别,生成多个参考中间识别结果;将所述多个参考中间识别结果中权重最高的参考中间识别结果确定为所述元素对应的中间识别结果。
优选的,所述编码单元302,具体用于:利用Transformer模型对所述语音信息进行编码,生成编码序列。
利用本发明提供的语音识别装置,对语音信息进行编码,生成编码序列,当编码序列中的除最后一个元素外的任一元素生成时,利用CTC模型对该元素进行识别,生成中间识别结果,并输出中间识别结果;利用Transformer模型对该编码序列进行识别,生成最终识别结果,并输出最终识别结果。可以看出,利用由CTC模型和Transformer模型构成的流式语音识别模型对语音信息进行识别,能够实现流式语音识别,即时输出中间识别结果,从而提升用户体验。
下面,参考图4来描述根据本申请实施例的电子设备11。
如图4所示,电子设备11包括一个或多个处理器111和存储器112。
处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备11中的其他组件以执行期望的功能。
存储器112可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器111可以运行所述程序指令,以实现上文所述的本申请的各个实施例的语音识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备11还可以包括:输入装置113和输出装置114,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入设备113可以包括例如键盘、鼠标等等。
该输出装置114可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图4中仅示出了该电子设备11中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备11还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (8)

1.一种语音识别方法,其特征在于,所述方法应用于电子设备,所述电子设备包括流式语音识别模型,所述流式语音识别模型包括:序列时间分类CTC模型和变形Transformer模型,所述方法包括:
接收语音信息;
对所述语音信息进行编码,生成编码序列;
当所述编码序列中除最后一个元素外的任一元素生成时,利用CTC模型对所述元素进行识别,生成中间识别结果;
输出所述中间识别结果;
利用Transformer模型对所述编码序列进行识别,生成最终识别结果;
输出所述最终识别结果;
所述利用Transformer模型对所述编码序列进行识别,生成最终识别结果,包括:
当所述编码序列中的最后一个元素生成时,利用CTC模型对所述最后一个元素进行识别,生成多个参考最终识别结果;
利用Transformer模型根据所述编码序列调整所述多个参考最终识别结果的权重;
将权重最高的参考最终识别结果确定为最终识别结果。
2.根据权利要求1所述的方法,其特征在于,所述利用CTC模型对所述元素进行识别,生成中间识别结果,包括:
利用CTC模型对所述元素进行识别,生成多个参考中间识别结果;
将所述多个参考中间识别结果中权重最高的参考中间识别结果确定为所述元素对应的中间识别结果。
3.根据权利要求1所述的方法,其特征在于,所述对所述语音信息进行编码,生成编码序列,包括:
利用Transformer模型对所述语音信息进行编码,生成编码序列。
4.一种语音识别装置,其特征在于,所述装置应用于电子设备,所述电子设备包括流式语音识别模型,所述流式语音识别模型包括:序列时间分类CTC模型和变形Transformer模型,所述装置包括:
接收单元,用于接收语音信息;
编码单元,用于对所述语音信息进行编码,生成编码序列;
第一识别单元,用于当所述编码序列中除最后一个元素外的任一元素生成时,利用CTC模型对所述元素进行识别,生成中间识别结果;
输出单元,用于输出所述中间识别结果;
第二识别单元,用于利用Transformer模型对所述编码序列进行识别,生成最终识别结果;
所述输出单元,还用于输出所述最终识别结果;
所述第二识别单元,具体用于:
当所述编码序列中的最后一个元素生成时,利用CTC模型对所述最后一个元素进行识别,生成多个参考最终识别结果;
利用Transformer模型根据所述编码序列调整所述多个参考最终识别结果的权重;
将权重最高的参考最终识别结果确定为最终识别结果。
5.根据权利要求4所述的装置,其特征在于,所述第一识别单元,具体用于:
利用CTC模型对所述元素进行识别,生成多个参考中间识别结果;
将所述多个参考中间识别结果中权重最高的参考中间识别结果确定为所述元素对应的中间识别结果。
6.根据权利要求4所述的装置,其特征在于,所述编码单元,具体用于:
利用Transformer模型对所述语音信息进行编码,生成编码序列。
7.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-3任一项所述的语音识别方法。
8.一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-3任一项所述的语音识别方法。
CN202011519104.5A 2020-12-21 2020-12-21 语音识别方法及装置 Active CN112802467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011519104.5A CN112802467B (zh) 2020-12-21 2020-12-21 语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011519104.5A CN112802467B (zh) 2020-12-21 2020-12-21 语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN112802467A CN112802467A (zh) 2021-05-14
CN112802467B true CN112802467B (zh) 2024-05-31

Family

ID=75807135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011519104.5A Active CN112802467B (zh) 2020-12-21 2020-12-21 语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN112802467B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257248B (zh) * 2021-06-18 2021-10-15 中国科学院自动化研究所 一种流式和非流式混合语音识别系统及流式语音识别方法
CN117594045A (zh) * 2024-01-18 2024-02-23 拓世科技集团有限公司 一种基于语音的虚拟人物模型控制方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180046780A (ko) * 2016-10-28 2018-05-09 에스케이텔레콤 주식회사 이중 웨이크업을 이용한 음성 인식 서비스 제공 방법 및 이를 위한 장치
CN110706690A (zh) * 2019-09-16 2020-01-17 平安科技(深圳)有限公司 语音识别方法及其装置
CN110942831A (zh) * 2019-11-26 2020-03-31 北京航空航天大学 基于自注意力机制的孕期数据建模方法
CN111009237A (zh) * 2019-12-12 2020-04-14 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备及存储介质
CN111968629A (zh) * 2020-07-08 2020-11-20 重庆邮电大学 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法
WO2020247489A1 (en) * 2019-06-04 2020-12-10 Google Llc Two-pass end to end speech recognition

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665900B (zh) * 2018-04-23 2020-03-03 百度在线网络技术(北京)有限公司 云端唤醒方法及系统、终端以及计算机可读存储介质
CN111429889B (zh) * 2019-01-08 2023-04-28 百度在线网络技术(北京)有限公司 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180046780A (ko) * 2016-10-28 2018-05-09 에스케이텔레콤 주식회사 이중 웨이크업을 이용한 음성 인식 서비스 제공 방법 및 이를 위한 장치
WO2020247489A1 (en) * 2019-06-04 2020-12-10 Google Llc Two-pass end to end speech recognition
CN110706690A (zh) * 2019-09-16 2020-01-17 平安科技(深圳)有限公司 语音识别方法及其装置
CN110942831A (zh) * 2019-11-26 2020-03-31 北京航空航天大学 基于自注意力机制的孕期数据建模方法
CN111009237A (zh) * 2019-12-12 2020-04-14 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备及存储介质
CN111968629A (zh) * 2020-07-08 2020-11-20 重庆邮电大学 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
端到端语音识别的研究进展与挑战;高建清等;前沿技术;第39-45页 *

Also Published As

Publication number Publication date
CN112802467A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
JP7066349B2 (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
KR102201936B1 (ko) 신경망을 사용한 텍스트 세그먼트의 의존성 파스 생성
CN112802467B (zh) 语音识别方法及装置
CN115203380A (zh) 基于多模态数据融合的文本处理系统及其方法
CN111414987B (zh) 神经网络的训练方法、训练装置和电子设备
JP7079311B2 (ja) 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体
WO2020228175A1 (zh) 多音字预测方法、装置、设备及计算机可读存储介质
CN110147435B (zh) 对话生成方法、装置、设备及存储介质
JP5671320B2 (ja) 情報処理装置及びその制御方法並びにプログラム
CN110929505B (zh) 房源标题的生成方法和装置、存储介质、电子设备
CN116884391B (zh) 基于扩散模型的多模态融合音频生成方法及装置
CN113299282A (zh) 一种语音识别方法、装置、设备及存储介质
CN107808664B (zh) 基于稀疏神经网络的语音识别方法、语音识别装置和电子设备
CN112596868A (zh) 模型训练方法及装置
KR20210042707A (ko) 음성 처리 방법 및 장치
CN116151604A (zh) 一种web环境下办公系统流程分析系统及其方法
JP2021033994A (ja) テキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
CN111524500B (zh) 语音合成方法、装置、设备和存储介质
CN113485829B (zh) 用于微服务集群的数据增量步段的标识值生成方法
CN114912441A (zh) 文本纠错模型生成方法、纠错方法、系统、设备和介质
CN114841175A (zh) 机器翻译方法、装置、设备及存储介质
CN114595701A (zh) 翻译模型的处理方法、装置和计算机可读存储介质
CN113378561A (zh) 词语预测模板生成方法及装置
CN111241263A (zh) 文本生成方法、装置和电子设备
WO2018139275A1 (ja) 機器、出力装置、出力方法および出力プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant