CN110634469A - 基于人工智能的语音信号处理方法、装置及存储介质 - Google Patents

基于人工智能的语音信号处理方法、装置及存储介质 Download PDF

Info

Publication number
CN110634469A
CN110634469A CN201910922947.0A CN201910922947A CN110634469A CN 110634469 A CN110634469 A CN 110634469A CN 201910922947 A CN201910922947 A CN 201910922947A CN 110634469 A CN110634469 A CN 110634469A
Authority
CN
China
Prior art keywords
voice signal
decoding
signal
current frame
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910922947.0A
Other languages
English (en)
Other versions
CN110634469B (zh
Inventor
杨伟光
贺利强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910922947.0A priority Critical patent/CN110634469B/zh
Publication of CN110634469A publication Critical patent/CN110634469A/zh
Application granted granted Critical
Publication of CN110634469B publication Critical patent/CN110634469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于人工智能的语音信号处理方法、装置、电子设备及存储介质;方法包括:通过第一解码网络接收待识别语音信号中当前帧语音信号,并结合待识别语音信号中的前向帧语音信号的解码结果、以及当前帧语音信号进行解码,得到当前帧语音信号的解码结果;根据当前帧语音信号的解码结果,对当前帧语音信号进行尖峰信号的识别;当识别到尖峰信号时,从第一解码网络切换至第二解码网络以接收待识别语音信号中后向帧语音信号,并结合当前帧语音信号的解码结果、以及待识别语音信号中的后向帧语音信号进行解码,得到后向帧语音信号的解码结果。通过本发明,能够结合两种解码网络对语音信号进行解码处理,提高语音识别的效率。

Description

基于人工智能的语音信号处理方法、装置及存储介质
技术领域
本发明涉及人工智能技术,尤其涉及一种基于人工智能的语音信号处理方法、装置、电子设备及存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
将人工智能技术应用于语音识别中,通过机器的推理与决策的功能可以获得与语音信息对应的文本信息,为用户带来了极大的便利。
但是,目前语音识别往往不能满足用户的需求,语音识别的过程中经常出现延迟、误识别等问题。
发明内容
本发明实施例提供一种基于人工智能的语音信号处理方法、装置、电子设备及存储介质,能够结合两种解码网络对语音信号进行解码处理,提高语音识别的效率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种基于人工智能的语音信号处理方法,所述方法包括:
通过第一解码网络接收待识别语音信号中当前帧语音信号,并
结合所述待识别语音信号中的前向帧语音信号的解码结果、以及所述当前帧语音信号进行解码,得到所述当前帧语音信号的解码结果;
根据所述当前帧语音信号的解码结果,对所述当前帧语音信号进行尖峰信号的识别;
当识别到所述尖峰信号时,从所述第一解码网络切换至第二解码网络以接收所述待识别语音信号中后向帧语音信号,并
结合所述当前帧语音信号的解码结果、以及所述待识别语音信号中的后向帧语音信号进行解码,得到所述后向帧语音信号的解码结果;
其中,所述第一解码网络的纠错性能高于所述第二解码网络的纠错性能。
本发明实施例提供一种基于人工智能的语音信号处理装置,所述装置包括:
第一解码模块,用于通过第一解码网络接收待识别语音信号中当前帧语音信号,并
结合所述待识别语音信号中的前向帧语音信号的解码结果、以及所述当前帧语音信号进行解码,得到所述当前帧语音信号的解码结果;
第一识别模块,用于根据所述当前帧语音信号的解码结果,对所述当前帧语音信号进行尖峰信号的识别;
当识别到所述尖峰信号时,从所述第一解码网络切换至第二解码网络以接收所述待识别语音信号中后向帧语音信号;
第二解码模块,用于结合所述当前帧语音信号的解码结果、以及所述待识别语音信号中的后向帧语音信号进行解码,得到所述后向帧语音信号的解码结果;
其中,所述第一解码网络的纠错性能高于所述第二解码网络的纠错性能。
上述技术方案中,所述第一识别模块还用于当所述当前帧语音信号的解码结果包括的音素标签相对于所述前向帧语音信号的解码结果包括的音素标签发生变化时,确定所述当前帧语音信号中包括尖峰信号。
上述技术方案中,所述第一解码模块还用于对所述前向帧语音信号的解码结果包括的所述前向帧语音信号的多个候选音素标签进行解码,得到对应所述当前帧语音信号的第一隐向量;
对所述当前帧语音信号的特征向量进行编码,得到对应所述当前帧语音信号的第二隐向量;
将所述第一隐向量和所述第二隐向量进行连接,并基于连接得到的向量进行分类,得到对应输出标签集中各个候选音素标签的声学模型得分;
将所述当前帧语音信号对应的各个候选音素标签的声学模型得分和对应各个候选音素标签的语言模型得分进行加权,对加权结果进行降序排序,得到排序在前的预设数量的候选音素标签,以用于结合后向帧语音信号的特征向量进行解码。
上述技术方案中,所述基于人工智能的语音信号处理装置还包括:
第二识别模块,用于根据所述当前帧语音信号对应各个候选音素标签的声学模型得分、以及对应各个候选音素标签的语言模型得分,搜索由语言模型和声学模型构成的解码空间,得到使所述当前帧语音信号相对于所述前向帧语音信号的条件概率最大的音素标签,作为所述当前帧语音信号的识别结果。
上述技术方案中,所述第二解码模块还用于对所述当前帧语音信号的解码结果包括的所述当前帧语音信号的多个候选音素标签进行解码,得到对应所述后向帧语音信号的第三隐向量;
对所述后向帧语音信号的特征向量进行编码,得到对应所述后向帧语音信号的第四隐向量;
将所述第三隐向量和所述第四隐向量进行连接,并基于连接得到的向量进行分类,得到对应输出标签集中各个候选音素标签的声学模型得分;
根据所述后向帧语音信号对应的各个候选音素标签的声学模型得分,得到排序在前的预设数量的候选音素标签,以用于结合后向帧语音信号的后向帧语音信号的特征向量进行解码。
上述技术方案中,所述基于人工智能的语音信号处理装置还包括:
第三识别模块,用于根据所述后向帧语音信号对应各个候选音素标签的声学模型得分、以及对应各个候选音素标签的语言模型得分,搜索由语言模型和声学模型构成的解码空间,得到使所述后向帧语音信号相对于所述当前帧语音信号的条件概率最大的音素标签,作为所述后向帧语音信号的识别结果。
上述技术方案中,所述第一识别模块还用于根据所述后向帧语音信号的解码结果,对所述待识别语音信号进行尖峰信号的识别;
当识别到所述尖峰信号时,将所述第二解码网络切换至第一解码网络,并通过所述第一解码网络对所述后向帧语音信号的解码结果、以及后向帧语音信号的后向帧语音信号的语音信号进行解码,得到后向帧语音信号的后向帧语音信号的解码结果。
上述技术方案中,所述第一识别模块还用于当识别到所述尖峰信号,以及根据所述当前帧语音信号的第一后向帧语音信号的解码结果,确定所述当前帧语音信号的第一后向帧语音信号包括空白标签时,将所述第一解码网络切换至第二解码网络。
上述技术方案中,所述第一识别模块还用于根据所述当前帧语音信号的第二后向帧语音信号的解码结果,对所述待识别语音信号进行尖峰信号的识别;
当识别到所述尖峰信号时,将所述第二解码网络切换至所述第一解码网络。
上述技术方案中,所述第一识别模块还用于根据当前帧语音信号的第二后向帧语音信号的解码结果,对所述待识别语音信号进行尖峰信号的识别;
当识别到所述当前帧语音信号的第二后向帧语音信号包括空白标签时,通过所述第二解码网络对所述语音信号进行解码处理。
上述技术方案中,所述第一识别模块还用于当识别到所述尖峰信号,以及根据所述当前帧语音信号的第三后向帧语音信号的解码结果,确定所述当前帧语音信号的第三后向帧语音信号包括至少一个尖峰信号时,将所述第一解码网络切换至第二解码网络。
上述技术方案中,所述基于人工智能的语音信号处理装置还包括:
预处理模块,用于滤除原始语音信号中的背景噪声,并进行端点检测以得到所述原始语音信号中的起始点和结束点;
根据所述起始点和结束点,从所述原始语音信号中分割出待识别语音信号;
对所述待识别语音信号按照设定的时长进行分帧处理,得到多帧相互重叠的语音信号;
生成每帧语音信号对应的特征向量。
本发明实施例提供一种基于人工智能的语音信号处理设备,所述设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的基于人工智能的语音信号处理方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的基于人工智能的语音信号处理方法。
本发明实施例具有以下有益效果:
1、通过当识别到尖峰信号时,将第一解码网络切换至第二解码网络,通过第二解码网络对语音信号进行解码处理,由于第一解码网络的纠错性能高于第二解码网络的纠错性能,通过第二解码网络进行解码处理的速度更快,提高语音信号识别的速度,避免语音识别的延迟;
2、通过纠错性能高的第一解码网络对语音信号进行解码处理,可以提高语音解码的准确度,极大地减少了语音识别过程中的噪声,提高语音识别的准确度。
附图说明
图1是本发明实施例提供的基于人工智能的语音信号处理方法的一个可选的应用场景10示意图;
图2是本发明实施例提供的基于人工智能的语音信号处理设备500的结构示意图;
图3是本发明实施例提供的解码模块进行解码处理的一个可选的实现示意图;
图4A-4C是本发明实施例提供的基于人工智能的语音信号处理方法的流程示意图;
图5是本发明实施例提供的声波示意图;
图6是本发明实施例提供的语音帧示意图;
图7是本发明实施例提供的RNN-T模型示意图;
图8是本发明实施例提供的使用解码器交互方法的结构示意图;
图9是本发明实施例提供的使用argmax方法的结构示意图;
图10为本发明实施例提供的原始声波尖峰示意图;
图11为本发明实施例提供的argmax方法和解码器交互方法的识别尖峰结果示意图;
图12为本发明实施例提供的argmax和解码器交互结合的前N候选label方法的识别尖峰结果示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三\第四”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三\第四”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)自动语音识别(ASR,Automatic Speech Recognition):将人的语音转换为文本的技术,目标是让运行语音识别系统的设备能够听写出不同人所说出的连续语音所包括的文本。
2)知识源:即解码器(Decoder)基于语音信号的特征序列解码得到识别结果时所需要的知识的来源,例如知识源可以是声学模型、语言模型等。
3)声学模型(AM,Acoustic Model):对声学、语音学、环境的变量、说话人性别、口音等的差异化的知识表示,包括基于隐马尔可夫模型(HMM,Hidden Markov Model)的声学模型,例如混合高斯-隐马尔科夫模型(GMM-HMM)和深度神经网络-隐马尔科夫模型(DNN-HMM)表示,隐马尔可夫模型是一个离散时域的加权有限状态自动机;当然,还可以包括端到端(End to End)的声学模型,例如连接时序分类-长短时记忆(CTC-LSTM)模型和注意力(Attention)模型。
声学模型的每个状态中表示语音单元(例如词、音节和音素等)的语音特征在该状态的概率分布,并通过状态与状态之间的转移连接成一个有序的状态序列,即得到一段语音信号所代表的语音单元的序列,假设W为语音单元的序列,记为:W={w1,w2,……,wn},声学模型概率P(O|W)表示W与观测序列O的匹配程度。
4)语言模型(LM,Language Model):语言结构(包括词语、句子之间的规律,例如语法、词语常用搭配等)的知识表示,语言模型概率P(W)用于表示语音单元的序列W在一段语音信号中出现的先验概率。
5)伪尖峰:声音实际上是一种波,语音识别是识别声波曲线中的一个个尖峰。声音中是存在噪声的,但是声学模型会将噪声点识别成尖峰,这种尖峰也就是伪尖峰。
本发明实施例提供了一种基于人工智能的语音信号处理方法、装置、电子设备及存储介质,能够结合两种解码网络对语音信号进行解码处理,提高语音识别的效率。下面说明本发明实施例提供的基于人工智能的语音信号处理设备的示例性应用,本发明实施例提供的基于人工智能的语音信号处理设备可以是服务器,例如部署在云端的服务器,根据针对用户的语音识别请求,结合待识别语音信号中各帧语音信号的解码结果,得到待识别语音信号的识别文本,向用户提供对应语音信号的文本信息;也可是笔记本电脑,平板电脑,台式计算机,移动设备(例如,移动电话,个人数字助理)等各种类型的用户终端,例如手持终端,根据针对用户的语音识别请求,获得对应语音信号的文本信息,并显示在手持终端的显示界面上,以实现手持终端与用户的交互过程。
参见图1,图1是本发明实施例提供的基于人工智能的语音信号处理方法的一个可选的应用场景10示意图,终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
终端200可以被用来获取针对用户的语音识别请求,例如,当用户打开语音助手应用后,并在输入界面输入一段语音,终端自动获取针对用户的语音识别请求。
在一些实施例中,终端200本地执行本发明实施例提供的基于人工智能的语音信号处理方法来完成根据针对用户的语音识别请求,结合待识别语音信号中各帧语音信号的解码结果,获得对应语音信号的文本信息,例如,在终端200上安装语音助手应用(Application,APP),用户在打开语音助手APP后,在输入界面输入一段语音,终端200自动生成针对用户的语音识别请求,并进行一系列的处理,获得用于响应语音识别请求的文本信息,并显示在终端200的显示界面210上。
终端200也可以通过网络300向服务器100发送针对用户的语音识别请求,并调用服务器100提供的语音识别功能,服务器100通过本发明实施例提供的基于人工智能的语音信号处理方法获得用于响应语音识别请求的文本信息,例如,在终端200上安装语音助手APP,用户打开语音助手APP后,在输入界面输入一段语音,终端200自动生成针对用户的语音识别请求,并通过网络300向服务器100发送针对用户的语音识别请求,服务器100根据针对用户的语音识别请求,进行一系列的处理,获得用于响应语音识别请求的文本信息,并返回该文本信息至语音助手APP,将文本信息显示在终端200的显示界面上。
继续说明本发明实施例提供的基于人工智能的语音信号处理设备的结构,基于人工智能的语音信号处理设备可以是各种终端,例如手机、电脑等,也可以是如图1示出的服务器100。
参见图2,图2是本发明实施例提供的基于人工智能的语音信号处理设备500的结构示意图,图2所示的基于人工智能的文本推荐设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。基于人工智能的语音信号处理设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Onl y Memory),易失性存储器可以是随机存取存储器(RAM,Random Access M emory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的基于人工智能的语音信号处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的基于人工智能的语音信号处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的基于人工智能的语音信号处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Applicati on Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
在另一些实施例中,本发明实施例提供的基于人工智能的语音信号处理装置可以采用软件方式实现,图2示出了存储在存储器550中的基于人工智能的语音信号处理装置555,其可以是程序和插件等形式的软件,并包括一系列的模块,包括第一解码模块5551、第一识别模块5552、第二解码模块5553、第二识别模块5554、第三识别模块5555以及预处理模块5556;其中,第一解码模块5551、第一识别模块5552、第二解码模块5553、第二识别模块5554、第三识别模块5555以及预处理模块5556用于实现本发明实施例提供的基于人工智能的语音信号处理方法。
参见图3,图3是本发明实施例提供的解码模块进行解码处理的一个可选的实现示意图,解码模块(第一解码模块5551或第二解码模块5552)用于将各种知识源如声学模型、发音词典、上下文元素以及语言模型进行整合为一个加权有限状态转换机(Finite-StateTransducer,WFST),对输入的语音信号的特征序列进行搜索和匹配工作,直至搜索到包括输出概率最大的词串的路径作为识别结果。
解码模块用于实现模型整合和模型优化,就模型整合来说,将上下文相关的声学模型、发音词典、声学上下文因素模型使用整合算法,整合为一个单一的WFST(下文中称为整合WFST)即解码网络,模型优化包括通过确定化演算法进行确定化操作、最小化演算法来进行最小化操作,减少识别时间和存储空间的占用率,从而提高识别效率。
就确定化操作(Determinization)来说,在确定化的整合WFST中,对于整合WFST的每个状态,每个输入符号最多只有一条边与该状态对应,这样产生的效果是,对于输入自动语音识别系统的语音信号的特征序列来说,由于在解码网络中去除重复的路径,在解码网络中只有一条路径与特征序列对应,从而减少解码的时间和空间消耗。
就最小化操作来(Minimization)说,最小化的整合WFST与最小化前的整合WFST是等价的,且在所有确定化的整合WFST中,最小化的整合WFST所包括的状态的数量、以及所包括的边的数量都是最少的。
解码模块的搜索模块用于在建立的解码网络中搜索最佳路径,涉及初始化、判断评分、路径的剪枝和回溯;就路径的剪枝来说,包括全局累计概率剪枝、语言模型剪枝和直方图剪枝等方式,通过裁剪不必要的路径,以避免路径数量的爆炸性增长。
根据上文可以理解,本发明实施例提供的基于人工智能的语音信号处理方法可以由各种类型的基于人工智能的语音信号处理设备,例如智能终端和服务器等。
下面结合本发明实施例提供的终端的示例性应用和实施,说明本发明实施例提供的基于人工智能的语音信号处理方法。参见图4A,图4A是本发明实施例提供的基于人工智能的语音信号处理方法的流程示意图,结合图4A示出的步骤进行说明。
在步骤101中,通过第一解码网络接收待识别语音信号中当前帧语音信号,并结合待识别语音信号中的前向帧语音信号的解码结果、以及当前帧语音信号进行解码,得到当前帧语音信号的解码结果。
终端通过第一解码网络接收到待识别语音信号中的当前帧语音信号后,还可以获取待识别语音信号中的前向帧语音信号的解码结果,并根据待识别语音信号中的前向帧语音信号的解码结果、以及当前帧语音信号进行解码,得到当前帧语音信号的解码结果,以便后续根据所述当前帧语音信号的解码结果识别语音信号中的尖峰信号。
参见图4B,图4B是本发明实施例提供的一个可选的流程示意图,在一些实施例中,图4B示出步骤101可以通过图4B示出的步骤1011至步骤1014实现。
在步骤1011中,对前向帧语音信号的解码结果包括的前向帧语音信号的多个候选音素标签进行解码,得到对应当前帧语音信号的第一隐向量。
终端在获得前向帧语音信号的解码结果后,可以获得前向帧语音信号的解码结果包括的前向帧语音信号的多个候选音素标签,并通过第一解码网络中的预测网络对前向帧语音信号的解码结果包括的前向帧语音信号的多个候选音素标签进行解码,从而得到对应当前帧语音信号的第一隐向量、即当前帧语音信号的中间向量。
在步骤1012中,对当前帧语音信号的特征向量进行编码,得到对应当前帧语音信号的第二隐向量。
在获得当前帧语音信号后,可以通过第一解码网络中的编码器对当前帧语音信号的特征向量进行编码,从而得到对应当前帧语音信号的第二隐向量、即当前帧语音信号的中间得分。
在步骤1013中,将第一隐向量和第二隐向量进行连接,并基于连接得到的向量进行分类,得到对应输出标签集中各个候选音素标签的声学模型得分。
当终端获得了第一隐向量和第二隐向量后,将第一隐向量和第二隐向量输入至第一解码网络中的联合网络,通过联合网络对第一隐向量和第二隐向量进行连接,并基于最大似然函数进行分类,得到对应输出标签集中各个候选音素标签的声学模型得分。
其中,联合网络可以将语言模型和声学模型的状态通过某种思路结合在一起、即可以将语言模型和声学模型的状态进行拼接操作,也可以是将语言模型和声学模型的状态直接相加等。一般情况下,考虑到语言模型和声学模型可能有不同的权重,因此联合网络采用将语言模型和声学模型的状态进行拼接操作。
在步骤1014中,将当前帧语音信号对应的各个候选音素标签的声学模型得分和对应各个候选音素标签的语言模型得分进行加权,对加权结果进行降序排序,得到排序在前的预设数量的候选音素标签,以用于结合后向帧语音信号的特征向量进行解码。
为了提高第一解码网络的纠错性能,第一解码网络将当前帧语音信号对应的各个候选音素标签的声学模型得分和对应各个候选音素标签的语言模型得分进行加权,对加权结果进行降序排序,得到排序在前的预设数量的候选音素标签,从而通过使用历史帧的路径概率、即语言模型得分进行纠错,并得到排序在前的预设数量的候选音素标签,从而得到前N候选标签。
在一些实施例,基于人工智能的语音信号处理方法还包括:根据当前帧语音信号对应各个候选音素标签的声学模型得分、以及对应各个候选音素标签的语言模型得分,搜索由语言模型和声学模型构成的解码空间,得到使当前帧语音信号相对于前向帧语音信号的条件概率最大的音素标签,作为当前帧语音信号的识别结果。
当终端得到当前帧语音信号对应各个候选音素标签的声学模型得分后,可以根据终端中存储的对应各个候选音素标签的语言模型得分,搜索由语言模型和声学模型构成的解码空间、即由语言模型和声学模型构成的先验知识,得到使当前帧语音信号相对于前向帧语音信号的条件概率最大的音素标签,并将条件概率最大的音素标签作为当前帧语音信号的识别结果。例如,前向帧语音信号对应的音素标签为“J”,通过搜索由语言模型和声学模型构成的解码空间,得到当前帧语音信号相对于前向帧语音信号的条件概率最大的音素标签为“I”,则将“I”作为当前帧语音信号的识别结果。
在一些实施例中,通过第一解码网络接收待识别语音信号中当前帧语音信号之前,基于人工智能的语音信号处理方法还包括:滤除原始语音信号中的背景噪声,并进行端点检测以得到原始语音信号中的起始点和结束点;根据起始点和结束点,从原始语音信号中分割出待识别语音信号;对待识别语音信号按照设定的时长进行分帧处理,得到多帧相互重叠的语音信号;生成每帧语音信号对应的特征向量。
终端在接收到原始语音信号后,会对原始语音信号进行预处理,滤除原始语音信号中的不重要的信息以及背景噪声,并进行端点检测以得到原始语音信号中的起始点和结束点,从而从原始语音信号中分割出待识别语音信号。待识别的语音信号为时变信号,需要对待识别语音信号按照设定的时长进行分帧处理,例如将语音信号的设定时长控制在几十毫秒内,从而得到稳定的多帧相互重叠的语音信号。并根据多帧相互重叠的语音信号,生成每帧语音信号对应的特征向量,以便后续对语音信号进行解码操作,也就是是基于语音信号对应特征向量进行解码。
在步骤102中,根据当前帧语音信号的解码结果,对当前帧语音信号进行尖峰信号的识别。
当获得了当前帧语音信号的解码结果后,需要根据当前帧语音信号的解码结果,对当前帧语音信号进行尖峰信号的识别,以确定当前帧语音信号是否存在尖峰。
在一些实施例中,根据当前帧语音信号的解码结果,对当前帧语音信号进行尖峰信号的识别,包括:当前帧语音信号的解码结果包括的音素标签相对于前向帧语音信号的解码结果包括的音素标签发生变化时,确定当前帧语音信号中包括尖峰信号。
当终端获得了当前帧语音信号的解码结果以及前向帧语音信号的解码结果后,可以得到当前帧语音信号的解码结果包括的音素标签以及前向帧语音信号的解码结果包括的音素标签,当前帧语音信号的解码结果包括的音素标签与前向帧语音信号的解码结果包括的音素标签不相同,则说明当前帧语音信号中包括尖峰信号。
在步骤103中,当识别到尖峰信号时,从第一解码网络切换至第二解码网络以接收待识别语音信号中后向帧语音信号。
当根据当前帧语音信号的解码结果,对当前帧语音信号进行尖峰信号的识别后,确定识别到尖峰信号时,需要将第一解码网络切换至第二解码网络,并通过第二解码网络以接收待识别语音信号中后向帧语音信号,以对后向帧进行解码处理,通过第二解码网络对语音信号进行解码处理,可以提高解码速度,避免语音延迟问题。
在一些实施例中,当识别到尖峰信号时,将第一解码网络切换至第二解码网络,包括:当识别到尖峰信号,以及根据当前帧语音信号的第一后向帧语音信号的解码结果,确定当前帧语音信号的第一后向帧语音信号包括空白标签时,将第一解码网络切换至第二解码网络。
终端可以在一识别到尖峰信号后,就将第一解码网络切换至第二解码网络。终端还可以在识别到尖峰信号后,继续通过第一解码网络进行解码处理,得到当前帧语音信号的第一后向帧语音信号的解码结果,且确定当前帧语音信号的第一后向帧语音信号包括空白标签时,则将第一解码网络切换至第二解码网络,通过第二解码网络对语音信号进行解码处理,例如在识别到尖峰信号后,当前帧语音信号为空白标签时,将第一解码网络切换至第二解码网络。其中,第一后向帧语音信号中的语音信号的数量可以是多个帧,例如帧1、2、3、4,其中帧1、2为第一后向帧语音信号,帧3为第二后向帧语音信号,帧4为第三后向帧语音信号。
在一些实施例中,当识别到尖峰信号时,将第一解码网络切换至第二解码网络,包括:当识别到尖峰信号,以及根据当前帧语音信号的第三后向帧语音信号的解码结果,确定当前帧语音信号的第三后向帧语音信号包括至少一个尖峰信号时,将第一解码网络切换至第二解码网络。
终端还可以在识别到尖峰信号后,继续通过第一解码网络对当前帧语音信号的第三后向帧语音信号进行解码处理,当根据当前帧语音信号的第三后向帧语音信号的解码结果,确定当前帧语音信号的第三后向帧语音信号包括至少一个尖峰信号时,则将第一解码网络切换至第二解码网络。即每隔固定数量的语音信号出现尖峰信号,才将第一解码网络切换至第二解码网络,避免频繁切换解码网络。
在步骤104中,第二解码网络结合当前帧语音信号的解码结果、以及待识别语音信号中的后向帧语音信号进行解码,得到后向帧语音信号的解码结果。
其中,第一解码网络的纠错性能高于第二解码网络的纠错性能,因此,第一解码网络的解码速度低于第二解码网络的纠错性能。
参见图4C,图4C是本发明实施例提供的一个可选的流程示意图,在一些实施例中,图4C示出步骤104可以通过图4C示出的步骤1041至步骤1043实现。
在步骤1041中,对当前帧语音信号的解码结果包括的当前帧语音信号的多个候选音素标签进行解码,得到对应后向帧语音信号的第三隐向量。
终端在获得当前帧语音信号的解码结果后,可以获得当前帧语音信号的解码结果包括的当前帧语音信号的多个候选音素标签,并通过第二解码网络中的预测网络对当前帧语音信号的解码结果包括的当前帧语音信号的多个候选音素标签进行解码,从而得到对应后向帧语音信号的第三隐向量、即后向帧语音信号的中间向量。
在步骤1042中,对后向帧语音信号的特征向量进行编码,得到对应后向帧语音信号的第四隐向量。
在获得后向帧语音信号后,可以通过第二解码网络中的编码器对后向帧语音信号的特征向量进行编码,从而得到对应后向帧语音信号的第四隐向量、即后向帧语音信号的中间得分。
在步骤1043中,将第三隐向量和第四隐向量进行连接,并基于连接得到的向量进行分类,得到对应输出标签集中各个候选音素标签的声学模型得分。
当终端获得了第三隐向量和第四隐向量后,将第三隐向量和第四隐向量输入至第二解码网络中的联合网络,通过联合网络对第三隐向量和第四隐向量进行连接,并基于最大似然函数进行分类,得到对应输出标签集中各个候选音素标签的声学模型得分。
在步骤1044中,根据后向帧语音信号对应的各个候选音素标签的声学模型得分,得到排序在前的预设数量的候选音素标签,以用于结合后向帧语音信号的后向帧语音信号的特征向量进行解码。
为了提高第二解码网络的解码速度,第二解码网络直接根据后向帧语音信号对应的各个候选音素标签的声学模型得分,得到排序在前的预设数量的候选音素标签,避免引入语言模型得分进行纠错。
在一些实施例中,基于人工智能的语音信号处理方法还包括:根据后向帧语音信号对应各个候选音素标签的声学模型得分、以及对应各个候选音素标签的语言模型得分,搜索由语言模型和声学模型构成的解码空间,得到使后向帧语音信号相对于当前帧语音信号的条件概率最大的音素标签,作为后向帧语音信号的识别结果。
当终端得到后向帧语音信号对应各个候选音素标签的声学模型得分后,可以根据终端中存储的对应各个候选音素标签的语言模型得分,搜索由语言模型和声学模型构成的解码空间、即由语言模型和声学模型构成的先验知识,得到使后向帧语音信号相对于当前帧语音信号的条件概率最大的音素标签,并将条件概率最大的音素标签作为后向帧语音信号的识别结果。
在一些实施例中,结合所述当前帧语音信号的解码结果、以及待识别语音信号中的后向帧语音信号进行解码,得到后向帧语音信号的解码结果之后,基于人工智能的语音信号处理方法还包括:根据后向帧语音信号的解码结果,对待识别语音信号进行尖峰信号的识别;当识别到尖峰信号时,将第二解码网络切换至第一解码网络,并通过第一解码网络对后向帧语音信号的解码结果、以及后向帧语音信号的后向帧语音信号的语音信号进行解码,得到后向帧语音信号的后向帧语音信号的解码结果。
当终端根据后向帧语音信号的解码结果,对待识别语音信号进行尖峰信号的识别,且终端一旦识别到尖峰信号时,就将第二解码网络切换至第一解码网络,并通过第一解码网络对语音信号进行解码处理。即可以通过识别尖峰信号,实现第一解码网络与第二解码网络的交替使用。
在一些实施例中,将第一解码网络切换至第二解码网络之后,基于人工智能的语音信号处理方法还包括:根据当前帧语音信号的第二后向帧语音信号的解码结果,对待识别语音信号进行尖峰信号的识别;当识别到尖峰信号时,将第二解码网络切换至第一解码网络。
当第一解码网络切换至第二解码网络后,通过第二解码网络对当前帧语音信号的第二后向帧语音信号进行解码处理,当根据当前帧语音信号的第二后向帧语音信号的解码结果,对待识别语音信号进行尖峰信号的识别,确定当前帧语音信号的第二后向帧语音信号都对应尖峰信号时,将第二解码网络切换至第一解码网络。即当尖峰信号出现比较频繁时,可以将第二解码网络切换至第一解码网络,并通过第一解码网络进行纠错,避免第一解码网络无法识别伪尖峰的问题。
在一些实施例中,将第一解码网络切换至第二解码网络之后,基于人工智能的语音信号处理方法还包括:根据当前帧语音信号的第二后向帧语音信号的解码结果,对待识别语音信号进行尖峰信号的识别;当识别到当前帧语音信号的第二后向帧语音信号包括空白标签时,通过第二解码网络对所述语音信号进行解码处理。
当第一解码网络切换至第二解码网络后,通过第二解码网络对当前帧语音信号的第二后向帧语音信号进行解码处理,当根据当前帧语音信号的第二后向帧语音信号的解码结果,对待识别语音信号进行尖峰信号的识别,确定当前帧语音信号的第二后向帧语音信号包括空白标签时,继续通过第二解码网络对语音信号进行解码处理,其中,当前帧语音信号的第二后向帧语音信号可以是固定数量的语音信号。即当空白标签出现比较频繁时,可以继续使用第二解码网络进行解码处理,提高解码速度。
后续结合待识别语音信号中各帧语音信号的解码结果,即可得到待识别语音信号的识别文本,从而终端通过第一解码网络以及第二解码网络对语音信号进行解码,获得待识别语音信号的识别文本。
至此已经结合本发明实施例提供的终端的示例性应用和实施,说明本发明实施例提供的基于人工智能的语音信号处理方法,下面继续说明本发明实施例提供的基于人工智能的语音信号处理装置555中各个模块配合实现基于人工智能的语音信号处理的方案。
第一解码模块5551,用于通过第一解码网络接收待识别语音信号中当前帧语音信号,并结合所述待识别语音信号中的前向帧语音信号的解码结果、以及所述当前帧语音信号进行解码,得到所述当前帧语音信号的解码结果;
第一识别模块5552,用于根据所述当前帧语音信号的解码结果,对所述当前帧语音信号进行尖峰信号的识别;当识别到所述尖峰信号时,从所述第一解码网络切换至第二解码网络以接收所述待识别语音信号中后向帧语音信号;
第二解码模块5553,用于结合所述当前帧语音信号的解码结果、以及所述待识别语音信号中的后向帧语音信号进行解码,得到所述后向帧语音信号的解码结果;其中,所述第一解码网络的纠错性能高于所述第二解码网络的纠错性能。
在一些实施例中,所述第一识别模块5552还用于当所述当前帧语音信号的解码结果包括的音素标签相对于所述前向帧语音信号的解码结果包括的音素标签发生变化时,确定所述当前帧语音信号中包括尖峰信号。
在一些实施例中,所述第一解码模块5551还用于对所述前向帧语音信号的解码结果包括的所述前向帧语音信号的多个候选音素标签进行解码,得到对应所述当前帧语音信号的第一隐向量;对所述当前帧语音信号的特征向量进行编码,得到对应所述当前帧语音信号的第二隐向量;将所述第一隐向量和所述第二隐向量进行连接,并基于连接得到的向量进行分类,得到对应输出标签集中各个候选音素标签的声学模型得分;将所述当前帧语音信号对应的各个候选音素标签的声学模型得分和对应各个候选音素标签的语言模型得分进行加权,对加权结果进行降序排序,得到排序在前的预设数量的候选音素标签,以用于结合后向帧语音信号的特征向量进行解码。
在一些实施例中,所述基于人工智能的语音信号处理装置555还包括:
第二识别模块5554,用于根据所述当前帧语音信号对应各个候选音素标签的声学模型得分、以及对应各个候选音素标签的语言模型得分,搜索由语言模型和声学模型构成的解码空间,得到使所述当前帧语音信号相对于所述前向帧语音信号的条件概率最大的音素标签,作为所述当前帧语音信号的识别结果。
在一些实施例中,所述第二解码模块5553还用于对所述当前帧语音信号的解码结果包括的所述当前帧语音信号的多个候选音素标签进行解码,得到对应所述后向帧语音信号的第三隐向量;对所述后向帧语音信号的特征向量进行编码,得到对应所述后向帧语音信号的第四隐向量;将所述第三隐向量和所述第四隐向量进行连接,并基于连接得到的向量进行分类,得到对应输出标签集中各个候选音素标签的声学模型得分;根据所述后向帧语音信号对应的各个候选音素标签的声学模型得分,得到排序在前的预设数量的候选音素标签,以用于结合后向帧语音信号的后向帧语音信号的特征向量进行解码。
在一些实施例中,所述基于人工智能的语音信号处理装置555还包括:
第三识别模块5555,用于根据所述后向帧语音信号对应各个候选音素标签的声学模型得分、以及对应各个候选音素标签的语言模型得分,搜索由语言模型和声学模型构成的解码空间,得到使所述后向帧语音信号相对于所述当前帧语音信号的条件概率最大的音素标签,作为所述后向帧语音信号的识别结果。
在一些实施例中,所述第一识别模块5552还用于根据所述后向帧语音信号的解码结果,对所述待识别语音信号进行尖峰信号的识别;
当识别到所述尖峰信号时,将所述第二解码网络切换至第一解码网络,并通过所述第一解码网络对所述后向帧语音信号的解码结果、以及后向帧语音信号的后向帧语音信号的语音信号进行解码,得到后向帧语音信号的后向帧语音信号的解码结果。
在一些实施例中,所述第一识别模块5552还用于当识别到所述尖峰信号,以及根据所述当前帧语音信号的第一后向帧语音信号的解码结果,确定所述当前帧语音信号的第一后向帧语音信号包括空白标签时,将所述第一解码网络切换至第二解码网络。
在一些实施例中,所述第一识别模块5552还用于根据所述当前帧语音信号的第二后向帧语音信号的解码结果,对所述待识别语音信号进行尖峰信号的识别;当识别到所述尖峰信号时,将所述第二解码网络切换至所述第一解码网络。
在一些实施例中,所述第一识别模块5552还用于根据当前帧语音信号的第二后向帧语音信号的解码结果,对所述待识别语音信号进行尖峰信号的识别;当识别到所述当前帧语音信号的第二后向帧语音信号包括空白标签时,通过所述第二解码网络对所述语音信号进行解码处理。
在一些实施例中,所述第一识别模块5552还用于当识别到所述尖峰信号,以及根据所述当前帧语音信号的第三后向帧语音信号的解码结果,确定所述当前帧语音信号的第三后向帧语音信号包括至少一个尖峰信号时,将所述第一解码网络切换至第二解码网络。
在一些实施例中,所述基于人工智能的语音信号处理装置555还包括:
预处理模块5556,用于滤除原始语音信号中的背景噪声,并进行端点检测以得到所述原始语音信号中的起始点和结束点;根据所述起始点和结束点,从所述原始语音信号中分割出待识别语音信号;对所述待识别语音信号按照设定的时长进行分帧处理,得到多帧相互重叠的语音信号;生成每帧语音信号对应的特征向量。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
语音识别技术是一种将人的语音转换为文本的技术,目标是让运行语音识别系统的设备能够听写出不同人所说出的连续语音所包括的文本。
声音实际上是一种波,如图5所示,图5是本发明实施例提供的声波示意图。语音识别的本质就是识别波形中的一个个尖峰,并将尖峰转化为状态或者音素,进而将状态或者音素合成文字的过程。基于深度学习的语音识别方法需要经过分帧、提取特征、声学模型、解码器等步骤来完成整个识别过程。
如图6所示,图6是本发明实施例提供的语音帧示意图,每一个小竖条表示一帧,若干帧对应一个状态或者音素,进而将状态或者音素组合为文字,例如,如图6所示,前6帧对应音素(S1029),该S1029表示“J”,中间4帧对应音素(S124),该S124表示“I”,后6帧对应音素(S561),该S561表示“E”,组合音素(S1029)、音素(S124)和音素(S561),得到“JIE”、即可以是文字“节”、或“结”等。因此,如果已知每一帧对应的状态或者音素,则也就得到语音识别结果。
本发明实施例提出一种基于最大值自变量点集(arguments of the maxima,argmax)与解码器交互结合的前N候选标签(label)方法(基于人工智能的语音信号处理方法)。本发明实施例基于循环神经网络变换器(Recurrent Neural Network Transducer,RNN-T)的模型,其中RNN-T模型是一种新颖的声学模型,如图7所示,RNN-T模型包含编码器(encoder)、解码器(decoder)和联合网络三部分:1)编码器类似于现有的声学模型(可以使用已有技术的任何声学模型的结构),向编码器输入N帧声学特征、即X=[x0,x1,...,xn],则编码器输出N帧中间得分、即h=[h0,h1,...,hn];2)解码器(可以使用单向的循环神经网络来构建)包括两部分:标签更新部分和预测(prediction)网络(相当于语言模型,可以使用已有技术的任意的语音模型的结构,例如单向的循环神经网络来构建)。其中,解码器的输入为第t-1帧的声学得分yt-1,首先通过标签更新部分的前N候选标签方法得到候选标签、即Lt-1,并将候选标签输入至预测网络进行前向计算,获得对应第t帧的输出Zt(隐向量);3)联合网络的输入为编码器和解码器的第t帧输出、即Zt和ht,并根据编码器和解码器的输出,输出第t帧的声学得分yt。
上述,本发明涉及到的解码器中的标签更新部分、即前N候选标签方法,本发明实施例通过融合两种前N候选标签的方法、即argmax方法(第一解码网络)和解码器交互方法(第二解码网络),提高了语音识别的及时性和可靠性,进而提高语音识别的性能。
如图7所示,在RNN-T模型中,预测网络的输入为更新后的候选标签,因此前N候选标签方法的准确性是提高语音识别结果的重要前提、即标签更新部分会影响最终最大似然函数(softmax)输出的声学得分,声学得分会对语音识别结果产生影响。在预测网络中,当输入候选标签为空白(blank)时,则预测网络不进行前向计算,直接复用上一帧的计算结果。
本发明实施例的前N候选标签方法有两种、即argmax方法和解码器交互方法。为了更好的表示argmax方法和解码器交互方法,在图8和图9中,将标签更新部分的位置进行了适当的调整。
如图8所示,图8是本发明实施例提供的使用解码器交互方法的结构示意图,标签更新部分的逻辑位于第一解码器中,第一解码器将当前帧的(各个候选标签的)声学得分yt和对应的语言模型概率(得分)进行加权求和,然后再对加权求和的结果进行降序排序,将前N个结果对应的标签作为前N候选标签。
如图9所示,图9是本发明实施例提供的使用argmax方法的结构示意图,argmax方法为对声学模型中当前帧的(各个候选标签的)声学得分yt进行降序排序,直接获取前N个结果对应的标签作为前N候选标签。
目前,语音识别技术存在成本高、误码率高、传输速度慢、安全性差等问题。本发明实施例使用了两种前N候选标签方法,如下所述:
argmax方法直接根据声学模型的第t帧的声学得分yt进行降序排序,直接前N个结果对应的标签作为前N候选标签。argmax方法的优点是能够快速捕捉帧与帧之间的尖峰变化,尖峰变化体现为标签更新(帧与帧的标签不同,则出现尖峰),该标签更新会立即被传回给声学模型中的解码器中的预测网络,继续进行第t+1帧的计算。argmax方法的缺点是没有纠错能力,因为声波中具有噪声点、或者声学模型识别出的状态变化并不能保证100%的精确度,即声波中存在伪尖峰的问题,argmax方法会将所有的尖峰变化都传回预测网络,包括将伪尖峰也传回预测网络。因此,当将伪尖峰传回预测网络时,会影响预测网络的计算结果,从而降低语音识别精确度,提高误码率。
为了解决argmax方法的弊端,提高纠错能力,解码器交互方法在计算前N候选标签时,使用历史帧的路径概率(即语言模型的概率)进行纠错,将当前帧的(各个候选标签的)声学得分yt和对应的语言模型概率(得分)进行加权求和,然后再对加权求和的结果进行降序排序,将前N个结果对应的标签作为前N候选标签,再将更新后的标签传回给预测网络。有语言模型概率的影响,能够有效地解决伪尖峰问题。然而,正因为考虑了语言模型概率,声学得分中的尖峰变化不能被立即捕捉,造成尖峰变化延迟传回的问题。该问题会导致更新后的标签被延迟传回声学模型中的解码器,影响预测网络的计算结果,从而对语音识别结果产生影响。
在这里举例说明,假设一段音频的原始声波尖峰,如图10所示,图10为本发明实施例提供的原始声波尖峰示意图,该段声波中共有3个真实尖峰[尖峰1,尖峰2,尖峰3]和一个伪尖峰。将前N候选标签方法中的N设置为1、即只求概率最高的标签。正确的语音识别过程为通过前N候选标签方法准确的识别出三个真实尖峰变化,并立即传回给声学模型中的解码器进行预测网络的前向计算。
图11为本发明实施例提供的argmax方法和解码器交互方法的识别尖峰结果示意图,其中argmax方法可以立即的捕捉到声学得分中的尖峰变化,但无法判断尖峰是否是伪尖峰,所有的尖峰都会被传回给声学模型中的解码器,从而影响输出的声学得分。而解码器交互方法的纠错能力可以过滤伪尖峰,但传回解码器的尖峰有一定的延迟,从而也会影响输出的声学得分。
为了解决argmax方法和解码器交互方法所存在的问题,本发明实施例提出了一种argmax和解码器交互结合的前N候选标签方法。在更新标签时,解码交互方法和argmax方法以一定的规则交互应用,可以以解码器交互方法为主,argmax方法为辅。初始化状态使用解码器交互方法,在解码器给出标签更新后的blank期间,argmax方法允许且只允许更新一次标签,如图12所示,图12为本发明实施例提供的argmax和解码器交互结合的前N候选label方法的识别尖峰结果示意图:
1)初始化状态,采用解码器交互方法识别出尖峰1;
2)进入平稳的空白标签时期,使用并且只使用一次argmax方法,则尖峰2被立即识别出来;
3)将argmax方法切换为解码器交互方法过滤伪尖峰,并识别出尖峰3。
如图11所示,本发明实施例能够有效地过滤伪尖峰,且解决了尖峰2的延迟问题,并在一定程度上缓解尖峰3的延迟问题,减少了前N候选标签方法对声学得分的影响,从而提高语音识别的效率。
对于现有前N候选标签方法存在的弊端:1)argmax方法不可靠问题,没有纠错能力,对于噪声点比较多的数据影响尤为明显;2)解码器交互方法的延迟性问题。本发明提出的前N候选标签方法,一定程度上保留了argmax方法的及时性优点和解码器交互方法可靠性优点,有效地缓解了argmax方法的不可靠问题和解码器交互方法的延迟性问题,最大程度上减少了前N候选标签方法对声学得分的影响,从而降低了对识别结果的影响。
综上所述,本发明实施例通过结合两种解码网络对语音信号进行解码处理,具有以下有益效果:
1、通过当识别到尖峰信号时,将第一解码网络切换至第二解码网络,通过第二解码网络对语音信号进行解码处理,由于第一解码网络的纠错性能高于第二解码网络的纠错性能,通过第二解码网络进行解码处理的速度更快,提高语音信号识别的速度,避免语音识别的延迟;
2、通过纠错性能高的第一解码网络对语音信号进行解码处理,可以提高语音解码的准确度,极大地减少了语音识别过程中的噪声,提高语音识别的准确度。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (15)

1.一种基于人工智能的语音信号处理方法,其特征在于,所述方法包括:
通过第一解码网络接收待识别语音信号中当前帧语音信号,并
结合所述待识别语音信号中的前向帧语音信号的解码结果、以及所述当前帧语音信号进行解码,得到所述当前帧语音信号的解码结果;
根据所述当前帧语音信号的解码结果,对所述当前帧语音信号进行尖峰信号的识别;
当识别到所述尖峰信号时,从所述第一解码网络切换至第二解码网络以接收所述待识别语音信号中后向帧语音信号,并
结合所述当前帧语音信号的解码结果、以及所述待识别语音信号中的后向帧语音信号进行解码,得到所述后向帧语音信号的解码结果;
其中,所述第一解码网络的纠错性能高于所述第二解码网络的纠错性能。
2.根据权利要求1所述的方法,其特征在于,所述根据所述当前帧语音信号的解码结果,对所述当前帧语音信号进行尖峰信号的识别,包括:
当所述当前帧语音信号的解码结果包括的音素标签相对于所述前向帧语音信号的解码结果包括的音素标签发生变化时,确定所述当前帧语音信号中包括尖峰信号。
3.根据权利要求1或2所述的方法,其特征在于,所述结合所述待识别语音信号中的前向帧语音信号的解码结果、以及所述当前帧语音信号进行解码,得到所述当前帧语音信号的解码结果,包括:
对所述前向帧语音信号的解码结果包括的所述前向帧语音信号的多个候选音素标签进行解码,得到对应所述当前帧语音信号的第一隐向量;
对所述当前帧语音信号的特征向量进行编码,得到对应所述当前帧语音信号的第二隐向量;
将所述第一隐向量和所述第二隐向量进行连接,并基于连接得到的向量进行分类,得到对应输出标签集中各个候选音素标签的声学模型得分;
将所述当前帧语音信号对应的各个候选音素标签的声学模型得分和对应各个候选音素标签的语言模型得分进行加权,对加权结果进行降序排序,得到排序在前的预设数量的候选音素标签,以用于结合后向帧语音信号的特征向量进行解码。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述当前帧语音信号对应各个候选音素标签的声学模型得分、以及对应各个候选音素标签的语言模型得分,搜索由语言模型和声学模型构成的解码空间,得到使所述当前帧语音信号相对于所述前向帧语音信号的条件概率最大的音素标签,作为所述当前帧语音信号的识别结果。
5.根据权利要求1或2所述的方法,其特征在于,所述结合所述当前帧语音信号的解码结果、以及所述待识别语音信号中的后向帧语音信号进行解码,得到所述后向帧语音信号的解码结果,包括:
对所述当前帧语音信号的解码结果包括的所述当前帧语音信号的多个候选音素标签进行解码,得到对应所述后向帧语音信号的第三隐向量;
对所述后向帧语音信号的特征向量进行编码,得到对应所述后向帧语音信号的第四隐向量;
将所述第三隐向量和所述第四隐向量进行连接,并基于连接得到的向量进行分类,得到对应输出标签集中各个候选音素标签的声学模型得分;
根据所述后向帧语音信号对应的各个候选音素标签的声学模型得分,得到排序在前的预设数量的候选音素标签,以用于结合后向帧语音信号的后向帧语音信号的特征向量进行解码。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述后向帧语音信号对应各个候选音素标签的声学模型得分、以及对应各个候选音素标签的语言模型得分,搜索由语言模型和声学模型构成的解码空间,得到使所述后向帧语音信号相对于所述当前帧语音信号的条件概率最大的音素标签,作为所述后向帧语音信号的识别结果。
7.根据权利要求1或2所述的方法,其特征在于,所述结合所述当前帧语音信号的解码结果、以及所述待识别语音信号中的后向帧语音信号进行解码,得到所述后向帧语音信号的解码结果之后,所述方法还包括:
根据所述后向帧语音信号的解码结果,对所述待识别语音信号进行尖峰信号的识别;
当识别到所述尖峰信号时,将所述第二解码网络切换至第一解码网络,并
通过所述第一解码网络对所述后向帧语音信号的解码结果、以及后向帧语音信号的后向帧语音信号的语音信号进行解码,得到后向帧语音信号的后向帧语音信号的解码结果。
8.根据权利要求1或2所述的方法,其特征在于,所述当识别到所述尖峰信号时,将所述第一解码网络切换至第二解码网络,包括:
当识别到所述尖峰信号,以及根据所述当前帧语音信号的第一后向帧语音信号的解码结果,确定所述当前帧语音信号的第一后向帧语音信号包括空白标签时,将所述第一解码网络切换至第二解码网络。
9.根据权利要求8所述的方法,其特征在于,所述将所述第一解码网络切换至第二解码网络之后,所述方法还包括:
根据所述当前帧语音信号的第二后向帧语音信号的解码结果,对所述待识别语音信号进行尖峰信号的识别;
当识别到所述尖峰信号时,将所述第二解码网络切换至所述第一解码网络。
10.根据权利要求8所述的方法,其特征在于,所述将所述第一解码网络切换至第二解码网络之后,所述方法还包括:
根据当前帧语音信号的第二后向帧语音信号的解码结果,对所述待识别语音信号进行尖峰信号的识别;
当识别到所述当前帧语音信号的第二后向帧语音信号包括空白标签时,通过所述第二解码网络对所述语音信号进行解码处理。
11.根据权利要求1或2所述的方法,其特征在于,所述当识别到所述尖峰信号时,将所述第一解码网络切换至第二解码网络,包括:
当识别到所述尖峰信号,以及根据所述当前帧语音信号的第三后向帧语音信号的解码结果,确定所述当前帧语音信号的第三后向帧语音信号包括至少一个尖峰信号时,将所述第一解码网络切换至第二解码网络。
12.根据权利要求1所述的方法,其特征在于,所述通过第一解码网络接收待识别语音信号中当前帧语音信号之前,所述方法还包括:
滤除原始语音信号中的背景噪声,并进行端点检测以得到所述原始语音信号中的起始点和结束点;
根据所述起始点和结束点,从所述原始语音信号中分割出待识别语音信号;
对所述待识别语音信号按照设定的时长进行分帧处理,得到多帧相互重叠的语音信号;
生成每帧语音信号对应的特征向量。
13.一种基于人工智能的语音信号处理装置,其特征在于,所述装置包括:
第一解码模块,用于通过第一解码网络接收待识别语音信号中当前帧语音信号,并
结合所述待识别语音信号中的前向帧语音信号的解码结果、以及所述当前帧语音信号进行解码,得到所述当前帧语音信号的解码结果;
第一识别模块,用于根据所述当前帧语音信号的解码结果,对所述当前帧语音信号进行尖峰信号的识别;
当识别到所述尖峰信号时,从所述第一解码网络切换至第二解码网络以接收所述待识别语音信号中后向帧语音信号;
第二解码模块,用于结合所述当前帧语音信号的解码结果、以及所述待识别语音信号中的后向帧语音信号进行解码,得到所述后向帧语音信号的解码结果;
其中,所述第一解码网络的纠错性能高于所述第二解码网络的纠错性能。
14.一种基于人工智能的语音信号处理设备,其特征在于,所述设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述基于人工智能的语音信号处理方法。
15.一种存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至12任一项所述基于人工智能的语音信号处理方法。
CN201910922947.0A 2019-09-27 2019-09-27 基于人工智能的语音信号处理方法、装置及存储介质 Active CN110634469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910922947.0A CN110634469B (zh) 2019-09-27 2019-09-27 基于人工智能的语音信号处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910922947.0A CN110634469B (zh) 2019-09-27 2019-09-27 基于人工智能的语音信号处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110634469A true CN110634469A (zh) 2019-12-31
CN110634469B CN110634469B (zh) 2022-03-11

Family

ID=68973040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910922947.0A Active CN110634469B (zh) 2019-09-27 2019-09-27 基于人工智能的语音信号处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110634469B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540344A (zh) * 2020-04-21 2020-08-14 北京字节跳动网络技术有限公司 声学网络模型训练方法、装置及电子设备
CN112217947A (zh) * 2020-10-10 2021-01-12 携程计算机技术(上海)有限公司 客服电话语音转录文本方法、系统、设备及存储介质
CN112466294A (zh) * 2020-11-24 2021-03-09 北京百度网讯科技有限公司 声学模型的生成方法、装置及电子设备
CN112750425A (zh) * 2020-01-22 2021-05-04 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及计算机可读存储介质
CN113362812A (zh) * 2021-06-30 2021-09-07 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN114038465A (zh) * 2021-04-28 2022-02-11 北京有竹居网络技术有限公司 语音处理方法、装置和电子设备
CN114220444A (zh) * 2021-10-27 2022-03-22 安徽讯飞寰语科技有限公司 语音解码方法、装置、电子设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9802028D0 (sv) * 1996-10-11 1998-06-09 Motorola Inc Förfarande och anordning för etablering av en länk i ett trådlöst kommunikationssystem
US20040199393A1 (en) * 2003-04-03 2004-10-07 Iker Arizmendi System and method for speech recognition services
CN101118745A (zh) * 2006-08-04 2008-02-06 中国科学院声学研究所 语音识别系统中的置信度快速求取方法
CN101320563A (zh) * 2007-06-05 2008-12-10 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
CN103971675A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和系统
US20150012800A1 (en) * 2013-07-03 2015-01-08 Lsi Corporation Systems and Methods for Correlation Based Data Alignment
US20150269933A1 (en) * 2014-03-24 2015-09-24 Microsoft Corporation Mixed speech recognition
US9514747B1 (en) * 2013-08-28 2016-12-06 Amazon Technologies, Inc. Reducing speech recognition latency
CN109559749A (zh) * 2018-12-24 2019-04-02 苏州思必驰信息科技有限公司 用于语音识别系统的联合解码方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9802028D0 (sv) * 1996-10-11 1998-06-09 Motorola Inc Förfarande och anordning för etablering av en länk i ett trådlöst kommunikationssystem
US20040199393A1 (en) * 2003-04-03 2004-10-07 Iker Arizmendi System and method for speech recognition services
CN101118745A (zh) * 2006-08-04 2008-02-06 中国科学院声学研究所 语音识别系统中的置信度快速求取方法
CN101320563A (zh) * 2007-06-05 2008-12-10 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
CN103971675A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和系统
US20150012800A1 (en) * 2013-07-03 2015-01-08 Lsi Corporation Systems and Methods for Correlation Based Data Alignment
US9514747B1 (en) * 2013-08-28 2016-12-06 Amazon Technologies, Inc. Reducing speech recognition latency
US20150269933A1 (en) * 2014-03-24 2015-09-24 Microsoft Corporation Mixed speech recognition
CN109559749A (zh) * 2018-12-24 2019-04-02 苏州思必驰信息科技有限公司 用于语音识别系统的联合解码方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHAHID HUSSAIN: "A Methodology to Automate the Selection of Design Patterns", 《2016 IEEE 40TH ANNUAL COMPUTER SOFTWARE AND APPLICATIONS CONFERENCE》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750425A (zh) * 2020-01-22 2021-05-04 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及计算机可读存储介质
CN112750425B (zh) * 2020-01-22 2023-11-03 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及计算机可读存储介质
CN111540344A (zh) * 2020-04-21 2020-08-14 北京字节跳动网络技术有限公司 声学网络模型训练方法、装置及电子设备
CN111540344B (zh) * 2020-04-21 2022-01-21 北京字节跳动网络技术有限公司 声学网络模型训练方法、装置及电子设备
CN112217947A (zh) * 2020-10-10 2021-01-12 携程计算机技术(上海)有限公司 客服电话语音转录文本方法、系统、设备及存储介质
CN112217947B (zh) * 2020-10-10 2021-09-21 携程计算机技术(上海)有限公司 客服电话语音转录文本方法、系统、设备及存储介质
CN112466294A (zh) * 2020-11-24 2021-03-09 北京百度网讯科技有限公司 声学模型的生成方法、装置及电子设备
CN114038465A (zh) * 2021-04-28 2022-02-11 北京有竹居网络技术有限公司 语音处理方法、装置和电子设备
CN114038465B (zh) * 2021-04-28 2022-08-23 北京有竹居网络技术有限公司 语音处理方法、装置和电子设备
CN113362812A (zh) * 2021-06-30 2021-09-07 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN113362812B (zh) * 2021-06-30 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN114220444A (zh) * 2021-10-27 2022-03-22 安徽讯飞寰语科技有限公司 语音解码方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN110634469B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN110634469B (zh) 基于人工智能的语音信号处理方法、装置及存储介质
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
CN109817213B (zh) 用于自适应语种进行语音识别的方法、装置及设备
CN110473531B (zh) 语音识别方法、装置、电子设备、系统及存储介质
CN110364171B (zh) 一种语音识别方法、语音识别系统及存储介质
WO2021174757A1 (zh) 语音情绪识别方法、装置、电子设备及计算机可读存储介质
US11823678B2 (en) Proactive command framework
CN112017645B (zh) 一种语音识别方法及装置
US11355113B2 (en) Method, apparatus, device and computer readable storage medium for recognizing and decoding voice based on streaming attention model
JP7266683B2 (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
CN110070859B (zh) 一种语音识别方法及装置
KR20230147685A (ko) 서브 워드 엔드-투-엔드 자동 스피치 인식을 위한 워드 레벨 신뢰도 학습
US11132994B1 (en) Multi-domain dialog state tracking
CN113113024A (zh) 语音识别方法、装置、电子设备和存储介质
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
CN111128175A (zh) 口语对话管理方法及系统
KR20230158608A (ko) 종단 간 자동 음성 인식 신뢰도 및 삭제 추정을 위한 멀티태스크 학습
CN111862963B (zh) 语音唤醒方法、装置和设备
CN114999463B (zh) 语音识别方法、装置、设备及介质
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
US11277304B1 (en) Wireless data protocol
CN114121018A (zh) 语音文档分类方法、系统、设备及存储介质
CN113889088A (zh) 训练语音识别模型的方法及装置、电子设备和存储介质
CN112216270A (zh) 语音音素的识别方法及系统、电子设备及存储介质
CN113327596B (zh) 语音识别模型的训练方法、语音识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40020207

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant