CN114550708A - 基于深度学习的流式实时语音识别方法 - Google Patents

基于深度学习的流式实时语音识别方法 Download PDF

Info

Publication number
CN114550708A
CN114550708A CN202210151123.XA CN202210151123A CN114550708A CN 114550708 A CN114550708 A CN 114550708A CN 202210151123 A CN202210151123 A CN 202210151123A CN 114550708 A CN114550708 A CN 114550708A
Authority
CN
China
Prior art keywords
voice
model
streaming
acoustic
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210151123.XA
Other languages
English (en)
Inventor
苗启广
宋建锋
聂磊
刘如意
卢子祥
刘向增
赵博程
马卓奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Institute Of Integrated Circuit Innovation Xi'an University Of Electronic Science And Technology
Original Assignee
Chongqing Institute Of Integrated Circuit Innovation Xi'an University Of Electronic Science And Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Institute Of Integrated Circuit Innovation Xi'an University Of Electronic Science And Technology filed Critical Chongqing Institute Of Integrated Circuit Innovation Xi'an University Of Electronic Science And Technology
Priority to CN202210151123.XA priority Critical patent/CN114550708A/zh
Publication of CN114550708A publication Critical patent/CN114550708A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于深度学习的流式实时语音识别方法,通过输入RAW声音波形信号的语音片段,构建语音识别声学模型并训练,在执行预测时,将得到的声学特征张量作为输入,并通过流式CTC解码器的解码算法进行解码;语音识别的语言模型采用统计N‑Gram模型,通过大规模语料库得到N元组统计数据;结合中文汉语拼音与汉字对应关系的字典,使用流式维特比解码算法进行解码,得到语音识别最终文本结果;在模型落地部署后调用API接口或模块,使用流式算法模式,结合流式实时语音激活检测方法,实现流式实时语音识别。该方法不存在上文信息对下文信息的长时依赖,上下文无关,或仅存在下文信息对上文信息的依赖,可实现算法模型推理时的流式实时语音识别。

Description

基于深度学习的流式实时语音识别方法
技术领域
本发明属于语音识别技术领域,具体涉及一种基于深度学习的流式实时语音识别方法。
背景技术
随着深度学习技术的发展,越来越多的相关技术进入语音识别技术领域,但几乎市面上常见的技术实现并未见到实现了流式实时语音识别算法和模型,相关方法由于算法原理及其实现,仅仅可针对若干句子进行非流式的非实时的一句话语音识别,属于实验性作品,而并非一款可灵活投入实际应用中的落地产品。
发明内容
为解决现有基于深度学习的语音识别技术在算法模型原理上在大多实际场景中所需的流式实时识别问题,本发明的目的在于,提供一种基于深度学习的流式实时语音识别方法,该方法不存在上文信息对下文信息的长时依赖,上下文无关,或仅存在下文信息对上文信息的依赖,因此可以使用该方法实现算法模型推理时的流式实时语音识别。
为了实现上述任务,本发明采取如下的技术解决方案:
一种基于深度学习的流式实时语音识别方法,其特征在于,按以下步骤实施:
步骤1,流式输入RAW声音波形信号400ms、800ms或2000ms的片段,进行声学特征提取,并结合SpecAugment数据增强算法,得到提取后的声学特征张量作为语音激活检测模型的输入;
步骤2,根据语音激活检测模型预测的结果,剔除非语音片段,所在位置成为切分点,剩余语音片段按语音信号是否连续,合并连接为若干个语音片段;
步骤3,将步骤2所述的若干个语音片段,每一个连续片段传递给语音识别模块,进行声学特征提取,并结合SpecAugment数据增强算法,得到提取后的声学特征张量作为语音识别声学模型的输入;
步骤4,构建基于Connectionist Temporal Classification Loss Function的深度神经网络作为声学模型,并训练得到语音识别声学模型可用的权重参数;
步骤5,语音识别声学模型在执行预测时,将步骤3所述得到的声学特征张量作为输入,并通过流式CTC解码器的解码算法进行解码,得到音节符号序列(中文则为一个汉字的拼音);
步骤6,语音识别的语言模型采用统计N-Gram模型,通过大规模语料库得到N元组统计数据;
步骤7,将步骤5中得到的结果,结合中文汉语拼音与汉字对应关系的字典,使用流式维特比解码算法进行解码,得到语音识别最终文本结果;
步骤8,在模型落地部署后调用API接口或模块时,使用流式算法模式,结合深度学习的流式实时语音激活检测方法,实现流式实时语音识别。
根据本发明,所述深度学习的流式语音激活检测方法是:
(1)输入RAW声音波形信号400ms、800ms或2000ms的语音片段,进行声学特征提取,并结合SpecAugment数据增强算法计算得到提取后的声学特征张量,将其作为语音激活检测模型的输入;
(2)构建基于深度卷积神经网络作为语音激活检测模型,输出结果为0或1,其中1代表语音信号,0代表非语音信号,并训练得到可用权重参数;
(3)语音激活检测模型在执行预测时,将步骤1所述得到的声学特征张量作为输入,并得到预测输出结果。
具体的,所述声学特征提取是:
将一段语音片段预先通过深度学习的流式语音激活检测方法切出要识别的包含语音的声音片段,将每个片段做声学特征提取,以10ms的时间步进行分帧,每个帧长为250ms,从起始时间点向后,逐帧处理;
对于每一帧的信号,进行快速傅里叶变换,取其对称的张量的一半,并取模再取对数,如果用于训练,则再通过SpecAugment进行数据增强,作为最终的声学特征,预测时不做SpecAugment数据增强处理。
进一步地,步骤1中,400ms的片段输入特征维度为(None,40,200,1),800ms的片段输入特征维度为(None,80,200,1),2000ms的片段输入特征维度为(None,200,200,1)。
本发明的基于深度学习的流式实时语音识别方法,对于算法模型的实时性、准确率、可通过扩展调整网络结构以提高其鲁棒性、和面向服务部署阶段弹性伸缩时的可动态扩展性等,都具有良好的表现,能够为智能问答、视频会议实时字幕和实时翻译等应用场景提供关键技术支持,同时也可用于非实时性的语音识别应用场景,具有一举两得的效果。
附图说明
图1为本发明的语音信号声学特征提取算法;
图2为支持流式语音识别的算法模型基础结构;
图3为几个基于图2所述基础结构的具体算法模型结构;
图4为流式语音激活检测+流式语音识别算法模型的整体流程结构;
图5为支持流式语音激活检测的算法模型基础结构;
图6为几个基于图5所述基础结构的具体算法模型结构。
以下结合附图和实施例对本发明作进一步地详细说明。
具体实施方式
术语说明:
VAD:全称为英文Voice Activation Detection,中文译为语音激活检测。
SpecAugment:一种声学特征数据增强算法。
声学模型:语音识别的一个建模阶段,可使用深度神经网络模型实现。语言模型:语音识别的另一个建模阶段,本实施例中使用N-Gram模型实现。
CTC:英文Connectionist Temporal Classification的缩写,中文可译为连接时序分类,是一种Loss函数和用于模型输出端的解码算法。
如图1-图6所示,本实施例给出一种基于深度学习流式实时语音识别方法,包含以下步骤:
步骤1:流式输入RAW声音波形信号400ms、800ms或2000ms的片段(来自音频文件或API),进行声学特征提取,并结合SpecAugment数据增强算法,得到提取后的声学特征张量作为语音激活检测模型的输入;
将一段声音信号每400ms、800ms或2000ms片段切断,将每个片段做声学特征提取,先以10ms的时间步进行分帧,每个帧长为250ms,从起始时间点向后,逐帧处理,一次可处理的片段可选400ms、800ms或2000ms长度,分别对应不同长度时延,以及神经网络的输入维度大小。
对于每一帧的信号,进行快速傅里叶变换,取其对称的张量的一半,并取模再取对数,如果用于训练,则再通过SpecAugment进行数据增强,作为最终的声学特征,预测时不做SpecAugment数据增强处理。
对于步骤1中,400ms的片段输入特征维度为(None,40,200,1),800ms的片段输入特征维度为(None,80,200,1),2000ms的片段输入特征维度为(None,200,200,1)。
步骤2:根据语音激活检测模型预测的结果,剔除非语音片段,所在位置成为切分点,剩余语音片段按语音信号是否连续,合并连接为若干个语音片段;
神经网络采用深度卷积神经网络,并可使用基于该结构类型的若干具体的网络结构进行实现,例如cnn60bn、cnn100bn和cnn200bn等,网络结构配置如图2-图3所示。训练时,采用Adam优化器,学习率在0.01到0.0001之间调整,loss函数采用BinaryCrossentropy来监督训练。
在预测时,流式输入的一段语音信号会被VAD模型根据预测结果0和1值,切分出若干连续的语音片段,每一个片段均为一段包含人类语音的声音信号。
步骤3:将步骤2所述的若干个语音片段,每一个连续片段传递给语音识别模块,进行声学特征提取,并结合SpecAugment数据增强算法,得到提取后的声学特征张量作为语音识别声学模型的输入;
将传入语音识别模块的一段声音信号预先通过深度学习的流式语音激活检测方法切出要识别的包含语音的声音片段,将每个片段做声学特征提取,以10ms的时间步进行分帧,每个帧长为250ms,从起始时间点向后,逐帧处理。对于每一帧的信号,进行快速傅里叶变换,取其对称的张量的一半,并取模再取对数,如果用于训练,则再通过SpecAugment进行数据增强,作为最终的声学特征,预测时不做SpecAugment数据增强处理。
本实施例中,深度学习的流式语音激活检测方法是:
(1)输入RAW声音波形信号400ms、800ms或2000ms的语音片段,进行声学特征提取,并结合SpecAugment数据增强算法计算得到提取后的声学特征张量,将其作为语音激活检测模型的输入;
(2)构建基于深度卷积神经网络作为语音激活检测模型,输出结果为0或1,其中1代表语音信号,0代表非语音信号,并训练得到可用权重参数;
(3)语音激活检测模型在执行预测时,将步骤1所述得到的声学特征张量作为输入,并得到预测输出结果。
步骤4:构建基于Connectionist Temporal Classification Loss Function的深度神经网络作为声学模型,并训练得到可用的语音识别声学模型权重参数;
神经网络采用深度卷积神经网络,并可使用基于该结构类型的若干具体的网络结构进行实现,例如cnn24、cnn25和cnn251等,网络结构配置如图5-图6所示。训练时,采用Adam优化器,学习率在0.001到0.00001之间调整,loss函数采用CTC Loss来监督训练。
步骤5:语音识别声学模型在执行预测时,将步骤3所述得到的声学特征张量作为输入,并通过流式CTC解码器的解码算法进行解码,得到音节符号序列(中文则为一个汉字的拼音)。
预测时,将语音片段如步骤3中所述进行特征提取,然后使用步骤4中所述的声学模型进行训练,每一个语音片段在最终输出维度上,会按时间对应一序列的输出结果向量,整个语音序列最终可得到一个预测结果数组。
其中,流式CTC解码算法如下表所示:
Figure BDA0003504403200000061
步骤6:语音识别的语言模型采用统计N-Gram模型,通过大规模语料库得到N元组统计数据;其原理为:
P(S)=P(w1,w2,…,wn)=P(w1)*P(w2|w1)*P(w3|w1,w2)
*…,*P(wn|w1,w2,…,wn-1);且:
P(wi|wi-1)=P(wi-1,wi)/P(wi-1)=(#(wi-1,wi)/#)/(#(wi-1)/#)=#((wi-1,wi)/#(wi-1))
P(wi|wi-2,wi-1)=P(wi-2,wi-1,wi)/P(wi-2,wi-1)=(#(wi-2,wi-1,wi)/#)/(#(wi-2,wi-1)/#)=#(wi-2,wi-1,wi)/#(wi-2,wi-1)
其中,#、#(wi)、#(wi-1,wi)、#(wi-2,wi-1,wi)可通过大规模语料库词频统计直接得到。
步骤7:将步骤5中得到的结果,结合中文汉语拼音与汉字对应关系的字典,使用流式维特比解码算法进行解码,得到语音识别最终文本结果。
其中,流式维特比解码算法如下:
Figure BDA0003504403200000071
步骤8:在模型落地部署后调用API接口或模块时,使用流式算法模式,结合深度学习的流式语音激活检测方法,实现流式实时语音识别。
在语音识别的API接口中使用gRPC协议中的双向流模式进行远程过程调用,每次录音片段均可通过“上流”请求不断传输到服务端,服务端则根据实时流式计算的结果,源源不断通过“下流”响应识别结果给客户端。

Claims (4)

1.一种基于深度学习的流式实时语音识别方法,其特征在于,按下列步骤实施:
步骤1,流式输入RAW声音波形信号400ms、800ms或2000ms的片段,进行声学特征提取,并结合SpecAugment数据增强算法,得到提取后的声学特征张量作为语音激活检测模型的输入;
步骤2,根据语音激活检测模型预测的结果,剔除非语音片段,所在位置成为切分点,剩余语音片段按语音信号是否连续,合并连接为若干个语音片段;
步骤3,将将步骤2所述的若干个语音片段,每一个连续片段传递给语音识别模块,进行声学特征提取,并结合SpecAugment数据增强算法,得到提取后的声学特征张量作为语音识别声学模型的输入;
步骤4,构建基于Connectionist Temporal Classification Loss Function的深度神经网络作为声学模型,并训练得到语音识别声学模型可用的权重参数;
步骤5,语音识别声学模型在执行预测时,将步骤3所述得到的声学特征张量作为输入,并通过流式CTC解码器的解码算法进行解码,得到音节符号序列(中文则为一个汉字的拼音);
步骤6,语音识别的语言模型采用统计N-Gram模型,通过大规模语料库得到N元组统计数据
步骤7,将步骤5中得到的结果,结合中文汉语拼音与汉字对应关系的字典,使用流式维特比解码算法进行解码,得到语音识别最终文本结果
步骤8,在模型落地部署后调用API接口或模块时,使用流式算法模式,结合深度学习的流式实时语音激活检测方法,实现流式实时语音识别。
2.如权利要求1所述的方法,其特征在于,所述深度学习的流式语音激活检测方法是:
(1)输入RAW声音波形信号400ms、800ms或2000ms的语音片段,进行声学特征提取,并结合SpecAugment数据增强算法计算得到提取后的声学特征张量,将其作为语音激活检测模型的输入;
(2)构建基于深度卷积神经网络作为语音激活检测模型,输出结果为0或1,其中1代表语音信号,0代表非语音信号,并训练得到可用权重参数;
(3)语音激活检测模型在执行预测时,将步骤1所述得到的声学特征张量作为输入,并得到预测输出结果。
3.如权利要求1所述的方法,其特征在于,所述声学特征提取是:
将一段语音片段预先通过深度学习的流式语音激活检测方法切出要识别的包含语音的声音片段,将每个片段做声学特征提取,以10ms的时间步进行分帧,每个帧长为250ms,从起始时间点向后,逐帧处理;
对于每一帧的信号,进行快速傅里叶变换,取其对称的张量的一半,并取模再取对数,如果用于训练,则再通过SpecAugment进行数据增强,作为最终的声学特征,预测时不做SpecAugment数据增强处理。
4.如权利要求1所述的方法,其特征在于,步骤1中,400ms的片段输入特征维度为(None,40,200,1),800ms的片段输入特征维度为(None,80,200,1),2000ms的片段输入特征维度为(None,200,200,1)。
CN202210151123.XA 2022-02-14 2022-02-14 基于深度学习的流式实时语音识别方法 Pending CN114550708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210151123.XA CN114550708A (zh) 2022-02-14 2022-02-14 基于深度学习的流式实时语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210151123.XA CN114550708A (zh) 2022-02-14 2022-02-14 基于深度学习的流式实时语音识别方法

Publications (1)

Publication Number Publication Date
CN114550708A true CN114550708A (zh) 2022-05-27

Family

ID=81675135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210151123.XA Pending CN114550708A (zh) 2022-02-14 2022-02-14 基于深度学习的流式实时语音识别方法

Country Status (1)

Country Link
CN (1) CN114550708A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665656A (zh) * 2023-07-24 2023-08-29 美智纵横科技有限责任公司 语音识别模型的生成方法、语音识别方法、装置及芯片

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665656A (zh) * 2023-07-24 2023-08-29 美智纵横科技有限责任公司 语音识别模型的生成方法、语音识别方法、装置及芯片
CN116665656B (zh) * 2023-07-24 2023-10-10 美智纵横科技有限责任公司 语音识别模型的生成方法、语音识别方法、装置及芯片

Similar Documents

Publication Publication Date Title
CN111429889B (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
CN109192213B (zh) 庭审语音实时转写方法、装置、计算机设备及存储介质
CN104157285B (zh) 语音识别方法、装置及电子设备
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
WO2014101717A1 (zh) 用户个性化信息语音识别方法及系统
CN111508498A (zh) 对话式语音识别方法、系统、电子设备和存储介质
CN113327603A (zh) 语音识别方法、装置、电子设备和计算机可读存储介质
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
JP2009210829A (ja) 音響モデル学習装置およびプログラム
CN111081219A (zh) 一种端到端的语音意图识别方法
CN111489754A (zh) 一种基于智能语音技术的话务数据分析方法
CN111951796A (zh) 语音识别方法及装置、电子设备、存储介质
CN112466287A (zh) 一种语音分割方法、装置以及计算机可读存储介质
CN109493846B (zh) 一种英语口音识别系统
CN114120985A (zh) 智能语音终端的安抚交互方法、系统、设备及存储介质
CN112927723A (zh) 基于深度神经网络的高性能抗噪语音情感识别方法
CN114550708A (zh) 基于深度学习的流式实时语音识别方法
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
CN115700871A (zh) 模型训练和语音合成方法、装置、设备及介质
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法
CN111489745A (zh) 一种应用于人工智能的汉语语音识别系统
CN111402887A (zh) 一种语音转义文字的方法及装置
Andra et al. Improved transcription and speaker identification system for concurrent speech in Bahasa Indonesia using recurrent neural network
CN111833869B (zh) 一种应用于城市大脑的语音交互方法及系统
CN114550753A (zh) 基于深度学习的流式实时语音激活检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination