CN114863914A - 构建端到端语音评测模型的深度学习方法 - Google Patents

构建端到端语音评测模型的深度学习方法 Download PDF

Info

Publication number
CN114863914A
CN114863914A CN202210750476.1A CN202210750476A CN114863914A CN 114863914 A CN114863914 A CN 114863914A CN 202210750476 A CN202210750476 A CN 202210750476A CN 114863914 A CN114863914 A CN 114863914A
Authority
CN
China
Prior art keywords
model
acoustic model
training
lstm
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210750476.1A
Other languages
English (en)
Inventor
黎天宇
张句
王宇光
关昊天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huiyan Technology Tianjin Co ltd
Original Assignee
Huiyan Technology Tianjin Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huiyan Technology Tianjin Co ltd filed Critical Huiyan Technology Tianjin Co ltd
Priority to CN202210750476.1A priority Critical patent/CN114863914A/zh
Publication of CN114863914A publication Critical patent/CN114863914A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及采用神经网络模型的深度学习方法,具体为一种构建端到端语音评测模型的深度学习方法。主要步骤包括构建LSTM+CTC的声学模型,对输入的声音讯号提取特征后进行训练,得到对应单词,然后结合语言模型得到对齐结果,用于后续多维度评测反馈和得分的计算。提取fbank特征用来作语音识别系统的输入和训练声学模型,将提取的特征放入声学模型中进行训练,声学模型使用LSTM+CTC的结构,其中LSTM以特征提取模块提取的特征为输入进行训练学习,得到学习后的特征。使用深度学习技术来实现一种端到端的语音评测方法,使评测过程更加方便,评测结果更加准确。

Description

构建端到端语音评测模型的深度学习方法
技术领域
本发明涉及采用神经网络模型的深度学习方法,具体为一种构建端到端语音评测模型的深度学习方法,使用深度学习技术来实现一种端到端的语音评测方法,使评测过程更加方便,评测结果更加准确。
背景技术
近年来,由于深度学习技术、大数据、移动互联网、云计算等技术的发展,人工智能技术获得了快速、跨越式的发展。作为人工智能技术中的重要领域,智能语音交互技术逐渐成熟,成为热门落地的方向之一,引起业界各方的持续广泛关注,行业发展已迅速进入场景应用布局阶段。搭载语音助手的智能产品层出不穷,进一步推动了语音交互技术的发展和应用。与此同时,智能语音产品的测试需求日益凸显。
智能语音测评就是利用计算机自动或半自动地对人的语音进行标准程度的评估和发音缺陷的检测。如何提高系统的稳定性、评测打分的准确性是智能语音评测的关键。传统的语音评测方法是使用GMM-HMM作为声学模型得到音频对应音素,然后通过发音词典来将音素变为单词,经过语言模型来修正得到识别句子,根据该句与目标句进行语音准确率和流畅度的评估,其具体过程如图1所示。
为此我们构建了一个基于深度学习的端到端的语音评测方法,可以直接完成从用户的语音输入到测评结果的输出。使用深度学习技术来替换传统测评方法,由原始数据输入到结果输出,从输入端到输出端,中间的神经网络自成一体,而传统的混合模型每个结构之间相互孤立,需要对每个独立结构单独进行优化,不能保证组合后的模型全局最优。所以本发明方法能完成更高效,更准确的语音评测模型。
发明内容
本发明提出了一种构建端到端语音评测模型的深度学习方法,构建LSTM+CTC的声学模型,对输入的声音讯号提取特征后进行训练,得到对应单词,然后结合语言模型得到对齐结果,用于后续多维度评测反馈和得分的计算。
本发明技术方案为构建端到端语音评测模型的深度学习方法,具体步骤:
步骤一,数据准备:准备训练声学模型所需的音频/文本语料。
步骤二,预处理:对训练的语料进行处理,包括音频的静音切除/删除音频长度和文本长度不匹配的语料等。
步骤三,特征提取:特征提取的过程是针对声学信号的频域进行研究,从中提取与频率相关的特征。本方法提取fbank特征用来作语音识别系统的输入和训练声学模型。
步骤四,训练声学模型:将上一步提取的特征放入声学模型中进行训练,声学模型使用LSTM+CTC的结构,其中LSTM以特征提取模块提取的特征为输入进行训练学习,得到学习后的特征。对于本任务来说,网络提取到音频特征的长度远大于对应文本的字符序列长度,无法直接对齐。所以需要CTC算法来完成音频和文本之间的对齐,得到识别后的单词结果。
步骤五,解码:声学模型得到的识别结果为CTC解码所得到的概率最大的单词,为了考虑整句话所包含的语义信息,我们将声学模型的输出结果结合语言模型进行修正后得到识别的完整句子。
本发明声学模型基于LSTM+CTC结构,其配置如下:
LSTM使用了两层,每个LSTM中有1个隐藏层,每个层有 u个隐藏单元。LSTM的编码结果首先被输入到CTC_Decoder,通过束解码的方式进行解码,得到概率最大的N个候选字符序列Y cand 以及其对应的CTC评分score etc ,最后取评分最高的结果作为声学模型的输出。
进一步,进行语音测评,评测结果是多维度的,包括音素、语调、流利度、断句、完整度等内容;但不同语种下评测维度是不同的,这与语言的特性有关,因此需要针对不同语种单独定制评测的维度。
有益效果
本发明主要使用深度学习技术,针对语音评测任务构建了一个端到端模型。与传统语音评测模型相比,该端到端模型有效避免了级联错误,并简化了模型大小,在评测效果上有显著提升。
1、整个测评模型使用深度学习技术进行端到端的统一建模,端到端模型采用单一目标函数对整个网络进行优化,避免了由于多个模块所造成的级联错误。
2、声学模型由DNN替换GMM,CTC替换HMM,其精度和性能显著提高,测评效果也随之提升。
3、相比于传统方法所构建的模型,基于深度学习的端到端模型使用神经网络构建主体架构,灵活性和拓展性更强,减少了模型所占用的计算资源,可以部署到精度高、时延低的设备上。
附图说明
图1是传统语音评测方法模型框架图;
图2本文方法模型框架图。
具体实施方式
为了验证本发明,我们在自建数据库上进行验证。该数据集中训练集包含音频约6000小时对应文本约450万条。测试集/验证集分别为5000句。训练集用于对声学模型进行训练以及确定参数,输入音频识别为对应文本。验证集用于在训练模型过程中对每个时间段的模型进行评估,测试集用于对最终模型的泛化能力进行评测并进行后续的语音评测得分。整个系统的具体算法流程如图2所示,下面结合附图对本发明做进一步详细地描述。
图2是本发明基于深度学习的端到端语音测评方法模型框架图,主要包含以下几个步骤。
步骤一,数据准备:
收集训练声学模型所需的音频和对应文本,为了保证模型的鲁棒性和泛化性,我们囊括了多个场景的音频语料。包含新闻、家居环境、命令词、日常对话等。同样我们还对音频进行了数据增广,使用约一万条环境噪声与源音频进行混合,增加了音频的多样性。
步骤二,预处理:
1)在开始提取特征前,需把音频首尾端静音切除,降低对后续步骤造成干扰,这一般称作静音抑制(Voice Activity Detection,VAD);这可以减少音频数据长度,提高识别精准度;
2)去除音频和文本长度不匹配的语料。
步骤三,特征提取:任何自动语音识别系统中的第一步都是提取特征,这意味着需要把音频信号中具有辨识性的成分提取出来,丢弃掉诸如情感其它相关度较低的内容。在时域方面,语音信号的波形描述能力较差,分析的难度很大,而在频域方面,由于人说话时各元音的频率成分相对固定,根据语音信号的频谱图,更容易区分不同的元音,进行语音信号的分析。因此特征提取的过程是针对声学信号的频域进行研究,从中提取与频率相关的特征。
将处理好的音频进行,预加重、分帧、加窗、短时傅里叶变换(STFT)、mel滤波、去均值后得到fbank特征;
步骤四,语音评测模型:
本发明声学模型基于LSTM+CTC结构,其配置如下:
LSTM使用了两层,每个LSTM中有1个隐藏层,每个层有u个隐藏单元。LSTM的编码结果首先被输入到CTC_Decoder,通过束解码的方式进行解码,得到概率最大的N个候选字符序列Ycand以及其对应的CTC评分score etc ,最后取评分最高的结果作为声学模型的输出。
1)训练声学模型
以特征提取模块提取的特征为输入,放到LSTM网络中进行训练,LSTM整体共四层,维度为128。对于本任务来说,网络提取到音频特征的长度远大于对应文本的字符序列长度,无法直接对齐。
训练后取出LSTM网络的输出层向量放入CTC中进行解码,计算音频对应单词之间的概率。
2)语言模型
语言模型可以将语法和字词知识进行整合,计算字词在句中出现的概率。这能够很好地提高同音(即声学模型打分类似)的情况下,模型的性能。所以我们将声学模型输出最高概率的结果和语言模型所得到的概率结果进行修正后,得到识别后的句子,用于后续的测评。
步骤五,语音评测。
以英文为例,本方法在准确率和流畅度两个指标来进行测评。
1)准确率:从词级别来判断每个单词的整体评分。
将识别结果中每个单词与目标句中的单词进行对比,并根据差异来计算单词之间的编辑距离得分。
2)流畅度:从句级别来判断整句话中,错读、漏读和多读的比例,并评分。
同样使用编辑距离来计算句子的流畅度,计算公式如下:
流畅度=(删除/插入/替换为目标句所需的最少操作次数)÷目标句长
该指标分数越低说明用户语音效果越好。
从上述过程,我们得出如下结论:
1)该模型使用深度学习算法将声学模型和语音评分算法结合,构建了一个端到端的语音评测模型;
2)端到端模型可以直接得到音频对应单词,避免了级联错误;
3)相比于传统方法,本方法所得到的测评模型更小,对设备的内存和算力要求大大减少。

Claims (3)

1.构建端到端语音评测模型的深度学习方法,其特征在于,具体步骤如下:
步骤一,数据准备:准备训练声学模型所需的音频/文本语料;
步骤二,预处理:对训练的语料进行处理;
步骤三,特征提取:提取fbank特征用来作语音识别系统的输入和训练声学模型;
步骤四,训练声学模型:将步骤三提取的特征放入声学模型中进行训练,声学模型使用LSTM+CTC的结构,其中LSTM以特征提取模块提取的特征为输入进行训练学习,得到学习后的特征;
采用 CTC算法来完成音频和文本之间的对齐,得到识别后的单词结果;
步骤五,解码:声学模型得到的识别结果为CTC解码所得到的概率最大的单词,为了考虑整句话所包含的语义信息,我们将声学模型的输出结果结合语言模型进行修正后得到识别的完整句子;
声学模型基于LSTM+CTC结构,配置如下:
LSTM使用两层,每个LSTM中有1个隐藏层,每个层有u个隐藏单元;
LSTM编码结果首先被输入到CTC_Decoder,通过束解码的方式进行解码,得到概率最大的N个候选字符序列Y cand 以及其对应的CTC评分score etc ,最后取评分最高的结果作为声学模型的输出。
2.根据权利要求1所述的构建端到端语音评测模型的深度学习方法,其特征在于,语音测评:评测结果是多维度的,包括音素、语调、流利度、断句、完整度,且与语言的特性有关,针对不同语种单独定制评测的维度,分别计算对应的准确率和流畅度,然后将结果反馈给用户,完成整个测评流程。
3.根据权利要求2所述的构建端到端语音评测模型的深度学习方法,其特征在于,1)准确率:从词级别来判断每个单词的整体评分;
将识别结果中每个单词与目标句中的单词进行对比,并根据差异来计算单词之间的编辑距离得分;
2)流畅度:从句级别来判断整句话中,错读、漏读和多读的比例,并评分;
同样使用编辑距离来计算句子的流畅度,计算公式如下:
流畅度=(删除/插入/替换为目标句所需的最少操作次数)÷目标句长
流畅度指标分数越低说明用户语音效果越好。
CN202210750476.1A 2022-06-29 2022-06-29 构建端到端语音评测模型的深度学习方法 Pending CN114863914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210750476.1A CN114863914A (zh) 2022-06-29 2022-06-29 构建端到端语音评测模型的深度学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210750476.1A CN114863914A (zh) 2022-06-29 2022-06-29 构建端到端语音评测模型的深度学习方法

Publications (1)

Publication Number Publication Date
CN114863914A true CN114863914A (zh) 2022-08-05

Family

ID=82626469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210750476.1A Pending CN114863914A (zh) 2022-06-29 2022-06-29 构建端到端语音评测模型的深度学习方法

Country Status (1)

Country Link
CN (1) CN114863914A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343824A (zh) * 2023-05-29 2023-06-27 新励成教育科技股份有限公司 口才表达能力的全面评估与解决方法、系统、装置及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140255886A1 (en) * 2013-03-08 2014-09-11 Educational Testing Service Systems and Methods for Content Scoring of Spoken Responses
CN111626041A (zh) * 2020-05-07 2020-09-04 杭州东信北邮信息技术有限公司 一种基于深度学习的音乐评论生成方法
CN114550741A (zh) * 2020-11-25 2022-05-27 绍兴市齐悟网络科技有限公司 一种语义识别的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140255886A1 (en) * 2013-03-08 2014-09-11 Educational Testing Service Systems and Methods for Content Scoring of Spoken Responses
CN111626041A (zh) * 2020-05-07 2020-09-04 杭州东信北邮信息技术有限公司 一种基于深度学习的音乐评论生成方法
CN114550741A (zh) * 2020-11-25 2022-05-27 绍兴市齐悟网络科技有限公司 一种语义识别的方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ALEX GRAVES ET AL.: "《Towards End-to-End Speech Recognition with Recurrent Neural Networks》", 《ICML 14》 *
HIROFUMI INAGUMA ET AL.: "《Social Signal Detection in Spontaneous Dialogue Using Bidirectional LSTM-CTC》", 《INTERSPEECH 2017》 *
JIANGYAN YI ET AL.: "《Language-invariant Bottleneck Features from Adversarial End-to-end Acoustic Models for Low Resource Speech Recognition》", 《ICASSP 2019》 *
JIE LI ET AL.: "《Towards End-to-End Speech Recognition for Chinese Mandarin using Long Short-Term Memory Recurrent Neural Networks》", 《INTERSPEECH 2015》 *
PARIA JAMSHID LOU ET AL.: "《End-to-End Speech Recognition and Disfluency Removal》", 《ARXIV:2009.10298V3》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343824A (zh) * 2023-05-29 2023-06-27 新励成教育科技股份有限公司 口才表达能力的全面评估与解决方法、系统、装置及介质
CN116343824B (zh) * 2023-05-29 2023-08-15 新励成教育科技股份有限公司 口才表达能力的全面评估与解决方法、系统、装置及介质

Similar Documents

Publication Publication Date Title
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN105845134B (zh) 自由朗读题型的口语评测方法及系统
CN100536532C (zh) 自动加配字幕的方法和系统
US11721329B2 (en) Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus
CN110517663B (zh) 一种语种识别方法及识别系统
CN105957518A (zh) 一种蒙古语大词汇量连续语音识别的方法
CN106782603B (zh) 智能语音评测方法及系统
Rao et al. Language identification using spectral and prosodic features
Besacier et al. Towards speech translation of non written languages
Hori et al. A statistical approach to automatic speech summarization
Meinedo et al. Age and gender detection in the I-DASH project
Cardenas et al. Siminchik: A speech corpus for preservation of southern quechua
CN114863914A (zh) 构建端到端语音评测模型的深度学习方法
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Yeh et al. Speech recognition with word fragment detection using prosody features for spontaneous speech
Johnson et al. Leveraging Multiple Sources in Automatic African American English Dialect Detection for Adults and Children
Shukla Keywords Extraction and Sentiment Analysis using Automatic Speech Recognition
Nadungodage et al. Efficient use of training data for sinhala speech recognition using active learning
Nanmalar et al. Literary and Colloquial Tamil Dialect Identification
Sproat et al. Dialectal Chinese speech recognition
Biczysko Automatic Annotation of Speech: Exploring Boundaries within Forced Alignment for Swedish and Norwegian
Wang et al. An iterative approach to model merging for speech pattern discovery
Ng et al. Adaptation of lecture speech recognition system with machine translation output
Deng et al. Recent Progress of Mandrain Spontaneous Speech Recognition on Mandrain Conversation Dialogue Corpus
Peñagarikano Badiola et al. Semisupervised Speech Data Extraction from Basque Parliament Sessions and Validation on Fully Bilingual Basque–Spanish ASR

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220805

RJ01 Rejection of invention patent application after publication