CN116434779A

CN116434779A - 语言学习系统

Info

Publication number: CN116434779A
Application number: CN202310398141.2A
Authority: CN
Inventors: 郭晶晶; 刘恕
Original assignee: Via Technologies Inc
Current assignee: Via Technologies Inc
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-14

Abstract

本发明提供一种语言学习系统，其涉及高可信度音频质量检测技术，在一数据处理服务器上运行一数据预处理系统、以及一音频质量检测系统。该数据预处理系统包括一标注系统、以及一音频预处理系统，用以根据一文本、以及用户朗读该文本的一音频，分别产生一标注、以及一音频数据。该音频质量检测系统是基于该标注、以及该音频数据为该音频打分。该标注系统包括一人工智能模型，响应该文本包括多音单词的状况而产生该标注。

Description

语言学习系统

技术领域

本发明关于语言学习系统，特别有关于口说的音频质量检测(Goodness ofpronunciation，简称GOP)。

背景技术

随着计算机的技术发展，语言学习系统功能越来越强大。使用者可准备各种文本进行口说训练。系统可对用户录音的完整度、流畅度、准确度…等进行评分反馈，帮助用户提升口语。此功能称为音频质量检测(GOP)。

如何提升音频质量检测(GOP)的可信度，还帮助用户改善口说，为本技术领域一项重大课题。

发明内容

本发明提出一种高可信度音频质量检测(GOP)的语言学习系统。

根据本发明一种实施方式实现的一语言学习系统包括运行在一数据处理服务器上的一数据预处理系统、以及一音频质量检测系统。该数据预处理系统包括一标注系统、以及一音频预处理系统，用以根据一文本、以及用户朗读该文本的一音频，分别产生一标注、以及一音频数据。该音频质量检测系统是基于该标注、以及该音频数据为该音频打分。该标注系统包括一人工智能模型，响应该文本包括多音单词的状况而产生该标注。所述多音单词为不同词性不同发音的单词、或特殊单词，所述特殊单词包括数字、或地名。

该人工智能模型会适应该文本的多音单词状况，使该标注符合理想发音，进而提升该音频质量检测系统的可信度。用户的错误发音可被确实指正。

一种实施方式中，该人工智能模型包括对应不同多音单词的多个音频-标注模型。响应该文本为单词文本、且是多音单词的状况，对应的音频-标注模型运作，根据该音频产生该标注。

一种实施方式中，该人工智能模型包括一句子-标注模型。响应该文本为句子文本、且该句子文本包括多音单词的状况，该句子-标注模型运作，根据该句子文本产生该标注。

一种实施方式中，该语言学习系统还包括一人机界面，由用户端装置运行，供用户选择文本进行朗读录音，并上传该文本、以及该音频至该数据处理服务器。

下文特举实施例，并配合所附图示，详细说明本发明内容。

附图说明

图1图解一种语言学习系统100；

图2以方块图图解一特定单词的音频-标注模型的实施架构；

图3以方块图图解句子-标注模型128的一种实施架构；

图4根据本发明一种实施方式图解标注系统112的工作流程；

图5图解语言模型502、以及声学模型504的一种建立方式；

图6图解音频质量检测(GOP)系统120的一种实施方式，其中即应用了图5训练出的语言模型502、以及声学模型504；

图7图解一种语言学习系统700；

图8图解具备多读音纠错功能的音频质量检测(GOP)系统720的一种实施方式；以及

图9为具备多读音纠错功能的音频质量检测(GOP)系统720运作的流程图。

其中，附图中符号的简单说明如下：

100：语言学习系统；102：文本；104：音频；106：应用程序或网页(人机界面)；108：数据处理服务器；110：数据预处理系统；112：标注系统；114：音频预处理系统；116：标注；118：音频数据；120：音频质量检测系统；121：打分结果；122：词典；124：人工智能模型；126：一组音频-标注模型；128：句子-标注模型；202：输入层，音频输入；204：特征提取层，提取MFCCs特征；206：归一化层，将MFCCs特征归一化；208：深度神经网络(DNN)；210：全连接层；212：输出层，标注输出；302：功能方块，根据句子文本特点，构建句子向量；304：功能方块，判断是否要分词；306：分词系统；308：备妥输入向量(训练阶段则还备妥输出向量)；310：嵌入层；312：编码器用的长短期记忆(LSTM)网络；314：解码器用的长短期记忆(LSTM)网络；316：全连接层；318：Softmax激活函数；S402…S420：步骤；502：语言模型；504：声学模型；506：语言模型构建系统；508：声学模型构建系统；510：训练文本；512：标准发音的音频；514：训练用标注；516：训练用音频数据；602：强制对齐模块；604：后验概率计算模块；606：音素级别音频质量打分模块；700：语言学习系统；702：文本；704：音频；706：应用程序或网页(人机界面)；708：数据处理服务器；710：数据预处理系统；712：标注系统；714：音频预处理系统；716：标注；718：音频数据；720：具备多读音纠错功能的音频质量检测系统；802：语言模型；804：声学模型；806：语音活动检测系统；808：循环神经网络；810：强制对齐系统；812：后验概率计算系统；814：指定级别音频质量打分系统；816：无效帧判别系统；818：多读音语音辨识系统；S902…S912：步骤。

具体实施方式

以下叙述列举本发明的多种实施例，但并非意图限制本发明内容。实际发明范围应依照申请专利范围界定之。

图1图解一种语言学习系统100。用户端装置(例如，手机、平板、个人计算机)上可运行应用程序/网页106之类的人机界面。用户即通过此应用程序/网页106选择文本102进行朗读录音，产生该音频104。文本102以及音频104可通过应用程序/网页106上传一数据处理服务器108，交予该数据处理服务器108上运行的一数据预处理系统110处理。数据预处理系统110包括标注系统112、以及音频预处理系统114，分别产生标注116、以及音频数据(计算机可以处理的数字信号，如，语音特征序列)118。该数据处理服务器108上还运行一音频质量检测(GOP)系统120，基于标注116、与音频数据118进行音频104的打分。打分结果121会交由数据处理服务器108回传应用程序/网页106，显示供用户参考，以纠正用户发音。打分可以显示音频104相对文本102的完整度、流利度、准确度…等。

一种实施方式中，英语发音是由39维度的音素(phoneme)区别，细节可参考公开文章“Use of Speech Recognition in Computer-assisted Language Learning”。文本102的理想发音，可以由音素显示，即标注系统112所产生的标注116。标注116可以说是音频质量检测(GOP)系统120进行打分的基准，将显著影响打分的可信度。

例如，文本“You are my good friend”转换出的文本音素序列为：

[Y,UW1]，[AA1,R]，[M,AY1]，[G,UH1,D]，[F,R,EH1,N,D]

将作为标注116，与用户朗读的音频104所转换出的音频数据118，一并交予音频质量检测(GOP)系统120进行运算，完成音频104的打分。如此音素级别的打分结果可能如下：

[-8.263644,-9.056454]，[-0.8452008,-6.122041]，[-4.690601,-5.821236]，[0,-2.156311,0]，[-7.024531,-7.413582,-6.771776,-2.714007,-2.869504]

通过文本音素序列对应的模型，音频质量检测(GOP)系统120可将音频数据118与作为标注116的文本音素序列强制对齐，再进行后验概率运算，形成以上打分。概率值越大(如，由负值越接近零)，代表匹配度越高。低于一阈值的打分可视为朗读出错。如此音素级别的打分可以细致提醒用户，哪个音标读错，重音、轻音是否正确。标注116正确，打分才可信。一种实施方式中，音素级别的打分小于-5，则认为朗读的音频与已存的正确的音标匹配度较低，也即朗读错误。音素级别的打分越接近于0，则认为朗读越精确。

本发明提供高准确度的标注系统112。标注系统112除了可参照词典122运作，还设计有人工智能模型124，使产生的标注116适应多音单词的各种使用场景，避免音频质量检测(GOP)系统120做出错误打分。

多音单词有多种样态，可以是因为词性不同，或是为特殊单词(如，不同用途的数字，或为地名之类)。以单词为例，其可能因为词性不同而有不同发音。例如，单词“contract”的名词和动词发音不同，重音并不一样。关于单词“contract”，词典122可查询到两套音素序列(数字0-2为重音标志)：“KAH0 N T R AE1 K T”；“K AA1 N T R AE2 K T”。不同于传统标注系统是默选词典提供的第一套音素序列作为标注，人工智能模型124在此发挥功能，提供符合文本、或用户练习情境的正确音素序列，作为标注116。

又例如，数字可能用做日期、或电话号码，各有特殊读法。以电话号码为例，紧急电话“110”习惯读为“yao yao ling”，而不经常读作“yi yi ling”。以日期为例，日期“1月”习惯读为“yi yue”，不经常读作“yao yue”，日期“2月”习惯读为“er yue”,不经常读作“liangyue”。以金钱为例，“2元”习惯读为“liang yuan”，不经常读作“er yuan”。相应数字的不同用途，人工智能模型124会适应性提供适合的音素序列作为标注116。

又例如，特殊单词，如地名，也可能有特别发音，也是多音单词的一种样态。

又例如，以文本“我喜欢都(拼音du)市生活，生活便利，机会较多，比如上海、成都(du)等都(dou)是比较好的大都(du)市”为例，讨论如下。词典默认“都”的读音为“dou”，使用者正确朗诵文本的“du”读音可能会被评断为错误。本发明人工智能模型124也会适应性为如此文本提供适合的音素序列作为标注116。

考量多音单词练习的场景特性，人工智能模型124为单词文本设计一组音频-标注模型(包括对应多个多音单词的多个音频-标注模型)126，并为句子文本设计一句子-标注模型128。

首先介绍针对单词文本而设计的该组音频-标注模型126。各多音单词对应一个音频-标注模型。所有多音单词的音频-标注模型则集结成该组音频-标注模型126。

单词文本的单词没有上下文可以推敲词性，无从自文本判断理想发音。本发明提出的音频-标注模型是参考用户录音的音频104，来决定单词文本的标注116，以符合用户当下练习目标。相应多音单词音频，本发明选择置信度最大的音素排列作为该多音单词的标注，可提高标注正确率，进而可减少误打分概率。例如，成“都(du)”，若是以往的标注，可能会被标注为(dou)，但依据置信度，“成都”这个词的置信度最大的音素排列是“cheng du”，故当用户正确的读出“cheng du”时，不会像旧技术误判读错。

对于一多音单词，其相应的音频-标注模型的输入是用户录音的音频104，输出则是适应用户练习目标(从音频104估算出)的标注116。以多音单词文本“contract”为例(名词发音/′

/，动词发音//>

/)，响应之，对应单词文本“contract”的该个音频-标注模型运作，根据用户音频104(例如，用户练习contract名词发音的录音)，根据较高置信度产生“contract”名词理想发音的文本音素序列，作为标注116。如此一来，练习“contract”名词发音的用户，所获得的打分，确实是以“contract”名词理想发音为基准。用户得以正确校正本身发音。又例如，以多音单词文本“wind”为例(多种名词发音，包括/wInd/，/waInd/)。在传统查询词典产生标注时，无法寻得符合使用者练习的合适标注。若采用本发明技术，则可相应使用户练习选择置信度较大者作为标注116，提升标注的正确性，改善系统对用户读音的打分准确率。

以下介绍针对句子文本而设计的句子-标注模型128。

一个句子可能会有多个多音单词(包括词性相关的多音单词、或数字等特殊字符这类多音单词)。句子中的单词有前后文，可判断出多音单词词性、或用法，而推论出理想发音。本发明采用具有存储功能的时间循环神经网络(RNN)─如，长短期记忆(Long Short-Term Memory，LSTM)网络─实现该句子-标注模型128。句子-标注模型128的输入是句子文本102，输出是该句子文本102的标注116，将完全考虑到句子中多音单词的合适发音。

以下还详述各种人工智能模型(126、128)的实施方式。

首先介绍126中各音频-标注模型的实现方式。

图2以方块图图解一特定单词的音频-标注模型实施架构。方块202为输入层；训练阶段是接收该特定单词各种标准发音的音频；模型建立后，则是接收用户录音的音频104。方块204为特征提取层，提取音频的特征，例如，提取梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients，MFCCs)特征。方块206为归一化层，将MFCCs特征归一化。方块208为深度神经网络(DNN)。方块210为全连接层。方块212为输出层；训练阶段，其输出将与标准发音的理想标注比对，反馈训练网络参数；训练完成后，此输出即用于提供符合音频104的标注116。

以具有A、B、以及C三种标注的多音单词为例，用户录音的音频104输入相应此多音单词的音频-标注模型后，会模拟出A、B、以及C三种标注的置信度，最高置信度的标注即符合用户练习目标的标注，用作打分使用的标注116。

以汉语训练为例。“解”有多种读音。例如：浑身解(xie，四声)数；解(jie，三声)除；解(jie，四声)送。“参”有多种读音。例如：参(can，一声)加；人参(shen，一声)；参(cen，一声)差不齐。该些多音单词即可根据相应使用者发音置信度最高者，作为标注。同前述英文“contract”例子。

以下还详述句子-标注模型128的实现方式。

图3以方块图图解句子-标注模型128的一种实施架构。句子文本需要先以方块302～308处理。方块302根据句子文本特点，构建句子向量。方块304判断是否要分词。例如，中文需要分词，英文则不需要分词。方块306为分词系统，响应分词需求，将句子向量分词。方块308以句子向量作后续网络的输入向量。训练阶段，方块308会还相应输入向量备妥输出向量(如，训练文本的理想标注，这些训练文本包括多音单词的各种句子)，以达成训练目标。若是专为不需要分词的语系建立的模型，则可省略分词判断304、与分词系统306。

从语言学角度看，单词，是能独立于语意或者语用，能单独说出来并带有字面意义或者实际意义的最小单位。比如汉语中的“人”，就是一个单词，能独立于任何语意或语用。本身这个单词就是代表“由人猿进化而成的能制造和使用工具进行劳动、并能用语言进行交际的动物”。单词又可认知为说话者单独能表达出来的带有字面意义的最小单位，再细分就没有任何字面或者实际意义。英语也一样，例如“Walk”就是走、步行的基本意思。英语单词为能脱离任何语用语义说出来的最小单位，表达一个英语语言学里教作“practicalmeaning”(实际意义，也可理解为动作意义)的一个单位。

比如，汉语中“汽车”是两个字，但却必须视为一个单词。“汽”只是一个字，不是一个单词。“车”可以是一个单词(通常指汽车)。“火车”是一个单词，不能拆为“火”和“车”，因为拆开后就不是原来的意思了。英文也一样，“car”不能拆成字母“c”、“a”、和“r”，“train”不能拆成字母“t”、“r”、“a”、“i”和“n”。通常，中文中的单词可以有一个、或多个单字组成，需要分词系统。英文的单词一般指一个单字。

分词是为了正确的理解一句话。不同的分词会产生不同的意思。现代汉语的基本表达单元虽然为“词”(且以双字或多字词居多)，但由于人们惯用语法有些微差异，词和短语的边界很难区分。比如以下例子，不同的分词效果会出现不同的意思。例如，“乒乓球/拍卖/完了”，主语是“乒乓球”。“乒乓/球拍/卖/完了”，主语是“乒乓球拍”。分词系统306有其必要性。

中文分词例子还讨论于此。文本“小盛看到湖岸上的花草，一株不知名的小花引起了他的注意”可能有多种分词方式，如：“小盛/看到/湖岸/上/的/花草/，一株/不知名/的/小花/引起/了/他的/注意”；“小盛/看到/湖/岸/上/的/花/草，一株/不/知名/的/小花/引起了/他的/注意”；“小盛/看到/湖岸/上的/花/草，一株/不知名的/小花/引起了/他的/注意”。中文句子经不同分词，会产生不同意义。另外，一些特殊词语，如“地名”也需要合适的分词。

方块310是嵌入层(embedding layer)。方块312以及314是长短期记忆(Longshort-term memory，简称LSTM)网络。方块312的长短期记忆(LSTM)网络存储有上下文，用作编码器。方块314的长短期记忆(LSTM)网络存储有上下文，用作解码器。图示架构模拟seq2seq模型，但比seq2seq层快，又比单纯LSTM网络准确。方块312以及314的长短期记忆(LSTM)网络编、解码结果，将还通过全连接层316、激活函数318输出为标注116。模型中可采用归一化指数函数Softmax作为激活函数318。

句子-标注模型128不仅存储句子中单词的上、下文信息(例如，目标单词的前一个、前前一个、后一个、以及后后一个单词)，还有能力存储句子的上、下文信息。如此一来，多个句子中的多音单词也能被有效预测。

图4根据本发明一种实施方式图解标注系统112的工作流程。步骤S402接收文本102。步骤S404判断文本102是单词还是句子。若是单词，流程以步骤S406查询词典122(或作更多考量)判断此单词文本是否只有唯一标注。若是，则流程以步骤S408将之输出作为标注116。设计中，数字、日期等特殊符号，以及词典122所载因词性不同而念法不同的这些单词，都视为不具有唯一标注的多音单词。

若单词文本有多种标注候选，则流程进行步骤S410，以将用户朗读此单词文本的音频104输入此单词文本102对应的音频-标注模型(该组音频-标注模型126其中之一)，从而产生接近用户音频104的音素序列，再以步骤S412将此音素序列输出做标注116。

若步骤S404辨识出句子文本，则流程以步骤S414查询词典122，判断此句子文本是否所有单词都只有唯一标注。若是，则流程以步骤S416输出查询词典122所组织出的文本音素序列，作为标注116。

若句子文本并非所有单词都只有唯一标注，则流程进行步骤S418，将句子文本输入该句子-标注模型128，产生音素序列，再以步骤S420将此音素序列输出做标注116。

以文本“我喜欢都(拼音du)市生活，生活便利，机会较多，比如上海、成都(du)等都(dou)是比较好的大都(du)市”为例，经步骤S418、S420，“成都”可被正确判断为地名，标注为“成都(du)”。

一种实施方式中，音频质量检测(GOP)系统120采用语言模型、以及声学模型，除了用来把音频数据118强制对齐文本音素序列，还计算强制对齐所产生的一可能音素状态序列的后验概率。具有人工智能模型124的标注系统112也可帮助建立音频质量检测(GOP)系统120内使用的该些语言模型、声学模型。

图5图解语言模型502、以及声学模型504的一种建立方式。训练语言模型502需要一语言模型构建系统506。训练声学模型504需要一声学模型构建系统508。一系列的训练文本510、以及其标准发音的音频512将输入前述数据预处理系统110，由本发明特殊的标注系统112(包括人工智能模型124)、以及前述音频预处理系统114转换为训练用标注514、以及训练用音频数据516。语言模型构建系统506根据训练用标注514训练该语言模型502。声学模型构建系统508根据该训练用标注514、以及该训练用音频数据516训练该声学模型504。如此设计下，语言模型构建系统506是根据准确度极高的训练用标注514训练语言模型502，语言模型502将更完美。同样的，声学模型构建系统508也是根据准确度极高的训练用标注514训练声学模型504，声学模型504也会有更好的声学模拟效果。

图6图解音频质量检测(GOP)系统120的一种实施方式，其中即应用了图5训练出的语言模型502、以及声学模型504，根据标注116、以及音频数据118运作。此外，音频质量检测(GOP)系统120还包括一强制对齐模块602、一后验概率计算模块604、以及一音素级别音频质量打分模块606。音素级别音频质量打分模块606是逐音素地纠正用户发音。更有其他实施方式还包括单词级别、或句子级别的音频质量打分模块，逐词、或逐句纠正用户发音。

另外，若是训练中文，除了有图3的“分词”设计，词典122也需要替换为词语-标注转换。此类中文词典可自行定义，也可以是市面上的公用词典。

当用户读到多音单词或特殊单词，或包括多音单词或特殊单词的句子时，若出现多音单词或特殊单词打分较低，智能终端可针对多音单词进一步于应用程序/网页106之类的人机界面将其所有标注读音及解释显示出来(可为取自系统数据库，或搜寻自因特网，之后将搜索到的读音及其解释进一步显示于应用程序/网页106之类的人机界面)。

某些实施方式中，人工智能模型124可能只采用该组音频-标注模型126处理单词文本的多音单词，而不具备句子-标注模型128；此类实施方式也属于本发明范畴。

某些实施方式中，人工智能模型124可能只采用该句子-标注模型128处理具有多音单词的句子文本，而不具备该组音频-标注模型126；此类实施方式也属于本发明范畴。

任何在标注系统中设计人工智能模型，响应包括多音单词(例如，单以词典122无法准确提供标注)的文本产生标注的技术，都属于本发明欲保护范围。人工智能模型的设计细节也可能有多种变形，应当都属于本发明范畴。

前述于数据处理服务器108运行的各种系统包括软硬件设计，由软件搭配得以提供高速运算的硬件实现。

除去在工作端增加音频/句子-标注模型，以提高模型的识别精度，本发明还另于客户终端也做进一步改进措施。一种实施方式中，系统辨识用户朗读过程中出现的失误后，还在客户端界面明示用户自己朗读过程中出现的失误。

对于一段文本，用户朗读时可能有以下几种状况：a)正常朗读，每一个单词都按照文本的要求朗读；b)漏掉单词；c)多念单词；d)周围有噪声；e)单个单词多念音标，比如good念成goodness；f)单个单词少念音标，比如goodness念成good。

本发明特别对状况c)、e)此类多读音情境，提出高可信度打分技术。本发明也对d)这种环境噪音提出解决方案。

图7图解一种语言学习系统700。用户可以自行准备文本702作朗读，产生音频704。用户端装置(例如，手机、平板、个人计算机)上可运行应用程序/网页706之类的人机界面。用户即通过如此人机界面选择文本702进行朗读录音，产生该音频704。文本702以及音频704可通过应用程序/网页706上传一数据处理服务器708，交予该数据处理服务器708上运行的一数据预处理系统710处理。数据预处理系统710包括标注系统712、以及音频预处理系统714，分别产生标注716、以及音频数据(计算机可以处理的数字信号，如，语音特征序列)718。该数据处理服务器708上还运行一具备多读音纠错功能的音频质量检测(GOP)系统720，基于标注716、与音频数据718进行音频704的打分。打分结果会交由数据处理服务器708回传应用程序/网页706，显示供用户参考，以纠正用户发音。打分可以显示音频704相对于文本702的完整度、流利度、准确度…等。

特别是，具备多读音纠错功能的音频质量检测(GOP)系统720具备多读音纠错功能，会揪出用户多读的音。

一般来说，用户音频704的多读音，在文本702理想发音的标注716中，是找不到打分参考的。传统技术是将比对无果的无效帧(frame)都视为无意义的内容─如，视为静音。传统技术没有能力揪出用户朗读的多读音。

例如，文本为“good”，用户念成“goodness”，多读“ness”这个音节。又例如，文本为“Good morning”，用户念成“Good morning,Marry”，多读“Marry”这个字。传统技术中，多读的“ness”或“Marry”会因为没有对应的文本标注，而被当为噪声处理。传统语音质量检测(GOP)系统没有能力提示用户，其朗读多念了“ness”，或多念了“Marry”。相较之，本发明具备多读音纠错功能的音频质量检测(GOP)系统720会明确侦测到“ness”、或“Marry”这样的多读音，正确提示用户纠正发音。

图8图解具备多读音纠错功能的音频质量检测(GOP)系统720的一种实施方式，其中可采用语言模型802、以及声学模型804，帮助分析标注716以及音频数据718。

具备多读音纠错功能的音频质量检测(GOP)系统720上可运行一语音活动检测(voice activity detection简称VAD)系统806。语音活动检测(VAD)系统806是应用来过滤噪音，获取有效的人声音频。图示语音活动检测(VAD)系统806是采取深度学习的一循环神经网络(recurrent neural networks，简称RNN)808过滤噪音。训练阶段，循环神经网络(RNN)808是以各种噪音环境所录下的人声音频为输入，而训练目标是输出纯净的人声音频。一种实施方式还是对特定环境，如，教室，建立训练集，使循环神经网络(RNN)808能准确过滤掉教室环境噪音。状况d)的环境噪声因而妥善解决。

具备多读音纠错功能的音频质量检测(GOP)系统720上还运行一强制对齐系统810，待滤噪后，音频数据718强制对齐包括文本音素序列的标注716。所述实施方式中，强制对齐系统810是基于语言模型802、以及声学模型804运作，找出音频数据718各帧(frame)与文本音素(716)的对应关系。每个音素对应的音频帧数也可经声学模型804计算得出。一种实施方式中，强制对齐系统810是取用声学模型804中对应标注716各音素的音素模型。通过这些音素模型，音频数据718各帧(frame)接近标注716中哪些音素，且属对应的音素的哪个状态，都可一帧帧得出。

以CMU发音词典为例，对于每一个音素，可有三种重音标志；0表示无重音(nonestress)，1表示主重音(primary stress)，2表示次重音(secondary stress)。各音素还更要标示是在单词中的开头(B)、中间(I)、结尾(E)，或是为单音标单词(S)。比如音素“IY”的各种状态(音标+重音+单词位置)与代表数字如下：

另外，句子开头可以数字0表示，静音可以SIL表示，词典里不支持的单词(OOV)可以SPN表示。

强制对齐系统810说明如下。范例文本“make you sweet”和用户录音音频“makeyou sweet,I like cake”强制对齐后的结果可能为：

“1 1 1 1 1 1 1 1 227 227 227 227 165 165 165 165 165 165 165 165165165 220 220 220 220 220 220 220 220 220 220 220 1 1 1 1 1 1 1 1 1 1 1 1 11 335 335 335 335 335 335 335 335 335 335 335 335 335 335 335 335 335 335 335335 335 335 335 335 335 320 320 320 320 320 320 320 320 320 320 320 320 320320 320 279 279 279 279 279 279 279 279 279 279 279 333 333 333 333 333 333333 333 333 333 333 209 209 209 209 209 209 209 209 209 209 209 209 209 288288 288 288 288 288 288 288 288 288 288 288 288 288 288 288 288 288 288 288288 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1”

每个数字代表一帧(frame)对应的音素。

经强制对齐(810)后，“1”表示文本标注716找不到对应音素，视为一帧无效帧。其他则为一帧帧待打分的发音音素。例如，前述文本“make you sweet”和用户录音音频“makeyou sweet,I like cake”的强制对齐结果中，起始八个“1”代表八帧无效帧，重复出现四次的“227”代表长达四帧的“M_B”音素(“M”发音)。中间有效帧音素数字“165”…“288”则是其他发音，其间还夹杂14帧无效帧(“1”)。最末一长串210个“1”代表210帧无效帧。

具备多读音纠错功能的音频质量检测(GOP)系统720运行一后验概率计算系统812、以及一指定级别音频质量打分系统814。强制对齐结果中，有效帧会由后验概率计算系统812进行后验概率计算，再交由指定级别音频质量打分系统814进行逐发音音素打分，或逐单词打分，或逐句打分。

至于该强制对齐结果中的无效帧(“1”)，会交由具备多读音纠错功能的音频质量检测(GOP)系统720上运行的一无效帧判别系统816还作判别，确定这些无效帧是否对应多读音。

具备多读音纠错功能的音频质量检测(GOP)系统720可还运行一多读音语音辨识(Automatic Speech Recognition，简称ASR)系统818。响应该无效帧判别系统816判别出多读音，该多读音语音辨识(ASR)系统818还辨识多读音的该多个帧的音素，继而分析出多读内容。

以汉语文本为例：“我喜欢都(拼音du)市生活节奏，生活便利，机会较多，比如上海、成都(du)等都(dou)是比较好的大都(du)市”。用户在朗读时因为多读节奏，出现了多读音，原文档中没有“节奏”，故后续打分时会在“节奏”词与部分出现较低的分数，且通过ASR识别，可进一步识别出用户所述为“节奏”一词。

一种实施方式是设计一多读音判别阈值。若无效帧(“1”)连续帧数超过该多读音判别阈值，则无效帧判别系统816视为此连串无效帧是多读音。反之，则可视为静音。具备多读音纠错功能的音频质量检测(GOP)系统720将通过数据处理服务器708，网络回传通知至应用程序/网页706实现的人机界面，提示用户其朗读有多读音。

一种实施方式中，指定级别音频质量打分系统814是将多读音状况反映在打分上，直观用分数让用户意识到朗读不准确或有多读音。

特别是，多读音语音辨识(ASR)818是在没有文本参考的状况下，基于与声学模型804，将视为多读音的该多个帧转换为音素，辨识出多读的内容是什么。具备多读音纠错功能的音频质量检测(GOP)系统720将通过数据处理服务器708，将多读音到底是甚么内容，网络回传到应用程序/网页706实现的人机界面，直接通知用户多读了哪些音标、字、或词。

一种实施方式中，将该多读音判别阈值设定为15。强制对齐结果中，连续出现超过15次的“1”，不再被视为是静音。无效帧判别系统816是将该连串帧认定为多读音。另外，代表无效帧的数字也不限为“1”，可由厂商设定特定数字代表无效帧。

一种实施方式中，该多读音判别阈值是视音频704的采样率而设定。

一种实施方式中，该多读音判别阈值是视语音活动检测(VAD)系统806的演算法类型而调整。

该多读音判别阈值可以视具体收音环境、或是语段长短而定。若是语段较长，读起来比较费力气，朗读者可能停顿时间较长，该多读音判别阈值会相应设计的较高。反之，语段较短则可对应较低的多读音判别阈值。测评的严格度也可以选择。较严格的测评标准可采用较低的多读音判别阈值。

以前述文本“make you sweet”和用户录音音频“make you sweet,I like cake”强制对齐结果为例，末端一长串210帧无效帧(“1”)，可能引发以下运算。无效帧判别系统816辨识出一连串210个“1”，认定远超过该多读音判别阈值，故不再将该多个帧视为静音，而认为是多读音。多读音语音辨识(ASR)系统818启动，基于声学模型804，将此210帧音频数据转换为概率最高的音素。强制对齐结果因而被转换如下：

“1 1 1 1 1 1 1 1 227 227 227 227 165 165 165 165 165 165 165 165165165 220 220 220 220 220 220 220 220 220 220 220 1 1 1 1 1 1 1 1 1 1 1 1 11 335 335 335 335 335 335 335 335 335 335 335 335 335 335 335 335 335 335 335335 335 335 335 335 335 320 320 320 320 320 320 320 320 320 320 320 320 320320 320 279 279 279 279 279 279 279 279 279 279 279 333 333 333 333 333 333333 333 333 333 333 209 209 209 209 209 209 209 209 209 209 209 209 209 288288 288 288 288 288 288 288 288 288 288 288 288 288 288 288 288 288 288 288288 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102102 102 102 102 102 102 102 102 102 102 223 223 223 223 223 223 223 223 223223 223 223 223 223 223 223 101 101 101 101 101 101 101 101 101 101 101 101101 101 101 101 220 220 220 220 220 220 220 220 220 220 220 220 220 220 220220 220 219 219 219 219 219 219 219 219 219 219 219 219 219 219 219 219 165165 165 165 165 165 165 165 165220 220 220 220 220 220 220 220 220 220”

首8帧静音(头8个“1”)、以及中间14帧静音(中间14个“1”)都因为没有超过多读音判别阈值，视为静音。至于尾端一连串210帧“1”，则被多读音语音辨识(ASR)系统818转换为音标数字“102”…“220”，正确辨识出多读音是“I like cake”。具备多读音纠错功能的音频质量检测(GOP)系统720将通过数据处理服务器708，网络回传通知给应用程序/网页706实现的人机界面，提示用户，多读了“I like cake”。

图9为具备多读音纠错功能的音频质量检测(GOP)系统720运作的流程图。步骤S902将文本的标注716以及音频数据718强制对齐。步骤S904判断连续的无效帧数量是否超过多读音判别阈值。若超出，则流程进入步骤S906，判断多读音语音辨识(ASR)系统818是否启动。若系统设定是启动多读音语音辨识(ASR)系统818，则流程进行步骤S908，分析多读音。步骤S910打分对齐的有效读音。步骤S912告知用户有效读音的打分结果，并且提示用户多读音的内容。有效读音的打分结果可还反映多读音状况。

若多读音语音辨识(ASR)系统818未启动，则流程略过步骤S908，直接进行步骤S910，打分对齐的有效读音。步骤S912告知用户有效读音的打分结果，但仅提示用户有多读音发生，不包括提示多读音的内容。有效读音的打分结果可还反映多读音状况。

若步骤S904判断连续无效帧数量未超过该多读音判别阈值，则流程略过步骤S906，直接进行步骤S910，打分对齐的有效读音。步骤S912告知用户有效读音的打分结果。

一种实施方式中，单词或句子级别的打分，是直接将此单词或句子发音打低分，反映有多读的音节或字。

一种实施方式中，音素级别的打分，是将多读音内容直接标为低分。例如，文本“How are you？”，录音“How old are you？”。人机界面可显示用户念了“How old areyou？”，但四个字各音素的打分是[-1.26,-1.39]，[-50,-50,-50]，[-0.93,-0.26]，[-1.24,-2.84]。多读字“old”以低打分[-50,-50,-50]直观提醒用户。反映多读音的打分方式还可有其他变形。

一种实施方式中，系统在多读“old”的地方打低分(此时用户可能还不知道为甚么打低分)，并且提示用户此处的单词为多读单词，且多读的单词为“old”。反映多读音的打分方式还可有其他变形，例如要求用户重新读取一次不包含“old”的文本、或以其他方式来提醒用户。

任何还对强制对齐结果的无效帧进行判断，侦测多读音的技术，都属于本发明欲保护范围。

前述于数据处理服务器708运行的各种系统包括软硬件设计，由软件搭配得以提供高速运算的硬件实现。

以上所述仅为本发明较佳实施例，然其并非用以限定本发明的范围，任何熟悉本项技术的人员，在不脱离本发明的精神和范围内，可在此基础上做进一步的改进和变化，因此本发明的保护范围当以本申请的权利要求书所界定的范围为准。

Claims

1.一种语言学习系统，其特征在于，包括：

运行在数据处理服务器上的数据预处理系统、以及音频质量检测系统，

其中：

该数据预处理系统包括标注系统、以及音频预处理系统，用以根据文本、以及用户朗读该文本的音频，分别产生标注、以及音频数据；

该音频质量检测系统基于该标注、以及该音频数据为该音频打分；且

该标注系统包括人工智能模型，响应该文本包括多音单词的状况而产生该标注，所述多音单词为不同词性不同发音的单词、或特殊单词，所述特殊单词包括数字、或地名。

2.根据权利要求1所述的语言学习系统，其中：

该人工智能模型包括对应不同多音单词的多个音频-标注模型；且

响应该文本为单词文本、且是多音单词的状况，对应的音频-标注模型运作，根据该音频，依照置信度产生该标注。

3.根据权利要求2所述的语言学习系统，其中：

各音频-标注模型的训练采用所对应单词的多个标准发音音频作为输入，并以该多个标准发音音频的理想标注为输出。

4.根据权利要求2所述的语言学习系统，其中，各音频-标注模型的输入至输出间串接有：

深度神经网络；以及

全连接层。

5.根据权利要求4所述的语言学习系统，其中，各音频-标注模型还包括：

输入层，接收该音频；

音频特征获取层，提取该音频的梅尔频率倒谱系数特征；以及

归一化层，将所述梅尔频率倒谱系数特征归一化，以输入该深度神经网络。

6.根据权利要求1所述的语言学习系统，其中：

该人工智能模型包括句子-标注模型；且

响应该文本为句子文本、且该句子文本包括多音单词的状况，该句子-标注模型运作，根据该句子文本产生该标注。

7.根据权利要求6所述的语言学习系统，其中：

该句子-标注模型的训练采用训练文本作为输入，各训练文本为包括多音单词的句子文本；且

该句子-标注模型的训练以各训练文本的理想标注为输出。

8.根据权利要求7所述的语言学习系统，其中，该句子-标注模型包括：

输入层，将包括多音单词的句子文本转换为句子向量，以经处理产生对应的理想标注。

9.根据权利要求8所述的语言学习系统，其中，该句子-标注模型还包括：

分词系统，响应分词需求，将句子向量分词后，再经处理产生对应的理想标注。

10.根据权利要求6所述的语言学习系统，其中，该句子-标注模型的输入至输出间串接有：

嵌入层；

作为编码器的长短期记忆网络；

作为解码器的长短期记忆网络；以及

全连接层。

11.根据权利要求10所述的语言学习系统，其中：

该句子-标注模型采用激活函数Softmax。

12.根据权利要求11所述的语言学习系统，其中，该句子-标注模型还包括：

输入层，将包括多音单词的句子文本转换为句子向量，以输入该嵌入层。

13.根据权利要求12所述的语言学习系统，其中，该句子-标注模型还包括：

分词系统，响应分词需求，将句子向量分词后，再输入该嵌入层。

14.根据权利要求1所述的语言学习系统，其中：

该标注系统还包括词典；且

该标注系统通过查询该词典，来判断该文本是否包括多音单词，以启动该人工智能模型。

15.根据权利要求14所述的语言学习系统，其中：

该标注系统还判断该文本为单词文本还是句子文本；

在该文本为单词文本时，该标注系统查询该词典，判断该单词文本是否为多音单词；且

在该单词文本非多音单词时，该标注系统以该词典的查询结果为该标注。

16.根据权利要求15所述的语言学习系统，其中：

响应该文本为单词文本、且是多音单词的状况，对应的音频-标注模型运作，根据该音频产生该标注。

17.根据权利要求15所述的语言学习系统，其中：

在该文本为句子文本时，该标注系统查询该词典，判断该句子文本是否包括多音单词；

在该句子文本不存在多音单词时，该标注系统以该词典的查询结果为该标注。

18.根据权利要求17所述的语言学习系统，其中，该人工智能模型包括：

句子-标注模型；且

响应该文本为句子文本、且该句子文本包括多音单词的状况，该句子-标注模型运作，根据该句子文本产生该标注，其中包括根据句子的上下文，针对句子中出现的不同词性不同发音的多音单词或特殊单词，选择标注。

19.根据权利要求1所述的语言学习系统，其中：

该音频质量检测系统包括语言模型、以及声学模型，用来将该音频数据强制对齐包括文本音素序列的该标注，并计算强制对齐所产生的可能音素状态序列的后验概率，打分该音频。

20.根据权利要求19所述的语言学习系统，其中：

训练该语言模型用的语言模型构建系统、以及训练该声学模型的声学模型构建系统，采用包括该人工智能模型的该标注系统所产生的训练用标注。

21.根据权利要求1所述的语言学习系统，还包括：

人机界面，由用户端装置运行，供用户选择文本进行朗读录音，并上传该文本以及该音频至该数据处理服务器。