CN111862958A - 发音插入错误检测方法、装置、电子设备及存储介质 - Google Patents

发音插入错误检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111862958A
CN111862958A CN202010789649.1A CN202010789649A CN111862958A CN 111862958 A CN111862958 A CN 111862958A CN 202010789649 A CN202010789649 A CN 202010789649A CN 111862958 A CN111862958 A CN 111862958A
Authority
CN
China
Prior art keywords
phoneme
phoneme sequence
detected
voice signal
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010789649.1A
Other languages
English (en)
Other versions
CN111862958B (zh
Inventor
叶珑
雷延强
梁伟文
林伟波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shikun Electronic Technology Co Ltd
Original Assignee
Guangzhou Shikun Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shikun Electronic Technology Co Ltd filed Critical Guangzhou Shikun Electronic Technology Co Ltd
Priority to CN202010789649.1A priority Critical patent/CN111862958B/zh
Publication of CN111862958A publication Critical patent/CN111862958A/zh
Application granted granted Critical
Publication of CN111862958B publication Critical patent/CN111862958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Abstract

本申请提供一种发音插入错误检测方法、装置、电子设备及存储介质。该方法包括:根据发音文本和待检测语音信号,获取待检测语音信号对应的第一音素序列及边界信息,待检测语音信号是针对发音文本的语音信号;根据第一音素序列中静音音素及边界信息,对静音音素构建包含预设混淆音素的候选路径的WFST对齐网络,预设混淆音素包括非静音音素和多读音素串;在WFST对齐网络中搜索待检测语音信号对应的第二音素序列;比较第一音素序列及第二音素序列的音素,确定第一音素序列中是否包含插入错误。本申请中的预设混淆音素包含多读音素串,还可检测出多音素插入的情况,从而提升插入错误识别率。

Description

发音插入错误检测方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机辅助语言学习技术,尤其涉及一种发音插入错误检测方法、装置、电子设备及存储介质。
背景技术
发音错误检测(Mispronunciation Detection)技术是计算机辅助语言学习(Computer Assisted Language Learning,简称:CALL)技术的一个细分方向,发音错误检测技术要求高效、准确地还原出学习者的实际发音情况,并给出音素级别的客观反馈和评价,以帮助学习者纠正发音错误。具体地,有文本的发音错误包含错读、漏读和多读(重复读),对应替换错误、删除错误和插入错误。其中,插入错误指的是在正确的单词或句子发音中插入了其他语音,比如语气助词等,反映了学习者发音不流利。
目前,检测插入错误,是在词之间添加插入路径,并依概率进入插入路径,从而实现发音插入错误的检测。发明人在使用该技术进行发音插入错误检测时,发现其至少存在插入错误识别率较低的问题。
发明内容
本申请提供一种发音插入错误检测方法、装置、电子设备及存储介质,以提升发音插入错误的识别率。
第一方面,本申请提供一种发音插入错误检测方法,该方法包括:根据发音文本和待检测语音信号,获取待检测语音信号对应的第一音素序列及边界信息,待检测语音信号是针对发音文本的语音信号;根据第一音素序列中静音音素及边界信息,对静音音素构建包含预设混淆音素的候选路径的加权有限状态转移器(Weighted Finite-StateTransducers,简称:WFST)对齐网络,预设混淆音素包括非静音音素和多读音素串;在WFST对齐网络中搜索待检测语音信号对应的第二音素序列;比较第一音素序列及第二音素序列的音素,确定第一音素序列中是否包含插入错误。
一种可能的实施方式中,上述在WFST对齐网络中搜索待检测语音信号对应的第二音素序列,可以包括:基于待检测语音信号对应的声学分数和维特比算法,在WFST对齐网络中搜索最优路径,得到待检测语音信号对应的第二音素序列。
一种可能的实施方式中,上述根据发音文本和待检测语音信号,获取待检测语音信号对应的第一音素序列及边界信息,可以包括:
根据发音文本,构建初始WFST对齐网络,其中,初始WFST对齐网络表示发音文本对应的音素的可能路径状态图;
根据待检测语音信号和初始WFST对齐网络,获取待检测语音信号对应的第一音素序列及边界信息。
一种可能的实施方式中,上述初始WFST对齐网络包含词间可选静音音素路径。
一种可能的实施方式中,上述根据待检测语音信号和初始WFST对齐网络,获取待检测语音信号对应的第一音素序列及边界信息,可包括:
根据待检测语音信号和预先训练好的声学模型,获得待检测语音信号对应的状态后验概率;
根据待检测语音信号对应的状态后验概率,获得待检测语音信号对应的声学分数;
基于待检测语音信号对应的声学分数和维特比算法,在初始WFST对齐网络中搜索最优路径,得到待检测语音信号对应的第一音素序列及边界信息。
一种可能的实施方式中,上述比较第一音素序列及第二音素序列的音素,确定第一音素序列中音素是否包含插入错误,可以包括:
若第二音素序列与第一音素序列的音素相同,则确定第一音素序列中不包含插入错误;
或者,若第二音素序列与第一音素序列的音素不同,则确定第一音素序列中包含的插入错误。
一种可能的实施方式中,上述确定第二音素序列中包含的插入错误,包括:
采用动态规划音素序列对齐算法,确定第二音素序列中与第一音素序列中音素不相同的音素;
根据第二音素序列中与第一音素序列中音素不相同的音素,确定插入错误。
第二方面,本申请提供一种发音插入错误检测装置,包括:
获取模块,用于根据发音文本和待检测语音信号,获取待检测语音信号对应的第一音素序列及边界信息,待检测语音信号是针对发音文本的语音信号;
构建模块,用于根据第一音素序列中静音音素及边界信息,对静音音素构建包含预设混淆音素的候选路径的WFST对齐网络,预设混淆音素包括非静音音素和多读音素串;
搜索模块,用于在WFST对齐网络中搜索待检测语音信号对应的第二音素序列;
比较模块,用于比较第一音素序列及第二音素序列的音素,确定第一音素序列中是否包含插入错误。
一种可能的实施方式中,搜索模块,具体用于:
基于待检测语音信号对应的声学分数和维特比算法,在WFST对齐网络中搜索最优路径,得到待检测语音信号对应的第二音素序列。
一种可能的实施方式中,获取模块包括:
构建单元,用于根据发音文本,构建初始WFST对齐网络,其中,初始WFST对齐网络表示发音文本对应的音素的可能路径状态图;
获取单元,用于根据待检测语音信号和初始WFST对齐网络,获取待检测语音信号对应的第一音素序列及边界信息。
一种可能的实施方式中,上述初始WFST对齐网络包含词间可选静音音素路径。
一种可能的实施方式中,获取单元,具体用于:
根据待检测语音信号和预先训练好的声学模型,获得待检测语音信号对应的状态后验概率;
根据待检测语音信号对应的状态后验概率,获得待检测语音信号对应的声学分数;
基于待检测语音信号对应的声学分数和维特比算法,在初始WFST对齐网络中搜索最优路径,得到待检测语音信号对应的第一音素序列及边界信息。
一种可能的实施方式中,比较模块,具体用于:
在第二音素序列与第一音素序列的音素相同时,确定第一音素序列中不包含插入错误;
或者,若第二音素序列与第一音素序列的音素不同时,确定第一音素序列中包含的插入错误。
一种可能的实施方式中,比较模块用于确定第二音素序列中包含的插入错误,具体为:
采用动态规划音素序列对齐算法,确定第二音素序列中与第一音素序列中音素不相同的音素;
根据第二音素序列中与第一音素序列中音素不相同的音素,确定插入错误。
第三方面,本申请提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行存储器中的程序指令,执行如第一方面中任一项所述的方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质上存储有程序指令;程序指令被执行时,实现如第一方面中任一项所述的方法。
本申请提供的发音插入错误检测方法、装置、电子设备及存储介质,该方法包括:根据发音文本和待检测语音信号,获取待检测语音信号对应的第一音素序列及边界信息,待检测语音信号是针对发音文本的语音信号;根据第一音素序列中静音音素及边界信息,对静音音素构建包含预设混淆音素的候选路径的WFST对齐网络,预设混淆音素包括非静音音素和多读音素串;在WFST对齐网络中搜索待检测语音信号对应的第二音素序列;比较第一音素序列及第二音素序列的音素,确定第一音素序列中是否包含插入错误。由于WFST对齐网络是对静音音素构建的包含预设混淆音素的候选路径的网络,其中,预设混淆音素包括非静音音素和多读音素串,因此,相比目前的插入错误检测方案只能检测单音素插入的情况,本申请中的预设混淆音素包含了多读音素串,还可以检测出多音素插入的情况,从而提升插入错误识别率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本申请一实施例提供的应用场景示例图;
图1b为本申请另一实施例提供的应用场景示例图;
图2为本申请一实施例提供的发音插入错误检测方法的流程图;
图3为本申请提供的WFST对齐网络的一示例图;
图4为本申请另一实施例提供的发音插入错误检测方法的流程图;
图5为本申请提供的初始WFST对齐网络的一示例图;
图6为本申请一实施例提供的发音插入错误检测装置的结构示意图;
图7为本申请另一实施例提供的发音插入错误检测装置的结构示意图;
图8为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例的说明书、权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前的插入错误检测方案,是在词之间添加插入路径,当待检测语音信号中插入一个音素时依概率进入插入路径,将插入部分识别为插入音素而非占用语音的上下文网络,从而实现发音插入错误的检测。发明人在使用该技术进行发音插入错误检测时,发现其仅针对单个音素的多读(重复读)进行检错,这样,对于多音素插入错误的情况就不能检测出来,因此至少存在多音素插入错误识别率较低的问题。
因此,基于上述发现,本申请提供一种发音插入错误检测方法、装置、电子设备及存储介质,通过对静音音素构建包含预设混淆音素的候选路径的WFST对齐网络,预设混淆音素包括非静音音素和多读音素串,来检测至少一个音素的插入错误,从而提升插入错误识别率。其中,混淆音素,是指相互之间易发音混淆的音素。
本方案能够用于包括但不限于语音评测领域中发音检错与诊断方向,例如,在线或离线语音评测系统,提供语言学习者发音中多读、重复读的错误检测,可以高效、准确地纠正发音插入错误。例如,以中文为母语的用户,学习英文,等等。
图1a为本申请一实施例提供的应用场景示例图。如图1a所示,服务器102用于执行本申请任一方法实施例所述的发音插入错误检测方法,服务器102与客户端101进行交互,获取发音文本和待检测语音信号,服务器102在执行完上述发音插入错误检测方法之后,输出发音是否包含插入的处理结果给客户端101,由客户端101通知给学习者。进一步地,客户端101提供正确的读音给学习者,以帮助其纠正发音。
在图1a中,客户端101以计算机为例说明,但本申请实施例不以此为限制,客户端101还可以是手机、学习机、可穿戴设备等。
或者,当具备一定算力时,客户端101也可以作为本申请任一方法实施例所述的发音插入错误检测方法的执行主体,如图1b所示例。在图1b中,学习者按住话筒,并读出发音文本对应的内容。这里以手机为例进行说明,但本申请不以此为限制。
以下结合具体的实施例,对本申请提供的发音插入错误检测方法进行解释说明。
图2为本申请一实施例提供的发音插入错误检测方法的流程图。该发音插入错误检测方法可以由发音插入错误检测装置执行,该发音插入错误检测装置可以通过软件和/或硬件的方式实现。实际应用中,该发音插入错误检测装置可以是服务器、电脑,手机,平板,个人数字助理(Personal Digital Assistant,简称:PDA),学习机或交互智能平板等具备一定算力的电子设备,或该电子设备的芯片或电路。
参考图2,本实施例提供的发音插入错误检测方法包括:
S201、根据发音文本和待检测语音信号,获取待检测语音信号对应的第一音素序列及边界信息。
其中,待检测语音信号是针对发音文本的语音信号。
在实际应用中,当学习者阅读一文本时,会产生该文本对应的语音信号。电子设备首先获取该语音信号,通过检测该语音信号,来确定该学习者的发音是否错误,并在学习者发音错误时给予指正或者提示正确发音。示例地,文本可以具体为至少一个词,甚至至少一个音素。其中,音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。这里的文本即本申请实施例所述的发音文本,语音信号即待检测语音信号。
以学习机为例,在学习者阅读学习机显示界面上的文本时,学习机通过麦克风等拾音设备采集语音信号以获取语音信号,此时对于发音文本,学习机也是已知的。例如,对于触摸一体的学习机,学习者在阅读的同时可以指向文本,这样安装在学习机上的传感器即可感知到文本所在的位置,进而确定文本包含的内容。
基于发音文本和待检测语音信号,对待检测语音信号进行分解,得到其中包含的音素及边界信息,由这些音素组成第一音素序列。也就是说,第一音素序列中包含的是待检测语音信号对应的音素。
S202、根据第一音素序列中静音音素及边界信息,对静音音素构建包含预设混淆音素的候选路径的WFST对齐网络。
其中,预设混淆音素包括非静音音素和多读音素串。具体地,非静音音素包括aa、ae、ah、ao、aw、ay、b、ch、d、dh、eh、er、ey、f、g、hh、ih、iy、jh、k、l、m、n、ng、ow、oy、p、r、s、sh、t、th、uh、uw、v、w、y、z和zh;多读音素串可以为较常见的多读音素串,例如,常见后缀ih ng(ing)和ah b ah l(able)等,由多个音素组成。对于第一音素序列中所包含的静音音素,将非静音音素和常见的多读音素串作为预设混淆音素,并将这些预设混淆音素作为候选路径,体现在WFST对齐网络中。
由于插入错误往往会被静音音素吸收,因此,该步骤对静音音素构建包含预设混淆音素的候选路径的WFST对齐网络。
以发音文本为“s w ih m”为例,在该发音文本末尾多读了音,被静音音素吸收,第一音素序列为“s w ih m sil”,对静音音素构建WFST对齐网络,如图3所示。假设易将冒号后边的音素读为冒号前边的音素,sil表示静音音素;水平路径是强制对齐网络路径,输出发音正确的音素序列;其他路径为包含预设混淆音素的候选路径,反映静音音素可能对应的多读音素。参考图3,静音音素“sil”对应的预设混淆音素为非静音音素,例如“iy”、“d”、“z”、“er”;以及常见的多读音素串,例如“ih ng”、“ih n”,其中,“*”代表其他未列出的非静音音素和多读音素串。
相比目前的插入错误检测方案只能检测单音素插入的情况,本实施例通过构建包含预设混淆音素的候选路径的WFST对齐网络,预设混淆音素包含了非静音音素和多读音素串,从而可以检测出多音素插入的情况。
S203、在WFST对齐网络中搜索待检测语音信号对应的第二音素序列。
由于WFST对齐网络包含有预设元素的候选路径,因此,重新在该WFST对齐网络中搜索待检测语音信号对应的第二音素序列。
本领域技术人员可以理解,该步骤为强制对齐步骤。通过强制对齐还原出实际音素,也就是第二音素序列。
S204、比较第一音素序列及第二音素序列的音素,确定第一音素序列中音素是否包含插入错误。
其中,第一音素序列为学习者发音音素,第二音素序列中音素为实际音素。通过逐一比较第一音素序列及第二音素序列中的音素,以第二音素序列中音素为基准,确定第一音素序列中音素是否包含插入错误,从而即可获得学习者多读的音素,实现了发音检错与诊断。
本申请实施例,根据发音文本和待检测语音信号,获取待检测语音信号对应的第一音素序列及边界信息,待检测语音信号是针对发音文本的语音信号;根据第一音素序列中静音音素及边界信息,对静音音素构建包含预设混淆音素的候选路径的WFST对齐网络,预设混淆音素包括非静音音素和多读音素串;在WFST对齐网络中搜索待检测语音信号对应的第二音素序列;比较第一音素序列及第二音素序列的音素,确定第一音素序列中是否包含插入错误。由于WFST对齐网络是对静音音素构建的包含预设混淆音素的候选路径的网络,其中,预设混淆音素包括非静音音素和多读音素串,因此,相比目前的插入错误检测方案只能检测单音素插入的情况,本申请中的预设混淆音素包含了多读音素串,还可以检测出多音素插入的情况,从而提升插入错误识别率。
作为一种可选方式,S204、比较第一音素序列及第二音素序列的音素,确定第一音素序列中音素是否包含插入错误,可以具体为:若第二音素序列与第一音素序列的音素相同,则确定第一音素序列中不包含插入错误,即学习者发音正确;或者,若第二音素序列与第一音素序列的音素不同,则确定第一音素序列中包含的插入错误,即学习者多读的音素,实现发音错误检测。
进一步地,确定第二音素序列中包含的插入错误,可以包括:采用动态规划音素序列对齐算法,确定第二音素序列中与第一音素序列中音素不相同的音素;根据第二音素序列中与第一音素序列中音素不相同的音素,确定插入错误。可以理解,不相同的音素即是学习者多读的音素,即插入错误。
需要说明的是,动态规划音素序列对齐算法不考虑删除错误,只考虑替换错误和插入错误,替换错误是替换静音音素,插入错误是在静音音素前插入音素或在静音音素后插入音素。
以图3为例,第一音素序列为“s w ih m sil”,其中,学习者实际发音为“s w ih mih ng”,经过S203和S204得到第二音素序列“s w ih m ih ng”,“sil”解码为“sil”的混淆音素“ih ng”,与第一音素序列对比,通过动态规划音素序列对齐算法,找出不同的音素“ihng”即是多读的音素。
在上述实施例的基础上,一种具体实现中,在WFST对齐网络中搜索待检测语音信号对应的第二音素序列,可以包括:基于待检测语音信号对应的声学分数和维特比算法,在WFST对齐网络中搜索最优路径,得到待检测语音信号对应的第二音素序列。由于每个静音音素上有预设混淆音素作为候选路径进行路径搜索,因此,最终输出带预设混淆音素的第二音素序列。
其中,声学分数是根据预先训练好的声学模型及待检测语音信号得到的。具体地,将待检测语音信号作为预先训练好的声学模型的输入,声学模型的输出即该待检测语音信号对应的声学分数。其中,声学分数的具体获取可参考后续实施例,此处不再赘述。
维特比算法,是机器学习中应用非常广泛的动态规划算法,用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释相关的动态规划算法。本申请利用维特比算法在WFST对齐网络中搜索最优路径,获得第二音素序列。
图4为本申请另一实施例提供的发音插入错误检测方法的流程图。参考图4,本实施例的发音插入错误检测方法,可以包括以下步骤:
S401、根据发音文本,构建初始WFST对齐网络。
其中,初始WFST对齐网络表示发音文本对应的音素的可能路径状态图。
进一步地,初始WFST对齐网络包含词间可选静音音素路径。其中,词间可选静音音素路径,真实反应了发音的停顿、咳嗽声等噪声的实际情况。示例地,图5示出一初始WFST对齐网络的示例图。如图5所示,a,b表示词,sil表示静音音素,可见,该初始WFST对齐网络包含词间可选静音音素路径。
同时参考图3和图5可知,对静音音素构建包含预设混淆音素的候选路径的WFST对齐网络((静音音素模型))与构建初始WFST对齐网络(非静音音素模型)有较大区别:非静音音素模型是表征特定读音的模型,而静音音素模型是表征语音信号停顿的模型,停顿体现为一段时间没有声音,或者外部杂音以及拟声词等等,最后会识别为静音。因此,静音音素模型的构建,一般有比非静音音素模型更多的状态表示,并且状态之间的转移也更复杂。因为静音音素模型与非静音音素模型的区别,不同时对静音与非静音构建混淆音素的候选路径。
S402、根据待检测语音信号和初始WFST对齐网络,获取待检测语音信号对应的第一音素序列及边界信息。
一些实施例中,该步骤可以具体为:根据待检测语音信号和预先训练好的声学模型,获得待检测语音信号对应的状态后验概率;根据待检测语音信号对应的状态后验概率,获得待检测语音信号对应的声学分数;基于待检测语音信号对应的声学分数和维特比算法,在初始WFST对齐网络中搜索最优路径,得到待检测语音信号对应的第一音素序列及边界信息。
其中,声学模型可以为DNN声学模型。将待检测语音信号逐帧输入DNN声学模型,输出逐帧对应的状态后验概率,经转换为声学分数,利用维特比算法搜索最优路径,得到第一音素序列及边界信息。维特比算法搜索路径的目的是在WFST对齐网络中搜索一条语音特征序列匹配的最优路径,学习者停顿等声音往往会被静音吸收,通过添加词间可选静音音素路径,反映了学习者的包含停顿、咳嗽声等声音的发音过程。
S403、根据第一音素序列中静音音素及边界信息,对静音音素构建包含预设混淆音素的候选路径的WFST对齐网络。
S404、在WFST对齐网络中搜索待检测语音信号对应的第二音素序列。
S405、比较第一音素序列及第二音素序列的音素,确定第一音素序列中音素是否包含插入错误。
其中,S401和S402是如图2所示流程中S201的进一步细化;S403至S405的相关描述可参考图2所示实施例中S202至S204的相关描述,此处不再赘述。
另外,S402可以理解为第一次强制对齐,S404为第二次强制对齐。第二次强制对齐保留了第一次强制对齐结果中的静音音素,反应了词发音的真实性。
该实施例基于二次构建WFST对齐网络及二次强制对齐进行插入错误检测,通过第一次包含词间可选静音音素路径的初始WFST对齐网络,保留了学习者发音过程信息,利用第二次构建的WFST对齐网络与第二次强制对齐还原出实际音素及边界信息;对比两个音素序列的差异达到插入错误检测的目的。
综上,通过本申请可以检测出学习者多读(重复读)的发音错误。之后,基于本申请的检错结果,可以进一步为学习者提供多读(重复读)部分的正确发音及提示。例如,对文本中多读(重复读)部分进行高亮/加粗标记等。
更进一步地,在比较第一音素序列及第二音素序列的音素,确定第一音素序列中音素是否包含插入错误之后,发音插入错误检测方法还可以包括:输出上述发音文本对应的正确读音。通过正确读音的输出,帮助学习者进行更好地学习。
以下为本申请装置实施例,可以用于执行本申请上述方法实施例。对于本申请装置实施例中未披露的细节,可参考本申请上述方法实施例。
图6为本申请一实施例提供的发音插入错误检测装置的结构示意图。该发音插入错误检测装置可以通过软件和/或硬件的方式实现。实际应用中,该发音插入错误检测装置可以是服务器、电脑,手机,平板,PDA或交互智能平板等具备一定算力的电子设备;或者,该发音插入错误检测装置可以是电子设备中的芯片或电路。
如图6所示,发音插入错误检测装置60包括:获取模块61、构建模块62、搜索模块63和比较模块64。其中:
获取模块61,用于根据发音文本和待检测语音信号,获取待检测语音信号对应的第一音素序列及边界信息。待检测语音信号是针对发音文本的语音信号。
构建模块62,用于根据第一音素序列中静音音素及边界信息,对静音音素构建包含预设音素的候选路径的WFST对齐网络。其中,预设音素包括非静音音素和多读音素串。
搜索模块63,用于在WFST对齐网络中搜索待检测语音信号对应的第二音素序列。
比较模块64,用于比较第一音素序列及第二音素序列的音素,确定第二音素序列中音素是否包含插入错误。
本申请实施例提供的发音插入错误检测装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
进一步地,搜索模块63可具体用于:基于待检测语音信号对应的声学分数和维特比算法,在WFST对齐网络中搜索最优路径,得到待检测语音信号对应的第二音素序列。
如图7所示,在图6所示结构的基础上,进一步地,在发音插入错误检测装置70中,获取模块61可以包括:
构建单元71,用于根据发音文本,构建初始WFST对齐网络。其中,初始WFST对齐网络表示发音文本对应的音素的可能路径状态图。
获取单元72,用于根据待检测语音信号和初始WFST对齐网络,获取待检测语音信号对应的第一音素序列及边界信息。
可选地,上述初始WFST对齐网络包含词间可选静音音素路径。
一些实施例中,获取单元72可具体用于:
根据待检测语音信号和预先训练好的声学模型,获得待检测语音信号对应的状态后验概率;
根据待检测语音信号对应的状态后验概率,获得待检测语音信号对应的声学分数;
基于待检测语音信号对应的声学分数和维特比算法,在初始WFST对齐网络中搜索最优路径,得到待检测语音信号对应的第一音素序列及边界信息。
在上述实施例中,比较模块64可以具体用于:在第二音素序列与第一音素序列的音素相同时,确定第一音素序列中不包含插入错误;或者,在第二音素序列与第一音素序列的音素不同时,确定第一音素序列中包含插入错误。
进一步地,比较模块64在确定第二音素序列中包含的插入错误时,具体用于:采用动态规划音素序列对齐算法,确定第二音素序列中与第一音素序列中音素不相同的音素;根据第二音素序列中与第一音素序列中音素不相同的音素,确定插入错误。
一些实施例中,发音插入错误检测装置还可以包括输出模块,用于输出发音文本对应的正确读音。通过正确读音的输出,帮助学习者进行更好地学习。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称:ASIC),或,一个或多个微处理器(Digital Signal Processor,简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称:FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称:CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-On-a-Chip,简称:SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。
图8为本申请一实施例提供的电子设备的结构示意图。该电子设备可以是计算机,服务器等。如图8所示:
电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)接口812,以及通信组件814。
处理组件802通常控制电子设备800的整体操作,诸如与数据通信和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如记录模式和语音识别模式时,麦克风被配置为接收外部音频信号,例如如上所述的待检测语音信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件814发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号,例如上述发音文本对应的正确读音等。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
通信组件814被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件814经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
本实施例的电子设备,可以用于执行上述方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有程序指令,该程序指令被执行时,实现如上述任一实施例所述发音插入错误检测方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种发音插入错误检测方法,其特征在于,包括:
根据发音文本和待检测语音信号,获取所述待检测语音信号对应的第一音素序列及边界信息,所述待检测语音信号是针对所述发音文本的语音信号;
根据所述第一音素序列中静音音素及边界信息,对所述静音音素构建包含预设混淆音素的候选路径的加权有限状态转移器WFST对齐网络,所述预设混淆音素包括非静音音素和多读音素串;
在所述WFST对齐网络中搜索所述待检测语音信号对应的第二音素序列;
比较所述第一音素序列及所述第二音素序列的音素,确定所述第一音素序列中是否包含插入错误。
2.根据权利要求1所述的方法,其特征在于,在所述WFST对齐网络中搜索所述待检测语音信号对应的第二音素序列,包括:
基于所述待检测语音信号对应的声学分数和维特比算法,在所述WFST对齐网络中搜索最优路径,得到所述待检测语音信号对应的第二音素序列。
3.根据权利要求1所述的方法,其特征在于,所述根据发音文本和待检测语音信号,获取所述待检测语音信号对应的第一音素序列及边界信息,包括:
根据所述发音文本,构建初始WFST对齐网络,其中,所述初始WFST对齐网络表示所述发音文本对应的音素的可能路径状态图;
根据所述待检测语音信号和所述初始WFST对齐网络,获取所述待检测语音信号对应的第一音素序列及边界信息。
4.根据权利要求3所述的方法,其特征在于,所述初始WFST对齐网络包含词间可选静音音素路径。
5.根据权利要求3所述的方法,其特征在于,所述根据所述待检测语音信号和所述初始WFST对齐网络,获取所述待检测语音信号对应的第一音素序列及边界信息,包括:
根据所述待检测语音信号和预先训练好的声学模型,获得所述待检测语音信号对应的状态后验概率;
根据所述待检测语音信号对应的状态后验概率,获得所述待检测语音信号对应的声学分数;
基于所述待检测语音信号对应的声学分数和维特比算法,在所述初始WFST对齐网络中搜索最优路径,得到所述待检测语音信号对应的第一音素序列及边界信息。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述比较所述第一音素序列及所述第二音素序列的音素,确定所述第一音素序列中是否包含插入错误,包括:
若所述第二音素序列与所述第一音素序列的音素相同,则确定所述第一音素序列中不包含插入错误;
或者,若所述第二音素序列与所述第一音素序列的音素不同,则确定所述第一音素序列中包含插入错误。
7.根据权利要求6所述的方法,其特征在于,确定所述第二音素序列中包含插入错误之后,还包括:
采用动态规划音素序列对齐算法,确定所述第二音素序列中与所述第一音素序列中音素不相同的音素。
8.一种发音插入错误检测装置,其特征在于,包括:
获取模块,用于根据发音文本和待检测语音信号,获取所述待检测语音信号对应的第一音素序列及边界信息,所述待检测语音信号是针对所述发音文本的语音信号;
构建模块,用于根据所述第一音素序列中静音音素及边界信息,对所述静音音素构建包含预设混淆音素的候选路径的加权有限状态转移器WFST对齐网络,所述预设混淆音素包括非静音音素和常见的多读音素串;
搜索模块,用于在所述WFST对齐网络中搜索所述待检测语音信号对应的第二音素序列;
比较模块,用于比较所述第一音素序列及所述第二音素序列的音素,确定所述第一音素序列中是否包含插入错误。
9.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序指令;所述程序指令被执行时,实现如权利要求1至7中任一项所述的方法。
CN202010789649.1A 2020-08-07 2020-08-07 发音插入错误检测方法、装置、电子设备及存储介质 Active CN111862958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010789649.1A CN111862958B (zh) 2020-08-07 2020-08-07 发音插入错误检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010789649.1A CN111862958B (zh) 2020-08-07 2020-08-07 发音插入错误检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111862958A true CN111862958A (zh) 2020-10-30
CN111862958B CN111862958B (zh) 2024-04-02

Family

ID=72972363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010789649.1A Active CN111862958B (zh) 2020-08-07 2020-08-07 发音插入错误检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111862958B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112542159A (zh) * 2020-12-01 2021-03-23 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法以及设备
CN115881097A (zh) * 2023-02-22 2023-03-31 深圳市友杰智新科技有限公司 误唤醒的识别方法、装置、计算机设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0028144D0 (en) * 2000-11-17 2001-01-03 Canon Kk Speech processing apparatus and method
JP2006243230A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 歌声評定装置およびプログラム
US20090150154A1 (en) * 2007-12-11 2009-06-11 Institute For Information Industry Method and system of generating and detecting confusing phones of pronunciation
JP2010139745A (ja) * 2008-12-11 2010-06-24 National Institute Of Information & Communication Technology 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN103971686A (zh) * 2013-01-30 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和系统
US20170263242A1 (en) * 2016-03-14 2017-09-14 Kabushiki Kaisha Toshiba Information processing device, information processing method, computer program product, and recognition system
CN107199572A (zh) * 2017-06-16 2017-09-26 山东大学 一种基于智能声源定位与语音控制的机器人系统及方法
WO2018077244A1 (en) * 2016-10-27 2018-05-03 The Chinese University Of Hong Kong Acoustic-graphemic model and acoustic-graphemic-phonemic model for computer-aided pronunciation training and speech processing
US20180254036A1 (en) * 2015-11-06 2018-09-06 Alibaba Group Holding Limited Speech recognition method and apparatus
CN111128181A (zh) * 2019-12-09 2020-05-08 科大讯飞股份有限公司 背诵题评测方法、装置以及设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0028144D0 (en) * 2000-11-17 2001-01-03 Canon Kk Speech processing apparatus and method
JP2006243230A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 歌声評定装置およびプログラム
US20090150154A1 (en) * 2007-12-11 2009-06-11 Institute For Information Industry Method and system of generating and detecting confusing phones of pronunciation
JP2010139745A (ja) * 2008-12-11 2010-06-24 National Institute Of Information & Communication Technology 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN103971686A (zh) * 2013-01-30 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和系统
US20180254036A1 (en) * 2015-11-06 2018-09-06 Alibaba Group Holding Limited Speech recognition method and apparatus
US20170263242A1 (en) * 2016-03-14 2017-09-14 Kabushiki Kaisha Toshiba Information processing device, information processing method, computer program product, and recognition system
WO2018077244A1 (en) * 2016-10-27 2018-05-03 The Chinese University Of Hong Kong Acoustic-graphemic model and acoustic-graphemic-phonemic model for computer-aided pronunciation training and speech processing
CN107199572A (zh) * 2017-06-16 2017-09-26 山东大学 一种基于智能声源定位与语音控制的机器人系统及方法
CN111128181A (zh) * 2019-12-09 2020-05-08 科大讯飞股份有限公司 背诵题评测方法、装置以及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"SILENT SPEECH RECOGNITION FROM ARTICULATORY MOVEMENTS USING DEEP NEURAL NETWORK" *
PETER PLANTINGA等: "TOWARDS REAL-TIME MISPRONUNCIATION DETECTION IN KIDS’ SPEECH", 《2019 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU)》 *
李超雷: "交互式语言学习系统中的发音质量客观评价方法研究", 《中国博士学位论文全文数据库 信息科技辑》, no. 10 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112542159A (zh) * 2020-12-01 2021-03-23 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法以及设备
CN112542159B (zh) * 2020-12-01 2024-04-09 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法以及设备
CN115881097A (zh) * 2023-02-22 2023-03-31 深圳市友杰智新科技有限公司 误唤醒的识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111862958B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
US10957312B2 (en) Scalable dynamic class language modeling
CN106098060B (zh) 语音的纠错处理方法和装置、用于语音的纠错处理的装置
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
US20200183648A1 (en) Voice Enabling Applications
US8401852B2 (en) Utilizing features generated from phonic units in speech recognition
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
US20160267902A1 (en) Speech recognition using a foreign word grammar
US11562743B2 (en) Analysis of an automatically generated transcription
EP3948849A1 (en) Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
Hu et al. Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
CN111862958B (zh) 发音插入错误检测方法、装置、电子设备及存储介质
JP2013109061A (ja) 音声データ検索システムおよびそのためのプログラム
WO2021034395A1 (en) Data-driven and rule-based speech recognition output enhancement
CN111862959B (zh) 发音错误检测方法、装置、电子设备及存储介质
CN111862960B (zh) 发音错误检测方法、装置、电子设备及存储介质
KR20200140171A (ko) 전자 장치 및 이의 제어 방법
JP2003162524A (ja) 言語処理装置
CN115116442B (zh) 语音交互方法和电子设备
Vertanen Efficient computer interfaces using continuous gestures, language models, and speech
CN116362249A (zh) 实体识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant