CN115331662A - 一种篇章背诵质量评测方法、装置、电子设备及存储介质 - Google Patents

一种篇章背诵质量评测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115331662A
CN115331662A CN202110507942.9A CN202110507942A CN115331662A CN 115331662 A CN115331662 A CN 115331662A CN 202110507942 A CN202110507942 A CN 202110507942A CN 115331662 A CN115331662 A CN 115331662A
Authority
CN
China
Prior art keywords
recitation
audio
sentence
text sequence
reciting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110507942.9A
Other languages
English (en)
Inventor
叶珑
雷延强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd, Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN202110507942.9A priority Critical patent/CN115331662A/zh
Publication of CN115331662A publication Critical patent/CN115331662A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本申请实施例公开了一种篇章背诵质量评测方法、装置、电子设备及存储介质。本申请实施例提供的技术方案,通过将背诵音频输入预先构建的句子并联解码网络,基于句子并联解码网络确定背诵音频中的边界信息;基于边界信息将背诵音频切分为多个音频段,确定各个音频段与背诵文本各个句子的对应关系;基于对应关系将各个音频段输入对应的容错对齐网络,解码得到对应的目标文本序列;提取对应背诵文本各个句子的参考文本序列,逐个将目标文本序列与参考文本序列进行比较,输出相应的背诵质量评测结果。采用上述技术手段,可以精准检测背诵音频中对应各个句子的边界位置,提升背诵音频检测的精准度,进而提升篇章背诵质量的评测精度。

Description

一种篇章背诵质量评测方法、装置、电子设备及存储介质
技术领域
本申请实施例涉及智能教育技术领域,尤其涉及一种篇章背诵质量评测方法、装置、电子设备及存储介质。
背景技术
在语言学习实践中,篇章背诵是较为重要且行之有效的一种学习方法。通过篇章背诵,学生不仅可以积累大量的词汇、短语和句型,还可以在口语表达上更加得心应手,培养更丰富的语感和表达逻辑。
目前,在进行篇章背诵过程中,为了提升学习效率及背诵质量,会使用口语朗读错误分析技术来辅助分析评测篇章背诵质量。口语朗读错误分析技术是计算机辅助语言学习的一个细分方向,口语朗读错误分析技术要求高效准确地指出学习者朗读中存在的替换、停顿、遗漏、插入等错误及其错误位置,帮助学习者纠正发音错误,优化语言学习效果。
但是,在进行篇章背诵质量评测时,对于文本篇幅较长的情况,学习者容易出现整句漏读等背诵不流利、不完整的现象。而传统的口语朗读错误分析技术难以精准检测背诵音频中每个句子的边界,对于漏读句子存在疏漏检测的情况,进而影响整个背诵质量评测结果。
发明内容
本申请实施例提供一种篇章背诵质量评测方法、装置、电子设备及存储介质,能够精准检测背诵音频中对应各个句子的边界位置,提升篇章背诵质量的评测精度。
在第一方面,本申请实施例提供了一种篇章背诵质量评测方法,包括:
将背诵音频输入预先构建的句子并联解码网络,基于句子并联解码网络确定所述背诵音频中的边界信息,所述边界信息与背诵文本句子间的边界对应;
基于所述边界信息将所述背诵音频切分为多个音频段,确定各个音频段与所述背诵文本各个句子的对应关系;
基于对应句子的参考文本序列构建容错对齐网络,基于所述对应关系将各个所述音频段输入对应的所述容错对齐网络,解码得到对应的目标文本序列,所述目标文本序列用于标识对应的所述音频段的实际背诵检测结果;
提取对应所述背诵文本各个句子的参考文本序列,所述参考文本序列用于标识对应句子的标准背诵检测结果,逐个将所述目标文本序列与所述参考文本序列进行比较,输出相应的背诵质量评测结果。
在第二方面,本申请实施例提供了一种篇章背诵质量评测装置,包括:
边界确定模块,将背诵音频输入预先构建的句子并联解码网络,基于句子并联解码网络确定所述背诵音频中的边界信息,所述边界信息与背诵文本句子间的边界对应;
切分模块,用于基于所述边界信息将所述背诵音频切分为多个音频段,确定各个音频段与所述背诵文本各个句子的对应关系;
解码模块,用于基于对应句子的参考文本序列构建容错对齐网络,基于所述对应关系将各个所述音频段输入对应的所述容错对齐网络,解码得到对应的目标文本序列,所述目标文本序列用于标识对应的所述音频段的实际背诵检测结果;
输出模块,用于提取对应所述背诵文本各个句子的参考文本序列,所述参考文本序列用于标识对应句子的标准背诵检测结果,逐个将所述目标文本序列与所述参考文本序列进行比较,输出相应的背诵质量评测结果。
在第三方面,本申请实施例提供了一种电子设备,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的篇章背诵质量评测方法。
在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的篇章背诵质量评测方法。
本申请实施例通过将背诵音频输入预先构建的句子并联解码网络,基于句子并联解码网络确定背诵音频中的边界信息,边界信息与背诵文本句子间的边界对应;基于边界信息将背诵音频切分为多个音频段,确定各个音频段与背诵文本各个句子的对应关系;基于对应句子的参考文本序列构建容错对齐网络,基于对应关系将各个音频段输入对应的容错对齐网络,解码得到对应的目标文本序列,目标文本序列用于标识对应的音频段的实际背诵检测结果;提取对应背诵文本各个句子的参考文本序列,参考文本序列用于标识对应句子的标准背诵检测结果,逐个将目标文本序列与参考文本序列进行比较,输出相应的背诵质量评测结果。采用上述技术手段,通过句子并联解码网络可以精准检测背诵音频中对应各个句子的边界位置,避免整句漏读的疏漏检测情况,提升背诵音频检测的精准度,进而提升篇章背诵质量的评测精度。
并且,本申请实施例通过容错对齐网络精准检测对应每个句子中漏读单词、重复发音、混淆发音等情况,可以进一步提升篇章背诵质量的评测精度。
附图说明
图1是本申请实施例一提供的一种篇章背诵质量评测方法的流程图;
图2是本申请实施例一中的基于句子并联解码网络的边界信息确定流程图;
图3是本申请实施例一中的对应并联结构确定边界信息的流程图;
图4是本申请实施例一中的句子并联解码网络示意图;
图5是本申请实施例一中的垃圾状态路径和混淆音路径的添加示意图;
图6是本申请实施例一中的音频段解码流程图;
图7是本申请实施例一中的目标文本序列与参考文本序列的比对示意图;
图8是本申请实施例二提供的一种篇章背诵质量评测装置的结构示意图;
图9是本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请提供的一种篇章背诵质量评测方法,旨在通过句子并联解码网络实现背诵音频边界位置的精准定位,进而避免整句漏读而导致疏漏检测的情况,提升篇章背诵质量的评测精度。并进一步通过容错对齐网络实现对应每个句子的音频段的精准检测,避免句子中漏读单词等情况的疏漏检测,进一步提升篇章背诵质量的评测精度。相对于传统的口语朗读错误分析技术,其在进行篇章背诵评测时,虽然可以对句子中发音错误的情况进行检测,但是对整句漏读的情况却无法精准检测到,容易影响整个背诵质量的评测结果。此外,对应每个句子的背诵质量检测,无法精确到各个单词进行检测,对发音替换、漏读、重复、停顿和错读情况缺乏精准的检测手段,基于此,提供本申请实施例的一种篇章背诵质量评测方法,以解决现有篇章背诵质量评测技术中,对整句漏读情况的疏漏检测问题。
实施例一:
图1给出了本申请实施例一提供的一种篇章背诵质量评测方法的流程图,本实施例中提供的篇章背诵质量评测方法可以由篇章背诵质量评测设备执行,该篇章背诵质量评测设备可以通过软件和/或硬件的方式实现,该篇章背诵质量评测设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。一般而言,该篇章背诵质量评测设备可以是电脑、手机、平板电脑、学习机等终端设备。
下述以该篇章背诵质量评测设备为执行篇章背诵质量评测方法的主体为例,进行描述。参照图1,该篇章背诵质量评测方法具体包括:
S110、将背诵音频输入预先构建的句子并联解码网络,基于句子并联解码网络确定所述背诵音频中的边界信息,所述边界信息与背诵文本句子间的边界对应。
示例性的,在篇章背诵质量评测场景中,背诵者基于背诵文本进行篇章背诵,背诵过程中实时采集背诵者的背诵音频。进而基于本申请实施例的篇章背诵质量评测设备对背诵音频进行背诵质量评测,输出对应的背诵质量评测结果。基于该背诵质量评测结果,即可直观、准确地反映背诵者对该背诵文本的篇章背诵质量。
本申请实施例在进行篇章背诵质量评测时,通过确定背诵音频中的边界信息,以便于对背诵音频进行切分,进而对应切分后的音频段逐个进行语音解码比对,以逐个确定背诵质量。可以理解的是,每一个音频段应当与背诵文本中对应的句子对应,表示该句子的实际背诵发音情况。
其中,在确定背诵音频的边界信息时,使用基于WFST(Weighted Finite-StateTransducers,加权有限状态转移器)的句子并联解码网络对背诵音频中对应各个句子的边界位置进行检测识别。可以理解的是,由于背诵音频与背诵文本对应。而在背诵文本中,各个句子之间必然是存在边界的。因此,在背诵音频中,自然会存在与该句子间边界对应的边界信息,通过确定该边界信息,即可将背诵音频切分成对应各个句子的音频段,以便于基于音频段进行背诵音频的背诵质量评测。
具体的,参照图2,本申请实施例基于句子并联解码网络的边界信息确定流程包括:
S1101、基于句子并联解码网络确定所述背诵文本中各个句子的分隔符,构建句子间的并联结构;
S1102、在所述并联结构中添加静音路径,并在所述并联结构的首尾状态添加静音自旋路径,所述静音路径用于检测漏读句子,所述静音自旋路径用于检测句子首尾状态的静音、背景声、拟声和语气词;
S1103、对应所述并联结构解码所述背诵音频,确定所述背诵音频中的边界信息
本申请实施例在使用句子并联解码网络检测背诵音频的边界信息时,首先通过句子并联解码网络将背诵文本拆分成多个句子,构建句子间的并联结构。不同于传统的在句子间采用串联结构进行识别检测的方式,本申请实施例通过对应背诵文本构建句子间的并联结构,可以基于并联结构检测各个句子对应的音频段。各个句子对应的音频段采用并联的方式进行检测,因此可以检测句子整句漏读的情况,改善音频段与对应句子的对齐结果。
其中,由于长篇章背诵文本中的句子都是以句号、问号或者感叹号等作为句子间分隔符,则本申请实施例对应背诵文本检测上述分隔符,基于分隔符确定背诵文本中各个句子的边界位置,进而将背诵文本拆分成多个句子,对应这些句子构建并联结构。
进一步的,本申请实施例通过在并联结构的首尾状态添加静音自旋路径,并在并联结构中添加与句子并联的静音路径。其中,静音路径用来吸收跳读整句话的情况。静音自旋路径可以检测背诵音频中对应一个句子开头和结尾的静音、外部杂音、拟声词以及下意识发出的“oh”、“um”等语气助词。另一方面,需要说明的是,静音自旋路径的实质为用于识别上述静音、背景声、拟声和语气词的识别模型,其通过对应静音、背景声、拟声和语气词进行预先训练,以实现对静音、背景声、拟声和语气词的检测。后续基于输入模型的背诵音频,即可通过检测识别标识出上述静音、背景声、拟声和语气词的位置。通过静音路径和静音自旋路径可以精准检测识别背诵音频,以便于后续背诵音频边界信息的精准确定。
进一步的,基于上述句子并联解码网络,即可对应解码结构对背诵音频进行解码,确定背诵音频中的边界信息。
参照图3,本申请实施例对应并联结构确定边界信息的流程包括:
S11031、基于DNN声学模型确定所述背诵音频中每帧音频帧的第二后验概率分数;
S11032、根据所述第二后验概率分数,并对应所述并联结构使用维特比算法搜索每帧所述音频帧的最优路径,确定对应背诵文本各个句子边界的所述音频帧,作为所述背诵音频中的边界信息。
其中,本申请实施例在句子并联解码网络中,通过DNN(深度神经网络)声学模型对背诵音频进行解码。基于DNN声学模型给出的每一帧语音的后验概率分数,利用维特比算法在并联解码网络中搜索最优路径,获得句子级别的边界信息。
在解码背诵音频时,依序确定背诵音频中每一帧音频帧的后验概率分数(即该第二后验概率分数)。可以理解的是,对应每一个音频帧,通过DNN声学模型进行语音识别解码,可以得到该音频帧对应为某个音素的后验概率分数。则基于该音频帧对应各个可能的音素的后验概率分数,通过维特比算法搜索该音频帧的最优路径,作为该音频帧的语音解码结果。
进一步的,通过连续多帧音频帧的后验概率分数搜索最优路径,确定其语音解码结果。基于连续多帧音频帧的语音解码确定的音素序列,将其与背诵文本中各个句子对应音素序列进行比对,即可确定该连续多帧音频帧与对应句子对应。则对应句子边界处音素的音频帧,应当与该句子的边界对应,即该边界信息。
参照上述方式依序语音解码背诵音频,对应并联结构的各个句子,将背诵音频的语音解码结果与各个句子比对,即可确定背诵音频中的边界信息。
需要说明的是,基于背诵音频进行语音解码确定其音频帧后验概率分数,并根据维特比算法搜索最优路径,确定音频帧所对应解码结果的方式有很多,本申请实施例对算法的具体实施方式不做固定限制,在此不多赘述。
示例性的,参照图4,提供本申请实施例的句子并联解码网络示意图。图4中,对应背诵文本中的两条句子为“what day is it?”以及“I want to read books.”的两条句子在句子并联解码网络中为并联结构。在并联结构的首尾状态上,对应设置了静音自旋路径,静音自旋路径用于检测首尾状态静音标签“SIL”。在并联结构中设置静音路径,静音路径用于检测整句漏读的静音标签“SIL”。当进行边界信息检测时,基于该句子并联解码网络提供的句子间的并联结构,对应识别该背诵音频,通过在并联解码网络中,基于DNN声学模型给出的每一帧语音的后验概率分数,利用维特比算法在并联解码网络中搜索最优路径,获得句子级别的边界信息。
S120、基于所述边界信息将所述背诵音频切分为多个音频段,确定各个音频段与所述背诵文本各个句子的对应关系。
进一步的,在确定背诵音频的各个边界信息之后,本申请实施例对应各个边界信息切分背诵音频,得到相应的多个音频段。可以理解的是,各个音频段与背诵文本中的各个句子对应。基于已确定的音频段进行语音识别与错误检测,可以实现本申请句子级别的篇章背诵评测,确定背诵文本中每一个句子的背诵质量。
可以理解的是,每一个边界信息与背诵文本中的句子边界对应,那么,按照边界信息对应音频帧的时间戳,即可依序逐个确定边界信息所对应背诵文本中的句子边界位置,进而确定对应音频段所对应的背诵文本中的句子,确定各个音频段与所述背诵文本各个句子的对应关系。
S130、基于对应句子的参考文本序列构建容错对齐网络,基于所述对应关系将各个所述音频段输入对应的所述容错对齐网络,解码得到对应的目标文本序列,所述目标文本序列用于标识对应的所述音频段的实际背诵检测结果。
基于上述完成对齐确定对应关系的音频段与句子,本申请实施例基于背诵文本中的各个句子语音解码各个对应的音频段,确定各个音频段的语音结解码果,即目标文本序列。背诵文本的各个句子为参考文本序列,基于该参考文本序列比对识别到的目标文本序列,即可确定该句子的背诵质量。
需要说明的是,由于后续需要将目标文本序列与参考文本序列比较,在进行比较时,需要逐个序列标签进行比较。因此,需要将对应音频段与参考文本构建的容错网络进行强制对齐,最终得到的对应音频段的语音识别结果(即该目标文本序列),其包含的序列标签应当与参考文本序列的标签的差异程度进行量测,以此可以便于确定目标文本序列上替换、漏读、重复、停顿和/或错读的位置,实现更为精准的篇章背诵质量评测。
具体的,本申请实施例基于参考文本序列构建容错对齐网络,使用容错对齐网络将各个音频段与对应句子强制对齐,通过容错对齐网络解码得到对应的目标文本序列。其中,在基于对应句子的参考文本序列构建容错对齐网络时,在所述参考文本序列中的对应位置添加可选的垃圾状态路径和混淆音路径,构建对应的容错对齐网络,所述垃圾状态路径包含背景声、静音和拟声的序列标签,所述混淆音路径包含对应的混淆词标签。
由于文本已知,可以使用强制对齐技术对音频段进行语音解码。强制对齐使语音对齐到背诵文本对应句子的每个音素,并给出各音素的起止时间。其中,使用容错对齐网络对音频段进行强制对齐。在一般对齐网络中,音频段标准发音的语音解码结果一般由背诵文本对应句子的参考文本序列进行描述,但在实际篇章背诵评测中,朗读者往往在朗读的同时,加入一些不可预知的错误发音,或因为不认识某单词而用错误的发音代替,还存在漏掉一个或多个单词的情况。为了匹配这些发音现象,需要用更复杂的网络结构描述。
本申请实施例使用容错对齐网络来描述这些发音现象。参照图5,容错对齐网络中有可选的垃圾状态路径,垃圾状态路径是用背景声、静音、以及拟声音频训练得到的。其中,垃圾状态可到达其他状态,其他状态也可以到达垃圾状态。以此可以构建对应发音的正常读单词、跳读单词、重复读单词和停顿的可能路径。此外容错对齐网络还包括可选的混淆音路径,该混淆音路径记录了背诵文本中各个句子对应单词的混淆音单词,每个单词的混淆音单词可以人为设置,也可以通过语音解码技术统计识别结果与原始单词的混淆程度得到。举例而言,单词“park”的混淆音单词为“bark”、“par”、“puck”;单词“watermelon”混淆音单词为单词串“watermain land”,把“water_main_land”记录为一个单词,作为“watermelon”的混淆音单词。
通过上述垃圾状态路径和混淆音路径即可对应背景声、静音、拟声以及混淆音进行检测,后续在使用容错对齐网络进行语音解码时,为提供语音解码过程中可选的解码路径,进而提升语音解码的准确度,优化语音解码结果。
进一步的,参照图6,本申请实施例解码音频段的流程包括:
S1301、将所述音频段输入预先训练的声学模型,计算对应所述音频段的第一后验概率分数;
S1302、基于所述音频段的第一后验概率分数,根据维特比算法在所述容错对齐网络中搜索最优路径,作为所述音频段的目标文本序列。
可以理解的是,基于该容错对齐网络的垃圾状态路径和混淆音路径,即可确定对应音频段语音解码过程中实现垃圾状态和混淆音识别,确定对应垃圾状态和混淆音的可选路径。其中,在确定垃圾状态和混淆音的可选路径时,以对应句子的参考文本序列作为基础文本序列,在所述参考文本序列中的对应位置添加或替换垃圾状态路径和混淆音路径,所述垃圾状态路径包含背景声、静音和拟声的序列标签,所述混淆音路径包含对应的混淆词标签。可以理解的是,通过可选垃圾状态路径和混淆音路径,可以基于参考文本序列设置跳读单词、重复读单词、停顿和混淆读单词等发音情况的序列标签。
具体的,对音频帧进行语音解码时,通过事先训练好的声学模型,计算音频段中各个音素对应的序列标签的后验概率分数(即第一后验概率分数),进而使用维特比算法在具有垃圾状态路径和混淆音路径可选路径的容错对齐网络中搜索最优路径,确定该音频段各个音素最终所对应的序列标签,这些序列标签即为该音频段所对应的目标文本序列。
需要说明的是,针对每个独立的音频段,将其输入具有混淆音识别模型和垃圾状态识别模型的容错对齐网络中,容错对齐网络可以通过混淆音识别模型对音频段中的混淆音发音情况进行识别。同理,垃圾状态识别模型可以对音频段中跳读单词、重复读单词和停顿等发音情况进行识别,以此确定音频段可选的垃圾状态路径和混淆音路径。在此之前,混淆音识别模型和垃圾状态识别模型分别对应混淆音和跳读单词、重复读单词和停顿等发音进行训练,以实现对音频段中的混淆发音、跳读单词、重复读单词和停顿等发音情况进行识别。
进一步的,通过语音解码得到每一个音频段的后验概率分数(即第一后验概率分数)后,同样的,利用维特比算法搜索最优路径,得到该音频段的目标文本序列。可以理解的是,通过语音解码得到每一个音频段对应音素序列中各个音素对应序列标签的后验概率分数,基于各个音素对应序列标签的后验概率分数即可通过维特比路径搜索确定最终的目标文本序列。
S140、提取对应所述背诵文本各个句子的参考文本序列,所述参考文本序列用于标识对应句子的标准背诵检测结果,逐个将所述目标文本序列与所述参考文本序列进行比较,输出相应的背诵质量评测结果。
最终,根据各个音频段识别得到的目标文本序列,将目标文本序列与该音频段对应句子的参考文本序列进行比较,即可通过两个文本序列之间的差异进行背诵质量评测。可以理解的是,目标文本序列标识了对应音频段的实际背诵检测结果,其记录了对应句子实际发音过程中各个音素的序列标签。而参考文本序列标识了对应句子的标准背诵检测结果,其记录了对应句子标准发音过程中各个音素的序列标签。则通过序列标签的比对,即可确定两个文本序列之间的差异,得到相应的背诵质量评测结果。
具体的,本申请实施例在逐个将所述目标文本序列与所述参考文本序列进行比较,输出相应的背诵质量评测结果,包括:
对齐所述目标文本序列与所述参考文本序列的各个序列标签,检测对应的替换、漏读、重复、停顿和/或错读位置,输出相应的背诵质量评测结果。
通过将两个文本序列对应序列标签进行对齐,进而逐一比对每一组序列标签,检测是否存在替换、漏读、重复、停顿或错读的情况,进而确定目标文本序列中替换、漏读、重复、停顿和/或错读位置,通过标记这些位置,将这些错误情况作为背诵质量评测结果输出,以此完成本申请实施例的篇章背诵质量评测流程。
示例性的,参照图7,对应句子“i like the park”进行背诵的音频段,通过上述步骤S110-S130识别得到其音频段的目标文本序列“i i,likes bark”,将目标文本序列与该句子参考文本序列对齐后进行比对,如图7所示,逐一确定各个序列标签上存在的正确、替换、漏读、重复、停顿和/或错读的位置,进而将各个序列标签的发音情况进行标识后,作为背诵质量评测结果输出显示。此时评测这基于输出显示的背诵质量评测结果,即可获知当前对应音频段的背诵质量情况,并确定相应的发音错误位置。同样的,对每一个音频段均参照上述方式确定背诵质量评测结果并输出显示,以此,评测者即可确定当前整个背诵文本的篇章背诵质量。
在一个实施例中,篇章背诵质量评测设备在逐个将所述目标文本序列与所述参考文本序列进行比较,输出相应的背诵质量评测结果,还包括:
对齐所述目标文本序列与所述参考文本序列的各个序列标签,计算所述目标文本序列与所述参考文本序列的编辑距离,根据所述编辑距离输出相应的背诵质量评测结果。
具体的,如图7所示,通过将目标文本序列与该句子参考文本序列对齐后进行比对,逐一确定各个序列标签上存在的正确、替换、漏读、重复、停顿和/或错读的位置,对应一个替换、漏读、重复、停顿和/或错读的位置,记为1个单位的编辑距离。以此即可得到目标文本序列与该句子参考文本序列之间的编辑距离。可以理解的是,编辑距离描述了目标文本序列与该句子参考文本序列之间的差异程度,即当前该句子的背诵发音与标准发音的差异程度。编辑距离越大,表示当前该句子的背诵发音与标准发音的差异程度越大。编辑距离为0时,表示当前该句子的背诵发音与标准发音相同,其背诵质量最优。
进一步的,参照上述方式,对应背诵文本的各个句子,通过统计音频段的目标文本序列与对应句子的参考文本序列之间的编辑距离,即可得到整个背诵音频与背诵文本标准发音的编辑距离,将该编辑距离作为量化当前背诵文本的篇章背诵质量评测结果。基于该编辑距离即可直观地确定当前背诵者的背诵质量,完成篇章背诵评测结果。
可选的,基于统计到的整个背诵音频与背诵文本标准发音的编辑距离,将其归一化为1-100的分数。可以理解的是,编辑距离越大,篇章背诵质量评分越低,标识篇章背诵质量越差。反之,编辑距离越小,篇章背诵质量评分越高,标识篇章背诵质量越优。将这一分数输出给评测者,以此可以更为直观地反映当前背诵音频的篇章背诵质量评分。
上述,通过将背诵音频输入预先构建的句子并联解码网络,基于句子并联解码网络确定背诵音频中的边界信息,边界信息与背诵文本句子间的边界对应;基于边界信息将背诵音频切分为多个音频段,确定各个音频段与背诵文本各个句子的对应关系;基于对应句子的参考文本序列构建容错对齐网络,基于对应关系将各个音频段输入对应的容错对齐网络,解码得到对应的目标文本序列,目标文本序列用于标识对应的音频段的实际背诵检测结果;提取对应背诵文本各个句子的参考文本序列,参考文本序列用于标识对应句子的标准背诵检测结果,逐个将目标文本序列与参考文本序列进行比较,输出相应的背诵质量评测结果。采用上述技术手段,通过句子并联解码网络可以精准检测背诵音频中对应各个句子的边界位置,避免整句漏读的疏漏检测情况,提升背诵音频检测的精准度,进而提升篇章背诵质量的评测精度。
并且,本申请实施例通过容错对齐网络精准检测对应每个句子中漏读单词、重复发音、混淆发音等情况,可以进一步提升篇章背诵质量的评测精度。
实施例二:
在上述实施例的基础上,图8为本申请实施例二提供的一种篇章背诵质量评测装置的结构示意图。参考图8,本实施例提供的篇章背诵质量评测装置具体包括:边界确定模块21、切分模块22、解码模块23和输出模块24。
边界确定模块21将背诵音频输入预先构建的句子并联解码网络,基于句子并联解码网络确定所述背诵音频中的边界信息,所述边界信息与背诵文本句子间的边界对应;
切分模块22用于基于所述边界信息将所述背诵音频切分为多个音频段,确定各个音频段与所述背诵文本各个句子的对应关系;
解码模块23用于基于对应句子的参考文本序列构建容错对齐网络,基于所述对应关系将各个所述音频段输入对应的所述容错对齐网络,解码得到对应的目标文本序列,所述目标文本序列用于标识对应的所述音频段的实际背诵检测结果;
输出模块24用于提取对应所述背诵文本各个句子的参考文本序列,所述参考文本序列用于标识对应句子的标准背诵检测结果,逐个将所述目标文本序列与所述参考文本序列进行比较,输出相应的背诵质量评测结果。
具体的,解码模块23包括:
构建单元,用于在所述参考文本序列中的对应位置添加可选的垃圾状态路径和混淆音路径,构建对应的容错对齐网络,所述垃圾状态路径包含背景声、静音和拟声的序列标签,所述混淆音路径包含对应的混淆词标签;
识别单元,用于将所述音频段输入预先训练的DNN声学模型,计算对应所述音频段的第一后验概率分数;
搜索单元,用于基于所述音频段的第一后验概率分数,根据维特比算法在所述容错对齐网络中搜索最优路径,作为所述音频段的目标文本序列。
具体的,边界确定模块21包括:
并联单元,用于基于句子并联解码网络确定所述背诵文本中各个句子的分隔符,构建句子间的并联结构;
添加单元,用于在所述并联结构中添加静音路径,并在所述并联结构的首尾状态添加静音自旋路径,所述静音路径用于检测漏读句子,所述静音自旋路径用于检测句子首尾状态的静音、背景声、拟声和语气词;
确定单元,用于对应所述并联结构解码所述背诵音频,确定所述背诵音频中的边界信息。
具体的,确定单元包括:
基于DNN声学模型确定所述背诵音频中每帧音频帧的第二后验概率分数;
根据所述第二后验概率分数,并对应所述并联结构使用维特比算法搜索每帧所述音频帧的最优路径,确定对应背诵文本各个句子边界的所述音频帧,作为所述背诵音频中的边界信息。
具体的,输出模块24包括:
对齐所述目标文本序列与所述参考文本序列的各个序列标签,检测对应的替换、漏读、重复、停顿和/或错读位置,输出相应的背诵质量评测结果。
可选的,输出模块24还包括:
对齐所述目标文本序列与所述参考文本序列的各个序列标签,计算所述目标文本序列与所述参考文本序列的编辑距离,根据所述编辑距离输出相应的背诵质量评测结果。
上述,通过将背诵音频输入预先构建的句子并联解码网络,基于句子并联解码网络确定背诵音频中的边界信息,边界信息与背诵文本句子间的边界对应;基于边界信息将背诵音频切分为多个音频段,确定各个音频段与背诵文本各个句子的对应关系;基于对应句子的参考文本序列构建容错对齐网络,基于对应关系将各个音频段输入对应的容错对齐网络,解码得到对应的目标文本序列,目标文本序列用于标识对应的音频段的实际背诵检测结果;提取对应背诵文本各个句子的参考文本序列,参考文本序列用于标识对应句子的标准背诵检测结果,逐个将目标文本序列与参考文本序列进行比较,输出相应的背诵质量评测结果。采用上述技术手段,通过句子并联解码网络可以精准检测背诵音频中对应各个句子的边界位置,避免整句漏读的疏漏检测情况,提升背诵音频检测的精准度,进而提升篇章背诵质量的评测精度。
并且,本申请实施例通过容错对齐网络精准检测对应每个句子中漏读单词、重复发音、混淆发音等情况,可以进一步提升篇章背诵质量的评测精度。
本申请实施例二提供的篇章背诵质量评测装置可以用于执行上述实施例一提供的篇章背诵质量评测方法,具备相应的功能和有益效果。
实施例三:
本申请实施例三提供了一种电子设备,参照图9,该电子设备包括:处理器31、存储器32、通信模块33、输入装置34及输出装置35。该电子设备中处理器31的数量可以是一个或者多个,该电子设备中的存储器32的数量可以是一个或者多个。该电子设备的处理器31、存储器32、通信模块33、输入装置34及输出装置35可以通过总线或者其他方式连接。
存储器作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的篇章背诵质量评测方法对应的程序指令/模块(例如,篇章背诵质量评测装置中的边界确定模块、对齐模块、识别模块和输出模块)。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块用于进行数据传输。
处理器通过运行存储在存储器中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的篇章背诵质量评测方法。
输入装置可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置可包括显示屏等显示设备。
上述提供的电子设备可用于执行上述实施例一提供的篇章背诵质量评测方法,具备相应的功能和有益效果。
实施例四:
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种篇章背诵质量评测方法,该篇章背诵质量评测方法包括:将背诵音频输入预先构建的句子并联解码网络,基于句子并联解码网络确定所述背诵音频中的边界信息,所述边界信息与背诵文本句子间的边界对应;基于所述边界信息将所述背诵音频切分为多个音频段,确定各个音频段与所述背诵文本各个句子的对应关系;基于对应句子的参考文本序列构建容错对齐网络,基于所述对应关系将各个所述音频段输入对应的所述容错对齐网络,解码得到对应的目标文本序列,所述目标文本序列用于标识对应的所述音频段的实际背诵检测结果;提取对应所述背诵文本各个句子的参考文本序列,所述参考文本序列用于标识对应句子的标准背诵检测结果,逐个将所述目标文本序列与所述参考文本序列进行比较,输出相应的背诵质量评测结果。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的篇章背诵质量评测方法,还可以执行本申请任意实施例所提供的篇章背诵质量评测方法中的相关操作。
上述实施例中提供的篇章背诵质量评测装置、存储介质及电子设备可执行本申请任意实施例所提供的篇章背诵质量评测方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的篇章背诵质量评测方法。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。

Claims (10)

1.一种篇章背诵质量评测方法,其特征在于,包括:
将背诵音频输入预先构建的句子并联解码网络,基于句子并联解码网络确定所述背诵音频中的边界信息,所述边界信息与背诵文本句子间的边界对应;
基于所述边界信息将所述背诵音频切分为多个音频段,确定各个音频段与所述背诵文本各个句子的对应关系;
基于对应句子的参考文本序列构建容错对齐网络,基于所述对应关系将各个所述音频段输入对应的所述容错对齐网络,解码得到对应的目标文本序列,所述目标文本序列用于标识对应的所述音频段的实际背诵检测结果;
提取对应所述背诵文本各个句子的参考文本序列,所述参考文本序列用于标识对应句子的标准背诵检测结果,逐个将所述目标文本序列与所述参考文本序列进行比较,输出相应的背诵质量评测结果。
2.根据权利要求1所述的篇章背诵质量评测方法,其特征在于,基于对应句子的参考文本序列构建容错对齐网络,包括:
在所述参考文本序列中的对应位置添加可选的垃圾状态路径和混淆音路径,构建对应的容错对齐网络,所述垃圾状态路径包含背景声、静音和拟声的序列标签,所述混淆音路径包含对应的混淆词标签。
3.根据权利要求1所述的篇章背诵质量评测方法,其特征在于,基于所述对应关系将各个所述音频段输入对应的所述容错对齐网络,解码得到对应的目标文本序列,包括:
将所述音频段输入预先训练的DNN声学模型,计算对应所述音频段的第一后验概率分数;
基于所述音频段的第一后验概率分数,根据维特比算法在所述容错对齐网络中搜索最优路径,作为所述音频段的目标文本序列。
4.根据权利要求1所述的篇章背诵质量评测方法,其特征在于,将背诵音频输入预先构建的句子并联解码网络,基于句子并联解码网络确定所述背诵音频中的边界信息,包括:
基于句子并联解码网络确定所述背诵文本中各个句子的分隔符,构建句子间的并联结构;
在所述并联结构中添加静音路径,并在所述并联结构的首尾状态添加静音自旋路径,所述静音路径用于检测漏读句子,所述静音自旋路径用于检测句子首尾状态的静音、背景声、拟声和语气词;
对应所述并联结构解码所述背诵音频,确定所述背诵音频中的边界信息。
5.根据权利要求4所述的篇章背诵质量评测方法,其特征在于,对应所述并联结构解码所述背诵音频,确定所述背诵音频中的边界信息,包括:
基于DNN声学模型确定所述背诵音频中每帧音频帧的第二后验概率分数;
根据所述第二后验概率分数,并对应所述并联结构使用维特比算法搜索每帧所述音频帧的最优路径,确定对应背诵文本各个句子边界的所述音频帧,作为所述背诵音频中的边界信息。
6.根据权利要求1所述的篇章背诵质量评测方法,其特征在于,逐个将所述目标文本序列与所述参考文本序列进行比较,输出相应的背诵质量评测结果,包括:
对齐所述目标文本序列与所述参考文本序列的各个序列标签,检测对应的替换、漏读、重复、停顿和/或错读位置,输出相应的背诵质量评测结果。
7.根据权利要求1所述的篇章背诵质量评测方法,其特征在于,逐个将所述目标文本序列与所述参考文本序列进行比较,输出相应的背诵质量评测结果,还包括:
对齐所述目标文本序列与所述参考文本序列的各个序列标签,计算所述目标文本序列与所述参考文本序列的编辑距离,根据所述编辑距离输出相应的背诵质量评测结果。
8.一种篇章背诵质量评测装置,其特征在于,包括:
边界确定模块,将背诵音频输入预先构建的句子并联解码网络,基于句子并联解码网络确定所述背诵音频中的边界信息,所述边界信息与背诵文本句子间的边界对应;
切分模块,用于基于所述边界信息将所述背诵音频切分为多个音频段,确定各个音频段与所述背诵文本各个句子的对应关系;
解码模块,用于基于对应句子的参考文本序列构建容错对齐网络,基于所述对应关系将各个所述音频段输入对应的所述容错对齐网络,解码得到对应的目标文本序列,所述目标文本序列用于标识对应的所述音频段的实际背诵检测结果;
输出模块,用于提取对应所述背诵文本各个句子的参考文本序列,所述参考文本序列用于标识对应句子的标准背诵检测结果,逐个将所述目标文本序列与所述参考文本序列进行比较,输出相应的背诵质量评测结果。
9.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一所述的篇章背诵质量评测方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一所述的篇章背诵质量评测方法。
CN202110507942.9A 2021-05-10 2021-05-10 一种篇章背诵质量评测方法、装置、电子设备及存储介质 Pending CN115331662A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110507942.9A CN115331662A (zh) 2021-05-10 2021-05-10 一种篇章背诵质量评测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110507942.9A CN115331662A (zh) 2021-05-10 2021-05-10 一种篇章背诵质量评测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115331662A true CN115331662A (zh) 2022-11-11

Family

ID=83912996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110507942.9A Pending CN115331662A (zh) 2021-05-10 2021-05-10 一种篇章背诵质量评测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115331662A (zh)

Similar Documents

Publication Publication Date Title
CN105845134B (zh) 自由朗读题型的口语评测方法及系统
US10607611B1 (en) Machine learning-based prediction of transcriber performance on a segment of audio
CN102568475B (zh) 用于普通话水平测评的系统和方法
CN108389573B (zh) 语种识别方法及装置、训练方法及装置、介质、终端
CN109256152A (zh) 语音评分方法及装置、电子设备、存储介质
US20140039896A1 (en) Methods and System for Grammar Fitness Evaluation as Speech Recognition Error Predictor
CN109697988B (zh) 一种语音评价方法及装置
CN101650886B (zh) 一种自动检测语言学习者朗读错误的方法
CN110556093A (zh) 一种语音标注方法及其系统
KR101587866B1 (ko) 음성 인식용 발음사전 확장 장치 및 방법
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
CN112331229B (zh) 语音检测方法、装置、介质和计算设备
WO2018077244A1 (en) Acoustic-graphemic model and acoustic-graphemic-phonemic model for computer-aided pronunciation training and speech processing
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
Mary et al. Searching speech databases: features, techniques and evaluation measures
CN111798871B (zh) 会话环节识别方法、装置及设备、存储介质
CN109697975B (zh) 一种语音评价方法及装置
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
CN112530405A (zh) 一种端到端语音合成纠错方法、系统及装置
CN113053415B (zh) 一种连读的检测方法、装置、设备及存储介质
CN115512692A (zh) 语音识别方法、装置、设备及存储介质
CN115331662A (zh) 一种篇章背诵质量评测方法、装置、电子设备及存储介质
Molenaar et al. Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics
CN111128181B (zh) 背诵题评测方法、装置以及设备
CN115099222A (zh) 标点符号误用检测纠正方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination