CN121545552B - 汉语连续语流中语音变调自动检测方法及其系统 - Google Patents

汉语连续语流中语音变调自动检测方法及其系统

Info

Publication number
CN121545552B
CN121545552B CN202610069818.1A CN202610069818A CN121545552B CN 121545552 B CN121545552 B CN 121545552B CN 202610069818 A CN202610069818 A CN 202610069818A CN 121545552 B CN121545552 B CN 121545552B
Authority
CN
China
Prior art keywords
tone
fundamental frequency
rule
pitch
syllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202610069818.1A
Other languages
English (en)
Other versions
CN121545552A (zh
Inventor
邱欣悦
刘青
王月月
任婷婷
杨家鑫
宋修远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Normal University
Original Assignee
Sichuan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Normal University filed Critical Sichuan Normal University
Priority to CN202610069818.1A priority Critical patent/CN121545552B/zh
Publication of CN121545552A publication Critical patent/CN121545552A/zh
Application granted granted Critical
Publication of CN121545552B publication Critical patent/CN121545552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了汉语连续语流中语音变调自动检测方法及其系统,属于语音信号处理技术领域,该方法包括:语音强制对齐步骤获取音节时间边界;基频过渡轨迹提取步骤在相邻音节衔接区域提取基频特征向量;变调规则匹配步骤从包含必变规则和可变规则的知识库获取期望模式;变调模式检测步骤计算匹配得分并判定变调正确、缺失或过度;反馈生成步骤生成音高曲线标注图和规则讲解,本发明通过聚焦衔接区域的基频过渡特征实现准确的变调检测,通过分层次的规则知识库提供合理的评估,通过可视化反馈帮助学习者改进发音。

Description

汉语连续语流中语音变调自动检测方法及其系统
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种面向汉语作为第二语言学习者的连续语流变调模式自动检测与评估技术,具体涉及汉语连续语流中语音变调自动检测方法及其系统。
背景技术
汉语是一种典型的声调语言,声调在汉语中具有区别词义的重要功能。汉语普通话包含阴平、阳平、上声、去声四个基本声调,不同声调可使相同音节表达完全不同的语义。在汉语语音学习过程中,学习者不仅需要掌握单字的四个基本声调,还需要掌握连续语流中复杂的变调规则。变调是指在连续语流中,相邻音节的声调受到彼此影响而发生的规律性变化,是汉语语音的重要特征之一。常见的变调现象包括三声连读变调、一字变调、不字变调以及轻声弱化等,这些变调规则的正确实现是汉语语音自然流畅的重要保障。
对于以汉语作为第二语言的学习者而言,变调规则的习得是语音学习中的重点和难点。研究表明,许多学习者虽然能够在孤立字朗读时正确发出各声调,但在连续语流中往往难以准确实现变调。造成这一现象的原因是多方面的:首先,变调规则的触发条件较为复杂,涉及相邻音节的声调类型、词汇边界、语法结构等多种因素;其次,变调的实现需要在短时间内完成声调的切换,对发音器官的协调控制提出了较高要求;再者,学习者母语的韵律特征可能对汉语变调产生负迁移影响。
现有技术中,CN113571037A公开了一种汉语盲文语音合成方法及系统,该技术方案通过将通用盲文文本转换为拼音序列,结合韵律预测模型得到韵律标签,最终实现语音合成。该方案在变调处理方面,主要采用基于规则的方法将正常拼音序列转换为变调拼音序列,例如处理两个上声声调连接时第一个上声变阳平的规则,以及处理一字和不字在不同声调环境下的变调规则。该技术方案构建了语气词变调词典用于处理轻声歧义消除问题,并实现了从正常拼音到变调拼音的自动转换。然而,该技术方案主要聚焦于语音合成领域中的变调生成问题,其目标是确保合成语音的变调正确性,而非检测和评估学习者语音中的变调实现情况。该方案缺乏对实际语音信号中变调特征的提取和分析能力,无法判断学习者是否正确实现了预期的变调。
在计算机辅助语言学习领域,语音评估技术得到了广泛应用。传统的语音评估方法主要针对孤立字或单音节的声调进行识别和评分,采用基频轨迹与标准模板的匹配度作为评判依据。这类方法在处理单字声调时具有较好的效果,但在面对连续语流时存在明显不足。连续语流中的声调表现受到多种因素影响,包括相邻音节的协同发音效应、语速变化引起的声调压缩、重音位置导致的音高调整等,这些因素使得简单的模板匹配方法难以准确判断变调的实现情况。此外,现有的声调评估系统大多采用基于隐马尔可夫模型或深度神经网络的声调分类方法,将每个音节独立分类为四个声调类别之一,这种方法忽略了变调作为跨音节现象的本质特征。
目前针对连续语流中变调检测的研究仍存在以下技术问题。第一,变调检测的音节边界定位不够精确,现有方法多依赖人工标注或固定时间窗口切分,无法适应不同语速和说话风格下的音节边界变化,导致后续的变调特征分析受到边界误差的影响。第二,变调特征提取不够全面,现有方法主要关注音节内部的基频轨迹形状,忽略了相邻音节衔接区域的基频过渡特征,而这一区域恰恰是变调实现的关键所在,变调的声学表现主要体现在前一音节末尾至后一音节开始这段过渡区间的基频变化模式上。第三,变调规则的处理缺乏层次性,现有方法通常将所有变调规则同等对待,未区分必须遵守的强制规则和可接受变化的可选规则,导致评估结果过于严苛或过于宽松,降低了评估的实用价值。第四,反馈机制不够直观有效,现有方法的评估结果多以数字评分形式呈现,学习者难以理解具体问题所在以及如何改进,缺乏针对性的指导信息和示范参考。
因此,亟需一种能够准确检测连续语流中变调实现情况、区分不同类型变调规则、并提供直观有效反馈的语音变调自动检测方法及系统。
发明内容
针对现有技术存在的不足,本发明提供汉语连续语流中语音变调自动检测方法及其系统,通过在相邻音节衔接区域重点提取基频过渡轨迹特征,结合分层次的变调规则知识库,实现对连续语流中变调模式的准确检测和有效评估。
本发明提供的汉语连续语流中语音变调自动检测方法包括以下步骤。语音强制对齐步骤获取待检测语音信号和对应的参考文本,执行强制对齐处理以确定每个音节的时间边界,生成音节时间边界序列。基频过渡轨迹提取步骤基于音节时间边界序列划定相邻音节的衔接区域,在衔接区域内提取基频过渡轨迹,计算基频起始值、基频终止值、基频变化斜率和基频变化幅度,组合为基频过渡轨迹特征向量。变调规则匹配步骤从变调规则知识库中获取与当前相邻音节组合对应的变调规则,变调规则知识库包含必变规则和可变规则两类,根据变调规则确定期望基频过渡模式。变调模式检测步骤将基频过渡轨迹特征向量与期望基频过渡模式进行匹配,计算变调匹配得分,根据变调匹配得分判定变调检测结果,定位变调异常的具体音节位置。反馈生成步骤根据变调检测结果生成语流音高曲线标注图,以不同颜色区分变调正确区段、变调缺失区段和变调过度区段,同时生成规则讲解文本和对比示范音频。
优选地,所述衔接区域的划定以前一音节结束时间点为中心,向前扩展第一预设时长,向后扩展第二预设时长,形成衔接区域时间窗口,其中第一预设时长的取值范围为30毫秒至80毫秒,第二预设时长的取值范围为30毫秒至80毫秒。
优选地,所述变调规则知识库中的必变规则包括三声连读变调规则、一字变调规则和不字变调规则,所述可变规则包括轻声弱化规则和方言变调规则。
优选地,所述变调模式检测步骤中,对于三声连读变调的检测,还采用基于深度神经网络的分类器进行辅助判定,以提高检测准确率。
本发明提供的汉语连续语流中语音变调自动检测系统包括语音强制对齐模块、基频过渡轨迹提取模块、变调规则知识库、变调模式检测引擎和反馈生成模块。语音强制对齐模块用于执行语音与文本的强制对齐并生成音节时间边界序列。基频过渡轨迹提取模块用于划定衔接区域并提取基频过渡轨迹特征向量。变调规则知识库用于存储必变规则和可变规则。变调模式检测引擎用于匹配变调模式并判定检测结果。反馈生成模块用于生成可视化标注图和多媒体反馈内容。
本发明的有益效果包括以下方面。第一,通过聚焦于相邻音节衔接区域的基频过渡轨迹特征提取,能够更准确地捕捉变调实现的关键声学线索,相比传统的音节内部特征分析方法,变调检测准确率提升约15%至20%。第二,通过建立分层次的变调规则知识库,将必变规则设置为强制检测项,将可变规则设置为参考检测项,使评估结果更加合理,减少了对学习者的误判。第三,通过生成语流音高曲线标注图和对比示范音频,为学习者提供直观有效的反馈,有助于学习者理解问题并进行针对性改进。第四,本发明方法与系统可广泛应用于汉语语音教学、普通话水平测试辅助、语音治疗等领域,具有重要的应用价值。
附图说明
图1是本发明汉语连续语流中语音变调自动检测方法的流程图。
图2是本发明汉语连续语流中语音变调自动检测系统的架构图。
具体实施方式
请参考附图1-图2,下面结合附图和具体实施例对本发明作进一步详细描述。需要说明的是,以下实施例仅用于说明本发明的技术方案,而非对本发明保护范围的限制。
本发明提供的汉语连续语流中语音变调自动检测方法的整体流程如图1所示,该方法通过语音强制对齐、基频过渡轨迹提取、变调规则匹配、变调模式检测和反馈生成五个核心步骤实现对连续语流中变调模式的自动检测与评估。各步骤之间形成深度耦合的闭环协同架构,前一步骤的输出作为后一步骤的关键输入,后置步骤的检测结果可反向影响前置步骤的参数调整,从而实现检测精度的持续优化。
语音强制对齐模块1负责执行语音强制对齐步骤,该步骤是整个检测流程的基础环节。在本发明的一个实施例中,语音强制对齐模块1获取待检测语音信号和对应的参考文本作为输入数据。待检测语音信号通常为学习者朗读特定汉语文本材料时录制的音频文件,采样率设置为16kHz,量化精度为16位,采用单声道录制以确保信号质量。参考文本为待检测语音信号对应的标准汉字文本,可由教学系统预先提供或由学习者手动输入。
语音强制对齐模块1对待检测语音信号执行强制对齐处理的具体过程如下。首先,将参考文本转换为拼音序列,并进一步分解为音素序列。在本实施例中,采用基于深度神经网络的声学模型实现语音与音素序列的对齐,该声学模型可采用预训练的Kaldi模型或基于连接时序分类的端到端模型。强制对齐算法在给定参考文本的约束下,计算语音信号中各时间帧与音素序列中各音素的对应关系,从而确定每个音素的起始时间点和结束时间点。进一步地,将属于同一音节的音素时间边界进行合并,确定每个音节在待检测语音信号中的起始时间点和结束时间点,生成音节时间边界序列。
优选地,在强制对齐过程中,对于语速较快或存在连读现象的语音片段,语音强制对齐模块1采用动态时间规整算法对初步对齐结果进行精细调整。具体而言,以音节能量变化曲线和基频起伏点作为辅助参考,对初步确定的音节边界进行微调,使音节边界更准确地落在声学特征的自然分界点上。在本实施例中,音节边界的时间精度控制在正负20毫秒以内,能够满足后续基频过渡轨迹提取的精度要求。
基频过渡轨迹提取模块2负责执行基频过渡轨迹提取步骤,该步骤是本发明的核心创新环节之一。传统的声调分析方法主要关注音节内部的基频轨迹形状,而本发明创造性地将分析焦点转移至相邻音节的衔接区域,因为变调的声学表现主要体现在相邻音节之间的基频过渡模式上。
基频过渡轨迹提取模块2基于音节时间边界序列划定相邻音节的衔接区域,具体划定方法如下。设第i个音节的结束时间点为,第i+1个音节的起始时间点为,则该相邻音节对的衔接区域定义为以为中心,向前扩展第一预设时长,向后扩展第二预设时长所形成的时间窗口。在本实施例中,第一预设时长的取值范围为30毫秒至80毫秒,第二预设时长的取值范围为30毫秒至80毫秒。优选地,取值为50毫秒,取值为50毫秒,形成总时长为100毫秒的衔接区域时间窗口。该时长设置能够有效覆盖变调过渡的关键区间,同时避免引入过多的音节内部信息。
值得注意的是,衔接区域的划定需要考虑实际语音中音节间可能存在的短暂停顿或协同发音重叠现象。当大于预设间隔阈值时,表明两个音节之间存在明显停顿,此时缩短第二预设时长以避免将停顿区间纳入分析;当时,表明存在协同发音导致的音节重叠,此时以两个时间点的中点作为衔接区域的中心进行划定。预设间隔阈值在本实施例中设置为150毫秒。
在完成衔接区域划定后,基频过渡轨迹提取模块2从原始语音信号中提取该区域内的基频轨迹。基频提取采用自相关法或PYIN算法,基频检测的频率范围设置为75Hz至500Hz,以覆盖不同性别和年龄说话人的基频范围。提取得到的原始基频序列可能存在基频跳变点或缺失值,因此需要进行预处理。首先,对原始基频序列进行中值滤波处理,滤波窗口长度设置为5个采样点,以去除由于声带振动不稳定或浊音向清音过渡造成的基频跳变点。其次,对存在缺失值的位置采用线性插值方法进行填补,确保基频序列的连续性。
进一步地,基频过渡轨迹提取模块2对滤波后的基频序列进行说话人归一化处理,以消除不同说话人之间的个体音高差异。在本实施例中,提供两种归一化方法供选择。第一种方法为Z-score标准化方法,计算说话人在整段语音中的基频均值和标准差,将每个基频值转换为对应的Z分数。该方法的计算公式为:
,
其中,为归一化后的基频值,为原始基频值,为说话人基频均值,为说话人基频标准差,为时间点索引。
第二种方法为半音转换方法,将基频值从赫兹单位转换为以说话人基准音高为参考的半音值。该方法的计算公式为:
,
其中,为转换后的半音值,为原始基频值,为说话人的参考基频,参考基频可取说话人基频分布的第5百分位数。
在完成归一化处理后,基频过渡轨迹提取模块2根据衔接区域内的基频过渡轨迹计算多维特征。本发明提出的基频过渡轨迹特征提取算法包括以下四个维度的特征计算。
第一个维度为基频起始值,定义为衔接区域前半部分的基频均值,计算公式为:
,
其中,为衔接区域起始时间点对应的采样索引,为衔接区域前半部分的采样点数。
第二个维度为基频终止值,定义为衔接区域后半部分的基频均值,计算公式为:
,
其中,为衔接区域后半部分的采样点数。
第三个维度为基频变化斜率,采用最小二乘法对衔接区域内的基频序列进行线性拟合,取拟合直线的斜率作为基频变化斜率,计算公式为:
,
其中,为衔接区域内的总采样点数,为第个采样点的时间值,为时间均值,为第个采样点的归一化基频值,为基频均值。
第四个维度为基频变化幅度,定义为基频终止值与基频起始值的差值,计算公式为:
,
基频过渡轨迹提取模块2将上述四个维度的特征值组合为基频过渡轨迹特征向量,该特征向量将作为后续变调模式检测的输入数据。
在本发明的一个优选实施例中,基频过渡轨迹提取模块2还计算扩展特征以提高检测精度,扩展特征包括基频曲率、基频抖动度和能量变化率。基频曲率反映基频轨迹的弯曲程度,通过对基频序列进行二阶差分并计算均值得到;基频抖动度反映基频的微观波动情况,通过计算相邻采样点基频差值的标准差得到;能量变化率反映衔接区域内语音能量的变化趋势,通过计算短时能量序列的斜率得到。在特征向量中加入这些扩展特征后,变调检测的准确率可进一步提升约5%。
变调规则知识库3存储了汉语连续语流中的各类变调规则,是变调规则匹配步骤的数据基础。在本发明的设计中,变调规则知识库3采用分层架构,将变调规则划分为必变规则和可变规则两个层次,这一设计体现了变调规则的强制性差异,能够使检测结果更加符合语言学规律和教学实际需求。
必变规则是指在标准普通话中必须遵守的变调规则,违反这些规则会导致明显的语音错误,因此在检测系统中将其设置为强制检测项。变调规则知识库3中的必变规则包括以下三类。
第一类为三声连读变调规则。该规则规定当连续两个第三声音节相连时,前一音节由原本的降升调变为阳平调,即调值由214变为35。这是汉语中最典型的变调现象,也是对学习者影响最大的变调规则。从语音学角度分析,三声连读变调的产生是由于两个连续的低降调在快速语流中难以清晰发出,人类发音器官倾向于将第一个三声简化为上升调以降低发音难度。在变调规则知识库3中,三声连读变调规则的期望基频过渡模式定义为:前一音节结尾处基频应呈上升趋势,基频变化斜率应大于预设的正向斜率阈值,基频变化幅度应在预设的上升幅度范围内。在本实施例中,设置为0.3,设置为0.5,设置为2.5,这些数值基于标准普通话语料库的统计分析确定。需要说明的是,三声连读变调规则的应用范围不仅限于双音节词内部,还包括跨词边界的三声相连情况,例如在“你好吗”这一短语中,“你”和“好”连续出现,“你”字应发生变调。
第二类为一字变调规则。一字在汉语中是使用频率最高的数词之一,其变调规则相对复杂。当一字后接第四声音节时,一字由原本的阴平调变为阳平调,即调值由55变为35;当一字后接第一声、第二声或第三声音节时,一字由阴平调变为去声调,即调值由55变为51。在变调规则知识库3中,一字变调规则根据后接音节的声调类型分别定义不同的期望基频过渡模式。当后接音节为第四声时,期望基频过渡模式表现为上升趋势,基频变化斜率应为正值;当后接音节为其他声调时,期望基频过渡模式表现为下降趋势,基频变化斜率应为负值。此外,一字变调还存在特殊情况,例如在表示序数时(如“第一”),一字通常不发生变调;在某些固定词组中(如“统一”),一字的变调表现可能与一般规则有所差异。变调规则知识库3中记录了这些特殊情况的处理规则。
第三类为不字变调规则。当不字后接第四声音节时,不字由原本的去声调变为阳平调,即调值由51变为35。这一变调规则与一字后接第四声的变调规则类似,均属于避免连续降调的语音学动机驱动的变调现象。在连续语流中,两个连续的去声(即高降调)会造成发音上的不自然感,因此前一个去声会变为阳平以平滑过渡。不字变调规则的期望基频过渡模式定义为:当后接音节为第四声时,基频轨迹应由原本的下降趋势转变为上升趋势,基频变化斜率应由负值转为正值。
可变规则是指在标准普通话中允许一定变化的变调规则,或主要出现在特定语境下的变调规则。违反这些规则不一定构成明显错误,因此在检测系统中将其设置为参考检测项,检测结果以建议形式呈现而非判定为错误。变调规则知识库3中的可变规则包括以下两类。
第一类为轻声弱化规则。轻声是汉语中一种特殊的声调表现,通常出现在语气词、助词、部分叠词以及某些固定词组的后字位置。轻声音节的基频通常较低且较短,其具体调值受前一音节声调的影响较大。在变调规则知识库3中,轻声弱化规则的期望基频过渡模式根据前一音节的声调类型进行参数化定义,例如在阴平后轻声通常表现为中降调,在去声后轻声通常表现为低平调。
第二类为方言变调规则。不同方言区的学习者在学习普通话时,可能会将方言中的变调习惯带入普通话发音中。变调规则知识库3中存储了常见方言的变调特征,用于识别学习者是否存在方言变调迁移现象。方言变调规则对应的检测结果标注为建议项,旨在帮助学习者意识到方言影响,而非将其判定为错误。
变调模式检测引擎4负责执行变调模式检测步骤,该步骤将基频过渡轨迹提取模块2输出的基频过渡轨迹特征向量与变调规则知识库3中存储的期望基频过渡模式进行匹配,计算变调匹配得分,并根据匹配得分判定变调检测结果。
变调模式检测引擎4首先根据当前待检测的相邻音节组合,从变调规则知识库3中检索与之匹配的变调规则。检索过程基于以下信息进行:前一音节的原始声调类型、后一音节的原始声调类型、前一音节对应的汉字。通过这三项信息可以唯一确定适用的变调规则,或判定当前音节组合不涉及变调。
当确定适用的变调规则后,变调模式检测引擎4获取该规则对应的期望基频过渡模式。
期望基频过渡模式以参数化形式存储,包括期望基频起始值范围、期望基频终止值范围、期望基频变化斜率范围和期望基频变化幅度范围
本发明提出的变调模式匹配度计算算法如下。变调模式检测引擎4将基频过渡轨迹特征向量与期望基频过渡模式进行差值计算,得到特征偏差向量。特征偏差向量各分量的计算公式为:
,
其中,为特征向量的第个分量,为期望范围的下界和上界,为特征偏差向量的第个分量。该计算方式能够量化实际特征值偏离期望范围的程度,当实际特征值落在期望范围内时偏差为零,偏离范围越大则偏差值越大。
在得到特征偏差向量后,变调模式检测引擎4对各分量进行加权求和,计算变调匹配得分
,
其中,为第个特征分量的权重系数,满足。在本实施例中,各分量的权重设置如下:基频变化斜率的权重设置为0.35,基频变化幅度的权重设置为0.30,基频起始值的权重设置为0.20,基频终止值的权重设置为0.15。这一权重配置反映了不同特征对变调检测的重要性差异,基频变化斜率和幅度对变调判定的贡献最大,而起始值和终止值作为辅助参考。
变调匹配得分的取值范围为0至1,得分越高表示实际变调模式与期望模式越接近。变调模式检测引擎4根据变调匹配得分和预设匹配阈值判定变调检测结果。预设匹配阈值的取值范围为0.6至0.9,在本实施例中默认设置为0.75。
变调检测结果的判定逻辑如下。当待检测音节组合对应必变规则时,若,则判定为变调正确;若且基频变化趋势与期望方向相反或幅度过小,则判定为变调缺失,表示学习者未能实现应有的变调;若且基频变化幅度过大或出现在不应变调的位置,则判定为变调过度,表示学习者在不需要变调或应轻微变调的位置产生了过于明显的声调变化。
当待检测音节组合对应可变规则时,判定逻辑相对宽松。若,则判定为变调正确;若,则标注为建议改进项而非判定为错误,并在反馈中说明该位置的变调实现与标准模式存在差异但不构成严重问题。
变调模式检测引擎4在完成单个相邻音节对的检测后,继续处理语流中的下一个相邻音节对,直至完成整段语音的检测。检测过程中记录每个检测位置的变调匹配得分和变调检测结果,形成变调检测结果序列。
在本发明的一个优选实施例中,对于三声连读变调的检测,变调模式检测引擎4采用基于深度神经网络的分类器进行辅助判定。该分类器以基频过渡轨迹特征向量为输入,输出当前音节是否发生三声变二声的概率值。分类器采用三层全连接神经网络结构,输入层维度与特征向量维度相同,隐藏层包含64个神经元并使用ReLU激活函数,输出层为单个神经元并使用Sigmoid激活函数输出概率值。该分类器在包含10000个三声连读样本的标注数据集上进行训练,训练采用交叉熵损失函数和Adam优化器,学习率设置为0.001,批大小设置为32,训练轮数设置为100轮。当分类器输出的概率值大于预设概率阈值时,判定为发生变调,预设概率阈值在本实施例中设置为0.5。
本发明提出的变调检测综合判定算法将规则匹配得分和神经网络分类器输出进行融合,以提高检测的准确性和鲁棒性。融合公式为:
,
其中,为综合判定得分,为规则匹配得分,为神经网络分类器输出的概率值,为融合权重系数。在本实施例中,设置为0.6,表示规则匹配得分在综合判定中占主导地位,神经网络分类器起辅助作用。最终的变调检测结果根据与预设匹配阈值的比较进行判定。
反馈生成模块5负责执行反馈生成步骤,根据变调检测结果生成直观有效的反馈内容,帮助学习者理解问题并进行针对性改进。反馈内容包括语流音高曲线标注图、规则讲解文本和对比示范音频三个部分。
反馈生成模块5生成语流音高曲线标注图的过程如下。首先,将待检测语音信号的完整基频轨迹绘制为二维曲线,横轴为时间,纵轴为归一化后的基频值或半音值。其次,根据音节时间边界序列在曲线上标注音节分界线,分界线采用虚线形式绘制,并在分界线上方标注对应的汉字和拼音。再次,根据变调检测结果将曲线划分为多个区段并分别着色。在本实施例中,变调正确区段采用第一预设颜色标注,第一预设颜色设置为绿色,表示该区段的变调实现符合期望;变调缺失区段采用第二预设颜色标注,第二预设颜色设置为黄色,表示该区段应发生变调但未能实现;变调过度区段采用第三预设颜色标注,第三预设颜色设置为红色,表示该区段发生了不当的变调。此外,对于可变规则对应的建议项,采用第四预设颜色标注,第四预设颜色设置为蓝色,以区别于强制检测项的结果。
反馈生成模块5生成规则讲解文本的过程如下。对于每个检测到的变调异常位置,反馈生成模块5根据异常类型和适用的变调规则,从规则讲解库中检索对应的讲解模板,并填充具体的音节信息生成个性化的讲解文本。规则讲解库中存储了各类变调规则的讲解内容,包括变调规则的定义、变调的原因、正确的变调方式以及常见的错误类型等。例如,对于三声连读变调缺失的情况,规则讲解文本可能为:在“想买”这个词中,“想”和“买”都是第三声,根据三声连读变调规则,前面的“想”应该变为第二声(阳平),发音时应从低音向上滑升。您当前的发音中,“想”字仍保持了第三声的特征,请注意将声调调整为上升调。
反馈生成模块5生成对比示范音频的过程如下。根据变调检测结果从预置音频库中检索与当前变调异常类型匹配的标准发音示范音频。预置音频库中存储了由普通话标准发音人录制的各类变调示范音频,按照变调类型和音节组合进行索引。检索到匹配的示范音频后,反馈生成模块5将示范音频与学习者对应语音片段进行时间对齐处理,使两段音频在时间轴上对齐后输出,便于学习者进行逐音节的对比聆听。时间对齐采用动态时间规整算法实现,能够处理说话语速差异导致的时长不一致问题。
在本发明的一个优选实施例中,反馈生成模块5还支持生成动态演示动画,以可视化的方式展示声调的正确发音方式。动态演示动画以声调调值曲线为基础,通过动画效果展示发音时基频的变化过程,并配合箭头指示音高的运动方向。这种可视化的反馈方式能够帮助学习者更直观地理解变调的实现方式。
本发明方法的检测效果通过以下实验进行验证。实验采用包含200名汉语学习者的语音数据集,学习者的母语背景涵盖英语、日语、韩语等多种非声调语言。每名学习者朗读30个包含变调的句子,共计6000个语音样本。实验由三名语音学专家对每个样本中的变调实现情况进行人工标注,作为评估基准。实验结果表明,本发明方法对三声连读变调的检测准确率达到92.3%,对一字变调的检测准确率达到89.7%,对不字变调的检测准确率达到91.2%,综合准确率达到90.8%,相比基于音节内部特征的传统方法提升约17.5%。此外,变调类型判定的准确率达到85.6%,能够较好地区分变调缺失和变调过度两种异常类型。
本发明提供的汉语连续语流中语音变调自动检测系统的架构如图2所示,该系统包括语音强制对齐模块1、基频过渡轨迹提取模块2、变调规则知识库3、变调模式检测引擎4和反馈生成模块5,五个模块协同工作实现连续语流中变调模式的自动检测与评估。
语音强制对齐模块1与基频过渡轨迹提取模块2通过数据接口连接,语音强制对齐模块1输出的音节时间边界序列直接传输至基频过渡轨迹提取模块2作为衔接区域划定的依据。基频过渡轨迹提取模块2与变调模式检测引擎4通过数据接口连接,基频过渡轨迹提取模块2输出的基频过渡轨迹特征向量传输至变调模式检测引擎4作为匹配计算的输入。变调规则知识库3与变调模式检测引擎4通过查询接口连接,变调模式检测引擎4根据音节组合信息向变调规则知识库3查询适用的变调规则和期望基频过渡模式。变调模式检测引擎4与反馈生成模块5通过数据接口连接,变调模式检测引擎4输出的变调检测结果序列传输至反馈生成模块5作为反馈内容生成的依据。
语音强制对齐模块1的功能实现与前述方法实施例中语音强制对齐步骤的描述一致。该模块可采用现有的开源语音对齐工具实现,如Montreal Forced Aligner或Kalditoolkit,并根据汉语音节特点进行适配优化。语音强制对齐模块1的输入接口接收待检测语音信号和参考文本,输出接口输出音节时间边界序列。在本系统的一个优选实现方案中,语音强制对齐模块1采用基于Transformer架构的端到端对齐模型,该模型在大规模普通话语音数据集上进行预训练,能够在不依赖传统声学模型和发音词典的情况下直接完成语音与文本的对齐,对齐精度相比传统方法提升约10%。
基频过渡轨迹提取模块2的功能实现与前述方法实施例中基频过渡轨迹提取步骤的描述一致。该模块包括衔接区域划定单元、基频提取单元、基频预处理单元和特征计算单元。衔接区域划定单元根据音节时间边界序列确定各相邻音节对的衔接区域时间窗口,该单元支持根据音节时长动态调整衔接区域的边界,以适应不同语速条件下的变调分析需求;基频提取单元采用自相关法或PYIN算法从原始语音信号中提取基频轨迹,该单元内置多种基频提取算法供选择,可根据语音信号的信噪比和说话人特征自动选择最优算法;基频预处理单元对原始基频序列进行中值滤波和说话人归一化处理,该单元支持Z-score标准化和半音转换两种归一化方法;特征计算单元计算基频起始值、基频终止值、基频变化斜率和基频变化幅度,组合为基频过渡轨迹特征向量,该单元还可选择性地计算扩展特征以提高检测精度。
变调规则知识库3采用关系型数据库或知识图谱形式存储变调规则,支持按音节组合进行快速检索。数据库中每条变调规则记录包含规则标识、适用条件、规则类型、期望基频过渡模式参数和规则讲解内容等字段。规则类型字段用于区分必变规则和可变规则,期望基频过渡模式参数字段存储各特征维度的期望取值范围。变调规则知识库3支持规则的动态更新和扩展,可根据教学需求添加新的变调规则或调整现有规则的参数。在本系统的一个优选实现方案中,变调规则知识库3采用知识图谱的形式进行组织,将变调规则表示为语义网络中的节点和边,支持基于推理的规则匹配和复杂变调场景的处理。变调规则知识库3中预置了常见的必变规则和可变规则,并根据语音学研究文献确定了各规则的期望基频过渡模式参数,这些参数经过大规模标准普通话语料库的统计验证,具有较高的可靠性。
变调模式检测引擎4的功能实现与前述方法实施例中变调模式检测步骤的描述一致。该引擎包括规则检索单元、特征匹配单元、得分计算单元和结果判定单元。规则检索单元根据当前音节组合信息向变调规则知识库3发起查询请求,获取适用的变调规则和期望基频过渡模式,该单元采用索引加速技术确保查询响应时间不超过10毫秒;特征匹配单元将基频过渡轨迹特征向量与期望基频过渡模式进行比较,计算各维度的特征偏差,该单元支持欧氏距离、余弦相似度等多种匹配度量方式;得分计算单元根据特征偏差向量计算变调匹配得分,该单元的权重参数可根据应用场景进行调整;结果判定单元根据变调匹配得分和预设匹配阈值判定变调检测结果,该单元支持多阈值判定以实现更细粒度的评估等级划分。变调模式检测引擎4还可集成深度神经网络分类器作为辅助判定模块,提高三声连读变调等复杂变调现象的检测准确率。在本系统的一个优选实现方案中,深度神经网络分类器采用长短期记忆网络结构,能够捕捉基频序列的时序依赖关系,进一步提高变调检测的准确性和鲁棒性。
反馈生成模块5的功能实现与前述方法实施例中反馈生成步骤的描述一致。该模块包括曲线绘制单元、文本生成单元和音频处理单元。曲线绘制单元根据基频轨迹和变调检测结果生成语流音高曲线标注图,该单元支持多种可视化风格和颜色方案,可根据用户偏好进行定制;文本生成单元从规则讲解库中检索讲解模板并生成个性化的规则讲解文本,该单元支持多语言界面,可为不同母语背景的学习者提供相应语言的讲解内容;音频处理单元从预置音频库中检索示范音频并与学习者语音进行时间对齐处理,该单元采用动态时间规整算法实现不同语速语音的对齐,确保对比聆听的有效性。反馈生成模块5的输出通过用户界面呈现给学习者,用户界面可采用Web应用、移动应用或桌面应用形式实现,支持跨平台访问。
本发明系统可部署于云服务器或本地计算设备上运行。在云服务器部署模式下,学习者通过客户端应用上传待检测语音,服务器完成检测处理后将反馈结果返回客户端显示,该模式支持大规模并发访问,适合在线教育平台等应用场景。在本地部署模式下,检测系统运行于学习者的个人计算机或移动设备上,能够支持离线使用场景,保护用户语音数据的隐私性。系统的计算资源需求适中,在配备普通CPU的计算设备上,处理一段10秒长度的语音约需1至2秒,能够满足准实时反馈的需求;在配备GPU加速的服务器上,处理速度可进一步提升至实时级别。
本发明系统的技术效果通过以下应用场景得到验证。在汉语作为第二语言教学应用中,将本发明系统部署于某在线汉语学习平台,为来自30个国家的2000名学习者提供变调练习和评估服务,用户满意度调查显示,89%的学习者认为系统提供的反馈有助于理解变调规则,82%的学习者在使用系统练习后变调准确率有明显提升。在普通话水平测试辅助应用中,将本发明系统集成于某普通话测试训练软件,为考生提供朗读项目的变调预评估功能,测试数据显示,使用本系统进行针对性练习的考生在正式测试中的语音得分比对照组平均高出3.2分。在语音康复治疗应用中,将本发明系统应用于人工耳蜗植入患者的言语康复训练,系统针对患者常见的变调困难提供专门的检测和反馈,临床数据显示,经过12周的训练,患者的变调准确率从训练前的45%提升至训练后的73%。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利保护范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.汉语连续语流中语音变调自动检测方法,其特征在于,包括:
语音强制对齐步骤,获取待检测语音信号和对应的参考文本,对所述待检测语音信号执行强制对齐处理,确定所述参考文本中每个音节在所述待检测语音信号中的起始时间点和结束时间点,生成音节时间边界序列;
基频过渡轨迹提取步骤,基于所述音节时间边界序列,对相邻音节的衔接区域进行划定,所述衔接区域的划定包括:以前一音节结束时间点为中心,向前扩展第一预设时长,向后扩展第二预设时长,形成衔接区域时间窗口,其中所述第一预设时长的取值范围为30毫秒至80毫秒,所述第二预设时长的取值范围为30毫秒至80毫秒;对所述衔接区域内的原始基频序列进行中值滤波处理以去除基频跳变点,对滤波后的基频序列进行说话人归一化处理以消除个体音高差异,所述说话人归一化处理采用Z-score标准化方法或半音转换方法;在每个衔接区域内提取基频过渡轨迹,根据所述基频过渡轨迹计算基频起始值、基频终止值、基频变化斜率和基频变化幅度,将所述基频起始值、基频终止值、基频变化斜率和基频变化幅度组合为基频过渡轨迹特征向量;
变调规则匹配步骤,从变调规则知识库中获取与当前相邻音节组合对应的变调规则,所述变调规则知识库包含必变规则和可变规则两类,所述必变规则对应强制检测项,所述可变规则对应参考检测项,根据所述变调规则确定期望基频过渡模式;
变调模式检测步骤,将所述基频过渡轨迹特征向量与所述期望基频过渡模式进行匹配,将所述基频过渡轨迹特征向量与所述期望基频过渡模式进行差值计算,得到特征偏差向量,对所述特征偏差向量中各分量进行加权求和,得到变调匹配得分,根据所述变调匹配得分和预设匹配阈值判定变调检测结果,其中所述预设匹配阈值的取值范围为0.6至0.9,所述变调检测结果包括变调正确、变调缺失和变调过度三种类型,并定位发生变调异常的具体音节位置;
反馈生成步骤,根据所述变调检测结果生成语流音高曲线标注图,在所述语流音高曲线标注图中以不同颜色区分变调正确区段、变调缺失区段和变调过度区段,同时生成与变调异常位置对应的规则讲解文本和对比示范音频。
2.根据权利要求1所述的汉语连续语流中语音变调自动检测方法,其特征在于,所述变调规则知识库中的必变规则包括:三声连读变调规则,当连续两个第三声音节相连时,前一音节变为第二声;一字变调规则,当一字后接第四声音节时,一字变为第二声,当一字后接第一声、第二声或第三声音节时,一字变为第四声;不字变调规则,当不字后接第四声音节时,不字变为第二声。
3.根据权利要求1所述的汉语连续语流中语音变调自动检测方法,其特征在于,所述变调模式检测步骤中,对于三声连读变调的检测,采用基于深度神经网络的分类器对所述基频过渡轨迹特征向量进行分类,所述分类器输出当前音节是否发生三声变二声的概率值,当所述概率值大于预设概率阈值时,判定为发生变调。
4.根据权利要求1所述的汉语连续语流中语音变调自动检测方法,其特征在于,所述反馈生成步骤中,所述语流音高曲线标注图的生成包括:将所述待检测语音信号的完整基频轨迹绘制为曲线,根据所述音节时间边界序列在曲线上标注音节分界线,根据所述变调检测结果将曲线划分为多个区段并分别着色,其中变调正确区段采用第一预设颜色标注,变调缺失区段采用第二预设颜色标注,变调过度区段采用第三预设颜色标注。
5.根据权利要求1所述的汉语连续语流中语音变调自动检测方法,其特征在于,所述变调规则知识库中的可变规则包括:轻声弱化规则,对应语气词、助词和部分叠词的轻声化检测;方言变调规则,对应不同方言区学习者的特定变调习惯检测;所述可变规则对应的参考检测项在检测结果中标注为建议项而非错误项。
6.根据权利要求1所述的汉语连续语流中语音变调自动检测方法,其特征在于,所述反馈生成步骤还包括:根据所述变调检测结果从预置音频库中检索与当前变调异常类型匹配的标准发音示范音频,将所述标准发音示范音频与学习者对应片段进行时间对齐后输出,以供学习者进行对比聆听。
7.汉语连续语流中语音变调自动检测系统,用于实现权利要求1-6任一项所述的汉语连续语流中语音变调自动检测方法,其特征在于,包括:
语音强制对齐模块,用于获取待检测语音信号和对应的参考文本,对所述待检测语音信号执行强制对齐处理,确定所述参考文本中每个音节在所述待检测语音信号中的起始时间点和结束时间点,生成音节时间边界序列;
基频过渡轨迹提取模块,用于基于所述音节时间边界序列划定相邻音节的衔接区域,所述衔接区域以前一音节结束时间点为中心,向前扩展第一预设时长,向后扩展第二预设时长形成衔接区域时间窗口,其中第一预设时长的取值范围为30毫秒至80毫秒,第二预设时长的取值范围为30毫秒至80毫秒;对所述衔接区域内的原始基频序列进行中值滤波处理和说话人归一化处理后,提取基频过渡轨迹并计算基频起始值、基频终止值、基频变化斜率和基频变化幅度,生成基频过渡轨迹特征向量;
变调规则知识库,用于存储必变规则和可变规则,所述必变规则对应强制检测项,所述可变规则对应参考检测项;
变调模式检测引擎,用于从所述变调规则知识库获取变调规则,将所述基频过渡轨迹特征向量与期望基频过渡模式进行差值计算得到特征偏差向量,对特征偏差向量中各分量进行加权求和得到变调匹配得分,根据变调匹配得分和预设匹配阈值判定变调检测结果;
反馈生成模块,用于根据所述变调检测结果生成语流音高曲线标注图、规则讲解文本和对比示范音频。
CN202610069818.1A 2026-01-20 2026-01-20 汉语连续语流中语音变调自动检测方法及其系统 Active CN121545552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202610069818.1A CN121545552B (zh) 2026-01-20 2026-01-20 汉语连续语流中语音变调自动检测方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202610069818.1A CN121545552B (zh) 2026-01-20 2026-01-20 汉语连续语流中语音变调自动检测方法及其系统

Publications (2)

Publication Number Publication Date
CN121545552A CN121545552A (zh) 2026-02-17
CN121545552B true CN121545552B (zh) 2026-04-28

Family

ID=98744741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202610069818.1A Active CN121545552B (zh) 2026-01-20 2026-01-20 汉语连续语流中语音变调自动检测方法及其系统

Country Status (1)

Country Link
CN (1) CN121545552B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN120636412A (zh) * 2025-08-13 2025-09-12 北京凌云光子技术有限公司 一种基于大模型的多语言跨文化沟通辅助方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064103B (zh) * 2006-04-24 2011-05-04 中国科学院自动化研究所 基于音节韵律约束关系的汉语语音合成方法及系统
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
CN101354889B (zh) * 2008-09-18 2012-01-11 北京中星微电子有限公司 一种语音变调方法及装置
CN104464751B (zh) * 2014-11-21 2018-01-16 科大讯飞股份有限公司 发音韵律问题的检测方法及装置
US9685169B2 (en) * 2015-04-15 2017-06-20 International Business Machines Corporation Coherent pitch and intensity modification of speech signals
TWI755328B (zh) * 2021-05-24 2022-02-11 中華電信股份有限公司 孩童聲音偵測系統、方法及電腦可讀媒介
CN120673780A (zh) * 2025-06-19 2025-09-19 平安科技(深圳)有限公司 音频信号真实性验证方法、装置、设备及介质
CN121260143B (zh) * 2025-09-25 2026-03-03 云袭网络技术河北有限公司 一种层级韵律映射驱动的短视频文案语气自动调整方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN120636412A (zh) * 2025-08-13 2025-09-12 北京凌云光子技术有限公司 一种基于大模型的多语言跨文化沟通辅助方法及系统

Also Published As

Publication number Publication date
CN121545552A (zh) 2026-02-17

Similar Documents

Publication Publication Date Title
Chen et al. Computer-assisted pronunciation training: From pronunciation scoring towards spoken language learning
CN101551947A (zh) 辅助口语语言学习的计算机系统
AU2003300130A1 (en) Speech recognition method
CN104217713A (zh) 汉藏双语语音合成方法及装置
CN115130457B (zh) 融合安多藏文音素向量的韵律建模方法及建模系统
CN121034351A (zh) 一种基于智能设备的口语发音训练矫正系统
Maia et al. Towards the development of a brazilian portuguese text-to-speech system based on HMM.
Dai [Retracted] An Automatic Pronunciation Error Detection and Correction Mechanism in English Teaching Based on an Improved Random Forest Model
Peabody et al. Towards automatic tone correction in non-native mandarin
Stan et al. Generating the voice of the interactive virtual assistant
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
Gao et al. An investigation of the target approximation model for tone modeling and recognition in continuous Mandarin speech
CN121545552B (zh) 汉语连续语流中语音变调自动检测方法及其系统
Huang et al. English mispronunciation detection based on improved GOP methods for Chinese students
Tang et al. Construction of evaluation model for singing pronunciation quality based on artificial intelligence algorithms
Sulír et al. Development of the Slovak HMM-Based TTS System and Evaluation of Voices in Respect to the Used Vocoding Techniques.
Chen Speech synthesis technology: Status and challenges
Li et al. English sentence pronunciation evaluation using rhythm and intonation
Wilhelms-Tricarico et al. The Lessac Technologies Hybrid Concatenated System for Blizzard Challenge 2013.
DEMENKO et al. Prosody annotation for unit selection TTS synthesis
Imam et al. The Computation of Assimilation of Arabic Language Phonemes
Mostert Implementing Wav2Vec 2.0 into an Automated Reading Tutor
Nti Studying dialects to understand human language
Houidhek et al. Evaluation of speech unit modelling for HMM-based speech synthesis for Arabic
Khysru et al. Research on speech synthesis technology based on Tibetan rhythmic features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant