CN115662242B

CN115662242B - 塑造儿童语言流畅度训练装置、设备和存储介质

Info

Publication number: CN115662242B
Application number: CN202211532411.6A
Authority: CN
Inventors: 刘炜
Original assignee: Beijing Childrens Hospital
Current assignee: Beijing Childrens Hospital
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-07-04
Anticipated expiration: 2042-12-02
Also published as: CN115662242A

Abstract

本公开涉及一种塑造儿童语言流畅度训练装置、设备和存储介质，所述装置包括：选择模块，用于根据训练者标识信息，选择匹配的目标语音包；第一播放模块，用于播放训练语音信息；语义信息确定模块，用于通过语义识别模型确定声音信息的第一语义信息；评价模块，用于根据训练语音信息、第一语义信息和声音信息，确定声音信息的异常类型和评价分数；提示模块，用于根据异常类型和评价分数，确定提示消息；第二播放模块，用于播放提示消息。根据本公开的实施例的塑造儿童语言流畅度训练装置，可引导训练者进行正确发声，减少训练者的语言焦虑，以及说话时的恐惧心理，提升语言流畅度，预防潜在的精神健康问题，改善训练者的生活质量。

Description

塑造儿童语言流畅度训练装置、设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种塑造儿童语言流畅度训练装置、设备和存储介质。

背景技术

口吃是一种开始于儿童时期的语言交流障碍，主要症状是重复的音节、辅音或元音的延长或单词的阻塞，可伴有继发的相关运动痉挛。口吃儿童可能在3岁时就开始表现出行为、情感和社会发展方面的障碍，而这些障碍在年龄较大的口吃儿童中会表现得更明显。对于患有口吃的儿童，需要及时提供干预措施，防止患儿在今后生活中出现回避说话、拒绝社交等严重的心理健康问题。

早期干预对口吃儿童的言语治疗是至关重要。大多数口吃都发生在儿童早期。发病年龄一般在2~5岁之间，发病高峰在6岁之前，此期间是预防持续性慢性口吃的最佳阶段。口吃持续的时间越长,自然恢复的可能性就越小，而提早干预可以防止慢性口吃的发展。有许多可行的早期治疗方案可以有效地减少或消除口吃。早期干预不仅可以防治终生说话困难，还可以防止潜在的精神健康问题的发展，从而改善患儿的生活质量。

然而，目前对于口吃的报道和研究非常有限。对于口吃儿童的干预和训练难度较大。

公开于本申请背景技术部分的信息仅旨在加深对本申请的一般背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

本公开提出了一种塑造儿童语言流畅度训练装置，包括：

选择模块，用于根据接收到的训练者的标识信息，在数据库存储的多个语音包中，选择与所述标识信息匹配的目标语音包，其中，所述语音包中存储至少一个用于训练语言流畅度的训练语音信息；

第一播放模块，用于播放所述训练语音信息；

语义信息确定模块，用于在接收到声音信息的情况下，通过预训练的语义识别模型确定所述声音信息的第一语义信息，所述语义识别模型通过获取所述声音信息的声音特征信息，来确定所述第一语义信息，所述语义识别模型包括对具有预设模式的声音特征信息增加权重的注意力机制；

评价模块，用于根据所述训练语音信息、所述第一语义信息和所述声音信息，确定所述声音信息的异常类型和评价分数，其中，所述异常类型表示所述声音信息与所述训练语音信息之间的差异类型，所述评价分数表示所述声音信息与所述训练语音信息之间的相似性；

提示模块，用于根据所述异常类型和所述评价分数，确定提示消息；

第二播放模块，用于播放所述提示消息。

在一种可能的实现方式中，所述评价模块进一步用于：

确定所述第一语义信息和所述训练语音信息的第二语义信息之间的语义相似度；

根据所述第一语义信息、所述第二语义信息以及所述训练语音信息中各字词的预设权重，确定所述声音信息的重复评分，其中，所述重复评分表示在所述声音信息中，对所述训练语音信息中任意字词进行重复发声的情况；

根据所述声音信息的第一声波信息、所述训练语音信息的第二声波信息以及所述训练语音信息中各字词的预设权重，确定所述声音信息的卡顿评分，其中，所述卡顿评分表示在所述声音信息中，对所述训练语音信息中任意字词进行发生时出现卡顿的情况；

根据所述声音信息的第一声波信息，和所述训练语音信息的第二声波信息，确定所述声音信息的发音时长评分，其中，所述发音时长评分表示在所述声音信息中，对所述训练语音信息中各个字词进行发声的时长情况；

根据所述声音信息的第一音量信息，和所述训练语音信息的第二音量信息，确定所述声音信息的音量评分，其中，所述音量评分表示在所述声音信息中，对各个字词的发声的音量情况；

根据所述语义相似度、所述重复评分、所述卡顿评分、所述发音时长评分和所述音量情况，确定所述异常类型和所述评价分数。

在一种可能的实现方式中，所述评价模块进一步用于：

根据所述第一语义信息，确定出现重复的字词；

根据所述第二语义信息，对所述出现重复的字词进行筛选，获得目标重复字词，所述目标重复字词为在所述训练语音信息中不重复，在所述声音信息中重复的字词；

根据公式

，确定所述重复评分，其中，T₁为所述重复评分，w_i为第i个目标重复字词的预设权重，n₁为目标重复字词的数量。

在一种可能的实现方式中，所述评价模块进一步用于：

根据所述声音信息的第一声波信息和所述训练语音信息的第二声波信息中，各个字词之间的间隔时长，确定所述声音信息中出现卡顿的字词；

根据公式

，确定所述卡顿评分，其中，T₂为所述卡顿评分，t_1，j为第j个出现卡顿的字词与相邻字词之间的间隔时长，t_2，j为所述训练语音信息中与第j个出现卡顿的字词对应的字词与相邻字词之间的间隔时长，n₂为出现卡顿的字词的数量，w_j为第j个出现卡顿的字词的预设权重。

在一种可能的实现方式中，所述评价模块进一步用于：

根据公式

，确定所述发音时长评分，其中，T₃为所述发音时长评分，t_3，k为所述声音信息中第k个字词的发音时长，t_4，k为所述训练语音信息中第k个字词的发音时长，n为所述训练语音信息中的字词数量。

在一种可能的实现方式中，所述评价模块进一步用于：

根据公式

，确定所述音量评分，其中，T₄为所述音量评分，n₃为所述第二音量信息中的音量放大的结束时刻在所述声音信息中对应时刻之前的采样点总数，v_t为t≤n₃时，第t个采样点的音量，count为计数函数，用于统计满足条件（v_t+1-v_t）＜0的采样点的数量，u_t为t＞n₃时，第t个采样点的音量，m为所述声音信息中采样点的总数，D（u_t）为u_t的方差。

在一种可能的实现方式中，所述评价模块进一步用于：

根据公式

，确定所述评价分数，其中，T为所述评价分数，S为所述语义相似度，T₁为所述重复评分，T₂为所述卡顿评分，T₃为所述发音时长评分，T₄为所述音量评分，α为语义相似度的权重，β为重复评分的权重，/>

为卡顿评分的权重，/>

为发音时长评分的权重，ε=γ+δ，θ为音量评分的权重。

在一种可能的实现方式中，所述语义信息确定模块进一步用于：

通过所述语义识别模型，获取所述声音信息的多个字词的声音特征信息；

通过所述注意力机制，提升具有预设模式的声音特征信息的权重，获得语义特征信息，其中，具有预设模式的声音特征信息包括特征相似度大于或等于相似度阈值的相邻的声音特征信息，以及字词的发音时长与所述训练语音信息中对应字词的发音时长之差大于或等于时长阈值的声音特征信息；

根据所述语义特征信息，确定所述声音信息的第一语义信息。

在一种可能的实现方式中，所述提示模块进一步用于：

根据所述评价分数，确定提示消息模板；

在所述提示消息模板中生成与所述异常类型对应的文本信息，获得所述提示消息。

根据本公开的一方面，提供了一种塑造儿童语言流畅度训练设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述装置所执行的步骤。

根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述装置所执行的步骤。

根据本公开的实施例的塑造儿童语言流畅度训练装置，可选择与训练者匹配的目标语音包，从而可对不同的训练者进行针对性地训练和干预。并可在接收到训练者模仿训练语音信息的声音信息时，通过具有注意力机制的语义识别模型来提升第一语义信息的准确性。进一步地，可确定接收到的声音信息的异常类型和评价分数，并有针对性地生成并播放提示消息，从而可对训练者进行准确的反馈，引导训练者进行正确发声，减少训练者的语言焦虑，减少说话时的恐惧心理，提升语言流畅度，预防潜在的精神健康问题，改善训练者的生活质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将更清楚。

附图说明

此处的附图被并入说明书中，并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案；

图1示出根据本公开实施例的塑造儿童语言流畅度训练装置；

图2示出根据本公开实施例的塑造儿童语言流畅度训练设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本公开的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

应当理解，在本公开中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本公开中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本公开中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1示出根据本公开实施例的塑造儿童语言流畅度训练装置，如图1所示，所述装置包括：

选择模块11，用于根据接收到的训练者的标识信息，在数据库存储的多个语音包中，选择与所述标识信息匹配的目标语音包，其中，所述语音包中存储至少一个用于训练语言流畅度的训练语音信息；

第一播放模块12，用于播放所述训练语音信息；

语义信息确定模块13，用于在接收到声音信息的情况下，通过预训练的语义识别模型确定所述声音信息的第一语义信息，所述语义识别模型通过获取所述声音信息的声音特征信息，来确定所述第一语义信息，所述语义识别模型包括对具有预设模式的声音特征信息增加权重的注意力机制；

评价模块14，用于根据所述训练语音信息、所述第一语义信息和所述声音信息，确定所述声音信息的异常类型和评价分数，其中，所述异常类型表示所述声音信息与所述训练语音信息之间的差异类型，所述评价分数表示所述声音信息与所述训练语音信息之间的相似性；

提示模块15，用于根据所述异常类型和所述评价分数，确定提示消息；

第二播放模块16，用于播放所述提示消息。

在一种可能的实现方式中，所述装置可通过选择模块，选择与训练者的标识信息匹配的目标语音包。在数据库中可保存多个语音包，每个语音包中均可包括至少一个用于训练语言流畅度的训练语音信息。各个语音包的跟读难度可互不相同，则可基于训练者的标识信息确定训练者的实际情况，即，与训练者相适应的跟读难度，从而选择匹配的目标语音包。例如，某语音包用于训练严重口吃的训练者，则该语音包中的训练语音信息的跟读难度较低，而另一语音包用于训练口吃症状较轻的训练者，则该语音包中的训练语音信息的跟读难度较高。在示例中，跟读难度可由训练语音信息的语速、所包含的字词的数量、字词的发音难度等多种因素确定，本公开对跟读难度的确定因素不做限制。

在一种可能的实现方式中，训练者的标识信息可包括训练者的多种信息，例如，年龄、患口吃的时间、口吃的程度、接收干预训练的次数等信息。在示例中，如果训练者初次接收训练，且患口吃的程度较严重，则可选择每条训练语音信息仅包括一个单词，且语速缓慢，声音轻柔的语音包作为目标语音包。如果训练者已经受过多次训练，当前患口吃的程度并不严重，则可选择训练语音信息中包括多个单词，且语速稍快的语音包作为目标语音包。随着训练次数的增加，以及训练者口吃程度的下降，则可逐步增加语音包的复杂度，从而与训练者的实际情况匹配。

在一种可能的实现方式中，以上每条训练语音信息均为医生等专业人士针对训练目的提前录制的，训练语音信息具有声音柔和，语速缓慢，且针对单个字词需要持续的声带振动从而持续发音等特点。训练语音信息与日常语言沟通中的语言发音具有较明显的区别。例如，对于训练语音信息“飞机”（拼音：fei ji），可在录制训练语音信息时，由医生等专业人士发出f～～fei，j～～ji的声音，其中，每个发音的时长均长于正常发音，且在每个字词的发音过程中，需使声带持续振动从而持续发音，并且，声音柔和，易于使儿童训练者接受。

在一种可能的实现方式中，在选择好目标语音包后，所述装置可通过第一播放模块播放目标语音包中的训练语音信息，例如，可按预设顺序播放训练语音系信息，或者可随机播放任意一条训练语音信息，本公开对此不做限制。

在一种可能的实现方式中，所述装置还可包括显示器，可显示与播放的训练语音信息对应的卡片图像。例如，训练语音信息为“飞机”（拼音：fei ji），则在卡片图像中可包括飞机的画面、飞机的文本、飞机的拼音等信息，从而使训练者在听到播放的训练语音信息的同时，看到显示的卡片图像，从而可引导训练者模仿训练语音信息的发音。进一步地，卡片图像的显示还可与训练者的读音对应，例如，训练者在发出声音时，例如，发出f～～fei，j～～ji的声音时，卡片上显示的f～～fei，j～～ji的拼音可随着声音被染色，例如，在训练者未开始发声之前，卡片图像显示的f～～fei，j～～ji的拼音为白色，在训练者开始读fei的发音时，f～～fei的拼音可逐步染色，染色的时长与训练语音信息中f～～fei的拼音的发声时长相同，发声时长结束后，f～～fei的拼音可被全部染色，从而引导训练者按照相同的时长进行发声。在示例中，根据训练语音信息的不同，卡片图像也可互不相同，例如，卡片图像可包括命名卡片图像、短句卡片图像、故事卡片图像等，分别对应仅具有一个单词的训练语音信息、具有一个短句的训练语音信息和具有一段故事的训练语音信息。本公开对卡片图像的类别不做限制。

在一种可能的实现方式中，在训练者模仿训练语音信息发声后，所述装置可采集到声音信息。为了提升训练精度，所述装置还可包括识别模块，所述识别模块可用于识别出采集到的声音信息是否来自训练者。在示例中，所述装置可事先采集训练者的声音，并获取声纹信息。在获取到训练者模仿训练语音信息的声音信息后，所述装置可对该声音信息的声纹与事先收集的声音的声纹进行比对，从而确定声音信息来自训练者，从而避免其他人的声音对声音信息造成干扰，也可减少其他人的声音干扰所述装置对于训练者的声音信息的识别和评价。进一步地，如果训练者的声音信息和其他声音混合，则还可基于事先采集的训练者的声音的声纹信息，来提取混合声音中的训练者的声音，滤除其他声音，从而获得训练者模仿训练语音信息的声音信息。

在一种可能的实现方式中，在获取声音信息后，所述装置可通过语义信息确定模块来识别声音信息的第一语义信息。第一语义信息可表示声音信息的含义，可用于确定声音信息与训练语音信息的含义是否相符，例如，可确定声音信息所包含的字词与训练语音信息是否一致。

在一种可能的实现方式中，可通过预训练的语义识别模型对声音信息进行识别，获得其第一语义信息。所述语义识别模型可以是深度学习神经网络模型，例如，卷积神经网络模型、递归神经网络模型等，本公开对语义识别模型的具体形式不做限制。所述语义识别模型通过获取所述声音信息的声音特征信息，来确定所述第一语义信息。并且，在语义识别模型中，包括对具有预设模式的声音特征信息增加权重的注意力机制。

在一种可能的实现方式中，所述语义信息确定模块进一步用于：通过所述语义识别模型，获取所述声音信息的多个字词的声音特征信息；通过所述注意力机制，提升具有预设模式的声音特征信息的权重，获得语义特征信息，其中，具有预设模式的声音特征信息包括特征相似度大于或等于相似度阈值的相邻的声音特征信息，以及字词的发音时长与所述训练语音信息中对应字词的发音时长之差大于或等于时长阈值的声音特征信息；根据所述语义特征信息，确定所述声音信息的第一语义信息。

在一种可能的实现方式中，所述语义识别模型可对声音信息进行特征提取处理，获得多个字词的声音特征信息。如果训练者患有口吃，则训练者的声音信息可能出现对相邻字词的重复，字词的卡顿，字词拉长音等现象。则反应在声音特征信息中，上述现象可能出现相邻的声音特征信息的特征相似度较高，以及字词的发音时长较长等现象。在这种情况下，可着重识别出现重复、卡顿、拉长音等现象的字词，从而适应口吃的声音信息的特点。在示例中，可通过注意力机制来增加出现上述现象（即，具有预设模式）的声音特征信息在语义识别模型的运算中的权重，获得提升权重后的语义特征信息。

在一种可能的实现方式中，在确定声音特征信息是否具有预设模式时，可通过训练者所模仿的训练语音信息进行参考。例如，在判断相邻字词的重复是否是由于口吃引起时，可确定训练语音信息中对应的字词是否也是重复字词，如果训练语音信息中对应的字词并非重复字词，则声音信息中的重复字词则是口吃引起，在这种情况下，相邻字词的声音特征信息的特征相似度（例如，余弦相似度）较高（例如，高于相似度阈值，例如，0.6或0.8等），则可增加相邻声音特征信息的权重。又例如，如果字词的发音时长与训练语音信息中对应字词的发音时长之差大于或等于时长阈值的声音特征信息，则该字词的拉长音或卡顿现象是由于口吃引起的，在这种情况下，可增加该字词的声音特征信息的权重。

在一种可能的实现方式中，在经过上述注意力机制的处理后，可增加出现重复、卡顿、拉长音等现象的字词的声音特征信息的权重，提升对于存在上述现象的字词的语义识别准确性，更适应患有口吃的训练者发出的声音信息。

在一种可能的实现方式中，可基于权重增加后获得的语义特征信息，来确定声音信息的第一语义信息，例如，可基于词袋（word bag）、词典等算法，通过语义特征信息确定各字词的分布特征，从而基于分布特征识别声音信息的各字词的第一语义信息。本公开对确定第一语义信息的具体方法不做限制。

在一种可能的实现方式中，在确定训练者的声音信息的第一语义信息后，所述装置可通过评价模块，利用第一语义信息、训练语音信息和声音信息的特性，对声音信息进行评价，确定对于声音信息的评价分数，并确定声音信息的异常类型，从而为生成反馈给训练者的提示消息以及后续训练过程提供依据。异常类型表示声音信息与训练语音信息之间的差异类型，评价分数表示声音信息与训练语音信息之间的相似性。在示例中，异常信息可表示声音信息相较于训练语音信息存在哪些方面的差异，例如，声音信息相较于训练语音信息，在某个字词处存在卡顿，或者重复等差异。在示例中，评价分数表示声音信息相较于训练语音信息是否相似，例如，每个字词的读音是否相似、发音时长是否相似、是否出现卡顿等影响相似性的现象等。

在一种可能的实现方式中，所述评价模块进一步用于：确定所述第一语义信息和所述训练语音信息的第二语义信息之间的语义相似度；根据所述第一语义信息、所述第二语义信息以及所述训练语音信息中各字词的预设权重，确定所述声音信息的重复评分，其中，所述重复评分表示在所述声音信息中，对所述训练语音信息中任意字词进行重复发声的情况；根据所述声音信息的第一声波信息、所述训练语音信息的第二声波信息以及所述训练语音信息中各字词的预设权重，确定所述声音信息的卡顿评分，其中，所述卡顿评分表示在所述声音信息中，对所述训练语音信息中任意字词进行发生时出现卡顿的情况；根据所述声音信息的第一声波信息，和所述训练语音信息的第二声波信息，确定所述声音信息的发音时长评分，其中，所述发音时长评分表示在所述声音信息中，对所述训练语音信息中各个字词进行发声的时长情况；根据所述声音信息的第一音量信息，和所述训练语音信息的第二音量信息，确定所述声音信息的音量评分，其中，所述音量评分表示在所述声音信息中，对各个字词的发声的音量情况；根据所述语义相似度、所述重复评分、所述卡顿评分、所述发音时长评分和所述音量评分，确定所述异常类型和所述评价分数。

在一种可能的实现方式中，所述训练语音信息是预先存储于数据库中的，也可预先使用上述语义识别模型获取其第二语义信息，并存储于数据库中。在确定语义相似度时，可确定第一语义信息和第二语义信息的语义相似度，从而确定声音信息所表达的意思与训练语音信息是否一致，或者声音信息与训练语音信息针对相同字词的发音是否相同。所述语义相似度可通过余弦相似度、欧式相似度等具体相似度来表示，本公开对语义相似度的确定方式不做限制。

在一种可能的实现方式中，如果训练者患有口吃，则其发音可能会出现重复某个字词的现象，如果训练语音信息中字词未重复，但声音信息中相应字词发生重复，则该重复现象是由于口吃引起的，且重复的字词越多，口吃的问题越严重。因此，可基于声音信息中字词重复的情况，来评价训练者的声音信息的发音。

在一种可能的实现方式中，所述评价模块进一步用于：根据所述第一语义信息，确定出现重复的字词；根据所述第二语义信息，对所述出现重复的字词进行筛选，获得目标重复字词，所述目标重复字词为在所述训练语音信息中不重复，在所述声音信息中重复的字词；根据公式（1），确定所述重复评分

（1）

其中，T₁为所述重复评分，w_i为第i个目标重复字词的预设权重，n₁为目标重复字词的数量。

在一种可能的实现方式中，所述训练语音信息中各个字词可具有预设权重，例如，可根据先验知识，确定一句话中易于出现发音错误、卡顿或重复的字词，并提高其权重，其他字词则可降低权重。从而使评价分数更有针对性。

在一种可能的实现方式中，通过对第一语义信息的识别，可确定出声音信息中出现重复的字词。可基于第二语义信息进行核对，即，可确定重复的字词在第二语义信息中是否也为重复的字词。如果该字词在第二语义信息中也为重复字词，则该重复现象则不是由于口吃引起的。反之，如果该字词在第二语义信息中不是重复字词，则该重复现象则是由于口吃引起的，因此，该字词可被确定为目标重复字词。

在一种可能的实现方式中，可根据公式（1）确定重复评分。可对重复字词的预设权重进行累加，由于口吃出现重复的字词数量越多，则累加结果越大，而重复评分则越低。并且，如果权重较高的字词出现重复，则重复评分会下降地更快，因此，重复评分可更有针对性地判断易出现重复的字词是否出现重复，从而对训练者由于口吃出现的字词重复现象做出更准确和客观的评价。

在一种可能的实现方式中，如果训练者患有口吃，则其发音可能会出现在某个字词处出现卡顿的现象，例如，卡在某个字词处，难以说出下一个字词，并在较长的间隔时长（显著超过正常字词间隔时长或训练语音信息中的字词间隔时长）后才能说出下一个字词。卡顿现象出现地越多，也可表明口吃现象越严重，因此，可对声音信息中的卡顿现象进行评价。

在一种可能的实现方式中，所述评价模块进一步用于：根据所述声音信息的第一声波信息和所述训练语音信息的第二声波信息中，各个字词之间的间隔时长，确定所述声音信息中出现卡顿的字词；根据公式（2），确定所述卡顿评分：

（2）

其中，T₂为所述卡顿评分，t_1，j为第j个出现卡顿的字词与相邻字词之间的间隔时长，t_2，j为所述训练语音信息中与第j个出现卡顿的字词对应的字词与相邻字词之间的间隔时长，n₂为出现卡顿的字词的数量，w_j为第j个出现卡顿的字词的预设权重。

在一种可能的实现方式中，可获取声音信息的第一声波信息和训练语音信息的第二声波信息，并基于两种声波信息，确定第二声波信息中各个字词之间的间隔时长是否明显长于第一声波信息中各个字词之间的间隔时长。例如，可设置阈值（例如，时长阈值或百分比阈值），如果第二声波信息中某个字词与相邻字词之间的间隔时长，与第一声波信息中的对应字词与相邻字词之间的间隔时长的差距达到以上设置的阈值则可确定声音信息中该字词出现卡顿。

在一种可能的实现方式中，可基于公式（2）来确定卡顿评分，在公式（2）中，可使用出现卡顿的字词的权重，对出现卡顿的字词与相邻字词之间的间隔时长进行加权，从而使得权重较高的字词出现卡顿时，卡顿评分下降更快，从而有针对性地判断易出现卡顿的字词是否出现卡顿，从而对训练者的出现自此卡顿的现象进行更准确和客观的评价。

在一种可能的实现方式中，在公式（2）中，可利用出现卡顿的字词与相邻字词之间的间隔时长加权后的结果，与训练语音信息中对应的字词与相邻字词之间的间隔时长加权后的结果之差的二范数，来确定出现卡顿的与相邻字词之间的间隔时长与训练语音信息中对应字词与相邻字词之间的间隔时长之间的差距。使用二范数的运算可保证该差距为正数。进一步地，在求解二范数后，可对所有出现卡顿的字词对应的二范数进行累加。并计算二范数累加的结果与训练语音信息中对应字词与相邻字词之间的间隔时长的加权求和结果之间的比值，从而确定卡顿的时长与正常发音间隔时长之间的比例，该比值越大，则可表示卡顿现象越严重。通过1减去该比值可获得卡顿评分，则卡顿现象越严重，卡顿评分越低。

在一种可能的实现方式中，如果训练者患有口吃，则其发音可能会出现在某个字词处拉长音的现象。该拉长音现象与在该字词处卡顿现象有所不同，拉长音现象可表示在较长时间间隔内一直针对该字词进行发音；而在该字词处卡顿的现象表示在该字词发音完成后，经过较长时间间隔才发出下一个字词的发音，在时间间隔内不发音。但二者均可使字词之间的时间间隔延长。

在一种可能的实现方式中，可根据声音信息的第一声波信息，和训练语音信息的第二声波信息，确定所述声音信息的发音时长评分。在示例中，可将声音信息中每个字词的发音时长与训练语音信息中每个字词的发音时长进行对比，从而确定训练者是否由于口吃导致某个或某些字词的发音时长异常，即，与训练语音信息中的字词的发音时长差距较大，从而确定发音时长评分。

在一种可能的实现方式中，所述评价模块进一步用于：根据公式（3），确定所述发音时长评分：

（3）

其中，T₃为所述发音时长评分，t_3，k为所述声音信息中第k个字词的发音时长，t_4，k为所述训练语音信息中第k个字词的发音时长，n为所述训练语音信息中的字词数量。

在一种可能的实现方式中，在公式（3）中，可计算声音信息中字词的发音时长与训练语音信息中字词的发音时长之差的二范数，使用二范数可防止声音信息中某个字词的发音时长相对于训练语音信息中字词的发音时长更长，另一字词的发音时长相对于训练语音信息中字词的发音时长更短，从而在求和过程中被抵消，导致求和结果不能准确反映各个字词的发音时长的差距。可求解上述求和结果与训练语音信息中的字词的发音时长的求和结果之间的比值，该比值越大，则可表示发音时长的偏差越严重，在公式（3）中通过1减去该比值，则发音时长的偏差越严重，发音时长评分越低。

在一种可能的实现方式中，可根据声音信息的第一音量信息，和训练语音信息的第二音量信息，确定所述声音信息的音量评分。在示例中，为了使训练者更易接收发声训练，不易产生抵触心理，训练语音信息的声音可轻柔且平缓，例如，首个字词前半段的发音的音量平稳地增大，首个字词后半段与剩余字词的发音音量平稳。例如，“柠檬”（拼音：ningmeng）的首个字词的发音“ning”的前半段的音量可平稳地增大，“ning”的后半段与“meng”的音量可保持平稳。在另一示例中，“我去上学了”（拼音：wo qu shang xue le）的首个字词的发音“wo”的前半段的音量可平稳地增大，“wo”的后半段的音量与“qu shang xue le”的音量可保持平稳。

在一种可能的实现方式中，为判断训练者的声音信息是否符合上述规律，所述评价模块进一步用于：

根据公式（4），确定所述音量评分：

（4）

其中，T₄为所述音量评分，n₃为所述第二音量信息中的音量放大的结束时刻在所述声音信息中对应时刻之前的采样点总数，v_t为t≤n₃时，第t个采样点的音量，count为计数函数，用于统计满足条件（v_t+1-v_t）＜0的采样点的数量，u_t为t＞n₃时，第t个采样点的音量，m为所述声音信息中采样点的总数，D（u_t）为u_t的方差。

在一种可能的实现方式中，可根据训练语音信息的第二音量信息确定首个字词中音量从平稳增大到保持平稳的过渡的时间点，该时间点在声音信息中的对应时刻之前的采样点总数为n₃，在声音信息中的采样点总数为m。训练者的声音信息可模仿训练语音信息，首先平稳增大，再保持平稳，可根据以上公式（4）确定训练者的第一音量信息在增大过程中是否能够稳定地增大，以及在保持平稳的过程中是否能够保持稳定。

在一种可能的实现方式中，在第一音量信息增大的过程中可进行了n₃次对于音量的采样，如果音量增大过程保持平稳，则在先时刻采样的音量应小于在后时刻采样的音量，即，（v_t+1-v_t）＞0，反之，如果音量增大过程不平稳，则可能出现在先时刻采样的音量应大于在后时刻采样的音量的现象，即，（v_t+1-v_t）＜0，可统计满足条件（v_t+1-v_t）＜0的采样点的数量，并求解该数量与音量增大过程种的采样点总数n₃的比值，通过1减去该比值获得的结果，满足在先时刻采样的音量应大于在后时刻采样的音量的采样点数量越多，则该结果越小。

在一种可能的实现方式中，在音量保持平稳的过程中，可求解保持平稳的过程中的m-n₃个采样点的音量的方差D（u_t），方差可表示音量的平稳性，音量越平稳，则方差越小，反之，音量越不平稳，则方差越大。因此，通过1减去方差D（u_t）的结果，可满足音量越平稳，则该结果越大，音量越不平稳，则该结果越小。

在一种可能的实现方式中，音量评分T₄可等于音量增大过程的结果与音量保持平稳的过程的结果的加权求和，其中，权值可设定为两个过程中采样点的比例，即，音量增大过程的权值为

，音量保持平稳的过程的权值为/>

。通过这种方式，可准确且客观地反映训练者的音量是否符合要求。

在一种可能的实现方式中，可综合以上语义相似度、重复评分、卡顿评分、发音时长评分和音量评分，确定声音信息的评价分数。所述评价模块进一步用于：根据公式，确定所述评价分数

（5）

其中，T为所述评价分数，S为所述语义相似度，T₁为所述重复评分，T₂为所述卡顿评分，T₃为所述发音时长评分，T₄为所述音量评分，α为语义相似度的权重，β为重复评分的权重，

为卡顿评分的权重，/>

为发音时长评分的权重，ε=γ+δ，θ为音量评分的权重。

在一种可能的实现方式中，可对以上语义相似度、重复评分、卡顿评分、发音时长评分和音量评分进行加权求和，权重可通过先验知识来设置。并且，由于发音卡顿和发音时长异常均可能造成相邻字词之间发音间隔时长异常，因此，将卡顿评分的权重设置为

，将发音时长评分的权重设置为/>

。

在一种可能的实现方式中，还可确定声音信息的异常类型。在示例中，可将以上多种评分中，评分最低的评价项目的类型，确定为所述异常类型。例如，在语义相似度、重复评分、卡顿评分、发音时长评分和音量评分中，卡顿评分最低，则可表示在声音信息中，卡顿问题相对于其它问题更为严重，因此，可将声音信息的异常类型确定为发音卡顿。

在一种可能的实现方式中，所述装置可通过提示模块来确定要播放的提示消息，从而正确引导训练者，减少训练者对于说话的恐惧。并且可针对声音信息中的具体情况进行语言激励或语言引导，可使训练者能够了解自己的发声问题，从而进行有针对性地训练，减轻口吃症状，提升训练者的训练积极性和沟通积极性，提升训练者信心。

在一种可能的实现方式中，所述提示模块进一步用于：根据所述评价分数，确定提示消息模板；在所述提示消息模板中生成与所述异常类型对应的文本信息，获得所述提示消息。

在示例中，可根据评价分数选择提示消息模板，例如，如果评价分数高于或等于分数阈值，例如，高于或等于0.8，则可选择语言激励型的提示消息模板，例如，“刚才的XXX说的很好，就是这样说”，或者“刚才的XXX说的非常流畅”等。如果评价分数低于分数阈值，例如，低于0.8，则可选择语言引导型的提示消息模板。例如，“刚才有一点XXX，请你XXX”等。

在示例中，进一步地，可基于异常类型，在提示消息模板中生成对应的文本信息。在示例中，在语言激励型的提示消息模板中，生成文本信息，使得上述模板成为完整的提示消息，例如，“刚才的fei ji说的很好，就是这样说”，或者“刚才的fei ji说的非常流畅”。在另一示例中，在语言引导的提示消息模板中，生成文本信息，使得上述模板成为完整的提示消息，例如，对于字词卡顿的异常类型，可生成“刚才的fei字有一点不流畅，请你放慢语速”，对于发音时长的异常类型，可生成“刚才的fei字有一点短，请你一直发音，让声带震动起来”。以上提示消息仅为示例，本公开对提示消息的具体内容不做限制。

在一种可能的实现方式中，在确定上述提示消息后，所述装置可通过第二播放模块播放提示消息。进一步地，所述装置可基于评价分数来判断在继续训练时，仍然选择目标语音包中的训练语音消息继续训练，还是更换不同难度的语音包。例如，如果评价分数高于或等于0.9，则可更换难度更大的语音包，对训练者进行更高效地训练。说如果评价分数低于0.9，则仍可使用以上选择的目标语音包，并使用目标语音包中的其他训练语音信息或者再次播放同一训练语音信息进行训练。

在一种可能的实现方式中，可根据各评价项目的评分来确定训练语音信息，例如，如果某个单一评价项目的评分（例如，卡顿评分、重复评分等）低于0.6，则可再次播放同一训练语音信息进行训练，反之，如果所有单一评价项目的评分均高于或等于0.6，则可更换训练语音信息进行训练。本公开对选择语音包和更换训练语音信息的分数标准不做限制。

根据本公开的实施例的塑造儿童语言流畅度训练装置，可选择与训练者匹配的目标语音包，从而可对不同的训练者进行针对性地训练和干预。并可在接收到训练者模仿训练语音信息的声音信息时，通过具有注意力机制的语义识别模型来提升第一语义信息的准确性。进一步地，可通过多种评价项目以及评价机制，对声音信息进行更准确和客观的评价，从而获得准确的评价分数和异常类型。并基于评价分数和异常类型，有针对性地生成并播放提示消息，从而可对训练者进行准确的反馈，可使训练者能够了解自己的发声问题，引导训练者进行正确发声，减少训练者的语言焦虑，减少说话时的恐惧心理，提升语言流畅度，预防潜在的精神健康问题，改善训练者的生活质量。

图2示出根据本公开实施例的塑造儿童语言流畅度训练设备的示意图。如图2所示，所述设备包括计算机、音频采集组件和音频播放组件，以上塑造儿童语言流畅度训练装置可被集成在所述计算机中。

在一种可能的实现方式中，所述计算机可根据训练者的标识信息选择目标语音包，并通过音频播放组件（例如，音响等）播放目标语音包中的训练语音信息。

在一种可能的实现方式中，训练者可模仿训练语音信息进行发声练习，所述设备可通过音频采集组件（例如，麦克风等）接收训练者的声音信息。所述计算机可将声音信息转换为计算机可读的信号，并通过预训练的语义识别模型确定声音信息的第一语义信息。

在一种可能的实现方式中，计算机还可根据训练语音信息、第一语义信息和声音信息获得声音信息的异常类型和评价分数，进而有针对性地生成提示消息，并通过音频播放组件播放提示消息。

在一种可能的实现方式中，计算机还可对训练者进行多次训练，并在每次训练时均可基于上次训练的评价分数来选择语音包。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。

本公开实施例还提出一种塑造儿童语言流畅度训练设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述装置所执行的步骤。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现如上任一实施例提供的装置所执行的步骤。

本公开实施例还提供了另一种计算机程序产品，用于存储计算机可读指令，指令被执行时使得计算机执行上述任一实施例提供的装置所执行的步骤。

塑造儿童语言流畅度训练设备可以被提供为终端、服务器或其它形态的设备。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

可以理解，本公开提及的上述实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本公开中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本公开披露的各实施例。

Claims

1.一种塑造儿童语言流畅度训练装置，其特征在于，包括：

第一播放模块，用于播放所述训练语音信息；

第二播放模块，用于播放所述提示消息；

所述评价模块进一步用于：

根据所述语义相似度、所述重复评分、所述卡顿评分、所述发音时长评分和所述音量评分，确定所述异常类型和所述评价分数；

所述评价模块进一步用于：

根据所述第一语义信息，确定出现重复的字词；

根据公式

，确定所述重复评分，其中，T₁为所述重复评分，w_i为第i个目标重复字词的预设权重，n₁为目标重复字词的数量；

所述评价模块进一步用于：

根据公式

，确定所述卡顿评分，其中，T₂为所述卡顿评分，t_1，j为第j个出现卡顿的字词与相邻字词之间的间隔时长，t_2，j为所述训练语音信息中与第j个出现卡顿的字词对应的字词与相邻字词之间的间隔时长，n₂为出现卡顿的字词的数量，w_j为第j个出现卡顿的字词的预设权重；

所述评价模块进一步用于：

根据公式

，确定所述发音时长评分，其中，T₃为所述发音时长评分，t_3，k为所述声音信息中第k个字词的发音时长，t_4，k为所述训练语音信息中第k个字词的发音时长，n为所述训练语音信息中的字词数量；

所述评价模块进一步用于：

根据公式

，确定所述音量评分，其中，T₄为所述音量评分，n₃为所述第二音量信息中的音量放大的结束时刻在所述声音信息中对应时刻之前的采样点总数，v_t为t≤n₃时，第t个采样点的音量，count为计数函数，用于统计满足条件（v_t+1-v_t）＜0的采样点的数量，u_t为t＞n₃时，第t个采样点的音量，m为所述声音信息中采样点的总数，D（u_t）为u_t的方差；

所述评价模块进一步用于：

根据公式

为卡顿评分的权重，/>

为发音时长评分的权重，ε=γ+δ，θ为音量评分的权重。

2.根据权利要求1所述的塑造儿童语言流畅度训练装置，其特征在于，所述语义信息确定模块进一步用于：

3.根据权利要求1所述的塑造儿童语言流畅度训练装置，其特征在于，所述提示模块进一步用于：

根据所述评价分数，确定提示消息模板；