CN111079423A

CN111079423A - 一种听写报读音频的生成方法、电子设备及存储介质

Info

Publication number: CN111079423A
Application number: CN201910712317.0A
Authority: CN
Inventors: 张明云
Original assignee: Shenzhen China Star Optoelectronics Technology Co Ltd
Current assignee: TCL China Star Optoelectronics Technology Co Ltd
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2020-04-28

Abstract

本发明实施例涉及教育技术领域，公开了一种听写报读音频的生成方法、电子设备及存储介质。该方法包括：获取待听写的听写字词对应的教材文本信息；从教材文本信息中确定出关联文本信息；关联文本信息包括听写字词和听写字词的上下文内容；对关联文本信息进行分词处理，以获得包含听写字词的词组；根据词组和听写字词生成报读文本；利用用户选择的目标情感类型和报读文本，合成听写报读音频，听写报读音频具有与目标情感类型相对应的情感风格。实施本发明实施例，能够缩小听写报读音频的提示范围，进而提高学生的听写准确率，同时提高听写报读音频的情感度。

Description

一种听写报读音频的生成方法、电子设备及存储介质

技术领域

本发明涉及教育技术领域，具体涉及一种听写报读音频的生成方法、电子设备及存储介质。

背景技术

目前，学生一般会在课后通过学习机、家教机、点读机、学习平板或个人助理等电子设备对课文中的生字词进行听写训练，以尽快掌握课文中的生字词。一般来说，听写训练包括“听”和“写”两个过程，即，电子设备报读听写音频，然后学生根据所听到的内容，写出对应的书写字词，以训练学生关于“听”和“写”的能力。

现有技术中听写音频可由语音合成(Text To Speech，TTS)技术进行报读，TTS报读就是一个将文本转化为语音输出的过程，这个过程的工作主要是将输入的文本按字或词分解为音素，将音素生成数字音频然后用扬声器播放出来，可在实践中发现，TTS报读方法在听觉上会显得报读生硬且无情感。

与此同时，现有技术中听写音频的报读通常都是单纯报读生字词的拼音，可是很多生字词存在同音的情况，这时单纯报读拼音的话，无法启发学生联想到准确的生字词，比如，只报读生字“好”的拼音，学生可能会听成“郝”字，造成听写错误，以至于学生的听写准确率较低。

发明内容

针对上述缺陷，本发明实施例公开了一种听写报读音频的生成方法、电子设备及存储介质，能够缩小听写报读音频的提示范围，进而提高学生的听写准确率，同时提高听写报读音频的情感度。

本发明实施例第一方面公开一种听写报读音频的生成方法，包括：

获取待听写的听写字词对应的教材文本信息；

从所述教材文本信息中确定出关联文本信息；所述关联文本信息包括所述听写字词和所述听写字词的上下文内容；

对所述关联文本信息进行分词处理，以获得包含所述听写字词的词组；

根据所述词组和所述听写字词生成报读文本；

利用用户选择的目标情感类型和所述报读文本，合成听写报读音频，所述听写报读音频具有与所述目标情感类型相对应的情感风格。

作为一种可选的实施方式，在本发明实施例第一方面中，所述利用用户选择的目标情感类型和所述报读文本，合成听写报读音频之前，所述方法还包括：

获取用户朗读所述教材文本信息的朗读语音数据；

从所述朗读语音数据中识别出用户朗读所述教材文本信息时使用的若干种情感各自对应的朗读情感类型；

接收用户对若干种所述朗读情感类型中任一种朗读情感类型的选择操作指令，并将用户选择的朗读情感类型作为所述目标情感类型。

作为一种可选的实施方式，在本发明实施例第一方面中，所述从所述朗读语音数据中识别出用户朗读所述教材文本信息时使用的若干种情感各自对应的朗读情感类型，包括：

获取所述朗读语音数据包括的各个朗读音频对应的朗读得分；

从所述各个朗读音频中确定出所述朗读得分高于指定分数的若干个目标朗读音频；以及，确定每一所述目标朗读音频的朗读情感类型，以获得若干种朗读情感类型。

作为一种可选的实施方式，在本发明实施例第一方面中，所述获取待听写的听写字词对应的教材文本信息之前，所述方法还包括：

在播放学习视频的过程中，若识别出用户对所述学习视频中任一视频片段感兴趣，从所述视频片段中提取关键词作为待听写的听写字词；

以及，所述获取待听写的听写字词对应的教材文本信息，包括：

获取所述学习视频对应的教材文本信息。

作为一种可选的实施方式，在本发明实施例第一方面中，所述利用用户选择的目标情感类型和所述报读文本，合成听写报读音频之后，所述方法还包括：

根据用户在社交网络上的用户行为数据，提取得到所述用户分享所述听写报读音频时的分享情感类型以及兴趣值；

建立所述分享情感类型、所述兴趣值各自与所述听写报读音频之间的映射关系，得到所述用户的第一用户关联数据；

计算所述社交网络上拥有第二用户关联数据的相似用户，所述第二用户关联数据与所述第一用户关联数据的相似度达到预设阈值，所述相似用户与所述用户不同；将所述相似用户的电子名片推荐给所述用户。

本发明实施例第二方面公开一种电子设备，包括：

第一获取单元，用于获取待听写的听写字词对应的教材文本信息；

确定单元，用于从所述教材文本信息中确定出关联文本信息；所述关联文本信息包括所述听写字词和所述听写字词的上下文内容；

分词单元，用于对所述关联文本信息进行分词处理，以获得包含所述听写字词的词组；

生成单元，用于根据所述词组和所述听写字词生成报读文本；

合成单元，用于利用用户选择的目标情感类型和所述报读文本，合成听写报读音频，所述听写报读音频具有与所述目标情感类型相对应的情感风格。

作为一种可选的实施方式，在本发明实施例第二方面中，还包括：

第二获取单元，用于在所述合成单元利用用户选择的目标情感类型和所述报读文本合成听写报读音频之前，获取用户朗读所述教材文本信息的朗读语音数据；

识别单元，用于从所述朗读语音数据中识别出用户朗读所述教材文本信息时使用的若干种情感各自对应的朗读情感类型；

接收单元，用于接收用户对若干种所述朗读情感类型中任一种朗读情感类型的选择操作指令，并将用户选择的朗读情感类型作为所述目标情感类型。

作为一种可选的实施方式，在本发明实施例第二方面中，所述识别单元包括：

获取子单元，用于获取所述朗读语音数据包括的各个朗读音频对应的朗读得分；

确定子单元，用于从所述各个朗读音频中确定出所述朗读得分高于指定分数的若干个目标朗读音频；以及，确定每一所述目标朗读音频的朗读情感类型，以获得若干种朗读情感类型。

第一提取单元，用于在所述第一获取单元获取待听写的听写字词对应的教材文本信息之前，以及在播放学习视频的过程中，若识别出用户对所述学习视频中任一视频片段感兴趣，从所述视频片段中提取关键词作为待听写的听写字词；

所述第一获取单元，具体用于获取所述学习视频对应的教材文本信息。

第二提取单元，用于在所述合成单元利用用户选择的目标情感类型和所述报读文本合成听写报读音频之后，根据用户在社交网络上的用户行为数据，提取得到所述用户分享所述听写报读音频时的分享情感类型以及兴趣值；

映射单元，用于建立所述分享情感类型、所述兴趣值各自与所述听写报读音频之间的映射关系，得到所述用户的第一用户关联数据；

计算单元，用于计算所述社交网络上拥有第二用户关联数据的相似用户，所述第二用户关联数据与所述第一用户关联数据的相似度达到预设阈值，所述相似用户与所述用户不同；

推荐单元，用于将所述相似用户的电子名片推荐给所述用户。

本发明实施例第三方面公开一种电子设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的一种听写报读音频的生成方法。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种听写报读音频的生成方法。所述计算机可读存储介质包括ROM/RAM、磁盘或光盘等。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，通过获取待听写的听写字词对应的教材文本信息，从教材文本信息中确定出关联文本信息，其中关联文本信息包括听写字词和听写字词的上下文内容，然后对关联文本信息进行分词处理以获得包含听写字词的词组，根据词组和听写字词生成报读文本，最后利用用户选择的目标情感类型和报读文本，合成具有与目标情感类型相对应的情感风格的听写报读音频，相比于传统的单纯拼音报读，本发明实施例采用文本量大于听写字词的报读文本，能够缩小听写报读音频的提示范围，进而提高学生的听写准确率，同时嵌入情感，使最后生成的听写报读音频具有情感风格，能够提高听写报读音频的情感度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种听写报读音频的生成方法的流程示意图；

图2是本发明实施例公开的另一种听写报读音频的生成方法的流程示意图；

图3是本发明实施例公开的一种电子设备的结构示意图；

图4是本发明实施例公开的另一种电子设备的结构示意图；

图5是本发明实施例公开的又一种电子设备的结构示意图；

图6是本发明实施例公开的一种电子设备拍摄获得页面图像的拍摄过程示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明实施例中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。

此外，术语“安装”、“设置”、“装设”、“连接”、“相连”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明实施例公开了一种听写报读音频的生成方法、电子设备及存储介质，能够缩小听写报读音频的提示范围，进而提高学生的听写准确率，同时提高听写报读音频的情感度。

其中，本发明实施例所示的方法适用于家教机、学习机、点读机、学习平板或学习电脑等电子设备。其中，各类电子设备的操作系统包括但不限于Android操作系统、IOS操作系统、Symbian(塞班)操作系统、Black Berry(黑莓)操作系统、Windows Phone8操作系统等等，本发明实施例不做限定。本发明实施例的执行主体以电子设备为例进行描述，应理解，不应对本发明构成任何限定。以下结合附图进行详细描述。

实施例一

请参阅图1，图1是本发明实施例公开的一种听写报读音频的生成方法的流程示意图。如图1所示，该听写报读音频的生成方法可以包括以下步骤：

101、电子设备获取待听写的听写字词对应的教材文本信息。

本发明实施例中，待听写的听写字词包括但不限于语文生字词、语文拼音字母、英文短语、英文单词、英文字母、英文音标、化学元素名称及符号、音乐唱名等任意一种内容，本发明在此不作具体限定。其中音乐唱名指的是如do、re、mi、fa、so、la、si等内容。

本发明实施例中，电子设备上可安装有听写应用程序，那么，步骤101具体可以包括：电子设备显示听写应用程序的用户操作界面，以及检测用户在用户操作界面上的点击操作，以获得用户的选取信息；根据选取信息获得用户选取的待听写的听写字词以及待听写的听写字词对应的教材文本信息；其中选取信息可以包括某一本教材以及该教材中的生字词；或者，选取信息包括某一本教材、该教材中的某一篇课文以及该课文中的生字词。如此，基于人机交互获取用户自主选择的听写字词，可以更好地满足用户的听写需求。

进一步地，根据选取信息获得用户选取的待听写的听写字词以及待听写的听写字词对应的教材文本信息具体可以包括：

若选取信息包括某一本教材以及该教材中的生字词，将生字词作为待听写的听写字词，将该教材的文本内容作为教材文本信息；

若选取信息包括某一本教材、该教材中的某一篇课文以及该课文中的生字词，可以将生字词作为待听写的听写字词，将该教材中的该课文的文本内容作为教材文本信息。

综上可知，教材文本信息的文本量随着用户的选取信息的变化而变化，通过该实施方式，能够根据用户的选取信息，自适应控制教材文本信息的文本量，使得教材文本信息的确定方式更加灵活。

102、电子设备从教材文本信息中确定出关联文本信息。

其中，关联文本信息包括听写字词和听写字词的上下文内容。

本发明实施例中，可以根据每一个待听写的听写字词位于教材文本信息中的具体位置，识别该具体位置对应的上下文内容，以提取包含该听写字词以及上下文内容的关联文本信息。

可选地，上下文内容可以是以具体位置为中心、以预设的框取范围进行框取获得的部分文本信息。比如，某一个待听写的听写字词位于教材文本信息的第3行第4列的位置，预设框取范围包括行数2和列数2，那么可以以第3行第4列为中心，分别向上、向下扩展2行，以及分别向、左向右扩展2列，最后获得分别以第1行第2列、第1行第6列、第5行第2列以及第5行第6列四个点包围的部分文本信息作为上下文内容。

103、电子设备对关联文本信息进行分词处理，以获得包含听写字词的词组。

可选地，可以采用神经语言程序学(Neuro-Linguistic Programming，NLP)技术，并基于预设的分词规则，对关联文本信息进行分词处理。

作为另一种可选的实施方式，电子设备在对关联文本信息进行分词处理的实施方式具体可以是先对关联文本信息中包括的各个单字进行归一化处理，然后确定各个单字的第一特征向量，以及任意相邻的每两个单字之间的第二特征向量，根据第一特征向量和第二特征向量，确定各个单字的第三特征向量，根据预设的汉字标签转移矩阵以及各个单字的第三特征向量，进行马尔可夫解码处理，确定各个单字对应的标签向量，根据各个单字的标签向量，对关联文本信息进行分词处理。

其中，单字可以是对关联文本信息进行分词时的最小划分单元。比如，关联文本信息为汉语类型时，单字可以是一个字；关联文本信息为英语类型时，单字可以是一个单词。可以理解的是，单字对应的第一特征向量，用来表征该单字的标签分别为开头字、中间字、结束字和单字词组的权值，其可以为4维的特征向量；两字对应的第二特征向量，用来表征两字中每个单字分别与另一个单字组合时，每个单字的标签分别为开头字、中间字、结束字和单字词组的权值，其可以为8维的特征向量；第三特征向量可以由第一特征向量和第二特征向量进行线性叠加获得，其可以为4维的特征向量，且各权值的和为1。其中，预设的汉字标签转移矩阵，可以通过结构化感知机对训练语料进行训练得到。其中，训练语料可以是通过人工标注的大量语料得到的，也可以是基于统计的无监督分词模型或其它具有较高分词准确度的分词模型，对大量语料进行分词处理后得到的。

通过该实施方式，能够使分词过程更加简单，易于实现，能够降低对电子设备的体积和内存的要求，进而改善用户体验。

可以理解的是，关联文本信息中可能包括不宜切分的专有名词或根据切分规则不宜切分的词。因此，可选地，在根据第一特征向量和第二特征向量，确定各个单字的第三特征向量之后，还可以根据预设的专有名词词典和切分规则，对各个单字的第三特征向量进行修正处理，其中，预设的专有名词词典可以通过结构化感知机对训练语料进行训练得到。

相应地，上述的根据预设的汉字标签转移矩阵以及各个单字的第三特征向量，进行马尔可夫解码处理，确定各个单字对应的标签向量可以包括：

根据预设的汉字标签转移矩阵以及修正处理后的各个单字的第三特征向量，进行马尔可夫解码处理，确定各个单字对应的标签向量。

通过该实施方式，能够对各单字的第三特征向量进行修正处理，再进行后续的分词，从而使关联文本信息中的专有名词或切分规则规定的不宜切分的词不会被切分，提高分词处理的准确性。

104、电子设备根据词组和听写字词生成报读文本。

可以理解的是，词组与听写字词之间具有预设的组合或排列方式，根据该组合或排列方式，即可将包含听写字词的词组与听写字词生成报读文本。

其中，预设的组合或排列方式可由开发人员根据实际情况而设定，以满足报读文本的文本量大于听写字词的文本量，且能够缩小听写报读音频的提示范围的实际需求为准，本发明在此不作具体限定。

举例来说，假设词组为“好人”，听写字词是“好”，那么生成的报读文本可以是“好人的好”。又举例来说，假设词组为“信息”，那么生成的报读文本可以是“信息的信”。

作为一种可选的实施方式，执行步骤104之后，电子设备还可以获取用户在某一个包含虚拟角色的游戏应用程序上的相关数据，根据相关数据识别用户在该游戏应用程序上所扮演的虚拟角色，以及获取游戏过程中该虚拟角色的声音数据，从声音数据中提取声音特征，那么步骤105可以包括：利用声音特征和报读文本，合成目标听写报读音频。其中，目标听写报读音频具有与声音特征相对应的音色。

举例来说，假设某一个包含虚拟角色的游戏应用程序为风靡全国的“王者荣耀”应用程序，其中，包含多个虚拟角色为“后羿”、“鲁班七号”、“安琪拉”、“貂蝉”、“孙尚香”等角色，且在游戏中每一个角色的声音都有其独一无二的音色，如果用户在“王者荣耀”应用程序上经常选择扮演的虚拟角色为“鲁班七号”角色，那么可以合成具有“鲁班七号”角色的声音音色的目标听写报读音频。

通过该实施方式，将游戏中用户常玩的角色的声音音色融入了听写报读音频，能够使听写报读音频更具有吸引力，有效吸引用户进行听写学习。

105、电子设备利用用户选择的目标情感类型和报读文本，合成听写报读音频。其中，听写报读音频具有与目标情感类型相对应的情感风格。

作为一种可选的实施方式，执行步骤105之后，电子设备还可以获取用户的目标耳纹信息，判断预设耳纹库中存储的若干个耳纹信息中是否存在与目标耳纹信息相匹配的匹配项，若存在，获取该匹配项对应的音效模式，并以该音效模式播报听写报读音频。其中，音效模式包括但不限于3D音效、超重低音、清澈人声、温暖轻柔、华丽复古或全景环绕等。

实施该实施方式，通过根据不同用户的耳纹信息进行用户识别，以及获取预存的用户的耳纹信息对应的音效模式，以该音效模式对听写报读音频进行报读，能够满足用户的个性化听觉效果，改善用户使用体验。

可选地，步骤105具体可以包括：电子设备将用户选择的目标情感类型对应的情绪特征嵌入报读文本，形成具有与目标情感类型相对应的情感风格的情感编码文本，再将情感编码文本转换为语音谱参数，通过采样点建模方式将语音谱参数合成带有情感风格的听写报读音频。通过该实施方式，能够使听写报读音频的情感更加饱满。

可见，实施图1所描述的方法，能够采用文本量大于听写字词的报读文本，能够缩小听写报读音频的提示范围，进而提高学生的听写准确率，同时嵌入情感，使最后生成的听写报读音频具有情感风格，能够提高听写报读音频的情感度。

实施例二

请参阅图2，图2是本发明实施例公开的另一种听写报读音频的生成方法的流程示意图。如图2所示，该听写报读音频的生成方法可以包括以下步骤：

201、在播放学习视频的过程中，若识别出用户对学习视频中任一视频片段感兴趣，电子设备从视频片段中提取关键词作为待听写的听写字词。

本发明实施例中，学习视频可以根据时间或内容预先划分为多个视频片段，因此，作为一种可选的实施方式，在播放学习视频的过程中，电子设备可以通过设置于自身的声音传感装置和/或图像传感装置，获取用户观看任一视频片段的情感因子；对情感因子进行分析，以识别用户对学习视频中任一视频片段时的观看情感类型；若观看情感类型与预先设置的兴趣列表中任一正向情感类型相匹配，判定用户对学习视频中任一视频片段感兴趣。其中，情感因子可以是声音传感类的情感成分，比如用户发出的鼓掌声或欢呼声等，情感因子也可以是图像传感类的情感成分，比如用户表露出的喜悦表情或兴奋表情等；兴趣列表可存储有若干种正向情感类型和若干种负向情感类型，正向情感类型可以具体为愉快、信任、感激或庆幸等让人产生正向价值的情感类型，负向情感类型可以具体为痛苦、鄙视、仇恨或嫉妒等让人产生负向价值的情感。通过该实施方式，能够及时了解用户的情感，并基于用户的情感，获取用户感兴趣的内容生成待听写的听写字词，能够使听写字词更好地满足用户的听写需求。

202、电子设备获取学习视频对应的教材文本信息。

可选地，电子设备可以存储有若干个教材文本信息，每一个教材文本信息均可以链接有若干个学习视频，因此通过用户观看的学习视频，即可获得对应的教材文本信息。

203～205。其中，针对步骤203～205的描述，请参照实施例一中针对步骤102～104的详细描述，本发明在此不再赘述。

206、电子设备获取用户朗读教材文本信息的朗读语音数据。

其中，朗读语音数据可以是同个用户或多个不同用户每一次朗读教材文本信息时录下来的录音数据。

207、电子设备从朗读语音数据中识别出用户朗读教材文本信息时使用的若干种情感各自对应的朗读情感类型。

需要说明的是，由于用户每一次朗读教材文本信息的朗读情感类型可能均不一样，或存在部分次数的朗读情感类型一样。因此，电子设备可以获取朗读语音数据中每一次用户朗读教材文本信息的录音数据对应的朗读情感类型，再进行去重处理，以获得若干种朗读情感类型。

作为一种可选的实施方式，步骤207可以包括未图示的步骤2071～2073：

2071、电子设备获取朗读语音数据包括的各个朗读音频对应的朗读得分。

可选地，本发明实施例中，在执行步骤2071之前，以及在朗读学习过程中，电子设备可以接收用户对任一预设文本信息的选择指令，将与选择指令匹配的预设文本信息作为教材文本信息；根据教材文本信息生成教材文本信息对应的第一朗读规则，其中，第一朗读规则包括若干个朗读要素，然后获取用户朗读教材文本信息生成的朗读音频，生成朗读音频对应的第二朗读规则，根据第二朗读规则中包括的各个朗读要素和第一朗读规则中包括的各个朗读要素的匹配程度，对朗读音频进行评分以获得朗读得分。通过该实施方式，完善电子设备的用于口语测试的朗读评分功能，使电子设备更加智能化。

在上述的实施方式中，用户只能在电子设备提供的预设文本信息中选择任意一个进行朗读，可考虑到在通常情况下用户还可能对纸质课本进行朗读，因此，作为另外一种可选的实施方式，教材文本信息也可以是通过电子设备拍摄用户正在朗读的纸质课本而获得的。具体地，在朗读学习过程中，电子设备在接收到用户输入的开启评分指令时，控制拍摄模组拍摄用户正在朗读的纸质课本页面，以获得页面图像，并且识别页面图像中的文本信息作为教材文本信息。通过该实施方式，实现了对用户提供的教材文本信息进行朗读评分，更加满足用户的使用需求。

其中，用于拍摄页面图像的拍摄模组可设置于电子设备配有显示屏的一面，并且该面装设有反光装置，反光装置的镜面与拍摄模组的镜头面成预设的角度。请一并参阅图6，图6是本发明实施例公开的一种电子设备拍摄获得页面图像的拍摄过程示例图。如图6所示，电子设备控制拍摄模组拍摄反光装置中的镜像作为页面图像的方式可以为：图中电子设备10可以设置有拍摄模组20，拍摄模组20用于拍摄以获得页面图像；在拍摄模组20正前方还可以设置有反光装置30(例如，反光镜、棱镜或凸透镜等)，反光装置30用于改变拍摄模组的光路，进而使得拍摄模组20拍摄到载体40获得页面图像。通过使用电子设备10的拍摄模组20拍摄得到的载体40在反光装置30中的成像，而不用手动改变电子设备10的放置方式，能够简化拍摄过程，提高拍摄效率。其中，载体40具体可以为放置在桌面上的教科书、著名文学小说、笔记、报纸或教材练习册等，本发明实施例不作具体限定。

2072、电子设备从各个朗读音频中确定出朗读得分高于指定分数的若干个目标朗读音频。

其中，指定分数可由开发人员根据实际情况而预先设定，在此不作限定。

2073、电子设备确定每一目标朗读音频的朗读情感类型，以获得若干种朗读情感类型。

可以理解的是，在任意一次用户朗读教材文本信息的过程中可能会经历情绪的波动，那么朗读时所使用的情感也可能会随着情绪的波动而发生变化。因此，若一个目标朗读音频中用户朗读时使用的情感有多种，可以从多种情感中确定出使用时长最多的情感作为主要情感，以及获取主要情感对应的朗读情感类型作为该目标朗读音频的朗读情感类型。

实施步骤2071～2073，通过提取朗读得分高于指定分数的若干个目标朗读音频输出给用户选择，能够提供评分效果更好的朗读情感类型给用户选择，从而使得合成的听写报读音频更能使用户满意，同时，无需确定每一朗读音频的朗读情感类型，可以缩短电子设备的感应时间，以提高感应速度。

208、电子设备接收用户对若干种朗读情感类型中任一种朗读情感类型的选择操作指令，并将用户选择的朗读情感类型作为目标情感类型。

其中，选择操作指令具体可以是预先设置的任意一种用户交互指令。其中，用户交互指令可以通过电子设备自身提供的应用程序接口(Application Program Interface，API)来获取，或者通过接收诸如智能终端等第三方设备发送的指令来获取。用户交互指令包括但不限于用户在语音交互、遥控器交互、手势交互、图像交互、声纹交互、体感交互等任意一种交互模式下所输入的指令。具体采用何种交互模式进行输入的，本发明不作具体限定。

实施步骤206～208，通过使用用户历史朗读教材文本信息的朗读语音数据中的朗读情感类型，使合成的听写报读音频更加生动，更加贴近生活，以吸引用户的听写兴趣。

209、电子设备利用用户选择的目标情感类型和报读文本，合成听写报读音频。其中，听写报读音频具有与目标情感类型相对应的情感风格。

作为一种可选的实施方式，执行步骤209之后，还可以执行以下未图示的步骤S1～S3：

S1、电子设备根据用户在社交网络上的用户行为数据，提取得到用户分享听写报读音频时的分享情感类型以及兴趣值。

其中，社交网络可以是如新浪微博或facebook等社交网络。

S2、电子设备建立分享情感类型、兴趣值各自与听写报读音频之间的映射关系，得到用户的第一用户关联数据。

S3、电子设备计算社交网络上拥有第二用户关联数据的相似用户。

其中，第二用户关联数据与第一用户关联数据的相似度达到预设阈值，相似用户与用户不同。

可以理解的是，用户在社交网络上分享听写报读音频之后，可能也会有其他用户针对这个听写报读音频在社交网络上进行分享或转发。

基于此，步骤S3具体可以包括：电子设备获取在社交网络上分享该听写报读音频的其他用户，以及获取其他用户分享时的其它分享情感类型以及其它兴趣值；建立其它分享情感类型、其它兴趣值各自与该听写报读音频之间的映射关系，得到其他用户的第二用户关联数据；最后，计算第一用户关联数据中的分享情感类型与第二用户关联数据中的其它分享情感类型的第一相似子度，以及计算第一用户关联数据中的兴趣值与第二用户关联数据中的其它兴趣值之间的第二相似子度，按照预设的不同的权重系数，分别对第一相似子度和第二相似子度进行调整，将调整后的第一相似子度和第二相似子度相加获得第一用户关联数据与第二用户关联数据之间的相似度；若相似度达到预设阈值，将其他用户确定为相似用户。

S4、电子设备将相似用户的电子名片推荐给用户。

可以理解的是，由于相似度达到预设阈值，可视为相似用户与用户对听写报读音频的分享情感和感兴趣程度差不多，因此，实施该实施方式，通过将对听写报读音频的分享情感和感兴趣程度差不多的相似用户的电子名片推荐给用户，用以完善交友推荐功能，使得电子设备更加智能。

与实施图1所描述的方法相比较，实施图2所描述的方法，还能够及时了解用户的情感，并基于用户的情感，获取用户感兴趣的内容生成待听写的听写字词，能够使听写字词更好地满足用户的听写需求。

除此之外，还能够通过使用用户历史朗读教材文本信息的朗读语音数据中的朗读情感类型，使合成的听写报读音频更加生动，更加贴近生活，以吸引用户的听写兴趣。

此外，还能够将对听写报读音频的分享情绪和兴趣程度差不多的相似用户的电子名片推荐给用户，用以完善交友推荐功能，使得电子设备更加智能。

实施例三

请参阅图3，图3是本发明实施例公开的一种电子设备的结构示意图。如图3所示，该电子设备可以包括：

第一获取单元301，用于获取待听写的听写字词对应的教材文本信息。

确定单元302，用于从教材文本信息中确定出关联文本信息。关联文本信息包括听写字词和听写字词的上下文内容。

分词单元303，用于对关联文本信息进行分词处理，以获得包含听写字词的词组。

生成单元304，用于根据词组和听写字词生成报读文本。

合成单元305，用于利用用户选择的目标情感类型和报读文本，合成听写报读音频，听写报读音频具有与目标情感类型相对应的情感风格。

作为一种可选的实施方式，图3所示的电子设备中，第一获取单元301可以包括以下未图示的子单元：

显示子单元，用于显示安装于电子设备的听写应用程序的用户操作界面；

检测子单元，用于检测用户在用户操作界面上的点击操作，以获得用户的选取信息；

识别子单元，用于根据选取信息获得用户选取的待听写的听写字词以及待听写的听写字词对应的教材文本信息；其中，选取信息可以包括某一本教材以及该教材中的生字词；或者，选取信息包括某一本教材、该教材中的某一篇课文以及该课文中的生字词。

如此，基于人机交互获取用户自主选择的听写字词，可以更好地满足用户的听写需求。

进一步地，上述的识别子单元，具体用于在选取信息包括某一本教材以及该教材中的生字词时，将生字词作为待听写的听写字词，以及将该教材的文本内容作为教材文本信息；以及，在选取信息包括某一本教材、该教材中的某一篇课文以及该课文中的生字词时，将生字词作为待听写的听写字词，将该教材中的该课文的文本内容作为教材文本信息。

作为一种可选的实施方式，图3所示的电子设备中，分词单元303还可以包括以下未图示的子单元：

处理子单元，用于对关联文本信息中包括的各个单字进行归一化处理；

特征确定子单元，用于确定各个单字的第一特征向量以及任意相邻的每两个单字之间的第二特征向量；以及，根据第一特征向量和第二特征向量，确定各个单字的第三特征向量；

标签确定子单元，用于根据预设的汉字标签转移矩阵以及各个单字的第三特征向量，进行马尔可夫解码处理，确定各个单字对应的标签向量；

分词子单元，用于根据各个单字的标签向量，对关联文本信息进行分词处理，以获得包含听写字词的词组。

进一步可选地，分词单元303还可以包括未图示的修正子单元，用于在特征确定子单元根据第一特征向量和第二特征向量，确定各个单字的第三特征向量之后，根据预设的专有名词词典和切分规则，对各个单字的第三特征向量进行修正处理，其中，预设的专有名词词典可以通过结构化感知机对训练语料进行训练得到。

相应地，上述的标签确定子单元，具体可以用于根据预设的汉字标签转移矩阵以及修正处理后的各个单字的第三特征向量，进行马尔可夫解码处理，确定各个单字对应的标签向量。

可选地，图3所示的电子设备还可以包括以下未图示的单元：

第三获取单元，用于在合成单元305利用用户选择的目标情感类型和报读文本合成听写报读音频之后，获取用户的目标耳纹信息；

判断单元，用于判断预设耳纹库中存储的若干个耳纹信息中是否存在与目标耳纹信息相匹配的匹配项；

播报单元，用于在判断单元的判断结果为是时，获取该匹配项对应的音效模式，并以该音效模式播报听写报读音频。

可选地，合成单元305，具体可以用于将用户选择的目标情感类型对应的情绪特征嵌入报读文本，形成具有与目标情感类型相对应的情感风格的情感编码文本，再将情感编码文本转换为语音谱参数，通过采样点建模方式将语音谱参数合成带有情感风格的听写报读音频。通过该实施方式，能够使听写报读音频的情感更加饱满。

进一步可选地，图3所示的电子设备还可以包括以下未图示的单元：

第四获取单元，用于在生成单元304根据词组和听写字词生成报读文本之后，获取用户在某一个包含虚拟角色的游戏应用程序上的相关数据，根据相关数据识别用户在该游戏应用程序上所扮演的虚拟角色；以及，获取游戏过程中该虚拟角色的声音数据，并从声音数据中提取声音特征。

音色合成单元，用于利用声音特征和报读文本，合成目标听写报读音频。其中，目标听写报读音频具有与声音特征相对应的音色。

可见，实施图3所示的电子设备，能够采用文本量大于听写字词的报读文本，能够缩小听写报读音频的提示范围，进而提高学生的听写准确率，同时嵌入情感，使最后生成的听写报读音频具有情感风格，能够提高听写报读音频的情感度。

实施例四

请参阅图4，图4是本发明实施例公开的另一种电子设备的结构示意图。其中，图4所示的电子设备是由图3所示的电子设备进行优化得到的，与图3相比较，图4所示的电子设备还可以包括：

第二获取单元306，用于在合成单元305利用用户选择的目标情感类型和报读文本合成听写报读音频之前，获取用户朗读教材文本信息的朗读语音数据。

识别单元307，用于从朗读语音数据中识别出用户朗读教材文本信息时使用的若干种情感各自对应的朗读情感类型。

接收单元308，用于接收用户对若干种朗读情感类型中任一种朗读情感类型的选择操作指令，并将用户选择的朗读情感类型作为目标情感类型。

作为一种可选的实施方式，识别单元307可以包括：

获取子单元3071，用于获取朗读语音数据包括的各个朗读音频对应的朗读得分。

确定子单元3072，用于从各个朗读音频中确定出朗读得分高于指定分数的若干个目标朗读音频；以及，确定每一目标朗读音频的朗读情感类型，以获得若干种朗读情感类型。

实施该实施方式，通过提取朗读得分高于指定分数的若干个目标朗读音频输出给用户选择，能够提供评分效果更好的朗读情感类型给用户选择，从而使得合成的听写报读音频更能使用户满意，同时，无需确定每一朗读音频的朗读情感类型，可以缩短电子设备的感应时间，以提高感应速度。

可选地，图4所示的电子设备还可以包括：

第一提取单元309，用于在第一获取单元301获取待听写的听写字词对应的教材文本信息之前，以及在播放学习视频的过程中，若识别出用户对学习视频中任一视频片段感兴趣，从视频片段中提取关键词作为待听写的听写字词。

相应地，第一获取单元301，具体用于获取学习视频对应的教材文本信息。

进一步可选地，图4所示的电子设备还可以包括：

第二提取单元310，用于在合成单元305利用用户选择的目标情感类型和报读文本合成听写报读音频之后，根据用户在社交网络上的用户行为数据，提取得到用户分享听写报读音频时的分享情感类型以及兴趣值。

映射单元311，用于建立分享情感类型、兴趣值各自与听写报读音频之间的映射关系，得到用户的第一用户关联数据。

计算单元312，用于计算社交网络上拥有第二用户关联数据的相似用户，第二用户关联数据与第一用户关联数据的相似度达到预设阈值，相似用户与用户不同。

推荐单元313，用于将相似用户的电子名片推荐给用户。

实施该实施方式，通过将对听写报读音频的分享情感和感兴趣程度差不多的相似用户的电子名片推荐给用户，用以完善交友推荐功能，使得电子设备更加智能。

作为一种可选的实施方式，计算单元312，具体可以用于获取在社交网络上分享该听写报读音频的其他用户，以及获取其他用户分享时的其它分享情感类型以及其它兴趣值；建立其它分享情感类型、其它兴趣值各自与该听写报读音频之间的映射关系，得到其他用户的第二用户关联数据；最后，计算第一用户关联数据中的分享情感类型与第二用户关联数据中的其它分享情感类型的第一相似子度，以及计算第一用户关联数据中的兴趣值与第二用户关联数据中的其它兴趣值之间的第二相似子度；按照预设的不同的权重系数，分别对第一相似子度和第二相似子度进行调整，将调整后的第一相似子度和第二相似子度相加获得第一用户关联数据与第二用户关联数据之间的相似度；若相似度达到预设阈值，将其他用户确定为相似用户。

作为一种可选的实施方式，第一提取单元309，具体可以用于在第一获取单元301获取待听写的听写字词对应的教材文本信息之前，以及在播放学习视频的过程中，通过设置于电子设备的声音传感装置和/或图像传感装置，获取用户观看任一视频片段的情感因子；对情感因子进行分析，以识别用户对学习视频中任一视频片段时的观看情感类型；若观看情感类型与预先设置的兴趣列表中任一正向情感类型相匹配，判定用户对学习视频中任一视频片段感兴趣，并从视频片段中提取关键词作为待听写的听写字词。

通过该实施方式，能够及时了解用户的情感，并基于用户的情感，获取用户感兴趣的内容生成待听写的听写字词，能够使听写字词更好地满足用户的听写需求。

可选地，图4所示的电子设备还可以包括未图示的评分单元，用于在获取子单元3071获取每一个朗读音频对应的朗读得分之前，以及在朗读学习过程中，接收用户对任一预设文本信息的选择指令，将与选择指令匹配的预设文本信息作为教材文本信息；根据教材文本信息生成教材文本信息对应的第一朗读规则，其中，第一朗读规则包括若干个朗读要素，然后获取用户朗读教材文本信息生成的朗读音频，生成朗读音频对应的第二朗读规则，根据第二朗读规则中包括的各个朗读要素和第一朗读规则中包括的各个朗读要素的匹配程度，对朗读音频进行评分以获得朗读得分。通过该实施方式，完善电子设备的用于口语测试的朗读评分功能，使电子设备更加智能化。

作为另外一种可选的实施方式，上述的评分单元用于接收用户对任一预设文本信息的选择指令，将与选择指令匹配的预设文本信息作为教材文本信息的方式具体可以为：上述的评分单元，用于在接收到用户输入的开启评分指令时，控制拍摄模组拍摄用户正在朗读的纸质课本页面，以获得页面图像，并且识别页面图像中的文本信息作为教材文本信息。通过该实施方式，实现了对用户提供的教材文本信息进行朗读评分，更加满足用户的使用需求。

可见，与实施图3所示的电子设备相比较，实施图4所示的电子设备，还能够及时了解用户的情感，并基于用户的情感，获取用户感兴趣的内容生成待听写的听写字词，能够使听写字词更好地满足用户的听写需求。

此外，还能够将对听写报读音频的分享情绪和兴趣程度差不多的相似用户的电子名片推荐给用户，用以完善交友推荐功能，使得电子设备更加智能

实施例五

请参阅图5，图5是本发明实施例公开的又一种电子设备的结构示意图。如图5所示，该电子设备可以包括：

存储有可执行程序代码的存储器501；

与存储器501耦合的处理器502；

其中，处理器502调用存储器501中存储的可执行程序代码，执行图1～图2任意一种听写报读音频的生成方法。

需要说明的是，图5所示的电子设备还可以包括电源、输入按键、扬声器、麦克风、屏幕、RF电路、Wi-Fi模块、蓝牙模块、传感器等未显示的组件，本实施例不作赘述。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行图1～图2任意一种听写报读音频的生成方法。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人员可以理解上述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种听写报读音频的生成方法、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种听写报读音频的生成方法，其特征在于，包括：

获取待听写的听写字词对应的教材文本信息；

根据所述词组和所述听写字词生成报读文本；

2.根据权利要求1所述的方法，其特征在于，所述利用用户选择的目标情感类型和所述报读文本，合成听写报读音频之前，所述方法还包括：

获取用户朗读所述教材文本信息的朗读语音数据；

3.根据权利要求2所述的方法，其特征在于，所述从所述朗读语音数据中识别出用户朗读所述教材文本信息时使用的若干种情感各自对应的朗读情感类型，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述获取待听写的听写字词对应的教材文本信息之前，所述方法还包括：

获取所述学习视频对应的教材文本信息。

5.根据权利要求4所述的方法，其特征在于，所述利用用户选择的目标情感类型和所述报读文本，合成听写报读音频之后，所述方法还包括：

6.一种电子设备，其特征在于，包括：

7.根据权利要求6所述的电子设备，其特征在于，还包括：

8.根据权利要求7所述的电子设备，其特征在于，所述识别单元包括：

9.根据权利要求6至8任一项所述的电子设备，其特征在于，还包括：

10.根据权利要求9所述的电子设备，其特征在于，还包括：

11.一种电子设备，其特征在于，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至5任一项所述的一种听写报读音频的生成方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至5任一项所述的一种听写报读音频的生成方法。