CN107959882B

CN107959882B - 基于视频观看记录的语音变换方法、装置、终端及介质

Info

Publication number: CN107959882B
Application number: CN201711316530.7A
Authority: CN
Inventors: 郭贤亮
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2019-12-13
Anticipated expiration: 2037-12-12
Also published as: CN107959882A

Abstract

本发明实施例公开了基于视频观看记录的语音变换方法、装置、终端及介质。该方法包括：获取观看数据达到预设标准的历史观看视频中的角色形象和所述角色形象对应的声音参数；在变声模式下采集用户发出的声音获得第一语音数据；根据所述变声模式下当前确认的角色形象对应的声音参数获得与所述第一语音数据对应的目标语音数据。采用上述技术方案增强视频应用的趣味性，同时辅助提高了儿童类视频的教育职能，同时提高了用户使用视频应用的粘性，促进了儿童心智的发展以及学习能力的提升。

Description

基于视频观看记录的语音变换方法、装置、终端及介质

技术领域

本发明实施例涉及信号处理领域，尤其涉及基于视频观看记录的语音变换方法、装置、终端及介质。

背景技术

儿童是人生智力发展的基础阶段，也是发展最快的时期。在儿童成长过程中身体形态结构和功能的生长、发育和成熟以及儿童认知、情感、意志和个性等方面的发展都进行着由量变到质变的一个发展过程。因此，对儿童进行恰当正确的学前教育对儿童特别是3到7周岁的幼儿的智力及日后的发展有很大的作用。

在幼儿的生活中游戏活动作为儿童独特的实践活动，是适合于幼儿发展的最好的活动形式，也是进行教育的最好途径。并且，处于3到7周岁的幼儿通常其模仿的敏感程度和吸收能力惊人。因此，在游戏活动中特别是在观看儿童类视频的过程中，对幼儿进行适当的引导和互动，能够促进幼儿心智的发展以及学习能力的提升。

现有技术中，仅能通过智能终端中的视频应用观看儿童类视频，比如动画片，却不能与视频中的角色形象进行互动问答，使对视频应用的使用过程不够趣味化，减少了幼儿对视频应用的使用粘性，同时降低了儿童类视频的教育职能。

发明内容

本发明提供基于视频观看记录的语音变换方法、装置、终端及介质，以辅助提高儿童类视频的教育职能，增强视频应用的趣味性，同时提高儿童使用视频应用的粘性，促进儿童心智的发展以及学习能力的提升。

第一方面，本发明实施例提供了一种基于视频观看记录的语音变换方法，该方法包括：

获取观看数据达到预设标准的历史观看视频中的角色形象和所述角色形象对应的声音参数；

在变声模式下采集用户发出的声音获得第一语音数据；

根据所述变声模式下当前确认的角色形象对应的声音参数获得与所述第一语音数据对应的目标语音数据。

第二方面，本发明实施例还提供了一种基于视频观看记录的语音变换装置，该装置包括：

数据分析模块，用于获取观看数据达到预设标准的历史观看视频中的角色形象和所述角色形象对应的声音参数；

数据采集模块，用于在变声模式下采集用户发出的声音获得第一语音数据；

语音变声模块，用于根据所述变声模式下当前确认的角色形象对应的声音参数获得与所述第一语音数据对应的目标语音数据。

第三方面，本发明实施例还提供了一种终端，包括输入装置和输出装置，还包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任一实施例提供的基于视频观看记录的语音变换的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任一实施例提供的基于视频观看记录的语音变换的方法。

本发明实施例通过获取观看数据达到预设标准的历史观看视频中的角色形象和角色形象对应的声音参数，并在变声模式下采集用户发出的声音获取第一语音数据；根据所述变声模式下当前确认的角色形象对应的声音参数获取与所述第一语音数据对应的目标语音数据，采用上述技术方案解决了儿童用户特别是儿童不能与视频中的角色形象对话致使智能终端中的视频应用趣味性低，难以对用户产生使用粘性的技术问题，增强视频应用的趣味性，同时辅助提高了儿童类视频的教育职能，同时提高了用户使用视频应用的粘性，促进了儿童心智的发展以及学习能力的提升。

附图说明

图1是本发明实施例一中的一种基于视频观看记录的语音变换方法的流程示意图；

图2A是本发明实施例二中的一种基于视频观看记录的语音变换方法的流程示意图；

图2B是本发明实施例二中的另一种基于视频观看记录的语音变换方法的流程示意图；

图3是本发明实施例三中的一种基于视频观看记录的语音变换装置的结构示意图；

图4是本发明实施例四中的一种终端的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种基于视频观看记录的语音变换方法的流程图，本实施例可适用于儿童特别是幼儿用户使用智能终端中的视频应用观看儿童类视频的情况，该方法可以由基于视频观看记录的语音变换装置来执行，该装置采用软件和/或硬件的方式实现，并配置于智能终端中。该基于视频观看记录的语音变换方法具体包括如下步骤：

S110、获取观看数据达到预设标准的历史观看视频中的角色形象和所述角色形象对应的声音参数。

其中，历史观看视频至少包括观看视频的视频名称信息。其中，观看数据包括历史观看视频中各视频名称信息对应的累积观看次数，还可以包括历史观看视频中各视频名称信息对应的累积观看时长。其中，角色形象为每个历史观看视频中出现的或者相关的知识产权(Intellectual Property，IP)形象。其中，声音参数至少包括对应的角色形象的响度、音调、音频以及振幅等信息。其中，预设标准为预设观看次数和/或预设观看时长。需要说明的是，预设标准可以由开发人员设定，也可以由用户自定义实现。

在该步骤中，用户在使用智能终端或者在使用智能终端中的视频应用时，首先会登录一个使用账户，然后智能终端会在当前使用账户下对应获取用户每次使用视频应用进行视频观看时形成的历史观看视频，并将该历史观看视频以及对应的观看数据存储在相应的使用账户下。

需要说明的是，观看数据可以是自用户建立当前使用账户时起，每次登录该使用账户时更新的各视频名称信息对应的累积观看次数或者累积观看时长，也可以是在某一预设时间段(例如一年)内用户登录该使用账户进行视频观看时更新的各视频名称信息对应的累积观看次数或者累积观看时长。

示例性地，智能终端中可以预先存储各视频名称信息对应的各个角色形象已及每个角色形象对应的声音参数。在获取的观看数据达到预设观看次数和/或预设观看时长时，确定对应的视频名称信息为目标视频名称信息，并在与该目标视频名称信息对应存储的各个角色形象中，按照随机获取的方式、按照预设规则选取的方式或者按照接收用户人为选择的方式获取一个角色形象作为当前确认的角色形象，并查找获取与该当前确认的角色形象相对应的声音参数用于后续的语音变换。

示例性地，观看数据还可以包括各视频名称信息对应的视频数据。在获取的观看数据达到预设观看次数和/或预设观看时长时，确定对应的视频名称信息为目标视频名称信息，并通过该目标视频名称信息对应的观看数据按照图像识别和/或语音识别的方式确定该目标视频名称信息中的各个角色形象以及各个角色形象的出现次数，并且通过信息提取的方式获取各个角色形象对应的声音参数。然后，在目标视频名称信息对应的各个角色形象中，按照随机获取的方式、按照预设规则选取的方式或者按照接收用户人为选择的方式获取一个角色形象作为当前确认的角色形象，并查找获取与该当前确认的角色形象相对应的声音参数用于后续的语音变换。

S120、在变声模式下采集用户发出的声音获得第一语音数据。

在该步骤中，智能终端中至少设置有变声模式和普通模式两种模式。在变声模式下，智能终端才会采集用户发出的声音获得第一语音数据。可以理解的是，变声模式作为第一语音数据采集的触发条件，在普通模式下，智能终端并不执行采集用户发出的声音获得第一语音数据的操作。

S130、根据所述变声模式下当前确认的角色形象对应的声音参数获得与所述第一语音数据对应的目标语音数据。

在该步骤中，智能终端根据预先设定的与该当前确认的角色形象所对应的语音变换模型以及与当前确认的角色形象相对应的声音参数，确定与第一语音数据对应的目标语音数据。需要说明的是，该目标语音数据的语音内容可以与第一语音数据的语音内容相同，也可以与第一语音数据的内容不同。示例性地，用户输入的第一语音数据内容为“过马路时应该走马路的哪一边”，与该第一语音数据对应的目标语音数据的语音内容可以是“过马路时应该走马路的哪一边”，也可以是“马路右边”。

本发明实施例获取观看数据达到预设标准的历史观看视频中的角色形象和角色形象对应的声音参数，并在变声模式下采集用户发出的声音获取第一语音数据；根据所述变声模式下当前确认的角色形象对应的声音参数获取与所述第一语音数据对应的目标语音数据，采用上述技术方案解决了儿童用户特别是儿童不能与视频中的角色形象对话致使智能终端中的视频应用趣味性低，难以对用户产生使用粘性的技术问题，增强视频应用的趣味性，同时辅助提高了儿童类视频的教育职能，同时提高了用户使用视频应用的粘性，促进了儿童心智的发展以及学习能力的提升。

实施例二

图2A为本发明实施例二提供的一种基于视频观看记录的语音变换方法的流程图，本实施例在上述各实施例的技术方案的基础上，优选是将步骤“获取历史观看视频中对应的角色形象和所述角色形象对应的声音参数”进一步优化为“确认在预设时间段内观看次数达到第一阈值且观看时长达到第二阈值的历史观看视频；从预设的视频数据库获取所述历史观看视频中的角色形象和所述角色形象对应的声音参数”，以实现在固定的预设时间段内对角色形象以及与角色形象对应的声音参数的获取，迎合不同时间段内用户的兴趣爱好。

将步骤“根据所述变声模式下当前确认的角色形象对应的声音参数获得与所述第一语音数据对应的目标语音数据”进一步细化为“根据所述变声模式下当前确认的角色形象对应的声音参数将所述第一语音数据转换为目标语音数据”，以直接将第一语音数据中的语音内容输出为目标语音数据的语音内容，实现对用户的第一语音数据的模仿功能。

进一步地，追加步骤“显示当前确认的角色形象并输出所述目标语音数据”以将目标语音数据的输出以及对应的当前确认的角色形象的显示，实现智能终端与用户的良好互动。

该基于视频观看记录的语音变换方法具体包括以下步骤：

S210、确认在预设时间段内观看次数达到第一阈值且观看时长达到第二阈值的历史观看视频。

在该步骤中，在预设时间段内(例如一年)的存储的历史观看视频中的各视频名称信息对应的累积观看次数大于或等于第一阈值(例如10次)并且累积观看时长大于或等于第二阈值(例如20小时)时，确认该历史观看视频中的视频名称信息为目标视频名称信息。其中，第一阈值和第二阈值由开发人员人为设定或者由用户自定义设定。

S220、从预设的视频数据库获取所述历史观看视频中的角色形象和所述角色形象对应的声音参数。

在该步骤中，在预设的视频数据库中获取与该目标视频名称信息对应的各角色形象，并在各角色形象中按照随机获取的方式、按照预设规则选取的方式或者按照接收用户人为选择的方式确定获取一个角色形象作为当前确认的角色形象，并获取与该当前确认的角色形象相对应的声音参数。

S230、在变声模式下采集用户发出的声音获得第一语音数据。

S240A、根据所述变声模式下当前确认的角色形象对应的声音参数将所述第一语音数据转换为目标语音数据。

在该步骤中，根据预先设定的与该当前确认的角色形象所对应的语音变换模型以及与当前确认的角色形象相对应的声音参数，智能终端将第一语音数据的语音内容转换为对应的目标语音数据的语音内容。其中，目标语音数据的声音参数为当前确认的角色形象的声音参数，也即目标语音数据输出时的声音为当前确认的角色形象的声音。

S250、显示当前确认的角色形象并输出所述目标语音数据。

在该步骤中，智能终端在显示当前确认的角色形象的同时，采用当前确认的角色形象的声音输出第一语音数据的语音内容。

本发明实施例的技术方案通过细化获取角色形象和与角色形象对应的声音参数的步骤，以实现在固定的预设时间段内对角色形象以及与角色形象对应的声音参数的获取，迎合了不同时间段内用户的兴趣爱好；通过细化获取目标语音数据的过程，以直接将第一语音数据中的语音内容输出为目标语音数据的语音内容，实现对用户的第一语音数据的模仿功能；通过追加对角色形象的显示以及目标语音数据的输出步骤，实现了智能终端与用户的良好互动。

同时，采用上述技术方案解决了儿童用户特别是儿童不能与视频中的角色形象互动致使智能终端中的视频应用趣味性低，难以对用户产生使用粘性的技术问题，增强视频应用的趣味性，同时辅助提高了儿童类视频的教育职能，同时提高了用户使用视频应用的粘性，促进了儿童心智的发展以及学习能力的提升。

参见图2B，在上述各实施例的技术方案的基础上，将S240A替换为步骤S241B～S244B，以实现智能终端与用户之间的对话功能。

S241B、在预先存储的问答信息表中是否查找到用于回复所述第一语音数据的第二语音数据；如果是，则执行S244B；如果否，则执行S242B。

在该步骤中，智能终端会在预先存储的问答信息表中查找获取用于回复第一语音数据的第二语音数据。当能够查找到与第一语音数据对应的第二语音数据，也即查找第二语音数据成功的情况下，即可将第二语音数据的语音信息作为后续的目标语音数据的语音信息进行输出。当不能够查找到与第一语音数据对应的第二语音数据，也即查找第二语音数据失败的情况下，智能终端将难以实现后续的语音转换功能，采集回复第一语音数据的第二语音数据，并将第一语音数据和对应的第二语音数据存储在问答信息表中，用以后续使用。

S242B、将所述第一语音数据存储至所述问答信息表中。

其中，对该步骤的具体执行顺序不做限定，该第一语音数据存储步骤可以在S243B之前进行，也可以与S243B同时进行。

S243B、采集当前用户发出的声音获取当前声音数据，并将所述当前声音数据作为回复所述第一语音数据的第二语音数据存储至所述问答信息表中。

S244B、根据所述变声模式下当前确认的角色形象对应的声音参数将所述第二语音数据转换为目标语音数据。

在该步骤中，智能终端根据预先设定的与当前确认的角色形象所对应的语音变换模型以及与当前确认的角色形象相对应的声音参数，确定与第二语音数据对应的目标语音数据。其中，目标语音数据的声音参数为当前确认的角色形象的声音参数，也即目标语音数据输出时的声音为当前确认的角色形象的声音；同时，目标语音数据的语音内容为用于回复第一语音数据的第二语音数据的语音内容。

本发明实施例的技术方案通过进一步细化获取目标转换数据，实现了用户与角色形象的对话功能，增强了用户历史观看视频中虚拟形象的有效互动。采用上述技术方案解决了儿童用户特别是儿童不能与视频中的角色形象对话致使智能终端中的视频应用趣味性低，难以对用户产生使用粘性的技术问题，增强视频应用的趣味性，同时辅助提高了儿童类视频的教育职能，同时提高了用户使用视频应用的粘性，促进了儿童心智的发展以及学习能力的提升。

实施例三

图3为本发明实施例三提供的一种基于视频观看记录的语音变换装置的结构示意图，本实施例可使用于儿童特别是幼儿用户使用智能终端中的视频应用观看儿童类视频的情况，该装置包括数据分析模块310、数据采集模块320以及语音变声模块330。

其中，数据分析模块310，用于获取观看数据达到预设标准的历史观看视频中的角色形象和所述角色形象对应的声音参数；

数据采集模块320，用于在变声模式下采集用户发出的声音获得第一语音数据；

语音变声模块330，用于根据所述变声模式下当前确认的角色形象对应的声音参数获得与所述第一语音数据对应的目标语音数据。

本发明实施例通过数据分析模块310获取观看数据达到预设标准的历史观看视频中的角色形象和与角色形象对应的声音参数；通过数据采集模块320在变声模式下采集用户发出的声音获得第一语音数据；通过语音变声模块330根据变声模式下当前确认的角色形象对应的声音参数获得与第一语音数据对应的目标语音数据。采用上述技术方案解决了儿童用户特别是儿童不能与视频中的角色形象对话致使智能终端中的视频应用趣味性低，难以对用户产生使用粘性的技术问题，增强视频应用的趣味性，同时辅助提高了儿童类视频的教育职能，同时提高了用户使用视频应用的粘性，促进了儿童心智的发展以及学习能力的提升。

进一步地，所述数据分析模块310，包括：

确认单元，用于确认在预设时间段内观看次数达到第一阈值且观看时长达到第二阈值的历史观看视频；

获取单元，用于从预设的视频数据库获取所述历史观看视频中的角色形象和所述角色形象对应的声音参数。

进一步地，所述语音变声模块330，具体用于：

根据所述变声模式下当前确认的角色形象对应的声音参数将所述第一语音数据转换为目标语音数据。

进一步地，所述语音变声模块330，包括：

查找单元，用于在预先存储的问答信息表中，查找获取用于回复所述第一语音数据的第二语音数据；

转换单元，用于根据所述变声模式下当前确认的角色形象对应的声音参数将所述第二语音数据转换为目标语音数据。

进一步地，所述装置，还包括数据存储模块，具体用于：

在预先存储的问答信息表中，查找获取用于回复所述第一语音数据的第二语音数据失败时，将所述第一语音数据存储至所述问答信息表中；

采集当前用户发出的声音获取当前声音数据，并将所述当前声音数据作为回复所述第一语音数据的第二语音数据存储至所述问答信息表中。

进一步地，所述装置，还包括：

播放显示模块，用于显示当前确认的角色形象并输出所述目标语音数据。

上述基于视频观看记录的语音变换装置可执行本发明任意实施例所提供的基于视频观看记录的语音变换方法，具备执行基于视频观看记录的语音变换方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种终端的硬件结构示意图。如图4所示，本发明实施例四提供的终端，包括：输入装置410，输出装置420，处理器430以及存储装置440。

其中，输入装置410，用于采集用户发出的声音获得第一语音数据；

输出装置420，用于显示当前确认的角色形象并输出所述目标语音数据；

一个或多个处理器430；

存储装置440，用于存储一个或多个程序。

图4中以一个处理器430为例，该终端中的输入装置410可以通过总线或其他方式与处理器430以及存储装置440相连，且处理器430和存储装置440也通过总线或其他方式连接，图4中以通过总线连接为例。

在本实施例中，终端中的处理器430可以获取观看数据达到预设标准的历史观看视频中的角色形象和所述角色形象对应的声音参数；还可以根据所述变声模式下当前确认的角色形象对应的声音参数获得与所述第一语音数据对应的目标语音数据。

该终端中的存储装置440作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例中基于视频观看记录的语音变换方法对应的程序指令/模块(例如，附图3所示的数据分析模块310，数据采集模块320以及语音变声模块330)。处理器430通过运行存储在存储装置440中的软件程序、指令以及模块，从而执行终端的各种功能应用以及数据处理，即实现上述方法实施例中基于视频观看记录的语音变换方法。

存储装置440可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储数据等(如上述实施例中的预设标准、历史观看视频、观看数据、第一语音数据、声音参数以及目标语音数据等)。此外，存储装置440可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置440可进一步包括相对于处理器430远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例五

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被数据存储装置执行时实现本发明实施提供的基于视频观看记录的语音变换方法，该方法包括：获取观看数据达到预设标准的历史观看视频中的角色形象和所述角色形象对应的声音参数；在变声模式下采集用户发出的声音获得第一语音数据；根据所述变声模式下当前确认的角色形象对应的声音参数获得与所述第一语音数据对应的目标语音数据。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于视频观看记录的语音变换方法，其特征在于，包括：

在变声模式下采集用户发出的声音获得第一语音数据；

根据所述变声模式下当前确认的角色形象对应的声音参数获得与所述第一语音数据对应的目标语音数据；

显示当前确认的角色形象并输出所述目标语音数据。

2.根据权利要求1所述的方法，其特征在于，所述获取观看数据达到预设标准的历史观看视频中的角色形象和所述角色形象对应的声音参数，包括：

确认在预设时间段内观看次数达到第一阈值且观看时长达到第二阈值的历史观看视频；

从预设的视频数据库获取所述历史观看视频中的角色形象和所述角色形象对应的声音参数。

3.根据权利要求1所述的方法，其特征在于，所述根据所述变声模式下当前确认的角色形象对应的声音参数获得与所述第一语音数据对应的目标语音数据，具体为：

4.根据权利要求1所述的方法，其特征在于，所述根据所述变声模式下当前确认的角色形象对应的声音参数获得与所述第一语音数据对应的目标语音数据，包括：

在预先存储的问答信息表中，查找获取用于回复所述第一语音数据的第二语音数据；

根据所述变声模式下当前确认的角色形象对应的声音参数将所述第二语音数据转换为目标语音数据。

5.根据权利要求4所述的方法，其特征在于，在所述根据所述变声模式下当前确认的角色形象对应的声音参数将所述第二语音数据转换为目标语音数据之前，还包括：

6.一种基于视频观看记录的语音变换装置，其特征在于，包括：

语音变声模块，用于根据所述变声模式下当前确认的角色形象对应的声音参数获得与所述第一语音数据对应的目标语音数据；

7.根据权利要求6所述的装置，其特征在于，所述数据分析模块，包括：

8.一种终端，其特征在于，包括输入装置和输出装置，还包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5任一项所述的基于视频观看记录的语音变换方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一项所述的基于视频观看记录的语音变换方法。