CN110491367A

CN110491367A - 智能电视的语音转换方法及设备

Info

Publication number: CN110491367A
Application number: CN201910759071.2A
Authority: CN
Inventors: 张立杰
Original assignee: Oriental Pearl Omniad Media Inc
Current assignee: Oriental Pearl Omniad Media Inc
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2019-11-22
Anticipated expiration: 2039-08-16
Also published as: CN110491367B

Abstract

本发明的目的是提供一种智能电视的语音转换方法及设备，本发明在语音留言箱的基础上实现了文本转语音，语音变音等功能，方便用户在不方便语音的情况下，依靠文字输入，就可以实现进行语音留言的功能；可以引入不同的语音库，比如标准普通话语音库、地方方言语音库、卡通人物语音库，并可以自定义语音库，从而设定不同的音色。本发明引入人工智能技术，将极大丰富智能电视留言箱的功能，实现丰富的应用场景，提升智能电视用户的使用粘性，增强家庭成员之间的联络，促进家庭交流。

Description

智能电视的语音转换方法及设备

技术领域

本发明涉及计算机领域，尤其涉及一种智能电视的语音转换方法及设备。

背景技术

目前越来越多的智能电视运营企业推出了自己的语音留言箱，方便智能电视和手机用户之间的沟通和互动。但是现有的智能电视系统的只能在智能电视端直接接收语音，无法将接收到的文本转换为语音。

发明内容

本发明的一个目的是提供一种智能电视的语音转换方法及设备。

根据本发明的一个方面，提供了一种智能电视的语音转换方法，该方法包括：

手机客户端向语音留言箱服务器发送留言文本和语音合成规则；

语音留言箱服务器从所述手机客户端接收所述留言文本和语音合成规则，并将所述留言文本和语音合成规则发送至人工智能服务系统；

所述人工智能服务系统基于接收到的语音合成规则，调用对应的语音库将所述留言文本转换为对应的语音文件，并将所述语音文件发送至所述语音留言箱服务器；

所述语音留言箱服务器基于接收到的语音文件，向群组管理服务器发送有新的留言的信息；

所述群组管理服务器将接收到的有新的留言的信息发送至智能电视留言箱程序；

智能电视遥控器通过所述智能电视留言箱程序获取所述有新的留言的信息，并基于获取到的所述有新的留言的信息，通过所述智能电视留言箱程序从所述语音留言箱服务器获取所述语音文件，并控制在电视上进行播放。

进一步的，上述方法中，还包括：

手机客户端向语音留言箱服务器发送留言语音和变音规则；

语音留言箱服务器从所述手机客户端接收所述留言语音和变音规则，并将所述留言语音和变音规则发送至人工智能服务系统；

所述人工智能服务系统基于接收到的变音规则，调用对应的语音库将所述留言文本转换为对应的变音文件，并将所述变音文件发送至所述语音留言箱服务器；

所述语音留言箱服务器基于接收到的变音文件，向群组管理服务器发送有新的留言的信息；

智能电视遥控器通过所述智能电视留言箱程序获取所述有新的留言的信息，并基于获取到的所述有新的留言的信息，通过所述智能电视留言箱程序从所述语音留言箱服务器获取所述变音文件，并控制在电视上进行播放。

进一步的，上述方法中，所述语音库包括：标准普通话语音库、地方方言语音库、卡通人物语音库、男女生语音库和自定义语音库中一种或任意组合。

进一步的，上述方法中，还包括：

手机客户端向群组管理服务器发送添加语音库的请求；

所述群组管理服务器基于所述请求检查所述手机客户端是否拥有对应权限，若拥有，

所述群组管理服务器向所述手机客户端开放访问人工智能服务系统的权限；

所述手机客户端基于所述开放的权限，通过所述人工智能服务系统自主训练平台采集声音，以完成自定义语音库的采样、生成，并将自定义语音库保存到所述人工智能服务系统。

根据本发明的另一方面，还提供一种智能电视的语音转换设备，其中，该设备包括：

手机客户端，用于向语音留言箱服务器发送留言文本和语音合成规则；

语音留言箱服务器，用于从所述手机客户端接收所述留言文本和语音合成规则，并将所述留言文本和语音合成规则发送至人工智能服务系统；

人工智能服务系统，用于基于接收到的语音合成规则，调用对应的语音库将所述留言文本转换为对应的语音文件，并将所述语音文件发送至所述语音留言箱服务器；

所述语音留言箱服务器，还用于基于接收到的语音文件，向群组管理服务器发送有新的留言的信息；

群组管理服务器，用于将接收到的有新的留言的信息发送至智能电视留言箱程序；

智能电视遥控器，用于通过所述智能电视留言箱程序获取所述有新的留言的信息，并基于获取到的所述有新的留言的信息，通过所述智能电视留言箱程序从所述语音留言箱服务器获取所述语音文件，并控制在电视上进行播放。

进一步的，上述设备中，还包括：

手机客户端，还用于向语音留言箱服务器发送留言语音和变音规则；

语音留言箱服务器，还用于从所述手机客户端接收所述留言语音和变音规则，并将所述留言语音和变音规则发送至人工智能服务系统；

所述人工智能服务系统，还用于基于接收到的变音规则，调用对应的语音库将所述留言文本转换为对应的变音文件，并将所述变音文件发送至所述语音留言箱服务器；

所述语音留言箱服务器，还用于基于接收到的变音文件，向群组管理服务器发送有新的留言的信息；

所述群组管理服务器，还用于将接收到的有新的留言的信息发送至智能电视留言箱程序；

智能电视遥控器，还用于通过所述智能电视留言箱程序获取所述有新的留言的信息，并基于获取到的所述有新的留言的信息，通过所述智能电视留言箱程序从所述语音留言箱服务器获取所述变音文件，并控制在电视上进行播放。

进一步的，上述设备中，所述语音库包括：标准普通话语音库、地方方言语音库、卡通人物语音库、男女生语音库和自定义语音库中一种或任意组合。

进一步的，上述设备中，还包括：

手机客户端，还用于向群组管理服务器发送添加语音库的请求；

所述群组管理服务器，还用于基于所述请求检查所述手机客户端是否拥有对应权限，若拥有，向所述手机客户端开放访问人工智能服务系统的权限；

所述手机客户端，还用于基于所述开放的权限，通过所述人工智能服务系统自主训练平台采集声音，以完成自定义语音库的采样、生成，并将自定义语音库保存到所述人工智能服务系统。

本发明具有如下优点：

1)将语音人工智能技术和智能电视语音留言箱进行集成，在留言箱系统上增加人工智能技术，进而实现丰富的应用场景。目前人工智能开放平台越来越多，国内著名的公司都已经开放，但主要是应用在智能手机和家用电脑或者特定的行业及设备上，在家用智能电视上尚没有成熟的产品，本发明将语音人工智能同留言箱结合起来，将开辟一个新的产业，比如儿童陪伴或者儿童教育等。

2)在语音留言箱的基础上实现了文本转语音，方便用户在不方便语音的情况下，依靠文字输入(主要是在手机客户端)，就可以实现进行语音留言的功能；

3)所有的人工智能语音处理都是在后端完成，对终端要求比较低，不用升级相关终端；

4)应用人工智能技术进行变音，比如引入卡通人物语音库，将极大提升智能电视语音留言箱的功能，提升趣味性，可以提升儿童教育。

5)建立自主训练平台，手机用户可以通过平台的训练，从而增加语音库条目，进而后面可以合成新的语音。

6)手机客户端上传语音或者文字的同时可以指定选用什么语音库，比如选择原声、标准普通话、地方方言、系统语音库或者自定义语音库等；

7)语音转文字功能，可以把语音转成文字，便于用户观看，节省用户时间或者使用电子白板来进行展示。

8)在应用场景方面，引入了人工智能技术以后，将极大提升智能电视留言箱的应用场景，比如可以实现卡通人物讲故事，家长提供故事文本，就可以采用卡通人物讲故事；还可以实现变音，比如孩子比较听老师的话，可以模拟老师进行指导孩子等等；儿童收到一些地方方言等的问候，也会增加家庭乐趣等。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出本发明一实施例的智能电视系统的架构图；

图2示出本发明一实施例的文本转语音服务的示意图；

图3示出本发明一实施例的语音变音服务流程的示意图；

图4示出本发明一实施例的手机自定义语音库的示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本发明在智能电视留言箱实现方案的基础上引进人工智能技术并集成到原来的系统中，从而实现文本转声音，以及智慧配音、伴音、语音合成等多种效果。

整个系统的架构图如图1所示，本发明在智能电视语音留言箱的基础上，增加人工智能服务系统，从而实现语音-文字的互转以及可以设定语音合成模板，自定义语音库，语音自主训练平台，可以增加语音库，合成不同音色的声音。

整个系统模块包含智能电视语音留言箱模块以及人工智能服务系统模块。其中，

智能电视语音留言箱模块包括的语音遥控器、智能电视留言箱程序、语音留言箱服务器、群组管理服务器、手机客户端等。

本发明人工智能服务系统主要是人工智能企业针对语音开发的智能系统，目前这些功能大都对外开放，具体语音人工智能系统实现者可以考虑国内厂商比如百度、阿里、腾讯、搜狐等推出的智能语音开放平台，主要涉及的功能模块有：

1)文字转语音服务

此模块可以把文字转变为语音，也可以按照配置内容，把文字转为不同语种(比如汉语或者英语)、不同方言(比如普通话、四川话、东北话等)、不同音色(比如卡通人物、童音、标准成人、某个特定知名人士等)；

2)语音转文字服务

此模块可以把语音转变为文字，文字可以更方便的存储以及更容易的分析进而扩展语音信箱的功能。

3)语音合成服务

此模块可以根据设定的策略，把文字转化为不同语种的语音，并且语音还可以带有特色，比如家庭特定人员或者某个卡通人物等。

4)语音库

作为语音合成服务的基础样本库，有标准库也可以自定义音色库；

5)自主训练平台

主要给语音库增加自定义音色，进行训练等；

6)系统配置

作为整个系统的配置系统和管理系统。

考虑到增加了人工智能系统后，原来的智能电视语音留言箱提供的功能更丰富一些，在原来的系统中，特别是手机客户端中做相应的改变，不仅仅支持语音，也可以支持文字上传，并且可以指定音色；和人工智能服务系统自主训练平台对接，手机用户可以创建新的语音库从而合成新音色特征的声音。

本发明提供一种智能电视的语音转换方法，包括：

步骤一一，手机客户端向语音留言箱服务器发送留言文本和语音合成规则；

步骤一二，语音留言箱服务器从所述手机客户端接收所述留言文本和语音合成规则，并将所述留言文本和语音合成规则发送至人工智能服务系统；

步骤一三，所述人工智能服务系统基于接收到的语音合成规则，调用对应的语音库将所述留言文本转换为对应的语音文件，并将所述语音文件发送至所述语音留言箱服务器；

步骤一四，所述语音留言箱服务器基于接收到的语音文件，向群组管理服务器发送有新的留言的信息；

步骤一五，所述群组管理服务器将接收到的有新的留言的信息发送至智能电视留言箱程序；

步骤一六，智能电视遥控器通过所述智能电视留言箱程序获取所述有新的留言的信息，并基于获取到的所述有新的留言的信息，通过所述智能电视留言箱程序从所述语音留言箱服务器获取所述语音文件，并控制在电视上进行播放。

在此，本实施例中，手机用户可以通过手机客户端发送留言文本，语音留言箱服务器可以调用人工智能服务系统，按照合成规则形成将留言文本转换为语音文件，并把语音文件保存下来，然后通知群组管理服务器，智能电视遥控器通过所述智能电视留言箱程序获取所述有新的留言的信息，并基于获取到的所述有新的留言的信息，通过所述智能电视留言箱程序从所述语音留言箱服务器获取所述语音文件。如图2所示，主要的步骤可以有：

1)手机编辑文本，并设置合成规则，发送到网络留言箱服务器；

2)网络留言服务器接收到文本和合成规则，调用相关的人工智能服务系统的接口；

3)人工智能服务系统根据配置，调用文字转语音以及语音合成服务，生成对应的语音文件；

4)语音留言箱服务器通过群组管理服务器通知智能电视留言箱程序，所述智能电视留言箱程序从所述语音留言箱服务器获取所述语音文件；

6)智能电视用户依次通过智能电视遥控器、所述智能电视留言箱程序从语音留言箱服务器可以收听语音留言。

本发明的智能电视语音留言箱功能有一种重要的场景是儿童教育，利用变音技术，父母可以通过手机发送文字，人工智能服务系统中内置部分主持人的语音库，利用主持人的语音，发音更加标准，增加儿童的学习兴趣。并且通过文字的模式，也为家长远程对小孩进行监督提供方便，比如上班不方便语音通话，就可以使用文本来进行通话，而智能电视侧依然使用语音模式进行交互。

本发明在语音留言箱的基础上实现了文本转语音，语音变音等功能，方便用户在不方便语音的情况下，依靠文字输入，就可以实现进行语音留言的功能；可以引入不同的语音库，比如标准普通话语音库、地方方言语音库、卡通人物语音库，并可以自定义语音库，从而设定不同的音色。本发明引入人工智能技术，将极大丰富智能电视留言箱的功能，实现丰富的应用场景，提升智能电视用户的使用粘性，增强家庭成员之间的联络，促进家庭交流。

本发明的智能电视的语音转换方法一实施例中，还包括：

步骤二一，手机客户端向语音留言箱服务器发送留言语音和变音规则；

步骤二二，语音留言箱服务器从所述手机客户端接收所述留言语音和变音规则，并将所述留言语音和变音规则发送至人工智能服务系统；

步骤二三，所述人工智能服务系统基于接收到的变音规则，调用对应的语音库将所述留言文本转换为对应的变音文件，并将所述变音文件发送至所述语音留言箱服务器；

在此，所述语音库包括：标准普通话语音库、地方方言语音库、卡通人物语音库、男女生语音库和自定义语音库中一种或任意组合。

步骤二四，所述语音留言箱服务器基于接收到的变音文件，向群组管理服务器发送有新的留言的信息；

步骤二五，所述群组管理服务器将接收到的有新的留言的信息发送至智能电视留言箱程序；

步骤二六，智能电视遥控器通过所述智能电视留言箱程序获取所述有新的留言的信息，并基于获取到的所述有新的留言的信息，通过所述智能电视留言箱程序从所述语音留言箱服务器获取所述变音文件，并控制在电视上进行播放。

在此，手机用户可以发送语音以及合成选择，人工智能服务器系统根据语音库调用语音合成服务，生成新的语音文件，语音文件回传给语音留言箱服务器。如图3所示，主要的步骤可以有：

1)手机客户端上传留言语音和变音规则到网络留言箱服务器；

2)语音留言箱服务器调用人工智能服务系统，传递留言语音和变音规则；

3)人工智能服务器系统根据变音规则，按照相关准则完成语音的转化，并回传给语音留言箱服务器；

4)语音留言箱服务器通过群组管理服务器通知智能电视留言箱程序；

5)智能电视用户可以依次通过智能电视遥控器、智能电视留言箱程序从语音留言箱服务器收听变音后的留言语音。

本发明的智能电视语音留言箱功能提供基本的留言箱和聊天服务，加入人工智能之后，可以把自己的语音变成另外一个人，或者使用地方方言进行变音，给生活添加情趣。

本发明的智能电视的语音转换方法一实施例中，还包括：

步骤三一，手机客户端向群组管理服务器发送添加语音库的请求；

步骤三二，所述群组管理服务器基于所述请求检查所述手机客户端是否拥有对应权限，若拥有，

步骤三三，所述群组管理服务器向所述手机客户端开放访问人工智能服务系统的权限；

步骤三四，所述手机客户端基于所述开放的权限，通过所述人工智能服务系统自主训练平台采集声音，以完成自定义语音库的采样、生成，并将自定义语音库保存到所述人工智能服务系统。

在此，手机客户端可以通过人工智能服务系统的自主训练平台，制定新的语音特征库，设定特征库之后，后面可以合成相关角色的语音，如图4所示，其主要的步骤可以有：

1)手机客户端登录群组管理服务器，请求添加语音库；

2)群组管理服务器检查所述手机客户端的权限，开放添加自定义语音库的相关服务；

3)手机客户端访问人工智能服务系统的自主训练平台，根据平台的指引信息，采集声音完成自定义语音库的采样和生成工作；

4)自主训练平台生成新的自定义语音库，设置成功后，后续可以采用新的特征库变声新的声音；

5)人工智能服务系统可以通知群组管理服务器生成了新的自定义语音库。

本发明通过建立自主训练平台，手机用户可以通过平台的训练，从而增加语音库条目，进而后面可以合成新的语音。

进一步的，上述设备中，还包括：

综上所述，本发明具有如下优点：

本发明在智能电视语音留言箱中应用人工智能技术，结合智能电视的使用场景，在智能电视语音留言箱的基础上加入人工智能的元素，从而拓展语音留言箱的功能。本发明主要实现：

1)借助人工智能技术，增强智能电视语音信箱的功能，目前可以应用的功能有：手机客户端输入文字，通过文字转语音，可以在智能电视端接收语音；并且手机客户端输入的文字或者上传的声音，可以按照要求定制不同的音色，比如使用卡通人物的音色来朗读童话故事等；

2)应用人工智能技术后，将大大提升智能电视语音留言箱的使用场景，将在儿童陪伴、儿童辅助教育等方面极大提升用户粘性；

3)应用人工智能技术后，将实现文字自动转语音的功能，这就给儿童教育家长侧提供极大的便利性，从而在远程不用语音就可以和儿童互动；

4)应用人工智能技术后，将实现自动问答、自动聊天功能；

5)应用人工智能技术，将改变智能电视语音留言箱的刻板的形象，给生活带来乐趣和情趣，比如推出地方语言版、卡通动画版、男女生版本的留言箱。

本发明的各设备和存储介质实施例的详细内容，具体可参见各方法实施例的对应部分，在此，不再赘述。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种智能电视的语音转换方法，其中，该方法包括：

2.根据权利要求1所述的方法，其中，还包括：

手机客户端向语音留言箱服务器发送留言语音和变音规则；

3.根据权利要求1或2所述的方法，其中，所述语音库包括：标准普通话语音库、地方方言语音库、卡通人物语音库、男女生语音库和自定义语音库中一种或任意组合。

4.根据权利要求3所述的方法，其中，还包括：

手机客户端向群组管理服务器发送添加语音库的请求；

5.一种智能电视的语音转换设备，其中，该设备包括：

6.根据权利要求5所述的设备，其中，还包括：

7.根据权利要求5或6所述的设备，其中，所述语音库包括：标准普通话语音库、地方方言语音库、卡通人物语音库、男女生语音库和自定义语音库中一种或任意组合。

8.根据权利要求7所述的设备，其中，还包括：