CN110430475A

CN110430475A - 一种互动方法和相关装置

Info

Publication number: CN110430475A
Application number: CN201910683717.3A
Authority: CN
Inventors: 罗飞虎; 冯超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-08

Abstract

本申请实施例公开一种互动方法，该方法可以获取用于互动的目标信息，将目标信息所确定的目标文本导入语音人工智能平台生成目标语音片段。针对目标用户播放媒体数据的过程中，在媒体数据被播放到目标互动时间区间时，播放该目标语音片段，目标互动时间区间是根据目标文本确定的。由于目标语音片段为与目标用户进行交互的语音形式，目标语音片段与目标用户直接相关，语音的互动形式可以提高目标用户的浸入感。而且不同的用户所用于互动的目标信息可以不同，生成的目标语音片段的内容也会有所区别。故即使使用同一个媒体数据分别与不同用户进行互动，不同用户的互动体验也会因为不同内容的目标语音片段而有所不同，避免了千人一面的互动过程，提高了互动体验。

Description

一种互动方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种互动方法和相关装置。

背景技术

随着互联网的不断发展，互动的方式越来越多，单纯的文字交流已不能满足用户日益增长的网络交流需求，通过视频、音频等媒体作为交互方式与用户进行互动已成为一种新的互动方式。

目前的互动方式只是向用户播放预先录制好的第一人称视角的视频，用户在观看该视频时，使得用户觉得视频中的人物在与用户互动。

然而，由于该视频中的互动内容是固定的，所有用户看到的都是相同的互动内容，用户的代入感较弱，难以满足用户的互动需求，互动体验较差。

发明内容

为了解决上述技术问题，本申请提供了一种互动方法和相关装置，使得不同用户的互动体验因为不同内容的目标语音片段而有所不同，避免了千人一面的互动过程，提高了互动体验。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种互动方法，所述方法包括：

获取用于互动的目标信息；

根据所述目标信息所确定的目标文本生成目标语音片段；

针对目标用户播放媒体数据的过程中，在所述媒体数据的目标互动时间区间播放所述目标语音片段，所述目标互动时间区间是根据所述目标文本确定的。

第二方面，本申请实施例提供一种互动装置，所述装置包括获取单元、生成单元和播放单元：

所述获取单元，用于获取用于互动的目标信息；

所述生成单元，用于根据所述目标信息所确定的目标文本生成目标语音片段；

所述播放单元，用于针对目标用户播放媒体数据的过程中，在所述媒体数据的目标互动时间区间播放所述目标语音片段，所述目标互动时间区间是根据所述目标文本确定的。

第三方面，本申请实施例提供一种用于互动的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的方法。

由上述技术方案可以看出，当需要通过媒体与用户进行互动时，获取用于互动的目标信息，根据目标信息所确定的目标文本生成目标语音片段，该目标语音片段可以为与用户例如目标用户进行交互的语音形式。针对目标用户播放媒体数据的过程中，在媒体数据被播放到目标互动时间区间时，播放该目标语音片段，其中，目标互动时间区间是根据目标文本确定的。由于目标语音片段为与目标用户进行交互的语音形式，从而在为目标用户播放媒体数据时，在播放到对应的互动位置例如目标互动时间区间时，所播放的目标语音片段与目标用户直接相关，语音的互动形式可以提高目标用户的浸入感。而且不同的用户所用于互动的目标信息可以不同，生成的目标语音片段的内容也会有所区别。故即使使用同一个媒体数据分别与不同用户进行互动，不同用户的互动体验也会因为不同内容的目标语音片段而有所不同，避免了千人一面的互动过程，提高了互动体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种互动方法的应用场景示意图；

图2为本申请实施例提供的一种互动方法流程图；

图3为本申请实施例提供的播放入口的展示界面示例图；

图4为本申请实施例提供的在目标互动时间区间播放目标语音片段的示例图；

图5为本申请实施例提供的目标语音片段调整原理图；

图6为本申请实施例提供的在目标互动时间区间添加字幕的示例图；

图7为本申请实施例提供的一种互动方法的流程图；

图8a为本申请实施例提供的一种互动装置的结构图；

图8b为本申请实施例提供的一种互动装置的结构图；

图9为本申请实施例提供的一种终端设备的结构图；

图10为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

通过向用户播放预先录制好的第一人称视角的视频与用户进行互动，用户在观看该视频时，虽然可以感觉视频中的人物在与自己互动，但是由于该视频中的互动内容是固定的，即通过同一媒体数据与不同用户进行互动时互动内容完全相同，不同用户的互动体验千篇一律，用户的代入感较弱，互动体验较差。

为了解决上述技术问题，本申请实施例提供一种互动方法，该方法在为目标用户播放媒体数据时，在播放到互动位置例如目标互动时间区间时，播放目标语音片段，通过该目标语音片段与目标用户进行互动，语音的互动形式可以提高目标用户的浸入感。而且该目标语音片段是根据目标信息所确定的目标文本生成的，不同目标用户的目标信息可以不同，生成的目标语音片段的内容也会有所区别。从而使得不同用户因为目标语音片段的内容不同而有不同的互动体验。

该方法可以应用到数据处理设备，数据处理设备可以是终端设备，该终端设备还应具有媒体数据播放功能，终端设备例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑等设备。

数据处理设备还可以是终端设备和服务器，该服务器可以为独立服务器，也可以为集群服务器。服务器可以从终端设备获取用于互动的目标信息，通过对目标信息进行处理得到目标语音片段，终端设备获取目标语音片段，在终端设备针对目标用户播放媒体数据的过程中，在媒体数据的目标互动时间区间播放目标语音片段。

需要说明的是，本申请实施例提供的方法可以应用到各种媒体播放、广告投放、网络教学等场景中。

为了便于理解本申请的技术方案，下面结合实际应用场景，以终端设备为例对本申请实施例提供的互动方法进行介绍。

参见图1，图1为本申请实施例提供的互动方法的应用场景示意图。该应用场景中包括终端设备101，终端设备101可以获取用于互动的目标信息。目标信息反映了目标用户的个性化互动需求，目标信息可以是文本信息，例如目标用户的姓名、昵称等；目标信息也可以是图片信息等。

终端设备101根据目标信息确定目标文本，目标文本是与目标用户进行交互的互动内容的文本形式。目标文本可以是目标信息所包括内容的文本形式，也可以是根据目标信息所包括内容生成的文本形式。终端设备101在得到目标文本后，根据目标文本生成目标语音片段。该目标语音片段可以为与目标用户进行交互的语音形式，例如，目标信息是目标用户的姓名“王小明”，根据目标信息确定的目标文本是“王小明”，则生成的目标语音片段为“王小明”的语音。其中，生成目标语音片段的过程可以是通过语音人工智能平台实现的，即将确定出的目标文本导入语音人工智能平台，语音人工智能平台根据目标文本生成目标语音片段。

这样，针对目标用户播放媒体数据的过程中，在媒体数据被播放到对应的互动位置例如目标互动时间区间时，播放该目标语音片段“王小明”。其中，目标互动时间区间是根据目标文本确定的。

由于目标语音片段是根据目标信息所确定目标文本生成的，不同的用户所用于互动的目标信息可以不同，例如用户A用于互动的目标信息是用户A的姓名“王小明”，用户B用于互动的目标信息是用户B的昵称“我的女皇”，则生成的目标语音片段的内容也会有所区别，即针对目标信息“王小明”生成的目标语音片段是语音“王小明”，针对目标信息“我的女皇”生成的目标语音片段是语音“我的女皇”。故，当与不同用户进行互动，不同用户的互动体验也会因为不同内容的目标语音片段而有所不同，提高目标用户的浸入感，避免了千人一面的互动过程，提高了互动体验。

接下来，将结合附图对本申请实施例提供的互动方法进行详细介绍。

参见图2，图2示出了一种互动方法的流程图，所述方法包括：

S201、获取用于互动的目标信息。

需要说明的是，在本实施例中目标信息的获取方式可以包括多种。在一种情况下，由于媒体数据可能是终端设备通过浏览器或客户端播放的，目标用户进入浏览器或客户端后，终端设备可以向目标用户展示媒体数据的播放入口，播放入口的展示界面例如图3所示。在播放入口可以提供目标信息的输入框，当目标用户在输入框完成目标信息的输入后，点击功能键“马上进入”，从而向目标用户播放媒体数据。在这种情况下，目标信息可以是目标用户输入的。

在另一种情况下，在针对目标用户播放媒体数据之前，目标用户可能已经在浏览器或客户端录入自己的个性化信息，个性化信息可以体现目标用户的个性化互动需求，因此，终端设备可以自动提取目标用户的个性化信息作为目标信息。

S202、根据所述目标信息所确定的目标文本生成目标语音片段。

终端设备在得到目标信息所确定的目标文本后，终端设备访问语音人工智能平台，将目标文本转换成目标语音片段。其中，该目标语音片段为与目标用户进行交互的语音形式。

语音人工智能平台通过人工智能(Artificial Intelligence，简称AI)技术将目标文本转换成目标语音片段。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的方案涉及人工智能的语音技术(Speech Technology)等技术。

语音技术的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。使得计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

可以理解的是，目标文本可以是目标信息所包括内容的文本形式，目标文本可以包括至少一段文本。例如，目标信息为目标用户的姓名“王小明”，则目标文本可以为“王小明”，或者，目标信息为目标用户输入的鲜花的图片，目标信息所包括的内容为“鲜花”，则目标文本可以为“鲜花”；目标文本也可以是根据目标信息所包括内容生成的文本形式，例如，媒体数据为舞蹈教学的相关视频，媒体视频的互动位置的互动内容与舞蹈种类相关，若目标信息包括目标用户的年龄“60”，由于60岁的目标用户更有可能希望学习广场舞，则目标文本可以为“广场舞”。

S203、针对目标用户播放媒体数据的过程中，在所述媒体数据的目标互动时间区间播放所述目标语音片段。

终端设备可以侦听媒体数据播放，当侦听到媒体数据播放到目标互动时间区间时播放目标语音片段。其中，目标互动时间区间是根据目标文本确定的。

例如图4所示，用于与目标用户进行互动的媒体数据为视频数据，图4中带箭头的直线表示视频数据播放的时间轴。若视频数据中互动对象发出的语音中包括“×××，我在这里等你很久了”，其中“×××”在视频数据中所在的时间区间为目标互动时间区间，目标互动时间区间为图4所示视频数据中的第4s-第8s。若目标用户为用户A，生成的目标语音片段为语音“王小明”。那么，当侦听到视频数据播放到第4s-第8s的时间区间时播放语音“王小明”，从而增强目标用户的浸入感。当然，若目标用户为用户B，根据用户B用于互动的目标信息生成的目标语音片段是语音，“我的女皇”，那么，当侦听到视频数据播放到第4s-第8s的时间区间时播放语音“我的女皇”，实现了不同用户的互动体验因为不同内容的目标语音片段而有所不同、提高互动体验的目的。

可以理解的是，终端设备可以通过调用媒体数据播放接口播放媒体数据。若媒体数据为视频数据，终端设备可以调用浏览器等视频播放接口播放视频数据，并在与视频数据同频率时序下侦听视频播放位置接口(current Time)，从而侦听视频数据是否播放到目标互动时间区间。播放目标语音片段所调用的音频接口与播放媒体数据所调用的媒体数据播放接口不同，音频接口例如可以是网络音频应用程序接口(web Audio ApplicationProgramming Interface，简称web Audio API)。

由上述技术方案可以看出，当需要通过媒体与用户进行互动时，获取目标用户用于互动的目标信息，根据目标信息所确定的目标文本生成目标语音片段，该目标语音片段可以为与目标用户进行交互的语音形式。针对目标用户播放媒体数据的过程中，在媒体数据被播放到目标互动时间区间时，播放该目标语音片段，其中，目标互动时间区间是根据目标文本确定的。由于目标语音片段为与目标用户进行交互的语音形式，从而在为目标用户播放媒体数据时，在播放到对应的互动位置例如目标互动时间区间时，所播放的目标语音片段与目标用户直接相关，语音的互动形式可以提高目标用户的浸入感。而且不同的用户所用于互动的目标信息可以不同，生成的目标语音片段的内容也会有所区别。故即使使用同一个媒体数据分别与不同用户进行互动，不同用户的互动体验也会因为不同内容的目标语音片段而有所不同，避免了千人一面的互动过程，提高了互动体验。

需要说明的是，媒体数据中可以包括一段互动时间区间，也可以包括多段互动时间区间。若媒体数据中包括一段互动时间区间，目标互动时间区间即为该互动时间区间。若媒体数据中包括多段互动时间区间，目标互动时间区间为根据目标文本从多段互动时间区间中确定的至少一段。

当媒体数据中包括多段互动时间区间时，若目标文本包括一段文本，目标互动时间区间可以是该多段互动时间区间。例如，媒体数据中“×××，我在这里等你很久了。我要告诉你一个秘密，只属于×××和我的秘密”，“×××”在媒体数据中所在的时间区间为互动时间区间，该媒体数据中包括两段互动时间区间。若目标文本仅包括一段文本“王小明”，那么，这两个互动时间区间都可以作为目标互动时间区间，当媒体数据依次播放这两个互动时间区间时，都可以播放根据目标文本生成的目标语音片段“王小明”。

当媒体数据中包括多段互动时间区间时，若目标文本包括多段文本，且每段文本对应不同文本标识，那么，可以根据文本标识确定出多段互动时间区间中的哪一段或多段互动时间区间需要播放根据该文本标识所对应文本生成的目标语音片段。因此，在本实施例中，目标互动时间区间的一种可能的确定方式可以是，获取目标文本的文本标识，根据文本标识与互动时间区间的对应关系，将目标文本的文本标识对应的互动时间区间作为目标互动时间区间。其中，文本标识与互动时间区间的对应关系是预先建立的。

例如，目标文本包括文本“王小明”和文本“18岁”，其中，文本“王小明”的文本标识为目标用户的称呼(包括姓名、昵称等)，文本“18岁”的文本标识为目标用户的年龄。媒体数据中包括多段互动时间区间，例如，包括第2s-第4s、第8s-第9s、第12s-第14s这3段互动时间区间，其中，互动时间区间第2s-第4s以及互动时间区间第12s-第14s与文本标识目标用户的称呼具有对应关系，互动时间区间第8s-第9s与文本标识目标用户的年龄具有对应关系。因此，对于目标文本“王小明”，其文本标识为目标用户的称呼，那么，确定出的目标互动时间区间为互动时间区间第2s-第4s以及互动时间区间第12s-第14s；对于目标文本“18岁”，其文本标识为目标用户的年龄，那么，确定出的目标互动时间区间为互动时间区间第8s-第9s。

本实施例是在播放媒体数据的过程中，在媒体数据播放到目标时间区间时播放目标语音片段。媒体数据自身可能包括语音，语音是指媒体数据中互动对象发出的用于与用户互动的声音，媒体数据中包括的背景音乐等不是语音。为了避免媒体数据自身包括的语音影响目标语音片段的播放，从而影响互动体验，在一种可能的实现方式中，媒体数据播放至目标互动时间区间时没有语音。

由于媒体数据播放至目标互动时间区间时没有语音，因此，当在目标互动时间区间播放目标语音片段时，避免了目标语音片段受到媒体数据自身包括语音的干扰，使得目标用户可以更加清晰的听见目标语音片段，提高互动体验。

需要说明的是，由于媒体数据自身可能包括语音，该语音是媒体数据中的互动对象发出的，互动对象的语音具有对应的语音音效特点，为了保证在目标互动时间区间播放的目标语音片段尽量符合互动对象的语音音效特点，避免目标语音片段听起来比较突兀，S203的一种可能实现方式可以是获取目标互动时间区间所对应的音效参数。由于音效参数可以体现媒体数据在目标互动时间区间中互动对象的语音音效特点，因此，可以根据获取到的音效参数调整目标语音片段，使得目标语音片段的语音音效特征符合互动对象的语音音效特点。其中，根据音效参数调整目标语音片段可以是终端设备利用web Audio API进行的。这样，在目标互动时间区间可以播放调整后的目标语音片段，由于目标语音片段的语音音效特征符合互动对象的语音音效特点，避免了目标语音片段听起来比较突兀情况，使得在目标互动时间区间中目标语音片段与互动对象的语音和谐统一。

音频接口音效参数可以包括很多中，在本实施例中，音效参数例如可以包括语速、音量、语调中一种或多种的组合。以音效参数是音量为例，目标语音片段调整原理图可以参见图5所示，对目标语音片段的调整可以在音频上下文(Audio Context)内进行，AudioContext内可以包括多个音频节点(Audio Node)，每个Audio Node实现不同的功能。例如，图5中包括3个Audio Node，依照从左向右的顺序，第一个Audio Node是缓存资源(buffersource)的功能，第二个Audio Node是增益节点(gain Node)，用于调整目标语音片段的音量，第三个Audio Node是音频目标节点(audio Destination Node)，用于定义调整后的目标语音片段的输出地址，例如为扬声器。通过buffer source获取到目标语音片段后，利用gain Node调整目标语音片段的音量，得到调整后的目标语音片段，由audio DestinationNode定义调整后的目标语音片段的输出地址，输出调整后的目标语音片段。

需要说明的是，若音效参数中包括语速、音量和语调，则可以依次对目标语音片段的语速、音量和语调进行调整。调整语速和语调的原理与图5所示的调整音量的原理类似，只是将图5中gain Node分别替换为调整语速和语调分别对应的节点。

另外，音效参数中除了语速、音量和语调外，还可以包括其他参数，针对这些参数，还可以通过双二阶滤波器节点(Biquad Filter Node)对目标语音片段进行调整。

可以理解的是，若媒体数据为视频数据，视频数据中还可以包括字幕，通过字幕可以更加便于用户理解视频数据中的内容。在这种情况下，在目标互动时间区间播放目标语音片段时，还可以在目标时间区间添加目标文本作为目标语音片段的字幕。

若视频数据自身包括互动对象的语音，那么，视频数据中可以展示互动对象的语音所对应的字幕。在这种情况下，若视频数据播放至目标互动时间区间时没有语音，那么，视频数据在目标互动时间区间没有对应的字幕，而是在目标互动时间区间预留字幕留白，以便在目标互动时间区间添加目标文本作为目标语音片段的字幕。参见图6所示，视频数据中互动对象发出的语音中包括“嗨，×××，我在这里等你很久了”，“×××”在视频数据中所在的时间区间为目标互动时间区间，目标互动时间区间没有语音，那么，在针对语音“嗨，×××，我在这里等你很久了”展示字幕时，“×××”所对应的位置空白，即预留字幕留白，其余字幕正常显示，如图6中601所示，白色框的位置表示预留字幕留白。这样，若目标语音片段为“王小明”，当视频数据播放至目标互动时间区间时，播放目标语音片段“王小明”，并在目标互动时间区间显示字幕“王小明”，最终目标用户所看到的字幕为“嗨，王小明，我在这里等你很久了”，如图6中602所示。

接下来，将结合具体应用场景对本申请实施例提供的互动方法进行介绍。在该应用场景中，媒体数据为视频数据，该视频数据为舞蹈教学视频，通过该视频数据与目标用户互动。目标用户可以通过使用终端设备扫描二维码或者输入网址信息在浏览器中观看该视频数据。参见图7，所述互动方法包括：

S701、目标用户在浏览器中输入网址进入视频数据的播放入口。

S702、目标用户在播放入口的输入框中输入文本“王小明”。

其中，目标用户输入的“王小明”为目标用户的姓名，可以作为用于互动的目标信息。

S703、终端设备获取目标信息“王小明”。

S704、终端设备将“王小明”作为目标文本，并生成目标语音片段“王小明”。

S705、针对目标用户播放用于互动的视频数据的过程中，在视频数据的目标互动时间区间播放目标语音片段“王小明”。

基于前述实施例提供的互动方法，本申请实施例提供一种互动装置，参见图8a所示，所述装置包括获取单元801、生成单元802和播放单元803：

所述获取单元801，用于获取用于互动的目标信息；

所述生成单元802，用于根据所述目标信息所确定的目标文本生成目标语音片段；

所述播放单元803，用于针对目标用户播放媒体数据的过程中，在所述媒体数据的目标互动时间区间播放所述目标语音片段，所述目标互动时间区间是根据所述目标文本确定的。

在一种实现方式中，所述媒体数据播放至所述目标互动时间区间时没有语音。

在一种实现方式中，所述播放单元803，具体用于：

获取所述目标互动时间区间所对应的音效参数，所述音效参数用于体现所述媒体数据在所述目标互动时间区间中互动对象的语音音效特点；

根据所述音效参数，调整所述目标语音片段；

在所述目标互动时间区间播放调整后的所述目标语音片段。

在一种实现方式中，若所述媒体数据为视频数据，所述视频数据中包括字幕，参见图8b，所述装置还包括添加单元804：

所述添加单元804，用于在所述目标时间区间添加所述目标文本作为所述目标语音片段的字幕。

在一种实现方式中，所述目标信息是所述目标用户输入的，或者，所述目标信息是所提取的所述目标用户的个性化信息。

在一种实现方式中，所述媒体数据中包括多段互动时间区间，所述目标互动时间区间为根据所述目标文本从所述多段互动时间区间中确定的至少一段。

在一种实现方式中，所述播放单元803还用于：

获取所述目标文本的文本标识；

根据文本标识与互动时间区间的对应关系，将所述目标文本的文本标识对应的互动时间区间作为所述目标互动时间区间。

在一种实现方式中，所述目标语音片段是语音人工智能平台根据所述目标文本生成的。

本申请实施例还提供了一种用于互动的设备，下面结合附图对用于互动的设备进行介绍。请参见图9所示，本申请实施例提供了一种用于互动的设备900，该设备900还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9，手机包括：射频(Radio Frequency，简称RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(wireless fidelity，简称WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路910可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器980处理；另外，将设计上行的数据发送给基站。通常，RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括触控面板931以及其他输入设备932。触控面板931，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941，可选的，可以采用液晶显示器(Liquid CrystalDisplay，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板941。进一步的，触控面板931可覆盖显示面板941，当触控面板931检测到在其上或附近的触摸操作后，传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中，触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度，接近传感器可在手机移动到耳边时，关闭显示面板941和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路960、扬声器961，传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号输出；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经RF电路910以发送给比如另一手机，或者将音频数据输出至存储器920以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器980是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器980可包括一个或多个处理单元；优选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

手机还包括给各个部件供电的电源990(比如电池)，优选的，电源可以通过电源管理系统与处理器980逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器980还具有以下功能：

获取用于互动的目标信息；

根据所述目标信息所确定的目标文本生成目标语音片段；

本申请实施例还提供服务器，请参见图10所示，图10为本申请实施例提供的服务器1000的结构图，服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)1022(例如，一个或一个以上处理器)和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行存储介质1030中的一系列指令操作。

服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统1041，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结构。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述各个实施例所述的互动方法。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的互动方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种互动方法，其特征在于，所述方法包括：

获取用于互动的目标信息；

根据所述目标信息所确定的目标文本生成目标语音片段；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述媒体数据播放至所述目标互动时间区间时屏蔽所述媒体数据的原始语音。

3.根据权利要求1所述的方法，其特征在于，所述在所述媒体数据的目标互动时间区间播放所述目标语音片段，包括：

根据所述音效参数，调整所述目标语音片段；

在所述目标互动时间区间播放调整后的所述目标语音片段。

4.根据权利要求1所述的方法，其特征在于，若所述媒体数据为视频数据，所述视频数据中包括字幕，所述方法还包括：

在所述目标时间区间添加所述目标文本作为所述目标语音片段的字幕。

5.根据权利要求1所述的方法，其特征在于，所述目标信息是所述目标用户输入的，或者，所述目标信息是所提取的所述目标用户的个性化信息。

6.根据权利要求1-5任意一项所述的方法，其特征在于，所述媒体数据中包括多段互动时间区间，所述目标互动时间区间为根据所述目标文本从所述多段互动时间区间中确定的至少一段。

7.根据权利要求6所述的方法，其特征在于，所述目标互动时间区间通过如下方式确定：

获取所述目标文本的文本标识；

8.根据权利要求1-5任意一项所述的方法，其特征在于，所述目标语音片段是语音人工智能平台根据所述目标文本生成的。

9.一种互动装置，其特征在于，所述装置包括获取单元、生成单元和播放单元：

所述获取单元，用于获取用于互动的目标信息；

10.根据权利要求9所述的装置，其特征在于，所述媒体数据播放至所述目标互动时间区间时没有语音。

11.根据权利要求9所述的装置，其特征在于，所述播放单元，具体用于：

根据所述音效参数，调整所述目标语音片段；

在所述目标互动时间区间播放调整后的所述目标语音片段。

12.根据权利要求9所述的装置，其特征在于，若所述媒体数据为视频数据，所述视频数据中包括字幕，所述装置还包括添加单元：

所述添加单元，用于在所述目标时间区间添加所述目标文本作为所述目标语音片段的字幕。

13.根据权利要求9所述的装置，其特征在于，所述目标信息是所述目标用户输入的，或者，所述目标信息是所提取的所述目标用户的个性化信息。

14.一种用于互动的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-8所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-8所述的方法。