CN112119372A

CN112119372A - 电子设备及其控制方法

Info

Publication number: CN112119372A
Application number: CN201980032121.5A
Authority: CN
Inventors: 金载洪; 李相暻; 郑址鹤
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-06-15
Filing date: 2019-06-07
Publication date: 2020-12-22
Anticipated expiration: 2039-06-07
Also published as: EP3762819A1; CN112119372B; US11561760B2; WO2019240434A1; KR20190142192A; EP3762819A4; EP3762819B1; US20190384569A1

Abstract

提供了一种用于改变个人助理功能的语音的电子设备及其方法。该电子设备包括显示器、收发器、处理器以及用于存储可由处理器执行的命令的存储器。该处理器被配置为：基于用于请求获取人的语音数据特征的用户命令被接收到，控制显示器显示人的信息，人的语音数据特征被包括在显示器上显示的媒体内容中；基于用于选择人的信息之一的用户输入被接收到，获取与人的话语相对应的语音数据，人的话语与所选择的人的信息有关；从所获取的语音数据中获取语音数据特征；以及控制收发器向服务器发送所获取的语音数据特征。

Description

电子设备及其控制方法

技术领域

本公开涉及一种用于改变个人助理功能的语音的电子设备。

背景技术

除了使用键盘或鼠标的传统输入方式之外，近来的电子设备还可以支持各种输入方式，例如，语音输入。例如，诸如智能电话机或平板电脑的电子设备可以识别在执行人工智能(AI)个人助理功能时输入的用户语音，执行与语音输入相对应的操作，或者提供搜索结果。

基于处理自然语言的技术开发了AI个人助理功能。用于处理自然语言的技术是用于掌握用户话语的意图并向用户提供与该意图相对应的结果。

在这种情况下，电子设备可以使用显示器来提供结果或者通过语音来提供结果。

上述信息仅作为背景信息而提供，以帮助理解本公开。对于任意上述内容是否可作为本公开的现有技术没有任何判定也没有任何断言。

发明内容

技术问题

本公开的各方面是要解决至少上述问题和/或缺点，并且提供至少下述优点。因此，本公开的一方面在于提供一种当电子设备利用人工智能(AI)个人助理功能接收用户话语并与之对应地输出操作作为语音时输出改变的语音以对应于用户的意图的方法。

本公开的另一方面在于提供一种当电子设备是通用设备时对各个用户输出AI个人助理的语音作为不同语音的方法。

其它方面将部分地在随后的描述中进行阐述，并且部分地从随后的描述中显而易见，或者可以通过实践所示的实施例而获知。

问题的解决方案

根据本公开的一方面，提供了一种电子设备。该电子设备包括显示器、收发器、处理器以及用于存储可由处理器执行的命令的存储器。该处理器被配置为：基于用于请求获取人的语音数据的用户命令被接收到，通过控制显示器显示人的至少一个信息，人的语音数据被包括在显示器上显示的媒体内容中；基于用于选择人的至少一个信息之一的用户输入被接收到，获取与人的话语相对应的语音数据，人的话语与所选择的人的信息有关；从所获取的语音数据中获取语音数据特征；以及控制收发器向服务器发送所获取的语音数据特征。

根据本公开的另一方面，提供了一种电子设备的控制方法。该控制方法包括：基于接收到用于请求获取人的语音数据特征的用户命令，在电子设备的显示器上显示人的至少一个信息，人的语音数据特征被包括在显示器上显示的媒体内容中；基于接收到用于选择人的至少一个信息之一的用户输入，获取与人的话语相对应的语音数据，人的话语与所选择的人的信息有关；从所获取的语音数据中获取语音数据特征；以及向服务器发送语音数据特征。

根据本公开的实施例，电子设备可以将出现在用户正在观看的媒体内容中的人的语音改变为AI个人助理的语音。

根据本公开的实施例，电子设备可以划分每个用户的话语，并根据划分的用户输出AI个人助理的不同语音。

本发明的有益效果

根据以下结合附图披露本公开的各种实施例的详细描述，本公开的其它方面、优点和显著特征对于本领域技术人员将变得显而易见。

附图说明

图1是示出根据本公开的实施例的利用电子设备的人工智能(AI)个人助理功能的语音的状态的视图；

图2是根据本公开的实施例的电子设备和服务器的示意性框图；

图3是示出根据本公开的实施例的电子设备显示语音数据收集程度的情况的视图；

图4是描述根据本公开的实施例的提供另一媒体内容以通过电子设备获取语音数据特征或通过另一电子设备获取语音数据特征的情况的视图；

图5是根据本公开的实施例的电子设备根据用户设置由个人助理功能输出的语音的情况的视图；

图6是描述根据本公开的实施例的电子设备利用用户偏好的人的对话来答复的情况的视图；

图7是描述根据本公开的实施例的由电子设备从媒体内容获取语音数据特征并向服务器发送该特征的情况的流程图；

图8是描述根据本公开的实施例的由服务器利用语音数据特征生成语音数据并向外部设备发送语音数据的情况的流程图；

图9是描述根据本公开的实施例的服务器从语音数据中获取语音数据特征的情况的流程图；

图10是描述根据本公开的实施例的利用由电子设备获取的语音数据特征来输出语音数据的情况的流程图；以及

图11是根据各种实施例的网络环境中的电子设备的框图。

在整个附图中，相同的附图标记用于表示相同的元件。

具体实施方式

提供以下参考附图的描述是为了帮助全面了解由权利要求及其等同形式所限定的本公开的各种实施例。它包括各种具体的细节来帮助理解，但这些细节只能被视为示范。因此，本领域技术人员将认识到，在不脱离本公开的范围和精神的情况下，可以对本文所描述的各种实施例进行各种更改和修改。此外，为了清楚和简明，可能省略对公知功能和结构的描述。

以下描述和权利要求中所使用的术语和措辞并不限于书面含义，而是仅仅由发明人使用以使得能够清楚而一致地理解本公开。因此，本领域技术人员应当明白，以下对本公开的各种实施例的描述仅仅为了说明的目的，而不旨在限制由所附权利要求及其等同形式所限定的本公开。

应理解，除非上下文中另有明确指示，未指明数量的表述“一”、“一种”和“该”也包括多个所指对象。因此，例如对“组件表面”的引述包括对一个或更多个这种表面的引述。

本公开中使用的术语仅仅是为了描述特定实施例，并不意图限制本公开。除非上下文另外明确指出，否则单数形式包括复数指代。在说明书中，当一部件“连接到”另一部件时，这不仅是部件“直接连接”的情况，而且还是通过在其中插入又一部件而“电连接”到该另一部件的情况。另外，当将某个部件称为“包括”某个元件时，除非另有明确说明，否则这并不旨在排除其他组件，而是可以进一步包括其他组件。

在本公开中，可以将权利要求中使用的术语“所述”和类似的定语词既指单数又指复数。此外，除非叙述明确指定描述根据本公开的方法的操作的顺序，否则可以以适当的顺序执行所描述的操作。本公开不限于所描述的操作的操作顺序。

说明书中各个地方出现的短语“在一些实施例中”或“在一个实施例中”不一定都指的是同一实施例。

本公开的一些实施例可以由功能块配置和各种处理操作来表示。这些功能块中的一些或全部可以以执行特定功能的各种数量的硬件和/或软件配置来实现。例如，本公开的功能块可以由一个或更多个微处理器来实现，或者可以由用于给定功能的电路配置来实现。同样，例如，本公开的功能块可以以各种编程或脚本语言来实现。可以将功能块实现为在一个或更多个处理器中执行的算法。另外，本公开可以采用相关技术的用于电子环境设置、信号处理、和/或数据处理的技术。术语“机构”、“元件”、“设备”和“配置”可以广泛地使用，并且不限于机械和物理配置。

另外，附图中所示的构件之间的连接线或连接构件是功能连接和/或物理或电路连接。在实际的设备中，元件之间的连接可以通过添加或可以替换的各种功能连接、物理连接或电路连接来表示。

在下文中，将参考附图详细描述本公开。

图1是示出根据本公开的实施例的利用电子设备的人工智能(AI)个人助理功能的语音的状态的视图。

根据实施例，电子设备10可以是能够处理从外部接收到的视频信号并且可视地显示处理后的视频的视频显示设备(例如，电视机(TV))，但实施例不限于此，电子设备10可以用包括存储器和处理器的设备来实现。例如，电子设备10可以被实现为各种视频显示设备，诸如移动电话机、智能电话机、平板个人计算机(PC)、数码相机、摄录像机、膝上型计算机、平板PC、台式机、电子书终端、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器或可穿戴设备等。

根据实施例，电子设备10可以通过在电子设备中存储的应用(或应用程序)(例如，通知应用、消息应用、照片(相册)应用等)向用户提供必要的服务。例如，电子设备10可以通过在电子设备10中存储的智能应用(或语音识别应用)来执行和操作一个或更多个其他应用。电子设备10可以通过智能应用接收用户输入以执行和操作一个或更多个应用。即，可以通过物理按钮、触摸板、语音输入、远程输入等来接收用户输入。

AI个人助理可以意味着，例如，电子设备10通过接收用户话语并基于用户话语生成用于操作该应用的命令来执行应用。

根据实施例，与至少一个或更多个服务器链接的电子设备10可以执行AI个人助理功能。例如，服务器20可以通过通信网络从电子设备10接收用户的语音输入，并将语音输入改变为文本数据。服务器20基于文本数据可以生成(或选择)路径规则。路径规则可以包括有关执行应用功能的动作(或操作)的信息或有关执行动作所需的参数的信息。路径规则可以包括应用的动作顺序。电子设备10可以接收路径规则，根据该路径规则选择应用，并且在所选择的应用中执行该路径规则中包括的动作。

根据实施例，术语“路径规则”可以表示电子设备10执行用户请求的任务的状态序列，但不限于此。也即是，路径规则可以包括关于状态序列的信息。任务可以表示例如智能应用可以提供的特定动作。该任务可以包括生成时间表、将照片传输到所需的另一方、或提供天气信息。电子设备10可以通过顺序地包括至少一个状态(例如，电子设备10的动作状态)来执行任务。

根据本公开的实施例，路径规则可以由基于规则的模型或AI系统提供或生成。AI系统可以是基于规则的系统或基于神经网络的系统(例如，前馈神经网络(FNN)、递归神经网络(RNN))。可替代地，AI系统可以是以上或任何其他AI系统的组合。根据一个实施例，可以响应于用户请求从一组预定的路径规则中选择路径规则或实时地生成路径规则。例如，AI系统可以在多个预定的路径规则中选择至少一个路径规则，或者动态地(或实时地)生成路径规则。

根据各种实施例，电子设备10可以执行服务器20的前述动作。即，电子设备10可以将用户话语转换为文本并基于其生成(或选择)路径规则。根据情况，电子设备10可以并行地或顺序地生成路径规则，或者接收由服务器20生成的路径规则。

根据本公开的实施例，电子设备10可以执行动作，并且在显示器上显示与执行动作的电子设备10的状态相对应的屏幕。对于另一示例，电子设备10可以执行动作，并且可以不在显示器上显示执行动作的结果。电子设备10可以例如执行多个动作，并且在显示器上仅显示多个动作的部分结果。例如，电子设备10可以在显示器上仅显示执行最后命令的动作的结果。在另一示例中，电子设备10可以接收用户输入，并且在显示器上显示执行动作的结果。

根据各种实施例，电子设备10可以执行动作，并且通过使用扬声器将执行动作的结果输出为语音。例如，电子设备10可以在执行应用之前、期间或之后输出语音，该语音指引与应用有关的内容。

参考图1，电子设备10可以如上所述改变从个人助理功能输出的语音。

参考动作①，电子设备10可以接收用户命令以请求获取在显示器11上显示的媒体内容中包括的人的语音数据特征。

例如，电子设备10可以执行用于搜索与媒体内容中包括的各种对象有关的信息的应用，并且在显示器11上显示至少一个信息搜索对象。

根据各种实施例，电子设备10可以显示第一信息搜索对象111、第二信息搜索对象112和第三信息搜索对象113。第一信息搜索对象111可以是例如用于人的信息的搜索对象。第二信息搜索对象112可以是例如产品信息搜索对象。第三信息搜索对象113可以是例如地点信息搜索对象。

参考动作②，电子设备10可以响应于用于选择用于人的信息的搜索对象111的用户输入，在显示器11上显示人的至少一个信息。

例如，电子设备10可以使用自动内容识别(ACR)技术来获取在媒体内容中包括的人的信息。人的信息可以包括例如人的图像、人的名字、人的个人资料、人在媒体内容中出现的频率等。电子设备10例如可以以出现频率的降序在显示器11上显示人的名字或图像。在动作②中，电子设备10可以利用紧急情况(即，紧急出现)的频率，在显示器11上显示人C的图像121和人D的图像123，但是不限于此。例如，电子设备10可以在显示器11上显示人C的名字和人D的名字。

选择用于人的信息的搜索对象111的用户输入可以意味着，例如，使用遥控器或用于控制电子设备10的其他电子设备来选择用于人的信息的搜索对象111。然而，用于选择用于人的信息的搜索对象111的输入方式不限于此。

参考动作③，当接收到用于在显示器11上显示的人的至少一个或更多个信息中选择一个信息的用户输入时，电子设备10可以获得与人(与所选择的人的信息相关联)的话语的时间相对应的语音数据。

例如，当接收到用于选择人C的图像121的用户输入时，电子设备10可以获得与人C有关的特征。电子设备10可以获得人C的图像121中的面部的特征点(例如，位置、形状、眼睛、鼻子和嘴巴的布置等)。

利用所获得的面部特征点，电子设备10可以识别在媒体内容的播放期间人C出现的场景。当人C出现时，电子设备10可以识别面部130，并且利用人C的嘴形132的变化来识别人C的发声时段。当人C说出话语时，电子设备10可以获得由媒体内容输出的语音数据。

根据示例，电子设备10可以从获取的语音数据获得语音数据特征。语音数据特征可以是例如语音频率、语音种类、声速和音调中的至少一个。电子设备10例如可以从人C的语音数据获得语音数据特征。

参考动作④，电子设备10可以向服务器20发送所获取的语音数据特征。服务器20可以存储用户的个人账户以支持个人助理功能。这样，服务器20可以支持使得用户可以通过各种电子设备(例如，智能电话机、平板电脑、AI扬声器等)使用个人助理功能。服务器20可以与用户账户相对应地存储从电子设备10发送的语音数据特征。电子设备10可以与用户账户相对应地例如存储人C的语音数据特征。

参考动作⑤，电子设备10可以获得用户J的话语。例如，电子设备10可以获得用户J的请求搜索特定媒体内容的话语。

参考动作⑥，电子设备10可以向服务器20发送所获得的话语。

参考动作⑦，服务器20可以将获得的话语改变为文本数据，并且基于文本数据，生成路径规则以继续搜索由用户J指定的特定媒体内容。服务器20可以使用将媒体内容提供给电子设备10的另一服务器来搜索由用户指定的媒体内容。

根据实施例，服务器20可以向用户J生成指示当前正在进行搜索的语音数据，并且向电子设备10发送语音数据。在这种情况下，服务器20可以利用从动作④获得的语音数据特征来生成输出语音数据，并向电子设备10发送语音数据。

例如，服务器20可以利用在用户J的个人账户中存储的人C的语音数据特征，生成指示当前正在进行搜索的输出语音数据，并向电子设备10发送语音数据。电子设备10可以输出接收到的输出语音数据。

参考动作⑧，服务器20可以向电子设备10传送搜索结果。

在这种情况下，服务器20可以利用与用户J的个人账户对应地存储的人C的语音数据特征，生成指示该搜索结果正被显示在显示器11上的用于输出的语音数据(以下称为输出语音数据)，并且向电子设备发送语音数据。

参考动作⑨，电子设备10可以在显示器11上显示获得的搜索结果。

在这种情况下，电子设备10可以在显示搜索结果的同时，或者与显示搜索结果顺序地，输出指示搜索结果正被显示在显示器11上的输出语音数据作为人C的语音。

根据各种实施例，在输出人C的语音的情况下，电子设备10可以在显示器11上显示人C的面部图像。

根据各种实施例，电子设备10可以执行电子设备10中的上述服务器20的动作。即，电子设备10可以从语音数据获得语音数据特征并与用户J的个人账户相对应地存储该语音数据特征。电子设备10可以生成与用户J的话语相对应的路径规则，并且执行与该路径规则相对应的功能。电子设备10可以使用语音数据特征来生成输出语音数据(该语音数据特征被存储为与执行功能的操作相匹配)，并且可以使用麦克风来输出语音数据。

如上所述，根据本公开的实施例，电子设备10可以将在媒体内容中包括的人的语音应用于用户的个人助理功能以及支持个人助理功能的服务器20。利用本公开的一个实施例，用户可以使用个人助理功能来更适合用户的个人倾向(tendency)。

图2是根据本公开的实施例的电子设备和服务器的示意性框图。

参考图2的2-a，电子设备10可以包括处理器210、通信器220(例如，收发器)、显示器230和存储器240，但并不限于此。电子设备10可以省略一部分组件或包括附加组件。

根据实施例，处理器210可以通过控制存储器240来执行在存储器240中存储的程序，并且检索或存储必要的信息。

例如，处理器210可以接收用于获取人的语音数据特征(其包括在显示器230上显示的媒体内容中)的用户命令；响应于用户命令在显示器230上显示人的至少一个信息；以及当接收到用于选择所显示的人的至少一个信息之一的用户输入时，获取与人的话语(与所选择的人的信息有关)相对应的语音数据，从获取的语音数据获取语音数据特征，并向服务器发送语音数据特征。

根据实施例，通信器220可以通过处理器210的控制将电子设备10与外部设备连接。通信器220可以包括实现各种有线或无线通信方法(例如，无线局域网(LAN)、蓝牙和有线以太网等)的组件之一，以对应于电子设备10的功能和结构。

根据一个实施例，显示器230可以显示图像、视频和/或应用的执行屏幕。显示器230可以包括图1的显示器11。当显示器230被实现为触摸屏显示器时，除了输出设备之外，显示器230还可以被用作输入设备。显示器230可以包括液晶显示器、薄膜晶体管-液晶显示器、有机发光二极管、柔性显示器、三维显示器，电子纸显示器(electrophoretic display)等中的至少一种。

根据一个实施例，存储器240可以包括闪存类型、硬盘类型、微型多媒体卡类型、卡类型存储器(例如，SD或XD存储器)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘或光盘的存储器中的至少一个种存储介质。

参考图2的2-b，服务器20可以包括数据获取单元260、数据处理单元270和数据输出单元280。服务器20可以包括一个或更多个处理器(未示出)，用于控制数据获取单元260、数据处理单元270和数据输出单元280中的一个或更多个。

根据实施例，数据获取单元260可以从外部设备接收数据。例如，数据获取单元260可以从电子设备10获取语音数据特征。

根据实施例，数据处理单元270可以处理所获取的数据并利用所获取的数据来生成新数据。例如，数据处理单元270可以在生成输出语音数据的情况下利用获取的语音数据特征来生成输出语音数据。

根据实施例，数据输出单元280可以将由数据处理单元270处理或新生成的数据输出到外部。例如，数据输出单元280可以将生成的输出语音数据发送到外部设备。

图3是示出根据本公开的实施例的电子设备显示语音数据收集程度的情况的视图。

根据一个实施例，电子设备10可以向服务器20发送从语音数据获得的语音数据特征。服务器20可以识别：语音数据特征是否是在能够利用所获取的语音数据特征生成用于输出的语音数据的级别所获取的。例如，服务器20可以识别所获得的语音数据特征的量是否被包括在预定范围内。例如，服务器20可以识别是否获取了至少三个或更多个语音数据特征。可替代地，服务器20可以例如识别每个语音数据特征是通过预定数量或更多的数据，还是通过预定量的或更多的数据来获取的。

根据一个实施例，服务器20可以向电子设备10发送语音数据特征收集级别，其包括关于以下的信息：语音数据特征是否是在利用语音数据特征生成用于输出的语音数据的级别下从电子设备10所获取的。假设利用语音数据特征可以生成用于输出的语音数据的级别是100％，则语音数据特征收集级别可以例如表示当前获得的级别。

参考图3，电子设备10可以在显示器11上显示从服务器20接收到的语音数据特征收集的程度。例如，电子设备10可以在媒体内容的播放结束的时间点在显示器11的一部分上显示收集语音数据特征的程度310。

根据各种实施例，电子设备10可以执行电子设备10中的上述服务器20的动作。即，电子设备10可以识别语音数据特征收集的程度。电子设备10可以在显示器11上显示语音数据特征收集的程度。

图4是描述根据本公开的实施例的提供另一媒体内容以通过电子设备获取语音数据特征或通过另一电子设备获取语音数据特征的情况的视图。

根据实施例，当语音数据特征收集的程度未达到预设级别(例如，100％)时，服务器20可以与提供媒体内容的另一服务器相链接中地获取用于获取更多语音数据特征的媒体内容。例如，利用从人C的图像获得的面部的特征点，服务器20可以从另一服务器获取其中出现人C的另一媒体内容，并将其发送到电子设备10。

根据各种实施例，当从服务器20接收的语音数据特征集合的程度未达到预设级别(例如，100％)时，电子设备10可以进一步向服务器20发送请求获取其他媒体内容的命令以进一步获取语音数据功能。服务器20可以响应于从电子设备10接收到的指令，与提供媒体内容的另一服务器相链接地获取其他媒体内容(可以获取更多语音数据特征)，并且可以向电子设备10发送所获取的媒体内容。

参考图4的4-a，电子设备10可以接收关于其他媒体内容的信息，该信息可以进一步从服务器20获取语音数据特征。例如，服务器20可以向电子设备10发送在其中出现人C430的其他媒体内容的代表图像410。代表图像410可以包括关于在其中出现人C的其他媒体内容的链接信息。

根据各种实施例，电子设备10可以在显示器11上显示如图3中描述的语音数据特征的收集程度，然后或者顺序地，在显示器11的一区域上显示从服务器20接收的其中出现人C的媒体内容的代表图像410。

根据各种实施例，可以在电子设备10中执行电子设备10的前述动作。换而言之，电子设备10可以获得不同的媒体内容(其中可以通过与提供媒体内容的另一服务器链接来进一步获得语音数据特征)，并且在显示器11上显示获得的其他媒体内容的代表图像。

根据实施例，服务器20可以存储用户的个人账户以便支持个人助理功能。因此，服务器20可以利用各种电子设备来支持个人助理功能。服务器20可以利用用户的个人账户来获取用户的其他电子设备上的语音数据特征。根据各种实施例，电子设备10、服务器20和其他电子设备可以通过利用用户的个人账户来定期地发送和接收数据。

参考图4的4-b，用户的其他电子设备420可以播放媒体内容。例如，用户随后可以与用户的个人账户相关联地通过其他电子设备420观看媒体内容(用户已利用电子设备10观看了该内容)。

根据实施例，当语音数据特征收集级别未达到预设级别(例如，100％)时，服务器20可以指示与用户的个人账户相关联的其他电子设备420获取与人C 430有关的人的信息以及人C 430的语音数据特征。

根据各种实施例，当从服务器20接收的语音数据特征收集级别未达到预定级别(例如，100％)时，电子设备10可以指示其他电子设备420继续获取人C 430的语音数据特征以及与人C 430有关的人的信息。

其他电子设备420可以通过利用从服务器20或电子设备10接收到的人C 430的面部的特征点，从其他电子设备420播放的媒体内容出现的多个人中，识别与人C 430相同的人440是否出现。如果识别出与人C 430相同的人440出现，则其他电子设备420可以获取由与人C 430相同的人440说出的语音数据，可以从语音数据获取语音数据特征，并且向服务器20发送该语音数据特征。

根据本公开的实施例，电子设备10可以在显示器11上显示关于其他媒体内容的信息，从该信息可以获取从服务器20接收的语音数据特征。另外，服务器20甚至可以在由用户的其他电子设备420播放的媒体内容中获取语音数据特征。因此，电子设备10和服务器20可以提高个人助理功能的语音改变的准确性。

另外，当用户利用其他电子设备420观看媒体内容时，其他电子设备420可以获取针对预先选择的感兴趣的人的语音数据特征，而无需重新选择感兴趣的人。

图5是描述根据本公开的实施例的电子设备根据用户设置由个人助理功能输出的语音的情况的视图。

参考动作①，电子设备10可以接收用户J的命令，该命令请求获取在显示器11上显示的媒体内容中包括的对象的语音数据特征。例如，电子设备10可以获得用户J的话语。用户J的话语可以是例如请求获取电子设备10当前显示的对象的语音数据特征以调制个人助理输出的语音的内容。

参考动作②，电子设备10可以利用从用户J的话语获取的用户语音的语音特征来识别用户。基于话语的内容，电子设备10还可以通过基于话语的内容生成(或选择)用于获取显示器11当前显示的对象的语音数据特征的路径规则，来执行路径规则。

例如，电子设备10可以获取与在显示器11上显示的人A相关联的特征。电子设备10可以获取人A的图像中的面部的特征点。电子设备10可以利用所获取面部的特征点，识别其中在媒体内容播放期间出现人A的场景。当人A出现时，电子设备10可以识别面部，并且可以通过利用人A的嘴形的变化来识别人A的发声时段。当人A说出话语时，电子设备10可以获取由媒体内容输出的语音数据。

根据实施例，电子设备10可以从所获取的人A的语音数据中获取语音数据特征。语音数据特征可以是例如语音频率、语音种类，声速和音调中的至少一种。电子设备10可以例如获取人A的语音数据中的语音数据特征。

参考动作③，电子设备10可以使所获取的人A的语音数据特征与用户J相对应，并向服务器20发送语音数据特征。服务器20可以提供与用户J的账户相对应的个人助理功能。

参考动作④，服务器20可以存储接收到的与用户J的账户相对应的人A的语音数据特征。根据各种实施例，服务器20可以存储用户偏好的人521、该偏好的人的语音数据特征520、以及用户525的注册设备(例如，用户的用于使用个人助理功能的其他电子设备)。

参考动作⑤，电子设备10可以获取用户J的话语。例如，电子设备10可以获取用户J的请求搜索特定媒体内容的话语。

参考动作⑥，电子设备10可以向服务器20发送所获取的话语。

参考动作⑦，服务器20可以将获取的话语改变为文本数据，并且生成路径规则以继续基于文本数据搜索由用户J指定的特定媒体内容。服务器20可以使用将媒体内容提供给电子设备10的另一服务器来搜索由用户指定的媒体内容。

根据实施例，服务器20可以生成用于输出的语音数据，以通知用户J搜索正在进行中，并且向电子设备10发送语音数据。在这种情况下，服务器20可以利用通过动作④获取的语音数据特征来生成用于输出的语音数据，并向电子设备10发送语音数据。

例如，服务器20可以利用在用户J的个人账户中存储的人A的语音数据特征，生成用于输出的语音数据，以通知搜索正在进行中，并且可以向电子设备10发送语音数据。电子设备10可以输出接收到的输出语音数据。

参考动作⑧，服务器20可以向电子设备10发送搜索结果。

在这种情况下，服务器20可以利用与用户J的个人账户对应地存储的人C的语音数据特征，生成通知该搜索结果正被显示在显示器11上的输出语音数据，并且向电子设备发送语音数据。

参考动作⑨，电子设备10可以在显示器11上显示所获取的搜索结果。

在这种情况下，电子设备10可以在显示搜索结果的同时，或者与显示搜索结果顺序地，输出通知搜索结果正被显示在显示器11上的输出语音数据作为人C的语音。

根据各种实施例，电子设备10可以获取请求搜索特定媒体内容的用户K的话语。在这种情况下，服务器20可以生成输出语音数据以通知用户K当前正在进行搜索，并且可以向电子设备10发送语音数据。在这种情况下，服务器20可以利用被存储为与用户K相对应的人B的语音数据特征来生成输出语音数据，并且可以向电子设备10发送语音数据。

另外，服务器20可以向电子设备10发送搜索结果，并且同时或顺序地，可以利用人B的语音数据特征在显示器11上显示通知搜索结果被显示的输出语音数据，并向电子设备10发送语音数据。电子设备10可以在将所获取的搜索结果显示在显示器11上的同时，将接收到的输出语音数据输出为人B的语音。

参考动作⑩，用户的其他电子设备10可以获取用户J的话语。例如，可以获取请求天气信息的用户J的话语。

参考动作

电子设备10可以向服务器20发送所获取的话语。

参考动作

服务器20可以将获取的话语改变为文本数据，并且生成路径规则以基于文本数据进行用户J请求的天气信息搜索。服务器20可以利用提供天气信息的另一服务器获取天气信息。

根据实施例，服务器20可以识别出其他电子设备510是注册为与用户J的账户相对应的设备。因此，服务器20可以利用人A的语音数据特征来生成通知当前正在进行天气信息搜索的输出语音数据，并向其他电子设备510发送该语音数据。

参考动作

服务器20可以向其他电子设备510发送搜索结果。

在这种情况下，服务器20可以使用被存储为与用户J的个人账户相对应的人A的语音数据特征来生成用于天气信息的输出语音数据，并且向其他电子设备510发送该语音数据。

参考动作

其他电子设备510可以在显示器520上显示所获取的搜索结果。

在这种情况下，其他电子设备510可以与获取的天气信息同时或顺序地输出天气信息作为人A的语音。

如上所述，根据实施例，可以使用每个用户偏好的人的语音数据特征来提供个人助手功能，作为用户偏爱的人的语音。

图6是描述根据本公开的实施例的电子设备利用用户偏好的人的对话来答复的情况的视图。

参考动作①，电子设备10可以接收用户J的命令，该命令请求获取在显示器11上显示的媒体内容中包括的对象的语音数据。例如，电子设备10可以获取用户J的话语。用户J的话语可以是例如请求获取电子设备10显示的对象的语音数据特征以调制个人助理输出的语音的内容。

参考动作②，电子设备10可以使用用户J的话语来识别用户。可替代地，电子设备10可以基于话语的内容生成(或选择)用于获取当前在显示器上显示的对象的语音数据特征的路径规则，并执行路径规则。

例如，电子设备10可以获取与在显示器11上显示的人A相关联的特征。电子设备10可以获取人A的图像中的面部的特征点。电子设备10可以利用所获取的特征点，识别其中在媒体内容播放期间出现人A的场景。当人A出现时，电子设备10可以识别面部，并且可以通过利用嘴形的变化来识别人A的发声时段。当人A说出话语时，电子设备10可以获取由媒体内容输出的语音数据。

根据一个实施例，电子设备10可以从所获取的人A的语音数据中获取语音数据特征。语音数据特征可以是例如语音频率、语音种类、声速和音调中的至少一个。电子设备10可以从例如人A的语音数据获取语音数据特征。

根据各种实施例，电子设备10可以获取在出现人A的场景中由媒体内容输出的声音数据。声音数据可以是例如从与人A的话语分开的媒体内容或环境噪声输出的音乐。

参考动作③，电子设备10可以使所获取的人A的语音数据特征与用户J相对应，并向服务器20发送语音数据特征。电子设备10可以使人A的语音数据和声音数据对应于用户J，并且向服务器20发送该数据。服务器20可以支持与用户J的账户相对应的个人助理功能。

参考动作④，服务器20可以存储接收到的人A的语音数据621、语音数据特征623和与用户J的账户相对应的声音数据625。根据各种实施例，服务器20可以存储用户偏好的人、用户偏好的人的语音数据特征、以及用户注册的设备(例如，用于用户使用个人助理功能的电子设备)。

参考动作⑤，电子设备10可以获取用户J的话语。例如，电子设备10可以获取用户J的请求天气的话语。

参考动作⑥，电子设备10可以向服务器20发送所获取的话语。

参考动作⑦，服务器20可以将获取的话语改变为文本数据，并且生成路径规则以基于文本数据进行用户J请求的天气信息搜索。服务器20可以利用向电子设备10提供天气信息的另一服务器来搜索用户请求的天气信息。

根据实施例，服务器20可以向电子设备10发送通知用户J当前正在搜索的语音数据。在这种情况下，服务器20可以使用在动作④中获取的语音数据。

例如，服务器20可以在用户J的个人账户中存储的人A的语音数据中识别与搜索有关的语音数据，并向电子设备10发送识别出的语音数据。电子设备10可以输出接收到的人A的语音数据。然而，实施例不限于此。例如，当服务器20在用户J的账户中存储的人A的语音数据中可能没有识别出与搜索有关的语音数据时，服务器20可以利用人A的语音数据特征生成输出语音数据(其通知搜索正在进行中)，并且可以向电子设备10发送语音数据。

参考动作⑧，服务器20可以向电子设备10发送搜索结果。

在这种情况下，服务器20可以向电子设备10发送用户J的个人账户中存储的人A的语音数据。例如，服务器20可以在用户J的个人账户中存储的人A的语音数据中识别与搜索的天气有关的语音数据，并向电子设备10发送识别出的语音数据，但并不限于此。例如，当服务器20在用户J的个人账户中存储的人A的语音数据中可能没有识别出与搜索的天气有关的语音数据时，服务器20可以利用人A的语音数据特征生成输出语音数据(其与搜索的天气有关)，并且可以向电子设备10发送语音数据。

根据各种实施例，当用户J与个人账户中存储的人A针对天气从与人A有关的声音数据中进行对话时，服务器20可以识别被输出的声音数据，并且可以向电子设备10发送识别出的声音数据。

在这种情况下，电子设备10可以与显示的搜索结果同时或顺序地输出接收到的与搜索到的天气有关的人A的语音数据。另外，电子设备10也可以输出接收到的声音数据。

参考动作⑩，服务器20可以更新存储的语音数据或语音数据特征以与用户J的账户相对应。特别地，服务器20可以确定需要更新的数据的内容。例如，在动作⑦和⑧中，当服务器20无法在用户J的账户中存储的人A的语音数据中识别出合适的语音数据并利用使用人A的语音数据特征生成输出语音数据时，服务器20可以识别出必须添加人A的语音数据，并可以确定需要更新的数据的内容。

根据一个实施例，服务器20可以确定人A的语音数据的更新，该更新包括与利用人A的语音数据特征生成的输出语音数据相同或相似的内容。例如，当服务器20不能识别与天气有关的人A的语音数据并利用人A的语音数据特征来生成输出语音数据时，服务器20可以确定要添加与所生成的语音数据相似的语音数据。

根据各种实施例，服务器20可以与和用户J的话语相同或相似的内容相对应地，确定人A说出的语音数据的更新。例如，服务器20可以响应于与媒体内容中的与天气相关联的用户J的话语相类似的话语，确定将由人A回答的话语添加为语音数据。

图7是描述根据本公开的实施例的由电子设备从媒体内容获取语音数据特征并向服务器发送该特征的情况的流程图。

参考S710的操作，电子设备10可以接收用户命令以请求获取在显示器上显示的媒体内容中包括的人的语音数据特征。

根据一个实施例，电子设备10可以执行用于搜索与正在显示器上播放的媒体内容中包括的各种对象有关的信息的应用，并且显示至少一个信息搜索对象。例如，电子设备10可以显示用于搜索人的信息的搜索对象、用于搜索产品信息的搜索对象、以及用于搜索地点信息的搜索对象。

根据实施例，电子设备10可以接收用于从信息搜索对象中选择用于搜索人的信息的搜索对象的用户输入。可以使用例如智能电话机、遥控器等来生成用户输入，或者可以通过接收用户的话语或识别出话语的内容来生成用户输入。

参考S720的操作，电子设备10可以响应于该命令而在显示器上显示人的至少一个信息。

根据一个实施例，电子设备10可以使用自动内容识别(ACR)技术来获取在媒体内容中包括的人的信息。人的信息可以包括例如人的图像、人的名字、人的个人资料、人在媒体内容中出现的频率等。电子设备10可以例如以人的出现频率的顺序在显示器上显示人的名字或图像。

参考S730的操作，当接收到用于选择所显示的人的至少一种信息之一的用户输入时，电子设备10可以获取与人的话语(与人的被选择的信息有关)相对应的语音数据。

根据实施例，电子设备10可以识别与人的被选择的信息有关的特征并且获取与所识别的人有关的特征。例如，电子设备10可以获选择的人的图像中的面部的特征点。

根据一个实施例，电子设备10可以利用所获取面部的特征点，识别其中在媒体内容播放期间出现选择的人的场景。当选择的人出现时，电子设备10可以识别面部，并利用选择的人的嘴形的变化来识别选择的人的发声时段。当选择的人说出话语时，电子设备10可以获取由媒体内容输出的语音数据。

参考S740的操作，电子设备10可以从所获取的语音数据中获取语音数据特征。

语音数据特征可以是例如语音频率、语音种类、语速和音调中的至少一个。

参考S750的操作，电子设备10可以向服务器发送语音数据特征。

图8是描述根据本公开的实施例的由服务器利用语音数据特征生成语音数据并向外部设备发送语音数据的情况的流程图。

参考S810的操作，服务器20可以从电子设备10获取语音数据特征。

根据一个实施例，服务器20可以存储用户的个人账户以支持个人助理功能。为此，服务器20可以支持用户使用各种电子设备(例如，智能电话机、平板电脑、AI扬声器等)来使用个人助理功能。服务器20可以与用户的账户相对应地存储从电子设备10发送的语音数据特征。

参考S820的操作，在生成语音数据的情况下，服务器20可以利用获取的语音数据特征来生成输出语音数据。

根据一个实施例，服务器20可以从电子设备10获得用户的话语。服务器20可以将获取的话语改变为文本数据，并基于文本数据生成(或选择)与用户的命令相对应的路径规则。服务器20可以根据路径规则生成输出语音数据。在这种情况下，服务器20可以利用从电子设备10获取的语音数据特征来生成输出语音数据。即，服务器20可以生成与用户选择的人的语音相同或相似的输出语音数据。

参考S830的操作，服务器20可以向外部设备发送所生成的输出语音数据。

外部设备可以是例如包括电子设备10并且使用户能够使用用户的账户来使用个人助理功能的设备。

图9是描述根据本公开的实施例的服务器从语音数据中获取语音数据特征的情况的流程图。

参考S910的操作，电子设备10可以接收用户命令以请求获取在显示器上显示的媒体内容中包括的人的语音数据特征。

根据一个实施例，电子设备10可以执行用于搜索与正在显示器上播放的媒体内容中包括的各种对象有关的信息的应用，并且显示至少一个信息搜索对象。例如，电子设备10可以显示用于搜索人的信息的搜索对象、用于搜索产品信息的搜索对象、以及用于搜索地点信息的搜索对象。电子设备10可以接收从信息搜索对象中选择用于搜索人的信息的搜索对象的用户输入。

参考S920的操作，电子设备10可以响应于该命令而在显示器上显示人的至少一个信息。

根据一个实施例，电子设备10可以使用自动内容识别(ACR)技术来获取在媒体内容中包括的人的信息。人的信息可以包括例如人的图像、人的名字、人的个人资料、人在媒体内容中出现的频率等。电子设备10可以以例如人的出现频率的顺序在显示器上显示人的名字或图像。

参考S930的操作，当接收到用于选择所显示的人的至少一种信息之一的用户输入时，电子设备10可以获取与人的话语(与人的被选择的信息有关)相对应的语音数据。

根据一个实施例，电子设备10可以识别与人的所选信息相关联的人，并且获取与所识别的人相关联的特征。例如，电子设备10可以获选择的人的图像中的面部的特征点。电子设备10可以利用所获取的特征点，识别其中在媒体内容播放期间出现选择的人的场景。例如，当出现选择的人时，电子设备10可以利用选择的人的嘴巴形状的变化来识别面部并识别该人的发声时段。当选择的人说出话语时，电子设备10可以获取由媒体内容输出的语音数据。

参考S940的操作，电子设备10可以向服务器20发送获取的语音数据。

参考S950的操作，服务器20可以从所获取的语音数据中获取语音数据特征。

根据实施例，服务器20可以存储用户的个人账户以支持个人助理功能。为此，服务器20可以支持用户使用各种电子设备(例如，智能电话机、平板电脑、AI扬声器等)来使用个人助理功能。服务器20可以与用户账户相对应地存储所获取的语音数据特征。

图10是描述根据本公开的实施例的利用由电子设备获取的语音数据特征来输出语音数据的情况的流程图。

参考S1010的操作，电子设备10可以接收用户命令以请求获取在显示器上显示的媒体内容中包括的人的语音数据特征。

根据一个实施例，电子设备10可以显示用于搜索人的信息的搜索对象、用于搜索产品信息的搜索对象、以及用于搜索地点信息的搜索对象。电子设备10可以接收从信息搜索对象中选择用于搜索人的信息的搜索对象的用户输入。可以使用例如智能电话机、遥控器等来生成用户输入，或者可以通过接收用户的话语并识别该话语来生成用户输入。

参考S1020的操作，电子设备10可以响应于该命令而在显示器上显示人的至少一个信息。

人的信息可以包括例如人的图像、人的名字、人的个人资料、人在媒体内容中出现的频率等。电子设备10例如可以按照人的出现频率的顺序在显示器上显示人的名字或图像。

参考S1030的操作，当接收到用于选择所显示的人的至少一个信息之一的用户输入时，电子设备10可以获取与人的话语(与人的被选择的信息有关)相对应的语音数据。

根据实施例，电子设备10可以识别与人的被选择的信息有关的人并且获取与所识别的人有关的特征。例如，电子设备10可以获选择的人的图像中的面部的特征点。

参考S1040的操作，电子设备10可以从所获取的语音数据中获取语音数据特征。

参考S1050的操作，在生成输出语音数据的同时，电子设备10可以利用获取的语音数据特征来生成输出语音数据。

根据一个实施例，电子设备10可以获取用户的话语。电子设备10可以将获取的话语改变为文本数据，并基于文本数据生成(或选择)与用户的命令相对应的路径规则。电子设备10可以根据路径规则生成输出语音数据。在这种情况下，电子设备10可以利用语音数据特征来生成输出语音数据。即，电子设备10可以生成与用户选择的人的语音相同或相似的输出语音数据。

参考S1060的操作，电子设备10可以输出所生成的输出数据。

图11是根据本公开的各种实施例的在网络环境1100中的电子设备1101的框图。

电子设备1101可以包括图1的电子设备10、图4的其他电子设备420和图11的电子设备510。

参考图11，网络环境1100中的电子设备1101可经由第一网络1198(例如，短距离无线通信网络)与电子设备1102进行通信，或者经由第二网络1199(例如，广域网)与电子设备1104或服务器1108进行通信。根据一个实施例，电子设备1101可经由服务器1108与电子设备1104进行通信。根据一个实施例，电子设备1101可包括处理器1120、存储器1130、输入设备1150、声音输出设备1155、显示设备1160、音频模块1170、传感器模块1176、接口1177、触觉模块1179、相机模块1180、电力管理模块1188、电池1189、通信模块1190(例如，收发器)、用户识别模块1196或天线模块1197。在一些实施例中，可从电子设备1101中省略所述部件中的至少一个(例如，显示设备1160或相机模块1180)，或者可将一个或更多个其它部件添加到电子设备1101中。在一些实施例中，可将所述部件中的一些部件实现为单个集成电路。例如，可将传感器模块1176(例如，指纹传感器、虹膜传感器、或照度传感器)实现为嵌入在显示设备1160(例如，显示器)中。

处理器1120可以通过执行软件(例如，程序1140)来控制连接到处理器1120的电子设备1101的至少另一个组件(例如，硬件或软件组件)，并且执行各种数据处理或操作。根据一个实施例，作为所述数据处理或计算的至少部分，处理器1120可将从另一部件(例如，传感器模块1176或通信模块1190)接收到的命令或数据加载到易失性存储器1132中，对存储在易失性存储器1132中的命令或数据进行处理，并将结果数据存储在非易失性存储器1134中。根据一个实施例，处理器1120可以包括主处理器1121(例如，中央处理单元或应用处理器)和可以与主处理器一起运行或者独立运行的辅助处理器1123(例如，图形处理单元、图像信号处理器、传感器集线器处理器、或通讯处理器)。附加地或可替代地，辅助处理器1123可以比主处理器1121使用更少的功率，或者可以被设置为专用于指定功能。可将辅助处理器1123实现为与主处理器1121分离，或者实现为主处理器1121的部分。

例如，当主处理器1121处于非活动状态(例如，睡眠)时，辅助处理器1123可以代替主处理器1121，或者当主处理器1121处于活动状态(例如，执行应用)时，辅助处理器1123与主处理器1121一起控制与电子设备1101的组件中的至少一个组件(例如，显示设备1160、传感器模块1176或通信模块1190)有关的功能或状态的一部分。根据一个实施例，辅助处理器1123(例如，图像信号处理器或通信处理器)可以被实现为功能上相关的其他组件(例如，相机模块1180或通信模块1190)的一部分。

存储器1130可存储由电子设备1101的至少一个部件(例如，处理器1120或传感器模块1176)使用的各种数据。该数据可以包括例如软件(例如，程序1140)和与软件指令有关的输入数据或输出数据。存储器1130可包括易失性存储器1132或非易失性存储器1134。

可将程序1140作为软件存储在存储器1130中，并且程序1140可包括例如操作系统1142、中间件1144或应用1146。

输入设备1150可从电子设备1101的外部(例如，用户)接收将由电子设备1101的其它部件(例如，处理器1120)使用的命令或数据。输入设备1150可以包括例如麦克风、鼠标或键盘。

声音输出设备1155可将声音信号输出到电子设备1101的外部。声音输出1155可包括例如扬声器或接收器。扬声器可用于一般目的(例如多媒体播放或录音播放)，而接收器可用于接收来电。根据一个实施例，可将接收器实现为与扬声器分离，或实现为扬声器的部分。

显示设备1160可向电子设备1101的外部(例如，用户)视觉地提供信息。显示设备1160可以包括例如显示器、全息设备、投影仪或用于控制该设备的控制电路。根据实施例，显示设备1160可以包括被设置为检测触摸的触摸电路或被设置为测量由触摸产生的电力的强度的传感器电路(例如，压力传感器)。

音频模块1170可以将声音转换成电信号，或者将电信号转换成声音。根据一个实施例，音频模块1170可以通过输入设备1150获取声音，或者通过声音输出设备1155或与电子设备1101直接或无线连接的外部电子设备(例如，电子设备1102)(例如，扬声器或二级)来输出声音。

传感器模块1176可以检测电子设备1101的操作状态(例如，功率或温度)或外部环境状态(例如，用户状态)，并生成与检测到的状态相对应的电信号或数据值。根据实施例，传感器模块1176可包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。

接口1177可以支持电子设备1101可以使用的一个或更多个指定协议，以直接或无线地连接到外部电子设备(例如，电子设备1102)。根据实施例，接口1177可包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。

连接端1178可包括连接器，其中，电子设备1101可经由该连接器与外部电子设备(例如，电子设备1102)物理连接。根据实施例，连接端1178可包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如，耳机连接器)。

触觉模块1179可以将电信号转换成用户可以通过触觉或运动感觉来识别的机械刺激(例如，振动或运动)或电刺激。根据实施例，触觉模块1179可包括例如电机、压电元件或电刺激设备。

相机模块1180可捕获静止图像或运动图像。根据实施例，相机模块1180可包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。

电力管理模块1188可管理对电子设备1101的供电。根据一个实施例，电力管理模块1188可以被实现为例如电力管理集成电路(PMIC)的至少一部分。

电池1189可对电子设备1101的至少一个部件供电。根据实施例，电池1189可以包括例如不可充电的一次电池、可充电的二次电池、或燃料电池。

通信模块1190可以支持在电子设备1101与外部电子设备(例如，电子设备1102，电子设备1104或服务器1108)之间建立直接的(例如，有线的)通信信道或无线的通信信道，以及通过该建立的通信信道的通信。通信模块1190可包括能够与处理器1120(例如，应用处理器)独立操作的一个或更多个通信处理器，并支持直接(例如，有线)通信或无线通信。根据实施例，通信模块1190可包括无线通信模块1192(例如，蜂窝通信模块、近场无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块1194(例如，局域网(LAN)通信模块或电力线通信模块)。这些通信模块之中的相应通信模块可通过第一网络1198(例如，蓝牙、WiFi直连或诸如红外数据协会(IrDA)的近场通信网络)或第二网络1199(例如，电信网络(诸如蜂窝网络)、互联网或计算机网络(例如，LAN或WAN))与外部电子设备通信。这些类型的通信模块可并入一个组件(例如，单个芯片)中，或者可利用彼此独立的多个组件(例如，多个芯片)来实现。无线通信模块1192可使用存储在用户识别模块1196中的用户信息(例如，国际移动用户识别码(IMSI))确认并验证通信网络(诸如第一网络1198或第二网络1199)中的电子设备1101。

天线模块1197可向外部设备(例如，外部电子设备)发送信号或电力或者可从外部接收信号或电力。根据一个实施例，天线模块1197可以包括一个或更多个天线，并且从中，可以选择适合于在通信网络中例如通过通信模块1190使用的通信方案的至少一个天线，例如第一网络1198或第二网络1199。随后可经由所选择的至少一个天线在通信模块1190和外部电子设备之间发送或接收信号或电力。

组件中的至少一部分可在外围设备之间通过通信方法(例如，总线、通用输入和输出(GPIO)、串行外围接口(SPI)或移动工业处理器接口(MIPI))互连，并且可彼此交换信号(例如，命令或数据)。

根据一个实施例，可经由与第二网络1199连接的服务器1108在电子设备1101和外部电子设备1104之间发送或接收命令或数据。电子设备1102和电子设备1104中的每一个可以是与电子设备1101相同或不同类型的设备。根据一个实施例，由电子设备1101执行的全部或部分操作可以由外部电子设备1102、1104或1108中的一个或更多个外部设备执行。例如，当电子设备1101必须自动地或者响应于来自用户或另一设备的请求而执行功能或服务时，电子设备1101可请求一个或更多个外部电子设备执行功能或服务中的至少一部分以代替自身执行功能或服务，或者可除了自身执行功能或服务之外另外地请求一个或更多个外部电子设备执行功能或服务中的至少一部分。已经接收请求的一个或更多个外部电子设备可执行所请求的功能或服务中的至少一部分或与请求关联的附加功能或服务，并且可向电子设备1101发送执行的结果。电子设备1101可照原样或另外地处理结果，并且可提供所述结果作为对请求的应答的至少一部分。为此目的，可以使用例如云计算技术、分布式计算技术或客户端-服务器计算技术。

在本公开中，术语“模块”可以包括用硬件、软件或固件实现的单元。该术语可以与例如逻辑、逻辑块、部件或电路的术语互换使用。该模块可以是整体形成的部件或最小单元，或者是执行一种或更多种功能的部件的一部分。例如，根据一个实施例，可以以专用集成电路(ASIC)的形式来实现模块。

本公开的各种实施例可以用软件(例如，程序1140)实现，该软件包括一个或更多个指令，该指令存储在机器(例如，电子设备1101)可读的存储介质(例如，内部存储器1136或外部存储器1138)中。例如，设备(例如，电子设备1101)的处理器(例如，处理器1120)可以调用存储在存储介质中的一个或更多个指令中的至少一个指令并执行该指令。这使得设备能够被操作为根据被调用的至少一个指令执行至少一个功能。指令可以包括由编译器生成或由解释器执行的代码。机器可读的存储介质可以以非临时性存储介质的形式提供，其中“非临时性”是指该存储介质是有形设备，并且不包括信号(例如，电磁波)。该术语不区分永久地或暂时地存储在存储介质中的数据。

根据一个实施例，可以在计算机程序产品中提供根据本文公开的各种实施例的方法。计算机程序产品可以作为商品在买卖双方之间交换。计算机程序产品可以以机器可读存储介质(例如，光盘只读存储器(CD-ROM))的形式分发，或者可以通过应用商店(例如，PlayStore^TM)直接在两个用户设备(例如，智能电话机)之间在线分发。在在线分发的情况下，计算机程序产品的至少一部分可暂时地或至少暂时地存储在诸如制造商的服务器、应用商店的服务器或中继服务器的存储器的存储介质中。

根据各种实施例的元件(例如，模块或程序)中的每一个可包括单个实体或多个实体，并且上述子元件中的一些子元件可省略。各种实施例中可进一步地包括元件。可替代地或附加地，一些元件(例如，模块或程序)可集成在一个实体中以执行与集成之前由每个独立元件执行的功能相同或相似的功能。根据各种实施例，由模块、程序或其他元件执行的操作可顺序地、以并行、重复或试探的方式执行，或者至少一些操作可以以不同的顺序来执行，或者可添加至少一个其他操作。

虽然已经参考本公开的各种实施例对本公开进行了说明和描述，但是本领域技术人员将会理解，在不脱离由所附权利要求及其等同形式所限定的本发明的主旨和范围的前提下，可以对本发明进行形式和细节上的各种改变。

Claims

1.一种电子设备，所述电子设备包括：

显示器；

收发器；

处理器；以及

存储器，所述存储器用于存储所述处理器可执行的命令，其中，所述处理器被配置为：

基于用于请求获取人的语音数据特征的用户命令被接收到，控制所述显示器显示人的至少一个信息，所述人的语音数据特征被包括在所述显示器上显示的媒体内容中；

基于用于选择人的所述至少一个信息之一的用户输入被接收到，获取与人的话语相对应的语音数据，所述人的话语与所选择的人的信息有关；

根据所获取的语音数据获取语音数据特征；以及

控制所述收发器向服务器发送所获取的语音数据特征。

2.根据权利要求1所述的电子设备，其中，所述处理器还被配置为：

响应于人发出话语的时间点，获取与所述语音数据不同的声音数据；以及

控制所述收发器向所述服务器发送所述语音数据和所述声音数据。

3.根据权利要求1所述的电子设备，其中，基于接收到了用于选择人的所述至少一个信息之一的用户输入，所述处理器被进一步配置为：利用与所选择的人的信息有关的所述人的面部的特征，从所述媒体内容中检测与所述人相同的人，并且提取与所检测到的人的话语相对应的语音数据。

4.根据权利要求1所述的电子设备，其中，基于通过所述收发器从所述服务器获取了语音数据特征收集级别，所述处理器被进一步配置为控制所述显示器显示所述语音数据特征收集级别，所述语音数据特征收集级别包括关于所述语音数据特征是否是以能够利用所述语音数据特征生成输出语音数据的级别获取的信息。

5.根据权利要求4所述的电子设备，其中，基于识别出所接收到的语音特征收集级别未达到预设级别，所述处理器被进一步配置为：

响应于用于请求获取能够获取所述语音数据特征的另一媒体内容的命令，控制所述收发器接收关于由所述服务器获取的另一媒体内容的信息；以及

控制所述显示器显示所接收到的关于所述另一媒体内容的信息。

6.根据权利要求4所述的电子设备，其中，基于识别出所接收到的语音特征收集级别未达到预设级别，所述处理器被进一步配置为：控制所述收发器向另一电子设备发送命令，所述命令用于请求获取所选择的人的信息以及所述人的语音数据特征。

7.根据权利要求2所述的电子设备，

其中，所述电子设备还包括：

麦克风，以及

扬声器，并且

其中，基于通过所述麦克风接收到用户话语，所述处理器还被配置为：

控制所述收发器向所述服务器发送所述用户话语，并且接收输出语音数据，所述输出语音数据是由上述服务器利用所述语音数据特征与所述用户话语对应地生成的；以及

控制所述扬声器输出所接收到的输出语音数据。

8.根据权利要求7所述的电子设备，

其中，所述用户包括第一用户和第二用户，

其中，基于通过所述麦克风接收到所述第一用户的话语，所述处理器还被配置为控制所述收发器执行：

向所述服务器发送所述第一用户的话语；以及

接收第一输出语音数据，所述第一输出语音数据是由所述服务器响应于所述第一用户的话语利用与所述第一用户对应存储的语音数据特征生成的，并且

其中，基于所述第二用户的话语通过所述麦克风被接收到，所述处理器还被配置为控制所述收发器执行：

向所述服务器发送所述第二用户的话语；以及

接收第二输出语音数据，所述第二输出语音数据是由所述服务器响应于所述第二用户的话语利用与所述第二用户对应存储的语音数据特征生成的。

9.根据权利要求7所述的电子设备，其中，基于通过控制所述收发器接收到由所述服务器响应于所述话语而选择的语音数据，所述处理器被进一步配置为控制所述扬声器输出所接收到的语音数据。

10.根据权利要求7所述的电子设备，其中，基于通过控制所述收发器接收到由所述服务器响应于所述话语而选择的声音数据，所述处理器被进一步配置为控制所述扬声器输出所接收到的声音数据。

11.一种服务器，所述服务器包括：

数据获取单元；

数据处理单元；

数据输出单元；以及

处理器，所述处理器被配置为：

控制所述数据获取单元从电子设备获取语音数据特征；

在生成语音数据的情况下，控制所述数据处理单元利用所获取的语音数据特征生成输出语音数据；以及

控制所述数据输出单元向外部设备发送所生成的输出语音数据。

12.一种电子设备的控制方法，所述方法包括：

基于接收到用户命令，在所述电子设备的显示器上显示人的至少一个信息，所述用户命令用于获取所述显示器上显示的媒体内容中包括的人的语音数据特征；

基于接收到用于选择人的所述至少一个信息之一的用户输入，获取与人的话语相对应的语音数据，所述人的话语与所选择的人的信息有关；

根据所获取的语音数据获取语音数据特征；以及

向所述服务器发送所述语音数据特征。

13.根据权利要求12所述的方法，所述方法还包括：

响应于所述人发出话语的时间点，获取与所述语音数据不同的声音数据；以及

向所述服务器发送所述语音数据和所述声音数据。

14.根据权利要求12所述的方法，所述方法还包括：

基于接收到用于选择人的所述至少一个信息之一的用户输入，利用与所选择的人的信息有关的所述人的面部的特征，从所述媒体内容中检测与所述人相同的人；以及

提取与所检测到的人的发声时间点相对应的语音数据。

15.根据权利要求12所述的方法，所述方法还包括：

基于从所述服务器获取了语音数据特征收集级别，在所述显示器上显示所述语音数据特征收集级别，所述语音数据特征收集级别包括关于所述语音数据特征是否是以能够利用所述语音数据特征生成输出语音数据的级别获取的信息。