CN111587419A

CN111587419A - 电子装置及其控制方法

Info

Publication number: CN111587419A
Application number: CN201980007993.6A
Authority: CN
Inventors: 崔馨铎; 高炫睦; 金芝希; 金泓澈; 黄寅喆
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-02-23
Filing date: 2019-01-02
Publication date: 2020-08-25
Also published as: US20220375478A1; KR20190105182A; EP3702905A4; KR102515023B1; US11709655B2; US11443749B2; KR20230044165A; WO2019164120A1; EP3702905A1; US20210027790A1; US20230305801A1

Abstract

提供了一种电子设备，包括包含电路的麦克风、包含电路的扬声器和电连接到麦克风和扬声器的处理器，其中，处理器被配置为，当通过麦克风输入了第一用户语音时，识别发出第一用户语音的用户，并通过扬声器提供通过将第一用户语音输入到经过人工智能算法训练的人工智能模型中而获取的第一响应声音，当通过麦克风输入了第二用户语音时，识别发出第二用户语音的用户，且如果发出第一用户语音的用户与发出第二用户语音的用户相同，则通过扬声器提供通过将第二用户语音和话语历史信息输入到人工智能模型中而获取的第二响应声音。特别是，提供对用户语音的响应声音的至少一些方法可以使用根据机器学习、神经网络或深度学习算法中的至少一种进行过学习的人工智能模型。

Description

电子装置及其控制方法

技术领域

本公开涉及电子设备及其控制方法，特别涉及识别用户语音并根据识别出的用户语音提供各种交互的电子设备及其控制方法。

本公开进一步涉及使用机器学习算法模拟人类大脑功能诸如识别或确定的人工智能(AI)系统及其应用。

背景技术

近年来，实现人类智能水平的人工智能系统已应用于各个领域。与传统的基于规则的智能系统不同，人工智能系统是一个机器自身训练、确定并变得智能的系统。随着人工智能系统的使用，提高了识别率，更准确地理解用户喜好，因此，传统的基于规则的系统逐渐被基于深度学习的人工智能系统所取代。

人工智能技术由机器学习(如深度学习)和使用机器学习的基本技术组成。机器学习是对输入数据的特征进行自分类/自训练的算法技术，而基本技术是利用机器学习算法(诸如深度学习)来模拟人类大脑功能诸如识别或确定的技术，由语言理解、视觉理解、推理/预测、知识表示、操作控制等等技术领域组成。

人工智能技术应用于如下各个领域。语言理解是识别人类语言/字母并对其进行应用/处理的技术，且包括自然语言处理、机器翻译、转换系统、问答、语音识别/合成，等等。视觉理解是从人类角度来识别物体并对其进行处理的技术，且包括物体识别、物体跟踪、图像搜索、人体识别、场景理解、空间理解、图像改进，等等。推理/预测是识别信息并对其进行逻辑推理和预测的技术，且包括基于知识/可能性的推理、优化预测、基于喜好的规划、推荐，等等。知识表示是执行将人类的实验信息自动处理为知识数据的技术，且包括知识构建(数据生成/分类)、知识管理(数据应用)，等等。操作控制是控制车辆自动行驶或机器人运动的技术，且包括运动控制(导航、碰撞或行走)、操作控制(行为控制)，等等。

与此同时，传统上已经开发出识别用户语音并根据识别出的用户语音提供各种交互的电子设备。此外，电子设备不仅可以对一次性的用户语音进行响应，还可以接收连续的用户语音，并通过反映话语历史提供响应。然而，当在连续的用户语音之间接收到另一个用户的用户语音时，电子设备无法区分这些语音，并会提供完全错误的响应。

发明内容

技术问题

本公开是基于上述需要而作出的，且本公开的目的是提供尽管用户的语音分别来自多个用户的输入，也能提供具有维持上下文的响应的电子设备及其控制方法。

技术方案

为实现上述目标，根据本公开的实施例，提供了一种电子设备，包括麦克风、扬声器和配置为电连接到麦克风和扬声器的处理器，其中处理器被配置为，基于通过麦克风输入了第一用户语音，识别发出第一用户语音的用户，通过扬声器提供通过将第一用户语音输入到经过人工智能算法训练的人工智能模型中而获取的第一响应声音，基于通过麦克风输入了第二用户语音，识别发出第二用户语音的用户，并基于发出第一用户语音的用户与发出第二用户语音的用户相同，通过扬声器提供通过将第二用户语音和话语历史信息输入到人工智能模型中而获取的第二响应声音。

该设备可以进一步包括存储器，且处理器可以被配置为，基于发出第二用户语音的用户与发出第一用户语音的用户不同，将第二用户语音存储在存储器中，以及基于发出第一用户语音的用户在预定时间周期或更长时间里未输入用户语音，提供通过输入第二用户语音到人工智能模型中而获取的第三响应声音。

处理器可以被配置为，基于输入的第一用户语音，识别发出第一用户语音的第一用户，并通过扬声器提供通过将第一用户语音输入到人工智能模型中而获取的第一响应声音，以及基于输入的第二用户语音，识别发出第二用户语音的第二用户，并通过扬声器提供通过将第二用户语音输入到人工智能模型中而获取的区别于第一响应声音的第三响应声音。

处理器可以被配置为，基于第一用户输入了第一附加用户语音，通过扬声器提供通过将第一附加用户语音和与第一用户语音相对应的第一话语历史信息输入到人工智能模型中而获取的第一附加响应声音，以及基于第二用户输入了第二附加用户语音，通过扬声器提供通过将第二附加用户语音和与第二用户语音相对应的第二话语历史信息输入到人工智能模型中而获取的区别于第一附加响应声音的第二附加响应声音。

该设备可以进一步包括电连接到处理器的显示器，且处理器可以配置为，在提供第一附加响应声音时，通过显示器显示与第一用户相对应的第一UI，以及在提供第二附加响应声音时，通过显示器显示与第二用户相对应的第二UI。

处理器可以配置为，基于发出第一用户语音的用户与发出第二用户语音的用户不同，获取与第一用户语音对应的第一域和与第二用户语音对应的第二域，以及基于第一域与第二域相同，通过扬声器提供通过向人工智能模型输入第二用户语音和话语历史信息而获取的第二响应声音。

该设备可以进一步包括电连接到处理器的存储器，并且处理器可以被配置为，基于在从第一用户语音输入时起的第一预定时间周期内输入的了第二用户语音，发出第一用户语音的用户与发出第二用户语音的用户相同，且与第一用户语音对应的第一域不同于与第二用户语音对应的第二域，可以将第一用户语音存储在存储器中，而不提供第一响应声音，并通过扬声器提供通过将第二用户语音输入到人工智能模型中而获取的第三响应声音。

处理器可以配置为，基于用户在第二预定时间周期内或更长时间内未输入与第二域对应的用户语音，通过扬声器提供通过将存储在存储器中的第一用户语音输入到人工智能模型中而获取的第一响应声音。

该设备可以进一步包括相机，并且处理器可以被配置为，基于相机捕获的图像或通过麦克风输入的用户语音中的至少一个，来识别用户。

处理器可以被配置为，基于在输入第一用户语音的时间周期内包含在图像中的用户嘴形，来识别发出第一用户语音的用户，以及基于在输入第二用户语音时间周期内包含在图像中的已识别出的用户嘴形发生了变化，识别出发出第二用户语音的用户与发出第一用户语音的用户相同。

根据本公开的实施例，提供电子设备的控制方法，该方法包括，基于输入了第一用户语音，识别发出第一用户语音的用户，提供通过将第一用户语音输入到经过人工智能算法训练的人工智能模型中而获取的第一响应声音，基于输入了第二用户语音，识别发出第二用户语音的用户，并基于发出第一用户语音的用户与发出第二用户语音的用户相同，提供通过将第二用户语音和话语历史信息输入到人工智能模型中而获取的第二响应声音。

该方法可以进一步包括，基于发出第二用户语音的用户与发出第一用户语音的用户不同，存储第二用户语音，以及基于发出第一用户语音的用户在预定时间周期或更长时间里未输入用户语音上，提供通过输入第二用户语音到人工智能模型中而获取的第三响应声音。

识别发出第一用户语音的用户可以包括基于输入的第一用户语音识别发出第一用户语音的第一用户，提供第一响应声音可以包括提供通过向人工智能模型输入第一用户语音而获取的第一响应声音，识别发出第二用户语音的用户可以包括识别发出第二用户语音的第二用户，并且该方法还可以包括提供通过将第二用户语音输入到人工智能模型中而获取的区别于第一响应声音的第三响应声音。

该方法可以进一步包括，基于第一用户输入了第一附加用户语音，提供通过将第一附加用户语音和与第一用户语音相对应的第一话语历史信息输入到人工智能模型中而获取的第一附加响应声音，以及基于第二用户输入了第二附加用户语音，提供通过将第二附加用户语音和与第二用户语音相对应的第二话语历史信息，输入到人工智能模型中而获取的区别于第一响应附加声音的第二附加响应声音。

提供第一附加响应声音可以包括：在提供第一附加响应声音时，与第一用户相对应的第一UI。提供区别于第一附加响应声音的第二附加响应声音可以包括：在提供第二附加响应声音时，显示与第二用户相对应的第二UI。

该方法可以进一步包括，基于发出第一用户语音的用户与发出第二用户语音的用户不同，获取与第一用户语音对应的第一域和与第二用户语音对应的第二域，以及基于第一域与第二域相同，提供通过向人工智能模型输入第二用户语音和话语历史信息而获取的第二响应声音。

该方法中，基于在从第一用户语音输入时起的第一预定时间周期内输入了第二用户语音，发出第一用户语音的用户与发出第二用户语音的用户相同，且第一用户语音对应的第一域与第二用户语音对应的第二域不同，可以将第一用户语音存储在存储器中，而不提供第一响应声音，并提供通过将第二用户语音输入到人工智能模型中而获取的第三响应声音。

该方法可以进一步包括，基于用户在第二预定时间周期内或更长时间内未输入与第二域对应的用户语音，提供通过将第一用户语音输入到人工智能模型中而获取的第一响应声音。

识别用户可以包括基于相机捕获的图像或通过麦克风输入的用户语音中的至少一个，来识别用户。

识别发出第一用户语音的用户可以包括，基于在输入第一用户语音的时间周期内包含在图像中的用户嘴形，来识别发出第一用户语音的用户，以及提供第二响应声音可以包括，基于在输入第二用户语音的时间周期内包含在图像中的已识别出的用户嘴形发生了变化，识别出发出第二用户语音的用户与发出第一用户语音的用户相同。

有益效果

根据本公开的上述实施例，当用户语音分别由多个用户输入时，该电子设备能够通过基于现有用户语音处理、延迟或分别处理多个用户的语音，在维持上下文的同时提供响应。

附图说明

图1a和图1b是用于解释根据实施例处理多个用户语音的方法的示意图；

图2是示出了根据实施例提供对用户语音响应声音的电子系统的示意图；

图3a是用于解释根据实施例的电子设备的配置的框图；

图3b是示出了根据实施例的电子设备的具体配置的框图；

图4a和图4b是用于解释根据实施例对多个用户中的用户语音延迟处理的示意图；

图5a至图5c是用于解释根据实施例实时同步处理多个用户语音的方法的示意图；

图6是用于解释根据实施例与多个用户的集体交互的示意图；

图7是用于解释根据实施例当输入了同一用户的与多个域分别对应的多个用户语音时的操作示意图；

图8a和8b是用于说明根据实施例识别发出用户语音的用户的方法的示意图；

图9a和9b是用于解释根据实施例的人工智能模型的附加训练的示意图；

图10是用于解释根据实施例存储人工智能模型的电子设备的操作的流程图；

图11是用于解释根据实施例的电子设备和存储人工智能模型的外部服务器的操作的时序图；

图12是用于解释根据实施例的外部服务器的配置框图，该外部服务器用于训练和使用人工智能模型，以提供对用户的请求的响应；

图13是示出了根据实施例的学习单元的框图；

图14是示出了根据实施例的响应单元的框图；

图15是示出了根据实施例的电子设备和外部服务器相互连接以训练和识别数据的例子的示意图；

图16是用于解释根据实施例的电子设备的控制方法的流程图。

具体实施方式

以下，将参考附图对本公开的各种实施例进行描述。需要注意的是，本公开中所披露的技术并不是为了将本公开的范围限制于特定实施例，而是应将其解释为包括本公开实施例的所有修改、等同和/或替代方案。在解释附图时，类似的参考数字可用于类似的元件。

在本公开中，此处使用的术语，诸如“包含”、“可能包含”、“由…组成”或“可能由…组成”等，用于指定相应的特征(例如，组成元件，诸如数字、功能、操作或部分)的存在，而不是排除附加特征的存在。

在本公开中，诸如“A或B”、“A[和/或]B中的至少一个”或“A[和/或]B中的一个或多个”等表述包括所列项目的所有可能组合。例如，“A或B”，“A和B中的至少一个”，或“A或B中的至少一个”包括(1)至少一个A，(2)至少一个B，或(3)至少一个A和至少一个B中的任何一个。

本公开中使用的“第一”、“第二”等等表述可表示各种元件，不论其顺序和/或重要性，并可以用于区分一个元件与另一个元件，而不限制这些元件。

如果描述某个元件(例如，第一元件)是“操作地或通信地与…联接/联接到”，或者是“连接到”另一个元件(例如，第二元件)，则应该理解该元件可能与另一元件直接相连接或者还通过另一个元件(例如，第三元件)相连接。另一方面，如果描述某个元件(例如，第一元件)是“直接联接到”或“直接连接到”另一个元件(例如，第二元件)，则可以理解为在该元件和另一个元件之间不存在元件(例如，第三元件)。

此外，根据具体情况，本公开中使用的表述“配置为”可以与其他表述互换使用，诸如“适用于”、“有能力”、“设计成”、“适应于”、“制作成”和“能够”。与此同时，表述“配置为”并不必然指就硬件而言，设备是“专门设计成”的。相反，在某些情况下，表述“设备配置为”可以指该设备“能够”与另一设备或组件一起执行操作。例如，短语“配置(或设置)为执行A、B和C的单元或处理器”可以指执行相应操作的专用处理器(例如，嵌入式处理器)，或通用处理器(例如，CPU或应用处理器)，其可以通过执行存储在内存设备中的一个或多个软件程序来执行相应操作。

根据本公开的各种实施例的电子设备可以包括，例如，智能手机、平板电脑、移动电话、可视电话、电子书阅读器、台式电脑、笔记本电脑、上网本电脑、工作站、服务器、PDA、便携式多媒体播放器(PMP)、MP3播放器、移动医疗设备、相机或可穿戴设备中的至少一种。可穿戴设备可以包括附件类型(例如，手表、戒指、手镯、脚镯、项链、眼镜、隐形眼镜或头戴式设备(HMD))；织物或嵌入衣服的类型(例如，电子织物)；皮肤贴附型(例如，皮肤垫或纹身)；或生物植入型(可植入电路)中的至少一种。此外，在某些实施例中，所述电子设备可包括，例如，电视机、数字视频磁盘(DVD)播放器、音频系统、电冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、媒体盒(如三星HOMESYNC^TM、苹果TV^TM或谷歌TV^TM)、游戏机(如XBOX^TM、PLAYSTATION^TM)、电子字典、电子钥匙、摄录机或电子相框中的至少一种。

在其他实施例中，电子设备可包括医疗仪器(例如，各种便携式医疗测量仪器，如血糖仪、心率仪、血压仪或温度测量设备，磁共振血管造影(MRA)、磁共振成像(MRI)、或计算机断层扫描(CT)或超声波设备等)、导航系统、全球卫星导航系统(GNSS)、事件数据记录器(EDR)、飞行数据记录器(FDR)、汽车信息娱乐设备、船舶电子设备(如船舶导航装置、陀螺仪等)、航空电子设备、安全装置、汽车头部装置、工业或家用机器人、无人机、金融机构的ATM、商店的销售点(POS)或物联网设备(如灯泡、传感器、洒水装置、火警、恒温器、路灯、烤面包机、运动设备、热水箱、加热器、锅炉等)中的至少一种。

在本公开中，“用户”一词可指使用电子设备的人或设备(例如，人工智能电子设备)。

图1a和图1b是用于解释根据实施例处理多个用户的语音的方法的示意图。

如图1a所示，电子设备可以接收用户A发出的用户语音。例如，电子设备可以接收用户A发出的“在日历中添加江南的大学聚会”的用户语音。

电子设备可以传输用户A的用户语音到外部服务器。该外部服务器可以包括将用户语音转换为文本的第一服务器和基于转换文本提供对用户语音的响应信息的第二服务器，但这仅仅是一个实施例，且外部服务器可以由单个服务器实现。

外部服务器可以通过语音到文本(STT)技术将从电子设备接收到用户语音转换为文本。外部服务器可以通过将转换文本输入到经过人工智能算法训练的人工智能模型中，来获取对用户语音的响应信息。响应信息可以是包括对用户语音的响应的响应声音，并可以作为音频数据传输到电子设备。或者，响应信息可以是由第二服务器获取的文本信息，并可以由第一服务器使用文本到语音(TTS)技术转换成响应声音并传输到电子设备。然而，不限于此，响应信息可以进一步包括关于图像的信息，以及关于语音的信息。在这种情况下，关于图像的信息可以是诸如文本、图像、URL等等包含对用户语音的响应的信息。此外，关于语音的信息可以与关于图像的信息相同，但这仅仅是一个实施例，且关于语音的信息可以仅包括关于图像的信息的一部分，也可以是关于图像的信息的汇总信息。

外部服务器可以将对用户语音的响应声音传输到电子设备。例如，外部服务器可以发送“几号/几点？”的响应声音到电子设备，作为对用户A的用户语音的响应。电子设备可以提供接收到的响应声音。

然而，外部服务器提供响应声音的功能可以由电子设备执行。例如，电子设备可以将用户A发出的用户语音转换为文本，通过将转换文本输入到人工智能模型中来获取对用户语音的响应信息，将响应信息变换为响应声音，并将响应声音提供给用户A。

以下，电子设备可以接收用户B发出的用户语音。例如，电子设备可以接收用户B发出的“今天天气怎样？”的用户语音。

电子设备可以通过比较用户A的用户语音和用户B的用户语音来确定用户是否相同。例如，电子设备可以基于用户A的用户语音和用户B的用户语音中的每一个的声纹来确定用户是否相同。如果用户互不相同，则电子设备可以将用户B的用户语音存储在存储器中，而不将用户语音传输到外部服务器。

或者，外部服务器可以确定用户是否相同。例如，电子设备可以将用户B的用户语音传输到外部服务器，而不用确定用户是否相同。外部服务器可以通过比较接收到的用户B的用户语音和之前用户A的用户语音，来确定用户是否相同。如果用户互不相同，则外部服务器可以将用户B的用户语音存储在存储器中。在这种情况下，外部服务器可以不生成对用户B的用户语音的响应声音。电子设备可以不从外部服务器接收任何信息，也可以不提供对用户B的用户语音的响应声音。此外，外部服务器可以处于向用户A提供响应的状态，并可以向电子设备部传输引导用户B等待的响应声音。电子设备可将接收到的响应声音提供给用户B。

然后，电子设备可以接收用户A发出的用户语音。例如，电子设备可以接收用户A发出的“本月17日3点”的用户语音。

电子设备可通过上述相同的方法提供对用户A的用户语音的响应声音。例如，电子设备可以提供对用户A的用户语音的响应声音“添加在12月17日3点”。

然后，如图1b所示，如果在预定时间周期内未输入来自用户A的用户语音，电子设备则可以将用户B发出的“今天天气如何？”的用户语音传输到外部服务器。外部服务器可以通过上述相同的方法，将对用户B的用户语音的响应声音“您刚才询问的今天的天气很好”传输到电子设备上。电子设备可以将接收到的响应声音提供给用户B。电子设备可以识别用户B的存在并提供响应声音。如果没有识别出用户B的存在，则电子设备可以将响应声音存储在存储器中，如果稍后识别出用户B的存在，则可以提供响应声音。

另外，当外部服务器存储用户B的用户语音，且外部服务器提供“添加在12月17日3点”的响应声音到电子设备时，外部服务器可以确定与用户A的交互已结束。当确定与用户A的交互已结束时，外部服务器可以将存储在存储器中的对用户B的用户语音的响应声音“你刚才问的今天的天气很好”传输到电子设备。

上述外部服务器提供的训练模型可以是，例如，基于神经网络的模型作为基于人工智能算法训练的确定模型。经过训练的确定模型可以设计成在计算机上模拟人的大脑结构，还可以包括多个包括权值和模拟人的神经网络神经元的网络节点。所述多个网络节点可以彼此形成连接，以模拟神经元通过突触传递和接收信号的突触活动。此外，经过训练的确定模型可以包括，例如，神经网络模型或由神经网络模型发展而来的深度学习模型。在深度学习模型中，多个网络节点可以定位在彼此不同的深度(或层上)，并可以根据卷积连接收发数据。经训练的确定模型的例子可以包括深度神经网络(DNN)、递归神经网络(RNN)和双向递归深度神经网络(BRDNN)，但不限于此。

此外，电子设备可以使用个人助理程序，该程序是人工智能专用程序(或人工智能代理)，以便接收对用户语音的响应，如上述声音和图像。个人助理程序可以由现有的通用处理器(如CPU)或单独的AI专用处理器(例如GPU)，作为提供基于人工智能(AI)服务的专用处理器来执行。

具体地说，当输入了预定用户输入(例如，与指示电子设备的文本相对应的用户话语等等)或按下了电子设备上提供的按钮(例如，执行人工智能代理的按钮)时，可以操作(或执行)人工智能代理。人工智能代理可以将输入的用户语音传输到外部服务器，基于从外部服务器接收到的关于语音的信息通过扬声器提供对用户语音的响应声音，并基于从外部服务器接收到的关于图像的信息提供包括对用户语音的响应的向导屏幕。

当在电子设备上提供的屏幕或按钮(例如，执行人工智能代理的按钮)上检测到预定的用户输入时，可以操作人工智能代理。此外，在检测到预定的用户输入或按下电子设备上提供的按钮之前，人工智能代理可能已经处于执行状态。在这种情况下，检测到预定的用户输入或按下电子设备上提供的按钮后，电子设备的人工智能代理可以提供包括对用户语音的响应的语音和图像。此外，在检测到预定的用户输入或按下电子设备上提供的按钮之前，人工智能代理可能处于待机状态。待机状态是检测预定义的用户输入的接收的状态，以便控制人工智能代理的操作的开始。当在人工智能代理处于待机状态时检测到预定的用户输入或按下电子设备上提供的按钮时，电子设备可以操作该人工智能代理并提供包括对用户语音的响应的语音和图像。

根据本公开的另一个实施例，当电子设备通过人工智能模型直接获取包括对用户语音的响应的关于语音和图像的信息时，人工智能代理可以通过控制人工智能模型来获取关于语音和图像的信息。人工智能代理可以执行外部服务器的上述操作。

图2是示出了根据实施例对用户语音提供响应声音的电子系统的示意图。如图2所示，电子系统可以包括电子设备100和外部服务器200。

电子设备100可以存储人工智能专用程序。人工智能专用程序可以在各个方面实现。

首先，关于根据第一方面的人工智能专用程序，电子设备100可以用来接收用户语音，并提供对用户语音的响应声音。在这种情况下，电子设备100可以将输入的用户语音传输到外部服务器200，从外部服务器200接收对用户语音的响应声音，并将接收到的响应声音提供给用户。

外部服务器200可以由从电子设备100接收到的用户语音来识别用户。例如，外部服务器200可以由用户语音的声纹来识别用户。然而，不限于此，并且可以使用任何由用户语音识别用户的方法。

外部服务器200可以确定用户语音的域。例如，当接收到“今天天气如何？”的用户语音时，外部服务器200可以识别出接收到的用户语音的域是信息请求域。此外，当接收到“打开最新音乐”的用户语音时，外部200可以识别出接收到的用户语音的域是设备控制域。

此外，外部服务器200可以确定接收到的用户语音的上下文是否与话语历史信息的上下文相一致。例如，如果接收到“今天天气如何？”的用户语音，然后接收到“明天怎么样？”的用户语音时，外部服务器200可以确定上下文彼此一致。另外，如果接收到“今天天气怎么样？”的用户语音，然后接收到“现在电视上有什么节目？”的用户语音时，外部服务器200可以确定上下文彼此不一致。

外部服务器200可以基于识别出的用户、接收到的语音的域以及上下文是否彼此一致来生成响应信息。即，可将指示识别出的用户的信息、接收到的语音的域以及上下文是否彼此一致的信息与用户语音一起输入到存储在外部服务器200中的人工智能模型中。

然而，这仅仅是一个实施例，可以只输入用户语音到人工智能模型中。例如，人工智能模型可以包括第一人工智能子模型，该子模型由输入的用户语音识别用户，以及第二人工智能子模型，该子模型由用户语音生成响应信息。

在这种情况下，第二人工智能子模型可能无法确定用户语音的域以及上下文是否彼此一致。然而，在第二人工智能子模型的训练过程中使用的样本对话模式等通常可能是具有一致的域和上下文的对话模式。因此，当输入了具有不同于话语历史信息的域或上下文的用户语音时，第二人工智能子模型可以对输入的用户语音单独处理或延迟对用户语音的处理。

即，在使用人工智能模型的情况下，外部服务器200可以不具体确定用户语音的域和上下文。然而，由于用于在训练过程中使用的样本对话模式等的影响，外部服务器200可以生成用户语音的域和上下文被实质反映到的响应信息。

外部服务器200可以将生成的响应信息变换为响应声音，并将响应声音传输到电子设备100。

关于根据第二方面的人工智能专用程序，可以使用电子设备100来接收用户语音、识别用户、并提供对用户语音的响应声音。在这种情况下，电子设备100可以识别发出输入的用户语音的用户，并将输入的用户语音和识别出的用户信息传输到外部服务器200。电子设备100可以从外部服务器200接收对用户语音的响应声音，并将接收到的响应声音提供给用户。

外部服务器200可以通过将用户语音和用户信息输入到人工智能算法来生成响应信息。外部服务器200可以基于用户信息管理话语历史信息。例如，当接收到用户A的用户语音时，外部服务器200可以将用户A的话语历史信息和用户A的用户语音输入到人工智能算法来生成响应信息，以及当接收到用户B的用户语音时，外部服务器200可以将用户B的话语历史信息和用户B的用户语音输入到人工智能算法来生成响应信息。

外部服务器可以将生成的响应信息变换为响应声音，并将响应声音传输到电子设备100。

根据第三方面的人工智能专用程序可以是包含人工智能模型的程序。在这种情况下，电子设备100可以识别发出输入的用户语音的用户，并通过将输入的用户语音和识别出的用户信息输入人工智能模型来生成响应信息。电子设备100可以将响应信息变换为响应声音，并通过扬声器输出响应声音。即，电子设备100可以在没有外部服务器200的情况下提供对用户语音的响应声音。

图3a是用于说明根据实施例的电子设备的配置的框图。

如图3a所示，电子设备100可以包括麦克风110、扬声器120和处理器130。

电子设备100可以是接收用户语音并根据接收到的用户语音提供各种交互的设备。例如，电子设备100可以是扬声器、笔记本电脑、PC、平板电脑或智能手机。然而，不限于此，电子设备100还可以是任何设备，只要它能够接收用户语音并据其提供响应声音。

此外，电子设备100可以是包括显示器而非扬声器120的设备。在这种情况下，电子设备100可以接收用户语音，并根据接收到的用户语音通过显示器进行交互。此外，电子设备100可以是任何设备，只要它能够接收用户语音，并提供对接收到的用户语音的响应信息。

麦克风110是用于接收用户语音或其他声音并将其转换为音频数据的组件。麦克风110可以与处理器130电连接，并在处理器130的控制下接收用户语音。

麦克风110可以包括多个子麦克风。例如，麦克风110可以在电子设备100的前、后、右和左每个部分上各包括一个子麦克风。然而，不限于此，电子设备100还可以只包括一个麦克风110。

扬声器120是不仅输出各种音频数据，还输出各种警报或语音消息的组件。扬声器120可以电连接到处理器130，并在处理器130的控制下输出响应声音。

扬声器120可以包括多个子扬声器。例如，扬声器120可以在电子设备100的左右部分各包括一个子扬声器。然而，不限于此，电子设备100还可以只包括一个扬声器120。

处理器130通常可以控制电子设备100的操作。

根据实施例，处理器130可以由数字信号处理器(DSP)、微处理器或时间控制器(TCON)实现。然而，并不限于此，处理器130还可以包括中央处理单元(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)、通信处理器(CP)和ARM处理器中的一个或多个，或可定义为相应的术语。此外，处理器130可以由片上系统(SoC)或包括处理算法的大规模集成(LSI)实现，或可以以现场可编程门阵列(FPGA)的形式实现。

当通过麦克风110输入第一用户语音时，处理器130可以识别发出第一用户语音的用户，并通过扬声器120提供通过将第一用户语音输入到经过人工智能算法训练的人工智能模型中而获取的第一响应声音。

人工智能模型可以存储在电子设备100中，且在这种情况下，处理器130可以将第一用户语音输入到人工智能模型中，获取第一响应声音。

此外，人工智能模型可以存储在外部服务器200中，且在这种情况下，处理器130可以将第一用户语音传输给外部服务器200，并接收通过将第一用户语音从外部服务器200输入到人工智能模型中而获取的第一响应声音。

当通过麦克风110输入第二用户语音时，处理器130可以识别发出第二用户语音的用户，如果发出第一用户语音的用户与发出第二用户语音的用户相同，则处理器130可以通过扬声器120提供通过将第二用户语音和话语历史信息输入到人工智能模型中而获取的第二响应声音。

例如，处理器130可以接收到发出第一用户语音的用户发出的第二用户语音，且在这种情况下，处理器130可以提供通过不仅将第二用户语音还将话语历史信息输入到人工智能模型中而获取的第二响应声音。即，第二响应声音可以通过不仅反映当前输入的用户语音，还反映所有以前输入的用户语音和根据用户语音的响应信息而获取。

电子设备100可以进一步包括相机，处理器130可以基于相机捕获的图像或通过麦克风输入的用户语音中的至少一个，来识别用户。

具体地说，处理器130可以通过识别在输入第一用户语音的时间周期内包含在图像中的用户的脸，来识别发出第一用户语音的用户。

此外，处理器130可以基于在输入第一用户语音的时间周期内包含在图像中的用户嘴形，来识别发出第一用户语音的用户。

例如，处理器130可以实时捕获相机拍摄的图像，并识别在输入第一用户语音的时间周期内实时捕获的图像中包含的多个用户中改变嘴形的用户，作为发出第一用户语音的用户。

如果在输入第二用户语音的时间周期内，包含在图像中的识别出的用户的嘴形发生了变化，那么处理器130可以识别出发出第一用户语音的用户和发出第二用户语音的用户相同。

此外，处理器130还可以通过扬声器120识别用户是否相同。例如，扬声器120可以包括多个子扬声器，当输入第一用户语音时，处理器130可以通过使用多个子扬声器，识别发出第一用户语音的用户位置。

当输入第二用户语音时，处理器130可以通过使用多个子扬声器识别发出第二用户语音的用户位置，并通过与之前已识别出的用户位置进行比较来确定用户是否已经改变。

此外，处理器130可以通过用户语音的声纹来识别用户。例如，电子设备100可以进一步包括与处理器130电连接的存储器，且处理器130可对多个用户语音中的每个进行频率分析，并将多个用户语音中的每个的频率特性存储在存储器中。然后，当输入第一用户语音时，处理器130可以对第一用户语音进行频率分析，并基于存储在存储器中的信息识别发出第一用户语音的用户。处理器130可以对第二用户语音执行相同的操作，并确定该用户是否与已识别出的用户相同。

使用声纹的操作也可以由外部服务器200来执行。在这种情况下，电子设备100可以不执行识别用户的操作，并可将输入的用户语音传输到外部服务器200。外部服务器200可以通过对接收到的用户语音执行频率分析，来识别发出接收到的用户语音的用户。

此外，处理器130可以不识别发出输入的用户语音的用户，但可对性别、儿童/成人/老年人进行分类，并识别区域，等等。例如，当输入第一用户语音时，处理器130可以识别出发出第一用户语音的用户是成年男性，他说的是标准语言。当输入第二用户语音时，处理器130可以识别出发出第二用户语音的用户是成年女性，她说的是标准语言。在这种情况下，处理器130可以识别出用户不相同。

性别、儿童/成人/老年人的分类、区域标识等也可以由外部服务器200执行。在这种情况下，电子设备100可以不执行识别用户的操作，而将输入的用户语音传输到外部服务器200。外部服务器200可以使用接收到的用户语音对性别、儿童/成人/老年人进行分类，和识别区域等等，并可以确定用户是否相同。

在上述方案中，处理器130可以将输入用户语音和对用户语音的响应声音存储在存储器中，在从输入用户语音开始的预定时间周期内作为话语历史信息。例如，当输入了“明天天气如何？”的用户语音时，处理器130可以对用户语音提供“明天天气会很好”的响应声音，并将交互信息存储到存储器中，在从输入用户语音时起的10分钟内作为话语历史信息。当相同用户在从输入用户语音时起的10分钟内输入了附加用户语音时，处理器130可以提供通过将附加用户语音和话语历史信息输入到人工智能模型中而获取的附加响应声音。此外，当相同用户在从输入用户语音时的10分钟之后输入了附加用户语音时，处理器130可以提供仅输入附加用户语音到人工智能模型中而获取的响应声音，而不确定发出附加用户语音的用户是否与发出初始用户语音的用户相同。即，只有在从输入用户语音时起的预定时间周期内输入了附加用户语音时，处理器130才可以确定发出附加用户语音的用户是否与发出初始用户语音的用户相同。

当在从输入用户语音起的预定时间周期内输入了附加用户语音时，处理器130可以将预定时间周期的起点改为附加用户语音输入的时间点。例如，当第一用户语音在下午6点输入，第二用户语音在下午6点05分输入，处于从下午6点起的预定时间周期10分钟内，处理器130可以存储下午6点05分至下午6点15分(预定时间周期10分钟之后)的话语历史信息。该话语历史信息可以包括第一用户语音、对第一用户语音的第一响应声音、第二用户语音和对第二用户语音的第二响应声音。即，当存储话语历史信息的时间周期被用户连续发出的用户语音延长时，处理器130可以维持话语历史信息存储在存储器中至延长时间。

然而，不限于此，虽然存储话语历史信息的时间周期被用户连续发出的用户语音延长，但可以不维持话语历史信息存储在存储器中至延长时间。例如，当存储语音历史信息的时间周期被用户连续发出的用户语音延长时，处理器130可以只存储从当前时间点起的预定时间周期之前的过去时间点到当前时间点的用户语音和响应声音作为话语历史信息。即，处理器130可以将从话语时间点起已过预定时间周期的用户语音和从声音提供时间点起已过预定时间周期的响应声音从存储器中的话语历史信息中删除。

当电子设备100存储人工智能模型时，存储器可以按时间顺序存储每个用户的话语历史信息。例如，存储器可以存储2017年1月1日的话语历史信息、2017年1月5日用户A的话语历史信息、2017年1月4日用户B的话语历史信息，等等。处理器130可以将存储在存储器中已过预定时间周期的话语历史信息传输到外部服务器200。必要时，处理器130可以从外部服务器200接收传输给外部服务器200的话语历史信息。处理器130可以提取话语历史信息的关键字等，并在将话语历史信息传输给外部服务器200之前，将提取的关键字存储在存储器中，还可以将话语历史信息传输到外部服务器200。当用户稍后搜索过去的话语历史信息时，可以使用提取的关键字。

例如，当用户发出“我们5年前在济州岛搜索的是哪家餐厅？”的用户语音时，处理器130可以从5年前的关键词中搜索作为关键词的济州岛和餐厅，并从外部服务器200接收相应的话语历史信息。处理器130可以从外部服务器接收到的话语历史信息中提供用户所需要的信息。

该电子设备100可以进一步包括存储器。当发出第一用户语音的用户与发出第二用户语音的用户不同时，处理器130可以将第二用户语音存储在存储器中，且当发出第一用户语音的用户在预定时间周期或更长时间里未输入用户语音时，提供通过输入第二用户语音到人工智能模型中而获取的第三响应声音。

例如，当用户B在从用户A发出第一用户语音时起的预定时间周期内发出第二用户语音时，处理器130可以确定用户是否相同，且当确定用户不同时，处理器130可以将用户B的第二用户语音存储在存储器中。即，处理器130可以延迟对用户B的第二用户语音提供响应声音。当在从用户A发出第一用户语音时起的预定时间周期内未输入用户A的附加用户语音时，处理器130可以在从用户发出第一用户语音时起的预定时间周期之后，提供对第二用户语音的响应声音。对第二用户语音的响应声音可以是通过将第二用户语音输入到删除了用户A的话语历史信息的人工智能模型中所获取的响应声音。

当输入了第一用户语音时，处理器130可以识别发出第一用户语音的第一用户，并通过扬声器120提供通过将第一用户语音输入到人工智能模型中而获取的第一响应声音，以及当输入了第二用户语音时，处理器130可以识别出发出第二用户语音的第二用户，并通过扬声器120提供通过将第二用户语音输入到人工智能模型中获取的、区别于第一响应声音的第三响应声音。即，处理器130可以实时地单独处理多个用户语音，并设置提供处理结果的状态，使之彼此能区分开。

例如，处理器130可以提供“今天天气很好”作为对用户A的男性语音“今天天气如何”的第一响应声音，并提供“今晚没有电影”作为对用户B的女性语音“今晚上映什么电影？”的第二响应声音。第二响应声音可以是仅基于用户B的用户语音而获取的响应声音，而不反映用户A的话语历史信息。

然而，不限于此，处理器130可以通过任何方法将对用户语音的响应信息的提供状态提供为使之彼此能区分开。例如，电子设备100可以进一步包括电连接到处理器130的显示器，处理器130可以通过显示器显示“今天天气很好”作为对用户A“今天天气如何”的第一响应，并通过扬声器120提供“今晚没有电影”作为对用户B“今晚上映什么电影？”的第二响应。

此外，处理器130可以显示“今天天气很好”作为对用户A“今天天气如何”的第一响应，并显示“今晚没有电影”作为对用户B“今晚上映什么电影？”的第二响应，并可用不同背景屏幕颜色来显示第一响应和第二响应，以便用户可以识别响应目标。

当第一用户输入第一附加用户语音时，处理器130通过扬声器120提供通过将第一附加用户语音和与第一用户语音相对应的第一话语历史信息输入到人工智能模型中而获取的第一附加响应声音，以及当第二用户输入第二附加用户语音时，处理器通过扬声器提供通过将第二附加用户语音和与第二用户语音相对应的第二话语历史信息输入到人工智能模型中而获取的区别于第一附加响应声音的第二附加响应声音。

处理器130可以在提供第一附加响应声音时，通过显示器显示与第一用户相对应的第一UI，以及在提供第二附加响应声音时，通过显示器显示与第二用户相对应的第二UI。

例如，处理器130可以在提供第一附加响应声音时，通过显示器显示第一用户的图像，以及在提供第二附加响应声音时，通过显示器显示第二用户的图像。

在通过使用存储人工智能算法的外部服务器200为每个用户提供响应声音的情况下，处理器130可以将用户语音与识别出的用户信息一起传输到外部服务器200。外部服务器200可以基于接收到的用户信息为每个用户生成话语历史信息，并将通过输入用户语音和相应的话语历史信息到人工智能模型中而获取的响应声音传输到电子设备100。除了传输响应声音，外部服务器200还可以将响应声音的目标的用户信息传输到电子设备100。

电子设备100可基于接收到的用户信息提供响应声音，以区别于其他用户的响应声音。

当发出第一用户语音的用户与发出第二用户语音的用户不同时，处理器130可以获取与第一用户语音对应的第一域和与第二用户语音对应的第二域，且当第一域与第二域相同时，处理器130可以通过扬声器120提供通过输入第二用户语音和话语历史信息到人工智能模型中而获取的第二响应声音。

例如，处理器130可以提供“今天下午会下雨”，作为对第一用户语音“今天天气如何？”的第一响应声音，并且当输入用户B“我需要带伞吗？”的第二用户语音时，处理器130可以确定用户是否相同。当确定用户不同时，处理器130可以得到第一用户语音的域和第二用户语音的域都是信息请求域。当确定第一用户语音的域和第二用户语音的域相同时，处理器130可以提供“是的，今天带伞”的第二响应声音，该第二响应声音是通过将第二用户语音和话语历史信息输入到人工智能模型中而获取的。

在上述例子中，当用户B发出“打开音乐”的第二用户语音时，处理器130可以确定用户是否相同。当确定用户不同时，处理器130可以得到第一用户语音的域是信息请求域，第二用户语音的域是设备控制域。当确定第一用户语音的域和第二用户语音的域不同时，处理器130可延迟对第二用户语音的处理。此外，处理器130可提供仅输入第二用户语音到人工智能模型而获取的、区别于第一响应声音的第二响应声音“开启音乐”。

此外，处理器130除了考虑域之外，还可以进一步考虑上下文。例如，虽然第一用户语音的域与第二用户语音的域相同，但如果两个用户的上下文彼此不同，处理器130可以延迟对第二用户语音的处理。此外，处理器130可提供仅输入第二用户语音到人工智能模型而获取的、区别于第一响应声音的第二响应声音。

当在从输入第一用户语音时起的预定时间周期内输入了第二用户语音，发出第一用户语音的用户与发出第二用户语音的用户是相同的，并且第一用户语音对应的第一域与第二用户语音对应的第二域不同时，处理器130可以将第一用户语音存储在存储器中而不提供第一响应声音，并通过扬声器提供通过将第二用户语音输入到人工智能模型中而获取的第三响应声音。第一预定时间周期可以短于维持上述话语历史信息存储的时间周期。

例如，当输入了用户A“打开电视”的第一用户语音，然后1秒内输入了同一用户A“今天的约会地点在哪里？”的第二用户语音，该第二用户语音的域与第一用户语音的域不同，处理器130可以将第一用户语音存储在存储器中，并提供“在市政厅前”作为对第二用户语音的第三响应声音。

当在第二预定时间周期或更长时间内，用户未输入与第二域对应的用户语音时，处理器130可以通过扬声器120提供通过将存储在存储器中的第一用户语音输入到人工智能模型中而获取的第一响应声音。第二预定时间周期可以与维持上述话语历史信息存储的时间周期相同，且比第一预定时间周期长。但是，不限于此，第二预定时间周期可与维持上述话语历史信息存储的时间周期不相关，且比第一预定时间周期长。此外，在上述例子中，处理器130可以确定第二用户语音的上下文是否与第一用户语音的上下文相同，当上下文不同时，处理器130可以将第一用户语音存储在存储器中而不提供第一响应声音，并可通过扬声器提供通过将第二用户语音输入到人工智能模型中而获取的第三响应声音。

存储在电子设备100或外部服务器200中的人工智能算法可以包括用于获取用户语音的域的第一人工智能算法，或用于确定用户语音之间的上下文是否相同的第二人工智能算法中的至少一种。在这种情况下，可以在获取响应信息之前确定域和上下文是否相同。

此外，存储在电子设备100或外部服务器200中的人工智能算法可以不包括用于获取用户语音的域或确定用户语音之间的上下文是否相同的单独人工智能算法。在这种情况下，人工智能算法可以提供通过反射至少一个域或上下文而获取的响应声音。

图3b是示出了根据实施例的电子设备的具体配置的框图。该电子设备100可包括麦克风110、扬声器120和处理器130。此外，参照图3b，电子设备100还可以包括通信器140、存储器145、显示器150、用户接口155、相机160、音频处理器170、视频处理器180和按钮190。图3b中所示的与图3a中所示的重复部件的具体描述将被省略。

处理器130通常使用存储在存储器145中的各种程序来控制电子设备100的操作。

具体地，处理器130包括RAM 131，ROM 132，主CPU 133，图形处理器134，第一至第n接口135-1至135-n，和总线136。

RAM 131、ROM 132、主CPU 133、图形处理器134和第一至第n接口135-1至135-n可以通过总线136相互连接。

第一至第n接口135-1至135-n连接到上述各组件，其中一个接口可以是通过网络连接到外部设备的网络接口。

主CPU 133可以通过访问存储器，使用存储在存储器145中的O/S来执行启动。主CPU 133可以通过使用存储在存储器145中的各种程序等来执行各种操作。

ROM 132可以存储一组用于系统启动的指令。如果输入开机指令来供电，主CPU133则将存储在存储器145中的O/S拷贝到RAM 131，并根据存储在ROM 132中的指令执行O/S来启动系统。如果启动完成，主CPU 133则将存储在存储器145中的各种应用程序复制到RAM131，并通过执行复制到RAM 131的应用程序执行各种操作。

图形处理器134通过使用操作单元(未显示)和呈现单元(未显示)，生成包括诸如图标、图像、文本等等各种对象的屏幕。操作单元(未显示)可以使用接收到的控制命令，根据屏幕的布局计算属性值，诸如要显示的每个对象的坐标值、形状、大小、颜色等等。呈现单元(未显示)可以基于操作单元(未显示)计算出的属性值，生成包含对象的各种布局的屏幕。呈现单元(未显示)中生成的屏幕可以在显示器150的显示区域中显示。

上述处理器130的操作可以由存储在存储器145中的程序来执行。

存储器145可存储各种数据，诸如用于操作电子设备100的操作系统(O/S)软件模块、人工智能模块、人工智能专用程序模块、话语历史模块、用户识别模块、域标识模块和上下文识别模块等等。

通信器140是根据各种类型的通信系统执行与各种类型外部设备通信的组件。通信器140包括Wi-Fi芯片141、蓝牙芯片142、无线通信芯片143和NFC芯片144。处理器130使用通信器140执行与各种外部设备的通信。

Wi-Fi芯片141和蓝牙芯片142分别执行Wi-Fi系统和蓝牙系统中的通信。当使用Wi-Fi芯片141或蓝牙芯片142时，可以先传输或接收各种连接信息(诸如SSID或会话密钥)，使用这些信息来准许通信连接，然后可以传输和接收各种信息。无线通信芯片143是指基于IEEE、Zigbee、第三代(3G)、第三代伙伴计划(3GPP)、长期演进(LTE)等多种通信标准进行通信的芯片。NFC芯片144是指在近场通信(NFC)系统中，在135kHz、13.56MHz、433MHz、860至960MHz、2.45GHz等等频带中使用13.56MHz频带的芯片。

此外，通信器140可以进一步包括有线通信接口，诸如HDMI、MHL、USB、DP、Thunderbolt、RGB、D-SUB、DVI等等。处理器130可以通过通信器140的有线通信接口连接到外部服务器200。

显示器150可以由各种类型的显示器实现，诸如液晶显示器(LCD)、有机发光二极管(OLED)显示器、等离子显示面板(PDP)等等。显示器150还可以包括驱动电路或背光单元，该背光单元可以以a-si TFT、低温多晶硅(LTPS)TFT或有机TFT(OTFT)的形式实现。显示器150可以通过与触摸检测器结合实现为触摸屏。

用户接口155接收各种用户交互。用户接口155可根据电子设备100的实现实例以多种形式实现。例如，用户接口155可以是电子设备上提供的按钮100、接收用户语音的麦克风或检测用户运动的相机。此外，当电子设备100以基于触控的终端设备实现时，用户接口155可以以触摸屏的形式实现，该触摸屏形成带有触控板的层结构。在这种情况下，用户接口155可以用作上述显示器150。

音频处理器170是执行音频数据处理的组件。音频处理器170可以执行关于音频数据的各种处理，诸如解码、放大或噪声滤波。

视频处理器180是执行关于视频数据处理的组件。视频处理器180可以执行关于视频数据的各种处理，如解码、缩放、噪声滤波、帧速率转换或分辨率转换。

按钮190可以是各种类型的按钮，如机械按钮、触摸板或在电子设备100主体外观的前面部分、侧面部分或后面部分的任何区域内形成的轮子。

通过上述方法，即使用户发生了变化，处理器130也可以用维持的上下文提供响应信息。

以下，将参照附图具体描述电子设备100的操作。

图4a和图4b是用于解释根据实施例对多个用户中的用户的语音延迟处理的示意图。

参照图4a，当输入了用户A“在日历中添加江南的大学聚会”的第一用户语音时，处理器130可以识别用户A，并提供对第一用户语音的第一响应声音“几号/几点？”。

当输入了用户B“点韩式牛肉比萨”的第二用户语音时，处理器130可以识别用户B，并因为识别出的用户B与用户A不同而将第二用户语音存储在存储器145中。处理器130不仅可以将第二用户语音存储在存储器145中，还可以将关于发出第二用户语音的用户B的信息存储在存储器145中。

当输入了用户A“7月7日”的第三用户语音时，处理器130可以识别用户A，并因为用户与发出第一用户语音的用户A相同而提供对第三用户语音的第二响应声音“添加在7月17日”。

参照图4b，当确定与用户A的交互已经结束时，处理器130可以提供对第二用户语音的第三响应声音“对不起，我未能响应，因为我昨天和爸爸有对话任务。我把你要的比萨列在购物单上了，你想订多少？”。此时，处理器130可以在检测到第二用户在附近后，提供第三响应声音。

如果在预定时间周期内没有检测到用户A或用户A没有输入用户语音，则处理器130可以确定与用户A的交互已经结束。

稍后，当输入了用户B“我知道了，没关系，订三份”的第四用户语音时，处理器130可以识别用户B，并因为用户与发出第二用户语音的用户B相同而提供对第四用户语音的第四响应声音“是，已订好”。

图5a至图5c是用于解释根据实施例实时同步处理多个用户语音的方法的示意图。

参照图5a，当输入了用户A“婚礼是什么时候？”的第一用户语音，处理器130可以识别用户A，并提供对第一用户语音的第一响应声音“7月7日”。

然后，当输入了用户B“今天天气怎么样？”的第二用户语音，处理器130可以识别用户B，并提供“今天天气多云”的第二响应声音，因为识别出的用户B与用户A不同，所以仅考虑第二用户语音，不考虑包括第一用户语音和第一响应声音的第一话语历史信息。

此时，处理器130可以用与第一响应声音不同的方式提供第二响应声音。例如，处理器130可以男性语音提供第一响应声音，以女性语音提供第二响应声音。

此外，当识别出的用户是预先存储在存储器145中的用户时，处理器130可以提供包含用户姓名、ID等等的响应声音。例如，如果用户A以“Park”的ID提前存储在存储器145中，用户B以“Kim”的ID提前存储在存储器145中，处理器130可以提供“Park，7月7日”的第一响应声音和“Kim，今天天气多云”的第二响应声音。

此外，参照图5b和5c，处理器130可控制显示器150根据所提供的响应声音的目标来显示彼此不同的颜色。此外，电子设备100可包括LED，并控制该LED根据所提供的响应声音的目标发射彼此不同颜色的光。此外，所述电子设备100可包括多个LED，且处理器130可控制LED，以使多个LED中的一个根据所提供的响应声音的目标打开。

当输入了用户A“改到7月14日”的第三用户语音时，处理器130可以基于第一话语历史信息识别用户A，并因为用户与发出第一用户语音的用户A相同而提供对第三用户语音的第三响应声音“已改”。

上文中，图4a和4b显示了虽有多个用户语音但只处理一个用户语音的实施例，而图5a至5c显示了多个用户语音的每个输入单独处理的实施例。电子设备100可提供如图4a和4b所示的个人模式和如图5a至5c所示的公共模式，处理器130可根据用户的模式选择，在个人模式或公共模式下运行。

图6是用于解释根据实施例的多个用户的集体交互的示意图。

参照图6，当输入了用户A“在日历中添加江南的大学聚会”的第一用户语音时，处理器130可以识别用户A，并提供对第一用户语音的第一响应声音“几号/几点？”。

当输入了用户B“大学聚会在7月7日星期一举行”的第二用户语音时，处理器130可以识别用户B，因为虽然识别出的用户B与用户A不同，但是第一用户语音的上下文与第二用户语音的上下文相同，因此处理器130可以通过考虑第二用户语音与包含第一用户语音和第一响应声音的第一话语历史信息而提供“添加到7月7日”的第二响应声音。

如果不清楚第一用户语音的上下文与第二用户语音的上下文是否相同，处理器130可以提供响应声音来询问用户。例如，如果不清楚第一用户语音的上下文与第二用户语音的上下文是否相同，处理器130可以提供“7月7日星期一的大学聚会是江南的大学聚会吗？”的第三响应声音。

在执行如图6所示的集体交互时，当多个用户语音的上下文发生变化时，处理器130可以在公共模式下运行。此外，在在公共模式下的操作期间，当多个用户的用户语音之间的上下文彼此吻合时，处理器130可以执行集体交互。

图7是用于解释根据实施例当输入了同一用户的与多个域分别对应的多个用户语音时的操作示意图。

参照图7，当输入了用户A“在大房间看电视时，关掉其它房间的灯，把这个房间调冷调暗”的第一用户语音，然后立即输入了“在下周末添加婚礼日程”的第二用户语音，处理器130可以识别发出第一用户语音和第二用户语音的用户A，并可以提供对后输入的第二用户语音的第一响应声音“星期几、几点？”。此时，处理器130可以将第一用户语音存储在存储器145中。此外，处理器130不仅可以将第一用户语音存储在存储器145中，还可以将发出第一用户语音的用户A的信息存储在存储器145中。

当输入了用户A“星期六，12点”的第三用户语音时，处理器130可以识别用户A，并因为用户与第一次发言的用户A相同而基于包含第二用户语音和第一响应声音的第一话语历史信息来提供对第三用户语音的第二响应声音“好的，添加婚礼日程”。

处理器130可以在根据用户语音的具体操作完成时，确定与用户的交互已经结束。在上面的例子中，处理器130可以在添加婚礼日程完成时，确定与用户A的第一次交互已经结束。但是，不限于此，如果在预定时间周期或更长时间内没有检测到用户或用户语音不是来自同一用户的输入，处理器130也可以确定与用户的交互已经结束。此外，处理器130还可以根据用户的结束命令，确定与用户的交互已经结束。

当确定与用户的交互已经结束时，处理器130可以获取存储在存储器145中的用户语音，并开始新的交互。在上面的例子中，处理器130可以获取存储在存储器145中的第一用户语音，并提供对第一用户语音的第三响应声音“你想按以前的要求关掉客厅和走廊的灯吗”。

此时，如果检测到发出存储在存储器145中的用户语音的用户，处理器130则可以开始新的交互。在上面的例子中，虽然获取了存储在存储器145中的第一用户语音，但是如果没有检测到发出第一用户语音的用户A，处理器130则可以不启动新的交互。

当输入了用户A“关掉客厅的灯并打开走廊的灯”的第四用户语音时，处理器130可以提供对第四用户语音的第四响应声音“好的”。

图8a和8b是用于解释根据实施例识别发出用户语音的用户的方法的示意图。

参照图8a，当输入了用户语音时，处理器130可以从相机160捕获到的图像810中识别出用户。此外，当输入了用户语音时，处理器130可以从相机160捕获到的图像810识别出正在改变嘴形的用户，作为发出用户语音的用户。

此外，参照图8b，扬声器110可包括安装为彼此间隔开的多个子扬声器110-1、110-2、110-3和110-4，处理器130可通过多个子扬声器110-1、110-2、110-3和110-4来估计用户语音发出的第一位置。当输入了附加用户语音时，处理器130可以估计发出附加用户语音的第二位置，并且如果第二位置是在第一位置的预定距离内，则将该用户识别为同一用户。

图9a和9b是用于解释根据实施例的人工智能模型的附加训练的示意图。

如上所述，存储在外部服务器200的电子设备100中的人工智能模型可以通过使用样本对话模式等提前训练。以下，基于与用户的交互，对人工智能模型进行再训练。再训练是指通过基于与用户的交互另外训练人工智能模型，更新用样本对话模式训练的人工智能模型。

参考图9a，当输入了用户A“电视现在在播什么？”的第一用户语音，处理器130可提供对第一用户语音的第一响应声音“9点新闻”。

当输入了用户A“没有电影吗？”的第二用户语音时，处理器130可以基于第一用户语音、第一响应声音和第二用户语音对人工智能模型执行再训练。

例如，再训练的人工智能模型可以是通过反映用户更喜欢电影这点，来获取的人工智能模型。

图9b中假设的情况与图9a中相同。图9a是示出了使用再训练前的人工智能模型的示意图，图9b示出了使用经过再训练的人工智能模型的示意图。

参照图9b，当使用经过再训练的人工智能模型，且输入了用户A“电视现在在播什么？”的第一用户语音时，处理器130可以提供对第一用户语音的第二响应声音“没有电影，在播电视剧”。

在图9a和图9b里，为描述方便，描述了电子设备100存储的人工智能模型，但上述再训练方法可同样适用于人工智能模型存储在外部服务器200中的情况。

图10是用于解释根据实施例存储人工智能模型的电子设备的操作的流程图。

处理器130接收用户的语音(S1010)。处理器130检测用户(S1020)。处理器130确定用户与之前的用户是否相同(S1030)，如果用户是相同的用户，则基于话语历史信息处理用户的语音(S1050)。

如果用户不是相同的用户，处理器则确定域与之前的域是否相同(S1040)，如果域相同，处理器130则根据话语历史信息处理用户的语音(S1050)。如果域不相同(S1060)，处理器130则处理用户的语音，而不考虑话语历史信息。

处理器130向语音处理提供响应声音(S1070)。

图11是用于解释根据实施例的电子设备和存储人工智能模型的外部服务器的操作的时序图。

电子设备100接收用户的语音(S1110)并检测用户(S1120)。电子设备100将用户信息和用户的语音传输到外部服务器200。

外部服务器200基于用户信息生成与用户的语音对应的响应信息(S1140)。外部服务器200将响应信息传输到电子设备100(S1150)。

电子设备100提供响应声音(S1160)。

图12是用于解释根据实施例的外部服务器1300的配置框图，该外部服务器用于训练和使用人工智能模型，以响应用户的请求。

参照图12，外部服务器1300可以包括学习单元1310或响应单元1320中的至少一个。图12的外部服务器1300可以对应于图2的外部服务器200。

学习单元1310可以生成或训练人工智能模型，该模型具有通过使用学习数据对用户的语音提供响应的准则。学习单元1310可使用收集的学习数据来生成具有确定准则的确定模型。

例如，学习单元1310可以通过使用用户的语音作为学习数据来执行训练，以获取包含对用户语音的响应的语音和图像的信息。此外，学习单元1310可以使用用户的语音和电子设备的状态信息作为学习数据，生成、训练或更新人工智能模型，用来提供包含对用户语音的响应的语音和图像的信息。

响应单元1320可以使用预定的数据作为经训练的人工智能模型的输入数据，来获取包含对预定的用户语音的响应的语音和图像的信息。

例如，响应单元1320可以通过使用用户的语音和电子设备的状态信息作为经训练的人工智能模型的输入数据，获取(或预测或推断)包含对用户语音的响应的语音和图像的信息。

在本公开的实施例中，学习单元1310和响应单元1320可以包括在外部服务器1300中，但这仅仅是一个实施例，这些单元也可以安装在电子设备100中。具体地说，学习单元1310的至少一部分和响应单元1320的至少一部分可以实现为软件模块或以至少一个硬件芯片的形式制造并安装在电子设备100上。例如，学习单元1310或响应单元1320中的至少一个可以用人工智能(AI)专用硬件芯片的形式制造，并可作为常规通用处理器(如CPU或应用处理器)或图形专用处理器(如GPU)的一部分制造，并安装在上述各种电子设备上。人工智能专用硬件芯片是专门从事可能性计算的专用处理器，可以快速处理人工智能领域的计算操作，诸如机器学习，具有高于传统的通用处理器的并行处理性能。如果学习单元1310和响应单元1320以软件模块(或包含指令的程序模块)实现，则软件模块可以存储在非暂存性的计算机可读介质中。在这种情况下，软件模块可以由操作系统(O/S)提供，也可以由预定的应用提供。此外，软件模块的一部分可以由操作系统提供，且其他部分可以由预定的应用提供。

在这种情况下，学习单元1310和响应单元1320可以安装在一个电子设备上，也可以分别安装在单独的电子设备上。例如，学习单元1310和响应单元1320中的一个可以包括在电子设备100中，另一个可以包括在外部服务器中。此外，学习单元1310和响应单元1320可以以有线或无线方式连接，以便学习单元1310可以提供构造的模型信息给响应单元1320，且可以将输入到响应单元1320的数据提供给学习单元1310作为附加学习数据。

图13是示出了根据实施例的学习单元1300的框图。

参照图13，根据实施例的学习单元1310可以包括学习数据获取单元1310-1和模型学习单元1310-4。此外，学习单元1310还可以进一步选择性地包括学习数据预处理单元1310-2、学习数据选择单元1310-3或模型评价单元1310-5中的至少一个。

学习数据获取单元1310-1可以获取用于获取对用户语音的响应的人工智能模型获取所需的学习数据。在本公开的实施例中，学习数据获取单元1310-1可以获取用户的语音作为学习数据。此外，学习数据获取单元1310-1可以获取用于获取对用户语音的特定响应所需的信息(例如，电子设备的状态信息)作为学习数据。学习数据可以是学习单元1310或学习单元1310的制造商收集或测试过的数据。

模型学习单元1310-4可以使用学习数据训练人工智能模型，使其具有获取对用户语音的响应的准则。例如，模型学习单元1310-4可以使用至少一部分学习数据作为获取对用户语音的响应的准则，通过监督学习来训练人工智能模型。此外，模型学习单元1310-4例如可以通过无监督学习对人工智能模型进行训练，在没有特殊监督下，利用学习数据进行自训练来找出提供响应的准则。此外，模型学习单元1310-4例如可以通过使用关于根据训练提供的响应结果是否准确的反馈的强化学习训练人工智能模型。此外，模型学习单元1310-4例如可以使用包含误差反向传播或梯度下降的学习算法对人工智能模型进行训练。

模型学习单元1310-4可以通过使用输入数据训练选择准则，选择准则是关于哪些学习数据用来提供包含对用户语音的响应的语音和图像的信息。

如果预先构建的人工智能模型数量不止一个，那么，模型学习单元1310-4可以将具有与输入的学习数据高度相关的基本学习数据的人工智能模型确定为待训练的人工智能模型。在这种情况下，对每种类型的数据，可以提前对基本学习数据进行分类，且对每种类型的数据，可以提前构建人工智能模型。例如，可以基于不同的准则(诸如学习数据生成区域，学习数据生成时间、学习数据大小、学习数据类型、学习数据的创建者、学习数据中对象的类型等等)提前对基本学习数据进行分类。

在训练人工智能模型时，模型学习单元1310-4可以存储经训练的人工智能模型。在这种情况下，模型学习单元1310-4可以将经训练的人工智能模型存储在外部服务器1300的存储器中。此外，模型学习单元1310-4可以将经训练的人工智能模型存储在通过有线或无线网络连接到外部服务器1300的服务器或电子设备的存储器中。

学习单元1310可以进一步包括学习数据预处理单元1310-2和学习数据选择单元1310-3，以改进人工智能模型的响应结果或节省提供人工智能模型所需的资源或时间。

学习数据预处理单元1310-2可以对获取的数据进行预处理，使获取的数据用于学习，以获取包括对用户语音的响应的信息。学习数据预处理单元1310-2可将获取的数据按预定格式进行处理，使获取的数据用于学习，以获取包括对用户语音的响应的信息。例如，当人工智能模型提供响应时，学习数据预处理单元1310-2可以从输入用户的语音中删除不必要的文本(例如副词、感叹号等)。

学习数据选择单元1310-3可以从学习数据获取单元1310-1获取的数据中，也可以从经学习数据预处理单元1310-2预处理的数据中，选择学习所需的数据。选择的学习数据可提供给模型学习单元1310-4。学习数据选择单元1310-3可根据预定的选择准则，从获取的或经预处理的数据中选择学习所需的学习数据。此外，学习数据选择单元1310-3可以根据模型学习单元1310-4所进行的学习，按照预定的选择准则选择学习数据。

学习单元1310还可以包括模型评价单元1310-5，以改进人工智能模型的响应结果。

模型评价单元1310-5可将评价数据输入到人工智能模型中，如果评价数据输出的响应结果不满足预定准则，则可使模型学习单元1310-4重新训练。在这种情况下，评价数据可以是用于评价人工智能模型的预定义数据。

例如，如果在经训练的人工智能模型对评价数据的响应结果中，响应结果不准确的评价数据的数量或比率超过预定阈值时，模型评价单元1310-5可以评价为不满足预定准则。

如果经训练的人工智能模型个数大于一，则模型评价单元1310-5可以评价每一个经训练的人工智能模型是否满足预定准则，并将满足预定准则的模型确定为最终的人工智能模型。在这种情况下，如果满足预定准则的模型数量超过一个，则模型评价单元1310-5可以按照高评价等级的顺序预先设定一个或预定数量的模型作为最终的人工智能模型。

图14是示出了根据实施例的响应单元1320的框图。

参照图14，根据实施例的响应单元1320可以包括输入数据获取单元1320-1和响应结果提供单元1320-4。

此外，响应单元1320还可以进一步选择性地包括输入数据预处理单元1320-2、输入数据选择单元1320-3或模型更新单元1320-5中的至少一个。

输入数据获取单元1320-1可以获取用于获取对用户语音的响应所需的学习数据。响应结果提供单元1320-4可以通过将由输入数据获取单元1320-1获取的输入数据应用于经输入值训练的人工智能模型中，获取包括对用户语音的响应的语音和图像的信息。

响应结果提供单元1320-4可以通过将输入数据预处理单元1320-2或输入数据选择单元1320-3选择的数据应用于经输入值训练的人工智能模型中来获取响应结果。响应结果可以由人工智能模型确定。

在实施例中，响应结果提供单元1320-4可以通过将输入数据获取单元1320-1和电子设备获取的用户语音应用到经训练的人工智能模型中，获取包括对用户语音的响应的语音和图像的信息。

响应单元1320可以进一步包括输入数据预处理单元1320-2和输入数据选择单元1320-3，以改进人工智能模型的响应结果或节省提供响应结果所需的资源或时间。

输入数据预处理单元1320-2可以对获取的数据进行预处理，使获取的数据用于获取对用户语音的响应。输入数据预处理单元1320-2可以对获取的数据按预定格式进行处理，以便响应结果提供单元1320-4可以使用获取的数据来获取对用户语音的响应。

输入数据选择单元1320-3可以从输入数据获取单元1320-1获取的数据或从经输入数据预处理单元1320-2预处理的数据中，选择提供响应所需的数据。选择的数据可提供给响应结果提供单元1320-4。输入数据选择单元1320-3可根据预定选择准则，选择部分或全部获取的或经预处理的数据，用于提供响应。此外，输入数据选择单元1320-3可以通过模型学习单元1310-4的训练，按照预定选择准则选择数据。

模型更新单元1320-5可以基于响应结果提供单元1320-4提供的关于响应结果的评价，来控制更新人工智能模型。例如，模型更新单元1320-5可以通过将响应结果提供单元1320-4提供的响应结果提供给模型学习单元1310-4，来请求模型学习单元1310-4对人工智能模型进行另外训练或更新。

图15是示出了根据实施例的电子设备100和外部服务器S相互连接以训练和识别数据的例子的示意图。

参照图15，外部服务器S可以训练用于获取包括对用户语音的响应的信息的准则，并且电子设备100可以基于服务器S的学习结果，用语音和图像提供对用户语音的响应。

在这种情况下，服务器S的模型学习单元1310-4可以执行图13所示的学习单元1310的功能。即，服务器S的模型学习单元1310-4可以训练关于将使用电子设备的哪些文本信息或状态信息来获取对用户语音的响应的准则，或者通过使用上述信息如何获取对用户语音的响应的准则。

此外，电子设备100的响应结果提供单元1320-4可以通过将输入数据选择单元1320-3选择的数据应用到由服务器S生成的人工智能模型中，来获取对用户语音的响应。此外，电子设备100的响应结果提供单元1320-4可以将服务器S生成的人工智能模型接收到服务器S，并通过使用接收到的人工智能模型来获取对用户语音的响应。

当输入了第一用户语音时，识别发出第一用户语音的用户(S1610)。提供通过将第一用户语音输入到使用人工智能算法训练的人工智能模型中而获取的第一响应声音(S1620)。当输入了第二用户语音时，识别发出第二用户语音的用户(S1630)。当发出第一用户语音的用户与发出第二用户语音的用户相同时，提供通过将第二用户语音和话语历史信息输入到人工智能模型中而获取的第二响应声音(S1640)。

该控制方法可以进一步包括，基于发出第一用户语音的用户与发出第二用户语音的用户不同，存储第二用户语音，并基于发出第一用户语音的用户在预定时间周期或更长时间里未输入用户语音，提供通过输入第二用户语音到人工智能模型中而获取的第三响应声音。

识别发出第一用户语音的用户的步骤S1610可以包括，基于输入的第一用户语音，识别发出第一用户语音的第一用户。提供第一响应声音的步骤S1620可以包括提供通过向人工智能模型输入第一用户语音而获取的第一响应声音。识别发出第二用户语音的用户的步骤S1630可以包括，识别发出第二用户语音的第二用户。且该控制方法可以进一步包括提供通过将第二用户语音输入到人工智能模型中，而获取的区别于第一响应声音的第三响应声音。

该控制方法可以进一步包括：基于第一用户输入了第一附加用户语音，提供通过将第一附加用户语音和与第一用户语音相对应的第一话语历史信息输入到人工智能模型中而获取的第一附加响应声音，以及基于第二用户输入了第二附加用户语音，提供通过将第二附加用户语音和与第二用户语音相对应的第二话语历史信息输入到人工智能模型中而获取的区别于第一附加响应声音的第二附加响应声音。

提供第一附加响应声音可以包括，在提供第一附加响应声音时，显示与第一用户相对应的第一UI。提供区别于第一附加响应声音的第二附加响应声音可以包括，在提供第二附加响应声音时显示与第二用户相对应的第二UI。

该方法可以进一步包括，基于发出第一用户语音的用户与发出第二用户语音的用户不同，获取与第一用户语音对应的第一域和与第二用户语音对应的第二域，以及基于第一域与第二域相同，提供通过将第二用户语音和话语历史信息输入到人工智能模型中而获取的第二响应声音。

该控制方法中，在从第一用户语音输入时起的第一预定时间周期内输入了第二用户语音，发出第一用户语音的用户与发出第二用户语音的用户相同，且与第一用户语音对应的第一域与第二用户语音对应的第二域不同时，可以将第一用户语音存储在存储器中而不提供第一响应声音，并提供通过将第二用户语音输入到人工智能模型中而获取的第三响应声音。

该方法可以进一步包括，当用户在第二预定时间周期内或更长时间内未输入与第二域对应的用户语音时，提供通过将第一用户语音输入到人工智能模型中而获取的第一响应声音。

识别用户的步骤S1610和S1630可以包括基于捕获的图像或输入用户语音中的至少一个来识别用户。

识别发出第一用户语音的用户的步骤S1610可以包括，基于在输入第一用户语音的时间周期内包含在图像中的用户嘴形，来识别发出第一用户语音的用户。提供第二响应声音的步骤S1640可以包括，基于在输入第二用户语音的时间周期内包含在图像中的识别出的用户嘴形发生了变化，识别出发出第二用户语音的用户与发出第一用户语音的用户相同。

根据本公开的上述实施例，当用户语音分别由多个用户输入时，电子设备可基于现有用户语音，按照处理、延迟或分别处理多个用户语音，在维持上下文的同时提供响应。

以上，描述了关于一个用户生成一份话语历史信息，但不限于此。例如，当在存储了用户A的第一话语历史信息和用户B的第二语音历史信息的状态下输入了用户A的第一用户语音时，处理器可以提供通过将第一用户语音和与第一话语历史信息输入到人工智能模型中而获取的第一响应声音，以及将第一用户语音和第二话语历史信息输入到人工智能模型中而获取的第二响应声音。通过上述操作，处理器可以为用户提供与多个说话者对话的感觉。

处理器可以获取已完成交互的话语历史信息的标题、进度完成信息、进度信息、时间信息、用户信息、最终交互信息、关键词、内容摘要等等诸如此类的信息，并将这些信息存储在存储器中。然后，如果用户发出用户语音来搜索过去的话语历史信息，处理器则可以基于存储在存储器中的信息，获取与用户语音相对应的话语历史信息。当输入了附加用户语音时，处理器可以根据获取的话语历史信息提供对附加用户语音的响应声音。即，用户可以从过去的话语继续执行交互。

根据本公开的实施例，本公开的各种实施例可以由包括存储在机器(如计算机)可读存储介质中的指令的软件实现。根据所公开的实施例，该机器是调用存储在存储介质中的指令并根据所调用的指令进行操作的设备，且可以包括电子设备(例如，电子设备A)。在指令由处理器执行的情况下，处理器可以直接执行与指令对应的功能，或者使用处理器控制下的其他元件执行与指令对应的功能。该指令可以包括由编译器生成或由解释器执行的代码。机器可读存储介质可以以非暂存性的存储介质的形式提供。此处，术语“非暂存性的”仅指存储介质是有形的，不包括信号，而不区分数据是半永久存储还是临时存储在存储介质中。

根据本公开的实施例，根据上述各种实施例的方法可以被提供为包括在计算机程序产品中。计算机程序产品可在卖方和买方之间作为商用产品交换。计算机程序产品可以以机器可读存储介质(例如只读光盘存储器(CD-ROM))的形式分配，也可以通过应用程序商店(例如PlayStore^TM)在线分配。在线分配的情况下，至少部分计算机程序产品可以至少临时存储或临时生成于存储介质中，诸如制造商服务器的内存、应用程序商店的服务器或中继服务器。

根据本公开的实施例，上述实施例可以在计算机或使用软件、硬件或其组合的类似设备可读的记录介质中实现。在某些情况下，本说明书中描述的实施例可以实现为处理器本身。关于软件方面的实现，本说明书中描述的程序和功能等实施例可以作为单独的软件模块实现。每个软件模块可以执行本说明书中描述的一个或多个功能和操作。

根据上述实施例执行处理操作的计算机指令可以存储在非暂存性的计算机可读介质中。当存储在这种非暂存性的计算机可读介质中的计算机指令被处理器执行时，计算机指令可使特定的机器根据上述实施例执行处理操作。

非暂存性的计算机可读介质不是短时间存储数据的介质(诸如寄存器、缓存或内存)，而是指半永久的存储数据并可由计算机读取的介质。非暂存性的计算机可读介质的具体例子可以包括CD、DVD、硬盘、蓝光光盘、USB、存储卡和ROM。

此外，根据上述各种实施例的每个元件(例如，模块或程序)可以由单个实体或多个实体组成，且上述子元件的某些子元件可省略，或者其他子元件可进一步包含在各种实施例中。替代地或额外地，一些元件(例如模块或程序)可以集成到一个实体中，以执行各个元件在集成之前执行的相同或类似的功能。由模块、程序或其他元件按照各种实施例执行的操作，可以顺序地、并行地、重复地或启发式地执行，或者至少某些操作可以以不同的顺序执行、省略或添加不同的操作。

以上，已显示和描述了本公开的优选实施例，但本公开不限于上述具体实施例，本领域技术人员可以在不偏离权利要求书中要求的披露要点的情况下进行各种修改，且此类修改不应脱离本公开的技术精神或前景单独地理解。

Claims

1.一种电子装置，包括：

包括电路的麦克风；

包括电路的扬声器；以及

电连接到所述麦克风和所述扬声器的处理器，

其中所述处理器被配置为，

基于通过所述麦克风输入了第一用户语音，识别发出所述第一用户语音的用户，并通过所述扬声器提供通过将所述第一用户语音输入到经过人工智能算法训练的人工智能模型中而获取的第一响应声音，

基于通过所述麦克风输入了第二用户语音，识别发出所述第二用户语音的用户，并基于发出所述第一用户语音的用户与发出所述第二用户语音的用户相同，通过所述扬声器提供通过将所述第二用户语音和话语历史信息输入到所述人工智能模型中而获取的第二响应声音。

2.如权利要求1所述的电子装置，进一步包括：

包括电路的存储器；

其中所述处理器被配置为，

基于发出所述第二用户语音的用户与发出所述第一用户语音的用户不同，将所述第二用户语音存储在所述存储器中，以及

基于发出所述第一用户语音的用户在预定时间周期或更长时间里未输入用户语音，提供通过输入所述第二用户语音到所述人工智能模型中而获取的第三响应声音。

3.如权利要求1所述的电子装置，其中，所述处理器被进一步配置为，

基于输入的所述第一用户语音，识别发出所述第一用户语音的第一用户，并通过所述扬声器提供通过将所述第一用户语音输入到所述人工智能模型中而获取的所述第一响应声音，以及

基于输入的所述第二用户语音，识别发出所述第二用户语音的第二用户，并通过所述扬声器提供通过将所述第二用户语音输入到所述人工智能模型中而获取的区别于所述第一响应声音的第三响应声音。

4.如权利要求3所述的电子装置，其中，所述处理器被进一步配置为，

基于所述第一用户输入了第一附加用户语音，通过所述扬声器提供通过将所述第一附加用户语音和与所述第一用户语音相对应的第一话语历史信息输入到所述人工智能模型中而获取的第一附加响应声音，以及

基于所述第二用户输入了第二附加用户语音，通过所述扬声器提供通过将所述第二附加用户语音和与所述第二用户语音相对应的第二话语历史信息输入到所述人工智能模型中而获取的区别于所述第一附加响应声音的第二附加响应声音。

5.如权利要求4所述的电子装置，进一步包括：

电连接到所述处理器的显示器，

其中，所述处理器被进一步配置为，在提供所述第一附加响应声音时，控制所述显示器显示与所述第一用户相对应的第一UI，以及在提供所述第二附加响应声音时，控制所述显示器显示与所述第二用户相对应的第二UI。

6.如权利要求1所述的电子装置，其中，所述处理器被进一步配置为，

基于发出所述第一用户语音的用户与发出所述第二用户语音的用户不同，获取与所述第一用户语音对应的第一域和与所述第二用户语音对应的第二域，以及

基于所述第一域与所述第二域相同，通过所述扬声器提供通过向所述人工智能模型输入所述第二用户语音和所述话语历史信息而获取的所述第二响应声音。

7.如权利要求1所述的电子装置，进一步包括：

电连接到所述处理器的存储器，

其中，所述处理器被进一步配置为，基于在当所述第一用户语音输入后的第一预定时间周期内输入了所述第二用户语音、发出所述第一用户语音的用户与发出所述第二用户语音的用户相同、并且与所述第一用户语音对应的第一域和与所述第二用户语音对应的第二域不同，将所述第一用户语音存储在所述存储器中而不提供所述第一响应声音，并通过所述扬声器提供通过将所述第二用户语音输入到所述人工智能模型中而获取的第三响应声音。

8.如权利要求7所述的电子装置，其中，所述处理器被进一步配置为，基于所述用户在第二预定时间周期内或更长时间内未输入与所述第二域对应的用户语音，通过所述扬声器提供通过将存储在所述存储器中的所述第一用户语音输入到所述人工智能模型中而获取的所述第一响应声音。

9.如权利要求1所述的电子装置，进一步包括：

包含电路的相机，

其中，所述处理器被进一步配置为，基于所述相机捕获的图像或通过所述麦克风输入的用户语音中的至少一个，来识别用户。

10.如权利要求9所述的电子装置，其中，所述处理器被进一步配置为，基于在输入所述第一用户语音的时间周期内包含在图像中的用户的嘴形，来识别发出所述第一用户语音的用户，以及

基于在输入所述第二用户语音的时间周期内包含在图像中的已识别出的用户的嘴形发生了变化，识别出发出所述第二用户语音的用户与发出所述第一用户语音的用户相同。

11.控制电子设备的方法，所述方法包括：

基于输入了第一用户语音，识别发出所述第一用户语音的用户；

提供通过将所述第一用户语音输入到经过人工智能算法训练的人工智能模型中而获取的第一响应声音；

基于输入了第二用户语音，识别发出所述第二用户语音的用户；和

基于发出所述第一用户语音的用户与发出所述第二用户语音的用户相同，提供通过将所述第二用户语音和话语历史信息输入到所述人工智能模型中而获取的第二响应声音。

12.如权利要求11所述的方法，进一步包括，

基于发出所述第二用户语音的用户与发出所述第一用户语音的用户不同，存储所述第二用户语音，以及

基于发出所述第一用户语音的用户在预定时间周期或更长时间里未输入用户语音，提供通过将所述第二用户语音输入到所述人工智能模型中而获取的第三响应声音。

13.如权利要求11所述的方法，其中，识别发出所述第一用户语音的用户包括基于输入的所述第一用户语音识别发出所述第一用户语音的第一用户，

提供所述第一响应声音包括提供通过将所述第一用户语音输入到所述人工智能模型而获取的所述第一响应声音，

识别发出所述第二用户语音的用户包括识别发出所述第二用户语音的第二用户，并且

所述方法进一步包括提供通过将所述第二用户语音输入到所述人工智能模型中而获取的区别于所述第一响应声音的第三响应声音。

14.如权利要求13所述的方法，进一步包括：

基于所述第一用户输入了第一附加用户语音，提供通过将所述第一附加用户语音和与所述第一用户语音相对应的第一话语历史信息输入到所述人工智能模型中而获取的第一附加响应声音；以及

基于所述第二用户输入了第二附加用户语音，提供通过将所述第二附加用户语音和与所述第二用户语音相对应的第二话语历史信息输入到所述人工智能模型中而获取的区别于所述第一附加响应声音的第二附加响应声音。

15.如权利要求14所述的方法，其中提供所述第一附加响应声音包括：在提供所述第一附加响应声音时，与所述第一用户相对应的第一UI，和

提供区别于所述第一附加响应声音的所述第二附加响应声音包括：在提供所述第二附加响应声音时，显示与所述第二用户相对应的第二UI。