CN112867987A

CN112867987A - 电子设备和控制电子设备的方法

Info

Publication number: CN112867987A
Application number: CN201980068526.4A
Authority: CN
Inventors: 辛珉圭; 金相润; 李度昀; 韩昌玗; 刘钟旭; 李在原
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-10-18
Filing date: 2019-10-11
Publication date: 2021-05-28
Anticipated expiration: 2039-10-11
Also published as: KR20200043902A; EP3828692A4; US20220035514A1; US11531455B2; EP3828692A1; US20230120040A1

Abstract

提供了一种能够通过用户界面提供对应于用户语音的文本信息的电子设备以及控制该电子设备的方法。具体地，根据本公开的电子设备，当获得包括至少一个对象的图像时，分析图像以识别包括在图像中的至少一个对象，并且当接收到用户语音时，对用户语音执行语音识别以获得对应于用户语音的文本信息，然后识别包括在图像中的至少一个对象当中的对应于用户语音的对象，并且在显示器上的区域当中的与被识别为对应于用户语音的对象相对应的区域上显示包括文本信息的备忘录用户界面(UI)。

Description

电子设备和控制电子设备的方法

技术领域

本公开涉及电子设备和控制电子设备的方法。更具体地，本公开涉及能够通过用户界面提供对应于用户语音的文本信息的电子设备及其控制方法。

背景技术

近来，随着使用语音识别的技术被应用于各种类型的电子设备，用户能够通过发出用户语音来生成文本信息，并且在显示器上显示生成的文本信息，而不必直接输入文本信息。

然而，根据相关技术，为了使电子设备的用户通过使用语音识别在电子设备中生成文本信息并在用户期望的显示器上的区域显示，存在必须忍受执行多个步骤的不便的缺点，多个步骤诸如，例如但不限于，执行用于生成文本信息的应用，输入用于语音识别的触发输入，发出对应于文本信息的用户语音、指定文本信息将被显示的位置、指定文本信息将被显示的大小和形式等。

因此，越来越需要能够执行一系列处理的直观且简单的技术，这些处理获得对应于用户语音的文本信息，并且在用户期望的显示器上的区域显示获得的文本信息。

发明内容

技术问题

本公开的各方面旨在至少解决上述问题和/或缺点，并且至少提供下述优点。因此，本公开的一个方面是提供一种电子设备及其控制方法，该电子设备能够以直观且简单的方法通过用户界面提供对应于用户语音的文本信息。

技术解决方案

根据实施例，一种电子设备包括显示器、麦克风、被配置为存储至少一个指令的存储器、以及被配置为执行该至少一个指令的处理器，并且该处理器被配置为基于获得包括至少一个对象的图像，通过分析图像来识别包括在图像中的至少一个对象，基于通过麦克风接收的用户语音，通过对用户语音执行语音识别来识别对应于用户语音的文本信息，从包括在图像中的至少一个对象当中识别对应于用户语音的对象，并且控制显示器在显示器上的区域当中的与被识别为对应于用户语音的对象相对应的区域上显示包括文本信息的备忘录用户界面(UI)。

根据实施例，一种包括显示器的电子设备的控制方法包括：基于获得包括至少一个对象的图像，通过分析图像来识别包括在图像中的至少一个对象；基于接收的用户语音，通过对用户语音执行语音识别来获得对应于用户语音的文本信息；从包括在图像中的至少一个对象当中识别对应于用户语音的对象，以及在显示器上的区域当中的与被识别为对应于用户语音的对象相对应的区域上显示包括文本信息的备忘录用户界面(UI)。

附图说明

图1是简要示出根据本公开的电子设备的控制过程的概念图；

图2是示出根据本公开实施例的电子设备的控制方法的流程图；

图3A是简要示出根据本公开的电子设备的配置的框图；

图3B是示出基于如图3A所示的电子设备100的硬件配置和根据本公开的软件模块之间的耦合关系的本公开的实施例的图；

图4是更详细地示出根据本公开的对象识别过程的图；

图5是更详细地示出根据本公开的语音识别过程的图；

图6是示出基于对应于用户语音的文本信息来识别对应于用户语音的对象的电子设备的实施例的图；

图7A至图7C是示出基于用户的触摸交互来识别对应于用户语音的对象的电子设备的实施例的图；

图8A和图8B是示出与基于用户的触摸交互不同地显示备忘录UI的大小和形式相关的实施例的图；

图9A和图9B是示出根据本公开的与备忘录UI相关的各种形式的图；

图10A是全面示出根据本公开的识别对应于用户语音的对象的过程的实施例以及存在对应于用户语音的两个或更多个对象的情况的图；

图10B是示出在显示器上接收到用户的触摸交互的区域上显示备忘录UI的实施例的图；

图11A和图11B是详细示出与当存在对应于用户语音的两个或更多个识别的对象时提供选择UI相关的实施例的图；

图12是示出与包括在对应于用户语音的文本信息中的代词相关的实施例的图；

图13A是示出与包括在对应于用户语音的文本信息中的用户名信息相关的实施例的图；

图13B是示出与包括在对应于用户语音的文本信息中的对象的持续时间相关的信息的实施例的图；

图13C是示出与关于包括在对应于用户语音的文本信息中的用户意图的信息相关的实施例的图；

图14是示出与在通过电子设备提供的主屏幕上显示备忘录UI相关的实施例的图；

图15A和图15B是示出与对应于移动或已经消失的用户语音的对象的位置相关的实施例的图；

图16是基于根据本公开的电子设备100是冰箱简要示出与本公开相关的冰箱的结构的图；

图17是详细示出根据本公开的电子设备的配置的框图；

图18A和图18B是示出与根据本公开提供的指示符相关的实施例的图；和

图19是示出通过与电子设备连接的服务器执行的根据本公开的对象识别和语音识别过程的实施例的图。

具体实施方式

下面将参考附图详细描述本公开的一个或多个实施例，以帮助本公开所属领域的普通技术人员容易地理解本公开。

图1是简要示出根据本公开的电子设备100的控制过程的概念图。

如图1所示，电子设备100可以接收用户语音，并基于接收到的用户语音显示备忘录用户界面(UI)。这里，备忘录UI可以指包括获得的文本信息的用户界面。下面将描述备忘录UI中包括的各种信息的详细描述。

同时，根据本公开的各种实施例，可以基于用户语音和用户的触摸交互当中的至少一个来确定在电子设备100的显示器110上显示备忘录UI的区域。下面将详细描述确定备忘录UI显示在电子设备100的显示器110上的区域的过程。

电子设备100可以获得包括至少一个对象的图像。然后，基于获得的包括至少一个对象的图像，电子设备100可以通过分析获得的图像来识别包括在图像中的至少一个对象。例如，如图1所示，基于电子设备100是冰箱，电子设备100可以通过捕捉冰箱的内部来获得冰箱的内部图像，并且将诸如“卷心菜”、“花椰菜”、“葡萄”、“果汁”和“三明治”的对象识别为包括在获得的图像中的至少一个对象。然而，应当注意，作为示例描述的根据本公开的电子设备100不限于冰箱。

同时，电子设备100可以接收用户语音。然后，基于接收到的用户语音，电子设备100可以通过对接收到的用户语音执行语音识别来获得对应于用户语音的文本信息。例如，如图1所示，基于接收到的用户语音，电子设备100可以对接收到的用户语音执行语音识别，并且获得诸如“吃黄瓜三明治并且还给Tommy点心”的文本信息作为对应于用户语音的文本信息。

同时，电子设备100可以从被识别为包括在图像中的至少一个对象当中识别对应于接收到的用户语音的对象。具体地，可以基于对应于用户语音的文本信息和接收到的用户触摸交互当中的至少一个来识别对应于用户语音的对象。

具体地，基于关于包括在获得的文本信息中的图像中包括的至少一个对象的信息，电子设备100可以将与包括在获得的文本信息中的至少一个对象的信息相对应的对象识别为对应于用户语音的对象。例如，如图1所示，基于关于包括在获得的文本信息中的诸如“黄瓜三明治”的对象的信息，电子设备100可以将“黄瓜三明治”识别为对应于用户语音的对象。

同时，基于在显示器110上接收到的用户的触摸交互，电子设备100可以将与显示器110上的区域当中的接收到用户的触摸交互的区域相对应的对象识别为对应于用户语音的对象。例如，如图1所示，基于在显示器110上的区域当中的一个区域上接收到用户的触摸交互10，电子设备100可以将“黄瓜三明治”识别为对应于用户语音的对象，其中该“黄瓜三明治”是与接收到触摸交互的区域相对应的对象。

同时，可以在接收用户语音的同时接收用户的触摸交互，但是本公开不限于此。也就是说，根据本公开的用户的触摸交互可以在接收用户语音之前或者在接收用户语音之后被接收。接收到用户的触摸交互的时间点及其各种实施例将在下面具体参考图10B进行描述。

如上所述，基于与被识别的用户语音相对应的对象，电子设备100可以在显示器110上的区域当中的与被识别为对应于用户语音的对象相对应的区域上显示包括文本信息的备忘录UI 20。

根据如上所述的实施例，在显示包括对应于用户语音的文本信息的备忘录UI时，电子设备100可以在显示器110上的区域当中的对应于发出用户语音的用户的直观识别的区域上显示备忘录UI。

图2是示出根据本公开实施例的电子设备100的控制方法的流程图。

如图2所示，电子设备100可以获得包括至少一个对象的图像(S210)。具体地，电子设备100可以通过包括在电子设备100中的相机获得包括至少一个对象的图像，以及从外部设备接收和获得包括至少一个对象的图像。

基于获得包括至少一个对象的图像，电子设备100可以识别包括在获得的图像中的至少一个对象(S220)。具体地，电子设备100可以通过分析获得的图像来识别包括在获得的图像中的至少一个对象。因为分析获得的图像的过程可以通过所谓的对象识别模块来执行，所以将参考图4描述通过对象识别模块的图像分析或对象识别过程。

同时，作为关于图像的对象识别的结果，要识别的对象的范围可以根据电子设备的类型、用户设置等来预先设置。例如，基于电子设备100是冰箱，可以将作为基于冰箱的内部图像上的对象识别的识别的主题的对象的范围预设为仅包括布置在冰箱内部的食品的范围，并且排除冰箱内部的搁板或诸如存储容器的内部结构。此时，用于识别对象的人工智能模型可以被实施为被训练来识别限于所发现的产品类型的对象的人工智能模型。

电子设备100可以接收用户语音(S230)。具体地，电子设备100可以通过包括在电子设备100中的麦克风接收用户语音，以及从外部设备接收用户语音。这里，外部设备可以包括用户终端，诸如智能电话或用于控制电子设备100的遥控设备。也就是说，用户终端或遥控设备可以通过包括在用户终端或遥控设备中的麦克风接收用户语音，并将接收到的用户语音发送到电子设备100。因此，电子设备100可以从用户终端或遥控设备接收用户语音。

基于接收到的用户语音，电子设备100可以获得对应于接收到的用户语音的文本信息(S240)。电子设备100可以通过对接收到的用户语音执行语音识别来获得对应于用户语音的文本信息。具体地，因为可以通过所谓的自动语音识别(ASR)模块对接收到的用户语音进行语音识别，所以将参考图5描述通过ASR模块进行语音识别的过程。

同时，接收到的用户语音可以是整个语音识别的主题，但是仅接收到的用户语音当中的一部分也可以是语音识别的主题。这里，作为语音识别的主题的用户语音可以基于预设的起点和终点来指定。

具体地，用于指定作为语音识别的主题的用户语音的起点可以是接收到用于执行语音识别的触发输入的时间点。也就是说，基于接收到的触发输入，电子设备100可以在接收到触发输入之后对接收到的用户语音执行语音识别，并且获得对应于用户语音的文本信息。

根据本公开的实施例，触发输入可以通过在显示器上接收的用户的触摸交互来接收。换句话说，具体地，基于与在显示器上接收到的与触发输入相对应的用户的预设触摸交互，电子设备100可以在接收到用户的触摸交互之后对接收到的用户语音执行语音识别，并且获得对应于用户语音的文本信息。例如，基于同时触摸显示器上的两个或更多个点的多点触摸交互被预设为对应于用于执行语音识别的触发输入，电子设备100可以在接收到多点触摸交互之后对接收到的用户语音执行语音识别，并且获得对应于用户语音的文本信息。作为另一个示例，在显示器上接收的保持三秒的触摸交互可以被预设为对应于触发输入的触摸交互。

同时，触发输入可以通过包括预设触发字的用户语音来接收。例如，当“嗨ABC”是预设的触发词时，基于接收到的“嗨ABC，我买了啤酒，下班后喝”的用户语音，可以对接收到“嗨ABC”后接收到的用户语音“买了啤酒，下班后喝”执行语音识别，并且可以获得对应于用户语音的文本信息。

同时，用于指定作为语音识别的主题的用户语音的终点可以是通过各种类型的终点检测(EPD)技术指定的时间点。例如，作为语音识别的主题的用户语音可以通过基于关于用户语音的边缘信息、频率特性信息等从接收到的用户语音中划分语音段和非语音段来指定。

根据本公开的实施例，用于指定作为语音识别的主题的用户语音的终点可以是在显示器上接收的用户的触摸交互终止的时间点。具体地，如上所述的用户的触摸交互可以在显示器上被接收，并且接收到的触摸交互可以被保持在显示器上。然后，电子设备100可以在显示器上保持用户的触摸交互的同时接收用户语音。此后，当在显示器上保持的用户的触摸交互终止时，电子设备100可以对接收到的用户语音执行语音识别，直到用户的触摸交互终止的时间点，并且获得对应于用户语音的文本信息。

如在相关技术中，如果在预设时间段内电子设备100中没有接收到用户语音的情况下指定语音识别的终点，则预设时间段已经过去的时间点可以被指定为语音识别的终点，即使当由于用户在发声时犹豫发声而在预设时间段内电子设备100中没有接收到用户语音时，也可能出现与用户意图的意图相反的问题。除此之外，根据相关技术，当在发出期望语音识别的用户语音之后并且在预设时间段已经过去之前，用户另外发出不期望语音识别的用户语音时，不仅可以对用户期望语音识别的语音执行语音识别，还可以对不期望语音识别的语音执行语音识别，并且可能出现与用户意图相反的问题。

另一方面，如在如上所述的本公开的实施例中，如果基于用户的触摸交互来指定语音识别的终点，则对应于用户意图的时间点可以被指定为语音识别的终点，并且语音识别的终点检测(EPD)的准确度可以相应地提高。

如上所述，根据实施例，电子设备100可以对在接收到的用户语音当中的、在维持在显示器上的用户的触摸交互的同时接收的用户语音执行语音识别，并且相应地获得对应于用户语音的文本信息。

同时，在上面，基于麦克风处于激活状态，已经描述了基于用户的触摸交互从通过麦克风接收到的全部用户语音当中指定语音识别的主题的实施例，但是根据本公开的另一实施例，基于麦克风不处于激活状态，语音识别的主题可以通过基于用户的触摸交互来控制激活麦克风的时间，并对通过激活的麦克风接收到的用户语音整体执行语音识别来指定。

在上面，因为已经描述了从接收到的用户语音当中指定作为语音识别的主题的用户语音的方法，所以为了方便起见，接收到的用户语音当中的作为语音识别的主题的用户语音在下面可以简单地称为“用户语音”。

电子设备100可以从包括在图像中的至少一个对象当中识别对应于接收到的用户语音的对象(S250)。这里，可以基于对应于用户语音的文本信息和接收到的用户触摸交互当中的至少一个来识别对应于用户语音的对象。

具体地，基于关于包括在获得的文本信息中的图像中包括的至少一个对象的信息，电子设备100可以将与包括在获得的文本信息中的至少一个对象的信息相对应的对象识别为对应于用户语音的对象。也就是说，如以上示例中所述，当关于诸如“啤酒”的对象的信息包括在对应于用户语音的文本信息中时，电子设备100可以将“啤酒”识别为对应于用户语音的对象。

同时，基于在显示器上接收到的用户的触摸交互，电子设备100可以将与显示器上的区域当中的接收到用户的触摸交互的区域相对应的对象识别为对应于用户语音的对象。可以在接收用户语音的同时接收用户的触摸交互，但是如上所述，本公开不限于此。

具体地，电子设备100可以在显示器上显示图像，并且在显示器上接收用户的触摸交互。然后，电子设备100可以将显示在显示器上的区域当中的接收到用户的触摸交互的区域上的对象识别为对应于用户语音的对象。如在上述示例中，电子设备100可以在显示器上显示包括诸如“啤酒”、“可乐”和“果汁”的对象的图像。然后，电子设备100可以接收显示器上的区域当中的显示“啤酒”的区域上的用户的触摸交互。在这种情况下，电子设备100可以将“啤酒”识别为对应于用户语音的对象。

当识别出对应于用户语音的对象时，电子设备100可以在显示器上的区域当中的与被识别为对应于用户语音的对象相对应的区域上显示包括文本信息的备忘录UI(S260)。也就是说，如在上述示例中，电子设备100可以在显示器上的区域当中的显示诸如“啤酒”的对象的区域上显示包括诸如“买了啤酒，下班后喝”的文本信息的备忘录UI。

同时，与被识别为对应于用户语音的对象相对应的区域可以包括被识别为对应于用户语音的对象被显示在显示器上的区域，以及与被识别为对应于用户语音的对象被显示在显示器上的区域相距预设距离内的区域。也就是说，在上述示例中，电子设备100可以包括在显示器上显示诸如“啤酒”的对象的区域，以及在显示器上显示诸如“啤酒”的对象的区域的预设距离内的区域。

同时，基于存在被识别为对应于用户语音的两个或更多个对象，电子设备100可以在显示器上显示包括关于两个或更多个对象的信息的选择UI。这里，选择UI可以指用于接收选择两个或更多个对象当中的一个的用户输入的用户界面。然后，当通过选择UI接收到选择两个或更多个对象当中的一个的用户输入时，电子设备100可以将选择的一个识别为对应于用户语音的对象。将参考图11A和图11B更详细地描述与提供选择UI相关的实施例。

同时，在上面，关于包括在对应于用户语音的文本信息中的至少一个对象的信息已经被描述为关于包括在图像中的至少一个对象的名称的信息，但是根据本公开的实施例，关于至少一个对象的信息可以包括各种信息，诸如关于包括在图像中的至少一个对象的持续时间的信息。此外，对应于用户语音的文本信息不仅可以包括关于包括在图像中的至少一个对象的信息，还可以包括代词和用户名。将参考图12、图13A和图13B详细描述与包括在对应于用户语音的文本信息中的各种信息相关的实施例。

根据如上所述的本公开的一个或多个实施例，电子设备100可以基于对应于用户语音的文本信息在用户期望的区域上显示备忘录UI，而无需单独的用户操作来指定包括文本信息的备忘录UI将在显示器上显示的区域。

此外，电子设备100可以基于用户的触摸交互以方便和直观的方法指定作为语音识别的主题的用户语音，同时确定备忘录UI将被显示到的区域，并显示备忘录UI。

因此，电子设备100的用户可以使用直观且简单的方法通过用户界面生成对应于用户语音的文本信息，并且在显示器上对应于用户意图的区域中显示生成的文本信息。

图3A是简要示出根据本公开的电子设备100的配置的框图，以及图3B是示出基于如图3A所示的电子设备100的硬件配置和根据本公开的软件模块之间的耦合关系的根据本公开的实施例的图。

如图3A和图3B所示，根据本公开的电子设备100可以包括显示器110、麦克风120、存储器130和处理器140。

显示器110可以通过处理器140的控制输出图像数据。具体地，显示器110可以通过处理器140的控制输出预先存储在存储器130中的图像。存储在存储器130中的显示器110可以实施为液晶显示器(LCD)面板、有机发光二极管(OLED)等，并且在一些情况下，显示器110也可以实施为柔性显示器、透明显示器等。然而，根据本公开的显示器110不限于特定类型。

根据本公开的显示器110可以通过处理器140的控制来显示包括至少一个对象的图像，并且还可以显示诸如备忘录UI、选择UI、删除UI等的用户界面。

麦克风120可以接收电子设备100外部生成的声音或语音。具体地，麦克风120可以根据在电子设备100外部生成的声音或语音接收音频信号，并将接收到的音频信号转换成电信号。具体地，根据本公开的麦克风120可以接收由用户的发声生成的用户语音。

存储器130可以存储与电子设备100相关的至少一个指令。然后，存储器120可以存储在用于驱动电子设备100的操作系统(O/S)中。此外，存储器130可以存储有用于根据本公开的各种实施例操作电子设备100的各种软件程序或应用。

具体地，存储器130可以存储有用于操作电子设备100的各种软件模块，并且处理器140可以被配置为通过执行存储在存储器130中的各种软件模块来控制电子设备100的操作。也就是说，存储器130可以由处理器140访问，并且数据的读取/写入/修改/删除/更新等可以由处理器140执行。

同时，本公开中的术语存储器130可以用作包括存储器130、处理器140内的ROM(未示出)、安装到电子设备100的Ram(未示出)或存储卡(未示出)(例如，微SD卡、记忆棒)的含义，并且可以用作包括诸如闪存、可编程只读存储器(PROM)等非易失性存储器以及诸如动态随机存取存储器(DRAM)和静态RAM(SRAM)等易失性存储器的含义。

具体地，如图3B所示，根据本公开的存储器130可以存储有多个模块，诸如唤醒模块131、ASR模块132、NLU模块133、对象识别模块134和备忘录UI处理模块135。这里，存储在存储器130中的多个模块可以指执行多个模块，并且执行多个模块的功能所需的所有数据存储在存储器130中。同时，存储器130可以存储有与备忘录UI相关联的数据136。

同时，因为处理器140可以访问存储在存储器130中的多个模块，并且通过多个模块执行根据本公开的各种操作，所以多个模块中的每一个的功能将在下面描述。

唤醒模块131可以指确定是否对用户语音执行语音识别的模块，并且可以被指定为语音唤醒(WoV)模块。具体地，基于接收到的触发输入，唤醒模块131可以将在接收到触发输入之后通过麦克风120接收到的用户语音上的语音识别确定为已经执行。

自动语音识别(ASR)模块可以指通过对用户语音执行语音识别来获得对应于接收到的用户语音的文本信息的模块。ASR模块132可以包括声学模型(AM)、发音模型(PM)、语言模型(LM)等，并且通过诸如AM、PM和LM的人工智能模型来获得对应于用户语音的文本。

自然语言理解(NLU)模块133作为对接收到的用户语音执行自然语言的理解的模块，可以包括域分类器和NLU引擎等。域分类器可以指识别与用户语音相关联的域的模块，并且NLU引擎可以指通过使用用于执行自然语言的理解的数据库来执行关于对应于用户语音的文本信息的自然语言的理解的模块。也就是说，NLU模块133可以通过域分类器、NLU引擎等对对应于用户语音的文本信息执行句法分析和语义分析，并且获得关于用户意图的信息。

对象识别模块134可以提取图像内的边界，并识别对象是否存在以及对象的位置。然后，对象识别模块134可以通过用于对象识别的2D图像匹配、光学字符识别和人工智能模型等来识别包括在图像中的至少一个对象。

备忘录UI处理模块135可以指根据本公开执行与备忘录UI相关的整体处理过程的模块。具体地，除了控制显示器120显示备忘录UI的操作之外，备忘录UI处理模块135可以生成并获得备忘录UI，将备忘录UI存储在存储器130中，并且执行关于备忘录UI的图像处理，以及根据本公开处理关于备忘录UI的处理等。具体地，备忘录UI处理模块135可以基于存储在存储器130中的备忘录UI相关数据136，执行根据本公开的与备忘录UI相关的整体处理过程。

根据本公开的备忘录UI相关数据136可以指与备忘录UI相关的各种数据。也就是说，在描述本公开时，备忘录UI可以用作与根据本公开的备忘录UI相关的数据的集合含义，包括备忘录UI中包括的文本信息、关于备忘录UI中显示的文本信息的大小、字体、颜色等的信息、关于备忘录UI中显示的对象的信息、关于备忘录UI中显示的UI项目的信息等。

同时，在上面，处理器140已经被描述为加载存储在存储器130中的多个模块，以及通过多个模块执行根据本公开的操作的过程，但是上面仅仅是为了详细描述用于实施根据本公开的操作的硬件和软件的有机耦合，并且本公开不限于包括如图2所示的软件架构的情况。也就是说，在实现本公开的目的的范围内，多个模块的类型和名称可以不同于图3B所示的那样来实施。然后，在实施本公开的各种实施例时，应当理解，可以不使用通过图3B描述的多个模块的至少一部分。

同时，在图3B中，多个模块可以存储在存储器130中，处理器140可以加载存储在存储器130中的多个模块并访问多个模块，并且基于通过多个模块执行根据本公开的各种操作，在存储器130中示出了多个模块，但是多个模块中的至少一部分可以被实施为能够执行模块的功能并包括在处理器140中的专用芯片。

处理器140可以控制电子设备100的整体操作。具体地，处理器140可以与包括上述麦克风120、显示器110和存储器130a的电子设备100的配置相连接，并执行如上所述存储在存储器130中的至少一个指令，以控制电子设备100的整体操作。

处理器140可以实施成各种方法。例如，处理器140可以被实施为专用集成电路(ASIC)、嵌入式处理器、微处理器、硬件控制逻辑、硬件有限状态机(FSM)或数字信号处理器(DSP)当中的至少一个。同时，本公开中的术语处理器140可以用作包括中央处理单元(CPU)、图形处理单元(GPU)、主处理单元(MPU)等的含义。

具体地，根据本公开的处理器140可以访问如上所述的多个模块，即存储在存储器130中的多个模块，并通过多个模块执行根据本公开的各种操作。下面将参考图3B详细描述根据本公开的处理器140的控制过程。

处理器140可以获得包括至少一个对象的图像。当获得图像时，处理器140可以将获得的图像输入到对象识别模块134中，并识别包括在图像中的至少一个对象。然后，处理器140可以通过识别获得的图像和包括在图像中的至少一个对象，将关于获得的至少一个对象的信息存储在存储器130中，并且基于存储的图像和关于对象的信息来识别对应于如下所述的用户语音的对象。这里，关于至少一个对象的信息可以例如包括关于对象的名称、与对象在图像中的位置相对应的坐标值等的信息。将参考图4详细描述通过对象识别模块134分析图像或对象识别的过程。

处理器140可以接收用于执行语音识别的触发输入。这里，触发输入不仅可以通过麦克风120以包括预设触发字的用户语音的形式接收，还可以通过布置在电子设备100上的输入按钮接收，或者通过从用于控制电子设备100的遥控设备接收的控制信号接收。

当接收到触发输入时，处理器140可以确定是否要执行通过唤醒模块131的语音识别。具体地，当接收到触发输入时，处理器140可以通过向唤醒模块131输入触发输入来确定是否执行语音识别。然后，当确定执行语音识别时，处理器140可以确定对在接收到触发输入之后通过麦克风120接收的用户语音执行语音识别。换句话说，接收到触发输入的时间点可以是指定作为语音识别主题的用户语音的起点。已经参考图2描述了用于指定作为语音识别的主题的用户语音的起点和终点，并且将省略其冗余描述。

处理器140可以通过麦克风120接收用户语音。当接收到用户语音时，处理器140可以在ASR模块132中输入接收到的用户语音，并获得对应于用户语音的文本信息。将参考图5详细描述通过ASR模块132的语音识别过程。

处理器140可以通过显示器110接收用户的触摸交互。具体地，根据本公开的显示器110可以包括用于检测用户的触摸交互的触摸传感器，并且处理器140可以通过包括在显示器110中的触摸传感器接收用户相对于显示器110上的区域当中的一个区域的触摸交互。

触摸传感器可以实施为各种类型的传感器，诸如电容型、电阻型、压电型等。此外，显示器110可以检测触摸交互，该触摸交互除了用户的手指之外还使用输入装置，诸如手写笔。然后，基于触摸交互的输入装置是其中包括线圈的手写笔，显示器110可以包括能够检测由手写笔内的线圈改变的磁场的磁场传感器。因此，处理器140不仅可以检测通过显示器110的触摸交互，还可以检测近距离手势，即悬停。同时，在上面，显示器110的显示功能和用户触摸交互的检测功能已经被描述为在相同的配置上执行，但是可以在彼此不同的配置中执行。

处理器140可以被配置为识别包括在图像中的至少一个对象当中的对应于接收到的用户语音的对象。这里，可以基于通过ASR模块132获得的对应于用户语音的文本信息和通过显示器110接收的用户的触摸交互当中的至少一个来识别对应于用户语音的对象。

具体地，基于关于包括在图像中的至少一个对象的信息被包括在获得的文本信息中，处理器140可以将对应于关于包括在获得的文本信息中的至少一个对象的信息的对象识别为对应于用户语音的对象。

同时，当在显示器110上接收到用户的触摸交互时，处理器140可以将与显示器110上的区域当中的接收到用户的触摸交互的区域相对应的对象识别为对应于用户语音的对象。具体地，可以在接收用户语音的同时接收用户的触摸交互，但是应当注意，本公开不限于如上所述。

具体地，处理器140可以在显示器110上显示图像，并且接收用户在显示器110上的触摸交互。然后，处理器140可以将显示在显示器110上的区域当中的接收到用户的触摸交互的区域上的对象识别为对应于用户语音的对象。

处理器140可以被配置为控制显示器110显示包括文本信息的备忘录UI。具体地，当识别出对应于用户语音的对象时，处理器140可以被配置为控制显示器110在显示器110上的区域当中的与被识别为对应于用户语音的对象相对应的区域上显示包括文本信息的备忘录UI。这里，与被识别为对应于用户语音的对象相对应的区域可以包括被识别为对应于用户语音的对象被显示在显示器110上的区域，以及与被识别为对应于用户语音的对象被显示在显示器110上的区域相距预设距离内的区域。

同时，基于存在被识别为对应于用户语音的两个或更多个对象，处理器140可以在显示器110上显示包括关于两个或更多个对象的信息的选择UI。这里，选择UI可以指用于接收选择两个或更多个对象当中的一个的用户输入的用户界面。然后，当通过选择UI接收到选择两个或更多个对象当中的一个对象的用户输入时，处理器140可以将选择的一个对象识别为对应于用户语音的对象。将参考图11A和图11B更详细地描述与提供选择UI相关的实施例。

同时，在上面，关于包括在对应于用户语音的文本信息中的至少一个对象的信息已经被描述为关于包括在图像中的至少一个对象的名称的信息，但是根据本公开的实施例，关于至少一个对象的信息可以包括各种信息，诸如关于包括在图像中的至少一个对象的持续时间的信息。此外，对应于用户语音的文本信息可以仅仅包括关于包括在图像中的至少一个对象的注释信息，还包括代词、用户名和关于用户意图的信息当中的至少一个。将参考图12、图13A和图13C详细描述与包括在对应于用户语音的文本信息中的各种信息相关的实施例。

图4是更详细地示出根据本公开的对象识别过程的图。

如上所述，电子设备100可以获得包括至少一个对象的图像。然后，当获得图像时，电子设备100可以分析获得的图像并识别包括在图像中的至少一个对象。具体地，电子设备100可以通过对象识别模块识别包括在图像中的至少一个对象。将详细描述电子设备100通过对象识别模块执行图像分析或对象识别的各种方法。

电子设备100可以提取获得的图像内的边界，并识别对象是否存在以及对象的位置。然后，对象识别模块可以通过2D图像匹配、光学字符识别(OCR)、用于对象识别的人工智能模型等来识别包括在图像中的至少一个对象。

具体地，电子设备100可以使用诸如边缘检测、角点检测、直方图特征检测、图像高频分析、图像各种分析等的各种方法来提取包括在获得的图像中的对象的特征。然后，电子设备100可以获得包括在获得的图像中的对象对应于多个类别中的每一个的可能性，该多种类别用于基于提取的特征对对象进行分类，并且相应地识别包括在图像中的至少一个对象。

在实施例中，当通过2D图像匹配对对象进行分类时，电子设备100可以获得获得的图像中的对象中的每一个被包括在其中的区域的图像，将该图像与多个对象的每种类型的预先存储的图像进行比较，并且基于两个图像之间的相似性来识别包括在图像中的至少一个对象。

在另一实施例中，基于电子设备100是冰箱并且获得的图像是冰箱内部的图像，电子设备100可以使用OCR技术来识别包括在图像中的食品等的标签并识别包括在图像中的至少一个对象。

在又一实施例中，电子设备100可以通过训练的人工智能模型来执行对象识别。具体地，电子设备100可以将获得的图像输入到训练的人工智能模型中，并识别包括在图像中的至少一个对象。这里，人工智能模型可以是通过使用机器学习、遗传学、深度学习和诸如分类算法的人工智能算法当中的至少一个来训练的人工智能模型，并且可以包括卷积神经网络(CNN)和递归神经网络(RNN)当中的至少一个人工神经网络。然而，对根据本公开的人工智能模型的类型和其中包括的人工神经网络的类型没有具体限制。

例如，如图4所示，基于电子设备100是冰箱，电子设备100可以捕捉冰箱的内部并获得冰箱的内部图像。然后，电子设备100可以使用如上所述的各种方法对获得的图像或对象识别执行图像分析。然后，基于对象识别的结果，电子设备100可以将诸如“卷心菜”410、“葡萄”420、“果汁”430等对象识别为包括在图像中的至少一个对象。

同时，根据电子设备的类型、用户设置等，可以不同地预设作为基于对图像执行对象识别的识别的主题的对象的范围。例如，基于电子设备100是冰箱，基于对冰箱的内部图像执行对象识别而作为识别的主题的范围可以被预设为仅包括布置在冰箱内部的食品并且不包括诸如冰箱内部的搁板或存储容器的内部结构的范围。此时，用于识别对象的人工智能模型可以被实施为被训练来识别限于食品类型的对象的人工智能模型。

同时，如上所述的对象识别模块不仅可以作为设备上的模块(on-device)被包括在电子设备100中，还可以被包括在诸如服务器的外部设备中，并且电子设备100可以被配置为将获得的图像发送到服务器，并且当由包括在服务器中的对象识别模块对图像执行对象识别时，通过从服务器接收对象识别结果，识别包括在图像中的至少一个对象。

图5是更详细地示出根据本公开的语音识别过程的图。

如上所述，电子设备100可以接收用户语音。然后，当接收到用户语音时，电子设备100可以对接收到的用户语音执行语音识别，并获得对应于用户语音的文本信息。

具体地，电子设备100可以基于自动语音识别(ASR)模块来执行语音识别，并且获得对应于接收到的用户语音的文本信息。ASR模块可以包括特征提取器和解码器。特征提取器可以从音频信号中提取特征信息(特征向量)。然后，解码器可以获得对应于基于声学模型(AM)、发音模型(PM)、语言模型(LM)等提取的特征信息的语音识别信息。语音识别信息可以包括对应于基于声学模型获得的特征信息的发音信息、音素信息和字符串信息，以及对应于基于语言模型获得的发音信息的文本数据。

具体地，AM可以提取接收到的用户语音的声学特征，并获得音素序列。PM可以包括发音词典(发音词表(lexicon))，并且通过将获得的音素序列映射到单词来获得单词序列。然后，LM可以为获得的单词序列指定可能性。同时，ASR模块可以包括端到端语音识别模型，其中AM、PM和LM的元素被集成为单个神经网络。

例如，如图5所示，电子设备100可以接收由用户发声生成的用户语音510，并且通过使用如上所述的ASR模块获得诸如“草莓被洗了，所以吃它们吧”的文本信息520作为对应于用户语音的文本信息。

同时，如上所述的ASR模块不仅可以作为设备上的模块被包括在电子设备100中，还可以被包括在诸如服务器的电子设备中。然后，电子设备100可以将接收到的用户语音发送到服务器，并且当包括在服务器中的ASR模块对用户语音执行语音识别时，通过从服务器接收语音识别的结果来获得对应于用户语音的文本信息。

图6是示出电子设备100的实施例的图，该电子设备100基于对应于用户语音的文本信息来识别对应于用户语音的对象。

如上所述，电子设备100可以获得图像，并且识别包括在获得的图像中的至少一个对象。然后，电子设备100可以接收用户语音，并获得对应于接收到的用户语音的文本信息。

此外，电子设备100可以从包括在图像中的至少一个对象当中识别对应于用户语音的对象。具体地，可以基于对应于用户语音的文本信息和接收到的用户触摸交互当中的至少一个来识别对应于用户语音的对象。下面将参考图6描述基于对应于用户语音的文本信息来识别对应于用户语音的对象的过程。

当关于至少一个对象的信息包括在对应于用户语音的文本信息中时，电子设备100可以基于关于包括在文本信息中的至少一个对象的信息，从包括在图像中的至少一个对象当中识别对应于用户语音的对象。具体地，当关于至少一个对象的信息被包括在对应于用户语音的文本信息中时，电子设备100可以将包括在图像中的至少一个对象当中的对应于关于至少一个对象的信息的对象识别为对应于用户语音的对象。

例如，如图6所示，电子设备100可以获得图像，并通过分析获得的图像来识别包括在图像中的至少一个对象。具体地，基于电子设备100是冰箱，电子设备100可以获得电子设备100的内部图像，如图6所示，并将“黄瓜三明治”62识别为包括在获得的图像中的至少一个对象。

然后，电子设备100可以接收用户语音，对接收到的用户语音执行语音识别，并获得文本信息61，诸如“吃黄瓜三明治并且还给Tommy点心”，作为对应于用户语音的文本信息。当作为包括在图像中的至少一个对象的“黄瓜三明治”62的信息包括在对应于用户语音的文本信息中时，电子设备100可以将“黄瓜三明治”62识别为对应于用户语音的对象。

同时，在如上所述的示例中，已经描述了基于对获得的图像的对象识别将“黄瓜三明治”62识别为包括在图像中的至少一个对象，但是可以基于对象识别将“三明治”而不是“黄瓜三明治”识别为包括在图像中的至少一个对象。然而，即使在这种情况下，电子设备100也可以将包括在图像中的至少一个对象当中的“三明治”识别为对应于用户语音的对象。换句话说，本公开不限于基于关于包括在文本信息中的至少一个对象的信息被识别的对象的名称和被识别为包括在图像中的至少一个对象的名称相同的情况，并且可以适用于当两个对象的名称当中的任何一个被包括到另一个时。

如上所述，当基于对应于用户语音的文本信息识别出对应于用户语音的对象时，电子设备100可以显示备忘录UI 63，备忘录UI 63包括在显示器上的区域当中的与被识别为对应于用户语音的对象相对应的区域上的文本信息。与备忘录UI相关的各种实施例将在下面参考图8A至图9B进行描述。

图7A至图7C是示出基于用户的触摸交互来识别对应于用户语音的对象的电子设备100的实施例的图。

此外，电子设备100可以识别包括在图像中的至少一个对象当中的对应于用户语音的对象。具体地，对应于用户语音的对象可以基于对应于用户语音的文本信息和接收到的用户的触摸交互当中的至少一个来识别。下面将参考图7A到图7C描述基于用户的触摸交互识别对应于用户语音的对象的过程。

具体地，用户的触摸交互可以是触摸显示器110上的一个点71-1的单次触摸交互，如图7A所示。然后，当接收到单次触摸交互时，电子设备100可以基于根据信号触摸交互的触摸点71-1的位置，识别显示器110上的区域当中的接收到触摸交互的区域72-1。具体地，电子设备100可以识别显示器110上的区域当中的从根据单次触摸交互被触摸的点71-1开始的预设范围内的区域，并且将识别的区域识别为接收到触摸交互的区域72-1。然后，电子设备100可以将与显示器110上的区域当中的接收到触摸交互的区域72-1相对应的对象73-1识别为对应于用户语音的对象。

此外，用户的触摸交互可以是同时触摸显示器110上的两个或更多个点71-2的多点触摸交互，如图7B所示。然后，当接收到多点触摸交互时，电子设备100可以基于根据多点触摸交互而触摸的两个或更多个点的位置71-2，识别显示器110上的区域当中的接收到触摸交互的区域72-2。具体地，电子设备100可以识别显示器110上的区域当中的根据多点触摸交互而触摸的两个或更多个点71-2被包括在其中的区域，并且将识别的区域识别为接收到触摸交互的区域72-2。然后，电子设备100可以将与显示器110上的区域当中的接收到触摸交互的区域72-2相对应的对象73-2识别为对应于用户语音的对象。

用户的触摸交互可以是沿着闭合曲线实现的拖动交互，其中多个点71-3连接在显示器110上，如图7C所示。然后，当接收到拖动交互时，电子设备100可以基于根据拖动交互的闭合曲线识别显示器110上的区域当中的接收到触摸交互的区域72-3。具体地，电子设备100可以识别显示器110上的区域当中的包括根据拖动交互的闭合曲线的区域，并且将识别的区域识别为接收到触摸交互的区域72-3。然后，电子设备100可以将与显示器110上的区域当中的接收到触摸交互的区域72-3相对应的对象识别为对应于用户语音的对象73-3

同时，在上面，与接收到触摸交互的区域相对应的对象可以是显示在显示器110上的区域当中的接收到触摸交互的区域上的对象。具体地，电子设备100可以在显示器110上显示图像，并且将显示在显示器110上的区域当中的接收到触摸交互的区域上的对象识别为对应于用户语音的对象。

如上所述，当基于用户交互识别出对应于用户语音的对象时，电子设备100可以在显示器110上的区域当中的与被识别为对应于用户语音的对象相对应的区域上显示包括文本信息74-1、74-2和74-3的备忘录UI 75-1、75-2和75-3。与备忘录UI相关的各种实施例将在下面参考图图8A至图9B进行描述。

根据如上所述的本公开的各种实施例，电子设备100可以基于用户的触摸交互来指定作为语音识别的主题的用户语音，同时当前以方便和直观的方式确定备忘录UI将被显示到的区域，并显示备忘录UI。

图8A和图8B是示出与基于用户的触摸交互不同地显示备忘录UI的大小和形式相关的实施例的图。

在上面，已经参考图7A到图7C描述了基于各种类型的触摸交互从包括在图像中的至少一个对象当中识别对应于用户语音的对象，并且在显示器110上的区域当中的与被识别为对应于用户语音的对象相对应的区域上显示包括文本信息的备忘录UI的实施例。

也就是说，在上面，已经描述了基于用户的触摸交互来确定备忘录UI将被显示到的区域的实施例，但是根据本公开，备忘录UI的大小和形式也可以根据用户的各种类型的触摸交互来确定。

具体地说，如图8A所示，用户的触摸交互可以是同时触摸显示器110上的两个或更多个点81-1的多点触摸交互。然后，当接收到多点触摸交互时，电子设备100可以基于根据多点触摸交互的两个或更多个触摸点81-1的位置，识别显示器110上的区域当中的接收到触摸交互的区域82-1。具体地，电子设备100可以根据显示器110上的区域当中的多点触摸交互来识别包括触摸的两个或更多个坐标值的区域82-1的大小和形式。然后，电子设备100可以根据多点触摸交互以与识别的区域82-1的大小和形式相对应的大小和形式在显示器110上显示备忘录UI 73-1。

同时，如图8B所示，用户的触摸交互可以是沿着闭合曲线81-2实现的拖动交互，闭合曲线81-2的多个点连接在显示器110上。然后，当接收到拖动交互时，电子设备100可以基于根据拖动交互的闭合曲线识别显示器110上的区域当中的接收到触摸交互的区域82-2。具体地，电子设备100可以根据显示器110上的区域当中的拖动交互来识别包括触摸的多个坐标值的区域82-2的大小和形式。然后，电子设备100可以根据拖动交互以与识别的区域82-2的大小和形式相对应的大小和形式在显示器110上显示备忘录UI 83-2。

同时，在未显示对象的区域上接收到的用户的触摸交互已经在图8A和图8B中示出，但是如图7A至7C所示，即使在显示对象的区域上接收到用户的触摸交互，也可以基于用户的触摸交互来确定备忘录UI的大小和形式。

如上所述，根据本公开的各种实施例，电子设备100不仅可以基于用户的一次性触摸交互来确定显示备忘录UI的区域，还可以确定备忘录UI的大小和形式，并且可以显示备忘录UI。

图9A和图9B是示出根据本公开的与备忘录UI相关的各种形式的图。

如图9A所示，根据本公开的备忘录UI可以包括诸如“结婚周年礼物！”91(以下简称第一文本信息91)、“一定要吃早餐”92(以下简称第二文本信息92)、以及“在锅里加入500毫升水，并且当水沸腾时，加入面条和调料，并且在沸腾2分钟后……”93(以下称为第三文本信息93)的文本信息。然后，第一文本信息91、第二文本信息92和第三文本信息93可以以各种类型的大小、字体、颜色等显示。

具体地，通过根据本公开的备忘录UI显示的文本信息的大小可以基于其中备忘录UI被显示的大小来确定。例如，如图9A所示，基于其中显示第一文本信息91的备忘录UI的大小被确定为大于其中显示第二文本信息92的备忘录UI的大小，第一文本信息91可以被显示为大于第二文本信息92。

同时，可以基于文本信息的量来确定通过备忘录UI显示根据本公开的文本信息的大小。例如，当相同大小的第二文本信息92和第三文本信息93显示在备忘录UI中时，包括相对较少数量的单词的第二文本信息92的大小可以被确定为大于第三文本信息93的大小。

同时，可以基于接收到的用户语音的大小来确定通过备忘录UI显示根据本公开的文本信息的大小。例如，对应于文本信息的用户语音的大小越大，文本信息可以通过备忘录UI显示得越大。这里，关于用户语音的大小的信息可以基于如上所述通过ASR模块获得的用户语音的声学特征来获得。

同时，通过根据本公开的备忘录UI显示的文本信息的大小、字体和颜色可以根据发出对应于文本信息的用户语音的用户来不同地确定。这里，发出用户语音的用户可以基于用户语音的声纹分析或通过相机获得的用户图像上的对象识别来识别。

具体地，当接收到用户语音时，电子设备100可以基于关于接收到的用户语音的声纹的信息来识别发出接收到的用户语音的用户。这里，声纹可以是可以通过分析用户语音的频率获得的识别信息，并且可以用于语音识别，因为每个用户的语音的频率形式是唯一的。具体地，电子设备100可以获得关于接收到的用户语音的声纹的信息，并且通过将关于用户声纹的信息与关于预先存储的声纹的信息进行比较来识别发出用户语音的用户。

同时，电子设备100可以在接收用户语音的同时通过相机获得用户图像，并且通过对获得的用户图像执行对象识别来识别发出用户语音的用户。具体地，电子设备100可以通过将通过相机获得的用户的图像与预先登记的用户的图像进行比较来识别发出用户语音的用户。

如上所述，当发出用户语音的用户被识别时，电子设备100可以根据识别的用户不同地确定通过备忘录UI显示的文本信息的大小、字体、颜色等。具体地，电子设备100可以存储关于用户偏好的文本信息的大小、字体、颜色等的设置信息，并且基于对应于识别的用户的设置信息来确定通过备忘录UI显示的文本信息的大小、字体、颜色等。当确定了通过备忘录UI显示的文本信息的大小、字体、颜色等时，可以通过备忘录UI以确定的大小、字体、颜色等显示文本信息。

例如，基于使用电子设备100的用户家庭当中被识别为“祖母”的用户，电子设备100可以基于对应于被识别为“祖母”的用户的设置信息，通过备忘录UI以大的、具有良好可读性的字体以及黑色显示文本信息。此外，基于使用电子设备100的用户家庭当中被识别为“女儿”的用户，电子设备100可以基于对应于被识别为“女儿”的用户的设置信息，通过备忘录UI以具有良好美感的大字体和天蓝色显示文本信息。

同时，当在显示器110上的图像处于显示状态的同时显示备忘录UI时，备忘录UI可以覆盖显示的图像的一个区域，并且可以显示在该一个区域上，或者可以以透明的形式显示在显示的图像的该一个区域上。例如，如图9B所示，备忘录UI 94和95可以以透明的形式显示在显示的图像的一个区域上，同时也可以显示与显示备忘录UI 94和95的区域相对应的对象。同时，基于以透明的形式显示的备忘录UI 94和95，可以通过用户设置来改变透明度。

同时，显示在显示器110上的图像不仅可以是通过处理通过相机获得的图像而显示在显示器110上的图像，还可以是显示在透明显示器110上的图像，其中布置在显示器110的后表面的对象穿过透明显示器110。即使当图像通过透明显示器110显示时，根据本公开的备忘录UI也可以以如上所述的各种类型显示在图像上。

同时，在上面，已经描述了通过备忘录UI显示的文本信息，但是备忘录UI还可以包括与被识别为对应于用户语音的对象相关的各种信息。例如，电子设备100可以显示图像，其中通过备忘录UI在图像中捕捉与被识别为对应于用户语音的对象相对应的区域，此外，可以从外部设备接收并显示预先存储的或与对应于用户语音的对象相关的信息。

根据如上所述的本公开的各种实施例，电子设备100可以根据用户语音和发出用户语音的用户是谁，以各种类型的大小、字体和颜色显示文本信息，并且可以以直观的方式提供用户定制的备忘录UI。

图10A是全面示出根据本公开的识别对应于用户语音的对象的过程的实施例以及存在对应于用户语音的两个或更多个对象的情况的图。

在上面，已经参考图2简要描述了识别对应于用户语音的对象的过程(S250)。此外，已经参考图6详细描述了基于对应于用户语音的文本信息来识别对应于用户语音的对象的过程。此外，已经参考图7A至图7C详细描述了基于用户的触摸交互来识别对应于用户语音的对象的过程。下面将参考图10A描述在考虑包括在图像中的至少一个对象的信息是否包括在对应于用户语音的文本信息中(S1020)以及在接收用户语音的同时是否已经在显示器上接收到触摸交互(S1030)的情况下识别对应于用户语音的对象的实施例。

如图10A所示，电子设备100可以识别包括在图像中的至少一个对象(S1010)。具体地，电子设备100可以获得图像，并且通过分析获得的图像来识别包括在图像中的至少一个对象。

电子设备100可以获得对应于接收到的用户语音的文本信息(S1015)。具体地，电子设备100可以接收用户语音，并且通过对接收到的用户语音执行语音识别来获得对应于用户语音的文本信息。

同时，如图10A所示，电子设备可以基于包括在图像中的至少一个对象的信息是否包括在对应于用户语音的文本信息中，以及在接收用户语音的同时是否在显示器上接收到触摸交互，来识别对应于用户语音的对象。

首先，电子设备100可以识别包括在图像中的至少一个对象的信息是否包括在对应于用户语音的文本信息中(S1020)。如果关于至少一个对象的信息包括在对应于用户语音的文本信息中(S1020-是)，则电子设备100可以识别对应于文本信息的对象的数量(S1025)。具体地，电子设备100可以基于关于包括在文本信息中的至少一个对象的信息来识别对应于文本信息的对象的数量。例如，“啤酒”、“鸡肉”和“草莓”可以被识别为包括在图像中的对象，并且如果关于诸如“啤酒”和“鸡肉”的对象的信息包括在对应于用户语音的文本信息中，则电子设备100可以将包括在图像中的对象当中的对应于文本信息的对象的数量识别为两个。

同时，如果关于至少一个对象的信息没有包括在对应于用户语音的文本信息中(S1020-否)，则电子设备100可以识别在接收用户语音的同时是否已经在显示器上接收到用户的触摸交互(S1030)。

然后，如果在接收用户语音的同时没有在显示器上接收到用户的触摸交互(S1030-否)，则电子设备100可以在显示器上的区域当中的预设区域上显示备忘录UI(S1035)。具体地，当包括在图像中的至少一个对象的信息没有包括在文本信息中并且在接收用户语音的同时没有在显示器上接收到用户的触摸交互时，电子设备100可以在显示备忘录UI的显示器上的区域当中的预设区域上显示备忘录UI。这里，预设区域可以是例如显示器上的中心区域。

如果在接收用户语音的同时在显示器上接收到用户的触摸交互(S1030-是)，则可以识别与接收到用户的触摸交互的区域相对应的对象的数量(S1040)。例如，如果诸如“啤酒”和“鸡肉”的对象显示在显示器上距接收到用户的触摸交互的点的预设距离内的区域中，则电子设备100可以将与接收到用户的触摸交互的区域相对应的对象的数量识别为两个。

如上所述，当识别出对应于文本信息的对象的数量或者对应于接收到用户的触摸交互的区域的对象的数量时，电子设备100可以将被识别为对应于接收到文本信息或用户的触摸交互的区域的对象识别为两个或更多个(S1045)。

如果被识别为对应于接收到文本信息或用户的触摸交互的区域的对象不是两个或更多个(S1045-否)，则电子设备100可以在显示器上的区域当中的与被识别为对应于接收到文本信息或用户的触摸交互的区域的对象相对应的区域上显示备忘录UI(S1050)。

如果被识别为对应于接收到文本信息或用户的触摸交互的区域的对象是两个或更多个(S1045-是)，则电子设备100可以在显示器上显示选择UI，该选择UI包括关于被识别为对应于接收到文本信息或用户的触摸交互的区域的两个或更多个对象的信息(S1055)。然后，电子设备100可以在显示器上的区域当中的与通过选择UI选择的对象相对应的区域上显示备忘录UI(S1060)。这里，将参考图11A和图11B详细描述与提供选择UI相关的实施例。

同时，在上面，已经参考图10A描述了通过识别包括在图像中的至少一个对象的信息是否包括在对应于用户语音的文本信息中来识别对应于用户语音的对象及其数量(S1020)，然后识别在接收用户语音的同时是否在显示器上接收到用户的触摸交互(S1030)的实施例，根据本公开的又一实施例，步骤S1020和S1030的顺序可以互换，并且如参考图6和图7A至图7C所述，对应于用户语音的文本信息和在显示器上接收的用户的触摸交互可以是用于识别对应于用户语音的对象的独立标准。

同时，如上所述，作为基于图像上的对象识别的识别的主题的对象的范围可以根据电子设备的类型、用户设置等不同地预先设置。例如，基于电子设备100是冰箱，可以将作为基于冰箱的内部图像上的对象识别的识别的主题的对象的范围预先设置为仅包括布置在冰箱内部的食品并且不包括诸如冰箱内的搁板或储存容器的内部结构。

基于图像的对象识别，如果包括在预设对象的范围内的对象未被识别，则电子设备100可以基于用户的触摸交互来确定备忘录UI将被显示的区域。此外，电子设备100可以在不执行获得图像的过程、识别包括在获得的图像中的至少一个对象的过程等的情况下，基于用户的触摸交互来确定备忘录UI将被显示的区域。如上所述，下面将参考图10B描述基于用户的触摸交互并且不依赖于包括在图像中的对象来确定要显示备忘录UI的区域的实施例。

图10B是示出在显示器上的接收到用户的触摸交互的区域上显示备忘录UI的实施例的图。

如图10B所示，电子设备100可以接收用户在显示器上的触摸交互(S1070)。具体地，电子设备100可以接收显示器上的区域当中的一个区域上的用户的触摸交互。这里，用户的触摸交互可以是如上参考图7A至图7C所述的各种类型的触摸交互。

电子设备100可以接收用户语音(S1075)。然后，当接收到用户语音时，电子设备100可以获得对应于用户语音的文本信息(S1080)。这里，可以基于用户的触摸交互来指定作为语音识别的主题的用户语音。

具体地，接收到用户的触摸交互的时间点可以是指定作为语音识别的主题的用户语音的起点。也就是说，当在显示器上接收到预设为对应于触发输入的用户的触摸交互时，电子设备100可以在接收到用户的触摸交互之后对接收到的用户语音执行语音识别，并且获得对应于用户语音的文本信息。

这里，是否保持用户的触摸交互直到开始接收用户语音的时间点不是问题。然而，如果即使在开始接收用户语音的时间点之后仍保持用户的触摸交互，则接收用户的触摸交互的时间点成为指定作为语音识别的主题的用户语音的起点，并且用户的触摸交互结束的时间点可以是指定作为语音识别的主题的用户语音的终点，如以上参考图2所述。

电子设备100可以在接收到用户的触摸交互的区域上显示包括文本信息的备忘录UI(S1085)。也就是说，在上面，根据如上参考图10B所述的本公开的实施例，电子设备100可以不执行获得包括至少一个对象的图像的过程、识别包括在获得的图像中的至少一个对象的过程、基于对应于用户语音的文本信息识别对应于用户语音的对象的过程、以及在显示器上显示获得的图像的过程当中的至少一些，并且在接收到用户的触摸交互的区域上显示备忘录UI。

根据如上参考图10B所述的实施例，电子设备100的用户可以在不考虑与包括至少一个对象的图像的关系的情况下，基于用户的触摸交互，在用户期望显示备忘录UI的区域上显示备忘录UI。具体地，可以在基于用户的一次触摸交互确定显示备忘录UI的区域时同时指定作为语音识别的主题的用户语音。

图11A和图11B是详细示出与当存在对应于用户语音的两个或更多个识别的对象时提供选择UI相关的实施例的图。

如上所述，基于电子设备100是如图11A和图11B所示的冰箱，电子设备100可以通过捕捉冰箱的内部来获得冰箱的内部图像，并且将“果汁”、“三明治”等识别为包括在获得的图像中的至少一个对象。

同时，如上所述，电子设备100可以识别包括在图像中的至少一个对象当中的对应于接收到的用户语音的对象。然后，基于存在对应于用户语音的两个或更多个被识别的对象，电子设备100可以在显示器上显示包括关于两个或更多个对象的信息的选择UI。这里，选择UI可以指用于接收选择两个或更多个对象当中的一个的用户输入的用户界面。

基于通过选择UI接收的选择两个或更多个对象当中的一个对象的用户输入，电子设备100可以将选择的一个对象识别为对应于用户语音的对象。这里，下面将参考图11A和图11B详细描述根据本公开的与提供选择UI相关的各种实施例。

图11A是示出与当基于基于对应于用户语音的文本信息从包括在图像中的至少一个对象当中识别对应于接收到的用户语音的对象而存在被识别为对应于用户语音的两个或更多个对象时提供选择UI相关的实施例的图。

参考图11A，电子设备100可以接收用户语音，并且获得诸如“吃三明治和果汁并且去上班”1110的文本信息作为对应于接收到的用户语音的文本信息。当获得对应于用户语音的文本信息时，电子设备100可以将包括在图像中的至少一个对象当中的诸如“果汁”和“三明治”的对象识别为对应于用户语音的对象。在这种情况下，因为有两个或更多个被识别的对象，所以电子设备100可以在显示器上提供包括关于诸如“果汁”和“三明治”的两个或更多个对象的文本信息的选择UI 1120。

当通过选择UI 1120接收到选择“果汁”和“三明治”当中的诸如“三明治”的对象的用户输入时，电子设备100可以将诸如“三明治”的对象识别为对应于接收到的用户语音的对象。然后，电子设备100可以在显示器上的区域当中的对应于“三明治”的区域上显示备忘录UI 1130，该备忘录UI1130包括诸如“吃三明治和果汁并且上班”的文本信息。

图11B是示出与当基于基于用户的触摸交互从包括在图像中的至少一个对象当中识别对应于接收到的用户语音的对象而存在被识别为对应于用户语音的两个或更多个对象时提供选择UI相关的实施例的图。

参考图11B，电子设备100可以接收用户语音，并且获得诸如“吃早餐并且去上班”1150的文本信息作为对应于接收到的用户语音的文本信息。然后，如图11B所示，电子设备100可以接收用户在显示器上的触摸交互。当接收到用户的触摸交互时，可以将显示器上的区域当中的对应于接收到用户的触摸交互的区域的对象识别为对应于用户语音的对象。具体地，当诸如“果汁”和“三明治”的对象显示在显示器上距接收到用户的触摸交互的点预设距离内的区域中时，电子设备100可以将“果汁”和“三明治”识别为对应于用户语音的对象。

在这种情况下，因为存在两个或更多个被识别的对象，所以如参考图11A所述，电子设备100可以在显示器上提供包括关于诸如“果汁”和“三明治”的两个或更多个对象的信息的选择UI 1160，并且当通过选择UI 1160接收到选择诸如“三明治”的对象的用户输入时，电子设备100可以在显示器上的区域当中的对应于“三明治”的区域上显示包括诸如“吃这个并且去上班”的文本信息的备忘录UI 1170。

根据如上所述的本公开的各种实施例，当存在被识别为对应于用户语音的两个或更多个对象时，电子设备100可以通过允许用户通过选择UI选择对象，在对应于用户意图的显示器的区域上显示备忘录UI。

同时，在上面，在图11A和图11B的每一个中已经分别描述了当基于文本信息(假设没有接收到触摸交互)识别到两个或更多个对象时以及当基于触摸交互(假设关于对象的信息没有包括在文本信息中)识别到两个或更多个对象时提供选择UI的实施例。

然而，根据本公开的实施例，可以基于文本信息来识别对应于用户语音的对象，并且也可以基于触摸交互来识别对应于用户语音的对象。在这种情况下，电子设备100可以确定要显示备忘录UI的区域，而不提供选择UI。

例如，当基于文本信息识别出诸如“果汁”和“三明治”的两个对象时，如果基于触摸交互识别出诸如“果汁”的一个对象，则电子设备100可以在对应于作为基于触摸交互识别的一个对象的“果汁”的区域上显示备忘录UI，而不提供选择UI。另外，当基于触摸交互识别出诸如“果汁”和“三明治”的两个对象时，如果基于文本信息识别出诸如“三明治”的对象，则电子设备100可以在对应于作为基于文本信息识别的一个对象的“三明治”的区域上显示备忘录UI，而不提供选择UI。

图12是示出与包括在对应于用户语音的文本信息中的代词相关的实施例的图。

在上面，已经描述了关于包括在图像中的至少一个对象的信息被包括在对应于用户语音的文本信息中，但是代词可以被包括在获得的文本信息中。例如，如图12所示，电子设备100可以获得诸如“吃这个”1230的文本信息作为对应于接收到的用户语音的文本信息。在这种情况下，获得的文本信息可能包括代词，诸如“这个”。

同时，因为代词是代表代替其的人或对象的名称的词，所以基于包括在文本信息中的代词，如果代词根据用户的发声意图被改变为人或对象的名称并通过备忘录UI显示，则用户的发声意图将更有效地传递给其他人。

因此，根据本公开的实施例，如果代词被包括在对应于用户语音的文本信息中，则电子设备100可以获得其中代词被改变为被识别为对应于用户语音的对象的名称的文本信息。这里，如上所述，可以基于在显示器110上接收到的用户的触摸交互来识别对应于用户语音的对象。然后，当获得改变的文本信息时，电子设备100可以在与被识别为对应于用户语音的对象相对应的区域上显示包括改变的文本信息的备忘录UI。

例如，如图12所示，电子设备100可以将“三明治”1220识别为对应于用户语音的对象，该“三明治”1220是与显示器110上的区域当中的接收到触摸交互1210的区域相对应的对象。然后，当诸如“这个”的代词被包括在获得的文本信息中时，电子设备100可以通过将“这个”改变为“三明治”，即被识别为对应于用户语音的对象的名称，来获得诸如“吃三明治”的改变的文本信息。然后，基于获得的改变的文本信息，电子设备100可以在对应于识别的对象的区域上显示包括诸如“吃三明治”的文本信息的备忘录UI1240，该文本信息是改变的文本信息。

根据如上所述的本公开的各种实施例，电子设备100可以基于对应于包括的用户语音的文本信息中包括代词，通过语音识别来生成文本信息，并且通过提供根据用户的触摸交互来反映用户意图的备忘录UI来进一步提高意图显示的用户的便利性。

图13A是示出与包括在对应于用户语音的文本信息中的用户名信息相关的实施例的图。

在上面，已经描述了根据本公开的关注于包括在图像中的至少一个对象的信息被包括在对应于用户语音的文本信息中的各种实施例，但是预先存储的关于用户名的信息可以被包括在对应于用户语音的文本信息中。例如，如图13A所示，电子设备100可以获得包括诸如“Hanna”的用户名的文本信息，该用户名被预先存储为对应于接收到的用户语音的文本信息。

当预先存储的用户名包括在对应于用户语音的文本信息中时，电子设备100可以将文本信息发送到对应于用户名的用户终端400。具体地，电子设备100可以在对应于用户名的用户终端400上存储用户名和信息。然后，当预先存储的用户名包括在对应于用户语音的文本信息中时，电子设备100可以将对应于用户语音的文本信息发送到对应于用户名的用户终端400。如图13A所示，对应于用户语音的文本信息可以直接发送到用户终端400，或者可以通过外部服务器300发送。

例如，如图13A所示，电子设备不仅可以在电子设备100的显示器上显示包括对应于用户语音的文本信息的备忘录UI，还可以直接地或通过外部服务器300将对应于用户语音的文本信息发送到对应于“Hanna”的用户名的用户终端400。

同时，电子设备100不仅可以向对应于包括在文本信息中的用户名的用户终端400发送对应于用户语音的文本信息，还可以发送关于发出用户语音的用户的信息。这里，发出用户语音的用户可以基于如上在图9A和图9B的描述中所述的用户语音的声纹分析或者通过相机获得的用户图像上的对象识别来识别。然后，关于识别的用户的信息可以预先存储在电子设备100中，并且可以包括关于用户名的信息。在如上所述的示例中，如果发出用户语音的用户被识别为“Tommy”，则电子设备100可以将发出用户语音的用户是“Tommy”的信息与对应于用户语音的文本信息一起发送到对应于用户名“Hanna”的用户终端400。

同时，在上面，已经描述了通过电子设备100向用户终端400发送对应于用户语音的文本信息来向用户提供通知的实施例，但是如上所述的通知可以通过电子设备100向用户提供。具体地，如果对应于包括在文本信息中的用户名的用户被识别为位于距电子设备100的预设距离内，则电子设备100可以通过电子设备100向用户提供通知。

具体地，电子设备100可以基于用户语音的声纹分析或通过相机获得的用户图像上的对象识别，来识别对应于包括在文本信息中的用户名的用户位于距电子设备100的预设距离内，如以上关于图9A和9B的描述中所述。然后，如果识别出用户位于距电子设备100的预设距离内，则电子设备100可以改变显示在显示器上的备忘录UI的颜色、形式等，或者点亮指示符以引导用户检查备忘录UI，并且可以通过扬声器向用户输出请求检查备忘录UI的语音。

根据如上所述的本公开的各种实施例，电子设备100可以基于关于包括在对应于用户语音的文本信息中的用户名的信息，通过向对应于用户名的用户终端发送通知来进一步提高用户便利性。

图13B是示出与关于包括在对应于用户语音的文本信息中的对象的持续时间的信息相关的实施例的图。

在对应于用户语音的文本信息中，可以包括关于对象的持续时间的信息。此外，如果关于对象的持续时间的信息包括在对应于用户语音的文本信息中，则电子设备100可以提供与对象的持续时间相关的通知。这里，与对象的持续时间相关的通知不仅可以通过电子设备100的显示器110、扬声器等来提供，还可以通过与电子设备100连接的用户终端的显示器、扬声器等来提供。

例如，如果对应于用户语音的文本信息是“今天之前喝完冰箱中的牛奶”，并且如果诸如“今天之前”的关于对象的持续时间的信息包括在对应于用户语音的文本信息中，则电子设备100可以在显示器110上显示与对象的持续时间相关的通知。具体地说，如图13B所示，电子设备100可以在显示器110上显示与对象的持续时间相关的通知，诸如“牛奶的截止日期还剩一天”1310，并且除此之外还可以显示与“牛奶”相关的图像1320。

同时，如果关于对象的持续时间的信息包括在对应于用户语音的文本信息中，则电子设备100可以以预设时间间隔提供与对象的持续时间相关的通知，直到其对应于关于对象的持续时间的信息的时间点。例如，如果用户语音中的文本信息是“今天之前喝完冰箱中的牛奶”，则电子设备100可以每隔一小时提供与对象的持续时间相关的通知，诸如“牛奶的截止日期还剩n个小时”，直到获得对应于用户语音的文本信息的日期的午夜。也就是说，如果电子设备100是冰箱，并且包括在对应于用户语音的文本信息中的对象是冰箱内的食品，则电子设备100可以提供与食品的新鲜度相关的通知。

同时，电子设备100可以根据提供通知的时间点和对应于关于对象的持续时间的信息的时间点之间的距离，使用不同的方法来提供与对象的持续时间相关的通知。例如，如果对应于用户语音的文本信息是“明天之前喝冰箱中的牛奶”，则电子设备100可以通过在获得对应于用户语音的文本信息的时间点通过电子设备100的显示器110显示备忘录UI来提供与对象的持续时间相关的通知，并且在三个小时之后，通过以不同于三个小时之前的颜色显示备忘录UI来提供与对象的持续时间相关的通知，并且在另外三个小时之后，通过用户终端的显示器提供与对象的持续时间相关的通知，并且在另外三个小时之后，通过用户终端的显示器提供与对象的持续时间相关的通知，同时通过扬声器输出与对象的持续时间相关的语音。

这里，通过用户终端提供与对象的持续时间相关的通知可以意味着电子设备100向用户终端发送关于与对象的持续时间相关的通知的信息，并且用户终端基于从电子设备100接收的关于与对象的持续时间相关的通知的信息，在用户终端中提供与对象的持续时间相关的通知。

同时，如果包括在第一图像中的至少一个对象当中的第一对象被识别为对应于用户语音的对象，并且如果关于第一对象的持续时间的信息被包括在对应于用户语音的文本信息中，则电子设备100可以获得第二图像，并且仅当在获得的第二图像中识别出第一对象时，提供与对象的持续时间相关的通知。

这里，第二图像可以指在获得第一图像之后通过捕捉与第一图像相同的位置而获得的图像。获得第二图像的时间点可以是从获得第一图像的时间点起的预设时间之后的时间点。第一图像和第二图像可以通过根据预设时间间隔捕捉相同位置来获得，并且进一步通过基于预设事件发生来捕捉相同位置来获得。

例如，基于电子设备100是冰箱，第一图像可以是通过捕捉冰箱内部的特定位置而获得的图像。在这种情况下，包括在第一图像中的“牛奶”可以被识别为对应于用户语音的对象，并且如果关于“牛奶”的持续时间的信息包括在对应于用户语音的文本信息中，则电子设备100可以通过捕捉在获得第一图像时捕捉的位置来获得第二图像。然后，只有当在获得的第二图像中识别出“牛奶”时，电子设备100才可以提供与对象的持续时间相关的通知。

同时，即使在对应于关于对象的持续时间的信息的时间点已经过去之后，如果存在对应于用户语音的对象，则电子设备100可以提供与对应于关于正在经过时间的对象的持续时间的信息的时间点之前的通知不同的通知，作为与对象的持续时间相关的通知。例如，如果对应于用户语音的文本信息是“今天之前喝完冰箱中的牛奶”，并且如果“牛奶”即使在获得对应于用户语音的文本信息的一天的午夜之后仍然存在，则电子设备100也可以提供诸如“冰箱中的牛奶必须扔掉”的通知。

同时，在上面，关于对象的持续时间的信息不仅可以清楚地包括在对应于用户语音的文本信息中，还可以基于关于包括在文本信息中的至少一个对象的信息来获得。例如，如果关于对象“牛奶”的信息包括在对应于用户语音的信息中，则电子设备100可以基于关于每个预先存储的对象的消费持续时间的信息来获得关于对象的持续时间的信息，即“牛奶”的消费持续时间是5天，并且提供与对象的持续时间相关的通知。

根据如上所述的本公开的各种实施例，如果对象的持续时间的信息包括在对应于用户语音的文本信息中，则电子设备100可以通过以各种方法提供与对象的持续时间相关的通知来进一步提高用户便利性。

图13C是示出与关于包括在对应于用户语音的文本信息中的用户意图的信息相关的实施例的图。

在上面，已经描述了根据本公开的各种实施例，其集中于包括在图像中的至少一个对象的信息被包括在对应于用户语音的文本信息中，但是关于用户意图的信息也可以被包括在对应于用户语音的文本信息中。此外，关于用户意图的信息可以通过如上参考图3B所述的NLU模块获得。

如上所述，NLU模块可以对对应于用户语音的文本信息执行句法分析和语义分析，并且获得用户意图的信息。

具体地，NLU模块对获得的文本信息的语法单元(例如，单词、短语、语素等)进行分类，并识别分类的语法单元包括哪个语法元素。然后，NLU模块可以基于识别的语法元素来确定文本信息的含义。此外，NLU模块可以通过将确定的文本信息的含义与识别的域、包括在识别的域中的多个意图以及多个参数或槽(slot)相匹配来获得关于用户意图的信息。例如，通过将确定的文本的含义与作为识别的域的“警报”和作为包括在识别的域中的多个意图的“设置警报”和“取消警报”相匹配，并且通过将作为表达用户意图所必需的参数的“时间”与“重复次数”、“警报声音”和谎言相匹配，可以获得关于用户意图的信息。

如上所述，如果通过NLU模块获得关于用户意图的信息，则电子设备100可以执行与用户意图相关的操作。具体地，如果关于用户意图的信息包括在对应于用户语音的文本信息中，则电子设备100可以识别能够执行与用户意图相关的操作的应用，并且通过识别的应用执行与用户意图相关的操作。下面已经参考图13C所示的例子描述了关于上述的实施例。

如前所述，基于电子设备100是冰箱，电子设备100可以获得电子设备100的内部图像，并且将“黄瓜三明治”1340识别为包括在获得的图像中的至少一个对象。此外，电子设备100可以接收用户语音，对接收到的用户语音执行语音识别，并且获得文本信息1330，诸如“吃黄瓜三明治并且只订购3公斤草莓”作为对应于用户语音的文本信息。

然后，电子设备100可以将“黄瓜三明治”1340识别为包括在图像中的至少一个对象当中的对应于用户语音的对象，并且在显示器的区域当中的对应于“黄瓜三明治”1340的区域上显示包括诸如“吃黄瓜三明治并且只订购3公斤草莓”的文本信息的备忘录UI 1350。

同时，电子设备100可以对获得的文本信息执行自然语言理解，并且获得关于用户意图的信息，诸如“订购3公斤草莓”。在这种情况下，电子设备100可以将存储在电子设备中的应用当中的购物应用识别为与“订购3公斤草莓”的用户意图相关的应用，并将“3公斤草莓”添加到通过购物应用提供的购物列表中。

同时，如果关于用户意图的信息包括在对应于用户语音的文本信息中，则对应于用户意图的对象不仅可以基于如图13C所示的对应于用户语音的文本信息来识别，还可以基于用户的触摸交互来识别。例如，如果关于诸如“必须购买”和“添加到”的用户意图的信息包括在对应于用户语音的文本信息中，并且如果在显示器上的区域当中的对应于“草莓”的区域上接收到用户的触摸交互，则电子设备100可以获得关于诸如“订购草莓”的用户意图的信息。然后，电子设备100可以将购物应用识别为与“订购草莓”的用户意图相关的应用，并将“草莓”添加到通过购物应用提供的购物列表中。根据如上所述的实施例，电子设备100可以基于包括在对应于用户语音的文本信息中的用户意图的信息，通过除了提供备忘录UI之外还提供与用户意图相关的功能来进一步提高用户便利性。

图14是示出与在通过电子设备100提供的主屏幕上显示备忘录UI相关的实施例的图。

在上面，已经描述了在显示器的区域当中的与被识别为对应于用户语音的对象相对应的区域上显示备忘录UI的实施例，但是显示根据本公开的备忘录UI的区域不限于此，并且可以显示在由电子设备100的操作系统(O/S)提供的各种UI区域上。

例如，基于电子设备100是智能电话，根据本公开的备忘录UI可以在智能电话的主屏幕上显示为窗口小部件形式的备忘录UI 1410，如图14所示。除此之外，备忘录UI也可以显示在智能电话的通知栏、锁定屏幕等上。

同时，基于如上所述在各种UI区域上显示的备忘录UI，UI的大小和形式可以根据备忘录UI将被显示的区域而变化。

图15A和图15B是示出与对应于用户语音的对象的位置正在移动或已经消失相关的实施例的图。

如上所述，根据本公开的电子设备100可以在显示器上的区域当中的与被识别为对应于用户语音的对象相对应的区域上显示包括对应于用户语音的文本信息的备忘录UI。

然而，在显示根据本公开的备忘录UI之后，可以移动被识别为对应于用户语音的对象的位置。这里，被识别为对应于用户语音的对象的移动可以通过比较根据公开的备忘录UI id显示之前获得的第一图像内被识别为对应于用户语音的对象的位置和在备忘录UI显示之后获得的第二图像内被识别为对应于用户语音的对象的位置来识别。

这里，第二图像可以是在获得第一图像之后通过捕捉与第一图像相同的位置而获得的图像。然后，第一图像和第二图像可以通过根据预设的时间间隔捕捉相同的位置来获得，此外，第一图像和第二图像也可以通过基于预设的事件发生来捕捉相同的位置来获得。例如，基于电子设备100是冰箱，电子设备100可以通过在诸如冰箱门打开和关闭的操作的预设事件发生时捕捉冰箱内部的特定位置来获得第一图像，并且如果在获得第一图像之后预设事件(诸如冰箱门的打开和关闭的操作)再次发生，则通过捕捉在获得第一图像时的捕捉位置来获得第二图像。

同时，可以基于图像内对象的中心点的坐标值、特征点的坐标值和文本信息的坐标值当中的至少一个来识别第一图像和第二图像内被识别为对应于用户语音的对象的位置。

基于对应于用户语音的对象的移动被识别，电子设备100可以在显示器上的区域当中的对应于移动的对象的位置的区域上显示备忘录UI。具体地，电子设备100可以删除显示在显示器上的区域当中的与对应于用户语音的对象被移动之前的位置相对应的区域上的备忘录UI，并且在显示器上的区域当中的与对应于用户语音的对象被移动的位置相对应的区域上显示备忘录UI。

例如，如图15A所示，电子设备100可以删除显示在显示器上的区域当中的对应于“三明治”被移动之前的位置1510的区域上的备忘录UI 1520，该“三明治”是对应于用户语音的对象，并且在显示器上的区域当中的与被移动的“三明治”的位置1530相对应的区域上显示备忘录UI 1540。

同时，在显示根据本公开的备忘录UI之后，可以删除对应于用户语音的对象。这里，对应于用户语音的对象的删除也可以使用与如上所述的对象的移动相同的方法来识别。

基于对应于被识别的用户语音的对象的删除，电子设备100可以显示删除UI1550。这里，删除UI 1550可以指允许用户选择是否删除显示在显示器上的备忘录UI的用户界面。然后，当通过删除UI 1550接收到选择删除显示的备忘录UI的用户输入时，电子设备100可以删除显示在显示器上的备忘录UI。在上面，备忘录UI的删除可以意味着选择，使得显示在显示器上的备忘录UI不显示在显示器上。

例如，如图15B所示，当识别出对应于用户语音的对象的删除时，电子设备100可以在显示器上显示包括诸如“删除？”、“是”和“否”以及显示的备忘录UI上的图像的删除UI1550。然后，当通过删除UI 1550接收到选择删除显示的备忘录UI的用户输入时，电子设备100可以删除显示在显示器上的备忘录UI。

根据如上所述的本公开的各种实施例，即使在发出用户语音之后，电子设备100也可以通过提供反映对应于用户语音的对象的移动和删除的用户界面来改善用户体验。

图16是基于根据本公开的电子设备100是冰箱简要示出与本公开相关的冰箱的结构的图。

如上所述，根据本公开的电子设备100不限于特定类型的电子设备100，而是根据该特定公开的电子设备100可以是冰箱。此外，如图16所示，冰箱可以包括显示器110、前相机1610、内部相机1620和1630等。除此之外，冰箱可以包括主体，该主体包括冷空气供应器、存储容器、多个门、将多个门与主体连接的铰链等，但是与本公开的实施例相关的配置将在下面集中描述。

显示器110可以输出图像数据。具体地，显示器110可以通过处理器的控制输出预先存储在存储器中的图像。具体地，根据本公开的显示器2110可以通过处理器的控制来显示包括至少一个对象的图像，并且可以显示诸如备忘录UI、选择UI和删除UI的用户界面。

同时，根据本公开的显示器110可以实施为透明显示器。透明显示器可以被实施为包括透明氧化物半导体膜，并且可以具有透明属性，因此，可以显示布置在显示器110的后表面的对象或图像。具体地，基于根据本公开的电子设备100是冰箱，显示器110可以被实施为透明显示器。然后，如果显示器110被实施为透明显示器，则电子设备100可以将布置在冰箱内部的至少一个对象投影在透明显示器上或者透过透明显示器，并且在透明显示器上显示包括至少一个对象的图像。

同时，显示器110可以布置在多个门当中的至少一个门的外侧。此外，显示器110可以包括透明显示器110和通用显示器110两者。此外，显示器110可以布置在邻近扬声器(未示出)的位置，并且向用户提供通过显示器110的视觉体验以及通过扬声器的听觉体验的整体体验。

内部相机1620和1630可以捕捉冰箱的内部。具体地，内部相机1620和1630可以包括根据相关技术的相机1620和能够获得光谱图像的光谱相机1630。内部相机1620和1630可以布置在多个门的内部，并且捕捉冰箱的内部，如图16所示，因此，电子设备100可以获得冰箱的内部图像。然后，通过内部相机1620和1630获得的冰箱的内部图像可以显示在显示器110上。

同时，近距离接近传感器可以布置在邻近内部相机1620和1630的位置。然后，当通过接近传感器检测到多个门当中的至少一个打开和关闭的操作时，电子设备100可以通过内部相机1620和1630捕捉冰箱内部的特定位置，并获得冰箱的内部图像。

前相机1610可以捕捉冰箱的外部。具体地，前相机1610可以通过被布置在适于捕捉冰箱外部的位置(如显示器110的上部)来捕捉冰箱的外部，因此，可以获得冰箱的外部图像。具体地，前相机1610可以捕捉冰箱外部的用户。

然后，当通过前相机1610获得用户图像时，电子设备100可以对如上所述获得的用户图像执行对象识别，并且识别发出用户语音的用户。然后，当发出用户语音的用户被识别时，电子设备100可以根据识别的用户不同地确定通过备忘录UI显示的文本信息的大小、字体、颜色等，并且还将对应于用户语音的文本信息发送到识别的用户的用户终端。

图17是详细示出根据本公开的电子设备100的配置的框图。

如图17所示，电子设备100不仅可以包括麦克风120、存储器130和处理器140，还可以包括通信器150、相机160、扬声器170、输入按钮180等。然而，诸如以上的配置是示例性的，并且除了上述配置之外，可以添加新的配置，或者在实现本公开时可以省略一些配置。因为上面已经参考图3A和图3B描述了麦克风120、显示器110、存储器130和处理器140，所以下面将描述通信器150、相机160、扬声器170和输入按钮180。

通信器150包括电路，并且可以执行与外部设备的通信。具体地，处理器140可以从通过通信器150连接的外部设备接收各种数据或信息，并且向外部设备发送各种数据或信息。

通信器150可以包括WiFi模块、蓝牙模块、无线通信模块和NFC模块当中的至少一个。具体地，WiFi模块和蓝牙模块中的每一个可以通过WiFi方法和蓝牙方法来执行通信。当使用WiFi方法或蓝牙方法时，可以首先发送和接收诸如SSID的各种连接信息，并且可以在使用其执行通信连接之后发送和接收各种信息。

此外，无线通信模块可以根据各种通信标准来执行通信，诸如例如，但不限于，IEEE、Zigbee、第三代(3G)、第三代合作伙伴计划(3GPP)、长期演进(LTE)、第五代(5G)等。此外，NFC模块可以使用诸如135kHz、13.56MHz、433MHz、860-960MHz和2.45GHz的各种RF-ID频带当中的13.56MHz频带以近场通信(NFC)方法执行通信。

具体地，根据本公开，处理器140可以被配置为控制通信器150将获得的图像和接收的用户语音中的至少一个发送到外部设备，并且通过通信器150从外部设备接收关于包括在图像中的对象的信息和对应于用户语音的文本信息当中的至少一个。另外，基于预先存储在对应于被包括的用户语音的文本信息中的用户名，处理器140可以被配置为控制通信器150将文本信息发送到对应于用户名的用户终端。

相机160可以布置在电子设备100的内部或外部，并且在电子设备100的内部或外部捕捉图像。然后，处理器140可以通过相机160获得电子设备100内部或外部的图像。具体地，基于根据本公开的电子设备100是冰箱，处理器140不仅可以通过在预设事件(例如冰箱门打开和关闭的操作)发生时捕捉冰箱内部来获得冰箱内部的图像，还可以通过以预设时间间隔捕捉冰箱内部来获得冰箱内部的图像。

扬声器170可以输出声音。具体地，扬声器170可以通过处理器140的控制，基于根据本公开的音频数据输出声音。具体地，根据本公开，基于对应于用户语音的文本信息中包括的关于持续时间的信息，处理器140可以被配置为通过扬声器170输出与关于持续时间的信息相关的声音。然后，处理器140可以根据本公开获得关于用户语音的响应语音，并通过扬声器170输出获得的响应语音。

输入按钮180可以接收各种类型的用户输入。具体地，根据本公开的输入按钮180可以接收用于执行语音识别的触发输入。触发输入不仅可以通过麦克风120以包括预设触发字的用户语音的形式接收，还可以通过布置在电子设备100上以便接收触发输入的输入按钮180接收。这里，输入按钮180不仅可以是物理上布置在电子设备100外部的物理按钮，还可以是以显示在触摸显示器110上的UI的形式实施的软按钮。

图18A和图18B是示出与根据本公开提供的指示符相关的实施例的图。

如通过图2所描述的，接收的用户语音可以是整个语音识别的主题，但是仅接收的用户语音当中的一部分可以是语音识别的主题。这里，作为语音识别的主题的用户语音可以基于预设的起点和终点来指定。

具体地，根据本公开的实施例，可以基于在显示器上接收的用户的触摸交互来指定用于指定作为语音识别的主题的用户语音的起点和终点。具体地，电子设备100可以从接收到预设触摸交互的时间点开始，直到用户的触摸交互结束的时间点，作为对应于用户在显示器上的触发输入，对接收到的用户语音执行语音识别，并且获得对应于用户语音的文本信息。

同时，当用户的触摸交互被保持在显示器上时，电子设备100可以在显示器上显示指示符，该指示符指示在显示指示符时接收的用户语音受到语音识别。具体地，当在显示器上接收到用户的触摸交互时，电子设备100可以显示指示在显示指示符时接收的用户语音受到语音识别的指示符，并且当在显示器上接收到的用户的触摸交互终止时，可以删除显示的指示符。

例如，可以通过如图18A所示的麦克风形状的UI 1810来提供根据本公开的指示符，并且可以通过如图18B所示的UI 1820来提供诸如“语音识别正在进行”的消息。

如上所述，当提供根据本公开的指示符时，电子设备100的用户能够理解在显示指示符时接收的用户语音受到语音识别，并且可以执行发声以对应于期望通过备忘录UI显示的文本信息。因此，电子设备100可以显示对应于用户意图的备忘录UI。

图19是示出通过与电子设备100连接的服务器执行的根据本公开的对象识别和语音识别过程的实施例的图。

在上面，假设电子设备100根据本公开的处理都在电子设备100中执行，已经描述了本公开的各种实施例，但是本公开不限于此。也就是说，根据本公开的过程当中的至少一些过程可以通过外部设备或服务器来执行。具体地，根据本公开的对象识别和语音识别当中的至少一个过程可以通过对象识别模块和/或包括ASR模块的服务器来执行。

下面将参考图19描述完全通过服务器执行的根据本公开的对象识别和语音识别的过程，但是将省略上面已经描述的冗余描述。

电子设备100可以获得包括至少一个对象的图像(S1910)。当获得包括至少一个对象的图像时，电子设备100可以将获得的图像发送到服务器(S1915)。然后，服务器可以基于接收到的图像来识别包括在图像中的至少一个对象(S1920)。当识别出包括在图像中的至少一个对象时，服务器可以向电子设备100发送关于至少一个对象的信息(S1925)。

同时，电子设备100可以接收用户语音(S1930)。当接收到用户语音时，电子设备100可以将接收到的用户语音发送到服务器(S1935)。服务器可以基于接收到的用户语音获得对应于用户语音的文本信息(S1940)。然后，当获得对应于用户语音的文本信息时，服务器可以将对应于用户语音的文本信息发送到电子设备100(S1945)。

同时，电子设备100可以识别包括在图像中的至少一个对象当中的对应于接收到的用户语音的对象(S1950)。可以基于对应于用户语音的文本信息和接收到的用户触摸交互当中的至少一个来识别对应于用户语音的对象。

然后，当识别出对应于用户语音的对象时，电子设备100可以在显示器上的区域当中的与被识别为对应于用户语音的对象相对应的区域上显示包括文本信息的备忘录UI(S1955)。

同时，在上面，已经描述了完全通过一个服务器来执行对象识别和语音识别的过程，但是根据本公开的对象识别和语音识别的过程也可以通过能够执行每个过程的多个服务器来执行。

根据如上参考图1至图19所述的本公开的各种实施例，根据如上所述的本公开的各种实施例，电子设备100可以仅基于对应于用户语音的文本信息在用户期望的区域上显示备忘录UI，而无需单独的用户操作来指定包括要在显示器上显示的文本信息的备忘录UI的区域。

此外，电子设备100可以基于用户的触摸交互来指定作为语音识别的主题的用户语音，同时确定备忘录UI将被显示到的区域，并显示备忘录UI。

因此，电子设备100的用户可以使用直观且方便的方法通过用户界面生成对应于用户语音的文本信息，并且在显示器上对应于用户意图的区域中显示生成的文本信息。

同时，如上所述的电子设备100的控制方法、处理器的控制过程和根据其的各种实施例可以被实施为程序并被提供给电子设备100。具体地，包括电子设备100的控制方法的程序可以存储在非暂时性计算机可读介质中并被提供。

这里，非暂时性计算机可读介质可以指半永久存储数据而不是在非常短的时间内存储数据的介质，诸如寄存器、高速缓存、存储器等，并且是设备可读的。具体地，上述各种应用或程序可以存储在非暂时性计算机可读介质中，诸如，例如但不限于，CD、DVD、硬盘、蓝光光盘、USB、存储卡、ROM等，并且被提供。

同时，上述多个模块当中的至少一个可以通过人工智能模型来实施。根据本公开的与人工智能相关的功能可以通过存储器和处理器来执行。

处理器可以包括一个或多个处理器。此时，一个或多个处理器可以是通用处理器(诸如CPU、AP等)、图形专用处理器(诸如GPU、VPU等)、或者人工智能专用处理器(诸如NPU)。

一个或多个处理器可以被配置为根据存储在非易失性存储器和易失性存储器中的预定义操作规则或人工智能模型来控制待处理的输入数据。预定义的操作规则或人工智能模型由通过学习而生成被特征化。

这里，通过学习而生成可以指通过将学习算法应用于多个学习数据由期望的特征创建预定义操作规则或人工智能模型。这种学习可以在其中根据本公开的人工智能被执行的设备本身中进行，或通过单独的服务器/系统执行。

人工智能模型可以包括多个神经网络层。每个层可以包括多个权重值，并且可以通过前一层的处理结果和多个权重值的处理来执行该层的处理。神经网络的示例可以包括卷积神经网络(CNN)、深度神经网络(DNN)、递归神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向递归深度神经网络(BRDNN)、生成对抗网络(GAN)和深度Q网络，但是除非另有说明，否则本公开中的神经网络不限于上述示例。

学习算法是通过使用多个学习数据来训练预定主题设备(例如，机器人)的方法，使得预定主题设备能够自我确定或预测。学习算法的示例可以包括监督学习、非监督学习、半监督学习或强化学习，并且除非另有说明，否则本公开的学习算法不限于上述示例。

虽然已经参考其示例性实施例示出和描述了本公开，但是本公开不限于具体描述的实施例，并且本公开所属领域的技术人员可以在不脱离本公开的精神和范围的情况下对其进行各种修改，并且这种修改不应被理解为与本公开的技术概念或前景分离。

Claims

1.一种电子设备，包括：

显示器；

麦克风；

存储器，被配置为存储至少一条指令；以及

处理器，被配置为执行所述至少一条指令，

其中所述处理器被配置为：

基于获得包括至少一个对象的图像，通过分析所述图像来识别包括在所述图像中的至少一个对象；

基于通过麦克风接收到用户语音，通过对所述用户语音执行语音识别来获得对应于所述用户语音的文本信息；

从包括在所述图像中的至少一个对象当中识别对应于所述用户语音的对象；和

控制所述显示器在所述显示器上的区域当中的与被识别为对应于所述用户语音的对象相对应的区域上显示包括文本信息的备忘录用户界面(UI)。

2.根据权利要求1所述的电子设备，其中所述处理器被配置为基于关于包括在所述图像中的至少一个对象的信息被包括在获得的文本信息中，将包括在所述图像中的至少一个对象当中的对应于关于所述至少一个对象的信息的对象识别为对应于所述用户语音的对象。

3.根据权利要求1所述的电子设备，其中所述处理器被配置为基于在接收所述用户语音的同时在所述显示器上接收到触摸交互，将与所述显示器上的区域当中的接收到所述触摸交互的区域相对应的对象识别为对应于所述用户语音的对象。

4.根据权利要求3所述的电子设备，其中所述处理器被配置为控制所述显示器在所述显示器上显示所述图像，并且将显示在所述显示器上的区域当中的接收到所述触摸交互的区域上的对象识别为对应于所述用户语音的对象。

5.根据权利要求3所述的电子设备，其中所述处理器被配置为对通过所述麦克风接收的用户语音当中的在所述显示器上保持所述触摸交互的同时接收的用户语音执行语音识别，并且获得对应于所述用户语音的文本信息。

6.根据权利要求3所述的电子设备，其中所述处理器被配置为基于在所述显示器上接收的用户的触摸交互的坐标值来确定所述备忘录UI的大小和形式当中的至少一个，并且

基于确定的大小和形式当中的至少一个，控制所述显示器在与被识别为对应于所述用户语音的对象相对应的区域上显示所述备忘录UI。

7.根据权利要求1所述的电子设备，其中与被识别为对应于所述用户语音的对象相对应的区域包括：被识别为对应于所述用户语音的对象被显示在所述显示器上的区域，以及与被识别为对应于所述用户语音的对象被显示在所述显示器上的区域相距预设距离内的区域。

8.根据权利要求1所述的电子设备，其中所述处理器被配置为基于存在被识别为对应于所述用户语音的两个或更多个对象来控制所述显示器，以在所述显示器上显示包括关于两个或更多个对象的信息的选择UI，并且

基于通过所述选择UI接收的选择两个或更多个对象当中的一个对象的用户输入，将选择的一个对象识别为对应于用户语音的对象。

9.根据权利要求1所述的电子设备，其中所述处理器被配置为基于包括在获得的文本信息中的代词来获得文本信息，在所述文本信息中，所述代词被改变为被识别为对应于所述用户语音的对象的名称，并且

控制所述显示器在与被识别为对应于所述用户语音的对象相对应的区域上显示包括改变的文本信息的备忘录UI。

10.根据权利要求1所述的电子设备，还包括：

通信器，包括电路，

其中所述处理器被配置为基于包括在获得的文本信息中的预先存储的用户名，控制所述通信器将获得的文本信息发送到对应于所述用户名的用户终端。

11.一种包括显示器的电子设备的控制方法，所述方法包括：

基于接收到用户语音，通过对所述用户语音执行语音识别来获得对应于所述用户语音的文本信息；

从包括在所述图像中的至少一个对象当中识别对应于所述用户语音的对象；以及

在所述显示器上的区域当中的与被识别为对应于所述用户语音的对象相对应的区域上显示包括文本信息的备忘录用户界面(UI)。

12.根据权利要求11所述的方法，其中识别对应于所述用户语音的对象包括：基于关于包括在所述图像中的至少一个对象的信息被包括在获得的文本信息中，将包括在所述图像中的至少一个对象当中的对应于关于所述至少一个对象的信息的对象识别为对应于所述用户语音的对象。

13.根据权利要求11所述的方法，其中识别对应于所述用户语音的对象包括：基于在接收所述用户语音的同时在所述显示器上接收到触摸交互，将与所述显示器上的区域当中的接收到所述触摸交互的区域相对应的对象识别为对应于所述用户语音的对象。

14.根据权利要求13所述的方法，其中识别对应于所述用户语音的对象包括：

在所述显示器上显示所述图像；以及

将显示在所述显示器上的区域当中的接收到所述触摸交互的区域上的对象识别为对应于所述用户语音的对象。

15.根据权利要求13所述的方法，其中获得对应于所述用户语音的文本信息包括：通过对接收到的用户语音当中的在所述显示器上保持触摸交互的同时接收到的用户语音执行语音识别，来获得对应于用户语音的文本信息。