CN108735208B

CN108735208B - 用于提供语音识别服务的电子设备及其方法

Info

Publication number: CN108735208B
Application number: CN201810374054.2A
Authority: CN
Inventors: 潘浙丹; 朴星波; B.马修内扬; 具翰俊
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-04-24
Filing date: 2018-04-24
Publication date: 2023-08-08
Anticipated expiration: 2038-04-24
Also published as: ES2801854T3; EP3396664B1; EP3396664A1; KR102391298B1; KR20180118894A; CN108735208A; US20180308489A1

Abstract

一种电子设备包括麦克风、显示器、通信电路、其中存储有消息应用的存储器、以及与麦克风、显示器、通信电路和存储器电连接的处理器。处理器配置成通过显示器输出消息应用的运行屏幕，通过麦克风获得语音数据，在运行屏幕上显示从语音数据转换的文本，在运行屏幕上显示与基于语音数据的获取时间和文本的长度中的至少一个确定的待机时间关联的指示符，以及当待机时间经过时，通过通信电路将文本发送给外部设备。

Description

用于提供语音识别服务的电子设备及其方法

相关申请的交叉引用

本申请基于2017年4月24日向韩国知识产权局提交的韩国专利申请第10-2017-0052135号，并要求其优先权，该韩国专利申请的公开内容通过引用整体并入本文。

技术领域

本公开一般地涉及语音识别技术和提供该语音识别技术的电子设备。

背景技术

为了方便用户，最近发展的电子设备已经包括各种输入方案。例如，电子设备可以使用语音识别技术来提供语音输入方案。电子设备可以接收通过用户语音生成的语音数据并且可以使用语音识别技术来将接收的语音数据转换为自然语言文本。

转换的文本可以用作各种应用和程序的输入数据。例如，转换的文本可以是要通过消息应用发送的消息，或者转换的文本可以作为输入到网页浏览器的搜索窗口中的搜索查询。

与此同时，已经发展了人工智能系统，其是实施人类-水平(human-level)智能的计算机系统。这些人工智能系统具有学习能力，并且在通过用户使用它们时，它们的智力随时间提升。人工智能技术(例如，机器学习技术或者深度学习技术)可以包括模拟人脑的功能(例如，识别或者确定)的技术。这可以通过使用分类或者学习各种输入数据的特性的算法来完成。

例如，人工智能系统所采用的技术可以包括理解自然语言输入的语言理解技术、识别对象的视觉理解技术、可逻辑地推理和预测信息的推理或预测技术、将人类体验信息作为知识数据进行处理的知识表达技术、和控制车辆和/或机器人的自动驾驶的操作控制技术。应理解的是，语言理解技术可以识别和处理人类语言，并且可以包括自然语言处理、机器翻译、对话系统、查询响应、语音识别/合成等。

以上信息仅作为背景信息呈现以帮助理解本公开。至于以上任何一个是否可应用为关于本公开的现有技术，没有做出确定，并且也没有做出断言。

发明内容

如上所述，语音数据经语音识别所转换的文本可以用作输入数据。然而，有时语音数据可能被错误地转换。在此种情况下，错误地转换的文本可能被用作输入数据。因此，在能将转换的文本用作输入数据之前，用户需要确认转换的文本。

促进(facilitate)此确认的一种方式是提供特定的待机时间段(standby timeperiod)，使得用户可以验证和/或修正转换的文本。

由于用户需要在待机时间段内验证和修正文本，所以用户需要识别该时间段已经开始运行(run)。另外，当没有考虑内容量而提供了设定的时间段时，该时间段可能对于大内容量太短，但是对于小内容量又太长。这也可能导致用户不便。

本公开的各方面要至少解决上述问题和/或缺点，并且要至少提供下述优点。因此，本公开的一方面要提供一种根据用户的语音输入量来提供动态待机时间并且提供用于待机时间的用户界面的电子设备。

根据本公开的一方面，电子设备包括麦克风、显示器、通信电路、其中存储应用的存储器、以及与麦克风、显示器、通信电路和存储器电连接的处理器。所述处理器配置成在显示器上输出应用的运行屏幕，通过麦克风获得语音数据，在运行屏幕上显示从语音数据转换的文本，在运行屏幕上显示与基于语音数据的获取时间和所述文本的长度中的至少一个确定的待机时间关联的指示符，以及当经过了待机时间时，通过通信电路将所述文本发送到外部设备。

根据本公开的另一方面，一种由电子设备执行的方法包括：通过麦克风获得语音数据，在显示器上显示从语音数据转换的文本在显示器上显示与基于语音数据的获取时间和所述文本的长度中的至少一个确定的待机时间关联的指示符，并且当经过了待机时间时，确定要键入的文本。

根据本公开的各种实施例，可以依据用户的语音输入的长度或者内容来提供动态的待机时间。

根据本公开的各种实施例，可以提供对于特定用户定制(customized)的待机时间。

根据本公开的各种实施例，可以提供可视地指示待机时间的用户界面。

另外，可以提供通过此公开直接地或者间接地理解的各种不同的特征和优点。

从以下结合附图、公开了本公开的各种实施例的详细描述中，对于本领域技术人员，本公开的其他方面、优点、和显著特征将变得显而易见。

附图说明

从以下结合附图的描述中，本公开的某些实施例的以上和其他方面、特征、和优点将更加明显，其中：

图1图示了根据实施例的进行语音输入的环境；

图2是图示根据实施例的电子设备的框图；

图3是图示根据本公开的实施例的提供与语音输入关联的待机时间的过程的流程图；

图4是图示根据本公开的另一实施例的提供与语音输入关联的待机时间的过程的流程图；

图5是图示根据本公开的又一实施例的提供与语音输入关联的待机时间的过程的流程图；

图6是图示根据本公开的实施例的修正待机时间的过程的流程图；

图7图示了根据本公开的实施例的用户界面；

图8图示了根据本公开的各种实施例的指示符(indicator)；

图9A-9C图示了根据本公开的实施例的消息应用的运行屏幕；

图10是图示根据又一实施例的提供与语音输入关联的待机时间的过程的流程图；

图11是图示根据实施例的网络环境中的电子设备的框图；

图12是图示根据本公开的实施例的集成智能系统的图；

图13是图示根据本公开的实施例的集成智能系统的用户终端的框图；

图14是图示根据本公开的实施例的当运行用户终端的智能app时的视图；

图15是图示根据本公开的实施例的集成智能系统的智能服务器的框图；和

图16是图示根据本公开的实施例的自然语言理解(NLU)模块的路径规则生成方法的图。

具体实施方式

其后，可以参考附图来描述本公开的各种实施例。因此，本领域的普通技术人员将认识到，在不偏离本公开的范围和精神的情况下，可以对本文描述的各种实施例做出各种修改、等同物、和/或替代。关于附图的描述，可以由相同的附图标记来标记相同的元件。

在本公开中，本文使用的表达“具有”、“可具有”、“包括”、“包含”、“可包括”、和“可包含”指示存在相应的特征(例如，诸如数值、函数、操作、或组件的元件)，但不排除存在附加特征。

在本公开中，表达“A或B”、“A或/和B中的至少一个”、或者“A或/和B中的一个或多个”等可以包括一个或多个关联的列出项目的任意和全部的组合。例如，术语“A或B”、“A和B中的至少一个”、或者“A或B中的至少一个”可以指代以下所有情况：包括至少一个A的情况(1)、包括至少一个B的情况(2)、或者包括至少一个A和至少一个B两者的情况(3)。

本公开中使用的诸如“第一”、“第二”等的术语可以指代相应组件而不暗示(imply)重要性的顺序，并且仅用来将每个组件与其他组件区分开而不过度地限制组件。例如，“第一用户设备”和“第二用户设备”指示无关顺序或优先级的不同用户设备。在其他示例中，在不偏离本公开的范围的情况下，第一元件可以表示为第二元件，并且相似地，第二元件可以表示为第一元件。

将理解的是，当元件(例如，第一元件)表示为“(操作地或者通信地)耦合到/于”或者“连接到”另一元件(例如，第二元件)时，可以直接地耦合到/于或者连接到其他元件，或者可以存在中间元件(例如，第三元件)。相反，当元件(例如，第一元件)表示为“直接地耦合到/于”或者“直接地连接到”另一元件(例如，第二元件)时，应该理解的是，没有中间元件(例如，第三元件)。

根据情形，在本公开中使用的表达“配置成”可以与诸如“适合于”、“具有......的能力”、“设计为”、“适用于”、“用作”、或者“能够”的表达是可互换的。术语“配置成”不一定意味着只在硬件中“特定的设计为”。代而是，表达“配置成......的设备”可以意味着该设备“能够”与另一设备或者其他组件一起操作。例如，“配置成(或者设置为)执行A、B、和C的处理器”可以意味着用于执行相应操作的专用处理器(例如，嵌入式处理器)或者通过运行存储在存储设备中的一个或多个软件程序来执行相应操作的通用处理器(例如，中央处理单元(CPU)或者应用处理器)。

本公开中使用的术语是用来描述指定的实施例，并不旨在限制本公开的范围。除非另有指定，否则单数表达也可以包括相应的复数表达。本文使用的、包括技术或者科学术语的所有术语可以具有本领域技术人员一般理解的相同含义。此外，应该理解的是，当可应用时，应该给出术语它们在相关领域中的上下文含义。在一些情况下，即使在本公开中定义了术语，也可以不将它们解释为排除本公开的实施例。

根据本公开的各种实施例的电子设备可以包括例如智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器、桌面型PC、膝上型PC、上网本计算机、工作站、服务器、个人数字助手(PDA)、便携式多媒体播放器(PMP)、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器、移动医疗设备、照相机、或者可穿戴设备中的至少一个。根据各种实施例，可穿戴设备可以包括附件类型(例如，手表、戒指、手镯、脚链、项链、眼镜、隐形眼镜、或者头戴式设备(HMD)、织物或者衣服-集成类型(例如，电子服装)、身体附着类型(例如，皮肤垫或纹身)、或者生物可植入类型(例如，可植入电路)中的至少一个。

根据各种实施例，电子设备可以是家用电器。家用电器可以包括例如电视(TV)、数字多功能盘(DVD)播放器、音响、冰箱、空调、清洁器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、TV盒(例如，Samsung HomeSync^TM、Apple TV^TM、或者Google TV^TM)、游戏控制台(例如，Xbox^TM或PlayStation^TM)、电子字典、电子钥匙、摄像机、电子相框等中的至少一个。

根据另一实施例，电子设备可以包括各种医疗设备(例如，各种便携式医学测量设备(例如，血糖监测设备、心跳测量设备、血压测量设备、身体温度测量设备等)、磁共振血管造影(MRA)设备、磁共振成像(MRI)设备、计算机断层摄影(CT)设备、扫描仪、和超声波设备)、导航设备、全球导航卫星系统(GNSS)、事件数据记录器(EDR)、飞行数据记录器(FDR)、车辆信息娱乐设备、船只电子器材(例如，导航系统和陀螺罗经)、航空电子设备、安全设备、车辆头部单元、工业或者家庭机器人、自动取款机(ATM)、商店销售点(POS)、或者物联网(例如，灯泡、各种传感器、电气或煤气表、喷淋设备、火警、恒温器、街灯、烤面包机、健身器材、热水箱、加热器、锅炉等)中的至少一个。

根据实施例，电子设备可以包括家具或者建筑物/结构的部件、电子板、电子签名接收设备、投影仪、或者各种测量仪器(例如，水表、电表、气表、或者波表等)中的至少一个。根据各种实施例，电子设备可以是上述设备之一或其组合。根据实施例的电子设备可以是柔性电子设备。此外，根据本公开的实施例的电子设备可以不限于上述电子设备，并且可以根据技术发展而包括其他电子设备和新的电子设备。

其后，将参考附图描述根据各种实施例的电子设备。在本公开中，术语“用户”可以指代使用电子设备的人或者可以指代使用电子设备的设备(例如，人工智能电子设备)。

图1图示了根据实施例的进行语音输入的环境。

参考图1，电子设备100可以从用户50获得语音数据。电子设备100可以将语音数据发送给连接在网络上的外部设备30(例如，服务器等)，并且可以从外部设备30接收从语音数据转换的文本数据。可替代地，电子设备100可以将语音数据转换成文本数据，并且可以将转换的文本数据发送给外部设备30。

因此，电子设备100可以获得用户50的语音作为输入。电子设备100可以对语音执行语音识别，并且可以使用语音识别来获得对应于语音的文本。例如，电子设备100可以通过使用电子设备100中的自动语音识别(ASR)模块来执行语音识别。可替代地，电子设备100可以将获得的语音数据发送给提供ASR功能的外部服务器。然后，电子设备100可以从外部服务器接收转换的文本。

在使用转换的文本执行附加操作或者功能之前，电子设备100可以为用户提供用户界面，以确认转换的文本已被适当地转换。当提供了用户界面时，转换的文本可以不是最终定稿的，而是可以由用户50修正。在说明书中，从显示转换的文本的时刻到最终定稿文本的时刻的时间段(period)可以表示为“待机时间”。

用户50可以确定在待机时间期间是否已经适当地转换文本。在已经适当地转换了文本的情况下，用户50可以确认转换的文本是要用于随后的附加操作的文本。在未适当地转换文本的情况下，例如当语音识别引入了误差时，用户50可以修正文本并且确认修正的文本要用于随后的附加操作。

在实施例中，电子设备100的语音输入功能可以用于消息应用。消息应用可以意味着发送和接收消息的应用。消息可以包括文本消息、电子邮件和即时消息。例如，用户50可以通过使用消息应用来说出要发送的内容。电子设备100可以根据从语音转换的文本生成消息，并且可以将消息发送给外部设备30。在此种情况下，外部设备30可以是接收消息的对方(counterpart)终端，或者可以是外部服务器设备。

在另一实施例中，电子设备100的语音输入功能可以用于网页浏览器。用户50可以说出要键入到网页浏览器中的内容，并且电子设备100可以将从语音转换的文本键入到网页浏览器中。可以将键入的文本发送给网络上的外部设备30。在此种情况下，当外部设备30是搜索引擎服务器时，可以发送文本并且可以执行相应的搜索。在另一示例中，当外部设备30是社交媒体服务器时，可以上传包括键入的文本的帖子(post)。

其后，示例性的实施例使用语音输入用于电子设备100的消息应用。然而，如上所述，本公开不限于此。代替地，电子设备100的语音输入功能可以用于需要文本输入的所有使用情况。

图2是图示根据实施例的电子设备的框图。

参考图2，电子设备100可以包括麦克风110、显示器120、处理器130、通信电路140、和存储器150。

麦克风110可以从用户获得语音输入。例如，麦克风110可以获得用户的语音作为语音输入。为了改善语音输入信号的目的，麦克风110可以执行噪声消除功能。此外，麦克风110可以将语音输入的模拟信号转换为数字信号。可以由处理器130执行信号的转换。转换的数字信号可以用作用于诸如ASR、自然语言处理等的过程的输入。

显示器120可以显示消息应用的运行屏幕和从语音输入转换的文本。而且，显示器120可以显示与待机时间关联的指示符。与待机时间关联的指示符可以是可视地指示待机时间的用户界面项(例如，图标、状态栏等)。用户可以使用指示符可视地识别(identify)待机时间。可以依据待机时间的长度来改变指示符的显示。

处理器130可以与麦克风110、显示器120、通信电路140和存储器150电连接，以便可以在这些组件之间交换信号。处理器130可以控制电子设备100和包括在电子设备100中的元件的整体(overall)操作。处理器130可以包括微处理器或者任何适合类型的处理电路，诸如一个或多个通用处理器(例如，基于ARM的处理器)、数字信号处理器(DSP)、可编程逻辑器件(PLD)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、视频卡控制器等。另外，将认识到，当通用计算机访问用于实施本文示出的处理的代码时，代码的运行将通用计算机转变成用于运行本文示出的处理的专用计算机。附图中提供的任何功能和步骤可以以硬件、软件或者两者的组合实施，并且可以在计算机的编程指令中整体或者部分地执行。

通信电路140可以将数据发送给外部设备并且可以从外部设备接收数据。例如，当经由消息应用向外部设备发送消息时，电子设备100可以使用通信电路140。

在实施例中，存储器150可以存储消息应用，即存储消息应用的程序代码/指令。另外，用于实施各种其他模块/功能的指令可以存储在存储器150中。处理器130可以通过运行存储在存储器150中的指令来实施模块/功能。

图3是图示根据本公开的实施例的用来提供与语音输入关联的待机时间的过程的流程图。可以由图2中示出的电子设备100执行图3的过程。其后，为了便于描述，将参考电子设备100处理用于消息应用的语音输入的方法来描述图3的过程。

根据实施例，电子设备100的处理器130可以通过显示器120输出存储在存储器150中的消息应用的运行屏幕。将参考图9A-9C描述示例性的运行屏幕。

在操作310中，电子设备100的处理器130可以通过麦克风110从用户获得语音数据。例如，当用户50朝向暴露于电子设备100的外部的麦克风110讲话时，可以由麦克风110捕获(capture)语音信号，并且电子设备100可以获得包括语音信号的语音数据。

在操作320中，电子设备100的处理器130可以在运行屏幕上显示从语音数据转换的文本。通过在运行屏幕上显示转换的文本，电子设备100可以允许用户50确认该转换。

在实施例中，电子设备100可以使用ASR模块将用户50的语音信号转换成文本。可替代地，电子设备100可以通过通信电路140向外部服务器发送语音数据。外部服务器可以接收语音数据，并且可以对接收的语音数据执行语音识别以生成文本。然后，外部服务器可以将文本发送给电子设备100。

在操作330中，电子设备100的处理器130可以在消息应用的运行屏幕上显示与待机时间关联的指示符。可以基于语音数据的获取时间和从语音数据转换的文本的长度中的至少一个来确定待机时间的长度。

语音数据的获取时间可以意味着从当语音数据的输入开始时的时间点到当语音输入终止(terminate)时的总时间段。这可以与用户50的总语音时间相同或者成比例。

由于当总语音时间较长时转换的文本的量可能更大，因此电子设备100可以相应地将待机时间的长度确定为更长。例如，当语音时间是5秒时，电子设备100可以确定待机时间是5秒；当语音时间是10秒时，电子设备100可以确定待机时间是10秒。在另一实施例中，当语音时间是4秒时，电子设备100可以提供3秒的待机时间；当语音时间是3秒时，电子设备100可以提供2.25秒的待机时间。

文本的长度可以指包括在转换的文本中的字符的数目。由于用户需要更多时间来检查更大量的文本，因此电子设备100可以将待机时间确定为更长。例如，当转换的文本是60个字符时，电子设备100可以确定待机时间是10秒；当转换的文本是10个字符时，电子设备100可以确定待机时间是3秒。

在另一实施例中，可以基于语音数据的获取时间和文本长度两者来确定待机时间。例如，当用户50的语音速度慢时，即使说出的字符的数目可能较少，但是语音时间也会较长。因此，考虑到这两个因素，电子设备100可以基于每小时生成的说出的字符的数目来确定待机时间。

在另一实施例中，可以基于语音内容来确定待机时间。例如，当语音内容中重复了相同字符时，尽管文本的长度和语音数据的获取时间相对较长，但是电子设备100也可以确定待机时间相对较短。因此，电子设备100可以基于文本的长度和语音时间；语音数据的获取时间和语音内容等来确定待机时间。

在操作340中，电子设备100的处理器130可以确定是否已经过了所确定的待机时间。当经过了待机时间时，在操作350中，电子设备100的处理器130在运行消息应用时可以通过通信电路140向外部设备发送转换的文本。因此，当经过了待机时间时，电子设备100可以假定用户50已经完成了转换的文本的确认或者修正。

图4是图示根据本公开的另一实施例的用来提供与语音输入关联的待机时间的过程的流程图。可以由图2中图示的电子设备100执行图4的过程。

操作410到操作430可以对应于图3中描述的操作310到操作330。其后，省略其重复的描述。

在操作440中，电子设备100的处理器130可以改变显示的指示符。下面将参考图7和图8描述示例性的指示符。

在实施例中，电子设备100的处理器130可以依据确定的待机时间的长度来改变指示符。例如，当从用户50获得语音数据时，处理器130可以实时地确定待机时间，并且可以依据确定的待机时间来改变指示符。

因此，可以改变指示符以指示待机时间的长度，并且指示符可以向用户50提供待机时间的可视指示。例如，随着语音时间增加或者随着转换的文本的长度的增加，可以将待机时间确定为更长。用户50可以通过指示符看到确定的待机时间的长度。下面将参考图7中的710a来描述其示例。

在操作450中，电子设备100的处理器130可以确定是否经过了所确定的待机时间。

在待机时间未经过的情况下，在操作440中，随着确定的待机时间经过，电子设备100的处理器130可以改变指示符。因此，电子设备100的处理器130可以通过指示符来可视地提供关于剩余待机时间的信息。

在实施例中，当用户50的语音终止时，电子设备100可以终止语音数据的获取，并且确定待机时间的长度。然后开始运行待机时间。当经过了确定的待机时间时，电子设备100可以改变指示符以便向用户50可视地发送关于剩余待机时间的信息。下面将参考图7中的710c来描述其示例。

在实施例中，当经过了确定的待机时间时，用户50可以确认或者修正转换的文本。用户50可以通过指示符看到剩余的待机时间并且可以在待机时间内确认或修正转换的文本。

另外，当经过了确定的待机时间时，在接收到与转换的文本关联的修正输入时，电子设备100的处理器130可以响应地修正转换的文本。尽管未示出这样的文本修正操作，但是可以在操作440和操作450之间执行文本修正操作。

在操作450中经过了待机时间的情况下，在操作460中可以将文本发送给外部设备。在修正了文本的情况下，可以将修正的文本发送给外部设备；在未修正文本的情况下，可以将从语音数据转换的文本发送给外部设备。

图5是图示根据本公开的又一实施例的用来提供与语音输入关联的待机时间的过程的流程图。可以由图2中图示的电子设备100执行图5的过程。

在操作510中，电子设备100的处理器130可以获得语音数据并且可以确定待机时间。例如，待机时间可以是在语音数据的获取终止之前的最后计算的待机时间，或者可以随着接收到语音数据而实时地计算待机时间。因此，可以在语音数据的获取终止之后修正待机时间的长度，或者可以实时地计算待机时间的长度。

在操作520和操作530中，电子设备100的处理器130可以在经过了待机时间时分别感测第一事件和第二事件的发生。

第一事件可以指由用户50确认了要键入的文本的事件。要键入的文本可以是从语音数据转换的文本，或者可以是由用户50修正的文本。在实施例中，当在经过了待机时间之前发生第一事件时，电子设备100的处理器130可以将确定的文本发送给外部设备。

电子设备100可以向用户50提供用于生成第一事件的界面，并且用户50可以通过该界面生成第一事件。在经过了确定的待机时间之前，用户50可以完成对从语音转换的文本的确认和修正。在此种情况下，用户50可以最终确定(finalize)要键入的文本，并且可以通过生成第一事件向外部设备发送要键入的文本。

第二事件可以指暂停待机时间的事件。在实施例中，当在经过了确定的待机时间之前发生第二事件时，电子设备100的处理器130可以暂停待机时间。

电子设备100可以向用户50提供用于生成第二事件的界面，并且用户50可以通过该界面生成第二事件。在用来确认和修正文本所花费的时间多于待机时间的情况下，用户50可以暂停待机时间。如此，用户50可以延迟要键入的文本的确认。

在实施例中，第一事件的发生记录和第二事件的发生记录可以存储在电子设备100的存储器150中。当确定了后续待机时间的长度时，可以使用第一事件的发生记录和第二事件的发生记录。下面将参考图6来描述其细节。

当第一事件发生时，在操作522中，电子设备100的处理器130可以将与第一事件关联的数据存储在第一事件的发生记录中。

在操作524中，电子设备100的处理器130可以将确认的要键入的文本发送给外部设备。

当第二事件发生时，在操作532中，电子设备100的处理器130可以将与第二事件关联的数据存储在第二事件的发生记录中；在操作534中，电子设备100的处理器130可以暂停待机时间。当暂停了待机时间时，用户50可以确认或修正转换的文本。

在操作536中，可以释放待机时间的暂停。例如，用户50可以通过特殊的(particular)用户界面直接地释放该暂停，或者电子设备100可以在预定的时间段之后自动地释放该暂停。

当释放了暂停时，在操作538中，电子设备100的处理器130可以将所确定的要键入的文本发送给外部设备。

图6是图示根据本公开的实施例的用来修正待机时间的过程的流程图。可以由图2中图示的电子设备100来执行图6的过程。

操作610可以对应于图5中图示的操作510。省略其重复的描述。

当确定了待机时间时，在操作620a中，电子设备100的处理器130可以通过使用第一事件的发生记录来减少确定的待机时间。

在操作620b中，电子设备100的处理器130可以通过使用第二事件的发生记录来增加确定的待机时间。第一事件发生记录和第二事件发生记录可以存储在电子设备100的存储器150中。

当用户50在先前确定的待机时间到期(expiration)之前完成了转换的文本的确认和修正时，第一事件发生。如此，当用户50频繁地生成第一事件时，可以确定先前的待机时间太长。因此，电子设备100可以基于第一事件发生记录来减少当前待机时间的长度。

当用户50需要比先前确定的待机时间更多的时间来确认和修正转换的文本时，发生第二事件。如此，当用户50频繁地生成第二事件时，可以确定先前的待机时间太短。因此，电子设备100可以基于第二事件发生记录来增加当前待机时间的长度。

因此，电子设备100可以存储第一事件发生记录和第二事件发生记录，并且可以基于第一事件发生记录和第二事件发生记录来修改后续的待机时间，并且然后可以向用户50提供修改和定制的待机时间。

换句话说，当获得了下一语音输入时，电子设备100可以基于存储的第一事件发生记录和第二事件发生记录来修改待机时间。如此，电子设备100可以将待机时间训练为定制于特定用户50。

图7图示了根据本公开的实施例的用户界面。具体地，图示了根据本公开的实施例的发送和接收即时消息的消息应用的用户界面。

参考图7，用户界面可以包括与待机时间关联的指示符710a、710b、和710c以及文本区域720。可以在电子设备100的显示器120(例如，在消息应用的运行屏幕上)上显示用户界面。

可以将根据实施例的指示符描述为：划分成从用户50接收语音数据开始时的时间点(“a”时间点)、从用户50接收语音数据完成时的时间点(“b”时间点)、和在完成了待机时间的长度的确定之后的时间点(“c”时间点)。

在“a”时间点获得了语音数据时，可以依据确定的待机时间的长度来改变指示符710a。

在实施例中，指示符710a可以包括多个图标，并且图标的数目可以与确定的待机时间成比例。例如，电子设备100的处理器130可以在运行屏幕上显示其数目与确定的待机时间的长度成比例的图标。

图示的指示符710a可以包括多个圆形图标。随着语音内容增加，例如，“hi”→“hithere”→“hi there how”→“hi there how are you？”，待机时间增加。因此，指示符710a可以包括增加地更多数目的圆形图标。用户50可以可视地看到确定的待机时间的长度正在增加。

在“b”时间点，指示符710b可以是当语音数据的接收终止时的时间点处的指示符。当待机时间的长度被确定并且不再根据输入的语音数据而改变时，可以在显示器120上显示示出确定的待机时间的指示符710b。

在“c”时间点，在经过了确定的待机时间时，可以依据剩余的待机时间来改变指示符710c。

在实施例中，指示符710c可以包括多个图标，并且图标的数目可以与剩余的待机时间成比例。例如，电子设备100的处理器130可以在运行屏幕上显示其数目随着待机时间的经过而减少的图标。

图示的指示符710c可以包括多个圆形图标。由于剩余的待机时间随着待机时间的经过而减少，因此指示符710c中包括的圆形图标的数目可能减少。当待机时间完全经过时，圆形图标的数目可以是零，并且可以将显示在文本区域720中的文本“hi there how areyou？”发送给对方终端。

在实施例中，“c”时间点处的用户界面可以进一步包括发送按钮730c。在待机时间完全经过之前，用户50可以使用发送按钮730c发送文本区域720上显示的文本。即，先于待机时间的经过，用户可以将文本区域720的文本确认为要键入的文本。例如，当用户50按下发送按钮730c时，电子设备100的处理器130可以感测上面结合图5-6描述的第一事件的发生，并且可以将文本发送给对方终端。

图8图示了根据本公开的各种实施例的指示符。

参考图8，可以依据从用户50获得语音数据时确定的待机时间来改变指示符。如图8中所示，随着待机时间增加，可以按照由向下的箭头指示的进程(progression)改变指示符。

根据本公开的一个实施例，随着待机时间的长度增加，可以增加指示符800a的同心圆的数目。在其他实施例中，随着待机时间增加，指示符800b和指示符800c中的每个中包括的圆形图标可以填充(fill)有区分的颜色。在又一实施例中，随着待机时间增加，可以增加指示符800d的三角形的数目，并且可以延长指示符800f的螺旋。

当完成了待机时间的确定时，然后开始运行待机时间，并且长度减少。在发生上述情况时，指示符800a至800f中的每个按照由向上的箭头指示的方向改变。

因此，用户50可以通过指示符800a-800f可视地看到待机时间如何增加和减少。用户50可以看到待机时间增加多少，并且可以调整语音输入的量。此外，当用户50看到待机时间正在减少时，他或者她可以抓紧(hurry)确认或者修正转换的文本，或者可以暂停待机时间。

图9A-9C图示了根据本公开的实施例的消息应用的运行屏幕。具体地，图示了根据本公开的实施例的发送和接收即时消息的消息应用的运行屏幕。

参考图9A-9C，作为一个示例，描述了在消息应用中进行语音输入的场景。

在屏幕“a”中，用户50接收来自对方说的“Hi,Let’s go out tonight.”的消息。用户50然后希望使用语音输入来输入响应。例如，用户50可以说“where to go？”。电子设备100可以在用户50讲话时获得语音数据。在语音进行(proceed)时，可以实时地确定待机时间的长度，并且可以依据确定的待机时间的长度来改变指示符920a。可以将说出的语音转换成文本并且可以在文本区域930a中显示该文本。

在屏幕“b”中，可以终止用户50的讲话，并且可以完成待机时间长度的确定。指示符920b可以随着确定的待机时间经过而改变。

在实施例中，用户50可以使得在待机时间经过之前显示的文本被发送给对方终端。在此种情况下，电子设备100可以感测到上述第一事件的发生。

例如，电子设备100的处理器130可以在消息应用的运行屏幕上显示第一图标。当输入了与第一图标关联的触摸手势时，电子设备100的处理器130可以感测到第一事件的发生。

在屏幕“b”示例中，图标940b可以是第一图标。用户50可以在待机时间经过之前触摸图标940b，以将文本区域930b中的显示的文本发送给对方终端。当完成传输时，如屏幕“c”中所示，可以在运行屏幕中显示所发送的文本950c。

在另一示例中，当输入了预定的语音数据时，电子设备100的处理器130可以感测到第一事件的发生。

在屏幕“b”中，用户50可以发出(utter)用于发送文本的预定的句子(910b)。当获得了与预定的文本对应的语音数据时，可以将该语音数据确定为文本传输命令。因此，电子设备100可以将显示的文本发送给对方终端。

在实施例中，在待机时间经过之前，用户50可以暂停待机时间。在此种情况下，电子设备100可以感测到图5中描述的第二事件的发生。

例如，当输入了与显示的文本区域930b关联的触摸手势时，电子设备100的处理器130可以感测到第二事件的发生。

在另一示例中，当输入了另一预定的语音数据时，电子设备100的处理器130可以感测到第二事件的发生。可以将对应于预定的文本的语音数据确定为暂停待机时间的命令。对应于用来暂停待机时间的命令的语音数据可以与对应于传输命令的语音数据不同。

在又一示例中，电子设备100的处理器130可以在运行屏幕上显示与第一图标不同的第二图标(未示出)。当输入了与第二图标关联的触摸手势时，电子设备100的处理器130可以感测到第二事件的发生。

在实施例中，当待机时间经过时，用户50可以修正转换的文本。例如，当输入了与运行屏幕上显示的文本区域930b关联的触摸手势时，电子设备100的处理器130可以等待与显示的文本关联的修正输入。

在屏幕“b”中，用户50可以在待机时间期间看到文本区域930b，并且可以看到他或她的语音输入被错误地转换为“where do go？”。出于修正该文本的目的，用户50可以触摸其中显示了“where do go？”的文本区域930b。用户50然后可以将“where do go？”修正成“where to go？”。在屏幕“c”中，然后可以发送“where to go？”。

在实施例中，当待机时间经过时，用户50可以取消文本输入。例如，电子设备100的处理器130可以在执行屏幕上显示第三图标。当输入了与第三图标关联的触摸手势时，电子设备100的处理器130可以取消转换的文本的输入。

尽管未示出第三图标，但是运行屏幕可以包括用于取消文本输入的第三图标。例如，用户50可以通过触摸第三图标来取消文本输入。

图10是图示根据又一实施例的用来提供与语音输入关联的待机时间的过程的流程图。可以由图2中图示的电子设备100执行图10的过程。

操作1010到操作1050可以对应于图3中的操作310到操作350。此外，该方法可以应用于需要文本输入的所有应用程序。

在实施例中，当在操作1010中从用户50获得语音数据时，在操作1020中，电子设备100可以在显示器120中显示从语音数据转换的文本。例如，可以在诸如消息应用的应用程序的运行屏幕上显示转换的文本。在实施例中，在操作1030中，电子设备100可以在显示器120中显示与基于转换的文本确定的待机时间关联的指示符。在操作1040中，电子设备100可以确定待机时间是否经过。当待机时间经过了时，在操作1050中，电子设备100可以确定要键入的文本。

在操作1050中，电子设备100可以确定要键入到应用程序中的文本。例如，要键入的文本可以是从语音数据转换的文本，或者可以是从转换的文本修正的文本。

在另一实施例中，电子设备100可以通过使用预存储的数据来修改确定的待机时间。如以上图6中描述的，电子设备100可以修改确定的待机时间，以便为特定用户50进行定制。例如，当用户50在待机时间经过之前确定要键入的文本或者当用户50暂停待机时间时，可以将这些事件记录并且存储为数据。

电子设备100也可以暂时地确定待机时间的长度，并且然后通过使用预存储的数据来修改待机时间。例如，预存储的数据可以包括第一事件发生记录和第二事件发生记录，如上面结合图5-6所描述的。如此，电子设备100可以为个别(individual)的用户定制待机时间。

图11是图示根据实施例的网络环境1100中的电子设备1101的框图。根据本公开中公开的一个实施例，电子设备1101可以包括各种类型的设备。例如，电子设备1101可以包括便携式通信设备(例如，智能电话)、计算机设备(例如，个人数字助手(PDA)、平板个人计算机(PC)、膝上型PC、桌面型PC、工作站、或者服务器)、便携式多媒体设备(例如，电子书阅读器或者MP3播放器)、便携式医疗设备(例如，心率、血糖、血压、或者温度计)、相机或者可穿戴设备中的至少一个。可穿戴设备可以包括附件类型的设备(例如，钟表、戒指、手镯、脚链、项链、眼镜、隐形眼镜、或者头戴式设备(HMD))、单件式织物或衣服类型的设备(例如，电子衣服)、身体附着类型的设备(例如，皮肤垫或者纹身)、或者生物可植入电路中的至少一个。根据实施例，例如，电子设备可以包括例如电视(TV)、数字多功能盘(DVD)播放器、音频设备、音频附件设备(例如，扬声器、耳机、或者听筒)、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、空气清洁器、机顶盒、家庭自动化控制面板、安全控制面板、游戏机、电子词典、电子钥匙、摄像机、或电子相框中的至少一个。

根据另一实施例，电子设备可以包括导航设备、全球导航卫星系统(GNSS)、事件数据记录器(EDR)(例如，汽车、船舶、或者飞机的黑匣子)、车辆信息娱乐设备(例如，车辆的平视显示器)、工业或家庭机器人、无人机、自动取款机(ATM)、销售点(POS)设备、测量设备(例如水表、电表、或者煤气表)、或者物联网(例如，灯泡、喷水装置、火警、恒温器、或者路灯)中的至少一个。根据本公开的实施例，电子设备不限于以上描述的设备。例如，类似于具有测量个人生物信息(例如，心率或者血糖)功能的智能电话，电子设备可以以复杂的方式提供多个设备的功能。在本公开中，本文使用的术语“用户”可以表示使用电子设备的人或者可以指代使用电子设备的设备(例如，人工智能电子设备)。

参考图11，在网络环境1100中，电子设备1101(例如，图2的电子设备100)可以通过第一网络1198与电子设备1102通信，或者可以通过网络1199与电子设备1104或者服务器1108通信。根据实施例，电子设备1101可以通过服务器1108与电子设备1104通信。

根据实施例，电子设备1101可以包括总线1110、处理器1120(例如，图2的处理器130)、存储器1130、输入设备1150(例如，麦克风或者鼠标)、显示器1160、音频模块1170、传感器模块1176、接口1177、触觉模块1179、相机模块1180、功率管理模块1188、电池1189、通信模块1190、和订户识别模块1196。根据实施例，电子设备1101可以不包括上述元件中的至少一个(例如，显示器1160或者相机模块1180)，或者可以进一步包括(多个)其他元件。

例如，总线1110可以互连上述元件1120至1190，并且可以包括用于在上述元件之间传递(convey)信号(例如，控制消息或者数据)的电路。

处理器1120可以包括中央处理单元(CPU)、应用处理器(AP)、图形处理单元(GPU)、相机的图像信号处理器(ISP)或通信处理器(CP)中的一个或多个。根据实施例，可以利用片上系统(SoC)或者系统级封装(SiP)来实施处理器1120。例如，处理器1120可以驱动操作系统(OS)或应用来控制与处理器1120连接的另一元件(例如，硬件或者软件元件)中的至少一个，并且可以处理和计算(compute)各种数据。处理器1120可以将从其他元件(例如，通信模块1190)中的至少一个接收的命令或者数据加载到易失性存储器1132中以处理命令或者数据，并且可以将处理结果数据存储到非易失性存储器中1134。

例如，存储器1130可以包括易失性存储器1132或者非易失性存储器1134。例如，易失性存储器1132可以包括随机存取存储器(RAM)(例如，动态RAM(DRAM)、静态RAM(SRAM)、或者同步动态RAM(SDRAM))。例如，非易失性存储器1134可以包括一次性可编程只读存储器(OTPROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、掩模ROM、闪存ROM、闪存、硬盘驱动、或者固态驱动(SSD)。另外，根据与电子设备1101的连接，非易失性存储器1134可以以内部存储器1136的形式来配置、或者仅在必要时以通过连接可用的外部存储器1138的形式来配置。外部存储器1138可以进一步包括诸如紧凑型闪存(CF)、安全数字(SD)、微型安全数字(Micro-SD)、迷你安全数字(Mini-SD)、极限数字(xD)、多媒体卡(MMC)、或者记忆棒的闪存驱动器。外部存储器1138可以以有线的方式(例如，缆缆或者通用串行总线(USB))或者无线(例如，蓝牙)的方式操作地或者物理地与电子设备1101连接。

例如，存储器1130可以存储例如电子设备1101的至少一个不同的软件元件，诸如与程序1140关联的指令或者数据。例如，程序1140可以包括核1141、库1143、应用框架1145或者应用程序(可互换地，“应用”)1147。

输入设备1150可以包括麦克风、鼠标、或者键盘。根据实施例，键盘可以包括物理地连接的键盘或者通过显示器1160虚拟地显示的键盘。

显示器1160可以包括显示器、全息设备或者投影仪、和用来控制相关设备的控制电路。例如，屏幕可以包括液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、微机电系统(MEMS)显示器、或者电子纸显示器。根据实施例，可以柔性地、透明地、或者可穿戴地实施显示器。显示器可以包括能够检测用户的输入(诸如手势输入、接近输入、或者悬停输入)的触摸电路，或者能够测量触摸压力的强度的压力传感器(可互换地，力传感器)。触摸电路或者压力传感器可以与显示器集成地实施，或者可以使用分离于显示器的至少一个传感器来实施。全息设备可以使用光的干涉在空间中显示立体图像。投影仪可以将光投影到屏幕上以显示图像。屏幕可以位于电子设备1101内部或者外部。

例如，音频模块1170可以将声音转换成电信号或者将电信号转换成声音。根据实施例，音频模块1170可以通过输入设备1150(例如，麦克风)获取声音，或者可以通过包括在电子设备1101、外部电子设备(例如，电子设备1102(例如，无线扬声器或者无线耳机))或者与电子设备1101连接的电子设备1106(例如，有线扬声器或者有线耳机)中的输出设备(未示出)(例如，扬声器或者接收器)输出声音。

例如，传感器模块1176可以测量或者检测电子设备1101的内部操作状态(例如，功率或者温度)或者外部环境状态(例如，高度、湿度、或者亮度)，以生成对应于测量的状态或者检测的状态的信息的电信号或者数据值。例如，传感器模块1176可以包括手势传感器、陀螺仪传感器、大气压力传感器、磁传感器、加速度传感器、抓握传感器、接近传感器、颜色传感器(例如，红色、绿色、蓝色(RGB)传感器)、红外传感器、生物传感器(例如，虹膜传感器、指纹传感器、心率监测(HRM)传感器、电子鼻传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、温度传感器、湿度传感器、照度传感器、或者UV传感器中的至少一个。传感器模块1176还可以包括用于控制其中所包括的至少一个或多个传感器的控制电路。根据实施例，电子设备1101可以通过使用处理器1120或者与处理器1120分开的处理器(例如，传感器集线器)来控制传感器模块1176。在使用分开的处理器(例如，传感器集线器)的情况下，当处理器1120处于睡眠状态时，电子设备1101可以通过分开的处理器的操作来控制传感器模块1176的至少一部分的操作或者状态，而无需唤醒处理器1120。

根据实施例，接口1177可以包括高清晰度多媒体接口(HDMI)、通用串行总线(USB)、光学接口、推荐标准232(RS-232)、D-超小型(D-sub)、移动高清链路(MHL)接口、SD卡/MMC接口、或者音频接口。连接器1178可以物理地连接电子设备1101和电子设备1106。根据实施例，例如，连接器1178可以包括USB连接器、SD卡/MMC连接器、或者音频连接器(例如，耳机连接器)。

触觉模块1179可以将电信号转换为机械刺激(例如，振动或者运动)或者转换为电刺激。例如，触觉模块1179可以向用户施加触觉(tactile)或者动觉(kinesthetic)刺激。例如，触觉模块1179可以包括马达、压电元件、或者电刺激器。

例如，相机模块1180可以捕捉静止图像和运动图像。根据实施例，相机模块1180可以包括至少一个镜头(例如，广角镜头和长焦镜头、或者前镜头和后镜头)、图像传感器、图像信号处理器、或者闪光灯(例如，发光二极管或者氙灯)。

用来管理电子设备1101的功率的功率管理模块1188可以构成功率管理集成电路(PMIC)的至少一部分。

电池1189可以包括主电池、辅助电池、或者燃料电池，并且可以由外部电源再充电以对电子设备1101的至少一个元件供电。

通信模块1190可以建立电子设备1101与外部设备(例如，电子设备1102、电子设备1104、或者服务器1108)之间的通信信道。通信模块1190可以通过建立的通信信道来支持有线通信或者无线通信。根据实施例，通信模块1190可以包括无线通信模块1192或者有线通信模块1194。通过无线通信模块1192或者有线通信模块1194之中的相关模块，通信模块1190可以通过第一网络1198(例如，无线局域网，诸如蓝牙或者红外数据关联(IrDA))或者网络1199(例如，无线广域网，诸如蜂窝网络)与外部设备通信。

例如，无线通信模块1192可以支持蜂窝通信、本地无线通信、和全球导航卫星系统(GNSS)通信。例如，蜂窝通信可以包括长期演进(LTE)、高级LTE(LTE-A)、码分多址(CMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带WiBro)、或者全球移动通信系统(GSM)。本地无线通信可以包括无线保真(Wi-Fi)、Wi-Fi Direct、光保真(Li-Fi)、蓝牙、蓝牙低功耗(BLE)、Zigbee、近场通信(NFC)、磁安全传输(MST)、射频(RF)、或者体域网(BAN)。GNSS可以包括全球定位系统(GPS)、全球导航卫星系统(Glonass)、北斗导航卫星系统(北斗)、欧洲全球卫星导航系统(伽利略)等中的至少一个。在本公开中，可以可互换地使用“GPS”和“GNSS”。

根据实施例，当无线通信模块1192支持蜂窝通信时，例如，无线通信模块1192可以使用订户识别模块(例如，SIM卡)1196来识别或者认证通信网络内的电子设备1101。根据实施例，无线通信模块1192可以包括与处理器1120(例如，应用处理器(AP))分开的通信处理器(CP)。在此种情况下，通信处理器可以在处理器1120处于非活跃(睡眠)状态时执行与电子设备1101的元件1110至1196中的至少一个关联的至少部分功能以替代处理器1120，并且在处理器1120处于活跃状态时与处理器1120一起执行上述功能。根据实施例，无线通信模块1192可以包括多个通信模块，每个通信模块只支持蜂窝通信、短程无线通信、或者GNSS通信方案中的相关通信方案。

例如，有线通信模块1194可以包括包括局域网(LAN)服务、功率线通信、或者普通老式电话服务(POTS)。

例如，第一网络1198可以采用例如Wi-Fi direct或者蓝牙用于通过电子设备1101和电子设备1102之间的无线直接连接来发送或者接收指令或者数据。网络1199可以包括用于在电子设备1101和电子设备1104之间发送或者接收指令或者数据的电信网络(例如，诸如LAN或者WAN的计算机网络、因特网或者电话网络)。

根据实施例，可以通过与第二网络连接的服务器1108在电子设备1101和电子设备1104之间发送或者接收指令或者数据。外部的电子设备1102和1104中的每个可以是类型与电子设备1101的类型不同或者相同的设备。根据各种实施例，可以通过另一个或者多个电子设备(例如，电子设备1102和1104或者服务器1108)来运行电子设备1101将执行的全部或者部分操作。根据实施例，在电子设备1101自动地或者响应于请求地运行任何功能或服务的情况下，电子设备1101可以不内部地执行功能或者服务，而是可以替代地或者附加地将对于与电子设备1101关联的至少一部分功能的请求发送给任何其他设备(例如，电子设备1102或者1104或者服务器1108)。其他电子设备(例如，电子设备1102或者1104或者服务器1108)可以运行请求的功能或者附加的功能，并且可以将运行结果发送给电子设备1101。电子设备1101可以使用接收的结果来提供请求的功能或者服务，或者可以附加地处理接收的结果以提供请求的功能或者服务。为此，例如，可以使用云计算、分布式计算、或者客户端-服务器计算。

图12是图示根据本公开的实施例的集成智能系统的图。

参考图12，集成智能系统1000可以包括用户终端1200(例如，图1的电子设备)、智能服务器1300、个人信息服务器1400、或者建议服务器1500。

用户终端1200可以经由存储在用户终端1200中的app或者应用程序(诸如，警报app、消息app、图片(图库)app等)为用户提供服务。例如，用户终端1200可以将某app与存储在用户终端1200中的智能app或者语音识别app一起运行和操作。可以接收用于启动和操作app的用户输入。例如，可以通过物理按钮、触摸板、语音输入、远程输入等来接收用户输入。根据实施例，诸如移动电话、智能电话、个人数字助手(PDA)、笔记本电脑等的各种类型的联网设备可以是用户终端1200。

根据实施例，用户终端1200可以接收用户语音作为用户输入。用户终端1200可以接收用户语音并且可以基于用户语音生成用于操作app的指令。如此，用户终端1200可以通过使用从用户语音生成的指令来操作app。

智能服务器1300可以从通信网络上的用户终端1200接收用户的语音输入，并且可以将语音输入转换为文本数据。在另一实施例中，智能服务器1300可以基于文本数据生成或者选择路径规则。路径规则可以包括关于用于执行app的功能的动作(例如，操作或者任务)的信息或者关于执行该动作所必要的参数的信息。另外，路径规则可以包括在app中要执行的动作的顺序。用户终端1200可以接收路径规则，可以依据路径规则来选择app，并且可以在选择的app中运行包括在路径规则中的(多个)动作。

用户终端1200可以运行(多个)动作并且可以显示与运行的动作对应的屏幕。可替代地，用户终端1200可以运行该动作，并且可以不显示通过运行该动作获得的结果。例如，用户终端1200可以运行多个动作并且可以只显示一些动作的结果。在另一示例中，用户终端1200可以只在显示器中显示最后动作的结果。并且在又一示例中，用户终端1200可以只在接收到用来显示结果的用户输入之后才显示结果。

个人信息服务器1400可以包括其中存储用户信息的数据库。例如，个人信息服务器1400可以从用户终端1200接收用户信息(例如，上下文信息、关于app的运行的信息等)，并且可以在数据库中存储用户信息。智能服务器1300可以在通信网络上从个人信息服务器1400接收用户信息，并且可以基于用户信息来生成与用户输入关联的路径规则。根据实施例，用户终端1200可以在通信网络上从个人信息服务器1400接收用户信息，并且可以使用用户信息作为用于管理数据库的信息。

建议服务器1500可以包括存储关于终端中的功能的信息、应用的信息、或者要提供的功能的信息的数据库。例如，建议服务器1500可以包括与用户通过从个人信息服务器1400接收用户终端1200的用户信息来利用的功能关联的数据库。用户终端1200可以在通信网络上从建议服务器1500接收关于要提供的功能的信息，并且可以向用户提供该信息。

图13是图示根据本公开的实施例的集成智能系统的用户终端的框图。

参考图13，用户终端1200可以包括输入模块1210、显示器1220、扬声器1230、存储器1240、或者处理器1250。用户终端1200可以进一步包括外壳，并且用户终端1200的元件可以安置(seat)在外壳中或者可以放置(positioned)在外壳上。

根据实施例，输入模块1210可以从用户接收用户输入。例如，输入模块1210可以从连接的外部设备(例如，键盘或者耳机)接收用户输入。在另一示例中，输入模块1210可以包括耦接到显示器1220的触摸屏(例如，触摸屏显示器)。在又一示例中，输入模块1210可以包括布置(disposed)在用户终端1200(或者用户终端1200的外壳)中的一个或多个硬件或者物理按键。

根据实施例，输入模块1210可以包括能够接收用户语音并且将语音转换为语音信号的麦克风。例如，输入模块1210可以包括语音输入系统，并且可以通过语音输入系统来接收用户的语音作为语音信号。

根据实施例，显示器1220可以显示图像、视频、和/或应用的运行屏幕。例如，显示器1220可以显示app的图形用户界面(GUI)。

根据实施例，扬声器1230可以输出语音信号。例如，扬声器1230可以输出在用户终端1200中生成的语音信号。

根据实施例，存储器1240可以存储多个app 1241和1243。可以依据用户输入来选择、启动、并且指令存储在存储器1240中的多个app 1241和1243以执行动作。

根据实施例，存储器1240可以包括能够存储用于识别用户输入所必要的信息的数据库。例如，存储器1240可以包括能够存储日志信息的日志数据库。又例如，存储器1240可以包括能够存储用户信息的个人数据库。

根据实施例，存储器1240可以存储多个app 1241和1243，并且可以加载多个app1241和1243以运行。例如，可以由处理器1250的运行管理器模块1253加载存储在存储器1240中的多个app 1241和1243，以便运行该多个app 1241和1243。多个app 1241和1243可以包括执行1241b和1243b的功能或者多个动作(或者下面结合图16描述的单元动作)的运行服务1241a和1243a。可以由处理器1250的运行管理器模块1253生成运行服务1241a和1243a，并且然后可以运行多个动作1241b和1243b。

根据实施例，当运行app 1241和1243的动作1241b和1243b时，可以在显示器1220中显示根据动作1241b和1243b的运行的运行状态屏幕。例如，运行状态屏幕可以显示完成了动作1241b和1243b。在另一示例中，运行状态屏幕可以示出动作1241b和1243b的部分完成，例如，当尚未输入用于动作1241b和1243b所必要的参数时。

根据实施例，运行服务1241a和1243a可以依据路径规则来运行动作1241b和1243b。例如，运行服务1241a和1243a可以由运行管理器模块1253激活，可以依据路径规则来从运行管理器模块1253接收运行请求，并且可以依据运行请求来运行app 1241和1243的动作1241b和1243b。当完成了动作1241b和1243b的运行时，运行服务1241a和1243a可以将完成信息发送给运行管理器模块1253。

根据实施例，在app 1241和1243中分别运行多个动作1241b和1243b的情况下，可以顺序地运行多个动作1241b和1243b。当完成了一个动作(动作1)的运行时，运行服务1241a和1243a可以开启下一个动作(动作2)，并且可以将完成信息发送给运行管理器模块1253。此处，理解的是，开启特定的动作是将动作的状态改变为可运行的状态或者准备动作的运行。换句话说，当动作未被开启时，可以不运行该动作。当接收到完成信息时，运行管理器模块1253可以将下一个动作1241b和1243b(例如，动作2)的运行请求发送给运行服务1241a和1243a。根据实施例，在运行了多个app 1241和1243的情况下，可以顺序地运行多个app 1241和1243。例如，当在运行了第一app 1241的最后动作的运行之后接收到完成信息时，运行管理器模块1253可以将第二app 1243的第一动作的运行请求发送给运行服务1243a。

根据实施例，在app 1241和1243中运行多个动作1241b和1243b的情况下，可以在显示器1220中显示运行的多个动作1241b和1243b中的每一个的结果屏幕。根据另一实施例，可以在显示器1220中只显示运行的多个动作1241b和1243b中的一些的结果屏幕。

根据实施例，存储器1240可以存储结合智能代理1251操作的智能app(例如，语音识别app)。结合智能代理1251操作的app可以接收用户的语音并将其处理为语音信号。根据实施例，可以由通过输入模块1210输入的特定输入(例如，通过硬件按键的输入、通过触摸屏的输入、或者特定语音输入)来操作结合智能代理1251操作的app。

根据实施例，处理器1250可以控制用户终端1200的整体操作。例如，处理器1250可以控制输入模块1210接收用户输入。处理器1250可以控制显示器1220显示图像。处理器1250可以控制扬声器1230输出语音信号。处理器1250可以控制存储器1240读取或者存储信息。

根据实施例，处理器1250可以包括智能代理1251、运行管理器模块1253、或者智能服务模块1255。在实施例中，处理器1250可以通过运行存储在存储器1240中的相应指令来驱动智能代理1251、运行管理器模块1253、或者智能服务模块1255。可以由硬件或者软件来实施本公开的各种实施例中描述的模块。在本公开的各种实施例中，应理解的是，由智能代理1251、运行管理器模块1253、或者智能服务模块1255运行的动作是由处理器1250运行的动作。

根据实施例，智能代理1251可以基于作为用户输入接收的语音信号来生成用于操作app 1241或者1243的指令。根据实施例，运行管理器模块1253可以从智能代理1251接收生成的指令，并且可以选择、启动、和操作存储在存储器1240中的app 1241或者1243。根据实施例，智能服务模块1255可以管理用户的信息并且可以使用用户的信息来处理用户输入。

智能代理1251可以将通过输入模块1210接收的用户输入发送给智能服务器1300。

根据实施例，在将用户输入发送给智能服务器1300之前，智能代理1251可以预处理用户输入。根据实施例，为了预处理用户输入，智能代理1251可以包括自适应回声消除器(AEC)模块、噪声抑制(NS)模块、终点(end-point)检测(EPD)模块、或者自动增益控制(AGC)模块。AEC可以移除用户输入中包括的回声。NS模块可以抑制包括在用户输入中的背景噪声。EPD模块可以检测包括在用户输入中的用户语音的终点，以便确定存在用户语音的输入部分。AGC模块可以调整用户输入的音量以便适于处理。根据实施例，为了更好的性能，智能代理1251可以包括上述的所有预处理元件。然而，在另一实施例中，为了保留(preserve)电池寿命，智能代理1251可以只操作一些预处理元件。

根据实施例，智能代理1251可以包括识别用户的呼叫的唤醒识别模块。使用语音识别模块，唤醒识别模块可以识别来自用户的唤醒指令。在唤醒识别模块接收到唤醒指令的情况下，唤醒识别模块可以激活智能代理1251以接收附加的用户输入。根据实施例，可以利用包括音频编解码器的低功率处理器来实施智能代理1251的唤醒识别模块。根据另一实施例，当通过硬件按键键入用户输入时，可以激活智能代理1251。在激活了智能代理1251的情况下，可以运行结合智能代理1251操作的智能app(例如，语音识别app)。

根据实施例，智能代理1251可以包括用于将语音输入转换为文本的语音识别模块。语音识别模块可以识别用于运行app中的动作的用户输入。例如，语音识别模块可以识别用来唤醒app 1241和1243的语音输入，或者用来执行某些功能的语音输入，诸如用来运行相机app中的捕捉功能的“点击”。因此，语音识别模块可以识别并且快速地处理由用户终端1200可运行的功能的用户指令。根据实施例，可以利用app处理器来实施用于运行智能代理1251的用户输入的语音识别模块。

根据实施例，智能代理1251的语音识别模块(其可以包括唤醒模块的语音识别模块)可以通过使用用于识别语音的算法来识别用户输入。例如，用于识别语音的算法可以是隐马尔可夫模型(HMM)算法、人工神经网络(ANN)算法、或者动态时间规整(DTW)算法。

根据实施例，智能代理1251可以将用户的语音输入改变为文本数据。根据实施例，智能代理1251可以将用户的语音发送给智能服务器1300。智能服务器1300将语音输入转换为文本数据，并且将该文本数据发送给智能代理1251。然后，智能代理1251可以在显示器1220中显示文本数据。

根据实施例，智能代理1251可以从智能服务器1300接收路径规则。根据实施例，智能代理1251可以将路径规则发送给运行管理器模块1253。

根据实施例，智能代理1251可以根据路径规则向智能服务模块1255发送运行结果日志，并且可以在个人模块1255b中累积发送的运行结果日志并将其作为用户的偏好(preference)信息进行管理。

根据实施例，运行管理器模块1253可以从智能代理1251接收路径规则以运行app1241和1243，并且可以指令app 1241和1243运行路径规则中包括的动作1241b和1243b。例如，运行管理器模块1253可以将用于运行动作1241b和1243b的指令信息发送给app 1241和1243，并且可以从app 1241和1243接收动作1241b和1243b的完成信息。

根据实施例，运行管理器模块1253可以在智能代理1251与app 1241和1243之间发送或者接收用于运行app 1241和1243的动作1241b和1243b的指令信息。运行管理器模块1253可以依据路径规则绑定要运行的app 1241和1243，并且可以将包括在路径规则中的动作1241b和1243b的指令信息发送给app 1241和1243。例如，运行管理器模块1253可以将包括在路径规则中的动作1241b和1243b顺序地发送给app 1241和1243，并且可以依据路径规则顺序地运行app 1241和1243的动作1241b和1243b。

根据实施例，运行管理器模块1253可以管理app 1241和1243的动作1241b和1243b的运行状态。例如，运行管理器模块1253可以从app 1241和1243接收关于动作1241b和1243b的运行状态的信息。在已经部分地启动了动作1241b和1243b(例如，动作1241b和1243b正在等待必要参数的输入)的情况下，运行管理器模块1253可以将关于部分启动的信息发送给智能代理1251。然后，智能代理1251可以请求用户输入必要的信息。在另一示例中，在动作1241b和1243b正在操作的情况下，可以从用户接收语音，并且运行管理器模块1253可以将关于app 1241和1243的运行状态的信息发送给智能代理1251。使用智能服务器1300，智能代理1251可以解析(parse)来自用户语音的参数信息，并且可以将该参数信息发送给运行管理器模块1253。然后，运行管理器模块1253可以使用来自用户语音的参数信息改变动作1241b和1243b中的每个的参数。

根据实施例，运行管理器模块1253可以将包括在路径规则中的参数信息发送给app 1241和1243。在依据路径规则而顺序地运行多个app 1241和1243的情况下，运行管理器模块1253可以将包括在路径规则中的参数信息先发送给一个app，并且然后发送给另一个app。

根据实施例，运行管理器模块1253可以接收多个路径规则。运行管理器模块1253可以基于用户的语音来选择多个路径规则。例如，在用户语音指定运行动作1241b的app1241，但未指定运行动作1243b的app 1243的情况下，运行管理器模块1253可以接收多个不同的路径规则，其中相同的app 1241(例如，图库app)运行动作1241b，但不同的app 1243(例如，消息app或者电报app)运行动作1243b。然后，运行管理器模块1253可以使用app1241来运行动作1241b。运行管理器模块1253还可以是提示(prompte)用户选择运行动作1243b的app的状态屏幕。

根据实施例，智能服务模块1255可以包括上下文模块1255a、个人模块1255b、或者建议模块1255c。

上下文模块1255a可以从app 1241和1243收集app 1241和1243的当前状态。例如，上下文模块1255a可以接收指示app 1241和1243的当前状态的上下文信息。

个人模块1255b可以管理用户的个人信息。例如，个人模块1255b可以收集用户终端1200的使用信息和运行结果。

建议模块1255c可以预测用户的意图以向用户推荐用于用户终端1200的运行指令。例如，建议模块1255c可以考虑用户的当前状态(例如，时间、地点、上下文、或者app)来向用户推荐指令。

图14是图示根据本公开的实施例的当运行了用户终端的智能app的视图。

图14图示了用户终端1200接收用户输入以运行结合智能代理1251操作的智能app(例如，语音识别app)。

根据实施例，用户终端1200可以运行用于识别通过硬件按键1212的语音输入的智能app。例如，在用户终端1200通过硬件按键1212接收用户输入的情况下，用户终端1200可以在显示器1220中显示智能app的UI 1221。然后，出于键入语音输入1211b的目的，用户可以触摸智能app的UI 1221的语音识别按钮1221a。可替代地，在连续按压硬件按键1212时，用户可以键入语音输入1211b。

根据实施例，用户终端1200可以运行用于识别通过麦克风1211的语音输入的智能app。例如，在通过麦克风1211键入指定的语音输入1211a(例如，醒来！)的情况下，用户终端1200可以在显示器1220中显示智能app的UI 1221。

图15是图示根据本公开的实施例的集成智能系统的智能服务器的框图。

参考图15，智能服务器1300可以包括自动语音识别(ASR)模块1310、自然语言理解(NLU)模块1320、路径计划器模块1330、对话管理器(DM)模块1340、自然语言生成器(NLG)模块1350、或者文本到语音(TTS)模块1360。

智能服务器1300的NLU模块1320或者路径计划器模块1330可以生成路径规则。

根据实施例，ASR模块1310可以将从用户终端1200接收的用户输入从语音转换成文本数据。

例如，ASR模块1310可以包括语音识别模块。语音识别模块可以包括声音模型和语言模型。例如，声音模型可以包括与语音关联的信息，并且语言模型可以包括单元(unit)音素信息和关于单元音素信息的组合的信息。语音识别模块可以通过使用与语音和单元音素信息关联的信息来将用户语音转换成文本数据。例如，关于声音模型和语言模型的信息可以存储在自动语音识别数据库(ASR DB)1311中。

根据实施例，NLU模块1320可以通过执行句法(syntactic)分析或者语义(semantic)分析来导出用户意图。句法分析可以将用户输入划分为句法单元(例如，词语、短语、语素(morphemes)等)，并且确定划分的单元具有哪些句法元素。语义分析可以通过使用语义匹配、规则匹配、公式匹配等来执行。如此，NLU模块1320可以获得诸如域、意图、或者参数(或者时隙)的特性，以便NLU模块1320可以导出意图。

根据实施例，NLU模块1320可以通过使用划分为理解意图所必要的域、意图、和参数(或者时隙)的匹配规则来确定用户的意图和相应参数。例如，诸如警报的一个域可以包括诸如警报设置、警报取消等的多个意图，并且一个意图可以包括多个参数，诸如警报的时间、迭代的次数、警报声音等等。多个规则可以包括一个或多个必要的参数。匹配规则可以存储在自然语言理解数据库(NLU DB)1321中。

根据实施例，NLU模块1320可以通过使用诸如语素、短语等的语言学(linguistic)特征(例如，语法元素)来理解从用户输入提取的词语的含义，并且可以将掌握的词语的含义与域和意图匹配，以确定用户意图。例如，出于确定用户意图的目的，NLU模块1320可以计算在域和意图中的每个中包括多少从用户输入提取的词语。根据实施例，NLU模块1320可以通过使用词语来确定用户输入的参数。根据实施例，NLU模块1320可以通过使用存储用来理解用户输入的意图的语言学特征的NLU DB 1321来确定用户意图。根据另一实施例，NLU模块1320可以通过使用个人语言模型(PLM)来确定用户意图。例如，NLU模块1320可以通过使用个性化(personalized)信息(例如，联系人列表或者音乐列表)来确定用户意图。例如，可以将PLM存储在NLU DB 1321中。根据实施例，ASR模块1310以及NLU模块1320可以参考存储在NLU DB 1321中的PLM来识别用户的语音。

根据实施例，NLU模块1320可以基于用户输入的意图和参数来生成路径规则。例如，NLU模块1320可以基于用户输入的意图来选择要运行的app，并且可以确定要在所选app中运行的动作。NLU模块1320可以确定与所确定的动作对应的参数以生成路径规则。根据实施例，由NLU模块1320生成的路径规则可以包括关于要运行的app的信息、要在app中运行的动作、和运行动作所必要的(多个)参数。

根据实施例，NLU模块1320可以基于用户输入的意图和相应参数来生成一个路径规则、或者多个路径规则。例如，NLU模块1320可以从路径计划器模块1330接收对应于用户终端1200的路径规则集，并且出于确定路径规则的目的，可以将用户输入的意图和相应参数映射到接收的路径规则集。

根据另一实施例，出于生成一个路径规则或者多个路径规则的目的，NLU模块1320可以基于用户输入的意图和相应参数来确定要运行的app、要在app中运行的动作、以及运行该动作所必要的(多个)参数。例如，依据用户输入的意图、并且出于生成路径规则的目的，NLU模块1320可以通过使用用户终端1200的以本体(ontology)或者图形模型的形式的信息来安排要运行的app和要在app中运行的动作。生成的路径规则可以存储在由路径计划器模块1330控制的路径规则数据库(PR DB)1331中。可以将生成的路径规则添加到PR DB1331的路径规则集中。

根据实施例，NLU模块1320可以选择生成的多个路径规则中的至少一个路径规则。例如，NLU模块1320可以选择多个路径规则中的最优路径规则。在另一示例中，在基于用户语音只指定了部分的动作的情况下，NLU模块1320可以选择多个路径规则。NLU模块1320可以依据用户的附加输入来确定多个路径规则中的一个路径规则。

根据实施例，响应于用户输入的请求，NLU模块1320可以将路径规则发送给用户终端1200。例如，NLU模块1320可以将对应于用户输入的一个路径规则发送给用户终端1200。又例如，NLU模块1320可以将对应于用户输入的多个路径规则发送给用户终端1200。例如，在基于用户语音只指定了部分动作的情况下，可以由NLU模块1320生成多个路径规则。

根据实施例，路径计划器模块1330可以从多个路径规则中选择至少一个路径规则。

根据实施例，路径计划器模块1330可以将包括多个路径规则的路径规则集发送给NLU模块1320。路径规则集的多个路径规则可以存储在与路径计划器模块1330连接的PR DB1331中。PR DB可以是表格。例如，路径计划器模块1330可以将与从智能代理1251接收的用户终端1200的信息(例如，OS信息或者app信息)对应的路径规则集发送给NLU模块1320。在一个实施例中，存储在PR DB 1331中的表格可以针对每个域或者针对域的每个版本来存储。

根据实施例，路径计划器模块1330可以从路径规则集选择一个路径规则或者多个路径规则，并且将选择的一个路径规则或者选择的多个路径规则发送给NLU模块1320。例如，路径计划器模块1330可以将用户意图和相应参数与对应于用户终端1200的路径规则集匹配，以选择一个路径规则或者多个路径规则，并且可以将选择的一个路径规则或者选择的多个路径规则发送给NLU模块1320。

根据实施例，路径计划器模块1330可以通过使用用户意图和相应参数来生成一个路径规则或者多个路径规则。例如，当生成一个路径规则或者多个路径规则时，路径计划器模块1330可以基于用户意图和相应参数来确定要运行的app和要在app中运行的动作。根据实施例，路径计划器模块1330可以将生成的路径规则存储在PR DB 1331中。

根据实施例，路径计划器模块1330可以将由NLU模块1320生成的路径规则存储在PR DB 1331中。可以将生成的路径规则添加到存储在PR DB 1331中的路径规则集。

根据实施例，存储在PR DB 1331中的表格可以包括多个路径规则或者多个路径规则集。多个路径规则或者多个路径规则集可以反映执行每个路径规则的设备的种类、版本、类型或者特性。

根据实施例，DM模块1340可以确定由NLU模块1320导出的用户意图是否清楚。例如，DM模块1340可以基于相应参数是否足够来确定用户意图是否清楚。DM模块1340可以确定由NLU模块1320导出的参数是否足以执行任务。根据实施例，在用户意图不清楚的情况下，DM模块1340可以执行反馈并且向用户做出用于必要信息的请求。例如，DM模块1340可以询问用户关于对应于用户意图的参数，以便可以清楚(clarify)用户输入。

根据实施例，DM模块1340可以包括内容提供者模块。在内容提供者模块基于由NLU模块1320导出的意图和参数而运行动作的情况下，内容提供者模块可以生成通过执行对应于用户输入的任务而获得的结果。根据实施例，DM模块1340可以将由内容提供者模块生成的结果作为对于用户输入的响应发送给用户终端1200。

根据实施例，NLG模块1350可以将诸如自然语言语音的指定信息改变为文本。例如，指定信息可以是关于附加输入的信息、用于引导完成对应于用户输入的动作的信息、或者用于引导用户的附加输入的信息(例如，关于用户输入的反馈信息)。在被发送给用户终端1200之后，可以在显示器1220中显示改变为文本形式的信息，或者在被发送给TTS模块1360之后，可以将改变为文本形式的信息变化为语音输出。

根据实施例，TTS模块1360可以将文本输入转换为语音输出。TTS模块1360可以接收来自NLG模块1350的文本输入，可以将文本输入改变为语音输出，并且可以将语音输出发送给用户终端1200。用户终端1200可以经由扬声器1230输出语音输出。

根据实施例，NLU模块1320、路径计划器模块1330和DM模块1340可以实施为一个模块。例如，NLU模块1320、路径计划器模块1330和DM模块1340可以实施为一个模块，可以确定用户意图和相应参数，并且可以生成与所确定的用户意图和参数对应的响应(例如，路径规则)。如此，可以将生成的响应发送给用户终端1200。

图16是图示根据本公开的实施例的NLU模块的路径规则生成方法的图。

参考图16，根据实施例，NLU模块1320可以将app的功能划分为单元动作(例如，A至F)，并且可以将划分的单元动作存储在PR DB 1331中。例如，NLU模块1320可以将包括划分成单元操作的多个路径规则A-B1-C1、A-B1-C2、A-B1-C3-D-F和A-B1-C3-D-E-F的路径规则集存储在PR DB 1331中。

根据实施例，路径计划器模块1330的PR DB 1331可以存储用于执行app的功能的路径规则集。路径规则集可以包括多个路径规则，每个路径规则包括多个动作。可以将根据针对多个动作的每个的参数输入而要运行的动作顺序地安排在多个路径规则中。根据实施例，以本体或者图形模型的形式实施多个路径规则，并且可以将该多个路径规则存储在PRDB 1331中。

根据实施例，NLU模块1320可以选择与用户输入的意图和该意图的相应参数所对应的最佳路径规则A-B1-C3-D-F。

根据实施例，在没有与用户输入完全匹配的路径规则的情况下，NLU模块1320可以将多个规则发送给用户终端1200。例如，NLU模块1320可以选择部分对应于用户输入的路径规则(例如，A-B1)。然后，NLU模块1320可以选择包括该路径规则(例如，A-B1)的一个或多个路径规则(例如，A-B1-C1、A-B1-C2、A-B1-C3-D-F、和A-B1-C3-D-E-F)，并且可以将一个或多个路径规则发送给用户终端1200。

根据实施例，NLU模块1320可以基于由用户终端1200接收的附加输入来选择多个路径规则中的一个，并且可以将选择的一个路径规则发送给用户终端1200。例如，NLU模块1320可以依据附加的用户输入(例如，用于选择C3的输入)来选择多个路径规则(例如，A-B1-C1、A-B1-C2、A-B1-C3-D-F、和A-B1-C3-D-E-F)中的一个路径规则(例如，A-B1-C3-D-F)。

根据另一实施例，NLU模块1320可以确定对应于附加的用户输入(例如，用于选择C3的输入)的用户意图和相应参数。用户终端1200可以基于从附加的用户输入导出的意图来从多个路径规则(例如，A-B1-C1、A-B1-C2、A-B1-C3-D-F、和A-B1-C3-D-E-F)中选择一个路径规则(例如，A-B1-C3-D-F)。

如此，用户终端1200可以基于选择的一个路径规则来完成app 1241和1243的动作。

根据实施例，在由智能服务器1300接收了其中的信息不充足的用户输入的情况下，NLU模块1320可以生成与接收的用户输入部分对应的路径规则。例如，NLU模块1320可以将部分对应的路径规则发送给智能代理1251。智能代理1251可以将部分对应的路径规则发送给运行管理器模块1253，并且运行管理器模块1253可以依据路径规则来运行第一app1241。在运行第一app1241时，运行管理器模块1253可以将关于不充足的参数的信息发送给智能代理1251。智能代理1251可以通过使用关于不充足的参数的信息来向用户做出对于附加输入的请求。当用户接收了附加输入时，智能代理1251可以向智能服务器1300发送并且处理该附加输入。NLU模块1320可以基于附加键入的用户输入的意图和参数信息来生成要添加的路径规则，并且可以将要添加的路径规则发送给智能代理1251。智能代理1251可以将路径规则发送给运行管理器模块1253，并且可以运行第二app 1243。

根据实施例，在由智能服务器1300接收了其中丢失了部分信息的用户输入的情况下，NLU模块1320可以将用户信息请求发送给个人信息服务器1400。个人信息服务器1400可以将存储在个人数据库中的关于键入用户输入的用户的信息发送给NLU模块1320。然后，NLU模块1320可以使用部分的用户输入和来自个人信息服务器1400的信息来选择路径规则。如此，即使用户输入是部分的并且丢失了某些信息，NLU模块1320可以向用户做出对于丢失的信息的请求，或者可以通过使用先前存储的用户信息来确定对应于用户输入的路径规则。

根据本公开的实施例，电子设备可以包括麦克风、显示器、通信电路、其中存储应用的存储器、以及与麦克风、显示器、通信电路和存储器连接的处理器。处理器可以配置成在显示器上输出应用的运行屏幕，用来通过麦克风获得语音数据、用来在运行屏幕上显示从语音数据转换的文本、用来在运行屏幕上显示与基于语音数据的获取时间和文本的长度中的至少一个所确定的待机时间关联的指示符，并且在待机时间经过时，通过通信电路将文本发送给外部设备。

根据本公开的实施例，指示符可以指示确定的待机时间的长度。

根据本公开的实施例，处理器可以进一步配置成在待机时间经过时改变指示符。

根据本公开的实施例，可以将第一事件的发生记录存储在存储器中，并且处理器可以进一步配置成基于第一事件的发生记录来减少确定的待机时间的长度。

根据本公开的实施例，可以将第二事件的发生记录存储在存储器中，并且处理器可以进一步配置成基于第二事件的发生记录来增加确定的待机时间的长度。

根据本公开的实施例，处理器可以进一步配置成，当待机时间经过之前发生了第一事件时，将文本发送给外部设备。

根据本公开的实施例，第一事件的发生记录可以存储在存储器中，并且处理器可以进一步配置成将与第一事件关联的数据存储在第一事件的发生记录中。

根据本公开的实施例，处理器可以进一步配置成在运行屏幕上显示第一图标，并且当输入了与第一图标关联的触摸手势时，感测第一事件的发生。

根据本公开的实施例，处理器可以进一步配置成当输入了预定的语音数据时感测到第一事件的发生。

根据本公开的实施例，处理器可以进一步配置成当待机时间经过之前发生了第二事件时，暂停待机时间的经过。

根据本公开的实施例，第二事件的发生记录可以存储在存储器中，并且处理器可以配置成将与第二事件关联的数据存储在第二事件的发生记录中。

根据本公开的实施例，处理器可以进一步配置成当输入了与运行屏幕上显示的文本区域关联的触摸手势时，感测到第二事件的发生。

根据本公开的实施例，处理器可以进一步配置成当输入了预定的语音数据时，感测到第二事件的发生。

根据本公开的实施例，处理器可以进一步配置成在运行屏幕上显示第二图标，并且当输入了与第二图标关联的触摸手势时，感测到第二事件的发生。

根据本公开的实施例，处理器可以进一步配置成，当待机时间经过的同时接收到与文本关联的修正输入时，响应于该修正输入来修正文本并且将修正的文本发送给外部设备。

根据本公开的实施例，处理器可以进一步配置成当输入了与运行屏幕上显示的文本区域关联的触摸手势时，等待与文本关联的修正输入。

根据本公开的实施例，指示符可以包括多个图标，并且处理器可以进一步配置成在运行屏幕上显示多个图标，其中多个图标的数目与确定的待机时间的长度成比例。

根据本公开的实施例，指示符可以包括多个图标，并且处理器可以进一步配置成在运行屏幕上显示多个图标，多个图标的数目随着待机时间的经过而减少。

根据本公开的实施例，由电子设备执行的方法可以包括：通过麦克风获得语音数据；在显示器上显示从语音数据转换的文本；显示与基于语音数据的获取时间和文本的长度中的至少一个确定的待机时间关联的指示符，并且当待机时间经过时，确定要键入的文本。

根据本公开的实施例，该方法可以进一步包括通过使用预存储的数据来修改确定的待机时间的长度。

此说明书中使用的术语“模块”可以包括利用硬件、软件、或者固件实施的单元。例如，术语“模块”可以与术语“逻辑”、“逻辑块”、“组件”、“电路”等可互换地使用。所述“模块”可以是用于执行一个或多个功能或其一部分的集成组件或集成组件的一部分。所述“模块”可以机械地或者电子地实施，并且可以包括例如用于执行已知的或者将开发的一些操作的专用IC(ASIC)芯片、现场可编程门阵列(FPGA)和可编程逻辑器件。

根据各种实施例，装置(例如，模块或者其功能)或者方法(例如，操作)的至少一部分可以例如由以程序模块的形式存储在计算机可读存储介质(例如，存储器1130)中的指令实施。当由处理器(例如，处理器1120)运行指令时，所述指令可以使处理器执行对应于指令的功能。计算机可读记录介质可以包括硬盘、软盘、磁介质(例如，磁带)、光介质(例如，致密盘只读存储器(CD-ROM)和数字多功能盘(DVD)、磁光介质(例如，软光盘))、嵌入式存储器等。一个或者多个指令可以包含由编译器产生的代码或者解释器可运行的代码。

根据各种实施例的每个元件(例如，模块或者程序模块)可以由单个实体或者多个实体组成，可以省略上述子元件的一部分或者可以进一步包括其他元件。可替代地或者附加地，在集成到一个实体中之后，一些元件(例如，模块或者程序模块)可以相同地或者相似地执行由集成之前的每个相应元件运行的功能。根据各种实施例，由模块、程序模块、或者其他元件运行的操作可以以连续方法、并行方法、重复方法、或者启发式方法来运行，或者操作的至少一部分可以以不同顺序运行或者省略。可替代地，可以添加其他操作。

虽然已经参考本公开的各种实施例示出和描述了本公开，但本领域技术人员将理解的是，在不脱离如所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

本公开的上述实施例的某些方面可以通过以下实施：在硬件、固件中，或者经由可存储在记录介质(诸如，CD ROM、数字多功能盘(DVD)、磁带、RAM、软盘、硬盘、或者磁光盘)中的软件或者计算机代码的运行，或者经由最初存储在远程记录介质或非暂态机器可读介质上通过网络下载并且要被存储在本地存储介质上的计算机代码，使得本文中描述的方法可以使用通用计算机或专用处理器经由这样的软件呈现，或者呈现在诸如ASIC或者FPGA的可编程或者专用硬件中。如本领域中将理解的，计算机、处理器、微处理器控制器或者可编程硬件包括存储器组件，例如RAM、ROM、Flash等，其可以存储或者接收软件或计算机代码，当被计算机、处理器或者硬件访问和运行时实施本文描述的处理方法。

Claims

1.一种电子设备，包含：

麦克风；

显示器；

通信电路；

存储器，其中存储应用；和

处理器，与所述麦克风、显示器、通信电路和存储器电连接，

其中，所述处理器配置成：

在所述显示器上输出所述应用的运行屏幕；

通过所述麦克风获得语音数据；

在所述运行屏幕上显示从所述语音数据转换的文本；

在所述运行屏幕上显示与基于所述语音数据的获取时间和所述文本的长度中的至少一个确定的待机时间关联的指示符，其中，所述语音数据的获取时间是从当语音数据的输入开始时到当语音输入终止时的总时间；以及

当所述待机时间经过时，通过所述通信电路将所述文本发送给外部设备。

2.根据权利要求1所述的电子设备，其中，所述指示符指示确定的待机时间的长度。

3.根据权利要求1所述的电子设备，其中，所述处理器进一步配置成：

在所述待机时间经过时，改变所述指示符。

4.根据权利要求1所述的电子设备，其中，第一事件的发生记录存储在所述存储器中，以及

其中所述处理器进一步配置成：

基于所述第一事件的发生记录减少确定的待机时间的长度。

5.根据权利要求1所述的电子设备，其中，第二事件的发生记录存储在所述存储器中，以及

其中所述处理器进一步配置成：

基于所述第二事件的发生记录增加确定的待机时间的长度。

6.根据权利要求1所述的电子设备，其中，所述处理器进一步配置成：

当所述待机时间经过之前发生了第一事件时，将所述文本发送给外部设备。

7.根据权利要求6所述的电子设备，其中，第一事件的发生记录存储在所述存储器中，以及

其中所述处理器进一步配置成：

在所述第一事件的发生记录中存储与所述第一事件关联的数据。

8.根据权利要求1所述的电子设备，其中，所述处理器进一步配置成：

当所述待机时间经过之前发生了第二事件时，暂停所述待机时间的经过。

9.根据权利要求8所述的电子设备，其中，所述第二事件的发生记录存储在所述存储器中，以及

其中所述处理器进一步配置成：

在所述第二事件的发生记录中存储与所述第二事件关联的数据。

10.根据权利要求8所述的电子设备，其中，所述处理器进一步配置成：

当输入了与所述运行屏幕上显示的文本区域关联的触摸手势时，感测到所述第二事件的发生。

11.根据权利要求1所述的电子设备，其中，所述处理器进一步配置成：

当所述待机时间经过的同时接收到与所述文本关联的修正输入时，响应于所述修正输入来修正所述文本；以及

将修正的文本发送给所述外部设备。

12.根据权利要求1所述的电子设备，其中，所述处理器进一步配置成：

当输入了与所述运行屏幕上显示的文本区域关联的触摸手势时，等待与所述文本关联的修正输入。

13.根据权利要求1所述的电子设备，其中，所述指示符包括多个图标，以及

其中所述处理器进一步配置成：

在所述运行屏幕上显示所述多个图标，其中所述多个图标的数目与确定的待机时间的长度成比例。

14.一种由电子设备执行的方法，所述方法包含：

通过麦克风获得语音数据；

在显示器上显示从所述语音数据转换的文本；

在所述显示器上显示与基于所述语音数据的获取时间和所述文本的长度中的至少一个确定的待机时间关联的指示符，其中，所述语音数据的获取时间是从当语音数据的输入开始时到当语音输入终止时的总时间段；以及

当所述待机时间经过时，确定要键入的文本。

15.根据权利要求14所述的方法，进一步包含：

通过使用预存储的数据来修改确定的待机时间的长度。