CN111640429A - 提供语音识别服务的方法和用于该方法的电子装置 - Google Patents
提供语音识别服务的方法和用于该方法的电子装置 Download PDFInfo
- Publication number
- CN111640429A CN111640429A CN202010092187.8A CN202010092187A CN111640429A CN 111640429 A CN111640429 A CN 111640429A CN 202010092187 A CN202010092187 A CN 202010092187A CN 111640429 A CN111640429 A CN 111640429A
- Authority
- CN
- China
- Prior art keywords
- electronic device
- application
- server
- user
- predetermined event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title abstract description 46
- 238000004891 communication Methods 0.000 claims abstract description 212
- 230000006870 function Effects 0.000 claims abstract description 144
- 230000000007 visual effect Effects 0.000 claims abstract description 109
- 230000004044 response Effects 0.000 claims abstract description 32
- 230000005540 biological transmission Effects 0.000 claims description 7
- 239000002775 capsule Substances 0.000 description 79
- 238000010586 diagram Methods 0.000 description 42
- 238000012545 processing Methods 0.000 description 33
- 230000009471 action Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开涉及提供语音识别服务的方法和用于该方法的电子装置,该电子装置包括:通信电路;显示器;麦克风;可操作连接到通信电路、显示器和麦克风的处理器;和可操作连接到处理器的存储器,存储器中存储的指令在被执行时使处理器控制电子装置以:响应于通过应用检测到预定事件通过通信电路向服务器发送与预定事件相关的信息;响应于与用户界面相关的信息的接收,通过显示器显示包括用户可选择以通过通信电路控制应用的功能的至少一个视觉对象的用户界面;通过麦克风接收选择用户界面中包括的至少一个视觉对象中之一的用户说出的输入;和通过通信电路向服务器发送与用户说出的输入相关的信息以执行与通过用户说出的输入选择的视觉对象相对应的功能。
Description
技术领域
本公开涉及一种由电子装置提供语音识别服务的方法和用于该方法的电子装置。
背景技术
近来的电子装置提出了各种类型的输入方案,以支持与用户的交互。例如,电子装置可以基于特定应用(例如,S-Voice、Bixby或Siri)的执行来操作接收用户说出的输入(例如,语音)的语音输入方案。此外,电子装置可以识别用户说出的输入、得出用户话语的意图并且执行与话语的意图相对应的操作(例如,执行安装在电子装置中的应用并控制其功能)。这可以基于人工智能系统来实现。人工智能系统可以指用于实现人类水平的智能的计算机系统且可以自己学习和决策,并且由于其较频繁的使用而进一步提高了其自身的识别率。人工智能技术可以包括使用自分类/学习算法和元素技术(例如,识别人类语言/字符的语言理解技术)的机器学习(深度学习)技术以及确定信息以类似于人类使用机器学习算法通过其大脑进行识别和确定的方式的智能方式来进行工作以执行逻辑推理和预测的推理/预测技术。
电子装置仅当从用户接收到用于接收语音识别服务的用户说出的输入时才提供语音识别服务。因此,不具有强烈意图使用这种语音识别服务的用户不太可能使用语音识别服务(可用性低)。因此,可能需要用于增加不希望使用语音识别服务的用户的这种语音识别服务的可用性的解决方案。
上述信息被呈现为背景信息仅仅是为了帮助理解本公开。关于任何以上内容是否可以用作关于本公开的现有技术,没有做出确定,也没有做出断言。
发明内容
本公开的实施例提供了一种基于预定事件向电子装置的用户提供语音识别服务的方法及用于该方法的电子装置。
根据本公开的示例方面,提供了一种电子装置。所述电子装置包括:通信电路;显示器;麦克风;处理器,所述处理器可操作地连接到所述通信电路、所述显示器和所述麦克风;以及存储器,所述存储器可操作地连接到所述处理器,其中,所述存储器被配置为存储指令,所述指令在被执行时使所述处理器控制所述电子装置以:响应于通过应用检测到预定事件,通过所述通信电路向所述服务器发送与预定事件相关的信息;响应于与用户界面相关的信息的接收,通过所述显示器显示所述用户界面,所述用户界面包括用户可选择以通过所述通信电路控制应用的功能的至少一个视觉对象;通过所述麦克风接收用于选择所述用户界面中包括的所述至少一个视觉对象中的一个视觉对象的用户说出的输入;以及通过所述通信电路向所述服务器发送与所述用户说出的输入相关的信息,以执行与通过所述用户说出的输入所选择的视觉对象相对应的功能。
根据本公开的另一示例方面,提供了一种服务器。所述服务器包括:通信电路;处理器,所述处理器可操作地连接到所述通信电路;以及存储器,所述存储器可操作地连接到所述处理器,其中,所述存储器被配置为存储指令,所述指令在被执行时使所述处理器控制所述服务器以:通过所述通信电路从所述电子装置接收与预定事件相关的信息;基于与所述预定事件相关的信息,生成用户界面,所述用户界面包括用户可选择以控制与所述预定事件相对应的应用的功能的至少一个视觉对象;通过所述通信电路向所述电子装置发送与所述用户界面相关的信息;通过所述通信电路接收与选择所述用户界面中包括的至少一个视觉对象中的一个视觉对象的用户说出的输入相关的信息;以及基于与所述用户说出的输入相关的信息,通过所述通信电路向所述电子装置发送用于执行与所述通过用户说出的输入所选择的视觉对象相对应的应用的功能的控制信号。
根据本公开的另一示例方面,提供了一种服务器。所述服务器包括:通信电路;处理器,所述处理器可操作地连接到所述通信电路;以及存储器,所述存储器可操作地连接到所述处理器,其中,所述存储器被配置为存储指令,所述指令在被执行时使所述处理器控制所述服务器以:通过所述通信电路从另一服务器接收与预定事件相关的信息;识别安装了与所述预定事件相对应的应用的电子装置;基于与所述预定事件相关的信息,生成用户界面,所述用户界面包括用户选择以控制与所述预定事件相对应的应用的功能的至少一个视觉对象;通过所述通信电路向所述电子装置发送与所述用户界面相关的信息;通过所述通信电路从所述电子装置接收与选择所述用户界面中包括的至少一个视觉对象中的一个视觉对象的用户说出的输入相关的信息;以及基于与所述用户说出的输入相关的信息,通过所述通信电路向所述电子装置发送用于执行与通过所述用户说出的输入所选择的视觉对象相对应的功能的控制信号。
附图说明
通过以下结合附图的详细描述,本公开的某些实施例的上述和其他方面、特征和优点将变得更加明显,其中:
图1是示出根据实施例的示例集成智能系统的框图;
图2是示出根据实施例的意想与动作之间的关系信息存储在数据库中的示例形式的示图;
图3的示图示出了根据实施例的显示用于处理通过智能应用接收到的语音输入的画面的示例用户终端;
图4是示出根据各种实施例的网络环境内的示例电子装置的框图;
图5是示出根据各种实施例的示例电子装置的框图。
图6是示出根据各种实施例的示例服务器的框图;
图7是示出根据各种实施例的电子装置提供语音识别服务的示例方法的流程图;
图8A是示出根据各种实施例的由电子装置向用户提供用户界面的示例的框图;
图8B是示出根据各种实施例的由电子装置向用户提供用户界面的示例的框图;
图9是示出根据各种实施例的电子装置向服务器发送与预定事件相关的信息的示例方法的流程图;
图10是示出根据各种实施例的服务器提供语音识别服务的示例方法的流程图;
图11是示出根据各种实施例的服务器生成用户界面的示例方法的流程图;
图12是示出根据各种实施例的电子装置与服务器之间的信令的示例的信号流程图;
图13是示出根据各种实施例的电子装置提供语音识别服务的另一示例方法的流程图;
图14A是示出根据各种实施例的电子装置向用户提供用户界面的另一示例的示图;
图14B是示出根据各种实施例的电子装置向用户提供用户界面的另一示例的示图;
图14C是示出根据各种实施例的电子装置向用户提供用户界面的另一示例的示图;
图15是示出根据各种实施例的电子装置显示用户界面的示例方法的流程图;
图16是示出根据各种实施例的服务器提供语音识别服务的另一示例方法的流程图;
图17是示出根据各种实施例的服务器生成用户界面的另一示例方法的流程图;以及
图18是示出根据各种实施例的电子装置与服务器之间的信令的另一示例的信号流程图。
具体实施方式
图1是示出根据实施例的示例集成智能系统的框图。
参照图1,根据实施例的集成智能系统10可以包括用户终端100、智能服务器200和服务服务器300。
根据实施例的用户终端100可以是能够连接到互联网的终端装置(或电子装置),并且可以包括例如但不限于移动电话机、智能电话机、个人数字助理(PDA)、笔记本计算机、TV、白色家电、可穿戴装置、HMD、智能扬声器等。
根据实施例,用户终端100可以包括通信接口(例如,包括通信电路)110、麦克风120、扬声器130、显示器140、存储器150和处理器(例如,包括处理电路)160。列出的元件可以彼此可操作地或电气地连接。
根据实施例,通信接口110可以包括各种通信电路,并且连接到外部装置并且被配置为发送和接收数据。根据实施例,麦克风120可以接收声音(例如,用户的话语)并将其转换为电信号。根据实施例,扬声器130可以输出声音(例如,语音)形式的电信号。根据实施例,显示器140可以被配置为显示图像或视频。根据实施例,显示器140可以显示执行的应用程序(或应用)的图形用户界面(GUI)。
根据实施例,存储器150可以存储客户端模块151、软件开发套件(SDK)153和多个应用(app)155。客户端模块151和SDK 153可以配置框架(或解决方案)来执行通用功能。此外,客户端模块151或SDK 153可以配置用于处理语音输入的框架。
根据实施例,存储器150可以包括例如用于执行多个应用155的预定功能的程序。根据实施例,多个应用155可以包括第一应用155_1和第二应用155_2。根据实施例,多个应用155可以包括用于执行预定功能的多个操作。例如,多个应用155可以包括例如但不限于警报应用、消息应用和/或日程应用等中的至少一个。根据实施例,多个应用155可以由处理器160执行并且顺序地执行多个操作中的至少一些操作。
根据实施例,处理器160可以包括各种处理电路并且控制用户终端100的整体操作。例如,处理器160可以电连接到通信接口110、麦克风120、扬声器130、显示器140和存储器150,并且可以执行预定的操作。
根据实施例,处理器160可以执行存储在存储器150中的程序并执行预定功能。例如,处理器160可以通过执行客户端模块151或SDK 153中的至少一个来执行以下用于处理语音输入的操作。处理器160可以通过SDK 153控制例如多个应用155的操作。以下操作,即客户端模块151或SDK 153的操作,可以由处理器160执行。
根据实施例,客户端模块151可以接收语音输入。例如,客户端模块151可以生成与通过麦克风120检测到的用户话语相对应的语音信号。客户端模块151可以向智能服务器200发送接收到的语音输入。根据实施例,客户端模块151可以向智能服务器200发送用户终端100的状态信息以及接收到的语音输入。状态信息可以是例如应用的执行状态信息。
根据实施例,客户端模块151可以接收与所接收到的语音输入相对应的结果。例如,当智能服务器200可以获取与接收到的语音输入相对应的结果时,客户端模块151可以接收与接收到的语音输入相对应的结果。客户端模块151可以在显示器140上显示接收到的结果。
根据实施例,客户端模块151可以接收与所接收到的语音输入相对应的计划。客户端模块151可以根据计划在显示器140上显示通过执行应用的多个操作而获得的结果。例如,客户端模块151可以在显示器上顺序地显示多个操作的执行结果。在另一示例中,用户终端100可以在显示器上仅显示多个操作的一些结果(最后操作的结果)。
根据实施例,客户端模块151可以从智能服务器200接收用于获取获得与语音输入相对应的结果所需的信息的请求。获得结果所需的信息可以是例如用户终端100的状态信息。根据实施例,客户端模块151可以响应于该请求而向智能服务器200发送所需信息。
根据实施例,客户端模块151可以根据计划向智能服务器200发送执行多个操作的结果信息。智能服务器200可以通过结果信息来识别接收到的语音输入被正确地处理。
根据实施例,客户端模块151可以包括语音识别模块。根据实施例,客户端模块151可以通过语音识别模块识别用于执行受限功能的语音输入。例如,客户端模块151可以执行用于处理语音输入的智能应用,以通过预定输入(例如,“唤醒!”)执行有机性操作。
根据实施例,智能服务器200可以通过通信网络从用户终端100接收与用户语音输入相关的信息。根据实施例,智能服务器200可以将与接收到的语音输入相关的数据改变为文本数据。根据实施例,智能服务器200可以基于文本数据生成用于执行与用户语音输入相对应的任务的计划。
根据实施例,该计划可以由人工智能(AI)系统生成。人工智能系统可以是例如但不限于基于规则的系统、基于神经网络的系统(例如,前馈神经网络(FNN)或递归神经网络(RNN))等。人工智能系统可以是其组合,也可以是与其不同的人工智能系统。根据实施例,该计划可以从预定义计划的组合中选择,或者可以响应于用户请求而实时生成。例如,人工智能系统可以从多个预定计划中选择至少一个计划。
根据实施例,智能服务器200可以向用户终端100发送通过生成的计划获得的结果,或者可以向用户终端100发送生成的计划。根据实施例,用户终端100可以在显示器上显示根据计划获得的结果。根据实施例,用户终端100可以在显示器上显示根据计划的操作的执行结果。
根据实施例,智能服务器200可以包括前端210、自然语言平台(例如,包括处理电路和/或可执行程序单元)220、胶囊数据库(DB)230、执行引擎240、端用户界面250、管理平台260、大数据平台270和分析平台280。
根据实施例,前端210可以从用户终端100接收所接收到的语音输入。前端210可以发送对语音输入的响应。
根据实施例,自然语言平台220可以包括自动语音识别(ASR)模块(例如,包括处理电路和/或可执行程序单元)221、自然语言理解(NLU)模块(例如,包括处理电路和和/或可执行程序单元)223、计划器模块(例如,包括处理电路和/或可执行程序单元)225、自然语言生成器(NLG)模块(例如,包括处理电路和/或可执行程序单元)227和/或文本到语音(TTS)模块(例如,包括处理电路和/或可执行程序单元)229。
根据实施例,自动语音识别模块221可以包括各种处理电路和/或可执行程序单元,并将从用户终端110接收到的语音输入转换为文本数据。根据实施例,自然语言理解模块223可以包括各种处理电路和/或可执行程序单元,并且基于语音输入的文本数据来检测用户的意图。例如,自然语言理解模块223可以通过执行句法分析或语义分析来检测用户的意图。根据实施例,自然语言理解模块223可以基于词素或短语的语言特征(例如,语法元素)来检测从语音输入中提取的单词的含义,并使所检测到的单词的含义与意图匹配,从而确定用户的意图。
根据实施例,计划器模块225可以包括各种处理电路和/或可执行程序单元,并且基于由自然语言理解模块223确定的意图和参数来生成计划。根据实施例,计划器模块225可以基于所确定的意图来确定执行任务所需的多个域。计划器模块225可以确定包括在基于意图而确定的多个域中的多个操作。根据实施例,计划器模块225可以确定执行多个确定的操作所需的参数或由于执行多个操作而输出的结果值。可以以与预定类型(或类别)相关的意想定义参数和结果值。根据实施例,该计划可以包括多个意想和由用户的意图确定的多个操作。计划器模块225可以逐渐地(或分层次地)确定多个操作与多个意想之间的关系。例如,计划器模块225可以基于多个意想来确定基于用户的意图而确定的多个操作的执行顺序。换句话说,计划器模块225可以基于执行多个操作所需的参数和由于执行多个操作而输出的结果来确定多个操作的执行顺序。因此,计划器模块225可以生成包括关于多个操作与多个意想之间的关系(例如,本体)的信息的计划。计划器模块225可以基于胶囊数据库230中存储的与意想和操作之间的一组关系相对应的信息来生成计划。
根据实施例,自然语言生成器模块227可以包括各种处理电路和/或可执行程序单元并且以文本形式改变预定信息。转换成文本形式的信息可以是自然语言语音形式。文本到语音模块229可以包括各种处理电路和/或可执行程序单元,并将文本形式的信息转换为语音形式的信息。
根据实施例,胶囊数据库230可以存储关于多个意想与对应于多个域的操作之间的关系的信息。例如,根据实施例的胶囊数据库230可以包括多个操作对象(动作对象或动作信息)和意想对象(或意想信息)。根据实施例,胶囊数据库230可以以例如意想动作网络(CAN)的形式存储多个胶囊。根据实施例,多个胶囊可以被存储在胶囊数据库230中包括的功能注册表中。
根据实施例,胶囊数据库230可以包括策略注册表,用于存储在确定与语音输入相对应的计划时所需的策略信息。当存在与语音输入相对应的多个计划时,策略信息可以包括用于确定一个计划的参考信息。根据实施例,胶囊数据库230可以包括后续注册表,该后续注册表存储以下操作以在预定情况下向用户建议以下操作。以下操作可以包括例如以下语音。根据实施例,胶囊数据库230可以包括存储布局信息的布局注册表,该布局信息是通过用户终端100输出的信息。根据实施例,胶囊数据库230可以包括存储胶囊信息中包括的词汇信息的词汇表。根据实施例,胶囊数据库230可以包括对话注册表,该对话注册表存储与用户的对话(或交互)信息。
根据实施例,胶囊数据库230可以通过开发者工具更新所存储的对象。开发者工具可以包括用于更新例如操作对象或意想对象的功能编辑器。开发者工具可以包括用于更新词汇表的词汇表编辑器。开发者工具可以包括用于生成和注册策略以确定计划的策略编辑器。开发者工具可以包括用于与用户生成对话的对话编辑器。开发者工具可以包括用于激活以下目标并编辑以下提供提示的语音的后续编辑器。可以基于当前目标、用户的偏好或环境条件来确定后续目标。
根据实施例,胶囊数据库230可以在用户终端100内实现。换句话说,用户终端100可以包括胶囊数据库120,胶囊数据库120存储用于确定与语音输入相对应的操作的信息。
根据实施例,执行引擎240可以包括各种处理电路和/或可执行程序单元,并且基于所生成的计划来获得结果。根据实施例,端用户界面250可以向用户终端100发送获得的结果。因此,用户终端100可以接收结果并向用户提供接收到的结果。根据实施例,管理平台260可以包括各种处理电路和/或可执行程序单元,并且管理智能服务器200所使用的信息。根据实施例,大数据平台270可以包括各种处理电路和/或可执行程序单元并收集相关用户的数据。根据实施例的分析平台280可以包括各种处理电路和/或可执行程序单元,并且管理智能服务器200的服务质量(QoS)。例如,分析平台280可以管理智能服务器200的单元和处理速度(或效率)。
根据实施例,服务服务器300可以向用户终端100提供预定的服务(例如,订购食物或预订旅馆)。根据实施例,服务服务器300可以是由第三方操作的服务器。例如,服务服务器300可以包括由不同的第三方操作的第一服务服务器301、第二服务服务器303和第三服务服务器305。根据实施例,服务服务器300可以向智能服务器200提供用于生成与所接收到的语音输入相对应的计划的信息。所提供的信息可以被存储在例如胶囊数据库230中。此外,服务服务器300可以向智能服务器200提供计划的结果信息。
在集成智能系统10中,用户终端100可以响应于用户输入而向用户提供各种智能服务。用户输入可以包括例如通过物理按钮的输入、触摸输入或语音输入。
根据实施例,用户终端100可以通过存储在其中的智能应用(或语音识别应用)来提供语音识别服务。在这种情况下,例如,用户终端100可以识别通过麦克风接收到的用户语音(话语)或语音输入,并且向用户提供与所识别的语音输入相对应的服务。
根据实施例,用户终端100可以基于接收到的语音输入单独地或者与智能服务器和/或服务服务器一起执行预定操作。例如,用户终端100可以执行与所接收到的语音输入相对应的应用,并且通过所执行的应用来执行预定操作。
根据实施例,当用户终端100与智能服务器200和/或服务服务器300一起提供服务时,用户终端可以通过麦克风120检测用户话语并生成与检测到的用户话语相对应的信号(或语音数据)。用户终端可以通过通信接口110来向智能服务器200发送语音数据。
根据实施例,智能服务器200可以响应于从用户终端100接收到的语音输入,生成用于执行与语音输入或根据计划的操作结果相对应的任务的计划。该计划可以包括:例如,用于执行与用户的语音输入相对应的任务的多个操作以及与该多个操作相关的多个意想。意想可以是为执行多个操作而输入的参数,或者可以为由于执行多个操作而输出的结果值定义。该计划可以包括多个操作与多个意想之间的关系。
根据实施例,用户终端100可以通过通信接口110接收响应。用户终端100可以通过扬声器130将在用户终端100内生成的语音信号输出到外部,或者可以通过显示器140将在用户终端100内生成的图像输出到外部。
图2是示出根据各种实施例的在数据库中存储的意想与操作之间的关系信息的示例形式的示图。
智能服务器200的胶囊数据库(例如,胶囊数据库230)可以以例如意想动作网络(CAN)的形式存储多个胶囊。胶囊数据库可以以意想动作网络(CAN)231的形式存储用于处理与用户语音输入相对应的任务的操作和该操作所需的参数。CAN 231可以指示该操作(动作)与定义执行操作所需参数的意想之间的有机性关系。
胶囊数据库可以存储与多个域(例如,应用)相对应的多个胶囊(胶囊A 230-1和胶囊B 230-4)。根据实施例,一个胶囊(例如,胶囊A 230-1)可以对应于一个域(例如,应用)。此外,一个胶囊可以对应于至少一个服务提供者(例如,CP#1230-2、CP#2230-3、CP#3230-6或CP#4250-5),以执行与该胶囊相关的域的功能。根据实施例,一个胶囊可以包括一个或多个意想233和用于执行预定功能的一个或更多个操作232。
根据实施例,自然语言平台220可以通过胶囊数据库中存储的胶囊来生成用于执行与所接收到的语音输入相对应的任务的计划。例如,自然语言平台的计划器模块225可以通过存储在胶囊数据库中的胶囊来生成计划。例如,可以使用胶囊A 230-1的操作4011和4013以及意想4012和4014以及胶囊B 230-4的操作4041和意想4042来生成计划234。
图3是示出根据各种实施例的用户终端处理通过智能应用接收到的语音输入的示例画面的示图。
用户终端100可以执行智能应用,以便处理通过智能服务器200的用户输入。
根据实施例,在画面310中,当识别预定语音输入(例如,“唤醒!”)或通过硬件键(例如,专用硬件键)接收输入时,用户终端100可以执行用于处理语音输入的智能应用。用户终端100可以在例如日程应用被执行的状态下执行智能应用。根据实施例,用户终端100可以在显示器140的画面310上显示与智能应用相对应的对象311(例如,图标)。根据实施例,用户终端100可以通过用户讲话接收语音输入。例如,用户终端100可以接收语音输入“让我知道本周的日程”。根据实施例,用户终端100可以在显示器上显示智能应用的用户界面(UI)(例如,输入窗),以显示接收到的语音输入的文本数据。
根据实施例,在画面320中,用户终端100可以在显示器上显示与接收到的语音输入相对应的结果。例如,用户终端100可以接收与接收到的用户输入相对应的计划,并且根据该计划在显示器上显示“本周的日程”。
图4是示出根据各种实施例的网络环境400中的电子装置401的框图。参照图4,网络环境400中的电子装置401可经由第一网络498(例如,短距离无线通信网络)与电子装置402进行通信,或者经由第二网络499(例如,长距离无线通信网络)与电子装置404或服务器408进行通信。根据实施例,电子装置401可经由服务器408与电子装置404进行通信。根据实施例,电子装置401可包括处理器420、存储器430、输入装置450、声音输出装置455、显示装置460、音频模块470、传感器模块476、接口477、触觉模块479、相机模块480、电力管理模块488、电池489、通信模块490、用户识别模块(SIM)496或天线模块497。在一些实施例中,可从电子装置401中省略所述部件中的至少一个(例如,显示装置460或相机模块480),或者可将一个或更多个其它部件添加到电子装置401中。在一些实施例中,可将所述部件中的一些部件实现为单个集成电路。例如,可将传感器模块476(例如,指纹传感器、虹膜传感器、或照度传感器)实现为嵌入在显示装置460(例如,显示器)中。
处理器420可运行例如软件(例如,程序440)来控制电子装置401的与处理器420连接的至少一个其它部件(例如,硬件部件或软件部件),并可执行各种数据处理或计算。根据一个实施例,作为所述数据处理或计算的至少部分,处理器420可将从另一部件(例如,传感器模块476或通信模块490)接收到的命令或数据加载到易失性存储器432中,对存储在易失性存储器432中的命令或数据进行处理,并将结果数据存储在非易失性存储器434中。根据实施例,处理器420可包括主处理器421(例如,中央处理器(CPU)或应用处理器(AP))以及与主处理器421在操作上独立的或者相结合的辅助处理器423(例如,图形处理单元(GPU)、图像信号处理器(ISP)、传感器中枢处理器或通信处理器(CP))。另外地或者可选择地,辅助处理器423可被适配为比主处理器421耗电更少,或者被适配为具体用于指定的功能。可将辅助处理器423实现为与主处理器421分离,或者实现为主处理器421的部分。
在主处理器421处于未激活(例如,睡眠)状态时,辅助处理器423(而非主处理器421)可控制与电子装置401的部件之中的至少一个部件(例如,显示装置460、传感器模块476或通信模块490)相关的功能或状态中的至少一些,或者在主处理器421处于激活状态(例如,运行应用)时,辅助处理器423可与主处理器421一起来控制与电子装置401的部件之中的至少一个部件(例如,显示装置460、传感器模块476或通信模块490)相关的功能或状态中的至少一些。根据实施例,可将辅助处理器423(例如,图像信号处理器或通信处理器)实现为在功能上与辅助处理器423相关的另一部件(例如,相机模块480或通信模块490)的部分。
存储器430可存储由电子装置401的至少一个部件(例如,处理器420或传感器模块476)使用的各种数据。所述各种数据可包括例如软件(例如,程序440)以及针对与其相关的命令的输入数据或输出数据。存储器430可包括易失性存储器432或非易失性存储器434。
可将程序440作为软件存储在存储器430中,并且程序440可包括例如操作系统(OS)442、中间件444或应用446。
输入装置450可从电子装置401的外部(例如,用户)接收将由电子装置401的其它部件(例如,处理器420)使用的命令或数据。输入装置450可包括例如麦克风、鼠标、键盘或数字笔(例如,手写笔)。
声音输出装置455可将声音信号输出到电子装置401的外部。声音输出装置455可包括例如扬声器或接收器。扬声器可用于诸如播放多媒体或播放唱片的通用目的,接收器可用于呼入呼叫。根据实施例,可将接收器实现为与扬声器分离,或实现为扬声器的部分。
显示装置460可向电子装置401的外部(例如,用户)视觉地提供信息。显示装置460可包括例如显示器、全息装置或投影仪以及用于控制显示器、全息装置和投影仪中的相应一个的控制电路。根据实施例,显示装置460可包括被适配为检测触摸的触摸电路或被适配为测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块470可将声音转换为电信号,反之亦可。根据实施例,音频模块470可经由输入装置450获得声音,或者经由声音输出装置455或与电子装置401直接(例如,有线地)连接或无线连接的外部电子装置(例如,电子装置402)的耳机输出声音。
传感器模块476可检测电子装置401的操作状态(例如,功率或温度)或电子装置401外部的环境状态(例如,用户的状态),然后产生与检测到的状态相应的电信号或数据值。根据实施例,传感器模块476可包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。
接口477可支持将用来使电子装置401与外部电子装置(例如,电子装置402)直接(例如,有线地)或无线连接的一个或更多个特定协议。根据实施例,接口477可包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端478可包括连接器,其中,电子装置401可经由所述连接器与外部电子装置(例如,电子装置402)物理连接。根据实施例,连接端478可包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块479可将电信号转换为可被用户经由他的触觉或动觉识别的机械刺激(例如,振动或运动)或电刺激。根据实施例,触觉模块479可包括例如电机、压电元件或电刺激器。
相机模块480可捕获静止图像或运动图像。根据实施例,相机模块480可包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。
电力管理模块488可管理对电子装置401的供电。根据实施例,可将电力管理模块488实现为例如电力管理集成电路(PMIC)的至少部分。
电池489可对电子装置401的至少一个部件供电。根据实施例,电池489可包括例如不可再充电的原电池、可再充电的蓄电池、或燃料电池。
通信模块490可支持在电子装置401与外部电子装置(例如,电子装置402、电子装置404或服务器408)之间建立直接(例如,有线)通信信道或无线通信信道,并经由建立的通信信道执行通信。通信模块490可包括能够与处理器420(例如,应用处理器(AP))独立操作的一个或更多个通信处理器,并支持直接(例如,有线)通信或无线通信。根据实施例,通信模块490可包括无线通信模块492(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块494(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的相应一个可经由第一网络498(例如,短距离通信网络,诸如蓝牙、无线保真(Wi-Fi)直连或红外数据协会(IrDA))或第二网络499(例如,长距离通信网络,诸如蜂窝网络、互联网、或计算机网络(例如,LAN或广域网(WAN)))与外部电子装置进行通信。可将这些各种类型的通信模块实现为单个部件(例如,单个芯片),或可将这些各种类型的通信模块实现为彼此分离的多个部件(例如,多个芯片)。无线通信模块492可使用存储在用户识别模块496中的用户信息(例如,国际移动用户识别码(IMSI))识别并验证通信网络(诸如第一网络498或第二网络499)中的电子装置401。
天线模块497可将信号或电力发送到电子装置401的外部(例如,外部电子装置)或者从电子装置401的外部(例如,外部电子装置)接收信号或电力。根据实施例,天线模块497可包括天线,所述天线包括辐射元件,所述辐射元件由形成在基底(例如,PCB)中或形成在基底上的导电材料或导电图案构成。根据实施例,天线模块497可包括多个天线。在这种情况下,可由例如通信模块490(例如,无线通信模块492)从所述多个天线中选择适合于在通信网络(诸如第一网络498或第二网络499)中使用的通信方案的至少一个天线。随后可经由所选择的至少一个天线在通信模块490和外部电子装置之间发送或接收信号或电力。根据实施例,除了辐射元件之外的另外的组件(例如,射频集成电路(RFIC))可附加地形成为天线模块497的一部分。
上述部件中的至少一些可经由外设间通信方案(例如,总线、通用输入输出(GPIO)、串行外设接口(SPI)或移动工业处理器接口(MIPI))相互连接并在它们之间通信地传送信号(例如,命令或数据)。
根据实施例,可经由与第二网络499连接的服务器408在电子装置401和外部电子装置404之间发送或接收命令或数据。电子装置402和电子装置404中的每一个可以是与电子装置401相同类型的装置,或者是与电子装置401不同类型的装置。根据实施例,将在电子装置401运行的全部操作或一些操作可在外部电子装置402、外部电子装置404或服务器408中的一个或更多个运行。例如,如果电子装置401应该自动执行功能或服务或者应该响应于来自用户或另一装置的请求执行功能或服务,则电子装置401可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分,而不是运行所述功能或服务,或者电子装置401除了运行所述功能或服务以外,还可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分。接收到所述请求的所述一个或更多个外部电子装置可执行所述功能或服务中的所请求的所述至少部分,或者执行与所述请求相关的另外功能或另外服务,并将执行的结果传送到电子装置401。电子装置401可在对所述结果进行进一步处理的情况下或者在不对所述结果进行进一步处理的情况下将所述结果提供作为对所述请求的至少部分答复。为此,可使用例如云计算技术、分布式计算技术或客户机-服务器计算技术。
图5是根据各种实施例的电子装置的框图。
参照图5,电子装置500(例如,图1的用户终端100或图4的电子装置401)可以包括处理器(例如,包括处理电路)501(例如,图1的处理器160或图4的处理器420)、存储器503(例如,图1的存储器150或图4的存储器430)、输出装置(例如,包括输出电路)505(例如,图1的显示器140、图1的扬声器130、图4的显示装置460和/或图4的声音输出装置455)、通信电路507(例如,图1的通信接口110或图4的通信模块490)和/或麦克风509(例如,图1的麦克风120或图4的输入装置450)。
处理器501可以包括各种处理电路,并且控制电子装置500的整体操作。处理器501可以可操作地连接到电子装置500内的其他元件(组件),诸如存储器503、输出装置50、通信电路507和麦克风509,用于控制电子装置500的整体操作。
处理器501可以接收其他元件的命令、分析接收到的命令并且根据所分析的命令来执行计算或处理数据。
处理器501可以处理在电子装置500内生成的数据或信号。例如,处理器501可以向存储器503请求指令、数据或信号。处理器501可以记录(或存储)或更新存储器503内的指令、数据或信号,以便控制电子装置500或电子装置500内的其他元件。
处理器501可以包括至少一个处理器(例如,可包括一个或多于一个处理器)。例如,处理器501可以包括以下中的一个或更多个:用于控制诸如应用的高层中的程序的应用处理器、用于控制诸如通信的功能的通信处理器或用于控制与音频信号相关的编码和解码的音频编解码器芯片。
处理器501可以分析和处理从存储器503、输出装置505、通信电路507或麦克风509接收到的消息、数据、指令或信号。处理器501可以基于接收到的消息、数据、指令或信号生成新的消息、数据、指令或信号。处理器501可以将处理过或生成的消息、数据、指令或信号提供给存储器503、输出装置505、通信电路507或麦克风509。
存储器503可以存储用于控制电子装置500的指令、控制指令代码、控制信息或用户数据。例如,存储器503可以存储应用、操作系统、中间件或装置驱动器中的一个或更多个。
输出装置505可以包括各种输出电路,并且可以用于向用户提供信息。例如,输出装置505可以包括用于通过音频信号向用户提供信息的扬声器或用于通过图形用户界面(GUI)向用户提供信息的显示器中的一个或更多个。输出装置505可以基于从处理器501提供的信号或数据向用户提供信息。
通信电路507可以用于在电子装置500与另一电子装置(例如,图1的智能服务器200、图4的电子装置402或404或图4的服务器408)之间建立通信路径。例如,通信电路507可以是用于蓝牙通信方案、蓝牙低功耗(BLE)通信方案、Wi-Fi通信方案、蜂窝(或移动)通信方案或有线通信方案中的至少一种的模块。通信电路507可以向处理器501提供从另一电子装置接收的信号、数据或消息。通信电路507可以向另一电子装置发送从处理器501提供的信号、数据或消息。
麦克风509可以接收在电子装置500外部生成的音频信号。麦克风509可以接收语音信号,诸如由电子装置500的用户生成的用户说出的输入。麦克风509可以将接收到的音频信号转换为电信号。麦克风509可以向处理器501提供转换后的电信号。
根据各种实施例,处理器501可以通过应用检测预定事件。例如,当通过呼叫应用显示了指示从另一电子装置(例如,图4的电子装置404)接收到呼叫连接请求的呼入画面时,处理器501可以确定检测到预定事件。在另一示例中,当通过消息应用显示指示接收到文本消息的通知时(或者当接收到文本消息时),处理器501可以确定检测到预定事件。在另一示例中,当通过社交网络服务(SNS)应用显示从服务器(例如,图4的服务器408)接收到的通知时,处理器501可以确定检测到预定事件。根据实施例,与预定事件相关的信息可以包括与和预定事件相对应的意图相关的信息、关于用户界面的生成的信息(例如,用户界面的类型和/或与包括在用户界面中的至少一个对象相关的信息)或电子装置500的标识信息中的至少一条信息。根据实施例,与预定事件相关的信息可以包括关于应用的信息、关于与应用相对应的胶囊的信息、与应用的功能相关的信息、与用户界面的生成相关的信息(例如,用户界面的类型和/或与用户界面中包括的至少一个对象相关的信息)或电子装置500的标识信息中的至少一条信息。根据实施例,处理器501可以仅在电子装置500的操作模式对应于预定模式(例如,免提模式、无眼模式或车辆模式)时通过应用检测预定事件。根据实施例,不管电子装置的操作模式如何,处理器都可以通过应用来检测预定事件。根据实施例,预定事件可以是由应用开发者在应用中预设的信息,或者可以是通过安装应用的用户的输入来设置和改变的信息。
根据各种实施例,处理器501可以通过通信电路507从服务器(例如,图1的智能服务器200)接收与用户界面相关的信息。当接收到与用户界面相关的信息时,处理器501可以基于与通过输出装置505接收到的与用户界面相关的信息来显示用户界面。例如,当接收到与用户界面相关的信息时,处理器501可以在应用的执行画面的至少一部分中以弹出窗口的形式显示用户界面,或者可以显示用户界面,使其与应用的执行画面的至少一部分重叠。根据实施例,通过输出装置505显示的用户界面可以包括至少一个视觉对象,该视觉对象可以由用户选择以便控制应用的功能。
根据各种实施例,当通过麦克风509接收到用于选择用户界面中包括的至少一个视觉对象中的一个视觉对象的用户说出的输入时,处理器501可以通过通信电路57向服务器发送与用户说出的输入相关的信息(例如,图1的智能服务器200)以分析与用户说出的输入相对应的功能。当从服务器接收到与用户说出的输入相对应的控制信号时,处理器501可以基于该控制信号来控制应用的功能。根据实施例,当在基于控制信号控制应用的功能之后通过麦克风509接收到用户说出的输入时,处理器501可以通过通信电路507向服务器发送与接收到的用户说出的输入相关的信息,并从服务器接收与用户说出的输入相对应的控制信号,以便连续地提供与用户说出的输入相对应的功能。
根据各种实施例,当通过显示器或按钮接收到用于选择包括在用户界面中的至少一个视觉对象的用户输入时,处理器501可以通过通信电路507向服务器发送与用户输入相关的信息,以便分析与用户输入相对应的功能。当从服务器接收到与用户输入相对应的控制信号时,处理器501可以基于该控制信号来控制应用的功能。根据实施例,当在基于控制信号控制了应用的功能之后通过显示器或按钮接收到用户输入时,处理器501可以通过通信电路507将与接收到的用户输入相关的信息发送到服务器,并从服务器接收与用户输入相对应的控制信号,从而连续地提供与用户输入相对应的功能。
图6是示出根据各种实施例的示例服务器的框图。
参照图6,服务器600(例如,图1的智能服务器200)可以包括处理器(例如,包括处理电路)601、存储器603和/或通信电路605。
处理器601可以包括各种处理电路并控制服务器600的整体操作。处理器601可以可操作地连接到服务器600内的其他元件,诸如存储器603和通信电路605,以便控制服务器600的整体操作。
处理器601可以接收服务器600的其他元件的命令、分析接收到的命令并且根据所分析的命令来执行计算或处理数据。
处理器601可以处理在服务器600内生成的数据或信号。例如,处理器601可以向存储器603请求指令、数据或信号。处理器601可以记录(或存储)或更新存储器603中的指令、数据或信号,以便控制服务器600或服务器600内的其他元件。
处理器601可以分析或处理从存储器603或通信电路605接收到的指令、数据或信号。处理器601可以基于接收到的数据或信号来生成新数据或新指令或信号。处理器601可以向存储器603或通信电路605提供处理过或生成的数据、指令或信号。
存储器603可以存储用于控制服务器600的指令、控制指令代码、控制信息或用户数据。例如,存储器603可以包括应用、操作系统、中间件和装置驱动器。
通信电路605可以用于在服务器600与另一电子装置(例如,图1的用户终端100、图1的服务服务器300、图4的电子装置401或图5的电子装置500)之间建立通信路径。例如,通信电路605可以是用于Wi-Fi通信方案、蜂窝(或移动)通信方案或有线通信方案中的至少一种的模块。通信电路605可以向处理器601提供从另一电子装置接收到的信号、数据或消息。通信电路605可以向另一电子装置发送从处理器601提供的信号、数据或消息。
根据各种实施例,存储器603可以存储用于提供语音识别服务的数据。例如,存储器603可以包括以下至少一条信息:用于提供与预定事件、用户话语或用户输入的意图相对应的功能的意图信息;用于分析和提取预定信息、用户话语或用户输入内的实体的实体分析信息;以及用于分析用户话语或用户输入的上下文以便提供语音识别服务的上下文信息。在另一示例中,存储器603可以存储用于提供语音识别服务的至少一个胶囊。根据实施例,存储在存储器中的至少一个胶囊中与应用相对应的胶囊可以是从另一服务器(例如,图1的服务服务器300)向服务器600提供的用于服务该应用的数据,并且可以包括与其他服务器服务的应用的功能(或动作)相关的信息。根据实施例,存储在存储器中的至少一个胶囊中的共用胶囊(例如,通用胶囊或预定胶囊)是从服务器600提供的数据,并且可以包括与可以被各种应用通用的功能(或动作)相关的信息。
根据各种实施例,处理器601可以从另一电子装置(例如,图1的用户终端100、图1的服务服务器300、图4的电子装置401或图5的电子装置500)接收与预定事件相关的信息。根据实施例,关于预定事件的信息可以包括以下至少一条信息:与预定事件相对应的意图相关的信息、关于用户界面的生成的信息(例如,用户界面的类型和/或与用户界面中包括的至少一个对象相关的信息)、电子装置的标识信息或安装了应用的电子装置的标识信息。根据实施例,关于预定事件的信息可以包括以下至少一条信息:关于与预定事件相对应的应用的信息、关于与应用相对应的胶囊的信息、与应用的功能相关的信息、关于用户界面的生成的信息(例如,用户界面的类型和/或与用户界面中包括的至少一个对象相关的信息)、电子装置的标识信息或安装了应用的电子装置的标识信息。
根据各种实施例,处理器601可以基于与预定事件相关的信息来生成用户界面。例如,处理器601可以基于与预定事件相关的信息来识别与预定事件相对应的意图、基于意图信息确定与意图相对应的功能并且基于所确定的功能来生成用户界面。在另一示例中,处理器601可以基于与预定事件相关的信息来识别与预定事件相对应的应用、确定与所识别的应用相对应的胶囊并且基于所确定的胶囊来生成用户界面。所生成的用户界面可以包括用于控制与预定事件相对应的应用的功能的至少一个视觉对象。
根据各种实施例,当生成用户界面时,处理器601可以通过通信电路605向另一电子装置发送与用户界面相关的信息。例如,当从电子装置(例如,图1的用户终端100或图4的电子装置404)接收到与预定事件相关的信息时,处理器601可以通过通信电路605向电子装置发送与用户界面相关的信息。在另一示例中,当从另一服务器(例如,图1的服务服务器300)接收到与预定事件相关的信息时,处理器601可以从与预定事件相关的信息中获取安装有与预定事件相对应的应用的电子装置的标识信息,并基于所获取的标识信息通过通信电路605向安装了与预定事件相对应的应用的电子装置发送与用户界面相关的信息。根据实施例,当安装了与预定事件相对应的应用的电子装置的数量为多个时,处理器601可以通过通信电路605向多个电子装置中的每一个提供与用户界面相关的信息。
根据各种实施例,当通过通信电路605从电子装置接收到与包括在用户界面中的至少一个视觉对象的用户说出的输入相关的信息时,处理器601可以生成用于执行与由用户说出的输入选择的视觉对象相对应的应用的功能的控制信号。例如,处理器601可以将与从电子装置接收的与用户说出的输入相关的信息(例如,语音信号)转换为文本数据,并通过分析转换后的文本数据来识别由用户说出的输入选择的视觉对象,以便识别由用户说出的输入选择的视觉对象,并生成用于执行与所识别的视觉对象相对应的应用的功能的控制信号。当产生控制信号时,处理器601可以通过通信电路605向电子装置发送控制信号。
根据各种示例实施例的电子装置(例如,图1的用户终端100、图4的电子装置401或图5的电子装置500)可以包括通信电路(例如,图1的通信接口110、图4的通信模块490或图5的通信电路507)、显示器(例如,图1的显示器140、图4的显示装置460或图5的输出装置505)、麦克风(例如,图1的麦克风120、图4的输入装置450或图5的麦克风509)、可操作地连接到通信电路、显示器和麦克风的处理器(例如,图1的处理器160、图4的处理器420或图5的处理器501)以及可操作地连接到处理器的存储器(例如,图1的存储器150、图4的存储器430或图5的存储器503),其中,存储器存储有指令,该指令当被执行时使处理器控制电子装置以:响应于通过应用检测到预定事件,通过通信电路将与预定事件相关的信息发送到服务器(例如,图1的智能服务器200或图6的服务器600);响应于与用户界面相关的信息的接收,通过显示器显示用户界面,该信息包括用户可选择以通过通信电路控制应用的功能的至少一个视觉对象;通过麦克风接收用于选择用户界面中包括的至少一个视觉对象中的一个视觉对象的用户说出的输入;以及将与用户说出的输入相关的信息通过通信电路发送到服务器,以执行与通过用户说出的输入选择的视觉对象相对应的功能。
根据各种示例实施例,指令在被执行时可以使处理器控制电子装置以:通过通信电路从服务器接收用于执行与由用户说出的输入选择的视觉对象相对应的应用的功能的控制信号,并执行与由用户说出的输入所选择的视觉对象相对应的应用的功能。
根据各种示例实施例,与预定事件相关的信息可以包括以下至少一条信息:关于与预定事件相对应的应用的信息、与该应用的功能相关的信息、与用户界面的生成相关的信息或电子装置的标识信息。
根据各种示例实施例,与预定事件相关的信息可以包括以下至少一条信息:与预定事件相对应的意图相关的信息、关于用户界面的生成的信息或电子装置的标识信息。
根据各种示例实施例,指令在被执行时可以使处理器控制电子装置以:响应于检测到预定事件而识别对应用的偏好;确定对应用的偏好是否大于参考值;以及基于对应用的偏好大于参考值,通过通信电路向服务器发送与预定事件相关的信息。
根据各种示例实施例,指令在被执行时可以使处理器控制电子装置基于对应用的偏好不大于参考值来限制与预定事件相关的信息的发送。
根据各种示例实施例,指令在被执行时可以使处理器控制电子装置以基于应用的使用时间、使用频率或用户说出的输入来控制对应用的偏好。
根据各种示例实施例,指令在被执行时可以使处理器控制电子装置以基于电子装置未在预定模式下操作来限制与预定事件相关的信息的发送。
根据各种示例实施例的服务器(例如,图1的智能服务器200或图6的服务器600)可以包括通信电路(例如,图6的通信电路605)、可操作地连接到通信电路的处理器(例如,图6的处理器603)以及可操作地连接到处理器的存储器(例如,图6的存储器603),其中,该存储器存储有指令,该指令在被执行时使处理器控制服务器以:通过通信电路从电子装置(例如,图1的用户终端100、图4的电子装置401或图5的电子装置500)接收与预定事件相关的信息;基于与预定事件相关的信息,生成用户界面,该用户界面包括用户可选择以控制与预定事件相对应的应用的功能的至少一个视觉对象;通过通信电路向电子装置发送与用户界面相关的信息;通过通信电路从电子装置接收与选择用户界面中包括的至少一个视觉对象中的一个视觉对象的用户说出的输入相关的信息;以及基于与用户说出的输入相关的信息,通过通信电路向电子装置发送用于执行与由用户说出的输入所选择的视觉对象相对应的应用的功能的控制信号。
根据各种示例实施例,与预定事件相关的信息可以包括以下至少一条信息:关于与预定事件相对应的应用的信息、与该应用的功能相关的信息、与用户界面的生成相关的信息或电子装置的标识信息。
根据各种示例实施例,指令在被执行时可以使处理器控制服务器以:基于与预定事件相关的信息从存储在存储器中的至少一个应用中选择与预定事件相对应的应用,并基于所选应用生成用户界面。
根据各种示例实施例,与预定事件相关的信息可以包括以下至少一条信息:与预定事件相对应的意图相关的信息、关于用户界面的生成的信息或电子装置的标识信息。
根据各种示例实施例,指令在被执行时可以使处理器控制服务器以:基于与预定事件相关的信息来识别与预定事件相对应的意图;基于存储在存储器中的意图信息确定与意图相对应的功能;以及基于确定的功能生成用户界面。
根据各种示例实施例,指令在被执行时可以使处理器控制服务器以:响应于从电子装置接收到与预定事件相关的信息来识别对应用的偏好;确定对应用的偏好是否大于参考值;以及基于对应用的偏好大于参考值来生成用户界面。
根据各种示例实施例,指令在被执行时可以使处理器控制服务器基于对应用的偏好等于或小于参考值来限制与预定事件相关的生成。
根据各种示例实施例的服务器(例如,图1的智能服务器200或图6的服务器600)可以包括通信电路(例如,图6的通信电路605)、可操作地连接到通信电路的处理器(例如,图6的处理器603)以及可操作地连接到处理器的存储器(例如图6的存储器603),其中,该存储器存储有指令,该指令在被执行时使处理器控制服务器以:通过通信电路从另一服务器接收与预定事件相关的信息;识别安装了与预定事件相对应的应用的电子装置(例如,图1的用户终端100、图4的电子装置401或图5的电子装置500);基于与预定事件相关的信息,生成用户界面,该用户界面包括用户可选择以控制与预定事件相对应的应用的功能的至少一个视觉对象;通过通信电路向电子装置发送与用户界面相关的信息;通过通信电路从电子装置接收与选择用户界面中包括的至少一个视觉对象中的一个视觉对象的用户说出的输入相关的信息;以及基于与用户说出的输入相关的信息,通过通信电路向电子装置发送用于执行与由用户说出的输入所选择的视觉对象相对应的应用的功能的控制信号。
根据各种示例实施例,与预定事件相关的信息可以包括以下至少一条信息:关于与预定事件相对应的应用的信息、与该应用的功能相关的信息、与用户界面的生成相关的信息、电子装置的标识信息或安装了应用的电子装置的标识信息。
根据各种示例实施例,指令在被执行时可以使处理器控制服务器以:基于与预定事件相关的信息从存储在存储器中的至少一个应用中选择与预定事件相对应的应用,并基于所选应用生成用户界面。
根据各种示例实施例,与预定事件相关的信息可以包括以下至少一条信息:与预定事件相对应的意图相关的信息、关于用户界面的生成的信息、电子装置的标识信息或安装了应用的电子装置的标识信息。
根据各种示例实施例,指令在被执行时可以使处理器控制服务器以:基于与预定事件相关的信息来识别与预定事件相对应的意图;基于存储在存储器中的意图信息确定与意图相对应的功能;以及基于确定的功能生成用户界面。
图7是示出根据各种实施例的电子装置提供语音识别服务的示例方法的流程图700。图8A是示出根据各种实施例的由电子装置向用户提供的示例用户界面的示图。图8B是示出根据各种实施例的由电子装置向用户提供的示例用户界面的示图。
参照图7、图8A和图8B,在操作701中,电子装置(图1的用户终端100、图4的电子装置401或图5的电子装置500)的处理器(例如,图1的处理器160、图4的处理器420或图5的处理器501)可以响应于通过应用检测到预定事件,通过通信电路(例如,图1的通信接口110、图4的通信模块490或图5的通信电路507)向服务器(例如,图1的智能服务器200或图6的服务器600)发送与预定事件相关的信息。当通过呼叫应用显示指示从另一电子装置(例如,图4的电子装置404)接收到呼叫连接请求的呼入画面801时,如图8A所示,处理器可以确定检测到预定事件。在另一示例中,当通过消息应用显示指示接收到文本消息的通知画面831时,如图8B所示,处理器可以确定检测到预定事件。在另一示例中,当通过SNS应用显示从服务器(例如,图4的服务器408)接收到的通知画面时,处理器可以确定检测到预定事件。根据实施例,当电子装置500的操作模式对应于预定模式(例如,免模式、无眼模式或车辆模式)时,处理器可以通过应用来检测预定事件。根据实施例,不管电子装置的操作模式如何,处理器都可以通过应用来检测预定事件。根据实施例,预定事件可以是由应用开发者在应用中预设的信息,或者可以是通过安装应用的用户的输入来设置和改变的信息。当检测到预定事件时,处理器可以向服务器发送与预定事件相关的信息,使得服务器生成通信电路以生成用于控制应用的功能的语音识别服务的用户界面。根据实施例,与预定事件相关的信息可以包括以下至少一条信息:与预定事件相对应的意图相关的信息、关于用户界面的生成的信息(例如,用户界面的类型和/或与包含在用户界面中的至少一个对象相关的信息)或电子装置的标识信息。根据实施例,关于预定事件的信息可以包括以下至少一条信息:关于应用的信息、关于与应用相对应的胶囊的信息、与应用的功能相关的信息、关于用户界面的生成的信息(例如,用户界面的类型和/或与用户界面中包括的至少一个对象相关的信息)或电子装置的标识信息。
根据各种实施例,当通过应用检测到预定事件时,处理器可以基于对应用的偏好来确定是否向服务器发送与预定事件相关的信息。例如,当通过应用检测到预定事件时,处理器可以识别对应用的偏好,并且仅当对应用的偏好大于参考值时,才可以通过通信电路向服务器发送与该预定事件相关的信息。因此,电子装置可以仅对用户感兴趣的应用执行用于提供语音识别服务的操作。
在操作703中,处理可以在包括可由用户选择的至少一个视觉对象的用户界面上接收信息而通过显示器(例如,图1的显示器140、图4的显示装置460或图5的输出装置505)显示用户界面,以便通过通信电路控制应用的功能。例如,处理器可以显示包括用于通过显示器控制呼叫应用的功能的多个语音命令803-1、803-2、803-3、803-4、803-5(在下文中可以称为803-1至803-5)的用户界面803,如图8A所示。在另一示例中,处理器可以显示包括用于通过显示器控制消息应用的功能的多个语音命令833-1、833-2、833-3、833-4、833-5(在下文中可以称为833-1至833-5)的用户界面833,如图8B所示。
在操作705中,处理器可以通过麦克风(例如,图1的麦克风120、图4的输入装置450或图5的麦克风509)接收用于选择包括在用户界面中的至少一个视觉对象中的一个视觉对象的用户说出的输入。例如,处理器可以通过麦克风接收针对用户界面803中包括的多个语音命令803-1至803-5中的一个的用户说出的输入,如图8A所示。在另一示例中,处理器可以通过麦克风接收针对用户界面833中包括的多个语音命令833-1至833-3中的一个的用户说出的输入,如图8B所示。
在操作707中,处理器可以通过通信电路向服务器发送与用户说出的输入相关的信息,以执行与由用户说出的输入选择的视觉对象相对应的应用的功能。根据实施例,当通过通信电路从服务器接收到用于使得电子装置执行与由用户说出的输入所选择的视觉对象相对应的应用的功能的控制信号时,处理器可以执行与由用户说出的输入选择的视觉对象相对应的应用的功能。例如,如图8A所示,当接收到针对多个语音命令803-1至803-5中的第一语音命令803-1或第二语音命令803-2的用户说出的输入时,该处理器可以通过通信电路从服务器接收用于使得电子装置执行呼叫连接的控制信号,基于接收到的控制信号通过呼叫应用显示呼叫画面805,并执行呼叫连接。在另一示例中,当接收到针对多个语音命令833-1至833-3中的第一语音命令833-1的用户说出的输入时,如图8B所示,处理器可以通过通信电路从服务器接收用于使得电子装置显示接收到的文本消息的内容的控制信号,并基于接收到的控制信号显示用于输出接收到的文本消息的应用的画面835。
根据各种实施例,当在基于控制信号执行由用户说出的输入选择的应用的功能之后接收到附加的用户说出的输入时,电子设备可以通过再次执行操作1305至1307根据附加的用户说出的输入来提供语音识别服务。
即使没有接收到用于触发语音识别服务的预定输入(例如,“唤醒!”),根据各种实施例的电子装置也可以基于预定事件向用户提供语音识别服务,从而增加用户将使用语音识别服务的可能性。
根据各种实施例,当在与预定事件相关的信息被提供给服务器之后的预定时间内没有从服务器接收到与用户界面相关的信息时,电子装置可以将与预定事件相关的信息重新发送给服务器或终止算法。
根据各种实施例,当在将关于预定事件的信息提供给服务器之后,从服务器接收到指示用户界面的生成受到限制的信号时,电子装置可以终止算法。
尽管已经描述了电子装置通过麦克风接收用于选择包括在用户界面中的至少一个视觉对象中的一个视觉对象的用户说出的输入,但是电子装置可以通过根据本公开的各种实施例的显示器或按钮接收用于选择包括在用户界面中的至少一个视觉对象中的一个视觉对象的用户输入。
图9是示出根据各种实施例的电子装置向服务器发送与预定事件相关的信息的示例方法的流程图。以下描述可以例如对应于在图7的操作701中向服务器发送与预定事件相关的信息的详细操作。
参照图9,在操作901中,电子装置(图1的用户终端100、图4的电子装置401或图5的电子装置500)的处理器(例如,图1的处理器160、图4的处理器420或图5的处理器501)可以通过应用检测预定事件。例如,当通过呼叫应用显示指示从另一电子装置(例如,图4的电子装置404)接收到呼叫连接请求的呼入画面时,处理器可以确定检测到预定事件。在另一示例中,当通过消息应用显示指示接收到文本消息的通知画面时,处理器可以确定检测到预定事件。在另一示例中,当通过SNS应用显示从服务器(例如,图4的服务器408)接收到的通知画面时,处理器可以确定检测到预定事件。
在操作903中,处理器可以响应于检测到预定事件来识别对应用的偏好。根据实施例,对应用的偏好可以被配置为初始预定值,并且处理器可以基于应用的使用时间、使用频率或针对用于语音识别服务的用户界面的用户说出的输入来改变对应用的偏好。例如,处理器可以将关于每个应用的使用时间或使用频率的信息记录在存储器(例如,图1的存储器150、图4的存储器430或图5的存储器503)中,并根据记录的信息更改对每个应用的偏好。当使用时间或使用频率较高时,可以将对应用的偏好更改为更高的值。在另一示例中,在用于通过语音识别服务控制应用的功能的用户界面被显示之后,当接收到用于选择用户界面中包括的至少一个视觉对象的用户说出的输入时,处理器可以将关于由用户说出的输入所选择的视觉对象的信息记录在存储器中,并根据记录的信息为应用配置(或更改)偏好。可以基于针对用户界面中包括的至少一个视觉对象中的每个视觉对象的预设值来确定对应用的偏好。例如,可以在需要语音识别服务的视觉对象(例如,图8A的语音命令803-5)中配置第一值,并且可以在不需要附加语音识别服务的视觉对象(例如,语音命令803-3)中配置与第一值不同的第二值,并且处理器可以通过将与用户说出的输入所选择的视觉对象相对应的值添加到对应用的偏好,来控制对应用的偏好。
在操作905中,处理器可以确定对应用的偏好是否大于参考值。参考值可以被配置为与相同的值而与应用无关,或者可以针对每个应用而被配置为不同的值。根据实施例,可以基于用户输入或从服务器接收到的信号将参考值改变为另一值。当对应用的偏好大于参考值时(操作905中的“是”),处理器可以执行操作907,而当对应用的偏好等于或小于参考值时(操作905中的“否”),处理器可以执行操作909。
当对应用的偏好大于参考值时,在操作907中,处理器可以通过通信电路向服务器(例如,图1的智能服务器200)发送与预定事件相关的信息。处理器可以通过通信电路(例如,图1的通信接口110、图4的通信模块490或图5的通信电路507)向服务器发送以下至少一条信息:与预定事件相对应的意图相关的信息、与用户界面的生成相关的信息(例如,用户界面的类型和/或与包含在用户界面中的至少一个对象相关的信息)、电子装置的标识信息或安装了应用的电子装置的标识信息。在另一示例中,处理器可以通过通信电路向服务器发送以下至少一条信息:关于应用的信息、关于与应用相对应的胶囊的信息、与应用的功能相关的信息、关于用户界面的生成的信息(例如,用户界面的类型和/或与用户界面中包括的至少一个对象相关的信息)或电子装置的标识信息。因此,电子装置可以从服务器接收关于用于控制应用的功能的语音识别服务的用户界面的信息,并基于接收到的信息来显示用于语音识别服务的用户界面,以向用户提供语音识别服务,即使没有接收到用于触发语音识别服务的预定输入(例如,“唤醒!”)。
当对应用的偏好等于或小于参考值时,在操作909中,处理器可以限制(例如,约束)关于预定事件的信息的发送并终止算法。因此,电子装置可以限制为用户不偏好的应用提供语音识别服务。
图10是示出根据各种实施例的服务器提供语音识别服务的示例方法的流程图1000。
参照图10,在操作1001中,服务器(例如,图1的智能服务器200或图6的服务器600)的处理器(例如,图6的处理器601)可以通过通信电路(例如,图6的通信电路605)从电子装置(例如,图1的用户终端100、图4的电子装置401或图5的电子装置500)接收关于预定事件的信息。例如,处理器可以通过通信电路接收以下至少一条信息:与预定事件相对应的意图相关的信息、与用户界面的生成相关的信息(例如,用户界面的类型和/或与用户界面中包括的至少一个对象相关的信息)或电子装置的标识信息。在另一示例中,处理器可以通过通信电路从电子装置接收以下至少一条信息:关于应用的信息、关于与应用相对应的胶囊的信息、与应用的功能相关的信息、关于用户界面的生成的信息(例如,用户界面的类型和/或与用户界面中包括的至少一个对象相关的信息)或电子装置的标识信息。
在操作1003中,处理器可以基于与预定事件相关的信息来生成包括可由用户选择以便控制与预定事件相对应的应用的功能的至少一个视觉对象的用户界面。例如,处理器可以基于与预定事件相关的信息来识别与预定事件相对应的意图、基于存储在存储器(例如,图6的存储器603)中的意图信息来确定与该意图相对应的功能并根据确定的功能生成用户界面。在另一示例中,处理器可以基于与预定事件相关的信息来识别与预定事件相对应的应用、在存储在存储器中的至少一个胶囊(例如,图1的胶囊数据库230或图6的胶囊数据库603)中确定与所识别的应用相对应的胶囊并基于确定的胶囊来生成用户界面。根据实施例,当与该应用相对应的胶囊被存储在存储器中时,处理器可以基于共用胶囊(例如,通用胶囊或预定胶囊)来生成用户界面。根据实施例,与该应用相对应的胶囊可以是从另一服务器(例如,图1的服务服务器)提供的数据。根据实施例,共用胶囊是定义可由各种应用共同使用的功能(或动作)的数据,并且可以是服务器提供的数据。
根据各种实施例,处理器可以基于对与预定事件相对应的应用的偏好来确定是否生成用户界面。例如,处理器可以识别对与预定事件相对应的应用的偏好,并且仅在所识别的对应用的偏好大于参考值时才生成用户界面。因此,服务器可以执行仅针对检测到预定事件的电子装置的用户感兴趣的应用提供语音识别服务的操作。
在操作1005中,处理器可以响应于用户界面的生成,通过通信电路向电子装置发送与用户界面相关的信息。接收与用户界面相关的信息的电子装置可以基于从服务器接收到的信息来显示用户界面。例如,电子装置可以显示包括多个语音命令803-1至803-5的用户界面803,多个语音命令803-1至803-5用于基于与用户界面相关的信息来控制呼叫应用的功能,如图8A所示。
在操作1007中,处理器可以通过通信电路从电子装置接收与用户说出的输入相关的信息(例如,语音信号),该用户说出的输入用于选择包括在用户界面中的至少一个视觉对象中的一个。
在操作1009中,处理器可以基于与用户说出的输入相关的信息,通过通信电路发送用于使电子装置执行与由用户说出的输入选择的视觉对象相对应的应用的功能的控制信号。例如,处理器可以将与从电子装置接收到的与用户说出的输入相关的信息转换为文本数据,并且分析转换后的文本数据以识别由用户说出的输入选择的视觉对象,生成用于执行与所识别的视觉对象相对应的应用的功能的控制信号,并通过通信电路将生成的控制信号发送到电子装置。
当从电子装置接收到与预定事件相关的信息时,根据各种实施例的服务器可以生成用于语音识别服务的用户界面,并将用户界面提供给电子装置,从而向电子装置的用户提供语音识别服务,即使没有接收到用于触发语音识别服务的预定输入(例如,“唤醒!”)。
图11是示出根据各种实施例的服务器生成用户界面的示例方法的流程图。以下描述是在图1的操作1003中用于生成用户界面的操作的详细描述。
参照图11,在操作1101中,服务器(例如,图1的智能服务器200或图6的服务器600)的处理器(例如,图6的处理器601)可以识别对与预定事件相对应的应用的偏好。根据实施例,对应用的偏好可以被配置为初始预定值。根据实施例,可以使用从服务器提供的语音识别服务为多个电子装置中的每一个配置对与预定事件相对应的应用的偏好。根据实施例,可以基于从电子装置发送的用户说出的输入来配置和改变对应用的偏好。例如,当从电子装置接收到用于选择用户界面中包括的至少一个视觉对象的用户说出的输入时,处理器可以将用户说出的输入转换为文本数据、分析转换后的文本数据以识别由用户说出的输入选择的视觉对象并基于在识别的视觉对象中配置的值改变对应用的偏好。
在操作1103中,处理器可以确定对应用的偏好是否大于参考值。参考值可以被配置为与相同的值而与应用无关,或者可以针对每个应用而被配置为不同的值。根据实施例,可以基于从电子装置接收到的信号将参考值改变为另一值。当对与预定事件相对应的应用的偏好大于参考值时(操作1103中的“是”),处理器可以执行操作1105。当对与预定事件相对应的应用的偏好等于或小于参考值时(操作1103中的“否”),处理器可以执行操作1107。
当对应用的偏好大于参考值时,在操作1105中,处理器可以生成包括可由用户选择以便控制与预定事件相对应的应用的功能的的至少一个视觉对象的用户界面。例如,处理器可以基于与预定事件相关的信息来识别与预定事件相对应的意图、基于存储在存储器(例如,图6的存储器603)中的意图信息来确定与该意图相对应的功能并根据确定的功能生成用户界面。在另一示例中,当存储在存储器(例如,图1的胶囊数据库230或图6的存储器603)中的至少一个胶囊中的与该应用相对应的胶囊被存储时,处理器可以基于与应用相对应的胶囊来生成用户界面。在另一示例中,当存储在存储器中的至少一个胶囊中的与应用相对应的胶囊未被存储时,处理器可以基于服务器提供的共用胶囊来生成用户界面。
当对应用的偏好等于或小于参考值时,在操作1107中,处理器可以限制(例如,约束)用户界面的生成并终止算法。根据实施例,处理器可以响应于用户界面的生成的限制,通过通信电路向电子装置发送指示限制用户界面的生成的信号。因此,服务器可以限制对于用户不感兴趣的电子装置中的应用的语音识别服务的执行。
图12是示出根据各种实施例的电子装置与服务器之间的信令的示例的信号流程图1200。
参照图12,在操作1205中,电子装置1201(例如,图1的用户终端100、图4的电子装置401或图5的电子装置500)可以通过应用检测预定事件。例如,当通过呼叫应用显示指示从另一电子装置(例如,图4的电子装置404)接收到呼叫连接请求的呼入画面时,电子装置1201可以确定检测到预定事件。
在操作1207中,电子装置1201可以响应于检测到预定事件而向服务器1203(例如,图1的智能服务器200或图6的服务器600)发送与预定事件相关的信息。根据实施例,与预定事件相关的信息可以包括以下至少一条信息:与预定事件相对应的意图相关的信息、关于用户界面的生成的信息(例如,用户界面的类型和/或与包括在用户界面中的至少一个对象相关的信息)或电子装置500的标识信息。根据实施例,与预定事件相关的信息可以包括以下至少一条信息:关于应用的信息、关于与应用相对应的胶囊的信息、与应用的功能相关的信息、与用户界面的生成相关的信息(例如,用户界面的类型和/或与用户界面中包括的至少一个对象相关的信息)或电子装置1201的标识信息。
在操作1209中,服务器1203可以基于从电子装置1201发送的与预定事件相关的信息来生成用户界面。该用户界面可以包括可以由用户选择以便控制与预定事件相对应的应用的功能的至少一个视觉对象。
在操作1211中,服务器1203可以响应于用户界面的生成而向电子装置1201发送与用户界面相关的信息。
在操作1213中,电子装置1201可以基于从服务器1203发送的与用户界面相关的信息来显示用户界面。例如,电子装置1201可以显示包括多个语音命令803-1至803-5的用户界面803,多个语音命令803-1至803-5用于控制呼叫应用的功能,如图8A所示。
在操作1215中,电子装置1201可以接收用于选择包括在用户界面中的至少一个视觉对象中的一个视觉对象的用户说出的输入。例如,电子装置1201可以接收针对包括在用户界面803中的多个语音命令803-1至803-5之中的第一语音命令803-1的用户说出的输入,如图8A所示。
在操作1217中,电子装置1201可以向服务器发送与用户说出的输入相关的信息。
在操作1219中,服务器1203可以基于与从电子装置120发送的用户说出的输入相关的信息,生成控制信号,以使得电子装置1201执行与由用户说出的输入选择的视觉对象相对应的应用的功能。例如,服务器1203可以将与用户说出的输入相关的信息转换为文本数据,分析转换后的文本数据以识别由用户说出的输入选择的视觉对象,并生成用于使得电子装置1201执行与所识别的视觉对象相对应的应用的功能的控制信号。
在操作1221中,服务器1203可以向电子装置1201发送生成的控制信号。
在操作1223中,电子装置1201可以基于从服务器发送的控制信号来执行与通过用户说出的输入选择的视觉对象相对应的应用的功能。例如,电子装置1201可以执行与通过用户说出的输入选择的第一语音命令803-1相对应的功能(例如,显示呼叫画面并执行呼叫连接),如图8A所示。
图13是示出根据各种实施例的电子装置提供语音识别服务的另一示例方法的流程图1300。图14A是示出根据各种实施例的电子装置向用户提供的另一示例用户界面的示图。图14B是示出根据各种实施例的电子装置向用户提供的另一示例用户界面的示图。图14C是示出根据各种实施例的电子装置向用户提供的另一示例用户界面的示图。
参照图13、图14A、图14B和图14C,在操作1301中,电子装置(例如,图1的用户终端100、图4的电子装置401或图5的电子装置500)的处理器(例如,图1的处理器160、图4的处理器420或图5的处理器501)可以通过通信电路(例如,图1的通信接口110、图4的通信模块490或图5的通信电路507)从服务器(例如,图1的智能服务器200或图6的服务器600)接收与用户界面相关的信息。
在操作1303中,处理器可以基于与用户界面相关的信息通过显示器(例如,图1的显示器140、图4的显示装置460或图5的输出装置505)来显示用于语音识别服务的用户界面。例如,处理器可以通过显示器显示包括多个语音命令的用户界面1401,该语音命令用于控制旅馆预订应用的功能。在另一示例中,处理器可以通过显示器显示用户界面1431,该用户界面1431包括用于控制游戏应用的功能的多个语音命令1431-1、1431-2、1431-3、1431-4、1431-5、1431-5、1431-7(在下文可以被称为“1431-1至1431-7”),如图14B所示。在另一示例中,处理器可以通过显示器显示包括用于确定是否更新特定应用(例如,地图应用)的多个语音命令1451-1和1451-2的用户界面1451,如图14C所示。
根据各种实施例,处理器可以基于对与用户界面相对应的应用的偏好来确定是否显示用户界面。例如,处理器可以识别对与用户界面相对应的应用的偏好,并且可以仅在对应用的偏好大于参考值时才通过显示器显示用户界面。因此,电子装置可以仅对用户感兴趣的应用执行用于提供语音识别服务的操作。
在操作1305中,处理器可以通过麦克风(例如,图1的麦克风120、图4的输入装置450或图5的麦克风509)接收用于选择包括在用户界面中的至少一个视觉对象中的一个视觉对象的用户说出的输入。例如,处理器可以接收针对用户界面1401中包括的多个语音命令中的第一语音命令1401-1的用户说出的输入,如图14A所示。在另一示例中,处理器可以接收针对包括在用户界面1431中的多个语音命令1431-1至1431-7中的第一语音命令1431-1(或第二语音命令1431-2或第三语音命令1431-3)的用户说出的输入,如图14B所示。在另一示例中,处理器可以接收针对用户界面1451中包括的多个语音命令1451-1和1451-2中的第一语音命令1451-1的用户说出的输入,如图14C所示。
在操作1307中,处理器可以通过通信电路向服务器发送与用户说出的输入相关的信息,以执行与由用户说出的输入选择的视觉对象相对应的应用的功能。根据实施例,当电子装置通过通信电路从服务器接收用于执行与由用户说出的输入选择的视觉对象相对应的应用的功能的控制信号时,处理器可以执行与由用户说出的输入选择的视觉对象相对应的应用的功能。例如,当接收到针对多个语音命令中的第一语音命令1401-1的用户说出的输入时,如图14A所示,处理器可以通过通信电路从服务器接收用于使得电子装置显示提供由用户说出的输入选择的旅馆的详细信息的画面1403的控制信号,并基于接收到的控制信号,通过显示器显示提供由用户说出的输入选择的旅馆的详细信息的画面1403。在另一示例中,当接收到针对多个语音命令1431-1至1431-7中的第一语音命令1431-1的用户说出的输入时,如图14B所示,处理器可以通过通信电路从服务器接收用于使得电子装置执行由用户说出的输入选择的游戏加入功能的控制信号,基于接收到的信号执行游戏应用的游戏加入功能,并通过显示器显示游戏画面1433。在另一示例中,当接收到针对多个语音命令1451-1和1451-2中的第一语音命令1451-1的用户说出的输入时,如图14C所示,处理器可以通过通信电路从服务器接收用于使得电子装置执行特定应用的更新功能的控制信号,基于接收到的控制信号来更新特定应用,并且通过显示器显示特定应用的更新画面1453。
根据各种实施例,当在基于控制信号执行由用户说出的输入选择的应用的功能之后接收到附加的用户说出的输入时,电子设备可以通过再次执行操作1305至1307根据附加的用户说出的输入来提供语音识别服务。例如,当在显示提供由用户说出的输入选择的旅馆的详细信息的画面1403之后接收到针对包括在画面1403中的多个语音命令中的第二语音命令1403-1的用户说出的输入时,如图14A所示,电子装置可以执行操作1305至1307,并显示提供关于通过网络搜索找到的旅馆的信息的画面1405。
根据各种实施例,即使未接收到用于触发语音识别服务的预定输入(例如,“唤醒”),电子装置也可以从服务器接收语音识别服务,从而增加用户将要使用语音识别服务的可能性。
尽管已经描述了电子装置通过麦克风接收用于选择包括在用户界面中的至少一个视觉对象中的一个视觉对象的用户说出的输入,但是电子装置可以通过根据本公开的各种实施例的显示器或按钮接收用于选择包括在用户界面中的至少一个视觉对象中的一个视觉对象的用户输入。
图15是示出根据各种实施例的电子装置显示用户界面的示例方法的流程图。以下描述是在图13的操作1303中用于显示用户界面的操作的详细描述。
参照图15,在操作1501中,电子装置(例如,图1的用户终端100、图4的电子装置401或图5的电子装置500)的处理器(例如,图1的处理器160、图4的处理器420或图5的处理器501)可以识别对与用户界面相对应的应用的偏好。例如,处理器可以基于与用户界面相关的信息来识别与用户界面相对应的应用,并且识别对所识别的应用的偏好。根据实施例,对应用的偏好可以被配置为初始预定值。根据实施例,处理器可以基于应用的使用时间、使用频率或针对语音识别服务的用户界面的用户说出的输入来改变对应用的偏好。例如,处理器可以将关于每个应用的使用时间或使用频率的信息记录在存储器(例如,图1的存储器150、图4的存储器430或图5的存储器503)中,并根据记录的信息更改对每个应用的偏好。在这种情况下,随着使用时间或使用频率的增加,可以将对应用的偏好改变为具有更高的值。在另一示例中,当在用于控制应用的功能的语音识别服务的用户界面被显示之后接收到用于选择用户界面中包括的至少一个视觉对象的用户说出的输入时,处理器可以将关于由用户说出的输入选择的视觉对象的信息记录在存储器中,并基于记录的信息改变对应用的偏好。在这种情况下,可以基于针对用户界面中包括的至少一个视觉对象中的每一个的预设值来确定对应用的偏好。
在操作1503中,处理器可以确定对与用户界面相对应的应用的偏好是否大于参考值。参考值可以被配置为与相同的值而与应用无关,或者可以针对每个应用而被配置为不同的值。根据实施例,可以基于用户输入或从服务器接收到的信号将参考值改变为另一值。当对与用户界面相对应的应用的偏好大于参考值时(操作1503中的“是”),处理器可以执行操作1505,而当对与用户界面相对应的应用的偏好等于或小于参考值时(操作1503中的“否”),处理器可以执行操作1507。
当对与用户界面相对应的应用的偏好大于参考值时,在操作1505中,处理器可以通过显示器(例如,图1的显示器140、显示器的显示器160或图5的输出装置505)输出(例如,显示)用户界面。为此,即使未接收到用于触发语音识别服务的预定输入(例如,“唤醒!”),电子装置也可以向用户提供语音识别服务。
当对与用户界面相对应的应用的偏好等于或小于参考值时,在操作1507中,处理器可以限制(例如,约束)用户界面的显示并终止算法。因此,电子装置可以限制为用户不偏好的应用提供语音识别服务。
图16是示出根据各种实施例的服务器提供语音识别服务的另一示例方法的流程图1600。
参照图16,在操作1601中,服务器(例如,图1的智能服务器200或图6的服务器600)的处理器(例如,图6的处理器601)可以从另一服务器(例如,图2的服务服务器300)接收与预定事件相关的信息。例如,处理器可以通过通信电路(例如,图6的通信电路605)从另一服务器接收以下至少一条信息:与预定事件相对应的意图相关的信息、与用户界面的生成相关的信息(例如,用户界面的类型和/或与包括在用户界面中的至少一个对象相关的信息)、电子装置的标识信息或安装了应用的电子装置的标识信息。在另一示例中,处理器可以通过通信电路从另一服务器接收以下至少一条信息:与预定事件相对应的应用的信息、关于与该应用相对应的胶囊的信息、与应用的功能相关的信息、关于用户界面的生成的信息(例如,用户界面的类型和/或与包括在用户界面中的至少一个对象相关的信息)、电子装置的标识信息或安装了应用的电子装置的标识信息。
在操作1603中,处理器可以基于与预定事件相关的信息,使用由服务器提供的语音识别服务从多个电子装置当中识别安装了与预定事件相对应的应用的电子装置。例如,处理器可以基于从另一服务器发送的安装了应用的电子装置的识别信息,来识别安装了与预定事件相对应的应用的电子装置。
在操作1605中,处理器可以基于与预定事件相关的信息来生成包括可由用户选择以便控制与预定事件相对应的应用的功能的至少一个视觉对象的用户界面。例如,处理器可以基于与预定事件相关的信息来识别与预定事件相对应的意图、基于存储在存储器(例如,图6的存储器603)中的意图信息来确定与该意图相对应的功能并根据确定的功能生成用户界面。在另一示例中,处理器可以基于与预定事件相关的信息来识别与预定事件相对应的应用、在存储在存储器中的至少一个胶囊(例如,图1的胶囊数据库230或图6的胶囊数据库603)中确定与所识别的应用相对应的胶囊并基于确定的胶囊生成用户界面。根据实施例,与该应用相对应的胶囊可以是从另一服务器(例如,图1的服务服务器)提供的数据。
在操作1607中,处理器可以响应于用户界面的生成,通过通信电路向安装了与预定事件相对应的应用的电子装置发送与用户界面相关的信息。接收与用户界面相关的信息的电子装置可以基于从服务器接收到的信息来显示用户界面。例如,电子装置可以显示用户界面1401,该用户界面1401包括用于基于与用户界面相关的信息来控制旅馆预订应用的功能的多个语音命令,如图14A所示。根据实施例,当安装了与预定事件相对应的应用的电子装置的数量为多个时,处理器可以通过通信电路向每个电子装置发送与用户界面相关的信息。
根据各种实施例,处理器可以基于对与预定事件相对应的应用的偏好来确定是否发送与用户界面相关的信息。例如,处理器可以识别对与预定事件相对应的对应用的偏好,并且仅当所识别的对应用的偏好大于参考值时,才可以通过通信电路发送与用户界面相关的信息。根据实施例,可以使用服务器提供的语音识别服务为每个电子装置配置对应用的偏好。根据实施例,当安装了与预定事件相对应的应用的电子装置的数量为多个时,处理器可以基于对每个电子装置所配置的应用的偏好来确定是否向每个电子装置发送与用户界面相关的信息。
在操作1609中,处理器可以通过通信电路从电子装置接收与用户说出的输入相关的信息(例如,语音信号)。
在操作1611中,处理器可以基于与用户说话的输入相关的信息,通过通信电路生成并发送控制信号,该控制信号用于使得电子装置执行与由用户说话的输入所选择的视觉对象相对应的应用的功能。例如,处理器可以将与从电子装置接收到的与用户说出的输入相关的信息转换为文本数据、分析转换后的文本数据以识别由用户说出的输入选择的视觉对象、生成用于执行与识别出的视觉对象相对应的应用的功能的控制信号并通过通信电路向电子装置发送生成的控制信号。
当从另一服务器接收到与预定事件相关的信息时,根据各种实施例的服务器可以生成用于语音识别服务的用户界面,并将该用户界面提供到安装了与预定事件相对应的应用的电子装置,因此,即使没有接收到用于触发语音识别服务的预定输入(例如,“唤醒!”),也可以向电子装置的用户提供语音识别服务。
图17是示出根据各种实施例的服务器生成用户界面的另一示例方法的流程图。以下描述是在图1的操作1607中用于发送与用户界面相关的信息的操作的详细描述。
参照图17,在操作1701中,服务器(例如,图1的智能服务器200或图6的服务器600)的处理器(例如,图6的处理器601)可以识别对与预定事件相对应的应用的偏好。根据实施例,对应用的偏好可以被配置为初始预定值。根据实施例,可以使用从服务器提供的语音识别服务为多个电子装置中的每一个配置对与预定事件相对应的应用的偏好。根据实施例,处理器可以基于从电子装置发送的用户说出的输入来改变对应用的偏好。例如,当从电子装置接收到用于选择用户界面中包括的至少一个视觉对象的用户说出的输入时,处理器可以将用户说出的输入转换为文本数据、分析转换后的文本数据以识别由用户说出的输入选择的视觉对象并基于在识别的视觉对象中配置的值改变对应用的偏好。
在操作1703中,处理器可以确定对应用的偏好是否大于参考值。参考值可以被配置为相同的值而与应用无关,或者可以针对每个应用而被配置为不同的值。根据实施例,可以基于从电子装置接收到的信号将参考值改变为另一值。可以使用从服务器提供的语音识别服务为每个电子装置配置和改变参考值。当对与预定事件相对应的应用的偏好大于参考值时(操作1703中的“是”),处理器可以执行操作1705。当对与预定事件相对应的应用的偏好等于或小于参考值时(操作1703中的“否”),处理器可以执行操作1707。
当对与预定事件相对应的应用的偏好大于参考值时,在操作1705中,处理器可以通过通信电路向电子装置发送与用户界面相关的信息。
根据实施例,当对与预定事件相对应的应用的偏好等于或小于参考值时,处理器可以限制(例如,约束)与用户界面相关的信息的发送并终止算法。根据实施例,处理器可以响应于用户界面的生成的限制,通过通信电路向电子装置发送指示用户界面的生成被限制的信号。因此,服务器可以限制对用户不感兴趣的电子装置中的应用执行语音识别服务。
尽管已经描述了服务器确定是否将与用户界面相关的信息发送到安装了与预定事件相对应的应用的电子装置,但是服务器可以针对每个电子装置执行操作1701至1707,并且确定在安装了与预定事件相对应的应用的电子装置的数量为多个时,是否发送与用户界面相关的信息。
图18是示出根据各种实施例的电子装置与服务器之间的信令的另一示例的信号流程图1800。
参照图18,在操作1807中,另一服务器1801(例如,图1的服务服务器300)可以向服务器1803(例如,图1的智能服务器200或图6的服务器600)发送与预定事件相关的信息。根据实施例,与预定事件相关的信息可以包括以下至少一条信息:与预定事件相对应的意图相关的信息、关于用户界面的生成的信息(例如,用户界面的类型和/或与包含在用户界面中的至少一个对象相关的信息)、电子装置的标识信息或安装了应用的电子装置的标识信息。根据实施例,与预定事件相关的信息可以包括以下至少一条信息:关于应用的信息、关于与应用相对应的胶囊的信息、与应用的功能相关的信息、关于用户界面的生成的信息(例如,用户界面的类型和/或与包括在用户界面中的至少一个对象相关的信息)、电子装置的标识信息或安装了应用的电子装置的标识信息。
在操作1809中,服务器1803可以基于与预定事件相关的信息,使用由服务器提供的语音识别服务来在多个电子装置当中识别安装了与预定事件相对应的应用的电子装置。
在操作1811中,服务器1803可生成包括至少一个视觉对象的用户界面,该至少一个视觉对象可由用户选择,以便基于与预定事件相关的信息来控制与预定事件相对应的应用的功能。
在操作1813中,服务器1803可以响应于用户界面的生成而向电子装置1805发送与用户界面相关的信息。根据实施例,当安装了与预定事件相对应的应用的电子装置的数量是多个时,服务器1803可以向每个电子装置发送与用户界面相关的信息。
在操作1815中,电子装置1805可以基于从服务器1803接收到的与用户界面相关的信息来显示用户界面。例如,电子装置1805可以显示包括用于控制旅馆预订应用的功能的多个语音命令的用户界面1401,如图14A所示。
在操作1817中,电子装置1805可以接收用于选择包括在用户界面中的至少一个视觉对象中的一个视觉对象的用户说出的输入。例如,电子装置1805可以接收针对包括在用户界面1401中的多个语音命令当中的第一语音命令140-1的用户说出的输入,如图14A所示。
在操作1819中,电子装置1805可以向服务器1803发送与用户说出的输入相关的信息。
当接收到与从电子装置1805发送的用户说出的输入相关的信息时,在操作1821中,服务器1803可以生成用于使得电子装置1805执行与由用户说出的输入选择的视觉对象相对应的应用的功能的控制信号。例如,服务器1803可以将与用户语音输入相关的信息转换为文本数据、分析转换后的文本数据以识别由用户说出的输入选择的视觉对象、向另一服务器1801请求用于生成执行与视觉对象相对应的应用的功能的控制信号的信息、接收信息并使用接收到的信息生成控制信号。根据各种实施例,服务器1803可以生成控制信号而无需向另一服务器请求附加信息。根据实施例,当从多个电子装置接收到与用户说出的输入相关的信息时,服务器1803可以为每个电子装置生成控制信号。
在操作1823中,服务器1803可以向电子装置1805发送所生成的控制信号。根据实施例,当由于从多个电子装置接收到与用户说出的输入相关的信息而生成了用于各个电子装置的多个控制信号时,服务器1803可以基于与从电子装置接收到的用户说出的输入相关的信息而向各个电子装置提供生成的控制信号。
在操作1825中,电子装置1805可以基于从服务器1803发送的控制信号,执行与用户说出的输入所选择的视觉对象相对应的应用的功能。例如,电子装置1805可以执行与由用户说出的输入选择的第一语音命令140-1相对应的功能(例如,显示用于提供由话语输入选择的旅馆的详细信息的画面)。
根据各种示例实施例的操作电子装置(例如,图1的用户终端100、图4的电子装置401或图5的电子装置500)的方法可以包括以下操作:响应于通过应用检测到预定事件,通过通信电路向服务器(例如,图1的智能服务器200或图6的服务器600)发送与预定事件相关的信息;响应于接收到与用户界面相关的信息而通过显示器显示用户界面,该用户界面包括用户可选择以通过通信电路控制应用的功能的至少一个视觉对象;通过电子装置的麦克风接收用于选择包括在用户界面中的至少一个视觉对象中的一个视觉对象的用户说出的输入;以及通过通信电路向服务器发送与用户发出的输入相关的信息,以执行与用户说出的输入所选择的视觉对象相对应的功能。
根据各种示例实施例,操作电子装置的方法可以进一步包括以下操作:通过通信电路从服务器接收控制信号,该控制信号用于执行与由用户说出的输入选择的视觉对象相对应的应用的功能;以及执行与用户说出的输入选择的视觉对象相对应的应用的功能。
根据各种示例实施例,与预定事件相关的信息可以包括以下至少一条信息:关于与预定事件相对应的应用的信息、与该应用的功能相关的信息、与用户界面的生成相关的信息或电子装置的标识信息。
根据各种示例实施例,与预定事件相关的信息可以包括以下至少一条信息:与预定事件相对应的意图相关的信息、关于用户界面的生成的信息或电子装置的标识信息。
根据各种示例实施例,向服务器发送与预定事件相关的信息的操作可以包括以下操作:响应于检测到预定事件,识别对应用的偏好;确定对应用偏好是否大于参考值;以及当对应用的偏好大于参考值时,通过通信电路将与预定事件相关的信息发送到服务器。
根据各种示例实施例,操作电子装置的方法可以进一步包括以下操作:当对应用的偏好不大于参考值时,限制与预定事件相关的信息的发送。
根据各种示例实施例,操作电子装置的方法可以进一步包括以下操作:基于应用的使用时间、使用频率或用户说出的输入来控制对应用的偏好。
根据各种示例实施例,操作电子装置的方法还可以包括以下操作:当电子装置未在预定模式下操作时,限制与预定事件相关的信息的发送。
根据各种示例实施例的操作服务器(例如,图1的智能服务器200或图6的服务器600)的方法可以包括以下操作:通过通信电路(例如,图6的通信电路605)从电子装置(例如,图1的用户终端100、图4的电子装置401或图5的电子装置500)接收与预定事件相关的信息;基于与预定事件相关的信息生成包括可由用户选择以控制与预定事件相对应的应用的功能的至少一个视觉对象的用户界面;通过通信电路向电子装置发送与用户界面相关的信息;通过通信电路从电子装置接收与用户说出的输入相关的信息,该用户说出的输入用于选择用户界面中包括的至少一个视觉对象中的一个;以及基于与用户说出的输入相关的信息,通过通信电路向电子装置发送用于执行与用户说出的输入所选择的视觉对象相对应的应用的功能的控制信号。
根据各种示例实施例,与预定事件相关的信息可以包括以下至少一条信息:关于与预定事件相对应的应用的信息、与该应用的功能相关的信息、与用户界面的生成相关的信息或电子装置的标识信息。
根据各种示例实施例,生成包括可由用户选择的至少一个视觉对象的用户界面的操作可以包括如下操作:基于与预定事件相关的信息,在存储在存储器中的至少一个应用当中选择与预定事件相对应的应用;以及基于所选应用生成用户界面。
根据各种示例实施例,与预定事件相关的信息可以包括以下至少一条信息:与预定事件相对应的意图相关的信息、关于用户界面的生成的信息或电子装置的标识信息。
根据各种示例实施例,生成包括可由用户选择的至少一个视觉对象的用户界面的操作可以包括以下操作:基于与预定事件相关的信息来识别与预定事件相对应的意图;基于存储在存储器中的意图信息来确定与意图相对应的功能;以及基于所确定的功能来生成用户界面。
根据各种示例实施例,生成包括可由用户选择的至少一个视觉对象的用户界面的操作可以包括以下操作:响应于从电子装置接收到与预定事件相关的信息来识别对应用的偏好;确定对应用的偏好是否大于参考值;以及当对应用的偏好大于参考值时,生成用户界面。
根据各种示例实施例,操作服务器的方法可以包括以下操作:当对应用的偏好等于或小于参考值时,限制与预定事件相关联的生成。
根据各种示例实施例的操作服务器(例如,图1的智能服务器200或图6的服务器600)的方法可以包括以下操作:通过通信电路(例如,图6的通信电路605)从另一服务器接收与预定事件相关的信息;识别安装了与预定事件相对应的应用的电子装置(例如,图1的用户终端100、图4的电子装置401或图5的电子装置500);基于与预定事件相关的信息生成包括可由用户选择以控制与预定事件相对应的应用的功能的至少一个视觉对象的用户界面;通过通信电路向电子装置发送与用户界面相关的信息;通过通信电路从电子装置接收与用户说出的输入相关的信息,该用户说出的输入用于选择用户界面中包括的至少一个视觉对象中的一个;以及基于与用户说出的输入相关的信息,通过通信电路向电子装置发送用于执行与用户说出的输入所选择的视觉对象相对应的应用的功能的控制信号。
根据各种示例实施例,与预定事件相关的信息可以包括以下至少一条信息:与预定事件相对应的意图相关的信息、关于用户界面的生成的信息、电子装置的标识信息或安装了应用的电子装置的标识信息。
根据各种示例实施例,生成包括可由用户选择的至少一个视觉对象的用户界面的操作可以包括以下操作:基于与预定事件相关的信息,在存储在存储器(例如,图6的存储器603)中的至少一个应用当中选择与预定事件相对应的应用;以及基于所选择的应用来生成用户界面。
根据各种示例实施例,与预定事件相关的信息可以包括以下至少一条信息:与预定事件相对应的意图相关的信息、关于用户界面的生成的信息、电子装置的标识信息或安装了应用的电子装置的标识信息。
根据各种示例实施例,生成包括可由用户选择的至少一个视觉对象的用户界面的操作可以包括以下操作:基于与预定事件相关的信息来识别与预定事件相对应的意图;基于存储在存储器中的意图信息来确定与意图相对应的功能;以及基于所确定的功能来生成用户界面。
根据各种示例实施例的电子装置及其方法可以增加用户使用语音识别服务的趋势,因为即使未检测到用户说出的输入,电子装置也基于预定事件向用户提供语音识别服务。
通过本公开可获得的效果不限于上述效果,并且本领域技术人员从以下描述中可以清楚地理解未提及的其他效果。
根据各种实施例的电子装置可以是各种类型的电子装置之一。电子装置可包括例如便携式通信装置(例如,智能电话)、计算机装置、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器。根据本公开的实施例,电子装置不限于以上所述的那些电子装置。
应该理解的是,本公开的各种实施例以及其中使用的术语并不意图将在此阐述的技术特征限制于具体实施例,而是包括针对相应实施例的各种改变、等同形式或替换形式。对于附图的描述,相似的参考标号可用来指代相似或相关的元件。
将理解的是,与术语相应的单数形式的名词可包括一个或更多个事物,除非相关上下文另有明确指示。如这里所使用的,诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的短语中的每一个短语可包括在与所述多个短语中的相应一个短语中一起列举出的项的任意一项或所有可能组合。
如这里所使用的,诸如“第1”和“第2”或者“第一”和“第二”的术语可用于将相应部件与另一部件进行简单区分,并且不在其它方面(例如,重要性或顺序)限制所述部件。将理解的是,在使用了术语“可操作地”或“通信地”的情况下或者在不使用术语“可操作地”或“通信地”的情况下,如果一元件(例如,第一元件)被称为“与另一元件(例如,第二元件)结合”、“结合到另一元件(例如,第二元件)”、“与另一元件(例如,第二元件)连接”或“连接到另一元件(例如,第二元件)”,则意味着所述一元件可与所述另一元件直接(例如,有线地)连接、与所述另一元件无线连接、或经由第三元件与所述另一元件连接。
如这里所使用的,术语“模块”可包括以硬件、软件或固件实现的单元,并可与其他术语(例如,“逻辑”、“逻辑块”、“部分”或“电路”)可互换地使用。模块可以是被适配为执行一个或更多个功能的单个集成部件或者是该单个集成部件的最小单元或部分。例如,根据实施例,可以以专用集成电路(ASIC)的形式来实现模块。
可将在此阐述的各种实施例实现为包括存储在存储介质(例如,内部存储器436或外部存储器438)中的可由机器(例如,电子装置401)读取的一个或更多个指令的软件(例如,程序440)。例如,在处理器的控制下,所述机器(例如,电子装置401)的处理器(例如,处理器420)可在使用或无需使用一个或更多个其它部件的情况下调用存储在存储介质中的所述一个或更多个指令中的至少一个指令并运行所述至少一个指令。这使得所述机器能够操作用于根据所调用的至少一个指令执行至少一个功能。所述一个或更多个指令可包括由编译器产生的代码或能够由解释器运行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。其中,术语“非暂时性”仅意味着所述存储介质是有形装置,并且不包括信号(例如,电磁波),但是该术语并不在数据被半永久性地存储在存储介质中与数据被临时存储在存储介质中之间进行区分。
根据实施例,可在计算机程序产品中包括和提供根据本公开的各种实施例的方法。计算机程序产品可作为产品在销售者和购买者之间进行交易。可以以机器可读存储介质(例如,紧凑盘只读存储器(CD-ROM))的形式来发布计算机程序产品,或者可经由应用商店(例如,Play StoreTM)在线发布(例如,下载或上传)计算机程序产品,或者可直接在两个用户装置(例如,智能电话)之间分发(例如,下载或上传)计算机程序产品。如果是在线发布的,则计算机程序产品中的至少部分可以是临时产生的,或者可将计算机程序产品中的至少部分至少临时存储在机器可读存储介质(诸如制造商的服务器、应用商店的服务器或转发服务器的存储器)中。
根据各种实施例,上述部件中的每个部件(例如,模块或程序)可包括单个实体或多个实体。根据各种实施例,可省略上述部件中的一个或更多个部件,或者可添加一个或更多个其它部件。可选择地或者另外地,可将多个部件(例如,模块或程序)集成为单个部件。在这种情况下,根据各种实施例,该集成部件可仍旧按照与所述多个部件中的相应一个部件在集成之前执行一个或更多个功能相同或相似的方式,执行所述多个部件中的每一个部件的所述一个或更多个功能。根据各种实施例,由模块、程序或另一部件所执行的操作可顺序地、并行地、重复地或以启发式方式来执行,或者所述操作中的一个或更多个操作可按照不同的顺序来运行或被省略,或者可添加一个或更多个其它操作。
尽管已经参考各种示例实施例示出和描述了本公开,但是将理解,示例实施例旨在是说明性的,而不是限制性的。本领域技术人员将理解,在不脱离本公开的真实精神和全部范围(包括所附权利要求及其等同物)的情况下,可以在形式和细节上进行各种改变。
Claims (20)
1.一种电子装置,所述电子装置包括:
通信电路;
显示器;
麦克风;
处理器,所述处理器可操作地连接到所述通信电路、所述显示器和所述麦克风;以及
存储器,所述存储器可操作地连接到所述处理器,
其中,所述存储器被配置为存储指令,所述指令在被执行时使所述处理器控制所述电子装置:响应于通过应用检测到预定事件,通过所述通信电路向所述服务器发送与所述预定事件相关的信息;响应于接收到与用户界面相关的信息,通过所述显示器显示所述用户界面,所述用户界面包括用户可选择以通过所述通信电路控制所述应用的功能的至少一个视觉对象;通过所述麦克风接收用于选择所述用户界面中包括的所述至少一个视觉对象中的一个视觉对象的用户说出的输入;以及通过所述通信电路向所述服务器发送与所述用户说出的输入相关的信息,以执行与所述用户说出的输入所选择的视觉对象相对应的功能。
2.根据权利要求1所述的电子装置,其中,所述指令在被执行时进一步使所述处理器控制所述电子装置:通过所述通信电路从所述服务器接收用于执行与所述用户说出的输入所选择的视觉对象相对应的应用的功能的控制信号;以及执行与所述用户说出的输入所选择的视觉对象相对应的应用的功能。
3.根据权利要求1所述的电子装置,其中,与所述预定事件相关的信息包括以下至少一条信息:关于与所述预定事件相对应的应用的信息、与所述应用的功能相关的信息、关于所述用户界面的生成的信息或所述电子装置的标识信息。
4.根据权利要求1所述的电子装置,其中,与所述预定事件相关的信息包括以下至少一条信息:关于与所述预定事件相对应的意图的信息、关于所述用户界面的生成的信息或所述电子装置的标识信息。
5.根据权利要求1所述的电子装置,其中,所述指令在被执行时进一步使所述处理器控制所述电子装置:响应于检测到所述预定事件,识别对所述应用的偏好;确定对所述应用的偏好是否大于参考值;以及基于对所述应用的偏好大于所述参考值,则通过所述通信电路向所述服务器发送与所述预定事件相关的信息。
6.根据权利要求5所述的电子装置,其中,所述指令在被执行时进一步使所述处理器控制所述电子装置:基于对所述应用的偏好不大于参考值,限制与所述预定事件相关的信息的发送。
7.根据权利要求5所述的电子装置,其中,所述指令在被执行时进一步使所述处理器控制所述电子装置:基于所述应用的使用时间、使用频率或所述用户说出的输入,控制对所述应用的偏好。
8.根据权利要求1所述的电子装置,其中,所述指令在被执行时进一步使所述处理器控制所述电子装置:如果所述电子装置不以预定模式运行,则限制与所述预定事件相关的信息的发送。
9.一种服务器,所述服务器包括:
通信电路;
处理器,所述处理器可操作地连接到所述通信电路;以及
存储器,所述存储器可操作地连接到所述处理器,
其中,所述存储器被配置为存储指令,所述指令在被执行时使所述处理器控制所述服务器:
通过所述通信电路从所述电子装置接收与预定事件相关的信息;
基于与所述预定事件相关的信息生成用户界面,所述用户界面包括用户可选择以控制与所述预定事件相对应的应用的功能的至少一个视觉对象;
通过所述通信电路向所述电子装置发送与所述用户界面相关的信息;
通过所述通信电路从所述电子装置接收与用户说出的输入相关的信息,所述用户说出的输入用于选择所述用户界面中包括的至少一个视觉对象中的一个视觉对象;以及
基于与所述用户说出的输入相关的信息,通过所述通信电路向所述电子装置发送用于执行与所述用户说出的输入所选择的视觉对象相对应的应用的功能的控制信号。
10.根据权利要求9所述的服务器,其中,与所述预定事件相关的信息包括以下至少一条信息:关于与所述预定事件相对应的应用的信息、与所述应用的功能相关的信息、关于所述用户界面的生成的信息或所述电子装置的标识信息。
11.根据权利要求9所述的服务器,其中,所述指令在被执行时进一步使所述处理器控制所述服务器:基于与所述预定事件相关的信息,从所述存储器中存储的至少一个应用当中选择与所述预定事件相对应的应用;以及基于所选择的应用,生成所述用户界面。
12.根据权利要求9所述的服务器,其中,与所述预定事件相关的信息包括以下至少一条信息:关于与所述预定事件相对应的意图的信息、关于所述用户界面的生成的信息或所述电子装置的标识信息。
13.根据权利要求12所述的服务器,其中,所述指令在被执行时进一步使所述处理器控制所述服务器:基于与所述预定事件相关的信息,识别与所述预定事件相对应的意图;基于存储在所述存储器中的意图信息,确定与所述意图相对应的功能;以及基于所确定的功能,生成所述用户界面。
14.根据权利要求9所述的服务器,其中,所述指令在被执行时进一步使所述处理器控制所述服务器:响应于从所述电子装置接收到与所述预定事件相关的信息,识别对所述应用的偏好;确定对所述应用的偏好是否大于参考值;以及基于对所述应用的偏好大于所述参考值,则生成所述用户界面。
15.根据权利要求14所述的服务器,其中,所述指令在被执行时进一步使所述处理器控制所述服务器:基于对所述应用的偏好等于或小于所述参考值,限制与所述预定事件相关的生成。
16.一种服务器,所述服务器包括:
通信电路;
处理器,所述处理器可操作地连接到所述通信电路;以及
存储器,所述存储器可操作地连接到所述处理器,
其中,所述存储器被配置为存储指令,所述指令在被执行时使所述处理器控制所述服务器:通过所述通信电路从另一服务器接收与预定事件相关的信息;识别安装了与所述预定事件相对应的应用的电子装置;基于与所述预定事件相关的信息生成用户界面,所述用户界面包括用户可选择以控制与所述预定事件相对应的应用的功能的至少一个视觉对象;通过所述通信电路向所述电子装置发送与所述用户界面相关的信息;通过所述通信电路从所述电子装置接收与用户说出的输入相关的信息,所述用户说出的输入用于选择所述用户界面中包括的至少一个视觉对象中的一个视觉对象;以及基于与所述用户说出的输入相关的信息,通过所述通信电路向所述电子装置发送用于执行与所述用户说出的输入所选择的视觉对象相对应的功能的控制信号。
17.根据权利要求16所述的服务器,其中,与所述预定事件相关的信息包括以下至少一条信息:关于与所述预定事件相对应的应用的信息、与所述应用的功能相关的信息、关于所述用户界面的生成的信息、所述电子装置的标识信息或安装了所述应用的所述电子装置的标识信息。
18.根据权利要求17所述的服务器,其中,所述指令在被执行时进一步使所述处理器控制所述服务器:基于与所述预定事件相关的信息,从所述存储器中存储的至少一个应用当中选择与预定事件相对应的应用;以及基于所选择的应用,生成所述用户界面。
19.根据权利要求16所述的服务器,其中,与所述预定事件相关的信息包括以下至少一条信息:关于与所述预定事件相对应的意图的信息、关于所述用户界面的生成的信息、所述电子装置的标识信息或安装了所述应用的所述电子装置的标识信息。
20.根据权利要求19所述的服务器,其中,所述指令在被执行时进一步使所述处理器控制所述服务器:基于与所述预定事件相关的信息,识别与所述预定事件相对应的意图;基于存储在所述存储器中的意图信息,确定与所述意图相对应的功能;以及基于所确定的功能,生成所述用户界面。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190017305A KR20200099380A (ko) | 2019-02-14 | 2019-02-14 | 음성 인식 서비스를 제공하는 방법 및 그 전자 장치 |
KR10-2019-0017305 | 2019-02-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111640429A true CN111640429A (zh) | 2020-09-08 |
CN111640429B CN111640429B (zh) | 2024-05-03 |
Family
ID=69630165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010092187.8A Active CN111640429B (zh) | 2019-02-14 | 2020-02-14 | 提供语音识别服务的方法和用于该方法的电子装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11474780B2 (zh) |
EP (1) | EP3696660B1 (zh) |
KR (1) | KR20200099380A (zh) |
CN (1) | CN111640429B (zh) |
WO (1) | WO2020167006A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11978449B2 (en) | 2021-03-02 | 2024-05-07 | Samsung Electronics Co., Ltd. | Electronic device for processing user utterance and operation method therefor |
KR20220123932A (ko) * | 2021-03-02 | 2022-09-13 | 삼성전자주식회사 | 사용자 발화를 처리하기 위한 전자 장치 및 그 동작 방법 |
KR20230065049A (ko) * | 2021-11-04 | 2023-05-11 | 삼성전자주식회사 | 비전 정보를 이용하여 전자기기를 제어하는 웨어러블 전자 장치 및 방법 |
CN114564265B (zh) * | 2021-12-22 | 2023-07-25 | 上海小度技术有限公司 | 有屏智能设备的交互方法、装置以及电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100161522A1 (en) * | 2008-12-18 | 2010-06-24 | Motorola, Inc. | Increasing user input accuracy on a multifunctional electronic device |
CN103154949A (zh) * | 2010-08-11 | 2013-06-12 | 耐克国际有限公司 | 用户界面中的信息的智能显示 |
US8838437B1 (en) * | 2011-06-30 | 2014-09-16 | Google Inc. | Language classifiers for language detection |
CN105340006A (zh) * | 2013-07-08 | 2016-02-17 | 高通股份有限公司 | 用于向语音操作功能分配关键字模型的方法和装置 |
CN105389143A (zh) * | 2014-08-22 | 2016-03-09 | 三星电子株式会社 | 显示装置及其控制方法 |
CN106020856A (zh) * | 2015-03-30 | 2016-10-12 | 福特全球技术公司 | 用于车辆特征配置的方法和系统 |
CN107491295A (zh) * | 2016-06-11 | 2017-12-19 | 苹果公司 | 具有数字助理的应用集成 |
CN107924313A (zh) * | 2015-09-08 | 2018-04-17 | 苹果公司 | 分布式个人助理 |
EP3327719A1 (en) * | 2016-11-28 | 2018-05-30 | Samsung Electronics Co., Ltd. | Electronic device for processing multi-modal input, method for processing multi-modal input and server for processing multi-modal input |
CN108665890A (zh) * | 2017-03-28 | 2018-10-16 | 三星电子株式会社 | 操作语音识别服务的方法、电子设备和支持该设备的系统 |
CN108694944A (zh) * | 2017-04-05 | 2018-10-23 | 三星电子株式会社 | 通过使用框架生成自然语言表达的方法和设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
KR102009423B1 (ko) * | 2012-10-08 | 2019-08-09 | 삼성전자주식회사 | 음성 인식을 이용한 미리 설정된 동작 모드의 수행 방법 및 장치 |
US10445115B2 (en) * | 2013-04-18 | 2019-10-15 | Verint Americas Inc. | Virtual assistant focused user interfaces |
KR20160076264A (ko) | 2014-12-22 | 2016-06-30 | 엘지전자 주식회사 | 이동 단말기 및 그것의 제어방법 |
KR20170014297A (ko) * | 2015-07-29 | 2017-02-08 | 엘지전자 주식회사 | 와치 타입의 이동 단말기 및 그 제어 방법 |
US9978366B2 (en) * | 2015-10-09 | 2018-05-22 | Xappmedia, Inc. | Event-based speech interactive media player |
KR102041063B1 (ko) | 2016-02-18 | 2019-11-05 | 소니 주식회사 | 정보 처리 장치, 정보 처리 방법 및 프로그램 |
KR102388539B1 (ko) * | 2017-04-30 | 2022-04-20 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 |
KR102007478B1 (ko) * | 2017-06-28 | 2019-08-05 | 크리스토퍼 재현 윤 | 특정 조건에서 음성인식을 이용한 어플리케이션 제어 장치 및 방법 |
KR101860269B1 (ko) | 2017-08-21 | 2018-05-23 | 이지스엔터프라이즈 주식회사 | 대화형 음성 인터페이스 기반 자동 이체 처리를 위한 서버 및 방법 |
-
2019
- 2019-02-14 KR KR1020190017305A patent/KR20200099380A/ko unknown
-
2020
- 2020-02-13 WO PCT/KR2020/002062 patent/WO2020167006A1/en active Application Filing
- 2020-02-14 EP EP20157444.9A patent/EP3696660B1/en active Active
- 2020-02-14 US US16/791,073 patent/US11474780B2/en active Active
- 2020-02-14 CN CN202010092187.8A patent/CN111640429B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100161522A1 (en) * | 2008-12-18 | 2010-06-24 | Motorola, Inc. | Increasing user input accuracy on a multifunctional electronic device |
CN103154949A (zh) * | 2010-08-11 | 2013-06-12 | 耐克国际有限公司 | 用户界面中的信息的智能显示 |
US8838437B1 (en) * | 2011-06-30 | 2014-09-16 | Google Inc. | Language classifiers for language detection |
CN105340006A (zh) * | 2013-07-08 | 2016-02-17 | 高通股份有限公司 | 用于向语音操作功能分配关键字模型的方法和装置 |
CN105389143A (zh) * | 2014-08-22 | 2016-03-09 | 三星电子株式会社 | 显示装置及其控制方法 |
CN106020856A (zh) * | 2015-03-30 | 2016-10-12 | 福特全球技术公司 | 用于车辆特征配置的方法和系统 |
CN107924313A (zh) * | 2015-09-08 | 2018-04-17 | 苹果公司 | 分布式个人助理 |
CN107491295A (zh) * | 2016-06-11 | 2017-12-19 | 苹果公司 | 具有数字助理的应用集成 |
EP3327719A1 (en) * | 2016-11-28 | 2018-05-30 | Samsung Electronics Co., Ltd. | Electronic device for processing multi-modal input, method for processing multi-modal input and server for processing multi-modal input |
CN108121490A (zh) * | 2016-11-28 | 2018-06-05 | 三星电子株式会社 | 用于处理多模式输入的电子装置、方法和服务器 |
CN108665890A (zh) * | 2017-03-28 | 2018-10-16 | 三星电子株式会社 | 操作语音识别服务的方法、电子设备和支持该设备的系统 |
CN108694944A (zh) * | 2017-04-05 | 2018-10-23 | 三星电子株式会社 | 通过使用框架生成自然语言表达的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3696660A1 (en) | 2020-08-19 |
US11474780B2 (en) | 2022-10-18 |
WO2020167006A1 (en) | 2020-08-20 |
CN111640429B (zh) | 2024-05-03 |
US20200264839A1 (en) | 2020-08-20 |
KR20200099380A (ko) | 2020-08-24 |
EP3696660B1 (en) | 2023-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11393474B2 (en) | Electronic device managing plurality of intelligent agents and operation method thereof | |
CN112970059B (zh) | 用于处理用户话语的电子装置及其控制方法 | |
US11662976B2 (en) | Electronic device and method for sharing voice command thereof | |
CN111640429B (zh) | 提供语音识别服务的方法和用于该方法的电子装置 | |
US11151995B2 (en) | Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command | |
US12112751B2 (en) | Electronic device for processing user utterance and method for operating same | |
CN112912955B (zh) | 提供基于语音识别的服务的电子装置和系统 | |
US20210217406A1 (en) | Voice recognition service operating method and electronic device supporting same | |
US11810571B2 (en) | Electronic device configured to perform action using speech recognition function and method for providing notification related to action using same | |
CN113678119A (zh) | 用于生成自然语言响应的电子装置及其方法 | |
US10976997B2 (en) | Electronic device outputting hints in an offline state for providing service according to user context | |
US11557285B2 (en) | Electronic device for providing intelligent assistance service and operating method thereof | |
KR20200057426A (ko) | 음성 인식 기반 이미지를 표시하는 전자 장치 | |
US20220415325A1 (en) | Electronic device and method for processing user input | |
US20200051555A1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
KR20210044606A (ko) | 웨이크업 모델 생성 방법 및 이를 위한 전자 장치 | |
KR20210111423A (ko) | 사용자 입력을 처리하는 전자 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |