CN110998720B - 话音数据处理方法及支持该方法的电子设备 - Google Patents
话音数据处理方法及支持该方法的电子设备 Download PDFInfo
- Publication number
- CN110998720B CN110998720B CN201880053757.3A CN201880053757A CN110998720B CN 110998720 B CN110998720 B CN 110998720B CN 201880053757 A CN201880053757 A CN 201880053757A CN 110998720 B CN110998720 B CN 110998720B
- Authority
- CN
- China
- Prior art keywords
- information
- electronic device
- tasks
- user
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title description 7
- 238000004891 communication Methods 0.000 claims abstract description 98
- 238000000034 method Methods 0.000 claims abstract description 80
- 230000014509 gene expression Effects 0.000 claims description 91
- 238000012545 processing Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 description 102
- 230000000875 corresponding effect Effects 0.000 description 89
- 239000003795 chemical substances by application Substances 0.000 description 77
- 230000006870 function Effects 0.000 description 39
- 230000004044 response Effects 0.000 description 38
- 238000010586 diagram Methods 0.000 description 35
- 230000008859 change Effects 0.000 description 25
- 238000013473 artificial intelligence Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000003642 hunger Nutrition 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000004622 sleep time Effects 0.000 description 2
- 230000037351 starvation Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003925 brain function Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003155 kinesthetic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001907 polarising light microscopy Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/041—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
公开了一种电子设备及方法。该电子设备包括:触摸屏、麦克风、扬声器、无线通信电路、处理器和存储器。存储器存储由处理器可运行的指令以:通过麦克风接收第一用户话语;通过无线通信电路向外部服务器发送通过无线通信电路接收到的第一用户话语;通过无线通信电路接收由外部服务器使用自动语音识别(ASR)生成的第一文本数据;当第一文本数据包括至少一个预存储的字、短语和句子时,确认映射到至少一个预存储的字、词组和句子的至少一项任务;以及利用顺序运行或并行运行中的至少一种来执行所确认的至少一项任务。
Description
技术领域
本公开涉及话音数据处理技术。
背景技术
人工智能系统(或“集成智能系统”)是指系统自学习并形成确定,从而随着在操作中使用而提高识别率。一个示例是由计算机系统模拟某种形式的人类智能的计算机系统
人工智能技术可以包括与模拟人脑功能(例如识别、确定等的操作)的元件技术协同工作的、使用对各条输入数据的特征进行分类和/或学习的机器学习算法的机器学习(即“深度学习”)技术。
例如,元件技术可以包括以下技术中的一种或更多种:识别人类的语言或字符的语言识别技术;如同人类视觉一样地识别对象的视觉理解技术;确定信息以逻辑地推理并预测所确定的信息的推理或预测技术;将人类体验信息处理为知识数据的知识表达技术;以及控制车辆的自主驾驶和机器人的运动的操作控制技术。
作为识别和应用/处理人类语言/字符的技术,上述基本技术之间的语言学理解包括自然语言处理、机器翻译、对话系统、查询响应、语音识别/合成等。
同时,配备有人工智能系统的电子设备可以分析通过用户的话语而输入的话音数据,可以基于分析结果确定在电子设备或连接到该电子设备的外部电子设备中要执行的任务,可以允许由电子设备或外部电子设备执行该任务。
以上信息仅作为背景信息呈现,以帮助理解本公开。关于以上内容中的任何内容是否可以用作关于本公开的现有技术,没有确定,也没有断言。
发明内容
技术问题
然而,在电子设备通过用户的话语执行多项任务的情况下,所述电子设备除了接收用于请求执行任务的话音命令之外没有机会针对每项任务。即,所述电子设备没有机会,只能响应于由所述用户的话语输入的一个话音命令而执行仅一项任务。另外,仅在用于请求执行任务的话音命令包括与所述任务相关联的表达(诸如字、短语或句子)的情况下,所述电子设备才可以执行所述任务。
本公开的各方面将至少解决上述问题和/或缺点,并至少提供下述优点。因此,本公开的一方面在于提供一种处理与用于请求执行多项任务的话音命令相关联的话音数据的方法以及支持该方法的电子设备。
技术方案
根据本公开的一方面,一种电子设备包括:触摸屏;麦克风;无线通信电路;至少一个处理器,所述至少一个处理器可操作地耦接到所述触摸屏、所述麦克风和所述无线通信电路;以及至少一个存储器。所述至少一个存储器存储有所述至少一个处理器可运行以使所述电子设备执行以下操作的编程指令:通过所述麦克风接收第一用户话语;通过所述无线通信电路通过所述无线通信电路向外部服务器发送接收到的第一用户话语;通过所述无线通信电路接收由所述外部服务器生成的第一文本数据;当所述第一文本数据包括至少一个预存储的字、短语和句子时,确认映射到所述至少一个预存储的字、词组和句子的至少一项任务;以及利用顺序运行或并行运行中的至少一种来运行所确认的至少一项任务。
根据本公开的另一方面,一种电子设备包括:麦克风;通信电路;至少一个处理器,所述至少一个处理器电耦接至所述麦克风和所述通信电路;以及存储器。所述存储器存储由所述至少一个处理器可运行的编程指令,以使所述电子设备:存储映射到与多个第一任务相关联的第一信息的第一表达,通过所述麦克风接收用户的第一话音输入,通过所述通信电路向外部服务器发送所述第一话音输入;通过所述通信电路从所述外部服务器接收由所述外部服务器针对所发送的第一话音输入生成的第一文本数据;在所述存储器搜索与所述第一文本数据匹配的任何存储的表达;当所述第一表达被确认为匹配所述第一文本数据时,通过所述通信电路向所述外部服务器发送与所述多个第一任务相关联的所述第一信息;通过所述通信电路从所述外部服务器接收第二信息,所述第二信息指示与运行由所述外部服务器确认为与所述第一信息匹配的所述多个第一任务相关的所述电子设备的状态序列;以及根据所述第二信息运行所述多个第一任务,其中,所述第一表达包括指定字、指定短语和指定句子中的至少一个。
根据本公开的另一方面,公开了一种电子设备中的话音数据处理方法,所述方法包括:由存储器存储映射到关于多个第一任务的第一信息的第一表达;通过麦克风接收用户的第一话音输入;通过通信电路向外部服务器发送接收到的第一话音输入;通过所述通信电路从所述外部服务器接收由所述外部服务器对所述第一话音输入应用自动语音识别(ASR)而生成的第一文本数据;在所述存储器搜索与所述第一文本数据匹配的任何存储的表达;当所述第一表达被确认为与所述第一文本数据匹配时,通过所述通信电路向所述外部服务器发送与所述多个第一任务相关联的所述第一信息;通过所述通信电路从所述外部服务器接收第二信息,所述第二信息指示与运行由所述外部服务器确认为匹配所述第一信息的所述多个第一任务相关的所述电子设备的状态序列;以及根据所述第二信息,运行所述多个第一任务,其中,所述第一表达包括指定字、指定短语和指定句子中的至少一个。
根据本公开的另一方面,一种电子设备包括:麦克风;通信电路;电连接到所述麦克风和所述通信电路的处理器;以及存储器,所述存储器电连接到所述处理器并存储映射到关于多项任务的信息的表达。所述存储器存储指令,所述指令在被执行时使所述处理器:通过所述麦克风接收所述用户的话音输入;通过所述通信电路向能够执行ASR的外部服务器发送与所述话音输入相对应的话音数据;通过所述通信电路从所述外部服务器接收作为与所述话音数据相关联的所述ASR的结果而生成的所述文本数据;在所述存储器中搜索与所述文本数据相对应的所述表达;当存在与所述文本数据相对应的所述表示时,通过使用关于所述多个任务的信息来执行所述多项任务。关于多项任务的信息包括关于用于执行所述多项任务的所述电子设备的状态序列的信息。所述表达包括与用于显式请求所述多项任务的运行的话音命令不同的指定字、短语或句子。
根据本公开的各个实施例,可以将用于请求执行任务的话音命令指派为特定表达,从而通过容易且方便的话语来执行所述任务。
发明的有益效果
而且,根据本公开的各个实施例,可以通过一个指定表达的话语来执行多项任务,从而通过话语快速方便地执行所述任务。
此外,可以提供通过本公开直接地或间接地理解的各种效果。
根据结合附图公开了本公开的各个实施例的以下详细描述,本公开的其他方面、优点和显著特征对于本领域技术人员将变得显而易见。
附图说明
从结合附图的以下描述中,本公开的某些实施例的以上及其他方面、特征和优点将更显而易见,在附图中:
图1是例示了根据本公开的各个实施例的集成智能系统的视图。
图2是例示了根据本公开的实施例的集成智能系统的用户终端的框图。
图3是例示了根据本公开的实施例的运行用户终端的智能应用(app)的视图。
图4是例示了根据本公开的实施例的智能服务模块的上下文模块收集当前状态的图。
图5是例示了根据本公开的实施例的智能服务模块的建议模块的框图。
图6是例示了根据本公开的实施例的集成智能系统的智能服务器的框图。
图7是例示了根据本公开的实施例的路径规划器模块的路径规则生成方法的图。
图8是例示了根据本公开的实施例的智能服务模块的角色模块管理用户的信息的图。
图9是根据本公开的实施例的与话音数据处理相关联的系统的框图。
图10是例示了根据本公开的实施例的快捷命令的数据结构的图。
图11a是例示了根据本公开的实施例的与话音数据处理相关联的电子设备的操作方法的流程图。
图11b是例示了根据本公开的另一实施例的与话音数据处理相关联的电子设备的操作方法的流程图。
图12是根据本公开的实施例的用于描述执行多项任务的方法的流程图。
图13是根据本公开的实施例的用于描述顺序执行多项任务的方法的流程图。
图14是根据本公开的实施例的用于描述根据任务的运行提供反馈的方法的图。
图15是根据本公开的实施例的用于描述在不提供根据任务的运行的反馈的情况下输出最后任务的运行结果的方法的图。
图16是根据本公开的实施例的用于描述并行地执行多项任务的方法的图。
图17a、图17b和图17c是根据本公开的实施例的用于描述通过推荐生成快捷命令的方法的视图。
图18a和图18b是根据本公开的实施例的用于描述通过推荐生成快捷命令的方法的视图。
图19a至图19f是根据本公开的实施例的用于描述通过用户的话语历史信息生成快捷命令的方法的视图。
图20a至图20f是根据本公开的实施例的用于描述通过搜索话音命令来生成快捷命令的方法的视图。
图21a至图21c是根据本公开的实施例的用于描述基于预存储的快捷命令生成快捷命令的方法的视图。
图22a至图22d是根据本公开的实施例的用于描述编辑话音命令中包括的参数信息的方法的视图。
图23是根据本公开的实施例的用于描述编辑快捷命令的方法的视图。
图24a至图24d是根据本公开的实施例的用于描述在通过用户的话语生成快捷命令时设置话音命令中包括的参数的方法的视图。
图25是根据本公开的实施例的用于描述共享快捷命令的方法的视图。
图26是例示了根据本公开的各个实施例的在网络环境中的电子设备的框图。
在整个附图中,应当注意的是,相似的附图标记用于描绘相同或相似的元件、特征和结构。
具体实施例
在描述本公开的实施例之前,将描述本公开的实施例能够应用于的集成智能系统。
图1是例示了根据本公开的各个实施例的集成智能系统的视图。
参照图1,集成智能系统10可以包括用户终端100、智能服务器200、个人信息服务器300或建议服务器400。
用户终端100可以通过存储在用户终端100中的app(或应用程序)(例如,闹钟app、消息app、照片(图库)app等)为用户提供服务。例如,用户终端100可以通过存储在用户终端100中的智能app(或语音识别app)来启动和操作另一app。用户终端100可以接收用于通过智能app来启动或操作另一app的用户输入。例如,可以通过物理按钮、触摸板、话音输入、远程输入等来接收用户输入。根据实施例,诸如移动电话、智能电话、个人数字助理(PDA)、笔记本计算机等的与互联网连接的各种类型的终端设备(或电子设备)可以对应于用户终端100。
根据实施例,用户终端100可以接收用户话语作为用户输入。用户终端100可以接收用户话语并且可以基于用户话语生成用于操作app的命令。如此,用户终端100可以通过使用命令来操作app。
智能服务器200可以通过通信网络从用户终端100接收用户话音输入并且可以将该话音输入转换为文本数据。在另一实施例中,智能服务器200可以基于文本数据生成(或选择)路径规则。路径规则可以包括关于执行app的功能的动作(或操作)的信息或关于执行动作所利用的参数的信息。另外,路径规则可以包括app的动作的顺序。用户终端100可以接收路径规则,可以依据路径规则来选择app,并且可以在所选择的app中运行路径规则中包括的动作。
通常,本公开的术语“路径规则”可以指但不限于电子设备执行用户所请求的任务的状态序列。换句话说,路径规则可以包括关于状态序列的信息。例如,任务可以是智能app能够提供的某个动作。任务可以包括生成日程,向期望的另一方发送照片,或提供天气信息。用户终端100可以通过顺序地具有至少一个或更多个状态(例如,用户终端100的操作状态)来执行任务。
根据实施例,路径规则可以由人工智能(AI)系统提供或生成。人工智能系统可以是基于规则的系统,或者可以是基于神经网络的系统(例如,前馈神经网络(FNN)或递归神经网络(RNN))。另选地,人工智能系统可以是上述系统的组合或者是不同于上述系统的人工智能系统。根据实施例,可以从一组预定义的路径规则中选择路径规则,或者可以响应于用户请求而实时地生成路径规则。例如,人工智能系统可以至少选择预定义的多个路径规则中的路径规则,或者可以动态地(或实时地)生成路径规则。此外,用户终端100可以使用混合系统来提供路径规则。
根据实施例,用户终端100可以执行动作并且可以在显示器中显示与执行该动作的用户终端100的状态相对应的画面。又例如,用户终端100可以执行动作,并且可以不在显示器中显示通过执行动作而获得的结果。例如,用户终端100可以执行多个动作,并且可以在显示器中显示多个动作的一部分的结果。例如,用户终端100可以在显示器中显示通过执行最后的动作而获得的结果。又例如,用户终端100可以接收用户输入以在显示器中显示通过执行动作而获得的结果。
个人信息服务器300可以包括存储有用户信息的数据库。例如,个人信息服务器300可以从用户终端100接收用户信息(例如,上下文信息、关于app运行的信息等)并且可以将该用户信息存储在数据库中。智能服务器200可以通过通信网络从个人信息服务器300接收用户信息并且可以在生成与用户输入相关联的路径规则时使用用户信息。根据实施例,用户终端100可以通过通信网络从个人信息服务器300接收用户信息,并且可以将该用户信息用作管理数据库的信息。
建议服务器400可以包括存储关于终端中的功能、应用的介绍或要提供的功能的信息的数据库。例如,建议服务器400可以从个人信息服务器300接收用户终端100的用户信息并且可以包括存储关于用户能够利用的功能的的信息的数据库。用户终端100可以通过通信网络从建议服务器400接收关于要提供的功能的信息并且可以将所接收的信息提供给用户。
图2是例示了根据本公开的实施例的集成智能系统的用户终端的框图。
参照图2,用户终端100可以包括输入模块110、显示器120、扬声器130、存储器140或处理器150。用户终端100还可以包括壳体,并且用户终端100的元件可以安放在壳体中或者可以位于壳体上。用户终端100还可以包括位于壳体中的通信电路。用户终端100可以通过通信电路向外部服务器(例如,智能服务器200)发送数据(或信息)或从外部服务器(例如,智能服务器200)接收数据(或信息)。
根据实施例,输入模块110可以从用户接收用户输入。例如,输入模块110可以从所连接的外部设备(例如,键盘或头戴式耳机)接收用户输入。又例如,输入模块110可以包括耦接至显示器120的触摸屏(例如,触摸屏显示器)。又例如,输入模块110可以包括置于用户终端100(或用户终端100的壳体)中的硬件键(或物理键)。
根据实施例,输入模块110可以包括能够接收用户的话语作为声音信号的麦克风。例如,输入模块110可以包括语音输入系统,并且可以通过语音输入系统接收用户的话语作为声音信号。例如,麦克风可以通过壳体的一部分(例如,第一部分)而暴露出来。
根据实施例,显示器120可以显示图像、视频和/或应用的运行画面。例如,显示器120可以显示app的图形用户界面(GUI)。根据实施例,显示器120可以暴露于壳体的一部分(例如,第二部分)。
根据实施例,扬声器130可以输出声音信号。例如,扬声器130可以向外部输出在用户终端100中生成的话音信号。根据实施例,扬声器130可以暴露于壳体的一部分(例如,第三部分)。
根据实施例,存储器140可以存储多个app(或应用程序)141和143。例如,多个app141和143可以是用于执行与用户输入相对应的功能的程序。根据实施例,存储器140可以存储智能代理145、运行管理器模块147或智能服务模块149。例如,智能代理145、运行管理器模块147和智能服务模块149可以是用于处理接收到的用户输入(例如,用户话语)的框架(或应用框架)。
根据实施例,存储器140可以包括能够存储识别用户输入所利用的信息的数据库。例如,存储器140可以包括能够存储日志信息的日志数据库。又例如,存储器140可以包括能够存储用户信息的角色数据库。
根据实施例,存储器140可以存储多个app 141和143,并且可以加载多个app 141和143以进行操作。例如,存储在存储器140中的多个app 141和143可以在由运行管理器模块147加载之后进行操作。多个app 141和143可以包括执行功能的运行服务模块141a和143a。在实施例中,出于执行功能的目的,多个app 141和143可以通过运行服务模块141a和143a执行多个动作(例如,状态序列)141b和143b。换句话说,运行服务模块141a和143a可以由运行管理器模块147激活,然后可以执行多个动作141b和143b。
根据实施例,当执行app 141和143的动作141b和143b时,可以在显示器120中显示根据动作141b和143b的执行的运行状态画面。例如,运行状态画面可以是在动作141b和143b完成的状态下的画面。又例如,运行状态画面可以是在动作141b和143b的执行处于部分登陆(例如,在未输入动作141b和143b所利用的参数的情况下)的状态下的画面。
根据实施例,运行服务模块141a和143a可以依据路径规则来执行动作141b和143b。例如,运行服务模块141a和143a可以由运行管理器模块147激活,可以依据路径规则从运行管理器模块147接收执行请求,并且可以通过依据执行请求来执行动作141b和143b而执行app 141和143的功能。当动作141b和143b的执行完成时,运行服务模块141a和143a可以向运行管理器模块147发送完成信息。
根据实施例,在分别在app 141和143中执行多个动作141b和143b的情况下,可以顺序地执行多个动作141b和143b。当一个动作(例如,第一app 141的动作1或第二app 143的动作1)的执行完成时,运行服务模块141a和143a可以打开下一动作(例如,第一app 141的动作2或第二app 143的动作2),并且可以向运行管理器模块147发送完成信息。这里,理解的是,打开任意动作是将任意动作的状态变更为可运行状态或准备执行动作。换句话说,当任意动作未打开时,不可以执行相应的动作。当接收到完成信息时,运行管理器模块147可以向运行服务模块141a和143a发送与下一动作(例如,第一app 141的动作2或第二app143的动作2)相关联的执行请求。根据实施例,在启动多个app 141和143的情况下,可以顺序地启动多个app 141和143。例如,当在执行了第一app 141的最后动作(例如,第一app141的动作3)之后接收到完成信息时,运行管理器模块147可以向运行服务模块143a发送第二app 143的第一动作(例如,第二app 143的动作1)的执行请求。
根据实施例,在app 141和143中执行多个动作141b和143b的情况下,可以在显示器120中显示根据已执行的多个动作141b和143b中的每一个的执行的结果画面。根据实施例,可以在显示器120中显示根据已执行的多个动作141b和143b的多个结果画面的一部分。
根据实施例,存储器140可以存储与智能代理145结合操作的智能app(例如,语音识别app)。与智能代理145结合操作的app可以接收并处理用户的话语作为话音信号。根据实施例,与智能代理145结合操作的app可以按照通过输入模块110输入的特定输入(例如,通过硬件键的输入、通过触摸屏的输入或特定的话音输入)来操作。
根据实施例,存储在存储器140中的智能代理145、运行管理器模块147或智能服务模块149可以由处理器150执行。智能代理145、运行管理器模块147或智能服务模块149的功能可以由处理器150来实现。描述了智能代理145、运行管理器模块147和智能服务模块149中的每一个的功能是处理器150的操作。根据实施例,存储在存储器140中的智能代理145、运行管理器模块147或智能服务模块149可以用硬件以及软件来实现。
根据实施例,处理器150可以控制用户终端100的全部的动作。例如,处理器150可以控制输入模块110以接收用户输入。处理器150可以控制显示器120以显示图像。处理器150可以控制扬声器130以输出话音信号。处理器150可以控制存储器140以运行程序以及读取或存储信息。
在实施例中,处理器150可以运行存储在存储器140中的智能代理145、运行管理器模块147或智能服务模块149。如此,处理器150可以实现智能代理145、运行管理器模块147或智能服务模块149的功能。
根据实施例,处理器150可以运行智能代理145以基于作为用户输入而接收的话音信号来生成用于启动app的命令。根据实施例,处理器150可以依据所生成的命令来运行运行管理器模块147以启动存储器140中所存储的app 141和143。根据实施例,处理器150可以运行智能服务模块149以管理用户的信息,并且可以通过使用用户的信息来处理用户输入。
处理器150可以运行智能代理145以向智能服务器200发送通过输入模块110接收到的用户输入,并且可以通过智能服务器200处理用户输入。
根据实施例,在向智能服务器200发送用户输入之前,处理器150可以运行智能代理145以预处理用户输入。根据实施例,为了预处理用户输入,智能代理145可以包括自适应回声消除器(AEC)模块、噪声抑制(NS)模块、端点检测(EPD)模块或自动增益控制(AGC)模块。AEC可以去除用户输入中包含的回声。NS模块可以抑制用户输入中包含的背景噪声。EPD模块可以检测用户输入中包含的用户话音的端点,并且可以通过使用检测到的端点来搜索存在用户话音的部分。AGC模块可以识别用户输入,并且可以调整用户输入的音量以便适于处理识别出的用户输入。根据实施例,处理器150可以运行关于性能的所有预处理元件。然而,在另一实施例中,处理器150可以运行预处理元件的一部分以低功率操作。
根据实施例,出于识别用户的呼叫的目的,智能代理145可以运行存储在存储器140中的唤醒识别模块。如此,处理器150可以通过唤醒识别模块识别用户的唤醒命令,并且可以在接收到唤醒命令时运行用于接收用户输入的智能代理145。唤醒识别模块可以用低功率处理器(例如,音频编解码器中所包含的处理器)来实现。根据实施例,当通过硬件键接收到用户输入时,处理器150可以运行智能代理145。在运行智能代理145的情况下,可以运行与智能代理145结合操作的智能app(例如,语音识别app)。
根据实施例,智能代理145可以包括用于执行用户输入的话语识别模块。处理器150可以通过话语识别模块来识别用于运行app中的动作的用户输入。例如,处理器150可以通过话语识别模块识别用于执行app 141和143中诸如唤醒命令之类的动作的有限用户(话音)输入(例如,用于在运行相机app时执行拍摄操作的诸如“点击”的话语)。例如,处理器150可以辅助智能服务器200以通过话语识别模块来识别并快速处理能够在用户终端100中处理的用户命令。根据实施例,可以在app处理器中实现用于运行用户输入的智能代理145的话语识别模块。
根据实施例,智能代理145的话语识别模块(包括唤醒模块的话语识别模块)可以通过使用用于识别话音的算法来识别用户输入。例如,用于识别话音的算法可以是隐马尔可夫模型(HMM)算法、人工神经网络(ANN)算法或动态时间规整(DTW)算法中的至少一种。
根据实施例,处理器150可以运行智能代理145以将用户的话音输入转换为文本数据。例如,处理器150可以通过智能代理145向智能服务器200发送用户的话音,并且可以从智能服务器200接收与用户的话音相对应的文本数据。如此,处理器150可以在显示器120中显示转换后的文本数据。
根据实施例,处理器150可以运行智能代理145以从智能服务器200接收路径规则。根据实施例,处理器150可以通过智能代理145向运行管理器模块147发送路径规则。
根据实施例,处理器150可以运行智能代理145以向智能服务模块149发送根据从智能服务器200接收到的路径规则的运行结果日志,并且可以在角色模块149b的用户偏好信息中积累和管理所发送的运行结果日志。
根据实施例,处理器150可以运行运行管理器模块147,可以从智能代理145接收路径规则,并且可以运行app 141和143;并且处理器150可以允许app 141和143执行路径规则中包括的动作141b和143b。例如,处理器150可以通过运行管理器模块147向app 141和143发送用于执行动作141b和143b的命令信息(例如,路径规则信息);以及处理器150可以从app 141和143接收动作141b和143b的完成信息。
根据实施例,处理器150可以运行运行管理器模块147,以在智能代理145与app141和143之间传输用于执行app 141和143的动作141b和143b的命令信息(例如,路径规则信息)。处理器150可以通过运行管理器模块147依据路径规则绑定要执行的app 141和143,并且可以向app 141和143发送路径规则中包括的动作141b和143b的命令信息(例如,路径规则信息)。例如,处理器150可以通过运行管理器模块147向app 141和143顺序发送路径规则中包括的动作141b和143b,并且可以依据路径规则顺序地执行app 141和143b的动作141b和143b。
根据实施例,处理器150可以运行运行管理器模块147以管理app 141和143的动作141b和143b的运行状态。例如,处理器150可以通过运行管理器模块147从app 141和143接收关于动作141b和143b的运行状态的信息。例如,在动作141b和143b的运行状态处于部分登陆的情况下(例如,在未输入动作141b和143b所利用的参数的情况下),处理器150可以通过运行管理器模块147向智能代理145发送关于部分登陆的信息。处理器150可以通过使用通过智能代理145接收到的信息向用户请求输入信息(例如,参数信息)。又例如,在动作141b和动作143b每一个的运行状态是操作状态的情况下,处理器150可以通过智能代理145从用户接收话语。处理器150可以通过运行管理器模块147向智能代理145发送关于正在运行的app 141和143以及app 141和143的运行状态的信息。处理器150可以通过智能代理145向智能服务器200发送用户的话语。处理器150可以通过智能代理145从智能服务器200接收用户的话语的参数信息。处理器150可以通过智能代理145向运行管理器模块147发送接收到的参数信息。运行管理器模块147可以通过使用接收到的参数信息将动作141b和143b的每一个的参数变更为新参数。
根据实施例,处理器150可以运行运行管理器模块147以向app 141和143发送路径规则中包括的参数信息。在依据路径规则顺序地运行多个app 141和143的情况下,运行管理器模块147可以将路径规则中包括的参数信息从一个app向另一app发送。
根据实施例,处理器可以运行运行管理器模块147以接收多个路径规则。处理器150可以基于用户的话语通过运行管理器模块147接收多个路径规则。例如,在用户话语指定了执行一个动作141b的一个app 141而没有指定执行另一动作143b的另一app 143的情况下,处理器150可以通过运行管理器模块147接收多个不同的路径规则,其中执行一个动作141b的相同的app 141(例如,图库app)被运行并且执行另一动作143b的不同app 143(例如,消息app或电话app)被运行。例如,处理器150可以通过运行管理器模块147执行多个路径规则的相同动作141b和143b(例如,相同的连续动作141b和143b)。在运行管理器模块147执行相同动作的情况下,处理器150可以通过运行管理器模块147在显示器120中显示用于选择多个路径规则中分别包括的不同app 141和143的状态画面。
根据实施例,智能服务模块149可以包括上下文模块149a、角色模块149b或建议模块149c。
处理器150可以执行上下文模块149a以从app 141和143收集app 141和143的当前状态。例如,处理器150可以运行上下文模块149a以接收指示app 141和143的当前状态的上下文信息,并且可以通过接收到的上下文信息来收集app 141和143的当前状态。
处理器150可以运行角色模块149b以管理使用用户终端100的用户的个人信息。例如,处理器150可以运行角色模块149b以收集用户终端100的使用信息和运行结果,并且可以通过使用用户终端100的所收集的使用信息和所收集的运行结果来管理用户的个人信息。
处理器150可以运行建议模块149c以预测用户的意图,并且可以基于用户的意图向用户推荐命令。例如,处理器150可以运行建议模块149c,以依据用户的当前状态(例如,时间、地点、情形或app)向用户推荐命令。
图3是例示了根据本公开的实施例的运行用户终端的智能app的视图。
图3例示了用户终端100接收用户输入以运行与智能代理145结合操作的智能app(例如,语音识别app)。
根据实施例,用户终端100可以通过硬件键112运行用于识别话音的智能app。例如,在用户终端100通过硬件键112接收到用户输入的情况下,用户终端100可以在显示器120中显示智能app的UI 121。例如,用户可以在智能app的UI 121显示在显示器120中的状态下,出于输入话音120b的目的,向智能app的UI 121触摸语音识别按钮121a。又例如,用户可以连续按下硬件键112以输入话音120b。
根据实施例,用户终端100可以通过麦克风111运行识别话音的智能app。例如,在通过麦克风111输入120a指定话音(例如,唤醒!)的情况下,用户终端100可以在显示器120中显示智能app的UI 121。
图4是例示了根据本公开的实施例的智能服务模块的上下文模块收集当前状态的图。
参照图4,当从智能代理145接收上下文请求(①)时,处理器150可以通过上下文模块149a请求指示app 141和143的当前状态的上下文信息(②)。根据实施例,处理器150可以通过上下文模块149a从app 141和143接收上下文信息(③),并且可以向智能代理145发送上下文信息(④)。
根据实施例,处理器150可以通过上下文模块149a从app 141和143接收多条上下文信息。上下文信息可以是关于最近运行的app 141和143的信息。又例如,上下文信息可以是关于app 141和143中的当前状态的信息(例如,在用户通过图库app观看图片的情况下,关于相应图片的信息)。
根据实施例,处理器150可以通过上下文模块149a从设备平台以及app 141和143接收指示用户终端100的当前状态的上下文信息。上下文信息可以包括一般上下文信息、用户上下文信息或设备上下文信息。
一般上下文信息可以包括用户终端100的一般信息。可以通过经由设备平台的传感器集线器等接收数据通过内部算法来验证一般上下文信息。例如,一般上下文信息可以包括关于当前时间和空间的信息。例如,关于当前时间和空间的信息可以包括关于用户终端100的当前时间或当前位置的信息。可以通过用户终端100上的时间来验证当前时间,并且关于当前位置的信息可以通过全球定位系统(GPS)来验证。又例如,一般上下文信息可以包括关于物理运动的信息。例如,关于物理运动的信息可以包括关于步行、跑步、驾驶等的信息。可以通过运动传感器来验证关于物理运动的信息。可以通过感测车辆中的蓝牙连接来验证关于驾驶的信息,使得通过运动传感器验证上车和停车以及验证驾驶。又例如,一般上下文信息可以包括用户活动信息。例如,用户活动信息可以包括关于通勤、购物、旅行等的信息。可以通过使用关于用户或app在数据库中注册的位置的信息来验证用户活动信息。
用户上下文信息可以包括关于用户的信息。例如,用户上下文信息可以包括关于用户的情绪状态的信息。例如,关于用户的情绪状态的信息可以包括关于用户的快乐、悲伤、愤怒等的信息。又例如,用户上下文信息可以包括关于用户的当前状态的信息。例如,关于用户的当前状态的信息可以包括关于兴趣、意图等的信息(例如,购物)。
设备上下文信息可以包括关于用户终端100的状态的信息。例如,设备上下文信息可以包括关于运行管理器模块147执行的路径规则的信息。又例如,设备上下文信息可以包括关于电池的信息。例如,关于电池的信息可以通过电池的充电和放电状态来验证。又例如,设备上下文信息可以包括关于已连接设备和网络的信息。例如,可以通过与设备连接的通信接口来验证关于已连接设备的信息。
图5是例示了根据本公开的实施例的智能服务模块的建议模块的框图。
参照图5,建议模块149c可以包括提示提供器模块149c_1、上下文提示生成模块149c_2、条件检查模块149c_3、条件模型模块149c_4、重新使用提示生成模块149c_5或介绍提示生成模块149c_6。
根据实施例,处理器150可以运行提示提供器模块149c_1以向用户提供提示。例如,处理器150可以通过提示提供器模块149c_1从上下文提示生成模块149c_2、重新使用提示生成模块149c_5或介绍提示生成模块149c_6接收所生成的提示,以向用户提供提示。
根据实施例,处理器150可以运行条件检查模块149c_3或条件模型模块149c_4以生成能够依据当前状态被推荐的提示。处理器150可以运行条件检查模块149c_3以接收与当前状态相对应的信息,并且可以运行条件模型模块149c_4以通过使用接收到的信息来设置条件模型。例如,处理器150可以运行条件模型模块149c_4以在向用户提供提示时的时间点掌握时间、位置、情形、正在运行的app等,从而可以以优先级的降序向用户提供在相应条件下可能要使用的提示。
根据实施例,处理器150可以运行重新使用提示生成模块149c_5来生成能够依据使用频率被推荐的提示。例如,处理器150可以运行重新使用提示生成模块149c_5以基于用户的使用模式来生成提示。
根据实施例,介绍提示生成模块149c_6可以生成用于向用户介绍新功能和另一用户最频繁使用的功能的提示。例如,用于介绍新功能的提示可以包括与智能代理145相关联的介绍(例如,操作方法)。
根据另一实施例,个人信息服务器300可以包括建议模块149c的上下文提示生成模块149c_2、条件检查模块149c_3、条件模型模块149c_4、重新使用提示生成模块149c_5或介绍提示生成模块149c_6。例如,处理器150可以通过建议模块149c的提示提供器模块149c_1从个人信息服务器300的上下文提示生成模块149c_2、重新使用提示生成模块149c_5或介绍提示生成模块149c_6接收提示,以向用户提供收到的提示。
根据实施例,用户终端100可以依据以下系列处理来提供提示。例如,当从智能代理145接收到提示生成请求时,处理器150可以通过提示提供器模块149c_1向上下文提示生成模块149c_2发送提示生成请求。当接收到提示生成请求时,处理器150可以通过条件检查模块149c_3从上下文模块149a和角色模块149b接收与当前状态相对应的信息。处理器150可以通过条件检查模块149c_3向条件模型模块149c_4发送接收到的信息,并且可以通过条件模型模块149c_4通过使用该信息在条件下按照高可用性的顺序向要提供给用户的提示当中的提示指派优先级。处理器150可以通过上下文提示生成模块149c_2来验证条件,并且可以生成与当前状态相对应的提示。处理器150可以通过上下文提示生成模块149c_2向提示提供器模块149c_1发送所生成的提示。处理器150可以通过提示提供器模块149c_1依据指定的规则对提示进行排序,并且可以向智能代理145发送提示。
根据实施例,处理器150可以通过提示提供器模块149c_1生成多个上下文提示,并且可以依据指定的规则为多个上下文提示指派优先级。根据实施例,处理器150可以通过提示提供器模块149c_1向用户首先提供多个上下文提示当中优先级高的上下文提示。
根据实施例,用户终端100可以根据使用频率来提议提示。例如,当从智能代理145接收到提示生成请求时,处理器150可以通过提示提供器模块149c_1向重新使用提示生成模块149c_5发送提示生成请求。当接收到提示生成请求时,处理器150可以通过重新使用提示生成模块149c_5从角色模块149b接收用户信息。例如,处理器150可以通过重新使用提示生成模块149c_5接收角色模块149b的用户偏好信息中所包括的路径规则、路径规则中所包括的参数、app的运行频率,以及关于使用app的时间和空间的信息。处理器150可以通过重新使用提示生成模块149c_5来生成与接收到的用户信息相对应的提示。处理器150可以通过重新使用提示生成模块149c_5向提示提供器模块149c_1发送所生成的提示。处理器150可以通过提示提供器模块149c_1对提示进行排序,并且可以向智能代理145发送提示。
根据实施例,用户终端100可以提议与新功能相关联的提示。例如,当从智能代理145接收到提示生成请求时,处理器150可以通过提示提供器模块149c_1向介绍提示生成模块149c_6发送提示生成请求。处理器150可以通过介绍提示生成模块149c_6,向建议服务器400发送介绍提示提供请求,并且可以从建议服务器400接收关于要介绍的功能的信息。例如,建议服务器400可以存储关于要介绍的功能的信息,并且可以由服务运营商来更新与要介绍的功能相关联的提示列表。处理器150可以通过介绍提示生成模块149c_6向提示提供器模块149c_1发送所生成的提示。处理器150可以通过提示提供器模块149c_1对提示进行排序,并且可以向智能代理145发送提示。
如此,处理器150可以通过建议模块149c向用户提供由上下文提示生成模块149c_2、重新使用提示生成模块149c_5或介绍提示生成模块149c_6生成的提示。例如,处理器150可以通过建议模块149c在操作智能代理145的app中显示所生成的提示,并且可以通过该app从用户接收用于选择该提示的输入。
图6是例示了根据本公开的实施例的集成智能系统的智能服务器的框图。
参照图6,智能服务器200可以包括自动语音识别(ASR)模块210、自然语言理解(NLU)模块220、路径规划器模块230、对话管理器(DM)模块240、自然语言生成器(NLG)模块250或文本到语音(TTS)模块260。根据实施例,智能服务器200可以包括通信电路、存储器和处理器。处理器可以执行存储在存储器中的指令以驱动ASR模块210、NLU模块220、路径规划器模块230、DM模块240、NLG模块250和TTS模块260。智能服务器200可以通过通信电路向外部电子设备(例如,用户终端100)发送数据(或信息)或者从外部电子设备(例如,用户终端100)接收数据(或信息)。
智能服务器200的NLU模块220或路径规划器模块230可以生成路径规则。
根据实施例,ASR模块210可以将从用户终端100接收到的用户输入(例如,话音数据)转换为文本数据。例如,ASR模块210可以包括话语识别模块。话语识别模块可以包括声学模型和语言模型。例如,声学模型可以包括与发声相关联的信息,语言模型可以包括单位音素信息和关于单位音素信息的组合的信息。话语识别模块可以通过使用与发声相关联的信息和单位音素信息将用户语音改变成文本数据。例如,关于声学模型和语言模型的信息可以存储在自动语音识别数据库(ASR DB)211中。
根据实施例,NLU模块220可以通过执行句法分析或语义分析来掌握用户意图。句法分析可以将用户输入划分成句法单元(例如,字、短语、语素等),并确定所划分的单位具有哪些句法元素。可以通过使用语义匹配、规则匹配、公式匹配等来执行语义分析。如此,NLU模块220可以获得域、意图或用户输入表达意图所利用的参数(或时隙)。
根据实施例,NLU模块220可以通过使用被划分为域、意图和掌握意图所利用的参数(或时隙)的匹配规则来确定用户的意图和参数。例如,一个域(例如,闹钟)可以包括多个意图(例如,闹钟设置、闹钟取消等),并且一个意图可以包括多个参数(例如,时间、迭代次数、闹钟声音等)。例如,多个规则可以包括一个或更多个参数。匹配规则可以存储在自然语言理解数据库(NLU DB)221中。
根据实施例,NLU模块220可以通过使用诸如语素、短语等的语言学特征(例如,语法元素)来掌握从用户输入中提取的字的含义,并且可以将所掌握的字的含义匹配到域和意图,以确定用户意图。例如,出于确定用户意图的目的,NLU模块220可以计算在域和意图中的每一个中包括了从用户输入中提取的多少个字。根据实施例,NLU模块220可以通过使用作为用于掌握意图的基础的字来确定用户输入的参数。根据实施例,NLU模块220可以通过使用存储用于掌握用户输入的意图的语言特征的NLU DB 221来确定用户意图。根据另一实施例,NLU模块220可以通过使用个人语言模型(PLM)来确定用户意图。例如,NLU模块220可以通过使用个性化信息(例如,联系人列表或音乐列表)来确定用户意图。例如,PLM可以存储在NLU DB 221中。根据实施例,ASR模块210以及NLU模块220可以参考NLU DB 221中存储的PLM来识别用户的话音。
根据实施例,NLU模块220可以基于用户输入的意图和参数来生成路径规则。例如,NLU模块220可以基于用户输入的意图来选择要运行的app,并且可以确定在所选的app中要执行的动作。NLU模块220可以确定与所确定的动作相对应的参数以生成路径规则。根据实施例,由NLU模块220生成的路径规则可以包括关于将要运行的app的信息、在app中要执行的动作(例如,至少一个或更多个状态)以及执行动作要利用的参数。
根据实施例,NLU模块220可以基于用户输入的意图和参数来生成一个路径规则或多个路径规则。例如,NLU模块220可以从路径规划器模块230接收与用户终端100相对应的路径规则集,并且可以将用户输入的意图和参数映射到接收到的路径规则集以确定路径规则。
根据另一实施例,出于生成一个路径规则或多个路径规则的目的,NLU模块220可以基于用户输入的意图和参数确定要运行的app、在该app中要执行的动作以及执行该动作要利用的参数。例如,出于生成路径规则的目的,通过使用用户终端100的信息,NLU模块220可以依据用户输入的意图以本体或图形模型的形式来布置要运行的app和在该app中要执行的动作。例如,可以通过路径规划器模块230将生成的路径规则存储在路径规则数据库(PR DB)231中。可以将生成的路径规则添加到PR DB 231的路径规则集中。
根据实施例,NLU模块220可以选择所生成的多个路径规则中的至少一个路径规则。例如,NLU模块220可以选择多个路径规则中的最优路径规则。又例如,在基于用户话语指定动作的一部分的情况下,NLU模块220可以选择多个路径规则。NLU模块220可以依据用户的附加输入来确定多个路径规则中的一个路径规则。
根据实施例,NLU模块220可以响应于对用户输入的请求向用户终端100发送路径规则。例如,NLU模块220可以向用户终端100发送与用户输入相对应的一个路径规则。又例如,NLU模块220可以向用户终端100发送与用户输入相对应的多个路径规则。例如,在基于用户话语指定动作的一部分的情况下,可以由NLU模块220生成多个路径规则。
根据实施例,路径规划器模块230可以选择多个路径规则中的至少一个路径规则。
根据实施例,路径规划器模块230可以向NLU模块220发送包括多个路径规则的路径规则集。路径规则集的多个路径规则可以以表的形式存储在连接到路径规划器模块230的PR DB 231中。例如,路径规划器模块230可以向NLU模块220发送与从智能代理145接收到的用户终端100的信息(例如,OS信息或app信息)相对应的路径规则集。可以针对每个域或者针对域的每个版本存储PR DB 231中所存储的表。
根据实施例,路径规划器模块230可以从路径规则集中选择一个路径规则或多个路径规则,以向NLU模块220发送所选择的一个路径规则或所选择的多个路径规则。例如,路径规划器模块230可以将用户意图和参数映射到与用户终端100相对应的路径规则集合,以选择一个路径规则或多个路径规则,并且可以向NLU模块220发送所选择的一个路径规则或所选择的多个路径规则。
根据实施例,路径规划器模块230可以通过使用用户意图和参数来生成一个路径规则或多个路径规则。例如,出于生成一个路径规则或多个路径规则的目的,路径规划器模块230可以基于用户意图和参数来确定要运行的app和在该app中要执行的动作。根据实施例,路径规划器模块230可以将所生成的路径规则存储在PR DB 231中。
根据实施例,路径规划器模块230可以将由NLU模块220生成的路径规则存储在PRDB 231中。可以将所生成的路径规则添加到存储在PR DB 231中的路径规则集中。
根据实施例,存储在PR DB 231中的表可以包括多个路径规则或多个路径规则集。多个路径规则或多个路径规则集可以反映执行每个路径规则的设备的种类、版本、类型或特性。
根据实施例,DM模块240可以确定由NLU模块220掌握的用户意图是否是明确的。例如,DM模块240可以基于参数的信息是否足够来确定用户意图是否是明确的。DM模块240可以确定由NLU模块220掌握的参数是否足以执行任务。根据实施例,在用户意图不清楚的情况下,DM模块240可以执行用于向用户做出对信息的请求的反馈。例如,DM模块240可以执行用于请求信息的反馈,该信息关于用于掌握用户意图的参数。
根据实施例,DM模块240可以包括内容提供器模块。在内容提供器模块基于由NLU模块220掌握的意图和参数执行动作的情况下,内容提供器模块可以生成通过执行与用户输入相对应的任务而获得的结果。根据实施例,DM模块240可以向用户终端100发送由内容提供器模块生成的结果作为对对用户输入的响应。
根据实施例,NLG模块250可以将指定的信息改变为文本形式。改变为文本形式的信息可以是自然语言话语的形式。例如,指定的信息可以是关于附加输入的信息、用于引导完成与用户输入相对应的动作的信息,或者用于引导用户的附加输入的信息(例如,关于用户输入的反馈信息)。改变为文本形式的信息可以在被发送给用户终端100之后显示在显示器120中,或者可以在向TTS模块260发送之后被改变为话音形式。
根据实施例,TTS模块260可以将文本形式的信息改变为话音形式的信息。TTS模块260可以从NLG模块250接收文本形式的信息,可以将文本形式的信息改变为话音形式的信息,并且可以向用户终端100发送话音形式的信息。用户终端100可以向扬声器130输出话音形式的信息。
根据实施例,NLU模块220、路径规划器模块230和DM模块240可以用一个模块来实现。例如,NLU模块220、路径规划器模块230和DM模块240可以用一个模块实现,可以确定用户意图和参数,并且可以生成与所确定的用户意图和参数相对应的响应(例如,路径规则)。如此,可以向用户终端100发送所生成的响应。
图7是例示了根据本公开的实施例的路径规划器模块的路径规则生成方法的图。
参照图7,根据实施例,NLU模块220可以将app的功能划分为任何一个动作(例如,状态A至状态F),并且可以将划分的单位动作存储在PR DB 231中。例如,NLU模块220可以在PR DB 231中存储包括被划分为一个动作的多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F和A-B1-C3-D-E-F)的路径规则集。
根据实施例,路径规划器模块230的PR DB 231可以存储用于执行app的功能的路径规则集。路径规则集可以包括多个路径规则,每个路径规则包括多个动作(例如,状态序列)。依据输入到包括在多个路径规则中的每一个路径规则中的多个动作中的每一个动作的参数而执行的动作可以被顺序地布置。根据实施例,以本体或图形模型的形式实现的多个路径规则或经存储在PR DB 231中。
根据实施例,NLU模块220可以选择多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F、和A-B1-C3-D-E-F)中与用户输入的意图和参数相对应的最优路径规则(例如,A-B1-C3-D-F)。
根据实施例,在不存在与用户输入完全匹配的路径规则的情况下,NLU模块220可以向用户终端100发送多个规则。例如,NLU模块220可以选择与用户输入部分地对应的路径规则(例如,A-B1)。NLU模块220可以选择包括与用户输入部分地对应的路径规则(例如,A-B1)的一个或更多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F和A-B1-C3-D-E-F),并且可以向用户终端100发送该一个或更多个路径规则。
根据实施例,NLU模块220可以基于由用户终端100添加的输入来选择多个路径规则之一,并且可以向用户终端100发送所选择的一个路径规则。例如,NLU模块220可以依据由用户终端100附加输入的用户输入(例如,用于选择C3的输入)选择多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F和A-B1-C3-D-E-F)中的一个路径规则(例如,A-B1-C3-D-F),并且可以向用户终端100发送所选择的一个路径规则。
根据另一实施例,NLU模块220可以确定与由用户终端100附加输入的用户输入(例如,用于选择C3的输入)相对应的用户的意图以及参数,并且可以向用户终端100发送用户意图或参数。用户终端100可以基于所发送的意图或所发送的参数选择多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F和A-B1-C3-D-E-F)中的一个路径规则(例如,A-B1-C3-D-F)。
如此,用户终端100可以基于所选择的一个路径规则来完成app 141和143的动作。
根据实施例,在智能服务器200接收到信息不足的用户输入的情况下,NLU模块220可以生成与接收到的用户输入部分地对应的路径规则。例如,NLU模块220可以向智能代理145发送部分地对应的路径规则。处理器150可以运行智能代理145以接收路径规则,并且可以向运行管理器模块147发送部分地对应的路径规则。处理器150可以通过运行管理器模块147依据路径规则来运行第一app 141。处理器150可以在通过运行管理器模块147运行第一app 141的同时向智能代理145发送关于参数不足的信息。处理器150可以通过智能控制器145使用关于参数不足的信息来向用户做出附加输入的请求。当通过智能代理145由用户接收到附加输入时,处理器150可以向智能服务器200发送并处理用户输入。NLU模块220可以基于附加输入的用户的意图和参数信息生成要添加的路径规则,并且可以向智能代理145发送要添加的路径规则。处理器150可以通过智能代理145向运行管理器模块147发送路径规则,并且可以通过运行管理器模块147依据路径规则运行第二app143。
根据实施例,在由智能服务器200接收到缺失了一部分信息的用户输入的情况下,NLU模块220可以向个人信息服务器300发送用户信息请求。个人信息服务器300可以向NLU模块220发送输入到角色数据库中所存储的用户输入的用户的信息。NLU模块220可以通过使用用户信息来选择与部分地缺失了一部分动作的用户输入相对应的路径规则。这样,即使智能服务器200接收到缺失了一部分信息的用户输入,NLU模块220也可以请求所缺失的信息以接收附加输入,或者可以通过使用用户信息确定与用户输入相对应的路径规则。
根据实施例,下面所附的表1可以表示与用户请求的任务相关联的路径规则的示例形式。
[表1]
参照表1,由智能服务器200依据用户话语(例如,“请分享图片”)生成或选择的路径规则可以包括至少一个状态25、26、27、28、29或30。例如,该至少一个状态(例如,终端的一个操作状态)可以对应于以下各项中的至少一个:图片应用运行图片查看25、图片搜索功能运行搜索查看26、搜索结果显示画面输出搜索查看结果27、没有选择图片的搜索结果显示画面输出搜索空的所选查看28、选择了至少一个图片的搜索结果显示画面输出搜索所选查看29或共享应用选择画面输出交叉共享30。
在实施例中,路径规则的参数信息可以对应于至少一个状态。例如,所选择的至少一张图片可以被包括在搜索所选查看状态29中。
可以依据包括状态25、26、27、28和29的序列的路径规则的运行结果来执行用户请求的任务(例如,“请分享图片!”)。
图8是例示了根据本公开的实施例的智能服务模块的角色模块管理用户的信息的图。
参照图8,处理器150可以通过角色模块149b从app 141和143、运行管理器模块147或上下文模块149a接收用户终端100的信息。处理器150可以通过app 141和143以及运行管理器模块147将关于通过执行app的动作141b和143b获得的结果的信息存储在动作日志数据库中。处理器150可以通过上下文模块149a将关于用户终端100的当前状态的信息存储在上下文数据库中。处理器150可以通过角色模块149b从动作日志数据库或上下文数据库接收所存储的信息。例如,存储在动作日志数据库和上下文数据库中的数据可以由分析引擎进行分析,并且可以向角色模块149b发送。
根据实施例,处理器150可以通过角色模块149b向建议模块149c发送从app 141和143、运行管理器模块147或上下文模块149a接收的信息。例如,处理器150可以通过角色模块149b向存储建议模块149c发送动作日志数据库或上下文数据库中存储的数据。
根据实施例,处理器150可以通过角色模块149b向个人信息服务器300发送从app141和143、运行管理器模块147或上下文模块149a接收的信息。例如,处理器150可以通过角色模块149b向个人信息服务器300周期性地发送动作日志数据库或上下文数据库中积累并存储的数据。
根据实施例,处理器150可以通过角色模块149b向建议模块149c发送动作日志数据库或上下文数据库中存储的数据。通过角色模块149b生成的用户信息可以存储在角色数据库中。角色模块149b可以向个人信息服务器300周期性地发送角色数据库中存储的用户信息。根据实施例,通过角色模块149b向个人信息服务器300发送的信息可以存储在角色数据库中。个人信息服务器300可以通过使用角色数据库中存储的信息来推理用于生成智能服务器200的路径规则的用户信息。
根据实施例,通过使用通过角色模块149b发送的信息推理的用户信息可以包括简档信息或偏好信息。可以通过用户的帐户和累积的信息来推理简档信息或偏好信息。
简档信息可以包括用户的个人信息。例如,简档信息可以包括用户的人口统计信息。例如,人口统计信息可以包括用户的性别、年龄等。又例如,简档信息可以包括生活事件信息。例如,可以通过将日志信息与生活事件模型进行比较来推理生活事件信息,并且可以通过分析行为模式来增强生活事件信息。又例如,简档信息可以包括兴趣信息。例如,兴趣信息可以包括兴趣购物项目,感兴趣的领域(例如,体育、政治等)。又例如,简档信息可以包括活动区域信息。例如,活动区域信息可以包括关于住所、工作地点等的信息。关于活动区域的信息可以包括关于基于积累的停留时间和访问次数记录了优先级的区域的信息以及关于地点的位置的信息。又例如,简档信息可以包括活动时间信息。例如,活动时间信息可以包括关于唤醒时间、通勤时间、睡眠时间等的信息。可以通过使用活动区域信息(例如,关于住所和工作地点的信息)来推理关于通勤时间的信息。可以通过用户终端100的未使用时间来推理关于睡眠时间的信息。
偏好信息可以包括用户的偏好信息。例如,偏好信息可以包括关于app偏好的信息。例如,可以通过app的使用日志(例如,时间和地点特定的使用日志)来推理app偏好。app偏好可以用于依据用户的当前状态(例如,时间或地点)来确定要运行的app。又例如,偏好信息可以包括关于联系人偏好的信息。例如,可以通过分析关于联系人的联系频率(例如,时间和地点特定的联系频率)的信息来推理联系人偏好。联系人偏好可以用于依据用户的当前状态(例如,重复名称的联系人)来确定要联系的联系人。又例如,偏好信息可以包括设置信息。例如,可以通过分析关于特定设置值的设置频率(例如,对设置值进行设置的时间和地点特定的频率)的信息来推理设置信息。设置信息可以用于依据用户的当前状态(例如,时间、地点或情形)来设置特定的设置值。又例如,偏好信息可以包括地点偏好。例如,可以通过特定地点的访问历史(例如,时间特定的访问历史)来推理地点偏好。地点偏好可以用于依据用户的当前状态(例如,时间)来确定要访问的地点。又例如,偏好信息可以包括指示偏好。例如,可以通过指示的使用频率(例如,时间和地点特定的使用频率)来推理指示偏好。指示偏好可以用于依据用户的当前状态(例如,时间或地点)来确定要使用的指示模式。具体地,指示偏好可以包括关于通过分析日志信息用户在正在运行的app的当前状态中最频繁选择的菜单的信息。
图9是根据本公开的实施例的与话音数据处理相关联的系统的框图。图9所示的系统(电子设备100和服务器200)可以是基于触摸UI的文本/话音集成智能界面,并且可以处理话音、多模式输入等以及触摸。图9例示了与系统在用户通过话语输入话音时处理话音输入的方法相关联的结构。在图9中,将跳过关于在上述附图中给出的元件的描述。
参照图9,当用户讲话时,用户终端(或电子设备)100可以根据用户的话语接收话音输入。另外,用户终端100可以向智能服务器200发送与输入的话音相对应的话音数据。根据实施例,用户终端100的处理器150可以运行智能代理145,并且可以通过智能代理145向智能服务器200发送与话音输入相对应的话音数据。
接收话音数据的智能服务器200可以通过ASR模块210将话音数据转换为文本数据。例如,ASR模块210可以通过话语识别模块通过使用包括与话音相关联的信息的声学模型和包括单位音素信息的语言模型,将话音数据转换为文本数据。可以向NLU模块220发送转换后的文本数据。
NLU模块220可以执行与文本数据相关联的语法分析或语义分析以确定用户意图。根据实施例,NLU模块220可以通过使用存储用于掌握用户话语意图的语言学特征的NLU DB221来确定用户意图。根据另一实施例,NLU模块220可以通过使用PLM 213来确定用户的意图。例如,NLU模块220可以通过使用个性化信息(例如,联系人列表或音乐列表)来确定用户意图。例如,PLM 213可以存储在NLU DB 221中。根据实施例,ASR模块210以及NLU模块220可以参考NLU DB 221中存储的PLM 213来识别用户的话音。
响应生成模块270可以依据文本数据的内容(例如,用户的意图)来生成要向用户终端100发送的响应。根据实施例,响应生成模块270的路径规划器模块230可以通过使用用户意图和参数来生成一个路径规则或多个路径规则。例如,路径规划器模块230可以基于用户意图和参数来确定要运行的app和该app中要执行的动作,并且可以生成一个路径规则或多个路径规则。根据实施例,在响应生成模块270的内容提供器模块280基于由NLU模块220掌握的意图和参数执行动作的情况下,内容提供器模块280可以生成通过执行与话音输入相对应的任务而获得的结果。根据实施例,响应生成模块270可以向用户终端100发送由内容提供器模块280生成的结果,作为对话音输入的响应。根据实施例,NLG模块250可以将指定的信息改变为文本形式。改变为文本形式的信息可以是自然语言话语的形式。例如,指定的信息可以是关于附加输入的信息、用于引导完成与话音输入相对应的动作的信息或者用于引导用户的附加输入的信息(例如,话音输入)。改变为文本形式的信息可以在被发送给用户终端100之后显示在用户终端的显示器120中,或者可以在被发送给TTS模块260之后被改变为话音形式。根据实施例,TTS模块260可以将文本形式的信息改变为话音形式的信息。TTS模块260可以从NLG模块250接收文本形式的信息,可以将文本形式的信息改变为话音形式的信息,并且可以向用户终端100发送话音形式的信息。用户终端100可以向用户终端100的扬声器130输出话音形式的信息。
通过智能代理145从智能服务器200接收响应的用户终端100可以向运行管理器模块147发送该响应。在这种情况下,用户终端100可以通过运行管理器模块147依据该响应执行app(例如,第一app 141或第二app 143)的动作。
当app的操作完成时,智能代理145可以向智能服务器200的NLG模块250发送动作的完成消息。NLG模块250可以生成与该完成消息相对应的、文本数据格式的响应。此外,NLG模块250可以向TTS模块260发送文本数据格式的响应。TTS模块260可以将文本数据格式的响应改变为话音数据格式的响应。响应生成模块270可以向智能代理145发送文本数据格式和话音数据格式的响应。在这种情况下,智能代理145可以通过显示器120和扬声器130输出响应。
根据实施例,用户终端100的快捷命令管理模块160可以确定通过用户话语输入的话音是否包括快捷命令。根据实施例,用户终端100的处理器150可以通过智能代理145向智能服务器200发送与话音输入相对应的话音数据;智能服务器200的ASR模块210可以将话音数据转换为文本数据。而且,智能代理145可以从智能服务器200接收转换后的文本数据,并且可以向快捷命令管理模块160转发转换后的文本数据。快捷命令管理模块160可以确定文本数据是否包括快捷命令。快捷命令(或短缩命令)可以包括映射的信息,使得通过使用一个指定的(或所选择的)表达(例如,字、短语或句子)能够执行请求执行任务的至少一个话音命令。例如,至少一个话音命令可以映射到指派给(或选择的)快捷命令的表达,并且可以在快捷命令管理模块160中包括的数据库中存储和管理映射的信息。在实施例中,快捷命令管理模块160可以实时地或周期性地将关于快捷命令的映射信息与智能服务器200的PLM213同步。
在文本数据包括快捷命令的情况下,即,在数据库中存在映射到文本数据的指定表达的情况下,快捷命令管理模块160可以向智能服务器200发送与要通过快捷命令执行的至少一项任务相关联的信息(例如,路径规则的标识符1030或用户的话语内容1040)。在这种情况下,智能服务器200可以通过NLU模块220或路径规划器模块230,通过使用与至少一项任务相关联的信息(例如,路径规则的标识符1030或用户的话语内容1040)来确定关于与至少一项任务的运行相关联的用户终端100的状态序列的信息(例如,路径规则)。另外,智能服务器200可以向用户终端100发送所确定的关于状态序列的信息,并且用户终端100可以依据该信息执行至少一项任务。
在实施例中,快捷命令管理模块160可以通过使用与快捷命令相关联的至少一项或更多项任务信息(例如,路径规则的标识符1030或用户的话语内容1040),来确定用户终端100中所存储的至少一项或更多项路径规则当中的与该至少一项任务的运行相关联的路径规则。用户终端100可以依据所确定的路径规则来执行任务。例如,用户终端100可以根据图10中描述的路径规则基于定义了设备的状态的信息1060来执行任务。
根据实施例,在存在要通过快捷命令执行的多项任务的情况下,快捷命令管理模块160可以确定多项任务之间的关系。例如,在确定在定义为快捷命令的多项任务当中是否依据第一任务的运行结果来执行第二任务的情况下,或者在确定在定义为快捷命令的多项任务当中第二任务的运行结果依据第一任务的运行结果是不同的情况下,快捷命令管理模块160可以确定第一任务和第二任务是彼此互连的。
根据实施例,在存在要通过快捷命令执行的多项任务并且在多项任务之间存在关系的情况下,快捷命令管理模块160可以依据指定的顺序依次执行多项任务。又例如,在存在要通过快捷命令执行的多项任务并且多项任务之间不存在关系的情况下,快捷命令管理模块160可以并行执行多项任务。例如,在执行第一任务的同时,快捷命令管理模块160可以一起执行第二任务。
根据实施例,快捷命令管理模块160可以确定任务的类型,并且可以依据用户终端100中的任务类型来确定是否处理与任务相关联的信息(例如,路径规则的标识符1030或用户的话语内容1040),是否向智能服务器200发送信息,或者是否向另一服务器发送信息。例如,在通过路径规则能够执行任务的情况下,快捷命令管理模块160可以向智能服务器200发送与该任务相关联的信息(例如,路径规则的标识符1030或用户的话语内容1040)。另选地,快捷命令管理模块160可以通过使用与任务相关联的信息来确定用户终端100中存储的至少一个或更多个路径规则(或路径规则集)当中与任务的运行相关联的路径规则,而无需向智能服务器200发送与任务相关联的信息(例如,路径规则的标识符1030或用户的话语内容1040);然后快捷命令管理模块160可以依据所确定的路径规则来执行任务。例如,用户终端100可以根据图10中描述的路径规则基于定义了设备的状态的信息1060来执行任务。作为另一示例,在以聊天机器人格式或开放式QA格式执行任务的情况下,快捷命令管理模块160可以向聊天机器人服务器或开放式QA服务器发送与该任务相关联的信息(例如,用户的话语内容1040)。聊天机器人或开放式QA可以表示生成对用户的话语响应以微件形式提供响应的方法。在这种情况下,可以在用户终端100中生成响应之后提供该响应;服务于聊天机器人或开放式QA的服务提供商可以生成响应,并且用户终端100可以从服务提供商接收响应以提供响应;或者服务提供商可以生成并提供响应或结果画面二者。
如上所述,根据各个实施例,电子设备(例如,用户终端100)可以包括:壳体;定位在壳体内部并通过壳体的第一部分暴露出来的触摸屏显示器(例如,显示器120);定位在壳体内部并通过壳体的第二部分暴露出来的麦克风(例如,麦克风111);位于壳体内部并通过壳体的第三部分暴露出来的至少一个扬声器(例如扬声器130);位于壳体内部的无线通信电路;位于壳体内部并电连接至触摸屏显示器、麦克风、至少一个扬声器和无线通信电路的处理器(例如处理器150);以及位于壳体内部并与处理器电耦接的至少一个存储器(例如,存储器140)。至少一个存储器可以存储指令,该指令在被执行时使处理器:通过麦克风接收第一用户话语;通过无线通信电路向包括自动语音识别(ASR)的外部服务器(例如,智能服务器200)发送与第一用户话语相关联的第一数据;通过无线通信电路接收从ASR生成的第一文本数据;当第一文本数据包括至少一个所选的字、短语或句子时,确定第一文本数据是否包括至少一个所选的字、短语或句子,选择映射到该至少一个所选的字、短语或句子的多项任务;以及通过使用电子设备的至少一部分来依次和/或并行地执行该多项任务。第一用户话语不包括用于执行所有多项任务的显式请求。
根据各个实施例,多项任务可以包括第一任务和第二任务。并且至少一个存储器可以存储与第一任务相关联并且包括第一标识符的第一信息,以及与第二任务相关联并且包括第二标识符的第二信息。
根据各个实施例,至少一个存储器可以包括映射到至少一个所选的字、短语或句子的信息。并且,映射的信息可以包括关于多项任务的信息。
根据各个实施例,关于多项任务的信息可以包括以下中的至少一种:多项任务的类型;关于用于执行多项任务的电子设备的状态序列的信息;用于请求执行多项任务的话音命令;根据多项任务的运行的反馈信息;或指示是否是多项任务当中最后要执行的任务的信息。
根据各个实施例,至少一个存储器还可以存储指令,该指令在被执行时使处理器:依据多项任务的类型,确定是处理关于电子设备中的多项任务的信息中的至少一部分还是向外部服务器或另一外部服务器发送关于多项任务的信息的至少一部分。
如上所述,根据各个实施例,电子设备(例如,用户终端100)可以包括麦克风(例如,麦克风111)、通信电路、电连接到麦克风和通信电路的处理器(例如,处理器150),以及电连接到处理器并被配置为存储映射到关于多个第一任务的第一信息的第一表达的存储器(例如,存储器140)。存储器可以存储指令,该指令在被执行时使处理器:通过麦克风接收用户的第一话音输入;通过通信电路向能够执行自动语音识别(ASR)的外部服务器发送与第一话音输入相对应的话音数据;通过通信电路从外部服务器接收作为与话音数据相关联的ASR的结果而生成的第一文本数据;在存储器中搜索与第一文本数据相对应的第一表达;当存储器中存在与第一文本数据相对应的第一表达时,通过通信电路向外部服务器发送关于映射到第一表达的第一任务的第一信息;通过通信电路从外部服务器接收关于用于运行基于第一信息确定的第一任务的电子设备的状态序列的第二信息,并基于第二信息运行第一任务。第一表达可以包括指定的字、指定的短语或指定的句子,以便不同于用于显式地请求执行第一任务的第一话音命令。
根据各个实施例,关于第一任务的第一信息可以包括以下中至少一种:第一任务的类型、第二信息的标识信息、第一话音命令、第二信息中包括的参数信息、根据第一任务的运行的反馈信息、第二信息或指示是否是第一任务当中的最后一个要执行的任务的第三信息。
根据各个实施例,存储器还可以存储指令,该指令在被执行时使处理器基于推荐信息、用户的话语历史信息、电子设备可运行的并且预先存储在存储器中的至少一个第二话音命令、第一表达或通过麦克风接收到的用户的第二话音输入中的至少一个,将第二表达映射到关于至少部分不同于第一任务的多个第二任务的第三信息,以将映射结果存储在存储器中。并且第二表达可以包括指定的字、指定的短语或指定的句子,从而不同于用于显式地请求第二任务的运行的第三话音命令。
根据各个实施例,存储器还可以存储指令,该指令在被执行时使处理器在基于第二话音输入将第二表达映射到关于第二任务的第三信息中,当与第二话音输入相对应的第二文本数据中不存在关于用于执行第二任务的电子设备的状态序列的第四信息的一部分时,提供允许用户输入与第四信息的所述一部分相对应的第五信息的界面。
根据各个实施例,电子设备还可以包括扬声器(例如,扬声器130)或触摸屏显示器(例如,显示器120)中的至少一个。界面可以包括促使用户通过麦克风输入与第五信息相对应的第三话音输入的对象。并且该对象可以通过扬声器或显示器中的至少一个输出。
根据各个实施例,电子设备还可以包括触摸屏显示器(例如,显示器120)。界面可以包括促使用户通过触摸屏显示器输入第五信息的对象。并且该对象可以通过触摸屏显示器输出。
根据各个实施例,对象可以包括用于提供与第五信息相关联的提示的对象或用于显示能够选择第五信息的列表的对象中的至少一个。
根据各个实施例,存储器还可以存储指令,该指令在被执行时使处理器提供用于编辑第一表达和关于映射到第一表达的第一任务的第一信息的界面。
如上所述,根据各个实施例,电子设备(例如,用户终端100)可以包括麦克风(例如,麦克风111)、通信电路、电连接到麦克风和通信电路的处理器(例如,处理器150),以及电连接到处理器并存储映射到关于多项任务的信息的表达的存储器(例如,存储器140)。存储器可以存储指令,该指令在被执行时允许处理器:通过麦克风接收用户的话音输入;通过通信电路向能够执行ASR的外部服务器发送与话音输入相对应的话音数据;通过通信电路从外部服务器接收作为与话音数据相关联的ASR的结果而生成的文本数据;在存储器中搜索与文本数据相对应的表达;当存在与文本数据相对应的表达时通过使用关于多项任务的信息来执行多项任务。关于多项任务的信息包括关于用于执行多项任务的电子设备的状态序列的信息。表达可以包括与用于显式地请求多项任务的运行的话音命令不同的指定的字、短语或句子。
图10是例示了根据本公开的实施例的快捷命令的数据结构的图。
参照图10,设置为快捷命令的数据1000可以包括指派给该快捷命令的表达1010、任务类型1020、路径规则的标识符1030(即,“规则ID”)、用户的话语内容1040(例如,已记录的实际话音命令)、参数信息1050、根据路径规则定义了设备的状态的信息1060、反馈信息1070(例如,“NLG结果”或自然语言生成的结果),和/或指示任务是否为最后任务的信息1080。
例如,指派为快捷命令1010的表达可以包括被映射为请求执行任务的话音命令的字、短语或句子。例如,在任务包括向特定人(例如,妈妈)发送文本消息的功能的情况下,字(例如,“妈妈”)、短语或句子可以映射到话音命令(例如,向“妈妈”发送文本),该命令在被检测到请求执行功能时可以是指定的表达1010。
任务类型1020可以用作在确定以下项时要利用的信息:要执行的任务是否能够通过路径规则来执行;或者要执行的任务是否能够通过聊天机器人格式或开放式QA格式来执行。路径规则可以指示一系列连续的功能、子功能、命令等。“聊天机器人”格式可以表示通过模拟智能对话与用户交互的人工智能。最后,“开放式QA”格式可以表示被设计为探明用户的意图的一系列预先指定的问题以及执行相应的功能。
路径规则的标识符1030可以包括用于执行任务的路径规则的标识符,与在任务类型1020对应于路径规则的情况下设置的信息相对应。在实施例中,关于路径规则的版本信息还可以包括在路径规则的标识符1030中。
用户的话语内容1040可以包括用于请求执行任务的话音命令。例如,在任务包括向特定人发送文本消息的功能的情况下,用户的话语内容1040可以包括诸如“sent a textto(发送文本给)”之类的话语内容,其后是对特定人的指示,诸如所存储的联系人姓名或联系人昵称。
参数信息1050可以包括关于执行路径规则所需的参数的信息。
根据路径规则定义了设备的状态的信息1060可以包括通过定义能够在app中实际操作以执行路径规则的状态而按照JSON规范(即,JavaScript Object Notation)设置的信息。例如,在选择(或生成)路径规则以执行删除设备上所设置的所有闹钟的任务的情况下,根据路径规则定义了设备的状态的信息1060可以包括诸如设备的第一状态(运行时钟app)、第二状态(运行通知列表画面)和第三状态(删除所有闹钟)的信息。
反馈信息1070可以包括指示在执行快捷命令之后要向用户提供的反馈的信息。
“最后命令”1080指示任务是否是最后任务,并且可以包括指示映射到指派给快捷命令的表达1010的至少一项任务是否是要最后执行的任务的信息。例如,在存在映射到指派给快捷命令的表达1010的“n”项任务情况下,与第n个要执行的任务相对应的快捷命令数据1000可以在指示任务是否是最后任务的信息1080中包括指示快捷命令数据1000是最后的信息。在实施例中,指示任务是否为最后任务的信息1080还可以包括相应任务的运行顺序信息。例如,在存在映射到指派给快捷命令的表达1010的“n”项任务的情况下,并且在相应任务的运行顺序为“第m个”的情况下,指示任务是否为最后任务的信息1080可以包括要执行的任务总数(诸如,“m/n”)以及对应任务的运行顺序信息。
根据实施例,多项任务可以依据指派给快捷命令的表达1010来执行;在这种情况下,可以生成(或设置)快捷命令数据1000以对应于任务数量。例如,当输入指定表达1010为“妈妈”的快捷命令时要执行三项任务的情况下,可以生成(或设置)三个快捷命令数据1000。
图11a是例示了根据本公开的实施例的与话音数据处理相关联的电子设备的操作方法的流程图。
参照图11a,在操作1110中,电子设备(例如,用户终端100)可以接收话音输入。根据实施例,用户终端100可以接收通过麦克风111记录的以用户的话语形式的话音输入。
在操作1120中,电子设备(例如,智能代理145)可以向服务器(例如,智能服务器200)发送与接收到的话音输入相对应的话音数据。在这种情况下,服务器可以将接收到的话音数据转换为文本数据。根据实施例,智能服务器200的ASR模块210可以将从用户终端100接收的话音数据转换成文本数据。例如,ASR模块210可以通过使用关于发声的信息和关于话音的信息来将话音数据转换成文本数据,以从话音数据提取等同的文本。另外,在转换之后,服务器可以向电子设备发送转换后的文本数据。
在操作1130中,电子设备(例如,智能代理145)可以从服务器接收转换后的文本数据。此外,智能代理145可以向快捷命令管理模块160发送接收到的文本数据。
在操作1140中,电子设备(例如,快捷命令管理模块160)可以搜索与接收到的文本数据相对应的快捷命令。例如,快捷命令管理模块160可以确定文本数据是否包括已经被预先指派给特定快捷命令的表达1010。在这种情况下,快捷命令管理模块160可以在存储指示相关性的信息的数据库中搜索相应的快捷命令。例如,表达1010可以映射到数据库中的快捷命令。
依据快捷命令的搜索结果,在操作1150中,电子设备(例如,快捷命令管理模块160)可以确定话音输入是否指示和/或请求经由快捷命令的输入的功能。例如,在数据库中存在与文本数据相对应的快捷命令的情况下,快捷命令管理模块160可以确定话音输入包括快捷命令。
在话音输入是快捷命令的情况下,在操作1160中,电子设备(例如,智能代理145)可以向服务器发送关于与快捷命令相对应的多项任务的信息。在实施例中,当存在与快捷命令相对应的多项任务时,用户终端100的快捷命令管理模块160可以通过智能代理145向智能服务器200发送用于执行多项任务的路径规则的标识符1030和/或用户的话语内容1040。根据实施例,快捷命令管理模块160可以验证关于多项任务的信息,以向智能代理145发送信息。
在实施例中,用户终端100的快捷命令管理模块160可以确定多项任务中的每项任务的类型,并且可以依据用户终端100中的每项任务的标识类型确定是否处理与任务相关联的信息(例如,路径规则的标识符1030或话语内容1040),是否向智能服务器200发送该信息,或是否向另一服务器发送该信息。例如,在能够通过路径规则执行任务的情况下,快捷命令管理模块160可以向智能服务器200发送路径规则的标识符1030或用户的话语内容1040。又例如,快捷命令管理模块160可以通过使用与任务相关联的信息(例如,路径规则的标识符1030或话语内容1040)在用户终端100中存储的至少一个或更多个路径规则(或路径规则集)当中确定与任务的运行相关联的路径规则,并可以依据确定的路径规则执行任务。例如,用户终端100可以根据路径规则基于定义了设备的状态的信息1060来执行任务。又例如,在以聊天机器人格式或开放式QA格式执行任务的情况下,快捷命令管理模块160可以向聊天机器人服务器或开放式QA服务器发送用户的话语内容1040。
当接收到用于执行多项任务的路径规则的标识符1030或用户的话语内容1040时,智能服务器200可以通过NLU模块220或路径规划器模块230通过使用路径规则的标识符1030或用户的话语内容1040,确定关于与多项任务的运行相关联的用户终端100的状态序列的多条信息(例如,路径规则)。此外,智能服务器200可以向用户终端100发送确定出的关于状态序列的各条信息。
在操作1170中,电子设备(例如,智能代理145)可以接收确认与多项任务的运行相关联的电子设备的状态序列的信息。根据实施例,用户终端100可以因此通过智能代理145从智能服务器200接收用于执行多项任务的路径规则。
根据实施例,电子设备(例如,快捷命令管理模块160)可以在电子设备中存储的至少一个或更多个路径规则(或路径规则集)当中搜索用于执行多项任务的路径规则。
在操作1180中,电子设备(例如,运行管理器模块147)可以根据路径规则基于接收到的信息来执行多项任务。根据实施例,用户终端100的智能代理145可以向运行管理器模块147发送接收到的路径规则,并且运行管理器模块147可以根据路径规则运行一个或更多个app。
在话音输入不包括或指示快捷命令的情况下,在操作1190,电子设备可以在没有快捷命令的情况下执行适当的处理。根据实施例,在接收到的文本数据不包括指派给快捷命令的表达1010的情况下,用户终端100的快捷命令管理模块160可以通知智能服务器200根据用户的话语的话音输入不是快捷命令。在这种情况下,智能服务器200的NLU模块220可以执行与文本数据相关联的语法分析或语义分析以确定用户意图。此外,智能服务器200的响应生成模块270可以依据文本数据的内容(例如,检测到的用户的意图)来生成要向用户终端100发送的响应。例如,响应生成模块270的路径规划器模块230可以通过使用用户意图和参数来确定一个路径规则或多个路径规则。之后,智能服务器200可以向用户终端100发送所确定的路径规则,并且接收到路径规则的用户终端100可以依据路径规则来运行一个或更多个app(例如,第一app 141和第二app 143)。在实施例中,在接收到的文本数据不包括指派给快捷命令的表达1010的情况下,快捷命令管理模块160可以向智能服务器200发送与话音输入相对应的话音数据,而不向智能服务器200发送有无快捷命令。
根据实施例,用户终端100可以通过用户终端100中包括的ASR模块转换与接收到的话音输入相对应的话音数据,而不是如操作1120和操作1130中那样,向智能服务器200发送话音数据并从智能服务器200接收转换后的文本数据。
根据实施例,用户终端100可以根据快捷命令数据1000中的每个路径规则提取定义用户终端100的状态的多条信息1060,并且可以基于多条信息1060执行任务,而不是如操作1160和操作1170中那样,向智能服务器200发送关于与快捷命令相对应的多项任务的信息以及从智能服务器200接收关于与多项任务的运行相关联的用户终端100的状态序列的信息。
图11b是例示了根据本公开的另一实施例的与话音数据处理相关联的电子设备的操作方法的流程图。
在图11a中,在说出指派给快捷命令的表达的情况下,向智能服务器200发送关于被设置为快捷命令的多项任务的信息。在图11b中,描述了向智能服务器200顺序地发送关于每项任务的信息。
参照图11b,当与用户的话语相对应的话音输入被检测作为包括或另外指示了快捷命令时,在操作1161中,电子设备(例如,智能代理145)可以向服务器发送指示与快捷命令相对应的多项任务中的至少一项任务的信息(例如,路径规则的标识符1030或用户的话语内容1040)。在实施例中,快捷命令管理模块160可以确定发送的任务的类型,并且可以根据用户终端100中的任务的类型确定是否处理与任务相关联的信息(例如,路径规则的标识符1030或用户的话语内容1040),是否向智能服务器200发送信息,或者是否向另一服务器发送信息。例如,在能够通过路径规则执行任务的情况下,快捷命令管理模块160可以通过智能代理145向智能服务器200发送路径规则的标识符1030或用户的话语内容1040。又例如,快捷命令管理模块160可以通过使用与任务相关联的信息(例如,路径规则的标识符1030或用户的话语内容1040)在用户终端100中存储的至少一个或更多个路径规则(或路径规则集)当中确定与任务的运行相关联的路径规则,并且可以依据确定出的路径规则执行任务。例如,用户终端100可以依据路径规则基于定义了设备的状态的信息1060来执行任务。又例如,在以聊天机器人格式或开放式QA格式执行任务的情况下,快捷命令管理模块160可以向聊天机器人服务器或开放式QA服务器发送用户的话语内容1040。
当接收到用于执行任务的路径规则的标识符1030或用户的话语内容1040时,智能服务器200可以通过使用路径规则的标识符1030或用户的话语内容1040确定关于与任务的运行相关联的用户终端100的状态序列的信息(例如,路径规则)。此外,智能服务器200可以向用户终端100发送所确定的关于状态序列的信息。
在操作1171中,电子设备(例如,智能代理145)可以接收关于与任务的运行相关联的电子设备的状态序列的信息。例如,用户终端100可以通过智能代理145从智能服务器200接收用于执行任务的路径规则。
在操作1181中,电子设备(例如,运行管理器模块147)可以基于接收到的信息来执行任务。根据实施例,用户终端100的智能代理145可以向运行管理器模块147发送接收到的路径规则,并且运行管理器模块147可以依据路径规则来运行app。
在操作1183中,电子设备(例如,快捷命令管理模块160)可以确定所执行的任务是否被指示为快捷命令中包括的最后任务。根据实施例,快捷命令管理模块160可以验证指示任务是否是快捷命令数据1000的最后任务的信息1080,并且可以确定任务是否是最后任务。如果是,则该操作可以终止。在任务不是最后任务的情况下,电子设备可以返回操作1161,以执行快捷命令中包括的另一任务。
在上述描述中,出于执行快捷命令中包括的多项任务的目的,实施例被例示为电子设备(例如,用户终端100)向智能服务器200发送与任务相关联的信息,并从智能服务200接收关于与任务相关联的电子设备的状态序列的信息。然而,本公开的实施例不限于此。根据各个实施例,电子设备可以在不与智能服务器200交互的情况下在电子设备中执行与快捷命令相关联的至少一项任务。例如,当说出指派给快捷命令的表达1010时,电子设备可以在存储器140中搜索映射到指定表达1010的快捷命令数据1000。而且,当存在映射到指定表达1010的快捷命令数据1000时,电子设备可以根据快捷命令数据1000的路径规则通过使用定义了设备的状态的信息1060来执行任务。
图12是根据本公开的实施例的用于描述执行多项任务的方法的流程图。
参照图12,当如用户的话语指示检测到快捷命令时,在操作1210中,电子设备(例如,用户终端100)可以确定与该快捷命令相对应的多项任务之间的关系。根据实施例,在存在响应于快捷命令可执行的多项任务的情况下,用户终端100的快捷命令管理模块160可以确定多项任务之间的关系。例如,一个这样的关系可以指示依据第一任务的运行结果是否要执行第二任务(例如,第一任务和第二任务在与快捷命令相对应的多项任务当中)。在另一示例中,当第二任务的运行结果依据被定义为快捷命令的多项任务当中的第一任务的运行结果而不同时,快捷命令管理模块160可以确定第一任务和第二任务彼此有关系地互连。
在操作1230中,电子设备可以确定多项任务是否具有相互关系以及它们是否彼此互连。例如,用户终端100的快捷命令管理模块160可以在多项任务中区分互连任务和非互连任务。
当多项任务之间存在关系时,在操作1250中,电子设备可以根据指定的顺序依次执行任务。相反,当多项任务之间不存在关系时,在操作1270中,电子设备可以并行执行任务。因此,用户终端100可以基于操作1250中的顺序执行具有一个或更多个相互关系的任务。相反,如在操作1270中那样,用户终端100可以并行地执行未互连的任务。
如上所述,根据各个实施例,电子设备(例如,用户终端100)的话音数据处理方法,该电子设备包括存储映射到关于多个第一任务的第一信息的第一表达的存储器(例如,存储器140),可以包括:通过麦克风(例如,麦克风111)接收用户的第一话音输入;通过通信电路向能够执行自动语音识别(ASR)的外部服务器(例如,智能服务器200)发送与第一话音输入相对应的话音数据;通过通信电路从外部服务器接收作为与话音数据相关联的ASR的结果而生成的第一文本数据;在存储器中搜索与第一文本数据相对应的第一表达;当存储器存在与第一文本数据相对应的第一表达时,通过通信电路向外部服务器发送关于映射到第一表达的第一任务的第一信息;通过通信电路从外部服务器接收关于用于执行基于第一信息确定的第一任务的电子设备的状态序列的第二信息,并基于第二信息执行第一任务。第一表达可以包括指定的字、指定的短语或指定的句子,以便不同于用于显式地请求执行第一任务的第一话音命令。
根据各个实施例,话音数据处理方法还可以包括:基于推荐信息、用户的话语历史信息、电子设备可执行的并预先存储在存储器中的至少一个第二话音命令、第一表达或通过麦克风接收到的用户的第二话音输入中的至少一个,将第二表达映射到关于至少部分地不同于第一任务的多个第二任务的第三信息,以将映射结果存储在存储器中。并且第二表达可以包括指定的字、指定的短语或指定的句子,以便不同于用于显式地请求执行第二任务的第三话音命令。
根据各个实施例,话音数据处理方法还可以包括:在基于第二话音输入将第二表达映射到关于第二任务的第三信息时,当关于用于执行第二任务的电子设备的状态序列的第四信息的一部分不存在于与第二话音输入相对应的第二文本数据中时,提供允许用户输入与第四信息的一部分相对应的第五信息的界面。
根据各个实施例,提供界面可以包括:通过电子设备中包括的扬声器或显示器中的至少一个,输出用于促使用户通过麦克风输入与第五信息相对应的第三话音输入的对象。
根据各个实施例,提供界面可以包括通过显示器输出用于促使用户通过电子设备中包括的触摸屏显示器(例如,显示器120)输入第五信息的对象。
根据各个实施例,对象的输出可以包括输出用于提供与第五信息相关联的提示的对象或用于显示能够选择第五信息的列表的对象中的至少一个。
根据各个实施例,话音数据处理方法还可以包括提供用于编辑第一表达和关于映射到第一表达的第一任务的第一信息的界面。
图13是根据本公开的实施例的顺序执行多项任务的方法的示例说明。
根据实施例,当接收对应于用户1310的话语的话音输入时,电子设备1330(例如,用户终端100)可以向智能服务器200发送经由话音输入接收的话音数据1311。另外,电子设备1330可以从智能服务器200接收从话音数据1311的转换得到的文本数据的传输,并且可以确定接收到的文本数据是否包括预先指派给快捷命令的表达1010。在实施例中,电子设备1330可以通过电子设备1330中包括的ASR模块将话音数据1311转换为文本数据,并且可以确定转换后的文本数据是否包括指派给快捷命令的表达1010,而不是向智能服务器200发送话音数据1311以进行提取。
根据实施例,当用户1310的话音输入对应于快捷命令时,电子设备1330可以向智能服务器200(响应地)发送关于与快捷命令相对应的多项任务的信息(例如,路径规则的标识符1030或用户的话音内容1040)。此外,电子设备1330可以从智能服务器200接收用于执行多项任务的路径规则,并且可以依据路径规则来运行app。在实施例中,电子设备1330可以根据快捷命令数据1000中的每个路径规则提取定义了电子设备1330的状态的信息1060,并且可以基于多条信息1060运行app,而不是向智能服务器200发送路径规则的标识符1030或用户的话语内容1040。
图13例示了在用户1310说出“早上好”作为快捷命令的情况。在这种情况下,在将“早上好”确认为快捷命令之后,电子设备1330可以在接收到快捷命令“早上好”时在数据库中搜索要执行的至少一项任务。例如,电子设备1330可以在数据库中搜索所有快捷命令数据1000,其中指派给该快捷命令的表达(例如,图10中的1010)是“早上好”。另外,电子设备1330可以向智能服务器200发送路径规则的标识符1030或用户的话语内容1040(包括在找到的至少一个快捷命令数据1000中),从智能服务器200接收基于路径规则的标识1030或用户的话语内容1040所确定的至少一个路径规则,并根据接收到的路径规则执行至少一项任务。
根据实施例,电子设备1330可以确定预先存储在电子设备1330中的至少一个路径规则(或路径规则集)当中的与路径规则的标识符1030或用户的话语内容1040相对应的路径规则,以依据确定的路径规则执行至少一项任务,而不是向智能服务器200发送路径规则的标识符1030或用户的话语内容1040。
根据实施例,在存在与快捷命令相对应的多项任务的情况下,电子设备1330可以顺序地执行多项任务。例如,在第一状态1301中,电子设备1330可以在执行第一任务(例如,停用闹钟)之后执行第二任务(例如,检索天气信息)。图13例示了在输入“早上好”作为快捷命令之后,电子设备1330在第一状态1301中输出执行停用闹钟的第一任务的结果画面1350,并如在第二状态1303中所见那样输出从执行作为检索每日天气的第二任务中生成的结果画面1370。因此,不需要“显式的”话音命令,诸如陈述“关闭闹钟”的第一命令和陈述“显示天气”的第二命令。而是,这两个功能根据非显式的命令“早上好”而操作,增加了用户的便利性。
根据实施例,在顺序地执行多项任务的同时,电子设备1330可以显示与所执行的多项任务相对应的一系列图形元素(即,在屏幕中输出任务的运行过程)。而且,电子设备1330可以把与任务的运行相关联的反馈显示元素1351与任务本身的运行结果画面(即,诸如闹钟画面1350或天气画面1370)一起输出。即,电子设备1330可以通知用户1310正在执行哪项任务。
图14是根据本公开的实施例的用于描述根据任务的运行提供反馈的方法的图。
参照图14,当用户1410的话音输入1411对应于快捷命令并且存在与该快捷命令相对应的多项任务时,电子设备1430(例如,用户终端100)可以顺序地执行多项任务。
图14例示了用户1410说出“驾驶”作为快捷命令的情况。当输入“驾驶”作为快捷命令时,电子设备1430可以顺序地执行多项任务。例如,电子设备1430可以顺序地执行第一任务(例如,关闭Wi-Fi)、第二任务(例如,打开蓝牙)和第三任务(例如,播放音乐)。
根据实施例,当顺序地执行多项任务时,电子设备1430可以在屏幕中输出与任务的运行相关联的反馈,而不是在屏幕中输出任务的所有运行过程。例如,如在第一状态1401中那样,电子设备1430可以输出提供与任务的运行相关联的反馈的画面1450。例如,画面1450可以包括关于第一任务的运行的反馈信息1453b、关于第二任务的运行的反馈信息1455b和关于第三任务的运行的反馈信息1457b、指派给快捷命令的表达1451、用于执行第一任务的话音命令1453a、用于执行第二任务的话音命令1455a以及用于执行第三任务的话音命令1457a。
根据实施例,当除了占据当前屏幕的app之外还依据任务的特性来操作另一app时,电子设备1430可以在app之间切换画面。例如,当依据第三任务的特性启动音乐播放app时,在第二状态1403中,电子设备1430可以将提供反馈的画面1450切换为音乐播放app的执行画面1470。
图15是根据本公开的实施例的用于描述在不提供根据任务的运行的反馈的情况下输出最后任务的运行结果的方法的图。
参照图15,在用户1510的话音输入1511对应于快捷命令并且存在与该快捷命令相关联的多项任务的情况下,电子设备1530(例如,用户终端100)可以顺序地执行多项任务。
如同图14那样,图15例示了用户1510说出“驾驶”作为快捷命令的示例。电子设备1530可以顺序地执行与快捷命令“驾驶”相关联的多项任务。例如,电子设备1530可以顺序地执行第一任务(例如,关闭Wi-Fi)、第二任务(例如,打开蓝牙)和第三任务(例如,播放音乐)。
根据实施例,在顺序地执行多项任务的同时,电子设备1530可以输出最后任务的运行结果画面,而不是在屏幕中输出任务的运行过程以及与任务的运行相关联的反馈。即,当执行任务时,电子设备1530可以不向用户1510提供附加信息(例如,运行过程信息和反馈信息)。例如,如第二状态1503所示,电子设备1530可以输出最后任务的运行结果画面1570,而不是输出提供与任务的运行相关联的反馈的画面。在实施例中,如在第一状态1501中那样,电子设备1530可以输出画面1550,该画面1550包括关于第一任务的运行进度状态的信息1553b、关于第二任务的运行进度状态的信息1555b以及关于第三任务的运行进度状态的信息1557b和指派给快捷命令的表达1551、用于执行第一任务的话音命令1553a、用于执行第二任务的话音命令1555a、和用于执行第三任务的话音命令1557a,而没有根据任务的运行的反馈信息。而且,当除了占据当前屏幕的app之外还依据任务的特性操作另一app时,电子设备1530可以在app之间切换画面。在这种情况下,电子设备1530可以输出说“保持”的文本1559,直到输出另一app的执行画面。
图16是根据本公开的实施例的用于描述并行执行多项任务的方法的图。
参照图16,在用户的话音输入对应于快捷命令并且存在与该快捷命令对应的多项任务的情况下,电子设备1600(例如,用户终端100)可以确定多个任务之间的关系。此外,在多项任务之间不存在关系的情况下,电子设备1600可以并行执行多项任务。
如图14和图15那样,图16例示了用户说出“驾驶”作为快捷命令的情况。电子设备1600可以在输入“驾驶”作为快捷命令的情况下确定要执行的多项任务之间的关系;在与快捷命令“驾驶”相关联的多项任务之间不存在预定关系的情况下,电子设备1600可以并行执行多项任务。例如,电子设备1600可以并行而不是顺序地执行第一任务(例如,关闭Wi-Fi)、第二任务(例如,打开蓝牙)和第三任务(例如,播放音乐)。
根据实施例,如在第一状态1601中那样,电子设备1600可以输出画面1610,该画面1610包括指示第一任务的运行进度状态的信息1613b、指示第二任务的运行进度状态的信息1615b和指示第三任务的运行进度状态的信息1617b以及指派给快捷命令的表达1611、用于执行第一任务的话音命令1613a、用于执行第二任务的话音命令1615a以及用于执行第三任务的话音命令1617a。
根据实施例,由于电子设备1600并行执行任务,因此电子设备1600可以根据画面1610中包括的任务的运行进度状态来更新每条信息1613b、1615b和1617b。出于通知用户是否完成了某项任务的运行的目的,在完成每项任务的运行时可以生成更新。例如,第一状态1601表示完成了第二任务的运行的状态,而第二状态1603表示完成了第二任务和第一任务的运行的状态。这样,如在第二状态1603中那样,电子设备1600可以改变关于第一任务的运行进度状态的信息1633b。
根据实施例,当除了占据当前屏幕的app之外还依据任务的特性来操作另一app时,电子设备1600可以在app之间切换画面。在这种情况下,电子设备1600可以输出说“保持”的文本1619,直到输出另一app的执行画面。此外,当完成了另一app的执行时,如在第三状态1605中所见,电子设备1600可以输出另一app的执行画面1650。
图17a、图17b和图17c是根据本公开的实施例的用于描述通过推荐生成快捷命令的方法的图。
参照图17a至图17c,电子设备(例如,用户终端100)可以提供推荐的快捷命令,诸如由电子设备的制造商针对可能用于激活用户的快捷命令的使用的命令而预先配置的快捷命令。根据实施例,如在第一状态1701中那样,电子设备可以输出能够配置快捷命令的画面1700。快捷命令的描述画面1700可以包括由制造商推荐的快捷命令列表1710和由用户设置的快捷命令列表1730。
制造商推荐的快捷命令列表1710可以包括由制造商预先配置(例如,推荐)的至少一个快捷命令项1711。推荐的快捷命令项1711可以包括用于请求执行任务并检索某些信息的短语“到家了”。在1701中看到的其他示例包括与激活振动模式的第一任务相对应的短语“将我手机的铃声更改为振动”、与激活Wi-Fi的第二任务相对应的短语“打开Wi-Fi”。
由用户设置的快捷命令列表1730可以包括由用户设置的快捷命令项(例如,第一快捷命令项1731或第二快捷命令项1733)。由用户设置的快捷命令项可以包括用于请求执行任务的指定表达以及关于在说出指定表达时要执行的至少一项任务的信息。
根据实施例,由制造商推荐的快捷命令列表1710可以响应于划动输入而改变在画面1700中显示的快捷命令项。例如,当在显示由制造商推荐的快捷命令列表1710的区域中发生从右向左划动的输入1740时,如在第二状态1703中那样,电子设备可以将在画面1700中显示的快捷命令项1711更改为快捷命令列表1710中包括的快捷命令项当中的下一顺序的快捷命令项1713。类似地,当在显示由制造商推荐的快捷命令列表1710的区域中发生从左向右划动的输入1740时,电子设备可以将在当前画面1700中显示的快捷命令项更改为快捷命令列表1710中包括的快捷命令项当中的前一顺序的快捷命令项。
根据实施例,当选择了快捷命令项1713中包括的附加按钮1750时,那么如第三示例状态1705中所示,电子设备可以将所选择的快捷命令项1713添加到由用户设置的快捷命令列表1730中。在这种情况下,电子设备可以将新添加的第三快捷命令项1735“唤醒”(例如,快捷命令项1713)显示在与其他快捷命令项(例如,第一快捷命令项1731和第二快捷命令项1733)相比更靠近画面1700的顶端。
根据实施例,当生成(或设置)快捷命令时,电子设备可以训练对所生成(或设置)的快捷命令的识别。例如,电子设备可以提示用户说出所生成的(或设置的)快捷命令超过指定次数,并且可以根据用户的话语基于对话音输入的重复分析来提高对相应快捷命令的识别。这样,电子设备可以训练具有用户特定话语模式的快捷命令的识别,以提高执行快捷命令的能力。
图18a和图18b是根据本公开的实施例的用于描述通过推荐生成快捷命令的方法的图。
参照图18a和18b,当处于第一状态1801时,电子设备(例如,用户终端100)可以输出能够便于配置快捷命令的画面1810。快捷命令的描述画面1810可以包括由制造商预先配置(例如,推荐)的快捷命令列表和由用户定制配置的快捷命令列表。
根据实施例,当接收到选择快捷命令列表中包括的一个快捷命令项1811的输入1840时,如在第二状态1803中那样,电子设备可以输出包括与所选择的快捷命令项1811相关的详细信息的画面1830。
例如,快捷命令项1811的详细内容画面1830可以包括用于请求执行任务的快捷命令的指定表达或激活短语1831(例如“到家了”)、关于当说出特定表达1831时要执行的至少一任务的信息(例如,关于第一任务的信息1833、关于第二任务的信息1835)以及快捷命令项1811的存储按钮1860。图18例示了响应于检测到输入了由短语“到家了”触发的快捷命令集而执行两项任务的示例。例如,当用户说出“到家了”时,电子设备可以依次或并行执行第一任务(例如,将我手机的铃声更改为振动)和第二任务(例如,打开Wi-Fi)。
图19a、图19b、图19c、图19d、图19e和图19f是根据本公开实施例的用于描述通过用户的话语历史信息生成快捷命令的方法的图。
参照图19a至图19f,电子设备(例如,用户终端100)可以基于用户的话语历史信息来生成快捷命令。如在第一状态1901中那样,能够生成(或设置)快捷命令的画面1910可以包括用户的话语历史信息的输出按钮1911、话音命令的搜索按钮1913以及预存储的快捷命令的输出按钮1915。
根据实施例,当生成用于选择用户的话语历史信息的输出按钮1911的输入1917时,如在第二状态1902中那样,电子设备可以输出与由用户说出的话语相关联的历史信息画面1920和通过用户的话语执行的任务。例如,历史信息画面1920可以以话语时间的顺序排列并显示通过用户执行任务的话语而生成的历史信息项。例如,最近说出的第一历史信息1921可以最接近画面1920的上端而输出,并且以前已经说出的第二历史信息1923、第三历史信息1925和第四历史信息1927可以沿画面1920的下端的方向按照顺序依次输出。
当生成用于在历史信息项当中选择一个历史信息项的输入1929时,如第三状态1903中那样,电子设备可以输出用于将所选择的历史信息项设置为快捷命令的画面1930。例如,出于将用户先前说出的内容1931映射到指定表达的目的,画面1930可以提供能够通过话音输入设置指定表达的界面。即,画面1930可以包括话音输入按钮1933。
当选择话音输入按钮1933时,如第四状态1904中那样,电子设备可以从用户接收话音输入并且可以输出包括接收到的话音输入的内容1941的画面1940、用于再次接收话音输入的按钮1943以及用于将接收到的话音输入设置为指定的表达的按钮1945。
当接收到用于选择指定表达的设置按钮1945的输入1947时,如第五状态1905中那样,电子设备可以输出快捷命令项的详细内容画面1950。例如,快捷命令项的详细内容画面1950可以包括用于请求执行任务的指定表达1951(即,“振动”)、关于在说出指定表达1951时要执行的至少一项任务的信息1953、任务的附加按钮1955以及快捷命令项的存储按钮1957。
当选择了快捷命令项的存储按钮1957时,如第六状态1906中那样,电子设备可以输出例示了由用户设置的快捷命令列表的画面1960。例示了由用户设置的快捷命令列表的画面1960可以包括预设的快捷命令项(例如,第一快捷命令项1961、第二快捷命令项1963和新添加的第三快捷命令项1965)。根据实施例,电子设备可以显示新添加的第三快捷命令项1965,以便与其他快捷命令项(例如,第一快捷命令项1961和第二快捷命令项1963)相比更靠近画面1960的顶端。
图20a、图20b、图20c、图20d、图20e和图20f是根据本公开实施例的用于描述通过搜索话音命令来生成快捷命令的方法的图。
参照图20a至图20f,电子设备(例如,用户终端100)可以提供通过搜索话音命令来生成快捷命令的方法。根据实施例,如第一状态2001中那样,电子设备可以输出快捷命令项的详细内容画面2010。例如,快捷命令项的详细内容画面2010可以包括用于请求执行任务的指定表达2011、关于当说出指定表达2011时要执行的至少一项任务的信息2013以及任务的附加按钮2015。
当接收到用于选择任务的附加按钮2015的输入2017时,如第二状态2002中那样,电子设备可以输出能够生成(或设置)快捷命令的画面2020。例如,能够生成(或设置)快捷命令的画面2020可以包括用户的话语历史信息的输出按钮2021、话音命令的搜索按钮2023以及预存储的快捷命令的输出按钮2025。
当生成用于选择话音命令的搜索按钮2023的输入2027时,如第三状态2003中那样,电子设备可以输出能够搜索要用于电子设备的话音命令的画面2030。例如,话音命令的搜索画面2030可以包括搜索词输入字段2031和话音命令列表2033。
根据实施例,可以通过话音命令列表2033中的滚动输入2035来改变画面2030中显示的话音命令项。另外,当聚焦于搜索词输入字段2031时,电子设备可以显示用于在画面2030的下端输入搜索词的软输入面板(SIP)2037。
当生成用于选择话音命令列表2033中包括的一个话音命令项的输入2039时,如第四状态2004中那样,电子设备可以输出所选择的话音命令项的详细内容画面2040。例如,话音命令项的详细内容画面2040可以包括话音命令的内容2041和话音命令的存储按钮2043。
当选择了话音命令的存储按钮2043时,如第五状态2005中那样,电子设备可以输出快捷命令项的详细内容画面2050(例如,快捷命令项的详细内容画面2010)。快捷命令项的详细内容画面2050可以包括:用于请求执行任务的指定表达2051(例如,指定表达2011)、关于当说出指定表达2051时要执行的预设任务的信息2053(例如,信息2013)、关于与新添加的话音命令相对应的任务的信息2055以及快捷命令项的存储按钮2057。
当选择了快捷命令项的存储按钮2057时,如第六状态2006中那样,电子设备可以输出例示了由用户设置的快捷命令列表的画面2060。例示了由用户设置的快捷命令列表的画面2060可以包括预设的快捷命令项(例如,第一快捷命令项2061、第二快捷命令项2063)以及新添加的第三快捷命令项2065。根据实施例,电子设备可以显示新添加的第三快捷命令项2065,以便与其他快捷命令项(例如,第一快捷命令项2061和第二快捷命令项2063)相比更靠近画面2060的顶端。
图21a至图21c是根据本公开的实施例的用于描述基于预存储的快捷命令生成快捷命令的方法的图。
参照图21a至图21c,电子设备(例如,用户终端100)可以基于预存储的快捷命令来生成(或设置)新的快捷命令。如第一状态2101中那样,能够生成(或设置)快捷命令的画面2110可以包括用户的话语历史信息的输出按钮2111、话音命令的搜索按钮2113以及预存储的快捷命令的输出按钮2115。
根据实施例,当生成用于选择预存储的快捷命令的输出按钮2115的输入2117时,如第二状态2103中那样,电子设备可以输出包括由用户设置的快捷命令列表的画面2130。由用户设置的快捷命令列表可以包括由用户设置的快捷命令项(例如,第一快捷命令项2131、第二快捷命令项2133、第三快捷命令项2135或第四快捷命令项2137)。由用户设置的快捷命令项可以包括用于请求执行任务的指定表达以及关于当说出指定表达时要执行的至少一项任务的信息。
当生成用于选择快捷命令列表中包括的一个快捷命令项的输入2139时,如第三状态2105中那样,电子设备可以输出所选择的快捷命令项的详细内容画面2150。例如,快捷命令项的详细内容画面2150可以包括用于请求执行任务的指定表达2151以及关于当说出指定表达2151时要执行的至少一项任务的信息(例如,关于第一任务的信息2153或关于第二任务的信息2155)。根据实施例,当选择了关于任务的一条信息时,电子设备可以将所选择的任务添加到新生成的(或设置的)快捷命令中。
图22a至图22d是根据本公开的实施例的用于描述编辑话音命令中包括的参数信息的方法。
参照图22a至图22d,电子设备(例如,用户终端100)可以提供用于编辑关于快捷命令中包括的任务的信息的界面。根据实施例,电子设备可以提供界面,以便编辑用于请求执行任务的话音命令中所包括的参数信息。例如,如第一状态2201中那样,电子设备可以输出与特定任务相关联的详细信息画面2210。例如,与特定任务相关联的详细信息画面2210可以包括用于请求执行特定任务的内容2211。此外,电子设备可以显示话音命令的内容2211的可改变部分(例如,参数信息),以便与其他部分区分开。图22例示了在话音命令的内容2211被设置为“在给洪基东的消息中发送说'明天见'的文本”的情况下当发送消息时与参数信息相对应的接收者2211a(例如,“洪基东”)和消息内容2211b(例如,“明天见”)被突出显示以与其他部分区分开的状态。
当输入2213以选择接收者2211a(第一参数信息)时,如第二状态2203中那样,电子设备可以基于所选择的第一参数信息的属性输出用于编辑第一参数信息的画面。例如,由于第一参数信息具有用户能够联系的接收者的属性,因此电子设备可以输出联系人选择画面(或地址簿)2230。在实施例中,电子设备可以在画面2210的下端输出输出软输入面板2271,使得用户直接输入关于接收者的信息(例如,电话号码),而不是输出联系人选择画面2230。
当在联系人选择画面2230中生成用于选择与特定人相关联的联系人项2231的输入2233时,如第三状态2205中那样,电子设备可以输出与特定任务相关联的详细信息画面2250(例如,与特定任务相关联的详细信息画面2210),其中接收者2211a更改为特定人2211c。
当生成用于选择消息内容2211b(第二参数信息)的输入2251时,如第四状态2207中那样,电子设备可以在画面2270的下端中输出软输入面板2271,使得用户编辑(或输入)消息内容2211b。当用户通过软输入面板2271编辑消息内容2211b时,编辑后的消息内容2211d可以实时地或在编辑完成时被应用于用于请求执行特定任务的话音命令的内容2211。
图23是根据本公开的实施例的用于描述编辑快捷命令的方法的图。
参照图23,电子设备(例如,用户终端100)可以提供界面,使得能够在快捷命令项的详细内容画面2300中编辑快捷命令项。例如,快捷命令项的详细内容画面2300可以包括用于请求任务运行的指定表达2310、关于当说出指定表达2310时要执行的至少一项任务的信息(例如,关于第一任务的信息2330或关于第二任务的信息2350)以及任务的附加按钮2370。关于任务的信息可以包括用于请求执行任务的话音命令(例如,“将手机模式更改为振动”或“在给金素珍的消息中发送说'晚安'的文本消息”)。
根据实施例,电子设备可以在显示关于任务的信息的区域中或与其相邻的区域中显示用于删除任务的按钮2331和2351以及用于改变任务的运行顺序的按钮2333和2353。例如,当选择第一删除按钮2331时,电子设备可以从快捷命令中删除第一任务(例如,“手机更改为振动”);以及当选择第二删除按钮2351时,电子设备可以从快捷命令中删除第二任务(例如,“发送消息”)。又例如,当选择第一顺序改变按钮2333时,电子设备可以改变第一任务的运行顺序;以及当选择第二顺序改变按钮2335时,电子设备可以改变第二任务的运行顺序。当按下顺序改变按钮2333和2353中面对画面2300的上端的部分时,对应任务的运行顺序可以被一步改变至高级别;但是,当按下顺序改变按钮2333和2353中的面对画面2300的下端的部分时,对应任务的运行顺序可以被一步改变至低级别。例如,当按下第一顺序改变按钮2333中的面对画面2300的下端的部分时,可以改变顺序,使得在执行第二任务之后执行第一任务。又例如,当按下第二顺序改变按钮2353中的面对画面2300的上端的部分时,可以改变顺序使得在执行第一任务之前执行第二任务。
根据实施例,在用于请求执行任务的话音命令的内容中包括可变部分(例如,参数信息)的情况下,电子设备可以在显示关于任务的信息的区域中或在与其相邻的区域中显示与可改变部分相关联的编辑按钮2355。当选择编辑按钮2355时,如图22中所描述的,电子设备可以提供能够编辑可变部分的界面。
图24a至图24d是根据本公开的实施例的用于描述当通过用户的话语生成快捷命令时设置话音命令中包括的参数的方法的图。
参照图24a至图24d所示,电子设备2400(例如,用户终端100)可以通过用户的话语来生成(或设置)快捷命令。例如,除了基于推荐、话语历史信息、话音命令的搜索或预存储的快捷命令的信息生成(或设置)新的快捷命令的方法之外,电子设备2400还可以提供基于通过用户的话语的话音命令生成(或设置)新的快捷命令的方法。
在基于通过用户的话语的话音命令生成(或设置)新的快捷命令的情况下,通过用户的话语的话音命令可能未包括执行特定任务要利用的所有信息。例如,在用户说出“发送消息”的情况下,由于不存在发送消息要利用的参数信息,因此难以执行与发送消息相对应的任务。在这种情况下,电子设备2400可以提供用于附加地接收执行任务要利用的信息的界面。
根据实施例,如第一状态2401中那样,电子设备2400可以输出用于输入附加信息的画面2410。例如,用于输入附加信息的画面2410可以包括用户说出的话音命令2411(例如,“发送消息”)、用于用附加信息引导用户的文本2413、关于附加信息的提示信息2415、用于选择附加信息的列表选择按钮2417以及附加信息(例如,接收者2411a或消息内容2411b)。
指南文本2413可以包括促使用户输入附加信息的文本。例如,在需要添加接收者2411a的情况下,指南文本2413可以包括促使用户输入接收者2411a的文本(例如,“我发送给谁”)。又例如,在需要添加消息内容2411b的情况下,指南文本2413可以包括促使用户输入消息内容2411b的文本(例如,“您想发送什么内容?”)。
提示信息2415可以提供与附加信息相关联的提示。例如,在需要添加接收者2411a的情况下,提示信息2415可以提供与存储在地址簿中的人当中最近联系的人或经常联系的人相关联的联系人作为提示。
列表选择按钮2417可以提供用于选择附加信息的列表。例如,在需要添加接收者2411a的情况下,当选择了列表选择按钮2417时,可以输出地址簿。
根据实施例,电子设备2400可以通过用户的话语获得附加信息。在这种情况下,如第二状态2403中那样,电子设备2400可以在画面2410中显示用户的话语内容2431。第二状态2403可以指示接收者2411a是通过用户的话语输入的状态;结果,如第三状态2405中那样,可以在用于输入接收者2411a的字段中显示文本2451(例如“洪基东”)以对应于用户的话语内容2431。另外,在第三状态2405下,当通过用户的话语接收到消息内容2411b时,可以在画面2410中显示用户的话语内容2455;如在第四状态2407中那样,可以在用于输入消息内容2411b的字段中显示文本2471(例如,“我将在5分钟内到达”)以对应于用户的话语内容2455。
当获得了所有条附加信息时,如第四状态2407那样,电子设备2400可以在画面2410中输出用于提供输入了所有条附加信息的通知的文本2473和与话音命令相对应的任务的存储按钮2475。
图25是根据本公开的实施例的用于描述共享快捷命令的方法的图。
参照图25,电子设备(例如,用户终端100)可以与外部电子设备共享所设置的快捷命令。根据实施例,电子设备可以通过链接功能与外部电子设备共享快捷命令。
根据实施例,可以以表格2500执行通过链接功能共享快捷命令,在该表格2500中列出了指派给快捷命令的标题2510。根据实施例,链接中包括的元素可以包括指派给快捷命令的标题2510、与路径规则相关联的用户的app版本等。但是,链接中包括的元素不限于此。
指派给快捷命令的标题2510可以是简短地显示用户的话语,并且可以是简短地显示代表性话语或用于执行任务的话语。例如,在用户说出“在设置中显示电池使用历史”的情况下,标题2510可以显示为“电池使用检查”等。在实施例中,标题2510可以显示原始话语内容,而不是简化的话语内容。例如,在用户说“在设置中显示电池使用历史”的情况下,标题2510也可以显示为“在设置中显示电池使用历史”。
在无其他方的验证信息(例如,由其他方安装的app的名称/版本、诸如联系人列表信息的个人信息等)的情况下发送的链接的情况下,表格2500可以包括含有用户的话语的深层链接2530和标题2510。在验证了其他方的信息以确定快捷命令是否适当执行之后发送的链接的情况下,表格2500可以包括含有路径规则和参数信息的深层链接2530和标题2510。
深层链接2530可以包括安装在电子设备(在该电子设备中除了生成路径规则之外还生成链接)中的app信息(例如,app名称或版本信息)、OS信息、关于连接到该电子设备的设备(例如,BT耳机、智能手机、物联网(IOT)设备等)的信息等。当通过从接收链接的外部电子设备接收到的链接来执行任务时,该信息可以用于拒绝发送的路径规则,执行具有类似功能的另一个app,或基于该信息和电子设备的信息之间的比较结果推荐OS或app的更新。另外,可以以JSON形式的格式设置包括参数的路径规则。另外,路径规则的标识符可以包括在深层链接2530中。
根据实施例,电子设备可以将由用户生成的快捷命令上传到服务器(例如,市场)上,并且可以从服务器下载由另一用户上传的快捷命令。例如,电子设备可以以图10中描述的快捷命令数据1000的格式将快捷命令上传到服务器上。
根据实施例,电子设备可以处理与快捷命令相关联的错误。例如,电子设备可以在最初生成快捷命令的时间点根据快捷命令正常执行任务;但是,通过电子设备中的更改可能无法正常执行所存储的快捷命令。由于快捷命令无法正常执行,因此当执行部分登陆时,可以通过将部分登陆下的运行结果反映到快捷命令来修改快捷命令。例如,“向金哲秀发送说'嗨'的文本消息”的任务可以映射到说“金哲秀”的快捷命令。由于在生成快捷命令的时间点地址簿中存储有“金哲秀”的人员信息,因此可以正常执行任务;然而,在随后从地址簿中删除“金哲秀”的人员信息的情况下,由于找不到接收者,因此执行可以是部分登陆。在这种情况下,当输入说“金哲秀”的快捷命令后执行说“向金哲秀发送说'嗨'的文本消息”的任务时,在地址薄中搜索“金哲秀”的过程可以处于部分登陆;在此操作中,用户被请求再次输入接收者。之后,当用户输入接收者时,电子设备可以执行任务直到最终动作,并且可以向用户提供用于修改与任务相对应的快捷命令的画面。换句话说,当包括没有用参数填充的路径规则的快捷命令时(或者当在电子设备中未使用路径规则中包括的参数时),电子设备可以执行最终动作,可以接收到在部分登陆中的用户输入以执行任务直到最终动作,并且可以在完成了任务的运行之后提供用于修改快捷命令的画面。因此,电子设备可以通过输入参数来促使用户修改快捷命令。在这种情况下,电子设备可以提供用户先前输入的信息作为部分登陆中的提示。
图26是例示了根据各个实施例的在网络环境2600中的电子设备2601的框图。参照图26,网络环境2600中的电子设备2601可以经由第一网络2698(例如,短距离无线通信网络)与电子设备2602进行通信,或者可以经由第二网络2699(例如,远程无线通信网络)与电子设备2604或服务器2608进行通信。根据实施例,电子设备2601可以经由服务器2608与电子设备2604通信。根据实施例,电子设备2601可以包括处理器2620、存储器2630、输入设备2650、声音输出设备2655、显示设备2660、音频模块2670、传感器模块2676、接口2677、触觉模块2679、相机模块2680、电源管理模块2688、电池2689、通信模块2690、用户标识模块(SIM)2696)或天线模块2697。在一些实施例中,可以从电子设备2601中省略这些组件中的至少一个(例如,显示设备2660或相机模块2680),或者可以在电子设备2601中添加一个或更多个其他组件。在一些实施例中,一些组件可以实现为单个集成电路。例如,传感器模块2676(例如,指纹传感器、虹膜传感器或照度传感器)可以实现为嵌入在显示设备2660(例如,显示器)中。
处理器2620可以执行例如软件(例如,程序2640)以控制与处理器2620耦接的电子设备2601的至少一个其他组件(例如,硬件或软件组件),并且可以执行各种数据处理或计算。根据实施例,作为数据处理或计算的至少一部分,处理器2620可以将从另一组件(例如,传感器模块2676或通信模块2690)接收的命令或数据加载到易失性存储器2632中,处理存储在易失性存储器2632中的该命令或该数据,并将结果数据存储在非易失性存储器2634中。根据实施例,处理器2620可以包括主处理器2621(例如,中央处理单元(CPU)或应用处理器(AP))和与主处理器2621独立地或结合地可操作的辅处理器2623(例如,图形处理单元(GPU)、图像信号处理器(ISP)、传感器集线器处理器或通信处理器(CP))。附加地或另选地,辅处理器2623可以适于比主处理器2621消耗更少的电力,或者专用于指定功能。辅处理器2623可以被实现为与主处理器2621分离或作为主处理器2621的一部分。
辅处理器2623可以在主处理器2621处于非活动(例如,睡眠)状态时代替主处理器2621或者在主处理器2621处于活动状态(例如,运行应用)时与主处理器2621一起,控制与电子设备2601的组件当中的至少一个组件(例如,显示设备2660、传感器模块2676或通信模块2690)相关的功能或状态中的至少一些功能或状态。根据实施例,辅处理器2623(例如,图像信号处理器或通信处理器)可以实现为在功能上与辅处理器2623相关的另一组件(例如,相机模块2680或通信模块2690)的一部分。
存储器2630可以存储电子设备2601的至少一个组件(例如,处理器2620或传感器模块2676)使用的各种数据。各种数据可以包括例如软件(例如,程序2640)和用于与其相关的命令的输入数据或输出数据。存储器2630可以包括易失性存储器2632或非易失性存储器2634。
程序2640可以作为软件存储在存储器2630中,并且可以包括例如操作系统(OS)2642、中间件2644或应用2646。
输入设备2650可以从电子设备2601的外部(例如,用户)接收电子设备2601的其他组件(例如,处理器2620)要使用的命令或数据。输入设备2650可以包括例如麦克风、鼠标或键盘。
声音输出设备2655可以向电子设备2601的外部输出声音信号。声音输出设备2655可以包括例如扬声器或接收器。扬声器可以用于一般目的,诸如播放多媒体或播放唱片,而接收器可用于来电。根据实施例,接收器可以实现为与扬声器分离或者作为扬声器的一部分。
显示设备2660可以在视觉上向电子设备2601的外部(例如,用户)提供信息。显示设备2660可以包括例如显示器、全息图设备或投影仪以及控制电路,以控制显示器、全息图设备和投影仪中的相应一个。根据实施例,显示设备2660可以包括适于检测触摸的触摸电路,或适于测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块2670可以将声音转换成电信号,反之亦然。根据实施例,音频模块2670可以经由输入设备2650获得声音,或者经由声音输出设备2655或与电子设备2601直接(例如,有线地)地或无线地联接的外部电子设备(例如,电子设备2602)的耳机输出声音。
传感器模块2676可以检测电子设备2601的操作状态(例如,功率或温度)或电子设备2601外部的环境状态(例如,用户的状态),然后生成与检测到的状态相对应的电信号或数据值。根据实施例,传感器模块2676可以包括例如手势传感器、陀螺仪传感器、大气压传感器、磁传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物传感器、温度传感器、湿度传感器或照度传感器。
接口2677可以支持一种或更多种指定协议,以用于电子设备2601直接(例如,有线地)或无线地与外部电子设备(例如,电子设备2602)耦接。根据实施例,接口2677可以包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端子2678可以包括连接器,电子设备2601经由该连接器可以与外部电子设备(例如,电子设备2602)物理连接。根据实施例,连接端子2678可以包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器),
触觉模块2679可以将电信号转换成用户可以经由其触觉感觉或动觉感觉来识别的机械刺激(例如,振动或运动)或电刺激。根据实施例,触觉模块2679可以包括例如电机、压电元件或电刺激器。
相机模块2680可以捕获静止图像或运动图像。根据实施例,相机模块2680可以包括一个或更多个镜头、图像传感器、图像信号处理器或闪光灯。
电源管理模块2688可以管理提供给电子设备2601的电力。根据实施例,电源管理模块2688可以实现为例如电源管理集成电路(PMIC)的至少一部分。
电池2689可以向电子设备2601的至少一个组件供电。根据实施例,电池2689可以包括例如不可充电的一次电池、可充电的二次电池或燃料电池。
通信模块2690可以支持在电子设备2601和外部电子设备(例如,电子设备2602、电子设备2604或服务器2608)之间建立直接(例如,有线)通信信道或无线通信信道,并且经由建立的通信信道执行通信。通信模块2690可以包括独立于处理器2620(例如,应用处理器(AP))可操作并且支持直接(例如,有线)通信或无线通信的一个或更多个通信处理器。根据实施例,通信模块2690可以包括无线通信模块2692(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块2694。(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的相应一个可以经由第一网络2698(例如,短距离通信网络,诸如BluetoothTM的短程通信网络、无线保真(Wi-Fi)直接或红外数据关联(IrDA))或第二网络2699(例如,远程通信网络,诸如蜂窝网络、因特网或计算机网络(例如,LAN或广域网(WAN))与外部电子设备进行通信。这些各种类型的通信模块可以实现为单个组件(例如,单个芯片),或者可以实现为彼此分离的多个组件(例如,多个芯片)。无线通信模块2692可以使用存储在用户标识模块2696中的用户信息(例如,国际移动用户身份(IMSI))在诸如第一网络2698或第二网络2699的通信网络中标识和认证电子设备2601。
天线模块2697可以向电子设备2601的外部(例如,外部电子设备)发送信号或电力,或者从电子设备2601的外部(例如,外部电子设备)接收信号或电力。根据实施例,天线模块2697可以包括一个或更多个天线,并且可以由例如通信模块2690(例如,无线通信模块2692)从该一个或更多个天线中选择适于在诸如第一网络2698或第二网络2699的通信网络中使用的通信方案的至少一个天线。然后可以经由所选的至少一个天线在通信模块2690与外部电子设备之间发送或接收信号或电力。
上述组件中的至少一些组件可以相互联接,并经由外围通信方案(例如,总线、通用输入和输出(GPIO)、串行外部接口(SPI)或移动行业处理器接口(MIPI))在它们之间通信信号(例如,一个或更多个指令或数据)。
根据实施例,可以经由与第二网络2699联接的服务器2608在电子设备2601和外部电子设备2604之间发送或接收一个或更多个指令或数据。每个电子设备2602和2604可以是与电子设备2601具有相同类型或不同类型的设备。根据实施例,可以在外部电子设备2602、2604或2608中的一个或更多个处执行要在电子设备2601处执行的操作中的全部或一些。例如,如果电子设备2601应自动或者响应于来自用户或另一设备的请求而执行功能或服务,则电子设备2601代替执行该功能或该服务或者除了执行该功能或服务之外还可以请求一个或更多个外部电子设备执行该功能或该服务的至少一部分。接收到请求的一个或更多个外部电子设备可以执行所请求的功能或服务的至少一部分,或与该请求有关的附加功能或附加服务,并向电子设备2601传送执行的结果。无论是否对结果进行进一步处理,电子设备2601可以提供结果作为对该请求的答复的至少一部分。为此,例如,可以使用云计算、分布式计算或客户端-服务器计算技术。
根据各个实施例的电子设备可以是各种类型的电子设备之一。电子设备可以包括例如便携式通信设备(例如,智能电话)、计算机设备、便携式多媒体设备、便携式医疗设备、相机、可穿戴设备或家用电器。根据本公开的实施例,电子设备不限于上述那些。
应当理解,本公开的各个实施例和本文所使用的术语并非旨在将本公开中阐述的技术限于特定实施例,并且包括对应实施例的各种修改、等同形式和/或替代方案。关于附图的描述,相似的附图标记可以用于指代相似或相关的元件。应当理解,除非相关上下文清楚地另外指出,否则与项目相对应的单数形式的名词可以包括一个或更多个事物。如本文所用,诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的每个短语可以包括在相应一个短语中一起列举的项目的所有可能组合。如本文中所使用的,诸如“第1”和“第2”或“第一”和“第二”之类的术语可以用于将对应的组件与另一组件简单地区分开,并且在其他方面(例如,重要性或顺序)不限制组件。应该理解的是,如果一个元件(例如,第一元件)被称为,具有或不具有术语“可操作地”或“可通信地”“与另一元件(例如,第二元件)耦接”、“耦接至另一元件(例如,第二元件)”、“与另一元件(例如,第二元件)连接”或“连接至另一元件(例如,第二元件)”,则表示该元件可以直接(例如,有线地)、无线地或经由第三元件与另一元件联接。
如本文所使用的,术语“模块”可以包括以硬件、软件或固件实现的单元,并且可以与其他术语(例如“逻辑”、“逻辑块”、“部件”或“电路”)互换使用。模块可以是适于执行一个或更多个功能的单个整体组件或其最小单元或部件。例如,根据实施例,模块可以以专用集成电路(ASIC)的形式实现。
如同本文阐述的各个实施例可以实现为包括一个或更多个指令的软件(例如,程序2640),该一个或更多个指令存储在机器(例如,电子设备2601)可读的存储介质(例如,内部存储器2636或外部存储器2638)中。例如,机器(例如,电子设备2601)的处理器(例如,处理器2620)可以调用存储在存储介质中的一个或更多个指令中的至少一个指令,并在处理器的控制下使用或不使用一个或更多个其他部件来执行该指令。这允许机器被操作以根据所调用的至少一个指令来执行至少一个功能。一个或更多个指令可以包括由编译器生成的代码或由解释器可执行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。具体而言,术语“非暂时性”仅表示存储介质是有形设备,并且不包括信号(例如,电磁波),但是该术语对于数据永久性存储在存储介质中与数据临时存储在存储介质中进行区分。
根据实施例,可以在计算机程序产品中包括并提供根据本公开的各个实施例的方法。该计算机程序产品可以作为产品在卖方和买方之间进行交易。该计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(CD-ROM))的形式分发,或者经由应用商店(例如,Play StoreTM)在线分发(例如,下载或上传),或直接在两个用户设备(例如,智能手机)之间分发。如果在线分发,则计算机程序产品的至少一部分可以临时生成或至少临时存储在诸如制造商服务器的存储器、应用商店的服务器或中继服务器的机器可读存储介质中。
根据各个实施例,上述组件的每个组件(例如,模块或程序)可以包括单个实体或多个实体。根据各个实施例,可以省略一个或更多个上述组件,或者可以添加一个或更多个其他组件。可选地或附加地,多个组件(例如,模块或程序)可以集成到单个组件中。在这种情况下,根据各个实施例,集成组件仍可以以与集成之前多个组件中的相应组件执行的功能相同或相似的方式来执行多个组件中的每个组件的一个或更多个功能。根据各个实施例,由模块、程序或另一组件执行的操作可以顺序地、并行地、重复地或启发式地执行,或者操作中的一个或更多个可以以不同的顺序执行或被省略,或者可以添加一个或更多个其他操作。
尽管已经参照本公开的各个实施例示出和描述了本公开,但是本领域技术人员将理解,在不脱离如所附权利要求及其等同形式所限定的本公开的情况下,可以进行形式和细节上的各种改变。
Claims (14)
1.一种电子设备,所述电子设备包括:
触摸屏;
麦克风;
无线通信电路;
至少一个处理器,所述至少一个处理器可操作地耦接到所述触摸屏、所述麦克风和所述无线通信电路;以及
至少一个存储器,所述至少一个存储器存储有所述至少一个处理器可运行以使所述电子设备执行以下操作的编程指令:
通过所述麦克风接收用户话语;
通过所述无线通信电路向外部服务器发送接收到的用户话语;
通过所述无线通信电路接收由所述外部服务器生成的文本数据;
当所述文本数据包括至少一个预存储的字、短语和句子时,确认映射到所述至少一个预存储的字、短语和句子的多项任务;
确定所确认的多项任务之间是否存在关系;
如果所确认的多项任务之间存在关系,则顺序地运行所确认的多项任务;以及
如果所确认的多项任务之间不存在关系,则并行地运行所确认的多项任务。
2.根据权利要求1所述的电子设备,其中,所确认的多项任务包括第一任务和第二任务,并且
其中,所述至少一个存储器存储有与所述第一任务和第一标识符相关联的第一信息以及与所述第二任务和第二标识符相关联的第二信息。
3.根据权利要求1所述的电子设备,其中,所述至少一个存储器存储有映射到所述至少一个预存储的字、短语和句子的信息,并且其中,所述映射的信息包括与所述多项任务相关联的信息。
4.根据权利要求3所述的电子设备,其中,与所述多项任务相关联的信息包括以下至少一项:
所述多项任务中的每一个的各自类型、与运行所述多项任务有关的所述电子设备的状态序列,以及请求运行所述多项任务的可检测的话音命令、根据所述多项任务的运行的反馈信息以及指示所述多项任务中的最后任务的信息。
5.根据权利要求4所述的电子设备,其中,所述至少一个存储器还存储有所述至少一个处理器可运行以使所述电子设备执行以下操作的指令:
依据所述多项任务中的每一个的各自类型,
确定是处理与所述多项任务相关联的信息的至少一部分;还是
向所述外部服务器和第二外部服务器中的至少一个发送与所述多项任务相关联的信息的所述至少一部分。
6.一种电子设备,所述电子设备包括:
麦克风;
通信电路;
至少一个处理器,所述至少一个处理器电耦接至所述麦克风和所述通信电路;以及
存储器,所述存储器存储有所述至少一个处理器可运行以使所述电子设备执行以下操作的编程指令:
在所述存储器中存储映射到与由单个用户设置的多个第一任务相关联的第一信息的第一表达,
通过所述麦克风接收所述单个用户的第一话音输入,
通过所述通信电路向外部服务器发送所述第一话音输入;
通过所述通信电路从所述外部服务器接收由所述外部服务器根据所发送的第一话音输入而生成的第一文本数据;
在所述存储器中搜索与所述第一文本数据匹配的任何已存储的表达;
当所述第一表达被确认为与所述第一文本数据匹配时,通过所述通信电路向所述外部服务器发送与所述多个第一任务相关联的所述第一信息;
通过所述通信电路从所述外部服务器接收第二信息,所述第二信息指示了与运行由所述外部服务器确认为与所述第一信息匹配的所述多个第一任务相关的所述电子设备的状态序列;以及
根据所述第二信息,运行所述多个第一任务,使得所述多个第一任务通过所述电子设备顺序地具有所述状态序列之中的一个或更多个状态而被执行,
其中,所述第一表达包括指定字、指定短语和指定句子中的至少一个。
7.根据权利要求6所述的电子设备,其中,与所述多个第一任务相关联的所述第一信息包括以下至少一项:
所述多个第一任务中的每一个的各自类型、与运行所述多个第一任务有关的所述电子设备的状态序列、请求运行所述多个第一任务的可检测的话音命令、根据所述多个第一任务的运行的反馈信息以及指示所述多个第一任务中的最后任务的信息。
8.根据权利要求6所述的电子设备,其中,所述存储器还存储有指令,所述指令在被执行时使所述处理器:
当接收到用户输入时,输出所述存储器中存储的话语历史信息;
当所述历史信息之一被选择时,验证至少一个第二话音命令和与所选择的话语历史信息相对应的多个第二任务;
通过所述麦克风接收用于运行所述多个第二任务的第二表达;以及
映射并存储所述第二表达和所述多个第二任务。
9.根据权利要求6所述的电子设备,其中,所述存储器还存储有所述至少一个处理器可运行以使所述电子设备执行以下操作的指令:
当所述第二信息与所述第一任务的多个运行序列相关时,基于另一个用户输入确定所述多个运行序列中的一个运行序列。
10.根据权利要求6所述的电子设备,
其中,所述存储器还存储有所述至少一个处理器可运行以使所述电子设备执行以下操作的指令:
提示所述用户说出所述第一表达超过指定次数;以及
基于根据所述用户的话语对话音输入进行的重复分析,识别所述第一表达。
11.根据权利要求6所述的电子设备,其中,所述存储器还存储有所述至少一个处理器可运行以使所述电子设备执行以下操作的指令:
当在所述电子设备中未使用所述电子设备的所述状态序列中的参数时,输出用于促使所述用户修改所述参数的提示。
12.根据权利要求6所述的电子设备,其中,所述存储器还存储有所述至少一个处理器可运行以使所述电子设备执行以下操作的指令:
生成并显示用于编辑所述第一表达和与映射到所述第一表达的所述多个第一任务相关联的所述第一信息的界面。
13.一种电子设备中的话音数据处理方法,所述方法包括:
由存储器存储映射到与由单个用户设置的多个第一任务相关联的第一信息的第一表达;
通过麦克风接收所述单个用户的第一话音输入;
通过通信电路向外部服务器发送接收到的第一话音输入;
通过所述通信电路从所述外部服务器接收由所述外部服务器根据所述第一话音输入通过应用自动语音识别(ASR)而生成的第一文本数据;
在所述存储器中搜索与所述第一文本数据匹配的任何已存储的表达;
当所述第一表达被确认为与所述第一文本数据匹配时,通过所述通信电路向所述外部服务器发送与所述多个第一任务相关联的所述第一信息;
通过所述通信电路从所述外部服务器接收第二信息,所述第二信息指示了与运行由所述外部服务器确认为与所述第一信息匹配的所述多个第一任务相关的所述电子设备的状态序列;以及
根据所述第二信息,运行所述多个第一任务,使得所述多个第一任务通过所述电子设备顺序地具有所述状态序列之中的一个或更多个状态而被执行,
其中,所述第一表达包括指定字、指定短语和指定句子中的至少一个。
14.根据权利要求13所述的方法,所述方法还包括:
将第二表达映射到与多个第二任务相关联的第三信息,所述多个第二任务与所述多个第一任务至少部分地不同;以及
将所述映射与以下至少一个相关联地存储在所述存储器中:推荐信息、所述用户的话语历史信息、至少一个预存储的第二话音命令、所述第一表达以及通过所述麦克风接收的第二话音输入,
其中,所述第二表达包括指定字、指定短语和指定句子中的至少一个。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2017-0106351 | 2017-08-22 | ||
KR1020170106351A KR102374910B1 (ko) | 2017-08-22 | 2017-08-22 | 음성 데이터 처리 방법 및 이를 지원하는 전자 장치 |
PCT/KR2018/009599 WO2019039834A1 (en) | 2017-08-22 | 2018-08-21 | METHOD FOR PROCESSING VOICE DATA AND ELECTRONIC DEVICE SUPPORTING SAID METHOD |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110998720A CN110998720A (zh) | 2020-04-10 |
CN110998720B true CN110998720B (zh) | 2024-01-09 |
Family
ID=65435229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880053757.3A Active CN110998720B (zh) | 2017-08-22 | 2018-08-21 | 话音数据处理方法及支持该方法的电子设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10832674B2 (zh) |
EP (1) | EP3652734B1 (zh) |
KR (1) | KR102374910B1 (zh) |
CN (1) | CN110998720B (zh) |
WO (1) | WO2019039834A1 (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180060328A (ko) | 2016-11-28 | 2018-06-07 | 삼성전자주식회사 | 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버 |
US20200327890A1 (en) * | 2017-11-28 | 2020-10-15 | Sony Corporation | Information processing device and information processing method |
KR102482589B1 (ko) | 2018-02-12 | 2022-12-30 | 삼성전자주식회사 | 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치 |
CN108492827B (zh) * | 2018-04-02 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 应用程序的唤醒处理方法、装置及存储介质 |
KR20200050373A (ko) * | 2018-11-01 | 2020-05-11 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
EP3647936B1 (en) * | 2018-11-01 | 2024-02-21 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
US11687850B2 (en) * | 2018-11-21 | 2023-06-27 | Honda Motor Co., Ltd | System and method for processing a task request to be executed and fulfilled |
US11694130B2 (en) | 2018-11-21 | 2023-07-04 | Honda Motor Co., Ltd. | System and method for assigning an agent to execute and fulfill a task request |
KR20200117317A (ko) * | 2019-04-03 | 2020-10-14 | 현대자동차주식회사 | 대화 시스템 및 대화 처리 방법 |
US11195532B2 (en) * | 2019-04-26 | 2021-12-07 | Oracle International Corporation | Handling multiple intents in utterances |
US11416755B2 (en) * | 2019-08-30 | 2022-08-16 | Accenture Global Solutions Limited | Artificial intelligence based system and method for controlling virtual agent task flow |
US20220300307A1 (en) * | 2019-10-01 | 2022-09-22 | Google Llc | Providing assistive user interfaces using execution blocks |
KR20210059978A (ko) * | 2019-11-18 | 2021-05-26 | 엘지전자 주식회사 | 음성 어시스턴트의 사용자 입력 처리방법 |
KR20210066644A (ko) * | 2019-11-28 | 2021-06-07 | 삼성전자주식회사 | 단말 장치, 서버 및 그 제어 방법 |
CN110853645A (zh) * | 2019-12-02 | 2020-02-28 | 三星电子(中国)研发中心 | 一种识别语音命令的方法及装置 |
US11676586B2 (en) * | 2019-12-10 | 2023-06-13 | Rovi Guides, Inc. | Systems and methods for providing voice command recommendations |
CN111243587A (zh) * | 2020-01-08 | 2020-06-05 | 北京松果电子有限公司 | 语音交互方法、装置、设备及存储介质 |
CN111538814B (zh) * | 2020-04-26 | 2024-03-08 | 云知声智能科技股份有限公司 | 一种语义理解中协议支持自定义标准化的方法 |
CN112698872A (zh) * | 2020-12-21 | 2021-04-23 | 北京百度网讯科技有限公司 | 语音数据处理的方法、装置、设备及存储介质 |
US11769489B2 (en) | 2021-01-28 | 2023-09-26 | Samsung Electronics Co., Ltd. | Electronic device and method for performing shortcut command in electronic device |
CN113192490A (zh) * | 2021-04-14 | 2021-07-30 | 维沃移动通信有限公司 | 语音处理方法、装置和电子设备 |
KR20230009109A (ko) * | 2021-07-08 | 2023-01-17 | 삼성전자주식회사 | 주변 소리 제어 방법 및 이를 위한 전자 장치 |
CN114376416A (zh) * | 2021-12-31 | 2022-04-22 | 珠海格力电器股份有限公司 | 控制烧水的方法、装置、存储介质、终端设备和系统 |
CN116681408B (zh) * | 2023-08-03 | 2023-11-24 | 太平金融科技服务(上海)有限公司 | 系统管理方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693725A (zh) * | 2011-03-25 | 2012-09-26 | 通用汽车有限责任公司 | 依赖于文本信息语境的语音识别 |
US9026431B1 (en) * | 2013-07-30 | 2015-05-05 | Google Inc. | Semantic parsing with multiple parsers |
CN105009203A (zh) * | 2013-03-12 | 2015-10-28 | 纽昂斯通讯公司 | 用于检测语音命令的方法和装置 |
CN107004412A (zh) * | 2014-11-28 | 2017-08-01 | 微软技术许可有限责任公司 | 用于监听设备的设备仲裁 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980037030A (ko) * | 1996-11-20 | 1998-08-05 | 박병재 | 차량용 음성인식 통화장치 및 그 제어 방법 |
US6615172B1 (en) * | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
JP3997459B2 (ja) * | 2001-10-02 | 2007-10-24 | 株式会社日立製作所 | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
US7421390B2 (en) * | 2002-09-13 | 2008-09-02 | Sun Microsystems, Inc. | Method and system for voice control of software applications |
US7184534B2 (en) * | 2002-12-19 | 2007-02-27 | International Business Machines Corporation | Using a telephony application server for call control with a voice server |
WO2004066125A2 (en) * | 2003-01-14 | 2004-08-05 | V-Enable, Inc. | Multi-modal information retrieval system |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US20060235694A1 (en) * | 2005-04-14 | 2006-10-19 | International Business Machines Corporation | Integrating conversational speech into Web browsers |
US20070100690A1 (en) * | 2005-11-02 | 2007-05-03 | Daniel Hopkins | System and method for providing targeted advertisements in user requested multimedia content |
US20080071533A1 (en) * | 2006-09-14 | 2008-03-20 | Intervoice Limited Partnership | Automatic generation of statistical language models for interactive voice response applications |
US8386259B2 (en) * | 2006-12-28 | 2013-02-26 | Intel Corporation | Voice interface to NFC applications |
US8650030B2 (en) * | 2007-04-02 | 2014-02-11 | Google Inc. | Location based responses to telephone requests |
US8364481B2 (en) | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
CN102262879B (zh) | 2010-05-24 | 2015-05-13 | 乐金电子(中国)研究开发中心有限公司 | 语音命令竞争处理方法、装置、语音遥控器和数字电视 |
US9953643B2 (en) * | 2010-12-23 | 2018-04-24 | Lenovo (Singapore) Pte. Ltd. | Selective transmission of voice data |
KR20140053760A (ko) | 2013-05-21 | 2014-05-08 | 삼성전자주식회사 | 영상처리장치 및 그 제어방법, 영상처리 시스템 |
US10430424B2 (en) | 2013-10-30 | 2019-10-01 | Entit Software Llc | Parameter suggestion based on user activity |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US10509680B2 (en) * | 2016-11-23 | 2019-12-17 | Vmware, Inc. | Methods, systems and apparatus to perform a workflow in a software defined data center |
-
2017
- 2017-08-22 KR KR1020170106351A patent/KR102374910B1/ko active IP Right Grant
-
2018
- 2018-08-21 CN CN201880053757.3A patent/CN110998720B/zh active Active
- 2018-08-21 EP EP18848265.7A patent/EP3652734B1/en active Active
- 2018-08-21 WO PCT/KR2018/009599 patent/WO2019039834A1/en unknown
- 2018-08-21 US US16/106,929 patent/US10832674B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693725A (zh) * | 2011-03-25 | 2012-09-26 | 通用汽车有限责任公司 | 依赖于文本信息语境的语音识别 |
CN105009203A (zh) * | 2013-03-12 | 2015-10-28 | 纽昂斯通讯公司 | 用于检测语音命令的方法和装置 |
US9026431B1 (en) * | 2013-07-30 | 2015-05-05 | Google Inc. | Semantic parsing with multiple parsers |
CN107004412A (zh) * | 2014-11-28 | 2017-08-01 | 微软技术许可有限责任公司 | 用于监听设备的设备仲裁 |
Also Published As
Publication number | Publication date |
---|---|
EP3652734A1 (en) | 2020-05-20 |
EP3652734B1 (en) | 2022-05-04 |
CN110998720A (zh) | 2020-04-10 |
US10832674B2 (en) | 2020-11-10 |
KR102374910B1 (ko) | 2022-03-16 |
US20190066677A1 (en) | 2019-02-28 |
EP3652734A4 (en) | 2020-07-22 |
KR20190021143A (ko) | 2019-03-05 |
WO2019039834A1 (en) | 2019-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110998720B (zh) | 话音数据处理方法及支持该方法的电子设备 | |
CN110288987B (zh) | 用于处理声音数据的系统和控制该系统的方法 | |
CN109243432B (zh) | 话音处理方法以及支持该话音处理方法的电子设备 | |
KR20200013152A (ko) | 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법 | |
EP3608906B1 (en) | System for processing user voice utterance and method for operating same | |
US11120792B2 (en) | System for processing user utterance and controlling method thereof | |
CN111937028A (zh) | 通过使用聊天机器人提供服务的方法及其设备 | |
US10560576B1 (en) | Electronic device for performing task including call in response to user utterance and operation method thereof | |
CN111640429A (zh) | 提供语音识别服务的方法和用于该方法的电子装置 | |
AU2019201441B2 (en) | Electronic device for processing user voice input | |
US10976997B2 (en) | Electronic device outputting hints in an offline state for providing service according to user context | |
KR102511517B1 (ko) | 음성 입력 처리 방법 및 이를 지원하는 전자 장치 | |
KR20210001082A (ko) | 사용자 발화를 처리하는 전자 장치와 그 동작 방법 | |
KR102421745B1 (ko) | Tts 모델을 생성하는 시스템 및 전자 장치 | |
US20210217406A1 (en) | Voice recognition service operating method and electronic device supporting same | |
CN112219235A (zh) | 包括处理用户语音的电子设备和控制电子设备上语音识别的方法的系统 | |
KR20200042137A (ko) | 변형 발화 텍스트를 제공하는 전자 장치 및 그것의 동작 방법 | |
KR20190083884A (ko) | 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치 | |
KR20190021088A (ko) | 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법 | |
KR20190130202A (ko) | 전자 장치 및 전자 장치의 기능 실행 방법 | |
CN116635933A (zh) | 包括个性化文本到语音模块的电子装置及其控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |