CN111512282A - 执行应用的方法和装置 - Google Patents
执行应用的方法和装置 Download PDFInfo
- Publication number
- CN111512282A CN111512282A CN201880082914.3A CN201880082914A CN111512282A CN 111512282 A CN111512282 A CN 111512282A CN 201880082914 A CN201880082914 A CN 201880082914A CN 111512282 A CN111512282 A CN 111512282A
- Authority
- CN
- China
- Prior art keywords
- input
- input field
- application
- inducement
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 35
- 230000005236 sound signal Effects 0.000 claims abstract description 75
- 230000004044 response Effects 0.000 claims abstract description 61
- 238000004891 communication Methods 0.000 claims description 23
- 230000008859 change Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241001200292 Mystus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04817—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0483—Interaction with page-structured environments, e.g. book metaphor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
提供了一种用于执行应用的装置,其中所述应用包括用于接收输入栏的输入值的图形用户界面(GUI),所述装置包括:音频输出单元;用户输入单元,接收请求执行所述应用的用户输入;以及控制单元,被配置成基于所述用户输入是否为语音输入,通过所述音频输出单元输出指示与所述输入栏对应的诱导询问的音频信号,接收指示对所述诱导询问的响应的语音输入,并通过基于指示对所述诱导询问的所述响应的所述语音输入设置所述输入栏的输入值来执行所述应用。
Description
技术领域
本公开涉及一种基于用户的语音输入执行应用的方法和装置。
背景技术
随着语音识别技术的发展,诸如语音识别扬声器、移动装置等的多种装置已被配置为通过使用语音识别来提供服务。
装置可通过使用语音识别设备或使用诸如触摸屏或鼠标的输入装置来接收用户输入。
在这种情况中,用户可根据情况选择不同的输入方法。例如,当用户的手自由时,用户可通过触摸屏幕或使用鼠标来控制装置;在用户处于无法看到装置或无法用手操纵装置的情形下,用户可使用语音输入来控制装置。
然而,当用户不看装置的屏幕使用语音输入控制装置时,用户可能不知道需要哪种输入来控制装置。
具体地,因为装置上执行的各个应用具有不同的用户界面且可通过用户界面选择各种值,所以不看屏幕控制应用对用户来说有困难。
即使当用户可以看屏幕时,用户也可能无法用手操纵装置,用户不得不使用语音输入来控制每个用户界面,因此控制应用所用的时间可能增加。
发明内容
提供了基于用户的语音输入来执行应用的各种实施例。
附图说明
图1a、图1b、图2a和图2b示出了根据一些实施例的由装置执行的执行应用的方法。
图3是根据一些实施例的由装置执行的执行应用的方法的流程图。
图4、图5a、图5b和图5c示出了根据一些实施例的由装置执行的按页次序输出与输入栏相关的诱导询问的方法。
图6a和图6b示出了根据一些实施例的由装置执行的基于可输入到输入栏的值执行语音识别的方法。
图7示出了根据一些实施例的由装置执行的使用人工智能确定输入栏的输入值的方法。
图8、图9a和图9b示出了根据一些实施例的由装置执行的当用户不管诱导询问而对与除了与诱导询问对应的输入栏以外的其它输出栏相关的输入值作出响应时确定与多个输入栏对应的输入值的方法。
图10a和图10b示出了根据一些实施例的由装置执行的设置与具有低重要性的输入栏相关的输入值的方法。
图11a和图11b示出了根据一些实施例的由装置执行的在输出指示与输入栏对应的诱导询问的同时显示可输入到输入栏的值的方法。
图12a和图12b示出了根据一些实施例的由装置执行的随着应用的页的移动输出诱导询问的方法。
图13a和图13b示出了根据一些实施例的由装置执行的在接收到改变输入栏的输入值的语音输入后输出诱导询问的方法。
图14a和图14b、图15a和图15b示出了根据一些实施例的基于用户的选择切换到由装置执行的接收与输入栏相关的输入值的方法的示例。
图16示出了根据一些实施例的由装置执行的通过与服务器协作确定与应用的输入栏相关的输入值的方法。
图17和图18是根据一些实施例的装置的框图。
具体实施方式
本公开的第一方面提供一种用于执行应用的装置,其中所述应用包括用于接收输入栏的输入值的图形用户界面(GUI),所述装置包括:音频输出单元;用户输入单元,接收请求执行所述应用的用户输入;以及控制单元,被配置成:基于所述用户输入是否为语音输入通过所述音频输出单元输出指示与所述输入栏对应的诱导询问的音频信号,接收指示对所述诱导询问的响应的语音输入,并通过基于指示对所述诱导询问的所述响应的语音输入设置所述输入栏的输入值来执行所述应用。
所述控制单元可被进一步配置为在请求执行所述应用的所述用户输入是语音输入时输出指示与所述输入栏对应的诱导询问的音频信号,并在所述用户输入是通过所述应用的图标进行的输入时不输出指示与所述输入栏对应的诱导询问的音频信号。
所述控制单元可被进一步配置为除了输出指示与所述输入栏对应的诱导询问的音频信号以外,还控制显示单元显示包括所述输入栏的GUI。
所述应用可包括待按次序显示的多个页,所述输入栏可包括第一输入栏和第二输入栏,所述控制单元可被进一步配置为:在接收到请求执行所述应用的语音输入后显示所述多个页中的第一页并,输出指示与所述第一页中包含的输入栏对应的诱导询问的音频信号;以及在确定所述第一页中包含的所述输入栏的输入值后显示所述第一页之后的第二页,并输出指示与所述第二页中包含的输入栏对应的诱导询问的音频信号。
所述控制单元可被进一步配置为在指示对所述诱导询问的响应的语音输入除了包括所述多个输入栏中的所述输入栏的响应以外还包括对其它输入栏的响应时,基于所述语音输入设置其它输入栏的输入值。
所述控制单元可被进一步配置为:在设置了所述其它输入栏的输入值后控制所述音频输出单元输出指示与所述多个输入栏中的除了所述其它输入栏以外的剩余输入栏对应的诱导询问的音频信号。
所述装置还可包括通信单元,其中所述通信单元被配置为从外部服务器接收可被选择为所述输入栏的输入值的至少一个值,以及所述控制单元可被进一步配置为基于接收到的至少一个值确定所述输入栏的输入值。
所述控制单元可被进一步配置为在接收到请求执行所述应用的语音输入后,输出指示与所述输入栏对应的所述诱导询问的音频信号而不显示包括所述输入栏的所述GUI。
所述应用可包括包含所述输入栏在内的多个输入栏,所述多个输入栏可包括接收所述应用执行的服务所必需的至少一个必要输入栏,所述控制单元可被进一步配置为:将所述多个输入栏中的除了所述至少一个必要输入栏以外的剩余输入栏的输入值设为预设的默认值而不生成与所述剩余输入栏相关的诱导询问。
所述控制单元可被进一步配置为在输出指示与所述输入栏对应的诱导询问的所述音频信号的同时,显示可输入到所述输入栏的至少一个值并显示指示与所述至少一个值对应的语音关键字的文本。
将简要描述本文中使用的术语并详细描述公开内容。
尽管本公开中使用的术语是基于对本公开中的功能的考虑选择的当前普遍使用的通用术语,但是这些术语可根据本领域普通技术人员的意图、司法判例或新技术的引入而改变。另外,在具体的情况中,申请人可自主地选择术语,在此情况中术语的含义在本公开的相应描述部分公开。因此,本公开中使用的术语不应该由术语的简单名称限定,而应该由术语的含义和公开的全部内容限定。
在本公开的整个说明书中,当假设某一零件包括某一部件时,术语“包括”表示相应的部件还可包括其它部件,除非记载了与相应部件相反的具体含义。在本公开的实施例中使用的诸如“单元”或“模块”的术语指示用于处理至少一个功能或操作的单元,并可用硬件、软件、或硬件和软件的组合实现。
图1a、图1b、图2a和图2b示出了根据一些实施例的由装置1000执行的执行应用的方法。
应用可包括用于接收输入栏的输入值的图形用户界面(GUI)。因此,装置1000可基于通过GUI接收到的用户输入来确定输入栏的输入值。
输入栏可表示由用户确定的应用的变量。装置可接收用户输入以输入输入栏的输入值,并基于输入值来执行应用,从而提供应用的服务。
例如,对于电影预订应用,输入栏可包括电影选择栏、影院选择栏、日期和时间选择栏、座位选择栏和购买信息输入栏;对于搜索应用,输入栏可包括搜索字输入栏;对于互联网购物商场应用,输入栏可包括商品名称输入栏、选项选择栏、配送信息输入栏和购买信息输入栏。
输入栏的输入值可以是所存储的与输入栏对应的多个值中的一个值。例如,装置可显示用于选择所存储的与输入栏对应的多个值中的一个值的下拉菜单,并在接收到选择下拉菜单上显示的多个值中的一个值的用户输入后确定输入栏的输入值。
输入栏的输入值可由用户以文本形式直接输入。
参照图1a,装置1000可接收命令执行应用的语音输入。
例如,装置1000可在电影预订应用未被执行的情况中接收语音输入“执行电影预订应用!”。
参照图1b,在接收到命令执行应用的语音输入后,装置1000可输出指示与应用的输入栏对应的诱导询问的音频信号。
例如,在接收到语音输入“执行电影预订应用!”后,装置1000可输出指示与电影选择栏对应的诱导询问的音频信号“你想看哪部电影?”
当装置1000从用户接收到响应于诱导询问的包括电影标题的语音输入时,装置1000可将接收到的电影标题确定为电影选择栏的输入值。
用户用语音输入执行应用的情况可对应于用户远离装置1000或用户难以用手操纵装置1000的情况,从而当用户用语音输入执行应用时,装置1000可提供用于操纵应用的诱导询问,由此即使在用户无法操纵装置1000的情况下仍能向用户提供服务。
参照图2a,装置1000可接收执行应用的用户输入。
例如,装置1000可接收触摸或点击电影预订应用的用户输入。
参照图2b,在接收到执行应用的用户输入后,装置1000可显示应用的GUI而不输出指示与应用的输入栏对应的诱导询问的音频信号。
用户用触摸输入执行应用的情况可对应于用户能够用手直接操纵装置1000的情况,从而装置1000可不输出指示诱导询问的音频信号。
图3是根据一些实施例的由装置1000执行的执行应用的方法的流程图。
在操作S310,装置1000可接收请求执行应用的用户输入。
装置1000可接收请求执行应用的语音输入。装置1000可在应用未被执行的状态中接收请求执行应用的语音输入,并且可在应用正在被执行的状态中接收请求执行应用的语音输入。
语音输入可以是例如用于移动预订应用的“执行电影预订应用!”或不指示请求执行应用的“预订电影!”。
装置1000可在主屏幕上显示应用的图标,并在接收到选择图标的用户输入后开始执行应用。
在操作S320,装置1000可基于用户输入是否为语音输入,输出指示与输入栏对应的诱导询问的音频信号。
当请求执行应用的用户输入是语音输入时,装置1000可输出指示与输入栏对应的诱导询问的音频信号。
诱导询问可作为与输入栏对应的数据被存储在装置1000中。一个诱导询问可被存储为对应于一个输入栏,一个诱导询问可被存储为对应于多个输入栏。例如,一个诱导询问“你想什么时候看电影?”可被存储为对应于日期和时间选择栏。
诱导询问可以是包括疑问词的疑问句。包括疑问词的疑问句可包括谁、何时、何地、什么、如何、多少钱、多少量和为什么。
因此,当存在可输入到输入栏的许多值时,可仅通过简单的问题从用户接收响应而不需要列出所有的可输入值。
根据实施例,装置1000可输出指示可输入到输入栏的值的音频信号以及与输入栏对应的诱导询问。
应用还可包括多个输入栏。多个输入栏可包括应用提供服务所必需的必要输入栏和应用提供服务非必需但为附加服务所需的附加输入栏。例如,对应电影预订应用,必要输入栏可包括电影选择栏、影院选择栏、日期和时间选择栏、座位选择栏和购买信息输入栏,附加输入栏可包括与是否一起购买饮料相关的输入栏。在此情况中,装置1000可仅为必要输入栏生成诱导询问,并可将默认值设为附加输入栏的输入值。
装置1000可显示用于接收输入栏的输入值的GUI,并输出指示与输入栏对应的诱导询问的音频信号。装置1000可仅输出指示与输入栏对应的诱导询问的音频信号,而不显示接收输入栏的输入值的GUI。
当应用包括多个页且多个页的显示次序被设置时,装置1000可按显示次序顺序地显示多个页并且输出指示与显示的页对应的诱导询问的音频信号。
例如,装置1000可显示多个页中的第一页,输出指示与第一页中包含的输入栏对应的诱导询问的音频信号,在基于用户的响应确定了第一页中的输入栏的输入值后,显示第一页之后的第二页并输出指示与第二页中包含的输入栏对应的诱导询问的音频信号。
因此,即使当在用语音输入控制装置1000期间用户通过触摸或点击控制装置1000时,用户也可设置输入栏的输入值而不需要搜索当前页。在用户能够看到装置1000但是无法用手操纵装置1000的情况中,因为用户可看到当前输入值被设置的输入栏有关的信息,所以用户可容易且准确地选择输入值。稍后参照图4和图5描述本实施例。
另外,当请求执行应用的用户输入是通过应用的图标进行的输入时,装置1000可显示应用的GUI而不输出指示与输入栏对应的诱导询问的音频信号。
当用户使用触摸或鼠标执行应用时,可对应于用户能够用手控制装置1000的情况,装置1000可显示应用的GUI而不输出诱导询问。
在操作S330,装置1000可接收指示对诱导询问的响应的语音输入。
指示对诱导询问的响应的语音输入可包括与输出的诱导询问对应的输入栏的输入值,并可包括与输出的诱导询问对应的输入栏以外的输入栏的输入值。
在操作S340,装置1000可通过基于指示对诱导询问的响应的语音输入设置输入栏的输入值来执行应用。
装置1000可通过对指示的对诱导询问的响应的语音输入执行语音识别来确定由语音输入指示的文本,并可通过从确定的文本检测待在输入栏中设置的输入值来确定与输入栏对应的输入值。
当通过对指示对诱导询问的响应的语音输入执行语音识别来确定由语音输入指示的文本时,装置1000可基于可输入到输入栏的值执行语音识别。例如,当可输入到输入栏的值为“7号房”、“犯罪都市”和“沉默的目击者”时,装置1000可基于指示对诱导询问的响应的语音输入很大概率包括词“7号房”、“犯罪都市”和“沉默的目击者”之一的假设执行语音识别。
通过实时从外部服务器接收可输入到输入栏的值并基于接收的值对指示对诱导询问的响应的语音输入执行语音识别,装置1000可确定与输入栏对应的输入值。
根据实施例,装置1000可确定除了与输出的诱导询问对应的输入栏的输入值以外语音输入是否还包括其它输入栏的输入值。例如,即使当装置1000输出与一个输入栏对应的诱导询问时,装置1000可从语音输入检测应用中包含的多个输入值的输入值并将检测到的输入值设置在与各个输入值对应的输入栏中。
因此,即使当用户说出他/她所想的内容而不是对诱导询问的响应时,装置1000可从用户的响应中检测出用户想要的输入值。稍后参照图8a和图8b描述本实施例。
当装置1000除了接收到与输出的诱导询问对应的输入栏的输入值以外还接收到另一输入栏的输入值时,装置1000可仅输出与应用的多个输入栏中未被设置的其它输入栏对应的诱导询问。
图4、图5a、图5b和图5c示出了根据一些实施例的由装置1000执行的按页次序输出与输入栏相关的诱导询问的方法。
在图4的操作S410,装置1000可显示应用的多个页中的第一页。
应用还可包括多个页。例如,参照图5,在电影预订应用中,第一页510可以是用于选择电影的页,第二页520可以是用于选择影院的页,第三页530可以是用于选择日期和时间的页,第四页可以是用于输入支付信息的页。
在操作S420,随着第一页的显示,装置1000可输出与第一页中包含的输入栏对应的诱导询问。
装置1000可显示应用的第一页510并输出指示与第一页510中包含的电影选择栏对应的诱导询问的音频信号。例如,当诱导询问“你想看哪部电影?”被存储为对应于电影选择栏时,装置1000可输出诱导询问“你想看哪部电影?”。
在操作S430,随着第一页中包含的输入栏的输入值被确定,装置1000可显示第一页之后的第二页并输出与第二页中包含的输入栏对应的诱导询问。
例如,参照图5a,在接收到第一响应“7号房!”后,装置1000可确定多个电影中的“7号房”为电影选择栏的输入值。
参照图5b,随着第一页510中包含的输入栏的输入值被确定,装置1000可显示第二页520并输出指示与第二页520中包含的影院选择栏对应的诱导询问的音频信号。例如,当诱导询问“你想去哪个影院?”被存储为对应于影院选择栏时,装置1000可输出诱导询问“你想去哪个影院?”。
在接收到响应于与影院选择栏对应的诱导询问的第二响应“江南CGV”后,装置1000可从多个影院中确定“江南CGV”为影院选择栏的输入值。
参照图5c,随着第二页520中包含的输入栏的输入值被确定,装置1000可显示第三页530并输出与第三页530中包含的日期和时间选择栏对应的音频信号。
随着多个页510至530中包含的输入栏的输入值全部被确定,装置1000可基于输入值提供电影预订服务。
因此,即使当用户在通过语音输入进行控制期间用户再次通过触摸或点击控制装置1000时,以及即使当用户能够看到装置1000但是无法用手操纵装置1000时,用户能够容易且准确地选择输入值。
图6a和图6b示出了根据一些实施例的由装置1000执行的基于可输入到输入栏的值来执行语音识别的方法。
在图6a的操作S610,装置1000可输出指示与输入栏对应的诱导询问的音频信号。在操作S620,装置1000可接收指示对诱导询问的响应的语音输入。操作S610和操作S620可参照操作图3的操作S320和操作S330进行描述。
在操作S630,装置1000可基于可被选择为输入栏的输入值的至少一个值来确定输入栏的输入值。
装置1000可为每个输入栏存储可被选择为输入值的至少一个值。例如,对于使用下拉菜单选择输入值的输入栏,当下拉菜单被点击时装置1000可显示多个值。
参照图6b,装置1000可从外部装置接收可为每个输入栏被选择为输入值的至少一个值。例如,装置1000可从数据库2000请求可输入到输入栏的值。数据库2000可以是外部服务器。数据库2000可通过诸如互联网的宽带网络或通过局域网(LAN)与装置1000通信。装置1000可为输入栏存储数据库2000的链接地址。
装置1000可从与输入栏对应的数据库2000请求可输入到输入栏的值。例如,对于电影预订应用,数据库2000可以是电影信息数据库2000。在这种情况中,装置1000可从电影信息数据库2000请求可作为电影选择栏的选择值输入的值。装置1000可从电影信息数据库2000接收可作为电影选择栏的选择值输入的值。
装置1000可通过基于可输入到输入栏的值对语音输入执行语音识别来确定输入栏的输入值。
例如,当通过对诱导询问的响应执行语音识别来确定由响应指示的文本时,装置1000可基于可输入到输入栏的值执行语音识别。例如,当装置1000从响应中检测到词时,装置1000可将检测到的接收的值的概率设置为大于检测到的其它词的概率。
例如,参照图6b,当从电影数据库接收的电影列表包括“正义联盟”、“7号房”、“忌日快乐”、“雷神3:诸神黄昏”和“至爱梵高”且用户对与电影选择栏对应的诱导询问“你想看哪部电影?”的响应是“生日快乐”时,装置1000可确定由响应指示的文本是“忌日快乐”而不是“生日快乐”。
在装置1000确定由响应指示的文本是“生日快乐”之后,装置1000可将“生日快乐”与可被选择为电影选择栏的输入值的多个值进行比较,从而将最相似的值“忌日快乐”确定为电影选择栏的输入值。
根据实施例,装置1000可输出用于确定所确定的输入值是否对应于用户想要的输入值的语音信号。例如,装置1000可输出语音信号“预订忌日快乐?”。
例如,装置1000可接收语音输入“今天2:30”作为对电影预订应用中的诱导询问“你想什么时候看电影?”的响应。装置1000可基于词“今天”确定11月15日为日期选择栏的值并基于词“2:30”确定2:30为时间选择栏的输入值。
随着输入栏的输入值被确定,装置1000可输出指示“选择15日星期三2:30开始的电影”的音频信号。装置1000可在显示屏上显示日期选择栏的标识信息和所选择的日期15日以及时间选择栏的标识信息和所选择的时间2:30。在接收到一个响应包括多个页中包含的多个输入栏的输入值时,装置1000可顺序地显示每页和每页中包含的输入栏的输入值。
因此,装置1000可更准确地识别用户的意图,并可通过将由响应指示的文本根据情况限制为可输入到输入栏的值来提供快速且准确的服务。
图7示出了根据一些实施例的由装置1000执行的使用人工智能确定输入栏的输入值的方法。
参照图7,装置1000可使用神经网络算法确定输入栏的输入值。
当可输入到一个输入栏的值被确定时,装置1000可训练神经网络在将用户对诱导询问的响应设为神经网络的输入时输出待被输入到输入栏的输入值。
在接收到指示用户对诱导询问的响应的用户输入后,装置1000可将语音输入转换成文本。装置1000可从转换的用户响应检测与可作为输入栏的输入值输入的值相似的文本。例如,当可输入到电影选择栏的值是“正义联盟”、“7号房”、“忌日快乐”、“雷神3:诸神黄昏”和“至爱梵高”且用户的响应是“生日快乐”时,装置1000可将用户的响应与每个电影标题进行比较,并将“生日快乐”检测为相似度为通过阈值或更大值的文本。
装置1000可将当“生日快乐”作为神经网络的输入被输入时输出的输出值确定为输入栏的输入值。
随着装置1000输出指示用于确定所确定的输入值是否对应于用户想要的输入值的问题的语音信号并接收到对该问题的响应,装置1000可基于用户的响应来训练神经网络。例如,当神经网络的输出值是“忌日快乐”且确定“忌日快乐”并不是用户想要的电影时,装置1000可训练神经网络在语音输入“预定生日快乐”作为神经网络的输入被输入时不将“忌日快乐”输出为神经网络的输出值。
使用人工智能确定输入栏的输入值的功能可由与装置1000连接的服务器执行,并且服务器可接收多个用户关于诱导询问的各种响应,从而装置1000可准确地提供服务。
图8、图9a和图9b示出了根据一些实施例的由装置1000执行的当用户不管诱导询问而作出了对与诱导询问对应的输入栏以外的其它输入栏相关的输入值的响应时确定与多个输入栏对应的输入值的方法。
在操作S810,装置100可输出指示与多个输入栏中的第一输入栏对应的诱导询问的音频信号。
装置1000可执行包括多个输入栏的应用。在接收到请求执行应用的语音输入后或在执行应用期间,装置1000可输出指示与第一输入栏对应的诱导询问的音频信号。
在操作S820,装置1000可接收到指示对诱导询问的响应的语音输入。
当用户先前知道应用的输入栏时,用户可随机说出先前知道的输入栏的输入值。
例如,参照图9a,当装置1000输出与电影选择栏对应的诱导询问“你想看哪部电影?”时,装置1000可接收到响应“预订周六2:00开始的7号房的两个座位!”
在操作S830,装置1000可从接收的语音输入中检测到多个输入栏中的第二输入栏的值。
装置1000可检测到第二输入栏的值,而不是与诱导询问对应的第一输入栏的值。装置1000可检测到与诱导询问对应的第一输入栏的值以及第二输入栏的值。
例如,装置1000除了检测到电影选择栏(即,第一输入栏)的值“7号房!”以外,还可检测到时间选择栏的值“星期六2:00”和座位选择栏的值“两个座位”。
装置1000可通过将与多个输入栏中的每个输入栏对应的可输入的值与接收的语音输入进行比较,从语音输入检测到除了第一输入栏以外的第二输入栏的值。
在操作S840,装置1000可将检测到的值设为第二输入栏的输入值。
例如,装置1000可将电影选择栏(即,第一输入栏)的值“7号房”设为电影选择栏的输入值,还可将“星期六2:00”设为时间选择栏的输入值和将“两个座位”设为座位选择栏的输入值。
在操作850,装置1000可输出指示与多个输入栏中输入值未被设置的其它输出栏对应的诱导询问的语音信号。
当第一输入栏的输入值和第二输入栏的输入值被设置时,装置1000可输出指示与多个输入栏中的除了第一输入栏和第二输入栏以外的其它输入栏中的至少一个输入栏对应的诱导询问的音频信号。
例如,参照图9b,装置1000可输出与多个输入栏中的除了电影选择栏、时间选择栏和座位选择栏以外的其它输入栏中的影院选择栏对应的诱导询问“你想去哪个影院?”。
因此,用户可随机地一次性输入已知输入栏的期望值而不需要按应用的页或输入栏的次序顺序地输入输入值。
图10a和图10b示出了根据一些实施例的由装置1000执行的设置与具有低重要性的输入栏相关的输入值的方法。
在图10a的操作S1010,装置1000可输出指示与多个输入栏中的必要输入栏对应的诱导询问的音频信号。
应用的多个输入栏可包括应用提供服务所必需的必要输入栏和并非必要输入栏但为获得附加信息所需的附加输入栏。
例如,参照图10b,应用可包括会员注册功能。在这种情况中,身份(ID)输入栏1010、密码输入栏1020和联系方式输入栏1030可以是会员注册服务的必要输入栏。然而,邮箱地址不是会员注册服务所必需的,因此邮箱地址输入栏1040可以是附加输入栏。
在操作S1020,在接收到响应于诱导询问的语音输入后,装置1000可基于接收到的语音输入确定必要输入栏的输入值。
在操作S1030,装置1000可将预设的默认值确定为多个输入栏中除了必要输入栏以外的其它输入栏的输入值。
例如,装置1000可将与附加输入栏对应的默认值确定为附加输入栏的输入值而不需要输出与应用的多个输入栏中为非必要输入栏的附加输入栏对应的诱导询问。
例如,参照图10b,装置1000可将“无”确定为与邮箱地址输入栏1040对应的输入值。
图11a和图11b示出了根据一些实施例的由装置1000执行的在输出指示与输入栏对应的诱导询问的音频信号的同时显示可输入到输入栏的值的方法。
在图11a的操作S1110,装置1000可输出指示与输入栏对应的诱导询问的音频信号。
例如,参照图11b,装置1000可执行互联网购物应用。装置1000可选择跑鞋并接收到购买所选择的跑鞋的用户输入。在接收到购买所选择的跑鞋的用户输入后,装置1000可输出指示与用于选择与所选择的跑鞋相关的选项的选项选择栏对应的诱导询问的音频信号。例如,装置100可输出语音信号“你选择哪个选项?”。
在操作S1120,在输出指示与输入栏对应的诱导询问的音频信号的同时,装置1000可显示可输入到输入栏的至少一个值。
例如,参照图11b,装置1000可输出指示与选项选择栏对应的诱导询问的音频信号并显示可输入到选项选择栏的至少一个值1140。可输入到选项选择的至少一个值1140可以是对应于选项选择栏预设的至少一个选择项。例如,装置1000可显示至少一个颜色或至少一个尺寸作为可输入到选项选择栏的至少一个值1140,并输出指示与选项选择栏对应的诱导询问的音频信号。
因此,在用户能够看到装置1000的屏幕但是无法用手操纵装置1000的情况中,装置1000可在屏幕上显示可输入到输入栏的至少一个值1140,由此允许用户容易且快速地确定输入栏的输入值。
在操作S1130,装置1000可显示指示与可输入到输入栏的至少一个值对应的语音关键字的文本。
例如,参照图11b,装置1000可显示可输入到选项选择栏的至少一个值“01_F1XKY00132_白”、“02_F1XKX0102_黑”、“03_F1XKZ5311_黑”和“04_F1XKZ5312_灰”。
在这种情况中,装置1000可显示指示与至少一个值对应的语音关键字1112至1118的文本。例如,装置1000可显示指示“01”的文本1112作为与“01_F1XKY00132_白”对应的语音关键字,并显示指示“02”的文本1114作为与“02_F1XKX0102_黑”对应的语音关键字。
在接收到指示至少一个语音关键字1112至1118中的一个语音关键字的语音输入后,装置1000可将与接收的语音关键字对应的值确定为输入栏的输入值。
例如,在接收到指示语音关键字1114“02”的语音输入后,装置1000可将与“02”对应的值“02_F1XKX0102_BLK”确定为选项选择栏的输入值。
在接收到指示“02_黑”语音输入后,装置1000可从语音输入中检测到语音关键字1114“02”,并基于检测到的语音关键字将“02_F1XKX0102_黑”确定为选项选择栏的输入值。
因此,用户通过说出简单的语音关键字甚至不需要说出可输入到输入栏的值的全部音节,可容易且快速地设置输入栏的输入值。
装置1000还可显示用于控制应用的语音关键字1121和语音关键字1123。例如,装置1000可显示语音关键字1121“上一页”和语音关键字1123“下一页”作为移动应用的页的指令,并在接收到语音关键字1121“上一页”后显示当前显示页的上一页。
装置1000可显示与页中包含的文本不同的语音关键字。
图12a和图12b示出了根据一些实施例的由装置1000执行的随着应用的页的移动输出诱导询问的方法。
参照图12a,装置1000可接收移动应用的页的语音输入。在接收到语音输入“上一页”后,装置1000可显示当前显示页的上一页。
参照图12b,随着页的移动,装置1000可输出与移动后的页中的输入栏对应的诱导询问。例如,在移动到包括影院选择栏的页后,装置1000可输出指示对应于影院选择栏存储的“你想去哪个影院?”的音频信号。
图13a和图13b示出了根据一些实施例的由装置1000执行的在接收到改变输入栏的输入值的语音输入后输出诱导询问的方法。
参照图13a,装置1000可接收改变输入栏的输入值的语音输入。例如,装置1000可在电影预订应用执行期间接收到改变影院选择栏的输入值的语音输入“改变影院!”
装置1000可基于之前对应于影院选择栏存储的关键字“影院”和对应于改变输入栏的输入值的操作存储的关键字“改变”,确定接收到的语音输入是改变影院选择栏的语音输入。
参照图13b,装置1000可输出指示与用户想要改变的输入栏对应的诱导询问的音频信号。
装置1000可输出音频信号并显示包含用户想要改变的输入栏的页。
图14a、图14b、图15a和图15b示出了根据一些实施例的基于用户的选择切换由装置1000执行的接收与输入栏相关的输入值的方法的示例。
参照图14a,装置1000可执行语音模式,通过指示诱导询问的音频信号和从用户接收语音输入来控制应用。装置1000可在语音模式执行期间接收触摸屏幕的用户输入。
参照图14b,在语音模式执行期间接收到触摸屏幕的用户输入后,装置1000可执行GUI模式,通过经由应用的GUI接收用户输入来控制应用。因此,装置1000可以不用进一步输出指示与输入栏对应的诱导询问的音频信号。
参照图15a,装置1000可在GUI模式执行期间接收请求执行语音模式的用户输入。
例如,装置1000可接收请求执行语音模式的用户输入“Bixby!执行语音模式!”。“Bixby!”可以是用于请求装置1000将语音识别为输入文本的唤醒关键字。随着装置1000从语音输入中检测到关键字“执行语音模式”,装置1000可将GUI模式变为语音模式。
参照图15b,随着装置1000将GUI模式变为语音模式,装置1000可检测到多个输入栏中输入值未被设置的至少一个输入栏,并输出指示与检测到的至少一个输入栏对应的诱导询问的音频信号。
例如,当时间选择栏的输入值未被设置时,装置1000可输出指示与时间选择栏对应的诱导询问的音频信号“你想什么时候看电影?”。
图16是根据一些实施例的由装置1000执行的通过与服务器协作来确定与应用的输入栏相关的输入值的方法的流程图。
在操作S1610,装置1000可输出指示与输入栏对应的诱导询问的音频信号。在操作S1620,装置1000可接收指示对诱导询问的响应的语音输入。
在操作S1630,装置1000可将语音数据发送给服务器3000。
装置1000可将接收的语音输入转换成语音数据并将语音数据发送给服务器3000,因而从服务器3000接收与输入栏对应的输入值而不需要直接执行语音识别。
装置1000可将应用的标识信息和与应用的输入栏有关的信息发送给服务器。与输入栏有关的信息可包括输入栏的标识信息、可输入到输入栏的至少一个值和包含输入栏的页的标识信息。
例如,当应用是电影预订应用时,输入栏的标识信息可以是“电影选择栏”,并且可输入到输入栏的至少一个值可以是至少一个电影标题。
例如,当应用是互联网购物应用时,输入栏的标识信息可以是“选项选择栏”,并且可输入到输入栏的至少一个值可以是之前对应于该输入栏存储的选项值。
根据实施例,服务器3000可基于从装置1000接收的应用的标识信息,获取之前存储在服务器3000中的与应用的输入栏有关的信息。
装置1000可将当前显示页的标识信息或输出的当前诱导询问所针对的输入栏的标识信息发送给服务器3000。
在操作S1640,服务器3000可通过对语音数据执行自然语音处理来确定由语音数据指示的输入值。
例如,在从装置1000接收到指示“预订周六2:00开始的7号房的两个座位!”后,服务器3000可从语音数据监测到词“7号房”、“星期六”、“2:00”、“两个座位”和“预订”。
服务器3000可基于从装置1000接收的应用的标识信息确定当前执行的应用是电影预订应用。服务器3000可将电影选择栏、影院选择栏、时间选择栏和座位选择栏存储为电影预订应用的输入栏,将“正义联盟”、“7号房”、“忌日快乐”和“雷神3:诸神黄昏”存储为可输入到电影选择栏的值,将“江南CGV”、“东国CGV”和“九老CGV”存储为可输入到影院选择栏的值,将每个影院的放映时间存储为可输入到时间选择栏的值,以及将“一个座位”、“两个座位”、“三个座位”等作为可输入到座位选择栏的值。
服务器3000可通过将从语音数据检测到的词与可输入到输入栏的值进行比较来确定输入栏的输入值。例如,“犯罪都市”是与电影选择栏对应的值之一,从而装置1000可将“犯罪都市”确定为电影选择栏的输入值。另外,与时间选择栏对应的值中的“2:30”中包括“2”,从而装置1000可将“2:30”确定为时间选择栏的输入值。而且,“两个座位”是与座位选择栏对应的值之一,从而装置1000可将“两个座位”确定为座位选择栏的输入值。
在操作S1650,装置3000可将语音数据指示的输入值发送给装置1000。
服务器3000可将至少一个输入栏的输入值和至少一个输入栏的确定的标识信息发送给装置1000。
在操作S1660,装置1000可确定输入栏的输入值。
装置1000可基于从服务器3000接收的至少一个输入栏的标识信息和输入值来确定输入栏的输入值。
图17和图18是根据一些实施例的装置1000的框图。
如图17所示,根据实施例的装置1000可包括用户输入单元1100、显示单元1210、音频输出单元1220和控制单元1300。然而,图17中所示的所有元件都不是装置1000的必要元件。可使用比图17中所示的元件更多或更少的元件来实现装置1000。
例如,根据一些实施例的装置1000可仅用控制单元1300实现,或用用户输入单元1100和控制单元1300实现。
例如,如图18所示,除了输入单元1100、显示单元1210、音频输出单元1220和控制单元1300以外,根据一些实施例的装置1000还可包括输出单元1200、通信单元1500、传感单元1400、音频/视频(A/V)输入单元1600和存储器1700。
控制输入单元1100可以是用户输入用于控制装置1000的数据所凭借的装置。例如,用户输入单元1100可包括,但不限于,键盘、圆顶开关、触摸板(电容覆盖式、电阻覆盖式、红外波束式、声表面波式、整体应变计式、压电效应式等)、滚轮、滚轮开关等。
例如,用户输入单元1100可包括麦克风1620。尽管麦克风1620被显示成A/V输入单元1600的一部分,但是当麦克风1620接收用于控制装置1000的语音输入时麦克风1620可充当用户输入单元1100。
用户输入单元1100可接收请求执行应用的用户输入。例如,触摸板可接收触摸应用的图标的用户输入。例如,麦克风1620可接收命令执行应用的语音输入。
麦克风1620可接收用户对诱导询问的响应。麦克风1620还可接收用户的语音输入来控制装置1000。
输出单元1200输出音频信号、视频信号、或振动信号,并可包括显示单元1210、音频输出单元1220和振动电机1230。
音频输出单元1220可输出指示与输入栏对应的诱导询问的音频信号。音频输出单元1220可输出从通信单元1500接收或存储在存储器1700中的音频数据。振动电机1230输出振动信号。
显示单元1210显示由装置1000处理的信息。例如,显示单元1210可显示应用的GUI。显示单元1210可显示应用的图标。当显示单元1210和触摸板以层结构构成触摸屏时,显示单元1210可用作输入装置和输出装置。显示单元1210可包括液晶显示器(LCD)、薄膜晶体管(TFT)LCD、有机发光二极管(OLED)、柔性显示器、三维(3D)显示器和电泳显示器中的至少一个。
控制单元1300控制装置1000的整体操作。例如,控制单元1300可通过执行存储在存储器1700中的程序来对用户输入单元1100、输出单元1200、传感单元1400、通信单元1500和A/V输入单元1600进行整体控制。控制单元1300可控制装置1000的操作以执行参照图1至图16描述的装置1000的功能。
传感单元1400可包括,但不限于,磁性传感器1410、加速度传感器1420、温度/湿度传感器1430、红外传感器1440、陀螺仪传感器1450、定位传感器(例如,全球定位系统(GPS))1460、照度传感器1495、接近传感器1480和红/绿/蓝(RGB)传感器(或照度传感器)1490中的至少一个。本领域技普通技术人员可直观地从每个传感器的名称理解每个传感器的功能,因此将不详细描述每个传感器的功能。
通信单元1500可包括使显示装置1000与外部装置通信的一个或多个元件。例如,通信单元1500可包括短距离通信单元1510、移动通信单元1520和广播接收单元1530。
短距离无线通信单元1510可包括,但不限于,低耗蓝牙(BLE)通信单元、近场通信(NFC)单元、无线局域网(WLAN)(WiFi)通信单元、ZigBee通信单元、红外数据协会(IrDA)通信单元、WiFi直连(WFD)通信单元、超宽带(UWB)通信单元和Ant+通信单元。
移动通信单元1520通过移动通信网络将无线电信号发送给基站、外部终端和服务器中的至少一个,和从基站、外部终端和服务器中的至少一个接收无线电信号。在本文中,无线电信号可包括与语音呼叫信号、视频通信呼叫信号、或文本/多媒体消息的发送/接收对应的各种形式的数据。
广播接收单元1530通过广播信道从外部源接收广播信号和/或广播相关信息。广播信道可包括卫星信道和地面信道。根据实现示例,装置1000可不包括广播接收单元1530。
A/V输入单元1600可输入音频信号或视频信号,并可包括相机1610、麦克风1620等等。
存储器1700存储用于处理和控制控制单元1300的程序,并存储输入到装置1000或从装置1000输出的数据。
存储器1700可包括闪存存储器式存储器、硬盘式存储器、微型多媒体卡式存储器、卡式存储器(例如,安全数字(SD)或极端数字(XD)存储器等)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等中的至少一个类型的存储介质。
存储在存储器1700中的程序可根据功能被分类成多个模块,例如用户界面(UI)模块1710、触摸屏模块1720、通知模块1730、图像滤波模块1740等。
存储器1700可存储与应用的输入栏有关的信息。例如,存储器1700可存储应用的输入栏的标识信息、指示输入栏的页信息和与可输入到输入栏的值有关的信息。
UI模块1710为每个应用提供与装置1000协作的专用UI或GUI。触摸屏模块1720可感测用户对触摸屏的触摸姿势并将与触摸姿势有关的信息传送给控制单元1300。根据一些实施例的触摸屏模块1720可识别和分析触摸码。触摸屏模块1720可配置有包含控制器的单独硬件。
控制单元1300可执行包含用于接收输入栏的输入值的GUI的应用。
在接收到请求执行应用的用户输入后,控制单元1300可基于用户输入是否为语音输入,通过音频输出单元1220输出指示与输入栏对应的诱导询问的音频信号。
控制单元1300可通过麦克风1620接收指示对诱导询问的响应的语音输入。
控制单元1300可通过基于指示对诱导询问的响应的语音输入设置输入栏的输入值来执行应用。
例如,当请求执行应用的用户输入是语音输入时,控制单元1300可输出指示与输入栏对应的诱导询问的语音信号。
另外,当请求执行应用的用户输入是通过应用的图标进行的输入,控制单元1300可显示应用的GUI而不输出指示与输入栏对应的诱导询问的音频信号。
控制单元1300可控制显示单元1210除了输出指示与输入栏对应的诱导询问的音频信号以外还显示包含输入栏的GUI。
在接收到请求执行应用的语音输入后,控制单元1300可控制显示单元1210和音频输出单元1220显示多个页中的第一页,输出指示与第一页中包含的输入栏对应的诱导询问的音频信号,在确定第一页中的输入栏的输入值后显示第一页之后的第二页,并且输出指示与第二页中包含的输入栏对应的诱导询问的音频信号。
当指示对诱导询问的响应的语音输入包括对多个输入栏中的除了该输入栏的响应以外的其它输入栏的响应时,控制单元1300可基于语音输入设置该其它输入栏的输入值。
随着控制单元1300设置了其它输入栏的输入值,控制单元1300可控制音频输出单元1220输出指示与多个输入栏中除了所述其它输入栏以外的剩余输入栏对应的诱导询问的音频信号。
通信单元1500可从外部服务器接收可被选择为输入栏的输入值的至少一个值。
控制单元1300可基于接收到的至少一个值确定输入栏的输入值。
在接收到请求执行应用的语音输入后,控制单元1300可控制显示单元1210和音频输出单元1220输出指示与输入栏对应的诱导询问的音频信号而不显示包含输入栏的GUI。
控制单元1300也可将多个输入栏中的除了至少一个必要输入栏以外的剩余输入栏的输入值设为预设的默认值而不生成与剩余输入栏相关的诱导询问。
控制单元1300可在输出指示与输入栏的诱导询问的音频信号的同时,显示可输入到输入栏的至少一个值并显示指示与至少一个值对应的语音关键字的文本。
本公开的一些实施例可用包括诸如计算机可执行编程模块的计算机可执行指令的记录介质实现。计算机可读记录介质可以是可由计算机存取的可用介质,包括全部的易失性存储器、非易失性存储器、分离介质和非分离介质。计算机可读记录介质还可包括计算机存储介质和通信介质。计算机存储介质包括全部的易失性介质、非易失性介质、分离介质和非分离介质,由用于存储诸如计算机可读指令、数据结构、编程模块或其它数据的信息的方法或技术实现。通信介质包括计算机可读指令、数据结构、编程模块、或诸如载波的模块化数据信号的其它数据、或其它传输机构,并包括信息传输介质。
在说明书中,术语“单元”可以是诸如处理器或电路的硬件部件,和/或可以是由诸如处理器的硬件部件执行的软件部件。
本公开所属领域的普通技术人员将理解,本公开可以在不偏离本公开的技术精神或必要特征的前提下以不同的详细方式实现。由此,本公开的前述实施方式应该被解释为仅是说明性的,而不应该从各个方面被解释为限制性的。例如,被描述为单个类型的每个元件可以以分方式实现,类似地,被描述成分布的元件可被实现成联接类型。
本公开的范围由权利要求限定而非由详细的描述限定,权利要求的含义和范围以及从权利要求的等同得到的所有变化或修改的形式应该被解释成落入本公开的范围内。
Claims (15)
1.一种用于执行应用的装置,所述应用包括用于接收输入栏的输入值的图形用户界面(GUI),所述装置包括:
音频输出单元;
用户输入单元,接收请求执行所述应用的用户输入;以及
控制单元,被配置成:基于所述用户输入是否为语音输入,通过所述音频输出单元输出指示与所述输入栏对应的诱导询问的音频信号,接收指示对所述诱导询问的响应的语音输入,并通过基于指示对所述诱导询问的所述响应的语音输入设置所述输入栏的输入值来执行所述应用。
2.如权利要求1所述的装置,其中所述控制单元被进一步配置为:在请求执行所述应用的所述用户输入是语音输入时输出指示与所述输入栏对应的诱导询问的音频信号,并在所述用户输入是通过所述应用的图标进行的输入时不输出指示与所述输入栏对应的诱导询问的音频信号。
3.如权利要求1所述的装置,还包括显示单元,
其中所述控制单元被进一步配置为:除了输出指示与所述输入栏对应的诱导询问的音频信号以外,还控制所述显示单元显示包括所述输入栏的图形用户界面(所述GUI)。
4.如权利要求1所述的装置,其中所述应用包括待按次序显示的多个页,所述输入栏包括第一输入栏和第二输入栏,以及
所述控制单元被进一步配置为:
在接收到请求执行所述应用的语音输入后,显示所述多个页中的第一页,并输出指示与所述第一页中包含的输入栏对应的诱导询问的音频信号;以及
在确定了所述第一页中包含的输入栏的输入值后,显示所述第一页之后的第二页,并输出指示与所述第二页中包含的输入栏对应的诱导询问的音频信号。
5.如权利要求1所述的装置,其中所述GUI包括包含所述输入栏在内的多个输入栏,以及
所述控制单元被进一步配置为:在指示对所述诱导询问的响应的语音输入除了包括对所述多个输入栏中的所述输入栏的响应以外还包括对其它输入栏的响应时,基于所述语音输入设置所述其它输入栏的输入值。
6.如权利要求5所述的装置,其中所述控制单元被进一步配置为:在设置了所述其它输入栏的输入值后,控制所述音频输出单元输出指示与所述多个输入栏中的除了所述其它输入栏以外的剩余输入栏对应的诱导询问的音频信号。
7.如权利要求1所述的装置,还包括通信单元,
其中所述通信单元被配置为从外部服务器接收能被选择为所述输入栏的输入值的至少一个值,以及
所述控制单元被进一步配置为基于接收到的所述至少一个值确定所述输入栏的输入值。
8.如权利要求1所述的装置,其中所述控制单元被进一步配置为:在接收到请求执行所述应用的语音输入后,输出指示与所述输入栏对应的诱导询问的音频信号而不显示包括所述输入栏的所述GUI。
9.如权利要求1所述的装置,其中所述应用包括包含所述输入栏在内的多个输入栏,以及
所述多个输入栏包括接收所述应用执行的服务所必需的至少一个必要输入栏,以及
所述控制单元被进一步配置为:将所述多个输入栏中的除了所述至少一个必要输入栏以外的剩余输入栏的输入值设为预设的默认值而不生成与所述剩余输入栏相关的诱导询问。
10.如权利要求1所述的装置,其中所述控制单元被进一步配置为:在输出指示与所述输入栏对应的诱导询问的所述音频信号的同时,显示能输入到所述输入栏的至少一个值并显示指示与所述至少一个值对应的语音关键字的文本。
11.一种用于执行应用的方法,所述应用包括用于接收输入栏的输入值的图形用户界面(GUI),所述方法包括:
接收请求执行所述应用的用户请求;
基于所述用户输入是否为语音输入,输出指示与所述输入栏对应的诱导询问的音频信号;
接收指示对所述诱导询问的响应的语音输入;以及
通过基于指示对所述诱导询问的所述响应的语音输入,设置所述输入栏的输入值来执行所述应用。
12.如权利要求11所述的方法,其中基于所述用户输入是否为语音输入输出指示与所述输入栏对应的诱导询问的音频信号的步骤包括:
当请求执行所述应用的所述用户输入是语音输入时,输出指示与所述输入栏对应的诱导询问的音频信号;以及
当所述用户输入是通过所述应用的图标进行的输入时,不输出指示与所述输入栏对应的诱导询问的音频信号。
13.如权利要求11所述的方法,其中基于所述用户输入是否为语音输入输出指示与所述输入栏对应的诱导询问的音频信号的步骤包括:
除了输出指示与所述输入栏对应的诱导询问的音频信号以外,还显示包括所述输入栏的图形用户界面(GUI)。
14.如权利要求11所述的方法,其中所述应用包括待按次序显示的多个页,所述输入栏包括第一输入栏和第二输入栏;以及
输出指示与所述输入栏对应的诱导询问的音频信号的步骤包括:
在接收到请求执行所述应用的语音输入后,显示所述多个页中的第一页,并输出指示与所述第一页中包含的输入栏对应的诱导询问的音频信号;以及
在确定所述第一页中包含的所述输入栏的输入值后,显示所述第一页之后的第二页,并输出指示与所述第二页中包含的输入栏对应的诱导询问的音频信号。
15.如权利要求11所述的方法,其中所述GUI包括包含所述输入栏在内的多个输入栏;以及
通过基于指示对所述诱导询问的所述响应的语音输入设置所述输入栏的输入值来执行所述应用的步骤包括:
当指示对所述诱导询问的响应的语音输入除了包括对所述多个输入栏中的所述输入栏的响应以外还包括对其它输入栏的响应时,基于所述语音输入设置所述其它输入栏的输入值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170178472A KR102532300B1 (ko) | 2017-12-22 | 2017-12-22 | 어플리케이션 실행 방법 및 이를 위한 장치 |
KR10-2017-0178472 | 2017-12-22 | ||
PCT/KR2018/002467 WO2019124631A1 (ko) | 2017-12-22 | 2018-02-28 | 어플리케이션 실행 방법 및 이를 위한 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111512282A true CN111512282A (zh) | 2020-08-07 |
CN111512282B CN111512282B (zh) | 2024-02-09 |
Family
ID=66993591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880082914.3A Active CN111512282B (zh) | 2017-12-22 | 2018-02-28 | 执行应用的方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220113934A1 (zh) |
EP (1) | EP3699750A4 (zh) |
KR (1) | KR102532300B1 (zh) |
CN (1) | CN111512282B (zh) |
WO (1) | WO2019124631A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102191422B1 (ko) * | 2018-11-14 | 2020-12-15 | 주식회사 오르페오사운드웍스 | 발화자 음성 복원기능을 갖는 이어셋 |
JP2022110509A (ja) * | 2021-01-18 | 2022-07-29 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
WO2023234931A1 (en) * | 2022-05-31 | 2023-12-07 | Google Llc | Human-in-the-loop voice automation system |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007033478A (ja) * | 2005-07-22 | 2007-02-08 | Hitachi Ltd | マルチモーダル対話システム及びマルチモーダルアプリケーション生成ウィザード |
KR20090115599A (ko) * | 2008-05-02 | 2009-11-05 | 엘지전자 주식회사 | 이동 단말기 및 그 정보 처리방법 |
US20110301955A1 (en) * | 2010-06-07 | 2011-12-08 | Google Inc. | Predicting and Learning Carrier Phrases for Speech Input |
US20120215543A1 (en) * | 2011-02-18 | 2012-08-23 | Nuance Communications, Inc. | Adding Speech Capabilities to Existing Computer Applications with Complex Graphical User Interfaces |
EP2642382A1 (en) * | 2012-03-19 | 2013-09-25 | BlackBerry Limited | Method of enabling voice input for a visually based interface |
US20140012585A1 (en) * | 2012-07-03 | 2014-01-09 | Samsung Electonics Co., Ltd. | Display apparatus, interactive system, and response information providing method |
US20150039307A1 (en) * | 2013-08-05 | 2015-02-05 | Samsung Electronics Co., Ltd. | Interfacing device and method for supporting speech dialogue service |
KR101508444B1 (ko) * | 2013-11-19 | 2015-04-07 | (주)스마일게이트엔터테인먼트 | 디스플레이 장치 및 이를 이용한 하이퍼링크 실행 방법 |
CN104904227A (zh) * | 2013-01-07 | 2015-09-09 | 三星电子株式会社 | 显示设备以及用于控制显示设备的方法 |
US20150331665A1 (en) * | 2014-05-13 | 2015-11-19 | Panasonic Intellectual Property Corporation Of America | Information provision method using voice recognition function and control method for device |
JP2016072888A (ja) * | 2014-09-30 | 2016-05-09 | Kddi株式会社 | 通信端末装置、通信端末装置用プログラム、および通信端末装置の制御方法 |
CN106796788A (zh) * | 2014-08-28 | 2017-05-31 | 苹果公司 | 基于用户反馈来改善自动语音识别 |
CN107093423A (zh) * | 2017-05-27 | 2017-08-25 | 努比亚技术有限公司 | 一种语音输入修正方法、装置及计算机可读存储介质 |
CN107454243A (zh) * | 2016-05-31 | 2017-12-08 | 北京搜狗科技发展有限公司 | 一种通信处理方法及装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7127402B2 (en) * | 2001-01-12 | 2006-10-24 | International Business Machines Corporation | Method and apparatus for converting utterance representations into actions in a conversational system |
JP2003076538A (ja) | 2001-08-30 | 2003-03-14 | Canon Inc | 印刷システムおける印刷制御方法 |
US7050976B1 (en) * | 2001-09-26 | 2006-05-23 | Sprint Spectrum L.P. | Method and system for use of navigation history in a voice command platform |
US20060271368A1 (en) * | 2005-05-25 | 2006-11-30 | Yishay Carmiel | Voice interface for consumer products |
US8311836B2 (en) * | 2006-03-13 | 2012-11-13 | Nuance Communications, Inc. | Dynamic help including available speech commands from content contained within speech grammars |
US8538757B2 (en) * | 2007-05-17 | 2013-09-17 | Redstart Systems, Inc. | System and method of a list commands utility for a speech recognition command system |
US8886521B2 (en) * | 2007-05-17 | 2014-11-11 | Redstart Systems, Inc. | System and method of dictation for a speech recognition command system |
US8676828B1 (en) | 2009-11-04 | 2014-03-18 | Google Inc. | Selecting and presenting content relevant to user input |
WO2011085387A2 (en) * | 2010-01-11 | 2011-07-14 | Everspeech, Inc. | Integrated data processing and transcription service |
US20110288859A1 (en) * | 2010-02-05 | 2011-11-24 | Taylor Andrew E | Language context sensitive command system and method |
CA2839265A1 (en) * | 2011-06-19 | 2012-12-27 | Mmodal Ip Llc | Speech recognition using context-aware recognition models |
GB2495222B (en) * | 2011-09-30 | 2016-10-26 | Apple Inc | Using context information to facilitate processing of commands in a virtual assistant |
US20150033111A1 (en) * | 2012-03-16 | 2015-01-29 | Koninklijke Philips N.V. | Document Creation System and Semantic macro Editor |
US10042603B2 (en) * | 2012-09-20 | 2018-08-07 | Samsung Electronics Co., Ltd. | Context aware service provision method and apparatus of user device |
US20140278427A1 (en) * | 2013-03-13 | 2014-09-18 | Samsung Electronics Co., Ltd. | Dynamic dialog system agent integration |
CN104347075A (zh) * | 2013-08-02 | 2015-02-11 | 迪欧泰克有限责任公司 | 以语音识别来选择控制客体的装置及方法 |
KR101447879B1 (ko) * | 2013-08-09 | 2014-10-08 | 주식회사 디오텍 | 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법 |
KR20160093471A (ko) * | 2015-01-29 | 2016-08-08 | 엘지전자 주식회사 | 이동 단말기 및 그 제어방법 |
CN106157955A (zh) * | 2015-03-30 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种语音控制方法及装置 |
KR20170033722A (ko) | 2015-09-17 | 2017-03-27 | 삼성전자주식회사 | 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치 |
US10496275B2 (en) * | 2015-10-12 | 2019-12-03 | Microsoft Technology Licensing, Llc | Multi-window keyboard |
US10579255B2 (en) * | 2017-02-09 | 2020-03-03 | International Business Machines Corporation | Computer application for populating input fields of a record |
-
2017
- 2017-12-22 KR KR1020170178472A patent/KR102532300B1/ko active IP Right Grant
-
2018
- 2018-02-28 US US16/956,833 patent/US20220113934A1/en active Pending
- 2018-02-28 EP EP18890757.0A patent/EP3699750A4/en active Pending
- 2018-02-28 CN CN201880082914.3A patent/CN111512282B/zh active Active
- 2018-02-28 WO PCT/KR2018/002467 patent/WO2019124631A1/ko unknown
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007033478A (ja) * | 2005-07-22 | 2007-02-08 | Hitachi Ltd | マルチモーダル対話システム及びマルチモーダルアプリケーション生成ウィザード |
KR20090115599A (ko) * | 2008-05-02 | 2009-11-05 | 엘지전자 주식회사 | 이동 단말기 및 그 정보 처리방법 |
US20110301955A1 (en) * | 2010-06-07 | 2011-12-08 | Google Inc. | Predicting and Learning Carrier Phrases for Speech Input |
US20120215543A1 (en) * | 2011-02-18 | 2012-08-23 | Nuance Communications, Inc. | Adding Speech Capabilities to Existing Computer Applications with Complex Graphical User Interfaces |
EP2642382A1 (en) * | 2012-03-19 | 2013-09-25 | BlackBerry Limited | Method of enabling voice input for a visually based interface |
US20140012585A1 (en) * | 2012-07-03 | 2014-01-09 | Samsung Electonics Co., Ltd. | Display apparatus, interactive system, and response information providing method |
CN104904227A (zh) * | 2013-01-07 | 2015-09-09 | 三星电子株式会社 | 显示设备以及用于控制显示设备的方法 |
US20150039307A1 (en) * | 2013-08-05 | 2015-02-05 | Samsung Electronics Co., Ltd. | Interfacing device and method for supporting speech dialogue service |
KR101508444B1 (ko) * | 2013-11-19 | 2015-04-07 | (주)스마일게이트엔터테인먼트 | 디스플레이 장치 및 이를 이용한 하이퍼링크 실행 방법 |
US20150331665A1 (en) * | 2014-05-13 | 2015-11-19 | Panasonic Intellectual Property Corporation Of America | Information provision method using voice recognition function and control method for device |
CN106796788A (zh) * | 2014-08-28 | 2017-05-31 | 苹果公司 | 基于用户反馈来改善自动语音识别 |
JP2016072888A (ja) * | 2014-09-30 | 2016-05-09 | Kddi株式会社 | 通信端末装置、通信端末装置用プログラム、および通信端末装置の制御方法 |
CN107454243A (zh) * | 2016-05-31 | 2017-12-08 | 北京搜狗科技发展有限公司 | 一种通信处理方法及装置 |
CN107093423A (zh) * | 2017-05-27 | 2017-08-25 | 努比亚技术有限公司 | 一种语音输入修正方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR102532300B1 (ko) | 2023-05-15 |
WO2019124631A1 (ko) | 2019-06-27 |
EP3699750A4 (en) | 2020-12-30 |
KR20190076568A (ko) | 2019-07-02 |
EP3699750A1 (en) | 2020-08-26 |
CN111512282B (zh) | 2024-02-09 |
US20220113934A1 (en) | 2022-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11675829B2 (en) | Intelligent automated assistant for media exploration | |
US10733716B2 (en) | Method and device for providing image | |
CN108701454B (zh) | 对话系统中的参数收集和自动对话生成 | |
US10498673B2 (en) | Device and method for providing user-customized content | |
CN104077047B (zh) | 用于运行应用的方法和设备 | |
US20180349451A1 (en) | Presenting Related Points of Interest | |
WO2017218244A1 (en) | Virtual keyboard with intent-based, dynamically generated task icons | |
US10466786B2 (en) | Method and device for providing content | |
US10832666B2 (en) | Advanced user interface for voice search and results display | |
WO2013155619A1 (en) | Conversational agent | |
US10755711B2 (en) | Information presentation device, information presentation system, and terminal device | |
US20160179899A1 (en) | Method of providing content and electronic apparatus performing the method | |
EP3125164A1 (en) | Method and device for presenting ticket information | |
KR102092762B1 (ko) | 디스플레이 장치 및 그의 목적지 설정 방법 | |
CN111512282B (zh) | 执行应用的方法和装置 | |
KR102276856B1 (ko) | 컴퓨팅 디바이스와 상호작용하는 장치 및 방법 | |
US20200125223A1 (en) | Method, device, apparatus, and system for displaying dynamic list | |
US20140195968A1 (en) | Inferring and acting on user intent | |
KR20140119611A (ko) | 애플리케이션을 실행하는 방법 및 디바이스 | |
KR102596841B1 (ko) | 사용자의 발화에 응답하여 하나 이상의 아이템을 제공하기 위한 전자 장치 및 방법 | |
CN102449656B (zh) | 基于个人简档在物理空间中布置媒体项的设备和方法 | |
KR20190134975A (ko) | 인공지능 시스템의 앱들 또는 스킬들의 리스트를 표시하는 증강 현실 장치 및 동작 방법 | |
US20130218997A1 (en) | Apparatus and method for providing a message service in an electronic device | |
KR20200040562A (ko) | 사용자 발화를 처리하기 위한 시스템 | |
KR20220165993A (ko) | 인공지능 캐릭터 생성 방법 및 그 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |