CN110308886B - 提供与个性化任务相关联的声音命令服务的系统和方法 - Google Patents

提供与个性化任务相关联的声音命令服务的系统和方法 Download PDF

Info

Publication number
CN110308886B
CN110308886B CN201910233220.1A CN201910233220A CN110308886B CN 110308886 B CN110308886 B CN 110308886B CN 201910233220 A CN201910233220 A CN 201910233220A CN 110308886 B CN110308886 B CN 110308886B
Authority
CN
China
Prior art keywords
electronic device
user
input
module
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910233220.1A
Other languages
English (en)
Other versions
CN110308886A (zh
Inventor
诸葛祜准
卢栽建
金玟成
金珍雄
梁栽荣
李光斌
余在永
李多顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020180035387A external-priority patent/KR102685523B1/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN110308886A publication Critical patent/CN110308886A/zh
Application granted granted Critical
Publication of CN110308886B publication Critical patent/CN110308886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本公开公开了一种提供与个性化任务相关联的声音命令服务的系统和方法。所述系统包括电子设备,所述电子设备被配置为:通过触摸屏显示器和/或麦克风来接收第一用户输入;通过所述触摸屏显示器和/或所述麦克风来接收基于触摸和/或声音的用户输入的序列;将所述基于触摸和/或声音的用户输入的序列存储在至少一个存储器中;通过所述触摸屏显示器和/或所述麦克风来接收包括与所述序列相关联的至少一个调用字的第二用户输入;并且将所述至少一个调用字存储在所述至少一个存储器中,使得所述序列和所述至少一个调用字彼此映射。

Description

提供与个性化任务相关联的声音命令服务的系统和方法
相关申请的交叉引用
本申请基于2018年3月27日提交到韩国知识产权局的韩国专利申请No.10-2018-0035387并要求其优先权,其公开内容通过引用整体并入本文。
技术领域
本公开涉及用于处理用户声音输入的技术。
背景技术
除了使用键盘或鼠标的输入方案之外,最近的电子设备还可以支持声音输入方案。例如,诸如智能手机或平板PC的电子设备可以在语音识别服务被执行的状态下识别用户的话语并且可以执行与该话语相对应的操作。
语音识别服务可以接收用户的话语作为输入,并且可以识别所接收到的话语。语音识别服务可以使用包括在用户的话语中的具体短语来给用户提供与该话语相对应的结果。例如,语音识别服务可以基于自然语言处理技术根据话语理解用户的意图并且可以给用户提供与所理解的意图相匹配的结果。
当接收到被映射到预存储的规则的用户的话语时,语音识别服务可以使用该规则来生成与用户的意图匹配的命令。该命令可以允许电子设备执行用户打算的任务。服务提供者可以预定义用于处理任务的规则。服务提供者可以支持对用户的声音命令服务,该声音命令服务仅针对电子设备的与预定义规则匹配的一些任务。
以上信息仅作为背景信息被呈现来协助理解本公开。至于上述中的任一个是否可能适用作为关于本公开的现有技术,尚未做出任何确定,并且未做出断言。
发明内容
本公开的实施例至少解决以上提及的问题和/或缺点并且至少提供在下面描述的优点。因此,本公开的一方面提供能够支持用户直接地定义的声音命令服务的电子设备和系统。
根据本公开的一个示例方面,一种提供与个性化任务相关联的声音命令服务的系统可以包括:电子设备,所述电子设备包括触摸屏显示器、通信电路、麦克风和扬声器;至少一个处理器,所述至少一个处理器是所述电子设备的一部分或者被配置为与所述电子设备远程地通信;以及至少一个存储器,所述至少一个存储器被设置在所述电子设备内部或在所述电子设备外部,所述至少一个存储器可操作地连接到所述至少一个处理器。所述至少一个存储器可以被配置为存储指令,当所述指令被执行时,使所述至少一个处理器控制所述电子设备进行如下操作:通过所述触摸屏显示器和/或所述麦克风来接收用于生成所述个性化任务的第一用户输入;通过所述触摸屏显示器和/或所述麦克风来接收基于触摸和/或声音的用户输入的序列;将所述基于触摸和/或声音的用户输入的序列存储在所述至少一个存储器中;通过所述触摸屏显示器和/或所述麦克风来接收包括与所述序列相关联的至少一个调用字的第二用户输入;并且将所述至少一个调用字存储在所述至少一个存储器中,使得所述序列和所述至少一个调用字彼此映射。
根据本公开的另一示例方面,一种提供与个性化任务相关联的声音命令服务的方法可以包括:通过所述触摸屏显示器和/或所述麦克风来接收用于生成所述个性化任务的第一用户输入;通过所述触摸屏显示器和/或所述麦克风来接收基于触摸和/或声音的用户输入的序列;将所述基于触摸和/或声音的用户输入的序列存储在存储器中;通过所述触摸屏显示器和/或所述麦克风来接收包括与所述序列相关联的至少一个调用字的第二用户输入;以及存储所述至少一个调用字,使得所述序列和所述至少一个调用字彼此映射。
根据本公开的另一示例方面,一种电子设备可以包括触摸屏显示器、麦克风、存储装置、电连接到所述触摸屏显示器、所述麦克风和所述存储装置的至少一个处理器以及电连接到所述至少一个处理器的至少一个存储器,所述至少一个存储器被配置为存储指令。所述指令可以在由所述至少一个处理器执行时控制所述电子设备以进行如下操作:接收第一用户输入;接收包括多个基于触摸和/或声音的用户输入的序列;将所述序列存储在所述存储装置中;通过所述麦克风来接收与所述序列相关联的用户话语;并且将所述用户话语存储在所述存储装置中以便被映射到所述序列。
根据本公开的各种示例实施例,一种智能系统可以提供与用户定义的任务相关联的声音命令服务。
根据本公开的各种示例实施例,所述智能系统可以提供针对与预存储的规则不相对应的个性化任务的用户命令功能。
可以提供通过本公开直接地或间接地理解的各种效果。
从结合附图公开了本公开的各种实施例的以下详细描述中,本公开的其他方面、优点和显著特征对于本领域的技术人员而言将变得显而易见。
附图说明
通过结合附图的以下详细描述,本公开的某些实施例的以上及其他方面、特征和优点将更显而易见,在附图中:
图1是示出根据本公开的各种实施例的示例集成智能系统的图;
图2是示出根据本公开的实施例的集成智能系统的示例用户终端的框图;
图3是示出根据本公开的实施例的正在执行的用户终端的示例智能应用的图;
图4是示出根据本公开的实施例的集成智能系统的示例智能服务器的框图;
图5是示出根据实施例的提供语音识别服务的示例智能系统的框图;
图6A是示出根据实施例的存储在电子设备中的示例任务执行模块的框图;
图6B是示出根据实施例的存储在电子设备中的示例记录模块的框图;
图6C是示出根据另一实施例的存储在电子设备中的示例任务执行模块的框图;
图7是示出根据实施例的生成个性化命令的示例方法的流程图;
图8是示出根据各种实施例的系统生成个性化命令的示例操作的顺序图;
图9是示出根据各种实施例的系统执行所生成的个性化命令的示例操作的顺序图;
图10是示出根据实施例的执行个性化命令的示例方法的流程图;
图11是示出根据各种实施例的用于生成个性化任务的示例场景和方法的图;
图12是示出根据各种实施例的当生成个性化任务时显示的示例界面的图;以及
图13是示出根据本公开的各种实施例的网络环境中的示例电子设备的图。
具体实施方式
在下文中,将参考附图描述本公开的各种示例实施例。然而,应当理解的是,本公开不限于特定实施例并且本文描述的各种示例实施例的各种修改、等同物和/或替代方案包括在本公开的内容中。
图1是示出根据本公开的各种实施例的示例集成智能系统的图。
参考图1,集成智能系统10可以包括用户终端100、智能服务器200、个性化信息服务器300和/或建议服务器400。
例如,用户终端100可以通过存储在用户终端100中的应用(或应用程序)(例如,闹钟应用、消息应用、图片(图库)应用等)来提供用户所必需的服务。例如,用户终端100可以通过存储在用户终端100中的智能应用(或语音识别应用)来执行和操作另一应用。用户终端100可以通过用户终端100的智能应用来接收用于执行其他应用并执行动作的用户输入。例如,可以通过例如但不限于物理按钮、触摸板、声音输入、远程输入等来接收用户输入。根据实施例,与因特网连接的各种类型的终端设备(或电子设备)(诸如例如但不限于移动手机、智能手机、个人数字助理(PDA)、笔记本计算机等)可以与用户终端100相对应。
根据实施例,用户终端100可以接收用户话语作为用户输入。用户终端100可以接收用户话语并且可以生成用于基于该用户话语操作应用的命令。因此,用户终端100可以使用命令来操作应用。
智能服务器200可以例如通过通信网络从用户终端100接收用户声音输入,并且可以例如将用户声音输入改变为文本数据。在另一实施例中,智能服务器200可以基于文本数据生成(或者选择)路径规则。路径规则可以例如包括关于用于执行应用的功能的动作(或操作)的信息或关于执行动作所必需的参数的信息,但是本公开不限于此。另外,路径规则可以包括应用的动作的次序。用户终端100可以接收路径规则、可以根据路径规则选择应用并且可以在所选择的应用中执行包括在路径规则中的动作。
例如,用户终端100可以执行动作并且可以在显示器上显示与执行动作的用户终端100的状态相对应的画面。又如,用户终端100可以执行动作并且可以不在显示器上显示通过执行动作所获得的结果。例如,用户终端100可以执行多个动作并且可以在显示器上仅显示多个动作的一部分的结果。例如,用户终端100可以在显示器上仅显示通过执行最后动作而获得的结果。又如,用户终端100可以接收用户输入以在显示器上显示通过执行动作而获得的结果。
个性化信息服务器300可以例如包括存储有用户信息的数据库。例如,个性化信息服务器300可以从用户终端100接收用户信息(例如,上下文信息、关于应用的执行的信息等)并且可以将该用户信息存储在数据库中。智能服务器200可以用于通过通信网络从个性化信息服务器300接收用户信息并且生成与用户输入相关联的路径规则。根据实施例,用户终端100可以通过通信网络从个性化信息服务器300接收用户信息并且可以将该用户信息用作用于管理数据库的信息。
建议服务器400可以例如包括存储关于例如但不限于终端中的功能、应用的介绍、要提供的功能等的信息的数据库。例如,建议服务器400可以包括与用户通过从个性化信息服务器300接收用户终端100的用户信息来利用的功能相关联的数据库。用户终端100可以通过通信网络从建议服务器400接收关于要提供的功能的信息并且可以将信息提供给用户。
图2是示出根据本公开的实施例的集成智能系统的示例用户终端的框图。
参考图2,用户终端100可以包括输入模块(例如,包括输入电路)110、显示器120、扬声器130、存储器140和处理器(例如,包括处理电路)150。用户终端100还可以包括壳体,并且用户终端100的组件可以被安放(设置)在壳体中或者可以被定位在壳体上。
根据实施例,输入模块110可以包括各种输入电路并且从用户接收用户输入。例如,输入模块110可以从已连接的外部设备(例如,键盘、头戴式耳机等)接收用户输入。又如,输入模块110可以包括耦接到显示器120的触摸屏(例如,触摸屏显示器)。又如,输入模块110可以包括位于用户终端100(或用户终端100的壳体)中的硬件键(或物理键)。然而,应当理解的是,本公开不限于上述示例。
根据实施例,输入模块110可以包括输入电路,诸如例如但不限于能够接收用户话语作为声音信号的麦克风(例如,麦克风111)等。例如,输入模块110可以包括话语输入系统并且可以通过该话语输入系统来接收用户的话语作为声音信号。
根据实施例,显示器120可以例如显示应用的图像、视频和/或执行画面。例如,显示器120可以显示应用的图形用户界面(GUI)。
根据实施例,扬声器130可以输出声音信号。例如,扬声器130可以将在用户终端100中生成的声音信号输出到外部。
根据实施例,存储器140可以存储多个应用141和143。可以根据(基于)用户输入选择、启动和执行存储在存储器140中的多个应用141和143。
根据实施例,存储器140可以包括能够存储识别用户输入所必需的信息的数据库。例如,存储器140可以包括能够存储日志信息的日志数据库。又如,存储器140可以包括能够存储用户信息的角色数据库。
根据实施例,存储器140可以存储多个应用141和143,并且可以加载以运行多个应用141和143。例如,存储在存储器140中的多个应用141和143可以由处理器150的执行管理器模块(例如,包括处理电路和/或程序元素)153加载来运行。多个应用141和143可以包括执行功能或多个动作(或单元动作)141b和143b的执行服务(例如,包括处理电路和/或程序元素)141a和143a。执行服务141a和143a可以由处理器150的执行管理器模块153生成,然后可以执行多个动作141b和143b。
根据实施例,当应用141和143的动作141b和143b被执行时,可以在显示器120上显示基于动作141b和143b的执行的执行状态画面。例如,执行状态画面可以是动作141b和143b完成的状态下的画面。又如,执行状态画面可以是动作141b和143b的执行在部分着陆(landing)中(例如,在未输入动作141b和143b所必需的参数的情况下)的状态下的画面。然而,本公开不限于此。
根据实施例,执行服务141a和143a可以根据路径规则执行动作141b和143b。例如,执行服务141a和143a可以由执行管理器模块153生成、可以根据路径规则从执行管理器模块153接收执行请求并且可以根据执行请求执行应用141和153的动作141b和143b。当动作141b和143b的执行完成时,执行服务141a和143a可以向执行管理器模块153发送完成信息。
根据实施例,在应用141和143中分别执行多个动作141b和143b的情况下,可以顺序地执行多个动作141b和143b。当一个动作(动作1)的执行完成时,执行服务141a和143a可以打开下一个动作(动作2)并且可以向执行管理器模块153发送完成信息。例如,应当理解的是,打开任意动作是为了将任意动作的状态改变为可执行状态和/或准备动作的执行。换句话说,当任意动作未被打开时,不可以执行所对应的动作。当接收到完成信息时,执行管理器模块153可以向执行服务发送对下一个动作141b和143b(例如,动作2)的执行请求。根据实施例,在多个应用141和143被执行的情况下,可以顺序地执行多个应用141和143。例如,当在执行了第一应用141的最后一个动作之后接收到完成信息时,执行管理器模块153可以将第二应用143的第一动作的执行请求发送到执行服务143a。
根据实施例,在应用141和143中执行多个动作141b和143b的情况下,可以在显示器120上显示基于所执行的多个动作141b和143b中的每一个的执行的结果画面。根据实施例,可以在显示器120上显示基于所执行的多个动作141b和143b的多个结果画面的仅一部分。
根据实施例,存储器140可以存储与智能代理(例如,包括处理电路和/或程序元素)151相结合而工作的智能应用(例如,语音识别应用)。与智能代理151相结合而工作的应用可以将用户的话语作为声音信号来接收和处理。根据实施例,可以通过经由输入模块110输入的具体输入(例如,通过硬件键的输入、通过触摸屏的输入、具体声音输入等,没有限制)来操作与智能代理151相结合而工作的应用。
根据实施例,处理器150可以包括各种处理电路并且控制用户终端100的整体操作。例如,处理器150可以控制输入模块110以接收用户输入。处理器150可以控制显示器120以显示图像。处理器150可以控制扬声器130以输出声音信号。处理器150可以控制存储器140以读取或者存储必需的信息。
根据实施例,处理器150可以包括智能代理151、执行管理器模块153和/或智能服务模块(例如,包括处理电路和/或程序元素)155。在实施例中,处理器150可以通过执行存储在存储器140中的指令来驱动智能代理151、执行管理器模块153和/或智能服务模块155。在本公开的各种实施例中描述的模块可以通过硬件或者通过软件或其任何组合来实现。在本公开的各种实施例中,应当理解的是,由智能代理151、执行管理器模块153或智能服务模块155所执行的动作是由处理器150所执行的动作。
根据实施例,智能代理151可以生成基于作为用户输入而接收到的声音信号来操作应用的指令。根据实施例,执行管理器模块153可以从智能代理151接收所生成的指令,并且可以选择、启动和操作存储在存储器140中的应用141和143。根据实施例,智能服务模块155可以管理用户的信息并且可以使用用户的信息来处理用户输入。
智能代理151可以处理通过输入模块110接收到的用户输入并将其发送到智能服务器200。
根据实施例,在将用户输入发送到智能服务器200之前,智能代理151可以预处理用户输入。根据实施例,为了预处理用户输入,智能代理151可以包括例如但不限于自适应回声消除器(AEC)模块、噪声抑制(NS)模块、端点检测(EPD)模块、自动增益控制(AGC)模块等。AEC可以去除包括在用户输入中的回声。NS模块可以抑制包括在用户输入中的背景噪声。EPD模块可以检测包括在用户输入中的用户声音的端点以搜索存在用户声音的一部分。AGC模块可以识别用户输入并且可以调整用户输入的音量以便适合于处理经识别的用户输入。根据实施例,智能代理151可以包括用于执行的所有预处理组件。然而,在另一实施例中,智能代理151可以包括预处理组件的一部分以便在低功率下工作。
根据实施例,智能代理151可以包括识别用户的呼叫的唤醒识别模块。唤醒识别模块可以通过语音识别模块来识别用户的唤醒指令。在唤醒识别模块接收到唤醒指令的情况下,唤醒识别模块可以激活智能代理151以接收用户输入。根据实施例,智能代理151的唤醒识别模块可以用低功率处理器(例如,包括在音频编解码器中的处理器等)来实现。根据实施例,可以根据通过硬件键所输入的用户输入来激活智能代理151。在智能代理151被激活的情况下,可以执行与智能代理151相结合而工作的智能应用(例如,语音识别应用)。
根据实施例,智能代理151可以包括用于执行用户输入的语音识别模块。语音识别模块可以识别用于在应用中执行动作的用户输入。例如,语音识别模块可以识别用于在应用141和143中执行诸如唤醒指令的动作的有限用户(声音)输入(例如,用于当在执行相机应用时执行拍摄动作的诸如“点击”的话语)。例如,用于在辅助智能服务器200的同时识别用户输入的语音识别模块可以识别并快速地处理在用户终端100中处理的用户指令。根据实施例,可以在应用处理器中实现用于执行智能代理151的用户输入的语音识别模块。
根据实施例,智能代理151的语音识别模块(包括唤醒模块的语音识别模块)可以使用用于识别声音的算法来识别用户输入。例如但不限于,用于识别语音的算法可以是隐马尔可夫模型(HMM)算法、人工神经网络(ANN)算法、动态时间规整(DTW)算法等中的至少一种。
根据实施例,智能代理151可以将用户的声音输入改变为文本数据。根据实施例,智能代理151可以将用户的声音发送到智能服务器200以接收经改变的文本数据。因此,智能代理151可以在在显示器120上显示文本数据。
根据实施例,智能代理151可以从智能服务器200接收路径规则。根据实施例,智能代理151可以将路径规则发送到执行管理器模块153。
根据实施例,智能代理151可以根据从智能服务器200接收到的路径规则将执行结果日志发送到智能服务模块155,并且可以在角色管理器155b的用户的偏好信息中累积和管理所发送的执行结果日志。
根据实施例,执行管理器模块153可以从智能代理151接收路径规则以执行应用141和143并且可以允许应用141和143执行包括在路径规则中的动作141b和143b。例如,执行管理器模块153可以向应用141和143发送用于执行动作141b和143b的指令信息并且可以从应用141和143接收动作141b和143b的完成信息。
根据实施例,执行管理器模块153可以在智能代理151与应用141和143之间发送或者接收用于执行应用141和143的动作141b和143b的指令信息。执行管理器模块153可以根据路径规则绑定要执行的应用141和143并且可以将包括在路径规则中的动作141b和143b的指令信息发送到应用141和143。例如,执行管理器模块153可以将包括在路径规则中的动作141b和143b顺序地发送到应用141和143并且可以根据路径规则顺序地执行应用141和143的动作141b和143b。
根据实施例,执行管理器模块153可以管理应用141和143的动作141b和143b的执行状态。例如,执行管理器模块153可以从应用141和143接收关于动作141b和143b的执行状态的信息。例如,在动作141b和143b的执行状态部分着陆的情况下(例如,在未输入动作141b和143b所必需的参数的情况下),执行管理器模块153可以向智能代理151发送关于部分着陆的信息。智能代理151可以使用所接收到的信息来向用户做出对输入必需的信息(例如,参数信息)的请求。又如,在动作141b和143b的执行状态处于操作的情况下,可以从用户接收到话语,并且执行管理器模块153可以向智能代理151发送关于正在执行的应用141和143以及应用141和143的执行状态的信息。智能代理151可以通过智能服务器200来接收用户的话语的参数信息并且可以将所接收到的参数信息发送到执行管理器模块153。执行管理器模块153可以使用所接收到的参数信息来将动作141b和143b中的每一个的参数改变为新参数。
根据实施例,执行管理器模块153可以将包括在路径规则中的参数信息发送到应用141和143。在根据路径规则顺序执行多个应用141和143的情况下,执行管理器模块153可以将包括在路径规则中的参数信息从一个应用发送到另一应用。
根据实施例,执行管理器模块153可以接收多个路径规则。执行管理器模块153可以基于用户的话语选择多个路径规则。例如,在用户话语指定执行一个动作141b的一个应用141而未指定执行另一动作143b的另一应用143的情况下,执行管理器模块153可以接收多个不同的路径规则,在这些不同的路径规则中所述执行一个动作141b的一个应用141(例如,图库应用)被执行,并且所述执行另一动作143b的另一应用143(例如,消息应用或电报应用)被执行。例如,执行管理器模块153可以执行多个路径规则的相同的动作141b和143b(例如,相同的连续动作141b和143b)。在执行管理器模块153执行相同的动作的情况下,执行管理器模块143可以在显示器120上显示用于选择包括在多个路径规则中的不同的应用141和143的状态画面。
根据实施例,智能服务模块155可以包括上下文模块(例如,包括处理电路和/或程序元素)155a、角色模块(例如,包括处理电路和/或程序元素)155b和/或建议模块(例如,包括处理电路和/或程序元素)155c。
上下文模块155a可以包括各种处理电路和/或程序元素并且从应用141和143收集应用141和143的当前状态。例如,上下文模块155a可以接收指示应用141和143的当前状态的上下文信息以收集应用141和143的当前状态。
角色模块155b可以包括各种处理电路和/或程序元素并且利用用户终端100来管理用户的个人信息。例如,角色模块155b可以收集用户终端100的使用信息和执行结果来管理用户的个人信息。
建议模块155c可以包括各种处理电路和/或程序元素并且预测用户的意图以向用户推荐命令。例如,建议模块155c可以在考虑到用户的当前状态(例如,时间、地点、情形或应用)的情况下向用户推荐命令。
图3是示出根据本公开的实施例的正在执行的用户终端的智能应用的示例的图。
图3示出用户终端100接收要执行与智能代理151相结合而工作的智能应用(例如,语音识别应用)的用户输入。
根据实施例,用户终端100可以通过例如硬件键112来执行用于识别声音的智能应用。例如,在用户终端100接收到通过硬件键112的用户输入的情况下,用户终端100可以在显示器120上显示智能应用的UI 121。例如,用户可以在智能应用的UI 121被显示在显示器120上的状态下出于输入声音111b的目的而触摸智能应用的UI 121的语音识别按钮121a。又如,在持续按压硬件键112的同时,用户可以输入声音111b。
根据实施例,用户终端100可以通过麦克风111来执行用于识别语音的智能应用。例如,在通过麦克风111输入指定声音111a(例如,唤醒!)的情况下,用户终端100可以在显示器120上显示智能应用的UI 121。
图4是示出根据本公开的实施例的集成智能系统的示例智能服务器的框图。
参考图4,智能服务器200可以包括自动语音识别(ASR)模块(例如,包括处理电路和/或程序元素)210、自然语言理解(NLU)模块(例如,包括处理电路和/或程序元素)220、路径规划器模块(例如,包括处理电路和/或程序元素)230、对话管理器(DM)模块(例如,包括处理电路和/或程序元素)240、自然语言生成器(NLG)模块(例如,包括处理电路和/或程序元素)250和文本到语音(TTS)模块(例如,包括处理电路和/或程序元素)260。
智能服务器200的NLU模块220或路径规划器模块230可以包括各种处理电路和/或程序元素并且生成路径规则。
根据实施例,ASR模块210可以包括各种处理电路和/或程序元素并且将从用户终端100接收到的用户输入改变为文本数据。
例如,ASR模块210可以包括语音识别模块。语音识别模块可以包括声学模型和语言模型。例如,声学模型可以包括与发声相关联的信息,并且语言模型可以包括单元音素信息和关于单元音素信息的组合的信息。语音识别模块可以使用与发声相关联的信息和单元音素信息来将用户语音转换为文本数据。例如,关于声学模型和语言模型的信息可以被存储在自动语音识别数据库(ASR DB)211中。
根据实施例,NLU模块220可以包括各种处理电路和/或程序元素并且通过执行例如但不限于语法分析、语义分析等来理解用户意图。语法分析可以将用户输入划分成语法单元(例如,单词、短语、语素等)并且确定所划分的单元具有哪些语法元素。可以使用语义匹配、规则匹配、公式匹配等来执行语义分析。因此,NLU模块220可以从用户输入获得域、意图或表达意图所必需的参数(或槽(slot))。
根据实施例,NLU模块220可以使用匹配规则来确定用户的意图和参数,所述匹配规则被划分成域、意图和理解意图所必需的参数(或槽)。例如,一个域(例如,闹钟)可以包括多个意图(例如,闹钟设置、闹钟消除等),并且一个意图可以包括多个参数(例如,时间、迭代次数、闹钟声音等)。例如,多个规则可以包括一个或更多个必需的参数。匹配规则可以被存储在自然语言理解数据库(NLU DB)221中。
根据实施例,NLU模块220可以使用诸如例如但不限于语素、短语等的语言特征(例如,语法元素)来理解从用户输入中提取的单词的含义,并且可以使所理解的单词的含义与域和意图相匹配以确定用户意图。例如,出于确定用户意图的目的,NLU模块220可以计算有多少从用户输入中提取的单词被包括在每个域和意图中。根据实施例,NLU模块220可以使用基于用于理解意图的单词来确定用户输入的参数。根据实施例,NLU模块220可以使用存储用于理解用户输入的意图的语言特征的NLU DB 221来确定用户意图。根据另一实施例,NLU模块220可以使用个人语言模型(PLM)来确定用户意图。例如,NLU模块220可以使用个性化信息(例如,联系人列表或音乐列表)来确定用户意图。例如,PLM可以被存储在NLU DB221中。根据实施例,ASR模块210以及NLU模块220可以参考存储在NLU DB 221中的PLM来识别用户的声音。
根据实施例,NLU模块220可以基于用户输入的意图和参数生成路径规则。例如,NLU模块220可以基于用户输入的意图选择要执行的应用,并且可以确定要在所选择的应用中执行的动作。NLU模块220可以确定与所确定的动作相对应的参数以生成路径规则。根据实施例,由NLU模块220所生成的路径规则可以包括关于要执行的应用、要在应用中执行的动作以及执行动作所必需的参数的信息。
根据实施例,NLU模块220可以基于用户输入的意图和参数生成一个路径规则或多个路径规则。例如,NLU模块220可以从路径规划器模块230接收与用户终端100相对应的路径规则集并且可以将用户输入的意图和参数映射到所接收到的路径规则集以确定路径规则。
根据另一实施例,NLU模块220可以出于生成一个路径规则或多个路径规则的目的而基于用户输入的意图和参数确定要执行的应用、要在应用中执行的动作以及执行动作所必需的参数。例如,NLU模块220可以出于生成路径规则的目的而以本体或图解模型的形式根据用户输入的意图使用用户终端100的信息来布置要执行的应用和要在应用中执行的动作。例如,可以通过路径规划器模块230将所生成的路径规则存储在路径规则数据库(PRDB)231中。可以将所生成的路径规则添加到PR DB 231的路径规则集。
根据实施例,NLU模块220可以选择所生成的多个路径规则中的至少一个路径规则。例如,NLU模块220可以选择多个路径规则中的最佳路径规则。又如,在基于用户话语指定动作的仅一部分的情况下,NLU模块220可以选择多个路径规则。NLU模块220可以根据用户的附加输入确定多个路径规则中的一个路径规则。
根据实施例,NLU模块220可以响应于对用户输入的请求而将路径规则发送到用户终端100。例如,NLU模块220可以将与用户输入相对应的一个路径规则发送到用户终端100。又如,NLU模块220可以将与用户输入相对应的多个路径规则发送到用户终端100。例如,在基于用户话语指定动作的仅一部分的情况下,可以由NLU模块220生成多个路径规则。
根据实施例,路径规划器模块230可以包括各种处理电路和/或程序元素并且选择多个路径规则中的至少一个路径规则。
根据实施例,路径规划器模块230可以向NLU模块220发送包括多个路径规则的路径规则集。可以将路径规则集的多个路径规则以表格形式存储在连接到路径规划器模块230的PR DB 231中。例如,路径规划器模块230可以向NLU模块220发送与从智能代理151接收到的用户终端100的信息(例如,OS信息或应用信息)相对应的路径规则集。例如,存储在PR DB 231中的表可以针对每个域或者针对域的每个版本而存储。
根据实施例,路径规划器模块230可以从路径规则集中选择一个路径规则或多个路径规则以将所选择的一个路径规则或所选择的多个路径规则发送到NLU模块220。例如,路径规划器模块230可以使用户意图和参数与和用户终端100相对应的路径规则集相匹配以选择一个路径规则或多个路径规则并且可以将所选择的一个路径规则或所选择的多个路径规则发送到NLU模块220。
根据实施例,路径规划器模块230可以使用用户意图和参数来生成一个路径规则或多个路径规则。例如,路径规划器模块230可以出于生成一个路径规则或多个路径规则的目的而基于用户意图和参数确定要执行的应用和要在应用中执行的动作。根据实施例,路径规划器模块230可以将所生成的路径规则存储在PR DB 231中。
根据实施例,路径规划器模块230可以将由NLU模块220所生成的路径规则存储在PR DB 231中。可以将所生成的路径规则添加到存储在PR DB 231中的路径规则集中。
根据实施例,存储在PR DB 231中的表可以包括多个路径规则或多个路径规则集。多个路径规则或多个路径规则集可以反映执行每个路径规则的设备的种类、版本、类型或特性。
根据实施例,DM模块240可以包括各种处理电路和/或程序元素并且确定由NLU模块220所理解的用户意图是否是确定的。例如,DM模块240可以基于参数的信息是否足够确定用户意图是否清楚。DM模块240可以确定由NLU模块220所理解的参数是否足以执行任务。根据实施例,在用户意图不清楚的情况下,DM模块240可以执行用于向用户做出对必需的信息的请求的反馈。例如,DM模块240可以执行用于做出对关于用于理解用户意图的参数的信息的请求的反馈。
根据实施例,DM模块240可以包括内容提供者模块。在内容提供者模块基于由NLU模块220所理解的意图和参数执行动作的情况下,内容提供者模块可以生成通过执行与用户输入相对应的任务而获得的结果。根据实施例,DM模块240可以将由内容提供者模块所生成的结果作为对用户输入的响应发送到用户终端100。
根据实施例,NLG模块250可以包括各种处理电路和/或程序元素并且将指定信息改变为文本形式。改变为文本形式的信息可以是自然语言话语的形式。例如,指定信息可以是关于附加输入的信息、用于指导完成与用户输入相对应的动作的信息或用于指导用户的附加输入的信息(例如,关于用户输入的反馈信息)。改变为文本形式的信息可以在被发送到用户终端100之后被显示在显示器120上或者可以在被发送到TTS模块260之后被改变为声音形式。
根据实施例,TTS模块260可以包括各种处理电路和/或程序元素并且将文本形式的信息改变为声音形式的信息。TTS模块260可以从NLG模块250接收文本形式的信息、可以将文本形式的信息改变为声音形式的信息并且可以将声音形式的信息发送到用户终端100。用户终端100可以将声音形式的信息输出到扬声器130。
根据实施例,NLU模块220、路径规划器模块230和DM模块240可以用一个模块实现。例如,NLU模块220、路径规划器模块230和DM模块240可以用一个模块实现、可以确定用户意图和参数并且可以生成与所确定的用户意图和参数相对应的响应(例如,路径规则)。因此,可以将所生成的响应发送到用户终端100。
图5是示出根据实施例的提供语音识别服务的示例智能系统的框图。
参考图5,根据实施例的系统500可以包括电子设备510,所述电子设备510包括触摸屏显示器531、通信电路511、麦克风533和扬声器535。系统500可以包括:(例如,包括处理电路的)至少一个处理器512和/或560,其是电子设备510的一部分和/或与电子设备510远程地通信;以及至少一个存储器520或570,其被设置在电子设备510内部或者被设置在电子设备510外部,同时可操作地连接到至少一个处理器512和/或560。
在实施例中,系统500可以提供语音识别服务。例如,系统500可以从用户接收话语并且可以理解与该话语相对应的用户的意图。系统500可以执行与用户的意图相匹配的具体功能。当接收到话语时,系统500可以执行被映射到该话语的预存储的命令。
在实施例中,系统500可以提供个性化声音命令。例如,系统500可以存储由用户所定义的任务和映射到该任务的话语。当接收到话语时,系统500可以执行由用户所定义的任务。
例如,系统500可以包括电子设备510(例如,图2的用户终端200)和服务器550(例如,图4的智能服务器200)。
在实施例中,电子设备510可以包括无线通信电路511、存储器520、触摸屏显示器531、麦克风533、扬声器535和处理器(例如,包括处理电路)512。
在实施例中,处理器512可以包括各种处理电路并且执行存储在存储器520中的指令以驱动任务执行模块(例如,包括处理电路和/或程序元素)513、可访问性服务模块(例如,包括处理电路和/或程序元素)515、记录模块(例如,包括处理电路和/或程序元素)517和/或声音秘书模块(例如,包括处理电路和/或程序元素)519。在本公开的各种实施例中描述的模块可以通过硬件或者通过软件或其任何组合来实现。在本公开的各种实施例中,应当理解的是,由任务执行模块513、可访问性服务模块515和/或记录模块517所执行的操作是由处理器512所执行的操作。
在实施例中,声音秘书模块519可以提供语音识别服务。例如,声音秘书模块519可以通过电子设备的显示器531来显示提供语音识别服务所必需的界面。声音秘书模块519可以通过显示器531来提供与用户的命令相对应的结果画面作为语音识别结果。
在实施例中,任务执行模块513可以执行由电子设备510和/或存储在电子设备510中的具体应用所支持的功能。例如,当接收到用户的基于触摸或声音的输入时,任务执行模块513可以执行与所接收到的用户输入相对应的任务。电子设备510可以通过麦克风533从用户接收声音输入并且可以通过触摸屏显示器531从用户接收基于触摸的用户输入。例如,所接收到的用户输入可以引起具体应用的操作。
在实施例中,可访问性服务模块515可以提供诸如但不限于用于读取在电子设备510中显示的画面的内容的文本到语音(TTS)、用于使用振动来提供通知的触觉反馈等的功能。例如,可访问性服务模块515可以是由Google的Android框架所提供的模块。可访问性服务模块515可以识别包括在画面中的对象的属性、内容等,并且可以操纵经识别的对象。
例如,可访问性服务模块515可以通过爬取(crawling)画面来识别包括在画面中的对象。可访问性服务模块515可以识别当输入被应用于经识别的对象时执行的操作。可访问性服务模块515还可以识别用于执行对应操作的输入方法(例如,点击、长按、双击、滚动、拖曳、轻拂等)。可访问性服务模块515可以将操作(例如,动作)注入到由任务执行模块513所执行的任务中。例如,当任务执行模块513从智能服务器550接收状态时,可访问性服务模块515可以标识用于执行状态的对象并且可以将操作注入到对象中。例如,类似于用户直接地应用输入的情况,可访问性服务模块515可以在用于执行状态的输入方法中注入虚拟用户输入。
由任务执行模块513所执行的应用(例如,包括处理电路和/或程序元素)522可以由可访问性服务模块515控制。当电子设备510存储一个应用522时,实施例作为非限定示例被示出在图5中。然而,实施例可以不限于此。例如,电子设备510可以存储多个应用。
当动作被注入到由任务执行模块513所执行的应用522中时,可以更新在电子设备510上显示的画面。当画面被更新时,可访问性服务模块515可以确定事件发生并且可以将该事件发送到任务执行模块513。可访问性服务模块515可以识别包括在更新后的画面中的对象的属性、内容等。可访问性服务模块515可以将对象的属性、内容等发送到任务执行模块513。
当事件被发送后,任务执行模块513可以确定是否完成了所接收到的状态的执行。当所接收到的状态的执行完成时,任务执行模块513可以使结果返回给执行管理器(例如,图2的执行管理器模块153)。
在实施例中,智能服务器550可以向电子设备510发送状态。电子设备510可以执行所接收到的状态。
在实施例中,智能服务器550可以将与由用户所定义的任务相对应的状态发送到电子设备510。用户输入的序列可以包括执行由用户所定义的任务所必需的用户输入。例如,智能服务器550可以接收用户输入的序列并且可以生成或者选择与该序列相关联的规则。例如,可以在图4的路径规则中选择规则或者可以以与路径规则相同或类似的形式生成规则。
在实施例中,规则可以包括用于执行与用户的命令相对应的动作的一个或更多个状态以及关于执行一个或更多个状态所必需的参数的信息。在规则包括多个状态的情况下,规则可以包括关于状态的序列的信息。用户终端510可以接收规则、可以基于规则选择应用并且可以通过控制所选择的应用来执行包括在规则中的状态。例如,用户终端510可以执行状态并且可以在显示器531上显示通过执行状态而获得的画面。
图6A是示出根据实施例的存储在电子设备中的示例任务执行模块的框图。
参考图6A,根据实施例的任务执行模块513可以包括状态接收器(例如,包括处理电路和/或程序元素)541、画面检测器(例如,包括处理电路和/或程序元素)543、输入注入器(例如,包括处理电路和/或程序元素)545和结果监视器(例如,包括处理电路和/或程序元素)547。任务执行模块513可以被称为图5中示出的“任务执行模块513”。被描述为由状态接收器541、画面检测器543、输入注入器545和结果监视器547执行的操作可以由电子设备510的处理器512执行。
状态接收器541可以包括各种处理电路和/或程序元素并且接收包括在规则中的状态。可以从智能服务器550(例如,图4的智能服务器200)接收规则。例如,状态接收器541可以从智能服务器550接收电子设备510的状态的序列。
画面检测器543可以包括各种处理电路和/或程序元素并且检测在电子设备510的显示器531上显示的画面。在执行状态之前,画面检测器543可以检测画面。画面检测器543可以从可访问性服务模块515接收关于包括在画面中的对象的信息。画面检测器543可以基于从可访问性服务模块515接收到的信息确定所对应的状态是否能够被执行。
输入注入器545可以包括各种处理电路和/或程序元素并且确定与由状态接收器541所接收到的状态相对应的动作。例如,输入注入器545可以确定用于执行状态的对象和与该对象相关联的输入方法。
结果监视器547可以包括各种处理电路和/或程序元素并且检测在电子设备510的显示器531上显示的画面。结果监视器547可以检测在执行状态之后更新的画面。结果监视器547可以从可访问性服务模块515接收关于包括在经更新的画面中的对象的信息。结果监视器547可以基于从可访问性服务模块515接收到的信息确定状态的执行是否完成。结果监视器547可以使执行结果返回给任务执行模块513或智能服务器550。
任务执行模块513可以包括各种处理电路和/或程序元素并且执行安装在电子设备510中的应用中的一个并且可以执行应用的任务。任务执行模块513可以在应用被更新时被一起更新。可以从外部设备(例如,智能服务器550)接收经更新的任务执行模块513。
图6B是示出根据实施例的存储在电子设备中的示例记录模块的框图。
参考图6B,记录模块517可以包括信息收集器(例如,包括处理电路和/或程序元素)551、规则转换器(例如,包括处理电路和/或程序元素)553和规则验证模块(例如,包括处理电路和/或程序元素)555。
信息收集器551可以包括各种处理电路和/或程序元素并且收集用户的输入信息,该用户的输入信息包括由电子设备510所获得的触摸或按钮输入和电子设备510的变化信息(例如,应用的画面变化等)。例如,用户的输入信息可以被称为在其上输入用户的触摸、拖曳、点击等的画面的坐标信息、具体功能的执行、物理按钮的按压、输入文本等。例如,变化信息可以包括应用的资源id是否发生改变以及由任务执行模块513所生成的各种信息。
规则转换器553可以包括各种处理电路和/或程序元素并且将由信息收集器551所收集的信息转换为具有能够由电子设备510执行的形式的信息。例如,规则转换器553可以将所收集的信息转换成包括状态和参数的形式的数据,所述参数诸如在智能服务器200(例如,图1的智能服务器200)中使用的路径规则。又如,当存在基于与具体页面、图像或应用的具体操作的连接的深度链接时,规则转换器553可以以所对应的深度链接和被包括在所对应的链接中的数据的形式转换所收集的信息。又如,规则转换器553可以使用基于本体的胶囊(ontology-based capsule)以动作对象的形式转换所收集的信息。根据各种实施例,胶囊可包括概念对象和动作对象。例如,概念对象是诸如“餐馆”的真实世界的实体模型或诸如“餐馆”、“时间”和“预订”的实体的组合。另外,概念对象可以是针对概念对象可以具有的一类值的定义的形式。例如,概念对象可以具有诸如整数类型、字符串类型等的类型。概念对象可以是原子工作单元的模型、可以具有外部依赖性作为输入并且可以具有预定类型的输出。
动作对象可以是能够执行任何任务的动作的定义的形式。例如,动作对象可以具有JavaScript的形式“函数”、“方法”和“接口”。由规则转换器553所转换的数据可以由声音秘书模块519执行并且可以被存储在存储装置(例如,数据库)525中。
规则验证模块555可以包括各种处理电路和/或程序元素并且确定由规则转换器553所生成的数据是否由电子设备510操作。规则验证模块555可以通过各种方法来确定数据是否被操作。例如,规则验证模块555可以验证作为最终目标的应用的画面状态,或者可以验证用于执行数据的过程。
在各种实施例中,规则验证模块555可以优化由规则转换器553所生成的数据。例如,当由用户所生成的数据由用户的5个步骤的输入组成时,规则验证模块555可以确定是否存在用于将数据减少到四个步骤或三个步骤的路线。当找到所对应的路线时,规则验证模块555可以替换数据。又如,当存在能够直接地访问最终目标(诸如深度链接)的方法时,规则验证模块555可以在所对应的方法中改变数据。
图6C是示出根据另一实施例的存储在电子设备中的示例任务执行模块的框图。
参考图6C,示出了根据另一实施例的任务执行模块的框图。
在另一实施例中,可以与图6A的任务执行模块513不同地实现任务执行模块516。例如,当要执行的任务是深度链接或Viv胶囊时,任务执行模块516可以通过执行包括参数的函数来执行任务。任务执行模块516可以包括函数调用器(例如,包括处理电路和/或程序元素)561、参数标记器(例如,包括处理电路和/或程序元素)563以及验证模块(例如,包括处理电路和/或程序元素)565。
函数调用器561可以包括各种处理电路和/或程序元素并且被称为执行与要执行的任务相对应的动作或函数的“模块”。当与用户话语相对应的规则被选择并且与所选择的规则相对应的函数被定义时,函数调用器561可以执行所定义的函数。
参数标记器563可以包括各种处理电路和/或程序元素并且发送必需的参数,使得函数调用器561执行函数。参数标记器563可以存储与用户话语相对应的函数所必需的参数。
验证模块565可以包括各种处理电路和/或程序元素并且确定通过任务执行模块513所执行的规则是否被正常地执行。例如,验证模块565可以将当所执行的函数被首先注册时执行的结果与当前执行的结果相比较。例如,验证模块565可以比较函数的结果画面的画面ID。验证模块565可以根据被调用函数的类型(例如,深度链接或Viv胶囊)通过返回值来验证函数的执行。
图7是示出根据实施例的生成个性化命令的示例方法的流程图。
参考图7,由根据实施例的系统所执行的个性化命令生成方法可以包括操作710、操作720、操作730和操作740。例如,操作710、操作720、操作730和操作740可以由图5中示出的系统500执行。例如,操作710、操作720、操作730和操作740可以分别用能够由系统500的至少一个处理器512或560执行(或者实行)的指令来实现。指令可以被存储在例如系统500的计算机可读记录介质或存储器520或570中。在下文中,在关于操作710、操作720、操作730和操作740的描述中,可能不在这里重复与参考图5所给出的描述相同或类似的描述。
在操作710中,系统500可以接收第一用户输入。例如,系统500可以通过触摸屏显示器531或麦克风533来接收第一用户输入。
在各种实施例中,系统500可以支持用于生成个性化命令的界面。例如,系统500可以执行用于响应于第一用户输入而生成个性化声音命令的第一模式。例如,第一用户输入可以被称为用于执行这个界面的用户输入。例如,用户可以触摸某个按钮(例如,录音按钮)来执行这个界面。用户可以输入某个话语(例如,命令生成)来执行这个界面。在操作720中,系统500可以在接收到第一用户输入之后通过触摸屏显示器531或麦克风533来接收基于触摸和/或声音的用户输入的序列。系统500可以将该序列存储在存储器520或570中。例如,将序列存储在存储器520或570中可以被称为“记录用户的动作”。
在各种实施例中,用户可以生成个性化任务。例如,用户可以执行要存储的多个输入。系统500可以接收多个输入的序列并且可以存储该序列。所存储的序列可以对应于用户的个性化任务。例如,用户可以通过触摸操作来执行要存储的任务。
在各种实施例中,关于通过电子设备510的触摸屏显示器531所输出的画面,系统500(例如,可访问性服务模块515)可以识别包括在画面中的至少一个对象和与该至少一个对象相关联的至少一个动作。系统500可以接收并存储与至少一个对象相关联的至少一个或更多个动作的序列。
例如,系统500可以使用存储在至少一个存储器520中的Android框架来识别至少一个对象以及与该至少一个对象相结合地执行的至少一个动作。
例如,对象可以包括与电子设备510相关联的信息,诸如坐标信息、资源id、输入窗口、文本信息、显示器531的分辨率、是否存在状态栏、安装在电子设备510中的OS信息等。例如,与对象相关联的动作可以包括选择、点击、长按、滚动、复制、剪切、粘贴、文本输入、话语输入等。系统500可以识别在任何对象中执行哪一个动作。例如,当搜索词被输入到搜索窗口中时,系统500可以将“被输入了搜索词的动作”识别成“搜索窗口”的对象。例如,系统500可以接收画面信息、对象信息和动作信息的序列。系统500可以存储所接收到的序列。
在各种实施例中,用户输入可以对应于智能服务器200中的预定义状态。例如,系统500可以接收在预定义状态当中选择的状态或与用户输入相对应的状态作为序列。
在各种实施例中,系统500可以确定所接收到的序列是否被电子设备510正确地执行。例如,电子设备510可以执行所接收到的序列并且可以给用户提供所执行的结果。例如,用户可以基于所执行的结果确定用户打算的任务是否被执行。当用户打算的任务被很好地执行时,用户可以对所输入的序列输入确认。当所打算的任务未被很好地执行时,用户可以输入针对所输入的序列的取消并且可以重新执行与个性化任务相对应的用户输入。
在操作730中,系统500可以接收包括与序列相关联的至少一个调用字的第二用户输入。
例如,调用字可以被称为能够调用由用户所输入的个性化任务的“个性化命令”。用户可以通过说出调用字或者通过将调用字作为文本输入来调用所存储的个性化任务。可以通过触摸屏显示器531或麦克风533来接收包括调用字的第二用户输入。
在操作740中,系统500可以将至少一个调用字存储在系统500的至少一个存储器520或570中以便被映射到序列。
例如,系统500可以将与用户的个性化任务相对应的序列与调用字存储在一起。当调用字被输入时,系统500可以执行由映射到调用字的序列产生的动作。系统500可以提供个性化命令。
在各种实施例中,在接收到与序列相关联的数据之后,系统500可以基于序列提供多个调用字。例如,所述多个调用字可以被称为序列的“推荐项”。例如,服务器550可以基于序列将包括多个调用字的推荐项发送到电子设备510并且可以从电子设备510接收在所述多个调用字当中选择的调用字。系统500可以将所选择的调用字存储在至少一个存储器520或570中以便被映射到所接收到的序列。
图8是示出根据各种实施例的系统生成个性化命令的示例操作的顺序图。
在各种实施例中,包括多个用户输入的序列可以与安装在电子设备510中的至少一个应用522相关联。参考图8,例如,示出了用于生成与一个应用522相关联的个性化命令的过程。
系统500可以通过显示器531来显示根据应用522的执行而输出的画面。系统500(例如,可访问性服务模块515)可以识别包括在画面中的至少一个对象以及与该至少一个对象相关联的至少一个动作。
系统500可以接收与包括在第一画面中的对象相关联的动作。在操作801中,可访问性服务模块515可以感测根据动作而更新的第二画面。当感测到画面的更新时,在操作803中,可访问性服务模块515可以生成事件并且可以将该事件发送到结果监视器547。在操作805中,结果监视器547可以捕获(检测)第二画面的状态并且可以在操作807中,将第二画面的状态发送到记录模块517。记录模块517可以存储所接收到的第二画面信息。例如,在操作809中,记录模块517可以存储第一画面信息、关于第一画面的对象的动作信息以及通过动作所更新的第二画面信息。在各种实施例中,可以重复地执行操作801、操作803、操作805、操作807和操作809。因此,用户的输入的序列可以由记录模块517存储。
当序列的存储完成时,在操作811中,记录模块517可以向执行管理器(例如,图2的执行管理器模块153)发送与序列相关联的数据。在操作813中,执行管理器可以将与序列相关联的数据发送到将发送该数据的智能服务器550的客户端550-1。智能服务器550可以通过客户端550-1将与序列相关联的数据发送到智能服务器550。
在各种实施例中,系统500可以将与映射到序列的调用字相关联的数据存储在电子设备510的存储装置525中或者可以通过客户端550-1将数据发送到智能服务器550。智能服务器550可以将数据存储在存储器570中。
图9是示出根据各种实施例的系统执行所生成的个性化命令的示例操作的顺序图。
参考图9,当接收到包括调用字的用户输入时,系统500可以执行映射到调用字的个性化命令。例如,系统500可以执行由所存储的用户输入的序列产生的动作。
在各种实施例中,系统500可以提供语音识别服务。例如,系统500可以接收用户的包括调用字的话语。系统500可以响应于用户话语而搜索预存储的序列。系统500可以将序列改变为包括能够由电子设备510执行的状态的规则,并且可以将该规则发送到系统500。
在实施例中,在操作901中,系统500可以通过客户端550-1接收与用户的话语相对应的规则(例如,图5的规则)并且将它提供给执行管理器153。在操作903中,执行管理器(例如,图2的执行管理器模块153)可以将包括在规则中的状态发送到记录模块517。例如,当在规则中包括多个状态时,在操作903中,执行管理器模块153可以将多个状态顺序地发送到记录模块517。
在实施例中,在操作905中,记录模块517可以将所接收到的状态发送到任务执行模块513。在各种实施例中,系统500可以存储多个应用并且可以包括与所述多个应用中的每一个相对应的任务执行模块513。例如,记录模块517可以确定哪一个应用执行状态,并且可以将该状态发送到与应用相对应的任务执行模块513。
在操作907中,状态接收器541可以出于执行所接收到的状态的目的而请求画面检测器543感测画面。在操作909中,画面检测器543可以检测画面并且可以确定状态是否是可执行的。在操作911中,画面检测器543可以将所检测到的结果发送到状态接收器541。当状态是可执行的时,在操作913中,状态接收器541可以向输入注入器545发送与状态相对应的动作。
在操作915中,输入注入器545可以使用可访问性服务模块515的功能来执行所请求的动作。在操作917中,可以将通过可访问性服务模块515所执行的动作应用于目标应用522;因此,在操作919中,可以更新目标应用522的画面。当感测到画面的更新时,在操作921中,可访问性服务模块515可以确定事件发生。在操作923中,结果监视器547可以接收事件并且可以确定状态是否被正常地执行。在操作925中,结果监视器547可以向执行管理器模块153发送状态是成功还是失败。可以重复操作903至操作925,直到包括在从智能服务器550接收到的规则中的所有状态都被执行为止。当包括在规则中的所有状态都被执行时,在操作927中执行管理器模块153可以将结果发送到智能服务器550的客户端550-1。智能服务器550可以验证所对应的规则的执行正常地完成。
图10是示出根据实施例的执行个性化命令的示例方法的流程图。
参考图10,根据实施例,执行个性化命令的方法可以包括操作1010、操作1020、操作1030、操作1040和操作1050。操作1010、操作1020、操作1030、操作1040和操作1050可以由例如图5中示出的电子设备510执行。操作1010、操作1020、操作1030、操作1040和操作1050可以分别用例如能够由电子设备510的处理器512执行(或者实行)的指令来实现。指令可以被存储在例如电子设备510的计算机可读记录介质或存储器520中。在下文中,在关于操作1010、操作1020、操作1030、操作1040和操作1050的描述中,可能不在这里重复与参考图5所给出的描述相同或类似的描述。
在各种实施例中,电子设备510可以提供语音识别服务。电子设备510可以将个性化命令存储在存储装置525中;当接收到个性化命令时,电子设备510可以执行个性化任务。电子设备510可以直接地存储个性化命令而不用将个性化命令存储在提供语音识别服务的服务器(例如,服务器550)中,从而快速地提供个性化任务。
在操作1010中,电子设备510可以通过麦克风533接收用户话语。用户话语可以被称为与预存储的个性化任务相对应的“命令”。例如,用户话语可以包括调用字。
例如,电子设备510可以将用户的话语发送到智能服务器550。智能服务器550可以使用ASR模块568来将话语转换为文本。在各种实施例中,电子设备510还可以包括ASR模块。在这种情况下,电子设备510可以使用ASR模块来将用户的话语直接地转换为文本。
在操作1020中,电子设备510可以确定在被映射到用户的话语之后存储的序列是否已被存储。电子设备510的存储装置525可以存储与个性化任务相对应的序列。电子设备510可以使用从话语转换的文本来搜索存储装置525。电子设备510可以在存储装置525中搜索映射到用户的话语的序列。
当映射到用户话语的序列已被存储时,在操作1030中,电子设备510可以执行由序列产生的动作。例如,电子设备510的任务执行模块513可以执行与序列和状态相对应的规则。在各种实施例中,序列可以通过执行该序列的具体应用来执行。当与个性化任务相对应的序列被存储时,用户可以通过说出在被映射到个性化任务之后存储的命令来调用个性化任务。特别地,个性化任务可以与具体应用相关联。
当映射到用户话语的序列未被存储时,在操作1040中,电子设备510可以将用户话语发送到智能服务器550。在这种情况下,用户话语可以被称为提前存储在智能服务器550中的“命令”。当与所接收到的用户话语相对应的序列未被存储在存储装置525中时,电子设备510可以确定用户话语不是个性化命令而是由智能服务器550所提供的命令。
在操作1050中,电子设备510可以从智能服务器550接收与预存储的命令相对应的状态并且可以执行由这些状态产生的动作。例如,电子设备510的任务执行模块513可以从智能服务器550接收状态并且可以执行这些状态。当状态与具体应用相关联时,任务执行模块513可以执行所对应的应用并且可以在该应用上执行状态。
在各种实施例中,个性化任务可以被存储在智能服务器550的存储器570中。例如,通过智能服务器550的语音识别服务所提供的预定任务和个性化任务都可以被存储在智能服务器550中。在这种情况下,电子设备510可以将用户话语发送到智能服务器550并且可以从智能服务器550接收映射到包括在用户话语中的调用字的序列。
图11是示出根据各种实施例的用于在示例场景中生成个性化任务的示例方法的图。图12是示出根据各种实施例的在生成个性化任务时显示的示例界面的图。
参考图11,例如,描述了用于为地图应用生成个性化任务的一个示例场景。作为示例描述了用于生成由地图应用执行的路线搜索动作作为个性化任务的一个场景。例如,用户可以生成从具体起点到具体目的地的路线搜索动作作为个性化任务。
系统500可以执行用于生成个性化任务的模式(在下文中称为“学习模式”)。系统500可以接收用于开始学习模式的预定用户输入并且可以响应于接收而执行学习模式。
例如,当接收对在显示器531上显示的按钮(例如,记录开始按钮)的触摸输入时,系统500可以响应于接收而执行学习模式。当通过麦克风533接收到预定话语时,系统500可以响应于接收而执行学习模式。例如,可以以“快速命令生成”、“开始学习模式”等各种形式设置预定话语。
当学习模式被执行时,系统500可以使用键盘或鼠标来接收诸如文本输入、触摸输入、拖曳输入和点击输入的各种用户输入。各种用户输入可以被称为要通过个性化命令执行的“动作”。当接收各种用户输入时,系统500可以使用与在其上接收到用户输入的画面相关联的信息来存储与用户输入相对应的动作。
例如,系统500可以通过可访问性服务模块515来存储包括在个性化命令中的动作。例如,可访问性服务模块515可以识别用户输入的类型。可访问性服务模块515可以获得与画面相关联的信息,包括画面ID(例如,资源id)、在画面上显示的文本信息、在画面上显示的对象的坐标信息等。
在一个场景中,可以执行学习模式,并且系统500可以接收用于地图应用的执行动作(动作0)(例如,输入到地图应用的点击)。系统500可以执行地图应用。当地图应用被执行时,可以显示画面1 1101。
画面1 1101、画面2 1103、画面3 1105和画面4 1107可以被称为根据地图应用的执行而显示的画面。系统500(例如,可访问性服务模块515)可以获得包括在画面1 1101、画面2 1103、画面3 1105和画面4 1107中的对象信息。例如,电子设备510可以识别画面11101的菜单按钮1111并且可以识别能够在菜单按钮1111上执行的“点击动作”。
在画面1 1101中,系统500可以接收用于菜单按钮1111的点击动作(动作1)。可以通过该点击动作来将画面1 1101更新为画面2 1103。在画面2 1103中,系统500可以接收对方向按钮1113的点击动作(动作2)。可以通过该点击动作来将画面2 1103更新为画面31105。在画面3 1105中,系统500可以在文本输入窗口1115中接收文本(‘GWANGGYO新城’)的输入动作(动作3)并且可以接收对车辆方向按钮1117的点击动作(动作4)。可以通过该点击动作来将画面3 1105更新为画面4 1107。系统500可以将动作0至动作4的序列存储在存储器525中或者可以将动作0至动作4的序列发送到智能服务器550。该序列可以被称为个性化任务。
例如,当个性化任务的输入完成时,系统500可以将输入序列存储在存储器520中。当接收到用于做出对终止学习模式的请求的用户输入时,系统500可以响应于用户输入的接收而终止学习模式并且可以存储该序列。例如,当接收到对在显示器531上显示的按钮(例如,记录结束按钮)的触摸输入时,系统500可以响应于接收而终止学习模式。当通过麦克风533接收到预定话语时,系统500可以响应于接收而执行学习模式。例如,可以以“快速命令完成”、“终止学习模式”等各种形式设置预定话语。
在各种实施例中,系统500可以获得与序列相对应的话语并且可以将该话语存储在存储装置525中,使得话语和序列彼此映射。话语可以被称为允许序列被执行的调用字。可替代地,系统500可以将序列和与话语相关联的数据发送到智能服务器550。话语可以被称为个性化命令。
在各种实施例中,系统500可以通过显示器531来显示所接收到的动作。参考图12的画面1201,系统500可以通过显示器531来显示接收到的动作0至动作4。系统500可以显示所接收到的动作并且可以提供用于编辑动作的功能。参考画面11201,动作1221可以被显示为与动作1221相对应的功能名称。例如,在画面11201上显示的动作1221可以被称为对象名称和功能名称,其由Android框架提供。
在各种实施例中,系统500可以在画面上显示所接收到的动作,使得用户理解所接收到的动作。参考画面3 1205,可以显示动作1225以便被用户容易地理解。
例如,可以将‘点击-资源id:菜单’显示为‘点击-菜单按钮’。可以将‘点击-资源id:查找根’显示为‘点击-方向’。可以将‘设置文本-资源id:前往位置/“GWANGGYO新城”’显示为‘输入文本-“GWANGGYO新城”’。
在各种实施例中,系统500可以为所接收到的动作提供推荐词。例如,推荐词可以被称为上述调用字。系统500可以参考预存储的序列为所接收到的序列提供推荐词并且调用与预存储的序列相匹配的词。例如,参考画面1201和画面1205,用于所接收到的动作的推荐词被提供为‘我们的家’1211。用户可以选择“我们的家”作为调用字。“我们的家”可以在被映射到动作0至动作4之后被存储。此后,当用户说“我们的家”时,与“我们的家”1215相对应的动作0至动作4可以由电子设备510执行。
在各种实施例中,系统500可以显示与所接收到的动作相结合地获得的对象信息。参考画面1203,关于‘菜单按钮点击’动作1213,显示资源id、坐标信息和目标应用1223。
在各种实施例中,当系统500接收到序列时,系统500可以执行通过所接收到的序列所引起的动作并且可以通过显示器531来输出动作的执行结果。系统500可以做出对用于验证执行结果的输入的请求。用户可以参考所显示的执行结果确定所打算的任务是否被输入。当系统500接收到验证输入时,系统500可以将序列存储在存储器525中或者可以将序列发送到服务器550。
在各种实施例中,系统500可以分析所获得的序列的模式并且可以以模板的形式存储被同样重复的动作。例如,可以根据图11的一个场景对地图应用上的各种起点和各种目的地执行路线搜索动作。参考图11,路线搜索操作通常可以包括对地图应用的执行(动作0)、对放置在画面1101的右上端处的按钮1111的点击(动作1)、对画面1103的方向按钮1113的点击(动作2)以及用于在画面1105上输入起点和目的地的动作(动作4)。在这种情况下,因为仅起点和目的地与画面1105上的其他动作不同,所以系统500可以将动作0、动作1和动作2存储为模板。可以在地图应用中注册模板。
在各种实施例中,系统500可以通过电子设备510来给用户提供预存储的模板。预存储的模板可以被注册在具体应用中并且可以在被映射到用于用户命令的类别之后被存储。系统500可以允许用户通过播放包括在模板中的画面、用户输入和根据用户输入而改变的画面来直接地验证模板。可替代地,系统500可以为包括在模板中的画面播放快照。
在各种实施例中,用户可以通过选择所提供的模板来生成与模板相对应的个性化命令。可替代地,用户可以选择所提供的模板并且可以生成通过修改模板的一部分而获得的个性化命令。
在各种实施例中,在存在与在学习模式下输入的用户输入相对应的至少一个或更多个模板的情况下,当学习模式被执行时,系统500可以在显示器531上显示包括在模板中的动作或者可以在显示器531上显示至少一个或更多个模板的列表。
在各种实施例中,系统500可以优化使用预存储的模板重新生成的个性化任务。例如,被包括在重新生成的个性化任务中的第一动作和第二动作可以被包括在预存储的模板中。系统500可以通过基于预存储的模板跳过在第一动作与第二动作之间执行的至少一个或更多个动作来优化个性化任务。系统500可以推荐经优化的个性化任务并且用户可以选择所推荐的任务。
在各种实施例中,在系统500中,在具体应用中注册的模板可以包括关于应用的版本信息。系统500可以将包括在模板中的版本信息与当前安装的应用的版本信息相比较并且可以确定模板是否是可用的。当所存储的模板的版本与当前安装的应用的版本不相同时,系统500可以下载新版本的模板并且可以允许改变安装在电子设备510中的应用的版本。
图13是示出根据各种实施例的网络环境1300中的电子设备1301的框图。根据各种实施例的电子设备可以是各种类型的电子设备之一。电子设备可以包括例如便携式通信设备(例如,智能手机)、计算机设备(例如,个人数字助理(PDA)、平板电脑、笔记本电脑(台式电脑、工作站或服务器))、便携式多媒体设备(例如,电子书阅读器或MP3播放器)、便携式医疗设备(例如,心率计、血糖仪、血液压力计或温度计)、相机或可穿戴设备。
参考图13,网络环境1300中的电子设备1301(例如,图2的用户终端200、图5的电子设备510)可以经由第一网络1398(例如,短距离无线通信网络)与电子设备1302进行通信,或者经由第二网络1399(例如,长距离无线通信网络)与电子设备1304或服务器1308进行通信。根据实施例,电子设备1301可以经由服务器1308与电子设备1304进行通信。
根据实施例,电子设备1301可以包括处理器1320(例如,图5的处理器512)、存储器1330、输入设备1350(例如,麦克风或鼠标)、声音输出设备1355、显示设备1360、音频模块1370、传感器模块1376、接口1377、触觉模块1379、相机模块1380、电力管理模块1388、电池1389、通信模块1390、用户识别模块(SIM)1396或天线模块1397。在一些实施例中,可以从电子设备1301中省略所述组件中的至少一个(例如,显示设备1360或相机模块1380),或者可以将一个或更多个其它组件添加到电子设备1301中。
上述组件中的至少一些可以经由外设间通信方案(例如,总线、通用输入输出(GPIO)、串行外设接口(SPI)或移动工业处理器接口(MIPI))相互连接并在它们之间通信地传送信号(例如,命令或数据)。
处理器1320可以运行例如软件(例如,程序1340)来控制电子设备1301的与处理器1320连接的至少一个其它组件(例如,硬件组件或软件组件),并可以执行各种数据处理或计算。根据一个实施例,作为所述数据处理或计算的至少部分,处理器1320可以将从另一组件(例如,传感器模块1376或通信模块1390)接收到的命令或数据加载到易失性存储器1332中、对存储在易失性存储器1332中的命令或数据进行处理并将结果数据存储在非易失性存储器1334中。根据实施例,处理器1320可以包括主处理器1321(例如,中央处理器(CPU)或应用处理器(AP))以及与主处理器1321在操作上独立的或者相结合的辅助处理器1323(例如,图形处理单元(GPU)、图像信号处理器(ISP)、传感器中枢处理器或通信处理器(CP))。另外地或者可选择地,辅助处理器1323可以被适配为比主处理器1321耗电更少,或者被适配为具体用于指定的功能。可以将辅助处理器1323实现为与主处理器1321分离,或者实现为主处理器1321的部分。
在主处理器1321处于未激活(例如,睡眠)状态时,辅助处理器1323可以控制与电子设备1301(而非主处理器1321)的组件之中的至少一个组件(例如,显示设备1360、传感器模块1376或通信模块1390)相关的功能或状态中的至少一些,或者在主处理器1321处于激活状态(例如,运行应用)时,辅助处理器1323可以与主处理器1321一起来控制与电子设备1301的组件之中的至少一个组件(例如,显示设备1360、传感器模块1376或通信模块1390)相关的功能或状态中的至少一些。根据实施例,可以将辅助处理器1323(例如,图像信号处理器或通信处理器)实现为在功能上与辅助处理器1323相关的另一组件(例如,相机模块1380或通信模块1390)的部分。
存储器1330可以存储由电子设备1301的至少一个组件(例如,处理器1320或传感器模块1376)使用的各种数据。所述各种数据可以包括例如软件(例如,程序1340)以及针对与其相关的命令的输入数据或输出数据。存储器1330可以包括易失性存储器1332或非易失性存储器1334。
可以将程序1340作为软件存储在存储器1330中,并且程序1340可以包括例如操作系统(OS)1342、中间件1344或应用1346。
输入设备1350可以从电子设备1301的外部(例如,用户)接收将由电子设备1301的其它组件(例如,处理器1320)使用的命令或数据。输入设备1350可以包括例如麦克风、鼠标或键盘。
声音输出设备1355可以将声音信号输出到电子设备1301的外部。声音输出设备1355可以包括例如扬声器或接收器。扬声器可以用于诸如播放多媒体或播放唱片的通用目的,接收器可以用于呼入呼叫。根据实施例,可以将接收器实现为与扬声器分离,或实现为扬声器的部分。
显示设备1360可以向电子设备1301的外部(例如,用户)视觉地提供信息。显示设备1360可以包括例如显示器、全息设备或投影仪以及用于控制显示器、全息设备和投影仪中的相应一个的控制电路。根据实施例,显示设备1360可以包括被适配为检测触摸的触摸电路或被适配为测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块1370可以将声音转换为电信号,反之亦可。根据实施例,音频模块1370可以经由输入设备1350获得声音,或者经由声音输出设备1355或与电子设备1301直接(例如,有线地)连接或无线连接的外部电子设备(例如,电子设备1302)的耳机输出声音。
传感器模块1376可以检测电子设备1301的操作状态(例如,功率或温度)或电子设备1301外部的环境状态(例如,用户的状态),然后产生与检测到的状态相应的电信号或数据值。根据实施例,传感器模块1376可以包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。
接口1377可以支持将用来使电子设备1301与外部电子设备(例如,电子设备1302)直接(例如,有线地)或无线连接的一个或更多个特定协议。根据实施例,接口1377可以包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端子1378可以包括连接器,其中,电子设备1301可以经由所述连接器与外部电子设备(例如,电子设备1302)物理连接。根据实施例,连接端子1378可以包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块1379可以将电信号转换为可被用户经由他的触觉或动觉识别的机械刺激(例如,振动或运动)或电刺激。根据实施例,触觉模块1379可以包括例如电机、压电元件或电刺激器。
相机模块1380可以捕获静止图像或运动图像。根据实施例,相机模块1380可以包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。
电力管理模块1388可以管理对电子设备1301的供电。根据实施例,可以将电力管理模块1388实现为例如电力管理集成电路(PMIC)的至少部分。
电池1389可以对电子设备1301的至少一个组件供电。根据实施例,电池1389可以包括例如不可再充电的原电池、可再充电的蓄电池或燃料电池。
通信模块1390可以支持在电子设备1301与外部电子设备(例如,电子设备1302、电子设备1304或服务器1308)之间建立直接(例如,有线)通信信道或无线通信信道,并经由建立的通信信道执行通信。通信模块1390可以包括能够与处理器1320(例如,应用处理器(AP))独立操作的一个或更多个通信处理器,并支持直接(例如,有线)通信或无线通信。根据实施例,通信模块1390可以包括无线通信模块1392(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块1394(例如,局域网(LAN)通信模块、旧式电话服务(POTS)或电力线通信(PLC)模块)。这些通信模块中的相应一个可以经由第一网络1398(例如,短距离通信网络,诸如蓝牙、无线保真(Wi-Fi)直连或红外数据协会(IrDA))或第二网络1399(例如,长距离通信网络,诸如蜂窝网络、互联网或计算机网络(例如,LAN或广域网(WAN)))与外部电子设备进行通信。可以将这些各种类型的通信模块实现为单个组件(例如,单个芯片),或可以将这些各种类型的通信模块实现为彼此分离的多个组件(例如,多个芯片)。无线通信模块1392可以使用存储在用户识别模块1396中的用户信息(例如,国际移动用户识别码(IMSI))识别并验证通信网络(诸如第一网络1398或第二网络1399)中的电子设备1301。
天线模块1397可以将信号或电力发送到电子设备1301的外部(例如,外部电子设备)或者从电子设备1301的外部(例如,外部电子设备)接收信号或电力。根据实施例,天线模块1397可以包括一个或更多个天线,并且由此例如可以通过通信模块1390(例如,无线通信模块1392)选择适合于在通信网络(诸如第一网络1398或第二网络1399)中使用的通信方案的至少一个天线。随后可以经由所选择的至少一个天线在通信模块1390与外部电子设备之间发送或接收信号或电力。
根据实施例,可以经由与第二网络1399连接的服务器1308在电子设备1301与外部电子设备1304之间发送或接收命令或数据。电子设备1302和电子设备1304中的每一个可以是与电子设备1301相同类型的设备,或者是与电子设备1301不同类型的设备。根据实施例,将在电子设备1301运行的全部操作或一些操作可以在外部电子设备1302、外部电子设备1304或1308中的一个或更多个运行。例如,如果电子设备1301应该自动执行功能或服务或者应该响应于来自用户或另一设备的请求执行功能或服务,则电子设备1301可以请求所述一个或更多个外部电子设备执行所述功能或服务中的至少部分,而不是运行所述功能或服务,或者电子设备1301除了运行所述功能或服务以外,还可以请求所述一个或更多个外部电子设备执行所述功能或服务中的至少部分。接收到所述请求的所述一个或更多个外部电子设备可以执行所述功能或服务中的所请求的所述至少部分,或者执行与所述请求相关的另外功能或另外服务,并将执行的结果传送到电子设备1301。电子设备1301可以在对所述结果进行进一步处理的情况下或者在不对所述结果进行进一步处理的情况下将所述结果提供作为对所述请求的至少部分答复。为此,可以使用例如云计算技术、分布式计算技术或客户端-服务器计算技术。
应该理解的是,本公开的各种实施例以及其中使用的术语并不意图将在此阐述的技术特征限制于具体实施例,而是包括针对相应实施例的各种改变、等同形式或替换形式。对于附图的描述,相似的参考标号可用来指代相似或相关的元件。将理解的是,与项相应的单数形式的名词可以包括一个或更多个事物,除非相关上下文另有明确指示。如这里所使用的,诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的短语中的每一个短语可以包括在与所述多个短语中的相应一个短语中一起列举出的项的所有可能组合。如这里所使用的,诸如“第1”和“第2”或者“第一”和“第二”的术语可以用于将相应组件与另一组件进行简单区分,并且不在其它方面(例如,重要性或顺序)限制所述组件。将理解的是,在使用了术语“可操作地”或“通信地”的情况下或者在不使用术语“可操作地”或“通信地”的情况下,如果一元件(例如,第一元件)被称为“与另一元件(例如,第二元件)结合”、“结合到另一元件(例如,第二元件)”、“与另一元件(例如,第二元件)连接”或“连接到另一元件(例如,第二元件)”,则意味着所述一元件可以与所述另一元件直接(例如,有线地)连接、与所述另一元件无线连接、或经由第三元件与所述另一元件连接。
如这里所使用的,术语“模块”可以包括以硬件、软件或固件实现的单元,并可以与其他术语(例如,“逻辑”、“逻辑块”、“部分”或“电路”)可互换地使用。模块可以是被适配为执行一个或更多个功能的单个集成部件或者是该单个集成部件的最小单元或部分。例如,根据实施例,可以以专用集成电路(ASIC)的形式来实现模块。
可以将在此阐述的各种实施例实现为包括存储在存储介质(例如,内部存储器1336或外部存储器1338)中的可由机器(例如,电子设备1301)读取的一个或更多个指令的软件(例如,程序1340)。例如,在处理器的控制下,所述机器(例如,电子设备1301)的处理器(例如,处理器1320)可以在使用或无需使用一个或更多个其它组件的情况下调用存储在存储介质中的所述一个或更多个指令中的至少一个指令并运行所述至少一个指令。这使得所述机器能够操作用于根据所调用的至少一个指令执行至少一个功能。所述一个或更多个指令可以包括由编译器产生的代码或能够由解释器运行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。其中,术语“非暂时性”仅意味着所述存储介质是有形设备,并且不包括信号(例如,电磁波),但是该术语并不在数据被半永久性地存储在存储介质中与数据被临时存储在存储介质中之间进行区分。
根据实施例,可以在计算机程序产品中包括和提供根据本公开的各种实施例的方法。计算机程序产品可以作为产品在销售者和购买者之间进行交易。可以以机器可读存储介质(例如,紧凑盘只读存储器(CD-ROM))的形式来发布计算机程序产品,或者可以经由应用商店(例如,Play StoreTM)在线发布(例如,下载或上传)计算机程序产品,或者可以直接在两个用户设备(例如,智能手机)之间分发(例如,下载或上传)计算机程序产品。如果是在线发布的,则计算机程序产品中的至少部分可以是临时产生的,或者可以将计算机程序产品中的至少部分至少临时存储在机器可读存储介质(诸如制造商的服务器、应用商店的服务器或转发服务器的存储器)中。
根据各种实施例,上述组件中的每个组件(例如,模块或程序)可以包括单个实体或多个实体。根据各种实施例,可以省略上述组件中的一个或更多个组件,或者可以添加一个或更多个其它组件。可选择地或者另外地,可以将多个组件(例如,模块或程序)集成为单个组件。在这种情况下,根据各种实施例,该集成组件可以仍旧按照与所述多个组件中的相应一个组件在集成之前执行一个或更多个功能相同或相似的方式,执行所述多个组件中的每一个组件的所述一个或更多个功能。根据各种实施例,由模块、程序或另一组件所执行的操作可顺序地、并行地、重复地或以启发式方式来执行,或者所述操作中的一个或更多个操作可以按照不同的顺序来运行或被省略,或者可以添加一个或更多个其它操作。
虽然已经参考本公开的各种实施例说明和描述了本公开,但是本领域技术人员将理解,在不脱离例如由所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以在形式和细节上进行各种改变。

Claims (18)

1.一种用于提供与个性化任务相关联的声音命令服务的系统,所述系统包括:
第一电子设备,所述第一电子设备包括触摸屏显示器、通信电路、麦克风和扬声器;
至少一个处理器,所述至少一个处理器是所述第一电子设备的一部分并且/或者被配置为与所述第一电子设备远程地通信;以及
至少一个存储器,所述至少一个存储器被设置在所述第一电子设备内部和/或在所述第一电子设备外部,并且可操作地连接到所述至少一个处理器,
其中,所述至少一个存储器被配置为存储指令,所述指令当由所述至少一个处理器执行时,控制所述第一电子设备进行如下操作:
通过所述触摸屏显示器来接收执行用于生成个性化命令的学习模式的第一用户输入;
识别通过所述触摸屏显示器输出的第一画面中包括的至少一个对象;
a)接收第二用户输入,所述第二用户输入是用户的与所述至少一个对象中的至少一个相关联的动作,其中,所述第二用户输入包括对所述至少一个对象的选择输入或者对所述至少一个对象的文本输入中的至少一者;
b)根据所述动作来更新第二画面,并且识别所述第二画面的状态;
c)在所述至少一个存储器中存储所述第一画面的信息、关于所述第一画面的动作的信息、以及所述第二画面的状态;
重复执行a)、b)和c)以存储输入序列;
在存储了所述输入序列之后,通过所述触摸屏显示器或所述麦克风来接收包括与所述输入序列相关联的至少一个调用字的第三用户输入;以及
将所述至少一个调用字存储在所述至少一个存储器中,使得所述输入序列和所述至少一个调用字彼此映射。
2.根据权利要求1所述的系统,其中,所述至少一个存储器被配置为存储指令,所述指令当由所述至少一个处理器执行时,控制所述第一电子设备进行如下操作:
通过所述触摸屏显示器或所述麦克风来接收所述至少一个调用字;以及
响应于所述至少一个调用字,执行由所述输入序列产生的动作序列。
3.根据权利要求2所述的系统,其中,所述第一电子设备包括所述至少一个处理器中的第一处理器,并且
其中,所述系统还包括服务器,所述服务器包括至少一个处理器中的第二处理器。
4.根据权利要求3所述的系统,其中,所述至少一个存储器存储指令,所述指令当由所述第一处理器执行时,使所述第一处理器控制所述第一电子设备进行如下操作:
将所述输入序列和与所述第三用户输入相关联的数据发送到所述服务器。
5.根据权利要求4所述的系统,其中,所述至少一个存储器被配置为存储指令,所述指令当由所述第一处理器执行时,控制所述第一电子设备进行如下操作:
向所述服务器发送与所述至少一个调用字相关联的数据;以及
从所述服务器接收所述第一电子设备的状态序列以执行所述动作序列;并且
其中,所述状态序列使所述第一电子设备执行所述动作序列。
6.根据权利要求4所述的系统,其中,所述至少一个存储器存储指令,所述指令当由所述第二处理器执行时,控制所述服务器进行如下操作:
基于从所述第一电子设备接收到的所述输入序列向所述第一电子设备发送多个调用字;
从所述第一电子设备接收与从所述多个调用字当中选择的调用字相关联的数据;以及
将所选择的调用字存储在所述至少一个存储器中以便被映射到所述输入序列。
7.根据权利要求1所述的系统,其中,所述输入序列与安装在所述第一电子设备中的应用程序相关联。
8.根据权利要求7所述的系统,其中,所述至少一个存储器存储指令,所述指令当由所述至少一个处理器执行时,控制所述第一电子设备进行如下操作:
通过所述触摸屏显示器来显示基于所述应用程序的执行而输出的所述第一画面。
9.根据权利要求1所述的系统,其中,所述至少一个存储器存储指令,所述指令当由所述至少一个处理器执行时,控制所述第一电子设备进行如下操作:
基于所述输入序列在所述触摸屏显示器上显示多个调用字;以及
将从所显示的多个调用字当中选择的调用字存储在所述存储器中以便被映射到所述输入序列。
10.根据权利要求1所述的系统,其中,所述至少一个存储器被存储指令,所述指令当由所述至少一个处理器执行时,控制所述第一电子设备进行如下操作:
接收与包括在通过所述触摸屏显示器输出的所述第一画面中的第一对象相关联的第一动作;以及
将关于所述第一画面的信息、关于所述第一对象的信息、关于所述第一动作的信息和关于通过所述第一动作更新后的所述第二画面的信息的序列存储在所述存储器中。
11.根据权利要求1所述的系统,其中,所述至少一个存储器存储指令,所述指令当由所述至少一个处理器执行时,控制所述第一电子设备进行如下操作:
使用存储在所述存储器中的Android框架来识别所述至少一个对象和与所述至少一个对象中的一个相关联的动作。
12.一种由系统执行的方法,所述方法包括:
通过电子设备的触摸屏显示器来接收执行用于生成个性化命令的学习模式的第一用户输入;
识别通过所述触摸屏显示器输出的第一画面中包括的至少一个对象;
a)接收第二用户输入,所述第二用户输入是用户的与所述至少一个对象中的至少一个相关联的动作,其中,所述第二用户输入包括对所述至少一个对象的选择输入或者对所述至少一个对象的文本输入中的至少一者;
b)根据所述动作来更新第二画面,并且识别所述第二画面的状态;
c)在存储器中存储所述第一画面的信息、关于所述第一画面的动作的信息、以及所述第二画面的状态;
重复执行a)、b)和c)以存储输入序列;
在存储了所述输入序列之后,通过所述电子设备的麦克风来接收包括与所述输入序列相关联的至少一个调用字的第三用户输入;以及
存储所述至少一个调用字,使得所述输入序列和所述至少一个调用字彼此映射。
13.根据权利要求12所述的方法,所述方法还包括:
响应于所述至少一个调用字,执行由所述输入序列产生的动作序列。
14.一种电子设备,所述电子设备包括:
触摸屏显示器;
麦克风;
存储装置;
至少一个处理器,所述至少一个处理器与所述触摸屏显示器、所述麦克风和所述存储装置电连接;以及
至少一个存储器,所述至少一个存储器与所述至少一个处理器电连接,并且被配置为存储指令,所述指令当由所述至少一个处理器执行时,控制所述电子设备进行如下操作:
通过所述触摸屏显示器来接收执行用于生成个性化命令的学习模式的第一用户输入;
识别通过所述触摸屏显示器输出的第一画面中包括的至少一个对象;
a)接收第二用户输入,所述第二用户输入是用户的与所述至少一个对象中的至少一个相关联的动作,其中,所述第二用户输入包括对所述至少一个对象的选择输入或者对所述至少一个对象的文本输入中的至少一者;
b)根据所述动作来更新第二画面,并且识别所述第二画面的状态;
c)在所述存储装置中存储所述第一画面的信息、关于所述第一画面的动作的信息、以及所述第二画面的状态;
重复执行a)、b)和c)以存储输入序列;
在存储了所述输入序列之后,通过所述麦克风来接收与所述输入序列相关联的用户话语;以及
将所述用户话语存储在所述存储装置中,以便被映射到所述输入序列中。
15.根据权利要求14所述的电子设备,其中,所述指令当由所述至少一个处理器执行时,控制所述电子设备进行如下操作:
当通过所述麦克风来接收到存储的用户话语时,执行由存储的输入序列产生的动作序列。
16.根据权利要求14所述的电子设备,其中,所述输入序列包括通过所述麦克风接收到的至少一个基于语音的用户输入。
17.根据权利要求16所述的电子设备,其中,所述指令当由所述至少一个处理器执行时,使得所述电子设备进行如下操作:
接收与包括在通过所述触摸屏显示器输出的第一画面中的第一对象相关联的第一动作;以及
将关于所述第一画面的信息、关于所述第一对象的信息、关于所述第一动作的信息和关于通过所述第一动作更新后的所述第二画面的信息的序列存储在所述存储装置中。
18.根据权利要求14所述的电子设备,其中,所述指令当由所述至少一个处理器执行时,控制所述电子设备进行如下操作:
执行由接收到的输入序列产生的动作;
通过所述触摸屏显示器输出所述动作的执行结果;以及
当接收到用于验证所述执行结果的输入时,将所述序列存储在所述存储装置中。
CN201910233220.1A 2018-03-27 2019-03-26 提供与个性化任务相关联的声音命令服务的系统和方法 Active CN110308886B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180035387A KR102685523B1 (ko) 2018-03-27 사용자 음성 입력을 처리하는 장치
KR10-2018-0035387 2018-03-27

Publications (2)

Publication Number Publication Date
CN110308886A CN110308886A (zh) 2019-10-08
CN110308886B true CN110308886B (zh) 2024-03-01

Family

ID=65991673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910233220.1A Active CN110308886B (zh) 2018-03-27 2019-03-26 提供与个性化任务相关联的声音命令服务的系统和方法

Country Status (6)

Country Link
US (1) US11151995B2 (zh)
EP (1) EP3547310A1 (zh)
JP (1) JP2019175453A (zh)
CN (1) CN110308886B (zh)
AU (1) AU2019201441B2 (zh)
WO (1) WO2019190062A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7159355B2 (ja) * 2018-08-23 2022-10-24 グーグル エルエルシー マルチアシスタント環境の特性によるアシスタント応答性の規制
US11721339B2 (en) * 2020-09-27 2023-08-08 Stryker Corporation Message filtering based on dynamic voice-activated rules
US20220337691A1 (en) * 2021-04-15 2022-10-20 Apple Inc. Techniques for establishing communications with third-party accessories
US20220404956A1 (en) * 2021-06-17 2022-12-22 Samsung Electronics Co., Ltd. Method and electronic device for navigating application screen
US20230273943A1 (en) * 2022-02-28 2023-08-31 International Business Machines Corporation Synchronizing a sensor network and an ontology

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222166A (ja) * 1999-01-29 2000-08-11 Idexon Giken Co Ltd 音声入力方式を用いた汎用データ入力システム
JP2003006496A (ja) * 2001-06-18 2003-01-10 Gonshichi Shoten:Kk 試聴システム及び販売方法
CN1416112A (zh) * 2001-11-02 2003-05-07 松下电器产业株式会社 利用语音识别的选台装置及其控制方法
JP2003323190A (ja) * 2002-05-02 2003-11-14 Advanced Media Inc ホームページシステム
CN101030130A (zh) * 2006-03-02 2007-09-05 英华达(南京)科技有限公司 利用语音识别实现字元输入的手持式装置及方法
CN101046960A (zh) * 2006-03-27 2007-10-03 株式会社东芝 处理语音中的话音的装置和方法
CN102105929A (zh) * 2008-07-30 2011-06-22 三菱电机株式会社 声音识别装置
CN102867510A (zh) * 2011-07-07 2013-01-09 株式会社电装 语音识别系统
EP2209328B1 (en) * 2009-01-20 2013-10-23 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
WO2014178491A1 (ko) * 2013-04-30 2014-11-06 포항공과대학교 산학협력단 발화 인식 방법 및 장치
EP3010015A1 (en) * 2014-10-14 2016-04-20 Samsung Electronics Co., Ltd. Electronic device and method for spoken interaction thereof
CN105930073A (zh) * 2015-02-27 2016-09-07 三星电子株式会社 用于支持电子设备中的通信的方法和装置
CN106406804A (zh) * 2016-09-12 2017-02-15 北京百度网讯科技有限公司 一种基于语音的输入方法及装置
EP3160150A1 (en) * 2015-10-22 2017-04-26 Samsung Electronics Co., Ltd. Electronic device and method for executing function using speech recognition thereof
CN107066494A (zh) * 2016-01-06 2017-08-18 谷歌公司 语音查询的搜索结果预获取

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867163A (en) * 1995-12-01 1999-02-02 Silicon Graphics, Inc. Graphical user interface for defining and invoking user-customized tool shelf execution sequence
US6690392B1 (en) * 1999-07-15 2004-02-10 Gateway, Inc. Method system software and signal for automatic generation of macro commands
US20080091426A1 (en) * 2006-10-12 2008-04-17 Rod Rempel Adaptive context for automatic speech recognition systems
KR101382504B1 (ko) * 2007-05-21 2014-04-07 삼성전자주식회사 매크로 생성 장치 및 방법
US7962578B2 (en) * 2008-05-21 2011-06-14 The Delfin Project, Inc. Management system for a conversational system
KR101523979B1 (ko) * 2008-10-02 2015-05-29 삼성전자주식회사 휴대 단말기 및 그 휴대 단말기에서 기능 수행 방법
US8407057B2 (en) 2009-01-21 2013-03-26 Nuance Communications, Inc. Machine, system and method for user-guided teaching and modifying of voice commands and actions executed by a conversational learning system
US10281893B2 (en) * 2009-06-25 2019-05-07 Universal Electronics Inc. System and method for configuration of macro commands in a controlling device
US8484025B1 (en) * 2012-10-04 2013-07-09 Google Inc. Mapping an audio utterance to an action using a classifier
US10055681B2 (en) * 2013-10-31 2018-08-21 Verint Americas Inc. Mapping actions and objects to tasks
CN113140215A (zh) * 2015-01-16 2021-07-20 三星电子株式会社 用于执行话音识别的方法和设备
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US20170192942A1 (en) * 2016-01-06 2017-07-06 Google Inc. Hierarchical positioned event dispatch
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9736311B1 (en) 2016-04-29 2017-08-15 Rich Media Ventures, Llc Rich media interactive voice response
US11169660B2 (en) * 2016-12-14 2021-11-09 Microsoft Technology Licensing, Llc Personalized adaptive task framework for user life events
KR102347208B1 (ko) 2017-09-07 2022-01-05 삼성전자주식회사 외부 장치를 이용한 태스크 수행 방법 및 이를 지원하는 전자 장치, 서버 및 저장 매체
WO2019152511A1 (en) * 2018-01-30 2019-08-08 Aiqudo, Inc. Personalized digital assistant device and related methods

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222166A (ja) * 1999-01-29 2000-08-11 Idexon Giken Co Ltd 音声入力方式を用いた汎用データ入力システム
JP2003006496A (ja) * 2001-06-18 2003-01-10 Gonshichi Shoten:Kk 試聴システム及び販売方法
CN1416112A (zh) * 2001-11-02 2003-05-07 松下电器产业株式会社 利用语音识别的选台装置及其控制方法
JP2003323190A (ja) * 2002-05-02 2003-11-14 Advanced Media Inc ホームページシステム
CN101030130A (zh) * 2006-03-02 2007-09-05 英华达(南京)科技有限公司 利用语音识别实现字元输入的手持式装置及方法
CN101046960A (zh) * 2006-03-27 2007-10-03 株式会社东芝 处理语音中的话音的装置和方法
CN102105929A (zh) * 2008-07-30 2011-06-22 三菱电机株式会社 声音识别装置
EP2209328B1 (en) * 2009-01-20 2013-10-23 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
CN102867510A (zh) * 2011-07-07 2013-01-09 株式会社电装 语音识别系统
WO2014178491A1 (ko) * 2013-04-30 2014-11-06 포항공과대학교 산학협력단 발화 인식 방법 및 장치
EP3010015A1 (en) * 2014-10-14 2016-04-20 Samsung Electronics Co., Ltd. Electronic device and method for spoken interaction thereof
CN105930073A (zh) * 2015-02-27 2016-09-07 三星电子株式会社 用于支持电子设备中的通信的方法和装置
EP3160150A1 (en) * 2015-10-22 2017-04-26 Samsung Electronics Co., Ltd. Electronic device and method for executing function using speech recognition thereof
CN107066494A (zh) * 2016-01-06 2017-08-18 谷歌公司 语音查询的搜索结果预获取
CN106406804A (zh) * 2016-09-12 2017-02-15 北京百度网讯科技有限公司 一种基于语音的输入方法及装置

Also Published As

Publication number Publication date
AU2019201441B2 (en) 2023-10-12
KR20190113130A (ko) 2019-10-08
AU2019201441A1 (en) 2019-10-17
US20190304455A1 (en) 2019-10-03
US11151995B2 (en) 2021-10-19
EP3547310A1 (en) 2019-10-02
WO2019190062A1 (en) 2019-10-03
CN110308886A (zh) 2019-10-08
JP2019175453A (ja) 2019-10-10

Similar Documents

Publication Publication Date Title
US10777193B2 (en) System and device for selecting speech recognition model
CN110308886B (zh) 提供与个性化任务相关联的声音命令服务的系统和方法
CN110998720A (zh) 话音数据处理方法及支持该方法的电子设备
EP3608906B1 (en) System for processing user voice utterance and method for operating same
CN112970059B (zh) 用于处理用户话语的电子装置及其控制方法
US11474780B2 (en) Method of providing speech recognition service and electronic device for same
US11144175B2 (en) Rule based application execution using multi-modal inputs
CN112639962A (zh) 处理用户话语的电子设备及其控制方法
KR20190032026A (ko) 자연어 표현 제공 방법 및 이를 지원하는 전자 장치
US20210217406A1 (en) Voice recognition service operating method and electronic device supporting same
US20220172722A1 (en) Electronic device for processing user utterance and method for operating same
US20220020358A1 (en) Electronic device for processing user utterance and operation method therefor
KR20190122457A (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
CN110945455A (zh) 处理用户话语以用于控制外部电子装置的电子装置及其控制方法
US10976997B2 (en) Electronic device outputting hints in an offline state for providing service according to user context
CN111902863B (zh) 用于处理用户语音输入的装置
US20200051555A1 (en) Electronic apparatus for processing user utterance and controlling method thereof
KR20200057426A (ko) 음성 인식 기반 이미지를 표시하는 전자 장치
US20210110825A1 (en) Method of generating wakeup model and electronic device therefor
KR102685523B1 (ko) 사용자 음성 입력을 처리하는 장치
KR102685417B1 (ko) 사용자 입력을 처리하는 전자 장치 및 방법
US20230186031A1 (en) Electronic device for providing voice recognition service using user data and operating method thereof
KR20230045333A (ko) 전자 장치 및 전자 장치의 동작 방법
KR20200101103A (ko) 사용자 입력을 처리하는 전자 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant