CN109243432A - 话音处理方法以及支持该话音处理方法的电子设备 - Google Patents

话音处理方法以及支持该话音处理方法的电子设备 Download PDF

Info

Publication number
CN109243432A
CN109243432A CN201810746786.XA CN201810746786A CN109243432A CN 109243432 A CN109243432 A CN 109243432A CN 201810746786 A CN201810746786 A CN 201810746786A CN 109243432 A CN109243432 A CN 109243432A
Authority
CN
China
Prior art keywords
app
user
module
information
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810746786.XA
Other languages
English (en)
Other versions
CN109243432B (zh
Inventor
全胄奕
权禹业
朴进佑
禹景久
林恩泽
玄炅学
张东镐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN109243432A publication Critical patent/CN109243432A/zh
Application granted granted Critical
Publication of CN109243432B publication Critical patent/CN109243432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices

Abstract

提供了一种话音处理方法以及支持该话音处理方法的电子设备。所述电子设备包括设置在显示面板下面的反射器片和设置在所述反射器片下面的数字转换器。所述数字转换器可以包括:第一电路层,所述第一电路层包括沿第一方向布置的导电电路图案;第二电路层,所述第二电路层包括沿第二方向布置的导电电路图案;以及绝缘层,所述绝缘层使所述第一电路层和所述第二电路层电绝缘。所述数字转换器进一步包括至少一个虚设电路图案,所述至少一个虚设电路图案形成在所述第一电路层或所述第二电路层中的至少一个上。

Description

话音处理方法以及支持该话音处理方法的电子设备
优先权
本申请要求2017年7月10日提交的韩国专利申请No.10-2017-0087373的优先权,其内容通过引用并入本文。
技术领域
本公开涉及用于话音数据处理的技术,并且更具体地,涉及使用机器学习算法及其应用的人工智能(AI)系统中的话音数据处理。
背景技术
AI系统(或集成智能系统)指通过它自己来训练和判断并且随着它被使用而改进识别率的系统,作为实现人类智能的计算机系统。
AI技术可以包括使用通过本身来对输入数据的特性进行分类或训练的算法的机器学习(深度学习)技术以及使用机器学习算法来模拟人脑的功能(例如,识别、决策等)的元件技术。
例如,元件技术可以包括以下各项中的至少一种:例如用于识别人类的语言或字符的语言理解技术、用于识别像人类视觉这样的对象的视觉理解技术、用于确定信息以逻辑上推理和预测所确定的信息的推理/预测技术、用于将人体验信息处理为知识数据的知识表达技术以及用于控制车辆的自主驾驶和机器人的运动的操作控制技术。
以上提及的元件技术中的语言理解技术包括识别和应用/处理人类语言/字符的技术,并且可以包括自然语言处理、机器翻译、对话系统、问答、语音识别/合成等。
近来,可以以各种形式提供基于以上提及的AI技术的AI服务。例如,在接收到用户的输入之后,AI服务可以分析和理解所接收的用户输入并且可以确定适合于用户的请求的动作,从而执行所确定的动作。
以上信息仅作为背景信息被呈现来协助理解本公开。至于上述任何内容是否可以适用作为关于本公开的现有技术,尚未作出确定,并且未作出断言。
发明内容
可以通过安装在电子设备中的多个应用程序(在下文中称为“app”)来处理用户的请求。进一步地,可以通过由能够下载app的app商店提供的多个app以及安装在电子设备中的app来处理用户的请求。换句话说,因为存在多个能够处理用户的请求的app,所以需要确定用于处理用户的请求的具体app的方法。
本公开的各方面是为了至少解决以上提及的问题和/或缺点并且至少提供在下面描述的优点。因此,本公开的一方面是为了提供一种虽然未通过用户的话语显式地指定能够处理用户的请求的app,但也支持确定用于处理用户的请求的app的话音数据处理方法以及一种支持该话音数据处理方法的系统。
根据本公开的一方面,公开了一种电子设备,所述电子设备包括:网络接口;至少一个处理器,所述至少一个处理器与所述网络接口可操作地连接;以及至少一个存储器,所述至少一个存储器存储指令并且与所述至少一个处理器可操作地连接以:通过所述网络接口接收从第一外部设备发送的话音输入,所述话音输入包括使用未在所述话音输入中指示的至少一个应用来执行功能的请求,通过对所述话音输入执行自动语音识别(ASR)来从所述话音输入中提取第一文本,当所述至少一个应用至少部分地基于所述第一文本被识别时,通过所述网络接口向所述第一外部设备发送与所识别的至少一个应用相关联的第二数据以由所述第一外部设备显示,以及当所述至少一个应用至少部分地基于所述第一文本未被识别时,通过对所述第一文本执行自然语言理解(NLU)来重新尝试识别所述至少一个应用。
根据本公开的另一方面,公开了一种电子设备中的方法,包括:通过网络接口接收从第一外部设备发送的话音输入,所述话音输入包括使用未在所述话音输入中指示的至少一个应用来执行功能的请求,由至少一个处理器通过对所述话音输入执行自动语音识别(ASR)来从所述话音输入中提取第一文本,当所述至少一个应用至少部分地基于所述第一文本被识别时,通过所述网络接口向所述第一外部设备发送与所识别的至少一个应用相关联的第二数据以由所述第一外部设备显示,以及当所述至少一个应用至少部分地基于所述第一文本未被识别时,通过对所述第一文本执行自然语言理解(NLU)来重新尝试识别所述至少一个应用。
根据本公开中公开的实施例,虽然未通过用户的话语显式地指定能够处理用户的请求的app,但所述电子设备可以通过确定与用户的请求相对应的能力并且基于分析响应于用户的话语输入而获得的话音数据的结果验证映射到所确定的能力的app来确定用于处理用户的请求的app。
根据本公开中公开的实施例,当存在映射到所确定的能力的多个app时,所述方法可以通过用户偏好、app被选择的历史、用户输入等来选择多个app中的某一个。
另外,可以提供通过本公开直接地或间接地探知的各种效果。
从结合附图公开了本公开的各个实施例的以下详细描述中,本公开的其他方面、优点和显著特征对于本领域的技术人员而言将变得显而易见。
附图说明
从结合附图的以下描述中,本公开的某些实施例的以上及其他方面、特征和优点将更显而易见,在附图中:
图1是例示了根据本公开的各个实施例的集成智能系统的图。
图2是例示了根据本公开的实施例的集成智能系统的用户终端的框图。
图3是例示了根据本公开的实施例的用于运行用户终端的智能app的方法的图。
图4是例示了根据本公开的实施例的用于在智能服务模块的上下文模块处收集当前状态的方法的图。
图5是例示了根据本公开的实施例的智能服务模块的建议模块的框图。
图6是例示了根据本公开的实施例的集成智能系统的智能服务器的框图。
图7是例示了根据本公开的实施例的用于在路径规划器模块处生成路径规则的方法的图。
图8是例示了根据本公开的实施例的用于在智能服务模块的角色模块处管理用户信息的方法的框图。
图9是例示了根据本公开的实施例的与话音处理相关联的系统的框图。
图10是例示了根据本公开的实施例的与话音处理相关联的系统的操作方法的流程图。
图11是例示了根据本公开的实施例的与确定用于处理用户的请求的app相关联的系统的操作方法的流程图。
图12是例示了根据本公开的实施例的与当未通过用户的话语显式地指定用于处理用户的请求的app时确定app相关联的系统的操作方法的流程图。
图13是例示了根据本公开的实施例的与设置用于处理用户的请求的app相关联的系统的操作方法的流程图。
图14是例示了根据本公开的实施例的用于支持选择用于处理用户的请求的app的屏幕的图。
图15是例示了根据本公开的实施例的用于支持选择针对与用户的请求相对应的每个能力要被运行的app的屏幕的图。
图16是例示了根据本公开的实施例的在聊天机器人(chatbot)模式下运行app的动作的屏幕的图。
图17例示了根据各个实施例的网络环境中的电子设备的框图。
在整个附图中,应当注意的是,相似的附图标记用于描绘相同或相似的元件、特征和结构。
具体实施方式
在下文中,可以将本公开的各个实施例描述为与附图相关联。因此,本领域的普通技术人员将认识到,在不脱离本公开的情况下,可对本文所描述的各个实施例不同地作出修改、等同形式和/或替代方案。
在描述本公开的实施例之前,将给出本公开的实施例被应用于的集成智能系统的描述。
图1是例示了根据本公开的各个实施例的集成智能系统的图。
参考图1,集成智能系统10可以包括用户终端100、智能服务器200、个人信息服务器300或建议服务器400。
用户终端100可以通过存储在用户中的app(或应用程序)(例如,闹钟app、消息app、照片(图库)app等)提供可供用户利用的服务。例如,用户终端100可以通过存储在用户终端100中的智能app(或语音识别app)来运行和操作另一app。用户终端100可以接收用于通过智能app来运行另一app并执行动作的用户输入。可以通过例如物理按钮、触摸板、话音输入、远程输入等来接收用户输入。根据实施例,用户终端100可以对应于可连接到互联网的各种终端设备(或各种电子设备)中的每一个,例如,移动电话、智能电话、个人数字助理(PDA)或笔记本计算机。
根据实施例,用户终端100可以接收用户的话语作为用户输入。用户终端100可以接收用户的话语并且可以基于用户的话语生成用于操作app的命令。因此,用户终端100可以使用命令来操作app。
智能服务器200可以通过通信网络从用户终端100接收用户的话音输入(或话音数据)并且可以将该话音输入改变(或转换)为文本数据。在另一示例中,智能服务器1200可以基于文本数据生成(或选择)路径规则。路径规则可以包括关于与要由电子设备执行的任务相关联的特定电子设备(例如,用户终端100)的状态序列的信息。例如,路径规则可以包括关于用于执行电子设备中安装的app的功能的动作(或操作)的信息或关于可利用来执行动作的参数的信息。进一步地,路径规则可以包括动作的顺序。用户终端100可以接收路径规则并且可以根据路径规则来选择app,从而在所选择的app中执行路径规则中包括的动作。
一般而言,本公开中的术语“路径规则”可以指但不限于用于电子设备执行由用户请求的任务的状态序列。换句话说,路径规则可以包括关于状态序列的信息。任务可以是例如能够被智能app应用的任何动作。任务可以包括生成日程、向期望的目标发送照片或提供天气信息。用户终端100可以通过顺序地具有至少一个或更多个状态(例如,用户终端100的动作状态)来执行任务。
根据实施例,路径规则可以由人工智能(AI)系统提供或生成。AI系统可以是基于规则的系统或者可以是基于神经网络的系统(例如,前馈神经网络(FNN)或递归神经网络(RNN))。替代地,AI系统可以是以上提及的系统的组合或不同于以上提及的系统的AI系统。根据实施例,可以从一组预定义路径规则中选择路径规则,或者可以响应于用户请求而实时生成路径规则。例如,AI系统可以选择多个预定义路径规则中的至少一个或者可以在动态基础上(或在实时基础上)生成路径规则。进一步地,用户终端100可以使用用于提供路径规则的混合系统。
根据实施例,用户终端100可以执行动作并且可以在其显示器上显示与执行动作的用户终端100的状态相对应的屏幕。又例如,用户终端100可以执行动作并且可能无法在显示器上显示执行动作的结果。又例如,用户终端100可以执行多个动作并且可以在显示器上显示执行所述多个动作中的一些的结果。例如,用户终端100可以在显示器上显示执行最终顺序的动作的结果。又例如,用户终端100可以接收用户的输入并且可以在显示器上显示执行动作的结果。
个人信息服务器300可以包括存储有用户信息的数据库(DB)。例如,个人信息服务器300可以从用户终端100接收用户信息(例如,上下文信息、app执行信息等)并且可以将所接收的用户信息存储在DB中。智能服务器200可以通过通信网络从个人信息服务器300接收用户信息并且可以在针对用户输入生成路径规则时使用用户信息。根据实施例,用户终端100可以通过通信网络从个人信息服务器300接收用户信息并且可以将该用户信息用作用于管理DB的信息。
建议服务器400可以包括存储关于用户终端100中的功能或者要在应用中引入或提供的功能的信息的DB。例如,建议服务器400可以从个人信息服务器300接收用户终端100的用户信息并且可以使用该用户信息来实现用于能够由用户使用的功能的DB。用户终端100可以通过通信网络从建议服务器400接收关于要提供的功能的信息并且可以将所接收的信息提供给用户。
图2是例示了根据本公开的实施例的集成智能系统10的用户终端的框图。
参考图2,用户终端100可以包括输入模块110、显示器120、扬声器130、存储器140或处理器150。用户终端100可以进一步包括壳体。用户终端100的元件可以被容纳在壳体中或者可以位于壳体上。
根据实施例的输入模块110可以接收来自用户的用户输入。例如,输入模块110可以接收来自连接到输入模块110的外部设备(例如,键盘或头戴式耳机)的用户输入。又例如,输入模块110可以包括与显示器120组合的触摸屏幕(例如,触摸屏幕显示器)。又例如,输入模块110可以包括位于用户终端100(或用户终端100的壳体)中的硬件键(或物理键)。
根据实施例,输入模块110可以包括能够接收用户的话语作为话音信号(或话音数据)的麦克风(例如,图3的麦克风111)。例如,输入模块110可以包括话音输入系统并且可以经由该话音输入系统接收用户的话语作为话音信号。
根据实施例的显示器120可以显示图像或视频和/或运行应用的屏幕。例如,显示器120可以显示app的图形用户界面(GUI)。
根据实施例,扬声器130可以输出话音信号。例如,扬声器130可以向外部输出在用户终端100中生成的话音信号。
根据实施例,存储器140可以存储多个app(或应用程序)141和143。可以根据用户输入来选择、运行和操作存储在存储器140中的多个app 141和143。
根据实施例,存储器140可以包括能够存储可利用来识别用户输入的信息的DB。例如,存储器140可以包括能够存储日志信息的日志DB。又例如,存储器140可以包括能够存储用户信息的角色DB。
根据实施例,存储器140可以存储多个app 141和143。可以多个app 141和143以操作。例如,存储在存储器140中的多个app 141和143可以由处理器150的执行管理器模块153加载以进行操作。多个app 141和143可以分别包括用于执行功能的执行服务模块141a和143a。在实施例中,多个app 141和143可以分别通过执行服务模块141a和143a执行多个动作1141b和1143b(例如,状态序列)以执行功能。换句话说,执行服务模块141a和143a可以由执行管理器模块153激活并且可以分别执行多个动作141b和143b。
根据实施例,当app 141和143的动作141b和143b被执行时,可以在显示器120上显示根据动作141b和143b的执行的执行状态屏幕(或执行屏幕)。执行状态屏幕可以是例如动作141b和143b完成的状态的屏幕。又例如,执行状态屏幕可以是例如动作141b和143b的执行被停止(例如,当未输入可供动作141b和143b利用的参数时)的状态(部分登陆)的屏幕。
根据实施例的执行服务模块141a和143a可以根据路径规则分别执行动作141b和143b。例如,执行服务模块141a和143a可以由执行管理器模块153激活,并且可以通过根据路径规则从执行管理器模块153接收执行请求并且根据执行请求执行动作141b和143b来执行app 141和143中的每一个的功能。当动作141b和143b的执行完成时,执行服务模块141a和143a可以向执行管理器模块153发送完成信息。
根据实施例,当在app 141和143中分别执行多个动作141b和143b时,可以顺序地执行多个动作141b和143b。当一个动作(例如,第一app 141的动作1或第二app 143的动作1)的执行完成时,执行服务模块141a和143a可以打开下一个动作(例如,第一app 141的动作2或第二app 143的动作2)并且可以向执行管理器模块153发送完成信息。在本文中,打开任何动作可以被理解为将任何操作改变为可执行状态或者为执行任何动作做准备。换句话说,当任何操作未被打开时,可能无法执行它。当接收到完成信息时,执行管理器模块153可以向执行服务模块141a和143a发送要执行下一个动作(例如,第一app 141的动作2或第二app 143的动作2)的请求。根据实施例,当多个app 141和143被执行时,它们可以被顺序地执行。当在第一app 141的最终动作(例如,动作3)的执行完成之后从第一执行服务模块141a接收到完成信息时,执行管理器模块153可以向第二执行服务模块143a发送要执行第二app 143的第一动作(例如,动作1)的请求。
根据实施例,当在app 141和143中分别执行多个动作141b和143b时,可以在显示器120上显示根据多个动作141b和143b中的每一个的执行的结果屏幕。在一些实施例中,可以在显示器120上显示根据多个动作141b和143b的执行的多个结果屏幕中的一些。
根据实施例,存储器140可以存储与智能代理151交互工作的智能app(例如,语音识别app)。与智能代理151交互工作的app可以将用户的话语作为话音信号(或话音数据)来接收和处理。根据实施例,可以通过经由输入模块110输入的特定输入(例如,通过硬件键的输入、通过触摸屏的输入或具体话音输入)来操作与智能代理151交互工作的app。
根据实施例,处理器150可以控制用户终端100的整体操作。例如,处理器150可以控制输入模块110接收用户输入。又例如,处理器150可以控制显示器120显示图像。又例如,处理器150可以控制扬声器130输出话音信号。又例如,处理器150可以控制存储器140预取或存储可利用的信息。
根据实施例,处理器150可以包括智能代理151、执行管理器模块153或者智能服务模块155。在实施例中,处理器150可以执行存储在存储器140中的指令以驱动智能代理151、执行管理器模块153或智能服务模块155。在本公开的各个实施例中描述的若干模块可以用硬件或软件加以实现。在本公开的各个实施例中,由智能代理151、执行管理器模块153或智能服务模块155执行的操作可以被理解为由处理器150执行的操作。
根据实施例的智能代理151可以基于作为用户输入接收的话音信号(或话音数据)生成用于操作app的命令。根据实施例的执行管理器模块153可以从智能代理151接收所生成的命令并且可以基于所生成的命令选择、运行和操作存储在存储器140中的app 141和143。根据实施例,智能服务模块155可以管理用户信息并且可以使用该用户信息来处理用户输入。
智能代理151可以将通过输入模块110接收到的用户输入发送到智能服务器200。
根据实施例,智能代理151可以在将用户输入发送到智能服务器200之前预处理用户输入。根据实施例,为了预处理用户输入,智能代理151可以包括自适应回声消除器(AEC)模块、噪声抑制(NS)模块、结束点检测(EPD)模块或自动增益控制(AGC)模块。AEC模块可以消除用户输入中包括的回声。NS模块可以抑制用户输入中包括的背景噪声。EPD模块可以检测用户输入中包括的用户话音的结束点并且可以查找存在用户的话音的一部分(例如,浊音带)。AGC模块可以调整用户输入的音量以适合于识别并处理用户输入。根据实施例,智能代理151可以包括所有用于执行的预处理元件。然而,在另一实施例中,智能代理151可以包括这些预处理元件中的一些以按低功率而操作。
根据实施例,智能代理151可以包括用于识别用户的呼叫的唤醒识别模块。唤醒识别模块可以通过语音识别模块来识别用户的唤醒命令(例如,唤醒单词)。当接收到唤醒命令时,唤醒识别模块可以激活智能代理151以接收用户输入。根据实施例,可以在低功率处理器(例如,包括在音频编解码器中的处理器)中实现智能代理151的唤醒识别模块。根据实施例,可以根据通过硬件键的用户输入来激活智能代理151。当智能代理151被激活时,可以执行与智能代理151交互工作的智能app(例如,语音识别app)。
根据实施例,智能代理151可以包括用于执行用户输入的语音识别模块。语音识别模块可以识别用于在app中执行动作的用户输入。例如,语音识别模块可以识别用于执行诸如唤醒命令(例如,像当相机app被运行时执行图像捕获操作的“咔嗒声”这样的话语)的动作的有限用户(话音)输入。帮助智能服务器200识别用户输入的语音识别模块可以识别并快速地处理例如能够在用户终端100中被处理的用户命令。根据实施例,可以在app处理器中实现用于执行智能代理151的用户输入的语音识别模块。
根据实施例,智能代理151中的语音识别模块(包括唤醒识别模块的语音识别模块)可以使用用于识别话音的算法来识别用户输入。用于识别话音的算法可以是例如隐马尔可夫模型(HMM)算法、人工神经网络(ANN)算法或动态时间规整(DTW)算法中的至少一种。
根据实施例,智能代理151可以将用户的话音输入(或话音数据)转换成文本数据。根据实施例,智能代理151可以向智能服务器200发送用户的话音,并且智能服务器200可以将用户的话音转换成文本数据。智能代理151可以接收经转换的文本数据。因此,智能代理151可以在显示器120上显示文本数据。
根据实施例,智能代理151可以接收从智能服务器200发送的路径规则。根据实施例,智能代理151可以将路径规则发送到执行管理器模块153。
根据实施例,智能代理151可以根据从智能服务器200接收到的路径规则向智能服务模块155发送执行结果日志。可以在角色模块(或角色管理器)155b的用户偏好信息中积累和管理所发送的执行结果日志。
根据实施例的执行管理器模块153可以从智能代理151接收路径规则并且可以根据该路径规则运行app 141和143,使得app 141和143分别执行路径规则中包括的动作141b和143b。例如,执行管理器模块153可以向app 141和143发送用于执行动作141b和143b的命令信息(例如,路径规则信息)并且可以从app 141和143接收动作141b和143b的完成信息。
根据实施例,执行管理器模块153可以在智能代理151与app 141和143之间发送和接收用于执行app 141和143的动作141b和143b的命令信息(例如,路径规则信息)。执行管理器模块153可以根据路径规则来绑定要执行的app 141和143并且可以向app 141和143发送路径规则中包括的动作141b和143b的命令信息(例如,路径规则信息)。例如,执行管理器模块153可以将路径规则中包括的动作141b和143b顺序地发送到app 141和143并且可以根据路径规则来顺序地执行app 141和143的动作141b和143b。
根据实施例,执行管理器模块153可以管理app 141和143的动作141b和143b被执行的状态。例如,执行管理器模块153可以从app 141和143接收关于动作141b和143b被执行的状态的信息。例如,当动作141b和143b被执行的状态是停止状态(部分登陆)时(例如,当未输入可供动作141b和143b利用的参数时),执行管理器模块153可以向智能代理151发送关于该状态(部分登陆)的信息。智能代理151可以使用所接收的信息来请求输入可供用户利用的信息(例如,参数信息)。又例如,当动作141b和143b被执行的状态是动作状态时,执行管理器模块153可以接收来自用户的话语并且可以向智能代理151发送所执行的app 141和143以及关于app 141和143被执行的状态的信息。智能代理151可以通过智能服务器200来接收用户的话语的参数信息并且可以将所接收的参数信息发送到执行管理器模块153。执行管理器模块153可以使用所接收的参数信息来将将动作141b和143b中的每一个的参数改变为新参数。
根据实施例,执行管理器模块153可以将路径规则中包括的参数信息发送到app141和143。当根据路径规则顺序地运行多个app 141和143时,执行管理器模块153可以将路径规则中包括的参数信息从一个app发送到另一app。
根据实施例,执行管理器模块153可以接收多个路径规则。执行管理器模块153可以基于用户的话语接收多个路径规则。例如,当用户的话语指定第一app 141来执行一些动作(例如,动作1141b)时,但是当它未指定另一第二app 143来执行其他动作(例如,动作143b)时,执行管理器模块153可以接收能够执行第一app 141(例如,图库app)和多个不同的app 143(例如,消息app和电报app)的多个不同的路径规则。换句话说,执行管理器模块153可以接收第一路径规则和第二路径规则,在所述第一路径规则中,用于执行一些动作(例如,动作141b)的第一app 141(例如,图库app)被运行并且能够执行其他动作(例如,动作143b)的第二app 143的任何一个(例如,消息app)被运行,而在所述第二路径规则中,用于执行一些动作(例如,动作141b)的第一app 141(例如,图库app)被运行并且能够执行其他动作(例如,动作143b)的第二app 143中的另一个(例如,电报app)被运行。
根据实施例,执行管理器模块153可以执行多个路径规则中包括的相同的动作141b和143b(例如,连续相同的动作141b和143b)。当相同的动作被执行时,执行管理器模块153可以在显示器120上显示能够选择多个路径规则中包括的不同app 141和143的状态屏幕。
根据实施例,智能服务模块155可以包括上下文模块155a、角色模块155b或建议模块155c。
上下文模块155a可以从app 141和143收集app 141和143中的每一个的当前状态。例如,上下文模块155a可以接收指示app 141和143中的每一个的当前状态的上下文信息并且可以收集app 141和143中的每一个的当前状态。
角色模块155b可以管理使用用户终端100的用户的个人信息。例如,角色模块155b可以收集关于用户终端100的使用的信息(或使用历史信息)和执行用户终端100的结果并且可以管理用户的个人信息。
建议模块155c可以预测用户的意图并且可以向用户推荐命令。例如,建议模块155c可以考虑到用户的当前状态(例如,时间、地点、情形或app)将命令推荐给用户。
图3是例示了根据本公开的实施例的用于运行用户终端的智能app的方法的图。
参考图3,图2的用户终端100可以接收用户输入并且可以运行与图2的智能代理151交互工作的智能app(例如,语音识别app)。
根据实施例,用户终端100可以通过硬件键112来运行用于识别话音的智能app。例如,当接收到通过硬件键112的用户输入时,用户终端100可以在显示器120上显示智能app的用户界面(UI)121。在这种情况下,当用户终端100在智能app的UI 121被显示在显示器120上的状态内操作时,用户可以触摸在智能app的UI 121内显示的语音识别按钮121a来输入(120b)话音。又例如,用户可以在维持对硬件键112的选择或压下的同时输入(120b)话音。
根据实施例,用户终端100可以运行用于识别通过麦克风111接收到的话音输入的智能app。例如,当通过麦克风111接收到(120a)指定的话音(或唤醒命令)(例如,“唤醒!”)时,用户终端100可以在显示器120上响应地显示智能app的UI 121。
图4是例示了根据本公开的实施例的用于在智能服务模块的上下文模块处收集当前状态的方法的图。
参考图4,当从智能代理151接收到(①)请求指示在便携式终端上运行的一个或更多个应用的当前状态的信息的上下文请求时,上下文模块155a可以请求(②)app 141和143提供指示app 141和143中的每一个的当前状态的上下文信息。根据实施例,上下文模块155a可以从app 141和143中的每一个接收(③)上下文信息并且可以将所接收的上下文信息发送(④)到智能代理151。
根据实施例,上下文模块155a可以通过app 141和143来接收多个上下文信息。例如,上下文信息可以是关于最近运行的app 141和143的信息。又例如,上下文信息可以是关于app 141和143中的当前状态的信息(例如,关于当用户查看图库中的照片时的照片的信息)。
根据实施例,上下文模块155a可以从设备平台以及app 141和143接收指示图2的用户终端100的当前状态的上下文信息。上下文信息可以包括一般上下文信息、用户上下文信息或设备上下文信息。
一般上下文信息可以包括用户终端100的一般信息。可以通过内部算法通过经由设备平台的传感器集线器等接收到的数据来验证一般上下文信息。例如,一般上下文信息可以包括关于当前空间-时间的信息。关于当前空间-时间的信息可以包括例如当前时间或关于用户终端100的当前位置的信息。可以通过用户终端100上的时间来验证当前时间。可以通过全球定位系统(GPS)来验证关于当前位置的信息。又例如,一般上下文信息可以包括关于物理运动的信息。关于物理运动的信息可以包括例如关于步行、跑步或驾驶的信息。可以通过运动传感器来验证关于物理运动的信息。关于驾驶的信息可以用于通过运动传感器来验证车辆驾驶并且通过检测车辆中的蓝牙连接来验证用户坐在车辆中并停放车辆。又例如,一般上下文信息可以包括用户活动信息。用户活动信息可以包括关于例如通勤、购物、旅行等的信息。可以使用关于用户或app在DB中注册的地点的信息来验证用户活动信息。
用户上下文信息可以包括关于用户的信息。例如,用户上下文信息可以包括关于用户的情绪状态的信息。关于情绪状态的信息可以包括关于例如用户的快乐、悲伤、愤怒等的信息。又例如,用户上下文信息可以包括关于用户的当前状态的信息。关于当前状态的信息可以包括关于例如兴趣、意图等(例如,购物)的信息。
设备上下文信息可以包括关于用户终端100的状态的信息。例如,设备上下文信息可以包括关于由图2的执行管理器模块153执行的路径规则的信息。又例如,设备上下文信息可以包括关于电池的信息。可以通过例如电池的充电和放电状态来验证关于电池的信息。又例如,设备上下文信息可以包括关于连接的设备和网络的信息。关于已连接的设备的信息可以通过例如该设备连接到的通信接口来验证。
图5是例示了根据本公开的实施例的智能服务模块的建议模块的框图。
参考图5,建议模块155c可以包括提示提供模块155c_1、上下文提示生成模块155c_2、条件检查模块155c_3、条件模型模块155c_4以及重新使用提示生成模块155c_5或者介绍提示生成模块155c_6。“提示”可以是以一种或更多种媒体格式生成和提供的指令,其包括显示元素、可视化、音频线索或其他此类指令,并且可以协助用户操作操作便携式终端的一个或更多个功能。
根据实施例,提示提供模块155c_1可以向用户提供提示。例如,提示提供模块155c_1可以接收从上下文提示生成模块155c_2、重新使用提示生成模块155c_5或介绍提示生成模块155c_6生成的提示并且可以将该提示提供给用户(或者以其他方式使该提示输出给用户)。
根据实施例,上下文提示生成模块155c_2可以通过条件检查模块155c_3或条件模型模块155c_4来生成根据上下文可操作且适于当前状态的提示。条件检查模块155c_3可以通过图2的智能服务模块155来接收与便携式终端和/或其功能的当前状态相对应的信息。条件模型模块155c_4可以使用所接收的信息来设置条件模型。例如,条件模型模块155c_4可以确定提示被提供给用户的时间、提示要被提供给用户的物理位置、提示要被提示给用户的环境情形、当提示要被提供给用户时应当在使用的app等,并且可以提供该提示,使得根据预先确定的优先级顺序,在对应操作条件下对用户有利的可能性很高。根据实施例,重新使用提示生成模块155c_5可以根据当前状态考虑到使用频率来生成能够被推荐的提示。例如,重新使用提示生成模块155c_5可以考虑到用户的使用模式来生成提示。
根据实施例,介绍提示生成模块155c_6可以生成向用户介绍新功能或由另一用户频繁地使用的功能的提示。例如,介绍新功能的提示可以包括对图2的智能代理151的介绍(例如,操作方法)。
根据另一实施例,建议模块155c的上下文提示生成模块155c_2、条件检查模块155c_3、条件模型模块155c_4、重新使用提示生成模块155c_5或介绍提示生成模块155c_6可以被包括在图2的个人信息服务器300中。例如,建议模块155c的提示提供模块155c_1可以从上下文提示生成模块155c_2、重新使用提示生成模块155c_5或介绍提示生成模块155c_6接收个人信息服务器300的提示并且可以将所接收的提示提供给用户。
根据实施例,图2的用户终端100可以根据以下系列过程来提供提示。例如,当从智能代理151接收到(①)提示提供请求时,提示提供模块155c_1可以将该提示生成请求发送(②)到上下文提示生成模块155c_2。当接收到提示生成请求时,上下文提示生成模块155c_2可以使用(③)条件检查模块155c_3来从图2的上下文模块155a和角色模块155b接收(④)与当前状态相对应的信息。条件检查模块155c_3可以将所接收的信息发送(⑤)到条件模型模块155c_4。条件模型模块155c_4可以向使用所述信息提供给用户的提示中的具有被用在条件中的高可能性的提示指派优先级。上下文提示生成模块155c_2可以验证(⑥)条件并且可以生成与当前状态相对应的提示。上下文提示生成模块155c_2可以将所生成的提示发送(⑦)到提示提供模块155c_1。提示提供模块155c_1可以根据指定的规则来布置提示并且可以将该提示发送(⑧)到智能代理151。
根据实施例,提示提供模块155c_1可以生成多个上下文提示并且可以根据指定的规则对所述多个上下文提示进行优先级排序。根据实施例,提示提供模块155c_1可以首先向用户提供在所述多个上下文提示中具有较高优先级的提示。
根据实施例,用户终端100可以根据使用频率来提议提示。例如,当从智能代理151接收到(①)提示提供请求时,提示提供模块155c_1可以向重新使用提示生成模块155c_5发送(②)提示生成请求。当接收到提示生成请求时,重新使用提示生成模块155c_5可以从角色模块155b接收(③)用户信息。例如,重新使用提示生成模块155c_5可以接收角色模块155b中包括的用户偏好信息中的路径规则、路径规则中包括的参数、app的执行频率以及由app使用的空间-时间信息。重新使用提示生成模块155c_5可以生成与所接收的用户信息相对应的提示。重新使用提示生成模块155c_5可以将所生成的提示发送(④)到提示提供模块155c_1。提示提供模块155c_1可以布置提示并且可以将该提示发送(⑤)到智能代理151。
根据实施例,用户终端100可以为新功能提议提示。例如,当从智能代理151接收到(①)提示提供请求时,提示提供模块155c_1可以向介绍提示生成模块155c_6发送(②)提示生成请求。介绍提示生成模块155c_6可以向图2的建议服务器400发送(③)介绍提示提供请求并且可以从建议服务器400接收(④)关于要介绍的功能的信息。例如,建议服务器400可以存储关于要介绍的功能的信息。要介绍的功能的提示列表可以由服务运营商更新。介绍提示生成模块155c_6可以将所生成的提示发送(⑤)到提示提供模块155c_1。提示提供模块155c_1可以布置提示并且可以将该提示发送(⑥)到智能代理151。
因此,建议模块155c可以将由上下文提示生成模块155c_2、重新使用提示生成模块155c_5或介绍提示生成模块155c_6生成的提示提供给用户。例如,建议模块155c可以将所生成的提示显示在操作智能代理151的app上并且可以接收用于通过该app从用户中选择提示的输入。
图6是例示了根据本公开的实施例的集成智能系统10的智能服务器的框图。
参考图6,智能服务器200可以包括自动语音识别(ASR)模块210、自然语言理解(NLU)模块220、路径规划器模块230、对话管理器(DM)模块240、自然语言生成器(NLG)模块250或文本到语音(TTS)模块260。
智能服务器200的NLU模块220或路径规划器模块230可以生成路径规则。
根据实施例,ASR模块210可以将从用户终端100接收到的用户输入(例如,话音数据)转换成文本数据。例如,ASR模块210可以包括话语识别模块。该话语识别模块可以包括声学模型和语言模型。例如,声学模型可以包括与发声相关联的信息,并且语言模型可以包括单位音素信息和关于单位音素信息的组合的信息。话语识别模块可以使用与发声相关联的信息和与单位音素相关联的信息来将用户话语(或话音数据)转换成文本数据。例如,可以将关于声学模型和语言模型的信息存储在ASR DB 211中。
根据实施例,NLU模块220可以执行语法分析或语义分析以确定用户的意图。语法分析可以用于将用户输入划分成语法单位(例如,单词、短语、语素等)并且确定所划分的单位是否具有任何语法元素。可以使用语义匹配、规则匹配、公式匹配等来执行语义分析。因此,NLU模块220可以通过以上提及的分析来从用户输入获得域、意图或可利用来表达意图的参数(或时隙)。
根据实施例,NLU模块220可以使用被划分成域、意图和参数(或时隙)的匹配规则来确定用户的意图和参数。例如,一个域(例如,警报)可以包括多个意图(例如,警报设置、警报释放等),并且一个意图可能需要多个参数(例如,时间、迭代次数、警报声音等)。所述多个规则可以包括例如一个或更多个可利用的参数。可以将匹配规则存储在NLU DB 221中。
根据实施例,NLU模块220可以使用诸如语素或短语的语言特征(例如,语法元素)来确定从用户输入中提取的单词的含义,并且可以将所确定的单词的含义与域和意图匹配以确定用户的意图。例如,NLU模块220可以计算从用户输入中提取的多少单词被包括在域和意图的每一个中,从而确定用户的意图。根据实施例,NLU模块220可以使用作为用于确定意图的基础的单词来确定用户输入的参数。根据实施例,NLU模块220可以使用存储用于确定用户输入的意图的语言特征的NLU DB 221来确定用户的意图。根据另一实施例,NLU模块220可以使用个人语言模型(PLM)来确定用户的意图。例如,NLU模块220可以使用个性化信息(例如,联系人列表或音乐列表)来确定用户的意图。例如,可以将PLM存储在例如NLU DB221中。根据实施例,ASR模块210以及NLU模块220可以参考存储在NLU DB 221中的PLM来识别用户的话音。
根据实施例,NLU模块220可以基于用户输入的意图和参数生成路径规则。例如,NLU模块220可以基于用户输入的意图选择要执行的app并且可以确定要在所选择的app中执行的动作。NLU模块220可以确定与所确定的动作相对应的参数以生成路径规则。根据实施例,由NLU模块220生成的路径规则可以包括关于要执行的app、要在该app中执行的动作(例如,至少一个或更多个状态)和可利用来执行该动作的参数的信息。
根据实施例,NLU模块220可以基于用户输入的意图和参数生成一个路径规则或多个路径规则。例如,NLU模块220可以从路径规划器模块230接收与用户终端100相对应的路径规则集并且可以将用户输入的意图和参数映射到所接收的路径规则集以确定路径规则。
根据另一实施例,NLU模块220可以基于用户输入的意图和参数确定要执行的app、要在该app中执行的动作和可利用来执行该动作的参数。例如,NLU模块220可以根据用户输入的意图使用用户终端100的信息来以本体或图形模型的形式布置要执行的app和要在该app中执行的动作以生成路径规则。可以通过路径规划器模块230将所生成的路径规则存储在例如路径规则数据库(PR DB)231中。可以将所生成的路径规则添加到存储在PR DB 231中的路径规则集。
根据实施例,NLU模块220可以选择多个生成的路径规则中的至少一个。例如,NLU模块220可以在多个路径规则中选择最优路径规则。又例如,当基于用户话语指定一些动作时,NLU模块220可以选择多个路径规则。NLU模块220可以根据用户的附加输入来确定所述多个路径规则中的一个。
根据实施例,NLU模块220可以响应于对用户输入的请求而将路径规则发送到用户终端100。例如,NLU模块220可以将与用户输入相对应的一个路径规则发送到用户终端100。又例如,NLU模块220可以将与用户输入相对应的多个路径规则发送到用户终端100。例如,当基于用户话语指定一些动作时,可以由NLU模块220生成多个路径规则。
根据实施例,路径规划器模块230可以选择多个路径规则中的至少一个。
根据实施例,路径规划器模块230可以将包括多个路径规则的路径规则集发送到NLU模块220。可以将包括在路径规则集中的多个路径规则以表的形式存储在连接到路径规划模块230的PR DB 231中。例如,路径规划器模块230可以向NLU模块220发送与从图2的智能代理151接收到的用户终端100的信息(例如,操作系统(OS)信息、app信息等)相对应的路径规则集。可以为例如每个域或该域的每个版本存储被存储在PR DB 231中的表。
根据实施例,路径规划器模块230可以从路径规则集中选择一个路径规则或多个路径规则以将所选择的一个路径规则或多个选择的路径规则发送到NLU模块220。例如,路径规划器模块230可以将用户的意图和参数与对应于用户终端100的路径规则集匹配以选择一个路径规则或多个路径规则,并且可以将所选择的一个路径规则或多个选择的路径规则发送到NLU模块220。
根据实施例,路径规划器模块230可以使用用户的意图和参数来生成一个路径规则或多个路径规则。例如,路径规划器模块230可以基于用户的意图和参数确定要执行的app和要在该app中执行的动作以生成一条路径规则或多条路径规则。根据实施例,路径规划器模块230可以将所生成的路径规则存储在PR DB 231中。
根据实施例,路径规划器模块230可以将由NLU模块220生成的路径规则存储在PRDB 231中。所生成的路径规则可以被添加到存储在PR DB 231中的路径规则集。
根据实施例,存储在PR DB 231中的表可以包括多个路径规则或多个路径规则集。所述多个路径规则或所述多个路径规则集可以反映执行每个路径规则的设备的种类、版本、类型或特性。
根据实施例,DM模块240可以确定由NLU模块220确定的用户的意图是否清楚。例如,DM模块240可以基于参数的信息是否足够来确定用户的意图是否清楚。DM模块240可以确定由NLU模块220确定的参数是否足以执行任务。根据实施例,当用户的意图不清楚时,DM模块240可以执行用于请求可供用户利用的信息的反馈。例如,DM模块240可以执行用于请求关于用于确定用户的意图的参数的信息的反馈。
根据实施例,DM模块240可以包括内容提供商模块。当内容提供商模块基于由NLU模块220确定的意图和参数执行动作时,它可以生成执行与用户输入相对应的任务的结果。根据实施例,DM模块240可以将由内容提供商模块生成的结果作为对用户输入的响应发送到用户终端100。
根据实施例,NLG模块250可以以文本的形式改变指定的信息。改变为文本形式的信息可以是自然语言话语的形式。以文本形式改变的信息可以具有自然语言话语的形式。所指定的信息可以是例如关于附加输入的信息、用于提供与用户输入相对应的动作完成的通知的信息或用于提供用户的附加输入的通知的信息(例如,关于对用户输入的反馈的信息)。以文本形式改变的信息可以被发送到用户终端100以被显示在图2的显示器120上或者可以被发送到TTS模块260以被以话音的形式改变。
根据实施例,TTS模块260可以将文本形式的信息改变为话音形式的信息。TTS模块260可以从NLG模块250接收文本形式的信息并且可以将文本形式的信息改变为话音形式的信息,从而将话音形式的信息发送到用户终端100。用户终端100可以通过图2的扬声器130来输出话音形式的信息。
根据实施例,NLU模块220、路径规划模块230和DM模块240可以作为一个模块被实现。例如,NLU模块220、路径规划器模块230和DM模块240可以作为一个模块被实现来确定用户的意图和参数并且生成与所确定的用户的意图和所确定的参数相对应的响应(例如,路径规则)。因此,可以将所生成的响应发送到用户终端100。
图7是例示了根据本公开的实施例的用于在路径规划器模块处生成路径规则的方法的图。
参考图7,根据实施例,图6的NLU模块220可以将app的功能分类为动作中的任何一个(例如,状态A至状态F)并且可以将所划分的动作存储在PR DB 231中,如图6中看到的。例如,NLU模块220可以将包括被分类为一个动作(例如,状态)的多个路径规则(例如,第一路径规则A-B1-C1、第二路径规则A-B1-C2、第三路径规则A-B1-C3-D-F和第四路径规则A-B1-C3-D-E-F等)的路径规则集存储在PR DB 231中。
根据实施例,图6的路径规划器模块230的PR DB 231可以存储用于执行app的功能的路径规则集。路径规则集可以包括多个路径规则,其中每一个包括多个动作(例如,状态序列)。根据输入到多个动作中的每一个的参数而执行的动作可以被顺序地布置在多个路径规则中。根据实施例,可以以要被存储在PR DB 231中的本体或图形模型的形式配置多个路径规则。
根据实施例,NLU模块220可以在与用户输入的意图和参数相对应的多个路径规则(例如,第一路径规则A-B1-C1、第二路径规则A-B1-C2、第三路径规则A-B1-C3-D-F和第四路径规则A-B1-C3-D-E-F)中选择最优路径规则(例如,第三路径规则A-B1-C3-D-F可以被指示为最优)。
根据实施例,当不存在与用户输入完全匹配的路径规则时,NLU模块220可以向图6的用户终端100发送多个规则。例如,NLU模块220可以选择部分地与用户输入相对应的路径规则(例如,第五路径规则A-B1)。NLU模块220可以选择包括部分地与用户输入相对应的路径规则(例如,第五路径规则A-B1)的一个或更多个路径规则(例如,第一路径规则A-B1-C1、第二路径规则A-B1-C2、第三路径规则A-B1-C3-D-F和第四路径规则A-B1-C3-D-E-F)并且可以将该一个或更多个路径规则发送到用户终端100。
根据实施例,NLU模块220可以基于用户终端100的附加输入选择多个路径规则中的一个并且可以将所选择的一个路径规则发送到用户终端100。例如,NLU模块220可以根据附加地输入到用户终端100的用户输入(例如,用于选择C3的输入)来选择多个路径规则(例如,第一路径规则A-B1-C1、第二路径规则A-B1-C2、第三路径规则A-B1-C3-D-F和第四路径规则A-B1-C3-D-E-F)中的一个(例如,第三路径规则A-B1-C3-D-F),从而将所选择的一个路径规则发送到用户终端100。
根据另一实施例,NLU模块220可以确定与附加地输入到用户终端100的用户输入(例如,用于选择C3的输入)相对应的用户的意图和参数,从而将所确定的用户的意图或所确定的参数发送到用户终端100。用户终端100可以基于所发送的意图或参数选择多个路径规则(例如,第一路径规则A-B1-C1、第二路径规则A-B1-C2、第三路径规则A-B1-C3-D-F和第四路径规则A-B1-C3-D-E-F)中的一个(例如,第三路径规则A-B1-C3-D-F)。
因此,用户终端100可以基于所选择的一个路径规则完成app 141和143的动作。
根据实施例,当在图6的智能服务器200处接收到信息不足的用户输入时,NLU模块220可以生成部分与所接收的用户输入相对应的路径规则。例如,NLU模块220可以将部分对应的路径规则发送到图2的智能代理151。智能代理151可以将部分对应的路径规则发送到图2的执行管理器模块153,并且执行管理器模块153可以根据该路径规则执行图2的第一app 141。执行管理器模块153可以在执行第一app 141时向智能代理151发送关于不足参数的信息。智能代理151可以使用关于不足参数的信息来请求用户提供附加输入。当附加输入由用户接收到时,智能代理151可以将该附加输入发送到智能服务器200。NLU模块220可以基于关于被附加地输入的用户输入的意图和参数的信息生成添加的路径规则并且可以将所生成的路径规则发送到智能代理151。智能代理151可以将路径规则发送到图2的执行管理器模块153,并且执行管理器模块153可以根据所添加的路径规则来执行图2的第二app143。
根据实施例,当在智能服务器200处接收到一些信息被丢失的用户输入时,NLU模块220可以向图2的个人信息服务器300发送用户信息请求。个人信息服务器300可以将存储在角色DB中的用户信息发送到NLU模块220。NLU模块220可以使用用户信息来选择与一些动作被丢失的用户输入相对应的路径规则。因此,即使在智能服务器200处接收到一些信息被丢失的用户输入,NLU模块220也可以请求用户提供丢失信息来接收附加输入或者可以使用用户信息来确定与用户输入相对应的路径规则。
下表1可以指示根据实施例的与由用户请求的任务相关联的路径规则的示例形式。
[表1]
参考表1,由智能服务器(例如,图1的智能服务器200)根据用户话语(例如,“Please share your photo with me(请与我分享你的照片)”)生成或选择的路径规则可以至少包括一个状态25、26、27、28、29或30。例如,该至少一个状态(例如,图1的用户终端100的一个动作状态)可以对应于以下各项中的至少一个:PicturesView(照片查看)25、SearchView(搜索查看)26、SearchViewResult(搜索查看结果)27、SearchEmptySelectedView(搜索空的所选查看)28、SearchSelectedView(搜索所选的查看)29或CrossShare(交叉共享)30。
在实施例中,关于路径规则的参数的信息可以对应于至少一个状态。例如,可以将关于路径规则的参数的信息包括在SearchSelectedView 29中。
可以执行由用户请求的任务(例如,“请与我分享你的照片!”)作为执行包括状态25至29的序列的路径规则的结果。
图8是例示了根据本公开的实施例的用于在智能服务模块的角色模块处管理用户信息的方法的框图。
参考图8,角色模块155b可以从app 141和143、执行管理器模块153或上下文模块155a接收图2的用户终端100的信息。app 141和143以及执行管理器模块153可以将关于执行app 141和143的动作141b和143b的结果的信息存储在操作日志DB中。上下文模块155a可以将关于用户终端100的当前状态的信息存储在上下文DB中。角色模块155b可以从操作日志DB或上下文DB接收所存储的信息。存储在操作日志DB和上下文DB中的数据可以由例如分析引擎分析以被发送到角色模块155b。
根据实施例,角色模块155b可以将从app 141和143、执行管理器模块153或上下文模块155a接收到的信息发送到图2的建议模块155c。例如,角色模块155b可以将存储在操作日志DB或上下文DB中的数据发送到建议模块155c。
根据实施例,角色模块155b可以将从app 141和143、执行管理器模块153或上下文模块155a接收到的信息发送到个人信息服务器300。例如,角色模块155b可以向个人信息服务器300周期性地发送积累并存储在操作日志DB或上下文DB中的数据。
根据实施例,角色模块155b可以将存储在操作日志DB或上下文DB中的数据发送到建议模块155c。由角色模块155b生成的用户信息可以被存储在角色DB中。角色模块155b可以将存储在角色DB中的用户信息周期性地发送到个人信息服务器300。根据实施例,由角色模块155b发送到个人信息服务器300的信息可以被存储在个人数据库中。个人信息服务器300可以使用存储在角色DB中的信息来推理可利用来生成智能服务器200的路径规则的用户信息。
根据实施例,使用由角色模块155b发送的信息来推理的用户信息可以包括简档信息或偏好信息。可以根据用户的账户和积累的信息来推理简档信息或偏好信息。
简档信息可以包括用户的个人信息。例如,简档信息可以包括关于用户的流行统计的信息。关于流行统计的信息可以包括例如用户的性别、年龄等。又例如,简档信息可以包括生活事件信息。生活事件信息可以通过将例如日志信息与生活事件模型相比较来推理并且可以通过分析行为模式来加强。又例如,简档信息可以是兴趣信息。兴趣信息可以包括例如关于兴趣购物产品、兴趣领域(例如,体育、政治等)的信息。又例如,简档信息可以包括关于活动区域的信息。关于活动区域的信息可以包括例如关于家庭、工作地点等的信息。关于活动区域的信息可以包括关于参考累计停留时间和访问次数具有记录的优先级的区域的信息以及关于地点的位置的信息。又例如,简档信息可以包括关于活动时间的信息。关于活动时间的信息可以包括例如关于唤醒时间、通勤时间或睡眠时间的信息。关于通勤时间的信息可以使用关于活动区域(例如,家庭和工作地点)的信息来推理。可以根据当用户终端100未被使用时的时间来推理关于睡眠时间的信息。
偏好信息可以包括关于用户的偏好的信息。例如,偏好信息可以包括关于app偏好的信息。可以根据例如app的使用记录(例如,每个时间或地点的使用记录)来推理app偏好。app偏好可以用于根据用户的当前状态(例如,时间或地点)来确定要执行的app。又例如,偏好信息可以包括关于联系人偏好的信息。可以通过分析例如关于联系人信息的联系频率(例如,每个时间或地点的联系频率)的信息来推理联系人偏好。联系人偏好可以用于根据用户的当前状态来确定用户将打电话的联系人信息(例如,重复的姓名)。又例如,偏好信息可以包括设置信息。可以通过分析例如关于具体设定值的设置频率(例如,针对每个时间或地点而设置给设定值的频率)的信息来推理设置信息。设置信息可以用于根据用户的当前状态(例如,时间、地点或情形)来设置具体设定值。又例如,偏好信息可以包括地点偏好。可以根据例如具体地点的访问记录(例如,每个时间的访问记录)来推理地点偏好。地点偏好可以用于根据用户的当前状态(例如,时间)来确定被访问的地点。又例如,偏好信息可以包括命令偏好。可以根据例如命令的使用频率(例如,每个时间或地点的使用频率)来推理命令偏好。命令偏好可以用于根据用户的当前状态(例如,时间或地点)来确定要使用的命令模式。特别地,命令偏好可以包括关于在正在执行的app的当前状态下基于分析的日志信息由用户最频繁地选择的菜单的信息。
图9是例示了根据本公开的实施例的与话音处理相关联的系统的框图。
根据实施例,系统900(或电子设备)(或图2的智能服务器200)可以提供基于AI技术的人工智能(AI)服务。例如,系统900可以接收诸如通过用户的话语所获得的话音数据的用户输入并且可以分析和理解所接收的用户输入以确定适合于用户的请求的动作,从而执行所确定的动作。根据实施例,系统900可以被配置为一个电子设备或者可以使用多个电子设备被以复杂方式配置。
根据实施例,系统900可以确定用于处理用户的请求的app。例如,当通过用户的话语显式地指定用于处理用户的请求的app时,系统900可以使用所指定的app的至少一个定义的动作来处理用户的请求。又例如,当未通过用户的话语显式地指定用于处理用户的请求的app时,系统900可以通过以下步骤来处理用户的请求:分析响应于用户的话语输入而获得的话音数据,基于所分析的结果确定与用户的请求相对应的能力,验证映射到所确定的能力的app,以及将所映射的app确定为用于处理用户的请求的app。
根据实施例,当存在能够处理用户的请求的多个app时,系统900可以提供用于在所述多个app中确定用于处理用户的请求的适当的app的方法。例如,当存在能够处理用户的请求的多个app时,系统900可以基于用户的偏好、所述多个app中的每一个被选择的历史等确定所述多个app中的某一个。例如,当存在能够处理用户的请求的多个app时,系统900可以提供用于支持选择所述多个app中的某一个的用户界面(UI)。在这种情况下,系统900可以通过用于选择所述多个app中的某一个的用户输入来确定用于处理用户的请求的app。
该app可以包括例如可从提供app下载服务的服务器(例如,app商店)下载的app、web app、在聊天机器人模式下操作的app等。进一步地,该app可以包括例如安装在使用系统900(例如,意图分类器)的电子设备(例如,图2的用户终端100)中的app、安装在使用外部服务器的电子设备中的app、在系统900或外部服务器中执行的聊天机器人模式的app等。
参考图9,用于执行以上提及的功能的系统900可以包括通信接口910、存储器930和处理器950。然而,系统900的元件不限于此。根据各个实施例,系统900可以进一步包括除以上提及的元件以外的至少一个其他元件。进一步地,系统900可以使用一个设备来执行以上提及的功能或者可以使用两个或更多个设备来以复杂或链接方式执行以上提及的功能。
根据实施例,通信接口910(或网络接口)可以支持在系统900与外部设备(例如,用户终端100或外部服务器(未示出))之间建立通信信道并且通过已建立的通信信道执行有线和无线通信。例如,通信接口910可以从包括麦克风的外部设备(例如,用户终端100)接收与通过麦克风(例如,麦克风111)获得的用户话音相关联的数据。又例如,通信接口910可以向包括用户界面(UI)(例如,显示器120)的外部设备(例如,用户终端100)提供(发送)与app相关联的数据,使得外部设备可以显示用于支持让用户选择该app的屏幕。根据实施例,系统900(例如,智能服务器200)可以经由通信接口910与外部服务器(例如,搜索引擎、聊天机器人服务器等)连接。例如,系统900可以经由通信接口910向外部服务器发送数据或执行请求。
根据实施例,存储器930可以存储与系统900的至少一个其他元件相关联的命令(或指令)或数据。例如,存储器930可以存储软件和/或程序。软件和/或程序可以包括例如与AI技术相关联的模块(例如,自动语音识别(ASR)模块、自然语言理解(NLU)模块220等)。软件和/或程序可以包括例如与在系统900中实现的功能(或操作)相关联的一个或更多个指令。一个或更多个指令可以由处理器950加载到易失性存储器中并且可以根据指定的程序例行程序被处理。
根据实施例,当未通过用户的话语显式地指定能够处理用户的请求的app时,存储器930可以存储能够确定用于处理用户的请求的app的信息。例如,当在通过对响应于用户的话语输入而获得的话音数据进行转换所获得的文本数据中不包括app的识别符(例如,名称)时,存储器930可以存储用于确定与用户的请求相对应的能力的比较信息。比较信息可以包括例如与能力相对应的至少一个句子、至少一个短语和/或至少一个单词。例如,当用户说第一句子(例如,“Please order a pizza(请订购比萨)”)时,第一句子可以被映射到与想要接收第一服务(例如,比萨递送)的用户的请求相对应的第一能力以被存储在存储器930中。可以以配置第一句子的至少一个短语或至少一个单词(例如,“pizza”、“order”等)的形式以及以第一句子的形式来存储映射到第一能力的比较信息。
根据实施例,存储器930可以存储与对应于用户的请求的能力相关联的信息。下表2可以指示根据实施例的与能力相关联的信息的示例形式。
能力 APP列表 用户历史
比萨递送 达美乐Pizza、棒约翰Pizza、必胜客 必胜客
体育信息提供 ESPN、NBA、KBO KBO
音乐回放 三星音乐、牛奶音乐
... ... ...
[表2]
参考图2,存储器930可以针对服务的每个类别(例如,比萨递送、体育信息提供、音乐回放等)单独地存储与用户的请求相对应的能力。进一步地,存储器930可以针对服务的每个类别单独地存储能够执行能力的app的列表。例如,存储器930可以存储包括能够提供第一服务(例如,比萨递送)的app(例如,达美乐比萨、棒约翰比萨、必胜客等)的第一app列表、包括能够提供第二服务(例如,体育信息提供)的app(例如,ESPN、NBA、KBO等)的第二app列表,或包括能够第三项服务(例如,音乐回放)的app(例如,三星音乐、牛奶音乐等)的第三app列表。根据实施例,存储器930可以存储关于在包括能够执行能力的app的app列表中选择app的历史的信息。例如,存储器930可以存储关于在包括能够提供第一服务的app的第一app列表中最近选择的第一app(例如,必胜客)的信息或关于在包括能够提供第二服务的app的第二app列表中最近选择的第二app(例如,KBO)的信息。
根据实施例,处理器950可以执行与系统900的至少一个其他元件的控制和/或通信相关联的算术操作或数据处理。处理器950可以驱动例如操作系统(OS)或应用程序以控制连接到处理器950的多个硬件或软件元件并且可以执行各种数据处理和各种算术操作。根据实施例,处理器950可以被实现为片上系统(SoC)。
根据实施例,处理器950可以包括ASR模块951、名称分配器(或命名分配器或app调度器)953、能力分配器955和NLU模块957。然而,处理器950的元件不限于此。根据各个实施例,处理器950可以进一步包括除以上提及的元件以外的至少一个其他元件。根据实施例,以上提及的元件中的至少一些可以被以彼此集成的形式实现。例如,可以将名称分配器953和能力分配器955集成到一个元件中。
根据实施例,ASR模块951可以执行与图6中所示的智能服务器200的ASR模块210相同或类似的功能。例如,ASR模块951可以将从通过通信接口910连接到系统900的外部设备(例如,用户终端100)接收到的用户输入(例如,话音数据)转换成文本数据。
根据实施例,名称分配器953可以确定app的识别符(例如,名称)是否被包括在由ASR模块951转换的文本数据中。当app的识别符被包括在文本数据中时,名称分配器953可以将该app确定为用于处理用户的请求的app。例如,名称分配器953可以将与用户的话语输入相对应的文本数据与指定的格式(例如,“please yy at xx”)相比较并且可以验证与app的识别符以文本格式所位于的一部分(例如,位于单词“at”后面的一部分(“xx”))相对应的一部分是否存在于文本数据中。进一步地,当在文本数据中存在与app的识别符所位于的部分相对应的部分时,名称分配器953可以将位于对应部分中的单词确定为app的识别符。例如,名称分配器953可以将文本数据的整个句子划分成具体单位(例如,短语或单词)并且可以将所划分的单位中的每一个与app的识别符相比较以作为比较的结果确定是否存在app的识别符。
根据实施例,当app的识别符未被包括在由ASR模块951转换的文本数据中时,能力分配器955可以确定用户的话语是否请求任意能力来确定能够执行能力的app。例如,能力分配器955可以将文本数据与存储在存储器930中的比较信息相比较并且可以基于比较结果确定app。比较信息可以包括例如与能力相对应的至少一个句子、至少一个短语和/或至少一个单词。例如,当与用户的话语相对应的文本数据与包括在比较信息中的第一信息匹配时,能力分配器955可以将映射到第一信息的第一能力确定为与用户的请求相对应的能力并且可以将能够执行第一能力的至少一个app确定为能够处理用户的请求的app。
根据实施例,能力分配器955可以将与用户的话语相对应的整个文本数据与比较信息相比较。例如,当文本数据被配置有第一句子(例如,“Please order a pizza(请订购比萨).”)时,能力分配器955可以将整个第一句子与比较信息相比较。换句话说,当在比较信息中包括与第一句子相同的句子时,能力分配器955可以将映射到相同句子的能力确定为与用户的请求相对应的能力。
根据实施例,能力分配器955可以将与用户的话语相对应的文本数据划分成具体单位(例如,短语、单词等)并且可以将所划分的单位与比较信息相比较。换句话说,能力分配器955可以通过句子分析来将文本数据划分成主分量(或单位)并且可以将主分量与比较信息相比较。例如,当文本数据被配置有第二句子(例如,“Please order a pizza(请订购比萨).”)时,能力分配器955可以通过对第二句子的句子解析来提取(或划分)宾语(“pizza”)和动词(“order”)并且可以将所提取的(或划分的)宾语和动词与比较信息相比较。在这种情况下,当在比较信息中包括与宾语和动词匹配的信息时,能力分配器955可以将映射到该信息的能力确定为与用户的请求相对应的能力。
根据实施例,能力分配器955可以使用附加信息来确定与用户的请求相对应的能力,所述附加信息例如,关于在用户的话语时间或者在请求执行AI服务的时间正在执行的app的状态的信息,以及与用户的话语相对应的文本数据。例如,当在用户的话语时间或请求执行AI服务的时间执行具体app时,能力分配器955可以将与用户的请求相对应的能力确定为与该具体app相关联的功能。例如,在与比萨递送相关联的具体app被执行的状态下,当用户说“please order this(请订购这个)”时,能力分配器955可以将与用户的请求相对应的能力确定为与该具体app相关联的能力,即,比萨递送。
根据实施例,能力分配器955可以使用诸如机器学习和神经网络的AI技术通过深度学习来确定与用户的请求相对应的能力。例如,能力分配器955可以通过以下步骤来确定用于处理用户的请求的能力:接收与每个能力相对应的各种话语,组合用于处理与每个能力相对应的用户的请求的能力,对与能力的组合相对应的模型进行训练,以及将用户的话语与经训练的模型相比较。例如,当作为比较结果的结果输出每一个均具有可靠性的多个能力时,能力分配器955可以将具有阈值或更大的可靠性的一个能力确定为用于处理用户的请求的能力。在这种情况下,能力分配器955可以将在每一个均具有阈值或更大的可靠性的能力中的具有最高可靠性的能力确定为用于处理用户的请求的能力。
根据实施例,当用于处理用户的请求的能力被确定时,能力分配器955可以验证用于执行该能力的至少一个app。例如,能力分配器955可以使用存储在存储器930中的与对应于用户的请求的能力相关联的信息来验证用于执行该能力的至少一个app。例如,能力分配器955可以验证包括能够通过存储在存储器930中的信息来执行该能力的app的app列表(例如,表2的app列表)并且可以向外部设备(例如,用户终端100)提供与该app列表相关联的数据。
根据实施例,能力分配器955可以经由通信接口910向外部设备发送与app列表相关联的数据,使得包括UI(例如,显示器120)的外部设备(例如,用户终端100)输出支持用户选择包括在app列表中的app中的一个的屏幕。在这种情况下,外部设备可以输出用于支持选择包括在app列表中的app中的一个的屏幕。当用户选择包括在app列表中的app中的一个时,外部设备可以将与所选择的app相关联的数据反馈给系统900。
根据实施例,能力分配器955可以基于app被选择的历史的信息或用户的偏好将包括在app列表中的app中的一个选择(或确定)为用于执行该能力的app。例如,能力分配器955可以将最近执行了该能力的app选择(或确定)为用于执行该能力的app。
根据实施例,能力分配器955可以针对服务的每个类别对与用户的请求相对应的能力进行分类并且可以针对服务的每个类别指定用于执行该能力的app。换句话说,能力分配器955可以针对服务的每个类别指定用于执行该能力的默认app。例如,能力分配器955可以将用于执行第一能力的默认app指定为第一app并且可以将用于执行第二能力的默认app指定为第二app。在一些实施例中,能力分配器955可以经由通信接口910向包括UI的外部设备发送与包括能够执行具体功能的app的app列表相关联的数据,使得外部设备可以输出支持用户设置用于执行具体能力的默认app的屏幕。在这种情况下,外部设备可以输出用于支持将包括在app列表中的app中的一个设置为默认app的屏幕。当用户将包括在app列表中的app中的一个设置为默认app时,外部设备可以将与所设置的app相关联的数据反馈给系统900。
根据实施例,系统900可以基于通过与内容提供商(CP)的伙伴关系或合同(例如,广告合同)讨论的内容来指定用于执行与指定的服务相对应的能力的默认app,所述CP提供所指定的服务。例如,当系统900试图按具体CP进行促销时并且当由能力分配器955确定的能力对应于从该具体CP提供的服务时,系统900可以将由该具体CP提供的app指定为用于执行该能力的默认app。
根据实施例,当存在每一个均提供指定的服务的多个CP时,系统900可以首先基于所讨论的内容提供由具体CP在所述多个CP中提供的app。例如,系统900除显示从多个CP提供的app之外还可以在屏幕的较高端上显示由具体CP提供的app或者可以将由具体CP提供的app显示为与其他app不同。例如,当试图按具体CP进行促销时,系统900可以在屏幕的上部屏幕上显示由具体CP提供的app或者与从其他CP提供的app相比可以突出显示由具体CP提供的app。进一步地,系统900可以在显示从具体CP提供的app的同时显示要一起促销的内容,使得用户可以在他或她使用正在促销的app时知道能够被获得的好处。
根据实施例,能力分配器955可以管理包括能够执行与用户的请求相对应的能力的app的app列表。例如,能力分配器955可以从外部服务器(例如,能够下载app的app商店等)接收关于包括在app列表中的app的信息。例如,当从外部服务器接收到关于未被包括在app列表中的新app的信息时,能力分配器955可以将新app添加到app列表。又例如,当从外部服务器(例如,app列表管理服务器)接收到要删除包括在app列表中的app的请求时,能力分配器955可以从app列表中删除请求被删除的app。
根据实施例,包括在系统900中的NLU模块957可以执行与图6中所示的智能服务器200的NLU模块220相同或类似的功能。NLU模块957可以对于经转换的文本数据执行语法分析或语义分析以确定用户的意图。因此,NLU模块957可以通过以上提及的分析来从用户输入获得域、意图或可利用来表达意图的参数(或时隙)。进一步地,NLU模块957可以使用被划分成域、意图和参数(或时隙)的匹配规则来确定用户的意图和参数并且可以基于所确定的用户的意图和所确定的参数生成路径规则。例如,NLU模块957可以基于用户的意图选择要执行的app并且可以确定要在所选择的app中执行的动作。进一步地,NLU模块957可以确定与所确定的动作相对应的参数并且可以生成(或选择)路径规则。在实施例中,由NLU模块957生成的路径规则可以包括关于要执行的app、要在该app中执行的动作(例如,至少一个或更多个状态)和可利用来执行该动作的参数的信息。
根据实施例,NLU模块957可以根据对用户输入的请求向外部设备(例如,用户终端100)发送路径规则。例如,NLU模块957可以向外部设备发送与用户输入相对应的至少一个路径规则。
如上所述,根据各个实施例,电子设备可以包括网络接口(例如,通信接口910)、被配置为与该网络接口可操作地连接的至少一个处理器(例如,处理器950)以及被配置为与该至少一个处理器可操作地连接的至少一个存储器(例如,存储器930)。该至少一个存储器可以存储指令,所述指令当被执行时,使至少一个处理器经由网络接口从包括麦克风和用户界面(UI)的第一外部设备接收与通过第一外部设备获得的第一用户输入相关联的第一数据,所述第一用户输入包括要执行至少部分地使用不通过第一用户输入指示的至少一个应用程序可执行的任务的请求,对于第一数据执行自动语音识别(ASR)以便提供第一文本,至少部分地基于第一文本验证至少一个应用程序,当至少一个应用程序被验证时,经由网络接口向第一外部设备提供与至少一个应用程序相关联的第二数据,使得第一外部设备将至少一个应用程序指示在第一外部设备的UI上,以及当至少一个应用程序未被验证时,对于第一文本执行自然语言理解(NLU)。
根据各个实施例,指令可以使至少一个处理器通过将第一文本与多个选择的句子、多个选择的短语或多个选择的单词中的至少一个相比较来验证至少一个应用程序,所述句子以及所述短语和所述单词被存储在存储器中。
根据各个实施例,指令可以使至少一个处理器通过基于第一文本验证域和意图来执行NLU。
根据各个实施例,至少一个应用程序可以包括可从app商店下载的应用程序、web(网站)应用程序或在聊天机器人模式下操作的应用程序中的至少一个。
根据各个实施例,指令可以使至少一个处理器在无法通过NLU来验证至少一个应用程序时,执行因特网搜索。
根据各个实施例,指令可以使至少一个处理器在第一外部设备将至少一个应用程序指示在UI上之后,通过第一外部设备在至少一个应用程序的应用程序上接收用户选择。
根据各个实施例,指令可以使至少一个处理器基于用户选择允许第一外部设备执行任务。
根据各个实施例,指令可以使至少一个处理器基于用户选择允许第一外部设备显示由外部服务器执行任务的结果。
根据各个实施例,指令可以使至少一个处理器使用在可下载的应用程序、web应用程序或在聊天机器人模式下操作的应用程序中的可被所选择的应用程序利用的选择的一个来执行任务。
图10是例示了根据本公开的实施例的与话音处理相关联的系统的操作方法的流程图。
参考图10,在操作1010中,图9的系统900的ASR模块951可以经由图9的通信接口910接收与来自包括麦克风的外部设备(例如,图2的用户终端100)的用户输入相关联的第一数据。第一数据可以包括例如与由外部设备的麦克风捕获并然后发送的用户的话语相对应的话音数据。根据实施例,第一数据可以包括在用户未显式地说出app的识别符的状态下获得的话音数据。
在操作1030中,ASR模块951可以对第一数据执行语音识别。例如,ASR模块951可以将话音数据转换成文本数据(即,从所接收的语音数据中提取文本数据)。
在操作1050中,系统900的能力分配器955可以验证(或选择)用于处理在文本数据中指示的用户的请求的具体应用(即,app)。根据实施例,能力分配器955可以将文本数据与存储在图9的存储器930中的比较信息(其可以包括许多预先指定的请求或命令以及能够处理那些请求或命令的一个或更多个应用的指示)相比较并且可以确定与通过比较识别的用户的请求相对应的要执行的能力或功能性,从而验证/选择要利用以便处理用户的请求的app。
根据实施例,能力分配器955可以将整个文本数据与比较信息相比较,或者可以将文本数据划分成句子构造单位(例如,段落、单词等)并且可以将所划分的句子构造单位与比较信息相比较。进一步地,当文本数据和比较信息至少部分地匹配时,能力分配器955可以将映射到比较信息的能力确定为与用户的请求相对应的能力。
根据实施例,当与用户的请求相对应的能力被确定时,能力分配器955可以从存储器930中验证/选择能够所确定的功能的至少一个app(或app列表)。
根据实施例,当用于处理能力的至少一个app被验证和/或选择时,在操作1070中,能力分配器955可以经由通信接口910向包括UI的外部设备(例如,用户终端100)提供(或发送)与该至少一个app相关联的第二数据。在这种情况下,外部设备可以将该app指示(或显示)在UI上。
根据实施例,当用于处理能力的app未被验证并且/或者用于处理用户请求的对应app在比较中未被识别时,在操作1090中,系统900的NLU模块957可以对于文本数据执行NLU。例如,NLU模块957可以对于文本数据执行语法分析或语义分析以确定用户的意图。因此,NLU模块957可以通过以上提及的分析从用户输入获得域、意图或可利用来表达意图的参数(或时隙)。进一步地,NLU模块957可以使用被划分成域、意图和参数(或时隙)的匹配规则来确定用户的意图和参数并且可以基于所确定的用户的意图和所确定的参数生成(或选择)路径规则。根据实施例,在操作1090之后,NLU模块957可以将所生成的(或选择的)路径规则发送到外部设备(例如,用户终端100)。
图11是例示了根据本公开的实施例的与确定用于处理用户的请求的app相关联的系统的操作方法的流程图。
参考图11,当经由图9的系统900的通信接口910从外部设备(例如,图2的用户终端100)接收到话音数据时,系统900的ASR模块951可以将话音数据转换成文本数据(例如,并且/或者从话音数据中提取文本数据)。
在操作1110中,系统900的处理器950可以运行图9的名称分配器953。例如,处理器950可以使用名称分配器953来验证app的识别符是否被包括在文本数据中。例如,名称分配器953可以将经转换或提取的文本数据与指定的文本格式相比较并且可以验证文本数据的一部分是否指示app的识别符。进一步地,当识别符被检测为现存于文本数据内时,名称分配器953可以将设置在对应部分中的单词确定为对应app的识别符。又例如,名称分配器953可以将文本数据的整个句子划分成句子构造单位并且可以将所划分的句子构造单位与每个app的识别符相比较以确定是否存在app的识别符作为比较的结果,而不使用所指定的文本格式。
在操作1120中,名称分配器953可以确定是否存在与文本数据匹配的app。例如,当app的识别符被包括在文本数据中时,名称分配器953可以确定文本数据和app匹配。
根据实施例,当存在与文本数据匹配的app时,在操作1130中,处理器950可以请求匹配的app的动作处理服务来执行用于处理用户的请求的app。根据实施例,该app可以是“域”,其指示能够在该域中被处理的一组意图(例如,功能或命令)。
根据实施例,当不存在与文本数据匹配的app时,在操作1140中,处理器950可以运行能力分配器955。例如,处理器950可以确定用户的话语是否使用能力分配器955来请求任意能力。例如,能力分配器955可以将文本数据与存储在图9的存储器930中的比较信息相比较并且可以基于比较结果确定与用户的请求相对应的能力(例如,功能)。根据实施例,能力分配器955可以将整个文本数据与比较信息(例如,诸如设备上的已知可执行功能的数据库)相比较,或者可以将文本数据划分成句子构造单位并且可以将所划分的句子构造单位与比较信息相比较。比较信息可以包括例如与能力相对应的至少一个句子、至少一个短语和/或至少一个单词。
在操作1150中,能力分配器955可以确定是否存在与文本数据匹配的能力(例如,能够处理文本数据中的任何请求或命令的已知可执行功能)。例如,当文本数据和比较信息彼此至少部分地匹配时,能力分配器955可以确定与比较信息匹配的能力与文本数据匹配并且可以将已匹配的能力确定为与用户的请求相对应的能力。
根据实施例,当存在与文本数据匹配的能力时,在操作1160中,能力分配器955可以选择(或确定)app来执行与用户的请求相对应的所请求的功能(即,执行能力),即,已匹配的能力。例如,能力分配器955可以从存储器930中验证包括能够执行已匹配的能力的app的app列表并且可以基于用户输入将包括在app列表中的app中的一个选择(或确定)为用于处理已匹配的能力的app。根据实施例,系统900可以经由通信接口910向外部设备(例如,用户终端100)发送关于app列表的信息。在这种情况下,外部设备可以通过用户界面来将关于app列表的信息提供给用户。当接收到用于选择包括在app列表中的app中的某一个的用户输入时,外部设备可以将该用户输入反馈给系统900。因此,系统900可以基于从外部设备接收到的用户输入将包括在app列表中的app中的一个选择(或确定)为用于处理已匹配的能力的app。进一步地,当用于处理已匹配的能力的app被选择(或确定)时,处理器950可以执行操作1130。换句话说,处理器950可以请求所选择的(或确定的)app的动作处理服务来运行app以处理用户的请求。
根据实施例,当不存在与文本数据匹配的能力时,在操作1170中,处理器950可以运行域分类器(例如,图9的NLU模块957)。例如,处理器950可以使用域分类器根据用户的话语来确定域。例如,域分类器可以对文本数据执行语法分析或语义分析并且可以确定域。
图12是例示了根据本公开的实施例的与当未通过用户的话语显式地指定用于处理用户的请求的app时确定app相关联的系统的操作方法的流程图。
参考图12,当未通过用户的话语显式地指定用于处理用户的请求的app时,在操作1211中,图9的系统900的处理器950可以确定用户的话语是否使用图9的能力分配器955来请求任意能力。根据实施例,能力分配器955可以通过将与能力的组合相对应的训练模型与用户的话语(或与用户的话语相对应的文本数据)相比较来确定用于处理用户请求的能力。
在操作1213中,在每一个均具有可靠性的多个能力被输出作为比较的结果的情况下,能力分配器955可以确定是否存在具有阈值或更大的可靠性的能力。
根据实施例,当存在具有阈值或更大的可靠性的能力时,在操作1215中,能力分配器955可以验证能够执行具有阈值或更大的可靠性的能力的至少一个应用。根据实施例,能力分配器955可以从图9的存储器930中验证包括能够执行具有阈值或更大的可靠性的能力的app的app列表。
在操作1217中,能力分配器955可以连同执行具有阈值或更大的可靠性的能力的app一起确定是否存在关于用户的偏好的信息或关于app被选择的历史的信息。根据实施例,能力分配器955可以确定与app列表相关联的用户偏好信息或app选择历史信息是否被存储在存储器930中。
当存在用户偏好信息或app选择历史信息时,在操作1219中,能力分配器955可以基于用户偏好信息或app选择历史信息选择能够执行具有阈值或更大的可靠性的能力的app。例如,能力分配器955可以基于用户偏好信息或app选择历史信息从包括在app列表中的app中选择某一个。
当不存在用户偏好信息或app选择历史信息时,在操作1231中,能力分配器955可以提供UI,使得用户可以选择能够执行具有阈值或更大的可靠性的能力的app。在一些实施例中,能力分配器955可以经由图9的通信接口910向包括UI的外部设备(例如,用户终端100)发送与app相关联的数据,使得外部设备可以向用户提供用于支持选择app的屏幕。用于支持选择app的屏幕可以是例如显示app列表的屏幕。
在操作1233中,能力分配器955可以通过用户输入来选择能够执行具有阈值或更大的可靠性的能力的app。例如,当通过UI接收到用于选择包括在app列表中的app中的某一个的用户输入时,能力分配器955可以基于该用户输入选择能够执行具有阈值或更大的可靠性的能力的app。又例如,能力分配器955可以经由通信接口910从外部设备获得用于选择包括在app列表中的app中的某一个的用户输入并且可以基于该用户输入选择能够执行具有阈值或更大的可靠性的能力的app。
在操作1235中,处理器950可以根据所选择的app的动作来执行分类。例如,处理器950可以确定用于执行能力的app的动作处理服务是以任何方式还是用任何系统加以实现的。当能够根据app的类型不同地执行这种确定操作时,处理器950可以向用于确定的模块发送要执行app的请求。用于确定的模块当在系统900中操作app时可以执行例如操作1237,当在另一智能服务中操作app时可以执行操作1239,以及当在聊天机器人模式下操作app时可以执行操作1251。
根据实施例,在操作1237中,处理器950可以运行意图分类器(例如,包括在系统900中的NLU模块957)。例如,处理器950可以使用意图分类器根据用户的话语来确定意图。例如,意图分类器可以对于文本数据执行语法分析或语义分析以确定用户的意图。因此,意图分类器可以通过以上提及的分析从文本数据获得域、意图或可利用来表达意图的参数(或时隙)。
根据实施例,当app被包括在另一智能服务中时,在操作1239中,处理器950可以请求另一智能服务执行app的动作。根据实施例,另一智能服务可以被包括在外部服务器(未示出)中。当app是在外部服务器中被运行的app时,处理器950可以请求外部服务器执行app的动作。在这种情况下,外部服务器可以将运行app的结果发送到外部设备(例如,用户终端100)。外部设备可以将运行app的结果显示在其显示器上。
根据实施例,当app确定或在聊天机器人模式下执行动作时,在操作1251中,处理器950可以连接到聊天机器人。根据实施例,在聊天机器人模式下操作的app可以被包括在外部服务器中。当该app是在外部服务器中执行的聊天机器人模式的app时,处理器950可以请求外部服务器执行聊天机器人模式的app的动作,并且可以经由通信接口910发送和接收对应于与外部服务器的聊天内容的数据以与聊天机器人模式的app聊天。
根据实施例,当在操作1213中不存在具有阈值或更大的可靠性的能力时,在操作1253中,处理器950可以确定是否通过针对文本数据的NLU验证用于处理用户的请求的app。例如,处理器950可以执行NLU模块957以对于文本数据执行语法分析或语义分析并且确定用户的意图。因此,NLU模块957可以通过以上提及的分析从文本数据获得域、意图或可利用来表达意图的参数(或时隙)。
当用于请求用户的请求的app被验证时,在操作1255中,NLU模块957可以确定(或选择)关于电子设备的状态序列的信息以处理用户的请求。例如,NLU模块957可以使用被划分成域、意图和参数(或时隙)的匹配规则来确定用户的意图和参数并且可以基于所确定的用户的意图和所确定的参数确定(或选择)路径规则(例如,状态序列)。例如,NLU模块957可以基于用户的意图选择要执行的app并且可以确定要在所选择的app中执行的动作。进一步地,NLU模块957可以确定(或选择)与所确定的动作相对应的参数并且可以确定(或选择)路径规则。
当用于请求用户的请求的app未被验证时,在操作1257中,处理器950可以通过搜索引擎(例如,Google、Naver等)来执行因特网搜索。例如,搜索引擎可以通过使用文本数据作为搜索查询来执行因特网搜索。根据实施例,处理器950可以经由通信接口910将通过搜索引擎找到的结果发送到外部设备。又例如,处理器950可以向外部设备发送指示用于处理用户的请求的app未被验证的消息(例如,错误消息)。
图13是例示了根据本公开的实施例的与设置用于处理用户的请求的app相关联的系统的操作方法的流程图。
参考图13,图9的系统900的能力分配器955可以针对服务的每个类别对与用户的请求相对应的能力进行分类并且可以针对服务的每个类别指定用于执行该能力的app。换句话说,能力分配器955可以针对服务的每个类别指定用于执行该能力的默认app。
当确定了用户的话语是否请求任意能力时,在操作1310中,能力分配器955可以验证能够执行能力的app。例如,能力分配器955可以从图9的存储器930中验证包括能够执行能力的app的app列表。
在操作1320中,能力分配器955可以确定是否存在用于执行能力或必需功能的设定app(例如,预配置的和/或默认app)。例如,能力分配器955可以验证在包括在app列表中的app中是否存在被设置为执行能力的默认app。
当存在设定app(或默认app)时,在操作1330中,能力分配器955可以确定具有必需能力的app是否最近已被安装或以其他方式新近添加。例如,能力分配器955可以从外部服务器(例如,能够下载app的app商店服务器、另一智能服务器等)接收关于包括在app列表中的app的信息。例如,当从外部服务器接收到关于未被包括在app列表中的新app的信息时,能力分配器955可以将新app添加到app列表。
当未新近添加能够执行该能力的app时,也就是说,当在app列表中没有新近添加的app时,在操作1340中,图9的处理器950可以执行设定app(或默认app)。例如,处理器950可以请求设定app(或默认app)的动作处理服务来执行用于处理用户的请求的app。
当不存在设定app(或默认app)时或者当新近添加了能够执行能力的app时(也就是说,当在app列表中存在新近添加的app时),在操作1350中,处理器950可以提供UI来选择用于执行该能力的app。在一些实施例中,处理器950可以经由图9的通信接口910向包括UI的外部设备(例如,用户终端100)发送与该app相关联的数据,使得外部设备可以向用户提供能够选择app的屏幕。能够选择app的屏幕可以是例如显示app列表的屏幕。
在操作1360中,处理器950可以通过用户输入来选择用于执行该能力的app。例如,当通过UI接收到用于选择包括在app列表中的app中的某一个的用户输入时,处理器950可以基于该用户输入选择用于执行该能力的app。又例如,处理器950可以经由通信接口910从外部设备获得用于选择包括在app列表中的app中的某一个的用户输入并且可以基于该用户输入选择用于执行该能力的app。进一步地,处理器950可以运行所选择的app。例如,处理器950可以请求所选择的app的动作处理服务来执行用于处理用户的请求的app。根据实施例,当所选择的app被包括(或安装)在外部服务器中时,处理器950可以经由通信接口910向外部服务器发送要运行所选择的应用的请求。进一步地,外部设备(例如,用户终端100)可以接收运行所选择的app的结果并且可以将所接收的结果输出在其显示器上。
如上所述,根据各个实施例,电子设备的话音处理方法可以包括:经由网络接口从包括麦克风和UI的第一外部设备接收与通过第一外部设备获得的第一用户输入相关联的第一数据,对于第一数据执行ASR以便提供第一文本,至少部分地基于第一文本验证至少一个应用程序,当至少一个应用程序被验证时,经由网络接口向第一外部设备提供与至少一个应用程序相关联的第二数据,使得第一外部设备将至少一个应用程序指示在第一外部设备的UI上,以及当至少一个应用程序未被验证时,对于第一文本执行NLU。第一用户输入可以包括要执行至少部分地使用不通过第一用户输入指示的至少一个应用程序可执行的任务的请求。
根据各个实施例,验证至少一个应用程序可以包括将第一文本与多个选择的句子、多个选择的短语或多个选择的单词中的至少一个相比较,所述句子以及所述短语和所述单词被存储在电子设备的存储器中。
根据各个实施例,执行NLU可以包括基于第一文本验证域和意图。
根据各个实施例,至少一个应用程序可以包括可从app商店下载的应用程序、web应用程序或在聊天机器人模式下操作的应用程序中的至少一个。
根据各个实施例,该方法可以进一步包括:在无法通过NLU来验证至少一个应用程序时,执行因特网搜索。
根据各个实施例,该方法可以进一步包括:在第一外部设备将至少一个应用程序指示在UI上之后,通过第一外部设备在至少一个应用程序的应用程序上接收用户选择。
根据各个实施例,该方法可以进一步包括:基于用户选择允许第一外部设备执行任务。
根据各个实施例,该方法可以进一步包括:基于用户选择允许第一外部设备显示由外部服务器执行任务的结果。
根据各个实施例,该方法可以进一步包括:使用在可下载的应用程序、web应用程序或在聊天机器人模式下操作的应用程序中的可被所选择的应用程序利用的选择的一个来执行任务。
图14是例示了根据本公开的实施例的用于支持选择用于处理用户的请求的app的屏幕的图。
参考图14,包括UI(例如,图2的显示器120)的电子设备(例如,图2的用户终端100)可以提供用于支持通过UI来选择用于处理用户的请求的app的屏幕1400。
根据实施例,用于支持app选择的屏幕1400可以包括与用户的话音输入(例如,话语)相对应的文本数据1410、包括能够处理用户的请求的app的app列表1430或者可选择来请求存储关于包括在app列表1430中的app中的某一个的偏好信息的图标或其他显示元件1450。
根据实施例,app列表1430可以包括关于能够处理用户的请求的app的信息。例如,app列表1430可以包括app中的每一个的识别图像1431a(例如,图标)或app中的每一个的识别符1431b(例如,名称)。所示图例示了在app列表1430中包括与第一app相对应的项目1431、与第二app相对应的项目1432、与第三app相对应的项目1433以及与第四app相对应的项目1434的状态。然而,实施例不限于此。根据各个实施例,当新app被添加时,可以在app列表1430中进一步包括与新app相对应的项目。在这种情况下,与新app对应的项目可以进一步包括指示新近添加的app的图像1435。
根据实施例,按钮1450可以在切换模式下操作。例如,当按钮1450被选择时,指示按钮1450被选择的指示(“V”)可以被添加到按钮1450的指定区域。当在指示被添加的状态下选择按钮1450时,可以从按钮1450的指定区域中删除指示以指示对按钮1450的选择被释放。
图15是例示了根据本公开的实施例的用于支持选择针对与用户的请求相对应的每个能力要被运行的app的屏幕的图。
参考图15,包括UI(例如,显示器120)的电子设备(例如,用户终端100)可以提供支持在支持与用户的请求匹配的功能或能力的许多app中选择app的屏幕1500。如示例中所示,可以通过UI来显示屏幕1500。
根据实施例,用于支持app选择的屏幕1500可以包括与能力的类型相对应的项目(例如,与第一能力相对应的项目1510、与第二能力相对应的项目1520、与第三能力相对应的项目1530、与第四能力相对应的项目1540等)。这些项目中的每一个均可以包括根据能力的类型或被设置为提供服务的app信息1513而分类的服务的类别信息1511。
根据实施例,服务的类别信息1511可以包括例如与食物递送、娱乐信息提供、体育信息提供、知识提供、交通预订、电子邮件传输、音乐回放等相关联的信息。
根据实施例,被设置为提供服务的app信息1513可以包括例如关于用于执行与服务相对应的能力的默认app的信息。例如,app信息1513可以包括默认app的识别图像(例如,图标)或默认app的识别符(例如,名称)。
根据实施例,当能力的类型被添加时或者当被设置为提供与能力相对应的服务的app信息1513被改变或添加时,指示新近添加的信息的图像1550可以被包括在新近添加的项目中。
图16是例示了根据本公开的实施例的在聊天机器人模式下执行app的动作的屏幕的图。“聊天机器人”可以指示接收输入并生成模拟与用户的自然对话的输出的算法用户界面,并且也被称为交互式代理或人造对话实体。
参考图16,可以在聊天机器人模式下运行能够处理用户请求的app。例如,图9的系统900可以请求第一外部设备执行聊天机器人并且处理用户的请求。进一步地,系统900可以请求能够接收用户的话语的第二外部设备执行能够与聊天机器人连接的app(例如,聊天机器人app)。所示图例示了在第二外部设备中运行app的屏幕1600。
屏幕1600例示了能够与聊天机器人进行通信连接的app被执行的示例实施例,其可以包括以下各项的显示:指示用户的话音命令(例如,话语)的第一文本数据1610、指示聊天机器人的包括对进一步信息(从第一外部设备接收)的请求的回复的第二文本数据1620以及从第一外部设备接收的如由聊天机器人输出的推荐信息1630和最后与推荐信息1630相关联地生成的细节信息1640—其在这种情况下是订单确认和收据等。根据实施例,屏幕1600可以进一步包括可选择来执行支付的按钮1650。
图17例示了根据各个实施例的网络环境1700中的电子设备1701的框图。根据本公开的各个实施例的电子设备可以包括各种形式的设备。例如,电子设备可以包括例如以下各项中的至少一种:便携式通信设备(例如,智能电话)、计算机设备(例如,个人数字助理(PDA)、平板个人计算机(PC)、膝上型PC、台式PC、工作站或服务器)、便携式多媒体设备(例如,电子书阅读器或运动图片专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器)、便携式医疗设备(例如,心跳测量设备、血糖监测设备、血压测量设备和体温测量设备)、相机或可穿戴设备。可穿戴设备可以包括以下类型中的至少一种:附件类型(例如,手表、戒指、手环、脚环、项链、眼镜、隐形眼镜或头戴式设备(HMD))、织物或服装集成类型(例如,电子服装)、身体附着类型(例如,皮肤垫(skin pad)或纹身)或生物可植入类型(例如,可植入电路)。根据各个实施例,电子设备可以包括例如以下各项中的至少一种:电视(TV)、数字通用盘(DVD)播放器、音响、音频附件设备(例如,扬声器、耳机或头戴式耳机)、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、游戏机、电子词典、电子钥匙、摄录像机或电子相框。
在另一实施例中,电子设备可以包括以下各项中的至少一种:导航设备、卫星导航系统(例如,全球导航卫星系统(GNSS))、事件数据记录器(EDR)(例如,汽车、船或飞机用的黑匣子)、车辆信息娱乐设备(例如,车辆用平视显示器)、工业或家庭机器人、无人机、自动取款机(ATM)、销售点(POS)、测量仪器(例如,水表、电表或煤气表)或物联网(例如,灯泡、喷水灭火设备、火灾警报器、恒温器或街灯)。根据本公开的实施例的电子设备可以不限于上述设备,并且可以提供像具有个人生物计量信息(例如,心率或血糖)的测量功能的智能电话一样的多个设备的功能。在本公开中,术语“用户”可以指使用电子设备的人或者可以指使用电子设备的设备(例如,人工智能电子设备)。
参考图17,在网络环境1700下,电子设备1701(例如,用户终端100)可以通过本地无线通信1798与电子设备1702进行通信或者可以通过网络1799与电子设备1704或服务器1708(例如,智能服务器200或app商店服务器)进行通信。根据实施例,电子设备1701可以通过服务器1708与电子设备1704进行通信。
根据实施例,电子设备1701可以包括总线1710、处理器1720(例如,处理器150)、存储器1730(例如,存储器140)、输入设备1750(例如,输入模块110)(例如,麦克风或鼠标)、显示设备1760(例如,显示器120)、音频模块1770(例如,扬声器130)、传感器模块1776、接口1777、触觉模块1779、相机模块1780、电源管理模块1788、电池1789、通信模块1790和用户识别模块1796。根据实施例,电子设备1701可以不包括上述元件中的至少一个(例如,显示设备1760或相机模块1780)或者可以进一步包括其他元件。
总线1710可以互连上述元件1720至1790并且可以包括用于在上述元件之间输送信号(例如,控制消息或数据)的电路。
处理器1720可以包括中央处理单元(CPU)、应用处理器(AP)、图形处理单元(GPU)、相机的图像信号处理器(ISP)或通信处理器(CP)中的一种或更多种。根据实施例,处理器1720可以用片上系统(SoC)或封装中系统(SiP)来实现。例如,处理器1720可以驱动操作系统(OS)或应用以控制连接到处理器1720的另一元件(例如,硬件或软件元件)中的至少一并且可以处理并计算各种数据。处理器1720可以将从其他元件中的至少一个(例如,通信模块1790)接收到的命令或数据加载到易失性存储器1732中以处理该命令或数据并且可以将结果数据存储到非易失性存储器1734中。
存储器1730可以包括例如易失性存储器1732或非易失性存储器1734。易失性存储器1732可以包括例如随机存取存储器(RAM)(例如,动态RAM(DRAM)、静态RAM(SRAM)或同步DRAM(SDRAM))。非易失性存储器1734可以包括例如可编程只读存储器(PROM)、一次PROM(OTPROM)、可擦除PROM(EPROM)、电EPROM(EEPROM)、掩模ROM、闪存ROM、闪速存储器、硬盘驱动器(HDD)或固态驱动器(SSD)。另外,根据与电子设备1701的连接,可以以内部存储器1736的形式或仅在必要时通过连接可用的外部存储器1738的形式配置非易失性存储器1734。外部存储器1738可以进一步包括诸如紧凑型闪存(CF)、安全数字(SD)、微安全数字(Micro-SD)、迷你安全数字(Mini-SD)、极限数字(xD)、多媒体卡(MMC)或记忆棒的闪存驱动器。外部存储器1738可以以有线方式(例如,电缆或通用串行总线(USB))或无线(例如,蓝牙)方式与电子设备1701可操作地或以物理方式连接。
例如,存储器1730可以存储例如电子设备1701的至少一个不同的软件元件,诸如与程序1740相关联的命令或数据。程序1740可以包括例如内核1741、库1743、应用框架1745或应用程序(可互换地,“应用”)1747。
输入设备1750可以包括麦克风、鼠标或键盘。根据实施例,键盘可以包括以物理方式连接的键盘或通过显示器1760显示的虚拟键盘。
显示器1760可以包括显示器、全息图设备或投影仪,以及用于控制相关设备的控制电路。屏幕可以包括例如液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、微机电系统(MEMS)显示器或电子纸显示器。根据实施例,可以柔性地、透明地或可穿戴地实现显示器。显示器可以包括能够检测用户的诸如手势输入、接近输入或悬停输入之类的输入的触摸电路或者能够测量通过触摸的压力的强度的压力传感器(可互换地,力传感器)。触摸电路或压力传感器可以被与显示器整体地实现,或者可以与显示器分开地被实现有至少一个传感器。全息图设备可以使用光的干涉在空间中示出立体图像。投影仪可以将光投影到屏幕上以显示图像。屏幕可以位于电子设备1701内部或外部。
音频模块1770可以例如从声音转换成电信号或者从电信号转换成声音。根据实施例,音频模块1770可以通过输入设备1750(例如,麦克风)来获取声音或者可以通过包括在电子设备1701中的输出设备(未例示)(例如,扬声器或听筒)、外部电子设备(例如,电子设备1702(例如,无线扬声器或无线耳机))或与电子设备1701连接的电子设备1706(例如,有线扬声器或有线耳机)来输出声音。
传感器模块1776可以测量或检测例如电子设备1701的内部运行状态(例如,功率或温度)或外部环境状态(例如,高度、湿度或亮度)以生成与所测量到的状态或所检测到的状态的信息相对应的电信号或数据值。传感器模块1776可以包括例如以下传感器中的至少一种:手势传感器、陀螺仪传感器、大气压力传感器、磁传感器、加速度传感器、握持传感器、接近传感器、颜色传感器(例如,红绿蓝(RGB)传感器)、红外传感器、生物传感器(例如,虹膜传感器、指纹传感器、心率监测(HRM)传感器、电子鼻传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器)、温度传感器、湿度传感器、照度传感器或UV传感器。传感器模块1776可以进一步控制电路用于控制传感器模块1776中包括的至少一个或更多个传感器。根据实施例,可以通过使用处理器1720或与处理器1720分开的处理器(例如,传感器集线器)来控制传感器模块1776。在使用单独的处理器(例如,传感器集线器)的情况下,当处理器1720处于休眠状态时,单独的处理器可以在不唤醒处理器1720的情况下操作以控制传感器模块1776的操作或状态的至少一部分。
根据实施例,接口1777可以包括高清晰度多媒体接口(HDMI)、通用串行总线(USB)、光学接口、推荐标准232(RS-232)、D超小型(D-sub)、移动高清晰度链接(MHL)接口、SD卡/MMC(多媒体卡)接口或音频接口。连接器1778可以以物理方式连接电子设备1701和电子设备1706。根据实施例,连接器1778可以包括例如USB连接器、SD卡/MMC连接器或音频连接器(例如,耳机连接器)。
触觉模块1779可以将电信号转换成机械刺激(例如,振动或运动)或者转换成电刺激。例如,触觉模块1779可以对用户施加触觉或动觉刺激。触觉模块1779可以包括例如电机、压电元件或电刺激器。
相机模块1780可以捕获例如静止图像和运动图片。根据实施例,相机模块1780可以包括至少一个透镜(例如,广角透镜和远摄透镜或前置透镜和后置透镜)、图像传感器、图像信号处理器或闪光灯(例如,发光二极管或氙灯)。
用于管理电子设备1701的电源的电源管理模块1788可以包括电源管理集成电路(PMIC)的至少一部分。
电池1789可以包括一次电池、二次电池或燃料电池并且可以由外部电源再充电以给电子设备1701的至少一个元件供电。
通信模块1790可以在电子设备1701与外部设备(例如,第一外部电子设备1702、第二外部电子设备1704或服务器1708)之间建立通信信道。通信模块1790可以通过所建立的通信信道来支持有线通信或无线通信。根据实施例,通信模块1790可以包括无线通信模块1792或有线通信模块1794。通信模块1790可以经由无线通信模块1792或有线通信模块1794中的相关模块通过第一网络1798(例如,诸如蓝牙或红外数据协会(IrDA)的无线局域网)或第二网络1799(例如,诸如蜂窝网络的无线广域网)与外部设备进行通信。
无线通信模块1792可以支持例如蜂窝通信、本地无线通信、全球导航卫星系统(GNSS)通信。蜂窝通信可以包括例如长期演进(LTE)、高级LTE(LTE-A)、码分多址(CMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)或全球移动通信系统(GSM)。本地无线通信可以包括无线保真(Wi-Fi)、WiFi直连、光保真(Li-Fi)、蓝牙、低功耗蓝牙(BLE)、Zigbee、近场通信(NFC)、磁安全传输(MST)、射频(RF)或体域网(BAN)。GNSS可以包括全球定位系统(GPS)、全球导航卫星系统(Glonass)、北斗导航卫星系统(Beidou)、欧洲全球卫星导航系统(伽利略)等中的至少一种。在本公开中,“GPS”和“GNSS”可以互换地使用。
根据实施例,当无线通信模块1792支持蜂窝通信时,无线通信模块1792可以例如使用用户识别模块(例如,SIM卡)1796来对通信网络内的电子设备1701进行识别或认证。根据实施例,无线通信模块1792可以包括与处理器1720分开的通信处理器(CP)(例如,应用处理器(AP))。在这种情况下,通信处理器可以在处理器1720处于不活动(休眠)状态时代替处理器1720执行与电子设备1701的元件1710至1796中的至少一个相关联的功能的至少一部分,而在处理器1720处于活动状态时与处理器1720一起执行与电子设备1701的元件1710至1796中的至少一个相关联的功能的至少一部分。根据实施例,无线通信模块1792可以包括多个通信模块,每个均支持蜂窝通信、本地无线通信或GNSS通信中的相关通信方案。
有线通信模块1794可以包括例如局域网(LAN)服务、电力线通信或普通老式电话服务(POTS)。
例如,第一网络1798可以采用例如用于通过电子设备1701与第一外部电子设备1702之间的无线直接连接来发送或接收一个或更多个指令或数据的Wi-Fi直连或蓝牙。第二网络1799可以包括用于在电子设备1701与第二电子设备1704之间发送或接收一个或更多个指令或数据的电信网络(例如,诸如LAN或WAN的计算机网络、因特网或电话网络)。
根据各个实施例,可以通过与第二网络1799连接的服务器1708来在电子设备1701与第二外部电子设备1704之间发送或接收一个或更多个指令或数据。第一外部电子设备1702和第二外部电子设备1704中的每一个可以是类型与电子设备1701的类型不同或相同的设备。根据各个实施例,电子设备1701将执行的操作中的全部或一部分可以由另一或者多个电子设备(例如,电子设备1702和1704或服务器1708)执行。根据实施例,在电子设备1701自动地或响应于请求而执行任何功能或服务的情况下,电子设备1701可以不在内部执行该功能或服务,而是可以可替代地或附加地向任何其他设备(例如,电子设备1702或1704或服务器1708)发送对与电子设备1701相关联的功能的至少一部分的请求。另一电子设备(例如,电子设备1702或1704或服务器1708)可以执行所请求的功能或附加功能,并且可以将执行结果发送到电子设备1701。电子设备1701可以使用所接收的结果来提供所请求的功能或服务或者可以附加地处理所接收的结果以提供所请求的功能或服务。为此,例如,可以使用云计算、分布式计算或客户端-服务器计算。
本公开的各个实施例和本文所使用的术语不旨在将本公开中描述的技术限于特定实施例,并且应当理解的是,这些实施例和术语包括关于本文所描述的对应实施例的修改、等同形式和/或替代方案。关于附图的描述,类似的元件可以通过类似的附图标记来标记。除非另外规定,否则单数形式的术语可以包括复数形式。在本文所公开的公开内容中,本文所使用的表述“A或B”、“A和/或B中的至少一个”、“A和/或B中的至少一种”、“A、B或C”或“A、B和/或C中的至少一个”等可以包括所关联列举的项目中的一个或更多个的任何和所有组合。诸如“第一”或“第二”等的表述可以表达它们的元件,而不管它们的优先级或重要性如何,并且可以用于区分一个元件和另一元件区,但是不限于这些组件。当(例如,第一)元件被称为“与”另一(例如,第二)元件“(可操作地或通信地)耦接”或者“(可操作地或通信地)耦接到/连接到”另一(例如,第二)元件时,它可以直接地与另一元件耦接/耦接到或者连接到另一元件,或者可以存在中间元件(例如,第三元件)。
根据情形,本文所使用的表述“被适配为或被配置为”可以被可互换地用作例如表述在硬件或软件方面“适合于”、“具有……的能力”、“被改变为”、“被制成”、“能够”或“被设计为”。表述“被配置为……的设备”可以意味着该设备“能够”与另一设备或其他组件一起操作。例如,“被配置为(或设置为)执行A、B和C的处理器”可以意指用于执行对应操作的专用处理器(例如,嵌入式处理器)或通过执行存储在存储设备(例如,存储器1730)中的一个或更多个软件程序来执行对应操作的通用处理器(例如,中央处理单元(CPU)或应用处理器)。
本文所使用的术语“模块”可以包括用硬件、软件或固件实现的单元,并且可以与术语“逻辑”、“逻辑块”、“组件”、“电路”等可互换地使用。“模块”可以是集成组件的最小单元或其一部分或者可以是用于执行一个或更多个功能的最小单元或其一部分。“模块”可以被机械地或电子地实现,并且可以包括例如用于执行已知或将被开发的一些操作的专用IC(ASIC)芯片、现场可编程门阵列(FPGA)和可编程逻辑器件。
根据各个实施例,装置(例如,其模块或功能)或方法(例如,操作)的至少一部分可以例如通过以程序模块的形式存储在计算机可读存储介质(例如,存储器1730)中的指令来实现。指令当由处理器(例如,处理器1720)执行时,可以使该处理器执行与该指令相对应的功能。计算机可读记录介质可以包括硬盘、软盘、磁介质(例如,磁带)、光学介质(例如,紧致盘只读存储器(CD-ROM)和数字通用盘(DVD)、磁光介质(例如,软光盘))、嵌入式存储器等。一个或更多个指令可以包含由编译器作出的代码或可由解释器执行的代码。
根据各个实施例的每个元件(例如,模块或程序模块)可以作为单个实体或多个实体被实现,上述子元件的一部分可以被省略或者可以进一步包括其他子元件。可替代地或附加地,在被集成在一个实体中之后,一些元件(例如,模块或程序模块)可以同样地或类似地执行由每个对应元件在集成之前执行的功能。根据各个实施例,可以通过连续方法、并行方法、重复方法或启发式方法来执行由模块、程序模块或其他元件执行的操作,或者可以以不同的顺序执行或省略这些操作的至少一个部分。替代地,可以添加其他操作。
虽然已经参考本公开的各个实施例示出并描述了本公开,但是本领域的技术人员应理解的是,在不脱离如由所附权利要求及其等同形式限定的本公开的情况下,可以在其中作出形式和细节上的各种变化。

Claims (15)

1.一种电子设备,包括:
网络接口;
至少一个处理器,所述至少一个处理器与所述网络接口可操作地连接;以及
至少一个存储器,所述至少一个存储器存储有指令并且与所述至少一个处理器可操作地连接,所述指令可由所述至少一个处理器执行以:
通过所述网络接口接收从第一外部设备发送的话音输入,所述话音输入包括使用未在所述话音输入中指示的至少一个应用来执行功能的请求,
通过对所述话音输入执行自动语音识别来从所述话音输入中提取第一文本,
当至少部分地基于所述第一文本识别出所述至少一个应用时,通过所述网络接口向所述第一外部设备发送与所识别的至少一个应用相关联的第二数据以由所述第一外部设备显示,以及
当至少部分地基于所述第一文本未识别出所述至少一个应用时,
通过对所述第一文本执行自然语言理解来重新尝试识别所述至少一个应用。
2.根据权利要求1所述的电子设备,其中,所述指令使所述至少一个处理器:
通过将所述第一文本与多个预先存储的句子、多个预先存储的短语和多个预先存储的词中的至少一个相比较来识别所述至少一个应用程序。
3.根据权利要求1所述的电子设备,其中,所述指令使所述至少一个处理器:
对所述第一文本执行所述自然语言理解以识别指示了由所述第一文本指示的一组预先存储的用户意图的域。
4.根据权利要求1所述的电子设备,其中,所识别的至少一个应用程序包括可从应用程序商店下载的应用程序、网站应用程序和交互式代理程序中的至少一个。
5.根据权利要求1所述的电子设备,其中,所述指令使所述至少一个处理器:
当通过执行所述自然语言理解未识别出所述至少一个应用时,对所述第一文本执行因特网搜索。
6.根据权利要求1所述的电子设备,其中,所述指令使所述至少一个处理器:
在所述第二数据被发送到所述第一外部设备进行显示之后,接收从所述第一外部设备发送的用户选择。
7.根据权利要求6所述的电子设备,其中,所述指令使所述至少一个处理器:
基于所述用户选择,向所述第一外部设备发送允许执行所述功能的第一指示。
8.根据权利要求6所述的电子设备,其中,所述指令使所述至少一个处理器:
基于所述用户选择,向所述第一外部设备发送允许显示由外部服务器执行所述功能的结果的第二指示。
9.根据权利要求6所述的电子设备,其中,所述指令使所述至少一个处理器:
根据对所识别的至少一个应用可用的功能的选择来执行所述功能,所述功能源自可下载的应用程序、网站应用程序和交互式代理程序中的至少一个。
10.一种话音处理方法,所述方法包括:
通过网络接口接收从第一外部设备发送的话音输入,所述话音输入包括使用未在所述话音输入中指示的至少一个应用来执行功能的请求,
由至少一个处理器通过对所述话音输入执行自动语音识别来从所述话音输入中提取第一文本,
当至少部分地基于所述第一文本识别出所述至少一个应用时,通过所述网络接口向所述第一外部设备发送与所识别的至少一个应用相关联的第二数据以由所述第一外部设备显示,以及
当至少部分地基于所述第一文本未识别出所述至少一个应用时,通过对所述第一文本执行自然语言理解来重新尝试识别所述至少一个应用。
11.根据权利要求10所述的方法,还包括:
通过将所述第一文本与多个预先存储的句子、多个预先存储的短语和多个预先存储的单词中的至少一个相比较来识别所述至少一个应用程序。
12.根据权利要求10所述的方法,还包括:
对所述第一文本执行所述自然语言理解以识别指示了由所述第一文本指示的一组预先存储的用户意图的域。
13.根据权利要求10所述的方法,还包括:
当通过执行所述自然语言理解未识别出所述至少一个应用时,对所述第一文本执行因特网搜索。
14.根据权利要求10所述的方法,进一步包括:
在所述第二数据被发送到所述第一外部设备进行显示之后,接收从所述第一外部设备发送的用户选择。
15.根据权利要求14所述的方法,进一步包括:
基于所述用户选择,向所述第一外部设备发送允许执行所述功能的指示。
CN201810746786.XA 2017-07-10 2018-07-09 话音处理方法以及支持该话音处理方法的电子设备 Active CN109243432B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170087373A KR102445382B1 (ko) 2017-07-10 2017-07-10 음성 처리 방법 및 이를 지원하는 시스템
KR10-2017-0087373 2017-07-10

Publications (2)

Publication Number Publication Date
CN109243432A true CN109243432A (zh) 2019-01-18
CN109243432B CN109243432B (zh) 2024-01-05

Family

ID=64902822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810746786.XA Active CN109243432B (zh) 2017-07-10 2018-07-09 话音处理方法以及支持该话音处理方法的电子设备

Country Status (4)

Country Link
US (2) US10839806B2 (zh)
KR (1) KR102445382B1 (zh)
CN (1) CN109243432B (zh)
WO (1) WO2019013510A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146437A (ja) * 2016-02-17 2017-08-24 本田技研工業株式会社 音声入力処理装置
CN110798829B (zh) * 2018-08-01 2021-08-24 维沃移动通信有限公司 能力管理方法及通信设备
WO2020091503A1 (en) * 2018-11-01 2020-05-07 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
KR20200050373A (ko) * 2018-11-01 2020-05-11 삼성전자주식회사 전자 장치 및 그의 제어 방법
KR102088322B1 (ko) * 2018-11-16 2020-03-12 엘지전자 주식회사 인공지능 기반의 어플라이언스 제어 장치 및 그를 포함하는 어플라이언스 제어 시스템
US11128682B2 (en) * 2018-12-03 2021-09-21 At&T Intellectual Property I, L.P. Video streaming at mobile edge
KR20200099036A (ko) * 2019-02-13 2020-08-21 삼성전자주식회사 음성 인식 기능을 이용한 동작을 수행하는 전자 장치 및 이를 이용한 동작과 관련된 알림을 제공하는 방법
US11372650B2 (en) * 2019-02-28 2022-06-28 Roots Automation, Inc. System, apparatus, and method for exception handling between an automated software system and a human operator
KR20200107058A (ko) * 2019-03-06 2020-09-16 삼성전자주식회사 복수 개의 엔드 포인트가 포함된 플랜들을 처리하는 방법 및 그 방법을 적용한 전자 장치
WO2020222539A1 (en) * 2019-05-02 2020-11-05 Samsung Electronics Co., Ltd. Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same
US11282052B2 (en) * 2019-05-06 2022-03-22 Advanced New Technologies Co., Ltd. Payment channel recommendation
KR102519619B1 (ko) * 2019-07-05 2023-04-10 한국전자통신연구원 자동통역 기반 개인 비서 서비스 제공 장치 및 그 방법
US11551012B2 (en) 2019-07-05 2023-01-10 Electronics And Telecommunications Research Institute Apparatus and method for providing personal assistant service based on automatic translation
CN110503959B (zh) * 2019-09-03 2022-02-22 腾讯科技(深圳)有限公司 语音识别数据分发方法、装置、计算机设备及存储介质
CN110718223B (zh) * 2019-10-28 2021-02-12 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质
CN110910890A (zh) * 2019-12-11 2020-03-24 微创(上海)网络技术股份有限公司 一种自然语言的识别处理方法及系统
CN111428512B (zh) * 2020-03-27 2023-12-12 大众问问(北京)信息科技有限公司 一种语义识别方法、装置及设备
KR102425276B1 (ko) 2020-08-24 2022-07-26 에스케이플래닛 주식회사 챗봇 서비스 제공 방법 및 장치
KR102475796B1 (ko) 2020-09-17 2022-12-08 에스케이플래닛 주식회사 조건식 생성 인터페이스를 이용한 챗봇 서비스 제공 방법 및 장치
KR102466947B1 (ko) 2020-09-22 2022-11-14 에스케이플래닛 주식회사 슬롯 필링 기반의 챗봇 서비스 제공 방법 및 장치
KR102518901B1 (ko) 2020-09-22 2023-04-07 에스케이플래닛 주식회사 블록 컴포넌트를 이용한 챗봇 서비스 제공 방법 및 장치
KR20220078866A (ko) * 2020-12-04 2022-06-13 삼성전자주식회사 외부 장치의 음성 기반 제어를 위한 방법 및 그 전자 장치
EP4047599A4 (en) * 2020-12-23 2022-12-21 Samsung Electronics Co., Ltd. METHOD FOR PROVIDING VOICE-BASED CONTENT AND ASSOCIATED ELECTRONIC DEVICE
US20220293096A1 (en) * 2021-03-09 2022-09-15 Sony Group Corporation User-oriented actions based on audio conversation

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1129449A1 (en) * 1998-10-16 2001-09-05 Telefonaktiebolaget LM Ericsson (publ) Voice control of a user interface to service applications
KR20120127773A (ko) * 2011-05-16 2012-11-26 경북대학교 산학협력단 음성인식 정보검색 시스템 및 그 방법
CN103198830A (zh) * 2007-12-31 2013-07-10 摩托罗拉移动公司 用于实现分布式多模式应用的方法和设备
US20140379338A1 (en) * 2013-06-20 2014-12-25 Qnx Software Systems Limited Conditional multipass automatic speech recognition
KR20150095624A (ko) * 2012-12-11 2015-08-21 뉘앙스 커뮤니케이션즈, 인코포레이티드 다수의 개인을 위한 가상 에이전트 추천 시스템 및 방법
CN105393302A (zh) * 2013-07-17 2016-03-09 三星电子株式会社 多级语音识别
US9361084B1 (en) * 2013-11-14 2016-06-07 Google Inc. Methods and systems for installing and executing applications
US9443527B1 (en) * 2013-09-27 2016-09-13 Amazon Technologies, Inc. Speech recognition capability generation and control
US20170110117A1 (en) * 2015-10-15 2017-04-20 Samsung Electronics Co., Ltd. Method for recognizing voice signal and electronic device supporting the same
US20180315425A1 (en) * 2012-12-19 2018-11-01 Amazon Technologies, Inc. Architecture for multi-domain natural language processing

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
CN109949815A (zh) 2014-04-07 2019-06-28 三星电子株式会社 电子装置
EP3161666A1 (en) 2014-06-25 2017-05-03 Nuance Communications, Inc. Semantic re-ranking of nlu results in conversational dialogue applications
US9548066B2 (en) * 2014-08-11 2017-01-17 Amazon Technologies, Inc. Voice application architecture
KR101579292B1 (ko) 2014-08-29 2015-12-21 서울대학교 산학협력단 범용 음성인식 제어 장치 및 제어 방법
US9552816B2 (en) * 2014-12-19 2017-01-24 Amazon Technologies, Inc. Application focus in speech-based systems
US9666192B2 (en) * 2015-05-26 2017-05-30 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
US20180039478A1 (en) * 2016-08-02 2018-02-08 Google Inc. Voice interaction services
KR20180022021A (ko) * 2016-08-23 2018-03-06 삼성전자주식회사 음성 인식 방법 및 이를 수행하는 전자 장치
US11189273B2 (en) * 2017-06-29 2021-11-30 Amazon Technologies, Inc. Hands free always on near field wakeword solution

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1129449A1 (en) * 1998-10-16 2001-09-05 Telefonaktiebolaget LM Ericsson (publ) Voice control of a user interface to service applications
CN103198830A (zh) * 2007-12-31 2013-07-10 摩托罗拉移动公司 用于实现分布式多模式应用的方法和设备
KR20120127773A (ko) * 2011-05-16 2012-11-26 경북대학교 산학협력단 음성인식 정보검색 시스템 및 그 방법
KR20150095624A (ko) * 2012-12-11 2015-08-21 뉘앙스 커뮤니케이션즈, 인코포레이티드 다수의 개인을 위한 가상 에이전트 추천 시스템 및 방법
US20180315425A1 (en) * 2012-12-19 2018-11-01 Amazon Technologies, Inc. Architecture for multi-domain natural language processing
US20140379338A1 (en) * 2013-06-20 2014-12-25 Qnx Software Systems Limited Conditional multipass automatic speech recognition
CN105393302A (zh) * 2013-07-17 2016-03-09 三星电子株式会社 多级语音识别
US9443527B1 (en) * 2013-09-27 2016-09-13 Amazon Technologies, Inc. Speech recognition capability generation and control
US9361084B1 (en) * 2013-11-14 2016-06-07 Google Inc. Methods and systems for installing and executing applications
US20170110117A1 (en) * 2015-10-15 2017-04-20 Samsung Electronics Co., Ltd. Method for recognizing voice signal and electronic device supporting the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁汉泉 等: "基于语音控制的人机交互智能系统研究", 《新技术新工艺》, no. 9, pages 84 - 86 *

Also Published As

Publication number Publication date
KR20190006403A (ko) 2019-01-18
US10839806B2 (en) 2020-11-17
US20210065716A1 (en) 2021-03-04
US11670302B2 (en) 2023-06-06
US20190013024A1 (en) 2019-01-10
CN109243432B (zh) 2024-01-05
WO2019013510A1 (en) 2019-01-17
KR102445382B1 (ko) 2022-09-20

Similar Documents

Publication Publication Date Title
CN109243432A (zh) 话音处理方法以及支持该话音处理方法的电子设备
US10909982B2 (en) Electronic apparatus for processing user utterance and controlling method thereof
US11145302B2 (en) System for processing user utterance and controlling method thereof
US11435980B2 (en) System for processing user utterance and controlling method thereof
US11042703B2 (en) Method and device for generating natural language expression by using framework
CN108121490A (zh) 用于处理多模式输入的电子装置、方法和服务器
CN110288987A (zh) 用于处理声音数据的系统和控制该系统的方法
CN108829235A (zh) 语音数据处理方法和支持该方法的电子设备
CN108735204A (zh) 用于执行与用户话语相对应的任务的设备
US20190019509A1 (en) Voice data processing method and electronic device for supporting the same
KR102389996B1 (ko) 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법
CN109102802A (zh) 用于处理用户话语的系统
KR102343084B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
KR102440651B1 (ko) 자연어 표현 제공 방법 및 이를 지원하는 전자 장치
KR102369083B1 (ko) 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
KR102472010B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
KR102369309B1 (ko) 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치
CN110308886A (zh) 提供与个性化任务相关联的声音命令服务的系统和方法
US20190163436A1 (en) Electronic device and method for controlling the same
KR102396147B1 (ko) 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법
CN109309754B (zh) 用于获取和键入缺少参数的电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant