CN109272994A - 话音数据处理方法以及支持该话音数据处理方法的电子装置 - Google Patents

话音数据处理方法以及支持该话音数据处理方法的电子装置 Download PDF

Info

Publication number
CN109272994A
CN109272994A CN201810786342.9A CN201810786342A CN109272994A CN 109272994 A CN109272994 A CN 109272994A CN 201810786342 A CN201810786342 A CN 201810786342A CN 109272994 A CN109272994 A CN 109272994A
Authority
CN
China
Prior art keywords
expression
information
module
user
mapped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810786342.9A
Other languages
English (en)
Inventor
李多顺
余在永
全镛俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN109272994A publication Critical patent/CN109272994A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

公开了一种电子装置及其话音数据处理方法。所述装置包括通信电路、至少一个处理器和至少一个存储器。所述存储器存储可由所述处理器执行以实现所述方法的指令,所述方法包括:经由所述通信电路从外部装置获得话音数据;将所述话音数据转换成文本数据;检测包括在所述文本数据中的至少一个表达;当所述至少一个表达包括映射到第一任务的第一表达时,经由所述通信电路向所述外部装置发送指示与执行所述第一任务相关联的状态的序列的第一信息;以及当所述至少一个表达不包括所述第一表达而包括与所述第一表达不同的第二表达并且所述第二表达被映射到存储在数据库中的所述第一表达时,经由所述通信电路将所述第一信息发送到所述外部装置。

Description

话音数据处理方法以及支持该话音数据处理方法的电子装置
技术领域
本公开涉及用于话音数据处理的技术,并且更具体地,涉及使用机器学习算法的人工智能(AI)系统中的话音数据处理及其应用。
背景技术
AI系统(或集成智能系统)是指通过它自己来训练和判断并且随着它被使用而提高识别率的系统,作为实现人类智能的计算机系统。
AI技术可以包括使用通过本身来对输入数据的特性进行分类或训练的算法的机器学习(深度学习)技术以及使用机器学习算法来模拟人脑的功能(例如,识别、决策等)的元素技术。
例如,元素技术可以包括例如以下各项中的至少一种:用于识别人类的语言或字符的语言理解技术、用于识别像人类视觉这样的对象的视觉理解技术、用于确定信息以对所确定的信息进行逻辑上的推理和预测的推理/预测技术、用于将人类体验信息处理为知识数据的知识表达技术以及用于控制车辆的自主驾驶和机器人的运动的操作控制技术。
以上提及的元素技术当中的语言理解技术包括识别和应用/处理人类语言/字符的技术,并且可以包括自然语言处理、机器翻译、对话系统、问答、语音识别/合成等。
同时,如果指定的硬件键被按压或者如果通过麦克风输入指定的话音,则配备有AI系统的电子装置可以执行诸如语音识别app的智能app(或应用)并且可以进入空闲状态以便通过智能app来接收用户的话音输入。例如,电子装置可以在其显示器的屏幕上显示智能app的用户界面(UI)。如果UI上的话音输入按钮被触摸,则电子装置可以接收用户的话音输入。
进一步,电子装置可以向智能服务器发送与所接收到的话音输入相对应的话音数据。在这种情况下,智能服务器可以将所接收到的话音数据转换成文本数据并且可以基于经转换的文本数据确定与要由电子装置执行的任务相关联的电子装置的状态的序列的信息,例如,路径规则。此后,电子装置可以从智能服务器接收路径规则并且可以根据路径规则执行任务。
以上信息仅作为背景信息被呈现来协助理解本公开。至于上述任何内容是否可能适用作为关于本公开的现有技术,尚未作出确定,并且尚未作出断言。
发明内容
然而,当用于显式地地请求执行任务的表达未被包括在文本数据中时,常规的电子装置可能无法确定路径规则。例如,如果可由外部装置执行来执行任务的应用的标识符、被设置为执行应用的功能的命令等未被包括在文本数据中,则电子装置可能无法确定关于与执行任务相关联的外部装置的状态的序列的信息。因此,外部装置可能无法执行任务。
本公开的各方面是为了至少解决以上提及的问题和/或缺点并且为了至少提供在下面描述的优点。因此,本公开的一个方面是为了提供一种话音数据处理方法以及一种用于支持该话音数据处理方法的系统,所述话音数据处理方法用于尽管用于显式地请求执行任务的表达(例如,显式表达或直接表达)未被包括在通过将由响应于用户的发声输入而获得的话音数据转换成文本格式所获得的文本数据中,然而当存在映射到所述表达的另一表达(例如,隐式表达或间接表达)时,执行所述任务。
依照本公开的一个方面,公开了一种电子装置,所述电子装置包括:网络接口;至少一个处理器,所述至少一个处理器被配置为与所述网络接口可操作地连接;以及至少一个存储器,所述至少一个存储器被配置为与所述至少一个处理器可操作地连接。所述至少一个存储器存储指令,所述指令当被执行时,使所述至少一个处理器在第一操作中:通过所述网络接口从包括麦克风的第一外部装置接收与第一用户输入相关联的第一数据,所述第一用户输入包括用于使用所述第一外部装置或第二外部装置中的至少一个来执行任务的显式请求,使用自然理解处理来标识通过所述第一用户输入请求的功能,确定可由所述第一外部装置或所述第二外部装置执行以便执行所请求的功能的状态的序列,使用所述网络接口来向所述第一外部装置和所述第二外部装置中的至少一个发送指示所确定的所述状态的序列的第一信息,在第二操作中:通过所述网络接口从第一外部装置接收与第二用户输入相关联的第二数据,所述第二用户输入包括自然语言表达,根据所述自然语言表达标识所述功能,至少部分地基于功能与由所述电子装置先前接收到的自然语言表达的映射,确定可由所述第一外部装置或所述第二外部装置执行以便执行所标识的功能的所述状态的序列,并且使用所述网络接口来向所述第一外部装置和所述第二外部装置中的至少一个发送指示所述状态的序列的第二信息。
依照本公开的另一方面,一种电子装置包括:通信电路;至少一个处理器,所述至少一个处理器被配置为与所述通信电路可操作地连接;以及至少一个存储器,所述至少一个存储器被配置为与所述至少一个通信电路可操作地连接。所述至少一个存储器存储指令,所述指令当被执行时,使所述至少一个处理器:经由所述通信电路从外部装置获得话音数据,将所述话音数据转换成文本数据,检测包括在所述文本数据中的至少一个表达,当所述至少一个表达包括映射到第一任务的第一表达时,经由所述通信电路向所述外部装置发送指示与执行所述第一任务相关联的状态的序列的第一信息,以及当所述至少一个表达不包括所述第一表达而包括与所述第一表达不同的第二表达并且所述第二表达被映射到存储在数据库(DB)中的所述第一表达时,经由所述通信电路将所述第一信息发送到所述外部装置。
依照本公开的另一方面,一种电子装置的话音数据处理方法包括:经由所述电子装置的通信电路从外部装置获得话音数据,由处理器将所述话音数据转换成文本数据,当所述至少一个表达包括第一表达时,经由所述通信电路向所述外部装置发送指示与执行所述第一任务相关联的状态的序列的第一信息,当所述至少一个表达不包括所述第一表达而包括与所述第一表达不同的第二表达并且所述第二表达被映射到存储在数据库(DB)中的所述第一表达时,经由所述通信电路将所述第一信息发送到所述外部装置。
根据本公开中公开的实施例,尽管用户未说出用于显式地请求执行任务的表达,也就是说,尽管他或她提供隐式发声(例如,间接发声)而不是显式发声(或直接发声),然而电子装置可以执行任务,从而增加可用性和方便性。
另外,可以提供通过本公开直接地或间接地探知的各种效果。
从结合附图公开了本公开的各种实施例的以下详细描述中,本公开的其它方面、优点和显著特征对于本领域的技术人员而言将变得显而易见。
附图说明
从结合附图的以下描述中,本公开的某些实施例的以上及其它方面、特征和优点将更显而易见,在附图中:
图1是例示了根据本公开的各种实施例的集成智能系统的图。
图2是例示了根据本公开的实施例的集成智能系统的用户终端的框图。
图3是例示了根据本公开的实施例的用于执行用户终端的智能app的方法的图。
图4是例示了根据本公开的实施例的用于在智能服务模块的环境模块(contextmodule)处收集当前状态的方法的图。
图5是例示了根据本公开的实施例的智能服务模块的提议模块(proposalmodule)的框图。
图6是例示了根据本公开的实施例的集成智能系统的智能服务器的框图。
图7是例示了根据本公开的实施例的用于在路径规划器模块处生成路径规则的方法的图。
图8是例示了根据本公开的实施例的用于在智能服务模块的角色模块处管理用户信息的方法的框图。
图9是例示了根据本公开的实施例的与处理话音数据相关联的系统的操作方法的流程图。
图10是例示了根据本公开的实施例的与对隐式发声进行训练相关联的系统的操作方法的流程图。
图11是例示了根据本公开的实施例的与处理用多个显式表达映射的隐式表达相关联的系统的操作方法的流程图。
图12是例示了根据本公开的实施例的与处理多个隐式表达相关联的系统的操作方法的流程图。
图13是例示了根据本公开的实施例的与处理多个隐式表达相关联的系统的另一操作方法的流程图。
图14是例示了根据本公开的实施例的与处理话音数据相关联的屏幕的图。
图15是例示了根据本公开的实施例的在隐式发声时不执行任务的情况的图。
图16是例示了根据本公开的实施例的在隐式发声时执行任务的情况的图。
图17是例示了根据本公开的实施例的用于处理用多个显式表达映射的隐式表达的方法的图。
图18是例示了根据本公开的实施例的与对隐式发声进行训练相关联的屏幕的图。
图19例示了根据各种实施例的网络环境中的电子装置的框图。
在整个附图中,应当注意的是,相似的附图标记用于描绘相同或相似的元件、特征和结构。
具体实施方式
在下文中,可以将本公开的各种实施例描述为与附图相关联。因此,本领域的普通技术人员将认识到,在不脱离本公开的情况下,可对本文所描述的各种实施例进行各种修改、等同和/或替代。
在描述本公开的实施例之前,将给出本公开的实施例被应用于的集成智能系统的描述。
图1是例示了根据本公开的各种实施例的集成智能系统的图。
参考图1,集成智能系统10可以包括用户终端100、智能服务器200、个人信息服务器300或提议服务器400。
用户终端100可以通过存储在用户终端100中的app(或应用程序)(例如,闹钟app、消息app、照片(图库)app等)来为用户提供服务。例如,用户终端100可以通过存储在用户终端100中的智能app(或语音识别app)来执行和操作另一app。用户终端100可以接收用于通过智能app来执行另一app并执行动作的用户输入。可以通过例如物理按钮、触摸板、话音输入、远程输入等来接收用户输入。根据实施例,用户终端100可以对应于可连接到互联网的各种终端装置(或各种电子装置)中的每一个,例如,移动电话、智能电话、个人数字助理(PDA)或笔记本计算机。
根据实施例,用户终端100可以接收用户的发声作为用户输入。用户终端100可以接收用户的发声并且可以基于用户的发声生成用于操作app的命令。因此,用户终端100可以使用命令来操作app。
智能服务器200可以通过通信网络从用户终端100接收用户的话音输入(或话音数据)并且可以将该话音输入改变(或转换)为文本数据。在另一示例中,智能服务器1200可以基于文本数据生成(或选择)路径规则。路径规则可以包括关于与要由电子装置执行的任务相关联的特定电子装置(例如,用户终端100)的状态的序列的信息。例如,路径规则可以包括关于用于执行安装在电子装置中的app的功能的动作(或操作)的信息或关于可利用来执行动作的参数的信息。进一步,路径规则可以包括动作的顺序。用户终端100可以接收路径规则并且可以根据路径规则来选择app,从而在所选择的app中执行包括在路径规则中的动作。
一般而言,本公开中的术语“路径规则”可以指代但不限于用于电子装置执行由用户请求的任务的状态的序列。换句话说,路径规则可以包括关于状态的序列的信息。任务可以是例如能够被智能app应用的任何动作。任务可以包括生成日程、向期望的目标发送照片或提供天气信息。用户终端100可以通过顺序地具有至少一个或多个状态(例如,用户终端100的动作状态)来执行任务。
根据实施例,路径规则可以由人工智能(AI)系统提供或生成。AI系统可以是基于规则的系统或者可以是基于神经网络的系统(例如,前馈神经网络(FNN)或递归神经网络(RNN))。或者,AI系统可以是以上提及的系统的组合或不同于以上提及的系统的AI系统。根据实施例,可以从一组预定义路径规则中选择路径规则,或者可以响应于用户请求而实时生成路径规则。例如,AI系统可以选择多个预定义路径规则中的至少一个或者可以在动态基础上(或在实时基础上)生成路径规则。进一步,用户终端100可以使用用于提供路径规则的混合系统。
根据实施例,用户终端100可以执行动作并且可以在其显示器上显示与执行动作的用户终端100的状态相对应的屏幕。又例如,用户终端100可以执行动作并且可能无法在显示器上显示执行动作的结果。又例如,用户终端100可以执行多个动作并且可以在显示器上显示执行所述多个动作中的一些的结果。例如,用户终端100可以在显示器上显示执行最终顺序的动作的结果。又例如,用户终端100可以接收用户的输入并且可以在显示器上显示执行动作的结果。
个人信息服务器300可以包括存储有用户信息的数据库(DB)。例如,个人信息服务器300可以从用户终端100接收用户信息(例如,环境信息、app执行信息等)并且可以将所接收到的用户信息存储在DB中。智能服务器200可以通过通信网络从个人信息服务器300接收用户信息并且可以在针对用户输入生成路径规则时使用用户信息。根据实施例,用户终端100可以通过通信网络从个人信息服务器300接收用户信息并且可以将该用户信息用作用于管理DB的信息。
提议服务器400可以包括存储关于用户终端100中的功能或者要在应用中引入或提供的功能的信息的DB。例如,提议服务器400可以从个人信息服务器300接收用户终端100的用户信息并且可以使用该用户信息来实现用于能够由用户使用的功能的DB。用户终端100可以通过通信网络从提议服务器400接收关于要提供的功能的信息并且可以将所接收到的信息提供给用户。
图2是例示了根据本公开的实施例的集成智能系统的用户终端的框图。
参考图2,用户终端100可以包括输入模块110、显示器120、扬声器130、存储器140或处理器150。用户终端100可以进一步包括外壳。用户终端100的元件可以被容纳在外壳中或者可以位于外壳上。
根据实施例的输入模块110可以接收来自用户的用户输入。例如,输入模块110可以接收来自连接到输入模块110的外部装置(例如,键盘或头戴式耳机)的用户输入。又例如,输入模块110可以包括与显示器120组合的触摸屏幕(例如,触摸屏幕显示器)。又例如,输入模块110可以包括位于用户终端100(或用户终端100的外壳)中的硬件键(或物理键)。
根据实施例,输入模块110可以包括能够接收用户的发声作为话音信号(或话音数据)的麦克风(例如,图3的麦克风111)。例如,输入模块110可以包括话音输入系统并且可以经由该话音输入系统接收用户的发声作为话音信号。
根据实施例的显示器120可以显示执行图像或视频和/或执行应用的屏幕。例如,显示器120可以显示app的图形用户界面(GUI)。
根据实施例,扬声器130可以输出话音信号。例如,扬声器130可以向外部输出在用户终端100中生成的话音信号。
根据实施例,存储器140可以存储多个app(或应用程序)141和143。可以根据用户输入来选择、执行和操作存储在存储器140中的多个app 141和143。
根据实施例,存储器140可以包括能够存储可利用来识别用户输入的信息的DB。例如,存储器140可以包括能够存储日志信息的日志DB。又例如,存储器140可以包括能够存储用户信息的角色DB。
根据实施例,存储器140可以存储多个app 141和143。可以多个app 141和143以操作。例如,存储在存储器140中的多个app 141和143可以由处理器150的执行管理器模块153加载以操作。多个app 141和143可以分别包括用于执行功能的执行服务模块141a和143a。在实施例中,多个app 141和143可以分别通过执行服务模块141a和143a执行多个动作1141b和1143b(例如,状态的序列)以执行功能。换句话说,执行服务模块141a和143a可以由执行管理器模块153激活并且可以分别执行多个动作141b和143b。
根据实施例,当app 141和143的动作141b和143b被执行时,可以在显示器120上显示根据动作141b和143b的执行的执行状态屏幕(或执行屏幕)。执行状态屏幕可以是例如动作141b和143b完成的状态的屏幕。又例如,执行状态屏幕可以是例如动作141b和143b的执行被停止(例如,当未输入可供动作141b和143b利用的参数时)的状态(部分登陆(partiallanding))的屏幕。
根据实施例的执行服务模块141a和143a可以根据路径规则分别执行动作141b和143b。例如,执行服务模块141a和143a可以由执行管理器模块153激活,并且可以通过根据路径规则从执行管理器模块153接收执行请求并且根据执行请求执行动作141b和143b来执行app 141和143中的每一个的功能。当动作141b和143b的执行完成时,执行服务模块141a和143a可以向执行管理器模块153发送完成信息。
根据实施例,当在app 141和143中分别执行多个动作141b和143b时,可以顺序地执行多个动作141b和143b。当一个动作(例如,第一app 141的动作1或第二app 143的动作1)的执行完成时,执行服务模块141a和143a可以打开下一个动作(例如,第一app 141的动作2或第二app 143的动作2)并且可以向执行管理器模块153发送完成信息。在本文中,打开任何动作可以被理解为将任何操作改变为可执行状态或者为执行任何动作做准备。换句话说,当任何操作未被打开时,可能无法执行它。当接收到完成信息时,执行管理器模块153可以向执行服务模块141b和143b发送要执行下一个动作(例如,第一app 141的动作2或第二app 143的动作2)的请求。根据实施例,当多个app 141和143被执行时,它们可以被顺序地执行。当在第一app141的最终动作(例如,动作3)的执行完成之后从第一执行服务模块141a接收到完成信息时,执行管理器模块153可以向第二执行服务模块143a发送要执行第二app143的第一动作(例如,动作1)的请求。
根据实施例,当在app 141和143中分别执行多个动作141b和143b时,可以在显示器120上显示根据多个动作141b和143b中的每一个的执行的结果屏幕。在一些实施例中,可以在显示器120上显示根据多个动作141b和143b的执行的多个结果屏幕中的一些。
根据实施例,存储器140可以存储与智能代理151互通的智能app(例如,语音识别app)。与智能代理151互通的app可以将用户的发声作为话音信号(或话音数据)来接收和处理。根据实施例,可以通过经由输入模块110输入的特定输入(例如,通过硬件键的输入、通过触摸屏的输入或具体话音输入)来操作与智能代理151互通的app。
根据实施例,处理器150可以控制用户终端100的整体操作。例如,处理器150可以控制输入模块110接收用户输入。又例如,处理器150可以控制显示器120显示图像。又例如,处理器150可以控制扬声器130输出话音信号。又例如,处理器150可以控制存储器140预取或存储可利用的信息。
根据实施例,处理器150可以包括智能代理151、执行管理器模块153或者智能服务模块155。在实施例中,处理器150可以执行存储在存储器140中的指令以驱动智能代理151、执行管理器模块153或智能服务模块155。在本公开的各种实施例中描述的若干模块可以用硬件或软件加以实现。在本公开的各种实施例中,由智能代理151、执行管理器模块153或智能服务模块155执行的操作可以被理解为由处理器150执行的操作。
根据实施例的智能代理151可以基于作为用户输入接收的话音信号(或话音数据)生成用于操作app的命令。根据实施例的执行管理器模块153可以从智能代理151接收所生成的命令并且可以基于所生成的命令选择、执行和操作存储在存储器140中的app 141和143。根据实施例,智能服务模块155可以管理用户信息并且可以使用该用户信息来处理用户输入。
智能代理151可以将通过输入模块110接收到的用户输入发送到智能服务器200。
根据实施例,智能代理151可以在将用户输入发送到智能服务器200之前预处理用户输入。根据实施例,为了预处理用户输入,智能代理151可以包括自适应回声消除器(AEC)模块、噪声抑制(NS)模块、结束点检测(EPD)模块或自动增益控制(AGC)模块。AEC模块可以消除包括在用户输入中的回声。NS模块可以抑制包括在用户输入中的背景噪声。EPD模块可以检测包括在用户输入中的用户话音的结束点并且可以查找存在用户的话音的一部分(例如,浊音带)。AGC模块可以调整用户输入的音量以适合于识别并处理用户输入。根据实施例,智能代理151可以包括用于执行的所有预处理元件。然而,在另一实施例中,智能代理151可以包括这些预处理元件中的一些以按低功率而操作。
根据实施例,智能代理151可以包括用于识别用户的呼叫的唤醒识别模块。唤醒识别模块可以通过语音识别模块来识别用户的唤醒命令(例如,唤醒词)。当接收到唤醒命令时,唤醒识别模块可以激活智能代理151以接收用户输入。根据实施例,可以在低功率处理器(例如,包括在音频编解码器中的处理器)中实现智能代理151的唤醒识别模块。根据实施例,可以根据通过硬件键的用户输入来激活智能代理151。当智能代理151被激活时,可以执行与智能代理151互通的智能app(例如,语音识别app)。
根据实施例,智能代理151可以包括用于执行用户输入的语音识别模块。语音识别模块可以识别用于在app中执行动作的用户输入。例如,语音识别模块可以识别用于执行诸如唤醒命令(例如,像用于在相机app被执行的同时执行图像捕获操作的“咔嗒声”这样的发声)的动作的有限用户(话音)输入。帮助智能服务器200识别用户输入的语音识别模块可以识别并快速地处理例如能够在用户终端100中被处理的用户命令。根据实施例,可以在app处理器中实现用于执行智能代理151的用户输入的语音识别模块。
根据实施例,智能代理151中的语音识别模块(包括唤醒识别模块的语音识别模块)可以使用用于识别话音的算法来识别用户输入。用于识别话音的算法可以是例如隐马尔可夫模型(HMM)算法、人工神经网络(ANN)算法或动态时间规整(DTW)算法中的至少一种。
根据实施例,智能代理151可以将用户的话音输入(或话音数据)转换成文本数据。根据实施例,智能代理151可以向智能服务器200发送用户的话音,并且智能服务器200可以将用户的话音转换成文本数据。智能代理151可以接收经转换的文本数据。因此,智能代理151可以在显示器120上显示文本数据。
根据实施例,智能代理151可以接收从智能服务器200发送的路径规则。根据实施例,智能代理151可以将路径规则发送到执行管理器模块153。
根据实施例,智能代理151可以根据从智能服务器200接收到的路径规则向智能服务模块155发送执行结果日志。可以在角色模块(或角色管理器)155b的用户的偏好信息中积累和管理所发送的执行结果日志。
根据实施例的执行管理器模块153可以从智能代理151接收路径规则并且可以根据该路径规则执行app 141和143,使得app 141和143分别执行包括在路径规则中的动作141b和143b。例如,执行管理器模块153可以向app141和143发送用于执行动作141b和143b的命令信息(例如,路径规则信息)并且可以从app 141和143接收动作141b和143b的完成信息。
根据实施例,执行管理器模块153可以在智能代理151与app 141和143之间发送和接收用于执行app 141和143的动作141b和143b的命令信息(例如,路径规则信息)。执行管理器模块153可以根据路径规则来绑定要执行的app 141和143并且可以向app 141和143发送包括在路径规则中的动作141b和143b的命令信息(例如,路径规则信息)。例如,执行管理器模块153可以将包括在路径规则中的动作141b和143b顺序地发送到app 141和143并且可以根据路径规则来顺序地执行app 141和143的动作141b和143b。
根据实施例,执行管理器模块153可以管理app 141和143的动作141b和143b被执行的状态。例如,执行管理器模块153可以从app 141和143接收关于动作141b和143b被执行的状态的信息。例如,当动作141b和143b被执行的状态是停止状态(部分登陆)时(例如,当未输入可供动作141b和143b利用的参数时),执行管理器模块153可以向智能代理151发送关于该状态(部分登陆)的信息。智能代理151可以使用所接收到的信息来请求输入可供用户利用的信息(例如,参数信息)。又例如,当动作141b和143b被执行的状态是动作状态时,执行管理器模块153可以接收来自用户的发声并且可以向智能代理151发送所执行的app141和143以及关于app 141和143被执行的状态的信息。智能代理151可以通过智能服务器200来接收用户的发声的参数信息并且可以将所接收到的参数信息发送到执行管理器模块153。执行管理器模块153可以使用所接收到的参数信息来将将动作141b和143b中的每一个的参数改变为新参数。
根据实施例,执行管理器模块153可以将包括在路径规则中的参数信息发送到app141和143。当根据路径规则顺序地执行多个app 141和143时,执行管理器模块153可以将包括在路径规则中的参数信息从一个app发送到另一app。
根据实施例,执行管理器模块153可以接收多个路径规则。执行管理器模块153可以基于用户的发声接收多个路径规则。例如,当用户的发声指定第一app 141来执行一些动作(例如,动作1141b)时,但是当它未指定另一第二app 143来执行其它动作(例如,动作143b)时,执行管理器模块153可以接收能够执行第一app 141(例如,图库app)和多个不同的app 143(例如,消息app和电报app)的多个不同的路径规则。换句话说,执行管理器模块153可以接收第一路径规则和第二路径规则,在所述第一路径规则中,用于执行一些动作(例如,动作141b)的第一app 141(例如,图库app)被执行并且能够执行其它动作(例如,动作143b)的第二app 143的任何一个app(例如,消息app)被执行,而在所述第二路径规则中,用于执行一些动作(例如,动作141b)的第一app 141(例如,图库app)被执行并且能够执行其它动作(例如,动作143b)的第二app 143中的另一个app(例如,电报app)被执行。
根据实施例,执行管理器模块153可以执行包括在多个路径规则中的相同的动作141b和143b(例如,连续相同的动作141b和143b)。当相同的动作被执行时,执行管理器模块153可以在显示器120上显示能够选择包括在多个路径规则中的不同app 141和143的状态屏幕。
根据实施例,智能服务模块155可以包括环境模块155a、角色模块155b或提议模块155c。
环境模块155a可以从app 141和143收集app 141和143中的每一个的当前状态。例如,环境模块155a可以接收指示app 141和143中的每一个的当前状态的环境信息并且可以收集app 141和143中的每一个的当前状态。
角色模块155b可以管理使用用户终端100的用户的个人信息。例如,角色模块155b可以收集关于用户终端100的使用的信息(或使用历史信息)和执行用户终端100的结果并且可以管理用户的个人信息。
提议模块155c可以预测用户的意图并且可以向用户推荐命令。例如,提议模块155c可以考虑到用户的当前状态(例如,时间、地点、情形或app)将命令推荐给用户。
图3是例示了根据本公开的实施例的用于执行用户终端的智能app的方法的图。
参考图3,图2的用户终端100可以接收用户输入并且可以执行与图2的智能代理151互通的智能app(例如,语音识别app)。
根据实施例,用户终端100可以通过硬件键112来执行用于识别话音的智能app。例如,当接收到通过硬件键112的用户输入时,用户终端100可以在显示器120上显示智能app的用户界面(UI)121。在这种情况下,用户可以触摸包括在智能app的UI 121中的语音识别按钮121a以在智能app的UI 121被显示在显示器120上的状态下输入(120b)话音。又例如,用户可以通过使硬件键112保持被按压来输入(120b)话音。
根据实施例,用户终端100可以执行用于通过麦克风111识别话音的智能app。例如,当通过麦克风111输入(120a)指定的话音(或唤醒命令)(例如,“唤醒!”)时,用户终端100可以在显示器120上显示智能app的UI 121。
图4是例示了根据本公开的实施例的用于在智能服务模块的环境模块处收集当前状态的方法的图。
参考图4,当从智能代理151接收到(①)环境请求时,环境模块155a可以请求(②)app 141和143提供指示app 141和143中的每一个的当前状态的环境信息。根据实施例,环境模块155a可以从app 141和143中的每一个接收(③)环境信息并且可以将所接收到的环境信息发送(④)到智能代理151。
根据实施例,环境模块155a可以通过app 141和143来接收多个环境信息。例如,环境信息可以是关于最近执行的app 141和143的信息。又例如,环境信息可以是关于app 141和143中的当前状态的信息(例如,关于当用户查看图库中的照片时的照片的信息)。
根据实施例,环境模块155a可以从装置平台以及app 141和143接收指示图2的用户终端100的当前状态的环境信息。环境信息可以包括一般环境信息、用户环境信息或装置环境信息。
一般环境信息可以包括用户终端100的一般信息。可以通过内部算法通过经由装置平台的传感器集线器等接收到的数据来验证一般环境信息。例如,一般环境信息可以包括关于当前空间-时间的信息。关于当前空间-时间的信息可以包括例如当前时间或关于用户终端100的当前位置的信息。可以通过用户终端100上的时间来验证当前时间。可以通过全球定位系统(GPS)来验证关于当前位置的信息。又例如,一般环境信息可以包括关于物理运动的信息。关于物理运动的信息可以包括例如关于步行、跑步或驾驶的信息。可以通过运动传感器来验证关于物理运动的信息。关于驾驶的信息可以用于通过运动传感器来验证车辆驾驶并且通过检测车辆中的蓝牙连接来验证用户坐在车辆中并停放车辆。又例如,一般环境信息可以包括用户活动信息。用户活动信息可以包括关于例如通勤、购物、旅行等的信息。可以使用关于用户或app在DB中注册的地点的信息来验证用户活动信息。
用户环境信息可以包括关于用户的信息。例如,用户环境信息可以包括关于用户的情绪状态的信息。关于情绪状态的信息可以包括关于例如用户的快乐、悲伤、愤怒等的信息。又例如,用户环境信息可以包括关于用户的当前状态的信息。关于当前状态的信息可以包括关于例如兴趣、意图等(例如,购物)的信息。
装置环境信息可以包括关于用户终端100的状态的信息。例如,装置环境信息可以包括关于由图2的执行管理器模块153执行的路径规则的信息。又例如,装置环境信息可以包括关于电池的信息。可以通过例如电池的充电和放电状态来验证关于电池的信息。又例如,装置环境信息可以包括关于连接的装置和网络的信息。关于已连接的装置的信息可以通过例如该装置连接到的通信接口来验证。
图5是例示了根据本公开的实施例的智能服务模块的提议模块的框图。
参考图5,提议模块155c可以包括提示提供模块155c_1、环境提示生成模块155c_2、条件检查模块155c_3、条件模型模块155c_4以及重用提示生成模块155c_5或者介绍提示生成模块155c_6。
根据实施例,提示提供模块155c_1可以向用户提供提示。例如,提示提供模块155c_1可以接收从环境提示生成模块155c_2、重用提示生成模块155c_5或介绍提示生成模块155c_6生成的提示并且可以将该提示提供给用户。
根据实施例,环境提示生成模块155c_2可以通过条件检查模块155c_3或条件模型模块155c_4来生成能够根据当前状态被推荐的提示。条件检查模块155c_3可以通过图2的智能服务模块155来接收与当前状态相对应的信息。条件模型模块155c_4可以使用所接收到的信息来设置条件模型。例如,条件模型模块155c_4可以确定提示何时被提供给用户的时间、提示被提供给用户的位置、提示被提示给用户的情形、当提示被提供给用户时在使用中的app等,并且可以按照优先级的顺序向用户提供具有被用在对应条件下的高可能性的提示。
根据实施例,重用提示生成模块155c_5可以根据当前状态考虑到使用频率来生成能够被推荐的提示。例如,重用提示生成模块155c_5可以考虑到用户的使用模式来生成提示。
根据实施例,介绍提示生成模块155c_6可以生成向用户介绍新功能或由另一用户频繁地使用的功能的提示。例如,介绍新功能的提示可以包括对图2的智能代理151的介绍(例如,操作方法)。
根据另一实施例,提议模块155c的环境提示生成模块155c_2、条件检查模块155c_3、条件模型模块155c_4、重用提示生成模块155c_5或介绍提示生成模块155c_6可以被包括在图2的个人信息服务器300中。例如,提议模块155c的提示提供模块155c_1可以从环境提示生成模块155c_2、重用提示生成模块155c_5或介绍提示生成模块155c_6接收个人信息服务器300的提示并且可以将所接收到的提示提供给用户。
根据实施例,图2的用户终端100可以根据以下系列过程来提供提示。例如,当从智能代理151接收到(①)提示提供请求时,提示提供模块155c_1可以将该提示生成请求发送(②)到环境提示生成模块155c_2。当接收到提示生成请求时,环境提示生成模块155c_2可以使用(③)条件检查模块155c_3来从图2的环境模块155a和角色模块155b接收(④)与当前状态相对应的信息。条件检查模块155c_3可以将所接收到的信息发送(⑤)到条件模型模块155c_4。条件模型模块155c_4可以在使用所述信息提供给用户的提示当中向具有被用在条件中的高可能性的提示指派优先级。环境提示生成模块155c_2可以验证(⑥)条件并且可以生成与当前状态相对应的提示。环境提示生成模块155c_2可以将所生成的提示发送(⑦)到提示提供模块155c_1。提示提供模块155c_1可以根据指定的规则来安排提示并且可以将该提示发送(⑧)到智能代理151。
根据实施例,提示提供模块155c_1可以生成多个环境提示并且可以根据指定的规则对所述多个环境提示进行优先级排序。根据实施例,提示提供模块155c_1可以首先向用户提供在所述多个上下文提示当中具有较高优先级的提示。
根据实施例,用户终端100可以根据使用频率来提议提示。例如,当从智能代理151接收到(①)提示提供请求时,提示提供模块155c_1可以向重用提示生成模块155c_5发送(②)提示生成请求。当接收到提示生成请求时,重用提示生成模块155c_5可以从角色模块155b接收(③)用户信息。例如,重用提示生成模块155c_5可以接收包括在角色模块155b的用户的偏好信息中的路径规则、包括在路径规则中的参数、app的执行的频率以及由app使用的空间-时间信息。重用提示生成模块155c_5可以生成与所接收到的用户信息相对应的提示。重用提示生成模块155c_5可以将所生成的提示发送(④)到提示提供模块155c_1。提示提供模块155c_1可以安排提示并且可以将该提示发送(⑤)到智能代理151。
根据实施例,用户终端100可以为新功能提议提示。例如,当从智能代理151接收到(①)提示提供请求时,提示提供模块155c_1可以向介绍提示生成模块155c_6发送(②)提示生成请求。介绍提示生成模块155c_6可以向图2的提议服务器400发送(③)介绍提示提供请求并且可以从提议服务器400接收(④)关于要介绍的功能的信息。例如,提议服务器400可以存储关于要介绍的功能的信息。要介绍的功能的提示列表可以由服务运营商更新。介绍提示生成模块155c_6可以将所生成的提示发送(⑤)到提示提供模块155c_1。提示提供模块155c_1可以安排提示并且可以将该提示发送(⑥)到智能代理151。
因此,提议模块155c可以将由环境提示生成模块155c_2、重用提示生成模块155c_5或介绍提示生成模块155c_6生成的提示提供给用户。例如,提议模块155c可以将所生成的提示显示在操作智能代理151的app上并且可以通过该app从用户接收用于选择提示的输入。
图6是例示了根据本公开的实施例的集成智能系统的智能服务器的框图。
参考图6,智能服务器200可以包括自动语音识别(ASR)模块210、自然语言理解(NLU)模块220、路径规划器模块230、对话管理器(DM)模块240、自然语言生成器(NLG)模块250、文本到语音(TTS)模块260或发声分类模块270。
智能服务器200的NLU模块220或路径规划器模块230可以生成路径规则。
根据实施例,ASR模块210可以将从用户终端100接收到的用户输入(例如,话音数据)转换成文本数据。例如,ASR模块210可以包括发声识别模块。该发声识别模块可以包括声学模型和语言模型。例如,声学模型可以包括与发声相关联的信息,并且语言模型可以包括单位音素信息和关于单位音素信息的组合的信息。发声识别模块可以使用与发声相关联的信息和与单位音素相关联的信息来将用户发声(或话音数据)转换成文本数据。例如,可以将关于声学模型和语言模型的信息存储在ASR DB 211中。
根据实施例,NLU模块220可以执行语法分析或语义分析以确定用户的意图。语法分析可以用于将用户输入划分成语法单位(例如,词、短语、语素等)并且确定所划分的单位是否具有任何语法元素。可以使用语义匹配、规则匹配、公式匹配等来执行语义分析。因此,NLU模块220可以通过以上提及的分析来从用户输入获得域、意图或可利用来表达意图的参数(或时隙)。
根据实施例,NLU模块220可以使用被划分成域、意图和参数(或时隙)的匹配规则来确定用户的意图和参数。例如,一个域(例如,警报)可以包括多个意图(例如,警报设置、警报释放等),并且一个意图可能需要多个参数(例如,时间、迭代次数、警报声音等)。所述多个规则可以包括例如一个或多个可利用的参数。可以将匹配规则存储在NLU DB 221中。
根据实施例,NLU模块220可以使用诸如语素或短语的语言特征(例如,语法元素)来确定从用户输入中提取的词的含义,并且可以将所确定的词的含义与域和意图匹配以确定用户的意图。例如,NLU模块220可以计算从用户输入中提取的多少词被包括在域和意图的每一个中,从而确定用户的意图。根据实施例,NLU模块220可以使用作为用于确定意图的基础的词来确定用户输入的参数。根据实施例,NLU模块220可以使用存储用于确定用户输入的意图的语言特征的NLU DB 221来确定用户的意图。根据另一实施例,NLU模块220可以使用个人语言模型(PLM)来确定用户的意图。例如,NLU模块220可以使用个性化信息(例如,联系人列表或音乐列表)来确定用户的意图。例如,可以将PLM存储在例如NLU DB 221中。根据实施例,ASR模块210以及NLU模块220可以参考存储在NLU DB 221中的PLM来识别用户的话音。
根据实施例,NLU模块220可以基于用户输入的意图和参数生成路径规则。例如,NLU模块220可以基于用户输入的意图选择要执行的app并且可以确定要在所选择的app中执行的动作。NLU模块220可以确定与所确定的动作相对应的参数以生成路径规则。根据实施例,由NLU模块220生成的路径规则可以包括关于要执行的app、要在该app中执行的动作(例如,至少一个或多个状态)和可利用来执行该动作的参数的信息。
根据实施例,NLU模块220可以基于用户输入的意图和参数生成一个路径规则或多个路径规则。例如,NLU模块220可以从路径规划器模块230接收与用户终端100相对应的路径规则集并且可以将用户输入的意图和参数映射到所接收到的路径规则集以确定路径规则。
根据另一实施例,NLU模块220可以基于用户输入的意图和参数确定要执行的app、要在该app中执行的动作和可利用来执行该动作的参数。例如,NLU模块220可以根据用户输入的意图使用用户终端100的信息来以本体或图形模型的形式安排要执行的app和要在该app中执行的动作以生成路径规则。可以通过路径规划器模块230将所生成的路径规则存储在例如路径规则数据库(PR DB)231中。可以将所生成的路径规则添加到存储在PR DB 231中的路径规则集。
根据实施例,NLU模块220可以选择多个生成的路径规则中的至少一个。例如,NLU模块220可以在多个路径规则当中选择最优路径规则。又例如,当基于用户发声指定一些动作时,NLU模块220可以选择多个路径规则。NLU模块220可以根据用户的附加输入来确定所述多个路径规则中的一个。
根据实施例,NLU模块220可以响应于对用户输入的请求而将路径规则发送到用户终端100。例如,NLU模块220可以将与用户输入相对应的一个路径规则发送到用户终端100。又例如,NLU模块220可以将与用户输入相对应的多个路径规则发送到用户终端100。例如,当基于用户发声指定一些动作时,可以由NLU模块220生成多个路径规则。
根据实施例,路径规划器模块230可以选择多个路径规则中的至少一个。
根据实施例,路径规划器模块230可以将包括多个路径规则的路径规则集发送到NLU模块220。可以将包括在路径规则集中的多个路径规则以表的形式存储在连接到路径规划模块230的PR DB 231中。例如,路径规划器模块230可以向NLU模块220发送与从图2的智能代理151接收到的用户终端100的信息(例如,操作系统(OS)信息、app信息等)相对应的路径规则集。可以为例如每个域或该域的每个版本存储存储在PR DB 231中的表。
根据实施例,路径规划器模块230可以从路径规则集中选择一个路径规则或多个路径规则以将所选择的一个路径规则或多个选择的路径规则发送到NLU模块220。例如,路径规划器模块230可以将用户的意图和参数与对应于用户终端100的路径规则集匹配以选择一个路径规则或多个路径规则,并且可以将所选择的一个路径规则或多个选择的路径规则发送到NLU模块220。
根据实施例,路径规划器模块230可以使用用户的意图和参数来生成一个路径规则或多个路径规则。例如,路径规划器模块230可以基于用户的意图和参数确定要执行的app和要在该app中执行的动作以生成一条路径规则或多条路径规则。根据实施例,路径规划器模块230可以将所生成的路径规则存储在PR DB 231中。
根据实施例,路径规划器模块230可以将由NLU模块220生成的路径规则存储在PRDB 231中。所生成的路径规则可以被添加到存储在PR DB 231中的路径规则集。
根据实施例,存储在PR DB 231中的表可以包括多个路径规则或多个路径规则集。所述多个路径规则或所述多个路径规则集可以反映执行每个路径规则的装置的种类、版本、类型或特性。
根据实施例,DM模块240可以确定由NLU模块220确定的用户的意图是否清楚。例如,DM模块240可以基于参数的信息是否足够来确定用户的意图是否清楚。DM模块240可以确定由NLU模块220确定的参数是否足以执行任务。根据实施例,当用户的意图不清楚时,DM模块240可以执行用于请求可供用户利用的信息的反馈。例如,DM模块240可以执行用于请求关于用于确定用户的意图的参数的信息的反馈。
根据实施例,DM模块240可以包括内容提供商模块。当内容提供商模块基于由NLU模块220确定的意图和参数执行动作时,它可以生成执行与用户输入相对应的任务的结果。根据实施例,DM模块240可以将由内容提供商模块生成的结果作为对用户输入的响应发送到用户终端100。
根据实施例,NLG模块250可以以文本的形式改变指定的信息。改变为文本形式的信息可能是自然语言发声的形式。以文本形式改变的信息可以具有自然语言发声的形式。所指定的信息可以是例如关于附加输入的信息、用于提供与用户输入相对应的动作完成的通知的信息或用于提供用户的附加输入的通知的信息(例如,关于对用户输入的反馈的信息)。以文本形式改变的信息可以被发送到用户终端100以被显示在图2的显示器120上或者可以被发送到TTS模块260以被以话音的形式改变。
根据实施例,TTS模块260可以将文本形式的信息改变为话音形式的信息。TTS模块260可以从NLG模块250接收文本形式的信息并且可以将文本形式的信息改变为话音形式的信息,从而将话音形式的信息发送到用户终端100。用户终端100可以通过图2的扬声器130来输出话音形式的信息。
根据实施例,NLU模块220、路径规划模块230和DM模块240可以作为一个模块被实现。例如,NLU模块220、路径规划器模块230和DM模块240可以作为一个模块被实现来确定用户的意图和参数并且生成与所确定的用户的意图和所确定的参数相对应的响应(例如,路径规则)。因此,可以将所生成的响应发送到用户终端100。
根据实施例,发声分类模块270可以对用户的发声进行分类。例如,发声分类模块270可以对文本数据进行分类,该文本数据是通过ASR模块210将响应于用户的发声输入而获得的话音数据转换成文本格式而获得的。根据实施例,发声分类模块270可以对包括在文本数据中的至少一个表达进行分类。例如,发声分类模块270可以通过NLU模块220来对文本数据执行语言分析(例如,语法分析或语义分析)并且可以基于执行结果从文本数据中提取至少一个表达。进一步,发声分类模块270可以确定(或分类)至少一种提取的表达是显式表达(或直接表达)还是隐式表达(或间接表达)。
根据实施例,显式表达可以包括显式地请求执行任务的表达。例如,显式表达可以包括可利用来执行任务的必要元素(例如,域、意图等)。例如,显式表达可以包括可执行应用的标识符、被配置为执行应用的功能(或动作)的指令等。隐式表达可以包括与显式表达不同的表达。例如,隐式表达可以包括在任务被执行的同时而使用的附加元素(例如,参数信息)或不管是否执行任务都使用的不必要元素(例如,感叹号等)。在一些实施例中,显式表达可以进一步包括参数信息。在另一实施例中,显式表达可以包括能够与其可靠性大于或等于阈值的路径规则匹配的表达,而隐式表达可以包括不能与其可靠性大于或等于阈值的路径规则匹配的表达。
根据实施例,发声分类模块270可以将包括在文本数据中的至少一个表达分类为显式表达或隐式表达。
根据实施例,当显式表达被包括在文本数据中时,发声分类模块270可以将该显式表达发送到响应生成器模块(例如,NLU模块220、路径规划器模块230或DM模块240)。响应生成器模块可以基于显式表达确定用户的意图(和参数)并且可以生成(或选择)与所确定的用户的意图(和所确定的参数)相对应的响应(例如,路径规则)。在一些实施例中,当在隐式表达中可利用来执行任务的附加元素(例如,参数信息)被与显式表达包括在一起时,发声分类模块270可以将显式表达和附加元素发送到响应生成器模块。响应生成器模块可以基于显式表达和附加元素确定用户的意图和参数并且可以生成(或选择)与所确定的用户的意图和所确定的参数相对应的响应(例如,路径规则)。
根据实施例,当显式表达和隐式表达两者被包括在文本数据中时,发声分类模块270可以映射并将显式表达和隐式表达(例如,附加元素或不必要元素)存储在包括在PLM223中的间接发声DB 225中。在一些实施例中,发声分类模块270可以将显式表达映射到通过响应生成器模块和/或显式表达生成(或选择)的响应(例如,路径规则)的标识符(例如,路径规则编号)以将映射信息存储在间接发声DB 225中。因此,智能服务器200可以训练对于隐式表达执行任务的能力。
根据实施例,当显式表达未被包括在文本数据中并且当隐式表达被包括在文本数据中时,例如,当用户的发声是隐式发声(或间接发声)时,发声分类模块270可以验证在间接发声DB 225中是否存在用隐式表达映射的显式表达和/或路径规则编号。当存在用隐式表达映射的显式表达和/或路径规则编号时,发声分类模块270可以将显式表达和/或路径规则编号发送到响应生成器模块。响应生成器模块可以基于显式表达和/或路径规则编号生成(或选择)路径规则。
根据实施例,当用户的发声是隐式发声时并且当在间接发声DB 255中存在用隐式表达映射的多个显式表达(或多个路径规则编号)时,发声分类模块270可以将所述多个显式表达(或所述多个路径规则编号)发送到响应生成器模块。响应生成器模块可以基于所述多个显式表达(或所述多个路径规则编号)生成(或选择)与执行每个任务相关联的路径规则。在一些实施例中,智能服务器200可以生成与执行与这些显式表达(或路径规则编号)中的每一个相对应的每个任务相关联的提示信息并且可以将该提示信息发送到用户终端100。
根据实施例,当用户的发声是隐式发声时并且当存在多个隐式表达时,发声分类模块270可以验证在间接发声DB 255中是否存在分别映射到隐式表达的显式表达(或路径规则编号)。或者,当存在分别映射到隐式表达的显式表达(或路径规则编号)时,发声分类模块270可以将显式表达(或路径规则编号)发送到响应发生器模块。响应生成器模块可以基于显式表达(或路径规则编号)生成(或选择)与执行每个任务相关联的路径规则。在另一示例中,智能服务器200可以生成与执行对应于这些显式表达(或路径规则编号)中的每一个的每个任务相关联的提示信息并且可以将该提示信息发送到用户终端100。在另一实施例中,智能服务器200可以选择这些显式表达(或所选择的路径规则编号)中的任何一个并且可以使用所选择的显式表达(或所选择的路径规则编号)来生成(或选择)路径规则。例如,智能服务器200可以基于分别与显式表达相对应的隐式表达的优先级选择这些显式表达中的任何一个。可以通过例如分别映射到隐式表达的隐式表达的数量、隐式表达的使用频率或用户信息中的至少一种来确定优先级。
根据实施例,可以将隐式表达和与隐式表达一起说出的显式表达映射并存储在间接发声DB 225中。在一些实施例中,可以将隐式表达、与隐式表达一起说出的显式表达以及基于显式表达而生成(或选择)的路径规则的数量映射并存储在间接发声DB 225中。
根据实施例,间接发声DB 225可以被存储在智能服务器200中或者可以被存储在用户终端100中。当间接发声DB 225被存储在用户终端100中时,智能服务器200可以从用户终端100接收并使用存储在间接发声DB 225中的信息(例如,映射信息)。
根据实施例,间接发声DB 225可以被用于PLM 223的建模。在另一实施例中,当存在基于显式表达而生成(或选择)的多个路径规则时,可以在所述多个路径规则中的任何一个被选择时使用存储在间接发声DB 225中的信息(例如,映射信息)。例如,当存在基于一个显式表达而生成(或选择)的多个路径规则时,响应生成器模块可以使用用存储在间接发声DB 225中的显式表达映射的隐式表达的信息来针对所述多个路径规则中的每一个调整可靠性值(或优先级)。响应生成器模块可以基于可靠性值(或优先级)选择所述多个路径规则中的任何一个。
图7是例示了根据本公开的实施例的用于在路径规划器模块处生成路径规则的方法的图。
参考图7,根据实施例,图6的NLU模块220可以将app的功能分类为任何一个动作(例如,状态A至状态F)并且可以将所划分的动作存储在图6的PR DB 231中。例如,NLU模块220可以将包括(例如,状态)的多个路径规则(例如,第一路径规则A-B1-C1、第二路径规则A-B1-C2、第三路径规则A-B1-C3-D-F和第四路径规则A-B1-C3-D-E-F)的路径规则集分类为一个动作存储在PR DB 231中。
根据实施例,图6的路径规划器模块230的PR DB 231可以存储用于执行app的功能的路径规则集。路径规则集可以包括多个路径规则,其中的每一个包括多个动作(例如,状态的序列)。根据输入到多个动作中的每一个的参数而执行的动作可以被顺序地安排在多个路径规则中。根据实施例,可以以要存储在PR DB 231中的本体或图形模型的形式配置多个路径规则。
根据实施例,NLU模块220可以在与用户输入的意图和参数相对应的多个路径规则(例如,第一路径规则A-B1-C1、第二路径规则A-B1-C2、第三路径规则A-B1-C3-D-F和第四路径规则A-B1-C3-D-E-F)当中选择最优路径规则(例如,第三路径规则A-B1-C3-D-F)。
根据实施例,当不存在与用户输入完全匹配的路径规则时,NLU模块220可以向图6的用户终端100发送多个规则。例如,NLU模块220可以选择部分地与用户输入相对应的路径规则(例如,第五路径规则A-B1)。NLU模块220可以选择包括部分地与用户输入相对应的路径规则(例如,第五路径规则A-B1)的一个或多个路径规则(例如,第一路径规则A-B1-C1、第二路径规则A-B1-C2、第三路径规则A-B1-C3-D-F和第四路径规则A-B1-C3-D-E-F)并且可以将该一个或多个路径规则发送到用户终端100。
根据实施例,NLU模块220可以基于用户终端100的附加输入选择多个路径规则中的一个并且可以将所选择的一个路径规则发送到用户终端100。例如,NLU模块220可以根据附加地输入到用户终端100的用户输入(例如,用于选择C3的输入)来选择多个路径规则(例如,第一路径规则A-B1-C1、第二路径规则A-B1-C2、第三路径规则A-B1-C3-D-F和第四路径规则A-B1-C3-D-E-F)中的一个(例如,第三路径规则A-B1-C3-D-F),从而将所选择的一个路径规则发送到用户终端100。
根据另一实施例,NLU模块220可以确定与附加地输入到用户终端100的用户输入(例如,用于选择C3的输入)相对应的用户的意图和参数,从而将所确定的用户的意图或所确定的参数发送到用户终端100。用户终端100可以基于所发送的意图或参数选择多个路径规则(例如,第一路径规则A-B1-C1、第二路径规则A-B1-C2、第三路径规则A-B1-C3-D-F和第四路径规则A-B1-C3-D-E-F)中的一个(例如,第三路径规则A-B1-C3-D-F)。
因此,用户终端100可以基于所选择的一个路径规则完成app 141和143的动作。
根据实施例,当在图6的智能服务器200处接收到信息不足的用户输入时,NLU模块220可以生成部分与所接收到的用户输入相对应的路径规则。例如,NLU模块220可以将部分对应的路径规则发送到图2的智能代理151。智能代理151可以将部分对应的路径规则发送到图2的执行管理器模块153,并且执行管理器模块153可以根据该路径规则执行图2的第一app 141。执行管理器模块153可以在执行第一app 141的同时向智能代理151发送关于不足参数的信息。智能代理151可以使用关于不足参数的信息来请求用户提供附加输入。当附加输入由用户接收到时,智能代理151可以将该附加输入发送到智能服务器200。NLU模块220可以基于关于被附加地输入的用户输入的意图和参数的信息生成添加的路径规则并且可以将所生成的路径规则发送到智能代理151。智能代理151可以将路径规则发送到图2的执行管理器模块153,并且执行管理器模块153可以根据所添加的路径规则来执行图2的第二app 143。
根据实施例,当在智能服务器200处接收到遗漏一些信息的用户输入时,NLU模块220可以向图2的个人信息服务器300发送用户信息请求。个人信息服务器300可以将存储在角色DB中的用户信息发送到NLU模块220。NLU模块220可以使用用户信息来选择与遗漏一些动作的用户输入相对应的路径规则。因此,即使在智能服务器200处接收到遗漏一些信息的用户输入,NLU模块220也可以请求用户提供遗漏信息来接收附加输入或者可以使用用户信息来确定与用户输入相对应的路径规则。
下表1可以指示根据实施例的与由用户请求的任务相关联的路径规则的示例形式。
[表1]
参考表1,由智能服务器(例如,图1的智能服务器200)根据用户发声(例如,“Please share your photo with me(请与我分享你的照片)”)生成或选择的路径规则可以至少包括一个状态25、26、27、28、29或30。例如,该至少一个状态(例如,图1的用户终端100的一个动作状态)可以对应于以下各项中的至少一个:PicturesView(照片视图)25、SearchView(查找视图)26、SearchViewResult(查找视图结果)27、SearchEmptySelectedView(查找空的选择视图)28、SearchSelectedView(查找选择视图)29或CrossShare(交叉共享)30。
在实施例中,关于路径规则的参数的信息可以对应于至少一个状态。例如,可以将关于路径规则的参数的信息包括在SearchSelectedView(查找选择视图)29中。
作为执行包括状态25至29的序列的路径规则的结果,可以执行由用户请求的任务(例如,“请与我分享你的照片!”)。
图8是例示了根据本公开的实施例的用于在智能服务模块的角色模块处管理用户信息的方法的框图。
参考图8,角色模块155b可以从app 141和143、执行管理器模块153或环境模块155a接收图2的用户终端100的信息。app 141和143以及执行管理器模块153可以将关于执行app 141和143的动作141b和143b的结果的信息存储在操作日志DB中。环境模块155a可以将关于用户终端100的当前状态的信息存储在环境DB中。角色模块155b可以从操作日志DB或环境DB接收所存储的信息。存储在操作日志DB和环境DB中的数据可以由例如分析引擎分析以被发送到角色模块155b。
根据实施例,角色模块155b可以将从app 141和143、执行管理器模块153或环境模块155a接收到的信息发送到图2的提议模块155c。例如,角色模块155b可以将存储在操作日志DB或环境DB中的数据发送到提议模块155c。
根据实施例,角色模块155b可以将从app 141和143、执行管理器模块153或环境模块155a接收到的信息发送到个人信息服务器300。例如,角色模块155b可以向个人信息服务器300周期性地发送积累并存储在操作日志DB或环境DB中的数据。
根据实施例,角色模块155b可以将存储在操作日志DB或环境DB中的数据发送到提议模块155c。由角色模块155b生成的用户信息可以被存储在角色DB中。角色模块155b可以将存储在角色DB中的用户信息周期性地发送到个人信息服务器300。根据实施例,由角色模块155b发送到个人信息服务器300的信息可以被存储在个人数据库中。个人信息服务器300可以使用存储在角色DB中的信息来推理可利用来生成智能服务器200的路径规则的用户信息。
根据实施例,使用由角色模块155b发送的信息来推理的用户信息可以包括简档信息或偏好信息。可以根据用户的账户和积累的信息来推理简档信息或偏好信息。
简档信息可以包括用户的个人信息。例如,简档信息可以包括关于用户的人口统计的信息。关于人口统计的信息可以包括例如用户的性别、年龄等。又例如,简档信息可以包括生活事件信息。生活事件信息可以通过将例如日志信息与生活事件模型相比较来推理并且可以通过分析行为模式来加强。又例如,简档信息可以是兴趣信息。兴趣信息可以包括例如关于兴趣购物产品、兴趣领域(例如,体育、政治等)的信息。又例如,简档信息可以包括关于活动区域的信息。关于活动区域的信息可以包括例如关于家庭、工作地点等的信息。关于活动区域的信息可以包括关于具有参考累计停留时间和访问次数而记录的优先级的区域的信息以及关于地点的位置的信息。又例如,简档信息可以包括关于活动时间的信息。关于活动时间的信息可以包括例如关于唤醒时间、通勤时间或睡眠时间的信息。关于通勤时间的信息可以使用关于活动区域(例如,家庭和工作地点)的信息来推理。可以根据当用户终端100未被使用时的时间来推理关于睡眠时间的信息。
偏好信息可以包括关于用户的偏好的信息。例如,偏好信息可以包括关于app偏好的信息。可以根据例如app的使用记录(例如,每个时间或地点的使用记录)来推理app偏好。app偏好可以用于根据用户的当前状态(例如,时间或地点)来确定要执行的app。又例如,偏好信息可以包括关于联系人偏好的信息。可以通过分析例如关于联系人信息的联系频率(例如,每个时间或地点的联系频率)的信息来推理联系人偏好。联系人偏好可以用于根据用户的当前状态来确定用户将打电话的联系人信息(例如,重复的姓名)。又例如,偏好信息可以包括设置信息。可以通过分析例如关于具体设置值的设置频率(例如,针对每个时间或地点而设置给设置值的频率)的信息来推理设置信息。设置信息可以用于根据用户的当前状态(例如,时间、地点或情形)来设置具体设置值。又例如,偏好信息可以包括地点偏好。可以根据例如具体地点的访问记录(例如,每个时间的访问记录)来推理地点偏好。地点偏好可以用于根据用户的当前状态(例如,时间)来确定被访问的地点。又例如,偏好信息可以包括命令偏好。可以根据例如命令的使用频率(例如,每个时间或地点的使用频率)来推理命令偏好。命令偏好可以用于根据用户的当前状态(例如,时间或地点)来确定要使用的命令模式。特别地,命令偏好可以包括关于在正在执行的app的当前状态下基于分析的日志信息由用户最频繁地选择的菜单的信息。
如上所述,根据各种实施例,电子装置(例如,智能服务器200、个人信息服务器300或提议服务器400)可以包括网络接口、被配置为与该网络接口可操作地连接的至少一个处理器以及被配置为与该至少一个处理器可操作地连接的至少一个存储器。该至少一个存储器可以存储指令,所述指令当被执行时,使至少一个处理器:在第一操作中,通过网络接口从包括麦克风的第一外部装置接收与通过第一外部装置(例如,用户终端100)获得的第一用户输入相关联的第一数据,所述第一用户输入包括用于使用第一外部装置或第二外部装置中的至少一个来执行任务的显式请求,通过自然理解处理来验证来自第一用户输入的第一意图,至少部分地基于第一意图确定用于执行任务的第一外部装置或第二外部装置中的至少一个的状态的序列,并且经由网络接口向第一外部装置或第二外部装置中的至少一个发送关于状态的序列的第一信息,在第二操作中,通过网络接口从第一外部装置接收与通过第一外部装置获得的第二用户输入相关联的第二数据,所述第二用户输入包括提示用于执行任务的请求的自然语言表达,至少部分地基于先前提供给电子装置的自然语言表达验证来自自然语言表达的第一意图,至少部分地基于第一意图确定用于执行任务的第一外部装置或第二外部装置中的至少一个的状态的序列,并且经由网络接口向第一外部装置或第二外部装置中的至少一个发送状态的序列的第二信息。
根据各种实施例,指令可以使至少一个处理器将先前提供给电子装置的自然语言表达存储在数据库(DB)中。
根据各种实施例,指令可以使至少一个处理器:在第三操作中,通过网络接口从第一外部装置接收与通过第一外部装置获得的第三用户输入相关联的第三数据,所述第三用户输入包括提示用于执行任务的请求的另一自然语言表达,确定在用于执行任务的第一外部装置或第二外部装置中的至少一个的状态中的至少一个的先前存储的序列与另一自然语言表达之间是否存在匹配,并且至少部分地基于是否存在匹配将另一自然语言表达存储在DB中。
根据各种实施例,指令可以使至少一个处理器:在第三操作中,确定指示在另一自然语言表达与状态的先前存储的序列之间是否存在匹配的分数,并且当分数不大于选择的阈值时,将另一自然语言表达存储在DB中。
根据各种实施例,电子装置可以包括通信电路、被配置为与该通信电路可操作地连接的至少一个处理器以及被配置为与该至少一个处理器可操作地连接的至少一个存储器。该至少一个存储器可以存储指令,所述指令当被执行时,使至少一个处理器经由通信电路从外部装置获得话音数据,将话音数据转换成文本数据,对包括在文本数据中的至少一个表达进行分类,在至少一个表达包括用于请求使用外部装置来执行第一任务的第一表达时,经由通信电路向外部装置发送关于与执行第一任务相关联的外部装置的状态的序列的第一信息,以及在至少一个表达不包括第一表达而包括与第一表达不同的第二表达时并且当在DB中存在用第二表达映射的第一表达时,经由通信电路将第一信息发送到外部装置。
根据各种实施例,第一表达可以包括可由外部装置执行的应用的标识符和被设置为执行应用的功能的命令中的至少一个。
根据各种实施例,至少一个存储器可以存储指令,所述指令当被执行时,使至少一个处理器当至少一个表达包括第一表达和第二表达时,将与第一任务相关联的第一表达和第二信息中的至少一个映射到第二表达并且存储映射信息。
根据各种实施例,至少一个存储器可以存储指令,所述指令被执行时,使至少一个处理器当至少一个表达不包括第一表达而包括与第一表达不同的第二表达时并且当在DB中存在用第二表达映射的第一表达和与第一表达不同的至少一个第三表达时,向外部装置发送与执行与第一表达相对应的第一任务相关联的第一提示信息和与执行与至少一个第三表达相对应的至少一个第二任务相关联的至少一个第二提示信息。
根据各种实施例,至少一个存储器可以存储指令,所述指令当被执行时,使至少一个处理器基于第一表达和至少一个第三表达的优先级指定第一提示信息和至少一个第二提示信息被显示的顺序。
根据各种实施例,至少一个存储器可以存储指令,所述指令当被执行时,使至少一个处理器当至少一个表达不包括第一表达而包括与第一表达不同的第二表达时并且当在DB中存在用第二表达映射的第一表达和与第一表达不同的至少一个第三表达时,基于第一表达和至少一个第三表达的优先级选择第一表达和至少一个第三表达中的任何一个并且向外部装置发送关于与执行与所选择的表达相对应的任务相关联的外部装置的状态的序列的信息。
根据各种实施例,至少一个存储器可以存储指令,所述指令当被执行时,使至少一个处理器当至少一个表达不包括第一表达而包括与第一表达不同的第二表达和至少一个第三表达时,并且当在DB中存在用第二表达映射的第一表达和用至少一个第三表达映射的至少一个第四表达时,向外部装置发送与执行与第一表达相对应的第一任务相关联的第一提示信息和与执行与至少一个第四表达相对应的至少一个第二任务相关联的至少一个第二提示信息。
根据各种实施例,至少一个存储器可以存储指令,所述指令当被执行时,使至少一个处理器基于第一表达和至少一个第四表达的优先级指定第一提示信息和至少一个第二提示信息被显示的顺序。
根据各种实施例,至少一个存储器可以存储指令,所述指令当被执行时,使至少一个处理器当至少一个表达不包括第一表达而包括与第一表达不同的第二表达和至少一个第三表达时,并且当在DB中存在用第二表达映射的第一表达和用至少一个第三表达映射的至少一个第四表达时,基于第一表达和至少一个第四表达的优先级选择第一表达和至少一个第四表达中的任何一个并且向外部装置发送关于与执行与所选择的表达相对应的任务相关联的外部装置的状态的序列的信息。
图9是例示了根据本公开的实施例的与处理话音数据相关联的系统的操作方法的流程图。
参考图9,在操作910中,系统(例如,图6的智能服务器200)可以获得话音数据。根据实施例,智能服务器200可以获得与如从外部装置(例如,图6的用户终端100)发送的用户的发声输入(即,话音输入或话音命令)相对应的话音数据。
在操作920中,系统可以将所获得的话音数据转换成文本数据。根据实施例,智能服务器200的ASR模块210可以通过经由对话音数据中的词进行基于声学的识别提取文本数据来将从用户终端100接收到的话音数据转换成文本数据。例如,ASR模块210可以使用与发声相关联的信息和与单位音素相关联的信息来将话音数据转换成文本数据。
在操作930中,系统可以对经转换的文本数据进行分类。根据实施例,智能服务器200的发声分类模块270可以对包括在文本数据中的至少一个表达(诸如命令词、短语、发声或词的组合等)进行分类。例如,发声分类模块270可确定至少一个表达是用于显式地请求执行任务的显式表达(或直接表达)还是隐式表达(或间接表达)并且可以对该至少一个表达进行分类。
在操作940中,系统可以确定用于请求执行任务的第一表达(例如,显式表达或直接表达)是否被包括在所提取的文本数据中。根据实施例,智能服务器200的发声分类模块270可以确定用于显式地请求执行任务的显式表达是否被包括在文本数据中所包括的至少一个表达中。换句话说,系统可以基于与话音命令的分别映射到许多对应的可执行功能的一组预存储的已知表达进行比较,来确定用户的发声是否是显式发声(或直接发声)。
当用户的发声是显式发声时(即,当用于请求执行任务的第一表达被包括在文本数据中时),在操作950中,系统可以向外部装置发送有关与执行任务相关联的外部装置(例如,用户终端100)的状态的序列的信息(例如,路径规则)。根据实施例,发声分类模块270可以向智能服务器200的响应生成器模块(例如,NLU模块220、路径规划器模块230或DM模块240)发送包括在文本数据中的显式表达。响应生成器模块可以基于显式表达确定用户的意图并且可以生成(或选择)与所确定的用户的意图相对应的响应(例如,路径规则),从而将该响应发送到外部装置。在另一实施例中,当可利用来执行任务的附加元素(例如,参数信息)被与显式表达一起包括在文本数据中时,发声分类模块270可以将隐式表达中的附加元素与显式表达一起发送到响应生成器模块。在这种情况下,响应生成器模块可以基于显式表达和/或附加元素确定用户的意图和参数并且可以生成(或选择)与所确定的用户的意图和所确定的参数相对应的响应(例如,路径规则),从而将该响应发送到外部装置。
当用户的发声是隐式发声(或间接发声)时,也就是说,当在已知的并存储在存储器中的文本数据中不存在用于显式地请求执行任务的显式表达时,在操作中960,系统可以通过与被指示为隐式的另一组预存储的表达进行比较来确定第二表达(例如,隐式表达或间接表达)是否被包括在文本数据中。当第二表达被包括在文本数据中时,在操作970中,系统可以确定在DB(例如,图6的间接发声DB 225)中是否存在用第二表达映射的第一表达。根据实施例,发声分类模块270可以确定在间接发声DB 225中是否存在用隐式表达映射的显式表达。在一些实施例中,发声分类模块270可以确定在间接发声DB 225中是否存在用隐式表达映射的路径规则编号。
当在间接发声DB 225中存在映射到隐式表达的显式表达(或路径规则编号)时,系统可执行操作950。例如,在间接发声DB 225中存在映射到隐式表达的显式表达(或路径规则编号),在操作950中,发声分类模块270可以将显式表达(或路径规则号码)发送到响应生成器模块。响应生成器模块可以基于显式表达(或路径规则编号)生成(或选择)路径规则并且可以将该路径规则发送到外部装置。
根据各种实施例,不熟悉使用装置或者不熟悉使用他的或她的发声输入来执行装置的功能的用户可以使用他的或她的发声输入来执行具体功能。在这种情况下,尽管用户未提供用于显式执行具体功能的显式发声,然而当映射到用于显式地执行具体功能的显式表达的隐式表达被存储在DB中时,用户可以预期所指定的功能是通过包括隐式表达的隐式发声来执行的。出于此目的,系统可能需要映射显式表达和隐式表达的训练过程。将参考图10给出训练过程的描述。
图10是例示了根据本公开的实施例的与对隐式发声进行训练相关联的系统的操作方法的流程图。
参考图10,系统(例如,图6的智能服务器200)可以在识别隐式发声(或间接发声)时“训练”。根据实施例,智能服务器200的ASR模块210可以获得与由用户从图6的用户终端100输入的发声相对应的话音数据并且可以将所获得的话音数据转换成文本数据。根据实施例,智能服务器200的发声分类模块270可以对包括在文本数据中的至少一个表达进行分类。例如,发声分类模块270可以确定至少一个表达是用于显式地请求执行任务的显式表达(或直接表达)还是用于对至少一个表达进行分类的隐式表达(或间接表达)。
当对包括在文本数据中的表达进行分类的过程完成时,在操作1010中,系统可以确定是否包括除用于请求执行任务的第一表达(例如,显式表达或直接表达)以外的第二表达(例如,隐式表达或间接表达)。例如,智能服务器200的发声分类模块270可以验证第一表达和第二表达是否皆被包括在文本数据中。
当第一表达和第二表达被包括在文本数据中时,在操作1030中,系统可以确定第一表达和第二表达是否被映射并存储在DB(例如,图6的间接发声DB 225)中。例如,发声分类模块270可以验证包括在文本数据中的显式表达和隐式表达是否被映射并存储在间接发声DB 225中。
根据实施例,当第一表达和第二表达皆已经被映射并存储在间接发声DB225中时,系统可以维持第一表达和第二表达被存储的状态。根据实施例,当第一表达和第二表达未被映射并存储在间接发声DB 225中时,在操作1050中,系统可以将第一表达和第二表达映射并存储在DB中。例如,发声分类模块270可以将显式表达和隐式表达映射并存储为间接发声DB 225的分类。
通过以上提及的过程,尽管隐式表达被包括在文本数据中,也就是说,尽管用户的发声是隐式发声,然而根据本公开的各种实施例的系统可以执行与用隐式表达映射的显式表达相对应的任务。例如,系统可以通过重复以上提及的过程来训练对于隐式表达执行任务的能力。或者,系统可以使用存储在间接发声DB 225中的显式表达和隐式表达之间的映射信息来调整能够由响应生成器模块生成(或选择)的路径规则候选组的权重。换句话说,映射信息可以被用于提高在显式发声情况下生成(或选择)路径规则的准确性以及用于在隐式表达情况下搜索和/或引用路径规则编号。例如,系统可以参考间接发声DB 225针对多个路径规则中的每一个来调整可靠性值(或优先级)并且可以基于可靠性值(或优先级)选择所述多个路径规则中的任何一个。
图11是例示了根据本公开的实施例的与处理用多个显式表达映射的隐式表达相关联的系统的操作方法的流程图。
参考图11,当用户的发声是隐式表达(或间接发声)时并且当在DB(例如,图6的间接发声DB 225)中存在用隐式表达(或直接表达)映射的多个显式表达(或多个直接表达)时,系统(例如,图6的智能服务器200)可以向外部装置(例如,图6的用户终端100)发送与显式表达相关联的提示信息。
根据实施例,智能服务器200的ASR模块210可以从用户终端100获得与用户的发声输入相对应的话音数据并且可以将所获得的话音数据转换成文本数据。根据实施例,智能服务器200的发声分类模块270可以对包括在文本数据中的至少一个表达进行分类。例如,发声分类模块270可以确定至少一个表达是用于显式地请求执行任务的显式表达还是隐式表达以对该至少一个表达进行分类。
当对包括在文本数据中的表达进行分类的过程完成时,在操作1110中,系统可以确定与请求执行任务的第一表达(例如,显式表达或直接表达)不同的第二表达(例如,隐式表达或间接表达)是否被包括在文本中。例如,智能服务器200的发声分类模块270可以验证第二表达是否被包括在文本数据中。
当在文本数据中检测到第二表达时,在操作1130中,系统可以确定在DB中第一表达是否是用第二表达映射的。例如,发声分类模块270可以验证包括在文本数据中的隐式表达是否是用要存储在间接发声DB 225中的显式表达映射的。
当第二表达是被映射到与要存储的第一表达时,在操作1150中,系统可以验证用第二表达映射的第一表达的数量。例如,发声分类模块270可以确定在间接发声DB 225中是否存在用隐式表达映射的多个显式表达。
在存在用第二表达映射的多个第一表达的情况下,在操作1170中,系统可以向外部装置发送与执行与所述多个第一表达中的每一个相对应的每个任务相关联的提示信息。例如,当在间接发声DB 225中存在用隐式表达映射的多个显式表达时,智能服务器200可以向用户终端100发送与执行与显式表达中的每一个相对应的每个任务相关联的提示信息。因此,终端100可以将提示信息提供给用户,并且用户可以使用提示信息来选择要执行的任务。
在一些实施例中,系统可以向外部装置发送关于与执行与显式表达中的每一个相对应的每个任务相关联的外部装置的状态的序列的信息,而不是将提示信息发送到外部装置。例如,智能服务器200可以向用户终端100发送分别与显式表达相对应的路径规则。
相比之下,当存在用第二表达映射的单个第一表达时,在操作1190中,系统可以发送关于与执行与该单个第一表达相对应的任务相关联的外部装置的状态的序列的信息。例如,智能服务器200可以向用户终端100发送与一个显式表达相对应的路径规则。
根据实施例,当系统将提示信息发送到外部装置时,外部装置可以将提示信息提供给用户并且用户可以基于提示信息选择要执行的一个任务。在这种情况下,外部装置可以将所选择的任务信息反馈给系统。当接收到任务信息,系统可以将所选择的任务信息和显式表达映射并存储在DB中。例如,系统可以在DB中累积与隐式表达相关联的任务信息。因此,当隐式表达被说出时,系统可以参考连同隐式表达一起存储的任务信息来改变用于选择要提供给外部装置的任务的权重。例如,系统可以根据权重来改变提示信息被显示的顺序。
图12是例示了根据本公开的实施例的与处理多个隐式表达相关联的系统的操作方法的流程图。
参考图12,当用户的发声是隐式表达(或间接发声)时并且当多个隐式表达(或多个间接表达)被包括在用户的发声中时,系统(例如,图6的智能服务器200)可以向外部装置(例如,图6的用户终端100)发送与执行与所述多个隐式表达中的每一个相对应的每个任务相关联的提示信息。
根据实施例,智能服务器200的ASR模块210可以从用户终端100获得与用户的发声输入相对应的话音数据并且可以将所获得的话音数据转换成文本数据。根据实施例,智能服务器200的发声分类模块270可以对包括在文本数据中的至少一个表达进行分类。例如,发声分类模块270可以确定至少一个表达是用于显式地请求执行任务的显式表达(或直接表达)还是用于对至少一个表达进行分类的隐式表达(或间接表达)。
当对包括在文本数据中的表达进行分类的过程完成时,在操作1210中,系统可以确定是否包括与用于请求执行任务的第一表达(例如,显式表达或直接表达)不同的多个第二表达(例如,多个隐式表达或多个间接表达)。例如,智能服务器200的发声分类模块270可以验证第一表达是否未被包括在文本数据中并且多个第二表达是否被包括在文本数据中。
当多个第二表达被包括在文本数据中时,在操作1230中,系统可以验证在DB(例如,图6的间接发声DB 225)中是否存在分别映射到第二表达的第一表达。例如,发声分类模块270可以验证包括在文本数据中的多个隐式表达中的每一个是否是用要存储在间接发声DB 225中的显式表达映射的。
当第二表达分别映射到用要存储的不同第一表达时,在操作1250中,系统可以向外部装置发送与执行与第一表达中的每一个相对应的每个任务相关联的提示信息。例如,当多个隐式表达被包括在文本数据中时,智能服务器200可以验证分别用多个隐式表达映射的显式表达并且可以将与执行与显式表达中的每一个相对应的每个任务相关联的提示信息发送到用户终端100。因此,用户终端100可以将提示信息提供给用户,并且用户可以使用提示信息来选择要执行的任务。
图13是例示了根据本公开的实施例的与处理多个隐式表达相关联的系统的另一操作方法的流程图。
参考图13,当用户的发声是隐式表达(或间接发声)时并且当多个隐式表达(或多个间接表达)被包括在用户的发声中时,系统(例如,图6的智能服务器200)可以选择与所述多个隐式表达中的任何一个相对应的任务并且可以向外部装置发送关于与执行所选择的任务相关联的外部装置(例如,图6的用户终端100)的状态的序列的信息(例如,路径规则)。
根据实施例,智能服务器200的ASR模块210可以从用户终端100获得与用户的发声输入相对应的话音数据并且可以将所获得的话音数据转换成文本数据。根据实施例,智能服务器200的发声分类模块270可以对包括在文本数据中的至少一个表达进行分类。例如,发声分类模块270可以确定至少一个表达是用于显式地请求执行任务的显式表达(或直接表达)还是用于对至少一个表达进行分类的隐式表达(或间接表达)。
当对包括在文本数据中的表达进行分类的过程完成时,在操作1310,系统可以确定是否包括与用于请求执行任务的第一表达(例如,显式表达或直接表达)不同的多个第二表达(例如,多个隐式表达或多个间接表达)。例如,智能服务器200的发声分类模块270可以验证第一表达是否未被包括在文本数据中并且多个第二表达是否被包括在文本数据中。
当多个第二表达被包括在文本数据中时,在操作1330中,系统可以验证在DB(例如,图6的间接发声DB 225)中是否存在分别映射到第二表达的第一表达。例如,发声分类模块270可以验证包括在文本数据中的多个隐式表达中的每一个是否是用要存储在间接发声DB 225中的显式表达映射的。
当第二表达分别被映射到要存储的不同的第一表达时,在操作1350中,系统可以选择第一表达中的任何一个。例如,智能服务器200可以选择分别映射到隐式表达的显式表达中的任何一个。例如,智能服务器200可以基于分别与显式表达相对应的隐式表达的优先级选择显式表达中的任何一个。可以通过例如分别映射到显式表达的隐式表达的数量、隐式表达的使用频率、用户信息等来确定优先级。
当第一表达中的任何一个被选择时,在操作1370中,系统可以向外部装置发送关于与执行与所选择的第一表达相对应的任务相关联的外部装置的状态的序列的信息。例如,智能服务器200可以向用户终端100发送与所选择的显式表达相对应的路径规则。
如上所述,根据各种实施例,电子装置的话音数据处理方法可以包括:经由电子装置的通信电路从外部装置获得话音数据,将话音数据转换成文本数据,对包括在文本数据中的至少一个表达进行分类,在至少一个表达包括用于请求使用外部装置来执行第一任务的第一表达时,经由通信电路向外部装置发送关于与执行第一任务相关联的外部装置的状态的序列的第一信息,以及在至少一个表达不包括第一表达而包括与第一表达不同的第二表达时并且当在DB中存在用第二表达映射的第一表达时,经由通信电路将第一信息发送到外部装置。
根据各种实施例,第一表达可以包括可由外部装置执行的应用的标识符和被设置为执行应用的功能的命令中的至少一个。
根据各种实施例,方法可以进一步包括:在至少一个表达包括第一表达和第二表达时,将与第一任务相关联的第一表达和第二信息中的至少一个映射到第二表达并且存储映射信息。
根据各种实施例,方法可以进一步包括:在至少一个表达不包括第一表达而包括与第一表达不同的第二表达时并且当在DB中存在用第二表达映射的第一表达和与第一表达不同的至少一个第三表达时,向外部装置发送与执行与第一表达相对应的第一任务相关联的第一提示信息和与执行与至少一个第三表达相对应的至少一个第二任务相关联的至少一个第二提示信息。
根据各种实施例,方法可以进一步包括:在至少一个表达不包括第一表达而包括与第一表达不同的第二表达时并且当在DB中存在用第二表达映射的第一表达和与第一表达不同的至少一个第三表达时,基于第一表达和至少一个第三表达的优先级选择第一表达和至少一个第三表达中的任何一个并且向外部装置发送关于与执行与所选择的表达相对应的任务相关联的外部装置的状态的序列的信息。
根据各种实施例,方法可以进一步包括:在至少一个表达不包括第一表达而包括与第一表达不同的第二表达和至少一个第三表达时,并且当在DB中存在用第二表达映射的第一表达和用至少一个第三表达映射的至少一个第四表达时,向外部装置发送与执行与第一表达相对应的第一任务相关联的第一提示信息和与执行与至少一个第四表达相对应的至少一个第二任务相关联的至少一个第二提示信息。
根据各种实施例,方法可以进一步包括:在至少一个表达不包括第一表达而包括与第一表达不同的第二表达和至少一个第三表达时,并且当在DB中存在用第二表达映射的第一表达和用至少一个第三表达映射的至少一个第四表达时,基于第一表达和至少一个第四表达的优先级选择第一表达和至少一个第四表达中的任何一个并且向外部装置发送关于与执行与所选择的表达相对应的任务相关联的外部装置的状态的序列的信息。
图14是例示了根据本公开的实施例的与处理话音数据相关联的屏幕的图。
参考图14,电子装置(例如,图6的用户终端100)可以经由麦克风(例如,图3的麦克风111)接收用户的发声输入(即,话音输入或话音命令)并且可以将所检测到的与发声相对应的话音数据发送到外部装置(例如,图6的智能服务器200)。在这种情况下,外部装置可以将所接收到的话音数据转换成文本数据并且可以将经转换的文本数据发送回到电子装置。因此,在状态1401下,电子装置可以像在示例1401中看到的一样在显示器1400上输出接收到的文本数据1410。
根据实施例,外部装置可以对包括在所接收到的文本数据1410中的至少一个表达进行分类。例如,智能服务器200的发声分类模块270可以确定包括在文本数据1410中的至少一个表达是用于显式地请求执行任务的显式表达(或直接表达)还是用于对至少一个表达进行分类的隐式表达(或间接表达)。
根据实施例,显式表达可以包括显式地请求执行任务的表达。例如,显式表达可以包括可利用来执行任务的必要元素(例如,域、意图等)。例如,显式表达可以包括可执行应用的标识符、被配置为执行应用的功能(或操作)的命令等。在所示图中,当用户陈述“因为我的眼睛模糊,所以请打开蓝光滤波器”时,可以将句子“请打开蓝光滤波器”确定为与要执行蓝光滤波器功能的命令相对应的发声部分1411,并且因此可以被认为是“显式”表达。相比之下,隐式表达可以不管在文本中是否指示都包括与显式表达分开且不同的表达。例如,隐式表达可以包括可定制任务或者在任务被执行时以其它方式被使用的附加元素(例如,诸如参数),或与执行任务无关的不必要元素(例如,感叹号)。在所描绘的示例中,文本“因为我的眼睛模糊”是与执行激活蓝光滤波器的功能无关的发声部分1413并且可以对应于隐式表达的示例。
根据实施例,当对包括在文本数据1410中的表达(例如,显式表达1411和隐式表达1413)进行分类的过程完成时,外部装置可以生成(或选择)关于与执行任务(例如,打开蓝光滤波器的功能)相关联的电子装置的状态的序列的信息,即,基于显式表达1411的路径规则,并且可以将路径规则发送到电子装置。
当接收到路径规则,电子装置可以根据路径规则执行任务。根据实施例,在第二状态1403下,电子装置可以在显示器1400上输出确认任务的执行的屏幕。例如,电子装置可以在显示器1400上输出与用户的发声输入相对应的文本数据1410和用于提供任务将被执行的通知的对象1430(例如,“我将用蓝光滤波器降低眩光”)。
根据实施例,当显式表达1411和隐式表达1413被包括在文本数据1410中时,外部装置可以将显式表达1411和隐式表达1413映射并存储在DB(例如,图6的间接发声DB 225)中。因此,尽管隐式表达1413被说出,然而外部装置可以使用存储在DB中的映射信息来执行任务。
图15是例示了根据本公开的实施例的在收到隐式发声时未能执行任务的情况的图。图16是例示了根据本公开的实施例的在隐式发声时执行任务的情况的图。
参考图15和图16,电子装置(例如,图6的用户终端100)可以经由麦克风(例如,图3的麦克风111)接收用户的发声输入(即,话音输入或话音命令)并且可以向外部装置(例如,图6的智能服务器200)发送与用户的发声输入相对应的话音数据。在这种情况下,外部装置可以将所接收到的话音数据转换成文本数据并且可以将经转换的文本数据发送到电子装置。因此,在第一状态1501或1601下,电子装置可以在显示器1500或1600上输出接收到的文本数据1510或1610。
根据实施例,外部装置可以对包括在经转换的文本数据1510或1560中的每一个中的至少一个表达进行分类。例如,智能服务器200的发声分类模块270可以确定包括在文本数据1510或1610中的至少一个表达是用于显式地请求执行任务的显式表达(或直接表达)还是可以用于对至少一个表达进行分类的隐式表达(或间接表达)。如图15和图16中所示,当用户说出“我的眼睛模糊”时,外部装置可以分析发声输入并且可以确定用于显式地请求执行任务的显式表达未被包括在与用户的发声输入相对应的文本数据1510或1610中,并且与执行任务不相关联的隐式表达1510或1610被包括在文本数据1510或1610中。
根据实施例,外部装置可以验证在DB(例如,图6的间接发声DB 225)中是否存在用隐式表达1510或1610映射的显式表达。例如,发声分类模块270可以验证在间接发声DB 225中是否存在映射到隐式表达1510或1610(例如,“我的眼睛模糊”)的显示表达(例如,“请打开蓝光滤波器”)。根据实施例,当将映射信息存储在DB中时,外部装置可以处理表达。例如,当将句子“我的眼睛模糊”和“因为我的眼睛模糊”映射到句子“请打开蓝光滤波器”时,外部装置可以完全地存储句子“我的眼睛模糊”和“因为我的眼睛模糊”,但是可以将句子“我的眼睛模糊”和“因为我的眼睛模糊”处理为更广泛地使用。例如,外部装置可以从句子中提取词“眼睛”和“模糊”并且可以映射这些词以管理映射信息从而在包括这些词的句子被说出时引用映射信息。或者,外部装置可以处理并存储与执行任务相关联的显式表达。在一些实施例中,外部装置可以存储与显式表达相对应的任务的信息,而不是存储显式表达。例如,外部装置可以将词“眼睛”和“模糊”映射到能够标识打开蓝光滤波器的功能的信息以将映射信息存储在DB中。
根据实施例,当在DB中存在用隐式表达1510或1610映射的显式表达(或任务的信息)时,外部装置可以生成(或选择)关于与执行任务(例如,打开蓝光滤波器的功能)相关联的电子装置的状态的序列的信息,即,路径规则并且可以将该路径规则发送到电子装置。在这种情况下,在接收到路径规则后,电子装置可以根据路径规则执行任务。根据实施例,在图16的第二状态1603下,电子装置可以在显示器1600上输出提供任务将被执行的通知的屏幕。例如,电子装置可以在显示器1600上输出与用户的发声输入相对应的文本数据1610和提供任务将被执行的通知的对象1630(例如,“我将用蓝光滤波器降低眩光”)。进一步,电子装置可以执行任务同时在显示器1600上输出对象1630。
根据实施例,当在DB中不存在用隐式表达1510或1610映射的显式表达(或任务的信息)时,外部装置可以通知电子装置不存在用隐式表达1510或1610映射的显式表达(或任务的信息)。在这种情况下,在图15的第二状态1503下,电子装置可以输出与用户的发声输入相对应的文本数据1510以及输出对象1530(例如,“因为我才几天大,所以我还有很多要学习”),提供通知说明由于隐式表达仍未被映射到明确地指示要执行的功能的显式表达的事实而不可能使用文本数据1510来执行任务。
图17是例示了根据本公开的实施例的用于处理用多个显式表达映射的隐式表达的方法的图。
参考图17,电子装置(例如,图6的用户终端100)可以经由麦克风(例如,图3的麦克风111)接收用户的发声输入并且可以向外部装置(例如,图6的智能服务器200)发送与用户的发声输入相对应的话音数据。在这种情况下,外部装置可以将所接收到的话音数据转换成文本数据并且可以将经转换的文本数据发送到电子装置。因此,在第一状态1701下,电子装置可以在显示器1700上输出接收到的文本数据1710。
根据实施例,外部装置可以对包括在经转换的文本数据1710中的至少一个表达进行分类。例如,智能服务器200的发声分类模块270可以确定包括在文本数据1710中的至少一个表达是用于显式地请求执行任务的显式表达(或直接表达)还是用于对至少一个表达进行分类的隐式表达(或间接表达)。如图17中所示,当用户说出“我的眼睛模糊”时,外部装置可以确定用于显式地请求执行任务的显式表达未被包括在与用户的发声输入相对应的文本数据1710中并且与执行任务不相关联的隐式表达1710被包括在文本数据1710中。
根据实施例,外部装置可以验证在DB(例如,图6的间接发声DB 225)中是否存在用隐式表达1710映射的显式表达。当在DB中存在用隐式表达1710映射的多个显式表达(或任务的多个信息)时,外部装置可以向将电子装置发送与执行与显式表达中的每一个相对应的每个任务相关联的提示信息。
在接收到提示信息后,在第二状态1703下,电子装置可以在显示器1700上输出所接收到的提示信息。例如,电子装置可以在显示器1700上输出与用户的发声输入相对应的文本数据1710、用于基于提示信息请求选择要执行的任务的对象1730(例如,“请根据下面的提示选择要执行的功能”)和提示信息1750。
根据实施例,外部装置可以基于显式表达的优先级指定与和显式表达中的每一个相对应的每个任务相关联的提示信息被显示的顺序。例如,外部装置可以基于具体显式表达与隐式表达1710一起被说出的次数、当隐式表达1710被说出时从用户选择并执行任务的次数等设置显式表达的优先级。因为显式表达中的每一个的优先级较高,所以与和显式表达相对应的任务相关联的提示信息被显示的顺序可以更快。例如,被映射到隐式表达1710(例如,“我的眼睛模糊”)的第一显式表达1751(例如,“请打开蓝光滤波器”)、第二显式表达1753(例如,“请降低屏幕亮度”)和第三显式表达1755(例如,“请增加字体大小”)当中的第一显式表达1751可以具有最高优先级,而第三显式表达1755可以具有最低优先级。电子装置可以按照优先级的顺序输出第一显式表达1751、第二显式表达1753和第三显式表达1755。
图18是例示了根据本公开的实施例的与对隐式发声进行训练相关联的屏幕的图。
参考图18,电子装置(例如,图6的用户终端100)可以提供用于对隐式发声(或间接发声)进行训练的界面。根据实施例,当在用户的发声输入中存在用于显式地请求执行任务的显式表达1813(例如,“请打开蓝光”)时,电子装置可以提供用于对能够被映射到显式表达1813的隐式表达进行训练的界面,意味着电子装置可接收新的隐式表达并且将它们映射到显式表达,使得将来,即使当缺少显式表达时,也可以使用隐式表达来执行对应的功能。
根据实施例,在第一状态1801下,电子装置可以在显示器1800上输出用于提供能够对能够被映射到显式表达1813的隐式表达进行训练的通知的对象1811、显式表达1813以及被设置为输入隐式表达的对象1815(例如,按钮)。
根据实施例,当被设置为输入隐式表达的对象1815被选择时,电子装置可以经由麦克风(例如,图3的麦克风111)从用户接收发声输入。例如,隐式表达1830(例如,“我的眼睛模糊”)将被映射到可以被包括在发声输入中的显式表达1813。当隐式表达1830被输入时,在状态1803下,电子装置可以在显示器1800上将所接收到的隐式表达1830与显式表达1813一起输出。进一步,电子装置可以将所接收到的隐式表达1830发送到外部装置(例如,图6的智能服务器200)。外部装置可以将所接收到的隐式表达1830映射到显式表达1813以将映射信息存储在DB(例如,图6的间接发声DB 225)中。
根据实施例,在第三状态1805下,电子装置可以在显示器1800上输出用于提供隐式表达1830已经成功地被映射到显式表达1813的通知的对象1850(例如,“感谢你的客气话,我知道更多的表达”)。
根据实施例,在第三状态1805之后,当经过指定的时间时或者当发生用户的输入(例如,触摸输入)时,电子装置可以返回到第一状态1801或第二状态1803并且可以提供用于进一步对另一隐式表达进行训练的界面。
在一些实施例中,智能服务器200可以用另一用户的间接发声数据库更新或共享用户的间接发声DB 225。例如,智能服务器200可以增强使用另一用户的间接发声DB来对于隐式发声执行任务的能力。
图19例示了根据各种实施例的网络环境1900中的电子装置1901的框图。根据本公开的各种实施例的电子装置可以包括各种形式的装置。例如,电子装置可以包括例如以下各项中的至少一种:便携式通信装置(例如,智能电话)、计算机装置(例如,个人数字助理(PDA)、平板个人计算机(PC)、膝上型PC、台式PC、工作站或服务器)、便携式多媒体装置(例如,电子书阅读器或运动图片专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器)、便携式医疗装置(例如,心跳测量装置、血糖监测装置、血压测量装置和体温测量装置)、相机或可穿戴装置。可穿戴装置可以包括以下类型中的至少一种:附件类型(例如,手表、戒指、手环、脚环、项链、眼镜、隐形眼镜或头戴式装置(HMD))、织物或服装集成类型(例如,电子服装)、身体附着类型(例如,皮肤垫(skin pad)或纹身)或生物可植入类型(例如,可植入电路)。根据各种实施例,电子装置可以包括例如以下各项中的至少一种:电视(TV)、数字通用盘(DVD)播放器、音响、音频附件装置(例如,扬声器、耳机或头戴式耳机)、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、游戏机、电子词典、电子钥匙、摄录像机或电子相框。
在另一实施例中,电子装置可以包括以下各项中的至少一种:导航装置、卫星导航系统(例如,全球导航卫星系统(GNSS))、事件数据记录器(EDR)(例如,汽车、船或飞机用的黑匣子)、车辆信息娱乐装置(例如,车辆用平视显示器)、工业或家庭机器人、无人机、自动取款机(ATM)、销售点(POS)、测量仪器(例如,水表、电表或煤气表)或物联网(例如,灯泡、喷水灭火装置、火灾警报器、恒温器或街灯)。根据本公开的实施例的电子装置可以不限于上述装置,并且可以提供像具有个人生物计量信息(例如,心率或血糖)的测量功能的智能电话一样的多个装置的功能。在本公开中,术语“用户”可以指代使用电子装置的人或者可以指代使用电子装置的装置(例如,人工智能电子装置)。
参考图19,在网络环境1900下,电子装置1901(例如,用户终端100)可以通过本地无线通信1998与电子装置1902进行通信或者可以通过网络1999与电子装置1904或服务器1908(例如,智能服务器200)进行通信。根据实施例,电子装置1901可以通过服务器1908与电子装置1904进行通信。
根据实施例,电子装置1901可以包括总线1910、处理器1920(例如,处理器150)、存储器1930(例如,存储器140)、输入装置1950(例如,麦克风111或鼠标)、显示装置1960(例如,显示器120)、音频模块1970(例如,扬声器130)、传感器模块1976、接口1977、触觉模块1979、相机模块1980、电源管理模块1988、电池1989、通信模块1990和订户标识模块1996。根据实施例,电子装置1901可以不包括上述元件中的至少一个(例如,显示装置1960或相机模块1980)或者可以进一步包括其它元件。
总线1910可以互连上述元件1920至1990并且可以包括用于在上述元件之间输送信号(例如,控制消息或数据)的电路。
处理器1920可以包括中央处理单元(CPU)、应用处理器(AP)、图形处理单元(GPU)、相机的图像信号处理器(ISP)或通信处理器(CP)中的一种或多种。根据实施例,处理器1920可以用片上系统(SoC)或封装中系统(SiP)来实现。例如,处理器1920可以驱动操作系统(OS)或应用以控制连接到处理器1920的另一元件(例如,硬件或软件元件)中的至少一个并且可以处理并计算各种数据。处理器1920可以将从其它元件中的至少一个(例如,通信模块1990)接收到的命令或数据加载到易失性存储器1932中以处理该命令或数据并且可以将结果数据存储到非易失性存储器1934中。
存储器1930可以包括例如易失性存储器1932或非易失性存储器1934。易失性存储器1932可以包括例如随机存取存储器(RAM)(例如,动态RAM(DRAM)、静态RAM(SRAM)或同步DRAM(SDRAM))。非易失性存储器1934可以包括例如可编程只读存储器(PROM)、一次PROM(OTPROM)、可擦除PROM(EPROM)、电EPROM(EEPROM)、掩模ROM、闪存ROM、闪速存储器、硬盘驱动器(HDD)或固态驱动器(SSD)。另外,根据与电子装置1901的连接,可以以内部存储器1936的形式或必要时通过连接可用的外部存储器1938的形式配置非易失性存储器1934。外部存储器1938可以进一步包括诸如紧凑型闪存(CF)、安全数字(SD)、微安全数字(Micro-SD)、迷你安全数字(Mini-SD)、极限数字(xD)、多媒体卡(MMC)或记忆棒的闪存驱动器。外部存储器1938可以以有线方式(例如,电缆或通用串行总线(USB))或无线(例如,蓝牙)方式与电子装置1901可操作地或以物理方式连接。
例如,存储器1930可以存储例如电子装置1901的至少一个不同的软件元件,诸如与程序1940相关联的命令或数据。程序1940可以包括例如内核1941、库1943、应用框架1945或应用程序(可互换地,“应用”)1947。
输入装置1950可以包括麦克风、鼠标或键盘。根据实施例,键盘可以包括以物理方式连接的键盘或通过显示器1960显示的虚拟键盘。
显示器1960可以包括显示器、全息图装置或投影仪,以及用于控制相关装置的控制电路。屏幕可以包括例如液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、微机电系统(MEMS)显示器或电子纸显示器。根据实施例,可以柔性地、透明地或可穿戴地实现显示器。显示器可以包括能够检测用户输入(诸如手势输入、接近输入或悬停输入)的触摸电路或者能够测量通过触摸的压力的强度的压力传感器(可互换地,力传感器)。触摸电路或压力传感器可以被与显示器整体地实现,或者可以与显示器分开地被实现有至少一个传感器。全息图装置可以使用光的干涉在空间中示出立体图像。投影仪可以将光投影到屏幕上以显示图像。屏幕可以位于电子装置1901内部或外部。
音频模块1970可以例如从声音转换成电信号或者从电信号转换成声音。根据实施例,音频模块1970可以通过输入装置1950(例如,麦克风)来获取声音或者可以通过包括在电子装置1901中的输出装置(未例示)(例如,扬声器或听筒)、外部电子装置(例如,电子装置1902(例如,无线扬声器或无线耳机))或与电子装置1901连接的电子装置1906(例如,有线扬声器或有线耳机)来输出声音。
传感器模块1976可以测量或检测例如电子装置1901的内部运行状态(例如,功率或温度)或外部环境状态(例如,高度、湿度或亮度)以生成与所测量到的状态或所检测到的状态的信息相对应的电信号或数据值。传感器模块1976可以包括例如以下传感器中的至少一种:手势传感器、陀螺仪传感器、大气压力传感器、磁传感器、加速度传感器、握持传感器、接近传感器、颜色传感器(例如,红色、绿色、蓝色(RGB)传感器)、红外传感器、生物计量传感器(例如,虹膜传感器、指纹传感器、心率监测(HRM)传感器、电子鼻传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器)、温度传感器、湿度传感器、照度传感器或UV传感器。传感器模块1976可以进一步包括用于控制包括在其中的至少一个或多个传感器的控制电路。根据实施例,可以通过使用处理器1920或与处理器1920分开的处理器(例如,传感器集线器)来控制传感器模块1976。在使用单独的处理器(例如,传感器集线器)的情况下,当处理器1920处于休眠状态时,单独的处理器可以在不唤醒处理器1920的情况下操作以控制传感器模块1976的操作或状态的至少一部分。
根据实施例,接口1977可以包括高清晰度多媒体接口(HDMI)、通用串行总线(USB)、光学接口、推荐标准232(RS-232)、D超小型(D-sub)、移动高清晰度链接(MHL)接口、SD卡/MMC(多媒体卡)接口或音频接口。连接器1978可以以物理方式连接电子装置1901和电子装置1906。根据实施例,连接器1978可以包括例如USB连接器、SD卡/MMC连接器或音频连接器(例如,耳机连接器)。
触觉模块1979可以将电信号转换成机械刺激(例如,振动或运动)或者转换成电刺激。例如,触觉模块1979可以对用户施加触觉或动觉刺激。触觉模块1979可以包括例如电机、压电元件或电刺激器。
相机模块1980可以捕获例如静止图像和运动图片。根据实施例,相机模块1980可以包括至少一个透镜(例如,广角透镜和远摄透镜或前置透镜和后置透镜)、图像传感器、图像信号处理器或闪光灯(例如,发光二极管或氙灯)。
用于管理电子装置1901的电源的电源管理模块1988可以包括电源管理集成电路(PMIC)的至少一部分。
电池1989可以包括一次电池、二次电池或燃料电池并且可以由外部电源再充电以给电子装置1901的至少一个元件供电。
通信模块1990可以在电子装置1901与外部装置(例如,第一外部电子装置1902、第二外部电子装置1904或服务器1908)之间建立通信信道。通信模块1990可以通过所建立的通信信道来支持有线通信或无线通信。根据实施例,通信模块1990可以包括无线通信模块1992或有线通信模块1994。通信模块1990可以经由无线通信模块1992或有线通信模块1994当中的相关模块通过第一网络1998(例如,诸如蓝牙或红外数据协会(IrDA)的无线局域网)或第二网络1999(例如,诸如蜂窝网络的无线广域网)与外部装置进行通信。
无线通信模块1992可以支持例如蜂窝通信、本地无线通信、全球导航卫星系统(GNSS)通信。蜂窝通信可以包括例如长期演进(LTE)、高级LTE(LTE-A)、码分多址(CMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)或全球移动通信系统(GSM)。本地无线通信可以包括无线保真(Wi-Fi)、WiFi直连、光保真(Li-Fi)、蓝牙、低功耗蓝牙(BLE)、Zigbee、近场通信(NFC)、磁安全传输(MST)、射频(RF)或体域网(BAN)。GNSS可以包括全球定位系统(GPS)、全球导航卫星系统(Glonass)、北斗导航卫星系统(Beidou)、欧洲全球卫星导航系统(伽利略)等中的至少一种。在本公开中,“GPS”和“GNSS”可以互换地使用。
根据实施例,当无线通信模块1992支持蜂窝通信时,无线通信模块1992可以例如使用订户标识模块(例如,SIM卡)1996来对通信网络内的电子装置1901进行标识或认证。根据实施例,无线通信模块1992可以包括与处理器1920分开的通信处理器(CP)(例如,应用处理器(AP))。在这种情况下,通信处理器可以在处理器1920处于不活动(休眠)状态时代替处理器1920执行与电子装置1901的元件1910至1996中的至少一个相关联的功能的至少一部分,而在处理器1920处于活动状态时与处理器1920一起执行与电子装置1901的元件1910至1996中的至少一个相关联的功能的至少一部分。根据实施例,无线通信模块1992可以包括多个通信模块,每个均支持蜂窝通信、本地无线通信或GNSS通信当中的相关通信方案。
有线通信模块1994可以包括例如局域网(LAN)服务、电力线通信或普通老式电话服务(POTS)。
例如,第一网络1998可以采用例如用于通过电子装置1901与第一外部电子装置1902之间的无线直接连接来发送或接收一个或多个指令或数据的Wi-Fi直连或蓝牙。第二网络1999可以包括用于在电子装置1901与第二电子装置1904之间发送或接收一个或多个指令或数据的电信网络(例如,诸如LAN或WAN的计算机网络、因特网或电话网络)。
根据各种实施例,可以通过与第二网络1999连接的服务器1908来在电子装置1901与第二外部电子装置1904之间发送或接收一个或多个指令或数据。第一外部电子装置1902和第二外部电子装置1904中的每一个可以是类型与电子装置1901的类型不同或相同的装置。根据各种实施例,电子装置1901将执行的操作中的全部或一部分可以由另一或者多个电子装置(例如,电子装置1902和1904或服务器1908)执行。根据实施例,在电子装置1901自动地或响应于请求而执行任何功能或服务的情况下,电子装置1901可以不在内部执行该功能或服务,而是可以可替代地或附加地向任何其它装置(例如,电子装置1902或1904或服务器1908)发送对与电子装置1901相关联的功能的至少一部分的请求。另一电子装置(例如,电子装置1902或1904或服务器1908)可以执行所请求的功能或附加功能,并且可以将执行结果发送到电子装置1901。电子装置1901可以使用所接收到的结果来提供所请求的功能或服务或者可以附加地处理所接收到的结果以提供所请求的功能或服务。为此,例如,可以使用云计算、分布式计算或客户端-服务器计算。
本公开的各种实施例和本文所使用的术语不旨在将本公开中描述的技术限于特定实施例,并且应当理解的是,这些实施例和术语包括关于本文所描述的对应实施例的修改、等同形式和/或替代方案。关于附图的描述,类似的元件可以通过类似的附图标记来标记。除非另外规定,否则单数形式的术语可以包括复数形式。在本文所公开的公开内容中,本文所使用的表达“A或B”、“A和/或B中的至少一个”、“A和/或B中的至少一种”、“A、B或C”或“A、B和/或C中的至少一个”等可以包括所关联列举的项目中的一个或多个的任何和所有组合。诸如“第一”或“第二”等的表达可以表达它们的元件,而不管它们的优先级或重要性如何,并且可以用于区分一个元件和另一元件区,但是不限于这些组件。当(例如,第一)元件被称为“与”另一(例如,第二)元件“(可操作地或通信地)耦合”或者“(可操作地或通信地)耦合到/连接到”另一(例如,第二)元件时,它可以直接地与另一元件耦合/耦合到或者连接到另一元件,或者可以存在中间元件(例如,第三元件)。
根据情形,本文所使用的表达“被适配为或被配置为”可以被可互换地用作例如表达在硬件或软件方面“适合于”、“具有……的能力”、“被改变为”、“被制成”、“能够”或“被设计为”。表达“被配置为……的装置”可以意味着该装置“能够”与另一装置或其它组件一起操作。例如,“被配置为(或设置为)执行A、B和C的处理器”可以意指用于执行对应操作的专用处理器(例如,嵌入式处理器)或通过执行存储在存储装置(例如,存储器1930)中的一个或多个软件程序来执行对应操作的通用处理器(例如,中央处理单元(CPU)或应用处理器)。
本文所使用的术语“模块”可以包括用硬件、软件或固件实现的单元,并且可以与术语“逻辑”、“逻辑块”、“组件”、“电路”等可互换地使用。“模块”可以是集成组件的最小单元或其一部分或者可以是用于执行一个或多个功能的最小单元或其一部分。“模块”可以被机械地或电子地实现,并且可以包括例如用于执行已知或将被开发的一些操作的专用IC(ASIC)芯片、现场可编程门阵列(FPGA)和可编程逻辑器件。
根据各种实施例,设备(例如,其模块或功能)或方法(例如,操作)的至少一部分可以例如通过以程序模块的形式存储在计算机可读存储介质(例如,存储器1930)中的指令来实现。指令当由处理器(例如,处理器1920)执行时,可以使该处理器执行与该指令相对应的功能。计算机可读记录介质可以包括硬盘、软盘、磁介质(例如,磁带)、光学介质(例如,光盘只读存储器(CD-ROM)和数字通用盘(DVD)、磁光介质(例如,软光盘))、嵌入式存储器等。一个或多个指令可以包含由编译器编译的代码或可由解释器执行的代码。
根据各种实施例的每个元件(例如,模块或程序模块)可以作为单个实体或多个实体被实现,上述子元件的一部分可以被省略或者可以进一步包括其它子元件。可替代地或附加地,在被集成在一个实体中之后,一些元件(例如,模块或程序模块)可以同样地或类似地执行由每个对应元件在集成之前执行的功能。根据各种实施例,可以通过连续方法、并行方法、重复方法或启发式方法来执行由模块、程序模块或其它元件执行的操作,或者可以以不同的顺序执行或省略这些操作的至少一个部分。或者,可以添加其它操作。
虽然已经参考本公开的各种实施例示出并描述了本公开,但是本领域的技术人员应理解的是,在不脱离如由所附权利要求及其等同形式限定的本公开的情况下,可以在其中作出形式和细节上的各种变化。
本申请要求2017年7月17日提交的韩国专利申请No.10-2017-0090301的优先权,其内容通过引用并入本文。

Claims (15)

1.一种电子装置,包括:
通信电路;
至少一个处理器,所述至少一个处理器与所述通信电路可操作地连接;以及
至少一个存储器,所述至少一个存储器与所述至少一个处理器可操作地连接,
其中,所述至少一个存储器存储有指令,所述指令可由所述至少一个处理器执行以:
经由所述通信电路从外部装置获得话音数据;
将所述话音数据转换成文本数据;
检测包括在所述文本数据中的至少一个表达;
当所述至少一个表达包括映射到第一任务的第一表达时,经由所述通信电路向所述外部装置发送指示了与执行所述第一任务相关联的状态的序列的第一信息;以及
当所述至少一个表达不包括所述第一表达而包括与所述第一表达不同的第二表达并且所述第二表达被映射到存储在数据库DB中的所述第一表达时,经由所述通信电路将所述第一信息发送到所述外部装置。
2.根据权利要求1所述的电子装置,其中,所述第一表达包括以下至少一个:
指示可由所述外部装置执行的应用的标识符和被配置为执行所述应用的功能的命令。
3.根据权利要求1所述的电子装置,其中,所述指令进一步可由所述处理器执行以:
当所述至少一个表达包括所述第一表达和所述第二表达并且所述第二表达还未被映射到所述第一表达时,将所述第二表达映射到至少一个所述第一表达,并且将与所述第一任务相关联的第二信息映射到所述第一表达。
4.根据权利要求1所述的电子装置,其中,所述指令进一步可由所述处理器执行以:
当所述至少一个表达包括所述第二表达但不包括所述第一表达时,并且当所述第二表达被映射到所述第一表达和所述DB中与所述第一表达不同的至少一个第三表达时,向所述外部装置发送第一提示信息和至少一个第二提示信息,
其中,所述第一提示信息与执行所述第一任务相关联,以及
其中,所述至少一个第二提示信息与执行被映射到所述至少一个第三表达的至少一个第二任务相关联。
5.根据权利要求4所述的电子装置,其中,所述指令进一步可由所述处理器执行以:
基于与所述第一表达和所述至少一个第三表达预先关联的优先级,设置所述第一提示信息和所述至少一个第二提示信息将被显示的顺序。
6.根据权利要求1所述的电子装置,其中,所述指令进一步可由所述处理器执行以:
当所述至少一个表达包括所述第二表达但不包括所述第一表达时,并且当所述第二表达被映射到所述第一表达和所述DB中与所述第一表达不同的至少一个第三表达时,基于与所述第一表达和所述至少一个第三表达预先关联的优先级,选择所述第一表达和所述至少一个第三表达中的一个表达,以及
向所述外部装置发送指示了与执行被映射到所选择的一个表达的特定任务相关联的状态的序列的信息。
7.根据权利要求1所述的电子装置,其中,所述指令进一步可由所述处理器执行以:
当所述至少一个表达包括所述第二表达和至少一个第三表达但不包括所述第一表达时,并且当所述第二表达被映射到所述第一表达映射并且所述至少一个第三表达是被映射到所述DB中的至少一个第四表达时,向所述外部装置发送第一提示信息和至少一个第二提示信息,
其中,所述第一提示信息与执行所述第一任务相关联,以及
其中,所述至少一个第二提示信息与执行被映射到所述至少一个第四表达的至少一个第二任务相关联。
8.根据权利要求7所述的电子装置,其中,所述指令进一步可由所述处理器执行以:
指定所述第一提示信息和所述至少一个第二提示信息将被显示的顺序,所述顺序基于所述第一表达和所述至少一个第四表达的预先关联的优先级。
9.根据权利要求1所述的电子装置,其中,所述指令进一步可由所述处理器执行以:
当所述至少一个表达包括所述第二表达和至少一个第三表达但不包括所述第一表达时,并且当所述第二表达被映射到所述第一表达映射并且所述至少一个第三表达被映射到所述DB中的至少一个第四表达时,基于与所述第一表达和所述至少一个第四表达预先关联的优先级,选择所述第一表达和所述至少一个第四表达中的一个表达,以及
向所述外部装置发送指示了与执行被映射到所选择的一个表达的特定任务相关联的状态的序列的信息。
10.一种电子装置的话音数据处理方法,所述话音数据处理方法包括:
经由所述电子装置的通信电路从外部装置获得话音数据;
由处理器将所述话音数据转换成文本数据;
由所述处理器检测包括在所述文本数据中的至少一个表达;
当所述至少一个表达包括第一表达时,经由所述通信电路向所述外部装置发送指示了与执行所述第一任务相关联的状态的序列的第一信息;以及
当所述至少一个表达不包括所述第一表达而包括与所述第一表达不同的第二表达并且所述第二表达被映射到存储在数据库DB中的所述第一表达时,经由所述通信电路将所述第一信息发送到所述外部装置。
11.根据权利要求10所述的话音数据处理方法,进一步包括:
当所述至少一个表达包括所述第一表达和所述第二表达并且所述第二表达还未被映射到所述第一表达时,将所述第二表达映射到所述第一表达以及与映射到所述第一表达的所述第一任务相关联的第二信息中的至少一个。
12.根据权利要求10所述的话音数据处理方法,进一步包括:
当所述至少一个表达包括所述第二表达但不包括所述第一表达时,并且当所述第二表达被映射到所述第一表达和所述DB中的与所述第一表达不同的至少一个第三表达时,向所述外部装置发送第一提示信息和至少一个第二提示信息,
其中,所述第一提示信息与执行所述第一任务相关联,以及
其中,所述至少一个第二提示信息与执行被映射到所述至少一个第三表达的至少一个第二任务相关联。
13.根据权利要求10所述的话音数据处理方法,进一步包括:
当所述至少一个表达包括所述第二表达但不包括所述第一表达时,并且当所述第二表达被映射到所述第一表达和所述DB中的与所述第一表达不同的至少一个第三表达时,基于与所述第一表达和所述至少一个第三表达预先关联的优先级,选择所述第一表达和所述至少一个第三表达,以及
向所述外部装置发送指示了与执行被映射到所选择的一个表达的特定任务相关联的状态的序列的信息。
14.根据权利要求10所述的话音数据处理方法,进一步包括:
当所述至少一个表达包括所述第二表达和至少一个第三表达但不包括所述第一表达时,并且当所述第二表达被映射到所述第一表达并且所述至少一个第三表达被映射到所述DB中的至少一个第四表达时,向所述外部装置发送第一提示信息和至少一个第二提示信息,
其中,所述第一提示信息与执行所述第一任务相关联,以及
其中,所述至少一个第二提示信息与执行被映射到所述至少一个第四表达的至少一个第二任务相关联。
15.根据权利要求10所述的话音数据处理方法,进一步包括:
当所述至少一个表达包括所述第二表达和至少一个第三表达但不包括所述第一表达时,并且当所述第二表达被映射到所述第一表达并且所述至少一个第三表达被映射到所述DB中的至少一个第四表达时,基于与所述第一表达和所述至少一个第四表达预先关联的优先级选择所述第一表达和所述至少一个第四表达中的一个表达,以及
向所述外部装置发送指示了与执行被映射到所选择的一个表达的特定任务相关联的状态的序列的信息。
CN201810786342.9A 2017-07-17 2018-07-17 话音数据处理方法以及支持该话音数据处理方法的电子装置 Pending CN109272994A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0090301 2017-07-17
KR1020170090301A KR20190008663A (ko) 2017-07-17 2017-07-17 음성 데이터 처리 방법 및 이를 지원하는 시스템

Publications (1)

Publication Number Publication Date
CN109272994A true CN109272994A (zh) 2019-01-25

Family

ID=64999109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810786342.9A Pending CN109272994A (zh) 2017-07-17 2018-07-17 话音数据处理方法以及支持该话音数据处理方法的电子装置

Country Status (3)

Country Link
US (1) US20190019509A1 (zh)
KR (1) KR20190008663A (zh)
CN (1) CN109272994A (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180085931A (ko) 2017-01-20 2018-07-30 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US11954613B2 (en) * 2018-02-01 2024-04-09 International Business Machines Corporation Establishing a logical connection between an indirect utterance and a transaction
US20190251961A1 (en) * 2018-02-15 2019-08-15 Lenovo (Singapore) Pte. Ltd. Transcription of audio communication to identify command to device
US11393491B2 (en) 2019-06-04 2022-07-19 Lg Electronics Inc. Artificial intelligence device capable of controlling operation of another device and method of operating the same
KR102170088B1 (ko) * 2019-07-24 2020-10-26 네이버 주식회사 인공지능 기반 자동 응답 방법 및 시스템
CN110619873A (zh) * 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
US11763090B2 (en) 2019-11-11 2023-09-19 Salesforce, Inc. Predicting user intent for online system actions through natural language inference-based machine learning model
US11769013B2 (en) * 2019-11-11 2023-09-26 Salesforce, Inc. Machine learning based tenant-specific chatbots for performing actions in a multi-tenant system
KR20230004007A (ko) * 2021-06-30 2023-01-06 삼성전자주식회사 오디오 데이터에 오디오 효과의 중복 적용을 방지하는 방법 및 이를 지원하는 전자 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100312547A1 (en) * 2009-06-05 2010-12-09 Apple Inc. Contextual voice commands
CN104700834A (zh) * 2013-12-05 2015-06-10 联想(新加坡)私人有限公司 信息处理方法及信息处理装置
CN105453080A (zh) * 2013-08-30 2016-03-30 英特尔公司 用于虚拟个人助理的可扩展上下文感知的自然语言交互
CN106611595A (zh) * 2015-10-16 2017-05-03 三星电子株式会社 用于将文本转换为语音的电子装置和方法
US20170133009A1 (en) * 2015-11-10 2017-05-11 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK2954517T3 (en) * 2013-02-05 2016-11-28 ERICSSON TELEFON AB L M (publ) HIDE OF LOST AUDIO FRAMES
US10102845B1 (en) * 2013-02-25 2018-10-16 Amazon Technologies, Inc. Interpreting nonstandard terms in language processing using text-based communications
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US10297254B2 (en) * 2016-10-03 2019-05-21 Google Llc Task initiation using long-tail voice commands by weighting strength of association of the tasks and their respective commands based on user feedback

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100312547A1 (en) * 2009-06-05 2010-12-09 Apple Inc. Contextual voice commands
CN105453080A (zh) * 2013-08-30 2016-03-30 英特尔公司 用于虚拟个人助理的可扩展上下文感知的自然语言交互
CN104700834A (zh) * 2013-12-05 2015-06-10 联想(新加坡)私人有限公司 信息处理方法及信息处理装置
CN106611595A (zh) * 2015-10-16 2017-05-03 三星电子株式会社 用于将文本转换为语音的电子装置和方法
US20170133009A1 (en) * 2015-11-10 2017-05-11 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same

Also Published As

Publication number Publication date
KR20190008663A (ko) 2019-01-25
US20190019509A1 (en) 2019-01-17

Similar Documents

Publication Publication Date Title
US11670302B2 (en) Voice processing method and electronic device supporting the same
US10909982B2 (en) Electronic apparatus for processing user utterance and controlling method thereof
CN108292317B (zh) 问题和答案处理方法以及支持该方法的电子设备
CN109272994A (zh) 话音数据处理方法以及支持该话音数据处理方法的电子装置
US11145302B2 (en) System for processing user utterance and controlling method thereof
US11435980B2 (en) System for processing user utterance and controlling method thereof
US11170768B2 (en) Device for performing task corresponding to user utterance
CN108829235A (zh) 语音数据处理方法和支持该方法的电子设备
CN108121490A (zh) 用于处理多模式输入的电子装置、方法和服务器
US11042703B2 (en) Method and device for generating natural language expression by using framework
CN110199350A (zh) 用于感测语音结束的方法和实现该方法的电子设备
CN110288987A (zh) 用于处理声音数据的系统和控制该系统的方法
KR102389996B1 (ko) 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법
CN109102802A (zh) 用于处理用户话语的系统
US11443749B2 (en) Electronic device and control method thereof
KR102423298B1 (ko) 음성 인식 서비스 운용 방법, 이를 지원하는 전자 장치 및 시스템
CN110476150A (zh) 用于操作语音辨识服务的方法和支持其的电子装置
KR20170089178A (ko) 전자 장치, 전자 장치의 음성 인식 방법
KR102391298B1 (ko) 음성 인식 서비스를 제공하는 전자 장치 및 그 방법
KR102369083B1 (ko) 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
US20200326832A1 (en) Electronic device and server for processing user utterances
KR102508677B1 (ko) 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
KR102369309B1 (ko) 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치
KR20200044175A (ko) 전자 장치 및 그의 비서 서비스 제공 방법
KR102349681B1 (ko) 결여된 파라미터를 획득하고 기록하는 전자 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190125