CN108665890A - 操作语音识别服务的方法、电子设备和支持该设备的系统 - Google Patents
操作语音识别服务的方法、电子设备和支持该设备的系统 Download PDFInfo
- Publication number
- CN108665890A CN108665890A CN201810264599.8A CN201810264599A CN108665890A CN 108665890 A CN108665890 A CN 108665890A CN 201810264599 A CN201810264599 A CN 201810264599A CN 108665890 A CN108665890 A CN 108665890A
- Authority
- CN
- China
- Prior art keywords
- user
- speech
- information
- modules
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Abstract
提供了一种电子设备。所述电子设备包括通信模块、根据用户语音接收话音输入的麦克风、储存关于语音识别服务的操作的信息的存储器、显示器、和与通信模块、麦克风、存储器、和显示器电连接的处理器。处理器被配置成计算与语音识别服务的操作关联的指定数值,向处理话音输入的第一外部设备传递关于该数值的信息,并且取决于数值向第一外部设备传递对于与从所述第一外部设备逐步提供的语音识别服务关联的至少一个功能当中对应于所计算的数值的功能的请求,来改进通过该电子设备支持的语音识别服务的功能。
Description
优先权
本申请要求2017年3月28日提交的韩国专利申请第10-2017-0039589号和2017年6月7日提交的韩国专利申请第10-2017-0071017号的优先权,其内容通过引用并入本文。
技术领域
本公开涉及语音识别服务的功能改进(refinement)技术。
背景技术
为了与用户交互的目的,最近的电子设备已经提出了各种输入方法。例如,电子设备可以支持话音输入方法,其基于指定应用的执行来根据用户语音接收话音数据。此外,所述电子设备可以识别接收的话音数据以导出用户的语音意图,并且可以支持执行对应于该导出的语音意图的操作的语音识别服务。
语音识别服务可以基于使用机器学习算法的人工智能系统来实现。作为其中实施了人工智能的计算机系统,人工智能系统指在其被使用时,自我训练和确定,并且改善识别率的系统。人工智能技术可以包括使用自我分类/学习输入数据的特性的算法或者元素(elemental)技术(例如,识别人类的语言/文字的语言理解技术、确定信息以逻辑地推断并且预测确定的信息的推理/预测技术等)的机器学习(例如,深度学习)技术,元素技术通过使用机器学习算法来模拟诸如人脑的识别、人脑的判断等的功能。
以上信息仅作为背景信息呈现以协助手解本公开。没有做出决定,并且也没有做出断言,以上任何一个是否可以应用作为对于本公开的现有技术。
发明内容
在语音识别服务的操作中,与用户和电子设备关联的多条信息可以作为用于清楚地识别话音数据或者用于导出用户话语意图的重要资源使用。如此,为了操作可靠的语音识别服务的目的,需要适当地并且连续地收集所述多条信息。然而,在语音识别服务的初始操作中,因为关于用户或者电子设备的信息量非常小,所以语音识别率可能较低或者频繁地发生错误。这可以降低语音识别服务的运行效率或可靠性。
本公开的各方面用来至少解决上述问题和/或缺点,并且至少提供下面描述的优点。因此,本公开的一方面是提供一种语音识别服务操作方法,其经由与用户的交互来更新语音识别服务。
本公开的另一方面是提供一种用于改进语音识别服务功能的装置和方法、支持其的电子设备和系统。
根据本公开的一方面,提供了一种用于支持语音装置的电子设备的方法。该方法包括:与至少一个外部设备通信的通信模块;根据用户语音接收话音输入的麦克风;储存关于语音识别服务的操作的信息的存储器;输出与语音识别服务的操作关联的屏幕的显示器;以及与通信模块、麦克风、存储器、和显示器电连接的处理器。
根据本公开的另一方面,所述处理器配置成计算与语音识别服务的操作关联的指定数值,向处理话音输入的第一外部设备传递关于该数值的信息,以及取决于数值向第一外部设备传递对于与从第一外部设备逐步提供的语音识别服务关联的至少一个功能当中对应于所计算的数值的功能的请求,以改进通过电子设备支持的语音识别服务的功能。
根据各种实施例,可以通过基于支持语音识别服务的操作的人工智能助手的经验点(或者增长点)改进语音识别服务的功能来向用户提供可靠的服务。
根据各种实施例,与用户有机关联的经验场景可以提供给人工智能助手,并且因此可以在操作语音识别服务时提供各种信息娱乐环境。
此外,可以提供经由此公开直接或间接地理解的各种效果。
根据以下结合附图公开了本公开的各种实施例的详细描述,本公开的其他方面、优点、和突出特征对于本领域技术人员将变得显而易见。
附图说明
根据以下结合附图的描述,本公开的某些实施例的以上和其他方面、特征和优势将会更加明显,其中:
图1A是图示根据本公开实施例的集成智能系统的框图;
图1B是图示根据本公开实施例的集成智能系统的用户终端的框图;
图1C是根据本公开实施例的用于描述用户终端的智能app如何运行的视图;
图1D是图示根据本公开实施例的集成智能系统的智能服务器的框图;
图1E是图示根据本公开实施例的自然语言理解(NLU)模块生成路径规则的方法的视图;
图2A是图示根据本公开实施例的与语音识别服务关联的界面的视图;
图2B是图示根据本公开实施例的与语音识别服务关联的界面的视图;
图2C是图示根据本公开实施例的与语音识别服务相联的界面的视图;
图3A是图示根据本公开实施例的用户终端的语音识别服务操作方法的视图;
图3B是图示根据本公开实施例的智能服务器的语音识别服务操作方法的视图;
图4A是图示根据本公开实施例的基于ASR模块的功能运行来计算人工智能助手的经验点的第一实施例的流程图;
图4B是图示根据本公开实施例的基于ASR模块的功能运行来计算人工智能助手的经验点的第二实施例的流程图;
图4C是图示根据本公开实施例的基于ASR模块的功能运行来计算人工智能助手的经验点的第三实施例的流程图;
图4D是图示根据本公开实施例的训练人工智能助手的实施例的视图;
图4E是图示根据本公开实施例的训练人工智能助手的另一实施例的视图;
图5A是图示根据本公开实施例的基于NLU模块的功能运行来计算人工智能助手的经验点的第四实施例的流程图;
图5B是图示根据本公开实施例的训练人工智能助手的实施例的视图;
图5C是图示根据本公开实施例的基于NLU模块的功能运行来计算人工智能助手的经验点的第五实施例的流程图;
图5D是根据本公开实施例的基于NLU模块的功能运行来计算人工智能助手的经验点的第六实施例的流程图;
图5E是图示根据本公开实施例的训练人工智能助手的实施例的视图;
图6A是图示根据本公开实施例的基于个人信息服务器的功能运行来计算人工智能助手的经验点的第七实施例的流程图;
图6B是图示根据本公开实施例的训练人工智能助手的实施例的视图;
图6C是图示根据本公开实施例的训练人工智能助手的另一实施例的视图;
图7A是图示根据本公开实施例的基于用户活动的执行来计算人工智能助手的经验点的第八实施例的视图;
图7B是图示根据本公开实施例的基于用户活动的运行来计算人工智能助手的经验点的第九实施例的视图;
图7C是图示根据本公开实施例的基于用户活动的运行来计算人工智能助手的经验点的第十实施例的视图;
图7D是图示根据本公开实施例的基于用户活动的运行来计算人工智能助手的经验点的第十一实施例的视图;
图8A是图示根据本公开实施例的使用人工智能助手的经验点的第一实施例的视图;
图8B是图示根据本公开实施例的使用人工智能助手的经验点的第二实施例的视图;
图8C是图示根据本公开实施例的使用人工智能助手的经验点的第三实施例的视图;
图8D是图示根据本公开实施例的使用人工智能助手的经验点的第四实施例的视图;
图8E是图示根据本公开实施例的使用人工智能助手的经验点的第五实施例的视图;
图8F是图示根据本公开实施例的使用人工智能助手的经验点的第六实施例的视图;
图8G是图示根据本公开实施例的使用人工智能助手的经验点的第七实施例的视图;
图9A是图示根据本公开实施例的与集成智能系统中的一些元件关联的架构的框图;
图9B是图示根据本公开实施例的与架构关联的集成智能系统中的一些元件之间的第一处理的视图;
图9C是图示根据本公开实施例的与架构关联的集成智能系统中的一些元件之间的第二处理的视图;
图9D是图示根据本公开实施例的与架构关联的一些元件运行的第三处理的视图;
图9E是图示根据本公开实施例的与架构关联的一些元件运行的第四处理的视图;
图9F是图示根据本公开实施例的与增进参与(promotion participation)关联的用户终端的各种界面的输出示例的视图;
图9G是根据本公开实施例的与架构关联的集成智能系统中的一些元件之间的第五处理的视图;
图9H是图示根据本公开实施例的与第一用户变化建议关联的用户终端的各种界面的输出示例的视图;
图9I是图示根据本公开实施例的与第二用户变化建议关联的用户终端的各种界面的输出示例的视图;
图9J是图示根据本公开实施例的与用户变化建议关联的用户终端的各种界面的输出示例的视图;
图9K是图示根据本公开实施例的与人工智能助手的经验点限制超过(limitexcess)关联的用户终端的界面输出示例的视图;以及
图10是图示根据本公开实施例的网络环境中的电子设备(或者用户终端)的视图。
在整个附图中,应该注意的是,近似的附图标记用来描绘相同或者相似的元件、特征、和结构。
具体实施方式
提供参考附图的以下描述来协助全面理解通过权利要求及其等同物定义的本公开的各种实施例。其包括各种具体细节以帮助手解,但是这些仅视为示例性的。因此,本领域的普通技术人员将认识到,在不偏离本公开的范围的情况下,能对本文描述的各种实施例做出各种改变和修改。另外,为了清楚和简洁,可以省略公知功能和构造的描述。
在以下的描述和权利要求中使用的术语和词语不限制于它们的书面含义,但是,仅由发明人使用以能够清楚和一致地理解本公开。因此,本领域技术人员应该清楚,提供本公开的各种实施例的以下描述只是为了图示的目的,而不是为了限制通过所附权利要求及其等同物定义的本公开的目的。
要理解的是,除非上下文明确指出,否则单数形式的“一(a)”、“一(an)”和“该”包括复数引用物。因此,例如,对“组件表面”的引用包括对一个或者多个这样的表面的引用。
通过本文使用的术语“包括”、“包含”、和“具有”、或者“可以包括”、或者“可以包含”和“可以具有”指示公开的功能、操作、或者元件的存在,但不排除其他功能、操作或者元素。
例如,表达“A或者B”、或者“A和/或者B中的至少一个”可以指示A和B、A或者B。比如,所述表达“A或者B”、或者“A和/或者B中的至少一个”可以指示(1)至少一个A、(2)至少一个B、或者(3)至少一个A和至少一个B两者。
本文中使用的诸如“1st”、“2nd”、“第一”、“第二”等的术语可以表示修改本公开的各种实施例的各种不同元件,但不是旨在限制所述元件。比如,“第一用户设备”和“第二用户设备”可以指示无关次序或者重要性的不同用户。例如,第一组件可以表示为第二组件并且反之亦然,而不背离本公开的范围。
在本公开实施例中,其意图是,当组件(例如,第一组件)是表示为“可操作地或者通信地耦合到/于”或者“连接到”另一组件(例如,第二组件),该组件可以直接连接到该另一组件或者经由另一组件(例如,第三组件)连接。在本公开的各种实施例中,其意图是,当组件(例如,第一组件)表示为“直接连接到”或者“直接访问”另一组件(例如,第二组件)时,另一组件(例如,第三组件)不存在于该组件(例如,第一组件)和该其他组件(例如,第二组件)之间。
例如,在本公开的各种实施例中使用的表达“配置成”,根据情形可以与“适合于......”、“具有......的能力”、“设计于......”、“适用于......”、“用作”或者“能够”互相交换地使用就硬件而言,术语“配置成”可以不一定指示“特定设计于”。代替地,在某些情形下,表达“设备配置成”可以指示该设备和另一设备或者部分是“能够”的。例如,表达“被配置成执行A、B、和C的处理器”可以指示用于执行对应的操作的专用处理器(例如,嵌入式处理器)或者通过运行在存储设备中储存的至少一个软件程序来执行对应的操作的通用处理器(例如,中央处理单元(CPU)或者应用处理器(AP))。
在本公开的各种实施例中使用的术语是用来描述本公开的某些实施例,但不旨在限制其他实施例的范围。除非在上下文中它们具有明显不同的含义,单数形式的术语可以包括复数形式。否则,本文使用的所有术语可以具有本领域技术人员一般理解的相同含义。一般而言,词典中定义的术语应该考虑为与具有与现有技术的上下文含义相同的含义,并且,除非本文明显定义,否则不应该不同地理解或者理解为具有过分正式的含义。在任何情况下,即使说明书中定义的术语也不旨在解释为排除本公开实施例。
根据本公开的各种实施例的电子设备可以包括智能电话、平板个人电脑(PC)、移动电话、视频电话、电子书阅读器、台式PC、膝上型PC(PDA)、网络计算机、工作站、服务器、个人数字助手(PDA)、便携式多媒体播放器(PMP)、运动图片专家组(MPEG-1或者MPEG-2)、音频层3(MP3)播放器、移动医疗设备、照相机、或者可穿戴设备中的至少一个。所述可穿戴设备可以包括辅助类型设备(例如,手表、戒指、手镯、脚链、项链、眼镜、隐形眼镜、头戴式设备(HMD))、纺织品-或者衣服集成型设备装置(例如,电子服装)、身体附着型设备(例如,皮肤垫或者纹身)、或者生物可植入型设备(例如,可植入电路)中的至少一个。
在本公开的一些各种实施例中,电子设备可以是家电。例如,智能家电可以包括电视(TV)、数字视频/多功能盘(DVD)播放器、音频、冰箱、空调、清洁器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、TV盒(例如,SamsungHomeSyncTM、Apple TVTM、或者Google TVTM)、游戏控制台(例如,XboxTM或者PlayStationTM)、电子词典、电子钥匙、摄像机、或者电子相框中的至少一个。
在本公开的其他各种实施例中,电子设备可以包括各种医疗设备(例如,各种便携式医学测量设备(例如,血糖测量设备、心率测量设备、血压测量设备、体温测量设备等)、磁共振血管造影(MRA)、磁共振成像(MRI)、计算机断层扫描(CT)、扫描仪、超声波期间等)、导航设备、全球导航卫星系统(GNSS)、事件数据记录器(EDR)、飞行数据记录器(FDR)、车辆信息娱乐设备、用于船只的电子设备(例如,导航系统、陀螺罗盘等)、航空电子设备、安全设备、车辆的头部单元、工业或者家庭机器人、自动柜员机(ATM)、商店的销售点(POS)设备、或者物联网设备(IoT)设备(例如,灯泡,各种传感器,电或者气表,洒水器,火警器,恒温器,街灯,烤面包机,运动器材,热水箱,加热器,锅炉等)中的至少一种。
根据本公开实施例,电子设备可以包括一部分的家具或者建筑物/结构、电子板、电子签名接收设备、投影仪、或者测量仪器(例如,水表、电表、煤气表、波表等)中的至少一个。电子设备可以是上述设备的一个或者多个组合。根据本公开的一些各种实施例的电子设备可以是灵活的设备。根据本公开实施例的电子设备不限于上述设备,并且随着新技术的发展可以包括新的电子设备。
其后,将参考附图更详细地描述根据本公开的各种实施例的电子设备。本文使用的术语“用户”可以表示使用电子设备的人或者可以表示使用电子设备的设备(例如,人工智能电子设备)。
在描述本公开的各种实施例之前,将参考图1A至1E描述其上能够应用本公开的各种实施例的集成智能系统。
图1A是图示根据本公开实施例的集成智能系统的框图。
参考图1A,集成智能系统10可以包括用户终端100、智能服务器200、个人信息服务器300、或者建议服务器400。
用户终端100可以经由在用户终端100中储存的app(或者应用程序)(例如,闹钟app、消息app、图片(图库)等)来提供用户所需的服务。例如,用户终端100可以经由储存在用户终端100中的智能app(或者语音识别app)来运行和操作其他app。可以接收经由用户终端100的智能app来用于启动(launching)并且运行其他app的用户输入。例如,可以经由物理按钮、触摸板、话音输入、远程输入等接收用户输入。根据实施例,与互联网连接的各种类型的终端设备(或者电子设备)(诸如移动电话、智能电话、PDA、笔记本电脑等)可以是用户终端100。根据实施例,用户终端100可以接收用户话语(utterance)作为用户输入。用户终端100可以接收用户话语并且可以基于该用户话语生成用于操作app的指令。这样,用户终端100可以通过使用该指令来操作app。
所述智能服务器200可以经过通信网络从用户终端100接收用户的话音输入,并且可以将该话音输入改变为文本数据。在另一实施例中,智能服务器200可以基于该文本数据生成(或者选择)路径规则。该路径规则可以包括关于用于执行app的功能的动作(或者操作)的信息或者关于执行该动作必要的参数的信息。另外,该路径规则可以包括app的动作序列(或者状态序列)。用户终端100可以接收路径规则,可以取决于路径规则选择app,并且可以运行选择的app中在路径规则中包括的动作。例如,用户终端100可以运行该动作并且可以在显示器中显示对应于运行该动作的用户终端100的状态的屏幕。又例如,用户终端100可以运行该动作并且可以不在显示器中显示通过运行该动作获得的结果。例如,用户终端100可以运行多个动作,并且可以只在显示器中显示所述多个动作的一部分的结果。例如,用户终端100可以只在显示器中显示通过运行多个动作中的最后一个动作而获得的结果。又例如,用户终端100可以响应于用户输入而在显示器中显示通过运行该动作而获得的结果。
个人信息服务器300可以包括其中储存了关于用户终端100的信息的用户信息或者数据库。例如,个人信息服务器300可以从用户终端100接收用户信息(例如,上下文信息、姓名信息、年龄信息、性别信息、地址信息、职业信息、健康信息、财务信息、用户喜好(preference)信息等),以将所述用户信息储存在所述数据库中。可替代地,个人信息服务器300可以从用户终端100接收用户终端100的使用信息(例如,app安装信息、app运行信息、呼叫信息、电池信息、位置信息、或者通信信息),以将使用信息储存在所述数据库中。在实施例中,在个人信息服务器300验证从用户终端100接收的信息或者预先储存在数据库中的信息的情况下,个人信息服务器300可以更新数据库。
智能服务器200可以用来经过通信网络从个人信息服务器300接收用户信息或者用户终端100的信息,并且生成与用户输入关联的路径规则。根据实施例,用户终端100可以经过通信网络从个人信息服务器300接收用户信息、并且可以使用所述用户信息作为用于管理数据库的信息。
建议服务器400可以包括数据库,其储存关于终端中的功能、应用的介绍、或者要提供的功能的信息。例如,建议服务器400可以包括与用户通过从个人信息服务器300接收用户终端100的用户信息利用的功能关联的数据库。用户终端100可以经过通信网络从建议服务器400接收关于要提供的功能的信息,并且可以向用户提供接收的信息。
图1B是图示根据本公开实施例的集成智能系统的用户终端的框图。
参考图1B,用户终端100可以包括输入模块110、显示器120、扬声器130、存储器140、处理器150、或者通信电路160。用户终端100的一些元件(例如,110、120、130、140、或者160)可以电连接到处理器150。用户终端100可以进一步包括外壳,并且用户终端100的元件可以安置(seated)在外壳中或者可以放置在外壳上。在各种实施例中,用户终端100可以被称作“电子设备(或者用户设备)”。另外,用户终端100可以不包括上述元件中的至少一个,或者可以进一步包括任何其他元件(或多个)。例如,用户终端100可以包括图9中图示的电子设备901的元件,或者可以包括图10中图示的电子设备1001的元件。
根据实施例,输入模块110可以从用户接收用户输入。例如,输入模块110可以从连接的外部设备(例如,键盘或者听筒)接收用户输入。又例如,输入模块110可以包括耦合到显示器120的触摸屏(例如,触摸屏显示器)。又例如,输入模块110可以包括布置在用户终端100(或者用户终端100的外壳)中的硬件键(或者物理键)。根据实施例,输入模块110可以包括能够接收用户语音作为话音信号的麦克风111。例如,输入模块110可以包括语音输入系统,并且可以经由该语音输入系统接收用户的语音作为话音信号。在实施例中,可以控制麦克风111始终被驱动(例如,总是开启)以根据用户的语音接收输入,或者可以在用户操纵应用于提供给用户终端100的一个区域的硬件键(例如,图1C中的112)的情况下被驱动。
根据实施例,显示器120可以显示应用的图像、视频、和/或运行屏幕。例如,显示器120可以显示app的图形用户界面(GUI)。在实施例中,显示器120的至少一部分可以经由壳体的一个区域暴露。
根据实施例,扬声器130可以输出声音信号。例如,扬声器130可将在用户终端100中生成的声音信号或者从外部设备接收的声音信号向外输出。
根据实施例,存储器140可以储存多个app 141和143。可以取决于用户输入来选择、启动、和运行储存在存储器140中的多个app 141和143。多个app 141和143可以包括支持用户终端100的功能运行的应用(例如,图片app、音乐app、日历app、消息app、呼叫app等)和支持语音识别服务的操作的智能app。
根据实施例,存储器140可以包括能够储存识别用户输入必要的信息的数据库。例如,存储器140可以包括能够储存日志信息的日志数据库。又例如,存储器140可以包括能够储存用户信息的私人数据库。
根据实施例,存储器140可以储存多个app 141和143,并且可以加载多个app 141和143以进行操作。例如,储存在存储器140中的多个app 141和143可以通过处理器150的运行管理者模块153加载以进行操作。多个app 141和143可以包括执行功能或者多个动作(或者单元动作)141b和143b的运行服务141a和143a。运行服务141a和143a可以通过处理器150的运行管理者模块153生成,然后可以运行多个动作141b和143b。
根据实施例,当运行app 141和143的动作141b和143b时,可以在显示器120中显示根据动作141b和143b的运行的运行状态屏幕。例如,运行状态屏幕可以是在动作141b和143b完成的状态下的屏幕。又例如,运行状态屏幕可以是在动作141b和143b的运行处于部分行进(landing)(例如,在没有输入动作141b和143b所需的参数的情况下)状态下的屏幕。
根据实施例,运行服务141a和143a可以取决于路径规则运行动作141b和143b。例如,运行服务141a和143a可以通过运行管理者模块153激活,可以取决于路径规则从运行管理者模块153接收运行请求,并且可以取决于运行请求运行app 141和143的动作141b和143b。如果完成了动作141b和143b的运行,则运行服务141a和143a可以向运行管理者模块153传递完成信息。
根据实施例,在app 141和143中分别运行多个动作141b和143b的情况下,可以顺序运行多个动作141b和143b。如果完成了一个动作(动作1)的运行,则运行服务141a和143a可以打开下一个动作(动作2)并且可以向运行管理者模块153传递完成信息。此处,理解的是,打开任意动作是用来将该任意动作的状态改变为可运行状态,或者用来准备运行任意动作。换句话说,如果未打开所述任意动作,则可能不运行对应的动作。如果接收到完成信息,则运行管理者模块153可以向运行服务传递用于下一个动作141b和143b的运行请求(例如,动作2)。根据实施例,在运行多个app 141和143的情况下,可以顺序地运行多个app 141和143。例如,如果在运行了第一app 141的最后一个动作的运行之后接收到完成信息,则运行管理者模块153可以向运行服务143a传递第二app 143的第一动作的运行请求。
根据实施例,在app 141和143中运行多个动作141b和143b的情况下,可以在显示器120中显示根据运行的多个动作141b和143b中的每一个运行的结果屏幕。根据实施例,可以只在显示器120中显示根据运行的多个动作141b和143b多个结果屏幕的一部分。
根据实施例,存储器140可以储存结合智能代理151操作的智能app(例如,语音识别app)。结合智能代理151操作的app可以接收和处理作为话音信号用户的话语。根据实施例,结合智能代理151操作的app可以通过经由输入模块110输入的特定输入(例如,经由硬件键的输入、经由触摸屏的输入、或者特定话音输入)来操作。
根据实施例,处理器150可以控制用户终端100的全部(overall)动作。例如,处理器150可以控制输入模块110以接收用户输入。处理器150可以控制显示器120显示图像。处理器150可以控制扬声器130输出话音信号。处理器150可以控制存储器140读取或者储存必要的信息。
根据实施例,处理器150可以包括智能代理151、运行管理者模块153、或者智能服务模块155。在实施例中,处理器150可以通过运行储存在存储器140中的指令来运行驱动智能代理151、运行管理者模块153、或者智能服务模块155。在本公开的各种实施例中描述的模块可以通过硬件或者通过软件来实施。在本公开的各种实施例中,理解的是,通过智能代理151、运行管理者模块153、或者智能服务模块155运行的动作是通过处理器150运行的动作。
根据实施例,智能代理151可以基于作为用户输入接收的话音信号来生成用于操作app的指令。根据实施例,运行管理者模块153可以从智能代理151接收生成的指令,并且可以选择、启动并且操作存储器140中储存的app 141和143。根据实施例,智能服务模块155可以管理用户的信息并且可以使用用户的信息以处理用户输入。
智能代理151可以处理经由输入模块110接收的用户输入,并且将其传递给智能服务器200。根据实施例,在向智能服务器200传递用户输入之前,智能代理151可以预处理该用户输入。根据实施例,智能代理151可以包括自适应回声消除器(AEC)模块、噪声抑制(NS)模块、最终点检测(EPD)模块、或者自动增益控制(AGC)模块,以预处理该用户输入。AEC可以移除用户输入中包括的回声。NS模块可以抑制包括在用户输入中的背景噪声。EPD模块可以检测包括在用户输入中的用户话音的最终点,以搜索用户语音存在(present)于其中的部分。AGC模块可以调整用户输入的音量,以使得适合于识别和处理用户输入。根据实施例,智能代理151可以包括用于性能(performance)的所有预处理元件。然而,在另一实施例中,智能代理151可以包括一部分预处理元件用于以低功率操作。
根据实施例,智能代理151可以包括识别用户的呼叫的唤醒识别模块。唤醒识别模块可以经由语音识别模块识别用户的唤醒指令。在唤醒识别模块接收唤醒指令的情况下,唤醒识别模块可以激活智能代理151以接收用户输入。根据实施例,智能代理151的唤醒识别模块可以利用低功率处理器(例如,包括在音频编解码器中的处理器)来实施。根据实施例,可以取决于经由硬件键键入的用户输入激活智能代理151。在激活了智能代理151的情况下,可以运行与智能代理151结合操作的智能app(例如,语音识别app)。在各种实施例中,在智能服务器200的图1D的自动语音识别模块210中可以包括唤醒识别模块。
根据实施例,智能代理151可以包括用于执行用户输入的语音识别模块。语音识别模块可以识别用于运行app中的动作的用户输入。例如,语音识别模块可以识别用于运行诸如app 141和143中的唤醒指令的动作的有限的用户(话音)输入(例如,当相机app正在运行时,用于运行捕捉动作的诸如“点击”的话语)。例如,用于在协助智能服务器200时识别用户输入的语音识别模块可以识别并且快速地处理能够在用户终端100中处理的用户指令。根据实施例,可以在app处理器中实施用于运行智能代理151的用户输入的语音识别模块。
根据实施例,智能代理151的语音识别模块(包括唤醒模块的语音识别模块)可以通过使用用于识别话音的算法来识别用户输入。例如,用于识别话音的算法可以是隐马尔可夫(hidden markov)模型(HMM)算法、人工神经网络(ANN)算法、或者动态时间规整(warping)(DTW)算法中的至少一种。
根据实施例,智能代理151可以将用户的话音输入改变为文本数据。根据实施例,智能代理151可以向智能服务器200传递用户的话音,以接收改变的文本数据。如此,智能代理151可以在显示器120中显示所述文本数据。
根据实施例,智能代理151可以从智能服务器200接收路径规则。根据实施例,智能代理151可以向运行管理者模块153传递路径规则。
根据实施例,智能代理151可以向智能服务模块155传递根据从智能服务器200接收的路径规则的运行结果日志,并且可以在私人模块155b的用户的喜好(preference)信息中累积和管理传递的运行结果日志。
根据实施例,运行管理者模块153可以从智能代理151接收路径规则以运行app141和143,并且可以允许app 141和143运行包括在路径规则中的动作141b和143b。例如,运行管理者模块153可以向app 141和143传递用于运行动作141b和143b的指令信息,并且可以从app 141和143接收动作141b和143b的完成信息。
根据实施例,运行管理者模块153可以在智能代理151以及app 141和143之间传递或者接收用于运行app 141和143的动作141b和143b的指令信息。运行管理者模块153可以取决于路径规则绑定要运行的app 141和143,并且可以向app 141和143传递包括在路径规则中的动作141b和143b的指令信息。例如,运行管理者模块153可以向app 141和143顺序地传递包括在路径规则中的动作141b和143b,并且可以取决于路径规则顺序地运行app 141和143的动作141b和143b。
根据实施例,运行管理者模块153可以管理app 141和143的动作141b和143b的运行状态。例如,运行管理者模块153可以从app 141和143接收关于动作141b和143b的运行状态的信息。例如,在动作141b和143b的运行状态是在部分行进中的情况下(例如,在没有输入动作141b和143b所需的参数的情况下),运行管理者模块153可以向智能代理151传递关于该部分行进的信息。智能代理151可以通过使用所接收的信息来向用户作出用于输入必要信息(例如,参数信息)的请求。又例如,在动作141b和143b的运行状态是处于操作状态的情况下,可以从用户接收话语,并且运行管理者模块153可以向智能代理151传递关于正在运行的app 141和143的信息以及app 141和143的运行状态。智能代理151可以经由智能服务器200接收用户话语的参数信息,并且可以向运行管理者模块153传递接收的参数信息。运行管理者模块153可以通过使用接收的参数信息将动作141b和143b的每一个的参数改变为新的参数。
根据实施例,运行管理者模块153可以向app 141和143传递包括在路径规则中的参数信息。在取决于路径规则顺序运行多个app 141和143的情况下,运行管理者模块153可以将包括在路径规则中的参数信息从一个app传递到另一个app。
根据实施例,运行管理者模块153可以接收多个路径规则。运行管理者模块153可以基于用户的话语来选择多个路径规则。例如,在用户话语指定app 141运行部分动作141b,但是并未指定app 143运行任何其他动作143b的情况下,运行管理者模块153可以接收多个不同的路径规则,其中运行部分动作141b的相同app 141(例如,图库app)被运行,并且其中不同app 143(例如,消息app或者电报app)运行其他动作143b。例如,运行管理者模块153可以运行多个路径规则的相同动作141b和143b(例如,相同的连贯动作141b和143b)。在运行管理者模块153运行相同动作的情况下,运行管理者模块153可以在显示器120中显示用于选择包括在多个路径规则中的不同app 141和143的状态屏幕。
根据实施例,智能服务模块155可以包括上下文模块155a、私人模块155b、或者建议模块155c。
上下文模块155a可以从app 141和143收集app 141和143的当前状态。例如,上下文模块155a可以接收指示app 141和143的当前状态的信息,以收集app 141和143的当前状态。
私人模块155b可以利用用户终端100管理用户的个人信息。例如,私人模块155b可以收集用户终端100的使用信息和运行结果以管理用户的个人信息。
建议模块155c可以预测用户的意图,以向用户推荐指令。例如,建议模块155c可以考虑用户的当前状态(例如,时间、地点、上下文、或者app)向用户推荐指令。
根据实施例的通信电路160(或者通信模块)可以根据定义的协议与集成智能系统10的至少一个外部设备(例如,智能服务器200、个人信息服务器300或者建议服务器)建立有线通信或者无线通信400。通信电路160可以基于有线通信或者无线通信传递或者接收与语音识别服务的操作关联的至少一种信息。
图1C是根据本公开实施例的用于描述用户终端的智能app如何运行的视图。
图1C图示了用户终端100接收用户输入以运行结合智能代理151操作的智能app(例如,语音识别app)。
根据实施例,用户终端100可以经由硬件键112运行用于识别话音的智能app。例如,在用户终端100经由硬件键112接收用户输入的情况下,用户终端100可以在显示器120中显示智能app的UI 121。例如,为了在显示器120中显示智能app的UI 121的状态中键入话音111b的目的,用户可以触摸智能app的UI 121的语音识别按钮121a。又例如,当连续地按压硬件键112以键入话音111b时,用户可以键入话音111b。
根据实施例,用户终端100可以经由麦克风111运行用于识别话音的智能app。例如,在经由麦克风111键入指定的话音111a(例如,唤醒!)的情况下,用户终端100可以在显示器120中显示智能app的UI 121。在此方面,上述唤醒识别模块可以激活与指定的话音输入关联的智能代理(图1B的151),并且智能代理151的激活可以伴随着互锁(interlocked)智能app的运行。此外,基于指定界面(例如,对话界面),智能app的运行可以伴随着与用户交互(例如,对话)的人工智能助手(例如,Bixby)的激活。
图1D是图示根据本公开实施例的集成智能系统的智能服务器的框图。
参考图1D,智能服务器200可以包括自动语音识别(ASR)模块210、自然语言理解(NLU)模块220、路径计划器模块230、对话管理者(DM)模块240、自然语言生成器(NLG)模块250、或者文本到语音(TTS)模块260。可以单独实施上述智能服务器200的元件210、220、230、240、250、或者260,或者可以集成至少一些元件。在实施例中,智能服务器200可以包括控制器(或者处理器),一般地,其控制元件210、220、230、240、250、或者260的功能操作,以及支持通信网络访问的通信接口(或者通信模块)。此外,智能服务器200可以包括储存设备,所述储存设备(或者存储器)包括元件210、220、230、240、250、或者260。
智能服务器200的NLU模块220或者路径计划器模块230可以生成路径规则。
根据实施例,ASR模块210可以将从用户终端100接收的用户输入转换为文本数据。例如,ASR模块210可以包括语音识别模块。语音识别模块可以包括声学模型和语言模型。例如,声学模型可以包括与语音关联的信息,并且语言模型可以包括单元音素(unitphoneme)信息和关于单元音素信息的组合的信息。语音识别模块可以通过使用与语音关联的信息和单元音素信息将用户语音改变为文本数据。例如,可以将关于声学模型和语言模型的信息储存在自动语音识别数据库(ASR DB)211中。在实施例中,ASR模块210可以基于首先接收的用户输入来生成取决于说话者(speaker)的识别模型,并且可以将生成的模型储存在数据库211中。根据实施例,相对于基于说话者识别模型的用户输入,ASR模块210可以确定用户是否是在模型中注册的说话者。
根据实施例,NLU模块220可以通过执行句法(syntactic)分析或者语义(semantic)分析来掌握用户意图。句法分析可以将用户输入划分为句法单元(例如,单词、短语、语素(morphemes)等),并且确定划分的单元具有哪些句法元素。语义分析可以通过使用语义匹配、规则匹配、公式匹配等来执行。如此,NLU模块220可以获得领域、意图、或者用户输入表达该意图所需的参数(或者时隙)。
根据实施例,NLU模块220可以通过使用被划分为领域、意图、和掌握该意图必要的参数(或者时隙)的匹配规则来确定用户的意图和参数。例如,一个领域(例如,警报)可以包括多个意图(例如,警报设置、警报取消等),并且一个意图可以包括多个参数(例如,时间、迭代的数目、警报声等)。例如,多个规则可以包括一个或者多个必要参数。可以在自然语言理解数据库(NLU DB)221中储存匹配规则。
根据实施例,NLU模块220可以通过使用诸如语素、短语等的语言学(linguistic)特征(例如,语法元素)来掌握从用户输入提取的词语的含义,并且可以将掌握的词语的含义与领域和意图匹配,以确定用户意图。例如,为了确定用户意图的目的,NLU模块220可以计算在每个领域和意图中包括多少从用户输入提取的词语。根据实施例,NLU模块220可以通过使用作为掌握意图的基础的词语来确定用户输入的参数。根据实施例,NLU模块220可以通过使用储存用于掌握用户输入的意图的语言学特征的NLU DB221来确定用户意图。根据另一实施例,NLU模块220可以通过使用个人语言模型(PLM)来确定用户意图。例如,NLU模块220可以通过使用个性化(personalized)信息(例如,联系人列表或者音乐列表)来确定用户意图。例如,可以将PLM储存在NLU DB 221中。根据实施例,ASR模块210以及NLU模块220可以参考储存在NLU DB 221中的PLM来识别用户的话音。
根据实施例,NLU模块220可以基于用户输入的意图和参数来生成路径规则。例如,NLU模块220可以基于用户输入的意图选择要运行的app,并且可以在选择的app中确定要运行的动作。NLU模块220可以确定对应于确定的动作的参数以生成路径规则。根据实施例,通过NLU模块220生成的路径规则可以包括关于要运行的app的信息、在该app中要运行的动作、以及运行该动作必要的参数。
根据实施例,NLU模块220可以基于用户输入的意图和参数来生成一个路径规则、或者多个路径规则。例如,为了确定路径规则的目的,NLU模块220可以从路径计划器模块230接收对应于用户终端100的路径规则集,并且可以将用户输入的意图和参数映射到接收的路径规则集。
根据另一实施例,为了生成一个路径规则或者多个路径规则的目的,NLU模块220可以基于用户输入的意图和参数来确定要运行的app、在该app中要运行的动作、以及运行该动作必要的参数。例如,为了生成路径规则的目的,NLU模块220可以取决于以本体或者图像模块的形式的用户输入的意图、通过使用用户终端100的信息来安排要运行的app和在该app中要运行的动作。例如,生成的路径规则可以经由路径计划器模块230储存在路径规则数据库(PRDB)231中。可以将生成的路径规则添加到PR DB 231的路径规则集中。
根据实施例,NLU模块220可以选择生成的多个路径规则的至少一种路径规则。例如,NLU模块220可以选择多个路径规则中的最佳路径规则。又例如,在基于用户话语仅指定了部分动作的情况下,NLU模块220可选择多个路径规则。NLU模块220可以取决于用户的附加输入来确定多个路径规则中的一个路径规则。
根据实施例,响应于对用户输入的请求,NLU模块220可以将路径规则传递给用户终端100。例如,NLU模块220可以向用户终端100传递对应于用户输入的一个路径规则。又例如,NLU模块220可以向用户终端100传递对应于用户输入的多个路径规则。例如,在基于用户话语仅指定了部分动作的情况下,可以通过NLU模块220生成多个路径规则。
根据实施例,路径计划器模块230可以选择多个路径规则中的至少一种路径规则。
根据实施例,路径计划器模块230可以向NLU模块220传递包括多个路径规则的路径规则集。路径规则集的多个路径规则可以以表格的形式储存在与路径计划器模块230连接的PR DB 231中。例如,路径计划器模块230可以向NLU模块220传递从智能代理151接收到的、对应于用户终端100的信息(例如,OS信息或者app信息)的路径规则集。例如,储存在PRDB231中的表格可以针对每个领域或者针对每个领域的版本来储存。
根据实施例,路径计划器模块230可以从路径规则集中选择一个路径规则或者多个路径规则,以将选择的一个路径规则或者选择的多个路径规则传递给NLU模块220。例如,路径计划器模块230可以将用户意图和参数与对应于用户终端100的路径规则集匹配,以选择一个路径规则或者多个路径规则,并且可以向NLU模块220传递选择的一个路径规则或者选择的多个路径规则。
根据实施例,路径计划器模块230可以通过使用用户意图和参数来生成一个路径规则或者多个路径规则。例如,为了生成一个路径规则或者多个路径规则的目的,路径计划器模块230可以基于用户意图和参数来确定要运行的app和要在app中运行的动作。根据实施例,路径计划器模块230可以将生成的路径规则储存在PR DB 231中。
根据实施例,路径计划器模块230可以将由NLU模块220生成的路径规则储存在PRDB 231中。可以将生成的路径规则添加到储存在PR DB 231中的路径规则集中。
根据实施例,在PR DB 231中储存的表格可以包括多个路径规则或者多个路径规则集。多个路径规则或者多个路径规则集可以反映执行每个路径规则的设备的种类、版本、类型、或者特性。
根据实施例,DM模块240可以确定通过NLU模块220掌握的用户意图是否清楚。例如,DM模块240可以基于参数的信息是否充足来确定用户意图是否清楚。DM模块240可以确定通过NLU模块220掌握的参数是否足以执行任务。根据实施例,在用户意图不清楚的情况下,DM模块240可以执行反馈,用于向用户做出对必要信息的请求。例如,DM模块240可以执行用于做出对关于掌握用户意图的参数的信息的请求的反馈。
根据实施例,DM模块240可以包括内容提供者(provider)模块。在内容提供者模块基于通过NLU模块220掌握的意图和参数运行动作的情况下,内容提供者模块可以生成通过执行对应于用户输入的任务获得的结果。根据实施例,DM模块240可以向用户终端100传递通过内容提供者模块生成的结果,作为对用户输入的响应。
根据实施例,自然语言生成模块NLG 250可以将指定的信息改变为文本形式。改变为文本形式的信息可以是自然语言话语的形式。例如,指定的信息可以是关于附加输入的信息、用于指导对应于用户输入的动作的完成的信息、或者用于指导用户的附加输入(例如,关于用户输入的反馈信息)的信息。改变为文本形式的信息可以在传递给用户终端100之后显示在显示器120中,或者可以在传递给TTS模块260之后改变为话音形式。
根据实施例,TTS模块260可以将文本形式的信息改变为话音形式的信息。TTS模块260可以从NLG模块250接收文本形式的信息、可以将文本形式的信息改变为话音形式的信息、并且可以向用户终端100传递话音形式的信息。用户终端100可以向扬声器130输出话音形式的信息。
根据实施例,NLU模块220、路径计划器模块230、和DM模块240可以利用一个模块来实施。例如,NLU模块220、路径计划器模块230和DM模块240可以利用一个模块来实施、可以确定用户意图和参数、并且可以生成对应于确定的用户意图和参数的响应(例如,路径规则)。如此,可以向用户终端100传递生成的响应。
根据实施例,在至少一个元件(例如,ASR模块210、NLU模块220等)执行分配的功能或者与用户终端100(或者用户)交互的情况下,上述智能服务器200可以更新至少一个元件。例如,智能服务器200可以更新与至少一个元件的功能运行关联的模型或者数据库。智能服务器200可以向用户终端100传递关于至少一个元件的更新信息。
图1E是图示根据本公开实施例的NLU模块生成路径规则的方法的视图。
参考图1E,根据实施例,NLU模块220可以将app的功能划分为单元动作(例如,A至F),并且可以将划分的单元动作储存在PR DB 231中。例如,NLU模块220可以储存路径规则集,其包括划分为单元动作的多个路径规则A-B1-C1、A-B1-C2、A-B1-C3-D-F、和A-B1-C3-D-E-F。
根据实施例,路径计划器模块230的PR DB 231可以储存用于执行app的功能的路径规则集。路径规则集可以包括多个路径规则,每个路径规则包括多个动作。可以在多个路径规则中顺序地安排取决于输入到多个动作中的每一个的参数运行的动作。根据实施例,以本体或者图形模型的形式实施的多个路径规则可以储存在PR DB 231中。
根据实施例,NLU模块220可以选择对应于用户输入的意图和参数的多个路径规则A-B1-C1、A-B1-C2、A-B1-C3-D-F、以及A-B1-C3-D-E-F的最佳路径规则A-B1-C3-D-F。
根据实施例,在没有与用户输入完全匹配的路径规则的情况下,NLU模块220可以向用户终端100传递多个规则。例如,NLU模块220可以选择部分对应于用户输入的路径规则(例如,A-B1)。NLU模块220可以选择包括部分地对应于用户输入的路径规则(例如,A-B1)的一个或者多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F、和A-B1-C3-D-E-F)),并且可以向用户终端100传递所述一个或者多个路径规则。
根据实施例,NLU模块220可以基于通过用户终端100添加的输入来选择多个路径规则中的一个,并且可以将选择的一个路径规则传递给用户终端100。例如,为了向用户终端100传递选择的一个路径规则的目的,NLU模块220可以取决于通过用户终端100另外键入的用户输入(例如,用于选择C3的输入)选择多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F、和A-B1-C3-D-E-F)中的一个路径规则(例如,A-B1-C3-D-F)。
根据另一实施例,为了向用户终端100传递用户意图或者参数的目的,NLU模块220可以确定对应于通过用户终端100另外输入的用户输入(例如,用于选择C3的输入)用户意图和参数。用户终端100基于传递的意图或者传递的参数可以选择多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F、和A-B1-C3-D-E-F)中的一个路径规则(例如,A-B1-C3-D-F)。
如此,用户终端100可以基于选择的一个路径规则来完成app 141和143的动作。
根据实施例,在通过智能服务器200接收信息不充足的用户输入的情况下,NLU模块220可以生成部分对应于接收的用户输入的路径规则。例如,NLU模块220可以向智能代理151传递部分对应的路径规则。智能代理151可以向运行管理者模块153传递所述部分对应的路径规则,并且运行管理者模块153可以取决于该路径规则运行第一app141。当运行第一app 141时,运行管理者模块153可以向智能代理151传递关于不充足的参数的信息。智能代理151可以通过使用关于不充足的参数的信息向用户做出对于附加输入的请求。如果通过用户接收了附加输入,则智能代理151可以向智能服务器200传递并且处理该附加输入。NLU模块220可以基于另外输入的用户输入的意图和参数信息来生成要添加的路径规则,并且可以向智能代理151传递要添加的路径规则。智能代理151可以向运行管理者模块153传递该路径规则,并且可以运行第二app 143。
根据实施例,在通过智能服务器200接收丢失了一部分信息的用户输入的情况下,NLU模块220可以将用户信息请求传递给个人信息服务器300。个人信息服务器300可以向NLU模块220传递输入储存在私人数据库中的用户输入的用户的信息。NLU模块220可以通过使用用户信息选择对应于丢失了部分动作的用户输入的路径规则。如此,即使通过智能服务器200接收丢失了部分信息的用户输入,NLU模块220也可以做出对于丢失的信息的请求以接收附加的输入,或者可以通过使用用户信息来确定对应于用户输入的路径规则。
如上面经由图1A至1E所描述的,图1A的集成智能系统10可以伴随着一系列用于提供基于语音识别的服务的处理。例如,图1A的用户终端100可以接收用户的语音作为用户输入,以向图1A的智能服务器200传递该用户输入,并且智能服务器200可以基于该用户输入来生成路径规则。用户终端100可以从智能服务器200接收生成的路径规则,并且可以取决于路径规则运行特定app的功能。在实施例中,在执行上述处理的操作中,用户终端100可以基于关于智能服务器200的至少一个元件(例如,图1D的ASR模块210或者图1D的NLU模块220)的更新信息或者图1A的个人信息服务器300的数据库更新信息,来计算与支持语音识别服务的人工智能助手(例如,Bixby)关联的数值(numerical value)(例如,经验点)。例如,用户终端100的图1B的智能代理151可以基于更新信息将预定点分配给ASR模块210、NLU模块220、和个人信息服务器300中的至少一个,并且可以收集分配的点以计算人工智能助手的经验点。在各种实施例中,智能代理151可以将点分配给用户在用户终端100上执行的指定的活动(例如,与语音识别服务或者智能app的操作关联的活动),并且可以进一步参考活动点以计算人工智能助手的经验点。在各种实施例中,用户终端100的经验点的计算可以由包括在智能服务器200中包括的评分管理者模块通过软件或者硬件来执行,并且用户终端100可以从评分管理者模块接收关于经验点的信息。
在实施例中,用户终端100可以基于计算的经验点来请求对应于该经验点的语音识别服务的功能。在此方面,智能服务器200可以将要提供给用户终端100的语音识别服务功能分类为多个功能,并且可以向用户终端100提供具有对应于人工智能助手的经验点的服务功能。此后,将描述与计算人工智能助手的经验点和用户终端100的语音识别服务功能的改进关联的各种实施例。
图2A至图2C是图示根据本公开的各种实施例的与语音识别服务关联的各种界面的视图。
在实施例中,用户终端100的图1B的智能代理151(或者图1B的处理器150)可以经由指定的界面显示经由一系列处理计算的人工智能助手(例如,Bixby)的经验点。用户可以访问界面以验证该经验点和与经验点计算关联的至少一种信息。如此,用户可以识别人工智能助手(或者语音识别服务)中的信任程度(degree),并且可以获得对改善体验点有贡献的信息。
在此方面,参考图2A,安装在用户终端100中并且支持语音识别服务的操作的智能app可以响应于与特定类别(category)(或者菜单)关联的用户控制而输出第一界面1。人工智能助手的经验点3(例如,2100XP)以及分别分配给对经验点3的计算有贡献的至少一个或者多个元件(例如,图1D的ASR模块210、图1D的NLU模块220、和图1A的个人信息服务器300)的点5、7、和9(例如,1100Pts、500Pts、和500Pts)可以被显示在第一界面1的至少一个区域中。在实施例中,可以通过将分别分配给ASR模块210、NLU模块220、和个人信息服务器300的点5、7、和9求和来计算经验点3,或者经验点3可以被应用为点中的最高点或者最低点。在各种实施例中,在应用了用户输入(例如,触摸)的情况下,点5、7、和9可以与第一界面1的输出并发地显示,或者可以与相关的图表(例如,图形)一起在第一界面1上的特定区域(例如,人工智能助手的图标)上显示。在各种实施例中,可以在第一界面1上进一步显示对经验点3的计算有贡献的用户活动点(例如,在用户经由用户终端100执行指定的活动的情况下分配的点)。
参考图2B,例如,结合智能app的运行操作的第二界面13(例如,小组件(widget))可以被包括在用户终端100的主屏幕11(或者锁屏)上。对应于人工智能助手的经验点的等级信息、徽章(badge)信息、和用户图像中的至少一种可以显示在第二界面13上。在各种实施例中,如图2B中图示的,等级信息可以如示出的以数字的形式显示,或者可以被显示为指定对象的名称。例如,对象可以包括至少一个行星,并且等级信息可以被表示为基于人工智能助手的经验点值而不同的行星名称(例如,太阳系行星(例如,水星、金星、地球、火星、木星、土星、天王星、海王星、和冥王星)、矮行星(谷神星、妊神星、鸟神星、或者阋神星)、Sedna、月亮、银河系等)。例如,随着人工智能助手的经验值提高,等级信息可以被表示为基于太阳存在于很远距离的行星的名称。在实施例中,关于语音识别服务的操作,可以取决于通过用户或者图1A的集成智能系统10的部分元件执行的至少一种活动或者功能操作确定等级的级别(grade)(或者等级信息或者行星名称)。例如,可以取决于至少一种活动(例如,提供用户的满意或者不满意属性(attribute)的反馈、建议用户的变化、采取变化建议等,这将在下面描述)被执行的次数来确定不同级别或者行星名称的等级信息。在用户输入(例如,触摸)被应用于第二界面13的至少一个区域的情况下,第二界面13可以切换到对应于智能app的至少一部分运行屏幕的第三界面15。在实施例中,在第三界面15上可以包括人工智能助手的经验点(例如,1253XP)、当天获得的点(例如,35pts)、当天可获得的最大点数、与改善经验点关联的指导信息(例如,在基于路径规则的运行而执行了特定app的功能的情况下分配的经验点信息、在与发生于用户的语音识别服务的操作关联的变化建议的情况下分配的经验点信息、在采取了变化建议的情况下另外分配的经验点信息等)、以及与语音识别服务的操作关联的通知信息中的至少一个。
根据实施例,可以在第三界面15上提供被实施来包括等级信息的按钮或者击键(tap)15a;在用户触摸输入被应用于按钮或者击键的至少一个区域的情况下,第三界面15可以切换到如图2C示出的界面16。关于先前建立的等级信息的细节可以以列表的形式显示在切换的界面16上,并且未来能够建立的等级信息16a(例如,下一级别的等级信息)可以被显示在列表的顶部。在各种实施例中,等级信息可以被称为在操作语音识别服务中要提供的特定奖励或者好处(benefit)的指示符;在此方面,在用户触摸输入被应用于关于先前建立的等级信息的细节的情况下,可以显示关于先前提供的奖励或者好处的细节。
图3A是图示根据本公开实施例的用户终端的语音识别服务操作方法的视图。
参考图3A,在操作301中,用户可以经由图1B的用户终端100来操作语音识别服务。在此方面,用户可以操纵用户终端上指定的硬件键(例如,图1C的硬件键112),或者可以执行指定的唤醒命令语音(例如,“唤醒”或者“Hi,Bixby”)来运行智能app。在实施例中,基于图1D的智能服务器200的语音识别结果对用户语音的响应,智能app的运行可以伴随着人工智能助手(例如,Bixby)的激活。在智能app运行或者人工智能助手激活之后,用户可以执行包括特定命令或者意图的语音。可替代地,在智能app运行之后,用户可以执行与语音识别服务的操作关联的活动。
在操作303中,用户终端的图1B的智能代理151可以确定操作用户的语音识别服务或者操作用户的智能app之后发生的至少一个事件是否对应于指定的评分事件。例如,指定的评分事件可以是伴随着智能服务器的元件更新或者图1A的个人信息服务器300的数据库更新的事件。此外,理解的是,指定的评分事件是通过贡献于人工智能助手的经验点的计算而更新(或改进)在用户终端中可操作的语音识别服务的功能的事件,并且指定的评分事件可以被称为经由图4A至图7D描述的“第一至第十一实施例”。
根据实施例,在生成的事件与评分事件并不关联的情况下,智能代理可以排除语音识别服务的功能更新。可替代地,在确定生成的至少一个事件是评分事件的情况下,在操作305中,智能代理可以向与生成的事件关联的元件(例如,图1D的ASR模块210、图1D的NLU模块220、或者图1A的个人信息服务器300)分配点,或者可以向其分配活动点。在实施例中,智能代理可以向人工智能助手的经验点的计算反映该点。例如,智能代理可以通过对至少一个或者多个点求和来计算人工智能助手的经验点,或者可以将至少一个点的最高点或者最低点应用于经验点。在各种实施例中,经验点不限于上述计算方法或者应用方法,并且可以基于点经由各种算术操作来计算经验点。
在操作307中,智能代理可以请求智能服务器基于人工智能助手的经验点来改进或者更新语音识别服务功能,并且可以选择性地操作从智能服务器提供的服务功能。
图3B是图示根据本公开实施例的智能服务器的语音识别服务操作方法的视图。
参考图3A,根据实施例的人工智能助手的经验点的计算可以由图1A的集成智能系统10的图1B的用户终端100执行。可替代地,如下面通过图3B描述的,经验点的计算可以由集成智能系统10的图1D的智能服务器200执行。
在操作309中,智能服务器200可以经由通信接口(或者通信模块)从外部设备(例如,用户终端100)接收指定的数据。例如,智能服务器可以从外部设备接收与话音输入关联的数据(例如,根据外部设备的用户的语音的用户输入)。
在操作311中,智能服务器可以处理接收的数据。在实施例中,数据处理可以包括以下操作:其中被包括作为智能服务器的元件的至少一部分的、图1D中的ASR模块210识别数据并且将数据转换为文本数据。可替代地,该处理可以包括以下操作:其中智能服务器中包括的、图1D的NLU模块220从数据导出用户意图,并且基于导出的用户意图生成与要通过外部设备执行的操作关联的路径规则。可替代地,该处理可以以下操作:其中在执行上述模块210和220的功能的操作中,ASR模块210和NLU模块220中的至少一个与外部设备(或者外部设备的用户)交互以更新相关模型或者图1D的数据库211或者221。
在操作313中,智能服务器可以计算与ASR模块210和NLU模块220中的至少一个关联的数值(例如,点)。在此方面,智能服务器可以包括计算该数值的评分管理者模块。在实施例中,关于外部设备用户的语音识别服务的操作,在ASR模块210和NLU模块220中的至少一个执行分配的功能、与外部设备的用户交互(例如,询问和响应)、或者更新相关模型、数据库等的情况下,评分管理者模块可以将预定的数值分配给对应的模块。评分管理者可以收集至少一个数值以计算支持与外部设备用户交互的人工智能助手的经验点。在操作315中,智能服务器可以经由通信接口向外部设备传递与数值或者经验点关联的信息。取决于外部设备基于数值或者经验点的请求,智能服务器可以改进对应于该请求的语音识别服务的功能,以向外部设备提供语音识别服务的改进的功能。
图4A是图示根据本公开实施例的基于ASR模块的功能运行来计算人工智能助手的经验点的第一实施例的流程图。
参考图4A,图1B的用户终端的图1B的智能代理151可以基于根据用户语音的用户输入的信息量来计算人工智能助手的经验点。
在此方面,参考图4A,在操作401中,智能代理可根据用户语音收集用户输入(或者话音信号)。例如,智能代理可以收集在指定的时间段期间已经储存在图1B的存储器140中或者已经传递给图1D的智能服务器200的图1D的ASR模块210的用户输入。
在操作403中,智能代理可以提取收集的至少一个用户输入的、其语音识别通过ASR模块是成功的(或者已经被转换为清楚的文本)的用户输入。上述操作可以通过在用户终端和智能服务器的ASR模块之间共享关于语音识别结果的信息来实施。
在操作405中,智能代理可以确定语音识别成功的至少一个用户输入的特定人(speaker dependent)识别的用户输入存在或者不存在。例如,智能代理可以从图1D的智能服务器200的图1D的ASR模块210获得说话者识别结果信息,以鉴别(identify)取决于说话者识别的用户输入。在没有语音识别是成功的用户输入的特定人用户输入的情况下,智能代理可以排除人工智能助手的经验点的计算。
在存在至少一个特定人用户输入的情况下,在操作407中,智能代理可以通过对对应于每个特定人用户输入的语音时间求和来计算信息量(例如,累积时间)。
在操作409中,智能代理可以基于计算的信息量将点Pts分配给执行与用户输入关联的语音识别功能的ASR模块。
Ptsn=Ptsn-1+αt 等式1
Ptsn:ASR模块的最终点
Ptsn-1:ASR模块的先前点
α:与ASR模块关联的评分系数
't':对应于特定人用户输入的用户语音的累积时间
理解的是,等式1是与ASR模块的评分相关联的等式。智能代理可以将已经分配给ASR模块的点Ptsn-1添加给计算的信息量(例如,累积时间't'),以向ASR模块分配最终点Ptsn。
在操作411中,智能代理可以通过将ASR模块的最终点Ptsn与其他点(例如,图1D的NLU模块220的点、图1A的个人信息服务器300的点、用户活动点等)求和,来计算人工智能助手的经验点。可替代地,智能代理可以通过基于指定的参考(例如,最高点或者最低点)将ASR模块的最终点Ptsn与其他点比较来计算人工智能助手的经验点。
图4B是图示根据本公开实施例的基于ASR模块的功能运行来计算人工智能助手的经验点的第二实施例的流程图。
参考图4B,在操作413中,用户可以执行与语音识别服务的操作关联的唤醒命令语音。理解的是,唤醒命令语音是在第一次操作用户的语音识别服务时执行的语音。可替代地,理解的是,唤醒命令语音是在其中用户控制智能app的设置以指派(designate)唤醒命令语音的操作中执行的语音。通过图1B的处理器150,可以将用户的唤醒命令语音传递给包括在图1D的智能服务器200的图1D的ASR模块210中的唤醒识别模块。唤醒识别模块可以基于传递的唤醒命令语音生成唤醒识别模型。
在操作415中,智能代理可以确定是否对唤醒命令语音执行用户的训练。理解的是,训练是运行用户的迭代唤醒命令语音,用于将用户的唤醒命令语音映射到唤醒命令识别模型。在实施例中,可以基于指定的算法(例如,最大似然估计、梯度下降、线性回归等)来执行与唤醒命令识别模型关联的训练。
在对生成的唤醒命令识别模型执行训练的情况下,在操作417中,智能代理可以将第一点Pts分配给对用户语音执行语音识别的ASR模块。
Ptsn=Ptsn-1+(β·p(x│λ)+β0)·Swakeup 等式2
Ptsn:ASR模块的最终点
Ptsn-1:ASR模块的先前点
Swakeup:唤醒命令识别模型的单位得分
p(x│λ):用于唤醒命令识别模型的算法的单位得分
β或者β0:校正系数
理解的是,等式2是与ASR模块的评分关联的另一等式。智能代理可以将向其反映了算法单位得分p(x│λ)的、唤醒命令识别模型的单位得分Swakeup添加到点Ptsn-1,点Ptsn-1已经被分配给ASR模块以向ASR模块分配最终点Ptsn。
可替代地,在操作419中,在没有对唤醒命令识别模型执行训练的情况下,智能代理可将第二点Pts分配给ASR模块。
Ptsn=Ptsn-1+Swakeup 等式3
Ptsn:ASR模块的最终点
Ptsn-1:ASR模块的先前点
Swakeup:唤醒命令识别模型的单位得分
理解的是,等式3仍是与ASR模块的评分相关联的另一等式。智能代理可以将生成的唤醒命令识别模型的单位得分Swakeup添加到点Ptsn-1,其已经被分配给ASR模块以向ASR模块分配最终点Ptsn。在此操作中,智能代理可以基于由唤醒识别模块生成的识别模型的数目、分别匹配到多个识别模型的用户的数目等,来成比例地增加唤醒命令识别模型的单位得分。
在操作421中,智能代理可以通过将根据对ASR模块的第一点或者第二点的分配的ASR模块的最终点Ptsn与其他点(例如,图1D的NLU模块220的点、图1A的个人信息服务器300的点、用户活动点等)求和,来计算人工智能助手的经验点。可替代地,智能代理可以通过基于指定的参考(例如,最高点或者最低点)将ASR模块的最终点Ptsn与其他点比较,来计算人工智能助手的经验点。在各种实施例中,除了上述唤醒命令语音之外,唤醒识别模块可以生成与各种命令语音关联的识别模型;在此情况下,可以如等式2或者等式3地将点分配给ASR模块。
图4C是图示根据本公开实施例的基于ASR模块的功能运行来计算人工智能助手的经验点的第三实施例的流程图。
图4D和图4E是图示根据本公开的各种实施例的训练人工智能助手的各种实施例的视图。
在实施例中,图1B的用户终端100的图1B的智能代理151可以基于图1D的ASR模块210的语音识别的结果修正(revision)来计算人工智能助手的经验点。
参考图4C,在操作423中,用户可以运行支持语音识别服务的操作(例如,操纵电子设备上的硬件键或者说出指定的唤醒命令)的智能app。如此,可以激活响应于用户语音的人工智能助手,并且用户可以执行包括特定命令或者意图的语音。
在操作425中,激活的人工智能助手可以响应用户语音。人工智能助手的响应可以基于图1D的智能服务器200中的图1D的ASR模块210、图1D的NLG模块250、和图1D的TTS模块260中的至少一个的功能运行。在实施例中,智能代理(或者图1B的处理器150)可以在支持用户与人工智能助手之间的交互的界面(例如,对话界面)上输出人工智能助手的响应,或者可以经由图1B的扬声器130输出响应。
在操作427中,基于人工智能助手的输出响应,用户可以确定在与语音关联的语音识别结果中是否存在错误。例如,在输出文本中存在错误的情况下,或者在人工智能助手的响应与语音冲突的情况下,用户可以确定是否不清楚地执行了与语音关联的语音识别。在因为清楚地执行了与用户语音关联的语音识别而没有发生与语音识别结果的修正关联的事件的情况下,智能代理可以排除人工智能助手的经验点的计算。
在用户识别与语音关联的语音识别的不确定性(uncertainty)的情况下,在操作429中,用户可以对与其中存在错误的文本或者语音冲突的人工智能助手的响应执行反馈语音。可以将反馈语音传递给智能服务器的图1D的DM模块240,并且DM模块240可以向用户终端提供用于训练人工智能助手(或者用于改善ASR模块的语音识别率)的选项信息。用户可以执行该选项并且可以训练与被不清楚地执行的语音识别关联的人工智能助手。此后,将参考图4D描述与上述操作427和操作429关联的示例。
参照图4D的第一对话界面17a,在用户执行包括特定命令或者意图的语音(例如,“发送消息给Sungjin”)的情况下,可以将与用户语音关联的用户输入传递给智能服务器的ASR模块,并且可以执行语音识别。在此操作中,在用户语音不清楚的情况下,或者在用户语音期间在用户周围生成噪声的情况下,在ASR模块的语音识别结果中可能存在错误(例如,发送消息给Sangjin)。智能服务器可以向用户终端传递通过ASR模块转换的文本信息和图1D的NLU模块220的路径规则信息。智能代理可以输出传递的文本信息,并且对应于路径规则的特定app(例如,消息app)的图1B的运行服务141a或者143a可以执行在路径规则中包括的至少一个单元操作。此时,在没有与伴随着用户终端上的单元操作的运行的信息(例如,参数信息)对应的信息的情况下,智能代理可以向DM模块提供其通知。DM模块可以向电子设备传递关于缺少该信息的文本信息(例如,没有对应的联系人。请重新键入接收方)和用于请求重新运行用户语音的文本信息。
参考第二对话界面17b,当用户重新执行语音(例如,“发送消息给Sungjin”)时,ASR模块可以对重新执行的语音执行语音识别。此时,在重新执行的语音的语音识别结果与先前的语音识别结果相同的情况下,DM模块可以向用户终端传递指定的文本信息(例如,你觉得我没有很好的理解吗?如果你让我知道问题是哪个部分,我能更好地理解。)。与指定的文本信息的传输一起,DM模块可以传递与人工智能助手的训练或者语音识别率的改善关联的选项信息。例如,理解的是,选项信息是在第二对话界面17b上输出的训练击键21。
参考第三对话界面17c,在用户选择训练击键21的情况下,DM模块可以向用户终端作出对于与人工智能助手的训练关联的附加信息的请求。例如,DM模块可以传递请求关于语音识别结果的错误的细节的文本信息(例如,请选择需要训练的部分)和关于构成通过ASR模块转换的文本的至少一个或者多个词语的列表信息。例如,理解的是,列表信息包括“给Sangjin”击键23、“消息”击键25、和“发送”击键27。
参考第四对话界面17d和第五对话界面17e,在用户输入(例如,触摸)被应用于对应于第三对话界面17c上的错误的词语击键(例如,“给Sangjin”击键29)的情况下,DM模块可以向用户终端传递用于错误的修正的文本信息(例如,请键入您期望的内容代替“给Sangjin”)的请求。为了应对该问题,智能代理(或者处理器)可以输出输入界面(例如,SIP键盘),并且用户可以输入关于错误的修正的细节(例如,向Sungjin)。在从用户终端接收了修正信息之后,DM模块可以传递与包括修正的语音请求关联的至少一个文本信息(例如,请说“给Sungjin”、请说“这个给Sungjin”、请说“发送消息给Sungjin”等)。在用户执行请求的语音的情况下,ASR模块可以根据用户语音(例如,“给Sungjin”、“这个给Sungjin”、和“发送消息给Sungjin”)基于用户输入来更新语音识别模型。
图4E是图示与操作427和操作429关联的另一示例的图表,并且图4E中描述的一个示例可以包括与图4D中描述的示例相似的训练处理。因此,可以省略重复的描述。
图4E的第六对话界面17f的描述可以对应于经由图4D的第一对话界面17a所描述的。然而,根据实施例,在关于缺少信息的文本信息(例如,没有对应的联系人。请重新键入接收方。)和用于请求用户语音的重新运行的文本信息在第六对话界面17f被输出的情况下,用户可以对通过ASR模块转换的文本信息31(例如,发送消息给Sangjin)应用用户输入(例如,触摸)。
参考第七对话界面17g,响应于用户输入,智能服务器的DM模块可以传递与人工智能助手的训练或者语音识别率的改善关联的至少一个选项信息。例如,理解的是,至少一个选项信息包括训练击键33、“给Sungjin”击键35、和“给Seungjin”击键37。用户可以对在第七对话界面17g上输出的至少一个选项信息中的与错误关联的击键应用用户输入,以指派请求的接收方。可替代地,在至少一个选项信息上没有与错误关联的击键的情况下,用户可以选择训练击键33以进行训练处理,如第八对话界面17h和第九对话界面17i中所示。第八对话界面17h和第九对话界面17i的描述可以与通过图4D中的第四对话界面17d和第五对话界面17e描述的相同或者相对应。
返回图4C,在操作431中,在修正上述语音识别结果的处理中,用户终端的智能代理可以基于关于修正的信息(例如,修正的词语的数目)对ASR模块分配点Pts。
Ptsn=Ptsn-1+NWSW 等式4
Ptsn:ASR模块的最终点
Ptsn-1:ASR模块的先前点
NW:修正的词语的数目
SW:修正的词语的单位得分
理解的是,等式4是与ASR模块的评分关联的另一个等式。智能代理可以向已经被分配给ASR模块的点Ptsn-1添加通过将修正的词语的数目NW与单位得分SW相乘得到的值,以向ASR模块分配最终点Ptsn。
操作433可以与经由图4A描述的操作411相同或者相对应。
图5A是图示根据本公开实施例的基于NLU模块的功能运行来计算人工智能助手的经验点的第四实施例的流程图。图5B是图示根据本公开实施例的训练人工智能助手的实施例的视图。
在实施例中,图1B的用户终端100的图1B的智能代理151可以基于关于图1D的NLU模块220的功能运行(例如,用户语音的意图的识别)的用户喜好信息的应用来计算人工智能助手的经验点。
在此方面,参考图5A,在操作501中,用户可以通过运行在用户终端中安装的智能app来操作语音识别服务。如果运行了智能app,或者如果取决于智能app的运行而激活了人工智能助手,则用户可以执行包括特定命令或者意图的语音。
在操作503中,激活的人工智能助手可以对用户语音响应。例如,可以基于通过图1D的智能服务器200的图1D的ASR模块210、图1D的NLG模块250、和图1D的TTS模块260中的至少一个运行的功能生成对应于用户语音的响应,并且用户终端的智能代理(或者图1B的处理器150)可以在对话界面输出该响应。
在操作505中,智能代理可以从用户接收关于根据路径规则的特定单元操作(例如,最终单元操作)的运行结果的反馈信息。在从用户提供满意属性的反馈信息的情况下,智能代理可以排除人工智能助手的经验点的计算。
在从用户提供了不满意属性的反馈信息的情况下,在操作507中,智能代理可以从用户接收与特定单元操作的运行结果关联的喜好信息,并且可以向智能服务器传递不满意属性反馈信息和喜好信息。为了应对该问题,图1D的NLU模块220可以将用户的喜好信息应用于由领域、意图、和参数(或者时隙)组成的匹配规则的意图。在该操作中,在应用喜好信息之前,NLU模块220可以改变在与用户语音意图关联的路径规则上的、与喜好信息关联的单元操作(或者动作)。此后,将参考图5B描述与上述操作505和操作507关联的示例。
参考图5B的第十对话界面39a,在用户执行了包括特定命令或者意图的语音(例如,“向我显示你昨天拍摄的图片”)的情况下,可以向智能服务器的ASR模块传递根据该语音的用户输入。在实施例中,理解的是,包括在语音中的用户的特定命令或者意图是与昨天拍摄的至少一个图片或者多个图片关联的视图细节(例如,在电子设备的屏幕区域中放大的图片的状态)。ASR模块可以对用户输入执行语音识别,并且在将识别的用户输入转换成文本之后,ASR模块向用户终端传递该文本。NLU模块可以分析语音识别结果(或者转换的文本)以确定领域(例如,图片)、意图(例如,向我显示图片)、和参数(例如,昨天)。NLU模块可以基于用户语音意图生成包括第一单元操作(例如,图库应用的运行)、第二单元操作(例如,日期设置)、第三单元操作(例如,图库的导航)、和第四单元操作(例如,缩略图显示)的路径规则,或者可以选择数据库上的路径规则以将选择的路径规则传递给用户终端。如此,智能代理可以在第十对话界面39a上输出从ASR模块接收的文本信息,并且可以将特定单元操作(例如,第一单元操作(图库应用的运行))的运行屏幕输出到第四界面区域41a,其是用户终端的屏幕区域中的除第十对话界面39a之外的区域。
参考第十一对话界面39b,智能代理可以对路径规则执行最终单元操作,并且可以向智能服务器传递操作的处理信息。关于所述处理信息,智能代理可以在第十一对话界面39b上输出NLG模块传递的文本信息(例如,我发现五张图片)以及支持与最终单元操作关联的用户的反馈输入的至少一个对象43。另外,智能代理可以在用户终端的屏幕区域的第五界面区域41b中输出最终单元操作(例如,第四单元操作(缩略图显示))的运行屏幕(例如,包括第五缩略图的屏幕)。
参考第十二对话界面39c,当执行的语音的命令或者意图是图片细节视图时,用户可以对不满意对象应用输入。在此情况下,图1D的DM模块240可以从用户终端接收关于用户输入的信息,并且可以向用户终端传递对应于用户的不满意反馈的文本信息(例如,如果你让我知道问题是哪个部分,我能更好地理解。我会记住并且下次我会做得更好。)。在此操作中,DM模块240可以向用户终端传递构成通过ASR模块转换的文本的至少一个词语的列表信息。例如,理解的是,所述列表信息包括昨天击键45、“拍摄”击键47、“照片”击键49、和“向我显示”击键51。用户可以向与视图细节对应的“向我显示”击键51应用输入(例如,触摸)。
参考第十三对话界面39d和第十四对话界面39e,响应于用户的触摸输入,DM模块可以向用户终端传递至少一组候选者的信息。如此,可以在第十三对话界面39d上显示对应于该组候选者的信息的图片细节视图击键53、列表视图击键55、或者分享击键57。用户可以将触摸输入应用于与语音意图密切相关的标签(例如,图片细节视图击键53)。在此情况下,NLU模块可以确定图片细节视图是用户喜好信息,并且可以将喜好信息应用于关于由领域、意图、和参数组成的匹配规则的意图。如此,NLU模块可以基于构成通过规则的至少一个单元操作的喜好信息的应用来改变与先前导出的用户的语音意图关联的单元操作。例如,NLU模块可以将第四单元操作从缩略图显示改变为图片细节视图。
返回图5A,在操作509中,当将喜好信息应用于由NLU模块初始识别的用户语音意图时,用户终端的智能代理可以将点(Pts)分配给NLU模块。
Ptsn=Ptsn-1+Sintent 等式5
Ptsn:NLU模块的最终点
Ptsn-1:NLU模块的先前点
Sintent:应用于匹配规则上的意图的用户喜好信息的单位得分
理解的是,等式5是与NLU模块的评分关联的等式。智能代理可以将用户喜好信息的单位得分Sintent添加到已经分配给NLU模块的点Ptsn-1,以向NLU模块分配最终点Ptsn。
操作511可以与经由图4A描述的操作411相同或者对应。
图5C是图示根据本公开实施例的基于NLU模块的功能运行来计算人工智能助手的经验点的第五实施例的流程图。
在实施例中,图1B的用户终端100的图1B的智能代理151可以基于关于图1D的NLU模块220的功能运行(例如,确定用户语音的参数(或者时隙))的用户喜好信息的应用来计算人工智能助手的经验点。
参考图5C,在操作513中,用户可以控制(例如,操纵用户终端上的硬件键或者说出指定的唤醒命令)语音识别app的运行以激活人工智能助手,并且可以执行包括特定的命令或者意图的语音(例如,“呼叫Hong教授”)。
在操作515中,智能代理可以根据用户语音确定用户输入的清晰度(clarity)。在此方面,图1D的智能服务器200的图1D的ASR模块210可以对用户输入执行语音识别,并且图1D的NLU模块220可以分析语音识别结果(或者通过ASR模块210转换的文本),以识别领域(例如,电话)、意图(例如,拨打电话)、和参数(例如,Hong教授)。取决于用户语音意图的识别,NLU模块可以生成包括第一单元操作(例如,联系人应用的运行)、第二单元操作(例如,接收方设置)、和第三单元操作(例如,呼叫连接)的路径规则,或者可以选择数据库上的路径规则以将选择的路径规则传递给用户终端。在实施例中,在完成了至少一个单元操作的运行以后、在用户终端上执行对应于用户语音的功能(例如,呼叫功能)的情况下,智能代理可以排除人工智能助手的经验点的计算。
可替代地,在实施例中,关于第二单元操作(例如,接收方设置)的运行,可以在用户终端(或者联系人应用)上呈现对应于关于NLU模块识别的参数的信息的信息(例如,Gildong Hong教授和Samsung Hong教授)。在此情况下,智能代理可以确定根据用户语音的用户输入是不清楚的。
如果确定用户输入是不清楚的,则在操作517中,智能服务器的图1D的DM模块240可以向用户终端传递造成不确定性的参数(例如,Hong教授)的一组候选者(例如,GildongHong教授击键和Samsung Hong教授击键)。可替代地,DM模块可以以文本的形式向用户终端传递附加信息请求(例如,有Gildong Hong教授和Samsung教授的联系人,你想呼叫谁?)。
在操作519中,用户可以取决于执行的语音的意图向一组候选者中的一个候选者应用触摸输入,或者可以经由输入界面(例如,SIP键盘)触摸Gialong Hong教授或者Samsung Hong教授中的一个。可替代地,在各种实施例中,用户可以经由语音提供与Gialong Hong教授或者Samsung Hong教授中的一个关联的用户输入。
在操作521中,NLU模块可以确定用户选择的候选者或者对应于用户触摸或者语音输入的教授(例如,Gildong Hong教授)是用户喜好信息。关于通过ASR模块的语音识别结果,NLU模块可将确定的喜好信息应用于初始识别的参数(例如,Hong教授),或者可向初始识别的参数分配优先级。然后,NLU模块可确定包括Hong教授的语音识别结果或者与转换的文本关的参数是Gildong Hong教授。
在操作523中,智能代理可以基于关于NLU模块初始识别的参数的用户喜好信息的应用来将点Pts分配给NLU模块。
Ptsn=Ptsn-1+Sparam 等式6
Ptsn:NLU模块的最终点
Ptsn-1:NLU模块的先前点
Sparam:应用于参数的用户喜好信息的单位得分
理解的是,等式5是与NLU模块的评分关联的另一等式。智能代理可以将用户喜好信息的单位得分Sparam添加到已经分配给NLU模块的点Ptsn-1,以将最终点Ptsn分配给NLU模块。
操作525可以与经由图4A描述的操作411相同或者对应。
图5D是图示根据本公开实施例的基于NLU模块的功能运行来计算人工智能助手的经验点的第六实施例的流程图。
图5E是图示根据本公开实施例的训练人工智能助手的实施例的视图。
在实施例中,图1B的用户终端100的图1B的智能代理151可以基于对应于图1D的NLU模块220的功能运行(例如,用户语音的意图的识别)的功能响应设置来计算人工智能助手的经验点。
在此方面,参考图5D,在操作527中,智能代理(或者图1B的处理器150)可以在用户的控制下输出与语音识别服务的功能设置关联的第六界面。例如,理解的是,第六界面是智能app的至少一部分的运行屏幕。
在操作529中,用户可以在第六界面上选择至少一个类别中的一个,并且可以设置要通过与对应的类别关联的语音触发的至少一个功能响应(或者动作)。在实施例中,类别可以与用户位置和用户上下文中的至少一个关联,并且每个类别可以表示为“配方(recipe)”。其后,将参考图5E描述与操作529关联的示例。
参考图5E,与位置(例如,家庭、工作等)和用户的上下文(例如,出去、上车、下车、睡觉、行走等)关联的至少一个类别63(或者配方)可以包括在第六界面61a上。在实施例中,在用户向特定类别的区域(例如,家庭)应用输入(例如,触摸)的情况下,第六界面61a可以被切换到支持与对应的类别关联的功能响应设置的第七界面61b。
与从用户选择的类别关联的至少一个语音信息65(例如,“我在家”、“家庭模式”、“回家”等)可以被包括在第七界面61b中。例如,语音信息65可以包括对应于该类别的词语或者与该类别的意图关联的词语。另外,关于至少一个功能响应(或者动作)的信息67(例如,打开Wi-Fi、打开蓝牙、打开声音等)可以被包括在第七界面61b的一个区域中。在实施例中,理解的是,在用户已经对于至少一个语音信息65中的一个执行了语音的情况下,功能响应是在通过执行的语音触发之后通过智能代理执行的操作。在此方面,功能响应可以与安装在用户终端中的功能的控制关联,或者可以与与用户终端交互的至少一个外部设备(例如,IoT设备)的功能控制关联。用户可以基于输入(例如,触摸)来选择并激活特定功能响应;在此操作中,与多个功能响应关联的用户输入序列可以按照要通过智能代理执行的多个功能响应的顺序进行操作。
返回图5D,在操作531中,智能代理可以向图1D的智能服务器200的图1D的NLU模块220传递与特定类别(例如,家庭)关联的语音消息(例如,“我在家”、“家庭模式”、“回家”等)以及关于语音信息激活的功能响应(或者动作)的信息。可替代地,在各种实施例中,与特定类别关联的至少一个语音信息可以储存在对应于NLU模块的图1D的数据库221中,并且智能代理可以向NLU模块仅传递通过用户激活的功能响应信息。NLU模块可以将关于特定类别的语音信息映射到功能响应信息并储存。
根据以上描述,在与从NLU模块导出的用户输入关联的用户语音意图对应于关于特定类别指派的语音信息的情况下,NLU模块可以将映射到语音信息的功能响应指定(或者确定)为用户语音意图。当用户语音意图被确定为功能响应时,NLU模块可以生成或者选择与功能响应的运行关联的路径规则。即,在用户执行对应于特定类别的语音的情况下,智能代理可以接收与映射到语音的功能响应关联的路径规则,以执行至少一个单元操作,并且因此执行该功能响应。
在操作533中,智能代理可以基于与指定的用户语音关联的功能响应设置向NLU模块分配点Pts。
Ptsn=Ptsn-1+Srecipe 等式7
Ptsn:NLU模块的最终点
Ptsn-1:NLU模块的先前点
Srecipe:对于特定配方(或者类别)的功能响应设置的单位得分
理解的是,等式7是与NLU模块的评分关联的又一等式。智能代理可以将设置的功能响应的单位得分Srecipe添加到已经分配给NLU模块的点Ptsn-1,以将最终点Ptsn分配给NLU模块。在实施例中,在存在通过用户设置(或者激活)的多个功能响应的情况下,多个功能响应中的每一个的单位得分可以评分添加到NLU模块的先前点Ptsn-1。
操作535可以与通过图4A描述的操作411相同或者对应。
图6A是图示根据本公开实施例的基于个人信息服务器的功能运行来计算人工智能助手的经验点的第七实施例的流程图。
图6B和图6C是图示根据本公开的各种实施例的训练人工智能助手的各种实施例的视图。
在实施例中,图1B的用户终端100的图1B的智能代理151可以基于在图1A的个人信息服务器300中建立的数据库中的用户信息或者用户终端的使用信息的验证来计算人工智能助手的经验点。
在此方面,参考6A,在操作601中,取决于智能app的运行而激活的人工智能助手可以基于用户的语音识别服务的操作模式、用户的语音识别服务的操作历史、在操作用户的语音识别服务时的上下文信息等推断与用户关联的信息(例如,姓名、年龄、性别、地址、职业、健康、周年纪念、家庭等)。在实施例中,推断可以包括验证预先存储在用户终端或者个人信息服务器中的用户信息或者用户终端的使用信息,或者检查要储存在个人信息服务器中的用户信息或者用户终端的使用信息。
在操作603中,人工智能助手可以通过询问来请求与要验证或者检查的信息关联的用户的反馈。如此,在操作605中,用户可以响应询问的信息的真实性(authenticity)。此后,将参考图6A和图6B描述与操作601至操作605关联的示例。
参考图6A,智能服务器可以基于从个人信息服务器或者用户终端提供的信息(例如,用户信息(例如,姓名、年龄、性别、地址、职业、健康、周年纪念、家庭等)或者用户终端信息(例如,位置信息、通信信息、应用操作信息等))推断关于用户的信息(例如,用户的当前位置)。智能服务器的图1D的NLG模块250可以生成关于推断的信息的询问信息并且可以向用户终端传递询问信息。如此,可以将包括通过人工智能助手的询问(例如,你现在在家吗?)的第八界面69输出给用户终端。用户执行反馈语音(例如,是的,这个地方是我的家)作为对于询问的响应,并且人工智能助手可以执行与从个人信息服务器提供的用户信息(例如,地址)的验证关联的询问(例如,Maetan-dong,Yeongtong-gu,Suwon-si,Korea对吗?)。在通过用户响应(例如,对的)验证了用户信息的情况下,智能服务器可以确认从个人信息服务器或者用户终端提供的用户信息。
图6C是图示与操作601至操作605关联的其他示例的视图。图6C中描述的示例可以包括与以上在图6B中描述的相似的验证或者检查处理。例如,如第九界面71中图示的,在用户执行包括特定命令或者意图的语音(例如,发消息给Jack,你在哪?)的情况下,智能服务器可以基于从个人信息服务器提供的用户终端信息(例如,应用操作信息、呼叫信息、通信信息等),验证或者检查与用户语音关联的用户喜好信息(例如,与储存在用户终端中的、具有相同的名称的人关联的用户喜好)。在此方面,可以在第九界面71上显示与验证或者检查关联的、人工智能助手的询问(例如,Jack,你昨天给谁打了电话?)。人工智能助手可以基于与该询问关联的用户的反馈语音(例如,对的),执行与关于用户语音的信息(例如,消息接收方(Jack))关联的验证或者检查询问(例如,你希望我将Jack记为Jack Anderson吗?)。在用户对验证或者检查询问执行反馈语音(例如,好的)的情况下,智能服务器可以确认从个人信息服务器或者用户终端提供的用户喜好信息。
返回图6A,在操作607中,在取决于用户的响应验证或者检查了人工智能助手的询问信息的情况下,基于人工智能助手与用户之间关于验证或者检查处理的交互,智能代理可以将指定值的点Pts分配给个人信息服务器。
操作609可以与经由图4A描述的操作411相同或者对应。
图7A至图7D是图示根据本公开实施例的基于用户活动的运行来计算人工智能助手的经验点的各种实施例的视图。
在实施例中,图1B的用户终端100的图1B的智能代理151可以基于在用户终端或者智能app上运行的用户活动来计算人工智能助手的经验点。
在此方面,参考图7A,用户可以对与智能app的运行屏幕关联的第十界面87a应用触摸输入89,例如,人工智能助手的训练或者经验类别(或者菜单)。在此种情况下,第十界面87a可以被切换到包括训练或者使人工智能助手成长的至少一个活动信息91的第十一界面87b。用户可以选择活动(例如,用户地址信息提供活动)以与人工智能助手交互。例如,用户可以在响应于活动的选择而输出的对话界面93上执行与人工智能助手的与对应的活动关联的交互。在实施例中,在完成了从用户选择的活动的情况下,在第十界面87a和第十一界面87b上可以将完成的活动的图标95a显示(例如,彩色显示或者flash闪烁)为指定的显示。在此种情况下,关于对应的活动的运行,智能代理可以将预先指定的值的点分配为用户活动点,并且可以通过将预先指定的值的点或者任意其他点(例如,图1D的ASR模块210的点、图1D的NLU模块220的点、图1A的个人信息服务器300的点等)求和来计算人工智能助手的经验点。
可替代地,参考图7B,可以在与智能app的运行屏幕关联的第十二界面97上显示与语音识别服务或者智能app的操作关联的至少一个使用指导信息99,作为人工智能助手的训练或者经验的另一示例。用户可以选择使用指导信息99的任意的使用指导以执行对应的活动。在此种情况下,智代理可以将预先指定的值的点分配给每个使用指导信息99作为用户活动点。
参考图7C,在实施例中,用户可以基于语音识别服务的操作与熟人(诸如,家庭成员、朋友等)分享信息。在此方面,图1D的智能服务器200可以基于从用户终端或者个人信息服务器提供的用户信息(例如,家庭信息等)和用户终端的使用信息(例如,应用(联系人)信息、社交媒体服务账户信息等)来识别与用户关联的熟人。可替代地,熟人可以通过用户控制预先分配或者通过用户推荐。在实施例中,在经由对话界面101与用户交互的操作中,在没有伴随用户语音处理的信息的情况下,人工智能助手可询问是否从识别的熟人请求信息共享。询问的生成可以通过智能服务器的图1D的NLG模块250的功能运行来实施。可替代地,如上所述,人工智能助手可以询问是否向所述熟人提供信息。在从用户终端向外部设备(例如,熟人拥有的终端)共享信息的情况下,或者在从外部设备向用户终端共享信息的情况下,智能代理可以将指定的点分配为用户活动点。
参考图7D,在实施例中,智能服务器200可以从至少一个外部设备105、107或者109(例如,与用户关联的熟人拥有的终端)收集通过对应的外部设备执行的活动信息,并且可以分析活动信息以识别对其分配了高的点的活动,或者未在用户终端100上执行的活动。在此方面,人工智能助手可以执行询问,其基于对话界面103向用户推荐或者建议运行熟人执行的高的点的活动或者用户未执行的活动。在通过用户的反馈语音接受了推荐或者建议的情况下,智能代理可以分配指定的点作为用户活动点。
图8A至图8G是图示根据本公开实施例的使用人工智能助手的经验点的各种实施例的视图。
参考图8A,用户终端100可以从外部设备(例如,操作语音识别服务或者智能app的终端)接收根据外部设备用户的语音的消息。如此,可以在用户终端100上运行消息应用,并且可以在消息应用的运行屏幕111上显示通过外部设备传递的消息信息。此时,关于该消息的传输手段(或者路径)的信息可以包括在消息信息中。例如,当基于外部设备的用户的语音识别服务的操作(或者智能app的操作)传递消息时,在运行屏幕111上显示的消息信息中可以包括关于外部设备的人工智能助手的信息(例如,人工智能助手的经验点、人工智能助手的图标、人工智能助手的等级信息、与人工智能助手的经验点关联的视觉图形等)。如此,用户终端100的用户可以确定接收的消息中的信任程度。例如,用户终端100的用户可以基于包括在消息信息中的外部设备的人工智能助手的经验点来估计通过外部设备执行的语音识别的准确性,以估计消息信息或者不能被识别的信息中的拼写(typo)错误113(例如,在因为不清楚地执行了语音识别所以虽然外部设备的用户讲出“about”但是外部设备将“about”识别为“information”,并因此包括错字的消息被传递给了用户终端100的情况下)。在实施例中,在选择了(或者触摸)关于消息中的人工智能助手的信息的情况下,可以显示关于人工智能助手的详细信息(例如,语音识别的信任百分比信息或者错误概率信息)。
参考图8B,图1D的智能服务器200可以基于用户终端100上的人工智能助手的经验点逐步地支持语音识别服务对于用户终端100的功能。在此方面,理解的是,在人工智能助手的轻微(slight)的经验点的情况下,智能服务器200的元件(例如,图1D的ASR模块210、图1D的NLU模块220等)的功能运行是不清楚的或者与所述元件关联的模型的更新是不完全的。在此种情况下,可能不清楚地执行与用户的语音输入关联的语音识别或者生成路径规则的操作,或者可能在执行期间发生错误。如此,智能服务器200可以取决于用户终端100的人工智能助手的经验点提供逐步服务功能。在用户终端100上的人工智能助手的经验点超过指定的临界值的情况下,智能服务器200可以改进对应于关于用户终端100的对应的临界值的语音识别服务的功能支持。智能服务器200的NLG模块250可以允许人工智能助手经由对话界面115提供关于改进的功能(例如,通过使用语音发送消息的功能)。可替代地,智能服务器200可以参考对人工智能助手的经验点的计算有贡献的多个点(例如,图1D的ASR模块210的点、图1D的NLU模块220的点、图1A的个人信息服务器300的点等)来改进与对应于高的点的元件的功能运行关联的服务功能支持。在实施例中,在向对话界面115应用触摸输入的情况下(或者在向关于改进的功能的信息的区域应用触摸输入的情况下),可以输出第十三界面117,其中列出了提供给特定经验点的服务功能(或者其支持被改进)。在各种实施例中,用户可以释放关于第十三界面117上的特定功能的操作限制,而不管人工智能助手的当前经验点的程度如何,并且可以请求智能服务器200支持释放的服务功能。
参考图8C,例如,基于用户终端100的人工智能助手的经验点,智能服务器200可以支持对话界面上显示的人工智能助手的图标119的更新。例如,取决于经验点,智能服务器200可以提供各种主题的图标121和123,或者可以提供各种种族或者人物的图标125。可替代地,响应于经验点的上升,智能服务器200可以支持其中动物、任务、人等成长的场景的图标127。
参考图8D,对应于人工智能助手的经验点的等级信息可以被显示在与智能app的运行屏幕关联的第十四界面129上。在实施例中,在经验点到达特定等级的情况下,可以提供从与图1A的集成智能系统10关联或者合作的外部设备(例如,购物中心服务器、杂货店服务器、应用市场服务器等)提供的优惠券、商品、代金券等。
参考图8E,用户可以在与智能app关联的第十五界面131上,设置对应于用户终端100上的人工智能助手的经验点的话音。理解的是,在经由用户终端100上的图1B的扬声器130输出人工智能助手的响应的情况下,该话音是与响应关联的声学特性(例如,重音、音调、语速等)。在此方面,可以在第十五界面131上显示对应于特定经验点的话音信息。例如,可以在第十五界面131上显示取决于经验点的上升而成长的话音列表,并且用户可以选择并激活按照需要计算的对应于人工智能助手的经验点的话音。在各种实施例中,在选择话音的操作中,用户可以允许话音仅被选择性地应用于在人工智能助手的响应期间频繁出现或者表达的词语。
参考图8F,可以在与智能app的运行屏幕关联的第十六界面133上显示关于人工智能助手的经验点的信息(例如,经验点值、获得经验点的路径、关于体验点的统计信息等)。在实施例中,第十六界面133可以包括能够将上述信息传递或者共享到安装在用户终端100中的社交媒体服务上的对象135(例如,炫耀)。在用户的触摸输入应用于对象135的情况下,可以在社交媒体服务上的用户馈送136中更新包括在第十六界面中的至少一个经验点信息。
参考图8G,在用户终端100上的人工智能助手的经验点超过指定的值的情况下,图1D的智能服务器200可以提供与人工智能助手关联的视觉效果。例如,在运行了智能app的情况下或者在激活了人工智能助手的情况下,智能服务器200可以在用户终端100的主屏幕或锁屏上提供具有视觉效果的人工智能助手的图标。在此方面,在用户操纵应用于处于用户终端100的睡眠状态中的用户终端100上的图1C的硬件键112的情况下,或者在用户执行指定的唤醒命令语音的情况下,可以在用户终端100的在第一锁屏137a上显示人工智能助手的图标和指定形状的粒子(particle)对象。随后,如指定的时间继续,粒子对象可以流动并逐渐形成指定的文本,如第二锁屏137b中示出的。如果完成了粒子对象的流动,则可以在第三锁屏137c上显示指示特定信息的文本。
图9A是图示根据本公开实施例的与集成智能系统中的一些元件关联的架构的框图。图9B至图9K是图示根据本公开的各种实施例的与相关用户终端的架构和界面的一些元件关联的各种处理的视图。
参考图9A至图9K,将描述关于人工智能助手的经验点的计算的、除了以上描述的各种实施例的附加的各种实施例。另外,将描述实施所述附加的各种实施例的元件的功能运行和相关的屏幕界面。在各种实施例中,理解的是,以下描述的智能服务器是上述图1D的智能服务器200或者为了管理人工智能助手的经验点或者等级信息的目的而单独实施的服务器(例如,等级信息管理服务器)。为了便于描述,此后,智能服务器可以被称为上述的图1D的“智能服务器200”。
参考图9A和图9B,与用户的语音识别服务的操作关联,智能代理151可以作为使用信息来管理用户的特定活动,并且可以基于使用信息从智能服务器200接收用来计算人工智能助手的经验点的点。所述特定活动可以包括关于取决于用户语音而提供的人工智能助手的响应的用户满意或者不满意属性的反馈提供。可替代地,特定活动可以包括与通过使用人工智能助手在图1B的用户终端100中装备(mount)或者安装的至少一个app关联的功能操作控制(例如,拨号、发送消息、改变智能app的系统设置等)。根据实施例,与app关联的功能操作控制取决于用户语音可以伴随着运行或者处理从智能服务器200向用户终端100提供的路径规则。换句话说,特定活动可以包括一系列的处理,其中用户终端100接收对应于用户语音的路径规则,以取决于包括特定意图或者命令的用户语音(例如,请拨打电话、请发送消息、请改变设置等)来执行或者处理路径规则。此时,智能代理151可以管理关于响应于用户的特定活动的运行而接收的路径规则的信息(例如,路径规则ID)。在发生用户的上述特定活动的情况下,智能代理151可以向智能服务器200传递使用信息。
在实施例中,智能服务器200可以建立预定的点分配值,作为关于每个特定活动的索引。在智能服务器200从智能代理151接收使用信息的情况下,智能服务器200可以跟踪对应于索引上的使用信息的活动以识别对应的点分配值。智能服务器200可以向智能代理151传递关于识别的点分配值的信息,并且智能代理151可以参考接收的信息来计算人工智能助手的经验点。可替代地,在各种实施例中,智能服务器200可以从智能代理151接收等级信息并且可以将点分配值应用于等级信息以将改进的等级信息传递给智能代理151。
如上所述,可以通过包括在智能服务器200中的评分管理者模块执行人工智能助手的经验点的计算。在此方面,参考图9A和图9C,智能服务器200可以管理用户的语音识别服务订阅信息,并且可以将订阅的用户信息映射和管理到人工智能助手的经验点或者与经验点对应的等级信息。在实施例中,与要在智能app的屏幕界面上显示的人工智能助手的经验点或者等级信息关联地,在运行了智能app的情况下,智能代理151可以向智能服务器200做出对于更新的经验点或者等级信息的请求。智能服务器200可以向智能代理151传递更新的经验点或者等级信息,作为对该请求的响应,并且智能代理151可以在屏幕界面上显示接收的经验点或者等级信息。
在实施例中,智能服务器200可以实时更新人工智能助手的经验点或者等级信息,并且可以向智能代理151提供取决于更新而改变的信息。例如,在因为人工智能助手的经验点提高而改变了对应于经验点的等级级别的情况下,智能服务器200可以向智能代理151传递改变的等级级别信息。在现有的等级信息基于等级级别信息而改变的情况下,智能代理151可以输出其通知(例如,消息、声音效果等)。
根据实施例,智能服务器200可以向经由单独的服务器实施的语音识别服务入口500传递通过用户终端100操作的人工智能助手的经验点和等级信息。语音识别服务入口500可以共同地管理在语音识别服务中订阅的至少一个用户,并且可以共同地管理通过每个用户的用户终端操作的人工智能助手的经验点或者等级信息。在实施例中,智能服务器200可以向语音识别入口500与经验点或者等级信息的传输一起请求对应于对应的经验点或者等级信息的特定奖励或者好处(此后,被共同表示为“奖励”)。在此方面,语音识别服务入口500可以利用与语音识别服务关联的第一外部设备(例如,付费服务服务器)建立奖励平台,并且可以向第一外部设备传递从智能服务器200请求的奖励信息和与该奖励关联的用户信息(例如,语音识别服务订阅信息、用户订阅ID等)。在各种实施例中,奖励可以包括与通过第一外部设备操作的服务关联的点的积累。第一外部设备可以处理(或者,赢得点)从语音识别服务入口500接收的奖励信息以向语音识别服务入口500传递处理结果,并且可以管理关于处理历史的信息。如此,基于从第一外部设备接收的处理结果,语音识别服务入口500可以管理对应于通过智能服务器200请求的奖励的用户终端的奖励历史。在各种实施例中,智能服务器200可以向语音识别服务入口500排除奖励请求、可以直接地向第一外部设备做出对于奖励的请求、并且可以从第一外部设备接收关于奖励请求的处理信息的共享以管理(例如,管理奖励历史)处理信息。此外,智能服务器200可以向智能代理151传递奖励历史;如此,智能代理151可以经由通过图2C描述的、图2C的界面16输出奖励历史。上述奖励请求和处理可以基于以下假设:与奖励关联的用户订阅通过第一外部设备操作的服务,并且在智能代理151从智能服务器200接收奖励历史的情况下,智能代理151可以访问第一外部设备以确定用户是否订阅该服务。
参考图9A和图9D,语音识别服务入口500可以管理与语音识别服务的操作关联的至少一个提升(promotion)。例如,语音识别服务入口500可以利用与语音识别服务关联的第二外部设备(例如,附属产品服务器等)建立提升平台。在实施例中,第二外部设备的管理者(或者操作者)可以访问语音识别服务入口500以注册关于特定提升的信息。例如,第二外部设备管理者可以在语音识别服务入口500中注册提升标识信息(例如,分配给该提升的ID或者提升名称等)、提升操作周期、伴随提升操作的内容信息、关于提升条款和条件的信息等。在语音识别服务入口500中注册的提升信息可以被传递给用户终端100和/或智能服务器200,并且智能代理151可以在智能app的屏幕界面上生成事件公告板以显示提升信息。在各种实施例中,第二外部设备管理者可以对语音识别服务入口500排除提升信息的注册,并且可以操作单独的入口(例如,治理(administration)入口),以基于该单独的入口向智能代理提供提升信息。
在智能代理151可以从语音识别服务入口500接收新的提升信息的情况下,或者在提升信息被张贴在事件公告板上的情况下,智能代理151可以在用户终端100上输出其通知(例如,推送消息等)以提供提升的通知。响应于通知,用户可以验证事件公告板上的提升并且可以输入关于用户想要参与的提升的条款和条件的协议信息。智能代理151可以向语音识别服务入口500传递关于条款和条件的协议信息,并且语音识别服务入口500可以将接收的关于条款和条件的协议信息映射到对应的提升并管理。
根据实施例,提升可以包括用于激活语音识别服务的操作的各种任务。例如,第二外部设备管理者可以将运行智能app的任务、与上述使用信息关联的第一用户活动、与人工智能助手的功能关联的第二用户活动(例如,寻找人工智能助手的隐藏功能、生成和使用宏等)、使用人工智能助手的第三用户活动(例如,基于经由用户语音的多任务来启动多个app)等构成为提升。
图9E图示了根据上述提升参与的一系列处理。在图9E中,可以通过处理中的特定操作(例如,印章获取操作)中的分支(branching)来代表提升参与的各种实施例。
参考图9E,在用户终端100上宣告了提升的情况下,用户可以访问事件公告板并且可以通过同意用户期望参与其中的提升的条款和条件来验证印章信息(例如,印章获取状态)。在实施例中,如果用户将执行由提升组成的至少一个任务,则可以从第二外部设备提供印章。在实施例中,每当获得印章时,智能代理151可以从第二外部设备接收预定的点。可替代地,在另一实施例中,只有当认证了指定数目的印章时,智能代理151才可以从第二外部设备接收预定的点。智能代理151可以参考接收的预定的点来计算人工智能助手的经验点。
图9F是图示与提升参与关联的智能app的各种界面的视图。参考图9F,取决于智能app的运行而输出的特定界面139a(例如,智能app的主屏幕)可以显示与语音识别服务的操作关联的菜单。在实施例中,菜单可以包括各种类别,并且响应于用户的触摸输入,特定类别可以支持与事件公告板139b的互通(interworking)。在通过用户在事件公告板139b上选择特定提升的情况下,事件公告板139b可以被切换到包括关于选择的提升和提升参与击键的信息的界面139c。此外,如果用户的触摸输入被应用于提升参与击键,则可以输出用于输入关于对应提升的条款和条件的信息以及关于所述条款和条件的协议信息。
参考图9A和图9G,智能代理151可以从用户接收与语音识别服务的操作关联的变化建议,并且可以管理变化建议。例如,触摸输入通过用户被应用于智能app的特定屏幕界面(例如,变化建议界面)上的第一按钮(例如,变化建议按钮);然后,在通过执行用户的变化建议来操纵第二按钮(例如,变化建议提交按钮)的情况下,智能代理151可以接收该变化建议。在实施例中,例如,变化建议可以包括根据用户语音的与人工智能助手的响应关联的用户的另一响应建议。可替代地,在取决于与特定app的功能操作控制关联的用户语音的发生而从智能服务器200提供路径规则并且然后特定app的功能操作控制被处理的情况下,变化建议可以包括用于部分地改变用户语音的方面的建议(例如,“发送消息”改变为“飞信消息”等)。在从用户提供上述变化建议的情况下,智能代理151可以确定提供的变化建议的有效性(例如,该变化建议是否是指定表达的建议)以向利用单独的外部设备实施(或者被实施为包括智能服务器200或者利用智能服务器实施)的变化建议管理服务器600传递(或者在用户建议管理数据库中储存变化建议)变化建议。在此操作中,智能代理151可以从变化建议管理服务器600接收该变化建议的接受信息,并且可以输出包括接受信息的通知(例如,推送信息)。在各种实施例中,在确定变化建议无效的情况下,智能代理151可以输出用于再次执行或者输入变化建议的界面。
在实施例中,变化建议的发生可以伴随着预定的点的支付,并且在确定了变化建议有效的情况下,智能代理151可以向智能服务器200做出对于根据该变化建议的发生的点的请求。取决于该请求,智能服务器200可以将预定的点(例如,10点)应用于人工智能助手的经验点的计算或者人工智能助手的等级信息的确定。变化建议管理服务器600可以将提供的变化建议映射到对应的用户ID上并存储,并且可以向智能代理151提供其信息。可替代地,变化建议管理服务器600可以向语音识别服务入口500传递提供的变化建议。在实施例中,语音识别服务入口500的管理者可以基于关于接收的至少一个变化建议的效率(efficiency)来确定优先级,并且可以采取最好(或者最高优先级)的变化建议来通过使用列表来管理最好的变化建议。语音识别服务入口500可以向智能服务器200传递关于采取的变化建议的预定的点(例如,100点)的支付信息,并且智能服务器200可以将根据变化建议的采取的点(例如,100点)应用于经验点的计算或者人工智能助手的等级信息的确定。在实施例中,语音识别服务入口500可以向与人工智能助手关联的训练工具提供关于采取的变化建议的信息。可替代地,训练工具可以请求语音识别服务入口500访问包括采取的至少一个变化建议的列表。
图9H和图9I是图示其中通过用户执行上述变化建议的智能app的界面的视图。参考图9H中,可以在智能app的第一界面145a上显示关于用户和人工智能助手的之间的交互以及根据交互的人工智能助手的响应的历史信息(例如,对话信息)的用户的满意或者不满意属性的反馈提供历史信息。在实施例中,在用户触摸输入被应用于交互历史信息的情况下,第一界面145a可以切换至第二界面145b,用于根据对应的交互建议关于人工智能助手的响应的另一响应。参考图9I,用户可以在智能app的第三界面147上执行用于至少部分地改变特定用户语音的方面的变化建议。例如,用户可以经由提供到第三界面147的至少一个区域的软件输入面板(SIP)键盘来输入要改变的用户语音的方面,并且可以向变化建议管理服务器600传递(例如,提交)用户语音的方面。
图9J是图示与变化建议的采取关联的、通过用户终端100输出的界面的视图。参考图9J,在语音识别服务入口500采取特定的变化建议的情况下,用户终端100可以接收关于采取的信息并且可以输出其通知(例如,推送消息)。例如,用户终端100可以在主界面、背景界面、或者特定app的运行界面148中的至少一个区域中显示推送信息,并且响应于应用于该推送消息的用户的操纵(例如,拖动),可以显示采取的变化建议的详细信息。
在实施例中,智能服务器200可以取决于用户的变化建议的运行来改进语音识别服务的经验点。此时,可以在指定的限制内改进经验点(例如,每天200点),并且在智能服务器200监视经验点的改进并且超出了限制的情况下,智能服务器200可以向用户终端100传递其信息。然而,可以从该限制中排除通过采取上述建议改变而接收的点(例如,100点)。在此方面,参考图9K,用户终端100可以经由单独的消息或者智能app的屏幕界面149输出指示经验点的限制超出的信息。如此,理解的是,经验点的限制改进配置是政策(policy)的一部分,以阻止不合法的语音识别服务的操作。
根据各种实施例,一种电子系统可以包括用户设备,该用户设备包括:显示器;麦克风;扬声器;通信电路;第一存储器;和与该显示器、麦克风,扬声器、通信电路和第一存储器电连接的第一处理器;以及包括通信接口的第一服务器、第二存储器、和与该通信接口和第二存储器电连接的第二处理器。
根据各种实施例,第二存储器可以包括自动语音识别(ASR)模块和自然语言理解(NLU)模块。
根据各种实施例,第一存储器可以储存指令,在被第一处理器运行时所述指令使得所述第一处理器经由麦克风接收用户的话音输入并且经由通信电路向所述第二处理器传递与所述话音输入关联的数据。
根据各种实施例,所述第二存储器可以储存指令,在被第二处理器运行时所述指令使得所述第二处理器通过使用ASR模块或者NLU模块中的至少一个来处理数据,以通过使用该数据计算与ASR模块和NLU模块中的至少一个关联的至少一个数值,并且向所述第一处理器提供所述至少一个数值。
根据各种实施例,第一存储器可以进一步储存指令,在被第一处理器运行时所述指令使得所述第一处理器在用户界面上提供关于所述至少一个数值的信息。
根据各种实施例,电子系统可以包括包含通信接口的第一服务器、第一存储器、以及与该通信接口和第一存储器电连接的第一处理器。
根据各种实施例,所述第一存储器可以包括自动语音识别(ASR)模块和自然语言理解(NLU)模块。
根据各种实施例,第一存储器可以储存指令,在被第一处理器运行时所述指令使得所述第一处理器经由通信接口接收与话音输入关联的数据,通过使用ASR模块或者ASR模块中的至少一个来处理数据,基于所述数据的处理来计算与所述ASR模块或者所述NLU模块中的至少一个关联的至少一个数值,并且经由所述通信接口向指定的外部设备传递所述至少一个数值。
根据各种实施例,一种支持语音识别服务的电子设备可以包括:与至少一个外部设备通信的通信模块、根据用户语音接收话音输入的麦克风、储存关于语音识别服务的操作的信息的存储器、输出与语音识别服务的操作关联的屏幕、以及电连接到所述通信模块、麦克风、存储器、和显示器的处理器。
根据各种实施例,所述处理器可以被配置成计算与语音识别服务的操作关联的指定数值,向处理语音输入的第一外部设备传递关于该数值的信息,并且取决于数值向第一外部设备传递对于与从第一外部设备逐步提供的语音识别服务关联的至少一个功能当中、对应于计算的数值的功能的请求,以改进通过电子设备支持的语音识别服务的功能。
根据各种实施例,所述处理器可以被进一步配置成与第一外部设备的功能运行相关联地向第一外部设备中包括的自动语音识别(ASR)模块或自然语言理解(NLU)模块中的至少一个分配点,并且基于分配的点的收集来计算数值。
根据各种实施例,所述处理器可以被进一步配置成收集通过ASR模块对其执行了特定人语音识别的至少一个话音输入信息,积累和计算对应于收集的至少一个话音输入信息的用户语音时间,并且基于用户语音时间的积累量向ASR模块分配点。
根据各种实施例,所述处理器可以被进一步配置成基于关于与语音识别服务的操作关联的唤醒命令语音的、特定人识别模型的生成向ASR模块分配点。
根据各种实施例,所述处理器可以被进一步配置成,与关于话音输入的ASR模块的语音识别运行相关联地,如果修正了语音识别结果的错误,则基于响应于错误的修正而执行的ASR模块的语音识别模型更新向ASR模块分配点。
根据各种实施例,所述处理器可以被进一步配置成,与关于话音输入的NLU模块的用户语音意图的导出运行相关联地,如果从用户提供的用户喜好信息被应用于与通过NLU模块获得的话音输入关联的领域、意图、或者参数中的至少一种,则基于用户喜好信息的应用而向NLU模块分配点。
根据各种实施例,所述处理器可以被进一步配置成,与关于话音输入的NLU模块的用户语音意图的导出运行相关联地,如果关于要通过NLU模块导出的特定用户意图设置了与电子设备的功能控制或者与电子设备交互的第二外部设备的功能控制关联的至少一个功能响应,则基于至少一个功能响应的设置向NLU模块分配点。
根据各种实施例,所述处理器可以被进一步配置成向从电子设备接收关于电子设备的信息或者关于电子设备的用户的信息中的至少一个并存储的第三外部设备分配点,并且基于分配的点计算数值。
根据各种实施例,所述处理器可以被进一步配置成从第一外部设备接收和输出关于储存在第三外部设备中的至少一个信息的验证或者检查的询问信息,并且如果通过与询问信息关联的用户反馈验证或者检查了所述至少一个信息,则基于所述至少一个信息的验证和检查向第三外部设备分配点。
根据各种实施例,一种电子设备的语音识别服务操作方法可以包括:根据用户语音接收话音输入;计算与语音识别服务的操作关联的指定数值;向处理话音输入的第一外部设备传递关于话音输入的信息或者关于数值的信息中的至少一个;取决于数值向第一外部设备传递对于与从第一外部设备逐步提供的语音识别服务相关联的至少一个功能中的、对应于计算的数值的功能的请求;并且从第一外部设备接收对应于计算的数值的功能以改进语音识别服务的功能。
根据各种实施例,所述计算可以包括向与第一外部设备的功能运行关联的、包括在第一外部设备中的自动语音识别(ASR)模块或者自然语言理解(NLU)模块中的至少一个分配点,并且基于分配的点的收集计算数值。
根据各种实施例,所述分配可以包括:收集通过ASR模块对其执行了特定人语音识别的至少一个话音输入信息,积累和计算对应于收集的至少一个话音输入信息的用户语音时间,并且基于用户语音时间的积累量向ASR模块分配点。
根据各种实施例,所述分配可以包括基于关于与语音识别服务的操作关联的唤醒命令语音的特定人识别模型的生成向ASR模块分配点。
根据各种实施例,所述分配可以包括:如果修正了关于话音输入的ASR模块的语音识别结果的错误,则基于响应于错误的修正执行的ASP模块的语音识别模型更新来向ASR模块分配点。
根据各种实施例,所述分配可以包括:如果从用户提供的用户喜好信息被应用于与在关于话音输入的NLU模块导出用户语音意图的操作中通过NLU模块获得的话音输入关联的领域、意图、或者参数中的至少一个,则基于用户喜好信息的应用来向NLU模块分配点。
根据各种实施例,所述分配可以包括:如果关于要通过导出与话音输入关联的用户语音意图的NLU模块导出的特定用户意图设置了与电子设备的功能控制或者与电子设备交互的第二外部设备的功能控制关联的至少一个功能响应,则基于至少一个功能响应的设置向NLU模块分配点。
根据各种实施例,所述计算可以包括:向储存关于电子设备的信息或者关于电子设备的用户的信息中的至少一个的第三外部设备分配点;并且基于分配的点来计算数值。
根据各种实施例,所述分配可以包括:从第一外部设备接收并且输出关于储存在第三外部设备中的至少一个信息的验证或者检查的询问信息;通过与询问信息关联的用户反馈来验证和检查所述至少一个信息;并且基于所述至少一个信息的验证和检查来向第三外部设备分配点。
图10图示了根据本公开实施例的网络环境中的电子设备(或者用户终端)。
参考图10,在网络环境1000下,电子设备1001(例如,图1B的用户终端100)可以经由第一网络1098(例如,诸如蓝牙或者红外数据标准协会(IrDA)的无线局域网)与电子设备1002通信,或者可以经由第二网络1099(例如,诸如蜂窝网络的无线广域网)与电子设备1004或者服务器1008通信。根据实施例,电子设备1001可以经由服务器1008与电子设备1004通信。
根据实施例,电子设备1001可以包括总线1010、处理器1020(例如,图1B的处理器150)、存储器1030、输入设备1050(例如,微型电话或者鼠标)、显示器1060、音频模块1070、传感器模块1076、接口1077、触觉模块1079、相机模块1080、功率管理模块1088、电池1089、通信模块1090、和订户识别模块1096。根据实施例,电子设备1001可以不包括上述元件中的至少一个(例如,显示器1060或者相机模块1080),或者可以进一步包括其他元件(或多个)。
总线1010例如可以互连上述元件1020至1090,并且可以包括用于在上述元件之间传达信号(例如,控制消息或者数据)的电路。处理器1020可以包括中央处理单元(CPU)、应用处理器(AP)、图形处理单元(GPU)、相机的图像信号处理器(ISP)或者通信处理器(CP)中的一个或者多个。根据实施例,处理器1020可以利用片上系统(SoC)或者系统封装(SiP)来实施。例如,处理器1020可以驱动操作系统(OS)或者应用以控制连接到处理器1020的其他元件(例如,硬件或者软件元件)中的至少一个,并且可以处理和计算各种数据。处理器1020可以将从其他元件(例如,通信模块1090)中的至少一个接收的命令或者数据加载到易失性存储器1032中以处理该命令或者数据,并且可以将处理结果数据储存到非易失性存储器1034中。
存储器1030可以例如包括易失性存储器1032或者非易失性存储器1034。例如,易失性存储器1032可以包括随机存取存储器(RAM)(例如,动态RAM(DRAM)、静态RAM(SRAM)、或者同步动态RAM(SDRAM))。例如,非易失性存储器1034可以包括一次性可编程只读存储器(OTPROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、掩模ROM、闪存ROM、闪存、硬盘驱动器、或者固态驱动器(SSD)。另外,根据与电子设备1001的连接,非易失性存储器1034可以以内部存储器1036的形式或者仅在必要时经由连接可用的外部存储器1038的形式来配置。外部存储器1038还可以包括诸如紧凑型闪存(CF)、安全数字(SD)、微型安全数字(Micro-SD)、迷你安全数字(Mini-SD)、极限数字(xD)、多媒体卡(MMC)、或者记忆棒的闪存驱动器。外部存储器1038可以以有线方式(例如,电缆或者通用串行总线(USB))或者无线(例如,蓝牙)方式与电子设备1001操作地或者物理地连接。
例如,存储器1030可以储存例如电子设备1001的至少一个不同的软件元件,诸如与程序1040关联的指令或者数据。例如,程序1040可以包括内核1041、库1043、应用框架1045或者应用程序(可互换地,“应用”)1047。
输入设备1050可以包括麦克风、鼠标、或者键盘。根据实施例,键盘可以包括物理地连接的键盘或者经由显示器1060虚拟地显示的键盘。
显示器1060可以包括显示器、全息设备或者投影仪、和控制相关设备的控制电路。例如,屏幕可以包括液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、微机电系统(MEMS)显示器、或者电子纸显示器。根据实施例,显示器可以灵活地、透明地、或者可穿戴地实施。显示器可以包括:触摸电路,其能够检测用户的输入,诸如手势输入、接近输入、或者悬停输入;或者压力传感器(可互换地,力传感器),其能够测量通过触摸的压力的强度。触摸电路或者压力传感器可以与显示器集成地实施,或者可以利用至少一个传感器与显示器单独地实施。全息设备可以使用光的干涉在空间中示出立体图像。投影仪可以将光投影到屏幕上以显示图像。屏幕可以位于电子设备1001的内部或者外部。
音频模块1070可以例如将声音转换成电信号或者将电信号转换成声音。根据实施例,音频模块1070可以经由输入设备1050(例如,麦克风)获取声音,或者可以经由包括在电子设备1001、外部电子设备(例如,电子设备1002(例如,无线扬声器或者无线耳机))、或者与电子设备1001连接的电子设备1006(例如,有线扬声器或者有线耳机)中的输出设备(未图示)(例如,扬声器或者接收器)输出声音。
传感器模块1076可以测量或者检测例如电子设备1001的内部操作状态(例如,功率或者温度)或者外部环境状态(例如,高度、湿度、或者亮度)以生成对应于测量的状态或者检测的状态的信息的电信号或者数据值。传感器模块1076可以例如包括手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、抓握传感器、接近传感器、颜色传感器(例如,红色、绿色、蓝色(RGB)传感器)、红外传感器、生物传感器(例如,虹膜传感器、指纹传感器、心率监测(HRM)传感器、电子鼻传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、温度传感器、湿度传感器、照度传感器或者UV传感器)中的至少一个。传感器模块1076还可以包括用于控制其中包括的至少一个或多个传感器的控制电路。根据实施例,可以通过使用处理器1020或者与处理器1020分离的处理器(例如,传感器集线器)来控制传感器模块1076。在使用分离的处理器(例如,传感器集线器)的情况下,当处理器1020处于睡眠状态时,分离的处理器可以无需唤醒处理器1020而操作以控制传感器模块1076的至少一部分操作或者状态。
根据实施例,接口1077可以包括高清晰度多媒体接口(HDMI)、通用串行总线(USB)、光学接口、推荐标准232(RS-232)、D-超小型(D-sub)、移动高清链接(MHL)接口、SD卡/MMC接口、或者音频接口。连接器1078可以物理地连接电子设备1001和电子设备1006。根据实施例,连接器1078可以例如包括USB连接器、SD卡/MMC连接器、或者音频连接器(例如、耳机连接器)。
触觉模块1079可以将电信号转换成机械刺激(例如,振动或者运动)或者转换成电刺激。例如,触觉模块1079可以向用户应用触觉或者运动感觉刺激。例如,触觉模块1079可以包括马达、压电元件、或者电刺激器。
相机模块1080例如可以捕捉静止图像和运动图像。根据实施例,相机模块1080可以包括至少一个镜头(例如,广角镜头和长焦镜头、或者前镜头和后镜头)、图像传感器、图像信号处理器、或者闪光灯(例如,发光二极管或者氙灯)。
用来管理电子设备1001的电力的功率管理模块1088可以构成功率管理集成电路(PMIC)的至少一部分。
电池1089可以包括原电池、蓄电池、或者燃料电池,并且可以通过外部电源再充电以向电子设备1001的至少一个元件供电。
通信模块1090可以建立电子设备1001与外部设备(例如,第一外部电子设备1002、第二外部电子设备1004、或者服务器1008)之间的通信信道。通信模块1090可以经由建立的通信信道支持有线通信或者无线通信。根据实施例,通信模块1090可以包括无线通信模块1092或者有线通信模块1094。通信模块1090可以通过无线通信模块1092或者有线通信模块1094中的相关模块、经由第一网络1098(例如,诸如蓝牙或者红外数据标准协会(IrDA)的无线局域网)或第二网络1099(例如,诸如蜂窝网络的无线广域网)与外部设备(例如,第一外部电子设备1002、第二外部电子设备1004、或者服务器1008)通信。
无线通信模块1092可以例如支持蜂窝通信、本地无线通信、和全球导航卫星系统(GNSS)通信。蜂窝通信例如可以包括长期演进(LTE)、LTE高级(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)、或者全球移动通信系统(GSM)。本地无线通信可以包括无线保真(Wi-Fi)、Wi-Fi直连、光保真(Li-Fi)、蓝牙、蓝牙低功耗(BLE)、Zigbee、近场通信(NFC)、磁安全传输(MST)、射频(RF)、或者人体局域网(BAN)。GNSS可以包括全球定位系统(GPS)、全球导航卫星系统(Glonass)、北斗导航卫星系统(北斗)、欧洲全球卫星导航系统(伽利略)等中的至少一个。在本公开中,“GPS”和“GNSS”可以互换地使用。
根据实施例,当无线通信模块1092支持蜂窝通信时,无线通信模块1092可以例如使用用订户识别模块(例如,SIM卡)1096来识别或者认证通信网络内的电子设备1001。根据实施例,无线通信模块1092可以包括与处理器2820(例如,应用处理器(AP))分离的通信处理器(CP)。在此情况下,当处理器1020处于未激活(睡眠)状态中时,通信处理器可以代替处理器1020执行与电子设备1001的元件1010至1096中的至少一个关联的至少一部分的功能,并且当处理器处于激活状态中时与处理器1020一起执行。根据实施例,无线通信模块1092可以包括多个通信模块,每个通信模块只支持蜂窝通信、短程无线通信、或者GNSS通信方案之中相关的通信方案。
有线通信模块1094例如可以包括局域网(LAN)服务、电力线通信、或者普通老式电话服务(POTS)。
例如,第一网络1098可以采用例如Wi-Fi直连或者蓝牙,用于在电子设备1001和第一外部电子设备1002之间经由无线直接连接传递或者接收指令或者数据。第二网络1099可以包括电信网络(例如,诸如LAN或者WAN的计算机网络、因特网或者电话网络),用于在电子设备1001和第二电子设备1004之间传递或者接收指令或者数据。
根据实施例,可以经由与第二网络连接的服务器1008在电子设备1001和第二外部电子设备1004之间传递或者接收指令或者数据。第一和第二外部电子设备1002和1004中的每一个可以是类型与电子设备1001的类型不同或者相同的设备。根据各种实施例,电子设备将执行的全部或者部分操作可以通过其他或者多个电子设备(例如,电子设备1002和1004或者服务器1008)运行。根据实施例,在电子设备1001自动地或者响应于请求运行任意的功能或者服务的情况下,电子设备1001可以不内部地执行功能或者服务,但是可以可替代地或者附加地向任意其他设备(例如,电子设备1002或者1004或者服务器1008)传递对于与电子设备1001关联的至少一部分功能的请求。其他电子设备(例如,电子设备1002或者1004或者服务器1008)可以运行请求的功能或者附加功能,并且可以向电子设备1001传递运行结果。电子设备1001可以使用接收的结果提供请求的功能或者服务,或者可以附加地处理接收的结果以提供请求的功能或者服务。为此,例如,可以使用云计算、分布式计算、或者客户端-服务器计算。
本文中使用的公开和术语的各种实施例并不旨在将本公开中描述的技术限制为特定的实施例,并且应该理解的是,实施例和术语包括对于本文描述的对应的实施例的修改、等同物、和/或替代。关于附图的描述,相似的元件可以通过相似的参考标记来标记。除非另有指定,否则单数形式的术语可以包括复数形式。在本文中公开的公开中,本文使用的表达“A或者B”、“A和/或B中的至少一个”、“A、B、或者C”、或者“A、B、和/或C中的至少一个”等,可以包括一个或者多个关联的列出的项目的任意和所有组合。诸如“第一”或者“第二”等的表达可以表达它们的元件,而不管它们的优先级或者重要性,并且可以用来将一个元件与另一个元件区分开,但是不限于这些组件。当(例如,第一)元件表示为“(可操作地或者通信地)耦合于/到”或者“连接到”另一(例如,第二)元件时,其可以直接地耦合于/到或者链接到其他元件或者可以呈现中间元件(例如,第三元件)。
根据情境(situation),例如,本文使用的表达“适用于或者配置成”可以可互换地用作“适于”、“具有能力以”、“改变为”、“对...做出”、“有能力”、或者“设计为”。表达“设备配置成”可以意味着设备“能够”与另一设备或者其他组件一起操作。例如,“配置成(或者设置为)执行A、B、和C的处理器”可以意味着用于执行对应的操作的专用处理器(例如,嵌入式处理器)或者通用处理器(例如,中央处理单元(CPU)或者应用处理器),其通过运行储存在存储设备(例如,存储器1030)中的一个或者多个软件程序来执行对应的操作。
本文使用的术语“模块”可以包括利用硬件、软件、或者固件实施的单元,并且可以与术语“逻辑”、“逻辑块”、“组件”、“电路”等可互换地使用。所述“模块”可以是集成组件的最小单元或其一部分,或者可以是用于执行一个或者多个功能的最小单元或其一部分。所述“模块”可以机械地或者电地实施,并且可以包括例如已知的或者将要开发的、用于执行一些操作的特定用途IC(ASIC)芯片、现场可编程门阵列(FPGA)、和可编程逻辑设备。
根据各种实施例,例如,装置(例如,其模块或者功能)或者方法(例如,操作)的至少一部分可以通过以程序模块的形式、储存在计算机可读储存介质(例如,存储器1030)中的指令实施。当通过处理器(例如,处理器1020)运行所述指令时,可以促使处理器以执行对应于所述指令的功能。计算机可读记录介质可以包括硬盘、软盘、磁介质(例如,磁带)、光介质(例如,光盘只读存储器(CD-ROM)和数字多功能光盘(DVD)、磁光介质(例如,软光盘))、嵌入式存储器等。一个或者多个指令可以包含通过编译器做出的代码或者通过解释器可运行的代码。
根据各种实施例的每个元件(例如,模块或者程序模块)可以由单个实体或者多个实体组成,上述子元件的一部分可以省略或者可以进一步包括其他元件。可替代地或者附加地,在集成到一个实体中之后,一些元件(例如,模块或者程序模块)可以一致地或者相似地执行通过集成之前的每个对应的元件运行的功能。根据各种实施例,通过模块、程序模块、或者其他元件运行的操作可以通过连续方法、并行方法、重复方法、或者启发式方法来运行,或者可以以不同序列运行或者省略至少一部分操作。可替代地,可以添加其他操作。
虽然已经参考本公开的各种实施例示出和描述了本公开,但本领域技术人员将理解的是,在不脱离通过所附权利要求及其等同物限定的本公开的范围的情况下,可以对其进行形式和细节上的各种改变。
Claims (15)
1.一种支持语音识别服务的电子设备,所述电子设备包括:
通信模块,被配置成与至少一个外部设备通信;
麦克风,被配置成根据用户语音接收话音输入;
存储器,被配置成储存关于语音识别服务的操作的信息;
显示器,被配置成输出与语音识别服务的操作关联的屏幕;和
处理器,与所述通信模块、麦克风、存储器、和显示器电连接,
其中,所述处理器被配置成:
计算与语音识别服务的操作关联的指定数值,
向处理话音输入的第一外部设备传递关于数值的信息,以及
取决于数值向所述第一外部设备传递对于与从所述第一外部设备逐步提供的语音识别服务关联的至少一个功能当中对应于所计算的数值的功能的请求,以改进所述电子设备支持的语音识别服务的功能。
2.根据权利要求1所述的电子设备,其中,所述处理器进一步被配置成:
向与所述第一外部设备的功能运行关联的、包括在所述第一外部设备中的自动语音识别(ASR)模块或者自然语言理解(NLU)模块中的至少一个分配点;以及
基于分配的点的收集来计算数值。
3.根据权利要求2所述的电子设备,其中,所述处理器进一步被配置成:
收集通过ASR模块对其执行了特定人语音识别的至少一个话音输入信息;
积累并且计算对应于所收集的至少一个话音输入信息的用户语音时间;以及
基于用户语音时间的积累量来向ASR模块分配点。
4.根据权利要求2所述的电子设备,其中,所述处理器进一步被配置成:
基于关于与语音识别服务的操作关联的唤醒命令语音的特定人识别模型的生成来向ASR模块分配点。
5.根据权利要求2所述的电子设备,其中,所述处理器进一步被配置成:
与关于话音输入的ASR模块的语音识别运行相关联地,如果修正了语音识别结果的错误,则基于ASR模块响应于错误的修正而执行的语音识别模型更新向ASR模块分配点。
6.根据权利要求2所述的电子设备,其中,所述处理器进一步被配置成:
与关于话音输入的NLU模块的用户语音意图的导出运行相关联地,如果从用户提供的用户喜好信息被应用于与通过NLU模块获得的话音输入关联的领域、意图、或者参数中的至少一个,则基于用户喜好信息的应用向NLU模块分配点。
7.根据权利要求2所述的电子设备,其中,所述处理器进一步被配置成:
与关于话音输入的NLU模块的用户语音意图的导出运行相关联地,如果关于要通过NLU模块导出的特定用户语音意图设置了与所述电子设备的功能控制或者与所述电子设备交互的第二外部设备的功能控制关联的至少一个功能响应,则基于所述至少一个功能响应的设置向NLU模块分配点。
8.根据权利要求1所述的电子设备,其中,所述处理器进一步被配置成:
向从所述电子设备接收并且储存关于所述电子设备的信息或者关于所述电子设备的用户的信息中的至少一个的第三外部设备分配点;以及
基于分配的点计算数值。
9.根据权利要求8所述的电子设备,其中,所述处理器进一步被配置成:
从第一外部设备接收关于储存在第三外部设备中的至少一个信息的验证和检查的询问信息并输出;以及
如果通过与询问信息关联的用户反馈验证或者检查了所述至少一个信息,则基于所述至少一个信息的验证或者检查向所述第三外部设备分配点。
10.一种电子设备的语音识别服务操作方法,所述方法包括:
根据用户语音接收话音输入;
计算与所述语音识别服务的操作关联的指定数值;
向处理话音输入的第一外部设备传递关于话音输入的信息或者关于数值的信息中的至少一个;
取决于数值向所述第一外部设备传递对于与从所述第一外部设备逐步提供的语音识别服务关联的至少一个功能当中对应于所计算的数值的功能的请求;以及
从所述第一外部设备接收对应于所计算的数值的功能以改进语音识别服务的功能。
11.根据权利要求10所述的方法,其中,所述计算包括:
向与所述第一外部设备的功能运行关联的、包括在所述第一外部设备中的自动语音识别(ASR)模块或者自然语言理解(NLU)模块中的至少一个分配点;以及
基于分配的点的收集计算数值。
12.根据权利要求11所述的方法,其中,所述分配包括:
收集通过ASR模块对其执行了特定人语音识别的至少一个话音输入信息;
积累并且计算对应于所收集的至少一个话音输入信息的用户语音时间;以及
基于所述用户语音时间的积累量向ASR模块分配点。
13.根据权利要求11所述的方法,其中,所述分配包括:
基于关于与所述语音识别服务的操作关联的唤醒命令语音的特定人识别模型的生成,向ASR模块分配点。
14.根据权利要求11所述的方法,其中,所述分配包括:
如果修正了关于话音输入的ASR模块的语音识别结果的错误,则基于ASR模块响应于错误的修正而执行的语音识别模型更新向ASR模块分配点。
15.根据权利要求11所述的方法,其中,所述分配包括:
如果从用户提供的用户喜好信息被应用于与在关于该话音输入的NLU模块的导出用户语音意图的操作中通过NLU模块获得的话音输入关联的领域、意图、或者参数中的至少一个,则基于所述用户喜好信息的应用向NLU模块分配点。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20170039589 | 2017-03-28 | ||
KR10-2017-0039589 | 2017-03-28 | ||
KR1020170071017A KR102423298B1 (ko) | 2017-03-28 | 2017-06-07 | 음성 인식 서비스 운용 방법, 이를 지원하는 전자 장치 및 시스템 |
KR10-2017-0071017 | 2017-06-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108665890A true CN108665890A (zh) | 2018-10-16 |
CN108665890B CN108665890B (zh) | 2023-10-13 |
Family
ID=61911372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810264599.8A Active CN108665890B (zh) | 2017-03-28 | 2018-03-28 | 操作语音识别服务的方法、电子设备和支持该设备的系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10847152B2 (zh) |
EP (1) | EP3382696B1 (zh) |
CN (1) | CN108665890B (zh) |
WO (1) | WO2018182311A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447232A (zh) * | 2018-10-30 | 2019-03-08 | 北京猎户星空科技有限公司 | 机器人主动问询方法、装置、电子设备及存储介质 |
CN109726548A (zh) * | 2018-12-29 | 2019-05-07 | 360企业安全技术(珠海)有限公司 | 应用程序行为的处理方法、服务器、系统及存储介质 |
CN111145735A (zh) * | 2018-11-05 | 2020-05-12 | 三星电子株式会社 | 电子设备及其操作方法 |
CN111312252A (zh) * | 2020-03-11 | 2020-06-19 | 严春波 | 一种通过ai语音邀请通讯录人员的方法 |
CN111640429A (zh) * | 2019-02-14 | 2020-09-08 | 三星电子株式会社 | 提供语音识别服务的方法和用于该方法的电子装置 |
CN111660955A (zh) * | 2019-03-07 | 2020-09-15 | 本田技研工业株式会社 | 车载智能体系统、车载智能体系统的控制方法及存储介质 |
CN111696534A (zh) * | 2019-03-15 | 2020-09-22 | 阿里巴巴集团控股有限公司 | 语音交互设备和系统、设备控制方法、计算设备以及介质 |
CN112867987A (zh) * | 2018-10-18 | 2021-05-28 | 三星电子株式会社 | 电子设备和控制电子设备的方法 |
CN113434190A (zh) * | 2021-06-30 | 2021-09-24 | 青岛海尔科技有限公司 | 数据处理方法和装置、存储介质及电子设备 |
CN113678133A (zh) * | 2019-04-05 | 2021-11-19 | 三星电子株式会社 | 用于对话中断检测的具有全局和局部编码的上下文丰富的注意记忆网络的系统和方法 |
US11398222B2 (en) * | 2019-07-22 | 2022-07-26 | Lg Electronics Inc. | Artificial intelligence apparatus and method for recognizing speech of user in consideration of user's application usage log |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11048393B2 (en) * | 2018-03-09 | 2021-06-29 | Toyota Research Institute, Inc. | Personalized visual representations of an artificially intelligent agent |
US11068477B1 (en) * | 2018-06-06 | 2021-07-20 | Gbt Travel Servces Uk Limited | Natural language processing with pre-specified SQL queries |
CN110858479B (zh) * | 2018-08-08 | 2022-04-22 | Oppo广东移动通信有限公司 | 语音识别模型更新方法、装置、存储介质及电子设备 |
US11200884B1 (en) * | 2018-11-06 | 2021-12-14 | Amazon Technologies, Inc. | Voice profile updating |
US11004454B1 (en) * | 2018-11-06 | 2021-05-11 | Amazon Technologies, Inc. | Voice profile updating |
KR20200052612A (ko) * | 2018-11-07 | 2020-05-15 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
KR20200059054A (ko) * | 2018-11-20 | 2020-05-28 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
KR102281515B1 (ko) * | 2019-07-23 | 2021-07-26 | 엘지전자 주식회사 | 개인화 언어 모델을 이용하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법 |
US11475458B2 (en) * | 2019-07-31 | 2022-10-18 | Adobe Inc. | In-app lead nurturing within an electronic document |
KR20190099167A (ko) * | 2019-08-06 | 2019-08-26 | 엘지전자 주식회사 | 음성 인식을 수행하는 인공 지능 기기 |
KR20210033167A (ko) * | 2019-09-18 | 2021-03-26 | 삼성전자주식회사 | 전자장치 및 그 음성인식 제어방법 |
KR20210072362A (ko) * | 2019-12-09 | 2021-06-17 | 엘지전자 주식회사 | 인공 지능 모델에 대한 학습 데이터를 생성하는 인공 지능 장치 및 그 방법 |
CN111367488B (zh) * | 2020-01-07 | 2023-08-22 | 百度在线网络技术(北京)有限公司 | 语音设备及语音设备的交互方法、设备、存储介质 |
CN111240478B (zh) * | 2020-01-07 | 2023-10-13 | 百度在线网络技术(北京)有限公司 | 设备响应的评测方法、装置、设备及存储介质 |
US11231789B1 (en) * | 2020-02-14 | 2022-01-25 | Cg Finics Oy | Predictive typing assistance method with predictive spelling behavior |
US11748057B2 (en) | 2020-02-26 | 2023-09-05 | Samsung Electronics Co., Ltd. | System and method for personalization in intelligent multi-modal personal assistants |
CN112767916B (zh) * | 2021-02-05 | 2024-03-01 | 百度在线网络技术(北京)有限公司 | 智能语音设备的语音交互方法、装置、设备、介质及产品 |
CN113314123A (zh) * | 2021-04-12 | 2021-08-27 | 科大讯飞股份有限公司 | 语音处理方法、电子设备及存储装置 |
US20230116423A1 (en) * | 2021-10-07 | 2023-04-13 | Cisco Technology, Inc. | Secure microphone agent |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030078777A1 (en) * | 2001-08-22 | 2003-04-24 | Shyue-Chin Shiau | Speech recognition system for mobile Internet/Intranet communication |
JP2005012377A (ja) * | 2003-06-17 | 2005-01-13 | Sharp Corp | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 |
US20080103781A1 (en) * | 2006-10-28 | 2008-05-01 | General Motors Corporation | Automatically adapting user guidance in automated speech recognition |
WO2008140236A1 (en) * | 2007-05-14 | 2008-11-20 | Byung-Su Lee | System and method for operating intelligence-growing cyber secretary |
KR20100011786A (ko) * | 2008-07-25 | 2010-02-03 | 엘지전자 주식회사 | 이동 단말기 및 그의 음성 명령 인식 방법 |
EP2423915A1 (en) * | 2010-08-31 | 2012-02-29 | LG Electronics Inc. | Mobile terminal and controlling method thereof |
US20120089392A1 (en) * | 2010-10-07 | 2012-04-12 | Microsoft Corporation | Speech recognition user interface |
CN104285428A (zh) * | 2012-05-08 | 2015-01-14 | 三星电子株式会社 | 用于运行通信服务的方法和系统 |
US20150287413A1 (en) * | 2014-04-07 | 2015-10-08 | Samsung Electronics Co., Ltd. | Speech recognition using electronic device and server |
KR20150116389A (ko) * | 2014-04-07 | 2015-10-15 | 삼성전자주식회사 | 전자 장치와 서버를 활용한 음성 인식 |
CN105027197A (zh) * | 2013-03-15 | 2015-11-04 | 苹果公司 | 训练至少部分语音命令系统 |
US9443527B1 (en) * | 2013-09-27 | 2016-09-13 | Amazon Technologies, Inc. | Speech recognition capability generation and control |
US20170046794A1 (en) * | 2015-08-11 | 2017-02-16 | Accenture Global Services Limited | System for sourcing talent utilizing crowdsourcing |
CN106448678A (zh) * | 2012-05-29 | 2017-02-22 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7085716B1 (en) * | 2000-10-26 | 2006-08-01 | Nuance Communications, Inc. | Speech recognition using word-in-phrase command |
US7920682B2 (en) | 2001-08-21 | 2011-04-05 | Byrne William J | Dynamic interactive voice interface |
US8818808B2 (en) | 2005-02-23 | 2014-08-26 | At&T Intellectual Property Ii, L.P. | Unsupervised and active learning in automatic speech recognition for call classification |
EP1761015B1 (en) | 2005-09-02 | 2017-11-08 | Swisscom AG | Self-adaptive user interface for dialogue systems |
US7949536B2 (en) | 2006-08-31 | 2011-05-24 | Microsoft Corporation | Intelligent speech recognition of incomplete phrases |
US20080114603A1 (en) * | 2006-11-15 | 2008-05-15 | Adacel, Inc. | Confirmation system for command or speech recognition using activation means |
US8190627B2 (en) | 2007-06-28 | 2012-05-29 | Microsoft Corporation | Machine assisted query formulation |
US8019604B2 (en) * | 2007-12-21 | 2011-09-13 | Motorola Mobility, Inc. | Method and apparatus for uniterm discovery and voice-to-voice search on mobile device |
US8015005B2 (en) * | 2008-02-15 | 2011-09-06 | Motorola Mobility, Inc. | Method and apparatus for voice searching for stored content using uniterm discovery |
US9324240B2 (en) * | 2010-12-08 | 2016-04-26 | Age Of Learning, Inc. | Vertically integrated mobile educational system |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US9536528B2 (en) * | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
US11393461B2 (en) * | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
US20140358535A1 (en) | 2013-05-28 | 2014-12-04 | Samsung Electronics Co., Ltd. | Method of executing voice recognition of electronic device and electronic device using the same |
KR20140139982A (ko) | 2013-05-28 | 2014-12-08 | 삼성전자주식회사 | 전자 장치의 음성인식을 수행하는 방법 및 이를 사용하는 전자 장치 |
US20150154564A1 (en) * | 2013-12-02 | 2015-06-04 | Hirevue, Inc. | Weighted evaluation comparison |
JP6165619B2 (ja) * | 2013-12-13 | 2017-07-19 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
US20150174486A1 (en) * | 2013-12-23 | 2015-06-25 | Form And Pattern Llc | Method for an asynchronous multiplayer gameplay |
KR20160006586A (ko) | 2015-05-11 | 2016-01-19 | 주식회사 테라클 | 아바타 서비스 제공 시스템, 방법 및 컴퓨터 판독 가능한 기록 매체 |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
US10102201B2 (en) * | 2015-11-30 | 2018-10-16 | Soundhound, Inc. | Natural language module store |
US10104567B2 (en) * | 2016-05-31 | 2018-10-16 | At&T Intellectual Property I, L.P. | System and method for event based internet of things (IOT) device status monitoring and reporting in a mobility network |
DK179415B1 (en) * | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
-
2018
- 2018-03-28 US US15/938,549 patent/US10847152B2/en active Active
- 2018-03-28 CN CN201810264599.8A patent/CN108665890B/zh active Active
- 2018-03-28 EP EP18164637.3A patent/EP3382696B1/en active Active
- 2018-03-28 WO PCT/KR2018/003660 patent/WO2018182311A1/en active Application Filing
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030078777A1 (en) * | 2001-08-22 | 2003-04-24 | Shyue-Chin Shiau | Speech recognition system for mobile Internet/Intranet communication |
JP2005012377A (ja) * | 2003-06-17 | 2005-01-13 | Sharp Corp | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 |
US20080103781A1 (en) * | 2006-10-28 | 2008-05-01 | General Motors Corporation | Automatically adapting user guidance in automated speech recognition |
WO2008140236A1 (en) * | 2007-05-14 | 2008-11-20 | Byung-Su Lee | System and method for operating intelligence-growing cyber secretary |
KR20090001716A (ko) * | 2007-05-14 | 2009-01-09 | 이병수 | 성장 지능형 가상 비서 운영시스템 및 그 방법 |
KR20100011786A (ko) * | 2008-07-25 | 2010-02-03 | 엘지전자 주식회사 | 이동 단말기 및 그의 음성 명령 인식 방법 |
EP2423915A1 (en) * | 2010-08-31 | 2012-02-29 | LG Electronics Inc. | Mobile terminal and controlling method thereof |
US20120089392A1 (en) * | 2010-10-07 | 2012-04-12 | Microsoft Corporation | Speech recognition user interface |
CN104285428A (zh) * | 2012-05-08 | 2015-01-14 | 三星电子株式会社 | 用于运行通信服务的方法和系统 |
CN106448678A (zh) * | 2012-05-29 | 2017-02-22 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
CN105027197A (zh) * | 2013-03-15 | 2015-11-04 | 苹果公司 | 训练至少部分语音命令系统 |
US9443527B1 (en) * | 2013-09-27 | 2016-09-13 | Amazon Technologies, Inc. | Speech recognition capability generation and control |
US20150287413A1 (en) * | 2014-04-07 | 2015-10-08 | Samsung Electronics Co., Ltd. | Speech recognition using electronic device and server |
KR20150116389A (ko) * | 2014-04-07 | 2015-10-15 | 삼성전자주식회사 | 전자 장치와 서버를 활용한 음성 인식 |
US20170046794A1 (en) * | 2015-08-11 | 2017-02-16 | Accenture Global Services Limited | System for sourcing talent utilizing crowdsourcing |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112867987A (zh) * | 2018-10-18 | 2021-05-28 | 三星电子株式会社 | 电子设备和控制电子设备的方法 |
CN109447232A (zh) * | 2018-10-30 | 2019-03-08 | 北京猎户星空科技有限公司 | 机器人主动问询方法、装置、电子设备及存储介质 |
CN111145735A (zh) * | 2018-11-05 | 2020-05-12 | 三星电子株式会社 | 电子设备及其操作方法 |
CN111145735B (zh) * | 2018-11-05 | 2023-10-24 | 三星电子株式会社 | 电子设备及其操作方法 |
CN109726548A (zh) * | 2018-12-29 | 2019-05-07 | 360企业安全技术(珠海)有限公司 | 应用程序行为的处理方法、服务器、系统及存储介质 |
CN111640429B (zh) * | 2019-02-14 | 2024-05-03 | 三星电子株式会社 | 提供语音识别服务的方法和用于该方法的电子装置 |
CN111640429A (zh) * | 2019-02-14 | 2020-09-08 | 三星电子株式会社 | 提供语音识别服务的方法和用于该方法的电子装置 |
CN111660955A (zh) * | 2019-03-07 | 2020-09-15 | 本田技研工业株式会社 | 车载智能体系统、车载智能体系统的控制方法及存储介质 |
CN111696534A (zh) * | 2019-03-15 | 2020-09-22 | 阿里巴巴集团控股有限公司 | 语音交互设备和系统、设备控制方法、计算设备以及介质 |
CN113678133A (zh) * | 2019-04-05 | 2021-11-19 | 三星电子株式会社 | 用于对话中断检测的具有全局和局部编码的上下文丰富的注意记忆网络的系统和方法 |
US11398222B2 (en) * | 2019-07-22 | 2022-07-26 | Lg Electronics Inc. | Artificial intelligence apparatus and method for recognizing speech of user in consideration of user's application usage log |
CN111312252A (zh) * | 2020-03-11 | 2020-06-19 | 严春波 | 一种通过ai语音邀请通讯录人员的方法 |
CN113434190B (zh) * | 2021-06-30 | 2023-06-16 | 青岛海尔科技有限公司 | 数据处理方法和装置、存储介质及电子设备 |
CN113434190A (zh) * | 2021-06-30 | 2021-09-24 | 青岛海尔科技有限公司 | 数据处理方法和装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US10847152B2 (en) | 2020-11-24 |
CN108665890B (zh) | 2023-10-13 |
EP3382696B1 (en) | 2022-09-14 |
US20180286401A1 (en) | 2018-10-04 |
EP3382696A1 (en) | 2018-10-03 |
WO2018182311A1 (en) | 2018-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108665890A (zh) | 操作语音识别服务的方法、电子设备和支持该设备的系统 | |
US11145302B2 (en) | System for processing user utterance and controlling method thereof | |
US10909982B2 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
CN108121490A (zh) | 用于处理多模式输入的电子装置、方法和服务器 | |
CN108292317B (zh) | 问题和答案处理方法以及支持该方法的电子设备 | |
KR102423298B1 (ko) | 음성 인식 서비스 운용 방법, 이를 지원하는 전자 장치 및 시스템 | |
US20190394057A1 (en) | Device and method for adaptively providing meeting | |
CN108829235A (zh) | 语音数据处理方法和支持该方法的电子设备 | |
CN109243432A (zh) | 话音处理方法以及支持该话音处理方法的电子设备 | |
CN110199350A (zh) | 用于感测语音结束的方法和实现该方法的电子设备 | |
KR102389996B1 (ko) | 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법 | |
CN104813311A (zh) | 用于多人的虚拟代理推荐的系统和方法 | |
CN109272994A (zh) | 话音数据处理方法以及支持该话音数据处理方法的电子装置 | |
CN110476150A (zh) | 用于操作语音辨识服务的方法和支持其的电子装置 | |
CN108694944A (zh) | 通过使用框架生成自然语言表达的方法和设备 | |
CN108475536A (zh) | 用于提供活动指导信息的方法和支持所述方法的电子装置 | |
US10996922B2 (en) | Electronic apparatus for processing user utterance | |
CN105631699A (zh) | 电子装置及其商品信息提供方法 | |
KR102303534B1 (ko) | 사용자 맞춤형 상품 정보 제공 장치 | |
KR20190127372A (ko) | 전자 장치 및 전자 장치의 기능 실행 방법 | |
KR20230169016A (ko) | 전자 장치 및 그의 제어방법 | |
KR102351885B1 (ko) | 비즈니스 정보를 제공하는 방법 및 그 시스템 | |
KR102349491B1 (ko) | 비즈니스 관리 시스템의 서버 및 그 제어 방법 | |
CN109427332A (zh) | 使用语音命令执行操作的电子设备及其操作方法 | |
CN109309754B (zh) | 用于获取和键入缺少参数的电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |