CN112970059B - 用于处理用户话语的电子装置及其控制方法 - Google Patents
用于处理用户话语的电子装置及其控制方法 Download PDFInfo
- Publication number
- CN112970059B CN112970059B CN201980072576.XA CN201980072576A CN112970059B CN 112970059 B CN112970059 B CN 112970059B CN 201980072576 A CN201980072576 A CN 201980072576A CN 112970059 B CN112970059 B CN 112970059B
- Authority
- CN
- China
- Prior art keywords
- nlu
- user
- processor
- information
- electronic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 47
- 238000012545 processing Methods 0.000 title claims description 33
- 238000004891 communication Methods 0.000 claims abstract description 67
- 238000003058 natural language processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 43
- 230000009471 action Effects 0.000 description 54
- 239000002775 capsule Substances 0.000 description 39
- 230000008569 process Effects 0.000 description 28
- 230000004044 response Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 102100035081 Homeobox protein TGIF1 Human genes 0.000 description 1
- 101000596925 Homo sapiens Homeobox protein TGIF1 Proteins 0.000 description 1
- 101001033233 Homo sapiens Interleukin-10 Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 239000006071 cream Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003155 kinesthetic effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000008256 whipped cream Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种系统,所述系统包括:至少一个通信接口、可操作地连接到至少一个通信接口的至少一个处理器以及可操作地连接到至少一个处理器并存储多个自然语言理解(NLU)模型的至少一个存储器。所述至少一个存储器存储有指令,所述指令在被执行时使所述处理器:使用所述至少一个通信接口从与用户账户相关联的外部电子装置接收与用户相关联的第一信息;基于所述第一信息的至少一部分,选择所述多个NLU模型中的至少一个;以及使用所述至少一个通信接口将所选择的至少一个NLU模型发送给所述外部电子装置,使得所述外部电子装置使用所选择的至少一个NLU模型进行自然语言处理。
Description
技术领域
本公开涉及一种用于处理用户话语的技术。
背景技术
除了使用键盘或鼠标的常规输入方案之外,电子装置最近还支持各种输入方案,例如语音输入等。例如,诸如智能手机或平板电脑之类的电子装置可以在执行语音识别服务的状态下识别用户输入的语音,并且可以执行与语音输入相对应的动作,或者可以提供依据语音输入而找到的结果。
如今,基于处理自然语言的技术正在开发语音识别服务。处理自然语言的技术是指掌握用户话语意图并向用户提供适合该意图的结果的技术。
以上信息仅作为背景信息呈现,以帮助理解本公开。关于以上内容中的任何内容是否可以用作关于本公开的现有技术,尚未作出任何确定,也未作出任何断言。
发明内容
技术问题
由于硬件限制,用户终端只能处理有限数量的语音输入。用户终端可以将有限数量的语音输入之外的另一语音输入发送给外部服务器,可以接收响应,并且可以处理接收到的语音输入。可以将有限数量的语音输入配置为由用户终端处理,因为期望用户频繁输入语音。这样,用户终端可以提高整体语音输入处理速度。然而,因为针对每个用户频繁输入的语音是不同的,并且尽管是同一用户但随着时间的推移频繁输入的语音输入改变了,所以依据用户,总体语音输入处理速度可能不会增加。
根据本公开的各种实施例的用户终端可以使用用户信息为用户提供个性化语音输入处理系统。
本公开的各方面将至少解决上述问题和/或缺点,并至少提供下述优点。
根据本公开的一方面,一种系统可以包括:至少一个通信接口;可操作地连接到至少一个通信接口的至少一个处理器;以及可操作地连接到至少一个处理器并存储有多个自然语言理解(NLU)模型的至少一个存储器。所述至少一个存储器可以存储有指令,所述指令在被执行时使所述处理器:使用所述至少一个通信接口从与用户账户相关联的外部电子装置接收与用户相关联的第一信息;基于所述第一信息的至少一部分,选择所述多个NLU模型中的至少一个;以及使用所述至少一个通信接口将所选择的至少一个NLU模型发送给所述外部电子装置,使得外部电子装置使用所选择的至少一个NLU模型进行自然语言处理。
根据本公开的另一方面,一种用于更新NLU模型的系统的控制方法可以包括:从与用户账户相关联的外部电子装置接收与用户相关联的第一信息;基于第一信息的至少一部分,选择多个NLU模型中的至少一个;以及使用至少一个通信接口将所选择的至少一个NLU模型发送给外部电子装置,使得外部电子装置使用所选择的至少一个NLU模型进行自然语言处理。
通过以下结合附图公开了本公开的各种实施例的详细描述,本公开的其他方面,优点和显着特征对于本领域技术人员将变得显而易见。
在采用下面的最佳模式之前,阐述本专利文件中使用的某些词语和短语的定义可能是有利的:术语“包括”和“包含”及其派生词是指包括但不限于;术语“或”是包括的,意味着和/或;短语“关联”和“与之相关联的”,以及其衍生物,可意指包括、被包括在……中、与……互连、包含、被包含在……中、连接到或与……相连、耦接到或与……耦接、与……可通信、与……合作、交织、并列、接近、绑定到或与......绑定、具有、具有……的性质或诸如此类等;术语“控制器”是指控制至少一个操作的任何装置、系统或其部分,这样的装置可以用硬件、固件或软件或者至少两个硬件、固件或软件的某种组合来实现。应当注意,无论是本地的还是远程的,与任何特定控制器相关联的功能可以是集中的或分布式的。
此外,下面描述的各种功能可以由一个或更多个计算机程序实现或支持,每个计算机程序由计算机可读程序代码形成并体现在计算机可读介质中。术语“应用”和“程序”是指一个或更多个计算机程序、软件组件、指令集、过程、功能、对象、类、实例、相关数据或其适于在适当的计算机可读程序代码中实现的部分。短语“计算机可读程序代码”包括任何类型的计算机代码,包括源代码、目标代码和可执行代码。短语“计算机可读介质”包括能够被计算机访问的任何类型的介质,例如只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字视频光盘(DVD)或任何其他类型的存储器。“非暂时性”计算机可读介质不包括传输暂时性电信号或其他信号的有线、无线、光或其他通信链路。非暂时性计算机可读介质包括可永久存储数据的介质和可存储数据并随后重写的介质,例如可重写光盘或可擦除存储器装置。
在整个专利文件中提供了某些单词和短语的定义。本领域普通技术人员应当理解,在很多情况下,即使不是大多数情况下,这样的定义也适用于如此定义的单词和短语的先前以及将来的使用。
附图说明
通过以下结合附图的描述,本公开的某些实施例的上述和其他方面、特征和优点将变得更加明显,其中:
图1是示出根据实施例的集成智能系统的框图;
图2是示出根据实施例的概念和动作之间的关系信息被存储在数据库中的形式的图;
图3是示出根据实施例的显示通过智能应用处理接收到的语音输入的屏幕的用户终端的视图;
图4a示出了根据实施例的包括多个自然语言平台的智能系统;
图4b示出了根据实施例的包括多个自然语言平台的智能系统的另一示例;
图5是示出根据实施例的改变(或更新)用户终端的意图识别模型的方法的流程图;
图6a是示出根据实施例的用于依据用户终端中安装的应用来设置由用户终端识别出的意图的屏幕的视图;
图6b是示出根据实施例的用于依据用于执行用户终端的应用的功能的意图来设置由用户终端处理后的意图的屏幕的视图;
图7是示出根据实施例的用于向用户提供关于能够由用户终端识别的意图的信息的屏幕的视图;以及
图8示出了根据各种实施例的在网络环境中的电子装置的框图。
具体实施方式
下面讨论的图1至图8以及用于描述本专利文件中的本公开的原理的各种实施例仅是示例性的,并且不应以任何方式解释为限制本公开的范围。本领域技术人员将理解,本公开的原理可以在任何适当布置的系统或装置中实现。
在下文中,将参照附图描述本公开的各种实施例。然而,本领域普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可以对本文所述的各种实施例进行各种修改、等同形式和/或替换。
图1是示出根据实施例的集成智能系统的框图。
参照图1,根据实施例的集成智能系统10可以包括用户终端100、智能服务器200和服务服务器300。
根据实施例的用户终端100可以是能够连接到互联网的终端装置(或电子装置),并且可以是例如移动电话、智能电话、个人数字助理(PDA)、笔记本电脑、电视、白色家用电器、可穿戴装置、头戴式显示器(HMD)或智能扬声器。
根据实施例,用户终端100可以包括通信接口110、麦克风120、扬声器130、显示器140、存储器150和处理器160。列出的组件可以可操作地或彼此电连接。
根据实施例,通信接口110可以被配置为向外部装置发送数据或从外部装置接收数据。根据实施例,麦克风120可以接收声音(例如,用户话语)以将声音转换为电信号。根据实施例,扬声器130可以将电信号输出为声音(例如,语音)。根据实施例,显示器140可以被配置为显示图像或视频。根据实施例,显示器140可以显示正在运行的应用(或应用程序)的图形用户界面(GUI)。
根据实施例,存储器150可以存储客户端模块151、软件开发工具包(SDK)153和多个应用155。客户端模块151和SDK 153可以构成用于执行通用目的功能的框架(或解决方案程序)。此外,客户端模块151或SDK 153可以构成用于处理语音输入的框架。
根据实施例,存储器150中的多个应用155可以是用于执行指定功能的程序。根据实施例,多个应用155可以包括第一应用155_1和第二应用155_3。根据实施例,多个应用155中的每一个可以包括用于执行指定功能的多个动作。例如,多个应用155可以包括警报应用、消息应用或调度应用中的至少一个。根据实施例,多个应用155可以由处理器160执行以顺序地执行多个动作的至少一部分。
根据实施例,处理器160可以控制用户终端100的整体操作。例如,处理器160可以电连接到通信接口110、麦克风120、扬声器130、显示器140和存储器150以执行指定的操作。
根据实施例,处理器160还可以执行存储在存储器150中的程序以执行指定的功能。例如,处理器160可以执行客户端模块151或SDK 153中的至少一个,以执行处理语音输入的以下动作。处理器160可以经由SDK 153控制多个应用155的动作。被描述为客户端模块151或SDK 153的动作的以下动作可以是处理器160执行的动作。
根据实施例,客户端模块151可以接收语音输入。例如,客户端模块151可以接收与经由麦克风120检测到的用户话语相对应的语音信号。客户端模块151可以将接收到的语音输入发送给智能服务器200。根据实施例,客户端模块151可以将用户终端100的状态信息与接收到的语音输入一起发送给智能服务器200。例如,状态信息可以是应用的执行状态信息。
根据实施例,客户端模块151可以接收与接收到的语音输入相对应的结果。例如,客户端模块151可以从智能服务器200接收与接收到的语音输入相对应的结果。客户端模块151可以在显示器140中显示接收到的结果。
根据实施例,客户端模块151可以接收与接收到的语音输入相对应的计划。客户端模块151可以依据计划在显示器140中显示执行应用的多个动作的结果。例如,客户端模块151可以在显示器中顺序地显示多个动作的执行结果。对于另一示例,用户终端100可以在显示器上仅显示执行多个动作的结果的一部分(例如,最后动作的结果)。
根据实施例,客户端模块151可以从智能服务器200接收用于获取计算与语音输入相对应的结果所需的信息的请求。例如,计算结果所需的信息可以是用户终端100的状态信息。根据实施例,客户端模块151可以响应于该请求将必要的信息发送给智能服务器200。
根据实施例,客户端模块151可以将关于依据计划执行多个动作的结果的信息发送给智能服务器200。智能服务器200可以通过结果信息来确定接收到的语音输入被正确处理。
根据实施例,客户端模块151可以包括语音识别模块。根据实施例,客户端模块151可以经由语音识别模块来识别语音输入以执行受限功能。例如,客户端模块151可以经由指定的输入(例如,唤醒!)启动智能应用,该智能应用处理用于执行有机动作的语音输入。
根据实施例,智能服务器200可以通过通信网络从用户终端100接收与用户的语音输入相关联的信息。根据实施例,智能服务器200可以将与接收到的语音输入相关联的数据改变为文本数据。根据实施例,智能服务器200可以基于文本数据生成用于执行与用户语音输入相对应的任务的计划。
根据实施例,该计划可以由人工智能(AI)系统生成。AI系统可以是基于规则的系统,或者可以是基于神经网络的系统(例如,前馈神经网络(FNN)或递归神经网络(RNN))。或者,AI系统可以是上述系统的组合或不同于上述系统的AI系统。根据实施例,该计划可以从一组预定义的计划中选择或者可以响应于用户请求而实时地生成。例如,AI系统可以在多个预定义计划中选择至少一个计划。
根据实施例,智能服务器200可以将依据生成的计划计算的结果发送给用户终端100,或者可以将生成的计划发送给用户终端100。根据实施例,用户终端100可以在显示器上显示依据计划计算出的结果。根据实施例,用户终端100可以在显示器上显示根据计划执行动作的结果。
根据实施例的智能服务器200可以包括前端210、自然语言平台220、胶囊DB 230、执行引擎240、终端用户界面250、管理平台260、大数据平台270和分析平台280。
根据实施例,前端210可以接收从用户终端100接收到的语音输入。前端210可以发送与语音输入相对应的响应。
根据实施例,自然语言平台220可以包括自动语音识别(ASR)模块221、自然语言理解(NLU)模块223、计划器模块225、自然语言生成器(NLG)模块227和文本到语音模块(TTS)模块229。
根据实施例,ASR模块221可以将从用户终端100接收到的语音输入转换为文本数据。根据实施例,NLU模块223可以使用语音输入的文本数据来掌握用户的意图。例如,NLU模块223可以通过执行句法分析或语义分析来掌握用户的意图。根据实施例,NLU模块223可以通过使用诸如语素或短语之类的语言特征(例如,句法元素)来掌握从语音输入中提取的词的含义,并且可以通过将所掌握的词的含义与意图相匹配来确定用户的意图。
根据实施例,计划器模块225可以通过使用由NLU模块223确定的意图和参数来生成计划。根据实施例,计划器模块225可以基于所确定的意图确定执行任务所需的多个域。计划器模块225可以确定包括在基于意图而确定的多个域中的每一个的多个动作。根据实施例,计划器模块225可以确定执行所确定的多个动作所需的参数或通过执行所确定的多个动作而输出的结果值。参数和结果值可以定义为与指定形式(或类)相关联的概念。因此,该计划可以包括由用户的意图确定的多个动作和多个概念。计划器模块225可以逐步地(或分层地)确定多个动作和多个概念之间的关系。例如,计划器模块225可以基于多个概念确定基于用户意图而确定的多个动作的执行顺序。换句话说,计划器模块225可以基于执行多个动作所需的参数和通过执行多个动作而输出的结果来确定多个动作的执行顺序。因此,计划器模块225可以生成包括多个动作和多个概念之间的关系的信息(例如,本体)的计划。计划器模块225可以使用存储在存储概念和动作之间的一组关系的胶囊DB 230中的信息来生成计划。
根据实施例,NLG模块227可以将指定的信息改变为文本形式的信息。改变为文本形式的信息可以是自然语言话语的一种形式。根据实施例的TTS模块229可以将文本形式的信息改变为语音形式的信息。
根据实施例,胶囊DB 230可以存储关于动作和与多个域相对应的多个概念之间的关系的信息。例如,胶囊DB 230可以存储包括计划的多个动作对象(或动作信息)和概念对象(或概念信息)的多个胶囊。根据实施例,胶囊DB 230可以以概念动作网络(CAN)的形式存储多个胶囊。根据实施例,多个胶囊可以存储在胶囊DB 230中包括的功能注册表中。
根据实施例,胶囊DB 230可以包括策略注册表,该策略注册表存储确定与语音输入相对应的计划所需的策略信息。策略信息可以包括参照信息,该参照信息用于当存在与语音输入相对应的多个计划时确定单个计划。根据实施例,胶囊DB 230可以包括追踪注册表,该追踪注册表存储用于在指定的上下文中向用户建议追踪动作的追踪动作的信息。例如,追踪动作可以包括追踪话语。根据实施例,胶囊DB 230可以包括布局注册表,该布局注册表用于存储经由用户终端100输出的信息的布局信息。根据实施例,胶囊DB230可以包括词汇注册表,该词汇注册表存储包括在胶囊信息中的词汇信息。根据实施例,胶囊DB 230可以包括对话注册表,该对话注册表存储关于与用户的对话(或交互)的信息。
根据实施例,胶囊DB 230可以经由开发者工具来更新所存储的对象。例如,开发者工具可以包括用于更新动作对象或概念对象的功能编辑器。开发者工具可以包括用于更新词汇表的词汇表编辑器。开发者工具可以包括策略编辑器,该策略编辑器生成并注册用于确定计划的策略。开发者工具可以包括对话框编辑器,该对话框编辑器创建与用户的对话框。开发者工具可以包括能够激活追踪目标并编辑追踪话语以提供提示的追踪编辑器。可以基于当前设置的目标、用户的偏好或环境条件来确定跟踪目标。
根据实施例,胶囊DB 230可以在用户终端100中实现。换句话说,用户终端100可以包括胶囊DB 230,该胶囊DB 230存储用于确定与语音输入相对应的动作的信息。
根据实施例,执行引擎240可以使用所生成的计划来计算结果。根据实施例,终端用户界面250可以将计算出的结果发送给用户终端100。因此,用户终端100可以接收结果并且可以向用户提供接收到的结果。根据实施例,管理平台260可以管理智能服务器200使用的信息。根据实施例,大数据平台270可以收集用户的数据。根据实施例,分析平台280可以管理智能服务器200的服务质量(QoS)。例如,分析平台280可以管理智能服务器200的组件和处理速度(或效率)。
根据实施例,服务服务器300可以向用户终端100提供指定的服务(例如,食物订单或旅馆预订)。根据实施例,服务服务器300可以是由第三方操作的服务器。例如,服务服务器300可以包括由不同的第三方操作的第一服务服务器301、第二服务服务器302和第三服务服务器305。根据实施例,服务服务器300可以向智能服务器200提供用于生成与接收到的语音输入相对应的计划的信息。例如,所提供的信息可以被存储在胶囊DB 230中。此外,服务服务器300可以根据计划向智能服务器200提供结果信息。
在上述集成智能系统10中,用户终端100可以响应于用户输入向用户提供各种智能服务。用户输入可以包括例如通过物理按钮的输入、触摸输入或语音输入。
根据实施例,用户终端100可以经由存储在其中的智能应用(或语音识别应用)来提供语音识别服务。在这种情况下,例如,用户终端100可以识别经由麦克风接收的用户话语或语音输入,并且可以向用户提供与所识别的语音输入相对应的服务。
根据实施例,用户终端100可以排他地或与智能服务器和/或服务服务器一起基于接收到的语音输入来执行指定的动作。例如,用户终端100可以执行与接收到的语音输入相对应的应用,并且可以经由执行的应用来执行指定的动作。
根据实施例,当用户终端100与智能服务器200和/或服务服务器一起提供服务时,用户终端可以使用麦克风120检测用户话语,并且可以生成与检测到的用户话语相对应的信号(或语音数据)。用户终端可以使用通信接口110将语音数据发送给智能服务器200。
根据实施例,智能服务器200可以生成用于执行与语音输入相对应的任务的计划或依据计划执行动作的结果,作为对从用户终端100接收的语音输入的响应。例如,该计划可以包括用于执行与用户的语音输入相对应的任务的多个动作以及与该多个动作相关联的多个概念。该概念可以定义要为执行多个动作而输入的参数或通过执行多个动作而输出的结果值。该计划可以包括多个动作和多个概念之间的关系信息。
根据实施例,用户终端100可以使用通信接口110来接收响应。用户终端100可以使用扬声器130将在用户终端100中生成的语音信号输出到外部,或者可以使用显示器140将用户终端100中生成的图像输出到外部。
图2是示出根据各种实施例的概念和动作之间的关系信息被存储在数据库中的形式的图。
智能服务器200的胶囊数据库(例如,胶囊DB 230)可以以概念动作网络(CAN)400的形式存储多个胶囊。胶囊数据库可以以CAN形式存储用于处理与语音输入相对应的任务的动作和该动作所需的参数。CAN可以指示动作与概念之间的有机关系,该概念定义了执行动作所必需的参数。
胶囊数据库可以存储分别对应于多个域(例如,应用)的多个胶囊(例如,胶囊A401和胶囊B 404)。根据实施例,单个胶囊(例如,胶囊A401)可以对应于一个域(例如,应用)。此外,单个胶囊可以对应于用于执行与胶囊相关联的域的功能的至少一个服务提供商(例如,CP 1 402、CP 2 403、CP 3 406或CP 4 405)。根据实施例,单个胶囊可以包括用于执行指定功能的至少一个或多个动作410和至少一个或多个概念420。
根据实施例,自然语言平台220可以使用存储在胶囊数据库中的胶囊来生成用于执行与接收到的语音输入相对应的任务的计划。例如,自然语言平台的计划器模块225可以使用存储在胶囊数据库中的胶囊来生成计划。例如,可以使用胶囊A401的动作4011和4013、概念4012和4014以及胶囊B 404的动作4041和概念4042来生成计划407。
图3是示出根据各种实施例的用户终端通过智能应用处理接收到的语音输入的屏幕的视图。
用户终端100可以通过智能服务器200执行智能应用以处理用户输入。
根据实施例,在屏幕310中,当识别指定的语音输入(例如,唤醒!)或接收经由硬件键(例如,专用硬件键)的输入时,用户终端100可以启动用于处理语音输入的智能应用。例如,用户终端100可以在正在执行调度应用的状态下启动智能应用。根据实施例,用户终端100可以在显示器140中显示与智能应用相对应的对象(例如,图标)311。根据实施例,用户终端100可以接收由用户话语输入的语音。例如,用户终端100可以接收语音输入,该语音输入是“让我知道本周的行程!”。根据实施例,用户终端100可以在显示器中显示智能应用的用户界面(UI)313(例如,输入窗口),其中显示接收到的语音输入的文本数据。
根据实施例,在屏幕320中,用户终端100可以在显示器中显示与接收到的语音输入相对应的结果。例如,用户终端100可以接收与接收到的用户输入相对应的计划,并且可以依据该计划在显示器中显示“本周的行程”。
图4a示出了根据实施例的包括多个自然语言平台的智能系统。
参照图4a,集成智能系统10可以包括用户终端100和智能服务器200。
根据实施例,用户终端100可以包括自然语言平台170,并且智能服务器200可以包括自然语言平台220。换句话说,除了智能服务器200之外,用户终端100还可以包括用于处理接收到的语音输入的第二自然语言平台170。例如,用户终端100可以包括装置上自然语言理解模块173。根据实施例,智能服务器200的自然语言平台220和用户终端100的自然语言平台170可以互补地处理接收到的语音输入。例如,用户终端100的第二自然语言平台170可以处理能够由智能服务器200的第一自然语言平台220处理的语音输入的一部分。换句话说,与智能服务器200的第一自然语言平台220相比,用户终端100的第二自然语言平台170可以处理有限的语音输入。
根据实施例,智能服务器200可以处理从用户终端100接收到的语音输入。此外,智能服务器200可以改变(或升级)由用户终端100的第二自然语言平台170处理的语音输入。
根据实施例,智能服务器200可以包括前端210、第一自然语言平台220和NLU管理模块290。可以示出智能服务器200,而省略图1的智能服务器200的一部分组件。换句话说,智能服务器200还可以包括智能服务器200的其余组件。
根据实施例,智能服务器200可以包括通信接口、存储器和处理器。处理器可以通过通信接口向外部电子装置(例如,用户终端100)发送或从外部电子装置(例如,用户终端100)接收数据(或信息)。处理器可以执行存储在存储器中的指令以执行前端210、第一自然语言平台220和NLU管理模块290的动作。
根据实施例,前端210连接到用户终端100以接收与用户相关联的信息。例如,与用户相关联的信息可以包括用户的语音输入、用户终端100的信息或用户的偏好信息中的至少一个。
根据实施例,第一自然语言平台220可以处理用户的语音输入。第一自然语言平台220可以不限于特定的语音输入,并且可以处理各种语音输入。根据实施例,第一自然语言平台220可以包括第一ASR模块221、第一NLU模块223、第一计划器模块225和第一TTS模块229。
根据实施例,第一ASR模块221可以生成与接收到的语音输入相对应的文本数据。第一NLU模块223可以使用文本数据来确定用户的意图和参数。第一计划器模块225可以生成与接收到的语音输入相对应的计划。可以基于所确定的意图和所确定的参数来确定计划。根据实施例,智能服务器200可以使用所生成的计划来计算结果,并且可以将计算结果发送给用户终端100。此外,智能服务器200可以直接将所生成的计划发送给用户终端100。用户终端100可以基于该计划顺序地执行指定的动作。
根据实施例,第一TTS模块229可以生成用于与用户交互的语音信号。根据实施例,第一TTS模块229可以将文本数据转换为语音信号。根据实施例,用户终端100可以从智能服务器200接收语音信号以输出指南信息。
根据实施例,NLU管理模块290可以管理用户终端100的第二NLU模块173。例如,NLU管理模块290可以管理至少一个电子装置的NLU模块(例如,第二NLU模块173)。
根据实施例,NLU管理模块290可以基于与用户相关联的信息的至少一部分来选择NLU模型中的至少一个,并且可以将所选择的至少一个NLU模型发送给用户终端100。
根据实施例,NLU管理模块290可以包括NLU管理模块291、NLU建模模块292、模型训练系统293、NLU模型数据库(DB)294、用户数据管理器模块295和用户历史DB 296。
根据实施例,NLU管理模块291可以确定是否改变(或更新)用户终端100的第二NLU模块173使用的NLU模型。NLU管理模块291可以从用户数据管理器模块295接收至少一个语音输入,并且可以基于接收到的语音输入来确定是否改变NLU模型。
根据实施例,NLU管理模块291可以包括模型生成管理器291a和更新管理器291b。根据实施例,当模型生成管理器291a确定改变用户终端100的NLU模型时,模型生成管理器291a可以向NLU建模模块292发送NLU模型生成请求。根据实施例,更新管理器291b可以将所生成的NLU模型发送给用户终端100。
根据实施例,当接收到NLU生成请求时,NLU建模模块292可以通过模型训练系统293生成用于识别指定意图的NLU模型。根据实施例,模型训练系统293可以重复地执行用于识别指定意图的模型的训练。因此,模型训练系统293可以生成用于准确识别指定意图的NLU模型。根据实施例,所生成的NLU模型可以包括用于识别多个意图的意图集。换句话说,所生成的NLU模型可以对应于指定数量的意图。根据实施例,可以将所生成的NLU模型存储在NLU模型DB 294中。根据实施例,NLU管理模块291的更新管理器291b可以将存储在NLU模型DB 294中的NLU模型发送给用户终端100。
根据实施例,用户数据管理器模块295可以在用户历史DB 296中存储从用户终端100接收到的与用户相关联的信息。例如,与用户相关联的信息可以包括用户的语音输入、用户终端100的信息或用户的偏好信息中的至少一个。例如,用户终端100可以是使用用户账户登录的装置。因此,用户终端100的信息可以包括登录用户的信息(例如,识别信息或设置信息)。根据实施例,用户数据管理器模块295可以在用户历史DB 296中存储用户终端100的信息。根据实施例,用户数据管理器模块295可以在用户历史DB 296中存储接收到的语音输入的处理后的信息。例如,用户数据管理器模块295可以在用户历史DB 296中存储与所识别的语音输入的意图相关联的信息。例如,与意图相关联的信息可以包括用户日志信息。根据实施例,用户数据管理器模块295可以存储偏好信息。例如,偏好信息可以包括用户选择的应用或关于意图的信息。
根据实施例,用户数据管理器模块295可以分析与存储在用户历史DB 296中的用户相关联的信息。例如,用户数据管理器模块295可以通过分析用户日志来识别用户终端100处理的意图。例如,如表1所示,用户日志可以包括计划的标识信息、关于应用名称的信息、关于用户话语的信息等。用户数据管理器模块295可以使用日志信息中包含的计划的标识信息来确定所识别的意图。
表1
根据实施例,用户数据管理器模块295可以从用户历史DB 296中提取关于与指定条件相对应的意图的信息。例如,用户数据管理器模块295可以提取关于至少一个意图的信息(例如,前20个意图),该意图在指定时段(例如,一周)期间以高频率被识别。对于另一示例,用户数据管理器模块295可以提取关于在特定位置(或地点)使用的意图的信息。对于另一示例,用户数据管理器模块295可以提取关于包括在与特定应用(或应用程序)相对应的域中的意图的信息。对于另一示例,用户数据管理器模块295可以提取关于用于执行与连接网络相关联的功能的意图的信息(例如,无线保真(Wi-Fi))。根据实施例,用户数据管理器模块295可以提取指定数量的意图。例如,指定数量可以由用户选择。根据实施例,用户数据管理器模块295可以生成包括所提取的意图的意图集。
根据实施例,智能服务器200可以使用人工智能(AI)来训练用于提取意图的标准。换句话说,可以通过机器学习来更新用于在用户终端100中提取意图的标准。
根据实施例,用户数据管理器模块295可以将关于所提取的意图的信息发送给NLU管理模块291。例如,所提取的信息可以包括与所提取的意图相对应的至少一个语音输入。根据实施例,NLU管理模块291可以使用接收到的语音输入来生成用于识别指定意图的NLU模型,并且可以将所生成的NLU模型提供给用户终端100。因此,智能服务器200可以向用户终端100提供个性化自然语言识别模型。
根据实施例,用户终端100可以包括第二自然语言平台170。根据实施例,第二自然语言平台170可以包括第二ASR模块171、第二NLU模块173、第二计划器模块175和第二TTS模块177。例如,第二ASR模块171、第二NLU模块173、第二计划器模块175和第二TTS模块177可以是用于执行指定功能的嵌入式模块。根据实施例,用户终端100可以类似于图1的用户终端100。例如,用户终端100还可以包括图1的用户终端100的配置以及图4a所示的配置。
根据实施例,用户终端100可以接收语音输入。根据实施例,用户终端100可以通过第二ASR模块171、第二NLU模块173和第二计划器模块175处理接收到的语音输入。例如,与智能服务器200的第一ASR模块221、第一NLU模块223和第一计划器模块225类似,用户终端100的第二ASR模块171、第二NLU模块173和第二计划器模块175可以处理语音输入。根据实施例,第二NLU模块173可以确定接收到的语音输入的意图。第二NLU模块173可以使用NLU模型来确定与语音输入相对应的意图。
根据实施例,用户终端100可以通过第二ASR模块171、第二NLU模块173和第二计划器模块175仅处理与有限数量的意图相对应的语音输入。例如,能够被用户终端100识别的意图可以是能够被智能服务器200识别的意图的一部分。
根据实施例,当用户终端100直接处理接收到的语音输入时,与通过智能服务器200处理语音输入的情况相比,用户终端100可以快速处理接收到的语音输入。然而,由于硬件性能的限制,用户终端100可以仅处理指定数量的语音输入。根据实施例,用户终端100可以与智能服务器200一起对接收到的语音输入进行补充处理。例如,用户终端100可以以所识别的频率直接处理与意图相对应的语音输入;对于另一示例,用户终端100可以直接处理与意图相对应的语音输入,该意图与用户选择的意图相对应。根据实施例,用户终端100可以通过智能服务器200处理与剩余意图相对应的语音输入。
根据实施例,可以通过智能服务器200改变(或更新)能够被用户终端100识别的意图。根据实施例,可以基于用户的使用历史来确定能够被用户终端100识别的意图。换句话说,可以基于用户的使用历史来确定改变的意图。根据实施例,用户终端100可以从智能服务器200接收与所确定的意图相对应的NLU模型。根据实施例,用户终端100可以将接收到的NLU模型存储在数据库中。例如,用户终端100可以在数据库中存储与所确定的意图相对应的NLU模型,而不是先前存储的NLU模型。
根据实施例,用户终端100可以生成用于通过第二TTS模块177与用户交互的语音信号。与智能服务器200的第一TTS模块229类似,用户终端100的第二TTS模块177可以生成语音信号。
因此,集成智能系统10可以通过使用用户数据改变(或更新)用户终端100能够识别的意图,向用户提供个性化语音输入处理服务。用户终端100可以快速提供与用户经常使用或选择的语音输入相对应的响应。
图4b示出了根据实施例的包括多个自然语言平台的智能系统的另一示例。图4b中所示的用户终端100的配置是一种可能的配置,并且除了图4b中所示的配置之外,用户终端100还可以包括图1、图4a或图8中所示的组件中的至少一个。
参照图4b,集成智能系统20还可以包括在用户终端100和智能服务器200之间的边缘服务器1400。根据实施例,边缘服务器1400可以包括移动边缘计算(MEC)服务器或雾计算服务器中的至少一个。边缘服务器1400可以位于地理上比智能服务器200更接近用户终端100的位置。例如,边缘服务器1400可以位于向用户终端100提供无线通信的基站内部或周围。当用户终端100需要低延迟时,用户终端100可以向位于地理上接近的位置的边缘服务器1400发送或从其接收数据,而不是向智能服务器200发送或从智能服务器200接收数据。
根据实施例,边缘服务器1400可以包括第三自然语言平台1470,该第三自然语言平台1470包括装置上自然语言平台(例如,图4a的第二自然语言平台170)的功能。第三自然语言平台1470可以执行与第二自然语言平台170的功能相同或类似的功能。第三自然语言平台1470可以包括第三ASR模块1471、第三NLU模块1473、第三计划器模块1475和第三TTS模块1477。边缘服务器1400可以通过替换第二自然语言平台170的功能来补偿用户终端100的硬件性能的限制,同时以低延迟提供数据。尽管在图4b中未示出,边缘服务器1400还可以包括执行配置为向用户终端100或智能服务器200发送数据的前端(例如,图4b的201)的功能的模块。
例如,当用户终端100通过麦克风120接收到用户话语时,用户终端100可以生成与接收到的用户话语相对应的语音信号。用户终端100可以通过经由通信接口110将语音输入发送给边缘服务器1400来请求处理语音输入。边缘服务器1400可以处理通过第三自然语言平台1470接收的语音输入。例如,第三ASR模块1471可以将从用户终端100接收到的语音输入转换为文本数据。第三NLU模块1473可以确定与语音输入相对应的用户意图;第三计划器模块1475可以根据所确定的意图生成计划;第三TTS模块1477可以生成用于与用户交互的语音信号。用户终端100可以接收语音信号,然后可以通过扬声器130输出指南信息。
根据实施例,与智能服务器200相比,边缘服务器1400可以快速处理语音信号,同时替换用户终端100的功能。然而,由于边缘服务器1400的硬件性能与智能服务器200的硬件性能相比受到限制,因此能够由第三自然语言平台1470处理的语音输入的数量可能受到限制。在这种情况下,边缘服务器1400可以引导用户终端100通过智能服务器200处理语音信号。
例如,当由第三NLU模块1473确定的意图小于指定水平时,边缘服务器1400可以确定意图的识别失败。指定水平可以被称为置信度水平。例如,指定水平可以是指定概率(例如,50%)。当所确定的意图小于指定水平时,边缘服务器1400可以向智能服务器200做出对语音信号的处理的请求。对于另一示例,边缘服务器1400可以向用户终端100发送指示所确定的意图小于指定水平的信息。用户终端100可以向智能服务器200做出对语音信号的处理的请求。智能服务器200可以通过第一自然语言平台220处理语音信号,并且可以将处理后的结果发送给用户终端100。
图5是示出根据实施例的改变(或更新)用户终端的意图识别模型的方法的流程图。
参照图5,智能服务器200可以基于与语音输入相对应的意图的识别频率来改变(或更新)用于处理用户历史中的有限数量的语音输入的用户终端(例如,图4a的用户终端100)的语音识别模型。
根据实施例,在操作510中,智能服务器200(例如,图4a的用户数据管理器模块295)可以分析用户模式。例如,智能服务器200可以分析语音输入的模式。智能服务器200可以确定指定意图是否被识别出超过指定次数。
根据实施例,在操作520中,智能服务器200(例如,图4a的NLU管理模块291)可以确定是否需要更新用户终端的NLU模块(例如,图4a的第二NLU模块173)。例如,当指定意图的识别频率的增量不小于指定值时,智能服务器200可以确定需要更新用户终端。对于另一个示例,当改变不同的偏好信息时,智能服务器200可以确定需要更新用户终端。例如,当用户喜爱的应用或意图被改变(例如,被删除或注册)时,智能服务器200可以接收改变的信息。例如,当与用户终端100相关联的信息被改变时,智能服务器200可以确定需要更新用户终端。例如,当使用相同用户账户登录的另一装置连接时,或者当使用另一用户账户登录相同装置时,智能服务器200可以接收改变的信息。
根据实施例,当不需要更新第二NLU模块173时(否),智能服务器200可以终止用于改变用户终端的NLU模型的过程。
根据实施例,当需要更新第二NLU模块173时(是),在操作530中,智能服务器200(例如,图4a的NLU管理模块291)可以确定能够由用户终端处理(或识别)的意图的范围。例如,智能服务器200可以将具有高识别频率的指定数量的意图确定为能够由用户终端识别的意图的范围。对于另一示例,智能服务器200可以将包括在与应用相对应的域中的全部或部分意图确定为能够由用户终端识别的意图的范围。对于另一示例,智能服务器200可以将与限制连接到外部装置的功能相关联的意图确定为能够由用户终端识别的意图的范围。对于另一个示例,智能服务器200可以在能够由用户终端识别的意图的范围内确定由特定种类的电子装置(例如,不包括显示器的电子装置)识别的意图。
根据实施例,在操作540中,智能服务器200(例如,图4a的NLU建模模块292)可以生成用于识别所确定范围中包含的意图的自然语言识别模型。
根据实施例,在操作550中,智能服务器200(例如,图4a的模型训练系统293)可以重复地训练用于识别指定意图的模型。因此,智能服务器200可以生成用于准确识别指定意图的NLU模型。
根据实施例,在操作560中,智能服务器200(例如,图4a的NLU管理模块291)可以将所生成的NLU模块发送给用户终端100。例如,NLU模块可以是个性化的NLU模型。
因此,智能服务器200可以通过使用用户数据来改变(或更新)由用户终端100识别的意图来实现个性化语音处理系统。
图6a是示出根据实施例的用于根据安装在用户终端中的应用来设置由用户终端识别的意图的屏幕的视图。
参照图6a,用户终端100可以接收用户输入以选择能够由用户终端100识别的意图。用户终端100可以基于用户输入来生成与应用相关联的用户的偏好信息。
根据实施例,用户终端100可以在显示器(例如,图1的显示器140)上显示用于接收用户输入的第一用户界面(UI)610。
根据实施例,用户终端100可以在第一UI 610上显示至少一个应用列表611或613。例如,用户终端100可以在UI 610上显示针对每个服务分开的第一应用列表611。例如,第一应用列表611可以包括与咖啡和饮料相关联的应用(例如,星巴克和霍利斯)611a、与餐厅相关联的应用(例如,多米诺、必胜客和TGIF)611b以及与购物相关联的应用(例如,Gmarket)611c。用户终端100可以在UI 610上显示基于使用频率显示的第二应用列表613。第二应用列表613可以包括在指定时段内执行超过指定次数的应用(例如,旅行顾问和星巴克)613a。根据实施例,包括在第一应用列表611和第二应用列表613中的应用可以被复制。因此,用户终端100可以通过应用的列表611或613接收用户输入以选择应用。
根据实施例,用户终端100可以在应用的列表611或613中显示能够由每个应用识别的意图。例如,用户终端100可以显示与可识别意图的一部分相对应的代表性话语(例如,确认我的订单)。因此,用户终端100可以提供关于能够由所选择的应用识别的意图的信息。
根据实施例,用户终端100可以通过应用列表611或613接收用户输入以选择应用。例如,用户终端100可以接收用户输入以便为第一应用列表611中的每个服务选择应用(例如,星巴克或多米诺)。由于执行类似功能的意图是重复的,因此可以为每个服务选择一个应用程序。根据实施例,用户终端100可以在应用列表611或613中显示所选择的应用。例如,用户终端100可以通过指示器611a_1、611b_1和613a_1显示所选择的应用(例如,星巴克或多米诺)。
根据实施例,用户终端100可以将关于所选择的应用的信息发送给智能服务器200。换句话说,用户终端100可以将偏好信息发送给智能服务器200。根据实施例,智能服务器200可以生成用于识别与所选择的应用相对应的域中包括的全部或部分意图的NLU模型,并且可以将所生成的NLU模型发送给用户终端100。例如,所生成的NLU模型可以是个性化的NLU模型。
因此,用户终端100可以处理用于执行由用户选择的应用的功能的语音输入。换句话说,用户终端100可以直接识别包括在与所选择的应用相对应的域中的意图。
图6b是示出根据实施例的依据用于执行用户终端的应用的功能的意图来设置由用户终端处理的意图的屏幕的视图。
参照图6b,用户终端100可以接收用户输入以选择能够由用户终端100识别的意图。用户终端100可以基于用户输入来生成与该意图相关联的用户的偏好信息。
根据实施例,用户终端100可以在显示器中显示用于接收用户输入的第二UI 620。
根据实施例,用户终端100可以在第二UI 620上显示用于执行指定应用的指定功能的意图列表621。根据实施例,指定应用可以是用户选择的应用。例如,意图列表621可以包括与至少一个意图相对应的代表性话语(例如,“订购美式咖啡”或“添加鲜奶油”)621a。根据实施例,当通过图6a的第一UI 610的应用列表611或613接收到用于选择应用的用户输入时,用户终端100可以在第二UI上显示所选择的应用的意图列表621。
根据实施例,用户终端100可以通过意图列表621接收用户输入以选择至少一个意图。根据实施例,用户终端100可以在意图列表621中显示所选择的意图。例如,用户终端100可以通过指示符621a_1、621a_2和621a_3显示所选择的应用(例如,“订购美式咖啡”、“添加鲜奶油”和“用三星支付来付款”)。
根据实施例,用户终端100可以将关于所选择的意图的信息发送给智能服务器200。例如,所选择的意图可以是用于执行由用户选择的应用的功能的意图。因此,用户终端100可以将关于所选择的应用的信息以及关于所选择的意图的信息发送给智能服务器200。根据实施例,智能服务器200可以生成用于识别所选择的意图的NLU模型,并且可以将所生成的NLU模型发送给用户终端100。例如,所生成的NLU模型可以是个性化的NLU模型。
因此,用户终端100可以处理用于执行由用户选择的功能的语音输入。换句话说,用户终端100可以直接识别与所选择的功能相对应的意图。
图7是示出根据实施例的用于向用户提供关于能够由用户终端识别的意图的信息的屏幕的视图。
参照图7,用户终端100可以通过UI 710提供关于语音输入处理系统的信息711。
根据实施例,用户终端100可以提供语音输入处理系统的状态信息。例如,用户终端100可以提供关于语音输入处理系统的服务条款、服务策略信息、许可证信息和更新信息的信息。
根据实施例,用户终端100可以提供与能够由用户终端100直接识别的意图相关联的信息711a。例如,用户终端100可以提供执行与由用户终端100能够直接识别的意图相对应的功能的应用的信息711a。例如,应用的信息可以是应用的名称。
根据本公开公开的实施例,参照图1至图7描述的集成智能系统10或20可以通过改变(或更新)用户终端的自然语言理解模型来提供个性化语音输入识别系统,该自然语言理解模型用于通过使用用户数据来识别有限数量的意图。因此,集成智能系统10或20可以提供与语音输入相对应的快速响应。
图8是示出根据各种实施例的网络环境800中的电子装置801的框图。参照图8,网络环境800中的电子装置801可经由第一网络898(例如,短距离无线通信网络)与电子装置802进行通信,或者经由第二网络899(例如,长距离无线通信网络)与电子装置804或服务器808进行通信。根据实施例,电子装置801可经由服务器808与电子装置804进行通信。根据实施例,电子装置801可包括处理器820、存储器830、输入装置850、声音输出装置855、显示装置860、音频模块870、传感器模块876、接口877、触觉模块879、相机模块880、电力管理模块888、电池889、通信模块890、用户识别模块(SIM)896或天线模块897。在一些实施例中,可从电子装置801中省略所述部件中的至少一个(例如,显示装置860或相机模块880),或者可将一个或更多个其它部件添加到电子装置801中。在一些实施例中,可将所述部件中的一些部件实现为单个集成电路。例如,可将传感器模块876(例如,指纹传感器、虹膜传感器、或照度传感器)实现为嵌入在显示装置860(例如,显示器)中。
处理器820可运行例如软件(例如,程序840)来控制电子装置801的与处理器820连接的至少一个其它部件(例如,硬件部件或软件部件),并可执行各种数据处理或计算。根据一个实施例,作为所述数据处理或计算的至少部分,处理器820可将从另一部件(例如,传感器模块876或通信模块890)接收到的命令或数据加载到易失性存储器832中,对存储在易失性存储器832中的命令或数据进行处理,并将结果数据存储在非易失性存储器834中。根据实施例,处理器820可包括主处理器821(例如,中央处理器(CPU)或应用处理器(AP))以及与主处理器821在操作上独立的或者相结合的辅助处理器823(例如,图形处理单元(GPU)、图像信号处理器(ISP)、传感器中枢处理器或通信处理器(CP))。另外地或者可选择地,辅助处理器823可被适配为比主处理器821耗电更少,或者被适配为具体用于指定的功能。可将辅助处理器823实现为与主处理器821分离,或者实现为主处理器821的部分。
在主处理器821处于未激活(例如,睡眠)状态时,辅助处理器823可控制与电子装置801(而非主处理器821)的部件之中的至少一个部件(例如,显示装置860、传感器模块876或通信模块890)相关的功能或状态中的至少一些,或者在主处理器821处于激活状态(例如,运行应用)时,辅助处理器823可与主处理器821一起来控制与电子装置801的部件之中的至少一个部件(例如,显示装置860、传感器模块876或通信模块890)相关的功能或状态中的至少一些。根据实施例,可将辅助处理器823(例如,图像信号处理器或通信处理器)实现为在功能上与辅助处理器823相关的另一部件(例如,相机模块880或通信模块890)的部分。
存储器830可存储由电子装置801的至少一个部件(例如,处理器820或传感器模块876)使用的各种数据。所述各种数据可包括例如软件(例如,程序840)以及针对与其相关的命令的输入数据或输出数据。存储器830可包括易失性存储器832或非易失性存储器834。
可将程序840作为软件存储在存储器830中,并且程序840可包括例如操作系统(OS)842、中间件844或应用846。
输入装置850可从电子装置801的外部(例如,用户)接收将由电子装置801的其它部件(例如,处理器820)使用的命令或数据。输入装置850可包括例如麦克风、鼠标、键盘或数字笔(例如,手写笔)。
声音输出装置855可将声音信号输出到电子装置801的外部。声音输出装置855可包括例如扬声器或接收器。扬声器可用于诸如播放多媒体或播放唱片的通用目的,接收器可用于呼入呼叫。根据实施例,可将接收器实现为与扬声器分离,或实现为扬声器的部分。
显示装置860可向电子装置801的外部(例如,用户)视觉地提供信息。显示装置860可包括例如显示器、全息装置或投影仪以及用于控制显示器、全息装置和投影仪中的相应一个的控制电路。根据实施例,显示装置860可包括被适配为检测触摸的触摸电路或被适配为测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块870可将声音转换为电信号,反之亦可。根据实施例,音频模块870可经由输入装置850获得声音,或者经由声音输出装置855或与电子装置801直接(例如,有线地)连接或无线连接的外部电子装置(例如,电子装置802)的耳机输出声音。
传感器模块876可检测电子装置801的操作状态(例如,功率或温度)或电子装置801外部的环境状态(例如,用户的状态),然后产生与检测到的状态相应的电信号或数据值。根据实施例,传感器模块876可包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。
接口877可支持将用来使电子装置801与外部电子装置(例如,电子装置802)直接(例如,有线地)或无线连接的一个或更多个特定协议。根据实施例,接口877可包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端878可包括连接器,其中,电子装置801可经由所述连接器与外部电子装置(例如,电子装置802)物理连接。根据实施例,连接端878可包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块879可将电信号转换为可被用户经由他的触觉或动觉识别的机械刺激(例如,振动或运动)或电刺激。根据实施例,触觉模块879可包括例如电机、压电元件或电刺激器。
相机模块880可捕获静止图像或运动图像。根据实施例,相机模块880可包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。
电力管理模块888可管理对电子装置801的供电。根据实施例,可将电力管理模块888实现为例如电力管理集成电路(PMIC)的至少部分。
电池889可对电子装置801的至少一个部件供电。根据实施例,电池889可包括例如不可再充电的原电池、可再充电的蓄电池、或燃料电池。
通信模块890可支持在电子装置801与外部电子装置(例如,电子装置802、电子装置804或服务器808)之间建立直接(例如,有线)通信信道或无线通信信道,并经由建立的通信信道执行通信。通信模块890可包括能够与处理器820(例如,应用处理器(AP))独立操作的一个或更多个通信处理器,并支持直接(例如,有线)通信或无线通信。根据实施例,通信模块890可包括无线通信模块892(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块894(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的相应一个可经由第一网络898(例如,短距离通信网络,诸如蓝牙、无线保真(Wi-Fi)直连或红外数据协会(IrDA))或第二网络899(例如,长距离通信网络,诸如蜂窝网络、互联网、或计算机网络(例如,LAN或广域网(WAN)))与外部电子装置进行通信。可将这些各种类型的通信模块实现为单个部件(例如,单个芯片),或可将这些各种类型的通信模块实现为彼此分离的多个部件(例如,多个芯片)。无线通信模块892可使用存储在用户识别模块896中的用户信息(例如,国际移动用户识别码(IMSI))识别并验证通信网络(诸如第一网络898或第二网络899)中的电子装置801。
天线模块897可将信号或电力发送到电子装置801的外部(例如,外部电子装置)或者从电子装置801的外部(例如,外部电子装置)接收信号或电力。根据实施例,天线模块897可包括天线,所述天线包括辐射元件,所述辐射元件由形成在基底(例如,PCB)中或形成在基底上的导电材料或导电图案构成。根据实施例,天线模块897可包括多个天线。在这种情况下,可由例如通信模块890(例如,无线通信模块892)从所述多个天线中选择适合于在通信网络(诸如第一网络898或第二网络899)中使用的通信方案的至少一个天线。随后可经由所选择的至少一个天线在通信模块890和外部电子装置之间发送或接收信号或电力。根据实施例,除了辐射元件之外的另外的组件(例如,射频集成电路(RFIC))可附加地形成为天线模块897的一部分。
上述部件中的至少一些可经由外设间通信方案(例如,总线、通用输入输出(GPIO)、串行外设接口(SPI)或移动工业处理器接口(MIPI))相互连接并在它们之间通信地传送信号(例如,命令或数据)。
根据实施例,可经由与第二网络899连接的服务器808在电子装置801和外部电子装置804之间发送或接收命令或数据。电子装置802和电子装置804中的每一个可以是与电子装置801相同类型的装置,或者是与电子装置801不同类型的装置。根据实施例,将在电子装置801运行的全部操作或一些操作可在外部电子装置802、外部电子装置804或服务器808中的一个或更多个运行。例如,如果电子装置801应该自动执行功能或服务或者应该响应于来自用户或另一装置的请求执行功能或服务,则电子装置801可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分,而不是运行所述功能或服务,或者电子装置801除了运行所述功能或服务以外,还可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分。接收到所述请求的所述一个或更多个外部电子装置可执行所述功能或服务中的所请求的所述至少部分,或者执行与所述请求相关的另外功能或另外服务,并将执行的结果传送到电子装置801。电子装置801可在对所述结果进行进一步处理的情况下或者在不对所述结果进行进一步处理的情况下将所述结果提供作为对所述请求的至少部分答复。为此,可使用例如云计算技术、分布式计算技术或客户机-服务器计算技术。
如上所述,一种系统可以包括:至少一个通信接口;可操作地连接到至少一个通信接口的至少一个处理器;以及可操作地连接到至少一个处理器并存储有多个自然语言理解(NLU)模型的至少一个存储器。所述至少一个存储器可以存储有指令,所述指令在被执行时使所述处理器:使用所述至少一个通信接口从与用户账户相关联的外部电子装置接收与用户相关联的第一信息;基于所述第一信息的至少一部分,选择所述多个NLU模型中的至少一个;以及使用所述至少一个通信接口将所选择的至少一个NLU模型发送给所述外部电子装置,使得外部电子装置使用所选择的至少一个NLU模型进行自然语言处理。
根据实施例,第一信息可以包括用户的语音输入、外部电子装置的信息或用户的偏好信息中的至少一个。
根据实施例,当在指定时段内接收到用户的指定语音输入的次数不小于指定值时,指令可以使处理器选择多个NLU模型中的至少一个。
根据实施例,当与外部电子装置相关联的信息被改变时,指令可以使处理器选择多个NLU模型中的至少一个。
根据实施例,当用户的偏好信息被改变时,指令可以使处理器选择多个NLU模型中的至少一个。
根据实施例,指令可以使处理器通过使用自动语音识别(ASR)模型处理从外部电子装置接收到的用户的语音数据来生成文本数据。
根据实施例,当确定指定意图大于指定计数时,指令可使处理器确定与语音输入相对应的意图,并基于与指定意图相对应的至少一个语音输入来选择至少一个NLU模型。
根据实施例,指令可使处理器选择与指定数量的意图相对应的NLU模型。
根据实施例,指令可使处理器选择与用于执行指定应用程序的功能的意图相对应的至少一个NLU模型。
根据实施例,指令可使处理器选择与由用户选择的意图相对应的至少一个NLU模型。
如上所述,一种用于更新NLU模型的系统的控制方法可以包括:从与用户账户相关联的外部电子装置接收与用户相关联的第一信息;基于第一信息的至少一部分来选择多个NLU模型中的至少一个;以及使用至少一个通信接口将所选择的至少一个NLU模型发送给所述外部电子装置,使得所述外部电子装置使用所选择的至少一个NLU模型进行自然语言处理。
根据实施例,第一信息可以包括用户的语音输入、外部电子装置的信息或用户的偏好信息中的至少一个。
根据实施例,选择多个NLU模型中的至少一个可以包括当在指定时段内接收用户的指定语音输入的次数不小于指定值时,选择多个NLU模型中的至少一个。
根据实施例,选择多个NLU模型中的至少一个可以包括在外部电子装置的信息被改变时选择多个NLU模型中的至少一个。
根据实施例,选择多个NLU模型中的至少一个可以包括在用户的偏好信息被改变时选择多个NLU模型中的至少一个。
根据实施例,该方法还可以包括通过使用ASR模型处理从外部电子装置接收到的用户的语音数据来生成文本数据。
根据实施例,选择多个NLU模型中的至少一个可以包括确定与语音输入相对应的意图,以及在确定指定意图大于指定计数时基于与指定意图相对应的至少一个语音输入来选择至少一个NLU模型。
根据实施例,基于与指定意图相对应的至少一个语音输入来选择至少一个NLU模型可以包括选择与指定数量的意图相对应的NLU模型。
根据实施例,基于与指定意图相对应的至少一个语音输入来选择至少一个NLU模型可以包括选择与用于执行指定应用程序的功能的意图相对应的至少一个NLU模型。
根据实施例,基于与指定意图相对应的至少一个语音输入来选择至少一个NLU模型可以包括选择与由用户确定的意图相对应的至少一个NLU模型。
根据各种实施例的电子装置可以是各种类型的电子装置之一。电子装置可包括例如便携式通信装置(例如,智能电话)、计算机装置、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器。根据本公开的实施例,电子装置不限于以上所述的那些电子装置。
应该理解的是,本公开的各种实施例以及其中使用的术语并不意图将在此阐述的技术特征限制于具体实施例,而是包括针对相应实施例的各种改变、等同形式或替换形式。对于附图的描述,相似的参照标号可用来指代相似或相关的元件。将理解的是,与术语相应的单数形式的名词可包括一个或更多个事物,除非相关上下文另有明确指示。如这里所使用的,诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的短语中的每一个短语可包括在与所述多个短语中的相应一个短语中一起列举出的项的任意一项或所有可能组合。如这里所使用的,诸如“第1”和“第2”或者“第一”和“第二”的术语可用于将相应部件与另一部件进行简单区分,并且不在其它方面(例如,重要性或顺序)限制所述部件。将理解的是,在使用了术语“可操作地”或“通信地”的情况下或者在不使用术语“可操作地”或“通信地”的情况下,如果一元件(例如,第一元件)被称为“与另一元件(例如,第二元件)结合”、“结合到另一元件(例如,第二元件)”、“与另一元件(例如,第二元件)连接”或“连接到另一元件(例如,第二元件)”,则意味着所述一元件可与所述另一元件直接(例如,有线地)连接、与所述另一元件无线连接、或经由第三元件与所述另一元件连接。
如这里所使用的,术语“模块”可包括以硬件、软件或固件实现的单元,并可与其他术语(例如,“逻辑”、“逻辑块”、“部分”或“电路”)可互换地使用。模块可以是被适配为执行一个或更多个功能的单个集成部件或者是该单个集成部件的最小单元或部分。例如,根据实施例,可以以专用集成电路(ASIC)的形式来实现模块。
可将在此阐述的各种实施例实现为包括存储在存储介质(例如,内部存储器836或外部存储器838)中的可由机器(例如,电子装置801)读取的一个或更多个指令的软件(例如,程序840)。例如,在处理器的控制下,所述机器(例如,电子装置801)的处理器(例如,处理器820)可在使用或无需使用一个或更多个其它部件的情况下调用存储在存储介质中的所述一个或更多个指令中的至少一个指令并运行所述至少一个指令。这使得所述机器能够操作用于根据所调用的至少一个指令执行至少一个功能。所述一个或更多个指令可包括由编译器产生的代码或能够由解释器运行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。其中,术语“非暂时性”仅意味着所述存储介质是有形装置,并且不包括信号(例如,电磁波),但是该术语并不在数据被半永久性地存储在存储介质中与数据被临时存储在存储介质中之间进行区分。
根据实施例,可在计算机程序产品中包括和提供根据本公开的各种实施例的方法。计算机程序产品可作为产品在销售者和购买者之间进行交易。可以以机器可读存储介质(例如,紧凑盘只读存储器(CD-ROM))的形式来发布计算机程序产品,或者可经由应用商店(例如,Play StoreTM)在线发布(例如,下载或上传)计算机程序产品,或者可直接在两个用户装置(例如,智能电话)之间分发(例如,下载或上传)计算机程序产品。如果是在线发布的,则计算机程序产品中的至少部分可以是临时产生的,或者可将计算机程序产品中的至少部分至少临时存储在机器可读存储介质(诸如制造商的服务器、应用商店的服务器或转发服务器的存储器)中。
根据各种实施例,上述部件中的每个部件(例如,模块或程序)可包括单个实体或多个实体。根据各种实施例,可省略上述部件中的一个或更多个部件,或者可添加一个或更多个其它部件。可选择地或者另外地,可将多个部件(例如,模块或程序)集成为单个部件。在这种情况下,根据各种实施例,该集成部件可仍旧按照与所述多个部件中的相应一个部件在集成之前执行一个或更多个功能相同或相似的方式,执行所述多个部件中的每一个部件的所述一个或更多个功能。根据各种实施例,由模块、程序或另一部件所执行的操作可顺序地、并行地、重复地或以启发式方式来执行,或者所述操作中的一个或更多个操作可按照不同的顺序来运行或被省略,或者可添加一个或更多个其它操作。
根据本公开公开的实施例,集成智能系统可以通过改变(或更新)用户终端的自然语言理解模型来提供个性化语音输入识别系统,以通过使用用户数据来识别有限数量的意图。因此,集成智能系统可以提供与快速语音输入相对应的响应。
此外,可以提供通过本公开直接或间接理解的各种效果。
虽然已经参照本公开的各种实施例示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求及其等同形式限定的本公开的精神和范围的情况下,可以在形式和细节上进行各种改变。
尽管已经用各种实施例描述了本公开,但是可以向本领域技术人员建议各种改变和修改。本公开旨在涵盖落入所附权利要求的范围内的这种改变和修改。
Claims (15)
1.一种服务器,所述服务器包括:
通信接口;
处理器,所述处理器可操作地连接到所述通信接口;以及
存储器,所述存储器可操作地连接到所述处理器,且被配置为存储多个自然语言理解(NLU)模型和指令,所述指令在被所述处理器执行时,使所述处理器:
使用所述通信接口从与用户账户相关联的外部电子装置接收与用户相关联的第一信息,其中,所述第一信息包括所述用户的语音输入;
确定与所述语音输入相对应的意图;
当所述意图被确定的次数大于指定次数时,基于所述第一信息的至少一部分来选择所述多个NLU模型中的至少一个NLU模型;以及
使用所述通信接口将所述多个NLU模型中的所选择的至少一个NLU模型发送给所述外部电子装置,使得所述外部电子装置使用所述多个NLU模型中的所选择的至少一个NLU模型进行自然语言处理。
2.根据权利要求1所述的服务器,其中,所述第一信息还包括所述外部电子装置的信息或所述用户的偏好信息中的至少一者。
3.根据权利要求1所述的服务器,其中,所述存储器存储有指令,所述指令在被所述处理器执行时,使所述处理器:
基于在指定时段期间接收到所述用户的指定语音输入的次数不小于指定值,选择所述多个NLU模型中的至少一个NLU模型。
4.根据权利要求2所述的服务器,其中,所述存储器存储有指令,所述指令在被所述处理器执行时,使所述处理器:
基于所述外部电子装置的信息被改变,选择所述多个NLU模型中的至少一个NLU模型。
5.根据权利要求2所述的服务器,其中,所述存储器存储有指令,所述指令在被所述处理器执行时,使所述处理器:
基于所述用户的偏好信息被改变,选择所述多个NLU模型中的至少一个NLU模型。
6.根据权利要求1所述的服务器,其中,所述存储器存储有指令,所述指令在被所述处理器执行时,使所述处理器:
通过使用自动语音识别(ASR)模型处理从所述外部电子装置接收到的所述用户的语音数据来生成文本数据。
7.根据权利要求1所述的服务器,其中,所述存储器存储有指令,所述指令在被所述处理器执行时,使所述处理器:
基于与所述意图相对应的至少一个语音输入来选择所述至少一个NLU模型。
8.根据权利要求1所述的服务器,其中,所述存储器存储有指令,所述指令在被所述处理器执行时,使所述处理器:
选择与指定数量的意图相对应的NLU模型。
9.根据权利要求1所述的服务器,其中,所述存储器存储有指令,所述指令在被所述处理器执行时,使所述处理器:
选择与用于执行指定应用程序的功能的意图相对应的至少一个NLU模型。
10.根据权利要求1所述的服务器,其中,所述存储器存储有指令,所述指令在被所述处理器执行时,使所述处理器:
选择与由所述用户选择的意图相对应的至少一个NLU模型。
11.一种用于更新NLU模型的系统的控制方法,所述方法包括:
从与用户账户相关联的外部电子装置接收与用户相关联的第一信息,其中,所述第一信息包括所述用户的语音输入;
确定与所述语音输入相对应的意图;
当所述意图被确定的次数大于指定次数时,基于所述第一信息的至少一部分来选择多个自然语言理解(NLU)模型中的至少一个NLU模型;以及
使用至少一个通信接口将所述多个NLU模型中的所选择的至少一个NLU模型发送给所述外部电子装置,使得所述外部电子装置使用所述多个NLU模型中的所选择的至少一个NLU模型进行自然语言处理。
12.根据权利要求11所述的方法,其中,
所述第一信息还包括所述外部电子装置的信息或所述用户的偏好信息中的至少一者。
13.根据权利要求12所述的方法,其中,选择所述多个NLU模型中的至少一个NLU模型包括:
基于在指定时段期间接收到所述用户的指定语音输入的次数不小于指定值,选择所述多个NLU模型中的至少一个NLU模型。
14.根据权利要求12所述的方法,其中,选择所述多个NLU模型中的至少一个NLU模型包括:
基于所述外部电子装置的信息被改变,选择所述多个NLU模型中的至少一个NLU模型。
15.根据权利要求12所述的方法,其中,选择所述多个NLU模型中的至少一个NLU模型包括:
基于所述用户的偏好信息被改变,选择所述多个NLU模型中的至少一个NLU模型。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180135771A KR20200052612A (ko) | 2018-11-07 | 2018-11-07 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
KR10-2018-0135771 | 2018-11-07 | ||
PCT/KR2019/009716 WO2020096172A1 (en) | 2018-11-07 | 2019-08-05 | Electronic device for processing user utterance and controlling method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112970059A CN112970059A (zh) | 2021-06-15 |
CN112970059B true CN112970059B (zh) | 2023-11-24 |
Family
ID=70457804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980072576.XA Active CN112970059B (zh) | 2018-11-07 | 2019-08-05 | 用于处理用户话语的电子装置及其控制方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10699704B2 (zh) |
EP (1) | EP3850620B1 (zh) |
KR (1) | KR20200052612A (zh) |
CN (1) | CN112970059B (zh) |
WO (1) | WO2020096172A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200052612A (ko) * | 2018-11-07 | 2020-05-15 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
US11423910B2 (en) * | 2019-03-19 | 2022-08-23 | Servicenow, Inc. | Systems and method for third party natural language understanding service integration |
US12086541B2 (en) | 2019-09-04 | 2024-09-10 | Brain Technologies, Inc. | Natural query completion for a real-time morphing interface |
JP2022547482A (ja) * | 2019-09-04 | 2022-11-14 | ブレイン テクノロジーズ インコーポレイテッド | コンピュータ画面表示用のリアルタイムモーフィングインターフェース |
US11935521B2 (en) * | 2019-09-12 | 2024-03-19 | Oracle International Corporation | Real-time feedback for efficient dialog processing |
WO2021086127A1 (en) * | 2019-11-01 | 2021-05-06 | Samsung Electronics Co., Ltd. | Hub device, multi-device system including the hub device and plurality of devices, and operating method of the hub device and multi-device system |
KR20220082577A (ko) * | 2020-12-10 | 2022-06-17 | 삼성전자주식회사 | 전자장치 및 그의 제어방법 |
US12080289B2 (en) | 2020-12-22 | 2024-09-03 | Samsung Electronics Co., Ltd. | Electronic apparatus, system comprising electronic apparatus and server and controlling method thereof |
KR20220091085A (ko) * | 2020-12-23 | 2022-06-30 | 삼성전자주식회사 | 전자 장치 및 그의 연속성을 가지는 사용자 입력에 대한 실행 정보를 공유하는 방법 |
KR20220123932A (ko) * | 2021-03-02 | 2022-09-13 | 삼성전자주식회사 | 사용자 발화를 처리하기 위한 전자 장치 및 그 동작 방법 |
US11978449B2 (en) * | 2021-03-02 | 2024-05-07 | Samsung Electronics Co., Ltd. | Electronic device for processing user utterance and operation method therefor |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1791114A1 (en) * | 2005-11-25 | 2007-05-30 | Swisscom Mobile Ag | A method for personalization of a service |
US9070366B1 (en) * | 2012-12-19 | 2015-06-30 | Amazon Technologies, Inc. | Architecture for multi-domain utterance processing |
CN106796787A (zh) * | 2014-05-20 | 2017-05-31 | 亚马逊技术有限公司 | 在自然语言处理中使用先前对话行为进行的语境解释 |
EP3382696A1 (en) * | 2017-03-28 | 2018-10-03 | Samsung Electronics Co., Ltd. | Method for operating speech recognition service, electronic device and system supporting the same |
CN108735204A (zh) * | 2017-04-17 | 2018-11-02 | 三星电子株式会社 | 用于执行与用户话语相对应的任务的设备 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7120585B2 (en) | 2000-03-24 | 2006-10-10 | Eliza Corporation | Remote server object architecture for speech recognition |
JP2002091477A (ja) * | 2000-09-14 | 2002-03-27 | Mitsubishi Electric Corp | 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JPWO2005010868A1 (ja) * | 2003-07-29 | 2006-09-14 | 三菱電機株式会社 | 音声認識システム及びその端末とサーバ |
JPWO2008004663A1 (ja) | 2006-07-07 | 2009-12-10 | 日本電気株式会社 | 言語モデル更新装置、言語モデル更新方法、および言語モデル更新用プログラム |
US8949266B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
CA2867776A1 (en) | 2012-04-02 | 2013-10-10 | Dixilang Ltd. | A client-server architecture for automatic speech recognition applications |
US9818407B1 (en) | 2013-02-07 | 2017-11-14 | Amazon Technologies, Inc. | Distributed endpointing for speech recognition |
US9361289B1 (en) | 2013-08-30 | 2016-06-07 | Amazon Technologies, Inc. | Retrieval and management of spoken language understanding personalization data |
US9530416B2 (en) * | 2013-10-28 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for managing models for embedded speech and language processing |
US10978052B2 (en) | 2014-04-16 | 2021-04-13 | Facebook, Inc. | Email-like user interface for training natural language systems |
KR102225404B1 (ko) * | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | 디바이스 정보를 이용하는 음성인식 방법 및 장치 |
JP2016009193A (ja) * | 2014-06-23 | 2016-01-18 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | ユーザ適合音声認識 |
US9508339B2 (en) * | 2015-01-30 | 2016-11-29 | Microsoft Technology Licensing, Llc | Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing |
KR101694011B1 (ko) * | 2015-06-17 | 2017-01-06 | 포항공과대학교 산학협력단 | 복수 응용 소프트웨어에 대한 음성 대화 방법 및 장치 |
US10152968B1 (en) * | 2015-06-26 | 2018-12-11 | Iconics, Inc. | Systems and methods for speech-based monitoring and/or control of automation devices |
KR102386863B1 (ko) * | 2015-09-09 | 2022-04-13 | 삼성전자주식회사 | 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치 |
US10360910B2 (en) * | 2016-08-29 | 2019-07-23 | Garmin Switzerland Gmbh | Automatic speech recognition (ASR) utilizing GPS and sensor data |
KR102481881B1 (ko) * | 2016-09-07 | 2022-12-27 | 삼성전자주식회사 | 외부 디바이스를 제어하는 서버 및 그 방법 |
KR102691541B1 (ko) * | 2016-12-19 | 2024-08-02 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
KR102414122B1 (ko) * | 2017-04-19 | 2022-06-29 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 동작 방법 |
US10504513B1 (en) * | 2017-09-26 | 2019-12-10 | Amazon Technologies, Inc. | Natural language understanding with affiliated devices |
US10685669B1 (en) * | 2018-03-20 | 2020-06-16 | Amazon Technologies, Inc. | Device selection from audio data |
US10755706B2 (en) * | 2018-03-26 | 2020-08-25 | Midea Group Co., Ltd. | Voice-based user interface with dynamically switchable endpoints |
US10714085B2 (en) * | 2018-06-06 | 2020-07-14 | Amazon Technologies, Inc. | Temporary account association with voice-enabled devices |
KR20200052612A (ko) * | 2018-11-07 | 2020-05-15 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
-
2018
- 2018-11-07 KR KR1020180135771A patent/KR20200052612A/ko not_active Application Discontinuation
-
2019
- 2019-08-05 WO PCT/KR2019/009716 patent/WO2020096172A1/en unknown
- 2019-08-05 CN CN201980072576.XA patent/CN112970059B/zh active Active
- 2019-08-05 EP EP19882344.5A patent/EP3850620B1/en active Active
- 2019-08-08 US US16/536,226 patent/US10699704B2/en active Active
-
2020
- 2020-06-29 US US16/946,604 patent/US11538470B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1791114A1 (en) * | 2005-11-25 | 2007-05-30 | Swisscom Mobile Ag | A method for personalization of a service |
US9070366B1 (en) * | 2012-12-19 | 2015-06-30 | Amazon Technologies, Inc. | Architecture for multi-domain utterance processing |
CN106796787A (zh) * | 2014-05-20 | 2017-05-31 | 亚马逊技术有限公司 | 在自然语言处理中使用先前对话行为进行的语境解释 |
EP3382696A1 (en) * | 2017-03-28 | 2018-10-03 | Samsung Electronics Co., Ltd. | Method for operating speech recognition service, electronic device and system supporting the same |
CN108735204A (zh) * | 2017-04-17 | 2018-11-02 | 三星电子株式会社 | 用于执行与用户话语相对应的任务的设备 |
Also Published As
Publication number | Publication date |
---|---|
US20200335094A1 (en) | 2020-10-22 |
EP3850620A4 (en) | 2021-12-08 |
KR20200052612A (ko) | 2020-05-15 |
EP3850620C0 (en) | 2024-07-10 |
EP3850620A1 (en) | 2021-07-21 |
EP3850620B1 (en) | 2024-07-10 |
US11538470B2 (en) | 2022-12-27 |
WO2020096172A1 (en) | 2020-05-14 |
US20200143798A1 (en) | 2020-05-07 |
US10699704B2 (en) | 2020-06-30 |
CN112970059A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112970059B (zh) | 用于处理用户话语的电子装置及其控制方法 | |
US11393474B2 (en) | Electronic device managing plurality of intelligent agents and operation method thereof | |
CN110858481B (zh) | 用于处理用户语音话语的系统和用于操作该系统的方法 | |
US11662976B2 (en) | Electronic device and method for sharing voice command thereof | |
US11151995B2 (en) | Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command | |
US12112751B2 (en) | Electronic device for processing user utterance and method for operating same | |
EP3826004A1 (en) | Electronic device for processing user utterance, and control method therefor | |
CN111640429B (zh) | 提供语音识别服务的方法和用于该方法的电子装置 | |
CN112912955B (zh) | 提供基于语音识别的服务的电子装置和系统 | |
US20210217406A1 (en) | Voice recognition service operating method and electronic device supporting same | |
US20220013135A1 (en) | Electronic device for displaying voice recognition-based image | |
US10976997B2 (en) | Electronic device outputting hints in an offline state for providing service according to user context | |
US20210151040A1 (en) | Electronic device for providing intelligent assistance service and operating method thereof | |
US11264031B2 (en) | Method for processing plans having multiple end points and electronic device applying the same method | |
CN112542171A (zh) | 使用语音识别功能执行动作的电子装置及其方法 | |
US20220415325A1 (en) | Electronic device and method for processing user input | |
CN111902863A (zh) | 用于处理用户语音输入的装置 | |
US11670294B2 (en) | Method of generating wakeup model and electronic device therefor | |
US20220028385A1 (en) | Electronic device for processing user utterance and method for operating thereof | |
US20230094274A1 (en) | Electronic device and operation method thereof | |
US20230186031A1 (en) | Electronic device for providing voice recognition service using user data and operating method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |