CN112955862A - 电子装置及其控制方法 - Google Patents
电子装置及其控制方法 Download PDFInfo
- Publication number
- CN112955862A CN112955862A CN201980072900.8A CN201980072900A CN112955862A CN 112955862 A CN112955862 A CN 112955862A CN 201980072900 A CN201980072900 A CN 201980072900A CN 112955862 A CN112955862 A CN 112955862A
- Authority
- CN
- China
- Prior art keywords
- task
- utterance
- response
- user
- electronic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000004044 response Effects 0.000 claims abstract description 315
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 74
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 abstract description 15
- 238000004422 calculation algorithm Methods 0.000 abstract description 8
- 238000010801 machine learning Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 25
- 238000012545 processing Methods 0.000 description 21
- 230000009471 action Effects 0.000 description 14
- 239000003795 chemical substances by application Substances 0.000 description 14
- 238000004891 communication Methods 0.000 description 14
- 239000000428 dust Substances 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000002583 angiography Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 229910052724 xenon Inorganic materials 0.000 description 1
- FHNFHKCVQCLJFQ-UHFFFAOYSA-N xenon atom Chemical compound [Xe] FHNFHKCVQCLJFQ-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了电子装置及其控制方法。根据本公开的实施方式的控制电子装置的方法包括:接收第一发声的输入,基于第一发声识别用于第一发声的第一任务,基于预定响应模式提供对第一任务的响应,接收第二发声的输入,基于第二发声识别用于第二发声的第二任务,确定第一任务和第二任务之间的关联度,并且基于所确定的关联度满足预定条件,基于第二任务设置对于第一任务的响应模式。电子装置的控制方法可使用根据机器学习、神经网络、或深度学习算法中的至少一个而训练的人工智能模型。
Description
技术领域
本公开涉及电子装置及其控制方法,并且例如,涉及能够提供对用户发声的响应以及与用户发声相关的附加响应的电子装置及其控制方法。
本公开还涉及诸如利用机器学习算法模拟人脑的诸如认知和确定的功能的人工智能(AI)系统及其应用。
背景技术
人工智能(AI)系统可指实现人类水平的智能的计算机系统,并且可包括其中机器自我学习、确定并变得更智能的系统,这与常规的基于规则的智能系统不同。人工智能系统随着其被更多地使用而显示出更多改进的识别率,并且变得能够更正确地理解用户偏好。为此,常规的基于规则的智能系统正在逐渐被基于深度学习的人工智能系统所取代。
人工智能技术可包括机器学习(深度学习)和利用机器学习的元素技术(elementtechnology)。
机器学习可指例如由本身分类/学习输入数据的特征的算法技术。同时,元素技术可指例如利用诸如深度学习的机器学习算法的技术,并且包括诸如语言理解、视觉理解、推理/预测、知识表示和操作控制的技术领域。
应用人工智能技术的各种领域的示例应用如下。语言理解可指,例如,识别人类的语言/字符并且应用/处理它们的技术,并且包括自然语音处理、机器翻译、对话系统、查询和回答、语音识别/合成等。视觉理解可指,例如,以与人类视觉类似的方式识别对象、并且处理对象的技术,并且可包括对象的识别、对象的跟踪、图像的搜索、人类的识别、场景的理解、空间的理解、图像的改进等。推断/预测可指例如确定信息并做出逻辑推断和预测的技术,并且可包括基于知识/概率的推断、优化预测、基于偏好的规划、推荐等。知识表示可指,例如,将人类经验的信息自动处理成知识数据的技术,并且可包括知识构造(数据生成/分类)、知识管理(数据利用)等。操作控制可指,例如,控制车辆的自主驾驶和机器人的运动的技术,并且可包括运动控制(导航、碰撞、驾驶)、操作控制(行为控制)等。
同时,在包括提供对用户查询的响应的对话系统的电子装置的情况下,电子装置仅提供对用户查询的响应,而不提供对用户查询的附加响应。因此,不方便的是,用户必须执行大量查询或长的查询来取得期望的信息,并且还存在用户与对话系统之间的对话时间变长的问题。
发明内容
技术问题
本公开的实施方式解决上述问题,并且涉及能够基于用户的偏好信息和对话历史来提供对用户发声的响应以及与用户发声相关的附加响应的电子装置及其控制方法。
技术方案
根据示例性实施方式的电子装置的示例性控制方法包括以下步骤:接收第一发声的输入;基于第一发声识别用于第一发声的第一任务;基于预定响应模式提供对第一任务的响应;接收第二发声的输入;基于第二发声识别用于第二发声的第二任务;确定第一任务与第二任务之间的关联度;以及基于确定的关联度满足预定条件,基于第二任务设置对于第一任务的响应模式。
可在包括与对发声的响应的长度相关的信息或与包括在对发声的响应中的信息的类型相关的信息中的至少一个的情况下确定响应模式。
预定响应模式可为由命令选择的响应模式或基于电子装置的发声历史自动地设置的响应模式。
该方法可将根据第一发声的语音输出至经训练的人工智能模型中,以得到第一发声的声学特征的信息,并且基于关于所获得的声学特征的信息来识别用户。可基于所识别的会话历史和用户的偏好信息来确定预定响应模式。
预定条件可为以下条件:与第一任务和第二任务之间的关联度有关的信息等于或大于阈值。
控制方法还可包括以下步骤:基于接收第三发声的输入,确定用于第三发声的第三任务是否与第一任务相关联;以及基于设置的用于第一任务响应模式来提供响应。
控制方法还可包括以下步骤:接收第三发声的输入,以及基于第三发声识别用于第三发声的第三任务,并且确定第一任务和第三任务之间的关联度。设置步骤还可包括以下步骤:基于所确定的第一任务和第三任务之间的关联度满足预定条件,来确定第二任务和第三任务的优先级,以及基于所确定的优先级、第二任务和第三任务,设置对于第一任务的响应模式。
控制方法可包括以下步骤:获取对于所提供的响应的反馈,以及基于所获取的反馈来更新第一任务和第二任务之间的关联度。
控制方法还可包括以下步骤:基于第一任务和第二任务之间的关联度,以本体的形式存储第一任务和第二任务的。
可通过人工智能模型来执行识别第一任务、确定关联度、设置响应模式、或提供响应的步骤中的至少一个。人工智能模型可包括分别包括至少一个节点的多个层,并且至少一个节点中的每个可包括具有用于解释输入值的连接权重的神经网络模型。
根据本公开的示例性实施方式的示例性电子装置可包括配置为存储至少一个命令的存储器以及配置为执行至少一个命令以控制电子装置的处理器。处理器可控制该电子装置以:接收第一发声的输入,基于第一发声识别用于第一发声的第一任务,基于预定响应模式对第一任务提供响应,并接收第二发声的输入,基于第二发声识别用于第二发声的第二任务,并确定第一任务和第二任务之间的关联度,以及基于所确定的关联度满足预定条件,基于第二任务设置第一任务的响应模式。
可以在包括与对发声的响应的长度相关的信息或与包括在对发声的响应中的信息的类型相关的信息中的至少一个的情况下确定响应模式。
预定响应模式可为由命令选择的响应模式或基于电子装置的发声历史自动地设置的响应模式。
预定条件可为以下条件:与第一任务和第二任务之间的关联度有关的信息等于或大于阈值。
处理器可控制电子装置将根据第一发声的语音输入至经训练的人工智能模型中,以获得关于第一发声的声学特征的信息,并且基于关于所获得的声学特征的信息来识别用户。基于所识别的会话历史和用户的偏好信息来确定预定响应模式。
处理器可控制电子装置以基于接收第三发声的输入来确定用于第三发声的第三任务是否与第一任务相关联,并且基于所设置的对于第一任务的响应模式来提供响应。
处理器可控制电子装置接收第三发声的输入,基于第三发声识别用于第三发声的第三任务,并且确定第一任务和第三任务之间的关联度,并且基于所确定的第一任务和第三任务之间的关联度满足预定条件,来确定第二任务和第三任务的优先级,以及基于所确定第二任务和第三任务的优先级,来设置对于第一任务的响应模式。
此外,处理器可控制电子装置以获取对于所提供的响应的反馈,并且基于所获取的反馈来更新第一任务和第二任务之间的关联度。
处理器可基于第一任务和第二任务之间的关联度来控制电子装置以本体的形式将第一任务和第二任务存储在存储器中。
可通过人工智能模型来执行识别第一任务、确定关联度、设置响应模式、或提供响应的操作中的至少一个。人工智能模型可包括分别包括至少一个节点的多个层,并且至少一个节点中的每个可包括具有用于解释输入值的连接权重的神经网络模型。
有益效果
根据本公开的上述各种示例性实施方式,电子装置可对用户发声提供各种响应,并且从而减少不必要的对话轮次。
附图说明
从以下结合附图的详细描述中,本公开的某些实施方式的上述和其它方面、特征、和优点将变得更加明显,其中:
图1是示出根据本公开的实施方式的示例性电子装置的示例性操作的图;
图2是示出根据本公开的实施方式的示例性电子装置的示例性配置的框图;
图3是示出根据本公开的实施方式的示例性电子装置的示例性配置的框图;
图4是示出根据本公开的实施方式的示例性对话系统的框图;
图5A是示出根据本公开的实施方式的用于对用户发声提供响应的示例性方法的流程图;
图5B是示出根据本公开的另一实施方式的用于提供附加响应的示例性方法的图;
图6A是示出根据本公开的实施方式的用于更新与任务之间的关联度有关的信息的示例性方法的图;
图6B是示出根据本公开的实施方式的与存储在知识数据库460中的任务之间的关联度有关的信息的示例的图;
图7是示出根据本公开的实施方式的对用户发声提供响应的示例的图;
图8A是示出根据本公开的另一个实施方式的其中对用户发声的响应是查询类型的示例的图;
图8B是示出根据本公开的另一个实施方式的其中对用户发声的响应是查询类型的示例的图;
图9是示出根据本公开的实施方式的对用户发声提供查询类型响应的示例性方法的流程图;
图10是示出根据本公开的又一实施方式的对用户发声提供响应的示例的图;
图11是示出根据本公开的实施方式的包括电子装置和服务器的示例性系统的图;
图12是示出根据本公开的实施方式的控制电子装置的示例性方法的流程图;以及
图13是示出根据本公开的另一实施方式的控制电子装置的示例性方法的流程图。
具体实施方式
在下文中,将参考附图描述本公开的各种示例性实施方式。同时,应注意,各种示例性实施方式不是用于将本公开中所描述的技术限制为特定实施方式,而应将其解释为包括本公开的实施方式的各种修改,等效物和/或替代。此外,关于附图的描述,类似的附图标记可用于类似的部件。
在本公开中,诸如“具有”、“可具有”、“包括”和“可包括”之类的表述应当理解为表示存在这样的特征(例如,诸如数值、函数、操作和组件之类的元素),并且这些表述不旨在排除附加特征的存在。
在本公开中,表述“A或B”、“A和/或B中的至少一个”或“A和/或B中的一个或多个”等可包括所列项目的所有可能的组合。例如,“A或B”、“A和B中的至少一个”、或“A或B中的至少一个”是指所有以下情况:(1)包括至少一个A、(2)包括至少一个B、或(3)包括至少一个A和至少一个B。
本公开中使用的表述“第一”、“第二”等可用于描述各种要素,而不管任何顺序和/或重要程度。这种表述可用于将一个元件与另一个元件区分开,而不是要限制这些元件。
在本公开中,一个元件(例如,第一元件)与另一个元件(例如,第二元件)“(可操作地或通信地)与……联接/联接至”或“连接至”的描述应当被理解为包括一个元件直接联接至另一个元件的情况,以及一个元件通过又一个元件(例如:第三元件)联接至另一个元件的情况。一个元件(例如,第一元件)“直接联接”或“直接连接”至另一个元件(例如,第二元件)的描述可解释为是指在一个元件和另一个元件之间不存在又一个元件(例如,第三元件)的情况。
在本公开中使用的表述“配置成”可根据情况与其他表述互换使用,例如“适于”、“具有……能力”、“设计成”、“适于”、“制成”和“能够”。术语“配置成”不一定指在硬件方面“专门设计成”的器件。相反,在某些情况下,表述“器件配置成”可指“能够”与另一器件或元件一起执行操作的器件。例如,短语“配置成执行A、B和C的子处理器”可例如但不限于指用于执行相应操作的专用处理器(例如,嵌入式处理器)、可通过执行存储在存储器件中的一个或一个以上软件程序来执行相应操作的通用处理器(例如,CPU或应用处理器)、等。
根据本公开的各种示例性实施方式的电子装置可包括,例如,但不限于,智能电话、平板PC、移动电话、视频电话、电子书阅读器、台式PC、笔记本电脑、上网本、工作站、服务器、PDA、便携式多媒体播放器(PMP)、MP3播放器、医疗器械、相机、可穿戴装置等中的至少一个。可穿戴装置可包括例如但不限于以下至少一种:附件型装置(例如,手表、戒指、手链、脚链、项链、眼镜、隐形眼镜或头戴装置(HMD)),与织物或衣服集成的装置(例如,电子衣服),身体附着装置(例如,皮肤垫或纹身),可植入电路等。在一些实施方式中,电子装置可包括,例如,但不限于,电视、数字视频盘(DVD)播放器、音频、冰箱、空调、清洁器、烤箱、微波炉、洗衣机、空气清洁器、机顶盒、家庭自动化控制面板、安全控制面板、媒体盒(例如,三星HomeSyncTM、苹果公司TVTM、或GoogleTVTM)、游戏机(例如:XboxTM、PlayStationTM)、电子词典、电子钥匙、摄录像机、电子相框等中的至少一种。
在本公开的另一示例性实施方式中,电子装置可包括,例如,但不限于,各种类型的医疗器械中的至少一种(例如,各种类型的便携式医疗测量器械(血糖计、心率计、血压计或温度计等)、磁共振血管造影术(MRA)、磁共振成像(MRI)、计算机断层摄影(CT)、拍摄器件或超声波仪器等)、导航设备、全球导航卫星系统(GNSS)、事件数据记录器(EDR)、飞行数据记录器(FDR)、车辆信息娱乐设备、用于船舶的电子器件(例如,用于船舶的导航设备、陀螺仪等)、航空电子装置、安全设备、用于车辆的头部单元(控制单元)、工业或家用机器人、无人机、金融机构的ATM、商店的销售点(POS)、物联网(IoT)设备(例如,灯泡、各种类型的传感器、喷洒器设备、火灾报警器、恒温器、路灯、烤箱、锻炼设备、热水箱、加热器、锅炉等)。
在本公开中,术语“用户”可指使用电子装置的人或使用电子装置的设备(例如,人工智能电子装置)。
在下文中,将参考附图更详细地描述本公开。
图1是示出根据本公开的实施方式的电子装置的示例性操作的图。
如图1的左侧所示,电子装置100(例如,参考图2)可包括用于提供对用户查询的响应的对话系统。常规的对话系统只能提供对用户查询的响应,如图1的左侧所示。例如,电子装置100可仅对查询温度的查询提供关于温度的响应,并且仅对查询天气的查询提供关于天气的响应,并且仅对查询大气污染的程度的查询提供关于大气污染的程度的响应。
根据图1的左侧所示的传统对话系统,用户可执行关于温度检查、天气检查和大气污染检查的相应查询,并获取对于相应查询的响应,或者执行关于所有温度检查、天气检查和大气污染检查的查询,并获取响应。
然而,即使当电子装置100的用户主要执行询问天气的查询和询问大气污染程度的查询以及询问温度的查询时,电子装置100也只提供对用户查询的响应,并且由此产生不必要的对话轮次。因此,根据本公开的实施方式,为了减少不必要的对话轮次,电子装置100可学习用户的对话历史,并且如图1的右侧所示,对于询问天气的查询提供关于温度和大气污染的信息。
例如,电子装置100可基于例如用户的对话历史、用户设置的偏好信息等,提供对用户查询的响应和对用户预期额外查询的附加查询的响应。
根据本公开的实施方式,电子装置100可接收用户的第一发声的输入,识别用于第一发声的第一任务,并根据预定的响应模式对第一任务提供响应。此后,电子装置100可接收第二发声的输入,识别用于第二发声的第二任务,并且基于第一任务和第二任务之间关联度满足预定条件,基于第二任务设置对于第一任务的响应模式。因此,在稍后再次输入第一发声的情况下,可基于第二任务根据对于第一任务集的响应模式来提供响应。
响应模式可指例如响应的长度、包括在响应中的信息的类型和/或包括在响应中的信息片的数量中的至少一个。响应模式的设置可包括新生成响应模式以及改变先前的响应模式。响应模式的设置可由用户通过手动方法执行,或者可自动执行。
根据实施方式,电子装置100可执行获取或识别用户。因此,电子装置100可为每个用户单独存储不同的用户对话历史和由用户设置的偏好信息。
例如,当电子装置100登录到基于AI的服务,例如智能电话时,电子装置100可基于用户发声来更新当前登录的用户的对话历史和偏好信息。
当电子装置100为可由多个用户使用的公共设备(例如AI扬声器)时,电子装置100可基于用户发声来识别用户。识别用户的过程可包括,例如,基于用户发声的音调、声调、发音和速度等特征来确定用户的过程。例如,电子装置100可将接收到的用户发声输入至经训练的人工智能模型中,并且通过经训练的人工智能模型获得关于用户发声的声学特征的信息,诸如关于用户发声的语音的信息、关于用户发声的单位音素的信息等。此外,电子装置100可将所获得的、关于用户发声的声学特征的信息与预先存储的、关于用户发声的声学特征的信息进行比较,并且识别作为所接收的用户发声的主体的用户。
基于根据用户发声识别出用户,电子装置100可更新识别的会话历史和用户的偏好信息。
当电子装置100包括相机时,电子装置可通过相机获得用户图像,并且基于所获得的用户图像执行对象识别来识别用户。
例如,电子装置100可提取包括在所获得的用户图像中的对象的特征,获得包括在所获得的用户图像中的对象对应于基于所提取的对象特征对对象分类的多个类别中的每个的概率,并且获得包括在所获得的用户图像中的对象。当包括在所获得的用户图像中的对象被识别时,电子装置100可将关于所识别的对象的信息与包括在预存储的用户图像中的对象的信息进行比较,并且识别对应于用户图像的用户。
像基于用户发声来识别用户的过程一样,基于用户图像来识别用户的过程例如可通过人工智能模型来执行,该人工智能模型包括人工神经网络,例如但不限于深度神经网络(DNN)、卷积神经网络(CNN)、递归神经网络(RNN)、生成对手网络(GAN)等。
图2是示出根据本公开的实施方式的示例性电子装置的示例性配置的框图。如图2所示,电子装置100可包括存储器110和处理器120(例如,包括处理电路)。
存储器110可存储与电子装置100的至少一个其它组件有关的命令或数据。例如,存储器110可实现为非易失性存储器、易失性存储器、闪存、硬盘驱动器(HDD)或固态驱动器(SSD)等。此外,处理器120可对存储器110进行存取,并且处理器120执行对数据的读取/记录/校正/删除/更新等。在本公开中,术语存储器可包括存储器110、处理器120内的ROM(未示出)、RAM(未示出)、或安装在电子装置100上的存储卡(未示出)(例如,微型SD卡、记忆棒)。此外,在存储器110中,可存储用于构成要在显示器150的显示区域中显示的各种类型的屏幕的程序和数据等。
存储器110可存储对话系统,该对话系统提供对用户输入(例如,用户发声)的响应。如图4所示,对话系统可包括,例如,但不限于,自动语音识别(ASR)部分(例如,包括处理电路和/或可执行程序元件)410、自然语言理解(NLU)部分(例如,包括处理电路和/或可执行程序元件)420、对话管理器(DM)(例如,包括处理电路和/或可执行程序元件)430。自然语言生成(NLG)部分(例如,包括处理电路和/或可执行程序元件)440、文本至语音(TTS)(例如,包括处理电路和/或可执行程序元件)450以及知识数据库460。
自动语音识别部分410可包括各种处理电路和/或可执行程序元件,其用于通过对经由麦克风输入的用户发声执行语音识别来将用户发声转换为电子装置100可处理的文本的形式。自动语音识别部分410可包括用于校正转换错误、用户的唯一发声、发声错误等的语言模型。自然语言理解部分420可包括各种处理电路和/或可执行程序元件,其用于基于语音识别的结果来识别与实体和用户发声的意图有关的任务。例如,自然语言理解部分420可通过分析句子的结构和主要成分并使用统计/分析等来解释句子,从而执行句子分析。对话管理器430可包括各种处理电路和/或可执行程序元件,其用于基于自然语言理解的结果和存储在知识数据库460中的数据来获取关于用户发声的响应的信息。对话管理器430可例如基于帧、基于代理等来实现,并且可通过基于马尔可夫决策过程(MDP)和强化学习的建模来实现。对话管理器430可获取用于生成响应的信息,并且如上所述,所获取的信息可基于通过自然语言理解部分420和存储在知识数据库460中的数据识别的任务来确定。自然语言生成部分440可包括各种处理电路和/或可执行程序元件,并且可基于通过对话管理器430获取的信息获取自然语言作为对用户发声的响应。TTS 450可包括各种处理电路和/或可执行程序元件,并将所获取的自然语言转换为语音。通过上述方式,对话系统可将对用户发声的响应提供为语音,并且用户可与电子装置100执行对话。
例如,根据本公开的实施方式的自然语言生成部分440可输入通过对话管理器430和知识数据库460获取的信息作为人工智能模型的输入值,并获取自然语言作为对用户发声的响应。
知识数据库460可例如,在对话管理器430处存储用于生成响应所必需的信息。存储在知识数据库460中的数据可为不同的。例如,知识数据库460可存储用户偏好信息。用户偏好信息可涉及例如关于用户发声的用户偏好的响应类型。用户喜欢的响应类型可例如是提供对用户发声的响应的响应类型或者提供关于用户发声的附加查询的响应类型。用户偏好的响应类型可包括针对提供对用户发声的响应的响应类型或提供关于用户发声的附加查询的响应类型中的每个用于设置响应(或查询)的细节的信息。例如,用户偏好信息可以是提供关于用户发声的附加查询的类型,并且附加查询可以是关于以“是”或“否”的形式构成的查询的信息。用户偏好信息可例如是提供关于用户发声的附加查询的类型,并且附加查询可为关于构成为选择多个备选方案之一的查询的信息。用户偏好信息可以是提供对用户发声的响应的类型以及与包括在响应中的多条信息的有关的信息。
知识数据库460可存储用户过去的发声历史。例如,知识数据库460可存储与过去用户发声和对发声的响应有关的历史信息以及与响应有关的再发声。存储历史信息的方法可以是不同的。例如,历史信息可包括本体,该本体包括关于多个任务之间的关联度的信息,该多个任务与多个用户发声有关。历史信息可以是这样的形式,在该形式中,关于用户发声的信息、对发声的响应、以及关于该响应再发声的信息以数据集(例如(查询、响应))的形式被存储。
存储器110可存储用于操作对话系统的人工智能代理。例如,电子装置100可使用人工智能代理来生成自然语言作为对用户发声的响应。人工智能代理可指例如用于提供基于人工智能(AI)的服务(例如,语音识别服务、代理服务、翻译服务、搜索服务等)的专用程序,并且可以但不限于例如由常规通用处理器(例如,CPU)或单独的AI专用处理器(例如,GPU等)执行。
例如,在输入用户发声的情况下,人工智能代理可操作。人工智能代理可将用户查询输入至经训练的人工智能学习模型中并获取响应。如果输入用户发声(例如,用于执行人工智能功能的触发语音)或选择预定按钮(例如,用于执行人工智能代理功能的按钮),则人工智能代理可操作。人工智能代理可在输入用户发声或选择预定按钮之前,已经执行。在该示例中,在输入用户发声或选择预定按钮之后,电子装置100的人工智能代理可获取自然语言作为对用户发声的响应。人工智能代理可在输入用户发声或选择预定按钮之前处于待机状态。待机状态可指例如检测到接收到预定用户输入以用于控制人工智能代理的操作开始的状态。如果在人工智能代理处于待机状态时输入用户发声或选择预定按钮,则电子装置100可操作人工智能代理,并获取自然语言作为对用户发声的响应。
根据本公开的实施方式,存储器110可存储经训练以生成(或获取)自然语言的人工智能模型。在本公开中,可考虑识别模型应用或装置的计算机性能等领域,来构建经训练的人工智能模型。例如,可训练人工智能模型以使用从对话管理器430和知识数据库460获取的信息作为输入数据来获取自然语言。为了生成自然的自然语言,经训练的人工智能模型可为基于神经网络的模型。人工智能模型可例如设计成在计算机上模拟人脑结构,并且可包括具有模拟人的神经网络的神经元的权重的多个网络节点。多个网络节点可各自形成连接关系,以便模拟经由突触交换信号的神经元的突触活动。此外,文档概要模型可包括,例如,神经网络模型,或从神经网络模型开发的深度学习模型。在深度学习模型中,多个网络节点可位于彼此不同的深度(或层),并且根据卷积连接的关系来交换数据。经训练的人工智能模型的示例可包括,例如,但不限于,深度神经网络(DNN)、递归神经网络(RNN)、双向递归深度神经网络(BRDNN)等,但经训练的人工智能模型不限于此。
在上述实施方式中,描述了人工智能模型存储在电子装置100中,但是这仅仅是示例,并且人工智能模型可存储在另一电子装置中。例如,人工智能模型可存储在至少一个外部服务器中。电子装置100能接收用户发声的输入,并将发声发送至存储人工智能模型的外部服务器,并且存储在外部服务器中的人工智能模型能输入从电子装置100接收的用户发声作为输入值,并且输出结果。
处理器120可包括各种处理电路,并且与存储器110电连接,并且控制电子装置100的整体操作和功能。
例如,处理器120可接收用户发声的输入,并且基于输入的用户发声来确定与用户发声相关的任务。例如,与用户发声相关的任务可包括对用户发声的响应所必需的信息。例如,在用户发声是查询天气的查询的情况下,任务可为天气检查。在用户发声是查询温度的查询的示例中,任务可为温度检查。在用户发声是查询大气污染程度的查询的示例中,任务可为大气污染检查。
处理器120可基于与用户发声有关的任务来确定与用户发声有关的任务以及与该任务有关的附加任务的响应模式。例如,处理器120可识别用于第一用户发声的第一任务和用于第二用户发声的第二任务。如果第一任务和第二任务之间的关联度满足预定条件,则处理器120可基于第二任务设置用于第一发声响应模式。例如,在第一任务与第二任务相关联的情况下,处理器120可基于第一任务和第二任务来确定响应模式。预定条件可例如是关于第一任务和第二任务之间的关联度的信息等于或大于阈值的条件。
响应模式可通过各种方法来确定。例如,响应模式可包括与对用户发声的响应的长度相关的信息或与包括在对用户发声的响应中的信息的类型相关的信息中的至少一种,并且可基于上述信息来确定。响应模式可基于发声历史和用户偏好信息来确定,其中该发声历史包括用户发声和用于执行附加任务的附加发声。附加任务(或第二任务)可为与确定的任务(或第一任务)相关的任务。例如,在确定的任务是温度检查的情况下,附加任务可为具有与温度检查高度关联的天气检查、大气污染检查等。
响应模式可为由用户命令选择的响应模式,或基于发声历史自动生成的响应模式。例如,在存在具有在预定时间段内输入第一发声和第二发声的条件的用户命令的情况下,如果在输入第一发声之后的预定时间内输入第二发声,则处理器120可确定用于第一发声的第一任务和用于第二发声的第二任务彼此相关联,并且确定响应模式。如果输入了用于预定类别的用于发声的用户命令,则处理器120可确定用于第一发声的第一任务和用于第二发声的第二任务相对于该类别彼此相关联,并确定响应模式。在用户命令与响应的长度和类型相关联的情况下,处理器120可基于响应的长度或根据用户命令确定的响应的类型来确定响应模式。处理器120可根据上述各种用户命令来确定响应模式,但是本公开不限于此,并且可自动设置响应模式。
处理器120可获取对于与用户发声有关的任务的响应信息和对于附加任务的响应信息,并且将获取的响应信息和附加响应信息提供给用户。例如,处理器120可基于第一任务和第二任务为确定的响应模式提供响应。
处理器120可将关于任务和附加任务之间的关联度的信息存储在存储器110中。例如,处理器120可将关于任务和附加任务之间的关联度的信息存储在知识数据库460中。
附加任务(或第二任务)可为与根据用户发声确定的任务相关联的程度大于阈值的任务。例如,处理器120可确定其关于与根据用户发声确定的任务的关联度的信息大于作为附加任务的阈值的任务。例如,在根据用户发声确定的任务是温度检查,并且温度检查任务和天气检查任务之间的关联度是0.9,并且温度检查任务和大气污染检查任务之间的关联度是0.5,并且阈值是0.7的情况下,处理器120可将与温度检查任务的关联度大于0.7的天气检查任务确定为附加任务,并且可不将与温度检查任务相关联的程度小于0.7的大气污染检查任务确定为附加任务。
处理器120可接收用户的第三发声的输入,识别用于第三发声的第三任务,并确定所识别的第三任务与第一任务之间的关联度。如果第一任务和第三任务之间的关联度满足预定条件,则处理器120可确定第二任务和第三任务的优先级,并且基于所确定的优先级、第二任务和第三任务设置对于第一发声的响应模式。
例如,在确定多个附加任务的情况下,处理器120可确定与用于用户发声的任务和多个确定的任务之间的关联度有关的信息,并且基于所确定的与关联度有关的信息来确定对附加任务提供响应的顺序。例如,当用于用户发声的任务是温度检查任务,并且确定的附加任务是天气检查任务、大气污染检查任务和人口密度检查,并且温度检查任务和天气检查任务之间的关联度是0.9,并且温度检查任务和大气污染检查任务之间的关联度是0.5,并且温度检查任务和人口密度检查任务之间的关联度是0.3,处理器120可首先针对具有高关联度的任务提供附加响应。例如,关于用户发声“今天首尔(Seoul)的温度多少?”,处理器120可按用户发声的温度检查任务的响应、天气检查任务的附加响应、大气污染检查任务的附加响应、以及人口密度检查任务的附加响应的顺序提供响应,例如“今天首尔的温度是20度,天气良好,细尘的浓度为10,以及人口密度低”。
根据本公开的另一实施方式,其中针对基于与第一任务相关联的第二任务设置针对第一发声的第一任务所设置的响应模式,如果输入不同于第一和第二发声的第三发声,则处理器120可确定用于第三发声的第三任务是否与用于第一发声的第一任务相关联。如果存在关联,则处理器120可根据针对第一任务设置的响应模式来提供响应。
处理器120可获取所提供的响应的反馈,并基于获取的反馈来更新第一任务与第二任务之间的关联度。例如,处理器120可获取对响应信息和针对用户发声提供的附加响应信息的用户反馈,并且基于获取的反馈来更新与用于用户发声的任务和附加任务之间的关联度有关的信息。例如,关于用户发声“今天首尔的温度是多少?”,提供诸如“今天首尔的温度为20度,天气良好,细尘浓度为10,人口密度低”的响应,如果在天气信息之后输入用户反馈结束响应,则处理器120可降低温度检查任务和大气污染检查任务之间的关联度以及温度检查任务和人口密度检查任务之间的关联度。
处理器120可接收关于针对用户发声提供的响应信息和附加响应信息的附加用户发声的输入,并且基于输入附加用户发声的任务来更新关于用于用户发声的任务和用于附加用户发声的任务之间的关联度的信息。例如,如果关于用户发声“今天首尔的温度是多少?”提供一个响应,例如“今天首尔的温度是20度,天气良好”,然后提供一个附加的用户话语,例如“今天首尔的细尘浓度怎样?”作为输入,处理器120可提供响应,例如“今日首尔的细尘浓度良好,为10”,并且更新关于温度检查任务和大气污染检查任务之间的关联度的信息。
处理器120可提供用户发声的响应信息,并提供用于提供附加响应信息的查询消息。也就是说,处理器120可不同时提供对用户发声的响应信息和附加响应信息,而是提供查询是否要提供附加响应信息的查询消息。例如,如果用户发声输入“今天首尔的温度是多少?”,处理器120可提供对用户发声的响应和查询消息,例如“今天首尔的温度是20度。你想知道首尔的天气吗?”。如果接收到用于查询消息的用户命令,则处理器120可为用户命令提供附加响应。例如,处理器120可提供对用户发声的响应和用于提供附加响应信息的查询消息,诸如“你想知道首尔的天气吗?”。如果处理器120接收到对用户查询“你还想知道首尔的天气?”的用户命令“是”,则处理器120可提供附加响应,例如“今天首尔的天气良好”。
处理器120可基于关于用于用户发声的任务和与用于用户发声的任务相关的附加任务之间的关联度的信息,以例如本体的形式将用于用户发声的任务和与该任务相关的附加任务存储在存储器110中。例如,处理器120可基于第一任务和第二任务之间的关联度以本体的形式将第一任务和第二任务存储在存储器110中。
处理器120的上述各种操作可由人工智能模型执行。例如,由人工智能模型执行确定与用户发声相关的任务的操作、确定响应模式的操作、获取附加响应信息的操作以及提供附加响应信息的操作中的至少一个步骤,并且人工智能模型可包括分别包括至少一个节点的多个层,并且每个所述至少一个节点可为具有用于解释输入值的连接权重的神经网络模型。
图3是示出根据本公开的实施方式的示例性电子装置的示例性配置的框图。
如图3所示,除了存储器110和处理器120之外,电子装置100还可包括通信器(例如,包括通信电路)130、输入器(例如,包括输入电路)140、显示器150和音频输出器(例如,包括音频输出电路)160。然而,电子装置100的组件不限于上述组件,并且根据需要可添加或省略一些组件。
通信器130可包括各种通信电路和与外部装置的通信。通信器130和外部装置之间的通信连接可包括通过第三装置(例如,中继器、集线器、接入点、服务器或网关)的通信。无线通信可包括,例如,但不限于,使用LTE、LTE高级(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)、全球移动通信系统(GSM)等中的至少一个的蜂窝通信。根据实施方式,无线通信可包括例如无线保真(WiFi)、蓝牙、蓝牙低能量(BLE)、Zigbee、近场通信(NFC)、磁安全传输、射频(RF)或体域网(BAN)中的至少一个。有线通信可包括例如通用串行总线(USB)、高清晰度多媒体接口(HDMI)、推荐的标准232(RS-232)、电力线通信或普通老式电话服务(POTS)中的至少一个。执行无线通信或有线通信的网络可包括电信网络,例如计算机网络(例如,LAN或WAN)、因特网或电话网络中的至少一个。
输入器140可包括各种输入电路并接收用户命令的输入。输入器140可包括例如但不限于相机141、麦克风142、触摸面板143等。
相机141可包括用于获取电子装置100周围的图像数据的各种电路。相机141可拍摄静止图像和运动图像。例如,相机141可包括图像传感器(例如,前表面传感器或后表面传感器)、镜头、图像信号处理器(ISP)或闪存(例如,LED或氙灯等)中的一个或多个。麦克风142可包括用于获取电子装置100周围的声音的各种电路。麦克风142可接收外部声信号的输入并生成电子语音信息。麦克风142可使用各种噪声消除算法来消除在接收外部声信号的输入的过程中生成的噪声。通过相机141或麦克风142输入的图像信息或语音信息可作为人工智能模型的输入值输入。
触摸面板143可包括各种电路并接收各种用户输入的输入。触摸面板143可通过用户操作接收数据的输入。此外,触摸面板143可以与稍后将描述的显示器的相结合地被包括。
除了前述相机141、麦克风142和触摸面板143之外,输入器140可为接收各种数据的输入的各种组件。
显示器150可包括用于输出各种图像的组件。用于提供各种图像的显示器150可实现为各种形式的显示面板。例如,显示面板可实现为各种显示技术,例如,但不限于液晶显示器(LCD)、有机发光二极管(OLED)、有源矩阵有机发光二极管(AM-OLED)、硅上液晶(LCOS)、数字光处理(DLP)等。显示器150可以以柔性显示器的形式联接至电子装置100的前表面区域、侧表面区域、或后表面区域中的至少一个。
音频输出器160可包括各种音频输出电路,该音频输出电路不仅用于输出已经进行各种处理工作(例如解码或放大、以及由音频处理器执行了噪声滤波)的各种音频数据,还用于输出各种通知声音或语音消息。音频处理器是执行音频数据处理的组件。在音频处理器处,可执行各种处理,例如解码或放大、以及音频数据的噪声滤波。在音频处理器150处处理的音频数据可输出至音频输出器160。特别地,音频输出器可实现为扬声器,但是这仅仅是一个示例,并且音频输出器可实现为能够输出音频数据的输出终端。
如上所述,处理器120可包括各种处理电路并控制电子装置100的整体操作。处理器120可包括RAM 121、ROM 122、主CPU 124、图形处理器123、第一接口至第n接口125-1至125-n和总线126。RAM 121、ROM 122、主CPU 124、图形处理器123和第一接口至第n接口125-1至125-n等可通过总线126彼此连接。
ROM 122存储用于系统引导的一组指令等。当输入接通指令并供电时,主CPU 124根据存储在ROM 122中的指令复制存储在RAM 121中的存储器中的O/S,并通过执行O/S来引导系统。当引导完成时,主CPU 124复制存储在RAM 121中的存储器中的各种类型的应用,并通过执行在RAM 121中复制的应用来执行各种类型的操作。
主CPU 124对存储器110进行存取,并且使用存储在存储器110中的O/S执行引导。主CPU 124使用存储在存储器110中的各种类型的程序、内容、数据等来执行各种操作。
第一接口至第n接口125-1至125-n可与上述各种类型的组件连接。接口中的一个可为通过网络与外部装置连接的网络接口。
图5A是示出根据本公开的实施方式的用于对用户发声提供响应的示例性方法的流程图。
当输入用户发声时,在操作S510,电子装置可确定与输入的用户发声相关联的任务。例如,电子装置100可通过自然语言理解部分420获取用户发声输入的实体和意图,并确定用于用户发声的任务。根据本公开的实施方式,电子装置100可通过自然语言理解部分420获取用户发声中的对话动作、主要动作和实体。对话动作可指例如以用于执行包括在发声中的对话为目的扬声器的有意动作,并且指示用户发声是否为动作的请求(Request)、由扬声器对收听者的某一变量值的请求(WH-Question)、还是由扬声器对收听者的是/否(Y/N)的答案的请求(YN-Question)、或通过扬声器对收听者提供信息(通知)等。此外,主要动作是指语义信息,其通过特定域中的对话的发声来指示所期望的动作。此外,实体是添加用于指定在特定域中预期的动作的含义的信息。
例如,在用户发声是“今天的天气怎样?”的情况下,在用户发声的对话动作可为“WH-Question”的情况下,主要动作可为“天气检查”,并且实体可为“今天”。因此,用于用户发声的任务可被确定为检查今天的天气并提供响应。
电子装置100可确定不包括在用户话语中但是与作为实体的主要动作相关联的附加信息。关于哪个附加信息与主要动作相关联的信息可预先存储在电子装置100中。例如,在与作为主要动作的“天气检查”相关联的附加信息是电子装置100的当前位置的情况下,电子装置100可将电子装置100(例如“Yangjae-dong”)的当前位置确定为实体,尽管它不包括在用户发声“今天的天气怎样?”中。电子装置100可确定用于用户发声的任务为检查今天Yangjae-dong的天气,并基于从用户发声获得的实体“今天”和从与主要动作相关联的附加信息获得的实体Yangjae-dong提供响应。
在操作S520,电子装置100可确定与所确定的任务相关的附加任务。具体地,电子装置100可基于例如过去的用户发声历史信息和用户偏好信息来确定与所确定的任务相关的附加任务。例如,在所确定的任务是天气检查任务的情况下,电子装置100可基于用户发声历史和用户偏好信息将温度检查任务和大气污染检查任务确定为附加任务。
在操作S530,电子装置100可基于关于所确定的任务和附加任务之间的关联度的信息来确定附加响应信息。例如,电子装置100可在与所确定的任务相关的多个附加任务中确定关联度大于阈值的任务作为附加任务。例如,如果根据用户发声确定的任务是温度检查,并且温度检查任务和天气检查任务之间的关联度是0.9,并且温度检查任务和大气污染检查任务之间的关联度是0.5,并且阈值是0.7,则电子装置100可将与温度检查任务的关联度大于0.7的天气检查任务确定为附加任务,并且可以不将与温度检查任务的关联度小于0.7的大气污染检查任务确定为附加任务。可通过各种方法来确定阈值。作为一个示例,可通过用户设置来确定阈值。作为另一个示例,可通过将用户发声和对用户发声的响应作为输入值输入到经训练的人工智能模型中来输出阈值。
此外,在操作S540,电子装置100可提供用于确定的任务的响应信息和附加响应信息。例如,电子装置100的自然语言生成部分440可基于响应信息和用于确定任务的附加响应信息来生成对作为自然语言的用户发声的响应,并提供该响应。然而,本公开不限于此,并且电子装置100可以以文本的形式提供用于所确定的任务的响应信息和附加响应信息。
如果提供了对用户发声的响应,则在操作S550,电子装置100可基于输入的用户发声和用于用户发声的附加响应信息更新知识数据库460。例如,电子装置100可将输入的用户发声和用于用户发声的附加响应信息作为输入值输入至经训练的人工智能模型中,并且更新关于多个任务之间的关联度的信息,并且将更新的关于关联度的信息存储在知识数据库460中。作为另一个示例,电子装置100可将输入的用户发声和用于用户发声的附加响应信息作为输入值输入到经过训练的人工智能模型中,并且更新用于与用户发声相关的任务的阈值,并且更新知识数据库460中的已更新阈值。
图5B是示出根据本公开的另一实施方式的用于提供附加响应的示例性方法的图。
例如,电子装置100可对用户发声提供响应信息,并提供用于提供附加响应信息的查询消息。例如,电子装置100可不同时提供对用户发声的响应信息和附加响应信息,而是提供查询是否要提供附加响应信息的查询消息。例如,如果用户发声以“今天首尔的温度是多少?”作为输入,电子装置100可提供对用户发声的响应和查询消息,例如“今天首尔的温度是20度。你还想知道首尔的天气吗?”如果接收到用于查询消息的用户命令,则电子装置100可为用户命令提供附加响应。即,电子装置100可提供对用户发声的响应和用于提供附加响应信息的查询消息,例如“你还想知道首尔的天气吗?”。如果电子装置100接收到对用户查询“你还想知道首尔的天气吗”的用户命令为“是”,则电子装置100可提供附加响应,例如“今天首尔的天气良好”。
图6A是示出根据本公开的实施方式的用于更新与任务之间的关联度有关的信息的示例性方法的图,并且图6B是示出根据本公开的实施方式的与存储在知识数据库460中的任务之间的关联度有关的信息的示例的图。
如图6A所示,电子装置100可基于用户发声历史和用户偏好信息来更新关于温度检查任务、天气检查任务、大气污染检查任务、和人口密度检查任务之间的关联度的信息。
例如,如图6A的左侧所示,在初始状态中,每个任务之间的关联度可为0。在该示例中,电子装置100可针对请求温度检查的用户发声提供温度信息,针对请求天气检查的用户发声提供天气信息,针对请求大气污染检查的用户发声提供大气污染信息,以及针对请求人口密度检查的用户发声提供人口密度信息。
当在知识数据库460中累积用户发声和对用户发声的响应信息时,电子装置100可基于累积的数据更新每个任务之间的关联度的信息。例如,电子装置100可基于用户发声中的用于每个相同实体的关联任务的信息来更新每个任务之间的关联度的信息。例如,如果输入与用于相同实体(地点)的多个任务(温度检查、天气检查、大气污染检查等)相关的用户发声,则电子装置100可更新与用于相同实体的多个任务中的每个任务之间的关联度有关的信息。
作为另一个示例,如果存在用于对用户发声的响应的附加用户发声,则电子装置100可基于用于用户发声的任务的信息和用于附加用户发声的任务的信息来更新每个任务之间的关联度的信息。例如,如果存在对用户发声和附加用户发声的响应,则电子装置100可增加用于用户发声的任务和用于附加用户发声的任务之间的关联度。例如,在电子装置100提供通知关于请求温度检查的用户发声的温度的响应之后,如果输入了请求天气检查的附加用户发声,则电子装置100可提高温度检查任务和天气检查任务之间的关联度。电子装置100可考虑用户发声和附加用户发声的输入顺序来更新任务信息。例如,如果按照温度检查任务、天气检查任务和大气污染检查任务的顺序输入了用于用户发声的任务和用于附加发声的任务,则电子装置100可将温度检查任务和天气检查任务之间的关联度设置为高于温度检查任务和大气污染检查任务之间的关联度。
作为另一个示例,电子装置100可基于用于对用户发声的响应的反馈来更新每个任务中的信息。例如,在提供对用户发声的响应的同时,如果输入了停止响应的用户命令,则电子装置100可降低在输入了停止响应的用户命令之后要提供的对应于所述响应的任务与对应于用户发声的任务之间的关联度。作为示例,可假设其中电子装置100将对用户发声“今天的温度多少?”提供的响应是“今天的温度是20度并且天气很好”的情况。在电子装置100提供关于今天的温度的响应的情况下,并且在电子装置100提供关于天气的响应的同时,输入停止响应并且不能提供关于天气的响应的用户命令,电子装置100可降低温度检查任务和天气检查任务之间的关联度。
电子装置100可基于用户发声历史和用户偏好信息更新任务之间的关联度,并且还可更新用于确定附加任务的阈值。
总之,电子装置100可更新关于每个任务之间的关联度的信息,并基于用户发声的历史信息和用户偏好信息在知识数据库460中存储该信息,如图6A所示。例如,如图6B所示,根据如上所述的本公开的各种实施方式,关于“天气”和“良好/多云……、UV射线、温度、湿度、空气质量和明天天气”之间的关联度的信息,关于“明天天气”和“明天温度、明天空气质量、和明天湿度”的关联度的信息,以及关于“地点”和“旅行地点、天气、住宿、交通、著名的餐馆和城市信息”之间的关联度的信息可存储在知识数据库460中。
图7是示出根据本公开的实施方式的对用户发声提供响应的示例的图。
如图7所示,如果输入了用户发声,则电子装置100可分析用户发声并对用户发声生成响应。电子装置100可以表的形式存储用户发声和与用户发声相关的信息。例如,存储的表可包括查询主题(例如,天气信息、交通时刻表等)、查询频率(例如,每天n次等)、连续查询的平均时间(关于用户发声的附加查询的时间)以及查询的详细内容的信息。
例如,电子装置100可不仅存储对用户发声的响应,而且匹配附加用户发声和关于附加用户发声的响应信息并存储它们。如果获得用于各种用户发声历史的表之后输入了用户发声,则电子装置100可基于各种用户发声历史的表来确定对用户发声的响应。
图8A、图8B、图9、图10、和图11是示出根据本公开的实施方式的其中对用户发声的响应是查询类型的示例的图。
图5A、图5B、图6、和图7描述了其中电子装置100对用户发声的响应类型是响应提供类型的示例,但本公开不限于此。例如,在用户发声中存在不清楚的部分的情况下,电子装置100可不对用户发声提供答案,而是提供关于用户发声的不充分部分的查询的响应。例如,如果作为分析用户发声的结果,在实体或任务中存在省略的部分,或者存在用于用户发声的多个任务,则电子装置100可提供请求省略的任务或实体的查询,或者提供询问在多个任务中选择哪个任务的查询。例如,在输入了例如“今天天气怎样?”的用户发声时,电子装置100可确定省略与地点相关的实体,并提供例如“你想知道今天的天气吗?”的响应。在输入诸如“Call Saebom”的用户发声的情况下(参见例如图8A),电子装置100可确定存在多个搜索的“Saebom”,并且提供诸如“在Saebom Choi、Saebom Lee和Saebom Park之间我应该呼叫谁?”的响应。
如果对用户发声的响应类型是查询提供类型,则电子装置100可提供接收对于用户发声的多个备选方案之一进行选择的选择类型,或者提供关于多个备选方案中哪一个是正确的查询的是/否(Yes/No)类型之一,作为对用户发声的响应。
例如,如果输入了诸如“呼叫Saebom”的用户发声,则电子装置100可决定对用户发声的响应为查询提供类型。如图8A所示,电子装置100可提供对用户发声的响应作为选择类型,用于接收对多个备选(Saebom Choi、Saebom Lee、和Saebom Park)之一的选择,诸如“搜索到三个Saebom。在Saebom Choi、Saebom Lee和Saebom Park之间我应该呼叫谁?”。如图8B所示,电子装置100可将对用户发声的响应提供为确定多个备选方案之一的“是/否”类型,并且查询所确定的备选方案是否正确,如“我应该呼叫Saebom Lee吗?”。
电子装置100可决定是否提供作为选择类型的响应,或者是通过各种方法提供作为是/否类型的响应。作为示例,电子装置100可根据用户设置来决定响应提供类型。例如,如果用户设置提供作为选择类型的响应,则电子装置100可提供作为选择类型的响应,并且如果用户设置提供作为是/否类型的响应,则电子装置100可提供作为是/否类型的响应。作为另一个示例,电子装置100可确定用于用户发声的任务,确定用于所确定的任务的多个备选方案,并且基于关于所确定的任务与所述多个备选方案之间的关联度的信息和阈值来决定选择类型和是/否类型之间的一种类型。例如,如果输入了诸如“Call Saebom”之类的用户发声,则电子装置100可获取用于用户发声的呼叫发送任务,并且获取供对象发送呼叫的多个备选方案(Saebom Choi、Saebom Lee和Saebom Park)。在呼叫发送任务与Saebom Choi之间的关联度是0.1,呼叫发送任务与Saebom Lee之间的关联度是0.9,呼叫发送任务与Saebom Park之间的关联度是0.5,并且阈值是0.7的情况下,因为存在一个大于阈值的替代方案(Saebom Lee),所以电子装置100可提供响应,诸如“我应该叫Saebom Lee吗?”(是/否类型)。在呼叫发送任务与Saebom Choi之间的关联度是0.1,并且呼叫发送任务与SaebomLee之间的关联度是0.9,并且呼叫发送任务与Saebom Park之间的关联度是0.5,并且阈值是0.3的情况下,因为存在多个大于阈值的替代(Saebom Lee、Saebom Park),电子装置100可提供响应,例如“在Saebom Lee和Saebom Park之间我应该呼叫谁?”(选择类型)。作为另一个示例,在呼叫发送任务和Saebom Choi之间的关联度是0.1,并且呼叫发送任务和Saebom Lee之间的关联度是0.9,并且呼叫发送任务和Saebom Park之间的关联度是0.5,并且阈值是0.3的情况下,电子装置100可提供响应,诸如“在Saebom Choi、Saebom Lee、Saebom Park之间我应该呼叫谁?”(选择类型)。例如,如果存在多个大于阈值的替代方案,则电子装置100可提供小于阈值的替代方案(Saebom Park)作为响应。
图9是示出根据本公开的实施方式的用于对用户发声提供查询类型响应的示例性方法的流程图。
当输入用户发声时,在操作S910,电子装置100可确定与输入的用户发声相关的任务。例如,电子装置100可通过自然语言理解部分420获取用户发声输入的实体和任务,并确定用于用户发声的任务。作为示例,在用户发声是“呼叫Saebom”的情况下,所确定的任务可为发送呼叫。
在操作S920,电子装置100可基于所确定的任务来确定包括在确定的响应信息中的附加查询。例如,可能存在用于执行任务所必需的多条信息。例如,在存在用于执行任务所必需的多条信息的情况下,电子装置100可确定用于确定多条信息中的一条信息的附加查询。例如,附加查询可为选择类型,诸如“搜索到三个Saeboms。在Saebom Choi、SaebomLee、和Saebom Park之间我应该呼叫谁?”,或是/否类型,诸如“我应该呼叫Saebom Lee吗?”
在操作S930,电子装置100可基于关于所确定的任务和附加查询之间的关联度的信息来确定附加响应信息。例如,电子装置100可确定用于用户发声的任务,确定用于所确定的任务的多条信息,并且基于关于所确定的任务与基于多个备选方案和阈值而决定的附加查询之间的关联度的信息来确定选择类型或是/否类型之间的一种类型。如上所述,在存在大于阈值的一个附加查询的情况下,电子装置100可决定是/否类型为附加信息,并且在存在大于阈值的多个附加查询的情况下,电子装置100可决定选择类型为附加查询。
在操作S940,电子装置100可提供用于所确定的任务的响应信息和附加查询(或附加响应)。作为示例,电子装置100的自然语言生成部分440可基于响应信息和用于所决定的任务的附加响应信息来生成作为自然语言的对用户发声的响应,并提供该响应。然而,本公开不限于此,并且电子装置100可以以文本的形式针对所决定的任务提供响应信息和附加响应信息。
在操作S950,在提供对用户发声的响应的情况下,电子装置100可基于输入的用户发声和用于用户发声的附加响应信息(例如,附加查询)来更新知识数据库460。例如,电子装置100可将输入的用户发声和用于用户发声的附加响应信息作为输入值输入到经训练的人工智能模型中,并且更新关于多个任务之间的关联度的信息,并且将更新的关于关联度的信息存储在知识数据库460中。作为另一个示例,电子装置100可作为输入值将输入的用户发声和用于用户发声的附加响应信息输入到经训练的人工智能模型中,并且更新与用户发声相关的任务的阈值,并且更新在知识数据库460中更新的阈值。
图10是示出根据本公开的又一实施方式的对用户发声提供响应的示例的图。
如图10所示,当输入用户发声时,电子装置100可分析用户发声,并生成关于用户发声的查询。当输入用于关于用户发声的查询的附加用户发声时,电子装置100可提供对附加用户发声的响应。电子装置100可以表的形式存储用户发声和与用户发声相关的信息。例如,所存储的表可包括关于查询主题的信息(呼叫的对应部分、发送消息的方法、搜索引擎等),查询类型(选择类型、是/否类型等)、响应类型(选择类型、是/否类型等)、响应内容、查询生成时间的信息等。
例如,电子装置100可匹配关于用户发声的附加查询、用于附加查询的响应类型、以及对附加查询的响应内容,并存储它们。当在获得各种用户发声历史的表之后输入用户发声时,电子装置100可基于关于各种用户发声历史的表来决定对用户发声的响应。
在电子装置100的上述各种操作由人工智能模型执行的情况下,电子装置100可操作人工智能模型,但是本公开不限于此。例如,如图11所示,人工智能模型的操作可在服务器200处执行。
例如,当输入用户发声时,电子装置100可将输入的用户发声发送至服务器200。服务器200可基于所接收的用户发声来确定与用户发声相关的任务,基于所确定的任务来确定包括与用户发声相关的任务和与所确定的任务相关的附加任务的响应模式,获取用于与用户发声相关的任务的响应信息和用于附加任务的附加响应信息,并且基于所获取的响应信息和附加响应信息来生成自然语言,并且将该自然语言发送至电子装置100。
根据实施方式,电子装置100和服务器200可通过远程通信彼此连接。
电子装置100和服务器200可通过短距离通信(例如,Wi-Fi、Wi-Fi直连、蓝牙)彼此连接。服务器200例如可为位于用户家中的设备。例如,服务器200可另外操作用于电子装置100的人工智能模型,同时在用户家中执行单独的功能,例如但不限于电视、冰箱、空调、AI扬声器等。
根据实施方式,服务器200可存储人工智能模型的几个组成部分。例如,服务器200可在图4的对话系统中仅存储知识数据库460。服务器200可为每个用户存储单独的知识数据库460,并且基于连接到服务器的电子装置100的用户信息,将用户的相应知识数据库460发送至电子装置100。服务器200可每隔一定时间,将知识数据库460发送至电子装置100,或者每当更新服务器200的知识数据库460时将其发送至电子装置100。
另一方面,在图8A、8B、图9、图10、和图11中,描述了在用户发声中存在不清楚部分的情况下,提供用于获取附加信息的附加查询的电子装置100。然而,即使在用户发声中存在不清楚的部分,电子装置100也可基于用户情景信息获取附加信息并对用户提供响应。例如,在用户发声是“天气怎样?”的情况下,电子装置100可确定用于请求天气检查的地点是不清楚的。电子装置100可使用GPS信息等来确定电子装置100的当前位置,并提供所确定位置的天气信息,而不是向用户提供用于请求天气检查地点的附加查询。作为另一个示例,其中用户发声是“Call Saebom”,而不是提供另外的查询,例如“在Saebom Choi、Saebom Lee、和Saebom Park之间我应该呼叫谁?”或者“我应该呼叫Saebom Choi吗?”,电子装置100可确定过去没有称为Saebom Lee和Saebom Park的日志,并且呼叫Saebom Choi。
图12是示出根据本公开的实施方式的控制电子装置的示例性方法的流程图。
在操作S1210,电子装置100可接收用户发声。在操作S1220,电子装置100可基于接收到的用户发声来确定与用户发声相关的任务。例如,在用户发声为“今天天气怎样?”的情况下。电子装置100可将“天气检查”确定为与用户发声相关的任务。作为另一个示例,在用户发声为“呼叫Saebom”的情况下,电子装置100可将“发送呼叫”确定为与用户发声相关的任务。
在操作S1230,电子装置100可基于与用户发声相关的任务来确定与用户发声相关的任务和与该任务相关的附加任务。例如,电子装置100可确定同与用户发声相关的任务的关联度大于阈值的任务作为附加任务。如上所述,可基于用户发声历史和用户偏好信息来确定同与用户发声相关的任务的关联度和阈值。
在操作S1240,电子装置100可获取用于与用户发声有关的任务的响应信息和对于附加任务的响应信息。在操作S1250,电子装置100可提供所获取的响应信息和附加响应信息。
图13是示出根据本公开的另一实施方式的控制电子装置的示例性方法的流程图。
参照图13,在操作S1310,电子装置100可接收用户的第一发声的输入。第一发声可为,例如,“Umyeon-dong的温度是多少?”。
在操作S1320,电子装置100可基于第一发声来识别用于第一发声的第一任务。第一个任务可为,例如,Umyeon-dong的天气检查。
在操作S1330,电子装置100可根据预定的响应模式提供用于第一任务的响应。例如,根据预定响应模式提供的用于第一任务的响应可为“今天Umyeong-dong的天气良好,并且温暖”。
在操作S1340,电子装置100可接收用户的第二发声的输入。例如,第二个发声可为“告诉我关于Umeyon-dong的细尘的浓度”。
在操作S1350,电子装置100可基于第二发声识别用于第二发声的第二任务,并确定第一任务和第二任务之间的关联度。
与关联度的确定分开,电子装置100可根据关于第二任务的预定响应模式来提供响应。例如,响应可为“Umyeon-dong中细尘的浓度为10,而超细尘的浓度为20”。
如果在操作S1350确定的关联度满足预定条件,则在操作S1360,电子装置100可基于第二任务设置用于第一任务响应模式。
根据实施方式,可设置对于第一任务的响应模式,使得用于第二任务的响应模式能够额外地反映对于第一任务的响应模式。在如上所述基于第二任务设置第一任务的响应模式之后,如果输入第一发声,则电子装置可根据设置的响应模式提供响应。例如,当再次输入第一发声,即“Umyeon-dong的温度是多少?”时,用于第二任务的响应模式被额外地反映,并且可根据针对第一任务而设置的响应模式提供响应,例如“今天Umeyon-dong的天气良好并且温暖,细尘浓度为10,超细尘浓度为20”。
根据另一实施方式,可设置用于第二任务的响应模式,使得对于第一任务的响应模式能够额外地反映至用于第二任务的响应模式。在如上所述基于第一任务设置用于第二任务的响应模式之后,如果输入第二发声,则电子装置可根据设置的响应模式提供响应。例如,当再次输入第二发声,即“Umyeon-dong的细尘水平多少?”时,对于第一任务的响应模式被额外地反映,并且可根据用于第二任务而设置的响应模式提供响应,例如“今天Umeyon-dong的天气良好并且温暖,细尘浓度为10,超细尘浓度为20”。
根据上述示例性实施方式,不根据固定的响应模式提供响应,而是可根据随着用户使用电子装置而反映的用户习惯、偏好等自适应地改变响应模式。因此,存在可提供更好地适应用户意图的响应的效果,并且用户可一次获得期望的响应而无需查询若干次等。
根据本公开的与人工智能相关的功能可通过处理器120和存储器110来操作。
处理器120可包括,例如,一个或多个处理器120。一个或多个处理器120可包括,例如,但不限于,通用处理器,诸如CPU、AP等,图形专用处理器,诸如GPU、VPU等,人工智能处理器,诸如NPU等。
一个或多个处理器120可控制电子装置100根据存储在存储器110中的预定操作规则或人工智能模型来处理输入数据。预先定义的操作规则或人工智能模型的特征在于通过训练来制作。
“通过学习制作”可指例如通过对多个学习数据应用学习算法而生成的期望特征的预定操作规则或人工智能模型。这种学习可在根据本公开执行人工智能的设备本身中进行,或者可通过单独的服务器/系统进行。
人工智能模型可包括多个神经网络层。每一层可具有多个权重值,并且可通过前一层的计算结果和多个权重值的计算来执行层的计算。神经网络的示例包括,例如,但不限于,卷积神经网络(CNN)、深度神经网络(DNN)、递归神经网络(RNN)、受限的玻尔兹曼机(RBM)、深信念网络(DBN)、双向递归深神经网络(BRDNN)、深Q网络等,并且本公开中的神经网络不限于上述示例。
学习算法可指例如使用多个学习数据来训练预定目标设备(例如,机器人)以便预定目标设备自己做出决定或做出预测的方法。学习算法的示例包括但不限于,例如,监督学习、无监督学习、半监督学习、或强化学习,本公开中的学习算法不限于上述示例,除非指定。
本公开中使用的术语“部分”或“模块”包括包含硬件、软件、固件或其任何组合的单元,且其可与术语(例如,逻辑、逻辑块、组件或电路)互换使用。此外,“部件”或“模块”可以是包括执行一个或多个功能的集成体或最小元件或其一部分的部件。例如,模块可包括专用集成电路(ASIC)。
本公开的各种实施方式可实现为包括存储在机器可读存储介质中的指令的软件,其可由机器(例如,计算机)读取。机器可指例如调用存储在存储介质中的指令并且可根据所调用的指令操作的装置,并且该装置可包括根据前述实施方式的电子装置(例如,电子装置100)。在指令由处理器执行的情况下,处理器可自己执行与指令相对应的功能,或者使用在其控制下的其它组件来执行。指令可包括由编译器产生的代码或可由解释器执行的代码。机器可读存储介质可以以非暂时性存储介质的形式提供。“非暂时性”存储介质可不包括信号,并且是有形的,但是不指示数据是半永久地还是临时地存储在存储介质中。
根据本公开的实施方式,根据本公开中描述的各种实施方式的方法可在被包括在计算机程序产品中的情况下被提供。计算机程序产品是指产品,它可在卖方和买方之间进行交易。计算机程序产品可以以机器可读的存储介质(例如,光盘只读存储器(CD-ROM))的形式在线分发,或者通过应用商店(例如,Play StoreTM)分发。在在线分发的情况下,计算机程序产品的至少一部分可被存储在存储介质中,例如制造商的服务器、应用商店的服务器、以及中继服务器的存储器,至少是临时的,或者可被临时生成。
此外,根据前述各种实施方式的组件(例如,模块或程序)中的每个可包括单个对象或多个对象。在上述相应的子组件中,一些子组件可省略,或者其他子组件可进一步包括在各种实施例中。通常地或附加地,一些组件(例如,模块或程序)可集成为对象,并且执行由每个组件在集成之前以相同或类似的方式执行的功能。由根据各个实施方式的模块、程序或其它组件执行的操作可顺序地、并行地、重复地、或试探地执行。或者,至少一些操作可以以不同的顺序执行或省略,或者可添加其它操作。
虽然已经示出和描述了各种示例性实施方式,但是应当理解,各种示例性实施方式旨在是说明性的,而不是限制性的。因此,本领域的普通技术人员将理解,在不脱离本公开的真实精神和全部范围的情况下,可在形式和细节上进行各种改变,其包括例如所附权利要求及其等同物。
Claims (15)
1.控制电子装置的方法,包括:
接收第一发声的输入;
基于所述第一发声识别用于所述第一发声的第一任务;
基于预定响应模式对所述第一任务提供响应;
接收第二发声的输入;
基于所述第二发声识别用于所述第二发声的第二任务,并且确定所述第一任务与所述第二任务之间的关联度;以及
基于所确定的关联度满足预定条件,基于所述第二任务设置对于所述第一任务的响应模式。
2.根据权利要求1所述的方法,其中,在包括与对发声的响应的所述长度相关的信息或与包括在对所述发声的所述响应中的信息的类型相关的信息中的至少之一的情况下确定所述响应模式。
3.根据权利要求1所述的方法,其中,所述预定响应模式包括由命令选择的响应模式或自动地设置的响应模式。
4.根据权利要求3所述的方法,还包括:
将基于所述第一发声的语音输入至经训练的人工智能模型中,以获得与所述第一发声的声学特征有关的信息;以及
基于所获得的与所述声学特征有关的所述信息来识别用户,
其中,基于所识别的会话历史和所述用户的偏好信息来确定所述预定响应模式。
5.根据权利要求1所述的方法,其中,所述预定条件包括以下条件:与所述第一任务和所述第二任务之间的所述关联度有关的信息等于或大于阈值。
6.根据权利要求1所述的方法,还包括:
基于接收到第三发声的输入,确定用于所述第三发声的第三任务是否与所述第一任务相关联;以及
基于所设置的对于所述第一任务的响应模式来提供响应。
7.根据权利要求1所述的方法,还包括:
接收第三发声的输入;以及
基于所述第三发声识别用于所述第三发声的第三任务,并且确定所述第一任务和所述第三任务之间的关联度,以及
其中,所述设置还包括:
基于所述第一任务和所述第三任务之间的所确定的关联度满足预定条件,来确定所述第二任务和所述第三任务的优先级;以及
基于所确定的优先级、所述第二任务和所述第三任务,设置对于所述第一任务的响应模式。
8.根据权利要求5所述的方法,还包括:
获取针对所提供的响应的反馈;以及
基于所获取的反馈更新所述第一任务与所述第二任务之间的所述关联度。
9.根据权利要求1所述的方法,还包括:
基于所述第一任务和所述第二任务之间的所述关联度,以本体的所述形式存储所述第一任务和所述第二任务。
10.根据权利要求1所述的方法,
其中,通过人工智能模型执行所述识别第一任务、所述确定所述关联度、所述设置响应模式或所述提供响应中的至少之一,以及,
所述人工智能模型包括分别包括至少一个节点的多个层,并且所述至少一个节点中的每个包括具有用于解释输入值的连接权重的神经网络模型。
11.电子装置,包括:
存储器,配置为存储至少一个命令;以及
处理器,配置为执行所述至少一个命令,
其中,所述处理器配置为控制所述电子装置,以:
接收第一发声的输入,
基于所述第一发声识别用于所述第一发声的第一任务,
基于预定的响应模式提供对所述第一任务的响应,并接收第二发声的输入,
基于所述第二发声识别用于所述第二发声的第二任务,并确定所述第一任务和所述第二任务之间的所述关联度,以及
基于所确定的关联度满足预定条件,基于所述第二任务设置对于所述第一任务的响应模式。
12.根据权利要求10所述的电子装置,其中,在包括与对发声的响应的所述长度相关的信息或与包括在对所述发声的所述响应中的信息的所述类型相关的信息中的至少之一的情况下,确定所述响应模式。
13.根据权利要求10所述的电子装置,其中,所述预定响应模式包括由命令选择的响应模式或自动地设置的响应模式。
14.根据权利要求13所述的电子装置,
其中,所述处理器配置为控制所述电子装置,以:将基于所述第一发声的语音输入至经训练的人工智能模型中以获得与所述第一发声的声学特征有关的信息,并且基于与所获得的声学特征有关的所述信息识别用户,以及,
其中,基于所识别的会话历史和所述用户的偏好信息来确定所述预定响应模式。
15.根据权利要求11所述的电子装置,其中,所述预定条件包括以下条件:与所述第一任务和所述第二任务之间的所述关联度有关的信息等于或大于阈值。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20180132717 | 2018-11-01 | ||
KR10-2018-0132717 | 2018-11-01 | ||
KR10-2019-0129837 | 2019-10-18 | ||
KR1020190129837A KR20200050373A (ko) | 2018-11-01 | 2019-10-18 | 전자 장치 및 그의 제어 방법 |
PCT/KR2019/014704 WO2020091503A1 (en) | 2018-11-01 | 2019-11-01 | Electronic apparatus and control method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112955862A true CN112955862A (zh) | 2021-06-11 |
Family
ID=70729209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980072900.8A Pending CN112955862A (zh) | 2018-11-01 | 2019-11-01 | 电子装置及其控制方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11842735B2 (zh) |
KR (1) | KR20200050373A (zh) |
CN (1) | CN112955862A (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200050373A (ko) * | 2018-11-01 | 2020-05-11 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
JP2023525173A (ja) * | 2020-05-13 | 2023-06-15 | エヌビディア コーポレーション | レンダリングされたグラフィカル出力を利用する会話型aiプラットフォーム |
KR20220072480A (ko) * | 2020-11-25 | 2022-06-02 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 작동 방법 |
KR20220095973A (ko) * | 2020-12-30 | 2022-07-07 | 삼성전자주식회사 | 음성 입력에 응답하는 방법 및 이를 지원하는 전자 장치 |
US11756575B2 (en) | 2021-02-16 | 2023-09-12 | Samsung Electronics Co., Ltd. | Electronic device and method for speech recognition processing of electronic device |
KR20220116949A (ko) * | 2021-02-16 | 2022-08-23 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 인식 처리 방법 |
KR20230023456A (ko) * | 2021-08-10 | 2023-02-17 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
KR102384573B1 (ko) * | 2021-09-09 | 2022-04-11 | 주식회사 오리진 | 자율대화 기능이 구비된 인공지능 기반의 언어학습 단말기 그 동작방법 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3576116B2 (ja) | 2001-03-22 | 2004-10-13 | 日本電信電話株式会社 | 音声対話装置、音声対話処理方法、音声対話処理プログラムおよびその記録媒体 |
KR101699720B1 (ko) | 2010-08-03 | 2017-01-26 | 삼성전자주식회사 | 음성명령 인식 장치 및 음성명령 인식 방법 |
KR20120045415A (ko) | 2010-10-29 | 2012-05-09 | 삼성에스디에스 주식회사 | 지능형서비스제공 라이프로깅장치 및 방법 |
EP3754997B1 (en) * | 2011-08-05 | 2023-08-30 | Samsung Electronics Co., Ltd. | Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same |
US20140122618A1 (en) | 2012-10-26 | 2014-05-01 | Xiaojiang Duan | User-aided learning chatbot system and method |
WO2014144949A2 (en) * | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
KR101508429B1 (ko) | 2013-08-22 | 2015-04-07 | 주식회사 엘지씨엔에스 | 사용자 단말에 에이전트 서비스를 제공하는 방법 및 시스템 |
JP6624368B2 (ja) | 2014-09-30 | 2019-12-25 | パナソニックIpマネジメント株式会社 | 接客モニタリングシステム及び接客モニタリング方法 |
US20160379638A1 (en) * | 2015-06-26 | 2016-12-29 | Amazon Technologies, Inc. | Input speech quality matching |
KR20180019869A (ko) | 2016-08-17 | 2018-02-27 | 주식회사 텍스트팩토리 | 챗봇을 이용한 개인 비서 서비스 제공 방법 |
US10403273B2 (en) | 2016-09-09 | 2019-09-03 | Oath Inc. | Method and system for facilitating a guided dialog between a user and a conversational agent |
US10824798B2 (en) | 2016-11-04 | 2020-11-03 | Semantic Machines, Inc. | Data collection for a new conversational dialogue system |
US10275539B2 (en) | 2016-11-21 | 2019-04-30 | Accenture Global Solutions Limited | Closed-loop natural language query pre-processor and response synthesizer architecture |
US10521723B2 (en) * | 2016-12-14 | 2019-12-31 | Samsung Electronics Co., Ltd. | Electronic apparatus, method of providing guide and non-transitory computer readable recording medium |
US10547729B2 (en) * | 2017-03-27 | 2020-01-28 | Samsung Electronics Co., Ltd. | Electronic device and method of executing function of electronic device |
KR102343084B1 (ko) | 2017-03-27 | 2021-12-27 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 기능 실행 방법 |
KR102416782B1 (ko) * | 2017-03-28 | 2022-07-05 | 삼성전자주식회사 | 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치 |
US10929759B2 (en) * | 2017-04-06 | 2021-02-23 | AIBrain Corporation | Intelligent robot software platform |
KR102414122B1 (ko) * | 2017-04-19 | 2022-06-29 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 동작 방법 |
KR102445382B1 (ko) * | 2017-07-10 | 2022-09-20 | 삼성전자주식회사 | 음성 처리 방법 및 이를 지원하는 시스템 |
KR102374910B1 (ko) * | 2017-08-22 | 2022-03-16 | 삼성전자주식회사 | 음성 데이터 처리 방법 및 이를 지원하는 전자 장치 |
US10757148B2 (en) * | 2018-03-02 | 2020-08-25 | Ricoh Company, Ltd. | Conducting electronic meetings over computer networks using interactive whiteboard appliances and mobile devices |
KR20200050373A (ko) * | 2018-11-01 | 2020-05-11 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
US11367441B2 (en) * | 2018-11-01 | 2022-06-21 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
-
2019
- 2019-10-18 KR KR1020190129837A patent/KR20200050373A/ko active Search and Examination
- 2019-11-01 CN CN201980072900.8A patent/CN112955862A/zh active Pending
-
2022
- 2022-05-31 US US17/828,216 patent/US11842735B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11842735B2 (en) | 2023-12-12 |
KR20200050373A (ko) | 2020-05-11 |
US20220293102A1 (en) | 2022-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3647936B1 (en) | Electronic apparatus and control method thereof | |
US11842735B2 (en) | Electronic apparatus and control method thereof | |
KR102502220B1 (ko) | 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체 | |
KR102623727B1 (ko) | 전자 장치 및 이의 제어 방법 | |
US10943604B1 (en) | Emotion detection using speaker baseline | |
US20200125967A1 (en) | Electronic device and method for controlling the electronic device | |
US11574637B1 (en) | Spoken language understanding models | |
US11314548B2 (en) | Electronic device and server for processing data received from electronic device | |
US20200258504A1 (en) | Electronic apparatus and controlling method thereof | |
US11880754B2 (en) | Electronic apparatus and control method thereof | |
US11514916B2 (en) | Server that supports speech recognition of device, and operation method of the server | |
US11468892B2 (en) | Electronic apparatus and method for controlling electronic apparatus | |
US11763690B2 (en) | Electronic apparatus and controlling method thereof | |
US20230290343A1 (en) | Electronic device and control method therefor | |
US20220059088A1 (en) | Electronic device and control method therefor | |
US11705110B2 (en) | Electronic device and controlling the electronic device | |
US11436215B2 (en) | Server and control method thereof | |
KR20200021408A (ko) | 서버 및 이의 제어 방법 | |
US12002451B1 (en) | Automatic speech recognition | |
KR20210094727A (ko) | 전자 장치 및 이의 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |