CN110909135A - 对话代理的操作方法和对话代理设备 - Google Patents
对话代理的操作方法和对话代理设备 Download PDFInfo
- Publication number
- CN110909135A CN110909135A CN201910266679.1A CN201910266679A CN110909135A CN 110909135 A CN110909135 A CN 110909135A CN 201910266679 A CN201910266679 A CN 201910266679A CN 110909135 A CN110909135 A CN 110909135A
- Authority
- CN
- China
- Prior art keywords
- utterance
- item
- demand
- satisfied
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000011017 operating method Methods 0.000 claims abstract description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 131
- 239000013598 vector Substances 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 17
- 238000011084 recovery Methods 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 235000012054 meals Nutrition 0.000 description 3
- 230000004397 blinking Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000118 hair dye Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/02—Reservations, e.g. for tickets, services or events
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
公开一种对话代理的操作方法和对话代理设备。所述对话代理的操作方法包括:获得包括用于请求服务的将被发送的发出话语和用于请求服务的将被接收的进入话语中的至少一个的话语历史;基于话语历史更新包括请求服务的项目的需求说明;基于更新的需求说明生成将被用于请求服务的话语信息,并输出生成的话语信息。
Description
本申请要求于2018年8月28日提交到韩国知识产权局的第10-2018-0101285号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
技术领域
以下描述涉及一种对话代理(dialog agent)的操作方法和对话代理设备。
背景技术
神经网络的发展促进了提供用户便利的各种人工智能(AI)服务和机器人技术。例如,聊天机器人可基于从用户输入的意图和实体,代表用户进行简单的预订。对话代理系统(DAS)还可通过电话代表用户预订期望的服务。然而,在谈话或对话超出简单的问答形式的情况下,例如,当服务提供者提供与用户请求的需求不同的其他条件时或者当用户请求的需求复杂时,聊天机器人或DAS可能无法准确地处理用户对服务做出的请求。此外,在DAS操作的同时,用户可能不能直接干预对话。
发明内容
提供本发明内容,以按照简化的形式介绍下面在具体实施方式中进一步描述的构思的选择。本发明内容不意在标识要求保护的主题的关键特征或必要特征,也不意在用于帮助确定要求保护的主题的范围。
在一个总的方面,一种对话代理的操作方法包括:获得包括用于请求服务的将被发送的发出话语或用于请求服务的将被接收的进入话语中的至少一个的话语历史;基于话语历史更新包括请求服务的项目的需求说明;基于更新的需求说明生成将被用于请求服务的话语信息,并输出话语信息。
需求说明可包括指示项目的需求是否被满足的状态信息。
状态信息可指示第一状态、第二状态或第三状态中的至少一个,其中,第一状态指示对应项目的需求被满足,第二状态指示对应项目的需求没有被满足,第三状态指示对应项目的需求被满足还是没有被满足尚未被确定。
更新的步骤还可包括:基于话语历史确定项目的需求是否被满足,并基于确定的结果更新需求说明。
确定需求是否被满足的步骤可包括以下步骤中的至少一个:确定项目中的至少一个项目的需求是否被满足;或确定项目中的至少一个项目的需求是否没有被满足。
确定至少一个项目的需求是否被满足的步骤可包括:将话语历史和需求说明输入到第一分类器,其中,第一分类器被配置为确定项目的需求是否被满足,并将对应于项目的状态信息作为多热向量输出;基于多热向量确定所述至少一个项目的需求是否被满足。
确定至少一个项目的需求是否没有被满足的步骤可包括:将话语历史和需求说明输入到第二分类器,其中,第二分类器被配置为确定项目的需求是否没有被满足,并将对应于项目的状态信息作为多热向量输出;基于多热向量确定所述至少一个项目的需求是否没有被满足。
所述操作方法还可包括:确定项目的所有需求是否都被满足,并基于确定所有需求都被满足通知用户对服务的请求完成。
确定项目的所有需求是否都被满足的步骤可包括以下步骤中的至少一个:基于更新的需求说明确定所有需求是否都被满足;或者使用第三分类器来确定所有需求是否都被满足,其中,第三分类器被配置为:基于话语历史和需求说明确定项目的需求是否被满足,并输出指示所有需求是否都被满足的值。
所述操作方法还可包括基于更新的需求说明确定话语目标。输出话语信息的步骤可包括将话语信息输出到话语目标。
响应于包括在更新的需求说明中的项目中的至少一个项目的需求没有被满足,确定话语目标的步骤可包括将用户确定为话语目标。
所述项目可包括针对每种类型的服务设置的至少一个必需项目。
除了必需项目之外,所述项目还可包括至少一个可选项目。
所述操作方法还可包括:从用户装置接收请求与服务的提供者的直接呼叫的信号;在接收到请求直接呼叫的信号之后暂停话语信息的生成;将从用户装置输入的信息提供给服务的提供者。
所述操作方法还可包括:通过对话代理接收请求对话恢复的信号,并响应于请求对话恢复的信号,恢复话语信息的生成。
所述操作方法还可包括以下步骤中的至少一个:将更新的需求说明提供给用户或将话语历史提供给用户中的至少一个。
所述操作方法还可包括:响应于包括在更新的需求说明中的项目中的至少一个项目的需求没有被满足,向用户询问所述至少一个项目。
所述操作方法还可包括:接收基于通过用户装置的接口收集的信息生成的需求说明。
获得话语历史的步骤可包括以下步骤中的至少一个:获得将从对话代理发送到服务的提供者的第一发出话语;获得将由对话代理从服务的提供者接收的第一进入话语;获得将从对话代理发送到用户的第二发出话语;或者获得将由对话代理从用户接收的第二进入话语。
在另一个总的方面,一种对话代理设备包括:通信接口,被配置为:获得包括用于请求服务的将被发送的发出话语或用于请求服务的将被接收的进入话语中的至少一个的话语历史,并输出话语信息;处理器,被配置为:基于话语历史更新包括请求服务的项目的需求说明,并基于更新的需求说明生成将被用于请求服务的话语信息。
需求说明可包括指示项目的需求是否被满足的状态信息。
状态信息可指示第一状态、第二状态或第三状态中的至少一个,其中,第一状态指示对应项目的需求被满足,第二状态指示对应项目的需求没有被满足,第三状态指示对应项目的需求被满足还是没有被满足尚未被确定。
处理器还可被配置为:基于话语历史确定项目的需求是否被满足,并基于确定的结果更新需求说明。
处理器还可被配置为确定项目中的至少一个项目的需求是否被满足或确定项目中的至少一个项目的需求是否没有被满足。
处理器还可被配置为:将话语历史和需求说明输入到第一分类器,其中,第一分类器被配置为确定项目的需求是否被满足,并将对应于项目的状态信息作为多热向量输出;基于多热向量确定所述至少一个项目的需求是否被满足。
处理器还可被配置为:将话语历史和需求说明输入到第二分类器,其中,第二分类器被配置为确定项目的需求是否没有被满足,并将对应于项目的状态信息作为多热向量输出;基于多热向量确定所述至少一个项目的需求是否没有被满足。
处理器还可被配置为:确定项目的所有需求是否都被满足,并基于确定所有需求都被满足通知用户对服务的请求完成。
处理器还可被配置为:基于更新的需求说明确定项目的所有需求是否都被满足,或者使用第三分类器来确定项目的所有需求是否都被满足,其中,第三分类器被配置为:基于话语历史和需求说明确定项目的需求是否被满足,并输出指示所有需求是否都被满足的值。
处理器还可被配置为:基于更新的需求说明确定话语目标,并将话语信息输出到话语目标。
响应于包括在更新的需求说明中的项目中的至少一个项目的需求没有被满足,处理器还可被配置为将用户确定为话语目标。
所述项目可包括针对每种类型的服务设置的至少一个必需项目。
除了必需项目之外,所述项目还可包括至少一个可选项目。
通信接口还可被配置为:从用户装置接收请求与服务的提供者的直接呼叫的信号。在接收到请求直接呼叫的信号之后,处理器还可被配置为暂停话语信息的生成,并将从用户装置输入的信息提供给服务的提供者。
通信接口还可被配置为:通过对话代理设备接收请求对话恢复的信号。响应于请求对话恢复的信号,处理器还可被配置为恢复话语信息的生成。
通信接口还可被配置为:将更新的需求说明提供给用户,将话语历史提供给用户,或者将更新的需求说明和话语历史二者提供给用户。
响应于包括在更新的需求说明中的至少一个项目的需求没有被满足,处理器还可被配置为向用户询问所述至少一个项目。
通信接口还可被配置为:接收基于通过用户装置的接口收集的信息生成的需求说明。
通信接口还可被配置为获得第一发出话语、第一进入话语、第二发出话语或第二进入话语中的至少一个,其中,第一发出话语将从所述对话代理设备发送到服务的提供者,第一进入话语将由所述对话代理设备从服务的提供者接收,第二发出话语将从所述对话代理设备发送到用户,第二进入话语将由所述对话代理设备从用户接收。
在另一个总的方面,提供一种存储指令的非暂时性计算机可读存储介质,其中,当所述指令由处理器执行时,使得处理器执行以下操作:从用户装置接收与服务的请求相关的需求;基于需求来生成需求说明;基于需求说明,与服务的提供者建立连接;在所述连接期间,确定所有的需求是否被服务的提供者满足;在所有的需求被满足的情况下,通知用户装置服务的请求完成;在不是所有的需求被满足的情况下,通知用户装置至少一个需求未被满足,接收与未被满足的所述至少一个需求相关的改变的需求,并且基于改变的需求更新需求说明。
处理器还执行以下操作:基于更新的需求说明,与服务的提供者建立第二连接;在第二连接期间,确定与更新的需求说明相关的所有的需求是否被服务的提供者满足。
在从用户装置接收的需求为自然语言的形式的情况下,处理器还执行以下操作:分析自然语言,基于分析自然语言来确定服务的领域或类型,并基于确定的领域或类型生成需求说明。
在从用户装置接收的需求为文本的形式的情况下,处理器还执行以下操作:将文本分离成词法单元,将分离的词法单元输入到神经网络模型,并且基于神经网络模型的输出来生成需求说明。
通过以下具体实施方式、附图和权利要求,其他特征和方面将是清楚的。
附图说明
图1是示出基本类型的对话代理系统(DAS)的示例的示图。
图2是示出对话代理的操作方法的示例的流程图。
图3是示出DAS的配置的示例的示图。
图4是示出对话代理的对话场景的示例的流程图。
图5A至图5E是示出随着对话发展如何更新需求说明的示例的示图。
图6是示出对话代理如何显示话语历史和需求说明的示例的示图。
图7是示出对话代理的用户界面的示例的示图。
图8A和图8B是示出包括在需求说明中的必需项目和可选项目如何被处理的示例的示图。
图9是示出对话代理设备的示例的示图。
在整个附图和具体实施方式中,除非另有描述或提供,否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例绘制,并且为了清楚、说明和方便起见,可夸大附图中元件的相对尺寸、比例和描绘。
具体实施方式
提供以下具体实施方式以帮助读者获得对这里所描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开后,这里所描述的方法、设备和/或系统的各种改变、修改及等同物将是清楚的。例如,这里所描述的操作顺序仅仅是示例,并不局限于这里所阐述的顺序,而是除了必须以特定顺序发生的操作之外,可如在理解本申请的公开之后清楚的那样改变。此外,为了更加清楚和简明,可省略对于本领域已知的特征的描述。
这里所描述的特征可以以不同的形式实现,并且将不被解释为限于这里所描述的示例。更确切地说,已经提供这里所描述的示例,仅为了实现这里所描述的方法、设备和/或系统的很多可行的方式中的一些方式,这些方式在理解本申请的公开之后将是清楚的。
这里使用的术语仅用于描述各种示例且不用于限制本公开。除非上下文另外清楚地指出,否则单数形式也意图包括复数形式。术语“包含”、“包括”和“具有”说明存在所陈述的特征、数量、操作、构件、元件和/或它们的组合,但是不排除存在或添加一个或更多个其他特征、数量、操作、构件、元件和/或它们的组合。
尽管可在这里使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不受这些术语的限制。更确切地说,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分区分开。因此,在不脱离示例的教导的情况下,这里所描述的示例中所称的第一构件、组件、区域、层或部分还可以被称为第二构件、组件、区域、层或部分。
在整个说明书中,当组件被描述为“连接到”或“结合到”另一组件时,该组件可以直接“连接到”或“结合到”另一组件,或者可存在介于两者之间的一个或更多个其他组件。相反,当元件被描述为“直接连接到”或“直接结合到”另一元件时,不会存在介于两者之间的其他元件。同样地,例如,“在…之间”和“紧接在…之间”以及“与…邻近”和“与…紧密相邻”的表达也可如前面所述地那样解释。
如这里所使用的,术语“和/或”包括相关所列项中的任意一个和任意两个或更多个的任意组合。
除非另外定义,否则这里使用的所有术语(包括技术术语和科学术语)具有与本申请的公开所属领域的普通技术人员通常理解的含义相同的含义。除非这里明确地如此定义,否则术语(诸如在通用词典中定义的术语)将被解释为具有与它们在相关领域的上下文中的含义一致的含义,并且不被解释为理想化的或过度正式的意义。
图1是示出基本类型的对话代理系统(DAS)的示例的示图。在图1的示例中,示出用户101、DAS 103和服务提供者105。用户101可以是用户装置或用户终端的用户,服务提供者105可以是服务的提供者,也可以是服务提供者装置或终端的用户。
参照图1,用户101通过DAS 103请求预订晚餐。用户101通过说出“电话号码:010-XXXX-1234”和“在本周三晚上7点预订两位”,向DAS 103通知预订所需的需求,例如,包括预订的期望地点的联系信息、预订时间和预订的位置。从用户101接收这样话语的DAS 103对电话号码010-XXXX-1234进行呼叫。在这个示例中,当对应于电话号码010-XXXX-1234的实体是被称为寿司XX的餐馆时,服务提供者105可以是预订接收者、接待员或寿司XX的经理。
当从DAS 103接收到呼叫的服务提供者105回答,例如,“您好,这里是寿司XX”时,DAS 103通过说出例如“我可以在本周三晚上7点预订两位吗?”,将用户101请求的需求发送到服务提供者105。
在这个示例中,当对应于需求的预订可用时,服务提供者105继续进行对应于需求的预订所需的处理。然而,当对应于需求的预订不可用时,服务提供者105通过说出例如“抱歉,但是座位仅在晚上6点和晚上8点可用”,来建议改变的预订条件。在这种情况下,因为需求没有被满足,所以DAS 103向用户101提供指示为例如“预订不可用”的服务请求结果。因此,在谈话或对话超出简单的问答形式的情况下,例如,当如上所示服务提供者105建议与用户101请求的需求不同的另一个改变的条件时,或者当用户101请求的需求极难完成时,如图1所示的基本类型的DAS 103不能容易地处理用户101请求的需求。
又例如,尽管在期望的日期的晚上7点预订不可用,但是当晚上6点或晚上8点预订可用时,用户101可通过与服务提供者105的直接对话灵活地将预订时间改变为晚上6点或晚上8点。然而,当不允许用户101直接干预DAS 103与服务提供者105之间的对话时,除非用户101结束DAS 103与服务提供者105之间的对话,然后通过DAS 103再次请求在改变的预订时间(例如,晚上6点或晚上8点)的预订,否则可能无法在该日期预订晚餐。
图2是示出对话代理的操作方法的示例的流程图。参照图2,在操作210中,对话代理设备获得话语历史,其中,话语历史包括用于请求服务的将被发送的发出话语(outgoingutterance)和用于请求服务的将被接收的进入话语(incoming utterance)中的至少一个。例如,服务可包括用于各种预订(诸如,旅行预订、餐馆预订、美发沙龙预订、租车预订、舞台表演预订、住宿预订等)的预订服务,并且包括其他服务(例如,注册服务、电话查询服务等)。然而,服务不限于前面描述的示例。
这里使用的术语“话语”和“说出”可指示通过实际的句子单元或言语表达或动作来实现人类思想或想法。话语的详细含义可基于话语的目标(例如,听众和讲话者、话语的情景、话语的主题等)而变化或确定。这里使用的术语“话语”和“说出”也可被解释为包含人类思想或想法的表达的所有形式,例如除了人类思想或想法的语言表达之外,还包含以文本的形式的表达。
发出话语对应于将要从对话代理设备发送到对话对方的话语,其中,对话对方是与对话代理设备进行谈话或对话的对方。进入话语对应于对话代理设备将从对话对方接收的话语。这里,发出话语的目标和进入话语的目标可以是用户装置或用户,和/或服务提供者装置或服务提供者。发出话语的目标和进入话语的目标可彼此相同或不同。
例如,发出话语可以是语音和文本的形式。例如,进入话语可以是语音、文本和命令的形式。例如,当用户以自然语言说出预定义的命令(例如,“拨打电话进行预订”和“进行预订”),或者以文本形式写下这样的命令时,处于命令的形式的进入话语可被发送。又例如,当用户从用户装置或终端的显示器或通过用户界面(UI)选择按钮、图标或其他指示(例如“请求服务”、“直接谈话”和“直接停止对话”)时,处于命令的形式的进入话语也可被发送。
话语历史可基于用户装置的装置特性,以语音或文本的形式存储。话语历史也可以以特征向量的形式存储。这里,装置特性可以是指示用户装置是否仅包括显示器或扬声器或者包括显示器和扬声器二者的用户装置的功能特性。
例如,在进入话语是语音形式的情况下,对话代理设备可将语音转换为相应的文本并将文本存储在话语历史中。又例如,在进入话语是命令形式的情况下,对话代理设备可将命令转换为相应的文本或预定义形式的文本,并将文本存储在话语历史中。
例如,话语历史可包括第一发出话语、第一进入话语、第二发出话语和第二进入话语中的至少一个,其中,第一发出话语将从对话代理(或对话代理设备)发送到服务提供者,第一进入话语将由对话代理从服务提供者接收,第二发出话语将从对话代理发送到用户,第二进入话语将由对话代理从用户接收。
话语历史可包括,例如,从最初在用户的用户装置中起草需求说明时到对话代理通知用户装置用户做出的服务请求完成时生成的发出话语和/或进入话语的至少一部分或全部内容。
在操作220中,对话代理设备基于在操作210中获得的话语历史,更新包括请求服务的项目的需求说明。例如,在用户请求的服务是美发沙龙预订的情况下,请求服务的项目可包括,例如,将要预订的期望的美发沙龙的联系号码、预订时间、用户期望接收的期望的服务(即,理发、烫发、染发等)、发型设计师等。又例如,在用户请求的服务是舞台表演预订的情况下,请求服务的项目可包括,例如,音乐厅或预订部门的联系号码、将要预订的目标表演、表演时间、座位等级、座位位置等。如这些示例中所述,请求服务的项目可基于服务的类型不同地确定,也可独立于服务的类型综合地确定。
例如,可基于通过用户装置或终端的接口(例如,图3中示出的UI模块310)收集并发送给对话代理设备的信息来生成需求说明。包括在需求说明中的项目可包括基于服务的类型定义的至少一个必需项目。此外,除了必需项目之外,包括在需求说明中的项目还可包括至少一个可选项目。可基于话语的内容或用户的语音来确定必需项目或可选项目。需求说明还可包括指示项目的需求是否被满足的状态信息。例如,状态信息可指示第一状态、第二状态和第三状态中的至少一个,其中,第一状态指示对应项目的需求被满足,第二状态指示对应项目的需求没有被满足,第三状态指示对应项目的需求被满足还是没有被满足尚未被确定。例如,在需求说明中,第一状态可由“O”指示,第二状态可由“X”指示,第三状态可由“?”指示。可基于将作为对对话代理设备的发出话语的回答而被接收的进入话语来更新状态信息。
在操作220中,对话代理设备还基于话语历史和/或需求说明确定项目的需求是否被满足。例如,对话代理设备可确定至少一个项目的需求是否被满足。在这个示例中,对话代理设备可将话语历史和需求说明输入到第一分类器。第一分类器可被配置为确定项目的需求是否被满足,并将对应于项目的状态信息作为多热向量(multi-hot vector)输出。因此,对话代理设备可基于从第一分类器输出的多热向量来确定至少一个项目的需求是否被满足。
可选择地,对话代理设备可确定至少一个项目的需求是否没有被满足。对话代理设备可将话语历史和需求说明输入到第二分类器。第二分类器可被配置为确定项目的需求是否没有被满足,并将对应于项目的状态信息作为多热向量输出。因此,对话代理设备可基于从第二分类器输出的多热向量来确定至少一个项目的需求是否没有被满足。
对话代理设备可基于确定需求是否被满足的结果来更新需求说明。将参照图5A至图5E详细描述对话代理设备如何更新需求说明。
在操作230中,对话代理设备基于更新的需求说明生成将被用于请求服务的话语信息。话语信息可以是将被用于生成发出话语的信息,并且可以以语音或文本的形式输出。
在操作240中,对话代理设备输出话语信息。例如,对话代理设备可基于更新的需求说明来确定话语目标,并将话语信息输出到确定的话语目标。话语目标可以是用户、服务提供者或第三方。在示例中,当包括在更新的需求说明中的至少一个项目的需求没有被满足时,对话代理设备可将话语目标确定为用户。
此外,对话代理设备可确定项目的所有需求是否都被满足。例如,对话代理设备可基于更新的需求说明,确定项目的所有需求是否都被满足。可选择地,对话代理设备可使用第三分类器来确定项目的所有需求是否都被满足。第三分类器可被配置为:基于话语历史和需求说明,确定项目的所有需求是否都被满足,并输出指示所有需求是否都被满足的值(例如,二进制值0或1)。对话代理设备可基于从第三分类器输出的所有需求都被满足的确定,通知用户对服务的请求完成。对话代理设备可通过扬声器以语音的形式(例如,“预订完成”)或者以将被显示在对话代理设备的显示器上的文本的形式,通知用户服务的请求完成。
图3是示出DAS的配置的示例的示图。参照图3,DAS 300包括UI模块310、对话模块330和呼叫模块350。UI模块310可包括在用户装置或用户终端中,或者包括在对话代理设备中。这里,对话代理设备可包括在DAS300中,对话模块330可包括在对话代理设备中。
UI模块310可提供输入接口并提供输出接口,其中,输入接口被配置为从用户接收服务的请求和/或请求服务的需求作为输入,输出接口被配置为显示服务的请求的进展。响应于需求被输入,UI模块310可将包括请求服务的项目的需求说明发送到对话模块330。此外,UI模块310可通过输出接口,将关于针对请求服务而保持的对话如何发展的信息发送到用户。
UI模块310包括需求输入器313和对话内容输出器316。
需求输入器313可提供被配置为从用户接收服务的需求的输入接口。输入接口的输入形式可以是语音(例如,以自然语言输入的语音)、通过键入输入的文本或通过点击图标或按钮输入的命令。当需求输入器313基于从输入接口收集的需求,在由每种类型的服务设置的需求说明中的项目中填入值时,可完成将初始信息输入到需求说明。这里,用户可基于自然语言的谈话或对话,输入期望的请求的服务和服务的需求。
需求输入器313可分析通过输入接口输入的自然语言,并发现期望的服务和对应于请求服务的项目的值。例如,需求输入器313可使用基于域和意图分类技术(domain andintent classification technology)以及间隙标记技术(slot tagging technology)的神经网络模型,从输入的自然语言发现用户期望的服务和对应于请求服务的项目的值。例如,在输入界面的输入形式是文本的情况下,需求输入器313可解析文本并将文本分离成n元词法单元(n-gram tokens),或者基于预定义的词典或字典解析文本并将文本分离为字典中的单词(例如,词法单元)。需求输入器313可将分离的词法单元输入到神经网络模型中,以发现用户期望的服务和请求服务的项目的值。又例如,在输入形态是自然语言的情况下,需求输入器313可使用语音识别器识别自然语言,并基于识别的结果发现用户期望的服务和请求服务的项目的值。在这个示例中,需求输入器313可基于分析自然语言的结果来确定用户期望的服务的领域或类型,并生成包括针对对应于确定的服务的领域或类型的服务而预设的项目的需求说明。在需求输入器313不能通过用户发出一次语音来填入请求服务的所有项目中的值(例如,必需项目的值)的情况下,需求输入器313可通过附加查询,从用户接收所需项目的值。可选择地,需求输入器313可允许用户直接选择期望的服务,并基于由每个服务设置的需求说明直接输入每个项目的值。因此,当完成将初始信息输入到需求说明中时,需求输入器313可将需求说明提供给对话模块330。
对话内容输出器316可提供被配置为将服务的请求的当前进展输出给用户的输出接口。例如,输出接口可将话语历史(例如,关于与用户的对话(该对话用于从需求输入器313接收用户请求的需求)的信息、作为需求输入器313完成需求的输入的结果而生成的需求说明、对话模块330中生成的发出话语、响应于发出话语的进入话语、当包括在需求说明中的项目中存在相应的需求不被满足的项目时将被提供给用户的通知等)提供给用户。通过输出接口将被提供给用户的信息可以是,例如,自然语言话语、自然语言文本等的形式。根据示例,通过输出接口将被提供给用户的信息也可以是警报声的形式。
对话内容输出器316可在需求说明中不同地指示与对应需求没有被满足的项目相应的话语内容以及与对应需求的满足尚未被确定的项目相应的话语内容。这里,与需求没有被满足的项目相应的话语内容或者与需求的满足尚未被确定的项目相应的话语内容可分别对应于指示第二状态的状态信息或指示第三状态的状态信息。
例如,对话内容输出器316可通过需求说明中的突出显示或闪烁来指示与需求没有被满足的项目或需求的满足尚未被确定的项目相应的话语内容。通过输出接口将被提供给用户的信息可以以如图5A至图5E所示的显示器上的文本的形式或者通过扬声器以声音的形式提供给用户。此外,当需求说明中存在与需求没有被满足的项目相应的这样的话语内容时,对话内容输出器316还可向用户提供附加通知。
对话模块330可允许呼叫模块350通过参照与从UI模块310接收的需求说明中的电话号码相关的项目的值,向作为服务的提供者的服务提供者(即,如附图中所示的SP)拨打电话。对话模块330可基于对服务提供者的电话呼叫的结果来更新需求说明,并且基于更新的需求说明,生成将被用于请求服务的话语信息。
对话模块330包括话语生成器333以及需求说明和对话内容管理器(在下文中简称为“管理器”)336。
话语生成器333可基于从UI模块310接收的需求说明和从管理器336接收的话语历史中的至少一个来生成话语信息(例如,请求服务所需的句子)。除了包括在需求说明中的与电话号码相关的项目的值以及迄今为止记录的话语历史之外,话语生成器333还可基于项目的值生成话语信息。由话语生成器333生成的话语信息(例如,文本形式的句子或短语)可通过文本到语音(TTS)功能转换为语音或讲话,并且被转换为语音的话语信息可作为发出话语提供给呼叫模块350。管理器336可从呼叫模块350接收作为服务提供者对发出话语的回答的进入话语。
管理器336可基于进入话语的转变来更新需求说明。例如,管理器336可确定对话代理设备的发出话语的回答是否对应于话语的转变,并确定回答的接收是否完成。这里,话语的转变可指示讲话者的改变或讲话者的回答的完成。例如,当话语的讲话者改变时,或者当讲话者发出话语之后经过预设的时间量时(例如,当在讲话者发出话语之后有三秒静音时),管理器336可确定回答对应于话语的一次转变并完成回答的接收。
当完成回答的接收时,管理器336可通过基于回答(例如,与包括在需求说明中的项目相应的状态信息是否改变)确定包括在需求说明中的项目的需求是否新被满足,来更新需求说明。
管理器336可确定包括在更新的需求说明中的项目的所有需求是否都被满足。响应于所有需求都被满足的确定,管理器336可结束呼叫。例如,管理器336可使用第三分类器来确定所有的需求是否都被满足。第三分类器可以是基于神经网络的二元分类器(binaryclassifier),所述神经网络被训练以确定包括在需求说明中的项目的所有需求是否都被满足。
为了结束呼叫,对话模块330可允许话语生成器333生成结束呼叫所需的话语信息(例如,通知用户请求服务的完成的话语),并输出生成的话语信息,然后允许管理器336结束通话。
管理器336可将话语历史和需求说明输入到第一分类器,并基于从第一分类器输出的多热向量来确定需求说明中的多个项目中的项目的需求是否被满足,以更新需求说明。第一分类器可以是,例如,基于神经网络的多类分类器,所述多类分类器被配置为将需求说明中对应需求被满足的项目作为多热向量输出。例如,在需求说明中总共有十个项目并且十个项目中的两个项目(例如,十个项目中的第一项目和第二项目)的对应需求被满足的情况下,第一分类器可以输出多热向量,例如1100000000,其中,十个类中的第一个类和第二个类的值是1。
此外,管理器336可将话语历史和需求说明输入到第二分类器,并基于从第二分类器输出的多热向量来确定需求说明中的至少一个项目的需求是否没有被满足,以更新需求说明。类似于第一分类器,第二分类器也可以是基于神经网络的多类分类器。
例如,第一分类器、第二分类器和/或第三分类器可由各种结构的神经网络(诸如,卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)和双向长短期记忆(BLSTM))来实现。
当存在对应需求没有被满足的项目时,管理器336可通过UI模块310通知用户需求没有被满足的项目,并从用户接收改变的需求以更新需求说明。这里,UI模块310可通过需求说明中的突出显示来指示需求没有被满足的项目。此外,UI模块310可突出显示或闪烁与需求没有被满足的项目相关的发出话语或进入话语。由改变的需求更新的需求说明可以是应用了改变的需求的需求说明,或者是用于取消请求服务的需求说明。在下文中,将参照图5A至图5E以及图6来详细描述更新的需求说明和话语历史如何被指示并显示给用户。
对话模块330可重复执行将在下文中参照图4描述的操作430至操作480,直到项目的所有需求都被满足并且因此对服务的请求完成为止。
在重复执行这样的与对话相关的操作的同时,对话模块330可确定是否从用户、用户装置或终端接收到请求直接呼叫服务提供者的信号。在与服务提供者的对话期间,当确定接收到请求直接呼叫的信号时,对话模块330可提供能使用户与服务提供者进行直接谈话或对话的接口。将参照图7详细描述用户与服务提供者之间的直接谈话或对话的示例。
呼叫模块350包括发送器353和接收器356。发送器353可发送在对话模块330中生成的发出话语。接收器356可将从用户或服务提供者接收的进入话语发送到对话模块330。
图4是示出对话代理的对话场景的示例的流程图。图5A至图5E是示出随着对话发展如何更新需求说明的示例的示图。图4和图5A至图5E示出当用户装置或终端将用户请求服务的需求发送到DAS时对话如何发展的示例。
参照图4,在操作410中,用户通过经由用户装置发送需求说明,将请求服务的需求发送给DAS。例如,如图5A所示,用户可通过说出例如“本周三晚上7点在寿司XX预订两人的餐位”来发送服务的需求。然后,DAS可通过回答例如“好的,您想在本周三晚上7点在寿司XX预订两人的餐位吗?”来验证需求,并通过分析需求生成需求说明510。当生成需求说明510时,DAS可基于由用户请求的需求确定的需求说明510的初始信息(例如,请求的服务:餐馆预订;餐馆名称:寿司XX;电话号码:010-XXXX-1234),在需求说明510中填入每个对应项目的值。当在需求说明510中填入项目的值时,基于对应项目的需求是被满足还是没有被满足或者需求的满足是否尚未被确定,对应于每个项目的状态信息可被指示为O、X或?。在这个示例中,对应于初始信息的电话号码可以是从存储在用户装置中的通讯录或包括在DAS中的通讯录中检索到的电话号码,或者可以是由DAS通过互联网访问检索到的电话号码。
在操作420中,DAS向服务提供者(SP)进行呼叫。在操作430中,DAS生成话语信息以进行对话,并将生成的话语信息输出给服务提供者。在操作440中,服务提供者回答DAS的讲话。在操作450中,DAS通过与服务提供者的对话或呼叫来确定需求是否被满足。在操作470中,当确定需求没有被满足时,DAS将对应需求被满足的项目和对应需求没有被满足的项目发送给用户。
例如,如图5B所示,DAS可向服务提供者进行呼叫并输出生成的话语信息,以发展对话(例如,“我可以在本周三晚上7点预订两位吗?”)。在这个示例中,当服务提供者回答DAS例如“抱歉,座位仅在晚上6点和晚上8点可用”时,DAS可分析服务提供者的回答,并通过日期项目的值(例如,“本周三”)和出席者数量项目的值(例如,“两位”)来确定需求说明510中的一些需求被满足,并通过时间项目的值(例如,“晚上7点”)来确定需求说明510中的需求没有被满足。然后,如图5B所示,基于确定每个项目的需求被满足还是没有被满足的结果,DAS可将需求说明510更新为需求说明520。
在操作480中,从DAS接收需求被满足的项目和需求没有被满足的项目的用户将原始需求没有被满足的项目的改变的需求发送给DAS。接收到原始需求没有被满足的项目的改变的需求的DAS可基于改变的需求来更新需求说明。
例如,如图5C所示,DAS可生成发出话语(例如,“用户,晚上7点的预订不可用,但是晚上6点或晚上8点的预订可用”),以将需求被满足的项目和需求没有被满足的项目发送给用户。接收到这样的话语的用户可通过说出例如“好的,那就预订晚上6点”,来将原始需求没有被满足的项目的改变的需求发送给DAS。然后,DAS可生成验证从用户接收的进入话语的发出话语(例如,“好的,我将预订晚上6点”)。DAS可通过将改变的需求(例如,晚上6点)应用到需求说明520,来将需求说明520更新为需求说明530。在这个示例中,时间项目的需求(例如,晚上6点)是被满足还是没有被满足尚未被确定,因此对应于时间项目的状态信息可被改变为“?”。
根据示例,当包括在更新的需求说明中的至少一个项目的需求没有被满足时,DAS可向用户询问所述至少一个项目。
在操作430中,DAS可基于需求说明530生成新的话语信息,其中,需求说明530通过基于原始需求没有被满足的项目的改变的需求进行更新而获得。这里,在操作480中,改变的需求可从用户发送。例如,如图5D所示,DAS可基于更新的需求说明530生成新的话语信息(例如,“那么,我可以预订晚上6点吗?”),并在操作430中输出生成的新的话语信息。如图5D所示,在操作440中,DAS接收对应于新的话语信息的回答(例如,“好的,我将在本周三晚上6点预订两人的餐位”和“将以谁的名义预订?”)。在操作450中,DAS基于与服务提供者的对话或呼叫确定改变的需求是否被满足。
在操作460中,当在操作450中确定需求被满足时,DAS确定用户请求的所有需求是否都被满足。当在操作460中确定不是所有需求都被满足时,DAS可基于没有被满足的需求生成新的话语信息,并在操作430中输出生成的新的话语信息。
在操作490中,当在操作460中确定所有的需求都被满足时,DAS通知用户请求服务的结果(例如,通知用户对服务的请求完成)。例如,如图5E所示,当需求说明540中的所有需求都被满足时,DAS可通知用户对服务的请求完成(例如,“用户,已做出本周三晚上6点在寿司XX两位的预订”)。
图6是示出对话代理如何显示话语历史和需求说明的示例的示图。图6示出通过对话代理设备的UI模块提供的显示的示例。对话代理设备可显示需求说明和将按顺序滚动的对话的内容,或分别地显示需求说明和对话的内容。
例如,如图6所示,对话代理设备可在它的显示器的上端部分显示需求说明610,并在需求说明610下面显示话语历史630。在这个示例中,每当在话语历史630中改变话语的一次转变时,指示需求说明610中的每个项目的值和/或需求说明610中的每个项目的需求是否被满足的状态信息可被更新。
根据示例,用户可基于设置来改变是否显示话语历史630。此外,用户可设置将被显示的需求说明610的部分或全部。例如,用户可设置不显示需求说明610中的对应需求被满足的项目。可选择地,用户可设置将显示需求说明610中的对应需求没有被满足的项目或需求说明610中的对应需求的满足尚未被确定的项目。在这个示例中,可以以通知的形式或以突出显示或闪烁的形式来显示需求没有被满足的项目或对应需求的满足尚未被确定的项目。
根据示例,对话代理设备可不同地显示用户与对话代理设备之间的对话和对话代理设备与服务提供者之间的对话。此外,对话代理设备可允许服务提供者查看或收听用户与对话代理设备之间的对话,或者不允许查看或收听用户与对话代理设备之间的对话。
图7是示出对话代理的UI的示例的示图。参照图7,在对话代理设备与服务提供者之间的对话期间,可从用户或用户装置接收请求与服务提供者的直接呼叫的信号。
例如,在对话代理设备与服务提供者之间的对话期间,对话代理设备可从服务提供者接收回答(例如“抱歉,但是座位仅在晚上6点和晚上8点可用”),然后用户可通过UI(例如,按钮710)发送请求与服务提供者的直接呼叫的信号。在这个示例中,当用户通过提供的UI说出预定义的命令关键词(例如,“直接对话”),按下如图7所示显示在显示器上的指示“直接对话”的按钮710或者键入“直接对话”时,请求直接呼叫的信号可被发送到对话代理设备。
当请求直接呼叫的信号被发送时,对话代理设备可暂停话语信息的生成,并将用户的话语内容(例如,通过经由TTS功能从用户键入的内容的转换获得的语音)作为发出话语发送给服务提供者。
对话代理设备可将服务提供者的回答发送给UI模块,以允许UI模块以声音和/或文本的形式输出回答,并可因此允许用户和服务提供者进行直接的谈话或对话。例如,用户的话语内容可通过用户的语音提供,或者通过自动语音识别(ARS)功能和TTS功能的组合转换为对话代理设备的语音来代替用户的语音,并作为发出话语发送到服务提供者。在这个示例中,用户与服务提供者之间的直接谈话的内容也可包括在话语历史中。
在直接对话期间,对话代理设备可分析话语历史以更新需求说明,并将更新的需求说明提供给用户。
根据示例,在对话代理设备接收到请求与服务提供者的直接呼叫的信号之后,对话代理设备可通过对话代理从用户接收请求对话恢复的信号。例如,当用户说出预定义的命令关键词(例如,“对话代理服务”),再次按下如图7所示显示在显示器上的“直接对话”的按钮710或键入“对话代理服务”时,请求对话恢复的信号可被发送到对话代理设备。响应于请求对话恢复的信号,对话代理设备可恢复话语信息的产生。
图8A和图8B是示出包括在需求说明中的必需项目和可选项目如何被处理的示例的示图。参照图8A,当用户801通过用户801的用户装置将请求服务的需求发送到对话代理803时,对话代理803可基于需求生成需求说明810。在这里描述的示例中,对话代理可包括在对话代理设备中,并且对话代理设备可包括在DAS中,因此在图8A和图8B的示例中,对话代理803可被指示为DAS。在图8A的示例中,除了由每种类型的服务设置的至少一个必需项目之外,包括在需求说明810中的项目还包括至少一个可选项目。
对话代理803可分析需求并确定用户801请求的服务的类型或领域。对话代理803可检索针对每种类型的服务预定义的需求说明形式,并基于通过分析由用户801请求的需求获得的信息或初始信息在需求说明中的必需项目中填入值。可针对每种类型的服务设置包括在需求说明中的必需项目和可选项目。
例如,如图8A所示,当需求包括与必需项目中的项目1和项目2的值对应的内容,并且必需项目的值中的项目3的值被额外需要时,对话代理803可生成发出话语信息以询问项目3的值。对话代理803可将生成的询问项目3的值的发出话语信息发送给用户801并接收相应的回答,以在需求说明810中填入所有的必需项目的值。然后,对话代理803可基于需求说明810生成话语信息并输出生成的话语信息,其中,在需求说明810中,所有的必需项目的值都被填入,以从服务的提供者或所示的服务提供者805请求服务。在这个示例中,需求说明810中的可选项目的值可通过与服务提供者805的呼叫来填入或被保留为空白。
参照图8B,当用户801通过用户801的用户装置将请求服务的需求发送到对话代理803时,对话代理803可基于需求生成需求说明820。
例如,如图8B所示,当需求包括与必需项目的项目1至项目3的值以及可选项目中的项目5的值对应的内容时,对话代理803可通过基于需求填入必需项目的项目1至项目3的值和可选项目的项目5的值,来生成需求说明820。在这个示例中,被分类到需求说明820中的可选项目中的一个的项目5可基于用户801请求的需求(例如,用户801的话语内容),被改变为必需项目,或者与必需项目一样地被处理。因此,可基于用户801的话语内容来确定或改变项目是必需项目还是可选项目。
对话代理803可基于需求说明820生成话语信息并输出生成的话语信息,以从服务提供者805请求服务。
如上所述,用户801与对话代理803之间的通信可通过话语接口执行,也可根据需要通过其他接口(例如,图形UI(GUI))执行。
图9是示出对话代理设备的示例的示图。参照图9,对话代理设备900包括通信接口910和处理器920。对话代理设备900还可包括存储器930、显示器940以及扬声器950。通信接口910、处理器920、存储器930、显示器940以及扬声器950可通过通信总线905彼此连接。
通信接口910可获得包括用于请求服务的将被发送的发出话语和用于请求服务的将被接收的进入话语中的至少一个的话语历史。通信接口910可输出由处理器920生成的话语信息。
通信接口910可通过对话代理设备900接收请求对话恢复的信号。响应于请求对话恢复的信号,处理器920可恢复话语信息的生成。
通信接口910可将更新的需求说明、话语历史或更新的需求说明与话语历史二者提供给用户。
通信接口910可接收基于通过用户的用户装置的接口收集的信息生成的需求说明。
通信接口910可获得第一发出话语、第一进入话语、第二发出话语和第二进入话语中的至少一个,其中,第一发出话语将从对话代理设备900发送到服务提供者,第一进入话语将由对话代理设备900从服务提供者接收,第二发出话语将从对话代理设备900发送到用户,第二进入话语将由对话代理设备900从用户接收。
处理器920可基于话语历史,更新包括请求服务所需的项目的需求说明。处理器920可基于更新的需求说明生成话语信息以请求服务。需求说明可包括指示项目的需求是否被满足的状态信息。状态信息可指示例如第一状态、第二状态和第三状态,其中,第一状态指示对应项目的需求被满足,第二状态指示对应项目的需求没有被满足,第三状态指示对应项目的需求是被满足还是没有被满足尚未被确定。
处理器920可基于话语历史确定项目的需求是否被满足,并基于确定的结果更新需求说明。
处理器920可确定至少一个项目的需求是否被满足,或者确定至少一个项目的需求是否没有被满足。
处理器920可将话语历史和需求说明输入到第一分类器。处理器920可基于从第一分类器输出的多热向量确定至少一个项目的需求是否被满足。第一分类器可被配置为确定项目的需求是否被满足,并将对应于项目的状态信息作为多热向量输出。
处理器920可将话语历史和需求说明输入到第二分类器。处理器920可基于从第二分类器输出的多热向量确定至少一个项目的需求是否没有被满足。第二分类器可被配置为确定项目的需求是否没有被满足,并将对应于项目的状态信息作为多热向量输出。
处理器920可确定项目的所有需求是否都被满足。当确定项目的所有需求都被满足时,处理器920可通知用户对服务的请求完成。
处理器920可基于更新的需求说明确定所有需求是否都被满足,可选择地,处理器920可使用第三分类器确定项目的所有需求是否都被满足。第三分类器可被配置为:基于话语历史和需求说明确定项目的需求是否被满足,并输出指示所有需求是否都被满足的值(例如,二进制值)。
处理器920可基于更新的需求说明确定话语目标。然后,处理器920可将话语信息输出到话语目标。处理器920可通过例如显示器940和/或扬声器950输出话语信息。
当包括在更新的需求说明中的至少一个项目的需求没有被满足时,处理器920可将用户确定为话语目标。包括在需求说明中的项目可包括针对每种类型的服务定义的至少一个必需项目。除了必需项目之外,项目还可包括至少一个可选项目。
通信接口910可从用户装置接收请求与服务提供者的直接呼叫的信号。
在接收到请求直接呼叫的信号之后,处理器920可暂停话语信息的生成,并将从用户装置输入的信息提供给服务提供者。
当包括在更新的需求说明中的至少一个项目的需求没有被满足时,处理器920可向用户询问所述至少一个项目。
此外,处理器920可执行以上参照图1至图8B描述的至少一种方法,或对应于所述方法的算法。处理器920可以是由具有物理结构的电路的硬件实现以执行期望的操作的数据处理装置。期望的操作可包括,例如,包括在程序中的代码或指令。由硬件实现的数据处理装置可包括,例如,微处理器、中央处理器(CPU)、处理器核、多核处理器、多处理器、专用集成电路(ASIC)和现场可编程门阵列(FPGA)。
处理器920可实现程序并控制对话代理设备900。由处理器920实现的程序的代码可存储在存储器930中。
存储器930可存储从用户装置接收的需求说明。此外,存储器930还可存储由处理器920更新的需求说明。此外,存储器930还可存储由处理器920生成的话语信息。
存储器930可存储在由处理器920执行的操作期间生成的各种信息集合。此外,存储器930可存储各种数据和程序集合。存储器930可包括易失性存储器或非易失性存储器。存储器930可包括大容量存储介质(例如,硬盘),并在其中存储各种数据集合。
显示器940可以以文本的形式输出由处理器920生成的话语信息。扬声器950可以以语音或讲话的形式输出由处理器920生成的话语信息。处理器920可以包括TTS功能。
在这里针对图1、图3和图9描述的DAS、对话代理设备、对话代理以及其他设备、单元、模块、装置和其他组件由硬件组件来实现。可用于执行本申请中描述的操作的硬件组件的示例适当地包括控制器、传感器、发生器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和被配置为执行本申请中描述的操作的任何其他电子组件。在其他示例中,执行本申请中描述的操作的一个或多个硬件组件由计算硬件实现(例如,由一个或多个处理器或计算机实现)。处理器或计算机可由一个或多个处理元件(例如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应和执行指令以实现期望的结果的任何其他装置或装置的组合)实现。在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行指令或软件(诸如,操作系统(OS)和在OS上运行的一个或多个软件应用),以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行来访问、操纵、处理、创建和存储数据。为简单起见,单数形式的术语“处理器”或“计算机”可用于本申请中描述的示例的描述中,但是在其他示例中,多个处理器或计算机可被使用,或者处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如,单个硬件组件或两个或更多个硬件组件可由单个处理器或两个或更多个处理器或一个处理器和一个控制器实现。一个或多个硬件组件可由一个或多个处理器或一个处理器和一个控制器实现,并且一个或多个其他硬件组件可由一个或多个其他处理器或另一处理器和另一控制器实现。一个或多个处理器或一个处理器和一个控制器可实现单个硬件组件,或两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一种或多种,其中,不同的处理配置的示例包括单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理和多指令多数据(MIMD)多处理。
图2、图4、图5A至图5E以及图6至图8B中所示的执行本申请中描述的操作的方法由计算硬件执行,例如,由如上所述被实现为执行指令或软件以执行在本申请中描述的由所述方法执行的操作的一个或多个处理器或计算机执行。例如,单个操作或两个或更多个操作可由单个处理器、或两个或更多个处理器、或一个处理器和一个控制器执行。一个或多个操作可由一个或多个处理器或一个处理器和一个控制器执行,并且一个或多个其他操作可由一个或多个其他处理器或另一处理器和另一控制器执行。一个或多个处理器或一个处理器和一个控制器可执行单个操作、或者两个或更多个操作。
用于控制处理器或计算机以实现硬件组件并执行上述的方法的指令或软件被写为计算机程序、代码段、指令或它们的任何组合,用于单独地或共同地指示或配置处理器或计算机,以作为机器或专用计算机进行操作,来执行由硬件组件和如上所述的方法执行的操作。在一个示例中,指令或软件包括由处理器或计算机直接执行的机器代码(诸如,由编译器产生的机器代码)。在另一示例中,指令或软件包括由处理器或计算机使用解释器执行的高级代码。本领域普通编程技术人员可基于附图中所示的框图和流程图以及说明书中的相应描述来容易地编写指令或软件,附图中所示的框图和流程图以及说明书中的相应描述公开了用于执行由硬件组件和如上所述的方法执行的操作的算法。
用于控制处理器或计算机以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中,或者被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储装置、硬盘驱动器(HDD)、固态驱动器(SSD)、卡式存储器、(诸如,多媒体微型卡或卡(例如,安全数字(SD)或极速数字(XD))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时方式存储指令或软件以及任何相关联的数据、数据文件和数据结构,并将指令或软件以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机,使得处理器或计算机能够执行指令。
虽然本公开包括特定示例,但是本领域普通技术人员将清楚,在不脱离权利要求及它们的等同物的精神和范围的情况下,可在这些示例中做出形式上和细节上的各种变化。这里所描述的示例将仅被理解为描述性含义,而非出于限制的目的。在每个示例中的特征或方面的描述将被认为是可适用于其他示例中的类似特征或方面。如果以不同的顺序执行描述的技术,和/或如果以不同的方式组合描述的系统、架构、装置或者电路中的组件和/或被其他组件或它们的等同物替换或补充,则可获得适当的结果。因此,本公开的范围不是由具体实施方式限定,而是由权利要求及它们的等同物限定,并且在权利要求及它们的等同物的范围内的所有变化将被解释为包含于本公开中。
Claims (43)
1.一种对话代理的操作方法,包括:
获得包括用于请求服务的将被发送的发出话语和用于请求服务的将被接收的进入话语中的至少一个的话语历史;
基于话语历史更新包括请求服务的项目的需求说明;
基于更新的需求说明生成将被用于请求服务的话语信息;
输出话语信息。
2.根据权利要求1所述的操作方法,其中,需求说明包括指示项目的需求是否被满足的状态信息。
3.根据权利要求2所述的操作方法,其中,状态信息指示以下状态中的至少一个:
第一状态,指示对应项目的需求被满足,
第二状态,指示对应项目的需求没有被满足,
第三状态,指示对应项目的需求被满足还是没有被满足尚未被确定。
4.根据权利要求1所述的操作方法,其中,更新的步骤还包括:
基于话语历史确定项目的需求是否被满足;
基于确定的结果更新需求说明。
5.根据权利要求4所述的操作方法,其中,确定需求是否被满足的步骤包括以下步骤中的至少一个:
确定至少一个项目的需求是否被满足;
确定至少一个项目的需求是否没有被满足。
6.根据权利要求5所述的操作方法,其中,确定至少一个项目的需求是否被满足的步骤包括:
将话语历史和需求说明输入到第一分类器,其中,第一分类器被配置为确定项目的需求是否被满足,并将对应于项目的状态信息作为多热向量输出;
基于多热向量确定所述至少一个项目的需求是否被满足。
7.根据权利要求5所述的操作方法,其中,确定至少一个项目的需求是否没有被满足的步骤包括:
将话语历史和需求说明输入到第二分类器,其中,第二分类器被配置为确定项目的需求是否没有被满足,并将对应于项目的状态信息作为多热向量输出;
基于多热向量确定所述至少一个项目的需求是否没有被满足。
8.根据权利要求1所述的操作方法,还包括:
确定项目的所有需求是否都被满足;
基于确定所有需求都被满足,通知用户对服务的请求完成。
9.根据权利要求8所述的操作方法,其中,确定项目的所有需求是否都被满足的步骤包括:
基于更新的需求说明确定所有需求是否都被满足;或者
使用第三分类器来确定所有需求是否都被满足,其中,第三分类器被配置为:基于话语历史和需求说明确定项目的需求是否被满足,并输出指示所有需求是否都被满足的值。
10.根据权利要求1所述的操作方法,还包括:
基于更新的需求说明确定话语目标,
其中,输出话语信息的步骤包括:
将话语信息输出到话语目标。
11.根据权利要求10所述的操作方法,其中,确定话语目标的步骤包括:
响应于包括在更新的需求说明中的至少一个项目的需求没有被满足,将用户确定为话语目标。
12.根据权利要求1所述的操作方法,其中,所述项目包括针对每种类型的服务设置的至少一个必需项目。
13.根据权利要求12所述的操作方法,其中,除了必需项目之外,所述项目还包括至少一个可选项目。
14.根据权利要求1所述的操作方法,还包括:
从用户装置接收请求与服务的提供者的直接呼叫的信号;
在接收到请求直接呼叫的信号之后,暂停话语信息的生成;
将从用户装置输入的信息提供给服务的提供者。
15.根据权利要求14所述的操作方法,还包括:
通过对话代理接收请求对话恢复的信号;
响应于请求对话恢复的信号,恢复话语信息的生成。
16.根据权利要求1所述的操作方法,还包括以下步骤中的至少一个:
将更新的需求说明提供给用户;
将话语历史提供给用户。
17.根据权利要求1所述的操作方法,还包括:
响应于包括在更新的需求说明中的至少一个项目的需求没有被满足,向用户询问所述至少一个项目。
18.根据权利要求1所述的操作方法,还包括:
接收基于通过用户装置的接口收集的信息生成的需求说明。
19.根据权利要求1所述的操作方法,其中,获得话语历史的步骤包括以下步骤中的至少一个:
获得将从对话代理发送到服务的提供者的第一发出话语;
获得将由对话代理从服务的提供者接收的第一进入话语;
获得将从对话代理发送到用户的第二发出话语;
获得将由对话代理从用户接收的第二进入话语。
20.一种存储指令的非暂时性计算机可读存储介质,其中,当所述指令由处理器执行时,使得处理器执行权利要求1所述的操作方法。
21.一种对话代理设备,包括:
通信接口,被配置为:获得包括用于请求服务的将被发送的发出话语和用于请求服务的将被接收的进入话语中的至少一个的话语历史,并输出话语信息;
处理器,被配置为:基于话语历史更新包括请求服务的项目的需求说明,并基于更新的需求说明生成将被用于请求服务的话语信息。
22.根据权利要求21所述的对话代理设备,其中,需求说明包括指示项目的需求是否被满足的状态信息。
23.根据权利要求22所述的对话代理设备,其中,状态信息指示以下状态中的至少一个:
第一状态,指示对应项目的需求被满足;
第二状态,指示对应项目的需求没有被满足;
第三状态,指示对应项目的需求被满足还是没有被满足尚未被确定。
24.根据权利要求21所述的对话代理设备,其中,处理器还被配置为:
基于话语历史确定项目的需求是否被满足,并基于确定的结果更新需求说明。
25.根据权利要求24所述的对话代理设备,其中,处理器还被配置为:
确定至少一个项目的需求是否被满足和/或确定至少一个项目的需求是否没有被满足。
26.根据权利要求25所述的对话代理设备,其中,处理器还被配置为:
将话语历史和需求说明输入到第一分类器,其中,第一分类器被配置为确定项目的需求是否被满足,并将对应于项目的状态信息作为多热向量输出;
基于多热向量确定所述至少一个项目的需求是否被满足。
27.根据权利要求25所述的对话代理设备,其中,处理器还被配置为:
将话语历史和需求说明输入到第二分类器,其中,第二分类器被配置为确定项目的需求是否没有被满足,并将对应于项目的状态信息作为多热向量输出;
基于多热向量确定所述至少一个项目的需求是否没有被满足。
28.根据权利要求21所述的对话代理设备,其中,处理器还被配置为:
确定项目的所有需求是否都被满足;
基于确定所有需求都被满足,通知用户对服务的请求完成。
29.根据权利要求28所述的对话代理设备,其中,处理器还被配置为:
基于更新的需求说明确定项目的所有的需求是否都被满足,或者
使用第三分类器来确定项目的所有的需求是否都被满足,其中,第三分类器被配置为:基于话语历史和需求说明确定需求是否被满足,并输出指示所有需求是否都被满足的值。
30.根据权利要求21所述的对话代理设备,其中,处理器还被配置为:
基于更新的需求说明确定话语目标;
将话语信息输出到话语目标。
31.根据权利要求30所述的对话代理设备,其中,处理器还被配置为:
响应于包括在更新的需求说明中的至少一个项目的需求没有被满足,将用户确定为话语目标。
32.根据权利要求31所述的对话代理设备,其中,所述项目包括针对每种类型的服务设置的至少一个必需项目。
33.根据权利要求32所述的对话代理设备,其中,除了必需项目之外,所述项目还包括至少一个可选项目。
34.根据权利要求31所述的对话代理设备,其中,通信接口还被配置为:从用户装置接收请求与服务的提供者的直接呼叫的信号,
处理器还被配置为:在请求直接呼叫的信号被接收到之后,暂停话语信息的生成,并将从用户装置输入的信息提供给服务的提供者。
35.根据权利要求34所述的对话代理设备,其中,通信接口还被配置为:通过对话代理设备接收请求对话恢复的信号,
处理器还被配置为:响应于请求对话恢复的信号,恢复话语信息的生成。
36.根据权利要求31所述的对话代理设备,其中,通信接口还被配置为:
将更新的需求说明提供给用户;
将话语历史提供给用户;或者
将更新的需求说明和话语历史二者提供给用户。
37.根据权利要求31所述的对话代理设备,其中,处理器还被配置为:
响应于包括在更新的需求说明中的至少一个项目的需求没有被满足,向用户询问所述至少一个项目。
38.根据权利要求31所述的对话代理设备,其中,通信接口还被配置为:
接收基于通过用户装置的接口收集的信息生成的需求说明。
39.根据权利要求31所述的对话代理设备,其中,通信接口还被配置为:
获得第一发出话语、第一进入话语、第二发出话语和第二进入话语中的至少一个,其中,第一发出话语将从所述对话代理设备发送到服务的提供者,第一进入话语将由所述对话代理设备从服务的提供者接收,第二发出话语将从所述对话代理设备发送到用户,第二进入话语将由所述对话代理设备从用户接收。
40.一种存储指令的非暂时性计算机可读存储介质,其中,当所述指令由处理器执行时,使得处理器执行以下操作:
从用户装置接收与服务的请求相关的需求;
基于需求来生成需求说明;
基于需求说明,与服务的提供者建立连接;
在所述连接期间,确定所有的需求是否被服务的提供者满足;
在所有的需求被满足的情况下,通知用户装置服务的请求完成;
在不是所有的需求被满足的情况下,通知用户装置至少一个需求未被满足,接收与未被满足的所述至少一个需求相关的改变的需求,并且基于改变的需求更新需求说明。
41.如权利要求40所述的非暂时性计算机可读存储介质,处理器还执行以下操作:
基于更新的需求说明,与服务的提供者建立第二连接;
在第二连接期间,确定与更新的需求说明相关的所有的需求是否被服务的提供者满足。
42.如权利要求40所述的非暂时性计算机可读存储介质,其中,在从用户装置接收的需求为自然语言的形式的情况下,处理器还执行以下操作:
分析自然语言,基于分析自然语言来确定服务的领域或类型,并基于确定的领域或类型生成需求说明。
43.如权利要求40所述的非暂时性计算机可读存储介质,其中,在从用户装置接收的需求为文本的形式的情况下,处理器还执行以下操作:
将文本分离成词法单元,将分离的词法单元输入到神经网络模型,并且基于神经网络模型的输出来生成需求说明。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2018-0101285 | 2018-08-28 | ||
KR1020180101285A KR20200024511A (ko) | 2018-08-28 | 2018-08-28 | 대화 에이전트의 동작 방법 및 그 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110909135A true CN110909135A (zh) | 2020-03-24 |
Family
ID=66379802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910266679.1A Pending CN110909135A (zh) | 2018-08-28 | 2019-04-03 | 对话代理的操作方法和对话代理设备 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11056110B2 (zh) |
EP (1) | EP3618062B1 (zh) |
JP (1) | JP7460338B2 (zh) |
KR (1) | KR20200024511A (zh) |
CN (1) | CN110909135A (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020149031A1 (ja) * | 2019-01-16 | 2020-07-23 | ソニー株式会社 | 応答処理装置及び応答処理方法 |
US10841251B1 (en) * | 2020-02-11 | 2020-11-17 | Moveworks, Inc. | Multi-domain chatbot |
JP7392128B2 (ja) * | 2020-03-20 | 2023-12-05 | グーグル エルエルシー | 人間の参加者の代理の自動アシスタントによる準委任通話 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130275164A1 (en) * | 2010-01-18 | 2013-10-17 | Apple Inc. | Intelligent Automated Assistant |
US20160035353A1 (en) * | 2014-07-31 | 2016-02-04 | Google Inc. | Conversational agents |
US20160098992A1 (en) * | 2014-10-01 | 2016-04-07 | XBrain, Inc. | Voice and Connection Platform |
US20170300831A1 (en) * | 2016-04-18 | 2017-10-19 | Google Inc. | Automated assistant invocation of appropriate agent |
CN108028043A (zh) * | 2015-09-24 | 2018-05-11 | 微软技术许可有限责任公司 | 在参与者之间的对话中检测可行动项 |
US20180211663A1 (en) * | 2017-01-23 | 2018-07-26 | Hyundai Motor Company | Dialogue system, vehicle having the same and dialogue processing method |
KR101891492B1 (ko) * | 2017-11-03 | 2018-08-24 | 주식회사 머니브레인 | 답변을 변형하여 상황에 맞는 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6931384B1 (en) | 1999-06-04 | 2005-08-16 | Microsoft Corporation | System and method providing utility-based decision making about clarification dialog given communicative uncertainty |
US7444383B2 (en) | 2000-06-17 | 2008-10-28 | Microsoft Corporation | Bounded-deferral policies for guiding the timing of alerting, interaction and communications using local sensory information |
JP4686905B2 (ja) | 2000-07-21 | 2011-05-25 | パナソニック株式会社 | 対話制御方法及びその装置 |
US7844666B2 (en) | 2000-12-12 | 2010-11-30 | Microsoft Corporation | Controls and displays for acquiring preferences, inspecting behavior, and guiding the learning and decision policies of an adaptive communications prioritization and routing system |
US7292689B2 (en) | 2002-03-15 | 2007-11-06 | Intellisist, Inc. | System and method for providing a message-based communications infrastructure for automated call center operation |
US20050165631A1 (en) | 2004-01-28 | 2005-07-28 | Microsoft Corporation | Time management representations and automation for allocating time to projects and meetings within an online calendaring system |
US20060233344A1 (en) | 2005-04-14 | 2006-10-19 | Das Subrata K | System and method for expedited resolution of inquiries for an automated agent |
US7751542B2 (en) | 2006-05-04 | 2010-07-06 | Avaya Inc. | Feeble ring tones |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080084989A1 (en) | 2006-09-22 | 2008-04-10 | International Business Machines Corporation | Intelligent Reusable Dialog Components for Converged Dialog and Session Control |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
US8255225B2 (en) | 2008-08-07 | 2012-08-28 | Vocollect Healthcare Systems, Inc. | Voice assistant system |
KR101553521B1 (ko) | 2008-12-11 | 2015-09-16 | 삼성전자 주식회사 | 지능형 로봇 및 그 제어방법 |
WO2012042636A1 (ja) | 2010-09-30 | 2012-04-05 | トヨタ自動車株式会社 | 移動物体検知装置 |
KR101954774B1 (ko) | 2012-08-16 | 2019-03-06 | 삼성전자주식회사 | 문자 데이터를 이용한 음성 통화를 제공하기 위한 전자 장치 및 방법 |
JPWO2014073612A1 (ja) * | 2012-11-08 | 2016-09-08 | 日本電気株式会社 | 会話文生成装置、会話文生成方法及び会話文生成プログラム |
US9570090B2 (en) | 2015-05-26 | 2017-02-14 | Google Inc. | Dialog system with automatic reactivation of speech acquiring mode |
WO2015021449A2 (en) | 2013-08-08 | 2015-02-12 | E-Valuation,Inc. | Systems and methods of communicating information regarding interpersonal relationships using biographical imagery |
US8964962B1 (en) | 2013-10-01 | 2015-02-24 | Avaya Inc. | Dialog reorder |
US20170017501A1 (en) * | 2013-12-16 | 2017-01-19 | Nuance Communications, Inc. | Systems and methods for providing a virtual assistant |
US9830044B2 (en) * | 2013-12-31 | 2017-11-28 | Next It Corporation | Virtual assistant team customization |
US9607102B2 (en) | 2014-09-05 | 2017-03-28 | Nuance Communications, Inc. | Task switching in dialogue processing |
CN107209841B (zh) | 2014-10-22 | 2020-11-03 | 微软技术许可有限责任公司 | 在软件应用中启用分类和irm的方法、系统和介质 |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
KR102151626B1 (ko) | 2016-01-12 | 2020-09-03 | 네이버 주식회사 | 통화 중 특정 태스크를 처리하는 장치 및 그 방법 |
US20170277993A1 (en) | 2016-03-22 | 2017-09-28 | Next It Corporation | Virtual assistant escalation |
EP3748558A1 (en) | 2016-06-13 | 2020-12-09 | Google LLC | Automated telephone call initiating system and method |
US20180025726A1 (en) * | 2016-07-22 | 2018-01-25 | International Business Machines Corporation | Creating coordinated multi-chatbots using natural dialogues by means of knowledge base |
KR20190004495A (ko) * | 2017-07-04 | 2019-01-14 | 삼성에스디에스 주식회사 | 챗봇을 이용한 태스크 처리 방법, 장치 및 시스템 |
US11212637B2 (en) * | 2018-04-12 | 2021-12-28 | Qualcomm Incorproated | Complementary virtual audio generation |
-
2018
- 2018-08-28 KR KR1020180101285A patent/KR20200024511A/ko active Search and Examination
-
2019
- 2019-03-18 US US16/356,071 patent/US11056110B2/en active Active
- 2019-04-03 CN CN201910266679.1A patent/CN110909135A/zh active Pending
- 2019-05-02 EP EP19172307.1A patent/EP3618062B1/en active Active
- 2019-08-27 JP JP2019154766A patent/JP7460338B2/ja active Active
-
2021
- 2021-06-14 US US17/346,626 patent/US11705128B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130275164A1 (en) * | 2010-01-18 | 2013-10-17 | Apple Inc. | Intelligent Automated Assistant |
US20160035353A1 (en) * | 2014-07-31 | 2016-02-04 | Google Inc. | Conversational agents |
US20160098992A1 (en) * | 2014-10-01 | 2016-04-07 | XBrain, Inc. | Voice and Connection Platform |
CN108028043A (zh) * | 2015-09-24 | 2018-05-11 | 微软技术许可有限责任公司 | 在参与者之间的对话中检测可行动项 |
US20170300831A1 (en) * | 2016-04-18 | 2017-10-19 | Google Inc. | Automated assistant invocation of appropriate agent |
US20180211663A1 (en) * | 2017-01-23 | 2018-07-26 | Hyundai Motor Company | Dialogue system, vehicle having the same and dialogue processing method |
KR101891492B1 (ko) * | 2017-11-03 | 2018-08-24 | 주식회사 머니브레인 | 답변을 변형하여 상황에 맞는 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체 |
Also Published As
Publication number | Publication date |
---|---|
US11056110B2 (en) | 2021-07-06 |
US20200075003A1 (en) | 2020-03-05 |
KR20200024511A (ko) | 2020-03-09 |
EP3618062B1 (en) | 2021-12-29 |
US20210304762A1 (en) | 2021-09-30 |
JP7460338B2 (ja) | 2024-04-02 |
EP3618062A1 (en) | 2020-03-04 |
JP2020034914A (ja) | 2020-03-05 |
US11705128B2 (en) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887595B2 (en) | User-programmable automated assistant | |
KR102297394B1 (ko) | 적절한 에이전트의 자동화된 어시스턴트 호출 | |
KR102112814B1 (ko) | 다이얼로그 시스템들에서의 파라미터 수집 및 자동 다이얼로그 생성 | |
KR102289917B1 (ko) | 화행 정보를 이용한 대화 처리 방법 및 그 장치 | |
US9172747B2 (en) | System and methods for virtual assistant networks | |
JP6827479B2 (ja) | パーソナルアシスタントモジュールによる非決定的なタスク開始 | |
US11205045B2 (en) | Context-based autocompletion suggestion | |
US20200327192A1 (en) | Initialization of automated workflows | |
US11705128B2 (en) | Operation method of dialog agent and apparatus thereof | |
CN110574104A (zh) | 自动助理数据流 | |
US11848013B2 (en) | Automated assistant invocation of second interactive module using supplemental data provided by first interactive module | |
WO2023082752A1 (zh) | 基于多模态特征的语音对话处理方法、装置和电子设备 | |
JP2024520659A (ja) | 対話型通信システムを動的にナビゲートするための方法、装置、及びシステム | |
US10847141B2 (en) | Dialogue system and a dialogue method | |
JP2024020472A (ja) | 人間の参加者の代理の自動アシスタントによる準委任通話 | |
CN116016779A (zh) | 语音通话翻译辅助方法、系统、计算机设备和存储介质 | |
JP7205962B1 (ja) | 自動対話のためのシステム | |
EP4089569A1 (en) | A dialogue system and a dialogue method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |