CN114303132A - 在虚拟个人助手中使用唤醒词进行上下文关联和个性化的方法和系统 - Google Patents
在虚拟个人助手中使用唤醒词进行上下文关联和个性化的方法和系统 Download PDFInfo
- Publication number
- CN114303132A CN114303132A CN202080059366.XA CN202080059366A CN114303132A CN 114303132 A CN114303132 A CN 114303132A CN 202080059366 A CN202080059366 A CN 202080059366A CN 114303132 A CN114303132 A CN 114303132A
- Authority
- CN
- China
- Prior art keywords
- wake
- word
- user
- response
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 66
- 230000004044 response Effects 0.000 claims abstract description 193
- 230000009471 action Effects 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000004891 communication Methods 0.000 claims abstract description 20
- 239000000945 filler Substances 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 239000003795 chemical substances by application Substances 0.000 description 29
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 20
- 239000000284 extract Substances 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 230000036541 health Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于从虚拟助手生成个性化响应的电子设备,包括:网络通信电路;存储器;以及至少一个处理器,该至少一个处理器被配置为当接收到包括唤醒词的用户查询时,解析用户查询以从用户查询分离出唤醒词;处理唤醒词;从唤醒词数据库中提取唤醒词相关信息;解析所提取的唤醒词相关信息以及多个用户偏好信息;对从唤醒词解析器接收到信息进行分类;根据经分类的信息产生唤醒词上下文;处理用户查询;以及基于多个动作步骤,从至少一个知识库中检索查询响应。
Description
技术领域
本公开总体上涉及与虚拟个人助手的交互,并且更具体地,涉及在虚拟个人助手通信中调用知识库(knowledge base)并提供个性化响应。
背景技术
虚拟个人助手是在用户和计算机之间提供改进的接口的计算设备。这样的助手允许用户使用话语和/或文本形式的自然语言来与设备或系统进行交互。这样的助手解释用户查询,执行查询中用户的意图,执行支持这些查询的动作,并生成对用户的响应。
虚拟个人助手可以与用于处理用户输入的各种信息源(包括例如知识库、模型和/或数据)一起使用。在多种情况下,没有协助的用户输入不足以清楚地识别用户的意图和用户想要执行的任务。这可能是因为用户之间个体差异的输入流中的噪声和/或自然语言的固有模糊性(inherent ambiguity)而出现的。因此,在没有额外信息的情况下,虚拟助手无法正确地解释和处理请求。这种类型的模糊性可能导致错误、对动作的不正确执行和/或要输入进一步说明(clarification)的过多累赘(encumbrance)用户请求。
根据传统技术,用户可能不得不向虚拟助手重复提问以接收足够的响应。例如,用户可以向虚拟个人助手提问,并且虚拟个人助手可以回复并且需要针对该问题的更多说明。用户可以再次更清楚地向虚拟助手提问。此外,可以向搜索添加额外的关键词,并且在此之后,虚拟助手可以再次询问对用户问题的说明,并且用户可以再次向他或她的问题添加更多细节。因此,在多个步骤之后,用户可以从他的虚拟个人助手获得期望的答案。因此,系统可能需要对用户而言可能是重复且繁重的多个输入来获得处理查询和生成响应所需的上下文。
因此,从虚拟个人助手提供个性化响应并且减少在虚拟个人助手中的信息检索中消耗的时间可能是有益的。
发明内容
技术问题
根据传统技术,用户可能不得不向虚拟助手重复提问以接收足够的响应。例如,用户可以向虚拟个人助手提问,并且虚拟个人助手可以回复并且需要针对该问题的更多说明。用户可以再次更清楚地向虚拟助手提问。此外,可以向搜索添加额外的关键词,并且在此之后,虚拟助手可以再次询问对用户问题的说明,并且用户可以再次向他或她的问题添加更多细节。因此,在多个步骤之后,用户可以从他的虚拟个人助手获得期望的答案。因此,系统可能需要对用户而言可能是重复且繁重的多个输入来获得处理查询和生成响应所需的上下文。
问题的解决方案
进行本公开是为了解决上述问题和缺点,并且提供至少下述优点。
根据本公开的一个方面,一种用于从虚拟助手生成个性化响应的方法包括:由虚拟助手客户端设备接收包括唤醒词的用户查询;由查询解析器模块解析用户查询,以从用户查询中分离出唤醒词;由唤醒词处理器在虚拟助手服务器中处理唤醒词;其中,该处理包括由驻留在虚拟助手服务器上的唤醒词提取器从唤醒词数据库中提取唤醒词相关信息;由唤醒词解析器解析所提取的唤醒词相关信息以及多个用户偏好信息;由唤醒词分类器对从唤醒词解析器接收到的信息进行分类;由唤醒词上下文处理器根据经分类的信息产生唤醒词上下文;由虚拟助手服务器处理用户查询;以及由虚拟助手服务器基于多个动作步骤,从至少一个知识库中检索查询响应。
根据本公开的另一个方面,一种用于从虚拟助手生成个性化响应的电子设备包括网络通信电路;存储器;以及至少一个处理器,该至少一个处理器被配置为当接收到包括唤醒词的用户查询时,解析用户查询以从用户查询中分离出唤醒词;处理唤醒词;从唤醒词数据库中提取唤醒词相关信息;解析所提取的唤醒词相关信息以及多个用户偏好信息;对从唤醒词解析器接收到的信息进行分类;根据经分类的信息产生唤醒词上下文;处理用户查询;以及基于多个动作步骤,从至少一个知识库中检索查询响应。
发明的有益效果
本公开可能有益于从虚拟个人助手提供个性化响应并且减少在虚拟个人助手中的信息检索中消耗的时间。
附图说明
从以下结合附图的描述中,本公开的某些实施例的上述和其他方面、特征和优点将变得更加清楚,其中:
图1A示出了根据实施例的包括虚拟助手客户端设备的系统,该虚拟助手客户端设备被配置为初始化唤醒词、接收用户输入并且充当用户的接口设备以从虚拟助手生成个性化响应;
图1B示出了根据实施例的包括虚拟助手服务器的系统,该虚拟助手服务器被配置为处理用户查询和唤醒词以从虚拟助手生成个性化响应;
图1C示出了根据实施例的被配置为从虚拟助手中检索用于生成个性化响应的查询响应的系统;
图1D示出了根据实施例的被配置为从虚拟助手生成个性化响应的系统;
图2A示出了根据实施例的在虚拟个人助手中使用唤醒词的上下文关联和个性化的架构;
图2B示出了根据实施例的在虚拟个人助手中使用唤醒词的上下文关联和个性化的架构;
图3A示出了根据实施例的在虚拟个人助手中使用唤醒词的上下文关联和个性化的架构;
图3B示出了根据实施例的在虚拟个人助手中使用唤醒词的上下文关联和个性化;
图4是示出根据实施例的唤醒词处理、唤醒词分类和唤醒词的信息检索的流程图;
图5是示出根据实施例的个性化填充物(filler)的使用的流程图;
图6示出了根据实施例的从多个虚拟助手中选择适当的虚拟助手的架构的示意框图;
图7示出了根据实施例的用于使唤醒词多样化的架构的示意框图;
图8A是示出根据实施例的从虚拟助手生成个性化响应的方法的流程图;
图8B是示出根据实施例的在虚拟助手服务器中处理唤醒词的方法的流程图;
图8C是示出根据实施例的从虚拟助手生成个性化响应的方法的流程图;
图9是示出根据实施例的从虚拟助手生成个性化响应的方法的流程图;
图10是示出根据实施例的从虚拟助手生成个性化响应的方法的流程图;
图11是示出根据实施例的从多个虚拟助手中选择适当的虚拟助手的方法的流程图;
图12是示出根据实施例的使唤醒词多样化的方法的流程图;
图13是示出根据实施例的从虚拟助手客户端设备上的虚拟助手生成个性化响应的方法的流程图;
图14示出了根据实施例的、在虚拟个人助手通信系统中调用知识库/专家系统并且基于预定义的唤醒词和个性化参数集生成个性化响应的方法;以及
图15示出了根据实施例的可以知晓一个或多个上下文的虚拟个人助手。
具体实施方式
参考附图描述了本公开的各种实施例。然而,本公开的各种实施例不限于特定实施例,并且应当理解,可以对本文所描述的实施例进行各种修改、等同和/或替换。关于附图的描述,相似的组件可以用相似的附图标记来标记。
附图中的组件和/或模块之间的连接并不局限于直接连接。相反,这些组件和模块可以通过中间组件和模块来修改、重新格式化或以其他方式改变。
本公开的各种实施例提供了一种用于从虚拟个人助手生成个性化响应的方法和系统。本公开涉及在虚拟个人助手的通信中基于唤醒词和个性化参数集来提供知识库调用和个性化响应生成的机制。
本申请要求保护的主题提供了一种用于从虚拟个人助手生成个性化响应的改进的方法和系统。
例如,本文的各种实施例可以包括在客户端-服务器布置中快速下载和再现内容的一个或多个方法和系统。在实施例之一中,方法包括由虚拟助手客户端设备接收包括唤醒词的用户查询。此外,查询解析器模块解析用户查询以从用户查询中分离出唤醒词。唤醒词处理器处理虚拟助手服务器中的唤醒词。该处理还包括由驻留在虚拟助手服务器上的唤醒词提取器从唤醒词数据库中提取唤醒词相关信息。唤醒词解析器解析所提取的唤醒词相关信息以及多个用户偏好信息。唤醒词分类器对从唤醒词解析器接收到的信息进行分类。此外,唤醒词上下文处理器根据经分类的信息产生唤醒词上下文。该方法还包括由虚拟助手服务器处理用户查询,并且虚拟助手服务器基于多个动作步骤,从至少一个知识库中检索查询响应。该方法还包括由标准响应生成器根据从响应路径规划器模块接收到的查询响应来生成标准自然语言响应,以及由个性化响应生成器使用唤醒词信息和唤醒词上下文从标准自然语言响应合成个性化响应。
在实施例中,该系统包括被配置为接收包括唤醒词的用户查询的虚拟助手客户端设备。此外,查询解析器模块被配置为解析用户查询以从用户查询中分离出唤醒词。唤醒词处理器被配置为在虚拟助手服务器中处理唤醒词,其中,该唤醒词处理器还包括驻留在虚拟助手服务器上的唤醒词提取器,该唤醒词提取器被配置为从唤醒词数据库中提取唤醒词相关信息。唤醒词解析器被配置为解析所提取的唤醒词相关信息以及多个用户偏好信息。唤醒词分类器还被配置为对从唤醒词解析器接收到的信息进行分类。此外,唤醒词上下文处理器被配置为根据经分类的信息产生唤醒词上下文。该系统还包括虚拟助手服务器,其被配置为处理用户查询并基于多个动作步骤,从至少一个知识库中检索查询响应。该系统还包括标准响应生成器和个性化响应生成器,该标准响应生成器被配置为根据从响应路径规划器模块接收到的查询响应来生成标准自然语言响应,该个性化响应生成器被配置为使用唤醒词信息和唤醒词上下文从标准自然语言响应合成个性化响应。
在实施例中,该系统还包括标准响应生成器和个性化响应生成器,该标准响应生成器根据从响应路径规划器模块接收到的查询响应来生成标准自然语言响应,该个性化响应生成器使用唤醒词信息和唤醒词上下文从标准自然语言响应合成个性化响应。
在实施例中,虚拟助手服务器包括查询上下文处理器和动作规划器模块,该查询上下文处理器根据唤醒词上下文和分离出的用户查询生成用户查询上下文,该动作规划器模块被配置为基于用户查询上下文来计算多个动作步骤。
在实施例中,多个动作步骤包括决策代理(decision agent),该决策代理被配置为从动作规划器模块接收多个动作步骤,根据用户查询搜索适当的知识库,从搜索到的适当的知识库中提取对用户查询的查询响应,并且指示向响应路径规划器模块发送查询响应。
在实施例中,可以在不同的设备上使用相同的虚拟助手。用户为唤醒词分配特定的知识库。用户向他的个性化虚拟个人助手提出查询,诸如,“嗨,Bob。我无聊,播放一段好视频”。如果用户在他附近的所有设备中都具有唤醒词“Bob”,那么他附近的所有设备都将根据该唤醒词而醒来,并将该查询发送到云以供进一步处理。在云中,由于从使用用户的相同账户的所有不同的设备接收到了相同的查询,所以当前最合适的设备将收到回复。因此,在这种情况下,基于用户查询选择用户附近的该最合适的设备。
在实施例中,如FacebookTM、InstagramTM、TwitterTM、NetflixTM或Prime VideoTM的填充物源(filler source)被用于获取诸如用户的好恶、推文和观看历史的信息。
在实施例中,在不同的设备上使用不同的虚拟助手。在这种情况下,用户为唤醒词分配特定的知识库。每个设备具有不同的虚拟助手,并且每个虚拟助手都与不同的唤醒词相关联。用户在他周围的不同设备中有多个虚拟助手。因此,当查询来自用户时,只有与设备相对应的云开始处理,并且该设备开始响应。
在实施例中,该方法包括由决策代理在多个知识库中搜索用户查询,以及由路由代理基于多个动作步骤准备用于在多个知识库之一中搜索查询响应的路由规划。此外,用户查询被路由代理路由到适当的知识库,以获得查询响应。
在实施例中,多个唤醒词被分配为与多个模式中的至少一个模式相对应,其中多个模式包括通用模式和专用(private)模式。
应当理解,本领域技术人员将能够设计各种布置,尽管本文没有明确描述,但是这些布置体现了本公开的原理。此外,本文所列举的所有示例主要是为了解释的目的,以帮助读者理解本公开的原理和构思,并且被解释为不限于这些具体列举的示例和条件。此外,本文中列举本公开的原理、方面和实施例以及其特定示例的所有陈述旨在包括其等同物。
图1A示出了根据实施例的包括虚拟助手客户端设备116的系统100,该虚拟助手客户端设备116被配置为初始化唤醒词、接收用户输入、充当用户的接口设备以从虚拟助手生成个性化响应。系统100包括服务器102、虚拟助手客户端设备116、用户输入/输出138、第三方服务器140和多个输入/输出设备142。
服务器102可以包括代理服务器(proxy server)、邮件服务器、网络服务器、应用服务器、实时通信服务器和文件传输协议(FTP)服务器。
数据存储104可以被实现为企业数据库、远程数据库和本地数据库。此外,数据存储104可以包括多个设备,并且可以位于彼此附近、或者可以位于不同的地理位置。此外,数据存储104可以被实现在系统100内部或外部,并且数据存储104可以被实现为单个数据库。此外,数据存储104可以驻留在虚拟助手客户端设备116中。
虚拟助手客户端设备116可以被称为虚拟助手、个人助手、虚拟助手设备或虚拟个人助手。
服务器102包括数据存储104。数据存储104包括用户简档信息和用户偏好信息106。服务器102还包括唤醒词数据库108、账户信息110、设备112和上下文信息114。
虚拟助手客户端设备116包括虚拟助手代理(agent)118、虚拟助手客户端120、输入/输出接口122、一个或多个应用123、耦合到处理器128的存储器124、操作系统(OS)126、一个或多个服务130、网络通信132、IoT仪表板134和IoT接口136。
存储器124可以包括本领域已知的任何计算机可读介质,包括例如易失性存储器(诸如静态随机访问存储器(SRAM)和动态随机访问存储器(DRAM))、和/或非易失性存储器(诸如只读存储器(ROM)、可擦除可编程ROM(EPROM)、闪存、硬盘、光盘和磁带)。
处理器128可以被实现为一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、神经处理单元、状态机、逻辑电路和/或基于操作指令操纵信号的任何设备。除了其他能力之外,处理器被配置为获取和执行存储在存储器124中的计算机可读指令。
网络通信132将虚拟助手客户端设备116与服务器102中的数据存储104互连。网络通信132包括有线和无线网络。有线网络的示例包括但不限于广域网(WAN)或局域网(LAN)、客户端-服务器网络和对等网络。无线网络的示例包括但不限于无线保真(Wi-Fi)、全球移动通信系统(GSM)网络和通用分组无线电服务(GPRS)网络、增强型数据GSM环境(EDGE)网络、802.5通信网络、码分多址(CDMA)网络或蓝牙网络。网络通信132可以是一个或多个有线和/或无线网络的组合。
参考图1A,系统100执行唤醒词初始化,以从虚拟助手生成个性化响应。这里,需要唤醒词初始化来将唤醒词与用户定义的知识库进行映射。该映射以及用户简档和偏好106一起存储在数据存储104中,以在与用户进行交互时产生用户查询的有效响应。用户使用虚拟助手客户端120来提供唤醒词和用户偏好106,并且虚拟助手服务器将其映射到多个知识库。该信息由用户的简档(即简档ID)、唤醒词和知识库组成,其中该信息被发送到服务器102处的数据存储104。系统100还请求数据存储104来为用户设置新的唤醒词。此外,存在于服务器102处的数据存储104被配置为接收用户请求并在唤醒词数据库108中添加条目。此外,数据存储104也可以存在于虚拟助手服务器或虚拟助手客户端设备116中。该条目包括诸如简档ID、唤醒词和知识库信息的信息,并且简档ID和唤醒词的组合可以是主键。在唤醒词数据库中包括唤醒词之后,成功/失败响应被发送回虚拟助手客户端设备116。虚拟助手代理118被配置为使用输入/输出接口122从服务器102接收响应,并且向用户呈现该响应。用户将输入包括唤醒词的查询来进一步处理该唤醒词。
根据实施例,用户1根据例如以下命令,使用手持式设备来初始化多个唤醒词以及知识库信息:
初始化(唤醒词:Tom,知识库:信息)
此外,根据以下命令在唤醒词数据库中添加关于用户1的条目:
插入(简档ID:用户1,唤醒词:Tom,知识库:信息)
因此,唤醒词初始化的结果显示在手持式设备上。
图1B示出了根据实施例的包括虚拟助手服务器的系统,该虚拟助手服务器被配置为处理用户查询和唤醒词,以从虚拟助手生成个性化响应。
参考图1B,虚拟助手服务器170包括自然语言理解(NLU)处理器159、自动化语音辨识(ASR)模块166和虚拟助手主机模块168。NLU处理器159还包括NLU数据库145、唤醒词处理器150、动作规划器模块160、查询上下文处理器162和查询解析器模块164。NLU数据库145还包括替换单元144、多个令牌146和多个本体(ontology)148。唤醒词处理器150包括唤醒词上下文处理器152、唤醒词分类器154、唤醒词解析器156和唤醒词提取器158。
驻留在虚拟助手服务器170中的虚拟助手主机模块168从虚拟助手客户端设备116的虚拟助手客户端120接收用户查询。该用户查询包含唤醒词以及用户查询的其余部分。虚拟助手主机模块168被配置为将该用户查询传递到ASR模块166。ASR模块166还被配置为处理传入的用户查询。ASR模块166被配置为将声信号作为输入,并且基于该声信号来确定实际说出了哪些词。该输出由词图(word graph)组成,该词图包括由词假设(即,估计)组成的格(lattice)。ASR模块166还被配置为返回文本结果,其中每个结果都涉及一定的置信度,并将该数据传递到NLU处理器159。NLU处理器159被配置为接收该数据并提取有意义的表示。NLU处理器159还被配置为处理多个非结构化输入,并将其转换为机器可理解的结构化形式。最初,查询被解析以分离唤醒词和用户查询的其余部分。此外,唤醒词被发送到唤醒词处理器150,并且用户查询的其余部分被单独地解析。
用户查询由查询解析器模块164按照标准自然语言理解方法论来处理,本文解释一种这样的方法。在标准自然语言理解方法论的第一步骤中,用户查询中的查询词被替换为机器能够容易理解的标准词。这些查询词存储在NLU数据库145的替换文件144中。在下一步骤中,通过使用存储在NLU数据库145中的本体148之一和令牌信息146来准备标准查询。该用户查询包含与用户对话相关的上下文。该上下文可以包括用户简档信息,以用于生成更好的上下文查询。此外,处理用户查询可能需要语法修剪和处理、规则过滤、克隆和限制过滤。
唤醒词被发送到唤醒词处理器150以用于进一步处理。唤醒词处理器150从查询解析器模块164接收唤醒词,以生成唤醒词上下文。唤醒词处理包括本文解释的各种步骤。在第一步骤中,生成传入的唤醒词查询以由唤醒词提取器158从驻留在服务器102中的唤醒词数据库108中提取关于该唤醒词的信息。唤醒词相关信息存储在唤醒词数据库108中。所述提取一般通过包括用户ID、设备ID和唤醒词作为输入的多个应用程序接口(API)调用来完成。服务器102被配置为响应于API调用之一来返回唤醒词信息和用户偏好信息。在第二步骤中,唤醒词解析器156被配置为从唤醒词提取器158接收存储在用户简档中的用户偏好信息和唤醒词相关信息。此外,从服务器102接收到的信息可以是数据结构或任何标准数据格式的形式。唤醒词解析器156还被配置为解析该信息,以将相关信息彼此编组在一起,并且聚合或获取上下文信息114。在第三步骤中,唤醒词分类器154被配置为对从唤醒词解析器156接收到的信息进行分类,并且唤醒词分类器154对从多个用户偏好106和唤醒词数据库108接收的类似信息编组在一起。唤醒词分类器154还被配置为向从用户偏好和唤醒词数据库接收到的信息分配多个令牌146或标签。从NLU数据库145访问这些标签或令牌146。唤醒词分类器154还可以支持解释上下文以及分类任务。在最后的步骤中,唤醒词上下文处理器152被配置为处理从唤醒词分类器154接收到的经分类的信息,以提取与唤醒词相关的特定上下文。唤醒词上下文处理器152还被配置为以类似于查询解析器模块164的输出的标准语言来生成上下文,使得上下文和查询解析器模块164的输出可以被一起处理。该上下文信息以及到知识库的链接被发送到查询上下文处理器162。
查询上下文处理器162被配置为从查询解析器模块164接收查询,并且唤醒词上下文处理器152被配置为接收唤醒词上下文信息以及到知识库的链接,以生成查询的整体上下文。这是通过映射和遍历连接的信息并生成多个机器可读查询作为输出来完成的。查询上下文处理器162包括推理组件或推断引擎,用于组合从查询解析器模块164接收到的信息和从唤醒词上下文处理器152接收到的上下文信息,以解释和生成聚合的上下文。
动作规划器模块160被配置为定义多个动作步骤以处理对用户查询的响应,将上下文查询分解成多个动作步骤,并且将这些步骤作为脚本来执行。多个动作步骤包括一些互链接或连接的步骤,并且这些动作步骤的执行由动作规划器模块160来定义。此外,在这些操作步骤中还定义了到知识库和外部源的链接。下面示出了所述动作步骤的一个这样示例。
示例动作步骤可能具有包括以下命令步骤的脚本:
1.转到决策代理1【到决策代理的路径】
2.在GK知识库【路径_信息_GK(path_info_GK)】和地理知识库【路径_信息_地理(path_info_Geography)】中搜索查询“亚马逊(Amazon)”
3.指示决策代理1使用【唤醒词,唤醒词_信息(Wake-word_info)】来向响应路径规划器发送搜索结果
图1C示出了根据实施例的被配置为从虚拟助手中检索用于生成个性化响应的查询响应的系统。
参考图1C,决策代理174充当虚拟助手服务器170和域特定知识库172之间的接口。决策代理174还可以与负责域知识库的专家系统172协作。当决策代理174从动作规划器模块160接收到动作规划时,决策代理174被配置为识别通过其处理用户查询的相应知识库或专家系统172。然后,多个查询被转发到知识库或专家系统172,以提取对查询的响应/动作。所提取的响应由决策代理174接收,决策代理174被配置为生成对用户查询的综合一致响应(consolidated coherent response),该响应然后被转发到响应路径规划器模块178以供进一步处理。在某些情况下查询相互依赖,在这种情况下,决策代理174被配置为将该信息传递给路由代理176。路由代理176被配置为基于多个动作步骤准备用于在多个知识库172之一中搜索查询响应的路由规划。每个知识库172存储使用路由表机制来解析到所依赖的知识库的路径的表。
图1D示出了根据实施例的被配置为从虚拟助手生成个性化响应的系统。
参考图1D,虚拟助手服务器170还包括响应路径规划器模块178、自然语言生成(NLG)模块180、存储器186、OS 188、一个或多个处理器190、虚拟助手主机模块168、网络通信电路192和外部服务接口194。如图1C中所解释的,所生成的对用户查询的综合一致响应被转发到响应路径规划器模块178以用于进一步处理。响应路径规划器模块178被配置为从决策代理174接收该响应,并且准备该响应的执行规划。该执行规划是用路径规则数据库179中定义的规则来准备的。该响应路径可以包括要针对命令的用户执行、设备控制命令、服务交互指令和用户界面(UI)生成指令而生成的口头(verbal)/非口头响应。此外,NLG模块180被配置为以用户自己的语言来生成该响应以进行口头/非口头响应。NLG模块180包括基于用户偏好的个性化响应生成,以向用户提供陪伴体验。个性化响应生成包括两个主要组件,包括标准响应生成器182和个性化响应生成器184。标准响应生成器182包括各种子模块,各种子模块包括被配置为接收来自知识库172的响应和来自响应路径规划器模块178的路径指令的响应检索模块。这些信息可以以不同信息单元的形式出现。此外,对话管理器模块被配置为过滤从响应检索模块接收到的信息,并且生成针对用户查询的抽象答案。此外,响应合成模块被配置为接收抽象文本答案,并将它们转换为标准的、人类可理解的答案。这个模块与各种口头和本体数据库交互来执行这种任务。
个性化响应生成器184被配置为从标准响应生成器182接收标准文本响应,并将它们转换为个性化响应。个性化响应生成器184包括各种子模块。唤醒词上下文提取器模块被配置为与虚拟助手服务器170或NLU处理器159中的唤醒词处理器150交互,并且提取与唤醒词相关的上下文信息。唤醒词上下文提取器模块处理与交互类型、话音选择和用户偏好相关的信息。例如,用户出于“信息”的目的而分配唤醒词“Tom”,以具有以随意方式说话的同伴。个性化响应构造器模块被配置为从唤醒词上下文提取器和标准响应生成器182接收信息,并且将该信息转换为个性化响应。该信息可以包括来自用户简档的用户词汇/交互信息、词替换信息和词改编信息。这种信息的转换还可以通过基于对话的类型维护不同的词简档来完成。针对Tom的简档生成的个性化响应可以包括朗读,“嘿【用户】,Amazon就像你一直想去的地方,它是热带雨林,也是世界上最大的热带雨林”。最后,文本到语音转换器模块被配置为使用标准文本到语音(TTS)技术之一来将所生成的个性化文本响应转换为期望的话音(即,男性或女性的话音)的语音。
图2A示出了根据实施例的在虚拟个人助手中使用唤醒词的上下文关联和个性化的架构。
图2B示出了根据实施例的在虚拟个人助手中使用唤醒词的上下文关联和个性化的架构。
图2B所示的架构可以是图2A所示的架构的进一步发展。
参考图2A-图2B,系统200包括虚拟助手客户端设备268、用户输入/输出292、第三方服务器294、多个输入/输出设备296、虚拟助手服务器230、知识库/专家系统206和第三方IoT环境单元。在本实现方式中,虚拟助手服务器230包括NLU处理器223、数据存储232、NLG模块244、虚拟助手主机模块250、ASR模块252、存储器254、一个或多个处理器256、OS 258、响应路径规划器模块260、网络通信262和外部服务接口264。NLU处理器223还包括NLU数据库211、唤醒词处理器214、动作规划器模块224、查询上下文处理器226和查询解析器模块228。NLU数据库211还包括替换单元208、多个令牌210和多个本体212。唤醒词处理器214包括唤醒词上下文处理器216、唤醒词分类器218、唤醒词解析器220和唤醒词提取器222。
虚拟助手客户端设备268包括虚拟助手代理270、虚拟助手客户端272、输入/输出接口274、一个或多个应用276、耦合到处理器282的存储器278、OS 280、一个或多个服务284、网络通信286、物联网(IoT)仪表板288和IoT接口290。
用户数据存储在驻留在虚拟助手服务器230中的数据存储232中,而不是存储在分离的服务器中。数据存储232包括用户简档信息和用户偏好信息234。数据存储232还包括唤醒词数据库236、账户信息238、设备240和上下文信息242。
图3A示出了根据实施例的在虚拟个人助手中使用唤醒词的上下文关联和个性化的架构。
图3B示出了根据实施例的在虚拟个人助手中使用唤醒词的上下文关联和个性化的架构。
图3A所示的架构可以是图3B所示架构的进一步发展。
参考图3A-图3B,系统300包括虚拟助手客户端设备348、用户输入/输出394、第三方服务器396、多个输入/输出设备398、虚拟助手服务器346、知识库/专家系统306和第三方IoT环境单元344。在本实现方式中,虚拟助手服务器346包括NLU处理器323、NLG模块326、虚拟助手主机模块330、ASR模块332、存储器334、一个或多个处理器336、OS 338、响应路径规划器模块324、网络通信340和外部服务接口342。NLG模块326包括标准响应生成器328。NLU处理器223还包括NLU数据库311、唤醒词处理器314、动作规划器模块322、查询上下文处理器320和查询解析器模块318。NLU数据库211还包括替换308、多个令牌310和多个本体312。唤醒词处理器314包括唤醒词上下文处理器316。
虚拟助手客户端设备348包括唤醒词处理器350、个性化响应生成器358、虚拟助手代理360、虚拟助手客户端362、输入/输出接口364、一个或多个应用366、耦合到处理器372的存储器368、OS 370、一个或多个服务374、网络通信376、IoT仪表板378和IoT接口380。唤醒词处理器350还包括唤醒词分类器352、唤醒词提取器354和唤醒词解析器356。
用户数据存储在驻留在虚拟助手客户端设备348中的数据存储382中,而不是存储在分离的服务器中。数据存储382包括用户简档信息和用户偏好信息384。数据存储382还包括唤醒词数据库386、账户信息388、设备390和上下文信息392。
图4是示出根据实施例的唤醒词处理、分类和唤醒词的信息检索的流程图。
参考图4,在步骤402,用户向虚拟助手设备输入查询。在步骤404,虚拟助手服务器接收到查询。在步骤406,该查询被传递到被配置为处理传入的查询的ASR模块。在步骤408,查询解析器模块解析该查询,以从用户查询中分离出唤醒词。在步骤410,唤醒词处理器处理从该查询中分离出的唤醒词,并且单独地解析用户查询的其余部分。在步骤412,唤醒词分类器对唤醒词进行分类。在步骤414,检索信息。在步骤416,系统被配置为匹配唤醒词和上下文。如果唤醒词和上下文匹配,则在步骤418,用户接收个性化响应,否则系统被配置为返回到步骤402。在步骤418,唤醒词上下文处理器根据经分类的信息产生唤醒词上下文。在步骤420,查询上下文处理器被配置为接收并处理来自查询解析器模块的查询,并且从唤醒词上下文处理器接收处理后的唤醒词,以生成查询的整体上下文。此外,查询上下文处理器被配置为组合从查询解析器模块接收到的信息和从唤醒词上下文处理器接收到的上下文信息,以解释和生成组合两个输入的聚合的上下文。在步骤422,应用多个动作步骤,以从至少一个知识库中检索查询响应。
图5是示出根据实施例的个性化填充物的使用的流程图。在步骤502,识别要搜索的知识库和查询。在步骤504,个性化器模块515将在步骤514选择用户偏好的词替换,并在步骤516准备语义填充物,以在该查询被检索时准备响应。在系统获取对该查询的响应时,可以使用通用填充物。在步骤506,识别查询中的相关性(dependency),并将该信息传递给路由代理。在步骤508,查询被路由到路由代理,路由代理被配置为准备用于在知识库中进行搜索的路由规划。在步骤510,检索基于路由规划的响应。在步骤512,生成包括个性化填充物的最终响应。
图6示出了根据实施例的从多个虚拟助手中选择适当的虚拟助手的架构的示意框图。系统600提供虚拟助手客户端设备610、用户输入/输出634、第三方服务器636和多个输入/输出设备638。虚拟助手客户端设备610包括多个个人助手,即个人助手1(PA1)602、个人助手2(PA2)604、个人助手3(PA3)606或个人助手4(PA4)608,以及多个虚拟助手服务器,即虚拟助手服务器1 640、虚拟助手服务器2 642或虚拟助手服务器4 644。虚拟助手客户端设备610还包括用于多个个人助手的助手管理器612、基于目的的域识别器614、输入/输出接口616、一个或多个应用618、耦合到处理器624的存储器620、OS 622、一个或多个服务626、网络通信628、IoT仪表板630和IoT接口632。助手管理器612被配置为针对PA1 602、PA2604、PA3 606或PA4 608定义多个唤醒词,其中多个个人助手与虚拟助手服务器1 640、虚拟助手服务器2 642或虚拟助手服务器3 644相关联。助手管理器612还被配置为接收用户查询以及唤醒词,其中助手管理器与PA1 602、PA2 604、PA3 606或PA4 608交互。此外,域识别器614被配置为比较多个虚拟助手的性能,并且选择适当的PA来对用户查询作出响应。PA1602、PA2 604、PA3 606或PA4 608的性能包括比较PA的历史性能和PA的当前性能。此外,唤醒词分类器被配置为从用户查询中分离出唤醒词,并且助手管理器612被配置为将分离出的用户查询传输到所选择的PA1 602、PA2 604、PA3 606或PA4 608。此外,所选择的虚拟助手服务器1 640、虚拟助手服务器2 642或虚拟助手服务器3 644被配置为处理用户查询,并且决策代理被配置为基于多个动作步骤,从至少一个知识库中检索查询响应。此外,标准响应生成器被配置为从查询响应生成标准自然语言响应,并且个性化响应生成器被配置为使用唤醒词信息和唤醒词上下文从标准自然语言响应合成个性化响应。
图7示出了根据实施例的使唤醒词多样化的架构的示意框图。
参考图7,系统700提供虚拟助手服务器706。虚拟助手服务器706包括NLG处理器704、ASR模块722和虚拟助手主机模块724。NLU处理器704还包括NLU数据库702、动作规划器模块714、查询上下文处理器716、查询解析器模块718和关键词数据库720。NLU数据库包括替换模块708、多个令牌710和多个本体712。虚拟助手服务器706被配置为将多个唤醒词与多个域特定关键词相关联。虚拟助手客户端设备被配置为接收包括与唤醒词相关联的域特定关键词之一的用户查询。关键词数据库720被配置为用与唤醒词相关联的域特定关键词之一来更新用户查询。此外,虚拟助手服务器706被配置为处理用户查询,并且基于处理后的用户查询来识别与域特定关键词相关的域知识库。此外,决策代理被配置为基于多个动作步骤,从域知识库中检索查询响应。此外,标准响应生成器被配置为从查询响应生成标准自然语言响应,并且个性化响应生成器被配置为基于与唤醒词相关联的域特定关键词从标准自然语言响应合成个性化响应。
图8A是示出根据实施例的从虚拟助手生成个性化响应的方法的流程图800。
参考图8A,在步骤802,虚拟助手客户端设备116接收包括唤醒词的用户查询。在步骤804,查询解析器模块164解析用户查询,以从用户查询中分离出唤醒词。在步骤806,在虚拟助手服务器170中由唤醒词处理器150处理唤醒词。在步骤808,虚拟助手服务器170处理用户查询。在步骤810,虚拟助手服务器170基于多个动作步骤,从至少一个知识库172中检索查询响应。
图8B是示出根据实施例的在虚拟助手服务器中处理唤醒词的方法的流程图806。
参考图8B,在步骤806a,驻留在虚拟助手服务器170上的唤醒词提取器158从唤醒词数据库108中提取唤醒词相关信息。在步骤806b,唤醒词解析器156解析所提取的唤醒词相关信息以及多个用户偏好信息。在步骤806c,唤醒词分类器154对从唤醒词分析器156接收到的信息进行分类。在步骤806d,唤醒词上下文处理器152根据经分类的信息产生唤醒词上下文。
图8C是示出根据实施例的从虚拟助手生成个性化响应的方法的流程图800。
参考图8C,在步骤812,标准响应生成器182根据从响应路径规划器模块178接收到的查询响应来生成标准自然语言响应。在步骤814,个性化响应生成器184使用唤醒词信息和唤醒词上下文从标准自然语言响应合成个性化响应。
图9是示出根据实施例的从虚拟助手生成个性化响应的方法的流程图。
参考图9,在步骤902,由数据存储232存储虚拟助手服务器230上的用户简档信息、多个唤醒词偏好和唤醒词数据库。在步骤904,虚拟助手客户端设备268接收包括唤醒词的用户查询。在步骤906,查询解析器模块228从用户查询中解析唤醒词,以从用户查询中分离出唤醒词。在步骤908,唤醒词处理器214在虚拟助手服务器230中处理唤醒词。在步骤910,虚拟助手服务器230处理用户查询。在步骤912,虚拟助手服务器230基于多个动作步骤,从至少一个知识库206中检索查询响应。
图10是示出根据实施例的从虚拟助手生成个性化响应的方法的流程图1000。在步骤1002,虚拟助手客户端设备348接收包括唤醒词的用户查询。在步骤1004,虚拟助手服务器346处理用户查询。在步骤1006,虚拟助手服务器346基于多个动作步骤,从至少一个知识库306接收查询响应。
图11是示出根据实施例的从多个虚拟助手中选择适当的虚拟助手的方法的流程图。在步骤1102,助手管理器612为多个个人助手(PA1 602、PA2604、PA3 606或PA4 608)定义多个唤醒词,其中多个个人助手与虚拟助手服务器(虚拟助手服务器1 640、虚拟助手服务器2 642或虚拟助手服务器3644)相关联。在步骤1104,助手管理器612接收用户查询以及唤醒词,其中助手管理器612与多个个人助手交互。在步骤1106,域识别器614比较多个个人助手的性能,并且响应于用户查询来选择适当的虚拟助手。在步骤1108,唤醒词分类器从用户查询中分离出唤醒词。在步骤1110,助手管理器612将分离出的用户查询传输到所选择的个人助手。在步骤1112,所选择的虚拟助手服务器处理用户查询。在步骤1114,决策代理基于多个动作步骤,从至少一个知识库中检索查询响应。
图12是示出根据实施例的使唤醒词多样化的方法的流程图。在步骤1202,虚拟助手服务器706将多个唤醒词与多个域特定关键词相关联。在步骤1204,虚拟助手客户端设备接收包括与唤醒词相关联的域特定关键词之一的用户查询。在步骤1206,关键词数据库720用与唤醒词相关联的域特定关键词之一来更新用户查询。在步骤1208,虚拟助手服务器706处理用户查询。在步骤1210,虚拟助手服务器706基于处理后的用户查询,识别与域特定关键词相关的域知识库。在步骤1212,决策代理基于多个动作步骤,从域知识库中检索查询响应。
图13是示出根据实施例的从虚拟助手客户端设备上的虚拟助手生成个性化响应的方法的流程图。在步骤1302,虚拟助手客户端设备接收包括唤醒词的用户查询。在步骤1304,虚拟助手客户端设备从用户查询中提取唤醒词。在步骤1306,虚拟助手客户端设备处理用户查询。在步骤1308,虚拟助手客户端设备基于多个动作步骤,从至少一个知识库中检索查询响应。
图14示出了根据实施例的、在虚拟个人助手通信系统中基于预定义的唤醒词和个性化参数集来调用知识库/专家系统并且生成个性化响应的方法。
参考图14,用户创建用于将多个唤醒词与多个知识库进行映射的条目。用户给唤醒词“Matt”分配知识库电影,给唤醒词“Kim”分配知识库技术,并且给唤醒词“Tom”分配知识库百科全书。为用户提供基于唤醒词的陪伴,使得用户使用指定的偏好语言设置、化身(avatar)、话音和知识库/专家系统设置来与虚拟个人助手交互。此外,提供了对知识库/专家系统的基于唤醒词的调用,以用于搜索查询响应并基于唤醒词设置来准备个性化响应。在第一实例中,用户可以询问他的个性化虚拟个人助手“怎么了,Matt”。这里,唤醒词“Matt”被分配了知识库“电影”,并且偏好设置包括男性语音、友好类型的对话、英语和家位置或电影院位置。此外,对于诸如电视(TV)和智能手机的设备,服务还包括电影预订、电子节目指南(EPG)以及TV订阅。此外,也可以适当地选择化身。
用户可以询问他的个性化虚拟个人助手,“早上好,Kim”。这里,唤醒词“Kim”被分配了知识库“技术”,并且偏好设置包括女性语音、正式类型的对话、英语和办公室位置。此外,对于诸如膝上型电脑和智能手机的设备,服务包括日历程序、电子邮件程序以及社交程序。也可以适当地选择化身。
用户可以对他的个性化虚拟个人助手说“嘿,Tom”。这里,唤醒词“Tom”被分配了知识库“百科全书”,并且偏好设置包括男性语音、随意类型的对话、英语和家位置或户外位置。此外,对于诸如TV和智能手机的设备,服务包括信息娱乐。此外,也可以适当地选择化身。
图15示出了根据实施例的可以知晓一个或多个上下文的虚拟个人助手。
参考图15,从唤醒词导出上下文,并且电话呼叫被定向到适当的人。用户创建用于将多个唤醒词与多个知识库进行映射的条目。用户为唤醒词“Kim”分配包括办公室、俱乐部、教育和购物的知识库。唤醒词“Matt”被分配了包括家、厨房和紧急事件的知识库。用户询问他的个性化虚拟个人助手,“嗨,Kim。给John打个电话”。John是用户办公室的同事,并且John的联系方式在办公室联系方式列表中被标记。唤醒词“Kim”被分配到办公室、俱乐部、教育和购物。此外,在另一个场景中,用户询问他的个性化虚拟个人助手,“嗨,Matt。给John打个电话”。在这种情况下,John是用户家中的保安,并且John的联系方式在家联系方式列表中被标记。唤醒词“Matt”被分配到家、厨房和紧急事件。仅向家联系方式列表拨打电话。此外,如FacebookTM、InstagramTM、TwitterTM、NetflixTM或Prime VideoTM这样的填充物源用于获取诸如用户的好恶、推文和观看历史等信息。
在实施例中,本文解释了虚拟个人助手中改进的性能。例如,用户正在搜索她最喜欢的美国足球运动员Kevin Smith。用户创建用于将唤醒词与知识库进行映射的条目。在这种情况下,用户为唤醒词“Bob”分配知识库运动、健身、户外活动和娱乐。在一个场景中,用户询问她的个性化虚拟个人助手:“嗨,Bob。给我Kevin Smith的真实情况”。用户是KevinSmith曾经效力的俱乐部的粉丝,并且用户将唤醒词“Bob”分配到俱乐部。因此,对于搜索Kevin Smith的用户来说,她只需要使用唤醒词“Bob”,所以对于用户而言该响应将会是准确且更快的。
在另一个场景中,用户询问她的个性化虚拟个人助手,“嗨,给我Kevin Smith的真实情况”。在这种情况下,系统搜索整个结构来寻找关于所有Kevin Smith的真实情况,这会消耗大量时间,因为系统必须从多个知识库中提取数据来找到该真实情况。此外,如FacebookTM、InstagramTM、TwitterTM、NetflixTM或Prime VideoTM的填充物源用于获取诸如好恶、推文和观看历史的信息。
在实施例中,本文解释了虚拟个人助手中的响应个性化。例如,用户接收到对他请求的查询的个性化响应。用户创建用于将多个唤醒词与多个知识库进行映射的条目。在这种情况下,用户为唤醒词“Tom”分配知识库普通知识、地理、历史、时事和新闻。此外,用户为唤醒词“Bob”分配知识库娱乐、健康、运动和健身,并且用户向唤醒词“Matt”分配知识库家、厨房和紧急情况。在场景之一中,用户询问他的个性化虚拟个人助手,“嗨,Tom。今天天气怎么样?”。由于唤醒词“Tom”被分配了知识库普通知识和地理,所以唤醒词“Tom”通过说“你好,先生。目前伦敦38摄氏度,天气炎热,今天不可能有降水,湿度为50%且风速为8英里/小时”来提供回复。
在另一个场景中,用户询问他的个性化虚拟个人助手,“嗨,Bob。今天天气怎么样?”。由于唤醒词“Bob”被分配了知识库娱乐、健康、运动和健身,因此唤醒词“Bob”通过说“嗨用户。天气炎热38摄氏度,我知道你不太喜欢这种天气且今天也不会下雨”来提供回复。在另一个场景中,用户询问他的个性化虚拟个人助手:“嗨,Matt。今天天气怎么样?”。由于唤醒词“Matt”被分配了知识库家、厨房和紧急事件,因此唤醒词“Matt”通过说“嘿,现在38摄氏度,伦敦非常热,伙计,在家放松一下,因为今天不可能会降水”来提供回复。因此,基于分配给多个唤醒词的知识库,虚拟个人助手提供个性化响应。此外,如FacebookTM、InstagramTM、TwitterTM、NetflixTM或Prime VideoTM的填充物源用于获取诸如用户的好恶、推文、观看历史的信息。
在实施例中,本文解释了在虚拟个人助手中插入对话填充物。例如,虚拟个人助手通过提供与用户询问的查询相关的额外信息来提供对话填充物。用户创建用于将唤醒词与知识库进行映射的条目。在这种情况下,用户为唤醒词“Bob”分配知识库运动、健身、户外活动和娱乐。在场景之一中,用户询问他的个性化虚拟个人助手,“嗨,Bob。昨晚的足球赛谁赢了?”。收到查询后,系统开始搜索查询的结果。由于“Bob”唤醒词被分配到运动类别,系统开始与用户交流关于比赛的其他事实以吸引用户。
在另一个场景中,用户询问他的个性化虚拟个人助手,“嗨,昨晚的足球赛谁赢了”。在这种情况下,系统开始搜索查询的结果,用户必须等待结果。在结果出来之前,用户和虚拟助手之间没有交流。此外,如FacebookTM、InstagramTM、TwitterTM、NetflixTM或PrimeVideoTM的填充物源用于获取诸如用户的好恶、推文、观看历史的信息。
在实施例中,本文解释了虚拟个人助手中的安全目的。用户创建用于将唤醒词与知识库进行映射的条目。在这种情况下,用户为唤醒词“Matt”分配知识库警察、消防、救护、银行业务和救援。在场景之一中,用户处于危险之中,因为持枪的小偷想要她的账户里的钱。用户通过告诉小偷:“请不要杀我,我是‘Matt’,我会把钱转到你的账户上”机智地处理了这种情况。“Matt”是用户创建的个性化唤醒词,它被分配给紧急联系方式,如警察、消防、救护、银行业务和救援。被分配了唤醒词“Matt”的用户的虚拟个人助手得到警告并理解整个场景。因此,用户的位置信息被发送给警察,所有的银行业务交易被阻止,并且创建了关于转账的虚假消息。虚拟个人助手生成错误的响应或根本不生成任何响应。因此,在这种情况下,虚拟个人助手智能地工作,并且基于情况和所调用的唤醒词来生成个性化响应。此外,如FacebookTM、InstagramTM、TwitterTM、NetflixTM或Prime VideoTM的填充物源用于获取诸如用户的好恶、推文、观看历史的信息。
在实施例中,本文解释了在不同设备上使用相同的虚拟助手。在这种情况下,用户为唤醒词“Bob”分配知识库娱乐、健康、运动和健身。用户询问他的个性化虚拟个人助手,“嗨,Bob。我无聊,播放一段好视频”。用户在他附近的三个设备中都具有相同的唤醒词“Bob”,当听到“Bob”唤醒词时,所有三个设备都将醒来,并将查询发送到云以进行进一步处理。在云中,由于从使用相同的用户账户的三个不同的设备接收到相同的查询,最合适的设备将接收到回复。当用户想要听音乐时,选择扬声器来播放音乐。因此,在这种情况下,基于用户查询(即,“播放音乐”)来选择用户附近存在的最合适的设备(即,扬声器)。此外,如FacebookTM、InstagramTM、TwitterTM、NetflixTM或Prime VideoTM的填充物源用于获取诸如用户的好恶、推文、观看历史的信息。
在实施例中,本文解释了不同设备上的不同虚拟助手。在这种情况下,用户为唤醒词“Tom”分配知识库娱乐、健康、运动和健身。在这种情况下,解释了不同设备上的不同虚拟助手。每个设备都具有不同的虚拟助手。这里,每个虚拟助手都与不同的唤醒词相关联。PA1与唤醒词Bob、Matt、Kim和Tom相关联。用户在他周围的不同设备中具有多个虚拟助手。用户询问他的个性化虚拟个人助手:“嗨,Tom。放点音乐”。由于用户具有多个虚拟助手使能设备,并且他已经将唤醒词“Tom”分配给设备之一,因此将仅调用将“Tom”注册为唤醒词的虚拟助手。也就是说,只有与查询相关的云开始处理,并且其相应的设备开始响应。此外,如FacebookTM、InstagramTM、TwitterTM、NetflixTM或Prime VideoTM的填充物源用于获取诸如用户的好恶、推文、观看历史的信息。
尽管已经参考本发明的某些实施例具体示出和描述了本发明,但是本领域普通技术人员将理解,在不脱离由所附权利要求及其等同物限定的本发明的精神和范围的情况下,可以在形式和细节上进行各种改变。
Claims (15)
1.一种用于从虚拟助手生成个性化响应的方法,所述方法包括:
当接收到包括唤醒词的用户查询时,基于唤醒词处理用户查询;
基于所述唤醒词从至少一个知识库中检索查询响应;
从所述查询响应生成标准自然语言响应;以及
基于所述唤醒词从所述标准自然语言响应合成个性化响应。
2.根据权利要求1所述的方法,其中,处理用户查询还包括:
从唤醒词数据库中提取唤醒词相关信息;
解析所提取的唤醒词相关信息以及多个用户偏好信息;
对从所述唤醒词解析器接收到的信息进行分类;
根据经分类的信息产生唤醒词上下文;
根据所述唤醒词上下文和分离出的用户查询生成用户查询上下文;
基于所述用户查询上下文计算所述查询响应;
将多个标签分配给从所述唤醒词数据库接收到的信息;
映射所述唤醒词和所述唤醒词上下文;以及
在所述唤醒词和所述唤醒词上下文未映射时提示用户选择适当的唤醒词。
3.根据权利要求1所述的方法,其中,检索查询响应还包括:
从动作规划器模块接收多个动作步骤;
根据所述用户查询搜索适当的知识库;
从搜索到的适当的知识库中提取对所述用户查询的查询响应;
指示将所述查询响应发送到响应路径规划器模块;
在多个知识库中搜索所述用户查询;
准备用于在所述多个知识库之一中搜索所述查询响应的路由规划;以及
将所述用户查询路由到所述适当的知识,以检索所述查询响应。
4.根据权利要求1所述的方法,还包括:
输入多个唤醒词以及多个唤醒词参数,其中,所述多个唤醒词参数是基于所述多个用户偏好信息来设置的,所述多个用户偏好信息包括响应类型、响应的话音、语言、化身或填充物源中的至少一个;
在唤醒词数据库中为所述多个唤醒词以及所述多个唤醒词参数和多个知识库信息创建条目,其中,所述多个知识库信息包括简档标识(ID)、唤醒词或知识库中的至少一个;
映射所述多个唤醒词以及多个知识库;
将映射的多个唤醒词以及多个知识库存储在服务器处的数据存储中。
5.根据权利要求1所述的方法,其中,合成个性化响应还包括:
与服务器或唤醒词处理器进行交互,以提取与所述唤醒词相关的用户偏好信息;
接收所述用户偏好信息;
将接收到的用户偏好信息以及多个语义填充物转换为个性化响应;
以期望的话音、动作、形式或文本中的至少一种来生成对语音的个性化响应;以及
准备所述多个语义填充物并且选择用户偏好的词以输出所述个性化响应。
6.根据权利要求1所述的方法,还包括:
通过多个应用程序接口(API)调用,从服务器提取唤醒词信息;以及
响应于所述多个API调用之一,将所述唤醒词信息和用户偏好信息返回到唤醒词解析器,
其中,所述唤醒词信息和用户偏好信息的数据结构是标准数据格式。
7.根据权利要求1所述的方法,其中,多个唤醒词是与多个模式当中的至少一个模式相对应地来分配的,
其中,所述多个模式包括通用模式和专用模式,并且
其中,所述专用模式包括:
基于用户查询上下文来初始化所述专用模式;
改变专用设置、响应设置或响应类型中的至少一个;
确定用户的专用信息,并且在所述查询响应中排除用户的专用信息;
在检测到专用时刻时,确定不打扰用户;以及
确定不向虚拟助手服务器公开用户的专用信息。
8.一种用于从虚拟助手生成个性化响应的电子设备,所述电子设备包括:
网络通信电路;
存储器;以及
至少一个处理器,被配置为:
当接收到包括唤醒词的用户查询时,基于唤醒词处理用户查询;
基于所述唤醒词从至少一个知识库中检索查询响应;
从所述查询响应生成标准自然语言响应;以及
基于所述唤醒词从所述标准自然语言响应合成个性化响应。
9.根据权利要求8所述的电子设备,其中,所述至少一个处理器还被配置为:
解析所述用户查询,以从所述用户查询中分离出所述唤醒词;
处理所述唤醒词;
从唤醒词数据库中提取唤醒词相关信息;
解析所提取的唤醒词相关信息以及多个用户偏好信息;
对从所述唤醒词解析器接收到的信息进行分类;
根据经分类的信息产生唤醒词上下文;
根据所述唤醒词上下文和分离出的用户查询生成用户查询上下文;以及
基于所述用户查询上下文计算所述查询响应。
10.根据权利要求8所述的电子设备,其中,所述至少一个处理器还被配置为:
接收多个唤醒词以及多个唤醒词参数,其中,所述多个唤醒词参数是基于所述多个用户偏好信息来设置的,所述多个用户偏好信息包括响应类型、响应的话音、语言、化身或填充物源中的至少一个;
在唤醒词数据库中为所述多个唤醒词以及所述多个唤醒词参数和多个知识库信息创建条目,其中,所述多个知识库信息包括简档标识(ID)、唤醒词或知识库中的至少一个;
映射所述多个唤醒词以及多个知识库;以及
存储映射的多个唤醒词以及多个知识库。
11.根据权利要求8所述的电子设备,其中,所述至少一个处理器还被配置为:
与服务器或唤醒词处理器进行交互,以提取与所述唤醒词相关的用户偏好信息;
接收所述用户偏好信息;
将接收到的用户偏好信息以及多个语义填充物转换为个性化响应;以及
以期望的话音、动作、形式或文本中的至少一种来生成对语音的个性化响应。
12.根据权利要求9所述的电子设备,其中,所述至少一个处理器还被配置为:
通过多个应用程序接口(API)调用,从服务器提取唤醒词信息;以及
接收所述唤醒词信息和用户偏好信息,其中,所述唤醒词信息和用户偏好信息的数据结构是标准数据格式,
其中,所述服务器被配置为响应于所述多个API调用之一,将所述唤醒词信息和用户偏好信息返回到所述唤醒词解析器。
13.根据权利要求8所述的电子设备,其中,所述至少一个处理器还被配置为将多个标签分配给从所述唤醒词数据库接收到的信息。
14.根据权利要求8所述的电子设备,其中,多个唤醒词是与多个模式当中的至少一个模式相对应地来分配的。
15.根据权利要求13所述的电子设备,其中,多个模式包括通用模式和专用模式,并且
其中,所述专用模式被配置为:
基于用户查询上下文来初始化所述专用模式;
改变专用设置、响应设置或响应类型中的至少一个;
确定用户的专用信息,并且在所述查询响应中排除用户的专用信息;
在检测到专用时刻时,确定不打扰用户;以及
确定不向虚拟助手服务器公开用户的专用信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201911033916 | 2019-08-22 | ||
IN201911033916 | 2019-08-22 | ||
PCT/KR2020/010863 WO2021034038A1 (en) | 2019-08-22 | 2020-08-19 | Method and system for context association and personalization using a wake-word in virtual personal assistants |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114303132A true CN114303132A (zh) | 2022-04-08 |
CN114303132B CN114303132B (zh) | 2024-03-01 |
Family
ID=74646384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080059366.XA Active CN114303132B (zh) | 2019-08-22 | 2020-08-19 | 在虚拟个人助手中使用唤醒词进行上下文关联和个性化的方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11682393B2 (zh) |
EP (1) | EP3973413A4 (zh) |
CN (1) | CN114303132B (zh) |
WO (1) | WO2021034038A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10217453B2 (en) * | 2016-10-14 | 2019-02-26 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
EP3973413A4 (en) * | 2019-08-22 | 2022-07-06 | Samsung Electronics Co., Ltd. | METHOD AND SYSTEM FOR CONTEXT ASSIGNMENT AND PERSONALIZATION USING A WAKE-UP WORD IN VIRTUAL PERSONAL ASSISTANT |
US20230343333A1 (en) | 2020-08-24 | 2023-10-26 | Unlikely Artificial Intelligence Limited | A computer implemented method for the aut0omated analysis or use of data |
US11657814B2 (en) * | 2020-10-08 | 2023-05-23 | Harman International Industries, Incorporated | Techniques for dynamic auditory phrase completion |
US20220309356A1 (en) * | 2021-03-29 | 2022-09-29 | Citrix Systems, Inc. | Web elements-based virtual assistant for distributed applications |
US12067983B2 (en) * | 2021-05-06 | 2024-08-20 | University Of South Carolina | Robust useful and general task-oriented virtual assistants |
US11989507B2 (en) | 2021-08-24 | 2024-05-21 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US12067362B2 (en) | 2021-08-24 | 2024-08-20 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US12073180B2 (en) | 2021-08-24 | 2024-08-27 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US11989527B2 (en) | 2021-08-24 | 2024-05-21 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US11977854B2 (en) | 2021-08-24 | 2024-05-07 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US11677832B2 (en) | 2021-09-23 | 2023-06-13 | International Business Machines Corporation | Voice activated device enabling |
WO2023074916A1 (en) * | 2021-10-29 | 2023-05-04 | Tesnology Inc. | Data transaction management with database on edge device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150186156A1 (en) * | 2013-12-31 | 2015-07-02 | Next It Corporation | Virtual assistant conversations |
US20180061421A1 (en) * | 2016-08-31 | 2018-03-01 | Microsoft Technology Licensing, Llc | Personalization of experiences with digital assistants in communal settings through voice and query processing |
CN109313897A (zh) * | 2016-06-21 | 2019-02-05 | 惠普发展公司,有限责任合伙企业 | 利用多个虚拟助理服务的通信 |
US20190051307A1 (en) * | 2017-08-14 | 2019-02-14 | Lenovo (Singapore) Pte. Ltd. | Digital assistant activation based on wake word association |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US10705794B2 (en) * | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682667B2 (en) * | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9190057B2 (en) * | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
US9875494B2 (en) * | 2013-04-16 | 2018-01-23 | Sri International | Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant |
US9472206B2 (en) * | 2013-06-17 | 2016-10-18 | Google Technology Holdings LLC | Privacy mode for always-on voice-activated information assistant |
US9711148B1 (en) * | 2013-07-18 | 2017-07-18 | Google Inc. | Dual model speaker identification |
US9772994B2 (en) * | 2013-07-25 | 2017-09-26 | Intel Corporation | Self-learning statistical natural language processing for automatic production of virtual personal assistants |
US20150302856A1 (en) * | 2014-04-17 | 2015-10-22 | Qualcomm Incorporated | Method and apparatus for performing function by speech input |
US9390706B2 (en) * | 2014-06-19 | 2016-07-12 | Mattersight Corporation | Personality-based intelligent personal assistant system and methods |
US9697828B1 (en) * | 2014-06-20 | 2017-07-04 | Amazon Technologies, Inc. | Keyword detection modeling using contextual and environmental information |
US20160021105A1 (en) * | 2014-07-15 | 2016-01-21 | Sensory, Incorporated | Secure Voice Query Processing |
US10789041B2 (en) * | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10671428B2 (en) * | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9965247B2 (en) * | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10304463B2 (en) * | 2016-10-03 | 2019-05-28 | Google Llc | Multi-user personalization at a voice interface device |
US10217453B2 (en) * | 2016-10-14 | 2019-02-26 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
US10311875B2 (en) * | 2016-12-22 | 2019-06-04 | Soundhound, Inc. | Full-duplex utterance processing in a natural language virtual assistant |
US10339926B2 (en) * | 2016-12-31 | 2019-07-02 | Oath Inc. | Digital assistant |
US20180197438A1 (en) * | 2017-01-10 | 2018-07-12 | International Business Machines Corporation | System for enhancing speech performance via pattern detection and learning |
CN107135247B (zh) | 2017-02-16 | 2019-11-29 | 江苏南大电子信息技术股份有限公司 | 一种人与人工智能协同工作的服务系统及方法 |
US10438584B2 (en) * | 2017-04-07 | 2019-10-08 | Google Llc | Multi-user virtual assistant for verbal device control |
US11188808B2 (en) * | 2017-04-11 | 2021-11-30 | Lenovo (Singapore) Pte. Ltd. | Indicating a responding virtual assistant from a plurality of virtual assistants |
US10460728B2 (en) * | 2017-06-16 | 2019-10-29 | Amazon Technologies, Inc. | Exporting dialog-driven applications to digital communication platforms |
GB201801532D0 (en) * | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
US10546583B2 (en) * | 2017-08-30 | 2020-01-28 | Amazon Technologies, Inc. | Context-based device arbitration |
US20190196779A1 (en) * | 2017-12-21 | 2019-06-27 | Harman International Industries, Incorporated | Intelligent personal assistant interface system |
US10782986B2 (en) * | 2018-04-20 | 2020-09-22 | Facebook, Inc. | Assisting users with personalized and contextual communication content |
US11830485B2 (en) * | 2018-12-11 | 2023-11-28 | Amazon Technologies, Inc. | Multiple speech processing system with synthesized speech styles |
EP3973413A4 (en) * | 2019-08-22 | 2022-07-06 | Samsung Electronics Co., Ltd. | METHOD AND SYSTEM FOR CONTEXT ASSIGNMENT AND PERSONALIZATION USING A WAKE-UP WORD IN VIRTUAL PERSONAL ASSISTANT |
US11170776B1 (en) * | 2019-09-16 | 2021-11-09 | Amazon Technologies, Inc. | Speech-processing system |
-
2020
- 2020-08-19 EP EP20855303.2A patent/EP3973413A4/en active Pending
- 2020-08-19 CN CN202080059366.XA patent/CN114303132B/zh active Active
- 2020-08-19 WO PCT/KR2020/010863 patent/WO2021034038A1/en unknown
- 2020-08-24 US US17/001,088 patent/US11682393B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150186156A1 (en) * | 2013-12-31 | 2015-07-02 | Next It Corporation | Virtual assistant conversations |
CN109313897A (zh) * | 2016-06-21 | 2019-02-05 | 惠普发展公司,有限责任合伙企业 | 利用多个虚拟助理服务的通信 |
US20180061421A1 (en) * | 2016-08-31 | 2018-03-01 | Microsoft Technology Licensing, Llc | Personalization of experiences with digital assistants in communal settings through voice and query processing |
US20190051307A1 (en) * | 2017-08-14 | 2019-02-14 | Lenovo (Singapore) Pte. Ltd. | Digital assistant activation based on wake word association |
Also Published As
Publication number | Publication date |
---|---|
EP3973413A1 (en) | 2022-03-30 |
US11682393B2 (en) | 2023-06-20 |
WO2021034038A1 (en) | 2021-02-25 |
CN114303132B (zh) | 2024-03-01 |
EP3973413A4 (en) | 2022-07-06 |
US20210056970A1 (en) | 2021-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114303132B (zh) | 在虚拟个人助手中使用唤醒词进行上下文关联和个性化的方法和系统 | |
US10853582B2 (en) | Conversational agent | |
US11823289B2 (en) | User controlled task execution with task persistence for assistant systems | |
US20210117214A1 (en) | Generating Proactive Content for Assistant Systems | |
US20220199079A1 (en) | Systems and Methods for Providing User Experiences on Smart Assistant Systems | |
US11159767B1 (en) | Proactive in-call content recommendations for assistant systems | |
US20120215539A1 (en) | Hybridized client-server speech recognition | |
US11586689B2 (en) | Electronic apparatus and controlling method thereof | |
US11563706B2 (en) | Generating context-aware rendering of media contents for assistant systems | |
KR20230029582A (ko) | 어시스턴트 시스템에서 다자간 통화를 위한 단일 요청의 사용 | |
US20220366904A1 (en) | Active Listening for Assistant Systems | |
US20240184620A1 (en) | Invoking functions of agents via digital assistant applications using address templates | |
TW202301080A (zh) | 輔助系統的多裝置調解 | |
US20240161742A1 (en) | Adaptively Muting Audio Transmission of User Speech for Assistant Systems | |
US20230353652A1 (en) | Presenting Personalized Content during Idle Time for Assistant Systems | |
US20230419952A1 (en) | Data Synthesis for Domain Development of Natural Language Understanding for Assistant Systems | |
CN117377942A (zh) | 助理系统的主动收听 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |