CN114391145A - 具有自适应响应生成的ai驱动的个人助理 - Google Patents
具有自适应响应生成的ai驱动的个人助理 Download PDFInfo
- Publication number
- CN114391145A CN114391145A CN202080064394.0A CN202080064394A CN114391145A CN 114391145 A CN114391145 A CN 114391145A CN 202080064394 A CN202080064394 A CN 202080064394A CN 114391145 A CN114391145 A CN 114391145A
- Authority
- CN
- China
- Prior art keywords
- query
- user
- response
- context
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008649 adaptation response Effects 0.000 title description 2
- 230000004044 response Effects 0.000 claims abstract description 269
- 238000000034 method Methods 0.000 claims abstract description 78
- 238000012545 processing Methods 0.000 claims abstract description 62
- 230000007613 environmental effect Effects 0.000 claims abstract description 46
- 230000036651 mood Effects 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 11
- 230000008451 emotion Effects 0.000 claims description 7
- 230000033764 rhythmic process Effects 0.000 claims description 6
- 238000013459 approach Methods 0.000 description 31
- 238000013481 data capture Methods 0.000 description 21
- 239000011295 pitch Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 8
- 230000001143 conditioned effect Effects 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003393 splenic effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3349—Reuse of stored results of previous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
- G06F9/453—Help systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Child & Adolescent Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种个人助理系统和方法。个人助理电子设备接收指示查询的输入数据,该查询说明了来自环境内的用户的请求。背景处理引擎建立查询的背景,该引擎将经训练的模型应用于输入数据,以识别与查询相关联的个人线索和环境线索。响应生成器基于请求、查询背景和用户的响应简档生成响应消息,响应简档说明了用户的一个或更多个偏好,一个或更多个偏好中的每一个偏好与响应生成器响应来自用户的请求的方式相关联,一个或更多个偏好中的每一个偏好由响应生成器响应于来自用户对先前响应消息的反馈来设置。
Description
技术领域
本公开总体涉及计算系统,且更具体地,涉及虚拟个人助理系统。
背景
虚拟个人助理基于命令或查询为用户执行任务或服务。例如,虚拟个人助理用于响应于口头查询而获得信息,基于用户命令控制家庭自动化,以及管理个人日历、待办事项列表和电子邮件。例如,虚拟个人助理可以在智能手机和智能扬声器、尤其突出的是在基于语音的用户界面中实现。
概述
总的来说,本公开描述了识别音频命令并且用个性化响应来响应音频命令的虚拟个人助理系统。在一个示例中,虚拟个人助理系统确定来自用户的口头查询的背景,并基于该背景向用户提供个性化响应。在一个示例方法中,虚拟个人助理系统通过将经训练的模型应用于输入数据以识别与查询相关联的个人线索和环境线索来确定查询的背景(“查询背景”),且然后基于查询背景和针对用户的响应简档为用户精心制作个性化响应。虚拟个人助理系统可以包括个人助理电子设备,诸如智能手机或智能扬声器,其接收说明了来自用户的请求的查询。
更具体地,本公开描述了由人工智能(AI)驱动的虚拟个人助理系统,该系统应用一个或更多个AI模型以基于建立的背景来向用户生成响应。例如,系统可以使响应的内容适应描述查询的传递的参数,诸如口头查询的长度、音调、语音模式、音量、嗓音(voice)或语速。例如,通过将一个或更多个AI模型应用于由用户发出的查询,系统可以确定用户有急事、有某种情绪、在户外、在室内、被人群包围、独自一人等。在一些示例中,基于捕获的音频和/或视频,系统可以确定用户与特定的个人(例如,伙伴、朋友或老板)在一起,并且使响应适应于此。作为附加示例,系统可以确定用户日历上安排的未来事件,并基于安排的未来事件修改对给定查询的响应的内容。系统可以访问用户的社交媒体,以获得除了那些通过对查询的分析所识别的个人线索之外的个人线索。
在一个示例中,虚拟个人助理包括:个人助理电子设备,其接收指示查询的输入数据,该查询说明了来自环境内的用户的请求;背景处理引擎,其被配置成建立查询的背景,该引擎将经训练的模型应用于输入数据,以识别与查询相关联的个人线索和环境线索;以及响应生成器,其被配置成基于请求、查询背景和针对用户的响应简档来输出响应消息,响应简档说明了用户的一个或更多个偏好,一个或更多个偏好中的每一个偏好与响应生成器响应来自用户的请求的方式相关联,一个或更多个偏好中的每一个偏好由响应生成器响应于来自用户对先前响应消息的反馈来设置。
在一些实施例中,背景处理引擎和响应生成器可以在个人助理电子设备的处理器上执行。
在一些实施例中,背景处理引擎和响应生成器可以在个人助理电子设备外部的处理器上执行。
在一些实施例中,个人助理电子设备的至少一个输入源可以包括麦克风,并且指示查询的输入数据包括音频数据。
在一些实施例中,个人助理电子设备的至少一个输入源还可以包括相机,并且输入数据还包括与音频数据同时捕获的图像数据。
在一些实施例中,背景处理引擎可以被配置成将一个或更多个经训练的模型应用于输入数据,以基于以下中的任一项来确定环境线索:(i)噪声水平,(ii)在用户附近的人的存在,(iii)用户是否存在于一组预定义用户中的一个或更多个预定义用户中,(iv)位置,(v)位置传音性(location acoustics),(vi)隐私程度,以及(vii)一天中的时间。
在一些实施例中,背景处理引擎可以被配置成将一个或更多个经训练的模型应用于输入数据,以基于以下中的任何一个来确定个人线索:用户参数、情绪、用户的语音模式、音高、韵律、声调和尖锐度(stridency)。
在一些实施例中,输入数据可以包括从社交媒体接收的信息,其中背景处理引擎根据从社交媒体接收的信息来确定一个或更多个个人线索。
在一些实施例中,该系统还可以包括连接到响应生成器的查询处理器,该查询处理器被配置成:从响应生成器接收请求和与请求相关的背景信息,该背景信息基于查询背景;以及向响应生成器传输基于请求和与请求相关的背景信息的响应。
在一些实施例中,该系统还可以包括连接到响应生成器的查询处理器,该查询处理器被配置成:从响应生成器接收请求和与请求相关的背景信息,该背景信息基于查询背景和用户偏好;以及向响应生成器传输基于请求和与请求相关的背景信息的响应。
在一些实施例中,响应生成器可以包括个性模式和查询处理器,查询处理器被配置成:接收请求和与请求相关的背景信息,该背景信息基于查询背景和个性模式;以及基于请求和与请求相关的背景信息生成响应。
在一些实施例中,响应生成器可以包括语言处理引擎,语言处理引擎被配置成将响应消息以音频传送。
在一些实施例中,响应生成器可以包括语音识别引擎,其中语音识别引擎从音频记录中提取请求。
在另一实施例中,一种方法包括:通过个人助理电子设备,接收指示查询的输入数据,该查询说明了来自环境内的用户的请求;在处理器上,确定查询的背景,其中确定包括将经训练的模型应用于输入数据以识别与查询相关联的个人线索和环境线索;以及基于该请求向用户传输响应消息,该响应消息基于查询背景和针对用户的响应简档来构建,该响应简档说明了用户的一个或更多个偏好,该一个或更多个偏好中的每一个偏好与响应生成器响应来自用户的请求的方式相关联,该一个或更多个偏好中的每一个偏好由响应生成器响应于来自用户对先前响应消息的反馈来设置。
在一些实施例中,确定查询的背景可以包括从社交媒体获得一个或更多个个人线索。
在一些实施例中,确定查询的背景可以包括从图像和音频中的一个或更多个获得个人线索。
在一些实施例中,个人线索可以包括以下中的一个或更多个:用户标识符、用户参数、声调、音高、韵律和情绪。
在一些实施例中,环境线索可以包括以下中的一个或更多个:位置、噪声水平、群组的大小和位置传音性。
在一些实施例中,获得对查询的响应可以包括访问以下中的一个或更多个:日历应用和天气应用。
在又一实施例中,一种包括指令的计算机可读存储介质,指令当被执行时将一个或更多个处理器配置成:接收指示查询的输入数据,该查询说明了来自环境内的用户的请求;在处理器上,确定查询的背景,其中确定包括将经训练的模型应用于输入数据以识别与查询相关联的个人线索和环境线索;以及基于该请求向用户传输响应消息,该响应消息基于查询背景和针对用户的响应简档来构建,该响应简档说明了用户的一个或更多个偏好,该一个或更多个偏好中的每一个偏好与响应生成器响应来自用户的请求的方式相关联,该一个或更多个偏好中的每一个偏好由响应生成器响应于来自用户对先前响应消息的反馈来设置。
本公开的技术的一个或更多个示例的细节在附图和下面的说明书中进行了阐述。该技术的其他特征、目的和优点将从说明书和附图以及权利要求中变得明显。
附图简述
图1是描绘根据本公开的技术的示例虚拟个人助理系统的图示。
图2是示出根据本公开的技术的虚拟个人助理系统的另一示例的框图。
图3是示出根据本公开的技术的虚拟个人助理系统的另一示例的框图。
图4是示出根据本公开的技术的图1-图3的虚拟个人助理系统10的示例操作的流程图。
图5是描绘根据本公开的技术的另一示例虚拟个人助理系统的图示。
图6是示出根据本公开的技术的图1-图3和图5的虚拟个人助理系统的示例操作的流程图。
在整个附图和说明书中,相似的参考数字表示相似的元素。
详细描述
虚拟个人助理基于命令或查询为用户执行各种任务和服务。例如,虚拟个人助理可以用于响应于口头查询以获得信息,或者控制家庭自动化。然而,无论用户的身份或用户的环境如何,典型的虚拟个人助理以相同的方式对每个查询进行响应。也就是说,每当用户提出一个问题时,用户都会收到大约相同的回答。
本公开描述了一种虚拟个人助理,其包括个人助理电子设备,诸如智能手机或智能扬声器,该个人助理电子设备接收说明了来自用户的请求的查询,并且基于识别的用户的背景来自适应地响应用户。例如,系统可以使响应的内容适应诸如查询的长度、音调、语音模式、音量、嗓音(voice)或语速等参数。例如,通过将一个或更多个AI模型应用于用户发出的查询,虚拟个人助理可以确定用户有急事、有某种情绪、在户外、在室内、被人群包围、独自一人等。在一些示例中,基于捕获的音频和/或视频,系统可以确定用户与特定的个人(例如,伙伴、朋友、老板)在一起,并且可以使响应适应于此。作为附加示例,系统可以确定用户日历上安排的未来事件,并基于安排的未来事件修改对给定查询的响应的内容。系统可以访问用户的社交媒体,以获得除了通过分析查询识别的个人线索之外的个人线索。例如,虚拟个人助理可以用作独立设备、在设备(例如,移动电话或智能扬声器)上执行的应用,或者用作AR/VR系统的一部分、视频会议设备等。
在一个示例方法中,虚拟个人助理适应用户的偏好。如果用户喜欢简洁的回复,那么回复通常是简洁的。用户偏好也可以扩展至其他方面,诸如句子结构、句子风格、正式程度、音调和节奏。在一些方法中,当准备对查询的回复时,针对查询背景和虚拟个人助理的个性,对用户偏好进行权衡(weighed)。
在一些示例中,虚拟个人助理包括具有至少一个输入源的个人助理电子设备,该至少一个输入源接收指示查询的输入数据,该查询说明了来自环境内的用户的请求。该虚拟个人助理还包括背景处理引擎和响应生成器,背景处理引擎被配置成将一个或更多个经训练的模型应用于输入数据以确定查询的背景,查询背景基于通过将一个或更多个经训练的模型应用于输入数据而获得的至少一个个人线索以及基于通过将一个或更多个经训练的模型应用于输入数据而获得的任何环境线索,以及响应生成器保存针对用户的响应简档,所述响应简档说明了指示用户的一个或更多个偏好的数据,所述一个或更多个偏好中的每一个偏好与响应生成器响应来自用户的请求的方式相关联,所述一个或更多个偏好中的每一个偏好由响应生成器响应于来自用户的对用户先前的请求的响应的反馈来设置。响应生成器被配置成基于请求向用户输出响应消息,其中响应生成器被配置成基于查询背景和用户的响应简档来构建响应消息。
图1是描绘根据本公开的技术的示例虚拟个人助理系统10的图示。在图1的示例方法中,虚拟个人助理系统10包括响应来自用户14的查询的个人助理电子设备12。图1的个人助理电子设备12出于示例的目的被示出,并且可以代表任何个人助理电子设备,诸如移动计算设备、智能手机、智能扬声器、膝上型电脑、平板电脑、膝上型电脑、台式电脑、人工现实系统、可穿戴或专用会议设备。在图1所示的示例中,个人助理电子设备12包括显示器20和具有语音和图像捕获能力的多媒体捕获系统22。虽然被描述为多媒体捕获设备,但是在一些示例中,仅麦克风可用于接收来自用户的查询。
如图1所示,个人助理电子设备12通过网络16连接到查询处理器18。用户14向个人助理电子设备12提交查询。个人助理电子设备12捕获该查询,并基于该查询将请求26通过网络16(诸如私有网络或互联网)转发给查询处理器18。查询处理器18准备对查询的响应28,并通过网络16将响应28转发给个人助理电子设备12。
在一些示例中,虚拟个人助理系统10检查口头查询的音频特征,以得到对用户14的洞察。在一些这样的示例中,虚拟个人助理系统10检查查询的视频特征以得到对用户14的进一步洞察。在一些示例中,当构建对从用户14接收的查询的个性化响应时,虚拟个人助理系统10检查用户14周围的环境24。
无论用户的身份或用户的环境如何,数字个人助理都趋于以相同的方式对每个查询进行响应。如果用户问:“明天早上天气会怎么样?”回答总是一句话:“明天早上会是53华氏度,部分晴天,最高65华氏度。”不管问题如何问,回答总是一样的。
在一个示例方法中,虚拟个人助理系统10使用从查询中获得的关于用户14和环境24的信息来提供对用户查询的定制响应。例如,虚拟个人助理系统10可以基于背景提示和听觉提示来修改响应。传递的内容、传递方式或两者可以被改变。在一些示例方法中,回答也改变以反映就用户14而言的个人偏好。在一些这样的示例方法中,回答也改变以反映与虚拟个人助理系统10相关联的个性。
在一些示例中,个人助理电子设备12可以被配置成执行面部识别,并在检测到已知的预定义用户的面部图像时以个性化方式响应查询。在一些这样的示例中,在检测到已知的、预定义用户的面部图像时,个人助理电子设备12可以被配置成获得用户对查询的个性化响应的偏好。在一些这样的示例中,一个或更多个用户(诸如用户14)可以通过(例如,经由多媒体捕获系统22)捕获相应的自校准图像来配置虚拟个人助理系统10。
图2是示出根据本公开的技术的虚拟个人助理系统的另一示例的框图。在图2的示例中,虚拟个人助理系统10包括数据捕获系统200、背景处理引擎202、响应生成器208和查询处理器212。数据捕获系统200捕获来自用户14的查询,捕获该查询的背景,并将该查询和背景转发给背景处理引擎202。例如,在一个示例中,数据捕获系统200可以包括用于捕获与查询相关的音频信号的麦克风以及确定用户14的身份的能力。在这样的示例中,数据捕获系统200可以捕获来自用户14的查询,可以捕获音频和用户身份作为查询的背景的一部分,并且可以将查询、音频、用户身份和其他背景转发给背景处理引擎202。在一个示例方法中,数据捕获系统200是图1所示的个人助理电子设备12。
背景处理引擎202从数据捕获系统200接收查询和背景信息,并在将查询、接收的背景信息和提取的背景信息传递给响应生成器208之前,从查询中提取额外的背景信息。在一个示例中,响应生成器208从背景处理引擎202接收查询和详述查询的背景的背景信息,将查询转发给查询处理器212,从查询处理器212接收返回的响应,并基于查询的背景向用户14生成消息。在一个这样的示例方法中,响应生成器208从背景处理引擎202接收查询和查询的背景,将查询转发给查询处理器212,从查询处理器212接收返回的响应,并基于查询的背景和分配给虚拟个人助理系统10的个人助理的个性的特征(诸如情绪)向用户14生成消息。在一些示例方法中,虚拟个人助理系统10可以被配置成令人舒适的(comforting)、专业的(professional)或不苟言笑的(taciturn),并且响应生成器208基于来自查询处理器212的响应、查询的背景以及为虚拟个人助理系统10选择的一个或更多个个性特征来构建响应。
在一个示例方法中,响应生成器208以虚拟个人助理系统10的个性、环境线索和个人线索(诸如查询的音调和查询的节奏)中的一个或更多个为条件,使用自然语言生成器向用户14生成消息。在一个这样的示例方法中,响应生成器208以个人助理的情绪特征、查询的音调和查询的节奏中的一个或更多个为条件,生成文本到语音以提供期望的音调或节奏。
在一个示例方法中,背景分为两类:环境背景(你在哪里,你周围在发生什么)和个人背景(你在用什么声调说话,你用的是什么词,你说话的速度有多快,你感觉如何(即你的情绪是什么样的))。如果用户14在家,现在是深夜,并且用户的查询指示他或她是放松的,则系统10可以较温和地说话,而不是以正常的音调响应。相反,如果系统10检测到道路噪音,这可能意味着用户在户外,则系统10将相应地做出响应。如图2所示,在一个这样的示例方法中,背景处理引擎202包括环境背景系统204和个人背景系统206。在一些示例中,每个背景系统204、206使用人工智能来开发用于确定相关背景的模型。
在一个示例方法中,虚拟个人助理适应用户的偏好。如果用户偏好简洁的回复,那么回复通常是简洁的。用户偏好也可以扩展到其他方面,例如句子结构、句子风格、正式程度、音调和节奏。在一些示例方法中,用户偏好是响应于对查询的回答而做出的。例如,如果对“温度是多少?”的响应是“48华氏度”,用户14可以响应“我更喜欢摄氏度。”该变化将被记录在用户14的简档中,并且未来的响应将以摄氏度为单位。在其他示例中,用户偏好是通过使用界面(诸如用户偏好的菜单)做出的。例如,在上面的示例中,用户14可以在接收到响应“48华氏度”之后打开菜单以将偏好从“华氏度”改变为“摄氏度”。在一些方法中,当准备对查询的回复时,针对查询背景和虚拟个人助理的个性,对用户偏好进行权衡。例如,可能针对显示用户有急事的查询背景和倾向于较多对话响应以确定对查询的响应的内容和节奏的个人助理个性,对用户偏好比较详细的响应进行权衡。
在一些示例中,响应生成器208保存用户简档存储器210,用户简档存储器210包含关于如何根据用户身份修改对查询的响应的信息。例如,如果已知用户预期以华氏度为单位的温度,则对“室外的温度是多少?”的响应可能是“84度”而不是“84华氏度”。类似地,如果指示用户14偏好简洁的回答、华丽的回答或给定方言的回答,则这种偏好将被存储在用户简档存储器210中。
在一些示例中,响应生成器208保存用户简档存储器210,用户简档存储器210包含关于如何根据用户的特征来修改对查询的响应的信息。例如,用户简档存储器210可以包括针对回复来自儿童或老人的查询的系统偏好。
查询处理器212从响应生成器208接收查询和背景信息,并用基于查询和背景信息对查询的响应进行回复。例如,背景信息可以指示用户会偏好简洁的回复,因此发送到响应生成器208的响应是简洁的。另一方面,背景可以指示用户对所有相关信息感兴趣,则响应可以包括查询周边的实际情况。例如,如果查询是“我今天需要雨伞吗?”并且背景指示用户对所有相关信息感兴趣,则来自查询处理器212的响应可以包括本地天气,以及用户的日历指示他或她今天将拜访的位置的天气,以及确定在用户拜访时这些位置中的任何一个位置是否有可能下雨。响应生成器进行该响应,并为用户准备消息,声明例如,“你将需要一把雨伞,因为你今天下午3点将在旧金山参加会议,而且可能会下雨。”
另一方面,如果查询是“我今天需要雨伞吗?”并且背景指示用户对简洁的响应感兴趣,则来自查询处理器212的响应可以是确定在用户拜访时这些位置中的任何一个位置是否有可能下雨。然后,响应生成器可以进行该响应,并为用户准备消息,声明“是。”
在另一个示例中,如果来自两个或更多用户的查询是“我们今天需要雨伞吗?”并且背景指示用户的身份以及用户对所有相关信息感兴趣,则来自查询处理器212的响应可以包括本地天气、以及用户日历指示他们今天将拜访的位置的天气,以及确定在每个特定用户拜访时这些位置中的任何一个位置是否有可能下雨。响应生成器208进行该响应,并为用户准备消息,声明例如,“约翰,你将需要一把雨伞,因为你今天下午3点将在旧金山参加会议,并且可能会下雨。莎拉,你不需要雨伞。”
同样,如果来自两个或更多用户的查询是“我们接下来要去哪里?”并且背景指示用户的身份以及用户对简洁信息感兴趣,则来自查询处理器212的响应可以包括例如源自用户的日历中的每个用户的姓名和位置。响应生成器208进行该响应,并为用户准备消息,声明例如“约翰,102房间。莎拉,104房间。”
在一些示例中,发送到查询处理器的背景信息是由响应生成器208接收的查询信息的子集。在一些示例中,响应生成器208可以删除用户标识符信息,但是在发送到查询处理器212的信息中包括从用户简档存储器210检索的简档信息。查询处理器212接收查询、背景信息和简档信息,并且用基于查询、背景信息和简档信息对查询的响应进行回复。
在一个这样的示例方法中,响应生成器208以虚拟个人助理系统10的个性、环境线索和个人线索(例如查询的音调和查询的节奏)中的一个或更多个为条件,使用自然语言生成器生成响应。在一个这样的示例方法中,响应生成器208以个人助理的情绪特征、查询的音调和查询的节奏中的一个或更多个为条件,生成文本到语音以提供期望的音调或节奏。
图3是示出了根据本公开的技术的示例虚拟个人助理系统10的框图。出于示例的目的,参考图1和图2解释虚拟个人助理系统10。在图3所示的示例中,虚拟个人助理系统10包括存储器302和连接到存储器302的一个或更多个处理器300。在一些示例方法中,存储器302和一个或更多个处理器300提供用于执行操作系统306的计算机平台。继而,操作系统306提供用于执行一个或更多个软件部件320的多任务操作环境。如图所示,处理器300经由I/O接口304连接到外部系统和设备327,诸如显示设备(例如显示器20)、键盘、游戏控制器、多媒体捕获设备(例如多媒体捕获系统22)等。此外,网络接口312可以包括一个或更多个有线或无线网络接口控制器(NIC),以用于经由网络16(其可以表示例如基于分组的网络)进行通信。
在示例实现方式中,虚拟个人助理系统10的软件部件320包括数据捕获引擎321、背景处理引擎322、响应生成器323和查询处理器324。在一些示例方法中,背景处理引擎322包括环境背景引擎325和个人背景引擎326。在一些示例方法中,软件部件320表示可执行软件指令,其可以采取一个或更多个软件应用、软件包、软件库、硬件驱动和/或应用程序接口(API)的形式。此外,软件部件320可以在显示器20或其他这样的显示器上显示配置菜单,以用于接收配置信息。此外,软件部件320中的任何一个可以包括例如一个或更多个软件包、软件库、硬件驱动和/或应用程序接口(API),以用于实现相应的部件320。
通常,数据捕获引擎321包括从一个或更多个用户14接收查询和查询的背景的功能。例如,数据捕获引擎321从多媒体捕获系统22接收音频数据和视频数据的入站流,检测查询,并将该查询连同其围绕该查询确定的任何背景信息转发给背景处理引擎322。在一些示例中,数据捕获引擎321包括用于识别查询来源的面部识别软件。用户身份然后成为转发给背景处理引擎322的背景信息的一部分。在其他示例方法中,通过登录虚拟个人助理系统10、通过经由认证设备访问虚拟个人助理系统10、通过语音识别、经由徽章(badge)或标签、通过形状或服装或其他这样的识别技术来确定用户身份。在一些示例方法中,数据捕获引擎321是在图1的个人助理电子设备12上执行的应用。
在图3的示例中,背景处理引擎322从数据捕获引擎321接收查询和背景信息,并且在将从数据捕获引擎321接收的查询、背景信息以及由背景处理引擎322捕获的背景信息传递给响应生成器323之前,从查询中提取额外的背景信息。在一个示例中,响应生成器323从背景处理引擎322接收查询和详述查询的背景的背景信息,并基于查询和查询的背景生成响应。在一个这样的示例方法中,响应生成器323从背景处理引擎322接收查询和查询的背景,并基于查询、查询的背景和分配给虚拟个人助理系统10的个人助理的个性的特征(例如情绪)生成响应。如图3所示,在一个这样的例子中,个性特征被存储在个人助理简档340中。
如上在图2的讨论中所述,在一个示例方法中,背景被分为两类:环境背景(你在哪里,你周围在发生什么)和个人背景(你在用什么声调说话,你在用什么词,你说得有多快,你感觉如何(即,你的情绪是什么样的))。在一个这样的示例方法中,背景处理引擎322包括环境背景引擎325和个人背景引擎326(分别对应图2的204和206)。在一些示例中,每个背景系统325、326使用人工智能来开发用于确定相关背景的模型。环境背景识别模型存储在环境背景模型343中,而个人背景识别模型存储在个人背景模型344中。
在一个示例中,响应生成器323从背景处理引擎322接收查询和详述查询的背景的背景信息,将查询转发给查询处理器324,从查询处理器324接收返回的响应,并基于查询的背景向用户14生成消息。在一个这样的示例方法中,响应生成器323从背景处理引擎322接收查询和查询的背景,将查询转发给查询处理器324,从查询处理器324接收返回的响应,并基于查询的背景和分配给虚拟个人助理系统10的个人助理的个性的特征(例如情绪)向用户14生成消息。在一些示例方法中,虚拟个人助理系统10可以被配置成令人舒适的、专业的或不苟言笑的,并且响应生成器323基于来自查询处理器324的响应、查询的背景以及针对虚拟个人助理系统10选择的并存储在个人助理简档340中的一个或更多个个性特征来为用户14构建响应消息。
在一个示例方法中,响应生成器323包括语音识别引擎328(图示为“SP Rec328”)、自然语言生成器329(图示为“NL Gen 329”)和文本到语音生成器330(图示为“TTSGen 330”)。在一个示例方法中,语音识别引擎328接收由数据捕获引擎321捕获的输入数据,并从输入数据确定查询。在一个示例方法中,响应生成器323以虚拟个人助理系统10的个性、环境线索和个人线索(诸如查询的音调和查询的节奏)中的一个或更多个为条件,使用自然语言生成器329向用户14生成消息。在一个这样的示例方法中,响应生成器323以个人助理的情绪特征、查询的音调和查询的节奏中的一个或更多个为条件,经由文本到语音生成器330提供期望的音调或节奏来生成文本到语音。
在一些示例中,响应生成器323还在用户简档存储器342中保存关于如何根据用户身份修改对查询的响应的信息。在一些这样的示例中,响应生成器323在用户简档存储器342中保存关于如何根据用户的特征来修改对查询的响应的信息。例如,用户简档存储器342可以包括针对回复来自儿童、或来自老人、或来自穿着像医疗专业人员的人的查询的系统偏好。
查询处理器324从响应生成器323接收查询和背景信息,并用基于查询和背景信息对查询的响应进行回复。例如,背景信息可以指示用户会偏好简洁的回复,因此发送到响应生成器323的响应是简洁的。在一些示例方法中,查询处理器324具有访问日历和社交媒体所需的许可。在一些这样的示例方法中,查询处理器访问用户的日历和社交媒体中的一个或更多个,以获得关于用户未来将在哪里的信息,并使用该信息来通知对查询的响应。例如,用户的日历可以显示用户在一天的剩余时间将在哪里,并且该信息可以用于获得关于每个位置的天气信息,以便预测用户是否会遇到雨。
在一些示例中,查询处理器324从响应生成器323接收查询、用户简档信息和背景信息,并用基于查询、用户简档信息和背景信息对查询的响应进行回复。例如,即使背景信息不包括会导致简洁的消息的任何标记,用户简档信息也可以指示用户会偏好简洁的回复,因此发送到响应生成器323的响应是简洁的。
在一个示例中,背景处理引擎322训练存储在环境背景模型存储器343中的环境背景识别模型,以使用来自先前查询的背景信息来识别环境线索。背景处理引擎322还训练存储在个人背景模型存储器344中的个人背景识别模型,以使用来自先前查询的背景信息来识别个人线索。在一些示例方法中,每个环境背景识别模型识别一个或更多个环境线索,并且每个个人背景识别模型识别一个或更多个个人线索。在一个示例方法中,声学事件模型被用于识别诸如室内、户外、嘈杂或安静的声学环境。位置信息可以被用于确定对用户14的响应是否应该被安静地呈现(例如,在图书馆中)。在一些示例方法中,环境线索包括一天中的时间、隐私程度、检测用户周围的人数或检测与用户14在一起的人。在一些这样的示例方法中,面部识别被用于检测除用户之外的人。
个人线索围绕情绪展开。用户14可以说得快,或大声,或愤怒,或轻柔。查询的音调或节奏可以指示紧张或暴躁脾气。在一个示例方法中,个人线索包括用户标识符、用户参数,以及声调、音高、韵律、语速、音量、情绪和用户口头传递查询的其他标记。
在一些示例方法中,虚拟个人助理系统10是单个设备,诸如移动计算设备、智能手机、智能扬声器、膝上型电脑、平板电脑、工作站、台式计算机、服务器、可穿戴或专用会议设备。在其他示例中,由数据捕获引擎321实现的功能在图1的个人助理电子设备12上实现。在另外其他示例中,由数据捕获引擎321、背景处理引擎322、响应生成器323和查询处理器324执行的功能可以分布在云计算系统、数据中心上或分布在公共或私有通信网络(包括例如经由宽带、蜂窝、Wi-Fi和/或用于在计算系统、服务器和计算设备之间传输数据的其他类型的通信协议的互联网)上。在一些示例中,处理器300和存储器302可以是单独的、分立的部件。在其他示例中,存储器302可以是在单个集成电路内与处理器300并列放置的片上存储器。
处理器300中的每一者可包括多核处理器、控制器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或等效的离散或集成逻辑电路中的一个或更多个。存储器302可以包括用于存储数据和可执行软件指令的任何形式的存储器,诸如随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和闪存。
图4是示出根据本公开的技术的图1-图3的虚拟个人助理系统10的示例操作的流程图。在图4所示的示例中,虚拟个人助理系统10在数据捕获引擎321处接收音频数据和图像数据中的一个或更多个作为输入数据。输入数据可以包括由输入捕获设备22捕获的音轨、单个图像或视频流中的一个或更多个。如果由数据捕获引擎321接收的输入数据指示输入数据包括用户的查询,则输入数据与任何可用的背景数据一起被转发到背景处理引擎322(350)。在一些示例方法中,数据捕获引擎321将语音识别软件应用于输入数据,以在将查询和输入数据发送到背景处理引擎322之前提取查询。在其他示例方法中,数据捕获引擎321将输入数据发送到背景处理引擎322,并且查询由响应生成器323中的语音识别引擎328提取。
背景处理引擎322接收输入数据(含有或不含查询)和由数据捕获引擎321开发的任何其他背景信息(诸如用户身份),并将环境线索感测模型354应用于背景信息,以检测一个或更多个环境线索(诸如,安静的环境、嘈杂的环境、一天中的时间、好的传音性(acoustics)、坏的传音性、位置(例如,家、工作地点或餐馆)、室内环境或室外环境)(352)。背景处理引擎322然后将个人线索感测模型358应用于背景信息,以检测一个或更多个个人线索(诸如,情绪、音调或节奏)(356)。
在一个示例方法中,响应生成器323从背景处理引擎322接收查询和详述查询的背景的背景信息(包括环境和个人线索),并基于查询的背景和用户的响应简档向用户14生成消息(360)。在一些示例方法中,响应生成器323将查询转发给查询处理器324,并从查询处理器324接收返回的响应。响应生成器323然后基于响应和存储在用户简档存储器332中的响应简档向用户14生成消息。在一些示例中,响应生成器323向用户14生成在适当时匹配用户14的音调、节奏或情绪的消息、或者在适当时使用不同于用户的音调、节奏或情绪的消息。
在另一示例方法中,响应生成器323从背景处理引擎322接收输入数据和详述查询的背景的其他背景信息(包括环境线索和个人线索),应用语音识别软件来确定查询,并基于查询的背景和用户的响应简档向用户14生成消息。在一些示例方法中,响应生成器323将查询转发给查询处理器324,并从查询处理器324接收返回的响应。响应生成器323然后基于响应和存储在用户简档存储器332中的响应简档向用户14生成消息。
在一些示例方法中,响应生成器323基于响应、查询的背景以及分配给虚拟个人助理系统10的个人助理的个性的特征(例如情绪)来向用户14生成消息。在一些示例方法中,针对虚拟个人助理系统10选择的一个或更多个个性特征被存储在个人助理简档340中。
图5是描绘根据本公开的技术的另一示例虚拟个人助理系统10的图示。在图5的示例方法中,虚拟个人助理系统10包括响应来自用户14的查询的个人助理电子设备12。图5的个人助理电子设备12出于示例的目的被示出,并且可以代表任何个人助理电子设备,诸如移动计算设备、智能手机、智能扬声器、膝上型电脑、平板电脑、膝上型电脑、台式电脑、人工现实系统、可穿戴或专用会议设备。在图5所示的示例中,个人助理电子设备12包括显示器20和具有语音和图像捕获能力的多媒体捕获系统22。
如图5所示,个人助理电子设备12通过网络16连接到查询虚拟个人助理服务器600。用户14向个人助理电子设备12提交查询。个人助理电子设备12捕获表示查询的输入数据,并将输入数据以请求602通过网络16(诸如私有网络或互联网)转发给虚拟个人助理服务器600。
在一个示例方法中,个人助理电子设备12包括从一个或更多个用户14接收查询和查询的背景的功能。在一个示例方法中,个人助理电子设备12从用户14接收输入数据。输入数据包括来自多媒体捕获系统22的音频数据和视频数据中的一个或更多个。个人助理电子设备12将输入数据与其围绕查询确定的任何背景信息一起转发给背景处理引擎202。在一些示例中,个人助理电子设备12包括用于识别查询来源的面部识别软件。用户身份然后成为转发给背景处理引擎202的背景信息的一部分。在其他示例方法中,通过登录虚拟个人助理系统10、通过经由认证设备访问虚拟个人助理系统10、通过语音识别、经由徽章或标签、通过形状或服装或其他这样的识别技术来确定用户身份。
在一个示例方法中,虚拟个人助理服务器600包括背景处理引擎202、响应生成器208和查询处理器212。诸如图2所示,在一些示例方法中,背景处理引擎202包括环境背景引擎204和个人背景引擎206。
在图5的示例中,背景处理引擎202从个人助理电子设备12接收输入数据和背景信息,并且在将从个人助理电子设备12接收的输入数据、背景信息以及由背景处理引擎202捕获的背景信息传递到响应生成器208之前,从输入数据中提取额外的背景信息。在一个示例中,响应生成器208从背景处理引擎202接收输入数据和详述查询的背景的背景信息,从输入数据中提取查询,并基于查询和查询的背景向用户14生成消息604。在一个这样的示例方法中,响应生成器208从背景处理引擎202接收输入数据和查询的背景,从输入数据中提取查询,并基于查询、查询的背景和分配给虚拟个人助理系统10的个人助理的个性的特征(诸如情绪)向用户14生成消息604。在一个这样的示例中,个性特征被存储在个人助理简档数据存储器中。
如上在图2的讨论中所述,在一个示例方法中,背景被分为两类:环境背景和个人背景。如图2所示,在一个这样的示例方法中,背景处理引擎202包括环境背景引擎204和个人背景引擎206。在一些示例中,每个背景系统204、206使用人工智能来开发用于确定相关背景的模型。环境背景识别模型存储在环境背景模型存储器中,而个人背景识别模型存储在个人背景模型存储器中。
在一个示例中,响应生成器208从背景处理引擎202接收输入数据和详述查询的背景的背景信息,使用语音识别软件从输入数据中提取查询,将查询转发给查询处理器212,从查询处理器212接收返回的响应,并基于查询的背景向用户14生成消息。在一个这样的示例方法中,响应生成器208从背景处理引擎202接收输入数据和查询的背景,从输入数据中提取查询,将查询转发给查询处理器212,从查询处理器212接收返回的响应,并基于查询的背景和分配给虚拟个人助理系统10的个人助理的个性的特征(诸如情绪)向用户14生成消息。在一些示例方法中,响应生成器208基于来自查询处理器212的响应、查询的背景以及针对虚拟个人助理系统10选择的并被存储在个人助理简档中的一个或更多个个性特征,为用户14构建响应消息。
在一个示例方法中,响应生成器208包括语音识别引擎(诸如语音识别引擎328)、自然语言生成器(诸如自然语言生成器329)和文本到语音生成器(诸如文本到语音生成器330)。在一个示例方法中,语音识别引擎从背景处理引擎202接收输入数据,并从输入数据确定查询。在一个示例方法中,响应生成器208以虚拟个人助理系统10的个性、环境线索和个人线索(诸如查询的音调和查询的节奏)中的一个或更多个为条件,使用自然语言生成器329向用户14生成消息。在一个这样的示例方法中,响应生成器208以个人助理的情绪特征、查询的音调和查询的节奏中的一个或更多个为条件,经由文本到语音生成器330提供期望的音调或节奏来生成文本到语音。
在一些示例中,响应生成器208还在用户简档存储器210中保存关于如何根据用户身份来修改对查询的响应的信息。在一些这样的示例中,响应生成器208在用户简档存储器210中保存关于如何根据用户的特征来修改对查询的响应的信息。例如,用户简档存储器210可以包括针对回复来自儿童、或来自老人、或来自穿着像医疗专业人员的人的查询的系统偏好。
查询处理器212从响应生成器208接收查询和背景信息,并用基于查询和背景信息对查询的响应进行回复。例如,背景信息可以指示用户偏好简洁的回复,因此发送到响应生成器208的响应是简洁的。在一些示例方法中,查询处理器212具有访问日历和社交媒体所需的许可。在一些这样的示例方法中,查询处理器访问用户的日历和社交媒体中的一个或更多个,以获得关于用户未来将在哪里的信息,并使用该信息来通知对查询的响应。
在一些示例中,查询处理器212从响应生成器208接收查询、用户简档信息和背景信息,并用基于查询、用户简档信息和背景信息对查询的响应进行回复。例如,即使背景信息不包括会导致简洁消息的任何标记,用户简档信息也可以指示用户偏好简洁的回复,因此发送到响应生成器208的响应是简洁的。
在一个示例中,背景处理引擎202训练存储在环境背景模型存储器中的环境背景识别模型,以使用来自先前查询的背景信息来识别环境线索。背景处理引擎202还训练存储在个人背景模型存储器中的个人背景识别模型,以使用来自先前查询的背景信息来识别个人线索。在一些示例方法中,每个环境背景识别模型识别一个或更多个环境线索,并且每个个人背景识别模型识别一个或更多个个人线索。
图6是示出根据本公开的技术的图1-图3和图5的虚拟个人助理系统10的示例操作的流程图。在图6所示的示例中,虚拟个人助理系统10接收音频数据和图像数据中的一个或更多个作为输入数据(500),输入数据可以包括由多媒体捕获设备22捕获的音轨、单个图像或视频流中的一个或更多个。
个人助理电子设备12处理输入数据以确定是否已经接收到查询,并且如果已经接收到查询,则与该查询相关联的输入数据与任何额外的背景信息一起被发送到背景处理引擎202(502)。在一个示例方法中,个人助理电子设备12连续监视从多媒体捕获系统22接收的音轨,直到触发字被检测到,且然后从在触发字之后接收的音频和图像信息中提取查询。
背景处理引擎202接收输入数据和由个人助理电子设备12开发的任何其他背景信息(例如用户身份),并将环境线索感测模型506应用于背景信息以检测一个或更多个环境线索(504)。背景处理引擎202然后将个人线索感测模型510应用于背景信息,以检测一个或更多个个人线索(508)。
响应生成器208从背景处理引擎202接收输入数据和详述查询的背景的背景信息,提取查询并确定该查询是否来自在用户简档存储器210中具有简档的人(512)。如果是(512的“是”分支),则响应生成器208将用户的用户简档应用于查询(514)。在一个示例方法中,用户简档包括说明用户的一个或更多个偏好的响应简档,一个或更多个偏好中的每一个偏好与响应生成器208响应来自用户的请求的方式相关联。在一个这样的示例方法中,响应于来自用户14对先前响应消息的反馈,响应生成器208设置一个或更多个偏好。例如,响应生成器323可以被配置成向用户14生成在适当时匹配用户14的音调、节奏或情绪的消息或者在适当时使用不同于用户的音调、节奏或情绪的消息。用户14可以决定音调、节奏和情绪应该总是反映用户,并且相应地在他们的响应简档中设置偏好。
在一个示例方法中,来自用户简档的一个或更多个参数被转发到查询处理器212,并与查询和背景信息一起用于确定响应。查询处理器212然后将响应返回给响应生成器208。响应生成器323然后基于响应和响应简档向用户14生成消息(520)。
如果查询不是来自在用户简档存储器210中具有简档的人(512的“否”分支),则响应生成器208确定查询是否来自在用户简档存储器210中具有简档的某一类型的人(516)。如果是(516的“是”分支),则响应生成器208将与该类型的人相关联的用户类型简档应用于查询(518)。在一个示例方法中,用户类型简档包括说明该类型的用户的一个或更多个偏好的响应简档,一个或更多个偏好中的每一个偏好与响应生成器208响应来自该类型的用户的请求的方式相关联。这种方法可用于为受益于这种分型的人群提供特殊待遇(treatment)。例如,与儿童相关联的用户简档可用于生成适合于儿童(例如,对年龄或发育水平适当)并以适合于儿童的方式呈现(例如,以卡通人物的声音呈现)的响应。在一个这样的示例中,诸如“外面的天气怎么样?”的问题可能会被以“今天外面很冷,带件毛衣去学校吧。”回答,而不是提供给成年人的更长、更细致的回答。
在一个示例方法中,来自用户类型简档的一个或更多个参数被转发到查询处理器212,并且其与查询和背景信息一起被使用来确定响应。查询处理器212然后将响应返回给响应生成器208。响应生成器323然后基于响应和用户类型简档向用户14生成消息。
如果查询不是来自在用户简档存储器210中具有简档的人,并且不是来自在用户简档存储器210中具有用户类型简档的某一类型的人,则响应生成器208为用户创建用户简档并将默认用户简档应用于查询(520)。在一个示例方法中,默认用户简档包括说明将用于默认用户的一个或更多个偏好的响应简档,一个或更多个偏好中的每一个偏好与响应生成器208响应来自该类型的用户的请求的方式相关联。
在一个示例方法中,来自用户简档的一个或更多个参数被转发到查询处理器212,并与查询和背景信息一起被用于确定响应。查询处理器212然后将响应返回给响应生成器208。响应生成器323然后基于响应和默认简档向用户14生成消息。
在一些示例方法中,响应生成器208基于响应、查询的背景以及分配给虚拟个人助理系统10的个人助理的个性的特征(诸如情绪)来向用户14生成消息。在一些示例方法中,针对虚拟个人助理系统10选择的一个或更多个个性特征被存储在个人助理简档中,并被用于将个性应用于虚拟个人助理系统10。在其他示例方法中,针对虚拟个人助理系统10选择的一个或更多个个性特征(诸如语音和诸如情绪的个性特征)是用户可选择的,被存储在其用户简档中,并被用于将个性应用于虚拟个人助理系统10。
本公开中描述的技术可以至少部分地以硬件、软件、固件或它们的任何组合实现。例如,所述技术的各个方面可在一个或更多个处理器内实现,该处理器包括一个或更多个微处理器、DSP、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或任何其他等效的集成或分立逻辑电路,以及此类部件的任何组合。术语“处理器”或“处理电路”一般可指前述逻辑电路中的任一种(独立的或与其他逻辑电路组合),或任何其他等效电路。包括硬件的控制单元也可执行本公开的一种或更多种技术。
此类硬件、软件和固件可在相同的设备内或在单独的设备内实现以支持本公开中描述的各种操作和功能。此外,所述单元、模块或部件中的任一个可一起实现或单独地实现为分立的但可互操作的逻辑设备。将不同特征描述为模块或单元旨在突出不同的功能方面,并不一定意味着此类模块或单元必须由单独的硬件或软件部件实现。相反,与一个或更多个模块或单元相关联的功能可以由单独的硬件或软件部件执行,或者集成在公共或单独的硬件或软件部件内。
如本文通过各种示例所描述的,本公开的技术可包括视频通信系统或结合视频通信系统来实现。在本公开中描述的技术还可在包含指令的计算机可读介质(例如计算机可读存储介质)中体现或编码。嵌入或编码在计算机可读存储介质中的指令可以例如在指令被执行时致使可编程处理器或其他处理器执行方法。计算机可读存储介质可包括随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电子可擦除可编程只读存储器(EEPROM)、闪存、硬盘、CD-ROM、软盘、盒式磁带、磁介质、光学介质或其他计算机可读介质。
Claims (15)
1.一种系统,所述系统包括:
个人助理电子设备,所述个人助理电子设备接收指示查询的输入数据,所述查询说明了来自环境内的用户的请求;
背景处理引擎,所述背景处理引擎被配置成建立所述查询的背景,所述引擎将经训练的模型应用于所述输入数据,以识别与所述查询相关联的个人线索和环境线索;和
响应生成器,所述响应生成器被配置成基于所述请求、查询背景和针对所述用户的响应简档来输出响应消息,所述响应简档说明了所述用户的一个或更多个偏好,所述一个或更多个偏好中的每一个偏好与所述响应生成器响应来自所述用户的请求的方式相关联,所述一个或更多个偏好中的每一个偏好由所述响应生成器响应于来自所述用户对先前响应消息的反馈来设置。
2.根据权利要求1所述的系统,其中,所述背景处理引擎和所述响应生成器在从以下选择的一个上执行:所述个人助理电子设备的处理器;所述个人助理电子设备外部的处理器。
3.根据权利要求1或权利要求2所述的系统,其中,所述个人助理电子设备的至少一个输入源包括麦克风,并且指示所述查询的所述输入数据包括音频数据;和/或优选地,其中,所述个人助理电子设备的至少一个输入源还包括相机,并且所述输入数据还包括与所述音频数据同时捕获的图像数据。
4.根据权利要求1、权利要求2或权利要求3所述的系统,其中,所述背景处理引擎被配置成将一个或更多个经训练的模型应用于所述输入数据,以基于以下中的任一项来确定环境线索:(i)噪声水平,(ii)在用户附近的人的存在,(iii)用户是否存在于一组预定义用户中的一个或更多个预定义用户中,(iv)位置,(v)位置传音性,(vi)隐私程度,以及(vii)一天中的时间。
5.根据权利要求1至4中任一项所述的系统,其中,所述背景处理引擎被配置成将一个或更多个经训练的模型应用于所述输入数据,以基于以下中的任一项来确定个人线索:用户参数、情绪、用户的语音模式、音高、韵律、声调和尖锐度;和/或优选地,其中,所述输入数据包括从社交媒体接收的信息,其中,所述背景处理引擎根据从社交媒体接收的信息确定一个或更多个个人线索。
6.根据权利要求1至5中任一项所述的系统,所述系统还包括查询处理器,所述查询处理器连接到所述响应生成器,所述查询处理器被配置成:
从所述响应生成器接收所述请求和与所述请求相关的背景信息,所述背景信息基于所述查询背景以及可选地基于用户偏好;以及
基于所述请求和与所述请求相关的所述背景信息,向所述响应生成器传输响应。
7.根据权利要求1至6中任一项所述的系统,其中,所述响应生成器包括个性模式和查询处理器,所述查询处理器被配置成:
接收所述请求和与所述请求相关的背景信息,所述背景信息基于所述查询背景和所述个性模式;以及
基于所述请求和与所述请求相关的所述背景信息生成响应。
8.根据权利要求1至7中任一项所述的系统,其中,所述响应生成器包括语言处理引擎,所述语言处理引擎被配置成将所述响应消息以音频传送;和/或优选地,其中,所述响应生成器包括语音识别引擎,其中,所述语音识别引擎从音频记录中提取所述请求。
9.一种方法,所述方法包括:
通过个人助理电子设备,接收指示查询的输入数据,所述查询说明了来自环境内的用户的请求;
在处理器上,确定所述查询的背景,其中,确定包括将经训练的模型应用于所述输入数据以识别与所述查询相关联的个人线索和环境线索;和
基于所述请求向所述用户传输响应消息,所述响应消息基于查询背景和针对所述用户的响应简档来构建,所述响应简档说明了所述用户的一个或更多个偏好,所述一个或更多个偏好中的每一个偏好与所述响应生成器响应来自所述用户的请求的方式相关联,所述一个或更多个偏好中的每一个偏好由所述响应生成器响应于来自所述用户对先前响应消息的反馈来设置。
10.根据权利要求9所述的方法,其中,确定所述查询的背景包括从社交媒体获得一个或更多个个人线索。
11.根据权利要求9或权利要求10所述的方法,其中,确定所述查询的背景包括从以下中的一个或更多个获得个人线索:图像和音频。
12.根据权利要求9、权利要求10或权利要求11所述的方法,其中,所述个人线索包括以下中的一个或更多个:用户标识符、用户参数、声调、音高、韵律和情绪。
13.根据权利要求9至12中任一项所述的方法,其中,所述环境线索包括以下中的一个或更多个:位置、噪声水平、群组的大小和位置传音性。
14.根据权利要求9至13中任一项所述的方法,其中,获得对所述查询的响应包括访问以下中的一个或更多个:日历应用和天气应用。
15.一种计算机可读存储介质,所述计算机可读存储介质包括指令,所述指令在被执行时将一个或更多个处理器配置成:
接收指示查询的输入数据,所述查询说明了来自环境内的用户的请求;
在处理器上,确定所述查询的背景,其中,确定包括将经训练的模型应用于所述输入数据以识别与所述查询相关联的个人线索和环境线索;以及
基于所述请求向所述用户传输响应消息,所述响应消息基于查询背景和针对所述用户的响应简档来构建,所述响应简档说明了所述用户的一个或更多个偏好,所述一个或更多个偏好中的每一个偏好与所述响应生成器响应来自所述用户的请求的方式相关联,所述一个或更多个偏好中的每一个偏好由所述响应生成器响应来自所述用户对先前响应消息的反馈来设置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/667,596 | 2019-10-29 | ||
US16/667,596 US20210125610A1 (en) | 2019-10-29 | 2019-10-29 | Ai-driven personal assistant with adaptive response generation |
PCT/US2020/052967 WO2021086528A1 (en) | 2019-10-29 | 2020-09-26 | Ai-driven personal assistant with adaptive response generation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114391145A true CN114391145A (zh) | 2022-04-22 |
Family
ID=72827030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080064394.0A Pending CN114391145A (zh) | 2019-10-29 | 2020-09-26 | 具有自适应响应生成的ai驱动的个人助理 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210125610A1 (zh) |
EP (1) | EP4052253A1 (zh) |
CN (1) | CN114391145A (zh) |
WO (1) | WO2021086528A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111226194B (zh) * | 2018-09-27 | 2024-08-13 | 三星电子株式会社 | 提供交互界面的方法和系统 |
WO2021162489A1 (en) | 2020-02-12 | 2021-08-19 | Samsung Electronics Co., Ltd. | Method and voice assistance apparatus for providing an intelligence response |
JP7248615B2 (ja) * | 2020-03-19 | 2023-03-29 | ヤフー株式会社 | 出力装置、出力方法及び出力プログラム |
US20210349433A1 (en) * | 2020-05-11 | 2021-11-11 | Intuition Robotics, Ltd. | System and method for modifying an initial policy of an input/output device |
US20220165265A1 (en) * | 2020-11-24 | 2022-05-26 | Arris Enterprises Llc | Context-sensitive actions within client device |
US20220253609A1 (en) * | 2021-02-08 | 2022-08-11 | Disney Enterprises, Inc. | Social Agent Personalized and Driven by User Intent |
US20220353304A1 (en) * | 2021-04-30 | 2022-11-03 | Microsoft Technology Licensing, Llc | Intelligent Agent For Auto-Summoning to Meetings |
US12045269B2 (en) * | 2022-10-07 | 2024-07-23 | David Cook | Apparatus and method for generating a digital assistant |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3392876A1 (en) * | 2011-09-30 | 2018-10-24 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
EP3084714A4 (en) * | 2013-12-20 | 2017-08-02 | Robert Bosch GmbH | System and method for dialog-enabled context-dependent and user-centric content presentation |
US20160214481A1 (en) * | 2015-01-27 | 2016-07-28 | Cloudcar, Inc. | Content customization and presentation |
US10811005B2 (en) * | 2015-06-19 | 2020-10-20 | Lenovo (Singapore) Pte. Ltd. | Adapting voice input processing based on voice input characteristics |
WO2017112813A1 (en) * | 2015-12-22 | 2017-06-29 | Sri International | Multi-lingual virtual personal assistant |
US20180032884A1 (en) * | 2016-07-27 | 2018-02-01 | Wipro Limited | Method and system for dynamically generating adaptive response to user interactions |
US10777201B2 (en) * | 2016-11-04 | 2020-09-15 | Microsoft Technology Licensing, Llc | Voice enabled bot platform |
US20180336275A1 (en) * | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20190012373A1 (en) * | 2017-07-10 | 2019-01-10 | Microsoft Technology Licensing, Llc | Conversational/multi-turn question understanding using web intelligence |
US11663182B2 (en) * | 2017-11-21 | 2023-05-30 | Maria Emma | Artificial intelligence platform with improved conversational ability and personality development |
US10877718B2 (en) * | 2018-05-07 | 2020-12-29 | Spotify Ab | Adaptive voice communication |
-
2019
- 2019-10-29 US US16/667,596 patent/US20210125610A1/en not_active Abandoned
-
2020
- 2020-09-26 CN CN202080064394.0A patent/CN114391145A/zh active Pending
- 2020-09-26 EP EP20789795.0A patent/EP4052253A1/en active Pending
- 2020-09-26 WO PCT/US2020/052967 patent/WO2021086528A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
US20210125610A1 (en) | 2021-04-29 |
WO2021086528A1 (en) | 2021-05-06 |
EP4052253A1 (en) | 2022-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114391145A (zh) | 具有自适应响应生成的ai驱动的个人助理 | |
US20220284896A1 (en) | Electronic personal interactive device | |
US11810557B2 (en) | Dynamic and/or context-specific hot words to invoke automated assistant | |
JP2023501074A (ja) | ユーザ用の音声モデルを生成すること | |
CN110998725B (zh) | 在对话中生成响应 | |
US9344815B2 (en) | Method for augmenting hearing | |
KR20220024557A (ko) | 자동화된 어시스턴트에 의한 응답 액션을 트리거하기 위한 핫 명령의 검출 및/또는 등록 | |
JP7396396B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN112075075A (zh) | 用于会议的计算机化智能助理 | |
US20150348538A1 (en) | Speech summary and action item generation | |
US11074916B2 (en) | Information processing system, and information processing method | |
US20080240379A1 (en) | Automatic retrieval and presentation of information relevant to the context of a user's conversation | |
US20130144619A1 (en) | Enhanced voice conferencing | |
JPWO2017200072A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP2023548157A (ja) | 通話およびオーディオメッセージからのその他の話者の音声フィルタリング | |
KR20210117827A (ko) | 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법 | |
JP7310907B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
US11853975B1 (en) | Contextual parsing of meeting information | |
JP6774438B2 (ja) | 情報処理システム、情報処理方法、およびプログラム | |
CN105989832A (zh) | 一种用于在计算机设备中生成个性化语音的方法和装置 | |
JP7218816B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
TWI833678B (zh) | 真實多人應答情境下的生成式聊天機器人之系統及其方法 | |
JP7438479B1 (ja) | 音声自動応答装置、音声自動応答方法、音声自動応答プログラム及び音声自動応答システム | |
JP6776284B2 (ja) | 情報処理システム、情報処理方法、およびプログラム | |
EP4297018A1 (en) | Techniques for presenting textual messages using a user-specific voice model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: California, USA Applicant after: Yuan Platform Technology Co.,Ltd. Address before: California, USA Applicant before: Facebook Technologies, LLC |
|
CB02 | Change of applicant information |