CN113382831A - 用于选择响应代理的信息处理器 - Google Patents

用于选择响应代理的信息处理器 Download PDF

Info

Publication number
CN113382831A
CN113382831A CN201980089889.6A CN201980089889A CN113382831A CN 113382831 A CN113382831 A CN 113382831A CN 201980089889 A CN201980089889 A CN 201980089889A CN 113382831 A CN113382831 A CN 113382831A
Authority
CN
China
Prior art keywords
response
user
agent
information processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980089889.6A
Other languages
English (en)
Inventor
小川浩明
关矢俊之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN113382831A publication Critical patent/CN113382831A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/008Manipulators for service tasks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Robotics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Manipulator (AREA)

Abstract

提供了一种信息处理设备,包括:选择单元,用于基于用户的话语内容从响应于输入的输出不同的多个代理中选择根据响应分类响应于用户的响应代理;以及响应控制单元,用于控制响应代理响应的响应内容。因此,即使没有明确命令,代理也可以响应于用户的意图。

Description

用于选择响应代理的信息处理器
技术领域
本公开涉及信息处理设备、信息处理方法和程序。
背景技术
传统上,已经开发了用于通过语音向诸如电视接收器的各种家用电器或诸如个人计算机的信息装置发出命令的各种技术。
例如,根据专利文献1中描述的技术,用户以对话方式向虚拟人物发出命令,使得可以在以对话方式与虚拟人物通信的同时操作装置。如上所述,根据专利文献1中描述的技术,作为示例,用户可以通过诸如虚拟人物的代理使代理执行各种请求。
引用列表
专利文献
专利文献1:日本专利申请公开第2002-41276号。
发明内容
本发明要解决的问题
然而,利用专利文献1中描述的技术,不可能通过包括适当命令的谈话使用户不知道的代理执行请求。因此,用户需要知道每个虚拟人物的类型、角色等。鉴于上述情况,需要一种代理在没有明确命令的情况下响应于用户的意图的技术。
问题的解决方案
根据本公开,提供了一种信息处理设备,包括:选择单元,基于用户的话语内容从相对于输入具有不同输出的多个代理中选择根据响应类型响应于用户的响应代理;以及响应控制单元,控制由响应代理做出的响应内容。
此外,根据本公开,提供了一种信息处理方法,包括由处理器:基于用户的话语内容从相对于输入具有不同输出的多个代理中选择根据响应类型响应于用户的响应代理;并且控制由响应代理做出的响应内容。
此外,根据本公开,提供了一种程序,用于使计算机用作:选择单元,基于用户的话语内容从相对于输入具有不同输出的多个代理中选择根据响应类型响应于用户的响应代理;以及响应控制单元,控制由响应代理做出的响应内容。
附图说明
[图1]是用于说明根据本公开的实施例的技术概述的示图。
[图2]是示出根据本公开的实施例的信息处理设备的配置的框图。
[图3]是用于说明根据实施例的信息处理设备的操作示例的示意图。
[图4]是通过根据实施例的信息处理设备的操作显示响应代理的示例。
[图5]是示出根据实施例的信息处理设备的操作流程的示图。
[图6]是示出根据实施例的响应代理的显示示例的变化示例的示例的示图。
[图7]是示出根据实施例的响应代理的显示示例的变化示例的示例的示图。
[图8]是示出根据实施例的信息处理设备的配置的变化示例的示例的框图。
[图9]是示出根据实施例的每个代理的变化示例的示例的示意图。
[图10]是示出根据实施例的响应代理的控制的变化示例的示例的示意图。
[图11]是示出根据实施例的响应代理的控制的变化示例的示例的示意图。
[图12]是示出根据实施例的信息处理设备的硬件配置的示例的示图。
具体实施方式
下面将参考附图详细描述本公开的优选实施例。注意,在本说明书和附图中,具有基本相同的功能和配置的配置元件用相同的参考数字表示,并且省略重复的描述。
注意,按以下顺序给出描述。
1.技术概述
2.功能和配置
3.操作流程
4.变化示例
5.硬件配置示例
(1.技术概述)
首先,将描述即使当用户不知道代理的类型时也允许用户向代理发出命令的信息处理设备的概述。
存在具有多个代理功能的信息处理设备识别明确命令,并且代理执行关于该命令的处理的情况。例如,当信息处理设备等识别出诸如“奈奈子(Nanako),明天的电视节目是什么?”作为明确命令,选择被称为奈奈子的代理,并且明天的电视节目等被呈现给用户。
然而,在上述方法中,用户需要知道被称为奈奈子的代理具有提供诸如电视节目的信息的作用,并且用户知道具有各种作用的各种代理并发出指令对于用户来说是沉重的负担。
在本公开的技术中,代理可以在没有明确命令的情况下响应于用户的意图。将参考图1给出描述。图1是示意性地示出允许用户向代理发出命令的信息处理设备的概述的示图。
用户U存在于空间1中。此外,空间1包括信息处理设备100、显示设备32和屏幕132。在本公开的技术中,基于由用户U发出的话语内容,信息处理设备100处理话语内容,并且根据响应类型从由信息处理设备100管理的多个代理中选择响应于用户的话语内容的响应代理。此外,信息处理设备100控制显示设备32,并且经由屏幕132向用户U呈现作为响应代理的第一代理A和响应内容OA。因此,适当的代理可以在没有来自用户的明确命令的情况下响应于用户的意图,并且可以增加用户感受到的便利性。
(2.功能和配置)
参考图2,将描述允许代理在没有明确命令的情况下响应于用户的意图的信息处理设备100。在本实施例中,将以信息处理设备100管理多个代理的情况为例。图2是示出允许代理响应于用户的意图的信息处理设备100的功能和配置的框图。
信息处理设备100包括代理单元110和控制单元120。信息处理设备100具有基于用户的话语内容从多个代理中选择根据响应类型响应于用户的响应代理,并且控制响应内容的功能。代理相对于用户具有代表用户执行各种处理和执行操作的作用。注意,响应类型指示基于每个代理的特性、响应内容等确定的响应类型。
代理单元110具有由第一代理A、第二代理B和第三代理C例示的多个代理。每个代理具有生成相对于经由稍后所述的控制单元120获取的用户的话语内容的响应内容的功能。
多个代理中的每一个代理相对于用户的输入具有不同的对用户的输出,并且基于用户的话语内容生成每个响应内容。例如,在输入自然语言的情况下,代理可以以自然语言输出响应内容。响应内容可以以诸如文本格式、图像格式、语音格式和操作格式的各种形式表示。
此外,多个代理可以是向用户呈现不同个性的代理,诸如在稍后描述的屏幕132上显示的不同人物图标或响应内容的不同结尾。
如果有必要,多个代理中的每一个代理可以具有访问网络上的资源的功能。网络上的资源可以是用于查询天气预报的天气信息数据库、用于查询用户日程的日程数据库等。
此外,多个代理可以计算当选择稍后描述的响应代理时使用的指标。例如,多个代理可以基于话语内容计算关于话语内容的拟合优度。
注意,在本实施例中,以三个代理为例,但是代理的数量不受限制。此外,每个代理可以在不使用控制单元120的情况下获取用户的话语内容。
控制单元120包括获取单元122、选择单元124、响应控制单元126和存储单元128。控制单元120具有向代理单元110输出用户的话语内容、通过代理单元110选择给出适当答案的响应代理以及控制响应内容的功能。
获取单元122具有获取用户的话语内容的功能。获取单元122通过使用麦克风等收集语音来获取用户的话语内容。获取单元122获取存在于特定空间中的一个或多个用户的话语内容。获取单元122可以在多个用户之间的对话期间获取话语。
获取单元122可以进一步具有获取关于用户的用户信息的功能。用户信息包括诸如用户的年龄和性别的属性。属性例如是儿童、成人、男性还是女性等。这样的用户信息可以是由用户等通过输入设备输入的信息,或者可以是经由传感器设备获取的信息。此外,可以是从获取单元122获得的话语内容推断的信息。输入设备是用户可以通过其输入信息的设备,诸如鼠标、键盘、触摸面板、按钮、麦克风、开关和控制杆。传感器设备可以例如是照度传感器、湿度传感器、生物传感器、位置传感器、陀螺仪传感器等。传感器设备可以设置在非可穿戴型信息处理设备中,或者可以设置在由用户穿戴的可穿戴型信息处理设备中。
此外,用户信息可以是基于话语历史获取的用户信息。例如,可以包括表征用户的偏好的内容,诸如从话语内容推断的喜好、爱好等。用户信息可以是关于用户存在的位置的信息。
用户信息可以进一步包括关于用户周围的环境的环境信息。环境信息可以是诸如环境亮度、时间和天气的信息。
获取单元122还具有获取上述话语内容、用户信息等并将其输出到存储单元128的功能。
选择单元124具有从上述多个代理中选择给出适当的响应的响应代理的功能。适当的响应是根据拟合优度或由用户指定的优先级条件选择的响应。拟合优度例如是使代理之间可以比较由代理生成的响应内容的指标。
将描述在通过使用拟合优度选择响应代理的情况下选择单元124的处理的示例。在这种情况下,选择单元124根据从话语内容计算的拟合优度来选择响应代理。
将参考图3给出详细描述。图3是示出基于话语内容选择响应代理的处理的示意图。图3示出了相对于用户输入执行不同输出的第一代理A、第二代理B和第三代理C。每个代理具有关键字数据库,在该关键字数据库中存储根据每个代理可以做出的响应内容的关键字。
第一代理A具有关键字数据库KA,并且关键字数据库KA存储包括关键字K11、关键字K12和关键字K13的关键字组。类似地,第二代理B具有关键字数据库KB,并且关键字数据库KB存储包括关键字K21、关键字K22、关键字K23和关键字K24的关键字组。第三代理C具有关键字数据库KC,并且关键字数据库KC存储包括关键字K31、关键字K32和关键字K33的关键字组。
每个代理将包括在话语内容中的关键字与每个代理所拥有的关键字数据库进行对照以计算拟合优度。
首先,用户U首先发出包括关键字K11和关键字K12的话语1。每个代理A到C将相应的关键字数据库KA至KC与包括在话语1的内容中的关键字进行对照。每个代理使用每个代理所拥有的关键字数据库KA至KC和包括在话语1的内容中的关键字来计算拟合优度。
每个代理将话语1的话语内容的句子分解为单词。使用所有单词的数量和关键字的数量来计算拟合优度。话语1包括六个单词,并且包括两个关键字:六个单词中的关键字K11和K12。这里,第一代理A的关键字数据库KA包括话语1中包括的关键字K11和K12。另一方面,第二代理B的关键字数据库KB和第三代理C的关键字数据库KC不包括关键字K11或K12。
这里,代理i相对于用户的话语t的拟合优度Zi,t由以下描述的公式(1)表示。
[数学公式1]
Figure BDA0003173670390000071
注意,Wt表示用户的话语t的话语内容,|Wt|表示包括在话语内容Wt中的单词的数量,mi(Wt)表示包括在话语内容Wt中的存储(登记)在代理i的关键字数据库中的关键字的数量。
根据上述,第一代理A的拟合优度被计算为2/6(
Figure BDA0003173670390000072
),第二代理B的拟合优度被计算为0/6(=0),并且第三代理C的拟合优度被计算为0/6(=0)。选择单元124根据以这种方式计算的拟合优度的大小来选择响应代理。此外,选择单元124可以选择指示拟合优度等于或高于预设阈值的代理作为响应代理。
这里,选择单元124选择具有最高拟合优度的代理作为响应代理R1。对于上述话语1,可以选择具有最高拟合优度的第一代理A作为响应代理R1。所选择的第一代理A输出包括响应内容OA,1的响应1作为响应代理R1
接下来,用户U发出包括关键字K12的话语2。话语2包括三个单词并且包括一个关键字:三个单词中的关键字K12。这里,第一代理A的关键字数据库KA包括话语3中包括的关键字K12。另一方面,第二代理B的关键字数据库KB和第三代理C的关键字数据库KC不包括关键字K12。
根据上述,第一代理A的拟合优度被计算为1/3(
Figure BDA0003173670390000073
),第二代理B的拟合优度被计算为0/3(=0),并且第三代理C的拟合优度被计算为0/3(=0)。对于话语2,选择具有最高拟合优度的第一代理A作为响应代理R2。所选择的第一代理A输出包括响应内容OA,2的响应2作为响应代理R2
接下来,用户U发出包括关键字K11、K23和K24的话语3。话语3包括九个单词,并且包括三个关键字:九个单词中的关键字K11、K23和K24。这里,第一代理A的关键字数据库KA包括话语3中包括的关键字K11,并且第二代理B的关键字数据库KB包括关键字K23和K24。另一方面,第三代理C的关键字数据库KC不包括关键字K11、K23或K24。
根据上述,第一代理A的拟合优度被计算为1/9(
Figure BDA0003173670390000082
),第二代理B的拟合优度被计算为2/9(=0.22),并且第三代理C的拟合优度被计算为0/9(=0)。对于话语3,选择具有最高拟合优度的第二代理B作为响应代理R3。所选择的第二代理B输出包括响应内容OB,3的响应3作为响应代理R3。以这种方式,选择单元124使用由每个代理计算的拟合优度Zi,t来选择响应代理。注意,在本实施例中,示出了选择一个响应代理的示例,但是本实施例不限于该示例,并且可以选择多个代理作为响应代理。
此外,可以使用加权拟合优度的加权参数来计算上述拟合优度Zi,t。通过使用加权参数,可以加权拟合优度,并且可以灵活地选择响应代理。
随着加权参数的添加,加权拟合优度可以表示为以下描述的公式(2)。注意,以下描述的公式(2)是用于计算相对于话语t加权的代理i的拟合优度Zi,t,α的公式。
[数学公式2]
Figure BDA0003173670390000081
注意,Pi是代理i的加权参数(代理权重),并且α是调整基于关键字的拟合优度与代理权重Pi之间的关系的加权参数(调整权重)。
使用这样的公式(2),计算加权拟合优度。
代理权重Pi例如可以是基于关于用户的用户信息的参数。具体地,代理权重Pi可以是基于关于用户的年龄、性别、话语历史和用户的面部的识别结果的信息设置的权重。
例如,当用户的年龄用作代理权重Pi时,可以优先选择与用户的年龄相对应的代理作为响应代理。在用户年龄较低的情况下,选择专门针对儿童话题的代理。
此外,当话语历史用作代理权重Pi时,选择更接近用户所要求的响应的代理,例如,使得根据用户的过去的话语历史优先选择经常被选择作为响应代理的代理。此外,用户信息可以包括用户的生物信息。生物信息包括用户的脉搏、体温等,并且可以例如通过用户穿戴生物传感器来获取。通过使用生物信息,选择单元124可以根据脉搏等推断用户的紧张程度等,并且可以做出更符合用户的意图的响应。
此外,代理权重Pi可以是基于关于用户周围的环境的环境信息设置的权重。环境信息可以是环境亮度、时间、天气等。例如,当环境信息用作代理权重Pi时,可以根据天气等选择响应代理,并且显示设备可以向用户呈现更符合用户的意图的响应内容。
可以基于关于代理i的过去的响应内容的评估(诸如代理i的可靠性)来设置代理权重Pi。关于代理i的过去的响应内容的评估可以是由用户输入的评估或由另一用户输入的评估。通过基于评估设置代理权重Pi,可以增加采用更可靠的代理i的可能性。
注意,在本实施例中,示出了由每个代理计算拟合优度的示例,但是本实施例不限于该示例,并且控制单元120可以获取每个代理的响应内容,并且根据所获取的响应内容计算拟合优度。
此外,例如,在每个代理具有与以文本等形式存储在数据库中的话语相关的语言材料的情况下,每个代理可以计算用户U的话语内容与每个语言材料之间的相似度,并且选择单元124可以比较相似度(例如,通过使用日本专利申请公开第06-176064号中描述的公知技术)并选择响应代理。
当由选择单元124选择的响应代理响应于用户时,响应控制单元126具有控制响应内容的功能。响应控制单元126根据显示设备32等的形式控制由响应代理生成的响应内容。
将参考图4描述由屏幕132呈现响应内容的示例作为示例。图4是示出屏幕132上显示的响应代理和响应内容的示例。
在屏幕132上显示被选择作为响应代理的第一代理A和第二代理B,并且响应内容OA被显示为从第一代理A发出,并且响应内容OB被显示为从第二代理B发出。如上所述,屏幕132可以显示多个所选择的响应代理,或者可以显示单个所选择的响应代理。
响应控制单元126可以根据用户信息控制所显示的响应代理的位置或大小。例如,当说话者的属性是儿童时,响应控制单元126可以根据儿童的视线或位置来控制响应代理的位置。
此外,响应控制单元126可以显示和控制响应代理的详细显示X和Y。详细显示X和Y可以显示关于响应代理的过去的响应内容的评估,诸如响应代理的可靠性。评估可以是由用户输入并获得的评估,或者是由另一用户输入并获得的评估。当显示这些详细显示X和Y时,除了响应代理的响应内容之外,用户还可以接收额外信息。
存储单元128具有存储用于控制单元120实现各种功能的各种信息和各种参数的功能。此外,存储单元128还具有存储过去的话语内容的功能。过去的话语内容例如包括用户与响应代理之间的对话历史。通过使用对话历史,选择单元124可以考虑过去用户与响应代理之间的关系等来选择响应代理。具体地,选择单元124可以使用选择的次数作为关于与用户的关系的响应代理。例如,选择单元124可以选择作为响应代理的选择次数最多的代理作为下一个响应代理。
显示设备32包括能够向用户可视地呈现由响应控制单元126控制的响应内容的设备。这样的设备的示例包括显示设备,诸如阴极射线管(CRT)显示设备、液晶显示设备、等离子显示设备、电致发光(EL)显示设备、激光投影仪、发光二极管(LED)投影仪和灯。
注意,可以由除了显示设备之外的其他设备呈现响应内容。例如,在语音输出设备的情况下,包括能够通过语音向用户呈现由响应控制单元126控制的响应内容的设备。例如,语音输出设备包括具有能够定位声像的多个声道的扬声器,诸如立体声扬声器。因此,用户可以通过在定位语音的每个方向上分配代理来确定从听到语音的方向中选择了哪个代理。
在操作设备的情况下,包括能够通过操作向用户呈现由响应控制单元126控制的响应内容的设备。例如,操作设备可以是可移动设备或能够抓握物体的设备。具体地,操作设备36可以是机器人等。
(3.操作流程)
以上已经描述了信息处理设备100的功能和配置。在本节中,将描述根据每个功能和配置的操作流程。图5是示出信息处理设备100的操作流程的示图。
首先,信息处理设备100不断地获取周围的语音,并且信息处理设备100确定是否存在用户话语(S102)。在不存在用户话语的情况下(S102/否),操作结束。另一方面,在存在用户话语的情况下(S102/是),处理进行到下一操作。
接下来,存储单元128存储话语t(S104)。
接下来,控制单元120向第一代理A至第三代理C输出话语t(S106)。
接下来,第一代理A至第三代理C基于话语内容导出关于话语内容的拟合优度ZA,t、ZB,t、ZC,t(S108)。
接下来,选择单元124通过使用拟合优度ZA,t、ZB,t、ZC,t从第一代理A至第三代理C中选择响应于话语t的响应代理(S110)。
接下来,响应控制单元126向显示设备32输出响应代理Rt的响应内容ORt,t(S112)。
最后,存储单元128存储响应内容ORt,t(S114)。
以上已经描述了信息处理设备100的操作流程。通过以这种方式操作信息处理设备100,即使当用户没有发出明确指令时,也可以由响应代理做出符合用户的意图的响应。
(4.变化示例)
以下将描述上述实施例的变化示例。
(变化示例1)
在上述实施例中,已经描述了在屏幕132上显示响应代理的详细显示X和Y的示例。作为上述实施例的变化示例,在详细显示X和Y是可靠性的情况下,可以通过如图6所示的图标形式的变化来显示可靠性。当第一代理A是模仿啤酒杯的图标时,可靠性可以通过啤酒杯中的内容量的变化来指示。图6从左侧起示出了空啤酒杯X1、半满啤酒杯X2和满啤酒杯X3,并且可靠性可以按照从空啤酒杯X1到满啤酒杯X3的顺序增加。
(变化示例2)
在变化示例1中,已经描述了通过改变第一代理A至第三代理C的图标来显示可靠性等的示例。作为变化示例1的进一步变化示例,将描述由语音输出设备做出响应的情况下的变化示例的示例。
在由语音输出设备呈现响应的情况下,响应代理的可靠性(是否有信心)可以由话语速度来呈现。具体地,较慢的话语速度可以指示对响应内容没有信心,而较快的话语速度可以指示对响应内容有信心。此外,响应代理的可靠性可以通过语音的声调、口音等的变化来呈现。口音的变化包括响应内容结尾的变化。
(变化示例3)
在上述实施例中,已经描述了在屏幕132上选择响应代理并且每个响应代理响应的状态。作为上述实施例的变化示例,所选择的响应代理中的一个代表性响应代理可以响应于用户代表其他所选择的响应代理做出响应。如图7所示,在所选择的响应代理是第一代理A、第二代理B和第三代理C的情况下,第一代理A可以是代表代理,并且第一代理A的响应内容OA可以代表第二代理B和第三代理C呈现给用户。例如,第一代理A可以输出指示“第二代理B说‘OB’,并且第三代理C说‘OC’”的响应内容OA
(变化示例4)
在上述实施例中,已经描述了在信息处理设备100中管理多个代理的示例。作为上述实施例的变化示例,多个代理可以由与信息处理设备100不同的设备来管理。如图8所示,信息处理设备100包括控制单元120。此外,提供了与信息处理设备100不同的第一代理A2、第二代理B2和第三代理C2终端。
第一代理A2、第二代理B2和第三代理C2中的每一个例如可以是图9所示的每个终端。具体地,图9示出了第一代理A2是智能扬声器、第二代理B2是平板终端并且第三代理C2是机器人的状态。以这种方式,多个代理可以是由与信息处理设备100不同的终端管理的代理。
在多个代理由与上述信息处理设备100不同的终端管理的情况下,用户的话语内容例如从信息处理设备100的控制单元120输出到第一代理A2、第二代理B2和第三代理C2。第一代理A2、第二代理B2和第三代理C2各自基于话语内容生成响应内容。然后,第一代理A2、第二代理B2和第三代理C2向信息处理设备100输出响应内容。
在信息处理设备100中,可以由选择单元124计算关于响应内容的拟合优度。类似于上述实施例中描述的每个代理的拟合优度的计算,可以获取每个代理的响应内容,并且选择单元124可以计算关于响应内容的拟合优度。
(变化示例5)
在上述实施例中,已经描述了在屏幕132上显示响应代理和响应内容的示例。作为上述实施例的变化示例,可以通过语音输出响应内容。如图10所示,第一代理A2存在于用户U的左侧,并且第二代理B2存在于用户U的右侧。通过从不同方向输出语音,在本变化示例中,用户U可以知道语音与响应内容一起输出的方向。
(变化示例6)
在上述实施例中,已经描述了在屏幕132上显示响应代理和响应内容的示例。作为上述实施例的变化示例,可以通过表示操作设备的操作来控制响应。如图11所示,第三代理C2正在向用户U提供膳食。响应控制单元126可以通过控制以机器人为例的操作设备来向用户指示代理的响应内容。
(变化示例7)
在上述实施例中,已经描述了基于拟合优度和加权参数考虑用户信息等来选择响应代理的示例。作为上述实施例的变化示例,可以基于与拟合优度和加权参数不同的度量来选择响应代理。例如,如日本专利申请公开第2011-527798号中所描述的,确定广告的效用价值的参数可以用作不同的度量。
(变化示例8)
在上述实施例中,已经描述了控制单元120向所有多个代理输出用户的话语内容的示例。作为上述实施例的变化示例,控制单元120可以向多个代理中的一些代理输出用户的话语内容。通过以这种方式选择一些代理并输出话语内容,可以提高处理速度。例如,可以通过使用用户的位置信息来选择可以输出关于距用户的位置预定距离范围内的响应内容的代理。
(5.硬件配置示例)
参考图12描述根据本实施例的信息处理设备的硬件配置的示例。图12是示出根据本实施例的信息处理设备的硬件配置的示例的框图。
如图12所示,信息处理设备900包括中央处理单元(CPU)901、只读存储器(ROM)902、随机存取存储器(RAM)903和主机总线904a。此外,信息处理设备900包括桥接器904、外部总线904b、接口905、输入设备906、显示设备907、存储设备908、驱动器909、连接端口911和通信设备913。信息处理设备900可以包括诸如电路、DSP或ASIC的处理电路来代替CPU901或与CPU 901一起。
CPU 901用作算术处理设备和控制设备,并且根据各种程序控制信息处理设备900中的一般操作。此外,CPU 901可以是微处理器。ROM 902存储CPU 901使用的程序、算术参数等。RAM 903临时存储在CPU 901的执行中使用的程序、在执行中适当改变的参数等。CPU901例如可以形成图2所示的控制单元。
CPU 901、ROM 902和RAM 903通过包括CPU总线等的主机总线904a彼此连接。主机总线904a经由桥接器904连接到外部总线904b,例如外围组件互连/接口(PCI)总线。注意,不必需要单独配置主机总线904a、桥接器904和外部总线904b,并且这些功能可以安装在单个总线上。
输入设备906由用户通过其输入信息的设备(诸如鼠标、键盘、触摸面板、按钮、麦克风、开关和控制杆)来实现。此外,输入设备906例如可以是使用红外线或其他电波的遥控设备或诸如支持信息处理设备900的操纵的蜂窝电话或PDA的外部连接设备。此外,输入设备906可以例如包括基于用户使用上述输入装置(input means)输入的信息生成输入信号并将该输入信号输出到CPU 901的输入控制电路等。信息处理设备900的用户可以通过操纵输入设备906来输入各种类型的数据或者发出关于信息处理设备900的处理操作的指令。
显示设备907由可以可视地或可听地向用户通知所获取的信息的设备形成。作为这样的设备,存在诸如CRT显示设备、液晶显示设备、等离子显示设备、EL显示设备、激光投影仪、LED投影仪或灯的显示设备、诸如扬声器和耳机的语音输出设备等。显示设备907例如输出根据由信息处理设备900执行的各种处理获取的结果。具体地,显示设备907以诸如文本、图像、表格和图表的各种形式可视地显示通过由信息处理设备900执行的各种处理获取的结果。另一方面,在使用语音输出设备的情况下,包括再现语音数据、声学数据等的音频信号被转换为模拟信号,并且可听地输出模拟信号。显示设备907例如是图2所示的显示设备32。
存储设备908是作为信息处理设备900的存储单元的示例而形成的用于数据存储的设备。例如,存储设备908由磁存储装置(诸如HDD、半导体存储装置、光存储装置、磁光存储装置等)来实现。存储设备908可以包括存储介质、将数据记录在存储介质上的记录设备、从存储介质读取数据的读取设备、去除记录在存储介质上的数据的去除设备等。存储设备908存储由CPU 901执行的程序和各种类型的数据、从外部获取的各种类型的数据等。存储设备908例如存储当响应控制单元控制图2所示的控制单元120中的显示设备时使用的各种参数等。
驱动器909是存储介质读取器/写入器,并且在内部或外部安装在信息处理设备900中。驱动器909读取记录在所安装的可移动存储介质(例如,磁盘、光盘、磁光盘或半导体存储器)上的信息,并且将该信息输出到RAM 903。此外,驱动器909可以将信息写入可移动存储介质。
连接端口911是与外部设备连接的接口,并且是到外部设备的连接器,通过该连接器可以例如通过通用串行总线(USB)等发送数据。
通信设备913例如是包括用于连接到网络920的通信装置等的通信接口。通信设备913例如是用于有线或无线局域网(LAN)、长期演进(LTE)、蓝牙(注册商标)或无线USB(WUSB)的通信卡等。此外,通信设备913可以是用于光通信的路由器、用于非对称数字用户线(ADSL)的路由器、各种通信调制解调器等。例如,通信设备913可以根据预定协议(例如TCP/IP等)向因特网和其他通信设备发送信号等/从因特网和其他通信设备接收信号等。通过通信设备913,例如,图2所示的控制单元120和作为用户呈现设备的显示设备发送和接收各种信息。诸如通信设备913的设备可以用于这种发送和接收。
注意,网络920是从连接到网络920的设备发送的信息的有线或无线传输路径。例如,网络920可以包括公共网络(例如,因特网、电话网络或卫星通信网络)或者包括以太网(注册商标)的各种局域网(LAN)、广域网(WAN)等。此外,网络920可以包括专用网络,例如因特网协议虚拟专用网络(IP-VPN)。
此外,在信息处理设备900中,还可以创建计算机程序,该计算机程序用于使包含在信息处理设备900中的诸如CPU、ROM和RAM的硬件表现出与根据上述实施例的信息处理设备100的配置的功能等效的功能。此外,存储计算机程序的记录介质可以落入根据本公开的技术的范围内。
以上已经参考附图描述了本公开的优选实施例,但是本公开的技术范围不限于以上示例。显而易见的是,本公开的技术领域中的普通技术人员可以在权利要求所述的技术思想的范围内找到各种变化和修改,并且应当理解,这些变化和修改将自然地落入本公开的技术范围内。
此外,本说明书中描述的效果仅是说明性的或示例性的效果,而不是限制性的。即,利用或代替以上效果,根据本公开的技术可以实现本领域技术人员从本说明书的描述中清楚的其他效果。
注意,以下配置也落入本公开的技术范围内。
(1)一种信息处理设备,包括:
选择单元,基于用户的话语内容从相对于输入具有不同输出的多个代理中选择根据响应类型响应于用户的响应代理;以及
响应控制单元,控制由响应代理做出的响应内容。
(2)根据(1)的信息处理设备,其中,选择单元根据从话语内容计算的拟合优度来选择响应代理。
(3)根据(2)的信息处理设备,其中,选择单元从多个代理中选择拟合优度被指示为等于或高于阈值的代理作为响应代理。
(4)根据(2)或(3)的信息处理设备,其中,多个代理中的每一个代理计算拟合优度。
(5)根据(2)至(4)中任一项的信息处理设备,其中,通过使用用户的话语内容和登记在由多个代理中的每一个代理拥有的字典中的字符串来计算拟合优度。
(6)根据(2)至(5)中任一项的信息处理设备,其中,通过使用加权参数来加权拟合优度。
(7)根据(6)的信息处理设备,其中,加权参数是基于关于用户的用户信息的参数。
(8)根据(7)的信息处理设备,其中,用户信息包括关于用户的年龄和话语历史中的至少一个的信息。
(9)根据(7)或(8)的信息处理设备,其中,用户信息包括关于用户周围的环境的环境信息。
(10)根据(1)至(9)中任一项的信息处理设备,其中,选择单元进一步基于用户与响应代理之间的对话历史来选择响应代理。
(11)根据(1)至(10)中任一项的信息处理设备,其中,响应控制单元控制通过显示响应内容向用户呈现响应内容的显示设备。
(12)根据(11)的信息处理设备,其中,响应控制单元进一步控制多个代理的详细信息的显示。
(13)根据(1)至(10)中任一项的信息处理设备,其中,响应控制单元控制通过机械操作向用户呈现响应内容的操作设备。
(14)根据(1)至(10)中任一项的信息处理设备,其中,响应控制单元控制通过语音输出响应内容向用户呈现响应内容的语音输出设备。
(15)根据(1)至(14)中任一项的信息处理设备,其中,在信息处理设备中管理多个代理。
(16)根据(2)的信息处理设备,其中,选择单元使用除了拟合优度之外的不同度量来选择响应代理。
(17)一种信息处理方法,包括由处理器:
基于用户的话语内容从相对于输入具有不同输出的多个代理中选择根据响应类型响应于用户的响应代理;并且
控制由响应代理做出的响应内容。
(18)一种程序,用于使计算机用作:
选择单元,基于用户的话语内容从相对于输入具有不同输出的多个代理中选择根据响应类型响应于用户的响应代理;以及
响应控制单元,控制由响应代理做出的响应内容。
参考标记列表
100 信息处理设备
110 代理单元
120 控制单元
122 获取单元
124 选择单元
126 响应控制单元
128 存储单元。

Claims (18)

1.一种信息处理设备,包括:
选择单元,基于用户的话语内容从相对于输入具有不同输出的多个代理中选择根据响应类型响应于所述用户的响应代理;以及
响应控制单元,控制由所述响应代理做出的响应内容。
2.根据权利要求1所述的信息处理设备,其中,所述选择单元根据从所述话语内容计算的拟合优度来选择所述响应代理。
3.根据权利要求2所述的信息处理设备,其中,所述选择单元从所述多个代理中选择所述拟合优度被指示为等于或高于阈值的代理作为所述响应代理。
4.根据权利要求2所述的信息处理设备,其中,所述多个代理中的每一个代理计算所述拟合优度。
5.根据权利要求2所述的信息处理设备,其中,通过使用所述用户的话语内容和登记在由所述多个代理中的每一个代理拥有的字典中的字符串来计算所述拟合优度。
6.根据权利要求5所述的信息处理设备,其中,通过使用加权参数来加权所述拟合优度。
7.根据权利要求6所述的信息处理设备,其中,所述加权参数是基于关于所述用户的用户信息的参数。
8.根据权利要求7所述的信息处理设备,其中,所述用户信息包括关于所述用户的年龄和话语历史中的至少一个的信息。
9.根据权利要求7所述的信息处理设备,其中,所述用户信息包括关于所述用户周围的环境的环境信息。
10.根据权利要求1所述的信息处理设备,其中,所述选择单元进一步基于所述用户与所述响应代理之间的对话历史来选择所述响应代理。
11.根据权利要求1所述的信息处理设备,其中,所述响应控制单元控制通过显示所述响应内容向所述用户呈现所述响应内容的显示设备。
12.根据权利要求11所述的信息处理设备,其中,所述响应控制单元进一步控制所述多个代理的详细信息的显示。
13.根据权利要求1所述的信息处理设备,其中,所述响应控制单元控制通过机械操作向所述用户呈现所述响应内容的操作设备。
14.根据权利要求1所述的信息处理设备,其中,所述响应控制单元控制通过语音输出所述响应内容向所述用户呈现所述响应内容的语音输出设备。
15.根据权利要求1所述的信息处理设备,其中,在所述信息处理设备中管理所述多个代理。
16.根据权利要求2所述的信息处理设备,其中,所述选择单元使用除了所述拟合优度之外的不同度量来选择所述响应代理。
17.一种信息处理方法,包括由处理器:
基于用户的话语内容从相对于输入具有不同输出的多个代理中选择根据响应类型响应于所述用户的响应代理;并且
控制由所述响应代理做出的响应内容。
18.一种程序,用于使计算机用作:
选择单元,基于用户的话语内容从相对于输入具有不同输出的多个代理中选择根据响应类型响应于所述用户的响应代理;以及
响应控制单元,控制由所述响应代理做出的响应内容。
CN201980089889.6A 2019-01-28 2019-12-03 用于选择响应代理的信息处理器 Pending CN113382831A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019-011796 2019-01-28
JP2019011796A JP2020119412A (ja) 2019-01-28 2019-01-28 情報処理装置、情報処理方法、及びプログラム
PCT/JP2019/047134 WO2020158171A1 (ja) 2019-01-28 2019-12-03 応答エージェントを選択する情報処理装置

Publications (1)

Publication Number Publication Date
CN113382831A true CN113382831A (zh) 2021-09-10

Family

ID=71841278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980089889.6A Pending CN113382831A (zh) 2019-01-28 2019-12-03 用于选择响应代理的信息处理器

Country Status (5)

Country Link
US (1) US20220051671A1 (zh)
EP (1) EP3919239A4 (zh)
JP (1) JP2020119412A (zh)
CN (1) CN113382831A (zh)
WO (1) WO2020158171A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087090B2 (en) * 2018-03-23 2021-08-10 Servicenow, Inc. System for focused conversation context management in a reasoning agent/behavior engine of an agent automation system

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132804A (ja) * 2000-10-24 2002-05-10 Sanyo Electric Co Ltd ユーザ支援システム
US20040189697A1 (en) * 2003-03-24 2004-09-30 Fujitsu Limited Dialog control system and method
JP2006268428A (ja) * 2005-03-24 2006-10-05 Kenwood Corp 情報呈示装置、情報呈示方法、および、情報呈示用プログラム
CN107408028A (zh) * 2015-03-31 2017-11-28 索尼公司 信息处理设备、控制方法以及程序
CN107564510A (zh) * 2017-08-23 2018-01-09 百度在线网络技术(北京)有限公司 一种语音虚拟角色管理方法、装置、服务器和存储介质
US20180096283A1 (en) * 2016-10-03 2018-04-05 Google Llc Selection of computational agent for task performance
CN108231070A (zh) * 2016-12-14 2018-06-29 松下知识产权经营株式会社 语音对话装置、语音对话方法、语音对话程序以及机器人
CN108885768A (zh) * 2016-03-24 2018-11-23 索尼公司 信息处理系统、信息处理设备、信息处理方法以及记录介质
WO2018236332A1 (en) * 2017-06-18 2018-12-27 Google Llc NATURAL LANGUAGE PROCESSING USING AUTOMATIC LEARNING TO DETERMINE WAFER VALUES BASED ON WAFER DESCRIPTORS

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58163095A (ja) * 1982-03-23 1983-09-27 スタンレー電気株式会社 光学式複数負荷集中制御装置
JP3439494B2 (ja) 1992-12-02 2003-08-25 富士通株式会社 文脈依存自動分類装置
JP2002041276A (ja) 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
KR101035784B1 (ko) 2008-07-10 2011-05-20 엔에이치엔비즈니스플랫폼 주식회사 시간 및 시간에 따른 효용에 기초하여 광고를 제공하는방법 및 시스템
EP3430514B1 (en) * 2016-04-18 2019-10-09 Google LLC Automated assistant invocation of appropriate agent
JP2018054850A (ja) * 2016-09-28 2018-04-05 株式会社東芝 情報処理システム、情報処理装置、情報処理方法、及びプログラム
US10311856B2 (en) * 2016-10-03 2019-06-04 Google Llc Synthesized voice selection for computational agents
JP6591128B1 (ja) * 2017-12-26 2019-10-16 楽天株式会社 対話制御システム、対話制御方法、及びプログラム
US10782986B2 (en) * 2018-04-20 2020-09-22 Facebook, Inc. Assisting users with personalized and contextual communication content

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132804A (ja) * 2000-10-24 2002-05-10 Sanyo Electric Co Ltd ユーザ支援システム
US20040189697A1 (en) * 2003-03-24 2004-09-30 Fujitsu Limited Dialog control system and method
JP2006268428A (ja) * 2005-03-24 2006-10-05 Kenwood Corp 情報呈示装置、情報呈示方法、および、情報呈示用プログラム
CN107408028A (zh) * 2015-03-31 2017-11-28 索尼公司 信息处理设备、控制方法以及程序
CN108885768A (zh) * 2016-03-24 2018-11-23 索尼公司 信息处理系统、信息处理设备、信息处理方法以及记录介质
US20180096283A1 (en) * 2016-10-03 2018-04-05 Google Llc Selection of computational agent for task performance
CN108231070A (zh) * 2016-12-14 2018-06-29 松下知识产权经营株式会社 语音对话装置、语音对话方法、语音对话程序以及机器人
WO2018236332A1 (en) * 2017-06-18 2018-12-27 Google Llc NATURAL LANGUAGE PROCESSING USING AUTOMATIC LEARNING TO DETERMINE WAFER VALUES BASED ON WAFER DESCRIPTORS
CN107564510A (zh) * 2017-08-23 2018-01-09 百度在线网络技术(北京)有限公司 一种语音虚拟角色管理方法、装置、服务器和存储介质

Also Published As

Publication number Publication date
JP2020119412A (ja) 2020-08-06
WO2020158171A1 (ja) 2020-08-06
US20220051671A1 (en) 2022-02-17
EP3919239A1 (en) 2021-12-08
EP3919239A4 (en) 2022-03-30

Similar Documents

Publication Publication Date Title
US20230036798A1 (en) Systems and methods for providing search interface with contextual suggestions
US11810562B2 (en) Reducing the need for manual start/end-pointing and trigger phrases
US11435980B2 (en) System for processing user utterance and controlling method thereof
KR102445382B1 (ko) 음성 처리 방법 및 이를 지원하는 시스템
US10811008B2 (en) Electronic apparatus for processing user utterance and server
KR102662558B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
KR20200059054A (ko) 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
KR20210137118A (ko) 대화 단절 검출을 위한 글로벌 및 로컬 인코딩을 갖는 컨텍스트 풍부 주의 기억 네트워크를 위한 시스템 및 방법
KR102369083B1 (ko) 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
US11972761B2 (en) Electronic device for sharing user-specific voice command and method for controlling same
KR102464120B1 (ko) 사용자 발화를 처리하는 전자 장치
KR20190122457A (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
CN108055617A (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
EP3635533B1 (en) Electronic apparatus for processing user utterance for controlling an external electronic apparatus and controlling method thereof
KR20200099380A (ko) 음성 인식 서비스를 제공하는 방법 및 그 전자 장치
KR20190134975A (ko) 인공지능 시스템의 앱들 또는 스킬들의 리스트를 표시하는 증강 현실 장치 및 동작 방법
JP6973380B2 (ja) 情報処理装置、および情報処理方法
KR102426411B1 (ko) 사용자 발화을 처리하는 전자 장치 및 시스템
CN113382831A (zh) 用于选择响应代理的信息处理器
KR20200016774A (ko) 사용자 음성 발화를 처리하기 위한 시스템 및 그의 동작 방법
US10051331B1 (en) Quick accessibility profiles
JP2021018551A (ja) 情報装置、自動設定方法及び自動設定プログラム
US10916250B2 (en) Duplicate speech to text display for the deaf
WO2023210340A1 (ja) 学習装置および学習方法
KR101863776B1 (ko) 인식된 음성에 대응하는 텍스트의 표현 방법, 표현 장치 및 표현 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination