CN111263962A - 信息处理设备和信息处理方法 - Google Patents
信息处理设备和信息处理方法 Download PDFInfo
- Publication number
- CN111263962A CN111263962A CN201880068842.7A CN201880068842A CN111263962A CN 111263962 A CN111263962 A CN 111263962A CN 201880068842 A CN201880068842 A CN 201880068842A CN 111263962 A CN111263962 A CN 111263962A
- Authority
- CN
- China
- Prior art keywords
- voice agent
- information
- voice
- agent
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 57
- 238000003672 processing method Methods 0.000 title claims description 8
- 238000004590 computer program Methods 0.000 title description 2
- 230000005540 biological transmission Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 12
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 62
- 238000000034 method Methods 0.000 description 38
- 238000004891 communication Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 15
- 230000004913 activation Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000001934 delay Effects 0.000 description 5
- 230000001771 impaired effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 235000013409 condiments Nutrition 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
提供了一种具有说话功能或控制说话功能的信息处理装置。该信息处理装置设置有:发送单元,其发送语音代理的对话信息;接收单元,其接收另一语音代理的对话信息;以及控制单元,其基于由接收单元接收的另一语音代理的对话信息来控制语音代理的说话定时。控制单元基于从另一语音代理接收的对话信息使语音代理等待说话。控制单元使对话信息在语音代理说话期间以及在语音代理和用户之间的对话期间被继续地传送。
Description
技术领域
本说明书公开的技术涉及具有说话功能或控制说话功能的信息处理设备和信息处理方法。
背景技术
近年来,随着语音识别技术、机器学习技术等的发展,越来越多的各种电子装置(例如信息设备和家用电器)配备有说话功能。配备有说话功能的电子装置解释用户的说话以执行由语音指示的装置操纵,并且对关于装置状态的报告给出语音指导,解释如何使用该装置等。这种类型的说话功能也称为“语音代理”。此外,在物联网(IoT)装置中,不存在诸如鼠标和键盘的传统输入设备,并且使用语音信息而不是文本信息的用户接口(UI)具有更大的潜力。
可能发生这样的情况,其中多个语音代理存在于相同的空间中,例如普通的家庭或办公室。如果多个语音代理在其独立定时开始说话,则说话彼此重叠,并且存在用户不能区分每个语音代理已经说了什么的问题。另外,如果当用户与一个语音代理对话时另一个语音代理中断并停止对话,则存在用户使用感受受损的问题。
因此,已经提出了一种语音指导输出设备以及一种语音输出设备,该语音指导输出设备在语音输出之前比较装置之间的语音指导的重要性,并且按照重要性的顺序输出语音(例如,参见专利文献1),该语音输出设备在进行语音消息说话之前或期间分析环境声音,并且基于说话内容的重要性来决定是否发出语音消息(例如,参见专利文献2)。
引用列表
专利文献
专利文献1:日本专利申请公开号2007-114537
专利文献2:日本专利申请公开号2009-65562
发明内容
本发明要解决的问题:
本说明书中公开的技术的目的在于提供一种具有说话功能或控制说话功能的信息处理设备和信息处理方法。
解决问题的方案
本说明书中公开的技术是针对上述问题而作出的,并且其第一方面是一种信息处理设备,包括:
发送单元,发送关于语音代理的对话信息;
接收单元,接收关于另一语音代理的对话信息;以及
控制单元,其基于由接收单元接收的关于另一语音代理的对话信息来控制语音代理的说话定时。
控制单元还进行控制以在语音代理开始说话之前接收关于另一语音代理的对话信息,并且基于从另一语音代理接收的对话信息使语音代理的说话待命。
此外,控制单元使对话信息在语音代理的说话期间以及在语音代理与用户之间的对话期间继续地发送。例如,在语音代理和用户之间的对话期间,当轮到语音代理说话时,控制单元使对话信息被发送。
此外,控制单元在用户已经将预定的词语输入到语音代理时使语音代理开始说话,而不管是否已经从另一语音代理接收到对话信息。
此外,控制单元随机地设置待命时间,直到语音代理开始或恢复说话为止。
对话信息包括关于语音代理的说话的信息或关于语音代理与用户之间的对话的信息中的至少一者。此外,对话信息可以包括说话等待信息、累积对话时间信息或关于语音代理自身的代理详细信息中的至少一者。
此外,本说明书公开的技术的第二方面是一种信息处理方法,包括:
接收步骤,其接收关于另一语音代理的对话信息;
确定步骤,其基于从另一语音代理接收的对话信息来确定语音代理的说话定时;以及
发送步骤,其在语音代理说话或与用户对话的同时发送对话信息。
本发明的效果
根据本说明书公开的技术,可以提供具有说话功能或控制说话功能的信息处理设备和信息处理方法。
注意,本说明书中描述的效果仅仅是实例,并且本发明的效果不限于此。此外,除了上述效果之外,本发明还可以发挥附加效果。
基于下面描述的实施方式和附图,本说明书中公开的技术的其他目的、特征和优点将从更详细的描述中变得明显。
附图说明
[图1]图1是示意性地示出语音代理100的功能配置的示图。
[图2]图2是示出用于自主地控制语音代理100中的说话定时的处理过程的流程图。
[图3]图3是示出其中存在于相同空间中的语音代理A和语音代理B控制说话定时的操作顺序的实例的示图。
[图4]图4是示出其中存在于相同空间中的语音代理A和语音代理B控制说话定时的操作顺序的实例的示图。
[图5]图5是示出其中存在于相同空间中的语音代理A和语音代理B控制说话定时的操作顺序的实例的示图。
[图6]图6是示出用于在语音代理与用户对话时发送和接收对话信息的处理过程的流程图。
[图7]图7是示出代理说话回合处理的详细处理过程的流程图。
具体实施方式
在下文中,将参考附图详细描述本说明书中公开的技术的实施方式。
配备在诸如信息装置和家用电器的各种电子装置中的说话功能也称为“语音代理”。例如,语音代理还可以被定义为一种功能或装置,其可以通过语音识别来操纵并且通过语音来支持用户的生活,用于警报、日程管理和包括新闻、天气预报等的各种信息的通知或指导。语音代理还具有不仅通过语音对用户的说话作出响应而且通过其自身对用户讲话的功能。
随着语音代理普及的推进,可能发生多个语音代理存在于同一空间中的情况。在这种情况下,如果多个语音代理在其独立定时开始说话,则说话彼此重叠,并且存在用户不能区分每个语音代理已经说了什么的问题。另外,如果当用户与一个语音代理对话时另一个语音代理中断并停止对话,则存在用户使用感受受损的问题。
已经提出了比较其间的语音消息的重要性以避免说话重叠的语音代理(例如,参见专利文献1和2)。然而,如果由语音代理处理的任务是多样的并且存在许多类型的消息,则难以将重要性分配给每个消息,并且不能简单地在消息之间比较重要性。例如,假定语音代理处理诸如天气查看、新闻、用户日程确认和音乐播放等任务,则难以将重要性分配给每个任务。
此外,假定每个消息的重要性随时间变化。因此,需要关注以下:避免具有固定值的重要性的说话的重叠,在说话的时间点不能传递用户的真正需要的消息。例如,用户希望在即将出去之前被通知天气,但是希望在日程开始之前一小时被通知日程,使得消息的重要性不能被硬编码。
此外,在本申请之前提出的语音代理仅假定从语音代理到用户的语音通知,并且用户和语音代理之间的对话是未预期的。因此,存在尽管可以避免语音代理之间的说话重叠但不能避免与用户和语音代理之间的对话重叠的问题。如果当用户与一个语音代理对话时另一个语音代理中断并停止对话,则用户的使用感受受损。
因此,在本说明书中,将在下文中公开一种配备有说话功能的信息处理设备,其不仅能够避免与另一语音代理的说话重叠,而且能够避免与语音代理和用户之间的对话重叠。
A.系统配置
图1示意性地示出了根据本说明书中公开的技术的一个实施方式的语音代理100的功能配置。语音代理100的实体例如是配备有语音代理功能(或安装有语音代理程序)的信息装置、家用电器等。
配备有语音代理的信息装置的实例包括多功能信息终端,诸如智能电话和个人计算机(PC)。此外,存在各种配备有语音代理的家用电器,诸如电视、音频装置、冰箱、微波炉、洗衣机和空调器。
在下文中,除非另外指明,否则与语音代理100位于相同空间的另一语音代理具有类似的功能配置并且配备有类似的说话定时控制功能。
对话处理单元101是实现与用户或另一语音代理的自然对话的对话引擎。具体地,由麦克风103拾取的用户或另一语音代理的说话内容由语音识别单元104进行语音识别,并且对话处理单元101基于语音识别结果生成其自己的下一说话内容。然后,语音合成单元105根据由对话处理单元101生成的说话内容来合成语音信号,并且将所合成的语音信号以语音从扬声器106输出到用户或另一语音代理。
注意,语音识别单元104可以使包括在由麦克风103拾取的语音信号中的来自扬声器106的淡入(sneak)信号经受回声消除,但是将省略详细描述,因为这一点不与本说明书中公开的技术直接相关。
对话处理单元101可以利用数据库109以便实现与用户和另一语音代理的自然对话,该数据库109累积用户的个人信息和日程以及说话和与用户的对话所必需的各种信息。数据库109可以配备在激活语音代理100的装置中,或者可以构建在语音代理100可以访问的网络上。
对话处理单元101还可以利用例如具有人工智能(AI)功能的对话引擎。然而,本说明书中公开的技术不限于特定的对话处理,因此将省略详细描述。
通信单元107经由天线108向另一语音代理发送无线信号并从另一语音代理接收无线信号。然而,通信单元107可以用有线来代替无线与另一语音代理进行通信。即,语音代理之间的通信不限于通信介质或特定通信标准。
说话定时控制单元102自主地控制语音代理100自身的说话定时。在本实施方式中,说话定时控制单元102基于经由通信单元107或另一传输介质与另一语音代理交换的信息来控制语音代理100自身的说话定时,使得说话不与另一语音代理重叠。作为通信伙伴的另一语音代理也类似地控制说话定时。
注意,对话处理单元101和说话定时控制单元102的功能例如被实现为由控制单元110执行的软件程序,该控制单元110包括信息装置中的中央处理处理器(CPU等)。
在本实施方式中,说话定时控制单元102的主要特征是执行以下处理(1)至(3),以避免与另一语音代理的说话重叠以及用户与另一语音代理之间的对话中断。
(1)发送关于其自己的说话和对话的信息
(2)收集关于周围语音代理的说话和对话的信息
(3)基于所收集的信息来控制说话定时
(1)发送关于其自己的说话和对话的信息
说话定时控制单元102经由通信单元107向其他周围语音代理发送指示语音代理100自身正在说话或与用户对话的信息(在下文中,也称为“对话信息”)。说话定时控制单元102不仅判定语音代理100自身是否正在对话处理单元101中说话,而且判定语音代理100是否与用户对话,然后发送对话信息。优选地,通过使用不损害用户的使用感受的方法来发送信息。然而,稍后将描述发送对话信息的方法。
(2)收集关于周围语音代理的说话和对话的信息
此外,说话定时控制单元102接收并收集经由通信单元107从其他周围语音代理发送的对话信息。
(3)基于所收集的信息来控制说话定时
然后,基于从周围语音代理收集的对话信息,说话定时控制单元102控制语音代理100自身的说话定时,同时避免与另一语音代理的说话重叠以及用户与另一语音代理之间的对话中断。
说话定时控制单元102基本上较早地开始说话或者给予与用户较早地对话的语音代理优先权,从而避免语音代理之间的说话重叠以及与用户对话的中断。此外,在发生与另一语音代理的说话重叠以及用户与另一语音代理之间的对话中断的情况下,说话定时控制单元102指示对话处理单元101延迟或暂停语音代理100自身的说话以待命。
在执行等效说话定时控制的多个语音代理存在于相同空间中的情况下,每个语音代理发送对话信息以报告语音代理正在说话或与用户对话(即,不应当进行中断),同时语音代理自身正在说话和与用户对话。因此,语音代理可以通过在说话之前和期间收集从其他周围的语音代理发送的对话信息来自主地决定说话定时,同时避免语音代理之间的说话的重叠。此外,从每个语音代理发送的对话信息不仅指示语音代理正在说话,而且指示语音代理正在与用户对话。因此,可以防止用户和语音代理之间的对话中断。
此外,根据用于语音代理基于从其他周围的语音代理收集的对话信息自主地控制说话定时的方法,基本上,说话更早开始、或者与用户更早对话的语音代理的说话或对话具有优先权。因此,语音代理可适当地控制说话定时,而不需要利用不能单纯地比较的信息,诸如任务和消息的重要性。此外,因为存在于相同空间中的多个语音代理可以基于来自彼此的对话信息自主地控制说话定时,同时避免说话的重叠和对话的中断,所以确定(或统一管理)每个语音代理的说话顺序的装置是不必要的。
图2以流程图的形式示出了用于自主地控制语音代理100中的说话定时的处理过程。所示的处理过程基本上主要由说话定时控制单元102执行。
当在对话处理单元101中发生说话触发时,说话定时控制单元102基于从周围语音代理收集的对话信息来判断是否开始与用户对话或说话(步骤S201)。
说话触发是任意的。例如,对话处理单元101基于例如由数据库109管理的诸如警报或用户日程的时间信息使说话触发发生。此外,响应于用户已经经由麦克风103输入激活词,对话处理单元101使说话触发发生。另外,对话处理单元101可以基于经由通信单元107从外部输入的信息(例如,新闻、紧急信息等)来进行说话触发。此外,语音代理100可以包括各种传感器(图1中未示出),并且对话处理单元101可以基于由任何传感器检测到的传感器信息使说话触发发生。
然后,当基于从周围语音代理收集的对话信息发现在相同空间中的另一语音代理当前正在说话或者另一语音代理正在与用户对话时,说话定时控制单元102确定语音代理100自身没有开始说话(步骤S201中为否)。在这种情况下,说话定时控制单元102指示对话处理单元101延迟或暂停语音代理100自身的说话以待命(步骤S202),并将处理返回到步骤S201。
另一方面,当基于从周围语音代理收集的对话信息发现在相同空间中的另一语音代理当前未说话并且没有语音代理正在与用户对话时,说话定时控制单元102确定允许语音代理100自身开始说话(步骤S201中为是)。另外,在明确用户的对话伙伴已经通过来自用户的对话激活词的说话、配备有语音代理100的信息装置的预定用户接口(UI)操纵等而切换到语音代理100自身的情况下,即使在相同空间中的另一语音代理正在说话时,语音代理100也可以确定开始说话,中断另一语音代理的对话。此外,同样在发出诸如紧急地震信息的与用户的生命和资产相关的重要信息的情况下,语音代理100可以确定开始说话,中断另一语音代理的对话。
在语音代理100自身已判断开始说话的情况下(步骤S201中为是),说话定时控制单元102开始发送指示语音代理100自身正在说话或与用户对话的对话信息(步骤S203)。当语音代理100自身正在说话或与用户对话时,对话信息继续继续地或间歇地从通信单元107发送。
然后,说话定时控制单元102允许对话处理单元101说话,从而对话处理单元101开始说话或与用户对话(步骤S204)。注意,除了与用户的对话之外,语音代理100的说话还包括语音代理100的独白。
当被其他装置(存在于附近的其他语音代理等)中断时,或者在语音代理100的对话期间,即在对话处理单元101执行说话处理或与用户的对话处理期间,在语音代理100内发生对话中断时(步骤S205中为是),说话定时控制单元102指示对话处理单元101暂停说话或暂停与用户的对话,并且停止发送对话信息(步骤S206)。然后,语音代理100待命以用于说话,直到说话定时控制单元102接下来指示开始对话(步骤S202),并且处理返回到步骤S201。
注意,什么类型的事件对应于对话的中断是任意的。例如,在当前与语音代理100对话的用户对另一语音代理讲话时,语音代理100可以基于用户语音的识别结果和另一语音代理已经开始发送的对话信息来允许中断其自身的说话。通过基于用户的对话来允许中断说话,用户可以指定期望明确地切换对话伙伴的特定语音代理,并且提高了用户的使用感受。
此外,说话定时控制单元102检查是使得对话处理单元101结束语音代理100的说话还是结束与用户的对话(步骤S207)。
什么类型的事件对应于与用户的对话的结束是任意的。例如,在对话处理单元101仍然具有期望继续说话的信息的情况下,或者在根据对话的上下文预测来自用户的回答等的情况下,确定与用户的对话正在继续。在其他情况下,确定对话已经结束。此外,在即使在预定待命时间之后用户也不说话的情况下,对话处理单元101可以由于超时而强制终止与用户的对话。
当与用户的对话尚未结束时(步骤S207为否),处理返回到步骤S205以继续由对话处理单元101进行的说话或与用户的对话,并且说话定时控制单元102继续发送对话信息。
此外,当与用户的对话已经结束时(步骤S207中为是),说话定时控制单元102指示对话处理单元101结束说话或者与用户的对话,停止发送对话信息(步骤S208),并且结束处理。
通过在执行等效说话定时控制的多个语音代理存在的空间中执行图2所示的处理过程,语音代理100可以避免语音代理之间的说话的重叠,并且防止用户与另一语音代理之间的对话的中断。
在执行等效说话定时控制的多个语音代理存在的空间中,通过收集在语音代理100的说话之前和期间从周围语音代理发送的对话信息,语音代理100可以避免与另一语音代理的说话重叠以及用户与另一语音代理之间的对话中断。
语音代理100基于从周围语音代理收集的对话信息和语音代理100的说话或对话的当前状态来判定说话的开始或继续。然后,当说话的开始已经被延迟或者说话已经被暂停时,语音代理100待命以用于说话,直到判定下一说话是可能的。
此外,在执行等效说话定时控制的多个语音代理存在的空间中,当语音代理100开始说话或与用户的对话时,语音代理100发送对话信息以防止与周围语音代理的说话重叠。
基本上,较早开始说话的语音代理具有优先权。在从一个语音代理发送对话信息时,其他语音代理原则上处于说话待命中。结果,较早地开始说话的语音代理具有优先权,并且可以避免说话的重叠。
此外,语音代理100可以通过在说话期间或在与用户的对话期间继续发送对话信息来防止由于周围的语音代理引起的说话中断。
每次说话结束时,语音代理100判定与用户的对话是否结束。例如,在仍然希望继续说出信息的情况下,或者在根据对话的上下文等预测来自用户的回答的情况下,判定对话尚未结束。然后,在对话继续期间,即使当语音代理100自身没有说话时,语音代理100也继续发送对话信息,从而抑制由于周围的语音代理引起的对话中断,以确保对话可以继续的状态。
注意,图2所示的处理过程中的对话信息可以包括指示正在执行对话的标志,或者仅表示开/关信息的简单信息,以用于单纯地抑制其他周围语音代理的说话。然而,对话信息可以包括用于将语音代理自身的说话与用户的说话区分的信息等,并且稍后将描述这一点的细节。
B.发送和接收语音代理之间的对话信息
接下来,将描述用于在存在于相同空间中的语音代理之间发送和接收对话信息的机制。
在用户和一个语音代理之间的对话继续期间,在说话自然发生时,甚至在用户和语音代理的说话暂停时,该语音代理继续地发送对话信息。优选地,通过使用不损害用户的使用感受的方法来发送和接收对话信息。
期望语音代理可以同时发送对话信息和从另一语音代理接收对话信息。如果语音代理不能在接收对话信息的同时发送对话信息,则语音代理自身开始对话的机会减小。此外,如果语音代理不能在发送对话信息的同时接收对话信息,则即使当用户想要切换到另一语音代理进行对话时,语音代理也不会停止说话。因此,用户的使用感受被降低。注意,“同时”发送和接收对话信息也意味着发送它自己的对话信息是与从其他语音代理接收对话信息并行进行的,但不一定意味着全双工通信,并且包括在短时间间隔通过时间共享交替重复发送和接收。
此外,期望语音代理可以与说话和与用户的对话(即,合成语音的再现)同时并且并行地发送和接收对话信息。其原因是因为如果在说话或与用户的对话期间发送对话信息中止,则对话有可能被其他语音代理中断。另一个原因是,如果每次发送或接收对话信息时暂停(suspend,打断)说话,则用户的使用感受将受到极大损害。
B-1对话信息的发送和接收方法
接下来,将描述由语音代理发送和接收对话信息的方法。
语音代理可以例如通过利用无线通信来发送和接收对话信息。在这种情况下,说话定时控制单元102控制经由通信单元107和天线108发送和接收对话信息。然而,考虑到通过网络可能由于流量条件等的影响而发生响应延迟。因此,可以通过语音代理之间的直接通信来发送和接收对话信息。
或者,语音代理可通过将对话信息叠加在从扬声器106再现的合成语音上来发送对话信息。在这种情况下,语音代理可以从麦克风103拾取的语音信号中分离并接收对话信息。例如,通过将对话信息叠加在从扬声器106再现的合成语音的听不到的频带上,语音代理可以不断地发送对话信息,而即使在语音代理自身的说话期间也不会使用户听到令人不悦的声音。
如果语音代理在与用户的对话期间发送对话信息,使得对话信息彼此不重叠,则可以避免与另一语音代理的说话重叠以及用户与另一语音代理之间的对话中断。具体地,语音代理在语音代理自身说话时(在说话开始之前,在说话期间和在说话之后)以及在来自用户的说话待命时段期间继续发送对话信息,使得语音代理不被其他语音代理中断。
将另外描述后一对话信息的发送定时。在即使当在语音代理已经结束其自身的说话之后没有立即开始来自用户的说话时,预测到来自用户的回答作为对话处理的结果的情况下,语音代理判定对话继续,并且继续发送对话信息。然而,在即使在预定待命时间之后用户也不说话的情况下,由于超时,与用户的对话被强制终止,并且停止发送对话信息。
此外,语音代理在语音代理自身开始说话之前和在说话期间的定时执行从其他周围语音代理接收对话信息的处理,以避免用户和另一语音代理之间的对话中断。
然而,在清楚用户的对话伙伴已经通过来自用户的对话激活词的说话、在配备有语音代理的信息装置上执行预定的UI操纵等而被切换到语音代理自身的情况下,语音代理可以立即开始说话而无需在语音代理自身开始说话之前(或者甚至当已经接收到关于其他语音代理的对话信息时)从其他语音代理收集对话信息。此时,即使另一代理正在对话,也可以通过中断来开始说话。
语音代理发送的对话信息的格式是任意的。例如,对话信息可以包括各种详细信息,诸如指示当前正与用户执行的对话(或任务)的类型的标识符,发送源的语音代理的装置标识,以及用于识别作为对话伙伴的用户的用户信息。此外,对话信息可以包括用于将语音代理自身的说话与用户的说话区分开的信息。或者,对话信息可以仅是指示当前正在执行对话的标志。
当语音代理在其自身开始说话之前已经从其他语音代理接收到对话信息时,语音代理识别出另一语音代理已经与用户对话,并且延迟其自己的说话以待命,从而避免语音代理之间的说话重叠以及防止用户与另一语音代理之间的对话中断。
此外,在语音代理已经从其他语音代理接收到对话信息并且允许在语音代理自身说话或与用户进行对话时中断对话的情况下,语音代理暂停其自己的说话以等待,从而避免语音代理之间的说话的重叠。
当语音代理延迟或暂停其自己的说话时,有若干设置待命(stand by等待)时间的模式。在一种模式中,待命可以是每次随机设置的时间。如果待命时间被设置为固定值,则存在在已经待命的语音代理之间说话重复冲突的可能性。因此,可以通过随机设置待命时间来避免冲突。此外,在不同的模式中,语音代理可以在其自己的说话推迟而待命期间继续收集来自其他语音代理的对话信息,直到检测到另一语音代理的对话的结束。语音代理可以通过使用取决于语音代理自己的说话已经被延迟或暂停的情况等的适当的模式来设置待命时间。
此外,存在用于设置当语音代理暂停说话时恢复说话的时间点的若干模式。语音代理可以从暂停的时间点恢复说话,或者可以从一开始重新开始说话。可替换地,说话可以从说话一开始与暂停时间点之间的中间时间点重新恢复,而不返回到一开始。语音代理可以以取决于说话内容(或对话的上下文)等的适当的模式恢复说话。此外,语音代理可以以取决于说话被暂停的情况的适当的模式恢复说话。
B-2发送和接收对话信息的顺序实例(1)
图3示出其中存在于相同空间中的语音代理A和语音代理B控制说话定时的操作顺序的实例。然而,所示的操作顺序的实例不包括用户与语音代理A和语音代理B中的任何一个之间的对话。
当是用户已经设置警报的时间时,在语音代理A中发生说话开始触发。接下来,语音代理A试图从其他周围的语音代理收集对话信息,但是不会接收到关于另一语音代理的对话信息,并且确认另一语音代理未在说话。然后,语音代理A判定语音代理A自身可以说话,并开始说话。在所说明的实例中,语音代理A以“外出前30分钟!”的内容进行说话,然后,语音代理A在说话期间继续发送对话信息。
另一方面,例如,当语音代理B已经从外部接收到例如周末外出信息(关于用户)时,发生说话开始触发。接下来,语音代理B试图从其他周围语音代理收集对话信息,接收关于其他语音代理的对话信息,并确认语音代理A正在说话。然后,语音代理B判定语音代理B自身不能说话,并延迟说话。语音代理B待命例如随机时间。
此后,当说话结束时,语音代理A停止发送对话信息。另一方面,在经过了随机待命时间之后,语音代理B再次尝试从其他周围代理收集对话信息以开始说话。此时,关于语音代理A的对话信息停止发送。因此,语音代理B确认语音代理A没有在说话,然后语音代理B判定语音代理B自身可以说话,并且开始说话。在所示的示例中,语音代理B已经用“周末外出信息已经到达!”的内容进行了说话。此外,语音代理B开始说话以及开始发送对话信息。
在图3所示的操作顺序中,语音代理A和语音代理B可以说话,同时避免彼此的说话重叠。这样的操作顺序可以由语音代理A和语音代理B都根据图2所示的处理过程自主地控制说话定时来实现,并且用于判定每个语音代理的说话顺序的装置是不必要的。
B-3发送和接收对话信息的顺序实例(2)
图4示出其中存在于相同空间中的语音代理A和语音代理B控制说话定时的操作顺序的另一实例。然而,所说明的操作顺序的实例不包括用户与语音代理中的至少任一者之间的对话。
当语音代理A已经接收到来自外部用户的消息时,发生说话开始触发。接下来,语音代理A尝试从其他周围的语音代理收集对话信息。当语音代理A不会接收到关于另一语音代理的对话信息并且确认另一语音代理未说话时,语音代理A判定语音代理A可以说话,并且开始发送对话信息以及开始说话。在所说明的实例中,语音代理A已经用“消息已经到达,您想回答“您想让我买什么东西带回家吗?”的内容进行了说话。注意,在图4中省略了语音代理A中的说话开始触发的发生和对话信息的收集。然后,语音代理A自身的说话结束,除非根据对话等的上下文预测来自用户的回答。因此,语音代理A继续发送对话信息以等待来自用户的回答,以及防止来自其他语音代理的对话中断。
同时,当语音代理B已经接收到例如来自外部的最新新闻时,发生说话开始触发。接下来,语音代理B尝试从其他周围的语音代理收集对话信息。当语音代理B确认语音代理A正在与用户对话(等待用户的说话)时,语音代理B判定语音代理B自身不能说话,延迟说话,并且待命随机时间。
然后,在语音代理A继续发送对话信息并等待来自用户的回答的时间段期间,语音代理A接受来自用户的内容“发送出“购买调味品!””的说话。语音代理A正在对话并继续发送对话信息,使得说话不与其他语音代理重叠。因此,语音代理A可以直接发出“好!消息将被发送。”的内容,而不必接收对话信息(收集周围信息)。
同时,在待命随机时间之后,语音代理B再次尝试从其他周围代理收集对话信息以开始说话。在确认语音代理A正在说话之后,语音代理B判定语音代理B自身不能说话,再次延迟说话,并且待命随机时间。
在图4所示的操作顺序中,在语音代理A已经结束其自己的说话之后预期来自用户的回答的时间期间,语音代理A可以继续语音代理A自身与用户之间的对话,同时防止被语音代理B的对话中断。这样的操作顺序可以由语音代理A和语音代理B都根据图2所示的处理过程自主地控制说话定时来实现,并且用于判定每个语音代理的说话顺序的装置是不必要的。
B-4发送和接收对话信息的顺序实例(3)
图5示出存在于相同空间中的语音代理A和语音代理B控制说话定时的操作顺序的又另一实例。然而,操作顺序的所示实例不包括由于另一语音代理开始与用户对话而导致语音代理的说话的中断。
当是预设时间时,在语音代理A中发生说话开始触发以通知天气信息。接下来,语音代理A试图从其他周围的语音代理收集对话信息。当语音代理A确认另一语音代理未说话时,语音代理A判定语音代理A自身可说话,并开始发送对话信息以及开始说话。在所说明的实例中,语音代理A已经以“今日天气,东京天气晴朗...”的内容进行说话。
注意,在图5中省略了语音代理A中的说话开始触发的发生和对话信息的收集。
当语音代理A说话时,用户向另一个语音代理B讲话,“嗨,B!今天我的日程是什么?”当语音代理B感测到用户已经呼叫其自己的名称时,换言之,当用户已经说出对话激活词时,语音代理B使得说话触发发生。此外,由于清楚的是用户的对话伙伴已经切换到语音代理B,所以语音代理B跳过对话信息的接收(周围信息的收集),直接中断语音代理A的说话,并且开始说话以及开始发送对话信息。另一方面,当检测到被语音代理B的说话中断时,语音代理A暂停其自身的说话,停止发送对话信息,并且待命随机时间。
在图5所示的实例中,语音代理B已经以“美容院的安排在今天10点钟”的内容进行了说话。响应于此,用户已经以“好!谢谢!”的内容回答。因为根据对话等的上下文预测到不会再有来自用户的进一步回答,所以语音代理B确定与用户的对话已经结束,并且停止发送对话信息。
语音代理A在其说话被语音代理B暂停后待命随机时间,然后尝试从其他周围语音代理收集对话信息以恢复所暂停的说话。此时,关于语音代理B的对话信息停止发送。因此,语音代理A判定语音代理A自身可以说话,并且恢复暂停的说话以及开始发送对话信息。
有若干模式用于设置恢复语音代理A的说话的时间点。语音代理A可以从暂停的时间点恢复说话,或者可以从一开始重新开始说话。在图5所示的实例中,语音代理A使用从一开始重新开始说话的模式,并以“今日天气,东京天气晴朗,最高温度为20℃”的内容进行说话。
如在图5所示的操作顺序的实例中,每个语音代理在强调继续与用户对话的情况下控制说话定时,使得在多个语音代理存在于相同空间中的环境下改善用户的使用感受。
在图5所示的操作顺序中,语音代理A和语音代理B可以避免彼此之间的说话重叠,并且语音代理B可以根据用户的意图中断对话并说话。这样的操作顺序可以由语音代理A和语音代理B都根据图2所示的处理过程自主地控制说话定时来实现,并且用于判定每个语音代理的说话顺序的装置是不必要的。
从图5所示的操作顺序的实例可以看出,用户可以通过由激活词指定特定的语音代理,例如呼叫期望的语音代理,而明确地切换到成为对话伙伴的语音代理。即,在多个语音代理存在于相同空间中的环境中,每个语音代理在强调与用户对话的伙伴的情况下控制说话定时,使得允许基于用户对话中断说话。因此,提高了用户的使用感受。
在多个语音代理同时说话的情况下,与用户对话的语音代理的说话具有优先级。在图5所示的操作顺序的实例中,尽管语音代理A正在说话,但语音代理B立即响应于用户对其自己的激活词的说话而开始对话,并且语音代理A的说话被暂停。此外,尽管未示出,当用户接下来说出针对说话正被暂停的语音代理A的激活词时,语音代理A立即响应并开始对话(或者恢复已暂停的说话),并且语音代理B的说话被暂停。
此外,在多个语音代理在相同空间中试图以完全相同的定时开始说话的情况下,每个语音代理设置其自己的随机待命时间,使得说话不会重复地重叠。
例如,当语音代理A和语音代理B同时发送对话信息或开始说话时,对话信息彼此同时接收,并且发生说话的推迟或暂停。然后,语音代理A和语音代理B随机设置各自的待命时间。例如,语音代理A已经设置了5秒的待命时间,而语音代理B已经设置了3秒的待命时间。在这种情况下,语音代理B可以从待命状态更早地返回开始或恢复说话。此外,当语音代理A的待命时间已经结束时,语音代理B已经开始说话。通过接收来自语音代理B的对话信息,语音代理A再次设置待命随机时间。此后,语音代理B结束说话并停止发送对话信息。另外,当语音代理A从随机时间的待命状态返回时,语音代理A可以通过确认从语音代理B不发送对话信息来开始说话。
C.语音代理结束对话的判定
接下来,将描述由语音代理判定与用户对话结束的方法。
从图2的流程图形式所示的处理过程可以看出,当语音代理判定与用户的对话已经结束时,语音代理停止发送对话信息。结果,存在于相同空间中的另一语音代理可以开始说话或恢复暂停的说话。
为了保持用户的使用感受,准确地判定对话的结束对于语音代理而言是重要的。例如,如果与用户对话的一个语音代理判定即使与用户的对话已经结束但并没有结束对话,则语音代理继续无用地发送对话信息,并且存在于相同空间中的另一语音代理不可以开始说话。结果,用户暴露于没有语音代理说话的静默状态,并且在该时间期间不能从任何语音代理获得服务,从而降低了用户的使用感受。相反,如果对话中的语音代理判定对话结束而无需得到许可,即使用户仍然想要继续对话,用户想要继续的对话也会被暂停,并且使用的感觉受损。另外,用户可能会感到不便,因为说话是从另一个不期望的语音代理开始的。
语音代理可以基于诸如说话内容的信息来判定与用户的对话结束。例如,语音代理基于假设用户意图的结果来假设对话已经结束。具体地,当用户已经说出具有用于结束对话的内容(或表示对话结束的内容,例如“谢谢”,“好”,“我很好”或“就这样吧”)的词语时,语音代理可以判定对话的结束。
可替换地,语音代理自身可以发出具有用于结束对话的内容(或具有指示对话终止的内容)的词,以确定与用户的对话结束。例如,在提供用户请求的所有信息(例如告诉明天的天气)之后,或者在完成用户请求的所有任务(例如登记用户的日程)之后,语音代理可以判定对话的结束。
如上所述,根据基于说话内容判定对话结束的方法,语音代理可以实现更自然的(即,类似人的)对话。
此外,语音代理可以基于与用户的对话的时间或回合数来判定对话的结束。
例如,语音代理可以基于从与用户的对话开始所经过的时间来判定对话的结束。具体地,预先在语音代理中设置一个对话在3分钟内结束的规则。当从与用户的对话开始已经经过三分钟时,强制性地终止与用户的对话,并且判定对话的结束。
可替换地,语音代理可以基于在对话已经开始之后与用户的交换次数(回合数)来判定对话的结束。具体地,预先在语音代理中设置一个对话在三轮交换内结束的规则。当与用户对话开始后,交换达到三轮时,可以判定对话结束。
然而,即使语音代理与用户之间的对话已经达到预设对话时间或回合数上限,也不总是需要强制终止与用户的对话。即使在已经达到对话时间或回合数的上限之后,语音代理也可以继续其自身的说话直到另一语音说话,或者允许被另一语音代理中断对话。例如,在与用户的对话已经达到对话时间或回合数上限之后,语音代理可以停止发送对话信息并继续与用户的对话。
以这种方式基于与用户的对话的时间或回合数来判定对话结束的方法是简单的规则,并且可以在语音代理中容易地实现。另外,由于用户和特定语音代理之间的对话没有无限地继续,因此对于存在于相同空间中的多个语音代理中的每一个而言,获得说话机会变得容易,并且对于用户而言,从多个语音代理获得各种服务变得容易。
D.语音代理之间的信息交换
在本实施方式中,语音代理在说话期间或在与用户的对话期间发送对话信息,并且当在说话开始之前或说话期间接收到来自另一语音代理的对话信息时,延迟或暂停语音代理自身的说话。因此,避免了说话的重叠,并且防止了对话的中断。因此,为了用户毫无困难地与特定语音代理对话,在语音代理之间交换包括对话信息的信息是重要的。
D-1语音代理之间的信息交换方法
首先,将描述在语音代理之间交换信息的方法。
例如,可以通过利用网络在语音代理之间交换信息。举例来说,语音代理中的每一者可连接到有线局域网(LAN)或利用无线通信,例如Wi-Fi(注册商标)。使用网络的信息通信是非常通用的。此外,访问诸如因特网的广域网使得能够从不同空间进行连接。然而,通过网络可能由于流量条件等的影响而发生响应延迟是需要关注的。
可替换地,语音代理可以采用通过将对话信息叠加在从扬声器106再现的合成语音上来发送对话信息的方法。在这种情况下,语音代理可以从麦克风103拾取的语音信号中分离并接收对话信息。在这种情况下,由于可以与语音代理的说话同时交换信息,因此不会出现响应延迟的问题。此外,通过改变再现声音的频率和信号的模式,还可以表达复杂的信息。
例如,从扬声器106再现携带对话信息的超声波。此外,超声波可以叠加在合成的声音上并从扬声器106再现。通过使用诸如超声波的听不见的频带,语音代理可以继续地发送对话信息,而即使在语音代理自身的说话期间也不会使用户听到令人不悦的声音。
使用诸如超声波的听不见频带中的语音信号的信息交换方法可以通过使用配备有语音代理的信息装置和家用电器的基本部件(诸如扬声器和麦克风)来实现。此外,由于通信范围被限制在可以传送语音信号的范围内,所以仅存在于相同空间中的语音代理可以是控制目标。此外,语音代理可以发送由要说出的语音所携带的信息,并且其他语音代理可以将该信息与合成语音的再现声音一起接收。因此,可以防止响应延迟。
此外,可以利用可见光通信或以诸如红外光等不可见光为媒介的通信来进行语音代理之间的信息交换。为了利用这种通信方法,配备有语音代理的信息装置或家用电器需要进一步配备有光发射单元和光接收单元。通过改变光发射的频率和信号的模式,也可以表达复杂的信息。此外,只有光信号可以直接传递到的空间中的语音代理可以是控制目标。此外,由于通信方法不通过网络,因此可以防止响应延迟。
D-2在语音代理之间交换的信息的内容
将更详细地描述存在于相同空间中的语音代理之间交换的信息的内容。
语音代理向存在于相同空间中的其他语音代理发送对话信息并从存在于相同空间中的其他语音代理接收对话信息,并控制各自的说话定时。因此,应当包括控制说话定时所必需的信息,并且在对话信息中还应当包括对控制说话定时有用的信息。
对于说话定时控制必要的对话信息包括对话期间关于语音代理自身的说话的信息和关于用户的说话的信息。然而,在本说明书中,“对话”被定义为语音代理或用户中的任何一个开始讲话,而另一个响应或预期对其进行响应。根据此定义,即使语音代理的独白是“说话”,也不认为该说话是“对话”。此外,对于语音代理的“说话”,语音代理在语音代理的说话回合中与合成的语音再现的短语被定义为一个说话。
为了避免另一语音代理的说话与语音代理自身的说话的重叠以及防止语音代理自身与用户之间的对话由于另一语音的说话而中断,语音代理不仅在语音代理自身的说话回合期间,而且在预测到来自用户的回答的时段期间,继续发送包括上述两条信息中的至少一条的对话信息。
此外,可用于说话定时控制的对话信息包括说话等待信息、累积对话时间信息、关于语音代理自身的代理详细信息等。在此提及的说话等待信息是指示语音代理的说话已被推迟或暂停的信息,并且可以另外包括自推迟或暂停以来经过的时间。此外,累积对话时间信息是关于与用户对话的语音代理的累积时间的信息,并且也是指示用户使用语音代理的频率的信息。代理详细信息包括:能够标识个体的标识信息,诸如语音代理的名称和ID,以及表示语音代理的特性、角色等的属性信息。
在接收侧语音代理中利用说话等待信息、累积对话时间信息、代理详细信息等进行说话定时控制的方式是任意的。此外,应当根据分配给对话信息的传输的带宽来确定对话信息的大小(即,当前,应当包括什么信息)。可以根据流量状况动态地改变包括在对话信息中的信息。
D-3对话信息的发送过程
语音代理发送对话信息以避免在说话期间和与用户的对话期间与另一语音代理的说话重叠并防止对话中断。例如,在与用户对话期间,语音代理可以对关于语音代理自身的说话的信息和关于在对话期间用户的说话的信息进行分类,并且发送和接收该信息。
图6以流程图的形式示出了用于在语音代理与用户对话时发送和接收对话信息的处理过程。这里提到的语音代理基本上对应于具有图1所示配置的语音代理100。另外,在语音代理100与用户对话的同时,所说明的处理过程主要由说话定时控制单元102执行。还假定发送和接收对话信息的其他语音代理具有类似的说话定时控制功能。
说话定时控制单元102与对话处理单元101检查说话回合是否是针对语音代理100自身的(步骤S601)。
在不是语音代理100自身的说话回合的情况下(步骤S601中为否),说话定时控制单元102通过延迟或暂停语音代理100自身的说话来指示对话处理单元101待命以用于来自用户的说话(步骤S602)。
可替代地,在是语音代理100自身的说话回合的情况下(步骤S601中为是),说话定时控制单元102执行代理说话回合处理(步骤S603)。稍后将描述代理说话回合处理的细节。
然后,当代理说话回合处理结束时,说话定时控制单元102检查是否使对话处理单元101结束与用户的对话(步骤S604)。
什么类型的事件对应于与用户的对话的结束是任意的。例如,在对话处理单元101仍然具有期望继续说话的信息的情况下,或者在根据对话的上下文来预测来自用户的回答等的情况下,确定与用户的对话正在继续。在其他情况下,可以确定对话已经结束。此外,在即使在预定待命时间之后用户也不说话的情况下,对话处理单元101可以由于超时而强制终止与用户的对话并结束对话。
当与用户的对话尚未结束时(步骤S604中为否),说话定时控制单元102发送指示与用户的对话正在继续的对话信息(步骤S605),然后将处理返回到步骤S601以等待语音代理100自身的说话回合。
另一方面,当与用户的对话结束时(步骤S604中为是),说话定时控制单元102进一步检查当前是否正在发送对话信息(步骤S606)。当正在发送对话信息时,说话定时控制单元102指示停止发送对话信息(步骤S607),并且结束处理。或者,当没有发送对话信息时,说话定时控制单元102直接结束处理。
图7以流程图的形式示出了在图6所示的流程图中的步骤S603中由语音代理100执行的代理说话回合处理的详细处理过程。当语音代理100与用户对话时,主要由说话定时控制单元102执行所示的处理过程。
首先,说话定时控制单元102确认什么是在对话处理单元101中开始代理的说话回合的触发器。具体地,说话定时控制单元102确认用户说出的激活词是否已被接受或与用户进行对话(步骤S701)。
在此,在对话处理单元101不接受来自用户的激活词并且不与用户对话的情况下(步骤S701中为否),说话定时控制单元102从其他周围的语音代理收集对话信息(步骤S702),以检查语音代理100自身是否可以开始或继续说话(步骤S703)。
当基于从其他周围语音代理收集的对话信息判定语音代理100自身不可以开始说话或者由于来自其他语音代理等的中断而与用户的对话不可以继续时(步骤S703中否),说话定时控制单元102进一步检查语音代理100自身当前是否正在说话(步骤S704)。
然后,在语音代理100自身当前正在说话的情况下(步骤S704中为是),说话定时控制单元102指示对话处理单元101暂停说话,以及停止发送指示语音代理100正在说话的对话信息(步骤S705),以待命直到可以恢复说话或与用户进行对话为止(步骤S706)。
可替换地,在语音代理100自身当前没有说话的情况下(步骤S704中为否),说话定时控制单元102直接转换到待命状态(步骤S706)。
另一方面,在对话处理单元101已经接受来自用户的激活词或者正在与用户对话的情况下(步骤S701中为是),说话定时控制单元102指示对话处理单元101开始或继续说话,以及发送指示语音代理100自身正在说话的对话信息(步骤S707)。
此外,尽管对话处理单元101未接受到来自用户的激活词且未与用户对话(步骤S701中为否),但根据周围信息判定语音代理100可以开始或继续说话的情况下(步骤S703中为是),说话定时控制单元102指示对话处理单元101开始或继续说话,以及发送指示语音代理100自身正在说话的对话信息(步骤S707)。
然后,直到语音代理100自身的说话结束(在步骤S708中为否),说话定时控制单元102从其他周围的语音代理收集对话信息(步骤S702),检查语音代理100自身是否可以开始或继续说话(步骤S703),并且重复执行与上述类似的处理以继续说话。
此后,当语音代理100自身的说话结束时(步骤S708中为是),说话定时控制单元102指示对话处理单元101结束说话,停止发送对话信息(步骤S709),并且结束处理。
如上所述,应用本说明书中公开的技术的语音代理基本上基于先到先服务开始说话,而不管任务、消息等的重要性。说话并与用户对话的语音代理继续发送对话信息,且其他周围的语音代理在接收到对话信息时延迟或暂停说话以不中断。
然而,当语音代理已经被明确地指定为对话伙伴时,例如当用户已经输入了对话激活词或者当已经对配备有语音代理的信息设备执行了预定UI操纵时,语音代理具有开始讲话的优先权,即使在等待讲话期间也中断另一语音代理的对话。因此,用户在与一个语音代理对话期间不会被另一个语音代理中断。因此,不会损害使用感受,并且可以根据用户的意图随时切换到与另一语音代理的对话。
工业实用性
以上已经参考具体实施方式详细描述了本说明书中公开的技术。然而,在不脱离本说明书中公开的技术的要旨的情况下,本领域的技术人员可以在范围内对实施方式进行修改和替换是显而易见的。
本说明书公开的技术可应用于普通家庭和办公室使用的信息装置和家用电器,用户在室外使用的便携式信息终端等,ATM等银行终端,公共场所安装的街道终端,车站的售票机,复印机和多功能机器,以及诸如汽车导航系统的车载装置,可以适当地避免存在于相同空间中的语音代理之间的说话重叠以及与用户和语音代理之间的对话重叠。
总之,已经以实例的形式描述了本说明书中公开的技术,并且不应当严格地解释本说明书中的描述内容。为了确定本说明书中公开的技术的要旨,应当考虑权利要求的范围。
注意,本说明书中公开的技术还可以采用以下配置。
(1)一种信息处理设备,包括:
发送单元,其发送关于语音代理的对话信息;
接收单元,其接收关于另一语音代理的对话信息;以及
控制单元,其基于由所述接收单元接收的关于所述另一语音代理的所述对话信息来控制所述语音代理的说话定时。
(2)根据(1)所述的信息处理设备,其中,
所述控制单元还进行控制在所述语音代理开始说话之前接收关于所述另一语音代理的对话信息。
(3)根据(1)或(2)所述的信息处理设备,其中,
所述控制单元基于从所述另一语音代理接收的所述对话信息使所述语音代理的说话待命。
(4)根据(1)至(3)中任一项所述的信息处理设备,其中,
所述控制单元还控制从所述发送单元发送所述对话信息。
(5)根据(1)至(4)中任一项所述的信息处理设备,其中,
所述控制单元使所述对话信息在所述语音代理的说话期间以及在所述语音代理与用户之间的对话期间被继续地发送。
(5-1)根据(4)所述的信息处理设备,其中,
所述控制单元使所述对话信息在所述语音代理与用户之间的对话期间处于所述语音代理的说话回合时被发送。
(6)根据(1)至(5)中任一项所述的信息处理设备,其中,
所述控制单元判定所述语音代理与所述用户的对话是否结束,并在所诉控制单元判定所述对话未结束时使所述对话信息被继续地发送。
(7)根据(6)所述的信息处理设备,其中,
所述控制单元在每次所述语音代理说话结束时判定所述语音代理与所述用户之间的对话是否已经结束。
(7-1)根据(6)所述的信息处理设备,其中,
所述控制单元基于与所述用户对话的时间或回合数判定与所述用户对话的结束。
(8)根据(1)至(7)中任一项所述的信息处理设备,其中,
与接收关于所述另一语音代理的所述对话信息并行地执行所述对话信息的发送。
(9)根据(1)至(8)中任一项所述的信息处理设备,其中,
所述对话信息的发送与所述语音代理的说话并行进行。
(10)根据(1)至(9)中任一项所述的信息处理设备,其中,
所述控制单元响应于所述用户已经将预定词输入到所述语音代理而控制所述语音代理的说话定时。
(11)根据(10)所述的信息处理设备,其中,
所述控制单元使所述语音代理的说话在所述用户已经将预定词输入到所述语音代理时开始,而不管是否已经从所述另一语音代理接收到对话信息。
(12)根据(1)至(11)中任一项所述的信息处理设备,其中,
所述控制单元响应于已经从所述另一语音代理接收到所述对话信息而使所述语音代理的说话暂停以待命。
(13)根据(1)至(12)中任一项所述的信息处理设备,其中,
所述控制单元随机设置待命时间,直到所述语音代理开始或恢复说话。
(14)根据(1)至(13)中任一项所述的信息处理设备,其中,
所述控制单元使所述语音代理的说话待命,直到不再从所述另一语音代理接收到所述对话信息。
(15)根据(1)至(14)中任一项所述的信息处理设备,其中,
所述控制单元还控制所述语音代理的暂停说话被恢复的位置。
(16)根据(1)至(15)中任一项所述的信息处理设备,其中,
所述对话信息包括关于所述语音代理的说话的信息或关于所述语音代理与所述用户之间的对话的信息中的至少一者。
(17)根据(1)至(16)中任一项所述的信息处理设备,其中,
所述对话信息包括说话等待信息、累积对话时间信息或与所述语音代理自身有关的代理详细信息中的至少一者。
(17)根据(1)至(17)中任一项所述的信息处理设备,其中,
以网络、叠加在语音代理的合成语音上的语音信号或光信号中的任一种为介质发送和接收对话信息。
(19)根据(1)至(18)中任一项所述的信息处理设备,还包括
所述语音代理。
(20)一种信息处理方法,其包括:
接收步骤,其接收关于另一语音代理的对话信息;
确定步骤,其基于从所述另一语音代理接收的所述对话信息来确定所述语音代理的说话定时;以及
发送步骤,其在所述语音代理说话或与用户对话的同时发送对话信息。
参考符号列表
100 语音代理
101 对话处理单元
102 说话定时控制单元
103 麦克风
104 语音识别单元
105 语音合成单元
106 扬声器
107 通信单元
108 天线
109 数据库
110 控制单元
Claims (20)
1.一种信息处理设备,包含:
发送单元,发送关于语音代理的对话信息;
接收单元,接收关于另一语音代理的对话信息;以及
控制单元,基于由所述接收单元接收的关于所述另一语音代理的对话信息来控制所述语音代理的说话定时。
2.根据权利要求1所述的信息处理设备,其中,
所述控制单元还进行控制以在所述语音代理开始说话之前接收关于所述另一语音代理的对话信息。
3.根据权利要求1所述的信息处理设备,其中,
所述控制单元基于从所述另一语音代理接收的对话信息使所述语音代理的说话待命。
4.根据权利要求1所述的信息处理设备,其中,
所述控制单元还控制从所述发送单元对对话信息的发送。
5.根据权利要求1所述的信息处理设备,其中,
在由所述语音代理说话期间以及在所述语音代理与用户之间的对话期间,所述控制单元使对话信息被继续地发送。
6.根据权利要求1所述的信息处理设备,其中,
所述控制单元判定所述语音代理与用户之间的对话是否结束,并在所述控制单元判定对话未结束时,使对话信息被继续地发送。
7.根据权利要求6所述的信息处理设备,其中,
所述控制单元在每次所述语音代理的说话结束时判定所述语音代理与所述用户之间的对话是否已经结束。
8.根据权利要求1所述的信息处理设备,其中,
与接收关于所述另一语音代理的对话信息并行地执行对话信息的发送。
9.根据权利要求1所述的信息处理设备,其中,
对话信息的发送与所述语音代理的说话并行进行。
10.根据权利要求1所述的信息处理设备,其中,
所述控制单元响应于用户已经将预定词输入到所述语音代理而控制所述语音代理的所述说话定时。
11.根据权利要求10所述的信息处理设备,其中,
所述控制单元在所述用户已经将所述预定词输入到所述语音代理时使所述语音代理开始说话,而不管是否已经从所述另一语音代理接收到对话信息。
12.根据权利要求1所述的信息处理设备,其中,
所述控制单元响应于已经从所述另一语音代理接收到对话信息而使所述语音代理的说话中断以待命。
13.根据权利要求1所述的信息处理设备,其中,
所述控制单元随机设置待命时间,直到所述语音代理开始或恢复说话。
14.根据权利要求1所述的信息处理设备,其中,
所述控制单元使所述语音代理的说话待命,直到不再从所述另一语音代理接收到对话信息。
15.根据权利要求1所述的信息处理设备,其中,
所述控制单元还控制所述语音代理的暂停的说话被恢复的位置。
16.根据权利要求1所述的信息处理设备,其中,
所述对话信息包括关于所述语音代理的说话的信息以及关于所述语音代理与用户之间的对话的信息中的至少一者。
17.根据权利要求1所述的信息处理设备,其中,
所述对话信息包括说话等待信息、累积对话时间信息以及与所述语音代理自身有关的代理详细信息中的至少一者。
18.根据权利要求1所述的信息处理设备,其中,
通过网络、叠加在所述语音代理的合成语音上的语音信号以及光信号中的任一种作为介质发送和接收对话信息。
19.根据权利要求1所述的信息处理设备,进一步包括
所述语音代理。
20.一种信息处理方法,包含:
接收步骤,接收关于另一语音代理的对话信息;
确定步骤,基于从所述另一语音代理接收的对话信息来确定语音代理的说话定时;以及
发送步骤,在所述语音代理说话或与用户对话的同时发送对话信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017209844 | 2017-10-30 | ||
JP2017-209844 | 2017-10-30 | ||
PCT/JP2018/031657 WO2019087546A1 (ja) | 2017-10-30 | 2018-08-28 | 情報処理装置及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111263962A true CN111263962A (zh) | 2020-06-09 |
CN111263962B CN111263962B (zh) | 2023-08-15 |
Family
ID=66332516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880068842.7A Active CN111263962B (zh) | 2017-10-30 | 2018-08-28 | 信息处理设备和信息处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11514905B2 (zh) |
CN (1) | CN111263962B (zh) |
WO (1) | WO2019087546A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111263962B (zh) * | 2017-10-30 | 2023-08-15 | 索尼公司 | 信息处理设备和信息处理方法 |
CN111312239B (zh) * | 2020-01-20 | 2023-09-26 | 北京小米松果电子有限公司 | 响应方法、装置、电子设备及存储介质 |
JP2021117301A (ja) * | 2020-01-23 | 2021-08-10 | トヨタ自動車株式会社 | エージェントシステム、端末装置およびエージェントプログラム |
JP7380415B2 (ja) | 2020-05-18 | 2023-11-15 | トヨタ自動車株式会社 | エージェント制御装置 |
JP7380416B2 (ja) * | 2020-05-18 | 2023-11-15 | トヨタ自動車株式会社 | エージェント制御装置 |
JPWO2022180882A1 (zh) * | 2021-02-25 | 2022-09-01 | ||
US20230032760A1 (en) * | 2021-08-02 | 2023-02-02 | Bear Robotics, Inc. | Method, system, and non-transitory computer-readable recording medium for controlling a serving robot |
US20230178075A1 (en) * | 2021-12-02 | 2023-06-08 | Lenovo (Singapore) Pte. Ltd | Methods and devices for preventing a sound activated response |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008026621A (ja) * | 2006-07-21 | 2008-02-07 | Fujitsu Ltd | 音声対話機能を有する情報処理装置 |
JP2009065562A (ja) * | 2007-09-07 | 2009-03-26 | Konica Minolta Business Technologies Inc | 音出力装置およびこれを含む画像形成装置 |
JP2009265278A (ja) * | 2008-04-23 | 2009-11-12 | Konica Minolta Business Technologies Inc | 音声出力管理システムおよび音声出力装置 |
JP2016224393A (ja) * | 2015-05-27 | 2016-12-28 | シャープ株式会社 | 発話制御装置、及び電子機器 |
CN106601248A (zh) * | 2017-01-20 | 2017-04-26 | 浙江小尤鱼智能技术有限公司 | 一种基于分布式语音控制的智能家居系统 |
CN107223280A (zh) * | 2017-03-03 | 2017-09-29 | 深圳前海达闼云端智能科技有限公司 | 机器人唤醒方法、装置和机器人 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007114537A (ja) | 2005-10-21 | 2007-05-10 | Victor Co Of Japan Ltd | 音声案内出力装置 |
US8639266B2 (en) * | 2012-04-18 | 2014-01-28 | Google Inc. | Using peer devices to locate a mobile device |
US9576574B2 (en) * | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9172747B2 (en) * | 2013-02-25 | 2015-10-27 | Artificial Solutions Iberia SL | System and methods for virtual assistant networks |
KR102057795B1 (ko) * | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
US9875494B2 (en) * | 2013-04-16 | 2018-01-23 | Sri International | Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant |
US9812128B2 (en) * | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9723085B1 (en) * | 2014-10-31 | 2017-08-01 | Google, Inc. | Transferring a state of user interaction with an online content item to a computer program |
US9812126B2 (en) * | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
KR102346630B1 (ko) * | 2015-02-17 | 2022-01-03 | 삼성전자주식회사 | 복수의 사용자의 활동에 기초하여 콘텐트를 추천하는 방법 및 이를 위한 장치 |
US9721566B2 (en) * | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
WO2017200078A1 (ja) * | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
JP6402748B2 (ja) * | 2016-07-19 | 2018-10-10 | トヨタ自動車株式会社 | 音声対話装置および発話制御方法 |
US10326881B2 (en) * | 2016-09-28 | 2019-06-18 | ZOOM International a.s. | Automated scheduling of contact center agents using real-time analytics |
JP6497372B2 (ja) * | 2016-09-29 | 2019-04-10 | トヨタ自動車株式会社 | 音声対話装置および音声対話方法 |
JP6654128B2 (ja) * | 2016-11-15 | 2020-02-26 | Dmg森精機株式会社 | 工作機械の管理システム |
US10679608B2 (en) * | 2016-12-30 | 2020-06-09 | Google Llc | Conversation-aware proactive notifications for a voice interface device |
JP6842095B2 (ja) * | 2017-03-10 | 2021-03-17 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
US11151997B2 (en) * | 2017-03-10 | 2021-10-19 | Nippon Telegraph And Telephone Corporation | Dialog system, dialog method, dialog apparatus and program |
US20180293273A1 (en) * | 2017-04-07 | 2018-10-11 | Lenovo (Singapore) Pte. Ltd. | Interactive session |
DK179549B1 (en) * | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN111263962B (zh) * | 2017-10-30 | 2023-08-15 | 索尼公司 | 信息处理设备和信息处理方法 |
-
2018
- 2018-08-28 CN CN201880068842.7A patent/CN111263962B/zh active Active
- 2018-08-28 WO PCT/JP2018/031657 patent/WO2019087546A1/ja active Application Filing
- 2018-08-28 US US16/758,034 patent/US11514905B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008026621A (ja) * | 2006-07-21 | 2008-02-07 | Fujitsu Ltd | 音声対話機能を有する情報処理装置 |
JP2009065562A (ja) * | 2007-09-07 | 2009-03-26 | Konica Minolta Business Technologies Inc | 音出力装置およびこれを含む画像形成装置 |
JP2009265278A (ja) * | 2008-04-23 | 2009-11-12 | Konica Minolta Business Technologies Inc | 音声出力管理システムおよび音声出力装置 |
JP2016224393A (ja) * | 2015-05-27 | 2016-12-28 | シャープ株式会社 | 発話制御装置、及び電子機器 |
CN106601248A (zh) * | 2017-01-20 | 2017-04-26 | 浙江小尤鱼智能技术有限公司 | 一种基于分布式语音控制的智能家居系统 |
CN107223280A (zh) * | 2017-03-03 | 2017-09-29 | 深圳前海达闼云端智能科技有限公司 | 机器人唤醒方法、装置和机器人 |
Also Published As
Publication number | Publication date |
---|---|
WO2019087546A1 (ja) | 2019-05-09 |
US11514905B2 (en) | 2022-11-29 |
US20200320994A1 (en) | 2020-10-08 |
CN111263962B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111263962B (zh) | 信息处理设备和信息处理方法 | |
US10609199B1 (en) | Providing hands-free service to multiple devices | |
EP3084633B1 (en) | Attribute-based audio channel arbitration | |
CN107004411B (zh) | 话音应用架构 | |
KR101786533B1 (ko) | 멀티 레벨 음성 인식 | |
TWI489372B (zh) | 語音操控方法與行動終端裝置 | |
JP5433782B2 (ja) | 車両内において電子カレンダー・アプリケーションのハンズフリー操作を実行するシステム及び方法 | |
US11032675B2 (en) | Electronic accessory incorporating dynamic user-controlled audio muting capabilities, related methods and communications terminal | |
KR20190075800A (ko) | 지능형 개인 보조 인터페이스 시스템 | |
TWI535258B (zh) | 語音接聽方法與行動終端裝置 | |
EP3047481A1 (en) | Local and remote speech processing | |
JP6619488B2 (ja) | 人工知能機器における連続会話機能 | |
CN111107156A (zh) | 用于主动发起对话的服务端处理方法及服务器、能够主动发起对话的语音交互系统 | |
JP2017138536A (ja) | 音声処理装置 | |
US11056106B2 (en) | Voice interaction system and information processing apparatus | |
CN108806675B (zh) | 语音输入输出装置、无线连接方法、语音对话系统 | |
CN112399638B (zh) | 一种通信连接建立方法、存储介质及设备 | |
CN110351690B (zh) | 一种智能语音系统及其语音处理方法 | |
JP5973030B2 (ja) | 音声認識システム、および音声処理装置 | |
KR102142338B1 (ko) | 인공지능 통신 장치 및 그 동작 방법 | |
US11785137B2 (en) | Voice communication system and method for providing call sessions between personal communication devices of caller users and recipient users | |
JP2006186893A (ja) | 音声対話制御装置 | |
JP7346965B2 (ja) | 無線機、無線通信システム及び無線通信方法 | |
JP7363150B2 (ja) | 無線機、無線通信システム及び無線通信方法 | |
WO2021025074A1 (ja) | グループ通話システム、グループ通話方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |