CN105144285A - 声音对话方法及设备 - Google Patents

声音对话方法及设备 Download PDF

Info

Publication number
CN105144285A
CN105144285A CN201480021678.6A CN201480021678A CN105144285A CN 105144285 A CN105144285 A CN 105144285A CN 201480021678 A CN201480021678 A CN 201480021678A CN 105144285 A CN105144285 A CN 105144285A
Authority
CN
China
Prior art keywords
sound
session proxy
tut
equipment
speech input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480021678.6A
Other languages
English (en)
Other versions
CN105144285B (zh
Inventor
天野博史
小塚雅之
大森基司
广濑宜子
中野稔久
山口高弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to CN201810908919.9A priority Critical patent/CN108806690B/zh
Publication of CN105144285A publication Critical patent/CN105144285A/zh
Application granted granted Critical
Publication of CN105144285B publication Critical patent/CN105144285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种声音对话方法,由具备声音信号生成部、声音对话代理部、声音输出部和声音输入控制部的声音对话系统进行,声音信号生成部受理声音输入,生成基于所受理的声音输入的声音信号;声音对话代理部对由声音信号生成部生成的声音信号进行声音识别处理,进行基于该声音识别处理的结果的处理,生成有关该处理的应答信号;声音输出部输出基于由声音对话代理部生成的应答信号的声音;在由声音输出部输出声音的情况下,声音输入控制部从该输出起规定期间中,使声音信号生成部成为能够进行声音输入的受理的可受理状态。

Description

声音对话方法及设备
技术领域
本发明涉及基于以对话形式输入的声音进行处理的声音对话方法。
背景技术
以往,已知有具备声音输入接口、基于从用户以对话形式输入的声音进行处理的声音对话系统。
例如,在专利文献1中,记载有具备麦克风、对从麦克风输入的声音进行声音识别处理并进行基于该声音识别处理的结果的处理的耳机。
此外,在专利文献2中,记载有具有基于从用户以对话形式输入的声音进行处理的代理(agent)的声音对话系统。
现有技术文献
专利文献
专利文献1:特开2004-233794号公报
专利文献2:特开2008-90545号公报
发明内容
发明要解决的问题
专利文献1所记载的耳机在开始声音输入时和结束声音输入时,需要进行设置在耳机上的声音识别控制按钮的按下操作。因此,在将该耳机作为基于以对话形式输入的声音进行处理的声音对话系统的输入机构来使用的情况下,使用该耳机的用户每当到来声音输入的阶段时,需要对声音识别控制按钮进行按下操作而开始声音输入、并对声音识别控制按钮进行按下操作而结束声音输入。
因此,该用户对于需要每当声音输入的开始时和结束时进行的声音识别控制按钮的按下操作有感到麻烦的情况。
所以,本发明是鉴于这样的问题而做出的,目的是提供一种在声音对话系统中、能够比以往减少伴随着对话形式的声音输入而用户需要进行的操作的次数的声音对话方法。
用于解决问题的手段
为了解决上述课题,有关本发明的声音对话方法,由具备声音信号生成部、声音对话代理部、声音输出部和声音输入控制部的声音对话系统进行,其特征在于,上述声音信号生成部受理声音输入,生成基于所受理的声音输入的声音信号;上述声音对话代理部对由上述声音信号生成部生成的声音信号进行声音识别处理,进行基于该声音识别处理的结果的处理,生成有关该处理的应答信号;上述声音输出部输出基于由上述声音对话代理部生成的应答信号的声音;在由上述声音输出部输出上述声音的情况下,上述声音输入控制部从该输出起规定期间中,使上述声音信号生成部成为能够进行上述声音输入的受理的可受理状态。
发明效果
根据上述声音对话方法,当输出了由声音对话代理部生成的声音时,用户即使不对声音对话系统进行操作,也能够进行声音输入。由此,随着对话形式的声音输入而用户需要进行的操作的次数比以往减少。
附图说明
图1是表示声音对话系统100的结构的系统结构图。
图2是表示设备140的功能结构的框图。
图3是由控制部210管理的状态的状态转移图。
图4是表示声音对话代理400的功能结构的框图。
图5是对话DB500的数据结构图。
图6是第1设备处理的流程图。
图7是第1声音输入处理的流程图。
图8是第1代理处理的流程图。
图9是第1命令执行处理的流程图。
图10是具体例的处理次序图。
图11中(a)是示意地表示设备140的显示内容的图之1,(b)是示意地表示设备140的显示内容的图之2,(c)是示意地表示设备140的显示内容的图之3,(d)是示意地表示设备140的显示内容的图之4。
图12是示意地表示设备140的显示内容的图之5。
图13是表示设备1300的功能结构的框图。
图14是由控制部1310管理的状态的状态转移图。
图15是第2设备处理的流程图。
图16是示意地表示进行与声音对话代理的对话的情形的处理次序图。
图17是表示设备1700的功能结构的框图。
图18是由控制部1710管理的状态的状态转移图。
图19是第3设备处理的流程图。
图20是第2声音输入处理的流程图。
图21是示意地表示进行与声音对话代理的对话的情形的处理次序图。
图22是表示声音对话代理2200的功能结构的框图。
图23是对象代理DB2300的数据结构图。
图24是第2代理处理的流程图。
图25是第2命令执行处理的流程图。
图26是第1连接应答处理的流程图。
图27是切断应答处理的流程图。
图28是第3代理处理的流程图。
图29是示意地表示进行与声音对话代理的对话的情形的处理次序图。
图30是表示声音对话代理3000的功能结构的框图。
图31是可利用服务DB3100的数据结构图。
图32是第4代理处理的流程图。
图33是第3命令执行处理的流程图。
图34是第2连接应答处理的流程图。
图35是示意地表示进行与声音对话代理的对话的情形的处理次序图。
图36中(A)是运用声音对话系统的运用形态的示意图,(B)是数据中心运营公司3610的示意图之1,(C)是数据中心运营公司3610的示意图之2。
图37是服务的类型1的示意图。
图38是服务的类型2的示意图。
图39是服务的类型3的示意图。
图40是服务的类型4的示意图。
图41是表示声音对话系统4100的结构的系统结构图。
图42是表示中介服务器4150的功能结构的框图。
图43是表示中介服务器4350的功能结构的框图。
图44中(a)是在显示部上显示的图像例之1,(b)是在显示部上显示的图像例之2,(c)是在显示部上显示的图像例之3,(d)是在显示部上显示的图像例之4。
图45中(a)是在显示部上显示的图像例之5,(b)是在显示部上显示的图像例之6。
图46是状态的状态转移图的例之1。
图47是状态的状态转移图的例之2。
图48是状态的状态转移图的例之3。
图49是状态的状态转移图的例之4。
图50是状态的状态转移图的例之5。
具体实施方式
<实施方式1>
<概要>
以下,作为有关本发明的声音对话方法的一形态及有关本发明的设备的一形态,对包括设置在住宅内、车内等的设备和与这些设备进行通信的声音对话代理服务器而构成的声音对话系统进行说明。
在该声音对话系统中,声音对话代理服务器通过执行所存储的程序,实现声音对话代理。该声音对话代理经由设备而与利用声音对话系统的用户进行使用声音的对话(基于声音的输入输出)。并且,声音对话代理执行反映了该对话的内容的处理,将其执行结果经由该用户利用的设备通过声音输出。
用户在想要与声音对话代理进行对话(想要对声音对话代理进行基于声音的输入)的情况下,对构成声音对话系统的设备进行规定的声音输入开始操作。于是,该设备从进行了该声音输入开始操作起在规定期间中成为能够进行声音输入的受理的状态。并且,在设备是能够进行声音输入的受理的状态的期间中,该用户对声音对话代理进行基于声音的输入。
以下,参照附图对该声音对话系统的详细情况进行说明。
<结构>
图1是表示声音对话系统100的结构的系统结构图。
如该图所示,声音对话系统100由声音对话代理服务器110a~声音代理服务器110b、网络120、网关130a~网关130b和设备140a~设备140e构成。
在它们之中,网关130a和设备140a~设备140c配置在家180内,网关130b和设备140d~设备140e配置在车190内。
设备140a~设备140e分别具有以下功能:与网关130(除了将网关130a和网关130b明确地区分显示的情况以外,将网关130a或网关130b简单称作网关130)以无线或有线进行通信的功能、和经由网关130及网络120而与声音对话代理服务器110(除了将声音对话代理服务器110a和声音对话代理服务器110b明确地区分显示的情况以外,将声音对话代理服务器110a或声音对话代理服务器110b简单称作声音对话代理服务器110)进行通信的功能。
配置在家180内的设备140a~设备140c例如是设置在室内的电视机、空调、录像机、洗衣机、携带自如的智能电话等,配置在车190内的设备140d~设备140e例如是设置在车190内的车载空调、车载导航仪等。
这里,代替将设备140a~设备140e分别单独地说明,对具有设备140a~设备140e共通地具有的功能的假想的设备140进行说明。
图2是表示设备140的功能结构的框图。
如该图所示,设备140由控制部210、声音输入部220、操作受理部230、地址存储部240、通信部250、声音输出部260、显示部270和执行部280构成。
声音输入部220作为一例,由麦克风和执行程序的处理器实现,连接于控制部210,由控制部210控制。并且,具有受理来自用户的基于声音的输入而生成声音信号(以下也有称作“输入声音数据”的情况)的功能。
声音输入部220通过被控制部210控制,成为能够受理声音输入的声音输入可受理状态、和不能进行声音输入的受理的声音输入不可受理状态中的某一种状态。
操作受理部230作为一例,由触摸面板、触摸面板控制器和执行程序的处理器实现,连接于控制部210,由控制部210控制。并且,具有受理由用户进行的规定的接触操作而生成基于受理的接触操作的电信号的功能。
在操作受理部230受理的、由用户进行的规定的接触操作中,包括利用声音输入部220开始基于声音的输入之意的规定的声音输入开始操作。
声音输入开始操作作为一例,可以考虑将显示在作为操作受理部230的一部分的触摸面板上的、用来受理声音输入开始操作的图标进行触摸的操作。此外,作为另一例,可以考虑操作受理部230包括用来受理声音输入开始操作的按钮而构成、将该按钮按下的操作。
地址存储部240作为一例由存储器和执行程序的处理器实现,连接于通信部250。并且,具有将关于声音对话代理服务器110中的1个(以下将该1个称作“特定声音对话代理服务器”)的、网络120中的IP(InternetProtocol)地址进行存储的功能。
通过该功能,设备140分别与作为声音对话代理服务器110中的1个的特定声音对话代理服务器建立了对应。
另外,作为设备140内置的存储器,作为一例可以考虑RAM(RandomAccessMemory)、ROM(ReadOnlyMemory)、闪存存储器等。
通信部250作为一例由执行程序的处理器、通信用LSI(LargeScaleIntegration)和天线实现,连接于控制部210和地址存储部240,由控制部210控制。并且,具有以下的网关通信功能和声音对话代理服务器通信功能。
所谓网关通信功能,是与网关130通过无线或有线进行通信的功能。
所谓声音对话代理服务器通信功能,是经由网关130和网络120而与声音对话代理服务器110进行通信的功能。
这里,通信部250在与声音对话代理服务器110中的某1个通信的情况下,当控制部210没有指定特定的一个作为通信目的地的声音对话代理服务器110时,参照存储在地址存储部240中的IP地址,与特定声音对话代理服务器通信。
声音输出部260作为一例由执行程序的处理器和扬声器实现,连接于控制部210,由控制部210控制。并且,具有将从控制部210送来的电信号变换为声音并输出的功能。
显示部270作为一例由触摸面板、触摸面板控制器和执行程序的处理器实现,连接于控制部210,由控制部210控制。并且,具有将基于从控制部210送来的电信号的图像、字符串等进行显示的功能。
执行部280是实现设备140作为设备本来具备的功能(例如如果设备140是电视机,则是将电视信号接收并解码、将解码后的电视图像显示到显示器上、将解码后的电视声音从扬声器输出的功能等,例如如果设备140是空调,则是从送风口送出冷风或暖风以使设置有空调的房间成为设定温度的功能等)的功能模块,连接于控制部210,由控制部210控制。
执行部280例如在设备140是电视机的情况下,作为一例而通过电视信号接收机、电视信号调谐器、电视信号解码器、显示器、扬声器等实现。
此外,执行部280并不需要一定是在1个框体内包含其全部的构成要素而实现的结构。例如,在设备140是电视机的情况下,可以考虑遥控器和显示器相互包含于不同框体中而构成的例子等。同样,构成设备140的各功能模块不需要是在1个框体内包含其全部的构成要素而实现的结构。
控制部210作为一例由执行程序的处理器实现,连接于声音输入部220、操作受理部230、通信部250、声音输出部260、显示部270和执行部280,除了控制声音输入部220的功能、控制操作受理部230的功能、控制通信部250的功能、控制声音输出部260的功能、控制显示部270的功能和控制执行部280的功能以外,还具有以下所述的声音输入部状态管理功能和第1设备处理实现功能。
所谓声音输入部状态管理功能,是管理成为声音输入可受理状态和声音输入不可受理状态中的某一个的声音输入部220的状态(以下也称作“状态(state)”)的功能。
图3是由控制部210管理的状态的状态转移图。
如该图所示,控制部210在状态是声音输入不可受理状态的情况下,(1)维持声音输入不可受理状态,直到由操作受理部230受理声音输入开始操作,(2)如果由操作受理部230受理声音输入开始操作,则使状态转移到声音输入可受理状态。并且,在状态是声音输入可受理状态的情况下,(3)从状态转移到声音输入可受理状态起经过规定时间T1(例如5秒)之前维持声音输入可受理状态,(4)如果经过规定时间T1,则使状态转移到声音输入不可受理状态。
另外,在设备140启动的时间点,控制部210使状态成为声音输入不可受理状态来开始管理。
再次回到图2,继续控制部210的说明。
所谓第1设备处理实现功能,是控制部210控制声音输入部220、操作受理部230、通信部250、声音输出部260、显示部270和执行部280、通过使设备140执行作为其特征性的动作的第1设备处理,使设备140实现以下的一系列处理的功能:(1)如果由用户进行声音输入开始操作,则(2)受理来自用户的基于声音的输入而生成输入声音数据,(3)将所生成的输入声音数据向声音对话代理发送,(4)接收从声音对话代理返送的应答声音数据,(5)输出基于接收到的应答声音数据的声音。
另外,关于第1设备处理,在后面<第1设备处理>的项目中使用流程图详细地说明。
回到图1,再次继续设备140的说明。
网关130作为一例而由具有通信功能的个人计算机等实现,连接于网络120。并且,通过执行所存储的程序,实现与设备140以无线或有线进行通信的功能、经由网络120而与声音对话代理服务器110进行通信的功能、和将设备140与声音对话代理服务器110之间的通信进行中介的功能。
声音对话代理服务器110作为一例通过由1个或多个计算机系统的构成的、具有通信功能的服务器实现,连接于网络120。并且,通过执行所存储的程序,具有与连接于网络120的其他装置进行通信的功能、经由网关130与设备140进行通信的功能、和实现声音对话代理400的功能。
图4是表示由声音对话代理服务器110实现的声音对话代理400的功能结构的框图。
如该图所示,声音对话代理400由控制部410、通信部420、声音识别处理部430、对话DB(DateBase:数据库)存储部440、声音合成处理部450和命令生成部460构成。
通信部420作为一例由执行程序的处理器和通信用LSI实现,连接于控制部410、声音识别处理部430和声音合成处理部450,由控制部410控制。并且,具有与连接于网络120的其他装置进行通信的功能、和经由网关130与设备140进行通信的功能。
声音识别处理部430作为一例由执行程序的处理器实现,连接于控制部410和通信部420,由控制部410控制。并且,具有对通过通信部420接收到的输入声音数据进行声音识别处理、将该声音数据变换为字符串(以下也称作“输入文本”)的功能。
声音合成处理部450作为一例由执行程序的处理器实现,连接于控制部410和通信部420,由控制部410控制。并且,具有对从控制部410送来的字符串进行声音合成处理、变换为声音数据的功能。
对话DB存储部440作为一例由存储器和执行程序的处理器实现,连接于控制部410,具有将对话DB500进行存储的功能。
图5是存储在对话DB存储部440中的对话DB500的数据结构图。
如该图所示,对话DB500将关键字510、对象设备520、启动应用530、处理内容540和应答文本550建立对应而构成。
关键字510是设想为由声音识别处理部430变换后的输入文本中包含的字符串。
对象设备520是确定执行由建立了对应的处理内容540(后述)确定的处理的设备的信息。
这里,也可以使执行由处理内容540确定的处理的设备包括声音对话代理400本身。
启动应用530是为了使由建立了对应的对象设备520确定的设备执行由建立了对应的处理内容540(后述)确定的处理而确定在该设备中启动的应用程序的信息。
处理内容540是在由声音识别处理部430变换后的输入文本中包含有建立了对应的关键字510的情况下、确定被决定为使由建立了对应的对象设备520确定的设备执行的处理的信息。
应答文本550是在执行了由建立了对应的处理内容540指定的处理的情况下、表示被决定为基于该处理结果生成的字符串(以下也称作“应答文本”)的信息。
再次回到图4,继续声音对话代理400的说明。
命令生成部460作为一例由执行程序的处理器实现,连接于控制部410,由控制部410控制。并且具有以下功能:在从控制部410送来了对象设备520、启动应用530和处理内容540的组的情况下,在由对象设备520确定的设备中,启动由启动应用530确定的应用程序,生成用来执行由处理内容540确定的处理的命令群。
控制部410作为一例由执行程序的处理器实现,连接于通信部420、声音识别处理部430、对话DB存储部440、声音合成处理部450和命令生成部460,除了控制通信部420的功能、控制声音识别处理部430的功能、控制声音合成处理部450的功能和控制命令生成部460的功能以外,还具有以下的输入文本返送功能、命令生成功能、命令执行功能和第1代理处理实现功能。
所谓输入文本返送功能,是在由声音识别处理部430将由通信部420接收到的输入声音数据变换为输入文本的情况下、控制通信部420而对发送来该输入声音数据的设备140返送其输入文本的功能。
所谓命令生成功能,是以下功能:在从声音识别处理部430送来输入文本的情况下,(1)参照存储在对话DB存储部440中的对话DB500,根据该输入文本中包含的关键字510读出与该关键字510建立了对应的对象设备520、启动应用530、处理内容540和应答文本550,(2)将读出的对象设备520、启动应用530和处理内容540的组向命令生成部460发送,使命令生成部460生成命令群。
所谓命令执行功能,是执行由命令生成部460生成的命令群、基于其执行结果生成由应答文本550指定的应答文本、向声音合成处理部450发送的功能。
另外,控制部410在实现命令执行功能时,根据需要而使用通信部420与由对象设备520确定的设备进行通信,使该设备执行命令群,从该设备发送命令群的执行结果,从而生成应答文本。
所谓第1代理处理实现功能,是控制部410控制通信部420、声音识别处理部430、声音合成处理部450和命令生成部460,通过使声音对话代理400执行作为其特征性的动作的第1代理处理,使声音对话代理400实现以下一系列处理的功能:(1)接收从设备发送的输入声音数据,(2)对接收到的输入声音数据进行声音识别处理,生成输入文本并向设备返送,(3)基于所生成的输入文本生成命令群并执行,(4)基于执行结果生成应答文本,(5)将所生成的应答文本变换为应答声音数据,(6)将应答文本和应答声音数据向设备返送。
另外,第1代理处理在后面的<第1代理处理>的项目中使用流程图详细地说明。
这里,控制部410例如如果从声音识别处理部430送来“A的住址是?”的输入文本,则参照存储在对话DB存储部440中的对话DB500,使由对象设备520确定的设备“智能电话”启动由启动应用530确定的应用程序“联系地址”,执行由处理内容540确定的“调查A的住址”的处理,基于该处理的执行结果,生成“A的住址是XXXX。”的应答文本。
关于如以上那样构成的声音对话系统100进行的动作,以下参照附图进行说明。
<动作>
声音对话系统100作为其特征性的动作而进行第1设备处理和第1代理处理。
以下,对这些处理依次说明。
<第1设备处理>
第1设备处理是设备140进行的处理,是以下处理:(1)如果由用户进行声音输入开始操作,则(2)受理来自用户的基于声音的输入,生成输入声音数据,(3)将所生成的输入声音数据向声音对话代理发送,(4)接收从声音对话代理返送的应答声音数据,(5)将基于接收到的应答声音数据的声音输出。
图6是第1设备处理的流程图。
第1设备处理通过将设备140启动而开始。
在设备140被启动的时间点,由控制部210管理的状态成为声音输入不可受理状态。
如果开始第1设备处理,则控制部210待机,直到由利用声音对话系统100的用户进行的声音输入开始操作被操作受理部230受理(重复步骤S600:否)。并且,如果受理了声音输入开始操作(步骤S600:是),则控制部210使状态从声音输入不可受理状态转移到声音输入可受理状态(步骤S610),使显示部270显示是声音输入可受理状态之意(步骤S620)。
图11(a)是表示在设备140例如是智能电话的情况下、显示部270显示是声音输入可受理状态之意的情形的例子的示意图。
在该图中,构成智能电话的触摸面板1110是显示部270的一部分,通过在其右下的区域1120进行闪烁显示(例如使黑色和白色交替地点亮),显示状态是声音输入可受理状态之意。
再次回到图6,继续第1设备处理的说明。
如果步骤S620的处理结束,则设备140执行第1声音输入处理(步骤S630)。
图7是第1声音输入处理的流程图。
如果开始第1声音输入处理,则声音输入部220受理用户的声音输入,生成输入声音数据(步骤S700)。并且,如果从状态成为声音输入可受理状态起经过规定时间T1(在重复步骤S710:否之后为步骤S710:是),控制部210使状态从声音输入可受理状态转移到声音输入不可受理状态(步骤S720),使显示部270结束是声音输入可受理状态之意的显示(步骤S730)。
并且,控制部210控制通信部250,对由特定声音对话代理服务器实现的声音对话代理400发送由声音输入部220生成的输入声音数据(步骤S740)。
如果步骤S740的处理结束,则设备140将该第1声音输入处理结束。
再次回到图6,继续第1设备处理的说明。
如果第1声音输入处理结束,则控制部210对在步骤S740的处理中发送的输入声音数据进行应答,并待机直到由通信部250接收到从声音对话代理400返送的输入文本(重复步骤S640:否)。
这里,该输入文本数据是在步骤S740的处理中发送的输入声音数据被声音对话代理400变换为字符串后的数据。
如果由通信部250接收到输入文本(步骤S640:是),则显示部270将该输入文本显示(步骤S650)。
图11(b)是表示在设备140例如是智能电话的情况下显示部270显示输入文本的例子的示意图。
该图为输入文本是“房间的温度是?”的字符串的情况下的一例。如该图所示,在作为显示部270的一部分的触摸面板1110上,与“你”的字符串一起显示有作为输入文本的“‘房间的温度是?’”的字符串。
再次回到图6,继续第1设备处理的说明。
如果步骤S650的处理结束,则控制部210待机,直到由通信部250接收到对在步骤S740的处理中发送的输入声音数据进行应答而从声音对话代理400返送的应答文本和应答声音数据(重复步骤S660:否)。
如果由通信部250接收到应答文本和应答声音数据(步骤S660:是),则显示部270将该应答文本显示(步骤S670),声音输出部260将该应答声音数据变换为声音并输出(步骤S680)。
图11(c)是表示在设备140例如是智能电话的情况下、显示部270显示应答文本的例子的示意图。
该图为应答文本是“哪个房间的温度呢?”的字符串的情况下的一例。如该图所示,在作为显示部270的一部分的触摸面板1110上,与“家代理”的字符串一起显示有作为应答文本的“‘哪个房间的温度呢?’”的字符串。
再次回到图6,继续第1设备处理的说明。
如果步骤S680的处理结束,则设备140结束该第1设备处理。
<第1代理处理>
第1代理处理是声音对话代理400进行的处理,是以下处理:(1)接收从设备发送的输入声音数据,(2)对接收到的输入声音数据进行声音识别处理,生成输入文本并向设备返送,(3)基于所生成的输入文本数据生成命令群并执行,(4)基于执行结果生成应答文本,(5)将所生成的应答文本变换为应答声音数据,(6)将应答文本和应答声音数据向设备返送。
图8是第1代理处理的流程图。
第1代理处理通过将声音对话代理400启动而开始。
如果开始第1代理处理,则声音对话代理400待机,直到由通信部420接收到从设备140发送的输入声音数据(重复步骤S800:否)。并且,如果接收到输入声音数据(步骤S800:是),则声音对话代理400执行第1命令执行处理(步骤S810)。
图9是第1命令执行处理的流程图。
如果开始第1命令执行处理,则声音识别处理部430对由通信部420接收到的输入声音数据进行声音识别处理,将输入声音数据变换为作为字符串的输入文本(步骤S900)。
如果变换为输入文本,则控制部410控制通信部420,对发送来该输入声音数据的设备140返送该输入文本(步骤S910)。
并且,控制部410(1)参照存储在对话DB存储部440中的对话DB500,根据该输入文本中包含的关键字510,读出与该关键字510建立了对应的对象设备520、启动应用530、处理内容540和应答文本550,(2)将所读出的对象设备520、启动应用530和处理内容540的组向命令生成部460发送,使命令生成部460生成命令群(步骤S920)。
如果生成命令群,则控制部410执行所生成的命令群(步骤S930),基于其执行结果,生成由应答文本550指定的应答文本(步骤S940)。这里,控制部410根据需要使用通信部420与由对象设备520确定的设备进行通信,使该设备执行命令群的一部分,从该设备发送命令群的执行结果,从而生成应答文本。
如果生成应答文本,则声音合成处理部450对所生成的应答文本进行声音合成处理,生成应答声音数据(步骤S950)。
如果生成应答声音数据,则控制部410控制通信部420,对作为输入声音数据的发送源的设备140发送所生成的应答文本和所生成的应答声音数据(步骤S960)。
如果步骤S960的处理结束,则声音对话代理400结束该第1命令执行处理。
再次回到图8,继续第1代理处理的说明。
如果第1命令执行处理结束,则声音对话代理400再次回到步骤S800的处理,继续步骤S800以下的处理。
关于上述结构的声音对话系统100进行的动作的具体例,以下使用附图进行说明。
<具体例>
图10是示意地表示利用声音对话系统100的用户使用设备140(这里假设是智能电话)与声音对话代理400进行使用声音的对话、声音对话代理400进行反映该对话的内容的处理的情形的处理次序图。
如果用户对设备140进行声音输入开始操作(步骤S1000,与图6的步骤S600:是对应),则状态转移到声音输入可受理状态(步骤S1005,与图6的步骤S610对应),设备140进行第1声音输入处理(步骤S1010,与图6的步骤S630对应)。
图11(a)是示意地表示在该第1声音输入处理中、在状态为声音输入可受理状态的期间中、作为是智能电话的设备140的显示部270的一部分的触摸面板1110通过使区域1120闪烁来显示状态是声音输入可受理状态之意的情形的例子的图。
再次回到图10,继续具体例的说明。
在该第1声音输入处理中,如果用户输入了“房间的温度是?”的声音,则设备140将“房间的温度是?”的输入声音数据向声音对话代理400发送(与图7的步骤S740对应)。
于是,声音对话代理400接收该输入声音数据(与图8的步骤S800:是对应),执行第1命令执行处理(步骤S1060,与图8的步骤S810对应)。
这里,如果在该第1命令执行处理中,声音对话代理400生成了“哪个房间的温度呢?”的应答声音数据,则声音对话代理400向设备140发送“哪个房间的温度呢?”的应答声音数据(与图9的步骤S960对应)。
于是,设备140接收该应答声音数据(与图6的步骤S660:是对应),输出“哪个房间的温度呢?”的声音(步骤S1015,与图6的步骤S680对应)。
在步骤S1010的处理中,在从状态转移到声音输入可受理状态起经过了规定时间T1的时间点,状态再次转移到声音输入不可受理状态(与图7的步骤S720对应)。因此,听到了从设备140输出的“哪个房间的温度呢?”的声音的用户为了新进行基于声音的输入,对设备140进行新的声音输入开始操作(步骤S1020,与图6的步骤S600:是对应)。于是,状态转移到声音输入可受理状态(步骤S1025,与图6的步骤S610对应),设备140进行第1声音输入处理(步骤S1030:与图6的步骤S630对应)。
图11(c)是示意地表示在该第1声音输入处理中、在状态为声音输入可受理状态的期间中、作为是智能电话的设备140的显示部270的一部分的触摸面板1110通过使区域1120闪烁来显示状态是声音输入可受理状态之意的情形的例子的图。
再次回到图10,继续具体例的说明。
在该第1声音输入处理中,如果用户输入了“客厅。”的声音,则设备140将“客厅。”的输入声音数据向声音对话代理400发送(与图7的步骤S740对应)。
于是,声音对话代理400接收该输入声音数据(与图8的步骤S800:是对应),执行第1命令执行处理(步骤S1065,与图8的步骤S810对应)。
这里,在该第1命令执行处理中,假如声音对话代理400生成了“客厅的温度是28度。其他还有什么吗?”的应答声音数据,则声音对话代理400向设备140发送“客厅的温度是28度。其他还有什么吗?”的应答声音数据(与图9的步骤S960对应)。
于是,设备140接收该应答声音数据(与图6的步骤S660:是对应),输出“客厅的温度是28度。其他还有什么吗?”的声音(步骤S1035,与图6的步骤S680对应)。
在步骤S1010的处理中,在从状态转移到声音输入可受理状态起经过了规定时间T1的时间点,状态再次转移到声音输入不可受理状态(与图7的步骤S720对应)。因此,听到了从设备140输出的“客厅的温度是28度。其他还有什么吗?”的声音的用户为了新进行基于声音的输入,对设备140进行新的声音输入开始操作(步骤S1040,与图6的步骤S600:是对应)。于是,状态转移到声音输入可受理状态(步骤S1045,与图6的步骤S610对应),设备140进行第1声音输入处理(步骤S1050:与图6的步骤S630对应)。
图12是示意地表示在该第1声音输入处理中、在状态为声音输入可受理状态的期间中、作为是智能电话的设备140的显示部270的一部分的触摸面板1110通过使区域1120闪烁来显示状态是声音输入可受理状态之意的情形的例子的图。
再次回到图10,继续具体例的说明。
在该第1声音输入处理中,如果用户输入了“没有了。谢谢。”的声音,则设备140将“没有了。谢谢。”的输入声音数据向声音对话代理400发送(与图7的步骤S740对应)。
于是,声音对话代理400接收该输入声音数据(与图8的步骤S800:是对应),执行第1命令执行处理(步骤S1070,与图8的步骤S810对应)。
这里,在该第1命令执行处理中,如果声音对话代理400生成了“结束。”的应答声音数据,则声音对话代理400向设备140发送“结束。”的应答声音数据(与图9的步骤S960对应)。
于是,设备140接收该应答声音数据(与图6的步骤S660:是对应),输出“结束。”的声音(步骤S1055,与图6的步骤S680对应)。
<考察>
根据上述结构的声音对话系统100,利用声音对话系统100的用户通过对设备140进行声音输入开始操作,使设备140的状态成为声音输入可受理状态,进行声音输入。并且,如果然后经过了规定时间T1,则即使用户没有进行用来使设备140的状态成为声音输入不可受理状态的操作,设备140的状态也成为声音输入不可受理状态。
因此,与每当声音输入结束就需要进行用来使设备140的状态成为声音输入不可受理状态的操作的声音对话系统相比,声音对话系统100减少了随着声音输入而用户需要进行的操作的次数。
<实施方式2>
<概要>
以下,作为有关本发明的声音对话方法的一形态及有关本发明的设备的一形态,对将实施方式1的声音对话系统100的一部分变形的第1变形声音对话系统进行说明。
实施方式1的声音对话系统100是如果设备140被用户进行声音输入开始操作、则在从进行了该操作的时间点到经过规定时间T1的期间中为能够进行声音输入的状态的结构的例子。
相对于此,实施方式2的第1变形声音对话系统为各设备除了上述期间以外、在输出了基于应答声音数据的声音的情况下还在从进行了该输出的时间点到经过规定时间T1的期间中也成为可声音输入的状态的结构的例子。
以下,关于该第1变形声音对话系统的详细情况,参照附图以与实施方式1的声音对话系统100的不同点为中心进行说明。
<结构>
第1变形声音对话系统从实施方式1的声音对话系统100变形为设备140被变更为设备1300。
设备1300相对于实施方式1的设备140,作为硬件没有被变更,但作为执行对象而存储的软件的一部分被变更。并且,由此,设备1300从实施方式1的设备140变形为其功能的一部分被变更。
图13是表示设备1300的功能结构的框图。
如该图所示,设备1300从实施方式1的设备140(参照图2)变形为控制部210被变更为控制部1310。
控制部1310从实施方式1的控制部210变形为控制部210具有的功能中的声音输入部状态管理功能被变更为以下所述的第1变形声音输入部状态管理功能、第1设备处理实现功能被变更为以下所述的第2功能处理实现功能。
所谓第1变形声音输入部状态管理功能,与实施方式1的声音输入部状态管理功能同样,是管理成为声音输入可受理状态和声音输入不可受理状态中的某一个的声音输入部220的状态(即“状态(state)”)的功能,该状态转移条件的一部分相对于实施方式1的声音输入部状态管理功能变更。
图14是由控制部1310管理的状态的状态转移图。
如该图所示,控制部1310在状态是声音输入不可受理状态的情况下,(1)维持声音输入不可受理状态,直到由操作受理部230受理声音输入开始操作、或由声音输出部260输出除了基于应答声音数据的声音中的规定的声音以外的声音,(2)如果由操作受理部230受理了声音输入开始操作、或由声音输出部260输出除了基于应答声音数据的声音中的规定的声音以外的声音,则使状态转移到声音输入可受理状态。并且,在状态是声音输入可受理状态的情况下,(3)从状态转移到声音输入可受理状态到经过规定时间T1(例如5秒)之前,维持声音输入可受理状态,(4)如果经过规定时间T1,则使状态转移到声音输入不可受理状态。
这里,所谓基于应答声音数据的声音中的规定的声音,是预先设定的、表示不需要新的声音输入之意的声音,例如是“结束。”的声音。以下,将该声音也称作“对话结束声音”。
另外,在设备1300被启动的时间点,控制部1310使状态成为声音输入不可受理状态,开始管理。
再次回到图13,继续控制部1310的说明。
所谓第2功能御处理实现功能,是控制部1310控制声音输入部220、操作受理部230、通信部250、声音输出部260、显示部270和执行部280、通过使设备1300执行作为其特征性的动作的第2设备处理、使设备1300实现以下的一系列处理的功能:(1)如果由用户进行声音输入开始操作,则(2)受理来自用户的基于声音的输入而生成输入声音数据,(3)将所生成的输入声音数据向声音对话代理发送,(4)接收从声音对话代理返送的应答声音数据,(5)输出基于接收到的应答声音数据的声音,(6)如果该声音不是对话结束声音,则即使用户没有进行声音输入开始操作,也再次重复(2)以下的处理。
另外,关于第2设备处理,在后面的<第2设备处理>的项目中使用流程图详细地说明。
关于如以上那样构成的第1变形声音对话系统进行的动作,以下参照附图进行说明。
<动作>
第1变形声音对话系统中,作为其特征性的动作,除了实施方式1的第1代理处理以外,还进行从实施方式1的第1设备处理将其处理的一部分变更的第2设备处理。
以下,关于该第2设备处理,以从第1设备处理的变更点为中心进行说明。
<第2设备处理>
第2设备处理是设备1300进行的处理,是以下处理:(1)如果由用户进行声音输入开始操作,则(2)受理来自用户的基于声音的输入而生成输入声音数据,(3)将所生成的输入声音数据向声音对话代理发送,(4)接收从声音对话代理返送的应答声音数据,(5)输出基于接收到的应答声音数据的声音,(6)如果该声音不是对话结束声音,则即使用户没有进行声音输入开始操作,也再次重复(2)以下的处理。
图15是第2设备处理的流程图。
第2设备处理通过设备1300被启动而开始。
在设备1300被启动的时间点,由控制部1310管理的状态为声音输入不可受理状态。
在该图中,步骤S1500~步骤S1580的处理是与实施方式1的第1设备处理(参照图6)的步骤S600~步骤S680的处理同样的处理。因此,关于这些处理已经说明。
如果步骤S1580的处理结束,则控制部1310调查在步骤S1580的处理中由声音输出部260输出的声音是否是对话结束声音(步骤S1585)。该处理作为一例,通过调查在步骤S1560:是的处理中接收到的应答文本是否是预先设定的字符串(例如“结束。”的字符串)来实现。
在步骤S1585的处理中不是对话结束声音的情况下(步骤S1585:否),控制部1310使状态从声音输入不可受理状态转移到声音输入可受理状态(步骤S1590),使显示部270显示是声音输入可受理状态之意(步骤S1595)。
如果步骤S1595的处理结束,则设备1300向步骤S1530的处理返回,重复步骤S1530以下的处理。
在步骤S1585的处理中不是对话结束声音的情况下(步骤S1585:是),设备1300将该第2设备处理结束。
关于上述结构的第1变形声音对话系统进行的动作的具体例,以下使用附图进行说明。
<具体例>
图16是示意地表示利用第1变形声音对话系统的用户使用设备1300(这里假设是智能电话)与声音对话代理400进行使用声音的对话、声音对话代理400进行反映了该对话的内容的处理的情形的处理次序图。
这里,假设对话结束声音是“结束。”的声音而进行说明。
在该图中,步骤S1600~步骤S1615的处理、步骤S1630~步骤S1635的处理、步骤S1650~步骤S1655的处理和步骤S1660~步骤S1670的处理分别是与实施方式1的具体例(参照图10)的步骤S1000~步骤S1015的处理、步骤S1030~步骤S1035的处理、步骤S1050~步骤S1055的处理和步骤S1060~步骤S1070的处理同样的处理。因此,关于这些处理已经说明。
如果步骤S1615的处理结束,则由于“哪个房间的温度呢?”的声音不是对话结束声音(与图15的步骤S1585:否对应),所以状态转移到声音输入可受理状态(步骤S1625,与图15的步骤S1590对应),设备1300进行第1声音输入处理(步骤S1630:与图15的步骤S1530对应)。
如果步骤S1635的处理结束,则由于“客厅的温度是28度。其他含有什么吗?”的声音不是对话结束声音(与图15的步骤S1585:否对应),所以状态转移到声音输入可受理状态(步骤S1645,与图15的步骤S1590对应),设备1300进行第1声音输入处理(步骤S1650:与图15的步骤S1530对应)。
如果步骤S1635的处理结束,则由于“结束。”的声音是对话结束声音(与图15的步骤S1585:是对应),所以状态不转移到声音输入可受理状态,设备1300结束第2设备处理。
<考察>
根据上述结构的第1变形声音对话系统,在设备1300输出了基于从声音对话代理400送来的应答声音数据的声音的情况下,如果该声音不是对话结束声音,则即使利用设备1300的用户没有进行声音输入操作,也成为声音输入可受理状态。
因此,用户一旦对设备1300开始声音输入开始操作,则在输出对话结束声音之前,在从输出基于应答声音数据的声音到经过规定期间T1的期间中,即使不对设备1300新进行声音输入操作,也能够进行新的声音输入。
这样,第1变形声音对话系统与实施方式1的声音对话系统100相比,伴随着声音输入而用户需要进行的操作的次数进一步减少。
<实施方式3>
<概要>
以下,作为有关本发明的声音对话方法的一形态及有关本发明的设备的一形态,对将实施方式1的声音对话系统100的一部分变形的第2变形声音对话系统进行说明。
实施方式1的声音对话系统100是设备140如果由用户进行声音输入开始操作、则在从进行了该操作的时间点到经过规定时间T1的期间中为能够声音输入的状态的结构的例子。
相对于此,实施方式3的第2变形声音对话系统为各设备如果由用户进行声音输入开始操作、则在从进行了该操作的时间点到输出对话结束声音的期间中成为能够声音输入的状态的结构的例子。
以下,关于该第2变形声音对话系统的详细情况,以与实施方式1的声音对话系统100的不同点为中心,参照附图进行说明。
<结构>
第2变形声音对话系统从实施方式1的声音对话系统100变形为设备140被变更为设备1700。
设备1700相对于实施方式1的设备140,作为硬件没有被变更,但作为执行对象而存储的软件的一部分被变更。并且,由此,设备1700从实施方式1的设备140变形为其功能的一部分被变更。
图17是表示设备1700的功能结构的框图。
如该图所示,设备1700从实施方式1的设备140(参照图2)变形为控制部210被变更为控制部1710。
控制部1710从实施方式1的控制部210变形为,控制部210具有的功能中的声音输入部状态管理功能被变更为以下所述的第2变形声音输入部状态管理功能、第1设备处理实现功能被变更为以下所述的第3功能处理实现功能。
所谓第2变形声音输入部状态管理功能,与实施方式1的声音输入部状态管理功能、实施方式2的第1变形声音输入部状态管理功能同样,是管理成为声音输入可受理状态和声音输入不可受理状态中的某一个的声音输入部220的状态(即“状态”)的功能,其状态转移条件的一部分相对于实施方式1的声音输入部状态管理功能变更。
图18是由控制部1710管理的状态的状态转移图。
如该图所示,控制部1710在状态是声音输入不可受理状态的情况下,(1)在由操作受理部230受理声音输入开始操作之前,维持声音输入不可受理状态,(2)如果由操作受理部230受理了声音输入开始操作,则使状态转移到声音输入可受理状态。并且,在状态是声音输入可受理状态的情况下,(3)在由声音输出部260输出对话结束声音(例如“结束。”的声音)之前,维持声音输入可受理状态,(4)如果由声音输出部260输出对话结束声音,则使状态转移到声音输入不可受理状态。
再次回到图17,继续控制部1710的说明。
所谓第3功能御处理实现功能,是控制部1710控制声音输入部220、操作受理部230、通信部250、声音输出部260、显示部270和执行部280、通过使设备1700执行作为其特征性的动作的第3设备处理、使设备1700实现以下一系列处理的功能:(1)如果由用户进行声音输入开始操作,则(2)受理来自用户的基于声音的输入,生成输入声音数据,(3)将所生成的输入声音数据向声音对话代理发送,(4)接收从声音对话代理返送的应答声音数据,(5)输出基于接收到的应答声音数据的声音,(6)如果该声音不是对话结束声音,则即使用户没有进行声音输入开始操作,也再次重复(2)以下的处理。
另外,关于第3设备处理,在后面的<第3设备处理>的项目中使用流程图详细地说明。
关于如以上那样构成的第2变形声音对话系统进行的动作,以下参照附图进行说明。
<动作>
第2变形声音对话系统作为其特征性的动作,除了实施方式1的第1代理处理以外,还进行从实施方式1的第1设备处理变更了其处理的一部分的第3设备处理。
以下,关于该第3设备处理,以从第1设备处理的变更点为中心进行说明。
<第3设备处理>
第3设备处理是设备1700进行的处理,是以下处理:(1)如果由用户进行了声音输入开始操作,则(2)受理来自用户的基于声音的输入,生成输入声音数据,(3)将所生成的输入声音数据向声音对话代理发送,(4)接收从声音对话代理返送的应答声音数据,(5)输出基于接收到的应答声音数据的声音,(6)如果该声音不是对话结束声音,则即使用户没有进行声音输入开始操作,也再次重复(2)以下的处理。
图19是第3设备处理的流程图。
第3设备处理通过设备1700被启动而开始。
在设备1700被启动的时间点,由控制部1710管理的状态为声音输入不可受理状态。
在该图中,步骤S1900~步骤S1920的处理和步骤S1940~步骤S1980的处理是分别与实施方式1的第1设备处理(参照图6)的步骤S600~步骤S620的处理和步骤S640~步骤S680的处理同样的处理。因此,关于这些处理已经说明。
如果步骤S1920的处理结束,则设备1700执行第2声音输入处理(步骤S1930)。
图20是第2声音输入处理的流程图。
如果开始第2声音输入处理,则声音输入部220受理用户的声音输入,生成输入声音数据(步骤S2000)。
并且,控制部1910控制通信部250,对声音对话代理400发送由声音输入部220生成的输入声音数据(步骤S2040)。
如果步骤S2040的处理结束,则设备1700结束该第2声音输入处理。
再次回到图19,继续第3设备处理的说明。
如果第2声音输入处理结束,则设备1900向步骤S1940的处理前进,进行步骤S1940以下的处理。
如果步骤S1980的处理结束,则控制部1710调查在步骤S1980的处理中由声音输出部260输出的声音是否是对话结束声音(步骤S1985)。该处理作为一例,通过调查在步骤S1960:是的处理中接收到的应答文本是否是预先设定的字符串(例如“结束。”的字符串)来实现。
在步骤S1985的处理中不是对话结束声音的情况下(步骤S1985:否),设备1900回到步骤S1930的处理,重复步骤S1930以下的处理。
在步骤S1985的处理中是对话结束声音的情况下(步骤S1585:是),控制部1710使状态从声音输入可受理状态转移到声音输入不可受理状态(步骤S1990)。
如果步骤S1990的处理结束,则设备1900结束该第3设备处理。
关于上述结构的第2变形声音对话系统进行的动作的具体例,以下使用附图进行说明。
<具体例>
图21是示意地表示利用第2变形声音对话系统的用户使用设备1700(这里假设是智能电话)与声音对话代理400进行使用声音的对话、声音对话代理400进行反映了该对话的内容的处理的情形的处理次序图。
这里,假设对话结束声音是“结束。”的声音而进行说明。
在该图中,步骤S2100的处理、步骤S2105的处理、步骤S2115的处理、步骤S2135的处理、步骤S2155的处理和步骤S2160~步骤S2170的处理是分别与实施方式1的具体例(参照图10)的步骤S1000的处理、步骤S1005的处理、步骤S1015的处理、步骤S1035的处理、步骤S1055的处理和步骤S1060~步骤S1070的处理同样的处理。因此,关于这些处理已经说明。
如果步骤S2105的处理结束,则设备1700进行第2声音处理(步骤S2110,与图19的步骤S1930对应)。
在该第2声音输入处理中,如果用户输入了“房间的温度是?”的声音,则设备1700将“房间的温度是?”的输入声音数据向声音对话代理400发送(与图20的步骤S2040对应)。
如果步骤S2115的处理结束,则由于“哪个房间的温度呢?”的声音不是对话结束声音(与图19的步骤S1985:否对应),因此设备1700进行第2声音处理(步骤S2130,与图19的步骤S1930对应)。
在该第2声音输入处理中,如果用户输入了“客厅。”的声音,则设备1700将“客厅。”的输入声音数据向声音对话代理400发送(与图20的步骤S2040对应)。
如果步骤S2135的处理结束,则由于“客厅的温度是28度。其他还有什么吗?”的声音不是对话结束声音(与图19的步骤S1985:否对应),因此设备1700进行第2声音处理(步骤S2150,与图19的步骤S1930对应)。
在该第2声音输入处理中,如果用户输入了“没有了。谢谢。”的声音,则设备1700将“没有了。谢谢。”的输入声音数据向声音对话代理400发送(与图20的步骤S2040对应)。
如果步骤S2135的处理结束,则由于“结束。”的声音是对话结束声音(与图19的步骤S1985:是对应),所以状态被转移到声音输入可受理状态(与图19的步骤S1990对应),设备1700结束第3设备处理。
<考察>
根据上述结构的第2变形声音对话系统,设备1700一旦进行声音输入开始操作,则从进行了该操作的时间点到输出对话结束声音为止,维持能够声音输入的状态。
因此,用户一旦对设备1700进行声音输入开始操作,则在输出对话结束声音之前,即使不对设备1700进行新的声音输入操作,也能够进行新的声音输入。
这样,第2变形声音对话系统与实施方式1的声音对话系统100相比,随着声音输入而用户需要进行的操作的次数进一步减少。
<实施方式4>
<概要>
以下,作为有关本发明的声音对话方法的一形态及有关本发明的设备的一形态,对实施方式3的第2变形声音对话系统的一部分被变形的第3变形声音对话系统进行说明。
实施方式3的第2变形声音对话系统是如果设备1700在与声音对话代理A之间开始通信、则在一系列的处理结束之前的期间中、通信对象的声音对话代理被限定为声音对话代理A的结构的例子。
相对于此,实施方式4的第3变形声音对话系统为在设备在与声音对话代理A之间开始了通信的情况下、当利用第3变形声音对话系统的用户使用该设备进行了想要在与其他声音代理B之间进行通信之意的声音输入时、以后该设备的通信对方从声音对话代理A变更为声音对话代理B的结构的例子。
以下,关于该第3变形声音对话系统的详细情况,以与实施方式3的第2变形声音对话系统的不同点为中心,参照附图进行说明。
<结构>
第3变形声音对话系统从实施方式3的第2变形声音对话系统变形为声音对话代理400被变更为声音对话代理2200。
声音对话代理2200与实施方式3的声音对话代理400同样,由声音对话代理服务器110实现。
由声音对话代理服务器110执行的、用来实现声音对话代理2200的软件的一部分相对于用来实现实施方式3的声音对话代理400的软件变更。并且,由此,声音对话代理2200从实施方式3的声音对话代理400变形为其功能的一部分被变更。
图22是表示声音对话代理2200的功能结构的框图。
如该图所示,声音对话代理2200从实施方式3的声音对话代理400(参照图4)变形为,被追加对象代理DB存储部2220、控制部410被变更为控制部2210。
对象代理DB存储部2220作为一例,由存储器和执行程序的处理器实现,连接于控制部2210,具有将对象代理DB2300进行存储的功能。
图23是存储在对象代理DB存储部2220中的对象代理DB2300的数据结构图。
如该图所示,对象代理DB2300将关键字2310、对象代理2320和IP地址2330建立对应而构成。
关键字2310是设想为在由声音识别处理部430变换后的输入文本中包含的字符串。
对象代理2320是确定成为设备140的通信对象的、声音对话代理2200中的1个(以下将该1个称作“追加声音对话代理”)的信息。
在该例中为在由对象代理2320确定的追加声音对象代理中包含车代理、小卖铺代理和家代理的结构的例子。
这里,所谓车代理,是对搭载在车上的设备提供的服务比较充实的声音对话代理2200,所谓小卖铺代理,是对配置在小卖铺中的设备提供的服务比较充实的声音对话代理2200,所谓家代理,是对配置在住宅(家)中的设备提供的服务比较充实的声音对话代理2200。
IP地址2330是关于实现由建立了对应的对象代理2320确定的追加声音对话代理的声音对话代理服务器110的、网络120中的IP地址。
如图23所示,将1个或多个关键字2310与1个对象代理2320建立了对应。作为一例,对于“车代理”,将“车内”、“车”、“汽车”、“导航”这样的关键字2310建立了对应。
通过将多个关键字2310对于1个对象代理2320建立对应,声音对话代理2200能够应对输入的含糊。
例如,用户在想要在与车代理之间进行通信的情况下,既有声音输入“连接导航的声音对话代理。”的情况,也有声音输入“连接车的声音对话代理。”的情况。
这里,由于“导航”和“车”都与“车代理”建立了对应,所以声音对话代理2200通过参照对象代理DB2300,不论是哪种声音输入的情况,都能够确定为对象代理2320是车代理。
再次回到图22,继续声音对话代理2200的说明。
控制部2210从实施方式3的控制部410变形为,控制部410具有的功能中的第1代理处理实现功能被变更为以下所述的第2代理处理实现功能和以下所述的第3代理处理实现功能。
所谓第2代理处理实现功能,是控制部2210控制通信部420、声音识别处理部430、声音合成处理部450和命令生成部460、通过使声音对话代理2200执行作为其特征性的动作的第2代理处理、使声音对话代理2200实现以下的一系列处理的功能:(1)接收从设备发送的输入声音数据,(2)对接收到的输入声音数据进行声音识别处理,生成输入文本并向设备返送,(3)在所生成的输入文本表示想要在与其他声音对话代理之间进行通信之意的情况下,实现设备与该声音对话代理之间的通信,(4)在不是这样的情况下,基于所生成的输入文本生成命令群并执行,(5)基于执行结果,生成应答文本,(6)将所生成的应答文本变换为应答声音数据,(7)将应答文本和应答声音数据向设备返送。
另外,第2代理处理在后面的<第2代理处理>的项目中使用流程图详细地说明。
所谓第3代理处理实现功能,是控制部2210控制通信部420、声音识别处理部430、声音合成处理部450和命令生成部460、通过使声音对话代理2200执行作为其特征性的动作的第3代理处理、使声音对话代理2200实现以下的一系列处理的功能:(1)根据来自其他声音输入代理的请求开始与设备的通信,(2)接收从设备发送的输入声音数据,(3)对接收到的输入声音数据进行声音识别处理,生成输入文本并向设备返送,(4)基于所生成的输入文本生成命令群并执行,(5)基于执行结果,生成应答文本,(6)将所生成的应答文本变换为应答声音数据,(7)将应答文本和应答声音数据向设备返送。
另外,第3代理处理在后面的<第3代理处理>的项目中使用流程图详细地说明。
关于如以上那样构成的第3变形声音对话系统进行的动作,以下参照附图进行说明。
<动作>
第3变形声音对话系统作为其特征性的动作,除了实施方式3的第1设备处理以外,还执行从实施方式3的第1代理处理变更了其处理的一部分的第2代理处理和第3代理处理。
以下,关于这些第2代理处理和第3代理处理,以相对于第1代理处理的变更点为中心进行说明。
<第2代理处理>
第2代理处理是声音对话代理2200进行的处理,是以下处理:(1)接收从设备发送的输入声音数据,(2)对接收到的输入声音数据进行声音识别处理,生成输入文本并向设备返送,(3)在所生成的输入文本表示想要在与其他声音对话代理之间进行通信之意的情况下,实现设备与该声音对话代理之间的通信,(4)在不是这样的情况下,基于所生成的输入文本,生成命令群并执行,(5)基于执行结果,生成应答文本,(6)将所生成的应答文本变换为应答声音数据,(7)将应答文本和应答声音数据向设备返送。
图24是第2代理处理的流程图。
第2代理处理通过声音对话代理2200被启动而开始。
如果开始第2代理处理,则声音对话代理2200待机直到由通信部420接收到从设备1700发送的输入声音数据(重复步骤S2400:否)。并且,如果接收到输入声音数据(步骤S2400:是),则声音对话代理2200执行第2命令执行处理(步骤S2410)。
图25是第2命令执行处理的流程图。
在该图中,步骤S2500~步骤S2510的处理和步骤S2520~步骤S2560的处理是分别与实施方式3的第1命令执行处理(参照图9)的步骤S900~步骤S910的处理和步骤S920~步骤S960的处理同样的处理。因此,关于这些处理已经说明。
如果步骤S2510的处理结束,则控制部2210调查由声音识别处理部430变换后的输入文本是否是请求与其他声音对话代理的通信的文本(步骤S2515)。
在步骤S2515的处理中不是请求与其他声音对话代理的通信的文本的情况下(步骤S2515:否),声音对话代理2200向步骤S2520的处理前进,进行步骤S2520~步骤S2560的处理。
在步骤S2515的处理中是请求与其他声音对话代理的通信的文本的情况下(步骤S2515:是),控制部2210参照存储在对象代理DB存储部2220中的对象代理DB2300(步骤S2517),确定作为通信目的地被请求的声音对话代理2200。即,将与由声音识别处理部430变换为字符串后的输入文本中包含的关键字2310建立了对应的对象代理2320所确定的追加声音对话代理,确定为作为通信目的地被请求的声音对话代理2200。
如果确定了作为通信目的地被请求的追加声音对话代理,则控制部2210生成表示开始所确定的追加声音对象代理与作为输入声音数据的发送源的设备1700之间的通信之意的规定的信号(以下,将该信号称作“连接命令”)(步骤S2565)。
如果生成连接命令,则控制部2210控制通信部420,利用与该关键字2310建立了对应的IP地址2330,对追加声音对象代理发送所生成的连接命令(步骤S2570)。
然后,控制部2210待机,直到由通信部420接收到对在步骤S2570的处理中发送的连接命令进行应答而从追加声音对话代理返送的连接应答(后述)(重复步骤S2575:否)。
如果由通信部420接收到连接应答(步骤S2575:是),则声音对话代理2200执行第1连接应答处理(步骤S2580)。
图26是第1连接应答处理的流程图。
如果开始第1连接应答处理,则控制部2210生成表示能够进行追加声音对话代理与设备1700之间的通信之意的、预先设定的应答文本(例如“连接到了‘追加声音对话代理’。”的字符串。)(步骤S2600)。
这里,假设在“追加声音对话代理”的部分中,插入了由对象代理DB2300的对象代理2320确定的声音对话代理2200的名称(这里是车代理、小卖铺代理和家代理中的某一个)。
如果生成了应答文本,则声音合成处理部450对所生成的应答文本进行声音合成处理,生成应答声音数据(步骤S2610)。
如果生成了应答声音数据,则控制部2210控制通信部420,对作为输入声音数据的发送源的设备1700发送所生成的应答文本和所生成的应答声音数据(步骤S2620)。
如果步骤S2620的处理结束,则声音对话代理2200结束该第1连接应答处理。
再次回到图25,继续第2命令执行处理的说明。
如果第1连接应答处理结束,则声音对话代理2200待机,直到由通信部420接收到从追加声音对话代理发送的切断应答(后述)(重复步骤S2585:否)。
如果由通信部420接收到切断应答(步骤S2585:是),则声音对话代理2200执行切断应答处理(步骤S2590)。
图27是切断应答处理的流程图。
如果开始切断应答处理,则控制部2210生成表示追加声音对话代理与设备1700之间的通信结束之意的、预先设定的应答文本(例如,“切断了与‘追加声音对话代理’的连接。其他还有什么吗?”的字符串)(步骤S2700)。
这里,假设在“追加声音对话代理”的部分中,插入由对象代理DB2300的对象代理2320确定的声音对话代理2200的名称(这里是车代理、小卖铺代理和家代理中的某一个)。
如果生成应答文本,则声音合成处理部450对所生成的应答文本进行声音合成处理,生成应答声音数据(步骤S2710)。
如果生成应答声音数据,则控制部2210控制通信部420,对在步骤S2400的处理中作为输入声音数据的发送源的设备1700发送所生成的应答文本和所生成的应答声音数据(步骤S2720)。
如果步骤S2720的处理结束,则声音对话代理2200结束该切断应答处理。
再次回到图25,继续第2命令执行处理的说明。
在切断应答处理结束的情况下或步骤S2560的处理结束的情况下,声音对话代理2200结束该第2命令执行处理。
再次回到图24,继续第2代理处理的说明。
如果第2命令执行处理结束,则声音对话代理2200再次回到步骤S2400的处理,继续步骤S2400以下的处理。
<第3代理处理>
第3代理处理是声音对话代理2200进行的处理,是以下处理:(1)根据来自其他声音输入代理的请求开始与设备的通信,(2)接收从设备发送的输入声音数据,(3)对接收到的输入声音数据进行声音识别处理,生成输入文本并向设备返送,(4)基于所生成的输入文本,生成命令群并执行,(5)基于执行结果,生成应答文本,(6)将所生成的应答文本变换为应答声音数据,(7)将应答文本和应答声音数据向设备返送。
图28是第3代理处理的流程图。
在该图中,步骤S2800~步骤S2810的处理和步骤S2820~步骤S2860的处理是分别与实施方式1的第1命令执行处理(参照图9)的步骤S900~步骤S910的处理和步骤S920~步骤S960的处理同样的处理。因此,关于这些处理已经说明。
第3代理处理通过声音对话代理2200被启动而开始。
如果开始第3代理处理,则声音对话代理2200待机,直到由通信部420接收到从其他声音对话代理发送的连接命令(重复步骤S2811:否)。并且,如果接收到连接命令(步骤S2811:是),则控制部2210控制通信部420,执行开始与在连接命令中作为通信对象的设备1700之间的通信的连接处理。
这里,在该连接处理中,包括使设备1700发送的输入声音数据的发送目的地从发送了连接命令的声音对话代理2200变更为接收到连接命令的声音对话代理2200的处理。
如果执行连接处理,则控制部2210控制通信部420,生成作为表示开始了与设备1700之间的通信之意的信号的连接应答,将所生成的连接应答向作为连接命令的发送源的声音对话代理发送(步骤S2813)。
然后,控制部2210待机,直到由通信部420接收到从设备1700发送的输入声音数据(重复步骤S2814:否)。并且,如果接收到输入声音数据(步骤S2814:是),则执行步骤S2800~步骤S2810的处理。
如果步骤S2810的处理结束,则控制部2210调查由声音识别处理部430变换后的输入文本是否是结束与本声音对话代理的通信的文本(步骤S2815)。
在步骤S2815的处理中,在不是结束与本声音对话代理的通信的文本的情况下(步骤S2815:否),声音对话代理2200向步骤S2820的处理前进,进行步骤S2820~步骤S2860的处理。并且,如果步骤S2860的处理结束,则声音对话代理2200再次回到步骤S2814的处理,进行步骤S2814以下的处理。
在步骤S2815的处理中,在是结束与本声音对话代理的通信之意的文本的情况下(步骤S2815:是),控制部2210控制通信部420,执行结束与设备1700之间的通信的切断处理。
这里,在该切断处理中,包括使设备1700发送的输入声音数据的发送目的地从接收到连接命令的声音对话代理2200变更为发送了连接命令的声音对话代理2200的处理。
如果执行了切断处理,则控制部2210控制通信部420,生成作为表示与设备1700之间的通信结束之意的规定的信号的切断应答,将所生成的切断应答向作为连接命令的发送源的声音对话代理发送(步骤S2890)。
如果步骤S2890的处理结束,则声音对话代理2200回到步骤S2811的处理,进行步骤S2811以下的处理。
关于上述结构的第3变形声音对话系统进行的动作的具体例,以下使用附图进行说明。
<具体例>
图29是示意地表示利用第3变形声音对话系统的用户使用设备1700与作为声音对话代理2200中的1个的家代理开始使用声音的对话、然后通过由家代理生成的连接命令开始与作为声音对话代理2200中的另1个的车代理之间的通信、该用户进行与车代理的对话的情形的处理次序图。
这里,假设用户利用的设备1700的特定声音对话代理服务器是实现家代理的声音对话代理服务器110、对话结束声音是“结束。”的声音而进行说明。
在该图中,步骤S2900~步骤S2905的处理分别是与实施方式3的具体例(参照图21)的步骤S2100~步骤S2105的处理同样的处理。因此,关于这些处理已经说明。
如果步骤S2905的处理结束,则设备1700进行第2声音处理(步骤S2906,与图19的步骤S1930对应)。
在该第2声音输入处理中,如果用户输入了“连接车代理。”的声音,则设备1700将“连接车代理。”的输入声音数据向家代理发送(与图20的步骤S2040对应)。
于是,家代理接收该输入声音数据(与图24的步骤S2400:是对应),执行第2命令执行处理(与图24的步骤S2410对应)。
在第2命令执行处理中,由于输入文本是与车代理的通信请求(与图25的步骤S2515:是对应),所以家代理对车代理发送连接命令(与图25的步骤S2570对应)。
于是,车代理接收连接命令(与图28的步骤S2811:是对应),开始与设备1700之间的通信(与图28的步骤S2812对应),向家代理发送连接应答(步骤S2990,与图28的步骤S2813对应)。
于是,家代理接收连接应答(与图25的步骤S2575:是对应),执行第1连接应答处理(步骤S2965,与图25的步骤S2580对应)。
这里,在该第1连接应答处理中,如果声音对话代理2200生成“连接到了车代理。”的应答声音数据,则声音对话代理2200向设备1700发送“连接到了车代理。”的应答声音数据(与图26的步骤S2620对应)。
于是,设备1700接收该应答声音数据(与图19的步骤S1960:是对应),输出“连接到了车代理。”的声音(步骤S2907,与图19的步骤S1980对应)。
并且,由于“连接到了车代理。”的声音不是对话结束声音(与图19的步骤S1985:否对应),所以设备1700进行第2声音处理(步骤S2910,与图19的步骤S1930对应)。
在该第2声音输入处理中,如果用户输入了“车内的温度是?”的声音,则设备1700将“车内的温度是?”的输入声音数据向车代理发送(与图20的步骤S2040对应)。
于是,车代理接收该输入声音数据(与图28的步骤S2814:是对应),由于该声音数据不是请求通信结束的数据(与图28的步骤S2815:否对应),所以生成与该输入声音数据对应的命令群并执行(步骤S2994,与图28的步骤S2830对应)。
这里,在该命令群的执行中,如果车代理生成了“车内的温度是38度。其他还有什么吗?”的应答声音数据,则车代理向设备1700发送“车内的温度是38度。其他还有什么吗?”的应答声音数据(与图28的步骤S2860对应)。
于是,设备1700接收该应答声音数据(与图19的步骤S1960:是对应),输出“车内的温度是38度。其他还有什么吗?”的声音(步骤S2915,与图19的步骤S1980对应)。
并且,由于“车内的温度是38度。其他还有什么吗?”的声音不是对话结束声音(与图19的步骤S1985:否对应),所以设备1700进行第2声音处理(步骤S2930,与图19的步骤S1930对应)。
在该第2声音输入处理中,如果用户输入了“没有了。谢谢。”的声音,则设备1700将“没有了。谢谢。”的输入声音数据向车代理发送(与图20的步骤S2040对应)。
于是,车代理接收该输入声音数据(与图28的步骤S2814:是对应),由于该声音数据是请求通信结束的数据(与图28的步骤S2815:是对应),所以将与设备1700之间的通信结束(与图28的步骤S2870对应),向家代理发送切断应答(步骤S2998,与图28的步骤S2890对应)。
于是,家代理接收该切断应答(与图25的步骤S2585:是对应),执行切断应答处理(步骤S2970,与图25的步骤S2890的处理对应)。
这里,在该切断处理中,如果声音对话代理2200生成了“切断了与车代理的连接。其他还有什么吗?”的应答声音数据,则声音对话代理2200向设备1700发送“切断了与车代理的连接。其他还有什么吗?”的应答声音数据(与图27的步骤S2720对应)。
于是,设备1700接收该应答声音数据(与图19的步骤S1960:是对应),输出“切断了与车代理的连接。其他还有什么吗?”的声音(步骤S2935,与图19的步骤S1980对应)。
并且,由于“切断了与车代理的连接。其他还有什么吗?”的声音不是对话结束声音(与图19的步骤S1985:否对应),所以设备1700进行第2声音处理(步骤S2950,与图19的步骤S1930对应)。
在该第2声音输入处理中,如果用户输入了“没有了。谢谢。”的声音,则设备1700将“没有了。谢谢。”的输入声音数据向家代理发送(与图20的步骤S2040对应)。
于是,家代理接收该输入声音数据(与图24的步骤S2800:是对应),执行第2命令执行处理(步骤S2975,与图24的步骤S2410对应)。
这里,在该第2命令执行处理中,如果家代理生成了“结束。”的应答声音数据,则家代理向设备1700发送“结束。”的应答声音数据(与图25的步骤S2560对应)。
于是,设备1700接收该应答声音数据(与图19的步骤S1960:是对应),输出“结束。”的声音(步骤S2955,与图19的步骤S1980对应)。
由于“结束。”的声音是对话结束声音(与图19的步骤S1985:是对应),所以状态转移到声音输入可受理状态(与图19的步骤S1990对应),设备1700结束第3设备处理。
<考察>
根据上述结构的第3变形声音对话系统,当考虑利用第3变形声音对话系统的用户在与声音对话代理A通信的情况下、与声音对话代理A相比希望声音对话代理B进行处理时,能够将通信而处理的声音对话代理从声音对话代理A变更为声音对话代理B,使声音对话代理B执行希望的处理。
此外,在此情况下,由于声音对话代理A将输入声音原样向声音对话代理B传送,所以声音对话代理B能够对该输入声音本身进行声音识别处理。因此,用户能够从声音对话代理B接受更适当的服务的提供。
<实施方式5>
<概要>
以下,作为有关本发明的声音对话方法的一形态及有关本发明的设备的一形态,对将实施方式4的第3变形声音对话系统的一部分变形后的第4变形声音对话系统进行说明。
实施方式4的第3变形声音对话系统是在设备在与声音对话代理A之间开始了通信的情况下、当利用第3变形声音对话系统的用户使用该设备进行了想要在与其他声音代理B之间进行通信之意的声音输入时、以后该设备的通信对方从声音对话代理A变更为声音对话代理B的结构的例子。
相对于此,实施方式5的第4变形声音对话系统为在设备在与声音对话代理A之间开始了通信的情况下、当在其通信内容中满足规定的条件时声音对话代理A判定为作为用户利用的声音对话代理、与该声音对话代理A相比更应将其他声音对话代理B作为通信对方、以后将该设备的通信对方从声音对话代理A变更为声音对话代理B的结构的例子。
以下,关于该第4变形声音对话系统的详细情况,以与实施方式4的第3变形声音对话系统的不同点为中心,参照附图进行说明。
<结构>
第4变形声音对话系统从实施方式4的第3变形声音对话系统变形为声音对话代理2200被变更为声音对话代理3000。
声音对话代理3000与实施方式4的声音对话代理2200同样,由声音对话代理服务器110实现。
由声音对话代理服务器110执行的、用来实现声音对话代理3000的软件的一部分相对于用来实现实施方式3的声音对话代理2200的软件变更。并且,由此声音对话代理3000从实施方式4的声音对话代理2200变形为其功能的一部分被变更。
图30是表示声音对话代理3000的功能结构的框图。
如该图所示,声音对话代理3000从实施方式4的声音对话代理2200(参照图22)变形为,去除了对象代理DB存储部2220、追加了可利用服务DB存储部3020、将控制部2210变更为控制部3010。
可利用服务DB存储部3020作为一例由存储器和执行程序的处理器实现,连接于控制部3010,具有存储可利用服务DB3100的功能。
图31是存储在可利用服务DB存储部3020中的可利用服务DB3100的数据结构图。
如该图所示,可利用服务DB3100将关键字3110、对象代理3120、处理内容3130、IP地址3140和利用可否3150建立对应而构成。
关键字3110是设想在由声音识别处理部430变换后的输入文本中包含的字符串。
对象代理3120是确定成为设备1700的通信对象的追加声音对话代理的信息。
在该例中,与实施方式4同样,是在由对象代理2320确定的追加声音对象代理中包含车代理、小卖铺代理和家代理的结构的例子。
处理内容3130是表示在由声音识别处理部430变换后的输入文本中包含有建立了对应的关键字3110的情况下、作为由建立了对应的对象代理3120确定的追加声音对话代理所执行的对象的处理的内容的信息。
IP地址3140是关于实现由建立了对应的对象代理3120确定的追加声音对话代理的声音对话代理服务器110的、网络120中的IP地址。
利用可否3150是表示能否由本声音对话代理进行由建立了对应的处理内容3130表示的内容的处理的信息。
再次回到图30,继续声音对话代理3000的说明。
控制部3010从实施方式4的控制部2210变形为,控制部2210具有的功能中的第2代理处理实现功能被变更为以下所述的第4代理处理实现功能。
所谓第4代理处理实现功能,是控制部3010控制通信部420、声音识别处理部430、声音合成处理部450和命令生成部460、通过使声音对话代理3000执行作为其特征性的动作的第4代理处理、使声音对话代理2200实现以下的一系列处理的功能:(1)接收从设备发送的输入声音数据,(2)对接收到的输入声音数据进行声音识别处理,生成输入文本并向设备返送,(3)在所生成的输入文本中包含规定的关键字的情况下,实现设备和与该关键字建立了对应的对象代理之间的通信,(4)在不是那样的情况下,基于所生成的输入文本,生成命令群并执行,(5)基于执行结果,生成应答文本,(6)将所生成的应答文本变换为应答声音数据,(7)将应答文本和应答声音数据向设备返送。
另外,第4代理处理在后面的<第4代理处理>的项目中使用流程图详细地说明。
关于如以上那样构成的第4变形声音对话系统进行的动作,以下参照附图进行说明。
<动作>
第4变形声音对话系统中,作为其特征性的动作,除了实施方式4的第2设备处理和第3代理处理以外,还进行从实施方式3的第2代理处理变更了其处理的一部分的第4代理处理。
以下,关于该第4代理处理,以相对于第2代理处理的变更点为中心进行说明。
<第4代理处理>
第4代理处理是声音对话代理3000进行的处理,是以下处理:(1)接收从设备发送的输入声音数据,(2)对接收到的输入声音数据进行声音识别处理,生成输入文本并向设备返送,(3)在所生成的输入文本中包含有规定的关键字的情况下,实现设备和与该关键字建立了对应的对象代理之间的通信,(4)在不是那样的情况下,基于所生成的输入文本,生成命令群并执行,(5)基于执行结果,生成应答文本,(6)将所生成的应答文本变换为应答声音数据,(7)将应答文本和应答声音数据向设备返送。
图32是第4代理处理的流程图。
第4代理处理通过将声音对话代理3000启动而开始。
如果开始第4代理处理,则声音对话代理3000待机,直到由通信部420接收到从设备1700发送的输入声音数据(重复步骤S3200:否)。并且,如果接收到输入声音数据(步骤S3200:是),则声音对话代理3000执行第3命令执行处理(步骤S3210)。
图33是第3命令执行处理的流程图。
在该图中,步骤S3300~步骤S3310的处理、步骤S3320~步骤S3360的处理、步骤S3365~步骤S3375的处理和步骤S3385~步骤S3390的处理是分别与实施方式4的步骤S2500~步骤S2510的处理、步骤S2520~步骤S2560的处理、步骤S2565~步骤S2575的处理和步骤S2585~步骤S2590的处理同样的处理。因此,关于这些处理已经说明。
如果步骤S3310的处理结束,则控制部3010参照存储在可利用服务DB存储部3020中的可利用服务DB3100(步骤S3312),判定将与输入文本对应的处理是否应该用其他声音对话代理执行(步骤S3315)。即,在输入文本数据中包含有关键字3110的情况下,当与该关键字3110建立了对应的对象代理3120不是本声音对话代理时,判定为应由其他声音对话代理(由对象代理3120确定的追加声音对话代理)执行,如果是其以外,则判定为不应由其他的声音对话代理执行。
在步骤S3315的处理中判定为不应由其他的声音对话代理执行的情况下(步骤S3315:否),声音对话代理3000向步骤S3320的处理前进,进行步骤S3320~步骤S3360的处理。
在步骤S3315的处理中判定为应由其他的声音对话代理执行的情况下(步骤S3315:是),声音对话代理3000向步骤S3365的处理前进,进行步骤S3365~步骤S3375的处理。
在步骤S3375的处理中,如果由通信部420接收到从追加声音对话代理返送的连接应答(步骤S3375:是),则声音对话代理3000执行第2连接应答处理(步骤S3380)。
图34是第2连接应答处理的流程图。
如果开始第2连接应答处理,则控制部3010控制通信部420,将在步骤S3200:是的处理中接收到的输入声音数据向在步骤S3315:是的处理中确定的追加声音对话代理传送(步骤S3400)。
如果步骤S3400的处理结束,则声音对话代理3000结束该第2连接应答处理。
再次回到图33,继续第2命令执行处理的说明。
如果第2连接应答处理结束,则声音对话代理3000向步骤S3385的处理前进,进行步骤S3385~步骤S3390的处理。
在步骤S3390的处理结束的情况下或在步骤S3360的处理结束的情况下,声音对话代理3000结束该第3命令执行处理。
再次回到图32,继续第4代理处理的说明。
如果第3命令执行处理结束,则声音对话代理3000再次回到步骤S3200的处理,继续步骤S3200以下的处理。
关于上述结构的第4变形声音对话系统进行的动作的具体例,以下使用附图进行说明。
<具体例>
图35是示意地表示利用第4变形声音对话系统的用户使用设备1700与作为声音对话代理3000中的1个的家代理开始使用声音的对话、然后通过由家代理生成的连接命令开始与作为声音对话代理3000中的另1个的车代理之间的通信、该用户进行与车代理的对话的情形的处理次序图。
这里,假设用户利用的设备1700的特定声音对话代理服务器是实现家代理的声音对话代理服务器110、对话结束声音是“结束。”的声音而进行说明。
在该图中,步骤S3500~步骤S3505的处理是分别与实施方式4的具体例(参照图29)的步骤S2900~步骤S2905的处理同样的处理。因此,关于这些处理已经说明。
如果步骤S3505的处理结束,设备1700进行第2声音处理(步骤S3506,与图19的步骤S1930对应)。
在该第2声音输入处理中,如果用户输入了“车内的温度是?”的声音,则设备1700将“车内的温度是?”的输入声音数据向家代理发送(与图20的步骤S2040对应)。
于是,家代理接收该输入声音数据(与图32的步骤S3200:是对应),执行第3命令执行处理(与图32的步骤S3210对应)。
在第3命令执行处理中,由于在输入文本中包含“温度”、“车内”的关键字,对象代理3120不是家代理(与图33的步骤S3315:否对应),所以家代理对车代理发送连接命令(与图33的步骤S3370对应)。
于是,车代理接收连接命令(与图28的步骤S2811:是对应),开始与设备1700之间的通信(与图28的步骤S2812对应),向家代理发送连接应答(步骤S3590,与图28的步骤S2813对应)。
于是,家代理接收连接应答(与图33的步骤S3375:是对应),执行第2连接应答处理(与图33的步骤S3380对应)。
在第2连接应答处理中,家代理将“车内的温度是?”的输入声音数据向车代理传送(与图34的步骤S3400对应)。
于是,车代理接收该输入声音数据(与图28的步骤S2814:是对应),由于该声音数据不是请求通信结束的数据(与图28的步骤S2815:否对应),所以生成与该输入声音数据对应的命令群并执行(步骤S3594,与图28的步骤S2830对应)。
这里,在该命令群的执行中,如果车代理生成了“车内的温度是38度。其他还有什么吗?”的应答声音数据,则车代理向设备1700发送“车内的温度是38度。其他还有什么吗?”的应答声音数据(与图28的步骤S2860对应)。
于是,设备1700接收该应答声音数据(与图19的步骤S1960:是对应),输出“车内的温度是38度。其他还有什么吗?”的声音(步骤S3507,与图19的步骤S1980对应)。
并且,由于“车内的温度是38度。其他还有什么吗?”的声音不是对话结束声音(与图19的步骤S1985:否对应),所以设备1700进行第2声音处理(步骤S3510,与图19的步骤S1930对应)。
在该第2声音输入处理中,如果用户输入了“将空调以25度开启。”的声音,则设备1700将“将空调以25度开启。”的输入声音数据向车代理发送(与图20的步骤S2040对应)。
于是,车代理接收该输入声音数据(与图28的步骤S2814:是对应),由于该声音数据不是请求通信结束的数据(与图28的步骤S2815:否对应),所以生成与该输入声音数据对应的命令群并执行(步骤S3594,与图28的步骤S2830对应)。
这里,在该命令群的执行中,如果车代理生成了“将空调以25度开启了。其他还有什么吗?”的应答声音数据,则车代理向设备1700发送“将空调以25度开启了。其他还有什么吗?”的应答声音数据(与图28的步骤S2860对应)。
于是,设备1700接收该应答声音数据(与图19的步骤S1960:是对应),输出“将空调以25度开启了。其他还有什么吗?”的声音(步骤S3525,与图19的步骤S1980对应)。
并且,由于“将空调以25度开启了。其他还有什么吗?”的声音不是对话结束声音(与图19的步骤S1985:否对应),所以设备1700进行第2声音处理(步骤S3530,图19的步骤S1930对应)。
在该第2声音输入处理中,如果用户输入了“没有了。谢谢。”的声音,则设备1700将“没有了。谢谢。”的输入声音数据向车代理发送(与图20的步骤S2040对应)。
于是,车代理接收该输入声音数据(与图28的步骤S2814:是对应),由于该声音数据是请求通信结束的数据(与图28的步骤S2815:是对应),所以将与设备1700之间的通信结束(与图28的步骤S2870对应),向家代理发送切断应答(步骤S3598,与图28的步骤S2890对应)。
于是,家代理接收该切断应答(与图25的步骤S2585:是对应),执行切断应答处理(步骤S2970,与图25的步骤S2890的处理对应)。
这里,在该切断处理中,如果声音对话代理2200生成了“结束。”的应答声音数据,则声音对话代理2200向设备1700发送“结束。”的应答声音数据(与图27的步骤S2720对应)。
于是,设备1700接收该应答声音数据(与图19的步骤S1960:是对应),输出“结束。”的声音(步骤S3555,与图19的步骤S1980对应)。
由于“结束。”的声音是对话结束声音(与图19的步骤S1985:是对应),所以状态转移到声音输入可受理状态(与图19的步骤S1990对应),设备1700结束第4设备处理。
<考察>
根据上述结构的第4变形声音对话系统,在利用第3变形声音对话系统的用户与声音对话代理A进行通信的情况下,在声音对话代理A判定为与声音对话代理A相比更应该将声音对话代理B作为通信对方的情况下,能够将用户的通信对方的声音对话代理从声音对话代理A变更为声音对话代理B。
由此,用户即使不知道在各声音对话代理中提供了怎样的服务,也能够从更适当的声音对话代理接受服务的提供。
此外,在此情况下,声音对话代理A将输入声音原样向声音对话代理B传送,所以声音对话代理B能够对该输入声音本身进行声音识别处理。因此,用户能够接受更适当的服务的提供。
<实施方式6>
这里,例示运用实施方式1的声音对话系统100的运用形态的一例。当然,实施方式1的声音对话系统100也可以以这里例示以外的运用形态运用。
图36(A)是示意地表示运用实施方式1的声音对话系统100的运用形态的示意图。
在图36(A)中,组3600例如是企业、团体、家庭等,不限制其规模。在组3600中,存在多个设备3601(设备A、设备B等)及家庭网关3602。在多个设备3601中,既有能够与因特网连接的设备(例如智能电话、PC、TV等),也存在其自身不能与因特网连接的设备(例如照明、洗衣机、冰箱等)。也可以存在其自身虽然是不能与因特网连接的设备、但能够经由家庭网关3602而与因特网连接的设备。此外,在组3600中存在使用多个设备3601的用户10。例如,组3600中表示的设备分别相当于实施方式1的设备140。
在数据中心运营公司3610中存在云服务器3611。所谓云服务器3611,是经由因特网与各种设备协同的虚拟服务器。主要管理难以用通常的数据库管理工具等处置的庞大的数据(大数据)等。数据中心运营公司3610进行数据管理、云服务器3611的管理及进行这些管理的数据中心的运营等。关于数据中心运营公司3610进行的工作,后述其详细情况。这里,数据中心运营公司3610并不限于仅进行数据管理、云服务器3611的运营等的公司。例如在开发、制造多个设备3601中的1个设备的设备制造商同时进行数据管理及云服务器3611的管理等的情况下,设备制造商相当于数据中心运营公司3610(参照图36(B))。此外,数据中心运营公司3610并不限于1个公司。例如在设备制造商及其他管理公司共同或分担进行数据管理及云服务器3611的运营的情况下,两者或某一方相当于数据中心运营公司3610(参照图36(C))。例如,由数据中心运营公司3610提供与设备140建立了关联的声音对话代理400(也称作“第1声音对话代理”)。
服务提供者3620拥有服务器3621。这里所述的服务器3621,其规模没有限制,例如还包括个人用PC内的存储器等。此外,也有服务提供者不拥有服务器3621的情况。例如,由服务提供者3620提供从第1声音对话代理连接的其他的声音对话代理400(也称作第2声音对话代理)。
接着,说明上述运用形态的信息的流向。
首先,组3600的设备A或设备B将各日志信息向数据中心3610的云服务器3611发送。云服务器3611将设备A或设备B的日志信息汇集(图36(a))。这里,所谓日志信息,是表示多个设备3601的例如运转状态或动作日时等的信息。例如是电视机的视听履历、记录机的录像预约信息、洗衣机的运转日期时间/洗涤物的量、冰箱的开闭日期时间/开闭次数等,但并不限于这些,是指能够从所有的设备取得的全部的信息。日志信息也有经由因特网从多个设备3601自身直接向云服务器3611提供的情况。此外,也可以从多个设备3601暂且将日志信息汇集到家庭网关3602,从家庭网关3602向云服务器3611提供。
接着,数据中心运营公司3610的云服务器3611将汇集的日志信息以一定的单位向服务提供者3620提供。这里,既可以是能够将数据中心运营公司3610所汇集的信息进行整理并向服务提供者3620提供的单位,也可以是服务提供者3620请求的单位。记载为一定的单位,但也可以不是一定,也有根据状况而所提供的信息量变化的情况。上述日志信息根据需要而保存在服务提供者3620拥有的服务器3621中(图36(b))。并且,服务提供者3620将日志信息整理为适合于向用户提供的服务的信息,向用户提供。提供的用户既可以是使用多个设备3601的用户10,也可以是外部的用户20。向用户的服务提供方法例如也可以从服务提供者3620直接向用户提供(图36(e))。此外,向用户的服务提供方法例如也可以再次经由数据中心运营公司3610的云服务器3611而向用户提供(图36(c)、图36(d))。此外,数据中心运营公司3610的云服务器3611也可以将日志信息整理为适合向用户提供的服务的信息,向服务提供者3620提供。
另外,用户10和用户20既可以不同也可以相同。
以下,例示一些能够在上述运用形态中提供的服务的类型。
<服务的类型1:本公司数据中心型>
图37是示意地表示服务的类型1(本公司数据中心型)的示意图。
本类型是服务提供者3620从组3600取得信息、对用户提供服务的类型。在本类型中,服务提供者3620具有数据中心运营公司的功能。即,服务提供者3620拥有进行大数据的管理的云服务器3611。因而,不存在数据中心运营公司。
在本类型中,服务提供者3620运营、管理数据中心(云服务器3611)(3703)。此外,服务提供者3620管理OS(3702)及应用(3701)。服务提供者3620使用所管理的OS(3702)及应用(3701)进行服务提供(3704)。
<服务的类型2:IaaS利用型>
图38是示意地表示服务的类型2(IaaS利用型)的示意图。这里,所谓IaaS,是基础设施即服务(InfrastructureasaService)的简称,是将用来构建计算机系统及使其工作的基础设施本身作为经由因特网的服务提供的云服务提供模型。
在本类型中,数据中心运营公司3610运营、管理数据中心(云服务器3611)(3703)。此外,服务提供者3620管理OS(3702)及应用(3701)。服务提供者3620使用所管理的OS(3702)及应用(3701)进行服务提供(3704)。
<服务的类型3:PaaS利用型>
图39是示意地表示服务的类型3(PaaS利用型)的示意图。这里,所谓PaaS,是平台即服务(PlatformasaService)的简称,是将作为用来构建软件及使其工作的基础的平台作为经由因特网的服务提供的云服务提供模型。
在本类型中,数据中心运营公司3610管理OS(3702),运营、管理数据中心(云服务器3611)(3703)。此外,服务提供者3620管理应用(3701)。服务提供者3620使用数据中心运营公司3610所管理的OS(3702)及服务提供者3620所管理的应用(3701)进行服务提供(3704)。
<服务的类型4:SaaS利用型>
图40是示意地表示服务的类型4(SaaS利用型)的示意图。这里,所谓SaaS,是软件即服务(SoftwareasaService)的简称。例如是具有以下功能的云服务提供模型:不拥有数据中心(云服务器)的公司/个人(利用者)能够经由因特网等网络使用拥有数据中心(云服务器)的平台提供者所提供的应用。
在本类型中,数据中心运营公司3610管理应用(3701),管理OS(3702),运营、管理数据中心(云服务器3611)(3703)。此外,服务提供者3620使用数据中心运营公司3610所管理的OS(3702)及应用(3701)进行服务提供(3704)。
在以上任何类型中,服务提供者3620都进行服务提供行为。此外,例如,服务提供者3620或数据中心运营公司3610既可以自己开发OS、应用或大数据的数据库等,也可以外包给第三者。
<补充>
以上,作为有关本发明的声音对话方法的一形态及有关本发明的设备的一形态,在实施方式1~实施方式5中例示了5个声音对话系统、此外在实施方式6中例示声音对话系统的运用形态而进行了说明,但也可以如以下这样变形,当然并不限定于在实施方式1~实施方式6中例示的声音对话系统或其运用形态中使用的声音对话方法及设备。
(1)在实施方式1中,假设声音对话系统100如图1所示由声音对话代理服务器110、网络120、网关130和设备140构成而进行了说明。相对于此,作为另一例,声音对话系统也可以除了声音对话代理服务器110、网络120、网关130和设备140以外,还由具有存储对象代理DB2300、进行声音对话代理间的对应建立、连接切换等功能的中介服务器4150构成。
图41是表示包括中介服务器4150而构成的声音对话系统4100的结构的系统结构图。
图42是表示中介服务器4150的功能结构的框图。
如该图所示,中介服务器4150由通信部4220、控制部4210和对象代理DB存储部4230构成。
这里,对象代理DB存储部4230与实施方式4的对象代理DB存储部2220同样,具有存储对象代理DB2300的功能。
此外,作为另一例,声音对话系统也可以代替中介服务器4150而包括具有将可利用服务DB3100进行存储、进行声音对话代理间的对应建立、连接切换等功能的中介服务器4350而构成。
图43是表示中介服务器4350的功能结构的框图。
如该图所示,中介服务器4350由通信部4320、控制部4310和可利用服务DB存储部4330构成。
这里,可利用服务DB存储部4330与实施方式5的可利用服务DB3020同样,具有存储可利用服务DB3100的功能。
(2)在实施方式1中,作为在设备140的显示部270上显示的图像,例示图12所示的图像进行了说明。
相对于此,作为其他图像例,可以考虑图44(a)~图44(d)、图45(a)、图45(b)等。
在图12、图44(a)~图44(d)、图45(b)的例子中,在显示的各应答文本的行头,显示有“你”、“车代理”、“家代理”等确定讲话的主体的字符串。此外,在图45(a)中,显示有确定讲话的主体的图标(图像)。
在图44(a)、图44(b)的例子中,在画面的上部显示有“与家代理对话中”、“与车代理对话中”等确定正在对话的声音对话代理的字符串,以便知道当前正在对话的声音对话代理。
在图44(d)的例子中,在相应的应答文本的上部显示有“与家代理对话中”、“与车代理对话中”等确定正在(过去)对话的声音对话代理的字符串,以便知道当前或过去对话的(过去的)声音对话代理。此外,在图45(b)中,显示有确定正在(过去)对话的声音对话代理的图标(图像)。
此外,这些显示例不过是一例,也可以通过颜色表示正与哪个声音对话代理对话,也可以用画面的形状或构成画面的一部分的形状表示正与哪个声音对话代理对话。进而,也可以按讲话的每个主体变更背景的颜色或壁纸等。这样,只要正在对话的声音对话代理或讲话的主体可由用户识别地显示就可以。
(3)在实施方式1及上述变形例中,说明了将正在对话的声音对话代理或讲话的主体可通过视觉识别地显示的例子。但是,只要能够由用户识别,则正在对话的声音对话代理或讲话的主体并不一定限定于可通过视觉识别地显示的例子。
例如,既可以进行“与家代理对话中。”的声音输出,以便知道正在对话的声音对话代理,也可以用效果音知道正与哪个声音对话代理对话,也可以通过音色、语速、音量等知道正与哪个声音对话代理进行对话。
(4)在实施方式1中,设由控制部210进行的状态的管理以图3的状态转移图所示的形态管理而进行了说明。此外,在实施方式2中,设由控制部1310进行的状态的管理以图14的状态转移图所示的形态管理而进行了说明。并且,在实施方式3中,设由控制部1710进行的状态的管理以图18的状态转移图所示的形态管理而进行了说明。
对于这些,由控制部进行的状态的管理并不限于通过上述形态的管理,也可以考虑通过其他形态的状态的管理。在图46~图50中,示出表示由控制部进行的其他形态的状态的管理例的状态转移图。
例如,在以图48的状态转移图所示的形态管理状态的情况下,即使从状态转移到声音输入可受理状态起没有经过规定时间,在声音输出部260输出了基于从声音对话代理110发送的应答文本的声音的情况下,当该声音是对话结束声音时,状态也被转移到声音输入不可受理状态。因此,声音输入部220当由通信部250接收到的、由声音对话代理110生成的声音信号表示不需要新的声音输入之意时,即使从转移到声音输入可受理状态起没有经过规定时间,也成为声音输入不可受理状态。
(5)在实施方式1中,显示部270作为一例,假设是由触摸面板、触摸面板控制器和执行程序的处理器实现、通过使显示部270的右下的区域1120(参照图11(a)、图11(c)、图12等)来进行是声音输入可受理状态之意的显示的结构而进行了说明。但是,只要能够使用户认识到是声音输入可受理状态,并不一定限定于上述结构例。作为其他例子,可以考虑显示部270由LED(LightEmittingDiode)和执行程序的处理器实现、通过使该LED点亮来进行是声音输入可受理状态之意的显示的结构的例子。但是,在该结构的例子中,由于显示部270不具有显示字符串的机构,不进行由通信部250接收到的应答文本的显示。
(6)在实施方式1中,假设通信部250构成为当作为通信目的地的声音对话代理服务器110没有被指定特定的1个时、参照存储在地址存储部240中的IP地址而与特定声音对话代理服务器通信来进行了说明。相对于此,作为另一例,可以考虑地址存储部240没有存储特定声音对话代理服务器的IP地址、与实现由用户指定的声音对话代理服务器或由用户指定的声音对话代理的声音对话代理服务器进行通信的结构的例子。
(7)在实施方式1中,假设设备140分别经由网关130和网络120与声音对话代理110进行通信而进行了说明。
相对于此,也可以是在设备140中具有不经由网关130而直接连接到网络120的功能、存在不经由网关130而与声音对话代理进行通信的功能的结构。在全部的设备140不经由网关而直接连接到网络120的情况下,不再需要网关130。
(8)构成上述实施方式及上述变形例的各要素的一部分或全部也可以由1个系统LSI构成。系统LSI是将多个构成部分集成到1个芯片上而制造的超多功能LSI。具体而言,是包括微处理器、ROM、RAM等而构成的计算机系统。在ROM、RAM等中存储有计算机程序,通过由微处理器按照这些计算机程序动作,系统LSI实现其功能。
(9)构成上述实施方式及上述变形例的各要素的一部分或全部也可以包括能够对装置拆装的IC(IntegratedCircuit)卡或模块而构成。这些IC卡或模块是包括微处理器、ROM、RAM等而构成的计算机系统。这些IC卡或模块也可以包括上述超多功能LSI。在ROM、RAM等中存储有计算机程序,通过由微处理器按照这些计算机程序动作,这些IC卡或模块实现其功能。这些IC卡或模组也可以具有防篡改性。
(10)也可以将在上述实施方式及上述变形例中利用的计算机程序或数字信号记录到计算机能够读取的记录介质、例如软盘、硬盘、CD-ROM、MD、DVD、DVD-ROM、DVD-RAM、BD、半导体存储器等中。
此外,也可以将在上述实施方式及上述变形例中利用的计算机程序或数字信号经由电气通信线路、无线或有线通信线路、以因特网为代表的网络、数据广播等传送。
也可以通过将在上述实施方式及上述变形例中利用的计算机程序或数字信号记录到计算机可读取的记录介质中并移送、或经由网络等传送,使得在其他的计算机系统中也能够实施。
(12)也可以将上述实施方式及上述变形例分别组合。
(13)以下,进一步关于有关本发明的一形态的声音对话方法及设备,对它们的结构及它们的变形例和各效果进行说明。
(a)有关本发明的一实施方式的声音对话方法,由具备声音信号生成部、声音对话代理部、声音输出部和声音输入控制部的声音对话系统进行,其特征在于,上述声音信号生成部受理声音输入,生成基于所受理的声音输入的声音信号;上述声音对话代理部对由上述声音信号生成部生成的声音信号进行声音识别处理,进行基于该声音识别处理的结果的处理,生成有关该处理的应答信号;上述声音输出部输出基于由上述声音对话代理部生成的应答信号的声音;在由上述声音输出部输出上述声音的情况下,上述声音输入控制部从该输出起规定期间中,使上述声音信号生成部成为能够进行上述声音输入的受理的可受理状态。
根据上述有关本发明的一实施方式的声音对话方法,当输出了由声音对话代理部生成的声音时,用户即使不对声音对话系统进行操作,也能够进行声音输入。由此,随着对话形式的声音输入而用户需要进行的操作的次数比以往减少。
(b)此外,也可以是,上述声音对话系统具备显示部;在上述声音信号生成部是上述可受理状态的情况下,上述显示部进行表示上述声音信号生成部是上述可受理状态之意的显示。
通过这样,用户能够通过目视识别声音信号生成部是否是可受理状态。
(c)此外,也可以是,上述声音对话系统具备追加声音对话代理部;上述声音对话代理部基于上述声音识别处理的结果,决定通过上述声音对话代理部和上述追加声音对话代理部中的哪一个进行基于声音识别处理的结果的处理;上述声音对话代理部仅在上述决定中决定为通过上述声音对话代理部进行的情况下,进行基于上述声音识别处理的结果的处理;在上述决定中决定为通过上述追加声音对话代理部进行的情况下,上述追加声音对话代理部对由上述声音信号生成部受理的声音进行声音识别处理,进行基于该声音识别处理的结果的处理,生成有关该处理的应答信号;上述声音输出部输出基于由上述追加声音对话代理部生成的应答信号的声音。
通过这样,能够使与声音对话代理部处理相比更适合由追加声音对话代理部处理的处理由追加声音对话代理部处理。
(d)此外,也可以是,上述显示部在进行基于声音识别处理的结果的处理的代理部是上述声音对话代理部的情况下,进行上述显示,以表示进行基于声音识别处理的结果的处理的代理部是上述声音对话代理部之意;在进行基于声音识别处理的结果的处理的代理部是上述追加声音对话代理部的情况下,进行上述显示,以表示进行基于声音识别处理的结果的处理的代理部是上述追加声音对话代理部之意。
通过这样,用户能够通过目视识别进行处理的代理部是声音对话代理部和追加声音对话代理部中的哪一个。
(e)此外,也可以是,上述声音对话代理部在上述决定中决定为通过上述追加声音对话代理部进行的情况下,上述声音对话代理部将由上述声音信号生成部生成的声音信号向上述追加声音对话代理部传送;上述追加声音对话代理部对从上述声音对话代理部传送的声音信号进行上述声音识别处理。
通过这样,追加声音对话代理部能够利用从声音对话代理部传送的声音信号进行声音识别处理。
(f)此外,也可以是,在上述声音信号生成部是上述可受理状态的情况下,当由上述声音对话代理部生成的应答信号表示不需要新的声音输入的受理之意时,即使是上述规定期间,上述声音输入控制部也使上述声音信号生成部成为不能进行上述声音输入的受理的不可受理状态。
通过这样,即使是规定期间,只要不需要声音输入的受理,就能够使声音信号生成部成为不可受理状态。
(g)有关本发明的一实施方式的设备的特征在于,具备:声音信号生成部,受理声音输入,生成基于所受理的声音输入的声音信号;发送部,将由上述声音信号生成部生成的声音信号向外部的服务器发送;接收部,接收由接收到上述发送部所发送的声音信号的上述服务器基于该声音信号生成并返送的应答信号;声音输出部,输出基于由上述接收部接收到的应答信号的声音;声音输入控制部,在由上述声音输出部输出上述声音的情况下,从该输出起规定期间中,使上述声音信号生成部成为能够进行上述声音输入的受理的可受理状态。
根据上述有关本发明的一实施方式的设备,当输出了由服务器生成的声音时,用户即使不对声音对话系统进行操作,也能够进行声音输入。由此,随着对话形式的声音输入而用户需要进行的操作的次数比以往减少。
工业实用性
有关本发明的声音对话方法及设备能够广泛应用到基于从用户以对话形式输入的声音进行处理的声音对话系统中。
标号说明
100声音对话系统
110声音对话代理服务器
120网络
130网关
140设备
210控制部
220声音输入部
230操作受理部
240地址存储部
250通信部
260声音输出部
270显示部
280执行部
400声音对话代理
410控制部
420通信部
430声音识别处理部
440对话DB存储部
450声音合成处理部
460命令生成部

Claims (7)

1.一种声音对话方法,由具备声音信号生成部、声音对话代理部、声音输出部和声音输入控制部的声音对话系统进行,其特征在于,
上述声音信号生成部受理声音输入,生成基于所受理的声音输入的声音信号;
上述声音对话代理部对由上述声音信号生成部生成的声音信号进行声音识别处理,进行基于该声音识别处理的结果的处理,生成有关该处理的应答信号;
上述声音输出部输出基于由上述声音对话代理部生成的应答信号的声音;
在由上述声音输出部输出上述声音的情况下,上述声音输入控制部从该输出起规定期间中,使上述声音信号生成部成为能够进行上述声音输入的受理的可受理状态。
2.如权利要求1所述的声音对话方法,其特征在于,
上述声音对话系统具备显示部;
在上述声音信号生成部是上述可受理状态的情况下,上述显示部进行表示上述声音信号生成部是上述可受理状态之意的显示。
3.如权利要求2所述的声音对话方法,其特征在于,
上述声音对话系统具备追加声音对话代理部;
上述声音对话代理部基于上述声音识别处理的结果,决定通过上述声音对话代理部和上述追加声音对话代理部中的哪一个进行基于声音识别处理的结果的处理;
上述声音对话代理部仅在上述决定中决定为通过上述声音对话代理部进行的情况下,进行基于上述声音识别处理的结果的处理;
在上述决定中决定为通过上述追加声音对话代理部进行的情况下,
上述追加声音对话代理部对由上述声音信号生成部受理的声音进行声音识别处理,进行基于该声音识别处理的结果的处理,生成有关该处理的应答信号;
上述声音输出部输出基于由上述追加声音对话代理部生成的应答信号的声音。
4.如权利要求3所述的声音对话方法,其特征在于,
上述显示部,在进行基于声音识别处理的结果的处理的代理部是上述声音对话代理部的情况下,进行上述显示以表示进行基于声音识别处理的结果的处理的代理部是上述声音对话代理部之意,在进行基于声音识别处理的结果的处理的代理部是上述追加声音对话代理部的情况下,进行上述显示以表示进行基于声音识别处理的结果的处理的代理部是上述追加声音对话代理部之意。
5.如权利要求4所述的声音对话方法,其特征在于,
上述声音对话代理部在上述决定中决定为通过上述追加声音对话代理部进行的情况下,
上述声音对话代理部将由上述声音信号生成部生成的声音信号向上述追加声音对话代理部传送;
上述追加声音对话代理部对从上述声音对话代理部传送的声音信号进行上述声音识别处理。
6.如权利要求2所述的声音对话方法,其特征在于,
在上述声音信号生成部是上述可受理状态的情况下,在由上述声音对话代理部生成的应答信号表示不需要新的声音输入的受理之意时,即使是上述规定期间,上述声音输入控制部也使上述声音信号生成部成为不能进行上述声音输入的受理的不可受理状态。
7.一种设备,其特征在于,具备:
声音信号生成部,受理声音输入,生成基于所受理的声音输入的声音信号;
发送部,将由上述声音信号生成部生成的声音信号向外部的服务器发送;
接收部,接收由接收到上述发送部所发送的声音信号的上述服务器基于该声音信号而生成并返送的应答信号;
声音输出部,输出基于由上述接收部接收到的应答信号的声音;以及
声音输入控制部,在由上述声音输出部输出上述声音的情况下,从该输出起规定期间中,使上述声音信号生成部成为能够进行上述声音输入的受理的可受理状态。
CN201480021678.6A 2013-06-19 2014-06-10 声音对话方法及设备 Active CN105144285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810908919.9A CN108806690B (zh) 2013-06-19 2014-06-10 声音对话方法及声音对话代理服务器

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361836763P 2013-06-19 2013-06-19
US61/836,763 2013-06-19
PCT/JP2014/003097 WO2014203495A1 (ja) 2013-06-19 2014-06-10 音声対話方法、及び機器

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201810908919.9A Division CN108806690B (zh) 2013-06-19 2014-06-10 声音对话方法及声音对话代理服务器

Publications (2)

Publication Number Publication Date
CN105144285A true CN105144285A (zh) 2015-12-09
CN105144285B CN105144285B (zh) 2018-11-02

Family

ID=52104247

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810908919.9A Active CN108806690B (zh) 2013-06-19 2014-06-10 声音对话方法及声音对话代理服务器
CN201480021678.6A Active CN105144285B (zh) 2013-06-19 2014-06-10 声音对话方法及设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201810908919.9A Active CN108806690B (zh) 2013-06-19 2014-06-10 声音对话方法及声音对话代理服务器

Country Status (5)

Country Link
US (2) USRE49014E1 (zh)
EP (1) EP3012833B1 (zh)
JP (3) JP6389171B2 (zh)
CN (2) CN108806690B (zh)
WO (1) WO2014203495A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767860A (zh) * 2016-08-15 2018-03-06 中兴通讯股份有限公司 一种语音信息处理方法和装置
CN108885872A (zh) * 2016-04-11 2018-11-23 三菱电机株式会社 应答生成装置、对话控制系统以及应答生成方法
JP2019057093A (ja) * 2017-09-20 2019-04-11 富士ゼロックス株式会社 情報処理装置及びプログラム
CN110413249A (zh) * 2018-04-27 2019-11-05 夏普株式会社 声音输入装置以及远程交互系统
CN111369972A (zh) * 2018-12-06 2020-07-03 阿尔派株式会社 引导声音输出控制系统及引导声音输出控制方法
CN113689850A (zh) * 2020-05-18 2021-11-23 丰田自动车株式会社 智能体协作装置、其动作方法以及存储介质

Families Citing this family (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
USRE49014E1 (en) * 2013-06-19 2022-04-05 Panasonic Intellectual Property Corporation Of America Voice interaction method, and device
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) * 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
JP2018054790A (ja) * 2016-09-28 2018-04-05 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
CN108279839A (zh) * 2017-01-05 2018-07-13 阿里巴巴集团控股有限公司 基于语音的交互方法、装置、电子设备及操作系统
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
KR102089487B1 (ko) * 2017-05-16 2020-03-17 애플 인크. 디지털 어시스턴트 서비스의 원거리 확장
JP2019109567A (ja) * 2017-12-15 2019-07-04 オンキヨー株式会社 電子機器、及び、電子機器の制御プログラム
KR101881744B1 (ko) * 2017-12-18 2018-07-25 주식회사 머니브레인 대화형 ai 에이전트 시스템을 위한 계층적 대화 흐름 관리 모델을 자동으로 구축 또는 갱신하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10890969B2 (en) 2018-05-04 2021-01-12 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
WO2019212569A1 (en) * 2018-05-04 2019-11-07 Google Llc Adapting automated assistant based on detected mouth movement and/or gaze
US11688417B2 (en) 2018-05-04 2023-06-27 Google Llc Hot-word free adaptation of automated assistant function(s)
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
WO2019225201A1 (ja) 2018-05-25 2019-11-28 ソニー株式会社 情報処理装置及び情報処理方法、並びに情報処理システム
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DE112019003189T5 (de) 2018-06-25 2021-04-08 Sony Corporation Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungssystem
US10942039B2 (en) * 2018-08-06 2021-03-09 Comcast Cable Communications, Llc Methods and systems for managing communication sessions
US11848013B2 (en) * 2018-08-21 2023-12-19 Google Llc Automated assistant invocation of second interactive module using supplemental data provided by first interactive module
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
WO2020105466A1 (ja) * 2018-11-21 2020-05-28 ソニー株式会社 情報処理装置、及び情報処理方法
JP6555838B1 (ja) * 2018-12-19 2019-08-07 Jeインターナショナル株式会社 音声問合せシステム、音声問合せ処理方法、スマートスピーカー運用サーバー装置、チャットボットポータルサーバー装置、およびプログラム。
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
JP7175221B2 (ja) * 2019-03-06 2022-11-18 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
JP7198122B2 (ja) * 2019-03-07 2022-12-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
JP7280074B2 (ja) * 2019-03-19 2023-05-23 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110718219B (zh) 2019-09-12 2022-07-22 百度在线网络技术(北京)有限公司 一种语音处理方法、装置、设备和计算机存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
JP2021117301A (ja) * 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、端末装置およびエージェントプログラム
JP2021117296A (ja) 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、端末装置およびエージェントプログラム
JP2021117302A (ja) 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、エージェントサーバおよびエージェントプログラム
JP7264071B2 (ja) * 2020-01-23 2023-04-25 トヨタ自動車株式会社 情報処理システム、情報処理装置、及びプログラム
CN111292716A (zh) 2020-02-13 2020-06-16 百度在线网络技术(北京)有限公司 语音芯片和电子设备
JP2021152589A (ja) * 2020-03-24 2021-09-30 シャープ株式会社 電子機器の制御装置、制御プログラム、制御方法、電子機器
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
JP7310705B2 (ja) * 2020-05-18 2023-07-19 トヨタ自動車株式会社 エージェント制御装置、エージェント制御方法、及びエージェント制御プログラム
JP7380415B2 (ja) 2020-05-18 2023-11-15 トヨタ自動車株式会社 エージェント制御装置
JP7380416B2 (ja) 2020-05-18 2023-11-15 トヨタ自動車株式会社 エージェント制御装置
JP7347324B2 (ja) 2020-05-18 2023-09-20 トヨタ自動車株式会社 エージェント連携装置
JP7318587B2 (ja) * 2020-05-18 2023-08-01 トヨタ自動車株式会社 エージェント制御装置
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20220287110A1 (en) * 2021-03-05 2022-09-08 Samsung Electronics Co., Ltd. Electronic device and method for connecting device thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6229880B1 (en) * 1998-05-21 2001-05-08 Bell Atlantic Network Services, Inc. Methods and apparatus for efficiently providing a communication system with speech recognition capabilities
JP2006178175A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム
JP2008090545A (ja) * 2006-09-29 2008-04-17 Toshiba Corp 音声対話装置および音声対話方法
CN101558443A (zh) * 2006-12-15 2009-10-14 三菱电机株式会社 声音识别装置
CN101689366A (zh) * 2007-07-02 2010-03-31 三菱电机株式会社 声音识别装置
JP2013114020A (ja) * 2011-11-29 2013-06-10 Seiko Epson Corp 音声処理装置及び音声処理装置の制御方法

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116797A (ja) 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
US7174299B2 (en) 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
AUPO214096A0 (en) * 1996-09-04 1996-09-26 Telefonaktiebolaget Lm Ericsson (Publ) A telecommunications system and method for automatic call recognition and distribution
JP3873386B2 (ja) * 1997-07-22 2007-01-24 株式会社エクォス・リサーチ エージェント装置
US6249720B1 (en) 1997-07-22 2001-06-19 Kabushikikaisha Equos Research Device mounted in vehicle
US6636831B1 (en) * 1999-04-09 2003-10-21 Inroad, Inc. System and process for voice-controlled information retrieval
JP4193300B2 (ja) 1999-08-17 2008-12-10 株式会社エクォス・リサーチ エージェント装置
JP2001319045A (ja) * 2000-05-11 2001-11-16 Matsushita Electric Works Ltd 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US7177402B2 (en) * 2001-03-01 2007-02-13 Applied Voice & Speech Technologies, Inc. Voice-activated interactive multimedia information processing system
US7003079B1 (en) * 2001-03-05 2006-02-21 Bbnt Solutions Llc Apparatus and method for monitoring performance of an automated response system
US7039166B1 (en) * 2001-03-05 2006-05-02 Verizon Corporate Services Group Inc. Apparatus and method for visually representing behavior of a user of an automated response system
US7573986B2 (en) * 2001-07-18 2009-08-11 Enterprise Integration Group, Inc. Method and system for interjecting comments to improve information presentation in spoken user interfaces
JP2003241797A (ja) 2002-02-22 2003-08-29 Fujitsu Ltd 音声対話システム
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
JP2004233794A (ja) 2003-01-31 2004-08-19 Toshiba Corp 音声認識装置、及び音声認識方法
JP2004239963A (ja) * 2003-02-03 2004-08-26 Mitsubishi Electric Corp 車載制御装置
JP2004240150A (ja) 2003-02-05 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音声対話装置、音声対話装置選択方法、プログラム及び記録媒体
WO2004075168A1 (ja) * 2003-02-19 2004-09-02 Matsushita Electric Industrial Co., Ltd. 音声認識装置及び音声認識方法
US7460652B2 (en) * 2003-09-26 2008-12-02 At&T Intellectual Property I, L.P. VoiceXML and rule engine based switchboard for interactive voice response (IVR) services
US7117051B2 (en) * 2004-03-15 2006-10-03 Tmio, Llc Appliance communication system and method
JP4581441B2 (ja) * 2004-03-18 2010-11-17 パナソニック株式会社 家電機器システム、家電機器および音声認識方法
CN101272384A (zh) * 2004-05-21 2008-09-24 语音移动有限公司 远程访问系统和方法以及其智能代理
US9224394B2 (en) * 2009-03-24 2015-12-29 Sirius Xm Connected Vehicle Services Inc Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
US8880047B2 (en) * 2005-08-03 2014-11-04 Jeffrey C. Konicek Realtime, location-based cell phone enhancements, uses, and applications
US9866697B2 (en) * 2005-08-19 2018-01-09 Nexstep, Inc. Consumer electronic registration, control and support concierge device and method
US20070265831A1 (en) * 2006-05-09 2007-11-15 Itai Dinur System-Level Correction Service
US8713542B2 (en) * 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US8150020B1 (en) * 2007-04-04 2012-04-03 At&T Intellectual Property Ii, L.P. System and method for prompt modification based on caller hang ups in IVRs
CN101079885B (zh) * 2007-06-26 2010-09-01 中兴通讯股份有限公司 一种提供自动语音识别统一开发平台的系统和方法
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8311838B2 (en) * 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
WO2011089450A2 (en) * 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法
JP2013529794A (ja) * 2010-06-24 2013-07-22 本田技研工業株式会社 車載音声認識システム及び車両外音声認識システム間の通信システム及び方法
US9536197B1 (en) * 2011-04-22 2017-01-03 Angel A. Penilla Methods and systems for processing data streams from data producing objects of vehicle and home entities and generating recommendations and settings
US10276157B2 (en) * 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
US9300718B2 (en) * 2013-04-09 2016-03-29 Avaya Inc. System and method for keyword-based notification and delivery of content
US10546441B2 (en) * 2013-06-04 2020-01-28 Raymond Anthony Joao Control, monitoring, and/or security, apparatus and method for premises, vehicles, and/or articles
USRE49014E1 (en) * 2013-06-19 2022-04-05 Panasonic Intellectual Property Corporation Of America Voice interaction method, and device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6229880B1 (en) * 1998-05-21 2001-05-08 Bell Atlantic Network Services, Inc. Methods and apparatus for efficiently providing a communication system with speech recognition capabilities
JP2006178175A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム
JP2008090545A (ja) * 2006-09-29 2008-04-17 Toshiba Corp 音声対話装置および音声対話方法
CN101558443A (zh) * 2006-12-15 2009-10-14 三菱电机株式会社 声音识别装置
CN101689366A (zh) * 2007-07-02 2010-03-31 三菱电机株式会社 声音识别装置
JP2013114020A (ja) * 2011-11-29 2013-06-10 Seiko Epson Corp 音声処理装置及び音声処理装置の制御方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885872A (zh) * 2016-04-11 2018-11-23 三菱电机株式会社 应答生成装置、对话控制系统以及应答生成方法
CN107767860A (zh) * 2016-08-15 2018-03-06 中兴通讯股份有限公司 一种语音信息处理方法和装置
JP2019057093A (ja) * 2017-09-20 2019-04-11 富士ゼロックス株式会社 情報処理装置及びプログラム
CN110413249A (zh) * 2018-04-27 2019-11-05 夏普株式会社 声音输入装置以及远程交互系统
CN110413249B (zh) * 2018-04-27 2023-03-28 夏普株式会社 远程交互系统
CN111369972A (zh) * 2018-12-06 2020-07-03 阿尔派株式会社 引导声音输出控制系统及引导声音输出控制方法
CN113689850A (zh) * 2020-05-18 2021-11-23 丰田自动车株式会社 智能体协作装置、其动作方法以及存储介质

Also Published As

Publication number Publication date
CN108806690A (zh) 2018-11-13
CN108806690B (zh) 2023-05-09
JP6389171B2 (ja) 2018-09-12
EP3012833B1 (en) 2022-08-10
EP3012833A4 (en) 2016-06-29
USRE49014E1 (en) 2022-04-05
JPWO2014203495A1 (ja) 2017-02-23
JP2020173477A (ja) 2020-10-22
JP2018189984A (ja) 2018-11-29
EP3012833A1 (en) 2016-04-27
WO2014203495A1 (ja) 2014-12-24
CN105144285B (zh) 2018-11-02
JP6736617B2 (ja) 2020-08-05
US9564129B2 (en) 2017-02-07
JP7072610B2 (ja) 2022-05-20
US20160322048A1 (en) 2016-11-03

Similar Documents

Publication Publication Date Title
CN105144285A (zh) 声音对话方法及设备
US10185534B2 (en) Control method, controller, and recording medium
CN109634132A (zh) 智能家居管理方法、装置、介质及电子设备
BRPI0925228A2 (pt) agregação, padronização e extensão de contatos de networking social para aumentar a percepção de consumidor de televisão
CN109601016A (zh) 信息处理装置、声音识别系统及信息处理方法
CN105518645A (zh) 负载平衡的持久连接技术
CN109271130A (zh) 音频播放方法、介质、装置和计算设备
US20150134763A1 (en) Techniques for creating and/or maintaining scalable heterogeneous read-only federations of registries
KR20190026518A (ko) 인공지능 음성 인식 장치의 동작 방법
EP2733913A2 (en) Method and apparatus for communication between a vehicle based computing system and a remote application
Corcoran et al. Home network infrastructure for handheld/wearable appliances
CN110418181B (zh) 对智能电视的业务处理方法、装置、智能设备及存储介质
CN113608738B (zh) 基于someip仪表数据的汽车服务系统
Bovet et al. Offering web-of-things connectivity to building networks
JP2002196931A (ja) サービス・ゲートウェイのための提供機構
Romero et al. Integration of heterogeneous context resources in ubiquitous environments
CN113840164A (zh) 语音控制方法、装置、终端设备及存储介质
KR102072003B1 (ko) 디바이스들 간의 리소스 공유하는 방법 및 전자 디바이스
CN113938714A (zh) 播放控制方法、装置、电子设备和存储介质
WO2024067148A1 (zh) 边缘互通业务执行方法、装置、系统、电子设备和介质
JP2019091444A (ja) スマートインタラクティブの処理方法、装置、設備及びコンピュータ記憶媒体
CN114697774B (zh) 端口管理方法和装置、计算机可读存储介质、电子设备
CN113990316A (zh) 语音控制方法、装置、服务器、终端设备及存储介质
WO2024067213A1 (zh) 人机交互的方法、电子设备及系统
WO2023201558A1 (zh) 一种映射关系生成方法、装置和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant