CN113689062A - 智能体协调装置,智能体协调方法以及记录有智能体协调程序的记录介质 - Google Patents
智能体协调装置,智能体协调方法以及记录有智能体协调程序的记录介质 Download PDFInfo
- Publication number
- CN113689062A CN113689062A CN202110346177.7A CN202110346177A CN113689062A CN 113689062 A CN113689062 A CN 113689062A CN 202110346177 A CN202110346177 A CN 202110346177A CN 113689062 A CN113689062 A CN 113689062A
- Authority
- CN
- China
- Prior art keywords
- agent
- music
- voice
- audio
- audio book
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000008569 process Effects 0.000 claims description 25
- 238000001514 detection method Methods 0.000 description 28
- 238000004891 communication Methods 0.000 description 13
- 230000004913 activation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000003213 activating effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- B60K35/10—
-
- B60K35/26—
-
- B60K35/28—
-
- B60K35/85—
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K37/00—Dashboards
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- B60K2360/11—
-
- B60K2360/1434—
-
- B60K2360/148—
-
- B60K2360/164—
-
- B60K2360/589—
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Abstract
本公开提供一种智能体协调装置、智能体协调方法以及记录有智能体协调程序的记录介质。该智能体协调装置包括:声音输出部,其对根据来自能够通过语音对话来指示预先规定的服务的多个智能体的指示而进行的声音输出进行控制;控制部,其以如下方式而对声音输出部进行控制,即,在所述多个智能体中的一个智能体作为所述服务而正在播放有声读物以及音乐中的一方的过程中,其它的智能体作为所述服务而播放有声读物以及音乐中的另一方的情况下,将音乐播放的音量减小并对有声读物进行播放。
Description
技术领域
本发明涉及一种能够利用多个智能体所提供的服务的智能体协调装置、智能体协调方法以及记录有智能体协调程序的记录介质。
背景技术
在日本特开2018-189984号公报中,作为用于利用两个智能体的服务的语音对话方法,公开了一种基于对智能体进行识别的关键字等智能体信息而决定由两个智能体中的哪一个的方法来进行应对的技术。具体而言,作为家用智能体的语音对话智能体受理输入语音信号,并且基于对输入语音信号实施语音识别处理的语音识别处理的结果和智能体信息,来决定由家用智能体和其它的车用智能体中的哪一个来应对基于该输入语音信号而实施的处理。在决定中,在被决定为由家用智能体来进行应对的情况下,实施基于语音识别处理的结果而进行的处理,且生成并输出与该处理相关的答复语音信号。另一方面,在被决定为由车用智能体来进行应对时,将输入语音信号向车用智能体服务器进行传送。
发明内容
发明所要解决的技术问题
在日本特开2018-189984号公报中,虽然能够利用多个智能体的服务,但是为了同时方便地利用多个智能体的服务,仍存在改善的余地。
本公开的目的在于,能够同时且方便地利用多个智能体所提供的服务。
用于解决技术问题的方法
第一实施方式的智能体协调装置包括:声音输出部,其对根据来自能够通过语音对话来指示预先规定的服务的多个智能体的指示而进行的声音输出进行控制;控制部,其以如下方式而对所述声音输出部进行控制,即,在所述多个智能体中的一个智能体作为所述服务而正在播放有声读物以及音乐中的一方的过程中,其它的智能体作为所述服务而播放有声读物以及音乐中的另一方的情况下,将音乐播放的音量减小并对有声读物进行播放。
根据第一实施方式,在声音输出部中,对根据来自能够通过语音对话来指示预先规定的服务的多个智能体的指示而进行的声音输出进行控制。
在控制部中,以如下方式而对声音输出部进行控制,即,在多个智能体中的一个智能体作为服务而正在播放有声读物以及音乐之中的一方的过程中,其它的智能体作为服务而播放有声读物以及音乐之中的另一方的情况下,将音乐播放的音量减小并对有声读物进行播放。由此,能够将音乐作为背景音乐而对有声读物进行播放,从而能够同时且方便地利用多个智能体所提供的服务。
控制部也可以如第二实施方式那样以如下方式而对声音输出部进行控制,即,在一个智能体正在播放有声读物以及音乐中的一方的过程中,对于其它的智能体而进行语音对话并输出答复语音时,将正在播放的声音减小或者停止。由此,能够在正在播放有声读物或者音乐时容易听到与智能体的对话。
控制部也可以如第三实施方式那样以如下方式而对声音输出部进行控制,即,在对利用者的意思进行确认且被指示了继续播放有声读物的情况下,将音乐播放的音量减小并对有声读物进行播放。由此,能够反映利用者的意思而同时进行音乐播放和有声读物的播放。
控制部也可以如第四实施方式那样以如下方式而对声音输出部进行控制,即,在对利用者的意思进行确认且被指示了不继续播放有声读物时,停止有声读物的播放并对音乐进行播放。由此,能够在不需要背景音乐的情况下仅对有声读物进行播放。
上述智能体协调装置也可以通过方法或者记录有程序的记录介质的方式而被安装。
发明效果
根据本公开,能够同时且方便地利用多个智能体所提供的服务。
附图说明
图1为对本实施方式所涉及的智能体协调装置的简要结构进行示例的框图。
图2为表示由本实施方式所涉及的智能体协调装置中的语音检测部所实施的处理的流程的一个示例的流程图。
图3为表示由本实施方式所涉及的智能体协调装置中的A2A(Agent to Agent)协调控制部所实施的详细的处理的流程的一个示例的流程图。
图4为表示答复输出处理的流程的一个示例的流程图。
图5为在通过第二智能体而正在播放有声读物时指示第一智能体播放音乐的情况下的时序图。
图6为对本实施方式的智能体协调装置的硬件结构进行示例的框图。
具体实施方式
以下,参照附图,来对本发明的实施方式的一个示例详细地进行说明。图1为表示本实施方式所涉及的智能体协调装置的简要结构的框图。
将本实施方式所涉及的智能体协调装置10被安装在作为车载器而被搭载的主机(H/U)中的示例作为一个示例来进行说明。
智能体协调装置10经由通信装置16而与多个智能体服务器连接。在本实施方式中,智能体协调装置10作为一个示例而与第一智能体服务器12和第二智能体服务器14这两个智能体服务器连接。智能体协调装置10通过与两个智能体服务器进行通信,从而将各个智能体服务器所提供的服务提供给利用者。此外,智能体协调装置10具有对来自各个智能体服务器的声音输出进行控制的功能。
第一智能体服务器12以及第二智能体服务器14各自提供所谓的被称为VPA(Virtual Personal Assistant,虚拟个人助理)的语音对话助理的功能。详细而言,通过语音对话,从而经由智能体协调装置10而向利用者提供音乐播放、有声读物播放、天气预报等的被预先规定的服务。关于详细的结构,由于能够应用众所周知的各种各样的技术,因此省略其说明。
通信装置16在本实施方式中被设为车辆专用的通信器,并实施智能体协调装置10与第一智能体服务器12的通信、以及智能体协调装置10与第二智能体服务器14的通信。例如,各自的通信经由移动电话等无线通信网而进行通信。作为一个示例,应用了被称为DCM(Data Communication Module,数据通信模块)的通信装置。
在图6中,对智能体协调装置10的硬件结构进行例示。智能体协调装置10作为一个示例而如图6中所示的那样包括CPU(Central Processing Unit,中央处理单元)51、主存储装置52、副存储装置53以及外部接口54。
CPU51为作为硬件的处理器的一个示例。CPU51、主存储装置52、副存储装置53以及外部接口54经由总线59而被相互连接。CPU51既可以为单独的处理器,也可以为多个处理器。此外,也可以代替CPU51而使用例如GPU(Graphics Processing Unit,图形处理单元)。
主存储装置52为例如RAM(Random Access Memory,随机存取存储器)等易失性的存储器。副存储装置53为例如HDD(Hard Disk Drive,硬盘驱动器)、或者SSD(Solid StateDrive,固态硬盘)等非易失性的存储器。
副存储装置53包括程序存储区域53A以及数据存储区域53B。程序存储区域53A作为一个例子而对智能体协调程序等程序进行存储。数据存储区域53B例如也可以作为临时性地对通过执行智能体协调程序而被生成的中间数据进行存储的临时存储装置而发挥功能。
CPU51从程序存储区域53A读取智能体协调程序,并在主存储装置52中展开。CPU51通过载入并执行智能体协调程序,从而作为声音输出部的一个示例即声音输出控制部18、控制部的一个示例即A2A协调控制部20、以及语音检测部26而发挥功能。
在外部接口54上连接有外部装置,外部接口54负责外部装置与CPU51之间的各种信息的接收和发送。在外部接口54上连接有例如扬声器28、触摸面板30、话筒32、通信装置16。扬声器28、触摸面板30、话筒32、通信装置16中的任意一个或者全部也可以被内置在智能体协调装置10中。
声音输出控制部18与扬声器28连接,并且对来自第一智能体服务器12以及第二智能体服务器14的声音输出进行控制。
A2A(Agent to Agent)协调控制部20与触摸面板30、声音输出控制部18以及语音检测部26连接,并且与这些构件实施信息的授受。此外,A2A协调控制部20具有第一智能体22以及第二智能体24的功能。第一智能体22对应于第一智能体服务器12而被设置,并且对与第一智能体服务器12的互动进行控制。此外,第二智能体24对应于第二智能体服务器14而被设置,并且对与第二智能体服务器14的互动进行控制。A2A协调控制部20在从各个智能体服务器接收到与语音对话相关的信息的情况下,向声音输出控制部18进行通知。由此,声音输出控制部18对基于与语音对话相关的信息的、来自扬声器28的声音输出进行控制。
语音检测部26与话筒32连接,并对从话筒32得到的语音信息进行检测,且将检测结果通知给A2A协调控制部20。例如,语音检测部26对用于启动各个智能体的唤醒词进行检测。
接下来,对由以上述方式被构成的本实施方式所涉及的智能体协调装置10的各个部分所实施的详细工作的一个示例进行说明。
在本实施方式所涉及的智能体协调装置10中,语音检测部26对唤醒词进行检测,并且向A2A协调控制部20进行通知,并且经由通信装置16而与A2A协调控制部20所对应的智能体服务器连接。
声音输出控制部18根据来自各个智能体服务器的声音输出(语音对话、音乐、有声读物等)的请求,而对来自扬声器28的声音的输出进行控制。
A2A协调控制部20以如下方式而对声音输出控制部18进行控制,即,在第一智能体22以及第二智能体24中的某一方的智能体正在播放有声读物以及音乐中的一方的过程中,另一方的智能体播放有声读物以及音乐中的另一方的情况下,将音乐播放的音量与原本的音量相比而减小,并对有声读物进行播放。原本的音量既可以为被预先规定或者由用户所设定的音量,也可以为能够适宜地收听的音量。有声读物既可以以被预先规定或者由用户所设定的音量来进行播放,也可以以能够适宜地收听的音量来进行播放。
接下来,对由本实施方式所涉及的智能体协调装置10的各个部分所实施的详细的处理进行说明。
首先,对由语音检测部26所实施的处理进行说明。图2为表示由本实施方式所涉及的智能体协调装置10中的语音检测部26所实施的处理的流程的一个示例的流程图。另外,图2的处理例如在从话筒32向语音检测部26输入了语音的情况下开始实施。
在步骤100中,语音检测部26实施语音检测,并向步骤102转移。也就是说,对从话筒32被输入的语音进行检测。
在步骤102中,语音检测部26对是否检测到唤醒词进行判断。该判断对是否检测到用于启动第一智能体22的预先规定的唤醒词、或者用于启动第二智能体24的预先规定的唤醒词进行判断。在该判断被肯定的情况下,向步骤104转移,而在被否定的情况下,结束一系列的处理。
在步骤104中,语音检测部26对与唤醒词相对应的智能体是否处于启动中进行判断。在该判断被否定的情况下,向步骤106转移,而在被肯定的情况下,向步骤112转移。
在步骤106中,语音检测部26对检测到的唤醒词是否为第一智能体用进行判断。在该判断被肯定的情况下,向步骤108转移,而在检测到第二智能体用的唤醒词的情况、即步骤106的判断被否定的情况下,向步骤110转移。
在步骤108中,语音检测部26向第一智能体22通知启动请求,并且向步骤112转移。
另一方面,在步骤110中,语音检测部26向第二智能体24通知启动请求,并且向步骤112转移。
在步骤112中,语音检测部26对是否在预先规定的时间内检测到语音进行判断。在该判断被否定的情况、即在预先规定的时间内未检测到语音的情况下,结束一系列的处理,而在该判断被肯定的情况下,向步骤114转移。
在步骤114中,语音检测部26将检测到的语音通知给所对应的智能体,并且结束一系列的处理。即,在第一智能体22的唤醒词检测到之后的、预先规定的时间以内检测到语音的情况下,将检测到的语音通知给第一智能体。另一方面,在第二智能体24的唤醒词检测到之后的、预先规定的时间以内检测到语音的情况下,将检测到的语音通知给第二智能体。
接下来,对由A2A协调控制部20所实施的处理进行说明。图3为表示由本实施方式所涉及的智能体协调装置10中的A2A协调控制部20所实施的详细的处理的流程的一个示例的流程图。另外,图3的处理在从语音检测部26接收到智能体的启动通知的情况下开始实施。
在步骤200中,A2A协调控制部20接收智能体启动请求通知,并且向步骤202转移。即,接收由图2的步骤108或者步骤110发出的智能体的启动请求通知。
在步骤202中,A2A协调控制部20对从语音检测部26接收到的智能体的启动请求通知是否为第一智能体22的启动请求通知进行判断。在该判断被肯定的情况下,向步骤204转移,而在被否定的情况下,向步骤206转移。
在步骤204中,启动第一智能体22而向步骤208转移。详细而言,转移至建立第一智能体22与第一智能体服务器12的通信从而能够提供来自第一智能体服务器12的服务的状态。
另一方面,在步骤206中,启动第二智能体24而向步骤208转移。详细而言,转移至建立第二智能体24与第二智能体服务器14的通信从而能够提供来自第二智能体服务器14的服务的状态。
在步骤208中,A2A协调控制部20对是否在预先规定的时间内从语音检测部26接收到语音通知进行判断。该判断对是否接收到在上述的步骤114中发出的语音的通知进行判断。在该判断被肯定的情况下,向步骤210转移,而在被否定的情况下,结束一系列的处理。
在步骤210中,A2A协调控制部20从所对应的智能体向所对应的智能体服务器发送语音信息,并且向步骤212转移。即,在第一智能体22被启动且接收到语音通知的情况下,第一智能体22向第一智能体服务器12发送语音信息。另一方面,在第二智能体24被启动且接收到语音通知的情况下,第二智能体24向第二智能体服务器14发送语音信息。
在步骤212中,A2A协调控制部20从智能体服务器接收语音信息而向步骤214转移。例如,在于步骤210中向智能体服务器发送了播放有声读物或音乐的内容的语音信息的情况下,智能体服务器基于语音信息而进行意图理解,从而接收播放所对应的有声读物或音乐的语音信息。
在步骤214中,A2A协调控制部20对其它的智能体是否处于启动中进行判断。该判断在第一智能体22以及第二智能体24中的一方接收到语音信息的情况下,对第一智能体22以及第二智能体24中的另一方是否处于启动中进行判断。在该判断被否定的情况下,向步骤216转移,而在被肯定的情况下,向步骤218转移。
在步骤216中,A2A协调控制部20输出来自智能体服务器的答复,并且结束一系列的处理。即,以如下方式对声音输出控制部18进行控制,即,从扬声器28输出从智能体服务器接收到的答复语音、有声读物的语音、音乐的声音。
另一方面,在步骤218中,A2A协调控制部20将由在先处于启动中的智能体实施的声音输出的音量减小并向向步骤220转移。即,A2A协调控制部20对声音输出控制部18指示将由在先处于启动中的智能体所实施的声音输出(例如,有声读物或音乐等)的音量减小。由此,已经处于输出中的音源的音量将被减小,从而容易听到与智能体的对话。另外,步骤218也可以采用如下方式,即,不是减小音量而是使正在对话中的声音输出暂时停止。
在步骤220中,A2A协调控制部20实施答复输出处理并且结束一系列的处理。答复输出处理为,来自利用者的对于对话的答复的处理,例如实施图4所示的处理。图4为表示答复输出处理的一个示例的流程图。另外,在本实施方式中,将在一方的智能体正在播放有声读物以及音乐中的一方的过程中,向另一方的智能体请求有声读物以及音乐中的另一方的播放、或者请求播放并在中途取消请求的情况作为一个示例来进行说明。
即,在步骤300中,A2A协调控制部20输出是否需要结束由在先处于启动中的智能体所实施的声音输出(有声读物或者音乐的播放)的信息,并且向步骤302转移。例如,A2A协调控制部20也可以对声音输出控制部18进行控制,以将如下的消息进行语音输出,该消息为,关于是否结束由在先处于启动中的智能体发出的正处于音量减小中的声音输出的消息。或者,A2A协调控制部20也可以在触摸面板30上对如下的消息进行显示,该消息为,关于是否结束由在先处于启动中的智能体发出的正处于音量减小中的声音输出的消息。
在步骤302中,A2A协调控制部20对是否结束由在先处于启动中的智能体发出的正处于音量减小中的声音输出进行判断。该判断例如也可以由A2A协调控制部20来取得由通过语音检测部26所得出的语音的检测结果,并且对是否检测到通过对话来表示结束的语音来进行判断。或者,A2A协调控制部20也可以对是否经由触摸面板30而被输入了表示结束的操作进行判断。在该判断被肯定的情况下,向步骤304转移,而在被否定的情况下,向步骤308转移。
在步骤304中,A2A协调控制部20停止正在播放的音源并向步骤306转移。例如,在有声读物或音乐正在被播放的情况下,停止正在被播放的有声读物或音乐,并向步骤306转移。
在步骤306中,A2A协调控制部20从所对应的智能体服务器取得并播放在后被启动的智能体所请求的声音,然后返回图4的处理并且结束一系列的处理。
另一方面,在步骤308中,A2A协调控制部20对是否取消在后启动的智能体所请求的声音的播放进行判断。该判断例如与步骤302同样地,对是否通过与利用者的语音对话或者由利用者实施的触摸面板30的操作而取消了请求的声音播放进行判断。在该判断被肯定的情况下,向步骤310转移,而在被否定的情况下,向步骤312转移。
在步骤310中,A2A协调控制部20对声音输出控制部18进行控制,从而恢复至将正在输出中的播放的音量减小之前的状态,然后返回图4的处理并且结束一系列的处理。
另一方面,在步骤312中,A2A协调控制部20以在将音乐的音量减小的同时对有声读物进行播放的方式而对声音输出控制部18进行控制,并返回图4的处理且结束一系列的处理。
在此,关于图4的答复输出处理,将举例来进行说明。图5为通过第二智能体24而正在播放有声读物且对第一智能体22指示音乐播放的情况下的时序图。
如图5所示,在第二智能体24正在播放有声读物时,利用者发出作为第一智能体22的唤醒词的一个示例的“Hey Toyota”这一语音。由此,在语音检测部26中,通过上述的步骤100而检测到语音,从而步骤102被肯定,且步骤104被否定。然后,步骤106被肯定,并且通过步骤108而向第一智能体22通知启动请求。当第一智能体22的启动请求被通知时,在A2A协调控制部20中,通过上述的步骤200而接收启动请求通知,从而步骤202的判断被肯定,进而通过步骤204而使第一智能体22启动。
此外,当后续于唤醒词而在预先规定的时间内发出“放音乐”这一语音时,在语音检测部26中,步骤112的判断被肯定,并通过步骤114而向第一智能体22通知语音。当语音被通知时,在A2A协调控制部20中,上述的步骤208的判断被肯定,从而通过步骤210而向第一智能体服务器12发送发声语音。然后,通过第一智能体服务器12而进行意图理解,并且通过步骤212而使A2A协调控制部20的第一智能体22接收答复。在此,由于作为其它的智能体的第二智能体24正处于启动中,因而步骤214的判断被肯定,并且通过步骤218而使由第二智能体24实施的有声读物的播放的音量减小,进而通过步骤220来进行答复处理。
在答复处理中,在上述的步骤300中,通过第一智能体22而如“是否停止有声读物的播放?”那样输出了是否需要结束的信息。在此,在图5的示例中,通过利用者如“继续”那样发声,从而步骤302以及步骤308的判断被否定,进而通过步骤312而在将由第一智能体22播放的音乐的音量减小的同时进行由第二智能体24实施的有声读物的播放。
以此方式,在本实施方式所涉及的智能体协调装置10中,在两个智能体中的一方的智能体正在播放有声读物以及音乐中的一方的过程中,另一方的智能体播放有声读物以及音乐中的另一方的情况下,将音乐播放的音量与原本的音量相比而减小,并对有声读物进行播放。原本的音量既可以为被预先规定或由用户所设定的音量,也可以为能够适宜地收听的音量。有声读物既可以以被预先规定或者由用户所设定的音量来进行播放,也可以以能够适宜地收听的音量来进行播放。由此,能够同时且方便地利用多个智能体所提供的服务。即,用户能够自动地获得在以可理解的方式收听有声读物的同时将音乐作为背景音乐而收听的用户体验。
另外,虽然在上述的实施方式中对具有第一智能体22和第二智能体24的两个智能体的示例进行了说明,但并不限于此,也可以具有三个以上的多个智能体。在该情况下,只需以如下方式来对声音输出控制部进行控制即可,即,A2A协调控制部20在多个智能体中的一个智能体正在播放有声读物以及音乐中的一方的过程中,其它的智能体播放有声读物以及音乐中的另一方的情况下,将音乐播放的音量减小并对有声读物进行播放。
此外,虽然由上述的各个实施方式中的智能体协调装置10而被实施的处理设为通过执行程序而被实施的软件处理而进行了说明,但并不限于此。例如,也可以设为由ASIC(Application Specific Integrated Circuit,专用集成电路)、以及FPGA(Field-Programmable Gate Array,现场可编程门阵列)等硬件而实施的处理。或者,也可以设为将软件以及硬件的双方进行了组合的处理。此外,在设为软件的处理的情况下,也可以采用将程序存储在各种存储介质中并使之流通的方式。
而且,本公开并未被限定于上述方式,除了上述内容之外,也能够在不脱离其主旨的范围内进行各种各样的变形而实施。
Claims (12)
1.一种智能体协调装置,包括:
声音输出部,其对根据来自能够通过语音对话来指示预先规定的服务的多个智能体的指示而进行的声音输出进行控制;
控制部,其以如下方式而对所述声音输出部进行控制,即,在所述多个智能体中的一个智能体作为所述服务而正在播放有声读物以及音乐中的一方的过程中,其它的智能体作为所述服务而播放有声读物以及音乐中的另一方的情况下,将音乐播放的音量减小并对有声读物进行播放。
2.如权利要求1所述的智能体协调装置,其中,
所述控制部以如下方式而对所述声音输出部进行控制,即,在所述一个智能体正在播放有声读物以及音乐中的一方的过程中,对于其它的智能体而进行语音对话并输出答复语音时,将正在播放的声音减小或者停止。
3.如权利要求1或2所述的智能体协调装置,其中,
所述控制部以如下方式而对所述声音输出部进行控制,即,在对利用者的意思进行确认且被指示了继续播放有声读物的情况下,将音乐播放的音量减小并对有声读物进行播放。
4.如权利要求1至3中的任意一项所述的智能体协调装置,其中,
所述控制部以如下方式而对所述声音输出部进行控制,即,在对利用者的意思进行确认且被指示了不继续播放有声读物的情况下,停止有声读物的播放并对音乐进行播放。
5.一种智能体协调方法,其通过处理器而以如下方式进行控制,即,
对根据来自能够通过语音对话来指示预先规定的服务的多个智能体的指示而进行的声音输出进行控制,
在所述多个智能体中的一个智能体作为所述服务而正在播放有声读物以及音乐中的一方的过程中,其它的智能体作为所述服务而播放有声读物以及音乐中的另一方的情况下,将音乐播放的音量减小并对有声读物进行播放。
6.如权利要求5所述的智能体协调方法,其中,
以如下方式而进行控制,即,在所述一个智能体正在播放有声读物以及音乐中的一方的过程中,对于其它的智能体而进行语音对话并输出答复语音时,将正在播放的声音减小或者停止。
7.如权利要求5或6所述的智能体协调方法,其中,
以如下方式而进行控制,即,在对利用者的意思进行确认且被指示了继续播放有声读物的情况下,将音乐播放的音量减小并对有声读物进行播放。
8.如权利要求5至7中的任意一项所述的智能体协调方法,其中,
以如下方式而进行控制,即,在对利用者的意思进行确认且被指示了不继续播放有声读物的情况下,停止有声读物的播放并对音乐进行播放。
9.一种记录介质,其记录有使处理器执行智能体协调处理的程序,所述智能体协调处理以如下方式而进行控制,即,
对根据来自能够通过语音对话来指示预先规定的服务的多个智能体的指示而进行的声音输出进行控制,
在所述多个智能体中的一个智能体作为所述服务而正在播放有声读物以及音乐中的一方的过程中,其它的智能体作为所述服务而播放有声读物以及音乐中的另一方的情况下,将音乐播放的音量减小并对有声读物进行播放。
10.如权利要求9所述的记录介质,其中,
以如下方式而进行控制,即,在所述一个智能体正在播放有声读物以及音乐中的一方的过程中,对于其它的智能体而进行语音对话并输出答复语音时,将播放中的声音减小或者停止。
11.如权利要求9或10所述的记录介质,其中,
以如下方式而进行控制,即,在对利用者的意思进行确认且被指示了继续播放有声读物的情况下,将音乐播放的音量减小并对有声读物进行播放。
12.如权利要求9至11中的任意一项所述的记录介质,其中,
以如下方式而进行控制,即,在对利用者的意思进行确认且被指示了不继续播放有声读物的情况下,停止有声读物的播放并对音乐进行播放。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-086957 | 2020-05-18 | ||
JP2020086957A JP7347324B2 (ja) | 2020-05-18 | 2020-05-18 | エージェント連携装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113689062A true CN113689062A (zh) | 2021-11-23 |
Family
ID=78512417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110346177.7A Pending CN113689062A (zh) | 2020-05-18 | 2021-03-31 | 智能体协调装置,智能体协调方法以及记录有智能体协调程序的记录介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11740865B2 (zh) |
JP (1) | JP7347324B2 (zh) |
CN (1) | CN113689062A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220375466A1 (en) * | 2021-05-18 | 2022-11-24 | Apple Inc. | Siri integration with guest voices |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001333164A (ja) * | 2000-05-22 | 2001-11-30 | Victor Co Of Japan Ltd | 携帯端末の通信方法 |
JP2012175237A (ja) * | 2011-02-18 | 2012-09-10 | Nec Corp | 音声切替装置、プログラム及び方法 |
US20140108929A1 (en) * | 2012-10-12 | 2014-04-17 | Spotify Ab | Systems, methods,and user interfaces for previewing media content |
US10514888B1 (en) * | 2018-10-05 | 2019-12-24 | Oracle International Corporation | User-adaptive volume selection |
US20200105273A1 (en) * | 2018-09-27 | 2020-04-02 | International Business Machines Corporation | Routing Voice Commands to Virtual Assistants |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003058198A (ja) * | 2001-08-21 | 2003-02-28 | Canon Inc | 音声出力装置、音声出力方法、及び、プログラム |
JP2007210462A (ja) | 2006-02-09 | 2007-08-23 | Mitsubishi Motors Corp | 車両用表示制御装置および車両用表示システム |
JP4131978B2 (ja) * | 2006-02-24 | 2008-08-13 | 本田技研工業株式会社 | 音声認識機器制御装置 |
JP2012098100A (ja) * | 2010-10-31 | 2012-05-24 | Alpine Electronics Inc | 誘導経路音声案内出力オーディオ制御装置 |
JP6389171B2 (ja) | 2013-06-19 | 2018-09-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話方法、及び機器 |
WO2016054230A1 (en) * | 2014-10-01 | 2016-04-07 | XBrain, Inc. | Voice and connection platform |
JP7170739B2 (ja) * | 2018-03-08 | 2022-11-14 | グーグル エルエルシー | リモートに生成された自動化アシスタントコンテンツのレンダリングにおけるクライアントデバイスレイテンシの軽減 |
-
2020
- 2020-05-18 JP JP2020086957A patent/JP7347324B2/ja active Active
-
2021
- 2021-03-26 US US17/213,959 patent/US11740865B2/en active Active
- 2021-03-31 CN CN202110346177.7A patent/CN113689062A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001333164A (ja) * | 2000-05-22 | 2001-11-30 | Victor Co Of Japan Ltd | 携帯端末の通信方法 |
JP2012175237A (ja) * | 2011-02-18 | 2012-09-10 | Nec Corp | 音声切替装置、プログラム及び方法 |
US20140108929A1 (en) * | 2012-10-12 | 2014-04-17 | Spotify Ab | Systems, methods,and user interfaces for previewing media content |
US20200105273A1 (en) * | 2018-09-27 | 2020-04-02 | International Business Machines Corporation | Routing Voice Commands to Virtual Assistants |
US10514888B1 (en) * | 2018-10-05 | 2019-12-24 | Oracle International Corporation | User-adaptive volume selection |
Also Published As
Publication number | Publication date |
---|---|
JP2021182051A (ja) | 2021-11-25 |
US20210357179A1 (en) | 2021-11-18 |
JP7347324B2 (ja) | 2023-09-20 |
US11740865B2 (en) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11502859B2 (en) | Method and apparatus for waking up via speech | |
US9542150B2 (en) | Controlling audio players using environmental audio analysis | |
JP2019117623A (ja) | 音声対話方法、装置、デバイス及び記憶媒体 | |
US9418662B2 (en) | Method, apparatus and computer program product for providing compound models for speech recognition adaptation | |
CN108962240A (zh) | 一种基于耳机的语音控制方法及系统 | |
KR20190075800A (ko) | 지능형 개인 보조 인터페이스 시스템 | |
CN110870201A (zh) | 音频信号调节方法、装置、存储介质及终端 | |
JP2002534716A (ja) | 注目期間を有する音声入力装置 | |
US11587560B2 (en) | Voice interaction method, device, apparatus and server | |
CN110727821A (zh) | 防止设备被误唤醒的方法、装置、系统和计算机存储介质 | |
CN113689062A (zh) | 智能体协调装置,智能体协调方法以及记录有智能体协调程序的记录介质 | |
CN112732340B (zh) | 人机对话处理方法及装置 | |
CN109686372B (zh) | 资源播放控制方法和装置 | |
WO2020103562A1 (zh) | 一种语音处理方法和装置 | |
CN112118506B (zh) | 耳机降噪模式控制方法、系统、设备及存储介质 | |
CN111063356A (zh) | 电子设备响应方法及系统、音箱和计算机可读存储介质 | |
WO2021042584A1 (zh) | 全双工语音对话方法 | |
CN110874343B (zh) | 基于深度学习芯片进行语音处理的方法和深度学习芯片 | |
JP2001042891A (ja) | 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体 | |
CN110493461A (zh) | 消息播放方法及装置、电子设备、存储介质 | |
JP2022095689A (ja) | 音声データノイズ低減方法、装置、機器、記憶媒体及びプログラム | |
CN111128166B (zh) | 连续唤醒识别功能的优化方法和装置 | |
US20210360326A1 (en) | Agent cooperation device, operation method thereof, and storage medium | |
CN113271491B (zh) | 电子装置以及播放控制方法 | |
KR20190092168A (ko) | 보이스 리스폰스를 제공하는 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |