CN113160811A - 代理系统、服务器及计算机可读记录介质 - Google Patents

代理系统、服务器及计算机可读记录介质 Download PDF

Info

Publication number
CN113160811A
CN113160811A CN202110047615.XA CN202110047615A CN113160811A CN 113160811 A CN113160811 A CN 113160811A CN 202110047615 A CN202110047615 A CN 202110047615A CN 113160811 A CN113160811 A CN 113160811A
Authority
CN
China
Prior art keywords
user
speech
voice
agent
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110047615.XA
Other languages
English (en)
Inventor
竹下幸辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN113160811A publication Critical patent/CN113160811A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01HELECTRIC SWITCHES; RELAYS; SELECTORS; EMERGENCY PROTECTIVE DEVICES
    • H01H13/00Switches having rectilinearly-movable operating part or parts adapted for pushing or pulling in one direction only, e.g. push-button switch
    • H01H13/02Details
    • H01H13/12Movable parts; Contacts mounted thereon
    • H01H13/14Operating parts, e.g. push-button
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种在可利用多个语音交互代理的服务的情况下,能够高精度地调用具有用户所要求的功能的语音交互代理的代理系统、服务器以及计算机可读记录介质。代理系统具备:终端装置,具备第一处理器,该第一处理器具有硬件,且对实现多个语音交互代理中的任一语音交互代理的功能的代理服务器传送用户的讲话语音;及代理服务器,具备第二处理器,该第二处理器具有硬件,且识别从终端装置传送来的用户的讲话语音,并判定用户的讲话语音所包含的指示是对多个语音交互代理中的哪个语音交互代理的指示。

Description

代理系统、服务器及计算机可读记录介质
技术领域
本公开涉及代理系统、服务器及记录有代理程序的计算机可读记录介质。
背景技术
在专利文献1中,公开了用于利用具有不同功能的多个语音交互代理的服务的语音交互方法。在该语音交互方法中,基于语音识别处理的结果和代理信息,来决定使哪个语音交互代理执行基于输入语音信号的处理。
现有技术文献
专利文献
专利文献1:日本特开2018-189984号公报
发明内容
发明所要解决的课题
谋求一种如下的技术:在可利用多个语音交互代理的服务的情况下,能够高精度地调用具有用户所要求的功能的语音交互代理。
本公开是鉴于上述情况而完成的,其目的在于提供一种在可利用多个语音交互代理的服务的情况下,能够高精度地调用具有用户所要求的功能的语音交互代理的代理系统、服务器及记录有代理程序的计算机可读记录介质。
用于解决课题的技术方案
本公开所涉及的代理系统具备:终端装置,具备第一处理器,该第一处理器具有硬件,且对实现多个语音交互代理中的任一语音交互代理的功能的服务器传送用户的讲话语音;及代理服务器,具备第二处理器,该第二处理器具有硬件,且识别从所述终端装置传送来的所述用户的讲话语音,并判定所述用户的讲话语音所包含的指示是对多个语音交互代理中的哪个语音交互代理的指示。
本公开所及的代理服务器包括具有硬件的处理器,所述处理器识别从终端装置传送来的用户的讲话语音,并判定所述用户的讲话语音所包含的指示是对多个语音交互代理中的哪个语音交互代理的指示。
本公开所涉及的代理程序使具有硬件的处理器执行如下步骤:识别从终端装置传送来的用户的讲话语音,并判定所述用户的讲话语音所包含的指示是对多个语音交互代理中的哪个语音交互代理的指示。
发明效果
根据本公开,在利用具有不同功能的多个语音交互代理的服务时,能够高精度地调用具有用户所要求的功能的语音交互代理。
附图说明
图1是概略地表示实施方式1、2所涉及的代理系统、终端装置及代理服务器的图。
图2是概略地表示实施方式1所涉及的代理系统及终端装置的结构的框图。
图3是表示实施方式1所涉及的代理系统、终端装置及代理程序所执行的语音交互方法的处理步骤的一例的流程图。
图4是概略地表示实施方式2所涉及的代理系统及代理服务器的结构的框图。
图5是表示实施方式所涉及的代理系统、代理服务器及代理程序所执行的语音交互方法的处理步骤的一例的流程图。
图6是表示实施方式所涉及的代理系统、代理服务器及代理程序所执行的语音交互方法的处理步骤的一例的流程图。
具体实施方式
参照附图对本公开的实施方式所涉及的代理系统、终端装置、代理服务器及代理程序进行说明。另外,下述实施方式中的构成要素包含本领域技术人员能够容易置换的构成要素、或实质上相同的构成要素。
[实施方式1]
(代理系统/终端装置)
参照图1和图2对本实施方式所涉及的代理系统及终端装置的结构进行说明。本实施方式所涉及的代理系统、终端装置及代理程序用于向用户提供多个语音交互代理(以下,称为“代理”)的服务。
这里,所谓“用户”,是通过终端装置利用多个代理的服务的人。本实施方式中的终端装置设想为搭载于车辆的车载装置。因此,用户例如是包括车辆的驾驶者在内的乘员。另外,终端装置并不限定于搭载于车辆的车载装置,例如也可以是用户持有的信息终端装置。作为该信息终端装置,例如可举出移动电话、平板终端、可穿戴计算机、个人计算机等。
如图1所示,代理系统1包括具备车载装置11的车辆10、第一VPA(VirtualPersonal Assistant:虚拟个人助理)服务器20和第二VPA服务器30。具体而言,本实施方式所涉及的终端装置由车载装置11实现。车辆10、第一VPA服务器20及第二VPA服务器30构成为能够通过网络NW相互通信。该网络NW例如由因特网线路网、移动电话线路网等构成。
本实施方式中的代理系统1利用了两个VPA服务器,但VPA服务器的数量也可以是三个以上。此外,在本实施方式中,第一VPA服务器20是用于实现代理A的功能的服务器装置,第二VPA服务器30是用于实现代理B的功能的服务器装置。该代理A和代理B可以提供相同种类的服务(例如,音乐流媒体服务),或者可以提供不同种类的服务(例如,代理A是音乐流媒体服务,代理B是天气信息服务)。另外,在本实施方式中,在统称代理A和B的情况下记为“代理”,在统称第一VPA服务器20和第二VPA服务器30的情况下记为“VPA服务器”或“代理服务器”。
(车辆)
如图2所示,车辆10具备车载装置11、通信部12和存储部13。车载装置11例如是搭载于车辆10的汽车导航装置。车载装置11具备控制部111、显示部(显示器)112、按钮113、麦克风114和扬声器115。
具体而言,控制部111具备:由CPU(Central Processing Unit:中央处理单元)、DSP(Digital Signal Processor:数字信号处理器)、FPGA(Field-Programmable GateArray:现场可编程门阵列)等构成的处理器;及由RAM(Random Access Memory:随机存取存储器)、ROM(Read Only Memory:只读存储器)等构成的存储器(主存储部)。
控制部111将存储在存储部13中的程序加载到主存储部的作业区域来执行,并通过执行程序来控制各结构部等,由此实现符合规定目的的功能。控制部111通过执行存储部13中所存储的程序而作为显示控制部111a和语音识别部111b发挥功能。
显示控制部111a控制显示部112的显示内容。显示控制部111a基于用户的操作,使与操作对应的画面显示于显示部112。另外,显示控制部111a使从第一VPA服务器20、第二VPA服务器30输入的规定的信息显示于显示部112。作为“规定的信息”,例如可举出用户的讲话语音的识别结果、与基于用户的指示的处理相关的响应数据。
这里,所谓“基于用户的指示的处理”,例如在用户对代理(VPA服务器)指示“播放音乐”的情况下,表示VPA服务器从提供音乐流媒体服务的服务器(以下,称为“服务服务器”)取得音乐流媒体数据并将其发送到车载装置11的处理。另外,此时从VPA服务器发送到车载装置11的“响应数据”是音乐流媒体数据。
显示控制部111a也可以在由语音识别部111b判定出用户的讲话语音所包含的指示是对多个代理A、B中的哪个代理的指示时,使判定出的代理的名称显示于显示部112。由此,能够确认用户对哪个代理进行了指示。此外,即使在指示被送到不同于用户的意图的代理的情况下,也由于能够进行订正指示等应对,因此便利性提高。
语音识别部111b是执行自动语音识别(Automatic Speech Recognition:ASR)处理和自然语言理解(Natural language understanding:NLU)的语音识别引擎。
语音识别部111b识别从麦克风114输入的用户的讲话语音,并判定用户的讲话语音所包含的指示是对多个代理A、B中的哪个代理的指示。接着,语音识别部111b对实现所判定出的代理的功能的代理服务器(第一VPA服务器20或第二VPA服务器30)传送用户的讲话语音。接着,语音识别部111b从代理服务器取得规定的信息(语音识别结果、响应数据)。
具体而言,语音识别部111b将用户的讲话语音转换为文本数据,在该文本数据包含指定代理的短语的情况下,判定为是对该代理的指示。这里,所谓“指定代理的短语”,表示用于调用代理的唤醒短语(Wake up Phrase:称为WuP)。另外,唤醒短语也被称为“唤醒词(Wake Word)”。
语音识别部111b也可以将语音识别处理的结果直接输出到代理服务器(第一VPA服务器20或第二VPA服务器30)。在该情况下,语音识别部111b向代理服务器输出用户的讲话语音的识别结果,来代替该用户的讲话语音。接着,语音识别部111b从代理服务器取得规定的信息(响应数据等)。由此,能够省略代理服务器中的语音识别处理,因此代理服务器的响应速度提高。
显示部112例如由LCD(液晶显示器)、OLED(有机EL显示器)等构成,基于显示控制部111a的控制来显示信息。按钮113是用户在讲话时按下的按钮。按钮113例如由设置于车辆10的方向盘等的按压式的物理按钮、或显示于显示部112的虚拟按钮构成。
这里,本实施方式中的代理具有多种调用方法(启动方法)。例如,在对代理B(第二VPA服务器30)指示天气信息的提供的情况下,用户如以下的(1)、(2)那样讲话。
(1)说出“代理B,告诉我今天的天气”
(2)按下按钮113说出“告诉我今天的天气”
(1)是使用了唤醒短语的方法,用户说出包含指定代理B的短语和对代理B的指示的短语。
(2)是代替唤醒短语而使用了按钮113的方法。另外,“按下按钮113讲话”包括按下按钮113并释放后讲话的情况(Push-to-Talk/Tap-to-Talk)和在按住按钮113的状态下讲话并在讲话完成后释放按钮113的情况(Hold-to-Talk)这两种模式。这样,通过按下按钮113讲话,能够省略唤醒短语。
另外,在利用代理时,也能够经由特定的代理调用其他代理。例如,在经由代理A(第一VPA服务器20)对代理B(第二VPA服务器30)指示天气信息的提供的情况下,用户如以下的(3)那样讲话。
(3)说出“代理A、代理B,告诉我今天的天气”
这里,在(3)的情况下,用户的讲话语音包含多个代理的唤醒短语。因此,与(1)、(2)相比,调用用户不希望的代理的可能性变高。因此,在本实施方式所涉及的代理系统1、终端装置及代理程序中,在车载装置11侧判定用户的指示是对哪个代理的指示,并基于该判定结果将用户的讲话语音传送到VPA服务器。
麦克风114是受理来自用户的语音输入的输入部。麦克风114例如在用户对代理(VPA服务器)进行指示时被使用。扬声器115是向用户输出语音的输出部。扬声器115例如在代理基于用户的指示对用户进行响应时被使用。
通信部12例如由DCM(Data Communication Module:数据通信模块)等构成,通过经由网络NW的无线通信,与第一VPA服务器20和第二VPA服务器30之间进行通信。
存储部13由EPROM(Erasable Programmable ROM)、硬盘驱动器(Hard DiskDrive:HDD)及可移动介质等记录介质构成。作为可移动介质,例如可举出USB(UniversalSerial Bus:通用串行总线)存储器、CD(Compact Disc:压缩盘)、DVD(Digital VersatileDisc:数字多功能盘)和BD(蓝光(注册商标)盘)这样的盘记录介质。另外,在存储部13能够存储操作系统(Operating System:OS)、各种程序、各种表、各种数据库等。在存储部13中,根据需要而存储例如用户的交互内容的数据、用户的讲话语音的识别结果的数据等。
(第一VPA服务器)
第一VPA服务器20具备控制部21、通信部22和存储部23。通信部22和存储部23的物理结构与通信部12和存储部13相同。
具体而言,控制部21具备:由CPU(Central Processing Unit:中央处理单元)、DSP(Digital Signal Processor:数字信号处理器)、FPGA(Field-Programmable Gate Array:现场可编程门阵列)等构成的处理器;及由RAM(Random Access Memory:随机存取存储器)、ROM(Read Only Memory:只读存储器)等构成的存储器(主存储部)。控制部21通过执行存储部23中所存储的语音交互代理程序来实现语音交互代理的功能。另外,控制部21通过执行存储部23中所存储的程序而作为语音识别部211发挥功能。
语音识别部211具有与语音识别部111b相同的功能,识别从车载装置11传送来的用户的讲话语音,并将规定的信息(语音识别结果、响应数据)输出到车载装置11。
语音识别部211也可以将与用户之间的交互内容作为该用户的偏好信息蓄积于存储部23,并在进行基于从车载装置11传送来的用户的讲话语音的识别结果的处理时,进行考虑到用户的偏好信息的处理。例如,在用户对代理A频繁地指示特定流派(例如,古典)的音乐的播放的情况下,语音识别部211将“用户喜欢的音乐流派:古典”这样的信息作为偏好信息蓄积于存储部23。并且,在由用户对代理A进行了“音乐的播放”的指示的情况下,语音识别部211从服务服务器取得古典的音乐流媒体数据,并将其发送到车载装置11。由此,能够接受到符合用户的偏好的服务,因此便利性提高。
在存储部23存储有第一VPA服务器20所实现的语音交互代理的程序。此外,在存储部23中,根据需要而存储例如用户的交互内容的数据、用户的讲话语音的识别结果的数据等。另外,从隐私保护的观点出发,这些信息也可以在利用后从存储部23中删除。
(第二VPA服务器)
第二VPA服务器30具备控制部31、通信部32和存储部33。控制部31、通信部32和存储部33的物理结构与控制部21、通信部12和存储部13相同。控制部31通过执行存储部33中所存储的语音交互代理程序来实现语音交互代理的功能。另外,控制部31通过执行存储部33中所存储的程序而作为语音识别部311发挥功能。
语音识别部311具有与语音识别部111b相同的功能,识别从车载装置11传送来的用户的讲话语音,并将规定的信息(语音识别结果、响应数据)输出到车载装置11。语音识别部311与语音识别部211同样地,也可以将与用户之间的交互内容作为该用户的偏好信息蓄积于存储部33,并在进行基于从车载装置11传送来的用户的讲话语音的识别结果的处理时,进行考虑到用户的偏好信息的处理。由此,能够接受到符合用户的偏好的服务,因此便利性提高。
在存储部33存储有第二VPA服务器30所实现的语音交互代理的程序。此外,在存储部33中,根据需要而存储例如用户的交互内容的数据、用户的讲话语音的识别结果的数据等。另外,从隐私保护的观点出发,这些信息也可以在利用后从存储部33中删除。
(语音交互方法)
参照图3对本实施方式所涉及的代理系统1和终端装置所执行的语音交互方法的处理步骤进行说明。以下,对用户经由特定的代理调用其他代理的情况下的语音交互方法进行说明。另外,在图3中,为了便于说明,用户讲话的步骤也图示在语音交互方法的流程图内。
首先,当用户说出“代理A、代理B,做○○”时(步骤S1),该讲话语音的数据通过麦克风114输入到车载装置11。接着,车载装置11的语音识别部111b检测用户的讲话(步骤S2),并进行语音识别处理及意图理解处理(步骤S3)。
语音识别部111b判定为是发给代理B的指示(步骤S4),将用户的讲话语音传送到第二VPA服务器30(步骤S5)。接着,第二VPA服务器30的语音识别部311进行语音识别处理和意图理解处理(步骤S6),并将该识别结果输出到车载装置11(步骤S7)。
另外,例如在步骤S1中,在用户说出“代理B、代理A,做○○”的情况下,进行如下处理。语音识别部111b在步骤S2中检测用户的讲话,在步骤S3中进行语音识别处理及意图理解处理。接着,语音识别部111b在步骤S4中判定为是发给代理A的指示,在步骤S5中将用户的讲话语音传送到第一VPA服务器20。接着,第一VPA服务器20的语音识别部211在步骤S6中进行语音识别处理及意图理解处理,在步骤S7中将识别结果输出到车载装置11。
根据以上所说明的本实施方式所涉及的代理系统1、终端装置及代理程序,在车载装置11侧判定用户的指示是对哪个代理的指示,并基于该判定结果将用户的讲话语音传送到VPA服务器。由此,在利用具有不同功能的多个代理的服务时,能够高精度地调用具有用户所要求的功能的代理,因此能够接受到用户所期待的服务。
[实施方式2]
(代理系统/代理服务器)
参照图4和图5对本实施方式所涉及的代理系统及代理服务器的结构进行说明。本实施方式所涉及的代理系统1A的结构除了车辆10A的车载装置11A的结构之外,与代理系统1相同。在实施方式1所涉及的代理系统1中,在车载装置11侧判定用户的指示是对哪个代理的指示,但在本实施方式所涉及的代理系统1A中,由代理服务器(第一VPA服务器20或第二VPA服务器30)判定用户的指示是对哪个代理的指示。以下,对于代理系统1A,主要对与代理系统1不同的部分进行说明。
(车辆)
如图4所示,车辆10A具备车载装置11A、通信部12和存储部13。车载装置11A包括控制部111A、显示部(显示器)112、按钮113、麦克风114和扬声器115。控制部111A通过执行存储部13中所存储的程序而作为显示控制部111a发挥功能。
显示控制部111a也可以通过语音识别部211、311判定用户的讲话语音所包含的指示是对多个代理A、B中的哪个代理的指示,并在被传送了该判定结果时,使所判定出的代理的名称显示于显示部112。由此,能够确认用户对哪个代理进行了指示。此外,即使在指示被送到不同于用户的意图的代理的情况下,也由于能够进行订正指示等应对,因此便利性提高。
(第一VPA服务器)
第一VPA服务器20的语音识别部211识别从车载装置11A传送来的用户的讲话语音,并判定用户的讲话语音所包含的指示是对多个代理A、B中的哪个代理的指示。然后,语音识别部211在判定为用户的讲话语音所包含的指示是对其他代理B的指示的情况下,将该判定结果输出到车载装置11A。
收到该判定结果,车载装置11A的控制部111A对实现所判定出的代理B的功能的第二VPA服务器30传送用户的讲话语音,并从该第二VPA服务器30取得规定的信息(语音识别结果、响应数据)。另外,语音识别部211在判定为用户的讲话语音所包含的指示是对本代理(代理A)的指示的情况下,将规定的信息(语音识别结果、响应数据)输出到车载装置11。
此外,语音识别部211也可以在判定为用户的讲话语音所包含的指示是对其他代理B的指示的情况下,不将该判定结果输出到车载装置11A,而是对实现所判定出的代理B的功能的第二VPA服务器30直接传送用户的讲话语音。由此,能够省略车载装置11A中的讲话语音的传送处理,因此代理系统1A整体的响应速度提高。
在存储部23中,根据需要而存储例如用户的交互内容的数据、用户的讲话语音的识别结果的数据等。另外,从隐私保护的观点出发,这些信息也可以在利用后从存储部23中删除。在该情况下,语音识别部211在识别从车载装置11A传送来的用户的讲话语音之后,将存储在存储部23中的用户的讲话语音及其识别结果删除。
(第二VPA服务器)
第二VPA服务器30的语音识别部311识别从车载装置11A传送来的用户的讲话语音,并判定用户的讲话语音所包含的指示是对多个代理A、B中的哪个代理的指示。然后,语音识别部311在判定为用户的讲话语音所包含的指示是对其他代理A的指示的情况下,将该判定结果输出到车载装置11A。
收到该判定结果,车载装置11A的控制部111A对实现所判定出的代理A的功能的第一VPA服务器20传送用户的讲话语音,并从该第一VPA服务器20取得规定的信息(语音识别结果、响应数据)。另外,语音识别部311在判定为用户的讲话语音所包含的指示是对本代理(代理B)的指示的情况下,将规定的信息(语音识别结果、响应数据)输出到车载装置11。
此外,语音识别部311也可以在判定为用户的讲话语音所包含的指示是对其他代理A的指示的情况下,不将该判定结果输出到车载装置11A,而是对实现所判定出的代理A的功能的第一VPA服务器20直接传送用户的讲话语音。由此,能够省略车载装置11A中的讲话语音的传送处理,因此代理系统1A整体的响应速度提高。
在存储部33中,根据需要而存储例如用户的交互内容的数据、用户的讲话语音的识别结果的数据等。另外,从隐私保护的观点出发,这些信息也可以在利用后从存储部33中删除。在该情况下,语音识别部311在识别从车载装置11A传送来的用户的讲话语音之后,将存储在存储部33中的用户的讲话语音及其识别结果删除。
(语音交互方法(第一方式))
参照图5对本实施方式所涉及的代理系统1A及代理服务器所执行的语音交互方法的处理步骤的第一方式进行说明。以下,对用户经由特定的代理调用其他代理的情况下的语音交互方法进行说明。另外,在图5中,为了便于说明,用户讲话的步骤也图示在语音交互方法的流程图内。
首先,当用户说出“代理A、代理B,做○○”时(步骤S11),该讲话语音的数据通过麦克风114输入到车载装置11A。接着,车载装置11A的控制部111A检测用户的讲话(步骤S12),并将用户的讲话语音传送到例如第一VPA服务器20(步骤S13)。接着,第一VPA服务器20的语音识别部211进行语音识别处理和意图理解处理(步骤S14)。
语音识别部211判定为是发给代理B的指示,并将该判定结果输出到车载装置11A(步骤S15)。接着,语音识别部211从存储部23删除包括用户的讲话内容和识别结果的讲话信息(步骤S16)。
接着,控制部111A将用户的讲话语音传送到第二VPA服务器30(步骤S17)。接着,第二VPA服务器30的语音识别部311进行语音识别处理和意图理解处理(步骤S18),并将该识别结果输出到车载装置11A(步骤S19)。
另外,例如在步骤S11中,在用户说出“代理B、代理人A,做○○”的情况下,进行如下处理。控制部111A在步骤S12中检测用户的讲话,在步骤S13中将用户的讲话语音传送到例如第二VPA服务器30。接着,语音识别部311在步骤S14中进行语音识别处理和意图理解处理。接着,语音识别部311在步骤S15中判定为该指示是发给代理A的指示,并将该判定结果输出到车载装置11A。接着,语音识别部311在步骤S16中从存储部33删除包括用户的讲话内容和识别结果的讲话信息。接着,控制部111A在步骤S17中将用户的讲话语音传送到第一VPA服务器20。接着,语音识别部211在步骤S18中进行语音识别处理及意图理解处理,在步骤S19中将识别结果输出到车载装置11A。
(语音交互方法(第二方式))
参照图6对本实施方式所涉及的代理系统1A及代理服务器所执行的语音交互方法的处理步骤的第二方式进行说明。以下,对用户经由特定的代理调用其他代理的情况下的语音交互方法进行说明。另外,在图6中,为了便于说明,用户讲话的步骤也图示在语音交互方法的流程图内。
首先,当用户说出“代理A、代理B,做○○”时(步骤S21),该讲话语音的数据通过麦克风114输入到车载装置11A。接着,车载装置11A的控制部111A检测用户的讲话(步骤S22),并将用户的讲话语音传送到例如第一VPA服务器20(步骤S23)。接着,第一VPA服务器20的语音识别部211进行语音识别处理和意图理解处理(步骤S24)。
语音识别部211判定为是发给代理B的指示(步骤S25),将用户的讲话语音传送到第二VPA服务器30(步骤S26)。接着,语音识别部211从存储部23删除包括用户的讲话内容和识别结果的讲话信息(步骤S27)。接着,第二VPA服务器30的语音识别部311进行语音识别处理和意图理解处理(步骤S28),并将该识别结果输出到车载装置11A(步骤S29)。
另外,例如在步骤S21中,在用户说出“代理B、代理A,做○○”的情况下,进行如下处理。控制部111A在步骤S22中检测用户的讲话,在步骤S23中将用户的讲话语音传送到例如第二VPA服务器30。接着,语音识别部311在步骤S24中进行语音识别处理和意图理解处理。接着,语音识别部311在步骤S25中判定为是发给代理A的指示,在步骤S26中将用户的讲话语音输出到第一VPA服务器20。接着,语音识别部311在步骤S27中从存储部23删除包括用户的讲话内容和识别结果的讲话信息。接着,语音识别部211在步骤S28中进行语音识别处理及意图理解处理,在步骤S29中将识别结果输出到车载装置11A。
根据以上所说明的实施方式所涉及的代理系统1A、代理服务器及代理程序,在代理服务器侧判定用户的指示是对哪个代理的指示,并基于该判定结果将用户的讲话语音传送到VPA服务器。由此,在利用具有不同功能的多个代理的服务时,能够高精度地调用具有用户所要求的功能的代理,因此能够接受到用户所期待的服务。
进一步的效果和变形例能够由本领域技术人员容易地导出。因此,本发明的更广泛的方式并不限定于如以上所表示和描述的特定的细节和代表性的实施方式。因此,能够在不脱离由所附的请求保护的范围及其等同物所定义的总括性的发明构思的精神或范围的情况下,进行各种变更。
例如,在实施方式所涉及的代理系统1和1A、终端装置、代理服务器及代理程序中,也可以在由用户发出了“音乐的播放”的指示的情况下,VPA服务器(第一VPA服务器20和第二VPA服务器30)从服务服务器取得音乐流媒体数据并将其发送到车载装置11、11A。也可以代替该方法,VPA服务器对服务服务器进行控制,将音乐流媒体数据从服务服务器直接发送给车载装置11、11A。
标号说明
1、1A 代理系统
10、10A 车辆
11、11A 车载装置
111、111A 控制部
111a 显示控制部
111b 语音识别部
112 显示部
113 按钮
114 麦克风
115 扬声器
12 通信部
13 存储部
20 第一VPA服务器
21 控制部
211 语音识别部
22 通信部
23 存储部
30 第二VPA服务器
31 控制部
311 语音识别部
32 通信部
33 存储部
NW 网络

Claims (20)

1.一种代理系统,具备:
终端装置,具备第一处理器,该第一处理器具有硬件,且对实现多个语音交互代理中的任一语音交互代理的功能的服务器传送用户的讲话语音;及
服务器,具备第二处理器,该第二处理器具有硬件,且识别从所述终端装置传送来的所述用户的讲话语音,并判定所述用户的讲话语音所包含的指示是对多个语音交互代理中的哪个语音交互代理的指示。
2.根据权利要求1所述的代理系统,其中,
所述第二处理器在判定为所述用户的讲话语音所包含的指示是对其他语音交互代理的指示的情况下,将该判定结果输出到所述终端装置,
所述第一处理器对实现所判定出的语音交互代理的功能的服务器传送所述用户的讲话语音,并从被传送了所述用户的讲话语音的服务器取得所述用户的讲话语音的识别结果。
3.根据权利要求1所述的代理系统,其中,
所述第二处理器对实现所判定出的语音交互代理的功能的服务器传送所述用户的讲话语音,
所述第一处理器从被传送了所述用户的讲话语音的服务器取得所述用户的讲话语音的识别结果。
4.根据权利要求1所述的代理系统,其中,
所述第二处理器对实现所判定出的语音交互代理的功能的服务器传送所述用户的讲话语音,
所述第一处理器从被传送了所述用户的讲话语音的服务器取得与基于所述用户的讲话语音的识别结果的处理相关的响应数据。
5.根据权利要求1至4中任一项所述的代理系统,其中,
所述第二处理器在识别从所述终端装置传送来的所述用户的讲话语音之后,将存储在存储部中的所述用户的讲话语音及其识别结果删除。
6.根据权利要求1或2所述的代理系统,其中,
所述终端装置具备显示器,
所述第一处理器使所述服务器判定出的语音交互代理的名称显示于所述显示器。
7.根据权利要求1至6中任一项所述的代理系统,其中,
所述第二处理器将所述用户的讲话语音转换为文本数据,且在所述文本数据包含指定语音交互代理的短语的情况下,判定为是对该语音交互代理的指示。
8.根据权利要求1至7中任一项所述的代理系统,其中,
所述用户的讲话语音包括指定语音交互代理的短语和对所述语音交互代理的指示。
9.根据权利要求8所述的代理系统,其中,
所述终端装置具备所述用户在讲话时按下的按钮。
10.根据权利要求1至9中任一项所述的代理系统,其中,
所述终端装置是搭载于车辆的车载装置。
11.根据权利要求1至9中任一项所述的代理系统,其中,
所述终端装置是所述用户持有的信息终端装置。
12.一种服务器,包括具有硬件的处理器,
所述处理器识别从终端装置传送来的用户的讲话语音,并判定所述用户的讲话语音所包含的指示是对多个语音交互代理中的哪个语音交互代理的指示。
13.根据权利要求12所述的服务器,其中,
所述处理器在判定为所述用户的讲话语音所包含的指示是对其他语音交互代理的指示的情况下,将该判定结果输出到所述终端装置。
14.根据权利要求12所述的服务器,其中,
所述处理器对实现所判定出的语音交互代理的功能的服务器传送所述用户的讲话语音。
15.根据权利要求12至14中任一项所述的服务器,其中,
所述处理器将所述用户的讲话语音转换为文本数据,且在所述文本数据包含指定语音交互代理的短语的情况下,判定为是对该语音交互代理的指示。
16.根据权利要求12至15中任一项所述的服务器,其中,
所述用户的讲话语音包括指定语音交互代理的短语和对所述语音交互代理的指示。
17.一种记录有代理程序的计算机可读记录介质,其中,
所述代理程序使计算机的处理器执行如下步骤:
识别从终端装置传送来的用户的讲话语音,并判定所述用户的讲话语音所包含的指示是对多个语音交互代理中的哪个语音交互代理的指示。
18.根据权利要求17所述的记录有代理程序的计算机可读记录介质,其中,
所述代理程序使所述处理器执行如下步骤:
在判定为所述用户的讲话语音所包含的指示是对其他语音交互代理的指示的情况下,将该判定结果输出到所述终端装置。
19.根据权利要求17所述的记录有代理程序的计算机可读记录介质,其中,
所述代理程序使所述处理器执行如下步骤:
对实现所判定出的语音交互代理的功能的服务器传送所述用户的讲话语音。
20.根据权利要求17至19中任一项所述的记录有代理程序的计算机可读记录介质,其中,
所述代理程序使所述处理器执行如下步骤:
将所述用户的讲话语音转换为文本数据;及
在所述文本数据包含指定语音交互代理的短语的情况下,判定为是对该语音交互代理的指示。
CN202110047615.XA 2020-01-23 2021-01-14 代理系统、服务器及计算机可读记录介质 Withdrawn CN113160811A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020009344A JP2021117302A (ja) 2020-01-23 2020-01-23 エージェントシステム、エージェントサーバおよびエージェントプログラム
JP2020-009344 2020-01-23

Publications (1)

Publication Number Publication Date
CN113160811A true CN113160811A (zh) 2021-07-23

Family

ID=73642641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110047615.XA Withdrawn CN113160811A (zh) 2020-01-23 2021-01-14 代理系统、服务器及计算机可读记录介质

Country Status (6)

Country Link
US (1) US20210233516A1 (zh)
EP (1) EP3855305A1 (zh)
JP (1) JP2021117302A (zh)
KR (1) KR20210095569A (zh)
CN (1) CN113160811A (zh)
BR (1) BR102021000524A2 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021117301A (ja) * 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、端末装置およびエージェントプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9172747B2 (en) * 2013-02-25 2015-10-27 Artificial Solutions Iberia SL System and methods for virtual assistant networks
JP6389171B2 (ja) 2013-06-19 2018-09-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び機器
US10115400B2 (en) * 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US11164570B2 (en) * 2017-01-17 2021-11-02 Ford Global Technologies, Llc Voice assistant tracking and activation
US11062702B2 (en) * 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US10803865B2 (en) * 2018-06-05 2020-10-13 Voicify, LLC Voice application platform

Also Published As

Publication number Publication date
EP3855305A1 (en) 2021-07-28
US20210233516A1 (en) 2021-07-29
BR102021000524A2 (pt) 2021-07-27
KR20210095569A (ko) 2021-08-02
JP2021117302A (ja) 2021-08-10

Similar Documents

Publication Publication Date Title
US11676601B2 (en) Voice assistant tracking and activation
US8554831B2 (en) System and method for executing hands-free operation of an electronic calendar application within a vehicle
JP5320064B2 (ja) 音声制御型ワイヤレス通信デバイス・システム
US9641625B2 (en) Method and system for executing an internet radio application within a vehicle
CN111095400A (zh) 选择系统和方法
CN103617795A (zh) 一种车载语音识别控制方法及系统
US9234764B2 (en) Navigation system initiating conversation with driver
CN113160811A (zh) 代理系统、服务器及计算机可读记录介质
CN113160830A (zh) 代理系统、终端装置及记录介质
CN113162964B (zh) 代理系统、终端装置以及代理程序
JP2020113150A (ja) 音声翻訳対話システム
US11646034B2 (en) Information processing system, information processing apparatus, and computer readable recording medium
Tchankue et al. Are mobile in-car communication systems feasible? a usability study
JP2005121526A (ja) 車載用情報提供対話装置、システムおよび方法
JP2019028160A (ja) 電子装置および情報端末システム
WO2015111256A1 (ja) 音声調整システム、サーバ及び車載装置
KR100837542B1 (ko) 정보 통신망을 이용한 음악 콘텐츠 제공 방법 및 그 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210723

WW01 Invention patent application withdrawn after publication