CN109601016B - 信息处理装置、声音识别系统及信息处理方法 - Google Patents

信息处理装置、声音识别系统及信息处理方法 Download PDF

Info

Publication number
CN109601016B
CN109601016B CN201880003037.6A CN201880003037A CN109601016B CN 109601016 B CN109601016 B CN 109601016B CN 201880003037 A CN201880003037 A CN 201880003037A CN 109601016 B CN109601016 B CN 109601016B
Authority
CN
China
Prior art keywords
sound
control unit
start word
vpa
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880003037.6A
Other languages
English (en)
Other versions
CN109601016A (zh
Inventor
小塚雅之
小川智辉
森美裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of CN109601016A publication Critical patent/CN109601016A/zh
Application granted granted Critical
Publication of CN109601016B publication Critical patent/CN109601016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Computer And Data Communications (AREA)

Abstract

信息处理装置(10b)具备:声音取得部(11),取得用户的声音;第一控制部(12b),在识别出由声音取得部(11)取得的声音是第一启动单词的情况下,输出与第一启动单词对应的声音信号;以及第二控制部(13b)。第一控制部(12b)在识别出在向VPA云服务器(120b)发送由声音取得部(11)取得的声音的声音信号的第一声音发送处理中,由声音取得部(11)取得的声音表示用于使第二控制部(13b)开始第二声音发送处理的第二启动单词的情况下,基于规定的优先度判定是否向第二控制部(13b)输出与第二启动单词对应声音信号。

Description

信息处理装置、声音识别系统及信息处理方法
技术领域
本申请涉及在声音识别系统中使用的信息处理装置。
背景技术
被称作VPA(Virtual Personal Assistance)的、通过声音来操作设备的服务开始普及。在专利文献1中公开了在检测到启动单词的情况下对用户的发言进行预测的信息处理装置。
现有技术文献
专利文献
专利文献1:日本特开2017-138476号公报
发明内容
发明所要解决的技术课题
在主要的声音识别在云服务器中进行的情况下,信息处理装置例如通过识别启动单词来开始向声音识别服务器发送声音信号。
本申请提供能够选择性地向多个声音识别服务器发送声音信号的信息处理装置。
解决课题所采用的技术手段
本申请的一个方式的信息处理装置具备:声音取得部,取得用户的声音;第一控制部,在识别出由所述声音取得部取得的声音是第一启动单词的情况下,输出与所述第一启动单词对应的声音信号;以及第二控制部,在识别出由所述第一控制部输出的声音信号表示所述第一启动单词的情况下,开始向第一声音识别服务器发送由所述声音取得部取得的声音的声音信号的第一声音发送处理,所述第一控制部在识别出在所述第一声音发送处理中由所述声音取得部取得的声音是用于使所述第二控制部开始第二声音发送处理的第二启动单词的情况下,基于规定的优先度判定是否向所述第二控制部输出与所述第二启动单词对应的声音信号,所述第二声音发送处理是将由所述声音取得部取得的声音的声音信号向与所述第一声音识别服务器不同的第二声音识别服务器发送的处理。
另外,这些涵盖性的或者具体性的形态既可以由系统、方法、集成电路、计算机程序或者计算机可读取的CD-ROM等记录介质实现,也可以由系统、方法、集成电路、计算机程序以及记录介质的任意组合实现。
发明的效果:
本申请的信息处理装置能够选择性地向多个声音识别服务器发送声音信号。
附图说明
图1是用于说明智能音箱的功能的图。
图2是用于说明使用了智能音箱的家电的控制的图。
图3是表示服务与启动单词的关系的图。
图4是用于说明用户使用智能手机调用服务的情况的图。
图5是表示实施方式1的声音识别系统的构成的框图。
图6是实施方式1的声音识别系统的动作的流程图。
图7是表示实施方式1中的服务与启动单词的关系的图。
图8是实施方式2的声音识别系统的动作的流程图。
图9是表示实施方式2中的服务与启动单词的关系的图。
图10是表示实施方式3的声音识别系统的构成的框图。
图11是实施方式3的声音识别系统的动作的流程图。
图12是表示实施方式4的声音识别系统的构成的框图。
图13是实施方式4的声音识别系统的动作的流程图。
图14是表示实施方式5的声音识别系统的构成的简易框图。
图15是表示实施方式6的声音识别系统的构成的简易框图。
具体实施方式
(成为本申请的基础的知识)
美国亚马逊(注册商标)公司提供的Alexa(注册商标)、美国谷歌(注册商标)公司提供的Google Assistant(注册商标)、美国微软(注册商标)公司提供的Cortana(注册商标)等的所谓的被称作VPA(Virtual Personal Assistance)的通过声音操作设备的服务开始普及。
这样的服务最初作为智能手机或者个人计算机的应用程序来提供,但最近也作为面向被称作智能音箱的单体产品的应用程序来提供。智能音箱是用户能够通过声音来操作的音箱,是主要用于接受音乐流媒体服务的提供的音箱。即,智能音箱的主要功能是根据用户的声音来播放由音频流服务提供的音乐。图1是用于说明智能音箱的功能的图。
智能音箱110的主要功能通过以下来实现。智能音箱110取得的用户的声音的声音信号被发送至VPA云服务器120。VPA云服务器120对接收到的声音信号进行声音识别处理并向提供音频流服务的云服务器131发送指令,云服务器131基于接收到的指令向智能音箱110传输音乐。
这样的结构不仅适用于提供音频流服务的云服务器131,还能够适用于包含在第三方云服务器群130中的其他云服务器。只要通过第三方云服务器群130的服务提供商向VPA服务的提供商提供第三方云I/F,则用户能够与智能手机同样地从智能音箱110利用第三方云服务器群130提供的服务。
例如,用户通过对智能音箱110说出“今天的天气是”,则能够从提供天气预报服务的云服务器132接收天气预报信息的提供。具体而言,从智能音箱110输出“晴天”的声音。此外,若在提供电子商务(electronic commerce)网站的云服务器133中存储有用户的商品的购买履历,则用户能够通过对智能音箱110说出“购买相同的商品”来实现相同的商品的购买。
经由这样的智能音箱110的多种对话功能,通过放置在住宅等中的智能音箱110所具备的麦克风将用户的声音、电视机的声音、以及广播的声音等录音并向VPA云服务器120传输来实现。VPA云服务器120利用声音识别功能(ASR:automatic speech recognition)将声音信号转换为文本,利用自然语言处理功能(NLP:natural language processing)将文本转换为机器语言。VPA云服务器120进一步利用上下文理解功能将机器语言转换为符合特定的上下文的含义,最后利用个性化功能转换为与各用户的信息对应的指示内容。VPA云服务器120将这样的指示内容作为指令来发送,从而能够调用第三方云服务器群130。
此外,若使用智能音箱110,则也能够利用VPA云服务器120的VPA控制住宅内的家电。图2是用于说明使用了智能音箱110的家电的控制的图。
如图2所示,VPA云服务器120只要与家电控制服务器140连接,则能够通过声音控制用户的住宅内的空调、照明、安全系统、或者电视机等。
在图2中,作为控制对象的设备例示出了包括空调a~空调d的空调群150。若用户对智能音箱110说出“外出,请进行设定”,则该声音的声音信号被向VPA云服务器120发送。VPA云服务器120利用声音识别功能将声音信号文本化,并利用自然语言处理功能转换为指示外出模式的设定的机器语言。此外,VPA云服务器120利用上下文理解功能,将指示外出模式的设定的机器语言转换为将用户的住宅内的电气设备关闭的指令,并利用个性化功能,基于用户信息,转换为将4台空调关闭的指令。这样,根据利用了VPA的家电控制,通过用户说出“外出,请进行设定”来关闭4台空调a~d。即,根据利用了VPA的家电控制,实现了通过使用遥控器关闭各个空调a~d以上的功能。
另外,在用户通过智能手机利用这样的VPA的情况下,能够通过进行操作智能手机具备的按钮,或触摸显示于智能手机的图标等的操作来启动VPA。
另一方面,在通过智能音箱110利用VPA的情况下,若通过智能音箱110具备的按钮的操作来启动VPA,则无法获得能够通过声音、免提地进行操作的智能音箱110的优点。因此,在通过智能音箱110利用VPA的情况下,希望VPA的启动通过声音来进行。例如,考虑预先决定启动单词,并利用VPA云服务器120识别启动单词,由此启动VPA的构成。启动单词也有时被称作唤醒(weak)单词等。
然而,在这样的构成中,需要声音信号总是经由智能音箱110具备的麦克风向VPA云服务器120传输。如此,担心不能保护用户自身的隐私。因此,若考虑用户的隐私则难以采用这样的构成。
为此,关于启动单词,采用在智能音箱110中进行声音识别的构成。在VPA被启动后,由智能音箱110具备的麦克风取得的声音的声音信号被向VPA云服务器120传输。图3是表示服务与启动单词的关系的图。
如图3所示,当前,用户在经由智能音箱110调用音频流服务、天气预报服务、以及电子商务网站等的VPA提供服务(家电控制服务以外的服务)时,调用家电控制服务时,均使用VPA服务提供商指定的启动单词。设VPA服务提供商为B公司,则启动单词例如为“B公司”、“你好(Hey)B公司”等。
在VPA启动后,用户通过对智能音箱110说出功能启动单词、以及指令内容从而能够调用VPA提供服务以及家电控制服务。
例如,在进行上述的空调群150的制造/销售的A公司提供家电控制服务的情况下,作为功能启动单词,用户说出“A公司”,作为用于指定控制对象以及控制内容的指令内容,用户说出“空调开启”。由此,能够控制住宅内的空调群150。
另外,如图4所示,在用户使用智能手机的情况下,为了调用VPA提供服务而使用的应用程序、与为了调用家电控制服务而使用的应用程序通常不同。图4是用于说明用户使用智能手机调用服务的情况的图。因此,用户识别到VPA提供服务的世界、与家电控制服务的世界是不同的世界,考虑到存在2个不同的服务体系。
像这样识别到存在2个服务体系的用户,存在购买并使用A公司制造/销售的智能音箱110那样的VPA设备的情况下。在调用VPA提供服务调用的情况下,对于用户来说,使用VPA服务提供商指定的启动单词与使用智能手机执行应用程序感觉相同。因此,用户无违和感,感到自然。
然而,在调用家电控制服务的情况下,若使用VPA服务提供商指定的启动单词,则有可能对用户带来违和感。
例如,在对控制对象的家电设备以及VPA设备附加了制造/销售源的A公司的标志的情况下,为了控制A公司的家电设备而说出VPA服务提供商指定的“B公司”“你好B公司”等的启动单词,并不自然。
此外,用户也有可能误以为家电控制服务的提供源不是A公司而是VPA服务提供商(即,B公司)。由于在家电控制服务器140中产生的障碍而无法提供家电控制服务的情况下,用户可能会认为是VPA服务提供商的问题,而致电VPA服务提供商的电话咨询窗口。这样,在使用VPA服务提供商指定的启动单词的情况下,用户难以辨别服务的提供者(即责任人)也成为问题。
为此,发明人们发现了能够通过VPA服务提供商指定的启动单词以外的方式启动声音识别系统的智能音箱110的构成。此外,发明人们发现了能够与多个VPA云服务器连接的智能音箱110的构成。
以下,参照附图具体对实施方式进行说明。另外,以下说明的实施方式均表示涵盖性的或者具体的例子。以下的实施方式所示的数值、形状、材料、构成要素、构成要素的配置位置以及连接形态、步骤、步骤的顺序等均为一例,并非意在限定本申请。此外,以下的实施方式中的构成要素中的、未被表示最上位概念的独立权利要求记载的构成要素,作为任意的构成要素进行说明。
另外,各图为示意图,并非一定严格进行图示。此外,在各图中,有时对于实际上相同的构成赋予相同的附图标记,并省略或简略重复的说明。
(实施方式1)
[构成]
以下,对实施方式1的声音识别系统的构成进行说明。图5是表示实施方式1的声音识别系统的构成的框图。
如图5所示,实施方式1的声音识别系统100具备智能音箱110、VPA云服务器120、第三方云服务器群130、家电控制服务器140、以及空调群150。智能音箱110以及空调群150设置于用户的住宅等。
在声音识别系统100中,由智能音箱110的声音取得部11取得的声音的声音信号被向VPA云服务器120发送,并被进行声音识别处理。但是,对于上述的启动单词,在智能音箱110内进行声音识别处理。以下,对构成声音识别系统100的智能音箱110、VPA云服务器120、以及家电控制服务器140详细进行说明。
[智能音箱]
智能音箱110具备向VPA云服务器120发送声音信号的信息处理装置10,作为声音用户界面。信息处理装置10具备声音取得部11、第一控制部12、第二控制部13、通信部14、声音输出部15、以及存储部16。
声音取得部11取得用户的声音。具体而言,声音取得部11是麦克风。
第一控制部12位于声音取得部11与第二控制部13之间,从声音取得部11取得用户的声音的声音信号,并一直监视所取得的用户的声音。换言之,第一控制部12位于从声音取得部11至第二控制部13的声音的路径上。第一控制部12在识别出由声音取得部11取得的声音是第一启动单词的情况下,输出与VPA服务提供商(即,B公司)指定的第二启动单词对应的声音信号。这里,第一启动单词例如是硬件提供商(即,智能音箱110的制造/销售源的A公司)指定的硬件指定启动单词,与第二启动单词不同。
这样,第一控制部12将第一启动单词转换为第二启动单词并向第二控制部13输出。由此,即使用户说出第一启动单词、通过声音取得部11取得了第一启动单词,第二控制部13也识别为取得了第二启动单词。识别出已取得第二启动单词的第二控制部13如以往一样,按照VPA服务提供商提供的VPA SDK(Software Development Kit)进行用于开启(ON)VPA功能的启动处理。即,根据第一控制部12,能够使第二控制部13利用第一启动单词来进行启动处理。在使用了硬件指定启动单词作为第一启动单词的情况下,这样的第一控制部12的功能也被记载为硬件指定启动单词检索功能。
另外,在实施方式1中,第一控制部12在识别出由声音取得部11取得的声音的声音信号是第二启动单词的情况下,输出与第二启动单词对应的声音信号。由此,无论由声音取得部11取得的声音是第一启动单词以及第二启动单词中的哪一个,第二控制部13均能进行启动处理。
以上说明的第一控制部12例如由微型计算机实现,但也可以由处理器实现。
第二控制部13在识别出由第一控制部12输出的声音信号表示第二启动单词的情况下,进行用于开始向VPA云服务器120发送由声音取得部11取得的声音(更详细而言,由声音取得部11取得的声音的声音信号)的启动处理。具体而言,第二控制部13执行在存储部16中存储的VPA SDK。第二控制部13例如由微型计算机实现,但也可以由处理器实现。
通信部14在VPA功能被开启后,基于第二控制部13的控制向VPA云服务器120的通信部121发送声音信号。具体而言,通信部14是通信模块。换言之,通信模块是通信电路。通信部14既可以进行有线通信,也可以进行无线通信。另外,虽未图示,但在通信部14与通信部121之间,夹设有宽带路由器等的中继装置、以及因特网等的通信网络。
声音输出部15基于第二控制部13的控制输出声音。声音输出部15例如输出从提供音频流服务的云服务器131向通信部14传输的音乐。具体而言,声音输出部15是音箱。
存储部16是存储第一控制部12为了识别第一启动单词以及第二启动单词而执行的声音识别用程序、以及第二控制部13执行的VPA SDK等的存储装置。此外,在存储部16中也可以存储第一控制部12为了输出与第一启动单词或者第二启动单词对应的声音信号而读出的声音数据。存储部16也可以用作由声音取得部11取得的声音作为声音数据暂时存储的缓冲存储器。具体而言,存储部16由半导体存储器等实现。
[VPA云服务器]
VPA云服务器120接收在智能音箱110的启动后(VPA功能开启后)由声音取得部11取得的声音的声音信号,并通过对接收到的声音信号进行声音识别处理,来实现VPA提供服务或者家电控制服务。VPA云服务器120是声音识别服务器的一个例子。VPA云服务器120具备通信部121、VPA控制部122、以及存储部123。
通信部121接收由智能音箱110的通信部14发送的声音信号。此外,通信部121基于VPA控制部122的控制,向第三方云服务器群130或者家电控制服务器140发送指令。具体而言,通信部121是通信模块。换言之,通信模块是通信电路。
VPA控制部122对由通信部121接收到的声音信号进行声音识别处理,并向通信部121发送由声音识别处理的结果得到的指令。如上述那样,在声音识别处理中,使用声音识别功能、自然语言处理功能、上下文理解功能以及个性化功能等。VPA控制部122例如由微型计算机实现,但也可以由处理器实现。
存储部123是存储VPA控制部122为了进行声音识别处理而执行的声音识别用程序等的存储装置。此外,在存储部123中还存储与第三方云服务器群130提供的各种服务对应的程序、即第三方云I/F。具体而言,存储部123由半导体存储器等实现。
[家电控制服务器]
家电控制服务器140从VPA云服务器120接收指令,并基于接收到的指令控制空调群150,由此向用户提供家电控制服务。另外,空调群150是控制对象的家电设备的一例,控制对象的家电设备也可以是空调以外的家电设备。家电控制服务器140具备通信部141、家电控制部142、以及存储部143。
通信部141接收由VPA云服务器120的通信部121发送的指令。此外,通信部141基于家电控制部142的控制部向空调群150发送控制信号。具体而言,通信部141是通信模块。换言之,通信模块是通信电路。
家电控制部142向通信部141发送与由通信部141接收到的指令对应的控制信号。家电控制部142例如由微型计算机实现,但也可以由处理器实现。
存储部143是存储家电控制部142用于控制空调群150的控制程序等的存储装置。具体而言,存储部143由半导体存储器等实现。
[动作]
接下来,对声音识别系统100的动作进行说明。图6是声音识别系统100的动作的流程图。
首先,智能音箱110的第二控制部13进行初始化处理行(S11)。初始化处理例如在开始向智能音箱110供电时进行。智能音箱110通过初始化处理成为能够识别第一启动单词以及第二启动单词的待机状态。另外,在待机状态下,停止向VPA云服务器120的声音信号的发送。
接下来,声音取得部11取得用户的声音(S12)。第一控制部12对于所取得的声音的声音信号进行声音识别处理,并判定由声音取得部11取得的声音是否是第一启动单词(S13)。如上述那样,第一启动单词例如是硬件提供商(即,智能音箱110的制造/销售源的A公司)指定的硬件指定启动单词。第一启动单词例如是“A公司”。
第一控制部12在判定为由声音取得部11取得的声音是第一启动单词的情况下(S13为是),读出在存储部16中预先存储的与第二启动单词对应的声音数据(S14),并向第二控制部13输出与第二启动单词对应的声音信号(S16)。第二启动单词是VPA服务提供商(即,B公司)指定的启动单词。第二启动单词例如是“B公司”,“你好B公司”等。
另一方面,第一控制部12在判定为由声音取得部11取得的声音不是第一启动单词的情况下(S13为否),判定由声音取得部11取得的声音是否是第二启动单词(S15)。
第一控制部12在判定为由声音取得部11取得的声音是第二启动单词的情况下(S15为是),向第二控制部13输出与第二启动单词对应的声音信号(S16)。另外,在该情况下,第一控制部12例如将在步骤S12中取得的声音的声音信号暂时向存储部16中存储,并将所存储的声音信号向第二控制部13输出,但也可以与步骤S14相同,读出在存储部16中预先存储的与第二启动单词对应的声音数据。第一控制部12在判定为由声音取得部11取得的声音不是第二启动单词的情况下(S15为否),继续待机状态,进行基于声音取得部11的声音的取得(S11)。
另外,在待机状态下,由声音取得部11取得的第一启动单词以及第二启动单词以外的声音的声音信号既可以经由第一控制部12向第二控制部13输出,也可以通过第一控制部12停止向第二控制部13的输出。
第二控制部13在通过第一控制部12输出与第二启动单词对应的声音信号后(S16),识别其为第二启动单词,进行启动处理(S17)。启动处理是用于开始向VPA云服务器120发送由声音取得部11取得的声音的声音信号的处理,其结果,VPA功能被开启。
声音取得部11在启动处理后也继续取得声音(S18),第二控制部13使用通信部14向VPA云服务器120实时发送在启动处理后由声音取得部11取得的声音的声音信号(S19)。
VPA云服务器120的通信部121从通信部14接收声音信号,对取得的声音信号进行声音识别处理(S20)。其结果,根据在步骤S18中取得的声音,向用户提供各种服务。
如以上说明那样,在声音识别系统100中,第一控制部12将第一启动单词转换为第二启动单词并向第二控制部13输出。由此,即使用户说出第一启动单词,第一启动单词由声音取得部11取得,第二控制部13也能够识别出取得了第二启动单词。识别出已取得第二启动单词的第二控制部13与上述同样地按照VPA服务提供商提供的VPA SDK进行用于将VPA功能开启的启动处理,从而能够开启VPA功能。换言之,根据第一控制部12,能够不改变VPASDK地利用第一启动单词开启VPA功能。
此外,第一控制部12在识别出由声音取得部11取得的声音是第二启动单词的情况下,输出与第二启动单词对应的声音信号。由此,无论由声音取得部11取得的声音是第一启动单词以及第二启动单词中的哪一个,第二控制部13均进行启动处理,能够开启VPA功能。图7是表示实施方式1中的服务与启动单词的关系的图。如图7所示,在实施方式1中,除了VPA服务提供商指定的词语(即,第二启动单词)之外,还追加A公司指定的词语(即,第一启动单词)作为启动单词。
在这样的构成中,用户还能够进行下述的区分使用,在欲接受VPA提供服务的情况下说出第二启动单词,在欲接受家电控制服务的情况下说出第一启动单词等。这样的区分使用与图4中说明的智能手机160中的应用程序的区分使用类似,可认为不易对用户带来违和感。
另外,启动单词也可以由用户指定,例如如图7所示,也可以使用用户的宠物的名字等。在该情况下,存储部16中存储用于基于用户的声音来将启动单词设为用户指定的词语的声音识别程序。
(实施方式2)
另外,如图7所示,用户例如为了使空调进行外出模式的动作,说出作为第一启动单词的“A公司”来启动智能音箱110后,作为功能启动单词说出“A公司”,进一步,作为指令内容说出“外出模式”。即,需要说出两次“A公司”。
这里,在第一启动单词是“A公司”那样的家电设备的制造/销售源的公司名的情况下,第一启动单词之后说出用于接受家电控制服务的功能启动单词的可能性变高。在这样的情况下,第一控制部12在识别出由声音取得部11取得的声音是第一启动单词的情况下,不仅输出与第二启动单词对应的声音信号,还可以进一步输出与功能启动单词对应的声音信号。图8是这样的声音识别系统100的动作的流程图。在以下的实施方式2中,主要对于与图6的流程图的差别进行说明,对于已述事项有时省略说明。
此外,在实施方式2中,功能启动单词也记载为指定单词。如上述那样,VPA云服务器120在启动处理后,根据从智能音箱110(即,信息处理装置10)接收到的声音信号的声音识别结果向其他服务器发送指令。指定单词是用于指定该指令的发送目的地的服务器的词语。
与实施方式1相同,在步骤S13中,第一控制部12判定由声音取得部11取得的声音是否是第一启动单词(S13)。第一控制部12在判定为由声音取得部11取得的声音是第一启动单词的情况下(S13为是),读出在存储部16中预先存储的与第二启动单词对应的声音数据(S14)。然后,第一控制部12将指定单词发送模式设为开启(S21)。具体而言,例如第一控制部12在存储部16内设立与指定单词发送模式对应的标志。
之后,第一控制部12向第二控制部13输出与第二启动单词对应的声音信号(S16),第二控制部13识别其为第二启动单词,进行启动处理(S17)。
声音取得部11在启动处理后也继续取得声音(S18)。这里,第一控制部12判定指定单词发送模式是否开启(S22)。具体而言,第一控制部12通过参照存储部16,判定是否设立了指定单词发送模式对应的标志。
第一控制部12在判定为指定单词发送模式开启(S22为是)后,读出在存储部16中预先存储的与指定单词对应的声音数据,向第二控制部13输出与指定单词对应的声音信号。如此,第二控制部13使通信部14将与指定单词对应的声音信号向VPA云服务器120发送(S23)。
之后,第二控制部13向通信部14发送在启动处理后由声音取得部11取得的声音的声音信号(S19)。在由第一控制部12判定为指定单词发送模式未开启的情况下(S22为否),步骤S23被省略。
如以上说明所述,在图8的流程图中,第一控制部12在识别出由声音取得部11取得的声音是第一启动单词的情况下(S13为是),输出与第二启动单词对应的声音信号(S16),并且输出与指定单词对应的声音信号(S23)。关于与指定单词对应的声音信号,尽管用户未说出指定单词、声音取得部11未取得与指定单词对应的声音,也被输出。
由此,用户能够省略说出指定单词。如图9所示,若与“A公司”对应的声音信号被发送作为指定单词,则用户能够省略说出“A公司”。图9是表示实施方式2中的服务与启动单词的关系的图。
这样的指定单词的自动发送在下述进行区分使用的情况下有效,即用户在欲接受VPA提供服务的情况下说出第二启动单词,在欲接受家电控制服务的情况下说出第一启动单词等。
另外,指定单词例如是与第一启动单词相同的“A公司”。即,第一控制部12输出与第一启动单词对应的声音信号,作为与指定单词对应的声音信号。然而,指定单词也可以与第一启动单词不同。例如,基于图9,也可以是第一启动单词为“A公司”、指定单词为“电视机”。
(实施方式3)
信息处理装置10也可以安装于智能音箱110以外的家电设备。例如,信息处理装置10也可以安装于洗衣机。图10是表示这样的实施方式3的声音识别系统的构成的框图。
如图10所示,实施方式3的声音识别系统100a具备洗衣机170、VPA云服务器120、家电控制服务器140、以及洗衣机群180。洗衣机170设置于用户的住宅等,也包含在洗衣机群180中。
洗衣机170除了用于实现洗涤功能的洗涤控制部20之外,还具备信息处理装置10。即,洗衣机170是与VPA对应的家电设备。洗衣机170例如是由A公司制造/销售的家电设备。
用户例如在按下洗衣机170的洗涤开始按钮后,说出“洗涤结束后请通知”。如此,在洗涤完成后,从家电控制服务器140向用户的智能手机160发送完成消息。
在声音识别系统100a中,主要假设接受与洗衣机170相关的家电控制服务的提供。因此,在声音识别系统100a中不包含第三方云服务器群130。因此,作为由A公司制造/销售的洗衣机170的启动单词,使用VPA服务提供商指定的第二启动单词(例如,“B公司”“你好B公司”)非常不自然。
为此,在声音识别系统100a中,信息处理装置10的第一控制部12在识别出由声音取得部11取得的声音是第二启动单词的情况下,不输出与第二启动单词对应的声音信号。即,第二启动单词被第一控制部12掩盖。图11是这样的声音识别系统100a的动作的流程图。
在图11的流程图中,省略了图6的流程图所示的步骤S15。在步骤S13中,在判定为由声音取得部11取得的声音不是第一启动单词的情况下(S13为否),继续待机状态,进行基于声音取得部11的声音的取得(S11)。
即,在声音识别系统100a中,能够通过第一启动单词开启VPA功能,但不能通过第二启动单词开启VPA功能。换言之,在声音识别系统100a中,实现了由VPA服务提供商指定的第二启动单词向硬件提供商指定的第一启动单词的启动单词的变更。
由此,由于作为A公司制造/销售的洗衣机170的启动单词,不使用VPA服务提供商指定的第二启动单词,因此抑制了对用户带来违和感。
(实施方式4)
在上述实施方式1~3中,信息处理装置10仅能与一个VPA云服务器120连接,但信息处理装置10也可以能够与多个VPA云服务器连接。图12是表示这样的实施方式4的声音识别系统100b的构成的框图。
如图12所示,实施方式3的声音识别系统100b具备智能音箱110b、VPA云服务器120b、VPA云服务器120c、第三方云服务器群130、家电控制服务器140、以及空调群150。
智能音箱110b具备向VPA云服务器120b以及VPA云服务器120c发送声音信号的信息处理装置10b,作为声音用户界面。信息处理装置10b具备声音取得部11、第一控制部12b、第二控制部13b、通信部14b、声音输出部15、以及存储部16b。以下,对信息处理装置10b与信息处理装置10的不同点进行说明。
另外,在实施方式4中,第一启动单词以及第二启动单词的定义与实施方式1~3不同。在实施方式4中,第一启动单词是智能音箱110b与VPA云服务器120b连接所用的启动单词,第二启动单词是智能音箱110b与VPA云服务器120c连接所用的启动单词。
第一控制部12b位于声音取得部11与第二控制部13b之间,一直监视由声音取得部11取得的用户的声音。第一控制部12b例如在识别出由声音取得部11取得的声音是第一启动单词的情况下,向第二控制部13b输出与第一启动单词对应的声音信号。此外,第一控制部12b在识别出由声音取得部11取得的声音是第二启动单词的情况下,向第二控制部13b输出与第二启动单词对应的声音信号。第一控制部12b例如将所取得的声音的声音信号暂时存储在存储部16b中,向第二控制部13b输出所存储的声音信号。第一控制部12b例如由微型计算机实现,但也可以由处理器实现。
第二控制部13b在识别出由第一控制部12b输出的声音信号是第一启动单词的情况下,开始向VPA云服务器120b发送由声音取得部11取得的声音的声音信号的第一声音发送处理。具体而言,第二控制部13b执行在存储部16b中存储的VPA SDK-B。VPA SDK-B由利用VPA云服务器120b提供声音识别服务的B公司提供。
此外,第二控制部13b在识别出由第一控制部12b输出的声音信号是第二启动单词的情况下,开始向VPA云服务器120c发送由声音取得部11取得的声音信号的第二声音发送处理。具体而言,第二控制部13b执行在存储部16b中存储的VPA SDK-C。VPA SDK-C由利用VPA云服务器120c提供声音识别服务的C公司提供。
第二控制部13b例如由微型计算机实现,但也可以由处理器实现。
通信部14b在第一声音发送处理中,基于第二控制部13b的控制向VPA云服务器120b发送声音信号,在第二声音发送处理中,基于第二控制部13b的控制向VPA云服务器120c发送声音信号。具体而言,通信部14b是通信模块。换言之,通信模块是通信电路。
存储部16b是存储第一控制部12b为了识别第一启动单词以及第二启动单词而执行的声音识别用程序、第二控制部13b执行的VPASDK-B以及VPASDK-C等的存储装置。此外,在存储部16b中,存储后述的优先度信息。存储部16b也可以用作暂时存储由声音取得部11取得的声音的声音信号的缓冲存储器。具体而言,存储部16b由半导体存储器等实现。
VPA云服务器120b接收在第一声音发送处理中由声音取得部11取得的声音的声音信号,通过对接收到的声音信号进行声音识别处理,来实现VPA提供服务。VPA云服务器120b是第一声音识别服务器的一例。VPA云服务器120b的具体的构成与VPA云服务器120相同。
VPA云服务器120c接收在第二声音发送处理中由声音取得部11取得的声音的声音信号,通过对接收到的声音信号进行声音识别处理,来实现家电控制服务。VPA云服务器120c是第二声音识别服务器的一例。VPA云服务器120c的具体的构成与VPA云服务器120相同。
这样,在声音识别系统100b中,智能音箱110b(换言之,信息处理装置10b)能够与2个VPA云服务器连接。这样的信息处理装置10b的功能也被记载为启动单词检索功能。
在声音识别系统100b中,若2个VPA云服务器用于提供相互不同的服务,则2个VPA云服务器的职责分工被明确化。用户在欲接受VPA提供服务的情况下说出第一启动单词,在欲接受家电控制服务的情况下说出第二启动单词即可。因此,抑制了用户由于启动单词而混乱。
另外,在声音识别系统100b中,考虑到存在用户在第一声音发送处理以及第二声音发送处理中的一方被执行时想向另一方切换的情况。在这样的情况下,例如准备声音发送处理的切换用的单词、或者声音发送处理的切换按钮等。这里,在声音识别系统100b中,第一控制部12b也可以根据规定的优先度来控制由第一声音发送处理以及第二声音发送处理的一方向另一方的切换。图13是这样的声音识别系统100b的动作的流程图。另外,在图13的流程图中,在第一声音发送处理中判定是否向第二声音发送处理切换,但对于在第二声音发送处理中是否向第一声音发送处理切换也为相同的动作。
第二控制部13b进行第一声音发送处理(S31)。第一声音发送处理是向VPA云服务器120b实时发送由声音取得部11取得的声音的声音信号的处理。如上述那样,第二控制部13b在识别出由第一控制部12b输出的声音信号表示第一启动单词的情况下,开始第一声音发送处理。
第一控制部12b判定在第一声音发送处理中由声音取得部11取得的声音的声音信号是否表示用于使第二控制部13b开始第二声音发送处理的第二启动单词(S32)。在步骤S32中判定为声音信号不表示第二启动单词的情况下(S33为否),继续第一声音发送处理(S31)。
另一方面,在步骤S32中判定为声音信号表示第二启动单词的情况下(S33为是),即,通过第一控制部12b识别出声音是第二启动单词的情况下,第一控制部12b基于优先度进行判定(S34)。
优先度作为优先度信息预先存储在存储部16b中,在步骤S34中,第一控制部12b参照在存储部16b中存储的优先度信息。优先度例如按智能音箱110b的连接对象的每个VPA云服务器(换言之,按每个启动单词)决定。在该情况下,第一控制部12b判定VPA云服务器120b的第一优先度是否低于VPA云服务器120c的第二优先度。
第一控制部12b在判定为VPA云服务器120b的优先度低于VPA云服务器120c的优先度的情况下(S34为是),向第二控制部13b输出与第二启动单词对应的声音信号(S35)。第二控制部13b识别其为第二启动单词,停止第一声音发送处理而开始第二声音发送处理(S36)。第二声音发送处理是向VPA云服务器120c实时发送由声音取得部11取得的声音的声音信号的处理。
另一方面,第一控制部12b在判定为VPA云服务器120b的优先度高于VPA云服务器120c的优先度的情况下(S34为否),不向第二控制部13b输出与第二启动单词对应的声音信号。其结果,继续第一声音发送处理(S31)。
这样,第一控制部12b在识别出在第一声音发送处理中由声音取得部11取得的声音是第二启动单词的情况下,基于规定的优先度进行是否向第二控制部13b输出与第二启动单词对应的声音信号的判定。
由此,声音识别系统100b能够考虑规定的优先度地将第一声音发送处理向第二声音发送处理切换。另外,在声音识别系统100b中,在无需图13那样的基于优先度的动作的情况下,也可以省略第一控制部12b。在该情况下,第二控制部13b直接从声音取得部11取得声音信号。
另外,优先度也可以按向用户提供的服务来决定。优先度例如也可以针对音频流服务、天气预报服务、电子商务服务以及家电控制服务来决定。
在该情况下,第一控制部12b在作为第一声音发送处理的结果而提供的服务的第一优先度低于作为第二声音发送处理的结果而提供的服务的第二优先度的情况下(S34为是),向第二控制部13b输出与第二启动单词对应的声音信号(S35)。此外,第一控制部12b在第一服务的优先度高于第二服务的优先度的情况下,不向第二控制部13b输出与第二启动单词对应的声音信号。其结果,继续第一声音发送处理(S31)。
例如,考虑在作为第一声音发送处理的结果而提供音频流服务时,用户想通过第二声音发送处理调用家电控制服务来将住宅内的家电设为外出模式(关闭电源)的情况。在这样的情况下,只要音频流服务的优先度低于家电控制服务的优先度,则用户能够通过说出第二启动单词,取消音频流服务而接受家电控制服务的提供。即,用户能够取消音乐的播放并关闭家电的电源,从而外出。
另外,当前提供的服务是哪种服务能够例如通过由通信部14b接收从作为服务的提供源的第三方云服务器群130等发送的表示服务内容的信息来识别。在服务内容与VPA云服务器为1对1的关系的情况下,无需这样的信息。
(实施方式5)
根据在上述实施方式1~3中说明的具有启动单词的转换功能的信息处理装置10,在图14所示那样的混有多个VPA设备的声音识别系统100c中,能够统一启动单词。图14是表示实施方式5的声音识别系统100c的构成的简易框图。
声音识别系统100c具备智能音箱110、电视机190、洗衣机170、VPA云服务器120b、VPA云服务器120c、第三方云服务器群130、家电控制服务器140、空调群150、家电控制服务器200、电视机群210、以及洗衣机群180。智能音箱110、电视机190、以及洗衣机170是由A公司制造/销售的家电设备,设置于用户的住宅等。
智能音箱110具备具有启动单词转换功能的信息处理装置10。在该信息处理装置10具备的存储部16中,存储有从利用VPA云服务器120b提供声音识别服务的VPA服务提供商即B公司供给的VPA SDK-B。即,智能音箱110能够与VPA云服务器120b连接。
电视机190具备电视机功能、以及具有启动单词转换功能的信息处理装置10。在该信息处理装置10具备的存储部16中,存储有从利用VPA云服务器120c提供声音识别服务的VPA服务提供商即C公司供给的VPA SDK-C。即,电视机190能够与VPA云服务器120c连接。
洗衣机170具备洗涤功能、以及具有启动单词转换功能的信息处理装置10。在该信息处理装置10具备的存储部16中,存储有从利用VPA云服务器120c提供声音识别服务的VPA服务提供商即公司供给的VPA SDK-C。即,洗衣机170能够与VPA云服务器120c连接。
VPA云服务器120b受B公司管理,能够与第三方云服务器群130以及家电控制服务器140连接。家电控制服务器140具有控制空调群150的功能,受A公司管理。
VPA云服务器120c受C公司管理,能够与家电控制服务器140以及家电控制服务器200连接。家电控制服务器200具有控制电视机群210的功能以及控制洗衣机群180的功能,受A公司管理。
在这样的声音识别系统100c中,假设在智能音箱110、电视机190、以及洗衣机170中未安装启动单词转换功能,则用户在开启智能音箱110的VPA功能的情况下,在说出由B公司指定的启动单词,来开启电视机190以及洗衣机170的VPA功能的情况下,需要说出由C公司指定的启动单词。
与此相对,若在智能音箱110、电视机190、以及洗衣机170中安装了启动单词转换功能,则用户能够将针对智能音箱110、电视机190、以及洗衣机170的启动单词统一。启动单词既可以统一成由B公司指定的启动单词,也可以可以统一成由C公司指定的启动单词,还可以可以统一成其他的启动单词。
(实施方式6)
根据在上述实施方式4中说明的具有向多个VPA云服务器连接的连接功能的信息处理装置10b,在图15所示那样的混有多个VPA设备的声音识别系统100d中,能够对启动单词进行整理。图15是表示实施方式6的声音识别系统100d的构成的简易框图。
声音识别系统100d具有在声音识别系统100c中,将智能音箱110替换为智能音箱110b的构成。
智能音箱110b具备具有向多个VPA云服务器连接的连接功能的信息处理装置10b。在该信息处理装置10b具备的存储部16b中,存储有VPA SDK-B以及VPA SDK-C。即,智能音箱110b能够与VPA云服务器120b以及VPA云服务器120c连接。
在这样的声音识别系统100d中,用户能够将针对智能音箱110、电视机190、以及洗衣机170的启动单词统一成由B公司指定的启动单词、或者由C公司指定的启动单词。
(实施方式1~6的总结)
如以上说明那样,信息处理装置10具备:取得用户的声音的声音取得部11;在识别出由声音取得部11取得的声音是第一启动单词的情况下、输出与不同于第一启动单词的第二启动单词对应的声音信号的第一控制部12;以及在识别出由第一控制部12输出的声音信号表示第二启动单词的情况下、进行用于开始向VPA云服务器120发送由声音取得部11取得的声音的声音信号的启动处理的第二控制部13。VPA云服务器120是声音识别服务器的一例。
这样的信息处理装置10能够利用VPA服务提供商指定的第二启动单词以外的第一启动单词开始向VPA云服务器120的声音的发送开始。此外,在如实施方式5或者实施方式6那样混有多个VPA设备的声音识别系统100c或者声音识别系统100d中,能够实现启动单词的统一。
此外,在上述实施方式1中,第一控制部12在识别出由声音取得部11取得的声音是第二启动单词的情况下,向第二控制部13输出与第二启动单词对应的声音信号。
这样的信息处理装置10能够利用VPA服务提供商指定的第二启动单词以外的第一启动单词开始向VPA云服务器120的声音的发送。
此外,在上述实施方式3中,第一控制部12在识别出由声音取得部11取得的声音是第二启动单词的情况下,不向第二控制部13输出与第二启动单词对应的声音信号。
这样的信息处理装置10能够利用第一启动单词以及第二启动单词中的仅第一启动单词来启动声音识别系统100a。
此外,在上述实施方式2中,VPA云服务器120在启动处理后,根据从信息处理装置10接收到的声音信号的声音识别结果向其他服务器发送指令。第一控制部12在识别出由声音取得部11取得的声音是第一启动单词的情况下,输出与第二启动单词对应的声音信号,并且向第二控制部13输出与用于指定指令的发送目的地的指定单词对应的声音信号。
由此,用户能够省略说出指定单词。
此外,例如,第一控制部12向第二控制部13输出与第一启动单词对应的声音信号,作为与指定单词对应的声音信号。
由此,用户能够通过说出1次通常应当说出2次的第一启动单词,来指定指令的发送目的地。
此外,声音识别系统100或者声音识别系统100a具备信息处理装置10、以及VPA云服务器120。
这样的声音识别系统100或者声音识别系统100a能够通过VPA服务提供商指定的第二启动单词以外的第一启动单词,开始向VPA云服务器120的声音信号的发送。
此外,计算机执行信息处理方法为,取得用户的声音,在识别出所取得的声音是第一启动单词的情况下,输出与不同于第一启动单词的第二启动单词对应的声音信号,在识别出所输出的声音信号表示第二启动单词的情况下,进行用于开始向VPA云服务器发送所取得的声音的声音信号的启动处理。
这样的信息处理方法能够利用VPA服务提供商指定的第二启动单词以外的第一启动单词开始开始向VPA云服务器120的声音的发送。
此外,在上述实施方式4中,信息处理装置10b具备:取得用户的声音的声音取得部11;在识别出由声音取得部11取得的声音是第一启动单词的情况下、输出与第一启动单词对应的声音信号的第一控制部12b;以及在识别出由第一控制部12b输出的声音信号表示第一启动单词的情况下、开始向VPA云服务器120b发送由声音取得部11取得的声音的声音信号的第一声音发送处理的第二控制部13b。第一控制部12b在识别出在第一声音发送处理中由声音取得部11取得的声音是用于使第二控制部13b开始第二声音发送处理的第二启动单词的情况下,进行基于规定的优先度判定是否向向第二控制部13b输出与第二启动单词对应的声音信号,第二声音发送处理是将由声音取得部11取得的声音的声音信号向与VPA云服务器120b不同的VPA云服务器120c发送的处理。VPA云服务器120b是第一声音识别服务器的一例,VPA云服务器120c是第二声音识别服务器的一例。
这样的信息处理装置10b能够识别第一启动单词以及第二启动单词双方,并选择性地向VPA云服务器120b、以及VPA云服务器120c发送声音。具体而言,信息处理装置10b能够考虑规定的优先度地将第一声音发送处理向第二声音发送处理切换。
此外,例如,第一控制部12b在VPA云服务器120b的优先度低于VPA云服务器120c的优先度的情况下,基于上述判定向第二控制部13b输出与第二启动单词对应的声音信号。
这样的信息处理装置10b能够基于VPA云服务器的优先度,将第一声音发送处理向第二声音发送处理切换。
此外,例如,第一控制部12b在VPA云服务器120b的优先度高于VPA云服务器120c的优先度的情况下,基于上述判定不向第二控制部13b输出与第二启动单词对应的声音信号。
这样的信息处理装置10b能够基于VPA云服务器的优先度,继续第一声音发送处理。
此外,例如,第一控制部12b在作为第一声音发送处理的结果而提供的服务的优先度低于作为第二声音发送处理的结果而提供的服务的优先度的情况下,基于上述判定向第二控制部13b输出与第二启动单词对应的声音信号。
这样的信息处理装置10b能够基于服务的优先度,将第一声音发送处理向第二声音发送处理切换。
此外,例如,第一控制部12b在第一服务的优先度高于第二服务的优先度的情况下,基于上述判定不向第二控制部13b输出与第二启动单词对应的声音信号。
这样的信息处理装置10b能够基于服务的优先度,继续第一声音发送处理。
此外,声音识别系统100b具备信息处理装置10b、VPA云服务器120b、以及VPA云服务器120c。
这样的声音识别系统100b能够识别第一启动单词以及第二启动单词双方,并选择性地向VPA云服务器120b、以及VPA云服务器120c发送声音。具体而言,声音识别系统100b能够考虑规定的优先度地将第一声音发送处理向第二声音发送处理切换。
此外,由计算机执行的信息处理方法为,取得用户的声音,在识别出所取得的声音是第一启动单词的情况下,输出与第一启动单词对应的声音信号,在识别出所输出的声音信号表示第一启动单词的情况下,开始向VPA云服务器120b发送所取得的声音的声音信号的第一声音发送处理,在识别出在第一声音发送处理中取得的声音是用于开始第二声音发送处理的第二启动单词的情况下,基于规定的优先度决定是否输出与第二启动单词对应的声音信号,第二声音发送处理是将取得的声音的声音信号向与VPA云服务器120b不同的VPA云服务器120c发送的处理。
这样的信息处理方法能够识别第一启动单词以及第二启动单词双方,并选择性地向VPA云服务器120b以及VPA云服务器120c发送声音信号。具体而言,信息处理方法能够考虑规定的优先度地将第一声音发送处理向第二声音发送处理切换。
(其他实施方式)
以上,对实施方式进行了说明,但本申请不限于上述实施方式。
例如,本申请的涵盖性的或者具体性的形态也可以由装置、系统、方法、集成电路、计算机程序或者计算机能够读取的CD-ROM等的记录介质实现,或也可以由装置、系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。本申请也可以作为用于使计算机执行上述实施方式的信息处理方法的程序来实现,也可以作为记录有这样的程序的计算机能够读取的非暂时性记录介质来实现。
此外,在上述实施方式中,也可以由其他处理部执行特定的处理部执行的处理。此外,在上述实施方式中说明的声音识别系统的动作中的多个处理的顺序为一例。多个处理的顺序也可以变更,多个处理也可以并行执行。
此外,在上述实施方式中,第一控制部以及第二控制部等的构成要素也可以通过执行适于该构成要素的软件程序来实现。各构成要素也可以通过CPU或者处理器等的程序执行部读出、执行在硬盘或者半导体存储器等的记录介质中记录的软件程序来实现。第一控制部以及第二控制部也可以作为单一的CPU或者处理器来实现。
此外,第一控制部以及第二控制部等的构成要素也可以由硬件实现。具体而言,第一控制部以及第二控制部等的构成要素也可以由电路或者集成电路实现。这些电路既可以作为整体构成一个电路,也可以各自构成独立的电路。此外,这些电路既可以分别是通用的电路,也可以分别是专用的电路。
另外,对于各实施方式实施本领域技术人员能够想到的各种变形而得的形态,或者在不脱离本申请的主旨的范围内,通过将各实施方式中的构成要素以及功能任意组合而实现的形态也包含在本申请中。
工业实用性:
本申请的信息处理装置能够选择性地向多个VPA云服务器发送声音信号。本申请的信息处理装置由于成为连接对象的VPA云服务器的切换较容易,故有助于VPA设备的普及、以及使用了VPA云服务器的服务器的普及。
附图标记说明:
10、10b 信息处理装置
11 声音取得部
12、12b 第一控制部
13、13b 第二控制部
14、14b、121、141 通信部
15 声音输出部
16、16b、123、143 存储部
20 洗涤控制部
100、100a、100b、100c、100d 声音识别系统
110、110b 智能音箱
120、120b、120c VPA云服务器
122 VPA控制部
130 第三方云服务器群
131、132、133 云服务器
140、200 家电控制服务器
142 家电控制部
150 空调群
160 智能手机
170 洗衣机
180 洗衣机群
190 电视机
210 电视机群

Claims (7)

1.一种信息处理装置,具备:
声音取得部,取得用户的声音;
第一控制部,在识别出由所述声音取得部取得的声音是第一启动单词的情况下,输出与所述第一启动单词对应的声音信号;以及
第二控制部,在识别出由所述第一控制部输出的声音信号表示所述第一启动单词的情况下,开始向第一声音识别服务器发送由所述声音取得部取得的声音的声音信号的第一声音发送处理,
所述第一控制部在识别出在所述第一声音发送处理中由所述声音取得部取得的声音是用于使所述第二控制部开始第二声音发送处理的第二启动单词的情况下,基于规定的优先度判定是否向所述第二控制部输出与所述第二启动单词对应的声音信号,
所述第二声音发送处理是将由所述声音取得部取得的声音的声音信号向与所述第一声音识别服务器不同的第二声音识别服务器发送的处理。
2.如权利要求1所述的信息处理装置,
所述第一控制部在所述第一声音识别服务器的优先度低于所述第二声音识别服务器的优先度的情况下,基于所述判定向所述第二控制部输出与所述第二启动单词对应的声音信号。
3.如权利要求2所述的信息处理装置,
所述第一控制部在所述第一声音识别服务器的优先度高于所述第二声音识别服务器的优先度的情况下,基于所述判定不向所述第二控制部输出与所述第二启动单词对应的声音信号。
4.如权利要求1所述的信息处理装置,
所述第一控制部在作为所述第一声音发送处理的结果而提供的服务的优先度低于作为所述第二声音发送处理的结果而提供的服务的优先度的情况下,基于所述判定向所述第二控制部输出与所述第二启动单词对应的声音信号。
5.如权利要求4所述的信息处理装置,
所述第一控制部在作为所述第一声音发送处理的结果而提供的服务的优先度高于作为所述第二声音发送处理的结果而提供的服务的优先度的情况下,基于所述判定不向所述第二控制部输出与所述第二启动单词对应的声音信号。
6.一种声音识别系统,具备:
权利要求1~5中任一项所述的信息处理装置;
所述第一声音识别服务器;以及
所述第二声音识别服务器。
7.一种信息处理方法,是由计算机执行的信息处理方法,
取得用户的声音,
在识别出所取得的声音是第一启动单词的情况下,输出与所述第一启动单词对应的声音信号,
在识别出所输出的声音信号是所述第一启动单词的情况下,开始向第一声音识别服务器发送所取得的声音的声音信号的第一声音发送处理,
在识别出在所述第一声音发送处理中取得的声音表示用于开始第二声音发送处理的第二启动单词的情况下,基于规定的优先度决定是否输出与所述第二启动单词对应的声音信号,
所述第二声音发送处理是将所取得的声音的声音信号向与所述第一声音识别服务器不同的第二声音识别服务器发送的处理。
CN201880003037.6A 2017-08-02 2018-02-02 信息处理装置、声音识别系统及信息处理方法 Active CN109601016B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762540415P 2017-08-02 2017-08-02
US62/540415 2017-08-02
PCT/JP2018/003522 WO2019026314A1 (ja) 2017-08-02 2018-02-02 情報処理装置、音声認識システム、及び、情報処理方法

Publications (2)

Publication Number Publication Date
CN109601016A CN109601016A (zh) 2019-04-09
CN109601016B true CN109601016B (zh) 2023-07-28

Family

ID=65232459

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201880003037.6A Active CN109601016B (zh) 2017-08-02 2018-02-02 信息处理装置、声音识别系统及信息处理方法
CN201880003041.2A Active CN109601017B (zh) 2017-08-02 2018-02-02 信息处理装置、声音识别系统及信息处理方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201880003041.2A Active CN109601017B (zh) 2017-08-02 2018-02-02 信息处理装置、声音识别系统及信息处理方法

Country Status (8)

Country Link
US (2) US11145311B2 (zh)
EP (2) EP3663905B1 (zh)
JP (2) JP7033713B2 (zh)
CN (2) CN109601016B (zh)
BR (2) BR112019002636A2 (zh)
MX (2) MX2019001807A (zh)
SG (2) SG11201901441QA (zh)
WO (2) WO2019026314A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102498007B1 (ko) * 2018-01-08 2023-02-08 엘지전자 주식회사 음성인식을 이용한 세탁물 처리기기 제어시스템 및 동작방법
WO2020194367A1 (ja) * 2019-03-22 2020-10-01 三菱重工サーマルシステムズ株式会社 制御装置、機器制御システム、制御方法及びプログラム
US11501761B2 (en) * 2019-04-05 2022-11-15 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
JP7236919B2 (ja) * 2019-04-12 2023-03-10 三菱電機株式会社 音声入力装置、音声操作システム、音声操作方法及びプログラム
JP2020178177A (ja) * 2019-04-16 2020-10-29 シャープ株式会社 ネットワークシステム
CN110570859B (zh) * 2019-09-20 2022-05-27 Oppo广东移动通信有限公司 智能音箱控制方法、装置、系统及存储介质
JP7248564B2 (ja) * 2019-12-05 2023-03-29 Tvs Regza株式会社 情報処理装置及びプログラム
JP7264071B2 (ja) * 2020-01-23 2023-04-25 トヨタ自動車株式会社 情報処理システム、情報処理装置、及びプログラム
CN111353771A (zh) * 2020-02-19 2020-06-30 北京声智科技有限公司 一种远程控制支付的方法、装置、设备和介质
CN111768783B (zh) 2020-06-30 2024-04-02 北京百度网讯科技有限公司 语音交互控制方法、装置、电子设备、存储介质和系统
CN114726830A (zh) * 2020-12-18 2022-07-08 阿里巴巴集团控股有限公司 语音服务访问方法、系统和车辆

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080183A (ja) * 2007-09-25 2009-04-16 Panasonic Electric Works Co Ltd 音声認識制御装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031758A (ja) 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
KR100719776B1 (ko) * 2005-02-25 2007-05-18 에이디정보통신 주식회사 휴대형 코드인식 음성 합성출력장치
JP5658641B2 (ja) * 2011-09-15 2015-01-28 株式会社Nttドコモ 端末装置、音声認識プログラム、音声認識方法および音声認識システム
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US10381002B2 (en) * 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
CN103383134B (zh) * 2013-08-06 2016-12-28 四川长虹电器股份有限公司 一种智能空调系统及空调控制方法
JP2016531375A (ja) * 2013-09-20 2016-10-06 アマゾン テクノロジーズ インコーポレイテッド ローカルとリモートのスピーチ処理
US9508345B1 (en) * 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
CN105280180A (zh) * 2014-06-11 2016-01-27 中兴通讯股份有限公司 一种终端控制方法、装置、语音控制装置及终端
JP6229071B2 (ja) * 2014-10-24 2017-11-08 株式会社ソニー・インタラクティブエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
JP2016095383A (ja) * 2014-11-14 2016-05-26 株式会社ATR−Trek 音声認識クライアント装置及びサーバ型音声認識装置
TWI525532B (zh) 2015-03-30 2016-03-11 Yu-Wei Chen Set the name of the person to wake up the name for voice manipulation
US9996316B2 (en) * 2015-09-28 2018-06-12 Amazon Technologies, Inc. Mediation of wakeword response for multiple devices
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
JP2017138476A (ja) 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10133612B2 (en) 2016-03-17 2018-11-20 Nuance Communications, Inc. Session processing interaction between two or more virtual assistants
US10115400B2 (en) * 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10685656B2 (en) 2016-08-31 2020-06-16 Bose Corporation Accessing multiple virtual personal assistants (VPA) from a single device
US10437841B2 (en) 2016-10-10 2019-10-08 Microsoft Technology Licensing, Llc Digital assistant extension automatic ranking and selection
US10127908B1 (en) * 2016-11-11 2018-11-13 Amazon Technologies, Inc. Connected accessory for a voice-controlled device
US10559309B2 (en) * 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US11164570B2 (en) * 2017-01-17 2021-11-02 Ford Global Technologies, Llc Voice assistant tracking and activation
US10694608B2 (en) * 2017-02-07 2020-06-23 Lutron Technology Company Llc Audio-based load control system
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
US20190013019A1 (en) * 2017-07-10 2019-01-10 Intel Corporation Speaker command and key phrase management for muli -virtual assistant systems

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080183A (ja) * 2007-09-25 2009-04-16 Panasonic Electric Works Co Ltd 音声認識制御装置

Also Published As

Publication number Publication date
JPWO2019026313A1 (ja) 2020-05-28
SG11201901419QA (en) 2019-03-28
BR112019002607A2 (pt) 2019-05-28
EP3663906B1 (en) 2024-04-03
WO2019026314A1 (ja) 2019-02-07
JPWO2019026314A1 (ja) 2020-06-18
US20190187953A1 (en) 2019-06-20
EP3663905A4 (en) 2020-06-17
CN109601017B (zh) 2024-05-03
CN109601016A (zh) 2019-04-09
SG11201901441QA (en) 2019-03-28
JP6928882B2 (ja) 2021-09-01
MX2019001803A (es) 2019-07-04
US10803872B2 (en) 2020-10-13
EP3663906A4 (en) 2020-07-22
WO2019026313A1 (ja) 2019-02-07
CN109601017A (zh) 2019-04-09
BR112019002636A2 (pt) 2019-05-28
US20190214015A1 (en) 2019-07-11
EP3663905B1 (en) 2020-12-09
EP3663905A1 (en) 2020-06-10
US11145311B2 (en) 2021-10-12
JP7033713B2 (ja) 2022-03-11
EP3663906A1 (en) 2020-06-10
MX2019001807A (es) 2019-06-06

Similar Documents

Publication Publication Date Title
CN109601016B (zh) 信息处理装置、声音识别系统及信息处理方法
US11676601B2 (en) Voice assistant tracking and activation
US10521185B1 (en) Privacy-enabled voice-assisted intelligent automated assistant user interface device
KR101883301B1 (ko) 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버
CN111263962B (zh) 信息处理设备和信息处理方法
US20080255852A1 (en) Apparatuses and methods for voice command processing
JP6619488B2 (ja) 人工知能機器における連続会話機能
US10147426B1 (en) Method and device to select an audio output circuit based on priority attributes
KR20190068024A (ko) 통화 중 인공지능 서비스를 제공하기 위한 방법 및 그 전자 장치
CN112863512A (zh) 一种语音交互调用处理方法、装置、终端设备及存储介质
US20220122600A1 (en) Information processing device and information processing method
CN113314115A (zh) 终端设备的语音处理方法、终端设备及可读存储介质
KR102386040B1 (ko) 음성 입력을 처리하기 위한 방법, 장치 및 명령어들을 갖는 컴퓨터 판독 가능한 저장 매체, 음성 처리 기능을 갖는 자동차, 및 사용자 단말기
US20240028315A1 (en) Automatically Creating Efficient Meshbots
CN108989437B (zh) 插件调用方法及装置
KR20190005097A (ko) 입력어를 처리하는 사용자 단말 및 방법
CN113765753B (zh) 家电设备的即时通信方法、家电设备及存储介质
WO2022180882A1 (ja) 音声制御方法、サーバ装置、及び、発話体
US20200058319A1 (en) Information processing device, electronic apparatus, control method, and storage medium
KR20240054021A (ko) 상황 별 거동 패턴을 제안 가능한 전자 디바이스 및 그 제어 방법
KR20220128882A (ko) 어시스턴스 모듈을 이용하여 상대방과 통신을 수행하는 전자 장치 및 그 제어 방법
KR20230018833A (ko) 전자 장치 및 무선 오디오 장치의 연결 전환을 제공하는 방법
CN115346521A (zh) 智能音箱的权限确定方法、本地服务器及智能音箱
CN115802083A (zh) 控制方法、装置、分体电视及可读存储介质
CN112187590A (zh) 控制方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant