CN109389975A

CN109389975A - 语音辅助系统、服务器装置、设备、其语音辅助方法

Info

Publication number: CN109389975A
Application number: CN201810621047.8A
Authority: CN
Inventors: 米田雅春; 小杉和宏; 川北幸司
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo Singapore Pte Ltd
Priority date: 2017-08-09
Filing date: 2018-06-15
Publication date: 2019-02-26
Also published as: US10867596B2; US20190051289A1; JP6513749B2; JP2019032479A

Abstract

本发明提供一种语音辅助系统，即使在有多个能够利用语音辅助的设备的情况下，也能够简单地利用语音辅助，而用户不会犹豫使用哪个设备。本发明是进行语音辅助的服务器装置与多个设备能够通信地连接的语音辅助系统，上述多个设备分别经由麦克风将相同的用户话语录音，并将其录音数据发送到上述服务器装置，上述服务器装置接收从上述多个设备分别发送的录音数据，并根据规定的基准对接收到的多个录音数据进行语音识别，由此解释上述用户话语的内容来进行语音辅助。

Description

语音辅助系统、服务器装置、设备、其语音辅助方法

技术领域

本发明涉及语音辅助系统、服务器装置、设备、其语音辅助方法、以及存储介质。

背景技术

最近，语音辅助安装于各种设备中。这样的语音助理具有解释用户的话语，并执行用语音指示的各种提问的回答、操作的功能。语音助理一般使用语音识别、自然语言处理等技术来解释用户说的内容。

在设备中，通常，若用户发出规定的关键字(起动话语指令)，则语音辅助功能起动，用户能够使用语音辅助。现在，由于每个设备都安装有独特的语音助理，所以用户需要对每个提问的设备分开使用关键字，而不方便。例如，在是Windows(注册商标)机器的情况下，关键字为“Hey Cortana”，在是iPhone(注册商标)终端的情况下，关键字是“Hey Siri”，在是Android终端的情况下，关键字是“OK Google”等。

在用户的房间有这些多个设备的情况下，存在用户犹豫使用哪个设备的语音辅助好的情况，另外，需要对每个设备记住关键字，而用户不方便。由于今后IoT越来越普及，各种设备、服务进行合作，则能够利用语音辅助的设备越来越多，所以用户犹豫使哪个设备识别语音、回答的情况更多。

专利文献1：日本特开2013－73240号公报。

发明内容

本发明是鉴于上述而完成的，其目的在于提供在有多个能够利用语音辅助的设备的情况下，也能够简单地利用语音辅助而用户不会犹豫使用哪个设备的语音辅助系统、服务器装置、设备、其语音辅助方法、以及用于计算机执行的程序。

为了解决上述的课题，并实现目的，本发明的第一方式的进行语音辅助的服务器装置与多个设备能够进行通信地连接的语音辅助系统，其中，上述多个设备分别经由麦克风对相同的用户话语录音并将其录音数据发送到上述服务器装置，上述服务器装置接收分别从上述多个设备发送的录音数据，并根据规定的基准对接收到的多个录音数据进行语音识别，由此解释上述用户话语的内容来进行语音辅助。

另外，上述多个设备也可以在经由上述麦克风输入了用户的规定的起动话语指令后，开始用户话语的录音。

另外，也可以是上述多个设备还将录音状态信息分别发送到上述服务器装置，该录音状态信息表示对上述用户话语录音时的录音状态，上述服务器装置在对上述接收到的多个录音数据进行语音识别的情况下，进行与上述录音状态信息对应的加权，来解释上述用户话语的内容。

另外，上述录音状态信息也可以包括录音等级、噪声等级、以及回声中的至少一个信息。

另外，上述录音状态信息也可以包括录音等级、噪声等级、以及回声的全部信息。

另外，上述服务器装置还可以根据规定的优先级选择上述多个设备中输出语音辅助的设备。

另外，上述规定的优先级也可以根据上述设备是否处于使用中、上述设备中使用的输出单元、上述设备与用户的距离、以及上述设备的输出单元的性能中的一个或者多个决定。

另外，为了解决上述的课题，并实现目的，本发明的第二方式的能够进行通信地与多个设备连接且进行语音辅助的服务器装置具备：通信部，用于经由网络与上述多个设备进行数据通信；语音识别部，通过根据规定的基准对经由上述通信部接收到的分别从上述多个设备发送的相同的用户话语的录音数据进行语音识别，来解释上述用户话语的内容；以及语音辅助部，进行与被上述语音识别部解释的上述用户话语的内容对应的语音助理。

另外，上述语音识别部也可以在对上述相同的用户话语的录音数据进行语音识别的情况下，进行与从上述多个设备送出的录音状态信息对应的加权，来解释上述用户话语的内容，上述录音状态信息表示对上述用户话语录音时的录音状态。

另外，上述语音辅助部也可以根据规定的优先级选择上述多个设备中输出语音辅助的设备。

另外，上述规定的优先级也可以根据上述设备是否处于使用中、上述设备所使用的输出单元的种类、上述设备与用户的距离、以及上述设备的输出单元的性能中的一个或者多个决定。

另外，为了解决上述的课题，并实现目的，本发明的第三方式的能够进行数据通信地与进行语音辅助的服务器装置连接的设备具备：通信部，用于经由网络与上述服务器装置进行数据通信；麦克风，用于输入语音；以及请求部，经由上述麦克风对与其他的设备相同的用户话语录音，并将其录音数据经由上述通信部发送到上述服务器装置。

另外，为了解决上述的课题，并实现目的，本发明的第四方式的能够进行通信地与多个设备连接的服务器装置执行的语音辅助方法包括：语音识别工序，通过根据规定的基准对经由通信部接收到的分别从上述多个设备发送的相同的用户话语的录音数据进行语音识别，来解释上述用户话语的内容；以及语音辅助工序，进行与被上述语音识别工序解释的上述用户话语的内容对应的语音助理。

另外，为了解决上述的课题，并实现目的，本发明的第五方式的存储计算机可执行程序的存储介质，安装于能够进行通信地与多个设备连接的服务器装置的程序使计算机执行：语音识别工序，通过根据规定的基准对经由通信部接收到的分别从上述多个设备发送的相同的用户话语的录音数据进行语音识别，来解释上述用户话语的内容；以及语音辅助工序，进行与被上述语音识别工序解释的上述用户话语的内容对应的语音助理。

根据本发明的上述方式，起到在有多个能够利用语音辅助的设备的情况下，也能够简单地利用语音辅助而用户不会犹豫使用哪个设备这样的效果。

附图说明

图1是表示本实施方式的语音辅助系统的概念图的图。

图2是用于对图1的语音辅助系统的动作的概略进行说明的流程图。

图3是用于对设备的可靠度(权重)进行说明的图。

图4是用于对利用多个设备将用户的话语录音的情况进行说明的图。

图5是用于对设备的可靠度和服务器装置的语音识别部的最终语音识别结果进行说明的图。

图6是用于对服务器装置的语音辅助部执行的输出目的地设备选择处理的具体例子进行说明的说明图。

图7是用于对图1的服务器装置的硬件构成例进行说明的图。

图8是表示图1的设备的硬件构成例的图。

具体实施方式

以下，对应用本实施方式的语音辅助系统、服务器装置、设备、其语音辅助方法、以及用于计算机执行的程序的计算机系统的实施方式进行说明。本发明的构成要素一般在本说明书的附图示出，但能够容易理解也可以通过各种构成广泛地以各种方式配置设计。因此，以下的关于本发明的装置、方法、以及程序的实施方式的更详细的说明并不限定权利要求书所示的本发明的范围，仅示出本发明选择出的实施方式的一个例子，仅示出与本说明书的权利要求书所示的本发明没有矛盾地关于装置、系统以及方法的选择出的实施方式。本领域技术人员能够理解即使没有一个以上的特定细节、或者用其他的方法、部件、材料也能够实现本发明。

(实施方式)

图1是表示本实施方式的语音辅助系统的概念图的图。如图1所示，本实施方式的语音辅助系统1构成为服务器装置10和多个设备20能够经由网络30进行数据通信。

服务器装置10根据来自设备20的语音辅助的请求执行语音辅助。设备20将语音辅助的请求发送到服务器装置10。设备20例如是笔记本PC、台式PC、智能手机、平板手机、平板电脑、智能手表、互联网TV、Homehub、PDA、移动电话、以及各种家电产品等。

网络30具有能够将服务器装置10和多个设备20相互通信地连接的功能，例如为互联网、有线或者无线的LAN(Local Area Network：局域网)等。

在本实施方式中，多个设备20在相同的时机分别经由麦克风对用户的话语录音，并将录音到的用户的话语(录音数据)发送到服务器装置10。服务器装置10对从多个设备20发送出的多个录音数据进行语音识别来解释用户的话语的内容，经由设备20执行语音辅助。由此，在有多个能够利用语音辅助的设备20的情况下，用户也不会犹豫选择哪个设备利用语音辅助。

如图1所示，服务器装置10具备：通信部11，用于经由网络30与多个设备20进行数据通信；语音识别部12，通过根据规定的基准对经由通信部11接收到的分别从多个设备20发送的相同的用户话语的多个录音数据进行语音识别，来解释用户话语的内容；语音辅助部13，执行与被语音识别部12解释后的用户的话语的内容对应的语音助理；以及存储部14。

语音识别部12也可以在对用户话语的多个录音数据进行语音识别的情况下，进行与从多个设备20送出的表示将用户话语录音时的录音状态的录音状态信息对应的加权，来解释用户话语的内容。

语音辅助部13也可以根据规定的优先级选择多个设备20中输出语音辅助的设备。另外，规定的优先级也可以根据设备20是否是使用中、设备20中所使用的输出单元的种类、设备20与用户的距离、以及设备20的输出单元的性能中的一个或者多个决定。

存储部14也可以具备将利用语音辅助的用户名和该用户使用的多个设备的设备信息相关联登录的设备表14a。设备信息也可以包括设备名、机种名、IP地址、所安装的输出单元的种类以及其规格(例如，在扬声器的情况下，输出声压等级、频率特性、交叉频率、输入阻抗、允许输入等，在显示器的情况下，画面尺寸、分辨率等)。在本实施方式中，利用服务器装置10的语音辅助的用户以及其设备信息预先登录于设备表14a。语音辅助部13也可以根据来自设备20的请求向设备表14a登录用户名和设备信息。

在上述服务器装置10中，语音识别部12以及语音辅助部13例如能够由硬件、软件(OS、API、服务、实用程序、库、驱动器、以及应用等程序)的模块、或者其组合构成。另外，也可以通过计算机执行程序，来实现语音识别部12以及语音辅助部13的功能。

如图1所示，多个设备20分别具备：通信部21，用于经由网络30与服务器装置10进行数据通信；麦克风22，用于输入语音；请求部23，经由麦克风22将用户话语录音，且将录音到的用户的话语的数据(录音数据)经由通信部21发送到服务器装置10；以及输出单元24。

输出单元24由液晶、有机EL、等离子体、以及CRT等显示器、扬声器、包括耳塞式耳机(earphone)、头戴式耳机(headphone)的耳麦(headset)、以及打印机等的一个或者多个构成，具有将信息、语音输出到外部的功能。根据设备20，安装的输出单元24的种类、规格不同。

麦克风22例如由单个麦克风、双麦克风、以及阵列麦克风等构成，用于收集用户的话语等语音并输入。

请求部23也可以例如在经由麦克风22输入了用户的规定的起动话语指令(例如，Hello、〇〇)的情况下，将之后的用户话语录音，并将录音到的用户话语的数据(录音数据)经由通信部21发送到服务器装置10。这样，通过在多个设备20使用相同的关键字(起动话语指令)，用户不需要对每个设备记住关键字，对于用户来说变得便利。

另外，请求部23也可以将表示对用户话语录音时的录音状态的录音状态信息经由通信部21发送到服务器装置10。录音状态信息例如也可以包括录音等级、噪声等级、回声的影响、与用户(话语的声源)的距离、用户(话语的声源)的方向中的一个或者多个信息。

另外，请求部23也可以发送表示对用户话语录音时的该设备20的使用状态的使用状态信息。使用状态信息例如也可以包括设备20是否是使用中、当前在设备20使用的输出单元、以及设备20与用户的距离等信息。

在上述设备20中，请求部23例如能够由硬件或软件(OS、API、服务、实用程序、库、驱动器、以及应用等程序)的模块、或者其组合构成。另外，也可以通过计算机执行程序，来实现请求部23的功能。

图2是用于对图1的语音辅助系统1的动作的一个例子的概略进行说明的流程图。参照图2对图1的语音辅助系统1的动作的一个例子的概略进行说明。

在图2中，在多个设备20中，若用户说话，则各请求部23经由麦克风22将用户话语录音(步骤S1)。请求部23例如在输入了用户的规定的起动话语指令(例如，Hello，〇〇)的情况下，也可以开始动作来对之后的用户的话语的内容录音。

另外，各请求部23获取表示对用户话语录音时的录音状态的录音状态信息(步骤S2)。并且，各请求部23获取表示当前的设备的使用状态的使用状态信息(步骤S3)。

各请求部23将录音到的用户话语(录音数据)、录音状态信息、以及使用状态信息经由通信部21发送到服务器装置10(步骤S4)。

在服务器装置10中，语音识别部12经由通信部11接收从多个设备20送出的录音到的用户话语(录音数据)、录音状态信息、以及使用状态信息(步骤T1)。

语音识别部12对于接收到的多个录音数据执行语音识别处理(步骤T2)。具体而言，在语音识别处理中，在对多个录音数据进行语音识别的情况下，根据录音状态信息进行加权，来解释最终的用户的话语的内容。

接下来，语音辅助部13执行从多个设备20中选择输出语音辅助的设备的输出目的地设备选择处理(步骤T3)。具体而言，在输出目的地设备选择处理中，参照从多个设备20接收到的使用状态信息以及登录到存储部14的对应的设备信息(安装于设备20的输出单元的种类以及其规格)，根据规定的优先级，选择多个设备20中输出语音辅助的设备。此外，输出语音辅助的设备并不局限于送出录音数据的设备，也可以选择其他的设备。

语音辅助部13将选择出的设备10作为输出目的地来执行语音辅助(步骤T4)，选择出的设备输出语音辅助(步骤S5)。

图3～图5是用于对服务器装置10的语音识别部12执行的语音识别处理(图2的步骤T2)的一个例子进行说明的说明图。参照图3～图5，对服务器装置10的语音识别部12执行的语音识别处理的具体例子进行说明。

图3是用于对设备20的可靠度(权重)进行说明的图。各设备20的可靠度能够通过可靠度＝录音等级的评分+噪声等级的评分+回声的影响的评分计算。评分越高，可靠度越高。录音等级在评分0～5的范围内录音的音量越大，评分越高。噪声等级在评分0～5的范围内，周围的噪声越少，评分越高。从扬声器输出的声音越小，回声的影响的评分越高。

也可以是各设备20的请求部23例如将录音等级、噪声等级、回声的影响的信息作为录音状态信息发送到服务器装置10，服务器装置10的语音识别部12基于录音状态信息计算各设备20的可靠度。另外，各设备20的请求部23也可以计算可靠度＝录音等级的评分+噪声等级的评分+回声的影响的评分，并将可靠度作为录音状态信息发送到服务器装置10。

图4是用于对利用多个设备20将用户的话语录音的情况进行说明的图。在图4中，作为多个设备20，在A先生的房间配置有互联网TV20A、Homehub20B、台式PC20C、笔记本PC20D。A先生例如在说出规定的起动话语指令(例如，Hello、〇〇)后，说出(提问)“今天的天气？”。

例如，互联网TV20A靠近A先生且周边噪声也小但正在使用扬声器而有回声，所以可靠度＝录音等级(4)+噪声(5)+回声(0)＝9。

例如，Homehub20B靠近A先生，且既没有回声的影响，周边噪声也是中度，所以可靠度＝录音等级(5)+噪声(3)+回声(5)＝13。

例如，台式PC20C录音等级是中度且未使用扬声器，但周围嘈杂，所以可靠度＝录音等级(3)+噪声(1)+回声(5)＝9。

例如，笔记本PC20D既没有回声的影响，周边噪声也小，但远离A先生，录音音量较小，所以可靠度＝录音等级(2)+噪声(4)+回声(5)＝11。

在该例中，可靠度从高到低为Homehub20B(可靠度＝13)＞笔记本PC20D(可靠度＝11)＞互联网TV20A(可靠度＝9)＝台式PC20C(可靠度＝9)。

图5是用于对设备20的可靠度和服务器装置10的语音识别部12的最终的语音识别结果进行说明的图。在图5中，通过服务器装置10的语音识别部12分别对利用互联网TV20A、Homehub20B、台式PC20C、笔记本PC20D录音到的A先生的话语“今天的天气？”进行语音识别的结果例如为“今天的变化？”、“今天的天气？”、“今天的天下？”、“今天的天气？”。语音识别部12例如也可以对于语音识别结果在全部的设备中相同的部分直接采用相同的部分，对于不同的部分进行基于评价值的加权(例如，也可以采用评价值是规定值以上的设备的结果、或者采用评价值最高的设备的结果。)。

在图5中，例如，“今天的”部分全部相同，所以也可以采用其结果。另外，“天气？”的部分为“变化？”、“天气？”、“天下？”、“天气？”不同，所以也可以采用可靠度高的Homehub20B(可靠度＝13)和笔记本PC20D(可靠度＝11)的结果“天气？”。而且，语音识别部12也可以采用“今天的天气？”作为最终的语音识别结果。

图6是用于对服务器装置10的语音辅助部13执行的输出目的地设备选择处理(图2的步骤T4)的具体例子进行说明的说明图。参照图6，对服务器装置100的语音辅助部13执行的输出目的地设备选择处理的具体例子进行说明。

语音辅助部13例如能够将选择输出目的地设备的优先级作为1.是否是使用中的设备、2.设备使用的语音输出单元的种类、3.设备的位置(与用户的距离)、4.设备的语音输出单元的性能的顺序。

更具体而言，关于“1.是否是使用中的设备”，例如，判断电源是否接通，并优先使用电源接通的使用中的设备。是因为不能从电源未接通的设备输出。

关于“2.设备使用的语音输出单元的种类”，例如，使用耳麦的情况下，使耳麦比扬声器优先。是因为在用户使用耳麦的情况下，用户期待从耳麦输出。

关于“3.设备的位置(与用户的距离)”，例如，将与用户的距离按大致的距离范围分为近距离(例，0～2m)、中距离(例，2～5m)、远距离(例，5m～)，使优先级为近距离＞中距离＞远距离。

关于“4.设备的语音输出单元的性能的顺序”，在3中为相同的距离范围的情况下，也可以在使用的语音输出单元例如是扬声器的情况下，优先选择安装有能够输出最大的声音(允许的输入最大)的扬声器的设备。另外，也可以在使用的输出单元是显示器的情况下，优先选择安装有画面尺寸最大的显示器的设备。

在图6中，例如，互联网TV20A、Homehub20B、台式PC20C、以及笔记本PC20D全部接通电源，处于使用中。A先生在笔记本PC20D使用耳麦(无线)的情况下，语音辅助部13选择笔记本PC20D作为语音辅助的输出目的地设备。语音辅助部13将语音辅助的回复(例如，“全天晴朗”)发送到笔记本PC20D，笔记本PC20D从耳麦输出语音辅助的回复(例如，“全天晴朗”)。

如以上说明那样，根据本实施方式，多个设备20分别经由麦克风对相同的用户话语录音并将其录音数据发送到服务器装置10，服务器装置10通过根据规定的基准对分别从多个设备20发送的录音数据进行语音识别来解释用户话语的内容，并进行语音辅助。由此，在有多个能够利用语音辅助的设备的情况下，也能够简单地利用语音辅助而用户不会犹豫使用哪个设备。另外，对于相同的用户话语，使用多个设备的录音数据进行语音识别，所以能够使语音识别的精度提高。

另外，根据本实施方式，多个设备20也可以在经由麦克风22输入了用户的规定的起动话语指令之后，开始用户话语的录音。由此，用户能够使用相同的关键字(起动话语指令)来利用语音辅助，不需要对每个设备记住不同的关键字，变得便利。

另外，根据本实施方式，也可以是多个设备20将表示对用户话语录音时的录音状态的录音状态信息分别发送到服务器装置10，服务器装置10在对多个录音数据进行语音识别的情况下，进行与录音状态信息对应的加权，来解释用户话语的内容。由此，能够通过进行与录音状态对应的加权来进一步使语音识别的精度提高。

另外，根据本实施方式，录音状态信息也可以包括录音等级、噪声等级、以及回声的影响的信息中的一个或者多个。由此，能够进一步考虑录音时的录音等级、噪声等级、或者回声的影响进行语音识别。

另外，根据本实施方式，服务器装置10也可以根据规定的优先级选择多个设备中输出语音辅助的设备。由此，能够选择适合的设备作为语音辅助的输出目的地。

另外，根据本实施方式，规定的优先级也可以根据设备是否是使用中、设备所使用的输出单元、设备与用户的距离、以及设备的输出单元的性能中的一个或者多个决定。由此，能够从对于用户更合适的设备输出语音辅助。

(硬件构成例)

参照图7以及图8对上述实施方式的语音辅助系统1的硬件构成例进行说明。图7是用于对图1的服务器装置10的硬件构成例进行说明的图。图8是表示图1的设备20的硬件构成例的图。

如图7所示，服务器装置1具备CPU111、ROM112、内存113、存储器114、输入部104、语音识别引擎117、通信部120、DC－DC转换器122、以及AC适配器123等，各部经由总线直接或者间接地连接。

CPU111负责通过储存于经由总线连接的存储器114的OS130进行服务器装置10整体的控制，并且基于储存于存储器114的各种程序执行处理的功能。ROM112储存BIOS(BasicInput/Output System：基本输入输出系统)112a、数据等。

内存113由高速缓冲存储器、RAM构成，是用作写入执行程序的处理数据的作业区域的可写内存，作为CPU111的执行程序的读取区域。

存储器114例如由SSD、HDD等非易失性的存储装置构成，例如具有存储用于进行Windows(注册商标)等服务器装置10整体的控制的OS130、用于对周边设备进行硬件操作的各种的驱动器131、语音辅助服务器用程序132、用于登录用户名和设备信息的设备表133、以及其他的应用(未图示)等的功能。

语音辅助服务器用程序132是用于对从多个设备20发送的用户话语的录音数据进行语音识别并向用户提供语音辅助的应用。若语音辅助服务器用程序132经由通信部120从多个设备20接收用户话语的录音数据(包括录音状态信息、使用状态信息)，则使语音识别引擎117执行语音识别处理(例如，参照图2的步骤T2)，并且执行输出目的地设备选择处理(例如，参照图2的步骤T3)，经由通过输出目的地设备选择处理选择出的输出目的地设备执行基于语音识别引擎117的最终的语音识别结果的语音辅助。

输入部104是用于用户进行输入操作的用户界面，具备由输入文字、指令等的各种键构成的键盘等。

语音识别引擎117用于对录音到的用户话语(录音数据)进行语音识别来对用户话语的内容进行解释(转换成文本)，具体而言，对录音数据进行声学分析，使用声学模型、语言模型、发音词典等语音识别词典转换成文本。语音识别引擎117根据语音辅助服务器用程序132的指示执行语音识别处理(例如，参照图2的步骤T2)。

通信部120用于经由网络以有线或者无线与多个设备20进行数据通信。

AC适配器123与工业电源连接，将AC电压转换成DC电压并输出到DC－DC转换器122。DC－DC转换器122将从AC适配器123供给的DC电压转换成规定的电压并将电力供给到各部。

在上述构成中，CPU111、语音辅助服务器用程序132、以及语音识别引擎117能够实现图1的语音识别部12的功能。另外，CPU111以及语音辅助服务器用程序132能够实现图1的语音辅助部13的功能。

如图8所示，设备20具备控制部210、内存211、存储器212、无线通信部215、通信部216、音频设备217、电源部224、显示器203、以及操作部223等。

显示器203例如由液晶显示器(LCD：Liquid Crystal Display)、有机EL(OrganicElectro－Luminescence：有机电致发光)面板等构成，而显示文字、图形等。

操作部223通过各种按钮等受理利用者的操作，并将与受理的操作对应的指示信号发送到控制部210。

电源部224根据控制部210的控制将从蓄电池或者AC适配器得到的电力供给到包括控制部210的设备20的各部。

通信部216用于经由网络与服务器装置10进行数据通信。

无线通信部215进行基于Bluetooth(注册商标)的通信标准的通信、基于Wi－Fi(Wireless Fidelity：无线保真)的通信标准的通信。

音频设备217具备麦克风205、扬声器206、耳麦端口207、以及DSP218。

麦克风205例如由阵列麦克风构成，收集语音并将语音数据输出到DSP218。扬声器206输出与从DSP218输出的语音数据对应的语音。耳麦端口207用于以有线或者无线连接耳麦300，将从DSP218输出的语音数据输出到耳麦300。

DSP218具备包括A/D转换器、D/A转换器、放大器、以及各种过滤器等的语音处理用LSI以及内存等，在对从麦克风205输入的语音进行A/D转换之后进行语音处理，将语音处理后的语音数据(数字数据)输出到控制部210，或者对从控制部210输入的语音数据(数字)进行D/A转换，并从扬声器206或者耳麦端口207输出。

DSP218具备wake on voice(语音唤醒)功能，构成为在休眠状态下也从电源部224供给电力，在处于休眠状态的情况下也能够从麦克风205收集语音。

DSP218能够根据各麦克风的声音的到达时间的差计算从麦克风(例如，阵列麦克风)205输入的语音的位置情报(其声源的位置(相对于麦克风205的相对位置)、方向)，能够判定与用户(声源)的距离以及用户(声源)的方向。

内存211例如由RAM、DRAM等构成，作为暂时存储由控制部210执行的程序、控制部210参照的数据、控制部210的运算结果等的工作区域使用。

存储器212例如是非易失性存储器(例如，EEPROM、SSD)，保存控制部210中的处理所利用的程序、数据。存储于存储器212的程序包含用于实现设备20的各功能的OS212a、用于对设备20进行硬件控制的驱动器212b、用于使用服务器装置10的语音辅助的语音辅助客户端用程序(应用)212c、其他的应用(未图示)、以及各种数据等。OS212a介入各种应用与设备之间的通信。

控制部210例如是CPU(Central Processing Unit：中央处理单元)、微处理器、DSP等，统一控制设备20的动作来实现各种功能(模式)。具体而言，控制部210通过根据需要参照存储于存储器212的数据、在内存211展开的数据，并且执行存储于存储器212的程序所包含的命令，来控制显示器203、无线通信部215、通信部216、音频设备217等，由此实现各种功能(模式)。此外，控制部210执行的程序、参照的数据也可以通过利用通信部216、无线通信部215进行的通信从服务器装置下载或者更新。

语音辅助客户端用程序(应用)212c在经由音频设备217输入了用户的规定的起动话语指令之后，将用户话语录音并将其录音数据发送到服务器装置10。另外，语音辅助客户端用程序(应用)212c例如从音频设备217获取录音状态信息并发送到服务器装置10，或者从OS212a获取动作状态信息并发送到服务器装置10。并且，语音辅助客户端用程序(应用)212c在从服务器装置10有语音辅助的输出指示的情况下，经由DSP218使语音从扬声器206、耳麦300输出，或者在显示器203显示。

在上述构成中，控制部210、音频设备217、以及语音辅助客户端用程序(应用)212c等能够实现图1的请求部23的功能。另外，音频设备217、显示器203能够实现图1的输出单元24的功能。

附图标记说明

1...语音辅助系统；10...服务器装置；11...通信部；12...语音识别部；13...语音辅助部；14...存储部；20...设备；21...通信部；22...麦克风；23...请求部；24...输出单元；111...CPU；112...ROM；113...内存；114...存储器；107...LCD；117...语音识别引擎；120...通信部；132...语音辅助服务器用程序；203...显示器；205...麦克风；206...扬声器；207...耳麦端口；210...控制部；211...内存；212...存储器；212c...语音辅助客户端用程序；215...无线通信部；216...通信部；217...音频设备。

Claims

1.一种语音辅助系统，是进行语音辅助的服务器装置与多个设备能够通信地连接的语音辅助系统，其特征在于，

上述多个设备分别经由麦克风将相同的用户话语录音，并将其录音数据发送到上述服务器装置，

上述服务器装置接收从上述多个设备分别发送的录音数据，并根据规定的基准对接收到的多个录音数据进行语音识别，由此解释上述用户话语的内容来进行语音辅助。

2.根据权利要求1所述的语音辅助系统，其特征在于，

上述多个设备在经由上述麦克风输入了用户的规定的起动话语指令后，开始用户话语的录音。

3.根据权利要求1或者2所述的语音辅助系统，其特征在于，

上述多个设备还分别将录音状态信息发送到上述服务器装置，该录音状态信息表示对上述用户话语录音时的录音状态，

上述服务器装置在对上述接收到的多个录音数据进行语音识别的情况下，进行与上述录音状态信息对应的加权，来解释上述用户话语的内容。

4.根据权利要求3所述的语音辅助系统，其特征在于，

上述录音状态信息包括录音等级、噪声等级、以及回声中的至少一个信息。

5.根据权利要求3所述的语音辅助系统，其特征在于，

上述录音状态信息包括录音等级、噪声等级、以及回声的全部信息。

6.根据权利要求1～5中的任意一项所述的语音辅助系统，其特征在于，

上述服务器装置还根据规定的优先级选择上述多个设备中输出语音辅助的设备。

7.根据权利要求6所述的语音辅助系统，其特征在于，

上述规定的优先级根据上述设备是否处于使用中、上述设备中使用的输出单元的种类、上述设备与用户的距离、以及上述设备的输出单元的性能中的一个或者多个决定。

8.一种服务器装置，是与多个设备能够通信地连接且进行语音辅助的服务器装置，其特征在于，具备：

通信部，用于经由网络与上述多个设备进行数据通信；

语音识别部，通过根据规定的基准对经由上述通信部接收到的分别从上述多个设备发送的相同的用户话语的录音数据进行语音识别，来解释上述用户话语的内容；以及

语音辅助部，进行与被上述语音识别部解释的上述用户话语的内容对应的语音助理。

9.根据权利要求8所述的服务器装置，其特征在于，

上述语音识别部在对上述相同的用户话语的录音数据进行语音识别的情况下，进行与从上述多个设备送出的录音状态信息对应的加权，来解释上述用户话语的内容，该录音状态信息表示对上述用户话语录音时的录音状态。

10.根据权利要求9所述的服务器装置，其特征在于，

11.根据权利要求9所述的服务器装置，其特征在于，

12.根据权利要求8～11中的任意一项所述的服务器装置，其特征在于，

上述语音辅助部根据规定的优先级选择上述多个设备中输出语音辅助的设备。

13.根据权利要求12所述的服务器装置，其特征在于，

14.一种设备，是能够进行数据通信地与进行语音辅助的服务器装置连接的设备，其特征在于，具备：

通信部，用于经由网络与上述服务器装置进行数据通信；

麦克风，用于输入语音；以及

请求部，经由上述麦克风，对与其他的设备相同的用户话语录音，并将其录音数据经由上述通信部发送到上述服务器装置。

15.一种语音辅助方法，是能够进行通信地与多个设备连接的服务器装置执行的语音辅助方法，包括：

语音识别工序，通过根据规定的基准对经由通信部接收到的、分别从上述多个设备发送的相同的用户话语的录音数据进行语音识别，来解释上述用户话语的内容；以及

语音辅助工序，进行与被上述语音识别工序解释的上述用户话语的内容对应的语音助理。

16.一种存储介质，存储计算机可执行程序，该计算机可执行程序是安装于能够进行通信地与多个设备连接的服务器装置的程序，其特征在于，使计算机执行：

语音识别工序，通过根据规定的基准对经由通信部接收到的、分别从上述多个设备发送的、相同的用户话语的录音数据进行语音识别，来解释上述用户话语的内容；以及