CN102314872B

CN102314872B - 语音识别终端

Info

Publication number: CN102314872B
Application number: CN2011101895424A
Authority: CN
Inventors: 横井邦雄; 铃木一久; 高见雅之; 丹泽直赖
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2010-06-30
Filing date: 2011-06-29
Publication date: 2012-11-21
Anticipated expiration: 2031-06-29
Also published as: US20120004908A1; CN102314872A; US8706492B2; JP5464078B2; JP2012013910A

Abstract

语音识别终端(1)执行本地语音识别处理并利用外部中心语音识别处理。该终端包括：语音消息合成部件(15，S104-S110，S114-S120)，用于对根据外部中心语音识别处理要从扬声器(11)输出的语音消息以及根据本地语音识别处理要从扬声器输出的语音消息中的至少一个进行合成，使得根据外部中心语音识别处理要从扬声器输出的语音消息的特征与根据本地语音识别处理要从扬声器输出的语音消息的特征之间相区分；以及语音输出部件(15，S106，S110，S116，S120)，用于从扬声器输出所合成的语音消息。

Description

语音识别终端

技术领域

本发明涉及一种语音识别终端，其执行本地语音识别并利用外部语音识别。该语音识别终端执行处理以提供本地语音识别。该语音识别终端与外部系统耦合，使得该语音识别终端利用由外部系统执行的外部语音识别。

背景技术

通常，诸如车载导航设备之类的车载信息终端具有HMI(即，人机接口)，该HMI使用终端内的语音识别处理，从而提高了安全性和方便性。

可替换地，具有语音识别功能的终端包括通信部件，使得终端经由该通信部件与外部中心耦合。语音识别处理由外部中心来执行，并且终端可以通过使用外部中心内的语音识别处理来搜索信息。外部中心内的这种语音识别处理被定义为中心侧语音识别处理。在日本专利No.3862169中描述了这种技术。

这里，在语音识别处理中，由于需要执行大量的运算以及使用大量的存储器，因此听觉上可感知的单词数量以及可识别的句子结构依赖于计算机能力。

因而，由于车载信息终端(例如，车载导航设备)中的运算处理器的计算机能力比较低，因此语音识别限于地址识别和/或比较容易的单词识别等等。

另一方面，在由外部中心执行的中心侧语音识别处理中，中心内的运算处理器的计算机能力是较高的，使得可识别的单词的数量较大，并且比较复杂的句子结构是可识别的。

因而，本地语音识别处理中的可识别单词的种类和数量、可识别句子的结构以及语音识别的目的与中心侧语音识别处理中的可识别单词的种类和数量、可识别句子的结构以及语音识别的目的是不同的。因此，当车载终端可以利用本地语音识别处理和中心侧语音识别处理时，需要用户选择本地语音识别处理和中心侧语音识别处理中的一个。

然而，在常规的车载信息终端中，当用户输出语音以使用语音识别功能时，用户不能容易地区分出本地语音识别处理或中心侧语音识别处理中的哪一个被执行。因此，用户不能在本地语音识别处理和中心侧语音识别处理之间进行区分的情况下输出语音。

例如，在导航设备中，当用户根据菜单屏幕操作诸如电话号码搜索键、地址搜索键、设备搜索键等之类的键时，导航设备开始执行本地语音识别处理。当用户根据菜单屏幕操作诸如信息搜索键、新闻呈现键等之类的键时，导航设备开始执行中心侧语音识别处理。在这种情况下，除非用户在本地语音识别处理和中心侧语音识别处理之间进行区分的情况下输出语音，否则导航设备可能开始执行非计划中的操作。

例如，当导航设备执行中心侧语音识别处理，并且用户说出“东京的好汉堡店(a good hamburger shop in Tokyo)”时，识别出短语“东京的好汉堡店”，然后，导航设备显示“东京的好汉堡店”的搜索结果。然而，当导航设备执行本地语音识别处理，并且用户说出“东京的好汉堡店(a goodhamburger shop in Tokyo)”时，导航设备可能不能准确地识别出短语“东京的好汉堡店”。例如，导航设备可能错误地识别“车辆附近的三明治店(asandwich bar near the vehicle)”，然后导航设备显示“车辆附近的三明治店”的搜索结果。

当导航设备执行本地语音识别处理，并且用户说出“放大”作为用于放大地图图像的操作命令时，导航设备将单词“放大”识别为操作命令。因而，导航设备显示放大后的地图图像。当导航设备执行中心侧语音识别处理，并且用户说出“放大”作为用于放大地图图像的操作命令时，可能不能识别出单词“放大”。而是，可能使用单词“放大”作为关键词来搜索网站。对于用户而言，这种操作是非计划中的操作。因而，干扰了用户。

发明内容

鉴于上面描述的问题，本公开内容的一个目的是提供一种语音识别终端，该语音识别终端执行本地语音识别并利用外部语音识别。语音识别终端的用户可以容易地在本地语音识别和外部语音识别之间进行区分。

根据本公开内容的一方面，语音识别终端执行本地语音识别处理并利用外部中心语音识别处理。所述本地语音识别处理识别语音，而与所述语音识别终端通信的外部中心执行用于识别语音的外部中心语音识别处理。所述终端包括：语音消息合成部件，用于对根据所述外部中心语音识别处理要从扬声器输出的语音消息以及根据所述本地语音识别处理要从所述扬声器输出的语音消息中的至少一个进行合成，使得在根据所述外部中心语音识别处理要从所述扬声器输出的所述语音消息的特征与根据所述本地语音识别处理要从所述扬声器输出的所述语音消息的特征之间相区分；以及语音输出部件，用于从所述扬声器输出所合成的语音消息。

在上面的终端中，用户可以容易地在本地语音识别处理和外部中心语音识别处理之间进行区分。

附图说明

根据下面参考附图进行的详细描述，本发明的上述以及其它目的、特征和优点将变得更加显而易见。在附图中：

图1是示出了根据示例性实施例的语音识别终端系统的方框图；以及

图2是示出了控制单元中的处理的流程图。

具体实施方式

(第一实施例)

图1示出了根据第一实施例的语音识别终端系统。终端是导航设备1的一部分，使得导航设备1中的一个功能提供语音识别终端的功能。导航设备1单独地执行语音识别处理，并且将该识别处理定义为本地语音识别处理。导航设备1利用由外部信息中心2执行的另一语音识别处理。导航设备1与外部信息中心2相耦合，使得导航设备1与中心2进行通信。将由中心2执行的语音识别处理定义为中心侧语音识别处理。

设备1包括麦克风10、扬声器11、显示器12、操作单元13、通信单元14和控制单元15。

麦克风10收集从导航设备1的用户输出的语音。此外，麦克风10根据来自用户的语音向控制单元15发送语音信号。扬声器11输出与从控制单元15输出的语音信号相对应的语音消息。

显示器12包括液晶显示器等，并且显示与从控制单元15输出的图像信号相对应的图像。

操作单元13包括安装在显示器前表面的触摸键以及安排在显示器周围的机械键。操作单元13根据用户的键操作向控制单元15发送信号。

通信单元14经由无线通信网络与外部设备进行通信。在本实施例中，通信单元14经由无线通信网络与安装在中心2内的服务器20进行通信。

控制单元15包括具有CPU、存储器、I/O部件等的计算机。CPU根据存储器中存储的程序执行各种处理。

控制单元15执行语音分析处理。具体地，当经由通信单元14连接到设备1的中心2内的服务器20执行中心侧语音识别处理时，控制单元15执行语音分析处理以分析要从扬声器11输出的语音消息。语音消息提供回话语音消息和指导语音消息。基于所分析的结果，根据中心侧语音识别处理对要从扬声器11输出的语音消息的特征(例如，性别和音调)进行指定。可替换地，可以基于频率分析结果来指定性别(即，男性或女性)，并且可以基于语音消息的韵律学分析结果来指定语音的音调(即，机器人音调或操作员音调)。可替换地，可以基于语音消息分析结果来指定背景声。

控制单元15包括语音消息合成单元(未示出)。当要从扬声器11输出的语音消息的性别和音调信息被输入到语音消息合成单元时，由语音消息合成单元合成具有指定特征的语音消息，然后，从扬声器11输出该语音消息。

导航设备1根据用户操作来显示菜单屏幕。菜单屏幕提供：电话号码搜索，用于搜索与可听输入的电话号码相对应的设备；地址搜索，用于搜索与可听输入的地址相对应的设备；音乐搜索，用于搜索与音乐的可听输入的关键词相对应的音乐；信息搜索，用于搜索关于可听输入的内容的信息；新闻搜素，用于搜素可听输入的新闻，等等。

在本实施例中，当用户选择电话号码搜索、地址搜索和音乐搜索中的一个时，设备1提供由本地语音识别处理执行的语音识别服务。当用户选择信息搜索和新闻搜索中的一个时，设备1提供由中心侧语音识别处理执行的语音识别服务。

图2示出了控制单元15的流程图。当用户根据菜单屏幕输入用于开始语音识别处理的指令时，控制单元15执行图2中所示的处理。

首先，在步骤S100中，对根据中心侧语音识别处理要从扬声器11输出的语音消息执行语音消息分析，使得指定语音消息的特征。具体地，通过频率分析指定语音消息的性别。进一步，通过韵律学分析指定语音消息的音调。进一步，指定背景声。这里，在本实施例中，根据中心侧语音识别处理要从扬声器11输出的语音消息的特征被指定为女性的语音以及操作员的语音音调。进一步，确定输出背景声。

接下来，在步骤S102中，设备1基于用户根据菜单屏幕输入的内容，来确定是否执行本地语音识别处理。这里，例如，当用户选择电话号码搜索时，步骤S102的确定为“是”。然后，在步骤S104中，确定根据本地语音识别处理要从扬声器11输出的语音消息的特征，使得根据本地语音识别处理要从扬声器11输出的语音消息与根据中心侧语音识别处理要从扬声器11输出的语音消息之间是可区分的。具体地，根据本地语音识别处理要从扬声器11输出的语音消息的特征被指定为男性的语音以及机器人的语音音调，并且确定不输出背景声。

接下来，在步骤S106中，将指导语音消息合成为步骤S104中确定的语音特征，然后，从扬声器11输出所合成的指导语音消息。具体地，将指导语音消息合成为男性的语音以及机器人的语音音调，而不具有任何背景声。然后，从扬声器11输出所合成的语音消息，例如“请输入(或说出)电话号码”。所合成的语音消息提供指导语音消息。

在本文中，所合成的语音消息包括机械合成的语音消息、自然语音链接消息、机械合成的语音消息和自然语音链接消息的组合。机械合成的语音消息是在不使用自然语音的情况下通过机器来合成的，使得机器留下该机械合成的语音消息。准备自然语音链接消息：记录人的实际语音，并且将该实际语音，即，自然语音，分割和/或链接，以准备自然语音链接消息。在这种情况下，可以改变诸如自然语音的字符间距和音调之类的自然语音的特征。因而，自然语音链接消息是基于人留下的消息而准备的。

接下来，在步骤S108中，执行本地语音识别处理。当用户说出以及输入短语“01-2345-6789”时，在本地语音识别处理中识别用户的语音。

接下来，在步骤S110中，将回话语音消息合成为步骤S104中确定的语音特征，然后，从扬声器11输出所合成的回话语音消息。具体地，将回话语音消息合成为男性的语音和机器人的语音音调，而不具有任何背景声。然后，从扬声器11输出所合成的语音消息，例如“01-2345-6789？”。所合成的语音消息提供回话语音消息。

接下来，在步骤S112中，执行根据语音识别结果的功能。具体地，通过使用所识别的电话号码，执行电话号码搜索。在显示器12上显示搜索的结果，然后，图2中的处理结束。

进一步，当用户输入用于执行信息搜索的指令时，步骤S102的确定为“否”。然后，在步骤S114中，确定根据中心侧语音识别处理要从扬声器11输出的语音消息的特征，使得在根据本地语音识别处理要从扬声器11输出的语音消息与根据中心侧语音识别处理要从扬声器11输出的语音消息之间是可区分的。具体地，步骤S100中指定的语音消息的特征用于根据中心侧语音识别处理要从扬声器11输出的语音消息的特征。更具体地，根据中心侧语音识别处理要从扬声器11输出的语音消息的特征被指定为女性的语音以及操作员的语音音调，并且确定输出背景声。

接下来，在步骤S116中，将指导语音消息合成为步骤S114中确定的语音特征，然后，从扬声器11输出所合成的指导语音消息。具体地，将指导语音消息合成为女性的语音以及操作员的语音音调，并输出背景声。然后，从扬声器11输出所合成的语音消息，例如“请输入(或说出)搜索条件”。所合成的语音消息提供指导语音消息。

接下来，在步骤S118中执行中心侧语音识别处理。当用户说出以及输入短语“东京的好汉堡店”时，在中心侧语音识别处理中识别用户的语音。

接下来，在步骤S120中，将回话语音消息合成为步骤S114中确定的语音特征，然后，从扬声器11输出所合成的回话语音消息。具体地，将回话语音消息合成为女性的语音以及操作员的语音音调，并输出背景声。然后，从扬声器11输出所合成的语音消息，例如“东京的好汉堡店？”。所合成的语音消息提供回话语音消息。

接下来，在步骤S112中，执行根据语音识别结果的功能。具体地，通过使用所识别的搜索条件，执行信息搜索。在显示器12上显示搜索的结果，然后，图2中的处理结束。

这里，步骤S104至S110以及S114至S120与语音消息合成部件相对应。步骤S100与语音消息特征指定部件相对应。控制单元15的存储器与存储器部件相对应。

在上面的设备中，对根据本地语音识别处理要从扬声器11输出的语音消息的特征进行合成，使得根据本地语音识别处理要从扬声器11输出的语音消息与根据中心侧语音识别处理要从扬声器11输出的语音消息之间是可区分的。通过使用所合成的语音消息，从扬声器11输出根据语音识别处理的语音消息。因而，用户可以容易地在本地语音识别处理和中心侧语音识别处理之间进行区分。

指定根据中心侧语音识别要从扬声器11输出的语音消息的特征。基于所指定的特征，对根据本地语音识别处理要从扬声器11输出的语音消息的特征进行合成，使得根据本地语音识别处理要从扬声器11输出的语音消息与根据中心侧语音识别处理要从扬声器11输出的语音消息之间是可区分的。因而，即使当根据中心侧语音识别要从扬声器11输出的语音消息的特征改变时，用户也可以容易地在本地语音识别处理和中心侧语音识别处理之间进行区分。

进一步，由于背景声与根据中心侧语音识别处理要从扬声器11输出的语音消息一起输出，所以当用户确定背景声是否从扬声器11输出时，用户可以容易地在本地语音识别处理和中心侧语音识别处理之间进行区分。

进一步，指定根据中心侧语音识别处理从扬声器11输出的语音消息的性别，并对根据本地语音识别处理要从扬声器11输出的语音消息进行合成，使得其具有与根据中心侧语音识别处理的指定的性别不同的语音消息的性别。因而，当用户确定语音消息的性别是否从扬声器11输出时，用户可以容易地在本地语音识别处理和中心侧语音识别处理之间进行区分。

在本实施例中，对根据本地语音识别处理要从扬声器11输出的语音消息的特征进行合成，使得根据本地语音识别处理要从扬声器11输出的语音消息与根据中心侧语音识别处理要从扬声器11输出的语音消息之间是可区分的。可替换地，可以对根据中心侧语音识别处理要从扬声器11输出的语音消息的特征进行合成，使得根据本地语音识别处理要从扬声器11输出的语音消息与根据中心侧语音识别处理要从扬声器11输出的语音消息之间是可区分的。在这种情况下，例如，当根据中心侧语音识别处理要从扬声器11输出的语音消息的性别是女性时，将语音特征合成为沉音音调(即，低音调)，使得该语音消息听起来像男性的语音。另一方面，当根据中心侧语音识别处理要从扬声器11输出的语音消息的性别是男性时，将语音特征合成为高音音调(即，高音调)，使得该语音消息听起来像女性的语音。

在本实施例中，对语音消息的性别和音调以及背景声进行改变，使得根据中心侧语音识别处理要从扬声器11输出的语音消息的特征与根据本地语音识别处理要从扬声器11输出的语音消息的特征之间相区分。可替换地，可以改变语音消息的性别和音调以及背景声中的至少一个。在本实施例中，根据中心侧语音识别处理要从扬声器11输出的语音消息与背景声一起输出，并且根据本地语音识别处理要从扬声器11输出的语音消息不与背景声一起输出。可替换地，尽管在这两种情况下都输出背景声，但是本地语音识别处理情况下的背景声可以与中心侧语音识别处理情况下的背景声不同。

(第二实施例)

在第一实施例中，对根据中心侧语音识别处理要从扬声器11输出的语音消息(即，回话语音消息和指导语音消息)执行语音分析，使得指定语音消息的特征。在本实施例中，将用于对根据中心侧语音识别处理要从扬声器11输出的语音消息的特征进行指定的信息存储在控制单元15的存储器中。基于存储器中所存储的信息，指定根据中心侧语音识别处理要从扬声器11输出的语音消息的特征。

具体地，根据导航设备1的基础设置屏幕，由用户对背景声以及根据中心侧语音识别处理要从扬声器11输出的语音消息的特征进行设置。因而，当用户在基础设置屏幕中设置语音消息的特征(其已经被设置为根据中心侧语音识别处理的特征)时，设置特征被存储在控制单元15的存储器内。之后，基于控制单元15的存储器中所存储的信息，指定根据中心侧语音识别处理要从扬声器11输出的语音消息的特征。

(其它实施例)

在上面的实施例中，语音识别终端是导航设备1的一部分，使得导航设备1中的一个功能提供语音识别终端的功能。可替换地，语音识别终端可以是只用于执行语音识别的专用终端。

在第一和第二实施例中，对根据本地语音识别处理要从扬声器11输出的语音消息的特征以及根据中心侧语音识别处理要从扬声器11输出的语音消息的特征中的至少一个进行合成，使得语音消息的性别和音调以及背景声相区别。可替换地，噪声可以叠加在语音消息上。可替换地，可以产生语音失真。可替换地，可以降低语音消息的音量。因而，可以有意地降低语音消息的质量。

进一步，设备1可以包括安排在不同的位置处的多个扬声器11。输出根据中心侧语音识别处理的语音消息的一部分扬声器11与输出根据本地语音识别处理的语音消息的另一部分扬声器11不同，使得听到根据中心侧语音识别处理的语音消息的方位与听到根据本地语音识别处理的语音消息的方位不同。可替换地，可以调整每个扬声器11的音量，使得听到根据中心侧语音识别处理的语音消息的方位与听到根据本地语音识别处理的语音消息的方位不同。

可以在显示器12上显示示出本地语音识别处理或中心侧语音识别处理的消息。可替换地，可以从扬声器11输出示出本地语音识别处理或中心侧语音识别处理的语音消息。

当输出男性的语音时，可以显示男性标志。当输出女性的语音时，可以显示女性标志。

当从扬声器11输出背景声时，考虑到可能会降低语音识别的识别率。因而，设备1可以包括自适应滤波器，该自适应滤波器用于基于输入信号进行自适应，使得对背景声导致的识别率降低进行限制。

可替换地，当执行中心语音识别处理时，可以延伸汽车天线。当执行本地语音识别处理时，可以折叠汽车天线。因而，用户基于车载部件的状态来获悉是执行本地语音识别处理还是执行中心侧语音识别处理。

上面的公开内容具有以下方面。

根据本公开内容的一方面，语音识别终端执行本地语音识别处理并利用外部中心语音识别处理。本地语音识别处理识别语音，而与语音识别终端通信的外部中心执行用于识别语音的外部中心语音识别处理。终端包括：语音消息合成部件，用于对根据外部中心语音识别处理要从扬声器输出的语音消息以及根据本地语音识别处理要从扬声器输出的语音消息中的至少一个进行合成，使得根据外部中心语音识别处理要从扬声器输出的语音消息的特征与根据本地语音识别处理要从扬声器输出的语音消息的特征之间相区分；以及语音输出部件，用于从扬声器输出所合成的语音消息。

可替换地，语音消息合成部件可以降低根据本地语音识别处理要从扬声器输出的语音消息以及根据外部中心语音识别处理要从扬声器输出的语音消息中的一个的质量。在这种情况下，用户可以根据从扬声器输出的语音消息的质量，容易地在本地语音识别处理和外部中心语音识别处理之间进行区分。

可替换地，语音消息合成部件可以在根据本地语音识别处理要从扬声器输出的语音消息以及根据外部中心语音识别处理要从扬声器输出的语音消息中的一个上添加背景声。在这种情况下，用户可以根据从扬声器输出的语音消息上的背景声，容易地在本地语音识别处理和外部中心语音识别处理之间进行区分。

可替换地，语音消息合成部件可以在根据本地语音识别处理要从扬声器输出的语音消息上添加背景声。语音消息合成部件在根据外部中心语音识别处理要从扬声器输出的语音消息上添加另一背景声。所述背景声与所述另一背景声是不同的。在这种情况下，用户可以根据从扬声器输出的语音消息上的背景声，容易地在本地语音识别处理和外部中心语音识别处理之间进行区分。

可替换地，扬声器可以包括多个扬声器部件。语音消息合成部件控制每个扬声器部件的音量，使得输出根据外部中心语音识别处理要从扬声器输出的语音消息的方位与输出根据本地语音识别处理要从扬声器输出的语音消息的方位相区别。在这种情况下，用户可以根据从扬声器输出语音消息的方位，容易地在本地语音识别处理和外部中心语音识别处理之间进行区分。

可替换地，语音识别终端还可以包括：语音特征指定部件，用于指定根据外部中心语音识别处理要从扬声器输出的语音消息的特征。语音消息合成部件基于根据外部中心语音识别处理要从扬声器输出的语音消息的所指定的特征，对根据外部中心语音识别处理要从扬声器输出的语音消息以及根据本地语音识别处理要从扬声器输出的语音消息中的至少一个进行合成。在这种情况下，即使当根据外部中心语音识别处理要从扬声器输出的语音消息的特征改变时，用户也可以容易地在本地语音识别处理和外部中心语音识别处理之间进行区分。

可替换地，语音识别终端还可以包括：存储器，用于存储指定根据外部中心语音识别处理要从扬声器输出的语音消息的特征的信息。语音特征指定部件基于存储器中所存储的该信息，指定根据外部中心语音识别处理要从扬声器输出的语音消息的特征。根据外部中心语音识别处理要从扬声器输出的语音消息的特征是基于存储器中所存储的该信息而被指定的。

进一步，语音特征指定部件可以对根据外部中心语音识别处理要从扬声器输出的语音消息进行分析。语音特征指定部件基于对根据外部中心语音识别处理要从扬声器输出的语音消息的分析结果，指定根据外部中心语音识别处理要从扬声器输出的语音消息的特征。根据外部中心语音识别处理要从扬声器输出的语音消息的特征是基于语音特征指定部件的分析结果而被指定的。

可替换地，语音特征指定部件可以指定根据外部中心语音识别处理要从扬声器输出的语音消息的性别。语音消息合成部件对根据本地语音识别处理要从扬声器输出的语音消息进行合成，使得根据本地语音识别处理要从扬声器输出的语音消息的性别与根据外部中心语音识别处理要从扬声器输出的语音消息的所指定的性别相区别。在这种情况下，用户可以根据从扬声器输出的语音消息的性别，容易地在本地语音识别处理和外部中心语音识别处理之间进行区分。

可替换地，语音特征指定部件可以指定根据外部中心语音识别处理要从扬声器输出的语音消息的音调。语音消息合成部件对根据本地语音识别处理要从扬声器输出的语音消息进行合成，使得根据本地语音识别处理要从扬声器输出的语音消息的音调与根据外部中心语音识别处理要从扬声器输出的语音消息的所指定的音调相区别。在这种情况下，用户可以根据从扬声器输出的语音消息的音调，容易地在本地语音识别处理和外部中心语音识别处理之间进行区分。

可替换地，语音识别终端还可以包括：语音特征指定部件，用于指定根据外部中心语音识别处理要从扬声器输出的语音消息的性别和音调。语音消息合成部件在根据本地语音识别处理要从扬声器输出的语音消息以及根据外部中心语音识别处理要从扬声器输出的语音消息中的一个上添加背景声。语音消息合成部件对根据本地语音识别处理要从扬声器输出的语音消息进行合成，使得根据本地语音识别处理要从扬声器输出的语音消息的性别和音调与根据外部中心语音识别处理要从扬声器输出的语音消息的所指定的性别和所指定的音调相区别。

进一步，所述性别是男性或女性，并且所述音调是机器人音调或操作员音调。

虽然已经参考本发明的优选实施例描述了本发明，但是应当理解的是，本发明并不限于优选的实施例和结构。本发明旨在涵盖各种修改和等同布置。此外，虽然存在优选的各种组合和配置，但是包括更多、更少或只有单个部件的其它组合和配置也在本发明的精神和范围之内。

Claims

1.一种语音识别终端，用于执行本地语音识别处理以及用于利用外部中心语音识别处理，其中，所述本地语音识别处理识别语音，而与所述语音识别终端通信的外部中心执行所述外部中心语音识别处理以用于识别语音，所述终端包括：

语音消息合成部件，用于对根据所述外部中心语音识别处理要从扬声器输出的语音消息和根据所述本地语音识别处理要从所述扬声器输出的语音消息中的至少一个进行合成，使得根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的特征与根据所述本地语音识别处理要从所述扬声器输出的语音消息的特征之间相区分；以及

语音输出部件，用于从所述扬声器输出所合成的语音消息。

2.根据权利要求1所述的语音识别终端，

其中，所述语音消息合成部件降低根据所述本地语音识别处理要从所述扬声器输出的语音消息和根据所述外部中心语音识别处理要从所述扬声器输出的语音消息中的一个的质量。

3.根据权利要求1所述的语音识别终端，

其中，所述语音消息合成部件在根据所述本地语音识别处理要从所述扬声器输出的语音消息和根据所述外部中心语音识别处理要从所述扬声器输出的语音消息中的一个上添加背景声。

4.根据权利要求1所述的语音识别终端，

其中，所述语音消息合成部件在根据所述本地语音识别处理要从所述扬声器输出的语音消息上添加背景声，

其中，所述语音消息合成部件在根据所述外部中心语音识别处理要从所述扬声器输出的语音消息上添加另一背景声，以及

其中，所述背景声与所述另一背景声不同。

5.根据权利要求1-4中的任意一项所述的语音识别终端，

其中，所述扬声器包括多个扬声器部件，以及

其中，所述语音消息合成部件控制每个扬声器部件的音量，使得根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的输出方位与根据所述本地语音识别处理要从所述扬声器输出的语音消息的输出方位相区别。

6.根据权利要求1所述的语音识别终端，还包括：

语音特征指定部件，用于指定根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的特征，以及

其中，所述语音消息合成部件基于根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的所指定的特征，来对根据所述外部中心语音识别处理要从所述扬声器输出的语音消息和根据所述本地语音识别处理要从所述扬声器输出的语音消息中的至少一个进行合成。

7.根据权利要求6所述的语音识别终端，还包括：

存储器，用于存储信息，所述信息指定了根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的特征，

其中，所述语音特征指定部件基于所述存储器中存储的所述信息，来指定根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的特征。

8.根据权利要求6所述的语音识别终端，

其中，所述语音特征指定部件对根据所述外部中心语音识别处理要从所述扬声器输出的语音消息进行分析，以及

其中，所述语音特征指定部件基于对根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的分析结果，来指定根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的特征。

9.根据权利要求6所述的语音识别终端，

其中，所述语音特征指定部件指定根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的性别，以及

其中，所述语音消息合成部件对根据所述本地语音识别处理要从所述扬声器输出的语音消息进行合成，使得根据所述本地语音识别处理要从所述扬声器输出的语音消息的性别与根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的所指定的性别相区别。

10.根据权利要求8所述的语音识别终端，

其中，所述语音特征指定部件指定根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的音调，以及

其中，所述语音消息合成部件对根据所述本地语音识别处理要从所述扬声器输出的语音消息进行合成，使得根据所述本地语音识别处理要从所述扬声器输出的语音消息的音调与根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的所指定的音调相区别。

11.根据权利要求1所述的语音识别终端，还包括：

语音特征指定部件，用于指定根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的性别和音调，

其中，所述语音消息合成部件在根据所述本地语音识别处理要从所述扬声器输出的语音消息和根据所述外部中心语音识别处理要从所述扬声器输出的语音消息中的一个上添加背景声，以及

其中，所述语音消息合成部件对根据本地语音识别处理要从所述扬声器输出的语音消息进行合成，使得根据所述本地语音识别处理要从所述扬声器输出的语音消息的性别和音调与根据所述外部中心语音识别处理要从所述扬声器输出的语音消息的所指定的性别和所指定的音调相区别。

12.根据权利要求11所述的语音识别终端，

其中，所述性别是男性或女性，以及

其中，所述音调是机器人音调或操作员音调。