CN1474379A

CN1474379A - 语音识别/响应系统、语音/识别响应程序及其记录介质

Info

Publication number: CN1474379A
Application number: CNA031450601A
Authority: CN
Inventors: С; 小林载; 市原直彦; 小田川智
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2002-07-02
Filing date: 2003-07-02
Publication date: 2004-02-11
Also published as: EP1387349B1; JP2004037721A; US20040220808A1; EP1387349A3; DE60313706T2; DE60313706D1; EP1387349A2

Abstract

一种语音识别响应系统包括：发言识别单元、对话控制处理单元、发言特征分析单元和响应语音产生单元。发言识别单元通过用户的语音输入识别用户的发言内容，并输出识别结果。对话控制处理单元根据识别结果控制同用户的对话进程以便确定针对用户的响应内容。发言特征分析单元分析用户的发言特征以便产生发言特征信息。响应语音产生单元根据响应内容和发言特征信息产生针对所述用户的响应语音。

Description

语音识别/响应系统、语音/识别响应程序及其记录介质

技术领域

本发明涉及一种语音识别/响应系统，提供针对用户发言的语音响应。

背景技术

众所周知，语音识别/响应系统和语音交互系统都针对用户的发言做出语音响应。针对这种系统，已经提出了一些实现特殊的语音响应例如方言的系统。然而，它们几乎都有效地使用能够从对话系统获得的信息，而不使用来自用户的发言信息。以汽车导航为例来说，与上述系统相对应的系统恰当有效地使用了汽车导航装置发挥作用所依据的信息，例如，在汽车驾驶期间还有在语音响应中获得的地区信息(参见日本公开专利申请2001-227962和日本公开专利申请H8-124092)。具有这种功能的系统给用户带来如下优点：使他/她能够在听觉上获得他/她驾驶车辆所在地区的地区信息，这样可以使驾驶员与/或乘客(们)感到愉快。

然而，如上所述的语音识别/响应系统有可能产生这样的问题，例如它很难实现用户感觉熟悉的语音响应。更具体地说，由于各种环境与/或用户的精神状态的不同，用户的发言环境和发言内容可以有显著的改变，因此，即没有提出过任何一种系统可以应用于如汽车导航装置的电子设备，也没有提出任何一种方法，包括上述提及的公开文本所披露的系统，可以完全地处理针对非特定用户的灵活的响应。

发明内容

本发明，鉴于以上问题，目的在于，提供一种语音识别/响应系统，该系统可以实现用户感觉熟悉的语音响应。

为了获得上述目的，本发明的第一个方面的语音识别/响应系统包括：

发言识别单元，通过用户的语音输入识别用户的发言内容，并输出识别结果；

对话控制处理单元，根据所述识别结果控制与用户的对话进程，以便确定针对所述用户的响应内容；

发言特征分析单元，分析所述用户的发言特征，产生发言特征信息；和

响应语音产生单元，根据所述响应内容和所述发言特征信息产生针对所述用户的响应语音。

为了获得上述目的，本发明的第二方面的存储介质，在其上存储由计算机执行的语音识别/响应程序，其特征在于，所述程序导致所述计算机起到如下单元的作用：

为了获得上述目的，本发明的第三方面的语音识别/响应程序，所述程序由计算机执行，其特征在于，所述程序致使所述计算机起到如下单元的作用：

对话控制处理单元，根据所述识别结果控制与用户的对话进程，以便确定对所述用户的响应内容；

附图说明

图1是说明本发明实施例的语音识别/响应系统的示意性结构的方框图；

图2是本发明的例子的语音识别/响应系统的方框图；

图3是发言特征类别选择处理的流程图；

图4是响应语音产生处理的流程图；

图5是语音产生处理的另一个流程图；

图6A是说明响应数据库的读取数据库中存储内容的例1的视图，图6B是说明它的例2的视图；

图7是本发明第一修改的语音识别/响应处理的流程图；

图8是说明本发明第二修改的处理流程的视图；

图9是本发明第二修改的语音识别/响应处理的流程图；

具体实施方式

现在，将参考相关附图对本发明的最佳实施例进行详细说明。

图1说明本发明实施例的语音识别/响应系统的示意结构。本发明实施例的语音识别/响应系统1，输出针对用户发言产生的语音输入的语音响应，从而实现和用户的语音对话，可以应用于具有各种语音响应功能的装置或设备，例如汽车导航系统、家用电器和视频-音频设备。产生语音识别/响应程序来实现本发明实施例的语音识别/响应系统，并且通过记录介质或通信装置在终端设备上安装上述程序来执行它，使终端设备能够起到语音识别/响应系统的作用。在这种情况下，上述终端设备可以包括各种信息终端，例如汽车导航系统、家用电器和视频-音频设备。

语音识别/响应系统1大致地分成如下结构部件：发言识别单元10、发言特征分析单元20、响应语音产生单元30和对话控制处理单元40。发言识别单元10接收用户发言产生的语音输入，执行语音识别处理和其它识别所述发言内容的处理，并且输出作为识别结果的识别关键字S1。在识别用户发言的每词时，所述识别关键字S1是作为识别结果获得的。从发言识别单元10输出的识别关键字S1被发送到发言特征分析单元20和对话控制处理单元40。

发言特征分析单元20根据识别关键字分析用户的发言特征。所述发言特征包括各种特征，例如用户的地区性、用户的当前环境等等，这些特征也许会影响用户的发言。发言特征分析单元20根据识别关键字S1分析发言特征，产生发言特征信息S2并且将它发送到响应语音产生单元30。

对话控制处理单元40根据识别关键字S1控制同用户的对话进程。对话进程的确定应当考虑到如下因素：例如，使用了本发明的语音识别/响应系统设备的系统信息，以便根据预先准备好的对话情景进行控制。对话控制处理单元40确定对话情景(这将要根据系统信息和其它当前环境信息进展)使对话情景能够根据相应于用户发言内容的识别关键字S1进展，从而实现对话。然后，对话控制处理单元40根据对话进度产生响应语音信息S3，通过它来确定随后要输出的语音响应，并发送这样产生的响应语音信息S3到响应语音产生单元30。

响应语音产生单元30产生这样的语音响应，该语音响应具有如下模式：相应于对话控制处理单元40给出的响应语音信息S3和由发言特征信息S2所代表的发言特征，并通过诸如扩音器这样的语音输出装置输出语音响应。

本发明实施例的语音识别/响应系统1以这种方式，根据用户的发言状态输出基于发言特征的语音响应。

举例

现在，对最佳实施例进行如下描述。

[系统结构]

图2是根据本发明的例子的语音识别/响应系统100的方框图，它可以实现针对用户发言的适当的语音响应。如图2所示，语音识别/响应系统100大致地分成如下结构部件：发言识别单元10、发言特征分析单元20、响应语音产生单元30和对话控制处理单元40。

发言识别单元10包括参数转换部分12和语音识别处理部分14。参数转换部分12将语音(通过他/她的发言已经由用户输入)转换成指示语音特征的特征参数。语音识别处理部分14实施由参数转换部分12获得的特征参数和关键字模型(它们已经预先包括在语音识别引擎中)之间的匹配处理，以便抽取识别关键字。在本发明的例子中，语音识别处理部分14配置为使用每词中的关键字实施匹配处理以便执行识别处理。识别关键字是包含在用户发言中的词以及这样的关键字，所述关键字已经通过语音识别处理加以识别。

发言特征分析单元20包括发言特征类别选择部分22和发言特征数据库(DB)24。发言特征类别选择部分22使用发言特征参数来选择发言特征类别，该特征参数相应于由语音识别处理部分14抽取的识别关键字。

发言特征参数包括这样的值，该值是关于被分类为各种元素的特征的出现频率。在要判断发言中的用户是生于日本关东(Kanto)地区的人(以下简称关东人)，还是生于日本关西(Kansai)地区的人(以下称为关西人)的情况下，例如，发言特征参数采用下列多元值的形式存储在发言特征数据库24中：

p＝(关东人发言频率值，关西人发言频率值)

发言特征类别选择部分22使用上述发言特征参数来选择用户的发言特征类别。

对话控制处理单元40控制同用户的对话。对话控制处理单元40，使用系统信息和识别关键字，确定要输出为语音响应的内容，并且将参考标识符ID(它起到要输出为语音响应的内容的信息识别的作用)提供给响应语音产生单元30。顺便说一下，对话控制处理例如通过引发预先准备好的对话情景在考虑到用户发言内容的情况下进展而被执行。对话控制处理本身与本发明的特征不太相关，因此说明书省略了对它的详细说明。

响应语音产生单元30，根据发言特征类别(它已经通过发言特征类别选择部分22获得)为语音响应产生语音信号，并且为语音响应(它已经通过对话控制处理单元40获得)产生参考标识符ID。然后，通过扩音器将响应语音产生单元30产生的语音以语音响应的形式输出到用户。

[发言特征参数]

现在，将对发言特征参数进行如下详细描述。发言特征参数是这样的参数，它是预先准备的，以便从多个发言特征类别(它们已经预先通过将用户发言的特征分类为各种类型模式而获得)中选择用户发言落在其中的某个发言特征类别。发言特征参数是采用多元值形式表示的，所述值包括发言特征类别的对应数量的元素。上述每一元素包括这样的值，该值指示某人落在发言类别中的频率，所述发言类别是通过在使用关键字的问题中的元素表示的。

现在，将对获得发言特征参数的过程的例子进行如下描述。

[步骤1]

为了获得样本，以问卷形式进行调查：各个用户通常是否将包括在词典内的关键字当作识别关键字使用，按从“0“(零)到“n”的范围(假定越大的数字意味着越高的使用频率，请求用户从“0”到“n”中选择任意一个数字)。

给出下列等式：

M＝(m(1)，m(2)，......，m(N)) 其中，I＝1，2，......，N)

M_all＝∑m(i)

其中，“N”是识别类别的数量，“m(i)”是参与问卷调查中类别“i”的人数。

[步骤2]

编译问卷调查的结果。

假定所编译关于关键字第“k”个结果值使用如下等式表示：

Rk＝(rk(1)，rk(2)，......rk(N))

其中，rk(i)是关于类别“i”的编译结果。

元素值“Rk”的“rk(i)”根据下列等式计算：

rk(i)＝∑dk(i，j)

(其中，j＝1，2，......，N；dk(i，j)＝0，.1，......，p1)

上述“dk(i，j)”表示来自响应号为“j”的结果，即，归入扬声器类别“i”的人使用关键字第“k”个的频率。

[步骤3]

为了规范化组，确定规范化参数“L＝(l(1)......，1(N))”。在类别“i”中的规范化参数被确定，以便满足下列等式：

M_all/p＝1(i)*m(i)(其中，I＝1，2，......，N)

上述标识的等式可以被变换成如下等式：

l(i)＝M_all/(p*m(i))

[步骤4]

使用规范化参数按照如下来规范化编译结果“Rn”的值，所述规范化参数已经在步骤3加以确定了：

rk’(i)＝l(i)*rk(i)/∑l(j)*rk(j))

[步骤5]

编译结果的这样规范化的值存储在发言特征数据库中，因此值“rk’(i)”是作为关键字“k”的发言特征参数使用的。

<计算例子>

□设计系统：

这里准备了语音对话系统，其中从用户发言中抽取地区性和带方言的语音响应，所述系统适合于用户发言。

□先决条件：

A：日本方言仅被分为两种模式：关东地区和关西地区。

B：发言特征元素参数中的元素按照关东地区和关西地区这样一对一的次序列出。

C：关于关键字“makudo”(注释：这个字在日语中带着关西重读口音，意思是，“Mackers”)的发言特征参数将被找出。

[步骤1]

对于属于关东人和关西人的任何人，以问卷形式进行一个调查，调查他们是否通常使用识别关键字“makudo”。

对任意问卷调查的答复可以是肯定的或否定的。对问卷做出答复的人数“M”通过下列等式表示：

M＝(731，635)

因此，获得下列等式：

M_all＝731+635＝1366

[步骤2]

获得在步骤1进行的问卷调查的结果的编译结果“R”。

答复是根据肯定的和否定的范围1-2而作出的，由此提供项“p＝2”。

假定做出肯定答复的人数是“R”值，提供下列等式：

R_makudo＝(9,613)

[步骤3]

获得规范化参数“L”。

对问卷调查做出答复的人数“M”在步骤1中通过下列等式表示：

M＝(731,635)

因此，提供下列等式：

l(1)＝M_all/(p*m(1))

＝1366/(2*731)＝0.93

l(2)＝M_all/(p*m(2))

＝1366/(2*635)＝1.08

∴L＝(0.93，1.08)

编译的结果“值R_makudo”是按照如下用步骤3获得的规范化参数“L”加以规范化的：

R_all_makudo＝∑r_makudo(i)*l(i))

＝9*0.93+613*1.08

＝670.41

r’_makudo(1)＝r_makudo(1)*l(1)/R’_all

＝9*0.93/670.41＝0.012

r’_makudo(2)＝r_makudo(2)*l(2)/R’_all

＝613*1.08/670.41＝0.988

∴R’_makudo＝(0.012，0.988)

在步骤4所获得的编译结果的这样规范化的值“R’_makudo”作为‘makudo’的发言特征参数存储在发言特征数据库中。

[发言特征类别选择部分]

图3表示发言特征类别选择处理的流程图。发言特征类别选择处理通过如图2所示的发言特征类别选择部分22执行。

发言特征类别选择部分22从语音识别处理部分14接收识别关键字(步骤S10)。然后，发言特征类别选择部分22从发言特征数据库24中获得相应于作为输入的识别关键字的发言特征参数(步骤S11)。如果存在多个识别关键字，各个识别关键字都从数据库中获得。

然后，发言特征类别选择部分22从在步骤S11获得的发言特征参数中获得单一的代表性的发言特征参数(步骤S12)。更具体地说，单一的识别关键字的存在导致单一的发言特征参数的存在。在存在单一的识别关键字的情况下，该单一的发言特征参数被作为代表性的发言特征参数加以处理。在存在多个识别关键字的情况下，使用相应于多个识别关键字的发言特征参数产生单一的代表性的发言特征参数。

然后，发言特征类别选择部分22使用在步骤S12获得的代表性的发言特征参数选择特征类别(步骤S13)。在步骤S13选择的特征类别作为用户的发言特征类别被输出。

发言特征类别选择部分22将在步骤S13选择的发言特征类别输出到响应语音产生单元30(步骤S14)。由此，完成发言特征类别选择处理。

现在，将对发言特征类别选择处理的例子进行入下描述。

<例1>在“makudo”(注释：这个字在日文中带着关西重读口音，意思是“Mackers”)和“想去”作为识别关键字被抽取的情况下。

先决条件：

□词“makudo”的发言特征参数：(0.012，0.988)

□词“想去”的发言特征参数：(0.500，0.500)

在例1中，发言特征参数中的元素表示如下：

(关东人发言频率值，关西人发言频率值)

首先，在步骤S11，词“makudo”的发言特征参数“u”和词“想去”的发言特征参数“v”从发言特征数据库获得。这里，发言特征参数“u”和“V”表示如下：

u＝(0.012，0.988)，v＝(0.500，0.500)

然后，在步骤S12，获得代表性的发言特征参数。还有许多获得代表性的发言特征参数的方法。在这种情况下，采用如下方法：在发言特征参数(它们已经在步骤S11获得)的元素中，值为最大的元素被确定为代表性的发言特征元素参数的元素。

发言特征参数“u”的第一元素是“0.012”，发言特征参数“v”的第一元素是“0.500”。在这些值中，最大值是“0.500”。同样，发言特征参数“u”的第二元素是“0.988”，发言特征参数“v”的第二元素是“0.500”。在这些值中，最大值是“0.988”。

按照这种步骤，代表性发言特征参数“w”可以表示如下：

w＝(0.500，0.988)

然后，在步骤S13，选择发言特征类别。在代表性的发言特征参数“w”的元素中，值为最大的元素被确定为发言特征类别。

在这个例子中，在代表性的发言特征参数“w”中具有最大值的元素是第一元素中的“0.988”，因此“关西人”被选择作为发言特征类别。

<例2>：在抽取“愉快的”作为识别关键字的情况下。

先决条件：

□词“愉快的”的发言特征参数：(0.998，0.002)

在例2中，发言特征参数的元素分别表示下面的特征：

(愉快，烦闷)

首先，在步骤S11中，词“愉快的”的发言特征参数“u”从发言特征数据库获得。这里，发言特征参数“u”可以表示如下：

u＝(0.998，0.002)

然后，在步骤S12获得代表性的发言特征参数。还有许多获得代表性的发言特征参数的方法。在这种情况下，采用如下的方法：在发言特征参数(它们已经在步骤Sl1获得)的元素中，值为最大的元素被确定为代表性发言特征参数的元素。

在例2中，存在要处理的单一的发言特征参数，因此发言特征参数“u”自己成为代表性发言特征参数“w”，可以表示如下：

w＝(0.998，0.002)

在这个例子中，在代表性的发言特征参数“w”中具有最大值的元素是第一元素中的“0.998”，因此“愉快的”被选作言特征类别。所述发言特征类就是按照这样的方式加以选择的。

[响应语音产生单元]

现在，将对响应语音产生单元进行如下详细描述。图4是说明使用发言特征类别的响应语音产生处理所依据的视图，示出了语音产生单元结合在执行流程图期间访问的数据库执行的流程。

如图4所示，响应语音产生单元30包括响应数据库结构32和音素数据库38。响应数据库结构32包括为各个发言特征类别构建的多个响应数据库33，34，...。各个响应数据库33，34，...包括读取信息数据库33a，34a，和韵律信息数据库33b，34b，......。

如图4所示的流程图，响应语音产生单元30从发言特征类别选择部分22获得发言特征类别(步骤S31)，并且选择相应于以上发言特征类别的一组响应数据库(步骤S31)。响应数据库成对地存储读取信息数据库和用于产生韵律的韵律信息数据库，例如成对的词、词组的拆分和重读的位置。在所输入的发言特征类别是例如“关西人”的情况下，选择用于关西人的响应数据库。或者，在所输入的发言特征类别是例如“关东人”的情况下，选择用于关东人的响应数据库。

然后，响应语音产生单元30使用从对话控制处理单元40所输入的参考标识符ID，以便获得用于语音响应的读取信息和从在步骤S31选择的响应数据库获得相应的韵律信息(步骤S32)。

响应语音产生单元30，使用在步骤S32获得的读取信息和韵律信息，以及音素数据库存储的用于组成合成语音的音素数据，产生用于语音响应的合成语音(步骤S33)，并且以语音响应的形式输出这样产生的合成语音(步骤S34)。所述响应语音就是用这样的方式产生并输出的。

如图4所示的处理有这样的流程，其中响应语音是使用按规则的语言合成的语音合成方法产生的。可以使用另一中语音合成方法。在准备了例如已经为语音响应预先记录的语音的情况下，如图4所示的读取信息数据库由如图5所示的以上被记录的语音组成的响应语音数据库50代替。更具体地说，响应语音产生单元从发言特征类别选择部分22接收发言特征类别(步骤S40)，选择响应语音数据库50(步骤S41)并获得响应语音(步骤S42)。对话控制处理单元40和其它装置实现对话状态(步骤S44)，并且响应语音产生单元直接输出已经根据对话状态和识别关键字选择的响应语音(步骤S44)。

现在，将对响应语音产生处理的例子进行描述如下。这个例子是以如图4所示的处理为基础的。

<例1>：在发言特征类别被判断是“关西”，值“2”作为响应语音数据库的参考标识符ID被输入的情况下。

首先，在步骤S31，响应语音产生单元30作出响应数据库的选择。“关西”作为发言特征类别被输入。因此，在这一块中，为使用“关西”，设置响应数据库。

然后，响应语音产生单元30，在步骤S32接收响应语音数据库的参考标识符ID，并且获得相应于以上ID的韵律信息和来自在步骤S31选择的响应数据库中的读取信息。响应数据库存储读取信息，如图6A所示。在这个例子中，参考标识符ID是“2”，“关西”响应数据库在步骤S31被选择，因此，句子“hona，“makudo”ni ikimashou！”(注释：这个句子在日文中，带着关西重读口音，意思是，“好，让我们去Mackers！”)被选择。同时，获得韵律信息，例如，词、词组的拆分、标点的位置和重读的位置，所述韵律信息相应于读取信息。

然后，响应语音产生单元30，使用在步骤S32所输出的“hona，“makudo”ni ikimashou！”的读取数据、相应于以上读取数据的韵律信息和音素读取数据，以便在步骤33产生用于响应的语音。在步骤S33产生的语音以语音响应的形式被输出。

在这个例子中，响应数据库存储每一单句的数据，因此导致在步骤S32获得单个参考标识符ID。然而本发明还可以适用于这样一个情况，就是响应数据库存储每一单个词的数据，从而实现本发明的系统。在这种情况下，参考标识符ID的序列是从对话控制处理单元40输出的。相应于各个参考标识符ID的读取信息，以及韵律信息是按照参考标识符ID序列的次序获得的，并且在步骤S33，词通过语音合成处理组合在一起，然后当组合的词组成单句时，就输出语音响应。还可以使用中间语言(其中诸如重音这样的韵律信息以符号形式被添加到读取信息)数据库作为响应数据库，在所述中间语言数据库中，韵律信息数据库和读取信息数据库组合在一起。

<例2>在发言特征类别被判断是“愉快”，值“3”作为响应语音数据库的参考标识符ID被输入的情况下。

首先，在步骤S31，响应语音产生单元30选择响应数据库。“愉快”作为发言特征类别被输入。因此，在这一块中，为使用“愉快”，设置响应数据库。

然后，响应语音产生单元30，在步骤S32接收响应语音数据库的参考标识符ID，并且获得相应于以上ID的韵律信息和来自在步骤S31选择的响应数据库中的读取信息。响应数据库存储读取信息，如图6B所示。在这个例子中，参考标识符ID是“3”，并且在步骤S31选择用于“愉快”的响应数据库，因此，选择句子“好事情，你看起来很愉快”。同时，获得韵律信息，例如，词、词组的拆分、标点的位置和重读的位置，所述韵律信息相应于读取信息。

然后，响应语音产生单元30，使用在步骤S32所输出的“好事情，你看起来很愉快”的读取数据、相应于以上读取数据的韵律信息，和音素数据库，以便在步骤33产生用于响应的语音。在步骤S33产生的语音以语音响应的形式被输出。

这个例子中，响应数据库存储每一单句的数据，因此导致在步骤S32获得单个参考标识符ID。然而本发明还可以适用于这样一个情况，就是响应数据库存储每一单个词的数据，以便实现本发明的系统。在这种情况下，参考标识符ID的序列是从对话控制处理单元40输出的。相应于各个参考标识符ID的读取信息，以及韵律信息是按照参考标识符ID序列的次序获得的，并且在步骤S33，词通过语音合成处理组合在一起，然后当组合的词组成单句时，输出语音响应。还可以使用中间语言(其中诸如重音这样的韵律信息以符号形式被添加到读取信息)数据库作为响应数据库，在所述中间语言数据库中，韵律信息数据库和读取信息数据库组合在一起。

<修改1>

现在，将对上述说明例子的修改进行如下描述。在这个修改中，不同于关键字间隔的语音间隔(即，可有可无的字)也进行发言特征类别的判断处理。更具体地说，如图7所示的流程图，可以执行从从可有可无的词的发言数据中抽取这样的关键字的处理，可以采用表达式从所述关键字中推出发言特征(所述关键字以下简称“特征关键字”)，与上述一起执行的是关键字抽取处理(以下简称“主关键字选取”)，这样就有可能更加显著地反映用户发言的特征。

更具体地说，将执行下列处理。

首先，参数转换部分12将发言数据(已经输入)转换为特征参数(步骤S20)。然后，语音识别处理部分14实施在步骤20所生成的特征参数与主关键字模型的匹配处理，以便抽取关键字(步骤S21)。语音识别处理部分14还实施在步骤20所生成的特征参数与特征关键字模型的匹配处理，以便抽取特征关键字(步骤S22)。

然后，发言特征类别选择部分22使用发言特征参数获得最适当的发言特征类别，该发言特征参数相应于在步骤S21获得的主关键字和在步骤S22获得的特征关键字(步骤S23)。在这一阶段，利用在主关键字这一侧所存储的发言特征参数和在特征关键字这一侧所存储的发言特征参数的全部，来获得代表性的发言特征参数。

响应语音产生单元30，使用在步骤S23获得的发言特征类别和在步骤S21和S22获得的识别关键字，产生用于语音响应的语音(步骤S24)。这样产生的语音以语音响应的形式被输入给用户。

现在，对修改1中具体处理例子进行如下描述。

<例>：在给出“juutai-jouhou wo tanomu-wa”(注释：这个带着关西重读口音，意思是“请给我交通阻塞信息”)的发言的情况下。

先决条件：

□主关键字是“juutai-jouhou”(即，交通阻塞信息)。

□词“tanomu-wa”(即，“请给我”)已经作为发言特征关键字被记录。

□词“juutai-jouhou”(即，交通阻塞信息)的发言特征参数：(0.50，0.50)

□词“tanomu-wa”(即，“请给我”)的发言特征参数：(0.80，0.20)

*在这个例子中，发言特征参数的元素分别表示下面的特征：

(关西人发言频率值，关东人发言频率值)

在步骤S20，参数转换部分12获得发言数据本身的特征参数。

然后，语音识别处理部分14实施主关键字模型同在步骤S20获得的特征参数进行匹配处理，以便在步骤S21抽取“juutai-jouhou”(即，交通阻塞信息)的主关键字。语音识别处理部分14还实施特征关键字同特征关键字模型和在步骤S20获得的特征参数进行匹配处理，以便在步骤S22选取“tanomu”(即，“请给我”)的特征关键字。

然后，在步骤S23，发言特征类别选择部分22抽取发言特征类别。更具体地说，与“juutai-jouhou”(即，交通阻塞信息)的主关键字对应的发言特征参数“u”是从发言特征数据库获得的。与“tanomu”(即，“请给我”)的特征关键字对应的发言特征参数“v”也是从发言特征数据库中获得的。在这个例子中，发言特征参数“u”和“v”可以表示如下：

u＝(0.50，0.50)，v＝(0.80，0.20)

然后，发言特征类别选择部分22获得用于作为发出的整个语音数据的代表性的发言特征参数。在发言特征参数被确定为代表性的发言特征参数的元素。发言特征参数“u”的第一元素是“0.50”，发言特征参数“v”的第一元素是“0.80”。在这些值中，最大值是“0.80”。同样，发言特征参数“u”的第二元素是“0.50”，发言特征参数“v”的第二元素“0.20”。在这些值中，最大值是“0.50“。

按照这种步骤，代表性的发言特征参数“w”可以表示如下：

w＝(0.80，0.50)

然后，在代表性的发言特征参数“w”的元素中，具有最大值的元素被确定作为发言特征类别。在代表性的发言特征参数“w”中具有最大值的元素是第一元素中的“0.80”。因此，发言特征类别选择部分22判断发言的人是“关西人”，并且将这个判断结果发送给响应语音产生单元30。

然后，响应语音产生单元30返回发言特征类别，并实施语音合成处理以便以语音响应的形式输出合成语音。

<修改2>

现在，将对上述说明例子的另一个修改描述如下。在这个修改例2中，准备了多个发言特征数据库，为每个发言特征数据库获得发言特征参数，这样就有可能更详细地反映语音响应中的用户发言的特征。

更具体地说，预先准备了一个发言特征“A”的数据库(例如，如图8所示的表示感情的发言特征数据库)和一个发言特征“B”的数据库(例如，如图8所示的地区性的发言特征数据库)，因此两个发言特征参数，即，任一发言特征“A”参数和任一发言特征“B”参数都是为单一关键字获得的(参见图8)。

预先从全部关键字中的发言特征“A”参数和发言特征“B”参数获得代表性的发言特征参数，有可能获得这样的特征，，所述特征已经从发言的两个方面加以判断了。因此，和上述使用单一发言特征类别参数的情况相比较，有可能提供可以反映模式详细的发言情况的语音响应。

不用说，相似的处理可以应用于使用三个或更多发言特征数据库的情况。在这种情况下，语音识别/响应系统更详细地综合发言情况，这样就有可能提供针对所述情况的最适当的语音响应。

现在，将根据如图1的方框图和图9的流程图描述相各个处理。

<处理例子>

首先，参数转换部分12将已经输入的发言数据转换成为特征参数(步骤S20)。然后，语音识别处理部分14实施主关键字模型同在步骤S20产生的特征参数进行匹配处理，以便抽取关键字(步骤S21)。语音识别处理部分14还实施特征关键字模型同在步骤S20产生的特征参数进行匹配处理，以便采用步骤S21相同的方式抽取特征关键字(步骤S22)。当然，如上所述，发言特征类别仅用于主关键字。在这种情况下，系统结构和图9所示的流程图的结构相一致，除了步骤S21被删除之外。

然后，发言特征类别选择部分22，使用发言特征“A”参数(它们相应于在步骤S21获得的主关键字和在步骤S22获得的特征关键字，以便获得最适当的发言特征“A”类别(步骤S231)。在这一阶段，利用在主关键字这一侧所存储的发言特征“A”参数和在特征关键字这一侧所存储的发言特征“A”参数的全部，来获得代表性的发言特征“A”参数。发言特征类别选择部分22，还使用发言特征参数“B”参数(该参数相应于在步骤S21获得的主关键字和在步骤S22获得的特征键字)，以便采用与步骤S231相同的方式获得最适当的发言特征“B”类别(步骤S232)。

响应语音产生单元30，使用在步骤S231获得的发言特征“A”类别、在步骤S232获得的发言特征“B”类别和在步骤S21和S22获得的识别关键字，产生用于语音响应的语音。这样产生的语音以语音响应的形式输入给用户。

现在，对修改2中具体处理例子进行如下描述。

<例子>：在给出“akan，juutai-jouhou wo tanomu wa”(注释：带着关西口音，意思是，“我的天啊！请给我交通堵塞信息”)的发言的情况下。

先决前提：

□主关键字是“juutai-jouhau”(即，交通阻塞信息)。

□词“juutai-jouhou”(即，交通阻塞信息)的发言特征“A”参数：(0.50，0.50)

□词“juutai-jouhou”(即，交通阻塞信息)的发言特征“B”参数：(0.50，0.50)

□词“tanomu-wa”(即，“请给我”)的发言特征“A”参数：(0.80，0.20)

□词“tanomu-wa”(即，“请给我”)的发言特征“B”参数：(0.50，0.50)

□词“akan”(即，“哦，我的天啊！”)的发言特征“A”参数：(0.80，0.20)

□词“akan”(即，“哦，我的天啊！”)的发言特征“B”参数：(0.10，0.90)

*在这个例子中，发言特征“A”参数的元素的分别表示如下特征：

(关西人发言频率值，关东人发言频率的值)和

在这个例子中，发言特征“B”参数的元素的分别表示如下特征：

(表示愉快的频率值，表示烦闷的频率值))

在步骤S20，转换部分12获得发言数据本身的特征参数。然后，语音识别处理部分14实施主关键字模型同在步骤S20获得的特征参数的匹配处理，以便在步骤S21抽取“juutai-jouhou”(即，交通阻塞信息)的主关键字。

语音识别处理部分14还实施特征关键字和在步骤S20获得的特征关键字模型和特征参数的匹配处理，以便在步骤S22抽取“akan”(即，“哦，我的天啊！”)和“tanomu”(即，“请给我”)的特征关键字。

然后，在步骤S231，发言特征类别选择部分22抽取发言特征“A“类别。更具体地说，与“juutai-jouhou”(即，交通阻塞信息)的主关键字对应的发言特征“A”的参数“ua”是从发言特征数据库获得的。与“tanomu”(即，“请给我”)的特征关键字对应的发言特征“A”的参数“va(1)”，以及与“akan”(即，“哦，我的天啊！”)的特征关键字对应的发言特征“A”的参数“va(2)”，也是从发言特征数据库获得的。

在这个例子中，发言特征参数“ua”，“va(1)”和“va(2)”可以表示如下：

ua＝(0.50，0.50)

va(1)＝(0.80，0.20)

va(2)＝(0.90，0.20)

采用与上述同样的方法，在步骤S232，发言特征类别选择部分22抽取发言特征“B”类别。更具体地说，与“juutai-jouhou”(即，交通阻塞信息)的主关键字对应的发言特征“B”的参数“ub”是从发言特征数据库获得的。与“tanomu”(即，“请给我”)的特征关键字对应的发言特征“B”参数“vb(1)，以及“akan”(即，“哦，我的天啊！”)的特征关键字对应的发言特征“B”参数“vb(2)”，也是从发言特征数据库获得的。

在这个例子中，发言特征“B”的参数“ub”，“vb(1)”和“vb(2)”可以表示如下：

ub＝(0.50，0.50)

vb(1)＝(0.50，0.50)

vb(2)＝(0.10，0.90))

然后，发言特征类别选择部分22获得用于作为输出的整个语音数据的代表性发言特征参数。在发言特征“A”参数的元素中以及发言特征“B”参数的元素中(它们已经分别在步骤S231和S232获得)，具有最大值的元素分别被确定为代表性发言特征“A”参数的元素和代表性的发言特征“B”参数的元素。

这里，获得用于特征“A”参数的代表性的发言特征“A”参数。发言特征“A”参数“ua”的第一元素是“0.50”，发言特征“A”参数“va(1)”的第一元素是“0.80”，发言特征“A”参数“va(2)”的第一元素是“0.90”。在这些值中，最大值是“0.90”。采用同样的方式，发言特征“A”参数“ua”的第二元素是“0.50”，发言特征“A”参数的“va(1)”第二元素是“0.20”，发言特征“A”参数“va(2)‘的第二元素是“0.20”。在这些值中，最大值是“0.50”。

根据这种步骤，代表性的发言特征“A”参数“Wa‘可以表示如下：

wa＝(0.90，0.50)

用于发言特征“B”参数的代表性的发言特征“B”参数“wb”以相似的方法中获得，可以表示如下：

wb＝(0.50，0.90)

然后，在代表性的发言特征“A”参数“wa”的元素和代表性的发言特征“B”参数“wb”中，具有最大值的代表性元素被确定为发言特征类别。在代表性的发言特征“A”参数“wa‘中具有最大值的元素是第一元素中的“0.90”。因此，发言特征类别选择部分22判断给出发言的人是“关西人”，并且将判断结果发送到响应语音产生单元30。

以同样方式，在代表性的发言特征B”参数“wb”中具有最大值的元素是第一元素中的“0.90”。因此，发言特征类别选择部分22判断给出发言的人是“感觉烦闷”，并且将断定结果发送到响应语音产生单元30。

然后，响应语音产生单元30反映两个发言特征类别，并且实施语音合成处理以便采用语音响应的形式将合成语音输出。

根据详细描述的本发明，本发明的语音识别/响应系统，被配置为执行用户发言的语音识别，根据识别结果选择用户发言的发言特征类别，并且产生与发言特征类别一致的响应语音。因此，执行语音响应的切换操作，以便根据用户的发言提供一个输出。仅通过所述的语音识别/响应系统获得的信息，就可以提供对用户来说感觉熟悉的对话，同时避免用户由发言风格例如方言的改变所引起的混淆。

Claims

1.一种语音识别/响应系统，包括：

发言识别单元(10)，通过用户的语音输入识别用户的发言内容，并且输出识别结果；

对话控制处理单元(40)，根据所述识别结果控制同用户的对话进程，以便确定针对所述用户的响应内容；

发言特征分析单元(20)，分析所述用户的发言特征以便产生发言特征信息；和

响应语音产生单元(30)，根据所述响应内容和所述发言特征信息产生针对所述用户的响应语音。

2.根据权利要求1的系统，其中：

所述发言特征信息包括多个发言特征类别，所述发言特征类别通过将用户的发言特征分类为多个组获得，所述发言特征分析单元(20)根据所述识别结果从所述多个发言特征类别中选择发言特征类别，以便输出所述发言特征类别。

3.根据权利要求2的系统，其中：

所述多个发言特征类别包括与所述用户的地区性有关的参数。

4.根据权利要求2或3的系统，其中：

所述发言特征分析单元(20)包括：

数据库(24)，用于存储所述发言特征参数，它们被用于选择与所述用户的发言有关的所述发言特征类别；和

装置(22)，用于使用相应于所述识别结果的发言特征参数选择所述发言特征类别。

5.一种存储介质，其上存储由计算机执行的语音识别/响应程序，其中所述程序导致所述计算机起到如下单元的作用：

6.一种由计算机执行的语音识别/响应程序，其中所述程序导致所述计算机起到如下单元的作用：