CN1734445A - 用于对话的方法、装置和程序及其中存储程序的存储介质 - Google Patents

用于对话的方法、装置和程序及其中存储程序的存储介质 Download PDF

Info

Publication number
CN1734445A
CN1734445A CNA2005101038327A CN200510103832A CN1734445A CN 1734445 A CN1734445 A CN 1734445A CN A2005101038327 A CNA2005101038327 A CN A2005101038327A CN 200510103832 A CN200510103832 A CN 200510103832A CN 1734445 A CN1734445 A CN 1734445A
Authority
CN
China
Prior art keywords
statement
answer statement
actual
read
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005101038327A
Other languages
English (en)
Other versions
CN100371926C (zh
Inventor
广江厚夫
赫尔穆特·勒克
小玉康广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1734445A publication Critical patent/CN1734445A/zh
Application granted granted Critical
Publication of CN100371926C publication Critical patent/CN100371926C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

一种用于通过输出响应输入语句的应答语句而交互对话装置,包括配置为响应输入语句获取形式应答语句的形式应答获取单元,配置为响应输入语句获取实际应答语句的实际应答获取单元,以及配置为控制形式应答语句和实际应答语句的输出以至于响应输入语句输出最终的应答语句的输出控制单元。

Description

用于对话的方法、装置和程序及其中存储程序的存储介质
技术领域
本发明涉及用于对话的方法、装置和程序,以及包括在其中存储程序的存储介质。具体地说,本发明涉及通过响应输入语句,快速地输出在形式和内容上适当的应答的交互方法、装置和程序,以及包括其中存储的该程序的存储介质。
背景技术
通过声音与个人交互语音对话系统可以被粗略地分组为两种类型:用于特殊目的的系统;以及用于非特定主题的谈论(聊天)的系统。
用于特殊目的的语音对话系统的例子是语音对话标签预定系统。用于非特定主题的谈论的语音对话系统的例子是“chatterbot”,它的说明可以在,例如,“Chatterbot Is Thinking”中找到(到2004年7月26日为止在URL地址“http:∥www.ycf.nanet.co.jp/-skato/muno/index.shtml”上是可访问的)。
用于特殊目的的语音对话系统以及用于非特定主题的谈论的语音对话系统在与如何响应用户给出的语音输入(讲话)有关的设计原理上是不同的。
在用于特殊目的的语音对话系统中,必须输出指导用户讲话的响应以便提供达到目标所需的信息。例如,在用于预定机票的语音对话系统中,当有关起飞日期、起飞时间、起飞机场以及达到机场的信息对于进行预定是必须的时,如果用户说“二月16号,从东京到札幌”,则希望该语音对话系统可以检测有关起飞时间信息的缺少并且返回应答“您想什么时间起飞?”。
另一方面,在用于非特定主题的讨论的语音对话系统中,对于如何应答没有唯一的答案。然而,在非特定主题的自由谈论中,希望该语音对话系统能够返回一个引起用户兴趣的应答或者一个使用户感觉该语音对话系统理解用户所说的话的应答,从而使用户想继续与该语音对话系统交谈。
为了输出让用户感觉该系统理解用户所说的话的应答,需要该应答在形式和内容(主题)上与用户的语言一致。
例如,当用户提出期待用以“Yes”或“No”开始的语句回答的问题时,在形式上是正确的应答应当以“Yes”(或表示肯定的类似的词)或“No”(或表示否定的类似的词)开始。在用户使用问候语言的情况下,在形式上是正确的应答是与用户使用的问候表达相应的问候语句(例如,“Good morning”对“Good morning”,以及“Welcome home”对“Hi,I’m back”,是正确的应答)。作为应答,以同意的词开始的语句可以是正确的形式。
另一方面,当用户谈论天气时,有关天气的语句在内容上是正确的应答。
例如,当用户说“I’m worried about whether it will be finetomorrow.”,在形式和内容上都正确的应答的例子是“Yeah,I am alsoworried about the weather”。对于语句“Yeah,I am also worried aboutthe weather”,第一部分“Yeah”是同意的表达并且在形式上是正确的。后面的部分“I’m also worried about the weather”在内容上是正确的。
如果语音对话系统输出在形式和内容上一致的应答,诸如上面的例子,那么提供给用户的应答给用户一个该系统理解了用户所说的话的印象。
然而,在传统的语音对话系统中,产生形式和内容都一致的应答是困难的。
一种在自由会话中产生应答的已知方法是通过规则,而另一种已知的方法是通过例子。
通过规则的方法在程序调用Eliza中被使用,它在例如“What ELIZAtalks”(到2004年7月26日为止在URL地址“http:∥www.ycf.nanet.co.jp/skato/muno/eliza.html”上是可访问的)或“Language Engineering”(Makoto Nagao,Shokodo,226-228页)中被引用。
使用规则的方法中,当输入的语句包括特定的词或表达时,使用一组规则产生应答,每个规则定义将要输出的语句。
例如,当用户说“Thank you very much”时,如果存在一个规则,即响应包括“Thank you”的输入语句应该是“You are welcome”,则根据该规则产生应答“You are welcome”。
然而,虽然描述用于产生形式一致的应答的规则十分容易,但是描述用于产生内容一致的应答的规则是困难的。此外,可能存在大量用于产生内容一致的应答的规则,并且需要非常单调的工作来维持该大量的规则。
使用应答模板产生应答也是公知的,代替使用通过规则的方法或通过例子的方法(例如,在日本未审查的专利申请公开号为2001-357053中所公开的)。然而,该方法也具有与使用规则的那些方法类似的问题。
通过例子的方法的示例被公开,例如,在“Building of Dictionary”(到2004年7月26日为止在URL地址“http:∥www.ycf.nanet.co.jp/skato/muno/dict.html”上是可访问的)中,其中根据个人之间的聊天日志创建目录。在该技术中,从第(n-1)个语句中提取关键字,并且第n个语句被使用作为从第(n-1)个语句中提取关键字的值。对于所有的语句重复执行该过程以便产生目录。该技术中所述的“聊天日志”相当于一个例子。
也就是说,在这个技术中,聊天日志等等可以用作语句的例子,因此与人工描述的大量规则的情况相比比较容易收集大量的例子,并且根据语句的大量例子可以用许多方法来产生应答。
然而,在举例的方法中,为了产生形式和内容都一致的应答,需要必须至少有一个例子与应答相应。
在许多情况下,与应答相应的例子仅仅在形式或内容上一致。换句话说,虽然容易收集与仅仅在形式或内容上一致的应答语句相应的例句,但是不容易收集与形式和内容都一致的应答语句相应的例句。
在语音对话系统中,除了根据用户讲话的形式和内容的应答的一致性之外,输出应答的时间也是用户对该系统是否具有好的感觉的一个重要因素。特别地,应答时间,也就是说,从用户说话之后起语音对话系统输出应答所需的时间是重要的。
应答时间取决于执行用户讲话的语音识别所需的时间、产生与用户讲话相应的应答所需的时间、通过语音合成以及播放语音波形产生与应答相应的语音波形所需的时间以及处理总体过程的时间。
在所有这些时间中,产生应答所需的时间对于对话系统(对话装置)来说是特殊的。在使用规则产生应答的方法中,规则的数量越少,产生应答所需的时间越短。同样,在使用例子产生应答的方法中,例子的数量越少,产生应答所需的时间越短。
然而,为了用多种方法输出应答以至于用户不对应答产生厌倦,需要准备相当大量的规则和例子。因此,需要能够使用足够数量的规则或例子在短时间内产生应答的技术。
发明内容
如上所述,希望对话系统能够返回形式和内容都合适的应答以至于用户感觉该对话系统理解了用户所说的话。也希望对话系统可以快速地回应用户的话,以至于用户不会感到灰心。
鉴于上述内容,本发明提供了一种快速返回形式和内容都合适的应答的技术。
根据本发明实施例的对话装置包括用于响应输入语句获取形式应答语句的形式应答语句获取装置,用于响应输入语句获取实际应答语句的实际应答语句获取装置以及用于控制形式应答语句和实际应答语句的输出以至于响应输入语句输出确定的应答语句的输出控制装置。
根据本发明实施例的对话方法包括响应输入语句获取形式应答语句的步骤,响应输入语句获取实际应答语句的步骤,以及控制形式应答语句和实际应答语句的输出以至于响应输入语句输出确定的应答语句的步骤。
根据本发明实施例的程序包括响应输入语句获取形式应答语句的步骤,响应输入语句获取实际应答语句的步骤,以及控制形式应答语句和实际应答语句的输出以至于响应输入语句输出确定的应答语句的步骤。
根据本发明实施例的存储在存储介质上的程序包括响应输入语句获取形式应答语句的步骤,响应输入语句获取实际应答语句的步骤,以及控制形式应答语句和实际应答语句的输出以至于响应输入语句输出确定的应答语句的步骤。
根据本发明实施例的对话装置包括配置为响应输入语句获取形式应答语句的形式应答语句获取单元,配置为响应输入语句获取实际应答语句的实际应答语句获取单元,以及配置为控制形式应答语句和实际应答语句的输出以至于响应输入语句输出确定的应答语句的输出单元。
在本发明的实施例中,如上所述,响应一输入语句,一形式应答语句被获取,并且进一步地一实际应答语句被获取。通过控制形式应答语句和实际应答语句的输出而输出输入语句的最终应答语句。
根据本发明的一个实施例,可以输出形式和内容都合适的应答,并且可以在短时间内输出该应答。
附图说明
图1示出了根据本发明实施例的语音对话系统的框图;
图2示出了应答生成器的结构例子的框图;
图3示出了在例子数据库中记录的例子的简图;
图4示出了由形式应答语句生成器执行处理以产生形式应答语句的简图;
图5示出了向量空间方法的简图;
图6示出了表示输入语句和输入例子的向量的例子;
图7示出了在例子数据库中记录的例子;
图8示出了由实际应答语句生成器执行处理以产生实际应答语句的简图;
图9如上所述,是在对话日志数据库15中记录的对话日志;
图10示出了根据对话日志产生实际应答语句的过程的简图;
图11示出了根据对话日志产生实际应答语句的过程的简图;
图12示出了具有与遗忘曲线类似特征的函数图表;
图13示出了由应答输出控制器执行处理以控制语句的输出的简图;
图14示出了根据本发明实施例的语音合成过程和对话过程的流程图;
图15示出了根据本发明实施例的对话过程的流程图;
图16示出了根据本发明实施例的对话过程的流程图;
图17示出了根据DP匹配方法在输入语句和模型输入语句之间进行匹配的例子;
图18示出了根据DP匹配方法在输入语句和模型输入语句之间进行匹配的例子;
图19示出了主题空间;
图20示出了根据本发明实施例的对话处理的流程图;
图21示出了位于音素边界左边和右边的每两个语境的定义的简图;
图22示出了位于音素边界左边和右边的每两个语境的定义的简图;
图23示出了位于音素边界左边和右边的每两个语境的定义的简图;以及
图24示出了根据本发明实施例的计算机的框图。
具体实施方式
下面将结合附图参考实施例更加详细地描述本发明。
图1示出了根据本发明实施例的语音对话系统。
该语音对话系统包括麦克风1,语音识别器2,控制器3,应答生成器4,语音合成器5和喇叭6,它们被配置得通过声音与用户交互作用。
麦克风1将用户发出的声音(语音)等等以电信号的形式转换成声音信号并且将它提供给语音识别器2。
语音识别器2对麦克风1提供的声音信号执行语音识别并且将作为语音识别结果获得的一系列词(识别结果)提供到控制器3。
在由语音识别器2执行的上述语音识别中,可以根据例如,HMM(隐藏马尔可夫模型)方法或任何其他适当的算法。
从语音识别器2提供到控制器3的语音识别结果可能是一系列词的最可能的识别候选(具有最高的相似性得分)或者可能是最可能的N个识别候选。在下面的讨论中,假设一系列词的最可能的识别候选作为语音识别结果从语音识别器2提供到控制器3。
从语音识别器2提供到控制器3的语音识别结果不必具有一系列词的形式,但是该语音识别结果可以是词表的形式。
语音对话系统除了或代替麦克风1和语音识别器2可以包括键盘,以至于用户可以通过该键盘输入文本数据并且将所输入的文本数据提供到控制器3。
通过执行用户所写字符的字符识别而获得的文本数据或者通过在使用照相机或扫描仪读取的图像上执行光学字符识别(OCR)而获得的文本数据也可以被提供到控制器3。
控制器3负责控制整个语音对话系统。
更特别地,例如,控制器3将控制信号提供到语音识别器2以便控制语音识别器2执行语音识别。控制器3将从语音识别器2输出的语音识别结果作为输入语句提供到应答生成器4以便响应输入语句产生应答语句。控制器3从应答生成器4接收应答语句并且将所接收的应答语句提供到语音合成器5。如果控制器3从语音合成器5接收表示语音合成已经完成的完成通知,则控制器3响应该完成通知执行必要的处理。
该应答生成器4产生作为语音识别结果从控制器3提供的输入语句的应答语句,也就是说,该应答生成器4响应用户的讲话产生文本数据,并且应答生成器4将所产生的应答语句提供到控制器3。
语音合成器5产生与使用诸如通过规则的语音合成的语音合成技术从控制器3提供的应答语句相应的声音信号,并且语音合成器5将合成的声音信号提供到喇叭6。
喇叭6根据从语音合成器5接收的声音信号输出(广播)合成的声音。
除了或代替使用语音合成技术产生声音信号,语音合成器5可以提前存储与典型的应答语句相应的声音数据并且可以播放该声音数据。
除了或代替从喇叭6输出的与从控制器3提供的应答语句相应的声音,应答语句可以显示在显示器上或者可以使用投影仪投影在屏幕上。
图2示出了图1中所示的应答生成器4的内部结构的例子。
在图2中,作为语音识别结果从语音识别器2(图1)提供的输入语句被提供到形式应答语句生成器11。形式应答语句生成器11根据输入语句和存储在例子数据库121,122,...,12I中的例子(语言表达的例子),以及进一步地作为要求根据存储在对话日志数据库15中的对话日志,产生(获得)形式上与输入语句一致的形式应答语句。所合成的形式应答语句被提供到应答输出控制器16。
因此,在目前的实施例中,由形式应答语句生成器11产生的语句(形式应答语句)是基于举例方法的。可选地,形式应答语句生成器11可以通过除了举例方法的其他方法产生应答语句,例如,通过规则方法。在形式应答语句生成器11通过规则产生应答语句的情况下,由规则数据库代替例子数据库12I
例子数据库12I(i=1,2,...,I)存储形式应答语句生成器11使用的例子以便产生至少在形式上与输入语句(讲话)一致的形式应答语句。
存储在例子数据库12I中的例子在类别上与存储在另一个例子数据库12i’中的例子不同。例如,关于问候的例子存储在例子数据库12I中,而关于同意的例子存储在例子数据库12i’中。如上所述,例子的集合根据例子集合的类别被存储在不同的例子数据库中。
在以下的讨论中,例子数据库121,122,...,12I一般被描述为例子数据库12,除非需要相互区分它们。
作为语音识别器2(图1)的语音识别结果被提供并且与提供到形式应答语句生成器11相同的输入语句,被提供到实际应答语句生成器13。实际应答语句生成器13根据输入语句和存储在例子数据库141,142,...,14J中的例子,以及进一步地作为要求根据存储在对话日志数据库15中的对话日志,产生(获得)在内容上与输入语句一致的实际应答语句。所合成的实际应答语句被提供到应答输出控制器16。
因此,在目前的实施例中,由实际应答语句生成器13产生的语句(实际应答语句)是基于举例方法的。可选地,与形式应答语句生成器11相同,实际应答语句生成器13可以通过除了举例的其他方法产生应答语句,例如,通过规则方法。在实际应答语句生成器13通过规则产生应答语句的情况下,用规则数据库代替例子数据库14J
由实际应答语句生成器13使用的例子数据库12J(j=1,2,...,J)存储例子以便产生实际应答语句,也就是说,例子在术语上至少与语句(讲话)的内容一致。
存储在每个例子数据库14J中的每个例子单元包括从谈论特定的主题开始到谈论结束期间产生的一系列讲话。例如,在谈话中,如果发生用于改变主题的短语,诸如“顺便说说”,则该短语可以被认为是新单元的开始。
在以下的说明中,例子数据库141,142,...,14J一般被描述为例子数据库14,除非需要相互区分它们。
对话日志数据库15存储对话日志。更特别地,从应答输出控制器16提供的输入语句以及响应该输入语句最后输出的应答语句(合成的应答语句)之一或二者可以作为对话日志被记录到对话日志数据库15中。如上所述,记录在对话日志数据库15中的对话日志在产生应答语句(形式应答语句或实际应答语句)的过程中根据要求由形式应答语句生成器11或实际应答语句生成器13使用。
应答输出控制器16控制来自形式应答语句生成器11的形式应答语句以及来自实际应答语句生成器13的实际应答语句的输出,以至于与输入语句相应的合成应答语句被输出到控制器3(图1)。更特别地,应答输出控制器16响应通过响应输入语句而产生的形式应答语句和实际应答语句组合的输入语句获得将要被输出的最终应答语句,并且应答输出控制器16将所合成的最终应答语句输出到控制器3。
作为由语音识别器2(图1)执行的语音识别的结果而获得的输入语句也被提供到应答输出控制器16。应答输出控制器16响应输入语句输出最终的应答语句之后,应答输出控制器16将最终的应答语句与输入语句一起提供到对话日志数据库15。从应答输出控制器16提供的输入语句和最终的应答语句作为对话日志被存储在对话日志数据库15中,如前面所述。
图3示出了一个例子,它被存储在例子数据库12中并且由图2中所示的形式应答语句生成器11使用以产生形式应答语句。
以响应输入语句发出的一组输入表达和应答表达的形式描述存储在例子数据库12中的每个例子。
为了使形式应答语句生成器11能够使用存储在例子数据库12中的例子产生形式应答语句,每对应答表达与该对的输入表达相应并且至少在形式上与该对的输入表达一致。
存储在例子数据库12中的应答表达的例子为肯定应答诸如“是的”或“对的”,否定应答诸如“不”或“不,不是”,问候应答诸如“你好”或“欢迎你”,以及在讲话期间施加的词,诸如“啊哈”。输入表达与作为输入表达的应答的在形式上是正常的应答表达相耦合。
图3中所示的例子数据库12可以被创建,例如,如下所述。首先,从诸如因特网上可访问的聊天日志的实际对话的说明中提取适合作为形式应答表达的应答表达。在每个被提取的应答表达之前的表达作为与应答表达相应的输入表达立即被提取,并且用例子数据库12描述输入和应答表达的集合。可选地,可以人工地创建并且用例子数据库12描述输入和应答表达的原始集合。
为了以后在后面描述的匹配处理中使用,存储在例子数据库12中的例子(输入表达和应答表达)以分隔符划分的每个词的形式被描述。在图3所示的例子中,空格被用作分隔符。对于没有用空格将词彼此分开的语言,诸如日语,按规定,在形式应答语句生成器11或应答输出控制器16执行处理期间除去空格。这对于例子数据库14中描述的例子表达也是适用的,后面将参照图7描述该例子数据库14。
在没有用空格将词彼此分开的语言诸如日语的情况下,当执行匹配处理时,例子表达可以以非空格形式存储,并且表达中的词可以用空格相互分开。
注意到,在本发明中,术语“词”用于描述根据便于处理的观点所定义的一系列的字符,而词不用等同于语言学上定义的词。这对于“语句”也是适用的。
现在,参照图4到6,下面描述由图2中所示的形式应答语句生成器11执行的过程以便产生形式应答语句。
如图4中所示,形式应答语句生成器11响应输入语句,根据存储在例子数据库12中的例子产生形式应答语句。
图4示意性地说明了存储在图3所示的例子数据库12中的例子,其中以一组输入表达和相应的应答表达的形式描述每个例子。在下文中,例子中的输入表达和应答表达将分别被称为输入例子和应答例子。
如图4中所示,形式应答语句生成器11将输入语句与存储在例子数据库12中的各个输入例子#1,#2,...,#k,...进行比较并且计算表示每个输入例子#1,#2,...,#k,...相对于输入语句的相似性的得分。例如,如果输入例子#k与输入语句最相似,也就是说,如果输入例子#k具有最高的得分,则如图4所示,形式应答语句生成器11选择与输入例子#k耦合的应答例子#k并且将所选择的应答例子#k作为形式应答语句输出。
因为期待形式应答语句生成器11输出在形式上与输入语句一致的形式应答语句,将由形式应答语句生成器11计算表示输入语句与每个输入例子之间相似性的得分,以至于该得分表示与形式的相似性而不是与内容(主题)的相似性。
为此,例如,形式应答语句生成器11通过使用向量空间方法估算输入语句与各自的输入例子之间的匹配。
向量空间算法是广泛地用于文本查找的方法之一。在向量空间方法中,由向量表示每个语句并且通过与各个语句相应的两个向量之间的角度提供两个语句之间的相似性或距离。
参照图5,描述了根据向量空间方法比较输入语句与模型输入语句的过程。
在此,让我们假设模型输入和应答表达的K个集合被存储在例子数据库12中,并且在K个输入例子之间总共有M个不同的词(同一个词的任何多个出现作为一个词计算)。
在这种情况下,如图5所示,存储在例子数据库12中的每个输入例子可以由具有与各自的M个词#1,#2,...,#M相应的M个元素的向量表示。
在表示输入例子的每个向量中,与第m个词#m(m=1,2,...,M)相应的第m个元素的值表示输入例子中第m个词#m出现的次数。
也可以通过包括M个元素的向量用相似的方法表示输入语句。
如果用Xk表示代表输入例子#k(k=1,2,...,K)的向量,用y表示代表输入语句的向量,并且用θk表示向量Xk和向量y之间的角度,则可以根据下面的等式(1)确定cosθk
cos θ k = X k · y | X k | | y | - - - ( 1 )
其中·表示内积,而|z|表示向量z的模。
当向量Xk的方向和向量y的方向相同时,cosθk具有最大值1,并且当向量Xk的方向和向量y的方向相反时,具有最小值-1。然而,实际上,输入语句的向量y的元素和输入例子#k的向量Xk的元素都是正的或者等于0,因此cosθk的最小值等于0。
在使用向量空间方法的比较过程中,为所有输入例子#k计算cosθk作为得分,并且具有最高得分的输入例子#k被认为是与输入语句最相似的输入例子。
例如,当输入例子#1“This is an example of a description of an inputexample”以及输入例子#2“Describe an input example such that each wordis delimited by a space as shown herein”存储在例子数据库12中时,如果语句“Which one of input example is more similar to this sentence?”作为输入语句给出,则表示各个输入例子#1和#2的向量如图6中所示。
根据图6,输入例子#1的得分,即,cosθ1被计算为6/√23√8=0.442,而输入例子#2的得分,即,cosθ2被计算为2/√19√8=0.162。
因此,在这个具体的例子中,输入例子#1具有最高的得分,因此与输入语句最相似。
在向量空间方法中,如前所述,每个输入语句或者每个输入例子的每个元素的值表示词出现的次数。在下文中,词出现的次数被称为tf(术语频率)。
一般地,当tf被用作向量的每个元素的值时,频繁地出现的词比不频繁出现的词更能影响得分。在日语的情况下,高频率地出现语气动词和助动词。因此,tf的使用能够使输入例子的输入语句中出现的语气动词和助动词控制得分。例如,当语气动词“no”(与英语的“of”相应)在输入语句中高频率地出现时,高频率出现语气动词“no”的输入例子具有较高的得分。
在文本查找中,有时,为了使查找结果不受高频率出现的特殊词的不希望的影响,不用tf而用tf×idf表示向量的每个元素的值,其中的idf是稍后描述的参数。
然而,在日语语句中,语气动词和助动词表示所给语句的格式,因此希望由形式应答语句生成器11在产生形式应答语句的过程中所进行的比较极大地受到输入语句或输入例子中出现的语气动词和助动词的影响。
因此,tf有利地用于形式应答语句生成器11执行的比较过程中。
不用tf作为每个向量元素的值,tf×df(其中的df(文件频率)是稍后将要描述的参数)可以用于增强在形式应答语句生成器11执行的比较过程中语气动词和助动词的影响。
当给出词w以及用于该词的df时,df(w)通过下面的等式(2)给出。
df(w)=log(C(w)+offset)                       (2)
其中的C(w)是出现词w的输入例子的数量,而offset是常量。在等式(2)中,例如,2用作对数(log)的底数。
正如从等式(2)中所看到的,用于词w的df(w)随着出现词w的输入例子的数量的增加而增加。
例如,让我们假设有1023个包括语气动词“no”(与英语的“of”相应)的输入例子,即,C(“no”)=1023。而且,让我们也假设offset=1,并且模型输入语句#k(或输入语句中)中的语气动词“no”的出现次数是2,即,tf=2。在这种情况下,在代表输入例子#k的向量#k中,如果tf被用于表示与词(语气动词)“no”相应的元素的值,则tf=2。如果tf×df被用于表示与词(语气动词)“no”相应的元素的值,则tf×df=2×10=20。
因此,tf×df的使用导致在形式应答语句生成器11执行的比较结果的语句中高频率出现的词的影响力的增强。
如上所述,在目前的实施例中,作为应答表达的形式语句被存储在例子数据库12中,并且形式应答语句生成器11将所给出的输入语句和输入例子进行比较以便确定哪个输入例子在格式上与输入语句最相似,从而产生与输入语句格式一致的应答语句。
注意到,使用tf×df而不是tf作为向量元素的值可以适用于输入例子和输入语句或者可以只适用于输入例子或输入语句。
在上述的例子中,tf×df用于增强词诸如语气动词和助动词的影响力,它表示形式应答语句生成器11执行的比较过程中语句的格式。然而,增强该词影响力的方法并不限定到tf×df的使用。例如,除了与语气动词,助动词,以及表示语句格式的其他词(即,对语句的格式没有贡献的元素被忽略)相应的元素,输入语句或输入例子的向量元素的值可以被设置为0。
在上述的例子中,形式应答语句生成器11根据存储在例子数据库12中的输入语句和例子(输入例子和应答例子)产生作为对输入语句的响应的形式应答语句。在形式应答语句的产生中,该形式应答语句生成器11也可以参考存储在对话日志数据库15中的对话日志。可以用类似的方法执行同样基于对话日志的应答语句的产生以便通过实际应答语句生成器13产生实际应答语句,如稍后将要详细描述的。
图7示出了存储在例子数据库14中的例子,以便图2中所示的实际应答语句生成器13使用以产生实际应答语句。
在例子数据库14中,例如,例子以允许讲话可以被相互区分的形式存储。在图7所示的例子中,例子被存储在例子数据库14中以至于用一个记录(一行)描述一个讲话(一个发言)的表达。
在图7所示的例子中,每个讲话的谈话者和识别讲话的表达序号也与每个记录中讲话的表达一起被描述。该表达序号被按照讲话的次序顺序地分配到每个例子,以及记录按照表达序号的升序被分类。因此,具有表达序号的例子是对具有紧挨着的前一个表达序号的例子的响应。
为了使实际应答语句生成器13使用存储在例子数据库14中的例子产生实际应答语句,每个语句至少应当在内容上与紧挨着的前一个例子一致。
存储在图7中所示的例子数据库14中的例子基于ATR(国际高级电信研究所)旅行会话文集”(http:也可以基于圆桌会议的讨论或会见的记录产生例子。当然,也可以人工创建原始例子。
如前面参照图3所描述的,图7中所示的例子以每个词由空格划界的格式存储。注意,在诸如日语的语言中,不需要划界每个词。
希望例子数据库14中描述的例子被分开以至于对话的一组讲话被存储为一块数据(在一个文件中)。
当例子被描述为每个记录包括图7中所示的一个讲话时,希望记录中的每个讲话是对记录在紧挨着的前一个记录中的讲话的应答。如果执行编辑诸如改变记录的顺序或者删除一些记录,该编辑可以使一些记录变得不再是对紧挨着的前一个记录的应答。因此,当以包括一个讲话的一个记录的格式描述例子时,希望不执行编辑。
另一方面,在描述例子以至于用图3中所示的记录描述一组输入例子和相应的应答例子的情况下,允许执行编辑诸如改变记录的顺序或删除一些记录,因为,编辑之后,任何记录仍然包括一组输入例子和相应的应答例子。
一组输入例子和相应的应答例子,比如图3中所示的,可以使用图7中所示的任意记录中的讲话作为输入例子并且使用紧挨着的后一个记录中的讲话作为应答例子来产生。
现在参照图8,下面描述了由图2中所示的实际应答语句生成器13执行以产生实际应答语句的过程。
图8示意性地示出了存储在例子数据库14中的例子,其中的例子按照讲话的顺序被记录。
实际应答语句生成器13根据存储在例子数据库14中的例子产生实际应答语句作为对输入语句的应答,诸如图8中所示的那些。
如图8中所示,存储在例子数据库14中的例子被描述以至于按照讲话的顺序记录对话中的讲话。
如图8中所示,实际应答语句生成器13比较所给出的输入语句和存储在例子数据库14中的每个例子#1,#2,...,#p-1,#p,#p+1,...,并且计算表示与输入语句有关的每个例子的相似性的得分。例如,如果例子#p与输入语句最相似,即,如果例子#p具有最高的得分,则,如图8所示,实际应答语句生成器13选择例子#p后面紧挨着的例子#p+1并且将所选择的例子#p+1作为实际应答语句输出。
因为实际应答语句生成器13被希望输出在内容上与输入语句一致的实际应答语句,所以应当由实际应答语句生成器13计算表示输入语句与每个例子之间的相似性的得分,以至于该得分不是表示形式的相似性而是表示内容的相似性。
也可以使用上述的向量空间方法执行比较以便根据内容估算输入语句和例子之间的相似性。
当使用向量空间方法执行输入语句与例子之间的比较时,通过tf而不是tf×idf来表示向量的每个元素的值,其中的idf是称为转化文件频率的参数。
对于词w的idf值,idf(w)通过下面的等式(3)给出。
idf ( w ) = log P C ( w ) + offset - - - ( 3 )
其中,P表示例子的总数,C(w)表示出现词w的例子的数量,而offset是常量。等式(3)中,例如,2被用作对数(log)的底数。
如可以从等式(3)中看到的,idf(w)对于只在特殊例子中出现的词w具有较大的值,即,它表示例子的内容(主题),但是idf(w)对于在许多例子中广泛出现的词w诸如语气动词和助动词具有较小的值。
例如,当有1024个包括语气动词“wa”(日语的语气动词在英语中没有对应部分)的例子时,C(wa)被赋予1024。此外,如果offset等于1,例子的总数P为4096,而语气动词“wa”在例子#p中(或在输入语句中)出现的次数为2(即,tf=2),则,在表示例子#p的向量中,当使用tf时,与语气动词“wa”相应的元素的值为2,而当使用tf×idf时为6。
注意,使用tf×idf而不是tf作为向量元素的值可以适用于输入例子和输入语句或者只适用于输入例子或输入语句。
在由实际应答语句生成器13执行的匹配估算中,将表示语句内容的词的贡献提高到得分的方法不限定为tf×idf的使用,也可以通过例如设置表示输入语句和例子的向量元素的值来提高该贡献,以至于与诸如语气动词和助动词的辅助动词而不是诸如名词、动词和形容词的独立词相应的元素被设置为0。
在上述的例子中,实际应答语句生成器13根据存储在例子数据库14中的输入语句和例子产生实际应答语句作为对输入语句的应答。在产生的实际应答语句中,实际应答语句生成器13也可以参考存储在对话日志数据库15中的对话日志。下面描述使用对话日志产生应答语句的方法。举例来说,在下面的讨论中,描述了通过实际应答语句生成器13执行过程以产生实际应答语句。首先,描述记录在对话日志数据库15中的对话日志。
图9示出了存储在图2中所示的对话日志数据库15中的对话日志的例子。
在对话日志数据库15中,例如,在用户与图1所示的语音对话系统之间进行的讲话被记录,以至于每个记录(行)包括一个讲话(发言)。如上所述,对话日志数据库15从应答输出控制器16接收通过执行用户讲话的语音识别而获得的输入语句,也接收作为对输入语句的应答而产生的应答语句。当对话日志数据库15接收输入语句和相应的应答语句时,对话日志数据库15记录这些语句以便一条记录包括一个讲话。
在对话日志数据库15的每个记录中,除了讲话(输入语句或应答语句),还描述了按照讲话的顺序分配给每个讲话的序列号的讲话序号、表示讲话的时间(或日期和时间)的讲话时间以及讲话的谈话者。
如果讲话序号的初始值为1,则图9中所示例子中的对话日志中存在讲话序号从1到r-1的r-1个讲话。在这种情况下,记录在对话日志数据库15中的下一个讲话将具有讲话序号r。
输入语句的讲话时间表示用户进行的讲话被记录为输入语句的时间。应答语句的讲话时间表示从应答输出控制器16输出应答语句的时间。总之,由设置在图1中所示的语音对话系统中的内置时钟(未示出)测量讲话时间。
在对话日志数据库15的每个记录的字段“谈话者(talker)”中,描述了表示讲话的谈话者的信息。也就是说,对于用户讲话的记录被描述为输入语句,在谈话者字段中描述了“用户”。对于描述了应答语句的记录,在谈话者字段中描述“系统”以便表示由图1中所示的语音对话系统输出的讲话。
在对话日志数据库15中,每个记录不需要包括表示讲话序号、讲话时间以及谈话者的信息。在对话日志数据库15中,希望输入语句和对各个输入语句的应答按照与实际产生的输入语句或应答相应的讲话的顺序相同的顺序被记录。
在实际应答语句的产生中,除了存储在例子数据库14中的输入语句和例子,实际应答语句生成器13也可以参考存储在对话日志数据库15中的对话日志。
根据对话日志产生实际应答语句的方法使用记录在对话日志中的最后的讲话。根据对话日志产生实际应答语句的另一种方法使用记录在对话日志中的最后的讲话和前面讲话的特殊序号。
这里让我们假设记录在对话日志中的最后的讲话具有讲话序号r-1。在下文中,具有讲话序号r-1的讲话将简称为讲话#r-1。
图10示出了根据记录在对话日志中的最后的讲话#r-1产生实际应答语句的方法。
在实际应答语句生成器13根据记录在对话日志中的最后的讲话#r-1产生实际应答语句的情况下,实际应答语句生成器13不仅估算输入语句与存储在例子数据库14中的例子#p之间的匹配而且估算前一个例子#p-1与记录在对话日志中的讲话#r-1之间的匹配,如图10所示。
使得分(A,B)表示代表两个语句A与B之间相似性的得分,该得分在比较过程中被计算(例如,该得分由根据等式(1)确定的cosθk给出)。实际应答语句生成器13为该输入语句确定存储在例子数据库14中的例子#p的得分,例如,根据下面的等式(4)。
例子#p的得分=得分(输入语句,例子#p)+α×得分(Ur-1,例子#p-1)(4)其中,Ur-1表示记录在对话日志中的讲话#r-1。在图9所示的例子中,讲话#r-1是底行(记录)中描述的讲话“Year,I am also worried about theweather”。在等式(4)中,α表示分配给讲话#r-1的权(表示被考虑的讲话#r-1的等级)。α被设置为合适的等于或大于0的值。当α被设置为0时,例子#p的得分被确定而不需要考虑记录在对话日志中的讲话#r-1。
实际应答语句生成器13执行比较过程以便根据等式(4)确定记录在例子数据库14中的每个例子#1,#2,...,#p-1,#p,#p+1的得分。实际应答语句生成器13从例子数据库14中选择位于具有最高得分的例子的紧挨着的下一个位置或者从多个具有较高得分的例子中选择的例子的紧挨着的下一个位置处的例子,并且实际应答语句生成器13应用所选择的例子作为输入语句的实际应答语句。例如,图10中,如果根据等式(4)例子#p具有最高的得分,则位于例子#p下面位置处的例子#p+1被选择并且被用作实际应答语句。
等式(4)中,例子#p的总分被赋予得分(输入语句,例子#p)的总和,该总和是与输入语句相关的例子#p的得分,而α得分(Ur-1,例子#p-1)是与讲话#r-1(Ur-1)相关的例子#p-1的系数α加权的得分。然而,总分的确定并不局限于根据等式(4),也可以用其他的方法来确定总分。例如,可以通过任意单调地增加的函数得分(输入语句,例子#p)和α得分(Ur-1,例子#p-1)来提供总分。
图11示出了使用包括最后的讲话和记录在对话日志中的任意数量的前面的讲话的讲话而产生实际应答语句的方法。
在实际应答语句生成器13使用包括最后的讲话#r-1和记录在对话日志中的前面的讲话即讲话#r-1、#r-2、...、#r-D的D个讲话而产生实际应答语句的情况下,该实际应答语句生成器13不仅执行输入语句与记录在例子数据库14中的例子#p之间的比较,而且执行讲话#r-1,#r-2,...,#r-D与例子#p之前的各T个例子即例子#p-1、#p-2、...、#p-D之间的比较。
更特别地,该实际应答语句生成器13确定记录在例子数据库14中的与输入语句相关的例子#p的得分,例如,根据下面的等式(5)。
scoreforexample # p = Σ d = 0 D f ( t r - d ) × score ( u r - d , example # p - d ) - - - ( 5 )
其中,tr-d表示从将讲话#r-1记录到对话日志的时间(图9中所示的讲话时间)到当前的时间所消耗的时间。注意,当d=0,tr=0时。
等式(5)中,f(t)是以自变量t单调递减的非负函数。当t=0时f(t)的值为,例如1。
等式(5)中,Ur-d表示记录在对话日志中的讲话#r-d。注意,当d=0时,Ur表示输入语句。
等式(5)中,D是等于或大于0的整数,并且小于p和r中较小的一个。
该实际应答语句生成器13执行比较过程以便根据等式(5)确定记录在例子数据库14中的每个例子#1,#2,...,#p-1,#p,#p+1的得分。实际应答语句生成器13从例子数据库14中选择位于具有最高得分的例子紧挨着的下面位置的例子或选择位于从多个具有较高得分的例子中选择的例子紧挨着的下面位置的例子,并且实际应答语句生成器13使用所选择的例子作为对输入语句的实际应答语句。例如,图11中,如果根据等式(5)例子#p具有最高的得分,则位于例子#p下面位置的例子#p+1被选择并且被用作实际应答语句。
根据等式(5),通过与输入语句Ur相关的例子#p的得分的总和给出例子#p的总分,即,通过系数1(=f(0))以及与讲话#r-d相关的前一个例子#p-d的得分来加权得分_(Ur,例子#p),即,通过系数f(tr-d加权得分_(Ur-d,例子#p-d)(d=1,2,3,...,D),其中的权f(tr-d随着从讲话#r-d Ur-d的发表到当前的时间所消耗的时间tr-d而减小。等式(5)中,当D设置为0时,例子#p的得分被确定而不需要考虑记录在对话日志中的任何讲话。
图12示出了等式(5)中使用的时间t的函数f(t)的例子。
用所谓的遗忘曲线的模拟来确定图12中所示的函数f(t),该曲线表示存储器记忆衰减的趋势。注意,与低速减小的遗忘曲线相反,图12中所示的函数f(t)以高速减小。
如上所述,通过在实际应答语句的产生中也使用对话日志,计算得分变得可能,以至于当用户发出与刚才的讲话相同的讲话时,与刚才的输入语句相同的输入语句因此被给出,与用作刚才输入语句的应答的例子不同的例子比用作刚才输入语句的应答的例子获得较高的得分,从而返回与刚才的应答语句不同的应答语句。
此外,防止应答语句的主题突然改变也变得可能,该突然改变给用户不自然的感觉。
举例来说,让我们假设有关旅行期间的谈话的例子以及通过编辑谈话节目中的谈话而获得的例子被记录在例子数据库14中。在这种情况下,当上回输出的例子是关于旅行期间谈话的例子之一时,如果通过编辑谈话节目期间的谈话而获得的例子之一被用作这次输出的实际应答语句,则因为主题的突然改变而使用户具有不自然的感觉。
可以通过根据等式(4)或(5)计算与匹配相关的得分而避免上面的问题,以至于在实际应答语句的产生中也使用对话日志,从而防止实际应答语句改变主题。
更特别地,例如,当根据在旅行期间进行谈话的例子中选择的例子产生上回输出的实际应答语句时,如果根据等式(4)或(5)计算得分,则旅行期间谈话的例子一般比通过编辑谈话节目的谈话获得的例子的得分较高,因此可以防止通过编辑谈话节目中的谈话而获得的例子之一这次作为实际应答语句被选择输出。
当用户发出表示要改变主题的讲话时,诸如“不改变主题”等等,应答生成器4(图2)可以删除记录在对话日志数据库15中的对话日志,以便任何以前的输入语句或应答语句将不再影响以下的应答语句。
参照图13,下面描述了由图2中所示的应答输出控制器16执行的过程以便控制形式应答语句和实际应答语句的输出。
如上所述,应答输出控制器16从形式应答语句生成器11接收形式应答语句并且从实际应答语句生成器13接收实际应答语句。应答输出控制器16将所接收的形式应答语句和实际应答语句结合为响应输入语句的最终的格式,并且该应答输出控制器16将所合成的最终的应答语句输出到控制器3。
更特别地,例如,应答输出控制器16按照这个次序顺序地输出响应输入语句所产生的形式应答语句和实际应答语句,结果,因此将形式应答语句和实际应答语句的结合作为最终的应答语句输出。
更特别地,例如,如图13中所示,如果“I hope it will be fine tomorrow”被作为输入语句提供到形式应答语句生成器11和实际应答语句生成器13,则形式应答语句生成器11产生,例如,格式与输入语句“I hope it will befine tomorrow”一致的形式应答语句“I hope so,too”,而实际应答语句生成器13产生,例如,内容与输入语句“I hope it will be fine tomorrow”一致的实际应答语句“I’m al so worried about the weather”。此外,形式应答语句生成器11将形式应答语句“I hope so,too”提供到应答输出控制器16,而实际应答语句生成器13提供实际应答语句“I hope it will befine tomorrow”。
在这种情况下,应答输出控制器16通过控制器3按照与它们被接收时的顺序相同的顺序将从形式应答语句生成器11接收的形式应答语句“I hope so,too”以及从实际应答语句生成器13接收的实际应答语句“I hope it will befine tomorrow”提供到语音合成器5(图1)。语音合成器5顺序地合成形式应答语句“I hope so,too”和实际应答语句“I hope it will be finetomorrow”的声音。结果,所合成的声音“I hope so,too.I hope it willbe fine tomorrow”作为对输入语句“I hope it will be fine tomorrow”最终的应答从喇叭6输出。
参照图13所描述的例子中,应答输出控制器16顺序地输出响应输入语句按照这个顺序所产生的形式应答语句和实际应答语句,从而以形式应答语句和实际应答语句的结合的格式输出最终的应答语句。可选地,应答输出控制器16可以按照相反的顺序输出形式应答语句和实际应答语句,从而以形式应答语句和实际应答语句的相反顺序的组合的格式输出最终的应答语句。
有关形式应答语句和实际应答语句之一应当被首先输出的决定可以,例如,根据表示响应输入语句的合适程度的应答得分进行。更特别地,每个形式应答语句和实际应答语句的应答得分被确定,并且具有较高得分的一个被首先输出而具有较低得分的另一个下一个被输出。
可选地,应答输出控制器16只可以输出形式应答语句和实际应答语句中具有较高得分的一个,作为最终的应答语句。
应答输出控制器16可以输出形式应答语句和/或实际应答语句,以至于当形式应答语句和实际应答语句的得分都比预定的门限值高时,形式应答语句和实际应答语句都按照正常的或者相反的顺序被输出,而当只有形式应答语句和实际应答语句之一比预定的门限值高时,仅仅输出具有较高得分的而不是其他的形式应答语句和实际应答语句之一。在形式应答语句和实际应答语句的得分都比预定的门限值低的情况下,预定的语句诸如表示语音对话系统不能理解用户所说的话的语句或者要求用户以不同的方式再说一遍的语句可以作为最终的应答语句被输出而不输出该形式应答语句和该实际应答语句。
可以通过根据输入语句和例子之间的匹配程度所确定的得分来给出应答得分。
现在,参照图14中所示的流程图,描述图1中所示的语音对话系统的操作。
在图14中所示的操作中,应答输出控制器16按照这个顺序顺序地输出形式应答语句和实际应答语句,以至于形式应答语句和实际应答语句的正常顺序的组合作为对输入语句的最终的应答被输出。
由语音对话系统执行的过程主要包括对话过程和语音合成过程。
在对话过程的第一步S1中,语音识别器2等待用户说话。如果用户说话,则语音识别器2执行通过麦克风1输入的声音的语音识别。
用户在等于或大于预定值的时间内没有说话的情况下,语音对话系统可以从喇叭6输出诸如“Please say something”信息的合成语音以便提示用户说话或者可以将该信息显示在显示器(未示出)上。
在步骤S1中,如果语音识别器2执行用户发出并通过麦克风1输入的声音的语音识别,则语音识别器2将以一连串词的格式的语音识别结果作为输入语句提供到控制器3。
不是必须通过语音识别给出输入语句,可以用其他的方法给出输入语句。例如,用户可以操作键盘等等来输入语句。在这种情况下,控制器3将输入语句划分成词。
如果控制器3接收输入语句,则控制器3从步骤S1前进到步骤S2。步骤S2中,控制器3分析输入语句以便确定是否结束对话过程。
如果在步骤S2中确定不用结束对话过程,则控制器3将输入语句提供到应答生成器4(图2)中的形式应答语句生成器11和实际应答语句生成器13。此后,控制器3将过程前进到步骤S3。
在步骤S3中,形式应答语句生成器11响应输入语句产生形式应答语句并且将合成的形式应答语句提供到应答输出控制器16。此后,过程转到步骤S4。更特别地,例如,当“I hope it will be fine tomorrow”作为输入语句给出时,如果“I hope so,too”被产生作为该输入语句的形式应答语句,该形式应答语句从形式应答语句生成器11被提供到应答输出控制器16。
在步骤S4中,应答输出控制器16通过控制器3(图1)将从形式应答语句生成器11接收的形式应答语句输出到语音合成器5。此后,过程转到步骤S5。
在步骤S5中,实际应答语句生成器13响应输入语句产生实际应答语句并且将合成的实际应答语句提供到应答输出控制器16。此后,过程转到步骤S6。更特别地,例如,当“I hope it will be fine tomorrow”被作为输入语句给出时,如果“I’m also worried about the weather”作为输入语句的实际应答语句被产生,则将该实际应答语句从实际应答语句生成器13提供到应答输出控制器16。
在步骤S6中,输出步骤S4中的形式应答语句之后,应答输出控制器16通过控制器3(图1)将从实际应答语句生成器13接收的实际应答语句输出到语音合成器5。此后,过程转到步骤S7。
也就是说,如图14所示,应答输出控制器16将从形式应答语句生成器11接收的形式应答语句输出到语音合成器5,然后,在形式应答语句之后,该应答输出控制器16将从实际应答语句生成器13接收的实际应答语句输出到语音合成器5。在当前的例子中,“I hope so,too”作为形式应答语句被产生而“I’m also worried about the weather”作为实际应答语句被产生,因此,通过将实际应答语句连接到形式应答语句的末尾而获得的语句,即,“I hope so,too.I’m also worried about the weather”,被从应答输出控制器16输出到语音合成器5。
在步骤S7中,应答输出控制器16更新记录在对话日志数据库15中的对话日志。此后,过程返回到步骤S1,而过程从步骤S1重复。
更特别地,在步骤S7中,输入语句以及响应输入语句输出的最终的应答语句,即,形式应答语句和实际应答语句的正常顺序的组合,被提供到对话日志数据库15。如果具有讲话序号r-1的讲话是记录在对话日志数据库15中的最后的讲话,则对话日志数据库15将从应答输出控制器16提供的输入语句记录为具有讲话序号r的讲话并且也将从应答输出控制器16提供的合成的应答语句记录为具有讲话序号r+1的讲话。
更特别地,例如,当“I hope it will be fine tomorrow”作为输入语句给出,而“I hope so,too.I’m also worried about the weather”作为通过将实际应答语句连接到形式应答语句的末尾而产生的最终的应答语句被输出时,输入语句“I hope it will be fine tomorrow”被记录为对话日志数据库15中具有讲话序号r的讲话,而合成的应答语句“I hope so,too.I’m also worried about the weather”进一步被记录为具有讲话序号r+1的讲话。
另一方面,在步骤S2确定对话过程应当结束的情况下,即,在诸如“Let’s end our talk”的语句或表示谈话结束的类似的语句作为输入语句给出的情况下,该对话过程结束。
在该对话过程中,如上所述,响应输入语句在步骤S3中产生形式应答语句,并且在步骤S4中该形式应答语句从应答输出控制器16输出到语音合成器5。此外,步骤S5中,产生与输入语句相应的实际应答语句,而在步骤S6中该实际应答语句从应答输出控制器16输出到语音合成器5。
如果在对话过程中形式应答语句或实际应答语句从应答输出控制器16被输出,则语音合成器5(图1)开始该语音合成过程。注意,语音合成过程与对话过程被同时执行。
在语音合成过程的第一步S11中,语音合成器5接收从应答输出控制器16输出的形式应答语句或实际应答语句。此后,过程转到步骤S12。
步骤S12中,语音合成器5根据步骤S11中接收的形式应答语句或实际应答语句执行语音的合成以便合成与形式应答语句或实际应答语句相应的声音。该合成的声音从喇叭6(图1)被输出。如果声音的输出被完成,则语音合成过程结束。
在对话过程中,如上所述,步骤S4中的形式应答语句从应答输出控制器16输出到语音合成器5,而此后,步骤S6中,实际应答语句从应答输出控制器16输出到语音合成器5。在语音合成过程中,如上所述,每次接收应答语句时,与所接收的应答语句相应的声音被合成并且输出。
更特别地,在“Ihope so,too”作为形式应答语句被产生而“I’m alsoworried about the weather”作为实际应答语句被产生的情况下,形式应答语句“I hope so,too”和实际应答语句“I’m also worried about the weather”按照这个顺序从应答输出控制器16输出到语音合成器5。语音合成器5按照这个顺序合成与形式应答语句“I hope so,too”和实际应答语句“I’m alsoworried about the weather”相应的声音。结果,所合成的声音“I hope so,too.I’m also worried about the weather”被从喇叭6输出。
在对话过程和语音合成过程不能并行执行的情况下,在对话过程的步骤S4和S5之间的步骤中,语音合成器5执行与步骤S4中从应答输出控制器16输出的形式应答语句相关的语音合成过程,而在对话过程的步骤S6和S7之间的步骤中,执行与步骤S6中从应答输出控制器16输出的实际应答语句相关的语音合成过程。
在当前的实施例中,如上所述,分别提供形式应答语句生成器11和实际应答语句生成器13,并且通过形式应答语句生成器11和实际应答语句生成器13按照上述的方式分别产生形式应答语句和实际应答语句。因此,可以获得格式与输入语句一致的形式应答语句并且也可以获得内容与输入语句一致的实际应答语句。此外,形式应答语句和实际应答语句的输出由应答输出控制器16来控制,以便输出格式和内容都与输入语句一致的最终的应答语句。这可以使用户具有系统理解用户所说的话的感觉。
此外,因为独立地执行通过形式应答语句生成器11的形式应答语句的产生以及通过实际应答语句生成器13的实际应答语句的产生,如果语音合成器5能够与形式应答语句生成器11或实际应答语句生成器13执行的过程同时执行与从应答输出控制器16输出的形式应答语句或实际应答语句相关的语音合成,则实际应答语句生成器13可以产生实际应答语句,而由形式应答语句生成器11产生的形式应答语句的被合成的声音被输出。这可以降低从用户给出输入语句到开始输出应答语句的应答时间。
当形式应答语句生成器11和实际应答语句生成器13根据例子分别产生形式应答语句和实际应答语句时,与根据词来表示输入语句的内容(主题)的实际应答语句的产生中所使用的例子相比,不用为根据词来确定输入语句的格式(即,它在格式上与输入语句一致)的形式应答语句的产生准备大量的例子。
鉴于上述内容,在形式应答语句的产生中所使用的例子的序号与实际应答语句的产生中所使用的例子的序号的比率被设置为,例如,1∶9。这里,为了下面的解释的简单化,让我们假设需要产生应答语句的时间简单地与应答语句的产生中所使用的例子的序号成比例。在这种情况下,根据为形式应答语句的产生所准备的例子以及为实际应答语句的产生所准备的例子,产生形式应答语句所需的时间是产生应答语句所需时间的十分之一。因此,如果在形式应答语句的产生完成之后立即输出形式应答语句,则应答时间可以降低到输出形式应答语句所需时间的十分之一,而形式应答语句和实际应答语句都产生后实际应答语句被完成。
在对话中,这可以实时地或很快地响应输入语句。
在语音识别器5不能与形式应答语句生成器11或实际应答语句生成器13执行的过程并行执行应答输出控制器16输出的形式应答语句或实际应答语句的语音识别的情况下,当形式应答语句生成器11完成形式应答语句的产生时,语音合成器5执行形式应答语句的语音合成,此后,当实际应答语句生成器13完成实际应答语句的产生时,语音合成器5执行实际应答语句的语音合成。可选地,在形式应答语句和实际应答语句被顺序产生之后,语音合成器5顺序执行形式应答语句和实际应答语句的语音合成。
除了输入语句和例子,在实际应答语句的产生中使用对话日志不但可以防止实际应答语句内容(主题)的突然改变,而且可以为同一个输入语句产生不同的实际应答语句。
现在,参照图15中所示的流程图,根据本发明的另一个实施例描述了语音对话系统执行的对话过程。
图15中所示的对话过程除了附加的步骤S26之外与图14中所示的对话过程相似。也就是说,在图15所示的对话过程中,步骤S21到S25以及步骤S27和28以与图14所示的对话过程的步骤S1到S7相似的方式被分别执行。然而,图15中所示的对话过程与图14中所示的对话过程不同,因为在与图14的步骤S5相应的步骤S25完成之后,步骤S26被执行,并且此后,执行与图14的步骤S6相应的步骤S27。
也就是说,图15所示的对话过程中,在步骤S21中,如图14中所示的步骤S1,语音识别器2等待用户说话。如果用户说了话,则该语音识别器2执行语音识别以检测用户说了什么,并且语音识别器2将语音识别结果以一连串词的形式作为输入语句提供到控制器3。如果控制器3接收了输入语句,则控制器3将过程从步骤S21前进到步骤S22。在步骤S22中,如图14中所示的步骤S2,控制器3分析输入语句以便确定是否结束对话过程。如果步骤S22中确定需要结束对话过程,则该对话过程被结束。
如果在步骤S22中确定不应该结束该对话过程,则控制器3将输入语句提供到应答生成器4(图2)中的形式应答语句生成器11和实际应答语句生成器13。此后,控制器3将过程前进到步骤S23。在步骤S23中,形式应答语句生成器11响应输入语句产生形式应答语句并且将合成的形式应答语句提供到应答输出控制器16。此后,过程转到步骤S24。
在步骤S24中,应答输出控制器16通过控制器3(图1)将从形式应答语句生成器11接收的形式应答语句输出到语音合成器5。此后,过程转到步骤S25。在应答中,如参照图14在上面所描述的,该语音合成器5执行与形式应答语句相关的语音合成。
在步骤S25中,实际应答语句生成器13响应输入语句产生实际应答语句并且将所合成的实际应答语句提供到应答输出控制器16。然后过程转到步骤S26。
在步骤S26中,应答输出控制器16确定从实际应答语句生成器13接收的实际应答语句是否与紧挨着的先前的步骤S24中输出到语音合成器5(图1)的形式应答语句重叠,即,从实际应答语句生成器13接收的实际应答语句是否包括紧挨着的先前的步骤S24中输出到语音合成器5的形式应答语句。如果该实际应答语句包括形式应答语句,则与形式应答语句相同的实际应答语句的部分从实际应答语句中删除。
更特别地,例如,当形式应答语句为“Yes.”而实际应答语句为“Yes,I’m also worried about the weather”时,如果根据图14中所示的流程执行对话过程,则“Yes.Yes,I’m also worried about the weather”作为最终的应答被输出,它是实际应答语句和形式应答语句的简单连接。作为实际应答语句和形式应答语句简单连接的结果,“Yes”在最终的应答中重复。
在对话过程中,为了避免上述问题,在步骤S26中,检查从实际应答语句生成器13提供的实际应答语句是否包括在紧挨着的先前的步骤S24中输出到语音合成器5的形式应答语句。如果实际应答语句包括该形式应答语句,那么与形式应答语句相同的实际应答语句的部分从实际应答语句中删除。更特别地,在形式应答语句为“Yes.”而实际应答语句为“Yes,I’m also worriedabout the weather”的情况下,实际应答语句“Yes,I’m also worried aboutthe weather”包括与形式应答语句“Yes”相同的部分,因此该相同的部分“Yes”从实际应答语句中删除。因此,实际应答语句被修改为“I’m alsoworried about the weather”。
在实际应答语句不包括整个形式应答语句但是实际应答语句与形式应答语句部分地相互重叠的情况下,在上述的步骤S26中重叠部分可以从实际应答语句中删除。例如,当形式应答语句为“Yes,indeed”而实际应答语句为“Indeed,I’m also worried about the weather”时,形式应答语句“Yes,indeed”不完全包括在实际应答语句“Indeed,I’m also worried about theweather”中,但是形式应答语句的最后一部分“indeed”与实际应答语句的第一部分“Indeed”相同。因此,在步骤S26中,该重叠部分“Indeed”从实际应答语句“Indeed,I’m also worried about the weather”中删除。结果,实际应答语句被修改为“I’m also worried about the weather”。
当实际应答语句不包括与形式应答语句重叠的部分时,在步骤S26中维持实际应答语句而不作任何修改。
在步骤S26之后,处理转到步骤S27,在该步骤中应答输出控制器16通过控制器3(图1)将从实际应答语句生成器13接收的实际应答语句输出到语音合成器5。此后,过程转到步骤S28。在步骤S28中,如图4中的步骤S7,应答输出控制器16通过将输入语句以及响应输入语句输出的最终应答语句额外地记录到对话日志数据库15的对话日志中而更新对话日志。此后,处理返回到步骤S21,并且该处理从步骤S21重复。
在图15所示的对话处理中,如上所述,在步骤S26中,与形式应答语句部分或全部一致的实际应答语句的部分从实际应答语句中被删除,而不再包括重叠部分的合成的实际应答语句被输出到语音合成器5。这防止了输出包括诸如“Yes.Yes,I’m also worried about the weather”或“Yes,indeed.Indeed,I,m also worried about the weather”的重复部分的不自然的合成语音(应答)。
更特别地,例如,当形式应答语句为“Yes.”而实际应答语句为“Yes,I’m also worried about the weather”时,如果根据图14中所示的流程执行对话过程,则“Yes.Yes,I’m also worried about the weather”作为最终的应答被输出,它是实际应答语句和形式应答语句的简单连接。作为实际应答语句和形式应答语句简单连接的结果,“Yes”在最终的应答中重复。当形式应答语句为“Yes,indeed”而实际应答语句为“Indeed,I’m also worriedabout the weather”时,根据图14所示的流程的对话过程将产生“Yes,indeed.Indeed,I,m also worried about the weather”作为最终的应答,其中的“indeed”被重复。
相反,在图15所示的对话过程中,检查实际应答语句是否包括与部分或全部的形式应答语句一致的部分(重叠部分),如果检测到重叠部分,则从实际应答语句中删除该重叠部分。因此,可以防止输出包括重复部分的不自然的合成语言。
更特别地,例如,当形式应答语句为“Yes”而实际应答语句为“Yes,I’m also worried about the weather”(包括整个形式应答语句“Yes”)时,在步骤S26中,该重叠部分“Yes”从实际应答语句“Yes,I’m also worriedabout the weather”中被删除。结果,该实际应答语句被修改为“I’m alsoworried about the weather”。因此,合成的合成语言变为“Yes,I’m alsoworried about the weather”,它是形式应答语句“Yes”以及被修改的不再包括重叠部分“Yes”的实际应答语句“I’m also worried about the weather”的结合。
当形式应答语句为“Yes,indeed”而实际应答语句为“Indeed,I’m alsoworried about the weather”(其中的“Indeed”是与形式应答语句重叠的部分)时,在步骤S26中,重叠部分“Indeed”从实际应答语句“Indeed,I’m also worried about the weather”中被删除。结果,该实际应答语句被修改为“I’m also worried about the weather”。因此,合成的合成语言变为“Yes,indeed,I’m also worried about the weather”,它是形式应答语句“Yes,indeed”以及被修改的不再包括重叠部分“Indeed”的实际应答语句“I’m also worried about the weather”的结合。
当形式应答语句和实际应答语句包括重叠部分时,重叠部分可以不从实际应答语句而从形式应答语句中删除。然而,在图15所示的对话过程中,因为是在形式应答语句已经在步骤S24中从应答输出控制器16输出到语音合成器5之后,才在步骤S26中执行重叠部分的删除,所以不可能从形式应答语句中删除该重叠部分。
为了可以从形式应答语句中删除重叠部分,对话过程被修改为图16中所示的流程图。
在图16所示的对话过程中,在步骤S31中,如图14中所示的步骤S1,语音识别器2等待用户说话。如果用户说话,则语音识别器2执行语音识别以检测用户说了什么,并且语音识别器2将具有一连串词格式的语音识别结果作为输入语句提供到控制器3。如果控制器3接收了该输入语句,则控制器3将过程从步骤S31前进到步骤S32。在步骤S32中,如图14中所示的步骤S2,控制器3分析输入语句以确定该对话过程是否应当被结束。如果在步骤S32中确定对话过程应当被结束,则该对话过程被结束。
如果在步骤S32中确定不结束对话过程,则控制器3将输入语句提供到应答生成器4(图2)中的形式应答语句生成器11和实际应答语句生成器13。此后,控制器3将过程前进到步骤S33。在步骤S33中,形式应答语句生成器11响应输入语句产生形式应答语句并且将合成的形式应答语句提供到应答输出控制器16。此后,过程转到步骤S34。
在步骤S34中,实际应答语句生成器13响应输入语句产生实际应答语句并且将合成的实际应答语句提供到应答输出控制器16。此后,过程转到步骤S35。
注意,步骤S33和S34可以并行执行。
在步骤S35中,应答输出控制器16通过结合步骤S33中由形式应答语句生成器11产生的形式应答语句以及步骤S34中由实际应答语句生成器13产生的实际应答语句而产生最终的语句作为对输入语句的应答。此后,过程转到步骤S36。稍后将详细描述步骤S35中执行的结合形式应答语句和实际应答语句的过程。
在步骤S36中,应答输出控制器16通过控制器3(图1)将步骤S35中通过结合形式应答语句和实际应答语句产生的最终的应答语句输出到语音合成器5。此后,过程转到步骤S37。语音合成器5采用与结合图14在前面描述的语音合成过程相同的方式执行语音合成,以便产生与应答输出控制器16提供的最终的应答语句相应的声音。
在步骤S37中,应答输出控制器16以与图14中的步骤S7相同的方式,通过将输入语句以及作为对输入语句的应答而输出的最终的应答语句额外地记录到对话日志数据库15的对话日志中而更新该对话日志。此后,过程返回到步骤S31,过程从步骤S31重复。
在图16所示的对话过程中,根据下面描述的第一到第三种方法之一,在步骤S35中通过结合形式应答语句和实际应答语句产生输入语句的最终的应答语句。
在第一种方法中,通过将实际应答语句结合到形式应答语句的末尾或者通过将形式应答语句结合到实际应答语句的末尾而产生最终的应答语句。
在第二种方法中,检查形式应答语句和实际应答语句是否满足预定条件,下面将参照第六修改例进一步详细地描述。
在第二种方法中,当形式应答语句和实际应答语句都满足预定条件时,通过将实际应答语句结合到形式应答语句的末尾或者将形式应答语句结合到实际应答语句的末尾而产生最终的应答语句,如同第一种方法。另一方面,当只有形式应答语句和实际应答语句之一满足预定条件时,满足预定条件的形式应答语句或实际应答语句被用作最终的应答语句。在形式应答语句和实际应答语句都不满足预定条件的情况下,语句“I have no good answer”或相似的语句被用作最终的应答语句。
在第三种方法中,使用机器翻译领域中根据短语到短语的翻译结果产生语句的公知技术从形式应答语句和实际应答语句产生最终的应答语句。
在第一种方法或第二种方法中,当形式应答语句和实际应答语句被连接时,可以从产生最终应答语句的过程中删除形式应答语句和实际应答语句之间的重叠部分,如图15中所示的对话过程。
在图16所示的对话过程中,如上所述,在形式应答语句和实际应答语句被结合之后,所合成的语句被作为最终应答语句从应答输出控制器16输出到语音合成器5。因此,可以从形式应答语句和实际应答语句两者之一删除重叠部分。
在形式应答语句和实际应答语句包括重叠部分的情况下,代替从形式应答语句或实际应答语句删除重叠部分,应答输出控制器16可以忽略形式应答语句并且可以简单地只输出实际应答语句作为最终的应答语句。
通过忽略形式应答语句以及简单地只输出实际应答语句作为最终的应答语句,也可以防止合成的语音包括不自然的重复部分,如参照图15在上面描述的。
更特别地,例如,当形式应答语句为“Yes”而实际应答语句为“Yes,I’m also worried about the weather”时,如果忽略形式应答语句而仅仅输出实际应答语句作为最终的应答语句,则“Yes,I’m also worried about theweather”作为最终的应答语句被输出。在这个具体的例子中,如果按照这个顺序简单地连接形式应答语句“Yes”和实际应答语句“Yes,I’m also worriedabout the weather”,则合成的最终应答语句“Yes。Yes,I’m also worriedabout the weather”包括不自然的重复的词“Yes”。通过忽略形式应答语句来防止这种不自然的表达。
当形式应答语句为“Yes,indeed”而实际应答语句为“Indeed,I’m alsoworried about the weather”时,如果忽略形式应答语句并且仅仅输出实际应答语句作为最终的应答语句,则“Yes,indeed.I’m also worried aboutthe weather”作为最终的应答语句被输出。在这个具体的例子中,如果按照这个顺序简单地连接形式应答语句“Yes,indeed”和实际应答语句“Indeed,I’m also worried about the weather”,则合成的最终应答语句“Yes,indeed.Indeed,I’m also worried about the weather”包括不自然的重复的词“indeed”。通过忽略形式应答语句来防止该不自然的表达。
在图16所示的对话过程中,形式应答语句和实际应答语句都被产生之后,应答输出控制器16通过结合形式应答语句和实际应答语句来产生最终的应答语句,并且应答输出控制器16将最终的应答语句输出到语音合成器5。因此,有从用户给出输入语句到开始输出应答语句的应答时间变得比图14或15中所示的对话过程的应答时间长的可能性,图14或15中形式应答语句的语音合成以及实际应答语句的产生被并行执行。
然而,图16所示的对话过程具有形式应答语句和实际应答语句都被产生之后,应答输出控制器16将形式应答语句和实际应答语句结合为应答语句的最终格式的优点,这可以在结合过程中任意修改形式应答语句和实际应答语句的任意一个或者两者。
现在,描述图1所示的语音对话系统的第一到第十修改例。首先,非常简单地描述第一到第十修改例,此后,详细地描述每个修改例。
在第一修改例中,使用动态编程(DP)匹配方法执行用于确定例子与输入语句的相似性的比较,而不用向量空间方法。在第二修改例中,实际应答语句生成器13使用具有最高得分的例子作为实际应答语句,而不使用具有最高得分的例子的下面位置处的例子。在第三修改例中,图1中所示的语音对话系统的特征在于只使用特定谈话者的讲话作为应答语句的产生中使用的例子。在第四修改例中,在输入语句与例子之间的匹配得分的计算中,根据例子的组加权得分以至于与目前的主题相关的例子被优先地选择为应答语句。在第五修改例中,根据每个都包括一个或多个变量的例子产生应答语句。在第六修改例中,确定形式应答语句或实际应答语句是否满足预定条件,并且输出满足预定条件的形式应答语句或实际应答语句。在第七修改例中,为语音识别结果计算信心度量,并且考虑该信心度量产生应答语句。在第八修改例中,在应答语句的产生中对话日志也被用作例子。在第九修改的实施例中,根据N个最好的语音识别候选者中的每个的可能性(表示可能性的得分)并且也根据每个例子和每个语音识别候选者之间匹配的得分确定应答语句。在第十修改例中,根据用户语音的声学特征产生形式应答语句。
下面进一步详细地描述第一到第十修改例。
第一修改例
在第一修改例中,在由实际应答语句生成器13执行以确定输入语句的例子的相似性的比较处理中,动态编程(DP)匹配方法被用来代替向量空间方法。
该DP匹配方法被广泛用来计算彼此在元素的数量上不同(在长度上不同)的两个模式之间的距离测量,同时考虑了每个模式的相似元素之间的对应关系。
输入语句和例子是一连串元素的格式,其中元素是词。因此,DP匹配方法能够用来计算输入语句和例子之间的距离测量,同时考虑了包括在输入语句和例子中的相似词之间的对应关系。
参见图17,根据DP匹配方法在输入语句和例子之间进行的匹配的评估处理将在下面描述。
图17示出了在输入语句和例子之间DP匹配的例子。
在图17的上方,显示了输入语句“I will go out tomorrow”和例子“Iwant to go out the day after tomorrow”之间DP匹配的结果的例子。在图17的下方,显示了输入语句“Let’s play soccert omorrow”和例子“Whatshall we play tomorrow?”之间DP匹配的结果的例子。
在DP匹配中,输入语句中的每个词与例子中的对应词进行比较并保持词的顺序,并且评估每个词与其对应词之间的对应关系。
有四种类型的对应关系:正确对应(C),替换(S),插入(I)和删除(D)。
正确对应C是指输入语句中的词与例子中的对应词之间的精确匹配。替换S是指输入语句中的词与例子中的对应词彼此不同的对应关系。插入I是指输入语句中没有词相应于例子中的词的对应关系(即,该例子包括没有包括在输入语句中的附加词)。删除D是指例子中没有包括相应于输入语句中的词的对应词的对应关系(即,例子中缺少包括在输入语句中的词)。
每一对对应词被标以符号C、S、I和D中的一个,以便指示由DP匹配确定的对应关系。如果不是C的符号被标注给一特殊对的对应词,即,如果S、I和D中的一个被标注,那么在输入语句和例子中就有一些区别(在词上或词的顺序上)。
在输入语句和例子之间的匹配被DP匹配方法评估的情况下,权被分配给输入语句和例子的每个词以表示在该匹配中每个词有多重要。1可以作为权分配给所有词,或者,分配给每个词的权可以彼此不同。
图18示出了在除了权被分配给输入语句和例子的每个词之外其它与图17所示的例子相似的输入语句和例子之间DP匹配的结果的例子。
在图18的上方,显示了与图17的上方示出的那些相似的输入语句和例子之间DP匹配的结果的例子,其中,权被分配给输入语句和例子的每个词。在图18的下方,显示了与图17的下方示出的那些相似的输入语句和例子之间DP匹配的结果的例子,其中,权被分配给输入语句和例子的每个词。
图18中,位于输入语句和例子的每个词末尾的跟在冒号后面的数字表示分配给该词的权。
在由形式应答语句生成器11执行的匹配处理中,为了正确地产生形式应答语句,大权应当分配给语气动词、助动词或类似的确定语句格式的词。另一方面,在由实际应答语句生成器13执行的匹配处理中,为了正确地产生实际应答语句,大权应当被分配给代表语句的内容(主题)的词。
因此,在由形式应答语句生成器11执行的匹配处理中,希望用于输入语句的词的权例如由df给出,而用于例子的词的权被设置为1。另一方面,在由实际应答语句生成器13执行的匹配处理中,希望用于输入语句的词的权例如由idf给出,而用于例子的词的权被设置为1。
然而,在图18中,为了说明的目的,用于输入语句的词的权由df给出,而用于例子的词的权由idf给出。
当输入语句和例子之间的匹配被评估时,需要引用指示输入语句和例子彼此之间多么相似的评估标准(或它们彼此之间多么不同)。
在语音识别的匹配处理中,称为正确性和精确性的评估标准是已知的。在文本搜索的匹配处理中,称为精密度的评估标准是已知的。
这里,用于在使用DP匹配方法的输入语句和例子之间的匹配处理中使用的评估标准,根据正确性、精确性和精密度的类推被引入。
该评估标准的正确性、精确性和精密度由等式(6)到(8)分别给出。
Figure A20051010383200391
Figure A20051010383200392
Figure A20051010383200393
在等式(6)到(8)中,CI表示分配给对应关系中被评估为C(正确)的输入语句的词的权的总和,SI表示分配给对应关系中被评估为S(替换)的输入语句的词的权的总和,DI表示分配给对应关系中被评估为D(删除)的输入语句的词的权的总和,Co表示分配给对应关系中被评估为C(正确)的例子的词的权的总和,So表示分配给对应关系中被评估为S(替换)的例子的词的权的总和,Io表示分配给对应关系中被评估为I(插入)的例子的词的权的总和。
当所有词的权被设置为1时,CI等于输入语句中被评估为C(正确)的词的数量,SI等于输入语句中被评估为S(替换)的词的数量,DI等于输入语句中被评估为D(删除)的词的数量,Co等于例子中被评估为C(正确)的词的数量,So等于例子中被评估为S(替换)的词的数量,Io等于例子中被评估为I(插入)的词的数量。
在图18上方所示的与DP匹配关联的例子中,根据等式(9)计算CI,SI,DI,Co,So和Io,因此正确性、精确性和精密度由等式(10)给出。
CI=5.25+5.11+5.01+2.61=17.98
SI=4.14
DI=0
Co=1.36+1.49+1.60+4.00=8.45
So=2.08
                                            (9)
正确性=81.3(%)
精确性=14.2(%)
精密度=48.3(%)
                                   (10)
在图18下方所示的与DP匹配关联的例子中,根据等式(11)计算CI,SI,DI,Co,So和Io,因此正确性、精确性和精密度由等式(12)给出。
Ci=4.40+2.61=7.01
SI=1.69
DI=2.95
Co=2.20+4.00=6.2
So=2.39
Io=4.91+1.53=6.44
                                    (11)
正确性=60.2(%)
精确性=-2.3(%)
精密度=41.3(%)
                                    (12)
3种评估标准的正确性、精确性和精密度中的任何一种可以用来作为指示输入语句和例子之间相似性的得分。然而,如上所述,希望用于例子的词的权被设置为1,用于由形式应答语句生成器11执行的匹配处理中的输入语句的词的权由df给出,而用于由实际应答语句生成器13执行的匹配处理中的输入语句的词的权由idf给出。在这种情况下,希望正确性、精确性和精密度的精确性用来作为指示输入语句和例子之间相似性的得分。这允许形式应答语句生成器11评估匹配,以致于语句的格式的相似性在该得分中被极大地反映,并且,也允许实际应答语句生成器13评估匹配,以致于代表语句内容的词的相似性在该得分中被极大地反映。
当评估标准“精确性”用来作为指示输入语句和例子之间相似性的得分时,随着该输入语句和例子之间相似性的增加该得分接近1.0。
根据向量空间方法在输入语句和例子之间的匹配中,当包括在输入语句中的词与包括在例子中的词之间的相似性高时,输入语句和例子之间的相似性被认为高。另一方面,根据DP匹配方法在输入语句和例子之间的匹配中,当不仅包括在输入语句中的词与包括在例子中的词之间的相似性高而且词的顺序和语句的长度(包括在各个语句中的词的数量)的相似性也高时,输入语句和例子之间的相似性被认为高。因此,DP匹配方法的使用使得比向量空间方法更严格地评估输入语句和例子之间的相似性成为可能。
在等式(3)给出的idf用来作为输入语句的词的权的情况下,当C(w)=0时idf不能被确定,因为等式(3)使C(w)=0无意义。
等式(3)中的C(w)代表出现词w的例子的数量。因此,如果输入语句中的词没有被包括在任何例子中,用于那个词的C(w)就等于0。在这种情况下,根据等式(3)idf不能被确定(当一个未知的词包括在输入语句中时这种情况发生,因此这一问题被称为未知词问题)。
当用于输入语句中的词w的C(w)等于0时,上面描述的那个词的问题由下述的两种方法之一避免。
在第一种方法中,当用于特殊词w的C(w)=0时,用于该词w的权被设置为0,以致于该词w(未知词)在匹配中被忽略。
在第二种方法中,当用于特殊词w的C(w)=0时,C(w)由0或在0到1范围内的非0值代替,并且,idf根据等式(3)被计算,以致于在匹配中大权被给出。
在DP匹配处理期间,指示输入语句和例子之间相似性的得分的正确性、精确性和精密度的计算可以被执行。更特别地,例如,当精确性被用来作为指示输入语句和例子之间相似性的得分时,输入语句的词和例子的词之间的另一个对应关系的各个词的输入语句和例子之一的对应词,即,用于输入语句和例子中的另一个的各个词的输入语句和例子之一的对应词,被确定,以致于精确性具有最大值,并且确定每个词具有哪个对应关系类型C(正确)、S(替换)、I(插入)、D(删除)。
在DP匹配中,输入语句的词和例子的词之间的对应关系可以被确定,以致于除了C(正确)确定类型的数量,即确定类型S(替换)、I(插入)和D(删除)的数量被最小化。在确定了输入语句和例子的每个词具有对应关系类型C(正确)、S(替换)、I(插入)和D(删除)中的哪一个之后,用来作为指示输入语句和例子之间相似性的得分的正确性、精确性和精密度的计算可以被执行。
不使用正确性、精确性和精密度之一作为指示输入语句和例子之间相似性的得分,也可以使用被确定作为正确性、精确性和精密度中的一个或多个的函数的值。
虽然DP匹配方法允许比根据向量空间方法匹配更严格地评估输入语句和例子之间的相似性,但DP匹配方法需要更大量的计算和更长的计算时间。为了避免上述问题,如下所述,在输入语句和例子之间的匹配可以既使用向量空间方法又使用DP匹配方法来评估。首先,对所有例子使用向量空间方法来评估匹配,评估为与输入语句最类似的多个例子被选择。随后,根据使用DP匹配方法的匹配进一步评估这些被选择的例子。这一方法使得比在DP匹配方法中需要的时间更短的时间来执行匹配评估成为可能。
在形式应答语句或实际应答语句的产生中,形式应答语句生成器11和实际应答语句生成器13可以使用相同或不同的方法执行匹配评估。
例如,形式应答语句生成器11可以使用DP匹配方法执行匹配评估,而实际应答语句生成器13可以使用向量空间方法执行匹配评估。或者,形式应答语句生成器11可以使用向量空间方法和DP匹配方法的组合执行匹配评估,而实际应答语句生成器13可以使用向量空间方法执行匹配评估。
第二修改例
在第二修改例中,实际应答语句生成器13利用具有最高得分的例子作为实际应答语句,而不用位于具有最高得分的例子之后的例子。
在先前的实施例或例子中,例如,如上参考图8、10或11所述,在通过实际应答语句生成器13产生实际应答语句中,如果在与输入语句的相似性方面,例子#p具有最高得分,则在例子#p之后的例子#p+1被用来作为实际应答语句。而不是具有最高得分的例子#p可以被用来作为实际应答语句。
然而,当具有最高得分的例子#p与输入语句完全一致时,如果例子#p被用来作为实际应答语句,则与输入语句一致的实际应答语句作为输入语句的应答被输出。这会给用户不自然的感觉。
为了避免上述问题,当具有最高得分的例子#p与输入语句一致时,从与输入语句不同的例子中选择一个具有最高得分的例子,并且所选择的例子用来作为实际应答语句。在这种情况下,与输入语句相似但不完全一致的例子被用来作为实际应答语句。
在具有最高得分的例子被用来作为实际应答语句的情况下,记录在例子数据库14(图2)中的例子不必是基于实际对话的例子,但可以使用基于诸如小说、日记或报纸文章的独白的例子。
通常,收集独白的例子比收集对话的例子更容易。因此,当具有最高得分的例子被用来作为实际应答语句时,允许使用独白的例子作为例子数据库14中记录的例子,并且创建例子数据库14也变得容易。
允许在例子数据库14中既记录对话的例子又记录独白的例子。更特别地,例如,对话的例子可以记录在例子数据库14J中,而独白的例子可以记录在另一例子数据库14j’中。在这种情况下,当某一例子得到最高得分时,如果它是记录在记录对话的例子的例子数据库14J中的例子,则位于该例子之后的例子可以用来作为实际应答例子。相反地,如果具有最高得分的例子是记录在记录独白的例子的例子数据库14j’中的例子,该例子可以用来作为实际应答语句。
在独白的例子中,例子不必是紧挨着前面例子的应答。因此,用与图10或11中描述的方式相似的方式来计算输入语句和例子之间匹配的得分是不合适的,在图10或11中,根据等式(4)或(5)评估输入语句与包括在用户和语音对话系统之间的对话日志中的例子之间的匹配(其中的例子记录在对话日志数据库15′(图2)中)。
另一方面,在输入语句和例子之间的匹配处理中使用对话日志,使保持交谈的当前话题成为可能,即可以防止应答语句的内容突然改变,该改变给用户不自然的感觉。
然而,当独白的例子被用作例子时,在匹配处理中使用对话日志是不合适的,因此会出现怎样保持当前的交谈话题的问题。在输入语句和例子之间的匹配处理中不使用对话日志而保持当前的交谈话题的方法将在第四修改例的描述中给出。
在第二修改例中,如上所述,由实际应答语句生成器13执行的处理中,当在与输入语句的匹配中独白的例子得到最高得分时,如果该例子与输入语句一致,则该例子被丢弃以防止与输入语句一样的语句作为应答被输出,但不同于输入语句的具有最高得分的另一个例子被选择,并且所选择的例子被用来作为实际应答语句。注意,该方法也可以应用到在输入语句和例子之间的匹配评估中位于具有最高得分的例子之后的例子被用作实际应答语句的情况。
也就是说,在语音对话系统中,如果应答语句与先前的应答语句相同,用户将会有不自然的感觉。
为了避免上述问题,实际应答语句生成器13选择位于被评估为与输入语句相似的例子之后且与先前的应答语句不同的例子,并且此时实际应答语句生成器13使用所选择的例子作为实际应答语句输出。也就是说,对于不同于被用来作为先前实际应答语句的例子的例子,具有最高得分的例子被选择,并且,此时位于该具有最高得分的例子之后的例子被作为实际应答语句输出。
第三修改例
在第三修改例中,图1所示的语音对话系统的特征在于仅使用特殊讲话者的讲话作为在应答语句的产生中使用的例子。
在先前的实施例或修改例中,实际应答语句生成器13选择具有较高得分的例子之后的例子并使用所选择的例子作为实际应答语句,而不考虑用作实际应答语句的例子的讲话者。
例如,当图1所示的语音对话系统被希望担任诸如旅馆预定接待员的特殊人物的角色时,该语音对话系统不总是输出作为预定接待员的合适的应答。
为了避免上述问题,当不仅例子而且每个例子的讲话者都被记录在例子数据库14(图2)中时,如图7中所示的例子,在实际应答语句的产生中,实际应答语句生成器13可以考虑例子的讲话者。
例如,当诸如图7中所示的那些例子被记录在例子数据库14中时,如果实际应答语句生成器13优先地使用讲话者是“预定接待员”的例子作为实际应答语句,则语音对话系统就担任了旅馆预定接待员的角色。
更特别地,与图7中所示的例子不同,“预定接待员”的讲话的例子(具有例子号1、3、5、...)和客户(预定申请者)的讲话的例子(具有例子号2、4、6、...)以讲话的顺序记录。因此,当产生实际应答语句的算法被设置以致于在具有最高得分的例子之后的例子被用作实际应答语句时,如果在紧挨着每个“预定接待员”的讲话的例子前的每个例子被给了大得分,即,如果给予“客户”的讲话的例子大得分,则“预定接待员”的讲话的例子被优先地选择作为实际应答语句。
为了给予客户的讲话的例子大得分,例如,确定正在进行计算的指示与输入语句相似性的得分的例子是否是“客户”的讲话的例子,并且,如果确定该例子是“客户”的讲话,则预先确定的偏移值被加到该例子的得分或将该得分乘以一预先确定的系数。
以上述方式计算的得分导致实际应答语句生成器13选择在“客户”的讲话的例子之后的例子即“预定接待员”的讲话的例子作为实际应答语句的概率的增加。因此,能够担任预定接待员的角色的语音对话系统被实现。
该语音对话系统可以包括用于从多个人物中选择任意人物的操作控制单元,以至于与通过操作该操作控制单元选择的人物对应的例子被优先地用作实际应答语句。
第四修改例
在第四修改例中,在输入语句和例子之间的匹配评估中的得分的计算不是按照等式(4)或(5)来执行,而是执行以便例子被分组并且权被分配给每组例子,以致于与当前话题相关的例子被优先地选择为应答语句。
为了上述目的,例如,例子被正确地分组并且例子以组为单位记录在例子数据库14(图2)中。
更特别地,例如,当根据电视谈话节目等等重写的例子被记录在例子数据库14中时,根据例如广播、谈话者或话题的日期来分组例子,并且该例子以组为单位记录在例子数据库14中。
因此,让我们假设例子的组被分别记录在例子数据库141、142、...、14J中,即,例子的特别组被记录在某一例子数据库14J中,而例子的另一组被记录在另一个例子数据库14j’中。
记录了一组例子的每个例子数据库14J可以具有文件的格式或可以存储在一部分文件中,以便该部分可以由标签等识别。
通过上述方式将例子的特别组记录在某一例子数据库14J中,该例子数据库14J的特征在于例子组的话题内容记录在该例子数据库14J中。将例子数据库14J特征化的话题可以由前面向量空间方法的描述中说明的向量来表示。
例如,当记录在例子数据库14J中的例子中有P个不同的词时(其中当同一词在例子中出现多次时,该词的数量被计为1),如果具有P个元素的向量被给定以致于该P个元素相应于P个词中的每一个并且第i个元素的值表示第i个词出现的数量,那么该向量表示特征化的例子数据库14J的话题。
在此,如果特征化每个例子数据库14J的该向量被称为话题向量,那么每个例子数据库14的话题向量可以被分布在每个轴代表话题向量的一个元素的话题空间中。
图19示出了话题空间的一个例子。在图19所示的例子中,为了简化,假设话题空间是由两个轴:词A轴和词B轴定义的二维空间。
如图19所示,每个例子数据库141、142、...、14J的话题向量(每个话题向量的端点)能够分布在话题空间中。
在向量空间方法中,表示特征化例子数据库14J的话题和特征化另一例子数据库14j’的话题之间的相似性(或距离)的测量可以通过特征化例子数据库14J的话题向量和特征化例子数据库14J’的话题之间的角度的余弦而给出,或者可以通过话题向量之间的距离(话题向量的端点之间的距离)而给出。
随着代表特征化例子数据库14J的话题的话题向量和代表特征化例子数据库14j’的话题的话题向量之间的角度的余弦的增加,记录在例子数据库14J中的例子组的话题和记录在例子数据库14j’中的例子组的话题之间的相似性变高,或者随着这些话题向量之间的距离的减小,该相似性变高。
例如,在图19中,例子数据库141、143和1410在话题向量上彼此接近,因此记录在例子数据库141、143和1410中的例子的话题彼此相似。
在本修改实施例中,如上所述,实际应答语句生成器13产生实际应答语句,以致于当输入语句和例子之间的匹配被评估时,与输入语句进行比较的例子从话题与先前的实际应答语句使用的例子相似的例子组中选择出来,即,在表示输入语句与例子之间相似性的得分的计算中,根据每一组例子的话题,权被分配给每一组例子,以致于具有与当前话题相似的话题的一组例子获得比其它组更大的得分,从而使得该组的一个例子被选为实际应答语句的概率增加并因此使得保持当前话题成为可能。
更特别地,例如,在图19中,如果一个被用作先前输出的实际应答语句的例子是记录在例子数据库141中的一个例子,那么记录在例子数据库143或1410中的例子,该例子的话题或话题向量与例子数据库141中的话题或话题向量接近,更可能在话题上与用作先前的实际应答语句的例子相似。
相反,记录在话题向量与例子数据库141中的话题向量不接近的例子数据库中的例子,诸如例子数据库144到148,可能在话题上与用作先前的实际应答语句的例子不同。
因此,为了优先地选择话题与当前话题相似的例子作为下一个实际应答语句,实际应答语句生成器13根据例如下述等式(13)计算表示输入语句和例子#p之间相似性的得分。
例子#p的得分=f_score(文件(Ur-1,文件(例子#p))×score(输入语句,例子#p)                                (13)
其中,Ur-1表示被用作先前实际应答语句的例子,文件(Ur-1)表示记录了例子Ur-1的例子数据库14,文件(例子#p)表示记录了例子#p_的例子数据库14,f_score(文件(Ur-1),文件(例子#p))表示记录在记录了例子Ur-1的例子数据库14中的一组例子和记录在记录了例子#p的例子数据库14中的一组例子之间的相似性。例如可以通过话题向量之间话题空间的角度的余弦给出不同组的例子之间的相似性。在等式(13)中,score(输入语句,例子#p)表示输入语句和例子#p之间的相似性(得分),其中可以通过例如向量空间方法或DP匹配方法来确定相似性。
通过按照等式(13)计算表示输入语句和例子#p之间相似性的得分,不必使用对话日志就能防止话题的突然改变成为可能。
第五修改例
在第五修改实施例中,记录在例子数据库14中的例子可以包括一个或多个变量,并且,实际应答语句生成器13从包括一个或多个变量的例子中产生实际应答语句。
更特别地,特殊类的词,诸如可用用户名替换的词、可用当前日期/时间替换的词等等,从记录在例子数据库14的例子中检测,并且所检测的词被重写为代表词类的变量的形式。
在例子数据库14中,例如,可用用户名替换的词被重写为变量USER_NAME,例如,可用当前时间替换的词被重写为变量TIME,例如,可用当前日期替换的词被重写为变量DATE,等等。
在该语音对话系统中,与该语音对话系统交谈的用户的姓名被注册,并且用注册的用户名替换变量USER_NAME。用当前时间和当前日期分别替换变量TIME和DATE。所有变量的相似的替换规则被预先确定。
例如,在实际应答语句生成器13中,如果位于获得最高得分的例子之后的例子,是包括变量诸如“Mr.USER_NAME,today is DATE”的例子,那么包括在该例子“Mr.USER_NAME,today is DATE”中的变量USER_NAME和DATE根据预先确定的规则替换,并且合成的例子被用作实际应答语句。
例如,在语音对话系统中,如果“Sato”被注册为用户名,并且当前日期是一月一号,那么在本例中的例子“Mr.USER_NAME,today is DATE”被替换为“Mr.Sato,today is January 1”,并且该结果被用作实际应答语句。
如上所述,在本修改实施例中,记录在例子数据库14中的例子被允许包括一个或多个变量,并且,实际应答语句生成器13在产生实际应答语句的处理中根据预先确定的规则替换变量。这使得即使当例子数据库14只包括很小数量的例子时获取更大种类的实际应答语句成为可能。
当记录在例子数据库14中的每个例子被以一组输入例子和图3中所示的例子数据库12中的相应的应答例子的形式描述时,如果特殊类的词既包括在输入例子又包括在一特殊组的相应的应答例子中,则包括在每个表达中的词用代表词类的变量预先替换。在这种情况下,在实际应答语句生成器13中,包括在输入语句中的特殊类的词用代表词类的变量替换,并且,所合成的输入语句与匹配处理中的输入例子比较。实际应答语句生成器13选择与在匹配处理中获得最高得分的与输入例子结合的应答例子,并且,实际应答语句生成器13用包括在输入语句中的变量替换的初始词替换包括在应答例子中的变量。所合成的应答例子被用作实际应答语句。
更特别地,例如,当一组输入例子“My name is Taro Sato”和相应的应答例子“Oh,you are Mr.Taro Sato”被记录在例子数据库14中时,属于人名类的词(多个词)用表示人名类的变量$PERSON_NAME$替换。在该具体的例子中,包括在输入例子“My name is Taro Sato”以及相应的应答例子“Oh,youare Mr.Taro Sato”中的词“Taro Sato”用表示人名类的变量$PERSON_NAME$替换。结果,输入例子“My name is Taro Sato”和相应的应答例子“Oh,youare Mr.Taro Sato”的集合被转换成输入例子“My name is $PERSON_NAME$”和应答例子“Oh,you are Mr.$PERSON_NAME$”的集合。
在这种情况下,如果“My name is Suzuki”作为输入语句给出,实际应答语句生成器13用表示人名类的变量$PERSON_NAME$替换包括在输入语句“My name is Suzuki”中属于人名类的词“Suzuki”,并且,实际应答语句生成器13评估所合成的输入语句“My name is $PERSON_NAME$”和输入例子之间的匹配。如果上述输入例子“My name is $PERSON_NAME$”在匹配的评估中获得最高的得分,那么实际应答语句生成器13选择与输入例子“My nameis $PERSON_NAME$”结合的应答例子“Oh,you are Mr.$PERSON_NAME$”。此外,实际应答语句生成器13用包括在初始输入语句“My name is Suzuki”中并由$PERSON_NAME$替换的初始姓名“Suzuki”替换包括在应答例子“Oh,youare Mr.$PERSON_NAME$”中的变量$PERSON_NAME$。结果,“Oh,you are Mr.Suzuki”作为模型应答语句被获得,并且被用作实际应答语句。
第六修改例
在第六修改实施例中,在应答输出控制器16(图2)中,形式应答语句或实际应答语句没有直接输出到语音合成器5(图1),但是确定形式应答语句或实际应答语句是否满足预定条件,并且只有当满足预定条件时,形式应答语句或实际应答语句被输出到语音合成器5(图1)。
在位于输入语句和例子之间的匹配中具有最高得分的例子之后的例子被直接用作形式应答语句或实际应答语句的情况下,即使所有的例子都具有相当低的得分,即,即使没有适合作为输入语句的应答的例子,位于具有最高得分的例子之后具有较低得分的例子被用作形式应答语句或实际应答语句。
在一些情况下,具有很大长度(很大数量的词)的例子或相反具有很小长度的例子不是用于作为形式应答语句或实际应答语句的适当例子。
为了避免这样的不适当的例子作为形式应答语句或实际应答语句并最终输出,应答输出控制器16确定形式应答语句或实际应答语句是否满足预定条件并且只有当满足预定条件时将形式应答语句或实际应答语句输出到语音合成器5(图1)。
预定条件可以是要求例子获得大于预定的阈值的得分和/或要求包括在该例子中的词的数量(例子的长度)在C1到C2(C1<C2)的范围内。
预定条件可以为形式应答语句和实际应答语句共同定义或单独定义。
也就是说,在第六修改实施例中,应答输出控制器16(图2)确定从形式应答语句生成器11提供的形式应答语句以及实际应答语句生成器13是否满足预定条件,当满足预定条件时将形式应答语句或实际应答语句生成器13输出到语音合成器5(图1)。
因此,在第六修改实施例中,下述四种情况中的一种会发生:1)形式应答语句和实际应答语句都满足预定条件,并都被输出到语音合成器5;2)只有形式应答语句满足预定条件,并因此只有形式应答语句输出到语音合成器5;3)只有实际应答语句满足预定条件,并因此只有实际应答语句输出到语音合成器5;以及4)形式应答语句和实际应答语句都不满足预定条件,并因此都不输出到语音合成器5。
在上述1至4种情况中的第4种情况中,因为形式应答语句和实际应答语句都不输出到语音合成器5,所以没有应答提供给用户。这使用户误以为语音对话系统发生了故障。为了避免第4种情况中的上述问题,应答输出控制器16可以输出一个表示语音对话系统不能理解用户所说的话的语句或要求用户以不同方法再说一遍的语句给语音合成器5,诸如“我没有一个好答案”或“请用不同方法再说一遍”。
参考图20中的流程图,描述了按照本修改实施例的对话过程,其中应答输出控制器16确定形式应答语句和实际应答语句是否满足预定条件并且当满足预定条件时将形式应答语句或实际应答语句输出到语音合成器5。
在图20所示的对话过程中,图15示出的对话过程被修改,以便确定形式应答语句和实际应答语句是否满足预定条件,并且当满足预定条件时将形式应答语句或实际应答语句输出到语音合成器5。注意,按照另一实施例的对话过程,诸如上面参考图14的流程图描述的的对话过程,也可以被修改以便确定形式应答语句和实际应答语句是否满足预定条件,并且当满足预定条件时将形式应答语句或实际应答语句输出到语音合成器5。
在图20示出的对话过程中,作为图14示出的步骤S1的步骤S41中,语音合成器2等待用户说话。如果用户说话,语音合成器2执行语音识别以检测用户说了什么,并且语音合成器2将一连串词形式的语音识别结果作为输入语句提供给控制器3。如果控制器3接收该输入语句,控制器3将该过程由步骤S41前进到步骤S42。作为图14示出的步骤S2的步骤S42中,控制器3分析输入语句以确定对话过程是否应当结束。如果在步骤S42中确定对话过程应当结束,则对话过程结束。
如果在步骤S42中确定对话处理不应当结束,则控制器3将输入语句提供到应答生成器4(图2)中的形式应答语句生成器11和实际应答语句生成器13。此后,控制器3将过程前进到步骤S43。在步骤S43中,形式应答语句生成器11响应输入语句产生形式应答语句并将合成的形式应答语句提供给应答输出控制器16。此后,过程转到步骤S44。
在步骤S44中,应答输出控制器16确定从形式应答语句生成器11提供的形式应答语句是否满足预定条件。更特别地,例如,应答输出控制器16确定与用作形式应答语句的应答例子结合的输入例子的评估得分是否高于预定的阈值,或者包括在用作形式应答语句的应答例子中的词数是否在C1到C2的范围内。
如果在步骤S44中确定形式应答语句满足预定条件,过程转到步骤S45。在步骤S45中,应答输出控制器16通过控制器3(图1)将满足预定条件的形式应答语句输出到语音合成器5。此后,过程转到步骤S46。在应答中,如参考图14在前面描述的,语音合成器5执行与形式应答语句相关的语音合成。
另一方面,在步骤S44中确定形式应答语句不满足预定条件的情况下,过程跳到步骤S46而不执行步骤S45。也就是说,在这种情况下,不满足预定条件的形式应答语句没有作为应答输出。
在步骤S46中,实际应答语句生成器13响应输入语句产生实际应答语句并将合成的实际应答语句提供给应答输出控制器16。此后,过程转到步骤S47。
在步骤S47中,输出控制器16确定从实际应答语句生成器13提供的实际应答语句是否满足预定条件。更特别地,例如,输出控制器16确定紧挨着用作实际应答语句的例子之前的例子的评估得分是否高于预定的阈值,或者包括在用作实际应答语句的例子中的词数是否在C1到C2的范围内。
如果在步骤S47中确定实际应答语句不满足预定条件,过程跳到步骤S50而不执行步骤S48和S49。在这种情况下,不满足预定条件的实际应答语句没有作为应答输出。
当在步骤S47中确定该实际应答语句不满足预定条件时,如果在步骤S44中确定形式应答语句也不满足预定条件,即,如果上述的第4种情况发生,形式应答语句和实际应答语句都不被输出。在这种情况下,如上所述,应答输出控制器16将预先确定的语句诸如“我没有一个好答案”或“请用不同方法再说一遍”作为最后的应答语句输出给语音合成器5。此后,过程从步骤S47进行到步骤S50。
另一方面,在步骤S47中确定实际应答语句满足预定条件的情况下,过程转到步骤S48。在步骤S48中,如图15示出的流程图中的步骤S26,应答输出控制器16检查满足预定条件的实际应答语句是否包括与在先前紧挨着的步骤S45中输出给语音合成器5的形式应答语句的重叠部分(表达)。如果有这样的重叠部分,应答输出控制器16从实际应答语句中删除该重叠部分。此后,过程进行到步骤S49。
当实际应答语句没有包括与形式应答语句重叠的部分时,实际应答语句被保持而在步骤S48中不进行任何修改。
在步骤S49中,应答输出控制器16通过控制器3(图1)将实际应答语句输出给语音合成器5。此后,过程进行到步骤S50中。在步骤S50中,应答输出控制器16以与图14中的步骤S7相似的方式,通过将输入语句和作为对输入语句的应答输出的合成应答语句另外记录在对话日志数据库15的对话日志中而更新对话日志。此后,过程返回到步骤S41,并且过程从步骤S41被重复。
第七修改例
在第七修改实施例中,在由形式应答语句生成器11或实际应答语句生成器13产生形式应答语句或实际应答语句的处理中,确定和考虑语音识别结果的信心度量。
在图1示出的语音对话系统中,语音识别器2不必设计为由该语音对话系统2专门使用的类型,而也可以使用传统的语音识别器(语音识别装置或语音识别模块)。
一些传统语音识别器具有为包括在作为语音识别结果获得的一连串词中的每个词确定信心度量并将信心度量和语音识别结果一起输出的能力。
更特别地,当用户说“Let’s play succor tomorrow morning”时,该语音被识别为,例如“Let’s pray succor morning morning”,并且该识别结果“Let’s pray succor morning morning”的每个词的信心度量被评估为,例如,“Let’s(0.98)pray(0.71)succor(0.98)morning(0.1)morning(0.98)”。在该评估结果“Let’s(0.98)pray(0.71)succor(0.98)morning(0.1)morning(0.98)”的例子中,每个圆括号包括的数字表示先前紧挨着的词的信心度量。信心度量值越大,被识别的词的相似性就越大。
在识别结果“Let’s(0.98)pray(0.71)succor(0.98)morning(0.1)morning(0.98)”中,例如,词“succor”与实际说的词“succor”完全一致,信心度量被评估为与0.98一样高。另一方面,实际说的词“tomorrow”被错误地识别为“morning”,该词的信心度量被评估为与0.1一样低。
如果语音识别器2具有为作为语音识别的结果获得的一连串词的每个词确定信心度量的这种能力,则形式应答语句生成器11或实际应答语句生成器13在响应由语音识别所给出的输入语句而产生形式应答语句或实际应答语句的处理中,可以考虑该信心度量。
当输入语句作为语音识别的结果被给出时,具有高信心度量的词更可能是正确的。相反,具有低信心度量的词可能是错误的。
在输入语句和例子之间匹配的评估处理中,希望信心度量低并因此可能是错误的词对该匹配评估的影响比可能是正确的词的影响小。
因此形式应答语句生成器11或实际应答语句生成器13在输入语句和例子之间匹配相关的分数计算中,考虑为每个包括在输入语句中的词评估的信心度量,以至于具有低信心度量的词就不会对得分具有大的贡献。
更特别地,在使用向量空间方法执行输入语句和例子之间的匹配评估的情况下,代表输入语句的向量(公式(1)中的向量y)的每个元素的值不是由tf(与该向量的元素相应的词出现的数量)而是由与该向量的元素相应的词的信心度量的值的和给出。
在输入语句被识别为“Let’s(0.98)pray(0.71)succor(0.98)morning(0.1)morning(0.98)”的上述例子中,输入语句的向量的每个元素的值被给出,以至于与“Let’s”相应的元素的值由“Let’s”的信心度量0.98给出,与“pray”相应的元素的值由“pray”的信心度量0.71给出,与“succor”相应的元素的值由“succor”的信心度量0.71给出,与“morning”相应的元素的值由“morning”的信心度量即0.1+0.98=1.08给出。
在使用DP匹配方法执行输入语句和例子之间的匹配评估的情况下,每个词的权可以由该词的信心度量给出。
更特别地,在输入语句被识别为“Let’s(0.98)pray(0.71)succor(0.98)morning(0.1)morning(0.98)”的当前的例子中,词“Let’s”、“pray”、“succor”、“morning”和“morning”由系数0.98、0.71、0.98、0.1和0.98分别加权。
在日语的情况下,如上所述,语气动词和助动词对语句的格式具有大的贡献。因此,当形式应答语句生成器11评估输入语句和作为形式应答语句的候选的例子之间的匹配时,希望语气动词和助动词对匹配的得分有大的贡献。
然而,在形式应答语句生成器11中,当匹配的评估被简单地执行以致于语气动词和助动词有大的贡献时,如果作为语音识别的结果而获得的输入语句包括错误识别的语气动词或助动词,匹配的得分就被错误的语气动词或助动词严重地影响,并且因此产生作为对输入语句的应答不自然的形式应答语句。
上述问题能够通过用在输入语句和例子之间匹配的分数的计算中根据信心度量确定的因数加权包括在输入语句中的每个词来避免,以至于该得分不会被低信心度量的词即可能是错误的词严重地影响。这防止了输出作为对用户讲话应答的不自然的形式应答语句。
有各种已知的计算信心度量的方法,任何方法都可在此使用,只要该方法能够确定包括在作为语音识别结果而获得的语句中的每个词的信心度量。
在一个词接一个词的基础上确定信心度量的方法的例子在下面描述。
例如,当语音识别器2(图1)使用HMM(隐藏马尔可夫模型)方法执行语音识别时,信心度量可以被如下计算。
通常,在基于HMM声学模型的语音识别中,识别以音素或音节为单位被执行,词以音素或音节的HMM串联的形式被模型化。在语音识别中,如果输入语音信号没有被正确地分离成音素或音节,那么识别错误就会发生。换言之,如果正确地确定出彼此分离的相邻音素的边界,则音素能够被正确地识别并由此词或语句能够被正确地识别。
在此,让我们引入音素边界确认测量(PBVM)以确认在语音识别中输入语音信号是否在正确的边界被分离成音素。在语音识别处理中,为每个输入语音信号的音素确定PBVM,在音素接音素的基础上所确定的PBVM被扩展为每个词的PBVM。以这种方法确定的每个词的PBVM被用作该词的信心度量。
例如,PBVM可以如下计算。
首先,在语音识别结果(一连串词的形式)中,语境(在时间上是连续的)位于音素k和下一个音素k+1之间的边界的左边和右边。在音素边界左边和右边的语境可以由图21到23示出的3种方法中的1种定义。
图21示出了定义位于音素边界左边和右边的语境的第一种方法。
图21示出了在一串识别的音素中,音素k、k+1和k+2,音素边界k位于音素k和k+1之间,音素边界k+1位于音素k+1和k+2之间。对于音素k和k+1,语音信号的帧边界由虚线表示。例如,音素k的最后一帧被表示为帧i,音素k+1的第一帧被表示为帧i+1,等等。在音素k中,HMM状态从a变化到b并进一步变化到c。在音素k+1中,HMM状态从a’变化到b’并进一步变化到c’。
在图21中(也在图22和23中),实曲线代表语音信号的幂的变化。
在音素边界k的左边和右边的两个语境的第一个定义中,如图21所示,音素边界k的左边的语境(即,在时间上紧接着音素边界k之前的位置上的语境)包括相应于HMM状态c的所有帧(帧i-4到i),而音素边界k的右边的语境(即,在时间上紧接着音素边界k之后的位置上的语境)包括相应于HMM状态c’的所有帧(帧i+1到i+4)。
图22示出了定义位于音素边界左边和右边的语境的第二种方法。在图22中(也在随后描述的图23中),与图21相似的部分用相同的参考数字或符号表示,并且这些相似部分的进一步描述被省略。
在音素边界k的左边和右边的两个语境的第二个定义中,如图22所示,音素边界k的左边的语境包括相应于紧接着音素k的最后一个HMM状态之前的HMM状态b的所有帧,而音素边界k的右边的语境包括相应于音素k+1的第二HMM状态b’的所有帧。
图23示出了音素边界左边和右边的语境的第三种定义方法。在音素边界k的左边和右边的两个语境的第三个定义中,如图23所示,音素边界k的左边的语境包括帧i-n到i,而音素边界k的右边的语境包括帧i+1到i+m,其中n和m是等于或大于1的整数。
在此引入代表语境的一个向量以确定音素边界k左边和右边的两个语境之间的相似性。
例如,当在语音识别中在一帧接一帧的基础上提取作为语音的特征值的频谱时,语境向量(代表一个语境的向量)可以由其元素由包括在该语境中的每个帧的频谱的各个系数给出的向量的平均值给出。
当两个语境向量x和y被给出时,表示向量x和y之间相似性的相似性函数s(x,y)可以由基于向量空间方法的下述等式(14)给出。
s ( x , y ) = x i y | x | | y | - - - ( 14 )
|x|和|y|表示向量x和y的长度,xt表示向量x的转置。注意,由等式(14)给出的相似性函数s(x,y)是通过向量x和y的量值的积即|x|·|y|除向量x和y的内积即xty得到的商,因此相似性函数s(x,y)等于两个向量x和y的角度的余弦。
注意相似性函数s(x,y)的值随着向量x和y之间的相似性的增加而减小。
用于音素边界k的音素边界确认测量函数PBVM(k)能够使用相似性函数s(x,y)表达,例如,如等式(15)所示。
PBVM ( k ) = 1 - s ( x , y ) 2 - - - ( 15 )
代表两个向量之间相似性的函数不限制为上述的相似性函数s(x,y),而也可以使用表示两个向量x和y的距离函数d(x,y)(注意d(x,y)在范围-1到1内被规范化)。在这种情况下,音素边界确认测量函数PBVM(k)由下述等式(16)给出。
PBVM ( k ) = 1 - d ( x , y ) 2 - - - ( 16 )
音素边界上的语境的向量x(也可以是向量y)可以由代表语境的各个帧的频谱的所有向量的平均值(平均向量)给出,其中代表每个频谱的向量的元素由重要帧的频谱的系数给出。或者,音素边界上的语境的向量x(也可以是向量y)可以由通过从代表最接近音素边界k的帧的频谱的向量中减去代表语境的各个帧的频谱的所有向量的平均值得到的向量给出。在HMM的特征值(语音的特征向量)的输出概率密度函数可以使用高斯分布(Gaussiandistribution)表达的情况下,音素边界上的语境的向量x(也可以是向量y)可以例如从定义表达与该语境的帧相应的HMM状态的输出概率密度函数的高斯分布的平均向量中被确定。
根据等式(15)或(16)的音素边界k的音素边界确认测量函数PBVM(k)是变量k的连续函数并且在0到1的范围内取值。当PBVM(k)=0时,音素边界k右边和左边的语境的向量在方向上相等。也就是说,当音素边界确认测量函数PBVM(k)具有等于0的值时,音素边界k不可能是实际的音素边界,因此一个识别错误可能发生。
另一方面,当音素PBVM(k)具有等于1的值时,音素边界k右边和左边的语境的向量在方向上相反,音素边界k可能是正确的音素边界。
如上所述,在0到1的范围内取值的音素边界确认测量函数PBVM(k)表示了音素边界k是正确的音素边界的相似性。
因为作为语音识别结果获得的一连串词的每个词包括多个音素,每个词的信心度量可以从该词的音素边界k的相似性,即,从该词的音素的音素边界确认测量函数PBVM中被确定。
更特别地,词的信心度量可以由例如该词的音素的音素边界确认测量函数PBVM的值的平均值、该词的音素的音素边界确认测量函数PBVM的值的最小值、该词的音素的音素边界确认测量函数PBVM的最大值和最小值之间的差、该词的音素的音素边界确认测量函数PBVM的值的标准偏差或该词的音素的音素边界确认测量函数PBVM的值的变量(标准偏差除以平均值的商)的系数给出。
至于信心度量,也可以使用其它值,诸如在词的识别中最可能候选的得分和下一个最可能候选的得分之间的差,例如在日本未审查专利申请公开号9-259226中所述的。信心度量也可以从根据HMM计算的各个帧的声音得分中确定,或可以使用神经网络来确定。
第八修改例
在第八修改实施例中,当实际应答语句生成器13产生应答语句时,记录在对话日志中的表达也被用作例子。
在参考图10或11的更早描述的实施例中,当实际应答语句生成器13产生实际应答语句时,记录在对话日志数据库15(图2)中的对话日志被辅助地用在与输入语句和例子之间匹配相关的得分的计算中。相反,在该修改实施例中,当实际应答语句生成器13产生实际应答语句时该实际应答语句生成器13使用记录在对话日志中的表达作为例子。
当记录在对话日志中的表达被用作例子时,记录在对话日志数据库15中的所有语音(图9)可以用与记录在例子数据库14中的例子相似的方式被简化处理。然而,在这种情况下,如果从应答输出控制器16(图2)输出的最终应答语句不适合作为输入语句的应答,该不适合的应答语句能够引起下一次对话中不适合的语句作为实际应答语句而产生的概率的增加。
为了避免上述问题,当记录在对话日志中的表达被用作例子时,希望记录在诸如图9中所示的对话日志中的语音,在实际应答语句的产生中特殊说话者的读音被优先地利用。
更特别地,例如,在图9所示的对话日志中,在实际应答语句的产生中说话者是“用户”(例如,图9中具有语音号r-4和r-2的语音)的语音被优先地利用作为例子,而不是其它说话者的语音(图9所示的例子中“系统”的语音)。用户过去语音的优先使用能够给该用户一个系统正在学习语言的感觉。
在记录在对话日志中的语音的表达被用作例子的情况下,如同在第四修改实施例中,语音可以一组接一组地记录,以及,在输入语句和例子之间的匹配的评估中,得分可以根据等式(13)中的组被加权,以至于与当前话题相关的例子被优先选择为实际应答语句。
为了上述目的,需要在一组接一组的基础上根据例如话题对语音分组并记录该语音在对话日志中。例如,这能够如下被进行。
在对话日志数据库15中,在与用户的交谈中话题的改变被检测,并且,从任意的话题改变之后紧接着的语音到下一个话题改变之前紧挨着的语音之间的语音(输入语句和对每个输入语句的应答语句)被存储在一个对话日志文件中,以至于特殊话题的语音被存储在特殊对话日志文件中。
话题改变能够通过检测表示该话题改变的表达被检测,诸如在谈话中的“顺便说一下”、“不要改变主题”等等。更特别地,许多表示话题改变的表达被准备作为例子,并且,当输入语句和话题改变的一个例子之间的得分等于或大于预先确定的阈值时,确定已经发生了话题改变。
当用户在预先确定的时间没有说任何话时,可以确定已经发生了话题改变。
在对话日志根据话题被存储在不同的文件中的情况下,当对话过程被启动时,对话日志数据库15的对话日志文件被打开,并且,从应答输出控制器16提供的输入语句和每个输入语句的最终应答语句被作为语音写入到所打开的文件中(图9)。如果检测到话题改变,当前的对话日志文件就被关闭,新的对话日志文件被打开,并且,从应答输出控制器16提供的输入语句和每个输入语句的最终应答语句被作为语音写入到所打开的文件中(图9)。该操作以相似的方式继续进行。
每个对话日志文件的文件名可以被给定,例如,通过表示话题的一串词、序号和特殊的扩展符(xxx)。在这种情况下,具有subject0.xxx、subject1.xxx等等文件名的对话日志文件被一个接一个地存储在对话日志数据库15中。
为了使用记录在对话日志中的语音作为例子,需要在对话过程期间至少以只读模式打开存储在对话日志数据库15中的所有对话日志,以便可以在对话过程期间读出记录在对话日志中的语音。在当前的对话中用于记录输入语句和每个输入语句的应答语句的对话日志文件应当以读/写模式被打开。
因为对话日志数据库15的存储容量有限,所以其语音不可能被用作实际应答语句(例子)的对话日志文件可以被删除。
第九修改例
在第九修改实施例中,根据N个最好的语音识别候选者中的每个的相似性(表示相似性的分数)并且也根据每个例子和每个语音识别候选者之间匹配的分数确定形式应答语句或实际应答语句。
在先前的实施例和修改实施例中,语音识别器2(图1)输出所有识别候选者中最相似的识别候选者作为语音识别结果。然而,在第九修改实施例中,语音识别器2输出相似性较高的N个识别候选者作为输入语句以及指示每个输入语句相似性的信息。形式应答语句生成器11或实际应答语句生成器13评估作为输入语句和例子给出的N个较高相似性的识别候选者中的每一个之间的匹配,并为与每个输入语句有关的每个例子确定暂定得分。然后考虑到N个输入语句(N个识别候选者)中的每一个的相似性根据与每个输入语句有关的每个例子的暂定得分确定与每个输入语句有关的每个例子的总分数。
如果记录在例子数据库12或14中的例子数量用P表示,则形式应答语句生成器11或实际应答语句生成器13评估N个输入语句中的每一个和P个例子中的每一个之间的匹配。也就是说,匹配评估被执行N×P次。
在匹配的评估中,例如根据等式(17)确定每个输入语句的总得分。
total_score(输入语句#n,例子#p)=
g(recog_score(输入语句#n),match_score(输入语句#n,例子#p))
                                                     (17)
其中“输入语句#p”表示N个输入语句(N个最高相似性识别候选者)中的第n个输入语句,“例子#p”表示P个例子中的第p个例子,total_score(输入语句#n,例子#p)是与输入语句#n相关的例子#p的总分数,recog_score(输入语句#n)是输入语句(识别候选者)#n的相似性,match_score(输入语句#n,例子#p)是表示与输入语句#n相关的例子#p的相似性的得分并使用更早描述的向量空间法或DP匹配法确定该得分。在等式(17)中,两个变量an和b的函数g(a,b)是变量an和b中的每个单调增加的函数。至于函数g(a,b),例如,g(a,b)=c1a+c2b(c1和c2是非负常数)或g(a,b)=ab可以被使用。
形式应答语句生成器11或实际应答语句生成器13根据等式(17)为与N个输入语句中的每个相关的P个例子中的每个确定总得分total_score(输入语句#n,例子#p),并且利用具有最高total_score(输入语句#n,例子#p)的值的例子作为形式应答语句或实际应答语句。
形式应答语句生成器11和实际应答语句生成器13可以具有相同输入语句或不同输入语句的total_score(输入语句#n,例子#p)的最高值。
如果对于形式应答语句生成器11和实际应答语句生成器13不同输入语句的total_score(输入语句#n,例子#p)具有最高值,则该情况可以被看成等于作为用户发出的相同语音的语音识别结果的不同的输入语句被提供给形式应答语句生成器11和实际应答语句生成器13的情况。这引起了怎样将相同发音的不同输入语句作为语音记录到对话日志数据库15中的问题。
在形式应答语句生成器11不使用对话日志评估例子的匹配而实际应答语句生成器13使用对话日志评估例子的匹配的情况下,对上述问题的解决方法是利用在由实际应答语句生成器13执行的评估中获得最高total_score(输入语句#n,例子#p)的输入语句#n作为将被记录在对话日志中的语音。
更简单地,在由形式应答语句生成器11执行的评估中获得最高total_score(输入语句#n1,例子#p)的输入语句#n1和在由实际应答语句生成器13执行的评估中获得最高total-score(输入语句#n2,例子#p)的输入语句#n2都可以被记录在对话日志中。
在输入语句#n1和#n2都被记录在对话日志中的情况下,要求在根据该对话日志(在参考图10到12的更早描述的匹配中和在使用记录在对话日志中的语音的表达式作为例子的匹配中)的匹配评估中,两个输入语句#n1和#n2应当被看成一个语音。
为了满足上述要求,在使用向量空间方法执行匹配评估的情况下,例如,代表输入语句#n1的向量V1和代表输入语句#n2的向量V2的平均向量(V1+V2)/2被看成代表对应于两个输入语句#n1和#n2的一个语音的向量。
第十修改例
在第十修改实施例中,形式应答语句生成器11使用用户语音的声学特征产生形式应答语句。
在先前实施例和修改实施例中,用户发音的语音识别结果作为输入语句被给出,形式应答语句生成器11评估在产生形式应答语句的过程中所给出的输入语句和例子之间的匹配。相反,在第十修改实施例中,在产生形式应答语句的过程中,该形式应答语句生成器11使用用户发音的声学特征代替输入语句或与输入语句结合在一起。
至于用户发音的声学特征,例如,发音的发音长度(语音周期)或与节奏有关的度量信息可以被使用。
例如,形式应答语句生成器11可以根据用户发音的发音长度产生包括同一词的重复的形式应答语句,比如“uh-huh”、“uh-huh,uh-huh”、“uh-huh,uh-huh,uh-huh”等等,以至于重复词的数量随着发音长度而增加。
形式应答语句生成器11也可以产生形式应答语句以致于包括在形式应答语句中的词的数量随着发音长度而增加,比如“My!”、“My God!”、“Oh,myGod!”等等。为了产生形式应答语句以便词的数量随着发音长度而增加,例如,在评估输入语句和例子之间的匹配中根据发音长度执行加权以至于包括了许多词的例子获得较高的得分。或者,可以预备包括各种数量的相应于发音长度的各种值的词的例子,并且包括了特殊数量的相应于实际发音长度的词的例子可以被选择为形式应答语句。在这种情况下,因为在形式应答语句的产生中使用语音识别的结果,所以快速地获得形式应答语句是可能的。可以为同一发音长度预备多个例子,并且例子中的一个可以被随机选择为形式应答语句。
或者,形式应答语句生成器11可以利用具有最高得分的例子作为形式应答语句,并且语音合成器5(图1)可以随着发音长度的增加降低与形式应答语句相应的合成语音的重放速度(输出速度)。
在一些情况下,与形式应答语句相应的合成语音的输出从开始到结束的时间会随着发音长度而增加。如参考图14所示的流程图更早描述的,如果应答输出控制器16在产生形式应答语句之后立即输出该形式应答语句,而不等待将要产生的实际应答语句,这可能会避免从用户发音的结束到作为对该发音的应答的合成语音的输出的开始的响应时间的增加,因此可以避免在形式应答语句的输出和实际应答语句的输出之间发生不自然的暂停。
更特别地,当用户发音的发音长度较长时,语音合成器2(图1)就需要较长的时间来得到语音识别结果,并且实际应答语句生成器13也需要较长的时间来评估作为语音识别结果的长输入语句和例子之间的匹配。因此,如果在获得语音识别结果之后形式应答语句生成器11开始匹配评估以产生一形式应答语句,那么需要长时间来获得形式应答语句因此应答时间变长。
在实际应答语句生成器13中,获得实际应答语句所用的时间比产生形式应答语句所需的时间长,因为它需要评估比形式应答语句生成器11评估的例子更多的例子的匹配。因此,有可能当形式应答语句的合成语音的输出完成时,实际应答语句的产生还没有完成。在这种情况下,在形式应答语句的输出结束和实际应答语句的输出开始之间发生自然的暂停。
为了避免上述问题,形式应答语句生成器11以出现次数随发音长度而增加的重复相同的词的形式来产生形式应答语句,并且,应答输出控制器16不等待实际应答语句的产生就输出形式应答语句,以至于形式应答语句在用户发音结束之后立即被输出。此外,因为在形式应答语句中重复的诸如“uh-huh”的词的数量随着发音长度而增加,所以在形式应答语句以合成语音的形式输出期间的时间随着发音长度而增加。这使得在形式应答语句被输出期间语音合成器2获得语音识别结果以及实际应答语句生成器13获得实际应答语句成为可能。结果,可以避免上述不自然的暂停。
在形式应答语句生成器11产生形式应答语句中,除了用户发音的发音长度外,可以使用诸如音高(频率)等度量信息。
更特别地,形式应答语句生成器11根据发音音高的变化确定由用户说出的语句是否是陈述或疑问的形式。如果说的语句是陈述形式,那么可以产生适合作为对陈述句应答的诸如“I see”的表达作为形式应答语句。另一方面,当用户说出的语句是疑问形式时,形式应答语句生成器11就产生适合作为对疑问句应答的诸如“Let me see”的形式应答语句。如上所述,根据用户发音的发音长度形式应答语句生成器11可以改变该形式应答语句的长度。
形式应答语句生成器11可以猜测用户的感情状态并根据所猜测的感情状态产生形式应答语句。例如,如果用户在感情上是激动的,形式应答语句生成器11可以产生形式应答语句以肯定地应答该用户的说话而不使该用户变得更激动。
例如,使用在日本未审查专利申请公开号5-12023中公开的方法,可以执行用户感情状态的猜测。例如,使用在日本未审查专利申请公开号8-339446中公开的方法,可以执行根据用户感情状态的应答语句的产生。
提取说话长度或用户说出的语句的度量信息的处理和猜测用户感情状态的处理,比语音识别处理需要的计算量少。因此,在形式应答语句生成器11中,不是根据作为语音识别结果获得的输入语句而是根据发音长度、度量信息和/或用户的感情状态产生形式应答语句,使得进一步减少应答时间(从用户发出的语音的结束到应答输出的开始)成为可能。
如上描述的处理步骤的序列可以使用硬件装置或软件执行。当处理序列由软件执行时,形成该软件的程序被安装在通用计算机等等上。
图24说明了根据本发明的实施例安装了执行上述处理的程序的计算机。
该程序可以提前安装在作为布置在计算机内的存储媒体的硬盘105或ROM103中。
该程序也可以暂时或永久地存储在可移动存储媒体111诸如软盘、CD-ROM(压缩盘只读存储器)、MO(磁光)盘、DVD(数字通用盘)、磁盘或半导体存储器中。存储在该可移动存储媒体111上的程序可以以所谓的软件包的形式被提供。
不将程序从可移动存储媒体111安装到计算机上,程序也可以通过无线传输或依靠有线通讯通过网络诸如LAN(局域网)或Internet(因特网)从下载站点传输给计算机。在这种情况下,计算机通过通讯单元108接收该程序并将所接收的程序安装在计算机的硬盘105上。
该计算机包括CPU(中央处理单元)102。输入/输出接口110通过总线101连接到CPU102。如果CPU102通过输入/输出接口110接收由用户使用包括键盘、鼠标、麦克风等输入单元107发出的命令,该CPU102就执行存储在ROM(只读存储器)103上的程序。或者,CPU102可以执行加载到RAM(随机访问存储器)104内的程序,其中,通过将存储在硬盘105上的程序传输到RAM104、或在通过通讯单元108从人造卫星或网络接收到后传送已安装在硬盘105上的程序、或从加载到驱动器109的可移动记录媒体111中读出后传送已安装在硬盘105上的程序,程序可以被加载到RAM104。通过执行该程序,CPU102执行参考流程图或框图的上述处理。CPU102根据要求通过输入/输出接口110将处理结果输出到包括LCD(液晶显示器)和/或扬声器的输出装置106。该处理结果也可以通过通讯单元108被传输或存储在硬盘105中。
在本发明中,根据流程图中描述的顺序,以由计算机执行的程序中所描述的用于执行各种处理的处理步骤不需要按照时间顺序执行。作为替换,该处理步骤可以并行或单独执行(通过并行处理或对象处理)。
该程序既可以由单一计算机执行也可以由分布式形式的多个计算机执行。该程序可以被传送给远程的计算机从而可以被执行。
在上述实施例中,记录在例子数据库12中由形式应答语句生成器11使用的例子,以图3示出的每条记录包括一组输入例子和相应的应答例子的形式被描述,而记录在例子数据库14中由实际应答语句生成器13使用的例子,以图7示出的每条记录包括一个语音的形式被描述。或者,记录在例子数据库12中的例子可以被描述,以至于包括一个语音的每条记录与例子数据库14一样。相反地,记录在例子数据库14中的例子可以被描述,以至于包括一组输入例子和相应的应答例子的每条记录与例子数据库12一样。
上面描述的仅用于形式应答语句生成器11和实际应答语句生成器13的任何技术可以根据要求被用于另一个。
图1示出的语音对话系统可以被用于更多的装置或系统,诸如机器人、显示在显示器上的虚拟人物或具有翻译能力的对话系统。
注意,在本发明中,没有对该语音对话系统处理的语言的特别限制,本发明可以被应用于诸如英语和日语等多种语言。
本领域技术人员应当理解,根据设计要求和在所附的权利要求或其等同物的范围内的其它因素,可以发生各种修改、组合、子组合和改变。

Claims (27)

1.一种用于通过响应输入语句而输出应答语句的交互对话装置,包括:
形式应答语句获取装置,用于响应输入语句获取形式应答语句;
实际应答语句获取装置,用于响应输入语句获取实际应答语句;以及
输出控制装置,用于控制形式应答语句和实际应答语句的输出以便响应输入语句输出最终的应答语句。
2.如权利要求1的对话装置,进一步包括例子存储装置,用于存储一个或多个例子,
其中,该形式应答语句获取装置或实际应答语句获取装置根据输入语句和例子获取形式应答语句或实际应答语句。
3.如权利要求2的对话装置,进一步包括对话日志存储装置,用于将输入语句或该输入语句的最终的应答语句作为对话日志存储,
其中,在形式应答语句或实际应答语句的获取中,该形式应答语句获取装置或实际应答语句获取装置考虑该对话日志。
4.如权利要求3的对话装置,其中,该形式应答语句获取装置或实际应答语句获取装置通过使用包括在作为例子的对话日志中的表达获取形式应答语句或实际应答语句。
5.如权利要求3的对话装置,其中,该对话日志存储装置为每个话题分别记录对话日志。
6.如权利要求2的对话装置,其中,该形式应答语句获取装置或实际应答语句获取装置使用向量空间方法评估输入语句和例子之间的匹配,并基于在匹配评估中获得较高得分的例子获取形式应答语句或实际应答语句。
7.如权利要求2的对话装置,其中,该形式应答语句获取装置或实际应答语句获取装置使用动态编程匹配方法评估输入语句和例子之间的匹配,并基于在匹配评估中获得较高得分的例子获取形式应答语句或实际应答语句。
8.如权利要求7的对话装置,其中,形式应答语句获取装置或实际应答语句获取装置用由df(文档频率)或idf(反文档频率)确定的系数加权包括在输入语句中的每个词,评估所加权的输入语句和例子之间的匹配,并基于在匹配评估中获得较高得分的例子获取形式应答语句或实际应答语句。
9.如权利要求2的对话装置,其中,该形式应答语句获取装置或实际应答语句获取装置获取形式应答语句或实际应答语句,以致于:
首先使用向量空间方法执行输入语句和例子之间的匹配评估;
进一步使用动态编程匹配方法评估输入语句和在使用向量空间方法的匹配评估中获得较高得分的一些例子之间的匹配;以及
基于在使用DP匹配方法的匹配评估中获得较高得分的例子获取形式应答语句或实际应答语句。
10.如权利要求2的对话装置,其中,实际应答语句获取装置利用与输入语句相似的例子作为实际应答语句。
11.如权利要求10的对话装置,其中,实际应答语句获取装置利用与输入语句相似但与输入语句不完全一致的例子作为实际应答语句。
12.如权利要求2的对话装置,其中:
例子存储装置用与说话的顺序相同的顺序存储例子;以及
实际应答语句获取装置选择位于与输入语句相似的例子之后并与前一次输出的实际应答语句不同的例子,并且实际应答语句获取装置利用所选择的例子作为这一次被输出的实际应答语句。
13.如权利要求2的对话装置,其中:
例子存储装置存储例子和表示各个例子的说话者的信息,以至于例子和相应的说话者被联系在一起;以及
考虑有关说话者的信息,该实际应答语句获取装置获取实际应答语句。
14.如权利要求2的对话装置,其中:
在一组接一组的基础上,例子存储装置分别存储例子;以及
通过基于在与输入语句的匹配中被评估的一组例子和其中之一被用作前次输出的实际应答语句的一组例子之间的相似性来评估输入语句和例子之间的匹配,该实际应答语句获取装置获取这一次被输出的实际应答语句。
15.如权利要求2的对话装置,其中:
例子存储装置存储其一个或多个部分具有变量形式的例子;以及
实际应答语句获取装置通过用特殊的表达代替包括在该例子中的一个或多个变量而获取实际应答语句。
16.如权利要求2的对话装置,进一步包括语音识别装置,用于识别语音并输出作为输入语句的语音识别结果,也输出包括在作为语音识别结果获得的语句中的每个词的信心度量,
其中,形式应答语句获取装置或实际应答语句获取装置通过考虑信心度量评估输入语句和例子之间的匹配而获取形式应答语句或实际应答语句。
17.如权利要求2的对话装置,进一步包括语音识别装置,用于识别语音并输出作为输入语句的语音识别结果,
其中,形式应答语句获取装置或实际应答语句获取装置考虑表示语音识别结果相似性的得分,根据在输入语句和例子之间的匹配评估中所获得的得分而获取形式应答语句或实际应答语句。
18.如权利要求1的对话装置,其中,形式应答语句获取装置和实际应答语句获取装置通过使用不同的方法分别获取形式应答语句或实际应答语句。
19.如权利要求1的对话装置,其中,输出控制装置确定形式应答语句或实际应答语句是否满足预定条件,并且,当形式应答语句或实际应答语句满足该预定条件时,输出控制装置输出形式应答语句或实际应答语句。
20.如权利要求1的对话装置,进一步包括语音识别装置,用于识别语音并输出作为输入语句的语音识别结果;
其中,形式应答语句获取装置根据语音的声学特征获取形式应答语句;以及
实际应答语句获取装置根据输入语句获取实际应答语句。
21.如权利要求1的对话装置,其中,输出控制装置输出形式应答语句并随后输出实际应答语句。
22.如权利要求21的对话装置,其中,输出控制装置从实际应答语句中删除形式应答语句和实际应答语句之间的重叠并输出所合成的实际应答语句。
23.如权利要求1的对话装置,其中,输出控制装置连接形式应答语句和实际应答语句并输出一个结果。
24.一种通过响应输入语句而输出应答语句的交互方法,包括以下步骤:
响应输入语句获取形式应答语句;
响应输入语句获取实际应答语句;以及
控制形式应答语句和实际应答语句的输出,以致于响应该输入语句输出最终的应答语句。
25.一种使计算机通过响应输入语句而输出应答语句的交互程序,该程序包括以下步骤:
响应输入语句获取形式应答语句;
响应输入语句获取实际应答语句;以及
控制形式应答语句和实际应答语句的输出,以致于响应该输入语句输出最终的应答语句。
26.一种包括存储在其上使计算机通过响应输入语句而输出应答语句的交互程序的存储介质,该程序包括以下步骤:
响应输入语句获取形式应答语句;
响应输入语句获取实际应答语句;以及
控制形式应答语句和实际应答语句的输出,以致于响应该输入语句输出最终的应答语句。
27.一种用于响应输入语句而输出应答语句的交互对话装置,包括:
形式应答语句获取单元,配置为响应输入语句获取形式应答语句;
实际应答语句获取单元,配置为响应输入语句获取实际应答语句;以及
输出单元,配置为控制形式应答语句和实际应答语句的输出以至于响应输入语句输出最终的应答语句。
CNB2005101038327A 2004-07-26 2005-07-26 通过响应输入语句而输出应答语句的交互对话装置和方法 Expired - Fee Related CN100371926C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP217429/04 2004-07-26
JP2004217429A JP2006039120A (ja) 2004-07-26 2004-07-26 対話装置および対話方法、並びにプログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
CN1734445A true CN1734445A (zh) 2006-02-15
CN100371926C CN100371926C (zh) 2008-02-27

Family

ID=35658393

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101038327A Expired - Fee Related CN100371926C (zh) 2004-07-26 2005-07-26 通过响应输入语句而输出应答语句的交互对话装置和方法

Country Status (3)

Country Link
US (1) US20060020473A1 (zh)
JP (1) JP2006039120A (zh)
CN (1) CN100371926C (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551998B (zh) * 2009-05-12 2011-07-27 上海锦芯电子科技有限公司 一种语音互动系统以及其和人的语音互动方法
CN104347069A (zh) * 2013-07-31 2015-02-11 通用汽车环球科技运作有限责任公司 使用附加传感器来控制语音对话
CN105306281A (zh) * 2015-12-03 2016-02-03 腾讯科技(深圳)有限公司 信息处理方法及客户端
CN105960674A (zh) * 2014-02-18 2016-09-21 夏普株式会社 信息处理装置
CN107526763A (zh) * 2016-06-16 2017-12-29 松下知识产权经营株式会社 处理方法、处理系统及记录介质
CN107729350A (zh) * 2017-08-29 2018-02-23 百度在线网络技术(北京)有限公司 路线优劣查询方法、装置、设备及存储介质
CN108153802A (zh) * 2016-12-06 2018-06-12 卡西欧计算机株式会社 对话代理、响应语句生成方法、以及计算机可读取的非易失性存储介质
CN108491378A (zh) * 2018-03-08 2018-09-04 国网福建省电力有限公司 电力信息运维智能应答系统
CN109635098A (zh) * 2018-12-20 2019-04-16 东软集团股份有限公司 一种智能问答方法、装置、设备及介质
CN110033762A (zh) * 2017-11-28 2019-07-19 丰田自动车株式会社 语音对话设备、语音对话方法和程序
CN110162605A (zh) * 2018-02-15 2019-08-23 阿尔派株式会社 检索结果提供装置及检索结果提供方法
CN111055291A (zh) * 2018-10-17 2020-04-24 株式会社日立大厦系统 引导机器人系统和引导方法
CN111381685A (zh) * 2018-12-29 2020-07-07 北京搜狗科技发展有限公司 一种句联想方法和装置
CN112101037A (zh) * 2019-05-28 2020-12-18 云义科技股份有限公司 语意相似度计算方法
JP2021076677A (ja) * 2019-11-07 2021-05-20 Jeインターナショナル株式会社 自動発信システム、処理方法、およびプログラム

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8126713B2 (en) * 2002-04-11 2012-02-28 Shengyang Huang Conversation control system and conversation control method
US7552053B2 (en) * 2005-08-22 2009-06-23 International Business Machines Corporation Techniques for aiding speech-to-speech translation
JP4849662B2 (ja) * 2005-10-21 2012-01-11 株式会社ユニバーサルエンターテインメント 会話制御装置
JP4849663B2 (ja) * 2005-10-21 2012-01-11 株式会社ユニバーサルエンターテインメント 会話制御装置
JP4846336B2 (ja) * 2005-10-21 2011-12-28 株式会社ユニバーサルエンターテインメント 会話制御装置
WO2007087682A1 (en) * 2006-02-01 2007-08-09 Hr3D Pty Ltd Human-like response emulator
US8150692B2 (en) 2006-05-18 2012-04-03 Nuance Communications, Inc. Method and apparatus for recognizing a user personality trait based on a number of compound words used by the user
US8706487B2 (en) * 2006-12-08 2014-04-22 Nec Corporation Audio recognition apparatus and speech recognition method using acoustic models and language models
JP2008203559A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 対話装置及び方法
JP4987623B2 (ja) * 2007-08-20 2012-07-25 株式会社東芝 ユーザと音声により対話する装置および方法
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US8990200B1 (en) * 2009-10-02 2015-03-24 Flipboard, Inc. Topical search system
TWI396581B (zh) * 2009-12-10 2013-05-21 Compal Communications Inc 機器娃娃隨機對答系統及其方法
EP2574169B1 (en) * 2010-05-19 2022-04-13 Nanomedical Systems, Inc. Nano-scale coatings and related methods suitable for in-vivo use
JP5166503B2 (ja) * 2010-10-28 2013-03-21 株式会社東芝 対話装置
US8364709B1 (en) * 2010-11-22 2013-01-29 Google Inc. Determining word boundary likelihoods in potentially incomplete text
US9400778B2 (en) * 2011-02-01 2016-07-26 Accenture Global Services Limited System for identifying textual relationships
US8775190B2 (en) * 2011-02-04 2014-07-08 Ryohei Tanaka Voice-operated control circuit and method for using same
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
JP2014191212A (ja) * 2013-03-27 2014-10-06 Seiko Epson Corp 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
JP2014219594A (ja) * 2013-05-09 2014-11-20 ソフトバンクモバイル株式会社 会話処理システム及びプログラム
US20140337011A1 (en) * 2013-05-13 2014-11-13 International Business Machines Corporation Controlling language tense in electronic content
US9865255B2 (en) * 2013-08-29 2018-01-09 Panasonic Intellectual Property Corporation Of America Speech recognition method and speech recognition apparatus
JP6158006B2 (ja) * 2013-09-17 2017-07-05 株式会社東芝 音声処理装置、方法、及びプログラム
US9514748B2 (en) * 2014-01-15 2016-12-06 Microsoft Technology Licensing, Llc Digital personal assistant interaction with impersonations and rich multimedia in responses
JP2015176058A (ja) * 2014-03-17 2015-10-05 株式会社東芝 電子機器、方法及びプログラム
US20150325136A1 (en) * 2014-05-07 2015-11-12 Jeffrey C. Sedayao Context-aware assistant
US9390706B2 (en) 2014-06-19 2016-07-12 Mattersight Corporation Personality-based intelligent personal assistant system and methods
JP6306447B2 (ja) * 2014-06-24 2018-04-04 Kddi株式会社 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム
EP3166104B1 (en) * 2014-07-02 2019-09-18 Yamaha Corporation Voice synthesizing apparatus,voice synthesizing method, and program therefor
JP6390264B2 (ja) * 2014-08-21 2018-09-19 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
JP6299563B2 (ja) * 2014-11-07 2018-03-28 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
US10083169B1 (en) * 2015-08-28 2018-09-25 Google Llc Topic-based sequence modeling neural networks
JP2017058406A (ja) * 2015-09-14 2017-03-23 Shannon Lab株式会社 コンピュータシステムおよびプログラム
CN105573710A (zh) * 2015-12-18 2016-05-11 合肥寰景信息技术有限公司 一种网络社区的语音服务方法
JP6205039B1 (ja) * 2016-09-16 2017-09-27 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
CN107885756B (zh) 2016-09-30 2020-05-08 华为技术有限公司 基于深度学习的对话方法、装置及设备
JP6810757B2 (ja) * 2016-12-27 2021-01-06 シャープ株式会社 応答装置、応答装置の制御方法、および制御プログラム
KR102653450B1 (ko) * 2017-01-09 2024-04-02 삼성전자주식회사 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치
US10229685B2 (en) * 2017-01-18 2019-03-12 International Business Machines Corporation Symbol sequence estimation in speech
CN106875940B (zh) * 2017-03-06 2020-08-14 吉林省盛创科技有限公司 一种基于神经网络的机器自学习构建知识图谱训练方法
JP6610965B2 (ja) * 2017-03-10 2019-11-27 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
CN107220296B (zh) * 2017-04-28 2020-01-17 北京拓尔思信息技术股份有限公司 问答知识库的生成方法、神经网络的训练方法以及设备
JP6674411B2 (ja) * 2017-05-02 2020-04-01 日本電信電話株式会社 発話生成装置、発話生成方法、及び発話生成プログラム
WO2018231106A1 (en) * 2017-06-13 2018-12-20 Telefonaktiebolaget Lm Ericsson (Publ) First node, second node, third node, and methods performed thereby, for handling audio information
JP6972788B2 (ja) * 2017-08-31 2021-11-24 富士通株式会社 特定プログラム、特定方法および情報処理装置
CN107943896A (zh) * 2017-11-16 2018-04-20 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN108427671B (zh) * 2018-01-25 2021-06-25 腾讯科技(深圳)有限公司 信息转换方法和装置、存储介质及电子装置
CN108364658A (zh) * 2018-03-21 2018-08-03 冯键能 虚拟聊天方法及服务端
JP6648786B2 (ja) * 2018-07-26 2020-02-14 ヤマハ株式会社 音声制御装置、音声制御方法およびプログラム
JP6555838B1 (ja) * 2018-12-19 2019-08-07 Jeインターナショナル株式会社 音声問合せシステム、音声問合せ処理方法、スマートスピーカー運用サーバー装置、チャットボットポータルサーバー装置、およびプログラム。
JP6985311B2 (ja) * 2019-02-06 2021-12-22 Kddi株式会社 相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法
US11138978B2 (en) 2019-07-24 2021-10-05 International Business Machines Corporation Topic mining based on interactionally defined activity sequences
CN110473540B (zh) * 2019-08-29 2022-05-31 京东方科技集团股份有限公司 语音交互方法及系统、终端设备、计算机设备及介质
JP7267234B2 (ja) * 2020-05-20 2023-05-01 三菱電機株式会社 音声出力制御装置、音声出力制御方法および音声出力制御プログラム
CN112559714B (zh) * 2020-12-24 2024-04-12 北京百度网讯科技有限公司 对话生成方法、装置、电子设备及存储介质
JP7474211B2 (ja) * 2021-03-01 2024-04-24 Kddi株式会社 ユーザから発話された名詞を忘却する対話プログラム、装置及び方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN2156631Y (zh) * 1993-04-01 1994-02-16 阙学军 电话自动扬声应答装置
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5685000A (en) * 1995-01-04 1997-11-04 U S West Technologies, Inc. Method for providing a linguistically competent dialogue with a computerized service representative
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6236968B1 (en) * 1998-05-14 2001-05-22 International Business Machines Corporation Sleep prevention dialog based car system
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6321198B1 (en) * 1999-02-23 2001-11-20 Unisys Corporation Apparatus for design and simulation of dialogue
US20020005865A1 (en) * 1999-12-17 2002-01-17 Barbara Hayes-Roth System, method, and device for authoring content for interactive agents
JP2001188784A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
JP2001188783A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
WO2001086491A2 (en) * 2000-05-11 2001-11-15 University Of Southern California Machine translation techniques
US6950793B2 (en) * 2001-01-12 2005-09-27 International Business Machines Corporation System and method for deriving natural language representation of formal belief structures
US6751591B1 (en) * 2001-01-22 2004-06-15 At&T Corp. Method and system for predicting understanding errors in a task classification system
JP2002283261A (ja) * 2001-03-27 2002-10-03 Sony Corp ロボット装置及びその制御方法、並びに記憶媒体
JP3944163B2 (ja) * 2001-05-29 2007-07-11 インターナショナル・ビジネス・マシーンズ・コーポレーション オフィス・アプリケーションにおいて内容に依存するヘルプ情報を提供する方法、プログラム、およびシステム
US6990451B2 (en) * 2001-06-01 2006-01-24 Qwest Communications International Inc. Method and apparatus for recording prosody for fully concatenated speech
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method
US20030066025A1 (en) * 2001-07-13 2003-04-03 Garner Harold R. Method and system for information retrieval
US7167832B2 (en) * 2001-10-15 2007-01-23 At&T Corp. Method for dialog management
US7610556B2 (en) * 2001-12-28 2009-10-27 Microsoft Corporation Dialog manager for interactive dialog with computer user
JP2003345794A (ja) * 2002-05-27 2003-12-05 Sharp Corp 電子翻訳装置
US7249019B2 (en) * 2002-08-06 2007-07-24 Sri International Method and apparatus for providing an integrated speech recognition and natural language understanding for a dialog system
JP2004118740A (ja) * 2002-09-27 2004-04-15 Toshiba Corp 質問応答システム、質問応答方法、質問応答プログラム
KR100580619B1 (ko) * 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
JP3944159B2 (ja) * 2003-12-25 2007-07-11 株式会社東芝 質問応答システムおよびプログラム
US20050256700A1 (en) * 2004-05-11 2005-11-17 Moldovan Dan I Natural language question answering system and method utilizing a logic prover
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551998B (zh) * 2009-05-12 2011-07-27 上海锦芯电子科技有限公司 一种语音互动系统以及其和人的语音互动方法
CN104347069A (zh) * 2013-07-31 2015-02-11 通用汽车环球科技运作有限责任公司 使用附加传感器来控制语音对话
CN105960674A (zh) * 2014-02-18 2016-09-21 夏普株式会社 信息处理装置
CN105306281B (zh) * 2015-12-03 2019-05-14 腾讯科技(深圳)有限公司 信息处理方法及客户端
CN105306281A (zh) * 2015-12-03 2016-02-03 腾讯科技(深圳)有限公司 信息处理方法及客户端
CN107526763A (zh) * 2016-06-16 2017-12-29 松下知识产权经营株式会社 处理方法、处理系统及记录介质
CN108153802A (zh) * 2016-12-06 2018-06-12 卡西欧计算机株式会社 对话代理、响应语句生成方法、以及计算机可读取的非易失性存储介质
CN108153802B (zh) * 2016-12-06 2021-11-12 卡西欧计算机株式会社 对话代理、响应语句生成方法、以及计算机可读取的非易失性存储介质
CN107729350A (zh) * 2017-08-29 2018-02-23 百度在线网络技术(北京)有限公司 路线优劣查询方法、装置、设备及存储介质
CN110033762A (zh) * 2017-11-28 2019-07-19 丰田自动车株式会社 语音对话设备、语音对话方法和程序
CN110033762B (zh) * 2017-11-28 2023-04-07 丰田自动车株式会社 语音对话设备、语音对话方法和程序
CN110162605A (zh) * 2018-02-15 2019-08-23 阿尔派株式会社 检索结果提供装置及检索结果提供方法
CN108491378B (zh) * 2018-03-08 2021-11-09 国网福建省电力有限公司 电力信息运维智能应答系统
CN108491378A (zh) * 2018-03-08 2018-09-04 国网福建省电力有限公司 电力信息运维智能应答系统
CN111055291A (zh) * 2018-10-17 2020-04-24 株式会社日立大厦系统 引导机器人系统和引导方法
CN111055291B (zh) * 2018-10-17 2022-11-15 株式会社日立大厦系统 引导机器人系统和引导方法
CN109635098A (zh) * 2018-12-20 2019-04-16 东软集团股份有限公司 一种智能问答方法、装置、设备及介质
CN109635098B (zh) * 2018-12-20 2020-08-21 东软集团股份有限公司 一种智能问答方法、装置、设备及介质
CN111381685A (zh) * 2018-12-29 2020-07-07 北京搜狗科技发展有限公司 一种句联想方法和装置
CN111381685B (zh) * 2018-12-29 2024-03-22 北京搜狗科技发展有限公司 一种句联想方法和装置
CN112101037A (zh) * 2019-05-28 2020-12-18 云义科技股份有限公司 语意相似度计算方法
JP2021076677A (ja) * 2019-11-07 2021-05-20 Jeインターナショナル株式会社 自動発信システム、処理方法、およびプログラム

Also Published As

Publication number Publication date
US20060020473A1 (en) 2006-01-26
CN100371926C (zh) 2008-02-27
JP2006039120A (ja) 2006-02-09

Similar Documents

Publication Publication Date Title
CN1734445A (zh) 用于对话的方法、装置和程序及其中存储程序的存储介质
CN1105464A (zh) 能识别口述命令的交互式计算机系统
CN1109994C (zh) 文件处理装置与记录媒体
CN1237502C (zh) 生成声音模型的方法、装置和生成声音模型的计算机程序
CN1324556C (zh) 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
CN1624696A (zh) 信息处理设备、方法及其程序、信息处理系统及其方法
CN1225484A (zh) 地址识别设备和方法
CN1328321A (zh) 通过语音提供信息的装置和方法
CN1462428A (zh) 语音处理装置
CN1842702A (zh) 声音合成装置和声音合成方法
CN1316083A (zh) 使用语音识别模型的自动的语言评估
CN1331449A (zh) 用于将粘着法构成的文本或文档分段成词的字符串划分或区分的方法及相关系统
CN1864204A (zh) 用来完成语音识别的方法、系统和程序
CN1228866A (zh) 语音处理系统及方法
CN1856036A (zh) 字幕产生设备和方法
CN1719454A (zh) 几何代价和语义-识别代价融合的脱机手写汉字切分方法
CN1151573A (zh) 声音识别方法,信息形成方法,声音识别装置和记录介质
CN1620659A (zh) 多种语言的数据库创建系统和方法
CN1447261A (zh) 特定要素、字符串向量生成及相似性计算的装置、方法
CN1311423C (zh) 利用多语言字典执行语音识别的系统和方法
CN1755663A (zh) 信息处理设备、信息处理方法和程序
CN1702736A (zh) 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
CN1471078A (zh) 字识别设备、字识别方法和字识别程序
CN1813285A (zh) 语音合成设备、语音合成方法和程序
CN1604076A (zh) 文章信息处理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080227

Termination date: 20100726