CN101840640A

CN101840640A - 语音互动系统与方法

Info

Publication number: CN101840640A
Application number: CN200910127642A
Authority: CN
Inventors: 张耀元; 张森嘉; 简世杰; 涂家章
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2009-03-19
Filing date: 2009-03-19
Publication date: 2010-09-22
Anticipated expiration: 2029-03-19
Also published as: CN101840640B

Abstract

本发明涉及一种语音互动系统与方法，该系统包含一目标信息接收模块、一互动模式设定与语音处理模块、一互动信息更新模块、一决策模块、及一输出响应模块。目标信息接收模块接收目标信息并设定相对应的目标文句信息。互动模式设定与语音处理模块接收使用者语音信号，设定一互动模式与决定语音的目标文句信息，并输出目标文句的语音评量结果。互动信息更新模块在设定的互动模式下，根据语音评量结果和一时间计数，更新一互动信息记录表的信息。决策模块根据此互动模式和互动信息记录表的信息来决定目标文句信息的输出模式。输出响应模块根据此决定的输出模式和互动信息记录表的信息来输出响应信息。

Description

语音互动系统与方法

技术领域

本发明涉及一种语音互动(Speech Interactive)系统与方法。

背景技术

目前许多的语音互动系统或装置的特色是使机器能自动理解使用者的意图而用以达到某种特定标的，例如通过语音命令方式来操控终端设备，使用语音对话来理解使用者意图，并回馈相对应的信息或动作。其要点在响应与使用者的意图相对应的正确信息为标的，以符合使用者期望。另一类的语音互动系统或装置的特色是用来学习语言，其应用主要是通过学习者所输入的语音来进行对话和响应或进行发音评量，以达到认知学习标的。此类的语音互动系统或装置的实现方式也常是以响应与使用者的意图相对应的正确信息为标的来实施，其施行的学习策略大概含有以下几个要点。

(1)以直接教导来传达信息，并通过练习来达到认知学习标的；(2)辅以可视化信息，以问题或回馈来达到认知学习标的；(3)以探究式或发现式学习策略，并搭配计算机仿真信息或以虚拟实境的对象为探索对象来建构知识；(4)以评量问卷来检视学习成果以及学习历程，以激励学习者的自律学习。基本上多半都是以直接教导或以引导式做法来促进学习。

语音互动的现有文献有很多，例如中国台湾专利证书号I1247249揭露的交互式智能型语言教学玩偶，其利用因特网为基础的数字内容下载程序以及以虚拟玩偶为人机接口，提供交互式智能型语言教学与导正。通过交互式玩偶提供语音辨识处理，并利用玩偶内建或自网络上下载的标准语音数据库，实时判断儿童的发音是否正确以及提供正确对话的导引。而中国台湾专利证书号M244956揭露的一种具有双向对话功能的语音玩具，是将一麦克风、语音控制装置、播放器及周边装置固设于一玩偶本体内，外界所输入的语词可通过麦克风而被传输至语音控制装置，语音控制装置判断此输入语词并依据输入语词来发出执行指令，进而控制播放器播报时间数据或输出语词，也可以控制周边装置投射绚烂光源或摆动玩偶本体，并且每一输入语词皆具有多个相对应的输出语词。

中国专利公开号CN 1581130A揭露一种具语音辨识的交互式语言学习方法，包括：检索并播放语音声音数据；辨识输入的一个练习者的练习声音信号，并产生语音辨识数据；以及比对此两数据以产生一个近似度值，并根据此近似度值来决定练习者练习此语音声音数据的正确性。而中国专利公开号CN 101064070A揭露的交互式智能型语言教学玩偶系统系利用可网络连结，可语音辨识的智能型玩偶进行语言教学，以玩偶当系统前台，以网络服务器为后台记录与储存系统相关的数据，提供一个适合儿童的自动化语言教学辅助系统。

美国专利案5,281,143揭露一种学习玩偶(Learning Doll)100，如图1所示，学习玩偶包含一头部(Head)102和一本体(Body)104。当电源是关闭时，可通过轻吻(Kiss)106此玩偶来触动开关108以开起电源，并且通知微处理器暨语音合成器(Microprocessor And Speech Synthesizer)110触动检测机制已经被触发了。微处理器暨语音合成器110通过电源放大器/滤波器(Power Amplifier/Filter)116将声音传递至麦克风114。微处理器暨语音合成器110通过倾听放大器(listen Amplifier)120也会检测出在麦克风114发出的声音。微处理器暨语音合成器110也可以触动头部102里的电子马达(Electric Motor)122，使玩偶的嘴唇配合合成的语音间歇地振动，而更加栩栩如生。依此，玩偶可通过学习者语音(Human Speech)与交互式接触(Touch Interaction)的组合，进行语言教学。

发明内容

欲解决的技术问题：现有技术文献中尚未见到以教学相长(Learning By Teaching)为标的来设计语音互动的机制，以激励学习者持续对该学习内涵做正确的练习，以使被教导的虚拟或实体对象最后能做出正确的回应，让学习者通过教导来达到学习目的，为此，本发明的目的是提供一种语音互动系统与方法。

为达成所述目的，根据本发明所揭露的实施范例中，可提供一种语音互动系统与方法。

在一实施范例中，所揭露的是有关于一种语音互动系统，此系统包含一目标信息接收模块、一互动模式设定与语音处理模块、一互动信息更新模块、一决策模块、以及一输出响应模块。目标信息接收模块接收目标信息并设定相对应的目标文句信息。互动模式设定与语音处理模块接收使用者语音信号，设定一互动模式与决定语音的目标文句信息，并输出目标文句的语音评量结果。互动信息更新模块在设定的互动模式下，根据此目标文句信息以及一时间计数，更新一互动信息记录表。决策模块根据互动模式设定与语音处理模块设定的互动模式和互动信息记录表的信息来决定目标文句信息的输出模式。输出响应模块根据决策模块决定的输出模式和互动信息记录表的信息来输出响应信息。

在另一实施范例中，所揭露的是有关于一种语音互动方法，此方法包含：准备一互动信息记录表来记录语音互动文句信息：接收使用者输入的语音信号并决定语音的目标文句信息或同时接收给定的目标文句信息，以提供使用者以不同的互动模式进行语音互动操作；对目标文句信息进行语音评量并产生一语音评量结果；若同时接收给定的目标文句信息，则根据所产生的语音评量结果和一时间计数，更新此互动信息记录表的信息；根据不同的互动模式和此互动信息记录表的信息来决定目标文句信息的输出模式；以及根据决定的输出模式和此互动信息记录表的信息来输出响应信息。

附图说明

图1是一种现有的学习玩偶的一个范例示意图。

图2是一种语音互动系统的一个范例示意图，并且与本发明的某些揭露的实施范例一致。

图3是互动模式设定与语音处理模块的一个范例示意图，并且与本发明的某些揭露的实施范例一致。

图4是一个范例流程图，说明语音评量的运作，并且与本发明的某些揭露的实施范例一致。

图5是互动信息记录表的一个范例示意图，并且与本发明的某些揭露的实施范例一致。

图6是一个范例示意图，说明互动信息更新模块与一时间计数器之间的运作，并且与本发明的某些揭露的实施范例一致。

图7是一个范例示意图，说明决策模块的细部运作，并且与本发明的某些揭露的实施范例一致。

图8是一个范例示意图，说明输出响应模块的细部运作，并且与本发明的某些揭露的实施范例一致。

图9是一个范例流程，说明中间状态输出的运作过程，并且与本发明的某些揭露的实施范例一致。

图10是语音互动系统在教学模式下的一个工作范例，并且与本发明的某些揭露的实施范例一致。

图11是语音互动系统在交谈模式下的一的一个工作范例，并且与本发明的某些揭露的实施范例一致。

图12是语音互动系统应用于一玩具本体上的一的一个范例示意图，并且与本发明的某些揭露的实施范例一致。

图13是一范例示意图，说明本揭露的语音互动方法的主要步骤，并且与本发明的某些揭露的实施范例一致。

【主要元件符号说明】

具体实施方式

兹配合下列图标、实施范例的详细说明及申请专利范围，将上述及本发明的其它特征与优点详述于后。

本发明以教学相长为标的之一来设计语音互动系统与方法。此教学相长的内涵是，学习者先了解学习内涵，并通过对该学习内涵的认知来对某一虚拟或实体对象进行教导，通过该虚拟或实体对象的响应来让学习者了解该虚拟或实体对象的学习状态，以激励学习者持续对该学习内涵做正确的练习，以使该虚拟或实体对象最后能做出正确的回应，让学习者通过教导来达到学习目的。

本揭露的实施范例中，创造出一种虚拟或实体系统，让学习者能通过语音与之互动；建构了一种可接收虚拟或实体学习标的功能的机制，让学习者能依照其需求设定学习标的；建构了一种语音互动机制，让此虚拟或实体系统能接收并认知学习者对此学习标的所输入的语音并作语音评量；为此虚拟或实体系统建构一种遗忘机制，来督促学习者能对学习标的做持续性的练习；建构了可输出此虚拟或实体对象对学习标的学习状态，让学习者或其它使用者通过此虚拟或实体对象的输出响应来了解学习者对学习标的认知情形。

依此，图2是一种语音互动系统的一个范例示意图，并且与本发明的某些揭露的实施范例一致。参考图2，语音互动系统200包含一目标信息接收模块210、一互动模式设定与语音处理模块220、一互动信息更新模块230、一决策模块240、以及一输出响应模块250。目标信息接收模块210接收目标信息210a并设定相对应的目标文句信息210b。互动模式设定与语音处理模块220接收使用者语音信号220a，设定一互动模式220b与决定语音的目标文句信息，并输出目标文句的语音评量结果220c。互动信息更新模块230根据来自互动模式设定与语音处理模块220的目标文句的语音评量结果220c以及一时间计数230a，更新一互动信息记录表230b。决策模块240根据互动模式设定与语音处理模块220设定的互动模式220b和互动信息记录表230b的信息来决定目标文句信息的输出模式240b。输出响应模块250根据决策模块240决定的输出模式240b和互动信息记录表230b的信息来输出响应信息250b。如此，让学习者或其它使用者通过此响应信息250b来了解学习者对学习标的认知情形。时间计数230a可通过一时间计数器来产生。互动信息记录表230b记录语音互动文句的信息。

根据本发明，语音互动系统200可让使用者以不同模式进行语音互动操作，也就是说，互动模式设定与语音处理模块220设定的互动模式220b可以有不同的内涵，例如其内涵可为教学模式或交谈模式等。而互动操作的标的设定可由使用者所输入的语音信号或是同时给定目标信息来进行设定，此互动操作的标的设定可用下列式子来表示。

互动标的＝f(输入目标i语音，输入目标j信息)，其中

若(i＝j)或(j＝NULL)，则互动标的＝目标i，

若(i≠j)，则互动标的＝目标j，

若(i＝NULL)，则互动标的＝NULL。

以上式子的含意为：(a)当仅有使用者语音信号输入时(即j为NULL的情况)，互动操作的标的(即互动标的)为该语音信号所指述的目标文句(Target Speech)信息(即互动标的＝目标i)；(b)当有给定目标信息和语音信号输入时，该语音信号所指述的目标文句信息必须与给定的目标信息所对应的目标文句信息一致(即i＝j的情况)，互动操作的标的始为上述该二者所指述的目标文句信息(互动标的＝即目标i)；(c)当输入的语音信号所指述的目标文句信息与给定的目标信息所对应的目标文句信息不一致时(即i≠j的情况)，则互动操作的标的为该给定的目标信息所对应的目标文句信息(即互动标的＝目标j)；(d)当无语音信号输入时(即i为NULL的情况)，则无互动操作的标的(即互动标的＝NULL)。

而互动模式设定与语音处理模块220的互动模式220b的设定则端看是否给定目标信息210a而定。当给定目标信息210a时，互动模式220b的内涵为教学模式，否则为交谈模式。对应到上述互动操作标的设定，教学模式为上述(b)与(c)的情况，而交谈模式为上述(a)的情况。互动模式220b的内涵为教学模式时，此教学模式的信息是传送给互动信息更新模块230。互动模式220b的内涵为交谈模式时，此交谈模式的信息是传送给决策模块240。

承上述，图3是互动模式设定与语音处理模块220的一个范例示意图，并且与本发明的某些揭露的实施范例一致。参考图3，目标信息接收模块210于接收目标信息210a后，取得目标信息210a所设定的目标项目(Target Item)信息210b，并将此目标项目信息传送给互动模式设定与语音处理模块220。例如目标信息接收模块210接收到目标信息“Apple”，将目标信息“Apple”传送给互动模式设定与语音处理模块220。目标信息和目标信息接收模块例如可以使用无线射频识别(Radio Frequency Identification，RFID)标签(Tag)和RFID读取器(Reader)、或是条形码(Barcode)和条形码读取器(Barcode Reader)、或是对象(Object)和对象图像辨识(Object-Oriented Image identification)、或是屏幕选单列举(Screen Menu List)和选单点选、或是其它可能的技术手段来达成。

互动模式设定与语音处理模块220于接收目标项目信息后，设定目前操作模式为教学模式301a，之后依照目标项目信息自互动信息记录表取得对应的互动文句，并等待使用者输入语音信号。当使用者输入语音信号时，依照该互动文句对该语音信号进行语音评量310。当使用者未给定目标信息而仅有语音信号输入互动模式设定与语音处理模块220时，设定目前操作模式为交谈模式301b后，语音辨识单元320以互动信息记录表里所有的互动文句为辨识标的来辨识出该输入的语音信号所对应的目标文句，并以该目标文句和该输入语音信号进行语音评量310。

图4是一个范例流程图，说明语音评量的运作，并且与本发明的某些揭露的实施范例一致。参考图4，根据从互动信息记录表取得对应的互动文句410a，以一语句验证方法(Utterance Verification)410验证输入的语音信号，并取得一验证分数410b。根据本发明，也可使用其它可衡量输入的语音信号与互动文句410a的关联性分数作为验证分数410b来运作，例如以语音辨识分数作为验证分数。取得验证分数之后，将验证分数410b与一设定的门槛值做比较，如步骤420所示。当该验证分数大于该门槛值时，则该输入的语音信号为一合格语音，否则为一不合格语音。

当输入的语音信号为一合格语音时，在目前操作模式为教学模式下，其后续的处理依序包括进行门槛调校、更新目前的互动文句信息、以及进入决策模块做处理等。门槛调校的用意是避免过高的门槛值设定可能造成使用者无法使用的问题或是过低的门槛值设定可能造成使用者任意输入非该互动文句的评量效果低落问题。门槛值的设定也可以使用一动态调校方法做门槛值的调校，以使该门槛值能依照使用者的语音特性来进行动态调整。门槛值的调整例如可以参考前几次验证分数做门槛调整，一开始可设定一较低门槛值(此门槛可事先收集训练信息取得)，之后可取用高于设定门槛值的验证分数或是参考其数次验证分数的线性组合，来进行动态调校。经过门槛调校之后可得到一新的门槛调校值，可作为下次语句验证门槛判断使用并提供给互动信息更新模块参考使用。

当输入的语音信号为一合格语音时，而在目前操作模式为交谈模式下，则直接进入决策模块做处理。当输入的语音信号为不合格语音时，也是直接进入决策模块做处理。

互动信息更新模块230接收互动模式设定与语音处理模块220所传递的目标文句信息后，依此更新互动信息记录表230b。此目标文句信息可包括如输入语音信号对应于该目标文句的互动文句、验证分数以及门槛调校值。在本揭露的实施范例中，于互动信息记录表230b里定义了几个关于目标词语的相对应的信息，例如互动文句、累积教导成效、评量门槛、难度、目标词语的响应信息等。目标词语的响应信息可以是多媒体信息如图像或语音等。图5是互动信息记录表230b的一个范例示意图，并且与本发明的某些揭露的实施范例一致。

图5的范例中，一开始尚未使用前的信息为默认值，譬如目标文句“Grape”的互动文句、累积教导成效、评量门槛、难度、目标词语的响应信息的默认值分别为Grape、0.0、-5.5、10.0、以及Grape的图像和语音。而每一目标文句的默认值可以是不相同的设定，譬如目标文句“Apple”与目标文句“This is a pencil”的难度分为8.0与30.0，以强调不同目标文句的学习难度。由互动模式设定与语音处理模块所传来的门槛调校值可以直接取代目标词语的相对应的评量门槛的信息，而累积教导成效可以用一个算式范例来得出：

累积教导成效

＝目前教导成效LC+之前的累积教导成效LT，

其中，目前教导成效LC是验证分数与评量门槛的函数，例如是验证分数与评量门槛两者的差值；而之前的累积教导成效LT若大于等于难度的话，则之前的累积教导成效LT等于难度。

例如，互动模式设定与语音处理模块220传递目标文句“Apple”的验证分数以及门槛调校值分别为-2.0与-3.0，而互动信息记录表中，此目标文句“Apple”的累积教导成效LT为2.5，则利用此算式范例算出：

累积教导成效＝(-2.0-(-3.0))+2.5＝1.0+2.5＝3.5，

也就是说，目标文句“Apple”的累积教导成效为3.5。

换句话说，将使用者所发出来的语音评量分数视为是使用者对互动标的教导成效，并且是以使用者自己的语音特性所调校出来的评量门槛作为基础所评出来的分数。因此，虽然不同使用者因为语音特性的不同，可能会有不同评量门槛，但在教导成效的表现却是相似的，并且因为评量门槛会藉使用者过去的发音做动态调整，经过多次的调整之后，评量门槛会逐渐趋向稳定并符合使用者语音特性，也就迫使使用者必须要念出正确的发音始能获得好的教导成效(始能获得正向的响应信息)。如此，可期许使用者能通过正确的教导带来正确的学习效果。

另一个关于累积教导成效的算式范例是与搁置时间ΔT有关。当学习者有一段时间没有练习互动文句，将会渐渐遗忘此互动文句，本揭露的实施范例中，建立一种遗忘机制，来督促学习者能对学习标的做持续性的练习。根据本发明，遗忘信息与累积教导成效之间的关系可以用下列的算式范例来表达：

累积教导成效LT+ΔT＝累积教导成效LT-遗忘FT，

若0＜LT＜难度，则FT＝(1-LT/难度)×w；

若LT≥难度，或LT＝0，则FT＝0；

若FT≥LT，则FT＝LT；

其中，搁置时间ΔT为距离上次更新学习目标文句的单位时间，w为一权重。而每到达ΔT时，更新一次累积教导成效，权重w用来加强或降低因学习怠惰的惩罚。

本揭露中，将LT/难度视为是学习者对目标文句的习得程度，故此遗忘的算式(1-LT/难度)视为是学习者对目标文句尚未习得的程度，也就是说，此遗忘的算式(1-LT/难度)的值可经由累积教导成效与难度此两参数计算而得出，将此值视为是遗忘的因素。依此，随着时间增加，更新次数增加，累积教导成效LT也将随着递减，直到LT等于0为止。所以，如图6的范例所示，在教学模式下，除了从互动模式设定与语音处理模块220传递到互动信息更新模块230的信息会对互动信息记录表，如范例630b做更新之外，也会通过一时间计数器630在每一个单位时间ΔT时，对互动信息记录表引发一次更新。在实做上，单位时间ΔT例如可以设定每一小时或每一天更新一次，或是可以在互动信息记录表里为每一目标文句增加一个记录更新时间字段，以更仔细的依照更新时间进行目标文句的信息更新。

在教学模式下，互动信息更新模块230完成对互动信息记录表230b里的目标文句更新互动信息之后，即进入决策模块240，以根据互动信息记录表230b的信息来输出决策240b，并由输出响应模块250来输出响应信息250b。以下搭配图7与图8的范例，分别说明决策模块240与输出响应模块250之间的细部运作，并且与本发明的某些揭露的实施范例一致。

图7的范例中，决策模块240判断输入语音是否为一合格语音，如标号710所示。若非合格语音，则依照不同的互动模式来决定输出响应为“无目标文句”或是“具目标文句”的疑惑输出(Confused Output)。若互动模式为交谈模式，则其输出方式为“无目标文句”的疑惑输出，如范例741所示。若互动模式为教学模式，则其输出方式为“具目标文句”的疑惑输出，如范例742所示。两者的差异在于是否可表现出相对应标的文句的输出响应，譬如是否将标的文句的对应图像(此范例图像是一粒苹果)呈现出来。而两者的相同处在表达对输入语音的疑惑反应，以要求使用者重新作输入的表达。

在实作上，两者的响应可以视需要来做多样化的设计或是简化的设计，譬如以多种输出的图像或语音来表达“无目标文句”或是“具目标文句”的疑惑输出，以丰富响应的表现型式，或是不论何种操作模式皆用同一种疑惑反应为输出响应来简化表现型式。对于“具目标文句”的疑惑输出，也可以再加入该目标文句的正确输出响应(Learned Output)，如范例743所示。此正确输出响应可以教导学习者对该目标文句的正确表达，也可以让学习者了解该目标信息与正确输出响应之间的对应关系，如此，学习者纵使在无旁人教导下也能做自我学习。此教导学习者的引发动作是出现在当目标信息和学习者的语音与实际发音差异甚大时，亦即输入语音为不合格语音的情形。像无目标信息情况(不易确实掌握学习者实际意图)或是合格的语音输入(学习者已知如何发音无需再提示)就没有必要也不会出现此教导学习者的引发动作。

对于合格语音部分，决策模块240取用互动信息记录表里该目标文句的互动信息的累积教导成效和难度来判断该目标文句是否已被学习完成，如标号720所示。若累积教导成效为大于等于难度时，表示该目标文句已被学习完成，则输出该目标文句正确的输出响应，如范例743所示；否则表示尚未学习完成，并且由该目标文句的累积教导成效可判定其目标词语是否被学习过，如标号730所示。若累积教导成效为0(因过久未练习亦可能因遗忘而使累积教导成效被递减为0)，此时决策模块240判定其目标词语为尚未学过的文句，可输出“具目标文句”的疑惑输出，如范例742所示；或是可用如前所述与“无目标文句”的同一种疑惑反应为输出响应来简化表现型式。

因此，通过此输出响应可让学习者了解虚拟或实体对象的学习状态，以激励学习者持续对学习内涵做正确的练习，以使此虚拟或实体对象最后能做出正确的回应，让学习者通过教导来达到学习目的。

而对于其它已学习过但尚未学习完成的输出响应，则依照该目标文句的学习表现制作学习过程信息来进行输出。因此，可让学习者或其它使用者通过此虚拟或实体对象的输出响应来了解学习者对学习标的认知情形，并且通过对该学习内涵的认知来对某一虚拟或实体对象进行教导。

本揭露的实施范例中，将学习表现定义为一种累积教导成效与其学习难度的函数，也就是说，学习表现与累积教导成效、学习难度此两参数有关。当目标文句的累积教导成效等于其学习难度时，表示该日标文句已被学习完成，因此学习表现＝1。当累积教导成效等于0时，表示该目标文句为尚未学过，因此学习表现＝0。而当累积教导成效介于学习完成与尚未学过之间时，为一中间状态，此中间状态的学习表现是介于0与1之间的值(0＜学习表现＜1)，可将学习表现定义为LT/难度。

中间状态的输出可以依照LT/难度的比例输出与目标文句相对应的图标或图像来做响应，在语音的输出响应上，也可以比照图标或图像的输出方式，以LT/难度的比例进行输出与目标文句相对应的部分语音，如图8的范例所示。图8的范例中，以目标文句Apple为例，其难度为8，第一次输出时，累积教导成效LT等于2.5，中间状态的输出是以图像和相对应的部分语音来做响应，如范例841所示。第二次输出时，第二次的教导成效等于1，因此连同原先的累积教导成效2.5得到累积教导成效LT等于3.5，其中间状态的输出响应，如范例842所示。第三次输出时，第三次的教导成效等于4，因此连同原先的累积教导成效3.5得到累积教导成效LT等于7.5，其中间状态的输出响应，如范例843所示。第四次输出时，第四次的教导成效等于3，因此连同原先的累积教导成效7.5得到累积教导成效LT为大于难度，表示目标文句Apple已被学习完成，则输出目标文句正确的输出响应，如范例844所示。

中间状态的部分语音输出可有许多种表现形式，例如直接检索正确语音数据的LT/难度的比例的数据作为中间状态的语音输出、检索正确语音的LT/难度的比例的分辨率作为中间状态的语音输出、或是其它检索正确语音的LT/难度的比例的输出表现等，都是可实施的方式。以分辨率为例，若原本为每样本16个位(16-bit/sample)，可以降低其取样分辨率如每样本的位数为16×(LT/难度)的分辨率来进行中间状态的输出。

图9是一个范例流程，说明中间状态输出的运作过程，并且与本发明的某些揭露的实施范例一致。参考图9，一开始从一正确语音数据，任选其中k个语音单元(Speech Unit)作为修改标的，如步骤910所示。然后去除每一个语音单元的(1-LT/难度)比例的语音数据，如步骤920所示。每一修改后的语音数据拉长为与原正确语音相同长度，如步骤930所示。将此拉长后的语音数据做音调的调变，以产生学习之中间状态的语音输出，如步骤940所示。此语音输出的表现形式是以原始目标文句相对应的正确语音来对学习的中间状态做仿真输出，当系统有内存容量的限制时，可以用此范例流程的运作来制作多种变化的中间状态语音数据，以节省储存学习中间状态的语音数据的空间。若系统无内存容量限制，也可以预存用来表达学习的各种可能的中间状态的数据。

承上述，图10是语音互动系统200在教学模式下的一个工作范例，并且与本发明的某些揭露的实施范例一致。其中，目标信息210a以Apple为例，使用者语音输入，互动信息记录表的范例630b至少包括苹果(Apple)、葡萄(Grape)、香蕉(Banana)、铅笔(Pencil)等以及决策模块240的输出范例等，如前所述，不再重复。

如前所述，当使用者未给定目标信息时，此时互动模式设定与语音处理模块220将互动模式设定为交谈模式。当使用者语音信号输入至互动模式设定与语音处理模块220后，语音辨识单元320以互动信息记录表里所有的互动文句为辨识标的，来辨识出该输入的语音信号所对应的目标文句。之后，互动模式设定与语音处理模块220以该目标文句和该输入语音信号进行语音评量，以得出一验证分数，再将该验证分数与前述设定的门槛值做比较。当该验证分数大于该门槛值时，则该输入的语音信号为一合格语音，否则为一不合格语音。两者之后皆进入决策模块240进行处理，并于输出响应模块250做输出响应。决策模块与输出响应模块的实施与展现同前述教学模式所示。图11是语音互动系统200在交谈模式下的一个工作范例，并且与本发明的某些揭露的实施范例一致。

语音互动系统200也可以通过一种互动信息外部更新模块，来更新互动信息记录表。此互动信息外部更新模块可以让厂商在新增目标信息时，提供与该新增目标信息相对应的互动文句信息，来让使用者操作使用，如此也可以丰富语音互动系统200的内涵。此互动信息外部更新模块可置于一计算机系统中，以有线/无线方式联机至语音互动系统200，来对语音互动系统200内的互动信息记录表230b的内容做更新，也可以使用存储装置储存互动信息记录表230b，以抽换存储装置的方式来更新互动信息记录表。

另一种互动信息外部更新方式为，当语音互动系统200接收学习者的目标信息时，同时也让该目标信息相对应的目标文句信息传入语音互动系统200内的互动信息记录表中做检核，若互动信息记录表中无相同的目标文句信息时，则将该目标文句信息加入互动信息记录表内，以更新互动信息记录表的内容。换句话说，目标信息相对应的目标文句信息是由系统200的外部传入语音互动系统200内的互动信息记录表中做检核，进而更新互动信息记录表的内容。

图12是语音互动系统200应用于一玩具本体上的一个范例示意图，并且与本发明的某些揭露的实施范例一致。参考图12，语音互动系统200里的模块可内嵌于一玩具1200的本体(Body)1210内的一存储装置上。玩具本体1210还包括一中央处理单元(CPU)1210a、一麦克风1210b、以及一播放器1210c。中央处理单元1210a执行此存储装置上语音互动系统200的部分模块，例如互动模式设定与语音处理模块220、互动信息更新模块230、决策模块240。语音互动系统200中的图像信息部分可选择不置入于存储装置，也可选择不由中央处理单元1210a来执行。

语音互动系统200的目标信息接收模块210接收外来的目标信息。麦克风1210b可接收语音输入并传送至互动模式设定与语音处理模块220。播放器1210c，例如喇叭，可输出对应于前述教导成效的语音响应。

互动信息记录表230b可通过一计算机1220或终端设备通过联机装置(有线/无线信息传输)来进行更新。其更新内容可由厂商1230提供对应信息，或者，互动信息记录表也可以使用一存储模块，如存储卡1240，更换方式来进行更新，该互动信息记录表的内容可以由厂商提供对应信息于该存储模块内，以方便使用者以手动抽换方式进行更新。也可以通过内含文句信息的目标信息传入语音互动系统200内的互动信息记录表中做检核，来做互动信息记录表内容的更新。

根据上述语音互动系统200的实施范例的系统架构与工作范例，图13进一步说明本揭露的语音互动方法的主要步骤，并且与本发明的某些揭露的实施范例一致。

参考图13，准备一互动信息记录表来记录语音互动文句信息，如步骤1310所示。接收使用者输入的语音信号并决定语音的目标文句信息或同时接收给定的目标文句信息，以提供使用者以不同的互动模式进行语音互动操作，如步骤1320所示。对目标文句信息进行语音评量并产生一语音评量结果，如步骤1330所示。若同时接收给定的目标文句信息，则根据所产生的语音评量结果和一时间计数，更新此互动信息记录表的信息，如步骤1340所示。根据不同的互动模式、语音评量结果、及此互动信息记录表的信息，决定目标文句信息的输出模式，如步骤1350所示。根据决定的输出模式和互动信息记录表的信息来输出响应信息，如步骤1360所示。

在前述语音互动系统200的教学模式与交谈模式的两种互动模式下，本揭露的语音互动方法的细部运作过程，如前所述，不再重复。

综上所述，本揭露的实施范例所提供的语音互动系统与方法是以教学相长为标的来设计语音互动机制，以激励学习者持续对该学习内涵做正确的练习，以使被教导的虚拟或实体对象最后能做出正确的回应，让学习者通过教导来达到学习目的。此语音互动系统也可以通过一种互动信息外部更新模块，来更新互动信息记录表。本揭露的实施范例也可内嵌于玩具上，以吸引使用者增加学习兴趣和提高学习效果。

但，以上所述的仅为本发明的实施范例，当不能依此限定本发明实施的范围。即大凡本发明权利要求所作的均等变化与修饰，皆应仍属本发明专利涵盖的范围。

Claims

1.一种语音互动系统，其特征在于，该系统包含：

一目标信息接收模块，接收目标信息并设定相对应的目标文句信息；

一互动模式设定与语音处理模块，接收使用者语音信号，设定一互动模式与决定语音的目标文句信息，并输出目标文句的语音评量结果；

一互动信息更新模块，根据该目标文句的语音评量结果和一时间计数，更新一互动信息记录表的信息；

一决策模块，根据设定的该互动模式和该互动信息记录表的信息来决定目标文句信息的输出模式；以及

一输出响应模块，根据该决定的输出模式和该互动信息记录表的信息来输出响应信息。

2.如权利要求1所述的语音互动系统，其特征在于，当仅有使用者语音信号输入该互动模式设定与语音处理模块时，该互动模式被设定为一交谈模式。

3.如权利要求1所述的语音互动系统，其特征在于，当使用者语音信号输入该互动模式设定与语音处理模块且同时提供该目标项目信息给该互动模式设定与语音处理模块时，该互动模式被设定为一教学模式。

4.如权利要求2所述的语音互动系统，其特征在于，该交谈模式传送给该决策模块。

5.如权利要求3所述的语音互动系统，其特征在于，该教学模式传送给该互动信息更新模块。

6.如权利要求5所述的语音互动系统，其特征在于，当该输入的使用者语音信号通过一语句验证方法，而被判定为一不合格语音时，该教学模式还传送给该决策模块。

7.如权利要求1所述的语音互动系统，其特征在于，该互动信息记录表记录该语音互动文句的信息，该语音互动文句的信息是选自该目标文句的互动文句、累积教导成效、评量门槛、难度、目标词语的响应信息的前述任一种组合。

8.如权利要求2所述的语音互动系统，其特征在于，该互动模式设定与语音处理模块还包括一语音辨识单元，来接收使用者语音信号与决定语音的目标文句信息。

9.如权利要求1所述的语音互动系统，其特征在于，该输出响应信息至少包括该目标文句正确的输出响应、该目标文句疑惑反应的输出响应、以及介于该目标文句已学习过但尚未学习完成的中间状态的输出回应。

10.如权利要求7所述的语音互动系统，其特征在于，该系统建立一种遗忘算式，该遗忘算式与一时间计数器搭配运作。

11.如权利要求1所述的语音互动系统，其特征在于，该系统还通过一种互动信息外部更新模块，来更新该互动信息记录表。

12.如权利要求11所述的语音互动系统，其特征在于，该系统以一存储装置来储存该互动信息记录表，并以一抽换该存储装置的方式来更新该互动信息记录表。

13.如权利要求1所述的语音互动系统，其特征在于，该系统内嵌于一玩具本体。

14.如权利要求11所述的语音互动系统，其特征在于，该互动信息外部更新模块置于一计算机系统中，并以一联机方式联机至该语音互动系统，来更新该语音互动系统内的该互动信息记录表。

15.如权利要求10所述的语音互动系统，其特征在于，该遗忘算式的值经由累积教导成效与难度两参数计算而得出。

16.如权利要求13所述的语音互动系统，其特征在于，该玩具本体还包括：

一中央处理单元，执行该语音互动系统的部分模块；

一麦克风，接收语音输入并传送至该互动模式设定与语音处理模块；以及

一播放器，输出对应于该累积教导成效的语音响应。

17.一种语音互动方法，其特征在于，该方法包含：

准备一互动信息记录表来记录语音互动文句信息；

接收使用者输入的语音信号并决定语音的目标文句信息、或同时接收给定的目标文句信息，以提供使用者以不同的互动模式进行语音互动操作；

对该目标文句信息进行语音评量，并产生一语音评量结果；

若同时接收给定的目标文句信息，则根据所产生的目标文句的语音评量结果和一时间计数，更新该互动信息记录表的信息；

根据不同的互动模式、该语音评量结果、及该互动信息记录表的信息，决定该目标文句信息的输出模式；以及

根据该决定的输出模式和该互动信息记录表的信息，输出响应信息。

18.如权利要求17所述的语音互动方法，其特征在于，该不同的互动模式包括教学模式和交谈模式。

19.如权利要求17所述的语音互动方法，其特征在于，该互动信息记录表记录的语音互动文句的信息是选自该目标文句的互动文句、累积教导成效、评量门槛、难度、目标词语的响应信息的前述任一种组合。

20.如权利要求19所述的语音互动方法，其特征在于，该累积教导成效与一搁置时间有关，该搁置时间是距离上次更新学习目标文句的单位时间，并且该累积教导成效是通过一种遗忘的算式来算出，而该遗忘的算式的值经由累积教导成效与难度两参数计算而得出。

21.如权利要求17所述的语音互动方法，其特征在于，当仅有接收使用者输入的语音信号时，提供使用者以一交谈模式来进行语音互动操作，并且以该互动信息记录表里所有的互动文句为辨识标的来辨识出该输入的语音信号所对应的目标文句信息，之后以该目标文句信息和该输入的语音信号来进行语音评量以得出一验证分数。

22.如权利要求21所述的语音互动方法，其特征在于，该方法参考至少一次的该验证分数的组合，动态取得语句验证的一门槛调校值，并依该门槛调校值来更新该互动信息记录表的信息。

23.如权利要求17所述的语音互动方法，其特征在于，当接收使用者输入的语音信号且同时接收给定的目标文句信息时，提供使用者以一教学模式来进行语音互动操作，并对该目标文句信息进行语音评量，以产生该语音评量结果，并依该语音评量结果来更新该互动信息记录表的信息。

24.如权利要求17所述的语音互动方法，其特征在于，该输出响应信息至少包括该目标文句正确的输出响应、该目标文句疑惑反应的输出响应、以及介于该目标文句已学习过但尚未学习完成的中间状态的输出回应。

25.如权利要求24所述的语音互动方法，其特征在于，该中间状态的输出回应是依照累积教导成效/难度的比例输出与该目标文句相对应的图标或图像来做响应，在语音的输出响应上，以累积教导成效/难度的比例进行输出与该目标文句相对应的部分语音。