CN100337268C

CN100337268C - 语音互动的方法及其系统

Info

Publication number: CN100337268C
Application number: CNB2004100059641A
Authority: CN
Inventors: 许天明
Original assignee: Acer Inc
Current assignee: Acer Inc
Priority date: 2004-02-23
Filing date: 2004-02-23
Publication date: 2007-09-12
Anticipated expiration: 2024-02-23
Also published as: CN1661676A

Abstract

一种语音互动系统，用以使一电子设备就一使用者发出的语音产生适当回应，系统包含：一侦测模组，侦测语音中是否包含一预设关键词；一辨识模组，于一第二模式下就语音予以辨识而产生一对应语意资讯；一作动模组，按照该语音资讯发送讯号至电子设备以产生回应动作；一计时模组，计算语音中前后两相邻语句间的闲置时间以判定是否超过一预设时间间隔；及一切换模组，于系统初始操作下令系统预设于第一模式，直至侦测模组测得语音中包含关键词后，即令切换模组切换至第二模式，再至计时模组判定闲置时间超过预设时间间隔后，切换模组再令系统预设于第一模式而重复上述切换动作。

Description

语音互动的方法及其系统

技术领域

本发明涉及一种语音互动的方法及其系统，特别是涉及一种结合关键词及语句闲置间隔作为触发基准的语音互动的方法及其系统。

背景技术

目前电气产品的控制介面，在不断要求便利性及人性化的考量下，除了传统的手动控制、无线遥控外，以语音互动控制的方式，由于也具有无线遥控的便利，且为人们惯用的沟通方式，所以也为产业界所发展的控制技术。其中，在语音互动控制系统中，所需的语音办识相关技术已见诸于各类技术文件中，例如以语音辨识而言，美国第5,692,097号专利揭露了一种在语音中辨识出字元的方法，美国第5,129,000号专利则揭示了一种利用音节(syllable)进行语音辨识的方法，或者如台湾公告第283744号专利揭示了一种智慧型国语语音输入方法等，足见语音辨识技术为各国现今研发重点且也渐趋实用化。

目前人机间的语音互动方法，大约可略分为下列三种模式：(1)随时互动(Free to Talk)、(2)按键后互动(Push to Talk)及(3)关键词后互动(Talk to Talk)。其中，如图1所示，前述的(1)随时互动及(2)按键后互动两种模式，其语音互动流程皆为在接收语音信号后，进行语音办识，并按照其办识结果，在内建的资料库中搜寻回应指令，并由安装该语音互动系统的电气设备执行回应指令，如开/关、调整音量等。此两种模式的差异性，在于按键后互动模式需在每次下指令前，先以按键或其它方式，对此电气设备启动此语音互动系统，才可以语音方式对此电气设备下达指令；而随时互动模式其语音互动系统随时皆处于一准备接收语音指令的状态，所以无需再以按键或其它方式启动语音互动系统。

上述(1)、(2)两种模式虽在操作方式上易于了解，但是实际在使用上皆有其不便的地方，随时互动模式由于随时皆会将接收的语音信号当做对其所下的语音指令，所以当环境较为吵杂或使用者不是在对语音互动系统下达指令时，系统也会对接收的语音信号办识并进行回应，所以系统误动作的情形发生机率颇大。而按键后互动模式虽需在对语音互动系统下达指令前，先进行一启动互动系统的动作，也因此造成使用者使用上的不便，及大幅降低此种语音互动操控方式较其它操控方式最大的差异及优势所在。

如图2所示，上述(3)关键词后互动模式其语音互动系统也随时处于一待命状态，但是其最大特征在于需接收到一关键词后，此语音互动系统才会对安装此系统的电气设备执行指令，所以可改善系统误动作发生的机率。其使用缺点则由于每次使用者在下达指令前皆需下达一触发关键词，若假设系统关键词为”杰克”，而装设此系统的设备为一多媒体播放设备，在使用上就会出现类似如下的对话状况：

使用者：杰克，启动CD player；

系统：好的，为你启动CD player；

使用者：杰克，播放xxx的歌；

系统：好的，为你播放xxx的CD；

使用者：杰克，播放第三首；

系统：好的，为你播放第三首；

使用者：杰克，大声点；

系统：好的，为你调大音量。

从如此的过程中可知，使用者在每次下指令前都要讲一次关键词，对使用者而言极为不便也不友善。

发明内容

因此，本发明的目的，即在提供一种可达到降低误动作机率功效的语音互动方法及其系统。

于是，本发明语音互动系统，用以使一电子设备就一使用者发出的语音产生适当回应，该系统包含：一侦测模组，侦测语音中是否包含一预设关键词；一辨识模组，于一第二模式下就语音予以辨识而产生一对应语意资讯；一作动模组，按照该语音资讯发送讯号至电子设备以产生回应动作；一计时模组，计算语音中前后两相邻语句间的闲置时间以判定是否超过一预设时间间隔；及一切换模组，于系统初始操作下令系统预设于第一模式，直至侦测模组测得语音中包含关键词后，即令切换模组切换至第二模式，再至计时模组判定闲置时间超过预设时间间隔后，切换模组再令系统预设于第一模式而重复上述切换动作。

对应于上述语音互动系统，本发明语音互动方法，则包括下述步骤：A)针对该语音进行一预设关键词辨识；B)当经辨识该语音包含关键词，即对语音对应的语意资讯进行辨识；C)发送一对应语意资讯的讯号至电子设备的对应部位，使电子设备产生对应该资讯的回应动作；D)于辨识语意资讯的同时计算语音中任意前后相邻两语句间的闲置时间；及E)判定闲置时间是否超过一预设时间间隔，当闲置时间超过预设时间间隔时，返回步骤A)并重复上述各步骤。

本发明还揭示一种选择性语音辨识系统，用以选择性辨识一使用者发出的语音，该系统包括：一侦测模组，侦测语音中是否包含一预设关键词；一辨识模组，于一第一模式下不就语音产生反应，而于一第二模式下则就语音予以辨识；一计时模组，配合辨识模组于第二模式下辨识语音的动作，而计算语音中任意前后相邻两语句间的闲置时间，以判定闲置时间是否超过一预设时间间隔；及一切换模组，于系统初始操作下令系统预设于第一模式，直至侦测模组测得语音中包含关键词后，即令切换模组切换至第二模式，再至计时模组判定闲置时间超过预设时间间隔后，切换模组即令系统再度预设于第一模式而重复上述切换动作。

对应于上述选择性语音辨识系统，本发明并揭示一种选择性语音辨识方法，包括下述步骤：A)针对一语音进行一预设关键词辨识；B)当经辨识该语音包含该关键词，即对该语音对应的语意资讯进行辨识；D)于辨识该语意资讯的同时，计算该语音中任意前后相邻两语句间的闲置时间；及E)判定该闲置时间是否超过一预设时间间隔，当该闲置时间超过该预设时间间隔时，返回步骤A)并重复上述各步骤。

再者，本发明另揭示一种具语音互动功能的电子设备，用以就一使用者发出的语音产生适当回应，该电子设备包括：一收音模组，用以接收语音；一侦测模组，自收音模组接收语音以侦测语音中是否包含一预设关键词；一辨识模组，于一第一模式下不就语音产生反应，而于一第二模式下则自收音模组接收语音，以就语音予以辨识而产生语音对应的语意资讯；一作动模组，接收辨识模组于第二模式获得的语意资讯，而发送讯号至电子设备的对应部位以产生对应该资讯的回应动作；一计时模组，配合辨识模组于第二模式下辨识语音的动作，而计算语音中任意前后相邻两语句间的闲置时间，以判定闲置时间是否超过一预设时间间隔；及一切换模组，于系统初始操作下令电子设备预设于第一模式，直至侦测模组测得语音中包含该关键词后，即令切换模组切换至第二模式，再至计时模组判定闲置时间超过预设时间间隔后，切换模组即令电子设备再度预设于第一模式而重复上述切换动作。

对应于上述具语音互动功能的电子设备，本发明并揭示一种语音互动方法，包括下述步骤：A)针对一语音进行一预设关键词辨识；B)当经辨识该语音包含关键词，即对语音对应的语意资讯进行辨识；C)针对语意资讯产生对应的回应动作；D)于辨识语意资讯的同时，计算语音中任意前后相邻两语句间的闲置时间；及E)判定闲置时间是否超过一预设时间间隔，当闲置时间超过预设时间间隔时，返回步骤A)并重复上述各步骤。

附图说明

下面结合附图及实施例对本发明进行详细说明：

图1是一流程图，说明一般随时互动及按键后互动的语音互动模式的动作步骤。

图2是一流程图，说明一般关键词后互动的语音互动模式的动作步骤。

图3是一系统方块图，说明具有本发明语音互动系统的电子设备的较佳实施例。

图4是一系统方块图，说明本发明语音互动系统的较佳实施例。

图5是一方块流程图，说明本发明一收音及侦测模组的动作流程。

图6是一流程图，说明本发明语音互动方法的步骤。

具体实施方式

本发明的前述以及其他技术内容、特征与优点，在以下配合参考图式一较佳实施例的详细说明中，将可清楚的明白。

在进行详细说明前，要先叙明的是，本发明所述的语音互动的方法及其系统，适用于各种可以声音沟通的行为模式，并不限制于任一国、族的语言，在本实施例中虽以中文来说明，但是并不应以此为限。

首先如图3所示，本发明语音互动系统2的较佳实施例应用安装于一电子设备1，该电子设备1具有一控制模组11、一可接收使用者语音的收音模组12、一可发送语音的发音模组13，及一可显示字幕图像的显示模组14(如LCD显示幕)。其中，控制模组11可由单一或复数单晶片组合而成，收音模组12可将使用者的声音经由一拾音器将使用者的声音接收并转换为一类比模式的电气信号，为方便称呼，下文将把此信号以类比信号称呼，而后，再由一类比/数位转换器(ADC)，以一预设的取样频率将此类比信号转换为一数位信号。发音模组13则可将一数位信号经由一数位/类比转换器(DAC)转换为一类比信号，并由一扬声器将此类比信号转换为可为人们所收听到的声音，播放出去。

参阅图4，语音互动系统2主要包含一用于侦测语音中是否包含一预设关键词的侦测模组21、一就该语音予以辨识而产生该语音对应语意资讯的辨识模组22、一产生控制讯号使电子设备1产生适当回应动作的作动模组23、一计算并判断该语音中任意前后相邻两语句间的闲置时间是否超过一预设时间间隔的计时模组24、一令该系统2于一第一模式及一第二模式间切换的切换模组25，及一回复使用者指令的交谈模组26。语音互动系统2的各模组功能，可以程式码方式储存于电子设备1内部或相连接的任一媒体记录元件，如光盘、硬碟、记忆体等，或编写于微处理器或单晶片中。

接续请参阅图5，侦测模组21包含一特征参数撷取单元211、一语音模型建立单元212、一语音模型比对单元213，及一关键词语音模型单元214。特征参数撷取单元211将收音模组12所传送的语音数位信号S1，利用视窗化(windowing)、线性预估系数(Liner Predictive Coefficient，LPC)及倒频谱系数(Cepstral coefficients)等步骤，取出其特征参数V1，再将撷取到的特征参数V1传送至语音模型建立单元212以建立语音模型M1。本实施例中所使用的模型是隐藏马可夫模型(Hidden Markov Model，HMM)技术来辨识接收的特征参数，并借此建立出个人的语音模型。其中，有关于隐藏马可夫模型技术的进一步说明，已揭露于如美国第6,285,785号专利案，或者如中华民国公告第308666号专利案中，在此不另加以赘述。当然，语音模型的建立，也可使用如类神经网路来建构模型，并不以本实施例中所揭露者为限。在语音模型M1建立后此语音模型M1资料将传送至语音模型比对单元213和关键词语音模型单元214的样本进行比对，当确认相似度达到一预设值，即确认为关键词。因此，当使用者对电子设备1发出语音信号时，语音互动系统2可由侦测模组21侦测有无关键词出现，以确认使用者是否对此系统2下指令，并于测得关键词出现时传送讯号至切换模组25，以决定语音互动系统2设于该第一模式或进入第二模式，其步骤流程容后详述。

辨识模组22于第一模式下不对使用者所发出的语音信号产生反应(即不予辨识)，而于第二模式下就侦测模组21所得到的语音模型M1予以辨识并产生对应的资讯。参阅图4、5，辨识模组22具有一资料库221及一语音模型辨识单元222，语音模型辨识单元222针对关键词出现后的语音信号产生的语音模型M1与资料库221内的语音模型资料样本进行比对，而由与此语音模型M1相似度最大的语音模型资料样本即可代表此语音模型M1，并可按照此结果，将各模型资料样本所对应的语意资讯(或指令，如「调大音量！」)传送至作动模组23，以就使用者的指令做出适当的回应，其细节将于下详述。

作动模组23接收自辨识模组22所传送使用者语音于语音模型资料样本所对应的意义后，将该语音意义转换为一控制讯号(如上述调大音量)而传送至电子设备1的控制模组11，再由控制模组11进一步依该控制讯号作动电子设备1的各相应控制电路，以使电子设备1可对使用者所下达的指令做出适当的回应。

计时模组24配合辨识模组22于第二模式下，计算语音中任意前后两相邻语音模型间的闲置时间，以判定闲置时间是否超过一预设时间间隔。当闲置时间超过此预设时间间隔时，计时模组24即发送一信号至切换模组25，使切换模组25将系统2切换复归至初始操作下的第一模式。

切换模组25用于使语音互动系统2于第一模式及第二模式间切换，在第一模式下，系统2只借其侦测模组21对输入的语音信号侦测是否含有关键词，而在第二模式下，系统2始借其辨识模组22对输入的语音信号进行语意辨识，并进一步驱动电子设备1对应部位针对此语音信号执行所需回应动作。系统2于初始操作下，切换模组25将系统2预设于第一模式，直至侦测模组21测得语音信号S1中包含关键词后，即令切换模组25将系统2切换至第二模式，再至计时模组24计算两语音信号闲置时间超过预设的时间间隔后，切换模组25即令系统2再度预设于第一模式而重复上述切换动作。由上述可知，当使用者对电子设备1进行一语音控制互动操作时，只需先以一关键词将语音互动系统2切换至第二模式，即可以一般的语音方式与电子设备1进行互动，而本实施例中的交谈模组26则提供互动系统2与使用者间一更为友善的互动介面。

交谈模组26包含一储存有回应使用者语音指令图像压缩档的图象资料库261，及一储存有回应该语音指令声音压缩档的声音资料库262。当辨识模组22确认语音信号S1的语音模型样本并传送至交谈模组26，交谈模组26即自图象资料库261及声音资料库262分别取出预设回复该语音模型样本的图像压缩档及声音压缩档并经解压缩后，分别将解压缩图像及声音档传送至电子装备1的显示模组14及发音模组13进行播放。举例而言，若经辨识模组22辨识获得使用者语音所代表指令为上述「调大音量」，则其预设回复该语音的图像压缩档则含有「是，为您调高音量！」的文字(或含图案)图像，而预设回复该语音的声音压缩档则含有「是，为您调高音量！」的相对语音。

经上述就本系统2各模组的作用予以说明后，以下即配合图4至图6所示，就本发明的语音互动方法实施步骤进一步详述。首先如步骤301、302所示，系统2一开始是预设于第一模式，并开始接收一语音信号，也就是将收音模组12所接收并转换的一数位信号S1传送至侦测模组21接收。

接着如步骤303、304所示，利用侦测模组21来转换语音信号S1为一语音模型M1，并判读此语音模型M1是否包含一预设关键词，以根据其判读结果，决定是否进入第二模式或维持于第一模式。当判读出关键词存在时，即如步骤305所示，利用切换模组25将系统2切换至第二模式，相反地，则仍维持于预设的第一模式，即重复步骤301至304而对后续语音信号进行关键词的判读。

当执行至步骤305而进入第二模式后，如步骤306、307所示，在辨识模组22中由预先建立的语音模型资料样本搜寻及比对与语音模型M1最相似者，以辨识语音模型M1所代表的语意指令。而后按照语意辨识结果，如步骤308、309所示，驱动交谈模组26而分别以语音及图像显示方式就使用者所下指令适当回复使用者。再如步骤310、311所示，驱动作动模组23将该语音指令转换为一控制讯号传送至控制模组11，使电子设备1可对使用者所下达的指令做出适当的回应。

同时当执行至步骤305而进入第二模式后，如步骤312、313所示，计时模组24即持续计算语音中任意前后两语音模型间的闲置时间，并判定该闲置时间是否超过一预设时间间隔，当闲置时间超过预设时间间隔时，切换模组25即将系统2切换复归至初始操作下的第一模式，否则仍维持于第二模式。

因此，于前文所提及的一按照关键词产生的互动模式例，由本系统2及其方法来执行，将会出现如下的互动状况：

使用者：杰克，启动CD player；

本系统：好的，为你启动CD player；

使用者：播放xxx的CD；

系统：好的，为你播放xxx的CD；

使用者：播放第三首；

系统：好的，为你播放第三首；

使用者：大声点；

系统：好的，为你音量调大。

…(超过一预设时间间隔后)，

使用者：杰克，关机；

系统：好的，我为你关闭CD player。

Claims

1.一种语音互动系统，用于安装于一电子设备，以使该电子设备就一使用者发出的语音产生适当回应，其特征在于：

该系统包括：

一侦测模组，侦测该语音中是否包含一预设关键词；

一辨识模组，于一第一模式下不就该语音产生反应，而于一第二模式下则就该语音予以辨识而产生该语音对应的语意资讯；

一作动模组，接收该辨识模组于该第二模式获得的该语意资讯，而发送讯号至该电子设备的对应部位以产生对应该资讯的回应动作；

一计时模组，配合该辨识模组于该第二模式下辨识该语音的动作，而计算该语音中任意前后相邻两语句间的闲置时间，以判定该闲置时间是否超过一预设时间间隔；及

一切换模组，令该系统于该第一模式及该第二模式间切换，该系统初始操作下，该切换模组将令该系统预设于该第一模式，直至该侦测模组测得该语音中包含该关键词后，即令该切换模组切换至该第二模式，再至该计时模组判定该闲置时间超过该预设时间间隔后，该切换模组即令该系统再度预设于该第一模式而重复上述切换动作。

2.按照权利要求1所述的语音互动系统，其特征在于：该语音互动系统更包括一交谈模组，用以接收该辨识模组于该第二模式获得的该语意资讯，而针对该资讯发送一对应的回复语音信号至该电子设备的对应部位，以发出该回复语音。

3.按照权利要求2所述的语音互动系统，其特征在于：该电子设备具有一发音模组，且该交谈模组具有一声音资料库，以针对该语意资讯自该声音资料库撷取一对应的回复声音档案，而将该声音档案发送至该发音模组。

4.按照权利要求1至3中任一项所述的语音互动系统，其特征在于：该交谈模组并针对该语意资讯发送一对应的回复图像信号至该电子设备的对应部位，以发出该回复图像。

5.按照权利要求4项所述的语音互动系统，其特征在于：该电子设备具有一显示模组，且该交谈模组具有一图象资料库，以针对该语意资讯自该图象资料库撷取一对应的回复图像档案，而将该图像档案发送至该显示模组。

6.按照权利要求1项所述的语音互动系统，其特征在于：该侦测模组具有一撷取该语音信号特征参数的特征参数撷取单元、一利用该特征参数建立语音模型的语音模型建立单元、一储存该关键词语音模型的关键词语音模型单元，及一用以比对所述语音模型间相似度的语音模型比对单元。

7.按照权利要求1项所述的语音互动系统，其特征在于：该辨识模组具有一存有复数语音模型样本的资料库，及一辨识语音模型间相似度的语音模型辨识单元。

8.一种选择性语音辨识系统，用以选择性辨识一使用者发出的语音，其特征在于：该系统包括：

一侦测模组，侦测该语音中是否包含一预设关键词；

一辨识模组，于一第一模式下不就该语音产生反应，而于一第二模式下则就该语音予以辨识；

9.一种具语音互动功能的电子设备，用以就一使用者发出的语音产生适当回应，其特征在于：该电子设备包括：

一收音模组，用以接收该语音；

一侦测模组，自该收音模组接收该语音以侦测该语音中是否包含一预设关键词；

一辨识模组，于一第一模式下不就该语音产生反应，而于一第二模式下则自该收音模组接收该语音，以就该语音予以辨识而产生该语音对应的语意资讯；

一作动模组，接收该辨识模组于该第二模式获得的该语意资讯，而按照该语意资讯产生一对应控制讯号；

一控制模组，接收该作动模组产生的该控制讯号，以使该电子设备对该语意资讯做出适当的回应；

一切换模组，令该电子设备于该第一模式及该第二模式间切换，该电子设备初始操作下，该切换模组将令该电子设备预设于该第一模式，直至该侦测模组测得该语音中包含该关键词后，即令该切换模组切换至该第二模式，再至该计时模组判定该闲置时间超过该预设时间间隔后，该切换模组即令该电子设备再度预设于该第一模式而重复上述切换动作。

10.按照权利要求9所述的电子设备，其特征在于：该电子设备更包括一交谈模组，用以接收该辨识模组于该第二模式获得的该语意资讯，而针对该资讯发送一对应的回复语音信号至该电子设备的对应部位，以发出该回复语音。

11.按照权利要求10所述的电子设备，其特征在于：该电子设备更包括一发音模组，且该交谈模组具有一声音资料库，以针对该语意资讯自该声音资料库撷取一对应的回复声音档案，而将该声音档案发送至该发音模组。

12.按照权利要求9至11中任一项所述的电子设备，其特征在于：该交谈模组并针对该语意资讯发送一对应的回复图像信号至该电子设备的对应部位，以发出该回复图像。

13.按照权利要求12所述的电子设备，其特征在于：该电子设备更包括一显示模组，且该交谈模组具有一图象资料库，以针对该语意资讯自该图象资料库撷取一对应的回复图像档案，而将该图像档案发送至该显示模组。

14.一种语音互动方法，用以使一电子设备就一使用者发出的语音产生适当回应，其特征在于：

该方法包括下述步骤：

A)针对该语音进行一预设关键词辨识；

B)当经辨识该语音包含该关键词，即对该语音对应的语意资讯进行辨识；

C)发送一对应该语意资讯的讯号至该电子设备的对应部位，使该电子设备产生对应该资讯的回应动作；

D)于辨识该语意资讯的同时计算该语音中任意前后相邻两语句间的闲置时间；及

E)判定该闲置时间是否超过一预设时间间隔，当该闲置时间超过该预设时间间隔时，返回步骤A)并重复上述各步骤。

15.按照权利要求14所述的语音互动方法，其特征在于：该方法更包括一针对该语意资讯发送一对应的回复语音信号至该电子设备的对应部位以发出该回复语音的步骤。

16.按照权利要求15所述的语音互动方法，其特征在于：该回复语音信号自一预设的声音资料库撷取者。

17.按照权利要求14至16项中任一项所述的语音互动方法，其特征在于：该方法更包括一针对该语意资讯发送一对应的回复图像信号至该电子设备的对应部位以发出该回复图像的步骤。

18.按照权利要求17项所述的语音互动方法，其特征在于：该回复图像信号是自一预设的图象资料库撷取者。

19.一种选择性语音辨识方法，其特征在于：

该方法包括下述步骤：

A)针对一语音进行一预设关键词辨识；

C)于辨识该语意资讯的同时计算该语音中任意前后相邻两语句间的闲置时间；及

D)判定该闲置时间是否超过一预设时间间隔，当该闲置时间超过该预设时间间隔时，返回步骤A)并重复上述各步骤。

20.一种语音互动方法，其特征在于：该方法包括下述步骤：

A)针对一语音进行一预设关键词辨识；

C)针对该语意资讯产生对应的回应动作；