CN1581293A

CN1581293A - 基于有限集语音识别的人机交互方法与装置

Info

Publication number: CN1581293A
Application number: CNA031401279A
Authority: CN
Inventors: 王东篱
Original assignee: Individual
Current assignee: Individual
Priority date: 2003-08-07
Filing date: 2003-08-07
Publication date: 2005-02-16

Abstract

一种建构人机语音连续交互的方法及其实施其方法的装置，由机器构造出一个场景(给出一提问)，利用现有语音识别技术，对输入的用户应答语音以有限数目标为基准，进行判别，以在数个目标状态中转换，并同时产生新的场景，从而不断延续语音交互过程。其中的预定有限目标，与每个答案关联的提问共同构成一树形结构的文本。实现上述方法的装置包括：计算机、语音输入与处理设备、语音输出设备、语音数字信号处理电路，及处理软件包括：预定有限目标语音模板库、提问语音资料库、主控程序以及语音识别程序。利用本发明方法及装置能以较低成本实现有限但有效的语音交互，通过模仿真实对话情景的全过程，重构流畅的对话情景，可用于语言训练等。

Description

基于有限集语音识别的人机交互方法与装置

技术领域

本发明涉及人机交互技术，具体涉及计算机语音识别技术和计算机辅助语言学习技术，即一种利用计算机语音识别技术模拟人机对话情景、技巧性利用现有语音识别技术水平，以使用者的真实语音与计算机互动的人机交互方法及装置。

背景技术

语言知识的学习过程，从语言信息学的角度来看是以语言作为信息载体，进行采集、吸收、处理、储存的过程。在语言的学习中，对话情景，特别是对确定情景下特定问题的准确应答并反复训练的过程，是语言学习(包括母语学习在内)的基本机理，也是最直接有效的学习过程。自动语音识别(Automatic Speech Recognition)，简称ASR，即对一位发音者发出的语音进行判别确定的过程，是以计算机实现“声音”到“文字或指令”转换的技术。一个语音识别系统工作时，首先将话筒(MIC)输入的标准语音信号进行放大，带通滤波，A/D变换后，存入RAM区内，这形成该语音的模板。这个过程称为系统的”学习”或”训练”，多个这种存入RAM的模板组成模板库。一个未知的语音信号也经上述各电路，由CPU将此信号的数据存入RAM区内某一特定区，然后将此未知信号与区内各目标模板逐一比对，按某一种识别算法，进行计算测度，再经识别决策，将识别测度失真最小的1个模板输出做为识别结果，或同时按业务逻辑要求，执行某个动作。以计算机语音识别技术为基础，以人机对话方式建构模拟情景对话的学习模式是语言学习机器辅助方法的重要发展方向。这种方式包括对话情景设计、视听输出、人机交互过程、智能判断以及评价和改善建议，通过虚拟现实技术来营造一种接近于真实对话情景的环境与气氛，培养学习者以该语言进行实际会话的能力。这就需要一种模拟自然语言学习机理的最佳技术解决方案，而到目前为止尚未有类似方法与装置能得以实现。

发明内容

本发明要解决的技术问题是，如何提供一种能模拟真实对话情景的人机交互方法，并利用现有的计算机语音识别技术和计算机硬件，实现一种具有实用意义的语言学习与训练装置。换言之，本发明的目的是构造一种实用的语音识别系统，能够解决以下主要问题：1)控制噪声对识别过程时的干扰；2)对提问句和识别目标句(答句)的设计，即编制脚本，使之可经济地被实现；3)一个其成本可以支持广泛应用的语音识别系统的硬件方案的实现。总之，一个具有商业价值且实用的语音识别产品，是能全面兼顾以上3者的完整解决方案。本发明另一要解决的技术问题是如何提供实现该方法的计算机装置，在该装置中，实现本发明所述的人机对话过程。

本发明上述技术问题这样解决，构造一种基于有限集语音识别的人机交互方法，其特征在于，以预先设定的问句和有限集答句结合计算机语音识别技术来达到人机交互，包括以下步骤：1.1)计算机装置输出一个提问；1.2)计算机以声音或显示方式中的至少一种，提示2-20个句子组成的与上述提问关联的有限集目标答句，使用者择其一，对计算机语音输入设备，念出这个回答的读音；1.3)计算机对输入的使用者语音，与1.2)中的有限集目标答句模板逐个进行失真测度，以比对确定此输入语音为上述有限集目标答句中的某一个；1.4)在确定这个识别结果之后，计算机程序按所预定上下逻辑关系，发出语意向下连贯的新问题，进入新一轮对话场景，即再重复步骤1.1)，1.2)与1.3)，而使对话不断向前延续，直至某一训练单元结束。

在上述方法中，所述提问与有限集目标答句的全体为预先编撰的脚本，是一个多路径可选树形结构，其中一个提问句与一组有限集目标答句对应，任一回答句与一个新提问句唯一对应，依此确定人机对话发展的逻辑关系。

在上述方法中，所述提问句是指装置自动发出的一个引导性语音，由发出预定的第一个语音作为对话过程的开始，在对话过程之中，由上一轮对话中装置语音识别出的回答句确定下一个新的问句。

在上述方法中，预先编撰脚本中对一个问题的2-20个回答句时，使其互相之间的语音数字特征区别足够大以便于语音识别。

在上述方法中，在所述步骤1.3)中，根据得到的失真测度，提供对用户发音的评价。

在上述方法中，也可设定其中的提问句与答句均为唯一确定对应，人机对话的流程沿一预先设定的固定路径进行；语音识别技术仅用于根据得到的失真测度对使用者的发音质量给予评价。

本发明技术问题解决的另一方面是构造一种基于有限集语音识别的人机交互装置，包括计算机、插在计算机扩展槽内的语音卡，以及与语音卡连接的耳机及麦克风，所述语音卡包括连接麦克风的语音输入信号处理单元、连接耳机的语音输出单元以及连接在语音输入信号处理单元与语音输出单元之间的语音数字信号处理单元，还包括内含有限目标语音模板库、提问语音资料库、主控程序以及语音识别程序的控制程序，用于执行以下步骤：7.1)通过显示器或耳机输出一个提问；7.2)通过耳机或显示器输出提示2-20个有限集目标答句，使用者择一，对麦克风发声念出这个回答的读音；7.3)通过麦克风输入使用者语音，与1.2)中2-20个有限集目标答句的模板进行识别比对，确定此输入语音归属于这2-20个某一个；7.4)在确定这个识别结果之后，计算机程序按所编制的脚本，发出语意向下连贯的新一问题，进入新一轮对话场景，即再重复步骤7.1)，7.2)与7.3)，而使对话不断向前延续，直至结束某一训练单元结束。

在上述装置中，所述麦克风为专业定向麦克风，所述耳机是头戴式附专业定向麦克风的耳机，采用头戴式耳机与定向话筒为一体结构以保证较高的输入语音信噪比。

在上述装置中，采用双声道系统分别输出提问句与提示待识别的目标答句，所述双声道系统包括双通道的语音信号输出放大单元，外接的头戴式双声道耳机。

在上述装置中，还包括自动侦测外界噪声程序，用于在检测到较大外部噪音时以文字与声音提示使用者使用时离开高噪声环境。

实施本发明提供的基于有限集语音识别的人机交互方法与装置，将脚本设计、计算机语音识别技术与相关计算机硬件三者有机结合，组成一个人机语音互动系统装置，能重构教学与训练意义上的对话情景，用于语言训练与学习之目的。

附图说明

图1是实现本发明基于有限集语音识别的人机交互方法的流程示意图；

图2是实现本发明基于有限集语音识别的人机交互方法的语音资料库示例，仅列出二级流程流程示意图；

图3是实现本发明基于有限集语音识别的人机交互方法的脚本的对话流程树形结构示意图。

图4是实施例中人机对话过程示意图；

图5是本发明基于有限集语音识别的人机交互装置的逻辑结构示意图；

图6是图5装置中语音卡的电路原理示意图。

具体实施方式

为实现本发明，首先要编制出一套对话流程脚本，对话脚本由问句与答句组成，其中，每一问句有多个答句(2-20个)对应，每一答句仅与下级一个新的问句对应，这样的问句与答句的全体构成了一个树形结构的脚本。这些问句与答句包含有拟传授的语言学知识如发音、语法、句型、表达法及词汇等，又设计得贴近真实对话情景，语意连贯。通过设计软件，可以产生以一个问句与一组有限个答句构成对话情景，以计算机装置首先输出问句，使用者选择上述有限个答句之一，发音回答，本发明装置对其发音进行识别，判断的范围仅在预先给定的这有限个答句之中。识别出的某答句对应了一个新的问句，所输出的这个新问句与一组新的答句又构成下一对话场景，从而不断人机延续对话过程。本发明由于预先设定的小数量答句反向限定使用者的发音选择范围，同时借助预编对话脚本的语意联贯性，完成语言训练意义上的人机对话过程。换言之，在本发明的方法中，有限集目标答句是指对每次提问，使用者仅需在2-20个即定的答句中选择一个念出，相应的，计算机装置也仅需在这2-20个即定句范围内，就使用者语音进行识别判断；而失真测度是指本计算机装置将输入的使用者语音数字信号进行数字化处理，提取该语音的特征参数，然后将该特征参数与预先存储的2-20个识别目标模板的特征参数进行失真比对。为增加不同回答的识别精度，要求预先编制脚本，使每组拟识别的目标句互相之间的语音特征参数有足够大的区别。

如1示出了本发明方法一个实施例的流程图，它需要一台普通个人计算机(PC机)，一块插在PC机扩展槽内的语音卡，及与语音卡连接的一体式耳机与麦克风系统。其中，PC机配置为：PENTIUM3中央处理器；64M内存；10G硬盘；1024×768显示器，操作系统为WINDOW98。语音卡由语音输入电路与A/D转换电路；数字电路；及D/A转换与双通道输出电路三部分组成。其细节将结合图5与图6作进一步说明。

下面，简要说明应用本发明方法的具体语音识别过程：以头戴式附麦克风耳机所附的专业定向麦克风用于采集使用者发音；耳机之左边送话器(左声道)输出计算机提问句发音；耳机之右边送话器(右声道)输出提示识别目标答句发音。

计算机装置自耳机左声道发出一个提问，之后，计算机屏幕文字显示2-20个可能的答案，同时耳机右声道也输出这些答案的发音做为提示。使用者选择其中一个作为答案并发音，计算机根据识别出的使用者语音，发出下一个新的问题，这一新的问题与上一识别出的答案有语意关联，并由脚本所确定其二者为唯一对应关系。所有的提问与所有可能的答案组成本系统的语音数据资料库。计算机按程序不断发出提问，输入使用者语音，进行识别，由识别结果导出相关的下一问题，从而使此人机交互过程延续向前。

本发明装置在实际操作过程中：1)如果输入的使用者语音经识别过程后，与拟识别目标句之一匹配(失真测度≤80％)，则计算机发出该匹配答句相关的下一问题；2)如果使用者语音经识别，与目标句中任何一个的失真测度均＞80％，失去识别匹配意义，则计算机提示建议选择规定路径方式。3)规定路径方式，即不再提供使用者多种答案选择，而仅按预先设定的单一固定对话路径向下进行。4)最后进入“训练结束”状态。

进一步，说明构成本发明基础的关键点，包括内置的与硬件配合的对话流程主控程序以及它所调用的语音识别程序，在主控程序中，将每个问题与其后的数个答案定义为二维数组，在如图2示出的语音资料库中，所示各语句关系下，二维数组如下：

{1，1}；{2，6}；{3，8}；{4，12}；{5，15}......

表示某问句与其后数答句的关系，为说明，也可按语音资料库中代码表示方法改写如下：

{Q0001，A0001}；{Q0002，A0006}；{Q0003，A0008}；

{Q0004，A0012}；{Q0005，A0015}......

如第二组表示Q0002所对应的从A0006开始的数个答句，其个数如此确定：由第三组数组的第二维A0008减本组的第二维A0006＝2，即本组有N＝2个答句，同样，第三组有N＝12-8＝4个答句，第四组有N＝15-12＝3个答句。如前所述一般N＝2-20，但也可以是1..

这样每次识别语音时，将由上列二维数组确定的数个答句语音参考样本，自缓冲区中释放出来。

而主控程序调用的语音识别程序用于将输入的待测语音特征参数与前述数个原先数据库内的语音样本特征参数比对，其结果是给出一个传回值，此值为n＝0-N，这个n加到这个二维数组的第二维上，即确定了输入语音对应的答句ID。其语音识别函数中的DIST给出输入语音与样本语音比对后的失真值，当其值大于80时，则装置不再识别判断，并建议用户使用固定路径方式；当其值小于80时，即为所要的识别结果，同时输出一个满分为100的数值，作为对使用者语音的评估结果。

可以看出，一个同号的问句与答句在程序中是等价的，即Q0006在程序中与A0006等价，因其二者的关系为唯一对应。在二者语音的播放上也是一同放出的，仅有次序的不同而已。

图2给出了语音资料库示例，仅列出二级流程。流程脚本规定的句子关系所构成的语音文件数据库，内置在本机的存储器中，主控程序按此图表确定的逻辑关系进行调用。(仅列出一个单元的二级循环)。图中，“ID”前缀“Q”表示提问句，包括对应的问题句子“Qnnnn”；前缀“A”表示答案句，为待识别目标句，也即答句“Ammmm”. Qnnnn与Ammmm表示各句子的数据库编号ID。例如A0002的“上行ID”是Q0001，此关系由语音识别程序确定，表示与A0002向上对应的问句；A0002的“下行ID”是Q0002，亦即下一问题句。此关系由脚本预先确定，且唯一对应。对每一问句，本表中为方便说明，仅列出3-4个下行ID数(一般为2-20个，也可以是1个)。表中每一级流程对应一个完整的语音交互步骤，多个路径可选；

表中仅列两级循环“S001”和“S002”，它们都属于同一个课程单元“T001”。

图3给出了脚本的对话流程的树形结构示意图。该图列出一个二级对话流程树形图(脚本)，以”餐馆对话”为例，说明本发明的对话流程。参照附图，所举例的对话流程路径以粗体黑字与箭头指出。

1A.首先由计算机提问(显示文字并发声)：

Q0001 What would you like to drink？你要喝什么？

1B.计算机显(提)示出即定目标答句为以下4个：

A0002 Orange juice (我喝)橙汁

A0003 I like beer 我要啤酒

A0004 Apple juice 苹果汁

A0005 Mineral water 矿泉水

1C.用户发音I like beer(即A0003)后，装置以语音识别技术判别，确定为A0003，输出(显示)此句，并对使用者发音质量评估(打分)。第一级对话与识别结束。

2A.装置输出与A0003对应的下一问题(显示文字并发声)：

Q0003 OK，We have several beer brands

好的，我们有好几种牌子的啤酒

2B.提示四种啤酒(屏幕显示文字并发声)

A0008 Tsingdao Beer 青岛啤酒

A0009 Blue Ribbon 蓝带啤酒

A0010 Heineken 喜力啤酒

A0011 Draft 扎啤

2C.用户再次选择其中之一发音(如“Heineken”)后，在A0008-A0011四个识别目标内，计算机进行语音识别，判定使用者发音为A0010。装置单独显示此句，并对使用者发音质量打分。

3A计算机再次给出与A0010相关的新一个问题Q0010，等等。本发明装置的内置软件程序，包括学习课程单元选择，学习路径方式选择，以及功能选择与自我测试等用户学习界面。人机界面清晰大方，包括屏幕左边的记分栏，语音输入提示杠等，富有特色。随着学习进度向前，屏幕上所显示的文字不断逐行向上翻滚，并由文字的闪烁或反白等变化提示用户当前的状态，如以反白文字指示识别的结果等，

如图4人机界面图所示。

图4示出了本发明实施例在使用过程中的一系列人机界面，每个界面包括提问与提示输出界面及语音识别界面。一开始出现如图4(a)所示的开始界面，如按键或其它方式选择方框1，则从第一单元开始学习，如选择方框2，从任一单元开始学习；当选择方框1时，显示如图4(b)，下屏出现单元目录，使用按键，翻查并确定所要进入的单元。图4(c)示出装置先显示并朗读Q0001(从耳机左声道发出)，再显示(或朗读)Q0001所对应的4个目标集句子A0002，A0003，A0004，A0005(从耳机右声道发出；熟练者可选择免去提示朗读Ammmm目标集句子，以节省时间)；图4(d)显示“请回答”并开始闪烁，进入声音输入和识别过程，状态行下的黑色计时条按自上而下次序变白，使用者选择一个答案，如I like beer(我要啤酒)，对麦克风发音。系统识别后，判定结果为A0003，并在屏幕上反白显示，同时在左边状态栏内打出评分。图4(e)屏幕文字自动向上翻滚，显示出第二级提问句，即A0003所对应的下行句Q0003。并朗读Q0003(从耳机左声道发出)；图4(f)本屏文字随即向上翻滚，并显示出第二级对话的目标集句子。装置提示朗读A0008，A0009，A0010，A0011。(从耳机右声道发出)，重复4(a)，4(b)，4(c)和4(d)的同样过程。图4(g)固定匹配路径：在4a中按框3，以固定匹配路径学习。，使用者不能任选答案，提问与答案，以及答案与下一个提问，均为事先确定并唯一对应。其发声，提示方式与图4(a)；4(b)；4(c)；4(d)同。图4(h)接续学习：本机可自动存储上一次学习界面，以直接接续上次学习进度学习。在图4(a)中按框4；图4(I)功能选择：在4(a)中按框5，功能简列如图。图4(j)自我测试：在4(a)按框6。实际过程与4(g)按固定匹配路径学习方式相同。数据库使用测试资料。图同4(g)。

如图5和图6所示，语音输入与输出设备是一个头戴式耳机并附有一个麦克风的装置，麦克风为定向专业式，其对使用者口部附近的15度以内声音信号有极好响应，但对此角度以外的噪声则产生极大衰减。从而排除周围噪声干扰。本发明所述语音输入设备为专业定向麦克风，所述耳机是头戴式附专业定向麦克风的耳机，采用头戴式耳机与定向话筒一体结构以保证较高的输入语音信噪比，这个结构设计同时排除了提问发音、提示发音、用户发音三者之间可能产生的声音互相干扰与自激效应。还可设置了噪声侦测程序，提醒使用者主动规避噪声。本发明提供的装置可对使用者的发音质量输出评价结果，评价结果包括以100为满分的分值和语音输出的建议性语言。由于这种技术解决方案是仅为语言学习与训练之目的，本发明已预先假设，使用者应以本装置提示音为学习训练的标准。对于使用者本人因口音、年龄、性别等因素产生的较大发音差异，可能造成的与用户选择本意不一致的误识别，本装置建议选用固定路径方式，作为一种预训练方法，以符合初级用户的学习能力。所谓固定路径指按预先设定的固定问答对应关系向前延续的对话流程。图5给出了本发明装置的结构示意图。图6给出了图5装置中使用的语音卡的电路原理图。语音卡做为本发明装置的主要器件，由语音信号前置放大，低通滤波，以及模数转换，与PC机相联的数字接口，数模转换功率放大与语音输出几个部分组成。

6.1模数转换电路由U2B之前置放大器，U2D4KHz之低通滤波器，U2C之电位调整电路及ADC0801模数转换电路构成。

以增益约100倍的前置放大器U2B(LM124)放大语音信号；由U2D(LM124)及相关电阻电容构成的低通滤波器之截止频率为4KHz，按8KHz的采样频率采集语音数据；经U2C构成的电位调整电路，将双极性语音信号转换为0-5V范围，以符合数模转换芯片ADC0801的接口信号要求。ADC0801将模拟信号转换为8位数字数据。

6.2数字接口电路由U4接口控制芯片8255做数字接口，信号至PC机的译码由由U7(74LS138)，U6A(74LS00)，U12A(74LS04)及U12B(74LS04)完成。，通过DIP开关选择地址，DIP开关只有一位ON。

8255芯片的I/O端口中，PA用于A/D语音输入采样，PB用于D/A信号数字放音。

6.3数模转换与滤波放大电路担任数模转换任务的芯片是U9(DAC0800)，用于将数字信号转换为双极性音频信号。按本发明所设定程序，提问信号入耳机左声道，答案提示信号发音入耳机右声道，在此以一个模拟开关UI0(4052)转换以上两种信号，分别进入二路滤波放大电路。即U4(8255)之PC0，PC1入U10的A，B两引脚，当A(PC0)与B(PC1)均为0时，信号从U10的X引脚输出，入U5一路为左声道；当A(PC0)为1，B(PC1)为0时，信号从U10的Y引脚输出至U11一路，为右声道，最后分别由耳机插孔输出至双声道耳机

Claims

1、一种基于有限集语音识别的人机交互方法，其特征在于，以预先设定的问句和有限集答句结合计算机语音识别技术来达到人机交互，包括以下步骤：

1.1)计算机装置输出一个提问；

1.2)计算机以声音或显示方式中的至少一种，提示2-20个句子组成的与上述提问关联的有限集目标答句，使用者择其一，对计算机语音输入设备，念出这个回答的读音；

1.3)计算机对输入的使用者语音，与1.2)中的有限集目标答句模板逐个进行失真测度，以比对确定此输入语音为上述有限集目标答句中的某一个；

1.4)在确定这个识别结果之后，计算机程序按所预定上下逻辑关系，发出语意向下连贯的新问题，进入新一轮对话场景，即再重复步骤1.1)，1.2)与1.3)，而使对话不断向前延续，直至某一训练单元结束。

2、根据权利要求1所述方法，其特征在于，所述提问与有限集目标答句的全体为预先编撰的脚本，是一个多路径可选树形结构，其中一个提问句与一组有限集目标答句对应，任一回答句与一个新提问句唯一对应，依此确定人机对话发展的逻辑关系。

3、根据权利要求1或2所述方法，其特征在于，所述提问句是指装置自动发出的一个引导性语音，由发出预定的第一个语音作为对话过程的开始，在对话过程之中，由上一轮对话中装置语音识别出的回答句确定下一个新的问句。

4、根据权利要求2所述方法，其特征还在于，预先编撰脚本中对一个问题的2-20个回答句时，使这些回答句互相之间的语音数字特征区别足够大以便于语音识别。

5、根据权利要求1-4中任何一项所述方法，其特征还在于，在所述步骤1.3)中，根据得到的失真测度，提供对用户发音的评价。

6、根据权利要求1所述方法，其特征在于，可设定其中的提问句与答句均为唯一确定对应，人机对话的流程沿一预先设定的固定路径进行；语音识别技术仅用于根据得到的失真测度对使用者的发音质量给予评价。

7、一种基于有限集语音识别的人机交互装置，其特征在于，包括计算机、插在计算机扩展槽内的语音卡，以及与语音卡连接的耳机及麦克风，所述语音卡包括连接麦克风的语音输入信号处理单元、连接耳机的语音输出单元以及连接在语音输入信号处理单元与语音输出单元之间的语音数字信号处理单元，还包括内含有限目标语音模板库、提问语音资料库、主控程序以及语音识别程序的控制程序，用于执行以下步骤：

7.1)通过显示器或耳机输出一个提问；

7.2)通过耳机或显示器输出提示2-20个有限集目标答句，使用者择一，对麦克风发声念出这个回答的读音；

7.3)通过麦克风输入使用者语音，与1.2)中2-20个有限集目标答句的模板进行识别比对，确定此输入语音归属于这2-20个某一个；

7.4)在确定这个识别结果之后，计算机程序按所编制的脚本，发出语意向下连贯的新一问题，进入新一轮对话场景，即再重复步骤7.1)，7.2)与7.3)，而使对话不断向前延续，直至结束某一训练单元结束。

8、根据权利要求7所述装置，其特征在于，所述麦克风为专业定向麦克风，所述耳机是头戴式附专业定向麦克风的耳机，采用头戴式耳机与定向话筒为一体结构以保证较高的输入语音信噪比。

9、根据权利要求7所述装置，其特征在于，采用双声道系统分别输出提问句与提示待识别的目标答句，所述双声道系统包括双通道的语音信号输出放大单元，以及外接的头戴式双声道耳机。

10、根据权利要求7-9中任何一项所述装置，其特征还在于，具有自动侦测外界噪声程序，用于在检测到较大外部噪音时以文字与声音提示使用者使用时离开高噪声环境。