CN1937002A

CN1937002A - 一种智能人机对话的系统及其实现方法

Info

Publication number: CN1937002A
Application number: CNA2006100618315A
Authority: CN
Inventors: 佘清云
Original assignee: MINGREN COMPUTER SCIENCE-TECHNOLOGY Co Ltd ZHONGSHAN
Current assignee: MINGREN COMPUTER SCIENCE-TECHNOLOGY Co Ltd ZHONGSHAN
Priority date: 2006-07-27
Filing date: 2006-07-27
Publication date: 2007-03-28

Abstract

本发明公开了一种智能人机对话的系统，其中，包括一录音电路，用于对用户录音；一微处理器，连接控制一语料库，并包括一语音识别模块以及一语料库匹配处理模块；一放音电路，用于播放所述语料库中预先存储的语句；所述语音识别模块用于对来自所述录音电路的用户录音进行识别，并由所述语料库匹配处理模块在所述语料库中进行匹配查找用户的回答；所述微处理器用于控制播放匹配后的下一对话语句。本发明系统及其实现方法由于采用先进的语音识别技术和丰富的语料资源库，首次实现了不固定的自由的人机对话。

Description

一种智能人机对话的系统及其实现方法

技术领域

本发明涉及一种人机对话的系统及软件方法，尤其涉及的是一种智能人机对话的系统及其实现方法。

技术背景

目前，使用地道流畅的外国语言与外界进行沟通和交流在当今社会越来越重要，伴随这一需求产生了大量教授和训练口语能力的方法和产品，其中之一就是人机对话，即人和机器之间的对话，也叫角色扮演。

目前便携电子产品所做的人机对话，其实现原理是：硬件需要发音和录音的模块；软件上，按照对话资料给定的句子，一句一句地进行播放或录音。在机器说的时候播放句子语音，在人说的时候进行录音；对话完毕，可以听一遍整个录音，以供人来判断自己所说的话是否和给定的句子相同。

但这种模式的缺陷在于：须给予固定的场景和固定的对话句子，只能按照给定的句子进行对话，不能根据用户的不同回应来改变对话的内容，不能自由地进行对话。而且也没有评估系统，无法对人说的话进行识别判断，用户回答的是否正确只能由用户自己去判断；没有发音评判系统，无法对人的发音准确与否进行评判，起不到纠正发音的作用。同时，没有环境和措施促使用户开口说话，对话过程枯燥无味，不能引起用户学习的兴趣。

现有技术的这种模式的局限性不言而喻，真正的人和人之间的交流是不可能按照固定的句子进行的，因此这种模式最多只起到一个示范作用，而达不到教授和训练的效果。

因此，现有技术存在缺陷，而有待于改进和发展。

发明内容

本发明的目的在于提供一种智能人机对话的系统及其实现方法，用于便携机利用语音识别技术，能够智能进行应答。

本发明的技术方案包括：

一种智能人机对话的系统，其中，包括一录音电路，用于对用户录音；一微处理器，连接控制一语料库，并包括一语音识别模块以及一语料库匹配处理模块；一放音电路，用于播放所述语料库中预先存储的语句；

所述语音识别模块用于对来自所述录音电路的用户录音进行识别，并由所述语料库匹配处理模块在所述语料库中进行匹配查找用户的回答；

所述微处理器用于控制播放匹配后的下一对话语句。

所述的系统，其中，所述录音电路包括顺次连接的麦克风、A/D转换电路和第一声音编码电路，所述第一声音编码电路的输出连接所述微处理器。

所述的系统，其中，所述放音电路包括顺次连接的第二声音编码电路、D/A转换电路和喇叭或耳机，所述第二声音编码电路连接所述微处理器的音频输出。

一种智能人机对话的实现方法，其包括以下步骤：

A、程序启动后，由微处理器控制播放第一句话后，等待用户输入；

B、如果用户回答则进行录音，并由所述微处理器内设置的一语音识别模块进行语音识别，由该微处理器内设置的一语料库匹配处理模块根据该识别结果在语料库中查找匹配结果；

C、在查找到匹配结果后，播放对应的下一语句，并进入下一对话循环。

所述的方法，其中，所述步骤B还包括：

B1、用户按下回答提示按键时，所述微处理器控制显示各匹配回答语句的提示。

所述的方法，其中，所述步骤B还包括：

B2、在用户按下重复按键或识别用户语句为Pardon类时，所述微处理器控制重复播放刚才的语句。

所述的方法，其中，所述步骤B还包括：

B3、用户按下文本显示开关按键时，对应开启或关闭文本显示状态。

所述的方法，其中，所述微处理器在每一对话循环中对应显示不同场景的图片或动画。

所述的方法，其中，所述语音识别模块连续预定次数不能识别或匹配时，所述微处理器控制创建并显示供选择的回答语句列表。

所述的方法，其中，所述微处理器控制在用户在预定时间内不回答时重复播放最近语句，或，播放Pardon类语句。

本发明所提供的一种智能人机对话的系统及其实现方法，由于采用先进的语音识别技术和丰富的语料资源库，首次实现了不固定的自由的人机对话。

附图说明

图1为本发明方法的用户操作流程示意图；

图2为本发明方法的硬件原理图；

图3为本发明方法的事件流程图；

图4为本发明方法的识别和匹配子程序流程图。

具体实施方式

以下结合附图，将对本发明的各较佳实施例进行更为详细的说明。

本发明的智能人机对话的实现方法，其实现方案如图1所示，在一便携电子产品如PDA上预先安装本发明的软件系统，从桌面图标中选择启动图标，如“人机对话”，进行程序的启动；程序打开人机对话界面，在通过按键选择或触摸屏选择确认键后，打开显示不同类别场景的类别图标以供选择，例如“校园篇”、“商务篇”、“出国篇”等等。

此时，如果选择退出键或关闭按钮，程序将退出恢复到桌面状态，如果此时点击其中的某一类，并选择确认，则进入显示该类下具体场景的界面，如图1所示示例中，选定“出国篇”后确认显示下面的“医院”、“银行”、“饭店”、“邮局”等等各具体场景的图标，在该具体场景的显示界面下选择关闭或退出将退回到类图标显示的界面中。

从上述具体场景的图标显示界面中再进行选择，点击确认就可以打开该对应场景的视频图像，例如点击“银行”后确认，即打开银行营业员的视频图像，并开始具体的对话过程。如果此时，点击退出或关闭按键，程序将返回到具体场景的图标显示界面。

本发明的核心之处即在具体对话场景下的操作，由机器播放第一句话，然后等待用户的反应：

如果用户回答须按住录音键以便回答的同时进行录音，回答完毕机器即进入语音识别程序，得出用户说的话；并在语料库中进行查找。所述语料库中保存有对应该第一句话的多个匹配句子，如匹配句子1至N，通过语音识别找到用户回答的匹配句子X，根据该匹配句子X，再查找机器的下一句话，并进行播放进入下一对话过程。

如果用户不会回答时，按下回答提示按钮让机器进行回答语句的提示，然后机器将在语料库中查找可能的全部回答，并显示在界面中，等待客户回答反应，以循环进入播放对话的流程。

如果用户没有听清楚机器的回答，则需按下重复按键要求机器重复播放，由机器进行重复播放后，以进入等候用户的回答反应状态。

如果用户需要其他操作，如按下文本显示开关或标示文本查单词按键，则由机器进入相应的操作过程和界面，然后返回到对话状态。

须注意上述案件的实现依现有技术可以设置为硬件上的键盘某一按键或者在触摸屏上的某一案件区域，或者操作界面上的软键盘按键，这些实现方式为现有技术所周知，不再赘述。

同时，本发明的上述各界面中，在启动人机对话程序后可以显示LOGO界面，所述LOGO界面采用动画或视频形式，显示几秒自动闪过，或者在显示过程中，用户可以操作按键“skip”略过，进入场景类别选择界面。

在所述场景类别选择界面中，每个图标代表一个类别，在笔点图标或上下左右按键操作时当前选中图标和其它图标都有不同的表现，如颜色加深或闪动，并伴随声音、动画效果。笔点单击图标或按确认键即可进入具体场景选择界面。

所述具体场景选择界面中的每个图标代表一个场景，图标上下排列，笔点点击向上和向下的图标按钮或按上下键进行上下滚动显示。笔点点击图标或按确认键进入人机对话界面。

在人机对话界面中，一进入该界面，机器即开始播放说话。机器说完，等待用户回答。用户可按“录音”按钮或机器的录音按键开始录音。录音时间给一个上限，时间到，自动进行语音识别。或者用户松开“录音”键、再次点击“录音”按钮开始识别。

识别完毕，进行语料库的匹配查找，如果找到对应的回答，则播放声音。如果找不到，则机器可能要求用户重说一遍。

如果用户两次重说后，机器还不能识别或找不到匹配的回答，机器会给出各种候选回答的句子供用户选择。在对话进行的过程，自动切换图片或动画以表现不同的场景。同时，如果文本显示开启的话，在图片或动画上面同步显示两个角色所说的话。

同时在按键列表中有如下按钮：

文本显示的开启和关闭按钮：用户可以选择开启或关闭文本显示，当开启时，对话双方所说的话同步显示在界面上，关闭则不显示。

回答提示按钮：用户不会回答时，可按此按钮弹出有列表的模式窗口，列表中是各种可能的答案的文本，用户可从中选择需要的。

重复按钮：用户没听清时，可以说“pardon，please！”之类的话，要求机器重复一遍；也可按此按钮进行重复。

录音按钮：按下开始录音，再次按下则终止录音。

本发明方法的屏幕底部有操作和状态提示，用文字、图片或动画表示当前正在进行的操作，如录音，或者指示用户应该如何操作的提示等。

其它功能：用户可以标示文本进行查辞典或即时翻译。

本发明系统的硬件原理图如图2所示的，其包括一录音电路和一放音电路分别连接一微处理器MCU，在该微处理器中设置有一语音识别模块和语料库匹配处理模块，以及连接控制的一语料库(图中未示出)；所述录音电路包括麦克风、A/D转换电路、第一声音编码电路；所述放音电路包括第二声音解码电路、D/A转换电路、喇叭或耳机等播放装置。通过该微处理器的控制，将录音电路中录音的用户语音进行识别后，可以通过该语料库匹配处理模块在对应的语料库中进行匹配操作。

本发明方法的软件流程如图3和图4所示的，其事件处理程序如图3所示，程序启动后，依次判断：是否是用户按下录音键，如果是则开始录音；否则判读是否是录音键抬起消息或录音时间到的消息，如果是则结束录音，调用识别和匹配处理子程序，否则，判断对文本显示的设置状态开启或关闭的更改，相应更改文本显示状态；再判断是否有用户按下重复按键的动作，如是则重复播放机器刚才说的句子；如果有其他操作的命令则进行相应操作；最后结束。

本发明所述识别和匹配处理子程序如图4所示的，其步骤包括：

程序启动后，所述微处理器调用语音识别模块对来自录音电路的录音数据进行识别，如果能够识别出来，首先判断是否是“Pardon”类句子，如果是，则表明用户在请求重复播放机器刚才说的句子，机器进行重复播放，流程结束；否则，由所述语料库匹配处理模块在语料库中查找匹配的句子，如果找到匹配的句子，则机器播放对应的回答，并可以显示对应的图片或动画，根据文本显示标志确实是否要进行文本显示，并进入下一个人机对话过程。

如果不能找到匹配的句子或者未识别出来，则可首先播放“Pardon”类句子，要求用户重新录音；但连续预定次数不能匹配或识别不出来，则不再播放“Pardon”类句子要求用户重复，而是直接在界面上创建并显示候选句子的列表。

需要说明的是，所谓“Pardon”类语句是指实际日常用语对话中，当听不清对方说话时一般采用的用语，可以预先存储到所述语料库中，如“Pardon”、“I beg your pardon”、“Sorry...Would you please repeat...”等等，用于匹配播放。

例如本发明方法在用户说的不清楚，所述语音识别模块完全识别不出来，或者识别出来但在语料库中找不到匹配的句子时，则进行如下处理：第一、二次时，由机器回答“Pardon？”要求用户重说，在两次“Pardon”之后，仍未识别出或未匹配上，给出提示文字“这里面有您想要说的吗？”和候选句子列表，让用户选择他所说的话。如果用户说的是“Pardon？”之类的话，自动播放机器刚才说过的句子。如果用户说的不是“Pardon？”，则在语料库中查找匹配的句子，并给出相应的回答。

本发明的智能人机对话实现方法使用了先进的语音识别技术和丰富的语料资源库，首次实现了不固定的自由的人机对话。其主要原理是利用语音识别技术，对用户即人的声音进行识别，通过计算和分析得出所说的话，再在语料资源库中进行匹配查找，并把找到的应答由机器说(即播放)出来。

这样，本发明方法使得对话能够以较为自然和自由地方式进行下去，具有一定的智能化。因为对话是不固定的，用户可以自由发挥，就如同与真人对话似的，可带给用户完全不同的体验。

本发明的语音识别系统可以识别并判断用户说话的正确与否，也可以评判并纠正用户的发音，这对于用户的口语练习很有帮助。此外，本发明的软件功能设计成要求用户必须开口说才能进行下去，所以可以促使用户开口说话，变被动学习为主动学习。

同时本发明方法通过与场景相配的图片切换，模拟真实的对话情景，使得对话变得更为生动有趣，比起现有的枯燥的人机对话，有利于提高用户的学习兴趣。

本发明方法除了对话训练之外，还有一些辅助功能，比如，在用户不知道该如何回答时，可以由机器进行提示，以达到学习的目的；还可以提供对话文本的显示以帮助用户理解等等。

并且，本发明方法因为语料资源库可以不断扩充和扩展，因此这一技术可以延伸到各种语言，成为多语言的人机对话学习工具。

总之，本发明智能人机对话实现方法解决了原有人机对话的种种缺陷，实现了智能化的类似人与人之间随意交谈的对话模式，它所具有的语音识别、发音纠正、智能自由对话、趣味学习、可扩展性等特点，是口语学习的一大突破。

本发明技术可以应用到以下产品：便携式电子设备，比如PDA、电子词典、数码学习机、掌上电脑、手机等等。但是，并不限定上述产品，本发明设备及方法显然可以应用于更为宽泛的设备中，例如在计算机上的应用，也应是本发明的所请求保护的范围。

应当理解的是，上述针对具体实施例的描绘较为详细，并不能因此而认为是对本发明的专利保护范围的限制，本发明的专利保护范围应以所附权利要求为准。

Claims

1、一种智能人机对话的系统，其特征在于，包括一录音电路，用于对用户录音；一微处理器，连接控制一语料库，并包括一语音识别模块以及一语料库匹配处理模块；一放音电路，用于播放所述语料库中预先存储的语句；

所述微处理器用于控制播放匹配后的下一对话语句。

2、根据权利要求1所述的系统，其特征在于，所述录音电路包括顺次连接的麦克风、A/D转换电路和第一声音编码电路，所述第一声音编码电路的输出连接所述微处理器。

3、根据权利要求1所述的系统，其特征在于，所述放音电路包括顺次连接的第二声音编码电路、D/A转换电路和喇叭或耳机，所述第二声音编码电路连接所述微处理器的音频输出。

4、一种智能人机对话的实现方法，其包括以下步骤：

5、根据权利要求4所述的方法，其特征在于，所述步骤B还包括：

6、根据权利要求4所述的方法，其特征在于，所述步骤B还包括：

7、根据权利要求4所述的方法，其特征在于，所述步骤B还包括：

8、根据权利要求4至7任一所述的方法，其特征在于，所述微处理器在每一对话循环中对应显示不同场景的图片或动画。

9、根据权利要求8所述的方法，其特征在于，所述语音识别模块连续预定次数不能识别或匹配时，所述微处理器控制创建并显示供选择的回答语句列表。

10、根据权利要求4所述的方法，其特征在于，所述微处理器控制在用户在预定时间内不回答时重复播放最近语句，或，播放Pardon类语句。