CN103839548A

CN103839548A - 一种语音交互方法、装置、系统和移动终端

Info

Publication number: CN103839548A
Application number: CN201210487130.3A
Authority: CN
Inventors: 周彬
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2012-11-26
Filing date: 2012-11-26
Publication date: 2014-06-04
Anticipated expiration: 2032-11-26
Also published as: US9728192B2; US20150255072A1; WO2014079324A1; CN103839548B

Abstract

本发明实施方式提出了一种语音交互方法、装置、系统和移动终端。方法包括：设置画面素材移动命令与交互关键字的对应关系，该方法还包括：展示画面素材；录制用户语音文件，分析用户语音文件以解析出交互关键字；根据解析出的交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制画面素材的移动。本发明实施方式可以由用户基于语音来控制画面素材的移动方式，有效地提高画面素材的交互成功率。

Description

一种语音交互方法、装置、系统和移动终端

技术领域

本发明实施方式涉及信息处理技术领域，更具体地，涉及一种语音交互方法、装置、系统和移动终端。

背景技术

随着计算机技术和网络技术的飞速发展，互联网（Internet）和即时通信技术在人们的日常生活、学习和工作中发挥的作用也越来越大。而且，随着移动互联网的发展，互联网也在向移动化发展。

当今社会已经进入了高度发达的信息时代，其企业竞争形态也已经由过去主要以产品功能质量为主的单一竞争形态转变为以企业形象、商品、品牌等作为重要手段和主要倾向的复合竞争形态。这种形态的转变与现代画面展示事业的迅速发展是分不开的。

在传统的画面展示活动中，画面主、画面内容、画面内容受众、画面表现等基本要素都在一定的区域里反映着各个时期的文明程度。所有的这些图像元素，都在不同程度上作为一种文化反映着社会、经济的时代痕迹。

在目前的画面展示方法中，通常由画面提供商自己直接提供画面素材，而且单向在网络上主动展示画面。然而，这种展示方式并没有考虑到画面受众的个人参与程度，因此仅是一种片面的画面展示，与画面浏览受众缺乏有效交互，因此交互成功率很低。

发明内容

本发明实施方式提出一种语音交互方法，以提高交互成功率。

本发明实施方式还提出了一种语音交互装置，以提高交互成功率。

本发明实施方式还提出了一种移动终端，以提高交互成功率。

本发明实施方式还提出了一种语音交互系统，以提高交互成功率。

本发明实施方式的具体方案如下：

一种语音交互方法，设置画面素材移动命令与交互关键字的对应关系，该方法还包括：

展示画面素材；

录制用户语音文件，分析所述用户语音文件以解析出交互关键字；

根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

一种语音交互装置，包括对应关系设置单元、画面素材展示单元、交互关键字解析单元和画面素材移动单元，其中：

对应关系设置单元，用于设置画面素材移动命令与交互关键字的对应关系；

画面素材展示单元，用于展示画面素材；

交互关键字解析单元，用于录制用户语音文件，分析所述用户语音文件以解析出交互关键字；

画面素材移动单元，用于根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

一种移动终端，该移动终端包括显示单元、语音录制单元和计算单元，其中：

显示单元，用于展示画面素材；

语音录制单元，用于录制用户语音文件；

计算单元，用于保存画面素材移动命令与交互关键字的对应关系，分析所述用户语音文件以解析出交互关键字；根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

一种语音交互系统，该系统包括移动终端和服务器，其中：

服务器，用于接收画面素材，并将画面素材发送到移动终端；

移动终端，用于设置画面素材移动命令与交互关键字的对应关系；展示从服务器接收的画面素材；录制用户语音文件，分析所述用户语音文件以解析出交互关键字；根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

从上述技术方案可以看出，在本发明实施方式中，设置画面素材移动命令与交互关键字的对应关系；展示画面素材；制用户语音文件，分析用户语音文件以解析出交互关键字；根据解析出的交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制述画面素材的移动。由此可见，应用本发明实施方式之后，不同于现有技术中画面提供者的单片面画面展示，画面浏览受众可以基于语音方式控制画面素材的移动，因此画面浏览受众可以通过语音方式与画面素材有效交互，提高了交互成功率。

而且，本发明实施方式通过感应用户语音来控制画面素材，同时还提高了画面素材的曝光程度，从而进一步能够提高画面素材投放效果。

附图说明

图1为根据本发明实施方式的语音交互方法流程图；

图2为根据本发明实施方式的汽车类型的画面素材示意图；

图3为根据本发明实施方式的汽车类型的画面素材交互移动示意图；

图4为根据本发明实施方式的语音交互装置结构图；

图5为根据本发明实施方式的移动终端结构示意图；

图6为根据本发明实施方式的语音交互系统结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

图1为根据本发明实施方式的语音交互方法流程图。

如图1所示，该方法包括：

步骤101：设置画面素材移动命令与交互关键字的对应关系。

在这里，优选可以设置画面素材加速命令、画面素材减速命令、画面素材启动命令、画面素材停止命令、画面素材移动速度保持命令、或画面素材移动轨迹等各种画面素材移动命令与交互关键字的对应关系。

比如，可以设置交互关键字“启动”对应于画面素材启动命令；交互关键字“停止”对应于画面素材停止命令；设置交互关键字“加速”对应于画面素材加速命令；设置交互关键字“减速”对应于画面素材减速命令；交互关键字“曲线”对应于设置画面素材移动轨迹为曲线的命令；交互关键字“直线”对应于设置画面素材移动轨迹为直线的命令，等等。

以上虽然详细罗列了画面素材移动命令与交互关键字的具体实例，本领域技术人员可以意识到，这种罗列仅仅是示范性的，并不用于限定本发明实施方式的保护范围。

在一个实施方式中，可以将画面素材移动速度与交互关键字的对应关系保存在移动终端上。移动终端可以包括但是不局限于：功能手机、智能手机、掌上电脑、个人电脑（PC）、平板电脑或个人数字助理（PDA），等等。

以上虽然详细罗列了移动终端的具体实例，本领域人员可以意识到，这些罗列仅是阐述目的，并不用于限定本发明实施方式的保护范围。

移动终端可以适用于任意的智能终端操作系统，具体可以采用的操作系统包括但是不局限于：安卓（Andorid）、Palm OS、Symbian（塞班）、Windows mobile、Linux、Android（安卓）、iPhone（苹果）OS、Black Berry（黑莓）OS6.0、Windows Phone系列，等等。

优选地，移动终端具体可以采用安卓操作系统，而且移动终端可以采用到Andorid的各个版本之中，包括但是不局限于：阿童木（Android Beta）、发条机器人（Android1.0）、纸杯蛋糕（Android1.5）、甜甜圈（Android1.6）、松饼（Android2.0/2.1），冻酸奶（Android2.2）、姜饼（Android2.3）、蜂巢（Android3.0）、冰激凌三明治（Android4.0）、果冻豆（Jelly Bean，Android4.1）等版本。以上详细罗列了Android平台的具体版本，本领域技术人员可以意识到，本发明实施方式并不局限于上述罗列版本，而还可以适用于其他基于Android软件架构的任意版本之中。

步骤102：展示画面素材，录制用户语音文件，分析所述用户语音文件以解析出交互关键字。

在这里，图像受众、图像提供商或任意的第三方都可以通过各种信息传输方式，将画面素材上传到位于网络侧的服务器中，然后由移动终端从服务器中获取到画面素材，并展示画面素材。

画面素材的具体内容与期望向用户展示的素材本身相关。比如，假设期望投放关于品牌汽车的信息推送，则可以上传品牌汽车的实物模型图像；假如期望投放关于某款电子产品的信息推送，则可以上传该款电子产品的实物模型图像；等等。

在移动终端上还可以展示与画面素材相对应的背景图像。背景图像和画面素材的种类可以有多种。比如，背景图像和画面素材可以分别为：位图；联合照片专家组（JPEG）；签图像文件格式（TIFF）；图像互换格式（GIF）；流式网络图形格式（PNG）；或三维图像，等等。GIF图像文件的数据是经过压缩的，而且是采用了可变长度等压缩算法。GIF格式的另一个特点是其在一个GIF文件中可以存多幅彩色图像，如果把存于一个文件中的多幅图像数据逐幅读出并显示到屏幕上，就可构成一种最简单的画面。

本发明实施方式中，可以通过将该画面类型的画面素材叠加到背景图像上，实现共同显示。

示范性地，图2为根据本发明实施方式的汽车类型的画面素材示意图。由图2可见，画面素材为汽车模型，背景图像为房屋。汽车模型与房屋融合显示在一起，而且汽车模型停留在房屋之中。

而且，信息推送受众、图像提供商或任意的第三方还可以通过多种方式上传画面素材。比如，可以由图像受众直接在移动终端上，通过无线上网的方式将画面素材上传到服务器；也可以由图像提供商通过个人计算机（PC）等方式将画面素材上传到服务器，等等。

优选的，移动终端可以通过通用网关接口（CGI）的方式从服务器获取到背景图像和画面素材，并在移动终端的浏览器窗口上显示背景图像和画面素材。

移动终端浏览器是运行在移动终端上的浏览器，可以通过通用分组无线服务技术（GPRS）等多种方式上网浏览互联网内容。目前，一些移动终端浏览器需要JAVA或移动终端的系统（如苹果的IOS系统以及Android平台等）支持。

服务器可以向移动终端提供背景图像，也可以在移动终端本地预先存储背景图像。优选在服务器中保存背景图像，这是因为相比较移动终端，服务器可以具有更大的储存空间，因此可以在服务器中保存海量的背景图像。示范性地，背景图像可以包括：蓝天、白云、大桥、公路等等。

在一个实施方式中，图像受众、图像提供商或任意第三方除了上传画面素材之外，还进一步上传用于描述该画面素材类型的图像属性信息。图像属性信息可以是文本信息。还可以直接通过画面素材的命名来描述其类型。服务器可以根据图像属性信息确定出画面素材的类型，并检索与该画面素材相匹配的背景图像。

比如，假设画面素材是针对汽车的信息推送，则服务器可以检索出适于汽车的背景图像（比如为跑道）；假设画面素材是针对电子产品的信息推送，则服务器可以检索出适于电子产品的背景图像（比如为办公桌）。

在这里，当由服务器提供背景图像时，服务器可以首先将上传来的画面素材和自身保存的背景图像发送到移动终端，而且优选顺带发送定单信息和/或广告位信息等，并提供给移动终端进行相应展示。

在移动终端上将背景图像和画面素材共同显示，从而实现融合显示。优选地，画面素材显示在背景图像的上面或前面。

当向用户展示画面素材之后，可以基于用户的语音实现针对画面素材的互动过程。

用户在浏览画面素材时，或者浏览画面素材之后，可以发出语音。此时录制用户语音文件，分析用户语音文件以解析出交互关键字。

在这里，可以基于各种语音识别技术分析用户语音文件以解析出交互关键字。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术等方面。

本发明实施方式可以采用的语音识别的种类有很多，比如连续语音识别、关键词检出、说话人辨认、说话人确认、语音合成、音频检索等方式。更具体地，连续语音识别可以采用隐马尔科夫模型，而且本发明实施方式还可以采用动态时间规正、神经网络、支持向量机、矢量量化等各种语音识别算法。

在具体实施中，可以将各种语音识别技术通过内置插件或接口等方式嵌入到各种终端的浏览器窗口中，从而使得浏览器窗口自身可以具备相应语音识别功能。

比如，可以将用户输入的语音文件转换成文本文件，再将文本文件与数据库中的文本格式的关键字进行比较，如果匹配成功则可确定出交互关键字。也可以将用户输入的语音文件与语音格式的交互关键字进行波形比较，若与语音格式的交互关键字波形一致，则可确定出交互关键字。

在一个实施方式中，可以首先获取语音训练文件和文本训练文件，并利用所述语音训练文件和文本训练文件，对语音识别器采用语音自适应方式估计语音参数，并利用该已估计语音参数的语音识别器识别所述用户语音文件，以将该用户语音文件转换为文本文件；再从所述文本文件中检索交互关键字。

在另一个实施方式中，可以确定该用户语音文件的语音波形图；判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域，如果是，则基于该所包含的交互关键字的语音波形确定该交互关键字。

在本发明实施方式中，还可以基于语音来实现变更画面素材。

具体地，可以设置画面素材变更命令与画面素材变更关键字的对应关系；然后通过录制用户语音文件，分析所述用户语音文件以解析出画面素材变更关键字；再根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材，并展示更新后画面素材。

步骤103：根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

在这里，可以根据在步骤101设置的画面素材移动命令与交互关键字的对应关系，根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令。

比如，假如在步骤101中设置有关键字“启动”对应于画面素材启动命令、交互关键字“停止”对应于画面素材停止命令、设置交互关键字“加速”对应于画面素材加速命令、设置交互关键字“减速”对应于画面素材减速命令、交互关键字“曲线”对应于设置画面素材移动轨迹为曲线的命令、交互关键字“直线”对应于设置画面素材移动轨迹为直线的命令。

则当步骤102中解析出交互关键字为“启动”时，则可确定画面素材移动命令具体为：画面素材启动命令；当步骤102中解析出交互关键字为“停止”时，则可确定画面素材移动命令具体为：画面素材停止命令；当步骤102中解析出交互关键字为“加速”时，则可确定画面素材移动命令具体为：画面素材加速命令；当步骤102中解析出交互关键字为“减速”时，则可确定画面素材移动命令具体为：画面素材减速命令；当步骤102中解析出交互关键字为“曲线”时，则可确定画面素材移动命令具体为：设置画面素材移动轨迹为曲线的命令；当步骤102中解析出交互关键字为“直线”时，则可确定画面素材移动命令具体为：设置画面素材移动轨迹为直线的命令，等等。

当解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，可以基于所确定的画面素材移动命令控制所述画面素材的移动。

在本发明实施方式中，还可以在步骤101中预先设置交互关键字与画面素材移动速度之间的对应关系。比如：设置交互关键字“高速运动”对应于画面素材保持预先设置的高速移动速度，即针对画面素材的高速移动速度保持命令；还可以设置交互关键字“中速运动”对应于画面素材保持为预先设置的中速移动速度，即针对画面素材的中速移动速度保持命令；还可以设置交互关键字“低速运动”对应于画面素材保持为预先设置的低速移动速度，即针对画面素材的低速移动速度保持命令。

当步骤102中解析出交互关键字为“高速运动”时，则可确定画面素材移动命令具体为：画面素材保持预先设置的高速移动速度，则此时控制画面素材移动速度加速到该预先设置的高速移动速度，并保持该高速移动速度。

当步骤102中解析出交互关键字为“中速运动”时，则可确定画面素材移动命令具体为：画面素材保持预先设置的高速移动速度，则此时控制画面素材移动速度加速到该预先设置的中速移动速度，并保持该中速移动速度。

当步骤102中解析出交互关键字为“低速运动”时，则可确定画面素材移动命令具体为：画面素材保持预先设置的低速移动速度，则此时控制画面素材移动速度加速到该预先设置的低速移动速度，并保持该低速移动速度。

图3为根据本发明实施方式的汽车类型的画面素材交互移动示意图。

由图3可见，画面素材为汽车模型，背景图像为房屋。汽车模型与房屋融合显示在一起，而且汽车模型停留在房屋之上。当感应到用户的语音之后，可以根据包含于该语音中的画面素材移动命令，汽车模型从该房屋中移开。

而且，在用户将手指或脚趾放到摄像头附近时，可以由摄像头的热传感器检测到用户的热量，并开始播放预先设定的引擎启动声音，以预示汽车模型已经启动。

基于上述详细分析，本发明实施方式还提出了一种语音交互装置。

图4为根据本发明实施方式的语音交互装置结构图。

如图4所示，该装置包括对应关系设置单元401、画面素材展示单元402、交互关键字解析单元403和画面素材移动单元404，其中：

对应关系设置单元401，用于设置画面素材移动命令与交互关键字的对应关系；

画面素材单元402，用于展示画面素材；

交互关键字解析单元403，用于录制用户语音文件，分析所述用户语音文件以解析出交互关键字；

画面素材移动单元404，用于根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

在一个实施方式中，交互关键字解析单元403，用于获取语音训练文件和文本训练文件，并利用所述语音训练文件和文本训练文件，对语音识别器采用语音自适应方式估计语音参数，并利用该已估计语音参数的语音识别器识别所述用户语音文件，以将该用户语音文件转换为文本文件；从所述文本文件中检索交互关键字。

在另一个实施方式中，交互关键字解析单元403，用于确定该用户语音文件的语音波形图；判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域，如果是，则基于该所包含的交互关键字的语音波形确定该交互关键字。

优选地，对应关系设置单元401，用于设置画面素材加速命令、画面素材减速命令、画面素材启动命令、画面素材停止命令、画面素材移动速度保持命令、或画面素材移动轨迹与交互关键字的对应关系。

该装置进一步包括画面素材变更单元405；

对应关系设置单元401，进一步用于设置画面素材变更命令与画面素材变更关键字的对应关系；

交互关键字解析单元403，进一步用于录制用户语音文件，分析所述用户语音文件以解析出画面素材变更关键字；

画面素材变更单元405，用于根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材，并向画面素材展示单元402发送该更新后画面素材；

画面素材展示单元402，进一步用于展示该更新后画面素材。

可以基于上述方法和装置，在多种应用环境中实施本发明实施方式。比如，可以将本发明实施方式应用到移动终端的广告应用中。可以预先设置互动关键字“奥迪启动”。在用户点击广告后，提示用户利用麦克风说提示语：“奥迪启动”；当用户说出奥迪启动后，该语音关键字被解析成文本，与广告设定的互动关键字比较。若互动关键字一致，则将触发广告的行为，放出汽车启动的引擎声音，预示着广告内的汽车已经启动，而且广告横幅内的汽车轮胎转动，迅速移动开出广告可见范围，因此更能提高广告的互动性和新颖性。

基于上述分析，本发明实施方式还提出了一种移动终端。

图5为根据本发明实施方式的移动终端结构示意图。

如图5所示，该移动终端包括显示单元501、语音录制单元502和计算单元503。其中：

显示单元501，用于展示画面素材；

语音录制单元502，用于录制用户语音文件；

计算单元503，用于保存画面素材移动命令与交互关键字的对应关系，分析所述用户语音文件以解析出交互关键字；根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

优选地，进一步包括摄像单元504，进一步用于感应用户的热量，并在感应到用户热量后向显示单元501发出热量提示消息；

显示单元501，进一步用于收到热量提示消息之后，播放画面素材移动启动音频。

基于上述详细分析，本发明实施方式还提出了一种语音交互系统。

图6为根据本发明实施方式的语音交互系统结构图。

如图6所示，该系统包括移动终端和服务器，其中：

优选地，移动终端，进一步用于保存画面素材变更命令与画面素材变更关键字的对应关系，录制用户语音文件，分析所述用户语音文件以解析出画面素材变更关键字，用于根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材，并展示所述更新后画面素材。

在一个实施方式中，移动终端，用于从服务器获取该更新后画面素材，或者在本地检索以获取该更新后画面素材。

其中，移动终端可以包括但是不局限于：功能手机、智能手机、掌上电脑、个人电脑（PC）、平板电脑或个人数字助理（PDA），等等。

而且，在这里，图像受众、图像提供商或任意的第三方都可以通过各种信息传输方式，将画面素材上传到位于网络侧的服务器中，然后由移动终端从服务器中获取到画面素材，并展示画面素材。

实际上，可以通过多种形式来具体实施本发明实施方式所提出的语音互动方法和装置。比如，可以遵循一定规范的应用程序接口，将语音互动方法编写为安装到移动终端中的插件程序，也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时，可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MIDI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的语音互动方法。

可以通过指令或指令集存储的储存方式将本发明实施方式所提出的语音互动方法存储在各种存储介质上。这些存储介质包括但是不局限于：软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒（Memory Stick）、xD卡等。

另外，还可以将本发明实施方式所提出的语音互动方法应用到基于闪存（Nand flash）的存储介质中，比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。

综上所述，在本发明实施方式中，设置画面素材移动命令与交互关键字的对应关系，该方法还包括：展示画面素材；制用户语音文件，分析所述用户语音文件以解析出交互关键字；根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。由此可见，应用本发明实施方式之后，不同于现有技术中画面提供者的单片面画面展示，而是可以基于语音文件的交互关键字控制画面素材的移动，因此画面浏览受众可以通过语音方式与画面素材有效交互，提高了交互成功率。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音交互方法，其特征在于，设置画面素材移动命令与交互关键字的对应关系，该方法还包括：

展示画面素材；

2.根据权利要求1所述的语音交互方法，其特征在于，所述分析用户语音文件以解析出交互关键字包括：

获取语音训练文件和文本训练文件，并利用所述语音训练文件和文本训练文件，对语音识别器采用语音自适应方式估计语音参数，并利用该已估计语音参数的语音识别器识别所述用户语音文件，以将该用户语音文件转换为文本文件；

从所述文本文件中检索交互关键字。

3.根据权利要求1所述的语音交互方法，其特征在于，所述分析用户语音文件以解析出交互关键字包括：

确定该用户语音文件的语音波形图；

判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域，如果是，则基于该所包含的交互关键字的语音波形确定该交互关键字。

4.根据权利要求1所述的语音交互方法，其特征在于，所述设置画面素材移动命令与交互关键字的对应关系为：设置画面素材加速命令、画面素材减速命令、画面素材启动命令、画面素材停止命令、画面素材移动速度保持命令、或画面素材移动轨迹与交互关键字的对应关系。

5.根据权利要求1所述的语音交互方法，其特征在于，进一步设置画面素材变更命令与画面素材变更关键字的对应关系；该方法还包括：

录制用户语音文件，分析所述用户语音文件以解析出画面素材变更关键字；

根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材，并展示所述更新后画面素材。

6.一种语音交互装置，其特征在于，包括对应关系设置单元、画面素材展示单元、交互关键字解析单元和画面素材移动单元，其中：

画面素材展示单元，用于展示画面素材；

7.根据权利要求6所述的语音交互装置，其特征在于，

交互关键字解析单元，用于获取语音训练文件和文本训练文件，并利用所述语音训练文件和文本训练文件，对语音识别器采用语音自适应方式估计语音参数，并利用该已估计语音参数的语音识别器识别所述用户语音文件，以将该用户语音文件转换为文本文件；从所述文本文件中检索交互关键字。

8.根据权利要求6所述的语音交互装置，其特征在于，

交互关键字解析单元，用于确定该用户语音文件的语音波形图；判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域，如果是，则基于该所包含的交互关键字的语音波形确定该交互关键字。

9.根据权利要求6所述的语音交互装置，其特征在于，

对应关系设置单元，用于设置画面素材加速命令、画面素材减速命令、画面素材启动命令、画面素材停止命令、画面素材移动速度保持命令、或画面素材移动轨迹与交互关键字的对应关系。

10.根据权利要求6所述的语音交互装置，其特征在于，进一步包括画面素材变更单元；

对应关系设置单元，进一步用于设置画面素材变更命令与画面素材变更关键字的对应关系；

交互关键字解析单元，进一步用于录制用户语音文件，分析所述用户语音文件以解析出画面素材变更关键字；

画面素材变更单元，用于根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材，并向画面素材展示单元发送该更新后画面素材；

画面素材展示单元，进一步用于展示该更新后画面素材。

11.一种移动终端，其特征在于，该移动终端包括显示单元、语音录制单元和计算单元，其中：

显示单元，用于展示画面素材；

语音录制单元，用于录制用户语音文件；

12.根据权利要求11所述的移动终端，进一步包括摄像单元，

摄像单元，进一步用于感应用户的热量，并在感应到用户热量后向显示单元发出热量提示消息；

显示单元，进一步用于收到热量提示消息之后，播放画面素材移动启动音频。

13.一种语音交互系统，其特征在于，该系统包括移动终端和服务器，其中：

14.根据权利要求13所述的语音交互系统，其特征在于，

移动终端，进一步用于保存画面素材变更命令与画面素材变更关键字的对应关系，录制用户语音文件，分析所述用户语音文件以解析出画面素材变更关键字，用于根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材，并展示所述更新后画面素材。

15.根据权利要求14所述的语音交互系统，其特征在于，

移动终端，用于从服务器获取该更新后画面素材，或者在本地检索以获取该更新后画面素材。