CN103730032A

CN103730032A - 多媒体数据控制方法和系统

Info

Publication number: CN103730032A
Application number: CN201210387698.8A
Authority: CN
Inventors: 李志刚
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-10-12
Filing date: 2012-10-12
Publication date: 2014-04-16
Anticipated expiration: 2032-10-12
Also published as: CN103730032B

Abstract

本发明涉及一种多媒体数据控制方法和系统，该方法包括：利用音频采集模块采集承载语音内容的音频信号；计算音频信号与预设各个参考音频信号的波形曲线相似度，并选择相似度最高的参考音频信号为目的音频信号；如果目的音频信号与音频采集模块采集的音频信号之间的相似度超过多媒体响应门限，则将预存的多媒体数据中对应目的音频信号的数据段提供给多媒体设备，由多媒体设备播放成与目的音频信号所承载的语音内容相匹配的动画和/或声音。本发明加强了人机交互，将设定的多媒体数据作为语言学习者的发音标准性的响应，并且所述多媒体数据的具体内容与语言学习者的语音内容相匹配，因此，能够给予语言学习者形象、快捷和明确的指示和引导。

Description

多媒体数据控制方法和系统

技术领域

本发明涉及多媒体数据处理技术领域，更具体的说是涉及一种多媒体数据控制方法和系统。

背景技术

传统的语言培训教学是以班级形式的集体教学，侧重点在于“讲”，教师讲，学生们听或记。这种方式一方面受到场地的限制，另一方面，教师和学生是一对多的形式，教师的时间和精力有限，无法兼顾每个学生的学习。

为了解决此问题，计算机技术被引入语言培训教学，例如计算机远程教学，即以视频或音频方式播放语言学习资料（例如课件或录制的多媒体资料），由学生在各自计算机上进行接收和学习。

在本发明创造的过程中，发明人发现，上述现有技术虽然采用的计算机技术，但是计算机技术只是被简单使用，语言学习者只是机械地依照多媒体资料进行学习，学习方式主要是模仿，由于人机之间并没有交互，语言发音无法得到纠正和指导。

发明内容

有鉴于此，本发明的目的在于提供一种多媒体数据控制方法和系统，以解决现有技术无法利用计算机技术纠正及指导语言学习者语言发音的问题。

本发明的技术方案如下：

一种多媒体数据控制方法，包括：

利用音频采集模块采集承载语音内容的音频信号；

计算所述音频信号与预设音频库中的各个参考音频信号的波形曲线相似度，并选择相似度最高的参考音频信号为目的音频信号；

若所述目的音频信号与所述音频采集模块采集的音频信号之间的相似度超过多媒体响应门限，则将预存的多媒体数据中对应所述目的音频信号的数据段提供给多媒体设备，由多媒体设备播放成与所述目的音频信号所承载的语音内容相匹配的动画和/或声音。

一种多媒体数据控制系统，包括：

音频采集模块，用于采集承载语音内容的音频信号；

语音识别引擎，获取所述音频信号，计算所述音频信号与预设音频库中的各个参考音频信号的波形曲线相似度，并选择相似度最高的参考音频信号为目的音频信号；

控制器，由存储器和处理器组成，其中，所述存储器中存储有用于指示所述处理器在相似度超过多媒体响应门限时发出运行操作指令的命令，所述运行操作指令与所述目的音频信号相对应；所述处理器用于从所述语音识别引擎获取信息，及执行所述存储器中的命令；

多媒体运行模块，用于从预存的多媒体数据中调用对应所述运行操作指令的数据段，通过通信接口提供给多媒体设备，由所述多媒体数据播放成与所述目的音频信号所承载的语音内容相匹配的动画和/或声音。

从上述技术方案可以看出，本发明提供的方案综合了音频采集及识别多媒体数据处理和控制等技术手段，通过采集学习者的音频信号，与预先存储的标准音频进行比较，计算两者的相似度，并根据相似度的不同调用不同的多媒体数据，作为对学习者的发音准确性的响应。此方式加强了人机交互，将设定的多媒体数据作为语言学习者的发音标准性的响应，并且所述多媒体数据的具体内容与语言学习者的语音内容相匹配，因此，能够给予语言学习者形象、快捷和明确的指示和引导。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明一种实施例公开的多媒体数据控制方法的工作流程图；

图2为本发明另一种实施例公开的多媒体数据控制方法的工作流程图；

图3为本发明一种实施例公开的一种多媒体数据控制系统的结构示意图；

图4为本发明另一种实施例公开的一种多媒体数据控制系统的结构示意图；

图5~图8为本发明一种实施例公开的一种多媒体数据控制系统的几种应用示意图。

具体实施方式

现在的语言教学，尤其是外语教学，方式僵化、死板，主要靠死记硬背、题海战术，有些人学了多年外语，竟然通过该外语与人交流，产生了类似“哑巴英语”的不良后果。

外语学习最为重要的是语言环境的创设和“说”的次数，如果能够让学习者愿意主动说，经常说，就解决了学习外语的瓶颈问题。发明人从事过多年的外语教育，同时熟悉计算机技术，在本发明创造过程中，可以采用计算机技术创设语言环境，使学习者能够在这种环境下与机器进行语言交流，并且在交流过程中，通过机器的不同反应指示学习者发音存在的问题，并予以纠正。于是，创新性地提出了一种技术方案，综合了音频采集及识别多媒体数据处理和控制等技术手段，通过采集学习者的音频信号，与预先存储的标准音频进行比较，计算两者的相似度，并根据相似度的不同调用不同的多媒体数据，作为对学习者的发音准确性的响应。在相似度超过预设的启动多媒体程序的门限时，执行设定的多媒体程序，通过多媒体设备播放成设定的多媒体信息（例如视频或音频），在此过程中，另外进行音频信号的采集及比较操作，在相似度超过预设的运行多媒体程序的门限时，控制多媒体设备播放所述多媒体信息中与学习者输入的音频信号的内容相匹配的数据段（视频或音频）。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，为本申请一种实施例公开的多媒体数据控制方法的工作流程图，包括以下步骤：

步骤S101、利用音频采集模块采集承载语言学习者的语音内容的音频信号。

所述音频采集模块具体可以是音频采集卡或话筒（即麦克风）。

语言学习者发出语音信息后，音频采集卡或话筒即采集该语音信息，形成承载语音信息内容（即语音内容）的音频信号。

步骤S102、计算所述音频信号与预存的参考音频信号的波形曲线相似度。

可以预先存储各种标准音频信号作为参考音频信号，即各种参考音频信号针对某些语音内容（例如某个字、某个词或者某个句子），并以所述语音内容作为索引存储于音频库中。

于是，在上述音频采集模块采集到音频信号后，计算所述音频信号与音频库中所有的音频信号的相似度，确定相似度最高的音频信号及相似度。

计算相似度的方式可以是：比较所述音频采集模块采集到的音频信号与音频库中的音频信号两者之间的波形曲线图相似度，所述波形曲线图以时间作为横轴，以幅度作为纵轴。

所述波形曲线图包括反应各种声学属性的图形，所述各种声学属性包括音调、响度和带宽等，其中，所述音调是听觉分辨声音高低的特性，其由频率决定，可以通过计算一系列短时傅里叶频谱来估计；所述响度表示轻重的程度，以声音的振幅表示；所述带宽用短时傅里叶频谱的加权值方差计算。

计算波形曲线相似度的过程，可以是通过分析音频信号特征矢量在特征矢量空间中的分布来计算音频信号的相似度来实现，包括以下步骤：

首先，对所述音频采集模块采集到的音频信号“加窗预处理”，将音频信号分割成短时帧数据，提取其特征，计算结果为一个音频特征矢量序列；

接着，根据预先生成的特征空间区域，计算此序列在各区域中的分布；

然后，比较音频信号与预设音频库中的音频模板的音频特征矢量序列的分布确定相似度。

计算波形曲线相似度的过程还可以为：提取所述音频采集模块采集到的音频信号的指纹；比较该指纹和预设音频库中的各个参考音频信号的指纹；将指纹比较结果作为所述相似度。

其中，提取所述音频信号的指纹的方式可以是：先得到音频信号的特征数据；利用特征数据判断音频信号是否存在特征突变（通过信号幅度或频率的变化大于设定阈值判断），如果存在，分割出包含突变信号的信号窗口；将所述信号窗口中的信号分割成n等分（例如窗口长度=10毫秒，n=1000），将每一等份信号的幅度值或频率值作为信号指纹。

步骤S103、确定相似度最高的参考音频信号为目标音频信号。

步骤S104、判断所述相似度是否超过预设的多媒体响应门限，若是，则进入步骤S105，否则，进入步骤S107。

所述多媒体响应门限是用于启动后续多媒体响应操作的一个门限，例如可以设定为80%，即当所述采集的音频信号与目标音频信号之间的相似度超过80%时，确定所述相似度超过多媒体响应门限。

步骤S105、将处于解锁状态的多媒体数据中，与所述目标音频信号的语音内容相对应的数据段提供给多媒体设备，进入步骤S106。

步骤S106、所述多媒体设备将所述数据段播放成与所述语音内容的含义相匹配的动画和/或声音。

步骤S107、不做反应。

不做反应意味着步骤S101中采集的所述语音学习者的语音内容的发音不够标准，在其他实施例中，还可以播放其他设定的多媒体数据（例如播放设定的声音，显示设定的图像或字母等），以指示步骤S101中采集的所述语音学习者的语音内容的发音不够标准。

上述实施例公开的技术方案根据音频信号的相似度调用多媒体数据，该音频信号的相似度是波形曲线相似度确定的，符合自然规律（即不以人为意愿或思想所左右）。并且，正是在利用这种自然规律，通过人机交互的方式，实现对语言学习者的语言发音的标准型进行判断（或评估），并根据判断结果做出形象的指示和引导，为语言学习者的语言学习提供了方便。

上述多媒体数据，可以仅在相似度超过预设门限时才解锁（即能够被使用），在相似度低于所述预设门限时保持锁闭状态（即处于无法使用的状态）。例如另一个实施例记载的方案中，在进行图1所示流程之前，先进行多媒体数据的解锁过程，如图2所示，包括以下步骤：

步骤S201~步骤S203、与前文步骤S101~步骤S102内容基本相同。

步骤S204、若所述相似度等于或高于预设的多媒体解锁门限，则进入步骤S205，否则，进入步骤S206。

所述多媒体解锁门限是用于将多媒体数据从锁闭状态转换为解锁状态的一个门限，例如可以设定为70%，即当所述采集的音频信号与目标音频信号之间的相似度超过70%时，确定所述相似度超过多媒体解锁门限。

步骤S205、对预设的所述多媒体数据进行解锁。

步骤S206、不做反应。

不做反应意味着步骤S201中采集的所述语音学习者的语音内容的发音不够标准，在其他实施例中，还可以播放其他设定的多媒体数据（例如播放设定的声音，显示设定的图像或字母等），告知所述语言学习者，所述多媒体数据解锁不成功，即表明步骤S201中采集的所述语音学习者的语音内容的发音不够标准，还需努力。

可以认为，本实施例公开的方案中，包括两个过程，第一过程是解锁多媒体数据的过程（也可称为多媒体启动过程），只有语言学习者的发音标准程度达到一定程度，才能解锁所述多媒体数据，第二过程是播放多媒体的程序与语言学习者音频信号的互动过程（也可称为多媒体响应过程，即图1所示过程），在该过程中，如果语言学习者发出标准的语音内容，则播放多媒体的程序将依据所述语音内容做出符合所述语音内容含义的响应。

需要说明的是，所述多媒体解锁门限和多媒体响应门限可以相同，也就是说，语言学习者的两次发音与参考音频信号的相似度超过某程度，才“有资格”调用多媒体数据，由此降低了随机程度。所述多媒体解锁门限和多媒体响应门限也可以不同，多媒体响应门限高于多媒体解锁门限，通过门限的提高，为语言学习者设置一种“循序渐进”的环境，让其得到“进阶式”的练习机会。

本方案可以适用于语言学习过程，例如各种语言（中文、英文或德文......）的学习或语言障碍者的语言练习。

下面以英文学习过程为例对本案进行进一步的阐述，该过程可以多媒体启动过程和多媒体响应过程，其中：

所述多媒体启动过程如下：

首先，从词库或者语句库中随机选出一个单词或一个语句，或者由若干语句组合成一段话，由语言学习者念读。

然后，利用麦克风采集所述语言学习者发出的承载英文单词或语句的音频信号。

接着，计算所述音频信号与音频库中所存储的参考音频信号的波形曲线相似度，选定相似度最高的参考音频信号为目的音频信号。并且，如果所采集的音频信号与目的音频信号之间的相似度超过预设门限（如60%），则解锁处于锁闭状态的多媒体数据，并可同时向语言学习者呈现解锁成功的指示信息，以指示所述语言学习者可继续发送语音信息，即进入多媒体响应过程；否则，保持所述多媒体数据处于锁闭状态，并可同时呈现解锁不成功的指示信息，以指示所述语言学习者继续努力。

所述多媒体响应过程如下：

利用麦克风采集所述语言学习者针对所述指示信息发出的音频信号（承载英文单词或语句）。从音频库中确定波形曲线相似度与所采集的音频信号的波形曲线相似度最高的音频信号，作为目的音频信号。并且，如果所述相似度超过预设门限（如80%），则从所述多媒体数据中调用与所述英文单词或语句相对应的数据段，提供给多媒体设备进行播放，播放成符合所述目的音频信号的语音内容的含义的图像或声音。否则，则不作任何反应，或者向语言学习者指示其发音不够标准，需要继续努力。

所述多媒体数据可以是各种软件程序，例如Flash程序，具体可以是具有至少一个虚拟实体的Flash动画程序，所述与所述英文单词或语句相对应的数据段为控制该虚拟实体做出符合所述英文单词或语句的含义的动作。例如，语言学习者发出“jump”的音频信号，则遍历音频库中的所有音频段，找到与语言学习者发出的音频信号的波形曲线相似度最高的音频段，作为目的音频信号，并且，在目的音频信号与语言学习者发出的音频信号的相似度超过80%时，可认为语言学习者对于“jump”这个单词的发音标准，则控制所述Flash程序中的虚拟实体做出“跳”的动作，作为“jump”这个音频信号的响应，如果相似度低于80%，则可认为语言学习者对于“jump”这个单词的发音不够标准，则不做出反应。甚至，可以将Flash程序为某虚拟实体在奔跑中需要跳过一些障碍物的游戏程序，在该虚拟实体奔跑至某障碍物预设距离处，需要跳起来才能跨过所述障碍物，否则会被阻挡而导致时间延长，于是，在采集语言学习者的“jump”音频信号后，识别并确定标准度符合要求时，产生与控制虚拟实体做出“跳”这个动作的指令，发给运行Flash程序的模块，由该模块运行使虚拟实体做出“跳”这个动作的程序段。

针对前文所述业务数据控制方法，本发明同时还提供了一种多媒体数据控制系统，其一种结构如图3所示，包括音频采集模块31、语音识别引擎32、控制器33和多媒体运行模块34，其中：

所述音频采集模块31，可以是音频采集卡或话筒，用于采集承载语言学习者语音内容的音频信号。

所述语音识别引擎32，获取所述音频信号，计算所述音频信号与预设音频库中所有参考音频信号之间的波形曲线的相似度，并确定相似度最高的参考音频信号为目的音频信号；具体的计算过程可以参考前文方法部分的描述，在此不再赘述。

控制器33，由存储器331和处理器332组成，其中，所述存储器331中存储有用于指示在相似度大于多媒体响应门限时发出运行操作指令的命令3311，所述处理器332与所述语音识别引擎32相连，用于从所述语音识别引擎32获取信息，及执行存储器331中存储的命令。所述运行操作指令与目的音频信号相对应，具体的，所述运行操作指令与所述目的音频信号的含义相对应。

多媒体运行模块34，从处于解锁状态的多媒体数据中调用匹配所述运行操作指令的数据段，提供给多媒体设备，由所述多媒体数据播放成与所述内容的含义相匹配的动画和/或声音。

其工作过程和工作原理可以如下：

在语言学习者念读语言内容时，所述音频采集模块31采集承载所述语言内容的音频信号，提供给所述语音识别引擎32；所述语音识别引擎32遍历预设音频库中的所有音频段，依次计算音频库中各个音频段与所述音频采集模块31采集的音频信号之间的波形曲线的相似度，从中选择相似度最高的音频段作为目的音频信号，将所述音频信号内容含义（或者含义的指示信息）与相似度信息提供给所述控制器33；所述控制器33在所述相似度大于预设的多媒体响应门限时，发出运行操作指令，该运行操作指令与所述目的音频信号的内容含义（或含义的指示信息）相对应；所述多媒体运行模块34接收所述运行操作指令，从处于解锁状态的多媒体数据中调用匹配所述运行操作指令的数据段，提供给多媒体设备，由所述多媒体数据播放成与所述目的音频信号的内容的含义相匹配的动画和/或声音。

所述语音识别引擎32和控制器33之间需要进行配合，以实现根据语言学习者发音的标准程度，来执行相应的控制操作，配合的方式包括以下两种：

A、所述语音识别引擎32在确定目的音频信号后，产生与所述目的音频信号与所述音频采集模块31提供的音频信号的相似度对应的字符串，及所述目的音频信号的语音内容对应的字符串，并将产生的字符串传输给所述控制器33，所述控制器33依据所述相似度对应的字符串确定相似度是否超过预设门限，若是，则依据与语音内容对应的字符串，如产生对应的运行操作指令，传输给多媒体运行模块34，所述多媒体运行模块34调用相应数据提供给多媒体设备，进行播放，否则不做反应；

B、所述语音识别引擎32在确定目的音频信号后，判断其与所述音频采集模块31提供的音频信号的相似度是否超过预设门限，若是，则产生与所述目的音频信号的语音内容对应的字符串，传输给所述控制器33，所述控制器33依据所述字符串，产生对应的运行操作指令，传输给多媒体运行模块34。

此外，所述存储器331还存储有解锁操作指令3312，如图4所示，该解锁操作指令3312用于指示所述处理器332在所述语音识别引擎32计算出特征参数相似度大于多媒体启动门限时，解锁处于锁闭状态的所述多媒体数据，使其处于解锁状态，即将原先不可调用的多媒体数据变成可调用的多媒体数据，具体的，可以是为所述处理器332提供调用指令及调用对象（即多媒体数据）的存放地址。

本申请的一些实施例中，所述语音识别引擎32中可以设置有音频库和动态库，所述音频库中包括多个音频段，所述动态库中存储多个字符串，不同的音频段对应不同的字符串，这种对应关系是预先根据音频段的语音内容进行设置的，例如，设置语音内容为“jump”的音频段与指示“跳”这个动作的字符串相对应。而所述多媒体运行模块34可以是各种软件程序的运行模块，这些软件程序可以是Flash程序或者其他多媒体程序，在接收到控制器33产生的运行操作指令后执行相应操作。对于连接所述语音识别引擎32和多媒体运行模块34的所述控制器33，需要将语音识别引擎32产生的字符串对应成能够被所述多媒体运行模块34识别的运行操作指令，例如将与语音内容为“jump”的音频段的应的字符串，“转换成”能够被所述多媒体运行模块34识别的指示“跳”这个动作的操作指令。具体的，对于动态库中的字符串而言，其属于动态库字符，即具有DLL后缀的字符，这种字符可能无法直接被多媒体运行模块34所识别，于是，需要控制器33进行协议转换，即将DLL后缀的字符转换为能够被多媒体运行模块34所识别的字符，若多媒体运行模块34为Flash运行模块，则将DLL后缀的字符转换为Flash动作指令，例如将与语音内容为“jump”的音频段的应的字符串转换为指示某实体执行“跳跃”动作的Flash动作指令。

本申请提供的系统具体产品形式可以是USB设备，或者由USB设备和麦克风的组合。如图5所示，为一种USB设备的结构示意图，所述USB设备包括主板51及连接所述主板的USB接口52，其中主板51上设置有音频采集模块（音频卡）511、语音识别引擎512、控制器513和多媒体运行模块514，各模块的功能与前文同名单元的功能基本相同。

语言学习者在进行语言学习时，将所述USB设备通过所述USB接口插接于具有某电子设备（可以是计算机或多媒体设备）上，即可通过人机互动以进行语言学习和训练。

这种USB设备结构为人机互动提供了方便性，语言学习者只要携带所述USB设备，即可在具有设置USB接口的任何多媒体设备的任意场合，进行人机互动式的语言学习和训练。例如图6所示，所述多媒体设备可以是平板电脑。

在另外示例中，上述音频采集模块511还可以是前文所述的外置的麦克风，如图7所示，麦克风将采集的语音通过无线或者有线的方式传输给所述USB设备，具体的，传输给所述USB设备中的语音识别引擎。

此外，在一些实施例中，所述多媒体数据控制系统还可以集成于耳机设备中，例如图8所示的耳机设备，耳机设备包括壳体、通信接口、连接于所述壳体上的话筒和置于所述壳体内的与所述语音识别引擎、控制器和多媒体运行模块。所述多媒体运行模块通过通信接口与外部多媒体设备进行通信，所述通信接口可以是有线网络接口或者无线网络接口。

这种结构将多媒体数据控制系统集成于耳机设备中，语言学习者戴上所述耳机设备即可进行人机交互式的语言学习和训练，比较方便。

所述语音识别引擎还可以位于USB设备（或耳机设备）外部的某台设备中，例如外部某台服务器中，及音频采集模块采集到音频信号后，通过网络或者线路传输给所述服务器中的语音识别引擎，由语音识别引擎计算相似度并选定目的音频信号后，返回相应信息，由USB设备（或耳机设备）中的其他模块继续处理。

需要说明的是，本说明书中各个实施例可相互补充，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

另外，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。另外，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多媒体数据控制方法，其特征在于，包括：

利用音频采集模块采集承载语音内容的音频信号；

2.根据权利要求1所述的方法，其特征在于还包括：

当所述音频信号与预设参考音频信号的波形曲线的相似度等于或高于预设的多媒体解锁门限时，解锁所述多媒体数据。

3.根据权利要求1或2所述的方法，其特征在于，所述多媒体数据为Flash程序，所述数据段为所述Flash程序中针对某个虚拟实体、用于指示所述虚拟实体做出动作的程序段。

4.根据权利要求3所述的方法，其特征在于，按照以下步骤将所述数据段提供给多媒体设备：

接收所述目的音频信号所承载的语音内容对应的动态库函数；

查找预置的动态库函数与Flash程序协议适配的操作指令之间的对应关系，确定与接收的动态库函数对应的操作指令；

将确定的操作指令发送给执行所述Flash程序的模块，由所述模块依据所述操作指令从处于解锁状态的多媒体数据中调用对应的数据段，将所述数据段提供给所述多媒体设备。

5.一种多媒体数据控制系统，其特征在于，包括：

音频采集模块，用于采集承载语音内容的音频信号；

6.根据权利要求5所述的系统，其特征在于，所述存储器还存储有解锁操作指令，该解锁操作指令用于指示所述处理器在所述语音识别引擎计算出相似度大于多媒体启动门限时，解锁处于锁闭状态的所述多媒体数据，使其处于解锁状态。

7.根据权利要求5或6所述的系统，其特征在于，所述多媒体数据为Flash程序，所述多媒体运行模块为Flash模块，所述数据段为所述Flash程序中针对某个虚拟实体、用于指示所述虚拟实体做出动作的程序段。

8.根据权利要求7所述的系统，其特征在于，所述处理器从所述语音识别引擎获取的信息包括：

与所述目的音频信号对应的字符串，所述字符串，由所述语音识别引擎在所述目的音频信号与所述音频采集模块采集的音频信号之间的相似度超过多媒体响应门限时发送。

9.根据权利要求7所述的系统，其特征在于，所述处理器从所述语音识别引擎获取的信息包括：

由所述语音识别引擎发送的，用于指示目的音频信号与所述音频采集模块采集的音频信号之间的相似度的字符串，及与所述目的音频信号对应的字符串。

10.根据权利要求5~8所述的系统，其特征在于：

所述字符串为动态库函数，所述运行操作指令为与所述动态库函数相对应的Flash协议指令；

所述通信接口为电连接接口或无线接口。