CN1609950B

CN1609950B - 用语音控制动物影像运动的方法及装置

Info

Publication number: CN1609950B
Application number: CN200310108017A
Authority: CN
Inventors: 胡学增; 梁兆正; 许永顺; 吴为昊; 柯少敏; 肖建敏
Original assignee: SHANGHAI SCIENCE & TECHNOLOGY MUSEUM
Current assignee: SHANGHAI SCIENCE & TECHNOLOGY MUSEUM
Priority date: 2003-10-20
Filing date: 2003-10-20
Publication date: 2010-05-12
Anticipated expiration: 2023-10-20
Also published as: CN1609950A

Abstract

本发明公开了一种用语音控制动物影像运动的方法和装置，该方法包括：语音采集及识别的步骤、图像生成的步骤、显示图像的步骤、判断过程是否结束的步骤。该装置包括语音采集及识别装置、图像生成装置、图像显示装置、判断过程是否结束的装置。由于采用了上述技术方案，使用本发明的用语音控制动物影像运动的方法及装置的硬件系统将语音信号作为虚拟驯养动物的输入命令信号，参与者可以直接通过声音来控制虚拟动物的动作，大大方便了参与者，同时也能进一步提高参与者的兴趣。

Description

用语音控制动物影像运动的方法及装置

技术领域

本发明涉及虚拟技术，尤其设计一种用语音控制动物影像运动的方法及装置。

背景技术

宠物领养及驯化是人类与动物交流的一种手段与途径，它给人们的生活带来乐趣，激发人类的各种情趣，但同时也会给人们带很多不便之处，因为毕竟要让动物适应人类的生活环境要花很多的精力和财力。

于是，通过虚拟现实技术来实现虚拟驯养动物成为一个很好的选择。和大多数虚拟技术一样，实现虚拟驯养动物需要以下硬件系统：

命令接收设备，用来接收命令；

图像生成设备，用来生成虚拟动物的影像；

显示设备，显示背景图像和虚拟动物的动作；

控制设备，控制整个系统的运行。

对于参与者来说，如何向虚拟的动物发布命令是影响参与者兴趣的重要因素，目前的命令接收设备局限于手动输入，需要参与者使用特定的键盘或控制器来输入指令，因此给参与者带来了不少不便。于是，如何改进输入命令的方式就成了一个重要的问题。

发明内容

本发明的目的是提供一种用语音控制动物影像运动的方法及装置，使用语音信号作为输入命令的信号，为了达到上述目的，本发明采用如下技术方案：

一种用语音控制动物影像运动的方法，应用在包括语音采集与识别设备、图像生成设备、显示设备和控制设备的硬件系统上，该方法包括以下步骤：

a.语音采集及识别的步骤，所述语音采集与识别设备采集语音信号并识别出该语音信号所对应的动作种类；

b.图像生成的步骤，根据所述语音采集及识别的步骤中确定的所述动作种类，所述图像生成设备生成所述动物的一系列动作影像；

c.显示图像的步骤，根据所述图像生成的步骤中生成的一系列动作影像，首先显示相应背景，再显示所述一系列动作影像；

d.判断过程是否结束的步骤，判断所述控制设备是否收到结束信号，若收到，则结束该过程；若没有收到，则重复上述3个步骤，采集下一个语音信号。

所述语音采集及识别的步骤进一步包括：

a1.所述语音采集与识别设备接收男、女声区分信号，确定将要采集的语音信号是男声还是女声；

a2.所述语音采集与识别设备采集语音信号，所述语音信号是预先定义的词组；

a3.所述语音采集与识别设备识别所述语音信号，如果识别成功，则进入下一步骤，否则回到上一步骤a2再采集一次所述语音信号；

a4.确定所述识别出的语音信号所对应的动作类型，所述动作类型是预先与所述词组一一对应的。

一种用语音控制动物影像运动的装置，应用在包括语音采集与识别设备、图像生成设备、显示设备和控制设备的硬件系统上，该装置包括：

语音采集及识别装置，控制所述语音采集与识别设备采集语音信号并识别出该语音信号所对应的动作种类；

图像生成装置，根据所述语音采集及识别装置确定的所述动作种类，控制所述图像生成设备生成所述动物的一系列动作影像；

图像显示装置，根据所述图像生成装置生成的一系列动作影像，首先显示相应背景，再显示所述一系列动作影像；

判断过程是否结束的装置，判断所述控制设备是否收到结束信号，若收到，则结束该过程；若没有收到，则采集下一个语音信号。

所述语音采集及识别装置进一步包括：

男、女声区分装置，接收男、女声区分信号，确定将要采集的语音信号是男声还是女声；

语音采集装置，控制所述语音采集与识别设备采集语音信号，所述语音信号是预先定义的词组；

语音识别装置，控制所述语音采集与识别设备识别所述语音信号，如果识别成功，则将识别后的语音信号传送到下一装置，否则由所述语音采集装置再采集一次所述语音信号；

动作对应装置，确定所述识别出的语音信号所对应的动作类型，所述动作类型是预先于所述词组一一对应的。

由于采用了上述技术方案，使用本发明的用语音控制动物影像运动的方法及装置的硬件系统将语音信号作为虚拟驯养动物的输入命令信号，参与者可以直接通过声音来控制虚拟动物的动作，大大方便了参与者，同时也能进一步提高参与者的兴趣。

附图说明

图1是应用本发明的用语音控制动物影像运动的方法及装置的硬件系统的一个实施例的结构框图。

图2是本发明的用语音控制动物影像运动的方法的一个实施例的流程图。

图3是本发明的用语音控制动物影像运动的装置的一个实施例的框图。

图4是应用本发明方法及装置进行虚拟驯养动物时的画面效果图。

具体实施方式

下面结合附图和实施例来进一步说明本发明的技术方案。

本发明的一个重要特点在于其采用语音信号作为命令信号，因此，其命令接收设备为一语音信号采集及识别设备.图1是应用本发明的用语音控制动物影像运动的方法及装置的硬件系统的一个实施例的结构框图.该实施例中，语音信号采集及识别设备10包括语音采集设备11和语音识别设备12，此处，11为一麦克风，参与者只需对着麦克风11说出命令即可，12为一计算机，进行语音识别.麦克风11与计算机12相连，计算机12还与图像控制设备13与控制设备14相连，此处，图像控制设备13与控制设备14均为计算机.当然，语音识别设备12、图像控制设备13和控制设备14可以是同一台计算机，也可以是分开不同的计算机.图像显示设备13也与控制设备14相连，同时这两者也连接到显示设备15上，该实施例中，显示设备15是一个显示器.

由于本发明采用语音信号作为控制命令信号，因此，语音识别成为本发明中的一个关键技术，语音识别的实质就是将参与者的声音通过计算机的处理变成文字。考虑到本发明会作为一种游戏或公共展项吸引较多的参与者参加，而参与者中方言、口音的变化比较多样，现有的语音识别技术需要先进行语音训练，以使计算机系统适应个体的变化要求，而后才进行识别。这明显难以适应本发明的应用环境的要求，因此，本发明采用了一种新的语音识别技术。预先定义好一些简单的词组，然后用男声和女声分别进行语音训练，参与者首先选择性别，以确定计算机进行男声还是女声的识别，接下来从这些事先定义好的词组中进行选择，由于预先定义好的词组都是比较简单的，音节也比较少，因此语音识别设备可以在非常少的次数内识别出绝大部分的语音信号。这样就能使参与者不需要进行语音训练就能直接使用。

图2是本发明的用语音控制动物影像运动的方法的一个实施例的流程图。应用在包括语音采集与识别设备、图像生成设备、显示设备和控制设备的硬件系统上。如图2所示，该实施例包括以下步骤：

a.语音采集及识别的步骤，语音采集与识别设备采集语音信号并识别出该语音信号所对应的动作种类，进一步包括以下步骤：

a1.语音采集与识别设备接收男、女声区分信号，由于男声和女声的区别较大，所以预先进行男声和女声的分别训练，然后在开始采集语音信号之前先接收男、女声区分信号确定将要采集的语音信号是男声还是女声；

a2.开始由语音采集与识别设备采集语音信号，语音信号是预先定义的词组；由于本发明中采用的语音识别技术没有语音训练的过程，为了提高语音识别率，就预先定义一些简单、音节短的词组，例如“向左”、“向右”、“向前”、“向后”、“左转”、“右转”、“跑”、“跳”......之类，之后参与者就从这些词组中选择一个，由于这些词组的发音比较清晰，音节又较短，因此能做到较高的识别率；当然，进行语音识别的方法有多种，熟悉本领域的技术人员可以采用其他语音识别方法而不脱离本发明的发明思想。

a3.语音采集与识别设备识别所述语音信号，如果识别成功，则进入下一步骤，否则回到上一步骤a2再采集一次所述语音信号；对采集到的语音信号进行识别，由于影响语音输入的因素较多，因此难免会出现识别不出的情况，如果无法识别出采集到的语音信号，则回到步骤a2再进行一次采集；

a4.确定识别出的语音信号所对应的动作类型，动作类型是预先与词组一一对应的；事先将每一词组与一动作类型建立对应关系，在识别出该词组后，找到其所对应的动作类型；

b.图像生成的步骤，根据语音采集及识别的步骤中确定的动作种类，图像生成设备生成动物的一系列动作影像；图像生成设备中保存有预先设定的对应所有动作类型的图像，并且每一动作类型与其中的多帧图像相对应，其实就是在图像生成设备中保存有一段动物的各种动作的连续影像，然后每一动作种类对应其中的多帧图像；该实施例中，动物动作的影像由OpenInventer制作，当然，熟悉本领域的技术人员也可以使用其他软件来制作动物的动作影像.

c.显示图像的步骤，根据图像生成的步骤中生成的一系列动作影像，首先显示相应背景，再显示一系列动作影像，具体包括：

c1.根据动作种类，确定并显示相应背景，背景是预先保存在图像生成设备中并与动作类型相对应的，该实施例中，背景也是用OpenInventer制作的；

c2.显示一系列动作影像，该一系列动作影像即是每一动作类型所对应的多帧图像。由于预先将词组、动作类型和动作影像一一对应，因此此时显示设备上就显示动物出对应于参与者命令的动作。

d.判断过程是否结束的步骤，判断控制设备是否收到结束信号，若收到，则结束该过程；若没有收到，则重复上述3个步骤，采集下一个语音信号。如果整个硬件系统采用定时的方式，该结束信号就是一个定时信号，时间一到，控制设备自动产生一个定时信号，于是所有过程结束；如果硬件系统不采用定时方式，则控制设备接收到一个终止信号作为结束的标志，该实施例中，控制设备是一计算机，该终止信号就由计算机的输入设备输入。

图3是本发明的用语音控制动物影像运动的装置的一个实施例的框图。应用在包括语音采集与识别设备、图像生成设备、显示设备和控制设备的硬件系统上，该装置包括：

语音采集及识别装置30，控制语音采集与识别设备采集语音信号并识别出该语音信号所对应的动作种类；

男、女声区分装置301，接收男、女声区分信号，确定将要采集的语音信号是男声还是女声；预先进行男声和女声的分别训练，然后在开始采集语音信号之前先接收男、女声区分信号确定将要采集的语音信号是男声还是女声；

语音采集装置302，控制语音采集与识别设备采集语音信号，语音信号是预先定义的词组；语音采集装置302可以是一个麦克风；

语音识别装置303，控制语音采集与识别设备识别所述语音信号，如果识别成功，则将识别后的语音信号传送到动作对应装置304，否则由语音采集装置302再采集一次语音信号；

动作对应装置304，确定识别出的语音信号所对应的动作类型，动作类型是预先于所述词组一一对应的。

图像生成装置31，根据语音采集及识别装置30确定的动作种类，控制图像生成设备生成动物的一系列动作影像；图像生成设备中保存有预先设定的对应所有动作类型的图像，并且每一动作类型与其中的多帧图像相对应，其实就是在图像生成设备中保存有一段动物的各种动作的连续影像，然后每一动作种类对应其中的多帧图像；该实施例中，动物动作的影像由OpenInventer制作，当然，熟悉本领域的技术人员也可以使用其他软件来制作动物的动作影像。

图像显示装置32，根据图像生成装置31生成的一系列动作影像，首先显示相应背景，再显示一系列动作影像，进一步包括：

背景显示装置321，确定并显示相应背景，背景是预先保存在图像生成设备中并与动作类型相对应的，该实施例中，背景也是用OpenInventer制作的；

动作显示装置322，显示一系列动作影像，该一系列动作影像即是每一动作类型所对应的多帧图像。由于预先将词组、动作类型和动作影像一一对应，因此此时显示设备上就显示动物出对应于参与者命令的动作。

判断过程是否结束的装置33，判断控制设备是否收到结束信号，若收到，则结束该过程；若没有收到，则采集下一个语音信号。如果整个硬件系统采用定时的方式，该结束信号就是一个定时信号，时间一到，控制设备自动产生一个定时信号，判断过程是否结束的装置33检测到这个信号，于是所有过程结束；如果硬件系统不采用定时方式，则判断过程是否结束的装置33检测控制设备接收到一个终止信号作为结束的标志，该实施例中，控制设备是一计算机，该终止信号就由计算机的输入设备输入。

图4是应用本发明方法及装置进行虚拟驯养动物时的画面效果图。该实施例中，虚拟的动物是狗，图4A、图4B和图4C是狗在参与者的指令下进行各种动作的画面效果图。

上述详细说明的实施例是提供给熟悉本领域内的人员来实现或使用本发明的，熟悉本领域的人员可在不脱离本发明的发明思想的情况下，对上述实施例做出种种修改或变化，因而本发明的保护范围并不被上述实施例所限，而应该是符合权利要求书提到的创新性特征的最大范围。

Claims

1.一种用语音控制动物影像运动的方法，应用在包括语音采集与识别设备、图像生成设备、显示设备和控制设备的硬件系统上，该方法包括以下步骤：

d.判断过程是否结束的步骤，判断所述控制设备是否收到结束信号，若收到，则结束该过程；若没有收到，则重复上述3个步骤，采集下一个语音信号；其中，所述语音采集及识别的步骤进一步包括：

a2.所述语音采集与识别设备采集语音信号，所述语音信号是预先定义的词组，所述语音采集与识别设备对该词组分别预先进行了男声和女声训练；

2.如权利要求1所述的用语音控制动物影像运动的方法，其特征在于，所述图像生成的步骤，根据所述动作种类，确定对应该动作种类的多帧图像；所述图像生成设备中保存有预先设定的对应所有动作类型的图像，并且每一动作类型与其中的多帧图像相对应。

3.如权利要求1所述的用语音控制动物影像运动的方法，其特征在于，所述显示图像的步骤进一步包括：

c1.根据所述动作种类，确定并显示相应背景，所述背景是预先保存在所述图像生成设备中并与所述动作类型相对应的；

c2.显示所述一系列动作影像，该一系列动作影像即是所述每一动作类型所对应的多帧图像。

4.如权利要求1所述的用语音控制动物影像运动的方法，其特征在于，所述判断过程是否结束的步骤，所述控制设备接收到的结束信号是一定时信号或一终止信号。

5.一种用语音控制动物影像运动的装置，应用在包括语音采集与识别设备、图像生成设备、显示设备和控制设备的硬件系统上，该装置包括：

判断过程是否结束的装置，判断所述控制设备是否收到结束信号，若收到，则结束该过程；若没有收到，则采集下一个语音信号；其中，所述语音采集及识别装置进一步包括：

男、女声区分装置，接收男、女声区分信号，确定将要采集的语音信号是男声还是女声，所述男、女声区分装置对该词组分别预先进行了男声和女声训练；

6.如权利要求5所述的用语音控制动物影像运动的装置，其特征在于，所述图像生成装置，根据所述动作种类，确定对应该动作种类的多帧图像；所述图像生成设备中保存有预先设定的对应所有动作类型的图像，并且每一动作类型与其中的多帧图像相对应。

7.如权利要求5所述的用语音控制动物影像运动的装置，其特征在于，所述图像显示装置进一步包括：

背景显示装置，根据所述动作种类，确定并显示相应背景，所述背景是预先保存在所述图像生成设备中并与所述动作类型相对应的；

动作显示装置，显示所述一系列动作影像，该一系列动作影像即是所述每一动作类型所对应的多帧图像。

8.如权利要求5所述的用语音控制动物影像运动的装置，其特征在于，所述判断过程是否结束的装置，所述结束信号是一定时信号或一终止信号。