CN112507157A

CN112507157A - 一种动物间的翻译方法

Info

Publication number: CN112507157A
Application number: CN202011367854.5A
Authority: CN
Inventors: 吴涛; 陈盛; 马文亮
Original assignee: Ai Li Chi Technology Beijing Co ltd
Current assignee: Ai Li Chi Technology Beijing Co ltd
Priority date: 2020-11-28
Filing date: 2020-11-28
Publication date: 2021-03-16

Abstract

本发明公开了一种动物间的翻译方法，包括如下步骤：步骤201，通过翻译器终端采集并存储A动物的行为动作的视频信息和所发出声音的音频信息；步骤202，将翻译器终端的图像信息和音频信息发送至翻译器云端；步骤203，翻译器云端使用翻译模型对根据A动物的视频信息和音频信息进行识别，识别结果包含A动物的视频信息和音频信息所对应的第一标签；步骤204，翻译器云端根据识别结果和B动物种类到标签数据库中进行查询，将第一标签所对应的B动物的视频信息和音频信息作为翻译结果发送回翻译器终端；步骤205，翻译器终端将翻译结果通过视频显示和发声的方式翻译给B动物。该方法可实现不同物种动物与动物之间的翻译。

Description

一种动物间的翻译方法

技术领域

本发明属于语音技术领域，具体涉及一种动物间的翻译方法。

背景技术

语言是生物同类之间由于沟通需要而制定的具有统一编码解码标准的声音(图像)指令。人类使用语言的方式主要有两种，人的肢体行为和文字。自然界的动物也同人类一样，要相互交换思想感情，传递信息，它们也有各自独特的语言，这些语言包括声音、行为、气味、色彩、超声等。正是由于语言的多种多样，不同语种之间需要互相转换，引出了翻译器的诞生。目前社会上已有的翻译器大部分是人人对话翻译，还有部分人和动物之间的翻译，但是缺乏不同物种动物间交流的翻译器，例如越来越多的家庭开始养猫养狗，猫和狗是不同的物种，它们的行为声音语言特征完全不同，如果能够有一种对猫和狗的行为和声音进行互相转换的翻译器，将会使动物之间更加和谐，给家庭增加更多乐趣。

发明内容

本发明针对现有的技术问题作出改进，即本发明提供的是一种自然界不同种类动物间的翻译方法。本发明所提供的技术方案为：

一种动物间的翻译方法，包括如下步骤：

步骤201，通过翻译器终端采集并存储A动物的行为动作的视频信息和所发出声音的音频信息；

步骤202，将翻译器终端的图像信息和音频信息发送至翻译器云端；

步骤203，翻译器云端使用翻译模型对根据A动物的视频信息和音频信息进行识别，识别结果包含A动物的视频信息和音频信息所对应的第一标签；

步骤204，翻译器云端根据识别结果和B动物种类到标签数据库中进行查询，将第一标签所对应的B动物的视频信息和音频信息作为翻译结果发送回翻译器终端；

步骤205，翻译器终端将翻译结果通过视频显示和发声的方式翻译给B动物。

上述翻译模型的训练和所述标签数据库的建立通过如下方法进行：

步骤101，建立动物动作和声音的样本数据库，所述样本数据库中的样本数据包含各种动物的视频信息和音频信息，每个样本数据均有人工标注的行为目的标签；

步骤102，使用样本数据库中的经标注的样本数据训练翻译模型，所述翻译模型为人工神经网络模型，其输入为声音特征序列和图像特征序列，其输出为所有的标签分类概率；

步骤103，使用所述翻译模型对所述样本数据库中所有样本数据进行识别，选出每一类标签得分最高的样本，以该样本的样本数据作为该标签对应的标准的行为和声音，并加入到所述标签数据库中。

基于上述动物间的翻译方法，具有如下技术效果：

1、相比传统的人和动物之间的翻译器，范围更加广泛，能完成不同物种动物与动物之间的翻译；

2、使用了人工神经网络进行模型训练，相比传统的匹配系统，将会带来更好的翻译效果和未来技术更大的想象空间；

3、采用了云端和终端结合的方法，使得终端硬件的要求大大减少，终端形式更加多样化，可以为定制的终端，也可以直接在符合条件的手机上运行，使用门槛更低。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。

在进行动物间翻译之间，需建立样本数据库和标签数据库，训练翻译模型，具体包括如下步骤：

步骤101，建立动物动作和声音的样本数据库。样本数据库中的样本数据由各种动物的音视频组成，每个视频都会有人工标注的行为目的标签，比如说护食行为，求偶行为等。建立样本数据库采用如下方式：通过人工对该动作和声音所处的环境和场景进行分析，对每一个动作和声音加上标签和分类，对不明确的动作和声音可以有多个标签。这个人工标注的数据量可以是整个数据库的一个子集，剩下的数据可以在后续通过模型进行识别后再进行一定的人工校验，可以有效的减少人工成本。

步骤102，训练翻译模型，使用样本数据库中的经标注的样本数据训练人工神经网络模型。该模型的输入为声音特征序列和图像特征序列，输出为所有的标签分类概率，初次训练完成后再对训练数据进行识别，对比识别结果和标注，人工对标注进行校验，然后重新训练模型，多次迭代后即为最终翻译模型。

步骤103，建立标签数据库。使用(步骤102生成的)翻译模型对(步骤101生成的)样本数据库中所有的数据样本进行识别，选出每一类标签得分最高的样本，以该样本作为该标签对应的标准的行为和声音，并加入到标签数据库。标签数据库中的每个标签对应的样本的视频和音频将会作为识别结果最终呈现给用户。在这一步中可以对该样本进行一定的后处理，比如去噪，卡通化，动作模板提取等等，具体的后处理内容取决于对最终翻译结果的展示要求。

需要说明的是，步骤102的翻译模型，可以为普通的人工神经网络(DNN、RNN、CNN)，根据输入特征和输出的动物行为标签(标注)来建模，输入是序列化的图像和声音特征向量，输出是每一类动物行为目的的概率。

为了便于理解，这里提供建立翻译模型的具体实施方式：

首先，根据视频的帧率设置声音的帧长和帧移，比如说视频的帧率为50fps，即1s钟视频可以提取出50帧的图像，为了将声音的帧率和图像保持一致，将1s的音频也提取为50帧，那么设置声音的帧移为20ms，帧长为40ms(每一帧跟上一帧都有重叠部分)，每一帧音频和图像分别提取声音特征和图像特征，假设设定声音特征为40维的向量，图像特征也为一个40维的向量，那么将这两种特征向量可以拼接成一个80维的特征向量，设定神经网络的输入必须为1s(100帧)的数据，那么这个神经网络的输入即为50*80的矩阵。

然后，对动物行为进行分类，归纳出所有的动物行为，这个与样本数据库中的动物行为标签保持一致，比如说在样本数据库中一共发现了100种动物行为，那么建模的时候就会将神经网络的输出设为100维，其中每一维代表一种行为的可能概率。

翻译模型的计算过程为：比如说现在输入一个动物的视频和音频，长度为5s，将该音视频按照1s的长度进行切分，有两种方式，一种是直接切成5块，一种是按照一定的步长进行切分，比如说步长为0.5s，那么每块数据之间会有重叠，这样可以切分成9块。对每一块数据分别进行特征提取，得到50*80的特征数据，输入给神经网络，经过神经网络的计算，神经网络的输出了100维的概率向量，概率最大的那一维对应的动物行为目的即为每一块的识别结果，如果这个音频所有的(或者大部分的)数据块对应的识别结果均为同一类行为目的，那么这个动物的音视频识别结果即为该行为目的。

基于上述翻译模型和标签数据库的进行动物间的翻译，需基于翻译器终端和翻译器云端进行。其中，翻译器终端的硬件设备包括摄像头、麦克风、中央处理单元、存储器、网络传输模块、显示器和扬声器。翻译器云端设备能够运行翻译服务。翻译过程包括如下步骤：

步骤203，翻译器云端使用(步骤102训练出来的)翻译模型对根据A动物的视频信息和音频信息进行识别，识别结果包含A动物的视频信息和音频信息所对应的第一标签；

步骤204，翻译器云端根据识别结果和B动物种类到(步骤103所生成的)标签数据库中及进行查询，将步骤203中所生成的第一标签所对应的B动物的视频信息和音频信息作为翻译结果发送回翻译器终端；

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进。这些变化和改进都落入要求保护的本发明的范围内。本发明的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种动物间的翻译方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的动物间的翻译方法，其特征在于，所述翻译模型的训练和所述标签数据库的建立通过如下方法进行：