CN112507157A - 一种动物间的翻译方法 - Google Patents

一种动物间的翻译方法 Download PDF

Info

Publication number
CN112507157A
CN112507157A CN202011367854.5A CN202011367854A CN112507157A CN 112507157 A CN112507157 A CN 112507157A CN 202011367854 A CN202011367854 A CN 202011367854A CN 112507157 A CN112507157 A CN 112507157A
Authority
CN
China
Prior art keywords
animal
translation
translator
sample
audio information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011367854.5A
Other languages
English (en)
Inventor
吴涛
陈盛
马文亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ai Li Chi Technology Beijing Co ltd
Original Assignee
Ai Li Chi Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ai Li Chi Technology Beijing Co ltd filed Critical Ai Li Chi Technology Beijing Co ltd
Priority to CN202011367854.5A priority Critical patent/CN112507157A/zh
Publication of CN112507157A publication Critical patent/CN112507157A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种动物间的翻译方法,包括如下步骤:步骤201,通过翻译器终端采集并存储A动物的行为动作的视频信息和所发出声音的音频信息;步骤202,将翻译器终端的图像信息和音频信息发送至翻译器云端;步骤203,翻译器云端使用翻译模型对根据A动物的视频信息和音频信息进行识别,识别结果包含A动物的视频信息和音频信息所对应的第一标签;步骤204,翻译器云端根据识别结果和B动物种类到标签数据库中进行查询,将第一标签所对应的B动物的视频信息和音频信息作为翻译结果发送回翻译器终端;步骤205,翻译器终端将翻译结果通过视频显示和发声的方式翻译给B动物。该方法可实现不同物种动物与动物之间的翻译。

Description

一种动物间的翻译方法
技术领域
本发明属于语音技术领域,具体涉及一种动物间的翻译方法。
背景技术
语言是生物同类之间由于沟通需要而制定的具有统一编码解码标准的声音(图像)指令。人类使用语言的方式主要有两种,人的肢体行为和文字。自然界的动物也同人类一样,要相互交换思想感情,传递信息,它们也有各自独特的语言,这些语言包括声音、行为、气味、色彩、超声等。正是由于语言的多种多样,不同语种之间需要互相转换,引出了翻译器的诞生。目前社会上已有的翻译器大部分是人人对话翻译,还有部分人和动物之间的翻译,但是缺乏不同物种动物间交流的翻译器,例如越来越多的家庭开始养猫养狗,猫和狗是不同的物种,它们的行为声音语言特征完全不同,如果能够有一种对猫和狗的行为和声音进行互相转换的翻译器,将会使动物之间更加和谐,给家庭增加更多乐趣。
发明内容
本发明针对现有的技术问题作出改进,即本发明提供的是一种自然界不同种类动物间的翻译方法。本发明所提供的技术方案为:
一种动物间的翻译方法,包括如下步骤:
步骤201,通过翻译器终端采集并存储A动物的行为动作的视频信息和所发出声音的音频信息;
步骤202,将翻译器终端的图像信息和音频信息发送至翻译器云端;
步骤203,翻译器云端使用翻译模型对根据A动物的视频信息和音频信息进行识别,识别结果包含A动物的视频信息和音频信息所对应的第一标签;
步骤204,翻译器云端根据识别结果和B动物种类到标签数据库中进行查询,将第一标签所对应的B动物的视频信息和音频信息作为翻译结果发送回翻译器终端;
步骤205,翻译器终端将翻译结果通过视频显示和发声的方式翻译给B动物。
上述翻译模型的训练和所述标签数据库的建立通过如下方法进行:
步骤101,建立动物动作和声音的样本数据库,所述样本数据库中的样本数据包含各种动物的视频信息和音频信息,每个样本数据均有人工标注的行为目的标签;
步骤102,使用样本数据库中的经标注的样本数据训练翻译模型,所述翻译模型为人工神经网络模型,其输入为声音特征序列和图像特征序列,其输出为所有的标签分类概率;
步骤103,使用所述翻译模型对所述样本数据库中所有样本数据进行识别,选出每一类标签得分最高的样本,以该样本的样本数据作为该标签对应的标准的行为和声音,并加入到所述标签数据库中。
基于上述动物间的翻译方法,具有如下技术效果:
1、相比传统的人和动物之间的翻译器,范围更加广泛,能完成不同物种动物与动物之间的翻译;
2、使用了人工神经网络进行模型训练,相比传统的匹配系统,将会带来更好的翻译效果和未来技术更大的想象空间;
3、采用了云端和终端结合的方法,使得终端硬件的要求大大减少,终端形式更加多样化,可以为定制的终端,也可以直接在符合条件的手机上运行,使用门槛更低。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。
在进行动物间翻译之间,需建立样本数据库和标签数据库,训练翻译模型,具体包括如下步骤:
步骤101,建立动物动作和声音的样本数据库。样本数据库中的样本数据由各种动物的音视频组成,每个视频都会有人工标注的行为目的标签,比如说护食行为,求偶行为等。建立样本数据库采用如下方式:通过人工对该动作和声音所处的环境和场景进行分析,对每一个动作和声音加上标签和分类,对不明确的动作和声音可以有多个标签。这个人工标注的数据量可以是整个数据库的一个子集,剩下的数据可以在后续通过模型进行识别后再进行一定的人工校验,可以有效的减少人工成本。
步骤102,训练翻译模型,使用样本数据库中的经标注的样本数据训练人工神经网络模型。该模型的输入为声音特征序列和图像特征序列,输出为所有的标签分类概率,初次训练完成后再对训练数据进行识别,对比识别结果和标注,人工对标注进行校验,然后重新训练模型,多次迭代后即为最终翻译模型。
步骤103,建立标签数据库。使用(步骤102生成的)翻译模型对(步骤101生成的)样本数据库中所有的数据样本进行识别,选出每一类标签得分最高的样本,以该样本作为该标签对应的标准的行为和声音,并加入到标签数据库。标签数据库中的每个标签对应的样本的视频和音频将会作为识别结果最终呈现给用户。在这一步中可以对该样本进行一定的后处理,比如去噪,卡通化,动作模板提取等等,具体的后处理内容取决于对最终翻译结果的展示要求。
需要说明的是,步骤102的翻译模型,可以为普通的人工神经网络(DNN、RNN、CNN),根据输入特征和输出的动物行为标签(标注)来建模,输入是序列化的图像和声音特征向量,输出是每一类动物行为目的的概率。
为了便于理解,这里提供建立翻译模型的具体实施方式:
首先,根据视频的帧率设置声音的帧长和帧移,比如说视频的帧率为50fps,即1s钟视频可以提取出50帧的图像,为了将声音的帧率和图像保持一致,将1s的音频也提取为50帧,那么设置声音的帧移为20ms,帧长为40ms(每一帧跟上一帧都有重叠部分),每一帧音频和图像分别提取声音特征和图像特征,假设设定声音特征为40维的向量,图像特征也为一个40维的向量,那么将这两种特征向量可以拼接成一个80维的特征向量,设定神经网络的输入必须为1s(100帧)的数据,那么这个神经网络的输入即为50*80的矩阵。
然后,对动物行为进行分类,归纳出所有的动物行为,这个与样本数据库中的动物行为标签保持一致,比如说在样本数据库中一共发现了100种动物行为,那么建模的时候就会将神经网络的输出设为100维,其中每一维代表一种行为的可能概率。
翻译模型的计算过程为:比如说现在输入一个动物的视频和音频,长度为5s,将该音视频按照1s的长度进行切分,有两种方式,一种是直接切成5块,一种是按照一定的步长进行切分,比如说步长为0.5s,那么每块数据之间会有重叠,这样可以切分成9块。对每一块数据分别进行特征提取,得到50*80的特征数据,输入给神经网络,经过神经网络的计算,神经网络的输出了100维的概率向量,概率最大的那一维对应的动物行为目的即为每一块的识别结果,如果这个音频所有的(或者大部分的)数据块对应的识别结果均为同一类行为目的,那么这个动物的音视频识别结果即为该行为目的。
基于上述翻译模型和标签数据库的进行动物间的翻译,需基于翻译器终端和翻译器云端进行。其中,翻译器终端的硬件设备包括摄像头、麦克风、中央处理单元、存储器、网络传输模块、显示器和扬声器。翻译器云端设备能够运行翻译服务。翻译过程包括如下步骤:
步骤201,通过翻译器终端采集并存储A动物的行为动作的视频信息和所发出声音的音频信息;
步骤202,将翻译器终端的图像信息和音频信息发送至翻译器云端;
步骤203,翻译器云端使用(步骤102训练出来的)翻译模型对根据A动物的视频信息和音频信息进行识别,识别结果包含A动物的视频信息和音频信息所对应的第一标签;
步骤204,翻译器云端根据识别结果和B动物种类到(步骤103所生成的)标签数据库中及进行查询,将步骤203中所生成的第一标签所对应的B动物的视频信息和音频信息作为翻译结果发送回翻译器终端;
步骤205,翻译器终端将翻译结果通过视频显示和发声的方式翻译给B动物。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进。这些变化和改进都落入要求保护的本发明的范围内。本发明的保护范围由所附的权利要求书及其等同物界定。

Claims (2)

1.一种动物间的翻译方法,其特征在于,包括如下步骤:
步骤201,通过翻译器终端采集并存储A动物的行为动作的视频信息和所发出声音的音频信息;
步骤202,将翻译器终端的图像信息和音频信息发送至翻译器云端;
步骤203,翻译器云端使用翻译模型对根据A动物的视频信息和音频信息进行识别,识别结果包含A动物的视频信息和音频信息所对应的第一标签;
步骤204,翻译器云端根据识别结果和B动物种类到标签数据库中进行查询,将第一标签所对应的B动物的视频信息和音频信息作为翻译结果发送回翻译器终端;
步骤205,翻译器终端将翻译结果通过视频显示和发声的方式翻译给B动物。
2.根据权利要求1所述的动物间的翻译方法,其特征在于,所述翻译模型的训练和所述标签数据库的建立通过如下方法进行:
步骤101,建立动物动作和声音的样本数据库,所述样本数据库中的样本数据包含各种动物的视频信息和音频信息,每个样本数据均有人工标注的行为目的标签;
步骤102,使用样本数据库中的经标注的样本数据训练翻译模型,所述翻译模型为人工神经网络模型,其输入为声音特征序列和图像特征序列,其输出为所有的标签分类概率;
步骤103,使用所述翻译模型对所述样本数据库中所有样本数据进行识别,选出每一类标签得分最高的样本,以该样本的样本数据作为该标签对应的标准的行为和声音,并加入到所述标签数据库中。
CN202011367854.5A 2020-11-28 2020-11-28 一种动物间的翻译方法 Pending CN112507157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011367854.5A CN112507157A (zh) 2020-11-28 2020-11-28 一种动物间的翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011367854.5A CN112507157A (zh) 2020-11-28 2020-11-28 一种动物间的翻译方法

Publications (1)

Publication Number Publication Date
CN112507157A true CN112507157A (zh) 2021-03-16

Family

ID=74967485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011367854.5A Pending CN112507157A (zh) 2020-11-28 2020-11-28 一种动物间的翻译方法

Country Status (1)

Country Link
CN (1) CN112507157A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278583A (ja) * 2001-03-14 2002-09-27 Teruo Ueno ペットの鳴き方の違いによる翻訳装置
CN105706951A (zh) * 2016-04-18 2016-06-29 宁波力芯科信息科技有限公司 一种智能宠物项圈及其实现方法
CN106531173A (zh) * 2016-11-11 2017-03-22 努比亚技术有限公司 一种基于终端的动物数据处理方法和终端
KR101785888B1 (ko) * 2017-01-18 2017-10-17 이동환 이종동물 양방향 커뮤니케이션 서비스 제공 방법
CN107368567A (zh) * 2017-07-11 2017-11-21 深圳传音通讯有限公司 动物语言识别方法及用户终端
CN107633846A (zh) * 2016-07-15 2018-01-26 吴星宁 动物语言信息转换与识别的方法和装置
CN108319590A (zh) * 2018-01-25 2018-07-24 芜湖应天光电科技有限责任公司 一种基于云服务的自适应翻译机
CN110197103A (zh) * 2018-02-27 2019-09-03 中移(苏州)软件技术有限公司 一种人与动物交互的方法及装置
CN111241853A (zh) * 2018-11-29 2020-06-05 Tcl集团股份有限公司 一种会话翻译方法、装置、存储介质及终端设备
CN111428769A (zh) * 2020-03-18 2020-07-17 周升志 一种软件设计宠物行为语言的人工智能翻译系统
CN111597942A (zh) * 2020-05-08 2020-08-28 上海达显智能科技有限公司 一种智能宠物训导、陪伴方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278583A (ja) * 2001-03-14 2002-09-27 Teruo Ueno ペットの鳴き方の違いによる翻訳装置
CN105706951A (zh) * 2016-04-18 2016-06-29 宁波力芯科信息科技有限公司 一种智能宠物项圈及其实现方法
CN107633846A (zh) * 2016-07-15 2018-01-26 吴星宁 动物语言信息转换与识别的方法和装置
CN106531173A (zh) * 2016-11-11 2017-03-22 努比亚技术有限公司 一种基于终端的动物数据处理方法和终端
KR101785888B1 (ko) * 2017-01-18 2017-10-17 이동환 이종동물 양방향 커뮤니케이션 서비스 제공 방법
CN107368567A (zh) * 2017-07-11 2017-11-21 深圳传音通讯有限公司 动物语言识别方法及用户终端
CN108319590A (zh) * 2018-01-25 2018-07-24 芜湖应天光电科技有限责任公司 一种基于云服务的自适应翻译机
CN110197103A (zh) * 2018-02-27 2019-09-03 中移(苏州)软件技术有限公司 一种人与动物交互的方法及装置
CN111241853A (zh) * 2018-11-29 2020-06-05 Tcl集团股份有限公司 一种会话翻译方法、装置、存储介质及终端设备
CN111428769A (zh) * 2020-03-18 2020-07-17 周升志 一种软件设计宠物行为语言的人工智能翻译系统
CN111597942A (zh) * 2020-05-08 2020-08-28 上海达显智能科技有限公司 一种智能宠物训导、陪伴方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钟鸣拓 等: ""基于特征融合的海洋哺乳动物声音识别"", 《电子科技》, vol. 32, no. 5, 15 May 2019 (2019-05-15), pages 32 - 37 *

Similar Documents

Publication Publication Date Title
JP7062851B2 (ja) 声紋の作成・登録の方法及び装置
WO2019062931A1 (zh) 图像处理装置及方法
CN107578769B (zh) 语音数据标注方法和装置
CN105913039B (zh) 基于视觉和语音的对话数据交互处理方法及装置
WO2021068321A1 (zh) 基于人机交互的信息推送方法、装置和计算机设备
CN110168535B (zh) 一种信息处理方法及终端、计算机存储介质
CN107728780A (zh) 一种基于虚拟机器人的人机交互方法及装置
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN113590850A (zh) 多媒体数据的搜索方法、装置、设备及存储介质
CN111177310A (zh) 电力服务机器人智能场景会话方法及装置
CN113822192A (zh) 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN107463699A (zh) 一种基于seq2seq模型的实现问答机器人的方法
CN114245203A (zh) 基于剧本的视频剪辑方法、装置、设备及介质
WO2022062800A1 (zh) 语音分离方法、电子设备、芯片及计算机可读存储介质
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
WO2023272616A1 (zh) 一种文本理解方法、系统、终端设备和存储介质
CN111178081B (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN106557165A (zh) 智能设备的动作模拟交互方法和装置及智能设备
CN112329604B (zh) 一种基于多维度低秩分解的多模态情感分析方法
CN116543445B (zh) 一种演讲者面部表情分析方法、系统、设备及存储介质
CN112507157A (zh) 一种动物间的翻译方法
CN114491010A (zh) 信息抽取模型的训练方法及装置
CN110674265A (zh) 面向非结构化信息的特征判别与信息推荐系统
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination