CN110570877B - 手语视频生成方法、电子设备及计算机可读存储介质 - Google Patents

手语视频生成方法、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110570877B
CN110570877B CN201910677689.4A CN201910677689A CN110570877B CN 110570877 B CN110570877 B CN 110570877B CN 201910677689 A CN201910677689 A CN 201910677689A CN 110570877 B CN110570877 B CN 110570877B
Authority
CN
China
Prior art keywords
sign language
neural network
language video
network model
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910677689.4A
Other languages
English (en)
Other versions
CN110570877A (zh
Inventor
赵璐
莫东松
张进
钟宜峰
张健
马晓琳
马丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MIGU Culture Technology Co Ltd
Original Assignee
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MIGU Culture Technology Co Ltd filed Critical MIGU Culture Technology Co Ltd
Priority to CN201910677689.4A priority Critical patent/CN110570877B/zh
Publication of CN110570877A publication Critical patent/CN110570877A/zh
Application granted granted Critical
Publication of CN110570877B publication Critical patent/CN110570877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例涉及手语翻译技术领域,公开了一种手语视频生成方法、电子设备及计算机可读存储介质,所述手语视频生成方法包括:获取语音的第一类特征参数;将所述第一类特征参数输入预设神经网络模型,得到手语视频的关键帧,其中,所述预设神经网络模型通过历史手语视频中语音的第一类特征样本参数及视频图像的第二类特征样本参数训练得到;根据所述关键帧生成所述语音对应的手语视频。本发明提供的手语视频生成方法、电子设备及计算机可读存储介质能够生成连贯性强的手语视频。

Description

手语视频生成方法、电子设备及计算机可读存储介质
技术领域
本发明实施例涉及手语翻译技术领域,特别涉及一种手语视频生成方法、电子设备及计算机可读存储介质。
背景技术
由于听力的原因,聋哑人的日常生活因为沟通出现了很多的不便,沟通上的障碍直接给聋哑人的生活造成了严重的影响。同时由于文字阅读上的通用性有限,许多聋哑人并不识字,而手语沟通是世界通用的聋哑人语言,如果人们在与聋哑人进行沟通时,可以将想要表达的语音信息转换为手语信息,那么可以方便的与聋哑人进行交流沟通。现有技术中一般分为三个步骤来实现语音生成手语视频:首先,制作/采集手语短视频库,针对分词后的语素,制作对应的增强现实AR手势动画,或采集对应的手语短视频片段;然后对采集的语音进行识别,得到文字并进行分词;最后,在预存储的AR手势动画或者手语短视频片段中,查询与所述语音文字信息相对应的AR手势动画或者手语短视频片段,将这些AR手势动画或者手语短视频片段串联从而得到手语视频。
然而,发明人发现现有技术中至少存在如下问题:手语视频是根据多个手语短视频片段或AR手势动画拼接而成的,由于手语短视频片段或AR手势动画根据语音的语素进行了切割和重组,导致拼接后的手语视频连贯性不强。
发明内容
本发明实施方式的目的在于提供一种手语视频生成方法、电子设备及计算机可读存储介质,使其能够生成连贯性强的手语视频。
为解决上述技术问题,本发明的实施方式提供了一种手语视频生成方法,包括:获取语音的第一类特征参数;将所述第一类特征参数输入预设神经网络模型,得到手语视频的关键帧,其中,所述预设神经网络模型通过历史手语视频中语音的第一类特征样本参数及视频图像的第二类特征样本参数训练得到;根据所述关键帧生成所述语音对应的手语视频。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的手语视频生成方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述手语视频生成方法。
本发明实施方式相对于现有技术而言,通过获取语音的第一类特征参数,从而能够得知需转换成手语视频的语音信息,再将第一类特征参数输入预设神经网络模型中,由于预设神经网络模型通过历史手语视频中语音的第一类特征样本参数及视频图像的第二类特征样本参数训练得到,因此该预设神经网络模型能够准确的输出手语视频的关键帧,最后根据所述关键帧生成所述语音对应的手语视频,使得手语视频的生成方式不再是拼接而成,而是由关键帧扩充得到,从而达到了生成连贯性强的手语视频的目的,避免了“手语视频是根据多个手语短视频片段或AR手势动画拼接而成的,由于手语短视频片段或AR手势动画根据语音的语素进行了切割和重组,导致拼接后的手语视频连贯性不强”的情况的发生。
另外,所述预设神经网络模型通过以下方式训练得到:采集历史手语视频的特征样本参数;将所述特征样本参数输入多级神经网络模型,得到每级神经网络模型的误差值;根据所述误差值及预设的特征值,更新所述多级神经网络模型的网络权重,得到所述预设神经网络模型,其中,所述特征值用于表征所述预设神经网络模型生成关键帧的准确率。通过此种方式,能够确保语音转换为手语视频的准确率,提高手语视频生成方法的可靠性。
另外,所述特征样本参数中包括所述第一类特征样本参数及所述第二类特征样本参数;所述采集历史手语视频的特征样本参数,具体包括:采集历史手语视频中语音的梅尔声谱特征,得到所述第一类特征样本参数;采集历史手语视频中的源高清视频图像文件,并降低所述源高清视频图像文件的分辨率,得到源低清视频图像文件,其中,所述源高清视频图像文件和所述源低清视频图像文件为所述第二类特征样本参数。
另外,所述采集历史手语视频中语音的梅尔频谱特征,具体包括:将所述历史手语视频的语音分割成预设帧数的语音片段,并获取所述语音片段中用于辨识语音的特征数据;将所述特征数据的大小修改为预设值,得到所述梅尔频谱特征。
另外,所述多级神经网络模型包括第一级神经网络和第二级神经网络;所述误差值包括与所述第一级神经网络对应的第一误差值和与所述第二级神经网络对应的第二误差值;所述将所述特征样本参数输入多级神经网络模型,得到所述多级神经网络模型中每级神经网络模型的误差值,具体包括:将所述梅尔声谱特征参数输入所述第一级神经网络,得到生成的低清视频图像文件,并根据所述生成的低清视频图像文件与所述源低清视频图像文件,得到所述第一误差值;将所述生成的低清视频图像文件输入所述第二级神经网络,得到生成的高清视频图像文件,并根据所述生成的高清视频图像文件与所述源高清视频图像文件,得到所述第二误差值。
另外,所述更新所述多级神经网络模型的网络权重,具体包括:根据以下公式更新所述网络权重:
Figure GDA0003411096020000031
其中,L为所述特征值,p1为所述生成的低清视频图像文件,p3为所述生成的高清视频文件,Z1为所述源高清视频图像文件,Z2为所述源低清视频图像文件,E为期望,G为多级神经网络模型,D为I3D网络,D1为第一I3D网络,D2为第二I3D网络,I为梅尔频谱特征,dis1是P3的帧间差,dis2是Z1的帧间差,w是网络权重,k是权重系数,ε是常数,i是所述预设帧数的下界。
另外,所述dis1及所述dis2根据以下公式计算得到:
Figure GDA0003411096020000032
Figure GDA0003411096020000033
其中,Mi是P3的第i帧输出,
Figure GDA0003411096020000034
是Z1的第i帧输出,N是所述预设帧数。
另外,所述根据所述关键帧生成手语视频,具体包括:对所述关键帧进行视频编解码,得到所述手语视频。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施方式的手语视频生成方法的流程示意图;
图2是根据本发明第二实施方式的手语视频生成方法的流程示意图;
图3是根据本发明第二实施方式的预设模型训练方法的流程示意图;
图4是根据本发明第四实施方式的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种手语视频生成方法,本实施方式中的手语视频生成方法的流程示意图如图1所示,包括:
S101:获取语音的第一类特征参数。
关于步骤S101,具体地说,本实施方式中的第一类特征参数可以为语音的梅尔频谱特征,梅尔频谱特征可以作为语音辨识系统中的特征值,例如:可以自动辨认一个人透过电话说的数字;也可以作为声文辨识的特征值,用来辨识某段语音讯号的发话者。
需要说明的是,本实施方式中可以通过如下方式采集语音的梅尔频谱特征:将语音分割成预设帧数的语音片段,并获取所述语音片段中用于辨识语音的特征数据;将所述特征数据的大小修改为预设值,得到所述梅尔频谱特征。
为了便于理解,下面以时长1秒的语音为例,对本实施方式中如何提取语音的梅尔声谱特征进行详细说明:
以每125毫秒音频抽取一帧对应的视频图像,1秒的语音能够获取8帧手语视频的关键帧图像。同时将125毫秒的语音进行切断,每5毫秒切割成1段,以50%重叠率的方式切割(即前一段语音片段与后一段语音片段的重叠率为50%),得到48段语音文件(125毫秒的语音能够切割成50段语音片段,随机取出连续的48段)语音片段,得到N维向量,从而得到(N*2)*8*3维数据,将该数据的尺寸修改为m*m*8*3,其中m*m=N*2,尺寸为m*m*8*3的数据即为该语音的梅尔频谱特征。可以理解的是,本实施方式中梅尔频谱特征的大小(即预设值的大小)由最后期望的神经网络模型输出的图像大小决定,如在上述的例子中,由于需要神经网络模型最后输出的关键帧的图像尺寸为4m*4m*3,因此需要将数据的尺寸修改为m*m*8*3。
S102:将第一类特征参数输入预设神经网络模型,得到手语视频的关键帧。
关于步骤S102,具体地说,本实施方式中的预设神经网络模型可以为3D-GAN网络,3D-GAN网络即为3D生成式对抗网络,是一种深度学习模型,模型通过框架中(至少)两个模块:生成模型和判别模型的互相博弈学习产生预期的输出,且并不要求G和D都是神经网络,只需要是能拟合相应生成和判别的函数即可。值得一提的是,本实施方式的核心在于得到手语视频的关键帧,再将关键帧扩充为连续的手语视频,因此本实施方式并不对预设神经网络模型的训练方式作具体限定,任何能够得到手语视频的关键帧的预设神经网络模型的训练方式均在本实施方式的保护范围之内。
S103:根据关键帧生成语音对应的手语视频。
关于步骤S103,具体地说,本实施方式中可以通过对关键帧进行视频编解码方式,得到所述手语视频。较佳的,本实施方式还可以通过插帧的方法还原出完整的手语视频。
本发明实施方式相对于现有技术而言,通过获取语音的第一类特征参数,从而能够得知需转换成手语视频的语音信息,再将第一类特征参数输入预设神经网络模型中,由于预设神经网络模型通过历史手语视频中语音的第一类特征样本参数及视频图像的第二类特征样本参数训练得到,因此该预设神经网络模型能够准确的输出手语视频的关键帧,最后根据所述关键帧生成所述语音对应的手语视频,使得手语视频的生成方式不再是拼接而成,而是由关键帧扩充得到,从而达到了生成连贯性强的手语视频的目的,避免了“手语视频是根据多个手语短视频片段或AR手势动画拼接而成的,由于手语短视频片段或AR手势动画根据语音的语素进行了切割和重组,导致拼接后的手语视频连贯性不强”的情况的发生。
本发明的第二实施方式涉及一种手语视频生成方法。第二实施方式与第一实施方式大致相同,不同之处在于,所述预设神经网络模型通过以下方式训练得到:采集历史手语视频的特征样本参数;将所述特征样本参数输入多级神经网络模型,得到每级神经网络模型的误差值;根据所述误差值及预设的特征值,更新所述多级神经网络模型的网络权重,得到所述预设神经网络模型,其中,所述特征值用于表征所述预设神经网络模型生成关键帧的准确率。通过此种方式,能够生成连贯性强且清晰度高的手语视频。
本实施方式中的手语视频生成方法的流程示意图如图2所示,具体包括:
S201:获取语音的第一类特征参数。
S202:将第一类特征参数输入更新网络权重后的多级神经网络模型,得到手语视频的关键帧。
具体的说,本实施方式中的特征样本参数中包括第一类特征样本参数及第二类特征样本参数,将历史手语视频的音频和视频图像进行分离,得到语音和对应时间的源高清视频图像文件,第一类特征样本参数可以为语音的梅尔频谱特征,本实施方式历史手语视频语音的梅尔频谱特征提取方式与上述实施方式相同,即将所述历史手语视频的语音分割成预设帧数的语音片段,并获取所述语音片段中用于辨识语音的特征数据;将所述特征数据的大小修改为预设值,得到所述梅尔频谱特征,为了避免重复,此处不再赘述;第二类特征样本参数可以为历史手语视频的源高清视频图像文件和源低清视频图像文件,其获取方式可以为:采集历史手语视频中的源高清视频图像文件,并降低所述源高清视频图像文件的分辨率,得到源低清视频图像文件。
值得一提的是,如图3所示,以多级神经网络模型包括第一级神经网络和第二级神经网络、误差值包括与所述第一级神经网络对应的第一误差值和与所述第二级神经网络对应的第二误差值为例,预设神经网络模型的具体训练流程如下:
S2021:将梅尔声谱特征参数输入第一级神经网络,得到生成的低清视频图像文件。
S2022:将生成的低清视频图像文件、源低清视频图像文件和梅尔频谱特征输入第一判断网络,得到第一误差值。
关于步骤S2022,具体的说,第一判断网络能够判断生成的低清视频图像文件和源低清视频图像文件的差异,第一误差值为大于或等于0,且小于或等于1的数,0表示生成的低清视频图像文件不同于源低清视频图像文件,第一误差值越大,则表明生成的低清视频图像文件越接近源低清视频图像文件。
S2023:将生成的低清视频图像文件输入第二级神经网络,得到生成的高清视频图像文件。
S2024:将生成的高清视频图像文件、源高清视频图像文件和源低清视频图像文件输入第二判断网络,得到第二误差值。
关于步骤S2024,具体的说,第二判断网络能够判断生成的高清视频图像文件和源高清视频图像文件的差异,第二误差值为大于或等于0,且小于或等于1的数,0表示生成的高清视频图像文件不同于源高清视频图像文件,第二误差值越大,则表明生成的高清视频图像文件越接近源高清视频图像文件。
S2025:根据梅尔频谱特征、源高清视频图像文件、源低清视频图像文件、生成的高清视频图像文件和生成的低清视频图像文件更新多级神经网络模型的网络权重。
关于步骤S2025,具体的说,根据以下公式更新所述网络权重:
Figure GDA0003411096020000061
其中,L为所述特征值,p1为所述生成的低清视频图像文件,p3为所述生成的高清视频文件,Z1为所述源高清视频图像文件,Z2为所述源低清视频图像文件,E为期望,G为多级神经网络模型,D为I3D网络,D1为第一I3D网络,D2为第二I3D网络,I为梅尔频谱特征,dis1是P3的帧间差,dis2是Z1的帧间差,w是网络权重,k是权重系数,ε是常数,i是所述预设帧数的下界。
所述dis1及所述dis2根据以下公式计算得到:
Figure GDA0003411096020000071
其中,Mi是P3的第i帧输出,
Figure GDA0003411096020000072
是Z1的第i帧输出,N是所述预设帧数。
可以理解的是,上述算法即为反向传播算法,反向传播算法是适合于多层神经元网络的一种学习算法,建立在梯度下降法的基础上,它的信息处理能力来源于简单非线性函数的多次复合,因此具有很强的函数复现能力。通过采用此种算法,能够不断的训练神经网络模型,直至神经网络模型的输出符合预期要求,也就是说,此种训练方式确保了预设神经网络模型输出关键帧的准确率。
值得一提的是,训练完多级神经网络模型,从而得到预设神经网络模型后,在使用预设神经网络模型,需去掉第一判断网络以及第二判断网络,并将语音的梅尔频谱特征输入第一神经网络模型,将第一神经网络模型的输出输入第二神经网络模型,第二神经网络模型的输出即为手语视频的关键帧,最后将关键帧扩充为连续的视频即得到手语视频。
S203:根据关键帧生成语音对应的手语视频。
本实施方式的步骤S201、步骤S203与第一实施方式的步骤S101、步骤S103类似,为了避免重复,此处不再赘述。
本发明实施方式相对于现有技术而言,通过获取语音的第一类特征参数,从而能够得知需转换成手语视频的语音信息,再将第一类特征参数输入预设神经网络模型中,由于预设神经网络模型通过历史手语视频中语音的第一类特征样本参数及视频图像的第二类特征样本参数训练得到,因此该预设神经网络模型能够准确的输出手语视频的关键帧,最后根据所述关键帧生成所述语音对应的手语视频,使得手语视频的生成方式不再是拼接而成,而是由关键帧扩充得到,从而达到了生成连贯性强的手语视频的目的,避免了“手语视频是根据多个手语短视频片段或AR手势动画拼接而成的,由于手语短视频片段或AR手势动画根据语音的语素进行了切割和重组,导致拼接后的手语视频连贯性不强”的情况的发生。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种电子设备,如图4所示,包括至少一个处理器401;以及,与至少一个处理器401通信连接的存储器402;其中,存储器402存储有可被至少一个处理器401执行的指令,指令被至少一个处理器401执行,以使至少一个处理器401能够执行上述的手语视频生成方法。
其中,存储器402和处理器401采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器401。
处理器401负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述手语视频的生成方法。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (9)

1.一种手语视频生成方法,其特征在于,包括:
获取语音的第一类特征参数;
将所述第一类特征参数输入预设神经网络模型,得到手语视频的关键帧,其中,所述预设神经网络模型通过历史手语视频中语音的第一类特征样本参数及视频图像的第二类特征样本参数训练得到;
根据所述关键帧生成所述语音对应的手语视频;
其中,预设神经网络模型通过以下方式训练得到:采集历史手语视频的特征样本参数;将所述特征样本参数输入多级神经网络模型,得到每级神经网络模型的误差值;根据所述误差值及预设的特征值,更新所述多级神经网络模型的网络权重,得到所述预设神经网络模型,
其中,更新所述多级神经网络模型的网络权重,具体包括:根据以下公式更新所述网络权重:
Figure FDA0003411096010000011
其中,L为特征值,p1为生成的低清视频图像文件,p3为生成的高清视频文件,Z1为源高清视频图像文件,Z2为源低清视频图像文件,E为期望,G为多级神经网络模型,D为I3D网络,D1为第一I3D网络,D2为第二I3D网络,I为梅尔频谱特征,dis1是P3的帧间差,dis2是Z1的帧间差,w是网络权重,k是权重系数,ε是常数,i是预设帧数的下界。
2.根据权利要求1所述的手语视频生成方法,其特征在于,所述特征值用于表征所述预设神经网络模型生成关键帧的准确率。
3.根据权利要求2所述的手语视频生成方法,其特征在于,所述特征样本参数中包括所述第一类特征样本参数及所述第二类特征样本参数;
所述采集历史手语视频的特征样本参数,具体包括:
采集历史手语视频中语音的梅尔频谱特征,得到所述第一类特征样本参数;
采集历史手语视频中的源高清视频图像文件,并降低所述源高清视频图像文件的分辨率,得到源低清视频图像文件,其中,所述源高清视频图像文件和所述源低清视频图像文件为所述第二类特征样本参数。
4.根据权利要求3所述的手语视频生成方法,其特征在于,所述采集历史手语视频中语音的梅尔频谱特征,具体包括:
将所述历史手语视频的语音分割成预设帧数的语音片段,并获取所述语音片段中用于辨识语音的特征数据;
将所述特征数据的大小修改为预设值,得到所述梅尔频谱特征。
5.根据权利要求4所述的手语视频生成方法,其特征在于,所述多级神经网络模型包括第一级神经网络和第二级神经网络;所述误差值包括与所述第一级神经网络对应的第一误差值和与所述第二级神经网络对应的第二误差值;所述将所述特征样本参数输入多级神经网络模型,得到所述多级神经网络模型中每级神经网络模型的误差值,具体包括:
将所述梅尔声谱特征参数输入所述第一级神经网络,得到生成的低清视频图像文件,并根据所述生成的低清视频图像文件与所述源低清视频图像文件,得到所述第一误差值;
将所述生成的低清视频图像文件输入所述第二级神经网络,得到生成的高清视频图像文件,并根据所述生成的高清视频图像文件与所述源高清视频图像文件,得到所述第二误差值。
6.根据权利要求5所述的手语视频生成方法,其特征在于,所述dis1及所述dis2根据以下公式计算得到:
Figure FDA0003411096010000021
其中,Mi是P3的第i帧输出,
Figure FDA0003411096010000022
是Z1的第i帧输出,N是所述预设帧数。
7.根据权利要求1所述的手语视频生成方法,其特征在于,所述根据所述关键帧生成手语视频,具体包括:
对所述关键帧进行视频编解码,得到所述手语视频。
8.一种电子设备,其特征在于,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的手语视频生成方法。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的手语视频生成方法。
CN201910677689.4A 2019-07-25 2019-07-25 手语视频生成方法、电子设备及计算机可读存储介质 Active CN110570877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910677689.4A CN110570877B (zh) 2019-07-25 2019-07-25 手语视频生成方法、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910677689.4A CN110570877B (zh) 2019-07-25 2019-07-25 手语视频生成方法、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110570877A CN110570877A (zh) 2019-12-13
CN110570877B true CN110570877B (zh) 2022-03-22

Family

ID=68773542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910677689.4A Active CN110570877B (zh) 2019-07-25 2019-07-25 手语视频生成方法、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110570877B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631267A (zh) * 2021-07-14 2023-01-20 华为云计算技术有限公司 生成动画的方法及装置
CN116168686B (zh) * 2023-04-23 2023-07-11 碳丝路文化传播(成都)有限公司 数字人动态拟真方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659764A (en) * 1993-02-25 1997-08-19 Hitachi, Ltd. Sign language generation apparatus and sign language translation apparatus
CN102497513A (zh) * 2011-11-25 2012-06-13 中山大学 一种面向数字电视的视频虚拟人手语系统
CN103136780A (zh) * 2013-03-18 2013-06-05 北京工业大学 基于关键帧的手语语流音变动画合成方法
CN106653051A (zh) * 2016-12-09 2017-05-10 天脉聚源(北京)传媒科技有限公司 一种视频聋哑模式的方法及装置
CN106791927A (zh) * 2016-12-23 2017-05-31 福建帝视信息科技有限公司 一种基于深度学习的视频增强与传输方法
CN107734333A (zh) * 2017-09-29 2018-02-23 杭州电子科技大学 一种利用生成网络提高视频错误隐藏效果的方法
CN109740447A (zh) * 2018-12-14 2019-05-10 深圳壹账通智能科技有限公司 基于人工智能的通信方法、设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101634562B1 (ko) * 2009-09-22 2016-06-30 삼성전자주식회사 저해상도 비디오로부터 고해상도 비디오를 생성하는 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659764A (en) * 1993-02-25 1997-08-19 Hitachi, Ltd. Sign language generation apparatus and sign language translation apparatus
CN102497513A (zh) * 2011-11-25 2012-06-13 中山大学 一种面向数字电视的视频虚拟人手语系统
CN103136780A (zh) * 2013-03-18 2013-06-05 北京工业大学 基于关键帧的手语语流音变动画合成方法
CN106653051A (zh) * 2016-12-09 2017-05-10 天脉聚源(北京)传媒科技有限公司 一种视频聋哑模式的方法及装置
CN106791927A (zh) * 2016-12-23 2017-05-31 福建帝视信息科技有限公司 一种基于深度学习的视频增强与传输方法
CN107734333A (zh) * 2017-09-29 2018-02-23 杭州电子科技大学 一种利用生成网络提高视频错误隐藏效果的方法
CN109740447A (zh) * 2018-12-14 2019-05-10 深圳壹账通智能科技有限公司 基于人工智能的通信方法、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sign Language Production using Neural Machine Translation and Generative Adversarial Networks;Stephanie Stoll et al.;《Proceeding of the 29th British Machine Vision Conference(BMVC 2018)》;20180903;第1-12页 *

Also Published As

Publication number Publication date
CN110570877A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN111292764B (zh) 辨识系统及辨识方法
CN108305641B (zh) 情感信息的确定方法和装置
CN113378784B (zh) 视频标签推荐模型的训练方法和确定视频标签的方法
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110211562B (zh) 一种语音合成的方法、电子设备及可读存储介质
CN108959388B (zh) 信息生成方法及装置
CN113674732B (zh) 语音置信度检测方法、装置、电子设备和存储介质
CN110570877B (zh) 手语视频生成方法、电子设备及计算机可读存储介质
CN111274412A (zh) 信息提取方法、信息提取模型训练方法、装置及存储介质
CN109902273B (zh) 关键词生成模型的建模方法和装置
CN113468857B (zh) 风格转换模型的训练方法、装置、电子设备以及存储介质
CN113963715A (zh) 语音信号的分离方法、装置、电子设备及存储介质
KR20180065762A (ko) 매니폴드 제약 조건에 기반한 심층 신경망 압축 방법 및 그 장치
CN112487813B (zh) 命名实体识别方法及系统、电子设备及存储介质
CN111898363B (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN113362804A (zh) 一种合成语音的方法、装置、终端及存储介质
CN113762503A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN115104151A (zh) 一种离线语音识别方法和装置、电子设备和可读存储介质
CN112528646B (zh) 词向量生成方法、终端设备及计算机可读存储介质
CN115101075A (zh) 一种语音识别的方法以及相关装置
CN113342981A (zh) 一种基于机器学习的需求文档分类方法及装置
CN110349570B (zh) 语音识别模型训练方法、可读存储介质和电子设备
CN113469197A (zh) 图文匹配方法、装置、设备以及存储介质
CN111858848A (zh) 一种语义的分类方法、装置、电子设备及存储介质
CN113257235B (zh) 模型训练方法、语音识别方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant