CN111918126A - 音视频信息处理方法、装置、可读存储介质及终端设备 - Google Patents

音视频信息处理方法、装置、可读存储介质及终端设备 Download PDF

Info

Publication number
CN111918126A
CN111918126A CN201910387849.1A CN201910387849A CN111918126A CN 111918126 A CN111918126 A CN 111918126A CN 201910387849 A CN201910387849 A CN 201910387849A CN 111918126 A CN111918126 A CN 111918126A
Authority
CN
China
Prior art keywords
hand
video
neural network
information
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910387849.1A
Other languages
English (en)
Inventor
包树南
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
TCL Research America Inc
Original Assignee
TCL Research America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Research America Inc filed Critical TCL Research America Inc
Priority to CN201910387849.1A priority Critical patent/CN111918126A/zh
Publication of CN111918126A publication Critical patent/CN111918126A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于交流辅助技术领域,尤其涉及一种音视频信息处理方法、装置、计算机可读存储介质及终端设备。所述方法获取包括第一手势动作序列的第一视频;使用预设的第一神经网络模型识别所述第一视频的各帧图像的手部区域,并提取各帧图像的手部区域的子图像构造为手部区域视频;使用预设的第二神经网络模型对所述手部区域视频中进行处理,得到与所述第一手势动作序列对应的第一文本信息;使用预设的第三神经网络模型将所述第一文本信息转换为第一语音信息。即通过从手语到文本再到语音的一整套处理流程,实现了将手语的交流形式转换为语音的交流形式,使得没有学过手语的正常人也能够理解使用手语的聋哑人所要表达的意思。

Description

音视频信息处理方法、装置、可读存储介质及终端设备
技术领域
本发明属于交流辅助技术领域,尤其涉及一种音视频信息处理方法、装置、计算机可读存储介质及终端设备。
背景技术
聋哑人是残疾人中的一个庞大群体,因为无法说话,聋哑人通常使用手语作为其交流形式。手语是一种依靠动作和视觉交流的特殊语言,由双手的手型、位置、方向、面部表情、唇动、体势信息的组合构成。然而,学习手语需要投入非常多的时间和巨大的努力,社会中大部分正常人都没有接受过手语教育,当没有学过手语的正常人需要和使用手语的聋哑人进行交流时,就产生了沟通障碍,阻碍了正常人与聋哑人之间的正常交流。
发明内容
有鉴于此,本发明实施例提供了一种音视频信息处理方法、装置、计算机可读存储介质及终端设备,以解决没有学过手语的正常人与使用手语的聋哑人之间难以进行正常交流的问题。
本发明实施例的第一方面提供了一种音视频信息处理方法,可以包括:
获取包括第一手势动作序列的第一视频;
使用预设的第一神经网络模型识别所述第一视频的各帧图像的手部区域,并提取各帧图像的手部区域的子图像构造为手部区域视频;
使用预设的第二神经网络模型对所述手部区域视频中进行处理,得到与所述第一手势动作序列对应的第一文本信息;
使用预设的第三神经网络模型将所述第一文本信息转换为第一语音信息。
进一步地,所述第一神经网络模型包括N个手部二分类模型和N个手部矩形框矫正模型,其中,第n个手部二分类模型和第n个手部矩形框矫正模型的检测窗口尺度一致,且第n个手部二分类模型的检测窗口尺度小于第n+1个手部二分类模型的检测窗口尺度,1≤n≤N;
所述使用预设的第一神经网络模型识别所述第一视频的各帧图像的手部区域包括:
使用第n个手部二分类模型识别各帧图像的手部候选区域和非手部区域,并剔除各帧图像的非手部区域;
使用第n个手部矩形框矫正模型对各帧图像的手部候选区域进行调整;
使用非极大值抑制算法消除各帧图像的手部候选区域的重叠区域。
进一步地,所述第二神经网络模型包括第一编码器和第一解码器;
所述使用预设的第二神经网络模型对所述手部区域视频中进行处理,得到与所述第一手势动作序列对应的第一文本信息包括:
使用所述第一编码器对所述第一手势动作序列进行编码操作,得到与所述第一手势动作序列对应的动作编码信息;
使用所述第一解码器对所述动作编码信息进行解码操作,得到所述第一文本信息。
进一步地,所述第三神经网络模型包括第二编码器和第二解码器;
所述使用预设的第三神经网络模型将所述第一文本信息转换为第一语音信息包括:
使用所述第二编码器对所述第一文本信息进行编码操作,得到与所述第一文本信息对应的文本编码信息;
使用所述第二解码器对所述文本编码信息进行解码操作,得到与所述第一文本信息对应的梅尔频谱;
使用预设的卷积中间处理模块将所述梅尔频谱转换为线性频谱;
对所述线性频谱进行傅里叶变换,得到所述第一语音信息。
进一步地,所述音视频信息处理方法还可以包括:
获取第二语音信息;
使用预设的第四神经网络模型将所述第二语音信息转换为第二文本信息;
使用预设的第五神经网络模型对所述第二文本信息进行处理,得到与所述第二文本信息对应的第二手势动作序列,并构造与所述第二手势动作序列对应的第二视频。
本发明实施例的第二方面提供了一种音视频信息处理装置,可以包括:
第一视频获取模块,用于获取包括第一手势动作序列的第一视频;
第一处理模块,用于使用预设的第一神经网络模型识别所述第一视频的各帧图像的手部区域,并提取各帧图像的手部区域的子图像构造为手部区域视频;
第二处理模块,用于使用预设的第二神经网络模型对所述手部区域视频中进行处理,得到与所述第一手势动作序列对应的第一文本信息;
第三处理模块,用于使用预设的第三神经网络模型将所述第一文本信息转换为第一语音信息。
进一步地,所述第一神经网络模型包括N个手部二分类模型和N个手部矩形框矫正模型,其中,第n个手部二分类模型和第n个手部矩形框矫正模型的检测窗口尺度一致,且第n个手部二分类模型的检测窗口尺度小于第n+1个手部二分类模型的检测窗口尺度,1≤n≤N;
所述第一处理模块可以包括:
二分类单元,用于使用第n个手部二分类模型识别各帧图像的手部候选区域和非手部区域,并剔除各帧图像的非手部区域;
矫正单元,用于使用第n个手部矩形框矫正模型对各帧图像的手部候选区域进行调整;
重叠区域消除单元,用于使用非极大值抑制算法消除各帧图像的手部候选区域的重叠区域。
进一步地,所述第二神经网络模型包括第一编码器和第一解码器;
所述第二处理模块可以包括:
第一编码单元,用于使用所述第一编码器对所述第一手势动作序列进行编码操作,得到与所述第一手势动作序列对应的动作编码信息;
第一解码单元,用于使用所述第一解码器对所述动作编码信息进行解码操作,得到所述第一文本信息。
进一步地,所述第三神经网络模型包括第二编码器和第二解码器;
所述第三处理模块可以包括:
第二编码单元,用于使用所述第二编码器对所述第一文本信息进行编码操作,得到与所述第一文本信息对应的文本编码信息;
第二解码单元,用于使用所述第二解码器对所述文本编码信息进行解码操作,得到与所述第一文本信息对应的梅尔频谱;
频谱转换单元,用于使用预设的卷积中间处理模块将所述梅尔频谱转换为线性频谱;
傅里叶变换单元,用于对所述线性频谱进行傅里叶变换,得到所述第一语音信息。
进一步地,所述音视频信息处理装置还可以包括:
语音信息获取模块,用于获取第二语音信息;
第四处理模块,用于使用预设的第四神经网络模型将所述第二语音信息转换为第二文本信息;
第五处理模块,用于使用预设的第五神经网络模型对所述第二文本信息进行处理,得到与所述第二文本信息对应的第二手势动作序列,并构造与所述第二手势动作序列对应的第二视频。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述任一种音视频信息处理方法的步骤。
本发明实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述任一种音视频信息处理方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例获取包括第一手势动作序列的第一视频;使用预设的第一神经网络模型识别所述第一视频的各帧图像的手部区域,并提取各帧图像的手部区域的子图像构造为手部区域视频;使用预设的第二神经网络模型对所述手部区域视频中进行处理,得到与所述第一手势动作序列对应的第一文本信息;使用预设的第三神经网络模型将所述第一文本信息转换为第一语音信息。通过本发明实施例,首先以视频的形式记录下手势动作序列,然后使用第一神经网络模型识别其中的手部区域视频,再使用第二神经网络模型处理得到文本信息,最后使用第二神经网络模型处理得到语音信息,即通过从手语到文本再到语音的一整套处理流程,实现了将手语的交流形式转换为语音的交流形式,使得没有学过手语的正常人也能够理解使用手语的聋哑人所要表达的意思。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种音视频信息处理方法的一个实施例流程图;
图2为本发明实施例中一种音视频信息处理方法的另一个实施例流程图;
图3为本发明实施例中一种音视频信息处理装置的一个实施例结构图;
图4为本发明实施例中一种终端设备的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种音视频信息处理方法的一个实施例可以包括:
步骤S101、获取包括第一手势动作序列的第一视频。
当没有学过手语的用户需要理解聋哑人的手语所表达的意思时,可以通过其随身携带的手机、平板电脑等具有视频采集功能的终端设备获取聋哑人进行手语表达时的视频,也即所述第一视频,在该视频中包括了聋哑人进行手语表达时的各个手势动作,这些手势动作构成了一个在时间上连续的动作序列,也即所述第一手势动作序列。
步骤S102、使用预设的第一神经网络模型识别所述第一视频的各帧图像的手部区域,并提取各帧图像的手部区域的子图像构造为手部区域视频。
所述第一神经网络模型可以为由多个卷积神经网络(Convolutional NeuralNetworks,CNN)模型组合而成的级联卷积神经网络(Cascade CNN)模型。所述第一神经网络模型可以包括N个手部二分类模型和N个手部矩形框矫正模型,其中,第n个手部二分类模型和第n个手部矩形框矫正模型的检测窗口尺度一致,且第n个手部二分类模型的检测窗口尺度小于第n+1个手部二分类模型的检测窗口尺度,1≤n≤N,N为正整数,其具体取值可以根据实际情况进行设置,例如,可以将其设置为2、3、5、10或者其它取值,所述手部二分类模型和所述手部矩形框矫正模型均为CNN模型。则提取各帧图像的手部区域的整个过程可以分为N轮子过程,其中,第n轮子过程包括:首先使用第n个手部二分类模型识别各帧图像的手部候选区域和非手部区域,并剔除各帧图像的非手部区域,然后使用第n个手部矩形框矫正模型对各帧图像的手部候选区域进行调整,最后使用非极大值抑制(Non-MaximumSuppression,NMS)算法消除各帧图像的手部候选区域的重叠区域。
优选地,可以设置N=3,即所述第一神经网络模型包括3个手部二分类模型和3个手部矩形框矫正模型,其中,3个手部二分类模型按照排序依次为:12-net(检测窗口尺度为12像素×12像素的图像块)、24-net(检测窗口尺度为24像素×24像素的图像块)和48-net(检测窗口尺度为48像素×48像素的图像块),3个手部矩形框矫正模型按照排序依次为:12-calibration-net(检测窗口尺度为12像素×12像素的图像块)、24-calibration-net(检测窗口尺度为24像素×24像素的图像块)和48-calibration-net(检测窗口尺度为48像素×48像素的图像块)。
首先,用一个小型网络12-net对各帧图像进行全局的手部候选区域和非手部区域的二分类,检测窗口尺度为12像素×12像素的图像块,搜索步长为4个像素,这样可以快速排除大量的非手部区域,对剩下的手部候选区域使用一个小型网络12-calibration-net对手部候选区域的矩形框进行微调,微调的对象包括该矩形框的位置和尺度,再使用非极大值抑制算法消除各帧图像的手部候选区域的重叠区域。
接着,用一个中型网络24-net对剩下的手部候选区域进行二分类,检测窗口尺度为24像素×24像素的图像块,再次排除大量的非手部区域,对剩下的手部候选区域使用一个中型网络24-calibration-net对手部候选区域的矩形框进行微调,微调的对象包括该矩形框的位置和尺度,再使用非极大值抑制算法消除各帧图像的手部候选区域的重叠区域。
最后,用一个大型网络48-net对剩下的手部候选区域进行二分类,检测窗口尺度为48像素×48像素的图像块,再次排除大量的非手部区域,对剩下的手部候选区域使用一个大型网络48-calibration-net对手部候选区域的矩形框进行微调,微调的对象包括该矩形框的位置和尺度,再使用非极大值抑制算法消除各帧图像的手部候选区域的重叠区域。
通过以上过程,即可得到各帧图像的手部区域,接着即可提取各帧图像的手部区域的子图像,并将这些子图像按照顺序依次排列,从而构造出所述手部区域视频。
步骤S103、使用预设的第二神经网络模型对所述手部区域视频中进行处理,得到与所述第一手势动作序列对应的第一文本信息。
所述第二神经网络模型可以为一种序列到序列的模型(seq2seq),将手势动作当作一种序列,将文本信息当作另外一种序列,通过该模型,能够达到实现两种序列转换的功能。所述第二神经网络模型可以分为编码器(encoder)和解码器(decoder)两部分,为了便于与本申请中所提及的其它编码器及解码器区分,将所述第二神经网络模型中的编码器和解码器分别记为第一编码器和第一解码器。
首先,使用所述第一编码器对所述第一手势动作序列进行编码操作,得到与所述第一手势动作序列对应的动作编码信息。
为了能够将视频转换为序列,所述第一编码器首先使用卷积神经网络将视频的每一帧都做一个卷积操作以获得该帧的信息。经过卷积操作以后,将信息按照时间的顺序,依次输入到循环神经网络(Recurrent Neural Network,RNN)中,本实施例中优选采用循环神经网络的一种变体,即长短时记忆网络(Long Short-Term Memory,,LSTM)来搭建模型,例如,此处可以搭建三层LSTM网络,最后输出一组与所述第一手势动作序列对应的信息,即所述动作编码信息。
然后,使用所述第一解码器对所述动作编码信息进行解码操作,得到所述第一文本信息。
预先要对中文汉字进行编码,例如,可以采用word2vec来进行编码,对文字进行编码之后,将文字的编码以及所述第一编码器输出的动作编码信息一起输入到所述第一解码器中,所述第一解码器的结果采用多层循环神经网络完成,将上一时刻的状态输入到当前时刻,以增加模型的复杂性,使其泛化性更高。在训练的过程中,所述第一解码器的输出结果与参考结果进行比较,然后进行矫正,最大化手势动作序列与文本信息相匹配的概率。
步骤S104、使用预设的第三神经网络模型将所述第一文本信息转换为第一语音信息。
所述第三神经网络模型可以采取一种端到端的文本到语音(Text To Speech,TTS)技术,该技术模型的核心为seq2seq网络,将文本信息当作一种序列,将语音信息当作另外一种序列,通过该模型,能够达到实现两种序列转换的功能。所述第三神经网络模型可以分为编码器(encoder)和解码器(decoder)两部分,为了便于与本申请中所提及的其它编码器及解码器区分,将所述第三神经网络模型中的编码器和解码器分别记为第二编码器和第二解码器。
首先,使用所述第二编码器对所述第一文本信息进行编码操作,得到与所述第一文本信息对应的文本编码信息。
所述第二编码器在将文本信息编码成字符以后输入到一个三层卷积神经网络以获取信息,最后一层的卷积输出传给一个LSTM网络生成编码特征,也即所述文本编码信息。
然后,使用所述第二解码器对所述文本编码信息进行解码操作,得到与所述第一文本信息对应的梅尔频谱。
所述第二解码器为一个自回归的循环神经网络,可以从经过编码的输入序列预测输出声波图,一次预测一帧,上一步预测出的频谱帧首先被传入每层由256个隐藏的修正线性单元(Rectified Linear Unit,ReLU)组成的双层全连接的预处理网络(pre-net),然后再传给一个LSTM网络,经过一个线性变换投影来预测目标频谱帧,最后目标频谱帧经过一个5层卷积的后处理网络(post-net)来预测一个残差叠加到卷积前的频谱帧上,从而得到所述梅尔频谱。
接着,使用预设的卷积中间处理模块(bridge-net)将所述梅尔频谱转换为线性频谱。最后,将所述线性频谱输入到预设的声码器(vocoder)中,对所述线性频谱进行傅里叶变换,将其转换为语音波形图,从而得到所述第一语音信息。正常用户通过其随身携带的具有音频播放功能的终端设备播放所述第一语音信息,从而使该用户能够理解使用手语的聋哑人所要表达的意思。
综上所述,本发明实施例获取包括第一手势动作序列的第一视频;使用预设的第一神经网络模型识别所述第一视频的各帧图像的手部区域,并提取各帧图像的手部区域的子图像构造为手部区域视频;使用预设的第二神经网络模型对所述手部区域视频中进行处理,得到与所述第一手势动作序列对应的第一文本信息;使用预设的第三神经网络模型将所述第一文本信息转换为第一语音信息。通过本发明实施例,首先以视频的形式记录下手势动作序列,然后使用第一神经网络模型识别其中的手部区域视频,再使用第二神经网络模型处理得到文本信息,最后使用第二神经网络模型处理得到语音信息,即通过从手语到文本再到语音的一整套处理流程,实现了将手语的交流形式转换为语音的交流形式,使得没有学过手语的正常人也能够理解使用手语的聋哑人所要表达的意思。
通过图1所示的过程实现了从手语到语音的转换,进一步地,还可以通过如图2所示的过程实现从语音到手语的转换:
步骤S201、获取第二语音信息。
当聋哑人用户需要理解正常人说话所表达的意思时,可以通过其随身携带的手机、平板电脑等具有语音采集功能的终端设备获取正常人说话时的语音信息,也即所述第二语音信息。
步骤S202、使用预设的第四神经网络模型将所述第二语音信息转换为第二文本信息。
所述第四神经网络模型可以为一种序列到序列的模型(seq2seq),将语音信息当作一种序列,将文本信息当作另外一种序列,通过该模型,能够达到实现两种序列转换的功能。所述第四神经网络模型可以分为编码器(encoder)和解码器(decoder)两部分,为了便于与本申请中所提及的其它编码器及解码器区分,将所述第四神经网络模型中的编码器和解码器分别记为第三编码器和第三解码器。
首先,所述第三编码器使用傅里叶变换将第二语音信息的波形图转换为频谱图,然后使用one-hot编码对频谱图进行量化,并将量化后的数据输入到三层的卷积网络中进行自卷积,最后一层的卷积输出传给一个LSTM网络生成编码特征,也即所述第三编码器的输出。
然后,使用所述第三解码器对该编码特征进行解码操作,得到所述第二文本信息。预先要对中文汉字进行编码,例如,可以采用word2vec来进行编码,对文字进行编码之后,将文字的编码以及所述第三编码器输出的编码特征一起输入到所述第三解码器中,所述第三解码器的结果采用多层循环神经网络完成,将上一时刻的状态输入到当前时刻,以增加模型的复杂性,使其泛化性更高。在训练的过程中,所述第三解码器的输出结果与参考结果进行比较,然后进行矫正,最大化语音信息与文本信息相匹配的概率。
步骤S203、使用预设的第五神经网络模型对所述第二文本信息进行处理,得到与所述第二文本信息对应的第二手势动作序列,并构造与所述第二手势动作序列对应的第二视频。
所述第五神经网络模型可以为一种序列到序列的模型(seq2seq),将文本信息当作一种序列,将手势动作当作另外一种序列,通过该模型,能够达到实现两种序列转换的功能。所述第五神经网络模型可以分为编码器(encoder)和解码器(decoder)两部分,为了便于与本申请中所提及的其它编码器及解码器区分,将所述第五神经网络模型中的编码器和解码器分别记为第四编码器和第四解码器。
所述第五神经网络模型的训练数据为文字以及与该文字所表达的意思相对应的手势动作序列(可以为视频的形式),所述第四编码器将训练数据中的中文文字使用word2vec进行编码,所述第四解码器使用CNN网络对训练数据中的手势动作序列的每一帧做信息提取,提取出的信息一方面作为输入与所述第四编码器的编码结果一起传入到LSTM网络中,另一方面也作为训练的参考结果(即target_label)。在训练过程中,所述第四解码器的输出结果与参考结果进行比较,然后进行矫正,最大化文本信息与手势动作序列相匹配的概率。
所述第二手势动作序列中的每个动作均对应于一帧图像,将这些图像连接起来,拼接成一个完整的视频,也即所述第二视频。聋哑人用户通过其随身携带的具有视频播放功能的终端设备播放所述第二视频,从而使该聋哑人用户能够理解正常人通过说话所要表达的意思。
将图1和图2所示的方法结合在一起使用,可以帮助正常人以及聋哑人进行相互交流时,双方能够在短时间内了解彼此的想法,增强交流的顺畅度以及准确度。
另外,通过语音到手语的转换,也可以使得聋哑人能够观看网上或者电视上丰富多彩的视频,通过将视频中的语音捕捉后,合成手语的视频,然后及时同步投射到该视频中,即可实现将视频语音转手语视频的即时翻译功能,使得聋哑人也能享受到互联网发展带来的便利。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种音视频信息处理方法,图3示出了本发明实施例提供的一种音视频信息处理装置的一个实施例结构图。
本实施例中,一种音视频信息处理装置可以包括:
第一视频获取模块301,用于获取包括第一手势动作序列的第一视频;
第一处理模块302,用于使用预设的第一神经网络模型识别所述第一视频的各帧图像的手部区域,并提取各帧图像的手部区域的子图像构造为手部区域视频;
第二处理模块303,用于使用预设的第二神经网络模型对所述手部区域视频中进行处理,得到与所述第一手势动作序列对应的第一文本信息;
第三处理模块304,用于使用预设的第三神经网络模型将所述第一文本信息转换为第一语音信息。
进一步地,所述第一神经网络模型包括N个手部二分类模型和N个手部矩形框矫正模型,其中,第n个手部二分类模型和第n个手部矩形框矫正模型的检测窗口尺度一致,且第n个手部二分类模型的检测窗口尺度小于第n+1个手部二分类模型的检测窗口尺度,1≤n≤N;
所述第一处理模块可以包括:
二分类单元,用于使用第n个手部二分类模型识别各帧图像的手部候选区域和非手部区域,并剔除各帧图像的非手部区域;
矫正单元,用于使用第n个手部矩形框矫正模型对各帧图像的手部候选区域进行调整;
重叠区域消除单元,用于使用非极大值抑制算法消除各帧图像的手部候选区域的重叠区域。
进一步地,所述第二神经网络模型包括第一编码器和第一解码器;
所述第二处理模块可以包括:
第一编码单元,用于使用所述第一编码器对所述第一手势动作序列进行编码操作,得到与所述第一手势动作序列对应的动作编码信息;
第一解码单元,用于使用所述第一解码器对所述动作编码信息进行解码操作,得到所述第一文本信息。
进一步地,所述第三神经网络模型包括第二编码器和第二解码器;
所述第三处理模块可以包括:
第二编码单元,用于使用所述第二编码器对所述第一文本信息进行编码操作,得到与所述第一文本信息对应的文本编码信息;
第二解码单元,用于使用所述第二解码器对所述文本编码信息进行解码操作,得到与所述第一文本信息对应的梅尔频谱;
频谱转换单元,用于使用预设的卷积中间处理模块将所述梅尔频谱转换为线性频谱;
傅里叶变换单元,用于对所述线性频谱进行傅里叶变换,得到所述第一语音信息。
进一步地,所述音视频信息处理装置还可以包括:
语音信息获取模块,用于获取第二语音信息;
第四处理模块,用于使用预设的第四神经网络模型将所述第二语音信息转换为第二文本信息;
第五处理模块,用于使用预设的第五神经网络模型对所述第二文本信息进行处理,得到与所述第二文本信息对应的第二手势动作序列,并构造与所述第二手势动作序列对应的第二视频。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图4示出了本发明实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
如图4所示,该实施例的音视频信息处理终端设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个音视频信息处理方法实施例中的步骤,例如图1所示的步骤S101至步骤S104,或者图2所示的步骤S201至步骤S203。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述音视频信息处理终端设备4中的执行过程。
所述音视频信息处理终端设备4可以是手机、平板电脑、桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,图4仅仅是音视频信息处理终端设备4的示例,并不构成对音视频信息处理终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述音视频信息处理终端设备4还可以包括输入输出设备、网络接入设备、总线等。
所述处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述音视频信息处理终端设备4的内部存储单元,例如音视频信息处理终端设备4的硬盘或内存。所述存储器41也可以是所述音视频信息处理终端设备4的外部存储设备,例如所述音视频信息处理终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述音视频信息处理终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述音视频信息处理终端设备4所需的其它程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种音视频信息处理方法,其特征在于,包括:
获取包括第一手势动作序列的第一视频;
使用预设的第一神经网络模型识别所述第一视频的各帧图像的手部区域,并提取各帧图像的手部区域的子图像构造为手部区域视频;
使用预设的第二神经网络模型对所述手部区域视频中进行处理,得到与所述第一手势动作序列对应的第一文本信息;
使用预设的第三神经网络模型将所述第一文本信息转换为第一语音信息。
2.根据权利要求1所述的音视频信息处理方法,其特征在于,所述第一神经网络模型包括N个手部二分类模型和N个手部矩形框矫正模型,其中,第n个手部二分类模型和第n个手部矩形框矫正模型的检测窗口尺度一致,且第n个手部二分类模型的检测窗口尺度小于第n+1个手部二分类模型的检测窗口尺度,1≤n≤N;
所述使用预设的第一神经网络模型识别所述第一视频的各帧图像的手部区域包括:
使用第n个手部二分类模型识别各帧图像的手部候选区域和非手部区域,并剔除各帧图像的非手部区域;
使用第n个手部矩形框矫正模型对各帧图像的手部候选区域进行调整;
使用非极大值抑制算法消除各帧图像的手部候选区域的重叠区域。
3.根据权利要求1所述的音视频信息处理方法,其特征在于,所述第二神经网络模型包括第一编码器和第一解码器;
所述使用预设的第二神经网络模型对所述手部区域视频中进行处理,得到与所述第一手势动作序列对应的第一文本信息包括:
使用所述第一编码器对所述第一手势动作序列进行编码操作,得到与所述第一手势动作序列对应的动作编码信息;
使用所述第一解码器对所述动作编码信息进行解码操作,得到所述第一文本信息。
4.根据权利要求1所述的音视频信息处理方法,其特征在于,所述第三神经网络模型包括第二编码器和第二解码器;
所述使用预设的第三神经网络模型将所述第一文本信息转换为第一语音信息包括:
使用所述第二编码器对所述第一文本信息进行编码操作,得到与所述第一文本信息对应的文本编码信息;
使用所述第二解码器对所述文本编码信息进行解码操作,得到与所述第一文本信息对应的梅尔频谱;
使用预设的卷积中间处理模块将所述梅尔频谱转换为线性频谱;
对所述线性频谱进行傅里叶变换,得到所述第一语音信息。
5.根据权利要求1至4中任一项所述的音视频信息处理方法,其特征在于,还包括:
获取第二语音信息;
使用预设的第四神经网络模型将所述第二语音信息转换为第二文本信息;
使用预设的第五神经网络模型对所述第二文本信息进行处理,得到与所述第二文本信息对应的第二手势动作序列,并构造与所述第二手势动作序列对应的第二视频。
6.一种音视频信息处理装置,其特征在于,包括:
第一视频获取模块,用于获取包括第一手势动作序列的第一视频;
第一处理模块,用于使用预设的第一神经网络模型识别所述第一视频的各帧图像的手部区域,并提取各帧图像的手部区域的子图像构造为手部区域视频;
第二处理模块,用于使用预设的第二神经网络模型对所述手部区域视频中进行处理,得到与所述第一手势动作序列对应的第一文本信息;
第三处理模块,用于使用预设的第三神经网络模型将所述第一文本信息转换为第一语音信息。
7.根据权利要求6所述的音视频信息处理装置,其特征在于,所述第一神经网络模型包括N个手部二分类模型和N个手部矩形框矫正模型,其中,第n个手部二分类模型和第n个手部矩形框矫正模型的检测窗口尺度一致,且第n个手部二分类模型的检测窗口尺度小于第n+1个手部二分类模型的检测窗口尺度,1≤n≤N;
所述第一处理模块可以包括:
二分类单元,用于使用第n个手部二分类模型识别各帧图像的手部候选区域和非手部区域,并剔除各帧图像的非手部区域;
矫正单元,用于使用第n个手部矩形框矫正模型对各帧图像的手部候选区域进行调整;
重叠区域消除单元,用于使用非极大值抑制算法消除各帧图像的手部候选区域的重叠区域。
8.根据权利要求6或7所述的音视频信息处理装置,其特征在于,还包括:
语音信息获取模块,用于获取第二语音信息;
第四处理模块,用于使用预设的第四神经网络模型将所述第二语音信息转换为第二文本信息;
第五处理模块,用于使用预设的第五神经网络模型对所述第二文本信息进行处理,得到与所述第二文本信息对应的第二手势动作序列,并构造与所述第二手势动作序列对应的第二视频。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的音视频信息处理方法的步骤。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的音视频信息处理方法的步骤。
CN201910387849.1A 2019-05-10 2019-05-10 音视频信息处理方法、装置、可读存储介质及终端设备 Pending CN111918126A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910387849.1A CN111918126A (zh) 2019-05-10 2019-05-10 音视频信息处理方法、装置、可读存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910387849.1A CN111918126A (zh) 2019-05-10 2019-05-10 音视频信息处理方法、装置、可读存储介质及终端设备

Publications (1)

Publication Number Publication Date
CN111918126A true CN111918126A (zh) 2020-11-10

Family

ID=73242849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910387849.1A Pending CN111918126A (zh) 2019-05-10 2019-05-10 音视频信息处理方法、装置、可读存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN111918126A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228137A (zh) * 2016-07-26 2016-12-14 广州市维安科技股份有限公司 一种基于关键点定位的atm机异常人脸检测方法
CN107563446A (zh) * 2017-09-05 2018-01-09 华中科技大学 一种微操作系统目标检测方法
CN108615009A (zh) * 2018-04-24 2018-10-02 山东师范大学 一种基于动态手势识别的手语翻译交流系统
CN108647603A (zh) * 2018-04-28 2018-10-12 清华大学 基于注意力机制的半监督连续手语翻译方法及装置
CN109697974A (zh) * 2017-10-19 2019-04-30 百度(美国)有限责任公司 使用卷积序列学习的神经文本转语音的系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228137A (zh) * 2016-07-26 2016-12-14 广州市维安科技股份有限公司 一种基于关键点定位的atm机异常人脸检测方法
CN107563446A (zh) * 2017-09-05 2018-01-09 华中科技大学 一种微操作系统目标检测方法
CN109697974A (zh) * 2017-10-19 2019-04-30 百度(美国)有限责任公司 使用卷积序列学习的神经文本转语音的系统和方法
CN108615009A (zh) * 2018-04-24 2018-10-02 山东师范大学 一种基于动态手势识别的手语翻译交流系统
CN108647603A (zh) * 2018-04-28 2018-10-12 清华大学 基于注意力机制的半监督连续手语翻译方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨露菁等: "《智能图像处理及应用》", 31 March 2019 *
陈鹏展: "《个体行为的机器识别与决策协同》", 31 July 2018 *

Similar Documents

Publication Publication Date Title
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
CN109874029B (zh) 视频描述生成方法、装置、设备及存储介质
WO2022161298A1 (zh) 信息生成方法、装置、设备、存储介质及程序产品
CN110288972B (zh) 语音合成模型训练方法、语音合成方法及装置
EP3857459A1 (en) System and method for a dialogue response generation system
CN112837669B (zh) 语音合成方法、装置及服务器
CN111241853B (zh) 一种会话翻译方法、装置、存储介质及终端设备
CN112233698A (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN107993651B (zh) 一种语音识别方法、装置、电子设备及存储介质
CN111401259B (zh) 模型训练方法、系统、计算机可读介质和电子设备
CN116246213B (zh) 数据处理方法、装置、设备以及介质
CN116050496A (zh) 图片描述信息生成模型的确定方法及装置、介质、设备
CN111767697B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN116543768A (zh) 模型的训练方法、语音识别方法和装置、设备及存储介质
CN115964638A (zh) 多模态社交数据情感分类方法、系统、终端、设备及应用
CN114882862A (zh) 一种语音处理方法及相关设备
CN115762489A (zh) 语音识别模型的数据处理系统及方法、语音识别方法
CN111414959B (zh) 图像识别方法、装置、计算机可读介质和电子设备
CN116110378B (zh) 模型训练方法、语音识别方法、装置和电子设备
CN113689527A (zh) 一种人脸转换模型的训练方法、人脸图像转换方法
CN111918126A (zh) 音视频信息处理方法、装置、可读存储介质及终端设备
CN114360491B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN116089853A (zh) 电子设备及基于多通路融合的多模态情感分类方法
CN112861546A (zh) 获取文本语义相似值的方法、装置、存储介质及电子设备
CN113971947A (zh) 语音合成的方法、装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201110

RJ01 Rejection of invention patent application after publication