CN112329451A - 手语动作视频生成方法、装置、设备及存储介质 - Google Patents
手语动作视频生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112329451A CN112329451A CN202011396412.3A CN202011396412A CN112329451A CN 112329451 A CN112329451 A CN 112329451A CN 202011396412 A CN202011396412 A CN 202011396412A CN 112329451 A CN112329451 A CN 112329451A
- Authority
- CN
- China
- Prior art keywords
- information
- sign language
- text
- word
- key point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 title claims abstract description 174
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 230000033001 locomotion Effects 0.000 claims description 50
- 238000004458 analytical method Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 13
- 230000003287 optical effect Effects 0.000 claims description 10
- 230000033764 rhythmic process Effects 0.000 claims description 7
- 230000007704 transition Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 14
- 230000001815 facial effect Effects 0.000 description 13
- 230000006854 communication Effects 0.000 description 9
- 230000007774 longterm Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 208000032041 Hearing impaired Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000016354 hearing loss disease Diseases 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 206010049976 Impatience Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种手语动作视频生成方法、装置、设备及存储介质,所述方法包括:获取待译信息,在分析得到其特征后,首先将得到的特征输入到预先训练的第一模型中,得到手语动作关键点序列,然后再将手语动作关键点序列输入到预先训练的第二模型中,得到手语动作视频。其中,由于第一模型会根据待译信息的特征得到手语动作关键点序列,而手语动作关键点序列表示的是待译信息对应的手语动作的一些动作关键点,然后第二模型根据这些动作的关键点得到的手语动作视频便可以考虑到不同关键点之间的过渡,从而保证手语动作视频中的每个手语动作之间过渡自然,更便于障碍人士的理解。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种手语动作视频生成方法、装置、设备及存储介质。
背景技术
手语是用手势比量的动作,比量过程中会根据手势的变化模拟形象或者音节以构成的一定意思或词语,它是听力障碍或者无法言语的人互相交际和交流思想的一种手的语言,对于听力障碍的人来说,它是主要的交际工具。目前,与听力障碍人士交流的人可能并不会使用手语,这就会出现交流障碍的情况,基于上述情况,可以通过识别交流过程中出现的语音,并将其转化成对应的手语动画展示给听力障碍人士,以完成与听力障碍人士的交流。
但是,相关技术中一般会直接将识别到的文本信息转换为手语动作序列片段,然后利用动作序列片段驱动生成手语动画序列或者直接从已有的动作序列视频中挑选出对应文本信息的视频序列,然后进行拼接,这就会导致最终展示的手语动画或者是视频过渡生硬,可能会造成新的交流障碍。
发明内容
本发明提供一种手语动作视频生成方法、装置、设备及存储介质,能够解决现有技术中因生成的手语动画或者视频过渡生硬造成新的交流障碍的技术问题。
本发明解决上述技术问题的技术方案如下:
获取待译信息,并根据预设分析方式对所述待译信息进行分析,得到所述待译信息的特征;
将所述特征输入到预先训练的第一模型中,得到手语动作关键点序列;
将所述手语动作关键点序列输入到预先训练的第二模型中,得到所述手语动作视频。
可选的,所述待译信息包括文本信息,所述特征包括文本特征和文本时长特征;
所述根据预设分析方式对所述待译信息进行分析,得到所述待译信息的特征,包括:
提取所述文本信息中的文字发音信息;
对所述文本信息进行分词,得到词语信息;
基于所述文字发音信息和所述词语信息对所述文本信息进行特征提取,得到所述文本信息的所述文本特征和所述文本时长特征。
可选的,所述基于所述文字发音信息和所述词语信息对所述文本信息进行特征提取,得到所述文本信息的所述文本特征和所述文本时长特征,包括:
根据所述文字发音信息和词语信息,确定所述词语信息中每个词语的时长特征;
根据每个词语的所述时长特征确定所述文本信息的文本时长特征;
根据所述词语信息,确定所述词语信息中每个词语的词语特征;
根据每个词语的所述词语特征确定所述文本信息的文本特征。
可选的,所述将所述特征输入到预先训练的第一模型中,得到手语动作关键点序列,包括:
将所述文本时长特征和所述文本特征输入到预先训练的第一模型中,确定每个词语对应的动作关键点;
根据每个词语的动作关键点确定手语动作关键点序列。
可选的,所述待译信息包括语音信息,所述特征包括长短时特征;
所述根据预设分析方式对所述待译信息进行分析,得到所述待译信息的特征,包括:
从所述语音信息中提取长时韵律和短时信息;
根据所述长时韵律和所述短时信息确定所述语音信息的长短时特征;
所述将所述特征输入到预先训练的第一模型中,得到手语动作关键点序列,包括:
将所述长短时特征输入到预先训练的第一模型中,得到手语动作关键点序列。
可选的,所述手语动作关键点序列包括面部动作关键点序列和手部动作关键点序列。
可选的,所述将所述手语动作关键点序列输入到预先训练的第二模型中,得到所述手语动作视频,包括:
将所述手语动作关键点序列输入到预先训练的第二模型中的生成对抗网络中,得到手语动作中间参数;
将所述手语动作中间参数输入到所述第二模型中的光流预测网络中,得到所述手语动作视频。
本发明还提供了一种手语动作视频生成装置,包括:
获取分析模块,用于获取待译信息,并根据预设分析方式对所述待译信息进行分析,得到所述待译信息的特征;
第一处理模块,用于将所述特征输入到预先训练的第一模型中,得到手语动作关键点序列;
第二处理模块,用于将所述手语动作关键点序列输入到预先训练的第二模型中,得到所述手语动作视频。
可选的,所述待译信息包括文本信息,所述特征包括文本特征和文本时长特征;
所述获取分析模块包括:
第一提取单元,用于提取所述文本信息中的文字发音信息;
分词单元,用于对所述文本信息进行分词,得到词语信息;
第二提取单元,用于基于所述文字发音信息和所述词语信息对所述文本信息进行特征提取,得到所述文本信息的所述文本特征和所述文本时长特征。
可选的,所述第二提取单元包括:
第一确定子单元,用于根据所述文字发音信息和词语信息,确定所述词语信息中每个词语的时长特征;
第二确定子单元,用于根据每个词语的所述时长特征确定所述文本信息的文本时长特征;
第三确定子单元,用于根据所述词语信息,确定所述词语信息中每个词语的词语特征;
第四确定子单元,用于根据每个词语的所述词语特征确定所述文本信息的文本特征。
可选的,所述第一处理模块包括:
第一输入单元,用于将所述文本时长特征和所述文本特征输入到预先训练的第一模型中,确定每个词语对应的动作关键点;
第一确定单元,用于根据每个词语的动作关键点确定手语动作关键点序列。
可选的,所述待译信息包括语音信息,所述特征包括长短时特征;
所述获取分析模块包括:
第三提取单元,用于从所述语音信息中提取长时韵律和短时信息;
第二确定单元,用于根据所述长时韵律和所述短时信息确定所述语音信息的长短时特征;
所述第一处理模块包括:
第二输入单元,用于将所述长短时特征输入到预先训练的第一模型中,得到手语动作关键点序列。
可选的,所述手语动作关键点序列包括面部动作关键点序列和手部动作关键点序列。
可选的,所述第二处理模块包括:
第一处理单元,用于将所述手语动作关键点序列输入到预先训练的第二模型中的生成对抗网络中,得到手语动作中间参数;
第二处理单元,用于将所述手语动作中间参数输入到所述第二模型中的光流预测网络中,得到所述手语动作视频。
本发明还提供一种手语动作视频生成设备,包括:至少一个处理器和存储器;
所述处理器用于执行所述存储器中存储的手语动作视频生成程序,以实现所述手语动作视频生成方法。
本发明还提供一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被所述手语动作视频生成设备执行,以实现所述手语动作视频生成方法。
本发明的有益效果是:对于待译信息,在分析得到其特征后,首先将得到的特征输入到预先训练的第一模型中,得到手语动作关键点序列,然后再将手语动作关键点序列输入到预先训练的第二模型中,得到手语动作视频。其中,由于第一模型会根据待译信息的特征得到手语动作关键点序列,而手语动作关键点序列表示的是待译信息对应的手语动作的一些动作关键点,然后第二模型根据这些动作的关键点得到的手语动作视频便可以考虑到不同关键点之间的过渡,从而保证手语动作视频中的每个手语动作之间过渡自然,更便于障碍人士的理解。
附图说明
图1是本发明的一个实施例提供的一种手语动作视频生成方法的流程示意图。
图2是本发明提供的一种第二模型生成手语动作视频的流程示意图。
图3是本发明提供的一种对文本信息进行分析的流程示意图。
图4是本发明得到文本特征和文本时长特征的流程示意图。
图5是本发明利用语音信息得到手语动作关键点序列的流程示意图。
图6是本发明提供的一种手语动作视频生成装置的结构示意图。
图7是本申请的另一实施例提供的一种手语动作视频生成设备的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
请参阅图1,图1是本发明的一个实施例提供的一种手语动作视频生成方法的流程示意图。
如图1所示,本实施例提供的手语动作视频生成方法可以包括:
步骤101、获取待译信息,并根据预设分析方式对所述待译信息进行分析,得到所述待译信息的特征。
其中,待译信息指的是需要被翻译为手语动作的信息,待译信息的形式可以有很多种,比如语音、文本等所有具有特定含义的信息。面对不同表现形式的信息,获取到手语动作视频生成过程中所需要的信息的方式可能不尽相同,因此,对于不同表现形式的信息,可以采用不同的预设分析方式进行分析,本实施例中,由于对不同表现形式采用的预设分析方式不同,那么得到的特征也会不同,因此,在步骤102中的第一模型中会设置有不同的网络,对应不同表现形式的信息的特征。
在一个具体的例子中,以待译信息为文本信息为例,预设分析方式可以包括对文字发音信息的提取(比如提取声韵母、音调、轻重音等)、对文本信息的分词(比如语法词、韵律词、韵律短语等)、语法词词性分析等,通过该预设分析方式进行文本信息可以表征出文本信息的发音信息、分词信息、词性信息以及长短时韵律停顿信息。
步骤102、将所述特征输入到预先训练的第一模型中,得到手语动作关键点序列。
需要说明的是,本步骤中所指的第一模型指的是通过样本特征以及带有标记的手语动作关键点序列对预先构建的神经网络模型进行训练得到的模型,在训练过程中,建立了特征到手语动作关键点序列的映射关系。
需要说明的是,手语动作关键点序列表示具有顺序的手语动作关键点的集合,比如对于“谢谢”来说,用手语动作表示则是将一手的拇指伸出,同时弯曲两下,在该过程中,就涉及到了一组手语动作关键点序列,手语动作关键点则指的是需要动作的骨骼点以及骨骼点需要进行的动作。
可选的,手语动作关键点序列可以但不仅限于包括面部动作关键点序列和手部动作关键点序列。研究表明,再利用手语动作进行交流时,如果不配合面部的动作,交流过程中能够理解的含义只有原有60%。因此,本申请中,第一模型会根据待译信息的特征中所包含的情绪信息得到对应的面部动作关键点,比如喜、怒、哀、乐、急躁等情绪对应的面部动作关键点。利用面部动作关键点,便可以在步骤103中的手语动作视频中加入面部动作,便于交流过程中障碍人士对交流内容的理解。
步骤103、将所述手语动作关键点序列输入到预先训练的第二模型中,得到所述手语动作视频。
在步骤102中得到手语动作关键点序列之后,第二模型则可以根据手语动作关键点序列中的手语动作关键点生成对应的手语动作视频。
具体的,可以参阅图2,图2是本发明提供的一种第二模型生成手语动作视频的流程示意图。
如图2所示,第二模型生成手语动作视频的过程可以包括:
步骤201、将所述手语动作关键点序列输入到预先训练的第二模型中的生成对抗网络中,得到手语动作中间参数。
在本实施例中,利用生成对抗网络,可以使生成的视频帧更为逼真。生成对抗网络是一种生成式的对抗网络。再具体一点,就是通过对抗的方式,去学习数据分布的生成式模型。所谓的对抗,指的是生成网络和判别网络的互相对抗。生成模块尽可能生成逼真样本,判别模块则尽可能去判别该样本是真实样本,还是生成的假样本。
步骤202、将所述手语动作中间参数输入到所述第二模型中的光流预测网络中,得到所述手语动作视频。
本步骤中,利用光流预测网络,可以将步骤201中生成的手语动作中间参数进行拼接。光流预测模型会利用手语动作中间参数中的光流信息,根据光的流动规律来对视频帧进行拼接,因此,本步骤中的光流预测网络可以使最终得到的手语动作视频中的每一帧之间过渡流畅,连贯自然。
本实施例中,对于待译信息,在分析得到其特征后,首先将得到的特征输入到预先训练的第一模型中,得到手语动作关键点序列,然后再将手语动作关键点序列输入到预先训练的第二模型中,得到手语动作视频。其中,由于第一模型会根据待译信息的特征得到手语动作关键点序列,而手语动作关键点序列表示的是待译信息对应的手语动作的一些动作关键点,然后第二模型根据这些动作的关键点得到的手语动作视频便可以考虑到不同关键点之间的过渡,从而保证手语动作视频中的每个手语动作之间过渡自然,更便于障碍人士的理解。
由于前述内容提到,待译信息的表现形式可以有多种,下面,则以文本信息和语音信息为例进行说明。
对于文本信息,请参阅图3,图3是本发明提供的一种对文本信息进行分析的流程示意图。
如图3所示,对文本信息进行分析的过程可以包括:
步骤301、提取所述文本信息中的文字发音信息。
需要说明的是,文字发音信息指的是文字中的声母、韵母、音调、轻声等信息,该信息可以体现出长短时韵律停顿的特性。其中,文字发音信息针对的可以是文本信息中的每个字的发音信息,当然,为了减轻运算量,可以先识别文本信息中的核心文字,比如主语成分、谓语成分以及宾语成分,然后只对核心文字的发音信息进行提取。
步骤302、对所述文本信息进行分词,得到词语信息。
本步骤中,分词指的是将文本信息中的词语分出来,比如对于“我正在书房写一篇作文”,分词便是将该句中词语与词语之间进行间隔,从而得到多个词语,也就是说,经过分词后,便会得到“我/正在/书房/写/一篇/作文”,也就是本步骤中的词语信息,而该词语信息中会包含多个词语,即“我”、“正在”、“书房”、“写”、“一篇”、“作文”。
需要说明的是,本步骤中的分词方式可以有很多中,比如常见的结巴分词等,此处不做出限定,应当明确的是,只要是能够将文本信息分词为词语信息的分词方法,都应当处于本发明的范围中。
步骤303、基于所述文字发音信息和所述词语信息对所述文本信息进行特征提取,得到所述文本信息的所述文本特征和所述文本时长特征。
在得到文字发音信息和词语信息后,会生成文本信息的文本特征和文本时长特征。需要说明的是,文本时长特征指的具体到手语动作上后每个文字对应的时长信息,由于手语动作与文字之间具有映射关系,而完成每个手语动作都会需要一定的时间,因此,时长信息可以根据该映射关系得到。
具体的,可以参阅图4,图4是本发明得到文本特征和文本时长特征的流程示意图。
如图4所示,得到文本特征和文本时长特征过程可以包括:
步骤401、根据所述文字发音信息和词语信息,确定所述词语信息中每个词语的时长特征;
步骤402、根据每个词语的所述时长特征确定所述文本信息的文本时长特征。
以“我正在书房写一篇作文”为例,词语信息为“我”、“正在”、“书房”、“写”、“一篇”、“作文”,那么针对该词语信息,会从预先设置的映射关系中找到各个词语对应的手语动作耗费的时长,即每个词语的时长特征,比如是“时长1”、“时长2”、“时长3”、“时长4”、“时长5”、“时长6”,将上述时长按照顺序进行组合,得到文本时长序列{“时长1”,“时长2”,“时长3”,“时长4”,“时长5”,“时长6”}。需要说明的是,此处的顺序指的是每个词语在文本信息中的语序。
步骤403、根据所述词语信息,确定所述词语信息中每个词语的词语特征。
步骤404、根据每个词语的所述词语特征确定所述文本信息的文本特征。
在步骤403中,会根据词语信息确定其中的每个词的词语特征,一般对词语的特征的确定方式并不局限于一种,可以是基于需求选取一种特征提取的方式,进而将词语信息中的每个词语的词语热特征提取出来。
仍以“我正在书房写一篇作文”为例,词语信息为“我”、“正在”、“书房”、“写”、“一篇”、“作文”,那么针对该词语信息,每个词语的词语特征便对应为“特征1”、“特征2”、“特征3”、“特征4”、“特征5”、“特征6”,然后,根据得到的词语特征,组合成文本信息的文本特征{“特征1”,“特征2”,“特征3”,“特征4”,“特征5”,“特征6”}。
基于步骤401~404,便可以得到文本信息的文本特征,以及每个词语转化为手语动作后,手语动作耗时的时长特征,即文本时长特征。基于这两种特征(文本特征好文本时长特征),第一模型便可以确定出每个词语对应的动作关键点。也就是将文本时长特征和文本特征输入到第一模型中后,得到每个词语的动作关键点,进而根据每个词语的动作关键点得到文本信息的手语动作关键点序列。
需要说明的是,本实施例中,手语动作关键点序列具体可以分为面部动作关键点序列和手部动作关键点序列。其中,面部动作关键点序列的生成依据是文本信息中的情绪信息,因此,在确定文本特征时,可以选用能够关注文本信息中包含的情绪的特征提取算法,而在第一模型的训练过程中,同样会训练出文本特征与面部动作关键点序列之间的映射,因此,本实施例中第一模型可以基于文本特征同时得到面部动作关键点序列和手部动作关键点序列。
对于语音信息,则可以参阅图5,图5是本发明利用语音信息得到手语动作关键点序列的流程示意图。
如图5所示,利用语音信息得到手语动作关键点序列的过程可以包括:
步骤501、从所述语音信息中提取长时韵律和短时信息;
步骤502、根据所述长时韵律和所述短时信息确定所述语音信息的长短时特征。
由于语音信息与文本信息中所包含的内容不同,因此,得到语音信息的长短时特征的过程与得到文本信息的文本特征和文本时长特征的过程不尽相同。首先,先提取语音信息中的长时韵律和短时信息,其中,长时韵律中包含的信息可以有停顿信息,而短时信息中包含的则可以是语音信息中的频域信息、幅值信息等。
步骤503、将所述长短时特征输入到预先训练的第一模型中,得到手语动作关键点序列。
需要说明的是,由于语音信息和文本信息得到的特征是不同的,因此,第一模型中,对语音信息的特征和文本信息的特征进行处理的网络,也是不同,具体的,在第一模型中可以设置有文本信息网络和语音信息网络,对于文本信息的特征,则由文本信息网络进行处理,从而得到手语动作关键点序列,而对于语音信息的特征,则由语音信息网络进行处理,得到对应的手语动作关键点序列。
当然,由于待译信息可能不止有文本信息和语音信息这两种类型,因此,第一模型中可以对应不同类型的信息的网络。
另外,请参阅图6,图6是本发明提供的一种手语动作视频生成装置的结构示意图。
如图6所示,手语动作视频生成装置可以包括:
获取分析模块601,用于获取待译信息,并根据预设分析方式对所述待译信息进行分析,得到所述待译信息的特征;
第一处理模块602,用于将所述特征输入到预先训练的第一模型中,得到手语动作关键点序列;
第二处理模块603,用于将所述手语动作关键点序列输入到预先训练的第二模型中,得到所述手语动作视频。
获取分析模块在获取到待译信息,并分析得到其特征后,第一处理模块将得到的特征输入到预先训练的第一模型中,得到手语动作关键点序列,然后第二处理模块再将手语动作关键点序列输入到预先训练的第二模型中,得到手语动作视频。其中,由于第一模型会根据待译信息的特征得到手语动作关键点序列,而手语动作关键点序列表示的是待译信息对应的手语动作的一些动作关键点,然后第二模型根据这些动作的关键点得到的手语动作视频便可以考虑到不同关键点之间的过渡,从而保证手语动作视频中的每个手语动作之间过渡自然,更便于障碍人士的理解。
可选的,所述待译信息包括文本信息,所述特征包括文本特征和文本时长特征;
所述获取分析模块包括:
第一提取单元,用于提取所述文本信息中的文字发音信息;
分词单元,用于对所述文本信息进行分词,得到词语信息;
第二提取单元,用于基于所述文字发音信息和所述词语信息对所述文本信息进行特征提取,得到所述文本信息的所述文本特征和所述文本时长特征。
可选的,所述第二提取单元包括:
第一确定子单元,用于根据所述文字发音信息和词语信息,确定所述词语信息中每个词语的时长特征;
第二确定子单元,用于根据每个词语的所述时长特征确定所述文本信息的文本时长特征;
第三确定子单元,用于根据所述词语信息,确定所述词语信息中每个词语的词语特征;
第四确定子单元,用于根据每个词语的所述词语特征确定所述文本信息的文本特征。
可选的,所述第一处理模块包括:
第一输入单元,用于将所述文本时长特征和所述文本特征输入到预先训练的第一模型中,确定每个词语对应的动作关键点;
第一确定单元,用于根据每个词语的动作关键点确定手语动作关键点序列。
可选的,所述待译信息包括语音信息,所述特征包括长短时特征;
所述获取分析模块包括:
第三提取单元,用于从所述语音信息中提取长时韵律和短时信息;
第二确定单元,用于根据所述长时韵律和所述短时信息确定所述语音信息的长短时特征;
所述第一处理模块包括:
第二输入单元,用于将所述长短时特征输入到预先训练的第一模型中,得到手语动作关键点序列。
可选的,所述手语动作关键点序列包括面部动作关键点序列和手部动作关键点序列。
可选的,所述第二处理模块包括:
第一处理单元,用于将所述手语动作关键点序列输入到预先训练的第二模型中的生成对抗网络中,得到手语动作中间参数;
第二处理单元,用于将所述手语动作中间参数输入到所述第二模型中的光流预测网络中,得到所述手语动作视频。
请参阅图7,图7是本申请的另一实施例提供的一种手语动作视频生成设备的结构示意图。
如图7所示,本实施例提供的手语动作视频生成设备700包括:至少一个处理器701、存储器702、至少一个网络接口703和其他用户接口704。生产节点管理生产节点管理系统700中的各个组件通过总线系统705耦合在一起。可理解,总线系统705用于实现这些组件之间的连接通信。总线系统705除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统705。
其中,用户接口704可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器702可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器702存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统7021和第二应用程序7022。
其中,操作系统7021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。第二应用程序7022,包含各种第二应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在第二应用程序7022中。
在本发明实施例中,通过调用存储器702存储的程序或指令,具体的,可以是第二应用程序7022中存储的程序或指令,处理器701用于执行各方法实施例所提供的方法步骤,例如包括:
获取待译信息,并根据预设分析方式对所述待译信息进行分析,得到所述待译信息的特征;
将所述特征输入到预先训练的第一模型中,得到手语动作关键点序列;
将所述手语动作关键点序列输入到预先训练的第二模型中,得到所述手语动作视频。
可选的,所述待译信息包括文本信息,所述特征包括文本特征和文本时长特征;
所述根据预设分析方式对所述待译信息进行分析,得到所述待译信息的特征,包括:
提取所述文本信息中的文字发音信息;
对所述文本信息进行分词,得到词语信息;
基于所述文字发音信息和所述词语信息对所述文本信息进行特征提取,得到所述文本信息的所述文本特征和所述文本时长特征。
可选的,所述基于所述文字发音信息和所述词语信息对所述文本信息进行特征提取,得到所述文本信息的所述文本特征和所述文本时长特征,包括:
根据所述文字发音信息和词语信息,确定所述词语信息中每个词语的时长特征;
根据每个词语的所述时长特征确定所述文本信息的文本时长特征;
根据所述词语信息,确定所述词语信息中每个词语的词语特征;
根据每个词语的所述词语特征确定所述文本信息的文本特征。
可选的,所述将所述特征输入到预先训练的第一模型中,得到手语动作关键点序列,包括:
将所述文本时长特征和所述文本特征输入到预先训练的第一模型中,确定每个词语对应的动作关键点;
根据每个词语的动作关键点确定手语动作关键点序列。
可选的,所述待译信息包括语音信息,所述特征包括长短时特征;
所述根据预设分析方式对所述待译信息进行分析,得到所述待译信息的特征,包括:
从所述语音信息中提取长时韵律和短时信息;
根据所述长时韵律和所述短时信息确定所述语音信息的长短时特征;
所述将所述特征输入到预先训练的第一模型中,得到手语动作关键点序列,包括:
将所述长短时特征输入到预先训练的第一模型中,得到手语动作关键点序列。
可选的,所述手语动作关键点序列包括面部动作关键点序列和手部动作关键点序列。
可选的,所述将所述手语动作关键点序列输入到预先训练的第二模型中,得到所述手语动作视频,包括:
将所述手语动作关键点序列输入到预先训练的第二模型中的生成对抗网络中,得到手语动作中间参数;
将所述手语动作中间参数输入到所述第二模型中的光流预测网络中,得到所述手语动作视频。
上述本发明实施例揭示的方法可以应用于处理器701中,或者由处理器701实现。处理器701可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702,处理器701读取存储器702中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文功能的单元来实现本文的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
另外,本发明还提供了一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被所述手语动作视频生成设备执行,以实现所述手语动作视频生成方法。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种手语动作视频生成方法,其特征在于,包括:
获取待译信息,并根据预设分析方式对所述待译信息进行分析,得到所述待译信息的特征;
将所述特征输入到预先训练的第一模型中,得到手语动作关键点序列;
将所述手语动作关键点序列输入到预先训练的第二模型中,得到所述手语动作视频。
2.根据权利要求1所述的手语动作视频生成方法,其特征在于,所述待译信息包括文本信息,所述特征包括文本特征和文本时长特征;
所述根据预设分析方式对所述待译信息进行分析,得到所述待译信息的特征,包括:
提取所述文本信息中的文字发音信息;
对所述文本信息进行分词,得到词语信息;
基于所述文字发音信息和所述词语信息对所述文本信息进行特征提取,得到所述文本信息的所述文本特征和所述文本时长特征。
3.根据权利要求2所述的手语动作视频生成方法,其特征在于,所述基于所述文字发音信息和所述词语信息对所述文本信息进行特征提取,得到所述文本信息的所述文本特征和所述文本时长特征,包括:
根据所述文字发音信息和词语信息,确定所述词语信息中每个词语的时长特征;
根据每个词语的所述时长特征确定所述文本信息的文本时长特征;
根据所述词语信息,确定所述词语信息中每个词语的词语特征;
根据每个词语的所述词语特征确定所述文本信息的文本特征。
4.根据权利要求3所述的手语动作视频生成方法,其特征在于,所述将所述特征输入到预先训练的第一模型中,得到手语动作关键点序列,包括:
将所述文本时长特征和所述文本特征输入到预先训练的第一模型中,确定每个词语对应的动作关键点;
根据每个词语的动作关键点确定手语动作关键点序列。
5.根据权利要求1所述的手语动作视频生成方法,其特征在于,所述待译信息包括语音信息,所述特征包括长短时特征;
所述根据预设分析方式对所述待译信息进行分析,得到所述待译信息的特征,包括:
从所述语音信息中提取长时韵律和短时信息;
根据所述长时韵律和所述短时信息确定所述语音信息的长短时特征;
所述将所述特征输入到预先训练的第一模型中,得到手语动作关键点序列,包括:
将所述长短时特征输入到预先训练的第一模型中,得到手语动作关键点序列。
6.根据权利要求1~5任一项所述的手语动作视频生成方法,其特征在于,所述手语动作关键点序列包括面部动作关键点序列和手部动作关键点序列。
7.根据权利要求1~5任一项所述的手语动作视频生成方法,其特征在于,所述将所述手语动作关键点序列输入到预先训练的第二模型中,得到所述手语动作视频,包括:
将所述手语动作关键点序列输入到预先训练的第二模型中的生成对抗网络中,得到手语动作中间参数;
将所述手语动作中间参数输入到所述第二模型中的光流预测网络中,得到所述手语动作视频。
8.一种手语动作视频生成装置,其特征在于,包括:
获取分析模块,用于获取待译信息,并根据预设分析方式对所述待译信息进行分析,得到所述待译信息的特征;
第一处理模块,用于将所述特征输入到预先训练的第一模型中,得到手语动作关键点序列;
第二处理模块,用于将所述手语动作关键点序列输入到预先训练的第二模型中,得到所述手语动作视频。
9.一种手语动作视频生成设备,其特征在于,包括:至少一个处理器和存储器;
所述处理器用于执行所述存储器中存储的手语动作视频生成程序,以实现权利要求1-7任一项所述的手语动作视频生成方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被如权利要求9所述的手语动作视频生成设备执行,以实现权利要求1-7任一项所述的手语动作视频生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011396412.3A CN112329451B (zh) | 2020-12-03 | 2020-12-03 | 手语动作视频生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011396412.3A CN112329451B (zh) | 2020-12-03 | 2020-12-03 | 手语动作视频生成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112329451A true CN112329451A (zh) | 2021-02-05 |
CN112329451B CN112329451B (zh) | 2024-02-02 |
Family
ID=74301464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011396412.3A Active CN112329451B (zh) | 2020-12-03 | 2020-12-03 | 手语动作视频生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329451B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613495A (zh) * | 2021-03-05 | 2021-04-06 | 北京世纪好未来教育科技有限公司 | 真人视频生成方法、装置、可读存储介质及设备 |
CN113781876A (zh) * | 2021-08-05 | 2021-12-10 | 深兰科技(上海)有限公司 | 一种将文本转换为手语动作视频的转换方法和装置 |
CN115239855A (zh) * | 2022-06-23 | 2022-10-25 | 安徽福斯特信息技术有限公司 | 一种基于移动终端的虚拟手语主播生成方法、装置及系统 |
WO2023284435A1 (zh) * | 2021-07-14 | 2023-01-19 | 华为云计算技术有限公司 | 生成动画的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160033329A (ko) * | 2014-09-17 | 2016-03-28 | 순천향대학교 산학협력단 | 수화 번역 시스템 및 방법 |
CN109166409A (zh) * | 2018-10-10 | 2019-01-08 | 长沙千博信息技术有限公司 | 一种手语转换方法及装置 |
CN110457673A (zh) * | 2019-06-25 | 2019-11-15 | 北京奇艺世纪科技有限公司 | 一种自然语言转换为手语的方法及装置 |
CN110728191A (zh) * | 2019-09-16 | 2020-01-24 | 北京华捷艾米科技有限公司 | 手语翻译方法、基于mr的手语-语音交互方法及系统 |
-
2020
- 2020-12-03 CN CN202011396412.3A patent/CN112329451B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160033329A (ko) * | 2014-09-17 | 2016-03-28 | 순천향대학교 산학협력단 | 수화 번역 시스템 및 방법 |
CN109166409A (zh) * | 2018-10-10 | 2019-01-08 | 长沙千博信息技术有限公司 | 一种手语转换方法及装置 |
CN110457673A (zh) * | 2019-06-25 | 2019-11-15 | 北京奇艺世纪科技有限公司 | 一种自然语言转换为手语的方法及装置 |
CN110728191A (zh) * | 2019-09-16 | 2020-01-24 | 北京华捷艾米科技有限公司 | 手语翻译方法、基于mr的手语-语音交互方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613495A (zh) * | 2021-03-05 | 2021-04-06 | 北京世纪好未来教育科技有限公司 | 真人视频生成方法、装置、可读存储介质及设备 |
CN112613495B (zh) * | 2021-03-05 | 2021-06-01 | 北京世纪好未来教育科技有限公司 | 真人视频生成方法、装置、可读存储介质及设备 |
WO2023284435A1 (zh) * | 2021-07-14 | 2023-01-19 | 华为云计算技术有限公司 | 生成动画的方法及装置 |
CN113781876A (zh) * | 2021-08-05 | 2021-12-10 | 深兰科技(上海)有限公司 | 一种将文本转换为手语动作视频的转换方法和装置 |
CN113781876B (zh) * | 2021-08-05 | 2023-08-29 | 深兰科技(上海)有限公司 | 一种将文本转换为手语动作视频的转换方法和装置 |
CN115239855A (zh) * | 2022-06-23 | 2022-10-25 | 安徽福斯特信息技术有限公司 | 一种基于移动终端的虚拟手语主播生成方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112329451B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
CN106653052B (zh) | 虚拟人脸动画的生成方法及装置 | |
CN112329451A (zh) | 手语动作视频生成方法、装置、设备及存储介质 | |
WO2021072875A1 (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN114401438B (zh) | 虚拟数字人的视频生成方法及装置、存储介质、终端 | |
US20030163311A1 (en) | Intelligent social agents | |
Johar | Emotion, affect and personality in speech: The Bias of language and paralanguage | |
CN111615696A (zh) | 用于相关性检测和审阅的内容的交互式表示 | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
Moore et al. | Word-level emotion recognition using high-level features | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
US20230082830A1 (en) | Method and apparatus for driving digital human, and electronic device | |
CN112365879A (zh) | 语音合成方法、装置、电子设备和存储介质 | |
WO2024088321A1 (zh) | 虚拟形象面部驱动方法、装置、电子设备及介质 | |
Yunus et al. | Sequence-to-sequence predictive model: From prosody to communicative gestures | |
CN112735371A (zh) | 一种基于文本信息生成说话人视频的方法及装置 | |
Fellbaum et al. | Principles of electronic speech processing with applications for people with disabilities | |
CN116414959A (zh) | 数字人的互动控制方法、装置、电子设备和存储介质 | |
US11176943B2 (en) | Voice recognition device, voice recognition method, and computer program product | |
López-Ludeña et al. | LSESpeak: A spoken language generator for Deaf people | |
JP2002244842A (ja) | 音声通訳システム及び音声通訳プログラム | |
San-Segundo et al. | Proposing a speech to gesture translation architecture for Spanish deaf people | |
CN112785667A (zh) | 视频生成方法、装置、介质及电子设备 | |
Dhake et al. | Sign language communication with dumb and deaf people | |
KR20210073856A (ko) | 휴대용 수화 번역기 및 수화 번역 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |