CN115239855A - 一种基于移动终端的虚拟手语主播生成方法、装置及系统 - Google Patents
一种基于移动终端的虚拟手语主播生成方法、装置及系统 Download PDFInfo
- Publication number
- CN115239855A CN115239855A CN202210725067.6A CN202210725067A CN115239855A CN 115239855 A CN115239855 A CN 115239855A CN 202210725067 A CN202210725067 A CN 202210725067A CN 115239855 A CN115239855 A CN 115239855A
- Authority
- CN
- China
- Prior art keywords
- sign language
- virtual
- anchor
- data
- mobile terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及虚拟主播技术领域,解决了现有技术中智能手语应用领域单一且应用成本高的技术问题,尤其涉及一种基于移动终端的虚拟手语主播生成方法,包括以下步骤:获取数据采集模块所采集的素材数据;对所述素材数据进行预处理分析,获取对应的手语动作参数;根据所述手语动作参数驱动虚拟人模型运动,生成对应的手语动画数据;将所述手语动画数据同步叠加到所述素材数据中,获得包含虚拟手语主播的视频数据;发送包含所述虚拟手语主播的视频数据。本发明通过对虚拟人模型进行简化并采用服务器/移动终端架构,克服了移动终端存储能力不足的缺点,适用于目前移动终端APP发展的特性,从而实现了虚拟手语主播应用的多元化及应用场景多维度。
Description
技术领域
本发明涉及虚拟主播技术领域,尤其涉及一种基于移动终端的虚拟手语主播生成方法、装置及系统。
背景技术
为了让聋哑人获取更多的社会信息,在新闻类等电视广播中,通过结合视音频采集、语音采集、虚拟人建模和中文分词算法等技术,实现了智能手语制作。
但是,市面上现有技术中的智能手语仅在重要场合,导致应用领域单一,使得聋哑人无法获取更多的社会资讯,从而不便于聋哑人更好的融入现代化信息社会;另外,现有技术中的智能手语通常需要经过大量训练以及基础设施建设,才能完成制作,增加了应用成本,致使应用成本高,不便于实现智能手语应用的多元化及应用场景多维度。为此,在信息爆炸的现代社会中,如何借助移动终端来改善提高聋哑残疾人士间交流及获取资讯成为了当前亟待解决的问题。
发明内容
针对现有技术的不足,本发明提供了一种基于移动终端的虚拟手语主播生成方法、装置及系统,解决了现有技术中智能手语应用领域单一且应用成本高的技术问题,达到了虚拟手语主播应用的多元化及应用场景的多维度,从而实现了聋哑残疾人士获取更多资讯的目的。
为解决上述技术问题,本发明提供了如下技术方案:一种基于移动终端的虚拟手语主播生成方法,包括以下步骤:
获取数据采集模块所采集的素材数据;
对所述素材数据进行预处理分析,获取对应的手语动作参数;
根据所述手语动作参数驱动虚拟人模型中虚拟手语主播的手语动作,生成对应的手语动画数据;
将所述手语动画数据同步叠加到所述素材数据中,获得包含虚拟手语主播的视频数据;
发送包含所述虚拟手语主播的视频数据。
进一步地,根据所述手语动作参数驱动虚拟人模型虚拟手语主播的手语动作,生成对应的手语动画数据,包括:
根据所述手语动作参数确定虚拟手语主播的手语帧序列,并确定两个手语帧之间的帧向量;
根据所述帧向量对手语帧序列进行连接,驱动虚拟手语主播执行相应的手语动作;
按照顺序对所述虚拟手语主播的手语动作进行播放,获得对应的手语动画数据。
进一步地,该方法还包括构建虚拟人模型,包括以下步骤:
根据H-Anim标准构建人体模型;
根据逆Loop细分算法和视向因子对人体模型进行简化以获得虚拟人模型。
进一步地,所述根据逆Loop细分算法和视向因子对所述虚拟人体模型进行简化,包括:
根据质心偏移距离和视向因子标记特征点;
选取顶点度数相同的三角形为基础,以边扩展方式动态获取正则区域;
根据逆Loop细分算法对所述正则区域内部进行简化;
根据向内分割方式对所述正则区域边缘进行拼接,获得简化模型。
进一步地,所述发送包含所述虚拟手语主播的视频数据,包括:
将包含所述虚拟手语主播的视频数据分成多个传输包;
根据网络带宽分层次依次进行渐进传输。
进一步地,根据所述手语动作参数驱动虚拟人模型中虚拟手语主播的手语动作,生成对应的手语动画数据,还包括:
根据所述帧间变化向量对手语帧序列进行筛选,获得虚拟手语主播的关键帧序列;
根据所述关键帧之间的帧间变化向量对关键帧序列进行连接,驱动虚拟手语主播执行相应的手语动作;
按照顺序对所述虚拟手语主播的手语动作进行播放,获得对应的手语动画数据。
进一步地,所述对所述素材数据进行预处理分析,获取对应的手语动作参数,包括:
判断所述素材数据是否为文本数据,如果所述素材数据不是文本数据,则根据语音识别算法获取语音数据并将所述语音数据转换为文本数据;如果所述素材数据是文本数据,则执行下一步;
根据分词算法对所述文本数据进行分词操作,获得文本单词;
根据预设的手语动作词库,获取对应所述文本单词的手语动作参数。
还提供了一种技术方案:一种基于移动终端的虚拟手语主播生成装置,包括:
数据获取模块,所述数据获取模块用于获取数据采集模块所采集的素材数据;
数据预处理模块,所述数据预处理模块用于对所述素材数据进行预处理分析,获取对应的手语动作参数;
手语动画数据生成模块,所述手语动画数据生成模块用于根据所述手语动作参数驱动虚拟人模型中虚拟手语主播的手语动作,生成对应的手语动画数据;
手语视频合成模块,所述手语视频合成模块用于将所述手语动画数据同步叠加到所述素材数据中,获得包含所述虚拟手语主播的视频数据;
手语视频发送模块,所述手语视频发送模块用于发送包含所述虚拟手语主播的视频数据
进一步地,虚拟人模型构建模块,所述虚拟人模型构建模块用于根据 H-Anim标准构建人体模型,并根据逆Loop细分算法和视向因子对所述人体模型进行简化以获得虚拟人模型。
还提供了一种技术方案:一种基于移动终端的虚拟手语主播生成方法的系统,包括云服务器、物理服务器和移动终端;
所述云服务器用于存储虚拟人模型和手语动作词库,并向物理服务器发送与素材数据对应的手语动画数据;
所述物理服务器与云服务器建立通信连接,且物理服务器用于将手语动画数据同步叠加到素材数据中以获得包含虚拟手语主播的视频数据,并将包含虚拟手语主播的视频数据发送到移动终端;
所述移动终端与物理服务器建立通信连接,且移动终端用于显示播放包含虚拟手语主播的视频数据。
借由上述技术方案,本发明提供了一种基于移动终端的虚拟手语主播生成方法、装置及系统,至少具备以下有益效果:
1、本发明通过根据素材数据生成对应的手语动画数据,并将手语动画数据和素材数据进行叠加生成包含虚拟手语主播的视频数据,再将包含虚拟手语主播的视频数据一键发布到移动终端设备的多个播放平台上进行播放,适用于目前移动终端APP发展的特性,更重要的是便于聋哑残疾人士无障碍获取资讯,能够使他们更好的融入现代信息社会,更大程度上保障了聋哑残疾人士的生活质量,具有较高的社会价值和应用前景。
2、本发明通过根据逆Loop细分算法和视向因子对人体模型进行简化获得虚拟人模型,并将虚拟人模型和手语动作词库存储在云服务器,从而便于在服务器上对虚拟手语主播进行渲染,生成手语动画数据,同时充分利用移动互联网资源,可弥补移动终端设备存储能力不足的缺点,便于不同用户进行访问,降低了虚拟手语主播在日常生活及生产中的应用成本,从而实现了虚拟手语主播应用的多元化及应用场景多维度。
3、本发明通过对虚拟人模型进行简化并将虚拟人模型和手语动作词库存储在云服务器中,同时通过筛选虚拟手语主播图像序列的关键帧,大大减小了占用空间,克服了移动终端存储能力不足的缺点,并且通过一键发布至移动终端设备的多个APP,从而适用于目前移动终端APP发展的特性,进而实现了虚拟手语主播应用的多元化及应用场景多维度,具有较高的社会价值和应用前景。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例一提供的基于移动终端的虚拟手语主播生成方法的流程图;
图2为本发明实施例一提供的基于移动终端的虚拟手语主播生成装置的原理框图;
图3为本发明提供的基于移动终端的虚拟手语主播生成方法中构建虚拟人模型的流程图;
图4为本发明提供的基于移动终端的虚拟手语主播生成方法中虚拟人模型进行简化的流程图;
图5为本发明实施例二提供的基于移动终端的虚拟手语主播生成方法的流程图;
图6为本发明实施例二提供的基于移动终端的虚拟手语主播生成装置的原理图;
图7为本发明实施例三提供的基于移动终端的虚拟手语主播生成系统的原理框图;
图8为本发明实施例三提供的基于移动终端的虚拟手语主播生成系统交互的流程图。
图中:110、数据获取模块;120、数据预处理模块;130、手语动画数据生成模块;140、手语视频合成模块;150、手语视频发送模块;160、虚拟人模型构建模块;100、云服务器;200、物理服务器;300、移动终端。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在本申请实施例中,虚拟手语主播最终呈现的图像可以是半身图像、全身图像、头部图像等,并且虚拟手语主播的姿态可以是坐姿、站姿等,对此本发明实施例均不做限定。
实施例一
请参照图1-图4,示出了根据本发明实施例一的一种基于移动终端的虚拟手语主播生成方法,如图1所示,包括以下步骤:
S10、构建虚拟人模型,如图3所示,具体包括以下步骤:
S101、根据H-Anim标准构建能够真实反应人体运动的人体模型。
标准的人体模型由骨骼、肌肉和皮肤组成,而人体的运动姿态是由骨骼确定,骨骼包括若干关节和关节点,相邻两个关节之间由关节点连接;具体的,完整人体模型包括1个重心、47个骨骼段和77个关节,可采用几何模型表示方法定义每个骨骼段的几何模型,每个骨骼段的位置都在其所在的关节坐标系中定义,而每个几何模型又依附于相应的骨骼段,上述这些元素结合在一起便构成一个完成的虚拟人体模型。
S102、根据逆Loop细分算法和视向因子对虚拟人体模型进行简化,如图 4所示。
手语表达的核心在于上肢及唇部运动,身体躯干及面部表情对手语表达只是起到辅助作用,因此,本实施例中忽略了身体躯干以及面部表情的变化,并对身体躯干部分做了简化。
S1021、根据质心偏移距离和视向因子标记特征点。
特征点一般位于人体模型表面发生明显变化的地方,对应的局部曲率较大,可根据质心偏移距离进行特征点检测,在本实施例中,除了考虑质心偏移距离因素以外,还加入了视向因子;设当前顶点为p,当前顶点的邻接点为 qj,则边pqj和以p为顶点的垂线之间的锐夹角为θj,那么含有视向因子的质心偏移距离表达式为:
其中,m指顶点的邻接点个数,即顶点的度,norm指模长。
含有视向因子的质心偏移距离D的大小体现了顶点的局部平均曲率,因此,通过计算含有视向因子的质心偏移距离,可以方便的快速检测出人体模型表面变化明显的特征点,还提高了特征点检测精度,避免在人体模型简化过程中损失过多的原始特征。
S1022、选取顶点度数相同的三角形为基础,以边扩展方式动态获取正则区域。
具体的,先将顶点度数相同的三角形的三个顶点放入队列当中,再通过共享边扩展上述三角形,扩展后的偶点将会再次放入队列,随后从队列头部取出一个顶点,若该顶点的度和上述三角形顶点的度相同,则由该顶点定位一个已扩展区域无邻接边但共享该顶点的三角形作为新的奇点三角形,再次扩展逆Loop细分单元,如果扩展过程中遇到费正则点或特征点,则回退并跳过当前扩展点,取出队列中下一个点继续执行,直至队列为空,即完成一次扩展。在实际操作过程中,重复选取顶点度数相同的三角形为基础进行扩展获取正则区域,直至搜寻完所有可逆细分区域,并标记边缘奇点。
在本实施例中,选择三个顶点度数均为八的三角形为基础,以边扩展方式动态获取正则区域,直至搜寻完人体模型的身体躯干部分所有可逆细分区域,并标记边缘奇点。
S1023、根据逆Loop细分算法对上述正则区域内部进行简化。
对人体模型的身体躯干部分扩展众多正则区域后,所有的奇点和特征点皆被保留,从而保留了原始身体躯干的绝大部分特征,再采用插值型逆Loop 细分算法删除每个正则区域内部的奇点,保留偶点,并更新人体模型的身体躯干部分的拓扑结构,可实现正则区域内部的简化。
S1024、根据向内分割方式对上述正则区域边缘进行拼接,获得简化模型。
由于对正则区域内部进行简化后,不同正则区域的边缘形态是极其不规则的,为此,本实施例通过采用向内分割方式对上述不同正则区域边缘进行拼接。至此完成一轮完整的简化过程,可通过改变相关参数反复进行简化,直至人体模型满足相应移动终端设备的要求为止。
在本实施例中,经过简化后的虚拟人模型便于在服务器上进行渲染并生成手语动画数据,且运行速度快,更易于在实际中应用。
S11、获取数据采集模块所采集的素材数据。
通过数据采集模块采集需要进行手语翻译的素材数据,如文本文件、音视频数据或者直播流等数据,以便聋哑残疾人士能够看到与素材数据相匹配的手语,从而便于聋哑残疾人士获取资讯。其中,数据采集模块包括摄像头、直播流接收组件、麦克风和音频采集组件,也可通过数据采集模块中的接收组件接收直播流数据。
在本实施例中,通过数据采集模块中的音频采集组件采集avi格式的歌曲视频作为素材数据。
S12、对素材数据进行预处理分析,获取对应的手语动作参数。
具体的,如果素材数据是音视频数据,则根据语音识别算法获取语音数据,并将语音数据转换为文本数据,然后根据分词算法对文本数据进行分词操作,获得相应的文本单词,最后根据预先设置的手语动作词库,获取对应文本单词的手语动作参数;如果素材数据是文本文件,则直接根据分词算法进行分词操作,获得相应的文本单词,再根据预先设置的手语动作词库,获取对应文本单词的手语动作参数。在本实施例中,手语动作参数包括上肢动作参数和唇语动作参数。
在本实施例中,先根据语音识别算法获取语音数据并将语音数据转换为文本数据,再根据分词算法对文本数据进行分词操作,获得相应的文本单词,最后根据预设设置的手语动作词库,获取对应文本单词的手语动作参数;其中,分词就是将连续的字序列按照一定的规范切分成词序列的过程;现有技术中的分词算法很多,本实施例采用正向最大匹配分词算法进行分词,不仅分词速度快且精度高。例如,对歌词“你笑起来真好看”进行分词操作,获得的文本单词依次为“你/笑起来/真好看”。
需要说明的是,预先设置的手语动作词库是中科院计算所借助运动捕获设备记录真实人体演示每个手语词的运动数据建立一个初始的手语词库,再对每个手语词运动数据编辑与微调,得到一个标准中国手语动作词库。该手语动作词库中包括与文本单词相对应的手语动作参数和属性信息,其中,手语动作参数包括上肢动作参数和唇语动作参数,属性信息为手语动作的属性信息,例如设置手语动作的标签,从而针对相应的文本单词可基于标签查找动作,实现动作的快速匹配。
S13、根据手语动作参数驱动虚拟人模型中虚拟手语主播的手语动作,生成对应的手语动画数据。
具体的,根据手语动作参数确定虚拟手语主播的手语帧序列,并确定两个手语帧之间的帧间变化向量;根据帧间变化向量对手语帧序列进行连接,驱动虚拟手语主播执行相应的手语动作;按照顺序对虚拟手语主播的手语动作进行播放,获得对应的手语动画数据。其中,手语动作执行是一个运动变化的过程,因此手语动作的属性信息可包括运动变化的细节参数,如骨骼驱动的运动范围、时间范围等参数,并且一个动作可在另一个动作之后执行,因此还可基于前一个动作的位置调整输入,实现动作的连续执行。
S14、将手语动画数据同步叠加到素材数据中,获得包含虚拟手语主播的视频数据。
通过设置手语动画数据播放的帧率使其与素材数据的播放时长相同,便于通过采用视频叠加技术,对手语动画数据和素材数据进行同步叠加使其合成一路包含有虚拟手语主播的视频数据进行输出显示。
需要说明的是,实现视频叠加的方法有很多种,常见的有根据像素的亮度值、Alpha值和RGB值等,在本实施例中,采用根据像素的Alpha值方法实现手语动画数据和素材数据的同步叠加,最终在移动终端设备上以“画中画”的方式显示。通过采用根据像素的Alpha值方法进行叠加,具有精度高、延时低、功耗小以及配置灵活等优点,能够满足不同配置的移动终端设备的需求,扩大了适应范围。
S15、发送包含虚拟手语主播的视频数据。
由于包含虚拟手语主播的视频数据比较大,加上移动终端设备在图形处理能力上的不足,可将包含虚拟手语主播的视频数据分成多个传输包,并根据网络带宽分层次依次进行渐进传输,渐进传输的格式是:
(M0)→(M0,e0)→(M0,e0,e1)→…→(M0,e0,e1,…,ek-2,ek-1)
其中,M0指待发送的基层数据,e0,e1,…,ek-2,ek-1指误差信息。
在本实施例中,通过采用划分传输包并渐进传输的方式,大大提高了传输效率,更能满足移动终端的实际需求,而且在移动终端播放时,可根据实际情况采用插值运算方法对手语动画进行重建,实现虚拟手语主播手语动作的完整性和平滑性。
如图2所示,一种基于移动终端的虚拟手语主播生成装置,包括:
数据获取模块110,数据获取模块110用于获取数据采集模块所采集的素材数据;
数据预处理模块120,数据预处理模块120用于对素材数据进行预处理分析,获取对应的手语动作参数;
手语动画数据生成模块130,手语动画数据生成模块130用于根据所述手语动作参数驱动虚拟人模型中虚拟手语主播的手语动作,生成对应的手语动画数据;在本实施例中,手语动画数据生成模块130包括:手语帧序列获取单元、手语帧连接单元和手语动作播放单元。
手语视频合成模块140,手语视频合成模块140用于将所述手语动画数据同步叠加到所述素材数据中,获得包含所述虚拟手语主播的视频数据;
手语视频发送模块150,手语视频发送模块150用于发送包含所述虚拟手语主播的视频数据
该装置还包括:虚拟人模型构建模块160,虚拟人模型构建模块160用于根据H-Anim标准构建人体模型,并根据逆Loop细分算法和视向因子对所述人体模型进行简化以获得虚拟人模型。
通过本实施例,根据逆Loop细分算法和视向因子对人体模型进行简化获得虚拟人模型,再根据素材数据生成对应的手语动画数据,并将手语动画数据和素材数据进行叠加生成包含虚拟手语主播的视频数据,再将包含虚拟手语主播的视频数据一键发布到移动终端设备的多个播放平台上进行播放,适用于目前移动终端APP发展的特性,而且简化后的虚拟人模型便于在移动终端设备上快速播放,从而便于聋哑残疾人士无障碍获取资讯,能够使他们更好的融入现代信息社会,更大程度上保障了聋哑残疾人士的生活质量,具有较高的社会价值和应用前景。
实施例二
请参照图3-图6,示出了根据本发明实施例二的一种基于移动终端的虚拟手语主播生成方法,该方法的步骤S20~S22、S24、S25分别与步骤S10~ S12、S14、S15相同,区别仅在于步骤S23,该方法的步骤流程如图5所示,步骤S23包括:根据手语动作参数驱动虚拟人模型中虚拟手语主播的手语动作并筛选关键帧,生成对应的手语动画数据,具体包括以下步骤:
1)根据手语动作参数确定虚拟手语主播的手语帧序列,并确定两个手语帧之间的帧间变化向量。
手语动作是由一系列连续的手语帧组成,而相邻两帧之间的相对变化量称为帧间变化向量,设帧间变化向量为V,则第t帧和第t+1帧之间的帧间变化向量的具体表达式为:
2)根据帧间变化向量对手语帧序列进行筛选,获得虚拟手语主播的关键帧序列。
具体的,在手语表达过程中,起始帧和结束帧对手语表达及路径描述起到关键作用,为此筛选过程中需要保留;另外,相对静止的姿态对路径描述同样起到关键作用,所以在手语表达过程中也需要保留;除了上述两种手语帧数据外,需要计算其与相邻帧的权值变化,如果权值变化较大,则表明运动节点是手语表达过程中的一个拐点,对手语表达起到关键作用,则这种手语帧需要保留。
在本实施例中,每一个手语帧和其相邻两个手语帧之间的权值记为ω,且其计算公式如下所示:
ωt=V(t-1,t)+V(t,t+1)
通过计算得出每一个手语帧和其相邻两个手语帧之间的权值,权值较高的帧对手语表达起到关键作用,需要作为关键帧保留。
3)根据关键帧之间的帧间变化向量对关键帧序列进行连接,驱动虚拟手语主播执行相应的手语动作。
具体的,手语动作执行是一个运动变化的过程,因此根据关键帧之间的帧间变化向量对关键帧序列进行连接,驱动虚拟手语主播执行相应的手语动作,并且一个动作可在另一个动作之后执行,因此还可基于前一个动作的位置调整输入,实现动作的连续执行。
4)按照顺序对虚拟手语主播的手语动作序列依次进行播放,可获得对应的手语动画数据。
如图6所示,一种基于移动终端的虚拟手语主播生成装置,包括:
数据获取模块110,数据获取模块110用于获取数据采集模块所采集的素材数据;
数据预处理模块120,数据预处理模块120用于对素材数据进行预处理分析,获取对应的手语动作参数;
手语动画数据生成模块130,手语动画数据生成模块130用于根据所述手语动作参数驱动虚拟人模型中虚拟手语主播的手语动作,生成对应的手语动画数据;在本实施例中,手语动画数据生成模块130包括:手语帧序列获取单元、关键帧筛选单元、关键帧连接单元和手语动作播放单元。
手语视频合成模块140,手语视频合成模块140用于将所述手语动画数据同步叠加到所述素材数据中,获得包含所述虚拟手语主播的视频数据;
手语视频发送模块150,手语视频发送模块150用于发送包含所述虚拟手语主播的视频数据
该装置还包括:虚拟人模型构建模块160,虚拟人模型构建模块160用于根据H-Anim标准构建人体模型,并根据逆Loop细分算法和视向因子对所述人体模型进行简化以获得虚拟人模型。
本实施例,通过根据帧间变化向量计算每一个手语帧和其相邻两个手语帧之间的权值,根据权值的大小对手语动画数据进行筛选,实现了手语动画数据的优化和精简,便于快速发送至移动终端,而且在移动终端播放时,可根据实际情况采用插值运算方法对手语动画进行重建,实现虚拟手语主播手语动作的完整性和平滑性,增强了实用性。
实施例三
请参照图7和图8,示出了根据本发明实施例三的一种基于移动终端的虚拟手语主播生成系统,包括云服务器100、物理服务器200和移动终端300;
云服务器100用于存储虚拟人模型和手语动作词库,且云服务器100向物理服务器200发送与素材数据对应的手语动画数据;
物理服务器200与云服务器100建立通信连接,且物理服务器200用于将手语动画数据同步叠加到素材数据中以获得包含虚拟手语主播的视频数据,并将包含虚拟手语主播的视频数据发送到移动终端300;
移动终端300与物理服务器200建立通信连接,且移动终端300用于显示播放包含虚拟手语主播的视频数据。
如图7所示,本系统采用服务器/移动终端的架构模式,构成了分布式的网络环境,以服务器提供伺服服务,将虚拟人模型和手语动作词库存储在云服务器中,克服了移动终端计算和存储能力有限的缺陷,并且在移动网络的大环境下,当移动终端需要包含虚拟手语主播的视频数据时,可以借助网络向服务器端请求更多资源,利用云服务器将素材数据转换成手语动画并通过网络传输协议发送至物理服务器,再由物理服务器将素材数据和手语动画数据叠加合成包含虚拟手语主播的动画数据,并通过网络传输协议传输至移动终端多个APP,这种方式可大大提高传输效率、降低传输延时,从而便于在移动终端进行播放,满足移动终端的实际需求。需要说明的是,本实施例中的网络传输协议以TCP协议为基础,支持服务器与移动终端之间的数据传输。
如图8所示,在本实施例中,基于移动终端的虚拟手语主播生成系统的具体步骤为:
S1、获取数据采集模块所采集的素材数据;
S2、将采集的素材数据发送至云服务器;
S3、对素材数据进行预处理分析,获取对应的手语动作参数,其中预处理分析包括将素材数据转换为文本数据;根据分词算法对文本数据进行分词以获得相应的文本单词;根据预先设置的手语动作词库获取对应文本单词的手语动作参数;
S4、根据手语动作参数,通过虚拟人模型和手语动作词库将素材数据转换为手语动画数据;
S5、将手语动画数据发送至物理服务器;
S6、接收手语动画数据并将手语动画数据同步叠加到素材数据中,获得包含虚拟手语主播的视频数据;
S7、将包含虚拟手语主播的视频数据分成多个传输包;
S8、采用渐进传输方式发送传输包至移动终端。
本实施例,通过采用服务器/移动终端的架构模式,克服了移动终端存储能力不足的缺点,且适用于目前移动终端APP发展的特性,从而实现了虚拟手语主播应用的多元化及应用场景多维度,便于聋哑残疾人士无障碍获取资讯,能够使他们更好的融入现代信息社会,更大程度上保障了聋哑残疾人士的生活质量。
本实施例的基于移动终端的虚拟手语主播生成系统用于实现前述多个方法实施例中相应的基于移动终端的虚拟手语主播生成方法,并具有相应的方法实施例的有益效果,在此不再赘述。
本发明通过对虚拟人模型进行简化并将虚拟人模型和手语动作词库存储在云服务器中,同时通过筛选虚拟手语主播图像序列的关键帧,大大减小了占用空间,克服了移动终端存储能力不足的缺点,更加适合移动终端的应用,并且通过一键发布至移动终端设备的多个APP,从而适用于目前移动终端APP 发展的特性,进而实现了虚拟手语主播应用的多元化及应用场景多维度,具有较高的社会价值和应用前景。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于以上各实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上实施方式对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于移动终端的虚拟手语主播生成方法,其特征在于,包括以下步骤:
获取数据采集模块所采集的素材数据;
对所述素材数据进行预处理分析,获取对应的手语动作参数;
根据所述手语动作参数驱动虚拟人模型中虚拟手语主播的手语动作,生成对应的手语动画数据;
将所述手语动画数据同步叠加到所述素材数据中,获得包含虚拟手语主播的视频数据;
发送包含所述虚拟手语主播的视频数据。
2.根据权利要求1所述的一种基于移动终端的虚拟手语主播生成方法,其特征在于,根据所述手语动作参数驱动虚拟人模型中虚拟手语主播的手语动作,生成对应的手语动画数据,包括:
根据所述手语动作参数确定虚拟手语主播的手语帧序列,并确定两个手语帧之间的帧间变化向量;
根据所述帧间变化向量对手语帧序列进行连接,驱动虚拟手语主播执行相应的手语动作;
按照顺序对所述虚拟手语主播的手语动作进行播放,获得对应的手语动画数据。
3.根据权利要求1或2所述的一种基于移动终端的虚拟手语主播生成方法,其特征在于,该方法还包括构建虚拟人模型,包括以下步骤:
根据H-Anim标准构建人体模型;
根据逆Loop细分算法和视向因子对人体模型进行简化以获得虚拟人模型。
4.根据权利要求3所述的一种基于移动终端的虚拟手语主播生成方法,其特征在于,所述根据逆Loop细分算法和视向因子对所述虚拟人体模型进行简化,包括:
根据质心偏移距离和视向因子标记特征点;
选取顶点度数相同的三角形为基础,以边扩展方式动态获取正则区域;
根据逆Loop细分算法对所述正则区域内部进行简化;
根据向内分割方式对所述正则区域边缘进行拼接,获得简化模型。
5.根据权利要求1所述的一种基于移动终端的虚拟手语主播生成方法,其特征在于,所述发送包含所述虚拟手语主播的视频数据,包括:
将包含所述虚拟手语主播的视频数据分成多个传输包;
根据网络带宽分层次依次进行渐进传输。
6.根据权利要求2所述的一种基于移动终端的虚拟手语主播生成方法,其特征在于,根据所述手语动作参数驱动虚拟人模型中虚拟手语主播的手语动作,生成对应的手语动画数据,还包括:
根据所述帧间变化向量对手语帧序列进行筛选,获得虚拟手语主播的关键帧序列;
根据所述关键帧之间的帧间变化向量对关键帧序列进行连接,驱动虚拟手语主播执行相应的手语动作;
按照顺序对所述虚拟手语主播的手语动作进行播放,获得对应的手语动画数据。
7.根据权利要求1所述的一种基于移动终端的虚拟手语主播生成方法,其特征在于,所述对所述素材数据进行预处理分析,获取对应的手语动作参数,包括:
判断所述素材数据是否为文本数据,如果所述素材数据不是文本数据,则根据语音识别算法获取语音数据并将所述语音数据转换为文本数据;如果所述素材数据是文本数据,则执行下一步;
根据分词算法对所述文本数据进行分词操作,获得文本单词;
根据预设的手语动作词库,获取对应所述文本单词的手语动作参数。
8.一种基于移动终端的虚拟手语主播生成装置,其特征在于,包括:
数据获取模块(110),所述数据获取模块(110)用于获取数据采集模块所采集的素材数据;
数据预处理模块(120),所述数据预处理模块(120)用于对所述素材数据进行预处理分析,获取对应的手语动作参数;
手语动画数据生成模块(130),所述手语动画数据生成模块(130)用于根据所述手语动作参数驱动虚拟人模型中虚拟手语主播的手语动作,生成对应的手语动画数据;
手语视频合成模块(140),所述手语视频合成模块(140)用于将所述手语动画数据同步叠加到所述素材数据中,获得包含所述虚拟手语主播的视频数据;
手语视频发送模块(150),所述手语视频发送模块(150)用于发送包含所述虚拟手语主播的视频数据。
9.根据权利要求8所述的一种基于移动终端的虚拟手语主播生成装置,其特征在于,还包括:
虚拟人模型构建模块(160),所述虚拟人模型构建模块(160)用于根据H-Anim标准构建人体模型,并根据逆Loop细分算法和视向因子对所述人体模型进行简化以获得虚拟人模型。
10.一种应用权利要求1-7任一项的基于移动终端的虚拟手语主播生成方法的系统,其特征在于,包括云服务器(100)、物理服务器(200)和移动终端(300);
所述云服务器(100)用于存储虚拟人模型和手语动作词库,并向物理服务器(200)发送与素材数据对应的手语动画数据;
所述物理服务器(200)与云服务器(100)建立通信连接,且物理服务器(200)用于将手语动画数据同步叠加到素材数据中以获得包含虚拟手语主播的视频数据,并将包含虚拟手语主播的视频数据发送到移动终端(300);
所述移动终端(300)与物理服务器(200)建立通信连接,且移动终端(300)用于显示播放包含虚拟手语主播的视频数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210725067.6A CN115239855B (zh) | 2022-06-23 | 2022-06-23 | 一种基于移动终端的虚拟手语主播生成方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210725067.6A CN115239855B (zh) | 2022-06-23 | 2022-06-23 | 一种基于移动终端的虚拟手语主播生成方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115239855A true CN115239855A (zh) | 2022-10-25 |
CN115239855B CN115239855B (zh) | 2023-05-30 |
Family
ID=83669099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210725067.6A Active CN115239855B (zh) | 2022-06-23 | 2022-06-23 | 一种基于移动终端的虚拟手语主播生成方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115239855B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805272A (zh) * | 2022-10-29 | 2023-09-26 | 武汉行已学教育咨询有限公司 | 一种可视化教育教学分析方法、系统及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1909675A (zh) * | 2006-06-15 | 2007-02-07 | 中山大学 | 一种应用于移动设备的三维图形传送系统 |
US20120050292A1 (en) * | 2010-08-26 | 2012-03-01 | Frank Edughom Ekpar | Method and apparatus for the representation of relationships between elements |
CN102497513A (zh) * | 2011-11-25 | 2012-06-13 | 中山大学 | 一种面向数字电视的视频虚拟人手语系统 |
CN106408620A (zh) * | 2016-09-08 | 2017-02-15 | 成都希盟泰克科技发展有限公司 | 基于压缩感知的三维网格模型数据处理方法 |
WO2017099156A1 (ja) * | 2015-12-11 | 2017-06-15 | 旭化成エレクトロニクス株式会社 | 磁気センサ |
CN111062277A (zh) * | 2019-12-03 | 2020-04-24 | 东华大学 | 基于单目视觉的手语-唇语转化方法 |
CN111413691A (zh) * | 2020-03-10 | 2020-07-14 | 杭州电子科技大学 | 一种采用分布式结构的语义定位和建图的方法 |
CN112329451A (zh) * | 2020-12-03 | 2021-02-05 | 云知声智能科技股份有限公司 | 手语动作视频生成方法、装置、设备及存储介质 |
CN113438300A (zh) * | 2021-06-22 | 2021-09-24 | 江苏科技大学 | 基于网络实现的听障人士与正常人士无障碍沟通在线交流系统及方法 |
CN113835522A (zh) * | 2021-09-10 | 2021-12-24 | 阿里巴巴达摩院(杭州)科技有限公司 | 手语视频生成、翻译、客服方法、设备和可读介质 |
CN114644315A (zh) * | 2022-03-11 | 2022-06-21 | 江阴市富仁高科股份有限公司 | 一种自动加油用油箱盖精确定位装置及方法 |
-
2022
- 2022-06-23 CN CN202210725067.6A patent/CN115239855B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1909675A (zh) * | 2006-06-15 | 2007-02-07 | 中山大学 | 一种应用于移动设备的三维图形传送系统 |
US20120050292A1 (en) * | 2010-08-26 | 2012-03-01 | Frank Edughom Ekpar | Method and apparatus for the representation of relationships between elements |
CN102497513A (zh) * | 2011-11-25 | 2012-06-13 | 中山大学 | 一种面向数字电视的视频虚拟人手语系统 |
WO2017099156A1 (ja) * | 2015-12-11 | 2017-06-15 | 旭化成エレクトロニクス株式会社 | 磁気センサ |
CN106408620A (zh) * | 2016-09-08 | 2017-02-15 | 成都希盟泰克科技发展有限公司 | 基于压缩感知的三维网格模型数据处理方法 |
CN111062277A (zh) * | 2019-12-03 | 2020-04-24 | 东华大学 | 基于单目视觉的手语-唇语转化方法 |
CN111413691A (zh) * | 2020-03-10 | 2020-07-14 | 杭州电子科技大学 | 一种采用分布式结构的语义定位和建图的方法 |
CN112329451A (zh) * | 2020-12-03 | 2021-02-05 | 云知声智能科技股份有限公司 | 手语动作视频生成方法、装置、设备及存储介质 |
CN113438300A (zh) * | 2021-06-22 | 2021-09-24 | 江苏科技大学 | 基于网络实现的听障人士与正常人士无障碍沟通在线交流系统及方法 |
CN113835522A (zh) * | 2021-09-10 | 2021-12-24 | 阿里巴巴达摩院(杭州)科技有限公司 | 手语视频生成、翻译、客服方法、设备和可读介质 |
CN114644315A (zh) * | 2022-03-11 | 2022-06-21 | 江阴市富仁高科股份有限公司 | 一种自动加油用油箱盖精确定位装置及方法 |
Non-Patent Citations (2)
Title |
---|
栾婉娜: "基于逆Loop细分的半正则网格简化算法", 《图学学报》 * |
钟晓霞: "一种基于视向的LOD自动生成方法", 《工程图学学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805272A (zh) * | 2022-10-29 | 2023-09-26 | 武汉行已学教育咨询有限公司 | 一种可视化教育教学分析方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115239855B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11151890B2 (en) | 5th-generation (5G) interactive distance dedicated teaching system based on holographic terminal and method for operating same | |
US10855936B2 (en) | Skeleton-based effects and background replacement | |
Doenges et al. | MPEG-4: Audio/video and synthetic graphics/audio for mixed media | |
JP2021193599A (ja) | 仮想オブジェクトのフィギュア合成方法、装置、電子機器、記憶媒体 | |
US11398059B2 (en) | Processing 3D video content | |
CN110557625A (zh) | 虚拟形象直播方法、终端、计算机设备及存储介质 | |
US11941748B2 (en) | Lightweight view dependent rendering system for mobile devices | |
US20130321410A1 (en) | Video generation using three-dimensional hulls | |
CN111540055A (zh) | 三维模型驱动方法、装置、电子设备及存储介质 | |
JP2023545050A (ja) | 仮想ビデオライブ放送処理方法及び装置、電子機器 | |
CN113313818A (zh) | 一种三维重建方法、装置及系统 | |
CN115239855B (zh) | 一种基于移动终端的虚拟手语主播生成方法、装置及系统 | |
CN112492231A (zh) | 远程交互方法、装置、电子设备和计算机可读存储介质 | |
US11736748B2 (en) | Reference of neural network model for adaptation of 2D video for streaming to heterogeneous client end-points | |
US20230106330A1 (en) | Method for creating a variable model of a face of a person | |
US11570227B2 (en) | Set up and distribution of immersive media to heterogenous client end-points | |
Eisert et al. | Volumetric video–acquisition, interaction, streaming and rendering | |
CN114998514A (zh) | 一种虚拟角色的生成方法及设备 | |
CN113706673A (zh) | 一种应用于虚拟增强现实技术的云渲染框架平台 | |
Fasogbon et al. | 3d human model creation on a serverless environment | |
US20240161335A1 (en) | Generating gesture reenactment video from video motion graphs using machine learning | |
KR102514580B1 (ko) | 영상 전환 방법, 장치 및 컴퓨터 프로그램 | |
US12003792B2 (en) | Adaptation of 2D video for streaming to heterogenous client end-points | |
US20240179203A1 (en) | Reference of neural network model by immersive media for adaptation of media for streaming to heterogenous client end-points | |
US20240022689A1 (en) | Generating a sound representation of a virtual environment from multiple sound sources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A method, device, and system for generating virtual sign language hosts based on mobile terminals Effective date of registration: 20230725 Granted publication date: 20230530 Pledgee: Hefei Binhu fountainhead financing Company limited by guarantee Pledgor: Anhui Foster Information Technology Co.,Ltd. Registration number: Y2023980049680 |