CN116959119A - 一种基于大语言模型的手语数字人驱动方法及系统 - Google Patents
一种基于大语言模型的手语数字人驱动方法及系统 Download PDFInfo
- Publication number
- CN116959119A CN116959119A CN202311170419.7A CN202311170419A CN116959119A CN 116959119 A CN116959119 A CN 116959119A CN 202311170419 A CN202311170419 A CN 202311170419A CN 116959119 A CN116959119 A CN 116959119A
- Authority
- CN
- China
- Prior art keywords
- trunk
- action data
- data
- sign language
- series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000009471 action Effects 0.000 claims abstract description 173
- 230000008921 facial expression Effects 0.000 claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000007704 transition Effects 0.000 claims abstract description 9
- 238000012163 sequencing technique Methods 0.000 claims abstract description 8
- 230000033001 locomotion Effects 0.000 claims description 56
- 238000004891 communication Methods 0.000 claims description 23
- 238000003780 insertion Methods 0.000 claims description 23
- 230000037431 insertion Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 13
- 238000009499 grossing Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 abstract description 22
- 230000003993 interaction Effects 0.000 abstract description 9
- 230000000875 corresponding effect Effects 0.000 description 30
- 210000000988 bone and bone Anatomy 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 208000016354 hearing loss disease Diseases 0.000 description 7
- 230000009191 jumping Effects 0.000 description 4
- 210000004709 eyebrow Anatomy 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000016621 Hearing disease Diseases 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明属于虚拟数字人技术领域,涉及一种基于大语言模型的手语数字人驱动方法及系统,所述驱动方法包括:1)、获取目标语言并将其转化成文本;2)、通过训练后的大语言模型对文本进行处理,以生成手语词序列;3)、根据手语词序列分别获取一系列躯干动作数据和一系列面部表情动作数据并将它们分别按顺序进行排序;4)、对任意两个相邻的躯干动作数据分别进行数据拟合插值,以平滑它们对应的躯干动作之间的过渡动作;5)、根据一系列面部表情动作数据以及数据拟合插值处理后的一系列躯干动作数据,驱动手语数字人运行。本发明大大提高了虚拟数字人的智能交互体验,实现了更加全面、生动、准确的智能交互和手语表达能力。
Description
技术领域
本发明属于虚拟数字人技术领域,涉及一种手语数字人驱动方法及系统,尤其涉及一种基于大语言模型的手语数字人驱动方法及系统。
背景技术
随着元宇宙的兴起,虚拟数字人技术受到了越来越多的关注,其背后更是涉及一系列先进的计算机技术,如计算机图形学、人工智能、虚拟现实和增强现实等。通过使用这些技术,虚拟数字人能够模拟人类的表情、动作和语音,与人类进行自然而流畅的互动,因此被广泛应用在直播、购物、客服等常见的场景中。
虽然虚拟数字人已经被广泛应用在了日常生活的场景中,但是虚拟手语数字人作为一种特殊应用却鲜有人去探索。虚拟手语数字人是一种基于计算机技术和人工智能的系统,旨在通过模拟手语动作和表情动作来与听觉障碍人士进行交流和沟通。虚拟手语数字人的核心功能是将用户的语言输入(例如文字、语音)转化为手语动作,以便与听觉障碍人士沟通。它能够识别并解释用户的指令、问题或对话内容,并通过预定义的手语词汇和动作库来生成对应的手语表达。这种技术使得听觉障碍人士能够通过观察虚拟手语数字人的手势和表情,理解和回应与他们进行交流的内容。
虚拟手语数字人的应用领域非常广泛。它可以应用于教育领域,为听觉障碍学生提供手语教学和辅助学习工具;在医疗领域,可以为医务人员和听觉障碍患者之间的沟通提供支持;在旅游和服务行业,可以为听觉障碍人士提供方便的信息交流和导航服务等。虚拟手语数字人的出现为听觉障碍人士提供了更多融入社会和获得信息的机会,促进了包容和无障碍交流的发展。
但是,现有的虚拟手语数字人往往存在语音理解能力差,难以将语音转化成准确的动作和表情,动作连贯性差等问题。
因此,针对上述现有技术中存在的缺陷,需要研发一种新型的手语数字人驱动方法及系统。
发明内容
为了克服现有技术的缺陷,本发明提出一种基于大语言模型的手语数字人驱动方法及系统,其大大提高了虚拟数字人的智能交互体验,实现了更加全面、生动、准确的智能交互和手语表达能力。
为了实现上述目的,本发明提供如下技术方案:
一种基于大语言模型的手语数字人驱动方法,其特征在于,包括以下步骤:
1)、获取目标语言并将目标语言转化成文本;
2)、通过训练后的大语言模型对所述文本进行处理,以生成手语词序列;
3)、根据所述手语词序列分别获取一系列躯干动作数据和一系列面部表情动作数据并将获得的所述一系列躯干动作数据和一系列面部动表情作数据分别按顺序进行排序;
4)、对所述一系列躯干动作数据中的任意两个相邻的躯干动作数据分别进行数据拟合插值,以平滑所述两个相邻的躯干动作数据对应的躯干动作之间的过渡动作;
5)、根据所述一系列面部表情动作数据以及数据拟合插值处理后的一系列躯干动作数据,驱动所述手语数字人运行。
优选地,所述步骤3)中的根据所述手语词序列分别获取一系列躯干动作数据和一系列面部表情动作数据具体为:根据所述手语词序列从躯干动作数据库中检索得到所述一系列躯干动作数据并根据所述手语词序列从面部表情动作数据库中检索得到所述一系列面部表情动作数据,其中,所述躯干动作数据库中存储有手语词及其对应的躯干动作数据;所述面部表情动作数据库中存储有手语词及其对应的面部表情动作数据。
优选地,所述步骤4)中的对任意两个相邻的躯干动作数据分别进行数据拟合插值具体为:在前一个躯干动作数据的最后一帧和后一个躯干动作数据的第一帧之间插入多个插入帧,其中,基于插入帧的数量、前一个躯干动作数据的最后一帧中的位置以及后一个躯干动作数据的第一帧中的位置确定每个插入帧中的位置。
优选地,在所述步骤1)和步骤2)之间进一步包括:
训练大语言模型,以获得所述训练后的大语言模型。
优选地,所述训练大语言模型具体包括:
预训练大语言模型:将由目标语言转化成的文本作为输入提供给大语言模型,以对大语言模型进行预训练,从而得到预训练后的大语言模型;
微调:将正常的对话语句文本及其对应的手语词序作为输入提供给预训练后的大语言模型,以对预训练后的大语言模型进行微调,从而得到所述训练后的大语言模型。
此外,本发明还提供一种基于大语言模型的手语数字人驱动系统,其特征在于,包括:
声音拾取和转化模块,其用于获取目标语言并将目标语言转化成文本;
训练后的大语言模型,其用于对所述文本进行处理,以生成手语词序列;
躯干动作数据库,其存储有手语词及其对应的躯干动作数据;
面部表情动作数据库,其存储有手语词及其对应的面部表情动作数据;
躯干动作驱动模块,其用于基于所述手语词序列从所述躯干动作数据库中获得一系列躯干动作数据并将获得的所述一系列躯干动作数据按顺序进行排序;
面部表情动作驱动模块,其用于基于所述手语词序列从所述面部表情动作数据库中获得一系列面部表情动作数据并将获得的所述一系列面部表情动作数据按顺序进行排序;
躯干动作平滑模块,其用于对所述一系列躯干动作数据中的任意两个相邻的躯干动作数据分别进行数据拟合插值,以平滑所述两个相邻的躯干动作数据对应的躯干动作之间的过渡动作;
数据通信模块,其用于将所述一系列面部表情动作数据以及数据拟合插值处理后的一系列躯干动作数据发送给手语数字人,以驱动所述手语数字人运行。
优选地,所述躯干动作平滑模块对所述一系列躯干动作数据中的任意两个相邻的躯干动作数据分别进行数据拟合插值具体为:在前一个躯干动作数据的最后一帧和后一个躯干动作数据的第一帧之间插入多个插入帧,其中,基于所述插入帧的数量、前一个躯干动作数据的最后一帧中的位置以及后一个躯干动作数据的第一帧中的位置确定每个所述插入帧中的位置。
优选地,所述基于大语言模型的手语数字人驱动系统还包括:
预训练后的大语言模型,其用于基于输入的所述文本输出对话反馈文本并将所述对话反馈文本交由所述数据通信模块向外传输。
优选地,所述基于大语言模型的手语数字人驱动系统还包括:
音频输出模块,其用于接收所述数据通信模块传输过来的所述对话反馈文本并将所述对话反馈文本转化成语音后向外播放。
与现有技术相比,本发明的基于大语言模型的手语数字人驱动方法及系统具有如下有益技术效果中的一者或多者:
1、本发明通过将语音对话转化为手语动作,从而打破语言壁垒,为无障碍沟通做出重要贡献,使得听觉障碍人士能够更好地融入社会发展。
2、本发明通过训练后的大语言模型的语言理解和生成能力,使得手语数字人能够更加准确、自然地理解用户的指令和意图,并通过国家通用手语动作将回答以视觉化的方式表达出来,为听觉障碍人士创造更好的沟通体验。
3、本发明的表情动作信息能够为手语数字人赋予更加丰富的表情表达能力,使其能够准确地传达情感、意图和语义。
4、本发明通过插帧操作,添加适当的中间动作帧,以使得两个手语词对应的躯干动作之间的过渡更加平滑和自然,可以避免躯干动作之间的跳跃感,使得手语词序列的执行更加连贯。
5、本发明可以进行语音播报,增强了手语数字人的可交互性和包容性,对于听觉上的用户,通过语音回答可以直接理解系统的响应,而对于理解手语的用户,则可以同时观察手语数字人的手语表现,进一步加深交流的理解和互动。
附图说明
图1为本发明的基于大语言模型的手语数字人驱动方法的流程图。
图2为本发明的基于大语言模型的手语数字人驱动系统的构成示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,实施例的内容不作为对本发明的保护范围的限制。
为了解决现有的虚拟手语数字人所存在的问题,本专利提供了一种基于大语言模型的手语数字人驱动方法及系统,其大大提高了虚拟数字人的智能交互体验,实现了更加全面、生动、准确的智能交互和手语表达能力。
图1示出了本发明的基于大语言模型的手语数字人驱动方法的流程图。如图1所示,本发明的基于大语言模型的手语数字人驱动方法包括以下步骤:
一、获取目标语言并将目标语言转化成文本。
在本发明中,可以通过麦克风获得目标语言,然后使用语音识别技术将接收到的语音信号转化为相应的文本形式,以便于后续输入到训练后的大模型中去。
在本发明中,优选地,当手语数字人系统一段时间没有用户交流后会进入自动待机状态,停止语音输出和手语动作输出,展现出一个微笑的姿态。当用户此时需要和手语数字人交互,首先需要对手语数字人发出带有关键词的激活指令,把手语数字人从待机状态唤醒从而可以自由交互。
二、通过训练后的大语言模型对所述文本进行处理,以生成手语词序列。
大语言模型(Large Language Model,LLM)是指一类基于神经网络的、具有大规模参数(通常是数十亿个或更多)的语言模型。相比于小规模参数的模型,大语言模型在自然语言理解和推理方面的能力有了质的飞跃,这种表现被称之为“能力涌现”。虽然大语言模型在通用领域各种自然语言任务上表现很出色,但也存在一些局限性,如生成存在事实性错误的信息等。因此,必须对其进行训练。通过训练后的大语言模型的语言理解和生成能力,能够更加准确、自然地理解用户的指令和意图。
当然,在此之前,需要训练大语言模型,以获得所述训练后的大语言模型。
其中,所述训练大语言模型具体包括:
1、预训练大语言模型。
将由目标语言转化成的文本作为输入提供给大语言模型,以对大语言模型进行预训练,从而得到预训练后的大语言模型。
如前所述,用户的语音指令已经通过语音转文字技术转化成了文本形式。可以将这些文本指令作为输入提供给大语言模型,以得到回应,从而实现对大语言模型的预训练。预训练好的大语言模型经过了大规模中文文本的预训练,具备了丰富的语法、语义和上下文理解能力。可以对输入的用户意图进行充分的理解和分析,以提供准确、有逻辑性的文本回答。
2、微调。
将正常的对话语句文本及其对应的手语词序作为输入提供给预训练后的大语言模型,以对预训练后的大语言模型进行微调,从而得到所述训练后的大语言模型。
在本发明中,在进行微调时,采用了大量的国家通用手语词序和手势动作数据作为微调训练的样本。上述的国家通用手语词序列采用了《中国国家通用手语词典》和《体育和律动常用词通用手语》两本教材中的手语语序和手语动作为标准。这些教材提供了广泛的手语词汇和表达方式,被广泛接受并使用于手语教学和交流中。国家通用手语词序列的采用使得手语数字人能够使用与手语教学一致的手语语序和手势动作,从而实现与听障人士学习的无缝对接和流畅沟通。这种标准化的手语表达方式确保看手语数字人的准确性和可靠性,使得用户能够更加准确地理解和交流手语表达。
同时,可以从一些手语机构处获取日常对话数据以及该对话数据翻译为手语词序列等数据。这些数据包含了丰富的手语词汇和手语词序列,用于微调预训练后的大语言模型,以对手语的理解和翻译能力进行优化。
在微调过程中,本发明通过将正常的对话句子和翻译后的手语词语序作为输入,要求预训练后的大语言模型去学习翻译后的手语词序列范式和其中的逻辑。
通过这样的微调过程,大语言模型逐渐学习到了普通对话与国家通用手语词序列之间的对应关系,并能够将普通对话翻译成相应的手语词序列。这样,用户可以通过与大语言模型进行对话,以文字的形式输入指令或提问,大语言模型将根据其理解和推理能力给出相应的回答,并将回答转化成国家通用手语词序列,供手语数字人表达出来。
经过微调,本发明中的手语数字人目前已经熟练掌握了8000多个常用的手语词汇,这些常用手语词汇基本上涵盖了日常生活、工作、教育等多个领域的表达需求。通过学习和训练,手语数字人已经具备了一定的手语表达能力,能够准确、流畅地使用这些常用手语词汇进行交流和表达。
优选地,手语数字人还可以根据具体的需求拓展某一领域的专业词汇。除了掌握常用的手语词汇外,可以进一步扩展和学习特定领域的手语表达。通过整合领域相关的手语词汇和手势动作,手语数字人可以为用户提供更专业、准确的手语交流支持。
例如,可以用体育领域的专业对话语句文本及其翻译后的体育手语词序,比如有破门、手球、后场球、前场球、射门等对预训练后的大语言模型进行微调。这些专业领域内的手语词序拓展使得手语数字人更加专业化和个性化,为用户提供了更加丰富、精准的手语交流体验。
因此,在本发明中,将由目标语言转化成的文本输入到训练后的大语言模型中后,训练后的大语言模型能够自动生成和输出对应的手语词序列。
三、根据所述手语词序列分别获取一系列躯干动作数据和一系列面部表情动作数据并将获得的所述一系列躯干动作数据和一系列面部动表情作数据分别按顺序进行排序。
在本发明中,根据所述手语词序列分别获取一系列躯干动作数据和一系列面部表情动作数据具体为:根据所述手语词序列从躯干动作数据库中检索得到所述一系列躯干动作数据并根据所述手语词序列从面部表情动作数据库中检索得到所述一系列面部表情动作数据。其中,所述躯干动作数据库中存储有手语词及其对应的躯干动作数据。所述面部表情动作数据库中存储有手语词及其对应的面部表情动作数据。
如前所述,有了翻译过后的手语词序列,则需要根据手语词序列去获取相应的手语动作数据。为此,本发明设计了两个数据库:躯干动作数据库和面部表情动作数据库,各自存储相应的动作数据。
具体地,所述躯干动作数据库包含了国家通用手语动作所需要的最少的骨骼信息。具体而言,躯干动作数据库包括了双臂骨骼、手部和十指骨骼、虚拟人的上半身骨骼、颈部骨骼和头部骨骼德等骨骼信息。同时,躯干动作数据库记录了每一块骨骼在空间中的运动轨迹和姿态数据。
面部表情动作数据库则记录着国家通用手语中常见的表情数据,其中记录着眉毛、嘴巴、眼睛的动作数据。眉毛的动作数据记录了眉毛的抬起、放下、皱起等表情变化,用于传达不同的情绪和意图。嘴巴的动作数据包括嘴唇的张合、微笑、吹气等动作,用于表达口型和语音的特征。眼睛的动作数据描述了眼睛的睁闭、凝视、眨眼等动作,用于表达注意力、眼神交流和情感状态。
由此,在有了手语词序列之后,分别用该手语词序列中的手语词到躯干动作数据库和面部表情动作数据库中去检索,即可分别获取一系列躯干动作数据和一系列面部表情动作数据。
在检索的时候,按照该手语词序列的顺序进行检索,即可将获得的所述一系列躯干动作数据和一系列面部动表情作数据分别按顺序进行排序。
四、对所述一系列躯干动作数据中的任意两个相邻的躯干动作数据分别进行数据拟合插值,以平滑所述两个相邻的躯干动作数据对应的躯干动作之间的过渡动作。
通过所述步骤三,已经获得了手语词序列对应的一系列躯干动作的一系列躯干动作数据。但是,在所获得的一系列躯干动作数据中,前一个手语词对应的躯干动作的躯干动作数据的最后一帧和后一个手语词对应的躯干动作的躯干动作数据的第一帧之间的动作位置往往会相差比较大,这样导致的结果就是在驱动手语数字人进行躯干运动的时候,两个手语词之间的动作衔接会有一个跳跃的视觉感受,会感觉动作衔接不流畅、不自然。
为此,在本发明中,可以使用插值算法对两个手语词动作之间的位置差异进行平滑处理,从而减小或者避免动作衔接时的跳跃感。也就是,在前一个躯干动作数据的最后一帧和后一个躯干动作数据的第一帧之间插入多个插入帧,其中,基于插入帧的数量、前一个躯干动作数据的最后一帧中的位置以及后一个躯干动作数据的第一帧中的位置确定每个插入帧中的位置。
插值算法可以在前一个手语词对应的躯干动作的躯干动作数据的最后一帧和后一个手语词对应的躯干动作的躯干动作数据的第一帧之间,分别为躯干骨骼中的每一个骨骼都计算位置偏差,然后基于mixup的思想来为两块骨骼之间计算插入帧,插入计算好的过渡动作帧,使得动作的变化更加连续和平滑,消除跳跃感,使得手语词序列的动作衔接更加自然和流畅。这样,用户在观看数字人的手语表达时,可以获得更真实、连贯的视觉体验,增强了交流的效果和质量。
具体地,动作平滑算法可用下述公式来计算:
其中表示手语数字人在某一插入帧中的骨骼位置,/>和/>分别表示前一个手语词对应的躯干动作的躯干动作数据的最后一帧和后一个手语词对应的躯干动作的躯干动作数据的第一帧中的骨骼位置,/>表示平滑系数,它的值取决于想要往两个动作之间插入的插入帧的数量是多少。
比如,如果认为需要在两个动作之间插入10个插入帧,则需要从集合中进行取值。在刚开始的时候计算出的插入帧更接近于/>,随着插帧的进行,后面的插入帧则更接近于/>。这样则使得中间的插入帧数据更接近于原始的动作,从而通过插入帧使得驱动手语数字人更自然,更流畅。
五、根据所述一系列面部表情动作数据以及数据拟合插值处理后的一系列躯干动作数据,驱动所述手语数字人运行。
在经历了上述的一系列操作后,驱动手语数字人的躯干动作数据和面部表情动作数据已经准备完毕,这时候,把面部表情动作数据和躯干动作数据进行结合,发送给手术数字人渲染引擎,即可驱动手语数字人实时动作。
此外,本发明还提供一种基于大语言模型的手语数字驱动系统。如图2所示,本发明的基于大语言模型的手语数字人驱动系统包括:
一、声音拾取和转化模块。
所述声音拾取和转化模块用于获取目标语言并将目标语言转化成文本。
二、训练后的大语言模型。
所述训练后的大语言模型用于对所述文本进行处理,以生成手语词序列。
如前所述,所述训练后的大语言模型是经历过预训练和微调后的大语言模型,其理解和生成能力更优。
三、躯干动作数据库。
所述躯干动作数据库存储有手语词及其对应的躯干动作数据。
四、面部表情动作数据库。
所述面部表情动作数据库存储有手语词及其对应的面部表情动作数据。
五、躯干动作驱动模块。
所述躯干动作驱动模块用于基于所述手语词序列从所述躯干动作数据库中获得一系列躯干动作数据并将获得的所述一系列躯干动作数据按顺序进行排序。
六、面部表情动作驱动模块。
所述面部表情动作驱动模块用于基于所述手语词序列从所述面部表情动作数据库中获得一系列面部表情动作数据并将获得的所述一系列面部表情动作数据按顺序进行排序。
七、躯干动作平滑模块。
所述躯干动作平滑模块用于对所述一系列躯干动作数据中的任意两个相邻的躯干动作数据分别进行数据拟合插值,以平滑所述两个相邻的躯干动作数据对应的躯干动作之间的过渡动作。
其中,所述躯干动作平滑模块对所述一系列躯干动作数据中的任意两个相邻的躯干动作数据分别进行数据拟合插值具体为:在前一个躯干动作数据的最后一帧和后一个躯干动作数据的第一帧之间插入多个插入帧,其中,基于所述插入帧的数量、前一个躯干动作数据的最后一帧中的位置以及后一个躯干动作数据的第一帧中的位置确定每个所述插入帧中的位置。
八、数据通信模块。
所述数据通信模块用于将所述一系列面部表情动作数据以及数据拟合插值处理后的一系列躯干动作数据发送给手语数字人,以驱动所述手语数字人运行。
九、预训练后的大语言模型。
所述预训练后的大语言模型用于基于输入的所述文本输出对话反馈文本并将所述对话反馈文本交由所述数据通信模块向外传输。
十、音频输出模块。
所述音频输出模块用于接收所述数据通信模块传输过来的所述对话反馈文本并将所述对话反馈文本转化成语音后向外播放。
在本发明中,通过所述声音拾取和转化模块得到了用户的文本输入后,一方面直接把文本输入给预训练后的大语言模型,所述预训练后的大语言模型通过对输入文本的学习和基于预训练经验的推理,可以分析用户的意图,并生成响应的中文回答。另一方面同时还把文本输入给了经过国家通用手语微调过的大语言模型,它是根据国家通用手语的特点和规范,通过在预训练的基础上进行手语语序、手语词的微调,使其具备将普通对话翻译成国家通用手语词序列的功能。
由此,在驱动手语数字人的同时,系统还会将预训练后的大语言模型生成的响应文本通过文字转语音技术,将响应文本转化为响应MP3格式的响应语音,通过所述音频输出模块播放出来。这样,无论用户是否懂得手语,都能通过听取语音回答来理解虚拟手语数字人的意思。这种设计增强了手语数字人的可交互性和包容性。对于听觉上的用户,通过语音回答可以直接理解系统的响应;而对于理解手语的用户,则可以同时观察手语数字人的手语表现,进一步加深交流的理解和互动。
可选地,所述音频输出模块提供不同的语音播报风格,有不同的男声和女声的播报风格,可根据用户和应用场景的需求进行不同的选择。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制。本领域的技术人员,依据本发明的思想,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (9)
1.一种基于大语言模型的手语数字人驱动方法,其特征在于,包括以下步骤:
1)、获取目标语言并将目标语言转化成文本;
2)、通过训练后的大语言模型对所述文本进行处理,以生成手语词序列;
3)、根据所述手语词序列分别获取一系列躯干动作数据和一系列面部表情动作数据并将获得的所述一系列躯干动作数据和一系列面部动表情作数据分别按顺序进行排序;
4)、对所述一系列躯干动作数据中的任意两个相邻的躯干动作数据分别进行数据拟合插值,以平滑所述两个相邻的躯干动作数据对应的躯干动作之间的过渡动作;
5)、根据所述一系列面部表情动作数据以及数据拟合插值处理后的一系列躯干动作数据,驱动所述手语数字人运行。
2.根据权利要求1所述的基于大语言模型的手语数字人驱动方法,其特征在于,所述步骤3)中的根据所述手语词序列分别获取一系列躯干动作数据和一系列面部表情动作数据具体为:根据所述手语词序列从躯干动作数据库中检索得到所述一系列躯干动作数据并根据所述手语词序列从面部表情动作数据库中检索得到所述一系列面部表情动作数据,其中,所述躯干动作数据库中存储有手语词及其对应的躯干动作数据;所述面部表情动作数据库中存储有手语词及其对应的面部表情动作数据。
3.根据权利要求2所述的基于大语言模型的手语数字人驱动方法,其特征在于,所述步骤4)中的对任意两个相邻的躯干动作数据分别进行数据拟合插值具体为:在前一个躯干动作数据的最后一帧和后一个躯干动作数据的第一帧之间插入多个插入帧,其中,基于插入帧的数量、前一个躯干动作数据的最后一帧中的位置以及后一个躯干动作数据的第一帧中的位置确定每个插入帧中的位置。
4.根据权利要求3所述的基于大语言模型的手语数字人驱动方法,其特征在于,在所述步骤1)和步骤2)之间进一步包括:
训练大语言模型,以获得所述训练后的大语言模型。
5.根据权利要求4所述的基于大语言模型的手语数字人驱动方法,其特征在于,所述训练大语言模型具体包括:
预训练大语言模型:将由目标语言转化成的文本作为输入提供给大语言模型,以对大语言模型进行预训练,从而得到预训练后的大语言模型;
微调:将正常的对话语句文本及其对应的手语词序作为输入提供给预训练后的大语言模型,以对预训练后的大语言模型进行微调,从而得到所述训练后的大语言模型。
6.一种基于大语言模型的手语数字人驱动系统,其特征在于,包括:
声音拾取和转化模块,其用于获取目标语言并将目标语言转化成文本;
训练后的大语言模型,其用于对所述文本进行处理,以生成手语词序列;
躯干动作数据库,其存储有手语词及其对应的躯干动作数据;
面部表情动作数据库,其存储有手语词及其对应的面部表情动作数据;
躯干动作驱动模块,其用于基于所述手语词序列从所述躯干动作数据库中获得一系列躯干动作数据并将获得的所述一系列躯干动作数据按顺序进行排序;
面部表情动作驱动模块,其用于基于所述手语词序列从所述面部表情动作数据库中获得一系列面部表情动作数据并将获得的所述一系列面部表情动作数据按顺序进行排序;
躯干动作平滑模块,其用于对所述一系列躯干动作数据中的任意两个相邻的躯干动作数据分别进行数据拟合插值,以平滑所述两个相邻的躯干动作数据对应的躯干动作之间的过渡动作;
数据通信模块,其用于将所述一系列面部表情动作数据以及数据拟合插值处理后的一系列躯干动作数据发送给手语数字人,以驱动所述手语数字人运行。
7.根据权利要求6所述的基于大语言模型的手语数字人驱动系统,其特征在于,所述躯干动作平滑模块对所述一系列躯干动作数据中的任意两个相邻的躯干动作数据分别进行数据拟合插值具体为:在前一个躯干动作数据的最后一帧和后一个躯干动作数据的第一帧之间插入多个插入帧,其中,基于所述插入帧的数量、前一个躯干动作数据的最后一帧中的位置以及后一个躯干动作数据的第一帧中的位置确定每个所述插入帧中的位置。
8.根据权利要求7所述的基于大语言模型的手语数字人驱动系统,其特征在于,还包括:
预训练后的大语言模型,其用于基于输入的所述文本输出对话反馈文本并将所述对话反馈文本交由所述数据通信模块向外传输。
9.根据权利要求8所述的基于大语言模型的手语数字人驱动系统,其特征在于,还包括:
音频输出模块,其用于接收所述数据通信模块传输过来的所述对话反馈文本并将所述对话反馈文本转化成语音后向外播放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311170419.7A CN116959119A (zh) | 2023-09-12 | 2023-09-12 | 一种基于大语言模型的手语数字人驱动方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311170419.7A CN116959119A (zh) | 2023-09-12 | 2023-09-12 | 一种基于大语言模型的手语数字人驱动方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116959119A true CN116959119A (zh) | 2023-10-27 |
Family
ID=88449392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311170419.7A Pending CN116959119A (zh) | 2023-09-12 | 2023-09-12 | 一种基于大语言模型的手语数字人驱动方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959119A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117590944A (zh) * | 2023-11-28 | 2024-02-23 | 上海源庐加佳信息科技有限公司 | 实体人对象和数字虚拟人对象的绑定系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102497513A (zh) * | 2011-11-25 | 2012-06-13 | 中山大学 | 一种面向数字电视的视频虚拟人手语系统 |
CN106570473A (zh) * | 2016-11-03 | 2017-04-19 | 深圳量旌科技有限公司 | 基于机器人的聋哑人手语识别交互系统 |
CN107358955A (zh) * | 2017-06-27 | 2017-11-17 | 浙江大学 | 一种集光、振动刺激于一体的语音信号输出装置及方法 |
CN112257513A (zh) * | 2020-09-27 | 2021-01-22 | 南京工业大学 | 一种手语视频翻译模型的训练方法、翻译方法及系统 |
CN113220912A (zh) * | 2021-04-07 | 2021-08-06 | 深圳市宝尔爱迪科技有限公司 | 一种交互辅助方法、装置及计算机可读存储介质 |
CN116245986A (zh) * | 2022-12-29 | 2023-06-09 | 北京智谱华章科技有限公司 | 虚拟手语数字人驱动方法和装置 |
CN116469165A (zh) * | 2023-04-10 | 2023-07-21 | 北京智谱华章科技有限公司 | 基于数字人的汉语到手语的翻译方法及系统 |
-
2023
- 2023-09-12 CN CN202311170419.7A patent/CN116959119A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102497513A (zh) * | 2011-11-25 | 2012-06-13 | 中山大学 | 一种面向数字电视的视频虚拟人手语系统 |
CN106570473A (zh) * | 2016-11-03 | 2017-04-19 | 深圳量旌科技有限公司 | 基于机器人的聋哑人手语识别交互系统 |
CN107358955A (zh) * | 2017-06-27 | 2017-11-17 | 浙江大学 | 一种集光、振动刺激于一体的语音信号输出装置及方法 |
CN112257513A (zh) * | 2020-09-27 | 2021-01-22 | 南京工业大学 | 一种手语视频翻译模型的训练方法、翻译方法及系统 |
CN113220912A (zh) * | 2021-04-07 | 2021-08-06 | 深圳市宝尔爱迪科技有限公司 | 一种交互辅助方法、装置及计算机可读存储介质 |
CN116245986A (zh) * | 2022-12-29 | 2023-06-09 | 北京智谱华章科技有限公司 | 虚拟手语数字人驱动方法和装置 |
CN116469165A (zh) * | 2023-04-10 | 2023-07-21 | 北京智谱华章科技有限公司 | 基于数字人的汉语到手语的翻译方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117590944A (zh) * | 2023-11-28 | 2024-02-23 | 上海源庐加佳信息科技有限公司 | 实体人对象和数字虚拟人对象的绑定系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108000526B (zh) | 用于智能机器人的对话交互方法及系统 | |
Nyatsanga et al. | A Comprehensive Review of Data‐Driven Co‐Speech Gesture Generation | |
CN102169642B (zh) | 具有智能纠错功能的交互式虚拟教师系统 | |
US6526395B1 (en) | Application of personality models and interaction with synthetic characters in a computing system | |
CN108227932A (zh) | 交互意图确定方法及装置、计算机设备及存储介质 | |
CN108334583A (zh) | 情感交互方法及装置、计算机可读存储介质、计算机设备 | |
CN110110169A (zh) | 人机交互方法及人机交互装置 | |
Granström et al. | Audiovisual representation of prosody in expressive speech communication | |
Escudeiro et al. | Virtual sign–a real time bidirectional translator of portuguese sign language | |
CN108877336A (zh) | 基于增强现实技术的教学方法、云服务平台和教学系统 | |
De Coster et al. | Machine translation from signed to spoken languages: State of the art and challenges | |
CN103218842A (zh) | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 | |
CN113835522A (zh) | 手语视频生成、翻译、客服方法、设备和可读介质 | |
Naert et al. | A survey on the animation of signing avatars: From sign representation to utterance synthesis | |
Oliveira et al. | Automatic sign language translation to improve communication | |
WO2023284435A1 (zh) | 生成动画的方法及装置 | |
CN109409255A (zh) | 一种手语场景生成方法及装置 | |
Rojc et al. | The TTS-driven affective embodied conversational agent EVA, based on a novel conversational-behavior generation algorithm | |
CN116959119A (zh) | 一种基于大语言模型的手语数字人驱动方法及系统 | |
Sonawane et al. | Speech to Indian sign language (ISL) translation system | |
CN115953521B (zh) | 远程数字人渲染方法、装置及系统 | |
CN110471531A (zh) | 虚拟现实中多模态人机对话系统和方法 | |
Mittelberg et al. | Gesture studies and semiotics | |
Dhanjal et al. | An automatic conversion of Punjabi text to Indian sign language | |
Dixit et al. | Audio to indian and american sign language converter using machine translation and nlp technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |