CN115359796A - 数字人手语播报方法、装置、设备及存储介质 - Google Patents

数字人手语播报方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115359796A
CN115359796A CN202210785961.2A CN202210785961A CN115359796A CN 115359796 A CN115359796 A CN 115359796A CN 202210785961 A CN202210785961 A CN 202210785961A CN 115359796 A CN115359796 A CN 115359796A
Authority
CN
China
Prior art keywords
language text
sign language
digital
text
digital person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210785961.2A
Other languages
English (en)
Inventor
韩玉洁
谭启敏
吴淑明
张家硕
张泽旋
周靖坤
祖新星
王琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210785961.2A priority Critical patent/CN115359796A/zh
Publication of CN115359796A publication Critical patent/CN115359796A/zh
Priority to PCT/CN2023/105575 priority patent/WO2024008047A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

本公开涉及一种数字人手语播报方法、装置、设备及存储介质。本公开通过将正常人所使用的自然语言文本翻译为第一手语文本,并对第一手语文本进行语义精简处理,得到第二手语文本。进一步,根据第二手语文本驱动数字人,使得数字人通过肢体将第二手语文本对应的手语动作表达出来。由于对第一手语文本进行语义精简处理后得到的第二手语文本可以包括较少的动作名称,因此,相比于第一手语文本而言,数字人可以在相同时间内做较少的手语动作,使得数字人拥有更充分的时长来做每个手语动作,从而可以保证听障人士可以看清楚每个手语动作。

Description

数字人手语播报方法、装置、设备及存储介质
技术领域
本公开涉及信息技术领域,尤其涉及一种数字人手语播报方法、装置、设备及存储介质。
背景技术
随着科技的不断发展,越来越多的用户可以通过终端观看多媒体信息,多媒体信息通常包括文本、音频、视频等。但是,对于听障人士而言,符合认知习惯的是手语。因此,需要将自然语言的语音和文本信息转换为手语,以便听障人士理解。
但是,本申请的发明人发现,对于同一句话而言,正常人说话时的声音速度通常会快于数字人打手语动作的速度,如果要求数字人打手语动作的过程和正常人说话的过程在时间上对齐,那么需要加快数字人打手语动作的速度,或者提高数字人打手语动作的视频的播放速度,从而导致听障人士看不清手语动作。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种数字人手语播报方法、装置、设备及存储介质,使得数字人拥有更充分的时长来做每个手语动作,从而可以保证听障人士可以看清楚每个手语动作。
第一方面,本公开实施例提供一种数字人手语播报方法,包括:
获取多媒体信息,并确定所述多媒体信息对应的自然语言文本;
将所述自然语言文本翻译为第一手语文本;
对所述第一手语文本进行语义精简处理,得到第二手语文本;
根据所述第二手语文本驱动数字人,使得所述数字人通过肢体将所述第二手语文本对应的手语动作表达出来。
第二方面,本公开实施例提供一种数字人手语播报装置,包括:
获取模块,用于获取多媒体信息;
确定模块,用于确定所述多媒体信息对应的自然语言文本;
翻译模块,用于将所述自然语言文本翻译为第一手语文本;
处理模块,用于对所述第一手语文本进行语义精简处理,得到第二手语文本;
驱动模块,用于根据所述第二手语文本驱动数字人,使得所述数字人通过肢体将所述第二手语文本对应的手语动作表达出来。
第三方面,本公开实施例提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
本公开实施例提供的数字人手语播报方法、装置、设备及存储介质,通过将正常人所使用的自然语言文本翻译为第一手语文本,并对第一手语文本进行语义精简处理,得到第二手语文本。进一步,根据第二手语文本驱动数字人,使得数字人通过肢体将第二手语文本对应的手语动作表达出来。由于对第一手语文本进行语义精简处理后得到的第二手语文本可以包括较少的动作名称,因此,相比于第一手语文本而言,数字人可以在相同时间内做较少的手语动作,使得数字人拥有更充分的时长来做每个手语动作,从而可以保证听障人士可以看清楚每个手语动作。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的数字人手语播报方法流程图;
图2为本公开实施例提供的应用场景的示意图;
图3为本公开实施例提供的应用场景的示意图;
图4为本公开实施例提供的应用场景的示意图;
图5为本公开另一实施例提供的数字人手语播报方法流程图;
图6为本公开另一实施例提供的数字人手语播报方法流程图;
图7为本公开另一实施例提供的数字人手语播报方法流程图;
图8为本公开另一实施例提供的运营人员的用户界面的示意图;
图9为本公开另一实施例提供的运营人员的用户界面的示意图;
图10为本公开实施例提供的数字人手语播报装置的结构示意图;
图11为本公开实施例提供的电子设备实施例的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
通常情况下,对于同一句话而言,正常人说话时的声音速度通常会快于数字人打手语动作的速度,如果要求数字人打手语动作的过程和正常人说话的过程在时间上对齐,那么需要加快数字人打手语动作的速度,或者提高数字人打手语动作的视频的播放速度,从而导致听障人士看不清手语动作。针对该问题,本公开实施例提供了一种数字人手语播报方法,下面结合具体的实施例对该方法进行介绍。
图1为本公开实施例提供的数字人手语播报方法流程图。该方法可以由数字人手语播报装置执行,该装置可以采用软件和/或硬件的方式实现,该装置可配置于电子设备中,例如服务器或终端,其中,终端具体包括手机、电脑或平板电脑等。另外,本实施例所述的数字人手语播报方法可以适用于如图2所示的应用场景。如图2所示,该应用场景包括终端21和服务器22,其中,服务器22可以从其他终端或其他服务器获取多媒体信息,并根据该多媒体信息生成数字人打手语的手语动画。进一步,服务器22可以将数字人打手语的手语动画发送给终端21,终端21可以是听障人士的终端,从而使得听障人士可以理解到该多媒体信息所表达的意思。下面结合图2对该方法进行详细介绍,如图1所示,该方法具体步骤如下:
S101、获取多媒体信息,并确定所述多媒体信息对应的自然语言文本。
例如,服务器22可以从其他终端或其他服务器获取多媒体信息,该多媒体信息可以是文本信息、音频信息或音视频信息。其中,音频信息可以是实时的音频流,或者可以是离线的音频文件。音视频信息可以是实时的音视频流,或者可以是离线的音视频文件。例如图3所示,终端23可以向服务器22实时的发送直播音视频流,服务器22不仅可以向终端21转发该直播音视频流,同时还可以向终端21发送数字人打手语的视频流,该数字人通过打手语来表达该直播音视频流中音频信号或字幕的意思,从而使得听障人士可以观看网络直播。或者如图4所示,服务器24向服务器22实时的发送电视直播节目,该电视直播节目以流媒体的形式发送给服务器22,服务器22生成的数字人可以辅助听障人士观看该电视直播节目。在其他一些实施例中,服务器22还可以生成多媒体信息,例如,影视咨询、教育培训类视频等,使得听障人士可以根据服务器22生成的数字人观看该影视咨询、教育培训类视频等。此外,听障人士和正常人还可以通过各自的终端开展线上会议或线下会议,例如图3所示,假设终端21是听障人士的终端,终端23是正常人的终端,听障人士和正常人通过各自的终端进行远程的线上会议,例如终端23实时采集正常人的音视频流,并将正常人的音视频流发送给服务器22,服务器22根据该正常人所表达的意思生成数字人打手语的视频流,并实时的向终端21发送数字人打手语的视频流,以辅助听障人士理解正常人所说的话。或者,听障人士和正常人通过各自的终端进行线下会议,例如,听障人士和正常人位于同一个会议室,终端23实时采集正常人的音视频流,并将正常人的音视频流发送给服务器22,服务器22将该正常人的自然语言实时的翻译为手语动作,并将数字人打手语的视频流下发给终端21,使得听障人士可以实时理解正常人所说的话。可以理解的是,终端21还可以是机场、火车站、体育场馆等公共场所中的大屏幕,终端21可以播放数字人打手语的视频,使得听障人士位于公共场所时可以随时随地的了解当前咨询。可以理解的是,本实施例所述的方法不限于适用这几种场景,还可以适用于其他应用场景,此处不再一一赘述。
当该多媒体信息是文本信息时,该文本信息可以作为该多媒体信息对应的自然语言文本。
当该多媒体信息是音频信息时,该多媒体信息对应的自然语言文本可以是采用自动语音识别技术(AutomaticSpeechRecognition,ASR)将该音频信息转换成的文本。
当该多媒体信息是音视频信息时,可以对该音视频信息进行解析,以便将该音视频信息中的音频成分从该音视频信息中抽取出来,并采用ASR技术将该音频成分转换成文本,该文本可以作为该多媒体信息对应的自然语言文本。
S102、将所述自然语言文本翻译为第一手语文本。
手语是用手势比量动作,根据手势的变化模拟形象或者音节以构成的一定意思或词语,是听力障碍或者无法言语的人互相交际和交流思想的一种手的语言。由于手语属于一种视觉语言,在用词、语法规则上与自然语言文本都存在着极大的差异。例如,“按指引路线退场,不要逗留观众区”是自然语言文本,与之相对应的手语文本是“按照/指挥/路/走/留/这/不要”。因此,需要将自然语言文本翻译为手语文本,此处将自然语言文本翻译成的手语文本记为第一手语文本。例如,“按照/指挥/路/走/留/这/不要”可以作为第一手语文本。该第一手语文本由多个动作名称组成,相邻动作名称之间采用“/”分割开来。每个动作名称可以对应一个连贯的手语动作,也就是说,不同的动作名称用于区分不同的手语动作。
S103、对所述第一手语文本进行语义精简处理,得到第二手语文本。
由于“按指引路线退场,不要逗留观众区”和“按照/指挥/路/走/留/这/不要”是对应的,即“按指引路线退场,不要逗留观众区”对应有7个动作名称、7个手语动作,因此,正常人说“按指引路线退场,不要逗留观众区”这句话的时候,需要数字人做出7个手语动作,而每个手语动作可能是一个持续的、连贯的动作,即数字人做每个手语动作时所需的时间会较长,而正常人说每个字所需的时间可能较短,从而导致正常人说话时的声音速度通常会快于数字人打手语动作的速度。如果要求数字人做这7个手语动作的过程和正常人说“按指引路线退场,不要逗留观众区”这句话的过程在时间轴上对齐,那么需要加快数字人打手语动作的速度,或者提高数字人打手语动作的视频的播放速度,从而导致听障人士看不清手语动作。为了解决该问题,本实施例提出了一种解决办法,即在得到第一手语文本例如“按照/指挥/路/走/留/这/不要”之后,对该第一手语文本进行语义精简处理,得到第二手语文本,例如,第二手语文本是“按照/指挥/路/走”。假设正常人说“按指引路线退场,不要逗留观众区”这句话所需要的时长记为t1,在对第一手语文本进行语义精简处理之前,数字人需要在t1时长内做7个手语动作,但是,在对第一手语文本进行语义精简处理之后,数字人只需在相同时长即t1时长内做4个手语动作即可,从而使得数字人拥有更充分的时长来做每个手语动作,从而可以保证听障人士可以看清楚每个手语动作。
S104、根据所述第二手语文本驱动数字人,使得所述数字人通过肢体将所述第二手语文本对应的手语动作表达出来。
具体的,服务器22可以根据第二手语文本中的每个动作名称驱动数字人,使得数字人可以通过其肢体例如手部将第二手语文本中的每个动作名称分别对应的手语动作表达出来。
在本实施例中,根据所述第二手语文本驱动数字人,使得所述数字人通过肢体将所述第二手语文本对应的手语动作表达出来,包括:根据所述第二手语文本驱动数字人,使得所述数字人通过肢体将所述第二手语文本对应的手语动作表达出来,并且所述数字人的嘴型和表情分别与所述第二手语文本一致。
例如,在本实施例中,服务器22根据第二手语文本中的每个动作名称驱动数字人的同时还可以控制数字人的嘴型与该第二手语文本一致。例如,数字人在做“按照”对应的手语动作时,数字人的嘴型与“按照”保持一致。此外,还可以控制数字人的表情,例如,数字人在表达第二手语文本对应的手语动作时,数字人的表情可以保持严肃认真。
本公开实施例通过将正常人所使用的自然语言文本翻译为第一手语文本,并对第一手语文本进行语义精简处理,得到第二手语文本。进一步,根据第二手语文本驱动数字人,使得数字人通过肢体将第二手语文本对应的手语动作表达出来。由于对第一手语文本进行语义精简处理后得到的第二手语文本可以包括较少的动作名称,因此,相比于第一手语文本而言,数字人可以在相同时间内做较少的手语动作,使得数字人拥有更充分的时长来做每个手语动作,从而可以保证听障人士可以看清楚每个手语动作。
图5为本公开另一实施例提供的数字人手语播报方法流程图。在本实施例中,该方法具体步骤如下:
S501、获取多媒体信息,并确定所述多媒体信息对应的自然语言文本。
具体的,S501和S101的具体原理和实现过程一致,此处不再赘述。
S502、对所述自然语言文本进行语义精简处理,得到精简处理后的自然语言文本。
例如,在确定出自然语言文本如“按指引路线退场,不要逗留观众区”时,本实施例还可以对该自然语言文本进行语义精简处理,例如,结合人工手语翻译专家在翻译过程中的行为,对该自然语言文本进行语义理解,提取该自然语言文本中的关键信息,过滤掉无效或冗余的信息,从而得到精简处理后的自然语言文本,例如,“按指引路线退场”。
S503、将所述精简处理后的自然语言文本翻译为第一手语文本。
由于精简处理后的自然语言文本包括的内容更少,因此,将“按指引路线退场”翻译为第一手语文本后,第一手语文本包括的动作名称的个数也会相应减少。例如,第一手语文本是“按照/指挥/路/走”。在本实施例中,将自然语言文本翻译为第一手语文本,或者将精简处理后的自然语言文本翻译为第一手语文本的过程可以通过机器翻译来实现,机器翻译又称自动翻译,是利用计算机将一种语言(源语言)转换为另一种语言(目标语言)的过程。
S504、对所述第一手语文本进行语义精简处理,得到第二手语文本。
例如,还可以对“按照/指挥/路/走”进行语义精简处理,从而进一步减少动作名称的个数,例如,对“按照/指挥/路/走”进行语义精简处理后得到的第二手语文本是“按照/指挥/走”,从而使得第二手语文本更加简练。在一些实施例中,自然语言文本可以记为原文,第一手语文本和第二手语文本可以分别记为译文。
S505、根据所述第二手语文本驱动数字人,使得所述数字人通过肢体将所述第二手语文本对应的手语动作表达出来,并且所述数字人的嘴型和表情分别与所述第二手语文本一致。
具体的,S505和S104的具体原理和实现过程一致,此处不再赘述。
可选的,根据所述第二手语文本驱动数字人,包括:若所述多媒体信息是非实时的音频文件或音视频文件,则获取所述音频文件或所述音视频文件中每个音频信号的起始时间和终止时间;根据所述起始时间和所述终止时间,调整所述数字人表达手语动作的速度,使得所述数字人表达的手语动作和所述音频信号在时间轴上对齐。
例如,如果多媒体信息是非实时的音频文件或音视频文件,那么服务器22还可以从该音频文件或该音视频文件中获取每个音频信号,每个音频信号可以是自然语言中的一个句子的音频信号。进一步,服务器22可以计算每个音频信号的起始时间和终止时间,该起始时间和终止时间可以记为起止时间轴。针对每个音频信号,服务器22可以根据该音频信号的起始时间和终止时间,调整数字人表达手语动作的速度,即自动对不同句子的手语播报速度进行算法自适应,调快或调慢播报速度,使得数字人表达某个句子对应的手语动作的过程和该句子的音频信号在时间轴上对齐。其中,手语播报就是将自然语言文本转换为手语文本后,驱动数字人通过肢体将手语文本对应的手语动作表达出来,并配合相应的数字人面部表情和嘴型播报。在本实施例中,数字人可以是具有数字化外形的虚拟人物。
本实施例通过对自然语言文本和第一手语文本分别进行语义精简处理,使得第二手语文本中包括的动作名称尽可能的少,即第二手语文本尽可能的简练。这样,在根据第二手语文本驱动数字人时,针对同一句话,可以有效避免数字人打手语动作的速度落后于正常人说话时的声音速度,从而使得数字人打手语动作的过程和正常人的说话过程保持同步,提升了信息同步性。另外,通过对不同句子的手语播报速度进行算法自适应,可实现手语播报与原始音视频内容的对齐。
图6为本公开另一实施例提供的数字人手语播报方法流程图。在本实施例中,该方法具体步骤如下:
S601、获取多媒体信息,并确定所述多媒体信息对应的自然语言文本。
例如,服务器22获取的多媒体信息可以是如图7所示的文本信息、实时音视频流、音频文件、音视频文件中的至少一个。
如果该多媒体信息是文本信息,则可以通过如图7所示的文本解析获得自然语言文本。如果该多媒体信息是实时音视频流,则调用实时ASR获得自然语言文本。如果该多媒体信息是音频文件,则调用录音文件ASR获得自然语言文本。如果该多媒体信息是音视频文件,则先对该音视频文件进行视频解析,以便抽取出该音视频文件中的音频信号,然后调用录音文件ASR获得自然语言文本。
S602、将所述多媒体信息对应的自然语言文本发送给运营人员的终端。
在本实施例中,服务器22可以将该多媒体信息对应的自然语言文本发送给运营人员的终端,使得该终端可以显示该自然语言文本。进一步,运营人员可以对该终端上显示的自然语言文本进行修改,从而实现如图7所示的原文干预。
S603、接收所述运营人员修改后的自然语言文本。
例如,运营人员对该自然语言文本进行修改后,服务器22可以从该运营人员的终端接收修改后的自然语言文本,该修改后的自然语言文本是如图7所示的干预后的原文。可以理解的是,在其他一些实施例中,运营人员可以不对该自然语言文本进行修改。
S604、将所述运营人员修改后的自然语言文本翻译为第一手语文本。
例如图7所示,通过调用机器翻译可以将修改后的自然语言文本翻译为第一手语文本,或者将原始的自然语言文本翻译为第一手语文本。具体的,将修改后的自然语言文本翻译为第一手语文本,或者将原始的自然语言文本翻译为第一手语文本的过程可以展示在运营人员的终端上,如图8所示或如图9所示。其中,图8所示是将实时音视频翻译为手语动画的过程,图9所示是将文本翻译为手语动画的过程。
S605、对所述第一手语文本进行语义精简处理,得到第二手语文本。
例如图7所示,通过调用语义精简可以对第一手语文本进行语义精简处理,得到第二手语文本,该第二手语文本可以是如图7所示的手语文本结果。
S606、将所述第二手语文本发送给运营人员的终端。
例如,在本实施例中,服务器22还可以将第二手语文本发送给运营人员的终端,使得运营人员对该第二手语文本进行修改,从而实现如图7所示的译文干预。
S607、接收所述运营人员修改后的第二手语文本。
例如,运营人员对该第二手语文本进行修改后,服务器22可以从该运营人员的终端接收修改后的第二手语文本,该修改后的第二手语文本是如图7所示的干预后的译文。可以理解的是,在其他一些实施例中,运营人员可以不对该第二手语文本进行修改。
S608、根据所述运营人员修改后的第二手语文本驱动数字人,使得所述数字人通过肢体将所述第二手语文本对应的手语动作表达出来,并且所述数字人的嘴型和表情分别与所述第二手语文本一致。
例如图7所示,服务器22可以根据运营人员修改后的第二手语文本,或者根据未修改的第二手语文本驱动数字人,驱动数字人的过程包括手语合成、表情合成、嘴型合成等过程。其中,手语合成可以是控制数字人通过肢体将第二手语文本对应的手语动作表达出来。表情合成可以是控制数字人的表情与正常人说自然语言时的表情一致。嘴型合成可以是控制数字人的嘴型与第二手语文本保持一致。
S609、若所述多媒体信息是实时的音频流或音视频流,则生成所述数字人的流式手语播报视频流,并将所述流式手语播报视频流实时的发送给终端。
例如图7所示,如果多媒体信息是实时的音频流或音视频流,则服务器22在驱动数字人的过程中可以生成数字人的流式手语播报视频流,并将该流式手语播报视频流实时的发送给听障人士的终端。可以理解的是,在一些实施例中,服务器22可以同时将该实时的音视频流和数字人的流式手语播报视频流下发给听障人士的终端,使得听障人士的终端不仅可以播放正常人能够观看的音视频,同时还可以播放该数字人的手语播报视频。
可选的,生成所述数字人的流式手语播报视频流,包括:根据所述数字人的配置信息,生成所述数字人的流式手语播报视频流。其中,所述数字人的配置信息包括如下至少一种:所述数字人的背景、颜色、所述数字人在用户界面中的位置和尺寸。
如图7所示,运营人员还可以配置合成效果,例如,运营人员的终端可以显示有配置界面,该配置界面中可以显示有该数字人的配置选项,运营人员通过操作这些配置选项从而实现对数字人的配置,即生成该数字人的配置信息,该配置信息可以包括数字人的背景、颜色、数字人在听障人士的用户界面中的位置和尺寸等。其中,如图7所示的镜头远近用于控制数字人在听障人士的用户界面中的尺寸。具体的,服务器22可以根据该数字人的配置信息生成数字人的流式手语播报视频流。此外,运营人员还可以对是否展示字幕进行配置,例如在配置字幕的情况下,听障人士还可以边看数字人打手语,边看字幕,提高理解效率。
S610、若所述多媒体信息是非实时的音频文件、音视频文件或文本文件,则生成所述数字人的手语播报视频文件,并将所述手语播报视频文件发送给终端。
例如图7所示,如果多媒体信息是文本信息、音频文件或音视频文件,则服务器22在驱动数字人的过程中可以生成数字人的手语播报视频文件,并将该手语播报视频文件发送给听障人士的终端。可以理解的是,在一些实施例中,服务器22可以同时将该多媒体信息和数字人的手语播报视频文件下发给听障人士的终端,使得听障人士的终端不仅可以播放正常人能够观看的文本信息、音频文件或音视频文件,同时还可以播放该数字人的手语播报视频文件。
可选的,生成所述数字人的手语播报视频文件,包括:根据所述数字人的配置信息,生成所述数字人的手语播报视频文件;其中,所述数字人的配置信息包括如下至少一种:所述数字人的背景、颜色、所述数字人在用户界面中的位置和尺寸。
具体的,服务器22可以根据该数字人的配置信息生成数字人的手语播报视频文件,该配置信息的来源和包括的内容如上所述,此处不再赘述。在本实施例中,该数字人的配置信息具体可以是由运营人员配置的。
本实施例通过融合实时语音识别、录音文件语音识别、视频解析等技术,可做到对纯文本、实时音视频、离线音视频文件多种模态的支持,应用场景更广。另外,本实施例提供的手语播报涉及多项算法技术,环环相扣,每个环节的输出均影响下一个环节的输入。本方案针对手语播报每个环节可输出独立结果,便于快速追溯定位链路中的问题。此外,手语的呈现不仅仅是身体和手部动作,在手语合成的基础上,通过嘴型合成、表情合成技术,将身体姿态与表情、嘴型融合,多种信息联动,从而更好的向听障人士传达信息。由于手语播报技术涉及算法多样,难以做到100%准确,同时,手语播报的应用场景多样,在不同的应用场景下对整个手语播报的最终结果呈现有差异化要求,因此通过提供可视化的界面,赋能运营人员对自然语言文本和手语文本进行干预、编辑,利用人机协同机制,提高了手语翻译的准确性,提升了端到端的效果。
图10为本公开实施例提供的数字人手语播报装置的结构示意图。本公开实施例提供的数字人手语播报装置可以执行数字人手语播报方法实施例提供的处理流程,如图10所示,数字人手语播报装置100包括:
获取模块101,用于获取多媒体信息;
确定模块102,用于确定所述多媒体信息对应的自然语言文本;
翻译模块103,用于将所述自然语言文本翻译为第一手语文本;
处理模块104,用于对所述第一手语文本进行语义精简处理,得到第二手语文本;
驱动模块105,用于根据所述第二手语文本驱动数字人,使得所述数字人通过肢体将所述第二手语文本对应的手语动作表达出来。
可选的,驱动模块105根据所述第二手语文本驱动数字人,使得所述数字人通过肢体将所述第二手语文本对应的手语动作表达出来时,具体包括:根据所述第二手语文本驱动数字人,使得所述数字人通过肢体将所述第二手语文本对应的手语动作表达出来,并且所述数字人的嘴型和表情分别与所述第二手语文本一致。
可选的,处理模块104还用于在确定模块102确定所述多媒体信息对应的自然语言文本之后,对所述自然语言文本进行语义精简处理,得到精简处理后的自然语言文本。翻译模块103具体用于:将所述精简处理后的自然语言文本翻译为第一手语文本。
可选的,驱动模块105包括获取单元1051和调整单元1052,其中,获取单元1051用于当所述多媒体信息是非实时的音频文件或音视频文件时,获取所述音频文件或所述音视频文件中每个音频信号的起始时间和终止时间;调整单元1052用于根据所述起始时间和所述终止时间,调整所述数字人表达手语动作的速度,使得所述数字人表达的手语动作和所述音频信号在时间轴上对齐。
可选的,数字人手语播报装置100还包括:发送模块106和接收模块107,发送模块106用于在确定模块102确定所述多媒体信息对应的自然语言文本之后,将所述多媒体信息对应的自然语言文本发送给运营人员的终端;接收模块107用于接收所述运营人员修改后的自然语言文本。翻译模块103具体用于将所述运营人员修改后的自然语言文本翻译为第一手语文本。
可选的,发送模块106还用于:在处理模块104对所述第一手语文本进行语义精简处理,得到第二手语文本之后,将所述第二手语文本发送给运营人员的终端;接收模块107还用于接收所述运营人员修改后的第二手语文本。驱动模块105具体用于:根据所述运营人员修改后的第二手语文本驱动数字人。
可选的,数字人手语播报装置100还包括:生成模块108,用于在驱动模块105根据所述第二手语文本驱动数字人之后,若所述多媒体信息是实时的音频流或音视频流,则生成所述数字人的流式手语播报视频流,并将所述流式手语播报视频流实时的发送给终端;若所述多媒体信息是非实时的音频文件、音视频文件或文本文件,则生成所述数字人的手语播报视频文件,并将所述手语播报视频文件发送给终端。可选的,该终端可以是听障人士的终端。
可选的,生成模块108在生成所述数字人的流式手语播报视频流时,具体用于:根据所述数字人的配置信息,生成所述数字人的流式手语播报视频流;生成模块108在生成所述数字人的手语播报视频文件时,具体用于:根据所述数字人的配置信息,生成所述数字人的手语播报视频文件;其中,所述数字人的配置信息包括如下至少一种:所述数字人的背景、颜色、所述数字人在用户界面中的位置和尺寸。其中,所述数字人的配置信息可以是由运营人员配置的。
图10所示实施例的数字人手语播报装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
以上描述了数字人手语播报装置的内部功能和结构,该装置可实现为一种电子设备。图11为本公开实施例提供的电子设备实施例的结构示意图。如图11所示,该电子设备包括存储器111和处理器112。
存储器111用于存储程序。除上述程序之外,存储器111还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器111可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器112与存储器111耦合,执行存储器111所存储的程序,以用于:
获取多媒体信息,并确定所述多媒体信息对应的自然语言文本;
将所述自然语言文本翻译为第一手语文本;
对所述第一手语文本进行语义精简处理,得到第二手语文本;
根据所述第二手语文本驱动数字人,使得所述数字人通过肢体将所述第二手语文本对应的手语动作表达出来。
进一步,如图11所示,电子设备还可以包括:通信组件113、电源组件114、音频组件115、显示器116等其它组件。图11中仅示意性给出部分组件,并不意味着电子设备只包括图11所示组件。
通信组件113被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件113经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件113还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件114,为电子设备的各种组件提供电力。电源组件114可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件115被配置为输出和/或输入音频信号。例如,音频组件115包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器111或经由通信组件113发送。在一些实施例中,音频组件115还包括一个扬声器,用于输出音频信号。
显示器116包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
另外,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的数字人手语播报方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数字人手语播报方法,其中,所述方法包括:
获取多媒体信息,并确定所述多媒体信息对应的自然语言文本;
将所述自然语言文本翻译为第一手语文本;
对所述第一手语文本进行语义精简处理,得到第二手语文本;
根据所述第二手语文本驱动数字人,使得所述数字人通过肢体将所述第二手语文本对应的手语动作表达出来。
2.根据权利要求1所述的方法,其中,确定所述多媒体信息对应的自然语言文本之后,所述方法还包括:
对所述自然语言文本进行语义精简处理,得到精简处理后的自然语言文本;
将所述自然语言文本翻译为第一手语文本,包括:
将所述精简处理后的自然语言文本翻译为第一手语文本。
3.根据权利要求1所述的方法,其中,根据所述第二手语文本驱动数字人,包括:
若所述多媒体信息是非实时的音频文件或音视频文件,则获取所述音频文件或所述音视频文件中每个音频信号的起始时间和终止时间;
根据所述起始时间和所述终止时间,调整所述数字人表达手语动作的速度,使得所述数字人表达的手语动作和所述音频信号在时间轴上对齐。
4.根据权利要求1所述的方法,其中,根据所述第二手语文本驱动数字人之后,所述方法还包括:
若所述多媒体信息是实时的音频流或音视频流,则生成所述数字人的流式手语播报视频流,并将所述流式手语播报视频流实时的发送给终端;
若所述多媒体信息是非实时的音频文件、音视频文件或文本文件,则生成所述数字人的手语播报视频文件,并将所述手语播报视频文件发送给终端。
5.根据权利要求4所述的方法,其中,生成所述数字人的流式手语播报视频流,包括:
根据所述数字人的配置信息,生成所述数字人的流式手语播报视频流;
生成所述数字人的手语播报视频文件,包括:
根据所述数字人的配置信息,生成所述数字人的手语播报视频文件;
其中,所述数字人的配置信息包括如下至少一种:
所述数字人的背景、颜色、所述数字人在用户界面中的位置和尺寸。
6.一种数字人手语播报装置,其中,包括:
获取模块,用于获取多媒体信息;
确定模块,用于确定所述多媒体信息对应的自然语言文本;
翻译模块,用于将所述自然语言文本翻译为第一手语文本;
处理模块,用于对所述第一手语文本进行语义精简处理,得到第二手语文本;
驱动模块,用于根据所述第二手语文本驱动数字人,使得所述数字人通过肢体将所述第二手语文本对应的手语动作表达出来。
7.根据权利要求6所述的装置,其中,所述处理模块还用于在所述确定模块确定所述多媒体信息对应的自然语言文本之后,对所述自然语言文本进行语义精简处理,得到精简处理后的自然语言文本;
相应的,所述翻译模块具体用于:将所述精简处理后的自然语言文本翻译为第一手语文本。
8.根据权利要求6所述的装置,其中,所述驱动模块包括获取单元和调整单元;
所述获取单元用于当所述多媒体信息是非实时的音频文件或音视频文件时,获取所述音频文件或所述音视频文件中每个音频信号的起始时间和终止时间;
所述调整单元用于根据所述起始时间和所述终止时间,调整所述数字人表达手语动作的速度,使得所述数字人表达的手语动作和所述音频信号在时间轴上对齐。
9.一种电子设备,其中,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN202210785961.2A 2022-07-04 2022-07-04 数字人手语播报方法、装置、设备及存储介质 Pending CN115359796A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210785961.2A CN115359796A (zh) 2022-07-04 2022-07-04 数字人手语播报方法、装置、设备及存储介质
PCT/CN2023/105575 WO2024008047A1 (zh) 2022-07-04 2023-07-03 数字人手语播报方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210785961.2A CN115359796A (zh) 2022-07-04 2022-07-04 数字人手语播报方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115359796A true CN115359796A (zh) 2022-11-18

Family

ID=84030342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210785961.2A Pending CN115359796A (zh) 2022-07-04 2022-07-04 数字人手语播报方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN115359796A (zh)
WO (1) WO2024008047A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024008047A1 (zh) * 2022-07-04 2024-01-11 阿里巴巴(中国)有限公司 数字人手语播报方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210026006A (ko) * 2019-08-29 2021-03-10 조용구 영상의 음성을 아바타 및 애니메이션으로 변환하는 수화번역 시스템 및 방법
CN113835522A (zh) * 2021-09-10 2021-12-24 阿里巴巴达摩院(杭州)科技有限公司 手语视频生成、翻译、客服方法、设备和可读介质
CN114157920B (zh) * 2021-12-10 2023-07-25 深圳Tcl新技术有限公司 一种展示手语的播放方法、装置、智能电视及存储介质
CN114546326A (zh) * 2022-02-22 2022-05-27 浙江核新同花顺网络信息股份有限公司 一种虚拟人手语生成方法和系统
CN115359796A (zh) * 2022-07-04 2022-11-18 阿里巴巴(中国)有限公司 数字人手语播报方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024008047A1 (zh) * 2022-07-04 2024-01-11 阿里巴巴(中国)有限公司 数字人手语播报方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2024008047A1 (zh) 2024-01-11

Similar Documents

Publication Publication Date Title
US9547642B2 (en) Voice to text to voice processing
US8515728B2 (en) Language translation of visual and audio input
US11423911B1 (en) Systems and methods for live broadcasting of context-aware transcription and/or other elements related to conversations and/or speeches
US10991380B2 (en) Generating visual closed caption for sign language
JP2003345379A6 (ja) 音声映像変換装置及び方法、音声映像変換プログラム
KR101899588B1 (ko) 수어 애니메이션 데이터를 자동으로 생성하는 시스템과 이를 이용한 방송시스템 및 방송방법
US20120033133A1 (en) Closed captioning language translation
EP1486949A1 (en) Audio video conversion apparatus and method, and audio video conversion program
KR20130029055A (ko) 청각 장애인을 위해 음성 언어를 수화로 번역하기 위한 시스템
WO2019063751A1 (en) SUBTITLE PROVIDING SYSTEM
CN110730360A (zh) 视频上传、播放的方法、装置、客户端设备及存储介质
WO2024008047A1 (zh) 数字人手语播报方法、装置、设备及存储介质
JP7417272B2 (ja) 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム
JP6172770B2 (ja) 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム
JPH1141538A (ja) 音声認識文字表示装置
Duarte et al. Multimedia accessibility
CN112764549B (zh) 翻译方法、装置、介质和近眼显示设备
KR20140084463A (ko) 화자 정보를 표시하는 장치 및 방법 그리고, 동영상을 편집하는 서버
US20240154833A1 (en) Meeting inputs
KR20010017865A (ko) 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법
KR102546532B1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
WO2017183127A1 (ja) 表示装置、出力装置、および情報表示方法
KR20230107059A (ko) 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법
US20230186899A1 (en) Incremental post-editing and learning in speech transcription and translation services
WO2022237381A1 (zh) 保存会议记录的方法、终端及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination