CN114157920A

CN114157920A - 一种展示手语的播放方法、装置、智能电视及存储介质

Info

Publication number: CN114157920A
Application number: CN202111509904.3A
Authority: CN
Inventors: 钟伟健
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-08
Anticipated expiration: 2041-12-10
Also published as: CN114157920B

Abstract

本发明实施例公开了一种展示手语的播放方法、装置、智能电视及存储介质，其中，该方法应用于智能电视，包括：获取所述智能电视的当前播放节目的原始音频信息，将所述原始音频信息转换为目标手语文本；基于所述目标手语文本，获取若干个手语数据，从若干个所述手语数据中选取目标手语数据；根据所述目标手语数据，获取若干帧手势图像及嘴型图像；根据若干帧所述手势图像及所述嘴型图像生成虚拟人，所述虚拟人展示与所述手势图像对应的手势，以及与所述嘴型图像对应的嘴型。通过上述方式，听力障碍人士在观看智能电视节目或直播时，可以通过虚拟人的展示理解其中内容，实现听力障碍人士正常观看的目的。

Description

一种展示手语的播放方法、装置、智能电视及存储介质

技术领域

本发明涉及智能电视技术领域，尤其涉及一种展示手语的播放方法、装置、智能电视及存储介质。

背景技术

手语是用手势比量动作，根据手势的变化模拟形象或者音节以构成的一定意思或词语，它是听力受损人士互相交际和交流思想的一种手的语言，是有声语言的重要辅助工具，对于听力受损人士来说，它是主要的交际工具。

随着科技的发展，智能电视成为人们生活中不可或缺的娱乐设备，智能电视可以播放剧情视频、晚会节目、直播视频等，丰富人们的生活。

而目前，智能电视在播放大多数节目的过程中，具体表现为只有画面和声音，缺乏手语表达，使得听力障碍人士无法正常观看。

发明内容

本发明实施例提供一种展示手语的播放方法、装置、智能电视及存储介质，用于在播放节目的过程中，将音频信息转化为手语的形式展示于屏幕，使得听力障碍人士可以正常观看。

第一方面，本发明实施例提供一种展示手语的播放方法，应用于智能电视，所述方法包括：

获取所述智能电视的当前播放节目的原始音频信息，将所述原始音频信息转换为目标手语文本；

基于所述目标手语文本，获取若干个手语数据，从若干个所述手语数据中选取目标手语数据；

根据所述目标手语数据，获取若干帧手势图像及嘴型图像；

根据若干帧所述手势图像及所述嘴型图像生成虚拟人，所述虚拟人展示与所述手势图像对应的手势，以及与所述嘴型图像对应的嘴型。

可选的，在所述获取所述智能电视的当前播放节目的原始音频信息之前，所述方法还包括：

判断所述智能电视的手语展示按键是否启动；

当所述手语展示按键未启动，结束；

当所述手语展示按键启动，获取所述智能电视的当前播放节目的原始音频信息。

判断所述智能电视的手语展示按键是否启动；

当所述手语展示按键未启动，结束；

当所述手语展示按键启动，获取所述智能电视的当前播放音量，判断所述当前播放音量是否大于预设音量；

当所述当前播放音量大于所述预设音量，所述智能电视显示音量提醒信息；

当所述当前播放音量小于所述预设音量，获取所述智能电视的当前播放节目的原始音频信息，将所述原始音频信息转换为目标手语文本。

可选的，所述获取所述智能电视的当前播放节目的原始音频信息，将所述原始音频信息转换为目标手语文本的具体实施过程为：

获取所述智能电视的当前播放节目的原始音频信息；

将所述原始音频信息进行特征提取，获得人声音频信息；

基于所述人声音频信息，获得人声音频数据；

对所述人声音频数据进行语义识别及逐字翻译，得到目标手语文本。

可选的，所述基于所述目标手语文本，获取若干个手语数据，从若干个目标手语数据中选取目标手语数据的具体实施过程为：

提取所述目标手语文本的若干个目标手语数据；

将若干个所述目标手语数据进行重组得到若干组模型参数；

将若干组所述模型参数依次输入预设模型进行计算，得到若干个手语数据；

从若干个所述手语数据中选取目标手语数据。

可选的，所述根据所述目标手语数据，获取若干帧手势图像及嘴型图像的具体实施过程为：

将所述目标手语数据根据语义进行拆分，得到若干个手语词语；

从预设手语库中选取与每一所述手语词语对应的手势图像及嘴型图像。

可选的，在所述根据所述目标手语数据，获取若干帧手势图像及嘴型图像之后，所述方法还包括：

设定同步开始标签；

将若干帧所述手势图像及所述嘴型图像均添加入所述同步开始标签；

设定同步结束标签；

将若干帧所述手势图像及所述嘴型图像均添加入所述同步结束标签。

第二方面，本发明实施例提供了一种展示手语的播放装置，应用于智能电视，所述装置包括：

获取及转换单元，用于获取所述智能电视的当前播放节目的原始音频信息，将所述原始音频信息转换为目标手语文本；

选取单元，用于基于所述目标手语文本，获取若干个手语数据，从若干个所述手语数据中选取目标手语数据；

图像获取单元，用于根据所述目标手语数据，获取若干帧手势图像及嘴型图像；

生成及展示单元，用于根据若干帧所述手势图像及所述嘴型图像生成虚拟人，所述虚拟人展示与所述手势图像对应的手势，以及与所述嘴型图像对应的嘴型。

第三方面，本发明实施例还提供了一种智能电视，所述智能电视包括存储器、处理器及显示器，所述存储器、显示器均与所述处理器电性连接，所述存储器用于存储指令，所述处理器用于调用所述存储器存储的指令执行上述的任意一项所述的展示手语的播放方法，所述显示器用于显示图像或视频。

第四方面，本发明还提供了一种存储介质，所述存储介质中存储有多条指令，所述指令被处理器执行时实现上述的任一项所述的展示手语的播放方法。

在本发明实施例中，在听力障碍人士观看智能电视节目时，获取智能电视的当前播放节目的原始音频信息，将原始音频信息转换为目标手语文本，基于目标手语文本，获取若干个手语数据，从若干个手语数据中选取目标手语数据，根据目标手语数据，获取若干帧手势图像及嘴型图像，根据若干帧手势图像及嘴型图像生成虚拟人，通过虚拟人展示与手势图像对应的手势，以及与嘴型图像对应的嘴型。通过上述方式，听力障碍人士在观看智能电视节目或直播时，可以通过虚拟人的展示理解其中内容，实现听力障碍人士正常观看的目的。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种展示手语的播放方法的一流程图。

图2是本申请实施例提供的一种展示手语的播放方法的另一流程图。

图3是本申请实施例提供的一种展示手语的播放方法的又一流程图。

图4是本申请实施例提供的一种展示手语的播放装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种展示手语的播放方法、装置、智能电视及存储介质，通过虚拟人展示手语及嘴型的方式，使得听力障碍人士可以理解播放内容，使得听力障碍人士可以正常观看电视节目或者直播。

以下将对所述展示手语的播放方法、装置、智能电视及存储介质分别进行详细说明。

请参阅图1，图1为本申请实施例提供的一种展示手语的播放方法的一流程图，应用于智能电视，智能电视可以播放电视节目，也可以进行直播等等，一种展示手语的播放方法包括如下步骤：

101、获取所述智能电视的当前播放节目的原始音频信息，将所述原始音频信息转换为目标手语文本。

智能电视在进行播放节目或者直播时，通常，音频信息中除了人声之外，还包括非人声，通过结合人声和非人声，使得节目播放效果或者直播效果更佳，用户的观看效果也更好。

而对于听力障碍人士，在观看智能电视播放的节目或者直播时，最重要的是可以理解人声音频信息的内容。

请参阅图2，图2为本申请实施例提供的一种展示手语的播放方法的另一流程图，该流程图是对步骤101的细化，进一步的，步骤101包括：

1011、获取所述智能电视的当前播放节目的原始音频信息。

当前播放节目，指的是智能电视的显示屏正在显示的节目，则获取的原始音频信息是智能电视的显示屏当前显示的节目的音频信息。

可选的，当用户从一个节目切换至另一个节目之后，不再获取之前节目的音频信息，而是转去获取切换后显示屏正在显示的节目的音频信息。

获取智能电视的当前播放节目的原始音频信息，则该原始音频信息中通常包括有人声音频信息和非人声音频信息。

1012、将所述原始音频信息进行特征提取，获得人声音频信息。

对于具有听力障碍的用户而言，需要理解的是人声音频信息表达的内容，因此，在获取原始音频信息之后，通过处理以得到人声音频信息，并基于该人声音频信息进行后续处理。

在本申请的实施例中，获得人声音频信息包括特征提取及音频分离两个部分的内容。在进行特征提取时，基于预设的特征提取模型，对原始音频信息进行特征提取处理，得到特征系数；在进行音频分离时，基于预设的音频分离模型，将特征系数输入音频分离模型进行处理，以分离得到人声音频信息。

1013、基于所述人声音频信息，获得人声音频数据。

在本申请的实施例中，在经过特征提取及音频分离得到人声音频信息之后，那么，人声音频信息上包括有若干个相应的特征，基于人声音频信息，通过预设的特征还原模型，对人声音频信息进行处理，将人声音频信息包含的若干个特征还原为人声音频数据，基于人声音频数据对后续步骤进行处理。

1014、对所述人声音频数据进行语义识别及逐字翻译，得到目标手语文本。

通过语义识别及逐字翻译的方式，将人声音频数据转换为目标文本的形式，该目标文本与人声音频数据相对应。例如，获取的原始音频信息中的人声音频信息为“升国旗，唱国歌”，那么，对应的目标文本的内容也为“升国旗，唱国歌”。

目标文本方便人们通过阅读进行理解，但是，由于手语表达的方式与目标文本的字面意思存在差别，因此，需要将目标文本转换为听力障碍人士可以看得懂的手语，听力障碍人士才能够准确理解人声音频信息对应的意思。

在本申请的实施例中，将人声音频数据转换为目标文本之后，对目标文本进行词语特征提取，将提取的词语特征对应手语系统，综合转换为目标手语文本，目标手语文本与目标文本的意思对应，又符合听力障碍人士的理解。

而在对目标文本的提取过程中，判断是否存在当前流行词语，或者，判断是否存在外文。

判断是否存在当前流程词语的方式为：设定当前流行词语库，将提取的目标文本的词语输入当前流行词语库内进行搜索识别，当存在当前流行词语时，可以提取该流行词语，并进行存储于特定位置，在播放时，除了虚拟人展示手语，还可以将流行词语及其语义进行显示，便于听力障碍人士的理解。

判断是否存在外文的方式为：设定外文库，将提取的目标文本的词语输入外文库内进行搜索识别，当存在外文时，可以提取该外文，并进行存储于特定位置，在播放时，除了虚拟人展示手语，还可以将外文及其中文翻译的意思进行显示，便于听力障碍人士的理解。

可选的，在一些实施例中，在进行步骤101之前，该方法包括：判断智能电视的手语展示按键是否启动，当手语展示按键未启动，结束，当手语展示按键启动，获取智能电视的当前播放节目的原始音频信息。

由于智能电视的使用用户不仅仅包括听力障碍人士，设置手语展示按键，通过启动或者关闭控制智能电视的显示屏的手语展示的打开和关闭，以满足更大范围的用户的需求。

在智能电视上设置虚拟的手语展示按键，或者，在智能电视上设置实体的手语展示按键，当观看节目或者直播的过程中，需要手语展示时，通过启动该手语展示按键实现。

可选的，在一些实施例中，在进行步骤101之前，该方法还包括：判断智能电视的手语展示按键是否启动，当手语展示按键未启动，结束，当手语展示按键启动，获取智能电视的当前播放音量，判断当前播放音量是否大于预设音量，当当前播放音量大于预设音量，智能电视显示音量提醒信息，当当前播放音量小于预设音量，获取智能电视的当前播放节目的原始音频信息，将原始音频信息转换为目标手语文本。

在观看智能电视的节目或者直播的过程中，启动了手语展示按键，则说明正在观看的用户可能是听力障碍人士，而听力障碍人士由于对声音的感知能力较弱，可能无法注意到智能电视的音量的大小。

在启动手语展示按键之后，获取当前播放音量，将当前播放音量与预设音量进行对比，通过对比结果，可以判断当前播放音量是否超出正常观看智能电视的音量值，则进行提醒，避免产生噪音影响。

提醒的方式可以为提醒信息进行提醒，即在智能电视的显示屏上显示提醒信息，并且，在进行提醒之后，计算提醒时长，在预设提醒时长内，若没有检测到音量调小，则进行自动调节，系统自动将智能电视的音量调节至正常范围，即不产生噪音影响的范围值。

提醒的方式也可以为连接终端进行提醒，这种方式是为了避免听力障碍人士在打开智能电视进行播放，但是没有专心观看而是玩手机的情况下设定的，通过将提醒信息发送给终端以实现提醒。

提醒的方式也可以是提醒信息结合终端提醒，在显示屏进行提醒之后，计算提醒时长，在预设提醒时长内，若没有检测到音量调小，将提醒信息发送给终端，通过终端进行进一步的提醒。

请复参阅图1，在完成步骤101之后，继续进行后续的步骤：

102、基于所述目标手语文本，获取若干个手语数据，从若干个所述手语数据中选取目标手语数据。

目标手语文本为与听力障碍人士的理解相符合的文本，但是，在展示手语时，存在区别，需要将目标手语文本转换为对应的手语，听力障碍人士才能通过展示的手语理解目标手语文本对应的意思。

请参阅图3，图3为本申请实施例提供的一种展示手语的播放方法的又一流程图，该流程图是对步骤102的细化，进一步的，步骤102包括：

1021、提取所述目标手语文本的若干个目标手语数据。

目标手语文本为文本的形式，需要转换为手语进行展示，才能使得听力障碍人士理解。

对目标手语文本进行数据的提取，从而获得若干个目标手语收据，在后续处理过程中，以若干个目标手语数据为基准，进行转换为与目标手语文本对应的手语。

1022、将若干个所述目标手语数据进行重组得到若干组模型参数。

在提取得到若干个目标手语数据之后，对其进行重组，以得到若干组模型参数，每一组模型参数对应的手语存在区别，没一组模型参数对应的手语与目标手语文本表达的意思存在区别。

在后续处理中，基于若干组模型参数，选取与目标手语文本的表达意思最相符的模型参数。

1023、将若干组所述模型参数依次输入预设模型进行计算，得到若干个手语数据。

在处理时，将每一组模型参数输入预设模型，基于预先设置的计算方式对其进行计算，得到相应的手语数据。

1024、从若干个所述手语数据中选取目标手语数据。

可选的，在计算得到若干手语数据之后，将若干手语数据进行对比，从中选择最适手语数据作为目标手语数据。

可选的，在计算得到若干手语数据之后，将每一手语数据进行更新模型参数，通过对比选取最优模型参数确定手语转换模型。

请复参阅图1，在完成步骤102之后，继续进行后续的步骤：

103、根据所述目标手语数据，获取若干帧手势图像及嘴型图像。

将目标手语数据根据语义进行拆分，得到若干个手语词语，从预设手语库中选取与每一手语词语对应的手势图像及嘴型图像。

可选的，将目标手语数据根据语义进行拆分，即将目标手语数据进行分词处理，以得到若干个手语词语，或者，以得到若干个手语词语及手语词组。

将每一手语词语通过迭代遍历的方式在预设手语库中选取对应的手势图像及嘴型图像。

在预设手语库中，设置有与每个词语对应的手语的手势图像，并且，通过每个词语的读音，可以找寻到相应的嘴型图像，通过将每个词语的手势图像及对应的嘴型图像结合，可以实现虚拟人展示手势及嘴型的效果。

可选的，在一些实施例中，在进行步骤103之后，该方法还包括：设定同步开始标签，将若干帧所述手势图像及所述嘴型图像均添加入所述同步开始标签，设定同步结束标签，将若干帧所述手势图像及所述嘴型图像均添加入所述同步结束标签。

设置同步开始标签及同步结束标签，并将手势图像及嘴型图像均添加入两个标签的目的在于实现手势与对应的嘴型的同步，使得听力障碍人士在通过虚拟人展示手势理解节目或者直播内容的同时，可以通过虚拟人的嘴型更进一步地进行理解。

相应的，在设置时，应该根据各个手势图像对应的手语词语在目标手语数据中的位置进行逐步添加，避免出现错乱。

104、根据若干帧所述手势图像及所述嘴型图像生成虚拟人，所述虚拟人展示与所述手势图像对应的手势，以及与所述嘴型图像对应的嘴型。

在获取若干帧手势图像及嘴型图像之后，生成虚拟人，该虚拟人显示于智能电视的显示屏的左下角或者右下角的位置，通过该虚拟人，展示与手势图像对应的手势，以及与嘴型图像对应的嘴型，使得听力障碍人士可以理解节目内容或者直播内容。

可选的，当出现当前流行词语或者外文时，在智能电视的显示屏的相应位置展示当前流行词语或者外文，以及代表的意思，而在设定智能电视时，通常，是在智能电视的显示屏的左下角或者右下角的矩形方框内呈现虚拟人，那么，相应位置可以定义为矩形方框内的空白处。

本申请实施例提供一种展示手语的播放方法，应用于智能电视，在听力障碍人士观看智能电视节目时，获取智能电视的当前播放节目的原始音频信息，将原始音频信息转换为目标手语文本，基于目标手语文本，获取若干个手语数据，从若干个手语数据中选取目标手语数据，根据目标手语数据，获取若干帧手势图像及嘴型图像，根据若干帧手势图像及嘴型图像生成虚拟人，通过虚拟人展示与手势图像对应的手势，以及与嘴型图像对应的嘴型。通过上述方式，听力障碍人士在观看智能电视节目或直播时，可以通过虚拟人的展示理解其中内容，实现听力障碍人士正常观看的目的。

请参阅图4，图4为本申请实施例提供的一种展示手语的播放装置的结构示意图，该装置包括：

201、获取及转换单元，用于获取智能电视的当前播放节目的原始音频信息，将原始音频信息转换为目标手语文本。

202、选取单元，用于基于目标手语文本，获取若干个手语数据，从若干个手语数据中选取目标手语数据。

203、图像获取单元，用于根据目标手语数据，获取若干帧手势图像及嘴型图像。

204、生成及展示单元，用于根据若干帧手势图像及嘴型图像生成虚拟人，虚拟人展示与手势图像对应的手势，以及与嘴型图像对应的嘴型。

可选的，本申请实施例的展示手语的播放装置还包括其它功能的单元，在此不进行赘述。

本申请实施例的展示手语的播放装置，应用于智能电视，在听力障碍人士观看智能电视节目时，获取智能电视的当前播放节目的原始音频信息，将原始音频信息转换为目标手语文本，基于目标手语文本，获取若干个手语数据，从若干个手语数据中选取目标手语数据，根据目标手语数据，获取若干帧手势图像及嘴型图像，根据若干帧手势图像及嘴型图像生成虚拟人，通过虚拟人展示与手势图像对应的手势，以及与嘴型图像对应的嘴型。通过上述方式，听力障碍人士在观看智能电视节目或直播时，可以通过虚拟人的展示理解其中内容，实现听力障碍人士正常观看的目的。

在本申请的实施例中，还提供了一种智能电视，包括存储器、处理器及显示器，存储器及显示器均与处理器电性连接，存储器用于存储指令，显示器用于显示图像或视频，处理器用于调用存储器存储的指令执行上述的上述任一展示手语的播放方法。

在本申请的实施例中，还提供了一种存储介质，该存储介质中存储有多条指令，该指令被处理器执行时实现上述任一展示手语的播放方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

以上对本申请实施例所提供的展示手语的播放方法、装置、智能电视及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种展示手语的播放方法，应用于智能电视，其特征在于，所述方法包括：

根据所述目标手语数据，获取若干帧手势图像及嘴型图像；

2.根据权利要求1所述的展示手语的播放方法，其特征在于，在所述获取所述智能电视的当前播放节目的原始音频信息之前，所述方法还包括：

判断所述智能电视的手语展示按键是否启动；

当所述手语展示按键未启动，结束；

3.根据权利要求1所述的展示手语的播放方法，其特征在于，在所述获取所述智能电视的当前播放节目的原始音频信息之前，所述方法还包括：

判断所述智能电视的手语展示按键是否启动；

当所述手语展示按键未启动，结束；

4.根据权利要求1所述的展示手语的播放方法，其特征在于，所述获取所述智能电视的当前播放节目的原始音频信息，将所述原始音频信息转换为目标手语文本的具体实施过程为：

获取所述智能电视的当前播放节目的原始音频信息；

将所述原始音频信息进行特征提取，获得人声音频信息；

基于所述人声音频信息，获得人声音频数据；

5.根据权利要求1所述的展示手语的播放方法，其特征在于，所述基于所述目标手语文本，获取若干个手语数据，从若干个目标手语数据中选取目标手语数据的具体实施过程为：

提取所述目标手语文本的若干个目标手语数据；

将若干个所述目标手语数据进行重组得到若干组模型参数；

从若干个所述手语数据中选取目标手语数据。

6.根据权利要求1所述的展示手语的播放方法，其特征在于，所述根据所述目标手语数据，获取若干帧手势图像及嘴型图像的具体实施过程为：

7.根据权利要求1所述的展示手语的播放方法，其特征在于，在所述根据所述目标手语数据，获取若干帧手势图像及嘴型图像之后，所述方法还包括：

设定同步开始标签；

设定同步结束标签；

8.一种展示手语的播放装置，应用于智能电视，其特征在于，所述装置包括：

9.一种智能电视，其特征在于，所述智能电视包括存储器、处理器及显示器，所述存储器、显示器均与所述处理器电性连接，所述存储器用于存储指令，所述显示器用于显示图像或视频，所述处理器用于调用所述存储器存储的指令执行如权利要求1-7中任意一项所述的展示手语的播放方法。

10.一种存储介质，其特征在于，所述存储介质中存储有多条指令，所述指令被处理器执行时实现如权利要求1-7任一项所述的展示手语的播放方法。