CN115457981A

CN115457981A - 一种便于听障人士观看视频的方法和基于该方法的电视

Info

Publication number: CN115457981A
Application number: CN202211077372.5A
Authority: CN
Inventors: 魏逸敏; 周明; 李永祥; 晋圣祥; 赵文杰
Original assignee: Anhui Konka Electronics Co Ltd
Current assignee: Anhui Konka Electronics Co Ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-12-09

Abstract

本发明公开了一种便于听障人士观看视频的方法和基于该方法的电视，其中方法包括S1，对视频播放画面和语音进行实时采集；S2，对采集的信息进行语音识别以及面部表情和动作识别；S3，对步骤S2中识别的结果分别提取情绪特征；S4，对步骤S3中的情绪特征进行特征融合；S5，将特征融合结果输入预设的情绪识别模型中进行情绪识别；S6，根据情绪识别结果和步骤S3得到的语音识别结果进行文字转换和手语转换；S7，将步骤S6转换后的结果进行显示。本发明可以集合电视画面中的动作信息、面部表情信息以及语言信息，进行准确的情绪识别，并基于情绪识别和语言信息进行文字转换和手语转换，并通过显示屏展现出来，极大程度的改善并丰富了听障人员的生活。

Description

一种便于听障人士观看视频的方法和基于该方法的电视

技术领域

本发明涉及智能电视领域，特别涉及一种便于听障人士观看视频的方法和基于该方法的电视。

背景技术

据全国第二次残疾人抽样调查，我国听力障碍人数已近3000万，听障相关的基础配套设施和专业服务人员远远落后于群体需求。对听力障碍人群而言，他们除了使用手语交流以外，与普通人几乎没有区别，因此极易被社会忽视：不能及时自主获取非言语的信号，如闹钟、门铃、预警、汽车鸣笛、电话铃声等，危险随时可能发生；无法在互联网上更好的获取自己需要的信息，尤其视频和音频，与健听人产生信息“时差”；多数生活在封闭小世界里，社会活动参与度极低。在这个用信息连接一切的社会，听障人群仿佛被困于“现代孤岛”，被高速发展的环境远远甩在身后。

设计听障人士专用的平板电视显得更为重要，让听障人士了解这个世界，与这个世界产生共鸣。

发明内容

为了解决现有问题，本发明提供了一种便于听障人士观看视频的方法和基于该方法的电视，具体方案如下：

一种便于听障人士观看视频的方法，包括以下步骤：

S1，对视频播放画面和语音进行实时采集；

S2，对采集的视频画面和语音进行语音识别以及面部表情和动作识别；

S3，对步骤S2中识别的结果分别提取情绪特征；

S4，对步骤S3中的情绪特征进行特征融合；

S5，将特征融合结果输入预设的情绪识别模型中进行情绪识别；

S6，根据步骤S5得到的情绪识别结果和步骤S2得到的语音识别结果进行文字转换和手语转换；

S8，将步骤S6转换后的结果进行显示。

优选的，所述步骤S5进行情绪模型构建的步骤具体包括：

S51，采集的语音信息集以及面部表情和动作信息集；

S52，对步骤S51采集的信息进行数据预处理；

S53，对预处理后的数据集分别进行情绪特征提取并融合，保存为特征信息集；

S54，通过预设的情绪分类模型分别对所述特征信息集进行情绪识别，得到各特征信息对应的情绪类型；

S55，根据得到的情绪类型对各特征信息设置对应的分类标签，并按照分类标签将特征信息分类储存之预设的文件目录中，得到训练样本集；

S56，基于所述训练样本集对预设的深度学习神经网络模型进行训练，得到情绪识别模型。

优选的，步骤S52对采集的所述语音信息集进行预处理的步骤具体包括：对采集的所述语音信息集依次进行降噪处理、语音增强处理和语音片段截取。

本发明还揭示了一种计算机可读存储介质，介质上存有计算机程序，计算机程序运行后，执行如上述任一所述的便于听障人士观看视频的方法。

本发明还揭示了一种计算机系统，包括处理器、存储介质，存储介质上存有计算机程序，处理器从存储介质上读取并运行计算机程序以执行如上述任一所述的便于听障人士观看视频的方法。

优选的，基于上述任一项所述的便于听障人士观看视频的方法的电视，包括：依次进行数据交互的采集模块、预处理器、采集信息识别模块、情绪识别模块、特征融合模块、显示转换模块以及显示屏。

优选的，所述采集模块包括语音采集模块、面部表情和动作采集模块；所述采集信息识别模块包括语音识别模块、面部表情和动作识别模块；所述显示转换模块包括文字转换模块以及手语转换模块。

本发明的有益效果在于：

本发明可以集合电视画面中的动作信息、面部表情信息以及语言信息，进行准确的情绪识别，并基于情绪识别和语言信息进行文字转换和手语转换，并通过显示屏展现出来，极大程度的改善并丰富了听障人员的生活。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明的方法流程图；

图2为本发明的电气原理框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1，一种便于听障人士观看视频的方法，包括以下步骤：

S1，对视频播放画面和语音进行实时采集；

S3，对步骤S2中识别的结果分别提取情绪特征；

S4，对步骤S3中的情绪特征进行特征融合；

其中，进行情绪模型构建的步骤具体包括：

S51，采集的语音信息集以及面部表情和动作信息集；

S52，对步骤S51采集的信息进行数据预处理；其中预处理的步骤具体包括：对采集的所述语音信息集依次进行降噪处理、语音增强处理和语音片段截取；

S6，根据步骤S5得到的情绪识别结果和步骤S3得到的语音识别结果进行文字转换和手语转换；

S7，将步骤S6转换后的结果进行显示。

如图2，基于上述任一项所述的便于听障人士观看视频的方法的电视，包括：依次进行数据交互的采集模块、预处理器、采集信息识别模块、情绪识别模块、特征融合模块、显示转换模块以及显示屏。

所述采集模块包括语音采集模块、面部表情和动作采集模块；所述采集信息识别模块包括语音识别模块、面部表情和动作识别模块；所述显示转换模块包括文字转换模块以及手语转换模块。

所述手语转换模块中包括存储模块，所述存储模块中存储有手语数据集。

面部表情和动作采集模块和语音采集模块分别用于采集视频中的面部表情和动作信息、以及语音信息，并实时上传至预处理器中进行预处理。

预处理器将预处理后的数据信息分别上传至面部表情和动作识别模块和语音识别模块，分别进行面部表情和动作识别、以及语音识别。

面部表情和动作识别模块、以及语音识别模块分别将面部表情和动作识别、以及语音识别的结果上传至情绪识别模块，分别进行对应的情绪特征提取。

情绪识别模块将情绪特征提取结果上传至特征融合模块进行情绪特征融合并分类。

特征融合模块将融合并分类后的特征数据上传到文字转换模块和手语转换模块。文字转换模块将特征数据转换为文字信息并上传至显示屏上进行文字显示；手语转换模块根据存储模块中的手语数据集，将特征数据转换为手语信息并上传至显示屏上进行手语显示。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种便于听障人士观看视频的方法，其特征在于，包括以下步骤：

S1，对视频播放画面和语音进行实时采集；

S3，对步骤S2中识别的结果分别提取情绪特征；

S4，对步骤S3中的情绪特征进行特征融合；

S7，将步骤S6转换后的结果进行显示。

2.根据权利要求1所述的一种便于听障人士观看视频的方法，其特征在于，所述步骤S5进行情绪模型构建的步骤具体包括：

S51，采集的语音信息集以及面部表情和动作信息集；

S52，对步骤S51采集的信息进行数据预处理；

3.根据权利要求2所述的一种便于听障人士观看视频的方法，其特征在于，步骤S52对采集的所述语音信息集进行预处理的步骤具体包括：对采集的所述语音信息集依次进行降噪处理、语音增强处理和语音片段截取。

4.一种计算机可读存储介质，其特征在于：介质上存有计算机程序，计算机程序运行后，执行如权利要求1-3任一所述的便于听障人士观看视频的方法。

5.一种计算机系统，其特征在于：包括处理器、存储介质，存储介质上存有计算机程序，处理器从存储介质上读取并运行计算机程序以执行如权利要求1-3任一所述的便于听障人士观看视频的方法。

6.基于权利要求1-3中任一项所述的便于听障人士观看视频的方法的电视，其特征在于，包括：依次进行数据交互的采集模块、预处理器、采集信息识别模块、情绪识别模块、特征融合模块、显示转换模块以及显示屏。

7.根据权利要求6所述的一种便于听障人士观看视频的方法的电视，其特征在于：所述采集模块包括语音采集模块、面部表情和动作采集模块；所述采集信息识别模块包括语音识别模块、面部表情和动作识别模块；所述显示转换模块包括文字转换模块以及手语转换模块；所述手语转换模块中包括存储模块，所述存储模块中存储有手语数据集。