CN115457981A - 一种便于听障人士观看视频的方法和基于该方法的电视 - Google Patents

一种便于听障人士观看视频的方法和基于该方法的电视 Download PDF

Info

Publication number
CN115457981A
CN115457981A CN202211077372.5A CN202211077372A CN115457981A CN 115457981 A CN115457981 A CN 115457981A CN 202211077372 A CN202211077372 A CN 202211077372A CN 115457981 A CN115457981 A CN 115457981A
Authority
CN
China
Prior art keywords
emotion
information
module
recognition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211077372.5A
Other languages
English (en)
Inventor
魏逸敏
周明
李永祥
晋圣祥
赵文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Konka Electronics Co Ltd
Original Assignee
Anhui Konka Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Konka Electronics Co Ltd filed Critical Anhui Konka Electronics Co Ltd
Priority to CN202211077372.5A priority Critical patent/CN115457981A/zh
Publication of CN115457981A publication Critical patent/CN115457981A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种便于听障人士观看视频的方法和基于该方法的电视,其中方法包括S1,对视频播放画面和语音进行实时采集;S2,对采集的信息进行语音识别以及面部表情和动作识别;S3,对步骤S2中识别的结果分别提取情绪特征;S4,对步骤S3中的情绪特征进行特征融合;S5,将特征融合结果输入预设的情绪识别模型中进行情绪识别;S6,根据情绪识别结果和步骤S3得到的语音识别结果进行文字转换和手语转换;S7,将步骤S6转换后的结果进行显示。本发明可以集合电视画面中的动作信息、面部表情信息以及语言信息,进行准确的情绪识别,并基于情绪识别和语言信息进行文字转换和手语转换,并通过显示屏展现出来,极大程度的改善并丰富了听障人员的生活。

Description

一种便于听障人士观看视频的方法和基于该方法的电视
技术领域
本发明涉及智能电视领域,特别涉及一种便于听障人士观看视频的方法和基于该方法的电视。
背景技术
据全国第二次残疾人抽样调查,我国听力障碍人数已近3000万,听障相关的基础配套设施和专业服务人员远远落后于群体需求。对听力障碍人群而言,他们除了使用手语交流以外,与普通人几乎没有区别,因此极易被社会忽视:不能及时自主获取非言语的信号,如闹钟、门铃、预警、汽车鸣笛、电话铃声等,危险随时可能发生;无法在互联网上更好的获取自己需要的信息,尤其视频和音频,与健听人产生信息“时差”;多数生活在封闭小世界里,社会活动参与度极低。在这个用信息连接一切的社会,听障人群仿佛被困于“现代孤岛”,被高速发展的环境远远甩在身后。
设计听障人士专用的平板电视显得更为重要,让听障人士了解这个世界,与这个世界产生共鸣。
发明内容
为了解决现有问题,本发明提供了一种便于听障人士观看视频的方法和基于该方法的电视,具体方案如下:
一种便于听障人士观看视频的方法,包括以下步骤:
S1,对视频播放画面和语音进行实时采集;
S2,对采集的视频画面和语音进行语音识别以及面部表情和动作识别;
S3,对步骤S2中识别的结果分别提取情绪特征;
S4,对步骤S3中的情绪特征进行特征融合;
S5,将特征融合结果输入预设的情绪识别模型中进行情绪识别;
S6,根据步骤S5得到的情绪识别结果和步骤S2得到的语音识别结果进行文字转换和手语转换;
S8,将步骤S6转换后的结果进行显示。
优选的,所述步骤S5进行情绪模型构建的步骤具体包括:
S51,采集的语音信息集以及面部表情和动作信息集;
S52,对步骤S51采集的信息进行数据预处理;
S53,对预处理后的数据集分别进行情绪特征提取并融合,保存为特征信息集;
S54,通过预设的情绪分类模型分别对所述特征信息集进行情绪识别,得到各特征信息对应的情绪类型;
S55,根据得到的情绪类型对各特征信息设置对应的分类标签,并按照分类标签将特征信息分类储存之预设的文件目录中,得到训练样本集;
S56,基于所述训练样本集对预设的深度学习神经网络模型进行训练,得到情绪识别模型。
优选的,步骤S52对采集的所述语音信息集进行预处理的步骤具体包括:对采集的所述语音信息集依次进行降噪处理、语音增强处理和语音片段截取。
本发明还揭示了一种计算机可读存储介质,介质上存有计算机程序,计算机程序运行后,执行如上述任一所述的便于听障人士观看视频的方法。
本发明还揭示了一种计算机系统,包括处理器、存储介质,存储介质上存有计算机程序,处理器从存储介质上读取并运行计算机程序以执行如上述任一所述的便于听障人士观看视频的方法。
优选的,基于上述任一项所述的便于听障人士观看视频的方法的电视,包括:依次进行数据交互的采集模块、预处理器、采集信息识别模块、情绪识别模块、特征融合模块、显示转换模块以及显示屏。
优选的,所述采集模块包括语音采集模块、面部表情和动作采集模块;所述采集信息识别模块包括语音识别模块、面部表情和动作识别模块;所述显示转换模块包括文字转换模块以及手语转换模块。
本发明的有益效果在于:
本发明可以集合电视画面中的动作信息、面部表情信息以及语言信息,进行准确的情绪识别,并基于情绪识别和语言信息进行文字转换和手语转换,并通过显示屏展现出来,极大程度的改善并丰富了听障人员的生活。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的方法流程图;
图2为本发明的电气原理框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1,一种便于听障人士观看视频的方法,包括以下步骤:
S1,对视频播放画面和语音进行实时采集;
S2,对采集的视频画面和语音进行语音识别以及面部表情和动作识别;
S3,对步骤S2中识别的结果分别提取情绪特征;
S4,对步骤S3中的情绪特征进行特征融合;
S5,将特征融合结果输入预设的情绪识别模型中进行情绪识别;
其中,进行情绪模型构建的步骤具体包括:
S51,采集的语音信息集以及面部表情和动作信息集;
S52,对步骤S51采集的信息进行数据预处理;其中预处理的步骤具体包括:对采集的所述语音信息集依次进行降噪处理、语音增强处理和语音片段截取;
S53,对预处理后的数据集分别进行情绪特征提取并融合,保存为特征信息集;
S54,通过预设的情绪分类模型分别对所述特征信息集进行情绪识别,得到各特征信息对应的情绪类型;
S55,根据得到的情绪类型对各特征信息设置对应的分类标签,并按照分类标签将特征信息分类储存之预设的文件目录中,得到训练样本集;
S56,基于所述训练样本集对预设的深度学习神经网络模型进行训练,得到情绪识别模型。
S6,根据步骤S5得到的情绪识别结果和步骤S3得到的语音识别结果进行文字转换和手语转换;
S7,将步骤S6转换后的结果进行显示。
本发明还揭示了一种计算机可读存储介质,介质上存有计算机程序,计算机程序运行后,执行如上述任一所述的便于听障人士观看视频的方法。
本发明还揭示了一种计算机系统,包括处理器、存储介质,存储介质上存有计算机程序,处理器从存储介质上读取并运行计算机程序以执行如上述任一所述的便于听障人士观看视频的方法。
如图2,基于上述任一项所述的便于听障人士观看视频的方法的电视,包括:依次进行数据交互的采集模块、预处理器、采集信息识别模块、情绪识别模块、特征融合模块、显示转换模块以及显示屏。
所述采集模块包括语音采集模块、面部表情和动作采集模块;所述采集信息识别模块包括语音识别模块、面部表情和动作识别模块;所述显示转换模块包括文字转换模块以及手语转换模块。
所述手语转换模块中包括存储模块,所述存储模块中存储有手语数据集。
面部表情和动作采集模块和语音采集模块分别用于采集视频中的面部表情和动作信息、以及语音信息,并实时上传至预处理器中进行预处理。
预处理器将预处理后的数据信息分别上传至面部表情和动作识别模块和语音识别模块,分别进行面部表情和动作识别、以及语音识别。
面部表情和动作识别模块、以及语音识别模块分别将面部表情和动作识别、以及语音识别的结果上传至情绪识别模块,分别进行对应的情绪特征提取。
情绪识别模块将情绪特征提取结果上传至特征融合模块进行情绪特征融合并分类。
特征融合模块将融合并分类后的特征数据上传到文字转换模块和手语转换模块。文字转换模块将特征数据转换为文字信息并上传至显示屏上进行文字显示;手语转换模块根据存储模块中的手语数据集,将特征数据转换为手语信息并上传至显示屏上进行手语显示。
本发明可以集合电视画面中的动作信息、面部表情信息以及语言信息,进行准确的情绪识别,并基于情绪识别和语言信息进行文字转换和手语转换,并通过显示屏展现出来,极大程度的改善并丰富了听障人员的生活。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种便于听障人士观看视频的方法,其特征在于,包括以下步骤:
S1,对视频播放画面和语音进行实时采集;
S2,对采集的视频画面和语音进行语音识别以及面部表情和动作识别;
S3,对步骤S2中识别的结果分别提取情绪特征;
S4,对步骤S3中的情绪特征进行特征融合;
S5,将特征融合结果输入预设的情绪识别模型中进行情绪识别;
S6,根据步骤S5得到的情绪识别结果和步骤S3得到的语音识别结果进行文字转换和手语转换;
S7,将步骤S6转换后的结果进行显示。
2.根据权利要求1所述的一种便于听障人士观看视频的方法,其特征在于,所述步骤S5进行情绪模型构建的步骤具体包括:
S51,采集的语音信息集以及面部表情和动作信息集;
S52,对步骤S51采集的信息进行数据预处理;
S53,对预处理后的数据集分别进行情绪特征提取并融合,保存为特征信息集;
S54,通过预设的情绪分类模型分别对所述特征信息集进行情绪识别,得到各特征信息对应的情绪类型;
S55,根据得到的情绪类型对各特征信息设置对应的分类标签,并按照分类标签将特征信息分类储存之预设的文件目录中,得到训练样本集;
S56,基于所述训练样本集对预设的深度学习神经网络模型进行训练,得到情绪识别模型。
3.根据权利要求2所述的一种便于听障人士观看视频的方法,其特征在于,步骤S52对采集的所述语音信息集进行预处理的步骤具体包括:对采集的所述语音信息集依次进行降噪处理、语音增强处理和语音片段截取。
4.一种计算机可读存储介质,其特征在于:介质上存有计算机程序,计算机程序运行后,执行如权利要求1-3任一所述的便于听障人士观看视频的方法。
5.一种计算机系统,其特征在于:包括处理器、存储介质,存储介质上存有计算机程序,处理器从存储介质上读取并运行计算机程序以执行如权利要求1-3任一所述的便于听障人士观看视频的方法。
6.基于权利要求1-3中任一项所述的便于听障人士观看视频的方法的电视,其特征在于,包括:依次进行数据交互的采集模块、预处理器、采集信息识别模块、情绪识别模块、特征融合模块、显示转换模块以及显示屏。
7.根据权利要求6所述的一种便于听障人士观看视频的方法的电视,其特征在于:所述采集模块包括语音采集模块、面部表情和动作采集模块;所述采集信息识别模块包括语音识别模块、面部表情和动作识别模块;所述显示转换模块包括文字转换模块以及手语转换模块;所述手语转换模块中包括存储模块,所述存储模块中存储有手语数据集。
CN202211077372.5A 2022-09-05 2022-09-05 一种便于听障人士观看视频的方法和基于该方法的电视 Pending CN115457981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211077372.5A CN115457981A (zh) 2022-09-05 2022-09-05 一种便于听障人士观看视频的方法和基于该方法的电视

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211077372.5A CN115457981A (zh) 2022-09-05 2022-09-05 一种便于听障人士观看视频的方法和基于该方法的电视

Publications (1)

Publication Number Publication Date
CN115457981A true CN115457981A (zh) 2022-12-09

Family

ID=84302798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211077372.5A Pending CN115457981A (zh) 2022-09-05 2022-09-05 一种便于听障人士观看视频的方法和基于该方法的电视

Country Status (1)

Country Link
CN (1) CN115457981A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050069852A1 (en) * 2003-09-25 2005-03-31 International Business Machines Corporation Translating emotion to braille, emoticons and other special symbols
KR20110087742A (ko) * 2010-01-27 2011-08-03 김종남 청각 장애인을 위한 수화 통역 시스템, 그 장치 및 방법
US20140046661A1 (en) * 2007-05-31 2014-02-13 iCommunicator LLC Apparatuses, methods and systems to provide translations of information into sign language or other formats
CN109409255A (zh) * 2018-10-10 2019-03-01 长沙千博信息技术有限公司 一种手语场景生成方法及装置
KR101981091B1 (ko) * 2017-12-20 2019-05-22 충남대학교산학협력단 감정시각화자막 생성장치
CN111354362A (zh) * 2020-02-14 2020-06-30 北京百度网讯科技有限公司 用于辅助听障者交流的方法和装置
US20200294525A1 (en) * 2019-03-15 2020-09-17 International Business Machines Corporation Generating visual closed caption for sign language
CN112016367A (zh) * 2019-05-31 2020-12-01 沈阳新松机器人自动化股份有限公司 一种情绪识别系统、方法及电子设备
CN112689054A (zh) * 2020-12-23 2021-04-20 上海传英信息技术有限公司 辅助方法、终端及存储介质
CN112686048A (zh) * 2020-12-23 2021-04-20 沈阳新松机器人自动化股份有限公司 基于语音、语义、面部表情融合的情绪识别方法及装置
CN113469153A (zh) * 2021-09-03 2021-10-01 中国科学院自动化研究所 基于微表情、肢体动作和语音的多模态情感识别方法
CN113536999A (zh) * 2021-07-01 2021-10-22 汇纳科技股份有限公司 人物情绪识别方法、系统、介质及电子设备
CN113835522A (zh) * 2021-09-10 2021-12-24 阿里巴巴达摩院(杭州)科技有限公司 手语视频生成、翻译、客服方法、设备和可读介质
CN113851029A (zh) * 2021-07-30 2021-12-28 阿里巴巴达摩院(杭州)科技有限公司 一种无障碍通信方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050069852A1 (en) * 2003-09-25 2005-03-31 International Business Machines Corporation Translating emotion to braille, emoticons and other special symbols
US20140046661A1 (en) * 2007-05-31 2014-02-13 iCommunicator LLC Apparatuses, methods and systems to provide translations of information into sign language or other formats
KR20110087742A (ko) * 2010-01-27 2011-08-03 김종남 청각 장애인을 위한 수화 통역 시스템, 그 장치 및 방법
KR101981091B1 (ko) * 2017-12-20 2019-05-22 충남대학교산학협력단 감정시각화자막 생성장치
CN109409255A (zh) * 2018-10-10 2019-03-01 长沙千博信息技术有限公司 一种手语场景生成方法及装置
US20200294525A1 (en) * 2019-03-15 2020-09-17 International Business Machines Corporation Generating visual closed caption for sign language
CN112016367A (zh) * 2019-05-31 2020-12-01 沈阳新松机器人自动化股份有限公司 一种情绪识别系统、方法及电子设备
CN111354362A (zh) * 2020-02-14 2020-06-30 北京百度网讯科技有限公司 用于辅助听障者交流的方法和装置
CN112689054A (zh) * 2020-12-23 2021-04-20 上海传英信息技术有限公司 辅助方法、终端及存储介质
CN112686048A (zh) * 2020-12-23 2021-04-20 沈阳新松机器人自动化股份有限公司 基于语音、语义、面部表情融合的情绪识别方法及装置
CN113536999A (zh) * 2021-07-01 2021-10-22 汇纳科技股份有限公司 人物情绪识别方法、系统、介质及电子设备
CN113851029A (zh) * 2021-07-30 2021-12-28 阿里巴巴达摩院(杭州)科技有限公司 一种无障碍通信方法和装置
CN113469153A (zh) * 2021-09-03 2021-10-01 中国科学院自动化研究所 基于微表情、肢体动作和语音的多模态情感识别方法
CN113835522A (zh) * 2021-09-10 2021-12-24 阿里巴巴达摩院(杭州)科技有限公司 手语视频生成、翻译、客服方法、设备和可读介质

Similar Documents

Publication Publication Date Title
CN109766759A (zh) 情绪识别方法及相关产品
KR20200100677A (ko) 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답
CN110335621A (zh) 音频处理的方法、系统及相关设备
CN110446063A (zh) 视频封面的生成方法、装置及电子设备
CN110148418B (zh) 一种场景记录分析系统、方法及其装置
CN111883107B (zh) 语音合成、特征提取模型训练方法、装置、介质及设备
CN106372653B (zh) 一种基于堆栈式自动编码器的广告识别方法
CN111656275B (zh) 一种确定图像对焦区域的方法及装置
CN101105943A (zh) 语言辅助表达系统及方法
CN115050077A (zh) 情绪识别方法、装置、设备及存储介质
CN109151366B (zh) 一种视频通话的声音处理方法、存储介质和服务器
CN103973550A (zh) 一种快速智能识别即时通讯应用id号并进行即时通讯的方法、系统和装置
WO2014180402A1 (zh) 通讯录的设置方法及装置
CN110136726A (zh) 一种语音性别的估计方法、装置、系统及存储介质
CN109816023B (zh) 用于生成图片标签模型的方法和装置
CN110910898B (zh) 一种语音信息处理的方法和装置
CN113327619B (zh) 一种基于云—边缘协同架构的会议记录方法及系统
CN114120969A (zh) 智能终端的语音识别功能测试方法、系统、电子设备
CN115457981A (zh) 一种便于听障人士观看视频的方法和基于该方法的电视
CN107632992B (zh) 一种基于语音识别的相亲匹配方法及装置
CN112584238A (zh) 影视资源匹配方法、装置及智能电视
CN112599130A (zh) 一种基于智慧屏的智能会议系统
CN111009262A (zh) 语音性别识别的方法及系统
CN106571108A (zh) 一种具备语音交互功能的广告机
CN116186258A (zh) 基于多模态知识图谱的文本分类方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination