CN111797811A - 一种基于图像理解的盲人导航系统 - Google Patents

一种基于图像理解的盲人导航系统 Download PDF

Info

Publication number
CN111797811A
CN111797811A CN202010698366.6A CN202010698366A CN111797811A CN 111797811 A CN111797811 A CN 111797811A CN 202010698366 A CN202010698366 A CN 202010698366A CN 111797811 A CN111797811 A CN 111797811A
Authority
CN
China
Prior art keywords
image
module
fusion
feature
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010698366.6A
Other languages
English (en)
Other versions
CN111797811B (zh
Inventor
廖宇威
黄国恒
程良伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010698366.6A priority Critical patent/CN111797811B/zh
Publication of CN111797811A publication Critical patent/CN111797811A/zh
Application granted granted Critical
Publication of CN111797811B publication Critical patent/CN111797811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • A61H3/061Walking aids for blind persons with electronic detecting or guiding means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Rehabilitation Therapy (AREA)
  • Veterinary Medicine (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Pain & Pain Management (AREA)
  • Epidemiology (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Navigation (AREA)

Abstract

本发明提供的一种基于图像理解的盲人导航系统,包括:图像采集模块、图像特征提取模块、语音采集模块、语音处理模块、问题特征提取模块、特征融合模块、答案产生模块、答案输出模块;将图像采集模块采集的图像数据通过图像特征提取模块提取图像特征;将语音采集模块采集的用户问题语音数据通过语音处理模块将语音数据转换成文字数据后,通过问题特征提取模块对所述文字数据提取问题特征;通过特征融合模块将所述图像特征与所述问题特征进行特征融合;通过答案产生模块对融合特征进行分类,得到用户问题的答案;通过答案输出模块输出用户问题的答案。本发明智能程度高、实用性强,能实时的帮助视力障碍人群了解周围事物的信息,应用场景广阔。

Description

一种基于图像理解的盲人导航系统
技术领域
本发明涉及图像理解和语音识别技术领域,具体涉及一种基于图像理解的盲人导航系统。
背景技术
在现实生活中,盲人等视力障碍人群由于身体条件的原因,生活质量受到视力的影响,导致对周围事物缺乏认知理解。因此图像理解(Visual Question Answer,以下简称VQA)技术备受关注。
VQA系统需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一张特定的图片,如果想要机器以自然语言来回答关于该图片的某一个特定问题,我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。VQA涉及到多方面的AI技术:细粒度识别,例如问题:“这位女士是白种人吗?”;物体识别,例如问题:“图中有几个香蕉?”;行为识别,例如问题:“这位女士在哭吗?”和对问题所包含文本的理解(Natural Langunge Possns,以下简称NLP)。
现有技术中未见基于VQA系统与语音识别系统的盲人导航系统。
发明内容
基于此,本发明旨在提供一种基于图像理解的盲人导航系统,具有图像理解效果好、智能程度高、实用性强的优点,能够实时帮助视力障碍人群了解周围事物的信息。
本发明提供一种基于图像理解的盲人导航系统,包括:
图像采集模块,用于采集图像数据;
图像特征提取模块,用于提取所述图像数据的图像特征;
语音采集模块,用于采集用户问题的语音数据;
语音处理模块,用于识别所述语音采集模块采集的语音数据,将问题语音数据转换成问题文字数据;
问题特征提取模块,用于提取所述问题文字数据的问题特征;
特征融合模块,用于融合所述图像特征与所述问题特征,得到融合特征;
答案产生模块,用于将所述融合特征输入分类器中产生相应答案;
答案输出模块,用于输出所述答案产生模块中的答案。
优选地,所述图像特征提取模块采用VGG卷积神经网络提取所述图像数据的图像特征。因为VGG卷积神经网络具有结构简洁、层数更深、特征图更宽的优点,所以采用VGG卷积神经网络提取所述图像数据的图像特征,能够更容易地收敛到最优解。
优选地,所述语音处理模块采用语音识别技术与自然语言处理技术,将语音数据转换成文字数据,具体包括:
使用大量已标注的语音数据训练声学模型与语言模型,得到训练后的声学模型与语言模型;
将采集的语音数据输入至训练后的声学模型与语言模型中进行识别,得到问题文字数据。
优选地,所述问题特征提取模块采用LSTM神经网络按照所述问题文字数据中单词的输入顺序,提取问题中包含的问题特征。
优选地,所述特征融合模块对所述图像特征与所述问题特征进行融合,之前还包括:对图像特征进行归一化处理,将所述图像特征与所述问题特征变换到同一个特征空间。
优选地,所述特征融合模块采用双线性融合的方法对所述图像特征与所述问题特征进行融合,具体包括:
将在同一位置上的所述归一化后的图像特征向量与问题特征向量进行向量外积计算,得到该位置上的矩阵;
对所有位置上的矩阵进行池化操作,得到融合矩阵;
对所述融合矩阵转换成一个向量,对所述向量进行矩归一化操作与L2归一化操作,得到融合特征。
由于融合特征维数等于图像特征与问题特征的维数之际,所以采用双线性融合方法可以有效地降低计算量。
优选地,所述答案产生模块采用多层感知机,对所述融合特征进行分类,得到用户问题的答案。
优选地,所述图像采集模块,包括:摄像头。
优选地,所述语音采集模块,包括:麦克风。
优选地,所述答案输出模块,包括:播放器。
从以上技术方案可见,与现有技术相比,本发明具有如下优点:
本发明提供的一种基于图像理解的盲人导航系统,将图像采集模块采集的图像数据通过图像特征提取模块提取图像特征;将语音采集模块采集的用户问题语音数据通过语音处理模块将语音数据转换成文字数据后,通过问题特征提取模块对所述文字数据提取问题特征;通过特征融合模块将所述图像特征与所述问题特征进行特征融合;通过答案产生模块中对融合特征进行分类,得到用户问题的答案;通过答案输出模块输出用户问题的答案。本发明将机器视觉技术与自然语言处理技术相结合,具有图像理解效果好、智能程度高、实用性强的优点,能实时的帮助视力障碍人群了解周围事物的信息,应用场景广阔。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种基于图像理解的盲人导航系统结构图;
图2为本发明实施例提供的一种基于图像理解的盲人导航系统结合应用场景的实施方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种基于图像理解的盲人导航系统,请参考图1所示,包括:
图像采集模块1,用于采集图像数据;
图像特征提取模块2,用于提取所述图像数据的图像特征;
语音采集模块3,用于采集用户问题的语音数据;
语音处理模块4,用于识别所述语音采集模块采集的语音数据,将问题语音数据转换成问题文字数据;
问题特征提取模块5,用于提取所述问题文字数据的问题特征;
特征融合模块6,用于融合所述图像特征与所述问题特征,得到融合特征;
答案产生模块7,用于将所述融合特征输入分类器中产生相应答案;
答案输出模块8,用于输出所述答案产生模块中的答案。
具体的,在本实施例中,所述图像特征提取模块采用VGG卷积神经网络(VGGNet)提取所述图像数据的图像特征。
具体的,在本实施例中,所述语音处理模块采用语音识别技术与自然语言处理技术,将语音数据转换成文字数据,包括:
使用大量已标注的语音数据训练声学模型与语言模型,得到训练后的声学模型与语言模型;
将采集的语音数据输入至训练后的声学模型与语言模型中进行识别,得到问题文字数据。
具体的,在本实施例中,所述问题特征提取模块采用LSTM神经网络按照所述问题文字数据中单词的输入顺序,提取问题中包含的问题特征。
具体的,在本实施例中,所述特征融合模块对所述图像特征与所述问题特征进行融合,之前还包括:对图像特征进行归一化处理,将所述图像特征与所述问题特征变换到同一个特征空间。
具体的,在本实施例中,所述特征融合模块采用双线性融合的方法(MultimodalCompact Bilinear)对所述图像特征与所述问题特征进行融合,包括:
将在同一位置上的所述归一化后的图像特征向量与问题特征向量进行向量外积计算,得到该位置上的矩阵;
对所有位置上的矩阵进行池化操作,得到融合矩阵;
对所述融合矩阵转换成一个向量,对所述向量进行矩归一化操作与L2归一化操作,得到融合特征。
由于融合特征维数等于图像特征与问题特征的维数之际,所以采用双线性融合方法可以有效地降低计算量。
具体的,在本实施例中,所述答案产生模块采用多层感知机,对所述融合特征进行分类,得到用户问题的答案。
具体的,在本实施例中,所述图像采集模块,包括:摄像头。
具体的,在本实施例中,所述语音采集模块,包括:麦克风。
具体的,在本实施例中,所述答案输出模块,包括:播放器。
请参考图2,本发明的另一个实施例结合具体应用场景对一种基于图像理解的盲人导航系统进行说明。
本发明通过图像采集模块中的摄像头采集并存储大小为14×14的图像;将所述图像输入至图像特征提取模块中已训练的VGG网络,得到大小为14×14×1024的图像特征。
通过语音采集模块中的麦克风采集用户提出的问题:“What’s around me?”,存储为大小196KB的WAV语音数据;将所述语音数据输入至语音处理模块中训练后的声学模型与语言模型(Connectionist Temporal Classification,以下简称CTC),转换成问题文字数据;将所述问题文字数据输入至问题特征提取模块的LSTM网络中,得到1024维度的问题文本向量与大小为14×14×1024的问题特征。
将所述大小为14×14×1024的图像特征与所述大小为14×14×1024的问题特征输入至特征融合模块的第一双线性融合(Multimodal Compact Bilinear,以下简称MCB)模型中,得到大小为16000×14×14的融合特征;将所述融合特征输入至神经网络中,经过两个conv层与Relu层,来预测每一个区域的注意力权值,再经过softmax层进行softmax归一化后得到的soft attention map,将所述soft attention map与原始的所述图像特征通过加权求和(Weigthed sum)的方法得到1024维度的注意力图像特征向量。
将所述1024维度的注意力图像特征向量与所述1024维度的问题文本向量输入至特征融合模块的第二MCB模型中,经过正则化与归一化后得到16000维度的融合向量。
将所述第二融合向量输入至答案产生模块的多层感知机(MultilayerPerceptron,以下简称MLP)中,依次经过FC层与sotfmax层分类后得到用户问题的答案。
通过答案输出模块中的播放器,输出所述用户问题的答案。
本实施例中,产生两个attention map,模仿多次观察;运用了两个MCB模型,通过第一个MCB模型对所述图像特征与所述问题特征进行融合,计算图像每个空间位置的attention weight,通过第二个MCB模型对所述图像特征与所述问题特征进行融合得到用户问题的答案,本技术方案能够使分类的结果更加准确。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (10)

1.一种基于图像理解的盲人导航系统,其特征在于,包括:
图像采集模块,用于采集图像数据;
图像特征提取模块,用于提取所述图像数据的图像特征;
语音采集模块,用于采集用户问题的语音数据;
语音处理模块,用于识别所述语音采集模块采集的语音数据,将问题语音数据转换成问题文字数据;
问题特征提取模块,用于提取所述问题文字数据的问题特征;
特征融合模块,用于融合所述图像特征与所述问题特征,得到融合特征;
答案产生模块,用于将所述融合特征输入分类器中产生相应答案;
答案输出模块,用于输出所述答案产生模块中的答案。
2.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,包括:
所述图像特征提取模块采用VGG卷积神经网络提取所述图像数据的图像特征。
3.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,所述语音处理模块采用语音识别技术与自然语言处理技术,将语音数据转换成文字数据,具体包括:
使用大量已标注的语音数据训练声学模型与语言模型,得到训练后的声学模型与语言模型;
将采集的语音数据输入至训练后的声学模型与语言模型中进行识别,得到问题文字数据。
4.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,包括:
所述问题特征提取模块采用LSTM神经网络按照所述问题文字数据中单词的输入顺序,提取问题中包含的问题特征。
5.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,包括:
所述特征融合模块对所述图像特征与所述问题特征进行融合,之前还包括:对图像特征进行归一化处理,将所述图像特征与所述问题特征变换到同一个特征空间。
6.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,所述特征融合模块采用双线性融合对所述图像特征与所述问题特征进行融合,具体包括:
将在同一位置上的所述归一化后的图像特征向量与问题特征向量进行向量外积计算,得到该位置上的矩阵;
对所有位置上的矩阵进行池化操作,得到融合矩阵;
对所述融合矩阵转换为一个向量,对所述向量进行矩归一化操作与L2归一化操作,得到融合特征。
7.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,包括:
所述答案产生模块采用多层感知机,对所述融合特征进行分类,得到用户问题的答案。
8.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,所述图像采集模块,包括:摄像头。
9.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,所述语音采集模块,包括:麦克风。
10.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,所述答案输出模块,包括:播放器。
CN202010698366.6A 2020-07-20 2020-07-20 一种基于图像理解的盲人导航系统 Active CN111797811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010698366.6A CN111797811B (zh) 2020-07-20 2020-07-20 一种基于图像理解的盲人导航系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010698366.6A CN111797811B (zh) 2020-07-20 2020-07-20 一种基于图像理解的盲人导航系统

Publications (2)

Publication Number Publication Date
CN111797811A true CN111797811A (zh) 2020-10-20
CN111797811B CN111797811B (zh) 2023-09-12

Family

ID=72807212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010698366.6A Active CN111797811B (zh) 2020-07-20 2020-07-20 一种基于图像理解的盲人导航系统

Country Status (1)

Country Link
CN (1) CN111797811B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128415A (zh) * 2021-04-22 2021-07-16 合肥工业大学 一种环境辨别方法、系统、设备及存储介质
CN113298029A (zh) * 2021-06-15 2021-08-24 广东工业大学 一种基于深度学习目标检测的盲人辅助行走方法和系统
CN114168104A (zh) * 2021-12-08 2022-03-11 杭州电子科技大学 一种面向视障人群的场景文字交互式理解系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106409290A (zh) * 2016-09-29 2017-02-15 深圳市唯特视科技有限公司 一种基于图像分析的幼儿智能语音教育的方法
CN107480206A (zh) * 2017-07-25 2017-12-15 杭州电子科技大学 一种基于多模态低秩双线性池化的图像内容问答方法
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106409290A (zh) * 2016-09-29 2017-02-15 深圳市唯特视科技有限公司 一种基于图像分析的幼儿智能语音教育的方法
CN107480206A (zh) * 2017-07-25 2017-12-15 杭州电子科技大学 一种基于多模态低秩双线性池化的图像内容问答方法
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128415A (zh) * 2021-04-22 2021-07-16 合肥工业大学 一种环境辨别方法、系统、设备及存储介质
CN113128415B (zh) * 2021-04-22 2023-09-29 合肥工业大学 一种环境辨别方法、系统、设备及存储介质
CN113298029A (zh) * 2021-06-15 2021-08-24 广东工业大学 一种基于深度学习目标检测的盲人辅助行走方法和系统
CN114168104A (zh) * 2021-12-08 2022-03-11 杭州电子科技大学 一种面向视障人群的场景文字交互式理解系统

Also Published As

Publication number Publication date
CN111797811B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN111797811B (zh) 一种基于图像理解的盲人导航系统
CN111507311B (zh) 一种基于多模态特征融合深度网络的视频人物识别方法
US11138903B2 (en) Method, apparatus, device and system for sign language translation
Kishore et al. A video based Indian sign language recognition system (INSLR) using wavelet transform and fuzzy logic
CN109711356B (zh) 一种表情识别方法和系统
CN111553419A (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN111354246A (zh) 一种用于帮助聋哑人交流的系统及方法
Alnuaim et al. Human-computer interaction with hand gesture recognition using resnet and mobilenet
CN112101096A (zh) 一种基于语音和微表情的多模态融合的自杀情绪感知方法
CN114495217A (zh) 基于自然语言和表情分析的场景分析方法、装置及系统
CN116229530A (zh) 图像处理方法、装置、存储介质及电子设备
CN112800225A (zh) 一种微博评论情绪分类方法和系统
CN114724224A (zh) 一种用于医疗护理机器人的多模态情感识别方法
Rahim et al. Dynamic hand gesture based sign word recognition using convolutional neural network with feature fusion
Shehada et al. A lightweight facial emotion recognition system using partial transfer learning for visually impaired people
CN115546861A (zh) 一种在线课堂专注度识别方法、系统、设备及介质
CN116563908A (zh) 一种基于多任务协同网络的人脸解析和情感识别方法
Hou Deep Learning-Based Human Emotion Detection Framework Using Facial Expressions
CN113673501B (zh) 一种ocr分类方法、系统、电子设备及存储介质
CN114663910A (zh) 基于多模态学习状态分析系统
Petkar et al. Real Time Sign Language Recognition System for Hearing and Speech Impaired People
CN113792607A (zh) 基于Transformer的神经网络手语分类识别方法
Shetty et al. Real-Time Translation of Sign Language for Speech Impaired
Shane et al. Sign Language Detection Using Faster RCNN Resnet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant