CN111797811B - 一种基于图像理解的盲人导航系统 - Google Patents
一种基于图像理解的盲人导航系统 Download PDFInfo
- Publication number
- CN111797811B CN111797811B CN202010698366.6A CN202010698366A CN111797811B CN 111797811 B CN111797811 B CN 111797811B CN 202010698366 A CN202010698366 A CN 202010698366A CN 111797811 B CN111797811 B CN 111797811B
- Authority
- CN
- China
- Prior art keywords
- image
- module
- features
- fusion
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61H—PHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
- A61H3/00—Appliances for aiding patients or disabled persons to walk about
- A61H3/06—Walking aids for blind persons
- A61H3/061—Walking aids for blind persons with electronic detecting or guiding means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Epidemiology (AREA)
- Pain & Pain Management (AREA)
- Physical Education & Sports Medicine (AREA)
- Rehabilitation Therapy (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Image Analysis (AREA)
- Navigation (AREA)
Abstract
本发明提供的一种基于图像理解的盲人导航系统,包括:图像采集模块、图像特征提取模块、语音采集模块、语音处理模块、问题特征提取模块、特征融合模块、答案产生模块、答案输出模块;将图像采集模块采集的图像数据通过图像特征提取模块提取图像特征;将语音采集模块采集的用户问题语音数据通过语音处理模块将语音数据转换成文字数据后,通过问题特征提取模块对所述文字数据提取问题特征;通过特征融合模块将所述图像特征与所述问题特征进行特征融合;通过答案产生模块对融合特征进行分类,得到用户问题的答案;通过答案输出模块输出用户问题的答案。本发明智能程度高、实用性强,能实时的帮助视力障碍人群了解周围事物的信息,应用场景广阔。
Description
技术领域
本发明涉及图像理解和语音识别技术领域,具体涉及一种基于图像理解的盲人导航系统。
背景技术
在现实生活中,盲人等视力障碍人群由于身体条件的原因,生活质量受到视力的影响,导致对周围事物缺乏认知理解。因此图像理解(Visual Question Answer,以下简称VQA)技术备受关注。
VQA系统需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一张特定的图片,如果想要机器以自然语言来回答关于该图片的某一个特定问题,我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。VQA涉及到多方面的AI技术:细粒度识别,例如问题:“这位女士是白种人吗?”;物体识别,例如问题:“图中有几个香蕉?”;行为识别,例如问题:“这位女士在哭吗?”和对问题所包含文本的理解(Natural Langunge Possns,以下简称NLP)。
现有技术中未见基于VQA系统与语音识别系统的盲人导航系统。
发明内容
基于此,本发明旨在提供一种基于图像理解的盲人导航系统,具有图像理解效果好、智能程度高、实用性强的优点,能够实时帮助视力障碍人群了解周围事物的信息。
本发明提供一种基于图像理解的盲人导航系统,包括:
图像采集模块,用于采集图像数据;
图像特征提取模块,用于提取所述图像数据的图像特征;
语音采集模块,用于采集用户问题的语音数据;
语音处理模块,用于识别所述语音采集模块采集的语音数据,将问题语音数据转换成问题文字数据;
问题特征提取模块,用于提取所述问题文字数据的问题特征;
特征融合模块,用于融合所述图像特征与所述问题特征,得到融合特征;
答案产生模块,用于将所述融合特征输入分类器中产生相应答案;
答案输出模块,用于输出所述答案产生模块中的答案。
优选地,所述图像特征提取模块采用VGG卷积神经网络提取所述图像数据的图像特征。因为VGG卷积神经网络具有结构简洁、层数更深、特征图更宽的优点,所以采用VGG卷积神经网络提取所述图像数据的图像特征,能够更容易地收敛到最优解。
优选地,所述语音处理模块采用语音识别技术与自然语言处理技术,将语音数据转换成文字数据,具体包括:
使用大量已标注的语音数据训练声学模型与语言模型,得到训练后的声学模型与语言模型;
将采集的语音数据输入至训练后的声学模型与语言模型中进行识别,得到问题文字数据。
优选地,所述问题特征提取模块采用LSTM神经网络按照所述问题文字数据中单词的输入顺序,提取问题中包含的问题特征。
优选地,所述特征融合模块对所述图像特征与所述问题特征进行融合,之前还包括:对图像特征进行归一化处理,将所述图像特征与所述问题特征变换到同一个特征空间。
优选地,所述特征融合模块采用双线性融合的方法对所述图像特征与所述问题特征进行融合,具体包括:
将在同一位置上的所述归一化后的图像特征向量与问题特征向量进行向量外积计算,得到该位置上的矩阵;
对所有位置上的矩阵进行池化操作,得到融合矩阵;
对所述融合矩阵转换成一个向量,对所述向量进行矩归一化操作与L2归一化操作,得到融合特征。
由于融合特征维数等于图像特征与问题特征的维数之际,所以采用双线性融合方法可以有效地降低计算量。
优选地,所述答案产生模块采用多层感知机,对所述融合特征进行分类,得到用户问题的答案。
优选地,所述图像采集模块,包括:摄像头。
优选地,所述语音采集模块,包括:麦克风。
优选地,所述答案输出模块,包括:播放器。
从以上技术方案可见,与现有技术相比,本发明具有如下优点:
本发明提供的一种基于图像理解的盲人导航系统,将图像采集模块采集的图像数据通过图像特征提取模块提取图像特征;将语音采集模块采集的用户问题语音数据通过语音处理模块将语音数据转换成文字数据后,通过问题特征提取模块对所述文字数据提取问题特征;通过特征融合模块将所述图像特征与所述问题特征进行特征融合;通过答案产生模块中对融合特征进行分类,得到用户问题的答案;通过答案输出模块输出用户问题的答案。本发明将机器视觉技术与自然语言处理技术相结合,具有图像理解效果好、智能程度高、实用性强的优点,能实时的帮助视力障碍人群了解周围事物的信息,应用场景广阔。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种基于图像理解的盲人导航系统结构图;
图2为本发明实施例提供的一种基于图像理解的盲人导航系统结合应用场景的实施方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种基于图像理解的盲人导航系统,请参考图1所示,包括:
图像采集模块1,用于采集图像数据;
图像特征提取模块2,用于提取所述图像数据的图像特征;
语音采集模块3,用于采集用户问题的语音数据;
语音处理模块4,用于识别所述语音采集模块采集的语音数据,将问题语音数据转换成问题文字数据;
问题特征提取模块5,用于提取所述问题文字数据的问题特征;
特征融合模块6,用于融合所述图像特征与所述问题特征,得到融合特征;
答案产生模块7,用于将所述融合特征输入分类器中产生相应答案;
答案输出模块8,用于输出所述答案产生模块中的答案。
具体的,在本实施例中,所述图像特征提取模块采用VGG卷积神经网络(VGGNet)提取所述图像数据的图像特征。
具体的,在本实施例中,所述语音处理模块采用语音识别技术与自然语言处理技术,将语音数据转换成文字数据,包括:
使用大量已标注的语音数据训练声学模型与语言模型,得到训练后的声学模型与语言模型;
将采集的语音数据输入至训练后的声学模型与语言模型中进行识别,得到问题文字数据。
具体的,在本实施例中,所述问题特征提取模块采用LSTM神经网络按照所述问题文字数据中单词的输入顺序,提取问题中包含的问题特征。
具体的,在本实施例中,所述特征融合模块对所述图像特征与所述问题特征进行融合,之前还包括:对图像特征进行归一化处理,将所述图像特征与所述问题特征变换到同一个特征空间。
具体的,在本实施例中,所述特征融合模块采用双线性融合的方法(MultimodalCompact Bilinear)对所述图像特征与所述问题特征进行融合,包括:
将在同一位置上的所述归一化后的图像特征向量与问题特征向量进行向量外积计算,得到该位置上的矩阵;
对所有位置上的矩阵进行池化操作,得到融合矩阵;
对所述融合矩阵转换成一个向量,对所述向量进行矩归一化操作与L2归一化操作,得到融合特征。
由于融合特征维数等于图像特征与问题特征的维数之际,所以采用双线性融合方法可以有效地降低计算量。
具体的,在本实施例中,所述答案产生模块采用多层感知机,对所述融合特征进行分类,得到用户问题的答案。
具体的,在本实施例中,所述图像采集模块,包括:摄像头。
具体的,在本实施例中,所述语音采集模块,包括:麦克风。
具体的,在本实施例中,所述答案输出模块,包括:播放器。
请参考图2,本发明的另一个实施例结合具体应用场景对一种基于图像理解的盲人导航系统进行说明。
本发明通过图像采集模块中的摄像头采集并存储大小为14×14的图像;将所述图像输入至图像特征提取模块中已训练的VGG网络,得到大小为14×14×1024的图像特征。
通过语音采集模块中的麦克风采集用户提出的问题:“What’s around me?”,存储为大小196KB的WAV语音数据;将所述语音数据输入至语音处理模块中训练后的声学模型与语言模型(Connectionist Temporal Classification,以下简称CTC),转换成问题文字数据;将所述问题文字数据输入至问题特征提取模块的LSTM网络中,得到1024维度的问题文本向量与大小为14×14×1024的问题特征。
将所述大小为14×14×1024的图像特征与所述大小为14×14×1024的问题特征输入至特征融合模块的第一双线性融合(Multimodal Compact Bilinear,以下简称MCB)模型中,得到大小为16000×14×14的融合特征;将所述融合特征输入至神经网络中,经过两个conv层与Relu层,来预测每一个区域的注意力权值,再经过softmax层进行softmax归一化后得到的soft attention map,将所述soft attention map与原始的所述图像特征通过加权求和(Weigthed sum)的方法得到1024维度的注意力图像特征向量。
将所述1024维度的注意力图像特征向量与所述1024维度的问题文本向量输入至特征融合模块的第二MCB模型中,经过正则化与归一化后得到16000维度的融合向量。
将所述第二融合向量输入至答案产生模块的多层感知机(MultilayerPerceptron,以下简称MLP)中,依次经过FC层与sotfmax层分类后得到用户问题的答案。
通过答案输出模块中的播放器,输出所述用户问题的答案。
本实施例中,产生两个attention map,模仿多次观察;运用了两个MCB模型,通过第一个MCB模型对所述图像特征与所述问题特征进行融合,计算图像每个空间位置的attention weight,通过第二个MCB模型对所述图像特征与所述问题特征进行融合得到用户问题的答案,本技术方案能够使分类的结果更加准确。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
Claims (9)
1.一种基于图像理解的盲人导航系统,其特征在于,包括:
图像采集模块,用于采集图像数据;
图像特征提取模块,用于提取所述图像数据的图像特征;
语音采集模块,用于采集用户问题的语音数据;
语音处理模块,用于识别所述语音采集模块采集的语音数据,将问题语音数据转换成问题文字数据;
问题特征提取模块,用于提取所述问题文字数据的问题特征;
特征融合模块,用于融合所述图像特征与所述问题特征,得到融合特征;
答案产生模块,用于将所述融合特征输入分类器中产生相应答案;
答案输出模块,用于输出所述答案产生模块中的答案;
所述特征融合模块采用双线性融合对所述图像特征与所述问题特征进行融合,具体包括:
将在同一位置上的归一化后的图像特征向量与问题特征向量进行向量外积计算,得到该位置上的矩阵;
对所有位置上的矩阵进行池化操作,得到融合矩阵;
对所述融合矩阵转换为一个向量,对所述向量进行矩归一化操作与L2归一化操作,得到融合特征。
2.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,包括:
所述图像特征提取模块采用VGG卷积神经网络提取所述图像数据的图像特征。
3.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,所述语音处理模块采用语音识别技术与自然语言处理技术,将语音数据转换成文字数据,具体包括:
使用大量已标注的语音数据训练声学模型与语言模型,得到训练后的声学模型与语言模型;
将采集的语音数据输入至训练后的声学模型与语言模型中进行识别,得到问题文字数据。
4.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,包括:
所述问题特征提取模块采用LSTM神经网络按照所述问题文字数据中单词的输入顺序,提取问题中包含的问题特征。
5.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,包括:
所述特征融合模块对所述图像特征与所述问题特征进行融合,之前还包括:对图像特征进行归一化处理,将所述图像特征与所述问题特征变换到同一个特征空间。
6.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,包括:
所述答案产生模块采用多层感知机,对所述融合特征进行分类,得到用户问题的答案。
7.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,所述图像采集模块,包括:摄像头。
8.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,所述语音采集模块,包括:麦克风。
9.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,所述答案输出模块,包括:播放器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010698366.6A CN111797811B (zh) | 2020-07-20 | 2020-07-20 | 一种基于图像理解的盲人导航系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010698366.6A CN111797811B (zh) | 2020-07-20 | 2020-07-20 | 一种基于图像理解的盲人导航系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797811A CN111797811A (zh) | 2020-10-20 |
CN111797811B true CN111797811B (zh) | 2023-09-12 |
Family
ID=72807212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010698366.6A Active CN111797811B (zh) | 2020-07-20 | 2020-07-20 | 一种基于图像理解的盲人导航系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797811B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128415B (zh) * | 2021-04-22 | 2023-09-29 | 合肥工业大学 | 一种环境辨别方法、系统、设备及存储介质 |
CN113298029A (zh) * | 2021-06-15 | 2021-08-24 | 广东工业大学 | 一种基于深度学习目标检测的盲人辅助行走方法和系统 |
CN114168104A (zh) * | 2021-12-08 | 2022-03-11 | 杭州电子科技大学 | 一种面向视障人群的场景文字交互式理解系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106409290A (zh) * | 2016-09-29 | 2017-02-15 | 深圳市唯特视科技有限公司 | 一种基于图像分析的幼儿智能语音教育的方法 |
CN107480206A (zh) * | 2017-07-25 | 2017-12-15 | 杭州电子科技大学 | 一种基于多模态低秩双线性池化的图像内容问答方法 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN111008293A (zh) * | 2018-10-06 | 2020-04-14 | 上海交通大学 | 基于结构化语义表示的视觉问答方法 |
-
2020
- 2020-07-20 CN CN202010698366.6A patent/CN111797811B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106409290A (zh) * | 2016-09-29 | 2017-02-15 | 深圳市唯特视科技有限公司 | 一种基于图像分析的幼儿智能语音教育的方法 |
CN107480206A (zh) * | 2017-07-25 | 2017-12-15 | 杭州电子科技大学 | 一种基于多模态低秩双线性池化的图像内容问答方法 |
CN111008293A (zh) * | 2018-10-06 | 2020-04-14 | 上海交通大学 | 基于结构化语义表示的视觉问答方法 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111797811A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN111797811B (zh) | 一种基于图像理解的盲人导航系统 | |
CN111507311B (zh) | 一种基于多模态特征融合深度网络的视频人物识别方法 | |
Kishore et al. | A video based Indian sign language recognition system (INSLR) using wavelet transform and fuzzy logic | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN111626116B (zh) | 基于融合多注意力机制和Graph的视频语义分析方法 | |
CN112257728B (zh) | 图像处理方法、装置、计算机设备以及存储介质 | |
CN109711356B (zh) | 一种表情识别方法和系统 | |
CN113642505B (zh) | 一种基于特征金字塔的人脸表情识别方法及装置 | |
KR101910089B1 (ko) | 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템 | |
CN111354246A (zh) | 一种用于帮助聋哑人交流的系统及方法 | |
CN113792177A (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN114724224A (zh) | 一种用于医疗护理机器人的多模态情感识别方法 | |
CN112507920A (zh) | 一种基于时间位移和注意力机制的考试异常行为识别方法 | |
CN110782503B (zh) | 一种基于两分支深度相关网络的人脸图像合成方法和装置 | |
CN113935435A (zh) | 基于时空特征融合的多模态情感识别方法 | |
CN115546861A (zh) | 一种在线课堂专注度识别方法、系统、设备及介质 | |
CN114495217A (zh) | 基于自然语言和表情分析的场景分析方法、装置及系统 | |
Shehada et al. | A lightweight facial emotion recognition system using partial transfer learning for visually impaired people | |
CN115908896A (zh) | 基于带自注意力机制脉冲神经网络的图片识别系统 | |
Akman et al. | Lip reading multiclass classification by using dilated CNN with Turkish dataset | |
CN113792607A (zh) | 基于Transformer的神经网络手语分类识别方法 | |
CN114359785A (zh) | 基于自适应矩阵特征融合网络的唇语识别方法、装置及电子设备 | |
CN116563908A (zh) | 一种基于多任务协同网络的人脸解析和情感识别方法 | |
Katti et al. | Character and word level gesture recognition of Indian Sign language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |