CN116030264A - 一种用于辅助视觉障碍者理解图片的方法及装置 - Google Patents

一种用于辅助视觉障碍者理解图片的方法及装置 Download PDF

Info

Publication number
CN116030264A
CN116030264A CN202310049314.XA CN202310049314A CN116030264A CN 116030264 A CN116030264 A CN 116030264A CN 202310049314 A CN202310049314 A CN 202310049314A CN 116030264 A CN116030264 A CN 116030264A
Authority
CN
China
Prior art keywords
image
judgment
coefficient
data
coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310049314.XA
Other languages
English (en)
Other versions
CN116030264B (zh
Inventor
王玉堂
倪永桃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Institute of Information Engineering
Original Assignee
Anhui Institute of Information Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Institute of Information Engineering filed Critical Anhui Institute of Information Engineering
Priority to CN202310049314.XA priority Critical patent/CN116030264B/zh
Publication of CN116030264A publication Critical patent/CN116030264A/zh
Application granted granted Critical
Publication of CN116030264B publication Critical patent/CN116030264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种用于辅助视觉障碍者理解图片的方法及装置,涉及图片处理技术领域,首先获取用户上传图像,并且对图像进行特征提取,然后对图像的特征点数量、图像的特征点分布率、图像高度和图像宽度进行标记,并且计算得出图像判定系数;再设定标准图像判定系数和判定阈值,利用图像判定系数和标准图像判定系数计算得出判定系数,并且将所有的判定系数合成为判定集合,将判定阈值和判定集合进行特征匹配,若相匹配,则将匹配的判定系数所对应的图像数据进行提取;最终将匹配的判定系数所对应的图像数据的文本信息进行提取,并且将文本信息转换为语音信息,并将语音提供给视觉障碍者听,实现自动将图像信息转换给视觉障碍者听的功能。

Description

一种用于辅助视觉障碍者理解图片的方法及装置
技术领域
本发明涉及图片处理技术领域,具体的是一种用于辅助视觉障碍者理解图片的方法及装置。
背景技术
视觉障碍也称为视觉障碍“视力残疾”、“视觉缺陷”、“视力损伤”等。是指视觉器官(包括眼睛、眼神经)和大脑视神经中枢的结构或功能部分或全部障碍,表现为不同程度的视力损失或视力缩小,难以做普通人可以从事工作、学习或其他活动,以限制或阻碍其年龄、性别、社会和文化条件的正常作用。视觉障碍者难以看到显示屏幕上的文本或图像,执行眼睛和手(如移动计算机鼠标)的任务。
对于视觉障碍者而言,在使用电子设备时,需要进行辅助,以使用手机为例,当打开旁白后,手机会按照触摸区块来朗读手指碰触区域范围内的内容;同时操作从轻点和滑动换成轻点朗读触摸区域,双击,长按来负责交互。但是,由于图片内容的丰富性,在缺少对图片内容的文字描述的前提下,如何使视觉障碍者理解展示的图片内容获取图片信息是亟待解决的技术问题。
发明内容
为解决上述背景技术中提到的不足,本发明的目的在于提供一种用于辅助视觉障碍者理解图片的方法及装置,能够自动将图像信息转换给视觉障碍者听。
本发明的目的可以通过以下技术方案实现:一种用于辅助视觉障碍者理解图片的装置,包括:数据采集模块、数据处理模块、数据分析模块、执行模块,
所述数据采集模块用于采集用户上传的图像,并且将用户上传的图像发送至数据处理模块进行数据处理;
所述数据处理模块在接收到数据采集模块发送的用户上传的图像后,将用户上传的图像标记为图像数据,并对图像数据进行数据处理,通过计算得出图像判定系数,将图像判定系数发送至数据分析模块进行数据分析;
所述数据分析模块在接收到数据处理模块发送的图像判定系数后,进行数据分析,设定设定标准图像判定系数和判定阈值,利用图像判定系数和标准图像判定系数计算得出判定系数,并且将所有的判定系数合成为判定集合,将判定阈值和判定集合进行特征匹配,若判定阈值与判定集合内的部分判定系数相匹配,则将匹配的判定系数所对应的图像数据进行提取并标记为二次图像数据,发送至执行模块;
所述执行模块在接收到数据分析模块发送的二次图像数据后,将图像数据内的文本信息进行提取,并且转换为语音信息,然后将语音信息转换成语音提供给视觉障碍者。
优选地,所述数据处理模块包括图像特征提取网络模型,用于对图像进行特征提取。
优选地,所述数据处理模块的处理过程包括以下步骤:
将图像数据进行特征提取,所述特征提取的部分包括图像的特征点数量、图像的特征点分布率、图像高度和图像宽度;
将图像的特征点数量标记为Si,图像的特征点分布率标记为Fi,图像高度标记为Gi,图像宽度标记为Ki,其中,i为采集次数标号,且i=1、2、3、...、n,n为采集次数总数;
利用公式
Figure BDA0004057089480000021
计算得出图像判定系数Pdi,式中,S0为标准特征点数量,F0为标准特征点分布率,G0为标准图像高度,K0为标准图像宽度,α为特征点数量影响系数,β为特征点分布率影响系数,a为图像高度影响系数,b为图像宽度影响系数。
优选地,所述数据分析模块包括图像特征判别模型,用于对图像进行特征判别。
优选地,所述数据分析模块的分析过程包括以下步骤:
设定标准图像判定系数Pd0,判定阈值Yz0,利用公式
Figure BDA0004057089480000031
计算判定系数Pyi,并且将各判定系数Pyi合成为判定集合{Pyi},且{Pyi}=(Py1、Py2、...、Pyn),将判定阈值Yz0和判定集合{Pyi}进行特征匹配,若判定阈值Yz0与判定集合{Pyi}内的部分判定系数相匹配,则将匹配的判定系数所对应的图像数据进行提取,并标记为二次图像数据,并且发送二次图像数据和执行信号至执行模块进行执行操作。
优选地,所述执行模块包括信息提取单元、语音转换单元和扩音器,所述信息提取单元用于对文本信息进行提取,所述语音转换单元用于将提取的文本信息转换为语音信息,扩音器用于将语音信息转换成语音提供给视觉障碍者听。
优选地,一种用于辅助视觉障碍者理解图片的方法,方法包括以下步骤:
获取用户上传图像,并且对图像进行特征提取,包括图像的特征点数量、图像的特征点分布率、图像高度和图像宽度;
对图像的特征点数量、图像的特征点分布率、图像高度和图像宽度进行标记,并且利用图像的特征点数量、图像的特征点分布率、图像高度和图像宽度计算得出图像判定系数;
设定标准图像判定系数和判定阈值,利用图像判定系数和标准图像判定系数计算得出判定系数,并且将所有的判定系数合成为判定集合,将判定阈值和判定集合进行特征匹配,若判定阈值与判定集合内的部分判定系数相匹配,则将匹配的判定系数所对应的图像数据进行提取;
将匹配的判定系数所对应的图像数据的文本信息进行提取,并且将文本信息转换为语音信息,并将语音信息转换成语音提供给视觉障碍者听。
本发明的有益效果:
本发明首先获取用户上传图像,并且对图像进行特征提取,包括图像的特征点数量、图像的特征点分布率、图像高度和图像宽度,然后对图像的特征点数量、图像的特征点分布率、图像高度和图像宽度进行标记,并且利用图像的特征点数量、图像的特征点分布率、图像高度和图像宽度计算得出图像判定系数;再设定标准图像判定系数和判定阈值,利用图像判定系数和标准图像判定系数计算得出判定系数,并且将所有的判定系数合成为判定集合,将判定阈值和判定集合进行特征匹配,若判定阈值与判定集合内的部分判定系数相匹配,则将匹配的判定系数所对应的图像数据进行提取;最终将匹配的判定系数所对应的图像数据的文本信息进行提取,并且将文本信息转换为语音信息,并将语音信息转换成语音提供给视觉障碍者听,从而实现自动将图像信息转换给视觉障碍者听的功能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1是本发明原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种用于辅助视觉障碍者理解图片的装置,包括:数据采集模块、数据处理模块、数据分析模块、执行模块,所述数据采集模块用于采集用户上传的图像,并且将用户上传的图像发送至数据处理模块进行数据处理,需要进一步进行说明的是,在具体实施过程中,所述数据采集模块利用与电子设备相连接,从而获取电子设备中用户所上传的图像的对象,并且将获取到的图像对象进行模数转换最终获得;
所述数据处理模块在接收到数据采集模块发送的用户上传的图像后,将用户上传的图像标记为图像数据,并对图像数据进行数据处理,需要进一步进行说明的是,在具体实施过程中,具体的,数据处理模块的处理过程包括以下步骤:
将图像数据进行特征提取,所述特征提取的部分包括图像的特征点数量、图像的特征点分布率、图像高度和图像宽度;
将图像的特征点数量标记为Si,图像的特征点分布率标记为Fi,图像高度标记为Gi,图像宽度标记为Ki,其中,i为采集次数标号,且i=1、2、3、...、n,n为采集次数总数;
利用公式
Figure BDA0004057089480000051
计算得出图像判定系数Pdi,式中,S0为标准特征点数量,F0为标准特征点分布率,G0为标准图像高度,K0为标准图像宽度,α为特征点数量影响系数,β为特征点分布率影响系数,a为图像高度影响系数,b为图像宽度影响系数;
需要进一步进行说明的是,在具体实施过程中,所述数据处理模块包括图像特征提取网络模型,用于对图像进行特征提取;
将计算得出的图像判定系数Pdi发送至数据分析模块进行数据分析,所述数据分析模块在接收到数据处理模块发送的图像判定系数Pdi后,进行数据分析,需要进一步进行说明的是,在具体实施过程中,具体的,数据分析模块的分析过程包括以下步骤:
设定标准图像判定系数Pd0,判定阈值Yz0,利用公式
Figure BDA0004057089480000061
计算判定系数Pyi,并且将各判定系数Pyi合成为判定集合{Pyi},且{Pyi}=(Py1、Py2、...、Pyn),将判定阈值Yz0和判定集合{Pyi}进行特征匹配,若判定阈值Yz0与判定集合{Pyi}内的部分判定系数相匹配,则将匹配的判定系数所对应的图像数据进行提取,并标记为二次图像数据,并且发送二次图像数据和执行信号至执行模块进行执行操作;
需要进一步进行说明的是,在具体实施过程中,所述数据分析模块包括图像特征判别模型,用于对图像进行特征判别;
所述执行模块在接收到数据分析模块发送的二次图像数据后,将图像数据内的文本信息进行提取,并且转换为语音信息,然后将语音信息提供给视觉障碍者。
需要进一步进行说明的是,在具体实施过程中,所述执行模块包括信息提取单元、语音转换单元和扩音器,所述信息提取单元用于对文本信息进行提取,所述语音转换单元用于将提取的文本信息转换为语音信息,扩音器用于将语音信息转换成语音提供给视觉障碍者听。
一种用于辅助视觉障碍者理解图片的方法,包括以下步骤:
获取用户上传图像,并且对图像进行特征提取,包括图像的特征点数量、图像的特征点分布率、图像高度和图像宽度;
对图像的特征点数量、图像的特征点分布率、图像高度和图像宽度进行标记,并且利用图像的特征点数量、图像的特征点分布率、图像高度和图像宽度计算得出图像判定系数;
设定标准图像判定系数和判定阈值,利用图像判定系数和标准图像判定系数计算得出判定系数,并且将所有的判定系数合成为判定集合,将判定阈值和判定集合进行特征匹配,若判定阈值与判定集合内的部分判定系数相匹配,则将匹配的判定系数所对应的图像数据进行提取;
将匹配的判定系数所对应的图像数据的文本信息进行提取,并且将文本信息转换为语音信息,并将语音信息转换成语音提供给视觉障碍者听。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本公开的基本原理、主要特征和本公开的优点。本行业的技术人员应该了解,本公开不受上述实施例的限制,上述实施例和说明书中描述的只是说明本公开的原理,在不脱离本公开精神和范围的前提下,本公开还会有各种变化和改进,这些变化和改进都落入要求保护的本公开范围内容。

Claims (7)

1.一种用于辅助视觉障碍者理解图片的装置,其特征在于,包括:数据采集模块、数据处理模块、数据分析模块、执行模块,
所述数据采集模块用于采集用户上传的图像,并且将用户上传的图像发送至数据处理模块进行数据处理;
所述数据处理模块在接收到数据采集模块发送的用户上传的图像后,将用户上传的图像标记为图像数据,并对图像数据进行数据处理,通过计算得出图像判定系数,将图像判定系数发送至数据分析模块进行数据分析;
所述数据分析模块在接收到数据处理模块发送的图像判定系数后,进行数据分析,设定设定标准图像判定系数和判定阈值,利用图像判定系数和标准图像判定系数计算得出判定系数,并且将所有的判定系数合成为判定集合,将判定阈值和判定集合进行特征匹配,若判定阈值与判定集合内的部分判定系数相匹配,则将匹配的判定系数所对应的图像数据进行提取并标记为二次图像数据,发送至执行模块;
所述执行模块在接收到数据分析模块发送的二次图像数据后,将图像数据内的文本信息进行提取,并且转换为语音信息,然后将语音信息转换成语音提供给视觉障碍者。
2.根据权利要求1所述的一种用于辅助视觉障碍者理解图片的装置,其特征在于,所述数据处理模块包括图像特征提取网络模型,用于对图像进行特征提取。
3.根据权利要求2所述的一种用于辅助视觉障碍者理解图片的装置,其特征在于,所述数据处理模块的处理过程包括以下步骤:
将图像数据进行特征提取,所述特征提取的部分包括图像的特征点数量、图像的特征点分布率、图像高度和图像宽度;
将图像的特征点数量标记为Si,图像的特征点分布率标记为Fi,图像高度标记为Gi,图像宽度标记为Ki,其中,i为采集次数标号,且i=1、2、3、...、n,n为采集次数总数;
利用公式
Figure FDA0004057089460000021
计算得出图像判定系数Pdi,式中,S0为标准特征点数量,F0为标准特征点分布率,G0为标准图像高度,K0为标准图像宽度,α为特征点数量影响系数,β为特征点分布率影响系数,a为图像高度影响系数,b为图像宽度影响系数。
4.根据权利要求1所述的一种用于辅助视觉障碍者理解图片的装置,其特征在于,所述数据分析模块包括图像特征判别模型,用于对图像进行特征判别。
5.根据权利要求4所述的一种用于辅助视觉障碍者理解图片的装置,其特征在于,所述数据分析模块的分析过程包括以下步骤:
设定标准图像判定系数Pd0,判定阈值Yz0,利用公式
Figure FDA0004057089460000022
计算判定系数Pyi,并且将各判定系数Pyi合成为判定集合{Pyi},且{Pyi}=(Py1、Py2、...、Pyn),将判定阈值Yz0和判定集合{Pyi}进行特征匹配,若判定阈值Yz0与判定集合{Pyi}内的部分判定系数相匹配,则将匹配的判定系数所对应的图像数据进行提取,并标记为二次图像数据,并且发送二次图像数据和执行信号至执行模块进行执行操作。
6.根据权利要求1所述的一种用于辅助视觉障碍者理解图片的装置,其特征在于,所述执行模块包括信息提取单元、语音转换单元和扩音器,所述信息提取单元用于对文本信息进行提取,所述语音转换单元用于将提取的文本信息转换为语音信息,扩音器用于将语音信息转换成语音提供给视觉障碍者听。
7.一种用于辅助视觉障碍者理解图片的方法,其特征在于,方法包括以下步骤:
获取用户上传图像,并且对图像进行特征提取,包括图像的特征点数量、图像的特征点分布率、图像高度和图像宽度;
对图像的特征点数量、图像的特征点分布率、图像高度和图像宽度进行标记,并且利用图像的特征点数量、图像的特征点分布率、图像高度和图像宽度计算得出图像判定系数;
设定标准图像判定系数和判定阈值,利用图像判定系数和标准图像判定系数计算得出判定系数,并且将所有的判定系数合成为判定集合,将判定阈值和判定集合进行特征匹配,若判定阈值与判定集合内的部分判定系数相匹配,则将匹配的判定系数所对应的图像数据进行提取;
将匹配的判定系数所对应的图像数据的文本信息进行提取,并且将文本信息转换为语音信息,并将语音信息转换成语音提供给视觉障碍者听。
CN202310049314.XA 2023-02-01 2023-02-01 一种用于辅助视觉障碍者理解图片的方法及装置 Active CN116030264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310049314.XA CN116030264B (zh) 2023-02-01 2023-02-01 一种用于辅助视觉障碍者理解图片的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310049314.XA CN116030264B (zh) 2023-02-01 2023-02-01 一种用于辅助视觉障碍者理解图片的方法及装置

Publications (2)

Publication Number Publication Date
CN116030264A true CN116030264A (zh) 2023-04-28
CN116030264B CN116030264B (zh) 2024-03-29

Family

ID=86090994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310049314.XA Active CN116030264B (zh) 2023-02-01 2023-02-01 一种用于辅助视觉障碍者理解图片的方法及装置

Country Status (1)

Country Link
CN (1) CN116030264B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160090781A (ko) * 2016-07-19 2016-08-01 주식회사 비에스엘 영상의 음향 변환 장치 및 그에 의한 시각 장애인용 음향 변환 방법
CN108280448A (zh) * 2017-12-29 2018-07-13 北京智慧眼科技股份有限公司 指静脉按压图的判别方法及装置、指静脉识别方法
CN111968189A (zh) * 2020-08-27 2020-11-20 常州钛电科技有限公司 基于深度学习的视觉里程计特征点检测系统及方法
CN114168104A (zh) * 2021-12-08 2022-03-11 杭州电子科技大学 一种面向视障人群的场景文字交互式理解系统
CN114625710A (zh) * 2022-05-12 2022-06-14 深圳市巨力方视觉技术有限公司 一种可调取历史数据进行识别的视觉集成系统
CN114945108A (zh) * 2022-05-14 2022-08-26 云知声智能科技股份有限公司 一种用于辅助视觉障碍者理解图片的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160090781A (ko) * 2016-07-19 2016-08-01 주식회사 비에스엘 영상의 음향 변환 장치 및 그에 의한 시각 장애인용 음향 변환 방법
CN108280448A (zh) * 2017-12-29 2018-07-13 北京智慧眼科技股份有限公司 指静脉按压图的判别方法及装置、指静脉识别方法
CN111968189A (zh) * 2020-08-27 2020-11-20 常州钛电科技有限公司 基于深度学习的视觉里程计特征点检测系统及方法
CN114168104A (zh) * 2021-12-08 2022-03-11 杭州电子科技大学 一种面向视障人群的场景文字交互式理解系统
CN114625710A (zh) * 2022-05-12 2022-06-14 深圳市巨力方视觉技术有限公司 一种可调取历史数据进行识别的视觉集成系统
CN114945108A (zh) * 2022-05-14 2022-08-26 云知声智能科技股份有限公司 一种用于辅助视觉障碍者理解图片的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JOTHI GANESAN等: "Deep Learning Reader for Visually Impaired", 《ELECTRONICS》, 31 December 2022 (2022-12-31), pages 1 - 22 *

Also Published As

Publication number Publication date
CN116030264B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN106599800A (zh) 一种基于深度学习的人脸微表情识别方法
CN112183238A (zh) 一种远程教育注意力检测方法及系统
CN109147763A (zh) 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
CN105976675A (zh) 聋哑人与人的智能信息交流装置及其交流方法
CN111223369A (zh) 聋语翻译机及其交流方法
CN111539408A (zh) 基于拍照识物的智能点读方案
CN112395461A (zh) 一种基于大数据分析的商务会议智能管理系统
CN110543811A (zh) 一种基于深度学习的非配合式考试人员管理方法及其系统
CN107464260A (zh) 一种采用无人机的水稻冠层图像处理方法
CN106981238A (zh) 一种基于计算机视觉的手语交流装置
CN109508755A (zh) 一种基于图像认知的心理测评方法
CN112768070A (zh) 一种基于对话交流的精神健康评测方法和系统
CN108510988A (zh) 一种用于聋哑人的语言识别系统及方法
CN110399810A (zh) 一种辅助点名方法及装置
CN106295514A (zh) 一种图像识别题目显示答案的方法及装置
Hasib et al. BDSL 49: A comprehensive dataset of Bangla sign language
CN116030264B (zh) 一种用于辅助视觉障碍者理解图片的方法及装置
CN110222647A (zh) 一种基于卷积神经网络的人脸活体检测方法
CN113868472A (zh) 数字人视频的生成方法以及相关设备
CN108877409A (zh) 基于手势识别和vr显示的聋哑人辅助工具及其实现方法
CN113593374A (zh) 一种口肌训练结合的多模态言语康复训练系统
CN206148088U (zh) 一种具备语音控制功能的广告机
Dayana et al. Recommendations for Developing a Sign Language Recognition Application for Malaysia
Nandgaonkar et al. Image mining of textual images using low-level image features
CN112861775B (zh) 基于深度神经网络的参会人员识别记录系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant