CN104484666A - 一种基于人机交互的图像高级语义解析的方法 - Google Patents
一种基于人机交互的图像高级语义解析的方法 Download PDFInfo
- Publication number
- CN104484666A CN104484666A CN201410790684.XA CN201410790684A CN104484666A CN 104484666 A CN104484666 A CN 104484666A CN 201410790684 A CN201410790684 A CN 201410790684A CN 104484666 A CN104484666 A CN 104484666A
- Authority
- CN
- China
- Prior art keywords
- image
- semantic
- man
- resolved
- machine interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000003993 interaction Effects 0.000 title claims abstract description 22
- 238000001914 filtration Methods 0.000 claims abstract description 6
- 239000000463 material Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 17
- 208000029257 vision disease Diseases 0.000 abstract description 5
- 206010047571 Visual impairment Diseases 0.000 abstract 1
- 230000008520 organization Effects 0.000 abstract 1
- 230000004393 visual impairment Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 238000011160 research Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 201000009487 Amblyopia Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种基于人机交互的图像高级语义解析的方法,包括:基于便携式扫描设备扫描源图像;对源图像中的目标进行识别;将源图像中的内容进行过滤和解析,并提炼出有效的知识;组织语义将图像内容用语音形式传递给用户。实施本发明实施例针对视力障碍群体和自学能力较弱的群体,只需凭借简单的扫描工作,无需借助视觉系统通过计算机描述图像,能够帮助这样的弱势群体体会另一个不同的世界,也可以作为娱乐生活的一部分。操作简单,移植性良好。
Description
技术领域
本发明涉及人机交互技术领域,尤其涉一种基于人机交互的图像高级语义解析的方法。
背景技术
随着互联网的普及,存储技术、多媒体技术和数据库技术快速发展,人们在图像应用上所提出的要求日益增长。物理学界认为,人类特有的三种信息是语言、符号和图像,信息的传播在很大程度上依赖于视觉,至少有80%的外界信息是通过视觉感知获得的,视觉是人和动物最重要的感觉。一幅图像中包含的语义信息相当丰富,但是不是任何群体都有正常的视觉功能或有良好的理解能力,所以如何借助计算机自动解析图像是一项有意义且具有挑战的任务。而最终得到准确的语义解析与表达实现过程中需要借助计算机自动对图像进行标注。
图像语义的研究主要集中在基于图像各层语义的分类及检索、低层语义特征的提取、中层对象语义的描述等方面。进入20世纪90年代后,基于内容的图像检索(Content-Based Image Retrieval,CBIR)成为一个研究热点,也成为多媒体数据库、数字图书馆等重大研究项目中的关键技术。CBIR从一定程度上解决了基于文本的图像检索的局限性,它通过计算图像视觉特征(如颜色、纹理、形状等)间的相似度来匹配图像,以及运用可视化的查询方式来代替基于文本的图像检索。实现了使用颜色、纹理、形状及区域等图像视觉内容特征的检索和“以图找图”的检索模式的飞跃。基于内容的图像检索融合了图像理解、模式识别信息技术等领域知识,是多种高新技术的合成。一些研究者重点对图像底层视觉特征提取及表示进行研究,并取得了一定的成果。然而,在实际应用中,传统的CBIR系统的检索结果往往难以令人满意,不能满足人们按照语义检索图像的需求,这主要因为用户往往对所需的图像只存在有关图像描述的对象、事件以及表达的情感等含义上的一些高层概念(如度假、城市、肖像等),用户需要的是图像语义的查询,而不是图像的底层视觉特征。这里提到的图像的含义就是图像的高层语义特征,它包含了人们对图像内容的理解,这种理解要根据人的认知知识来判断,并不能够直接从图像的底层特征获得。这就产生了基于内容的图像检索系统中存在的“语义鸿沟”问题,即人对图像内容的理解与计算机自动提取的图像视觉特征间存在的巨大的差异。进入21世纪,图像检索围绕图像语义(Image Semantic)这一热点展开,其目的是使计算机检索图像的能力达到人的理解水平,实现更为贴近用户理解能力的自然而简洁的查询方式,并提高图像检索的精度。基于语义的图像检索(Semantic-Based Image Retrieval,SBIR)立足于图像的语义特征,研究如何将图像的底层视觉特征映射到图像高层语义,以及如何描述这些高层语义。随着2001年9月“多媒体内容描述接口”MPEG-7标准的推出和逐渐完善,数字化图像将具有统一的视觉特征描述参数和表达复杂语义关系的描述定义语言,这将有利于基于语义的图像检索技术取得突破性进展,并走向实用化和通用化。图像语义自动标注是基于语义的图像检索的关键环节,已经成为图像检索中的研究热点。图像语义的自动标注就是为图像添加关键字来表示图像的语义内容,能够将图像的视觉特征转化为图像的标注字信息,继承了关键字检索的高效率,也克服了手工标注费时费力的缺点。算法的步骤一般有两个方面:首先对标注了同一语义的所有图像底层特征组成的集合进行统计学习,得到该语义类的训练模型;其次对于一幅待标注的图像,同样提取图像底层特征,根据已求得的语义类的训练模型,获得属于该图像语义的概率,因而可以求得在待标注的图像中,所有语义概念或者说文本关键字出现的概率。对图像的语义概率按序排列,选择概率最高的若干个关键词作为此图像的语义标签。图像语义的自动标注作为图像检索领域研究的热点,具有广泛的应用前景,主要包括医学图像分类、数字化图书馆的建立和管理、数码照片的检索和管理、视频检索、卫星遥感图像处理等方面。
在图像语义描述中,图像内容描述具有“像素-区域-目标-场景”的层次包含关系,而语义描述的本质就是采用合理的构词方式进行词汇编码(Encoding)和注解(Annotation)的过程。这种过程与图像内容的各层描述密切相关,图像像素和区域信息源于中低层数据驱动,根据结构型数据的相似特性对像素(区域)进行“标记”(Labeling),可为高层语义编码提供有效的低层实体对应关系。目标和场景的中层“分类”(Categorization)特性也具有明显的编码特性,每一类别均可视为简单的语义描述,为多语义分析的拓展提供较好的原型描述。
我们描述一幅图像的不同属性,例如这些底层特征,颜色、纹理、边缘或形状等,已经成为了计算机视觉领域中重要课题,识别出一幅图像中的这些信息也许在大多数实践应用中提供了有用的信息。但是,这绝对不是人类同这个视觉世界进行交流的层次,也不是对视力障碍群体所提供的描述方式。我们需要做的不仅是一幅场景中识别出许多单独的目标,还要分辨出不同的环境并感知进行的复杂的活动和社交关系。这是图像理解的高层语义识别,图1为图像理解过程的示意图。
人机交互(human-computer interaction,HCI)是一门研究系统与用户之间的交互关系的学问。人与计算机系统相互沟通的平台,是人机对话的接口。以人为中心、自然、高效的交互是发展新一代人机交互技术的主要目标。人机交互技术的发展经历了3个阶段,其中,第3代人机交互界面——多模态用户界面,在多媒体界面的基础上,采用语音识别、视线跟踪、手势输入等新技术,使用户可用多种形态或多个通道以自然、并行和协作的方式进行交互,系统通过整合多通道精确和非精确信息,快速捕捉用户的意向,有效地提高人机交互的自然性和效率。
根据图像标注方法的发展进程,目前文献中用于解决“语义鸿沟”问题的方法按其侧重点大致可分为三类:基于机器学习的方法;基于相关反馈的方法;基于本体的方法。
(1)基于机器学习的方法
目前采用机器学习和统计模型学习进行图像自动语义标注大体上可分为有监督语义标注和无监督语义标注两大类。有监督的分类方法首先通过学习、训练事先给定的经过语义标注的一组样本图像,获得图像语义分类器,然后利用分类器将未标注或未归类的图像归并到某一语义类。最常用的有监督学习技术有贝叶斯分类器和支持向量机(Support Vector Machine,SVM)技术。无监督语义标注根据图像内容将库中图像(或图像区域)聚类到某些有意义的集合,使得位于同一聚类内的图像的相似度尽可能大,而位于不同聚类的图像的相似度尽可能小。然后利用统计方法为每个聚类加一个类标签,以获得各个图像聚类中的语义信息。简单来说它的目标在于对输入数据进行合理有效的组织或聚类。该方法对于手工标注的训练集要求较低,训练数据和语义概念具有可扩展性。但是严格地说,单纯的图像聚类并不能为一个新的图像获取显式的语义标签,需要与其他技术结合使用来进行图像的自动语义标注,充分发挥其效率,并达到较高的检索精度。
(2)基于相关反馈的方法
相关反馈(Relevance Feedback,RF)的基本思想是指在检索过程中,用户根据先前检索结果借助权重调整已有的查询要求以给检索系统提供更多更直接的信息,从而使系统更好地满足用户的要求。简单的说,反馈的过程是用户和检索系统之间的一个交互过程,系统根据用户对当前检索结果的评价来调整用户的初始查询以及匹配模型的参数,从而达到对检索结果的优化。相关反馈在本质上还是一个学习过程,它的方法具有与人类学习方法类似的思路,是一种很有价值的研究语义映射的方法,在视觉特征层次和语义层次都能获得较好的检索效果。其具有样本数少、实时性要求强等特点,但是有可能产生检索时间过长,结果振荡等问题。
(3)基于对象本体的方法
本体(Ontology)在文本信息检索中有广泛的应用,但在图像检索领域起步较晚。本体指的是特定领域公认的关于该领域的对象(实际对象和逻辑对象)及其关系的概念化表述。它指出图像中不同的对象可以用简单描述词的集合来定义,如“天空”定义为“在上方的、均匀的、蓝色的”区域。通过将颜色、位置、大小和形状等底层特征离散化后与映射到这些简单语义上,最终可以得到对象语义。对于类型比较单一的图像库,基于本体的方法能得到较好的效果。而对大型图像数据库而言,这一方法效果不佳。下图给出了一幅当前通过计算机自动实现标注的示意图,如图2中所示。
目前,在计算机视觉领域,大多数研究者将研究工作集中在目标识别和目标分类上,关于场景环境的分类也有许多模型被提出,但是一幅静态的图像中对事件的识别这类研究很少。而且大多数基于内容检索图像、对图像进行标注都是单一进行的,没有连贯性的将这些工作结合起来。则将一幅图像用计算机如何描述并用语言组织反馈给用户有很好的研究价值。
发明内容
本发明的目的在于克服现有技术的不足,本发明所提出的基于人机交互的图像高级语义解析的方法,能够帮助这样的弱势群体体会另一个不同的世界,也可以作为娱乐生活的一部分。
为了解决上述问题,本发明提出了一种基于人机交互的图像高级语义解析的方法,包括:
基于便携式扫描设备扫描源图像;
对源图像中的目标进行识别;
将源图像中的内容进行过滤和解析,并提炼出有效的知识;
组织语义将图像内容用语音形式传递给用户。
所述基于便携式扫描设备扫描源图像包括:
基于ARM的便携式扫描设备扫描源图像。
所述对源图像中的目标进行识别包括:
对图像的特征提取采用SIFT局部特征提取,同时结合HOG特征和GIST全局特征,能够更全面的获取图像信息。
所述将源图像中的内容进行过滤和解析,并提炼出有效的知识包括:
采取词袋模型图像分类方法提炼出有效的知识。
所述词袋模型图像分类方法包括:
通过图像分割或随机采样等方式检测特征点;
对图像提取局部特征,并生成描述符;
将关于这些特征点的描述符利用聚类的方法,其中每一个聚类中心为一个视觉单词;
将每个视觉单词出现的频率统计成视觉单词直方图。
所述组织语义将图像内容用语音形式传递给用户包括:
采用潜在语义提取技术将图像内容用语音形式传递给用户。
实施本发明实施例,本发明主要是针对视力障碍群体和自学能力较弱的群体,只需凭借简单的扫描工作,无需借助视觉系统通过计算机描述图像,能够帮助这样的弱势群体体会另一个不同的世界,也可以作为娱乐生活的一部分。操作简单,移植性良好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是现有技术中的图像处理过程流程图;
图2是现有技术中的自动图像标注示例图;
图3是本发明实施例中的基于人机交互的图像高级语义解析的方法流程图;
图4是本发明实施例中的描设备结构原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明针对任意一幅图像(彩色图像或黑白图),借助一个手持便携式的扫描设备进行整体扫描,使得源图像信息录入该系统,系统对图像中的目标进行识别,并将其内容进行过滤和解析,提炼出有效知识,组织语义将图像内容用语音形式传递给用户。例如:一幅水上划船的图像,通过系统识别出一个人,一条船,一片湖,一根鱼竿,天空,树木等目标,系统进行目标分析及图像语义的组织,最后将用语音设备输出信息:人在湖上钓鱼。该系统发明主要目的在于帮助有视力障碍的患者(弱视,盲人等)或不识字的老人以及学前儿童在无人力协助情况下有效的识别图像内容,让该群体去了解不能接触的外界。这种基于人机交互的高级语义解析系统具有很好的兼容性及移植性,操作便捷。系统的工作流程图如图3中所示。
(1)基于ARM的便携式扫描设备(硬件)
硬件层主要由系统核心部分、扫描部分和人机接口部分组成。另外,为了扩充其功能及适应多种应用场合,预留了一些扩展接口。微处理器选用目前常见的三星S3C2410X芯片,芯片内核是带16KB数据Cache和16KB指令Cache的ARM9TDMI核,工作频率203MHz。存贮器采用64MB的NAND Flash和64MB的SDRAM。扫描部分采用SDIO掌上型扫描卡。基于微线性CMOS映像技术的此款SDIO ISC扫描卡,可扫描所有主流的线性条码。人机接口部分用三星公司的LT V350QV-F05型3.5寸TFT触摸屏,配以触摸板,可同时实现显示及键盘功能,有利于减小设备的体积。以太网口用于数据的传输和下载。预留U SB、RS232等接口以方便该设备的功能扩充。
(2)特征提取技术
由于SIFT特征对光照、尺度等具有不变性,对图像的特征提取采用SIFT局部特征提取,同时结合HOG特征和GIST全局特征,能够更全面的获取图像信息。
(3)BOW模型描述
随着局部特征在计算机视觉领域的广泛应用,基于局部特征的图像分类识别方法也得到了更为广泛的关注。由于局部特征在提取吋,每幅图像检测得到的特征点数目不统一,使得在机器训练时无法入手,并且这些方法都是基于特征点来进行匹配,其计算量大的缺点凸显而无法满足日益增大的图像数据库的需求。为了克服这些问题,美国斯坦福大学的Ll-feifei等学者首先将词袋模型作为一种特征表示应用到计算机图像处理领域。词袋模型图像分类方法不仅能很好的解决图像局部特征不统一的问题,而且表示方法也比较简单,训练分类快速,得到了极大的发展。受文本检索方法的启示,词袋模型由于其高性能受到国内外的学者越来越多的关注。词袋模型已经被广泛地应用于图像分类和检索中:
词袋模型生成主要步骤为:
①通过图像分割或随机采样等方式检测特征点。
②对图像提取局部特征(SIFT),并生成描述符。
③将关于这些特征点的描述符利用聚类的方法(通常采用K-means聚类)形成视觉词典(Visual Vocabulary),其中每一个聚类中心为一个视觉单词。
④将每个视觉单词出现的频率统计成视觉单词直方图。
(4)潜在语义提取技术
自然语言处理(NLP)的很多应用都需要探究隐藏在字、词背后的涵义,简单的字面匹配绝难奏效,关键在于同义词和一词多义的把握.潜在语义分析(LSA)为此提供了部分解决问题的方法,即利用奇异值分解(SVD)将高维度的词汇-文档共现矩阵映射到低维度的潜在语义空间,使得表面毫不相关的词体现出深层次的联系。概率潜在语义分析(PLSA)作为潜在语义分析(LSA)的变种,拥有更坚实的数学基础及易于利用的数据生成模型,且已被证实能够为信息提取提供更好的词汇匹配。给定一个文档集合D={d1,d2,…,dM}和一个词集合W={w1,w2,…,wN}以及一个文档和词的共现频率矩阵N≡(nij),n(di,wj)表示词wj在文档dj中出现的频率。使用Z={z1,z2,…,zK}表示潜在语义的集合,K为人工指定的一个常数。概率潜在语义分析假设“文档—词”对之间是条件独立的,并且潜在语义在文档或词上分布也是条件独立的.在上面假设的前提下,可使用下列公式来表示“文档—词”的条件概率:
式(1)中的为潜在语义在词上的分布概率,也解释为词对潜在语义的贡献度。表示文档中的潜在语义分布概率,也解释为文档中具有相应潜在语义的概率。概率潜在语义分析根据极大似然估计原则,通过求取如下对数似然函数的极大值来计算PLSA的参数:
在有隐含变量的模型中,极大似然估计的标准过程是期望最大(EM)算法,EM算法替于两个步骤直至收敛。
在E步,利用当前估计的参数值来计算隐含变量的后验概率。
在M步,利用上一步的期望值来最大化当前的参数估计。
相对于潜在语义分析中的SVD分解,EM算法具有线性的收敛速度,且简单实现,能使似然函数达到局部最优。
在构建了图像区域BOW描述后,我们就可以利用PLSA来进行区域潜在语义的发现.我们将图像中的每个区域看作一个单独的文档,用d来表示,而视觉词汇就看作文档中的词汇,用w来表示,图像的区域潜在语义用z来表示,n(di,wj)表示视觉词汇wj在区域dj中出现的频率。
基于PLSA方法的区域潜在语义提取可分成两个步骤:
学习阶段:对由训练图像生成的所有图像区域集合,应用PLSA来进行训练,通过EM算法迭代公式(3)(4)(5)(6)直到收敛,从而得到这里实际上就是区域潜在语义模型,它描述了在图像区域中潜在语义出现时视觉词汇的分布规律。
推断阶段:对于测试图像的所有区域,保持不变,同样用EM算法迭代公式(3)(5)(6)直至收敛,从而得到每个分块区域的表示了分块区域具有潜在语义z的概率。
假设我们定义区域潜在语义的个数为T,L层空间金字塔分块得到的区域数为N=(4L-1)/3。对于每一个分块区域di,我们可以得到一个T维的特征向量考虑到区域的潜在语义在空间上的分布也有助于图像场景分类,因此,我们最终将图像所有分块区域的T维特征向量连接为一个向量 这就是我们定义的图像区域潜在语义特征。获得图像区域潜在语义特征后,我们就可以构建SVM分类器模型来对图像进行场景分类。
本发明主要是针对视力障碍群体和自学能力较弱的群体,只需凭借简单的扫描工作,无需借助视觉系统通过计算机描述图像,能够帮助这样的弱势群体体会另一个不同的世界,也可以作为娱乐生活的一部分。操作简单,移植性良好。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的基于人机交互的图像高级语义解析的方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种基于人机交互的图像高级语义解析的方法,其特征在于,包括:
基于便携式扫描设备扫描源图像;
对源图像中的目标进行识别;
将源图像中的内容进行过滤和解析,并提炼出有效的知识;
组织语义将图像内容用语音形式传递给用户。
2.如权利要求1所述的基于人机交互的图像高级语义解析的方法,其特征在于,所述基于便携式扫描设备扫描源图像包括:
基于ARM的便携式扫描设备扫描源图像。
3.如权利要求2所述的基于人机交互的图像高级语义解析的方法,其特征在于,所述对源图像中的目标进行识别包括:
对图像的特征提取采用SIFT局部特征提取,同时结合HOG特征和GIST全局特征,能够更全面的获取图像信息。
4.如权利要求3所述的基于人机交互的图像高级语义解析的方法,其特征在于,所述将源图像中的内容进行过滤和解析,并提炼出有效的知识包括:
采取词袋模型图像分类方法提炼出有效的知识。
5.如权利要求4所述的基于人机交互的图像高级语义解析的方法,其特征在于,所述词袋模型图像分类方法包括:
通过图像分割或随机采样等方式检测特征点;
对图像提取局部特征,并生成描述符;
将关于这些特征点的描述符利用聚类的方法,其中每一个聚类中心为一个视觉单词;
将每个视觉单词出现的频率统计成视觉单词直方图。
6.如权利要求5所述的基于人机交互的图像高级语义解析的方法,其特征在于,所述组织语义将图像内容用语音形式传递给用户包括:
采用潜在语义提取技术将图像内容用语音形式传递给用户。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410790684.XA CN104484666A (zh) | 2014-12-17 | 2014-12-17 | 一种基于人机交互的图像高级语义解析的方法 |
PCT/CN2015/082908 WO2016095487A1 (zh) | 2014-12-17 | 2015-06-30 | 一种基于人机交互的图像高级语义解析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410790684.XA CN104484666A (zh) | 2014-12-17 | 2014-12-17 | 一种基于人机交互的图像高级语义解析的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104484666A true CN104484666A (zh) | 2015-04-01 |
Family
ID=52759207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410790684.XA Pending CN104484666A (zh) | 2014-12-17 | 2014-12-17 | 一种基于人机交互的图像高级语义解析的方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104484666A (zh) |
WO (1) | WO2016095487A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426447A (zh) * | 2015-11-09 | 2016-03-23 | 北京工业大学 | 一种基于超限学习机的相关反馈方法 |
WO2016095487A1 (zh) * | 2014-12-17 | 2016-06-23 | 中山大学 | 一种基于人机交互的图像高级语义解析的方法 |
CN105740402A (zh) * | 2016-01-28 | 2016-07-06 | 百度在线网络技术(北京)有限公司 | 数字图像的语义标签的获取方法及装置 |
TWI553494B (zh) * | 2015-11-04 | 2016-10-11 | 創意引晴股份有限公司 | 基於多模態融合之智能高容錯視頻識別系統及其識別方法 |
CN106682059A (zh) * | 2015-11-11 | 2017-05-17 | 奥多比公司 | 根据图像的结构化的知识建模和提取 |
CN106777125A (zh) * | 2016-12-16 | 2017-05-31 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于神经网络及图像关注点的图像描述生成方法 |
CN109040693A (zh) * | 2018-08-31 | 2018-12-18 | 上海赛特斯信息科技股份有限公司 | 智能告警系统及方法 |
CN109275027A (zh) * | 2018-09-26 | 2019-01-25 | Tcl海外电子(惠州)有限公司 | 视频的语音输出方法、电子播放设备及存储介质 |
CN110046271A (zh) * | 2019-03-22 | 2019-07-23 | 中国科学院西安光学精密机械研究所 | 一种基于声音指导的遥感图像描述方法 |
CN110399519A (zh) * | 2019-07-29 | 2019-11-01 | 吉林大学 | 一种可扩展的多语义图像相关反馈方法 |
CN113382123A (zh) * | 2020-03-10 | 2021-09-10 | 精工爱普生株式会社 | 扫描系统、存储介质以及扫描系统的扫描数据生成方法 |
CN115187996A (zh) * | 2022-09-09 | 2022-10-14 | 中电科新型智慧城市研究院有限公司 | 语义识别方法、装置、终端设备和存储介质 |
CN116758591A (zh) * | 2023-08-18 | 2023-09-15 | 厦门瑞为信息技术有限公司 | 基于图像语义识别的场站特殊旅客识别和交互系统及方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191379B (zh) * | 2018-07-26 | 2022-03-29 | 北京纵目安驰智能科技有限公司 | 一种全景拼接的语义标注方法、系统、终端和存储介质 |
CN109857884B (zh) * | 2018-12-20 | 2023-02-07 | 郑州轻工业学院 | 一种自动图像语义描述方法 |
CN109902714B (zh) * | 2019-01-18 | 2022-05-03 | 重庆邮电大学 | 一种基于多图正则化深度哈希的多模态医学图像检索方法 |
CN110119701B (zh) * | 2019-04-30 | 2023-04-07 | 东莞恒创智能科技有限公司 | 基于视觉关系检测的煤矿综采工作面不安全行为识别方法 |
CN112001380B (zh) * | 2020-07-13 | 2024-03-26 | 上海翎腾智能科技有限公司 | 基于人工智能现实场景下的中文意义词组的识别方法和系统 |
CN112650852A (zh) * | 2021-01-06 | 2021-04-13 | 广东泰迪智能科技股份有限公司 | 一种基于命名实体和ap聚类的事件归并方法 |
CN113986431B (zh) * | 2021-10-27 | 2024-02-02 | 武汉戴维南科技有限公司 | 一种机器人自动生产线可视化调试方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1096462A2 (en) * | 1999-10-28 | 2001-05-02 | Sony Corporation | Language learning |
CN102054178A (zh) * | 2011-01-20 | 2011-05-11 | 北京联合大学 | 一种基于局部语义概念的国画图像识别方法 |
CN102831482A (zh) * | 2012-08-01 | 2012-12-19 | 浙江兴旺宝明通网络有限公司 | 针对泵阀行业的一种基于智能问答的启发式询问系统 |
CN203433526U (zh) * | 2013-01-22 | 2014-02-12 | 华东师范大学 | 一种二维码电子阅读器及应用系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6813313B2 (en) * | 2000-07-06 | 2004-11-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for high-level structure analysis and event detection in domain specific videos |
CN103077625A (zh) * | 2013-01-30 | 2013-05-01 | 中国盲文出版社 | 一种盲用电子阅读器和助盲阅读方法 |
CN103745200B (zh) * | 2014-01-02 | 2017-01-04 | 哈尔滨工程大学 | 一种基于词袋模型的人脸图像识别方法 |
CN104142995B (zh) * | 2014-07-30 | 2017-09-26 | 中国科学院自动化研究所 | 基于视觉属性的社会事件识别方法 |
CN104484666A (zh) * | 2014-12-17 | 2015-04-01 | 中山大学 | 一种基于人机交互的图像高级语义解析的方法 |
-
2014
- 2014-12-17 CN CN201410790684.XA patent/CN104484666A/zh active Pending
-
2015
- 2015-06-30 WO PCT/CN2015/082908 patent/WO2016095487A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1096462A2 (en) * | 1999-10-28 | 2001-05-02 | Sony Corporation | Language learning |
CN102054178A (zh) * | 2011-01-20 | 2011-05-11 | 北京联合大学 | 一种基于局部语义概念的国画图像识别方法 |
CN102831482A (zh) * | 2012-08-01 | 2012-12-19 | 浙江兴旺宝明通网络有限公司 | 针对泵阀行业的一种基于智能问答的启发式询问系统 |
CN203433526U (zh) * | 2013-01-22 | 2014-02-12 | 华东师范大学 | 一种二维码电子阅读器及应用系统 |
Non-Patent Citations (3)
Title |
---|
TIAN LUO ETC,: ""A Hierarchical Feature Extraction Scheme with Special Vocabulary Generation for Natural Scene Classification"", 《PROCEEDINGS OF THE 3RD INTERNATIONAL CONFERENCE ON MULTIMEDIA TECHNOLOGY(ICMT2013)》 * |
刘毅: "一种图像局部特征的语义提取方法", 《计算机科学与工程》 * |
张钰林: ""基于ARM和云计算的人脸图像语义表征解析系统的研究和设计"", 《中国优秀硕士学位论文全文数据库,信息科技辑》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016095487A1 (zh) * | 2014-12-17 | 2016-06-23 | 中山大学 | 一种基于人机交互的图像高级语义解析的方法 |
TWI553494B (zh) * | 2015-11-04 | 2016-10-11 | 創意引晴股份有限公司 | 基於多模態融合之智能高容錯視頻識別系統及其識別方法 |
CN105426447B (zh) * | 2015-11-09 | 2019-02-01 | 北京工业大学 | 一种基于超限学习机的相关反馈方法 |
CN105426447A (zh) * | 2015-11-09 | 2016-03-23 | 北京工业大学 | 一种基于超限学习机的相关反馈方法 |
CN106682059A (zh) * | 2015-11-11 | 2017-05-17 | 奥多比公司 | 根据图像的结构化的知识建模和提取 |
US11514244B2 (en) | 2015-11-11 | 2022-11-29 | Adobe Inc. | Structured knowledge modeling and extraction from images |
CN105740402A (zh) * | 2016-01-28 | 2016-07-06 | 百度在线网络技术(北京)有限公司 | 数字图像的语义标签的获取方法及装置 |
CN105740402B (zh) * | 2016-01-28 | 2018-01-02 | 百度在线网络技术(北京)有限公司 | 数字图像的语义标签的获取方法及装置 |
US10282643B2 (en) | 2016-01-28 | 2019-05-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for obtaining semantic label of digital image |
CN106777125A (zh) * | 2016-12-16 | 2017-05-31 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于神经网络及图像关注点的图像描述生成方法 |
CN109040693B (zh) * | 2018-08-31 | 2020-11-10 | 上海赛特斯信息科技股份有限公司 | 智能告警系统及方法 |
CN109040693A (zh) * | 2018-08-31 | 2018-12-18 | 上海赛特斯信息科技股份有限公司 | 智能告警系统及方法 |
CN109275027A (zh) * | 2018-09-26 | 2019-01-25 | Tcl海外电子(惠州)有限公司 | 视频的语音输出方法、电子播放设备及存储介质 |
CN110046271A (zh) * | 2019-03-22 | 2019-07-23 | 中国科学院西安光学精密机械研究所 | 一种基于声音指导的遥感图像描述方法 |
CN110046271B (zh) * | 2019-03-22 | 2021-06-22 | 中国科学院西安光学精密机械研究所 | 一种基于声音指导的遥感图像描述方法 |
CN110399519A (zh) * | 2019-07-29 | 2019-11-01 | 吉林大学 | 一种可扩展的多语义图像相关反馈方法 |
CN110399519B (zh) * | 2019-07-29 | 2021-06-18 | 吉林大学 | 一种可扩展的多语义图像相关反馈方法 |
CN113382123A (zh) * | 2020-03-10 | 2021-09-10 | 精工爱普生株式会社 | 扫描系统、存储介质以及扫描系统的扫描数据生成方法 |
CN115187996A (zh) * | 2022-09-09 | 2022-10-14 | 中电科新型智慧城市研究院有限公司 | 语义识别方法、装置、终端设备和存储介质 |
CN115187996B (zh) * | 2022-09-09 | 2023-01-06 | 中电科新型智慧城市研究院有限公司 | 语义识别方法、装置、终端设备和存储介质 |
CN116758591A (zh) * | 2023-08-18 | 2023-09-15 | 厦门瑞为信息技术有限公司 | 基于图像语义识别的场站特殊旅客识别和交互系统及方法 |
CN116758591B (zh) * | 2023-08-18 | 2023-11-21 | 厦门瑞为信息技术有限公司 | 基于图像语义识别的场站特殊旅客识别和交互系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2016095487A1 (zh) | 2016-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104484666A (zh) | 一种基于人机交互的图像高级语义解析的方法 | |
Wu et al. | Learning to tag | |
JP7180009B2 (ja) | 意味画像検索 | |
CN110134954B (zh) | 一种基于Attention机制的命名实体识别方法 | |
Wang et al. | Facilitating image search with a scalable and compact semantic mapping | |
CN106462807A (zh) | 根据大规模非结构化数据学习多媒体语义 | |
Riad et al. | A literature review of image retrieval based on semantic concept | |
CN112015915A (zh) | 基于问题生成的知识库问答系统及装置 | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
Zhang et al. | A jointly distributed semi-supervised topic model | |
Kinariwala et al. | Onto_TML: Auto-labeling of topic models | |
CN114491076B (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
Li et al. | Automatic image annotation with continuous PLSA | |
CN112989811B (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
Lu et al. | Mining latent attributes from click-through logs for image recognition | |
Saenko et al. | Filtering abstract senses from image search results | |
Meng et al. | A personalized and approximated spatial keyword query approach | |
Jiang et al. | Python‐Based Visual Classification Algorithm for Economic Text Big Data | |
Li et al. | An Approach and Implementation for Knowledge Graph Construction and Q&A System | |
Lalitha et al. | Review based on Image Understanding Approaches | |
CN112347289A (zh) | 一种图像管理方法及终端 | |
KR20190086395A (ko) | 도식화된 질의 구성 방식을 이용한 전문가시스템에서의 다차원 지식 검색 방법 및 시스템 | |
TW202004519A (zh) | 影像自動分類的方法 | |
Kim | Text Classification Based on Neural Network Fusion | |
Yin et al. | CDQA: An ontology-based question answering system for Chinese delicacy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150401 |
|
RJ01 | Rejection of invention patent application after publication |