CN100437582C - 图像内容语义标注方法 - Google Patents
图像内容语义标注方法 Download PDFInfo
- Publication number
- CN100437582C CN100437582C CNB2006100538679A CN200610053867A CN100437582C CN 100437582 C CN100437582 C CN 100437582C CN B2006100538679 A CNB2006100538679 A CN B2006100538679A CN 200610053867 A CN200610053867 A CN 200610053867A CN 100437582 C CN100437582 C CN 100437582C
- Authority
- CN
- China
- Prior art keywords
- image
- semantic
- mark
- mapping ruler
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Abstract
本发明公开了一种图像内容语义标注方法。它将图像处理技术和机器学习技术以及自然语言处理等相关技术结合起来实现对图像内容的语义标注:利用图像处理、机器学习和自然语言语义处理等技术,将图像视觉特征的语义标注术和图像文本特征语义标注结合起来对图像内容进行语义标注;同时还支持根据具体用户的标注特点校正底层的标注映射规则库,使得标注结果更加符合具体用户的标注需求。本发明的图像内容语义标注方法能够广泛应用于需要进行图像检索的各个应用当中,它提高了现存图像内容标注方法的标注精确度并且拓展了它的适用范围,直接为图像检索方法的改进提供了有力的推动。
Description
技术领域
本发明涉及一种图像标注的图像内容语义标注方法,特别涉及使用图像处理技术、自然语言处理技术和机器学习技术,利用图像内容的视觉特征和相关文本等属性信息对图像内容进行语义标注。
背景技术
近年来随着日益改进的数字图象技术以及因特网的简易可用性,数字图像的普及性正在迅速增长,每天有越来越多的数字图象变为可用。设计一个能够快速准确地检索用户需要的图像的方法有着巨大的现实意义。目前主要有两种图像检索方式。一种是基于图像关键字的检索,另一种是基于内容的图像检索CBIR,它们之间的差别在于图像内容的标注方式不同。
被应用于图像关键字检索的图像关键字标注目前主要有两种方法生成:一个或多个人手工选择的关键字标注、图像关键字标注自动生成装置自动生成。
1)人工生成图像关键字标注是早期图像检索方法中的主要方法,与图像关键字标注自动生成方法相比有精确度高的特点。但是人工生成图像关键字标注方法主要有两个缺点:一是需要手工检查并且仔细标注每一图像,这些步骤需要大量的劳动且成本非常高,尤其是随着因特网的普及和数字图像规模越来越大的情况下;二是不同的用户由于各自的世界观和专业领域知识,对于相同的图像的内容有着各自的理解因而对图像做出不同的语义标注,这导致了图像内容语义标注的不一致性。
2)图像关键字标注自动生成装置主要是利用除图像内容之外的其它属性信息来生成图像关键字标注。目前图像关键字自动标注方法主要针对因特网等一些附带丰富文本等相关信息的图像。这个方法和手工方法相比最大的优势是不需要人工干涉,缺点是图像的精确度相对于手工方式来说比较低。
近年来一些使用基于图像内容的图像检索的图像管理系统开始形成。通常,基于图像内容的图像检索系统抽取图像的颜色、纹理和形状等视觉特征作为图像内容的标注,图像检索的时候查找出和被检索图像视觉特征近似的一个或多个图像当作检索结果返回。为抽取图像的视觉特征并且通过计算图像之间视觉特征相似度需要进行大规模的计算,而且基于图像内容的图像检索系统抽取出的视觉特征对于人来说是不可辨别的,不具备视觉上和语义上的可辨性,因此很难对图像检索条件进行描述。
由此,需要发明一种使用范围广泛、易于计算和精确度高的图像内容的语义标注的方法。
发明内容
本发明的目的在于提供一种使用范围广泛、易于计算和精确度高的图像内容的语义标注方法。本发明中的图像内容语义标注方法应用自然语言语义处理技术把图像视觉特征语义标注方法和图像文本特征语义标注方法结合在一起对图像内容进行语义标注。不同的用户对于完全相同的图像内容的理解存在差异性,与此对应的图像内容语义标注也随着用户的不同而存在差异性,但是通过图像内容语义标注学习接口,本发明中的图像内容语义标注方法利用机器学习和自然语言处理相关技术,可以为特定用户建立起图像内容语义标注偏好模型,使图像内容语义标注结果更加接近具体用户的标注偏好。
本发明解决其技术问题采用的技术方案如下:
1.本发明中图像内容语义标注方法的步骤是,
1)首先,通过图像语义标注接口将图像原始数据输入图像数据处理层,抽取出图像视觉特征和图像文本特征;
2)其次,将步骤1)抽取出的图像视觉特征输入图像视觉特征标注层,这个模块能够完成以下的功能:首先访问预先建立的图像视觉特征标注映射规则库,抽取出和图像视觉特征相符的映射规则,然后访问图像内容语义标注映射存储层,从中取出和映射规则对应的标注作为图像视觉特征的语义标注;
3)再次,将步骤1)抽取出的图像文本特征输入图像文本特征标注层,这个模块利用自然语言语义处理层中的自然语言语义处理技术抽取出图像文本特征的语义标注;
4)最后,在图像内容语义标注层,使用自然语言语义处理技术,把图像视觉特征的语义标注和图像文本特征的语义标注融合起来作为图像内容语义标注输出,经过一个是否为学习模式的条件判断:如果处于学习模式下,将语义标注结果反馈给标注映射规则学习层;如果不是处于学习模式下,将语义标注结果输出给用户。
2.本发明中的用户图像内容语义标注偏好模型学习步骤是:
1)首先,由权利要求1的步骤4)计算得到的图像内容的语义标注经过一个是否为学习模式的条件判断,在学习模式下被输入到标注映射规则学习层中;
2)其次,用户通过映射规则学习接口输入用户自定义的图像内容语义标注数据;
3)再次,在标注映射规则学习层中,计算步骤1)中得到的标注结果和步骤2)中用户输入的自定义图像内容语义标注数据之间的差异性,如果差异性较大,使用相关机器学习技术创建相应的标注映射规则或者是校正标注映射规则库中相应的标注映射规则;
4)重复执行步骤1)至步骤3),直到步骤3)中的差异性很小,或者是达到预定的迭代上限,最后将具有用户偏好的语义标注映射存储在图像内容语义标注映射存储层当中。
本发明和传统的图像内容标注方法相比,具有的有益效果是:
本发明在保持直接使用图像视觉特征作为标注时具备的准确度高的优点的同时,通过直接将视觉特征映射到关键字有效地解决了其计算复杂度高的缺陷和图像视觉特征作为标注时的视觉上和语义上的不可辨别性。
本发明对图像数据进行粗加工得到了图像视觉特征和图像文本特征,然后利用机器学习技术和图像处理技术从图像视觉特征中得到图像视觉特征语义标注,利用自然语言处理技术从图像文本特征和图像视觉特征语义标注中得到图像内容语义标注。由于充分利用了图像数据信息,提高了现存的图像内容标注的精确度。
本发明方法具备有效的学习功能,能够建立起与具体用户对于图像进行语义标注时的偏好相一致的标注映射规则以满足不同用户的标注需求,这使得本发明中的图像内容语义标注方法具有更好的健壮性和更加广泛的适用性。
附图说明
附图是图像内容语义标注方法的整体框架的图形表示。
具体实施方式
本发明的图像内容语义标注方法提供用户两个功能:图像内容语义标注功能和用户图像内容语义标注偏好学习功能。用户图像内容语义标注偏好学习功能是对图像内容语义标注功能的补充和完善。
1.图像内容语义的实施步骤
如附图所示本发明的图像内容语义标注方法当执行图像标注时有四个步骤:图像原始数据处理、图像视觉特征语义标注、图像文本特征语义标注和图像内容语义标注。
1)首先,利用本发明的图像内容语义标注方法的图像标注接口将相关图像原始数据输入图像数据处理层以抽取出图像视觉特征和图像文本特征:
a)抽取图像原始数据的颜色特征、纹理特征和形状特征作为图像视觉特征。图像的颜色特征有多种表示方式,例如采用颜色直方图、颜色矩阵或者颜色相关图表示。类似的图像的纹理可以采用Tamura纹理、自回归纹理或者共生矩阵纹理特征表示,而形状特征可以采用傅立叶描述符方法或者是形状无关矩阵方法描述。但是在本发明的方法中不关注于具体采用哪种方式生成这些特征值或者采用哪种形式表现这些特征值,只要这些特征值能够准确的描述图像相应的内容和被有效地应用于本发明中的图像标注方法即可;
b)使用各种语义词典可以将具备有语义性质的语义文本特征抽取出来形成图像文本特征,这个步骤可以将许多干扰文本过滤掉,提高后续标注工作的精确度和效率。针对英语语义词典可以采用WordNet,而针对中文语义词典可以采用HowNet;
2)其次,将步骤1)抽取的图像视觉特征输入图像视觉特征标注层。这个模块能够访问一个预先建立的图像视觉特征的标注映射规则库,取出和当前图像视觉特征一致的标注映射规则,这时图像视觉特征被转化成了若干对应的标注映射规则,之后根据这些标注映射规则,访问图像内容语义标注映射存储层,得到和映射规则对应的标注作为图像视觉特征语义标注。前面提到的图像视觉特征语义标注映射规则库可以使用决策树、神经网络、支持向量机和统计语言概率模型等机器学习和自然语言语义处理相关技术建立,除此之外现在还存在多种其它建立这个规则库的方法,但本发明不关注于采用哪种具体方法实现这个规则库的建立,只需要被创建的映射规则能够满足准确地将图像视觉特征映射到语义标注上这个功能需求即可;
3)再次,将步骤1)抽取的图像文本特征输入图像文本特征标注层。这个模块根据图像文本特征的各种属性来抽取文本特征的语义标注。例如对于来自也网页的图像文本特征,这些文本特征的属性信息包括的文本数据的来源、格式、与图像的相对位置、是否为网页标题、是否采用斜体字和粗体字等。这些文本特征的属性信息可以被应用于计算相应图像文本特征的权值,权值越大的文本特征对图像内容的语义描述越好,从中取出权值最大的一些文本特征作为图像文本特征的语义标注;
4)最后,图像内容语义标注模块使用自然语言语义处理技术,使用语义词典计算图像视觉特征的语义标注和图像文本特征的语义标注之间的相似性,然后把相似高的语义标注融合起来作为图像内容语义标注结果,在经过一个是否在学习模式下运行的条件判断之后,如果条件判断为假,将标注结果输出给用户,否则的话将标注结果输入到标注映射规则学习层。图像视觉特征的语义标注和图像文本特征的语义标注的具体融合步骤是:从图像文本特征的语义标注中抽取出和图像视觉特征的语义标注相似度高的标注形成标注集X,然后从图像视觉特征的语义标注中抽取出和标注集X相似度高的标注形成标注集Y,最后X+Y就是输出给用户的图像内容标注。
2.图像内容语义标注映射规则学习功能
用户通过图像语义标注接口输入图像的原始数据,并通过映射规则学习接口输入图像的标注,能够建立起图像视觉特征到图像视觉特征语义标注之间的映射规则。用户通过输入带有自己标注偏好的图像内容语义标注,可以利用本发明方法的这个映射规则学习功能建立具有用户标注偏好的标注映射规则。如附图所示在图像内容语义标注实施步骤的基础之上,图像内容语义标注映射规则学习分为三个步骤:图像内容语义标注、图像标注结果输入、图像内容语义标注映射规则学习。
1)首先,将图像原始数据输入到图像语义标注接口,通过计算得到图像的内容语义标注结果,在通过一个是否为学习模式的条件判断为真之后,图像内容语义标注结果被输入到标注映射规则学习层中;
2)其次,将用户输入的图像内容语义标注结果输入到标注映射规则学习层中;
3)最后,如果步骤1)中计算出的图像内容语义标注结果和用户提供的具有用户标注偏好的语义标注之间的差异性比较大,则使用神经网络或者是决策树等机器学习相关技术,反复进行学习和产生新的映射规这一过程,直到根据新的映射规则得到的图像内容语义标注结果和用户提供的语义标注之间的差异性较小。完成学习过程之后,新的映射规则与之前的映射规则相比,标注结果更加接近具体用户的标注偏好。最后将新的标注映射规则存储在视觉特征标注映射规则库当中,完成视觉特征标注映射规则库的校正。除了上面提到的神经网络等技术之外还存在多种方法可以实现映射规则的学习功能,本发明方法不关注于具体的映射规则学习方法,只需要它能够有效地满足用户标注偏好映射规则学习的功能即可。
Claims (2)
1.一种图像内容语义标注方法,其特征在于:
1)首先,通过图像语义标注接口将图像原始数据输入图像数据处理层,抽取出图像视觉特征和图像文本特征;
2)其次,将步骤1)抽取出的图像视觉特征输入图像视觉特征标注层,这个模块能够完成以下的功能:首先访问预先建立的视觉特征标注映射规则库,抽取出和图像视觉特征相符的映射规则,然后访问图像内容语义标注映射存储层,从中取出和映射规则对应的标注作为图像视觉特征的语义标注;
3)再次,将步骤1)抽取出的图像文本特征输入图像文本特征标注层,这个模块利用自然语言语义处理层中的自然语言语义处理技术抽取出图像文本特征的语义标注;
4)最后,在图像内容语义标注层,使用自然语言语义处理技术,把图像视觉特征的语义标注和图像文本特征的语义标注融合起来作为图像内容语义标注输出,经过一个是否为学习模式的条件判断:如果处于学习模式下,将语义标注结果反馈给标注映射规则学习层;如果不是处于学习模式下,将语义标注结果输出给用户。
2.一种根据权利要求1所述的图像内容语义标注方法,其特征在于:
1)首先,由权利要求1的步骤4)计算得到的图像内容的语义标注经过一个是否为学习模式的条件判断,在学习模式下被输入到标注映射规则学习层中;
2)其次,用户通过映射规则学习接口输入用户自定义的图像内容语义标注数据;
3)再次,在标注映射规则学习层中,计算步骤1)中得到的标注结果和步骤2)中用户输入的自定义图像内容语义标注数据之间的差异性,如果差异性较大,使用相关机器学习技术创建相应的标注映射规则或者是校正标注映射规则库中相应的标注映射规则;
4)重复执行步骤1)至步骤3),直到步骤3)中的差异性很小,或者是达到预定的迭代上限,最后将具有用户偏好的语义标注映射存储在图像内容语义标注映射存储层当中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100538679A CN100437582C (zh) | 2006-10-17 | 2006-10-17 | 图像内容语义标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100538679A CN100437582C (zh) | 2006-10-17 | 2006-10-17 | 图像内容语义标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1936892A CN1936892A (zh) | 2007-03-28 |
CN100437582C true CN100437582C (zh) | 2008-11-26 |
Family
ID=37954396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006100538679A Expired - Fee Related CN100437582C (zh) | 2006-10-17 | 2006-10-17 | 图像内容语义标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100437582C (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8150170B2 (en) * | 2008-05-30 | 2012-04-03 | Microsoft Corporation | Statistical approach to large-scale image annotation |
WO2010102515A1 (en) * | 2009-03-11 | 2010-09-16 | Hong Kong Baptist University | Automatic and semi-automatic image classification, annotation and tagging through the use of image acquisition parameters and metadata |
CN101853295B (zh) * | 2010-05-28 | 2011-12-07 | 天津大学 | 一种图像检索方法 |
CN102142089B (zh) * | 2011-01-07 | 2012-09-26 | 哈尔滨工程大学 | 一种基于语义二叉树的图像标注方法 |
CN102880612B (zh) * | 2011-07-14 | 2015-05-06 | 富士通株式会社 | 图像标注方法及其装置 |
CN102254043B (zh) * | 2011-08-17 | 2013-04-03 | 电子科技大学 | 一种基于语义映射的服装图像检索方法 |
CN102662953B (zh) * | 2012-03-01 | 2016-04-06 | 倪旻 | 与输入法集成的语义标注系统和方法 |
CN103377381B (zh) * | 2012-04-26 | 2016-09-28 | 富士通株式会社 | 识别图像的内容属性的方法和装置 |
CN103246688A (zh) * | 2012-12-03 | 2013-08-14 | 苏州大学 | 基于显著区域稀疏表示的语义层次模型图像分类管理方法 |
CN103632388A (zh) * | 2013-12-19 | 2014-03-12 | 百度在线网络技术(北京)有限公司 | 图像语义标注的方法、装置和客户端 |
CN103793498B (zh) * | 2014-01-22 | 2017-08-25 | 百度在线网络技术(北京)有限公司 | 图片搜索方法、装置以及搜索引擎 |
CN104008177B (zh) * | 2014-06-09 | 2017-06-13 | 华中师范大学 | 面向图像语义标注的规则库结构优化与生成方法及系统 |
CN104156433B (zh) * | 2014-08-11 | 2017-05-17 | 合肥工业大学 | 一种基于语义映射空间构建的图像检索方法 |
CN106156025B (zh) * | 2015-03-25 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种数据标注的管理方法及装置 |
US11514244B2 (en) | 2015-11-11 | 2022-11-29 | Adobe Inc. | Structured knowledge modeling and extraction from images |
DE102016010909A1 (de) * | 2015-11-11 | 2017-05-11 | Adobe Systems Incorporated | Strukturiertes Modellieren, Extrahieren und Lokalisieren von Wissen aus Bildern |
US10460033B2 (en) | 2015-11-11 | 2019-10-29 | Adobe Inc. | Structured knowledge modeling, extraction and localization from images |
CN106650775B (zh) * | 2016-10-12 | 2020-04-10 | 南京理工大学 | 可同时挖掘视觉和语义相似性的图像标注方法 |
CN106649610A (zh) * | 2016-11-29 | 2017-05-10 | 北京智能管家科技有限公司 | 图片标注方法及装置 |
CN109271539B (zh) * | 2018-08-31 | 2020-11-24 | 华中科技大学 | 一种基于深度学习的图像自动标注方法及装置 |
CN109543690B (zh) * | 2018-11-27 | 2020-04-07 | 北京百度网讯科技有限公司 | 用于提取信息的方法和装置 |
CN113128509A (zh) * | 2019-12-31 | 2021-07-16 | 广东爱因智能数字营销有限公司 | 一种图像语义要素提取方法 |
CN111222500B (zh) * | 2020-04-24 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 一种标签提取方法及装置 |
CN113255665B (zh) * | 2021-06-04 | 2021-12-21 | 明品云(北京)数据科技有限公司 | 一种目标文本提取方法及系统 |
-
2006
- 2006-10-17 CN CNB2006100538679A patent/CN100437582C/zh not_active Expired - Fee Related
Non-Patent Citations (8)
Title |
---|
基于内容的图像检索中相关反馈算法综述. 杨娜等.计算机科学,第28卷第9期. 2001 |
基于内容的图像检索中相关反馈算法综述. 杨娜等.计算机科学,第28卷第9期. 2001 * |
基于知网的文本标注. 陈晓明等.贵州大学学报,第18卷第3期. 2001 |
基于知网的文本标注. 陈晓明等.贵州大学学报,第18卷第3期. 2001 * |
基于语义人脸的视频新闻标注. 姚青等.计算机科学,第31卷第5期. 2004 |
基于语义人脸的视频新闻标注. 姚青等.计算机科学,第31卷第5期. 2004 * |
基于语义的图像检索系统研究. 张玉峰等.中国图书馆学报,第5期. 2004 |
基于语义的图像检索系统研究. 张玉峰等.中国图书馆学报,第5期. 2004 * |
Also Published As
Publication number | Publication date |
---|---|
CN1936892A (zh) | 2007-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100437582C (zh) | 图像内容语义标注方法 | |
CN105718586B (zh) | 分词的方法及装置 | |
CN102955848B (zh) | 一种基于语义的三维模型检索系统和方法 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN102262634B (zh) | 一种自动问答方法及系统 | |
CN103049446B (zh) | 一种图像检索方法及装置 | |
CN101620615B (zh) | 一种基于决策树学习的自动图像标注与翻译的方法 | |
CN105956053B (zh) | 一种基于网络信息的搜索方法及装置 | |
CN104199972A (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN107392143A (zh) | 一种基于svm文本分类的简历精确解析方法 | |
CN104933039A (zh) | 面向资源缺乏语言的实体链接系统 | |
CN102542067A (zh) | 基于尺度学习和关联标号传播的自动图像语义标注方法 | |
WO2008008213A2 (en) | Interactively crawling data records on web pages | |
CN106407180A (zh) | 一种实体消歧方法及装置 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN102750347B (zh) | 一种用于图像或视频搜索重排序的方法 | |
CN102193946A (zh) | 为媒体文件添加标签方法和使用该方法的系统 | |
CN109857912A (zh) | 一种字形识别方法、电子设备及存储介质 | |
CN106980620A (zh) | 一种对中文字串进行匹配的方法及装置 | |
CN110347857A (zh) | 基于强化学习的遥感影像的语义标注方法 | |
CN111104437A (zh) | 基于对象模型的试验数据统一检索方法和系统 | |
CN106469188A (zh) | 一种实体消歧方法及装置 | |
CN103678288A (zh) | 一种专名自动翻译的方法 | |
CN112148735B (zh) | 一种用于结构化表格数据知识图谱的构建方法 | |
CN105468574A (zh) | 装饰字体的合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20081126 Termination date: 20151017 |
|
EXPY | Termination of patent right or utility model |