CN104516975A - 面向多元数据的自动关联方法 - Google Patents

面向多元数据的自动关联方法 Download PDF

Info

Publication number
CN104516975A
CN104516975A CN201410838117.7A CN201410838117A CN104516975A CN 104516975 A CN104516975 A CN 104516975A CN 201410838117 A CN201410838117 A CN 201410838117A CN 104516975 A CN104516975 A CN 104516975A
Authority
CN
China
Prior art keywords
data
attribute
incidence relation
time
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410838117.7A
Other languages
English (en)
Other versions
CN104516975B (zh
Inventor
付琨
许光銮
孙显
黄宇
王磊
田璟
宋俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Electronics of CAS
Original Assignee
Institute of Electronics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Electronics of CAS filed Critical Institute of Electronics of CAS
Priority to CN201410838117.7A priority Critical patent/CN104516975B/zh
Publication of CN104516975A publication Critical patent/CN104516975A/zh
Application granted granted Critical
Publication of CN104516975B publication Critical patent/CN104516975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了面向多元数据的自动关联方法,选择多元数据,提取每个数据的时间属性,对时间属性不全的根据上下文自动补全,提取每个数据的地理中心位置和覆盖范围,并转换到统一的椭球坐标系下;对数据添加属性标签;根据数据的来源、类别、等级、分辨率属性对数据自动添加属性标签,具有相同标签的数据存在着隐含的关联关系;利用多属性信息挖掘数据间的关联关系;同时考虑数据的时间属性、位置属性和标签信息,利用改进的距离依赖中餐馆过程挖掘数据间的关联关系;保存数据之间的关联关系,作为已知信息用于后续自动关联组织。本发明的有益效果是充分考虑了多种属性信息进行数据关联,使得大量信息得到有效利用。

Description

面向多元数据的自动关联方法
技术领域
本发明属于多元数据自动关联技术领域,涉及面向多元数据的自动关联方法。
背景技术
随着航天技术和传感器技术的发展,可以获取的遥感数据越来越多,如何自动地组织和管理这些海量遥感数据是有效利用的前提。同时,这些海量数据来自不同多样的传感器,各个传感器的属性元素也不尽相同,因此得到的数据也是多元的。多元数据具有不同的结构信息,如何自动的对这些数据进行组织和关联是信息有效利用的前提条件。
目前,多元数据的关联大多根据特定属性信息等自动关联,这种关联没有联合考虑多种属性信息,而且容易导致过多的关联关系,降低关联的效用。多元数据是从不同方面反映数据的特征,具有相互补充相互弥补的特点,因此,实现多元的自动关联具有重要意义。
发明内容
本发明的目的在于提供面向多元数据的自动关联方法,解决了现有的关联方法没有联合考虑多种属性信息,而且容易导致过多的关联关系,降低关联的效用、解决海量遥感数据的自动关联问题。
本发明所采用的技术方案是按照以下步骤进行:
步骤1、选择多元数据,多元数据是指不同类型但具有一定共性的数据;
步骤2、提取每个数据的时间属性,对时间属性不全的根据上下文补全;
步骤3、提取每个数据的地理中心位置和覆盖范围,并转换到统一的椭球坐标系下;
步骤4、对数据添加属性标签;根据数据的来源、类别、等级、分辨率属性对数据自动添加属性标签,具有相同标签的数据存在着隐含的关联关系;
步骤5:利用多属性信息挖掘数据间的关联关系;同时考虑数据的时间属性、位置属性和标签信息,利用改进的距离依赖中餐馆过程挖掘数据间的关联关系;
步骤6:保存数据之间的关联关系,作为已知信息用于后续自动关联组织。
进一步,所述步骤4中利用图像解译算法对数据自动添加语义标签,对每一幅图像进行识别,检测有没有舰船,有的话是什么型号的舰船,然后将这个舰船的名字作为语义标签添加到这个图像的标签中去;
进一步,所述步骤5中利用改进的距离依赖中餐馆过程挖掘数据间的关联关系过程分为以下几步:
5.1计算数据之间的时间距离,dij t表示数据时间属性上的距离,根据数据类型使用不同的时间粒度,普通数据采用天作为基本单位,时效性较高的数据采用秒为基本单位;
5.2计算数据之间的地理位置距离,dij l表示数据位置属性上的距离,统一使用米为单位;
5.3对所有数据随机初始化数据分组,每个数据都根据改进的距离依赖中餐馆的先验随机选取一个数据作为自己的邻居;
改进的距离依赖中餐馆过程挖掘数据间的关联关系是在中餐馆过程的基础上考虑数据之间的依赖关系采用如下公式:
p ( c i = j | D , α ) ∝ f 1 ( d ij t ) f 2 ( d ij l ) if j ≠ i α if j = i - - - ( 1 )
f1,f2分别表示时间和位置距离的衰减函数,可以选取以下函数:f(d)=e-d/a,f(d)=exp(-d+a)/(1+exp(-d+a)),f(d)=1[d<a],保证时间相近位置相邻的数据有更大的概率聚为一类。
5.4循环采样数据之间的关联关系,其中以时间和地理距离作为先验,以标签属性信息等作为后验来计算采样的概率,并根据这个概率采样每个数据所选择的邻居数据;
5.5选取收敛后若干轮的均值作为最终的结果;
5.6根据采样结果恢复每个数据所选择的邻居数据,据此把数据聚类成不同的分组,自动建立数据之间的关联关系。
本发明的有益效果是充分考虑了多种属性信息进行数据关联,使得大量信息得到有效利用。
附图说明
图1为本发明面向多元数据的自动关联方法步骤示意图。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
如图1所示,本发明的技术方案如下:
步骤1:选择多元数据,定义多元数据的基本结构。多元数据是指不同类型但具有一定共性的数据,结合具体应用定义多元数据的基本结构,每个数据类型至少都应该包括时间、空间和标签等属性,比如影像数据包括时间、空间、以及图像的长宽分辨率等属性,情报数据包括时间、空间、以及情报的文本内容等属性;
步骤2:提取每个数据的时间属性。提取每个数据的时间属性并转换为标准时间,对时间属性不全的根据上下文自动补全,并估算时间属性的误差范围;具体来说,定义时间匹配模板,比如匹配xxxx年xx月xx日的格式即为时间,有些内容中对时间的描述需要根据上下文确定,比如“昨天”等类似的表述,需要根据当前时间进行格式补全;
步骤3:提取每个数据的地理中心位置和覆盖范围。
提取每个数据的地理中心位置和覆盖范围,并转换到统一的椭球坐标系下;地理中心位置是指遥感影像数据的中心点空间位置坐标,这个可以根据影像的四角经纬度计算得知;因为有些影像的地理位置表达不是在椭球坐标系下,所以需要统一到椭球坐标系下,根据现有的转换公式进行映射即可;
该步骤根据数据属性信息,提取数据的经纬度位置、高度信息,并转换到统一的椭球坐标系下。同时,根据数据的产生以及传感器特点(传感器是指卫星、雷达等生成数据的设备,传感器特点包括传感器的类型,特点、精度等),计算数据定位的误差范围,为后续挖掘建立基础。
步骤4:对数据添加属性标签。根据数据的来源、类别、等级、分辨率等已经提取好的属性对数据自动添加属性标签,标签反映了数据的一方面属性,具有相同标签的数据存在着隐含的关联关系,标签可以是来源手段等或高层语义信息;
更进一步,利用图像解译算法对数据自动添加语义标签。利用图像解译算法(包括舰船检测与识别、飞机检测与识别等算法)对数据自动添加语义标签,这些语义标签更能反映影像数据的内容特征,更具有意义;具体地,对每一幅图像进行识别,检测有没有舰船,有的话是什么型号的舰船,然后将这个舰船的名字作为语义标签添加到这个图像的标签中去;
步骤5:利用多属性信息挖掘数据间的关联关系。同时考虑数据的时间属性、位置属性和标签信息,利用改进的距离依赖中餐馆过程挖掘数据间的关联关系。中餐馆是一个非参数随机过程,描述了一个聚类的过程,具体如下:假设一个中餐馆有无限个桌子,第一个顾客到来是坐第一个桌子,并点一道菜,后面每个顾客到来时,既可以选择当前已经有人的某个桌子坐下吃菜,也可以选择一个空桌子点一道自己喜欢的菜,如此下去直到所有顾客到来。以上过程可以看成是一个聚类的过程,每个顾客就是一个数据,每个桌子就是一个类别,最终聚类的个数是不确定的,即为非参数。
5.1计算数据之间的时间距离,dij t表示数据时间属性上的距离,根据数据类型使用不同的时间粒度,普通数据采用天作为基本单位,时效性较高的数据采用秒为基本单位;
5.2计算数据之间的地理位置距离,dij l表示数据位置属性上的距离,统一使用米为单位;
5.3对所有数据随机初始化数据分组,每个数据都根据改进的距离依赖中餐馆的先验随机选取一个数据作为自己的邻居;
改进的距离依赖中餐馆过程挖掘数据间的关联关系是在中餐馆过程的基础上考虑数据之间的依赖关系采用如下公式:
p ( c i = j | D , α ) ∝ f 1 ( d ij t ) f 2 ( d ij l ) if j ≠ i α if j = i - - - ( 1 )
f1,f2分别表示时间和位置距离的衰减函数,可以选取以下函数:f(d)=e-d/a,f(d)=exp(-d+a)/(1+exp(-d+a)),f(d)=1[d<a],保证时间相近位置相邻的数据有更大的概率聚为一类。
5.4循环采样数据之间的关联关系,其中以时间和地理距离作为先验,以标签属性信息等作为后验来计算采样的概率,并根据这个概率采样每个数据所选择的邻居数据;
5.5选取收敛后若干轮的均值作为最终的结果;
5.6根据采样结果恢复每个数据所选择的邻居数据,据此把数据聚类成不同的分组,自动建立数据之间的关联关系。
步骤6:保存数据之间的关联关系,作为已知信息用于后续自动关联组织。
本发明属于遥感多元数据自动组织领域,公开了一种面向多元数据的自动关联方法,该方法提出利用数据时间、位置属性,和多种属性及语义标签,通过改进的距离依赖中餐馆模型对数据进行自动关联。通过多元数据自动组织关联,可以快速获得全部数据的整体分布以及趋势情况,为数据深层分析提供了基础。
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (3)

1.面向多元数据的自动关联方法,其特征在于按照以下步骤进行:
步骤1、选择多元数据,多元数据是指不同类型但具有一定共性的数据;
步骤2、提取每个数据的时间属性,对时间属性不全的根据上下文补全;
步骤3、提取每个数据的地理中心位置和覆盖范围,并转换到统一的椭球坐标系下;
步骤4、对数据添加属性标签;根据数据的来源、类别、等级、分辨率属性对数据自动添加属性标签,具有相同标签的数据存在着隐含的关联关系;
步骤5:利用多属性信息挖掘数据间的关联关系;同时考虑数据的时间属性、位置属性和标签信息,利用改进的距离依赖中餐馆过程挖掘数据间的关联关系;
步骤6:保存数据之间的关联关系,作为已知信息用于后续自动关联组织。
2.按照权利要求1所述面向多元数据的自动关联方法,其特征在于:所述步骤4中利用图像解译算法对数据自动添加语义标签,对每一幅图像进行识别,检测有没有舰船,有的话是什么型号的舰船,然后将这个舰船的名字作为语义标签添加到这个图像的标签中去。
3.按照权利要求1所述面向多元数据的自动关联方法,其特征在于:所述步骤5中利用改进的距离依赖中餐馆过程挖掘数据间的关联关系过程分为以下几步:
5.1计算数据之间的时间距离,dij t表示数据时间属性上的距离,根据数据类型使用不同的时间粒度,普通数据采用天作为基本单位,时效性较高的数据采用秒为基本单位;
5.2计算数据之间的地理位置距离,dij l表示数据位置属性上的距离,统一使用米为单位;
5.3对所有数据随机初始化数据分组,每个数据都根据改进的距离依赖中餐馆的先验随机选取一个数据作为自己的邻居;
改进的距离依赖中餐馆过程挖掘数据间的关联关系是在中餐馆过程的基础上考虑数据之间的依赖关系采用如下公式:
p ( c i = j | D , α ) ∝ f 1 ( d ij t ) f 2 ( d ij l ) if j ≠ i α if j = i - - - ( 1 )
f1,f2分别表示时间和位置距离的衰减函数,选取以下函数:f(d)=e-d/a,f(d)=exp(-d+a)/(1+exp(-d+a)),f(d)=1[d<a],保证时间相近位置相邻的数据有更大的概率聚为一类;
5.4循环采样数据之间的关联关系,其中以时间和地理距离作为先验,以标签属性信息等作为后验来计算采样的概率,并根据这个概率采样每个数据所选择的邻居数据;
5.5选取收敛后若干轮的均值作为最终的结果;
5.6根据采样结果恢复每个数据所选择的邻居数据,据此把数据聚类成不同的分组,自动建立数据之间的关联关系。
CN201410838117.7A 2014-12-29 2014-12-29 面向多元数据的自动关联方法 Active CN104516975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410838117.7A CN104516975B (zh) 2014-12-29 2014-12-29 面向多元数据的自动关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410838117.7A CN104516975B (zh) 2014-12-29 2014-12-29 面向多元数据的自动关联方法

Publications (2)

Publication Number Publication Date
CN104516975A true CN104516975A (zh) 2015-04-15
CN104516975B CN104516975B (zh) 2019-03-22

Family

ID=52792274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410838117.7A Active CN104516975B (zh) 2014-12-29 2014-12-29 面向多元数据的自动关联方法

Country Status (1)

Country Link
CN (1) CN104516975B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654137A (zh) * 2015-12-31 2016-06-08 中国科学院电子学研究所 一种海量遥感数据分类组织方法
CN106909645A (zh) * 2017-02-21 2017-06-30 中国科学院电子学研究所 一种可扩展定义的时空数据统一组织方法
CN107766493A (zh) * 2017-10-19 2018-03-06 国网辽宁省电力有限公司 一种贴源电网资源模型分析系统及方法
CN108351971A (zh) * 2015-10-12 2018-07-31 北京市商汤科技开发有限公司 对标记有属性的对象进行聚类的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法
CN103020252A (zh) * 2012-12-20 2013-04-03 武汉大学 一种基于需求特征关联的遥感影像需求融合方法
CN104077411A (zh) * 2014-07-14 2014-10-01 中国科学院遥感与数字地球研究所 遥感卫星数据处理方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法
CN103020252A (zh) * 2012-12-20 2013-04-03 武汉大学 一种基于需求特征关联的遥感影像需求融合方法
CN104077411A (zh) * 2014-07-14 2014-10-01 中国科学院遥感与数字地球研究所 遥感卫星数据处理方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QI XIANG等: "NON-PARAMETRIC TOPIC MODEL FOR DISCOVERING GEOGRAPHICAL TOPIC VARIATIONS", 《JOURNAL OF ELECTRONICS (CHINA)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108351971A (zh) * 2015-10-12 2018-07-31 北京市商汤科技开发有限公司 对标记有属性的对象进行聚类的方法和系统
CN108351971B (zh) * 2015-10-12 2022-04-22 北京市商汤科技开发有限公司 对标记有属性的对象进行聚类的方法和系统
CN105654137A (zh) * 2015-12-31 2016-06-08 中国科学院电子学研究所 一种海量遥感数据分类组织方法
CN105654137B (zh) * 2015-12-31 2019-01-11 中国科学院电子学研究所 一种海量遥感数据分类组织方法
CN106909645A (zh) * 2017-02-21 2017-06-30 中国科学院电子学研究所 一种可扩展定义的时空数据统一组织方法
CN106909645B (zh) * 2017-02-21 2019-03-26 中国科学院电子学研究所 一种可扩展定义的时空数据统一组织方法
CN107766493A (zh) * 2017-10-19 2018-03-06 国网辽宁省电力有限公司 一种贴源电网资源模型分析系统及方法

Also Published As

Publication number Publication date
CN104516975B (zh) 2019-03-22

Similar Documents

Publication Publication Date Title
Wood et al. Modelling dispersal and connectivity of broadcast spawning corals at the global scale
Synes et al. Choice of predictor variables as a source of uncertainty in continental‐scale species distribution modelling under climate change
Ryoo et al. Inferring twitter user locations with 10 km accuracy
Magee et al. First demonstration of early warning gravitational-wave alerts
CN104050196A (zh) 一种兴趣点数据冗余检测方法及装置
Zhang et al. Upscaling carbon fluxes over the Great Plains grasslands: Sinks and sources
CN104516975A (zh) 面向多元数据的自动关联方法
CN102638888B (zh) 基于信号统计的室内定位指纹分组方法
CN105008959A (zh) 经由gps定位利用分布的分析产生地理围栏
Grech et al. Informing species conservation at multiple scales using data collected for marine mammal stock assessments
Werner et al. Probabilistically constraining proxy age–depth models within a Bayesian hierarchical reconstruction model
Rawson et al. Intelligent geospatial maritime risk analytics using the Discrete Global Grid System
Quirós et al. Solar potential of rooftops in Cáceres city, Spain
Popescu et al. CEA LIST's Participation at MediaEval 2013 Placing Task.
CN111782980A (zh) 地图兴趣点的挖掘方法、装置、设备及存储介质
Jiménez-Valverde et al. Climate data source matters in species distribution modelling: the case of the Iberian Peninsula
Xu et al. Individual stem detection in residential environments with MLS data
Tang et al. Predicting poverty with vegetation index
Durrani et al. Geological disaster monitoring based on sensor networks
Liu et al. A novel unsupervised adversarial domain adaptation network for remotely sensed scene classification
CN103593435A (zh) 不确定数据PT-TopK查询近似处理系统和方法
Zhang et al. An integrative approach for solar energy potential estimation through 3D modeling of buildings and trees
Devkota et al. An exploratory study on the generation and distribution of geotagged tweets in Nepal
Liu et al. Analysis of coastline changes and the socio-economic driving mechanisms in Shenzhen, China
Laevens et al. An observational method for determining daily and regional photovoltaic solar energy statistics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant