CN107885833B - 基于Web新闻文本快速检测地表覆盖变化的方法及系统 - Google Patents
基于Web新闻文本快速检测地表覆盖变化的方法及系统 Download PDFInfo
- Publication number
- CN107885833B CN107885833B CN201711098059.9A CN201711098059A CN107885833B CN 107885833 B CN107885833 B CN 107885833B CN 201711098059 A CN201711098059 A CN 201711098059A CN 107885833 B CN107885833 B CN 107885833B
- Authority
- CN
- China
- Prior art keywords
- surface coverage
- change
- news text
- earth surface
- web news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于Web新闻文本快速检测地表覆盖变化的方法及系统,以辅助遥感影像快速预测局部地区的地表覆盖变化类型、空间范围和时间范围等,以便用最少的人工干预获取最高的变化检测精度。方法包括:构建地表覆盖变化检测知识库、获取地表覆盖Web新闻文本、从地表覆盖Web新闻文本中识别地表覆盖变化类型、判定地表覆盖变化区域、确认地表覆盖变化时间和规范整合从地表覆盖Web新闻文本中抽取的地表覆盖变化信息。本发明无需利用遥感影像,不受遥感影像获取的时间、天气状况、图像分类技术、同物异谱及同谱异物等因素的影响,避免了单纯依靠遥感影像检测方法存在的检测周期长、成本高、局部区域精确性低、难以持续更新等问题。
Description
技术领域
本发明属于遥感科学与技术领域,涉及基于Web新闻文本快速检测地表覆盖变化的方法及系统。
背景技术
地表覆盖及其变化是环境变化监测、地理国情监测、可持续发展规划等不可或缺的重要基础信息和关键参量。当前尽管世界各国研制了许多不同尺度不同分辨率的地表覆盖产品,但是其依然难以完全反映最新的地表覆盖变化。因此,深入研究地表覆盖变化检测方法,保持地表覆盖产品的现势性,已成为国内外遥感与地理信息界的一项重要任务。
目前,地表覆盖变化检测方法的研究重点仍是基于遥感影像的方法,包括:分类后比较法、直接比较法和综合分析法。例如:“Oduor P,Flores Cordova A I,Kiema J B,etal.Land Cover Mapping for Development Planning in the Eastern and SouthernAfrica[J].Journal of Geography,Environment and Earth Science International,2016,7(3):1-12.”利用最大似然分类方法进行地表覆盖变化检测;“Chen J.,Lu M.,ChenX.,etc.A spectral gradient difference based approach for land cover changedetection[J].ISPRS Journal of Photogrammetry and Remote Sensing,2013,851-12.”提出了基于光谱斜率差异和时间序列植被指数斜率差异的变化检测方法,其通过变化像元的光谱斜率链知识库和时间序列植被指数斜率差异知识库的模式匹配确定变化类型;“JinS.,Yang L.,Danielson P.,etc.A comprehensive change detection method forupdating the National Land Cover Database to circa 2011[J].Remote Sensing ofEnvironment,2013,132(10):159-175.”采用综合变化检测方法发现变化区域,利用基于知识的分类方法确定变化区域类别,与过去相比,该方法对变化区域和变化类型的测定更为科学和准确。
近年来,随着众源地理数据覆盖范围和种类的增加,一部分学者正在尝试将众源地理数据(如地理标记图片Flickr和地图POI等)应用到地表覆盖变化检测当中。例如,“Brian A.Johnson,Kotaro Iizuka,Milben A.Bragais,et al.Employing crowdsourcedgeographic data and multi-temporal/multi-sensor satellite imagery to monitorland cover change:A case study in an urbanizing region of the Philippines[J].Computers,Environment and Urban Systems,2017:184–193.”将众源地理数据OSM中具有土地利用和自然属性的多边形转换为了相应的地表覆盖类型,然后用于辅助多时相的遥感影像进行地表覆盖变化检测,并取得了不错效果。该研究说明,蕴含地表覆盖信息的众源地理数据在地表覆盖变化检测中存在巨大的潜力。然而,OSM等众源地理数据是由志愿者不定时上传的,不具备实时性和普适性,无法适应表覆盖动态持续更新的需求。“Meng,Y.;Hou,D.;Xing,H.Rapid Detection of Land Cover Changes Using CrowdsourcedGeographic Information:A Case Study of Beijing,China[J].Sustainability 2017,9,1547.”以高德POI为辅助数据,利用聚类的方法生成地表覆盖分类区域,然后与以往基于遥感影像生成的基础年份的地表覆盖产品Globeland30进行对比,快速获取了地表覆盖变化区域。
总体来说,上述基于遥感影像的地表覆盖变化检测方法的整体精度在逐步提高,但是受遥感影像获取的时间、天气状况、图像分类技术、同物异谱及同谱异物等因素的影响,导致影像变化与地表变化不能一一对应,造成地面真实变化难以检测而且可能增加新的伪变化。因此,急需寻找辅助数据源帮助遥感影像预测局部地区的变化位置和范围等,以便以最少的人工干预获取最高的检测精度。上述基于众源地理数据的地表覆盖变化检测方法虽然在一定程度上提高了检测的时效性,但是其常用的众源地理数据(如地理标记图片Flickr和地图POI等)的更新具有一定的被动性,即需要等待用户标注或是地图公司进行有偿更新,并且该类方法需要与已有基于遥感影像生产的地表覆盖产品进行比对才能获得最终的变化区域,在一定程度上依然受基于遥感影像的地表覆盖变化检测方法的劣势影像。
发明内容
为了解决背景技术中存在的上述问题,本发明提供基于Web新闻文本快速检测地表覆盖变化的方法,可从高现势性的、准实时性的、普适性的且主动发布的Web新闻文本中直接发现地表覆盖变化,用于帮助遥感影像预测局部地区的变化位置和范围等,以便用最少的人工干预获取最高的变化检测精度。
为了实现上述目的,本发明采用如下技术方案:
基于Web新闻文本快速检测地表覆盖变化的方法,包括:
步骤(1):构建地表覆盖变化检测知识库;
步骤(2):获取地表覆盖Web新闻文本;
步骤(3):依据地表覆盖变化检测知识库,从地表覆盖Web新闻文本中抽取的地表覆盖变化信息:从地表覆盖Web新闻文本中识别地表覆盖变化类型、从地表覆盖Web新闻文本中判定地表覆盖变化区域和从地表覆盖Web新闻文本中确认地表覆盖变化时间;
步骤(4):形成地表覆盖变化信息库。
所述地表覆盖变化检测知识库,包括:地表覆盖变化关键词、地表覆盖分类词、全球地名库、时间匹配规则和地表覆盖类型识别规则。
所述步骤(2):利用网络爬虫采集Web新闻文本,然后利用步骤(1)中的地表覆盖分类词,采用文本相似度算法对采集到的Web新闻文本进行过滤,获取地表覆盖Web新闻文本,并将地表覆盖Web新闻文本作为地表覆盖变化检测的基础数据源;
所述从地表覆盖Web新闻文本中识别地表覆盖变化类型:利用步骤(1)中的地表覆盖变化关键词、地表覆盖分类词以及地表覆盖类型识别规则识别地表覆盖Web新闻文本中发生变化前的地表覆盖类型、发生变化后的地表覆盖类型、发生变化前的地表覆盖类型属性与发生变化后的地表覆盖类型属性;
所述地表覆盖类型识别规则,是指从采集的地表覆盖Web新闻文本中标注同时包含地表覆盖变化关键词和地表覆盖分类词的语句模式。
所述从地表覆盖Web新闻文本中判定地表覆盖变化区域:利用步骤(1)中的全球地名库和步骤(2)获得的地表覆盖Web新闻文本,根据地名出现的次数和位置判定地表覆盖变化的区域;
所述从地表覆盖Web新闻文本中确认地表覆盖变化时间:利用步骤(1)中时间匹配规则和步骤(2)获得的地表覆盖Web新闻文本,根据时间短语出现的次数确认地表覆盖变化时间;
所述步骤(4):从空间尺度和时间尺度2个方面进行的:
将在同一空间范围且在同一时间范围的地表覆盖变化类型、变化区域和变化时间整合在一起,形成地表覆盖变化信息库。
所述从地表覆盖Web新闻文本中识别地表覆盖变化类型、从地表覆盖Web新闻文本中判定地表覆盖变化区域和从地表覆盖Web新闻文本中确认地表覆盖变化时间的先后顺序允许随意改变。
基于Web新闻文本快速检测地表覆盖变化的系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令在处理器上运行时,完成以下步骤:
步骤(1):构建地表覆盖变化检测知识库;
步骤(2):获取地表覆盖Web新闻文本;
步骤(3):依据地表覆盖变化检测知识库,从地表覆盖Web新闻文本中抽取的地表覆盖变化信息:从地表覆盖Web新闻文本中识别地表覆盖变化类型、从地表覆盖Web新闻文本中判定地表覆盖变化区域和从地表覆盖Web新闻文本中确认地表覆盖变化时间;
步骤(4):形成地表覆盖变化信息库。
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时完成以下步骤:
步骤(1):构建地表覆盖变化检测知识库;
步骤(2):获取地表覆盖Web新闻文本;
步骤(3):依据地表覆盖变化检测知识库,从地表覆盖Web新闻文本中抽取的地表覆盖变化信息:从地表覆盖Web新闻文本中识别地表覆盖变化类型、从地表覆盖Web新闻文本中判定地表覆盖变化区域和从地表覆盖Web新闻文本中确认地表覆盖变化时间;
步骤(4):形成地表覆盖变化信息库。
本发明的优点是:
本发明是以高现势性、准实时性和普适性的Web新闻文本为待检测数据源,利用规则匹配、关键词匹配、地名匹配等方法快速检测地表覆盖变化,包括构建地表覆盖变化检测知识库、获取地表覆盖Web新闻文本、从地表覆盖Web新闻文本中识别地表覆盖变化类型、判定地表覆盖变化区域、确认地表覆盖变化时间和规范整合从地表覆盖Web新闻文本中抽取的地表覆盖变化信息等6大步骤,无需利用遥感影像,不受遥感影像获取的时间、天气状况、图像分类技术、同物异谱及同谱异物等因素的影响,解决了单纯依靠遥感影像检测方法存在的检测周期长、成本高、局部区域精确性低、难以持续更新等问题,可用于帮助遥感影像预测局部地区的变化位置和范围等。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明的流程图。
图2为实施例中从地表覆盖Web文本识别地表覆盖变化类型的流程图。
图3为实施例中从地表覆盖Web文本判定地表覆盖变化区域的流程图。
图4为实施例中从地表覆盖Web文本确认地表覆盖变化时间的流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
本发明所提出的一种基于Web新闻文本快速检测地表覆盖变化的方法,如图1所示,所述方法包括如下步骤:
步骤(1):构建地表覆盖变化检测知识库;
所述地表覆盖变化检测知识库应包括地表覆盖变化关键词、地表覆盖分类词、全球地名库、时间匹配规则和地表覆盖类型识别规则。本实施例中列出了部分地表覆盖变化检测知识库内容,如表1所示。
所述地表覆盖变化关键词,例如:“增加”、“修建”、“毁坏”等;
所述地表覆盖分类词,例如:草地、林地、耕地、人造覆盖;
所述时间匹配规则,是利用文献“邬桐,周雅倩,黄萱菁,等.自动构建时间基元规则库的中文时间表达式识别[J].中文信息学报,2010,24(4):3-10.”中的时间基元方法构建的以年、月、日、时、分和秒为基元,以正则表达式为的表现形式的规则;
所述时间匹配规则,例如匹配形式为“2017年10月20日11:16:32”的时间规则为((?<date>[0-9]{4}年(([1][012])|([0]?[1-9]))月(([12][0-9])|([3][01])|([0]?[1-9]))日[\\s\\t]*\\d{0,2}[:]?\\d{0,2}[:]?\\d{0,2}));
匹配时序关系“3个月前”或是“昨天”的规则为“(前|昨|今|明|后)(天|日)?(早|晚)(晨|上|间)?)|(\d+个?[年月日天][以之]?[前后])”。
所述地表覆盖类型识别规则利用JAPE语法编写。
所述地表覆盖变化关键词,是指Web新闻文本中与引起地表覆盖变化相关的词汇;
所述地表覆盖分类词,包括:全球30米地表覆盖数据GlobeLand30采用的分类系统,国际地圈生物圈计划IGBP(International Geosphere-Biosphere Program)分类系统,马里兰大学UMD(University of Maryland)分类系统,全球地表覆盖数据GLC 2000(GlobelLand Cover 2000)分类系统,全球土地覆盖GlobCover分类体系,中科院遥感所1:25万土地覆盖分类系统,北美土地覆盖数据库NLCD(North American Land Cover Database)分类系统,加拿大地球森林可持续发展观察EOSD(Earth Observation for SustainableDevelopment of Forests)分类系统和澳大利亚动态土地覆盖数据集DLCD(Dynamic LandCover Dataset)分类系统中的词汇。
所述地表覆盖类型识别规则是通过利用通用自然语言处理框架GATE(GeneralArchitecture for Text Engineering)标注,从步骤(2)采集的地表覆盖Web新闻文本语料库中标注同时包含地表覆盖变化关键词和地表覆盖分类词的语句模式,具体的标注方法可借鉴但不局限于文献“张雪英,朱少楠,张春菊.中文文本的地理命名实体标注[J].测绘学报,2012,41(1):115-120.”或文献“张春菊,张雪英,王曙,等.中文文本的事件时空信息标注[J].中文信息学报,2016,30(3):213-222.”。
表1地表覆盖变化检测知识库部分内容
步骤(2):获取地表覆盖Web新闻文本;
获取地表覆盖Web新闻文本的方法是通过主题爬行技术采集到了Web新闻文本,利用表1中的良田、别墅等地表覆盖分类词匹配获取到地表覆盖Web新闻文本;然后,利用权威网站词典(新华网、人民网、搜狐网等)、用户评价等多维度因素进行文本信息可信度计算,最终只选择可信度较高的Web新闻文本参与地表覆盖变化检测;
本实施例中获取了搜狐网标题为“广东兴宁上演大规模变相征地良田建别墅高球场”的地表覆盖Web文本新闻(http://news.sohu.com/20141210/n406828899.shtml)。
所述利用网络爬虫采集的Web新闻文本:
采用以权威网站词典WS、网站域名类型HT、用户评价数量CN、用户浏览量BN、广告数量AN和Web新闻文本转载量RN为可信度评估指标,以加权求和的方式进行文本信息可信度C计算,如公式(1)所示,最终只选择可信度高的Web新闻文本参与地表覆盖变化检测。
C=ω1WS+ω2HT+ω3CN+ω4BN+ω5AN+ω6RN (1)
所述公式(1)中的ω1、ω2、ω3、ω4、ω5和ω6分别为权威网站词典、网站域名类型、用户评价数量、用户浏览量、广告数量和Web新闻文本转载量的权重值,且ω1+ω2+ω3+ω4+ω5+ω6=1。
通过多次实验的方法给出一组权重参考值:ω1=0.3,ω2=0.1,ω3=0.15,ω4=0.15,ω5=0.05,ω6=0.25。
所述权威网站词典包括新华网、人民网、中国新闻网、中国政府网、国务院部门网站(如外交部网站、国土资源部网站)等公认信息来源可靠的网站。当采集到地表覆盖Web新闻文本来源于权威网站,则其WS值设置为5;而当其来源与其他网站时,则其WS值设置为0。
所述网站域名类型是指政府机构域名(.gov)、非盈利性网站域名(.org)、教育机构域名(.edu)、商业网站域名(.net和.com)和其它域名等5类域名。其中,政府机构域名和非盈利性网站域名(.org)和部分教育机构域名是由权威度较高的政府、组织和高校使用,其可信度较高;商业网站域名主要由盈利公司使用,其可信度次之。因此,本发明中HT的值如表2所示。
表2各域名类型可信度值
域名类型 | .gov | .org | .edu | .net和.com | 其它 |
HT值 | 5 | 4 | 3 | 2 | 1 |
所述用户评价数量、用户浏览量和广告数量均采用传统的基于网页模板匹配的方法抽取。其中用户评价数量和用户浏览量越多,说明该网站的内容可信度越高。因此,用户评价数量和用户浏览量的可信度值均采用max-min标准化方法计算,如公式(2)所示。例如,计算用户评价数量的可信度值时,原始值就代表用户评价数量。相反地,广告数量越多,说明该网站的盈利意图越强,其内容的可信度就越低,其可信度计算如公式(3)所示。
所述Web新闻文本转载量是通过记录采集过程中该新闻文本的重复新闻数量获取的,转载量越多,说明该网站的内容可信度越高,其可信度计算也采用max-min标准化方法计算,如公式(2)所示。
步骤(3):从地表覆盖Web新闻文本中识别地表覆盖变化类型;如附图2所述,本实施例首先利用盘古中文分词器和常见标点符号对步骤(2)获取的地表覆盖Web新闻文本进行分句、分词和词性标注的操作,然后利用地表覆盖变化关键词、分类词匹配待检测的Web新闻文本,确定Web新闻文本中潜在的具有地表覆盖变化特征的句子簇;接着,利用地表覆盖类型识别规则标注出各个句子的角色;最后,根据角色类型,从多个标注语句中识别出地表覆盖类型或地表覆盖变化属性。
本实施例从步骤(2)所获取的标题为“广东兴宁上演大规模变相征地良田建别墅高球场”的地表覆盖Web文本新闻中可以识别出地表覆盖类型由“耕地”变为了“人造覆盖”类型。
所述步骤(3)的步骤为:
步骤(31):利用盘古中文分词器和常见标点符号(如表示陈述句的中英文句号“。”、“.”,逗号“,”;代表感叹句的感叹号“!”;代表疑问句的问号“?”等)对步骤(2)获取的地表覆盖Web新闻文本进行分句、分词和词性标注的操作,获得待检测Web新闻文本的各个标注语句和带词性标注的词汇序列;
步骤(32):利用关键词匹配的方法将地表覆盖变化关键词、地表覆盖分类词与步骤(31)获得待检测Web新闻文本的各个标注语句进行匹配,确定Web新闻文本中潜在的具有地表覆盖变化特征的句子簇:如果待检测Web新闻文本中的某一个句子同时包含地表覆盖变化关键词和地表覆盖分类词,则将其确定为潜在的具有地表覆盖变化特征的句子;
步骤(33):利用地表覆盖类型识别规则,结合步骤(31)中词汇序列的词性,标注出从步骤(32)得到的潜在的具有地表覆盖变化特征的句子簇中各个句子的角色,如语句“良田建别墅”中的名词“良田”被标注为“施事关系”角色,名词“别墅”被标注为“受事关系”角色;
步骤(34):根据角色类型,从步骤(33)得到的标注语句中识别出地表覆盖类型或地表覆盖变化属性,如“施事关系”角色表示原始的地表覆盖类型,“受事关系”角色表示变化后的地表覆盖类型。
步骤(4):从地表覆盖Web新闻文本中判定地表覆盖变化区域;如附图3所述,本实施例首先利用知识库中的地名库补充中文分词的词库,接着利用盘古中文分词器对步骤(2)获取的地表覆盖Web新闻文本进行分词和词性标注的操作;然后根据其词性标注、地名库和空间语义关系进行地名识别/解歧;在地名识别/解歧后,根据地名之间的空间语义关系及其在Web新闻文本中出现的位置、次数,计算各个地名的重要性,最后根据重要性排名和判定地表覆盖变化区域。
本实施例从步骤(2)所获取的标题为“广东兴宁上演大规模变相征地良田建别墅高球场”的地表覆盖Web文本新闻中可以判定“广东省梅州市兴宁市永和镇蓝排村”为地表覆盖变化区域。
所述步骤(4)包括如下步骤:
步骤(41):利用全球地名库补充盘古中文分词器自带的中文分词的词库;
步骤(42):利用盘古中文分词器和常见标点符号对步骤(2)获取的地表覆盖Web新闻文本进行分句、分词和词性标注的操作,获得待检测Web新闻文本的各个标注语句和带词性标注的词汇序列;
步骤(43):在盘古中文分词器中,地名的词性被标注为“POS_A_NS”或“POS_A_NT”。通过从步骤(42)的词汇序列中抽取出词性为“POS_A_NS”或“POS_A_NT”的词汇地名识别,获得潜在地名序列;
步骤(44):利用文献“张毅,王星光,陈敏,等.基于语义的文本地理范围提取方法[J].高技术通讯,2012,22(2):165-170.”中的证据理论方法进行地名解岐,获得地名序列;
步骤(45):当地名序列中只包含一个地名时,则无需进行地名重要性计算;当地名序列中包含多个不同地名时,则根据全球地名库中地名之间的空间语义关系及地名在Web新闻文本中出现的位置和次数因素,利用文献“张毅,王星光,陈敏,等.基于语义的文本地理范围提取方法[J].高技术通讯,2012,22(2):165-170.”中提出的地名重要性度量函数计算地名的重要性,获得带有重要性值的地名序列;
步骤(46):根据重要性排名判定地表覆盖变化区域:当地名序列中只包含一个地名时,直接将该地名代表的空间范围判定为地表覆盖变化区域;当地名序列中包含多个不同地名时,从步骤(45)的地名序列中取重要性最高的3个地名(当只包含2个地名时,取2个地名),然后利用关键词匹配的方法,将这3个地名、地表覆盖变化关键词和地表覆盖分类词与步骤(42)中待检测Web新闻文本的各个标注语句进行匹配;如果其中1个地名同时与地表覆盖变化关键词和地表覆盖分类词出现在同一个标注语句中,则将该地名代表的空间范围判定为地表覆盖变化区域;如果多个地名同时与地表覆盖变化关键词和地表覆盖分类词出现在同一个标注语句中或者3个地名都没有同时与地表覆盖变化关键词和地表覆盖分类词出现在同一个标注语句中,则选择其行政级别最低的地名(如3个地名为“山东”、“章丘”和“明水街道”,选择“明水街道”),将其代表的空间范围判定为地表覆盖变化区域。
步骤(5):从地表覆盖Web新闻文本中确认地表覆盖变化时间;如附图4所述,本实施例首先利用“Mihalcea R,Tarau P.TextRank:Bringing Order into Texts[J].UntScholarly Works,2004:404-411.”中的TextRank方法对句子排序,抽取核心句子;然后通过时间规则匹配提取Web新闻文本中的规范化时间,并与核心句子组成“<核心句子,时间>”队列;最后利用时序关系推理出地表覆盖变化的确切时间。
本实施例从步骤(2)所获取的标题为“广东兴宁上演大规模变相征地良田建别墅高球场”的地表覆盖Web文本新闻中可以确认“2014年12月”为地表覆盖变化时间。
所述步骤(5)包括:
步骤(51):利用盘古中文分词器和常见标点符号对步骤(2)获取的地表覆盖Web新闻文本进行分句、分词和词性标注的操作,获得待检测Web新闻文本的各个标注语句和带词性标注的词汇序列;
步骤(52):采用文献“Mihalcea R,Tarau P.TextRank:Bringing Order intoTexts[J].Unt Scholarly Works,2004:404-411.”中的TextRank算法计算句子分数,将分数最高的10个句子作为核心句子;
步骤(52):通过时间规则匹配提取Web新闻文本中的规范化时间,并将规范化时间与核心句子组成“<核心句子,时间>”队列;
步骤(53):利用时序关系推理出地表覆盖变化的确切时间:如果“<核心句子,时间>”队列中的核心句子同时包含了地表覆盖变化关键词和地表覆盖分类词,则将该核心句子对应的时间作为地表覆盖变化的时间;否则,利用关键词匹配的方法找出同时包括地表覆盖变化关键词和地表覆盖分类词的句子,利用时间规则抽取出该句子中指示时序关系的词语,如“3个月前”等,然后以离其最近且出现在该句子之前的核心句子的时间作为参照时间,例如其最近核心句子的时间为“2017年10月3日”,则根据其时序关系可推断出确切的时间,如果是表示时序关系before的词语,如“前”和“昨”等,则将参考时间相应时间基元的值减去时序词语中的数字即可,如时序关系词语为“3个月之前”,可推断出地表覆盖变化时间为“2017年7月3日”,如果是表示时序关系After的词语,如“后”和“明”等,则将参考时间相应时间基元的值加上时序词语中的数字即可。
步骤(6):规范整合从地表覆盖Web新闻文本中抽取的地表覆盖变化信息;本实施例从步骤(2)所获取的标题为“广东兴宁上演大规模变相征地良田建别墅高球场”的地表覆盖Web文本新闻中抽取的地表覆盖信息可以整合到“2014年广东兴宁市地表覆盖变化库中”。
所述步骤(6):从空间尺度和时间尺度2个方面进行的:
将在同一空间范围(如北京)且在同一时间范围的(如同一月、季度或年)地表覆盖变化类型、变化区域和变化时间整合在一起,形成地表覆盖变化信息库。
由上述具体实施步骤可见,本发明所提供的一种基于Web新闻文本快速检测地表覆盖变化的方法,是以Web新闻文本为待检测数据源,无需利用遥感影像,不受遥感影像获取的时间、天气状况、图像分类技术、同物异谱及同谱异物等因素的影响,解决了单纯依靠遥感影像检测方法存在的检测周期长、成本高、局部区域精确性低、难以持续更新等问题,可用于帮助遥感影像预测局部地区的变化位置和范围等。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.基于Web新闻文本快速检测地表覆盖变化的方法,其特征是,包括:
步骤(1):构建地表覆盖变化检测知识库;
步骤(2):获取地表覆盖Web新闻文本;
步骤(3):依据地表覆盖变化检测知识库,从地表覆盖Web新闻文本中抽取的地表覆盖变化信息:从地表覆盖Web新闻文本中识别地表覆盖变化类型、从地表覆盖Web新闻文本中判定地表覆盖变化区域和从地表覆盖Web新闻文本中确认地表覆盖变化时间;
步骤(4):形成地表覆盖变化信息库;
所述地表覆盖变化检测知识库,包括:地表覆盖变化关键词、地表覆盖分类词、全球地名库、时间匹配规则和地表覆盖类型识别规则;
所述从地表覆盖Web新闻文本中判定地表覆盖变化区域:利用步骤(1)中的全球地名库和步骤(2)获得的地表覆盖Web新闻文本,根据地名出现的次数和位置判定地表覆盖变化的区域;当地名序列中只包含一个地名时,直接将该地名代表的空间范围判定为地表覆盖变化区域;当地名序列中包含多个不同地名时,则根据全球地名库中地名之间的空间语义关系及地名在Web新闻文本中出现的位置和次数因素,利用地名重要性度量函数计算地名的重要性,获得带有重要性值的地名序列;从地名序列中取重要性最高的3个地名,然后利用关键词匹配的方法,将这3个地名、地表覆盖变化关键词和地表覆盖分类词与待检测Web新闻文本的各个标注语句进行匹配;如果其中1个地名同时与地表覆盖变化关键词和地表覆盖分类词出现在同一个标注语句中,则将该地名代表的空间范围判定为地表覆盖变化区域;如果多个地名同时与地表覆盖变化关键词和地表覆盖分类词出现在同一个标注语句中或者3个地名都没有同时与地表覆盖变化关键词和地表覆盖分类词出现在同一个标注语句中,则选择其行政级别最低的地名,将其代表的空间范围判定为地表覆盖变化区域。
2.如权利要求1所述的基于Web新闻文本快速检测地表覆盖变化的方法,其特征是,所述步骤(2):利用网络爬虫采集Web新闻文本,然后利用步骤(1)中的地表覆盖分类词,采用文本相似度算法对采集到的Web新闻文本进行过滤,获取地表覆盖Web新闻文本,并将地表覆盖Web新闻文本作为地表覆盖变化检测的基础数据源。
3.如权利要求1所述的基于Web新闻文本快速检测地表覆盖变化的方法,其特征是,所述从地表覆盖Web新闻文本中识别地表覆盖变化类型:利用步骤(1)中的地表覆盖变化关键词、地表覆盖分类词以及地表覆盖类型识别规则识别地表覆盖Web新闻文本中发生变化前的地表覆盖类型、发生变化后的地表覆盖类型、发生变化前的地表覆盖类型属性与发生变化后的地表覆盖类型属性;
所述地表覆盖类型识别规则,是指从采集的地表覆盖Web新闻文本中标注同时包含地表覆盖变化关键词和地表覆盖分类词的语句模式。
4.如权利要求1所述的基于Web新闻文本快速检测地表覆盖变化的方法,其特征是,所述从地表覆盖Web新闻文本中确认地表覆盖变化时间:利用步骤(1)中时间匹配规则和步骤(2)获得的地表覆盖Web新闻文本,根据时间短语出现的次数确认地表覆盖变化时间。
5.如权利要求1所述的基于Web新闻文本快速检测地表覆盖变化的方法,其特征是,所述步骤(4):从空间尺度和时间尺度2个方面进行的:
将在同一空间范围且在同一时间范围的地表覆盖变化类型、变化区域和变化时间整合在一起,形成地表覆盖变化信息库。
6.如权利要求1所述的基于Web新闻文本快速检测地表覆盖变化的方法,其特征是,所述从地表覆盖Web新闻文本中识别地表覆盖变化类型、从地表覆盖Web新闻文本中判定地表覆盖变化区域和从地表覆盖Web新闻文本中确认地表覆盖变化时间的先后顺序允许随意改变。
7.基于Web新闻文本快速检测地表覆盖变化的系统,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令在处理器上运行时,完成以下步骤:
步骤(1):构建地表覆盖变化检测知识库;
步骤(2):获取地表覆盖Web新闻文本;
步骤(3):依据地表覆盖变化检测知识库,从地表覆盖Web新闻文本中抽取的地表覆盖变化信息:从地表覆盖Web新闻文本中识别地表覆盖变化类型、从地表覆盖Web新闻文本中判定地表覆盖变化区域和从地表覆盖Web新闻文本中确认地表覆盖变化时间;
步骤(4):形成地表覆盖变化信息库;
所述地表覆盖变化检测知识库,包括:地表覆盖变化关键词、地表覆盖分类词、全球地名库、时间匹配规则和地表覆盖类型识别规则;
所述从地表覆盖Web新闻文本中判定地表覆盖变化区域:利用步骤(1)中的全球地名库和步骤(2)获得的地表覆盖Web新闻文本,根据地名出现的次数和位置判定地表覆盖变化的区域;当地名序列中只包含一个地名时,直接将该地名代表的空间范围判定为地表覆盖变化区域;当地名序列中包含多个不同地名时,则根据全球地名库中地名之间的空间语义关系及地名在Web新闻文本中出现的位置和次数因素,利用地名重要性度量函数计算地名的重要性,获得带有重要性值的地名序列;
地表覆盖变化信息库是将在同一空间范围且在同一时间范围的地表覆盖变化类型、变化区域和变化时间整合在一起形成的。
8.一种计算机可读存储介质,其特征是,其上存储有计算机指令,所述计算机指令被处理器运行时完成以下步骤:
步骤(1):构建地表覆盖变化检测知识库;
步骤(2):获取地表覆盖Web新闻文本;
步骤(3):依据地表覆盖变化检测知识库,从地表覆盖Web新闻文本中抽取的地表覆盖变化信息:从地表覆盖Web新闻文本中识别地表覆盖变化类型、从地表覆盖Web新闻文本中判定地表覆盖变化区域和从地表覆盖Web新闻文本中确认地表覆盖变化时间;
步骤(4):形成地表覆盖变化信息库;
所述地表覆盖变化检测知识库,包括:地表覆盖变化关键词、地表覆盖分类词、全球地名库、时间匹配规则和地表覆盖类型识别规则;
所述从地表覆盖Web新闻文本中判定地表覆盖变化区域:利用步骤(1)中的全球地名库和步骤(2)获得的地表覆盖Web新闻文本,根据地名出现的次数和位置判定地表覆盖变化的区域;当地名序列中只包含一个地名时,直接将该地名代表的空间范围判定为地表覆盖变化区域;当地名序列中包含多个不同地名时,则根据全球地名库中地名之间的空间语义关系及地名在Web新闻文本中出现的位置和次数因素,利用地名重要性度量函数计算地名的重要性,获得带有重要性值的地名序列;
地表覆盖变化信息库是将在同一空间范围且在同一时间范围的地表覆盖变化类型、变化区域和变化时间整合在一起形成的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711098059.9A CN107885833B (zh) | 2017-11-09 | 2017-11-09 | 基于Web新闻文本快速检测地表覆盖变化的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711098059.9A CN107885833B (zh) | 2017-11-09 | 2017-11-09 | 基于Web新闻文本快速检测地表覆盖变化的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107885833A CN107885833A (zh) | 2018-04-06 |
CN107885833B true CN107885833B (zh) | 2020-05-05 |
Family
ID=61779763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711098059.9A Active CN107885833B (zh) | 2017-11-09 | 2017-11-09 | 基于Web新闻文本快速检测地表覆盖变化的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107885833B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763349B (zh) * | 2018-05-15 | 2021-08-31 | 邢汉发 | 基于社交媒体数据的城市土地利用混合度测算方法及系统 |
CN111144121B (zh) * | 2019-12-27 | 2021-12-03 | 北大方正集团有限公司 | 地名识别方法、装置、电子设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408093A (zh) * | 2014-11-14 | 2015-03-11 | 中国科学院计算技术研究所 | 一种新闻事件要素抽取方法与装置 |
CN107315797A (zh) * | 2017-06-19 | 2017-11-03 | 江西洪都航空工业集团有限责任公司 | 一种网络新闻获取及文本情感预测系统 |
-
2017
- 2017-11-09 CN CN201711098059.9A patent/CN107885833B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408093A (zh) * | 2014-11-14 | 2015-03-11 | 中国科学院计算技术研究所 | 一种新闻事件要素抽取方法与装置 |
CN107315797A (zh) * | 2017-06-19 | 2017-11-03 | 江西洪都航空工业集团有限责任公司 | 一种网络新闻获取及文本情感预测系统 |
Non-Patent Citations (1)
Title |
---|
地表覆盖网络化信息发现方法研究;侯东阳;《中国博士学位论文全文数据库基础科学辑(月刊)》;20161215;第A008-4页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107885833A (zh) | 2018-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yao et al. | Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model | |
CN105183869B (zh) | 楼宇知识图谱数据库及其构建方法 | |
Hu | Geo‐text data and data‐driven geospatial semantics | |
Rae et al. | Mining the web for points of interest | |
JP7228946B2 (ja) | 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 | |
CN110472066A (zh) | 一种城市地理语义知识图谱的构建方法 | |
Iino et al. | CNN-based generation of high-accuracy urban distribution maps utilising SAR satellite imagery for short-term change monitoring | |
CN112527915B (zh) | 线性文化遗产知识图谱构建方法、系统、计算设备和介质 | |
CN107943810A (zh) | 楼宇信息地图的构建方法 | |
Arapostathis | A methodology for automatic acquisition of flood‐event management information from social media: the flood in Messinia, South Greece, 2016 | |
Ma et al. | Typeface reveals spatial economical patterns | |
Teerarojanarat et al. | Using GIS for linguistic study: a case of dialect change in the northeastern region of Thailand | |
Kitamoto et al. | Toponym-based geotagging for observing precipitation from social and scientific data streams | |
CN113761971A (zh) | 一种遥感影像目标知识图谱构建方法及装置 | |
CN107885833B (zh) | 基于Web新闻文本快速检测地表覆盖变化的方法及系统 | |
CN109299469A (zh) | 一种在长文本中识别复杂住址的方法 | |
Shi et al. | Extraction of geospatial information on the Web for GIS applications | |
CN108984640A (zh) | 一种基于web数据挖掘的地理信息获取方法 | |
Ariza-López et al. | DEMs: An approach to users and uses from the quality perspective | |
Derungs et al. | Mining nearness relations from an n-grams Web corpus in geographical space | |
Wu et al. | Object-oriented and deep-learning-based high-resolution mapping from large remote sensing imagery | |
Cruz et al. | Semantic extraction of geographic data from web tables for big data integration | |
Farhadi et al. | Buildings extraction in urban areas based on the radar and optical time series data using Google Earth Engine | |
van Erp et al. | Georeferencing animal specimen datasets | |
Shi et al. | Thematic data extraction from Web for GIS and applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |