CN105786964A - 基于网络挖掘的遥感产品检索限定项语义扩展方法 - Google Patents

基于网络挖掘的遥感产品检索限定项语义扩展方法 Download PDF

Info

Publication number
CN105786964A
CN105786964A CN201610048113.8A CN201610048113A CN105786964A CN 105786964 A CN105786964 A CN 105786964A CN 201610048113 A CN201610048113 A CN 201610048113A CN 105786964 A CN105786964 A CN 105786964A
Authority
CN
China
Prior art keywords
time
retrieval
disclosure
paragraph
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610048113.8A
Other languages
English (en)
Other versions
CN105786964B (zh
Inventor
何建军
李玉堂
陈婷
关盛勇
王西亚
高宇
武文斌
高松峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Twenty First Century Aerospace Technology Co Ltd
Original Assignee
Twenty First Century Aerospace Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Twenty First Century Aerospace Technology Co Ltd filed Critical Twenty First Century Aerospace Technology Co Ltd
Priority to CN201610048113.8A priority Critical patent/CN105786964B/zh
Publication of CN105786964A publication Critical patent/CN105786964A/zh
Application granted granted Critical
Publication of CN105786964B publication Critical patent/CN105786964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于网络挖掘的遥感产品检索限定项语义扩展方法,主要包括:基于网络搜索结果的简介内容、时间信息抽取,形成摘录篇章;抽取、摘录篇章中的时间词、空间词,标注时间词对应的基本时间表达和空间词;将已标注的基本时间表达进行规范化处理;统计规范化的基本时间表达和空间词,将高频出现的时空词作为扩展结果。针对遥感产品检索中,用户输入的时空信息具有模糊性、指代性、动态性的问题,提出基于网络挖掘的遥感产品检索限定项语义扩展方法,定位完整的时空信息,实现对用户输入信息的语义扩展,进而准确理解用户需求,提高检索的准确性、实时性。

Description

基于网络挖掘的遥感产品检索限定项语义扩展方法
技术领域
本发明属于遥感数据处理与信息提取领域,涉及基于网络挖掘技术的遥感产品检索限定项语义扩展技术。
背景技术
遥感产品检索限定项语义扩展指的是对遥感产品进行检索时,对其检索内容中限定项所包含的时间和地点信息进行语义扩展。其中,限定项是指用户查询遥感产品的检索内容中包含的时间与空间限定信息,分为显性的和隐性的时空信息,其中显性的时空信息是指检索内容中直接显示出时间和空间的信息,而隐性的时空信息是指检索内容中没有直接显示出时间和空间信息,但通过对检索内容的分析或扩展可以获得相关时间和空间的信息。
当前,遥感产品检索服务以基于语义的遥感产品检索方式为主,针对该种检索方式,目前研究较多的扩展方法是对象语义和空间关系语义的构建,但对更高层的自然语言语义扩展方面的研究较少,尤其是自动扩展遥感产品用户语义方面的研究。
武汉大学陈旭等人提出了一种自动扩展遥感产品用户语义的方法,是通过扩展ISO19115-2模型(ISO19115-2是一个地理信息元数据的国际标准),以UML(UML是面向对象的模型构建语言)结合数据字典的方式构建影像元数据本体,实现遥感影像产品的查询扩展。但受本体构建原理限制,通过本体的查询扩展具有极强的专业性,不便于普通用户检索,但随着遥感产品服务的公众化,遥感产品的领域特征日渐弱化,且遥感产品服务的异构性和动态性特征日益显著,单纯依靠本体思想进行用户语义扩展不能够满足检索查准率和查全率要求。
发明内容
本发明要解决的技术问题是提供一种基于网络挖掘技术的、便用公众使用、查全率高的遥感产品检索限定项语义扩展方法。
为解决上述技术问题,本发明提出了一种基于网络挖掘的遥感产品检索限定项语义扩展方法,包括如下步骤:
S1、将查询内容的限定项输入搜索引擎,对网络搜索结果进行抽取,抽取每条记录的内容简介形成语段,顺序组成摘录篇章;
同时,抽取每条记录的公开时间,在无公开时间的情况下抽取文档建立时间,定义时间规范格式,将公开时间或文档建立时间按照时间规范格式转换作为基准参照时间,并将基准参照时间记录在其对应的内容简介语段中;若某条记录无公开时间和文档建立时间,或者公开时间、文档建立时间不能按照时间规范格式转换,则其对应的内容简介语段无基准参照时间;
S2、对摘录篇章进行分词处理,识别分词中时间词和空间词,将时间词形成基本时间表达,并标注基本时间表达、空间词;
S3、对没有基准参照时间的语段,判定已标注的基本时间表达中是否有与时间规范格式匹配的基本时间表达,若有,将其设为该语段的基准参照时间;若没有,删除该语段;对含有基准参照时间的语段,将已标注的基本时间表达转换为时间规范格式,若转换时基本时间表达不完整,则缺失部分填充该语段的基准参照时间;
S4、统计规范的时间表达和空间词,将最高频出现的时间表达和空间词作为语义扩展结果。
针对上述遥感产品检索限定项语义扩展方法,所述步骤S1包括如下步骤:
S11、建立网络检索抽取信息表,网络检索抽取信息表包括搜索引擎域名、搜索引擎地址模板、摘要内容节点标识、公开时间标识、文档建立时间标识、抽取页面数量、检索结果页面数量标识;
所述搜索引擎域名是搜索类网站在管理认证机构注册的用于标识互联网地址的字符串,该字段记录供遥感产品限定项检索的网络地址;
所述搜索引擎地址模板是搜索引擎对应的检索信息地址输入结构,该模板中使用通配符标识动态输入信息;
所述摘要内容节点标识是检索结果页面结构中标识内容摘要的字符;
所述公开时间标识是检索结果页面结构中标识文档公开时间的字符;
所述文档建立时间标识是检索结果页面结构中标识文档公开时间的字符;
所述抽取页面数量是用户期望将前多少条检索结果作为语义扩展源;
所述检索结果页面数量标识是检索结果条数超过一页可显示内容时,翻页访问地址标识符;
S12、获取搜索引擎的统一资源定位符编码方式,将检索限定项按照编码方式进行转码获取统一资源定位符编码,并将转译后的统一资源定位符编码替换搜索引擎地址模板中的通配符;按照网络检索抽取信息表中抽取页面数量,写入检索结果页面数量标识内;
S13、将检索结果页面解析为DOM树的形式;
S14、按照网络检索抽取信息表中的摘要内容节点标识,抽取该条记录的文本内容作为内容简介,将该条记录的内容简介形成语段;
S15、按照网络检索抽取信息表中的摘要内容节点标识对应的公开时间标识或文档建立时间标识,抽取该条记录的时间,定义时间规范格式,将公开时间或文档建立时间按照时间规范格式转换作为基准参照时间,并将基准参照时间记录在其对应的内容简介语段中;若该条记录无公开时间和文档建立时间,或者公开时间、文档建立时间不能按照时间规范格式转换,则其对应的内容简介语段无基准参照时间;
S16、循环每个检索结果页面,将语段顺序保存为所有检索结果的摘录篇章。
上述遥感产品检索限定项语义扩展方法中,步骤S4所述时间表达的语义扩展方法可以选用如下步骤:
S41、对规范化的时间按照单位由大到小建立数组;
S42、比较每个相同数组出现的频率,出现频率最高的数组为时间扩展结果;若出现频率相同时,则按照由大到小时间单位统计出现的频率,每个单位出现频率最高的数据作为该对应单位的结果,形成最终时间扩展结果;若按时间单位仍无法获得唯一结果时,取第一个出现的时间表达作为时间扩展结果。
本发明的有益效果:
本发明在分析遥感产品用户检索自然语言特征的前提下,提出了利用网络挖掘的方法对用户查询内容进行语义扩展,获取用户需求遥感产品的时空信息。
网络挖掘技术是数据挖掘技术在网络信息处理中的应用,网络挖掘是对互联网实时、动态信息的处理。基于网络挖掘的遥感产品检索限定项语义扩展方法,不受构建模型或规范的限制,规避了利用本体查询扩展具有的专业性影响,便用公众使用,并且网络挖掘技术可实时、动态的获取网络中信息,提高了查全率。
本发明基于网络挖掘的遥感产品检索限定项语义扩展方法显著提高了遥感产品检索的准确性、实时性。
附图说明
图1是基于网络挖掘的遥感产品检索限定项语义扩展方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提出了一种基于网络挖掘的遥感产品检索限定项语义扩展方法,步骤如下:
S1、将查询内容的限定项输入搜索引擎,对网络搜索结果进行抽取,抽取每条记录的内容简介形成语段,顺序组成摘录篇章。
同时,抽取每条记录的公开时间,在无公开时间的情况下抽取文档建立时间,定义时间规范格式,将公开时间或文档建立时间按照时间规范格式转换作为基准参照时间,并将基准参照时间记录在其对应的内容简介语段中;若某条记录无公开时间和文档建立时间,或者公开时间、文档建立时间不能按照时间规范格式转换,则其对应的内容简介语段无基准参照时间。
详细过程如下:
S11、将查询内容的限定项输入搜索引擎,获取搜索结果;
所述查询内容的限定项指用户查询遥感产品时查询内容中的时间与空间限定信息,包含显性的和隐性的时空信息。其中显性的时空信息是指检索内容中直接显示出时间和空间的信息,而隐性的时空信息是指检索内容中没有直接显示出时间和空间信息,但通过对检索内容的分析或扩展可以获得相关时间和空间的信息。例如:查询内容输入“2014年北京市冬小麦影像产品”,其中“2014年北京市”为冬小麦遥感产品的显性限定项;或者输入“汶川地震影像”,其中“汶川地震”为“2008年5月12日汶川市”遥感相关产品的隐性时空限定项。
在本实施方式中,以“汶川地震影像”遥感产品查询为例,检索限定项为“汶川地震”,输入百度搜索引擎;确定检索,返回一个搜索结果页面。
S12、抓取搜索结果的摘录页面,一般抓取前50个搜索结果;
S13、将摘录页面转换成源码,截取每条记录的内容简介形成语段,顺序组成摘录篇章。同时,抽取每条记录的公开时间,在无公开时间的情况下抽取文档建立时间,定义时间规范格式,将公开时间或文档建立时间按照时间规范格式转换作为基准参照时间,并将基准参照时间记录在其对应的内容简介语段中;若某条记录无公开时间和文档建立时间,或者公开时间、文档建立时间不能按照时间规范格式转换,则其对应的内容简介语段无基准参照时间
该步骤中将摘录页面的源码下载到本地,采用常规的文本截取方法将源码中的内容简介提取出来,同时判断是否存在公开时间,若有,将公开时间转为时间规范格式,(时间规范格式可以自由定义,如定义成“*年*月*日”),并标记为基准参照时间,若没有,查找文档建立时间,将文档建立时间转为时间规范格式,并标记为基准参照时间。
Web信息抽取技术众多,按照抽取原理和抽取方式,分为5类:基于自然语言处理方式、基于包装器归纳方式、基于本体方式、基于Htm1结构方式和基于Web查询方式。本发明提出了一种适用于多种搜索引擎自动提取信息的基于DOM(Modelobjectmodel,文档对象模型)树的网络检索页面结果抽取方法,步骤如下:
(1)建立网络检索抽取信息表,该表为搜索引擎访问地址自动构建、检索结果页面返回参数建立和检索结果结点属性获取提供参数。网络检索抽取信息表包括:搜索引擎域名(Domain)、搜索引擎地址模板(URL_Form)、摘要内容节点标识(Abstract)、公开时间标识(CreateTime)、文档建立时间标识(DocumnetTime)、抽取页面数量(Page_Num)、检索结果页面数量标识(Page_NumCode)。
所述搜索引擎域名(Domain)是搜索类网站在管理认证机构注册的用于标识互联网地址的字符串,该字段记录供遥感产品限定项检索的网络地址,例如:www.baidu.com。
所述搜索引擎地址模板(URL_Form)指搜索引擎对应的检索信息地址输入结构,该模板中使用通配符标识动态输入信息。通过选择搜索引擎地址模板,可以不提取广告信息,例如:百度搜索引擎的地址模板是https://www.baidu.com/#ie=*&f=3&rsv_bp=1&rsv_idx=1&tn=baidulocal&wd=*,采用该地址模板不会提取广告信息。
所述摘要内容节点标识(Abstract)指检索结果页面结构中标识内容摘要的字符。例如:百度检索结果页面结构中为“c-abstract”。
所述公开时间标识(CreateTime)是检索结果页面结构中标识文档公开时间的字符。例如:百度检索结果页面结构中为“f13m”。
所述文档建立时间标识(DocumnetTime)是检索结果页面结构中标识文档公开时间的字符。例如:百度检索结果页面结构中为“g”。
所述抽取页面数量(Page_Num)指用户期望将前多少条检索结果作为语义扩展源,例如:希望百度检索结果中的前50条检索结果作为扩展源,则填入50。
所述检索结果页面数量标识(Page_NumCode)是检索结果条数超过一页可显示内容时,翻页访问地址标识符,例如百度”*&pn=”。
(2)获取搜索引擎的统一资源定位符(URL)编码方式,将检索限定项按照编码方式进行转码获取统一资源定位符(URL)编码,并将转译后的URL编码替换搜索引擎地址模板中的通配符;按照网络检索抽取信息表中抽取页面数量,写入检索结果页面数量标识内。
(3)将检索结果页面解析为DOM树的形式。
(4)按照网络检索抽取信息表中的摘要内容节点标识,抽取该条记录的文本内容作为内容简介,将该条记录的内容简介形成语段。
(5)按照网络检索抽取信息表中的摘要内容节点标识对应的公开时间标识或文档建立时间标识,抽取该条记录的时间,定义时间规范格式,将公开时间或文档建立时间按照时间规范格式转换作为基准参照时间,并将基准参照时间记录在其对应的内容简介语段中;若该条记录无公开时间和文档建立时间,或者公开时间、文档建立时间不能按照时间规范格式转换,则其对应的内容简介语段无基准参照时间。
(6)循环每个检索结果页面,将语段顺序保存为所有检索结果的摘录篇章。
采用基于DOM树的网络检索页面结果抽取方法,解析形式便于信息抽取,并可以对多种搜索引擎中的相关信息进行自动提取,过滤广告信息。
S2、对摘录篇章进行分词处理,识别分词中时间词和空间词,将时间词形成基本时间表达,并标注基本时间表达、空间词。
所述的基本时间表达是指将连续的几个时间词按照一定格式组合成一个完整的时间短语,表达一个完整的时间。
该步骤可以采用下述方法实现:
S21、基于开源分词软件进行摘录篇章分词
根据中国科学院计算技术研究研制的汉语词法分析系统ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)的接口文档调用ICTCLAS5.0分词系统。将摘录篇章填入分词系统,运行分词系统,得到摘录篇章的分词结果,所述分词结果是一系列的词。
S22、扫描分词结果,根据时间触发词词典识别哪些词是时间词,根据时间表达模板形成基本时间表达,并对其类型进行标注。
本发明中的时间触发词词典可以采用现有的时间词典,规范时间词。本实施方式中建立了一种新的时间触发词词典,该时间触发词词典包含三类时间触发词:时间词类、前缀修饰语类和后缀修饰语类。
所述时间词类,是一类表示时间单位(如年、月、日、时、分、秒)、节日(如“国庆节”)、特殊日期缩写(如“五一”)等日期形式的时间表达语言。
所述前缀修饰语类,是一类常用的时间修饰词,这些修饰词在时间(如13时58分23秒)、日期(如2015年8月20日)、段时间(如夏天、冬天)或者复合时间短语等时间词的前面,将修饰词与时间词结合起来表示时间,例如:“自从……”。
所述后缀修饰语类,是一类在时间、日期、段时间或者复合时间短语后面的修饰词,将修饰词与时间词结合起来表示时间,例如:“……为止”、“……前”。
上述时间表达模板可以按照符合汉语时间表达习惯的规则建立,通过分类型标记为时间标准化表达提供基础。本实施方式提出了一种时间表达模板,如表1所示,其中,“时间表达模板”是时间表达的格式,时间表达是时间词的组合,表中“类型”是“时间表达模板”的分类。
表1时间表达模板表
使用时间触发词词典识别摘录篇章中的时间词,将时间词按时间表达模板规定的格式形成基本时间表达,判断其属于那种类型的时间,并将对应的时间类型标注在基本时间表达后面。
S23、扫描摘录篇章分词结果,以基础地理数据作为空间词典,识别、标注空间词。基础地理数据是由国家基础地理信息服务平台发布的数据,包括国内各省、市、县等行政区划的名称、范围。
S231、扫描分词结果,跟基础地理数据中的“名称”进行匹配;
S232、若有词与基础地理数据中的“名称”能够匹配,则标注为空间词,即在该词后面标注“/ns”,若不匹配,进入下一个词;
S233、循环每个词,直到摘录篇章内容结束。
S3、判断摘录篇章的每个语段是否有基准参照时间,对没有基准参照时间的语段,判定已标注的基本时间表达中是否有与时间规范格式匹配的基本时间表达,若有,将其设为该语段的基准参照时间;若没有,删除该语段。
对所有含有基准参照时间的语段,将已标注的基本时间表达转换为时间规范格式,若转换时基本时间表达不完整,则缺失部分填充该语段的基准参照时间。
本发明中对时间的规范化处理方法可以采用原子时间规范表达等常规方法,除此之外,还可以采用下述方法:
将已标注的所有基本时间表达转换为数字和时间单位的组合,将其与时间规范格式进行匹配:若能够全部匹配,进入下一个基本时间表达;若能够部分匹配,将匹配部分保留,不匹配的部分填充该语段的基准参照时间,进入下一个基本时间表达,直到完成该语段所有已标注基本时间表达的规范化处理。
上述将基本时间表达转换为数字和时间单位组合的方法如下:
如日历型时间“1997-09-01”转换为“1997年09月01日”;
如绝对时间“五一”转换为“05月01日”;
如段时间“2001年度”转换为“2001年01月01日-2001年12月31日”;
另外,如周或星期时间、相对时间通过对比该时间出现的摘录篇章中的所在语段的基准参照时间,按照基准参照时间根据日历推理出绝对时间。
如摘录篇章中某语段出现了“本周五”,该语段的基准参照时间为“2014年12月25日”,则按照日历记载“本周五”转换的绝对时间为“2014年12月26日”;
如摘录篇章中某语段出现了相对时间“前年”,该语段的基准参照时间为“2014年12月25日”,则“前年”转换为“2013年12月25日”。
S4、统计规范的时间表达和空间词,将最高频出现的时间表达和空间词作为语义扩展结果。
所述时间表达的语义扩展可以采用下述步骤:
S41、对规范化的时间按照单位由大到小建立数组;
S42、比较每个相同数组出现的频率,出现频率最高的数组为时间扩展结果;若出现频率相同时,则按照由大到小时间单位统计出现的频率,每个单位出现频率最高的数据作为该对应单位的结果,形成最终时间扩展结果;若按时间单位仍无法获得唯一结果时,取第一个出现的时间表达作为时间扩展结果。
所述空间词语义扩展可以采用下述步骤:
S43、统计每个空间词出现的频率,将出现频率最高的空间词作为检索结果,若出现频率相同时,将频率相同的空间词均作为检索结果;
S44、若空间词检索结果为县级,根据基础地理数据扩展结果包括所属地市名称、省名称;若空间词检索结果为地市级名称,扩展结果也列出所属省名称;若空间词检索结果为省名,则空间扩展结果为省空间范围。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,不脱离本发明构思作出的各种变化,仍落在本发明的保护范围。

Claims (3)

1.一种基于网络挖掘的遥感产品检索限定项语义扩展方法,包括如下步骤:
S1、将查询内容的限定项输入搜索引擎,对网络搜索结果进行抽取,抽取每条记录的内容简介形成语段,顺序组成摘录篇章;
同时,抽取每条记录的公开时间,在无公开时间的情况下抽取文档建立时间,定义时间规范格式,将公开时间或文档建立时间按照时间规范格式转换作为基准参照时间,并将基准参照时间记录在其对应的内容简介语段中;若某条记录无公开时间和文档建立时间,或者公开时间、文档建立时间不能按照时间规范格式转换,则其对应的内容简介语段无基准参照时间;
S2、对摘录篇章进行分词处理,识别分词中时间词和空间词,将时间词形成基本时间表达,并标注基本时间表达、空间词;
S3、对没有基准参照时间的语段,判定已标注的基本时间表达中是否有与时间规范格式匹配的基本时间表达,若有,将其设为该语段的基准参照时间;若没有,删除该语段;
对含有基准参照时间的语段,将已标注的基本时间表达转换为时间规范格式,若转换时基本时间表达不完整,则缺失部分填充该语段的基准参照时间;
S4、统计规范的时间表达和空间词,将最高频出现的时间表达和空间词作为语义扩展结果。
2.如权利要求1所述的遥感产品检索限定项语义扩展方法,其特征在于,所述步骤S1包括如下步骤:
S11、建立网络检索抽取信息表,网络检索抽取信息表包括搜索引擎域名、搜索引擎地址模板、摘要内容节点标识、公开时间标识、文档建立时间标识、抽取页面数量、检索结果页面数量标识;
所述搜索引擎域名是搜索类网站在管理认证机构注册的用于标识互联网地址的字符串,该字段记录供遥感产品限定项检索的网络地址;
所述搜索引擎地址模板是搜索引擎对应的检索信息地址输入结构,该模板中使用通配符标识动态输入信息;
所述摘要内容节点标识是检索结果页面结构中标识内容摘要的字符;
所述公开时间标识是检索结果页面结构中标识文档公开时间的字符;
所述文档建立时间标识是检索结果页面结构中标识文档公开时间的字符;
所述抽取页面数量是用户期望将前多少条检索结果作为语义扩展源;
所述检索结果页面数量标识是检索结果条数超过一页可显示内容时,翻页访问地址标识符;
S12、获取搜索引擎的统一资源定位符编码方式,将检索限定项按照编码方式进行转码获取统一资源定位符编码,并将转译后的统一资源定位符编码替换搜索引擎地址模板中的通配符;按照网络检索抽取信息表中抽取页面数量,写入检索结果页面数量标识内;
S13、将检索结果页面解析为DOM树的形式;
S14、按照网络检索抽取信息表中的摘要内容节点标识,抽取该条记录的文本内容作为内容简介,将该条记录的内容简介形成语段;
S15、按照网络检索抽取信息表中的摘要内容节点标识对应的公开时间标识或文档建立时间标识,抽取该条记录的时间,定义时间规范格式,将公开时间或文档建立时间按照时间规范格式转换作为基准参照时间,并将基准参照时间记录在其对应的内容简介语段中;若该条记录无公开时间和文档建立时间,或者公开时间、文档建立时间不能按照时间规范格式转换,则其对应的内容简介语段无基准参照时间;
S16、循环每个检索结果页面,将语段顺序保存为所有检索结果的摘录篇章。
3.如权利要求1或2所述的遥感产品检索限定项语义扩展方法,其特征在于,步骤S4中所述时间表达的语义扩展步骤如下:
S41、对规范化的时间按照单位由大到小建立数组;
S42、比较每个相同数组出现的频率,出现频率最高的数组为时间扩展结果;若出现频率相同时,则按照由大到小时间单位统计出现的频率,每个单位出现频率最高的数据作为该对应单位的结果,形成最终时间扩展结果;若按时间单位仍无法获得唯一结果时,取第一个出现的时间表达作为时间扩展结果。
CN201610048113.8A 2016-01-15 2016-01-15 基于网络挖掘的遥感产品检索限定项语义扩展方法 Active CN105786964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610048113.8A CN105786964B (zh) 2016-01-15 2016-01-15 基于网络挖掘的遥感产品检索限定项语义扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610048113.8A CN105786964B (zh) 2016-01-15 2016-01-15 基于网络挖掘的遥感产品检索限定项语义扩展方法

Publications (2)

Publication Number Publication Date
CN105786964A true CN105786964A (zh) 2016-07-20
CN105786964B CN105786964B (zh) 2019-08-09

Family

ID=56403184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610048113.8A Active CN105786964B (zh) 2016-01-15 2016-01-15 基于网络挖掘的遥感产品检索限定项语义扩展方法

Country Status (1)

Country Link
CN (1) CN105786964B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528644A (zh) * 2016-10-14 2017-03-22 航天恒星科技有限公司 一种遥感数据的检索方法及装置
CN106776556A (zh) * 2016-12-12 2017-05-31 北京蓝海讯通科技股份有限公司 一种文本模式生成方法、装置和计算设备
CN107729314A (zh) * 2017-09-29 2018-02-23 东软集团股份有限公司 一种中文时间识别方法、装置及存储介质、程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5873107A (en) * 1996-03-29 1999-02-16 Apple Computer, Inc. System for automatically retrieving information relevant to text being authored
US20060218115A1 (en) * 2005-03-24 2006-09-28 Microsoft Corporation Implicit queries for electronic documents
CN102073692A (zh) * 2010-12-16 2011-05-25 北京农业信息技术研究中心 基于农业领域本体库的语义检索系统和方法
CN103186556A (zh) * 2011-12-28 2013-07-03 北京百度网讯科技有限公司 得到和搜索结构化语义知识的方法及对应装置
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5873107A (en) * 1996-03-29 1999-02-16 Apple Computer, Inc. System for automatically retrieving information relevant to text being authored
US20060218115A1 (en) * 2005-03-24 2006-09-28 Microsoft Corporation Implicit queries for electronic documents
CN102073692A (zh) * 2010-12-16 2011-05-25 北京农业信息技术研究中心 基于农业领域本体库的语义检索系统和方法
CN103186556A (zh) * 2011-12-28 2013-07-03 北京百度网讯科技有限公司 得到和搜索结构化语义知识的方法及对应装置
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528644A (zh) * 2016-10-14 2017-03-22 航天恒星科技有限公司 一种遥感数据的检索方法及装置
CN106528644B (zh) * 2016-10-14 2020-07-31 航天恒星科技有限公司 一种遥感数据的检索方法及装置
CN106776556A (zh) * 2016-12-12 2017-05-31 北京蓝海讯通科技股份有限公司 一种文本模式生成方法、装置和计算设备
CN107729314A (zh) * 2017-09-29 2018-02-23 东软集团股份有限公司 一种中文时间识别方法、装置及存储介质、程序产品
CN107729314B (zh) * 2017-09-29 2021-10-26 东软集团股份有限公司 一种中文时间识别方法、装置及存储介质、程序产品

Also Published As

Publication number Publication date
CN105786964B (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CA2600685C (en) Generating structured information
US20180357308A1 (en) Method and apparatus for searching using an active ontology
AU2013337686B2 (en) Adjusting content delivery based on user submissions
CN100405371C (zh) 一种提取新词的方法和系统
KR100892845B1 (ko) 노출용 광고 정보를 제공하는 방법 및 시스템
CN101847160B (zh) 一种移动终端个性化页面推送方法和装置
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN102306201B (zh) 一种网页标题分析的方法和系统
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN101647020A (zh) 搜索结构化地理数据
CN109033358A (zh) 新闻聚合与智能实体关联的方法
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN101520798A (zh) 基于垂直搜索和聚焦爬虫的网页分类技术
CN102073729A (zh) 一种关系化知识共享平台及其实现方法
Hauff et al. Placing images on the world map: a microblog-based enrichment approach
CN102207948A (zh) 一种事件陈述句素材库的生成方法
Neumaier et al. Enabling spatio-temporal search in open data
CN104199938B (zh) 基于rss的农用土地信息发送方法和系统
CN112270579B (zh) 一种基于大数据的智能广告系统
CN112052414A (zh) 一种数据处理方法、装置以及可读存储介质
CN105786964A (zh) 基于网络挖掘的遥感产品检索限定项语义扩展方法
KR100901960B1 (ko) 신규 광고 가능 유알엘 제공 방법 및 시스템
CN106959995A (zh) 兼容双向自动化网页内容采集方法
KR101252245B1 (ko) 주제 분류 모듈 및 그를 이용한 문맥 광고 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant