CN107330052A - 一种基于语义的网络文档智能检索原型 - Google Patents

一种基于语义的网络文档智能检索原型 Download PDF

Info

Publication number
CN107330052A
CN107330052A CN201710511401.7A CN201710511401A CN107330052A CN 107330052 A CN107330052 A CN 107330052A CN 201710511401 A CN201710511401 A CN 201710511401A CN 107330052 A CN107330052 A CN 107330052A
Authority
CN
China
Prior art keywords
network
network documentation
matrix
documentation
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710511401.7A
Other languages
English (en)
Inventor
张军
陈晓峰
戴建荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai DC Science Co Ltd
Original Assignee
Shanghai DC Science Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai DC Science Co Ltd filed Critical Shanghai DC Science Co Ltd
Priority to CN201710511401.7A priority Critical patent/CN107330052A/zh
Publication of CN107330052A publication Critical patent/CN107330052A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于语义的网络文档智能检索原型,通过METAFILE的关键词对URL进行索引,与相关关键词建立映射;将词与网络文档的相关性进行编码,作为网络文档‑词矩阵的元素;再将网络文档‑词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;低秩矩阵检索在所有网络文档中共同使用的常见单词;稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;利用关键词对网络文档进行语义检索,并构建基于语义的网络文档智能检索原型。

Description

一种基于语义的网络文档智能检索原型
技术领域
本发明涉及一种基于语义的网络文档智能检索原型
背景技术
目前搜索引擎只针对文本进行搜索,还不能有效对音乐、图片和视频等多媒体文件进行搜索,原因主要是多媒体数据量太大;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和网络文档检索的方法遍历因特网信息空间。因特网上有数千种不同的数据类型,HTTP给每种要通过网络传输的对象都打上了名为MIME类型的数据格式标签。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。
URL是必要的,因为它是初始数据集的来源,这个过程中仍然会涉及到网络爬虫。然而,仅有这个初始数据集是不够的。可以将它们视作海量的原始数据,需要进一步地分类和提炼。这种提炼在资源描述框架(RDF)的帮助下完成。同一个词可以有不同的含义甚至不同的用法。这种歧义问题可以用本体(ONTOLOGY)-即含义的汇集来解决。
但基于URL、RDF、ONTOLOGY的语义搜索与主流网络兼容性不够。目前,最简单的方式是在网页中直接嵌入描述。要想让网页的结构更清晰,可使用HTML5中新的语义元素。这些元素可以为它们标注的内容赋予额外的含义。网络爬虫已经在检查一些HTML5的语义元素了,这样可以收集到它们索引的页面的更多信息。
网络搜索的数据往往是高维的,其维数甚至达到百万数量级。发现和利用高维数据中的低维结构,在网络搜索中显得尤为重要。另外,在网络搜索中,人们只能观察到少量元素,希望根据这些有限的信息,能够猜测出未看到的大量元素,从而恢复一个未知的低秩矩阵或近似低秩矩阵。
假定已知数据已排列成一高维数据或样本矩阵。估计一低维子空间的问题称为低秩矩阵逼近。当低秩矩阵或样本矩阵的某些元素被严重损坏时,能够自动识别被损坏的元素,精确地恢复原低秩矩阵。在网络搜索中,需要将一个数据矩阵分解为一个低秩矩阵与一个稀疏矩阵之和,并且希望同时恢复低秩矩阵与稀疏矩阵,以便于进行语义搜索。
本发明提供了一种基于语义的网络文档智能检索原型,通过METAFILE的关键词对URL进行索引,与相关关键词建立映射;将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;低秩矩阵检索在所有网络文档中共同使用的常见单词;稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;利用关键词对网络文档进行语义检索,并构建基于语义的网络文档智能检索原型。
发明内容
本发明的目的在于提供一种基于语义的网络文档智能检索原型。本发明包括以下特征:
发明技术方案
1.一种基于语义的网络文档智能检索架构,其具体步骤如下:
1)通过METAFILE的关键词对URL进行索引,与相关关键词建立映射;
2)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
3)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
4)低秩矩阵检索在所有网络文档中共同使用的常见单词;
5)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;
6)利用关键词对网络文档进行语义检索。
2.基于权利要求1的架构,构建基于语义的网络文档智能检索原型。
附图说明
附图1是基于语义的网络文档智能检索原型图。
具体实施方式
这种基于语义的网络文档智能检索原型,包括如下步骤特征:
1)通过METAFILE的关键词对URL进行索引,与相关关键词建立映射;
2)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
3)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
4)低秩矩阵检索在所有网络文档中共同使用的常见单词;
5)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;
6)利用关键词对网络文档进行语义检索;
7)构建基于语义的网络文档智能检索原型。

Claims (2)

1.一种基于语义的网络文档智能检索架构,其具体步骤如下:
1)通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;
2)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
3)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
4)低秩矩阵检索在所有网络文档中共同使用的常见单词;
5)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;
6)利用关键词对网络文档进行语义检索。
2.基于权利要求1的架构,构建基于语义的网络文档智能检索原型。
CN201710511401.7A 2017-06-29 2017-06-29 一种基于语义的网络文档智能检索原型 Pending CN107330052A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710511401.7A CN107330052A (zh) 2017-06-29 2017-06-29 一种基于语义的网络文档智能检索原型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710511401.7A CN107330052A (zh) 2017-06-29 2017-06-29 一种基于语义的网络文档智能检索原型

Publications (1)

Publication Number Publication Date
CN107330052A true CN107330052A (zh) 2017-11-07

Family

ID=60197172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710511401.7A Pending CN107330052A (zh) 2017-06-29 2017-06-29 一种基于语义的网络文档智能检索原型

Country Status (1)

Country Link
CN (1) CN107330052A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156763A1 (en) * 2000-03-22 2002-10-24 Marchisio Giovanni B. Extended functionality for an inverse inference engine based web search
CN1470047A (zh) * 2000-11-20 2004-01-21 ���չ�˾ 用于文档的向量分析方法
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法
CN101706812A (zh) * 2009-11-24 2010-05-12 清华大学 一种文档的检索方法和装置
CN102024056A (zh) * 2010-12-15 2011-04-20 中国科学院自动化研究所 利用计算机的基于多媒体分析的新闻人物检索方法
CN102214180A (zh) * 2010-04-12 2011-10-12 无锡科利德斯科技有限公司 检索方法及其建立文本语义提取模型的方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
US20120296891A1 (en) * 2006-01-23 2012-11-22 Clearwell Systems, Inc. Methods and systems for automatic evaluation of electronic discovery review and productions
CN104504087A (zh) * 2014-12-25 2015-04-08 中国科学院电子学研究所 一种基于低秩分解的精细主题挖掘方法
CN106484797A (zh) * 2016-09-22 2017-03-08 北京工业大学 基于稀疏学习的突发事件摘要抽取方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156763A1 (en) * 2000-03-22 2002-10-24 Marchisio Giovanni B. Extended functionality for an inverse inference engine based web search
CN1470047A (zh) * 2000-11-20 2004-01-21 ���չ�˾ 用于文档的向量分析方法
US20120296891A1 (en) * 2006-01-23 2012-11-22 Clearwell Systems, Inc. Methods and systems for automatic evaluation of electronic discovery review and productions
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法
CN101706812A (zh) * 2009-11-24 2010-05-12 清华大学 一种文档的检索方法和装置
CN102214180A (zh) * 2010-04-12 2011-10-12 无锡科利德斯科技有限公司 检索方法及其建立文本语义提取模型的方法
CN102024056A (zh) * 2010-12-15 2011-04-20 中国科学院自动化研究所 利用计算机的基于多媒体分析的新闻人物检索方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN104504087A (zh) * 2014-12-25 2015-04-08 中国科学院电子学研究所 一种基于低秩分解的精细主题挖掘方法
CN106484797A (zh) * 2016-09-22 2017-03-08 北京工业大学 基于稀疏学习的突发事件摘要抽取方法

Similar Documents

Publication Publication Date Title
EP2321745B1 (en) Providing posts to discussion threads in response to a search query
US9471874B2 (en) Mining forums for solutions to questions and scoring candidate answers
Soboroff et al. Overview of the TREC-2012 Microblog Track.
US20150347420A1 (en) Performing Application Searches
US20140358630A1 (en) Apparatus and process for conducting social media analytics
AU2011323602A1 (en) Multi-modal approach to search query input
CN102164186A (zh) 一种实现云搜索服务的方法及系统
CN103491089B (zh) 一种基于http的数据还原中的转码方法及系统
CN106611008B (zh) 一种互联网内容标签的管理方法及装置
CN103617174A (zh) 一种基于云计算的分布式搜索方法
CN103399855B (zh) 基于多数据源的行为意图确定方法及装置
CN104166683A (zh) 一种数据挖掘方法
CN106528688B (zh) 一种针对Twitter的分析取证方法
US9727545B1 (en) Selecting textual representations for entity attribute values
US9563666B2 (en) Unsupervised detection and categorization of word clusters in text data
US20110264683A1 (en) System and method for managing information map
CN114066533A (zh) 产品推荐方法、装置、电子设备及存储介质
CN105589918A (zh) 一种提取页面信息的方法及装置
US20090182759A1 (en) Extracting entities from a web page
CN108595453B (zh) Url标识映射获取方法及装置
JP5439100B2 (ja) 文書解析システム
CN107330052A (zh) 一种基于语义的网络文档智能检索原型
CN107330044A (zh) 一种基于语义的网络文档智能检索架构
CN107220362A (zh) 一种针对网络文档的网络爬虫提取url并索引及与关键词映射的框架
CN104391952A (zh) 实现文件系统索引建立的方法及实现文件系统查询的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171107

WD01 Invention patent application deemed withdrawn after publication