CN107330044A - 一种基于语义的网络文档智能检索架构 - Google Patents

一种基于语义的网络文档智能检索架构 Download PDF

Info

Publication number
CN107330044A
CN107330044A CN201710504510.6A CN201710504510A CN107330044A CN 107330044 A CN107330044 A CN 107330044A CN 201710504510 A CN201710504510 A CN 201710504510A CN 107330044 A CN107330044 A CN 107330044A
Authority
CN
China
Prior art keywords
network
matrix
network documentation
word
documentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710504510.6A
Other languages
English (en)
Inventor
张军
陈晓峰
戴建荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai DC Science Co Ltd
Original Assignee
Shanghai DC Science Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai DC Science Co Ltd filed Critical Shanghai DC Science Co Ltd
Priority to CN201710504510.6A priority Critical patent/CN107330044A/zh
Publication of CN107330044A publication Critical patent/CN107330044A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于语义的网络文档智能检索架构,通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;将词与网络文档的相关性进行编码,作为网络文档‑词矩阵的元素;再将网络文档‑词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;低秩矩阵检索在所有网络文档中共同使用的常见单词;稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;利用关键词对网络文档进行语义检索。

Description

一种基于语义的网络文档智能检索架构
技术领域
本发明涉及一种基于语义的网络文档智能检索架构
背景技术
目前搜索引擎只针对文本进行搜索,还不能有效对音乐、图片和视频等多媒体文件进行搜索,原因主要是多媒体数据量太大;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和网络文档检索的方法遍历因特网信息空间。因特网上有数千种不同的数据类型,HTTP给每种要通过网络传输的对象都打上了名为MIME类型的数据格式标签。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。
URL是必要的,因为它是初始数据集的来源,这个过程中仍然会涉及到网络爬虫。然而,仅有这个初始数据集是不够的。可以将它们视作海量的原始数据,需要进一步地分类和提炼。这种提炼在资源描述框架(RDF)的帮助下完成。同一个词可以有不同的含义甚至不同的用法。这种歧义问题可以用本体(ONTOLOGY)-即含义的汇集来解决。
但基于URL、RDF、ONTOLOGY的语义搜索与主流网络兼容性不够。目前,最简单的方式是在网页中直接嵌入描述。要想让网页的结构更清晰,可使用HTML5中新的语义元素。这些元素可以为它们标注的内容赋予额外的含义。网络爬虫已经在检查一些HTML5的语义元素了,这样可以收集到它们索引的页面的更多信息。
网络搜索的数据往往是高维的,其维数甚至达到百万数量级。发现和利用高维数据中的低维结构,在网络搜索中显得尤为重要。另外,在网络搜索中,人们只能观察到少量元素,希望根据这些有限的信息,能够猜测出未看到的大量元素,从而恢复一个未知的低秩矩阵或近似低秩矩阵。
假定已知数据已排列成一高维数据或样本矩阵。估计一低维子空间的问题称为低秩矩阵逼近。当低秩矩阵或样本矩阵的某些元素被严重损坏时,能够自动识别被损坏的元素,精确地恢复原低秩矩阵。在网络搜索中,需要将一个数据矩阵分解为一个低秩矩阵与一个稀疏矩阵之和,并且希望同时恢复低秩矩阵与稀疏矩阵,以便于进行语义搜索。
本发明提供了一种基于语义的网络文档智能检索架构,通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;低秩矩阵检索在所有网络文档中共同使用的常见单词;稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;利用关键词对网络文档进行语义检索。
发明内容
本发明的目的在于提供一种基于语义的网络文档智能检索架构。本发明包括以下特征:
发明技术方案
1.一种基于语义的网络文档智能检索架构,其具体步骤如下:
1)通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;
2)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
3)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
4)低秩矩阵检索在所有网络文档中共同使用的常见单词;
5)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;
6)利用关键词对网络文档进行语义检索。
附图说明
附图1是基于语义的网络文档智能检索架构图。
具体实施方式
这种基于语义的网络文档智能检索架构,包括如下步骤特征:
1)通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;
2)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
3)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
4)低秩矩阵检索在所有网络文档中共同使用的常见单词;
5)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;
6)利用关键词对网络文档进行语义检索。

Claims (1)

1.一种基于语义的网络文档智能检索架构,其具体步骤如下:
1)通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;
2)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
3)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
4)低秩矩阵检索在所有网络文档中共同使用的常见单词;
5)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;
6)利用关键词对网络文档进行语义检索。
CN201710504510.6A 2017-06-29 2017-06-29 一种基于语义的网络文档智能检索架构 Pending CN107330044A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710504510.6A CN107330044A (zh) 2017-06-29 2017-06-29 一种基于语义的网络文档智能检索架构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710504510.6A CN107330044A (zh) 2017-06-29 2017-06-29 一种基于语义的网络文档智能检索架构

Publications (1)

Publication Number Publication Date
CN107330044A true CN107330044A (zh) 2017-11-07

Family

ID=60197607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710504510.6A Pending CN107330044A (zh) 2017-06-29 2017-06-29 一种基于语义的网络文档智能检索架构

Country Status (1)

Country Link
CN (1) CN107330044A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156763A1 (en) * 2000-03-22 2002-10-24 Marchisio Giovanni B. Extended functionality for an inverse inference engine based web search
CN1470047A (zh) * 2000-11-20 2004-01-21 ���չ�˾ 用于文档的向量分析方法
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法
CN101706812A (zh) * 2009-11-24 2010-05-12 清华大学 一种文档的检索方法和装置
CN102024056A (zh) * 2010-12-15 2011-04-20 中国科学院自动化研究所 利用计算机的基于多媒体分析的新闻人物检索方法
CN102214180A (zh) * 2010-04-12 2011-10-12 无锡科利德斯科技有限公司 检索方法及其建立文本语义提取模型的方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
US20120296891A1 (en) * 2006-01-23 2012-11-22 Clearwell Systems, Inc. Methods and systems for automatic evaluation of electronic discovery review and productions
CN104504087A (zh) * 2014-12-25 2015-04-08 中国科学院电子学研究所 一种基于低秩分解的精细主题挖掘方法
CN106484797A (zh) * 2016-09-22 2017-03-08 北京工业大学 基于稀疏学习的突发事件摘要抽取方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156763A1 (en) * 2000-03-22 2002-10-24 Marchisio Giovanni B. Extended functionality for an inverse inference engine based web search
CN1470047A (zh) * 2000-11-20 2004-01-21 ���չ�˾ 用于文档的向量分析方法
US20120296891A1 (en) * 2006-01-23 2012-11-22 Clearwell Systems, Inc. Methods and systems for automatic evaluation of electronic discovery review and productions
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法
CN101706812A (zh) * 2009-11-24 2010-05-12 清华大学 一种文档的检索方法和装置
CN102214180A (zh) * 2010-04-12 2011-10-12 无锡科利德斯科技有限公司 检索方法及其建立文本语义提取模型的方法
CN102024056A (zh) * 2010-12-15 2011-04-20 中国科学院自动化研究所 利用计算机的基于多媒体分析的新闻人物检索方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN104504087A (zh) * 2014-12-25 2015-04-08 中国科学院电子学研究所 一种基于低秩分解的精细主题挖掘方法
CN106484797A (zh) * 2016-09-22 2017-03-08 北京工业大学 基于稀疏学习的突发事件摘要抽取方法

Similar Documents

Publication Publication Date Title
US20170242934A1 (en) Methods for integrating semantic search, query, and analysis and devices thereof
US8402021B2 (en) Providing posts to discussion threads in response to a search query
US9471874B2 (en) Mining forums for solutions to questions and scoring candidate answers
CN102164186B (zh) 一种实现云搜索服务的方法及系统
CN103218431B (zh) 一种能识别网页信息自动采集的系统
US20110282860A1 (en) Data collection, tracking, and analysis for multiple media including impact analysis and influence tracking
US8086953B1 (en) Identifying transient portions of web pages
CN103491089B (zh) 一种基于http的数据还原中的转码方法及系统
CN106611008B (zh) 一种互联网内容标签的管理方法及装置
CN104951544A (zh) 用户数据处理方法、用户数据的提供方法和系统
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
CN102411617B (zh) 一种对海量url进行存储和查询方法
US20150120708A1 (en) Information aggregation, classification and display method and system
CN103617174A (zh) 一种基于云计算的分布式搜索方法
CN103399855B (zh) 基于多数据源的行为意图确定方法及装置
CN106528688B (zh) 一种针对Twitter的分析取证方法
US20110225134A1 (en) System and method for enhanced find-in-page functions in a web browser
US9563666B2 (en) Unsupervised detection and categorization of word clusters in text data
US8949254B1 (en) Enhancing the content and structure of a corpus of content
CN103853771B (zh) 一种搜索结果的推送方法及系统
US20110208707A1 (en) System and method for enhanced find-in-page functions in a web browser
US8121991B1 (en) Identifying transient paths within websites
CN101374307B (zh) 一种移动设备中更新数字内容信息的方法及装置
CN103646034A (zh) 一种基于内容可信的Web搜索引擎系统及搜索方法
JP5439100B2 (ja) 文書解析システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171107