CN107330044A - 一种基于语义的网络文档智能检索架构 - Google Patents
一种基于语义的网络文档智能检索架构 Download PDFInfo
- Publication number
- CN107330044A CN107330044A CN201710504510.6A CN201710504510A CN107330044A CN 107330044 A CN107330044 A CN 107330044A CN 201710504510 A CN201710504510 A CN 201710504510A CN 107330044 A CN107330044 A CN 107330044A
- Authority
- CN
- China
- Prior art keywords
- network
- matrix
- network documentation
- word
- documentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于语义的网络文档智能检索架构,通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;将词与网络文档的相关性进行编码,作为网络文档‑词矩阵的元素;再将网络文档‑词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;低秩矩阵检索在所有网络文档中共同使用的常见单词;稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;利用关键词对网络文档进行语义检索。
Description
技术领域
本发明涉及一种基于语义的网络文档智能检索架构
背景技术
目前搜索引擎只针对文本进行搜索,还不能有效对音乐、图片和视频等多媒体文件进行搜索,原因主要是多媒体数据量太大;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和网络文档检索的方法遍历因特网信息空间。因特网上有数千种不同的数据类型,HTTP给每种要通过网络传输的对象都打上了名为MIME类型的数据格式标签。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。
URL是必要的,因为它是初始数据集的来源,这个过程中仍然会涉及到网络爬虫。然而,仅有这个初始数据集是不够的。可以将它们视作海量的原始数据,需要进一步地分类和提炼。这种提炼在资源描述框架(RDF)的帮助下完成。同一个词可以有不同的含义甚至不同的用法。这种歧义问题可以用本体(ONTOLOGY)-即含义的汇集来解决。
但基于URL、RDF、ONTOLOGY的语义搜索与主流网络兼容性不够。目前,最简单的方式是在网页中直接嵌入描述。要想让网页的结构更清晰,可使用HTML5中新的语义元素。这些元素可以为它们标注的内容赋予额外的含义。网络爬虫已经在检查一些HTML5的语义元素了,这样可以收集到它们索引的页面的更多信息。
网络搜索的数据往往是高维的,其维数甚至达到百万数量级。发现和利用高维数据中的低维结构,在网络搜索中显得尤为重要。另外,在网络搜索中,人们只能观察到少量元素,希望根据这些有限的信息,能够猜测出未看到的大量元素,从而恢复一个未知的低秩矩阵或近似低秩矩阵。
假定已知数据已排列成一高维数据或样本矩阵。估计一低维子空间的问题称为低秩矩阵逼近。当低秩矩阵或样本矩阵的某些元素被严重损坏时,能够自动识别被损坏的元素,精确地恢复原低秩矩阵。在网络搜索中,需要将一个数据矩阵分解为一个低秩矩阵与一个稀疏矩阵之和,并且希望同时恢复低秩矩阵与稀疏矩阵,以便于进行语义搜索。
本发明提供了一种基于语义的网络文档智能检索架构,通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;低秩矩阵检索在所有网络文档中共同使用的常见单词;稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;利用关键词对网络文档进行语义检索。
发明内容
本发明的目的在于提供一种基于语义的网络文档智能检索架构。本发明包括以下特征:
发明技术方案
1.一种基于语义的网络文档智能检索架构,其具体步骤如下:
1)通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;
2)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
3)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
4)低秩矩阵检索在所有网络文档中共同使用的常见单词;
5)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;
6)利用关键词对网络文档进行语义检索。
附图说明
附图1是基于语义的网络文档智能检索架构图。
具体实施方式
这种基于语义的网络文档智能检索架构,包括如下步骤特征:
1)通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;
2)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
3)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
4)低秩矩阵检索在所有网络文档中共同使用的常见单词;
5)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;
6)利用关键词对网络文档进行语义检索。
Claims (1)
1.一种基于语义的网络文档智能检索架构,其具体步骤如下:
1)通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;
2)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
3)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
4)低秩矩阵检索在所有网络文档中共同使用的常见单词;
5)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;
6)利用关键词对网络文档进行语义检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710504510.6A CN107330044A (zh) | 2017-06-29 | 2017-06-29 | 一种基于语义的网络文档智能检索架构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710504510.6A CN107330044A (zh) | 2017-06-29 | 2017-06-29 | 一种基于语义的网络文档智能检索架构 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107330044A true CN107330044A (zh) | 2017-11-07 |
Family
ID=60197607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710504510.6A Pending CN107330044A (zh) | 2017-06-29 | 2017-06-29 | 一种基于语义的网络文档智能检索架构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107330044A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020156763A1 (en) * | 2000-03-22 | 2002-10-24 | Marchisio Giovanni B. | Extended functionality for an inverse inference engine based web search |
CN1470047A (zh) * | 2000-11-20 | 2004-01-21 | ���չ�˾ | 用于文档的向量分析方法 |
CN101388026A (zh) * | 2008-10-09 | 2009-03-18 | 浙江大学 | 一种基于领域本体的语义索引方法 |
CN101706812A (zh) * | 2009-11-24 | 2010-05-12 | 清华大学 | 一种文档的检索方法和装置 |
CN102024056A (zh) * | 2010-12-15 | 2011-04-20 | 中国科学院自动化研究所 | 利用计算机的基于多媒体分析的新闻人物检索方法 |
CN102214180A (zh) * | 2010-04-12 | 2011-10-12 | 无锡科利德斯科技有限公司 | 检索方法及其建立文本语义提取模型的方法 |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
US20120296891A1 (en) * | 2006-01-23 | 2012-11-22 | Clearwell Systems, Inc. | Methods and systems for automatic evaluation of electronic discovery review and productions |
CN104504087A (zh) * | 2014-12-25 | 2015-04-08 | 中国科学院电子学研究所 | 一种基于低秩分解的精细主题挖掘方法 |
CN106484797A (zh) * | 2016-09-22 | 2017-03-08 | 北京工业大学 | 基于稀疏学习的突发事件摘要抽取方法 |
-
2017
- 2017-06-29 CN CN201710504510.6A patent/CN107330044A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020156763A1 (en) * | 2000-03-22 | 2002-10-24 | Marchisio Giovanni B. | Extended functionality for an inverse inference engine based web search |
CN1470047A (zh) * | 2000-11-20 | 2004-01-21 | ���չ�˾ | 用于文档的向量分析方法 |
US20120296891A1 (en) * | 2006-01-23 | 2012-11-22 | Clearwell Systems, Inc. | Methods and systems for automatic evaluation of electronic discovery review and productions |
CN101388026A (zh) * | 2008-10-09 | 2009-03-18 | 浙江大学 | 一种基于领域本体的语义索引方法 |
CN101706812A (zh) * | 2009-11-24 | 2010-05-12 | 清华大学 | 一种文档的检索方法和装置 |
CN102214180A (zh) * | 2010-04-12 | 2011-10-12 | 无锡科利德斯科技有限公司 | 检索方法及其建立文本语义提取模型的方法 |
CN102024056A (zh) * | 2010-12-15 | 2011-04-20 | 中国科学院自动化研究所 | 利用计算机的基于多媒体分析的新闻人物检索方法 |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
CN104504087A (zh) * | 2014-12-25 | 2015-04-08 | 中国科学院电子学研究所 | 一种基于低秩分解的精细主题挖掘方法 |
CN106484797A (zh) * | 2016-09-22 | 2017-03-08 | 北京工业大学 | 基于稀疏学习的突发事件摘要抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170242934A1 (en) | Methods for integrating semantic search, query, and analysis and devices thereof | |
US8402021B2 (en) | Providing posts to discussion threads in response to a search query | |
US9471874B2 (en) | Mining forums for solutions to questions and scoring candidate answers | |
CN102164186B (zh) | 一种实现云搜索服务的方法及系统 | |
CN103218431B (zh) | 一种能识别网页信息自动采集的系统 | |
US20110282860A1 (en) | Data collection, tracking, and analysis for multiple media including impact analysis and influence tracking | |
US8086953B1 (en) | Identifying transient portions of web pages | |
CN103491089B (zh) | 一种基于http的数据还原中的转码方法及系统 | |
CN106611008B (zh) | 一种互联网内容标签的管理方法及装置 | |
CN104951544A (zh) | 用户数据处理方法、用户数据的提供方法和系统 | |
CN103324622A (zh) | 一种自动生成首页摘要的方法及装置 | |
CN102411617B (zh) | 一种对海量url进行存储和查询方法 | |
US20150120708A1 (en) | Information aggregation, classification and display method and system | |
CN103617174A (zh) | 一种基于云计算的分布式搜索方法 | |
CN103399855B (zh) | 基于多数据源的行为意图确定方法及装置 | |
CN106528688B (zh) | 一种针对Twitter的分析取证方法 | |
US20110225134A1 (en) | System and method for enhanced find-in-page functions in a web browser | |
US9563666B2 (en) | Unsupervised detection and categorization of word clusters in text data | |
US8949254B1 (en) | Enhancing the content and structure of a corpus of content | |
CN103853771B (zh) | 一种搜索结果的推送方法及系统 | |
US20110208707A1 (en) | System and method for enhanced find-in-page functions in a web browser | |
US8121991B1 (en) | Identifying transient paths within websites | |
CN101374307B (zh) | 一种移动设备中更新数字内容信息的方法及装置 | |
CN103646034A (zh) | 一种基于内容可信的Web搜索引擎系统及搜索方法 | |
JP5439100B2 (ja) | 文書解析システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171107 |