CN107330044A

CN107330044A - 一种基于语义的网络文档智能检索架构

Info

Publication number: CN107330044A
Application number: CN201710504510.6A
Authority: CN
Inventors: 张军; 陈晓峰; 戴建荣
Original assignee: Shanghai DC Science Co Ltd
Current assignee: Shanghai DC Science Co Ltd
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2017-11-07

Abstract

本发明公开一种基于语义的网络文档智能检索架构，通过METAFILE的关键词对URL进行索引，并与相关关键词建立映射；将词与网络文档的相关性进行编码，作为网络文档‑词矩阵的元素；再将网络文档‑词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和；低秩矩阵检索在所有网络文档中共同使用的常见单词；稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词；利用关键词对网络文档进行语义检索。

Description

一种基于语义的网络文档智能检索架构

技术领域

本发明涉及一种基于语义的网络文档智能检索架构

背景技术

目前搜索引擎只针对文本进行搜索，还不能有效对音乐、图片和视频等多媒体文件进行搜索，原因主要是多媒体数据量太大；如何索引多媒体文件；进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件，特别是社交网站和多媒体分享的兴起，需要对多媒体文件进行精准检索。

网络爬虫，也称网络蜘蛛、网络机器人，是一个自动提取网页的程序，它从因特网上下载网页，是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议，根据超级链接和网络文档检索的方法遍历因特网信息空间。因特网上有数千种不同的数据类型，HTTP给每种要通过网络传输的对象都打上了名为MIME类型的数据格式标签。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息，如针对搜索引擎和更新频度的描述和关键词，可针对元素的关键词进行索引。

URL是必要的，因为它是初始数据集的来源，这个过程中仍然会涉及到网络爬虫。然而，仅有这个初始数据集是不够的。可以将它们视作海量的原始数据，需要进一步地分类和提炼。这种提炼在资源描述框架(RDF)的帮助下完成。同一个词可以有不同的含义甚至不同的用法。这种歧义问题可以用本体(ONTOLOGY)-即含义的汇集来解决。

但基于URL、RDF、ONTOLOGY的语义搜索与主流网络兼容性不够。目前，最简单的方式是在网页中直接嵌入描述。要想让网页的结构更清晰，可使用HTML5中新的语义元素。这些元素可以为它们标注的内容赋予额外的含义。网络爬虫已经在检查一些HTML5的语义元素了，这样可以收集到它们索引的页面的更多信息。

网络搜索的数据往往是高维的，其维数甚至达到百万数量级。发现和利用高维数据中的低维结构，在网络搜索中显得尤为重要。另外，在网络搜索中，人们只能观察到少量元素，希望根据这些有限的信息，能够猜测出未看到的大量元素，从而恢复一个未知的低秩矩阵或近似低秩矩阵。

假定已知数据已排列成一高维数据或样本矩阵。估计一低维子空间的问题称为低秩矩阵逼近。当低秩矩阵或样本矩阵的某些元素被严重损坏时，能够自动识别被损坏的元素，精确地恢复原低秩矩阵。在网络搜索中，需要将一个数据矩阵分解为一个低秩矩阵与一个稀疏矩阵之和，并且希望同时恢复低秩矩阵与稀疏矩阵，以便于进行语义搜索。

本发明提供了一种基于语义的网络文档智能检索架构，通过METAFILE的关键词对URL进行索引，并与相关关键词建立映射；将词与网络文档的相关性进行编码，作为网络文档-词矩阵的元素；再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和；低秩矩阵检索在所有网络文档中共同使用的常见单词；稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词；利用关键词对网络文档进行语义检索。

发明内容

本发明的目的在于提供一种基于语义的网络文档智能检索架构。本发明包括以下特征：

发明技术方案

1.一种基于语义的网络文档智能检索架构，其具体步骤如下：

1)通过METAFILE的关键词对URL进行索引，并与相关关键词建立映射；

2)将词与网络文档的相关性进行编码，作为网络文档-词矩阵的元素；

3)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和；

4)低秩矩阵检索在所有网络文档中共同使用的常见单词；

5)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词；

6)利用关键词对网络文档进行语义检索。

附图说明

附图1是基于语义的网络文档智能检索架构图。

具体实施方式

这种基于语义的网络文档智能检索架构，包括如下步骤特征：

4)低秩矩阵检索在所有网络文档中共同使用的常见单词；

6)利用关键词对网络文档进行语义检索。

Claims

4)低秩矩阵检索在所有网络文档中共同使用的常见单词；

6)利用关键词对网络文档进行语义检索。