CN107239552A - 一种针对关键词的网络文档语义检索方法 - Google Patents

一种针对关键词的网络文档语义检索方法 Download PDF

Info

Publication number
CN107239552A
CN107239552A CN201710426236.5A CN201710426236A CN107239552A CN 107239552 A CN107239552 A CN 107239552A CN 201710426236 A CN201710426236 A CN 201710426236A CN 107239552 A CN107239552 A CN 107239552A
Authority
CN
China
Prior art keywords
network
matrix
network documentation
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710426236.5A
Other languages
English (en)
Inventor
张军
徐苛
陈晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai DC Science Co Ltd
Original Assignee
Shanghai DC Science Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai DC Science Co Ltd filed Critical Shanghai DC Science Co Ltd
Priority to CN201710426236.5A priority Critical patent/CN107239552A/zh
Publication of CN107239552A publication Critical patent/CN107239552A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种针对关键词的网络文档语义检索方法,将词与网络文档的相关性进行编码,作为网络文档‑词矩阵的元素;再将网络文档‑词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;低秩矩阵检索在所有网络文档中共同使用的常见单词;稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词,以实现精准检索。

Description

一种针对关键词的网络文档语义检索方法
技术领域
本发明涉及一种针对关键词的网络文档语义检索方法
背景技术
目前搜索引擎只针对文本进行搜索,还不能有效对音乐、图片和视频等多媒体文件进行搜索,原因主要是多媒体数据量太大;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和网络文档检索的方法遍历因特网信息空间。因特网上有数千种不同的数据类型,HTTP给每种要通过网络传输的对象都打上了名为MIME类型的数据格式标签。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。
网络搜索的数据往往是高维的,其维数甚至达到百万数量级。发现和利用高维数据中的低维结构,在网络搜索中显得尤为重要。另外,在网络搜索中,人们只能观察到少量元素,希望根据这些有限的信息,能够猜测出未看到的大量元素,从而恢复一个未知的低秩矩阵或近似低秩矩阵。
假定已知数据已排列成一高维数据或样本矩阵。估计一低维子空间的问题称为低秩矩阵逼近。当低秩矩阵或样本矩阵的某些元素被严重损坏时,能够自动识别被损坏的元素,精确地恢复原低秩矩阵。在网络搜索中,需要将一个数据矩阵分解为一个低秩矩阵与一个稀疏矩阵之和,并且希望同时恢复低秩矩阵与稀疏矩阵。
本发明提供了一种针对关键词的网络文档语义检索方法,将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;低秩矩阵检索在所有网络文档中共同使用的常见单词;稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词,以实现精准检索。
发明内容
本发明的目的在于提供一种针对关键词的网络文档语义检索方法。本发明包括以下特征:
发明技术方案
1.一种针对关键词的网络文档语义检索方法,其具体步骤如下:
1)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
2)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
3)低秩矩阵检索在所有网络文档中共同使用的常见单词;
4)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词。
附图说明
附图1是针对关键词的网络文档语义检索流程图。
具体实施方式
这种针对关键词的网络文档语义检索方法,包括如下步骤特征:
1)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
2)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
3)低秩矩阵检索在所有网络文档中共同使用的常见单词;
4)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词。

Claims (1)

1.一种针对关键词的网络文档语义检索方法,其具体步骤如下:
1)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
2)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
3)低秩矩阵检索在所有网络文档中共同使用的常见单词;
4)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词。
CN201710426236.5A 2017-06-08 2017-06-08 一种针对关键词的网络文档语义检索方法 Pending CN107239552A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710426236.5A CN107239552A (zh) 2017-06-08 2017-06-08 一种针对关键词的网络文档语义检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710426236.5A CN107239552A (zh) 2017-06-08 2017-06-08 一种针对关键词的网络文档语义检索方法

Publications (1)

Publication Number Publication Date
CN107239552A true CN107239552A (zh) 2017-10-10

Family

ID=59987472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710426236.5A Pending CN107239552A (zh) 2017-06-08 2017-06-08 一种针对关键词的网络文档语义检索方法

Country Status (1)

Country Link
CN (1) CN107239552A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156763A1 (en) * 2000-03-22 2002-10-24 Marchisio Giovanni B. Extended functionality for an inverse inference engine based web search
CN1470047A (zh) * 2000-11-20 2004-01-21 ���չ�˾ 用于文档的向量分析方法
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法
CN101706812A (zh) * 2009-11-24 2010-05-12 清华大学 一种文档的检索方法和装置
CN102024056A (zh) * 2010-12-15 2011-04-20 中国科学院自动化研究所 利用计算机的基于多媒体分析的新闻人物检索方法
CN102214180A (zh) * 2010-04-12 2011-10-12 无锡科利德斯科技有限公司 检索方法及其建立文本语义提取模型的方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
US20120296891A1 (en) * 2006-01-23 2012-11-22 Clearwell Systems, Inc. Methods and systems for automatic evaluation of electronic discovery review and productions
CN104504087A (zh) * 2014-12-25 2015-04-08 中国科学院电子学研究所 一种基于低秩分解的精细主题挖掘方法
CN106484797A (zh) * 2016-09-22 2017-03-08 北京工业大学 基于稀疏学习的突发事件摘要抽取方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156763A1 (en) * 2000-03-22 2002-10-24 Marchisio Giovanni B. Extended functionality for an inverse inference engine based web search
CN1470047A (zh) * 2000-11-20 2004-01-21 ���չ�˾ 用于文档的向量分析方法
US20120296891A1 (en) * 2006-01-23 2012-11-22 Clearwell Systems, Inc. Methods and systems for automatic evaluation of electronic discovery review and productions
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法
CN101706812A (zh) * 2009-11-24 2010-05-12 清华大学 一种文档的检索方法和装置
CN102214180A (zh) * 2010-04-12 2011-10-12 无锡科利德斯科技有限公司 检索方法及其建立文本语义提取模型的方法
CN102024056A (zh) * 2010-12-15 2011-04-20 中国科学院自动化研究所 利用计算机的基于多媒体分析的新闻人物检索方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN104504087A (zh) * 2014-12-25 2015-04-08 中国科学院电子学研究所 一种基于低秩分解的精细主题挖掘方法
CN106484797A (zh) * 2016-09-22 2017-03-08 北京工业大学 基于稀疏学习的突发事件摘要抽取方法

Similar Documents

Publication Publication Date Title
Soboroff et al. Overview of the TREC-2012 Microblog Track.
US8806000B1 (en) Identifying viral videos
US8630972B2 (en) Providing context for web articles
KR101527259B1 (ko) 검색 질의에 응답하여 디스커션 스레드에 대한 포스트를 제공하는 방법 및 시스템
US11055373B2 (en) Method and apparatus for generating information
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN103617266A (zh) 个性化扩展搜索方法及装置、系统
CN104243273A (zh) 即时通讯客户端显示信息的方法及设备和信息显示系统
US11423096B2 (en) Method and apparatus for outputting information
CN101477527A (zh) 一种检索多媒体资源的方法及装置
US20150120708A1 (en) Information aggregation, classification and display method and system
CN102567473A (zh) 网络信息检索系统及检索方法
CN106528688B (zh) 一种针对Twitter的分析取证方法
US20110225134A1 (en) System and method for enhanced find-in-page functions in a web browser
US9043320B2 (en) Enhanced find-in-page functions in a web browser
CN113656737A (zh) 网页内容展示方法、装置、电子设备以及存储介质
US8121991B1 (en) Identifying transient paths within websites
CN103064839A (zh) 一种Pdf全文在线检索方法
KR101614470B1 (ko) 검색어 리스트 제공 장치 및 이를 이용한 방법
KR101221096B1 (ko) 스팸 관리 장치 및 스팸 관리 방법
CN107239552A (zh) 一种针对关键词的网络文档语义检索方法
CN107220362A (zh) 一种针对网络文档的网络爬虫提取url并索引及与关键词映射的框架
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
US9208157B1 (en) Spam detection for user-generated multimedia items based on concept clustering
CN107330044A (zh) 一种基于语义的网络文档智能检索架构

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171010