CN107239552A - 一种针对关键词的网络文档语义检索方法 - Google Patents
一种针对关键词的网络文档语义检索方法 Download PDFInfo
- Publication number
- CN107239552A CN107239552A CN201710426236.5A CN201710426236A CN107239552A CN 107239552 A CN107239552 A CN 107239552A CN 201710426236 A CN201710426236 A CN 201710426236A CN 107239552 A CN107239552 A CN 107239552A
- Authority
- CN
- China
- Prior art keywords
- network
- matrix
- network documentation
- keyword
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种针对关键词的网络文档语义检索方法,将词与网络文档的相关性进行编码,作为网络文档‑词矩阵的元素;再将网络文档‑词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;低秩矩阵检索在所有网络文档中共同使用的常见单词;稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词,以实现精准检索。
Description
技术领域
本发明涉及一种针对关键词的网络文档语义检索方法
背景技术
目前搜索引擎只针对文本进行搜索,还不能有效对音乐、图片和视频等多媒体文件进行搜索,原因主要是多媒体数据量太大;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和网络文档检索的方法遍历因特网信息空间。因特网上有数千种不同的数据类型,HTTP给每种要通过网络传输的对象都打上了名为MIME类型的数据格式标签。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。
网络搜索的数据往往是高维的,其维数甚至达到百万数量级。发现和利用高维数据中的低维结构,在网络搜索中显得尤为重要。另外,在网络搜索中,人们只能观察到少量元素,希望根据这些有限的信息,能够猜测出未看到的大量元素,从而恢复一个未知的低秩矩阵或近似低秩矩阵。
假定已知数据已排列成一高维数据或样本矩阵。估计一低维子空间的问题称为低秩矩阵逼近。当低秩矩阵或样本矩阵的某些元素被严重损坏时,能够自动识别被损坏的元素,精确地恢复原低秩矩阵。在网络搜索中,需要将一个数据矩阵分解为一个低秩矩阵与一个稀疏矩阵之和,并且希望同时恢复低秩矩阵与稀疏矩阵。
本发明提供了一种针对关键词的网络文档语义检索方法,将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;低秩矩阵检索在所有网络文档中共同使用的常见单词;稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词,以实现精准检索。
发明内容
本发明的目的在于提供一种针对关键词的网络文档语义检索方法。本发明包括以下特征:
发明技术方案
1.一种针对关键词的网络文档语义检索方法,其具体步骤如下:
1)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
2)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
3)低秩矩阵检索在所有网络文档中共同使用的常见单词;
4)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词。
附图说明
附图1是针对关键词的网络文档语义检索流程图。
具体实施方式
这种针对关键词的网络文档语义检索方法,包括如下步骤特征:
1)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
2)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
3)低秩矩阵检索在所有网络文档中共同使用的常见单词;
4)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词。
Claims (1)
1.一种针对关键词的网络文档语义检索方法,其具体步骤如下:
1)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;
2)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;
3)低秩矩阵检索在所有网络文档中共同使用的常见单词;
4)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710426236.5A CN107239552A (zh) | 2017-06-08 | 2017-06-08 | 一种针对关键词的网络文档语义检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710426236.5A CN107239552A (zh) | 2017-06-08 | 2017-06-08 | 一种针对关键词的网络文档语义检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107239552A true CN107239552A (zh) | 2017-10-10 |
Family
ID=59987472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710426236.5A Pending CN107239552A (zh) | 2017-06-08 | 2017-06-08 | 一种针对关键词的网络文档语义检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107239552A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020156763A1 (en) * | 2000-03-22 | 2002-10-24 | Marchisio Giovanni B. | Extended functionality for an inverse inference engine based web search |
CN1470047A (zh) * | 2000-11-20 | 2004-01-21 | ���չ�˾ | 用于文档的向量分析方法 |
CN101388026A (zh) * | 2008-10-09 | 2009-03-18 | 浙江大学 | 一种基于领域本体的语义索引方法 |
CN101706812A (zh) * | 2009-11-24 | 2010-05-12 | 清华大学 | 一种文档的检索方法和装置 |
CN102024056A (zh) * | 2010-12-15 | 2011-04-20 | 中国科学院自动化研究所 | 利用计算机的基于多媒体分析的新闻人物检索方法 |
CN102214180A (zh) * | 2010-04-12 | 2011-10-12 | 无锡科利德斯科技有限公司 | 检索方法及其建立文本语义提取模型的方法 |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
US20120296891A1 (en) * | 2006-01-23 | 2012-11-22 | Clearwell Systems, Inc. | Methods and systems for automatic evaluation of electronic discovery review and productions |
CN104504087A (zh) * | 2014-12-25 | 2015-04-08 | 中国科学院电子学研究所 | 一种基于低秩分解的精细主题挖掘方法 |
CN106484797A (zh) * | 2016-09-22 | 2017-03-08 | 北京工业大学 | 基于稀疏学习的突发事件摘要抽取方法 |
-
2017
- 2017-06-08 CN CN201710426236.5A patent/CN107239552A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020156763A1 (en) * | 2000-03-22 | 2002-10-24 | Marchisio Giovanni B. | Extended functionality for an inverse inference engine based web search |
CN1470047A (zh) * | 2000-11-20 | 2004-01-21 | ���չ�˾ | 用于文档的向量分析方法 |
US20120296891A1 (en) * | 2006-01-23 | 2012-11-22 | Clearwell Systems, Inc. | Methods and systems for automatic evaluation of electronic discovery review and productions |
CN101388026A (zh) * | 2008-10-09 | 2009-03-18 | 浙江大学 | 一种基于领域本体的语义索引方法 |
CN101706812A (zh) * | 2009-11-24 | 2010-05-12 | 清华大学 | 一种文档的检索方法和装置 |
CN102214180A (zh) * | 2010-04-12 | 2011-10-12 | 无锡科利德斯科技有限公司 | 检索方法及其建立文本语义提取模型的方法 |
CN102024056A (zh) * | 2010-12-15 | 2011-04-20 | 中国科学院自动化研究所 | 利用计算机的基于多媒体分析的新闻人物检索方法 |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
CN104504087A (zh) * | 2014-12-25 | 2015-04-08 | 中国科学院电子学研究所 | 一种基于低秩分解的精细主题挖掘方法 |
CN106484797A (zh) * | 2016-09-22 | 2017-03-08 | 北京工业大学 | 基于稀疏学习的突发事件摘要抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Soboroff et al. | Overview of the TREC-2012 Microblog Track. | |
US8806000B1 (en) | Identifying viral videos | |
US8630972B2 (en) | Providing context for web articles | |
US8347231B2 (en) | Methods, systems, and computer program products for displaying tag words for selection by users engaged in social tagging of content | |
US20090089286A1 (en) | Domain-aware snippets for search results | |
CN104850546B (zh) | 移动媒介信息的展示方法和系统 | |
US20190179965A1 (en) | Method and apparatus for generating information | |
CN102436564A (zh) | 一种识别被篡改网页的方法及装置 | |
KR20150083874A (ko) | 사용자 제출물들에 기초한 컨텐트 배달의 조절 | |
CN103617266A (zh) | 个性化扩展搜索方法及装置、系统 | |
US8086953B1 (en) | Identifying transient portions of web pages | |
CN104243273A (zh) | 即时通讯客户端显示信息的方法及设备和信息显示系统 | |
US11423096B2 (en) | Method and apparatus for outputting information | |
CN102567473A (zh) | 网络信息检索系统及检索方法 | |
US8572073B1 (en) | Spam detection for user-generated multimedia items based on appearance in popular queries | |
CN106528688B (zh) | 一种针对Twitter的分析取证方法 | |
CN103942328A (zh) | 一种视频检索方法及视频装置 | |
US20110225134A1 (en) | System and method for enhanced find-in-page functions in a web browser | |
CN102207967A (zh) | 一种自动提供浏览器新插件的方法和系统 | |
JP2008210042A (ja) | メタデータ転送装置、システム及び方法 | |
US9043320B2 (en) | Enhanced find-in-page functions in a web browser | |
CN113656737A (zh) | 网页内容展示方法、装置、电子设备以及存储介质 | |
US8121991B1 (en) | Identifying transient paths within websites | |
KR101614470B1 (ko) | 검색어 리스트 제공 장치 및 이를 이용한 방법 | |
CN107239552A (zh) | 一种针对关键词的网络文档语义检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171010 |