CN103064892B - 一种网络贴文标引系统及标引方法 - Google Patents

一种网络贴文标引系统及标引方法 Download PDF

Info

Publication number
CN103064892B
CN103064892B CN201210540674.1A CN201210540674A CN103064892B CN 103064892 B CN103064892 B CN 103064892B CN 201210540674 A CN201210540674 A CN 201210540674A CN 103064892 B CN103064892 B CN 103064892B
Authority
CN
China
Prior art keywords
literary composition
module
url
index
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210540674.1A
Other languages
English (en)
Other versions
CN103064892A (zh
Inventor
宋传宝
王树强
张作职
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Haina media big data technology development Co. Ltd.
Original Assignee
BEIJING HYLANDA SOFTWARE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING HYLANDA SOFTWARE TECHNOLOGY Co Ltd filed Critical BEIJING HYLANDA SOFTWARE TECHNOLOGY Co Ltd
Priority to CN201210540674.1A priority Critical patent/CN103064892B/zh
Publication of CN103064892A publication Critical patent/CN103064892A/zh
Application granted granted Critical
Publication of CN103064892B publication Critical patent/CN103064892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)

Abstract

本发明公开了一种网络贴文标引系统及标引方法。该系统包括贴文提供模块、背景信息提取模块、背景分析引擎、文本标引模块和标引融合模块;其中,背景信息提取模块用于分离网络贴文的背景信息和贴文内容,分别提供给背景分析引擎和文本标引模块进行标引,背景分析引擎和文本标引模块的标引结果送入标引融合模块中进行融合,作为网络贴文的最终标引结果。本发明融合文本标引模块的标引结果和背景分析引擎的标引结果,对网络贴文的标引不再仅仅依据贴文内容本身,而是通过对网络贴文其他背景信息的标引得到其隐含的语义,使得相应的标引结果更加全面准确。

Description

一种网络贴文标引系统及标引方法
技术领域
本发明涉及一种对网络贴文进行自动标引的系统,同时也涉及该系统实现网络贴文标引的方法,属于网页信息采集技术领域。
背景技术
通过计算机对目标文本进行自动分析,根据词在目标文本中出现的特点,选择一部分词作为标引词,把目标文本转化成二次文献。这种过程称为自动标引(automatic indexing)。目前,现有自动标引技术采用了多种技术方法实现,总体上可分为统计分析方法、语言分析方法、人工智能方法和混合方法。其中,绝大部分方法是基于抽词思想实现的,同时标引范围往往仅限于目标文本本身。
在申请号为201010168526.2的中国专利申请中,公开了一种基于知识网络的文本标引系统及其方法。该文本标引系统包括单文本特征提取单元、多文本词关系提取单元、知识树生成单元、知识树应用单元以及知识库存储单元。对于输入文本标引系统的文本,首先进行分词,获取文本中的文本特征词;根据文本特征词所对应的知识树的节点位置,推演出该文本对应的类别词;在类别词的基础上,通过判别式模型对类别词的合法性进行判定,由此提炼出可靠的类别词词集,再通过可靠的类别词词集对文本特征词词集进行重新定位,形成可靠的文本特征词词集。该技术方案可以使内容词提取、类别标注和短语的提取一体化,因此提取的效果能够互相促进;各个词的语义通过知识网络的节点得以表现,从而减少歧义的发生。
另外,在专利号为ZL 200910061711.9的中国发明专利中,提供了一种引文自动标引方法,包括以下步骤:步骤1,对提交文档进行切割得到文本块,对文本块提取特征词句串或信息指纹;然后将特征词句串或信息指纹提交给检索引擎;步骤2,对于被提交的特征词句串或信息指纹,当检索引擎返回与特征词句串或信息指纹相应的搜索结果时,记录搜索结果作为相应文本块的引文出处,并记录文本块在文档中的终止位置,记录文本块的引文出处与终止位置的关联关系;步骤3,结合提交文档中已有引用标引和搜索结果去除重复的引文出处后,按照在提交文档中的位置前后关系对所有引文出处排序后进行标引。该发明克服了现有手工方法效率十分低下的弱点,提高了标引速度和准确性。
发明内容
本发明所要解决的技术问题在于提供一种网络贴文标引系统及标引方法。该技术方案充分利用网络贴文的背景信息,扩充标引范围,使得自动标引更加准确。
为实现上述的发明目的,本发明采用下述的技术方案:
一种网络贴文标引系统,包括贴文提供模块、背景信息提取模块、背景分析引擎、文本标引模块和标引融合模块;其中,
所述贴文提供模块连接背景信息提取模块,所述背景信息提取模块一方面连接所述背景分析引擎,另一方面连接所述文本标引模块;
所述背景分析引擎和所述文本标引模块分别与所述标引融合模块连接;
所述背景信息提取模块用于分离网络贴文的背景信息和贴文内容,分别提供给所述背景分析引擎和所述文本标引模块进行标引,所述背景分析引擎和所述文本标引模块的标引结果送入所述标引融合模块中进行融合,作为网络贴文的最终标引结果。
其中较优地,所述背景分析引擎中进一步包括URL背景库。
一种网络贴文标引方法,基于上述的网络贴文标引系统实现,包括如下步骤:
对于待标引的网络贴文,首先将所述网络贴文的背景信息和贴文内容进行分离,分别提供给背景分析引擎和文本标引模块进行标引;
将所述背景分析引擎和所述文本标引模块的标引结果进行融合,作为所述网络贴文的最终标引结果。
其中较优地,在所述背景分析引擎中,针对贴文内容中出现的URL地址,首先在URL背景库中进行查询;
如果在所述URL背景库中存在该URL地址,导出对应的标引结果后返回,如果在所述URL背景库中不存在该URL地址,打开该URL地址并萃取URL地址对应网页的主题和正文,对主题和正文进行文本标引,然后将标引结果及相应的URL地址存储至所述URL背景库。
其中较优地,所述背景信息包括但不限于网络贴文的发帖人ID、发帖时间、所处网络空间、所处地理空间以及贴文内容中的URL地址。
本发明融合文本标引模块的标引结果和背景分析引擎的标引结果,对网络贴文的标引不再仅仅依据贴文内容本身,而是通过对网络贴文其他背景信息的标引得到其隐含的语义,使得相应的标引结果更加全面准确。
附图说明
图1是本发明所提供的网络贴文标引系统的整体结构图;
图2显示了网络贴文背景信息的具体种类;
图3是背景分析引擎针对贴文内容中的URL地址进行标引的流程示意图。
具体实施方式
本发明所提供的网络贴文标引系统的技术特点在于通过对网络贴文背景信息的进一步检测准确标引网络贴文,以解决现有技术中网络贴文中背后隐藏信息不能检测的问题。为此,如图1所示,本发明所提供的网络贴文标引系统包括贴文提供模块、背景信息提取模块、背景分析引擎、文本标引模块和标引融合模块。其中,贴文提供模块连接背景信息提取模块,用于向背景信息提取模块提供待标引的网络贴文。背景信息提取模块用于分离网络贴文的背景信息和贴文内容,分别提供给背景分析引擎和文本标引模块。该背景信息提取模块一方面连接背景分析引擎,另一方面连接文本标引模块。背景分析引擎和文本标引模块分别与标引融合模块连接,其中背景分析引擎中进一步包括URL背景库,用于实现对背景信息的标引,文本标引模块用于实现对贴文内容的标引,两方面的标引结果送入标引融合模块中进行融合,作为该网络贴文的最终标引结果。
在本发明中,网络贴文作为网络贴文标引系统的系统输入,包含文本形式的贴文内容、发帖人ID、发帖时间、所处网络空间、所处地理空间以及贴文内容中的URL(统一资源定位符)地址等信息。如图2所示,发帖人ID、发帖时间、所处网络空间、所处地理空间以及贴文内容中的URL地址等属性信息作为网络贴文的背景信息,是背景分析引擎进一步分析的基础。而文本形式的贴文内容是文本标引模块进行分析的基础。
背景提取模块将网络贴文中的背景信息提取出来,作为背景分析引擎的输入。其中,贴文内容中的URL地址是背景分析引擎进一步读取分析的关键对象。背景分析引擎通过对上述背景信息进行进一步读取分析,对网络贴文进行背景标引。文本标引模块主要对网络贴文中的纯文本内容进行文本标引。该文本标引模块可以采用计算机自然语言处理领域的成熟算法,以软件或者固件方式实现,在此就不详细说明了。
图3显示了背景分析引擎针对贴文内容中的URL地址进行标引的基本流程。背景分析引擎针对贴文内容中出现的URL地址(即任务URL),首先在URL背景库中进行查询。如果在URL背景库中存在该URL地址,直接导出对应的标引结果后返回。如果在URL背景库中不存在该URL地址,打开该URL地址并萃取URL地址对应网页的主题和正文,由文本标引模块对主题和正文进行文本标引,然后将标引结果及相应的URL地址存储至URL背景库,返回。在上述步骤中,对网页主题和正文的萃取可以采用信息抽取领域的成熟技术实现,例如中国发明专利ZL 200810066432.7所介绍的互联网网页清洗方法等,在此就不具体说明了。
标引融合模块通过融合文本标引模块的标引结果和背景分析引擎的标引结果,作为网络贴文的最终标引结果。这样,对网络贴文的标引不再仅仅依据贴文内容本身,而是通过对网络贴文其他背景信息的标引得到其隐含的语义,使得相应的标引结果更加全面准确。
以上对本发明所提供的网络贴文标引系统及标引方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

Claims (5)

1.一种网络贴文标引系统,其特征在于包括贴文提供模块、背景信息提取模块、背景分析引擎、文本标引模块和标引融合模块;其中,
所述贴文提供模块连接背景信息提取模块,所述背景信息提取模块一方面连接所述背景分析引擎,另一方面连接所述文本标引模块;
所述背景分析引擎和所述文本标引模块分别与所述标引融合模块连接;
所述背景信息提取模块用于分离网络贴文的背景信息和贴文内容,分别提供给所述背景分析引擎和所述文本标引模块进行标引,所述背景分析引擎和所述文本标引模块的标引结果送入所述标引融合模块中进行融合,作为网络贴文的最终标引结果;其中,
所述背景信息包括但不限于网络贴文的发帖人ID、发帖时间、所处网络空间、所处地理空间以及贴文内容中的URL地址。
2.如权利要求1所述的网络贴文标引系统,其特征在于:
所述背景分析引擎中进一步包括URL背景库;所述背景分析引擎针对贴文内容中出现的URL地址,首先在URL背景库中进行查询;如果在所述URL背景库中存在该URL地址,导出对应的标引结果后返回,如果在所述URL背景库中不存在该URL地址,打开该URL地址并萃取URL地址对应网页的主题和正文,对主题和正文进行文本标引,然后将标引结果及相应的URL地址存储至所述URL背景库。
3.一种网络贴文标引方法,基于权利要求1或2所述的网络贴文标引系统实现,其特征在于:
对于待标引的网络贴文,首先将所述网络贴文的背景信息和贴文内容进行分离,分别提供给背景分析引擎和文本标引模块进行标引;
将所述背景分析引擎和所述文本标引模块的标引结果进行融合,作为所述网络贴文的最终标引结果。
4.如权利要求3所述的网络贴文标引方法,其特征在于:
在所述背景分析引擎中,针对贴文内容中出现的URL地址,首先在URL背景库中进行查询;
如果在所述URL背景库中存在该URL地址,导出对应的标引结果后返回,如果在所述URL背景库中不存在该URL地址,打开该URL地址并萃取URL地址对应网页的主题和正文,对主题和正文进行文本标引,然后将标引结果及相应的URL地址存储至所述URL背景库。
5.如权利要求3所述的网络贴文标引方法,其特征在于:
所述背景信息包括但不限于网络贴文的发帖人ID、发帖时间、所处网络空间、所处地理空间以及贴文内容中的URL地址。
CN201210540674.1A 2012-12-13 2012-12-13 一种网络贴文标引系统及标引方法 Active CN103064892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210540674.1A CN103064892B (zh) 2012-12-13 2012-12-13 一种网络贴文标引系统及标引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210540674.1A CN103064892B (zh) 2012-12-13 2012-12-13 一种网络贴文标引系统及标引方法

Publications (2)

Publication Number Publication Date
CN103064892A CN103064892A (zh) 2013-04-24
CN103064892B true CN103064892B (zh) 2016-11-16

Family

ID=48107522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210540674.1A Active CN103064892B (zh) 2012-12-13 2012-12-13 一种网络贴文标引系统及标引方法

Country Status (1)

Country Link
CN (1) CN103064892B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424252B (zh) * 2013-08-28 2017-12-15 北大方正集团有限公司 基于xml的文字信息处理方法和文字内容服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539904A (zh) * 2009-04-21 2009-09-23 武汉大学 一种引文自动标引方法
CN101676907A (zh) * 2008-09-16 2010-03-24 北京雷速科技有限公司 一种互联网资源定向获取方法及系统
CN102339290A (zh) * 2010-07-22 2012-02-01 北大方正集团有限公司 一种网页数据信息的定向采集方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6898592B2 (en) * 2000-12-27 2005-05-24 Microsoft Corporation Scoping queries in a search engine

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676907A (zh) * 2008-09-16 2010-03-24 北京雷速科技有限公司 一种互联网资源定向获取方法及系统
CN101539904A (zh) * 2009-04-21 2009-09-23 武汉大学 一种引文自动标引方法
CN102339290A (zh) * 2010-07-22 2012-02-01 北大方正集团有限公司 一种网页数据信息的定向采集方法及装置

Also Published As

Publication number Publication date
CN103064892A (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN108121829B (zh) 面向软件缺陷的领域知识图谱自动化构建方法
CN106326303B (zh) 一种口语语义解析系统及方法
CN109800284B (zh) 一种面向任务的非结构化信息智能问答系统构建方法
CN104679850B (zh) 地址结构化方法及装置
CN103324609B (zh) 文本校对装置和文本校对方法
CN104298662B (zh) 一种基于有机物命名实体的机器翻译方法及翻译系统
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN106777275A (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN109408642A (zh) 一种基于距离监督的领域实体属性关系抽取方法
CN104679867B (zh) 基于图的地址知识处理方法及装置
CN107392143A (zh) 一种基于svm文本分类的简历精确解析方法
CN103324626B (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN110909170B (zh) 兴趣点知识图谱构建方法、装置、电子设备及存储介质
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN102214166A (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN111177591A (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN109597895B (zh) 一种基于知识图谱的公文搜索方法
CN101149758A (zh) 搜索系统及搜索方法
CN102591475A (zh) 一种在线编辑器的内容输入方法及系统
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN104516949A (zh) 网页数据处理方法和装置、查询处理方法及问答系统
CN103678435A (zh) 一种药品规格数据相似度匹配方法
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20170221

Address after: 300000 Tianjin Binhai New Area in the new eco city anime Middle Road, building C1, No. 126, 101-134

Patentee after: Tianjin Haina media big data technology development Co. Ltd.

Address before: 100080 Beijing, Haidian District, West Zijin Digital Park, building 3, room 11, floor 1108

Patentee before: Beijing Hylanda Software Technology Co., Ltd.