CN108153851A - 一种基于规则和语义的通用论坛主题帖页面信息抽取方法 - Google Patents

一种基于规则和语义的通用论坛主题帖页面信息抽取方法 Download PDF

Info

Publication number
CN108153851A
CN108153851A CN201711397820.9A CN201711397820A CN108153851A CN 108153851 A CN108153851 A CN 108153851A CN 201711397820 A CN201711397820 A CN 201711397820A CN 108153851 A CN108153851 A CN 108153851A
Authority
CN
China
Prior art keywords
text
author
rule
time
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711397820.9A
Other languages
English (en)
Other versions
CN108153851B (zh
Inventor
刘磊
孙孟涛
徐文扬
陈天琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201711397820.9A priority Critical patent/CN108153851B/zh
Publication of CN108153851A publication Critical patent/CN108153851A/zh
Application granted granted Critical
Publication of CN108153851B publication Critical patent/CN108153851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于规则和语义的通用论坛主题帖页面信息抽取方法,用于对主题帖标题,作者,发帖时间和正文的提取,本发明抽取方法满足当今主流论坛的网页结构,克服传统爬虫需要针对不同网站分别设计而耗费的人工成本。

Description

一种基于规则和语义的通用论坛主题帖页面信息抽取方法
技术领域
本发明属于文本信息处理领域,具体是涉及一种基于规则和语义的通用论坛主题帖页面信息抽取方法。
背景技术
论坛的主题帖信息具有十分重要的价值。主题帖提供的信息远远大于论坛其他文本。数据分析师可以从海量论坛的主题帖中挖掘知识,分析网民的关注热点。论坛的页面信息采集一般通过网络信息采集器(也称网络爬虫)进行采集。采集到的页面一般利用Xpath,正则表达式,HTML解析等信息抽取规则进行匹配,进而抽取出论坛页面上的标题、正文、时间、作者等主贴信息。但是由于各个论坛的网页结构不同,一般需要对不同论坛设计不同的信息抽取规则,需要花费大量的人工成本。
本发明针对网络论坛的主题帖页面,基于规则和语义信息,结合正则表达式技术,提出并实现了一个自动获取主题帖信息的信息抽取方法和系统。此方法可以满足对论坛主贴信息的文本过滤和抽取,经过测试,可以获取超过50个不同类型的论坛信息,节省了人工设计成本,并保证准确率在合理的范围内。
发明内容
本发明通过对比论坛结构和文本的共性,提供一种基于规则和语义的通用论坛主题帖页面信息抽取方法,用于对主题帖标题、作者、发帖时间和正文的抽取,该方法满足当今主流论坛的网页结构,克服传统爬虫需要针对不同网站分别设计而耗费的人工成本。
为实现上述目的,本发明采用如下的技术方案:
一种基于规则和语义的通用论坛主题帖页面信息抽取方法,包括以下步骤:
步骤(1)主题帖形式化表示
建立二元组B=(T,S),T表示主题帖,S表示帖子结构,T=(T1,T2,T3,T4),T1为标题,T2为发帖时间,T3为作者,T4为正文;S=(S1,S2),S1为由上至下结构,S2为由左至右的帖子结构;
步骤(2)定义文本特征和语义词典
步骤(2.1)获取论坛页面源码及文本
针对每个帖子获取其全部源码记为H;通过正则表达式过滤全部标签只保留文本,将过滤后只含有文本的源代码记为H’,每个网页记为一个二元组(H,H’),web上所有论坛的主题帖即为:
Page=((H1,H′1),(H2,H′2)(Hn,H′n))
步骤(2.2)计算文本间距离
获取一个H′中所有文本,文本之间的两两距离计算公式如下:
Dist(a,b)=Index(a)-Index(b)
其中,a,b是两种文本,Index(*)是文本首字索引,
步骤(2.3)计算URL相似性
获取一个H中所有URL,URL之间的两两相似性计算方法如下:
Sim(a,b)=len(MaxStr(a,b))
其中a,b是两种类型文本,MaxStr(a,b)是指a,b的最大公共子串,若Sim>M则认为a,b具有相似性,否则不具有相似性,M为相似性阈值,
步骤(2.4)构建噪声词典
1、获取相同论坛的不同帖子J个,对这J个H′的每一行进行词频/句频统计。取词/句频最高的P个词/句构成噪声集,P为频数阈值,
2、H中含有超链接且长度小于K的文本加入噪声集,K为文本长度阈值,该集合定义为NF,每类论坛有且仅有一个NF集。
步骤(2.5)构建指示词典
初始化指示词典:将初始的指示词典定义为空集,
该集合定义为F,F的结构如下所示:
F=(T1:*,T2:*,T3:*,T4:*}
每个论坛有且仅有一个F集,
步骤(3)提取标题(T1)、时间(T2)、作者(T3)
步骤(3.1)提取标题(T1),其规则如下:
规则1:根据指示词典获取标题
规则2:根据Dom源码获取标题
规则3:根据过滤噪声获取标题
步骤(3.2)获取时间(T2),其规则如下:
规则1:根据指示词典获取时间,
规则2:根据正则表达式获取时间,
步骤(3.3)获取作者(T3),其规则如下:
规则1:根据指示词典获取作者,
规则2:根据Dom源码及正则表达式获取作者,
规则3:根据URL相似性获取作者,
规则4:根据过滤噪声获取作者,
步骤(4):获取T4
论坛通用结构如下所示:
1.主题帖外部结构
标题(主题帖标题)→主题帖→回复贴1→回复贴2→……→回复贴N,
2.主题帖内部结构
S1型主题帖内部结构
标题→作者时间正文,时间作者正文三个标签在DOM中互为兄弟节点,
S2型主题帖内部结构
标题→作者→时间正文,时间正文标签互为兄弟节点,
针对不同结构提取正文片断方法详述如下:
步骤(4.1)判断论坛结构
论坛结构为由上至下则作者与时间的文本距离小于等于Maxdist;论坛结构为由左至右则作者与时间的文本距离大于Maxdist。Maxdist是距离阈值,由此可以判断该论坛类型属于S1型还是S2型,
步骤(4.2)提取正文片段
步骤(4.2.1)针对由上至下型(S1)
1.扩充噪声集NF:这类论坛作者和时间通常会放在Dom树的同一个节点下,从作者所在节点,逐层遍历其父节点,若在两层父节点内发现时间,则把该父节点所包含的信息都加入噪声词,否则放弃寻找,
2.搜索正文片段:
规则1:不包含主题帖作者,标题,发帖时间的信息,如果文本含@符号,则作为正文片断,
规则2:不包含主题帖作者,标题,发帖时间的信息,且若去掉噪声集的词句、数字以及标点符号,剩余文本大于D个字,则保留作为正文片断。D为剩余字数阈值,
步骤(4.2.2)针对由左至右型(S2)
1.定位右栏:
S2类型的标签结构左栏为作者信息,右栏为发帖时间以及正文信息,以发帖时间为起点,依次查找其父节点是否包含作者名,重复此过程,直到查找到作者名,便可定位出右栏所对应的的根节点,
2.搜索正文片段:搜索正文片段方法与前者算法相同
规则1:不包含主题帖作者,标题,发帖时间的信息,如果文本含@符号,则作为正文片断,
规则2:不包含主题帖作者,标题,发帖时间的信息,且若去掉噪声集的词句、数字以及标点符号,剩余文本大于D个字,则保留作为正文片断,D为剩余字数阈值,
步骤(4.3)提取T4
两种论坛的正文片断提取结束,则可以提取正文全部内容,方法如下:
1.寻找正文片断的父节点直到包含发帖时间为止,
2.提取包含发帖时间节点的前一个节点的文本内容,
3.删除其中所有噪声集内的文本,
4.将剩余文本作为正文
步骤(4.4)扩充F
获取主题帖标题、时间、作者、正文后,若其对应标签前有词,且该词位于NF中,将该词对应加入F。
附图说明
图1为本发明的流程图;
图2天涯社区(S1型)示例;
图3哇哈论坛(S2型)示例。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步的详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明提供一种基于规则和语义的通用论坛主题帖页面信息抽取方法,包括以下步骤:
步骤(1)对主题帖进行形式化表示
建立二元组B=(T,S),T表示主题帖,S表示帖子结构。其中T=(T1,T2,T3,T4),T1为标题,T2为发帖时间,T3为作者,T4为正文;S=(S1,S2),S1为由上至下结构,如猫扑、虎扑、天涯社区等;S2为由左至右的帖子结构如六维空间、17173论坛、哇哈论坛等。
步骤(2)定义文本特征和语义词典
步骤(2.1)获取论坛页面源码及文本
针对每个帖子获取其全部源码记为H;通过正则表达式过滤全部标签只保留文本,将过滤后只含有文本的源代码记为H’。由此,每个网页记为一个二元组(H,H’),web上所有论坛的主题帖即为:
Page=((H1,H'1),(H2,H'2)(HniH'n))
步骤(2.2)计算文本间距离
获取一个H′中所有文本,文本之间的两两距离计算公式如下:
Dist(a,b)=Index(a)-Index(b)
其中a,b是两种文本,Index(*)是文本首字索引。
步骤(2.3)计算URL相似性
获取一个H中所有URL,URL之间的两两相似性计算方法如下:
Sim(a,b)=len(MaxStr(a,b))
其中a,b是两种类型文本,MaxStr(a,b)是指a,b的最大公共子串,若Sim>M则认为a,b具有相似性,否则不具有相似性,M为相似性阈值。
步骤(2.4)构建噪声词典
1.获取相同论坛的不同帖子J个,对这J个H′的每一行进行词频(句频)统计。取词(句)频最高的P个词(句)构成噪声集,P为频数阈值。
2.H中含有超链接且长度小于K的文本加入噪声集,K为文本长度阈值。
该集合定义为NF,每类论坛有且仅有一个NF集。
步骤(2.5)构建指示词典
初始化指示词典:将初始的指示词典定义为空集。
该集合定义为F,F的结构如下所示:
F={T1:*,T2:*,T3:*,T4:*}
每个论坛有且仅有一个F集。可以人工初始化F使信息采集效果更精确。
步骤(3)提取标题(T1)、时间(T2)、作者(T3)
步骤(3.1)提取标题(T1)
规则1:根据指示词典获取标题
判断网页中是否出现F中的词句,若存在则直接获取在该词句出现位置后且文本距离最近的内容。否则使用2。
规则2:根据网页的DOM源码获取标题
文档对象模型(DocumentObjectModel,简称DOM),在网页上,组织页面(或文档)的对象被组织在一个树形结构中,用来表示文档中对象的标准模型就称为DO搜索。H中源代码<head>标签下的<title>非空文本。否则,搜索源代码<body>标签下的<h1><h2><h3><title>的非空文本。否则使用3。
规则3:根据过滤噪声获取标题
H’中出现NF中的词句一律过滤。获取过滤后的H’中出现的第一个文本。
步骤(3.2)获取时间(T2)
规则1:根据指示词典获取时间,具体方法同上。否则使用2。
规则2:根据正则表达式获取时间
H’中时间具有较为统一的形式,通常会精确到分钟或秒。大多数论坛的时间表示均遵循一定规律:XXXX-XX-XX XX-XX-XX、X天(小时,分钟)前、前天、昨天等,设计正则表达式匹配:
[0-9]{2,4}[-年/][0-9]{1,2}[-月/][0-9]{1,2}日*[0-9]{1,2}:[0-9]{1,2}:*[0-9]{0,2}[今昨前1-9]*[天小分][时钟]*前**[0-9]{0,2}:*[0-9]{0,2}:*[0-9]{0,2}
为避免出现作者登陆时间、网页时间等,使用该方法需获取第一个出现在标题后的时间。
步骤(3.3)获取作者(T3)
规则1:根据指示词典获取作者,具体方法同上。否则使用2。
规则2:根据Dom源码及正则表达式获取作者
H中,作者的标签中通常含有英文author和username等。寻找标签名或属性包含正则表达式^auth|^us*e*r*_*name的标签,提取其文本内容。否则使用3。
规则3:根据URL相似性获取作者
H中,主题帖作者和回复帖作者,其URL有很多重叠部分,计算链接两两间的相似性。需满足如下规则:位于标题和时间之间,第一个具有相似性的链接对应的文本,不存在于NF中的文本作为主题帖作者。否则使用4。
规则4:根据过滤噪声获取作者
H’中出现NF中的词句一律过滤。过滤后,H’中位于标题和时间之间的文本作为作者,若该位置没有文本则将时间的后一个文本作为作者。
步骤4:获取T4
论坛存在不同种结构,通过分析,通用结构如下所示:
3.主题帖外部结构
标题(主题帖标题)→主题帖→回复贴1→回复贴2→……→回复贴N。
4.主题帖内部结构
S1型主题帖内部结构
标题→作者时间正文,时间作者正文三个标签在DOM中互为兄弟节点。
S2型主题帖内部结构
标题→作者→时间正文。时间正文标签互为兄弟节点。
针对不同结构提取正文片断方法略有不同,详述如下:
步骤(4.1)判断论坛结构
论坛结构为由上至下则作者与时间的文本距离小于等于Maxdist;论坛结构为由左至右则作者与时间的文本距离大于Maxdist。Maxdist是距离阈值。由此可以判断该论坛类型属于S1型还是S2型。
步骤(4.2)提取正文片段
步骤(4.2.1)针对由上至下型(S1)
3.扩充噪声集NF:这类论坛作者和时间通常会放在Dom树的同一个节点下,从作者所在节点,逐层遍历其父节点,若在两层父节点内发现时间,则把该父节点所包含的信息都加入噪声词,否则放弃寻找。
4.搜索正文片段:
规则1:不包含主题帖作者,标题,发帖时间的信息,如果文本含@符号,则作为正文片断。
规则2:不包含主题帖作者,标题,发帖时间的信息,且若去掉噪声集的词句、数字以及标点符号,剩余文本大于D个字,则保留作为正文片断。D为剩余字数阈值。
步骤(4.2.2)针对由左至右型(S2)
3.定位右栏:
S2类型的标签结构左栏为作者信息,因此作者名必定存在,右栏为发帖时间以及正文信息,因此以发帖时间为起点,依次查找其父节点是否包含作者名,重复此过程,直到查找到作者名,便可定位出右栏所对应的的根节点。
4.搜索正文片段:搜索正文片段方法与前者算法相同。
规则1:不包含主题帖作者,标题,发帖时间的信息,如果文本含@符号,
则作为正文片断。
规则2:不包含主题帖作者,标题,发帖时间的信息,且若去掉噪声集的词句、数字以及标点符号,剩余文本大于D个字,则保留作为正文片断。D为剩余字数阈值。
步骤(4.3)提取T4
两种论坛的正文片断提取结束,则可以提取正文全部内容。方法如下:
1.寻找正文片断的父节点直到包含发帖时间为止。
2.提取包含发帖时间节点的前一个节点的文本内容。
3.删除其中所有噪声集内的文本。
4.将剩余文本作为正文
步骤(4.4)扩充F
获取主题帖标题、时间、作者、正文后,若其对应标签前有词,且该词位于NF中,将该词对应加入F。
实施例1:
本发明提出的方法是依次按以下步骤实现的(以天涯社区和哇哈论坛为例,如图1、图2):
步骤(1)主题帖形式化表示
建立二元组B=(T,S),T表示主题帖,S表示帖子结构。其中T=(T1,T2,T3,T4);S=(S1,S2)。
步骤(2)定义文本特征和语义词典
步骤(2.1)获取论坛页面源码及文本
使用Python的urllib库针对每个帖子获取其全部源码记为H;通过正则表达式过滤全部标签只保留文本,将过滤后只含有文本的源代码记为H’。由此,将一个网页记为一个二元组(H,H’)。这两个帖子页面即为
Page=((H1,H′1),(H2,H′2))
步骤(2.2)计算文本间距离
获取一个H′中所有文本,计算文本之间的两两距离。
步骤(2.3)计算URL相似性
获取一个H中所有URL,计算URL之间的两两相似性,M相似性阈值取8。
步骤(2.4)构建噪声词典
获取相同论坛的不同帖子100个,对这100个H′的每一行进行词频(句频)统计。取词(句)频最高的P个词(句)构成噪声集,P取3,此时噪声词数远远大于3因为很多词句出现频数相同。
H中含有超链接且长度小于K的文本加入噪声集,K取5。
该集合定义为NF,每类论坛有且仅有一个NF集。如下表所示:
表1天涯社区和哇哈论坛的NF集
步骤(2.5)构建指示词典
初始化指示词典:将初始的指示词典定义为空集。
该集合定义为F,每个论坛有且仅有一个F集。
步骤(3)提取标题(T1)、时间(T2)、作者(T3)
步骤(3.1)提取标题(T1)
天涯社区跟据规则2:
在小县城置换了一套房子,买完以后,心里有点发虚,上来问问大家的意见
哇哈论坛根据规则2:
2016年11月3日欧冠波尔图vs布鲁日[其他荷兰语]
步骤(3.2)获取时间(T2)
天涯社区根据规则2:
2017-11-14 09:35:11
哇哈论坛根据规则2:
2016-11-3 20:54
步骤(3.3)获取作者(T3)
天涯社区根据规则3:
表2天涯社区相似URL和对应的文本
根据规则,要求必须处于标题与时间之间的第一个URL对应的文本作为作者,作者为啮缺。
哇哈论坛同理,根据规则3:
表3哇哈论坛相似URL和对应的文本
作者为阿聰。
步骤4:获取T4
步骤(4.1)判断论坛结构
论坛结构为由上至下则作者与时间的文本距离小于等于Maxdist;论坛结构为由左至右则作者与时间的文本距离大于Maxdist。Maxdist取40。
在之前的计算中已经得到标题、时间、作者和部分文本之间的距离,天涯社区和哇哈论坛的文本距离结果如下所示:
表4天涯社区和哇哈论坛的文本距离
由表4可以看出,根据作者-时间的距离阈值划分可以快速得到论坛结构是属于S1还是S2。
步骤(4.2)提取正文片段
步骤(4.2.1)针对由上至下型(S1)天涯社区
扩充噪声集NF:定位天涯社区作者节点和时间节点内的所有信息,将这些信息加入到NF中。
搜索正文片段:
通过规则2,搜素到天涯社区的正文片段。
步骤(4.2.2)针对由左至右型(S2)哇哈论坛
定位右栏:
通过时间节点向上回溯,回溯过程为时间节点→包含正文的节点→
包含作者的节点→停止。获取包含作者的节点的上一个节点,即包含正文的节点。
搜索正文片段:
通过规则2搜索到哇哈论坛的正文片段
步骤(4.3)提取T4
两种论坛的正文片断提取结束,提取正文全部内容。
正文片段→包含正文片段的节点→提取该节点文本→删除该节点内所有噪声集内容→得到正文。
步骤(4.4)扩充F
获取主题帖标题、时间、作者、正文后,若其对应标签前有词,且该词位于NF中,将该词对应加入F。
更新之后的F变为:
表5哇哈论坛的F
表6天涯社区的F
之后可以直接使用指示词典F进行信息抽取。有些词句可能没有语义关联性,但是在这些语句出现后会出现所需要的文本。
步骤(5)算法分析
本发明充分考虑了算法中的通用性。在测试中对于50个不同种类的论坛,对本发明算法测试结果进行分类讨论:
1.完全正确:获取的T1,T2,T3,T4完全正确
2.部分正确:获取出T1,T2,T3,T4的部分内容,算法的逻辑结构正确,定位正确,细节出现问题。
3.失败:定位不准确,造成逻辑混乱。
表7 50个论坛的测试结果
表7是针对50个不同的论坛进行测试的结果,其中40个测试结果完全正确,不需要更改,3个结果定位准确,但是需要加入更细节的规则,7个结果失败。7个失败的结果主要原因是超出S1,S2两种结构,这些结构不容易进行总结,不具通用性。针对S1,S2两种格式的论坛,准确率为93%。
表8人工初始化50个指示词典的测试结果
表8是针对人工设置了指示词,即取得待获取数据前最近的文本作为指导,构建指示词典F,通过这种方式获取的信息完全根据文本的顺序而不必分析Dom结构,因而取得了较高的准确率。

Claims (1)

1.一种基于规则和语义的通用论坛主题帖页面信息抽取方法,其特征在于,包括以下步骤:
步骤(1)主题帖形式化表示
建立二元组B=(T,S),T表示主题帖,S表示帖子结构,T=(T1,T2,T3,T4),T1为标题,T2为发帖时间,T3为作者,T4为正文;S=(S1,S2),S1为由上至下结构,S2为由左至右的帖子结构;
步骤(2)定义文本特征和语义词典
步骤(2.1)获取论坛页面源码及文本
针对每个帖子获取其全部源码记为H;通过正则表达式过滤全部标签只保留文本,将过滤后只含有文本的源代码记为H’,每个网页记为一个二元组(H,H’),web上所有论坛的主题帖即为:
Page=((H1,H′1),(H2,H′2)…(Hn,H′n))
步骤(2.2)计算文本间距离
获取一个H′中所有文本,文本之间的两两距离计算公式如下:
Dist(a,b)=Index(a)-Index(b)
其中,a,b是两种文本,Index(*)是文本首字索引,
步骤(2.3)计算URL相似性
获取一个H中所有URL,URL之间的两两相似性计算方法如下:
Sim(a,b)=len(MaxStr(a,b))
其中a,b是两种类型文本,MaxStr(a,b)是指a,b的最大公共子串,若Sim>M则认为a,b具有相似性,否则不具有相似性,M为相似性阈值,
步骤(2.4)构建噪声词典
1、获取相同论坛的不同帖子J个,对这J个H′的每一行进行词频/句频统计。取词/句频最高的P个词/句构成噪声集,P为频数阈值,
2、H中含有超链接且长度小于K的文本加入噪声集,K为文本长度阈值,该集合定义为NF,每类论坛有且仅有一个NF集。
步骤(2.5)构建指示词典
初始化指示词典:将初始的指示词典定义为空集,
该集合定义为F,F的结构如下所示:
F={T1:*,T2:*,T3:*,T4:*}
每个论坛有且仅有一个F集,
步骤(3)提取标题(T1)、时间(T2)、作者(T3)
步骤(3.1)提取标题(T1),其规则如下:
规则1:根据指示词典获取标题
规则2:根据Dom源码获取标题
规则3:根据过滤噪声获取标题
步骤(3.2)获取时间(T2),其规则如下:
规则1:根据指示词典获取时间,
规则2:根据正则表达式获取时间,
步骤(3.3)获取作者(T3),其规则如下:
规则1:根据指示词典获取作者,
规则2:根据Dom源码及正则表达式获取作者,
规则3:根据URL相似性获取作者,
规则4:根据过滤噪声获取作者,
步骤(4):获取T4
论坛通用结构如下所示:
1.主题帖外部结构
标题(主题帖标题)→主题帖→回复贴1→回复贴2→……→回复贴N,
2.主题帖内部结构
S1型主题帖内部结构
标题→作者时间正文,时间作者正文三个标签在DOM中互为兄弟节点,
S2型主题帖内部结构
标题→作者→时间正文,时间正文标签互为兄弟节点,
针对不同结构提取正文片断方法详述如下:
步骤(4.1)判断论坛结构
论坛结构为由上至下则作者与时间的文本距离小于等于Maxdist;论坛结构为由左至右则作者与时间的文本距离大于Maxdist。Maxdist是距离阈值,由此可以判断该论坛类型属于S1型还是S2型,
步骤(4.2)提取正文片段
步骤(4.2.1)针对由上至下型(S1)
1.扩充噪声集NF:这类论坛作者和时间通常会放在Dom树的同一个节点下,从作者所在节点,逐层遍历其父节点,若在两层父节点内发现时间,则把该父节点所包含的信息都加入噪声词,否则放弃寻找,
2.搜索正文片段:
规则1:不包含主题帖作者,标题,发帖时间的信息,如果文本含@符号,则作为正文片断,
规则2:不包含主题帖作者,标题,发帖时间的信息,且若去掉噪声集的词句、数字以及标点符号,剩余文本大于D个字,则保留作为正文片断。D为剩余字数阈值,
步骤(4.2.2)针对由左至右型(S2)
1.定位右栏:
S2类型的标签结构左栏为作者信息,右栏为发帖时间以及正文信息,以发帖时间为起点,依次查找其父节点是否包含作者名,重复此过程,直到查找到作者名,便可定位出右栏所对应的的根节点,
2.搜索正文片段:搜索正文片段方法与前者算法相同
规则1:不包含主题帖作者,标题,发帖时间的信息,如果文本含@符号,则作为正文片断,
规则2:不包含主题帖作者,标题,发帖时间的信息,且若去掉噪声集的词句、数字以及标点符号,剩余文本大于D个字,则保留作为正文片断,D为剩余字数阈值,
步骤(4.3)提取T4
两种论坛的正文片断提取结束,则可以提取正文全部内容,方法如下:
1.寻找正文片断的父节点直到包含发帖时间为止,
2.提取包含发帖时间节点的前一个节点的文本内容,
3.删除其中所有噪声集内的文本,
4.将剩余文本作为正文
步骤(4.4)扩充F
获取主题帖标题、时间、作者、正文后,若其对应标签前有词,且该词位于NF中,将该词对应加入F。
CN201711397820.9A 2017-12-21 2017-12-21 一种基于规则和语义的通用论坛主题帖页面信息抽取方法 Active CN108153851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711397820.9A CN108153851B (zh) 2017-12-21 2017-12-21 一种基于规则和语义的通用论坛主题帖页面信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711397820.9A CN108153851B (zh) 2017-12-21 2017-12-21 一种基于规则和语义的通用论坛主题帖页面信息抽取方法

Publications (2)

Publication Number Publication Date
CN108153851A true CN108153851A (zh) 2018-06-12
CN108153851B CN108153851B (zh) 2021-06-18

Family

ID=62465078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711397820.9A Active CN108153851B (zh) 2017-12-21 2017-12-21 一种基于规则和语义的通用论坛主题帖页面信息抽取方法

Country Status (1)

Country Link
CN (1) CN108153851B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920461A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型且含复杂关系的实体抽取方法及装置
CN109101491A (zh) * 2018-07-24 2018-12-28 湖南星汉数智科技有限公司 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质
CN111177522A (zh) * 2018-11-09 2020-05-19 百度在线网络技术(北京)有限公司 页面聚合方法、装置、计算机设备及存储介质
US11586824B2 (en) * 2019-10-07 2023-02-21 Royal Bank Of Canada System and method for link prediction with semantic analysis

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254014A (zh) * 2011-07-21 2011-11-23 华中科技大学 一种网页特征自适应的信息抽取方法
CN102750390A (zh) * 2012-07-05 2012-10-24 翁时锋 新闻网页要素自动提取方法
CN104933168A (zh) * 2015-06-30 2015-09-23 南京烽火星空通信发展有限公司 一种网页内容自动采集方法
US20150324598A1 (en) * 2014-05-06 2015-11-12 Arian Shams Method and System for Managing Uniquely Identifiable Bookmarklets
CN106776886A (zh) * 2016-11-29 2017-05-31 中国农业银行股份有限公司 一种网页页面正文内容抽取方法及装置
CN107239481A (zh) * 2017-04-12 2017-10-10 北京大学 一种面向多源网络百科的知识库构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254014A (zh) * 2011-07-21 2011-11-23 华中科技大学 一种网页特征自适应的信息抽取方法
CN102750390A (zh) * 2012-07-05 2012-10-24 翁时锋 新闻网页要素自动提取方法
US20150324598A1 (en) * 2014-05-06 2015-11-12 Arian Shams Method and System for Managing Uniquely Identifiable Bookmarklets
CN104933168A (zh) * 2015-06-30 2015-09-23 南京烽火星空通信发展有限公司 一种网页内容自动采集方法
CN106776886A (zh) * 2016-11-29 2017-05-31 中国农业银行股份有限公司 一种网页页面正文内容抽取方法及装置
CN107239481A (zh) * 2017-04-12 2017-10-10 北京大学 一种面向多源网络百科的知识库构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁健 等: "基于混合式的社区问答答案质量评价模型", 《计算机应用研究》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920461A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型且含复杂关系的实体抽取方法及装置
CN108920461B (zh) * 2018-06-26 2022-03-08 武大吉奥信息技术有限公司 一种多类型且含复杂关系的实体抽取方法及装置
CN109101491A (zh) * 2018-07-24 2018-12-28 湖南星汉数智科技有限公司 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质
CN109101491B (zh) * 2018-07-24 2021-12-17 湖南星汉数智科技有限公司 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质
CN111177522A (zh) * 2018-11-09 2020-05-19 百度在线网络技术(北京)有限公司 页面聚合方法、装置、计算机设备及存储介质
CN111177522B (zh) * 2018-11-09 2023-08-18 百度在线网络技术(北京)有限公司 页面聚合方法、装置、计算机设备及存储介质
US11586824B2 (en) * 2019-10-07 2023-02-21 Royal Bank Of Canada System and method for link prediction with semantic analysis

Also Published As

Publication number Publication date
CN108153851B (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
CN108153851A (zh) 一种基于规则和语义的通用论坛主题帖页面信息抽取方法
CN102254014B (zh) 一种网页特征自适应的信息抽取方法
CN102119385B (zh) 用于在内容检索服务系统内检索媒体内容的方法和子系统
CN106897559B (zh) 一种面向多数据源的症状体征类实体识别方法及装置
JP5010885B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN109634594A (zh) 一种考虑代码语句顺序信息的代码片段推荐方法
San Vicente et al. PaCo2: A Fully Automated tool for gathering Parallel Corpora from the Web.
CN111723265A (zh) 一种可扩展的新闻网站通用爬虫方法及系统
CN110020005A (zh) 一种病历中主诉和现病史中症状匹配方法
EP3764240B1 (en) Information search system and information search method using index
Spousta et al. Victor: the web-page cleaning tool
CN110909528A (zh) 剧本解析方法、剧本展示方法、装置和电子设备
CN112015871B (zh) 基于事件集远程监督的人物关系自动标注方法
Uszkoreit et al. From Strings to Things SAR-Graphs: A New Type of Resource for Connecting Knowledge and Language.
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及系统
Zhang et al. Boilerplate detection via semantic classification of TextBlocks
Faralli et al. Growing multi-domain glossaries from a few seeds using probabilistic topic models
CN109284364B (zh) 一种用于语音连麦互动的互动词汇更新方法及装置
CN112101034A (zh) 一种判别医学实体的属性的方法、装置及相关产品
CN112131862B (zh) 一种中医医案数据处理方法、装置及电子设备
CN103440342A (zh) 基于网页类型的信息推送方法和装置
Li et al. Combining machine learning with dictionary lookup for chemical compound and drug name recognition task
Chatterjee et al. Co-occurrence graph based iterative bilingual lexicon extraction from comparable corpora

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant