CN104615728A - 一种网页正文提取方法及装置 - Google Patents

一种网页正文提取方法及装置 Download PDF

Info

Publication number
CN104615728A
CN104615728A CN201510066697.7A CN201510066697A CN104615728A CN 104615728 A CN104615728 A CN 104615728A CN 201510066697 A CN201510066697 A CN 201510066697A CN 104615728 A CN104615728 A CN 104615728A
Authority
CN
China
Prior art keywords
webpage
semantic chunk
extracted
semantic
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510066697.7A
Other languages
English (en)
Other versions
CN104615728B (zh
Inventor
李克学
范莹
戴鸿君
王传国
刘永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510066697.7A priority Critical patent/CN104615728B/zh
Publication of CN104615728A publication Critical patent/CN104615728A/zh
Application granted granted Critical
Publication of CN104615728B publication Critical patent/CN104615728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种网页正文提取方法及装置,该方法包括:提取待提取网页的所有语义块;将所述待提取网页均匀分割成多个区域块;对所有区域块进行预设个数次随机抽样;确定被抽中的区域块所在的语义块;计算出每个语义块的抽样分布概率;确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。本发明提供了一种网页正文提取方法及装置,能够提高提取网页正文的速度。

Description

一种网页正文提取方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种网页正文提取方法及装置。
背景技术
随着网页信息资源快速的发展,每天都会产生很多网页。网页中可以包括正文信息和一些广告信息。如何从网页中提取出正文,变得十分重要。
现有技术中,通过网页中标签之间的嵌套关系先从HTML(Hyper TextMark-up Language,超文本标记语言文件)网页中解析出DOM(DocumentObject Model,文件对象模型)树,然后遍历所有DOM树,依据正文信息在DOM树中的分布规律确定正文的位置。
通过上述描述可见,现有技术中提取网页正文的方法需要遍历所有DOM树,提取网页正文的速度较慢。
发明内容
有鉴于此,本发明提供了一种网页正文提取方法及装置,能够提高提取网页正文的速度。
本发明提供了一种网页正文提取方法,包括:
提取待提取网页的所有语义块;
将所述待提取网页均匀分割成多个区域块;
对所有区域块进行预设个数次随机抽样;
确定被抽中的区域块所在的语义块;
计算出每个语义块的抽样分布概率;
确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
进一步地,所述提取待提取网页的所有语义块,包括:
S1:对所述待提取网页的HTML源码建立文件对象模型DOM树;
S2:根据所述DOM树获得所述待提取网页的所有语义块。
进一步地,所述S2,包括:
S11:对所述DOM树进行页面分块,提取出所有的页面块;
S12:根据所述页面块,检测出页面块之间的所有分割条;
S13:根据所述分割条对所述页面块进行合并,得到合并后的页面块;
S14:获取合并后的页面块的内容相关度,判断当前页面块的内容相关度是否大于等于预设值,如果是,则确定当前页面块为语义块,否则,建立当前页面块的DOM树,返回步骤S11。
进一步地,在所述S1之前,还包括:
对所述待提取网页进行网页纠错,获得DOM树结构完整的待提取网页。
进一步地,还包括:记录每个语义块的坐标值和每个区域块的坐标值;
所述确定被抽中的区域块所在的语义块,包括:
根据所述每个语义块的坐标值和所述每个区域块的坐标值,确定被抽中的区域块所在的语义块。
另一方面,本发明提供了一种网页正文提取装置,包括:
提取单元,用于提取待提取网页的所有语义块;
分割单元,用于将所述待提取网页均匀分割成多个区域块;
抽样单元,用于对所有区域块进行预设个数次随机抽样;
语义块确定单元,用于确定被抽中的区域块所在的语义块;
计算单元,用于计算出每个语义块的抽样分布概率;
正文确定单元,用于确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
进一步地,所述提取单元,包括:
建立子单元,用于对所述待提取网页的HTML源码建立文件对象模型DOM树;
提取子单元,用于根据所述建立子单元建立的所述DOM树获得所述待提取网页的所有语义块。
进一步地,所述提取子单元,包括:
页面块提取子单元,用于对所述建立子单元建立的所述DOM树进行页面分块,提取出所有的页面块,并对判断子单元建立的所述DOM数进行页面分块,提取出所有页面块;
检测子单元,用于根据所述页面块提取子单元提取出的所述页面块,检测出页面块之间的所有分割条;
合并子单元,用于根据检测子单元检测出的所述分割条对所述页面块进行合并,得到合并后的页面块;
判断子单元,用于获取所述合并子单元得到的合并后的页面块的内容相关度,判断当前页面块的内容相关度是否大于等于预设值,当判断结果为是时,确定当前页面块为语义块,当判断结果为是时,建立当前页面块的DOM树,通知所述页面块提取子单元。
进一步地,还包括:
纠错子单元,用于对所述待提取网页进行网页纠错,获得DOM树结构完整的待提取网页。
进一步地,还包括:记录单元,用于记录每个语义块的坐标值和每个区域块的坐标值;
所述语义块确定单元,用于根据所述每个语义块的坐标值和所述每个区域块的坐标值,确定被抽中的区域块所在的语义块。
本发明提供了一种网页正文提取方法及装置,提取待提取网页的所有语义块,将所述待提取网页均匀分割成多个区域块,对区域块进行随机抽样,确定被抽中的区域块所在的语义块,计算出每个语义块的抽样分布概率,通过每个语义块的抽样分布概率来表征每个语义块的面积大小,当语义块的抽样分布概率大时,说明该语义块的面积较大,该语义块为网页正文所在的语义块的概率也大,当语义块的抽样分布概率大于等于预设概率时,则确定该语义块为网页正文所在的语义块,这种方法只需进行简单的随机抽样计算即可,无需对待提取网页的DOM树进行遍历,能够提高提取网页正文的速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种网页正文提取方法的流程图;
图2是本发明一实施例提供的一种网页正文提取装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种网页正文提取方法,该方法可以包括以下步骤:
步骤101:提取待提取网页的所有语义块;
步骤102:将所述待提取网页均匀分割成多个区域块;
步骤103:对所有区域块进行预设个数次随机抽样;
步骤104:确定被抽中的区域块所在的语义块;
步骤105:计算出每个语义块的抽样分布概率;
步骤106:确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
通过本发明实施例提供的一种网页正文提取方法,提取待提取网页的所有语义块,将所述待提取网页均匀分割成多个区域块,对区域块进行随机抽样,确定被抽中的区域块所在的语义块,计算出每个语义块的抽样分布概率,通过每个语义块的抽样分布概率来表征每个语义块的面积大小,当语义块的抽样分布概率大时,说明该语义块的面积较大,该语义块为网页正文所在的语义块的概率也大,当语义块的抽样分布概率大于等于预设概率时,则确定该语义块为网页正文所在的语义块,这种方法只需进行简单的随机抽样计算即可,无需对待提取网页的DOM树进行遍历,能够提高提取网页正文的速度。
为了能够更加准确的提取出待提取网页的所有语义块,所述提取待提取网页的所有语义块,包括:
S1:对所述待提取网页的HTML源码建立DOM树;
S2:根据所述DOM树获得所述待提取网页的所有语义块。
在一种可能的实现方式中,所述S2,包括:
S11:对所述DOM树进行页面分块,提取出所有的页面块;
S12:根据所述页面块,检测出页面块之间的所有分割条;
S13:根据所述分割条对所述页面块进行合并,得到合并后的页面块;
S14:获取合并后的页面块的内容相关度,判断当前页面块的内容相关度是否大于等于预设值,如果是,则确定当前页面块为语义块,否则,建立当前页面块的DOM树,返回步骤S11。
在该实现方式中,为了使得每个语义块中内容的相关性较高,需要保证每个输出的语义块的内容相关度较高。在输出语义块之前对每个合并后的页面块进行内容相关度的判断,当页面块的内容相关度大于等于预设值时,该页面块满足要求,确定该页面块为语义块;如果有合并后的页面块的内容相关度小于预设值,则继续对这类语义块进行页面分块,直到所有的页面块的内容相关度都大于等于预设值。另外,分割条包括横向和纵向的分割条。
由于HTML在编写过程中存在不规范现象,为了能够获得准确的DOM树,需要对待提取网页进行网页纠错,使待提取网页规范。在所述S1之前,还包括:
对所述待提取网页进行网页纠错,获得DOM树结构完整的待提取网页。
举例来说,所述对所述待提取网页进行网页纠错,包括:对所述待提取网页进行HTML标签补全、错误标签去除、脚本、代码注释去除。
为了能够准确的确定被抽中的区域块所在的语义块。该方法还包括:记录每个语义块的坐标值和每个区域块的坐标值;
所述确定被抽中的区域块所在的语义块,包括:
根据所述每个语义块的坐标值和所述每个区域块的坐标值,确定被抽中的区域块所在的语义块。
举例来说,待提取网页对应的多个区域块和语义块均为矩形,每个区域块和每个语义块均可以通过一条对角线上的两个顶点来确定。
另外,在步骤102中,可以根据预设的精确度将所述待提取网页均匀分割成多个区域块,从网页的横向和纵向对所述待提取网页进行分割。其中,为了提高每个语义块的抽样分布概率的准确度,区域块的大小越小越好。
本发明实施例提供了一种网页正文提取方法,该方法可以包括图中未示出的以下步骤:
步骤A1:提取待提取网页的所有4个语义块,分别是第一语义块、第二语义块、第三语义块、第四语义块;
步骤A2:将所述待提取网页均匀分割成多个区域块;
步骤A3:对所有区域块进行100次随机抽样;
步骤A4:确定被抽中的区域块所在的语义块;
步骤A5:计算出每个语义块的抽样分布概率;
举例来说,100次抽样中有70个区域块位于第一语义块中,则计算出第一语义块的抽样分布概率为0.7。
步骤A6:确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
举例来说,预设概率为0.6,其中,第一语义块的抽样分布概率为0.7,大于预设概率0.6,则确定第一语义块为网页正文所在的语义块。
本发明实施例还提供了一种网页正文提取装置,参见图2,该装置包括:
提取单元201,用于提取待提取网页的所有语义块;
分割单元202,用于将所述待提取网页均匀分割成多个区域块;
抽样单元203,用于对所有区域块进行预设个数次随机抽样;
语义块确定单元204,用于确定被抽中的区域块所在的语义块;
计算单元205,用于计算出每个语义块的抽样分布概率;
正文确定单元206,用于确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
为了能够更加准确的提取出待提取网页的所有语义块,所述提取单元201,包括:
建立子单元,用于对所述待提取网页的HTML源码建立文件对象模型DOM树;
提取子单元,用于根据所述建立子单元建立的所述DOM树获得所述待提取网页的所有语义块。
在一种可能的实现方式中,所述提取子单元,包括:
页面块提取子单元,用于对所述建立子单元建立的所述DOM树进行页面分块,提取出所有的页面块,并对判断子单元建立的所述DOM数进行页面分块,提取出所有页面块;
检测子单元,用于根据所述页面块提取子单元提取出的所述页面块,检测出页面块之间的所有分割条;
合并子单元,用于根据检测子单元检测出的所述分割条对所述页面块进行合并,得到合并后的页面块;
判断子单元,用于获取所述合并子单元得到的合并后的页面块的内容相关度,判断当前页面块的内容相关度是否大于等于预设值,当判断结果为是时,确定当前页面块为语义块,当判断结果为是时,建立当前页面块的DOM树,通知所述页面块提取子单元。
由于HTML在编写过程中存在不规范现象,为了能够获得准确的DOM树,需要对待提取网页进行网页纠错,使待提取网页规范。该装置还包括:
纠错子单元,用于对所述待提取网页进行网页纠错,获得DOM树结构完整的待提取网页。
为了能够准确的确定被抽中的区域块所在的语义块。该装置还包括:记录单元,用于记录每个语义块的坐标值和每个区域块的坐标值;
所述语义块确定单元,用于根据所述每个语义块的坐标值和所述每个区域块的坐标值,确定被抽中的区域块所在的语义块。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供的一种网页正文提取方法及装置,具有如下有益效果:
1、通过本发明实施例提供的一种网页正文提取方法及装置,提取待提取网页的所有语义块,将所述待提取网页均匀分割成多个区域块,对区域块进行随机抽样,确定被抽中的区域块所在的语义块,计算出每个语义块的抽样分布概率,通过每个语义块的抽样分布概率来表征每个语义块的面积大小,当语义块的抽样分布概率大时,说明该语义块的面积较大,该语义块为网页正文所在的语义块的概率也大,当语义块的抽样分布概率大于等于预设概率时,则确定该语义块为网页正文所在的语义块,这种方法只需进行简单的随机抽样计算即可,无需对待提取网页的DOM树进行遍历,能够提高提取网页正文的速度。
2、通过本发明实施例提供的一种网页正文提取方法及装置,能够精确抽取网页正文信息,这种方法只需进行简单的随机抽样计算即可,无需对待提取网页的DOM树进行遍历,降低了提取网页正文的复杂度。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种网页正文提取方法,其特征在于,包括:
提取待提取网页的所有语义块;
将所述待提取网页均匀分割成多个区域块;
对所有区域块进行预设个数次随机抽样;
确定被抽中的区域块所在的语义块;
计算出每个语义块的抽样分布概率;
确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
2.根据权利要求1所述的方法,其特征在于,所述提取待提取网页的所有语义块,包括:
S1:对所述待提取网页的HTML源码建立文件对象模型DOM树;
S2:根据所述DOM树获得所述待提取网页的所有语义块。
3.根据权利要求2所述的方法,其特征在于,所述S2,包括:
S11:对所述DOM树进行页面分块,提取出所有的页面块;
S12:根据所述页面块,检测出页面块之间的所有分割条;
S13:根据所述分割条对所述页面块进行合并,得到合并后的页面块;
S14:获取合并后的页面块的内容相关度,判断当前页面块的内容相关度是否大于等于预设值,如果是,则确定当前页面块为语义块,否则,建立当前页面块的DOM树,返回步骤S11。
4.根据权利要求2所述的方法,其特征在于,在所述S1之前,还包括:
对所述待提取网页进行网页纠错,获得DOM树结构完整的待提取网页。
5.根据权利要求1-4任一所述的方法,其特征在于,还包括:记录每个语义块的坐标值和每个区域块的坐标值;
所述确定被抽中的区域块所在的语义块,包括:
根据所述每个语义块的坐标值和所述每个区域块的坐标值,确定被抽中的区域块所在的语义块。
6.一种网页正文提取装置,其特征在于,包括:
提取单元,用于提取待提取网页的所有语义块;
分割单元,用于将所述待提取网页均匀分割成多个区域块;
抽样单元,用于对所有区域块进行预设个数次随机抽样;
语义块确定单元,用于确定被抽中的区域块所在的语义块;
计算单元,用于计算出每个语义块的抽样分布概率;
正文确定单元,用于确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
7.根据权利要求6所述的装置,其特征在于,所述提取单元,包括:
建立子单元,用于对所述待提取网页的HTML源码建立文件对象模型DOM树;
提取子单元,用于根据所述建立子单元建立的所述DOM树获得所述待提取网页的所有语义块。
8.根据权利要求7所述的装置,其特征在于,所述提取子单元,包括:
页面块提取子单元,用于对所述建立子单元建立的所述DOM树进行页面分块,提取出所有的页面块,并对判断子单元建立的所述DOM数进行页面分块,提取出所有页面块;
检测子单元,用于根据所述页面块提取子单元提取出的所述页面块,检测出页面块之间的所有分割条;
合并子单元,用于根据检测子单元检测出的所述分割条对所述页面块进行合并,得到合并后的页面块;
判断子单元,用于获取所述合并子单元得到的合并后的页面块的内容相关度,判断当前页面块的内容相关度是否大于等于预设值,当判断结果为是时,确定当前页面块为语义块,当判断结果为是时,建立当前页面块的DOM树,通知所述页面块提取子单元。
9.根据权利要求7所述的装置,其特征在于,还包括:
纠错子单元,用于对所述待提取网页进行网页纠错,获得DOM树结构完整的待提取网页。
10.根据权利要求6-9任一所述的装置,其特征在于,还包括:记录单元,用于记录每个语义块的坐标值和每个区域块的坐标值;
所述语义块确定单元,用于根据所述每个语义块的坐标值和所述每个区域块的坐标值,确定被抽中的区域块所在的语义块。
CN201510066697.7A 2015-02-09 2015-02-09 一种网页正文提取方法及装置 Active CN104615728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510066697.7A CN104615728B (zh) 2015-02-09 2015-02-09 一种网页正文提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510066697.7A CN104615728B (zh) 2015-02-09 2015-02-09 一种网页正文提取方法及装置

Publications (2)

Publication Number Publication Date
CN104615728A true CN104615728A (zh) 2015-05-13
CN104615728B CN104615728B (zh) 2018-02-23

Family

ID=53150170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510066697.7A Active CN104615728B (zh) 2015-02-09 2015-02-09 一种网页正文提取方法及装置

Country Status (1)

Country Link
CN (1) CN104615728B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512225A (zh) * 2015-11-30 2016-04-20 北大方正集团有限公司 一种从网页中提取主要内容的方法及装置
CN105868363A (zh) * 2016-03-29 2016-08-17 中国农业银行股份有限公司 一种基于模糊逻辑的网页页面正文抽取方法及系统
CN106446139A (zh) * 2016-09-20 2017-02-22 微梦创科网络科技(中国)有限公司 一种提取网页内容的方法及装置
CN108228641A (zh) * 2016-12-21 2018-06-29 中国移动通信集团辽宁有限公司 网页数据分析的方法、设备和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
US20120284616A1 (en) * 2006-12-08 2012-11-08 Miguel Melnyk Content Adaptation
CN102779170A (zh) * 2012-06-25 2012-11-14 北京奇虎科技有限公司 一种识别网页正文楼层的系统和方法
CN103309924A (zh) * 2012-03-08 2013-09-18 三星电子株式会社 用于提取网页上主体的方法和设备
US20140359413A1 (en) * 2013-05-28 2014-12-04 Tencent Technology (Shenzhen) Company Limited Apparatuses and methods for webpage content processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120284616A1 (en) * 2006-12-08 2012-11-08 Miguel Melnyk Content Adaptation
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
CN103309924A (zh) * 2012-03-08 2013-09-18 三星电子株式会社 用于提取网页上主体的方法和设备
CN102779170A (zh) * 2012-06-25 2012-11-14 北京奇虎科技有限公司 一种识别网页正文楼层的系统和方法
US20140359413A1 (en) * 2013-05-28 2014-12-04 Tencent Technology (Shenzhen) Company Limited Apparatuses and methods for webpage content processing

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512225A (zh) * 2015-11-30 2016-04-20 北大方正集团有限公司 一种从网页中提取主要内容的方法及装置
CN105868363A (zh) * 2016-03-29 2016-08-17 中国农业银行股份有限公司 一种基于模糊逻辑的网页页面正文抽取方法及系统
CN105868363B (zh) * 2016-03-29 2018-12-14 中国农业银行股份有限公司 一种基于模糊逻辑的网页页面正文抽取方法及系统
CN106446139A (zh) * 2016-09-20 2017-02-22 微梦创科网络科技(中国)有限公司 一种提取网页内容的方法及装置
CN108228641A (zh) * 2016-12-21 2018-06-29 中国移动通信集团辽宁有限公司 网页数据分析的方法、设备和系统

Also Published As

Publication number Publication date
CN104615728B (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN109145216B (zh) 网络舆情监控方法、装置及存储介质
CN102541874B (zh) 网页正文内容提取方法及装置
CN105183801A (zh) 网页正文抽取方法及装置
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN103279475B (zh) 一种web应用系统内容变更的检测方法及系统
CN103838796A (zh) 一种网页结构化信息抽取方法
CN104978438A (zh) 基于日志的实时分析方法及系统
CN103164515B (zh) 计算机系统涉密文件知识库搜索方法
CN104615728A (zh) 一种网页正文提取方法及装置
Hong et al. Information extraction for search engines using fast heuristic techniques
CN105022803A (zh) 一种提取网页正文内容的方法及系统
CN110134963A (zh) 一种文本挖掘应用于道路交通事故数据处理的方法
CN105095091B (zh) 一种基于倒排索引技术的软件缺陷代码文件定位方法
CN103699591A (zh) 一种基于示例页面的网页正文提取方法
CN110196848A (zh) 一种面向公共资源交易数据的清洗去重方法及其系统
CN102591612A (zh) 一种基于标点连续性的通用网页正文提取方法及其系统
CN102117289A (zh) 一种从网页中抽取评论内容的方法和装置
CN111552800A (zh) 摘要生成方法、装置、电子设备及介质
CN113568841A (zh) 一种针对小程序的风险检测方法、装置及设备
CN103365879A (zh) 一种用于获取页面相似度的方法与设备
CN103942211A (zh) 一种正文页的识别方法及装置
CN112232075A (zh) 基于时间格式和网页元素特征的文章发布时间识别方法
EP2713287A1 (en) Network comment collection method and system
CN117093260B (zh) 一种基于决策树分类算法的融合模型网站结构解析方法
CN104572787A (zh) 伪原创网站的识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180806

Address after: 250100 S06 tower, 1036, Chao Lu Road, hi tech Zone, Ji'nan, Shandong.

Patentee after: Shandong wave cloud Mdt InfoTech Ltd

Address before: No. 1036, Shandong high tech Zone wave road, Ji'nan, Shandong

Patentee before: Inspur Group Co., Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Patentee after: Inspur cloud Information Technology Co., Ltd

Address before: 250100 Ji'nan science and technology zone, Shandong high tide Road, No. 1036 wave of science and Technology Park, building S06

Patentee before: SHANDONG LANGCHAO YUNTOU INFORMATION TECHNOLOGY Co.,Ltd.