CN112328928A - 一种基于结构序列的文本脉络抽取方法及系统 - Google Patents

一种基于结构序列的文本脉络抽取方法及系统 Download PDF

Info

Publication number
CN112328928A
CN112328928A CN202011361478.9A CN202011361478A CN112328928A CN 112328928 A CN112328928 A CN 112328928A CN 202011361478 A CN202011361478 A CN 202011361478A CN 112328928 A CN112328928 A CN 112328928A
Authority
CN
China
Prior art keywords
venation
text
sequence
primary
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011361478.9A
Other languages
English (en)
Inventor
李钊
王瑞霜
陈通
卢凤
胡传会
魏静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Ecloud Information Technology Co ltd
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Shandong Ecloud Information Technology Co ltd
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Ecloud Information Technology Co ltd, Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Shandong Ecloud Information Technology Co ltd
Priority to CN202011361478.9A priority Critical patent/CN112328928A/zh
Publication of CN112328928A publication Critical patent/CN112328928A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于结构序列的文本脉络抽取方法及系统,本发明通过分析文本序列的组织结构,匹配文本序列的结构规则,抽取文本序列各结构的对应文本内容构成文本脉络,实现对各类结构化序列文本主干内容的有效抽取,相比现有技术中通过人工归纳总结大篇幅正文主干内容耗时费力且效率低的问题,本发明使得结构序列的文本脉络提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时具有较高的准确率。

Description

一种基于结构序列的文本脉络抽取方法及系统
技术领域
本发明涉及文本抽取领域,特别是一种基于结构序列的文本脉络抽取方法及系统。
背景技术
在当今互联网、大数据时代,信息、资讯大多通过互联网媒介进行传播,因此数据的激增使得在最短时间内过滤、获取有效内容信息,成为大数据时代的迫切需求。
针对大篇幅文本序列,传统方式是采用摘要的办法获取核心内容,但是由于中文文本摘要技术仍处于研究阶段,对各种来源的文本序列生成摘要效果较差,无法准确获取文章的核心内容。因此,亟需一种针对大篇幅文本的主干内容抽取方法。
发明内容
本发明的目的是提供一种基于结构序列的文本脉络抽取方法及系统,旨在解决现有技术中大篇幅文本无法准确获取文章核心内容的问题,实现快速、高效获取文章核心脉络,提高工作效率。
为达到上述技术目的,本发明提供了一种基于结构序列的文本脉络抽取方法,所述方法包括以下操作:
对网页中html代码进行处理,得到带有文本结构的完整段落层级的结构序列文本;
对具有完整段落层级的结构序列文本从一级脉络文本规则库中匹配序列文本对应的结构规则,根据匹配到的一级脉络规则将结构序列文本逐一进行正则匹配,输出满足一级脉络规则的文本序列及其索引,构造一级脉络存储的键值;
将一级脉络存储的结构序列文本从二级脉络文本规则库中匹配序列文本对应的结构规则,根据匹配的二级脉络规则将一级脉络存储中每个键的值逐一进行正则匹配,输出满足二级脉络规则的文本序列及其索引,构造二级脉络存储的键值;
整合一级脉络存储和二级脉络存储,将一级脉络中每个键的文本序列替换为二级脉络的对应文本序列键值,输出结构序列文本的完整文本脉络。
优选地,所述对网页中html代码进行处理具体为:
滤除html代码中部分标签,输出带有html结构的文本序列,根据文本序列创建html迭代器,并合并部分标签,得到合并后的html迭代器,遍历html迭代器的各个节点,得到各节点对应的文本内容。
优选地,所述一级脉络规则以及二级脉络规则均通过正则表达式进行表达。
优选地,所述构造一级脉络存储的键值具体为:
将满足一级脉络规则的文本序列及其索引一一对应,以文本序列作为一级脉络存储的键,结构序列文本中获取索引取值区间的文本作为一级脉络存储的值。
优选地,所述构造二级脉络存储的键值具体为:
将满足二级脉络规则的文本序列及其索引一一对应,以文本序列作为二级脉络存储的键,从一级脉络存储得到的结构序列文本中获取索引取值区间的文本作为二级脉络存储的值。
本发明还提供了一种基于结构序列的文本脉络抽取系统,所述系统包括:
结构序列文本获取模块,用于对网页中html代码进行处理,得到带有文本结构的完整段落层级的结构序列文本;
一级脉络构造模块,用于对具有完整段落层级的结构序列文本从一级脉络文本规则库中匹配序列文本对应的结构规则,根据匹配到的一级脉络规则将结构序列文本逐一进行正则匹配,输出满足一级脉络规则的文本序列及其索引,构造一级脉络存储的键值;
二级脉络构造模块,用于将一级脉络存储的结构序列文本从二级脉络文本规则库中匹配序列文本对应的结构规则,根据匹配的二级脉络规则将一级脉络存储中每个键的值逐一进行正则匹配,输出满足二级脉络规则的文本序列及其索引,构造二级脉络存储的键值;
两级脉络整合模块,用于整合一级脉络存储和二级脉络存储,将一级脉络中每个键的文本序列替换为二级脉络的对应文本序列键值,输出结构序列文本的完整文本脉络。
优选地,所述带有文本结构的完整段落层级的结构序列文本通过以下方式获得:
滤除html代码中部分标签,输出带有html结构的文本序列,根据文本序列创建html迭代器,并合并部分标签,得到合并后的html迭代器,遍历html迭代器的各个节点,得到各节点对应的文本内容。
优选地,所述一级脉络规则以及二级脉络规则均通过正则表达式进行表达。
优选地,所述一级脉络存储的键值具体为:
满足一级脉络规则的文本序列及其索引一一对应,以文本序列作为一级脉络存储的键,结构序列文本中获取索引取值区间的文本作为一级脉络存储的值。
优选地,所述二级脉络存储的键值具体为:
满足二级脉络规则的文本序列及其索引一一对应,以文本序列作为二级脉络存储的键,从一级脉络存储得到的结构序列文本中获取索引取值区间的文本作为二级脉络存储的值。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明通过分析文本序列的组织结构,匹配文本序列的结构规则,抽取文本序列各结构的对应文本内容构成文本脉络,实现对各类结构化序列文本主干内容的有效抽取,相比现有技术中通过人工归纳总结大篇幅正文主干内容耗时费力且效率低的问题,本发明使得结构序列的文本脉络提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时具有较高的准确率。
附图说明
图1为本发明实施例中所提供的一种基于结构序列的文本脉络抽取方法流程图;
图2为本发明实施例中所提供的一种基于结构序列的文本脉络抽取方法逻辑示意图;
图3为本发明实施例中所提供的一种基于结构序列的文本脉络抽取系统框图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种基于结构序列的文本脉络抽取方法及系统进行详细说明。
如图1、2所示,本发明公开了一种基于结构序列的文本脉络抽取方法,所述方法包括以下操作:
对网页中html代码进行处理,得到带有文本结构的完整段落层级的结构序列文本;
对具有完整段落层级的结构序列文本从一级脉络文本规则库中匹配序列文本对应的结构规则,根据匹配到的一级脉络规则将结构序列文本逐一进行正则匹配,输出满足一级脉络规则的文本序列及其索引,构造一级脉络存储的键值;
将一级脉络存储的结构序列文本从二级脉络文本规则库中匹配序列文本对应的结构规则,根据匹配的二级脉络规则将一级脉络存储中每个键的值逐一进行正则匹配,输出满足二级脉络规则的文本序列及其索引,构造二级脉络存储的键值;
整合一级脉络存储和二级脉络存储,将一级脉络中每个键的文本序列替换为二级脉络的对应文本序列键值,输出结构序列文本的完整文本脉络。
本发明实施例通过获取带有文本结构的互联网网页文本序列,从一级脉络文本规则库中匹配文本序列对应的结构规则,抽取文本一级脉络结构,再从二级脉络文本规则库中匹配文本序列各一级结构内容对应的二级脉络结构规则,抽取文本二级脉络结构,通过对一级脉络、二级脉络结构内容的抽取,输出结构化序列文本主干内容。
对网页中结构序列文本对应的html代码进行处理,输出具有完整段落层级的结构序列文本,具体过程如下:
将结构序列文本对应的html代码中的<style>、<scripts>、<comments>、<javascript>滤除,输出带有html结构的文本序列。将带有html结构的文本序列运用元素树elementTree方法创建html迭代器,输出结构序列文本html迭代器。将html迭代器中的<strong>、<span>、<b>、<font>标签进行合并,得到文本合并完整的html迭代器。遍历html迭代器的各个节点,得到各节点对应的文本内容,输出具有完整段落层级的结构序列文本。
将具有完整段落层级的结构序列文本,从一级脉络文本规则库中匹配文本序列对应的结构规则,输出文本一级脉络结构及内容,存储为一级脉络,具体过程如下:
对网页中结构序列文本对应的html代码进行处理,输出具有完整段落层级的结构序列文本通过人工总结、归纳结构序列文本的脉络规则,得到一级脉络规则,并总结为正则表达式,如表1所示:
表1
Figure BDA0002804093480000071
将结构序列文本和一级脉络规则中的每一条规则进行正则匹配,如果匹配成功,输出结构序列文本的一级脉络规则;若匹配失败,则没有文本一级脉络结构,直接输出具有完整段落层级的结构序列文本。根据匹配到的一级脉络规则将结构序列文本逐一进行正则匹配,并记录满足一级脉络规则的文本序列索引及其文本,输出文本序列、文本序列对应索引。将文本序列、文本序列对应索引进行一一对应,以文本序列作为一级脉络存储的键,结构序列文本中获取索引取值区间的文本作为一级脉络存储的值,输出一级脉络存储。
将输出的一级脉络存储,从二级脉络文本规则库中匹配文本序列对应的结构规则,输出文本二级脉络结构及内容,存储为二级脉络,具体过程如下:
构建二级脉络文本规则库,通过人工总结、归纳结构序列文本的脉络规则,得到二级脉络规则,并总结为正则表达式,如表2所示:
表2
Figure BDA0002804093480000072
将一级脉络存储中的文本与二级脉络规则中的每一条规则进行正则匹配,如果匹配成功,输出结构序列文本的二级脉络规则;如果匹配失败,则没有文本二级脉络结构,直接输出一级脉络存储。根据匹配到的二级脉络规则将一级脉络存储中每个键的值逐一进行正则匹配,并记录满足二级脉络规则的文本序列索引及其文本,输出文本序列、文本序列对应索引。将文本序列以及文本序列对应索引进行一一对应,以文本序列作为二级脉络存储的键,从一级脉络存储得到的结构序列文本中获取索引取值区间的文本作为二级脉络存储的值,输出二级脉络存储。
将一级脉络存储和二级脉络存储进行整合,将一级脉络中每个键的文本序列替换为二级脉络的对应文本序列键值,输出结构序列文本的完整文本脉络。
本发明实施例通过分析文本序列的组织结构,匹配文本序列的结构规则,抽取文本序列各结构的对应文本内容构成文本脉络,实现对各类结构化序列文本主干内容的有效抽取,相比现有技术中通过人工归纳总结大篇幅正文主干内容耗时费力且效率低的问题,本发明使得结构序列的文本脉络提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时具有较高的准确率。
如图3所示,本发明实施例还公开了一种基于结构序列的文本脉络抽取系统,所述系统包括:
结构序列文本获取模块,用于对网页中html代码进行处理,得到带有文本结构的完整段落层级的结构序列文本;
一级脉络构造模块,用于对具有完整段落层级的结构序列文本从一级脉络文本规则库中匹配序列文本对应的结构规则,根据匹配到的一级脉络规则将结构序列文本逐一进行正则匹配,输出满足一级脉络规则的文本序列及其索引,构造一级脉络存储的键值;
二级脉络构造模块,用于将一级脉络存储的结构序列文本从二级脉络文本规则库中匹配序列文本对应的结构规则,根据匹配的二级脉络规则将一级脉络存储中每个键的值逐一进行正则匹配,输出满足二级脉络规则的文本序列及其索引,构造二级脉络存储的键值;
两级脉络整合模块,用于整合一级脉络存储和二级脉络存储,将一级脉络中每个键的文本序列替换为二级脉络的对应文本序列键值,输出结构序列文本的完整文本脉络。
对网页中结构序列文本对应的html代码进行处理,输出具有完整段落层级的结构序列文本,具体过程如下:
将结构序列文本对应的html代码中的<style>、<scripts>、<comments>、<javascript>滤除,输出带有html结构的文本序列。将带有html结构的文本序列运用元素树elementTree方法创建html迭代器,输出结构序列文本html迭代器。将html迭代器中的<strong>、<span>、<b>、<font>标签进行合并,得到文本合并完整的html迭代器。遍历html迭代器的各个节点,得到各节点对应的文本内容,输出具有完整段落层级的结构序列文本。
将具有完整段落层级的结构序列文本,从一级脉络文本规则库中匹配文本序列对应的结构规则,输出文本一级脉络结构及内容,存储为一级脉络,具体过程如下:
对网页中结构序列文本对应的html代码进行处理,输出具有完整段落层级的结构序列文本通过人工总结、归纳结构序列文本的脉络规则,得到一级脉络规则,并总结为正则表达式。
将结构序列文本和一级脉络规则中的每一条规则进行正则匹配,如果匹配成功,输出结构序列文本的一级脉络规则;若匹配失败,则没有文本一级脉络结构,直接输出具有完整段落层级的结构序列文本。根据匹配到的一级脉络规则将结构序列文本逐一进行正则匹配,并记录满足一级脉络规则的文本序列索引及其文本,输出文本序列、文本序列对应索引。将文本序列、文本序列对应索引进行一一对应,以文本序列作为一级脉络存储的键,结构序列文本中获取索引取值区间的文本作为一级脉络存储的值,输出一级脉络存储。
将输出的一级脉络存储,从二级脉络文本规则库中匹配文本序列对应的结构规则,输出文本二级脉络结构及内容,存储为二级脉络,具体过程如下:
构建二级脉络文本规则库,通过人工总结、归纳结构序列文本的脉络规则,得到二级脉络规则,并总结为正则表达式。
将一级脉络存储中的文本与二级脉络规则中的每一条规则进行正则匹配,如果匹配成功,输出结构序列文本的二级脉络规则;如果匹配失败,则没有文本二级脉络结构,直接输出一级脉络存储。根据匹配到的二级脉络规则将一级脉络存储中每个键的值逐一进行正则匹配,并记录满足二级脉络规则的文本序列索引及其文本,输出文本序列、文本序列对应索引。将文本序列以及文本序列对应索引进行一一对应,以文本序列作为二级脉络存储的键,从一级脉络存储得到的结构序列文本中获取索引取值区间的文本作为二级脉络存储的值,输出二级脉络存储。
将一级脉络存储和二级脉络存储进行整合,将一级脉络中每个键的文本序列替换为二级脉络的对应文本序列键值,输出结构序列文本的完整文本脉络。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于结构序列的文本脉络抽取方法,其特征在于,所述方法包括以下操作:
对网页中html代码进行处理,得到带有文本结构的完整段落层级的结构序列文本;
对具有完整段落层级的结构序列文本从一级脉络文本规则库中匹配序列文本对应的结构规则,根据匹配到的一级脉络规则将结构序列文本逐一进行正则匹配,输出满足一级脉络规则的文本序列及其索引,构造一级脉络存储的键值;
将一级脉络存储的结构序列文本从二级脉络文本规则库中匹配序列文本对应的结构规则,根据匹配的二级脉络规则将一级脉络存储中每个键的值逐一进行正则匹配,输出满足二级脉络规则的文本序列及其索引,构造二级脉络存储的键值;
整合一级脉络存储和二级脉络存储,将一级脉络中每个键的文本序列替换为二级脉络的对应文本序列键值,输出结构序列文本的完整文本脉络。
2.根据权利要求1所述的一种基于结构序列的文本脉络抽取方法,其特征在于,所述对网页中html代码进行处理具体为:
滤除html代码中部分标签,输出带有html结构的文本序列,根据文本序列创建html迭代器,并合并部分标签,得到合并后的html迭代器,遍历html迭代器的各个节点,得到各节点对应的文本内容。
3.根据权利要求1所述的一种基于结构序列的文本脉络抽取方法,其特征在于,所述一级脉络规则以及二级脉络规则均通过正则表达式进行表达。
4.根据权利要求1所述的一种基于结构序列的文本脉络抽取方法,其特征在于,所述构造一级脉络存储的键值具体为:
将满足一级脉络规则的文本序列及其索引一一对应,以文本序列作为一级脉络存储的键,结构序列文本中获取索引取值区间的文本作为一级脉络存储的值。
5.根据权利要求1所述的一种基于结构序列的文本脉络抽取方法,其特征在于,所述构造二级脉络存储的键值具体为:
将满足二级脉络规则的文本序列及其索引一一对应,以文本序列作为二级脉络存储的键,从一级脉络存储得到的结构序列文本中获取索引取值区间的文本作为二级脉络存储的值。
6.一种基于结构序列的文本脉络抽取系统,其特征在于,所述系统包括:
结构序列文本获取模块,用于对网页中html代码进行处理,得到带有文本结构的完整段落层级的结构序列文本;
一级脉络构造模块,用于对具有完整段落层级的结构序列文本从一级脉络文本规则库中匹配序列文本对应的结构规则,根据匹配到的一级脉络规则将结构序列文本逐一进行正则匹配,输出满足一级脉络规则的文本序列及其索引,构造一级脉络存储的键值;
二级脉络构造模块,用于将一级脉络存储的结构序列文本从二级脉络文本规则库中匹配序列文本对应的结构规则,根据匹配的二级脉络规则将一级脉络存储中每个键的值逐一进行正则匹配,输出满足二级脉络规则的文本序列及其索引,构造二级脉络存储的键值;
两级脉络整合模块,用于整合一级脉络存储和二级脉络存储,将一级脉络中每个键的文本序列替换为二级脉络的对应文本序列键值,输出结构序列文本的完整文本脉络。
7.根据权利要求6所述的一种基于结构序列的文本脉络抽取系统,其特征在于,所述带有文本结构的完整段落层级的结构序列文本通过以下方式获得:
滤除html代码中部分标签,输出带有html结构的文本序列,根据文本序列创建html迭代器,并合并部分标签,得到合并后的html迭代器,遍历html迭代器的各个节点,得到各节点对应的文本内容。
8.根据权利要求6所述的一种基于结构序列的文本脉络抽取系统,其特征在于,所述一级脉络规则以及二级脉络规则均通过正则表达式进行表达。
9.根据权利要求6所述的一种基于结构序列的文本脉络抽取系统,其特征在于,所述一级脉络存储的键值具体为:
满足一级脉络规则的文本序列及其索引一一对应,以文本序列作为一级脉络存储的键,结构序列文本中获取索引取值区间的文本作为一级脉络存储的值。
10.根据权利要求6所述的一种基于结构序列的文本脉络抽取系统,其特征在于,所述二级脉络存储的键值具体为:
满足二级脉络规则的文本序列及其索引一一对应,以文本序列作为二级脉络存储的键,从一级脉络存储得到的结构序列文本中获取索引取值区间的文本作为二级脉络存储的值。
CN202011361478.9A 2020-11-27 2020-11-27 一种基于结构序列的文本脉络抽取方法及系统 Pending CN112328928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011361478.9A CN112328928A (zh) 2020-11-27 2020-11-27 一种基于结构序列的文本脉络抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011361478.9A CN112328928A (zh) 2020-11-27 2020-11-27 一种基于结构序列的文本脉络抽取方法及系统

Publications (1)

Publication Number Publication Date
CN112328928A true CN112328928A (zh) 2021-02-05

Family

ID=74308682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011361478.9A Pending CN112328928A (zh) 2020-11-27 2020-11-27 一种基于结构序列的文本脉络抽取方法及系统

Country Status (1)

Country Link
CN (1) CN112328928A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法
CN105718584A (zh) * 2016-01-26 2016-06-29 中国人民解放军国防科学技术大学 网页正文提取的方法及装置
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法
CN107729480A (zh) * 2017-10-16 2018-02-23 北京神州泰岳软件股份有限公司 一种限定区域的文本信息抽取方法及装置
CN108268433A (zh) * 2018-02-26 2018-07-10 杭州数梦工场科技有限公司 基于网页文章的标题抽取方法及装置
CN109062876A (zh) * 2018-07-20 2018-12-21 北京开普云信息科技有限公司 一种基于dom网页剪枝的相似网页查找方法及系统
CN109271598A (zh) * 2018-08-01 2019-01-25 数据地平线(广州)科技有限公司 一种抽取新闻网页内容的方法、装置及存储介质
CN110502640A (zh) * 2019-07-30 2019-11-26 江南大学 一种基于建构的概念词义发展脉络的提取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法
CN105718584A (zh) * 2016-01-26 2016-06-29 中国人民解放军国防科学技术大学 网页正文提取的方法及装置
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法
CN107729480A (zh) * 2017-10-16 2018-02-23 北京神州泰岳软件股份有限公司 一种限定区域的文本信息抽取方法及装置
CN108268433A (zh) * 2018-02-26 2018-07-10 杭州数梦工场科技有限公司 基于网页文章的标题抽取方法及装置
CN109062876A (zh) * 2018-07-20 2018-12-21 北京开普云信息科技有限公司 一种基于dom网页剪枝的相似网页查找方法及系统
CN109271598A (zh) * 2018-08-01 2019-01-25 数据地平线(广州)科技有限公司 一种抽取新闻网页内容的方法、装置及存储介质
CN110502640A (zh) * 2019-07-30 2019-11-26 江南大学 一种基于建构的概念词义发展脉络的提取方法

Similar Documents

Publication Publication Date Title
CN102591612B (zh) 一种基于标点连续性的通用网页正文提取方法及其系统
JP2016522524A (ja) 同義表現の探知及び関連コンテンツを検索する方法及び装置
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
CN106383814A (zh) 一种英文社交媒体短文本分词方法
US20120290602A1 (en) Method and system for identifying traditional arabic poems
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
CN103049581A (zh) 一种基于一致性聚类的Web文本分类方法
Jain et al. Context sensitive text summarization using k means clustering algorithm
CN102117289A (zh) 一种从网页中抽取评论内容的方法和装置
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN106528509B (zh) 网页信息提取方法及装置
US20160196303A1 (en) String search device, string search method, and string search program
CN101833588B (zh) 一种xml文档索引结构
CN113032371A (zh) 数据库语法分析方法、装置和计算机设备
CN112328928A (zh) 一种基于结构序列的文本脉络抽取方法及系统
CN103116607A (zh) 一种基于拼音全文检索的方法
CN107145947A (zh) 一种信息处理方法、装置及电子设备
Chien et al. Semantic tagging of mathematical expressions
CN108897749A (zh) 基于语法树和文本块密度的网页信息抽取方法及系统
CN110851679A (zh) 一种基于正文节点特征的提取网页正文的方法和系统
Kolkur et al. Web Data Extraction Using Tree Structure Algorithms-A Comparison
CN105335351B (zh) 一种基于专利搜索日志用户行为的同义词自动挖掘方法
Sabbah et al. A novel dataset for quranic words identification and authentication
JP5718407B2 (ja) 対話パターン抽出装置、対話装置、方法、及びプログラム
CN109635681B (zh) 一种文献处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205

RJ01 Rejection of invention patent application after publication