CN104317786A

CN104317786A - 一种文本段落切片方法及系统

Info

Publication number: CN104317786A
Application number: CN201410538291.XA
Authority: CN
Inventors: 贾岩
Original assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Current assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2014-10-13
Filing date: 2014-10-13
Publication date: 2015-01-28

Abstract

本发明公开了一种文本段落切片方法及系统，该方法包括以下步骤：获取互联网数据；对所述互联网数据中的文本段落进行粗切分；对粗切分的文本段落进行段落相关性分析与段落重组；将重组后的段落合并为语义段落；将相同语义段落永久地序列化到存储系统之中。本发明有利于系统统一接口和设计，而且充分利用在段落级别文本分析的优势，在更小粒度的文本上精炼更加详尽、准确的语义信息，以支持情报采集、识别和分析。

Description

一种文本段落切片方法及系统

技术领域

本发明涉及数据网络技术领域，尤其涉及一种文本段落切片方法及系统。

背景技术

文本是指书面语言的表现形式，从文学的角度说，通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章。通常一个文本文件可能包括数万甚至数十万字，在该文本文件中搜索某些语义时需要花费大量时间。虽然可以通过将整个文本文件进行段落化分割，提高搜索效率，但现有技术中的段落化切割不但需要考虑文本、段落长度限制因素，而且很难在最大限度上保证将语义关联紧密的小段落合并为长度较为适中的语义段落。

发明内容

为了解决背景技术中存在的技术问题，本发明提出了一种文本段落切片方法及系统，使文本更加精炼详尽，语义信息更加准确。

本发明提出的一种文本段落切片方法，包括以下步骤：

获取互联网数据；

对所述互联网数据中的文本段落进行粗切分；

对粗切分的文本段落进行段落相关性分析与段落重组；

将重组后的段落合并为语义段落；

将相同语义段落永久地序列化到存储系统之中。

优选地，所述互联网数据包括HTML中正文、title、meta以及锚文字。

优选地，所述粗切分为对超过预定长度字的文本，根据语义终止符号切割为小段落。

优选地，所述终止符号包括句点、叹号。

优选地，所述粗切分为根据各段等长原则及长句子独立语义段落原则切割为小段落。

优选地，所述段落相关性分析与段落重组具体包括：根据LSA训练的矩阵计算各小的自然段落之间潜在语义关联度，以平均代价最小原则寻找最优合并小段落合并方案，以组成各个语义段落群。

本发明提出了一种文本段落切片系统，包括：

获取模块，用于获取互联网数据；

切分模块，与所述获取模块连接，用于对所述互联网数据中的文本段落进行粗切分；

重组模块，与所述切分模块连接，用于对粗切分的文本段落进行段落相关性分析与段落重组；

合并模块，与所述重组模块连接，用于将重组后的段落合并为语义段落；

存储模块，与所述合同模块连接，用于将相同语义段落永久地序列化到存储系统之中。

优选地，

所述切分模块，具体用于对超过预定长度字的文本，根据语义终止符号切割为小段落。

优选地，所述切分模块根据各段等长原则及长句子独立语义段落原则切割为小段落。

优选地，所述重组模块，具体包括：根据LSA训练的矩阵计算各小的自然段落之间潜在语义关联度，以平均代价最小原则寻找最优合并小段落合并方案，以组成各个语义段落群。

本发明中，通过对文本切割，使以文本文档形式的文本数据转化为统一格式的段落，这不但有利于系统统一接口和设计，而且充分利用在段落级别文本分析的优势，在更小粒度的文本更加详尽精炼，语义信息更加准确，以支持情报采集、识别和分析。

附图说明

图1为本发明实施例提出的一种文本段落切片方法流程图；

图2为本发明实施例提出的一种文本段落切片系统结构图。

具体实施方式

如图1所示，本发明实施例提出了一种文本段落切片方法，包括以下步骤：

步骤101，获取互联网数据，取自存储系统，其中，互联网数据包括HTML(HyperText Mark-up Language,超文本标记语言)中正文、title、meta以及锚文字。HTML是目前网络上应用最为广泛的语言，也是构成网页文档的主要语言，由HTML命令组成的描述性文本，HTML命令可以说明文字、图形、动画、声音、表格、链接等；HTML文件的结构包括头部(title)、主体(meta)两大部分，其中头部描述浏览器所需的信息，而主体则包含所要说明的具体内容。锚文字是网页上超链接的文字部分，是影响网页搜索引擎排名的一项重要因素，锚文字指的是在网页上，或者在其他有链接的幻灯片等页面，含有超链接，能指向其他页面或其他内容的文字链接，此类文在文本中出现时，常常含有超链接。

步骤102，对文本段落进行粗切分，对文本长度超过预定长度(例如300字)的文档尽量依据原文的段落结构，进行切分；对超过300字的文本，根据语义终止符号，例如句点、叹号等标点符号，在合适位置(各段等长原则及长句子独立语义段落原则)，强制切割为小段落。页面原始信息(HTML文档的title、meta，body标签以及其中文字)作为参考信息指导强制切割，原则为，body中内容进行切割，但是在title、meta中出现的词汇应尽量拆分到至少两个自然段落中。在title、meta中的名词优先拆分到至少两个自然段落中。

步骤103，段落相关性分析与段落重组，实现根据LSA(Latent semanticanalysis)训练的矩阵计算各小的自然(包括认为强制切割的小段落)段落之间潜在语义关联度，以平均代价最小原则寻找最优合并小段落合并方案，以组成各个语义段落群(即段落级文本)。

LSA是用在语义检索上，为了解决一词多义和一义多词的问题：一词多义：美女和PPMM表示相同的含义，但是单纯依靠检索词“美女”来检索文档，很可能丧失掉那些包含“PPMM”的文档；一义多词：如果输入检索词是多个检索词组成的一个小document，例如“清澈孩子”，那就知道这段文字主要想表达concept是和道德相关的，不应该将“春天到了，小河多么的清澈”这样的文本包含在内。为了能够解决这个问题，需要将词语(term)中的concept提取出来，建立一个词语和概念的关联关系(t-crelationship)，这样一个文档就能表示成为概念的向量。这样输入一段检索词之后，就可以先将检索词转换为概念，再通过概念去匹配文档。

步骤104，成本最小化原则下将重组后的段落合并为语义段落；文本段落化描述，实现将原始文档与段落级文本之间建立关联，以便于知道段落与文本之间的关系、段落之间的先后关系。

语义化是指用合理HTML标记以及其特有的属性去格式化文档内容，也就是对数据和信息进行处理，使得机器可以理解。语义分析的任务是对结构上正确的文本进行上下文有关性质的审查，进行类型审查。语义分析是审查有无语义错误。比如语义分析的一个工作是进行类型审查，审查每个算符是否具有语言规范允许的运算对象，当不符合语言规范时，应报告错误。

步骤105，将这种关系永久地序列化到存储系统之中，输出为段落化的文本描述，输出对象为存储系统，也是与其他模块物理上隔离，以单独进程形式存在。

如图2所示，本发明实施例提出了一种文本段落切片系统，包括：获取模块10，用于获取互联网数据；切分模块20，与所述获取模块10连接，用于对所述互联网数据中的文本段落进行粗切分；重组模块30，与所述切分模块20连接，用于对粗切分的文本段落进行段落相关性分析与段落重组；合并模块40，与所述重组模块30连接，用于将重组后的段落合并为语义段落；存储模块50，与所述合并模块40连接，用于将相同语义段落永久地序列化到存储模块50之中。

所述切分模块根据各段等长原则及长句子独立语义段落原则切割为小段落。

所述重组模块，具体包括：根据LSA训练的矩阵计算各小的自然段落之间潜在语义关联度，以平均代价最小原则寻找最优合并小段落合并方案，以组成各个语义段落群。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种文本段落切片方法，其特征在于，包括以下步骤：

获取互联网数据；

对所述互联网数据中的文本段落进行粗切分；

对粗切分的文本段落进行段落相关性分析与段落重组；

将重组后的段落合并为语义段落；

将相同语义段落永久地序列化到存储系统之中。

2.根据权利要求1所述的文本段落切片方法，其特征在于，所述互联网数据包括超文本标记语言HTML中的正文、title、meta以及锚文字。

3.根据权利要求1所述的文本段落切片方法，其特征在于，所述粗切分为对超过预定长度字的文本，根据语义终止符号切割为小段落。

4.根据权利要求3所述的文本段落切片方法，其特征在于，所述终止符号包括句点或叹号。

5.根据权利要求1所述的文本段落切片方法，其特征在于，所述粗切分为根据各段等长原则及长句子独立语义段落原则切割为小段落。

6.根据权利要求1所述的文本段落切片方法，其特征在于，所述段落相关性分析与段落重组具体包括：根据LSA训练的矩阵计算各小的自然段落之间潜在语义关联度，以平均代价最小原则寻找最优合并小段落合并方案，以组成各个语义段落群。

7.一种文本段落切片系统，其特征在于，包括：

获取模块，用于获取互联网数据；

8.根据权利要求7所述的文本段落切片系统，其特征在于，

9.根据权利要求8所述的文本段落切片系统，其特征在于，所述切分模块根据各段等长原则及长句子独立语义段落原则切割为小段落。

10.根据权利要求7所述的文本段落切片系统，其特征在于，所述重组模块，具体包括：根据LSA训练的矩阵计算各小的自然段落之间潜在语义关联度，以平均代价最小原则寻找最优合并小段落合并方案，以组成各个语义段落群。