CN104317786A - 一种文本段落切片方法及系统 - Google Patents

一种文本段落切片方法及系统 Download PDF

Info

Publication number
CN104317786A
CN104317786A CN201410538291.XA CN201410538291A CN104317786A CN 104317786 A CN104317786 A CN 104317786A CN 201410538291 A CN201410538291 A CN 201410538291A CN 104317786 A CN104317786 A CN 104317786A
Authority
CN
China
Prior art keywords
paragraph
semantic
text
text fragment
little
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410538291.XA
Other languages
English (en)
Inventor
贾岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Original Assignee
ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd filed Critical ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201410538291.XA priority Critical patent/CN104317786A/zh
Publication of CN104317786A publication Critical patent/CN104317786A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种文本段落切片方法及系统,该方法包括以下步骤:获取互联网数据;对所述互联网数据中的文本段落进行粗切分;对粗切分的文本段落进行段落相关性分析与段落重组;将重组后的段落合并为语义段落;将相同语义段落永久地序列化到存储系统之中。本发明有利于系统统一接口和设计,而且充分利用在段落级别文本分析的优势,在更小粒度的文本上精炼更加详尽、准确的语义信息,以支持情报采集、识别和分析。

Description

一种文本段落切片方法及系统
技术领域
本发明涉及数据网络技术领域,尤其涉及一种文本段落切片方法及系统。
背景技术
文本是指书面语言的表现形式,从文学的角度说,通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章。通常一个文本文件可能包括数万甚至数十万字,在该文本文件中搜索某些语义时需要花费大量时间。虽然可以通过将整个文本文件进行段落化分割,提高搜索效率,但现有技术中的段落化切割不但需要考虑文本、段落长度限制因素,而且很难在最大限度上保证将语义关联紧密的小段落合并为长度较为适中的语义段落。
发明内容
为了解决背景技术中存在的技术问题,本发明提出了一种文本段落切片方法及系统,使文本更加精炼详尽,语义信息更加准确。
本发明提出的一种文本段落切片方法,包括以下步骤:
获取互联网数据;
对所述互联网数据中的文本段落进行粗切分;
对粗切分的文本段落进行段落相关性分析与段落重组;
将重组后的段落合并为语义段落;
将相同语义段落永久地序列化到存储系统之中。
优选地,所述互联网数据包括HTML中正文、title、meta以及锚文字。
优选地,所述粗切分为对超过预定长度字的文本,根据语义终止符号切割为小段落。
优选地,所述终止符号包括句点、叹号。
优选地,所述粗切分为根据各段等长原则及长句子独立语义段落原则切割为小段落。
优选地,所述段落相关性分析与段落重组具体包括:根据LSA训练的矩阵计算各小的自然段落之间潜在语义关联度,以平均代价最小原则寻找最优合并小段落合并方案,以组成各个语义段落群。
本发明提出了一种文本段落切片系统,包括:
获取模块,用于获取互联网数据;
切分模块,与所述获取模块连接,用于对所述互联网数据中的文本段落进行粗切分;
重组模块,与所述切分模块连接,用于对粗切分的文本段落进行段落相关性分析与段落重组;
合并模块,与所述重组模块连接,用于将重组后的段落合并为语义段落;
存储模块,与所述合同模块连接,用于将相同语义段落永久地序列化到存储系统之中。
优选地,
所述切分模块,具体用于对超过预定长度字的文本,根据语义终止符号切割为小段落。
优选地,所述切分模块根据各段等长原则及长句子独立语义段落原则切割为小段落。
优选地,所述重组模块,具体包括:根据LSA训练的矩阵计算各小的自然段落之间潜在语义关联度,以平均代价最小原则寻找最优合并小段落合并方案,以组成各个语义段落群。
本发明中,通过对文本切割,使以文本文档形式的文本数据转化为统一格式的段落,这不但有利于系统统一接口和设计,而且充分利用在段落级别文本分析的优势,在更小粒度的文本更加详尽精炼,语义信息更加准确,以支持情报采集、识别和分析。
附图说明
图1为本发明实施例提出的一种文本段落切片方法流程图;
图2为本发明实施例提出的一种文本段落切片系统结构图。
具体实施方式
如图1所示,本发明实施例提出了一种文本段落切片方法,包括以下步骤:
步骤101,获取互联网数据,取自存储系统,其中,互联网数据包括HTML(HyperText Mark-up Language,超文本标记语言)中正文、title、meta以及锚文字。HTML是目前网络上应用最为广泛的语言,也是构成网页文档的主要语言,由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等;HTML文件的结构包括头部(title)、主体(meta)两大部分,其中头部描述浏览器所需的信息,而主体则包含所要说明的具体内容。锚文字是网页上超链接的文字部分,是影响网页搜索引擎排名的一项重要因素,锚文字指的是在网页上,或者在其他有链接的幻灯片等页面,含有超链接,能指向其他页面或其他内容的文字链接,此类文在文本中出现时,常常含有超链接。
步骤102,对文本段落进行粗切分,对文本长度超过预定长度(例如300字)的文档尽量依据原文的段落结构,进行切分;对超过300字的文本,根据语义终止符号,例如句点、叹号等标点符号,在合适位置(各段等长原则及长句子独立语义段落原则),强制切割为小段落。页面原始信息(HTML文档的title、meta,body标签以及其中文字)作为参考信息指导强制切割,原则为,body中内容进行切割,但是在title、meta中出现的词汇应尽量拆分到至少两个自然段落中。在title、meta中的名词优先拆分到至少两个自然段落中。
步骤103,段落相关性分析与段落重组,实现根据LSA(Latent semanticanalysis)训练的矩阵计算各小的自然(包括认为强制切割的小段落)段落之间潜在语义关联度,以平均代价最小原则寻找最优合并小段落合并方案,以组成各个语义段落群(即段落级文本)。
LSA是用在语义检索上,为了解决一词多义和一义多词的问题:一词多义:美女和PPMM表示相同的含义,但是单纯依靠检索词“美女”来检索文档,很可能丧失掉那些包含“PPMM”的文档;一义多词:如果输入检索词是多个检索词组成的一个小document,例如“清澈孩子”,那就知道这段文字主要想表达concept是和道德相关的,不应该将“春天到了,小河多么的清澈”这样的文本包含在内。为了能够解决这个问题,需要将词语(term)中的concept提取出来,建立一个词语和概念的关联关系(t-crelationship),这样一个文档就能表示成为概念的向量。这样输入一段检索词之后,就可以先将检索词转换为概念,再通过概念去匹配文档。
步骤104,成本最小化原则下将重组后的段落合并为语义段落;文本段落化描述,实现将原始文档与段落级文本之间建立关联,以便于知道段落与文本之间的关系、段落之间的先后关系。
语义化是指用合理HTML标记以及其特有的属性去格式化文档内容,也就是对数据和信息进行处理,使得机器可以理解。语义分析的任务是对结构上正确的文本进行上下文有关性质的审查,进行类型审查。语义分析是审查有无语义错误。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,应报告错误。
步骤105,将这种关系永久地序列化到存储系统之中,输出为段落化的文本描述,输出对象为存储系统,也是与其他模块物理上隔离,以单独进程形式存在。
如图2所示,本发明实施例提出了一种文本段落切片系统,包括:获取模块10,用于获取互联网数据;切分模块20,与所述获取模块10连接,用于对所述互联网数据中的文本段落进行粗切分;重组模块30,与所述切分模块20连接,用于对粗切分的文本段落进行段落相关性分析与段落重组;合并模块40,与所述重组模块30连接,用于将重组后的段落合并为语义段落;存储模块50,与所述合并模块40连接,用于将相同语义段落永久地序列化到存储模块50之中。
所述切分模块,具体用于对超过预定长度字的文本,根据语义终止符号切割为小段落。
所述切分模块根据各段等长原则及长句子独立语义段落原则切割为小段落。
所述重组模块,具体包括:根据LSA训练的矩阵计算各小的自然段落之间潜在语义关联度,以平均代价最小原则寻找最优合并小段落合并方案,以组成各个语义段落群。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种文本段落切片方法,其特征在于,包括以下步骤:
获取互联网数据;
对所述互联网数据中的文本段落进行粗切分;
对粗切分的文本段落进行段落相关性分析与段落重组;
将重组后的段落合并为语义段落;
将相同语义段落永久地序列化到存储系统之中。
2.根据权利要求1所述的文本段落切片方法,其特征在于,所述互联网数据包括超文本标记语言HTML中的正文、title、meta以及锚文字。
3.根据权利要求1所述的文本段落切片方法,其特征在于,所述粗切分为对超过预定长度字的文本,根据语义终止符号切割为小段落。
4.根据权利要求3所述的文本段落切片方法,其特征在于,所述终止符号包括句点或叹号。
5.根据权利要求1所述的文本段落切片方法,其特征在于,所述粗切分为根据各段等长原则及长句子独立语义段落原则切割为小段落。
6.根据权利要求1所述的文本段落切片方法,其特征在于,所述段落相关性分析与段落重组具体包括:根据LSA训练的矩阵计算各小的自然段落之间潜在语义关联度,以平均代价最小原则寻找最优合并小段落合并方案,以组成各个语义段落群。
7.一种文本段落切片系统,其特征在于,包括:
获取模块,用于获取互联网数据;
切分模块,与所述获取模块连接,用于对所述互联网数据中的文本段落进行粗切分;
重组模块,与所述切分模块连接,用于对粗切分的文本段落进行段落相关性分析与段落重组;
合并模块,与所述重组模块连接,用于将重组后的段落合并为语义段落;
存储模块,与所述合同模块连接,用于将相同语义段落永久地序列化到存储系统之中。
8.根据权利要求7所述的文本段落切片系统,其特征在于,
所述切分模块,具体用于对超过预定长度字的文本,根据语义终止符号切割为小段落。
9.根据权利要求8所述的文本段落切片系统,其特征在于,所述切分模块根据各段等长原则及长句子独立语义段落原则切割为小段落。
10.根据权利要求7所述的文本段落切片系统,其特征在于,所述重组模块,具体包括:根据LSA训练的矩阵计算各小的自然段落之间潜在语义关联度,以平均代价最小原则寻找最优合并小段落合并方案,以组成各个语义段落群。
CN201410538291.XA 2014-10-13 2014-10-13 一种文本段落切片方法及系统 Pending CN104317786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410538291.XA CN104317786A (zh) 2014-10-13 2014-10-13 一种文本段落切片方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410538291.XA CN104317786A (zh) 2014-10-13 2014-10-13 一种文本段落切片方法及系统

Publications (1)

Publication Number Publication Date
CN104317786A true CN104317786A (zh) 2015-01-28

Family

ID=52373019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410538291.XA Pending CN104317786A (zh) 2014-10-13 2014-10-13 一种文本段落切片方法及系统

Country Status (1)

Country Link
CN (1) CN104317786A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391457A (zh) * 2017-07-26 2017-11-24 成都科来软件有限公司 一种基于文本行的文档分段方法及装置
CN109710759A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 文本切分方法、装置、计算机设备和可读存储介质
CN110059563A (zh) * 2019-03-19 2019-07-26 阿里巴巴集团控股有限公司 一种文本处理方法和装置
CN110162686A (zh) * 2019-05-23 2019-08-23 百度在线网络技术(北京)有限公司 服务搜索方法、装置、服务器、设备及介质
CN111797634A (zh) * 2020-06-04 2020-10-20 语联网(武汉)信息技术有限公司 文档分割方法及装置
CN112733545A (zh) * 2020-12-28 2021-04-30 中电金信软件有限公司 文本分块方法、装置、计算机设备和存储介质
CN113673255A (zh) * 2021-08-25 2021-11-19 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN115130435A (zh) * 2022-06-27 2022-09-30 北京百度网讯科技有限公司 文档处理方法、装置、电子设备和存储介质
US11645110B2 (en) 2019-03-13 2023-05-09 International Business Machines Corporation Intelligent generation and organization of user manuals
CN117688927A (zh) * 2024-02-02 2024-03-12 北方健康医疗大数据科技有限公司 病历章节重配置方法、系统、终端及存储介质
CN118171650A (zh) * 2024-03-21 2024-06-11 行至智能(北京)技术有限公司 一种完全无监督的大语言模型微调训练平台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法
CN103678273A (zh) * 2012-09-14 2014-03-26 安徽华贞信息科技有限公司 互联网段落级话题识别系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN103678273A (zh) * 2012-09-14 2014-03-26 安徽华贞信息科技有限公司 互联网段落级话题识别系统
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391457B (zh) * 2017-07-26 2020-10-27 成都科来软件有限公司 一种基于文本行的文档分段方法及装置
CN107391457A (zh) * 2017-07-26 2017-11-24 成都科来软件有限公司 一种基于文本行的文档分段方法及装置
CN109710759A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 文本切分方法、装置、计算机设备和可读存储介质
US11645110B2 (en) 2019-03-13 2023-05-09 International Business Machines Corporation Intelligent generation and organization of user manuals
CN110059563A (zh) * 2019-03-19 2019-07-26 阿里巴巴集团控股有限公司 一种文本处理方法和装置
CN110059563B (zh) * 2019-03-19 2023-09-12 创新先进技术有限公司 一种文本处理方法和装置
CN110162686A (zh) * 2019-05-23 2019-08-23 百度在线网络技术(北京)有限公司 服务搜索方法、装置、服务器、设备及介质
CN111797634B (zh) * 2020-06-04 2023-09-08 语联网(武汉)信息技术有限公司 文档分割方法及装置
CN111797634A (zh) * 2020-06-04 2020-10-20 语联网(武汉)信息技术有限公司 文档分割方法及装置
CN112733545A (zh) * 2020-12-28 2021-04-30 中电金信软件有限公司 文本分块方法、装置、计算机设备和存储介质
CN113673255A (zh) * 2021-08-25 2021-11-19 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN113673255B (zh) * 2021-08-25 2023-06-30 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN115130435A (zh) * 2022-06-27 2022-09-30 北京百度网讯科技有限公司 文档处理方法、装置、电子设备和存储介质
CN115130435B (zh) * 2022-06-27 2023-08-11 北京百度网讯科技有限公司 文档处理方法、装置、电子设备和存储介质
CN117688927A (zh) * 2024-02-02 2024-03-12 北方健康医疗大数据科技有限公司 病历章节重配置方法、系统、终端及存储介质
CN117688927B (zh) * 2024-02-02 2024-04-30 北方健康医疗大数据科技有限公司 病历章节重配置方法、系统、终端及存储介质
CN118171650A (zh) * 2024-03-21 2024-06-11 行至智能(北京)技术有限公司 一种完全无监督的大语言模型微调训练平台

Similar Documents

Publication Publication Date Title
CN104317786A (zh) 一种文本段落切片方法及系统
CN101727461B (zh) 一种网页的正文抽取方法
US20110184960A1 (en) Methods and systems for content recommendation based on electronic document annotation
CN104156452A (zh) 一种网页文本摘要生成方法和装置
Scheible et al. A gold standard corpus of Early Modern German
Zu et al. Resume information extraction with a novel text block segmentation algorithm
CN104965823A (zh) 一种基于大数据的观点抽取方法
US9864738B2 (en) Methods and apparatus related to automatically rewriting strings of text
CN104978332A (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
Liu et al. CLTS: a new Chinese long text summarization dataset
CN111199151A (zh) 数据处理方法、及数据处理装置
Sitaula A hybrid algorithm for stemming of Nepali text
Gimenes et al. Spelling error patterns in Brazilian Portuguese
Se et al. AMRITA_CEN@ FIRE 2015: Extracting entities for social media texts in Indian languages
Di Castro et al. Automated extractions for machine generated mail
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
CN105426551A (zh) 文言文搜索方法和装置
CN115146634A (zh) 应急预案转化待办流程图的处理方法及相关装置
CN104331397A (zh) 一种机器翻译方法及系统
JP2014146257A (ja) 情報処理装置、情報処理方法、及び、情報処理プログラム
Suriyachay et al. Thai named entity tagged corpus annotation scheme and self verification
CN102622405A (zh) 基于语言实义单元数估计的短文本间文本距离的计算方法
Tang et al. Parasum: Contrastive paraphrasing for low-resource extractive text summarization
Tsapatsoulis Web image indexing using WICE and a learning-free language model
Raj et al. Malayalam text summarization: Minimum spanning tree based graph reduction approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150128