CN107368472B - 一种可迭代优化的文档分析结果的保存方法 - Google Patents

一种可迭代优化的文档分析结果的保存方法 Download PDF

Info

Publication number
CN107368472B
CN107368472B CN201710616485.0A CN201710616485A CN107368472B CN 107368472 B CN107368472 B CN 107368472B CN 201710616485 A CN201710616485 A CN 201710616485A CN 107368472 B CN107368472 B CN 107368472B
Authority
CN
China
Prior art keywords
analysis
paragraph
original document
document
analysis result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710616485.0A
Other languages
English (en)
Other versions
CN107368472A (zh
Inventor
林鹰
罗康
张鑫阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kelai Network Technology Co.,Ltd.
Original Assignee
Colasoft Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Colasoft Co ltd filed Critical Colasoft Co ltd
Priority to CN201710616485.0A priority Critical patent/CN107368472B/zh
Publication of CN107368472A publication Critical patent/CN107368472A/zh
Application granted granted Critical
Publication of CN107368472B publication Critical patent/CN107368472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Abstract

本发明公开了一种可迭代优化的文档分析结果的保存方法。所述方法包括读取原始文档,将原始文档存放到指定目录下的步骤;计算各段单元的ID、MD5值并存储到一个XML文件中的步骤;机器分析步骤;将分析结果按段落ID进行标记的步骤;人工初步验证的步骤。本发明提供了到段落级别的索引能力,并且存储了机器和人工分析结果,能提供更精细的处理能力,并且大大简化了工作量。

Description

一种可迭代优化的文档分析结果的保存方法
技术领域
本发明文本处理技术领域,尤其涉及一种可迭代优化的文档分析结果的保存方法。
背景技术
通过计算机分析PDF,DOC,HTML等非纯文本格式的文档时,在进行分析前还需要很多额外步骤来提取出纯文本信息,比如进行编码转换、字体识别等,然后再对这些纯文本的信息加以分析。将这些原始文档转成XML等包含纯文本以及关联信息的文档可以有效减少这个额外步骤的工作量,将各种文本格式加以统一。但经过提取后的XML文档相比原始文档,很多时候存在一些信息上的损失,因此对原始文档也需要加以保留。
随着文本处理方式的改变,从原始文档提取生成的XML文档也会有所不同,当处理过的文档数量非常大时,减少重新分析的工作量能够有效减少处理时间,从而提升效率。
此外,由于现有技术进行自然语言处理的准确率还有待提升,很多时候需要对机器分析的结果人工加以修订,这些修订结果也有必要加以保存。
发明内容
为解决上述问题,本发明提供了一种可迭代优化的文档分析结果的保存方法,包括如下步骤:
步骤一:读取原始文档,获取原始文档的ID,将原始文档存放到指定目录下。
步骤二:对原始文档根据当前分段算法进行分段,每段为一个段落单元,并记录当前段落单元的状态信息。
所述状态信息主要包括:是否是正文、是否是表格、是否是列表项、是否是无效段落。实际分析时,可以只对正文段落进行机器分析和人工修订。
步骤三:计算每个段落单元的ID、MD5值、当前所采用分段算法的版本号,将各个段落单元的文本内容、ID、MD5值存储到一个XML文件中,所述XML文件与原始文档保存在相同指定目录下,且名称均为原始文档的ID号。
步骤四:按照预定的分析方式并对各个段落单元进行机器分析。
步骤五:提取各个段落单元的分析结果,每个分析结果为一个分析单元,并按段落ID进行标记。
步骤六:将标记后的分析结果存放到XML文件中。
步骤七:按照预定的人工修订方式对分析结果加以初步验证,并将验证结果记录在XML文件的相应分析单元中。
进一步的,步骤一中,先使用MD5的前若干位信息第一层文件夹,使用MD5作为子文件夹名,在该子文件夹下存放原始文档和存储分析结果的XML文件,所述原始文档和XML文件的名称均为原始文档的ID。
进一步的,所述方法还包括进行段落单元信息更新监测的流程,具体为:循环检测原始文档中每个段落的MD5和检测分段算法版本号,确认两者是否发生变化,如果MD5发生了变化,则执行步骤三至七,如果MD5没有发生变化而分段算法版本发生了变化,则对现在各个段落单元的文本内容与之前的进行比较,如果具有不匹配的情况则执行步骤三至七,否则不进行任何操作。
进一步的,段落单元信息更新监测的流程中,如果引起段落单元更新的原因是原始文档中的部分段落单元被删除或者合并,则删除或者合并对应的分析结果单元。
进一步的,所述方法中还包括对预定的分析方式更新监测的流程,具体为:循环监测预定的分析方式是否发生变化,如果发生变化则执行步骤四至步骤六,否则不处理。
进一步的,对预定的分析方式更新监测的流程中,还需要执行步骤七。
进一步的,其特征在于,所述方法还包括对预定的人工修订方式更新监测的流程,具体为:循环监测预定的人工修订方式是否发生变化,如果发生变化则执行步骤七,否则不执行。
进一步的,步骤三中,所述XML文件与原始文档保存在同一个文件夹里。
本发明的有益效果为:
1.结合了原始文档和格式化语料的优点,能有效减少需要直接解析原始文档的次数,同时又不会带来原始信息的损失;
2.相比于直接保留从原始文档中提取的纯文本信息,本发明提供了到段落级别的索引能力,并且存储了机器和人工分析结果,能提供更精细的处理能力,并且大大简化了工作量。
3.原文文本单元和分析结果分开,通过段落ID关联,并可通过MD5值确认是否修订。
4.具有机器分析方式更新及人工修订方式更新监测流程,保障了分析结果及验证结果的实时更新。
附图说明
图1为本发明所述方法流程示意图。
具体实施方式
本发明所述一种可迭代优化的文档分析结果的保存方法包括如下步骤:
步骤一:读取原始文档,获取原始文档的ID(原始文档的ID一般是URL或者全局唯一的序号),将原始文档存放到指定目录下。
本步骤中,优选利用原始文档自身的信息进行指定目录的建立。更优选的,是利用原始文档的内容计算出MD5值,利用MD5值的信息建立目录,以获得识别标识。
更具体的,本实施例是计算原始文档的MD5值,使用MD5的前若干位信息第一层文件夹(本实施例是利用的前五位),使用MD5作为子文件夹名,在该子文件夹下存放原始文档和存储分析结果的XML文件,所述原始文档和XML文件的名称均为原始文档的ID,只是后缀名不同。这样,即使两个文档具有相同的MD5值,也能以各自独有的ID进行检索。
步骤二:对原始文档进行分段,每段为一个段落单元。
本步骤还需要记录各个段落单元的状态信息,包括:是否是正文、是否是表格、是否是列表项、是否是无效段落(如页码,页眉页脚的公司信息等)。
步骤三:计算每个段落单元的ID、MD5值、当前所采用分段算法的版本号,将各个段落单元的文本内容、ID、MD5值存储到一个XML文件中,所述XML文件与原始文档保存在相同指定目录下。
段落单元的ID是其标识,MD5的作用是用于快捷的发现段落单元的内容是否有变化,当前分段算法版本也是检验段落单元是否发生变化的指标。
一般来说,段落单元的ID是从1开始的。
步骤四:按照预定的分析方式并对各个段落单元进行机器分析。
本发明对预定的分析方式并不做限定,实际使用过程中可使用任何以一种现有的机器分析方法。机器分析结果是用属性值说明其内容,可以是文本摘要、段落分类等多种形式。实际操作过程中,可以只对是正文的段落单元进行分析。
步骤五:提取各个段落单元的分析结果,每个分析结果为一个分析单元,并按段落ID进行标记。
步骤六:将分析结果存放到分XML文件中,所述XML文件中还存储有原始文档各个段落单元的文本内容、ID、MD5,所述XML文件与原始文档保存在同一个文件夹里。
步骤七:按照预定的人工修订方式对分析结果加以初步验证,并将验证结果记录在XML文件的相应分析单元中。
人工修订结果用属性值说明其内容。
上述流程的有益效果为:
1.结合了原始文档和格式化语料的优点,能有效减少需要直接解析原始文档的次数,同时又不会带来原始信息的损失;
2.相比于直接保留从原始文档中提取的纯文本信息,上述流程提供了到段落级别的索引能力,并且存储了机器分析和人工分析结果,能提供更精细的处理能力,并且大大简化了工作量。
3.原文文本单元和分析结果分开,通过段落ID关联,并可通过MD5值确认是否修订。
更优选的,本发明还提供了进行段落单元信息更新监测的流程,具体为:循环计算原始文档中每个段落的MD5和检测分段算法版本号,确认两者是否发生变化,如果MD5发生了变化,则执行步骤三至七,如果MD5没有发生变化而分段算法版本发生了变化,则对现在各个段落单元的文本内容与之前的进行比较,如果具有不匹配的情况则执行步骤三至七,否则不进行任何操作。
MD5变化的原因会有多种,如文本内容发生变化、段落单元发生变化。如果引起段落单元更新的原因是原始文档中的部分段落单元被删除或者合并,则删除或者合并之前的分析结果单元即可。
更优选的,本发明还提供了预定的分析方式更新监测的流程,具体为:循环监测预定的分析方式是否发生变化,如果发生变化则执行步骤四至步骤六,否则不处理。如果机器分析方式发生变化会引起人工修订方式的变化,则还需要执行步骤七。例如,一个段落原本分类为“文学”,但后来把“文学”这个分类扩大为“诗歌”,“散文”,“小说”等,这个时候就需要把原来的文学分类加以扩充,显见人工修订的内容会发生变化。又如,一个段落原本机器分类为“文学”,人工分类为“艺术”,后来改进了机器分类的方式,新的机器分类结果为“艺术”,这时的人工修订内容不需要修改。
优选的,本发明还提供了对预定的人工修订方式更新监测的流程,具体为:循环监测预定的人工修订方式是否发生变化,如果发生变化则执行步骤七,否则不执行。人工修订方式的变化只需要修改分析单元中的人工修订部分。

Claims (9)

1.一种可迭代优化的文档分析结果的保存方法,其特征在于,包括如下步骤:
步骤一:读取原始文档,获取原始文档的ID,将原始文档存放到指定目录下;步骤一中,指定目录的建立方式为:计算原始文档的MD5值,使用MD5的前若干位信息建立第一层文件夹,使用MD5值作为子文件夹名,在该子文件夹下存放原始文档和存储分析结果的XML文件,所述原始文档和XML文件的名称均为原始文档的ID;
步骤二:对原始文档进行分段,每段为一个段落单元;
步骤三:计算每个段落单元的ID、MD5值、当前所采用分段算法的版本号,将各个段落单元的文本内容、ID、MD5值存储到一个XML文件中,所述XML文件与原始文档保存在相同指定目录下;
步骤四:按照预定的分析方式并对各个段落单元进行机器分析;
步骤五:提取各个段落单元的分析结果,每个分析结果为一个分析单元,并按段落ID进行标记;
步骤六:将标记后的分析结果存放到XML文件中;
步骤七:按照预定的人工修订方式对分析结果加以初步验证,并将验证结果记录在XML文件的相应分析单元中。
2.如权利要求1所述的可迭代优化的文档分析结果的保存方法,其特征在于,步骤二中,还需要记录各个段落单元的状态信息。
3.如权利要求2所述的可迭代优化的文档分析结果的保存方法,其特征在于,步骤二中,当前段落单元的状态信息包括:是否是正文、是否是表格、是否是列表项、是否是无效段落。
4.如权利要求3所述的可迭代优化的文档分析结果的保存方法,其特征在于,步骤四中,只对属于正文的段落单元进行机器分析。
5.如权利要求1所述的可迭代优化的文档分析结果的保存方法,其特征在于,所述方法还包括进行段落单元信息更新监测的流程,具体为:循环监测原始文档中每个段落的MD5和检测分段算法版本号是否发生变化,如果MD5发生了变化,则执行步骤三至七,如果MD5没有发生变化而分段算法版本发生了变化,则对现在各个段落单元的文本内容与之前的进行比较,如果具有不匹配的情况则执行步骤三至七,否则不进行任何操作。
6.如权利要求5所述的可迭代优化的文档分析结果的保存方法,其特征在于,段落单元信息更新监测的流程中,如果引起段落单元更新的原因是原始文档中的部分段落单元被删除或者合并,则删除或者合并之前的分析结果单元。
7.如权利要求1所述的可迭代优化的文档分析结果的保存方法,其特征在于,所述方法中还包括对预定的分析方式更新监测的流程,具体为:循环监测预定的分析方式是否发生变化,如果发生变化则执行步骤四至步骤六,否则不处理。
8.如权利要求7所述的可迭代优化的文档分析结果的保存方法,其特征在于,对预定的分析方式更新监测的流程中,还需要执行步骤七。
9.如权利要求1所述的可迭代优化的文档分析结果的保存方法,其特征在于,所述方法还包括对预定的人工修订方式更新监测的流程,具体为:循环监测预定的人工修订方式是否发生变化,如果发生变化则执行步骤七,否则不执行。
CN201710616485.0A 2017-07-26 2017-07-26 一种可迭代优化的文档分析结果的保存方法 Active CN107368472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710616485.0A CN107368472B (zh) 2017-07-26 2017-07-26 一种可迭代优化的文档分析结果的保存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710616485.0A CN107368472B (zh) 2017-07-26 2017-07-26 一种可迭代优化的文档分析结果的保存方法

Publications (2)

Publication Number Publication Date
CN107368472A CN107368472A (zh) 2017-11-21
CN107368472B true CN107368472B (zh) 2021-01-05

Family

ID=60307195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710616485.0A Active CN107368472B (zh) 2017-07-26 2017-07-26 一种可迭代优化的文档分析结果的保存方法

Country Status (1)

Country Link
CN (1) CN107368472B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753505A (zh) * 2019-09-30 2020-10-09 北京沃东天骏信息技术有限公司 一种文档处理方法、装置、服务器及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073824A (zh) * 2011-01-12 2011-05-25 深圳昂楷科技有限公司 一种加密文档唯一标识的生成和更新的方法
CN102156689A (zh) * 2011-03-31 2011-08-17 百度在线网络技术(北京)有限公司 文档检测方法及装置
CN103425639A (zh) * 2013-09-06 2013-12-04 广州一呼百应网络技术有限公司 一种基于信息指纹的相似信息识别方法
CN103823838A (zh) * 2013-12-18 2014-05-28 江苏省电力公司常州供电公司 一种多格式文档录入并比对的方法
CN104317949A (zh) * 2014-11-06 2015-01-28 北京德塔普博软件有限公司 文档片段内容提取方法、装置和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073824A (zh) * 2011-01-12 2011-05-25 深圳昂楷科技有限公司 一种加密文档唯一标识的生成和更新的方法
CN102156689A (zh) * 2011-03-31 2011-08-17 百度在线网络技术(北京)有限公司 文档检测方法及装置
CN103425639A (zh) * 2013-09-06 2013-12-04 广州一呼百应网络技术有限公司 一种基于信息指纹的相似信息识别方法
CN103823838A (zh) * 2013-12-18 2014-05-28 江苏省电力公司常州供电公司 一种多格式文档录入并比对的方法
CN104317949A (zh) * 2014-11-06 2015-01-28 北京德塔普博软件有限公司 文档片段内容提取方法、装置和系统

Also Published As

Publication number Publication date
CN107368472A (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
US11036808B2 (en) System and method for indexing electronic discovery data
US20190236102A1 (en) System and method for differential document analysis and storage
US20160055376A1 (en) Method and system for identification and extraction of data from structured documents
US7072889B2 (en) Document retrieval using index of reduced size
US9330323B2 (en) Redigitization system and service
CN101021851B (zh) 文本检索装置和文本检索方法
KR101019627B1 (ko) 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체
CN107368472B (zh) 一种可迭代优化的文档分析结果的保存方法
KR101827965B1 (ko) 연동 통제 문서 분석 장치 및 방법
US20100063966A1 (en) Method for fast de-duplication of a set of documents or a set of data contained in a file
US20110270862A1 (en) Information processing apparatus and information processing method
CN113220821A (zh) 一种针对试题检索的索引建立方法、装置及电子设备
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
KR20140031269A (ko) 글꼴을 판별하는 방법 및 장치
CN115526601A (zh) 文件管理方法及装置
CN114218347A (zh) 多个文件内容的快速索引查找方法
CN109739981B (zh) 一种pdf文件类别判定方法及文字提取方法
CN110852359A (zh) 基于深度学习的家谱识别方法及系统
CN112417837A (zh) 基于摩尔标识的自动交叉判断检索匹配模板的方法、系统及存储介质
CN112612888B (zh) 一种用于对文本文件进行智能聚类的方法及系统
KR20130062667A (ko) 속성 정보를 이용한 파일 검색 장치 및 방법
CN112632959B (zh) 一种epub文件解析方法
US20230222145A1 (en) Information search system
JP2008046850A (ja) 文書種類判別装置及び文書種類判別プログラム
CN107145530A (zh) 一种基于附加数据的文档检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Lin Kang

Inventor after: Luo Ying

Inventor after: Zhang Xinyang

Inventor before: Lin Ying

Inventor before: Luo Kang

Inventor before: Zhang Xinyang

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 610041 No. 06, floor 15, unit 2, building 1, No. 28, north section of Tianfu Avenue, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan

Patentee after: Chengdu Shumo Technology Co.,Ltd.

Address before: 13 / F and 14 / F, unit 1, building 4, No. 966, north section of Tianfu Avenue, high tech Zone, Chengdu, Sichuan 610041

Patentee before: COLASOFT Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220324

Address after: 610041 12th, 13th and 14th floors, unit 1, building 4, No. 966, north section of Tianfu Avenue, high tech Zone, Chengdu, Sichuan

Patentee after: Kelai Network Technology Co.,Ltd.

Address before: 610041 No. 06, floor 15, unit 2, building 1, No. 28, north section of Tianfu Avenue, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan

Patentee before: Chengdu Shumo Technology Co.,Ltd.