CN107153633A - 在线文档文件的切分方法和在线文档文件的切分系统 - Google Patents

在线文档文件的切分方法和在线文档文件的切分系统 Download PDF

Info

Publication number
CN107153633A
CN107153633A CN201610119643.7A CN201610119643A CN107153633A CN 107153633 A CN107153633 A CN 107153633A CN 201610119643 A CN201610119643 A CN 201610119643A CN 107153633 A CN107153633 A CN 107153633A
Authority
CN
China
Prior art keywords
document
cutting
slit
document file
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610119643.7A
Other languages
English (en)
Inventor
崔晓兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201610119643.7A priority Critical patent/CN107153633A/zh
Publication of CN107153633A publication Critical patent/CN107153633A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种在线文档文件的切分方法和在线文档文件的切分系统,其中,在线文档文件的切分方法包括:解析待切分的文档文件,以确定待切分的文档文件中的标签信息;将标签信息的位置确定为切分位置;根据拆分位置对待切分的文档文件进行切分。通过本发明技术方案,获取标签信息并将标签信息的位置确定为切分位置,完成了文档文件的切分,从而实现了用户只对某个切分后的文档进行浏览或编辑、或根据要求选择切分后的文档进行重新组合生成新的文档文件的功能,满足了用户多元化的需求。

Description

在线文档文件的切分方法和在线文档文件的切分系统
技术领域
本发明涉及文档处理技术领域,具体而言,涉及一种在线文档文件的切分方法和一种在线文档文件的切分系统。
背景技术
随着互联网技术的发展,越来越多的用户希望文本文档在Web端发挥越来越多的作用,例如越来越多学校或培训机构采用在线考试系统,虽然已有很多电子化题库,但其通常仅仅是单纯的纸质文本电子化,且均为单一性科目,比如语文试卷通常都包括:“选择”、“填空”,“阅读理解”“文言文翻译”、“作文”等多种题型,无法给老师提供进一步选择与编辑的空间,因此老师很难配合当前学生的程度出题或者给出综合化试卷,比如一张只有选择题的试卷,或融合了语文、英语、历史、政治等多学科的试卷。
另外,在传媒端搜索某明星新闻时,往往输入明星的名字搜到的新闻无出处,五花八门,真假难辨,在这种情况下,如果可以对其之前关于明星的专访报道从之前的权威媒体的报章杂志中单独切分出来并保存,则可通过搜寻该“明星名字”与“独家专访”等关键字找到相对客观的访谈内容,则之前单独切分出的文档都可以直接显示出来拼成一个完整版面供读者阅读。
因此,如何设计一种新的在线文档文件的切分方案以提升用户在线体验成为亟待解决的技术问题。
发明内容
本发明正是基于上述技术问题至少之一,提出了一种新的在线文档文件的切分方案,通过获取标签信息并将标签信息的位置确定为切分位置,完成了文档文件的切分,从而实现了用户只对某个切分后的文档进行浏览或编辑,或根据要求选择切分后的文档进行重新组合生成新的文档文件的功能,满足了用户多元化的需求。
有鉴于此,本发明提出了一种在线文档文件的切分方法,包括:解析待切分的文档文件,以确定待切分的文档文件中的标签信息;将标签信息的位置确定为切分位置;根据拆分位置对待切分的文档文件进行切分。
在该技术方案中,通过获取标签信息并将标签信息的位置确定为切分位置,完成了文档文件的切分,从而实现了用户只对某个切分后的文档进行浏览或编辑、或根据要求选择切分后的文档进行重新组合生成新的文档文件的功能,满足了用户多元化的需求。
在上述技术方案中,优选地,在解析待切分的文档文件,以确定待切分的文档文件中的标签信息前,还包括:获取待切分的原始文档文件;将原始文档文件中与标签信息匹配的字符替换为预设字符;在替换为预设字符后,对原始文档文件进行类识别,以确定原始文档文件中的元素对象,其中元素对象包括表格对象、公式对象、图片对象和文本对象中的至少一个。
在该技术方案中,如果待切分的文档文件中存在与标签信息相匹配的字符,则该字符也会被识别为标签信息,从而会造成文档切分出错,因此在将原始文档文件中与标签信息匹配的字符替换为与标签信息无关的预设字符,提高了在线文档文件切分的准确性。
在上述技术方案中,优选地,在解析待切分的文档文件,以确定待切分的文档文件中的标签信息前,还包括:根据元素对象的属性参数将经过类识别的原始文档文件转换为图片文件;获取在元素对象中的任两个对象之间插入的标签信息,以生成待切分的文档文件。
在该技术方案中,将待切分的文档文件中的表格对象、公式对象、图片对象和文本对象转换为图片文件,并在任两个图片文件之间插入标签信息,插入的标签描述的是两个图片文件中的前一个的信息,达到了原始文档文件切分的效果。
在上述任一项技术方案中,优选地,包括:在根据拆分位置对待切分的文档文件进行切分后,将待切分的文档文件转换为活动文档;将活动文档上传至文档服务器。
在该技术方案中,通过活动文档(即Active Document)多任务,将切分后的文档转换为可以在Web端显示的活动文档,并上传至服务网,从而实现了用户在Web端对切分后的文档的查找和组合。
在上述技术方案中,优选地,还包括:在本地存储器中保存活动文档。
在该技术方案中,通过将活动文档保存在本地存储器,便于用户对活动文档进行查看和管理。
根据本发明第二方面,还提出了一种在线文档文件的切分系统,包括:解析单元,用于解析待切分的文档文件,以确定待切分的文档文件中的标签信息;确定单元,用于将标签信息的位置确定为切分位置;切分单元,用于根据拆分位置对待切分的文档文件进行切分。
在该技术方案中,通过获取标签信息并将标签信息的位置确定为切分位置,完成了文档文件的切分,从而实现了用户只对某个切分后的文档进行浏览或编辑、或根据要求选择切分后的文档进行重新组合生成新的文档文件的功能,满足了用户多元化的需求。
在上述技术方案中,优选地,包括:获取单元,用于获取待切分的原始文档文件;替换单元,用于将原始文档文件中与标签信息匹配的字符替换为预设字符;类识别单元,用于在替换为预设字符后,对原始文档文件进行类识别,以确定原始文档文件中的元素对象,其中元素对象包括表格对象、公式对象、图片对象和文本对象中的至少一个。
在该技术方案中,如果待切分的文档文件中存在与标签信息相匹配的字符,则该字符也会被识别为标签信息,从而会造成文档切分出错,因此在将原始文档文件中与标签信息匹配的字符替换为与标签信息无关的预设字符,提高了在线文档文件切分的准确性。
在上述技术方案中,优选地,还包括:转换单元,用于根据元素对象的属性参数将经过类识别的原始文档文件转换为图片文件;获取单元还用于:获取在元素对象中的任两个对象之间插入的标签信息,以生成待切分的文档文件。
在该技术方案中,将待切分的文档文件中的表格对象、公式对象、图片对象和文本对象转换为图片文件,并在任两个图片文件之间插入标签信息,插入的标签描述的是两个图片文件中的前一个的信息,达到了原始文档文件切分的效果。
在上述任一项技术方案中,优选地,转换单元还用于:在根据拆分位置对待切分的文档文件进行切分后,将待切分的文档文件转换为活动文档;在线文档文件的切分系统还包括:切分单元,用于将活动文档上传至文档服务器。
在该技术方案中,通过活动文档(即Active Document),将切分后的文档转换为可以在Web端显示的活动文档,并上传至服务网,从而实现了用户在Web端对切分后的文档的查找和组合。
在上述技术方案中,优选地,还包括:保存单元,用于在本地存储器中保存活动文档。
在该技术方案中,通过将活动文档保存在本地存储器,便于用户对活动文档进行查看和管理。
附图说明
图1示出了根据本发明的一个实施例的在线文档文件的切分方法的示意流程图;
图2示出了根据本发明的一个实施例的在线文档文件的切分系统的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用第三方不同于在此描述的第三方方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的一个实施例的在线文档文件的切分方法的示意流程图。
如图1所示,根据本发明的一个实施例的在线文档文件的切分方法,包括:步骤102,解析待切分的文档文件,以确定待切分的文档文件中的标签信息;步骤104,将标签信息的位置确定为切分位置;步骤106,根据拆分位置对待切分的文档文件进行切分。
在该技术方案中,通过获取标签信息并将标签信息的位置确定为切分位置,完成了文档文件的切分,从而实现了用户只对某个切分后的文档进行浏览或编辑、或根据要求选择切分后的文档进行重新组合生成新的文档文件的功能,满足了用户多元化的需求。
在上述技术方案中,优选地,在解析待切分的文档文件,以确定待切分的文档文件中的标签信息前,还包括:获取待切分的原始文档文件;将原始文档文件中与标签信息匹配的字符替换为预设字符;在替换为预设字符后,对原始文档文件进行类识别,以确定原始文档文件中的元素对象,其中元素对象包括表格对象、公式对象、图片对象和文本对象中的至少一个。
在该技术方案中,如果待切分的文档文件中存在与标签信息相匹配的字符,则该字符也会被识别为标签信息,从而会造成文档切分出错,因此在将原始文档文件中与标签信息匹配的字符替换为与标签信息无关的预设字符,提高了在线文档文件切分的准确性。
在上述技术方案中,优选地,在解析待切分的文档文件,以确定待切分的文档文件中的标签信息前,还包括:根据元素对象的属性参数将经过类识别的原始文档文件转换为图片文件;获取在元素对象中的任两个对象之间插入的标签信息,以生成待切分的文档文件。
在该技术方案中,将待切分的文档文件中的表格对象、公式对象、图片对象和文本对象转换为图片文件,并在任两个图片文件之间插入标签信息,插入的标签描述的是两个图片文件中的前一个的信息,达到了原始文档文件切分的效果。
在上述任一项技术方案中,优选地,包括:在根据拆分位置对待切分的文档文件进行切分后,将待切分的文档文件转换为活动文档;将活动文档上传至文档服务器。
在该技术方案中,通过活动文档(即Active Document),将切分后的文档转换为可以在Web端显示的活动文档,并上传至服务网,从而实现了用户在Web端对切分后的文档的查找和组合。
在上述技术方案中,优选地,还包括:在本地存储器中保存活动文档。
在该技术方案中,通过将活动文档保存在本地存储器,便于用户对活动文档进行查看和管理。
图2示出了根据本发明的一个实施例的在线文档文件的切分系统的示意框图。
如图2所示,根据本发明的一个实施例的在线文档文件的切分系统200,包括:解析单元202,用于解析待切分的文档文件,以确定待切分的文档文件中的标签信息;确定单元204,用于将标签信息的位置确定为切分位置;切分单元206,用于根据拆分位置对待切分的文档文件进行切分。
在该技术方案中,通过获取标签信息并将标签信息的位置确定为切分位置,完成了文档文件的切分,从而实现了用户只对某个切分后的文档进行浏览或编辑、或根据要求选择切分后的文档进行重新组合生成新的文档文件的功能,满足了用户多元化的需求。
在上述技术方案中,优选地,包括:获取单元208,用于获取待切分的原始文档文件;替换单元210,用于将原始文档文件中与标签信息匹配的字符替换为预设字符;类识别单元212,用于在替换为预设字符后,对原始文档文件进行类识别,以确定原始文档文件中的元素对象,其中元素对象包括表格对象、公式对象、图片对象和文本对象中的至少一个。
在该技术方案中,如果待切分的文档文件中存在与标签信息相匹配的字符,则该字符也会被识别为标签信息,从而会造成文档切分出错,因此在将原始文档文件中与标签信息匹配的字符替换为与标签信息无关的预设字符,提高了在线文档文件切分的准确性。
在上述技术方案中,优选地,还包括:转换单元214,用于根据元素对象的属性参数将经过类识别的原始文档文件转换为图片文件;获取单元208还用于:获取在元素对象中的任两个对象之间插入的标签信息,以生成待切分的文档文件。
在该技术方案中,将待切分的文档文件中的表格对象、公式对象、图片对象和文本对象转换为图片文件,并在任两个图片文件之间插入标签信息,插入的标签描述的是两个图片文件中的前一个的信息,达到了原始文档文件切分的效果。
在上述任一项技术方案中,优选地,转换单元214还用于:在根据拆分位置对待切分的文档文件进行切分后,将待切分的文档文件转换为活动文档;在线文档文件的切分系统还包括:切分单元206,用于将活动文档上传至文档服务器。
在该技术方案中,通过活动文档(即Active Document),将切分后的文档转换为可以在Web端显示的活动文档,并上传至服务网,从而实现了用户在Web端对切分后的文档的查找和组合。
在上述技术方案中,优选地,还包括:保存单元216,用于在本地存储器中保存活动文档。
在该技术方案中,通过将活动文档保存在本地存储器,便于用户对活动文档进行查看和管理。
以上结合附图详细说明了本发明的技术方案,考虑到相关技术中提出的如何设计一种新的在线文档文件的切分方案以提升用户在线体验的技术问题,本发明提出了一种新的在线文档文件的切分方案,通过获取标签信息并将标签信息的位置确定为切分位置,完成了文档文件的切分,从而实现了用户只对某个切分后的文档进行浏览或编辑、或根据要求选择切分后的文档进行重新组合生成新的文档文件的功能,满足了用户多元化的需求。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种在线文档文件的切分方法,其特征在于,包括:
解析待切分的文档文件,以确定所述待切分的文档文件中的标签信息;
将所述标签信息的位置确定为切分位置;
根据所述拆分位置对所述待切分的文档文件进行切分。
2.根据权利要求1所述的在线文档文件的切分方法,其特征在于,在解析待切分的文档文件,以确定所述待切分的文档文件中的标签信息前,还包括:
获取待切分的原始文档文件;
将所述原始文档文件中与所述标签信息匹配的字符替换为预设字符;
在替换为所述预设字符后,对所述原始文档文件进行类识别,以确定所述原始文档文件中的元素对象,其中所述元素对象包括表格对象、公式对象、图片对象和文本对象中的至少一个。
3.根据权利要求2所述的在线文档文件的切分方法,其特征在于,在解析待切分的文档文件,以确定所述待切分的文档文件中的标签信息前,还包括:
根据所述元素对象的属性参数将经过类识别的原始文档文件转换为图片文件;
获取在所述元素对象中的任两个对象之间插入的所述标签信息,以生成所述待切分的文档文件。
4.根据权利要求3所述的在线文档文件的切分方法,其特征在于,还包括:
在根据所述拆分位置对所述待切分的文档文件进行切分后,将所述待切分的文档文件转换为活动文档;
将所述活动文档上传至文档服务器。
5.根据权利要求4所述的在线文档文件的切分方法,其特征在于,还包括:
在本地存储器中保存所述活动文档。
6.一种在线文档文件的切分系统,其特征在于,包括:
解析单元,用于解析待切分的文档文件,以确定所述待切分的文档文件中的标签信息;
确定单元,用于将所述标签信息的位置确定为切分位置;
切分单元,用于根据所述拆分位置对所述待切分的文档文件进行切分。
7.根据权利要求6所述的在线文档文件的切分系统,其特征在于,还包括:
获取单元,用于获取待切分的原始文档文件;
替换单元,用于将所述原始文档文件中与所述标签信息匹配的字符替换为预设字符;
类识别单元,用于在替换为所述预设字符后,对所述原始文档文件进行类识别,以确定所述原始文档文件中的元素对象,其中所述元素对象包括表格对象、公式对象、图片对象和文本对象中的至少一个。
8.根据权利要求7所述的在线文档文件的切分系统,其特征在于,还包括:
转换单元,用于根据所述元素对象的属性参数将经过类识别的原始文档文件转换为图片文件;
所述获取单元还用于:获取在所述元素对象中的任两个对象之间插入的所述标签信息,以生成所述待切分的文档文件。
9.根据权利要求8所述的在线文档文件的切分系统,其特征在于,
所述转换单元还用于:在根据所述拆分位置对所述待切分的文档文件进行切分后,将所述待切分的文档文件转换为活动文档;
所述在线文档文件的切分系统还包括:
切分单元,用于将所述活动文档上传至文档服务器。
10.根据权利要求9所述的在线文档文件的切分系统,其特征在于,还包括:
保存单元,用于在本地存储器中保存所述活动文档。
CN201610119643.7A 2016-03-02 2016-03-02 在线文档文件的切分方法和在线文档文件的切分系统 Pending CN107153633A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610119643.7A CN107153633A (zh) 2016-03-02 2016-03-02 在线文档文件的切分方法和在线文档文件的切分系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610119643.7A CN107153633A (zh) 2016-03-02 2016-03-02 在线文档文件的切分方法和在线文档文件的切分系统

Publications (1)

Publication Number Publication Date
CN107153633A true CN107153633A (zh) 2017-09-12

Family

ID=59791285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610119643.7A Pending CN107153633A (zh) 2016-03-02 2016-03-02 在线文档文件的切分方法和在线文档文件的切分系统

Country Status (1)

Country Link
CN (1) CN107153633A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491492A (zh) * 2018-03-15 2018-09-04 传神语联网网络科技股份有限公司 一种文档在线可视化拆分以及自动合并的方法、系统
CN109815243A (zh) * 2019-02-18 2019-05-28 北京仁和汇智信息技术有限公司 一种文档界面化修改时的结构化存储方法和装置
CN110674093A (zh) * 2019-08-28 2020-01-10 金蝶汽车网络科技有限公司 文件数据处理方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308488A (zh) * 2008-06-05 2008-11-19 北大方正集团有限公司 基于版式文件的文档流式信息处理方法及装置
CN102841886A (zh) * 2011-06-21 2012-12-26 北大方正集团有限公司 拆分文档的方法和装置
CN104142961A (zh) * 2013-05-10 2014-11-12 北大方正集团有限公司 版式文档中复合图的逻辑处理装置和逻辑处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308488A (zh) * 2008-06-05 2008-11-19 北大方正集团有限公司 基于版式文件的文档流式信息处理方法及装置
CN102841886A (zh) * 2011-06-21 2012-12-26 北大方正集团有限公司 拆分文档的方法和装置
CN104142961A (zh) * 2013-05-10 2014-11-12 北大方正集团有限公司 版式文档中复合图的逻辑处理装置和逻辑处理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491492A (zh) * 2018-03-15 2018-09-04 传神语联网网络科技股份有限公司 一种文档在线可视化拆分以及自动合并的方法、系统
CN109815243A (zh) * 2019-02-18 2019-05-28 北京仁和汇智信息技术有限公司 一种文档界面化修改时的结构化存储方法和装置
CN109815243B (zh) * 2019-02-18 2020-03-03 北京仁和汇智信息技术有限公司 一种文档界面化修改时的结构化存储方法和装置
CN110674093A (zh) * 2019-08-28 2020-01-10 金蝶汽车网络科技有限公司 文件数据处理方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
Littlemore et al. An investigation into metaphor use at different levels of second language writing
Xu et al. Filtering offensive language in online communities using grammatical relations
Wartena A probabilistic morphology model for German lemmatization
US20070174343A1 (en) Method and system for automatic summarization and digest of celebrity news
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
KR20080068825A (ko) 디스플레이를 위한 고품질 리뷰 선택
WO2005065033A2 (en) In-context analysis and automatic translation
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
JP2012532395A (ja) 選択的なコンテンツ抽出
JPWO2009025193A1 (ja) 情報共有システム、情報共有方法、および情報共有プログラム
Barteld et al. The usage and spread of sentence-internal capitalization in Early New High German: A multifactorial approach
Belinkov et al. Studying the history of the Arabic language: language technology and a large-scale historical corpus
CN107153633A (zh) 在线文档文件的切分方法和在线文档文件的切分系统
JP6626917B2 (ja) 英語の音節計算法に基づいた可読性評価方法及びシステム
Jung et al. A hybrid mood classification approach for blog text
Elsweiler et al. Seeding simulated queries with user-study data for personal search evaluation
Žubrinić et al. Implementation of method for generating concept map from unstructured text in the Croatian language
Siebenhaar Quantitative approaches to linguistic variation in IRC: Implications for qualitative research
Filippova et al. Using linguistically motivated features for paragraph boundary identification
Bosma Extending answers using discourse structure
Dickinson et al. Building a Korean web corpus for analyzing learner language
Gotthard Why do-support in Scots is different
KR101705804B1 (ko) 시맨틱 콘텐츠 분류 장치 및 이를 이용한 콘텐츠 분류 방법
JP2009265770A (ja) 重要文提示システム
Rodríguez-Ferreiro et al. Semantic domain and grammatical class effects in the picture–word interference paradigm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170912