CN111859873A - 一种文档脚注转换方法 - Google Patents

一种文档脚注转换方法 Download PDF

Info

Publication number
CN111859873A
CN111859873A CN202010752633.3A CN202010752633A CN111859873A CN 111859873 A CN111859873 A CN 111859873A CN 202010752633 A CN202010752633 A CN 202010752633A CN 111859873 A CN111859873 A CN 111859873A
Authority
CN
China
Prior art keywords
footnote
annotation
annotation information
document
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010752633.3A
Other languages
English (en)
Inventor
李锦洲
蓝建敏
李观春
程静瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Excellence Information Technology Co ltd
Original Assignee
Excellence Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Excellence Information Technology Co ltd filed Critical Excellence Information Technology Co ltd
Priority to CN202010752633.3A priority Critical patent/CN111859873A/zh
Publication of CN111859873A publication Critical patent/CN111859873A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提出一种文档脚注转换方法,包括步骤一:解析文档,获取结构化文档内容;步骤二:提取批注信息,生成待转批注列表;步骤三:遍历待转批注列表,逐条获取待转批注列表中的批注信息;步骤四:校验批注信息,即校验批注信息是否符合转换为脚注的要求;若批注信息符合转换要求,则执行步骤五;否则,校验下一条批注信息;步骤五:插入脚注,即调用接口插入脚注,包括脚注标引和脚注内容两部分;步骤六:标记当前批注为已转换脚注状态,即在批注信息前添加“[已转脚注]”字符。本发明能够快速的把文档批注信息批量转换成脚注,解决手动插入脚注过程繁琐而且容易出错的问题,方便用户使用。

Description

一种文档脚注转换方法
技术领域
本发明涉及一种文档脚注转换方法,属于文档批注转脚注技术领域。
背景技术
脚注,是对文本的补充说明,一般位于页面的底部,针对文档某处内容的注释,用尽量简洁的语言,把事物的形态、性质、特征、成因、功能等等解说、介绍清楚。脚注由两个关联的部分组成,包括注释标记和注释文本,注释标记即是指在需要添加脚注的文本内容位置打上脚注编号,注释文本即是指在页面底部对应的脚注说明文本。
在文档编制过程中,为了增加文档的可读性,我们时常会在文档中添加一些脚注,比如参考文献的引文出处、专业术语的词源定义等,以方便读者阅读。在现有的微软Word、金山WPS等文档软件中,都具备了插入脚注的功能,但只能逐个手动操作。
在文档编制过程中,很多用户通常会把文档内容中的引用信息、词源定义、注释说明等作为批注的形式插入文档当中,以方便文稿审核,到后期最终定稿的时候,需要把这些批注转换成脚注。以现有的技术,插入脚注是单个操作的,只能手动一个一个的把这些批注信息插入脚注,过程繁琐,而且容易出错。
发明内容
本发明是为解决现有技术中的问题而提出的,具体技术方案如下:
一种文档脚注转换方法,包括如下步骤:
步骤一:解析文档,获取结构化文档内容;
步骤二:提取批注信息,生成待转批注列表;
步骤三:遍历待转批注列表,逐条获取待转批注列表中的批注信息;
步骤四:校验批注信息,即校验批注信息是否符合转换为脚注的要求;若批注信息符合转换要求,则执行步骤五;否则,校验下一条批注信息;
步骤五:插入脚注,即调用接口插入脚注,包括脚注标引和脚注内容两部分,在批注引用原文的地方插入脚注标引,在页面底部插入脚注内容;
步骤六:标记当前批注为已转换脚注状态,即在批注信息前添加“[已转脚注]”字符,以标记该批注信息所对应的批注已转换为脚注;所述当前批注为已经插入脚注后所对应的批注。
优选的,所述步骤一中,获取结构化文档内容采用xml技术来读取文档内容,以获取xml格式数据。
优选的,所述步骤二中,批注信息是指步骤一中结构化文档内容中的Conments数据。
优选的,所述批注信息包括批注所引用的正文和批注内容两部分,若批注信息所对应的批注已经转换为脚注,则所述批注信息还应包括“[已转脚注]”字符。
进一步的,所述步骤四中,校验批注信息的方法为:
步骤a:判断批注信息所对应的批注是否已经转换过脚注,若未转换,则执行步骤b,已转换则校验下一条批注信息;
步骤b:按照校验规则校验批注信息是否符合转换要求,若符合,则调用接口插入脚注;若不符合,则校验下一条批注信息。
进一步的,所述步骤a中,通过校验批注信息是否是以“[已转脚注]”字符为开头来判断批注信息所对应的批注是否已经转换过脚注,若是以“[已转脚注]”字符为开头,则不需要再次转换脚注;否则,则需要转换。
进一步的,所述步骤b中,校验规则为用户自定义的正则表达式。
本发明能够快速的把文档批注信息批量转换成脚注,解决手动插入脚注过程繁琐而且容易出错的问题,方便用户使用。
附图说明
图1是本发明一种文档脚注转换方法的工作流程图。
图2是本发明校验批注信息方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种文档脚注转换方法,包括如下步骤:
步骤一:解析文档,获取结构化文档内容,获取结构化文档内容采用xml技术来读取文档内容,以获取xml格式数据;
步骤二:提取批注信息,生成待转批注列表,批注信息是指步骤一中结构化文档内容中的Conments数据;
步骤三:遍历待转批注列表,逐条获取待转批注列表中的批注信息;
步骤四:校验批注信息,即校验批注信息是否符合转换为脚注的要求;若批注信息符合转换要求,则执行步骤五;否则,校验下一条批注信息;
步骤五:插入脚注,即调用接口插入脚注,包括脚注标引和脚注内容两部分,在批注引用原文的地方插入脚注标引,在页面底部插入脚注内容;
步骤六:标记当前批注为已转换脚注状态,即在批注信息前添加“[已转脚注]”字符,以标记该批注信息所对应的批注已转换为脚注;所述当前批注为已经插入脚注后所对应的批注。
所述批注信息包括批注所引用的正文和批注内容两部分,若批注信息所对应的批注已经转换为脚注,则所述批注信息还应包括“[已转脚注]”字符。
具体地,所述步骤四中,校验批注信息的方法为:
步骤a:判断批注信息所对应的批注是否已经转换过脚注,若未转换,则执行步骤b,已转换则校验下一条批注信息;
由于每次转换脚注之后,会把当前批注标记为已转换脚注的状态,即在批注信息前添加“[已转脚注]”字符,因此,可以通过校验批注信息是否是以“[已转脚注]”字符为开头来判断批注信息所对应的批注是否已经转换过脚注,若是以“[已转脚注]”字符为开头,则不需要再次转换脚注;否则,则需要转换。
步骤b:按照校验规则校验批注信息是否符合转换要求,若符合,则调用接口插入脚注;若不符合,则校验下一条批注信息。
校验规则是指使用正则表达式校验批注内容是否符合转换脚注的规则,校验规则是可以根据实际需要自定义的。以参考文献类举例,可以定义以下规则:
引用来源于网页的:
规则1:作者.标题[J].来源,日期.
正则表达式:[\s\S]+.[\s\S]+[J].[\s\S]+,[\s\S]+.
规则2:作者.标题[OL].地址,日期.
正则表达式:[\s\S]+.[\s\S]+[OL].[\s\S]+,[\s\S]+.
引用来源于图书的:
规则3:作者.标题[M].出版社,日期.
正则表达式:[\s\S]+.[\s\S]+[M].[\s\S]+,[\s\S]+.
根据以上规则,当批注信息为以下内容,则是符合转换规则的:
内容1:马小明.科学的本质就是创新[J].浙大学报,2017-06.
内容2:汤丽.我国医药国际化创新发展谋新篇[OL].http://d.drcnet.com.cn
/eDRCNet.Common.Web/DocDetail.aspx?DocID=5831749&leafid=3056&chnid=1027,2020-5-8.
内容3:斯图尔特·克雷纳.创新的本质[M].人民邮电出版社,2017-06-12.
本发明适用于微软Word、金山WPS等文档,通过一键转换脚注操作,把文档的批注信息一键批量转换成脚注信息,解决手动插入脚注过程繁琐而且容易出错的问题,方便用户使用。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种文档脚注转换方法,其特征在于:包括如下步骤:
步骤一:解析文档,获取结构化文档内容;
步骤二:提取批注信息,生成待转批注列表;
步骤三:遍历待转批注列表,逐条获取待转批注列表中的批注信息;
步骤四:校验批注信息,即校验批注信息是否符合转换为脚注的要求;若批注信息符合转换要求,则执行步骤五;否则,校验下一条批注信息;
步骤五:插入脚注,即调用接口插入脚注,包括脚注标引和脚注内容两部分,在批注引用原文的地方插入脚注标引,在页面底部插入脚注内容;
步骤六:标记当前批注为已转换脚注状态,即在批注信息前添加“[已转脚注]”字符,以标记该批注信息所对应的批注已转换为脚注;所述当前批注为已经插入脚注后所对应的批注。
2.根据权利要求1所述的一种文档脚注转换方法,其特征在于:所述步骤一中,获取结构化文档内容采用xml技术来读取文档内容,以获取xml格式数据。
3.根据权利要求1所述的一种文档脚注转换方法,其特征在于:所述步骤二中,批注信息是指步骤一中结构化文档内容中的Conments数据。
4.根据权利要求1所述的一种文档脚注转换方法,其特征在于:所述批注信息包括批注所引用的正文和批注内容两部分,若批注信息所对应的批注已经转换为脚注,则所述批注信息还应包括“[已转脚注]”字符。
5.根据权利要求4所述的一种文档脚注转换方法,其特征在于:所述步骤四中,校验批注信息的方法为:
步骤a:判断批注信息所对应的批注是否已经转换过脚注,若未转换,则执行步骤b,已转换则校验下一条批注信息;
步骤b:按照校验规则校验批注信息是否符合转换要求,若符合,则调用接口插入脚注;若不符合,则校验下一条批注信息。
6.根据权利要求5所述的一种文档脚注转换方法,其特征在于:所述步骤a中,通过校验批注信息是否是以“[已转脚注]”字符为开头来判断批注信息所对应的批注是否已经转换过脚注,若是以“[已转脚注]”字符为开头,则不需要再次转换脚注;否则,则需要转换。
7.根据权利要求5所述的一种文档脚注转换方法,其特征在于:所述步骤b中,校验规则为用户自定义的正则表达式。
CN202010752633.3A 2020-07-30 2020-07-30 一种文档脚注转换方法 Pending CN111859873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010752633.3A CN111859873A (zh) 2020-07-30 2020-07-30 一种文档脚注转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010752633.3A CN111859873A (zh) 2020-07-30 2020-07-30 一种文档脚注转换方法

Publications (1)

Publication Number Publication Date
CN111859873A true CN111859873A (zh) 2020-10-30

Family

ID=72945528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010752633.3A Pending CN111859873A (zh) 2020-07-30 2020-07-30 一种文档脚注转换方法

Country Status (1)

Country Link
CN (1) CN111859873A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309879A (zh) * 2012-03-12 2013-09-18 汉王科技股份有限公司 一种管理word文档中的标记的方法及装置
WO2014210034A1 (en) * 2013-06-25 2014-12-31 Audible, Inc. Synchronous presentation of content with a braille translation
CN104428764A (zh) * 2012-06-29 2015-03-18 汤姆森路透社全球资源公司 用于处理、呈现和推荐引用的系统、方法和软件
US9514113B1 (en) * 2013-07-29 2016-12-06 Google Inc. Methods for automatic footnote generation
CN108664522A (zh) * 2017-04-01 2018-10-16 优信互联(北京)信息技术有限公司 网页处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309879A (zh) * 2012-03-12 2013-09-18 汉王科技股份有限公司 一种管理word文档中的标记的方法及装置
CN104428764A (zh) * 2012-06-29 2015-03-18 汤姆森路透社全球资源公司 用于处理、呈现和推荐引用的系统、方法和软件
WO2014210034A1 (en) * 2013-06-25 2014-12-31 Audible, Inc. Synchronous presentation of content with a braille translation
US9514113B1 (en) * 2013-07-29 2016-12-06 Google Inc. Methods for automatic footnote generation
CN108664522A (zh) * 2017-04-01 2018-10-16 优信互联(北京)信息技术有限公司 网页处理方法及装置

Similar Documents

Publication Publication Date Title
Hankinson et al. The Music Encoding Initiative as a Document-Encoding Framework.
Lewis et al. Developing ODIN: A multilingual repository of annotated language data for hundreds of the world's languages
Hardie Modest XML for Corpora: Not a standard, but a suggestion
US20110099052A1 (en) Automatic checking of expectation-fulfillment schemes
Baker et al. EMILLE, A 67-Million Word Corpus of Indic Languages: Data Collection, Mark-up and Harmonisation.
WO2020149501A1 (ko) 전자문서의 점자 변환 시스템 및 그 방법
Kugler et al. Translator’s workbench: Tools and terminology for translation and text processing
Burnard What is TEI Conformance, and Why Should You Care?
KR20140132114A (ko) 수식 콘텐츠의 한글 독음 변환 시스템 및 방법
CN111859873A (zh) 一种文档脚注转换方法
Hornik et al. Package ‘NLP’
Nyhan Text encoding and scholarly digital editions
Vierros et al. PapyGreek Treebanks: A Dataset of Linguistically Annotated Greek Documentary Papyri
CN113033177B (zh) 一种电子病历数据的解析方法及装置
Laak et al. Literary Studies Meet Corpus Linguistics: Estonian Pilot Project of Private Letters in KORP.
Beck et al. Recognize, Annotate, and Visualize Parallel Content Structures in XML Documents
CN112613315B (zh) 一种文本知识自动抽取方法、装置、设备及存储介质
Filip et al. Internationalization Tag Set (ITS) Version 2.0
Dalton et al. Text Encoding Initiative (TEI) Primer
Erjavec et al. E-Slomšek: a TEI encoding of a critical edition of 19th century Slovenian rhetoric prose
Willis et al. From XML to XML: the why and how of making the biodiversity literature accessible to researchers
KR102075874B1 (ko) 전자책 변환 방법 및 이러한 방법을 수행하는 장치
Piroi et al. An environment for building mathematical knowledge libraries
Baur et al. The home stretch: developing automated solutions for legacy container list data at the Cuban Heritage Collection, University of Miami Libraries
Nikolaus et al. Automatic conversion of PDF-based, layout-oriented typesetting data to DAISY: Potentials and limitations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201030