CN106326198A - 文档处理方法和装置 - Google Patents

文档处理方法和装置 Download PDF

Info

Publication number
CN106326198A
CN106326198A CN201510334408.7A CN201510334408A CN106326198A CN 106326198 A CN106326198 A CN 106326198A CN 201510334408 A CN201510334408 A CN 201510334408A CN 106326198 A CN106326198 A CN 106326198A
Authority
CN
China
Prior art keywords
term
xml document
mates
terminology bank
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510334408.7A
Other languages
English (en)
Inventor
黄珏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201510334408.7A priority Critical patent/CN106326198A/zh
Priority to PCT/CN2015/090053 priority patent/WO2016201807A1/zh
Publication of CN106326198A publication Critical patent/CN106326198A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Abstract

本发明公开了一种文档处理方法,所述方法包括以下步骤:获得XML文档中的术语;判断获得的所述术语与预置术语库中的术语是否匹配;如果获得的所述术语与预置术语库中的术语匹配,则在所述XML文档相应位置插入与预置术语库中术语匹配的术语的链接信息。本发明还公开了一种文档处理装置。本发明能够无需人为参与,自动在XML文档中插入术语的链接信息。

Description

文档处理方法和装置
技术领域
本发明涉及自动化技术领域,尤其涉及一种文档处理方法和装置。
背景技术
XML(Extensible Markup Language)即可扩展标记语言,扩展标记语言XML是一种简单的数据存储语言,它与HTML一样,都是出于标准通用语言SGML。常用于简化数据的存储和共享,是当前处理结构化文档信息的有力工具。
为适应产品的XML文档的快速开发,大多数的企业都建立了独立的术语库,以管理XML文档中的术语以及使用这些术语。
目前,为在执行XML文档时,能够顺利使用术语,每次制作XML文档时,文档作者都要手工在术语库中实行查找、辨别和在XML文档制作链接信息的步骤。
发明内容
本发明的主要目的在于提出一种文档处理方法和装置,旨在解决自动在XML文档中插入术语的链接信息的技术问题。
为实现上述目的,本发明提供的一种文档处理方法,所述方法包括以下步骤:获得XML文档中的所述术语;判断获得的所述术语与预置术语库中的术语是否匹配;如果获得的所述术语与预置术语库中的术语匹配,则在所述XML文档相应位置插入与预置术语库中术语匹配的术语的链接信息。
优选地,所述获得XML文档中的所述术语的步骤之后,所述判断获得的所述术语与预置术语库中的术语是否匹配的步骤之前还包括:判断获得的所述术语与黑名单中的术语是否匹配;如果判断结果为否,则执行所述判断获得的所述术语与预置术语库中的术语是否匹配的步骤。
优选地,所述获得XML文档中的所述术语的步骤包括:获得所述XML文档中的英文内容;判断所述英文内容中除首字母之外,是否还存在大写字母;如果所述英文内容中除首字母之外,还存在大写字母,则确定所述英文内容为术语。
优选地,所述判断获得的所述术语与预置术语库中的术语是否匹配的步骤包括:判断获得的所述术语与白名单中的术语是否匹配;如果获得的所述术语与白名单中的术语匹配,则在所述XML文档相应位置插入与白名单中术语匹配的术语的链接信息;如果获得的所述术语与白名单中的术语不匹配,则判断获得的所述术语与本地索引中的术语是否匹配;如果获得的所述术语与本地索引中的术语匹配,则在所述XML文档相应位置插入与本地索引中术语匹配的术语的链接信息;如果获得的所述术语与本地索引中的术语不匹配,则判断获得的所述术语与远程术语库中的术语是否匹配;如果获得的所述术语与远程术语库中的术语匹配,则在所述XML文档相应位置插入与远程术语库中术语匹配的术语的链接信息。
优选地,所述如果获得的所述术语与预置术语库中的术语匹配,则在所述XML文档相应位置插入与预置术语库中术语匹配的术语的链接信息的步骤包括:在获得的所述术语与预置术语库中的术语匹配的数量为至少一个时,显示选择界面;接收用户在所述选择界面触发的选择命令,根据所述选择命令在所述XML文档相应位置插入所述术语的链接信息。
此外,为实现上述目的,本发明还提供一种使用术语的装置,所述装置包括:获得模块,用于获得XML文档中的所述术语;第一判断模块,用于判断获得的所述术语与预置术语库中的术语是否匹配,所述预置术语库包括白名单、本地索引和远程术语库;处理模块,用于如果获得的所述术语与预置术语库中的术语匹配,则在所述XML文档相应位置插入与预置术语库中术语匹配的术语的链接信息。
优选地,所述装置还包括:第二判断模块,用于判断获得的所述术语与黑名单是否匹配;如果所述第二判断模块的判断结果为否,则所述第一判断模块判断获得的所述术语与预置术语库中的术语是否匹配。
优选地,所述获得模块包括:获得单元,用于获得所述XML文档中的英文内容;判断单元,用于判断所述英文内容中除首字母之外,是否存在大写字母;确定单元,用于在所述判断单元的判断结果为所述英文内容中除首字母之外,存在大写英文字母时,确定所述英文内容为所述术语。
优选地,所述第一判断模块包括:第一判断单元,用于判断获得的所述术语与白名单中的术语是否匹配,如果获得的所述术语与白名单中的术语匹配,则所述处理模块在所述XML文档相应位置插入与白名单中术语匹配的术语的链接信息;第二判断单元,用于在获得的所述术语与白名单中的术语不匹配时,判断获得的所述术语与本地索引中的术语是否匹配,如果获得的所述术语与本地索引中的术语匹配,则所述处理模块在所述XML文档相应位置插入与本地索引中术语匹配的术语的链接信息;第三判断单元,用于在获得的所述术语与本地索引中的术语不匹配时,判断获得的所述术语与远程术语库中的术语是否匹配,如果获得的所述术语与远程术语库中的术语匹配,则所述处理模块在所述XML文档相应位置插入与远程术语库中术语匹配的术语的链接信息。
优选地,所述处理模块包括:显示单元,用于在所述第一判断模块判断结果为获得的所述术语与预置术语库中匹配的数量为至少一个时,显示选择界面;处理单元,用于接收用户在所述选择界面触发的选择命令,根据所述选择命令在所述XML文档相应位置插入所述术语的链接信息,以供使用所述术语。
本发明通过获得XML文档中的术语;判断获得的所述术语与预置术语库中的术语是否匹配;如果获得的所述术语与预置术语库中的术语匹配,则在所述XML文档相应位置插入与预置术语库中术语匹配的术语的链接信息。通过上述方式,本发明可以自动从XML文档中获得术语,无需人为参与,在预置术语库中查找与获得的术语匹配的术语,并在所述XML文档相应位置插入匹配的术语的链接信息。可以节省XML文档作者的手工在术语库中实行查找、辨别和在XML文档制作链接信息的时间,同时可以避免XML文档作者在手工操作过程中容易的误操作,比如可以避免在术语库中重复术语过多时,即一个术语名具有多个不同的解释,会使得XML文档作者在挑选正确条目上花费的时间很长,且可能一个术语名具有多个连接信息时,容易使得制作出现错误的问题。
附图说明
图1为本发明文档处理方法第一实施例的流程示意图;
图2为本发明文档处理方法第二实施例的流程示意图;
图3为图1中获得XML文档中的所述术语的步骤的细化流程示意图;
图4为本发明文档处理方法第三实施例的流程示意图;
图5为图1中如果获得的所述术语与预置术语库中的术语匹配,则在所述XML文档相应位置插入与预置术语库中术语匹配的术语的链接信息的步骤的细化流程示意图;
图6为图5中选择界面示意图;
图7为本发明文档处理装置第一实施例的功能模块示意图;
图8为本发明文档处理装置第一实施例的功能模块示意图;
图9为图7中获得模块的细化功能模块示意图;
图10为图7中第一判断模块的细化功能模块示意图;
图11为图7中处理模块的细化功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文档处理方法。
请参照图1,图1为本发明文档处理方法第一实施例的流程示意图。
在本实施例中,该文档处理方法包括:
步骤S10,获得XML文档中的所述术语;
用户在本发明软件相应输入框中输入本地索引文件路径或者待处理XML文件路径,当然还可以通过本发明的软件打开待处理的XML文件。本发明软件根据用户输入的待处理的XML文件的路径,找到对应的待处理XML文档,读取XML文档中内容,自动搜索所述XML文档中的术语,本发明中术语包括术语和/或缩略语,从而获得所述XML文档中的术语,然后进入步骤S20。
步骤S20,判断获得的所述术语与预置术语库中的术语是否匹配;
本实施例中预置术语库包括但不限于术语的名称、地址、英文全称和中文全称,具体实施中可以根据不同的术语设置不同的内容。根据步骤S10获得的所述XML文档中的术语,判断所述术语是否与预置术语库中的术语匹配,比如本实施例中通过判断获得的所述术语是否和预置术语库中名称列中的内容相同。如果判断结果为所述术语与预置术语库中的术语匹配,则进入步骤S30,否则进入步骤S40。
步骤S30,在所述XML文档相应位置插入与预置术语库中术语匹配的术语的链接信息;
根据步骤S20的判断结果,在所述术语与预置术语库中的术语匹配时,在所述XML文档中与预置术语库中的术语匹配的所述术语的相应位置插入对应该术语的链接信息。在后续使用XML文档时,可以通过插入的链接信息读取到对应所述术语的属性,即读取到所述术语的名称、地址、英文全称和中文全称等,从而使用所述术语,执行对应操作或显示对应的内容。
步骤S40,显示提示信息。
根据步骤S20的判断结果,在所述术语与预置术语库中的术语不匹配时,可以显示提示信息;或者在处理所述XML文档之后显示提示信息;当然也可以不显示提示信息。
本发明通过获得XML文档中的所述术语;判断获得的所述术语与预置术语库中的术语是否匹配;如果获得的所述术语与预置术语库中的术语匹配,则在所述XML文档相应位置插入所述术语的链接信息,以供使用所述术语。通过上述方式,本发明可以自动从XML文档中获得术语,无需人为参与,在预置术语库中查找与获得的术语匹配的术语,并在所述XML文档相应位置插入匹配的术语的链接信息。可以节省XML文档作者的手工在术语库中实行查找、辨别和在XML文档制作链接信息的时间,同时可以避免XML文档作者在手工操作过程中容易的误操作,比如可以避免在术语库中重复术语过多时,即一个术语名具有多个不同的解释,会使得XML文档作者在挑选正确条目上花费的时间很长,且可能一个术语名具有多个连接信息时,容易使得制作出现错误的问题。
请参照图2,图2为本发明文档处理方法第二实施例的流程示意图。
基于第一实施例,在步骤S10和步骤S20之间还可以包括:
步骤S50,判断获得的所述术语与黑名单中的术语是否匹配;
本实施例可以在本地或者服务器中建立黑名单,所述黑名单包括不需要判断的术语。具体实施中也可以不建立黑名单。在步骤S10获得的所述术语后,在步骤S20判断获得的所述术语与预置术语库中的术语是否匹配的步骤之前,可以先判断获得的所述术语与黑名单中的术语是否匹配。如果判断结果为获得的所述术语与黑名单中的术语匹配,则进入步骤S60;如果判断结果为获得的所述术语与黑名单中的术语不匹配,则进入步骤S20。
步骤S60,不做任何处理。
如果步骤S50的判断结果为获得的所述术语与黑名单中的术语匹配,则不做任何处理,当然也可以返回步骤S50,继续判断下一个术语与黑名单中的术语是否匹配。
请参照图3,图3为图1中获得XML文档中的所述术语的步骤的细化流程示意图。
基于第一实施例,步骤S10包括:
步骤S11,获得所述XML文档中的英文内容;
用户在本发明软件相应输入框中输入本地索引文件路径或者待处理XML文档路径,当然还可以通过本发明的软件打开待处理的XML文档。用户输入本地索引文件路径或者待处理XML文档路径后,用户点击开始处理按钮,本发明基于用户触发的开始命令,开始逐节点读取所述XML文档。XML文档一般分为两种:一种是纯英文文档;一种是英文和其他类型文字混合的文档,比如中英文混合文档。在读取所述英文内容前,判断待处理的XML文档是纯英文文档还是混合文档。如果读取到的是纯英文文档,则按空格符提取其中的英文内容;如果读取到的是混合文档,则确定混合文档中的英文内容,比如逐一读取所述混合文档的内容,然后判断读取的内容是否为英文内容,当然还可以根据标点符号逐句判断或者逐一判断读取的内容是否为英文内容。具体实施中在读取到所述XML文档中的英文内容时,还可以记录读取到的英文内容的位置,当然也可以不记录读取到的英文内容的位置,比如在逐行或者逐句处理所述XML文档时,可以不记录读取到的英文内容的位置。获取到所述XML文档中的英文内容时,进入步骤S12。
步骤S12,判断所述英文内容中除首字母之外,是否还存在大写字母;
根据步骤S11获得的所述XML文档中的英文内容,判断所述英文内容中除首字母外,是否还存在大写字母。如果判断到所述英文内容中除首字母之外,还存在大写字母,则进入步骤S13,否则,进入步骤S14。
步骤S13,如果所述英文内容中除首字母之外,还存在大写字母,则确定所述英文内容为术语;
对于在所述XML文档中的术语,一般为连续的至少两个英文大写字母。根据步骤S12的判断结果为判断到所述英文内容中除首字母之外,还存在大写字母,则确定所述英文内容为术语。然后继续读取所述XML文档后续内容,或者继续判断读取到的后续英文内容。
步骤S14,确定所述英文内容不是术语。
根据步骤S12的判断结果为判断到所述英文内容中除首字母之外,不存在大写字母,则确定所述英文内容不是术语。然后继续读取所述XML文档后续内容,或者继续判断读取到的后续英文内容。
本发明利用在XML文档中术语的形式为除去首字母至少还存在一个大写字母的现象,判断所述XML文档中的术语。首先判断读取的所述XML文档的类型,如果所述XML文档是纯英文文档,则利用各个英文单词之间会存在空格的现象,确定读取到的英文内容;如果所述XML文档是混合文档,则判断读取的内容是否为英文内容。在读取到英文内容时,提取所述XML文档中的英文内容,从而获得所述XML文档中的英文内容。
请参照图4,图4为本发明文档处理方法第三实施例的流程示意图。基于本发明文档处理方法第一实施例,步骤S20包括:
步骤S21,判断获得的所述术语与白名单中的术语是否匹配;
本实施例可以在本地或者服务器中建立白名单、本地索引和远程术语库,所述白名单、本地索引和远程术语库可以位于本地终端中也可以位于服务器中,优选地所述白名单、本地索引位于本地终端中,其中,白名单、本地索引可以为远程术语库的子集,具体实施中白名单、本地索引和远程术语库也可以是没有交集的三个术语库,即各自包括不同的术语。在更多的实施中用户可以根据实际需要建立其中两个术语库,或者多个术语库。根据步骤S10获得XML文档中的术语,判断获得的所述术语与白名单中的术语是否匹配。如果判断结果为获得的所述术语与白名单中的术语匹配,则进入步骤S30;如果获得的所述术语与白名单中的术语不匹配,则进入步骤S22。
具体实施中在执行本步骤之前还可以判断获得的所述术语与黑名单中的术语是否匹配,如果判断结果为获得的所述术语与黑名单中的术语不匹配时,才进行本步骤。
步骤S22,判断获得的所述术语与本地索引中的术语是否匹配;
如果步骤S21的判断结果为获得的所述术语与白名单中的术语不匹配,则判断获得的所述术语与本地索引中的术语是否匹配,本地索引中包括常用的术语。如果判断结果为获得的所述术语与本地索引中的术语匹配,则进入步骤S30;如果判断结果为获得的所述术语与本地索引中的术语不匹配,则进入步骤S23。
步骤S23,判断获得的所述术语与远程术语库中的术语是否匹配;
根据步骤S22的判断结果为获得的所述术语与本地索引中的术语不匹配时,判断获得的所述术语与远程术语库中的术语是否匹配,远程术语库可以位于远程服务器中,也可以位于本地数据库中。如果判断结果为获得的所述术语与远程术语库中的术语匹配,则进入步骤S30;如果判断结果为获得的所述术语与远程术语库中的术语不匹配,则进入步骤S24。
步骤S24,不进行任何处理;
如果在步骤S23的判断结果为获得的所述术语与远程术语库中的术语不匹配,则不进行任何处理或者继续处理XML文档后续内容。
本实施例中白名单和本地索引是远程术语库的子集,当然白名单和本地索引是远程术语库也可以没有交集,各自包括不同的术语,即将所有的术语按需要分别放在白名单、本地索引和远程术语库中。具体实施中,在步骤S22和步骤S23中在判断到获得的所述术语与本地索引或者远程术语库中的术语匹配时,还可以显示提示信息,比如是否加入白名单,或者编辑白名单、本地索引和远程术语库。在更多的实施中还可以只建立本地索引和远程术语库。
步骤S30,在所述XML文档相应位置插入与预置术语库中术语匹配的术语的链接信息。
如果在步骤S21的判断结果是获得的所述术语与白名单中的术语匹配,则步骤S30包括在所述XML文档相应位置插入与白名单中术语匹配的术语的链接信息。如果在步骤S22的判断结果是获得的所述术语与白名单中的术语匹配,则步骤S30包括在所述XML文档相应位置插入与本地索引中术语匹配的术语的链接信息。如果在步骤S23的判断结果是获得的所述术语与白名单中的术语匹配,则步骤S30包括在所述XML文档相应位置插入与远程术语库中术语匹配的术语的链接信息。
本发明将术语放在白名单、本地索引和远程术语库三个库中,将链接信息确定的术语放在白名单中,常用的术语放在本地索引中,然后分别判断获得的所述术语是否在白名单、本地索引和远程术语库中,提高了查找效率。可以在一定程度上避免随着术语库中术语的增多,如果放在同一个术语库中,导致查找时间长的问题。
请参照图5,图5为图1中如果获得的所述术语与预置术语库中的术语匹配,则在所述XML文档相应位置插入与预置术语库中术语匹配的术语的链接信息的步骤的细化流程示意图。
步骤S31,在获得的所述术语与预置术语库中的术语匹配的数量为至少一个时,显示选择界面;
如果在步骤S20判断到得的所述术语与预置术语库中的术语匹配的数量为至少一个时,显示选择界面,如图6所示,图6为选择界面示意图。所述选择界面包括读取到的所述术语的内容、匹配内容的英文全称和中文全称、匹配内容的说明信息、选择项、编辑白名单按钮和确定按钮等。其中匹配内容的说明信息可以根据用户在选择界面选择不同的选择项显示对应选择项的说明,用户可以通过编辑白名单进入白名单编辑界面。具体实施中所述选择界面还可以根据用户设置需要添加或者减少功能按键或者设置不同的界面,比如添加编辑黑名单、编辑本地索引等按钮,然后通过对应的按钮进入相应编辑界面。具体实施中,如果判断到获得的所述术语与白名单中的术语匹配,则可以不显示选择界面,直接在所述XML文档相应位置插入与白名单中术语匹配的术语的链接信息。在更多的实施中还可以在步骤S20判断到得的所述术语与预置术语库中的术语匹配的数量为至少两个时,显示选择界面,可以在一定程度上减少用户操作。在接收到用户基于所述选择界面触发的选择命令后,进入步骤S32。
步骤S32,接收用户在所述选择界面触发的选择命令,根据所述选择命令在所述XML文档相应位置插入所述术语的链接信息。
根据步骤S31,用户在所述选择界面触发的选择命令,终端接收到选择命令,根据所述选择命令在所述XML文档相应位置插入所述术语的链接信息以供所述XML文档在执行时通过链接信息使用所述术语。当然也可以根据“跳过”的选择命令跳过此次处理,继续处理后续的XML文档内容,或者根据对应编辑按钮进入白名单、本地索引或远程数据库的编辑界面。
本发明在判断获得的所述术语与预置术语库中的术语匹配的数量为至少一个时,显示选择界面。用户可以通过选择界面查看匹配所述术语的相关信息,帮助用户识别正确的匹配所述术语的链接信息,提高用户识别所述术语的速度,并可以通过选择界面进入对应术语库,进行编辑。能够大大减少用户在挑选正确术语上花费的时间;方便用户在使用过程中调整所述预置的术语库。
本发明进一步提供一种文档处理装置。
请参照图7,图7为本发明文档处理装置第一实施例的功能模块示意图。
在本实施例中,该文档处理装置包括:获得模块10、第一判断模块20和处理模块30。
获得模块10,用于获得XML文档中的术语;
用户在本发明软件相应输入框中输入本地索引文件路径或者待处理XML文件路径,当然还可以通过本发明的软件打开待处理的XML文件。本发明软件根据用户输入的待处理的XML文件的路径,找到对应的待处理XML文档,读取XML文档中内容,自动搜索所述XML文档中的术语,本发明中术语包括术语和/或缩略语,从而获得所述XML文档中的术语。
第一判断模块20,用于判断获得的所述术语与预置术语库中的术语是否匹配,所述预置术语库包括白名单、本地索引和远程术语库。
本实施例中预置术语库包括但不限于术语的名称列、地址列、英文全称列和中文全称列,具体实施中可以根据不同的术语设置不同的内容。根据获得模块10获得的所述XML文档中的术语,判断所述术语是否与预置术语库中的术语匹配,比如本实施例中通过判断获得的所述术语是否和预置术语库中名称列中的内容相同。
处理模块30,用于如果获得的所述术语与预置术语库中的术语匹配,则在所述XML文档相应位置插入与预置术语库中术语匹配的术语的链接信息。
根据第一判断模块20的判断结果,在所述术语与预置术语库中的术语匹配时,在所述XML文档中与预置术语库中的术语匹配的所述术语的相应位置插入对应该术语的链接信息。在后续使用XML文档时,可以通过读取链接信息读取到对应所述术语的属性,即读取到所述术语的名称、地址、英文全称和中文全称等,从而使用所述术语,执行对应操作或显示对应的内容。具体实施中还可以根据第一判断模块20的判断结果为所述术语与预置术语库中的术语不匹配时,显示提示信息;或者在处理所述XML文档之后显示提示信息;当然也可以不显示提示信息。
本发明通过获得XML文档中的所述术语;判断获得的所述术语与预置术语库中的术语是否匹配;如果获得的所述术语与预置术语库中的术语匹配,则在所述XML文档相应位置插入所述术语的链接信息,以供使用所述术语。通过上述方式,本发明可以自动从XML文档中获得术语,无需人为参与,在预置术语库中查找与获得的术语匹配的术语,在所述XML文档相应位置插入匹配的术语的链接信息。可以节省XML文档作者的手工在术语库中实行查找、辨别和在XML文档制作链接信息的时间,同时可以避免XML文档作者在手工操作过程中容易的误操作,比如可以避免在术语库中重复术语过多时,即一个术语名具有多个不同的解释,会使得XML文档作者在挑选正确条目上花费的时间很长,且可能一个术语名具有多个连接信息时,容易使得制作出现错误的问题。
请参照图8,图8为本发明文档处理装置第二实施例的功能模块示意图。基于本发明文档处理装置第一实施例,所述装置还可以包括:
第二判断模块40,用于判断获得的所述术语与黑名单是否匹配。
本实施例可以在本地或者服务器中建立黑名单,所述黑名单包括不需要判断的术语。具体实施中也可以不建立黑名单。在获得的所述术语后,在判断获得的所述术语与预置术语库中的术语是否匹配之前,可以先判断获得的所述术语与黑名单中的术语是否匹配。
如果第二判断模块40的判断结果为获得的所述术语与黑名单中的术语不匹配,则第一判断模块20判断获得的所述术语与预置术语库中的术语是否匹配。如果第二判断模块40的判断结果为获得的所述术语与黑名单中的术语匹配,则不做任何处理,当然也可以继续判断下一个术语与黑名单中的术语是否匹配。
请参照图9,图9为图7中获得模块的细化功能模块示意图。
基于本发明文档处理装置第一实施例,获得模块10包括:
获得单元11,用于获得所述XML文档中的英文内容。
用户在本发明软件相应输入框中输入本地索引文件路径或者待处理XML文档路径,当然还可以通过本发明的软件打开待处理的XML文档。用户输入本地索引文件路径或者待处理XML文档路径后,用户点击开始处理按钮,本发明基于用户触发的开始命令,开始逐节点取所述XML文档。XML文档一般分为两种:一种是纯英文文档;一种是英文和其他类型文字混合的文档,比如中英文混合文档。在读取所述英文内容前,判断待处理的XML文档是纯英文文档还是混合文档。如果读取到的是纯英文文档,则按空格符提取其中的英文内容;如果读取到的是混合文档,则确定混合文档中的英文内容,比如逐一读取所述混合文档的内容,然后判断读取的内容是否为英文内容,当然还可以根据标点符号逐句判断或者逐一判断读取的内容是否为英文内容。具体实施中在读取到所述XML文档中的英文内容时,还可以记录读取到的英文内容的位置,当然也可以不记录读取到的英文内容的位置,比如在逐行或者逐句处理所述XML文档时,可以不记录读取到的英文内容的位置。
判断单元12,用于判断所述英文内容中除首字母之外,是否存在大写字母。
根据获得单元11获得的所述XML文档中的英文内容,判断所述英文内容中除首字母外,是否还存在大写字母。
确定单元13,用于在所述判断单元的判断结果为所述英文内容中除首字母之外,存在大写英文字母时,确定所述英文内容为所述术语。
对于在所述XML文档中的术语,一般为连续的至少两个英文大写字母。根据判断单元12的判断结果为判断到所述英文内容中除首字母之外,还存在大写字母时,确定所述英文内容为术语。如果判断单元12的判断结果为判断到所述英文内容中除首字母之外,不存在大写字母,则确定所述英文内容不是术语。然后继续读取所述XML文档后续内容,或者继续判断读取到的后续英文内容。
本发明利用在XML文档中术语的形式为除去首字母至少还存在一个大写字母的现象,判断所述XML文档中的术语。首先判断读取的所述XML文档的类型,如果所述XML文档是纯英文文档,则利用各个英文单词之间会存在空格的现象,确定读取到的英文内容;如果所述XML文档是混合文档,则判断读取的内容是否为英文内容。在读取到英文内容时,提取所述XML文档中的英文内容,从而获得所述XML文档中的英文内容。
请参照图10,图10为图7中第一判断模块的细化功能模块示意图。
基于本发明文档处理装置第一实施例,第一判断模块20包括:
第一判断单元21,用于判断获得的所述术语与白名单中的术语是否匹配。如果获得的所述术语与白名单中的术语匹配,则处理模块30在所述XML文档相应位置插入与白名单中术语匹配的术语的链接信息。
本实施例可以在本地或者服务器中建立白名单、本地索引和远程术语库,所述白名单、本地索引和远程术语库可以位于本地终端中也可以位于服务器中,优选地所述白名单、本地索引位于本地终端中,其中,白名单、本地索引可以为远程术语库的子集,具体实施中白名单、本地索引和远程术语库也可以是没有交集的三个术语库,即各自包括不同的术语。在更多的实施中用户可以根据实际需要建立其中两个术语库,或者多个术语库。根据获取模块10获得XML文档中的术语,判断获得的所述术语与白名单中的术语是否匹配。如果获得的所述术语与白名单中的术语匹配,则处理模块30在所述XML文档相应位置插入与白名单中术语匹配的术语的链接信息。
第二判断单元22,用于在获得的所述术语与白名单中的术语不匹配时,判断获得的所述术语与本地索引中的术语是否匹配。如果获得的所述术语与本地索引中的术语匹配,则处理模块30在所述XML文档相应位置插入与本地索引中术语匹配的术语的链接信息。
如果第一判断单元21的判断结果为获得的所述术语与白名单中的术语不匹配,则判断获得的所述术语与本地索引中的术语是否匹配,本地索引中包括常用的术语。如果获得的所述术语与本地索引中的术语匹配,则所述处理模块在所述XML文档相应位置插入与本地索引中术语匹配的术语的链接信息。
第三判断单元23,用于在获得的所述术语与本地索引中的术语不匹配时,判断获得的所述术语与远程术语库中的术语是否匹配,如果获得的所述术语与远程术语库中的术语匹配,则处理模块30在所述XML文档相应位置插入与远程术语库中术语匹配的术语的链接信息。
根据第二判断单元22的判断结果为获得的所述术语与本地索引中的术语不匹配时,判断获得的所述术语与远程术语库中的术语是否匹配,远程术语库可以位于远程服务器中,也可以位于本地数据库中。如果获得的所述术语与远程术语库中的术语匹配,则处理模块30在所述XML文档相应位置插入与远程术语库中术语匹配的术语的链接信息。如果判断结果为获得的所述术语与远程术语库中的术语不匹配,则不进行任何处理或者继续处理XML文档后续内容。
本实施例中白名单和本地索引是远程术语库的子集,当然白名单和本地索引是远程术语库也可以没有交集,各自包括不同的术语,即将所有的术语按需要分别放在白名单、本地索引和远程术语库中。具体实施中,在第二判断单元22和第三判断单元23中在判断到获得的所述术语与本地索引或者远程术语库中的术语匹配时,还可以显示提示信息,比如是否加入白名单,或者编辑白名单、本地索引和远程术语库。在更多的实施中还可以只建立本地索引和远程术语库。
本发明将术语放在白名单、本地索引和远程术语库三个库中,将链接信息确定的术语放在白名单中,常用的术语放在本地索引中,然后分别判断获得的所述术语是否在白名单、本地索引和远程术语库中,提高了查找效率。可以在一定程度上避免随着术语库中术语的增多,如果放在同一个术语库中,导致查找时间长的问题。
请参照图11,图11为图7中处理模块的细化功能模块示意图。
基于本发明文档处理装置第一实施例,处理模块30包括:
显示单元31,用于在所述第一判断模块判断结果为获得的所述术语与预置术语库中匹配的数量为至少一个时,显示选择界面。
如果在第一判断单元20判断到得的所述术语与预置术语库中的术语匹配的数量为至少一个时,显示选择界面,如图6所示,图6为选择界面示意图。所述选择界面包括读取到的所述术语的内容、匹配内容的英文全称和中文全称、匹配内容的说明信息、选择项、编辑白名单按钮和确定按钮等。其中匹配内容的说明信息可以根据用户在选择界面选择不同的选择项显示对应选择项的说明,用户可以通过编辑白名单进入白名单编辑界面。具体实施中所述选择界面还可以根据用户设置需要添加或者减少功能按键或者设置不同的界面,比如添加编辑黑名单、编辑本地索引等按钮,然后通过对应的按钮进入相应编辑界面。具体实施中,如果判断到获得的所述术语与白名单中的术语匹配,则可以不显示选择界面,直接在所述XML文档相应位置插入与白名单中术语匹配的术语的链接信息。在更多的实施中还可以在判断到得的所述术语与预置术语库中的术语匹配的数量为至少两个时,显示选择界面,可以在一定程度上减少用户操作。
处理单元32,用于接收用户在所述选择界面触发的选择命令,根据所述选择命令在所述XML文档相应位置插入所述术语的链接信息。
根据用户在显示单元31中选择界面触发的选择命令,终端接收到选择命令,根据所述选择命令在所述XML文档相应位置插入所述术语的链接信息,以供所述XML文档在执行时通过链接信息使用所述术语。当然也可以根据“跳过”的选择命令跳过此次处理,继续处理后续的XML文档内容,或者根据对应编辑按钮进入白名单、本地索引或远程数据库的编辑界面。
本发明在判断获得的所述术语与预置术语库中的术语匹配的数量为至少一个时,显示选择界面。用户可以通过选择界面查看匹配所述术语的相关信息,帮助用户识别正确的匹配所述术语的链接信息,提高用户识别所述术语的速度,并可以通过选择界面进入对应术语库,进行编辑。能够减少用户在挑选正确术语上花费的时间;方便用户在使用过程中调整所述预置的术语库。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文档处理方法,其特征在于,所述方法包括以下步骤:
获得XML文档中的术语;
判断获得的所述术语与预置术语库中的术语是否匹配;
如果获得的所述术语与预置术语库中的术语匹配,则在所述XML文档相应位置插入与预置术语库中术语匹配的术语的链接信息。
2.如权利要求1所述的方法,其特征在于,所述获得XML文档中的术语的步骤之后,所述判断获得的所述术语与预置术语库中的术语是否匹配的步骤之前还包括:
判断获得的所述术语与黑名单中的术语是否匹配;
如果判断结果为否,则执行所述判断获得的所述术语与预置术语库中的术语是否匹配的步骤。
3.如权利要求1所述的方法,其特征在于,所述获得XML文档中的术语的步骤包括:
获得所述XML文档中的英文内容;
判断所述英文内容中除首字母之外,是否还存在大写字母;
如果所述英文内容中除首字母之外,还存在大写字母,则确定所述英文内容为术语。
4.如权利要求1-3任一项所述的方法,其特征在于,所述判断获得的所述术语与预置术语库中的术语是否匹配的步骤包括:
判断获得的所述术语与白名单中的术语是否匹配;
如果获得的所述术语与白名单中的术语匹配,则在所述XML文档相应位置插入与白名单中术语匹配的术语的链接信息;
如果获得的所述术语与白名单中的术语不匹配,则判断获得的所述术语与本地索引中的术语是否匹配;
如果获得的所述术语与本地索引中的术语匹配,则在所述XML文档相应位置插入与本地索引中术语匹配的术语的链接信息;
如果获得的所述术语与本地索引中的术语不匹配,则判断获得的所述术语与远程术语库中的术语是否匹配;
如果获得的所述术语与远程术语库中的术语匹配,则在所述XML文档相应位置插入与远程术语库中术语匹配的术语的链接信息。
5.如权利要求1所述的方法,其特征在于,所述如果获得的所述术语与预置术语库中的术语匹配,则在所述XML文档相应位置插入与预置术语库中术语匹配的术语的链接信息的步骤包括:
在获得的所述术语与预置术语库中的术语匹配的数量为至少一个时,显示选择界面;
接收用户在所述选择界面触发的选择命令,根据所述选择命令在所述XML文档相应位置插入所述术语的链接信息。
6.一种文档处理装置,其特征在于,所述装置包括:
获得模块,用于获得XML文档中的术语;
第一判断模块,用于判断获得的所述术语与预置术语库中的术语是否匹配,所述预置术语库包括白名单、本地索引和远程术语库;
处理模块,用于如果获得的所述术语与预置术语库中的术语匹配,则在所述XML文档相应位置插入与预置术语库中术语匹配的术语的链接信息。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
第二判断模块,用于判断获得的所述术语与黑名单是否匹配;
如果所述第二判断模块的判断结果为否,则所述第一判断模块判断获得的所述术语与预置术语库中的术语是否匹配。
8.如权利要求6所述的装置,其特征在于,所述获得模块包括:
获得单元,用于获得所述XML文档中的英文内容;
判断单元,用于判断所述英文内容中除首字母之外,是否存在大写字母;
确定单元,用于在所述判断单元的判断结果为所述英文内容中除首字母之外,存在大写英文字母时,确定所述英文内容为所述术语。
9.如权利要求6-8任一项所述的装置,其特征在于,所述第一判断模块包括:
第一判断单元,用于判断获得的所述术语与白名单中的术语是否匹配,如果获得的所述术语与白名单中的术语匹配,则所述处理模块在所述XML文档相应位置插入与白名单中术语匹配的术语的链接信息;
第二判断单元,用于在获得的所述术语与白名单中的术语不匹配时,判断获得的所述术语与本地索引中的术语是否匹配,如果获得的所述术语与本地索引中的术语匹配,则所述处理模块在所述XML文档相应位置插入与本地索引中术语匹配的术语的链接信息;
第三判断单元,用于在获得的所述术语与本地索引中的术语不匹配时,判断获得的所述术语与远程术语库中的术语是否匹配,如果获得的所述术语与远程术语库中的术语匹配,则所述处理模块在所述XML文档相应位置插入与远程术语库中术语匹配的术语的链接信息。
10.如权利要求6所述的装置,其特征在于,所述处理模块包括:
显示单元,用于在所述第一判断模块判断结果为获得的所述术语与预置术语库中匹配的数量为至少一个时,显示选择界面;
处理单元,用于接收用户在所述选择界面触发的选择命令,根据所述选择命令在所述XML文档相应位置插入所述术语的链接信息。
CN201510334408.7A 2015-06-16 2015-06-16 文档处理方法和装置 Pending CN106326198A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510334408.7A CN106326198A (zh) 2015-06-16 2015-06-16 文档处理方法和装置
PCT/CN2015/090053 WO2016201807A1 (zh) 2015-06-16 2015-09-18 文档处理方法、装置和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510334408.7A CN106326198A (zh) 2015-06-16 2015-06-16 文档处理方法和装置

Publications (1)

Publication Number Publication Date
CN106326198A true CN106326198A (zh) 2017-01-11

Family

ID=57544889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510334408.7A Pending CN106326198A (zh) 2015-06-16 2015-06-16 文档处理方法和装置

Country Status (2)

Country Link
CN (1) CN106326198A (zh)
WO (1) WO2016201807A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627816B2 (en) * 2005-04-12 2009-12-01 International Business Machines Corporation Method for providing a transient dictionary that travels with an original electronic document
CN101004762A (zh) * 2007-01-10 2007-07-25 张百川 一种动态多维互联网网页系统
CN101458690A (zh) * 2007-12-14 2009-06-17 北京龙拓互动广告有限公司 一种发布广告的方法和广告服务器
CN100595765C (zh) * 2008-06-30 2010-03-24 腾讯科技(深圳)有限公司 基于媒体播放器的关键词内容发布方法及系统

Also Published As

Publication number Publication date
WO2016201807A1 (zh) 2016-12-22

Similar Documents

Publication Publication Date Title
US10042828B2 (en) Rich text handling for a web application
US7823061B2 (en) System and method for text segmentation and display
CN107766328B (zh) 结构化文本的文本信息提取方法、存储介质和服务器
US7984076B2 (en) Document processing apparatus, document processing method, document processing program and recording medium
CA2204447C (en) Document display system and electronic dictionary
EP0285449B1 (en) Document processing system
US8972437B2 (en) Auto-population of a table
JP2005092271A (ja) 質問応答方法及び質問応答装置
CN103440232A (zh) 一种科技论文标准化自动检测编辑方法
WO2012012911A1 (en) Producing web page content
WO2004064372A3 (en) Grid-like guided user interface for video selection and display
CN103914476B (zh) 搜索引导方法和搜索引擎
CN103440233A (zh) 一种科技论文标准化自动检测编辑系统
CN108959254A (zh) 一种用于期刊pdf文件中文章内容的解析方法
US20140019852A1 (en) Document association device, document association method, and non-transitory computer readable medium
CN109446410A (zh) 知识点推送方法、装置及计算机可读存储介质
CN103778141A (zh) 一种混合pdf图书目录自动抽取算法
US20060167899A1 (en) Meta-data generating apparatus
CN111984690B (zh) 发票信息索引方法和系统
CN110287460B (zh) 电子书的展示方法、计算设备及计算机存储介质
CN105955986A (zh) 一种字符的转换方法及装置
CN109542299B (zh) 用于电子书的金句展示方法、电子设备及计算机存储介质
CN106326198A (zh) 文档处理方法和装置
US20080270387A1 (en) Method and systems for searching and displaying search results using proximity criteria
CN103309993B (zh) 一种关键词的提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170111