CN108984491A - 一种文档格式转换的方法和装置 - Google Patents

一种文档格式转换的方法和装置 Download PDF

Info

Publication number
CN108984491A
CN108984491A CN201810789098.1A CN201810789098A CN108984491A CN 108984491 A CN108984491 A CN 108984491A CN 201810789098 A CN201810789098 A CN 201810789098A CN 108984491 A CN108984491 A CN 108984491A
Authority
CN
China
Prior art keywords
document
identifier
error
conversion
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810789098.1A
Other languages
English (en)
Inventor
沈文策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810789098.1A priority Critical patent/CN108984491A/zh
Publication of CN108984491A publication Critical patent/CN108984491A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例提供了一种文档格式转换的方法和装置,所述方法包括:获取待转换文档;在待转换文档中的易出错区域,确定第一标识符;对待转换文档进行格式转换,得到包括第二标识符的转换后文档,以根据第二标识符,在转换后文档中查找格式转换后的易出错区域,第二标识符是对第一标识符进行格式转换后得到的标识符,第二标识符用于在转换后文档中,标识格式转换后的易出错区域。应用本发明实施例能够快速查找格式转换后的易出错区域。

Description

一种文档格式转换的方法和装置
技术领域
本发明涉及图像识别技术领域,特别是涉及一种文档格式转换的方法和装置。
背景技术
在日常的工作中,经常会需要对文档的格式进行转换,比如,将包含不可编辑的字符或文字的文档,转换为包含可编辑的字符或文字的文档,具体的,可以将PDF格式或包含字符或文字的图像格式的文档,转换为WORD或TXT格式的文档,以便能够对文档中的字符或文字进行编辑处理。而在实际应用中,经常会出现转换出错的问题,尤其在文档包括复杂的计算公式、特殊符号、以及相似的字符或文字等不易辨识的内容的情况下,转换后文档中这些不易辨识的内容对应的转换结果中所包含的错误,通常占全篇错误中的绝大多数;比如,当转换前文档中包括大写字母O或阿拉伯数字0时,易将大写字母O误转换为阿拉伯数字0,或将阿拉伯数字0误转换为大写字母O。为了方便说明,可以将文档中的不易辨识的内容所在的位置称为易出错区域。
为了保证转换后文档的正确性,需要由人工根据待转换文档中的易出错区域,在转换后文档中查找格式转换后的易出错区域,以便对格式转换后的易出错区域中的内容进行逐一校正。但由于段落、字体等设置不同等原因,造成转换后文档与待转换文档的排版差距较大,使得上述不易辨识区域在待转换文档与转换后文档中的分布情况差距较大,导致查找起来比较困难,且费时费力。
发明内容
本发明实施例的目的在于提供一种文档格式转换的方法和装置,以实现在转换后文档中,快速查找格式转换后的易出错区域。具体技术方案如下:
本发明实施例提供了一种文档格式转换的方法,所述方法包括:
获取待转换文档;
在待转换文档中的易出错区域,确定第一标识符;
对待转换文档进行格式转换,得到包括第二标识符的转换后文档,以根据第二标识符,在转换后文档中查找格式转换后的易出错区域,第二标识符是对第一标识符进行格式转换后得到的标识符,第二标识符用于在转换后文档中,标识格式转换后的易出错区域。
可选的,所述第一标识符,用于使用彩色颜色填涂,来标识待转换文档中的易出错区域。
可选的,所述第二标识符,用于使用与第一标识符相同或不同的彩色颜色填涂,来标识转换后文档中的格式转换后的易出错区域。
可选的,所述第一标识符,用于当待转换文档的易出错区域包括字符或文字时,通过在待转换文档的易出错区域中设置第一首标识符和第一尾标识符,来标识待转换文档中的易出错区域,其中,第一首标识符设置在待转换文档的易出错区域中的第一个字符或文字之前,第一尾标识符设置在待转换文档的易出错区域中的最后一个字符或文字之后。
可选的,所述第二标识符,用于通过转换后文档中的第二首标识符和第二尾标识符,查找转换后文档中的格式转换后的易出错区域,其中,第二首标识符是对第一首标识符进行格式转换后得到的标识符,第二尾标识符是对第一尾标识符进行格式转换后得到的标识符。
本发明实施例再提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的文档格式转换的方法。
本发明实施例再提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的文档格式转换的方法。
本发明实施例再提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的文档格式转换的方法。
本发明实施例提供的一种文档格式转换的方法和装置,首先,获取待转换文档;然后,在待转换文档中的易出错区域,确定第一标识符;接下来,对待转换文档进行格式转换,得到包括第二标识符的转换后文档,以使用户能够根据第二标识符,在转换后文档中查找格式转换后的易出错区域,进而对查找到的格式转换后的易出错区域进行校正,其中,第二标识符是对第一标识符进行格式转换后得到的标识符,第二标识符用于在转换后文档中,标识格式转换后的易出错区域。
这样,可以根据转换后文档中的第二标识符,在转换后文档中,快速查找到格式转换后的易出错区域,以便对格式转换后的易出错区域进行逐一校正,不仅提高了工作效率,而且可以保证转换后文档的正确性。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的文档格式转换的方法的一种流程图;
图2为本发明实施例中第一标识符的一种示意图;
图3为本发明实施例中第二标识符的一种示意图;
图4为本发明实施例的文档格式转换的方法的又一种流程图;
图5为本发明实施例中第一标识符的又一种示意图;
图6为本发明实施例中第二标识符的又一种示意图;
图7为本发明实施例的文档格式转换的装置的一种示意图;
图8为本发明实施例的电子设备的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,在对文档的格式进行转换的过程中,经常会出现转换出错的问题,尤其在文档包括复杂的计算公式、特殊符号、以及相似的字符或文字等不易辨识的内容的情况下,转换后文档中这些不易辨识的内容对应的转换结果中所包含的错误,通常占全篇错误中的绝大多数。为了方便说明,可以将文档中的不易辨识的内容所在的位置称为不易辨识区域。
为了保证转换后文档的正确性,需要由人工根据待转换文档中的上述不易辨识区域,在转换后文档中查找格式转换后的不易辨识区域,以便对格式转换后的不易辨识区域中的内容进行逐一校正。但由于段落、字体等设置不同等原因,造成转换后文档与待转换文档的排版差距较大,使得上述不易辨识区域在待转换文档与转换后文档中的分布情况差距较大,导致查找起来比较困难,且费时费力。
为了解决上述问题,本发明实施例提供了一种文档格式转换的方法和装置,能够在转换后文档中,快速查找到格式转换后的易出错区域,以便对格式转换后的易出错区域进行逐一校正,不仅提高了工作效率,而且可以保证转换后文档的正确性。
本发明实施例提供了一种文档格式转换的方法。参见图1,图1为本发明实施例的文档格式转换的方法的一种流程图,包括如下步骤:
步骤101,获取待转换文档。
在本步骤中,可以获取待转换文档,以便对获取到的待转换文档进行格式转换处理,其中,待转换文档是指用于格式转换的文档,通常情况下,可以将文档格式为不可编辑的待转换文档,转换为文档格式为可编辑的文档,或者,文档格式为可编辑的待转换文档,转换为文档格式为不可编辑的文档。
比如,可以将pdf文档格式的待转换文档,转换为txt格式或者word格式的文档;或者,将doc,docx,txt,ppt,pptx,xls,xlsx等Office格式的待转换文档,转换为pdf格式的文档。
在实际应用中,本发明实施例提供的文档格式转换的方法可以通过离线单机上的软件实现,也可以通过在线网页来实现。对应的,获取待转换文档的方式包括将待转换文档加载至离线单机上的软件中,或者将待转换文档上传至在线网页中。具体的,在通过在线网页来实现的情况下,可以在网页上加载具有格式转换功能的插件,由具有格式转换功能的插件完成文档的格式转换处理,并将转换后的文档的预览显示在网页上。
比如,可以使用超文本预处理器(Hypertext Preprocessor,PHP)语言编写的小程序实现文档的格式转换功能,这样编写的小程序具有很好的扩展性,可以调用OpenOffice软件和Windows系统的内核,并有一个简单的基于Java描述语言(Javascript)的插件来实现完整的文档的格式转换功能。整套程序轻量化,不会有多余的负载,对于中小型文库类网站很有价值。此外,当网页服务器的操作系统为Windows时,需要安装OpenOffice软件。
步骤102,在待转换文档中的易出错区域,确定第一标识符。
在本步骤中,可以在获取到的待转换文档中,确定易出错区域,并在易出错区域确定第一标识符,以便根据第一标识符,在转换后文档中快速查找格式转换后的易出错区域。
其中,易出错区域是指在格式转换中容易出错的内容所在的位置,也即文档中的不易辨识的内容所在的位置;具体的,易出错区域可以由人工在待转换文档中确认,也可以通过其他工具来实现。易出错区域中的内容可以包括图片、公式、字符以及文字等。
在一种实现方式中,所述第一标识符,用于使用彩色颜色填涂,来标识待转换文档中的易出错区域。
具体的,可以使用第一标识符,通过彩色颜色填图,来标识出待转换文档中的易出错区域,操作简单且容易辨识。
比如,如图2所示,图2为本发明实施例中第一标识符的一种示意图,在图2中,待转换文档中被灰色填涂的公式为易出错区域。
步骤103,对待转换文档进行格式转换,得到包括第二标识符的转换后文档,以根据第二标识符,在转换后文档中查找格式转换后的易出错区域。
其中,第二标识符是对第一标识符进行格式转换后得到的标识符,第二标识符用于在转换后文档中,标识格式转换后的易出错区域。
在本步骤中,对已经确定第一标识符的待转换文档进行格式转换,得到包括第二标识符的转换后文档,其中,第二标识符为对第一标识符进行格式转换后的标识符,第二标识符用于在转换后文档中,标识格式转换后的易出错区域,以便根据第二标识符,在转换后文档中快速查找格式转换后的易出错区域,这样,就可以在上述格式转换后的易出错区域中进行校正,以保证转换后文档的正确性。
在一种实现方式中,所述第二标识符,用于使用与第一标识符相同或不同的彩色颜色填涂,来标识转换后文档中的格式转换后的易出错区域。
为了方便理解,在图2所示的例子的基础上进行说明,如图3所示,图3为本发明实施例中第二标识符的一种示意图,在图3中,转换后文档中被灰色填涂的公式为格式转换后的易出错区域。
可以看出,图2中,待转换文档中的易出错区域中的公式为L3=(Lt-L2)/(N-1),而图3中,格式转换后的易出错区域中的公式为L3=(Lt-L2)/(N-I),将数字1误转换为大写字母I。这样,通过第二标识符可以快速找到转换后文档中的易出错区域,并对转换后文档中易出错区域中的公式进行修改校正,以保证转换后文档的正确性。
可见,本发明实施例提供的文档格式转换的方法,能够使用第一标识符在待转换文档中标识出易出错区域,而转换后文档可以包括对第一标识符进行格式转换后的第二标识符,这样,能够根据第二标识符,在转换后文档中快速查找到格式转换后的易出错区域,以便对格式转换后的易出错区域进行逐一校正,不仅提高了工作效率,而且可以保证转换后文档的正确性。
在待转换文档的易出错区域包括字符或文字的场景下,本发明实施例又提供了一种文档格式转换的方法。参见图4,图4为本发明实施例的文档格式转换的方法的又一种流程图,包括如下步骤:
步骤401,获取待转换文档。
本步骤的详细过程和技术效果可以参考图1所示的文档格式转换的方法中的步骤101,在此不再赘述。
步骤402,当待转换文档的易出错区域包括字符或文字时,通过在待转换文档的易出错区域中设置第一首标识符和第一尾标识符,来标识待转换文档中的易出错区域。
其中,第一首标识符设置在待转换文档的易出错区域中的第一个字符或文字之前,第一尾标识符设置在待转换文档的易出错区域中的最后一个字符或文字之后。
在本步骤中,在待转换文档中的易出错区域,确定第一标识符,其中,第一标识符,可以用于当待转换文档的易出错区域包括字符或文字时,通过在待转换文档的易出错区域中设置第一首标识符和第一尾标识符,来标识待转换文档中的易出错区域。具体的,第一标识符可以是区别于待转换文档中的字符或文字的特殊符号等。
比如,如图5所示,图5为本发明实施例中第一标识符的又一种示意图,在图5中,第一首标识符为待转换文档中的第一个竖杠,第一尾标识符为待转换文档中的第二个竖杠为,两个竖杠之间为待转换文档中的易出错区域。
步骤403,通过转换后文档中的第二首标识符和第二尾标识符,查找转换后文档中的格式转换后的易出错区域。
其中,第二首标识符是对第一首标识符进行格式转换后得到的标识符,第二尾标识符是对第一尾标识符进行格式转换后得到的标识符。
在本步骤中,可以对待转换文档进行格式转换,得到包括第二标识符的转换后文档,以根据第二标识符,在转换后文档中查找格式转换后的易出错区域,其中,第二标识符,可以用于通过转换后文档中的第二首标识符和第二尾标识符,查找转换后文档中的格式转换后的易出错区域,第二首标识符是对第一首标识符进行格式转换后得到的标识符,第二尾标识符是对第一尾标识符进行格式转换后得到的标识符。
为了方便理解,在图5所示的例子的基础上进行说明,如图6所示,图6为本发明实施例中第二标识符的又一种示意图,在图6中,转换后文档中的第一个竖杠为第二首标识符,第二个竖杠为第二尾标识符,两个竖杠之间为格式转换后的易出错区域。
可以看出,图5中,待转换文档中的易出错区域中的公式为A=Cp*Wp+Cl*Wl+Cs*Ws,而图6中,格式转换后的易出错区域中的公式为A=Cp*Wp+CI*WI+Cs*W5,可见,在公式以及在对公式的说明部分,均将数字1误转换为大写字母I,且将小写字母s误转换为数字5。这样,根据第二首标识符和第二尾标识符,可以快速找到转换后文档中的易出错区域,并对转换后文档中易出错区域中的公式进行修改校正,以保证转换后文档的正确性。
可见,本发明实施例提供的文档格式转换的方法,能够在待转换文档的易出错区域包括字符或者文字的场景下,使用第一首标识符和第一尾标识符,在待转换文档中标识出易出错区域,而转换后文档可以包括对第一首标识符和第一尾标识符进行格式转换后的第二首标识符和第二尾标识符,这样,能够根据第二首标识符和第二尾标识符,在转换后文档中快速查找到格式转换后的易出错区域,以便对格式转换后的易出错区域进行逐一校正,不仅提高了工作效率,而且可以保证转换后文档的正确性。
本发明实施例另提供了一种文档格式转换的装置。参见图7,图7为本发明实施例的文档格式转换的装置的一种示意图,装置包括:
获取模块701,用于获取待转换文档;
确定模块702,用于在待转换文档中的易出错区域,确定第一标识符;
转换模块703,用于对待转换文档进行格式转换,得到包括第二标识符的转换后文档,以根据第二标识符,在转换后文档中查找格式转换后的易出错区域,第二标识符是对第一标识符进行格式转换后得到的标识符,第二标识符用于在转换后文档中,标识格式转换后的易出错区域。
可选的,所述第一标识符,用于使用彩色颜色填涂,来标识待转换文档中的易出错区域。
可选的,所述第二标识符,用于使用与第一标识符相同或不同的彩色颜色填涂,来标识转换后文档中的格式转换后的易出错区域。
可选的,所述第一标识符,用于当待转换文档的易出错区域包括字符或文字时,通过在待转换文档的易出错区域中设置第一首标识符和第一尾标识符,来标识待转换文档中的易出错区域,其中,第一首标识符设置在待转换文档的易出错区域中的第一个字符或文字之前,第一尾标识符设置在待转换文档的易出错区域中的最后一个字符或文字之后。
可选的,所述第二标识符,用于通过转换后文档中的第二首标识符和第二尾标识符,查找转换后文档中的格式转换后的易出错区域,其中,第二首标识符是对第一首标识符进行格式转换后得到的标识符,第二尾标识符是对第一尾标识符进行格式转换后得到的标识符。
可见,本发明实施例提供的文档格式转换的装置,能够使用第一标识符在待转换文档中标识出易出错区域,而转换后文档可以包括对第一标识符进行格式转换后的第二标识符,这样,能够根据第二标识符,在转换后文档中快速查找到格式转换后的易出错区域,以便对格式转换后的易出错区域进行逐一校正,不仅提高了工作效率,而且可以保证转换后文档的正确性。
本发明实施例再提供了一种电子设备,参考图8,图8为本发明实施例的电子设备的一种结构示意图。如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现如下步骤:
获取待转换文档;
在待转换文档中的易出错区域,确定第一标识符;
对待转换文档进行格式转换,得到包括第二标识符的转换后文档,以根据第二标识符,在转换后文档中查找格式转换后的易出错区域,第二标识符是对第一标识符进行格式转换后得到的标识符,第二标识符用于在转换后文档中,标识格式转换后的易出错区域。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文档格式转换的方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文档格式转换的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种文档格式转换的方法,其特征在于,所述方法包括:
获取待转换文档;
在待转换文档中的易出错区域,确定第一标识符;
对待转换文档进行格式转换,得到包括第二标识符的转换后文档,以根据第二标识符,在转换后文档中查找格式转换后的易出错区域,第二标识符是对第一标识符进行格式转换后得到的标识符,第二标识符用于在转换后文档中,标识格式转换后的易出错区域。
2.根据权利要求1所述的方法,其特征在于,
所述第一标识符,用于使用彩色颜色填涂,来标识待转换文档中的易出错区域。
3.根据权利要求2所述的方法,其特征在于,
所述第二标识符,用于使用与第一标识符相同或不同的彩色颜色填涂,来标识转换后文档中的格式转换后的易出错区域。
4.根据权利要求1所述的方法,其特征在于,
所述第一标识符,用于当待转换文档的易出错区域包括字符或文字时,通过在待转换文档的易出错区域中设置第一首标识符和第一尾标识符,来标识待转换文档中的易出错区域,其中,第一首标识符设置在待转换文档的易出错区域中的第一个字符或文字之前,第一尾标识符设置在待转换文档的易出错区域中的最后一个字符或文字之后。
5.根据权利要求4所述的方法,其特征在于,
所述第二标识符,用于通过转换后文档中的第二首标识符和第二尾标识符,查找转换后文档中的格式转换后的易出错区域,其中,第二首标识符是对第一首标识符进行格式转换后得到的标识符,第二尾标识符是对第一尾标识符进行格式转换后得到的标识符。
6.一种文档格式转换的装置,其特征在于,所述装置包括:
获取模块,用于获取待转换文档;
确定模块,用于在待转换文档中的易出错区域,确定第一标识符;
转换模块,用于对待转换文档进行格式转换,得到包括第二标识符的转换后文档,以根据第二标识符,在转换后文档中查找格式转换后的易出错区域,第二标识符是对第一标识符进行格式转换后得到的标识符,第二标识符用于在转换后文档中,标识格式转换后的易出错区域。
7.根据权利要求6所述的装置,其特征在于,
所述第一标识符,用于使用彩色颜色填涂,来标识待转换文档中的易出错区域。
8.根据权利要求7所述的装置,其特征在于,
所述第二标识符,用于使用与第一标识符相同或不同的彩色颜色填涂,来标识转换后文档中的格式转换后的易出错区域。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
CN201810789098.1A 2018-07-18 2018-07-18 一种文档格式转换的方法和装置 Pending CN108984491A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810789098.1A CN108984491A (zh) 2018-07-18 2018-07-18 一种文档格式转换的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810789098.1A CN108984491A (zh) 2018-07-18 2018-07-18 一种文档格式转换的方法和装置

Publications (1)

Publication Number Publication Date
CN108984491A true CN108984491A (zh) 2018-12-11

Family

ID=64549554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810789098.1A Pending CN108984491A (zh) 2018-07-18 2018-07-18 一种文档格式转换的方法和装置

Country Status (1)

Country Link
CN (1) CN108984491A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347641A (zh) * 2019-06-26 2019-10-18 北京明略软件系统有限公司 文件处理方法及装置、存储介质、电子装置
CN113505566A (zh) * 2021-05-25 2021-10-15 北京北大方正电子有限公司 一种版式文档的处理方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289407A (zh) * 2011-09-06 2011-12-21 北京信息科技大学 文档格式转换自动测试方法及其装置
CN102375807A (zh) * 2010-08-27 2012-03-14 汉王科技股份有限公司 文字校对方法和装置
CN104765717A (zh) * 2014-01-08 2015-07-08 北大方正集团有限公司 一种批量文档格式转换的方法及装置
CN105335339A (zh) * 2015-10-19 2016-02-17 江苏沃叶软件有限公司 pdf文件的转换方法
CN106681965A (zh) * 2016-12-02 2017-05-17 广东小天才科技有限公司 一种标记异常公式的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375807A (zh) * 2010-08-27 2012-03-14 汉王科技股份有限公司 文字校对方法和装置
CN102289407A (zh) * 2011-09-06 2011-12-21 北京信息科技大学 文档格式转换自动测试方法及其装置
CN104765717A (zh) * 2014-01-08 2015-07-08 北大方正集团有限公司 一种批量文档格式转换的方法及装置
CN105335339A (zh) * 2015-10-19 2016-02-17 江苏沃叶软件有限公司 pdf文件的转换方法
CN106681965A (zh) * 2016-12-02 2017-05-17 广东小天才科技有限公司 一种标记异常公式的方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347641A (zh) * 2019-06-26 2019-10-18 北京明略软件系统有限公司 文件处理方法及装置、存储介质、电子装置
CN110347641B (zh) * 2019-06-26 2022-04-26 北京明略软件系统有限公司 文件处理方法及装置、存储介质、电子装置
CN113505566A (zh) * 2021-05-25 2021-10-15 北京北大方正电子有限公司 一种版式文档的处理方法和装置

Similar Documents

Publication Publication Date Title
CN109062874B (zh) 财政数据的获取方法、终端设备及介质
US11769072B2 (en) Document structure extraction using machine learning
JP7289047B2 (ja) ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム
JP7201299B2 (ja) コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム
US20150199314A1 (en) Editing Application For Synthesized eBooks
US9141596B2 (en) System and method for processing markup language templates from partial input data
US8271873B2 (en) Automatically detecting layout of bidirectional (BIDI) text
CN105022757A (zh) 网页修改方法及网页修改装置
US10210194B2 (en) Ingestion plan based on table uniqueness
CN110096626A (zh) 合同文本数据的处理方法、装置、设备及存储介质
WO2021051624A1 (zh) 数据获取方法、装置、电子设备及存储介质
CN108984491A (zh) 一种文档格式转换的方法和装置
US20160018974A1 (en) Identifying and surfacing relevant report artifacts in documents
JP2018088101A (ja) 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム
US10643022B2 (en) PDF extraction with text-based key
JP6191440B2 (ja) スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法
US8725749B2 (en) Matching regular expressions including word boundary symbols
CN110688842B (zh) 一种文档标题层级的分析方法、装置及服务器
WO2018208412A1 (en) Detection of caption elements in documents
US9817913B2 (en) Method and apparatus for collecting, merging and presenting content
US11295072B2 (en) Autoform filling using text from optical character recognition and metadata for document types
US9009172B2 (en) Methods, systems and computer readable media for comparing XML documents
CN110275712A (zh) 一种文本替换方法、装置及设备
US20230177251A1 (en) Method, device, and system for analyzing unstructured document
WO2015063783A1 (en) Topic-wise collaboration integration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181211

WD01 Invention patent application deemed withdrawn after publication