CN111695327B - 一种乱码修复方法、装置、电子设备及可读存储介质 - Google Patents

一种乱码修复方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111695327B
CN111695327B CN201910150738.9A CN201910150738A CN111695327B CN 111695327 B CN111695327 B CN 111695327B CN 201910150738 A CN201910150738 A CN 201910150738A CN 111695327 B CN111695327 B CN 111695327B
Authority
CN
China
Prior art keywords
word stock
bitmap file
code
unicode
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910150738.9A
Other languages
English (en)
Other versions
CN111695327A (zh
Inventor
冷志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Guangzhou Kingsoft Mobile Technology Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Guangzhou Kingsoft Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd, Guangzhou Kingsoft Mobile Technology Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN201910150738.9A priority Critical patent/CN111695327B/zh
Publication of CN111695327A publication Critical patent/CN111695327A/zh
Application granted granted Critical
Publication of CN111695327B publication Critical patent/CN111695327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明实施例提供了一种乱码修复方法、装置、电子设备及可读存储介质。该方法包括:当接收到针对PDF文档中的文字的复制指令时,获得待复制的文字的charcode;查找电子设备中存储有目标位图文件的第二字库;目标位图文件为:PDF文档的内嵌字库中记录的charcode所对应的位图文件;从第二字库中读取目标位图文件所对应存储的统一码Unicode,并将Unicode复制到剪切板。这样,在对PDF文档中的文字进行复制时,可以获得待复制的文字的Unicode,并可以将待复制的文字的Unicode复制到剪切板。这样,可以保证待复制的文字能够顺利被复制,避免了乱码的情况发生。

Description

一种乱码修复方法、装置、电子设备及可读存储介质
技术领域
本发明涉及文档处理技术领域,特别是涉及一种乱码修复方法、装置、电子设备及可读存储介质。
背景技术
在工作和学习中,用户常常需要对PDF(Portable Document Format,便携式文档格式)文档中的文字进行复制。
但是,用户在将PDF文档中的文字复制到其他文档时,例如Word文档,常常会出现乱码的情况。这样,无法实现对PDF文档中的文字的复制。
发明内容
本发明实施例的目的在于提供一种乱码修复方法、装置、电子设备及可读存储介质,以能够对PDF文档中的文字进行复制。具体技术方案如下:
第一方面,本发明实施例提供了一种乱码修复方法,应用于电子设备,该方法可以包括:
当接收到针对PDF文档中的文字的复制指令时,获得待复制的文字的charcode;
查找电子设备中存储有目标位图文件的第二字库;其中,目标位图文件为:PDF文档的内嵌字库中记录的charcode所对应的位图文件;
从第二字库中读取目标位图文件所对应存储的统一码Unicode,并将Unicode复制到剪切板。
可选地,查找电子设备中存储有目标位图文件的第二字库的步骤,可以包括:
查找内嵌字库中的charcode对应存储的目标位图文件;
计算目标位图文件的信息摘要码;
将电子设备中存储有信息摘要码所对应的位图文件的字库确定为第二字库。
可选地,将电子设备中存储有信息摘要码所对应的位图文件的字库确定为第二字库的步骤,可以包括:
计算电子设备中各个字库中存储的位图文件的第一信息摘要值;
将目标位图文件的信息摘要码与第一信息摘要值进行匹配;
将匹配成功的第一信息摘要值所对应的位图文件所在字库确定为第二字库。
可选地,计算目标位图文件的信息摘要码的步骤,可以包括:
根据预设的信息摘要算法,计算目标位图文件的信息摘要码;其中,信息摘要算法包括:循环冗余校验算法、安全散列算法、MD4算法和MD5算法中的至少一种。
可选地,在查找电子设备中存储有目标位图文件的第二字库的步骤之前,还可以包括:
判断内嵌字库中是否存储有统一码转换表;其中,统一码转换表中记录有charcode所对应的Unicode;
若是,从统一码转换表中读取charcode所对应的Unicode,并将Unicode复制到剪切板;
若否,触发查找电子设备中存储有目标位图文件的第二字库的步骤。
第二方面,本发明实施例还提供了一种乱码修复装置,应用于电子设备,该装置可以包括:
获得模块,用于当接收到针对PDF文档中的文字的复制指令时,获得待复制的文字的charcode;
查找模块,用于查找电子设备中存储有目标位图文件的第二字库;其中,目标位图文件为:PDF文档的内嵌字库中记录的charcode所对应的位图文件;
第一复制模块,用于从第二字库中读取目标位图文件所对应存储的统一码Unicode,并将Unicode复制到剪切板。
可选地,在本发明实施例中,查找模块可以包括:
查找单元,用于查找内嵌字库中的charcode对应存储的目标位图文件;
计算单元,用于计算目标位图文件的信息摘要码;
确定单元,用于将电子设备中存储有信息摘要码所对应的位图文件的字库确定为第二字库。
可选地,在本发明实施例中,确定单元具体可以用于:
计算电子设备中各个字库中存储的位图文件的第一信息摘要值;
将目标位图文件的信息摘要码与第一信息摘要值进行匹配;
将匹配成功的第一信息摘要值所对应的位图文件所在字库确定为第二字库。
可选地,在本发明实施例中,计算单元具体可以用于:
根据预设的信息摘要算法,计算目标位图文件的信息摘要码;其中,信息摘要算法包括:循环冗余校验算法、安全散列算法、MD4算法和MD5算法中的至少一种。
可选地,在本发明实施例中,该装置还可以包括:
判断模块,用于在查找电子设备中存储有目标位图文件的第二字库之前,判断内嵌字库中是否存储有统一码转换表;其中,统一码转换表中记录有charcode所对应的Unicode;
第二复制模块,用于当内嵌字库中存储有统一码转换表时,从统一码转换表中读取charcode所对应的Unicode,并将Unicode复制到剪切板;
触发模块,用于当内嵌字库中未存储有统一码转换表时,触发查找模块执行查找电子设备中存储有目标位图文件的第二字库的操作。
第三方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一项乱码修复方法的方法步骤。
第四方面,本发明实施例还提供了一种可读存储介质,可读存储介质为电子设备中的可读存储介质,可读存储介质内存储有计算机程序,计算机程序被电子设备的处理器执行时实现上述任一项乱码修复方法的方法步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在电子设备上运行时,使得电子设备执行上述任一乱码修复方法的方法步骤。
在本发明实施例中,当接收到针对PDF文档中的文字的复制指令时,电子设备可以获得待复制的文字的charcode。然后,可以查找电子设备中存储有目标位图文件的第二字库。其中,目标位图文件为:该PDF文档的内嵌字库中记录的该charcode所对应的位图文件。在查找到第二字库之后,可以从第二字库中读取目标位图文件所对应存储的统一码Unicode,并将该Unicode复制到剪切板。由于Unicode是标准的字符编码,因而在将该charcode所对应的Unicode复制到剪切板之后,可以保证待复制的文字能够顺利被复制,避免了乱码的情况发生。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种乱码修复方法的流程图;
图2为本发明实施例提供的一种乱码修复装置的结构示意图;
图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中存在的问题,本发明实施例提供了一种乱码修复方法、装置、电子设备及可读存储介质。
下面首先对本发明实施例提供的乱码修复方法进行说明。
本发明实施例提供的乱码修复方法应用于电子设备,该电子设备中可以安装有PDF(Portable Document Format,便携式文档格式)文档阅读客户端,该文档阅读客户端可以对PDF文档进行显示。
另外,该电子设备包括但并不局限于电脑和智能手机。
参见图1,本发明实施例提供的乱码修复方法可以包括如下步骤:
S101:当接收到针对便携式文档格式PDF文档中的文字的复制指令时,获得待复制的文字的字符代码charcode;
待复制的文字的字符代码(charcode)可以包括:CID(character idenlifier,字符识别码)或字形标识码(glyph-id)。并且,在相关技术中,存在CID字库和glyph-id字库。
其中,PDF文档中常常嵌入有CID字库或glyph-id字库,以使PDF文档中的文本能够准确显示。其中,嵌入至PDF文档中的字库也可以称为内嵌字库。并且,内嵌字库通常是对常用的字库进行裁剪后得到的包含信息较少的字库。
举例而言,PDF文档中嵌入有CID字库。那么,电子设备在复制该PDF文档中的文本时,需要通过统一码转换表将文本的charcode转换成统一码(Unicode)。然后,将获得的Unicode复制到剪切板,进而完成文本的复制。其中,统一码转换表中记录有文本的charcode所对应的Unicode,统一码转换表可以记为ToUnicode。
其中,统一码Unicode是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。也就是说,Unicode是标准的字符编码,不会出现乱码的情况。
但是为了减小PDF文档的大小,相关技术中常常会将PDF文档中的统一码转换表删除。在该种情况下,PDF文档能够正常显示文本,但是由于在复制过程中无法找到charcode对应的Unicode,因而使得在将PDF文档中的文字复制到其他文档时出现乱码。
为了对乱码的情况进行修复,电子设备在获得待复制的文字的charcode之后,可以判断该PDF文档的内嵌字库中是否存储有统一码转换表。若存储有统一码转换表,电子设备可以从统一码转换表中读取charcode所对应的Unicode,并将读取到的Unicode复制到剪切板,进而完成文本的复制。若未存储有统一码转换表,则可以执行步骤S102。
S102:查找电子设备中存储有目标位图文件的第二字库;其中,目标位图文件为:PDF文档的内嵌字库中记录的charcode所对应的位图文件;
其中,电子设备可以先查找该PDF文档的内嵌字库中的、与该charcode对应存储的目标位图文件。其中,一个文字的charcode与一个目标位图文件bitmap对应。然后,可以查找电子设备中的具有该目标位图文件的字库,并将该查找到的字库作为第二字库。
具体地,电子设备在获得目标位图文件之后,可以计算该目标位图文件的信息摘要码。然后,可以计算该电子设备中存储的字库中的位图文件的第一信息摘要码。之后,将该目标位图文件的信息摘要码与电子设备的字库中的位图文件的第一信息摘要码进行匹配,并可以将匹配成功的第一信息摘要码所对应的位图文件所在字库确定为第二字库。
这样,可以在电子设备中查找到常用的包含较多信息的第二字库。即,找到了该嵌入字库的原始字库。其中,该第二字库中记录有文字的charcode和Unicode,以及charcode和Unicode对应的位图文件。嵌入字库可以认为是对该第二字库进行裁剪之后所得到的字库。
另外,可以理解的是,电子设备可以根据预设的信息摘要算法,计算目标位图文件的信息摘要码,并计算电子设备中存储的字库中的位图文件的第一信息摘要码。其中,信息摘要算法包括:循环冗余校验算法、安全散列算法、MD4算法和MD5算法中的至少一种,这是合理的。
S103:从第二字库中读取目标位图文件所对应存储的统一码Unicode,并将Unicode复制到剪切板。
其中,电子设备在找到第二字库之后,可以在第二字库中查找目标位图文件所对应存储的统一码Unicode。进而,将找到的Unicode复制到剪切板。这样,在将找到的Unicode复制到剪切板之后,可以保证待复制的文字能够顺利被复制,避免了乱码的情况发生。
在本发明实施例中,当接收到针对PDF文档中的文字的复制指令时,电子设备可以获得待复制的文字的charcode。然后,可以查找电子设备中存储有目标位图文件的第二字库。其中,目标位图文件为:该PDF文档的内嵌字库中记录的该charcode所对应的位图文件。在查找到第二字库之后,可以从第二字库中读取目标位图文件所对应存储的统一码Unicode,并将该Unicode复制到剪切板。由于Unicode是标准的字符编码,因而在将该charcode所对应的Unicode复制到剪切板之后,可以保证待复制的文字能够顺利被复制,避免了乱码的情况发生。
综上,应用本发明实施例提供的乱码修复方法,电子设备可以在对PDF文档中的文字进行复制时,获得待复制的文字的Unicode,并可以将待复制的文字的Unicode复制到剪切板。这样,可以保证待复制的文字能够顺利被复制,避免了乱码的情况发生。
相应于上述方法实施例,本发明实施例还提供了一种乱码修复装置,应用于电子设备,参见图2,该装置可以包括:
获得模块201,用于当接收到针对便携式文档格式PDF文档中的文字的复制指令时,获得待复制的文字的字符代码charcode;
查找模块202,用于查找电子设备中存储有目标位图文件的第二字库;其中,目标位图文件为:PDF文档的内嵌字库中记录的charcode所对应的位图文件;
第一复制模块203,用于从第二字库中读取目标位图文件所对应存储的统一码Unicode,并将Unicode复制到剪切板。
应用本发明实施例提供的装置,当接收到针对PDF文档中的文字的复制指令时,电子设备可以获得待复制的文字的charcode。然后,可以查找电子设备中存储有目标位图文件的第二字库。其中,目标位图文件为:该PDF文档的内嵌字库中记录的该charcode所对应的位图文件。在查找到第二字库之后,可以从第二字库中读取目标位图文件所对应存储的统一码Unicode,并将该Unicode复制到剪切板。由于Unicode是标准的字符编码,因而在将该charcode所对应的Unicode复制到剪切板之后,可以保证待复制的文字能够顺利被复制,避免了乱码的情况发生。
可选地,在本发明实施例中,查找模块202可以包括:
查找单元,用于查找内嵌字库中的charcode对应存储的目标位图文件;
计算单元,用于计算目标位图文件的信息摘要码;
确定单元,用于将电子设备中存储有信息摘要码所对应的位图文件的字库确定为第二字库。
可选地,在本发明实施例中,确定单元具体可以用于:
计算电子设备中各个字库中存储的位图文件的第一信息摘要值;
将目标位图文件的信息摘要码与第一信息摘要值进行匹配;
将匹配成功的第一信息摘要值所对应的位图文件所在字库确定为第二字库。
可选地,在本发明实施例中,计算单元具体可以用于:
根据预设的信息摘要算法,计算目标位图文件的信息摘要码;其中,信息摘要算法包括:循环冗余校验算法、安全散列算法、MD4算法和MD5算法中的至少一种。
可选地,在本发明实施例中,该装置还可以包括:
判断模块,用于在查找电子设备中存储有目标位图文件的第二字库之前,判断内嵌字库中是否存储有统一码转换表;其中,统一码转换表中记录有charcode所对应的Unicode;
第二复制模块,用于当内嵌字库中存储有统一码转换表时,从统一码转换表中读取charcode所对应的Unicode,并将Unicode复制到剪切板;
触发模块,用于当内嵌字库中未存储有统一码转换表时,触发查找模块202执行查找电子设备中存储有目标位图文件的第二字库的操作。
相应于上述方法实施例,本发明实施例还提供了一种电子设备,参见图3,该电子设备包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
存储器303,用于存放计算机程序;
处理器301,用于执行存储器上所存放的程序时,实现上述任一项乱码修复方法实施例提供的方法步骤。
在本发明实施例中,当接收到针对PDF文档中的文字的复制指令时,电子设备可以获得待复制的文字的charcode。然后,可以查找电子设备中存储有目标位图文件的第二字库。其中,目标位图文件为:该PDF文档的内嵌字库中记录的该charcode所对应的位图文件。在查找到第二字库之后,可以从第二字库中读取目标位图文件所对应存储的统一码Unicode,并将该Unicode复制到剪切板。由于Unicode是标准的字符编码,因而在将该charcode所对应的Unicode复制到剪切板之后,可以保证待复制的文字能够顺利被复制,避免了乱码的情况发生。
相应于上述方法实施例,本发明实施例还提供了一种可读存储介质,可读存储介质内存储有计算机程序,计算机程序被电子设备的处理器执行时实现上述任一项乱码修复方法实施例提供的方法步骤。
本发明实施例提供的可读存储介质中存储的计算机程序被电子设备的处理器执行后,当接收到针对PDF文档中的文字的复制指令时,电子设备可以获得待复制的文字的charcode。然后,可以查找电子设备中存储有目标位图文件的第二字库。其中,目标位图文件为:该PDF文档的内嵌字库中记录的该charcode所对应的位图文件。在查找到第二字库之后,可以从第二字库中读取目标位图文件所对应存储的统一码Unicode,并将该Unicode复制到剪切板。由于Unicode是标准的字符编码,因而在将该charcode所对应的Unicode复制到剪切板之后,可以保证待复制的文字能够顺利被复制,避免了乱码的情况发生。
相应于上述方法实施例,在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在电子设备上运行时,使得电子设备执行上述实施例中任一乱码修复方法的方法步骤。
本发明实施例提供的计算机程序被电子设备的处理器执行后,当接收到针对PDF文档中的文字的复制指令时,电子设备可以获得待复制的文字的charcode。然后,可以查找电子设备中存储有目标位图文件的第二字库。其中,目标位图文件为:该PDF文档的内嵌字库中记录的该charcode所对应的位图文件。在查找到第二字库之后,可以从第二字库中读取目标位图文件所对应存储的统一码Unicode,并将该Unicode复制到剪切板。由于Unicode是标准的字符编码,因而在将该charcode所对应的Unicode复制到剪切板之后,可以保证待复制的文字能够顺利被复制,避免了乱码的情况发生。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备和可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (6)

1.一种乱码修复方法,其特征在于,应用于电子设备,所述方法包括:
当接收到针对便携式文档格式PDF文档中的文字的复制指令时,获得待复制的文字的字符代码charcode;所述待复制的文字的字符代码charcode包括:字符识别码或字形标识码;
判断内嵌字库中是否存储有统一码转换表;其中,所述统一码转换表中记录有所述charcode所对应的Unicode;
若是,从所述统一码转换表中读取所述charcode所对应的Unicode,并将所述Unicode复制到剪切板;
若否,查找所述电子设备中存储有目标位图文件的第二字库;其中,所述目标位图文件为:所述PDF文档的内嵌字库中记录的所述charcode所对应的位图文件;
从所述第二字库中读取所述目标位图文件所对应存储的统一码Unicode,并将所述Unicode复制到剪切板;
其中,所述查找所述电子设备中存储有目标位图文件的第二字库的步骤,包括:
查找所述内嵌字库中的所述charcode对应存储的所述目标位图文件;
计算所述目标位图文件的信息摘要码;
将所述电子设备中存储有所述信息摘要码所对应的位图文件的字库确定为所述第二字库;
所述将所述电子设备中存储有所述信息摘要码所对应的位图文件的字库确定为所述第二字库的步骤,包括:
计算所述电子设备中各个字库中存储的位图文件的第一信息摘要值;
将所述目标位图文件的信息摘要码与所述第一信息摘要值进行匹配;
将匹配成功的第一信息摘要值所对应的位图文件所在字库确定为所述第二字库。
2.根据权利要求1所述的方法,其特征在于,所述计算所述目标位图文件的信息摘要码的步骤,包括:
根据预设的信息摘要算法,计算所述目标位图文件的信息摘要码;其中,所述信息摘要算法包括:循环冗余校验算法、安全散列算法、MD4算法和MD5算法中的至少一种。
3.一种乱码修复装置,其特征在于,应用于电子设备,所述装置包括:
获得模块,用于当接收到针对便携式文档格式PDF文档中的文字的复制指令时,获得待复制的文字的字符代码charcode;所述待复制的文字的字符代码charcode包括:字符识别码或字形标识码;
判断模块,用于判断内嵌字库中是否存储有统一码转换表;其中,所述统一码转换表中记录有所述charcode所对应的Unicode;
第二复制模块,用于当所述内嵌字库中存储有所述统一码转换表时,从所述统一码转换表中读取所述charcode所对应的Unicode,并将所述Unicode复制到剪切板;
查找模块,用于当所述内嵌字库中未存储有所述统一码转换表时,查找所述电子设备中存储有目标位图文件的第二字库;其中,所述目标位图文件为:所述PDF文档的内嵌字库中记录的所述charcode所对应的位图文件;
第一复制模块,用于从所述第二字库中读取所述目标位图文件所对应存储的统一码Unicode,并将所述Unicode复制到剪切板;
其中,所述查找模块包括:
查找单元,用于查找所述内嵌字库中的所述charcode对应存储的所述目标位图文件;
计算单元,用于计算所述目标位图文件的信息摘要码;
确定单元,用于将所述电子设备中存储有所述信息摘要码所对应的位图文件的字库确定为所述第二字库;
所述确定单元具体用于:
计算所述电子设备中各个字库中存储的位图文件的第一信息摘要值;
将所述目标位图文件的信息摘要码与所述第一信息摘要值进行匹配;
将匹配成功的第一信息摘要值所对应的位图文件所在字库确定为所述第二字库。
4.根据权利要求3所述的装置,其特征在于,所述计算单元具体用于:
根据预设的信息摘要算法,计算所述目标位图文件的信息摘要码;其中,所述信息摘要算法包括:循环冗余校验算法、安全散列算法、MD4算法和MD5算法中的至少一种。
5.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-2中任一所述的方法步骤。
6.一种可读存储介质,其特征在于,所述可读存储介质为电子设备中的可读存储介质,所述可读存储介质内存储有计算机程序,所述计算机程序被所述电子设备的处理器执行时实现权利要求1-2中任一所述的方法步骤。
CN201910150738.9A 2019-02-28 2019-02-28 一种乱码修复方法、装置、电子设备及可读存储介质 Active CN111695327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910150738.9A CN111695327B (zh) 2019-02-28 2019-02-28 一种乱码修复方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910150738.9A CN111695327B (zh) 2019-02-28 2019-02-28 一种乱码修复方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111695327A CN111695327A (zh) 2020-09-22
CN111695327B true CN111695327B (zh) 2024-01-26

Family

ID=72474406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910150738.9A Active CN111695327B (zh) 2019-02-28 2019-02-28 一种乱码修复方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111695327B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114629707A (zh) * 2022-03-16 2022-06-14 深信服科技股份有限公司 一种乱码检测方法、装置及电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262619A (zh) * 2010-05-31 2011-11-30 汉王科技股份有限公司 文档的文字提取方法和装置
CN104462068A (zh) * 2013-09-12 2015-03-25 北大方正集团有限公司 字符转换系统和字符转换方法
CN104732228A (zh) * 2015-04-16 2015-06-24 同方知网数字出版技术股份有限公司 一种pdf文档乱码的检测、校正的方法
CN106598923A (zh) * 2016-12-26 2017-04-26 北京致远互联软件股份有限公司 基于字体库装载的在线文档格式转换方法及装置
CN106844559A (zh) * 2016-12-31 2017-06-13 歌尔科技有限公司 一种点阵字库生成方法、查询方法及对应的装置
CN108038093A (zh) * 2017-11-10 2018-05-15 万兴科技股份有限公司 Pdf文字提取方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1736895A1 (en) * 2005-06-21 2006-12-27 PDFlib GmbH Method of determining Unicode values corresponding to the text in digital documents
US8099397B2 (en) * 2009-08-26 2012-01-17 International Business Machines Corporation Apparatus, system, and method for improved portable document format (“PDF”) document archiving

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262619A (zh) * 2010-05-31 2011-11-30 汉王科技股份有限公司 文档的文字提取方法和装置
CN104462068A (zh) * 2013-09-12 2015-03-25 北大方正集团有限公司 字符转换系统和字符转换方法
CN104732228A (zh) * 2015-04-16 2015-06-24 同方知网数字出版技术股份有限公司 一种pdf文档乱码的检测、校正的方法
CN106598923A (zh) * 2016-12-26 2017-04-26 北京致远互联软件股份有限公司 基于字体库装载的在线文档格式转换方法及装置
CN106844559A (zh) * 2016-12-31 2017-06-13 歌尔科技有限公司 一种点阵字库生成方法、查询方法及对应的装置
CN108038093A (zh) * 2017-11-10 2018-05-15 万兴科技股份有限公司 Pdf文字提取方法和装置

Also Published As

Publication number Publication date
CN111695327A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
US8838657B1 (en) Document fingerprints using block encoding of text
CN107203574B (zh) 数据管理和数据分析的聚合
US20100161693A1 (en) System and method for signing an electronic document
CN108664471B (zh) 文字识别纠错方法、装置、设备及计算机可读存储介质
CN111949550B (zh) 自动生成测试数据的方法、装置、设备及存储介质
CN111488556A (zh) 一种嵌套文档提取方法、装置及电子设备和存储介质
CN110008807B (zh) 一种合同内容识别模型的训练方法、装置及设备
CN111695327B (zh) 一种乱码修复方法、装置、电子设备及可读存储介质
CN113177407A (zh) 数据字典的构建方法、装置、计算机设备及存储介质
CN111177082A (zh) 一种pdf文件去重存储方法及系统
CN109977423B (zh) 一种生词处理方法、装置、电子设备和可读存储介质
US20170206209A1 (en) Junk directory identification method and apparatus
CN113627129A (zh) 一种文字复制方法、装置、电子设备及可读存储介质
CN114911753A (zh) 一种演示文档的生成方法、装置、电子设备及存储介质
US11482027B2 (en) Automated extraction of performance segments and metadata values associated with the performance segments from contract documents
CN111563364B (zh) 一种章节标题样式转换方法、装置、电子设备及存储介质
CN113961286A (zh) 一种应用程序的页面生成方法、装置及设备
CN112685013A (zh) 基于前端vue项目的CSS代码优化方法及相关设备
CN110929048A (zh) 一种书签生成方法、装置、电子设备及存储介质
CN117290401B (zh) 一种数据交易方法和系统
CN111985235A (zh) 文本处理方法、装置、计算机可读存储介质和电子设备
CN117668925B (zh) 一种文件指纹生成方法、装置、电子设备及存储介质
CN116992883B (zh) 实体对齐的处理方法和装置
CN111158805B (zh) Delphi软件源语言翻译系统、方法、设备及介质
CN113407684A (zh) 文章原创检查方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant