CN110795258A

CN110795258A - 字体库匹配方法、装置及设备

Info

Publication number: CN110795258A
Application number: CN201810782437.3A
Authority: CN
Inventors: 冷志峰; 张作兵
Original assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Kingsoft Mobile Technology Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Kingsoft Mobile Technology Co Ltd
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2020-02-14
Anticipated expiration: 2038-07-17
Also published as: CN110795258B

Abstract

本发明实施例提供的一种字体库匹配方法、装置及设备，通过在识别出第一字体库为匹配错误的字体库时，将终端中未加载过的第二字体库循环加载到待处理文档中的文本中。每加载一个第二字体库并编码得到第二文本数据时，识别第二文本数据是否包含乱码文本数据，当不包含时，则表明匹配到了正确的字体库，得到该不包含乱码文本数据的第二字体库就可以被确定为目标字体库，从而在文档出现因字体库匹配错误而导致的乱码时，自动匹配目标字体库，避免后续显示文档内容时出现乱码。

Description

字体库匹配方法、装置及设备

技术领域

本发明涉及文字处理技术领域，特别是涉及一种字体库匹配方法、装置及设备。

背景技术

乱码指的是文档内容在电子设备上不能显示为正确的字符，而显示为其他无意义的字符。在电子设备上显示文档的文本内容时，可以基于文档中的文本内容的字体信息，以及与字体信息对应的字体库标识信息，在电子设备中查找到具有与字体信息对应的字体库标识信息的字体库，作为与文档匹配的字体库，将该字体库加载到该文本内容，从而显示正确的文本内容。

通常情况下，文档中的文本内容的字体信息是在编辑得到该文档时生成、并携带在文档中的，与编辑该文档时所使用的字体库的字体库标识信息存在对应关系，当文档编辑完成时，该文档中字体信息与字体库标识信息的对应关系将不再变更。同时，同一字体库在不同操作系统中可能具有不同的字体库标识信息，因此，当编辑文档的文本内容的电子设备和显示文档的文本内容的电子设备具有不同的操作系统时，可能造成字体信息所对应的字体库标识信息出现了变更，而在查找与文档匹配的字体库时，依然按照操作系统变更前、文档中未变更的字体信息与字体库标识信息的对应关系进行查找。此时，由于变更后的字体库标识信息不再适用于未变更的字体信息与字体库标识信息的对应关系，因此，会出现由字体库查找错误所导致的字体库匹配错误，进而使文档内容在电子设备上显示时出现乱码。

发明内容

本发明实施例的目的在于提供一种字体库匹配方法、装置及设备，以实现在文档出现因字体库匹配错误而导致的乱码时，自动匹配正确的字体库，从而避免后续显示文档内容时出现乱码。具体技术方案如下：

第一方面，本发明实施例提供了一种字体库匹配方法，应用于终端，该终端中存储多个字体库，该方法包括：

获取并根据待处理文档的字体信息，确定与字体信息对应的字体库标识信息；

根据字体库标识信息，选取终端中具有字体库标识信息的第一字体库加载到待处理文档中的文本中，对待处理文档中的文本进行编码，得到编码后的第一文本数据；

采用预设的乱码识别算法，识别编码后的第一文本数据；

当识别出编码后的第一文本数据中包含乱码文本数据，则选取终端中未加载过的文本中的第二字体库，对待处理文档中的文本进行编码，得到编码后的第二文本数据；

采用预设的乱码识别算法，识别编码后的第二文本数据；

当识别出编码后的第二文本数据中包含乱码文本数据，则执行选取所述终端中未加载过的第二字体库，对待处理文档中的文本进行编码，得到编码后的第二文本数据；

当识别出编码后的第二文本数据中不包含乱码文本数据，则确定第二字体库为目标字体库。

第二方面，本发明实施例提供了一种字体库匹配装置，该装置包括：

获取模块，用于获取并根据待处理文档的字体信息，确定与字体信息对应的字体库标识信息；

编码模块，用于根据字体库标识信息，选取所述终端中具有字体库标识信息的第一字体库加载到待处理文档中的文本中，对待处理文档中的文本进行编码，得到编码后的第一文本数据；

识别模块，用于采用预设的乱码识别算法，识别编码后的第一文本数据；

编码模块，还用于在识别模块识别出编码后的第二文本数据中包含乱码文本数据时，选取终端中未加载过的第二字体库，对待处理文档中的文本进行编码，得到编码后的第二文本数据；

识别模块，还用于采用预设的乱码识别算法，识别编码后的第二文本数据；当识别出编码后的第二文本数据中不包含乱码文本数据，则确定第二字体库为目标字体库。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现上述第一方面提供的字体库匹配方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面提供的字体库匹配方法的步骤。

本发明实施例提供的一种字体库匹配方法、装置及设备，通过采用预设的乱码识别算法，识别由具有字体库标识信息的第一字体库加载并编码得到的编码后的第一文本数据。当识别出编码后的第一文本数据中包含乱码文本数据，则表明第一字体库为匹配错误的字体库。基于该识别结果，选取终端中未加载过的第二字体库，对待处理文档中的文本进行编码，得到编码后的第二文本数据。采用预设的乱码识别算法，识别编码后的第二文本数据。当识别出编码后的第二文本数据中包含乱码文本数据，则表明第二字体库为匹配错误的字体库，则继续选取终端中未加载过的第二字体库，对待处理文档中的文本进行编码，得到编码后的第二文本数据。由此，在识别出第一字体库为匹配错误的字体库时，将终端中未加载过的第二字体库循环加载到待处理文档中的文本中，且每加载一个第二字体库并编码得到第二文本数据时，对第二文本数据进行乱码文本数据识别。当识别出第二文本数据不包含乱码文本数据时，则表明匹配到了正确的字体库，得到该不包含乱码文本数据的第二字体库就可以被确定为目标字体库，从而在文档出现因字体库匹配错误而导致的乱码时，自动匹配目标字体库，避免后续显示文档内容时出现乱码。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例的字体库匹配方法的流程示意图；

图2为本发明另一实施例的字体库匹配方法的流程示意图；

图3为本发明图2所示另一实施例中步骤S206中判断编码后的文本数据中是否存在生僻字的具体流程示意图；

图4为本发明一实施例的字体库匹配装置的结构示意图；

图5为本发明另一实施例的字体库匹配装置的结构示意图；

图6为本发明一实施例的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对文档出现因字体库匹配错误而导致的乱码现象，为了能够自动匹配正确的字体库，从而避免后续显示文档内容时出现乱码，本发明实施例提供了一种字体库匹配方法、装置及设备。

下面首先对本发明一实施例的文档内容的乱码修复方法进行介绍。

如图1所示，本发明一实施例的文档内容的乱码修复方法的流程，应用于存储了多个字体库的终端，该方法可以包括以下步骤：

S101，获取并根据待处理文档的字体信息，确定与字体信息对应的字体库标识信息。

在具体实施中，待处理文档可以是各种含有文本的文档。例如：待处理文档可以是doc、wps等格式的文字处理文档，ppt、dps等格式的演示文稿文档，xls、et等格式的表格文档，pdf格式的可移植文档。

在具体实施中，可以使用文档解析软件解析待处理文档，从文字解析结果中获取文档文字的字体信息。具体的，字体信息包含文档中各个文字的字体名称、字形信息和在文档中位置等信息。

字体库标识信息可以是字体库名称，也可以是字体库编号。在具体实施中，可以根据已获得的字体名称，确定终端设备中存储的与字体信息对应的字体库标识信息。

S102，根据字体库标识信息，选取终端中具有字体库标识信息的第一字体库加载到待处理文档中的文本中，对待处理文档中的文本进行编码，得到编码后的第一文本数据。

在具体实施中，可以根据文本中各个文字的字形信息，使用具有字体库标识信息的第一字体库中的字形索引得到文本中各个文字的对应编码，最终获得编码后的第一文本数据。

例如：从文档中提取出宋体和黑体的字体信息，根据宋体和黑体的名称从终端设备的字体库文件夹中寻找宋体和黑体的字体库文件，将文档中的宋体文本加载宋体字体库，黑体文本加载黑体字体库。根据宋体文本和黑体文本中各个文字的字形信息，分别使用宋体和黑体字体库中的字形索引，得到宋体文本和黑体文本中各个文字的对应编码，最终获得编码后的宋体文本数据和黑体文本数据。

详细的，对待处理文档中的文本进行编码的方式有多种，包括但不限于以下方式：

如果待处理文档中的文本使用的为Unicode码(统一码)，就按照上述S103的实施过程获得编码后的第一文本数据。

如果待处理文档中的文本使用的为CID码(Adobe公司开发的字符编码，主要应用于pdf格式的文档)，需要把该文档的CID码转换为Unicode码，再按照上述S102的实施过程获得编码后的第一文本数据。

S103，采用预设的乱码识别算法，识别编码后的第一文本数据，当识别出编码后的第一文本数据中包含乱码文本数据，则执行S104。

在具体实施中，可以根据第一文本数据中是否包含生僻字，以及生僻字在目标文本中占有率是否大于预设阈值来识别乱码。

当识别出编码后的第一文本数据中包含乱码文本数据，表明第一字体库的字体库信息与文档中的文本匹配，但第一字体库本身与文档中的文本并不匹配，第一字体库为非目标字体库。当然，当识别出编码后的第一文本数据中不包含乱码文本数据，表明第一字体库的字体库信息与文档中的文本匹配，第一字体库本身也与文档中的文本匹配，第一字体库为目标字体库。

S104，选取终端中未加载过的第二字体库，对待处理文档中的文本进行编码，得到编码后的第二文本数据。

S105，采用预设的乱码识别算法，识别编码后的第二文本数据，当识别出编码后的第二文本数据中包含乱码文本数据，则执行S104，当识别出编码后的第二文本数据中不包含乱码文本数据，则执行S106。

实际应用中，设计变更和技术发展等因素会导致同一字体库存在多个版本，这些不同版本的字体库虽然具有相同的字体库标识信息，但库中的字体并不相同，因此通过字体库版本信息进行区分。但是，基于文档的字体信息无法确定出与文档匹配的字体库版本信息，因此，加载到该文档的字体库可能是与文档不匹配的版本，这种加载错误版本的字体库，也会导致字体库匹配错误，文档显示出现乱码。例如，终端中宋体字体库存在宋体字体库1.0版本和宋体字体库1.2版本，均采用字体库标识信息“宋体”。与某一宋体文档匹配的字体库为宋体字体库1.0版本，却基于字体库标识信息“宋体”加载了宋体字体库1.2版本对该文档中的文本文字进行编码，因加载错误的字体库版本，该文档会出现乱码。

对此，由于S104至S105是通过循环加载终端中未加载过的第二字体库，对待处理文档中的文本进行编码，因此，当存在同一字体库的多个版本时，与待处理文档匹配的版本的字体库会被用于对待处理文档中的文本进行编码，从而用于后续实现自动匹配目标字体库。

此外，文档出现乱码的原因还可能是终端中未保存与文档匹配的字体库，也就无法编码文档中的文本，导致文档显示出现乱码。例如：与某一宋体文档匹配的字体库为宋体字体库，当终端中没有宋体字体库时，就无法对该文档中的文本内容进行编码，导致文档显示出现乱码。

对此，可以通过S104至S105，不再局限于与字体信息对应的字体库标识信息来确定目标字体库，而是以编码后文本数据是否包含乱码文本数据作为确定标准，以未加载过的字体库代替未保存的目标字体库对待处理文档中的文本内容进行编码，从而匹配到相似字体库，将相似字体库作为目标字体库，解决后续文档显示乱码的问题。其中，相似字体库是使编码后的第二文本数据中不包含乱码文本数据的第二字体库。例如，宋体字体库的相似字体库可以是新宋体字体库，虽然这两个字体库具有不同的字体库标识信息，但是二者的差异在于字体库中的字体个数不同，新宋体相对于宋体来说添加了大约有1000个生僻字。因此，如果终端中未保存与宋体文档匹配的宋体字体库、而存在新宋体字体库时，可以通过S104至S105，使用新宋体字体库替代宋体字体库。

S106，确定第二字体库为目标字体库。

例如，终端中存储有字体库1，字体库2，字体库3，根据各个字体信息，选取字体库1为第一字体库。在识别出将字体库1加载到文档的文本中、编码得到的第一文本数据包含乱码文本数据时，选取终端中的字体库2加载到文档的文本中、编码得到字体库2对应的第二文本数据。当识别出字体库2对应的第二文本数据包含乱码文本数据时，选取终端中的字体库3加载到文档的文本中、编码得到字体库3对应的第二文本数据，当识别出字体库3对应的第二文本数据不包含乱码文本数据时，确定字体库3为目标字体库，与文档中的文本的字体信息匹配。后续将由字体库3得到的第二文本数据进行显示，就不会出现乱码。当然，在选取未加载的第二字体库时，可以任意选择，也可以按照字体库的存储信息，例如存储列表，依次选取。

在识别出第一字体库为匹配错误的字体库时，将终端中未加载到文档中的文本中的第二字体库循环加载到待处理文档中的文本中。每加载一个第二字体库并编码得到第二文本数据时，识别第二文本数据是否包含乱码文本数据，当不包含时，则表明匹配到了正确的字体库，得到该不包含乱码文本数据的第二字体库就可以被确定为目标字体库。

本发明实施例提供的一种字体库匹配方法，通过采用预设的乱码识别算法，识别由具有字体库标识信息的第一字体库加载并编码得到的编码后的第一文本数据。在识别出第一字体库为匹配错误的字体库时，将终端中未加载过的第二字体库循环加载到待处理文档中的文本中，且每加载一个第二字体库并编码得到第二文本数据时，对第二文本数据进行乱码文本数据识别。当识别出第二文本数据不包含乱码文本数据时，则表明匹配到了正确的字体库，得到该不包含乱码文本数据的第二字体库就可以被确定为目标字体库，从而在文档出现因字体库匹配错误而导致的乱码时，自动匹配目标字体库，避免后续显示文档内容时出现乱码。

在具体实施中，电子设备中的同一文档可能存在多个字体信息，相应的，字体信息对应的字体库也会有多个。例如：待处理文本中标题为黑体文本，正文为宋体文本。

因此，为了针对同一文本中出现多个字体信息，能够有针对性地匹配字体库，可选的，如图2所示，本发明另一实施例的字体库匹配方法的流程，该方法可以包括以下步骤：

S201，获取待处理文档的多个字体信息。

S202，针对各字体信息，根据该字体信息确定与该字体信息对应的字体库标识信息。

与本发明图1所示实施例中的S101类似的，S201和S202可以采用与S101相同的方式获取字体信息，并确定相应的字体库标识信息，区别在于图2所示实施例中针对不同的字体信息获取与该字体信息对应的字体库标识信息。例如，针对标题中的黑体信息，确定黑体字体对应的字体库信息，针对正文中的宋体信息，确定宋体字体对应的字体库信息。

S203，根据各字体信息对待处理文档中所有文本进行分类，将各字体信息对应的文本分别作为目标文本。

在具体实施中，根据各个字体信息中的字体名称对待处理文档中所有文本进行分类并作为目标文本。

S204，确定每个目标文本中的目标文字的字数。

在具体实施中，确定上述目标文字的字数是为之后计算生僻字占有率做准备。例如：将文档中的文本分为宋体文本和黑体文本，并将其作为目标文本，分别确定宋体文本和黑体文本中目标文字的字数。

S205，针对各字体信息和各目标文本，根据该字体信息对应的字体库标识信息，选取终端中具有字体库标识信息的第一字体库加载到目标文本中，对目标文本进行编码，得到目标文本对应的编码后的第一文本数据。

在具体实施中，可以根据已获得的字体名称，确定终端中存储的与字体信息对应的第一字体库标识信息。将具有第一字体库标识信息的第一字体库加载到目标文本中。根据目标文本中各个文字的字形信息，使用第一字体库中的字形索引得到目标文本中各个文字的对应编码，最终获得编码后的第一文本数据。

S206，判断编码后的第一文本数据中是否有生僻字。如果是有生僻字，则执行步骤S207，如果没有生僻字，确定该文档没有乱码文本。

S207，根据每个目标文本中生僻字的字数和目标文字的字数，计算生僻字在目标文本中的占有率。

在具体实施中，生僻字在目标文本中的占有率的计算方式可以为：目标文本中生僻字的字数÷目标文字的字数。

S208，判断生僻字在目标文本中的占有率是否大于第一预设阈值。如果是，识别出编码后的第一文本数据中包含乱码文本数据，则执行S209；如果否，识别出编码后的第一文本数据中不包含乱码文本数据。

由于无乱码情况时，待处理文档编码后的文本数据中也可能出现一定字数的生僻字，同时与无乱码情况相比，出现乱码情况时生僻字的字数通常较多。因此，为了避免将无乱码情况时出现的生僻字误判为乱码，可以根据历史经验设置第一预设阈值，判断生僻字在待处理文档中的占有率是否大于第一预设阈值。

其中，考虑到出现乱码时，编码后的文本数据中文字可能因为乱码造成字数不准确(例如无乱码时的两个字因字体库无法匹配而编码为一个字)，因此，编码后的文本数据中文字的字数无法用于计算占有率。但是，无乱码情况时，正常编码后的文本数据中文字的字数应当与待处理文档中文字的字数相同，因此，可以利用待处理文档中文字的字数代替编码后的文本数据中文字的字数，用于计算编码后的文本数据中生僻字的占有率，从而生僻字在待处理文档中的占有率也就代表了生僻字在编码后的文本数据中的占有率。

因此，生僻字在待处理文档中的占有率大于第一预设阈值时，也代表生僻字在编码后的文本数据中的占有率大于第一预设阈值，表明编码后的文本数据中生僻字的字数达到出现乱码情况时的水平，从而识别出编码后的文本数据中包含乱码文本数据。

例如：获得编码后的宋体文本数据和黑体文本数据后，分别判断两种文本数据中是否有生僻字，以宋体文本数据为例。如果宋体文本数据中有生僻字，则统计生僻字的字数，计算生僻字在宋体文本中的占有率：宋体文本中生僻字的字数/宋体文本文字的字数。判断生僻字在宋体文本中的占有率是否大于第一预设阈值，如果大于第一预设阈值，识别出宋体文本数据中包含乱码文本数据，如果不大于第一预设阈值，识别出宋体文本数据中不包含乱码文本数据。黑体文本数据的识别也参照上述方式。如果宋体文本数据中没有生僻字，判断该文本不是乱码文本；若黑体文本数据中也没有生僻字，判断该文档没有乱码文本。

S209，针对各字体信息和各目标文本，选取终端中未加载过的第二字体库加载到目标文本中，对目标文本进行编码，得到目标文本对应的编码后的第二文本数据。

S210，判断目标文本对应的编码后的第二文本数据中是否有生僻字。如果有生僻字，则执行步骤S211，如果没有生僻字，则执行步骤S213。

S211，根据每个目标文本中生僻字的字数和目标文字的字数，计算生僻字在目标文本中的占有率。

S212，判断生僻字在目标文本中的占有率是否大于第一预设阈值，如果是，识别出编码后的第二文本数据中包含乱码文本数据，则执行S209；如果否，识别出编码后的第一文本数据中不包含乱码文本数据，则执行S213。

S213，确定第二字体库为目标字体库。

采用预设的乱码乱码识别算法，识别编码后的第二文本数据与采用预设的乱码识别算法，识别编码后的第一文本数据类似，二者区别在于所识别的文本数据不同。

实际应用中，虽然大多数情况下，无乱码情况时待处理文档中的生僻字的字数与出现乱码情况时待处理文档中的生僻字的字数相比较少，但是待处理文档内容的不确定导致无乱码情况时待处理文档中的生僻字的字数也不确定，如果仅仅通过比较生僻字的占有率与第一预设阈值的大小来判断是否出现乱码，可能会将虽然生僻字的占有率小于第一预设阈值、但是出现了乱码的文本数据确定为不包含乱码文本数据，导致文档内容的乱码识别准确率降低。

为了应对上述文档内容的乱码识别准确率降低的问题，可选的，在本发明图2所示实施例的S208之后，本发明实施例的字体库匹配方法的流程，还可以包括：

如果生僻字在目标文本中的占有率不大于第一预设阈值，则判断生僻字在目标文本中的占有率是否小于第二预设阈值，第二预设阈值小于第一预设阈值。如果生僻字在目标文本中的占有率小于第二预设阈值，则识别出编码后的文本数据中没有乱码文本数据。

在第一预设阈值的基础上，通过小于第一预设阈值的第二预设阈值扩充对生僻字占有率的判断范围，以避免将虽然生僻字的占有率小于第一预设阈值、但是出现了乱码的文本数据确定为不包含乱码文本数据，从而提高文档内容的乱码识别准确率。

如果生僻字在目标文本中的占有率不小于第二预设阈值，则向用户输出是否需要修复文档提示。

在具体实施中，如果生僻字在目标文本中的占有率既不大于第一预设阈值，也不小于第二预设阈值，则无法判断是否有乱码文本数据，此时可以弹出一个修复文档提示框，由用户选择是否修复文档。终端设备接收到用户输入的“是”后，则表明编码后的文本数据中包含乱码文本数据。

在接收到用户输入的需要修复文档指令后，确定编码后的文本数据中包含乱码文本数据，并返回执行选取终端中未加载过的第二字体库，对待处理文档中的文本进行编码，得到编码后的第二文本数据。

具体的，用户输入的修复文档指令可以是“是”或者“否”，如果是“是”，则确定接收到用户输入的需要修复文档指令，编码后的文本数据中包含乱码文本数据；如果是“否”，则确定编码后的文本数据中不包含乱码文本数据。

例如：判断出生僻字在宋体文本中的占有率不大于第一预设阈值后，再判断生僻字在宋体文本中的占有率是否小于第二预设阈值，第二预设阈值小于第一预设阈值。如果生僻字在宋体文本中的占有率小于第二预设阈值，识别出编码后的宋体文本数据中没有乱码文本数据。

如果不小于第二预设阈值，则向用户输出是否需要修复文档提示。在接收到用户输入的需要修复文档指令后，判断编码后的宋体文本数据中包含乱码文本数据；此时从待处理文档中获得该乱码文本对应的宋体字体信息，为上传该信息至云后台做准备。在接收到用户输入的不需要修复文档指令后，判断编码后的宋体文本数据中不包含乱码文本数据。

当然，在本发明图2所示实施例的S212之后，与上述本发明图2所示实施例的S208之后还包括的步骤类似的，在S212之后同样可以引入第二预设阈值和向用户输出是否需要修复文档提示，二者的区别在于所识别的文本数据不同。

将上述基于用户的是否需要修复文档的提示，确定文档是否包含乱码数据的方式用于识别编码后的第一文本数据或者第二文本数据是否包含乱码数据，并基于识别结果，确定后续是否执行选取终端中未加载过的第二字体库，对待处理文档中的文本进行编码，得到编码后的第二文本数据，从而实现在因字体库匹配错误时，自动匹配目标字体库。

可选的，在本发明图2所示实施例中的S209之前，本发明实施例提供的字体库匹配方法，还可以包括：

针对各字体信息和各目标文本，根据该字体信息对应的字体库标识信息，选取终端中未加载过的、具有字体库标识信息的第二字体库，对目标文本进行编码，得到目标文本对应的编码后的第二文本数据。

采用预设的乱码识别算法，识别目标文本对应的编码后的第二文本数据。

当识别出目标文本对应的编码后的第二文本数据中包含乱码文本数据，则执行S209。

实际应用中，当字体库存在多个版本而导致的文档乱码情况时，与待处理文档匹配的字体库具有与该文档的字体信息对应的字体库标识信息，因此，为了缩小从所有未加载过的第二字体库中选取字体库记载时的选取范围，可以在S209之前执行上述可选实施例中的步骤。

当然，考虑到升级后的字体库还可能是用户从互联网或其他电子设备中存储至待处理文档所在的电子设备中的，这种情况下升级后的字体库可能具有与升级前的字体库不同的字体库标识信息，此时，如果只执行上述可选的实施例，可能会出现终端中未加载过的、具有字体库标识信息的第二字体库依然不是目标字体库的情况。因此，为了保证能够确定出目标字体库，在选取终端中未加载过的、具有字体库标识信息的第二字体库，对目标文本进行编码，得到到目标文本对应的编码后的第二文本数据之后，还需要采用预设的乱码识别算法，识别目标文本对应的编码后的第二文本数据。当识别出目标文本对应的编码后的第二文本数据中包含乱码文本数据，则执行S209，以便应对目标字体库可能为改变了字体库标识信息的字体库的情况。

如图3所示，本发明图2所示实施例的S206中，判断编码后的第一文本数据中是否有生僻字的流程，具体可以包括：

S301，从预存的字频表中获得每个目标文字的字频。

在具体实施中，字频表中的字频为文字在一般文档中出现的频率，例如一个文档中有20000个文字，“了”字一共出现了690次，则字频为3.45％(690/20000＝3.45％)。

经过大量文档样本的统计而得到预存的字频表，该预存字频表主要由字符名称、字符编码和字符频率组成，按字符频率大小由高到低排序，部分内容如下表1所示。

表1

S302，判断目标文字的字频是否低于预设生僻字的字频阈值，如果是则执行步骤S303；如果否，则执行步骤S304。

在具体实施中，一般会预设生僻字的字频阈值，如果目标文字的字频低于预设生僻字的字频阈值，认为该文字为生僻字。

S303，确定该目标文字为生僻字。

S304，确定该目标文字不是生僻字，继续判断下一个目标文字；如果确定所有目标文字都不是生僻字，则编码后的文本数据中没有生僻字。

例如：获得编码后的宋体文本数据，从预存的字频表中获得宋体文本数据中每个文字的字频，判断文字的字频是否低于预设生僻字的字频阈值，如果字频低于预设生僻字的字频阈值，则确定该文字为生僻字。

如果宋体文本数据中有文字的字频不低于预设生僻字的字频阈值，确定该文字不是生僻字，继续判断下一个文字的字频；如果确定宋体文本数据中所有文字都不是生僻字，则宋体文本数据中没有生僻字。

当然，本发明图2所示实施例的S210中，判断编码后的第二文本数据中是否有生僻字的流程与上述图3所示的流程类似，二者的区别在于所识别的文本数据不同。

相应于上述方法实施例，本发明实施例还提供了字体库匹配装置。

如图4所示，本发明一实施例的字体库匹配装置的结构，该装置可以包括：

解析模块401，用于解析待处理文档，得到待处理文档的文字解析结果；

获取模块401，用于获取并根据待处理文档的字体信息，确定与字体信息对应的字体库标识信息；

编码模块402，用于根据字体库标识信息，选取终端中具有字体库标识信息的第一字体库加载到待处理文档中的文本中，对待处理文档中的文本进行编码，得到编码后的第一文本数据；

识别模块403，用于用于采用预设的乱码识别算法，识别所述编码后的第一文本数据；

编码模块402，还用于在识别模块403识别出编码后的第二文本数据中包含乱码文本数据时，选取终端中未加载过的第二字体库，对待处理文档中的文本进行编码，得到编码后的第二文本数据；

识别模块403，还用于采用预设的乱码识别算法，识别编码后的第二文本数据；当识别出编码后的第二文本数据中不包含乱码文本数据，则确定第二字体库为目标字体库。

本发明实施例提供的一种字体库匹配装置，通过采用预设的乱码识别算法，识别由具有字体库标识信息的第一字体库加载并编码得到的编码后的第一文本数据。在识别出第一字体库为匹配错误的字体库时，将终端中未加载过的第二字体库循环加载到待处理文档中的文本中，且每加载一个第二字体库并编码得到第二文本数据时，对第二文本数据进行乱码文本数据识别。当识别出第二文本数据不包含乱码文本数据时，则表明匹配到了正确的字体库，得到该不包含乱码文本数据的第二字体库就可以被确定为目标字体库，从而在文档出现因字体库匹配错误而导致的乱码时，自动匹配目标字体库，避免后续显示文档内容时出现乱码。

如图5所示，本发明另一实施例的字体库匹配装置的结构，该装置可以包括：

获取模块501，用于获取待处理文档的多个字体信息；针对各字体信息，根据该字体信息确定与该字体信息对应的字体库标识信息；

分类模块502，用于根据各个字体信息对所述待处理文档中所有文本进行分类，将各个字体信息对应的文本分别作为目标文本；确定每个目标文本中的目标文字的字数；

编码模块503，用于针对各字体信息和各个标文本，根据该字体信息对应的字体库标识信息，选取终端中具有所述字体库标识信息的第一字体库加载到目标文本中，对目标文本进行编码，得到目标文本对应的编码后的第一文本数据；

识别模块504，用于判断目标文本对应的编码后的第一文本数据中是否有生僻字；若有生僻字，则根据每个目标文本中生僻字的字数和目标文字的字数，计算生僻字在所述目标文本中的占有率；判断生僻字在所述目标文本中的占有率是否大于第一预设阈值；若生僻字在所述目标文本中的占有率大于第一预设阈值，则识别出所述编码后的文本数据中包含乱码文本数据；

编码模块503，还用于：

针对各字体信息和各目标文本，选取终端中未加载过的第二字体库，对目标文本进行编码，得到到目标文本对应的编码后的第二文本数据；

识别模块504，还用于：判断所述编码后的第二文本数据中是否有生僻字；

若无生僻字，则识别出所述编码后的第二文本数据中不包含乱码文本数据；

若有生僻字，则执行下述步骤：根据每个目标文本中生僻字的字数和目标文字的字数，计算生僻字在目标文本中的占有率；判断生僻字在目标文本中的占有率是否大于第一预设阈值；若生僻字在目标文本中的占有率大于第一预设阈值，则识别出编码后的第二文本数据中包含乱码文本数据。

可选的，本发明图5所示实施例中的编码模块503，还可以用于：

在选取终端中未加载过的第二字体库，对待处理文档中的文本进行编码，得到编码后的第二文本数据之前，针对各字体信息和各目标文本，根据该字体信息对应的字体库标识信息，选取终端中未加载过的、具有字体库标识信息的第二字体库，对目标文本进行编码，得到目标文本对应的编码后的第二文本数据；

识别模块504，用于采用预设的乱码识别算法，识别目标文本对应的编码后的第二文本数据；

编码模块503，用于在识别模块504识别出目标文本对应的编码后的第二文本数据中包含乱码文本数据，则执行针对各字体信息和各目标文本，选取所述终端中未加载过的第二字体库，对所述目标文本进行编码，得到到所述目标文本对应的编码后的第二文本数据。

可选的，本发明图5所示实施例中的识别模块504，在用于确定生僻字时，具体用于：

从预存的字频表中获得每个目标文字的字频；如果目标文字的字频低于预设生僻字的字频阈值，则确定该目标文字为生僻字。

可选的，本发明图5所示实施例中的识别模块504，还可以用于：

判断生僻字在目标文本中的占有率是否小于第二预设阈值，第二预设阈值小于第一预设阈值；

若生僻字在目标文本中的占有率小于第二预设阈值，则识别出编码后的第一文本数据中没有乱码文本数据；

若不小于第二预设阈值，则向用户输出是否需要修复文档提示；

在接收到用户输入的需要修复文档指令后，确定编码后的第一文本数据中包含乱码文本数据，并返回执行选取所述终端中未加载过的第二字体库，对所述待处理文档中的文本进行编码，得到编码后的第二文本数据。

本发明实施例还提供了一种电子设备，如图6所示，该设备可以包括：

处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。

存储器603，用于存放计算机程序。

处理器601，用于执行存储器603上所存放的程序时，实现上述任一实施例中，字体库匹配方法的步骤。

本发明实施例提供的一种电子设备，通过采用预设的乱码识别算法，识别由具有字体库标识信息的第一字体库加载并编码得到的编码后的第一文本数据。在识别出第一字体库为匹配错误的字体库时，将终端中未加载过的第二字体库循环加载到待处理文档中的文本中，且每加载一个第二字体库并编码得到第二文本数据时，对第二文本数据进行乱码文本数据识别。当识别出第二文本数据不包含乱码文本数据时，则表明匹配到了正确的字体库，得到该不包含乱码文本数据的第二字体库就可以被确定为目标字体库，从而在文档出现因字体库匹配错误而导致的乱码时，自动匹配目标字体库，避免后续显示文档内容时出现乱码。

机器可读存储介质可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。另外，机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明一实施例提供的计算机可读存储介质，包含于服务器，该计算机可读存储介质内存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施例中字体库匹配方法的步骤。

本发明实施例提供的一种计算机可读存储介质包含于电子设备，该介质所存储的计算机程序被执行时，可以采用预设的乱码识别算法，识别由具有字体库标识信息的第一字体库加载并编码得到的编码后的第一文本数据。在识别出第一字体库为匹配错误的字体库时，将终端中未加载过的第二字体库循环加载到待处理文档中的文本中，且每加载一个第二字体库并编码得到第二文本数据时，对第二文本数据进行乱码文本数据识别。当识别出第二文本数据不包含乱码文本数据时，则表明匹配到了正确的字体库，得到该不包含乱码文本数据的第二字体库就可以被确定为目标字体库，从而在文档出现因字体库匹配错误而导致的乱码时，自动匹配目标字体库，避免后续显示文档内容时出现乱码。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一实施例中字体库匹配方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line，数字用户线)或无线(例如：红外线、无线电、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如：DVD(Digital Versatile Disc，数字通用光盘))、或者半导体介质(例如：SSD(Solid StateDisk，固态硬盘))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种字体库匹配方法，其特征在于，应用于终端，所述终端中存储多个字体库，所述方法包括：

获取并根据待处理文档的字体信息，确定与所述字体信息对应的字体库标识信息；

根据所述字体库标识信息，选取所述终端中具有所述字体库标识信息的第一字体库加载到所述待处理文档中的文本中，对所述待处理文档中的文本进行编码，得到编码后的第一文本数据；

采用预设的乱码识别算法，识别所述编码后的第一文本数据；

当识别出所述编码后的第一文本数据中包含乱码文本数据，则选取所述终端中未加载过的第二字体库，对所述待处理文档中的文本进行编码，得到编码后的第二文本数据；

采用预设的乱码识别算法，识别所述编码后的第二文本数据；

当识别出所述编码后的第二文本数据中包含乱码文本数据，则执行所述选取所述终端中未加载过的第二字体库，对所述待处理文档中的文本进行编码，得到编码后的第二文本数据；

当识别出所述编码后的第二文本数据中不包含乱码文本数据，则确定所述第二字体库为目标字体库。

2.根据权利要求1所述的方法，其特征在于，所述获取并根据待处理文档的字体信息，确定与所述字体信息对应的字体库标识信息，包括：

获取待处理文档的多个字体信息；

针对各字体信息，根据该字体信息确定与该字体信息对应的字体库标识信息；

在所述根据所述字体库标识信息，选取所述终端中具有所述字体库标识信息的第一字体库加载到所述待处理文档中的文本中，对所述待处理文档中的文本进行编码，得到编码后的第一文本数据之前，所述方法还包括：

根据所述各字体信息对所述待处理文档中所有文本进行分类，将各字体信息对应的文本分别作为目标文本；

确定每个目标文本中的目标文字的字数；

所述根据所述字体库标识信息，选取所述终端中具有所述字体库标识信息的第一字体库加载到所述待处理文档中的文本中，对所述待处理文档中的文本进行编码，得到编码后的第一文本数据，包括：

针对各字体信息和各目标文本，根据该字体信息对应的字体库标识信息，选取所述终端中具有所述字体库标识信息的第一字体库加载到所述目标文本中，对所述目标文本进行编码，得到所述目标文本对应的编码后的第一文本数据；

所述采用预设的乱码识别算法，识别所述编码后的第一文本数据，包括：

判断编码后的第一文本数据中是否有生僻字；

若有生僻字，则根据每个目标文本中生僻字的字数和目标文字的字数，计算生僻字在所述目标文本中的占有率；

判断所述生僻字在所述目标文本中的占有率是否大于第一预设阈值；

若所述生僻字在所述目标文本中的占有率大于第一预设阈值，则识别出所述编码后的第一文本数据中包含乱码文本数据。

3.根据权利要求2所述的方法，其特征在于，所述判断编码后的第一文本数据中是否有生僻字，包括：

从预存的字频表中获得每个目标文字的字频；

如果所述目标文字的字频低于预设生僻字的字频阈值，则确定该目标文字为生僻字。

4.根据权利要求2所述的方法，其特征在于，在所述判断出所述生僻字在所述目标文本中的占有率不大于第一预设阈值之后，所述方法还包括：

判断所述生僻字在所述目标文本中的占有率是否小于第二预设阈值，所述第二预设阈值小于所述第一预设阈值；

若所述生僻字在所述目标文本中的占有率小于第二预设阈值，则识别出所述编码后的第一文本数据中没有乱码文本数据；

若不小于所述第二预设阈值，则向用户输出是否需要修复文档提示；

在接收到用户输入的需要修复文档指令后，确定所述编码后的第一文本数据中包含乱码文本数据，并返回执行所述选取所述终端中未加载过的第二字体库，对所述待处理文档中的文本进行编码，得到编码后的第二文本数据。

5.根据权利要求2所述的方法，其特征在于，所述选取所述终端中未加载过的第二字体库，对所述待处理文档中的文本进行编码，得到编码后的第二文本数据，包括：

针对各字体信息和各目标文本，选取所述终端中未加载过的第二字体库，对所述目标文本进行编码，得到到所述目标文本对应的编码后的第二文本数据；

所述采用预设的乱码识别算法，识别所述编码后的第二文本数据，包括：

判断所述目标文本对应的编码后的第二文本数据中是否有生僻字；

若有生僻字，则执行下述步骤：

根据每个目标文本中生僻字的字数和目标文字的字数，计算生僻字在所述目标文本中的占有率；

判断所述生僻字在所述目标文本中的占有率是否大于所述第一预设阈值；

若所述生僻字在所述目标文本中的占有率大于所述第一预设阈值，则识别出所述编码后的第二文本数据中包含乱码文本数据。

6.根据权利要求5所述的方法，其特征在于，在所述选取所述终端中未加载过的第二字体库，对所述待处理文档中的文本进行编码，得到编码后的第二文本数据之前，所述方法还包括：

针对各字体信息和各目标文本，根据该字体信息对应的字体库标识信息，选取所述终端中未加载过的、具有所述字体库标识信息的第二字体库，对所述目标文本进行编码，得到所述目标文本对应的编码后的第二文本数据；

采用预设的乱码识别算法，识别所述目标文本对应的编码后的第二文本数据；

当识别出所述目标文本对应的编码后的第二文本数据中包含乱码文本数据，则执行所述针对各字体信息和各目标文本，选取所述终端中未加载过的第二字体库，对所述目标文本进行编码，得到到所述目标文本对应的编码后的第二文本数据。

7.一种字体库匹配装置，其特征在于，所述装置包括：

获取模块，用于获取并根据待处理文档的字体信息，确定与所述字体信息对应的字体库标识信息；

编码模块，用于根据所述字体库标识信息，选取所述终端中具有所述字体库标识信息的第一字体库加载到所述待处理文档中的文本中，对所述待处理文档中的文本进行编码，得到编码后的第一文本数据；

识别模块，用于采用预设的乱码识别算法，识别所述编码后的第一文本数据；

所述编码模块，还用于在所述识别模块识别出所述编码后的第二文本数据中包含乱码文本数据时，选取所述终端中未加载过的第二字体库，对所述待处理文档中的文本进行编码，得到编码后的第二文本数据；

所述识别模块，还用于采用预设的乱码识别算法，识别所述编码后的第二文本数据；当识别出所述编码后的第二文本数据中不包含乱码文本数据，则确定所述第二字体库为目标字体库。

8.根据权利要求7所述的装置，其特征在于，所述获取模块，具体用于：

获取待处理文档的多个字体信息；针对各字体信息，根据该字体信息确定与该字体信息对应的字体库标识信息；

所述装置还包括：分类模块，用于根据所述各个字体信息对所述待处理文档中所有文本进行分类，将各个字体信息对应的文本分别作为目标文本；确定每个目标文本中的目标文字的字数；

所述编码模块，具体用于：

所述识别模块，具体用于：

判断所述目标文本对应的编码后的第一文本数据中是否有生僻字；

判断所述生僻字在所述目标文本中的占有率是否大于第一预设阈值；若所述生僻字在所述目标文本中的占有率大于第一预设阈值，则识别出所述编码后的文本数据中包含乱码文本数据。

9.根据权利要求8所述的装置，其特征在于，所述识别模块，用于：

从预存的字频表中获得每个目标文字的字频；

10.根据权利要求8所述的装置，其特征在于，所述识别模块，还用于：

11.根据权利要求8所述的装置，其特征在于，所述编码模块，还用于：

所述识别模块，还用于：

若有生僻字，则执行下述步骤：

若所述生僻字在所述目标文本中的占有率大于第一预设阈值，则识别出所述编码后的第二文本数据中包含乱码文本数据。

12.根据权利要求11所述的装置，其特征在于，所述编码模块，还用于：

在选取所述终端中未加载过的第二字体库，对所述待处理文档中的文本进行编码，得到编码后的第二文本数据之前，针对各字体信息和各目标文本，根据该字体信息对应的字体库标识信息，选取所述终端中未加载过的、具有所述字体库标识信息的第二字体库，对所述目标文本进行编码，得到所述目标文本对应的编码后的第二文本数据；

所述识别模块，用于采用预设的乱码识别算法，识别所述目标文本对应的编码后的第二文本数据；

编码模块，用于在识别模块识别出所述目标文本对应的编码后的第二文本数据中包含乱码文本数据，则执行所述针对各字体信息和各目标文本，选取所述终端中未加载过的第二字体库，对所述目标文本进行编码，得到到所述目标文本对应的编码后的第二文本数据。

13.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现如权利要求1-6任一所述的方法步骤。

14.一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-6任一所述的方法步骤。