CN110728115B - 文档内容的乱码识别方法、装置及电子设备 - Google Patents

文档内容的乱码识别方法、装置及电子设备 Download PDF

Info

Publication number
CN110728115B
CN110728115B CN201810782436.9A CN201810782436A CN110728115B CN 110728115 B CN110728115 B CN 110728115B CN 201810782436 A CN201810782436 A CN 201810782436A CN 110728115 B CN110728115 B CN 110728115B
Authority
CN
China
Prior art keywords
document
word
text
text data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810782436.9A
Other languages
English (en)
Other versions
CN110728115A (zh
Inventor
冷志峰
张作兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Guangzhou Kingsoft Mobile Technology Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Guangzhou Kingsoft Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd, Guangzhou Kingsoft Mobile Technology Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN201810782436.9A priority Critical patent/CN110728115B/zh
Publication of CN110728115A publication Critical patent/CN110728115A/zh
Application granted granted Critical
Publication of CN110728115B publication Critical patent/CN110728115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供的一种文档内容的乱码识别方法、装置及设备,通过解析待处理文档,得到待处理文档的文字解析结果,从待处理文档的文字解析结果中提取各个字体信息。根据各个字体信息,将与字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据。当编码后的文本数据中有生僻字时,基于编码后的文本数据中生僻字的字数和待处理文档中文字的字数,计算得到生僻字在待处理文档中的占有率。判断生僻字在目标文本中的占有率是否大于第一预设阈值,若大于,则识别出编码后的文本数据中包含乱码文本数据。实现了自动识别编码后的文本数据是否包含乱码文本数据,提高了文档内容的乱码识别的便捷性。

Description

文档内容的乱码识别方法、装置及电子设备
技术领域
本发明涉及文字处理技术领域,特别是涉及一种文档内容的乱码识别方法、装置及电子设备。
背景技术
乱码指的是文档内容在电子设备上不能显示为正确的字符,而显示为其他无意义的字符。在电子设备上显示文档的文本内容时,可以基于文档中的文本内容的字体信息,以及与字体信息匹配的字体库的信息,在电子设备中查找到与字体信息匹配的字体库,将该字体库加载到该文本内容,从而显示正确的文本内容。如果电子设备中缺少与字体信息匹配的字体库,就会用不匹配的字体库解析该文本内容,从而导致乱码。由于电子设备中存储的字体库是有限的,因此,经常会出现因无法加载与文档内容的字体信息相匹配的字体库而导致文档乱码的现象。
在解决因字体库和文档内容的字体信息不匹配而导致的文档内容乱码时,需要用户肉眼观察识别是否存在乱码,以便根据识别结果,确定后续是否进行文档内容的乱码修复,这种由用户人工识别乱码的方式,具有较差的便捷性。
发明内容
本发明实施例的目的在于提供一种文档内容的乱码识别方法、装置及设备,以实现针对文档内容所出现的由字体库和文档内容的字体信息不匹配而导致的乱码现象,自动进行乱码识别,提高文档内容的乱码识别的便捷性。具体技术方案如下:
第一方面,本发明实施例提供了一种文档内容的乱码识别方法,该方法包括:
解析待处理文档,得到待处理文档的文字解析结果;
提取待处理文档的文字解析结果中的各个字体信息;
根据各个字体信息,将与字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据;
当编码后的文本数据中有生僻字时,基于编码后的文本数据中生僻字的字数和待处理文档中文字的字数,计算得到生僻字在待处理文档中的占有率;
判断生僻字在待处理文档中的占有率是否大于第一预设阈值;
若大于,则识别出编码后的文本数据中包含乱码文本数据。
第二方面,本发明实施例提供了一种文档内容的乱码识别装置,该装置包括:
解析模块,用于解析待处理文档,得到待处理文档的文字解析结果;
提取模块,用于提取待处理文档的文字解析结果中的各个字体信息;
编码模块,用于根据各个字体信息,对待处理文档中的文本加载对应的字体库并进行编码,获得编码后的文本数据;
识别模块,用于当编码后的文本数据中有生僻字时,基于编码后的文本数据中生僻字的字数和待处理文档中文字的字数,计算得到生僻字在待处理文档中的占有率;判断生僻字在待处理文档中的占有率是否大于第一预设阈值;若大于,则识别出编码后的文本数据中包含乱码文本数据。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现上述第一方面提供的文档内容的乱码识别方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面提供的文档内容的乱码识别方法的步骤。
本发明实施例提供的一种文档内容的乱码识别方法、装置及设备,通过解析待处理文档,得到待处理文档的文字解析结果,从待处理文档的文字解析结果中提取各个字体信息。根据各个字体信息,对待处理文档中的文本加载对应的字体库并进行编码,获得编码后的文本数据。当编码后的文本数据中有生僻字时,基于编码后的文本数据中生僻字的字数和待处理文档中文字的字数,计算得到生僻字在待处理文档中的占有率。判断生僻字在目标文本中的占有率是否大于第一预设阈值,若大于,则识别出编码后的文本数据中包含乱码文本数据。将待处理文档中文字的字数作为无乱码的标准,当文本数据中的生僻字在待处理文档中的占有率大于第一预设阈值时,表明待处理文档中的生僻字的占有率达到形成乱码的水平。在此基础上,由于无乱码现象时待处理文档中文字的字数与编码后的文本数据的字数相同,因此,待处理文档中的生僻字的占有率达到形成乱码的水平,也就表明编码后的文本数据中包含乱码文本数据,从而实现了自动识别编码后的文本数据是否包含乱码文本数据,无需用户人工打开文档、对文档内容进行阅读和识别,提高了文档内容的乱码识别的便捷性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例的文档内容的乱码识别方法的流程示意图;
图2为本发明另一实施例的文档内容的乱码识别方法的流程示意图;
图3为本发明图2所示另一实施例中步骤S206中判断编码后的文本数据中是否存在生僻字的具体流程示意图;
图4为本发明一实施例的文档内容的乱码识别装置的结构示意图;
图5为本发明另一实施例的文档内容的乱码识别装置的结构示意图;
图6为本发明一实施例的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了实现针对文档内容所出现的由字体库和内容不匹配而导致的乱码现象,能够自动进行乱码识别,本发明实施例提供了一种文档内容的乱码识别方法、装置及设备。
下面首先对本发明一实施例的文档内容的乱码识别方法进行介绍。
如图1所示,本发明一实施例的文档内容的乱码识别方法的流程,该方法可以包括以下步骤:
S101,解析待处理文档,得到待处理文档的文字解析结果。
在具体实施中,待处理文档可以是各种含有文本的文档。例如:待处理文档可以是doc、wps等格式的文字处理文档,ppt、dps等格式的演示文稿文档,xls、et等格式的表格文档,pdf格式的可移植文档。在具体实施中,可以使用文档解析软件解析待处理文档,得到待处理文档的文字解析结果。
S102,提取待处理文档的文字解析结果中各个字体信息。
在具体实施中,可以使用文档解析软件解析待处理文档,从文字解析结果中提取文档文字的字体信息。具体的,字体信息包含文档中各个文字的字体名称、字形信息和在文档中位置等信息。
S103,根据各个字体信息,将与字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据。
在具体实施中,可以根据已获得的字体名称,确定终端设备中保存的对应字体库,对具有相同字体信息的文本加载对应字体库;之后根据文本中各个文字的字形信息,使用对应字体库中的字形索引找到文本中各个文字的对应编码,最终获得编码后的文本数据。
例如:从文档中提取出宋体和黑体的字体信息,根据宋体和黑体的名称从终端设备的字体库文件夹中寻找宋体和黑体的字体库文件,将文档中的宋体文本加载宋体字体库,黑体文本加载黑体字体库;之后根据宋体文本和黑体文本中各个文字的字形信息,分别使用宋体和黑体字体库中的字形索引,找到宋体文本和黑体文本中各个文字的对应编码,最终获得编码后的宋体文本数据和黑体文本数据。
详细的,对待处理文档中的文本进行编码的方式有多种,包括但不限于以下方式:
如果待处理文档中的文本使用的为Unicode码(统一码),就按照上述S103的实施过程获得编码后的文本数据;
如果待处理文档中的文本使用的为CID码(Adobe公司开发的字符编码,主要应用于pdf格式的文档),需要把该文档的CID码转换为Unicode码,再按照上述S103的实施过程获得编码后的文本数据。
S104,当编码后的文本数据中有生僻字时,基于编码后的文本数据中生僻字的字数和待处理文档中文字的字数,计算得到生僻字在待处理文档中的占有率。
其中,生僻字在待处理文档中的占有率的计算方式可以为:编码后的文本数据中生僻字的字数÷待处理文档中文字的字数。
当然,编码后的文本数据中生僻字的字数和待处理文档中文字的字数具体可以通过下述步骤得到:
统计编码后的文本数据中生僻字的字数。
统计待处理文档中文字的字数。
S105,判断生僻字在待处理文档中的占有率是否大于第一预设阈值。
S106,若大于,则识别出编码后的文本数据中包含乱码文本数据。
由于无乱码情况时,待处理文档编码后的文本数据中也可能出现一定字数的生僻字,同时与无乱码情况相比,出现乱码情况时生僻字的字数通常较多。因此,为了避免将无乱码情况时出现的生僻字误判为乱码,可以根据历史经验设置第一预设阈值,判断生僻字在待处理文档中的占有率是否大于第一预设阈值。
其中,考虑到出现乱码时,编码后的文本数据中文字可能因为乱码造成字数不准确(例如无乱码时的两个字因字体库无法匹配而编码为一个字),因此,编码后的文本数据中文字的字数无法用于计算占有率。但是,无乱码情况时,正常编码后的文本数据中文字的字数应当与待处理文档中文字的字数相同,因此,可以利用待处理文档中文字的字数代替编码后的文本数据中文字的字数,用于计算编码后的文本数据中生僻字的占有率,从而生僻字在待处理文档中的占有率也就代表了生僻字在编码后的文本数据中的占有率。
因此,生僻字在待处理文档中的占有率大于第一预设阈值时,也代表生僻字在编码后的文本数据中的占有率大于第一预设阈值,表明编码后的文本数据中生僻字的字数达到出现乱码情况时的水平,从而识别出编码后的文本数据中包含乱码文本数据。
本发明实施例提供的一种文档内容的乱码识别方法,通过将待处理文档中文字的字数作为无乱码的标准,当文本数据中的生僻字在待处理文档中的占有率大于第一预设阈值时,表明待处理文档中的生僻字的占有率达到形成乱码的水平。在此基础上,由于无乱码现象时待处理文档中文字的字数与编码后的文本数据的字数相同,因此,待处理文档中的生僻字的占有率达到形成乱码的水平,也就表明编码后的文本数据中包含乱码文本数据,从而实现了自动识别编码后的文本数据是否包含乱码文本数据,无需用户人工打开文档、对文档内容进行阅读和识别,提高了文档内容的乱码识别的便捷性。
在具体实施中,出现乱码文本的原因有两种情况:1)当电子设备中没有文本对应的字体库,此时加载其他的字体库对文本文字进行编码,因加载错误的字体库而出现乱码;2)当电子设备中有文本对应的字体库,但由于一种字体库有多种版本,而字体信息中没有文档所用的字体库的版本信息,此时可能加载该字体库的其他版本字体库对文本文字进行编码,这样就会因加载错误版本的字体库而出现乱码。例如:待处理文本为宋体文本,出现乱码文本的原因有两种情况:1)当电子设备中没有宋体文本对应的宋体字体库,此时加载黑体字体库对文本文字进行编码,因加载错误的字体库,宋体文本会出现乱码;2)当电子设备中有宋体文本对应的宋体字体库1.0版本,此时却加载了宋体字体库1.2版本对文本文字进行编码,因加载错误的字体库版本,宋体文本会出现乱码。
因此,为了针对同一文本中出现由不同原因造成的乱码情况时,能够有针对性地识别乱码,可选的,如图2所示,本发明另一实施例的文档内容的乱码识别方法的流程,该方法可以包括以下步骤:
S201,解析待处理文档,得到待处理文档的文字解析结果。
S202,提取待处理文档的文字解析结果中各个字体信息。
S201至S202和本发明图1所示实施例的S101至S102为相同步骤,在此不再赘述,详见本发明图1所示实施例的描述。
S203,根据各个字体信息对待处理文档中所有文本进行分类,将各个字体信息对应的文本分别作为目标文本。
在具体实施中,根据各个字体信息中的字体名称对待处理文档中所有文本进行分类并作为目标文本。
S204,确定每个目标文本中的目标文字的字数。
在具体实施中,确定上述目标文字的字数是为之后计算生僻字占有率做准备。例如:将文档中的文本分为宋体文本和黑体文本,并将其作为目标文本,分别确定宋体文本和黑体文本中目标文字的字数。
S205,根据各个字体信息,对各个目标文本加载对应的字体库并进行编码,获得目标文本对应的编码后的文本数据。
在具体实施中,可以根据已获得的字体名称,确定终端设备中保存的对应字体库,对目标文本加载对应字体库;之后根据目标文本中各个文字的字形信息,使用对应字体库中的字形索引找到目标文本中各个文字的对应编码,最终获得编码后的文本数据。
S206,判断编码后的文本数据中是否有生僻字。如果是有生僻字,则执行步骤S207,如果没有生僻字,确定该文档没有乱码文本。
S207,根据每个目标文本中生僻字的字数和目标文字的字数,计算生僻字在目标文本中的占有率。
在具体实施中,生僻字在目标文本中的占有率的计算方式可以为:目标文本中生僻字的字数÷目标文字的字数。
S208,判断生僻字在目标文本中的占有率是否大于第一预设阈值。如果是,可以识别出编码后的文本数据中包含乱码文本数据;如果否,可以识别出编码后的文本数据中不包含乱码文本数据。
例如:获得编码后的宋体文本数据和黑体文本数据后,分别判断两种文本数据中是否有生僻字,以宋体文本数据为例。如果宋体文本数据中有生僻字,则统计生僻字的字数,计算生僻字在宋体文本中的占有率:宋体文本中生僻字的字数/宋体文本文字的字数。
判断生僻字在宋体文本中的占有率是否大于第一预设阈值,如果大于第一预设阈值,识别出宋体文本数据中包含乱码文本数据,如果不大于第一预设阈值,识别出宋体文本数据中不包含乱码文本数据。黑体文本数据的识别也参照上述方式。
如果宋体文本数据中没有生僻字,判断该文本不是乱码文本;若黑体文本数据中也没有生僻字,判断该文档没有乱码文本。
实际应用中,虽然大多数情况下,无乱码情况时待处理文档中的生僻字的字数与出现乱码情况时待处理文档中的生僻字的字数相比较少,但是待处理文档内容的不确定导致无乱码情况时待处理文档中的生僻字的字数也不确定,如果仅仅通过比较生僻字的占有率与第一预设阈值的大小来判断是否出现乱码,可能会将虽然生僻字的占有率小于第一预设阈值、但是出现了乱码的文本数据确定为不包含乱码文本数据,导致文档内容的乱码识别准确率降低。
为了应对上述文档内容的乱码识别准确率降低的问题,可选的,在本发明图2所示实施例的S208之后,本发明实施例的文档内容的乱码识别方法的流程,还可以包括:
如果生僻字在目标文本中的占有率不大于第一预设阈值,则判断生僻字在目标文本中的占有率是否小于第二预设阈值,第二预设阈值小于第一预设阈值。如果生僻字在目标文本中的占有率小于第二预设阈值,则识别出编码后的文本数据中没有乱码文本数据。
在第一预设阈值的基础上,通过小于第一预设阈值的第二预设阈值扩充对生僻字占有率的判断范围,以避免将虽然生僻字的占有率小于第一预设阈值、但是出现了乱码的文本数据确定为不包含乱码文本数据,从而提高文档内容的乱码识别准确率。
如果生僻字在目标文本中的占有率不小于第二预设阈值,则向用户输出是否需要修复文档提示。
在具体实施中,如果生僻字在目标文本中的占有率既不大于第一预设阈值,也不小于第二预设阈值,则无法判断是否有乱码文本数据,此时可以弹出一个修复文档提示框,由用户选择是否修复文档。终端设备接收到用户输入的“是”后,则表明编码后的文本数据中包含乱码文本数据。
在接收到用户输入的需要修复文档指令后,确定编码后的文本数据中包含乱码文本数据。
具体的,用户输入的修复文档指令可以是“是”或者“否”,如果是“是”,则确定接收到用户输入的需要修复文档指令,编码后的文本数据中包含乱码文本数据;如果是“否”,则确定编码后的文本数据中不包含乱码文本数据。
例如:判断出生僻字在宋体文本中的占有率不大于第一预设阈值后,再判断生僻字在宋体文本中的占有率是否小于第二预设阈值,第二预设阈值小于第一预设阈值。如果生僻字在宋体文本中的占有率小于第二预设阈值,识别出编码后的宋体文本数据中没有乱码文本数据。
如果不小于第二预设阈值,则向用户输出是否需要修复文档提示。在接收到用户输入的需要修复文档指令后,判断编码后的宋体文本数据中包含乱码文本数据;此时从待处理文档中获得该乱码文本对应的宋体字体信息,为上传该信息至云后台做准备。在接收到用户输入的不需要修复文档指令后,判断编码后的宋体文本数据中不包含乱码文本数据。
如图3所示,本发明图2所示实施例的S206中,判断编码后的文本数据中是否有生僻字的流程,具体可以包括:
S301,从预存的字频表中获得每个目标文字的字频。
在具体实施中,字频表中的字频为文字在一般文档中出现的频率,例如一个文档中有20000个文字,“了”字一共出现了690次,则字频为3.45%(690/20000=3.45%)。
经过大量文档样本的统计而得到预存的字频表,该预存字频表主要由字符名称、字符编码和字符频率组成,按字符频率大小由高到低排序,部分内容如下表1所示。
表1
S302,判断目标文字的字频是否低于预设生僻字的字频阈值,如果是则执行步骤S303;如果否,则执行步骤S304。
在具体实施中,一般会预设生僻字的字频阈值,如果目标文字的字频低于预设生僻字的字频阈值,认为该文字为生僻字。
S303,确定该目标文字为生僻字。
S304,确定该目标文字不是生僻字,继续判断下一个目标文字;如果确定所有目标文字都不是生僻字,则编码后的文本数据中没有生僻字。
例如:获得编码后的宋体文本数据,从预存的字频表中获得宋体文本数据中每个文字的字频,判断文字的字频是否低于预设生僻字的字频阈值,如果字频低于预设生僻字的字频阈值,则确定该文字为生僻字。
如果宋体文本数据中有文字的字频不低于预设生僻字的字频阈值,确定该文字不是生僻字,继续判断下一个文字的字频;如果确定宋体文本数据中所有文字都不是生僻字,则宋体文本数据中没有生僻字。
相应于上述方法实施例,本发明实施例还提供了文档内容的乱码识别装置。
如图4所示,本发明一实施例的文档内容的乱码识别装置的结构,该装置可以包括:
解析模块401,用于解析待处理文档,得到待处理文档的文字解析结果;
提取模块402,用于提取待处理文档的文字解析结果中的各个字体信息;
编码模块403,用于根据各个字体信息,将与字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据;
识别模块404,用于当所述编码后的文本数据中有生僻字时,基于所述编码后的文本数据中生僻字的字数和所述待处理文档中文字的字数,计算得到所述生僻字在所述待处理文档中的占有率;判断所述生僻字在所述待处理文档中的占有率是否大于第一预设阈值;若大于,则识别出所述编码后的文本数据中包含乱码文本数据。
如图5所示,本发明另一实施例的文档内容的乱码识别装置的结构,该装置可以包括:
解析模块501,用于解析待处理文档,得到待处理文档的文字解析结果;
提取模块502,用于提取待处理文档的文字解析结果中的各个字体信息;
501至502与本发明图4所示实施例中的401至402为相同模块。
分类模块503,用于根据各个字体信息对所述待处理文档中所有文本进行分类,将各个字体信息对应的文本分别作为目标文本;确定每个目标文本中的目标文字的字数;
编码模块504,根据各个字体信息,对各个目标文本加载对应的字体库并进行编码,获得目标文本对应的编码后的文本数据;
识别模块505,用于判断编码后的文本数据中是否有生僻字;若有生僻字,则根据每个目标文本中生僻字的字数和目标文字的字数,计算生僻字在目标文本中的占有率;判断生僻字在目标文本中的占有率是否大于第一预设阈值,若生僻字在目标文本中的占有率大于第一预设阈值,则识别出编码后的文本数据中包含乱码文本数据。
可选的,本发明图5所示实施例中的识别模块505,在用于确定生僻字时,具体用于:
从预存的字频表中获得每个目标文字的字频;如果目标文字的字频低于预设生僻字的字频阈值,则确定该目标文字为生僻字。
可选的,本发明图5所示实施例中的识别模块505,还可以用于:
判断生僻字在目标文本中的占有率是否小于第二预设阈值,第二预设阈值小于第一预设阈值;
若生僻字在目标文本中的占有率小于第二预设阈值,则识别出编码后的文本数据中没有乱码文本数据;
若不小于第二预设阈值,则向用户输出是否需要修复文档提示;
在接收到用户输入的需要修复文档指令后,确定编码后的文本数据中包含乱码文本数据。
本发明实施例还提供了一种电子设备,如图6所示,该设备可以包括:
处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信。
存储器603,用于存放计算机程序。
处理器601,用于执行存储器603上所存放的程序时,实现上述任一实施例中,文档内容的乱码识别方法的步骤。
本发明实施例提供的一种电子设备,通过将待处理文档中文字的字数作为无乱码的标准,当文本数据中的生僻字在待处理文档中的占有率大于第一预设阈值时,表明待处理文档中的生僻字的占有率达到形成乱码的水平。在此基础上,由于无乱码现象时待处理文档中文字的字数与编码后的文本数据的字数相同,因此,待处理文档中的生僻字的占有率达到形成乱码的水平,也就表明编码后的文本数据中包含乱码文本数据,从而实现了自动识别编码后的文本数据是否包含乱码文本数据,无需用户人工打开文档、对文档内容进行阅读和识别,提高了文档内容的乱码识别的便捷性。
机器可读存储介质可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-Volatile Memory,非易失性存储器),例如至少一个磁盘存储器。另外,机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明一实施例提供的计算机可读存储介质,包含于服务器,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中,文档内容的乱码识别方法的步骤。
本发明实施例提供的一种计算机可读存储介质包含于代理服务器,该介质所存储的计算机程序被执行时,可以将待处理文档中文字的字数作为无乱码的标准,当文本数据中的生僻字在待处理文档中的占有率大于第一预设阈值时,表明待处理文档中的生僻字的占有率达到形成乱码的水平。在此基础上,由于无乱码现象时待处理文档中文字的字数与编码后的文本数据的字数相同,因此,待处理文档中的生僻字的占有率达到形成乱码的水平,也就表明编码后的文本数据中包含乱码文本数据,从而实现了自动识别编码后的文本数据是否包含乱码文本数据,无需用户人工打开文档、对文档内容进行阅读和识别,提高了文档内容的乱码识别的便捷性。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一实施例中,文档内容的乱码识别方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line,数字用户线)或无线(例如:红外线、无线电、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如:DVD(Digital Versatile Disc,数字通用光盘))、或者半导体介质(例如:SSD(Solid StateDisk,固态硬盘))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (6)

1.一种文档内容的乱码识别方法,其特征在于,所述方法包括:
解析待处理文档,得到所述待处理文档的文字解析结果;
提取所述待处理文档的文字解析结果中的各个字体信息;
根据所述各个字体信息对所述待处理文档中所有文本进行分类,将各个字体信息对应的文本分别作为目标文本;
确定每个目标文本中的目标文字的字数;
根据所述各个字体信息,对各个目标文本加载对应的字体库并进行编码,获得所述目标文本对应的编码后的文本数据;
判断所述编码后的文本数据中是否有生僻字;
若有生僻字,则根据每个目标文本中生僻字的字数和目标文字的字数,计算生僻字在所述目标文本中的占有率;
判断所述生僻字在所述目标文本中的占有率是否大于第一预设阈值;
若所述生僻字在所述目标文本中的占有率大于第一预设阈值,则识别出所述编码后的文本数据中包含乱码文本数据;
若所述生僻字在所述目标文本中的占有率不大于第一预设阈值,判断所述生僻字在所述目标文本中的占有率是否小于第二预设阈值,所述第二预设阈值小于所述第一预设阈值;
若所述生僻字在所述目标文本中的占有率小于第二预设阈值,则识别出所述编码后的文本数据中没有乱码文本数据;
若不小于第二预设阈值,则向用户输出是否需要修复文档提示;
在接收到用户输入的需要修复文档指令后,确定所述编码后的文本数据中包含乱码文本数据。
2.根据权利要求1所述的方法,其特征在于,所述判断编码后的文本数据中是否有生僻字的步骤,包括:
从预存的字频表中获得每个目标文字的字频;
如果所述目标文字的字频低于预设生僻字的字频阈值,则确定该目标文字为生僻字。
3.一种文档内容的乱码识别装置,其特征在于,所述装置包括:
解析模块,用于解析待处理文档,得到所述待处理文档的文字解析结果;
提取模块,用于提取所述待处理文档的文字解析结果中的各个字体信息;
分类模块,用于根据所述各个字体信息对所述待处理文档中所有文本进行分类,将各个字体信息对应的文本分别作为目标文本;确定每个目标文本中的目标文字的字数;
编码模块,用于根据所述各个字体信息,对各个目标文本加载对应的字体库并进行编码,获得所述目标文本对应的编码后的文本数据;
识别模块,用于判断编码后的文本数据中是否有生僻字;若有生僻字,则根据每个目标文本中生僻字的字数和目标文字的字数,计算生僻字在所述目标文本中的占有率;判断所述生僻字在所述目标文本中的占有率是否大于第一预设阈值;若所述生僻字在所述目标文本中的占有率大于第一预设阈值,则识别出所述编码后的文本数据中包含乱码文本数据;若所述生僻字在所述目标文本中的占有率不大于第一预设阈值,判断所述生僻字在所述目标文本中的占有率是否小于第二预设阈值,所述第二预设阈值小于所述第一预设阈值;若所述生僻字在所述目标文本中的占有率小于第二预设阈值,则识别出所述编码后的文本数据中没有乱码文本数据;若不小于第二预设阈值,则向用户输出是否需要修复文档提示;在接收到用户输入的需要修复文档指令后,确定所述编码后的文本数据中包含乱码文本数据。
4.根据权利要求3所述的装置,其特征在于,所述识别模块,具体用于:
从预存的字频表中获得每个目标文字的字频;
如果所述目标文字的字频低于预设生僻字的字频阈值,则确定该目标文字为生僻字。
5.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现如权利要求1-2任一所述的方法步骤。
6.一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-2任一所述的方法步骤。
CN201810782436.9A 2018-07-17 2018-07-17 文档内容的乱码识别方法、装置及电子设备 Active CN110728115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810782436.9A CN110728115B (zh) 2018-07-17 2018-07-17 文档内容的乱码识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810782436.9A CN110728115B (zh) 2018-07-17 2018-07-17 文档内容的乱码识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110728115A CN110728115A (zh) 2020-01-24
CN110728115B true CN110728115B (zh) 2024-01-26

Family

ID=69217397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810782436.9A Active CN110728115B (zh) 2018-07-17 2018-07-17 文档内容的乱码识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110728115B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3697949A (en) * 1970-12-31 1972-10-10 Ibm Error correction system for use with a rotational single-error correction, double-error detection hamming code
CN1924866A (zh) * 2006-09-28 2007-03-07 北京理工大学 基于统计特征的网页恶意脚本检测方法
CN104092514A (zh) * 2014-07-08 2014-10-08 深圳市同洲电子股份有限公司 一种编码方式的切换方法及装置
CN104424165A (zh) * 2013-09-06 2015-03-18 北大方正集团有限公司 一种文本文档乱码检测方法及系统
CN104732228A (zh) * 2015-04-16 2015-06-24 同方知网数字出版技术股份有限公司 一种pdf文档乱码的检测、校正的方法
CN104750663A (zh) * 2013-12-27 2015-07-01 阿里巴巴集团控股有限公司 页面中文本乱码的识别方法及装置
CN107679022A (zh) * 2017-09-07 2018-02-09 北京京东尚科信息技术有限公司 生僻字处理方法及其系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3697949A (en) * 1970-12-31 1972-10-10 Ibm Error correction system for use with a rotational single-error correction, double-error detection hamming code
CN1924866A (zh) * 2006-09-28 2007-03-07 北京理工大学 基于统计特征的网页恶意脚本检测方法
CN104424165A (zh) * 2013-09-06 2015-03-18 北大方正集团有限公司 一种文本文档乱码检测方法及系统
CN104750663A (zh) * 2013-12-27 2015-07-01 阿里巴巴集团控股有限公司 页面中文本乱码的识别方法及装置
CN104092514A (zh) * 2014-07-08 2014-10-08 深圳市同洲电子股份有限公司 一种编码方式的切换方法及装置
CN104732228A (zh) * 2015-04-16 2015-06-24 同方知网数字出版技术股份有限公司 一种pdf文档乱码的检测、校正的方法
CN107679022A (zh) * 2017-09-07 2018-02-09 北京京东尚科信息技术有限公司 生僻字处理方法及其系统

Also Published As

Publication number Publication date
CN110728115A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN110795258B (zh) 字体库匹配方法、装置及设备
CN110728111A (zh) 一种文档内容的乱码修复方法、装置、终端设备和服务器
CN107122342B (zh) 文本编码识别方法和装置
CN107085568B (zh) 一种文本相似度判别方法及装置
US9754023B2 (en) Stochastic document clustering using rare features
CN111339166A (zh) 基于词库的匹配推荐方法、电子装置及存储介质
TW201545104A (zh) 資料分析系統、資料分析方法、及資料分析程式
CN111767713A (zh) 关键词的提取方法、装置、电子设备及存储介质
CN111061842A (zh) 一种相似文本确定方法及装置
CN110874526B (zh) 一种文件相似性检测方法、装置、电子设备及存储介质
US9122898B2 (en) Systems and methods for processing documents of unknown or unspecified format
CN106202349B (zh) 网页分类字典生成方法及装置
CN112182337B (zh) 从海量短新闻中识别相似新闻的方法及相关设备
CN108052686B (zh) 一种摘要提取方法及相关设备
CN110795607A (zh) 一种基于多级相似度计算的装备保障数据匹配方法及系统
CN110728115B (zh) 文档内容的乱码识别方法、装置及电子设备
CN109460555B (zh) 公文判定方法、装置及电子设备
CN117172212A (zh) 图纸中的目录提取方法、装置、电子设备和存储介质
CN109829043B (zh) 词性确认方法、装置、电子设备及存储介质
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
CN114743012B (zh) 一种文本识别方法及装置
CN112182448A (zh) 页面信息处理方法、装置及设备
CN115688788A (zh) 用于审计领域的命名实体识别模型的训练方法及相关设备
CN115422125A (zh) 一种基于智能算法的电子文档自动归档方法与系统
CN109992749A (zh) 一种文字显示方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant