CN108153731B - 生僻字处理方法、计算设备及计算机存储介质 - Google Patents
生僻字处理方法、计算设备及计算机存储介质 Download PDFInfo
- Publication number
- CN108153731B CN108153731B CN201711423094.3A CN201711423094A CN108153731B CN 108153731 B CN108153731 B CN 108153731B CN 201711423094 A CN201711423094 A CN 201711423094A CN 108153731 B CN108153731 B CN 108153731B
- Authority
- CN
- China
- Prior art keywords
- rarely used
- used word
- region
- text
- filled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种生僻字处理方法、计算设备及计算机存储介质,其中,方法包括:对待识别文档的每行文本对象进行识别;根据每行文本对象的识别结果,利用预设规则确定生僻字区域;对所述生僻字区域进行截图处理,得到生僻字图片;根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。由此可见,利用本发明方案,可以根据生僻字图片得到生僻字填充对象,避免了呈现给用户的文档中对应生僻字区域的文本对象的缺失,进而可以使用户阅读更顺畅;同时,避免了由于生僻字区域的文本对象的缺失而导致出现的排版混乱问题。
Description
技术领域
本发明涉及文本识别技术领域,具体涉及一种生僻字处理方法、计算设备及计算机存储介质。
背景技术
目前,随着手机等移动终端的普及以及电子书阅读器的发展,电子书越来越受阅读用户的青睐。与此同时,在电子阅读器中,为使文档内容能够根据阅读设备的特性,以最适于阅读的方式显示,需将版式文档转成流式文档,例如,将PDF文档转成电子出版文档(Electronic Publication,简称ePUB)。
然而,由于PDF等版式文档的字符编码方式有限,导致大量生僻字只能以路径线的形式表示出来,针对这些生僻字,在转成ePUB的过程中,则会出现对应位置的字符无法抽取出来,进而使得呈现给用户的文档内容存在缺失;以及,由于对应生僻字的位置的字符的缺失,使得在对流式文档进行排版时,会将生僻字前后的文本识别成两行,造成排版混乱。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的生僻字处理方法、计算设备及计算机存储介质。
根据本发明的一个方面,提供了一种生僻字处理方法,包括:
对待识别文档的每行文本对象进行识别;
根据每行文本对象的识别结果,利用预设规则确定生僻字区域;
对所述生僻字区域进行截图处理,得到生僻字图片;
根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。
根据本发明的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
对待识别文档的每行文本对象进行识别;
根据每行文本对象的识别结果,利用预设规则确定生僻字区域;
对所述生僻字区域进行截图处理,得到生僻字图片;
根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。
根据本发明的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
对待识别文档的每行文本对象进行识别;
根据每行文本对象的识别结果,利用预设规则确定生僻字区域;
对所述生僻字区域进行截图处理,得到生僻字图片;
根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。
本发明公开了一种生僻字处理方法、计算设备及计算机存储介质,其中,方法包括:对待识别文档的每行文本对象进行识别;根据每行文本对象的识别结果,利用预设规则确定生僻字区域;对所述生僻字区域进行截图处理,得到生僻字图片;根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。由此可见,利用本发明方案,可以根据生僻字图片得到生僻字填充对象,避免了呈现给用户的文档中对应生僻字区域的文本对象的缺失,进而可以使用户阅读更顺畅;同时,避免了因对应生僻字区域的文本对象的缺失,导致在对流式文档进行排版时,将生僻字区域前后的文本对象识别成两行,因而造成的排版混乱问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的生僻字处理方法的流程图;
图2示出了根据本发明另一个实施例的生僻字处理方法的流程图;
图3示出了根据本发明实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的生僻字处理方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101:对待识别文档的每行文本对象进行识别。
在将版式文档转成流式文档的过程中,需从版式文档中抽取出文本内容,以在流式文档中显示出对应的文本内容。本步骤中,通过对待识别文档的每行文本对象进行识别,进而抽取出文本内容。
其中,待识别文档为版式文档;文本对象包括通过字符编码方式编码出的字符文本,以及通过路径线描绘出的生僻字。在本实施例中,不对识别待识别文档的文本对象的方式做具体限定,本领域技术人员应该理解的是,该识别方式可以为现有技术中任意能够用于识别版式文档的文本对象的方式。
步骤S102:根据每行文本对象的识别结果,利用预设规则确定生僻字区域。
在识别出每行文本对象之后,根据对应该行文本对象的各个位置的识别结果,利用预设规则确定生僻字区域。
具体地,在进行版式文档的文本对象的识别时,字符文本通过现有的文本识别技术可以较容易识别出;而由于生僻字是通过路径线描绘出的,不是通过编码得到的,因此会识别失败。即,在识别结果中对应生僻字所在的位置未识别出字符文本。基于此,本步骤中,利用预设规则,根据各个位置的识别结果确定生僻字区域。其中,预设规则为任意可以确定版式文档中某一位置存在生僻字的一条或多条规则,例如,预设规则为对应位置存在路径线,或对应位置无文本内容。
步骤S103:对生僻字区域进行截图处理,得到生僻字图片。
生僻字区域对应的识别结果为未识别出字符文本,但是,该生僻字区域中存在路径线,本步骤中,对生僻字区域进行截图处理,得到生僻字图片,换言之,生僻字图片保留了版式文档中对应生僻字区域的原始信息,进而可以利用该生僻字图片来完善流式文档中对应生僻字区域的文本内容。
步骤S104:根据生僻字图片得到生僻字填充对象,将生僻字填充对象填充到生僻字区域中。
在将版式文档转成流式文档的过程中,需要抽取出版式文档的文本内容,在本步骤中,根据生僻字图片中保留的生僻字区域的原始信息得到生僻字填充对象,即得到对应生僻字区域的文本内容;然后,将该生僻字填充对象填充到流式文档中。
具体地,根据生僻字图片得到生僻字填充对象的方式包括直接将生僻字图片作为生僻字填充对象,和/或,对生僻字图片进行字符识别,根据识别结果确定生僻字填充对象;然后,将生僻字填充对象填充到流式文档中对应生僻字区域的位置中,进而得到了完整的文本内容,避免在抽取版式文档的文本内容的过程中,因未识别出生僻字,导致得到的流式文档的文本内容存在缺失;以及,在对流式文档进行排版时,避免因流式文档中的文本内容存在缺失,造成行识别或段落识别的错误,进而引起排版混乱的情况发生。
根据本实施例提供的生僻字处理方法,对待识别文档的每行文本对象进行识别;根据每行文本对象的识别结果,利用预设规则确定生僻字区域,以便于针对该生僻字区域采取相应的处理方法以得到对应的文本内容;对生僻字区域进行截图处理,得到生僻字图片,其中,生僻字图片保留了版式文档中对应生僻字区域的原始信息;根据生僻字图片得到生僻字填充对象,即得到对应生僻字区域的文本内容;然后,将生僻字填充对象填充到生僻字区域中,进而得到了完整的文本内容。由此可见,利用本实施例提供的方案,可以根据生僻字图片得到生僻字填充对象以用于对流式文档中对应生僻字区域的文本内容进行填充,使得得到的流式文档的文本内容在对应版式文档的生僻字区域的位置不存在内容缺失,进而使用户阅读更顺畅;以及,避免在对流式文档进行排版的过程中,因流式文档中的文本内容存在缺失,造成行识别或段落识别的错误,进而引起排版混乱的情况发生。
图2示出了根据本发明另一个实施例的生僻字处理方法的流程图。如图2所示,该方法包括以下步骤:
步骤S201:对待识别文档的每行文本对象进行识别。
对待识别文档的每行文本对象进行识别以抽取出文本内容。其中,文本对象包括通过字符编码方式编码出的字符文本,以及通过路径线描绘出的生僻字。可选的,待识别文档的格式为PDF格式。
步骤S202:根据每行文本对象的识别结果,利用预设规则确定生僻字区域。
在识别出每行文本对象之后,根据对应该行文本对象的各个位置的识别结果,利用预设规则确定生僻字区域。
具体地,根据每行文本对象的识别结果,确定指定区域;其中,指定区域位于两个已识别的文本对象之间;判断指定区域是否符合预设规则;若是,则确定指定区域为生僻字区域。在本实施例中,将对应识别结果为未识别出字符文本的位置确定指定区域;由于引起未识别出字符文本原因多种多样,而不只是因为存在生僻字,因此,根据预设规则进一步判断指定区域是否为生僻字区域,以降低误确定生僻字区域的可能,使得确定的生僻字区域更加准确。
进一步的,判断指定区域是否符合预设规则可通过以下一种或多种方式判断:方式一,判断指定区域的宽度是否位于预设字符宽度范围内,若是,则判定指定区域符合预设规则。其中,指定区域的宽度具体为两个已识别的文本对象的相邻的两个边缘之间的宽度,可选的,预设字符宽度范围为1至2个字符宽度。方式二,判断所述指定区域内是否包含路径线,若是,则判定所述指定区域符合预设规则。方式三,判断所述指定区域是否覆盖有文本内容,若否,则判定所述指定区域符合预设规则。
当判断出指定区域符合预设规则时,则确定指定区域为生僻字区域。
步骤S203:对生僻字区域进行截图处理,得到生僻字图片。
对生僻字区域进行截图处理,得到生僻字图片,该生僻字图片中保留了版式文档中对应生僻字区域的原始信息,例如,包括描绘生僻字的路径线。
在对生僻字区域进行截图处理时,通过以下步骤确定截图处理的边缘线:根据生僻字区域左侧的文本对象的右边缘确定截图处理的左边缘,根据生僻字区域右侧的文本对象的左边缘确定截图处理的右边缘,根据生僻字区域两侧的文本对象中较高的上边缘确定截图处理的上边缘,以及根据生僻字区域两侧的文本对象中较低的下边缘确定截图处理的下边缘,得到生僻字图片。具体地,可以直接以生僻字区域左侧的文本对象的右边缘、生僻字区域右侧的文本对象的左边缘、生僻字区域两侧的文本对象中较高的上边缘以及生僻字区域两侧的文本对象中较低的下边缘分别确定截图处理的左边缘、右边缘、上边缘及下边缘;也可以,在前述确定的截图处理的左边缘、右边缘、上边缘及下边缘的基础上,向左、向右、向上以及向下分别扩宽预设宽度,以扩宽后的左边缘、右边缘、上边缘及下边缘作为截图处理的左边缘、右边缘、上边缘及下边缘,该方式可以使通过截图处理得到的生僻字图片充分包括版式文档中生僻字的原始信息。
步骤S204:对生僻字图片进行字符识别。
在版式文档中进行文本对象的识别时,由于受限制于版式文档的字符编码方式,生僻字不能被识别出;而在经过截图处理得到生僻字图片后,则可以根据生僻字图片中的生僻字的原始信息进行文字识别,例如,根据路径线进行识别。具体地,利用图片文字识别技术对生僻字图片中的路径线进行分析,识别出字符文本,可选的,图片文字识别技术具体为OCR技术。
步骤S205:根据识别结果将生僻字填充对象填充到生僻字区域中。
根据识别结果得到生僻字填充对象,然后将生僻字填充对象填充到生僻字区域中。
其中,若识别结果输出一个字符,则以字符作为生僻字填充对象。具体地,输出一个字符,可以理解为识别出了对应路径线的生僻字,则将该字符作为生僻字填充对象。若识别结果输出多个字符或未能得到识别结果,则以生僻字图片作为生僻字填充对象。将生僻字填充对象填充到生僻字区域中。具体地,输出多个字符,可以理解为识别有误,则将生僻字图片作为生僻字填充对象。然后,将生僻字填充对象填充到流式文档中对应生僻字区域的位置中。
根据本实施例提供的生僻字处理方法,对待识别文档的每行文本对象进行识别;根据每行文本对象的识别结果,利用预设规则确定生僻字区域,以确保确定的生僻字区域的准确性;对生僻字区域进行截图处理,得到生僻字图片;对生僻字图片进行字符识别,进而可以识别出在版式文档中未识别出的生僻字;根据识别结果得到生僻字填充对象,然后将生僻字填充对象填充到生僻字区域中。由此可见,利用本实施例提供的方案,可以根据生僻字图片得到生僻字填充对象以用于对流式文档中对应生僻字区域的文本内容进行填充,使得得到的流式文档的文本内容在对应版式文档的生僻字区域的位置不存在内容缺失,进而使用户阅读更顺畅;以及,避免在对流式文档进行排版的过程中,因流式文档中的文本内容存在缺失,造成行识别或段落识别的错误,进而引起排版混乱的情况发生。
本申请实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的生僻字处理方法。
可执行指令具体可以用于使得处理器执行以下操作:
对待识别文档的每行文本对象进行识别;
根据每行文本对象的识别结果,利用预设规则确定生僻字区域;
对所述生僻字区域进行截图处理,得到生僻字图片;
根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。
在一种可选的实施方式中,所述可执行指令进一步使所述处理器执行以下操作:
根据每行文本对象的识别结果,确定指定区域;其中,所述指定区域位于两个已识别的文本对象之间;
判断指定区域是否符合预设规则;
若是,则确定所述指定区域为生僻字区域。
在一种可选的实施方式中,所述可执行指令进一步使所述处理器执行以下操作:判断所述指定区域的宽度是否位于预设字符宽度范围内,若是,则判定所述指定区域符合预设规则;判断所述指定区域内是否包含路径线,若是,则判定所述指定区域符合预设规则;和/或,判断所述指定区域是否覆盖有文本内容,若否,则判定所述指定区域符合预设规则。
在一种可选的实施方式中,所述可执行指令进一步使所述处理器执行以下操作:根据生僻字区域左侧的文本对象的右边缘确定截图处理的左边缘,根据生僻字区域右侧的文本对象的左边缘确定截图处理的右边缘,根据生僻字区域两侧的文本对象中较高的上边缘确定截图处理的上边缘,以及根据生僻字区域两侧的文本对象中较低的下边缘确定截图处理的下边缘,得到生僻字图片。
在一种可选的实施方式中,所述可执行指令进一步使所述处理器执行以下操作:对所述生僻字图片进行字符识别;
若识别结果输出一个字符,则以所述字符作为生僻字填充对象;若识别结果输出多个字符,以生僻字图片作为生僻字填充对象;
将所述生僻字填充对象填充到所述生僻字区域中。
在一种可选的实施方式中:所述待识别文档的格式为PDF格式。
图3示出了根据本发明实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图3所示,该计算设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:
处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器302,用于执行程序310,具体可以执行上述生僻字处理方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
对待识别文档的每行文本对象进行识别;
根据每行文本对象的识别结果,利用预设规则确定生僻字区域;
对所述生僻字区域进行截图处理,得到生僻字图片;
根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。
在一种可选的实施方式中,程序310具体可以进一步用于使得处理器302执行以下操作:
根据每行文本对象的识别结果,确定指定区域;其中,所述指定区域位于两个已识别的文本对象之间;
判断指定区域是否符合预设规则;
若是,则确定所述指定区域为生僻字区域。
在一种可选的实施方式中,程序310具体可以进一步用于使得处理器302执行以下操作:判断所述指定区域的宽度是否位于预设字符宽度范围内,若是,则判定所述指定区域符合预设规则;判断所述指定区域内是否包含路径线,若是,则判定所述指定区域符合预设规则;和/或,判断所述指定区域是否覆盖有文本内容,若否,则判定所述指定区域符合预设规则。
在一种可选的实施方式中,程序310具体可以进一步用于使得处理器302执行以下操作:根据生僻字区域左侧的文本对象的右边缘确定截图处理的左边缘,根据生僻字区域右侧的文本对象的左边缘确定截图处理的右边缘,根据生僻字区域两侧的文本对象中较高的上边缘确定截图处理的上边缘,以及根据生僻字区域两侧的文本对象中较低的下边缘确定截图处理的下边缘,得到生僻字图片。
在一种可选的实施方式中,程序310具体可以进一步用于使得处理器302执行以下操作:对所述生僻字图片进行字符识别;
若识别结果输出一个字符,则以所述字符作为生僻字填充对象;若识别结果输出多个字符,以生僻字图片作为生僻字填充对象;
将所述生僻字填充对象填充到所述生僻字区域中。
在一种可选的实施方式中:所述待识别文档的格式为PDF格式。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (12)
1.一种生僻字处理方法,包括:
对待识别文档的每行文本对象进行识别;
根据对应每行文本对象的各个位置的识别结果,利用预设规则确定生僻字区域;该生僻字区域对应的识别结果为未识别出字符文本;其中,根据每行文本对象的识别结果,确定指定区域;其中,所述指定区域位于两个已识别的文本对象之间;判断所述指定区域的宽度是否位于预设字符宽度范围内,和/或,判断所述指定区域内是否包含路径线,和/或,判断所述指定区域是否覆盖有文本内容;若所述指定区域的宽度位于预设字符宽度范围内,和/或,所述指定区域内包含路径线,和/或,所述指定区域覆盖有文本内容,则确定所述指定区域为生僻字区域;
对所述生僻字区域进行截图处理,得到生僻字图片;
根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。
2.根据权利要求1所述的方法,其中,所述对所述生僻字区域进行截图处理,得到生僻字图片进一步包括:
根据生僻字区域左侧的文本对象的右边缘确定截图处理的左边缘,根据生僻字区域右侧的文本对象的左边缘确定截图处理的右边缘,根据生僻字区域两侧的文本对象中较高的上边缘确定截图处理的上边缘,以及根据生僻字区域两侧的文本对象中较低的下边缘确定截图处理的下边缘,得到生僻字图片。
3.根据权利要求1或2所述的方法,其中,所述根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中进一步包括:
对所述生僻字图片进行字符识别;
若识别结果输出一个字符,则以所述字符作为生僻字填充对象;若识别结果输出多个字符或者未能得到识别结果,以生僻字图片作为生僻字填充对象;
将所述生僻字填充对象填充到所述生僻字区域中。
4.根据权利要求1或2所述的方法,其中,所述待识别文档的格式为PDF格式。
5.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
对待识别文档的每行文本对象进行识别;
根据对应每行文本对象的各个位置的识别结果,利用预设规则确定生僻字区域;该生僻字区域对应的识别结果为未识别出字符文本;其中,根据每行文本对象的识别结果,确定指定区域;其中,所述指定区域位于两个已识别的文本对象之间;判断所述指定区域的宽度是否位于预设字符宽度范围内,和/或,判断所述指定区域内是否包含路径线,和/或,判断所述指定区域是否覆盖有文本内容;若所述指定区域的宽度位于预设字符宽度范围内,和/或,所述指定区域内包含路径线,和/或,所述指定区域覆盖有文本内容,则确定所述指定区域为生僻字区域;
对所述生僻字区域进行截图处理,得到生僻字图片;
根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。
6.根据权利要求5所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:根据生僻字区域左侧的文本对象的右边缘确定截图处理的左边缘,根据生僻字区域右侧的文本对象的左边缘确定截图处理的右边缘,根据生僻字区域两侧的文本对象中较高的上边缘确定截图处理的上边缘,以及根据生僻字区域两侧的文本对象中较低的下边缘确定截图处理的下边缘,得到生僻字图片。
7.根据权利要求5或6所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
对所述生僻字图片进行字符识别;
若识别结果输出一个字符,则以所述字符作为生僻字填充对象;若识别结果输出多个字符或者未能得到识别结果,以生僻字图片作为生僻字填充对象;
将所述生僻字填充对象填充到所述生僻字区域中。
8.根据权利要求5或6所述的计算设备,其中,所述待识别文档的格式为PDF格式。
9.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
对待识别文档的每行文本对象进行识别;
根据对应每行文本对象的各个位置的识别结果,利用预设规则确定生僻字区域;该生僻字区域对应的识别结果为未识别出字符文本;其中,根据每行文本对象的识别结果,确定指定区域;其中,所述指定区域位于两个已识别的文本对象之间;判断所述指定区域的宽度是否位于预设字符宽度范围内,和/或,判断所述指定区域内是否包含路径线,和/或,判断所述指定区域是否覆盖有文本内容;若所述指定区域的宽度位于预设字符宽度范围内,和/或,所述指定区域内包含路径线,和/或,所述指定区域覆盖有文本内容,则确定所述指定区域为生僻字区域
对所述生僻字区域进行截图处理,得到生僻字图片;
根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。
10.根据权利要求9所述的计算机存储介质,其中,所述可执行指令进一步使所述处理器执行以下操作:根据生僻字区域左侧的文本对象的右边缘确定截图处理的左边缘,根据生僻字区域右侧的文本对象的左边缘确定截图处理的右边缘,根据生僻字区域两侧的文本对象中较高的上边缘确定截图处理的上边缘,以及根据生僻字区域两侧的文本对象中较低的下边缘确定截图处理的下边缘,得到生僻字图片。
11.根据权利要求9或10所述的计算机存储介质,其中,所述可执行指令进一步使所述处理器执行以下操作:
对所述生僻字图片进行字符识别;
若识别结果输出一个字符,则以所述字符作为生僻字填充对象;若识别结果输出多个字符或者未能得到识别结果,以生僻字图片作为生僻字填充对象;
将所述生僻字填充对象填充到所述生僻字区域中。
12.根据权利要求9或10所述的计算机存储介质,其中,所述待识别文档的格式为PDF格式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711423094.3A CN108153731B (zh) | 2017-12-25 | 2017-12-25 | 生僻字处理方法、计算设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711423094.3A CN108153731B (zh) | 2017-12-25 | 2017-12-25 | 生僻字处理方法、计算设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108153731A CN108153731A (zh) | 2018-06-12 |
CN108153731B true CN108153731B (zh) | 2019-02-12 |
Family
ID=62462058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711423094.3A Active CN108153731B (zh) | 2017-12-25 | 2017-12-25 | 生僻字处理方法、计算设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108153731B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846367B (zh) * | 2018-06-25 | 2019-08-30 | 掌阅科技股份有限公司 | 生僻字处理方法、计算设备及计算机存储介质 |
CN110069767B (zh) * | 2019-04-23 | 2020-02-28 | 掌阅科技股份有限公司 | 基于电子书的排版方法、电子设备及计算机存储介质 |
CN115509373A (zh) * | 2022-10-11 | 2022-12-23 | 北京数科网维技术有限责任公司 | 一种改进冷僻字输入的方法 |
CN117151041B (zh) * | 2023-10-27 | 2024-02-27 | 成方金融科技有限公司 | 兼容生僻字的pdf生成方法、装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086491A (ja) * | 2002-08-26 | 2004-03-18 | Ricoh Co Ltd | 文字列処理装置 |
CN101196886A (zh) * | 2006-12-08 | 2008-06-11 | 鸿富锦精密工业(深圳)有限公司 | Word文件转换成XML文件的系统及方法 |
CN102053949A (zh) * | 2009-11-04 | 2011-05-11 | 北大方正集团有限公司 | 处理生僻字的方法和装置 |
CN104699714A (zh) * | 2013-12-09 | 2015-06-10 | 北大方正集团有限公司 | 将书版格式文件转换为epub格式文件的方法及装置 |
CN105956023A (zh) * | 2016-04-21 | 2016-09-21 | 广州尚恩科技股份有限公司 | 一种生僻字库网络化应用的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6648421B2 (ja) * | 2015-06-09 | 2020-02-14 | 富士通株式会社 | 文書を処理する情報処理装置、情報処理方法、およびプログラム |
-
2017
- 2017-12-25 CN CN201711423094.3A patent/CN108153731B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086491A (ja) * | 2002-08-26 | 2004-03-18 | Ricoh Co Ltd | 文字列処理装置 |
CN101196886A (zh) * | 2006-12-08 | 2008-06-11 | 鸿富锦精密工业(深圳)有限公司 | Word文件转换成XML文件的系统及方法 |
CN102053949A (zh) * | 2009-11-04 | 2011-05-11 | 北大方正集团有限公司 | 处理生僻字的方法和装置 |
CN104699714A (zh) * | 2013-12-09 | 2015-06-10 | 北大方正集团有限公司 | 将书版格式文件转换为epub格式文件的方法及装置 |
CN105956023A (zh) * | 2016-04-21 | 2016-09-21 | 广州尚恩科技股份有限公司 | 一种生僻字库网络化应用的方法及系统 |
Non-Patent Citations (1)
Title |
---|
以XML格式提交专利电子申请的经验和体会;傅立光等;《发展知识产权服务业 支撑创新型国家建设》;20110331;第一章、第三章 |
Also Published As
Publication number | Publication date |
---|---|
CN108153731A (zh) | 2018-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108153731B (zh) | 生僻字处理方法、计算设备及计算机存储介质 | |
EP2991004B1 (en) | Method and apparatus for labeling training samples | |
CN112632844B (zh) | 从工程制图中提取和分析信息的方法和系统 | |
CN109300059B (zh) | 菜品推荐方法及装置 | |
CN110019478B (zh) | 数据导入方法、介质、设备及装置 | |
CN105653984B (zh) | 文件指纹校验方法及装置 | |
CN113032580B (zh) | 关联档案推荐方法、系统及电子设备 | |
CN108984328B (zh) | 一种堆栈回溯的方法及装置 | |
CN106528508A (zh) | 一种重复文本的判定方法和装置 | |
CN105224708B (zh) | 集成电路中网路的确定方法和装置 | |
CN111985202A (zh) | 基于模板生成pdf电子签章的方法、设备及存储介质 | |
CN108846367B (zh) | 生僻字处理方法、计算设备及计算机存储介质 | |
WO2019075968A1 (zh) | 表格信息跨页识别方法、电子设备及计算机可读存储介质 | |
CN109934218A (zh) | 一种针对物流单图像的识别方法及装置 | |
CN110858160B (zh) | 资源调度方法及装置、存储介质和处理器 | |
CN110399334A (zh) | 对纸质文档进行排序的方法和系统 | |
CN107885715B (zh) | 代码信息的排版方法、电子设备及计算机存储介质 | |
CN108959929A (zh) | 程序文件处理方法及装置 | |
CN110162764A (zh) | 电子文档的拆分方法、装置、设备及介质 | |
CN107783953A (zh) | 信息录入方法及终端设备 | |
CN105512595A (zh) | 条码修正方法和装置 | |
CN110287943B (zh) | 图像的对象识别方法、装置、电子设备及存储介质 | |
CN109815296B (zh) | 公证文档的人物知识库构建方法、装置及存储介质 | |
CN104424619B (zh) | 信息处理设备和信息处理方法 | |
CN107943923B (zh) | 电报码数据库的构建方法、电报码识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |