CN113627129A - 一种文字复制方法、装置、电子设备及可读存储介质 - Google Patents

一种文字复制方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113627129A
CN113627129A CN202010383237.8A CN202010383237A CN113627129A CN 113627129 A CN113627129 A CN 113627129A CN 202010383237 A CN202010383237 A CN 202010383237A CN 113627129 A CN113627129 A CN 113627129A
Authority
CN
China
Prior art keywords
copied
character
unicode
characters
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010383237.8A
Other languages
English (en)
Other versions
CN113627129B (zh
Inventor
冷志峰
张作兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN202010383237.8A priority Critical patent/CN113627129B/zh
Publication of CN113627129A publication Critical patent/CN113627129A/zh
Application granted granted Critical
Publication of CN113627129B publication Critical patent/CN113627129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明实施例提供了一种文字复制方法、装置、电子设备及可读存储介质,该方法包括:当接收到针对PDF文档中的待复制文字的复制指令时,提取待复制文字的笔画;调用预设输入法对待复制文字的笔画进行识别,得到笔画识别结果;查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码;基于待复制文字的Unicode码,将待复制文字复制到目标文档。应用本发明实施例提供的文字复制方案,可以对PDF文档中的文字进行复制。

Description

一种文字复制方法、装置、电子设备及可读存储介质
技术领域
本发明涉及文档处理技术领域,特别是涉及一种文字复制方法、装置、电子设备及可读存储介质。
背景技术
在工作和学习中,用户常常需要对PDF(Portable Document Format,便携式文档格式)文档中的文字进行复制。其中,将PDF文档中的文字复制到其他文档的方式为:将待复制文字的字节码通过转换表解析为统一码Unicode码,然后将解析得到的Unicode复制到剪切板,进而可以基于剪切板中的内容将待复制文字复制到其他文档。其中,转换表为PDF文档内嵌的、记录有字节码与Unicode的转换关系的表。
但是,目前为了压缩PDF文档的大小常常会将该转换表删除,这样就导致在复制文字时缺少转换表,使得复制到其他文档的文字变成乱码,无法实现对PDF文档中的文字的复制。
发明内容
本发明实施例的目的在于提供一种文字复制方法、装置、电子设备及可读存储介质,以能够对PDF文档中的文字进行复制。具体技术方案如下:
第一方面,本发明实施例提供了一种文字复制方法,该方法可以包括:
当接收到针对便携式文档格式PDF文档中的待复制文字的复制指令时,提取待复制文字的笔画;
调用预设输入法对待复制文字的笔画进行识别,得到笔画识别结果;
查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码;
基于待复制文字的Unicode码,将待复制文字复制到目标文档。
可选地,提取待复制文字的笔画可以包括:
从PDF文档内嵌的字库中,提取待复制文字的笔画;其中,字库中存储有待复制文字的笔画。
可选地,调用预设输入法对待复制文字的笔画进行识别,得到笔画识别结果,可以包括:
调用预设输入法对待复制文字的笔画进行识别,得到针对待复制文字的多个候选笔画识别结果;
将用户所选定的候选笔画识别结果,确定为待复制文字的笔画识别结果。
可选地,在查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码之后,还包括:
将待复制文字的笔画识别结果和Unicode码,关联存储至内存中的转换缓存表。
可选地,在查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码之前,还可以包括:
判断内存中的转换缓存表是否存储有待复制文字的笔画识别结果;其中,转换缓存表中存储有:预设输入法识别过的待复制文字的笔画识别结果和Unicode码;
若是,将转换缓存表中与待复制文字的笔画识别结果关联的Unicode码,确定为待复制文字的Unicode码;
若否,执行查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码。
第二方面,本发明实施例还提供了一种文字复制装置,该装置可以包括:
提取模块,用于当接收到针对便携式文档格式PDF文档中的待复制文字的复制指令时,提取待复制文字的笔画;
识别模块,用于调用预设输入法对待复制文字的笔画进行识别,得到笔画识别结果;
查找模块,用于查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码;
复制模块,用于基于待复制文字的Unicode码,将待复制文字复制到目标文档。
可选地,提取模块具体可以用于:
从PDF文档内嵌的字库中,提取待复制文字的笔画;其中,字库中存储有待复制文字的笔画。
可选地,识别模块可以包括:
识别单元,用于调用预设输入法对待复制文字的笔画进行识别,得到针对待复制文字的多个候选笔画识别结果;
确定单元,用于将用户所选定的候选笔画识别结果,确定为待复制文字的笔画识别结果。
可选地,在本发明实施例中,该装置还可以包括:
存储模块,用于在查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码之后,将待复制文字的笔画识别结果和Unicode码,关联存储至内存中的转换缓存表。
可选地,在本发明实施例中,该装置还可以包括:
判断模块,用于在查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码之前,判断内存中的转换缓存表是否存储有待复制文字的笔画识别结果;
其中,转换缓存表中存储有:预设输入法识别过的待复制文字的笔画识别结果和Unicode码;
确定模块,用于判断模块判断为是时,将转换缓存表中与待复制文字的笔画识别结果关联的Unicode码,确定为待复制文字的Unicode码;
触发模块,用于判断模块判断为否时,触发查找模块。
第三方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面任一所述的方法步骤。
第四方面,本发明实施例还提供了一种可读存储介质,可读存储介质为电子设备中的可读存储介质,可读存储介质内存储有计算机程序,计算机程序被电子设备的处理器执行时实现上述第一方面中任一所述的方法步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在电子设备上运行时,使得电子设备执行上述第一方面中任一所述的方法步骤。
在本发明实施例中,当接收到针对PDF文档中的待复制文字的复制指令时,提取待复制文字的笔画。然后,可以调用预设输入法对待复制文字的笔画进行识别,得到笔画识别结果。之后,可以查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码。这样,可以基于预设输入法获得待复制文字的Unicode码。进而,可以基于待复制文字的Unicode码,将待复制文字复制到目标文档。这样,可以实现对PDF文档中的文字的复制,避免了复制文字时发生乱码的情况。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文字复制方法的流程图;
图2为本发明实施例提供的一种文字复制装置的结构示意图;
图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在工作和学习中,用户常常需要对PDF(Portable Document Format,便携式文档格式)文档中的文字进行复制。其中,将PDF文档中的文字复制到其他文档的方式为:将待复制文字的字节码通过转换表解析为统一码Unicode码,然后将解析得到的Unicode复制到剪切板,进而可以基于剪切板中的内容将待复制文字复制到其他文档。其中,转换表为PDF文档内嵌的、记录有字节码与Unicode的转换关系的表。
但是,目前为了压缩PDF文档的大小常常会将该转换表删除,这样就导致在复制文字时缺少转换表,使得复制到其他文档的文字变成乱码,无法实现对PDF文档中的文字的复制。
为了解决相关技术中存在的问题,本发明实施例提供了一种文字复制方法、装置、电子设备及可读存储介质。
本发明实施例提供的文字复制方法应用于电子设备,该电子设备中可以安装有PDF(Portable Document Format,便携式文档格式)文档阅读客户端。另外,该电子设备包括但并不局限于电脑和智能手机。
图1为本发明实施例提供的一种文字复制方法的流程图。参见图1,本发明实施例提供的文字复制方法可以包括如下步骤:
S101:当接收到针对便携式文档格式PDF文档中的待复制文字的复制指令时,提取待复制文字的笔画;
S102:调用预设输入法对待复制文字的笔画进行识别,得到笔画识别结果;
S103:查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码;
S104:基于待复制文字的Unicode码,将待复制文字复制到目标文档。
在本发明实施例中,当接收到针对PDF文档中的待复制文字的复制指令时,提取待复制文字的笔画。然后,可以调用预设输入法对待复制文字的笔画进行识别,得到笔画识别结果。之后,可以查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码。这样,可以基于预设输入法获得待复制文字的Unicode码。进而,可以基于待复制文字的Unicode码,将待复制文字复制到目标文档。这样,可以实现对PDF文档中的文字的复制,避免了复制文字时发生乱码的情况。
下面对本发明实施例提供的文字复制方法进行详细说明。
S101:当接收到针对便携式文档格式PDF文档中的待复制文字的复制指令时,提取待复制文字的笔画;
举例而言,用户可以对PDF文档中的待复制文字“了”执行复制操作。然后,电子设备可以接收到针对待复制文字“了”的复制指令。之后,电子设备可以提取待复制文字“了”的笔画“了”。
可以理解的是,提取待复制文字“了”的笔画是指:提取待复制文字“了”的笔顺“乛亅”,以及,提取笔顺“乛亅”的位置信息。
具体地,可以从PDF文档内嵌的字库中,提取待复制文字的笔画。其中,字库中存储有待复制文字的笔画。这样,可以基于PDF文档内嵌的字库获得待复制文字的笔画。
其中,本发明实施例中的待复制文字包括但并不局限于汉字、字母、数字和符号。
S102:调用预设输入法对待复制文字的笔画进行识别,得到笔画识别结果;
延续上述示例,在提取待复制文字“了”的笔画“了”之后,可以调用预设输入法对笔画“了”进行识别,得到笔画识别结果为“了”。
其中,由于预设输入法的识别精度或待复制文字字体的原因,在调用预设输入法对待复制文字的笔画进行识别后,可能会导致得到针对待复制文字的多个候选笔画识别结果。举例而言,调用预设输入法对笔画“了”进行识别,可以得到一种笔画识别结果为“了”,另一种笔画识别结果为“3”。
在该种情况下,可以将用户所选定的候选笔画识别结果,确定为待复制文字的笔画识别结果。这样,可以避免预设输入法所导致的笔画识别结果错误,提高笔画识别结果的准确度,进而可以对待复制文字进行正确复制。
S103:查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码;
举例而言,在获得笔画识别结果为“了”之后,可以查找预设输入法中记录的笔画识别结果“了”对应的Unicode码。然后,将查找到的Unicode码作为该待复制文字的Unicode码。
其中,统一码Unicode是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。也就是说,Unicode是标准的字符编码,不会出现乱码的情况。
S104:基于待复制文字的Unicode码,将待复制文字复制到目标文档。
可以理解的是,在获得待复制文字的Unicode码之后,可以基于该Unicode码将待复制文字复制到目标文档。这样,可以基于预设输入法查找到待复制文字的Unicode码,从而可以实现对待复制文字的复制,避免了复制时出现乱码的情况。
在本发明实施例中,在查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码之后,还可以包括:
将待复制文字的笔画识别结果和Unicode码,关联存储至内存中的转换缓存表。
这样,可以将在预设输入法中查找过的笔画识别结果以及该笔画识别结果对应的Unicode码,关联存储在内存中的转换缓存表中。这样,可以将查找过的内容存储至转换缓存表中,便于后续利用该转换缓存表进行快速查找。
具体地,在查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码之前,还可以包括:
判断内存中的转换缓存表是否存储有待复制文字的笔画识别结果;其中,转换缓存表中存储有:预设输入法识别过的待复制文字的笔画识别结果和Unicode码;
若是,将转换缓存表中与待复制文字的笔画识别结果关联的Unicode码,确定为待复制文字的Unicode码;
若否,执行查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码。
这样,在查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码之前,可以利用转换缓存表进行查找。其中,由于转换缓存表中记录的笔画识别结果要比预设输入法中记录的笔画识别结果要少,因而可以在转换缓存表中进行快速查找。若查找不到,则再到预设输入法中进行查找。这样,可以提高获得待复制文字的Unicode码的速度。
综上,应用本发明实施例提供的文字复制方案,可以实现对PDF文档中的文字的复制,避免了复制文字时发生乱码的情况。
相应于上述方法实施例,本发明实施例还提供了一种文字复制装置。图2为本发明实施例提供的一种文字复制装置的结构示意图,参见图2,该装置可以包括:
提取模块201,用于当接收到针对便携式文档格式PDF文档中的待复制文字的复制指令时,提取待复制文字的笔画;
识别模块202,用于调用预设输入法对待复制文字的笔画进行识别,得到笔画识别结果;
查找模块203,用于查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码;
复制模块204,用于基于待复制文字的Unicode码,将待复制文字复制到目标文档。
在本发明实施例中,当接收到针对PDF文档中的待复制文字的复制指令时,提取待复制文字的笔画。然后,可以调用预设输入法对待复制文字的笔画进行识别,得到笔画识别结果。之后,可以查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码。这样,可以基于预设输入法获得待复制文字的Unicode码。进而,可以基于待复制文字的Unicode码,将待复制文字复制到目标文档。这样,可以实现对PDF文档中的文字的复制,避免了复制文字时发生乱码的情况。
可选地,在本发明实施例中,提取模块201具体可以用于:
从PDF文档内嵌的字库中,提取待复制文字的笔画;其中,字库中存储有待复制文字的笔画。
可选地,在本发明实施例中,识别模块202可以包括:
识别单元,用于调用预设输入法对待复制文字的笔画进行识别,得到针对待复制文字的多个候选笔画识别结果;
确定单元,用于将用户所选定的候选笔画识别结果,确定为待复制文字的笔画识别结果。
可选地,在本发明实施例中,该装置还可以包括:
存储模块,用于在查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码之后,将待复制文字的笔画识别结果和Unicode码,关联存储至内存中的转换缓存表。
可选地,在本发明实施例中,该装置还可以包括:
判断模块,用于在查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码之前,判断内存中的转换缓存表是否存储有待复制文字的笔画识别结果;
其中,转换缓存表中存储有:预设输入法识别过的待复制文字的笔画识别结果和Unicode码;
确定模块,用于判断模块判断为是时,将转换缓存表中与待复制文字的笔画识别结果关联的Unicode码,确定为待复制文字的Unicode码;
触发模块,用于判断模块判断为否时,触发查找模块。
相应于上述方法实施例,本发明实施例还提供了一种电子设备。图3为本发明实施例提供的一种电子设备的结构示意图,参见图3,该电子设备包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
存储器303,用于存放计算机程序;
处理器301,用于执行存储器上所存放的程序时,实现上述任一文字复制方法实施例提供的方法步骤。
在本发明实施例中,当接收到针对PDF文档中的待复制文字的复制指令时,提取待复制文字的笔画。然后,可以调用预设输入法对待复制文字的笔画进行识别,得到笔画识别结果。之后,可以查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码。这样,可以基于预设输入法获得待复制文字的Unicode码。进而,可以基于待复制文字的Unicode码,将待复制文字复制到目标文档。这样,可以实现对PDF文档中的文字的复制,避免了复制文字时发生乱码的情况。
相应于上述方法实施例,本发明实施例还提供了一种可读存储介质,可读存储介质内存储有计算机程序,计算机程序被电子设备的处理器执行时实现上述任一文字复制方法实施例提供的方法步骤。
本发明实施例提供的可读存储介质中存储的计算机程序被电子设备的处理器执行后,当接收到针对PDF文档中的待复制文字的复制指令时,提取待复制文字的笔画。然后,可以调用预设输入法对待复制文字的笔画进行识别,得到笔画识别结果。之后,可以查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码。这样,可以基于预设输入法获得待复制文字的Unicode码。进而,可以基于待复制文字的Unicode码,将待复制文字复制到目标文档。这样,可以实现对PDF文档中的文字的复制,避免了复制文字时发生乱码的情况。
相应于上述方法实施例,在本发明还提供了一种包含指令的计算机程序产品,当其在电子设备上运行时,使得电子设备执行上述实施例中任一文字复制方法的方法步骤。
本发明实施例提供的计算机程序被电子设备的处理器执行后,当接收到针对PDF文档中的待复制文字的复制指令时,提取待复制文字的笔画。然后,可以调用预设输入法对待复制文字的笔画进行识别,得到笔画识别结果。之后,可以查找预设输入法中记录的笔画识别结果所对应的统一码Unicode码,作为待复制文字的Unicode码。这样,可以基于预设输入法获得待复制文字的Unicode码。进而,可以基于待复制文字的Unicode码,将待复制文字复制到目标文档。这样,可以实现对PDF文档中的文字的复制,避免了复制文字时发生乱码的情况。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、可读存储介质和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种文字复制方法,其特征在于,所述方法包括:
当接收到针对便携式文档格式PDF文档中的待复制文字的复制指令时,提取所述待复制文字的笔画;
调用预设输入法对所述待复制文字的笔画进行识别,得到笔画识别结果;
查找所述预设输入法中记录的所述笔画识别结果所对应的统一码Unicode码,作为所述待复制文字的Unicode码;
基于所述待复制文字的Unicode码,将所述待复制文字复制到目标文档。
2.根据权利要求1所述的方法,其特征在于,所述提取所述待复制文字的笔画,包括:
从所述PDF文档内嵌的字库中,提取所述待复制文字的笔画;其中,所述字库中存储有所述待复制文字的笔画。
3.根据权利要求1所述的方法,其特征在于,所述调用预设输入法对所述待复制文字的笔画进行识别,得到笔画识别结果,包括:
调用预设输入法对所述待复制文字的笔画进行识别,得到针对所述待复制文字的多个候选笔画识别结果;
将用户所选定的候选笔画识别结果,确定为所述待复制文字的笔画识别结果。
4.根据权利要求3所述的方法,其特征在于,在所述查找所述预设输入法中记录的所述笔画识别结果所对应的统一码Unicode码,作为所述待复制文字的Unicode码之后,还包括:
将所述待复制文字的笔画识别结果和Unicode码,关联存储至内存中的转换缓存表。
5.根据权利要求1所述的方法,其特征在于,在所述查找所述预设输入法中记录的所述笔画识别结果所对应的统一码Unicode码,作为所述待复制文字的Unicode码之前,还包括:
判断内存中的转换缓存表是否存储有所述待复制文字的笔画识别结果;其中,所述转换缓存表中存储有:所述预设输入法识别过的所述待复制文字的笔画识别结果和Unicode码;
若是,将所述转换缓存表中与所述待复制文字的笔画识别结果关联的Unicode码,确定为所述待复制文字的Unicode码;
若否,执行所述查找所述预设输入法中记录的所述笔画识别结果所对应的统一码Unicode码,作为所述待复制文字的Unicode码。
6.一种文字复制装置,其特征在于,所述装置包括:
提取模块,用于当接收到针对便携式文档格式PDF文档中的待复制文字的复制指令时,提取所述待复制文字的笔画;
识别模块,用于调用预设输入法对所述待复制文字的笔画进行识别,得到笔画识别结果;
查找模块,用于查找所述预设输入法中记录的所述笔画识别结果所对应的统一码Unicode码,作为所述待复制文字的Unicode码;
复制模块,用于基于所述待复制文字的Unicode码,将所述待复制文字复制到目标文档。
7.根据权利要求6所述的装置,其特征在于,所述提取模块具体用于:
从所述PDF文档内嵌的字库中,提取所述待复制文字的笔画;其中,所述字库中存储有所述待复制文字的笔画。
8.根据权利要求6所述的装置,其特征在于,所述识别模块包括:
识别单元,用于调用预设输入法对所述待复制文字的笔画进行识别,得到针对所述待复制文字的多个候选笔画识别结果;
确定单元,用于将用户所选定的候选笔画识别结果,确定为所述待复制文字的笔画识别结果。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
存储模块,用于在所述查找所述预设输入法中记录的所述笔画识别结果所对应的统一码Unicode码,作为所述待复制文字的Unicode码之后,将所述待复制文字的笔画识别结果和Unicode码,关联存储至内存中的转换缓存表。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
判断模块,用于在所述查找所述预设输入法中记录的所述笔画识别结果所对应的统一码Unicode码,作为所述待复制文字的Unicode码之前,判断内存中的转换缓存表是否存储有所述待复制文字的笔画识别结果;
其中,所述转换缓存表中存储有:所述预设输入法识别过的所述待复制文字的笔画识别结果和Unicode码;
确定模块,用于所述判断模块判断为是时,将所述转换缓存表中与所述待复制文字的笔画识别结果关联的Unicode码,确定为所述待复制文字的Unicode码;
触发模块,用于所述判断模块判断为否时,触发所述查找模块。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5中任一所述的方法步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质为电子设备中的可读存储介质,所述可读存储介质内存储有计算机程序,所述计算机程序被所述电子设备的处理器执行时实现权利要求1-5中任一所述的方法步骤。
CN202010383237.8A 2020-05-08 2020-05-08 一种文字复制方法、装置、电子设备及可读存储介质 Active CN113627129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010383237.8A CN113627129B (zh) 2020-05-08 2020-05-08 一种文字复制方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010383237.8A CN113627129B (zh) 2020-05-08 2020-05-08 一种文字复制方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113627129A true CN113627129A (zh) 2021-11-09
CN113627129B CN113627129B (zh) 2024-06-21

Family

ID=78377286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010383237.8A Active CN113627129B (zh) 2020-05-08 2020-05-08 一种文字复制方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113627129B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188013A (zh) * 2022-09-14 2022-10-14 泰豪信息技术有限公司 一种判决书的风险防控方法、系统、存储介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288281A1 (en) * 2005-06-21 2006-12-21 Thomas Merz Method of determining unicode values corresponding to the text in digital documents
CN104732228A (zh) * 2015-04-16 2015-06-24 同方知网数字出版技术股份有限公司 一种pdf文档乱码的检测、校正的方法
CN106384094A (zh) * 2016-09-18 2017-02-08 北京大学 一种基于书写风格建模的中文字库自动生成方法
KR20170052422A (ko) * 2015-11-03 2017-05-12 주식회사 한컴플렉슬 Pdf 문서에 포함된 문자의 모양 유지 복사를 위한 전자 단말 장치 및 상기 전자 단말 장치의 pdf 문서에 포함된 문자에 대한 모양 유지 복사 방법
CN110222617A (zh) * 2019-05-29 2019-09-10 四川译讯信息科技有限公司 一种pdf文件修复方法和系统
CN110378318A (zh) * 2019-07-30 2019-10-25 腾讯科技(深圳)有限公司 文字识别方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288281A1 (en) * 2005-06-21 2006-12-21 Thomas Merz Method of determining unicode values corresponding to the text in digital documents
CN104732228A (zh) * 2015-04-16 2015-06-24 同方知网数字出版技术股份有限公司 一种pdf文档乱码的检测、校正的方法
KR20170052422A (ko) * 2015-11-03 2017-05-12 주식회사 한컴플렉슬 Pdf 문서에 포함된 문자의 모양 유지 복사를 위한 전자 단말 장치 및 상기 전자 단말 장치의 pdf 문서에 포함된 문자에 대한 모양 유지 복사 방법
CN106384094A (zh) * 2016-09-18 2017-02-08 北京大学 一种基于书写风格建模的中文字库自动生成方法
CN110222617A (zh) * 2019-05-29 2019-09-10 四川译讯信息科技有限公司 一种pdf文件修复方法和系统
CN110378318A (zh) * 2019-07-30 2019-10-25 腾讯科技(深圳)有限公司 文字识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张广渊等: "脱机手写满文笔画基元的提取和识别", 《计算机工程》, no. 22, 30 November 2007 (2007-11-30), pages 206 - 208 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188013A (zh) * 2022-09-14 2022-10-14 泰豪信息技术有限公司 一种判决书的风险防控方法、系统、存储介质及设备

Also Published As

Publication number Publication date
CN113627129B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
US8938384B2 (en) Language identification for documents containing multiple languages
CN110457302B (zh) 一种结构化数据智能清洗方法
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN105739981B (zh) 一种代码补全实现方法、装置和计算设备
CN111259652B (zh) 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN113961768B (zh) 敏感词检测方法、装置、计算机设备和存储介质
EP3467633B1 (en) Method, device, and terminal device for extracting data
CN113627129B (zh) 一种文字复制方法、装置、电子设备及可读存储介质
CN112749258A (zh) 数据搜索的方法和装置、电子设备和存储介质
CN111695327B (zh) 一种乱码修复方法、装置、电子设备及可读存储介质
US11482027B2 (en) Automated extraction of performance segments and metadata values associated with the performance segments from contract documents
CN114911753A (zh) 一种演示文档的生成方法、装置、电子设备及存储介质
CN114036266A (zh) 一种基于自然语言处理的智能策略组卷方法、装置及设备
CN110083576B (zh) 一种缓存目录的识别方法及装置
CN111563364B (zh) 一种章节标题样式转换方法、装置、电子设备及存储介质
CN112784594A (zh) 一种文档处理方法、装置、电子设备及可读存储介质
CN113065360A (zh) 词语语义模型的构建方法、装置、计算机设备及存储介质
CN112784593B (zh) 一种文档处理方法、装置、电子设备及可读存储介质
CN112749256A (zh) 文本处理方法、装置、设备及存储介质
CN113688625A (zh) 一种语种识别方法及装置
CN111950037A (zh) 检测方法、装置、电子设备及存储介质
CN110929048A (zh) 一种书签生成方法、装置、电子设备及存储介质
CN110414013B (zh) 数据处理方法、装置及电子设备
CN115409035A (zh) 交谈信息获取方法、装置、存储介质和电子设备
CN107704374B (zh) 测试方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant