CN104462068B - 字符转换系统和字符转换方法 - Google Patents

字符转换系统和字符转换方法 Download PDF

Info

Publication number
CN104462068B
CN104462068B CN201310415209.XA CN201310415209A CN104462068B CN 104462068 B CN104462068 B CN 104462068B CN 201310415209 A CN201310415209 A CN 201310415209A CN 104462068 B CN104462068 B CN 104462068B
Authority
CN
China
Prior art keywords
character
isn
font
bitmap
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310415209.XA
Other languages
English (en)
Other versions
CN104462068A (zh
Inventor
徐剑波
孙浩鹏
丁力
王海涛
耿蕾蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Pku Founder Information Industry Group Co ltd
Peking University Founder Group Co Ltd
Founder Apabi Technology Ltd
Original Assignee
Founder Information Industry Holdings Co Ltd
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder Information Industry Holdings Co Ltd, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Founder Information Industry Holdings Co Ltd
Priority to CN201310415209.XA priority Critical patent/CN104462068B/zh
Priority to US14/095,749 priority patent/US20150070361A1/en
Publication of CN104462068A publication Critical patent/CN104462068A/zh
Application granted granted Critical
Publication of CN104462068B publication Critical patent/CN104462068B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography

Abstract

本发明提供了一种字符转换系统,包括:解析单元,解析接收到的数据,确定数据所包含的至少一个字符,并获取至少一个字符中每个字符对应的属性信息;判断单元,对于每个字符,根据属性信息确定字符的字形位图,判断字形位图是否满足预设条件;转换单元,在判断单元判定满足预设条件的情况下,根据属性信息确定字符的初始内码,并根据初始内码对字符进行转换,在判断单元判定不满足预设条件的情况下,根据字形位图识别字符的实际内码,并根据实际内码对字符进行转换。本发明还提出了一种字符转换方法。通过本发明的技术方案,能够在字符转换过程中自动修正内码错误,避免了鉴定错误文档与修复或重建文档而耗费时间,减轻了字符转换时系统的负担。

Description

字符转换系统和字符转换方法
技术领域
本发明涉及文字处理技术领域,具体而言,涉及一种字符转换系统和一种字符转换方法。
背景技术
中文文字有简体字与繁体字之分,然而因为简体字与繁体字之间的差异甚大,造成了这两种文字的使用者在交流信息上的隔阂。不仅是简体字的使用者在阅读繁体字上有一定的困难,对于没接触过简体字的繁体字使用者来说,阅读一份简体字文件也只能理解其中的部分内容。另外,简体字与繁体字所使用的编码也不相同,简体字是用GB(国标)编码,繁体字则是使用Big5码,因此如果使用者所在的本地端没有装设相应的编解码设备时,就会有显示乱码的情形发生。
简繁转换工具正是根据此需求产生,无论是网站或文字编辑软件几乎都附有这类的简繁转化工具,但要正确无误的转换一份简体字或繁体字文件,却并不轻松。通常的简繁转换是根据简/繁体文字的内码查找相对应的繁/简体文字内码来进行转换,但当遇到内码错误的情况就会出现转换出的内容与实际大相径庭的情况。这种文字内码与其字形不匹配的现象称作乱码现象。
乱码现象通常存在于含有内嵌字体数据格式的文档中,比如PDF或ePub等格式的文档。含有乱码(错误内码)的文档通常是显示正确,而在提取或复制文字时却出现乱码,这是由于文档在被制作时使用了特殊的字体或内嵌的字体数据经过了非常规的改动,导致文档无法提供正确的文字内码。另一方面,一部分特殊字体其字形的度量也与一般字体存在差异,这将导致使用一般字体绘制转换后的文字时可能出现字符大小显示异常的问题。由于历史原因,这类含有乱码的文档是大量存在的。
为了转换含有乱码的文档,只能重新制作文档,或采用OCR(光学字符识别)的技术手段将文档逐页识别出文字再进行转换,而这两种方法都需要消耗额外的人力资源。
因此,需要一种新的字符转换技术,能够在字符转换过程中自动修正内码错误,降低人力消耗,并避免了鉴定错误文档与修复或重建文档而耗费时间,减轻了字符转换时系统的负担。
发明内容
本发明正是基于上述问题,提出了一种字符转换技术,能够在字符转换过程中自动修正内码错误,降低人力消耗,并避免了鉴定错误文档与修复或重建文档而耗费时间,减轻了字符转换时系统的负担。
有鉴于此,本发明提出了一种字符转换系统,包括:解析单元,用于解析接收到的数据,确定所述数据所包含的至少一个字符,并获取所述至少一个字符中每个字符对应的属性信息;判断单元,对于所述每个字符,根据所述属性信息确定所述字符的字形位图,判断所述字形位图是否满足预设条件;转换单元,用于在所述判断单元判定满足所述预设条件的情况下,根据所述属性信息确定所述字符的初始内码,并根据所述初始内码对所述字符进行转换,在所述判断单元判定不满足所述预设条件的情况下,根据所述字形位图识别所述字符的实际内码,并根据所述实际内码对所述字符进行转换。
在该技术方案中,可以通过判断待转换字符的位图是否满足预设条件,来确定待转换字符的字体内码是否正确,并在字体内码不正确时,可以识别待转换字符的实际内码作为转换依据,对待转换字符进行转换,从而实现了在字符转换过程中自动修复内码错误,减少了鉴定错误文档与修复或重建文档所耗费的时间,达到减轻系统负担的技术功效。
本发明还提出了一种字符转换方法,包括:解析接收到的数据,确定所述数据所包含的至少一个字符,并获取所述至少一个字符中每个字符对应的属性信息;对于所述每个字符,根据所述属性信息确定所述字符的字形位图,判断所述字形位图是否满足预设条件,若满足所述预设条件,则根据所述属性信息确定所述字符的初始内码,并根据所述初始内码对所述字符进行转换,若不满足所述预设条件,则根据所述字形位图识别所述字符的实际内码,并根据所述实际内码对所述字符进行转换。
在该技术方案中,可以通过判断待转换字符的位图是否满足预设条件,来确定待转换字符的字体内码是否正确,并在字体内码不正确时,可以识别待转换字符的实际内码作为转换依据,对待转换字符进行转换,从而实现了在字符转换过程中自动修复内码错误,减少了鉴定错误文档与修复或重建文档所耗费的时间,达到减轻系统负担的技术功效。
通过以上技术方案,能够在字符转换过程中自动修正内码错误,降低人力消耗,并避免了鉴定错误文档与修复或重建文档而耗费时间,减轻了字符转换时系统的负担。
附图说明
图1示出了根据本发明的实施例的字符转换系统的框图;
图2示出了根据本发明的实施例的字符转换方法的流程图;
图3示出了根据本发明的实施例的字符转换系统的结构图;
图4示出了根据本发明的实施例的字符转换方法的具体流程图;
图5示出了根据本发明的实施例的判断字形相似度的流程图;
图6A和图6B示出了根据本发明的实施例的字形转换的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的字符转换系统的框图。
如图1所示,根据本发明的实施例的字符转换系统100包括:解析单元102,用于解析接收到的数据,确定所述数据所包含的至少一个字符,并获取所述至少一个字符中每个字符对应的属性信息;判断单元104,对于所述每个字符,根据所述属性信息确定所述字符的字形位图,判断所述字形位图是否满足预设条件;转换单元106,用于在所述判断单元104判定满足所述预设条件的情况下,根据所述属性信息确定所述字符的初始内码,并根据所述初始内码对所述字符进行转换,在所述判断单元104判定不满足所述预设条件的情况下,根据所述字形位图识别所述字符的实际内码,并根据所述实际内码对所述字符进行转换。
在上述技术方案中,优选地,还包括:相似度确定单元108,用于将所述字形位图与标准位图进行比较得到字形相似度,根据所述字形相似度确定平均相似度,其中,所述判断单元104用于判断平均相似度是否大于或等于预设阈值,所述转换单元106,用于在判断单元104判定平均相似度大于或等于预设阈值时,根据属性信息确定字符的初始内码,根据初始内码将字符转化为第一目标字符,以及在判断单元104判定平均相似度小于预设阈值时,根据字形位图识别字符的实际内码,并根据实际内码将字符转化为第二目标字符。
可以通过计算待转换字符的位图与标准位图的相似度,再判断相似度与预设阈值的关系,来确定待转换字符的字体内码是否正确,并在字体内码不正确时,可以识别待转换字符的实际内码作为转换依据,将待转换字符转换为第二目标字符,从而实现了在字符转换过程中自动修复内码错误,减少了鉴定错误文档与修复或重建文档所耗费的时间,达到减轻系统负担的技术功效。
需要说明的是,上述第一目标字符和第二目标字符可以是相同类型的字符,也可以是不同类型的字符。
优选地,判断单元104用于根据所述属性信息确定所述字符分别对应的字体,并获取每种字体对应的预设数目字符的字形位图,以及获取所述预设数目字符基于标准字体的标准位图。
可以根据待转换字符的字体,获取其中若干个字符的字形位图,再根据属性信息中的内码(即初始内码)获取上述若干个字符基于标准字体(比如宋体)的标准位图,然后每个字符的字形位图与其标准位图的进行字形对比为确定字形相似度,再根据每个字符的字形相似度,计算平均相似度,从而可以准确地判断待转换字符的字形相似度与预设阈值的大小关系,进而准确地判断待转换字符的字体的内码是否正确。
优选地,还包括:内码类别判断单元110,用于根据属性信息判断字符的初始内码属于预设类别;其中,在内码类别判断单元110的判断结果为是的情况下,所述判断单元104根据属性信息确定字符分别对应的字体。
当进行字符转换时,只有在待转换字符的内码属于特定类别的时,才进行转换,比如在将简体字转换为繁体字时,可以检测待转换字符的内码为简体字内码,属于汉字的内码类别,则可以进行转换,但是如果检测到待转换字符中存在内码为数字内码的字符时,则不对该字符进行转换。
优选地,还包括:调整度确定单元112,用于将字形位图的高度和宽度中较大的值,与标准位图的高度和宽度中较大的值进行比较,得到字形调整度;字符绘制单元114,用于根据所述第一目标字符对应的字形调整度调整所述第一目标字符的第一字号,根据校准后的第一字号绘制所述第一目标字符,根据所述第二目标字符对应的字形调整度校准所述第二目标字符的第二字号,并根据校准后的第二字号绘制所述第二目标字符,和/或根据未转换的字符的字号绘制未转换的字符。
在绘制转换后的字符之前,如果待绘制的字符的内码被纠正过(即以实际内码替换过),则使用字形调整度调整该字符的字号,使其在转换后的字号可以与转换前的字号相匹配。
优选地,转换单元106通过光学字符识别技术识别字形位图以得到实际内码。
图2示出了根据本发明的实施例的字符转换方法的流程图。
如图2所示,根据本发明的实施例的字符转换方法包括:步骤202,解析接收到的数据,确定所述数据所包含的至少一个字符,并获取所述至少一个字符中每个字符对应的属性信息;步骤204,对于所述每个字符,根据所述属性信息确定所述字符的字形位图,判断所述字形位图是否满足预设条件,若满足所述预设条件,则执行步骤206;步骤206,根据所述属性信息确定所述字符的初始内码,并根据所述初始内码对所述字符进行转换;若不满足所述预设条件,则执行步骤208;步骤208,根据所述字形位图识别所述字符的实际内码,并根据所述实际内码对所述字符进行转换。
优选地,断所述字形位图是否满足所述预设条件的过程包括:将字形位图与标准位图进行比较得到字形相似度,根据每个字符的字形相似度确定平均相似度,并将所述平均相似度与预设阈值进行比较;若平均相似度大于或等于预设阈值,则根据属性信息确定字符的初始内码,根据初始内码将字符转化为第一目标字符;若平均相似度小于预设阈值,则根据字形位图识别字符的实际内码,并根据实际内码将字符转化为第二目标字符。
可以通过计算待转换字符的位图与标准位图的相似度,再判断相似度与预设阈值的关系,来确定待转换字符的字体内码是否正确,并在字体内码不正确时,可以识别待转换字符的实际内码作为转换依据,将待转换字符转换为第二目标字符,从而实现了在字符转换过程中自动修复内码错误,减少了鉴定错误文档与修复或重建文档所耗费的时间,达到减轻系统负担的技术功效。
优选地,根据所述属性信息确定所述字符的字形位图的过程包括:根据所述属性信息确定所述字符分别对应的字体,并获取每种字体对应的预设数目字符的字形位图,以及获取所述预设数目字符基于标准字体的标准位图。
可以根据待转换字符的字体,获取其中若干个字符的字形位图,再根据属性信息中的内码(即初始内码)获取上述若干个字符基于标准字体(比如宋体)的标准位图,然后每个字符的字形位图与其标准位图的进行字形对比为确定字形相似度,再根据每个字符的字形相似度,计算平均相似度,从而可以准确地判断待转换字符的字形相似度与预设阈值的大小关系,进而准确地判断待转换字符的字体的内码是否正确。
优选地,还包括:根据属性信息判断字符的初始内码属于预设类别,若属于,则对字符进行转换,若不属于,则不对字符进行转换。
当进行字符转换时,只有在待转换字符的内码属于特定类别的时,才进行转换,比如在将简体字转换为繁体字时,可以检测待转换字符的内码为简体字内码,属于汉字的内码类别,则可以进行转换,但是如果检测到待转换字符中存在内码为数字内码的字符时,则不对该字符进行转换。
优选地,还包括:将字形位图的高度和宽度中较大的值,与标准位图的高度和宽度中较大的值进行比较,得到字形调整度;字符转换方法还包括:根据所述第一目标字符对应的字形调整度调整所述第一目标字符的第一字号,根据校准后的第一字号绘制所述第一目标字符,根据所述第二目标字符对应的字形调整度校准所述第二目标字符的第二字号,并根据校准后的第二字号绘制所述第二目标字符,和/或根据未转换的字符的字号绘制未转换的字符。
在绘制转换后的字符之前,如果待绘制的字符的内码被纠正过(即以实际内码替换过),则使用字形调整度调整该字符的字号,使其在转换后的字号可以与转换前的字号相匹配。
优选地,还包括:通过光学字符识别技术识别字形位图以得到实际内码。
下面以将简体字转化为繁体字为例,来说明本发明的具体实施方式。
图3示出了根据本发明的实施例的字符转换系统的结构图。
如图3所示,根据本发明的实施例的字符转换系统100可以包括:解析模块302,评估模块304,修正模块306,转换模块308,显示模块310。
简体到繁体内码转换数据库储存有所有中文简体字的内码及其对应的中文繁体字内码;繁体到简体内码转换数据库储存有所有中文繁体字的内码及其对应的中文简体字内码。
解析模块302用于将接收的数据内容解析为字体资源与文字内容;
评估模块304用于评估各个字体,以确定需要进行纠错处理的字体,并计算出各字体字形度量的调整值;
修正模块306用于修正使用了含有错误内码的字体的文字内容;
转换模块308用于把文字内容中的字符逐一转换为对应的繁/简体字符;
显示模块310用于将转换后的文字内容绘制到输出设备上,如屏幕或打印机。
图4示出了根据本发明的实施例的字符转换方法的具体流程图。
如图4所示,根据本发明的实施例的字符转换方法具体包括:
步骤402,建立包含有多个简体字内码及其对应的繁体字内码的转换数据库和包含有多个繁体字内码及其对应的简体字内码的转换数据库;
步骤404,接收一数据内容(比如PDF格式的文档),并解析出其中包含的各个字体资源以及所有文字内容,其中文字内容包含了其所属的字体名称或编号(系统为字体分配的编号,用于标识字体)、字号(用于描述字符被绘制时的尺寸大小)、其对应的字形编码以及对应的字符内码;
步骤406,对每种字体进行评估,从解析出的文字内容中选取一定数量的字符样本,这些字符样本都使用正被评估的字体,且它们的内码在中文简体字内码范围内,对这些字符样本分别获取同一字号的被评估字体的对应的字形位图与标准字体(如宋体)的对应字形位图,将两个字形位图进行字形对比(OCR中常见的一个处理步骤)得到字形相似度,再将两个位图边长(此边长为位图宽度和高度其中的较大值)相除得到字形度量调整度,最后统计字符样本的相似度平均值和字形度量调整度平均值;
步骤408,判断相似度平均值是否小于预先设定的阈值,若大于或等于,则进入步骤412;
步骤410,若小于,则判定字符的当前字体内码错误,需要被修正,通过OCR功能识别字符对应的字形位图,进而得到正确的字符内码(即实际内码),并替换该文字内容中的内码;
步骤412,判断字符内码是否属于中文汉字内码范围内,若不属于,则无须转换此字符;
步骤414,若属于,则在简体到繁体内码转换数据库中查找与此字符内码相对应的繁体字内码,并且将其所属的字体名称或编号改为某一默认繁体字体(如明流);
步骤416,依次绘制所有文字内容,对于转换过的字符可通过内码获取其对应的字形位图进行绘制,在绘制前使用字形调整度来校准当前字符的字号;
步骤418,对于未转换过的字符可通过字形编码获取其对应的字形位图进行绘制。
通过上述的技术手段,本发明减少了鉴定错误文档与修复或重建文档所耗费的时间,达到减轻系统负担的技术功效。
图5示出了根据本发明的实施例的判断字形相似度的流程图。
如图5所示,判断字形相似度的方法包括:
步骤502,获取待转换字符中的一个字符;
步骤504,判断该字符的字体是否为当前被评估的字体,若不是,则返回步骤502,获取下一个字符;
步骤506,若是当前被评估的字体,则判断该字符的内码是否在简体字内码范围内,若不在,则返回步骤502,获取下一字符;
步骤508,若在简体字内码范围内,则获取该字符基于当前字体的字形位图和基于标准字体的标准位图;
步骤510,比较字形位图和标准位图的字形相似度,并获取字形位图中长和宽中的较大值,与标准位图中长和宽的较大值相比,得到字形调整度;
步骤512,计算若干个字符的字形相似度平均值和字形调整度平均值;
步骤514,判断字形相似度平均值是否小于预设阈值;
步骤516,若小于,则判定字符的当前字体为使用错误内码的字体,记录相应的字形调整度;
步骤518,若大于,则判定字符的当前字体为使用正确内码的字体,记录相应的字形调整度。
图6A和图6B示出了根据本发明的实施例的字形转换的示意图。
比如有一篇如图6A所示的文档,需要对其做简体到繁体的转换。其中第一行字符内容使用字体A,内码正确,其余字符内容使用字体B,内码错误。
那么首先建立包含有多个简体字内码及其对应的繁体字内码的转换数据库和包含有多个繁体字内码及其对应的简体字内码的转换数据库,解析出文档使用的两种字体以及其中所有的文字内容,其中字体中包含了大量字形描述信息,通过字形编码能够获取特定的字形描述信息进而得到字符位图,而文字内容是由每个字符所属的字体名称或ID、其对应的字形编码以及对应的字符内码组成,具体的文字内容如表1所示:
表1
然后评估解析出的两种字体(即字体A和字体B)是否正确,假设取样个数为5,对于字体A,依次判断文档中的字符,假如选取的字符样本是“这”、“是”、“一”、“个”、“伟”,对这5个样本依次分别获取基于字体A的字形位图和基于宋体的字形位图,其中获取宋体字形位图是通过字符内码来查找,以样本“这”为例,内码36825对应的正是中文简体“这”字,对比获取到的宋体“这”字形位图与字体A字形编码01对应的字形位图得到字形相似度,并计算字体A字形编码01对应的字形位图边长与宋体“这”字形位图边长的比值作为字形调整度,以此类推再计算出剩下4个样本的相似度与字形度量调整度并统计均值,取相似度均值与阈值进行对比,相似度大于或等于此阈值即可判定字体A为内码正确的字体并记录字形度量调整度。
对于字体B,由于字符“1”和“2”的内码不属于简体字范围,所以选取的字符样本是“爱”、“国”、“包”、“容”、“创”,对这5个样本依次分别获取基于字体B的字形位图和基于宋体的字形位图,其中获取宋体字形是通过字符内码来查找,以样本“爱”为例,解析得到的内码为28907(实际内码应为29233),对应的是汉字“烫”,对比获取到的宋体“烫”字形位图与字体B字形编码02对应的字形位图得到字形相似度,并计算字体B字形编码02对应的字形位图边长与宋体“烫”字形位图边长的比值作为字形度量调整度;以此类推再计算出剩下4个样本的相似度与字形度量调整度并统计均值,由于字体B的其他4个样本的内码都没有对应正确的字符,计算出的相似度平均值小于阈值,判定字体B为内码错误的字体。
接下来修正使用了错误内码字体的字符,使用字体A的字符跳过此修正过程。依次处理使用字体B的字符,以第一个字符“1”为例,首先获取其对应字体1的字形位图,再对此字形位图进行OCR识别,得到正确的字符内码“49”并替换到该字符内容中,以此类推,修正余下的所有字符。
然后进行字符转换,以使用字体A的字符“这”为例,在简体到繁体内码转换数据库中找到36825对应的繁体字内码36889,将其内码替换为36889,将其使用的字体名改为默认字体明流;对于字体B,字符“1”的为内码49,不属于中文汉字内码范围,跳过转换步骤,接着处理字符“爱”,在简体到繁体内码转换数据库中找到29233对应的内码24859,将其内码替换为24859,将其使用的字体名改为默认字体明流,以此类推,转换余下的所有字符。
最后将转换后的字符显示到输出设备上,可以将所有字符依次绘制到一张大的位图中,这里需要对转换过的和未经转换的字符做区别处理,转换过的字符绘制时可以使用基于默认字体明流的字形位图,并且绘制前需要使用字形调整度来校准当前所绘制字符的字号,如使用字体B的大部分字符,用原字号乘以字形调整度得到校准后的字号;未转换过的字符则使用原字体字号进行绘制即可,如使用字体A的所有字符和使用字体B的非中文简体字符,最终转换得到的字符如图6B所示。
以上结合附图详细说明了本发明的技术方案,考虑到相关技术中,为了转换含有乱码的文档,需要重新制作文档,或采用OCR技术手段将文档逐页识别出字符再进行转换,浪费人力资源。通过本发明的技术方案,能够在字符转换过程中自动修正内码错误,降低人力消耗,并避免了鉴定错误文档与修复或重建文档而耗费时间,减轻了字符转换时系统的负担。
在本发明中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种字符转换系统,其特征在于,包括:
解析单元,用于解析接收到的数据,确定所述数据所包含的至少一个字符,并获取所述至少一个字符中每个字符对应的属性信息;
判断单元,对于所述每个字符,根据所述属性信息确定所述字符的字形位图,判断所述字形位图是否满足预设条件;
转换单元,用于在所述判断单元判定满足所述预设条件的情况下,根据所述属性信息确定所述字符的初始内码,并根据所述初始内码对所述字符进行转换,在所述判断单元判定不满足所述预设条件的情况下,根据所述字形位图识别所述字符的实际内码,并根据所述实际内码对所述字符进行转换;
相似度确定单元,用于将所述字形位图与标准位图进行比较得到字形相似度,根据所述字形相似度确定平均相似度,
其中,所述判断单元用于判断所述平均相似度是否大于或等于预设阈值,所述转换单元在所述判断单元判定所述平均相似度大于或等于所述预设阈值时,根据所述属性信息确定所述字符的初始内码,根据所述初始内码将所述字符转化为第一目标字符,以及在所述判断单元判定所述平均相似度小于所述预设阈值时,根据所述字形位图识别所述字符的实际内码,并根据所述实际内码将所述字符转化为第二目标字符。
2.根据权利要求1所述的字符转换系统,其特征在于,所述判断单元用于根据所述属性信息确定所述字符分别对应的字体,并获取每种字体对应的预设数目字符的字形位图,以及获取所述预设数目字符基于标准字体的标准位图。
3.根据权利要求1所述的字符转换系统,其特征在于,还包括:
调整度确定单元,用于将所述字形位图的高度和宽度中较大的值,与所述标准位图的高度和宽度中较大的值进行比较,得到字形调整度;
字符绘制单元,用于根据所述第一目标字符对应的字形调整度调整所述第一目标字符的第一字号,根据校准后的第一字号绘制所述第一目标字符,根据所述第二目标字符对应的字形调整度校准所述第二目标字符的第二字号,并根据校准后的第二字号绘制所述第二目标字符,和/或根据未转换的字符的字号绘制所述未转换的字符。
4.根据权利要求1至3中任一项所述的字符转换系统,其特征在于,所述转换单元通过光学字符识别技术识别所述字形位图以得到所述实际内码。
5.一种字符转换方法,其特征在于,包括:
解析接收到的数据,确定所述数据所包含的至少一个字符,并获取所述至少一个字符中每个字符对应的属性信息;
对于所述每个字符,根据所述属性信息确定所述字符的字形位图,判断所述字形位图是否满足预设条件,若满足所述预设条件,则根据所述属性信息确定所述字符的初始内码,并根据所述初始内码对所述字符进行转换,若不满足所述预设条件,则根据所述字形位图识别所述字符的实际内码,并根据所述实际内码对所述字符进行转换;
判断所述字形位图是否满足所述预设条件的过程包括:将所述字形位图与标准位图进行比较,以得到字形相似度;根据所述字形相似度确定平均相似度,并将所述平均相似度与预设阈值进行比较;
若所述平均相似度大于或等于所述预设阈值,则根据所述属性信息确定所述字符的初始内码,根据所述初始内码将所述字符转化为第一目标字符;
若所述平均相似度小于所述预设阈值,则根据所述字形位图识别所述字符的实际内码,并根据所述实际内码将所述字符转化为第二目标字符。
6.根据权利要求5所述的字符转换方法,其特征在于,根据所述属性信息确定所述字符的字形位图的过程包括:根据所述属性信息确定所述字符分别对应的字体,并获取每种字体对应的预设数目字符的字形位图,以及获取所述预设数目字符基于标准字体的标准位图。
7.根据权利要求5所述的字符转换方法,其特征在于,还包括:将所述字形位图的高度和宽度中较大的值,与所述标准位图的高度和宽度中较大的值进行比较,得到字形调整度;根据所述第一目标字符对应的字形调整度调整所述第一目标字符的第一字号,根据校准后的第一字号绘制所述第一目标字符,根据所述第二目标字符对应的字形调整度校准所述第二目标字符的第二字号,并根据校准后的第二字号绘制所述第二目标字符,和/或根据未转换的字符的字号绘制所述未转换的字符。
8.根据权利要求5至7中任一项所述的字符转换方法,其特征在于,还包括:通过光学字符识别技术识别所述字形位图以得到所述实际内码。
CN201310415209.XA 2013-09-12 2013-09-12 字符转换系统和字符转换方法 Expired - Fee Related CN104462068B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310415209.XA CN104462068B (zh) 2013-09-12 2013-09-12 字符转换系统和字符转换方法
US14/095,749 US20150070361A1 (en) 2013-09-12 2013-12-03 Character conversion system and a character conversion method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310415209.XA CN104462068B (zh) 2013-09-12 2013-09-12 字符转换系统和字符转换方法

Publications (2)

Publication Number Publication Date
CN104462068A CN104462068A (zh) 2015-03-25
CN104462068B true CN104462068B (zh) 2017-11-07

Family

ID=52625149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310415209.XA Expired - Fee Related CN104462068B (zh) 2013-09-12 2013-09-12 字符转换系统和字符转换方法

Country Status (2)

Country Link
US (1) US20150070361A1 (zh)
CN (1) CN104462068B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488471B (zh) * 2015-11-30 2019-03-29 北大方正集团有限公司 一种字形识别方法及装置
CN109447055B (zh) * 2018-10-17 2022-05-03 中电万维信息技术有限责任公司 一种基于ocr字形相近文字识别方法
CN111368506B (zh) * 2018-12-24 2023-04-28 阿里巴巴集团控股有限公司 文本处理方法及装置
CN109815454B (zh) * 2019-02-02 2023-09-01 中国银行股份有限公司 一种字体转换方法及装置
CN111695327B (zh) * 2019-02-28 2024-01-26 珠海金山办公软件有限公司 一种乱码修复方法、装置、电子设备及可读存储介质
JP2020170309A (ja) * 2019-04-02 2020-10-15 キヤノン株式会社 画像処理システム、画像処理装置、画像処理方法、及びプログラム
CN112528624A (zh) * 2019-09-03 2021-03-19 阿里巴巴集团控股有限公司 文本处理方法、装置、搜索方法以及处理器
CN111273982A (zh) * 2020-01-17 2020-06-12 北京字节跳动网络技术有限公司 操作系统的默认字体确认方法、装置、电子设备和介质
JP2022014321A (ja) * 2020-07-06 2022-01-19 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
CN112115678B (zh) * 2020-09-21 2024-04-12 京东方科技集团股份有限公司 信息展示方法及装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192212A (zh) * 2006-11-20 2008-06-04 中兴通讯股份有限公司 一种在终端上实现带边框字体的系统与方法
CN101963954A (zh) * 2009-07-24 2011-02-02 康佳集团股份有限公司 一种文字显示的方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3919617B2 (ja) * 2002-07-09 2007-05-30 キヤノン株式会社 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JP4546291B2 (ja) * 2005-03-01 2010-09-15 キヤノン株式会社 画像処理装置およびその制御方法
JP4928310B2 (ja) * 2007-03-02 2012-05-09 キヤノン株式会社 ナンバープレート認識装置、その制御方法、コンピュータプログラム
CN101916174B (zh) * 2010-06-28 2013-01-09 汉王科技股份有限公司 电子文档笔迹的显示方法及装置、处理方法及装置
JP5389270B2 (ja) * 2010-10-15 2014-01-15 三菱電機株式会社 プログラマブルコントローラ

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192212A (zh) * 2006-11-20 2008-06-04 中兴通讯股份有限公司 一种在终端上实现带边框字体的系统与方法
CN101963954A (zh) * 2009-07-24 2011-02-02 康佳集团股份有限公司 一种文字显示的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Web服务器的繁简体转换代理;石立新;《内蒙古大学学报(自然科学版)》;19991130;第30卷(第6期);782-784 *

Also Published As

Publication number Publication date
US20150070361A1 (en) 2015-03-12
CN104462068A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104462068B (zh) 字符转换系统和字符转换方法
US11450125B2 (en) Methods and systems for automated table detection within documents
US8442324B2 (en) Method and system for displaying image based on text in image
US8539349B1 (en) Methods and systems for splitting a chinese character sequence into word segments
US20070027749A1 (en) Advertisement detection
US8208737B1 (en) Methods and systems for identifying captions in media material
US9158742B2 (en) Automatically detecting layout of bidirectional (BIDI) text
KR102504635B1 (ko) 영상 처리 방법 및 영상 처리 시스템
US20120039536A1 (en) Optical character recognition with two-pass zoning
CN102737012A (zh) 文本信息对比方法及系统
Nurminen Algorithmic extraction of data in tables in PDF documents
US20210019366A1 (en) Text Extraction Heuristics
US20120281919A1 (en) Method and system for text segmentation
CN104933030A (zh) 一种维吾尔语拼写检查方法及装置
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN106708801B (zh) 用于文本的校对方法
CN111046627B (zh) 一种中文文字显示方法及系统
CN111966640A (zh) 一种单据文件识别方法及其系统
CN112699634B (zh) 电子书的排版处理方法、电子设备及存储介质
CN113536771B (zh) 基于文本识别的要素信息提取方法、装置、设备及介质
KR20010015963A (ko) 한자의 일자대조에 의한 교정 시스템
EP3224736B1 (en) Label printer
CN113177389A (zh) 文本处理方法、装置、电子设备及存储介质
US20060241932A1 (en) Translation previewer and validator
US10540443B2 (en) Systems and methods for determining references in patent claims

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Patentee after: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20220919

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171107

CF01 Termination of patent right due to non-payment of annual fee