CN106326195B - 字符处理方法和处理系统 - Google Patents

字符处理方法和处理系统 Download PDF

Info

Publication number
CN106326195B
CN106326195B CN201510337215.7A CN201510337215A CN106326195B CN 106326195 B CN106326195 B CN 106326195B CN 201510337215 A CN201510337215 A CN 201510337215A CN 106326195 B CN106326195 B CN 106326195B
Authority
CN
China
Prior art keywords
character
complementary
characters
similar
character set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510337215.7A
Other languages
English (en)
Other versions
CN106326195A (zh
Inventor
张国荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201510337215.7A priority Critical patent/CN106326195B/zh
Publication of CN106326195A publication Critical patent/CN106326195A/zh
Application granted granted Critical
Publication of CN106326195B publication Critical patent/CN106326195B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明提供了一种字符处理方法和处理系统,其中,所述字符处理方法包括:获取基础字符库中的所有字符的第一特征信息,以形成特征信息库;获取补字字符的第二特征信息;将所述第二特征信息与所述特征信息库中的所有所述第一特征信息进行匹配;根据匹配结果获取补字参考字符集;根据所述补字字符与补字参考字符集确定是否进行补字处理。通过本发明方案,可以利用从基础库中获取与待补字字符相似字形的参考字符快速的制作补字,同时有效的针对补字字符进行去重工作,这样可以大大的缩短补字周期,并保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。

Description

字符处理方法和处理系统
技术领域
本发明涉及文字字符处理技术领域,具体而言,涉及一种字符处理方法和一种字符处理系统。
背景技术
中国是一个历史悠久的国家,历史文献是我们研究历史必不可少的一部分,随着计算机技术的不断发展,中文信息化处理的能力也越来越强,为了更好的研究和保存历史资源,我们必须要将现存的历史文献进行数字化。数字化的首要工作是对搜集和整理的所有字符进行制作并给其编码。搜集过程整理的成果基本都是图片,然后根据字符图片整理字符属性并制作字符,进而将制作的字符进行编码并统一形成字库,最后使用该字库来将相应文献实现数字化。
目前的常用处理方式是先按照图片一起制作字符并编码形成字库,然后将新版本字库和老版本字库中的所有字符的图形进行比对,重复字符去掉。这种处理方式不仅增加了字符制作的工作量,对于已有字形出现了重复工作,造成人力资源浪费的同时降低了字符制作的效率。
因此,如何快速的制作补字,并可以有效地针对补字字符进行去重工作,以大大地缩短补字周期,进而提高补字制作效率,成为亟待解决的技术问题。
发明内容
本发明正是基于上述问题,提出了一种新的字符处理的技术方案,可以利用从基础库中获取与待补字字符相似字形的参考字符快速的制作补字,同时有效的针对补字字符进行去重工作,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。
有鉴于此,本发明的一方面提出了一种新的字符处理方法,包括:获取基础字符库中的所有字符的第一特征信息,以形成特征信息库;获取补字字符的第二特征信息;将所述第二特征信息与所述特征信息库中的所有所述第一特征信息进行匹配;根据匹配结果获取补字参考字符集;根据所述补字字符与补字参考字符集确定是否进行补字处理。
在该技术方案中,根据每一个汉字虽然都有差异,但是其组成汉字的子部件都具有相似性的这一特点建立特征信息库,其中基础字符库中所有字符的特征信息为第一特征信息,待补字字符的特征信息为第二特征信息。通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,根据匹配结果获取补字参考字符集,并根据待补字字符与补字参考字符集确定是否进行补字处理,其中,补字参考字符集可能包括一个或者多个字符,如此,可以有效的针对补字字符进行去重工作,同时可以利用获取的参考字符快速的制作补字,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。
在上述技术方案中,优选地,根据所述匹配结果获取所述补字参考字符集,具体包括:根据所述匹配结果获取补字相似字符集;根据所述补字相似字符集获取所述补字参考字符集。
在该技术方案中,通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,从匹配结果中取补字相似字符集,进而获取补字参考字符集,从而确定是否进行补字,避免了对已出现字符重复工作,有效的缩短了补字周期,从而提高了补字制作效率。
在上述技术方案中,优选地,所述第一特征信息和所述第二特征信息包括:字符IDS属性以及根据所述IDS属性生成的字符笔顺信息;其中,所述字符IDS属性包括:字符结构信息和字符构成子部件信息。
在该技术方案中,第一特征信息和第二特征信息均至少包括但不限于:字符IDS(即表意文字描述序列)属性以及根据IDS属性生成的字符笔顺信息,其中,字符IDS属性至少包括但不限于:字符结构信息和字符构成子部件信息,如此,通过获取待补字字符和基础库中所有字符的特征信息,为提高补字制作效率以及实现字符的数字化管理提供了必要的前提保障。
在上述技术方案中,优选地,根据所述匹配结果获取所述补字相似字符集,具体包括:在所述特征信息库中获取与所述补字字符的所述字符结构信息相同的字符,以形成第一相似字符集;在所述第一相似字符集中获取包含所述补字字符的所述字符构成子部件信息的字符,以形成第二相似字符集;判断所述第二相似字符集中是否存在与所述补字字符的所述笔顺信息相近的字符;当判定为是时,将所述第二相似字符集中的与所述补字字符的所述笔顺信息相近的字符确定为所述补字相似字符集;否则,将所述第二相似字符集确定为所述补字相似字符集。
在该技术方案中,首先通过对待补字字符的IDS属性及基础库中所有字符的IDS属性进行匹配,形成第二相似字符集,然后判断第二相似字符集中是否存在与补字字符的笔顺信息相近的字符,在判定第二相似字符集中存在与补字字符的笔顺信息相近的字符时,将笔顺信息相近的字符确认为补字相似字符集,否则,直接将第二相似字符集确认为补字相似字符集,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。
在上述技术方案中,优选地,根据所述补字字符与所述补字参考字符集确定是否进行补字处理,具体包括:当判定所述补字参考字符集中存在与所述补字字符相同的字符时,则不进行补字处理;否则,在所述补字参考字符集中确定目标字符以进行补字处理,以获取所述补字字符。
在该技术方案中,通过将补字字符与补字参考字符集中的字符进行比较,若发现与补字字符完全一致的参考字符,则可以省去制作补字的流程,若补字参考字符集中的参考字符与补字字符笔形相差较小,则可以进行补字制作,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。
根据本发明的另一方面,还提出了一种字符处理系统,包括:第一获取单元,用于获取基础字符库中的所有字符的第一特征信息,以形成特征信息库;第二获取单元,用于获取补字字符的第二特征信息;匹配单元,用于将所述第二特征信息与所述特征信息库中的所有所述第一特征信息进行匹配;第三获取单元,用于根据匹配结果获取补字参考字符集;确定单元,用于根据所述补字字符与补字参考字符集确定是否进行补字处理。
在该技术方案中,根据每一个汉字虽然都有差异,但是其组成汉字的子部件都具有相似性的这一特点建立特征信息库,其中基础字符库中所有字符的特征信息为第一特征信息,待补字字符的特征信息为第二特征信息。通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,根据匹配结果获取补字参考字符集,并根据待补字字符与补字参考字符集确定是否进行补字处理,其中,补字参考字符集可能包括一个或者多个字符,如此,可以有效的针对补字字符进行去重工作,同时可以利用获取的参考字符快速的制作补字,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。
在上述技术方案中,优选地,所述第三获取单元具体用于:根据所述匹配结果获取补字相似字符集;根据所述补字相似字符集获取所述补字参考字符集。
在该技术方案中,通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,从匹配结果中取补字相似字符集,进而获取补字参考字符集,从而确定是否进行补字,避免了对已出现字符重复工作,有效的缩短了补字周期,从而提高了补字制作效率。
在上述技术方案中,优选地,所述第一特征信息和所述第二特征信息包括:字符IDS属性以及根据所述IDS属性生成的字符笔顺信息;其中,所述字符IDS属性包括:字符结构信息和字符构成子部件信息。
在该技术方案中,第一特征信息和所述第二特征信息均至少包括但不限于:字符IDS(即表意文字描述序列)属性以及根据IDS属性生成的字符笔顺信息,其中,字符IDS属性至少包括但不限于:字符结构信息和字符构成子部件信息,如此,通过获取待补字字符和基础库中所有字符的特征信息,为提高补字制作效率以及实现字符的数字化管理提供了必要的前提保障。
在上述技术方案中,优选地,所述第三获取单元具体还用于:在所述特征信息库中获取与所述补字字符的所述字符结构信息相同的字符,以形成第一相似字符集;在所述第一相似字符集中获取包含所述补字字符的所述字符构成子部件信息的字符,以形成第二相似字符集;判断所述第二相似字符集中是否存在与所述补字字符的所述笔顺信息相近的字符;当判定为是时,将所述第二相似字符集中的与所述补字字符的所述笔顺信息相近的字符确定为所述补字相似字符集;否则,将所述第二相似字符集确定为所述补字相似字符集。
在该技术方案中,首先通过对待补字字符的IDS属性及基础库中所有字符的IDS属性进行匹配,形成第二相似字符集,然后判断第二相似字符集中是否存在与补字字符的笔顺信息相近的字符,在判定第二相似字符集中存在与补字字符的笔顺信息相近的字符时,将笔顺信息相近的字符确认为补字相似字符集,否则,直接将第二相似字符集确认为补字相似字符集,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。
在上述技术方案中,优选地,所述确定单元具体用于:当判定所述补字参考字符集中存在与所述补字字符相同的字符时,则确定不进行补字处理;否则,在所述补字参考字符集中确定目标字符以进行补字处理,以获取所述补字字符。
在该技术方案中,通过将补字字符与补字参考字符集中的字符进行比较,若发现与补字字符完全一致的参考字符,则可以省去制作补字的流程,若补字参考字符集中的参考字符与补字字符笔形相差较小,则可以进行补字制作,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。
通过本发明的技术方案,可以利用从基础库中获取与待补字字符相似字形的参考字符快速的制作补字,同时有效的针对补字字符进行去重工作,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。
附图说明
图1示出了根据本发明的实施例的字符处理方法的流程示意图;
图2示出了根据本发明的实施例的字符处理系统的示意框图;
图3示出了待补字字符的字形示意图。
具体实施方式
为了可以更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的字符处理方法的流程示意图。
如图1所示,根据本发明的实施例的字符处理方法,包括:步骤102,获取基础字符库中的所有字符的第一特征信息,以形成特征信息库;步骤104,获取补字字符的第二特征信息;步骤106,将所述第二特征信息与所述特征信息库中的所有所述第一特征信息进行匹配;步骤108,根据匹配结果获取补字参考字符集;步骤110,根据所述补字字符与补字参考字符集确定是否进行补字处理。
在该技术方案中,根据每一个汉字虽然都有差异,但是其组成汉字的子部件都具有相似性的这一特点建立特征信息库,其中基础字符库中所有字符的特征信息为第一特征信息,待补字字符的特征信息为第二特征信息。通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,根据匹配结果获取补字参考字符集,并根据待补字字符与补字参考字符集确定是否进行补字处理,其中,补字参考字符集可能包括一个或者多个字符,如此,可以有效的针对补字字符进行去重工作,同时可以利用获取的参考字符快速的制作补字,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。
在上述技术方案中,优选地,所述步骤108具体包括:根据所述匹配结果获取补字相似字符集;根据所述补字相似字符集获取所述补字参考字符集。
在该技术方案中,通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,从匹配结果中取补字相似字符集,进而获取补字参考字符集,从而确定是否进行补字,避免了对已出现字符重复工作,有效的缩短了补字周期,从而提高了补字制作效率。
在上述技术方案中,优选地,所述第一特征信息和所述第二特征信息包括:字符IDS属性以及根据所述IDS属性生成的字符笔顺信息;其中,所述字符IDS属性包括:字符结构信息和字符构成子部件信息。
在该技术方案中,第一特征信息和第二特征信息均至少包括但不限于:字符IDS(即表意文字描述序列)属性以及根据IDS属性生成的字符笔顺信息,其中,字符IDS属性至少包括但不限于:字符结构信息和字符构成子部件信息,如此,通过获取待补字字符和基础库中所有字符的特征信息,为提高补字制作效率以及实现字符的数字化管理提供了必要的前提保障。
在上述技术方案中,优选地,根据所述匹配结果获取所述补字相似字符集,具体包括:在所述特征信息库中获取与所述补字字符的所述字符结构信息相同的字符,以形成第一相似字符集;在所述第一相似字符集中获取包含所述补字字符的所述字符构成子部件信息的字符,以形成第二相似字符集;判断所述第二相似字符集中是否存在与所述补字字符的所述笔顺信息相近的字符;当判定为是时,将所述第二相似字符集中的与所述补字字符的所述笔顺信息相近的字符确定为所述补字相似字符集;否则,将所述第二相似字符集确定为所述补字相似字符集。
在该技术方案中,首先通过对待补字字符的IDS属性及基础库中所有字符的IDS属性进行匹配,形成第二相似字符集,然后判断第二相似字符集中是否存在与补字字符的笔顺信息相近的字符,在判定第二相似字符集中存在与补字字符的笔顺信息相近的字符时,将笔顺信息相近的字符确认为补字相似字符集,否则,直接将第二相似字符集确认为补字相似字符集,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。
在上述技术方案中,优选地,所述步骤110具体包括:当判定所述补字参考字符集中存在与所述补字字符相同的字符时,则不进行补字处理;否则,在所述补字参考字符集中确定目标字符以进行补字处理,以获取所述补字字符。
在该技术方案中,通过将补字字符与补字参考字符集中的字符进行比较,若发现与补字字符完全一致的参考字符,则可以省去制作补字的流程,若补字参考字符集中的参考字符与补字字符笔形相差较小,则可以进行补字制作,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。
图2示出了根据本发明的实施例的字符处理系统的示意框图。
如图2所示,根据本发明的实施例的字符处理系统200,包括:第一获取单元202,用于获取基础字符库中的所有字符的第一特征信息,以形成特征信息库;第二获取单元204,用于获取补字字符的第二特征信息;匹配单元206,用于将所述第二特征信息与所述特征信息库中的所有所述第一特征信息进行匹配;第三获取单元208,用于根据匹配结果获取补字参考字符集;确定单元210,用于根据所述补字字符与补字参考字符集确定是否进行补字处理。
在该技术方案中,根据每一个汉字虽然都有差异,但是其组成汉字的子部件都具有相似性的这一特点建立特征信息库,其中基础字符库中所有字符的特征信息为第一特征信息,待补字字符的特征信息为第二特征信息。通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,根据匹配结果获取补字参考字符集,并根据待补字字符与补字参考字符集确定是否进行补字处理,其中,补字参考字符集可能包括一个或者多个字符,如此,可以有效的针对补字字符进行去重工作,同时可以利用获取的参考字符快速的制作补字,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。
在上述技术方案中,优选地,所述第三获取单元208具体用于:根据所述匹配结果获取补字相似字符集;根据所述补字相似字符集获取所述补字参考字符集。
在该技术方案中,通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,从匹配结果中取补字相似字符集,进而获取补字参考字符集,从而确定是否进行补字,避免了对已出现字符重复工作,有效的缩短了补字周期,从而提高了补字制作效率。
在上述技术方案中,优选地,所述第一特征信息和所述第二特征信息包括:字符IDS属性以及根据所述IDS属性生成的字符笔顺信息;其中,所述字符IDS属性包括:字符结构信息和字符构成子部件信息。
在该技术方案中,第一特征信息和所述第二特征信息均至少包括但不限于:字符IDS(即表意文字描述序列)属性以及根据IDS属性生成的字符笔顺信息,其中,字符IDS属性至少包括但不限于:字符结构信息和字符构成子部件信息,如此,通过获取待补字字符和基础库中所有字符的特征信息,为提高补字制作效率以及实现字符的数字化管理提供了必要的前提保障。
在上述技术方案中,优选地,所述第三获取单元208具体还用于:在所述特征信息库中获取与所述补字字符的所述字符结构信息相同的字符,以形成第一相似字符集;在所述第一相似字符集中获取包含所述补字字符的所述字符构成子部件信息的字符,以形成第二相似字符集;判断所述第二相似字符集中是否存在与所述补字字符的所述笔顺信息相近的字符;当判定为是时,将所述第二相似字符集中的与所述补字字符的所述笔顺信息相近的字符确定为所述补字相似字符集;否则,将所述第二相似字符集确定为所述补字相似字符集。
在该技术方案中,首先通过对待补字字符的IDS属性及基础库中所有字符的IDS属性进行匹配,形成第二相似字符集,然后判断第二相似字符集中是否存在与补字字符的笔顺信息相近的字符,在判定第二相似字符集中存在与补字字符的笔顺信息相近的字符时,将笔顺信息相近的字符确认为补字相似字符集,否则,直接将第二相似字符集确认为补字相似字符集,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。
在上述技术方案中,优选地,所述确定单元210具体用于:当判定所述补字参考字符集中存在与所述补字字符相同的字符时,则确定不进行补字处理;否则,在所述补字参考字符集中确定目标字符以进行补字处理,以获取所述补字字符。
在该技术方案中,通过将补字字符与补字参考字符集中的字符进行比较,若发现与补字字符完全一致的参考字符,则可以省去制作补字的流程,若补字参考字符集中的参考字符与补字字符笔形相差较小,则可以进行补字制作,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。
图3示出了待补字字符的字形示意图。
下面结合具体实施例对本发明的技术方案进行说明,具体包含以下步骤:
第一步,选定已有成品字库,作为基础库。整理基础库中所有字符特征信息,形成特征信息库。特征信息库的内容包括基础库中所有字符的IDS属性和笔顺信息。
IDS属性包括字符的结构信息和字符部件信息。字符结构信息共12个描述符号,分别是 分别表示左右结构、上下结构、左中右结构、上中下结构、内包含、下包含、上包含、右包含、右下包含、左下包含等,比如,如图3所示的待补字字符的结构信息均为:左右结构。
笔顺信息是组成字符所有笔画的数字序列。笔顺信息符合汉字笔顺规则,将汉字的5种笔画(横、竖、撇、捺、折)分别用1,2,3,4,5来分别表示,其中提为横,亅为竖,丶为捺,竖提为折。
基础字符特征信息库数据示例如下表所示。
第二步,整理待补字字符(如图3所示)的特征信息,即补字IDS属性和笔顺信息。
待补字字符的特征信息数据示例如下表所示。
第三步:利用步骤一完成的特征信息库对步骤二整理的补字特征信息进行查找比对,形成补字相似字符集。
比对过程中,先比对特征信息中的IDS属性,找到相同结构的字符,形成相似字符集Ⅰ;然后从相似字符集Ⅰ中再比对查找包含补字字符部件的字符,将与补字字符子部件相同字符筛选出来,形成相似字符集Ⅱ;最后从字符集Ⅱ中,通过笔顺信息比对,将与补字字符相似笔顺信息的字符筛选出来,形成补字相似字符集。
第四步,通过步骤三形成的相似字符集,结合原始补字需求从中选取补字参考字符集,可能是一个或者多个字符。
第五步,结合步骤四挑选的补字参考字符集,利用字体开发工具(如Font lab),完成补字工作。
通过上述步骤,这样可以大大的缩短新字库检验周期,节约人力,降低了人工出现的错误率,提高了新字库质量,进而有效的提高了字库的开发效率。
以上结合附图详细说明了本发明的技术方案,本发明提出了一种新的字符处理的技术方案,可以利用从基础库中获取与待补字字符相似字形的参考字符快速的制作补字,同时有效的针对补字字符进行去重工作,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种字符处理方法,其特征在于,包括:
获取基础字符库中的所有字符的第一特征信息,以形成特征信息库;
获取补字字符的第二特征信息;
将所述第二特征信息与所述特征信息库中的所有所述第一特征信息进行匹配;
根据匹配结果获取补字参考字符集;
根据所述补字字符与补字参考字符集确定是否进行补字处理;
根据所述匹配结果获取所述补字参考字符集,具体包括:
根据所述匹配结果获取补字相似字符集;
根据所述补字相似字符集获取所述补字参考字符集;
所述第一特征信息和所述第二特征信息包括:
字符IDS属性以及根据所述IDS属性生成的字符笔顺信息;其中,
所述字符IDS属性包括:字符结构信息和字符构成子部件信息;
根据所述匹配结果获取所述补字相似字符集,具体包括:
在所述特征信息库中获取与所述补字字符的所述字符结构信息相同的字符,以形成第一相似字符集;
在所述第一相似字符集中获取包含所述补字字符的所述字符构成子部件信息的字符,以形成第二相似字符集;
判断所述第二相似字符集中是否存在与所述补字字符的所述笔顺信息相近的字符;
当判定为是时,将所述第二相似字符集中的与所述补字字符的所述笔顺信息相近的字符确定为所述补字相似字符集;否则,将所述第二相似字符集确定为所述补字相似字符集。
2.根据权利要求1所述的字符处理方法,其特征在于,根据所述补字字符与所述补字参考字符集确定是否进行补字处理,具体包括:
当判定所述补字参考字符集中存在与所述补字字符相同的字符时,则不进行补字处理;否则,在所述补字参考字符集中确定目标字符以进行补字处理,以获取所述补字字符。
3.一种字符处理系统,其特征在于,包括:
第一获取单元,用于获取基础字符库中的所有字符的第一特征信息,以形成特征信息库;
第二获取单元,用于获取补字字符的第二特征信息;
匹配单元,用于将所述第二特征信息与所述特征信息库中的所有所述第一特征信息进行匹配;
第三获取单元,用于根据匹配结果获取补字参考字符集;
确定单元,用于根据所述补字字符与补字参考字符集确定是否进行补字处理;
所述第三获取单元具体用于:
根据所述匹配结果获取补字相似字符集;
根据所述补字相似字符集获取所述补字参考字符集;
所述第一特征信息和所述第二特征信息包括:
字符IDS属性以及根据所述IDS属性生成的字符笔顺信息;其中,
所述字符IDS属性包括:字符结构信息和字符构成子部件信息;
所述第三获取单元具体还用于:
在所述特征信息库中获取与所述补字字符的所述字符结构信息相同的字符,以形成第一相似字符集;
在所述第一相似字符集中获取包含所述补字字符的所述字符构成子部件信息的字符,以形成第二相似字符集;
判断所述第二相似字符集中是否存在与所述补字字符的所述笔顺信息相近的字符;
当判定为是时,将所述第二相似字符集中的与所述补字字符的所述笔顺信息相近的字符确定为所述补字相似字符集;否则,将所述第二相似字符集确定为所述补字相似字符集。
4.根据权利要求3所述的字符处理系统,其特征在于,所述确定单元具体用于:
当判定所述补字参考字符集中存在与所述补字字符相同的字符时,则确定不进行补字处理;否则,在所述补字参考字符集中确定目标字符以进行补字处理,以获取所述补字字符。
CN201510337215.7A 2015-06-17 2015-06-17 字符处理方法和处理系统 Expired - Fee Related CN106326195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510337215.7A CN106326195B (zh) 2015-06-17 2015-06-17 字符处理方法和处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510337215.7A CN106326195B (zh) 2015-06-17 2015-06-17 字符处理方法和处理系统

Publications (2)

Publication Number Publication Date
CN106326195A CN106326195A (zh) 2017-01-11
CN106326195B true CN106326195B (zh) 2019-06-11

Family

ID=57733020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510337215.7A Expired - Fee Related CN106326195B (zh) 2015-06-17 2015-06-17 字符处理方法和处理系统

Country Status (1)

Country Link
CN (1) CN106326195B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149805A (zh) * 2006-09-19 2008-03-26 北京三星通信技术研究有限公司 利用字符结构信息进行后处理的手写识别的方法和装置
CN101276249A (zh) * 2007-03-30 2008-10-01 北京三星通信技术研究有限公司 一种手写字符预测识别的方法和装置
CN101894266A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种手写识别方法及系统
CN102968582A (zh) * 2012-12-13 2013-03-13 北京大学 基于字符结构特征的文本水印嵌入和提取方法
CN104516899A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 字库更新方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8413069B2 (en) * 2005-06-28 2013-04-02 Avaya Inc. Method and apparatus for the automatic completion of composite characters

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149805A (zh) * 2006-09-19 2008-03-26 北京三星通信技术研究有限公司 利用字符结构信息进行后处理的手写识别的方法和装置
CN101276249A (zh) * 2007-03-30 2008-10-01 北京三星通信技术研究有限公司 一种手写字符预测识别的方法和装置
CN101894266A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种手写识别方法及系统
CN102968582A (zh) * 2012-12-13 2013-03-13 北京大学 基于字符结构特征的文本水印嵌入和提取方法
CN104516899A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 字库更新方法和装置

Also Published As

Publication number Publication date
CN106326195A (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
CN110516208B (zh) 一种针对pdf文档表格提取的系统及方法
Park et al. Automated extraction of chemical structure information from digital raster images
CN110427884B (zh) 文档篇章结构识别方法、装置、设备和存储介质
US20160314104A1 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
Zhou et al. Easy generation of personal Chinese handwritten fonts
CN102479173A (zh) 识别版面阅读顺序的方法及装置
AU2014321165A1 (en) Image searching method and apparatus
JP6065844B2 (ja) インデックス走査装置及びインデックス走査方法
CN106777130B (zh) 一种索引生成方法、数据检索方法和装置
CN105045886A (zh) 一种dicom图像的导入方法
Garz et al. Creating ground truth for historical manuscripts with document graphs and scribbling interaction
JP2019512127A (ja) 文字列距離計算方法及び装置
CN106815253B (zh) 一种基于混合数据类型数据的挖掘方法
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN104834891A (zh) 一种中文图像型垃圾邮件过滤方法及系统
RU2625533C1 (ru) Устройства и способы, которые строят иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы
JP2005043990A (ja) 文書処理装置および文書処理方法
CN103729638B (zh) 一种文字区域识别中的文字行排列分析方法和装置
CN111104476A (zh) 档案数据生成方法、档案数据生成装置和可读存储介质
CN104346616A (zh) 字符识别装置和字符识别方法
CN106326195B (zh) 字符处理方法和处理系统
CN1317664C (zh) 乱笔顺库建立方法及联机手写汉字识别评测系统
Azmi et al. Arabic calligraphy classification using triangle model for Digital Jawi Paleography analysis
Cloppet et al. New tools for exploring, analysing and categorising medieval scripts
CN110147516A (zh) 页面设计中前端代码的智能识别方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220622

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190611

CF01 Termination of patent right due to non-payment of annual fee