具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的字库更新方法一个实施例的流程图,如图1所示,包括:
101、获取待添加到字库中的增补字的位图信息。
其中,本发明提供的字库更新方法可以由字库更新装置执行,字库具体可以为人口基础信息库、法人单位基础信息库、自然资源和地理空间基础信息库、宏观经济数据库等的字库。增补字具体可以指人名、地名中的未包括在字库中的生僻字。增补字的位图信息指的是增补字的点阵图像信息或绘制图像信息,是由称作像素的多个点组成的。这些点可以进行不同的排列和染色以构成图像。
具体地,字库更新装置可以先获取待添加到字库中的增补字的字符结构信息,对增补字的字符结构信息进行转换,得到待添加到字库中的增补字的位图信息。
可选的,字库更新装置可以在待添加到字库中的增补字的数量满足预设的数量阈值时,获取待添加到字库中的增补字的位图信息;或者,字库更新装置也可以获取一段时间内的待添加到字库中的增补字,在时间段的长度满足预设的时间阈值时,获取待添加到字库中的增补字的位图信息。
102、获取字库中各字符的位图信息。
其中,字库中的字符具体指的是人口基础信息库、法人单位基础信息库、自然资源和地理空间基础信息库、宏观经济数据库等字库中的字。字库中的字符具体是以矢量方式进行保存的。字符的矢量方式指的是,将每个字符的笔画分解成数学模型中定义好的各种直线和曲线,然后记下这些直线和曲线的参数。字符的位图信息的定义与增补字的位图信息的定义类似。
103、根据增补字的位图信息与字库中各字符的位图信息,判断字库是否包括增补字。
具体地,字库更新装置将字库中的字符转成位单色位图,获取到字库中各字符的位图信息后,字库更新装置分别将增补字的位图信息与字库中各字符的位图信息进行比较;
若字库中不存在位图信息与增补字的位图信息的匹配度都满足预设的阈值的字符,则确定字库不包括增补字;
若字库中存在位图信息与增补字的位图信息的匹配度满足预设的阈值的至少一个字符,则确定字库中存在增补字的相似字符或相同字符;
若字库中存在增补字的相同字符,则确定字库包括增补字。
其中,匹配度具体指的是两个字符的位图信息之间的相似度,例如字库中某个字符的位图信息与增补字的位图信息的匹配度指的是字库中该字符的位图信息与增补字的位图信息之间的相似度,相似度具体可以用百分比来表示。预设的阈值具体指的也是百分比。字库中存在位图信息与增补字的位图信息的匹配度满足预设的阈值的至少一个字符,具体指的是,字库中存在位图信息与增补字的位图信息的相似度满足预设的百分比的至少一个字符。
在字库中存在位图信息与增补字的位图信息的匹配度满足预设的阈值的至少一个字符的情况下,需进行人工筛查,判断增补字与字库中的所述至少一个字符是相似字符还是相同字符,若增补字与字库中的所述至少一个字符是相同字符,则确定字库包括所述增补字。例如,在字库中存在位图信息与增补字的位图信息的匹配度满足预设的阈值的至少一个字符的情况下,如图2所示,为增补字与字库中的某个字符相同的情形,如图3所示,为增补字与字库中的某个字符相似的情形。
其中,预设的阈值可以由字库更新装置在对增补字的位图信息与字库中各字符的位图信息进行比较之前进行设置。
另外,由于增补字的位图信息与增补字的类型有一定的关系,即与增补字的字面大小和字体风格有一定的关系,字面大小指的是在字号相同的情况下字符的显示大小,当字符的字号相同且显示大小相同时,字面大小相同;字体风格指的是增补字的字体以及增补字是否加粗、是否倾斜等特征。也就是说,针对同一个增补字,不同字体风格的增补字或不同字面大小的增补字对应的位图信息是不同的。因此,若待添加到字库中的增补字与字库中各字符的类型相同,则可以进一步提高增补字的位图信息与字库中各字符的位图信息的匹配度,提高判断增补字是否有效的准确度。
104、若字库不包括增补字,则确定增补字为有效增补字。
105、将有效增补字添加到字库中。
其中,字库更新装置可以按照字库的编码规则对有效增补字进行编码,将有效增补字及对应的编码添加到字库中,将有效增补字及对应的编码添加到字库中后,字库更新装置还可以对字库进行测试,若测试通过,可以将字库作为产品进行发布。
另外,本发明提供的字库更新装置中确定增补字是否有效的方法也可以用于检查某字库是否有重复字符,例如检查中华大字库的成果字库、中华经典古籍库、商周铜器铭文知识库等数字库是否有重复字符。
本实施例中,通过根据增补字的位图信息与字库中各字符的位图信息,判断字库是否包括增补字,根据判断结果确定增补字是否为有效增补字,将有效增补字添加到字库中,减少了现有技术中根据增补字的字符结构信息人工在标准中进行查找的时间,提高了判断增补字是否有效的效率和准确度,减少了在字库中增加重复字符出现的可能性。
图4为本发明提供的字库更新方法又一个实施例的流程图,如图4所示,为了进一步提高判断增补字是否有效的效率,在图1所示实施例的基础上,步骤103之前,还可以包括:
106、根据增补字的位图信息,判断待添加到字库中的增补字中是否存在匹配度满足预设的阈值的至少两个增补字。
具体地,字库分析装置可以根据每个增补字的字符结构信息等信息,给每个增补字编制一个临时码位,将这些增补字做成一个小字库,这些增补字的类型可以与字库中各字符的类型一致,然后依次获取小字库中的每个增补字,并分别将每个增补字的位图信息与小字库中的其他增补字的位图信息进行匹配;若某个增补字的位图信息与小字库中的其他增补字的位图信息的匹配度满足预设的阈值,则小字库中存在相似字符或者相同字符,在小字库中存在相似字符的情况下,如图5所示,为增补字中两个字符差一个笔划的情形;若每个增补字的位图信息与小字库中的其他增补字的位图信息的匹配度不满足预设的阈值,则小字库中不存在相同字符或相似字符。
在某个增补字的位图信息与小字库中的其他增补字的位图信息的匹配度满足预设的阈值时,例如在第一增补字的位图信息与第二增补字的位图信息的匹配度满足预设的阈值的情况下,需进行人工筛查,判断第一增补字与第二增补字是相似字符还是相同字符,若第一增补字与第二增补字为相同字符,则确定第一增补字与第二增补字是重复字符,若第一增补字与第二增补字为相似字符,则确定第一增补字与第二增补字不是重复字符。例如,如图6所示,为增补字中两个字符相似的情形。
107、若待添加到字库中的增补字中存在匹配度满足预设的阈值的至少两个增补字,则待添加到字库中的增补字中存在至少两个相同增补字或至少两个相似增补字。
108、若待添加到字库中的增补字中存在至少两个相同增补字,则删除至少两个相同增补字中的重复增补字。
具体地,若小字库中存在匹配度满足预设的阈值的增补字,则说明小字库中存在相似字符或相同字符,若为相同字符,则删除重复字符。
本实施例中,通过根据增补字的位图信息与字库中各字符的位图信息,先根据增补字的位图信息判断增补字之间是否存在重复字符,若存在重复字符,删除重复字符,然后再判断字库是否包括增补字,根据判断结果确定增补字是否为有效增补字,将有效增补字添加到字库中,减少了现有技术中根据增补字的字符结构信息人工在标准中进行查找的时间,提高了判断增补字是否有效的效率和准确度,减少了在字库中增加重复字符出现的可能性。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图7为本发明提供的字库更新装置一个实施例的结构示意图,如图7所示,包括:
获取模块71,用于获取待添加到字库中的增补字的位图信息;
获取模块71,还用于获取字库中各字符的位图信息;
判断模块72,用于根据增补字的位图信息与字库中各字符的位图信息,判断字库是否包括增补字;
确定模块73,用于在字库不包括增补字时,确定增补字为有效增补字;
添加模块74,用于将有效增补字添加到字库中。
进一步地,判断模块72根据增补字的位图信息与字库中各字符的位图信息,判断字库是否包括增补字中,判断模块72具体用于,
分别将增补字的位图信息与字库中各字符的位图信息进行比较;
若字库中不存在位图信息与增补字的位图信息的匹配度满足预设的阈值的字符,则确定字库不包括增补字;
若字库中存在位图信息与增补字的位图信息的匹配度满足预设的阈值的至少一个字符,则确定字库中存在增补字的相似字符或相同字符;
若字库中存在增补字的相同字符,则确定字库包括增补字。
更进一步地,为了进一步提高判断增补字是否有效的效率,所述字库更新装置还可以包括:删除模块;
判断模块72还用于,在判断模块72根据增补字的位图信息与字库中各字符的位图信息,判断字库是否包括增补字之前,根据增补字的位图信息,判断待添加到字库中的增补字中是否存在匹配度满足预设的阈值的至少两个增补字;
若待添加到字库中的增补字中存在匹配度满足预设的阈值的至少两个增补字,则待添加到字库中的增补字中存在至少两个相同增补字或至少两个相似增补字;
删除模块,用于在待添加到字库中的增补字中存在至少两个相同增补字时,删除所述至少两个相同增补字中的重复增补字中。
再进一步地,为了进一步提高增补字的位图信息与字库中各字符的位图信息的匹配度,提高判断增补字是否有效的准确度,增补字的类型与字库中各字符的类型保持一致,类型包括字面大小和字体风格。
本实施例中,通过根据增补字的位图信息与字库中各字符的位图信息,判断字库是否包括增补字,根据判断结果确定增补字是否为有效增补字,将有效增补字添加到字库中,减少了现有技术中根据增补字的字符结构信息人工在标准中进行查找的时间,提高了判断增补字是否有效的效率和准确度,减少了在字库中增加重复字符出现的可能性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。