CN105183844A - 一种基础地理信息数据中生僻字库实现方法 - Google Patents
一种基础地理信息数据中生僻字库实现方法 Download PDFInfo
- Publication number
- CN105183844A CN105183844A CN201510561412.7A CN201510561412A CN105183844A CN 105183844 A CN105183844 A CN 105183844A CN 201510561412 A CN201510561412 A CN 201510561412A CN 105183844 A CN105183844 A CN 105183844A
- Authority
- CN
- China
- Prior art keywords
- rarely used
- character library
- information data
- used word
- geographic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种基础地理信息数据中生僻字库实现方法,所述方法包括(1)收集覆盖全国生僻字;(2)采用一体式集成编码;(3)生僻字字符采用矢量化设计和构建;(4)进行字符录入。本发明的有益效果为:本发明字体库具有生僻字收录全面、矢量化字符设计、录入系统方便快捷等特点,可以有效提高我国各行业部门的地理信息数据生僻字查找和录入效率,对于提高地理信息数据生产效率、规范全国地名库、完善地理数据一体化制图等具有重大的积极作用;本发明针对生僻字的字形特点,对笔画检索的速度、准确度进行了极大优化,可以快速高效的检索录入所需的生僻字。
Description
技术领域
本发明属于测绘与地理信息行业数据生产领域,具体涉及一种基础地理信息数据中生僻字库实现方法。
背景技术
目前在我国基础地理信息的数字化生产中,由于全国各地在文化、民族、语言、习俗、发音等方面存在着巨大差异,造就了为数众多的涉及山川、河流、村庄等地名的生僻字。这些冷僻、不常用、不常见的生僻字,无法通过常规的字符输入方式录入为数字内容,当前主要通过拼音替代、数字编码等方式记录,存在着不能直观对应、编码无法统一等不足,难以满足信息准确表达和地理信息数据快速制图的需求,主要表现在:
1、字库内容不全,部分生僻字没有收录。由于生僻字数量众多,识别困难,且有部分字只有发音而无明确的字形构造。部分相关的公司、企事业单位对此进行过收集和整理,也形成了适用于特定范围内的生僻字库,但相对于基础地理信息数据中的生僻字实际使用情况来说,仍然存在着收集不足、字符重复甚至收录错误的情况,不能全面推广应用。
2、无法直观显示字符内容,造成识图和制图困难。基础地理信息数据中,除了图形表达的位置和相互关系,属性记录是极为重要的信息,尤其是地名、路名、河流名等属性,能够直观准确的表达地物的主题信息。在当前技术水平下,对于无法录入的生僻字,只能通过汉语拼音的方式进行替代,或者用A112、B325等编码替代生僻字,直接造成了读图困难和理解中断,无法准确明晰的传达地理信息。同样的,制图系统由于缺乏统一规范的生僻字库,在字形、字大等制图效果上也无法实现整体的协调统一,严重影响了地理信息数据的应用。
3、不同单位生产的数据中的生僻字不能协调统一。由于缺少统一的生僻字库和造字录入程序,造成各生产单位生产的数据中的生僻字编码方式,无法实现全国范围内的统一,严重阻碍的数据的共享和应用。主要表现在:1)生僻字编码不统一。由于缺乏协调规范,同一生僻字在不同的地区、不同生产单位生产的数据中的编码不一致,导致数据混乱和冗余。2)生僻字重复编码。由于笔画顺序、发音、手写偏差等因素,导致同一个生僻字对应着多个编码,造成编码的重复。3)部分非生僻字表示为生僻字。部分笔画较为繁琐、不常见的字,可以在常用字库中找到,由于数据录入员的认知差异而编码为生僻字。
发明内容
为了解决现有技术存在的上述问题,本发明提供了一种基础地理信息数据中生僻字库实现方法。适用于国家基础地理信息数据中与地名相关的冷僻、不常见汉字(简称生僻字)的采集和录入,主要涉及生僻字的造字、检索、录入、字库标准化等方面。
本发明所采用的技术方案为:
一种基础地理信息数据中生僻字库实现方法,其改进之处在于:所述方法包括
(1)收集覆盖全国生僻字;
(2)采用一体式集成编码;
(3)生僻字字符采用矢量化设计和构建;
(4)进行字符录入。
优选的,所述步骤(1)包括通过偏旁分类、笔画检索和拼音标注的方式收集覆盖全国的1:25万和1:5万基础地理信息数据中的所有生僻字,将生僻字存入字体库中。
优选的,所述步骤(2)包括在字体库中的基础上,按照增量累加的模式,统一为所有生僻字定义新的编码,形成生僻字字库。
优选的,所述步骤(3)包括生僻字字库中的汉字采用矢量化方式构建,字符的组成部分均包含了字形边界上的关键点和连线的导数信息,字体的渲染引擎通过读取这些数学矢量,进行数学运算来进行渲染。
优选的,将字体库中生僻字可根据显示或制图的要求自由选择字体,其包括宋体、仿宋体、黑体、中等线体、细等线体、正常体、扁体、长体、左斜、耸肩或其它多种字体。
优选的,所述步骤(4)包括进行字库中生僻字录入,采用生僻字库专用录入系统,所述系统包括笔画检索录入和笔数检索录入的方式,直接检索到生僻字并输入;
进行字库中生普通字符录入,采用常规录入即可。
进一步的,所述笔画检索录入按照书写顺序采用笔画4+1方式,即生僻字的前四笔画和末一笔画取码检索依据,不足五笔的加0;所述笔数检索根据生僻字的笔画总数,人工查找对应的字符。
优选的,对于生僻字字库中没有收录的字,则进行全面检索排查,确认为新生僻字的,采用步骤(3)进行矢量化方式构建字符,并收录至生僻字字库中。
本发明的有益效果为:
本发明字体库具有生僻字收录全面、矢量化字符设计、录入系统方便快捷等特点,可以有效提高我国各行业部门的地理信息数据生僻字查找和录入效率,对于提高地理信息数据生产效率、规范全国地名库、完善地理数据一体化制图等具有重大的积极作用。
对于发音基本难以确认的生僻字来说,笔画检索是方法最快、效率最高的检索方法。本发明针对生僻字的字形特点,对笔画检索的速度、准确度进行了极大优化,可以快速高效的检索录入所需的生僻字。
附图说明
图1是本发明提供的一种基础地理信息数据中生僻字库实现方法示意图。
具体实施方式
如图1所示,本发明提供了一种基础地理信息数据中生僻字库实现方法,可实现生僻字的快速、准确检索与录入,具体流程如下:
1)收集覆盖全国生僻字
首先安装包括字体库安装和检索录入系统安装。字体库安装:对于windows操作系统,将字体文件复制到Windows安装目录下的Fonts文件夹即可完成安装;对于其他操作系统,可参看相关的操作手册进行字体库安装。检索录入系统安装:安装相应的检索录入软件、配置系统、设置初始状态等;
统一收集覆盖全国的1:25万、1:5万基础地理信息数据中的所有生僻字,通过偏旁分类、笔画检索、拼音标注的方式,剔除部分重复字和非生僻字,集中收录了3000多个字符的生僻字。
2)采用一体式集成编码
在windows标准字体库的基础上,按照增量累加的模式,统一为所有生僻字定义新的编码,形成含有生僻字的通用字库,方便生僻字的显示、渲染、制图等各种表达方式。
3)生僻字字符采用矢量化设计和构建
为避免基于栅格结构的字符在放大和浏览时出现锯齿、失真等弊端,所有的生僻字字符采用矢量化设计和构建,可以无级缩放而不影响字符的整体美观和结构。如果字符基于栅格结构,在放大到一定程度时,会出现明显的边缘锯齿化,严重影响字符的显示和出图效果。本申请中的生僻字字库中的所有汉字均采用矢量化方式构建,字符的所有组成部分(点横竖撇捺折提弯钩等)均包含了字形边界上的关键点,连线的导数信息等,字体的渲染引擎通过读取这些数学矢量,然后进行一定的数学运算来进行渲染。矢量化字体实际尺寸可以任意缩放而不变形、变色,字形美观,放大后边缘无锯齿失真,可以充分满足地图制图、计算机渲染等各方面的应用需求;
本字库包含的生僻字字库,分别是宋体、仿宋体、黑体、中等线体、细等线体,以及正常体、扁体、长体、左斜、耸肩等多种字形,可根据显示或制图的要求自由选择。字体库中除了包含我国基础地理信息数据库中的所有生僻字外,还包括所有的常用字,可以方便的一体化显示。
4)快速便捷的进行字符录入
为方便本字库中生僻字的录入,本申请配有生僻字库专用录入系统,录入系统包括可采用笔画检索录入和笔数检索录入的方式,直接检索到生僻字并输入。笔画检索录入按照书写顺序采用“笔画4+1”方式,即生僻字的前四笔画加上最后一笔画作为检索依据,不足五笔的加0;笔画分为五种,分别是横(―)、竖(∣)、撇(丿)、点(丶)、折(乛);例如:(氵的第三笔)视为横(―),竖钩(例如扌的第二笔)视为竖(∣),带转折的笔画全部视为折(乛);
笔数检索录入根据生僻字的笔画总数,然后查找显示所有笔画数为指定值的生僻字,再人工选择查找对应的字符录入;
其中,生僻字补录环节包括:在实际使用过程中,对于新发现的生僻字库中没有收录的字,统一由全面检索排查,确认为新生僻字的,构造相应字体的矢量化字符,补充完善字体库后,并定期发布新的字库更新信息。
本发明不局限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。
Claims (8)
1.一种基础地理信息数据中生僻字库实现方法,其特征在于:所述方法包括
(1)收集覆盖全国生僻字;
(2)采用一体式集成编码;
(3)生僻字字符采用矢量化设计和构建;
(4)进行字符录入。
2.根据权利要求1所述的一种基础地理信息数据中生僻字库实现方法,其特征在于:所述步骤(1)包括通过偏旁分类、笔画检索和拼音标注的方式收集覆盖全国的1:25万和1:5万基础地理信息数据中的所有生僻字,将生僻字存入字体库中。
3.根据权利要求1所述的一种基础地理信息数据中生僻字库实现方法,其特征在于:所述步骤(2)包括在字体库中的基础上,按照增量累加的模式,统一为所有生僻字定义新的编码,形成生僻字字库。
4.根据权利要求1所述的一种基础地理信息数据中生僻字库实现方法,其特征在于:所述步骤(3)包括生僻字字库中的汉字采用矢量化方式构建,字符的组成部分均包含了字形边界上的关键点和连线的导数信息,字体的渲染引擎通过读取这些数学矢量,进行数学运算来进行渲染。
5.根据权利要求1所述的一种基础地理信息数据中生僻字库实现方法,其特征在于:将字体库中生僻字可根据显示或制图的要求自由选择字体,其包括宋体、仿宋体、黑体、中等线体、细等线体、正常体、扁体、长体、左斜、耸肩或其它多种字体。
6.根据权利要求1所述的一种基础地理信息数据中生僻字库实现方法,其特征在于:所述步骤(4)包括进行字库中生僻字录入,采用生僻字库专用录入系统,所述系统包括笔画检索录入和笔数检索录入的方式,直接检索到生僻字并输入;
进行字库中生普通字符录入,采用常规录入即可。
7.根据权利要求6所述的一种基础地理信息数据中生僻字库实现方法,其特征在于:所述笔画检索录入按照书写顺序采用笔画4+1方式,即生僻字的前四笔画和末一笔画取码检索依据,不足五笔的加0;所述笔数检索根据生僻字的笔画总数,人工查找对应的字符。
8.根据权利要求1所述的一种基础地理信息数据中生僻字库实现方法,其特征在于:对于生僻字字库中没有收录的字,则进行全面检索排查,确认为新生僻字的,采用步骤(3)进行矢量化方式构建字符,并收录至生僻字字库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510561412.7A CN105183844A (zh) | 2015-09-06 | 2015-09-06 | 一种基础地理信息数据中生僻字库实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510561412.7A CN105183844A (zh) | 2015-09-06 | 2015-09-06 | 一种基础地理信息数据中生僻字库实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105183844A true CN105183844A (zh) | 2015-12-23 |
Family
ID=54905925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510561412.7A Pending CN105183844A (zh) | 2015-09-06 | 2015-09-06 | 一种基础地理信息数据中生僻字库实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105183844A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975445A (zh) * | 2016-04-12 | 2016-09-28 | 简德亮 | 一种用于工程利用电脑批量随机手写方法 |
CN111611798A (zh) * | 2017-01-22 | 2020-09-01 | 创新先进技术有限公司 | 一种词向量处理方法及装置 |
CN112861487A (zh) * | 2020-11-30 | 2021-05-28 | 新绎健康科技有限公司 | 一种用于对汉字五音进行标注的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050063412A1 (en) * | 2003-09-19 | 2005-03-24 | Adnan Osmani | Data communication facilitating |
CN101122905A (zh) * | 2006-08-08 | 2008-02-13 | 王宏源 | 一种支持四字节的典籍数据库与历史地理信息系统关联的方法 |
CN101315279A (zh) * | 2008-06-11 | 2008-12-03 | 凯立德欣技术(深圳)有限公司 | 一种信息点检索的方法、信息点检索装置及导航系统 |
CN103425257A (zh) * | 2012-05-24 | 2013-12-04 | 北京搜狗科技发展有限公司 | 一种生僻字符信息的提示方法和装置 |
-
2015
- 2015-09-06 CN CN201510561412.7A patent/CN105183844A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050063412A1 (en) * | 2003-09-19 | 2005-03-24 | Adnan Osmani | Data communication facilitating |
CN101122905A (zh) * | 2006-08-08 | 2008-02-13 | 王宏源 | 一种支持四字节的典籍数据库与历史地理信息系统关联的方法 |
CN101315279A (zh) * | 2008-06-11 | 2008-12-03 | 凯立德欣技术(深圳)有限公司 | 一种信息点检索的方法、信息点检索装置及导航系统 |
CN103425257A (zh) * | 2012-05-24 | 2013-12-04 | 北京搜狗科技发展有限公司 | 一种生僻字符信息的提示方法和装置 |
Non-Patent Citations (2)
Title |
---|
赵自力: ""GIS管理信息发布系统开发及关键技术研究"", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
阚映红: ""地图数据库建立和应用过程中生僻汉字的处理"", 《测绘学院学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975445A (zh) * | 2016-04-12 | 2016-09-28 | 简德亮 | 一种用于工程利用电脑批量随机手写方法 |
CN111611798A (zh) * | 2017-01-22 | 2020-09-01 | 创新先进技术有限公司 | 一种词向量处理方法及装置 |
CN111611798B (zh) * | 2017-01-22 | 2023-05-16 | 创新先进技术有限公司 | 一种词向量处理方法及装置 |
CN112861487A (zh) * | 2020-11-30 | 2021-05-28 | 新绎健康科技有限公司 | 一种用于对汉字五音进行标注的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103150398B (zh) | 一种基于国家基础地理信息数据的增量式地图更新方法 | |
CN109446221B (zh) | 一种基于语义分析的交互式数据探查方法 | |
CN100388283C (zh) | 毛笔书法字检索方法 | |
CN102314647A (zh) | 一种利用xbrl进行的企业数据存储的方法 | |
CN105183844A (zh) | 一种基础地理信息数据中生僻字库实现方法 | |
CN107463571A (zh) | 网页消重方法 | |
WO2017193472A1 (zh) | 一种东巴经典古籍数字化释读库的建立方法 | |
CN103246753A (zh) | 一种根据数据库结构生成实体元数据模型的方法 | |
Westra | Python Geospatial Analysis Essentials | |
US8943431B2 (en) | Text operations in a bitmap-based document | |
CN100451926C (zh) | 基于笔画和汉字基本部件的汉字输入法 | |
CN111291547B (zh) | 模板生成方法、装置、设备及介质 | |
CN109086285B (zh) | 基于语素的汉语智能处理方法和系统及装置 | |
Lindgren et al. | GIS for writing: Applying geographical information systems techniques to data mine writings’ cognitive processes | |
Hovy et al. | Data Acquisition and Integration in the DGRC's Energy Data Collection Project | |
CN1786956A (zh) | 搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法 | |
CN109918367B (zh) | 一种结构化数据的清洗方法、装置、电子设备及存储介质 | |
CN112650754A (zh) | 一种关系型数据库的数据全量导入Hive的方法 | |
CN103092846A (zh) | 基于拼音首字母的商品检索方法的实现 | |
CN102722261B (zh) | 一种错字字形编辑、编码和输入系统及方法 | |
CN111325235A (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 | |
Peebles | Scml: A structural representation for Chinese characters | |
CN110909114B (zh) | 一种非结构化航海书表与电子海图的关联方法 | |
Arnold | Buddhist stone scriptures from Shandong, China | |
Yin et al. | Rapid Extraction of Research Areas from Scientific and Technological Literature. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151223 |
|
RJ01 | Rejection of invention patent application after publication |