CN106021204A - 多重复字字库的制作与使用 - Google Patents
多重复字字库的制作与使用 Download PDFInfo
- Publication number
- CN106021204A CN106021204A CN201610403423.7A CN201610403423A CN106021204A CN 106021204 A CN106021204 A CN 106021204A CN 201610403423 A CN201610403423 A CN 201610403423A CN 106021204 A CN106021204 A CN 106021204A
- Authority
- CN
- China
- Prior art keywords
- character
- character library
- ttf
- library
- word stock
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
扫描古籍,将其字做成字库,再用该字库排印该古籍,是之谓“古籍字库级翻印”,可兼具影印的真实、免校和排印内容可编辑等优点于一身。但通用型字库的编码系统不能容纳同一字符因书法行气变化产生的多个样式(重复字),而保真的翻印古籍恰恰要求这个。本技术通过对这种字库自编码,以容纳多重复字;再根据该古籍的文本与自编码字库的编码顺序做一耦合文档,使自编码字库与古籍文本关联,以便编辑。采用GB18030‑2005《中文编码字符集》,可对161万字以内的古籍达成字库级翻印。
Description
技术领域
本发明涉及在同一ttf(truetype简称ttf,包括otf,下同)字库中存储与调用多个重复字(同一字符图像,但各自艺术造型不同)的字库制作与使用方法,适用于中文书法性质古籍刻本的字库级翻印。
背景技术
用古籍扫描制作
ttf
字库,然后用字库翻印古籍的好处是:
1
,字库制作是对古籍进行了字符级的矢量保真分割;
2
,字库排印古籍,可用清晰字对讹、错、损等进行较高质量的修补,还方便增改现代句读、版式。传世古籍汗牛充栋,出版、印刷、保存质量多有不佳者,如皆影印传承,质量差强人意。尽管用古籍自身字符制成该古籍字库再翻印,似乎解决了这些问题,但同字符同模样地重复出现,违背古籍刻本的书法原貌,反不如影印传神。刻本本质是书法。书法不是活字。书法因行气需要,同一字符针对不同上下文其长、短、大、小、肥、瘦、粗、细、内宫位置、动态样式、字间距等都呼应有变化。现通用
ttf
必须在
N
多不同艺术造型中“一字一码”地选用一个,并以此单一字型适应各种上下文,再好,也与古籍原著书法风格不符。活字性质
ttf
与书法根基本区别:
ttf
中同一字在任何上下文只能同一模样,无变化,而书法却要求根据上下文行气,变化字符造型应对。因此,活字从原理上不能再现书法。古人之所以不爱用活字出书,其“非书法性”是根本原因。现电子时代,用字库排印出版虽然质量、效益最佳,但一般的通用字库,即便用古籍自身字符制成该古籍的
ttf
翻印该古籍,也从根上破坏了中国传统书法的艺术效果。要想解决
ttf
的这个问题,必须将其改造为能存储和使用多个重复字。
当下要想为一种字体安排多个重复字,似乎只能用类似“汉语拼音字库”一种解决方案:同一字体,
copy
成
5
个(音调)分库,需用哪个选哪个。若用此法表达书法,可能比一字一码稍好,但数量必然有限(很难想象为表现书法艺术而做
N
多分库),使用上也有诸多不便,制作时还会出现各字库间不易对行气、整体协调困难等问题。字库级翻印古籍要求
ttf
包含多个重复字并存储于同一字库。本技术通过对制作古籍
ttf
时对重复字的重新编码与对应文本中对应字符的“耦合改造”,变“一字一码”为“一型一码”,从而在兼容现有字符编辑软件工具的前提下,解决了上述矛盾。
多重复字字库制作与对应文本“耦合改造”技术实现过程:
1
,准备好该古籍原文文本;
2
,根据该文本字序(包括重复字)全部重新编码,给出新码位;
3
,在新给码位上,按字序置放从该古籍图像上扫描生成的
ttf
字符图像;
4
,同时修改该文本文档,令其中该字为对应的新码位字。例如“白云长长长长长长长消”,重新编码、将原著的该字符图像置入
ttf
以及对
txt
文本进行耦合改造后,该文本如用通普字库显示,为一串数量与原文字数相等但含义不可理解的字符。但在对该文档选用新编码字库后,不仅字符还原显现,且由于是原位置字符,虽是字库,亦呈现原著状态,达到古籍的字库级恢复。简单说,就是根据古籍顺序,重新安置所有字(包括重复字)。此法翻印古籍,原著中字符如不清楚或损泐,可根据上下文及书法行气状态,择其它合适者替代。
或许有人会担心这种字库不能表达长文本。
unicode
给汉字的编码位置,加上扩展
A
,只有
27484
个码位,照此,最长适用文本只能三万字,而古籍超过三万字的很多。可喜的是,
2005
年国家已颁行了超大字符集:
GB18030-2005
《信息技术中文编码字符集》,其四字节字字符编码容量为
1611668
个码位。《三国》、《史记》等都只几十万字。再造善本或古籍整理目录中标注上千万字者,非一人所能为。长版刻本为多人协同,书法、刻字风格亦有协同。多重复字字库表现长版刻本,可取其一部分(譬如前几十万字)生成多重复字字库,适用到后边页面。超长文本中常用字必定超级重复。如能对超大量的重复字分类整理,合理缩减,不仅可容纳更长内容,制作与使用也会更便捷。
现在实际使用四字节字的只有中文。四字节字的编码方案是用双字节汉字中最后两个区扩编而成。按常理,重复字编码,在原双字节码后直接扩编最方便,但四字节字有特殊性,这种方法
unicode
不支持,排版工具也不支持。这正是采用
GB18030-2005
《信息技术中文编码字符集》编码的原因。使用国标
18030-2005
提供的这
1611668
个码位制成的“超大字符集字库”
ttf
,为现有排版工具承认并兼容。
由于自定义编码,多重复字字库还能做到“一书一字库”。古籍刻本中常有一本书中多个字体者,很多都是楷书、行书、隶书并存。由于多重复字字库可容纳多个重复字,容纳多字体更不成问题。用多重复字字库后,可不再需要为同一古籍刻本中不同字体另做第二个字库,使用起来更方便,也更容易协调。多重复字字库还可将黑白墨线稿制为字库的一个“字符”,这对古籍刻本中插图的翻印,具有方便存储、编辑、使用、提高印刷质量、降低印刷成本等诸多好处。此外,由于对字库自定义编码和对文本耦合改造的目的是为古籍善本的字库级恢复,而非信息传播,因此多重复字库还可有效预防盗版。
多重复字字库是采用现代计算机技术,改造原本产生于西方拼音文字环境并只适应“横排右行”的
ttf
字库,令其适应中国传统书法文化的同时,还要适应现代桌面出版印刷系统。但要想达成用字库对中文古籍的准确表现,仅用多重复字字库技术还不够。因为即便达成了多重复字的存储与表现,现在所有文字编辑工具对“竖排左行”的支持,仅限于用对“横排右行”字库转竖排完成。这种安排本质是将适应横排右行的等高字符,一个落一个地“落”成一列,以此“兼容”竖排。其在
ttf
中表现为
em
方阵的纵向叠加。拼音字母高低一致,宽窄不一;可中文书法汉字却恰恰相反:宽窄一致,高低不一。由于
ttf
中
em
方阵纵向固定,无法准确表现中文书法字符高低不一的样子,所有高低方向越界的字符图像都会被上限(
WinAscent
)和下限(
WinDescent
)截掉。所以,要想在编辑工具中达成对传统中文书法古籍“竖排左行”汉字高低变化的精确表达,多重复字字库技术须与《
CN201410745134-
中文竖排古籍、书法专用字库制作方法》结合使用,才能对书法古籍做到字库级完美翻印。
发明内容
在通用字库ttf(即TrueType,包括OpenType(otf),下同)中,通过对字符码位的自定义编码,即,为加入ttf的字符图像在unicode合理范围内,将同一字符的多个不同艺术样式(非异体字)存储在同一ttf中,制成“多重复字字库”。
制作和使用多重复字字库的关键是要对所表达(古籍)的字符图像和txt文本按照“含义顺序对应一致”原则:1,顺序读取一个txt文本中的字;2,取得对应的字符图像;3,重新给定码位并将图像置入ttf字库;4,对该txt文档进行“耦合改造”:令各重复字与新制ttf中与之对应编码字相一致;改造后的文本,对其适用对应的“多重复字字库”后,原含义字符图像不仅原序显示,且表现出在不同上下文同一字的不同变化造型,从而达到对中文古籍刻本的字库级再现;如用通用字库显示,则含义不明。
通过采用超大字符集GB18030-2005《信息技术中文编码字符集》,单个ttf字库可容纳1611668个字以内的古籍刻本原著且被通用文字编辑程序支持;如能对重复量超多的常用字进行样式分类整理,可容纳更长文本。
采用多重复字字库,可“一书一字库”;多重复字字库可容纳多个重复字,容纳多字体也不成问题,因此可不必再为同一古籍中不同字体另做字库。
还可将二值墨线画稿制作为字库的一个“字符”, 这对古籍刻本中有插图著作的翻印也有方便存储、编辑、使用、提高印刷质量、降低印刷成本等好处。
Claims (5)
1.在通用字库ttf(即TrueType,包括OpenType(otf),下同)中,通过对字符码位的自定义编码,即,为加入ttf的字符图像在unicode合理范围内,将同一字符的多个不同艺术样式(非异体字)存储在同一ttf中,制成“多重复字字库”。
2.制作和使用多重复字字库的关键是要对所表达(古籍)的字符图像和txt文本按照“含义顺序对应一致”原则:1,顺序读取一个txt文本中的字;2,取得对应的字符图像;3,重新给定码位并将图像置入ttf字库;4,对该txt文档进行“耦合改造”:令各重复字与新制ttf中与之对应编码字相一致;改造后的文本,对其适用对应的“多重复字字库”后,原含义字符图像不仅原序显示,且表现出在不同上下文同一字的不同变化造型,从而达到对中文古籍刻本的字库级再现;如用通用字库显示,则含义不明。
3.通过采用超大字符集GB18030-2005《信息技术中文编码字符集》,单个ttf字库可容纳1611668个字以内的古籍刻本原著且被通用文字编辑程序支持;如能对重复量超多的常用字进行样式分类整理,可容纳更长文本。
4.采用多重复字字库,可“一书一字库”;多重复字字库可容纳多个重复字,容纳多字体也不成问题,因此可不必再为同一古籍中不同字体另做字库。
5.还可将二值墨线画稿制作为字库的一个“字符”, 这对古籍刻本中有插图著作的翻印也有方便存储、编辑、使用、提高印刷质量、降低印刷成本等好处。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610403423.7A CN106021204A (zh) | 2016-06-12 | 2016-06-12 | 多重复字字库的制作与使用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610403423.7A CN106021204A (zh) | 2016-06-12 | 2016-06-12 | 多重复字字库的制作与使用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106021204A true CN106021204A (zh) | 2016-10-12 |
Family
ID=57090027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610403423.7A Pending CN106021204A (zh) | 2016-06-12 | 2016-06-12 | 多重复字字库的制作与使用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106021204A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704813A (zh) * | 2019-10-19 | 2020-01-17 | 白杨 | 一种基于字符重新编码的文字防盗版系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1499357A (zh) * | 2002-11-01 | 2004-05-26 | ���Ծ | 字词联体标注方法及其字模与字图 |
CN1673935A (zh) * | 2005-02-01 | 2005-09-28 | 刘志祥 | 甲骨文电脑输入法 |
CN1818975A (zh) * | 2006-03-06 | 2006-08-16 | 龚南 | 一种彩色动画字及其应用方法 |
CN101316339A (zh) * | 2008-06-13 | 2008-12-03 | 深圳创维-Rgb电子有限公司 | 在同一字库中显示字符不同表现形式的方法 |
CN102662926A (zh) * | 2012-03-29 | 2012-09-12 | 常州华文文字技术有限公司 | 字库的存储与访问方法 |
CN104424192A (zh) * | 2013-08-20 | 2015-03-18 | 北大方正集团有限公司 | 形成多字型字库、通过该字库显示不同字型的方法及装置 |
CN104484314A (zh) * | 2014-12-09 | 2015-04-01 | 朱信 | 中文竖排古籍、书法专用字库制作方法 |
-
2016
- 2016-06-12 CN CN201610403423.7A patent/CN106021204A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1499357A (zh) * | 2002-11-01 | 2004-05-26 | ���Ծ | 字词联体标注方法及其字模与字图 |
CN1673935A (zh) * | 2005-02-01 | 2005-09-28 | 刘志祥 | 甲骨文电脑输入法 |
CN1818975A (zh) * | 2006-03-06 | 2006-08-16 | 龚南 | 一种彩色动画字及其应用方法 |
CN101316339A (zh) * | 2008-06-13 | 2008-12-03 | 深圳创维-Rgb电子有限公司 | 在同一字库中显示字符不同表现形式的方法 |
CN102662926A (zh) * | 2012-03-29 | 2012-09-12 | 常州华文文字技术有限公司 | 字库的存储与访问方法 |
CN104424192A (zh) * | 2013-08-20 | 2015-03-18 | 北大方正集团有限公司 | 形成多字型字库、通过该字库显示不同字型的方法及装置 |
CN104484314A (zh) * | 2014-12-09 | 2015-04-01 | 朱信 | 中文竖排古籍、书法专用字库制作方法 |
Non-Patent Citations (2)
Title |
---|
刘志基: "谈古文字信息化处理中"字"的处理问题", 《古籍整理研究学刊》 * |
刘根辉等: "古文字字形整理与通用古文字字库开发研究", 《古汉语研究》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704813A (zh) * | 2019-10-19 | 2020-01-17 | 白杨 | 一种基于字符重新编码的文字防盗版系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng | Designing type | |
JPS6165290A (ja) | ベクトル文字フオントの作成装置 | |
Sinha | A journey from Indian scripts processing to Indian language processing | |
Yang et al. | Glyphcontrol: Glyph conditional control for visual text generation | |
Bagley et al. | Creating reusable well-structured PDF as a sequence of component object graphic (COG) elements | |
CN106021204A (zh) | 多重复字字库的制作与使用 | |
CN103489268B (zh) | 一种用于pos平台的阿拉伯语显示方法 | |
Miller | Devanagari's descendants in North and South India, Indonesia and the Philippines | |
CN104484314A (zh) | 中文竖排古籍、书法专用字库制作方法 | |
Rosmorduc | Digital writing of hieroglyphic texts | |
JPS59104693A (ja) | 文字縮小レイアウト表示方法 | |
JP3509111B2 (ja) | 文書出力方法および装置 | |
Kiraz | Forty Years of Syriac Computing | |
Ghosh et al. | An approach to type design and text composition in Indian scripts | |
Perdana et al. | Proposal to encode Kawi | |
JP7180076B2 (ja) | 外字検索用プログラムおよび外字検索装置 | |
Chatterjee | Designing a New Digital Font for Modi-Script | |
CN102243621A (zh) | 影像文本文件的活字排版方法 | |
Ganesan | Proposal to encode Grantha Chillu Marker sign in Unicode/ISO 10646 | |
Büttner | Nasḫī–an Efficient Tool for the OCR-Aided Transcription of Printed Texts | |
Ross | Digital typeface design and font development for twenty-first century bangla language processing | |
Bunčić | Proposal to include the letter ‘Old Polish O’ | |
Nandasara | From the past to the present: Evolution of computing in the sinhala language | |
Mandaic et al. | Modern and Liturgical Scripts | |
Palmyrene et al. | Result of voting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161012 |