CN106021204A - 多重复字字库的制作与使用 - Google Patents

多重复字字库的制作与使用 Download PDF

Info

Publication number
CN106021204A
CN106021204A CN201610403423.7A CN201610403423A CN106021204A CN 106021204 A CN106021204 A CN 106021204A CN 201610403423 A CN201610403423 A CN 201610403423A CN 106021204 A CN106021204 A CN 106021204A
Authority
CN
China
Prior art keywords
character
character library
ttf
library
word stock
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610403423.7A
Other languages
English (en)
Inventor
朱信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610403423.7A priority Critical patent/CN106021204A/zh
Publication of CN106021204A publication Critical patent/CN106021204A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

扫描古籍,将其字做成字库,再用该字库排印该古籍,是之谓“古籍字库级翻印”,可兼具影印的真实、免校和排印内容可编辑等优点于一身。但通用型字库的编码系统不能容纳同一字符因书法行气变化产生的多个样式(重复字),而保真的翻印古籍恰恰要求这个。本技术通过对这种字库自编码,以容纳多重复字;再根据该古籍的文本与自编码字库的编码顺序做一耦合文档,使自编码字库与古籍文本关联,以便编辑。采用GB18030‑2005《中文编码字符集》,可对161万字以内的古籍达成字库级翻印。

Description

多重复字字库的制作与使用
技术领域
本发明涉及在同一ttf(truetype简称ttf,包括otf,下同)字库中存储与调用多个重复字(同一字符图像,但各自艺术造型不同)的字库制作与使用方法,适用于中文书法性质古籍刻本的字库级翻印。
背景技术
用古籍扫描制作 ttf 字库,然后用字库翻印古籍的好处是: 1 ,字库制作是对古籍进行了字符级的矢量保真分割; 2 ,字库排印古籍,可用清晰字对讹、错、损等进行较高质量的修补,还方便增改现代句读、版式。传世古籍汗牛充栋,出版、印刷、保存质量多有不佳者,如皆影印传承,质量差强人意。尽管用古籍自身字符制成该古籍字库再翻印,似乎解决了这些问题,但同字符同模样地重复出现,违背古籍刻本的书法原貌,反不如影印传神。刻本本质是书法。书法不是活字。书法因行气需要,同一字符针对不同上下文其长、短、大、小、肥、瘦、粗、细、内宫位置、动态样式、字间距等都呼应有变化。现通用 ttf 必须在 N 多不同艺术造型中“一字一码”地选用一个,并以此单一字型适应各种上下文,再好,也与古籍原著书法风格不符。活字性质 ttf 与书法根基本区别: ttf 中同一字在任何上下文只能同一模样,无变化,而书法却要求根据上下文行气,变化字符造型应对。因此,活字从原理上不能再现书法。古人之所以不爱用活字出书,其“非书法性”是根本原因。现电子时代,用字库排印出版虽然质量、效益最佳,但一般的通用字库,即便用古籍自身字符制成该古籍的 ttf 翻印该古籍,也从根上破坏了中国传统书法的艺术效果。要想解决 ttf 的这个问题,必须将其改造为能存储和使用多个重复字。
当下要想为一种字体安排多个重复字,似乎只能用类似“汉语拼音字库”一种解决方案:同一字体, copy 5 个(音调)分库,需用哪个选哪个。若用此法表达书法,可能比一字一码稍好,但数量必然有限(很难想象为表现书法艺术而做 N 多分库),使用上也有诸多不便,制作时还会出现各字库间不易对行气、整体协调困难等问题。字库级翻印古籍要求 ttf 包含多个重复字并存储于同一字库。本技术通过对制作古籍 ttf 时对重复字的重新编码与对应文本中对应字符的“耦合改造”,变“一字一码”为“一型一码”,从而在兼容现有字符编辑软件工具的前提下,解决了上述矛盾。
多重复字字库制作与对应文本“耦合改造”技术实现过程: 1 ,准备好该古籍原文文本; 2 ,根据该文本字序(包括重复字)全部重新编码,给出新码位; 3 ,在新给码位上,按字序置放从该古籍图像上扫描生成的 ttf 字符图像; 4 ,同时修改该文本文档,令其中该字为对应的新码位字。例如“白云长长长长长长长消”,重新编码、将原著的该字符图像置入 ttf 以及对 txt 文本进行耦合改造后,该文本如用通普字库显示,为一串数量与原文字数相等但含义不可理解的字符。但在对该文档选用新编码字库后,不仅字符还原显现,且由于是原位置字符,虽是字库,亦呈现原著状态,达到古籍的字库级恢复。简单说,就是根据古籍顺序,重新安置所有字(包括重复字)。此法翻印古籍,原著中字符如不清楚或损泐,可根据上下文及书法行气状态,择其它合适者替代。
或许有人会担心这种字库不能表达长文本。 unicode 给汉字的编码位置,加上扩展 A ,只有 27484 个码位,照此,最长适用文本只能三万字,而古籍超过三万字的很多。可喜的是, 2005 年国家已颁行了超大字符集: GB18030-2005 《信息技术中文编码字符集》,其四字节字字符编码容量为 1611668 个码位。《三国》、《史记》等都只几十万字。再造善本或古籍整理目录中标注上千万字者,非一人所能为。长版刻本为多人协同,书法、刻字风格亦有协同。多重复字字库表现长版刻本,可取其一部分(譬如前几十万字)生成多重复字字库,适用到后边页面。超长文本中常用字必定超级重复。如能对超大量的重复字分类整理,合理缩减,不仅可容纳更长内容,制作与使用也会更便捷。
现在实际使用四字节字的只有中文。四字节字的编码方案是用双字节汉字中最后两个区扩编而成。按常理,重复字编码,在原双字节码后直接扩编最方便,但四字节字有特殊性,这种方法 unicode 不支持,排版工具也不支持。这正是采用 GB18030-2005 《信息技术中文编码字符集》编码的原因。使用国标 18030-2005 提供的这 1611668 个码位制成的“超大字符集字库” ttf ,为现有排版工具承认并兼容。
由于自定义编码,多重复字字库还能做到“一书一字库”。古籍刻本中常有一本书中多个字体者,很多都是楷书、行书、隶书并存。由于多重复字字库可容纳多个重复字,容纳多字体更不成问题。用多重复字字库后,可不再需要为同一古籍刻本中不同字体另做第二个字库,使用起来更方便,也更容易协调。多重复字字库还可将黑白墨线稿制为字库的一个“字符”,这对古籍刻本中插图的翻印,具有方便存储、编辑、使用、提高印刷质量、降低印刷成本等诸多好处。此外,由于对字库自定义编码和对文本耦合改造的目的是为古籍善本的字库级恢复,而非信息传播,因此多重复字库还可有效预防盗版。
多重复字字库是采用现代计算机技术,改造原本产生于西方拼音文字环境并只适应“横排右行”的 ttf 字库,令其适应中国传统书法文化的同时,还要适应现代桌面出版印刷系统。但要想达成用字库对中文古籍的准确表现,仅用多重复字字库技术还不够。因为即便达成了多重复字的存储与表现,现在所有文字编辑工具对“竖排左行”的支持,仅限于用对“横排右行”字库转竖排完成。这种安排本质是将适应横排右行的等高字符,一个落一个地“落”成一列,以此“兼容”竖排。其在 ttf 中表现为 em 方阵的纵向叠加。拼音字母高低一致,宽窄不一;可中文书法汉字却恰恰相反:宽窄一致,高低不一。由于 ttf em 方阵纵向固定,无法准确表现中文书法字符高低不一的样子,所有高低方向越界的字符图像都会被上限( WinAscent )和下限( WinDescent )截掉。所以,要想在编辑工具中达成对传统中文书法古籍“竖排左行”汉字高低变化的精确表达,多重复字字库技术须与《 CN201410745134- 中文竖排古籍、书法专用字库制作方法》结合使用,才能对书法古籍做到字库级完美翻印。
发明内容
在通用字库ttf(即TrueType,包括OpenType(otf),下同)中,通过对字符码位的自定义编码,即,为加入ttf的字符图像在unicode合理范围内,将同一字符的多个不同艺术样式(非异体字)存储在同一ttf中,制成“多重复字字库”。
制作和使用多重复字字库的关键是要对所表达(古籍)的字符图像和txt文本按照“含义顺序对应一致”原则:1,顺序读取一个txt文本中的字;2,取得对应的字符图像;3,重新给定码位并将图像置入ttf字库;4,对该txt文档进行“耦合改造”:令各重复字与新制ttf中与之对应编码字相一致;改造后的文本,对其适用对应的“多重复字字库”后,原含义字符图像不仅原序显示,且表现出在不同上下文同一字的不同变化造型,从而达到对中文古籍刻本的字库级再现;如用通用字库显示,则含义不明。
通过采用超大字符集GB18030-2005《信息技术中文编码字符集》,单个ttf字库可容纳1611668个字以内的古籍刻本原著且被通用文字编辑程序支持;如能对重复量超多的常用字进行样式分类整理,可容纳更长文本。
采用多重复字字库,可“一书一字库”;多重复字字库可容纳多个重复字,容纳多字体也不成问题,因此可不必再为同一古籍中不同字体另做字库。
还可将二值墨线画稿制作为字库的一个“字符”, 这对古籍刻本中有插图著作的翻印也有方便存储、编辑、使用、提高印刷质量、降低印刷成本等好处。

Claims (5)

1.在通用字库ttf(即TrueType,包括OpenType(otf),下同)中,通过对字符码位的自定义编码,即,为加入ttf的字符图像在unicode合理范围内,将同一字符的多个不同艺术样式(非异体字)存储在同一ttf中,制成“多重复字字库”。
2.制作和使用多重复字字库的关键是要对所表达(古籍)的字符图像和txt文本按照“含义顺序对应一致”原则:1,顺序读取一个txt文本中的字;2,取得对应的字符图像;3,重新给定码位并将图像置入ttf字库;4,对该txt文档进行“耦合改造”:令各重复字与新制ttf中与之对应编码字相一致;改造后的文本,对其适用对应的“多重复字字库”后,原含义字符图像不仅原序显示,且表现出在不同上下文同一字的不同变化造型,从而达到对中文古籍刻本的字库级再现;如用通用字库显示,则含义不明。
3.通过采用超大字符集GB18030-2005《信息技术中文编码字符集》,单个ttf字库可容纳1611668个字以内的古籍刻本原著且被通用文字编辑程序支持;如能对重复量超多的常用字进行样式分类整理,可容纳更长文本。
4.采用多重复字字库,可“一书一字库”;多重复字字库可容纳多个重复字,容纳多字体也不成问题,因此可不必再为同一古籍中不同字体另做字库。
5.还可将二值墨线画稿制作为字库的一个“字符”, 这对古籍刻本中有插图著作的翻印也有方便存储、编辑、使用、提高印刷质量、降低印刷成本等好处。
CN201610403423.7A 2016-06-12 2016-06-12 多重复字字库的制作与使用 Pending CN106021204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610403423.7A CN106021204A (zh) 2016-06-12 2016-06-12 多重复字字库的制作与使用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610403423.7A CN106021204A (zh) 2016-06-12 2016-06-12 多重复字字库的制作与使用

Publications (1)

Publication Number Publication Date
CN106021204A true CN106021204A (zh) 2016-10-12

Family

ID=57090027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610403423.7A Pending CN106021204A (zh) 2016-06-12 2016-06-12 多重复字字库的制作与使用

Country Status (1)

Country Link
CN (1) CN106021204A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704813A (zh) * 2019-10-19 2020-01-17 白杨 一种基于字符重新编码的文字防盗版系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1499357A (zh) * 2002-11-01 2004-05-26 ���Ծ 字词联体标注方法及其字模与字图
CN1673935A (zh) * 2005-02-01 2005-09-28 刘志祥 甲骨文电脑输入法
CN1818975A (zh) * 2006-03-06 2006-08-16 龚南 一种彩色动画字及其应用方法
CN101316339A (zh) * 2008-06-13 2008-12-03 深圳创维-Rgb电子有限公司 在同一字库中显示字符不同表现形式的方法
CN102662926A (zh) * 2012-03-29 2012-09-12 常州华文文字技术有限公司 字库的存储与访问方法
CN104424192A (zh) * 2013-08-20 2015-03-18 北大方正集团有限公司 形成多字型字库、通过该字库显示不同字型的方法及装置
CN104484314A (zh) * 2014-12-09 2015-04-01 朱信 中文竖排古籍、书法专用字库制作方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1499357A (zh) * 2002-11-01 2004-05-26 ���Ծ 字词联体标注方法及其字模与字图
CN1673935A (zh) * 2005-02-01 2005-09-28 刘志祥 甲骨文电脑输入法
CN1818975A (zh) * 2006-03-06 2006-08-16 龚南 一种彩色动画字及其应用方法
CN101316339A (zh) * 2008-06-13 2008-12-03 深圳创维-Rgb电子有限公司 在同一字库中显示字符不同表现形式的方法
CN102662926A (zh) * 2012-03-29 2012-09-12 常州华文文字技术有限公司 字库的存储与访问方法
CN104424192A (zh) * 2013-08-20 2015-03-18 北大方正集团有限公司 形成多字型字库、通过该字库显示不同字型的方法及装置
CN104484314A (zh) * 2014-12-09 2015-04-01 朱信 中文竖排古籍、书法专用字库制作方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘志基: "谈古文字信息化处理中"字"的处理问题", 《古籍整理研究学刊》 *
刘根辉等: "古文字字形整理与通用古文字字库开发研究", 《古汉语研究》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704813A (zh) * 2019-10-19 2020-01-17 白杨 一种基于字符重新编码的文字防盗版系统

Similar Documents

Publication Publication Date Title
Cheng Designing type
JPS6165290A (ja) ベクトル文字フオントの作成装置
Sinha A journey from Indian scripts processing to Indian language processing
Yang et al. Glyphcontrol: Glyph conditional control for visual text generation
Bagley et al. Creating reusable well-structured PDF as a sequence of component object graphic (COG) elements
CN106021204A (zh) 多重复字字库的制作与使用
CN103489268B (zh) 一种用于pos平台的阿拉伯语显示方法
Miller Devanagari's descendants in North and South India, Indonesia and the Philippines
CN104484314A (zh) 中文竖排古籍、书法专用字库制作方法
Rosmorduc Digital writing of hieroglyphic texts
JPS59104693A (ja) 文字縮小レイアウト表示方法
JP3509111B2 (ja) 文書出力方法および装置
Kiraz Forty Years of Syriac Computing
Ghosh et al. An approach to type design and text composition in Indian scripts
Perdana et al. Proposal to encode Kawi
JP7180076B2 (ja) 外字検索用プログラムおよび外字検索装置
Chatterjee Designing a New Digital Font for Modi-Script
CN102243621A (zh) 影像文本文件的活字排版方法
Ganesan Proposal to encode Grantha Chillu Marker sign in Unicode/ISO 10646
Büttner Nasḫī–an Efficient Tool for the OCR-Aided Transcription of Printed Texts
Ross Digital typeface design and font development for twenty-first century bangla language processing
Bunčić Proposal to include the letter ‘Old Polish O’
Nandasara From the past to the present: Evolution of computing in the sinhala language
Mandaic et al. Modern and Liturgical Scripts
Palmyrene et al. Result of voting

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161012