JP2014013523A

JP2014013523A - 文書ファイル作成方法およびシステム

Info

Publication number: JP2014013523A
Application number: JP2012151062A
Authority: JP
Inventors: So Sekiguchi; 創関口
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2012-07-05
Filing date: 2012-07-05
Publication date: 2014-01-23

Abstract

【課題】文書ファイルのファイルサイズを削減することが可能な文書ファイル作成方法およびシステムを提供する。
【解決手段】特定コードデータをユニコードデータに変換し、ユニコードデータのフォントを指定する編集を行いユニコード編集済データを生成し、ユニコード編集済データにおいて使用されている文字のコードとフォントの組合せをその組合せが重複しないように抽出して全文字データを生成し、全文字データとして抽出された文字を、パーソナルコンピュータが保有するフォントデータによって処理可能な文字と、それ以外の文字とに分別し、それ以外の文字に対してはフォントの埋め込みを行う文字として設定し、その設定にしたがってユニコード編集済データを所定文書形式に変換し、文書ファイルを得る文書ファイル作成方法およびその方法を適用したシステム。
【選択図】図１

Description

本発明は文書ファイルを作成する技術分野に属する。特に、メインフレーム（汎用コンピュータ）において使用される文字コードの体系で記述された原稿データ（元データ）を編集し、パーソナルコンピュータにおいて閲覧可能な文書ファイルを作成する際に、その文書ファイルのファイルサイズを削減することが可能な文書ファイル作成方法およびシステムに関する。

企業の基幹業務システムなどに用いられる大型のコンピュータシステムであるメインフレームにおいて使用される文字コードの体系は、そのメインフレームのメーカー（たとえば、ＩＢＭ、富士通、日立、ＮＥＣ）によって独自のものとなっている。すなわち、パーソナルコンピュータにおいて使用される文字コードの体系と相違するものである。日本語文字フォントについても同様であって、メインフレームとパーソナルコンピュータにおいては、フォント（たとえば、明朝体）が同一または類似していても完全に字形（グリフイメージ）が一致するものではない。特に、特定の文字集合（たとえば、ＪＩＳ規格の文字）に含まれない文字である外字においては字形が一致しないだけでなく、対応する外字が存在しないこともある。

そのメインフレームで作成された原稿データに基づいて文書ファイルを作成した際に、すべての日本語文字フォントについて、用紙へ印刷したときの印刷イメージと、ディスプレイで閲覧したときの表示イメージとを一致させたいことがある。たとえば、銀行での月間取引報告書はダイレクトメールによって顧客に郵送されるが、その郵送とともに、ウェブにおいて閲覧可能な情報として提供し、パーソナルコンピュータにおいてそれをダウンロードすることによって、顧客に閲覧可能とするシステムにおいては、印刷イメージと表示イメージとを一致させることが適当である。また、顧客への電話対応業務を専門に行うコールセンターにおいて、オペレータが送付した印刷物を確認するために、文書ファイルを閲覧するシステムにおいては、郵送した印刷物と同一イメージの閲覧を行えること、たとえば外字を含む氏名を正しい漢字表記で確認できるようにすることが適当である。

用紙へ印刷したときの印刷イメージと、ディスプレイで閲覧したときの表示イメージとを一致させる方法として、文書ファイルにおいて使用される日本語文字フォントの全部を文書ファイルに対して埋め込むデータ処理を行った文書ファイルを作成する方法がある（たとえば、ＰＤＦ文書ファイルに埋め込む）。このようなデータ処理を行った文書ファイルにおいては、パーソナルコンピュータのディスプレイで表示再現したとき、あるいはそのプリンタで印刷再現したときに、文字化けを起こすことは皆無である。すなわち、銀行の顧客やコールセンターのオペレータは、郵送されている印刷物の印刷イメージと同一のイメージをパーソナルコンピュータを使用して視認することができる。

その一方で、メインフレームにおいて使用する日本語文字フォント（明朝体、ゴシック体、等）は複数存在し、文書ファイルにおいて使用される日本語文字フォントの全部を文書ファイルに対して埋め込むため、文書ファイルのファイルサイズが大きなものとなることが避けられない。そのため、文書ファイルを保存するハードディスクの容量が逼迫する、文書ファイルの閲覧、複写、その他のデータ処理に時間が掛かるという問題が生じることとなる。
そこで、日本語文字フォントを文書ファイルに埋め込む際に、必要最小限の日本語文字フォントを埋め込むことによって文書ファイルのファイルサイズを抑制する発明が公知である（特許文献１）。

特開２００６−１７８６２２

しかしながら、この特許文献１において開示されている技術は、プリンタドライバーを用いた印刷制御方法および処理方法に関する技術であり、そのままでは、一般的な文書ファイルの編集作業に適用することができないという問題がある。

本発明は上記の問題を解決するために成されたものである。その目的は、メインフレーム（汎用コンピュータ）、等において使用される文字コードの体系で記述された原稿データを編集し、パーソナルコンピュータにおいて閲覧可能な文書ファイルを作成する際に、その文書ファイルのファイルサイズを削減することが可能な文書ファイル作成方法およびシステムを提供することにある。

本発明の請求項１に係る文書ファイル作成方法は、特定コードとユニコードとの対応関係を記述するコード変換テーブルを使用して、特定コードで記述されたテキストデータである特定コードデータから、ユニコードで記述されたテキストデータであるユニコードデータを生成するユニコード変換過程と、前記ユニコードデータに対してすくなくともフォントを指定する編集を行いユニコード編集済データを生成する編集過程と、前記ユニコード編集済データにおいて使用されている文字のコードとフォントの組合せをその組合せが重複しないように抽出して全文字データを生成する全文字データ生成過程と、前記全文字データとして抽出された文字を、パーソナルコンピュータが保有するフォントデータによって処理可能な第１群フォントに含まれている文字と、拡張文字である第２群フォントに含まれている文字と、外字である第３群フォントに含まれている文字と、に分別する文字分別過程と、前記第２群フォントに含まれている文字と前記第３群フォントに含まれている文字に対してはフォントの埋め込みを行う文字として設定する埋込文字設定過程と、前記埋込文字設定過程における設定にしたがって前記ユニコード編集済データを所定文書形式に変換し文書ファイルを得る文書形式変換過程と、を有するようにしたものである。
本発明の請求項２に係る文書ファイル作成方法は、請求項１に係る文書ファイル作成方法において、前記文字分別過程は、前記第１群フォント、第２群フォント、第３群フォントのいずれにもに含まれない文字を第４群フォントに含まれている文字とする過程であって、前記第４群フォントに含まれている文字に対しては所定コードの文字に置換する設定を行う置換文字設定過程を有し、前記文書形式変換過程は、前記埋込文字設定過程と前記置換文字設定過程における設定にしたがって前記ユニコード編集済データを前記所定文書形式に変換し文書ファイルを得るようにしたものである。
本発明の請求項３に係る文書ファイル作成方法は、請求項１または２に係る文書ファイル作成方法において、前記特定コードはメインフレーム（汎用コンピュータ）において使用されている文字コードの体系のコードであるようにしたものである。
本発明の請求項４に係る文書ファイル作成方法は、請求項１〜３のいずれかに係る文書ファイル作成方法において、前記所定文書形式はＰＤＦであり、前記文書ファイルはＰＤＦファイルであるようにしたものである。
本発明の請求項５に係る文書ファイル作成方法は、請求項２に係る文書ファイル作成方法において、前記所定コードは「スペース」のコードであるようにしたものである。
本発明の請求項６に係る文書ファイル作成方法は、請求項１〜５のいずれかに係る文書ファイル作成方法において、前記第１群フォントはＳＪＩＳ（Shift JIS）コードのフォントであるようにしたものである。
本発明の請求項７に係る文書ファイル作成方法は、請求項１〜６のいずれかに係る文書ファイル作成方法において、前記第２群フォントと前記第３群フォントのコードはユニコードにおける私用領域（Private Use Area）であるＥ０００〜Ｆ８ＦＦのコードであるようにしたものである。
本発明の請求項８に係る文書ファイル作成システムは、特定コードとユニコードとの対応関係を記述するコード変換テーブルを使用して、特定コードで記述されたテキストデータである特定コードデータから、ユニコードで記述されたテキストデータであるユニコードデータを生成するユニコード変換手段と、前記ユニコードデータに対してすくなくともフォントを指定する編集を行いユニコード編集済データを生成する編集手段と、前記ユニコード編集済データにおいて使用されている文字のコードとフォントの組合せをその組合せが重複しないように抽出して全文字データを生成する全文字データ生成手段と、前記全文字データとして抽出された文字を、パーソナルコンピュータが保有するフォントデータによって処理可能な第１群フォントに含まれている文字と、拡張文字である第２群フォントに含まれている文字と、外字である第３群フォントに含まれている文字と、に分別する文字分別手段と、前記第２群フォントに含まれている文字と前記第３群フォントに含まれている文字に対してはフォントの埋め込みを行う文字として設定する埋込文字設定手段と、前記埋込文字設定手段における設定にしたがって前記ユニコード編集済データを所定文書形式に変換し文書ファイルを得る文書形式変換手段と、を有するようにしたものである。

本発明によれば、メインフレーム（汎用コンピュータ）、等において使用される文字コードの体系で記述された原稿データを編集し、パーソナルコンピュータにおいて閲覧可能な文書ファイルを作成する際に、その文書ファイルのファイルサイズを削減することが可能な文書ファイル作成方法およびシステムが提供される。

本発明の文書ファイル作成方法およびシステムにおける文字の分別と処理についての概要を示す説明図である。本発明の文書ファイル作成方法およびシステムにおける処理の過程の概要を示す説明図である。本発明の文書ファイル作成方法およびシステムにおける構成の一例を示すブロック図である。本発明の文書ファイル作成方法およびシステムにおける処理の過程の一例を示すフロー図である。ホストコードと、そのコードに対応する字形の一例を示す図である。

次に、本発明の実施の形態について図を参照しながら説明する。本発明の文書ファイル作成方法およびシステムにおける文字の分別と処理についての概要を説明図として図１に示す。図１（Ａ）は、メインフレーム（汎用コンピュータ）で使用されるホストコードで特定される文字に関して、パーソナルコンピュータ（ＰＣ）にフォントの字形が存在する文字と、フォントの字形が存在しない文字とに分別することの説明図である。また、図１（Ｂ）は、ホストコードをユニコード（UNICODE）に変換すること、パーソナルコンピュータ（ＰＣ）にフォントの字形が存在しない文字に関して、ユニコードのフォントの字形を作成することを示した説明図である。ここで、字形（グリフイメージ）とは、文字の形状そのものである。
図１（Ａ）に示すように、たとえば、ホストコードで「Ａ３Ｂ１」の字体は「１」、「Ａ３Ｃ１」の字体は「Ａ」、「Ａ４Ａ２」の字体は「あ」、「Ａ５Ａ２」の字体は「ア」、「Ｂ０Ａ１」の字体は「亜」である。これらのホストコードで特定される字体は、ＳＪＩＳ（Shift JIS）コードにおいてはコードが相違するものの、存在する字体である。ＳＪＩＳコードに存在するのであるから、当然、ユニコードにおいてもコードが相違するものの、存在する字体である。ここで、字体（グリフ）とは、文字の形状についての抽象的概念である。
なお、一般的な（たとえば、日本語のＯＳ（Operating System）を有する）パーソナルコンピュータ（ＰＣ）においては、文字のフォントが、一般的な書体である明朝体、ゴシック体、等であれば、そのフォントデータ（書体デザインの同じ字形の一揃いのデータ）を必ず有している。すなわち、ホストコードの文字のフォントが、一般的な明朝体、ゴシック体、等であれば、そのフォントの字形も、存在する字形である。したがって、上記の一例で示したような、メインフレームに存在する字形は、一般的なフォントである限り、パーソナルコンピュータにおいても存在する字形である。

一方、ホストコードで「４１Ａ１」の字体は「鳬」である。このホストコードで特定される文字は、ＳＪＩＳコードにおいては存在しない字体である。また、ホストコードで「４１Ａ１」の字体は「監」である。このホストコードで特定される文字は、ＳＪＩＳコードにおいては存在しない字体である。
なお、「鳬」と「監」は、ここでの文字表現を可能とするために置き換えた文字（類似字形の文字）である。ホストコードで「４１Ａ１」とホストコードで「４１Ａ１」の文字について、実際の字形の一例を図５に示す。
このように、ＳＪＩＳコードにおいては存在しない字体については、一般的なパーソナルコンピュータにおいては、そのフォントデータを有していない。したっがって、上記の一例で示したような、メインフレームに存在する字形は、パーソナルコンピュータにおいては存在しない字形である。
メインフレームに存在し、パーソナルコンピュータにおいては存在しない字体については、ユニコードに登録をしておく。ユニコードにおいてＥ０００〜Ｆ８ＦＦのコードは私用領域（Private Use Area）のコードである。図１（Ａ）に示すように、ユニコードで「Ｅ４００」の字体は「鳬」であり、その字体は私用領域に存在している。また、ユニコードで「Ｆ３００」の字体は「監」であり、その字体は私用領域に存在している。この私用領域に存在する字体としては、ホストコードの体系における拡張文字と、ホストコードの体系には存在せず利用者が追加する字体すなわち外字が含まれている。

その結果、ホストコードに存在する字体のすべてをユニコードに存在する字体とすることができる。したがって、図１（Ｂ）の（１）に示すように、ホストコードをユニコードに変換するコード変換テーブルを作成することができる。
さらに、図１（Ｂ）の（２）、（３）に示すように、その字体のフォントデータを作成することにより、ホストコードに存在する字体のすべてをユニコードに存在する字形とすることができる。
なお、メインフレームに存在し、パーソナルコンピュータにおいては存在しない字体の内で、外字は、ユニコードの私用領域における外字領域として区別した領域のコードを割り当ててフォントを登録しておく。このように登録を行うことにより、外字の登録情況についての全体像の把握、外字の追加、変更、等を容易に行うことができる。

以上を総括すると、ホストコードにおいて存在する文字は、一般的なパーソナルコンピュータにおいては、字体と字形において存在する文字と存在しない文字に分類することができる。一般的なパーソナルコンピュータにおいて存在する文字は、当然、ユニコードにおいても存在する文字である。ここでは、この文字を第１群の文字と呼び、そのフォントデータを第１群のフォントデータ（または第１群フォント）と呼ぶ。また、一般的なパーソナルコンピュータにおいて存在しない文字は、拡張コードの文字または外字コードの文字である。拡張コードの文字を第２群の文字と呼び、そのフォントデータを第２群のフォントデータ（または第２群フォント）と呼び、外字コードの文字を第３群の文字と呼び、そのフォントデータを第３群のフォントデータ（または第３群フォント）と呼ぶ。

本発明の文書ファイル作成方法およびシステムにおける処理の過程を説明図として図２に示す。図２（Ａ）は原稿データ（元データ）の入力から文書ファイルの作成までの処理過程を示し、図２（Ｂ）は第１群フォント〜第３群フォントに属する個々の文字に対する文書ファイルへの処理（埋込設定をするか否かの処理）を示す。
図２（Ａ）に示すように、まず、「テキスト入力」において、文書ファイル作成システムは、作成する文書ファイルの原稿データであるテキスト形式のデータ（テキスト）すなわちホストコードデータを入力する。
次に、「コード変換テーブル」において、文書ファイル作成システムは、同一文字（字体）に対するホストコードとユニコードを対比させ、ホストコードとユニコードの対応関係を記述するコード変換テーブルを参照し、ホストコードデータをユニコードで記述されているデータすなわちユニコードデータに変換する。

ユニコードデータはテキスト形式のデータのままである。ここで、テキスト形式のデータとは、字体のコードを羅列したデータであって、文字の書体（フォント）、色、寸法、配置、等の指定はされていない。一般的に文書においては、文字の書体、色、寸法、等を指定し、さらにその指定した文字をページの所望の位置に配置し、必要ならば、他のオブジェクト（ロゴ、イラスト、イメージ）もページの所望の位置に配置する、等によってその文書が作成されるものである。すなわち、ユニコードデータを含むオブジェクトを編集（レイアウト）することによって文書が作成される。図２においては、その編集の工程は示されていないが、実際にはそのような工程がフォント埋込工程の前に存在する。その工程の内容（編集内容）は、本発明とは直接関係ないが、フォントの埋め込みを行うときには、すくなくとも、ユニコードデータにおいて使用されている文字に適用するフォントが指定されている必要性がある。ユニコードデータに対してすくなくともフォントを指定したデータをユニコード編集済データとする。ここで、書体（フォント）とは、似た特徴を有する字形（グリフイメージ）の集合のことである。また、フォントの埋め込みとは、そのフォントの特徴を有する文字の字形（グリフイメージ）を、それを特定するＩＤ（グリフＩＤ）と紐付けし、その紐付けしたデータ（字形とＩＤの組合わせ）を文書ファイルが有するようにし、文書ファイルの印刷、表示においてそのデータを利用できるようにすることである。

次に、「フォント埋込設定工程」において、文書ファイル作成システムは、ユニコード編集済データにおいて使用されている文字の内で、フォントの埋め込みを必要とする文字に対して、文書ファイルへ埋め込むための設定（埋込設定）を行う。

文書ファイル作成システムは、ユニコード編集済データにおいて使用されている文字について、前述した第１群フォント（一般的なパーソナルコンピュータにおいて存在する文字）、第２群フォント（拡張コードの文字）、第３群フォント（外字コードの文字）のいずれに属しているかを区別する。ユニコード編集済データの文字のコードは重複しないように抽出する。また、一つの文書において、複数の書体を使い分けて用いることは普通に行われているから、ユニコード編集済データの文字のコードが同一であってもフォント（書体）が相違するときには、フォントを区別する。たとえば、コードが同一であっても明朝体であれば、明朝体第１群フォント、明朝体第２群フォント、明朝体第３群フォントのいずれに属しているかを区別し、コードが同一であってもゴシック体であれば、ゴシック体第１群フォント、ゴシック体第２群フォント、ゴシック体第３群フォントのいずれに属しているかを区別する。このように、ユニコード編集済データにおいて使用されている文字のコードとフォントの組合せをその組合せが重複しないように抽出する。その抽出したデータのこと全文字データと呼ぶ。文書ファイル作成システムは、その全文字データに含まれている文字について、いずれの群に属しているかを区別する。
そして、文書ファイル作成システムは、第２群フォントと第３群フォントに区分された文字（字形）に対しては、明朝体であれば明朝体の字形（グリフイメージ）を、ゴシック体であればゴシック体の字形（グリフイメージ）を文書ファイルへ埋め込むための設定（埋込設定）を行う。

次に、「ＰＤＦ生成」において、文書ファイル作成システムは、前述した埋込設定にしたがったフォントの埋め込みを行って、ユニコード編集済データから文書ファイルを、ここでは一例としてＰＤＦファイルとして生成する。

図２（Ｂ）に示すように、文書ファイル作成システムは、ホストコードデータとして「１あ鳬監」を入力する。ホストコードデータはテキスト形式のデータであるからホストコードの羅列である。したがって、実際のホストコードデータは「Ａ３Ｂ１Ａ４Ａ２４１Ａ１８０Ａ１」となっている。文書ファイル作成システムは、コード変換テーブルを参照し、文字「１」のホストコード「Ａ３Ｂ１」をユニコード「ＦＦ１１」に、文字「あ」のホストコード「Ａ４Ａ２」をユニコード「３０４２」に、文字「鳬」のホストコード「４１Ａ１」をユニコード「Ｅ４００」に、文字「監」のホストコード「８０Ａ１」をユニコード「Ｆ３００」に変換する。すなわち、ホストコードデータは変換されてユニコードデータ「ＦＦ１１３０４２Ｅ４００Ｆ３００」となる。
文書ファイル作成システムは、ユニコードデータ「ＦＦ１１３０４２Ｅ４００Ｆ３００」に対して、たとえば、フォントとしてゴシック体を指定し、ユニコード編集済データを生成する。さらに、そのユニコード編集済データにおいて使用されている文字のコードとフォントの組合せをその組合せが重複しないように抽出する。抽出したデータを全文字データと呼ぶことにすると、全文字データはコードがユニコードが「ＦＦ１１３０４２Ｅ４００Ｆ３００」の文字によって構成される。

文書ファイル作成システムは、全文字データのユニコード「ＦＦ１１」について第３群フォントにそのコードのフォントは存在しないと判定する（第１処理）。続いて、第２群フォントにそのコードのフォントは存在しないと判定する（第２処理）。続いて、第１群フォントにそのコードのフォントは存在すると判定し、そこで、文書ファイル作成システムは、ユニコード「ＦＦ１１」について埋込の設定を行わない（第３処理）。
また、文書ファイル作成システムは、全文字データのユニコード「３０４２」について第３群フォントにそのコードのフォントは存在しないと判定する（第１処理）。続いて、第２群フォントにそのコードのフォントは存在しないと判定する（第２処理）。続いて、第１群フォントにそのコードのフォントは存在すると判定し、そこで、文書ファイル作成システムは、ユニコード「３０４２」について埋込の設定を行わない（第３処理）。

また、文書ファイル作成システムは、全文字データのユニコード「Ｅ４００」について第３群フォントにそのコードのフォントは存在しないと判定する（第１処理）。続いて、第２群フォントにそのコードのフォントは存在すると判定し、そこで、文書ファイル作成システムは、ユニコード「Ｅ４００」について埋込の設定を行う（第２処理）。そして、埋込の設定が済んでいるから、文書ファイル作成システムは第３処理を行わない。
また、文書ファイル作成システムは、全文字データのユニコード「Ｆ３００」について第３群フォントにそのコードのフォントは存在すると判定し、そこで、文書ファイル作成システムは、ユニコード「Ｆ３００」について埋込の設定を行う（第１処理）。そして、埋込の設定が済んでいるから、文書ファイル作成システムは第２処理と第３処理を行わない。

図２（Ｂ）に示す処理の過程すなわち、第１処理、第２処理、第３処理の過程は、全文字データにおいて使用されている文字のコードとフォントの組合せをその組合せが重複しないように抽出し、第１群フォント、第２群フォント、第３群フォントの内のいずれの群に属しているかを区別し、埋込処理を行う過程を実施する形態の一例である。

以上、構成と動作について基本的な内容の説明を行った。以下、本発明の文書ファイル作成方法およびシステムにおける構成と動作について具体的で詳細な内容の説明を行う。文書作成システムはコンピュータシステムのハードウェアとソフトウェアとによって実現することができる。本発明の文書ファイル作成システムにおける構成の一例ブロック図として図３に示す。図３において、文書作成システムは記憶部１００と処理部２００を有する。記憶部１００において、１０１はコード変換テーブル、１０２は特定コードデータ、１０３はユニコードデータ、１０４ユニコード編集済データ、１０５は全文字データ、１０６は埋込文字設定データ、１０７は置換文字設定データ、１０８は第１群フォント、１０９は第２群フォント、１１０は第３群フォント、１１１は第４群フォント、１１２は文書ファイルである。また、処理部２００において、２０１はユニコード変換手段、２０２は編集手段、２０３は全文字データ生成手段、２０４は文字分別手段、２０５は埋込文字設定手段、２０６は置換文字設定手段、２０７は文書形式変換手段である。

コード変換テーブル１０１は特定コードとユニコードとの対応関係を記述するテーブルである。特定コードとは、ユニコード以外のコード体系のコードであって、メインフレーム（汎用コンピュータ）、等の特定のコンピュータシステムで使用される漢字コードのことである。たとえば、富士通株式会社のＪＥＦ漢字コード、ＩＢＭ（International Business Machines Corporation）のＩＢＭ漢字コード、日本電気株式会社（ＮＥＣ）のＪＩＰＳ漢字コード、株式会社日立製作所のＫＥＩＳ漢字コード、等である。ユニコード（UNICODE）は各国で使われる文字（字体）を一貫した方法で符号化し、表現し、コンピュータで共通利用できるようにしたコンピュータ業界における世界標準のコード体系である。対応関係の記述とは、特定コードの字体とユニコードの字体が一致するときの特定コードとユニコードの組み合わせの記述のことである。したがって、特定コードまたはユニコードに対して字体が一致するユニコードまたは特定コードをコード変換テーブル１０１を参照することにより得ることができる。

特定コードデータ１０２は特定コードで記述されたテキストデータである。本発明の文書ファイル作成システムにおいては、処理の元となるデータすなわち原稿データである。テキストデータは、すでに説明したように、テキスト形式のデータすなわち文字（字体）のコードを羅列したデータである。
ユニコードデータ１０３はユニコードで記述されたテキストデータである。
ユニコード変換手段２０１は、特定コードデータ１０２を記述する一連の特定コードの各々に対して、コード変換テーブル１０１を参照して、対応関係を有する、すなわち文字（字体）が一致するユニコードを得て、その特定コードをそのユニコードに置き換えることによりユニコードデータ１０３を生成する。

編集手段２０２はユニコードデータ１０３に対してすくなくともフォントを指定する編集を行いユニコード編集済データ１０４を生成する。すでに説明したように、ユニコードデータ１０３を含むオブジェクトを編集（レイアウト）することによって文書が作成される。編集手段２０２は、そのような一般的な編集を行うことができるアプリケーションソフトウェアによって実現することができる。実際、一般的な編集システムにおける編集の過程の内において本発明の文書ファイル作成方法を適用する構成とすることができる。また、本発明において、編集手段２０２はフォントの指定に限定したものであってもよい。フォントの指定に限定し、別工程において、その他の編集を行うように構成することもできる。

全文字データ生成手段２０３は、ユニコード編集済データ１０４において使用されている文字のコードとフォントの組合せをその組合せが重複しないように抽出して全文字データ１０５を生成する。ユニコード編集済データ１０４において使用されているフォントが、たとえば明朝体とゴシック体の２つであるとする。そのときに、この重複しないように抽出する方法として、全文字データ生成手段２０３は、ユニコード編集済データ１０４において使用されている明朝体の文字のコードが重複しないように抽出して明朝体の全文字データを生成する。さらに、全文字データ生成手段２０３は、ユニコード編集済データ１０４において使用されているゴシック体の文字のコードが重複しないように抽出してゴシック体の全文字データを生成する。したがって、全文字データ１０５は、このように複数のフォントが使用されるときには、それらのフォントに対応する全文字データの集合となる。

全文字データ生成手段２０３が全文字データ１０５を生成するときの、ユニコード編集済データ１０４の範囲は、一つの文書ファイルに変換するデータの範囲である。たとえば、文書ファイルが、顧客宛のダイレクトメールに同封して送付するクレジットカードの明細書のような帳票であるとする。そのときには、ユニコード編集済データ１０４の範囲は、顧客単位のデータ、すなわち、その顧客宛の帳票に変換するデータの範囲である。ユニコード編集済データ１０４が複数の顧客宛の帳票に対するデータを含んでいるときには、全文字データ生成手段２０３は、個々の顧客宛の帳票に対するデータの範囲に対して全文字データ１０５を生成する。したがって、ユニコード編集済データ１０４は、このように複数の文書ファイルに対するデータが含まれているときには、個々の文書ファイルに対応するユニコード編集済データの集合となる。
全文字データ生成手段２０３が全文字データ１０５を生成するときの、上記のデータの範囲を区別する方法としては、たとえば、編集手段２０２において、そのデータの範囲の区切り記号（データの範囲を特定する記号）を、ユニコード編集済データ１０４に対して挿入しておく、等の方法を適用することができる。

文字分別手段２０４は全文字データ１０５として抽出された文字を、パーソナルコンピュータが保有するフォントデータによって処理可能な第１群フォント１０８に含まれている文字と、拡張文字である第２群フォント１０９に含まれている文字と、外字である第３群フォント１１０に含まれている文字とに分別する。さらに、第１群フォント１０８、第２群フォント１０９、第３群フォント１１０のいずれにもに含まれない文字が存在するときには、その文字を第４群フォント１１１に含まれている文字に分別する。
第１群フォント１０８に含まれている文字とは、ＳＪＩＳコードに割り当てられているユニコードの領域の文字（字体）であって、その文字に指定されたフォントの文字（字形）がパーソナルコンピュータに実装されている文字のことである。したがって、第１群フォント１０８は、そのフォントの文字（字形）が実装されている文字のユニコードを集合したデータとすることができる。
あるいは、第１群フォント１０８は、ＳＪＩＳコードに割り当てられているユニコードにおける各々のユニコードに対応付けてフォントの文字（字形）を登録したフォントデータとすることができる。後者の場合は、フォントの文字（字形）が登録されていないユニコードが存在してもよく、その登録がされていないユニコードの文字は第１群フォント１０８に含まれていない文字であり、その登録がされているユニコードの文字は第１群フォント１０８に含まれている文字である。
第１群フォント１０８は、明朝体の第１群フォント１０８、ゴシック体の第１群フォント１０８、のようにフォントの各々に対応して存在する。第２群フォント１０９、第３群フォントにおいても同様である。

第２群フォント１０９に含まれている文字とは、特定コードの拡張文字に割り当てられているユニコードの領域の文字である。また、第３群フォント１１０に含まれている文字とは、特定コードの外字に割り当てられているユニコードの領域の文字である。第２群フォント１０９と第３群フォント１１０に含まれている文字のユニコードは、ユニコードにおける私用領域（Private Use Area）のコード、すなわちＥ０００〜Ｆ８ＦＦのコードとすることが、他コードの利用上の干渉を起こすことがすくなく好適である。
第１群フォント１０８の場合と同様に、第２群フォント１０９と第３群フォント１１０は、そのフォントの文字（字形）が実装されている文字のユニコードを第２群フォント１０９と第３群フォント１１０の各々において集合した各々のデータとすることができる。
あるいは、私用領域を第２群フォント１０９と第３群フォント１１０の各々に分割し、ユニコードに対応付けてそのフォントの文字（字形）を登録した、第２群フォント１０９と第３群フォント１１０の各々のフォントデータとすることができる。後者の場合は、フォントの文字（字形）が登録されていないユニコードが存在してもよく、その登録がされていないユニコードの文字は含まれていない文字であり、その登録がされているユニコードの文字は含まれている文字である。
第４群フォント１１１に含まれている文字とは、第１群フォント１０８、第２群フォント１０９、第３群フォント１１０のいずれにもに含まれない文字である。したがって、第４群フォント１１１は、その文字のユニコードを集合したデータとすることができる。

埋込文字設定手段２０５は、第２群フォントに含まれている文字と第３群フォントに含まれている文字に対してはフォントの埋め込みを行う文字として設定する。フォントの埋め込みは文書ファイル１１２に対して行う。すなわち、文書ファイル１１２には第２群フォントに含まれている文字と第３群フォントに含まれている文字が埋め込まれる。
置換文字設定手段２０６は第４群フォントに含まれている文字に対しては所定コードの文字に置換する設定を行う。文字（字体）の置換は文書ファイル１１２に対して行う。すなわち、文書ファイル１１２においては第４群フォントに含まれている文字が所定コードの文字に置換される。
たとえば、置換文字設定手段２０６は、所定の文字を空白（スペース）とし、第４群フォントに含まれている文字のすべてを空白に置換する。そのような限定された内容の置換については、自動設定により行うことができる。また、置換文字設定手段２０６は、オペレータによる手動設定により、第４群フォントに含まれている文字によって所定コードの文字を選択的に設定することができる。

文書形式変換手段２０７は、埋込文字設定手段２０５と置換文字設定手段２０６における設定にしたがってユニコード編集済データ１０４を所定文書形式に変換し文書ファイル１１２を得る。文書ファイル１１２における第１群フォント１０８の文字は、この変換によって、パーソナルコンピュータによって処理可能なコード、たとえばＳＪＩＳコードに変換されている。また、この変換によって、文書ファイル１１２における第２群フォント１０９の文字と第３群フォント１１０の文字については、その字形（グリフイメージ）と、それを特定するＩＤ（グリフＩＤ）のデータとして、文書ファイル１１２が有している。また、この変換によって、文書ファイル１１２における第４群フォント１１１の文字については、置換文字設定手段２０６によって、パーソナルコンピュータによって処理可能な所定のコードが与えられている。
文書ファイル１１２の文書形式としては、本発明において制限はないが、たとえば、アドビ・システムズ社のＰＤＦ（Portable Document Format）、国際電子出版フォーラム（International Digital Publishing Forum，IDPF）の電子書籍用ファイル・フォーマット規格であるＥＰＵＢ（Electronic PUBlication）、ＨＴＭＬ（HyperText Markup Language）、等のフォントの埋め込みが可能な文書形式である。

以上、構成について説明した。次に、本発明の文書ファイル作成方法およびシステムにおける動作について具体的な内容の説明を行う。本発明の文書ファイル作成方法およびシステムにおける処理の過程の一例をフロー図として図４に示す。
まず、図４のステップＳ１０１（ＪＥＦデータ入稿）において、富士通株式会社のメインフレームで使用されているＪＥＦ漢字コードのテキストデータとして原稿データが入稿する。文書ファイル作成システムはこの原稿データを読み込み、特定コードデータ１０２として記憶部１００に記憶する。
次に、ステップＳ１０２（テーブル変換）において、ＪＥＦ漢字コードとユニコードとの対応関係を記述したコード変換テーブルは前もって作成済みであり、文書ファイル作成システムはそのコード変換テーブルを読み込み、コード変換テーブル１０１として記憶部１００に記憶する。
次に、ステップＳ１０３（ＵＮＩＣＯＤＥデータ生成）において、ユニコード変換手段２０１は、コード変換テーブル１０１を参照して、特定コードデータ１０２におけるＪＥＦ漢字コードをユニコードに変換し、ユニコードデータ１０３を生成する。

次に、ステップＳ１０４（帳票レイアウト作成）において、編集手段２０２は、オペレータの指示入力にしたがって、ユニコードデータ１０３に対して文字の書体、色、寸法（ポイント）、色、ページにおける配置、等の編集（レイアウト）を行う。また、必要ならば、テキストデータ以外の他のオブジェクト（ロゴ、イラスト、イメージ）についても編集を行う。そして、編集手段２０２はユニコード編集済データ１０４を生成する。
次に、ステップＳ１０５（抽出する全ページの全文字コード集約）において、全文字データ生成手段２０３は、ユニコード編集済データ１０４において使用されている文字のコードとフォントの組合せをその組合せが重複しないように抽出して全文字データ１０５を生成する。全文字データ生成手段２０３が全文字データ１０５を生成するときの、ユニコード編集済データ１０４の範囲は、一つの文書ファイルに変換するデータの範囲（抽出する全ページ）である。

次に、ステップＳ１０６（第３群フォント内に文字があるか）において、文字分別手段２０４は、全文字データ１０５の文字の内で、外字である第３群フォント１１０に含まれている文字を分別する。
次に、ステップＳ１０７（埋込データＡ生成）において、埋込文字設定手段２０５は、ステップＳ１０６において分別された文字の全体として、文書ファイルを作成するときにフォントの埋め込みを行う文字のデータすなわち字形（グリフイメージ）のデータである埋込データＡを生成する。この一例においては、この生成によりフォントの埋め込みの設定が行われる。
次に、ステップＳ１０８（第２群フォント内に文字があるか）において、文字分別手段２０４は、全文字データ１０５の文字の内で、拡張文字である第２群フォント１０９に含まれている文字を分別する。
次に、ステップＳ１０９（埋込データＡ＋Ｂ生成）において、埋込文字設定手段２０５は、ステップＳ１０６とステップＳ１０８において分別された文字の全体として、文書ファイルを作成するときにフォントの埋め込みを行う文字のデータすなわち字形（グリフイメージ）のデータである埋込データＡ＋Ｂを生成する。この一例においては、この生成により字形（グリフイメージ）の埋め込みの設定が行われる。

次に、ステップＳ１１０（第１群フォント内に文字があるか）において、文字分別手段２０４は、全文字データ１０５の文字の内で、ＳＪＩＳコードに割り当てられているユニコードの領域の文字である第１群フォント１０８に含まれている文字を分別する。このステップにおいて分別された文字の全体は埋め込みを行わない文字である。
次に、ステップＳ１１１（存在しない文字はスペースに変換）において、文字分別手段２０４は、全文字データ１０５の文字の内で、第１群フォント１０８、第２群フォント１０９、第３群フォント１１０のいずれにも含まれていない文字のすべてを第４群フォント１１１の文字とする。そして、置換文字設定手段は２０６は、オペレータの指示入力にしたがって、その第４群フォント１１１の文字を所定の文字に置換する設定を行う。この一例においてはスペースに置換（変換）する設定を行う。
次に、ステップＳ１１２（抽出したページのＰＤＦ作成）において、文書形式変換手段２０７は、埋込文字設定手段２０５と置換文字設定手段２０６における設定にしたがってユニコード編集済データ１０４を所定文書形式に変換し文書ファイル１１２を得る。この一例においてはＰＤＦファイルを得る。
なお、ここで得られた文書ファイル１１２は、（顧客一人分の）一つの文書ファイルである。ステップＳ１０１において、入稿した原稿データすなわち特定コードデータ１０２が（顧客複数分の）複数の文書ファイルのデータであるときには、ステップＳ１０５に戻って前述した以降のステップを繰り返す。そして、特定コードデータ１０２から作成するすべての文書ファイルの作成が完了したところで、終了とする。

文字コードの体系が相違するコンピュータシステムにおいて閲覧可能な文書ファイルを作成する際に、その文書ファイルのファイルサイズを削減する、等において利用可能である。

１００記憶部
１０１コード変換テーブル
１０２特定コードデータ
１０３ユニコードデータ
１０４ユニコード編集済データ
１０５全文字データ
１０６埋込文字設定データ
１０７置換文字設定データ
１０８第１群フォント
１０９第２群フォント
１１０第３群フォント
１１１第４群フォント
１１２文書ファイル
２００処理部
２０１ユニコード変換手段
２０２編集手段
２０３全文字データ生成手段
２０４文字分別手段
２０５埋込文字設定手段
２０６置換文字設定手段
２０７文書形式変換手段

Claims

特定コードとユニコードとの対応関係を記述するコード変換テーブルを使用して、特定コードで記述されたテキストデータである特定コードデータから、ユニコードで記述されたテキストデータであるユニコードデータを生成するユニコード変換過程と、
前記ユニコードデータに対してすくなくともフォントを指定する編集を行いユニコード編集済データを生成する編集過程と、
前記ユニコード編集済データにおいて使用されている文字のコードとフォントの組合せをその組合せが重複しないように抽出して全文字データを生成する全文字データ生成過程と、
前記全文字データとして抽出された文字を、パーソナルコンピュータが保有するフォントデータによって処理可能な第１群フォントに含まれている文字と、拡張文字である第２群フォントに含まれている文字と、外字である第３群フォントに含まれている文字と、に分別する文字分別過程と、
前記第２群フォントに含まれている文字と前記第３群フォントに含まれている文字に対してはフォントの埋め込みを行う文字として設定する埋込文字設定過程と、
前記埋込文字設定過程における設定にしたがって前記ユニコード編集済データを所定文書形式に変換し文書ファイルを得る文書形式変換過程と、
を有することを特徴とする文書ファイル作成方法。
請求項１に記載の文書ファイル作成方法において、前記文字分別過程は、前記第１群フォント、第２群フォント、第３群フォントのいずれにもに含まれない文字を第４群フォントに含まれている文字とする過程であって、前記第４群フォントに含まれている文字に対しては所定コードの文字に置換する設定を行う置換文字設定過程を有し、前記文書形式変換過程は、前記埋込文字設定過程と前記置換文字設定過程における設定にしたがって前記ユニコード編集済データを所定文書形式に変換し文書ファイルを得ることを特徴とする文書ファイル作成方法。
請求項１または２に記載の文書ファイル作成方法において、前記特定コードはメインフレーム（汎用コンピュータ）において使用されている文字コードの体系のコード（ホストコード）であることを特徴とする文書ファイル作成方法。
請求項１〜３のいずれかに記載の文書ファイル作成方法において、前記所定文書形式はＰＤＦであり、前記文書ファイルはＰＤＦファイルであることを特徴とする文書ファイル作成方法。
請求項２に記載の文書ファイル作成方法において、前記所定コードは「スペース」のコードであることを特徴とする文書ファイル作成方法。
請求項１〜５のいずれかに記載の文書ファイル作成方法において、前記第１群フォントはＳＪＩＳ（Shift JIS）コードのフォントであることを特徴とする文書ファイル作成方法。
請求項１〜６のいずれかに記載の文書ファイル作成方法において、前記第２群フォントと前記第３群フォントのコードはユニコードにおける私用領域（Private Use Area）であるＥ０００〜Ｆ８ＦＦのコードであることを特徴とする文書ファイル作成方法。
特定コードとユニコードとの対応関係を記述するコード変換テーブルを使用して、特定コードで記述されたテキストデータである特定コードデータから、ユニコードで記述されたテキストデータであるユニコードデータを生成するユニコード変換手段と、
前記ユニコードデータに対してすくなくともフォントを指定する編集を行いユニコード編集済データを生成する編集手段と、
前記ユニコード編集済データにおいて使用されている文字のコードとフォントの組合せをその組合せが重複しないように抽出して全文字データを生成する全文字データ生成手段と、
前記全文字データとして抽出された文字を、パーソナルコンピュータが保有するフォントデータによって処理可能な第１群フォントに含まれている文字と、拡張文字である第２群フォントに含まれている文字と、外字である第３群フォントに含まれている文字と、に分別する文字分別手段と、
前記第２群フォントに含まれている文字と前記第３群フォントに含まれている文字に対してはフォントの埋め込みを行う文字として設定する埋込文字設定手段と、
前記埋込文字設定手段における設定にしたがって前記ユニコード編集済データを所定文書形式に変換し文書ファイルを得る文書形式変換手段と、
を有することを特徴とする文書ファイル作成システム。