JP2004252583A - データ作成装置、文字コード構造及び記録媒体 - Google Patents
データ作成装置、文字コード構造及び記録媒体 Download PDFInfo
- Publication number
- JP2004252583A JP2004252583A JP2003040135A JP2003040135A JP2004252583A JP 2004252583 A JP2004252583 A JP 2004252583A JP 2003040135 A JP2003040135 A JP 2003040135A JP 2003040135 A JP2003040135 A JP 2003040135A JP 2004252583 A JP2004252583 A JP 2004252583A
- Authority
- JP
- Japan
- Prior art keywords
- character
- data
- variant
- code
- character data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】文字データを受け付け、受け付けた文字データに予め割り当てられた文字コードを記憶するデータ作成装置、文字コード構造及び記録媒体を提供する。
【解決手段】複数の文字データ夫々に割り当てられた文字コードと、各文字データの異体字データ夫々に割り当てられた、前記異体字データに係るコード及び前記異体字データに対応する文字データに割り当てられた文字コードを含む異体字コードとを記憶するデータベースを予め備えておき、受け付けた文字データ及び異体字データを、夫々に対応する文字コード及び異体字コードにより記憶する。
【選択図】 図1
【解決手段】複数の文字データ夫々に割り当てられた文字コードと、各文字データの異体字データ夫々に割り当てられた、前記異体字データに係るコード及び前記異体字データに対応する文字データに割り当てられた文字コードを含む異体字コードとを記憶するデータベースを予め備えておき、受け付けた文字データ及び異体字データを、夫々に対応する文字コード及び異体字コードにより記憶する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、文字データを受け付け、受け付けた文字データに予め割り当てられた文字コードを記憶するデータ作成装置、文字コード構造及び記録媒体に関するものである。
【0002】
【従来の技術】
コンピュータの普及に伴い、コンピュータに備えるワードプロセッサ機能を利用した文書の作成処理が盛んに行なわれている。
コンピュータには、日本語変換を行なうためのアプリケーションプログラムが搭載されており、キーボート等の入力装置から入力されたアルファベットで綴られたローマ字及び仮名文字からなる文字列を、漢字を交えた文書に変換することが可能である。
【0003】
また、コンピュータは、日本語の表示に使用するフォントの基本文字セットを備えており、これにより、上述のように作成された文書のディスプレイへの表示、印刷処理等を行なうことができる。
ここで、基本文字セットとは、JIS(日本工業規格)コード表の第1水準及び第2水準に記載されている文字により構成されており、通常の文書作成処理に用いる文字は、この基本文字セットで網羅されている。
【0004】
しかし、例えば、人名及び地名等においては、基本文字セットに含まれていない文字を用いている場合があり、このような文字は外字と呼ばれ、この外字に対応するフォント情報を有しないコンピュータにおいては、ディスプレイ上に表示することができない。
そこで、このような外字を画像データとして表し、インターネットを介して提供するシステムが提案されており、外字データを示した画像データを取得したコンピュータにおいて、前記画像データに基づき外字データを表示していた。
尚、上述したように、外字データを画像データとして提供する装置としては、以下の特許文献1に示すものがある。
【0005】
【特許文献1】
特開2002−278955号公報
【0006】
【発明が解決しようとする課題】
しかし、上述したように、外字データである文字データを画像データで示すことにより、作成された文書データのデータ量が多くなり、この文書データに行なう各種処理における負担が大きいという問題があった。
例えば、このような文書データをインターネット等のネットワークを介して送信する際にはネットワークに加わる通信負荷が大きいという問題があった。
【0007】
本発明は斯かる事情に鑑みてなされたものであり、複数の文字データ夫々に割り当てられた文字コードを記憶するデータベースに、文字データに対応する異体字データに割り当てられた異体字コードを記憶させておき、受け付けた文字データ及び異体字データに割り当てられた文字コード及び異体字コードを前記データベースから読み出して記憶することにより、JIS第1水準及び第2水準に含まれない外字である異体字データにおいても、通常の文字データと同様にテキストデータとして取り扱うことができるデータ作成装置及び記録媒体を提供することを目的とする。
【0008】
本発明の他の目的は、異体字データに割り当てられる異体字コードが、当該異体字データに係るコードと、当該異体字データに対応する文字データに割り当てられた文字コードとを含むことにより、文字データと異体字データとを関連付けた文書データを作成することができるデータ作成装置を提供することにある。
【0009】
本発明の更に他の目的は、検索すべき文字データ又は異体字データを受け付け、受け付けた文字データ又は異体字データに割り当てられた文字コード又は異体字コードを検索することにより、作成されたテキストデータにおける各文字データを検索したい場合に、異体字データについても、通常の文字データの検索処理と同様の取り扱いが可能となるデータ作成装置を提供することにある。
【0010】
本発明の更に他の目的は、検索すべく受け付けた文字データに基づき、該文字データに割り当てられた文字コードを含む異体字コードを検索することにより、異体字データの代表文字としての文字データに基づき、異体字データを検索することができるデータ作成装置及び記録媒体を提供することにある。
【0011】
本発明の更に他の目的は、各文字データ及び異体字データに割り当てられた文字コード及び異体字コードを記憶するデータベースにおいて、各文字コード及び異体字コードが圧縮してあることにより、テキストデータの作成処理及び作成されたテキストデータにおける検索処理等の各種の処理負担が軽減され、処理速度の向上を図ることができるデータ作成装置を提供することにある。
【0012】
本発明の更に他の目的は、文字データに対応する異体字データに割り当てられる異体字コードが、前記文字データに割り当てられた文字コード部と、前記異体字データに係るコード部とを備えることにより、異体字データを、該異体字データの代表文字としての文字データと関連付けて管理することができる文字コード構造を提供することにある。
【0013】
本発明の更に他の目的は、複数の文字データ夫々に対応して文字コードを蓄積したデータベースに、文字データの異体字データに対応して、前記文字データの文字コードと、該異体字データに係るコードとを含む異体字コードを蓄積することにより、このデータベースを読み取らせたコンピュータにおいて、各異体字データを、対応する代表文字としての文字データと関連付けて管理することができ、異体字データを通常の文字データと同様に取り扱うことが可能となる記録媒体を提供することにある。
【0014】
【課題を解決するための手段】
第1発明に係るデータ作成装置は、複数の文字データ夫々に割り当てられた文字コードを記憶するデータベースと、文字データを受け付ける文字受付手段と、該文字受付手段が受け付けた文字データに割り当てられた文字コードを前記データベースから読み出して記憶する記憶手段とを備えるデータ作成装置において、前記データベースは、文字データに対応する異体字データに割り当てられた異体字コードを記憶しており、前記文字受付手段は、前記異体字データを受け付け、前記記憶手段は、受け付けた異体字データに割り当てられた異体字コードを前記データベースから読み出して記憶するように構成してあることを特徴とする。
【0015】
第2発明に係るデータ作成装置は、前記異体字コードは、該異体字コードを割り当てられた異体字データに係るコードと、該異体字データに対応する文字データに割り当てられた文字コードとを含むことを特徴とする。
【0016】
第3発明に係るデータ作成装置は、検索すべき文字データ又は異体字データを受け付ける検索文字受付手段と、該検索文字受付手段が受け付けた文字データ又は異体字データに割り当てられた文字コード又は異体字コードを前記記憶手段から検索する検索手段とを備えることを特徴とする。
【0017】
第4発明に係るデータ作成装置は、前記検索手段は、前記検索文字受付手段が受け付けた文字データに基づき、該文字データに割り当てられた文字コードを含む異体字コードを検索するように構成してあることを特徴とする。
【0018】
第5発明に係るデータ作成装置は、前記データベースに記憶してある文字コード及び異体字コードは、圧縮してあることを特徴とする。
【0019】
第6発明に係る文字コード構造は、文字データに割り当てられる文字コードの構造において、前記文字データに対応する異体字データに割り当てられる異体字コードが、前記文字データに割り当てられた文字コード部と、前記異体字データに係るコード部とを備えることを特徴とする。
【0020】
第7発明に係る記録媒体は、複数の文字データ夫々に対応して文字コードを蓄積したデータベースが記憶してあるコンピュータでの読取が可能な記録媒体において、前記データベースには、文字データの異体字データに対応して、前記文字データの文字コードと、該異体字データに係るコードとを含む異体字コードが蓄積してあることを特徴とする。
【0021】
第8発明に係る記録媒体は、コンピュータに、文字データ又は異体字データを受け付けさせる手順と、コンピュータに、受け付けた文字データ又は異体字データに対応する文字コード又は異体字コードを前記データベースから読み出して記憶させる手順とを備えるコンピュータプログラムを記憶してあることを特徴とする。
【0022】
第9発明に係る記録媒体は、コンピュータに、検索すべき文字データを受け付けさせる手順と、コンピュータに、受け付けた文字データに対応する文字コードと該文字コードを含む異体字コードとを検索させる手順とを備えるコンピュータプログラムを記憶してあることを特徴とする。
【0023】
第1及び第8発明による場合は、複数の文字データ夫々に割り当てられた文字コードを記憶するデータベースに、文字データに対応する異体字データに割り当てられた異体字コードを記憶させておき、文字データ及び異体字データを文字受付手段にて受け付け、受け付けた文字データ及び異体字データに割り当てられた文字コード及び異体字コードを前記データベースから読み出して記憶手段に記憶することにより、JIS第1水準及び第2水準に含まれない外字である異体字データにおいても、通常の文字データと同様にテキストデータとして取り扱うことができ、文書データのデータ量を削減することができる。
【0024】
第2発明による場合は、異体字データに割り当てられる異体字コードが、当該異体字データに係るコードと、当該異体字データに対応する文字データに割り当てられた文字コードとを含むことにより、文字データと異体字データとを関連付けることができ、異体字データを、対応する文字データとともに扱うことが可能となる。
【0025】
第3発明による場合は、検索すべき文字データ又は異体字データを検索文字受付手段にて受け付け、受け付けた文字データ又は異体字データに割り当てられた文字コード又は異体字コードを前記記憶手段から検索手段にて検索することにより、作成されたテキストデータにおける各文字データを検索したい場合に、異体字データについても、通常の文字データの検索処理と同様の取り扱いが可能となる。
【0026】
第4及び第9発明による場合は、検索すべく受け付けた文字データに基づき、該文字データに割り当てられた文字コードを含む異体字コードを検索することにより、異体字データの形状等が分からない場合であっても、異体字データの代表文字としての文字データに基づき、異体字データも検索することができる。
【0027】
第5発明による場合は、各文字データ及び異体字データに割り当てられた文字コード及び異体字コードを記憶するデータベースにおいて、各文字コード及び異体字コードが圧縮してあることにより、テキストデータの作成処理及び作成されたテキストデータにおける検索処理等の各種の処理負担が軽減され、処理速度の向上を図ることができる。
【0028】
第6発明による場合は、文字データに対応する異体字データに割り当てられる異体字コードが、前記文字データに割り当てられた文字コード部と、前記異体字データに係るコード部とを備えることにより、異体字データを、該異体字データの代表文字としての文字データと関連付けて管理することができ、異体字データが複数ある場合であっても、1つの代表文字により各異体字データを取り扱うことができ、異体字データの取扱負担が軽減される。
【0029】
第7発明による場合は、複数の文字データ夫々に対応して文字コードを蓄積したデータベースに、文字データの異体字データに対応して、前記文字データの文字コードと、該異体字データに係るコードとを含む異体字コードを蓄積することにより、このデータベースを読み取らせたコンピュータにおいて、各異体字データを、対応する代表文字としての文字データと関連付けて管理することができ、異体字データを通常の文字データと同様に取り扱うことが可能となる。
【0030】
【発明の実施の形態】
以下、本発明に係るデータ作成装置をコンピュータを利用した実施の形態を示す図面に基づいて具体的に説明する。
図1は本発明に係るデータ作成装置の構成例を示すブロック図であり、図中1は本発明に係るデータ作成装置としてのコンピュータを示している。
【0031】
コンピュータ1は、CPU(Central Processing Unit)10を制御中枢としてバス15を介して接続される以下のハードウェア各部の動作を制御する。
バス15には、CPU10の制御手順を示すコンピュータプログラム等を記憶したハードディスク(以下、HDという)11と、CPU10による制御動作中に発生する種々のデータを一時的に記憶するRAM12と、液晶ディスプレイ等の表示部13と、操作部14等とが接続されている。
【0032】
CPU10は、時計手段(図示せず)を備えており、タイミングを計時しながら、上述したハードウェア各部をバス15を介して制御するとともに、HD11に記憶してあるコンピュータプログラムを順次実行する。
HD11は、テキストデータを作成する際に用いる文字コードデータベース(データベース)等を記憶しており、コンピュータ1を用いて作成されたテキストデータを記憶する記憶手段としても動作している。
【0033】
操作部14は、キーボード及びマウス等を含んでおり、テキストデータの作成者により入力される文字データを受け付ける文字受付手段、及び作成されたテキストデータから所望の文字データを検索する際に入力される検索文字データを受け付ける検索文字受付手段として動作する。
尚、コンピュータ1はCD−ROMドライブ等の外部記憶装置(図示せず)を備えており、この外部記憶装置により、本発明のコンピュータプログラムを記憶したCD−ROM等の記録媒体16から、前記コンピュータプログラムを読み取り、読み取ったコンピュータプログラムをHD11に記憶させる。また、HD11に記憶してある文字コードデータベースも、記録媒体16から読み取る構成としてもよい。
【0034】
図2は文字コードデータベースを説明するための図であり、この文字コードデータベースには、各文字データに対応して、夫々に割り当てられた文字コードが記憶してあり、操作部14が受け付けた文字データは、対応する文字コードに変換され、HD11にテキストデータとして記憶される。
ここで、本発明のデータ作成装置における文字コードデータベースにおいては、各文字コードに、例えば8桁の16進数が割り当てられている。
【0035】
ここで、JIS第1水準及び第2水準漢字に属する文字データ(標準文字データ)には、異体字データを有するものがあり、上述の文字コードデータベースには、異体字データに対応する文字コードが記憶してある。また、文字コードデータベースには、標準文字データ以外の外字データに対応する文字コードも記憶してある。
尚、異体字データを有しない標準文字データについては、前記文字コードデータベースとは別のJISコードデータベース(図示せず)に、対応するJISコードを記憶してある。
【0036】
異体字データを有する標準文字データにおいては、いずれか1つの標準文字データを、異体字データに対する代表文字データとして扱い、また、この代表文字データも異体字データの1つとして扱うこととする。
従って、例えば、文字データ「辺」と「邊」とは異体字データであり、この場合、文字データ「辺」を代表文字データとする。
【0037】
従って、図2に示す文字コードデータベースにおいては、代表文字データである「辺」には文字コード「AAAAAA´A´A´」が割り当ててあり、異体字データである「邊」には異体字コード「BBBBBA´A´A´」が割り当ててある。
ここで、代表文字データ「辺」の文字コードのうちの前5桁(AAAAA)は、例えば、自身の文字データ「辺」のJISコードを5桁の16進数に変換したコードであり、後3桁(A´A´A´)は、例えば、自身の文字データ「辺」のJISコードを3桁の16進数に変換したコードである。
【0038】
また、異体字データ「邊」の異体字コードのうちの前5桁(BBBBB)は、例えば、自身の異体字データ「邊」に割り当てられた外字コード(異体字データに係るコードに相当)を5桁の16進数に変換したコードであり、後3桁(A´A´A´)は、例えば、代表文字データ「辺」のJISコードを3桁の16進数に変換したコードである。
このように、異体字コードに、当該異体字データの代表文字データのJISコードを含めることにより、当該異体字データと代表文字データとを関連付けて管理することができる。
【0039】
以下に、上述した構成のコンピュータ1を利用したテキストデータ作成処理について説明する。尚、説明の中途部分での検索処理においては、1文字の検索処理について説明する。
図3、図4及び図5は本発明に係るコンピュータ1におけるテキストデータ作成処理手順を示すフローチャート、図6はテキストデータ作成処理における画面表示例を示す図である。
【0040】
コンピュータ1を用いてテキストデータを作成する作成者は、自身が有するコンピュータ1において、操作部14を操作することにより、テキストデータを作成するためのコンピュータプログラムの実行を指示する。
コンピュータ1において、CPU10は、作成者により操作部14が操作されたか否かを判断しており(S1)、操作部14が操作されない場合(S1:NO)、操作されるまで待機し、操作部14が操作された場合(S1:YES)、本発明のコンピュータプログラムを実行することにより、図6(a)に示すようなテキストデータを作成するためのテキストデータ作成画面を表示部13に表示する(S2)。
【0041】
作成者は、操作部14のキーボード等から文字データを入力し、コンピュータ1のCPU10は、作成者により入力された文字データを受け付けたか否かを判断しており(S3)、文字データを受け付けない場合(S3:NO)、待機し、文字データを受け付けた場合(S3:YES)、受け付けた文字データが文字コードデータベースに存在するか否かを判断する(S4)。
受け付けた文字データが文字コードデータベースに存在する場合(S4:YES)、即ち、受け付けた文字データが異体字データ又は外字データである場合、CPU10は、HD11の文字コードデータベースから、受け付けた文字データに割り当てられた文字コードを読み出し、RAM12に一旦記憶する(S5)。
【0042】
一方、受け付けた文字データが文字コードデータベースに存在しない場合(S4:NO)、即ち、受け付けた文字データが異体字データ及び外字データでない場合、CPU10は、JISコードデータベースから、受け付けた文字データに割り当てられた文字コードを読み出し、RAM12に一旦記憶する(S6)。
また、作成者は、例えば、テキストデータ作成画面中の編集メニューをマウスによりクリックすることによるプルダウンメニューから、検索処理を選択することにより、現在作成中の文書データ中から、所望する検索文字の検索処理を実行することができる。
【0043】
従って、コンピュータ1のCPU10は、作成者により検索処理が実行されたか否かを判断しており(S7)、検索処理が実行されない場合(S7:NO)、ステップS2に戻り、テキストデータ作成画面の表示を続ける。
また、CPU10は、検索処理が実行された場合(S7:YES)、検索手段として動作しており、本発明の検索文字受付処理プログラムを実行することにより、図6(b)に示すような検索画面を表示部13に表示する(S8)。
【0044】
この検索画面は、検索対象の文字データが操作部13により入力される構成を有しており、検索対象として入力された文字データの異体字データを含むか否かの設定を行なうために、「異体字を含む」のチェックボタンも備えている。
作成者は、この検索画面の指示に従って、検索対象の文字データを操作部14により入力して検索ボタンをオンする。ここで、CPU10は、作成者により入力された検索対象を受け付けたか否かを判断しており(S9)、検索対象を受け付けていない場合(S9:NO)待機し、検索対象を受け付けた場合(S9:YES)、入力された検索対象の文字データが文字コードデータベースに存在するか否かを判断する(S10)。
【0045】
検索対象の文字データが文字コードデータベースに存在しない場合(S10:NO)、即ち、検索対象の文字データが異体字データ及び外字データでない場合、CPU10は、JISコードデータベースから、受け付けた検索対象の文字データに割り当てられた文字コードを読み出し(S11)、読み出した文字コードに基づく検索処理を実行し、検索範囲内である現在作成中のテキストデータの各文字コードが、読み出した前記文字コードに一致するか否かを判断する(S12)。
読み出した前記文字コードに一致する場合(S12:YES)、CPU10は、一致した検索範囲内の文字データを反転表示等することにより(S13)、一致した文字データを明示する。
【0046】
また、前記文字コードに一致しない場合(S12:NO)、CPU10は、作成者により検索画面における終了ボタンがオンされることにより検索処理の終了が指示されたか否かを判断しており(S14)、検索処理の終了が指示されていない場合(S14:NO)、ステップS12の処理に戻り、ステップS11で読み出した文字コードに基づく検索処理を繰り返す。
【0047】
一方、ステップS10で、検索対象の文字データが文字コードデータベースに存在する場合(S10:YES)、即ち、検索対象の文字データが異体字データ又は外字データである場合、CPU10は、HD11の文字コードデータベースから、受け付けた文字データに割り当てられた文字コードを読み出す(S15)。
また、CPU10は、ステップS9で検索対象とともに受け付けた、検索対象に異体字データを含むか否かの設定に基づき、当該検索対象に異体字を含むか否かを判断する(S16)。
【0048】
ここで、検索対象に異体字を含む場合(S16:YES)、読み出した文字コードの後3桁のコードに基づく検索処理を実行し、検索範囲内の各文字コードの後3桁のコードが、検索対象の文字コードの後3桁のコードに一致するか否かを判断する(S17)。
また、検索対象の文字コードの後3桁のコードに一致する場合(S17:YES)、一致した検索範囲内の文字データを反転表示等することにより(S18)、一致した文字データを明示する。
【0049】
検索対象の文字コードの後3桁のコードに一致しない場合(S17:NO)、CPU10は、作成者により検索画面における終了ボタンがオンされることにより検索処理の終了が指示されたか否かを判断しており(S19)、検索処理の終了が指示されていない場合(S19:NO)、ステップS17の処理に戻り、ステップS15で読み出した文字コードに基づく検索処理を繰り返す。
また、ステップS16で、検索対象に異体字を含まない場合(S16:NO)、読み出した検索対象の文字コードの前5桁のコードに基づく検索処理を実行し、検索範囲内の各文字コードの前5桁のコードが、検索対象の文字コードの前5桁のコードに一致するか否かを判断する(S21)。
【0050】
検索対象の文字コードの前5桁のコードに一致する場合(S21:YES)、一致した検索範囲内の文字データを反転表示等することにより(S22)、一致した文字データを明示する。
検索対象の文字コードの前5桁のコードに一致しない場合(S21:NO)、CPU10は、作成者により検索画面における終了ボタンがオンされることにより検索処理の終了が指示されたか否かを判断しており(S23)、検索処理の終了が指示されていない場合(S23:NO)、ステップS21の処理に戻り、ステップS15で読み出した文字コードに基づく検索処理を繰り返す。
【0051】
ここで、ステップS14,S19,S23において、作成者により検索画面における終了ボタンがオンされることにより検索処理の終了が指示された場合(S14,S19,S23:YES)、CPU10は、表示部13の検索画面の表示を終了し、テキストデータ作成画面の表示に戻り、このテキストデータ作成画面において、作成者によりテキストデータの作成処理の終了が指示されたか否かを判断する(S20)。
作成者により作成処理の終了が指示されない場合(S20:NO)、CPU10は、ステップS2の処理に戻り、作成者が順次入力する文字データを順次文字コードに変換して記憶することによるテキストデータの作成処理を行ない、作成者が作成処理の終了を指示した場合(S20:YES)、作成され、RAM12に一旦記憶されていたテキストデータをHD11に記憶して処理を終了する。
【0052】
上述したように、異体字データ夫々に割り当てられた異体字コードが記憶された文字コードデータベースを用いて、作成者により入力される各文字データを文字コードに変換し、変換された文字コードにて文書データを作成することにより、JIS第1水準及び第2水準に属さない外字データである異体字データについても、データ量の少ないテキストデータとして扱うことが可能となる。
【0053】
ここで、上述のデータ作成処理における文字検索処理は、1文字を検索する場合について説明したが、当然文字列についても、異体字データを検索対象に含むか否かを設定した検索処理が可能である。
図7は文字列の検索処理を説明するための図であり、コンピュータ1は、上述したように、順次受け付けた文字データ601,602…を、夫々に割り当てられた文字コードに変換して記憶する場合、1文字分の文字コードを明確にするため、図7(a)に示すように、各文字コード601,602の先頭に「♯」を、末尾に「;」を付け、テキストデータとしてHD11に記憶する。尚、図には示さないが、標準文字データを示すJISコードは、そのままのコードが記憶される。
【0054】
ここで、例えば、検索対象に文字列である2つの文字データ601,602が設定された場合に、コンピュータ1は、この文字データ601,602を夫々に割り当てられた文字コードに変換する。ここでは、変換して得られた文字コードを、図6(a)に示す文字コード「♯AAAAAA´A´A´;♯CCCCCC´C´C´;」とし、コンピュータ1は、このような文字コードに基づく検索処理を実行する。
【0055】
このとき、検索対象に異体字データを含めない場合には、図6(a)に示す文字コード「♯AAAAAA´A´A´;♯CCCCCC´C´C´;」を、検索範囲内の連続する文字コード内で検索する。一方、検索対象に異体字データを含める場合には、図6(b)に示すように、文字データ601,602に対応する文字コードの前5桁を夫々ワイルドカード「*」に変更し、この文字コード611,612「♯*****A´A´A´;♯*****C´C´C´;」を、検索範囲内の連続する文字コード内で検索する。尚、ここでのワイルドカード「*」とは、任意のコードを意味し、これにより、異体字データを含めた文字列の検索処理を実現することができる。
【0056】
尚、検索対象に異体字データを含めない場合には、1文字の検索処理において説明したように、検索対象の各文字コードの前5桁のコードに基づく検索処理、即ち、検索対象の文字コードの後3桁のコードをワイルドカード「*」に変更し、文字コード「♯AAAAA***;♯CCCCC***;」に基づく検索処理を実行しても、文字コード「♯AAAAAA´A´A´;♯CCCCCC´C´C´;」に基づく検索処理の場合と同様の結果が得られる。
【0057】
上述した実施の形態では、テキストデータの文書データを作成する処理について説明しているが、ウェブサーバ装置に本発明のコンピュータプログラムをインストールすることにより、ウェブサーバ装置から取得したウェブページへ各データを入力する場合であっても、正しい形状の異体字データ(外字データ)で入力することができる。また、ウェブページにおける検索処理においても、上述のように代表文字データだけでなく異体字データも関連付けて検索することができ、検索処理を効率よく実現することができる。
また、大量のデータを管理するデータベースの作成にも適用することができ、特に、データベース内の各データの検索処理に必要な時間を短縮することができる。
【0058】
本実施の形態では、異体字データではない標準文字データについては、JISコードデータベースに基づく文字コードに変換する構成について説明したが、このような標準文字データについても、異体字データと同様に、文字コードデータベースに文字コードを記憶させることもできる。
また、全ての文字コードに割り当てられた文字コードを、例えば、16進数の8桁のコードで示すことにより、全ての文字コードを8桁のコードで示すことができるため、検索処理におけるマッチング処理がより容易となる。
更に、各文字コードを、常用されない場合が多いJIS第2水準漢字に属する漢字データにより圧縮することも可能であり、文字コードを圧縮した場合には、テキストデータとしての文書データの記憶容量が削減されるとともに、検索処理負担を軽減することができる。
【0059】
【発明の効果】
第1及び第8発明による場合は、複数の文字データ夫々に割り当てられた文字コードを記憶するデータベースに、文字データに対応する異体字データに割り当てられた異体字コードを記憶させておき、文字データ及び異体字データを文字受付手段にて受け付け、受け付けた文字データ及び異体字データに割り当てられた文字コード及び異体字コードを前記データベースから読み出して記憶手段に記憶することにより、JIS第1水準及び第2水準に含まれない外字である異体字データにおいても、通常の文字データと同様にテキストデータとして取り扱うことができ、文書データのデータ量を削減することができる。
【0060】
第2発明による場合は、異体字データに割り当てられる異体字コードが、当該異体字データに係るコードと、当該異体字データに対応する文字データに割り当てられた文字コードとを含むことにより、文字データと異体字データとを関連付けることができ、異体字データを、対応する文字データとともに扱いことが可能となる。
【0061】
第3発明による場合は、検索すべき文字データ又は異体字データを検索文字受付手段にて受け付け、受け付けた文字データ又は異体字データに割り当てられた文字コード又は異体字コードを前記記憶手段から検索手段にて検索することにより、作成されたテキストデータにおける各文字データを検索したい場合に、異体字データについても、通常の文字データの検索処理と同様の取り扱いが可能となる。
【0062】
第4及び第9発明による場合は、検索すべく受け付けた文字データに基づき、該文字データに割り当てられた文字コードを含む異体字コードを検索することにより、異体字データの形状等が分からない場合であっても、異体字データの代表文字としての文字データに基づき、異体字データも検索することができる。
【0063】
第5発明による場合は、各文字データ及び異体字データに割り当てられた文字コード及び異体字コードを記憶するデータベースにおいて、各文字コード及び異体字コードが圧縮してあることにより、テキストデータの作成処理及び作成されたテキストデータにおける検索処理等の各種の処理負担が軽減され、処理速度の向上を図ることができる。
【0064】
第6発明による場合は、文字データに対応する異体字データに割り当てられる異体字コードが、前記文字データに割り当てられた文字コード部と、前記異体字データに係るコード部とを備えることにより、異体字データを、該異体字データの代表文字としての文字データと関連付けて管理することができ、異体字データが複数ある場合であっても、1つの代表文字により各異体字データを取り扱うことができ、異体字データの取扱負担が軽減される。
【0065】
第7発明による場合は、複数の文字データ夫々に対応して文字コードを蓄積したデータベースに、文字データの異体字データに対応して、前記文字データの文字コードと、該異体字データに係るコードとを含む異体字コードを蓄積することにより、このデータベースを読み取らせたコンピュータにおいて、各異体字データを、対応する代表文字としての文字データと関連付けて管理することができ、異体字データを通常の文字データと同様に取り扱うことが可能となる。
【図面の簡単な説明】
【図1】本発明に係るデータ作成装置の構成例を示すブロック図である。
【図2】文字コードデータベースを説明するための図である。
【図3】本発明に係るコンピュータにおけるテキストデータ作成処理手順を示すフローチャートである。
【図4】本発明に係るコンピュータにおけるテキストデータ作成処理手順を示すフローチャートである。
【図5】本発明に係るコンピュータにおけるテキストデータ作成処理手順を示すフローチャートである。
【図6】テキストデータ作成処理における画面表示例を示す図である。
【図7】文字列の検索処理を説明するための図である。
【符号の説明】
1 コンピュータ(データ作成装置)
10 CPU(検索手段)
11 HD(記憶手段)
14 操作部(文字受付手段、検索文字受付手段)
【発明の属する技術分野】
本発明は、文字データを受け付け、受け付けた文字データに予め割り当てられた文字コードを記憶するデータ作成装置、文字コード構造及び記録媒体に関するものである。
【0002】
【従来の技術】
コンピュータの普及に伴い、コンピュータに備えるワードプロセッサ機能を利用した文書の作成処理が盛んに行なわれている。
コンピュータには、日本語変換を行なうためのアプリケーションプログラムが搭載されており、キーボート等の入力装置から入力されたアルファベットで綴られたローマ字及び仮名文字からなる文字列を、漢字を交えた文書に変換することが可能である。
【0003】
また、コンピュータは、日本語の表示に使用するフォントの基本文字セットを備えており、これにより、上述のように作成された文書のディスプレイへの表示、印刷処理等を行なうことができる。
ここで、基本文字セットとは、JIS(日本工業規格)コード表の第1水準及び第2水準に記載されている文字により構成されており、通常の文書作成処理に用いる文字は、この基本文字セットで網羅されている。
【0004】
しかし、例えば、人名及び地名等においては、基本文字セットに含まれていない文字を用いている場合があり、このような文字は外字と呼ばれ、この外字に対応するフォント情報を有しないコンピュータにおいては、ディスプレイ上に表示することができない。
そこで、このような外字を画像データとして表し、インターネットを介して提供するシステムが提案されており、外字データを示した画像データを取得したコンピュータにおいて、前記画像データに基づき外字データを表示していた。
尚、上述したように、外字データを画像データとして提供する装置としては、以下の特許文献1に示すものがある。
【0005】
【特許文献1】
特開2002−278955号公報
【0006】
【発明が解決しようとする課題】
しかし、上述したように、外字データである文字データを画像データで示すことにより、作成された文書データのデータ量が多くなり、この文書データに行なう各種処理における負担が大きいという問題があった。
例えば、このような文書データをインターネット等のネットワークを介して送信する際にはネットワークに加わる通信負荷が大きいという問題があった。
【0007】
本発明は斯かる事情に鑑みてなされたものであり、複数の文字データ夫々に割り当てられた文字コードを記憶するデータベースに、文字データに対応する異体字データに割り当てられた異体字コードを記憶させておき、受け付けた文字データ及び異体字データに割り当てられた文字コード及び異体字コードを前記データベースから読み出して記憶することにより、JIS第1水準及び第2水準に含まれない外字である異体字データにおいても、通常の文字データと同様にテキストデータとして取り扱うことができるデータ作成装置及び記録媒体を提供することを目的とする。
【0008】
本発明の他の目的は、異体字データに割り当てられる異体字コードが、当該異体字データに係るコードと、当該異体字データに対応する文字データに割り当てられた文字コードとを含むことにより、文字データと異体字データとを関連付けた文書データを作成することができるデータ作成装置を提供することにある。
【0009】
本発明の更に他の目的は、検索すべき文字データ又は異体字データを受け付け、受け付けた文字データ又は異体字データに割り当てられた文字コード又は異体字コードを検索することにより、作成されたテキストデータにおける各文字データを検索したい場合に、異体字データについても、通常の文字データの検索処理と同様の取り扱いが可能となるデータ作成装置を提供することにある。
【0010】
本発明の更に他の目的は、検索すべく受け付けた文字データに基づき、該文字データに割り当てられた文字コードを含む異体字コードを検索することにより、異体字データの代表文字としての文字データに基づき、異体字データを検索することができるデータ作成装置及び記録媒体を提供することにある。
【0011】
本発明の更に他の目的は、各文字データ及び異体字データに割り当てられた文字コード及び異体字コードを記憶するデータベースにおいて、各文字コード及び異体字コードが圧縮してあることにより、テキストデータの作成処理及び作成されたテキストデータにおける検索処理等の各種の処理負担が軽減され、処理速度の向上を図ることができるデータ作成装置を提供することにある。
【0012】
本発明の更に他の目的は、文字データに対応する異体字データに割り当てられる異体字コードが、前記文字データに割り当てられた文字コード部と、前記異体字データに係るコード部とを備えることにより、異体字データを、該異体字データの代表文字としての文字データと関連付けて管理することができる文字コード構造を提供することにある。
【0013】
本発明の更に他の目的は、複数の文字データ夫々に対応して文字コードを蓄積したデータベースに、文字データの異体字データに対応して、前記文字データの文字コードと、該異体字データに係るコードとを含む異体字コードを蓄積することにより、このデータベースを読み取らせたコンピュータにおいて、各異体字データを、対応する代表文字としての文字データと関連付けて管理することができ、異体字データを通常の文字データと同様に取り扱うことが可能となる記録媒体を提供することにある。
【0014】
【課題を解決するための手段】
第1発明に係るデータ作成装置は、複数の文字データ夫々に割り当てられた文字コードを記憶するデータベースと、文字データを受け付ける文字受付手段と、該文字受付手段が受け付けた文字データに割り当てられた文字コードを前記データベースから読み出して記憶する記憶手段とを備えるデータ作成装置において、前記データベースは、文字データに対応する異体字データに割り当てられた異体字コードを記憶しており、前記文字受付手段は、前記異体字データを受け付け、前記記憶手段は、受け付けた異体字データに割り当てられた異体字コードを前記データベースから読み出して記憶するように構成してあることを特徴とする。
【0015】
第2発明に係るデータ作成装置は、前記異体字コードは、該異体字コードを割り当てられた異体字データに係るコードと、該異体字データに対応する文字データに割り当てられた文字コードとを含むことを特徴とする。
【0016】
第3発明に係るデータ作成装置は、検索すべき文字データ又は異体字データを受け付ける検索文字受付手段と、該検索文字受付手段が受け付けた文字データ又は異体字データに割り当てられた文字コード又は異体字コードを前記記憶手段から検索する検索手段とを備えることを特徴とする。
【0017】
第4発明に係るデータ作成装置は、前記検索手段は、前記検索文字受付手段が受け付けた文字データに基づき、該文字データに割り当てられた文字コードを含む異体字コードを検索するように構成してあることを特徴とする。
【0018】
第5発明に係るデータ作成装置は、前記データベースに記憶してある文字コード及び異体字コードは、圧縮してあることを特徴とする。
【0019】
第6発明に係る文字コード構造は、文字データに割り当てられる文字コードの構造において、前記文字データに対応する異体字データに割り当てられる異体字コードが、前記文字データに割り当てられた文字コード部と、前記異体字データに係るコード部とを備えることを特徴とする。
【0020】
第7発明に係る記録媒体は、複数の文字データ夫々に対応して文字コードを蓄積したデータベースが記憶してあるコンピュータでの読取が可能な記録媒体において、前記データベースには、文字データの異体字データに対応して、前記文字データの文字コードと、該異体字データに係るコードとを含む異体字コードが蓄積してあることを特徴とする。
【0021】
第8発明に係る記録媒体は、コンピュータに、文字データ又は異体字データを受け付けさせる手順と、コンピュータに、受け付けた文字データ又は異体字データに対応する文字コード又は異体字コードを前記データベースから読み出して記憶させる手順とを備えるコンピュータプログラムを記憶してあることを特徴とする。
【0022】
第9発明に係る記録媒体は、コンピュータに、検索すべき文字データを受け付けさせる手順と、コンピュータに、受け付けた文字データに対応する文字コードと該文字コードを含む異体字コードとを検索させる手順とを備えるコンピュータプログラムを記憶してあることを特徴とする。
【0023】
第1及び第8発明による場合は、複数の文字データ夫々に割り当てられた文字コードを記憶するデータベースに、文字データに対応する異体字データに割り当てられた異体字コードを記憶させておき、文字データ及び異体字データを文字受付手段にて受け付け、受け付けた文字データ及び異体字データに割り当てられた文字コード及び異体字コードを前記データベースから読み出して記憶手段に記憶することにより、JIS第1水準及び第2水準に含まれない外字である異体字データにおいても、通常の文字データと同様にテキストデータとして取り扱うことができ、文書データのデータ量を削減することができる。
【0024】
第2発明による場合は、異体字データに割り当てられる異体字コードが、当該異体字データに係るコードと、当該異体字データに対応する文字データに割り当てられた文字コードとを含むことにより、文字データと異体字データとを関連付けることができ、異体字データを、対応する文字データとともに扱うことが可能となる。
【0025】
第3発明による場合は、検索すべき文字データ又は異体字データを検索文字受付手段にて受け付け、受け付けた文字データ又は異体字データに割り当てられた文字コード又は異体字コードを前記記憶手段から検索手段にて検索することにより、作成されたテキストデータにおける各文字データを検索したい場合に、異体字データについても、通常の文字データの検索処理と同様の取り扱いが可能となる。
【0026】
第4及び第9発明による場合は、検索すべく受け付けた文字データに基づき、該文字データに割り当てられた文字コードを含む異体字コードを検索することにより、異体字データの形状等が分からない場合であっても、異体字データの代表文字としての文字データに基づき、異体字データも検索することができる。
【0027】
第5発明による場合は、各文字データ及び異体字データに割り当てられた文字コード及び異体字コードを記憶するデータベースにおいて、各文字コード及び異体字コードが圧縮してあることにより、テキストデータの作成処理及び作成されたテキストデータにおける検索処理等の各種の処理負担が軽減され、処理速度の向上を図ることができる。
【0028】
第6発明による場合は、文字データに対応する異体字データに割り当てられる異体字コードが、前記文字データに割り当てられた文字コード部と、前記異体字データに係るコード部とを備えることにより、異体字データを、該異体字データの代表文字としての文字データと関連付けて管理することができ、異体字データが複数ある場合であっても、1つの代表文字により各異体字データを取り扱うことができ、異体字データの取扱負担が軽減される。
【0029】
第7発明による場合は、複数の文字データ夫々に対応して文字コードを蓄積したデータベースに、文字データの異体字データに対応して、前記文字データの文字コードと、該異体字データに係るコードとを含む異体字コードを蓄積することにより、このデータベースを読み取らせたコンピュータにおいて、各異体字データを、対応する代表文字としての文字データと関連付けて管理することができ、異体字データを通常の文字データと同様に取り扱うことが可能となる。
【0030】
【発明の実施の形態】
以下、本発明に係るデータ作成装置をコンピュータを利用した実施の形態を示す図面に基づいて具体的に説明する。
図1は本発明に係るデータ作成装置の構成例を示すブロック図であり、図中1は本発明に係るデータ作成装置としてのコンピュータを示している。
【0031】
コンピュータ1は、CPU(Central Processing Unit)10を制御中枢としてバス15を介して接続される以下のハードウェア各部の動作を制御する。
バス15には、CPU10の制御手順を示すコンピュータプログラム等を記憶したハードディスク(以下、HDという)11と、CPU10による制御動作中に発生する種々のデータを一時的に記憶するRAM12と、液晶ディスプレイ等の表示部13と、操作部14等とが接続されている。
【0032】
CPU10は、時計手段(図示せず)を備えており、タイミングを計時しながら、上述したハードウェア各部をバス15を介して制御するとともに、HD11に記憶してあるコンピュータプログラムを順次実行する。
HD11は、テキストデータを作成する際に用いる文字コードデータベース(データベース)等を記憶しており、コンピュータ1を用いて作成されたテキストデータを記憶する記憶手段としても動作している。
【0033】
操作部14は、キーボード及びマウス等を含んでおり、テキストデータの作成者により入力される文字データを受け付ける文字受付手段、及び作成されたテキストデータから所望の文字データを検索する際に入力される検索文字データを受け付ける検索文字受付手段として動作する。
尚、コンピュータ1はCD−ROMドライブ等の外部記憶装置(図示せず)を備えており、この外部記憶装置により、本発明のコンピュータプログラムを記憶したCD−ROM等の記録媒体16から、前記コンピュータプログラムを読み取り、読み取ったコンピュータプログラムをHD11に記憶させる。また、HD11に記憶してある文字コードデータベースも、記録媒体16から読み取る構成としてもよい。
【0034】
図2は文字コードデータベースを説明するための図であり、この文字コードデータベースには、各文字データに対応して、夫々に割り当てられた文字コードが記憶してあり、操作部14が受け付けた文字データは、対応する文字コードに変換され、HD11にテキストデータとして記憶される。
ここで、本発明のデータ作成装置における文字コードデータベースにおいては、各文字コードに、例えば8桁の16進数が割り当てられている。
【0035】
ここで、JIS第1水準及び第2水準漢字に属する文字データ(標準文字データ)には、異体字データを有するものがあり、上述の文字コードデータベースには、異体字データに対応する文字コードが記憶してある。また、文字コードデータベースには、標準文字データ以外の外字データに対応する文字コードも記憶してある。
尚、異体字データを有しない標準文字データについては、前記文字コードデータベースとは別のJISコードデータベース(図示せず)に、対応するJISコードを記憶してある。
【0036】
異体字データを有する標準文字データにおいては、いずれか1つの標準文字データを、異体字データに対する代表文字データとして扱い、また、この代表文字データも異体字データの1つとして扱うこととする。
従って、例えば、文字データ「辺」と「邊」とは異体字データであり、この場合、文字データ「辺」を代表文字データとする。
【0037】
従って、図2に示す文字コードデータベースにおいては、代表文字データである「辺」には文字コード「AAAAAA´A´A´」が割り当ててあり、異体字データである「邊」には異体字コード「BBBBBA´A´A´」が割り当ててある。
ここで、代表文字データ「辺」の文字コードのうちの前5桁(AAAAA)は、例えば、自身の文字データ「辺」のJISコードを5桁の16進数に変換したコードであり、後3桁(A´A´A´)は、例えば、自身の文字データ「辺」のJISコードを3桁の16進数に変換したコードである。
【0038】
また、異体字データ「邊」の異体字コードのうちの前5桁(BBBBB)は、例えば、自身の異体字データ「邊」に割り当てられた外字コード(異体字データに係るコードに相当)を5桁の16進数に変換したコードであり、後3桁(A´A´A´)は、例えば、代表文字データ「辺」のJISコードを3桁の16進数に変換したコードである。
このように、異体字コードに、当該異体字データの代表文字データのJISコードを含めることにより、当該異体字データと代表文字データとを関連付けて管理することができる。
【0039】
以下に、上述した構成のコンピュータ1を利用したテキストデータ作成処理について説明する。尚、説明の中途部分での検索処理においては、1文字の検索処理について説明する。
図3、図4及び図5は本発明に係るコンピュータ1におけるテキストデータ作成処理手順を示すフローチャート、図6はテキストデータ作成処理における画面表示例を示す図である。
【0040】
コンピュータ1を用いてテキストデータを作成する作成者は、自身が有するコンピュータ1において、操作部14を操作することにより、テキストデータを作成するためのコンピュータプログラムの実行を指示する。
コンピュータ1において、CPU10は、作成者により操作部14が操作されたか否かを判断しており(S1)、操作部14が操作されない場合(S1:NO)、操作されるまで待機し、操作部14が操作された場合(S1:YES)、本発明のコンピュータプログラムを実行することにより、図6(a)に示すようなテキストデータを作成するためのテキストデータ作成画面を表示部13に表示する(S2)。
【0041】
作成者は、操作部14のキーボード等から文字データを入力し、コンピュータ1のCPU10は、作成者により入力された文字データを受け付けたか否かを判断しており(S3)、文字データを受け付けない場合(S3:NO)、待機し、文字データを受け付けた場合(S3:YES)、受け付けた文字データが文字コードデータベースに存在するか否かを判断する(S4)。
受け付けた文字データが文字コードデータベースに存在する場合(S4:YES)、即ち、受け付けた文字データが異体字データ又は外字データである場合、CPU10は、HD11の文字コードデータベースから、受け付けた文字データに割り当てられた文字コードを読み出し、RAM12に一旦記憶する(S5)。
【0042】
一方、受け付けた文字データが文字コードデータベースに存在しない場合(S4:NO)、即ち、受け付けた文字データが異体字データ及び外字データでない場合、CPU10は、JISコードデータベースから、受け付けた文字データに割り当てられた文字コードを読み出し、RAM12に一旦記憶する(S6)。
また、作成者は、例えば、テキストデータ作成画面中の編集メニューをマウスによりクリックすることによるプルダウンメニューから、検索処理を選択することにより、現在作成中の文書データ中から、所望する検索文字の検索処理を実行することができる。
【0043】
従って、コンピュータ1のCPU10は、作成者により検索処理が実行されたか否かを判断しており(S7)、検索処理が実行されない場合(S7:NO)、ステップS2に戻り、テキストデータ作成画面の表示を続ける。
また、CPU10は、検索処理が実行された場合(S7:YES)、検索手段として動作しており、本発明の検索文字受付処理プログラムを実行することにより、図6(b)に示すような検索画面を表示部13に表示する(S8)。
【0044】
この検索画面は、検索対象の文字データが操作部13により入力される構成を有しており、検索対象として入力された文字データの異体字データを含むか否かの設定を行なうために、「異体字を含む」のチェックボタンも備えている。
作成者は、この検索画面の指示に従って、検索対象の文字データを操作部14により入力して検索ボタンをオンする。ここで、CPU10は、作成者により入力された検索対象を受け付けたか否かを判断しており(S9)、検索対象を受け付けていない場合(S9:NO)待機し、検索対象を受け付けた場合(S9:YES)、入力された検索対象の文字データが文字コードデータベースに存在するか否かを判断する(S10)。
【0045】
検索対象の文字データが文字コードデータベースに存在しない場合(S10:NO)、即ち、検索対象の文字データが異体字データ及び外字データでない場合、CPU10は、JISコードデータベースから、受け付けた検索対象の文字データに割り当てられた文字コードを読み出し(S11)、読み出した文字コードに基づく検索処理を実行し、検索範囲内である現在作成中のテキストデータの各文字コードが、読み出した前記文字コードに一致するか否かを判断する(S12)。
読み出した前記文字コードに一致する場合(S12:YES)、CPU10は、一致した検索範囲内の文字データを反転表示等することにより(S13)、一致した文字データを明示する。
【0046】
また、前記文字コードに一致しない場合(S12:NO)、CPU10は、作成者により検索画面における終了ボタンがオンされることにより検索処理の終了が指示されたか否かを判断しており(S14)、検索処理の終了が指示されていない場合(S14:NO)、ステップS12の処理に戻り、ステップS11で読み出した文字コードに基づく検索処理を繰り返す。
【0047】
一方、ステップS10で、検索対象の文字データが文字コードデータベースに存在する場合(S10:YES)、即ち、検索対象の文字データが異体字データ又は外字データである場合、CPU10は、HD11の文字コードデータベースから、受け付けた文字データに割り当てられた文字コードを読み出す(S15)。
また、CPU10は、ステップS9で検索対象とともに受け付けた、検索対象に異体字データを含むか否かの設定に基づき、当該検索対象に異体字を含むか否かを判断する(S16)。
【0048】
ここで、検索対象に異体字を含む場合(S16:YES)、読み出した文字コードの後3桁のコードに基づく検索処理を実行し、検索範囲内の各文字コードの後3桁のコードが、検索対象の文字コードの後3桁のコードに一致するか否かを判断する(S17)。
また、検索対象の文字コードの後3桁のコードに一致する場合(S17:YES)、一致した検索範囲内の文字データを反転表示等することにより(S18)、一致した文字データを明示する。
【0049】
検索対象の文字コードの後3桁のコードに一致しない場合(S17:NO)、CPU10は、作成者により検索画面における終了ボタンがオンされることにより検索処理の終了が指示されたか否かを判断しており(S19)、検索処理の終了が指示されていない場合(S19:NO)、ステップS17の処理に戻り、ステップS15で読み出した文字コードに基づく検索処理を繰り返す。
また、ステップS16で、検索対象に異体字を含まない場合(S16:NO)、読み出した検索対象の文字コードの前5桁のコードに基づく検索処理を実行し、検索範囲内の各文字コードの前5桁のコードが、検索対象の文字コードの前5桁のコードに一致するか否かを判断する(S21)。
【0050】
検索対象の文字コードの前5桁のコードに一致する場合(S21:YES)、一致した検索範囲内の文字データを反転表示等することにより(S22)、一致した文字データを明示する。
検索対象の文字コードの前5桁のコードに一致しない場合(S21:NO)、CPU10は、作成者により検索画面における終了ボタンがオンされることにより検索処理の終了が指示されたか否かを判断しており(S23)、検索処理の終了が指示されていない場合(S23:NO)、ステップS21の処理に戻り、ステップS15で読み出した文字コードに基づく検索処理を繰り返す。
【0051】
ここで、ステップS14,S19,S23において、作成者により検索画面における終了ボタンがオンされることにより検索処理の終了が指示された場合(S14,S19,S23:YES)、CPU10は、表示部13の検索画面の表示を終了し、テキストデータ作成画面の表示に戻り、このテキストデータ作成画面において、作成者によりテキストデータの作成処理の終了が指示されたか否かを判断する(S20)。
作成者により作成処理の終了が指示されない場合(S20:NO)、CPU10は、ステップS2の処理に戻り、作成者が順次入力する文字データを順次文字コードに変換して記憶することによるテキストデータの作成処理を行ない、作成者が作成処理の終了を指示した場合(S20:YES)、作成され、RAM12に一旦記憶されていたテキストデータをHD11に記憶して処理を終了する。
【0052】
上述したように、異体字データ夫々に割り当てられた異体字コードが記憶された文字コードデータベースを用いて、作成者により入力される各文字データを文字コードに変換し、変換された文字コードにて文書データを作成することにより、JIS第1水準及び第2水準に属さない外字データである異体字データについても、データ量の少ないテキストデータとして扱うことが可能となる。
【0053】
ここで、上述のデータ作成処理における文字検索処理は、1文字を検索する場合について説明したが、当然文字列についても、異体字データを検索対象に含むか否かを設定した検索処理が可能である。
図7は文字列の検索処理を説明するための図であり、コンピュータ1は、上述したように、順次受け付けた文字データ601,602…を、夫々に割り当てられた文字コードに変換して記憶する場合、1文字分の文字コードを明確にするため、図7(a)に示すように、各文字コード601,602の先頭に「♯」を、末尾に「;」を付け、テキストデータとしてHD11に記憶する。尚、図には示さないが、標準文字データを示すJISコードは、そのままのコードが記憶される。
【0054】
ここで、例えば、検索対象に文字列である2つの文字データ601,602が設定された場合に、コンピュータ1は、この文字データ601,602を夫々に割り当てられた文字コードに変換する。ここでは、変換して得られた文字コードを、図6(a)に示す文字コード「♯AAAAAA´A´A´;♯CCCCCC´C´C´;」とし、コンピュータ1は、このような文字コードに基づく検索処理を実行する。
【0055】
このとき、検索対象に異体字データを含めない場合には、図6(a)に示す文字コード「♯AAAAAA´A´A´;♯CCCCCC´C´C´;」を、検索範囲内の連続する文字コード内で検索する。一方、検索対象に異体字データを含める場合には、図6(b)に示すように、文字データ601,602に対応する文字コードの前5桁を夫々ワイルドカード「*」に変更し、この文字コード611,612「♯*****A´A´A´;♯*****C´C´C´;」を、検索範囲内の連続する文字コード内で検索する。尚、ここでのワイルドカード「*」とは、任意のコードを意味し、これにより、異体字データを含めた文字列の検索処理を実現することができる。
【0056】
尚、検索対象に異体字データを含めない場合には、1文字の検索処理において説明したように、検索対象の各文字コードの前5桁のコードに基づく検索処理、即ち、検索対象の文字コードの後3桁のコードをワイルドカード「*」に変更し、文字コード「♯AAAAA***;♯CCCCC***;」に基づく検索処理を実行しても、文字コード「♯AAAAAA´A´A´;♯CCCCCC´C´C´;」に基づく検索処理の場合と同様の結果が得られる。
【0057】
上述した実施の形態では、テキストデータの文書データを作成する処理について説明しているが、ウェブサーバ装置に本発明のコンピュータプログラムをインストールすることにより、ウェブサーバ装置から取得したウェブページへ各データを入力する場合であっても、正しい形状の異体字データ(外字データ)で入力することができる。また、ウェブページにおける検索処理においても、上述のように代表文字データだけでなく異体字データも関連付けて検索することができ、検索処理を効率よく実現することができる。
また、大量のデータを管理するデータベースの作成にも適用することができ、特に、データベース内の各データの検索処理に必要な時間を短縮することができる。
【0058】
本実施の形態では、異体字データではない標準文字データについては、JISコードデータベースに基づく文字コードに変換する構成について説明したが、このような標準文字データについても、異体字データと同様に、文字コードデータベースに文字コードを記憶させることもできる。
また、全ての文字コードに割り当てられた文字コードを、例えば、16進数の8桁のコードで示すことにより、全ての文字コードを8桁のコードで示すことができるため、検索処理におけるマッチング処理がより容易となる。
更に、各文字コードを、常用されない場合が多いJIS第2水準漢字に属する漢字データにより圧縮することも可能であり、文字コードを圧縮した場合には、テキストデータとしての文書データの記憶容量が削減されるとともに、検索処理負担を軽減することができる。
【0059】
【発明の効果】
第1及び第8発明による場合は、複数の文字データ夫々に割り当てられた文字コードを記憶するデータベースに、文字データに対応する異体字データに割り当てられた異体字コードを記憶させておき、文字データ及び異体字データを文字受付手段にて受け付け、受け付けた文字データ及び異体字データに割り当てられた文字コード及び異体字コードを前記データベースから読み出して記憶手段に記憶することにより、JIS第1水準及び第2水準に含まれない外字である異体字データにおいても、通常の文字データと同様にテキストデータとして取り扱うことができ、文書データのデータ量を削減することができる。
【0060】
第2発明による場合は、異体字データに割り当てられる異体字コードが、当該異体字データに係るコードと、当該異体字データに対応する文字データに割り当てられた文字コードとを含むことにより、文字データと異体字データとを関連付けることができ、異体字データを、対応する文字データとともに扱いことが可能となる。
【0061】
第3発明による場合は、検索すべき文字データ又は異体字データを検索文字受付手段にて受け付け、受け付けた文字データ又は異体字データに割り当てられた文字コード又は異体字コードを前記記憶手段から検索手段にて検索することにより、作成されたテキストデータにおける各文字データを検索したい場合に、異体字データについても、通常の文字データの検索処理と同様の取り扱いが可能となる。
【0062】
第4及び第9発明による場合は、検索すべく受け付けた文字データに基づき、該文字データに割り当てられた文字コードを含む異体字コードを検索することにより、異体字データの形状等が分からない場合であっても、異体字データの代表文字としての文字データに基づき、異体字データも検索することができる。
【0063】
第5発明による場合は、各文字データ及び異体字データに割り当てられた文字コード及び異体字コードを記憶するデータベースにおいて、各文字コード及び異体字コードが圧縮してあることにより、テキストデータの作成処理及び作成されたテキストデータにおける検索処理等の各種の処理負担が軽減され、処理速度の向上を図ることができる。
【0064】
第6発明による場合は、文字データに対応する異体字データに割り当てられる異体字コードが、前記文字データに割り当てられた文字コード部と、前記異体字データに係るコード部とを備えることにより、異体字データを、該異体字データの代表文字としての文字データと関連付けて管理することができ、異体字データが複数ある場合であっても、1つの代表文字により各異体字データを取り扱うことができ、異体字データの取扱負担が軽減される。
【0065】
第7発明による場合は、複数の文字データ夫々に対応して文字コードを蓄積したデータベースに、文字データの異体字データに対応して、前記文字データの文字コードと、該異体字データに係るコードとを含む異体字コードを蓄積することにより、このデータベースを読み取らせたコンピュータにおいて、各異体字データを、対応する代表文字としての文字データと関連付けて管理することができ、異体字データを通常の文字データと同様に取り扱うことが可能となる。
【図面の簡単な説明】
【図1】本発明に係るデータ作成装置の構成例を示すブロック図である。
【図2】文字コードデータベースを説明するための図である。
【図3】本発明に係るコンピュータにおけるテキストデータ作成処理手順を示すフローチャートである。
【図4】本発明に係るコンピュータにおけるテキストデータ作成処理手順を示すフローチャートである。
【図5】本発明に係るコンピュータにおけるテキストデータ作成処理手順を示すフローチャートである。
【図6】テキストデータ作成処理における画面表示例を示す図である。
【図7】文字列の検索処理を説明するための図である。
【符号の説明】
1 コンピュータ(データ作成装置)
10 CPU(検索手段)
11 HD(記憶手段)
14 操作部(文字受付手段、検索文字受付手段)
Claims (9)
- 複数の文字データ夫々に割り当てられた文字コードを記憶するデータベースと、
文字データを受け付ける文字受付手段と、
該文字受付手段が受け付けた文字データに割り当てられた文字コードを前記データベースから読み出して記憶する記憶手段とを備えるデータ作成装置において、
前記データベースは、文字データに対応する異体字データに割り当てられた異体字コードを記憶しており、
前記文字受付手段は、前記異体字データを受け付け、
前記記憶手段は、受け付けた異体字データに割り当てられた異体字コードを前記データベースから読み出して記憶するように構成してあることを特徴とするデータ作成装置。 - 前記異体字コードは、該異体字コードを割り当てられた異体字データに係るコードと、該異体字データに対応する文字データに割り当てられた文字コードとを含むことを特徴とする請求項1に記載のデータ作成装置。
- 検索すべき文字データ又は異体字データを受け付ける検索文字受付手段と、
該検索文字受付手段が受け付けた文字データ又は異体字データに割り当てられた文字コード又は異体字コードを前記記憶手段から検索する検索手段とを備えることを特徴とする請求項1又は2に記載のデータ作成装置。 - 前記検索手段は、前記検索文字受付手段が受け付けた文字データに基づき、該文字データに割り当てられた文字コードを含む異体字コードを検索するように構成してあることを特徴とする請求項3に記載のデータ作成装置。
- 前記データベースに記憶してある文字コード及び異体字コードは、圧縮してあることを特徴とする請求項1乃至4のいずれかに記載のデータ作成装置。
- 文字データに割り当てられる文字コードの構造において、前記文字データに対応する異体字データに割り当てられる異体字コードが、前記文字データに割り当てられた文字コード部と、前記異体字データに係るコード部とを備えることを特徴とする文字コード構造。
- 複数の文字データ夫々に対応して文字コードを蓄積したデータベースが記憶してあるコンピュータでの読取が可能な記録媒体において、
前記データベースには、文字データの異体字データに対応して、前記文字データの文字コードと、該異体字データに係るコードとを含む異体字コードが蓄積してあることを特徴とする記録媒体。 - コンピュータに、文字データ又は異体字データを受け付けさせる手順と、
コンピュータに、受け付けた文字データ又は異体字データに対応する文字コード又は異体字コードを前記データベースから読み出して記憶させる手順とを備えるコンピュータプログラムを記憶してあることを特徴とする請求項7に記載の記録媒体。 - コンピュータに、検索すべき文字データを受け付けさせる手順と、
コンピュータに、受け付けた文字データに対応する文字コードと該文字コードを含む異体字コードとを検索させる手順とを備えるコンピュータプログラムを記憶してあることを特徴とする請求項7又は8に記載の記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003040135A JP2004252583A (ja) | 2003-02-18 | 2003-02-18 | データ作成装置、文字コード構造及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003040135A JP2004252583A (ja) | 2003-02-18 | 2003-02-18 | データ作成装置、文字コード構造及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004252583A true JP2004252583A (ja) | 2004-09-09 |
Family
ID=33024112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003040135A Pending JP2004252583A (ja) | 2003-02-18 | 2003-02-18 | データ作成装置、文字コード構造及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004252583A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014016959A (ja) * | 2012-07-11 | 2014-01-30 | Fujitsu Ltd | プログラム、情報処理装置、及び情報処理方法 |
JP2015043164A (ja) * | 2013-08-26 | 2015-03-05 | 富士通株式会社 | 文字データ処理方法、情報処理方法、プログラム及び情報処理装置 |
-
2003
- 2003-02-18 JP JP2003040135A patent/JP2004252583A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014016959A (ja) * | 2012-07-11 | 2014-01-30 | Fujitsu Ltd | プログラム、情報処理装置、及び情報処理方法 |
JP2015043164A (ja) * | 2013-08-26 | 2015-03-05 | 富士通株式会社 | 文字データ処理方法、情報処理方法、プログラム及び情報処理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4114600B2 (ja) | 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム | |
JP5430312B2 (ja) | データ処理装置、データ名生成方法及びコンピュータプログラム | |
JP2001125915A (ja) | 情報検索装置 | |
JP2004252583A (ja) | データ作成装置、文字コード構造及び記録媒体 | |
US7130470B1 (en) | System and method of context-based sorting of character strings for use in data base applications | |
JP4675986B2 (ja) | 情報共有装置及び情報共有プログラム | |
JP4139805B2 (ja) | 字句をデータに変換する装置、方法及びプログラム | |
JP3793876B2 (ja) | 情報表示装置および情報表示処理プログラム | |
JP4120550B2 (ja) | 利用者辞書登録プログラム、装置、および方法 | |
JP3498635B2 (ja) | 情報検索方法及びその装置並びにコンピュータ可読記録媒体 | |
JP4294386B2 (ja) | 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体 | |
JP4061283B2 (ja) | 字句をデータに変換する装置、方法及びプログラム | |
JP2833650B2 (ja) | 文書処理装置 | |
JP2004252005A (ja) | データ提供装置、データ提供方法及びコンピュータプログラム | |
JPH0830629A (ja) | 文書処理装置 | |
JP2005275880A (ja) | 字句をデータに変換する装置、方法及びプログラム | |
JP2002041509A (ja) | 文字入力装置 | |
JPH11203279A (ja) | かな漢字変換装置、かな漢字変換方法、及び記憶媒体 | |
JPH052578A (ja) | かな漢字変換方式 | |
JP2004199282A (ja) | 文書検索装置および文書登録装置 | |
JP3350070B2 (ja) | かな漢字変換装置 | |
JP2003178263A (ja) | 文字認識装置及び記録媒体 | |
JPH0567157A (ja) | 文字列検索方式 | |
JP2010086335A (ja) | 情報処理装置及び検索クエリ決定方法 | |
JPH07129554A (ja) | 文書処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060822 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061023 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070116 |