JP2004070749A - 情報検索装置 - Google Patents

情報検索装置 Download PDF

Info

Publication number
JP2004070749A
JP2004070749A JP2002230546A JP2002230546A JP2004070749A JP 2004070749 A JP2004070749 A JP 2004070749A JP 2002230546 A JP2002230546 A JP 2002230546A JP 2002230546 A JP2002230546 A JP 2002230546A JP 2004070749 A JP2004070749 A JP 2004070749A
Authority
JP
Japan
Prior art keywords
character
standard
information
external
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002230546A
Other languages
English (en)
Inventor
Atsushi Sakakibara
榊原 淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Media Fusion Co Ltd
Original Assignee
Media Fusion Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Media Fusion Co Ltd filed Critical Media Fusion Co Ltd
Priority to JP2002230546A priority Critical patent/JP2004070749A/ja
Publication of JP2004070749A publication Critical patent/JP2004070749A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】データベース検索において、外字の表示だけでなく、外字を用いた検索も行えるようにする。
【解決手段】情報検索装置0104に、標準文字と文字コードとを関連付けた標準フォントセットテーブルを保持する保持部0701と、標準文字と外字とを関連付けた外字セットテーブルを保持する保持部0702と、前記保持部0701に基づいて標準文字を文字コードに変換する他、前記保持部0702に基づいて外字を標準文字に変換した後、該標準文字を前記保持部0701に基づいて文字コードに変化する。
【選択図】   図7

Description

【0001】
【発明の属する技術分野】
本発明は、博物館や文化財施設における漢文・古文書などの歴史資料、科学技術に関する文献および顧客の住所録等のように、特に外字を含む文字情報を検索するのに用いられる情報検索装置に関する。
【0002】
【従来の技術および発明が解決しようとする課題】
近年、情報技術(IT)の進展およびインターネット利用者の急増に伴って、例えば、各種の文献や名簿等をデータベース化し、ユーザーが随時、前記文献等をパーソナルコンピュータを用いて検索することにより、必要な情報を簡単且つ即座に得ることができるようになっている。
【0003】
しかしながら、例えば同窓会名簿や会社の顧客名簿等における地名や姓名、博物館や文化財施設における漢文や古文書等には、JIS漢字コードで用意されていない文字が多く存在するが、従来、前記同窓会名簿や顧客名簿、或いは古文書等をデータベース化して必要な検索が行えるようにする場合、JIS漢字コードに用意されていない文字を適当な代理文字に置き換えたり、あるいはJIS漢字コードの未定義領域を使用して予め外字をデータベースに登録していた。
【0004】
しかしながら、前述した代理文字を使用する場合には、本来の文字ではないため、文献等のデータベースにおける情報の正確性に欠けることとなる。また、本来の文字に対して置き換えられる適当な代理文字がない場合もあり、このような場合には元の文献等における表現を一部変更した形でデータベースに記憶させたりするため、やはり情報の正確性に欠けることとなる。
【0005】
一方、外字を使ったデータベースの場合、元の文献等に忠実な表示ができるものの、ユーザー側で外字を使った検索を行うことができないという不都合があり、そのため文献等の検索が不十分となる場合があった。
【0006】
本発明の目的は、データベースで検索された文献等における外字の表示ができるだけでなく、ユーザーが外字を用いた検索をも行うことができる情報検索装置を提供することにある。
【0007】
【課題を解決するための手段】
請求項1記載の本発明は、標準文字と文字コードとを関連付けた標準フォントセットテーブルを保持する標準フォントセットテーブル保持部と、前記標準フォントセットテーブルにて文字コードを割り当てられていない文字である外字と前記標準文字とを関連付けた外字セットテーブルを保持する外字セットテーブル保持部と、情報を文字コードにて蓄積する情報蓄積部と、前記情報蓄積部に蓄積された情報を検索するための情報である検索情報を取得する検索情報取得部と、前記検索情報取得部で取得された検索情報に基づいて前記情報蓄積部に蓄積されている情報を検索する検索部と、取得された情報を構成する文字種が、標準文字か、外字かを判断する判断部と、前記判断部で、取得された情報を構成する文字種が標準文字であると判断された場合には、その標準文字を前記標準フォントセットテーブルに基づいて文字コードに変換し、外字であると判断された場合には、その外字を前記外字セットテーブルに基づいて標準文字に変換した後、更に前記標準フォントセットテーブルを介して文字コードに変換するコード変換部とを有する情報検索装置に関するものである。
【0008】
請求項2記載の本発明は、前記請求項1記載の情報検索装置について、コード変換部で文字コードに変換された標準文字コードを標準フォントセットテーブルに基づいて標準文字に変換すると共に、変換された標準文字が外字セットテーブルに保持されている特定の標準文字である場合には、該標準文字を対応する外字に変換するコード復元部を更に有するものである。
【0009】
請求項3記載の本発明は、標準文字と文字コードとを関連付けるステップと、文字コードを割り当てられていない文字である外字と前記標準文字とを関連付けるステップと、入力された文字が前記外字を含む場合または入力された文字が前記外字である場合に該外字を標準文字に変換するステップと、変換した標準文字を文字コードに変換するステップとを有するデータベースにおける外字処理方法に関するものである。
【0010】
なお、本明細書において、標準文字とは、JIS第1・第2水準文字やアスキーコード等の既製コードで用意されている文字をいう。
【0011】
【発明の実施の形態】
次に、本発明の実施の形態を図面にしたがって説明する。
【0012】
(実施形態1)
【0013】
本実施形態は外字を含む文字情報の検索システムに関するものであり、具体的には図書館の蔵書検索システムに関するものである。
本実施形態の全体構成について説明すると、図1に示すように、各ユーザーが所有する端末装置(0101)〜(0103)と、文字情報の管理者が所有する情報検索装置(0104)とが無線または有線で接続されている。
【0014】
端末装置(0101)〜(0103)は、例えばブラウザを有するパーソナルコンピュータであって、後述するテキスト形式に対応した入力コントロールを備えている。
【0015】
より具体的には、図2に示すように、端末装置(0101)〜(0103)は、文字情報の検索のための入力部(0201)と、入力内容を情報検索装置(0104)へ送信する送信部(0202)と、情報検索装置(0104)から後述する検索のための情報を受信したり、検索結果を受信する受信部(0203)と、検索のための情報や検索結果を表示する表示部(0204)とを有する。
【0016】
入力部(0201)としては、キーボードやテンキー、マウス等が挙げられる。そして、本実施形態では、入力部(0201)は、リッチテキストフォーマット(RTF)に基く入力コントロールを行う。
【0017】
送信部(0202)としては、モデムとドライバ、通信モジュール等が挙げられる。
【0018】
受信部(0203)としては、モデムとドライバ、チューナー等が挙げられる。
【0019】
表示部(0204)としては、ディスプレイが挙げられる。
【0020】
次に、図3に示すように、端末装置(0101)〜(0103)における処理の一例について説明すると、先ずユーザーが検索したい文字や文字列の入力を行う場合のように、検索のための所定の入力があるまで待機する(ステップS0301)が、この際、例えば図4に示すように、情報検索装置(0104)から送信された検索画面の「外字入力」というボタンをユーザーがクリックすることにより、情報検索装置(0104)の後述する外字セットテーブルに登録されている外字が順次表示され(図5参照)、いずれかの外字をユーザーが選択することにより、該外字が検索キーワードとなる。
【0021】
そして、図4における「検索」というボタンをユーザーがクリックすることにより、前記外字を含む検索キーワードが入力内容として情報検索装置(0104)へ送信される(ステップS0302)。
【0022】
その後、情報検索装置(0104)から検索結果を受信するまで待機し(ステップS0303)、受信した場合には、図6に示すように、その内容を表示する(ステップS0304)。
【0023】
図7に示すように、情報検索装置(0104)は、標準文字と文字コードとを関連付けた標準フォントセットテーブルを保持する標準フォントセットテーブル保持部(0701)と、前記標準フォントセットテーブルにて文字コードを割り当てられていない文字である外字と前記標準文字とを関連付けた外字セットテーブルを保持する外字セットテーブル保持部(0702)と、情報を文字コードにて蓄積する情報蓄積部(0703)と、前記情報蓄積部(0703)に蓄積された情報を検索するための情報である検索情報を取得する検索情報取得部(0704)と、前記検索情報取得部(0704)で取得された検索情報に基づいて前記情報蓄積部(0703)に蓄積されている情報を検索する検索部(0705)と、取得された情報を構成する文字種が、標準文字か、外字かを判断する判断部(0706)と、該判断部(0706)で、取得された情報を構成する文字種が標準文字であると判断された場合には、その標準文字を前記標準フォントセットテーブルに基づいて文字コードに変換し、外字であると判断された場合には、その外字を前記外字セットテーブルに基づいて標準文字に変換した後、更に前記標準フォントセットテーブルを介して文字コードに変換するコード変換部(0707)と、コード変換部(0707)で文字コードに変換された標準文字コードを標準フォントセットテーブルに基づいて標準文字に変換すると共に、変換された標準文字が外字セットテーブルに保持されている文字種である場合には、該標準文字を対応する外字に変換するコード復元部(0708)と、検索のための情報または検索結果を端末装置(0101)〜(0103)へ送信する送信部(0709)とを有するものである。
【0024】
標準フォントセットテーブル保持部(0701)とは、前述したように、標準文字と文字コードとを関連付けた標準フォントセットテーブルを保持するものであるが、具体的にはシフトJISが該当し得る。
【0025】
外字セットテーブル保持部(0702)は、前述したように、外字と前記標準文字とを関連付けた外字セットテーブルを保持するものであるが、これは本検索システムで使用する外字を標準文字の組み合わせとして登録しておくためのものである。
【0026】
具体的には、登録しておく外字を書体名称(フォント)と文字コードとからなるものととらえ、これらをシフトJIS等の標準コード内の文字で表している(エンコード)。例えば、外字フォント名称に16進数で番号をふり、外字の書体名称を対応する外字フォント名称の番号で表現する。一方、文字コードは、1バイト目の16進数文字コードを1桁または2桁、2バイト目の16進数文字コードも1桁または2桁としておく。
【0027】
そして、例えば上部に「士」がついた「吉」という漢字はシフトJISで用意されている標準文字であるが、前記「吉」の上部が「土」になっているものはシフトJISで用意されていない外字となるが、ここで「吉」の上部が「土」になっているものを外字として当該外字セットテーブル保持部(0702)に保持しておく場合には、例えば、図8に示すように、書体名称(フォント)として「#03」という標準文字と文字コードとして「0003」という標準文字とで特定する。
【0028】
従って、著者として「吉田」という姓のうち、「吉」の上部が「土」になっている著者は、「#030003田」という形で表現される。
【0029】
前記「#」はフォントを特定するものであって、例えば図9に示すように、1=HG行書体、2=MSPゴシック、3=MS明朝、4=特殊フォント等と設定されている。
【0030】
前記「#」以外にもフォントを表す標準文字として「!」「?」「$」「%」・・・等が適宜使用される。また更に、半角セミコロン「;」や半角英数「0〜9」「a〜f」等も外字を表す標準文字として使用され、当該外字セットテーブル保持部(0702)を介して対応する外字に変換され得る。
【0031】
また、テキストを識別する領域として、例えば文字コードの20〜7Fが使用され得る。
【0032】
情報蓄積部(0703)は、本実施形態では、一般的な種々のテキスト形式で文字情報を蓄積したものである。情報蓄積部(0703)では、図10に示すように、フォント名、コード、文字サイズ、文字色、下線付、ボールド(B)、強調、斜体(I)等が特定された形で文字情報が蓄積されている。
【0033】
前記検索情報取得部(0704)とは、前述した通り、前記情報蓄積部(0703)に蓄積された情報を検索するための情報である検索情報を取得するものであるが、具体的にはユーザーの端末装置(0101)〜(0103)から文字情報の検索に関する検索キーワード等を受信する機能を有するものである。
【0034】
検索部(0705)は、前記検索情報取得部(0704)で取得された検索情報に基づいて前記情報蓄積部(0703)に蓄積されている文字情報を検索する機能を有するものであるが、例えば端末装置(0101)〜(0103)の表示部(0204)に表示された図4の検索画面に従ってユーザーが入力した検索内容を実行するものであり、検索のためのソフトウエアによって実現され得る。
【0035】
前記判断部(0706)とは、検索情報取得部(0704)が取得した検索情報中に、外字セットテーブル保持部(0702)における文字種が存在するか否かを検知する機能を有するものであり、ソフトウエアで実現され得る。
【0036】
コード変換部(0707)とは、前述した標準フォントセットテーブル保持部(0701)と外字セットテーブル保持部(0702)に基づいて、取得された検索情報が標準文字のみからなる場合には、直ちに文字コードに変換するが、検索情報に外字がある場合にはそれに対応する標準文字に変換した後、更に該標準文字を最終的に文字コードに変換するという2段階の外字用変換をも実行する機能を有するものである。
【0037】
コード復元部(0708)とは、前記コード変換部(0707)と逆の機能を有するものであり、最終的にユーザーの端末装置(0101)〜(0103)に提供される文字情報を標準文字および/または外字で表示するためのものである。
【0038】
送信部(0709)は、前述した通り、検索のための情報または検索結果を端末装置(0101)〜(0103)へ送信する機能を有するものであり、モデムとドライバ、通信モジュール等により実現され得る。
【0039】
本実施形態では、情報蓄積部(0703)に蓄積された情報を検索するための情報である検索情報を取得する検索情報取得部(0704)と、検索のための情報または検索結果を端末装置(0101)〜(0103)へ送信する送信部(0709)が設けられているが、当該情報検索装置(0104)自体で検索情報を入力して文字情報の検索を行い、且つその検索結果を当該情報検索装置(0104)自体で表示する場合には、検索情報取得部(0704)および送信部(0709)は省略され、入力部および表示部が追加され得る。
【0040】
次に、本情報検索装置(0104)における処理の一例について説明すると、図10に示すように、先ず端末装置(0101)〜(0103)から検索情報を取得するまで待機し(ステップS1001)、取得したときには、検索情報に外字があるか否かを判断し(ステップS1002)、外字があった場合には、該外字を対応する標準文字に変換(ステップS1003)した後、該標準文字を文字コードに変換する(ステップS1004)。
【0041】
一方、前記検索情報に外字がなかった場合には、検索情報を文字コードに変換(ステップS1004)することとなる。
【0042】
次に、変換した文字コードに基づいて、文字情報の検索を行い(ステップS1005)、検出された文字コードの情報を標準文字および/または外字に変換(ステップS1006)した後、これを端末装置(0101)〜(0103)へ送信する(ステップS1007)。
【0043】
本実施形態の情報検索システムによれば、ユーザーの端末装置において、外字を含む検索結果が表示されるだけでなく、検索自体も外字を用いて行うことができる。
【0044】
(実施形態2)
【0045】
本実施形態は、前記実施形態1の情報検索装置(0104)におけるコード復元部(0708)を省略したものである。
【0046】
すなわち、図12に示すように、情報検索装置(1200)は、標準文字と文字コードとを関連付けた標準フォントセットテーブルを保持する標準フォントセットテーブル保持部(1201)と、前記標準フォントセットテーブルにて文字コードを割り当てられていない文字である外字と前記標準文字とを関連付けた外字セットテーブルを保持する外字セットテーブル保持部(1202)と、情報を文字コードにて蓄積する情報蓄積部(1203)と、前記情報蓄積部(1203)に蓄積された情報を検索するための情報である検索情報を取得する検索情報取得部(1204)と、前記検索情報取得部(1204)で取得された検索情報に基づいて前記情報蓄積部(1203)に蓄積されている情報を検索する検索部(1205)と、取得された情報を構成する文字種が、標準文字か、外字かを判断する判断部(1206)と、該判断部(1206)で、取得された情報を構成する文字種が標準文字であると判断された場合には、その標準文字を前記標準フォントセットテーブルに基づいて文字コードに変換し、外字であると判断された場合には、その外字を前記外字セットテーブルに基づいて標準文字に変換した後、更に前記標準フォントセットテーブルを介して文字コードに変換するコード変換部(1207)と、検索のための情報または検索結果を端末装置(0101)〜(0103)へ送信する送信部(1208)とを有するものである。
【0047】
当該情報検索装置(1200)における前述した各部の機能は、前記実施形態1と同様であるので説明を省略する。
【0048】
次に、本実施形態の情報検索装置(1200)における処理の一例について説明する。なお、当該処理ではユーザーが端末装置(0101)〜(0103)で著者の生年月日を検索するものとする。
図13に示すように、先ず端末装置(0101)〜(0103)から検索情報として例えば著者名を取得するまで待機し(ステップS1301)、取得したときには、著者名に外字があるか否かを判断し(ステップS1302)、外字があった場合には、該外字を対応する標準文字に変換(ステップS1303)した後、該標準文字を文字コードに変換する(ステップS1304)。
【0049】
一方、前記著者名に外字がなかった場合には、これを文字コードに変換(ステップS1304)することとなる。
【0050】
次に、変換した文字コードに基づいて、著者の検索を行い(ステップS1305)、検出された著者の生年月日を端末装置(0101)〜(0103)へ送信する(ステップS1306)。
【0051】
本実施形態によれば、コード復元部が省略され、全体として構成が簡略化され得る。
【0052】
【発明の効果】
本発明によれば、同窓会名簿や顧客名簿、或いは漢文や古文書等のように外字を多く含む情報の検索においても、検索結果は勿論、検索の際にも外字を使用することができるため、従来のように、外字の代理文字を使用する必要がなく、情報の正確性が担保されると共に、従来に比べて十分な情報検索が可能となる。
【図面の簡単な説明】
【図1】情報検索システムの全体構成を示す図
【図2】端末装置の機能ブロック図
【図3】端末装置における処理の一例を示すフローチャート
【図4】検索画面の一例を示す図
【図5】外字の出力例を示す図
【図6】検索結果の一例を示す図
【図7】情報検索装置の機能ブロック図
【図8】外字フォントセットの一例を示す図
【図9】フォントの管理例を示す図
【図10】情報検索装置における処理の一例を示すフローチャート
【図11】外字の登録例を示す図
【図12】実施形態2における情報装置の機能ブロック
【図13】情報処理装置における処理の一例を示すフローチャート
【符号の説明】
(0101)〜(0103): 端末装置
(0104): 情報検索装置
(0701): 標準フォントセットテーブル保持部
(0702): 外字セットテーブル保持部
(0703): 情報蓄積部
(0704): 検索情報取得部
(0705): 検索部
(0706): 判断部
(0707): コード変換部
(0708): コード復元部
(0709): 送信部

Claims (3)

  1. 標準文字と文字コードとを関連付けた標準フォントセットテーブルを保持する標準フォントセットテーブル保持部と、
    前記標準フォントセットテーブルにて文字コードを割り当てられていない文字である外字と前記標準文字とを関連付けた外字セットテーブルを保持する外字セットテーブル保持部と、
    情報を文字コードにて蓄積する情報蓄積部と、
    前記情報蓄積部に蓄積された情報を検索するための情報である検索情報を取得する検索情報取得部と、
    前記検索情報取得部で取得された検索情報に基づいて前記情報蓄積部に蓄積されている情報を検索する検索部と、
    取得された情報を構成する文字種が、標準文字か、外字かを判断する判断部と、前記判断部で、取得された情報を構成する文字種が標準文字であると判断された場合には、その標準文字を前記標準フォントセットテーブルに基づいて文字コードに変換し、外字であると判断された場合には、その外字を前記外字セットテーブルに基づいて標準文字に変換した後、更に前記標準フォントセットテーブルを介して文字コードに変換するコード変換部と、
    を有する情報検索装置。
  2. コード変換部で文字コードに変換された標準文字コードを標準フォントセットテーブルに基づいて標準文字に変換すると共に、変換された標準文字が外字セットテーブルに保持されている特定の標準文字である場合には、該標準文字を対応する外字に変換するコード復元部を更に有する請求項1記載の情報検索装置。
  3. 標準文字と文字コードとを関連付けるステップと、
    文字コードを割り当てられていない文字である外字と前記標準文字とを関連付けるステップと、
    入力された文字が前記外字を含む場合または入力された文字が前記外字である場合に該外字を標準文字に変換するステップと、
    変換した標準文字を文字コードに変換するステップと、
    を有する外字処理方法。
JP2002230546A 2002-08-07 2002-08-07 情報検索装置 Pending JP2004070749A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002230546A JP2004070749A (ja) 2002-08-07 2002-08-07 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002230546A JP2004070749A (ja) 2002-08-07 2002-08-07 情報検索装置

Publications (1)

Publication Number Publication Date
JP2004070749A true JP2004070749A (ja) 2004-03-04

Family

ID=32016587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002230546A Pending JP2004070749A (ja) 2002-08-07 2002-08-07 情報検索装置

Country Status (1)

Country Link
JP (1) JP2004070749A (ja)

Similar Documents

Publication Publication Date Title
US20020077808A1 (en) Intelligent dictionary input method
US20020126097A1 (en) Alphanumeric data entry method and apparatus using reduced keyboard and context related dictionaries
TW200821867A (en) Program, character input editing method, and apparatus
JP2004070749A (ja) 情報検索装置
JP4089399B2 (ja) 情報検索方法及び装置
JP3972870B2 (ja) 情報表示制御装置、サーバ及びプログラム
JPH09293072A (ja) フロントエンドプロセッサ
JP2006092223A (ja) 携帯通信端末及び多言語表示制御方法
JPH08115330A (ja) 類似文書検索方法および装置
TW478270B (en) Intelligent input method for dictionary
JP2005044071A (ja) 電子辞書
JPH11288364A (ja) 情報閲覧方法及び装置並びに記憶媒体
TWI235312B (en) Fast input system of Chinese words
JP2022074154A (ja) 文字入力装置、文字入力方法、文字入力プログラム
JP2004227150A (ja) 文字列変換処理プログラム
JP2002288221A (ja) 文書表示装置、文書表示方法ならびに、プログラム
JP2006338598A (ja) 情報検索装置及び検索条件表示プログラム
JP2003219014A (ja) 電話帳情報抽出方式及びその方法
JP2002358301A (ja) 電子辞書
JP2006172029A (ja) 検索結果提示方法
JPS5816342A (ja) 日本語ワ−ドプロセツサ
JP2982076B2 (ja) 文章処理装置および方法
JP2000259302A (ja) 画面生成方法
JP2004030399A (ja) データベース調整機能を有する入力装置および方法
JP2004021672A (ja) 文書管理システム、文書管理方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080630

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081107