JP4061283B2 - 字句をデータに変換する装置、方法及びプログラム - Google Patents

字句をデータに変換する装置、方法及びプログラム Download PDF

Info

Publication number
JP4061283B2
JP4061283B2 JP2004089121A JP2004089121A JP4061283B2 JP 4061283 B2 JP4061283 B2 JP 4061283B2 JP 2004089121 A JP2004089121 A JP 2004089121A JP 2004089121 A JP2004089121 A JP 2004089121A JP 4061283 B2 JP4061283 B2 JP 4061283B2
Authority
JP
Japan
Prior art keywords
word
logical index
words
logical
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004089121A
Other languages
English (en)
Other versions
JP2005275884A (ja
Inventor
達彦 相川
一朗 中田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MUFG Bank Ltd
Original Assignee
Bank of Tokyo Mitsubishi UFJ Trust Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of Tokyo Mitsubishi UFJ Trust Co filed Critical Bank of Tokyo Mitsubishi UFJ Trust Co
Priority to JP2004089121A priority Critical patent/JP4061283B2/ja
Publication of JP2005275884A publication Critical patent/JP2005275884A/ja
Application granted granted Critical
Publication of JP4061283B2 publication Critical patent/JP4061283B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置、方法及びプログラムに関する。
例えば、銀行等では受信する決済指図電文等について、計算機を使用して取引先顧客情報(CIF)解析処理が必要になることがある(なお、CIFは顧客情報ファイル(Customer Information File)を意味する。)。詳細には、例えば図1の参照番号30で示されるような電文中の字句「GETRONICS FOODS CO.,LTD 1−2−34 AKASAKA」の中の複数の単語「GETRONICS」、「FOODS」、「CO.,LTD」及び「AKASAKA」の組み合わせを図1の参照番号32に示される顧客コード「123−45678」に変換することが必要になる。
従来は、この変換処理を次のように行っていた。即ち、顧客コードを特定する複数の単語の組み合わせとそれに対応する顧客コードとの顧客コード・テーブルを予め記憶装置に格納しておく。次いで、入力データから変換すべき複数の単語を抽出して、その抽出された複数の単語と顧客コード・テーブルの中の複数の単語とを文字列比較を行い、一致した場合顧客コードに変換していた(そのような例として、特許文献1参照。)。
しかしながら、このような文字列比較は、1文字毎(1バイト単位)で行うため、とりわけ大量のデータが対象になるときには、当該処理に要する検索時間(seek time)の関係上、高速に処理を行うことができないという問題があった。
このような問題を克服しようとする方式として、電文中の字句をCIFコードに変換するために用いる辞書類をメイン・メモリに上にメモリ・アドレスをシンボルとしてシンボル化することがこの特許出願より前の特許出願において提案された(特許文献2参照)。詳細には、複数の単語のそれぞれとその属性情報を関連付けて二次記憶装置に予め登録してある基本語辞書と、基本語辞書に登録されている2つの単語を組み合わせた組と、キーとして選択された当該組の中の単語と当該組により特定される記号とを関連付けて二次記憶装置に予め登録してある核名称辞書と、当該記号と当該組に含まれない別の単語と当該記号及び別の単語により特定されるCIFコードとを関連付けて二次記憶装置に予め登録してあるフル名称辞書とをメイン・メモリ上にメモリ・アドレスをシンボルとしてシンボル化する。シンボル化された基本語辞書を参照して、被変換字句に含まれる単語に対応するアドレスを取得する。そのうちの2つのアドレス(一方をキーとする)が一致する組をシンボル化された核名称辞書から見つけ、次いで、もう1つのアドレスと一致する組をシンボル化されたフル名称辞書から見つけて、被変換字句を目的のCIFコードに変換する。
また、辞書上の単語にインデックスを付し、それをディスクの格納位置と対応付けて、アクセス時間を短縮化する方法は知られている(例えば、特許文献3参照)。
特開2002−56005号公報 特願2003−115287号特許出願 特開平7−36900号公報
前述のように、特許文献2においては、各辞書を関連付けるキー(シンボル)を物理的メモリ・アドレスに直接割り当てる仕様としている。そのような仕様とした場合、コンピュータの特性として、メモリ・アドレスは動的に割り付けられてしまうために、プログラムをメモリ・ロードする度に、辞書相互間のキー関係を、取得したメモリ・アドレスに置き換え、生成する必要があり、この点でプログラム初期処理上、高負荷及び所要時間がかかる。
従って、本発明の課題は、プログラム初期処理上の負荷及び所要時間を低減し、更に字句解析の全体的解析速度を向上させて処理の効率化を図ることにある。
上記課題は、本発明の一局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置であって、複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する第1の論理インデックスの組を、前記単語の組を表象する単語組論理インデックスと関連付けて記憶手段に予め登録してある名称辞書と、前記単語の組に対応する単語組論理インデックス及び前記単語の組に含まれない別の単語に対応する論理インデックスから成る第2の論理インデックスの組を、前記単語の組及び前記別の単語により特定される1つの情報と関連付けて記憶手段に予め登録してあるフル名称辞書と、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、前記処理エンジンは、前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開し、前記名称辞書に登録されている第1の論理インデックスの組を、第1の論理インデックスの組に対応する単語組論理インデックスと関連付けて前記メモリ上にメモリ展開し、前記フル名称辞書に登録されている第2の論理インデックスの組を、第2の論理インデックスの組に対応する1つの情報と関連付けて前記メモリ上にメモリ展開し、変換されるべき字句を単語に分解し、前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスを各々取得、変換し、前記のメモリ展開された第1の論理インデックスの組の中から、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスのの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する第1の論理インデックスの組を選択し、当該選択された第1の論理インデックスの組により特定される単語組論理インデックスを取得し、前記のメモリ展開された第2の論理インデックスの組の中で、前記の取得された単語組論理インデックスと、前記の取得された論理インデックスのうちの残りの論理インデックスとから構成されるいずれかの単語組論理インデックス及び論理インデックスの組と一致する第2の論理インデックスの組を選択し、当該選択された第2の論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置により解決される。
上記課題はまた、本発明の別の局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置であって、複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する第1の論理インデックスの組を、前記単語の組を表象する単語組論理インデックスと関連付けて記憶手段に予め登録してある名称辞書と、前記単語の組に対応する単語組論理インデックス及び前記単語の組に含まれない別の単語に対応する論理インデックスから成る第2の論理インデックスの組を、前記単語の組及び前記別の単語により特定される1つの情報と関連付けて記憶手段に予め登録してあるフル名称辞書と、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、前記処理エンジンは、前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開し、変換されるべき字句を単語に分解し、前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスを各々取得、変換し、前記の取得された論理インデックスを含む全ての第1の論理インデックスの組を前記名称辞書から検索し、当該検索された全ての第1の論理インデックスの組のそれぞれを、各第1の論理インデックスの組に対応する各単語組論理インデックスと関連付けて前記メモリ上にメモリ展開し、前記のメモリ展開された第1の論理インデックスの組の中から、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスのの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する第1の論理インデックスの組を選択し、当該選択された第1の論理インデックスの組により特定される単語組論理インデックスを取得し、前記の取得された単語組論理インデックスを含む全ての第2の論理インデックスの組を前記フル名称辞書から検索し、当該検索された全ての第2の論理インデックスの組のそれぞれを、各第2の論理インデックスの組により特定される1つの情報と関連付けて前記メモリ上にメモリ展開し、前記のメモリ展開された第2の論理インデックスの組の中で、前記の取得された単語組論理インデックスと、前記の取得された論理インデックスのうちの残りの論理インデックスとから構成されるいずれかの単語組論理インデックス及び論理インデックスの組と一致する第2の論理インデックスの組を選択し、当該選択された第2の論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置により解決される。
本発明の装置の一態様によれば、単語を表象する前記論理インデックスが、それぞれの単語に対応する数字であり、且つ単語の組を表象する前記単語組論理インデックスが、それぞれの単語の組に対応する数字であることが好ましい。
本発明の装置の別の態様によれば、それぞれの単語に対応する前記数字及びそれぞれの単語の組に対応する前記数字が2進数で表現された数字であることが好ましい。
本発明の装置の更に別の態様によれば、前記基本語辞書は、単語を格納する単語欄、及び論理インデックスを格納する論理インデックス欄を少なくとも有し、前記単語欄は、単語を論理インデックスに変換する解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを付すよう当該解析処理上同一の意味内容を有する表記の異なる複数の単語を格納可能に構成されており、前記処理エンジンが、前記基本語辞書に登録されている解析処理上同一の意味内容を有する表記の異なる複数の単語を、当該表記の異なる複数の単語に対して割り当てられている同一の論理インデックスと関連付けてメモリ上にメモリ展開することが好ましい。
更に、上記課題は、本発明の一局面に従った、複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する第1の論理インデックスの組を、前記単語の組を表象する単語組論理インデックスと関連付けて記憶手段に予め登録してある名称辞書と、前記単語の組に対応する単語組論理インデックス及び前記単語の組に含まれない別の単語に対応する論理インデックスから成る第2の論理インデックスの組を、前記単語の組及び前記別の単語により特定される1つの情報と関連付けて記憶手段に予め登録してあるフル名称辞書とを備え、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換するコンピュータに、前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、前記名称辞書に登録されている第1の論理インデックスの組を、第1の論理インデックスの組に対応する単語組論理インデックスと関連付けて前記メモリ上にメモリ展開して、メモリ展開された名称辞書を生成するステップと、前記フル名称辞書に登録されている第2の論理インデックスの組を、第2の論理インデックスの組に対応する1つの情報と関連付けて前記メモリ上にメモリ展開して、メモリ展開されたフル名称辞書を生成するステップと、変換されるべき字句を単語に分解するステップと、前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスを各々取得、変換するステップと、前記のメモリ展開された第1の論理インデックスの組の中から、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスのの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する第1の論理インデックスの組を選択し、当該選択された第1の論理インデックスの組により特定される単語組論理インデックスを取得するステップと、前記のメモリ展開された第2の論理インデックスの組の中で、前記の取得された単語組論理インデックスと、前記の取得された論理インデックスのうちの残りの論理インデックスとから構成されるいずれかの単語組論理インデックス及び論理インデックスの組と一致する第2の論理インデックスの組を選択し、当該選択された第2の論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを実行させる方法により解決される。
更にまた、上記課題は、本発明の別の局面に従った、複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する第1の論理インデックスの組を、前記単語の組を表象する単語組論理インデックスと関連付けて記憶手段に予め登録してある名称辞書と、前記単語の組に対応する単語組論理インデックス及び前記単語の組に含まれない別の単語に対応する論理インデックスから成る第2の論理インデックスの組を、前記単語の組及び前記別の単語により特定される1つの情報と関連付けて記憶手段に予め登録してあるフル名称辞書とを備え、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換するコンピュータに、前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、変換されるべき字句を単語に分解するステップと、前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスを各々取得、変換するステップと、前記の取得された論理インデックスを含む全ての第1の論理インデックスの組を前記名称辞書から検索し、当該検索された全ての第1の論理インデックスの組のそれぞれを、各第1の論理インデックスの組に対応する各単語組論理インデックスと関連付けて前記メモリ上にメモリ展開するステップと、前記のメモリ展開された第1の論理インデックスの組の中から、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスの中の複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する第1の論理インデックスの組を選択し、当該選択された第1の論理インデックスの組により特定される単語組論理インデックスを取得するステップと、前記の取得された単語組論理インデックスを含む全ての第2の論理インデックスの組を前記フル名称辞書から検索し、当該検索された全ての第2の論理インデックスの組のそれぞれを、各第2の論理インデックスの組により特定される1つの情報と関連付けて前記メモリ上にメモリ展開するステップと、前記のメモリ展開された第2の論理インデックスの組の中で、前記の取得された単語組論理インデックスと、前記の取得された論理インデックスのうちの残りの論理インデックスとから構成されるいずれかの単語組論理インデックス及び論理インデックスの組と一致する第2の論理インデックスの組を選択し、当該選択された第2の論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを実行させる方法により解決される。
本発明の方法の一態様によれば、単語を表象する前記論理インデックスが、それぞれの単語に対応する数字であり、且つ単語の組を表象する前記単語組論理インデックスが、それぞれの単語の組に対応する数字であることが好ましい。
本発明の方法の別の態様によれば、それぞれの単語に対応する前記数字及びそれぞれの単語の組に対応する前記数字が2進数で表現された数字であることが好ましい。
本発明の方法の更に別の態様によれば、前記基本語辞書は、単語を格納する単語欄、及び論理インデックスを格納する論理インデックス欄を少なくとも有し、前記単語欄は、単語を論理インデックスに変換する解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを付すよう当該解析処理上同一の意味内容を有する表記の異なる複数の単語を格納可能に構成されており、メモリ展開された基本語辞書を生成する前記ステップが、前記基本語辞書に登録されている解析処理上同一の意味内容を有する表記の異なる複数の単語を、当該表記の異なる複数の単語に対して割り当てられている同一の論理インデックスと関連付けてメモリ上にメモリ展開することが好ましい。
上記課題は、本発明の更に別の局面に従った、複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する第1の論理インデックスの組を、前記単語の組を表象する単語組論理インデックスと関連付けて記憶手段に予め登録してある名称辞書と、前記単語の組に対応する単語組論理インデックス及び前記単語の組に含まれない別の単語に対応する論理インデックスから成る第2の論理インデックスの組を、前記単語の組及び前記別の単語により特定される1つの情報と関連付けて記憶手段に予め登録してあるフル名称辞書とを備え、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換するコンピュータに、前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、前記名称辞書に登録されている第1の論理インデックスの組を、第1の論理インデックスの組に対応する単語組論理インデックスと関連付けて前記メモリ上にメモリ展開して、メモリ展開された名称辞書を生成するステップと、前記フル名称辞書に登録されている第2の論理インデックスの組を、第2の論理インデックスの組に対応する1つの情報と関連付けて前記メモリ上にメモリ展開して、メモリ展開されたフル名称辞書を生成するステップと、前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスを各々取得、変換するステップと、前記のメモリ展開された第1の論理インデックスの組の中から、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスのの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する第1の論理インデックスの組を選択し、当該選択された第1の論理インデックスの組により特定される単語組論理インデックスを取得するステップと、前記のメモリ展開された第2の論理インデックスの組の中で、前記の取得された単語組論理インデックスと、前記の取得された論理インデックスのうちの残りの論理インデックスとから構成されるいずれかの単語組論理インデックス及び論理インデックスの組と一致する第2の論理インデックスの組を選択し、当該選択された第2の論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを実行させるプログラムにより解決される。
上記課題は、本発明の別の局面に従った、複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する第1の論理インデックスの組を、前記単語の組を表象する単語組論理インデックスと関連付けて記憶手段に予め登録してある名称辞書と、前記単語の組に対応する単語組論理インデックス及び前記単語の組に含まれない別の単語に対応する論理インデックスから成る第2の論理インデックスの組を、前記単語の組及び前記別の単語により特定される1つの情報と関連付けて記憶手段に予め登録してあるフル名称辞書とを備え、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換するコンピュータに、前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、変換されるべき字句を単語に分解するステップと、前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスを各々取得、変換するステップと、前記の取得された論理インデックスを含む全ての第1の論理インデックスの組を前記名称辞書から検索し、当該検索された全ての第1の論理インデックスの組のそれぞれを、各第1の論理インデックスの組に対応する各単語組論理インデックスと関連付けて前記メモリ上にメモリ展開するステップと、前記のメモリ展開された第1の論理インデックスの組の中から、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスの中の複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する第1の論理インデックスの組を選択し、当該選択された第1の論理インデックスの組により特定される単語組論理インデックスを取得するステップと、前記の取得された単語組論理インデックスを含む全ての第2の論理インデックスの組を前記フル名称辞書から検索し、当該検索された全ての第2の論理インデックスの組のそれぞれを、各第2の論理インデックスの組により特定される1つの情報と関連付けて前記メモリ上にメモリ展開するステップと、前記のメモリ展開された第2の論理インデックスの組の中で、前記の取得された単語組論理インデックスと、前記の取得された論理インデックスのうちの残りの論理インデックスとから構成されるいずれかの単語組論理インデックス及び論理インデックスの組と一致する第2の論理インデックスの組を選択し、当該選択された第2の論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを実行させるプログラムにより解決される。
本発明のプログラムの一態様によれば、単語を表象する前記論理インデックスが、それぞれの単語に対応する数字であり、且つ単語の組を表象する前記単語組論理インデックスが、それぞれの単語の組に対応する数字であることが好ましい。
本発明の方法の別の態様によれば、それぞれの単語に対応する前記数字及びそれぞれの単語の組に対応する前記数字が2進数で表現された数字であることが好ましい。
本発明のプログラムの更に別の態様によれば、前記基本語辞書は、単語を格納する単語欄、及び論理インデックスを格納する論理インデックス欄を少なくとも有し、前記単語欄は、単語を論理インデックスに変換する解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを付すよう当該解析処理上同一の意味内容を有する表記の異なる複数の単語を格納可能に構成されており、メモリ展開された基本語辞書を生成する前記ステップが、前記基本語辞書に登録されている解析処理上同一の意味内容を有する表記の異なる複数の単語を、当該表記の異なる複数の単語に対して割り当てられている同一の論理インデックスと関連付けてメモリ上にメモリ展開することが好ましい。
本発明は、前述のような構成により、それぞれの単語を表象する論理インデックスを予め割り振って、単語と対応の論理インデックスとを関連付けて辞書に格納し、これをメモリ上にメモリ展開することにより、プログラム初期処理上メモリ・アドレスを用いる場合より負荷が軽減され、高速ロードが可能になり、初期処理時間を低減することが可能になる。
本発明は、解析処理における検索の対象を文字からコードたる論理インデックスに変換し、そのコードたる論理インデックスの組み合わせで検索を行うので、文字を単位とする場合に比べ解析処理時間を大幅に短縮することができる。
本発明の一形態においては、単語を表象する論理インデックスが、それぞれの単語に対応する定値であり、且つ単語の組を表象する単語組論理インデックスが、それぞれの単語の組に対応する定値であるので、メモリ展開された第1の論理インデックスの組の中で、分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する第1の論理インデックスの組を選択する動作、及びメモリ展開された第2の論理インデックスの組の中で、取得された単語組論理インデックスと、取得された論理インデックスのうちの残りの論理インデックスとから構成されるいずれかの単語組論理インデックス及び論理インデックスの組と一致する第2の論理インデックスの組を選択する動作が、論理インデックスが他の記号の場合より高速化される。
本発明の別の形態においては、論理インデックスが、本来、文字(1文字=1バイト)から構成される単語を2進数表現の数字に変換して、これに基づいて辞書検索を行うので、メモリ負荷及びCPU負担が軽減され、処理高速化が更に図れる。
本発明の更に別の形態においては、基本語辞書の単語欄に解析処理上同一の意味内容を有する表記の異なる複数の単語を格納することができるので、基本語辞書を記憶する記憶装置のリソース上、及び基本語辞書がメモリ展開されるメモリのリソース上省資源が図れる。
本発明の好適な実施形態を以下図面を参照して説明する。なお、図面を通して同一又は類似の参照番号は同一又は類似の構成要素を示す。
図1は、銀行等で受信する決済指図電文等について計算機を使用して取引先顧客情報(CIF)解析処理に本発明を適用した場合の好適な実施形態に従った字句をデータに変換する装置の基本構成を示す図である。図1において、10はメイン・フレーム・コンピュータ、パーソナル・コンピュータ、マイクロプロセッサ等の任意のデータ処理装置より構成される処理エンジンを、12はメイン・メモリを、14は基本語辞書を、16は核名称辞書を、18はフル名称辞書をそれぞれ示す。基本語辞書14、核名称辞書16及びフル名称辞書18は、磁気ディスク等のハード・ディスク(図示せず)に格納されているが、これに限定されず、いずれの他の形式の記憶装置に格納され得る。処理エンジン10として機能するデータ処理装置と、メイン・メモリ12、及び基本語辞書14、核名称辞書16及びフル名称辞書18を格納するハード・ディスクとは通常のデータ・バス等(図示せず)により相互に結合されている。
図2は、基本語辞書14に事前に登録されている単語(以下、「基本語」とも言う。)をメイン・メモリ12上にメモリ展開した状態を示す。銀行等におけるCIF解析処理で扱う入力データは、通常アルファベット及びニューメリック(数字)から成り、従って、基本語辞書14に登録されている単語もアルファベット及びニューメリック(数字)から構成されている。なお、本明細書における単語あるいは基本語には、普通名詞、固有名詞、略語が含まれるのは勿論、その他、ある意味を有するいずれの一組の記号も含まれる。図2に示すように、基本語辞書14の一例は、項目として、単語、品詞、名称の属性、コードの属性、及び登録された各単語に対応する数字で表される論理インデックスを含む。この論理インデックスの数字は、CPU処理単位数を小さくするため、2進数で表現された数字であることが好ましい。本発明の基本語辞書としては基本語を登録するための単語の欄と、その単語に対応する数字の論理インデックスを格納するための論理インデックスの欄を少なくとも含めばよく、その他の項目は上記のものに限定されるものではない。論理インデックスは、基本語が基本語辞書14の単語の欄に登録されるとき、その単語に対応する数字(定値)が割り振られ、基本語辞書14の論理インデックスの欄に、登録される基本語と関連付けられて当該数字も格納、即ち登録される。基本語辞書14は、変換すべき字句に登録されていない基本語を含む場合、新たな基本語及びそれに対応する論理インデックスを登録し、また登録済みの基本語で使用しなくなった場合に当該基本語及びその対応の論理インデックスを削除できる構造であることが好ましい。
処理エンジン10は、変換処理を開始する前に、図2に示すように、基本語辞書14に登録されている基本語をメイン・メモリ12上にメモリ展開する。メモリ・アドレスは動的に割り付けられるので、プログラムをメモリ・ロードする度に、同じ単語が同一のメモリ・アドレスの場所に格納されるわけではなく、メモリ・アドレスが異なるのが一般的である。従って、この例では、単語の欄の基本語「AKASAKA」について、参照番号100で示されるように、プログラムが所与の時点でメモリ・ロードされたとき動的に割り付けられるメイン・メモリ12上のメモリ・アドレスとして50番が割り付けられ、その場所に「AKASAKA」に関する情報が格納される。メモリ・アドレスとは対照的に、基本語「AKASAKA」は、メイン・メモリ12上で定値の論理インデックス「#100」と関連付けられて格納されていることに注目されたい。なお、高速処理の観点からは、基本語辞書14を全てメイン・メモリ12上にメモリ展開するのが好ましいが、変換すべき字句に含まれる基本語が事前に分かっている場合には、用いられる基本語だけをメイン・メモリ12上にメモリ展開してもよく、更に、用途によっては、変換処理速度が遅くなるが、基本語辞書14に登録されている基本語の一部分をメモリ展開し、未展開の基本語が変換処理に必要になったとき追加的にメモリ展開するようにしてもよい。
図3は、核名称辞書16及びフル名称辞書18のそれぞれに事前に登録されている論理インデックス・セットをメイン・メモリ12上にメモリ展開した状態を示す。なお、図3には、図2と同様の基本語辞書14に事前に登録されている基本語をメイン・メモリ12上にメモリ展開した状態をも示す。
図3に示すように、核名称辞書16の項目は、論理インデックス・セット、名称パターン、フル名称論理インデックスから成る。核名称辞書16の名称パターンの欄には、基本語辞書14に登録されている基本語のうちで、変換すべき可能性のある基本語の組み合わせに含まれる2つ又は3つの基本語が事前に登録されている。具体的には、核名称辞書16の第1行には「GETRONICS」、「FOODS」及び「CO.,LTD」が、第2行には「GETRONICS」及び「SHOKUHIN」が、第3行には「GETRONICS」及び「BANK」がそれぞれ文字列として登録されている。論理インデックス・セットの欄には、これらの組み合わされた基本語に対応する論理インデックスの組が登録されている。具体的には、核名称辞書16の第1行には、名称パターン「GETRONICS FOODS CO.,LTD」に対応して「#107,#106,#104」が、第2行には、名称パターン「GETRONICS SHOKUHIN」に対応して「#107,#112」が、第3行には、名称パターン「GETRONICS BANK」に対応して「#107,#101」がそれぞれ基本語辞書14の論理インデックスの組として登録されている。フル名称論理インデックスの欄には、各名称パターンとの関連を表すための数字のフル名称論理インデックスが登録される。名称パターンの「GETRONICS FOODS CO.,LTD」と「GETRONICS SHOKUHIN」とはその意味内容がおなじであることから、フル名称論理インデックスとして同じ番号、例えば「#500」が割り当てられるのが好ましいが、異なっていてもよい。このフル名称論理インデックスの番号は、CPU処理単位数を小さくするため、2進数で表現された数字であることが好ましい。核名称辞書16は、変換すべき字句に、登録されていない基本語の組み合わせがある場合、新たな基本語を含む組み合わせを登録し、また登録済みの組み合わせで使用しなくなった場合に削除できるようにされていることが好ましい。
フル名称辞書18の項目は、図3に示すように、論理インデックス・セット、名称パターン、及び単語の組み合わせにより特定される1つの情報、例えば、この銀行の応用の例ではCIFコードから成る。フル名称辞書18の名称パターンの欄には、変換すべき可能性のある基本語の組み合わせの中で核名称辞書16の名称パターンに示された基本語以外の基本語が事前に登録されている。図3に示す例では、フル名称辞書18の名称パターンの第1行には「AKASAKA」が、第2行には「OSAKA」がそれぞれ事前に登録されている。基本語「AKASAKA」は、「GETRONICS FOODS CO.,LTD」及び「GETRONICS SHOKUHIN」とそれぞれ組み合わされ得て、且つ「AKASAKA」の対応論理インデックスが「#100」であるので、フル名称辞書18の論理インデックス・セットの第1行には、「#500,#100」が登録される。基本語「OSAKA」も、「GETRONICS FOODS CO.,LTD」及び「GETRONICS SHOKUHIN」とそれぞれ組み合わされ得て、且つ「OSAKA」の対応論理インデックスが「#111」であるので、フル名称辞書18の論理インデックス・セットの第2行には、「#500,#111」が登録される。フル名称辞書18のCIFコードには、核名称辞書16及びフル名称辞書18のそれぞれの名称パターンの組み合わせに対応する変換後の目的のデータ、この場合には顧客コードが登録されている。具体的には、「GETRONICS FOODS CO.,LTD AKASAKA」及び「GETRONICS SHOKUHIN AKASAKA」の両方のCIFコードは、「123−45678」であるので、そのCIFコードがフル名称辞書18のコードの第1行に、また、「GETRONICS FOODS CO.,LTD OSAKA」及び「GETRONICS SHOKUHIN OSAKA」の両方のCIFコードは、「101−23456」であるので、そのCIFコードがフル名称辞書18のコードの第2行にそれぞれ登録される。フル名称辞書18は、変換すべき字句に、登録されていない基本語の組み合わせがある場合、新たな組み合わせを登録し、また登録済みの組み合わせで使用しなくなった場合に削除できるようにされていることが好ましい。
なお、この例では、核名称辞書16及びフル名称辞書18の名称パターンとしては2つ又は3つの基本語の組み合わせを用いているが、2つのみの組み合わせにしても、あるいは処理速度が多少遅くなることが許容できる場合には、4つ以上の組み合わせを用いてもよい。また、この例では、フル名称辞書18を1つ用いているが、用途に応じて、3つ以上用いてもよい。
処理エンジン10は、変換処理を開始する前に、核名称辞書16に登録されている論理インデックス・セットとフル名称論理インデックスとを関連付けて、図3の参照番号16aで示されるようにメイン・メモリ12上へメモリ展開し、そしてフル名称辞書18に登録されている論理インデックス・セットとCIFコードとを関連付けて、図3の参照番号18aに示されるようにメイン・メモリ12上へメモリ展開する。
なお、フル名称辞書18が2以上ある場合には、フル名称辞書間は核名称辞書16のフル名称論理インデックスと同様のフル名称論理インデックスを用いて相互のフル名称辞書をひも付きにする、即ち関連付けすればよい。その場合も、処理エンジン10は、全てのフル名称辞書をメイン・メモリ12上へメモリ展開する。
次に、入力データの変換処理を図1〜図3並びに図4を参照して説明する。図4は、図1に示す変換装置に入力されたデータが変換される過程を説明するための図である。
ここで、メイン・メモリ12上には前述したように基本語辞書14、核名称辞書16及びフル名称辞書18がメモリ展開されているとする。そして、図4の参照番号40で示すデータが入力されたとする。処理エンジン10は、ステップ42に示されるように入力データ40を単語に分解する。この例では、参照番号40に示されるように、入力データは、アルファベット及びニューメリック(数字)から成り、単語間はスペースにより区切られている。処理エンジン10は、入力データ40文字列に含まれるスペースを区切りに入力データ40を単語に分解する。
次いで、処理エンジン10は、ステップ44に示されるように、分解された単語に対応する論理インデックスを、図3に示すメイン・メモリ12上にメモリ展開された基本語辞書14aを参照して取得する。この例では、図3の基本語辞書14aの中の丸で囲った基本語に対応する論理インデックスが取得される。
次いで、処理エンジン10は、ステップ46において、分解された単語のうち、論理インデックスが取得できた単語について、当該単語を、取得できた論理インデックスに変換する。なお、<1−2−34>のように基本語辞書14aにはない場合にはそのままにしておく。この例では、変換後に、「#107」、「#106」、「#104」及び「#100」という論理インデックスが得られる。
処理エンジン10は、ステップ48において、論理インデックス「#107」、「#106」、「#104」及び「#100」のうちの任意の組が、図3に示すメモリ展開された核名称辞書16aの論理インデックス・セットの中にあるか検索して、一致した場合にはその論理インデックス・セットに対応するフル名称論理インデックスを取得する。この例においては、論理インデックス「#107」、「#106」、「#104」の組み合わせが一致し、それに対応するフル名称論理インデックス「#500」が取得される。
処理エンジン10は更に、フル名称論理インデックス「#500」と論理インデックス「#100」の組み合わせが、図3に示すメモリ展開されたフル名称辞書18aの論理インデックス・セットの中にあるか検索して、一致した場合にはその論理インデックス・セットに対応するCIFコードを取得する。この例においては、「#500」及び「#100」の組み合わせに対応するCIFコードとして「123−45678」が取得される。その結果、入力データ即ち字句の中の「GETRONICS FOODS CO.,LTD AKASAKA」が所望のデータであるCIFコード「123−45679」に変換される。
ここで、論理インデックスを用いる利点について説明する。前述のとおり、論理インデックスを用いることにより、本来、文字(1文字=1バイト)から構成される単語は2進数表現の数字に変換され、これに基づいて辞書検索が行われる。例えば、7文字で構成される単語「Shoyama」は、このままをメモリ展開する場合、通常7バイトを要するが、これに論理インデックス「207」を適用した場合、「207」は、2進数でビット表現すると「11001111」となり、8ビット(=1バイト)で表現が可能となる。そのため、論理インデックスは、それにより表象されるいずれの単語よりもCPU処理単位数を小さくする。このような論理インデックスを用いることにより、メモリ負荷及びCPU負担が軽減され、処理高速化が図れる。
なお、図1の処理エンジン10内に記載されている処理ブロックと図4の処理ステップとは、図4のステップ42及び44が図1の単語認識ブロック20に、図4のステップ46が図1の核名称認識ブロック22に、図4のステップ48がフル名称認識ブロック24にそれぞれ対応する。
次に、前述した実施形態の変形例を以下に説明する。上記実施形態と同じ構成、動作の部分は説明を省き、相違する部分のみを説明する。処理エンジン10は、入力データを受け取る前に、基本語辞書14をメイン・メモリ12上にメモリ展開するが、核名称辞書16及びフル名称辞書18について事前にメイン・メモリ12上にメモリ展開しない。
次いで、処理エンジン10は、入力データを受け取り、図4のステップ44までの処理を行う。処理エンジン10は、次いで、入力データに含まれる単語に対応する取得された論理インデックスを含む論理インデックス・セットの全てを核名称辞書16から抽出し、それらを図3の16aで示すようにメイン・メモリ12上にメモリ展開する。
次いで、処理エンジン10は、図4のステップ46と類似の処理を行う。詳細には、図10は、入力データに含まれる単語に対応する取得された論理インデックス「#107」、「#106」、「#104」及び「#100」のうちの任意の組が、図3に示すメモリ展開された核名称辞書16aの論理インデックス・セットの中にあるか検索して、一致した場合にはその論理インデックス・セットに対応するフル名称論理インデックスを取得する。この例においては、論理インデックス「#107」、「#106」、「#104」の組み合わせが一致し、それに対応するフル名称論理インデックス「#500」が取得される。
処理エンジン10は、取得されたフル名称論理インデックス「#500」を含む論理インデックス・セットの全てをフル名称辞書18から抽出し、それらを図3の18aで示すようにメイン・メモリ12上にメモリ展開する。
次いで、処理エンジン10は、図4のステップ48と類似の処理を行う。詳細には、処理エンジン10は、フル名称論理インデックス「#500」と論理インデックス「#100」の組み合わせが、図3に示すメモリ展開されたフル名称辞書18aの論理インデックス・セットの中にあるか検索して、一致した場合にはその論理インデックス・セットに対応するCIFコードを取得する。この例においては、「#500」及び「#100」の組み合わせに対応するCIFコードとして「123−45678」が取得される。その結果、入力データ即ち字句の中の「GETRONICS FOODS CO.,LTD AKASAKA」が所望のデータであるCIFコード「123−45679」に変換される。この変形例は、変換処理速度が前の実施形態より遅くなるが、メイン・メモリ12の容量が少なくてよい。
前述の好適な実施形態においては、論理インデックスを予め定値として定義し、その論理インデックスを基本語と関連付けて基本語辞書14に格納し、これをメイン・メモリ12上にメモリ展開することにより、キーを、プログラムをメモリ・ロードする度に変化し得るメモリ・アドレスに変換する処理が不要となり、また辞書相互間のキー関係を、取得したメモリ・アドレスに置き換え、生成する必要がなくなるため、プログラム初期処理上負荷が軽減され、ロード時間を高速化することができる。また、論理インデックス及び論理インデックス・セットにより構成された辞書解析により、解析処理自体の高速化が可能となる。
更に、前述した実施形態の別の変形例を以下に説明する。この変形例では、基本語辞書14の単語の欄の1つの行に複数の単語を格納し得るようにする。前述した実施形態では、単語を論理インデックスに変換する解析処理を行っている。この解析処理すべき単語には、表記は異なるものの解析処理上同一の意味内容を有するものがある。これらの単語には、個々に異なる論理インデックスを割り振ってもよいが、解析処理上同一の意味内容を有するので、同一の論理インデックスを割り振っても解析処理上問題は生じないし、処理効率上無駄を省くことができる。そこで、このような表記は異なるものの解析処理上同一の意味内容を有する複数の単語を基本語辞書14の単語の欄の1つの行に格納する。格納の仕方の一例としては、各単語を識別できるように、単語と単語との間にスペースを挿入すればよい。なお、本発明は、複数の単語の格納の仕方は、各単語が識別できればいずれの方法でもよい。例えば、「FOODS」と「FOOD」とは、解析処理上表記が異なるが解析処理上同一の意味内容を有する単語である。これらの単語を、図2の参照番号102に示されるように「FOODS」と「FOOD」との間にスペースを挿入して格納する。従って、「FOODS」と「FOOD」とには、同一の論理インデックス「#106」が割り振られることになる。
基本語辞書14の単語欄に2つの単語「FOODS」及び「FOOD」が格納されている場合には、それらの単語は、参照番号104に示されるように単語欄に2つの単語を含む「FOODS FOOD」の形式で、メイン・メモリ12上にメモリ展開される。そのため、メイン・メモリ12上で、単語「FOOD」も単語「FOODS」と同一の論理インデックス「#106」と関連付けされる。
図4に示す入力データにおいて、「FOODS」の代わりに「FOOD」が入力された場合も、前述した実施形態と同様の動作により、「FOOD」は論理インデックス「#106」に変換され、図4のステップ46及び48における動作と同じ動作により、「GETRONICS FOOD CO.,LTD AKASAKA」は、「123−45678」に変換される。
解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを割り振る上記の実施形態では、それら複数の単語には解析処理上同一の意味内容を有するので同一の論理インデックスを割り振り、基本語辞書14の単語欄にそれら複数の単語を同一の論理インデックスと関連付けて格納することにより、メイン・メモリ及びハード・ディスク等の記憶装置のリソースが省資源となり、また処理効率が向上する。
図1は、銀行等で受信する決済指図電文等について計算機を使用してCIF解析処理に本発明を適用した場合の好適な実施形態に従った字句をデータに変換する装置の基本構成を示す図である。 図2は、基本語辞書14に事前に登録されている基本語をメイン・メモリ12上にメモリ展開した状態を示す。 図3は、核名称辞書16及びフル名称辞書18のそれぞれに事前に登録されている論理インデックス・セットをメイン・メモリ12上にメモリ展開した状態を示す。 図4は、図1に示す変換装置に入力されたデータが変換される過程を説明するための図である。
符号の説明
10 処理エンジン
12 メイン・メモリ
14 基本語辞書
16 核名称辞書
18 フル名称辞書

Claims (15)

  1. 複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置であって、
    複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、
    前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する第1の論理インデックスの組を、前記単語の組を表象する単語組論理インデックスと関連付けて記憶手段に予め登録してある名称辞書と、
    前記単語の組に対応する単語組論理インデックス及び前記単語の組に含まれない別の単語に対応する論理インデックスから成る第2の論理インデックスの組を、前記単語の組及び前記別の単語により特定される1つの情報と関連付けて記憶手段に予め登録してあるフル名称辞書と、
    前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、
    前記処理エンジンは、
    前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開し、
    前記名称辞書に登録されている第1の論理インデックスの組を、第1の論理インデックスの組に対応する単語組論理インデックスと関連付けて前記メモリ上にメモリ展開し、
    前記フル名称辞書に登録されている第2の論理インデックスの組を、第2の論理インデックスの組に対応する1つの情報と関連付けて前記メモリ上にメモリ展開し、
    変換されるべき字句を単語に分解し、
    前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスを各々取得、変換し、
    前記のメモリ展開された第1の論理インデックスの組の中から、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスのの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する第1の論理インデックスの組を選択し、当該選択された第1の論理インデックスの組により特定される単語組論理インデックスを取得し、
    前記のメモリ展開された第2の論理インデックスの組の中で、前記の取得された単語組論理インデックスと、前記の取得された論理インデックスのうちの残りの論理インデックスとから構成されるいずれかの単語組論理インデックス及び論理インデックスの組と一致する第2の論理インデックスの組を選択し、当該選択された第2の論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置。
  2. 複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置であって、
    複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、
    前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する第1の論理インデックスの組を、前記単語の組を表象する単語組論理インデックスと関連付けて記憶手段に予め登録してある名称辞書と、
    前記単語の組に対応する単語組論理インデックス及び前記単語の組に含まれない別の単語に対応する論理インデックスから成る第2の論理インデックスの組を、前記単語の組及び前記別の単語により特定される1つの情報と関連付けて記憶手段に予め登録してあるフル名称辞書と、
    前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、
    前記処理エンジンは、
    前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開し、
    変換されるべき字句を単語に分解し、
    前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスを各々取得、変換し、
    前記の取得された論理インデックスを含む全ての第1の論理インデックスの組を前記名称辞書から検索し、当該検索された全ての第1の論理インデックスの組のそれぞれを、各第1の論理インデックスの組に対応する各単語組論理インデックスと関連付けて前記メモリ上にメモリ展開し、
    前記のメモリ展開された第1の論理インデックスの組の中から、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスのの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する第1の論理インデックスの組を選択し、当該選択された第1の論理インデックスの組により特定される単語組論理インデックスを取得し、
    前記の取得された単語組論理インデックスを含む全ての第2の論理インデックスの組を前記フル名称辞書から検索し、当該検索された全ての第2の論理インデックスの組のそれぞれを、各第2の論理インデックスの組により特定される1つの情報と関連付けて前記メモリ上にメモリ展開し、
    前記のメモリ展開された第2の論理インデックスの組の中で、前記の取得された単語組論理インデックスと、前記の取得された論理インデックスのうちの残りの論理インデックスとから構成されるいずれかの単語組論理インデックス及び論理インデックスの組と一致する第2の論理インデックスの組を選択し、当該選択された第2の論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置。
  3. 単語を表象する前記論理インデックスが、それぞれの単語に対応する数字であり、
    単語の組を表象する前記単語組論理インデックスが、それぞれの単語の組に対応する数字である
    請求項1又は2記載の装置。
  4. それぞれの単語に対応する前記数字及びそれぞれの単語の組に対応する前記数字が2進数で表現された数字である請求項3記載の装置。
  5. 前記基本語辞書は、単語を格納する単語欄、及び論理インデックスを格納する論理インデックス欄を少なくとも有し、
    前記単語欄は、単語を論理インデックスに変換する解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを付すよう当該解析処理上同一の意味内容を有する表記の異なる複数の単語を格納可能に構成されており、
    前記処理エンジンが、前記基本語辞書に登録されている解析処理上同一の意味内容を有する表記の異なる複数の単語を、当該表記の異なる複数の単語に対して割り当てられている同一の論理インデックスと関連付けてメモリ上にメモリ展開する
    請求項1から4のいずれか一項に記載の装置。
  6. 複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する第1の論理インデックスの組を、前記単語の組を表象する単語組論理インデックスと関連付けて記憶手段に予め登録してある名称辞書と、前記単語の組に対応する単語組論理インデックス及び前記単語の組に含まれない別の単語に対応する論理インデックスから成る第2の論理インデックスの組を、前記単語の組及び前記別の単語により特定される1つの情報と関連付けて記憶手段に予め登録してあるフル名称辞書とを備え、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換するコンピュータに、
    前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、
    前記名称辞書に登録されている第1の論理インデックスの組を、第1の論理インデックスの組に対応する単語組論理インデックスと関連付けて前記メモリ上にメモリ展開して、メモリ展開された名称辞書を生成するステップと、
    前記フル名称辞書に登録されている第2の論理インデックスの組を、第2の論理インデックスの組に対応する1つの情報と関連付けて前記メモリ上にメモリ展開して、メモリ展開されたフル名称辞書を生成するステップと、
    変換されるべき字句を単語に分解するステップと、
    前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスを各々取得、変換するステップと、
    前記のメモリ展開された第1の論理インデックスの組の中から、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスのの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する第1の論理インデックスの組を選択し、当該選択された第1の論理インデックスの組により特定される単語組論理インデックスを取得するステップと、
    前記のメモリ展開された第2の論理インデックスの組の中で、前記の取得された単語組論理インデックスと、前記の取得された論理インデックスのうちの残りの論理インデックスとから構成されるいずれかの単語組論理インデックス及び論理インデックスの組と一致する第2の論理インデックスの組を選択し、当該選択された第2の論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
    実行させる方法。
  7. 複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する第1の論理インデックスの組を、前記単語の組を表象する単語組論理インデックスと関連付けて記憶手段に予め登録してある名称辞書と、前記単語の組に対応する単語組論理インデックス及び前記単語の組に含まれない別の単語に対応する論理インデックスから成る第2の論理インデックスの組を、前記単語の組及び前記別の単語により特定される1つの情報と関連付けて記憶手段に予め登録してあるフル名称辞書とを備え、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換するコンピュータに、
    前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、
    変換されるべき字句を単語に分解するステップと、
    前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスを各々取得、変換するステップと、
    前記の取得された論理インデックスを含む全ての第1の論理インデックスの組を前記名称辞書から検索し、当該検索された全ての第1の論理インデックスの組のそれぞれを、各第1の論理インデックスの組に対応する各単語組論理インデックスと関連付けて前記メモリ上にメモリ展開するステップと、
    前記のメモリ展開された第1の論理インデックスの組の中から、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスの中の複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する第1の論理インデックスの組を選択し、当該選択された第1の論理インデックスの組により特定される単語組論理インデックスを取得するステップと、
    前記の取得された単語組論理インデックスを含む全ての第2の論理インデックスの組を前記フル名称辞書から検索し、当該検索された全ての第2の論理インデックスの組のそれぞれを、各第2の論理インデックスの組により特定される1つの情報と関連付けて前記メモリ上にメモリ展開するステップと、
    前記のメモリ展開された第2の論理インデックスの組の中で、前記の取得された単語組論理インデックスと、前記の取得された論理インデックスのうちの残りの論理インデックスとから構成されるいずれかの単語組論理インデックス及び論理インデックスの組と一致する第2の論理インデックスの組を選択し、当該選択された第2の論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
    実行させる方法。
  8. 単語を表象する前記論理インデックスが、それぞれの単語に対応する数字であり、
    単語の組を表象する前記単語組論理インデックスが、それぞれの単語の組に対応する数字である
    請求項6又は7記載の方法。
  9. それぞれの単語に対応する前記数字及びそれぞれの単語の組に対応する前記数字が2進数で表現された数字である請求項8記載の方法。
  10. 前記基本語辞書は、単語を格納する単語欄、及び論理インデックスを格納する論理インデックス欄を少なくとも有し、
    前記単語欄は、単語を論理インデックスに変換する解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを付すよう当該解析処理上同一の意味内容を有する表記の異なる複数の単語を格納可能に構成されており、
    メモリ展開された基本語辞書を生成する前記ステップが、前記基本語辞書に登録されている解析処理上同一の意味内容を有する表記の異なる複数の単語を、当該表記の異なる複数の単語に対して割り当てられている同一の論理インデックスと関連付けてメモリ上にメモリ展開する
    請求項6から9のいずれか一項に記載の方法。
  11. 複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する第1の論理インデックスの組を、前記単語の組を表象する単語組論理インデックスと関連付けて記憶手段に予め登録してある名称辞書と、前記単語の組に対応する単語組論理インデックス及び前記単語の組に含まれない別の単語に対応する論理インデックスから成る第2の論理インデックスの組を、前記単語の組及び前記別の単語により特定される1つの情報と関連付けて記憶手段に予め登録してあるフル名称辞書とを備え、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換するコンピュータに、
    前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、
    前記名称辞書に登録されている第1の論理インデックスの組を、第1の論理インデックスの組に対応する単語組論理インデックスと関連付けて前記メモリ上にメモリ展開して、メモリ展開された名称辞書を生成するステップと、
    前記フル名称辞書に登録されている第2の論理インデックスの組を、第2の論理インデックスの組に対応する1つの情報と関連付けて前記メモリ上にメモリ展開して、メモリ展開されたフル名称辞書を生成するステップと、
    前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスを各々取得、変換するステップと、
    前記のメモリ展開された第1の論理インデックスの組の中から、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスのの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する第1の論理インデックスの組を選択し、当該選択された第1の論理インデックスの組により特定される単語組論理インデックスを取得するステップと、
    前記のメモリ展開された第2の論理インデックスの組の中で、前記の取得された単語組論理インデックスと、前記の取得された論理インデックスのうちの残りの論理インデックスとから構成されるいずれかの単語組論理インデックス及び論理インデックスの組と一致する第2の論理インデックスの組を選択し、当該選択された第2の論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
    を実行させるプログラム。
  12. 複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する第1の論理インデックスの組を、前記単語の組を表象する単語組論理インデックスと関連付けて記憶手段に予め登録してある名称辞書と、前記単語の組に対応する単語組論理インデックス及び前記単語の組に含まれない別の単語に対応する論理インデックスから成る第2の論理インデックスの組を、前記単語の組及び前記別の単語により特定される1つの情報と関連付けて記憶手段に予め登録してあるフル名称辞書とを備え、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換するコンピュータに、
    前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、
    変換されるべき字句を単語に分解するステップと、
    前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスを各々取得、変換するステップと、
    前記の取得された論理インデックスを含む全ての第1の論理インデックスの組を前記名称辞書から検索し、当該検索された全ての第1の論理インデックスの組のそれぞれを、各第1の論理インデックスの組に対応する各単語組論理インデックスと関連付けて前記メモリ上にメモリ展開するステップと、
    前記のメモリ展開された第1の論理インデックスの組の中から、前記の分解された単語のうち前記基本語辞書に登録されている単語に対応する論理インデックスの中の複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する第1の論理インデックスの組を選択し、当該選択された第1の論理インデックスの組により特定される単語組論理インデックスを取得するステップと、
    前記の取得された単語組論理インデックスを含む全ての第2の論理インデックスの組を前記フル名称辞書から検索し、当該検索された全ての第2の論理インデックスの組のそれぞれを、各第2の論理インデックスの組により特定される1つの情報と関連付けて前記メモリ上にメモリ展開するステップと、
    前記のメモリ展開された第2の論理インデックスの組の中で、前記の取得された単語組論理インデックスと、前記の取得された論理インデックスのうちの残りの論理インデックスとから構成されるいずれかの単語組論理インデックス及び論理インデックスの組と一致する第2の論理インデックスの組を選択し、当該選択された第2の論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
    を実行させるプログラム。
  13. 単語を表象する前記論理インデックスが、それぞれの単語に対応する数字であり、
    単語の組を表象する前記単語組論理インデックスが、それぞれの単語の組に対応する数字である
    請求項11又は12記載のプログラム。
  14. それぞれの単語に対応する前記数字及びそれぞれの単語の組に対応する前記数字が2進数で表現された数字である請求項13記載のプログラム。
  15. 前記基本語辞書は、単語を格納する単語欄、及び論理インデックスを格納する論理インデックス欄を少なくとも有し、
    前記単語欄は、単語を論理インデックスに変換する解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを付すよう当該解析処理上同一の意味内容を有する表記の異なる複数の単語を格納可能に構成されており、
    メモリ展開された基本語辞書を生成する前記ステップが、前記基本語辞書に登録されている解析処理上同一の意味内容を有する表記の異なる複数の単語を、当該表記の異なる複数の単語に対して割り当てられている同一の論理インデックスと関連付けてメモリ上にメモリ展開する
    請求項11から14のいずれか一項に記載のプログラム。
JP2004089121A 2004-03-25 2004-03-25 字句をデータに変換する装置、方法及びプログラム Expired - Lifetime JP4061283B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004089121A JP4061283B2 (ja) 2004-03-25 2004-03-25 字句をデータに変換する装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004089121A JP4061283B2 (ja) 2004-03-25 2004-03-25 字句をデータに変換する装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2005275884A JP2005275884A (ja) 2005-10-06
JP4061283B2 true JP4061283B2 (ja) 2008-03-12

Family

ID=35175488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004089121A Expired - Lifetime JP4061283B2 (ja) 2004-03-25 2004-03-25 字句をデータに変換する装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4061283B2 (ja)

Also Published As

Publication number Publication date
JP2005275884A (ja) 2005-10-06

Similar Documents

Publication Publication Date Title
KR101265263B1 (ko) 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체
US8190613B2 (en) System, method and program for creating index for database
JP5011751B2 (ja) 訳語情報出力処理プログラム,処理方法および処理装置
JP2009266244A (ja) 簡潔言語学データを生成かつ使用するシステムおよび方法
WO2010047286A1 (ja) 検索システム、検索方法およびプログラム
WO2008043582A1 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in said dictionary
JP2005107597A (ja) 類似文検索装置、類似文検索方法、およびプログラム
JP6805720B2 (ja) データ検索プログラム、データ検索装置およびデータ検索方法
JP6787755B2 (ja) 文書検索装置
JP6737117B2 (ja) 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
KR100712001B1 (ko) 중국어 데이타 및 사용자에 의해 정정된 데이타를작성하고 사용하는 방법 및 시스템
JP2005275880A (ja) 字句をデータに変換する装置、方法及びプログラム
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JPH056398A (ja) 文書登録装置及び文書検索装置
JP2010146273A (ja) 文書検索装置およびプログラム
JP2001357031A (ja) Unicodeテキストを混合コードページに変換する方法およびシステム
JP4303027B2 (ja) 字句をデータに変換する装置及び方法
JP2004334690A (ja) 文字データ入出力装置、文字データ入出力方法、文字データ入出力プログラム、およびコンピュータ読み取り可能な記録媒体
JP7022789B2 (ja) 文書検索装置、文書検索方法およびコンピュータプログラム
JP2009093405A (ja) データ検索のためのシステム、方法及びコンピュータプログラム
JP4051369B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP3187671B2 (ja) 電子辞書表示装置
JP5160120B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
JPS63278174A (ja) 翻訳装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070806

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070720

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4061283

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101228

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131228

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250