JP2004318753A - 字句をデータに変換する装置及び方法 - Google Patents
字句をデータに変換する装置及び方法 Download PDFInfo
- Publication number
- JP2004318753A JP2004318753A JP2003115287A JP2003115287A JP2004318753A JP 2004318753 A JP2004318753 A JP 2004318753A JP 2003115287 A JP2003115287 A JP 2003115287A JP 2003115287 A JP2003115287 A JP 2003115287A JP 2004318753 A JP2004318753 A JP 2004318753A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- symbol
- dictionary
- symbolized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】単語から成る基本語辞書14、2つの単語の組から成る核名称辞書16、当該組の記号と更に別の単語と目的のデータとの組から成るフル名称辞書18をメイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化する。シンボル化された基本語辞書を参照して、被変換字句に含まれる単語に対応するアドレスを取得する。そのうちの2つのアドレス(一方をキーとする)が一致する組をシンボル化された核名称辞書16から見つけ、次いで、もう1つのアドレスと一致する組をシンボル化されたフル名称辞書18から見つけ目的のデータに変換する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置及び方法に関する。
【0002】
【従来の技術】
例えば、銀行ではいわゆる電文等についてCIF解析処理が必要になることがある(なお、CIFは顧客情報ファイル(Customer Information File)を意味する。)。詳細には、銀行間あるいは銀行内での電文の処理で、例えば図1の参照番号30で示されるような電文中の字句「GETRONICS FOODS CO.LTD 1−2−34 AKASAKA」の中の複数の単語「GETRONICS」、「FOODS」及び「AKASAKA」の組み合わせを図1の参照番号32に示される顧客コード「123−45678」に変換することが必要になる。
【0003】
従来は、この変換処理を次のように行っていた。即ち、複数の単語の組み合わせとそれに対応する顧客コードとの顧客コード・テーブルを予め記憶装置に格納しておく。次いで、入力データから変換すべき複数の単語を抽出して、その抽出された複数の単語と顧客コード・テーブルの中の複数の単語とを文字列比較を行い、一致した場合顧客コードに変換していた(そのような例として、特許文献1参照。)。
【0004】
【特許文献1】
特開2002−56005号公報
【0005】
【発明が解決しようとする課題】
しかしながら、このような文字列比較は、1バイト単位で行うため、とりわけ大量のデータが対象になるときには、当該処理に要する検索時間(seek time)の関係上、高速に処理を行うことができないという問題があった。
【0006】
従って、本発明の課題は、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに高速に変換して、当該データの入力を受けるコンピュータでの処理を可能とすることにある。
【0007】
【課題を解決するための手段】
上記課題は、本発明の一局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置であって、複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される1つの情報とを関連付けて記憶手段に予め登録してある名称辞書と、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、前記処理エンジンは、前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成し、変換されるべき字句を単語に分解し、前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得し、前記の分解された単語の中からキーとなる単語を抽出し、前記の抽出された単語をキーとして含む全ての組を前記名称辞書から検索し、当該全ての組に含まれる全ての単語に対応する前記シンボル化された基本語辞書におけるアドレスを取得し、当該取得されたアドレスを各組毎に前記組により特定される1つの情報と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化し、前記メモリ上にシンボル化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置により解決される。
【0008】
上記課題はまた、本発明の別の局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置であって、複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される記号とを関連付けて記憶手段に予め登録してある名称辞書と、前記記号と、前記組に含まれない別の単語と、前記記号及び前記別の単語により特定される1つの情報とを関連付けて記憶手段に予め登録してあるフル名称辞書と、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、前記処理エンジンは、前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成し、変換されるべき字句を単語に分解し、前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得し、前記の分解された単語の中からキーとなる単語を抽出し、前記の抽出されたキーとなる単語を含む全ての組を前記名称辞書から検索し、当該全ての組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各組毎に前記組により特定される記号と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化し、前記メモリ上にシンボル化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出し、前記の抽出された記号をキーとして含む全ての組を前記フル名称辞書から検索し、当該全ての組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各組毎に当該組により特定される1つの情報と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化し、前記メモリ上にシンボル化された組の中で各組に含まれる各単語に対応する各アドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置により解決される。
【0009】
本発明の装置の一形態によれば、前記記号を第1の記号とし、前記名称辞書における前記組を第1の組とし、前記フル名称辞書は、第Nの記号及び第1の組からNまでの組に含まれない別の単語を組み合わせた第N+1の組と、第Nの記号及び当該別の単語とにより特定される第N+1の記号とを関連付けて記憶手段に予め登録してある第Nのフル名称辞書と、第Mの記号及び第1からMまでの組に含まれない別の単語を組み合わせた第M+1の組と、第Mの記号及び当該別の単語とにより特定される1つの情報とを関連付けて記憶手段に予め登録してある最後のフル名称辞書と(但し、Nは1からM−1までの整数であり、Mは2以上の1つの整数)から成り、前記処理エンジンは、前記メモリ上にシンボル化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出するよう動作した後で、(a)抽出された第Nの記号をキーとして含む全ての第N+1の組を第Nのフル名称辞書から検索し、当該全ての第N+1の組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各第N+1の組毎に前記第N+1の組により特定される第N+1の記号と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化し、(b)前記メモリ上にシンボル化された第N+1の組の中で各第N+1の組に含まれる各単語に対応する各アドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第N+1の組を選択し、当該選択された第N+1の組により特定される第N+1の記号を抽出し、(c)前記(a)から(b)までの動作をN=1からM−1までに対して繰返し、抽出された第Mの記号をキーとして含む全ての第M+1の組を前記最後のフル名称辞書から検索し、当該全ての第M+1の組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各第M+1の組毎に前記第M+1の組により特定される1つの情報と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化し、前記メモリ上にシンボル化された第M+1の組の中で各第M+1の組に含まれる各単語に対応する各アドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第M+1の組を選択し、当該選択された第M+1の組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換することが好ましい。
【0010】
上記課題はまた、本発明の一局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置であって、複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される1つの情報とを関連付けて記憶手段に予め登録してある名称辞書と、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、前記処理エンジンは、前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成し、前記名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの単語毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化された基本語辞書の中の前記キーの単語のアドレスと関連付け、変換されるべき字句を単語に分解し、前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得し、前記の分解された単語の中からキーとなる単語を抽出し、前記の抽出された単語のアドレスと関連付けられた前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置により解決される。
【0011】
上記課題はまた、本発明の別の局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置において、複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される記号とを関連付けて記憶手段に予め登録してある名称辞書と、前記記号及び前記組に含まれない別の単語を組み合わせた組と、前記記号及び前記別の単語とにより特定される1つの情報とを関連付けて記憶手段に予め登録してあるフル名称辞書と、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、前記処理エンジンは、前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成し、前記名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの単語毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化された基本語辞書の中の前記キーの単語のアドレスと関連付け、前記フル名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの記号毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化されたフル名称辞書の中の前記キーの記号のアドレスと関連付け、変換されるべき字句を単語に分解し、前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得し、前記の分解された単語の中からキーとなる単語を抽出し、前記の抽出された単語のアドレスと関連付けられた、前記名称辞書と関連した前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出し、前記の抽出された記号と関連付けられた、前記フル名称辞書と関連した前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置により解決される。
【0012】
本発明の装置の一形態によれば、前記記号を第1の記号とし、前記名称辞書における前記組を第1の組とし、前記フル名称辞書は、第Nの記号及び前記第1からNまでの組に含まれない別の単語を組み合わせた第N+1の組と、第Nの記号及び当該別の単語とにより特定される第N+1の記号とを関連付けて記憶手段に予め登録してある第Nのフル名称辞書と、第Mの記号及び前記第1からMまでの組に含まれない別の単語を組み合わせた第M+1の組と、第Mの記号及び当該別の単語とにより特定される1つの情報とを関連付けて記憶手段に予め登録してある最後のフル名称辞書と(但し、Nは1からM−1までの整数であり、Mは2以上の1つの整数)から成り、前記処理エンジンは、前記名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの単語毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化された基本語辞書の中の前記キーの単語のアドレスと関連付ける前記の動作を行った後に、N=1からM−1までに対して、前記第Nのフル名称辞書に登録されている前記N+1の組を、前記シンボル化された基本語辞書を参照して、キーの第Nの記号毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された第N+1の組のアドレスを前記シンボル化された名称辞書及びフル名称辞書の中の前記キーの第Nの記号のアドレスと関連付けるよう動作し、前記最後のフル名称辞書に登録されている前記M+1の組を、前記シンボル化された基本語辞書を参照して、キーの第Mの記号毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された第M+1の組のアドレスを前記シンボル化された第M−1のフル名称辞書の中の前記キーの第Mの記号のアドレスと関連付けるよう動作し、変換されるべき字句を単語に分解し、前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得し、前記の分解された単語の中からキーとなる単語を抽出し、前記の抽出された単語のアドレスと関連付けられた前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出し、N=1からM−1までに対して、前記第Nのフル名称辞書に関して、前記の抽出された第Nの記号と関連付けられた前記のシンボル化されグループ化された第N+1の組の中で各第N+1の組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第N+1の組を選択し、当該選択された第N+1の組により特定される第N+1の記号を抽出するよう動作し、前記最後のフル名称辞書に関して、抽出された第Mの記号と関連付けられた前記のシンボル化されグループ化された第M+1の組の中で各第M+1の組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第M+1の組を選択し、当該選択された第M+1の組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換することが好ましい。
【0013】
本発明の装置の更に別の形態によれば、前記の抽出されたキーとなる単語を含む全ての組が複数の場合、組に含まれる複数の単語又は単語及び記号により表される意味が同一又は類似の組には、前記特定される記号として同一の記号を用いることが好ましい。
【0014】
上記課題は、本発明の一局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する方法であって、複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書を設けるステップと、前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される1つの情報とを関連付けて記憶手段に予め登録してある名称辞書を設けるステップと、前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成するステップと、変換されるべき字句を単語に分解するステップと、前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得するステップと、前記の分解された単語の中からキーとなる単語を抽出するステップと、前記の抽出された単語をキーとして含む全ての組を前記名称辞書から検索し、当該全ての組に含まれる全ての単語に対応する前記シンボル化された基本語辞書におけるアドレスを取得し、当該取得されたアドレスを各組毎に前記組により特定される1つの情報と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化するステップと、前記メモリ上にシンボル化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを備える方法により解決される。
【0015】
上記課題はまた、本発明の別の局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する方法であって、複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書を設けるステップと、前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される記号とを関連付けて記憶手段に予め登録してある名称辞書を設けるステップと、前記記号と、前記組に含まれない別の単語と、前記記号及び前記別の単語により特定される1つの情報とを関連付けて記憶手段に予め登録してあるフル名称辞書を設けるステップと、前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成するステップと、変換されるべき字句を単語に分解するステップと、前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得するステップと、前記の分解された単語の中からキーとなる単語を抽出するステップと、前記の抽出されたキーとなる単語を含む全ての組を前記名称辞書から検索し、当該全ての組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各組毎に前記組により特定される記号と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化するステップと、前記名称辞書と関連した前記メモリ上にシンボル化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出するステップと、前記の抽出された記号をキーとして含む全ての組を前記フル名称辞書から検索し、当該全ての組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各組毎に当該組により特定される1つの情報と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化するステップと、前記フル名称辞書と関連した前記メモリ上にシンボル化された組の中で各組に含まれる各単語に対応する各アドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを備える方法により解決される。
【0016】
本発明の方法の一形態によれば、前記記号を第1の記号とし、前記名称辞書における前記組を第1の組とし、前記フル名称辞書は、第Nの記号及び第1の組からNまでの組に含まれない別の単語を組み合わせた第N+1の組と、第Nの記号及び当該別の単語とにより特定される第N+1の記号とを関連付けて記憶手段に予め登録してある第Nのフル名称辞書と、第Mの記号及び第1からMまでの組に含まれない別の単語を組み合わせた第M+1の組と、第Mの記号及び当該別の単語とにより特定される1つの情報とを関連付けて記憶手段に予め登録してある最後のフル名称辞書と(但し、Nは1からM−1までの整数であり、Mは2以上の1つの整数)から成り、前記名称辞書と関連した前記メモリ上にシンボル化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出する前記ステップの後に、(a)抽出された第Nの記号をキーとして含む全ての第N+1の組を第Nのフル名称辞書から検索し、当該全ての第N+1の組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各第N+1の組毎に前記第N+1の組により特定される第N+1の記号と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化するステップと、(b)前記第Nのフル名称辞書と関連した前記メモリ上にシンボル化された第N+1の組の中で各第N+1の組に含まれる各単語に対応する各アドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第N+1の組を選択し、当該選択された第N+1の組により特定される第N+1の記号を抽出するステップと、(c)前記(a)から(b)までの動作をN=1からM−1までに対して繰返すステップと、抽出された第Mの記号をキーとして含む全ての第M+1の組を前記最後のフル名称辞書から検索し、当該全ての第M+1の組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各第M+1の組毎に前記第M+1の組により特定される1つの情報と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化するステップと、前記最後のフル名称辞書と関連した前記メモリ上にシンボル化された第M+1の組の中で各第M+1の組に含まれる各単語に対応する各アドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第M+1の組を選択し、当該選択された第M+1の組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを備えることが好ましい。
【0017】
上記課題は、本発明の一局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する方法であって、複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書を設けるステップと、前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される1つの情報とを関連付けて記憶手段に予め登録してある名称辞書を設けるステップと、前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成するステップと、前記名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの単語毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化された基本語辞書の中の前記キーの単語のアドレスと関連付けるステップと、変換されるべき字句を単語に分解するステップと、前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得するステップと、前記の分解された単語の中からキーとなる単語を抽出するステップと、前記の抽出された単語のアドレスと関連付けられた前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを備える方法により解決される。
【0018】
上記課題はまた、本発明の別の局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する方法において、複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書を設けるステップと、前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される記号とを関連付けて記憶手段に予め登録してある名称辞書を設けるステップと、前記記号及び前記組に含まれない別の単語を組み合わせた組と、前記記号及び前記別の単語とにより特定される1つの情報とを関連付けて記憶手段に予め登録してあるフル名称辞書を設けるステップと、前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成するステップと、前記名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの単語毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化された基本語辞書の中の前記キーの単語のアドレスと関連付けるステップと、前記フル名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの記号毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化されたフル名称辞書の中の前記キーの記号のアドレスと関連付けるステップと、変換されるべき字句を単語に分解するステップと、前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得するステップと、前記の分解された単語の中からキーとなる単語を抽出するステップと、前記の抽出された単語のアドレスと関連付けられた、前記名称辞書と関連した前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出するステップと、前記の抽出された記号と関連付けられた、前記フル名称辞書と関連した前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを備える方法により解決される。
【0019】
本発明の方法の一形態によれば、前記記号を第1の記号とし、前記名称辞書における前記組を第1の組とし、前記フル名称辞書は、第Nの記号及び前記第1からNまでの組に含まれない別の単語を組み合わせた第N+1の組と、第Nの記号及び当該別の単語とにより特定される第N+1の記号とを関連付けて記憶手段に予め登録してある第Nのフル名称辞書と、第Mの記号及び前記第1からMまでの組に含まれない別の単語を組み合わせた第M+1の組と、第Mの記号及び当該別の単語とにより特定される1つの情報とを関連付けて記憶手段に予め登録してある最後のフル名称辞書と(但し、Nは1からM−1までの整数であり、Mは2以上の1つの整数)から成り、前記名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの単語毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化された基本語辞書の中の前記キーの単語のアドレスと関連付ける前記ステップの後に、N=1からM−1までに対して、前記第Nのフル名称辞書に登録されている前記N+1の組を、前記シンボル化された基本語辞書を参照して、キーの第Nの記号毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された第N+1の組のアドレスを前記シンボル化された前記名称辞書及びフル名称辞書の中の前記キーの第Nの記号のアドレスと関連付けるよう動作するステップと、前記最後のフル名称辞書に登録されている前記M+1の組を、前記シンボル化された基本語辞書を参照して、キーの第Mの記号毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された第M+1の組のアドレスを前記シンボル化された第M−1のフル名称辞書の中の前記キーの第Mの記号のアドレスと関連付けるよう動作するステップと、変換されるべき字句を単語に分解するステップと、前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得するステップと、前記の分解された単語の中からキーとなる単語を抽出するステップと、前記の抽出された単語のアドレスと関連付けられた、前記名称辞書と関連した前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出するステップと、N=1からM−1までに対して、前記第Nのフル名称辞書に関して、前記の抽出された第Nの記号と関連付けられた前記のシンボル化されグループ化された第N+1の組の中で各第N+1の組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第N+1の組を選択し、当該選択された第N+1の組により特定される第N+1の記号を抽出するよう動作するステップと、前記最後のフル名称辞書に関して、抽出された第M+1の記号と関連付けられた前記のシンボル化されグループ化された第M+1の組の中で各第M+1の組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第M+1の組を選択し、当該選択された第M+1の組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを含むことが好ましい。
【0020】
本発明の方法の別の形態によれば、前記の抽出されたキーとなる単語を含む全ての組が複数の場合、組に含まれる複数の単語又は単語及び記号により表される意味が同一又は類似の組には、前記特定される記号として同一の記号を用いることが好ましい。
【0021】
【発明の実施の形態】
本発明の好適な実施形態を以下図面を参照して説明する。
図1は、本発明の好適な実施形態による字句をデータに変換する装置の基本構成を示す図である。図1において、10はメイン・フレーム・コンピュータ、パーソナル・コンピュータ、マイクロプロセッサ等の任意のデータ処理装置より構成される処理エンジンを、12はメイン・メモリを、14は基本語辞書を、16は核名称辞書を、18はフル名称辞書をそれぞれ示す。基本語辞書14、核名称辞書16及びフル名称辞書18は、磁気ディスク等のハード・ディスク(図示せず)に格納されているが、これに限定されず、いずれの他の形式の記憶装置に格納され得る。処理エンジン10として機能するデータ処理装置と、メイン・メモリ12、及び基本語辞書14、核名称辞書16及びフル名称辞書18を格納するハード・ディスクとは通常のデータ・バス等(図示せず)により相互に結合されている。
【0022】
図2は、基本語辞書14に事前に登録されている単語(以下、「基本語」とも言う。)をメイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開した状態を示す。なお、本明細書における単語あるいは基本語には、普通名詞、固有名詞、略語が含まれるのは勿論、その他、ある意味を有するいずれの一組の記号も含まれる。図2に示すように、基本語辞書14の一例は、項目として、キー、品詞、名称の属性、コードの属性を含むが、本発明の基本語辞書としては基本語を登録するための項目であるキーを少なくとも含めばよく、その他の項目は上記のものに限定されるものではない。基本語辞書14は、変換すべき字句に登録されていない基本語を含む場合、新たな基本語を登録し、また登録済みの基本語で使用しなくなった場合に削除できる構造であることが好ましい。処理エンジン10は、変換処理を開始する前に、図2に示すように、基本語辞書14に登録されている基本語をメイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開する。即ち、各登録内容のエントリポイントとしてメモリ・アドレスが割り振られる。具体的には、キーの欄の基本語「AKASAKA」はメイン・メモリ12上のメモリ・アドレス100番という場所に情報が格納され、キーの欄の基本語「BANK」はメモリ・アドレス101番という場所に情報が格納される等々である。基本語をメモリ上へ展開するときに、各基本語に対して後述するようにメモリ・アドレスを格納するための「名称パターン」という項目を付加してメモリ展開する。なお、変換すべき字句に含まれる基本語が事前に分かっている場合には、用いられる基本語だけをメイン・メモリ12上に展開してもよく、更に、用途によっては、変換処理速度が遅くなるが、基本語辞書14に登録されている基本語の一部分をメモリ展開し、未展開の基本語が変換処理に必要になったとき追加的にメモリ展開するようにしてもよい。
【0023】
図3は、核名称辞書16及びフル名称辞書18のそれぞれに事前に登録されている核名称及びフル名称をメイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開した状態を示す。図3に示すように、核名称辞書16の項目は、キー、名称パターン、コードから成る。核名称辞書16の名称パターンの項目には、基本語辞書14に登録されている基本語のうちで、変換すべき可能性のある基本語の組み合わせに含まれる2つの基本語が事前に登録されている。具体的には、核名称辞書16の第1行には「GETRONICS」と「FOODS」とが、第2行には「GETRONICS」と「SHOKUHIN」とが、第3行には「GETRONICS」と「BANK」とがそれぞれ文字列として登録されている。これらの名称パターンに共通する基本語は「GETRONICS」であり、この基本語が核名称辞書16のキーの項目に登録されている。コードには、各名称パターンとの関連を表すための記号が登録される。名称パターンの「GETRONICS FOODS」と「GETRONICS SHOKUHIN」とはその意味内容がおなじであることから、コードとして同じ記号「#GETRO#」が割り当てられるのが好ましいが、異なっていてもよい。核名称辞書16は、変換すべき字句に、登録されていない基本語を含む組み合わせがある場合、新たな基本語を含む組み合わせを登録し、また登録済みの組み合わせで使用しなくなった場合に削除できるようにされていることが好ましい。
【0024】
フル名称辞書18の項目も、図3に示すように、キー、名称パターン、コードから成る。フル名称辞書18の名称パターンの項目には、変換すべき可能性のある基本語の組み合わせの中で核名称辞書16の名称パターンに示された基本語の組み合わせに対応する記号と、それと組になる基本語とが組になって事前に登録されている。具体的には、フル名称辞書18の名称パターンの第1行には「#GETRO#」と「AKASAKA」とが、第2行には「#GETRO#」と「OSAKA」とがそれぞれ事前に登録されている。これらの名称パターンに共通する記号は「#GETRO#」であるので、フル名称辞書18のキーにはその記号が登録される。フル名称辞書18のコードには、名称パターンに対応する変換後の目的のデータ、この場合には顧客コードが登録されている。具体的には、「GETRONICS FOODS AKASAKA」及び「GETRONICS SHOKUHIN AKASAKA」の両方の顧客コードは、「123−45678」であるので、その顧客コードがフル名称辞書18のコードの第1行に、また、「GETRONICS FOODS OSAKA」及び「GETRONICS SHOKUHIN OSAKA」の両方の顧客コードは、「101−23456」であるので、その顧客コードがフル名称辞書18のコードの第2行にそれぞれ登録される。フル名称辞書18は、変換すべき字句に、登録されていない基本語を含む組み合わせがある場合、新たな基本語を含む組み合わせを登録し、また登録済みの組み合わせで使用しなくなった場合に削除できるようにされていることが好ましい。
【0025】
なお、この例では、核名称辞書16及びフル名称辞書18の名称パターンとしては2つの基本語の組み合わせを用いているが、処理速度が多少遅くなることが許容できる場合には、3つ以上の組み合わせを用いてもよい。また、この例では、核名称辞書16とフル名称辞書18と2段の名称辞書を用いているが、用途に応じて、核名称辞書16のみ、あるいはフル名称辞書18を2つ以上用いてもよい。
【0026】
処理エンジン10は、変換処理を開始する前に、図3に示すように、核名称辞書16に登録されている名称パターンを、シンボル化され即ちメモリ展開済みの核名称辞書16の基本語のメモリ・アドレスを参照して、メイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開する。その際、核名称辞書16のキーが同じものは1グループにまとめてメモリ展開する。具体的には、核名称辞書16の名称パターンの第1〜3行にある「GETRONICS」、「FOODS」、「SHOKUHIN」及び「BANK」には、メイン・メモリ12にメモリ展開された基本語辞書14の基本語とそれに対応するメモリ・アドレスを参照して、「107番」、「106番」、「112番」及び「101番」が図3の34に示すように割り当てられる。そして、核名称辞書16のキーに「GETRONICS」と登録されている3件を名称パターンとしてシンボル化することにより使用していない任意のメモリ・アドレス、例えば2000番を取得する。詳細には、核名称辞書16の名称パターンの第1行から第3行は、「GETRONICS」の同一のキーを持つので、第1行の名称パターンの「GETRONICS」に対応するメモリ・アドレス107番のエントリポイントとして、使用していない任意のメモリ・アドレス、例えば2000番が割り振られる。
【0027】
次いで、「#GETRO#」及び「#GETROBK#」で登録されている核名称辞書16のコードをシンボル化する。即ち、核名称辞書16のコードの第1及び2行の「#GETRO#」及び第3行の「#GETROBK#」には使用していない任意のメモリ・アドレス、例えば「500番」及び「501番」がそれぞれ割り振られる。但し、500番及び510番には、メモリ・アドレスを格納できる領域が確保されるだけで、「#GETRO#」及び「#GETROBK#」が格納されるわけではない。メイン・メモリ12上の2000番の第1行には、核名称辞書16の第1行に対応するよう、「107番」、「106番」とそれと関連付けられて「500番」が格納され、メイン・メモリ12上の2000番の第2行には、核名称辞書16の第2行に対応するよう、「107番」、「112番」とそれと関連付けられて「500番」が格納され、メイン・メモリ12上の2000番の第3行には、核名称辞書16の第3行に対応するよう、「107番」、「101番」とそれと関連付けられて「501番」が格納される。更に、核名称辞書16の中の基本語「GETRONICS」をキーとするグループとする名称パターンのメモリ・アドレス2000番を、シンボル化された基本語「GETRONICS」と結びつけるため、メモリ展開された基本語辞書14上のメモリ・アドレス107番の「名称パターン」の格納領域に「2000番」が格納される。
【0028】
次いで、処理エンジン10は、変換処理を開始する前に、図3に示すように、フル名称辞書18に登録されている名称パターンを、シンボル化され即ちメモリ展開済みの核名称辞書16の基本語のメモリ・アドレス、及び核名称辞書16のコードに割り当てられたメモリ・アドレスを参照して、メイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開する。その際、フル名称辞書18のキーが同じものは1グループにまとめてメモリ展開する。具体的には、シンボル化された核名称辞書のメモリ・アドレスをフル名称辞書18のシンボルに展開する(即ち、紐付けする)ため、フル名称辞書18の名称パターンの第1〜2行にある「#GETRO#」には500番が先に割り当てられているので、そのメモリ・アドレス番号を図3の36に示すように割り当てる。そして「AKASAKA」及び「OSAKA」には、メイン・メモリ12に展開された基本語辞書14の基本語とそれに対応するメモリ・アドレスを参照して、「100番」及び「111番」が図3の36に示すように割り当てられる。そして、フル名称辞書18の名称パターンの第1行及び第2行は、「#GETRO#」の同一のキーを持つので、第1行の名称パターンの「#GETRO#」に対応するメモリ・アドレス500番のエントリポイントとして、使用していないメモリ・アドレス、例えば8000番が割り振られる。次いで、フル名称辞書18をシンボル化して得られたメモリ・アドレス8000番を核名称辞書16のシンボル展開(即ち、紐付け)するため、メモリ・アドレス500番の格納領域に8000番を格納する。こうして、メモリ・アドレス8000番の第1行には、「#500」及び「#100」が変換後の目的データ即ち顧客コード「123−4567」と関連付けて格納され、第2行には、「#500」及び「#111」が変換後の目的データ即ち顧客コード「101−23564」と関連付けて格納される。
【0029】
なお、フル名称辞書18が2以上ある場合には、最後のフル名称辞書より前の中間のフル名称辞書のコードには核名称辞書16のコードの記号(この例では、「#GETRO#」あるいは「#GETROBK#」)と類似の記号で各名称パターンを識別可能にする記号が登録される。そして、中間のフル名称辞書のメモリ展開では、その名称パターンのシンボル化はフル名称辞書18における8000番での格納状態と同様であるが、8000番の格納領域の「123−45678」及び「101−23564」に相当する格納領域に当該中間のフル名称辞書の記号に与えられるメモリ・アドレスが格納される。
【0030】
次に、入力データの変換処理を図1〜図3並びに図4及び図5を参照して説明する。図4及び図5は、図1に示す変換装置に入力されたデータが変換される過程を説明するための図である。図5のメモリ展開は、図3に示すメモリ展開と同じものであるが、説明の理解を容易にするため、図2に示す基本語辞書14に記載の全ての基本語のメモリ展開が示されている。
【0031】
ここで、メイン・メモリ12上には前述したように基本語辞書14、核名称辞書16及びフル名称辞書18がシンボル化されているとする。そして、図4の参照番号40で示すデータが入力されたとする。処理エンジン10は、ステップ42に示されるように入力データ40を単語に分解する。次いで、処理エンジン10は、分解された単語に対応するメモリ・アドレスを、図5に示すメイン・メモリ12上にメモリ展開された基本語辞書14aを参照して取得する。この取得の仕方には二分検索が好ましいが、本発明はいずれの取得方法でもよい。図5の基本語辞書14aの中の丸で囲った基本語に対応するメモリ・アドレスが取得される。
【0032】
次いで、処理エンジン10は、ステップ44において、分解された単語のうち、メモリ・アドレスが取得できた単語については、当該単語を取得できたメモリ・アドレスに変換する。なお、<1−2−34>のように基本語辞書14aにはない場合にはそのままにしておく。
【0033】
処理エンジン10は、ステップ46において、キーとなる基本語、ここでは「GETRONICS」のメモリ・アドレス「107番」をキーにして、他のメモリ・アドレス、即ち「107番」と「106番」、「104番」、「100番」とのうちのいずれかの組が、図5に示すメモリ展開された核名称辞書16aの中にあるか検索して、一致した場合には核名称辞書16の一致したコードのメモリ・アドレス「500番」を取得する。詳細には、処理エンジン10は、メモリ展開された基本語辞書14aのメモリ・アドレス107番の「名称パターン」の格納領域に格納されている2000番を読み取り、その2000番に基づいてメモリ展開された核名称辞書16aの2000番に格納されているメモリ・アドレスの組の中で「107番」と「106番」、「104番」、「100番」とのいずれかとの組み合わせがあるか調べる。この例では、「107番」と「106番」の組み合わせが一致する(図4のステップ46で丸を付した組み合わせと図5の核名称辞書16aの中で丸を付した行を参照)ので、「500番」が取得され、「107番」と「106番」の組み合わせが「500番」に変換される。
【0034】
ステップ48において、処理エンジン10は、続いて、キーとなる記号のメモリ・アドレス「500番」をキーにして、他のメモリ・アドレスとの組み合わせ、ここでは「500番」と「100番」の組み合わせが、図5に示すメモリ展開されたフル名称辞書18aの中にあるか検索して、一致した場合にはフル名称辞書18の一致したコードを取得する。詳細には、処理エンジン10は、メイン・メモリ12内のメモリ・アドレス500番に格納されているメモリ・アドレス8000番を読み取り、その8000番に基づいてメモリ展開されたフル名称辞書18aの8000番に格納されているメモリ・アドレスの組の中で「500番」と「100番」の組があるか調べる。この例では、「500番」と「100番」の組み合わせが一致する(図4のステップ48で丸を付した組み合わせと図5のフル名称辞書18aの中で丸を付した行を参照)ので、メイン・メモリ12上の「123−45678」が取得され、「500番」と「100番」の組み合わせが「123−45678」に変換される。その結果、入力データ即ち字句の中の「GETRONICS FOODS AKASAKA」が所望のデータである顧客コード「123−23564」に変換される。
【0035】
なお、図1の処理エンジン10内に記載されている処理ブロックと図4の処理ステップとは、図4のステップ42及び44が図1の単語認識ブロック20に、図4のステップ46が図1の核名称認識ブロック22に、図4のステップ48がフル名称認識ブロック24にそれぞれ対応する。
【0036】
また、本発明の字句をデータに変換する装置及び方法には、入力データに入力ミス、例えば「GETRONICS」を「GETROMICS」と入力した場合に、例えば綴りパターン辞書を用いるような、従来の綴り補正機能を持たせてもよく、入力される単語が連続的に綴られている場合に、連語辞書を用いるような、従来の連語処理機能を持たせてもよい。
【0037】
更に、本発明の字句をデータに変換する装置及び方法には、用途に応じて、図1に示されるように、入力データ30から参照番号32に示すように名称「GETRONICS FOODS CO.LTD」を抽出する機能を含めてもよい。
【0038】
図6は、本発明のシンボル化による単語比較と従来の文字列比較との相違を説明する図である。例えば、入力データ「GETRONICS FOODS」を、「GETRONICS BANK」、「GETRONICS ELECTRONICS」及び「GETRONICS FOODS」の3つの組から一致するのを検索する場合で説明する。本発明では、図6の(a)に示すように、これら3つの組60を上記実施形態で説明したようにメモリ・アドレスをシンボルとしてシンボル化して、62に示すようにメモリ・アドレスの組に変換する。変換された組の単語は合計6単語になる。しかも、これら6単語は、メモリ・アドレスであるので数字である。従って、メモリ・アドレスに変換された入力データ2単語の数字とこれら6単語の数字とを単語単位で比較するので、非常に高速に比較できる。一方、従来の文字列比較では、図6の(b)に示すように、合計47文字を文字単位で比較しているので、比較速度は遅くならざるを得なかった。本発明のシンボル化による比較方法は、検索対象が小さい場合でも本質的に従来の文字列比較方法より処理速度が早いが、例えば、銀行業務等のように検索対象のデータが膨大になると処理速度の違いが顕著になり、従来の文字列比較より極めて高速に処理できる。なお、本発明のシンボル化による比較方法では、辞書データをメモリに展開する処理が必要になるが、この処理はシステム起動時の初期処理につき、起動後の比較処理の性能に影響を与えるものではない。
【0039】
次に、前述した実施形態の変形例を以下に説明する。上記実施形態と同じ構成、動作の部分は説明を省き、相違する部分のみを説明する。処理エンジン10は、入力データを受け取る前に、基本語辞書14をメイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化するが、核名称辞書16及びフル名称辞書18について事前にメイン・メモリ12上にシンボル化しない。なお、メモリ展開された基本語辞書14には、図3に示すような「名称パターン」の格納領域を設ける必要がない。
【0040】
次いで、処理エンジン10は、入力データを受け取り、図4のステップ44までの処理を行う。処理エンジン10は、次いで、入力データに含まれる単語からキーとなる単語を抽出し、そして核名称辞書16の中の項目「キー」に抽出された単語を含む組を検索して(図3参照)、メイン・メモリ12上に、メモリ展開された基本語辞書14a(図5)を参照してメモリ・アドレスをシンボルとしてシンボル化する。例えば、図4に示す入力データ40が入力された場合、キーの単語として「GETRONICS」が抽出され、核名称辞書16のキーの項目に「GETRONICS」を含む組が図3(あるいは図5)におけるメイン・メモリ12上のメモリ・アドレス2000番に示されるようにシンボル化される。ここで、処理エンジン10は、図3における核名称辞書16の各行とメモリ・アドレス2000番に示される各行とが任意の従来の技法を用いて関連付けるようにしておく。従って、メモリ・アドレス「500番」及び「501番」を格納しなくてもよい。
【0041】
処理エンジン10は、図4のステップ46と類似の処理を行う。但し、処理エンジン10は、一致した組、即ち、図4及び図5に示す例では、メモリ・アドレス2000番の第1行を特定し、それに関連付けられている核名称辞書16の第1行のコード「#GETRO#」(図3参照)を抽出する。
【0042】
処理エンジン10は、フル名称辞書18のキーの項目に「#GETRO#」を含む組を図3(あるいは図5)におけるメイン・メモリ12上のメモリ・アドレス8000番に示されるようにシンボル化する。但し、「500番」を格納しなくてもよい。次いで、処理エンジン10は、図4のステップ48と類似の処理を行う。メモリ・アドレス「500番」を用いない場合は、処理エンジン10は、メモリ・アドレス8000番の各行のうち、入力データの中のそれまでのステップで処理していないメモリ・アドレス、この例では「100番」を含む行を特定して、目的の顧客コード「123−45678」に変換する。この変形例は、変換処理速度が前の実施形態より遅くなるが、メイン・メモリ12の容量が少なくてよい。
【0043】
【発明の効果】
本発明は、以上説明したように構成され、動作するので、従来の文字列比較において必要とした1バイト単位の検索処理が必要でないことにより検索時間を顕著に削減することができ、その結果複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに高速に変換して、当該データの入力を受けるコンピュータでの処理が可能となる。
【図面の簡単な説明】
【図1】図1は、本発明の好適な実施形態による字句をデータに変換する装置の基本構成を示す図である。
【図2】図2は、図1の基本語辞書1に事前に登録されている単語をメイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開した状態を示す。
【図3】図3は、図1の核名称辞書16及びフル名称辞書18のそれぞれに事前に登録されている各名称及びフル名称をメイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開した状態を示す。
【図4】図4は、図1に示す変換装置に入力されたデータが変換される過程を説明するための図の一部である。図5のメモリ展開は、図3に示すメモリ展開と同じものであるが、説明の理解を容易にするため、図2に示す基本語辞書14に記載の全ての基本語のメモリ展開が示されている。
【図5】図5は、図1に示す変換装置に入力されたデータが変換される過程を説明するための図の一部である。なお、図5のメモリ展開は、図3に示すメモリ展開と同じものであるが、説明の理解を容易にするため、図2に示す基本語辞書14に記載の全ての基本語のメモリ展開が示されている。
【図6】図6は、本発明のシンボル化による単語比較と従来の文字列比較との相違を説明する図である。
【符号の説明】
10 処理エンジン
12 メイン・メモリ
14 基本語辞書
16 核名称辞書
18 フル名称辞書
Claims (14)
- 複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置において、
複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書と、
前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される1つの情報とを関連付けて記憶手段に予め登録してある名称辞書と、
前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、
前記処理エンジンは、
前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成し、
変換されるべき字句を単語に分解し、
前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得し、
前記の分解された単語の中からキーとなる単語を抽出し、
前記の抽出された単語をキーとして含む全ての組を前記名称辞書から検索し、当該全ての組に含まれる全ての単語に対応する前記シンボル化された基本語辞書におけるアドレスを取得し、当該取得されたアドレスを各組毎に前記組により特定される1つの情報と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化し、
前記メモリ上にシンボル化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置。 - 複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置において、
複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書と、
前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される記号とを関連付けて記憶手段に予め登録してある名称辞書と、
前記記号と、前記組に含まれない別の単語と、前記記号及び前記別の単語により特定される1つの情報とを関連付けて記憶手段に予め登録してあるフル名称辞書と、
前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、
前記処理エンジンは、
前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成し、
変換されるべき字句を単語に分解し、
前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得し、
前記の分解された単語の中からキーとなる単語を抽出し、
前記の抽出されたキーとなる単語を含む全ての組を前記名称辞書から検索し、当該全ての組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各組毎に前記組により特定される記号と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化し、
前記メモリ上にシンボル化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出し、
前記の抽出された記号をキーとして含む全ての組を前記フル名称辞書から検索し、当該全ての組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各組毎に当該組により特定される1つの情報と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化し、
前記メモリ上にシンボル化された組の中で各組に含まれる各単語に対応する各アドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置。 - 前記記号を第1の記号とし、
前記名称辞書における前記組を第1の組とし、
前記フル名称辞書は、第Nの記号及び第1の組からNまでの組に含まれない別の単語を組み合わせた第N+1の組と、第Nの記号及び当該別の単語とにより特定される第N+1の記号とを関連付けて記憶手段に予め登録してある第Nのフル名称辞書と、第Mの記号及び第1からMまでの組に含まれない別の単語を組み合わせた第M+1の組と、第Mの記号及び当該別の単語とにより特定される1つの情報とを関連付けて記憶手段に予め登録してある最後のフル名称辞書と(但し、Nは1からM−1までの整数であり、Mは2以上の1つの整数)から成り、
前記処理エンジンは、
前記メモリ上にシンボル化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出するよう動作した後で、
(a)抽出された第Nの記号をキーとして含む全ての第N+1の組を第Nのフル名称辞書から検索し、当該全ての第N+1の組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各第N+1の組毎に前記第N+1の組により特定される第N+1の記号と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化し、
(b)前記メモリ上にシンボル化された第N+1の組の中で各第N+1の組に含まれる各単語に対応する各アドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第N+1の組を選択し、当該選択された第N+1の組により特定される第N+1の記号を抽出し、
(c)前記(a)から(b)までの動作をN=1からM−1までに対して繰返し、
抽出された第Mの記号をキーとして含む全ての第M+1の組を前記最後のフル名称辞書から検索し、当該全ての第M+1の組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各第M+1の組毎に前記第M+1の組により特定される1つの情報と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化し、
前記メモリ上にシンボル化された第M+1の組の中で各第M+1の組に含まれる各単語に対応する各アドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第M+1の組を選択し、当該選択された第M+1の組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する請求項2記載の装置。 - 複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置において、
複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書と、
前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される1つの情報とを関連付けて記憶手段に予め登録してある名称辞書と、
前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、
前記処理エンジンは、
前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成し、
前記名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの単語毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化された基本語辞書の中の前記キーの単語のアドレスと関連付け、
変換されるべき字句を単語に分解し、
前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得し、
前記の分解された単語の中からキーとなる単語を抽出し、
前記の抽出された単語のアドレスと関連付けられた前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置。 - 複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置において、
複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書と、
前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される記号とを関連付けて記憶手段に予め登録してある名称辞書と、
前記記号及び前記組に含まれない別の単語を組み合わせた組と、前記記号及び前記別の単語とにより特定される1つの情報とを関連付けて記憶手段に予め登録してあるフル名称辞書と、
前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、
前記処理エンジンは、
前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成し、
前記名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの単語毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化された基本語辞書の中の前記キーの単語のアドレスと関連付け、
前記フル名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの記号毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化されたフル名称辞書の中の前記キーの記号のアドレスと関連付け、
変換されるべき字句を単語に分解し、
前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得し、
前記の分解された単語の中からキーとなる単語を抽出し、
前記の抽出された単語のアドレスと関連付けられた、前記名称辞書と関連した前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出し、
前記の抽出された記号と関連付けられた、前記フル名称辞書と関連した前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置。 - 前記記号を第1の記号とし、
前記名称辞書における前記組を第1の組とし、
前記フル名称辞書は、第Nの記号及び前記第1からNまでの組に含まれない別の単語を組み合わせた第N+1の組と、第Nの記号及び当該別の単語とにより特定される第N+1の記号とを関連付けて記憶手段に予め登録してある第Nのフル名称辞書と、第Mの記号及び前記第1からMまでの組に含まれない別の単語を組み合わせた第M+1の組と、第Mの記号及び当該別の単語とにより特定される1つの情報とを関連付けて記憶手段に予め登録してある最後のフル名称辞書と(但し、Nは1からM−1までの整数であり、Mは2以上の1つの整数)から成り、
前記処理エンジンは、
前記名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの単語毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化された基本語辞書の中の前記キーの単語のアドレスと関連付ける前記の動作を行った後に、
N=1からM−1までに対して、前記第Nのフル名称辞書に登録されている前記N+1の組を、前記シンボル化された基本語辞書を参照して、キーの第Nの記号毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された第N+1の組のアドレスを前記シンボル化された名称辞書及びフル名称辞書の中の前記キーの第Nの記号のアドレスと関連付けるよう動作し、
前記最後のフル名称辞書に登録されている前記M+1の組を、前記シンボル化された基本語辞書を参照して、キーの第Mの記号毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された第M+1の組のアドレスを前記シンボル化された第M−1のフル名称辞書の中の前記キーの第Mの記号のアドレスと関連付けるよう動作し、
変換されるべき字句を単語に分解し、
前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得し、
前記の分解された単語の中からキーとなる単語を抽出し、
前記の抽出された単語のアドレスと関連付けられた前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出し、
N=1からM−1までに対して、前記第Nのフル名称辞書に関して、前記の抽出された第Nの記号と関連付けられた前記のシンボル化されグループ化された第N+1の組の中で各第N+1の組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第N+1の組を選択し、当該選択された第N+1の組により特定される第N+1の記号を抽出するよう動作し、
前記最後のフル名称辞書に関して、抽出された第Mの記号と関連付けられた前記のシンボル化されグループ化された第M+1の組の中で各第M+1の組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第M+1の組を選択し、当該選択された第M+1の組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する請求項5記載の装置。 - 前記の抽出されたキーとなる単語を含む全ての組が複数の場合、組に含まれる複数の単語又は単語及び記号により表される意味が同一又は類似の組には、前記特定される記号として同一の記号を用いる請求項2、3、5及び6のいずれか一項に記載の装置。
- 複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する方法において、
複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書を設けるステップと、
前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される1つの情報とを関連付けて記憶手段に予め登録してある名称辞書を設けるステップと、
前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成するステップと、
変換されるべき字句を単語に分解するステップと、
前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得するステップと、
前記の分解された単語の中からキーとなる単語を抽出するステップと、
前記の抽出された単語をキーとして含む全ての組を前記名称辞書から検索し、当該全ての組に含まれる全ての単語に対応する前記シンボル化された基本語辞書におけるアドレスを取得し、当該取得されたアドレスを各組毎に前記組により特定される1つの情報と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化するステップと、
前記メモリ上にシンボル化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
を備える方法。 - 複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する方法において、
複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書を設けるステップと、
前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される記号とを関連付けて記憶手段に予め登録してある名称辞書を設けるステップと、
前記記号と、前記組に含まれない別の単語と、前記記号及び前記別の単語により特定される1つの情報とを関連付けて記憶手段に予め登録してあるフル名称辞書を設けるステップと、
前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成するステップと、
変換されるべき字句を単語に分解するステップと、
前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得するステップと、
前記の分解された単語の中からキーとなる単語を抽出するステップと、
前記の抽出されたキーとなる単語を含む全ての組を前記名称辞書から検索し、当該全ての組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各組毎に前記組により特定される記号と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化するステップと、
前記名称辞書と関連した前記メモリ上にシンボル化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出するステップと、
前記の抽出された記号をキーとして含む全ての組を前記フル名称辞書から検索し、当該全ての組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各組毎に当該組により特定される1つの情報と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化するステップと、
前記フル名称辞書と関連した前記メモリ上にシンボル化された組の中で各組に含まれる各単語に対応する各アドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
を備える方法。 - 前記記号を第1の記号とし、
前記名称辞書における前記組を第1の組とし、
前記フル名称辞書は、第Nの記号及び第1の組からNまでの組に含まれない別の単語を組み合わせた第N+1の組と、第Nの記号及び当該別の単語とにより特定される第N+1の記号とを関連付けて記憶手段に予め登録してある第Nのフル名称辞書と、第Mの記号及び第1からMまでの組に含まれない別の単語を組み合わせた第M+1の組と、第Mの記号及び当該別の単語とにより特定される1つの情報とを関連付けて記憶手段に予め登録してある最後のフル名称辞書と(但し、Nは1からM−1までの整数であり、Mは2以上の1つの整数)から成り、
前記名称辞書と関連した前記メモリ上にシンボル化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出する前記ステップの後に、
(a)抽出された第Nの記号をキーとして含む全ての第N+1の組を第Nのフル名称辞書から検索し、当該全ての第N+1の組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各第N+1の組毎に前記第N+1の組により特定される第N+1の記号と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化するステップと、
(b)前記第Nのフル名称辞書と関連した前記メモリ上にシンボル化された第N+1の組の中で各第N+1の組に含まれる各単語に対応する各アドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第N+1の組を選択し、当該選択された第N+1の組により特定される第N+1の記号を抽出するステップと、
(c)前記(a)から(b)までの動作をN=1からM−1までに対して繰返すステップと、
抽出された第Mの記号をキーとして含む全ての第M+1の組を前記最後のフル名称辞書から検索し、当該全ての第M+1の組に含まれる全ての単語に対応する前記シンボル化された基本語辞書のアドレスを取得し、当該取得されたアドレスを各第M+1の組毎に前記第M+1の組により特定される1つの情報と関連付けて前記メモリ上にメモリ・アドレスをシンボルとしてシンボル化するステップと、
前記最後のフル名称辞書と関連した前記メモリ上にシンボル化された第M+1の組の中で各第M+1の組に含まれる各単語に対応する各アドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第M+1の組を選択し、当該選択された第M+1の組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
を備える請求項9記載の方法。 - 複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する方法において、
複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書を設けるステップと、
前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される1つの情報とを関連付けて記憶手段に予め登録してある名称辞書を設けるステップと、
前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成するステップと、
前記名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの単語毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化された基本語辞書の中の前記キーの単語のアドレスと関連付けるステップと、
変換されるべき字句を単語に分解するステップと、
前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得するステップと、
前記の分解された単語の中からキーとなる単語を抽出するステップと、
前記の抽出された単語のアドレスと関連付けられた前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
を備える方法。 - 複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する方法において、
複数の単語のそれぞれとその属性情報を関連付けて記憶手段に予め登録してある基本語辞書を設けるステップと、
前記基本語辞書に登録されている単語同士を組み合わせた組と、キーとして選択された前記の組の中の単語と、前記組により特定される記号とを関連付けて記憶手段に予め登録してある名称辞書を設けるステップと、
前記記号及び前記組に含まれない別の単語を組み合わせた組と、前記記号及び前記別の単語とにより特定される1つの情報とを関連付けて記憶手段に予め登録してあるフル名称辞書を設けるステップと、
前記基本語辞書に登録されている単語をメモリ上にメモリ・アドレスをシンボルとしてシンボル化して、シンボル化された基本語辞書を生成するステップと、
前記名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの単語毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化された基本語辞書の中の前記キーの単語のアドレスと関連付けるステップと、
前記フル名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの記号毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化されたフル名称辞書の中の前記キーの記号のアドレスと関連付けるステップと、
変換されるべき字句を単語に分解するステップと、
前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得するステップと、
前記の分解された単語の中からキーとなる単語を抽出するステップと、
前記の抽出された単語のアドレスと関連付けられた、前記名称辞書と関連した前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出するステップと、
前記の抽出された記号と関連付けられた、前記フル名称辞書と関連した前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
を備える方法。 - 前記記号を第1の記号とし、
前記名称辞書における前記組を第1の組とし、
前記フル名称辞書は、第Nの記号及び前記第1からNまでの組に含まれない別の単語を組み合わせた第N+1の組と、第Nの記号及び当該別の単語とにより特定される第N+1の記号とを関連付けて記憶手段に予め登録してある第Nのフル名称辞書と、第Mの記号及び前記第1からMまでの組に含まれない別の単語を組み合わせた第M+1の組と、第Mの記号及び当該別の単語とにより特定される1つの情報とを関連付けて記憶手段に予め登録してある最後のフル名称辞書と(但し、Nは1からM−1までの整数であり、Mは2以上の1つの整数)から成り、
前記名称辞書に登録されている前記組を、前記シンボル化された基本語辞書を参照して、キーの単語毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された組のアドレスを前記シンボル化された基本語辞書の中の前記キーの単語のアドレスと関連付ける前記ステップの後に、
N=1からM−1までに対して、前記第Nのフル名称辞書に登録されている前記N+1の組を、前記シンボル化された基本語辞書を参照して、キーの第Nの記号毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された第N+1の組のアドレスを前記シンボル化された前記名称辞書及びフル名称辞書の中の前記キーの第Nの記号のアドレスと関連付けるよう動作するステップと、
前記最後のフル名称辞書に登録されている前記M+1の組を、前記シンボル化された基本語辞書を参照して、キーの第Mの記号毎にグループ化してメモリ上にメモリ・アドレスをシンボルとしてシンボル化し、且つ当該グループ化された第M+1の組のアドレスを前記シンボル化された第M−1のフル名称辞書の中の前記キーの第Mの記号のアドレスと関連付けるよう動作するステップと、
変換されるべき字句を単語に分解するステップと、
前記メモリ上にシンボル化された基本語辞書を参照して、前記の分解された単語に対応するアドレスを取得するステップと、
前記の分解された単語の中からキーとなる単語を抽出するステップと、
前記の抽出された単語のアドレスと関連付けられた、前記名称辞書と関連した前記のシンボル化されグループ化された組の中で各組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである組を選択し、当該選択された組により特定される記号を抽出するステップと、
N=1からM−1までに対して、前記第Nのフル名称辞書に関して、前記の抽出された第Nの記号と関連付けられた前記のシンボル化されグループ化された第N+1の組の中で各第N+1の組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第N+1の組を選択し、当該選択された第N+1の組により特定される第N+1の記号を抽出するよう動作するステップと、
前記最後のフル名称辞書に関して、抽出された第M+1の記号と関連付けられた前記のシンボル化されグループ化された第M+1の組の中で各第M+1の組に含まれる単語に対応するアドレスが前記変換されるべき字句の前記の分解された単語に対応したアドレスのいずれかと同じである第M+1の組を選択し、当該選択された第M+1の組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
を含む請求項12記載の方法。 - 前記の抽出されたキーとなる単語を含む全ての組が複数の場合、組に含まれる複数の単語又は単語及び記号により表される意味が同一又は類似の組には、前記特定される記号として同一の記号を用いる請求項9、10、12及び13のいずれか一項に記載の方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003115287A JP4303027B2 (ja) | 2003-04-21 | 2003-04-21 | 字句をデータに変換する装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003115287A JP4303027B2 (ja) | 2003-04-21 | 2003-04-21 | 字句をデータに変換する装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004318753A true JP2004318753A (ja) | 2004-11-11 |
JP4303027B2 JP4303027B2 (ja) | 2009-07-29 |
Family
ID=33474529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003115287A Expired - Lifetime JP4303027B2 (ja) | 2003-04-21 | 2003-04-21 | 字句をデータに変換する装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4303027B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006277335A (ja) * | 2005-03-29 | 2006-10-12 | Konami Digital Entertainment:Kk | 識別符号処理装置、識別符号処理方法、ならびに、プログラム |
-
2003
- 2003-04-21 JP JP2003115287A patent/JP4303027B2/ja not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006277335A (ja) * | 2005-03-29 | 2006-10-12 | Konami Digital Entertainment:Kk | 識別符号処理装置、識別符号処理方法、ならびに、プログラム |
JP4694869B2 (ja) * | 2005-03-29 | 2011-06-08 | 株式会社コナミデジタルエンタテインメント | 識別符号処理装置、識別符号処理方法、ならびに、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4303027B2 (ja) | 2009-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101265263B1 (ko) | 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체 | |
US8190613B2 (en) | System, method and program for creating index for database | |
US8055498B2 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary | |
JP4682627B2 (ja) | 文書検索装置および方法 | |
JP2004318753A (ja) | 字句をデータに変換する装置及び方法 | |
JP2519130B2 (ja) | マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置 | |
JPH056398A (ja) | 文書登録装置及び文書検索装置 | |
JP4061283B2 (ja) | 字句をデータに変換する装置、方法及びプログラム | |
JP2000250931A (ja) | 位置情報の自動抽出装置および自動抽出方法と記録媒体 | |
JP4139805B2 (ja) | 字句をデータに変換する装置、方法及びプログラム | |
JP2005275880A (ja) | 字句をデータに変換する装置、方法及びプログラム | |
JP6764262B2 (ja) | 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム | |
JP2006106896A (ja) | データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法 | |
JP2526670B2 (ja) | 単語辞書検索装置 | |
JPH10307839A (ja) | テキスト検索装置及び方法 | |
JPH07109603B2 (ja) | 情報検索処理方式および検索ファイル作成装置 | |
KR19990084950A (ko) | 역화일을 이용한 데이터 부분검색 장치 및 그 방법 | |
JPH08249341A (ja) | 文書データベースの文書格納・検索装置 | |
JPH06215038A (ja) | データベース検索装置 | |
JPH0670788B2 (ja) | 巣語辞書検索装置 | |
JPH0721212A (ja) | 文書処理装置 | |
JPH01205267A (ja) | 単語辞書検索装置 | |
JPH03110676A (ja) | 単語辞書検索装置 | |
JPH06309360A (ja) | 否定論理条件の処理に適したフルテキストサーチ方法 | |
JPH07319895A (ja) | 文書検索装置及び文書検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090213 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090213 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090407 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090423 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4303027 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150501 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |