JPH0326420B2 - - Google Patents
Info
- Publication number
- JPH0326420B2 JPH0326420B2 JP57220531A JP22053182A JPH0326420B2 JP H0326420 B2 JPH0326420 B2 JP H0326420B2 JP 57220531 A JP57220531 A JP 57220531A JP 22053182 A JP22053182 A JP 22053182A JP H0326420 B2 JPH0326420 B2 JP H0326420B2
- Authority
- JP
- Japan
- Prior art keywords
- file
- word
- dictionary
- words
- independent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000010365 information processing Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000000034 method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000004927 clay Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】
技術分野
この発明はかな漢字変換を利用した日本語ワー
ドプロセツサなどの日本語情報処理装置に係り、
特に、変換率の向上を図るため処理過程におい
て、参照される用例辞書に関する。
ドプロセツサなどの日本語情報処理装置に係り、
特に、変換率の向上を図るため処理過程におい
て、参照される用例辞書に関する。
背 景
用例辞書とは、一般社会で実際に通用している
文章、たとえば企業内で作成された通達文、手紙
文などの業務文書あるいは出版物等を大量に収集
し、それらのデータから単語間の結びつきに関す
る情報を抽出して、それらの情報を目的とする言
語処理に適する形式にまとめあげ記憶手段に記憶
させたデータフアイルのことである。たとえば、
ある文章に「化学繊維」という言葉があつたとす
る。これは「化学」と「繊維」の2個の単語が連
続して用いられた場合であり、このことから「化
学」という単語のあとに「繊維」という単語が連
続する可能性が大きいという情報が得られる。こ
れを上記用例辞書に蓄えておけば、かな漢字変換
などの処理で「(化学、科学、価額)+(繊維、戦
意、船医)」のような同音異義語の組み合わせが
発生した場合、「(化学)+(繊維)」を最も妥当性
のある解析結果とする判断が下せるわけである。
文章、たとえば企業内で作成された通達文、手紙
文などの業務文書あるいは出版物等を大量に収集
し、それらのデータから単語間の結びつきに関す
る情報を抽出して、それらの情報を目的とする言
語処理に適する形式にまとめあげ記憶手段に記憶
させたデータフアイルのことである。たとえば、
ある文章に「化学繊維」という言葉があつたとす
る。これは「化学」と「繊維」の2個の単語が連
続して用いられた場合であり、このことから「化
学」という単語のあとに「繊維」という単語が連
続する可能性が大きいという情報が得られる。こ
れを上記用例辞書に蓄えておけば、かな漢字変換
などの処理で「(化学、科学、価額)+(繊維、戦
意、船医)」のような同音異義語の組み合わせが
発生した場合、「(化学)+(繊維)」を最も妥当性
のある解析結果とする判断が下せるわけである。
上記の例は、国文法的に言う「自立語」の連続
に関するものであるが、「自立語」+「接尾語」、
「接尾語」+「自立語」に関するものも同様に考え
られる。たとえば、「新年度」という用例から、
接頭語「新」と自立語「年度」の結びつきを用例
辞書に収容し、これを利用することにより「(新、
真)+(年度、粘度、粘土)」の同音異義語群から
「(新)+(年度)」を迅速に選び出すことができる。
またこの場合、「シンネンド」の読みに対して
「(信念)+(度)」という「自立語」+「接尾語」の
解析も成立するが、用例辞書を使うことにより、
これを解析結果としては妥当性の低いものとする
判断も合わせて可能となる。
に関するものであるが、「自立語」+「接尾語」、
「接尾語」+「自立語」に関するものも同様に考え
られる。たとえば、「新年度」という用例から、
接頭語「新」と自立語「年度」の結びつきを用例
辞書に収容し、これを利用することにより「(新、
真)+(年度、粘度、粘土)」の同音異義語群から
「(新)+(年度)」を迅速に選び出すことができる。
またこの場合、「シンネンド」の読みに対して
「(信念)+(度)」という「自立語」+「接尾語」の
解析も成立するが、用例辞書を使うことにより、
これを解析結果としては妥当性の低いものとする
判断も合わせて可能となる。
この発明は、文章から得られた単語間の結びつ
きの情報を基にして用例辞書を作成する際のデー
タ構成手法に関するものである。
きの情報を基にして用例辞書を作成する際のデー
タ構成手法に関するものである。
従来技術
用例データの抽出には、抽出対象である大量文
書と、目的とする日本語情報処理装置が有する辞
書(自立語、接頭語、接尾語などを含む)とのマ
ツチングを取るので非常に多くの用例が得られ
る。第1図はその用例のごく一部としての「接頭
語」+「自立語」の例を示したのものである。自立
語「検討」に関し「御」、「未」、「再」の接頭語が
あがつている。これは、文書中の用例「御検討」、
「未検討」、「再検討」から得られたものである。
第1図の用例データから「接頭語」+「自立語」の
関係に対する用例辞書を一般的な手法で作成する
と第2図のようになる。
書と、目的とする日本語情報処理装置が有する辞
書(自立語、接頭語、接尾語などを含む)とのマ
ツチングを取るので非常に多くの用例が得られ
る。第1図はその用例のごく一部としての「接頭
語」+「自立語」の例を示したのものである。自立
語「検討」に関し「御」、「未」、「再」の接頭語が
あがつている。これは、文書中の用例「御検討」、
「未検討」、「再検討」から得られたものである。
第1図の用例データから「接頭語」+「自立語」の
関係に対する用例辞書を一般的な手法で作成する
と第2図のようになる。
第2図の用例辞書1において、フアイル2は自
立語に関するデータ、フアイル3は接頭語に関す
るデータを収容している。フアイル2中の4は、
フアイル2からフアイル3を参照するためのポイ
ンタである。使用法によつては、このポインタを
フアイル3に設け、フアイル3からフアイル2を
参照するようにもできる。この第2図では、自立
語及び接頭語のデータを漢字表記で代表させてい
るが、実際には、各自立語に割当てられた固有番
号や同様に接頭語の番号などのデータで収容され
る。いずれにしてもフアイル2中のデータ要素5
はそれぞれ同一の大きさ即ち固定長である。フア
イル3のデータ要素6も同様、固定長である。
立語に関するデータ、フアイル3は接頭語に関す
るデータを収容している。フアイル2中の4は、
フアイル2からフアイル3を参照するためのポイ
ンタである。使用法によつては、このポインタを
フアイル3に設け、フアイル3からフアイル2を
参照するようにもできる。この第2図では、自立
語及び接頭語のデータを漢字表記で代表させてい
るが、実際には、各自立語に割当てられた固有番
号や同様に接頭語の番号などのデータで収容され
る。いずれにしてもフアイル2中のデータ要素5
はそれぞれ同一の大きさ即ち固定長である。フア
イル3のデータ要素6も同様、固定長である。
ところで、この従来の用例辞書1では、固定長
のデータ要素でそれぞれの語を収容(記憶)する
ようにしていたので、いきおい辞書容量が膨大な
ものとなつていた。
のデータ要素でそれぞれの語を収容(記憶)する
ようにしていたので、いきおい辞書容量が膨大な
ものとなつていた。
発明の目的
そこで、この発明は、用例辞書の本来の内容を
保持したまま辞書容量の圧縮を行なうとともに、
全体的な処理時間の短縮を図つた用例辞書を提供
することである。
保持したまま辞書容量の圧縮を行なうとともに、
全体的な処理時間の短縮を図つた用例辞書を提供
することである。
発明の要旨
本発明は、自立語に結合されて用いられる単語
を集めて編集してなる日本語情報処理装置の用例
辞書において、 複数の自立語間にわたつて用例を共通にする少
なくとも2つ以上の単語群を所定の索引コードで
記憶し、用例を共通にしない単語を所定の文字情
報で記憶する第1のフアイルと、 上記索引コードを見出し語とし上記索引コード
に対応する単語群を記憶する第2のフアイルとを
有することを特徴としている。
を集めて編集してなる日本語情報処理装置の用例
辞書において、 複数の自立語間にわたつて用例を共通にする少
なくとも2つ以上の単語群を所定の索引コードで
記憶し、用例を共通にしない単語を所定の文字情
報で記憶する第1のフアイルと、 上記索引コードを見出し語とし上記索引コード
に対応する単語群を記憶する第2のフアイルとを
有することを特徴としている。
また、上記用例辞書において、前記単語は、自
立語、接頭語又は接尾語のいずれかであることを
特徴としている。
立語、接頭語又は接尾語のいずれかであることを
特徴としている。
以下、本発明を着想とともに、図示の実施例に
よつて説明する。
よつて説明する。
実施例
まず、第1図の内容を詳細に解析してみると、
接頭語用例の各欄に対して共通の集合が存在する
ことが判る。つまり、「各、新、前、元」の集合
が、「議員」、「役員」、「理事」、「監督」の各自立
語が有する接頭語用例集合の中に含まれている。
なお、本例では完全に一致しているが、大きな集
合を想定する場合も考慮し、含まれている事実に
着目する。そして、この性質を利用し、「各、新、
前、元」の4つのデータ要素からなる用例を、た
とえばC1という1つのデータ要素によつて表わ
し用例辞書を作成する。
接頭語用例の各欄に対して共通の集合が存在する
ことが判る。つまり、「各、新、前、元」の集合
が、「議員」、「役員」、「理事」、「監督」の各自立
語が有する接頭語用例集合の中に含まれている。
なお、本例では完全に一致しているが、大きな集
合を想定する場合も考慮し、含まれている事実に
着目する。そして、この性質を利用し、「各、新、
前、元」の4つのデータ要素からなる用例を、た
とえばC1という1つのデータ要素によつて表わ
し用例辞書を作成する。
この手法によつて作成した実施例の用例辞書7
を第3図に示す。第2図の従来の辞書1の「各」、
「新」、「前」、「元」の共通の単語群が、共通のコ
ードC1で置きかえられている。
を第3図に示す。第2図の従来の辞書1の「各」、
「新」、「前」、「元」の共通の単語群が、共通のコ
ードC1で置きかえられている。
今、新たなフアイル3は接頭語番号の形式で収
容するものとし、1個のデータ要素で0〜255の
番号を表現できるとする(1データ要素を1バイ
ト=8ビツトとする)。各接頭語番号の範囲が0
〜100と仮定すると、101以上の番号に対し第3図
のコードC1を割り当てることができる。即ち0
〜100の区間に対しては個々の接頭語が対応し、
101〜255の区間に対してはC1のように集合化さ
れた接頭語群が対応すると考えれば、データ要素
の容量が増加することはない。本例では、集合化
されたのはC1のみであるが、第1図で示したよ
りも大容量の用例に対しては別の集合化を試み、
C2、C3,C4,……のように複数存在することは
明らかである。また、必要に応じ、C5=C8+C10
+「新」のように、集合相互の関係を含む集合化
も規定できる。
容するものとし、1個のデータ要素で0〜255の
番号を表現できるとする(1データ要素を1バイ
ト=8ビツトとする)。各接頭語番号の範囲が0
〜100と仮定すると、101以上の番号に対し第3図
のコードC1を割り当てることができる。即ち0
〜100の区間に対しては個々の接頭語が対応し、
101〜255の区間に対してはC1のように集合化さ
れた接頭語群が対応すると考えれば、データ要素
の容量が増加することはない。本例では、集合化
されたのはC1のみであるが、第1図で示したよ
りも大容量の用例に対しては別の集合化を試み、
C2、C3,C4,……のように複数存在することは
明らかである。また、必要に応じ、C5=C8+C10
+「新」のように、集合相互の関係を含む集合化
も規定できる。
検索時には、コードC1,C2,……から個々の
用例を得るための解読テーブルが索引される。た
とえば第4図、第5図に示す解読テーブル8,9
である。コードC1を解読テーブル8アドレスデ
ータとすれば、第4図の「議員」が参照される
と、ポインタ4を介しコードC1が出力され、こ
のC1のアドレス指定で「各、新、前、元」の集
合が索引される。第5図のテーブル9では、各コ
ードC1,C2,C3からポインタ10を介してテー
ブル9を索引することとなる。
用例を得るための解読テーブルが索引される。た
とえば第4図、第5図に示す解読テーブル8,9
である。コードC1を解読テーブル8アドレスデ
ータとすれば、第4図の「議員」が参照される
と、ポインタ4を介しコードC1が出力され、こ
のC1のアドレス指定で「各、新、前、元」の集
合が索引される。第5図のテーブル9では、各コ
ードC1,C2,C3からポインタ10を介してテー
ブル9を索引することとなる。
テーブル8,9を構成する新たなメモリが必要
となるが、大量の用例に対してはフアイル3′の
容量の減小の方がはるかに大きい。また、この手
法によつて用例辞書の本体の機能を損うことはな
い。
となるが、大量の用例に対してはフアイル3′の
容量の減小の方がはるかに大きい。また、この手
法によつて用例辞書の本体の機能を損うことはな
い。
第6図に他の実施例を示す。第1図の用例デー
タから接頭語の集合を抽出するとき、「各、新、
前」の集合に着目し、「各、新、前、元」をコー
ドC1で置き換えるかわりに「各、新、前」をコ
ードC1′で置き換えるようにしたものである。こ
うすると、フアイル3″のコードと本来の単語番
号が混在することとなる。第7図にはこのコード
C1′の解読テーブル11を示す。この実施例の場
合、第3図と第5図の比較から明らかなように、
容量圧縮の点でコードC1′の集合化の方がコード
C1のものより小さいので不利であると解さられ
るかも知れない。しかしながら、大容量の用例に
対しては、接頭語用例相互間の関係が、第1図の
例とは異なる場合が多いので、むしろ第6図のよ
うな圧縮手法が有利となる場合がある。したがつ
て、集合化に関し、得られた用例群に対し最適な
集合を選ぶようにする。
タから接頭語の集合を抽出するとき、「各、新、
前」の集合に着目し、「各、新、前、元」をコー
ドC1で置き換えるかわりに「各、新、前」をコ
ードC1′で置き換えるようにしたものである。こ
うすると、フアイル3″のコードと本来の単語番
号が混在することとなる。第7図にはこのコード
C1′の解読テーブル11を示す。この実施例の場
合、第3図と第5図の比較から明らかなように、
容量圧縮の点でコードC1′の集合化の方がコード
C1のものより小さいので不利であると解さられ
るかも知れない。しかしながら、大容量の用例に
対しては、接頭語用例相互間の関係が、第1図の
例とは異なる場合が多いので、むしろ第6図のよ
うな圧縮手法が有利となる場合がある。したがつ
て、集合化に関し、得られた用例群に対し最適な
集合を選ぶようにする。
第8図、第9図の用例辞書71,72は変形例
である。用例辞書71では、自立語フアイル2の
ポインタ4を共通化し、共通の用例に対応するコ
ードC1を参照するようにしたものである。第9
図の用例辞書72は、その共通のポインタ自身を
コードC1で置き換えたものである。これら変形
例によつて、接頭語のフアイル31,32をさら
にデータ圧縮することができる。
である。用例辞書71では、自立語フアイル2の
ポインタ4を共通化し、共通の用例に対応するコ
ードC1を参照するようにしたものである。第9
図の用例辞書72は、その共通のポインタ自身を
コードC1で置き換えたものである。これら変形
例によつて、接頭語のフアイル31,32をさら
にデータ圧縮することができる。
上記実施例、変形例は、「接頭語」+「自立語」
の用例辞書に関するものであつたが、ここに開示
の手法が「自立語」+「接尾語」又は「自立語」+
「自立語」の用例辞書にも有効なことは当業者に
とつて明らかである。
の用例辞書に関するものであつたが、ここに開示
の手法が「自立語」+「接尾語」又は「自立語」+
「自立語」の用例辞書にも有効なことは当業者に
とつて明らかである。
効 果
以上のように、本発明の用例辞書は、複数の自
立語間にわたつて用例を共通にする少なくとも2
つ以上の共通の単語群を索引できるコードで置換
するとともに、用例を共通にしない単語は所定の
文字情報で記憶してなるものであるから、本来の
辞書の機能を損なうことなく辞書データを圧縮す
ることができるばかりでなく、全体的な処理時間
も短縮することができる。
立語間にわたつて用例を共通にする少なくとも2
つ以上の共通の単語群を索引できるコードで置換
するとともに、用例を共通にしない単語は所定の
文字情報で記憶してなるものであるから、本来の
辞書の機能を損なうことなく辞書データを圧縮す
ることができるばかりでなく、全体的な処理時間
も短縮することができる。
第1図は抽出した用例データを表形式でまとめ
あげた図、第2図は従来の用例辞書(一部)の模
式図、第3図は本発明の実施例の模式図、第4図
はコード「C1」によつて索引できる解読テーブ
ルの説明図、第5図は他の解読テーブルの説明
図、第6図は他の実施例の模式図、第7図はその
解読テーブルの説明図、第8図、第9図は変形例
の模式図である。 1,7,7′……用例辞書、2……自立語のフ
アイル、3,3′,3″……接頭語のフアイル、
8,9,11……解読テーブル、C1,C2,C3,
C1′……コード。
あげた図、第2図は従来の用例辞書(一部)の模
式図、第3図は本発明の実施例の模式図、第4図
はコード「C1」によつて索引できる解読テーブ
ルの説明図、第5図は他の解読テーブルの説明
図、第6図は他の実施例の模式図、第7図はその
解読テーブルの説明図、第8図、第9図は変形例
の模式図である。 1,7,7′……用例辞書、2……自立語のフ
アイル、3,3′,3″……接頭語のフアイル、
8,9,11……解読テーブル、C1,C2,C3,
C1′……コード。
Claims (1)
- 【特許請求の範囲】 1 自立語に結合されて用いられる単語を集めて
編集してなる日本語情報処理装置の用例辞書にお
いて、 複数の自立語間にわたつて用例を共通にする少
なくとも2つ以上の単語群を所定の索引コードで
記憶し、用例を共通にしない単語を所定の文字情
報で記憶する第1のフアイルと、 上記索引コードを見出し語とし上記索引コード
に対応する単語群を記憶する第2のフアイルとを
有することを特徴とする用例辞書。 2 前記単語は、自立語、接頭語又は接尾語のい
ずれかであることを特徴とする特許請求の範囲第
1項記載の用例辞書。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57220531A JPS59109939A (ja) | 1982-12-15 | 1982-12-15 | 用例辞書 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57220531A JPS59109939A (ja) | 1982-12-15 | 1982-12-15 | 用例辞書 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59109939A JPS59109939A (ja) | 1984-06-25 |
JPH0326420B2 true JPH0326420B2 (ja) | 1991-04-10 |
Family
ID=16752453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57220531A Granted JPS59109939A (ja) | 1982-12-15 | 1982-12-15 | 用例辞書 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59109939A (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63118976A (ja) * | 1986-11-07 | 1988-05-23 | Sanyo Electric Co Ltd | 文字処理装置 |
JPH0769916B2 (ja) * | 1989-05-26 | 1995-07-31 | シャープ株式会社 | かな漢字変換装置 |
JPH04290164A (ja) * | 1991-03-19 | 1992-10-14 | Hitachi Ltd | 単語辞書方法 |
JP2865446B2 (ja) * | 1991-05-20 | 1999-03-08 | シャープ株式会社 | 文章処理装置 |
JP3115635B2 (ja) * | 1991-05-20 | 2000-12-11 | シャープ株式会社 | 用例辞書及びこの用例辞書を備えた文章処理装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5741767A (en) * | 1980-08-25 | 1982-03-09 | Fujitsu Ltd | Kana (japanese syllabary) to chinesase character converting system |
-
1982
- 1982-12-15 JP JP57220531A patent/JPS59109939A/ja active Granted
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5741767A (en) * | 1980-08-25 | 1982-03-09 | Fujitsu Ltd | Kana (japanese syllabary) to chinesase character converting system |
Also Published As
Publication number | Publication date |
---|---|
JPS59109939A (ja) | 1984-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA1237527A (en) | Language processing dictionary for bidirectionally retrieving morphemic and semantic expressions | |
EP0378848A2 (en) | Method for use of morphological information to cross reference keywords used for information retrieval | |
JPS60159970A (ja) | 情報蓄積検索方式 | |
JP3263963B2 (ja) | 文書検索方法及び装置 | |
JPH026252B2 (ja) | ||
McMahon et al. | Unix time-sharing system: Statistical text processing | |
KR100326936B1 (ko) | 외국어로 표기된 한글을 한글표기로 변환하여 검색하는 시스템및 그 방법 | |
JPH0326420B2 (ja) | ||
Costello Jr | Storage and retrieval of chemical research and patent information by links and roles in Du Pont | |
JP5207721B2 (ja) | 転置インデックス作成装置及びフォワードインデックス作成装置 | |
JPS60100223A (ja) | 索引自動作成機能を有する文書作成・管理装置 | |
Vikis-Freibergs et al. | The Sun-songs of Latvian folklore: A computer-accessible corpus | |
KR100289332B1 (ko) | 전자화된 문서의 어절 데이터베이스 자동 구축장치 및 방법 | |
Patterson | Literary Research Guide. | |
Tosh | Content recognition and the production of synonymous expressions | |
Giles et al. | Computerized scheme for duplicate checking of bibliographic data bases | |
CN114756545A (zh) | 一种数据处理方法及装置 | |
Craven et al. | NEPHIS Implementation Title Coding Manual | |
Wiersba | Review of" Information Retrieval: Computational and Theoretical Aspects, by HS Heaps", Academic Press Inc. | |
CN115310458A (zh) | 一种人名翻译方法、系统、设备及计算机可读存储介质 | |
Cain | The development of Chinese ideographic processing for a shared cataloguing system | |
Kay et al. | Large files in linguistic computing | |
Knutson | Use Study of Online Cataloging in a Special Library | |
Stone | Standards for computer-aided content analysis: The Pisa conventions and recommendations | |
Craig et al. | Deacon Breadboard Grammar |