JPS59109939A - 用例辞書 - Google Patents
用例辞書Info
- Publication number
- JPS59109939A JPS59109939A JP57220531A JP22053182A JPS59109939A JP S59109939 A JPS59109939 A JP S59109939A JP 57220531 A JP57220531 A JP 57220531A JP 22053182 A JP22053182 A JP 22053182A JP S59109939 A JPS59109939 A JP S59109939A
- Authority
- JP
- Japan
- Prior art keywords
- word
- code
- dictionary
- common
- independent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
技術分野
この発明はかな漢字変換を利用した日本語ワードプロセ
ッサなどの日本語情報処理装置に係り、特に、変換率の
向上を図るため処理過程において参照される用例辞書に
関する。
ッサなどの日本語情報処理装置に係り、特に、変換率の
向上を図るため処理過程において参照される用例辞書に
関する。
…
用例辞書とは、一般社会で実際に通用している文章、た
とえば企業内で作成された通達文9手紙文などの業務文
書あるいは出版物等を大量に収集し、それらのデータか
ら単語間の結ひつきに関する情報を抽出して、それらの
情報を目的とする言語処理に適する形式にまとめあげ記
憶手段に記憶させたデータファイルのことである。たと
えば、ある文章に「化学繊維」という言葉があったとす
る。これは「化学」と「繊維」の2個の単語が連続して
用いられた場合であり、このことから「化学」という単
語のあとに「繊維」という単語が連続する可能性が大き
いという情報が得られる。これを上記用例辞書に蓄えて
おけば、かな漢字変換などの処理で「(化学、科学1価
額)+(繊維。
とえば企業内で作成された通達文9手紙文などの業務文
書あるいは出版物等を大量に収集し、それらのデータか
ら単語間の結ひつきに関する情報を抽出して、それらの
情報を目的とする言語処理に適する形式にまとめあげ記
憶手段に記憶させたデータファイルのことである。たと
えば、ある文章に「化学繊維」という言葉があったとす
る。これは「化学」と「繊維」の2個の単語が連続して
用いられた場合であり、このことから「化学」という単
語のあとに「繊維」という単語が連続する可能性が大き
いという情報が得られる。これを上記用例辞書に蓄えて
おけば、かな漢字変換などの処理で「(化学、科学1価
額)+(繊維。
戦意、船医)」のような同音異義語の組み合わせが発生
した場合、「(化学)+(繊維)」を最も妥当性のある
解析結果とする判断が下せるわけである。
した場合、「(化学)+(繊維)」を最も妥当性のある
解析結果とする判断が下せるわけである。
」二記の例は、国文法的に言う「自立語」の連続に関す
るものであるが、「自立語]+「接尾語」。
るものであるが、「自立語]+「接尾語」。
「接頭語」+「自立語」に関するものも同様に考えられ
る。たとえば、「新年度」という用例から、接頭語「新
」と自立語「年度」の結びつきを用例辞書に収容し、こ
れを利用することにより「(新。
る。たとえば、「新年度」という用例から、接頭語「新
」と自立語「年度」の結びつきを用例辞書に収容し、こ
れを利用することにより「(新。
真)+(年度、粘度、粘土)」の同音異義語群から「(
新)+(年度)」を迅速に選び出すことができる。また
この場合、「シンネンド」の読みに対して「(信念)+
(度)」という「自立語」+「接尾語」の解析も成立す
るが、用例辞書を使うことにより、これを解析結果とし
ては妥当性の低いものとする判断も合わせて可能となる
。
新)+(年度)」を迅速に選び出すことができる。また
この場合、「シンネンド」の読みに対して「(信念)+
(度)」という「自立語」+「接尾語」の解析も成立す
るが、用例辞書を使うことにより、これを解析結果とし
ては妥当性の低いものとする判断も合わせて可能となる
。
この発明は、文章から得られた単語間の結びつきの情報
を基にして用例辞書を作成する際のデータ構成手法に関
するものである。
を基にして用例辞書を作成する際のデータ構成手法に関
するものである。
従来技術
用例データの抽出には、抽出対象である大量文書と、目
的とする日本語情報処理装置が有する辞書(自立語、接
頭語、接尾語などを含む)とのマツチングを取るので非
常に多くの用例が得られる。
的とする日本語情報処理装置が有する辞書(自立語、接
頭語、接尾語などを含む)とのマツチングを取るので非
常に多くの用例が得られる。
第1図はその用例のご入く一部としての1接頭語」+「
自立語」の例を示したものである。自立語「検問」に関
し「御」、「未」、「再」の接頭語があがっている。こ
れは、文章中の用例「御検討」、「未検討」、「再検H
・1」から得られたものである。第1図の用例データか
ら「接頭語」+1自立語」の関係に対する用例辞書を一
般的な手法で作成すると第2図のようになる。
自立語」の例を示したものである。自立語「検問」に関
し「御」、「未」、「再」の接頭語があがっている。こ
れは、文章中の用例「御検討」、「未検討」、「再検H
・1」から得られたものである。第1図の用例データか
ら「接頭語」+1自立語」の関係に対する用例辞書を一
般的な手法で作成すると第2図のようになる。
第2図の用例辞書1において、ファイル2は自立語に関
するデータ、ファイル3は接頭語に関するデータを収容
している。ファイル2中の4は、ファイル2からファイ
ル3を参照するためのポインタである。使用法によって
は、このポインタをファイル3に設け、ファイル3から
ファイル2を参照するようにもできる。この第2図では
、自立語及び接頭語のデータを漢字表記で代表させてい
るが、実際には、各自立語に割当てられた固有番号や同
様に接頭語の番号などのデータで収容される。いずれに
してもファイル2中のデータ要素5はそれぞれ同一の大
きさ即ち固定長である。ファイル3のデータ要素6も同
様、固定長である。
するデータ、ファイル3は接頭語に関するデータを収容
している。ファイル2中の4は、ファイル2からファイ
ル3を参照するためのポインタである。使用法によって
は、このポインタをファイル3に設け、ファイル3から
ファイル2を参照するようにもできる。この第2図では
、自立語及び接頭語のデータを漢字表記で代表させてい
るが、実際には、各自立語に割当てられた固有番号や同
様に接頭語の番号などのデータで収容される。いずれに
してもファイル2中のデータ要素5はそれぞれ同一の大
きさ即ち固定長である。ファイル3のデータ要素6も同
様、固定長である。
ところで、この従来の用例辞書1では、固定長のデータ
要素でそれぞれの語を収容(記憶)するようにしていた
ので、いきおい辞書容量が膨大なものとなっていた。
要素でそれぞれの語を収容(記憶)するようにしていた
ので、いきおい辞書容量が膨大なものとなっていた。
発明の目的
そこで、この発明は、用例辞書の本来の内容を保持した
まま辞書容量の膨大化を回避できるデータ圧縮手法を提
案し、この手法によって作成した用例辞書を提供するこ
とを目的としている。
まま辞書容量の膨大化を回避できるデータ圧縮手法を提
案し、この手法によって作成した用例辞書を提供するこ
とを目的としている。
発明の要旨
本発明は、自立語に結合されて用いられる単語を集めて
編成してなる第2図の如き用例辞書において、複数の自
立語間にわたって用例を共通にする少なくとも2つ以上
の共通の単語群を当該単語群を索引できるコードで置換
したことを特徴としている。
編成してなる第2図の如き用例辞書において、複数の自
立語間にわたって用例を共通にする少なくとも2つ以上
の共通の単語群を当該単語群を索引できるコードで置換
したことを特徴としている。
以下、本発明を着想とともに、図示の実施例によって説
明する。
明する。
実施例
まず、第1図の内容を詳細に解析してみると、接頭語用
例の各欄に対して共通の集合が存在することが判る。つ
まり、「各、新、前2元」の集合が、「議員」、「役員
」、「理11」、「監督」の各自立語が有する接頭3ハ
川例集合の中に含まれている。なお、本例では完全に一
致しているが、大きな集合を想定する場合も考慮し、含
まれている事実に着目する。そして、この性質を利用し
、「各、新、前2元」の4つのデータ要素からなる用例
を、たとえば「C1」という1つのデータ要素によって
表わし用例辞書を作成する。
例の各欄に対して共通の集合が存在することが判る。つ
まり、「各、新、前2元」の集合が、「議員」、「役員
」、「理11」、「監督」の各自立語が有する接頭3ハ
川例集合の中に含まれている。なお、本例では完全に一
致しているが、大きな集合を想定する場合も考慮し、含
まれている事実に着目する。そして、この性質を利用し
、「各、新、前2元」の4つのデータ要素からなる用例
を、たとえば「C1」という1つのデータ要素によって
表わし用例辞書を作成する。
この手法によって作成した実施例の用例辞書7を第3図
に示す。第2図の従来の辞書1の「各」。
に示す。第2図の従来の辞書1の「各」。
「新」、「前」、「元」の共通の単語群が、共通のコー
ド「C1」で置きかえられている。
ド「C1」で置きかえられている。
今、新たなファイル3は接頭語番号の形式で収容するも
のとし、1個のデータ要素で0〜255の番号を表現で
きるとする(1データ要素を1バイト−8ビツトとする
)。各接頭語番号の範囲が0〜100と仮定すると、1
01以上の番号に対し第3図のコード「C1」を割り当
てることができる。即ち、0〜100の区間に対しては
個々の接頭語が対応し、101〜255の区間に対して
は「C1」のように集合化された接頭語群が対応すると
考えれば、データ要素の容量が増加することはない。本
例では、集合化されたのは「C1」のみであるが、第1
内で示したよりも大容量の用例に対しては別の集合化を
試み、I C2J、rc3J。
のとし、1個のデータ要素で0〜255の番号を表現で
きるとする(1データ要素を1バイト−8ビツトとする
)。各接頭語番号の範囲が0〜100と仮定すると、1
01以上の番号に対し第3図のコード「C1」を割り当
てることができる。即ち、0〜100の区間に対しては
個々の接頭語が対応し、101〜255の区間に対して
は「C1」のように集合化された接頭語群が対応すると
考えれば、データ要素の容量が増加することはない。本
例では、集合化されたのは「C1」のみであるが、第1
内で示したよりも大容量の用例に対しては別の集合化を
試み、I C2J、rc3J。
rc4J、・・・・・のように複数存在することは明ら
かである。また、必要に応じ、r C5J −rC8J
十rc10J +r新」のように、集合相互の関係を含
む集合化も規定できる。
かである。また、必要に応じ、r C5J −rC8J
十rc10J +r新」のように、集合相互の関係を含
む集合化も規定できる。
検索時には、コードrcI J 、「C2J、 ・・・
・・・から個々の用例を得るための解読テーブルが索引
される。たとえば第4図、第5図に示す解読テーブル8
,9である。コード「C1」を解読テーブル8のアドレ
スデータとすれば、第4図のrMJが参照されると、ポ
インタ4を介しコード「C1」が出力され、この「C1
」のアドレス指定で「各。
・・・から個々の用例を得るための解読テーブルが索引
される。たとえば第4図、第5図に示す解読テーブル8
,9である。コード「C1」を解読テーブル8のアドレ
スデータとすれば、第4図のrMJが参照されると、ポ
インタ4を介しコード「C1」が出力され、この「C1
」のアドレス指定で「各。
新、前2元」の集合が索引される。第5図のテーブル9
では、各コード「CI J 、rc2 JJC3Jから
ポインタ10を介してテーブル9を索引することとなる
。
では、各コード「CI J 、rc2 JJC3Jから
ポインタ10を介してテーブル9を索引することとなる
。
テーブル8,9を構成する新たなメモリが必要となるが
、大量の用例に対してはファイル3の容量の減小の方が
はるかに大きい。また、この手法によって用例辞書の本
来の機能を損うことはない。
、大量の用例に対してはファイル3の容量の減小の方が
はるかに大きい。また、この手法によって用例辞書の本
来の機能を損うことはない。
第6図に他の実施例を示す。第1図の用例データから接
頭語の集合を抽出するとき、「各、新。
頭語の集合を抽出するとき、「各、新。
前」の集合に着目し、「各、新、前2元」をコード「C
1」で置き換えるかわりに、「各、新、前」をコード「
C1」でff’?き換えるようにしたものである。こう
すると、ファイル3にコードと本来の単語番号が混在す
ることとなる。第7図にはこのコード「C1」の解読テ
ーブル11を示す。この実施例の場合、第3図と第5図
の比較から明らかなように、容量圧縮の点でコード「C
1」の集合化の方がコード「C1」のものより小さいの
で不利であると解せられるかも知れない。しかしながら
、大容量の用例に対しては、接頭語用例相互間の関係が
、第1図の例とは異なる場合が多いので、むしろ第6図
のような圧縮手法が有利となる場合がある。したがって
、集合化に関し、得られた用例群に対し最適な集合を選
ぶようにする。
1」で置き換えるかわりに、「各、新、前」をコード「
C1」でff’?き換えるようにしたものである。こう
すると、ファイル3にコードと本来の単語番号が混在す
ることとなる。第7図にはこのコード「C1」の解読テ
ーブル11を示す。この実施例の場合、第3図と第5図
の比較から明らかなように、容量圧縮の点でコード「C
1」の集合化の方がコード「C1」のものより小さいの
で不利であると解せられるかも知れない。しかしながら
、大容量の用例に対しては、接頭語用例相互間の関係が
、第1図の例とは異なる場合が多いので、むしろ第6図
のような圧縮手法が有利となる場合がある。したがって
、集合化に関し、得られた用例群に対し最適な集合を選
ぶようにする。
第8図、第9図の用例辞書71.72は変形例である。
用例辞書71では、自立語ファイル2のポインタ4を共
通化し、共通の用例に対応するコード「C1」を参照す
るようにしたものである。
通化し、共通の用例に対応するコード「C1」を参照す
るようにしたものである。
第9図の用例辞書72は、その共通のポインタ自身をコ
ード「C1」で置き換えたものである。これら変形例に
よって、接頭語のファイル31.32をさらにデータ圧
縮することができる。
ード「C1」で置き換えたものである。これら変形例に
よって、接頭語のファイル31.32をさらにデータ圧
縮することができる。
上記実施例、変形例は、「接頭語」+「自立語」の用例
辞書に関するものであったが、ここに開示の手法が「自
立語」+「接尾語」又は「自立語」+「自立語」の用例
辞書にも有効なことは当業者にとって明らかである。
辞書に関するものであったが、ここに開示の手法が「自
立語」+「接尾語」又は「自立語」+「自立語」の用例
辞書にも有効なことは当業者にとって明らかである。
効果
以上のように、本発明の用例辞書は、複数の自立語間に
わたって用例を共通にする少なくとも2つ以上の共通の
単語群をこの単語群を索引できるコードで置換してなる
ものであるから、本来の辞−書の機能を損うことなく容
量を小さくすることができる。すなわち、一定の容量で
あればより多くの用例データを収容できるとともに、多
量の用例データに対してはより少ない容量のメモリで足
りる。
わたって用例を共通にする少なくとも2つ以上の共通の
単語群をこの単語群を索引できるコードで置換してなる
ものであるから、本来の辞−書の機能を損うことなく容
量を小さくすることができる。すなわち、一定の容量で
あればより多くの用例データを収容できるとともに、多
量の用例データに対してはより少ない容量のメモリで足
りる。
第1図は抽出した用例データを表形式でまとめあげた図
、第2図は従来の用例辞書(一部)の模式図、第3図は
本発明の実施例の模式図、第4図はコード「C1」によ
って索引できる解読テーブルの説明図、第5図は他の解
読テーブルの説明図、第6図は他の実施例の模式図、:
f17図はその解読テーブルの説明図、第8図、第9図
は変形例の模式図である。 1.7.7・・・用例辞書、2・・・自立語のファイル
、3.3.3・・・接頭語のファイル、8,9.11・
・・解読テーブル、C1,C2,C3,C1・・・コー
ド。 特 許 出 にj〔(人 電子計算機基本技術研究組合
へ 理 人 弁理士 青 山 葆 ほか2名:;: 11 1 1 1 第6図 第7図 岡悼囚罰司 第8図 第9図
、第2図は従来の用例辞書(一部)の模式図、第3図は
本発明の実施例の模式図、第4図はコード「C1」によ
って索引できる解読テーブルの説明図、第5図は他の解
読テーブルの説明図、第6図は他の実施例の模式図、:
f17図はその解読テーブルの説明図、第8図、第9図
は変形例の模式図である。 1.7.7・・・用例辞書、2・・・自立語のファイル
、3.3.3・・・接頭語のファイル、8,9.11・
・・解読テーブル、C1,C2,C3,C1・・・コー
ド。 特 許 出 にj〔(人 電子計算機基本技術研究組合
へ 理 人 弁理士 青 山 葆 ほか2名:;: 11 1 1 1 第6図 第7図 岡悼囚罰司 第8図 第9図
Claims (2)
- (1) 自立語に結合されて用いられる単語を集めて
編成してなる日本語情報処理装置の用例辞書において、
複数の自立語間にわたって用例を共通にする少なくとも
2つ以上の共通の単語群を当該単語群を索引できるコー
ドで置換してなる用例辞書。 - (2)前記単語は、自立語、接頭語又は接尾語のいずれ
かである特許請求の範囲第(1)項記載の用例辞書。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57220531A JPS59109939A (ja) | 1982-12-15 | 1982-12-15 | 用例辞書 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57220531A JPS59109939A (ja) | 1982-12-15 | 1982-12-15 | 用例辞書 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59109939A true JPS59109939A (ja) | 1984-06-25 |
JPH0326420B2 JPH0326420B2 (ja) | 1991-04-10 |
Family
ID=16752453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57220531A Granted JPS59109939A (ja) | 1982-12-15 | 1982-12-15 | 用例辞書 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59109939A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63118976A (ja) * | 1986-11-07 | 1988-05-23 | Sanyo Electric Co Ltd | 文字処理装置 |
JPH02311952A (ja) * | 1989-05-26 | 1990-12-27 | Sharp Corp | かな漢字変換装置 |
JPH04290164A (ja) * | 1991-03-19 | 1992-10-14 | Hitachi Ltd | 単語辞書方法 |
JPH04343163A (ja) * | 1991-05-20 | 1992-11-30 | Sharp Corp | 用例辞書及びこの用例辞書を備えた文章処理装置 |
JPH04343161A (ja) * | 1991-05-20 | 1992-11-30 | Sharp Corp | 文章処理装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5741767A (en) * | 1980-08-25 | 1982-03-09 | Fujitsu Ltd | Kana (japanese syllabary) to chinesase character converting system |
-
1982
- 1982-12-15 JP JP57220531A patent/JPS59109939A/ja active Granted
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5741767A (en) * | 1980-08-25 | 1982-03-09 | Fujitsu Ltd | Kana (japanese syllabary) to chinesase character converting system |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63118976A (ja) * | 1986-11-07 | 1988-05-23 | Sanyo Electric Co Ltd | 文字処理装置 |
JPH02311952A (ja) * | 1989-05-26 | 1990-12-27 | Sharp Corp | かな漢字変換装置 |
JPH04290164A (ja) * | 1991-03-19 | 1992-10-14 | Hitachi Ltd | 単語辞書方法 |
JPH04343163A (ja) * | 1991-05-20 | 1992-11-30 | Sharp Corp | 用例辞書及びこの用例辞書を備えた文章処理装置 |
JPH04343161A (ja) * | 1991-05-20 | 1992-11-30 | Sharp Corp | 文章処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH0326420B2 (ja) | 1991-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5983171A (en) | Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program | |
US6470347B1 (en) | Method, system, program, and data structure for a dense array storing character strings | |
Thomson et al. | Organic search and display using a connectivity matrix derived from Wiswesser notation | |
McMahon et al. | Unix time-sharing system: Statistical text processing | |
Kraft | A comparison of keyword‐in‐context (KWIC) indexing of titles with a subject heading classification system | |
JPS6175957A (ja) | 機械翻訳処理装置 | |
JPS59109939A (ja) | 用例辞書 | |
Costello Jr | Storage and retrieval of chemical research and patent information by links and roles in Du Pont | |
US5369762A (en) | Method for sorting data in a computer at high speed by using data word values for address locations | |
CN115794745A (zh) | 文件搜索方法、系统、设备及存储介质 | |
Magapu | Development and customization of in-house developed OCR and its evaluation | |
Cooper et al. | Sorting of textual data bases: a variety generation approach to distribution sorting | |
Long et al. | Dictionary buildup and stability of word frequency in a specialized medical area | |
Zboray | dBase III plus and the MARC AMC format: problems and possibilities | |
Neufeld et al. | Machine-aided title word indexing for a weekly current awareness publication | |
Goyal | The maximum entropy approach to record abbreviation for optimal record control | |
Giles et al. | Computerized scheme for duplicate checking of bibliographic data bases | |
Tosh | Content recognition and the production of synonymous expressions | |
Shan et al. | Placement of partitioned signature file and its performance analysis | |
Green et al. | Preserving the Whole | |
Siefkes | Learning to Extract Information for the Semantic Web. | |
Swihart et al. | An Input System for Automated Library Indexing and Information Retrieval, Including Preparation of Catalog Cards | |
JPH03201061A (ja) | 文書処理用制御コード変換方式 | |
Craig et al. | Deacon Breadboard Grammar | |
Sen et al. | Zipf’s law and writings on LIS |