JPS59109939A - 用例辞書 - Google Patents

用例辞書

Info

Publication number
JPS59109939A
JPS59109939A JP57220531A JP22053182A JPS59109939A JP S59109939 A JPS59109939 A JP S59109939A JP 57220531 A JP57220531 A JP 57220531A JP 22053182 A JP22053182 A JP 22053182A JP S59109939 A JPS59109939 A JP S59109939A
Authority
JP
Japan
Prior art keywords
word
code
dictionary
common
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57220531A
Other languages
English (en)
Other versions
JPH0326420B2 (ja
Inventor
Shinobu Shiotani
塩谷 忍
Yasuji Kofuchi
保司 小渕
Akira Hamada
明 濱田
Shigeaki Harada
原田 茂明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP57220531A priority Critical patent/JPS59109939A/ja
Publication of JPS59109939A publication Critical patent/JPS59109939A/ja
Publication of JPH0326420B2 publication Critical patent/JPH0326420B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 この発明はかな漢字変換を利用した日本語ワードプロセ
ッサなどの日本語情報処理装置に係り、特に、変換率の
向上を図るため処理過程において参照される用例辞書に
関する。
… 用例辞書とは、一般社会で実際に通用している文章、た
とえば企業内で作成された通達文9手紙文などの業務文
書あるいは出版物等を大量に収集し、それらのデータか
ら単語間の結ひつきに関する情報を抽出して、それらの
情報を目的とする言語処理に適する形式にまとめあげ記
憶手段に記憶させたデータファイルのことである。たと
えば、ある文章に「化学繊維」という言葉があったとす
る。これは「化学」と「繊維」の2個の単語が連続して
用いられた場合であり、このことから「化学」という単
語のあとに「繊維」という単語が連続する可能性が大き
いという情報が得られる。これを上記用例辞書に蓄えて
おけば、かな漢字変換などの処理で「(化学、科学1価
額)+(繊維。
戦意、船医)」のような同音異義語の組み合わせが発生
した場合、「(化学)+(繊維)」を最も妥当性のある
解析結果とする判断が下せるわけである。
」二記の例は、国文法的に言う「自立語」の連続に関す
るものであるが、「自立語]+「接尾語」。
「接頭語」+「自立語」に関するものも同様に考えられ
る。たとえば、「新年度」という用例から、接頭語「新
」と自立語「年度」の結びつきを用例辞書に収容し、こ
れを利用することにより「(新。
真)+(年度、粘度、粘土)」の同音異義語群から「(
新)+(年度)」を迅速に選び出すことができる。また
この場合、「シンネンド」の読みに対して「(信念)+
(度)」という「自立語」+「接尾語」の解析も成立す
るが、用例辞書を使うことにより、これを解析結果とし
ては妥当性の低いものとする判断も合わせて可能となる
この発明は、文章から得られた単語間の結びつきの情報
を基にして用例辞書を作成する際のデータ構成手法に関
するものである。
従来技術 用例データの抽出には、抽出対象である大量文書と、目
的とする日本語情報処理装置が有する辞書(自立語、接
頭語、接尾語などを含む)とのマツチングを取るので非
常に多くの用例が得られる。
第1図はその用例のご入く一部としての1接頭語」+「
自立語」の例を示したものである。自立語「検問」に関
し「御」、「未」、「再」の接頭語があがっている。こ
れは、文章中の用例「御検討」、「未検討」、「再検H
・1」から得られたものである。第1図の用例データか
ら「接頭語」+1自立語」の関係に対する用例辞書を一
般的な手法で作成すると第2図のようになる。
第2図の用例辞書1において、ファイル2は自立語に関
するデータ、ファイル3は接頭語に関するデータを収容
している。ファイル2中の4は、ファイル2からファイ
ル3を参照するためのポインタである。使用法によって
は、このポインタをファイル3に設け、ファイル3から
ファイル2を参照するようにもできる。この第2図では
、自立語及び接頭語のデータを漢字表記で代表させてい
るが、実際には、各自立語に割当てられた固有番号や同
様に接頭語の番号などのデータで収容される。いずれに
してもファイル2中のデータ要素5はそれぞれ同一の大
きさ即ち固定長である。ファイル3のデータ要素6も同
様、固定長である。
ところで、この従来の用例辞書1では、固定長のデータ
要素でそれぞれの語を収容(記憶)するようにしていた
ので、いきおい辞書容量が膨大なものとなっていた。
発明の目的 そこで、この発明は、用例辞書の本来の内容を保持した
まま辞書容量の膨大化を回避できるデータ圧縮手法を提
案し、この手法によって作成した用例辞書を提供するこ
とを目的としている。
発明の要旨 本発明は、自立語に結合されて用いられる単語を集めて
編成してなる第2図の如き用例辞書において、複数の自
立語間にわたって用例を共通にする少なくとも2つ以上
の共通の単語群を当該単語群を索引できるコードで置換
したことを特徴としている。
以下、本発明を着想とともに、図示の実施例によって説
明する。
実施例 まず、第1図の内容を詳細に解析してみると、接頭語用
例の各欄に対して共通の集合が存在することが判る。つ
まり、「各、新、前2元」の集合が、「議員」、「役員
」、「理11」、「監督」の各自立語が有する接頭3ハ
川例集合の中に含まれている。なお、本例では完全に一
致しているが、大きな集合を想定する場合も考慮し、含
まれている事実に着目する。そして、この性質を利用し
、「各、新、前2元」の4つのデータ要素からなる用例
を、たとえば「C1」という1つのデータ要素によって
表わし用例辞書を作成する。
この手法によって作成した実施例の用例辞書7を第3図
に示す。第2図の従来の辞書1の「各」。
「新」、「前」、「元」の共通の単語群が、共通のコー
ド「C1」で置きかえられている。
今、新たなファイル3は接頭語番号の形式で収容するも
のとし、1個のデータ要素で0〜255の番号を表現で
きるとする(1データ要素を1バイト−8ビツトとする
)。各接頭語番号の範囲が0〜100と仮定すると、1
01以上の番号に対し第3図のコード「C1」を割り当
てることができる。即ち、0〜100の区間に対しては
個々の接頭語が対応し、101〜255の区間に対して
は「C1」のように集合化された接頭語群が対応すると
考えれば、データ要素の容量が増加することはない。本
例では、集合化されたのは「C1」のみであるが、第1
内で示したよりも大容量の用例に対しては別の集合化を
試み、I C2J、rc3J。
rc4J、・・・・・のように複数存在することは明ら
かである。また、必要に応じ、r C5J −rC8J
十rc10J +r新」のように、集合相互の関係を含
む集合化も規定できる。
検索時には、コードrcI J 、「C2J、 ・・・
・・・から個々の用例を得るための解読テーブルが索引
される。たとえば第4図、第5図に示す解読テーブル8
,9である。コード「C1」を解読テーブル8のアドレ
スデータとすれば、第4図のrMJが参照されると、ポ
インタ4を介しコード「C1」が出力され、この「C1
」のアドレス指定で「各。
新、前2元」の集合が索引される。第5図のテーブル9
では、各コード「CI J 、rc2 JJC3Jから
ポインタ10を介してテーブル9を索引することとなる
テーブル8,9を構成する新たなメモリが必要となるが
、大量の用例に対してはファイル3の容量の減小の方が
はるかに大きい。また、この手法によって用例辞書の本
来の機能を損うことはない。
第6図に他の実施例を示す。第1図の用例データから接
頭語の集合を抽出するとき、「各、新。
前」の集合に着目し、「各、新、前2元」をコード「C
1」で置き換えるかわりに、「各、新、前」をコード「
C1」でff’?き換えるようにしたものである。こう
すると、ファイル3にコードと本来の単語番号が混在す
ることとなる。第7図にはこのコード「C1」の解読テ
ーブル11を示す。この実施例の場合、第3図と第5図
の比較から明らかなように、容量圧縮の点でコード「C
1」の集合化の方がコード「C1」のものより小さいの
で不利であると解せられるかも知れない。しかしながら
、大容量の用例に対しては、接頭語用例相互間の関係が
、第1図の例とは異なる場合が多いので、むしろ第6図
のような圧縮手法が有利となる場合がある。したがって
、集合化に関し、得られた用例群に対し最適な集合を選
ぶようにする。
第8図、第9図の用例辞書71.72は変形例である。
用例辞書71では、自立語ファイル2のポインタ4を共
通化し、共通の用例に対応するコード「C1」を参照す
るようにしたものである。
第9図の用例辞書72は、その共通のポインタ自身をコ
ード「C1」で置き換えたものである。これら変形例に
よって、接頭語のファイル31.32をさらにデータ圧
縮することができる。
上記実施例、変形例は、「接頭語」+「自立語」の用例
辞書に関するものであったが、ここに開示の手法が「自
立語」+「接尾語」又は「自立語」+「自立語」の用例
辞書にも有効なことは当業者にとって明らかである。
効果 以上のように、本発明の用例辞書は、複数の自立語間に
わたって用例を共通にする少なくとも2つ以上の共通の
単語群をこの単語群を索引できるコードで置換してなる
ものであるから、本来の辞−書の機能を損うことなく容
量を小さくすることができる。すなわち、一定の容量で
あればより多くの用例データを収容できるとともに、多
量の用例データに対してはより少ない容量のメモリで足
りる。
【図面の簡単な説明】
第1図は抽出した用例データを表形式でまとめあげた図
、第2図は従来の用例辞書(一部)の模式図、第3図は
本発明の実施例の模式図、第4図はコード「C1」によ
って索引できる解読テーブルの説明図、第5図は他の解
読テーブルの説明図、第6図は他の実施例の模式図、:
f17図はその解読テーブルの説明図、第8図、第9図
は変形例の模式図である。 1.7.7・・・用例辞書、2・・・自立語のファイル
、3.3.3・・・接頭語のファイル、8,9.11・
・・解読テーブル、C1,C2,C3,C1・・・コー
ド。 特 許 出 にj〔(人 電子計算機基本技術研究組合
へ 理 人 弁理士 青 山 葆 ほか2名:;: 11 1 1    1 第6図 第7図 岡悼囚罰司 第8図 第9図

Claims (2)

    【特許請求の範囲】
  1. (1)  自立語に結合されて用いられる単語を集めて
    編成してなる日本語情報処理装置の用例辞書において、
    複数の自立語間にわたって用例を共通にする少なくとも
    2つ以上の共通の単語群を当該単語群を索引できるコー
    ドで置換してなる用例辞書。
  2. (2)前記単語は、自立語、接頭語又は接尾語のいずれ
    かである特許請求の範囲第(1)項記載の用例辞書。
JP57220531A 1982-12-15 1982-12-15 用例辞書 Granted JPS59109939A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57220531A JPS59109939A (ja) 1982-12-15 1982-12-15 用例辞書

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57220531A JPS59109939A (ja) 1982-12-15 1982-12-15 用例辞書

Publications (2)

Publication Number Publication Date
JPS59109939A true JPS59109939A (ja) 1984-06-25
JPH0326420B2 JPH0326420B2 (ja) 1991-04-10

Family

ID=16752453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57220531A Granted JPS59109939A (ja) 1982-12-15 1982-12-15 用例辞書

Country Status (1)

Country Link
JP (1) JPS59109939A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63118976A (ja) * 1986-11-07 1988-05-23 Sanyo Electric Co Ltd 文字処理装置
JPH02311952A (ja) * 1989-05-26 1990-12-27 Sharp Corp かな漢字変換装置
JPH04290164A (ja) * 1991-03-19 1992-10-14 Hitachi Ltd 単語辞書方法
JPH04343163A (ja) * 1991-05-20 1992-11-30 Sharp Corp 用例辞書及びこの用例辞書を備えた文章処理装置
JPH04343161A (ja) * 1991-05-20 1992-11-30 Sharp Corp 文章処理装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5741767A (en) * 1980-08-25 1982-03-09 Fujitsu Ltd Kana (japanese syllabary) to chinesase character converting system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5741767A (en) * 1980-08-25 1982-03-09 Fujitsu Ltd Kana (japanese syllabary) to chinesase character converting system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63118976A (ja) * 1986-11-07 1988-05-23 Sanyo Electric Co Ltd 文字処理装置
JPH02311952A (ja) * 1989-05-26 1990-12-27 Sharp Corp かな漢字変換装置
JPH04290164A (ja) * 1991-03-19 1992-10-14 Hitachi Ltd 単語辞書方法
JPH04343163A (ja) * 1991-05-20 1992-11-30 Sharp Corp 用例辞書及びこの用例辞書を備えた文章処理装置
JPH04343161A (ja) * 1991-05-20 1992-11-30 Sharp Corp 文章処理装置

Also Published As

Publication number Publication date
JPH0326420B2 (ja) 1991-04-10

Similar Documents

Publication Publication Date Title
US5983171A (en) Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program
US6470347B1 (en) Method, system, program, and data structure for a dense array storing character strings
Thomson et al. Organic search and display using a connectivity matrix derived from Wiswesser notation
McMahon et al. Unix time-sharing system: Statistical text processing
Kraft A comparison of keyword‐in‐context (KWIC) indexing of titles with a subject heading classification system
JPS6175957A (ja) 機械翻訳処理装置
JPS59109939A (ja) 用例辞書
Costello Jr Storage and retrieval of chemical research and patent information by links and roles in Du Pont
US5369762A (en) Method for sorting data in a computer at high speed by using data word values for address locations
CN115794745A (zh) 文件搜索方法、系统、设备及存储介质
Magapu Development and customization of in-house developed OCR and its evaluation
Cooper et al. Sorting of textual data bases: a variety generation approach to distribution sorting
Long et al. Dictionary buildup and stability of word frequency in a specialized medical area
Zboray dBase III plus and the MARC AMC format: problems and possibilities
Neufeld et al. Machine-aided title word indexing for a weekly current awareness publication
Goyal The maximum entropy approach to record abbreviation for optimal record control
Giles et al. Computerized scheme for duplicate checking of bibliographic data bases
Tosh Content recognition and the production of synonymous expressions
Shan et al. Placement of partitioned signature file and its performance analysis
Green et al. Preserving the Whole
Siefkes Learning to Extract Information for the Semantic Web.
Swihart et al. An Input System for Automated Library Indexing and Information Retrieval, Including Preparation of Catalog Cards
JPH03201061A (ja) 文書処理用制御コード変換方式
Craig et al. Deacon Breadboard Grammar
Sen et al. Zipf’s law and writings on LIS