JPH0721798B2 - 言語処理装置 - Google Patents

言語処理装置

Info

Publication number
JPH0721798B2
JPH0721798B2 JP60128739A JP12873985A JPH0721798B2 JP H0721798 B2 JPH0721798 B2 JP H0721798B2 JP 60128739 A JP60128739 A JP 60128739A JP 12873985 A JP12873985 A JP 12873985A JP H0721798 B2 JPH0721798 B2 JP H0721798B2
Authority
JP
Japan
Prior art keywords
word
information
unit
storage unit
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60128739A
Other languages
English (en)
Other versions
JPS61286965A (ja
Inventor
淳市 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60128739A priority Critical patent/JPH0721798B2/ja
Publication of JPS61286965A publication Critical patent/JPS61286965A/ja
Publication of JPH0721798B2 publication Critical patent/JPH0721798B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 近年、盛んに利用されるようになったワードプロセッサ
などで一般的に使われている仮名漢字変換装置において
は、入力されたかな文字を対応する漢字表記にするため
に、その内部に単語見出しを各単語固有の表記情報とと
もに格納し、これを単語見出しに基づき検索する言語処
理装置を蔵している。また機械翻訳装置などでも単語見
出しに基づき単語固有の訳語情報を得るための言語処理
装置を蔵している。本発明はこれらの言語処理装置に関
するものである。
従来の技術 従来の言語処理装置としては、例えば特開昭58−144974
号公報「電子辞書における単語スペル記憶方法」などが
ある。『これは、音節単位で組を作り頻度の高い「tio
n」や「ing」等の音節を一つのコードとして記憶する、
というものである。』たとえば、アルファベットの単語
データをもつ単語集合のなかで「tion」を特殊コードS
1、「ing」を特殊コードS2と表現すると、「inspiratio
n」というデータは「inspira S1」「balling」というデ
ータは「ball S2」という形で表現する。
これにより、可変長単語スペルデータを効率良く記憶出
来るとしている。
発明が解決しようとする問題点 しかしながら、上記のような方法では、圧縮効果のある
のは単語スペル部分だけに限られてしまう。現実にはス
ペル以外にも、単語記憶に際しては高頻度で現われるデ
ータは数多くある。例えば、単語品詞情報は「名詞類」
が圧倒的に多いことが知られているが、従来の方法で
は、これに対応していない。
また、従来の方法では特殊コードを本来の単語スペルと
混在して記憶しているため、単語データの解読、復号の
際は注目しているコードが本来の単語スペルかそれとも
省略のための特殊コードかをすべてのスペル情報に対し
て検査してやる必要がありデータアクセス時間がかかる
という問題点を有していた。本発明はかかる点に鑑み、
単語スペル以外の高頻度で出現する単語情報について
も、圧縮効果があり、データアクセス時間の短い言語処
理装置を提供することを目的とする。
問題点を解決するための手段 本発明は、単語の文法特性を表す単語固有情報と単語見
出しを格納する単語情報記憶部と、前記単語情報記憶部
内の単語の中で予め定めた割合以上の単語に共通する高
頻度単語固有情報に対して、各単語毎に単語固有情報の
代わりに単語固有情報よりもサイズの小さい省略情報を
記憶する高頻度単語情報省略領域と、入力読み列を一時
格納する入力読み列一時記憶部と、前記単語情報記憶部
内に格納された単語見出しを前記入力読み列一時記憶部
内の入力読み列と比較する読み比較部と、前記読み比較
部の比較の結果によりあらかじめ設定された検索条件を
満たす単語見出しを持つ単語を得る単語検索部と、前記
単語検索部から得られた単語の前記省略情報を前記高頻
度単語固有情報に置換することにより単語固有情報を復
号する単語情報復号部を持つことを特徴とする言語処理
装置である。
作用 本発明は前記した構成により、言語処理装置内に記憶し
ている単語のうち殆どの単語に対して、単語固有情報デ
ータが同じものになることが分かっている場合、この単
語固有情報の省略を高頻度単語格納省略領域として示す
ものである。これにより、省略データの検索・復号の処
理にアクセス時間の増大という副作用をおこすことなく
単語情報を効率良く圧縮するものである。
実 施 例 第1図は、本発明の一実施例における言語処理装置の構
成を表わすブロック図である。第1図において、1はカ
ナ入力装置で日本語の仮名の表音文字列をコード入力す
るものである。2は入力読み列一時記憶部で、前記カナ
入力装置1より入力されたカナを入力読み列として一時
格納するものである。3は単語情報記憶部であり、単語
見出し、単語表記、単語品詞を単語見出しによってカナ
の50音順に格納しておくものである。4は読み比較部で
単語情報記憶部3内の単語見出しと入力読み列一時記憶
部2中に格納された入力読み列とを比較し、入力読み列
に対し単語見出しが長さ分だけ一致しているか、また入
力読み列が単語見出しと比べて50音順で後に位置するか
どうかを判定する。さらに読み比較部4は入力読み列と
比較した単語情報記憶部3内の各単語情報の位置情報
(以下アドレスと称する)Aと次検索単語アドレスBと
を記憶するものである。5は単語検索部であり、カナ入
力装置1からのキー入力をきっかけに読み比較部4を起
動して検索条件を満たす単語読み列を単語情報記憶部3
内で検索する。また、検索結果として検索条件を満たす
単語読み列が単語情報記憶部3に存在する場合はその旨
の結果信号Reと該当する単語の単語情報記憶部3内アド
レスAを後述する単語情報復号部に対して出力する。も
し、該当する単語が単語情報記憶部3内に存在しない場
合はその旨の結果信号Raと入力読み列を後述する単語情
報復号部に対して出力する。6は単語情報復号部で単語
検索部5からの単語検索結果信号にもとずき、もしも検
索条件を満たす単語が存在する場合は同時に得られる単
語情報記憶部3内該当単語アドレスAをもとに単語表記
情報と品詞情報を復号して後述する文法処理部に対して
出力する。もしも該当単語がない場合は同時に入力され
る入力読み列をもとに入力文字列と一文字対応のひらが
な表記を組み立てて後述する文法処理部に対して出力す
る。7は文法処理部で単語情報復号部6から得た品詞及
び表記情報をもとに出力表記を組み立てる。さらに出力
表記が日本語として妥当なものかを判定する。妥当であ
れば出力表記を後述する表記部に対して出力する。そう
でなければ、単語検索部5にたいして再度単語検索を指
示する信号を出力する。この際、単語検索部5から得ら
れた表記がひらがな列である場合は無条件に後述する表
示部に対して出力する。8は表示部であり、単語情報復
号部6から得られた単語表記情報をCRT画面上に出力表
示する。
以上のように構成された本実施例の言語処理装置につい
て、以下とくに単語情報記憶部3内の単語情報記憶の様
子を図を用いて説明する。
第2図(a)および(b)は本発明の一実施例における
単語情報記憶部3の単語情報記憶の様子を表わす図であ
る。
第2図(a)に記載した単語情報が本実施例の単語情報
記憶部3中で記憶される様子を表わしたのが第2図
(b)である。本実施例では、品詞情報を省略の対象と
しておりこのために単語表記の第1文字目に高頻度単語
情報省略領域として品詞省略ビット領域を設けている。
図中の矢印の部分がこれに対応している。第2図におい
ては省略の対象となっている品詞は「名詞」である。そ
こで、該当する単語11「愛敬」、12「愛情」、13「合
間」、16「愛欲」については品詞省略ビットが1に設定
されている。それ以外の単語については品詞省略ビット
が0に設定されている。
図中でIi(I10,I11,……)であらわれた記号は各単語ご
との可変長データすなわち単語見出しと単語表記の長さ
情報を表わしている。また、本実施例においては単語情
報記憶部3としては16ビット単位の汎用の半導体メモリ
を使用しており、表記情報は14ビットのコードをもちい
ている。すなわち、品詞省略ビットは残りのビット割り
当てを利用している。
以上のように構成された本実施例の言語処理装置につい
て、以下その動作をフローチャートを用いて、説明す
る。
第3図は本発明の一実施例の動作を説明するためのフロ
ーチャートである。このフローチャートのステップ数を
括弧内の数値で表して説明する (1) 本装置はキー入力待ち状態においてカナ入力装
置からカナが入力されるとその文字はコード化されて入
力読み列一時記憶部2に格納される。同時に単語検索部
5が起動されて前記入力読み列一時記憶部2内の入力読
み列に対しての検索操作を開始する。すなわち検索開始
アドレス情報と入力読み列を初期条件として単語検索部
5を起動する。
(2) 単語検索部5はまず読み比較部4に対して、入
力読み列と単語アドレス情報を出力する。それを受けた
読み比較部4はアドレス情報をもとにして単語情報記憶
部3からアドレスに対応した単語見出し情報を取りだし
てくる。
(3) 読み比較部4は(2)の処理でえられた単語情
報記憶部3の単語見出し情報と単語検索部5から与えら
れた入力読み例を比較する。
(4) (3)の読み比較の結果入力読み列と単語情報
記憶部3内の単語見出し情報が単語見出し長さ分だけ一
致している場合単語アドレス情報Aと、該当単語が単語
情報記憶部3内にあることを示す結果信号Reとを単語情
報復号部6に対して出力し(8)の処理へ進む。また、
一致しない場合は(5)の処理へ進む。
(5) (3)の読み比較の結果入力読み列が単語情報
記憶部3内の単語見出し情報とくらべてカナの50音順で
後置することがわかった場合、すなわち単語情報記憶部
3内に入力読み列に完全に一致する単語が存在しないこ
とが確定した場合は処理を(6)に移す。それ以外の場
合は単語検索部5は、読み比較部4に記憶されている次
単語アドレスBを単語情報記憶部3内でつぎに比較すべ
き単語のアドレスとして得てから処理を(2)に移す。
(6) 単語情報復号部6は読み一致単語が単語情報記
憶部3にないことを結果信号Raから判定して同時に与え
られる入力読み列からひらがな表記列を組み立て文法処
理部7にたいして出力する。文法処理部7はその表記を
そのまま表示部8に対して出力する。
(7) 表示部8は単語情報復号部6からの表記情報を
CRT画面上に出力表示して再びキー入力待ち状態にな
る。
(8) 単語情報復号部6は検索条件に合致する単語が
単語情報記憶部3にあることを結果信号Reから判定して
同時に与えられる単語情報アドレス情報Aから単語情報
記憶部3内の単語表記および品詞情報を獲得して、文法
処理部7に対して出力する。
(9) 文法処理部7は単語情報復号部6から得た品詞
及び表記情報をもとに出力表記を組み立てる。されに出
力表記が日本語として妥当なものかを判定する。妥当で
あれば出力表記を後述する表示部8に対して出力する。
そうでなければ、前記単語検索部5にたいして再度単語
検索を指示する信号を出力する。
(10)表示部8は単語情報復号部6からの表記情報をCR
T画面上に出力表示して再びキー入力待ち状態になる。
以上のように本実施例によれば、単語格納情報として単
語の単語情報記憶部3内のアドレスを利用し、単語情報
復号部6が直接単語情報記憶部3をアクセスできる構成
としたことで転送データが減少する。この高価でデータ
アクセス時間が短縮されている。
また、単語情報記憶部3内において、単語固有情報であ
る品詞を単語表記記憶するさいに生じる余剰領域を利用
することで省略することができる。これにより言語処理
装置のサイズ従来のものよりも小さくすることができ
る。
一般の日本語文章に現われる単語の品詞別出現頻度は以
下の表に示すように、名詞がその約80%近くを占めてお
り、この情報をそっくり省略することで、単語ごとに持
つべき品詞情報をおよそ20%にすることが出来る。言語
処理装置の中の品詞情報の占める割合は、長さ情報を1
〔B〕、単語見出しを4〔B〕、単語表記を4〔B〕、
品詞を1Bとすると約1割となる。すなわち、本発明を言
語処理装置中の品詞情報のみに適応するだけで、言語処
理装置の大きさを従来のものより8%削減することがで
きる。
発明の効果 以上説明したように、本発明によれば、単語データアク
セス時間に関して副作用なしに高頻度データに注目する
ことで言語処理装置内の単語情報記憶部3を圧縮するこ
とができ、その実用的効果は大きい。
【図面の簡単な説明】
第1図は本発明の1実施例の言語処理装置のブロック
図、第2図は同実施例の単語情報記憶部3の単語情報記
憶の様子を表わす説明図、第3図は同実施例の動作を表
わすフローチャートである。 2……入力読み列一時記憶部、3……単語情報記憶部、
4……読み比較部、5……単語検索部、6……単語情報
復号部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】単語の文法特性を表す単語固有情報と単語
    見出しを格納する単語情報記憶部と、前記単語情報記憶
    部内の単語の中で予め定めた割合以上の単語に共通する
    高頻度単語固有情報に対して、各単語毎に単語固有情報
    の代わりに単語固有情報よりもサイズの小さい省略情報
    を記憶する高頻度単語情報省略領域と、入力読み列を一
    時格納する入力読み列一時記憶部と、前記単語情報記憶
    部内に格納された単語見出しを前記入力読み列一時記憶
    部内の入力読み列と比較する読み比較部と、前記読み比
    較部の比較の結果によりあらかじめ設定された検索条件
    を満たす単語見出しを持つ単語を得る単語検索部と、前
    記単語検索部から得られた単語の前記省略情報を前記高
    頻度単語固有情報に置換することにより単語固有情報を
    復号する単語情報復号部を持つことを特徴とする言語処
    理装置。
JP60128739A 1985-06-13 1985-06-13 言語処理装置 Expired - Lifetime JPH0721798B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60128739A JPH0721798B2 (ja) 1985-06-13 1985-06-13 言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60128739A JPH0721798B2 (ja) 1985-06-13 1985-06-13 言語処理装置

Publications (2)

Publication Number Publication Date
JPS61286965A JPS61286965A (ja) 1986-12-17
JPH0721798B2 true JPH0721798B2 (ja) 1995-03-08

Family

ID=14992258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60128739A Expired - Lifetime JPH0721798B2 (ja) 1985-06-13 1985-06-13 言語処理装置

Country Status (1)

Country Link
JP (1) JPH0721798B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60222957A (ja) * 1984-04-19 1985-11-07 Brother Ind Ltd 電子辞書

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60222957A (ja) * 1984-04-19 1985-11-07 Brother Ind Ltd 電子辞書

Also Published As

Publication number Publication date
JPS61286965A (ja) 1986-12-17

Similar Documents

Publication Publication Date Title
JP4676181B2 (ja) タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法
US6968308B1 (en) Method for segmenting non-segmented text using syntactic parse
JPS6359660A (ja) 情報処理装置
JPH0721798B2 (ja) 言語処理装置
JPH0546358A (ja) テキストデータの圧縮方法
JPH07182354A (ja) 電子文書の作成方法
JP2795038B2 (ja) データ検索装置
JPS61286966A (ja) 言語処理装置
JPH0969785A (ja) データ圧縮方法及びデータ圧縮装置
JPH05290030A (ja) 文書処理装置
JP3387582B2 (ja) 文字処理装置
JPS635793B2 (ja)
JPH06187371A (ja) 圧縮地名データの格納方法及び読み出し方法
JP3021224B2 (ja) 辞書検索装置
JP3526074B2 (ja) 文字処理装置
JP3273778B2 (ja) 仮名漢字変換装置及び仮名漢字変換方法
JP2009009583A (ja) 構文パースを用いてセグメント化されていないテキストをセグメント化する方法
JPS6116117B2 (ja)
JPH0338772A (ja) 文字コードデータの圧縮方式
JPS5953591B2 (ja) 電子式翻訳機
JPH0727526B2 (ja) かな漢字変換装置
JPS6175471A (ja) 連字学習方式
JPH0350306B2 (ja)
JPH0695330B2 (ja) 文書作成装置
JPH0512251A (ja) 文書処理装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term