JPH01114976A - 文書処理装置の辞書構造 - Google Patents
文書処理装置の辞書構造Info
- Publication number
- JPH01114976A JPH01114976A JP62274158A JP27415887A JPH01114976A JP H01114976 A JPH01114976 A JP H01114976A JP 62274158 A JP62274158 A JP 62274158A JP 27415887 A JP27415887 A JP 27415887A JP H01114976 A JPH01114976 A JP H01114976A
- Authority
- JP
- Japan
- Prior art keywords
- kana
- kanji
- dictionary
- notation
- heading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 240000000220 Panda oleosa Species 0.000 claims abstract description 42
- 235000016496 Panda oleosa Nutrition 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000006243 chemical reaction Methods 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 abstract description 17
- 238000010586 diagram Methods 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 230000001915 proofreading effect Effects 0.000 description 4
- 230000021615 conjugation Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〈産業上の利用分野〉
本発明は、文書作成・校正支援装置、要約装置、検索装
置、機械翻訳装置、ワードブロッセッサなど広く文字列
の解析を必要とする文書処理装置に対し、利用が可能で
ある。
置、機械翻訳装置、ワードブロッセッサなど広く文字列
の解析を必要とする文書処理装置に対し、利用が可能で
ある。
〈従来の技術〉
現在、日本語ワードプロセッサ(以下、ワープロと略す
る)が実用化されており、該装置に関連した、日本語の
入出力、編集、仮名漢字変換アルゴリズム、辞書の技術
などの基本技術が確立している。
る)が実用化されており、該装置に関連した、日本語の
入出力、編集、仮名漢字変換アルゴリズム、辞書の技術
などの基本技術が確立している。
また、文書校正装置、機械翻訳装置などにおける日本語
処理技術では、仮名漢字変換とは逆の解析に相当する英
字仮名交り文を解析する必要のある場合があるが、この
ための、辞書、アルゴリズムなどの基本技術も確立して
いる。
処理技術では、仮名漢字変換とは逆の解析に相当する英
字仮名交り文を解析する必要のある場合があるが、この
ための、辞書、アルゴリズムなどの基本技術も確立して
いる。
言語の解析の方法には形態素解析、構文解析、意味解析
などが上げられ、これらに対する基本的な技術が知られ
ている。
などが上げられ、これらに対する基本的な技術が知られ
ている。
以上、言語処理を中心とした従来技術について述べたが
、該技術以外では、ワークステーションに関連した技術
が確立しており、作業の効率を上げるためのマルチウィ
ンドウを用いた装置が実用化されている。
、該技術以外では、ワークステーションに関連した技術
が確立しており、作業の効率を上げるためのマルチウィ
ンドウを用いた装置が実用化されている。
〈発明が解決しようとする問題点〉
8年日本語のワープロが普及し、該装置で作成した文書
が多くなっている。ワープロでは、入力の簡便な、仮名
漢字変換方式(以下特に断りがない場合、ローマ字漢字
変換方式を含む)を採用した機種が多くなっている。
が多くなっている。ワープロでは、入力の簡便な、仮名
漢字変換方式(以下特に断りがない場合、ローマ字漢字
変換方式を含む)を採用した機種が多くなっている。
仮名漢字変換のアルゴリズムは、かなを漢字に変換する
過程で単語辞書、文法などの言語的な情報、単語の出現
頻度などの確率的な情報を利用するのが一般的である。
過程で単語辞書、文法などの言語的な情報、単語の出現
頻度などの確率的な情報を利用するのが一般的である。
また、実用に供することのできる辞書、規則類は、ある
程度の規模が要求され、辞書、規則類を記憶する手段の
記憶容量は大きくなっている。
程度の規模が要求され、辞書、規則類を記憶する手段の
記憶容量は大きくなっている。
ところで、広く文書処理装置という場合、現在では、入
力手段として、仮名漢字変換の手段を持ち、その他に、
特定の目的、たとえば、翻訳、校正などの処理を行うの
が一般的な装置の構成となっている。
力手段として、仮名漢字変換の手段を持ち、その他に、
特定の目的、たとえば、翻訳、校正などの処理を行うの
が一般的な装置の構成となっている。
このような文書処理装置では、漢字かな交り文を解析す
る場合があるが、解析のためには、辞書、規則類が必要
であり、それらを記憶する大きな容i’+1の手段を必
要としていた。
る場合があるが、解析のためには、辞書、規則類が必要
であり、それらを記憶する大きな容i’+1の手段を必
要としていた。
仮名漢字変換と、漢字仮名交り文の解析は、解析の対象
が異なるため、従来は辞書、規則類を別々に持つ方法が
取られ、大きな記憶手段を必要とするという問題点があ
った。
が異なるため、従来は辞書、規則類を別々に持つ方法が
取られ、大きな記憶手段を必要とするという問題点があ
った。
また、仮名漢字変換用と漢字かな交じり文解析用の辞書
、規則類を共通化することは、原理的には可能であるが
、いずれか一方の解析の処理時間が長くなり、実用に絶
えるものが出来ないという問題点を何していた。
、規則類を共通化することは、原理的には可能であるが
、いずれか一方の解析の処理時間が長くなり、実用に絶
えるものが出来ないという問題点を何していた。
文書処理装置は、ユーザの要求や時代の変化に合わせ、
辞書、規則類のメンテナンスを必要とする場合があるが
、その場合、仮名漢字変換用の辞書、規則類と漢字かな
交じり文解析用の辞書、規則類の双方を更新する必要が
あり、作業時間がかかったり、間違いを引き起こす可能
性が高くなるなどの問題点があった。
辞書、規則類のメンテナンスを必要とする場合があるが
、その場合、仮名漢字変換用の辞書、規則類と漢字かな
交じり文解析用の辞書、規則類の双方を更新する必要が
あり、作業時間がかかったり、間違いを引き起こす可能
性が高くなるなどの問題点があった。
本発明は、仮名漢字変換用の辞書、規則類と漢字かな交
じり文解析用の辞書、規則類とを統合化することにより
、かかる問題を解決しようとするものである。
じり文解析用の辞書、規則類とを統合化することにより
、かかる問題を解決しようとするものである。
く問題点を解決するための手段〉
本発明は、日本語を入力・編集する手段と、該入力され
た日本語を記憶する手段と、辞書を記憶する手段と、文
法を記憶する手段と、該入力されたかな文字列を漢字交
じり文に変換したり、編集したりするマイクロプロセッ
サなどの制御手段と、文字・記号列などを表示する手段
と、校正すべき文字・記号列がある場合に該文字列を修
正する手段から構成される。
た日本語を記憶する手段と、辞書を記憶する手段と、文
法を記憶する手段と、該入力されたかな文字列を漢字交
じり文に変換したり、編集したりするマイクロプロセッ
サなどの制御手段と、文字・記号列などを表示する手段
と、校正すべき文字・記号列がある場合に該文字列を修
正する手段から構成される。
く作用〉
本発明は、かな文字列からの検索を行いやすくした仮名
漢字変換用の辞書、規則類と漢字仮名交り文の検索を行
いやすくした辞書、規則類を関連する情報で結び付け、
1種類の辞書として統合化するようにイ乍用する。
漢字変換用の辞書、規則類と漢字仮名交り文の検索を行
いやすくした辞書、規則類を関連する情報で結び付け、
1種類の辞書として統合化するようにイ乍用する。
また、該統合により、仮名漢字変換、漢字仮名交じり文
の解析のお互いの性能、機能を実用レベルの使用が可能
なレベルを保持するように作用する。
の解析のお互いの性能、機能を実用レベルの使用が可能
なレベルを保持するように作用する。
更に、該統合化により、共通する情報を共用し、辞書、
規則類を記憶する手段の記憶容量を小さくするように作
用する。
規則類を記憶する手段の記憶容量を小さくするように作
用する。
〈実施例〉
以下図に基づいて本発明の詳細な説明する。第1図は本
発明に係わる文書処理装置のブロック構成図である。
発明に係わる文書処理装置のブロック構成図である。
図において1は日本語の文字列を入力・編集するキーボ
ードなどの手段である。この中には、現在では周知の事
実になっているかなを漢字に変える仮名漢字変換機能、
ある文字列を指定する機能も含まれる。
ードなどの手段である。この中には、現在では周知の事
実になっているかなを漢字に変える仮名漢字変換機能、
ある文字列を指定する機能も含まれる。
2は該入力手段により入力された日本語の文字列を記憶
する手段である。入力手段は通常キーボードが用いられ
るが逐次的に入力を行なわないで、たとえばフロッピー
ディスク、磁気テープなどのように入力した日本語の文
字列を記憶する外部記憶手段で代用することも可能であ
る。即ち、lの入力手段が省略された構成も存在しうる
。
する手段である。入力手段は通常キーボードが用いられ
るが逐次的に入力を行なわないで、たとえばフロッピー
ディスク、磁気テープなどのように入力した日本語の文
字列を記憶する外部記憶手段で代用することも可能であ
る。即ち、lの入力手段が省略された構成も存在しうる
。
3は上記2に蓄積された日本語の文字・記号列を解析す
るための辞書を記憶する手段である。
るための辞書を記憶する手段である。
4は文法、その他の文章を解析するための規則類を記憶
する手段である。
する手段である。
5は2に蓄えられた文字列の中の一部分を抽出したり、
途中結果を記憶したり、表示の司令などを行ったりする
制御手段である。該制御手段には制御によって得られる
結果を記憶する手段を含む。
途中結果を記憶したり、表示の司令などを行ったりする
制御手段である。該制御手段には制御によって得られる
結果を記憶する手段を含む。
6は入力された文字列、照合の途中結果、校正すべき文
字列、r<wrcなどを表示するCRTなどの表示の手
段である。
字列、r<wrcなどを表示するCRTなどの表示の手
段である。
7は6によって表示された校正すべき部分に対し修正を
加えた結果を原文中に正しく反映するための校正手段で
ある。文書処理装置が校正を主目的としていない場合は
、通常7はlの手段によって代行することができ、7の
無い構成もありうる。
加えた結果を原文中に正しく反映するための校正手段で
ある。文書処理装置が校正を主目的としていない場合は
、通常7はlの手段によって代行することができ、7の
無い構成もありうる。
今まで、辞書と文法などの規則を対にして、述べてきた
が、説明を簡単にするため、辞書を代表にして説明して
いく。また、辞書にも各種の辞書があるが、ここでは、
言語解析の中心になる自立語辞書を取り上げて説明する
。
が、説明を簡単にするため、辞書を代表にして説明して
いく。また、辞書にも各種の辞書があるが、ここでは、
言語解析の中心になる自立語辞書を取り上げて説明する
。
第2図は仮名漢字変換用自立語辞書の構造を示した図で
ある。
ある。
8は、辞書の見出しのID番号である。ID番号は該辞
書が格納される番地から割り出すことが出来るため、省
略されることもありうる。
書が格納される番地から割り出すことが出来るため、省
略されることもありうる。
9は見出しの仮名表記であり、読み仮名と呼ばれる部分
である。現在の技術では、もし見出しに活用があれば、
語幹のみを登録するのが普通であり、この説明でも通常
の方法に従っている。
である。現在の技術では、もし見出しに活用があれば、
語幹のみを登録するのが普通であり、この説明でも通常
の方法に従っている。
今、見出しとして「ある」、「在る」、「有る」、「空
<」、「愛」、「行く」の6つのみを取り上げ、具体的
に詳しく説明する。この6つの見出しの中で「ある」、
「在る」、「有る」、「空く」、「行く」は活用があり
、それぞれ9には語幹である「あ」、「い」のみが登録
されている。
<」、「愛」、「行く」の6つのみを取り上げ、具体的
に詳しく説明する。この6つの見出しの中で「ある」、
「在る」、「有る」、「空く」、「行く」は活用があり
、それぞれ9には語幹である「あ」、「い」のみが登録
されている。
IOは見出しの漢字表記であり、仮名表記に相当する漢
字表記の文字列が登録される。
字表記の文字列が登録される。
11は、見出しの品詞情報である。品詞情報はその他の
形態情報、構文情報、意味情報が含まれていても、構わ
ない。これも説明を簡単にするため、本発明の本質にか
かわらないので、品詞の情報のみをあげて説明していく
。図の中で「動詞・5段・う行」は5段動詞のう行活用
であることを表している。
形態情報、構文情報、意味情報が含まれていても、構わ
ない。これも説明を簡単にするため、本発明の本質にか
かわらないので、品詞の情報のみをあげて説明していく
。図の中で「動詞・5段・う行」は5段動詞のう行活用
であることを表している。
仮名属字変換の技術とは、この辞書を利用して、入力さ
れた仮名文字列を9と比較し、文法などのその他の条件
も加味して、正しい解析が行われたときに、IOを出力
する処理に他ならない。
れた仮名文字列を9と比較し、文法などのその他の条件
も加味して、正しい解析が行われたときに、IOを出力
する処理に他ならない。
なお、8から11までの各要素は図で示したような配列
でなくても本発明に影響はしない。
でなくても本発明に影響はしない。
通常、入力される仮名文字列と辞書との照合を高速に行
うため、二つの工夫がされる。一つは、辞書の読み仮名
9をある基準でソートすることである。50音の昇順に
ソートした場合が、第2図である。
うため、二つの工夫がされる。一つは、辞書の読み仮名
9をある基準でソートすることである。50音の昇順に
ソートした場合が、第2図である。
第2の工夫は、検索の範囲を速く決定するための辞書イ
ンデックスを設けることである。第3図は第2図の辞書
に対応する1文字インデックスの例を示した図である。
ンデックスを設けることである。第3図は第2図の辞書
に対応する1文字インデックスの例を示した図である。
12は読み仮名の1文字目の種類を表す検索のキーとな
る1文字であり、13はそのキーとなる文字から始まる
見出しが、どの場所に格納されているかを示す値である
。ここでは、説明を簡単にするため、辞書IDr000
01j番の見出しがr 0OOOIJ番地に格納されて
いると1−た例を示している。
る1文字であり、13はそのキーとなる文字から始まる
見出しが、どの場所に格納されているかを示す値である
。ここでは、説明を簡単にするため、辞書IDr000
01j番の見出しがr 0OOOIJ番地に格納されて
いると1−た例を示している。
第2図の辞書と第3図のインデックスにより、たとえば
、「あいあにおぼれろ」という文字列は、辞書のroo
ooljからr 00005Jまでを検索すればすむこ
とが分かり、それ以外の場所は検索不要であることから
照合時間を短縮できる。
、「あいあにおぼれろ」という文字列は、辞書のroo
ooljからr 00005Jまでを検索すればすむこ
とが分かり、それ以外の場所は検索不要であることから
照合時間を短縮できる。
第4図は漢字仮名交り文解析用の辞書の構造を示した図
である。14は見出しのID番号を表す情報であり、1
5は見出しの漢字表記であり、16は見出しのかな表記
であり、16は見出しの品詞情報である。仮名漢字変換
用の辞書と同じく活用のある見出しはその語幹のみが登
録されており、品詞情報には他の情報ら含まれている場
合がある。
である。14は見出しのID番号を表す情報であり、1
5は見出しの漢字表記であり、16は見出しのかな表記
であり、16は見出しの品詞情報である。仮名漢字変換
用の辞書と同じく活用のある見出しはその語幹のみが登
録されており、品詞情報には他の情報ら含まれている場
合がある。
入力された文字列と辞書との照合時間を短縮するため、
本線7Iにおいてら検索の対象になる漢字表記の部分、
15がある基準でソートされている。
本線7Iにおいてら検索の対象になる漢字表記の部分、
15がある基準でソートされている。
今、ソートをJISコードの昇順に行った例が第4図で
ある。また、入力された、漢字仮名交り文を解析する目
的の場合は、ID番号14や読みの情報16は省略され
ることもありうる。
ある。また、入力された、漢字仮名交り文を解析する目
的の場合は、ID番号14や読みの情報16は省略され
ることもありうる。
本辞書の内容では、意味を持たないが通常実用に絶える
辞書では、漢字仮名交り文の解析用の辞書でも、インデ
ックスが用いられる。その構造を、第5図に示す。
辞書では、漢字仮名交り文の解析用の辞書でも、インデ
ックスが用いられる。その構造を、第5図に示す。
18は1文字からなるキーのインデックスであり、19
はそのキー文字列を頭に持つ、見出しの始まる番地を表
したものである。
はそのキー文字列を頭に持つ、見出しの始まる番地を表
したものである。
従来、仮名漢字変換用の辞書第2図、インデックス第3
図と、漢字仮名交り文解析用の辞書第4図、インデック
ス第5図は独立した構造として辞書記憶手段に記憶され
ていた。その理由は、もし仮名漢字変換用の辞書で、漢
字仮名交り文の解析を行う場合を考えてみると分かる。
図と、漢字仮名交り文解析用の辞書第4図、インデック
ス第5図は独立した構造として辞書記憶手段に記憶され
ていた。その理由は、もし仮名漢字変換用の辞書で、漢
字仮名交り文の解析を行う場合を考えてみると分かる。
たとえば「愛の有る生活。」という文章を第2図の辞書
で、照合する場合を例に取ると、まず「愛」という文字
を切り出し第2図の見出しと見比べる。この時、第2図
の漢字表記10は、漢字コードをキーとしたソートがな
されていないため、結局、1番地から見出しの漢字表記
と「愛」とを順次、照合する必要が生じる。
で、照合する場合を例に取ると、まず「愛」という文字
を切り出し第2図の見出しと見比べる。この時、第2図
の漢字表記10は、漢字コードをキーとしたソートがな
されていないため、結局、1番地から見出しの漢字表記
と「愛」とを順次、照合する必要が生じる。
この結果検索の平均時間TMは辞書の見出しの総数をN
とし、一つの見出しの漢字表記部と切り出した文字、た
とえば、この場合であれば「愛」とを照合する時間をt
とすれば、 TM=Nxt /2 となり、Nが10,000を越え、tが数マイクロ秒を
要する現代の実用システムでは、使用に絶えうるちのが
できない。
とし、一つの見出しの漢字表記部と切り出した文字、た
とえば、この場合であれば「愛」とを照合する時間をt
とすれば、 TM=Nxt /2 となり、Nが10,000を越え、tが数マイクロ秒を
要する現代の実用システムでは、使用に絶えうるちのが
できない。
この状況は、漢字仮名交り文解析用の辞書、インデック
スを用いて仮名漢字変換を行う場合も同様である。
スを用いて仮名漢字変換を行う場合も同様である。
これが、従来、仮名漢字変換用の辞書と、漢字仮名交り
実用の辞書を独立に蓄積してきた主な理由であった。
実用の辞書を独立に蓄積してきた主な理由であった。
ところが、第2図と第4図は、中の情報は同じであり、
かな表記部でソートしであるか、漢字表記部でソートし
であるかの差のみである。ここに注目したのが本発明で
ある。
かな表記部でソートしであるか、漢字表記部でソートし
であるかの差のみである。ここに注目したのが本発明で
ある。
第6図は本発明を適用した辞書の構造の例を表す図であ
る。第2図、第4図と同じ見出しを使って説明していく
。
る。第2図、第4図と同じ見出しを使って説明していく
。
20は見出しのID番号であり、20は見出しの仮名表
記であり、21は見出しの漢字表記である。20.21
は今まで独立していた仮名漢字変換用の辞書と、仮名漢
字交り文解析用の辞書を結合した形になっているのが特
徴である。即ち、21は仮名漢字変換を行うときに便利
なようにソートされており、22は漢字仮名交り文解析
のときに便利なようにソートされている。
記であり、21は見出しの漢字表記である。20.21
は今まで独立していた仮名漢字変換用の辞書と、仮名漢
字交り文解析用の辞書を結合した形になっているのが特
徴である。即ち、21は仮名漢字変換を行うときに便利
なようにソートされており、22は漢字仮名交り文解析
のときに便利なようにソートされている。
23は21と22を結合するための情報である。
この情報は、22の値の見出しの漢字表記が本来の漢字
表記であることを示している。たとえば、見出しID番
号00002番の23は00006であることから、見
出しID番号00006番の表記の部分を検索すること
により「有」を得る。
表記であることを示している。たとえば、見出しID番
号00002番の23は00006であることから、見
出しID番号00006番の表記の部分を検索すること
により「有」を得る。
24は見出しの品詞情報である。今の場合、この品詞情
報は仮名表記見出しに合わせた情報になっているが、こ
れを漢字表記に合わせた情報にする事もできる。20か
ら24までの構造の配置は本発明に影響しないのは第2
図、第4図の場合と同様である。
報は仮名表記見出しに合わせた情報になっているが、こ
れを漢字表記に合わせた情報にする事もできる。20か
ら24までの構造の配置は本発明に影響しないのは第2
図、第4図の場合と同様である。
第7図は本発明による辞書の構造の別の実現例を示した
図である。この図は、第6図の23の部分の内容が25
に変化した構造になっている。即ち、第6図の23は、
仮名見出しをキーとして、漢字表記を見出だしにいくた
めの情報であったが、第7図の25は漢字表記をキーと
して仮名表記を見出しにいくための情報になっている。
図である。この図は、第6図の23の部分の内容が25
に変化した構造になっている。即ち、第6図の23は、
仮名見出しをキーとして、漢字表記を見出だしにいくた
めの情報であったが、第7図の25は漢字表記をキーと
して仮名表記を見出しにいくための情報になっている。
比較のために第6図のその他の番号を、第7図でも用い
ている。
ている。
第8図は、本発明による辞書の構造の別の実現例を示し
た図である。この図は第6図と第7図を組み合わせた構
造になっており、第7図の25を別途26として第6図
に付加した形になっている。
た図である。この図は第6図と第7図を組み合わせた構
造になっており、第7図の25を別途26として第6図
に付加した形になっている。
第9図は本発明の辞書構造の概念図である。27は、仮
名漢字変換用のインデックスであり、28は漢字仮名交
り文解析用のインデックスであり、29が第6図、第7
図、第8図で例として示してきた統合化辞書である。
名漢字変換用のインデックスであり、28は漢字仮名交
り文解析用のインデックスであり、29が第6図、第7
図、第8図で例として示してきた統合化辞書である。
今まで、統合化辞書で仮名漢字変換の際の辞書を検索す
る方法については若干の説明を加えてきた。今度は、仮
名漢字変換を主とした構造になっている第6図を用い、
漢字仮名交り文の解析を行うための検索の方法について
述べる。第6図の場合、読み仮名と、品詞情報が仮名表
記の部分に対応した構造になっている。再び「愛の育る
生活。」を解析する場合を考える。前と同様、最初は「
愛」の照合である。第5図のインデックスを用いること
により、見出し「愛」は直ぐに検索できる。
る方法については若干の説明を加えてきた。今度は、仮
名漢字変換を主とした構造になっている第6図を用い、
漢字仮名交り文の解析を行うための検索の方法について
述べる。第6図の場合、読み仮名と、品詞情報が仮名表
記の部分に対応した構造になっている。再び「愛の育る
生活。」を解析する場合を考える。前と同様、最初は「
愛」の照合である。第5図のインデックスを用いること
により、見出し「愛」は直ぐに検索できる。
この時、見出しのID番号0000.2をスタックなど
に記憶しておく。00002の品詞情報は「愛」のもの
と異なるので、文法的な適合条件などの照合ができない
。そこで、正しい「愛」の品詞情報を検索する必要があ
る。まず、見出し表記の関連情報23を検索することに
より、00005を得ることが出来る。そこで、000
05のrD番号の見出しを検索する。ID番号0000
5の関連情報23を調べ、00002か得られる。先程
、「愛」の検索から始め、スタックに記憶したこの番号
と関連情報をたどって得られた番号が一致した時、関連
情報を連鎖的に検索することを停止する。今の例ではI
D番号00005を検索したときに、関連情報の連鎖を
停止し、その番号の品詞情報を検索する。それが、求め
る「愛」の品詞情報に他ならない。他の見出しの、品詞
情報も同様の手順で検索することができる。
に記憶しておく。00002の品詞情報は「愛」のもの
と異なるので、文法的な適合条件などの照合ができない
。そこで、正しい「愛」の品詞情報を検索する必要があ
る。まず、見出し表記の関連情報23を検索することに
より、00005を得ることが出来る。そこで、000
05のrD番号の見出しを検索する。ID番号0000
5の関連情報23を調べ、00002か得られる。先程
、「愛」の検索から始め、スタックに記憶したこの番号
と関連情報をたどって得られた番号が一致した時、関連
情報を連鎖的に検索することを停止する。今の例ではI
D番号00005を検索したときに、関連情報の連鎖を
停止し、その番号の品詞情報を検索する。それが、求め
る「愛」の品詞情報に他ならない。他の見出しの、品詞
情報も同様の手順で検索することができる。
第8図の場合の品詞情報は簡単に検索することができる
。この場合は、26で示される数字の■D番号の品詞情
報を検索するだけで良い。
。この場合は、26で示される数字の■D番号の品詞情
報を検索するだけで良い。
第10図は本発明の該略フロー図である。以上の説明で
、個々の処理については述べてきているので、全体的な
処理の流れを示すに止どめる。
、個々の処理については述べてきているので、全体的な
処理の流れを示すに止どめる。
まず、説明に使う装置の前提条件から述べる。
装置は、仮名漢字変換の手段を持ち、かつ、漢字仮名交
り文の解析手段を持っているものとする。
り文の解析手段を持っているものとする。
また、辞書は、本発明の一つの例である第8図を用いて
説明していく。
説明していく。
まず、仮名漢字変換を行うか漢字仮名交り文の解析を行
うかの選択を行う。この、処理モード選択の処理ブロッ
クを30とする。
うかの選択を行う。この、処理モード選択の処理ブロッ
クを30とする。
次に、選択された、処理のモードに合わせ、入力文字列
をバッファにセットする。仮名文字をセットする処理ブ
ロックが31であり、漢字仮名交り文をセットする処理
ブロックが32である。
をバッファにセットする。仮名文字をセットする処理ブ
ロックが31であり、漢字仮名交り文をセットする処理
ブロックが32である。
始めに、仮名漢字変換処理のフローから説明する。
まず、バッファにセットされた文字列の先頭文字列と、
インデックスとの照合を行う。この処理ブロックを33
とする。
インデックスとの照合を行う。この処理ブロックを33
とする。
次に、インデックスにより、辞書の検索の範囲が分かる
ので、その位置から、辞書の仮名表記と入力文字列の照
合をする。この処理ブロックを34とする。その結果、
照合に成功する場合と失敗する場合に分かれる。照合に
成功した場合は、同じ見出しの品詞情報を検索し、仮名
漢字変換の妥当性を調べる。この処理ブロックが35で
ある。
ので、その位置から、辞書の仮名表記と入力文字列の照
合をする。この処理ブロックを34とする。その結果、
照合に成功する場合と失敗する場合に分かれる。照合に
成功した場合は、同じ見出しの品詞情報を検索し、仮名
漢字変換の妥当性を調べる。この処理ブロックが35で
ある。
ここで、妥当性がある場合と無い場合に分かれ、妥当性
のある場合は、見出しの表記と漢字表記を関連づける関
連情報を利用し、上で述べた方法により、該当する漢字
表記を検索する。この処理ブロックを36とする。
のある場合は、見出しの表記と漢字表記を関連づける関
連情報を利用し、上で述べた方法により、該当する漢字
表記を検索する。この処理ブロックを36とする。
次に、辞書から漢字表記の情報を引き出し、漢字仮名交
りの変換結果を生成する。この処理ブロックを37とす
る。
りの変換結果を生成する。この処理ブロックを37とす
る。
辞書あるいは、品詞情報による仮名漢字変換の条件に失
敗した場合は、未登録語処理が行われる。
敗した場合は、未登録語処理が行われる。
この処理ブロックを37とする。
漢字表記の生成の後は、次の文字列をセットし、31へ
戻る。この処理は、文字列が無くなるが強制的に処理を
終了、されるまで、繰り返される。次文字をセットした
り、終了させる処理ブロックを38とする。
戻る。この処理は、文字列が無くなるが強制的に処理を
終了、されるまで、繰り返される。次文字をセットした
り、終了させる処理ブロックを38とする。
次に、32の処理の説明に移る。32の後は、漢字仮名
交り文解析用のインデックスと先頭文字との照合を行う
。この処理ブロックが39である。
交り文解析用のインデックスと先頭文字との照合を行う
。この処理ブロックが39である。
次に、インデックスを利用し、該当する辞書の漢字表記
と入力文字列の照合を行う。この処理ブロックが40で
ある。
と入力文字列の照合を行う。この処理ブロックが40で
ある。
照合に成功すれば、関連情報を利用し、上で述べた方法
で品詞情報を検索する。この処理ブロックが41である
。
で品詞情報を検索する。この処理ブロックが41である
。
辞書の見出しと品詞情報などから言語的な成立条件を調
べる。この処理ブロックが42である。
べる。この処理ブロックが42である。
ここで、条件を満足すれば解析結果を出力する。
この処理ブロックを43とする。もし、辞書照合あるい
は、言語的な成立条件を満足しない場合は、仮名漢字変
換と同じく未登録語処理44に移る。
は、言語的な成立条件を満足しない場合は、仮名漢字変
換と同じく未登録語処理44に移る。
終了も38と同じ処理を行う45の終了処理ブロックが
行い、繰り返しのときは32へ戻る。 墾〈発明の効果
〉 本発明の効果は、仮名漢字変換用の辞書、規則類と漢字
仮名交り文解析用の辞書、規則類をある情報で関連づけ
ることにより、従来の辞書類の蓄積の方法に比べ大幅な
記憶容態の削減をもたらしえた点にある。
行い、繰り返しのときは32へ戻る。 墾〈発明の効果
〉 本発明の効果は、仮名漢字変換用の辞書、規則類と漢字
仮名交り文解析用の辞書、規則類をある情報で関連づけ
ることにより、従来の辞書類の蓄積の方法に比べ大幅な
記憶容態の削減をもたらしえた点にある。
又、辞書類の8虫の削減にも拘わらず、失われる情報は
なく、かつ、高速に情報かけんさくできる点でも効果が
ある。
なく、かつ、高速に情報かけんさくできる点でも効果が
ある。
更に、見出しの情報がソートされている点から辞書類の
圧縮効果が上がる点でも効果がある。
圧縮効果が上がる点でも効果がある。
第1図は本発明装置の構成ブロック図、第2図は従来の
仮名漢字変換用の辞書の構造の例を示す図、第3図は第
2図用のインデックスの構造の例を示す図、第4図は漢
字仮名交り文解析用辞書の構造図、第5図は第4図の一
部を抜粋した図、第6図は本発明の辞書の構造の図、第
7図及び第8図は本発明の他の実施例別の辞書構造図、
第9図は本発明の辞書の全体構成図、第10図は本発明
の概略フロー図である。 代理人 弁理士 杉山毅至(他1名)第1図 第2図 第 3 図 第4図 第5図 第6図 tA 7 図 第 8 図 第 9 図
仮名漢字変換用の辞書の構造の例を示す図、第3図は第
2図用のインデックスの構造の例を示す図、第4図は漢
字仮名交り文解析用辞書の構造図、第5図は第4図の一
部を抜粋した図、第6図は本発明の辞書の構造の図、第
7図及び第8図は本発明の他の実施例別の辞書構造図、
第9図は本発明の辞書の全体構成図、第10図は本発明
の概略フロー図である。 代理人 弁理士 杉山毅至(他1名)第1図 第2図 第 3 図 第4図 第5図 第6図 tA 7 図 第 8 図 第 9 図
Claims (1)
- 日本語を入力・編集する手段と、該入力された日本語を
記憶する手段と、辞書を記憶する手段と、文法を記憶す
る手段と、該入力された日本語の中から校正すべき文字
・記号列を抽出する手段と、文章及び該候補文字・記号
列などを表示する手段と、校正すべき文字・記号列があ
る場合に該文字を修正する手段を有する文書処理システ
ムにおいて、仮名漢字変換用の辞書と漢字仮名交り文解
析用の辞書を統合化した構造を有することを特徴とする
文書処理装置の辞書構造。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62274158A JPH01114976A (ja) | 1987-10-28 | 1987-10-28 | 文書処理装置の辞書構造 |
EP19880310178 EP0314503A3 (en) | 1987-10-28 | 1988-10-28 | Dictionary structure for document processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62274158A JPH01114976A (ja) | 1987-10-28 | 1987-10-28 | 文書処理装置の辞書構造 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH01114976A true JPH01114976A (ja) | 1989-05-08 |
Family
ID=17537840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62274158A Pending JPH01114976A (ja) | 1987-10-28 | 1987-10-28 | 文書処理装置の辞書構造 |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP0314503A3 (ja) |
JP (1) | JPH01114976A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011509442A (ja) * | 2007-11-26 | 2011-03-24 | ウォーレン・ダニエル・チャイルド | 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02297195A (ja) * | 1989-03-02 | 1990-12-07 | Nec Corp | 形態素解析方式 |
US6292770B1 (en) | 1997-01-22 | 2001-09-18 | International Business Machines Corporation | Japanese language user interface for messaging system |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59865B2 (ja) * | 1979-09-13 | 1984-01-09 | シャープ株式会社 | 電子式翻訳装置 |
JPS57130175A (en) * | 1981-02-04 | 1982-08-12 | Mitsubishi Electric Corp | Kana (japanese syllabary)-kanji (chinese character) converting device |
JPS608980A (ja) * | 1983-06-28 | 1985-01-17 | Brother Ind Ltd | 電子辞書 |
-
1987
- 1987-10-28 JP JP62274158A patent/JPH01114976A/ja active Pending
-
1988
- 1988-10-28 EP EP19880310178 patent/EP0314503A3/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011509442A (ja) * | 2007-11-26 | 2011-03-24 | ウォーレン・ダニエル・チャイルド | 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法 |
JP2014142951A (ja) * | 2007-11-26 | 2014-08-07 | Daniel Child Warren | 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法 |
JP2016186805A (ja) * | 2007-11-26 | 2016-10-27 | ウォーレン・ダニエル・チャイルドWarren Daniel CHILD | 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法 |
Also Published As
Publication number | Publication date |
---|---|
EP0314503A2 (en) | 1989-05-03 |
EP0314503A3 (en) | 1990-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
Palmer | Tokenisation and sentence segmentation | |
US7937263B2 (en) | System and method for tokenization of text using classifier models | |
EP0180888A2 (en) | Method and apparatus for natural language processing | |
US7328404B2 (en) | Method for predicting the readings of japanese ideographs | |
US6968308B1 (en) | Method for segmenting non-segmented text using syntactic parse | |
US5079701A (en) | System for registering new words by using linguistically comparable reference words | |
KR100288144B1 (ko) | 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법 | |
JPH01114976A (ja) | 文書処理装置の辞書構造 | |
KR100452024B1 (ko) | 자연어 질의 응답 검색 엔진 및 검색 방법 | |
JPS63228326A (ja) | キ−ワ−ド自動抽出方式 | |
JPH0140372B2 (ja) | ||
JPS63118868A (ja) | 日本語文章校正装置 | |
JPS646499B2 (ja) | ||
JPS6172361A (ja) | かな漢字変換装置 | |
JPS63163956A (ja) | 文書作成・校正支援装置 | |
JP2570784B2 (ja) | 文書リーダ後処理装置 | |
Vagelatos et al. | Utilization of a lexicon for spelling correction in modern Greek | |
JPS62180462A (ja) | 音声入力かな漢字変換装置 | |
JP2574741B2 (ja) | 言語処理方法 | |
JPS63136264A (ja) | 機械翻訳装置 | |
JPH06289890A (ja) | 自然言語処理装置 | |
JPH01114973A (ja) | 文書作成・校正支援装置 | |
JPH02136959A (ja) | 日本文訂正候補抽出装置 | |
JPH0778155A (ja) | 文書認識装置 |