JPH01156869A - 日本文解析処理装置 - Google Patents

日本文解析処理装置

Info

Publication number
JPH01156869A
JPH01156869A JP62315699A JP31569987A JPH01156869A JP H01156869 A JPH01156869 A JP H01156869A JP 62315699 A JP62315699 A JP 62315699A JP 31569987 A JP31569987 A JP 31569987A JP H01156869 A JPH01156869 A JP H01156869A
Authority
JP
Japan
Prior art keywords
word
connection
words
speech
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62315699A
Other languages
English (en)
Inventor
Shinichiro Takagi
伸一郎 高木
Tsuneo Yasuda
安田 恒雄
Katsumi Shimazaki
島崎 勝美
Satoru Ikehara
池原 悟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP62315699A priority Critical patent/JPH01156869A/ja
Publication of JPH01156869A publication Critical patent/JPH01156869A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は日本文解析処理装置に係り、詳しくは日本語文
書データベース作成等のため、入力装置から読込まれた
漢字かな混じりの日本語文字列について単語解析する日
本文解析処理装置に関するものである。
〔従来の技術〕
新聞記事、出版用原稿、科学技術論文等の多量の日本語
文書を電子ファイル化して1日本語文書データベースを
作成し、混入する誤字などの誤りを検出したり、日本語
文書を他の言語に翻訳したり、あるいは漢字かな変換の
後日本語の合成音声として出力するシステムなどを構築
するうえで。
全ての基礎となる単語解析は不可欠である。
従来、この日本文の単語解析においては、多くの単語列
の認定候補から文法的に不当な単語列候補を削除する処
理が行われ、処理精度あるいは処理速度の向上を図って
いる。この種従来の単語解析処理装置の構成図を第2図
に示す。10は漢字OCR、ベンタッチ、タブレット、
キーボード等の日本文人力装置である。20はCPU、
主メモリ等からなる処理装置本体であり1機能的に入出
力処理部21、文節切出し部22、単語候補抽出部23
.接続単語列生成部24及び接続検定部25に分かれる
。30は入力日本文データベース用記憶装置、40は単
語辞書用記憶装置、60は単語認定側結実用記憶装置で
あり、これらには磁気ディスク、磁気ドラム、その他の
記憶装置が使用される。
人力装置10は日本語文字列(日本語文書)を文字コー
ドの形式で処理装置本体20に入力する。
入出力処理部21は、入力装置10から入力された日本
語文字列を記憶装置30に日本文データベ・−スとして
蓄積し、また、該記憶装置130の入力日本語文字列を
読出して文節切出し部22に送る。
文節切出し部22は入力された日本語文字列について文
節を抽出する。単語候補抽出部23は、各文節ごとに記
憶装置40の日本語単語辞書(該単語辞書は各単語の見
出し1品詞等を有している)を索引して、取得る単語を
網羅的に抽出する。接続単語列生成部24は、抽出され
た単語列について、位置的に接続可能な単語列連鎖(接
続単語列)の候補を作成する。接続検定部25は、接続
単語列生成部24で生成された単語列連鎖の候補につい
て、単語の見出しあるいは品詞の間の接続条件をプログ
ラムの条件式として装備してこれに違反するものを文法
的に削除し、文法的に正しいと認定された単語列を記憶
装置60に蓄積する。
〔発明が解決しようとする問題点〕
上記従来技術は、文法的接続条件の検定のために、見出
し、品詞の情報をそのま\プログラム内の条件式あるい
は簡易なテーブルとして使用しているため1次のような
問題点が生ずる。
(1)単語の見出し、品詞の情報を用いてその接続条件
をプログラムで記述するので、日本語単語辞書が増大す
るにつれて接続検定条件の記述量が膨大となり、接続条
件の索引に要する時間が増大する。
(2)接続条件を品詞ごとの接続マトリックスで記述す
る場合には、単語の品詞区分が詳細化すると、接続マト
リックスの規模が膨大となり、接続条件の索引に要する
時間が増大する。
(3)単語の品詞情報を用いて単語間の文法的接続検定
を行う場合、接続許可された品詞間であっても、見出し
レベルでは接続しないなどの接続条件の個々の例外事項
に軟柔に対応できない。
本発明の目的は、単語の品詞区分の詳細化に対応した接
続検定条件の規模の膨大化や接続条件の索引に要する時
間の増大あるいは接続許可された品詞間であっても見出
しレベルで接続しないなどの接続条件の個々の例外事項
に対する非軟柔性を解決した日本文解析処理装置を提供
することにある。
〔問題点を解決するための手段〕
本発明は、所定の単語の前方あるいは後方に接続するこ
とができる単語の品詞をグループ化して、このグループ
番号を接続番号として符号化し、この接続番号と対応す
る品詞群を品詞をキーとして索引する構造を有する単語
接続辞書と、日本文の単語の見出し、品詞、文法的接続
情報となる接続番号を各単語ごとに有する構造をとる日
本語単語辞書と、入力された日本文文字列に対し、文節
を抽出する文節切出し部と、各文節ごとに、日本文単語
辞書を索引して取得る単語とこれに付随する情報を網羅
的に抽出する単語候補抽出部と、抽出された各単語群に
ついて文字の位置的な接続関係を用いて文節を形成し得
る接続単語列の候補を生成する接続単語列生成部と、単
語接続辞書を用いて、接続単語列の各単語間の文法的な
接続関係を検定し、単語認定列を生成する接続検定部と
を有することを特徴とする。
〔作 用〕
入力された日本語文字列に対して、文節切出し、単語候
補抽出、単語の位置的接続条件による単語列候補を生成
した後、接続検定部では、これらの単語列候補のそれぞ
れについて、文節内の単語列を先頭から隣合う単語につ
いて、前方の単語の品詞で単語接続辞書を索引して、後
方の単語の接続番号が接続許可されていることで文法的
な検定を行い、接続単語列内で不当な接続単語のパター
ンを除去する。さらに1前後の単語の品詞が同一であっ
て、前方の品詞で単語接続辞書を索引して。
後方の単語の接続番号が接続許可されている場合でも、
後方の品詞で単語接続辞書を索引して、前方の単語の接
続番号が接続許可されていない場合には単語間の文法的
接続を許可しないという文法的な検定を行って接続単語
列内で不当な接続単語のパターンを除去する。
〔実施例〕
以下、本発明の一実施例について図面により説明する。
第1図は本発明の日本文解析装置の一実施例の構成図を
示す、第1図において、10は漢字OC°R、ベンタッ
チ、タブレット、キーボード等の日本文人力装置である
。20は入力日本文の単語解析を行う処理装置本体で、
ハード的にはCPU。
主メモリ等で構成されるが、機能的には入出力処理部2
1、文節切出し部22、単語候補抽出部23、接続単語
列生成部24及び接続検定部25からなる。30は入力
日本文データベース用記憶装置、40は単語辞書用記憶
装置、50は単語接続辞書用記憶装置、60は単語接続
辞書用記憶装置である。
こ−で、記憶装置40上の単語辞書は、日本文の単語の
見出し、品詞、および所定の単語の前方あるいは後方に
接続することが出来る単語の品詞をクループ化して、こ
のグループ番号を符号化した接続番号を文法的接続情報
として各単語ごとに有する。記憶装置50上の単語接続
辞書は、同じく所定の単語の前方あるいは後方に接続す
ることが出来る単語の品詞をグループ化して、このグル
ープ番号を接続番号として符号化し、この接続番号と対
応する品詞群を品詞キーとして索引する構造を有する。
入力装置10から入力された日本語文字列は、処理装置
本体20の入出力処理部21を介し、記憶装置30上に
日本文データベースとして蓄積される。処理装置本体2
oでは、入出力処理部21を介し、この記憶装置30に
蓄積された日本文データベース(入力日本語文字列)を
読出して文節切出し部22に送る1文節切出し部23は
入力された日本語文字列に対し、字種の変化点における
自立語あるいは付属語からなる文節を抽出する。
単語候補抽出部23は、各文節ごとに、記憶装置40の
日本文単語辞書を用いて取得る単語とこれに付随する情
報を網羅的に抽出する。接続単語列生成部24は、抽出
された各単語候補群について、単語の位置的な接続条件
を用いて文節を形成し得る単語列の候補を作成する。接
続検定部25は、記憶装置50の単語接続辞書を用いて
、単語列の候補のそれぞれについて各単語間の文法的な
接続関係を検定し、単語認定列を生成して記憶袋v16
0に格納する。
接続検定部25について詳述すると、生成された単語列
に対して、文節内の単語列を先頭から隣合う単語につい
て、前方の単語の品詞で記憶装置50の単語接続辞書を
索引して、後方の単語の接続番号が接続許可されている
ことで文法的な検定を行い、単語列候補内で不当な接続
単語のパターンを除去する。また、前後の単語の品詞が
同一であって、前方の単語の品詞で記憶装置50の単語
接続辞書を索引して、後方の単語の接続番号が接続許可
されている場合でも、後方の単語の品詞で同単語接続辞
書を索引して、前方の単語の接続番号が接続許可されて
いない場合には単語間の文法的接続を許可しないという
文法的な検定を行って。
単語候補列内で不当な接続単語のパターンを除去する。
第3図は本発明による処理例で、文法的接続検定を含む
単語認定の処理を示している。こへで。
100は入力された日本語文字列、101は文節切され
た文節を示す。110は文節101について日本文単語
辞書から網羅的に抽出した単語の情報であり、111は
単語情報内の見出し、112は単語情報内の品詞、11
3は単語情報内の接続番号、114は品詞が異なり同一
の接続番号を持つ単語を示している。120は品詞と接
続番号の接続状況、121は単語接続結果状況、130
は文法接続検定で認定された単語認定結果である。
140は単語接続辞書内の内容で、141は接続が許可
された関係を示すフラグ、142は接続が許可されない
関係を示すフラグである。
この例では、単語抽出で網羅的に抽出された単語列に対
して、前方から総当りで文法的接続検定を実施する。接
続検定は前方の単語の品詞と後方の単語の接続番号との
間において、前方の品詞で単語接続辞書を索引し、接続
が許可される場合、単語の連鎖を伸ばすが、接続関係の
ない場合は、接続パターンを除去して絞込み、最終的に
単語認定結果130を得る。なお、単語114は品詞が
異なるが、前方に接続可能な単語の品詞群が同一なので
接続番号は同じものを持つ。
このように、品詞と接続番号を予め作成した単語接続辞
書と単純に照合するだけで接続検定ができ、さらに接続
番号を用いたグループ化を行っているので、品詞そのも
のによる接続マトリックスに比べ単語接続辞書を小さく
、検索速度も高速にできる。
第4図は本発明による別の処理例で、同一品詞間の文法
的接続検定を含む単語認定の処理を示している。こへで
、第3図と同一の記号は同一の内容を示す。102は使
用が誤った文字(正規は「ごJ)、115は同一品詞で
あるが、接続条件が異なる見出しに付与された接続番号
、131は文法的接続検定が失敗し、誤りが検出された
単語位置である。
この例では、接頭辞「お」と一般名詞「客」、「両人」
のそれぞれの単語間で、文法的には両者とも接続が可能
であるが、「お」と「両人」では通常見出しレベルでは
接続しないので、同一品詞の場合でも見出しレベルの文
法的接続状況に応じて接続番号を「客」では5、「両人
」では6とし、単語接続辞書内容を140で示すように
設定することで、単語認定結果130内の131に示す
誤りを文法的接続検定で検出している。
このように、同一品詞間でも見出しレベルでの例外的な
単語の接続検定に対応できるので、不要な単語の接続候
補の削除や誤りの文法的検定による検出など、きめ細か
い接続検定が可能である。
第5図は本発明によるさらに別の処理例で、同一品詞間
の文法的接続検定で前方接続条件を併用した単語認定の
処理を示している。こ−でも、第3図と同一の記号は同
一の内容を示す、100−1は正規の原文、100−2
は誤りの原文とする。
116は前方に対する接続条件を示す接続番号である。
140′は前方の接続条件を並記した単語接続辞f、1
20’は後方および前方の各方向の接続検定における品
詞と接続番号の接続状況、122は接続検定の方向、1
23は単一語接続検定結果、124は「甘み」について
の総合的な単語接続結果(成立)、125は「寒み」に
ついての総合的な単語接続結果(不成立)である。13
2は125の文法的接続検定が失敗し、誤りが検出され
た単語位置である。
この例では、第4図の処理例とは異なり、同一品詞間で
見出しレベルでの例外的な単語の接続条件に対応するた
め、後方接続の接続番号を変更せず、新規の前方の接続
条件を導入して後方と前方の両横定方向の成立時に総合
的に単語の文法的接続検定を実施している。「甘」、「
寒」はいずれも形容詞の語幹であって、後方の接続条件
では、接尾辞「み」と接続許可されるが、後方の単語の
接尾辞「み」から前方方向については味覚を示す形容詞
にしか接続しないので、日本語単語辞書内の形容詞につ
いて「み」が付属するか否かで前方の接続番号を替え、
「み」と「寒」が接続しないようにし、さらに後方、前
方両方向の接続検定が成立時に総合的な文法的接続を許
可しており、132に示す「寒み」を文法的接続検定失
敗で検出している。
このように、同一品詞間でも見出しレベルでの例外的な
単語の接続検定に文法情報で対応できるので、不要な単
語の接続候補の削除や誤りの文法的検定による検出など
、きめ細かい接続検定が可能である。
〔発明の効果〕
以上説明したように、本発明によれば、単語候補抽出部
で抽出した単語の品詞と接続番号を、予め作成した単語
接続辞書と単純に照合するだけで接続検定ができ、さら
に接続番号を用いたグループ化を行っているので1品詞
そのものによる接続マトリックスに比べ単語接続辞書を
小さく、検索速度も高速にできる。また、前方、後方の
接続番号を吟味して設定することによって同一品詞間で
も見出しレベルでの例外的な単語の接続検定に文法情報
が軟柔に対応できるので、不要な接続候補の削除や誤り
の文法的検定による検出などきめ細かい接続検定が可能
となるなど、有効な単語解析処理を実現できるという利
点がある。
【図面の簡単な説明】
第1図は本発明の日本文解析処理装置の一実施例の構成
図、第2図は従来装置の構成図、第3図乃至第5図は本
発明の処理例を示す図である。 10・・・日本文人力装置、  20・・・処理装置本
体。 21・・・入出力処理部、 22・・・文節切出し部、
23・・・単語候補抽出部。 24・・・接続単語列生成部、 25・・・接続検定部
、30・・・入力日本文データベース用記憶装置、40
・・・単語辞書用記憶装置、 50・・・単語接続辞書用記憶装置、 60・・・単語接続辞書用記憶装置。 第1図 第2図 第4図 [−−−−−−1 第5図

Claims (3)

    【特許請求の範囲】
  1. (1)入力された日本語文字列について単語解析する装
    置において、 所定の単語の前方あるいは後方に接続することができる
    単語の品詞をグループ化して、このグループ番号を接続
    番号として符号化し、この接続番号と対応する品詞群を
    品詞をキーとして索引する構造を有する単語接続辞書と
    、 日本文の単語の見出し、品詞、文法的接続情報となる接
    続番号を各単語ごとに有する構造をとる日本語単語辞書
    と、 入力された日本語文字列に対し、文節を抽出する文節切
    出し部と、 各文節ごとに、日本文単語辞書を索引して取得る単語と
    これに付随する情報を網羅的に抽出する単語候補抽出部
    と、 抽出された各単語群について文字の位置的な接続関係を
    用いて文節を形成し得る接続単語列の候補を生成する接
    続単語列生成部と、 単語接続辞書を用いて、接続単語列の各単語間の文法的
    な接続関係を検定し、単語認定列を生成する接続検定部
    と、 を有することを特徴とする日本文解析処理装置。
  2. (2)接続検出部では、生成された接続単語列の候補に
    対して、文節内の単語列を先頭から隣合う単語について
    、前方の単語の品詞で単語接続辞書を索引して、後方の
    単語の接続番号が接続許可されていることで文法的な検
    定を行い、接続単語列内で不当な接続単語のパターンを
    除去することを特徴とする特許請求の範囲第1項記載の
    日本文解析処理装置。
  3. (3)接続検定部では、前後の品詞が同一であって、前
    方の単語の品詞で単語接続辞書を索引して、後方の単語
    の接続番号が接続許可されている場合でも、後方の単語
    の品詞で単語接続辞書を索引して、前方の接続番号が接
    続許可されていない場合には単語間の文法的接続を許可
    しないという文法的な検定を行って接続単語列内で不当
    な接続単語のパターンを除去することを特徴とする特許
    請求の範囲第2項記載の日本文解析処理装置。
JP62315699A 1987-12-14 1987-12-14 日本文解析処理装置 Pending JPH01156869A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62315699A JPH01156869A (ja) 1987-12-14 1987-12-14 日本文解析処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62315699A JPH01156869A (ja) 1987-12-14 1987-12-14 日本文解析処理装置

Publications (1)

Publication Number Publication Date
JPH01156869A true JPH01156869A (ja) 1989-06-20

Family

ID=18068486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62315699A Pending JPH01156869A (ja) 1987-12-14 1987-12-14 日本文解析処理装置

Country Status (1)

Country Link
JP (1) JPH01156869A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129589A (ja) * 1993-07-29 1995-05-19 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 形態素解析装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129589A (ja) * 1993-07-29 1995-05-19 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 形態素解析装置

Similar Documents

Publication Publication Date Title
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
JPS6211932A (ja) 情報検索方法
El-Shishtawy et al. An accurate arabic root-based lemmatizer for information retrieval purposes
EP0241717A2 (en) Linguistic analysis method and apparatus
Singh et al. Writing Style Change Detection on Multi-Author Documents.
Sun et al. Chinese semantic role labeling with shallow parsing
Al-Sarem et al. Combination of stylo-based features and frequency-based features for identifying the author of short Arabic text
Lopresti Performance evaluation for text processing of noisy inputs
JPS5892063A (ja) イデイオム処理方式
JPH01156869A (ja) 日本文解析処理装置
Moghadam et al. A Survey of Part of Speech Tagging of Latin and non-Latin Script Languages: A more vivid view on Persian
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
AlGahtani et al. Joint Arabic segmentation and part-of-speech tagging
Kiawkaew et al. A Practical Technique for Thai-English Word Mapping Using Phonetic Rules: Person Name Matching Case Study
Liebeskind et al. Automatic construction of Aramaic-Hebrew translation lexicon
JP3109187B2 (ja) 形態素解析方式
Özge et al. Diacritics correction in Turkish with context-aware sequence to sequence modeling
Tohti et al. Character code conversion and misspelled word processing in Uyghur, Kazak, Kyrgyz multilingual information retrieval system
Rafiq et al. UPD: a plagiarism detection tool for Urdu language documents
JPH05250403A (ja) 日本文単語解析方式
JPH01258069A (ja) 日本語文字列の形態素解析方式
JP3233283B2 (ja) 日本文文章解析装置
JP2650099B2 (ja) ドキュメント抽出装置
JPH0715690B2 (ja) 日本文文書解析装置
JPS58214931A (ja) 単語切り出し装置