JP3233283B2 - 日本文文章解析装置 - Google Patents

日本文文章解析装置

Info

Publication number
JP3233283B2
JP3233283B2 JP00316490A JP316490A JP3233283B2 JP 3233283 B2 JP3233283 B2 JP 3233283B2 JP 00316490 A JP00316490 A JP 00316490A JP 316490 A JP316490 A JP 316490A JP 3233283 B2 JP3233283 B2 JP 3233283B2
Authority
JP
Japan
Prior art keywords
word
japanese
flag
added
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP00316490A
Other languages
English (en)
Other versions
JPH03208164A (ja
Inventor
伸一郎 ▲高▼木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP00316490A priority Critical patent/JP3233283B2/ja
Publication of JPH03208164A publication Critical patent/JPH03208164A/ja
Application granted granted Critical
Publication of JP3233283B2 publication Critical patent/JP3233283B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は日本文文章解析装置に係り、詳しくは、日本
文の文書データベースを作成するため、日本文入力装置
から読み込まれた漢字かな混じりの日本文文章の文字列
を形態素解析する日本文文章解析装置に関するものであ
る。
〔従来の技術〕
新聞記事、出版用原稿、科学技術論文などの多量の日
本文文書を電子ファイル化して、日本文文書データベー
スを作成し、混入する誤字などの誤りを検出したり、他
の言語に翻訳したり、あるいは漢字かな変換の後に、合
成音声として出力するシステムなどを構築するうえで、
全ての処理において基礎となる形態素解析が不可欠であ
る。
第4図に、日本文の形態素解析を行う日本文文書解析
装置の従来の構成例を示す。図中、10はCPUやメモリか
ら構成される日本文文書解析装置本体であり、機能上、
文節切り処理部11、単語候補抽出処理部12、単語列接続
処理部13及び単語列認定処理部14に分けられる。20は日
本文入力装置により読み込まれ、磁気記録装置などに文
字コードの形式で記録されている日本文原文文書ファイ
ル、30は各単語ごとに見出し、読み、文法情報及び単語
の属性情報を有する日本語辞書、40は形態素解析済み文
書ファイルである。
文節切り処理部11は、日本文原文文書ファイル20の日
本文文字列を入力して文節を抽出する。単語候補抽出処
理部12は、日本語辞書30を検索して、各文節ごとに取り
得る単語候補を網羅的に抽出する。単語列接続処理部13
は、単語の位置的な接続関係や文法的な接続条件を用い
て文節を形成し得る単語列の候補を作成する。単語列認
定処理部14は、該単語列候補から構成単語の数や単語の
出現頻度などを用いて妥当な単語列を認定し、解析済み
文書ファイル40として出力する。
第5図は従来の構成における日本語辞書30の内容を示
す図で、31は見出し部、32は品詞および活用部である。
34は見出し「歩け」で「歩」の動詞から派生する可能表
現を示す単語、35は見出し「上げ」の同形の単語群で
「上げ」の動詞から派生する名詞や異なる活用表現を示
す単語、36は接頭語「各」と接尾辞「社」/「党」とか
ら派生する連体詞表現の名詞である。
第6図(a)は日本文原文文字列の一例、同図(b)
は該文字列に対し、第4図の従来の日本語辞書30を使用
した場合の単語抽出状況を示したものである。即ち、単
語候補抽出処理部12では、例えば原文文字列中の「歩け
る」について、「歩」(五段カ行)と「歩け」(下一
段)を日本語辞書30から検索する。同様に、原文文字列
中の「上げ」について、「上」(名詞)、「上げ」(下
一段)の他に、「上げ」(名詞)、「上げ」(下一段未
然形)、「上げ」(下一段連用形)の5個の単語候補を
日本語辞書30から検索する。「下げ」、「各人」につい
ても同様である。この日本語辞書30から検索された単語
群について、単語列接続処理部13で単語列の候補を作成
し、単語列認定処理部14で妥当な単語列を認定する。
〔発明が解決しようとする課題〕
上記従来の日本文文章解析装置の構成では、日本語辞
書の仕様を次のようにする必要がある。
可能表現を取り得る動詞には、すべて派生する動詞
の単語を日本語辞書に網羅しなければならない。
一段動詞の品詞の単語には、同形の名詞や活用が異
なる(未然/連体など)の派生する単語を日本語辞書に
網羅しなければならない。
特定の接頭辞「各」「全」などと特定の接尾辞
「社」「党」などから構成される「各社」「各党」「全
社」「全党」などの多数派生する名詞を日本語辞書に網
羅しなければならない。
これは日本語辞書の保有単語数の増大をきたして、辞
書が大規模化するほか、単語の検索回数が増加し、形態
素解析の処理速度が低下する問題が生じる。また、派生
する表現の単語を辞書に登録しきれない場合には、該当
の単語が検索されないので、単語の認定精度(形態素解
析の精度)が低下するという問題点が生じる。
本発明の目的は、日本文文章の文字列を形態素解析す
る日本文文章解析装置において、日本語辞書の保有単語
数を削減し、辞書を小型化するとともに、単語の認定精
度(形態素解析の精度)を低下させることなく、単語の
検索回数を削減して形態素解析の処理速度を向上させる
ことにある。
〔課題を解決するための手段〕
上記目的を達成するために、本発明は、日本語ワード
プロセッサなどの文書入力装置から入力した日本文原文
文書ファイルに対して、該日本文文章の文字列を形態素
解析処理する日本文文章解析装置において、予め、各単
語ごとに派生する単語の有無を示す単語生成フラグを格
納する日本語辞書を用意すると共に、単語候補抽出の処
理の段階で、該日本語辞書から検索された単語中の単語
生成フラグに応じて、検索した単語の見出しから派生す
る単語を生成する手段を備えることを特徴とする。
〔作 用〕
入力された日本文文字列の各文節ごとに、日本語辞書
を用いて、取り得る単語とこれに付随する言語情報を網
羅的に抽出するともに、該単語抽出の処理の段階で、日
本語辞書から検索された単語中の単語生成フラグに応じ
て、該検索された単語の見出しから派生する単語を生成
する。当該検索された単語とその前方の文字について検
索された単語がそれぞれ接尾辞と接頭辞である場合に
は、検索された単語中の単語生成フラグに応じて、両者
の文字を結合した見出しから派生する単語を生成する。
これにより、日本語辞書の保有単語数を大幅に削減で
き、辞書の小型化が可能になるとともに、単語の認定精
度を低下させることなく、単語の検索回数を削減して形
態素解析の処理速度を向上させることができる。
〔実施例〕 以下、本発明の一実施例について図面により説明す
る。
第1図は本発明の日本文文章解析装置の一実施例の構
成図である。第1図において、10はCPUやメモリからな
る日本文文章解析装置本体、20は日本文原文文書ファイ
ル、30は日本語辞書、40は解析済み文書ファイルであ
る。日本文文章解析装置本体10は、機能上、文節切り処
理部11、単語候補抽出処理部12、単語列接続処理部13及
び単語列認定処理部14に分けられるが、単語候補抽出処
理部12は単語生成処理部120を有している。日本語辞書3
0は、各単語ごとに見出し、読み、文法情報、単語の属
性情報のほかに、派生する単語の有無を示す単語生成フ
ラグを格納している。
第2図は本発明の構成の日本語辞書30の内容を示す図
で、31は見出し部、32は品詞および活用部、33は単語生
成フラグ部である。単語生成フラグ部33は4ビットから
なり、331は該当の単語に対して可能表現を派生する場
合に付与された可能派生フラグ、332は該当の単語に対
して語幹以外の活用形表現を派生する場合に付与された
活用派生フラグ、333は該当の単語に対して名詞を派生
する場合に付与された名詞化フラグ1、334は該当の単
語に対して接辞結合の名詞を派生する場合に付与された
名詞化フラグ2である。
文節切り処理部11は、日本文原文文書ファイル20の入
力された日本文文字列に対し、字種の変化点などから自
立語あるいは付属語からなる文節を抽出する。単語候補
抽出処理部12は、各文節ごとに日本語辞書30を検索し
て、取り得る単語とこれに付随する情報を網羅的に抽出
する。この単語候補抽出処理の段階で、単語生成処理部
120において、該日本語辞書30から検索された単語中の
単語生成フラグに応じて、該検索した単語の見出しから
派生する単語を生成する。単語列接続処理部13は、該抽
出あるいは生成された単語群について、単語の位置的な
接続関係や文法的な接続条件を用いて文節を形成し得る
単語列の候補を作成する。単語列認定処理部14は、単語
列候補から構成単語の数や単語の出現頻度などを用いて
妥当な単語列を認定し、形態素解析済み文書ファイル40
として出力する。
第3図は単語生成処理部120での処理の具体例を示し
たものである。日本語辞書30の内容が第2図の場合、単
語生成処理部120では、例えば、可能派生フラグ311が付
与されている単語「歩」が検索された場合には、品詞の
活用行(カ行)に応じて仮定形に相当する付属語尾
「け」を機械的に抽出して、派生する単語見出し「歩
け」を生成する。この際には、読みを修正し、品詞を下
一段とするほかは、検索された単語「歩」の属性情報を
コピーするだけである。また、活用派生フラグ332が付
与されている単語「上げ」が検索された場合には、語幹
以外の活用形の単語として派生する「上げ」(未然形)
と「上げ」(連用形)を生成する。この際にも、検索さ
れた単語「上げ」の品詞の活用形を変更するほかには、
属性情報をコピーするだけである。さらに、333の名詞
化フラグ1が付与されている場合には、単語「上げ」の
動詞から派生する名詞「上げ」を生成する。この場合に
は、品詞が変更されるほかに属性情報も名詞の情報に差
し替える。しかし、名詞の情報は予め作成しておくこと
もできる。334の名詞化フラグ2が付与されている接辞
の単語については、接頭辞と接尾辞が結合して派生する
名詞「各人」「各社」「当人」「当社」などを生成す
る。
このように、予め派生する単語の有無を示す単語生成
フラグを各単語ごとに有する日本語辞書を用意して、単
語抽出処理の段階で、該日本語辞書から検索された単語
中に単語生成フラグが在る場合、該単語生成フラグの種
別に応じて所定の単語を派生させて単語候補とすること
により、日本語辞書の保有単語数を削減し、辞書を小型
化することできる。特に、名詞化フラグ2で派生する単
語「各人」などは、「各社」「各党」「各校」「各国」
のように際限なく有り得るので、これらを辞書に網羅的
に登録することができない。したがって、登録数が少な
いと単語の認定精度(形態素解析の精度)が低下する。
この場合でも、これらの名詞を派生し得る接辞として
「各」や「社」「党」「校」「国」などを登録してお
き、名詞化フラグ2を各接辞に付与しておけば、派生す
る名詞を登録しなくても単語の抽出を網羅的に行うこと
ができ、単語の認定精度(形態素解析の精度)が保たれ
る。
第6図(a)の日本文原文文字列に対し、本発明によ
る単語抽出状況の一例を示すと同図(c)のようにな
る。第6図(c)において、601〜604はそれぞれ「可能
派生フラグ」(第2図の331)、「活用派生フラグ」
(第2図の332)、「名詞化フラグ1」(第2図の33
3)、「名詞化フラグ2」(第2図の334)によって派生
し、生成された単語である。
例えば、「歩ける」の原文文字列について、第2図の
内容の日本語辞書30を検索し、「歩」(五段カ行)の単
語候補を抽出した時に、この単語中の単語生成フラグ部
33に可能派生フラグ331が付与されているので、品詞の
活用行に応じて付属語尾「け」を機械的に抽出して、単
語候補「歩け」(下一段)が生成される。これにより、
単語候補としての網羅性を維持し、かつ日本語辞書の検
索回数は「歩」の1回で済む。
同様に、「上げ」の原文文字列について、「上」(名
詞)に続いて、「上げ」(下一段)の単語候補を抽出し
た時に、この単語中の単語生成フラグ部33に活用派生フ
ラグ332、名詞化フラグ1(333)が付与されているの
で、それぞれ602,603の単語候補「上げ」(下一段未然
形)、「上げ」(下一段連用形)、「上げ」(名詞)が
生成される。これにより、同様に単語候補としての網羅
性を維持し、かつ日本語辞書の検索回数を「上」と「上
げ」(下一段)の2回にすることができる。
また、「各人」の原文文字列については、「各」(接
頭辞)と「人」(接尾辞)が抽出され、それぞれの単語
中の単語生成フラグ部33に名詞化フラグ2(334)が付
与されているため、604の単語候補「各人」(名詞)が
生成される。したがって、日本語辞書30に「各人」(名
詞)を登録しておかなくても、単語候補としての網羅性
は維持でき、かつ日本語辞書の検索回数を「各」「人」
の2回にすることができる。
〔発明の効果〕
以上説明したように、本発明によれば、日本語ワード
プロセッサなどの文書入力装置から入力した日本文原文
文書ファイルに対する該日本文文字列の形態素解析処理
において、予め、各単語ごとに派生する単語の有無を示
す単語生成フラグを格納する日本語辞書を用意して、単
語候補抽出の処理の段階で、単語生成フラグの種別に応
じて、検索した単語の見出しから派生する単語を生成す
るので、日本語辞書の保有単語数を削減し、辞書を小型
化できるとともに、単語の認定精度(形態素解析の精
度)を低下させることなく(単語抽出の網羅性を損わず
に)、単語の検索回数を削減して形態素解析の処理速度
を向上させることができる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す日本文文章解析装置の
構成図、第2図は本発明の実施例で使用される日本語辞
書の内容の一例を示す図、第3図は本発明の実施例の単
語生成処理部での処理内容を示す図、第4図は従来の日
本文文章解析装置の構成図、第5図は従来の構成におけ
る日本語辞書の内容を示す図、第6図は従来と本発明に
よる単語候補抽出処理を比較する図である。 10……日本文文章解析装置、11……文節切り処理部、12
……単語候補抽出処理部、120……単語生成処理部、13
……単語列接続処理部、14……単語認定処理部、20……
日本文原文文書ファイル、30……日本語辞書、31……見
出し部、32……品詞および活用部、33……単語生成フラ
グ部、331……可能派生フラグ、332……活用派生フラ
グ、333……名詞化フラグ1、334……名詞化フラグ2、
40……解析済文書ファイル。
フロントページの続き (56)参考文献 特開 昭63−204461(JP,A) 特開 昭59−90167(JP,A) 特開 平1−248277(JP,A) 特開 昭64−54567(JP,A) 特開 昭62−98455(JP,A) 特開 昭63−284676(JP,A)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力装置から入力した日本文文章の文字列
    を形態素解析する日本文文章解析装置において、 各単語ごとに、見出し、読み、文法情報、単語の属性情
    報として、五段活用の語幹の単語に対して付与した可能
    派生フラグと、下一段活用動詞の語幹の単語に対して付
    与した活用派生フラグと、下一段活用動詞の語幹の単語
    に対して付与した名詞化フラグ1と、接頭辞と接尾辞に
    対して付与した名詞化フラグ2を格納する日本語辞書
    と、 入力された日本文文字列について文節を切り出す手段
    と、 各文節ごとに、前記日本語辞書を検索して取り得る単語
    とこれに付随する文法情報と単語の属性情報を抽出する
    と共に、該抽出された単語列について、第一に、前記可
    能派生フラグが付与された単語を、品詞の活用形に応じ
    て付属語尾を抽出して、下一段単語活用を生成させて単
    語候補とし、第二に、前記活用派生フラグが付与された
    単語を下一段未然形および下一段連用形として生成させ
    て単語候補とし、第三に、前記名詞化フラグ1が付与さ
    れた単語を名詞として生成させて単語候補とし、第四
    に、前記名詞化フラグ2が付与された単語の接頭辞と接
    尾辞を結合して、派生する名詞を生成させて単語候補と
    する単語列候補作成手段と、 前記単語列の候補から構成単語の数や単語の出現頻度な
    どを用いて妥当な単語列を認定する手段と、からなるこ
    とを特徴とする日本文文章解析装置。
JP00316490A 1990-01-10 1990-01-10 日本文文章解析装置 Expired - Fee Related JP3233283B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00316490A JP3233283B2 (ja) 1990-01-10 1990-01-10 日本文文章解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00316490A JP3233283B2 (ja) 1990-01-10 1990-01-10 日本文文章解析装置

Publications (2)

Publication Number Publication Date
JPH03208164A JPH03208164A (ja) 1991-09-11
JP3233283B2 true JP3233283B2 (ja) 2001-11-26

Family

ID=11549719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00316490A Expired - Fee Related JP3233283B2 (ja) 1990-01-10 1990-01-10 日本文文章解析装置

Country Status (1)

Country Link
JP (1) JP3233283B2 (ja)

Also Published As

Publication number Publication date
JPH03208164A (ja) 1991-09-11

Similar Documents

Publication Publication Date Title
Şeker et al. Initial explorations on using CRFs for Turkish named entity recognition
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
US20060047500A1 (en) Named entity recognition using compiler methods
JPH09190449A (ja) 索引自動生成方法とその利用方法
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
Lauriston Automatic recognition of complex terms: Problems and the TERMINO solution
Sawalha et al. Fine-grain morphological analyzer and part-of-speech tagger for Arabic text
KR20100041019A (ko) 문서 번역 장치 및 그 방법
Onyenwe et al. Toward an effective igbo part-of-speech tagger
JP3230606B2 (ja) 固有名詞特定方法
JP3233283B2 (ja) 日本文文章解析装置
Saito et al. Multi-language named-entity recognition system based on HMM
JPS5892063A (ja) イデイオム処理方式
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
JPH03105465A (ja) 複合語抽出装置
JP2914988B2 (ja) 日本語自動翻訳システムにおける日本語名詞複合語翻訳方式
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
JP2004258759A (ja) テキスト解析装置、方法及びプログラム
JPS6389976A (ja) 言語解析装置
JP2973369B2 (ja) 日本文形態素解析処理用日本語辞書構成装置
JPH0668070A (ja) 複合語辞書登録装置
Kiawkaew et al. A Practical Technique for Thai-English Word Mapping Using Phonetic Rules: Person Name Matching Case Study
JP3508312B2 (ja) キーワード抽出装置
JP2608384B2 (ja) 機械翻訳装置及びその方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees