JPH0715690B2 - 日本文文書解析装置 - Google Patents

日本文文書解析装置

Info

Publication number
JPH0715690B2
JPH0715690B2 JP63030188A JP3018888A JPH0715690B2 JP H0715690 B2 JPH0715690 B2 JP H0715690B2 JP 63030188 A JP63030188 A JP 63030188A JP 3018888 A JP3018888 A JP 3018888A JP H0715690 B2 JPH0715690 B2 JP H0715690B2
Authority
JP
Japan
Prior art keywords
word
kanji
character
japanese
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63030188A
Other languages
English (en)
Other versions
JPH01205377A (ja
Inventor
伸一郎 高木
恒雄 安田
勝美 島崎
悟 池原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63030188A priority Critical patent/JPH0715690B2/ja
Publication of JPH01205377A publication Critical patent/JPH01205377A/ja
Publication of JPH0715690B2 publication Critical patent/JPH0715690B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、日本語文書データベースを作成するため、入
力装置から読み込まれた漢字かな混じりの日本文文書文
字列を日本文単語に解析する日本文文書解析装置に関す
る。
〔従来の技術〕
新聞記事、出版用原稿、科学技術論文等の多量の日本文
文書を電子ファイル化して、日本文文書データベースを
作成し、これを利用して混入する誤字などの誤りを検出
したり、日本文の他の言語に翻訳したり、あるいは漢字
かな変換した後日本語の合成音声として出力する言語処
理システムなどを構築する場合、全ての自然言語処理の
基礎となる形態素解析が不可欠である。
また、日本文の単語解析においては、その解析速度を向
上させるために、一般に漢字を含む2文字以上の単語を
優先して抽出し、多くの漢字1文字単語の検索は漢字を
含む2文字以上の漢字用語単語がない場合にのみ行なう
処理を採用している。
第4図は、従来の単語解析システムの構成図である。
図において、全体符号1は単語解析処理装置を示し、2
は漢字読取機,ペンタッチ,キーボード等の日本文入力
装置によって読み込まれた日本文を磁気装置に文字コー
ドの形式で記録する入力日本文データベース、3はデー
タベース2に記録された読取り結果の日本文文字列に対
し字種の変化点における自立語あるいは付属語からなる
文節を抽出する文節切り部、4は各単語ごとに見出し、
読み、文法情報、単語の属性情報を格納した日本文単語
辞書、5は各文節ごとに日本文単語辞書4を検索して単
語列を網羅的に抽出する単語候補抽出部、6は単語候補
抽出部5内にあって、漢字を含む2文字以上の単語を抽
出する漢字用語単語抽出部、7は単語候補抽出部5内に
あって、漢字1文字の単語を抽出する漢字1文字単語抽
出部、8は漢字以外の字種の候補を含めた単語候補抽出
を制御する単語候補抽出制御部、9は抽出された単語列
について位置的に接続可能な単語列連鎖の候補を作成す
る接続単語列生成部、10は接続単語列生成部9の単語列
について単語の見出しあるいは品詞の間の接続条件を用
いてこれに違反する単語列を文法的に削除する接続検定
部、11は認定された単語認定列結果を記録する記録装置
である。
第5図は、上述のように構成された単語解析処理システ
ムによる単語解析処理例を示すもので、第5図に示す原
文文字列12は、文節切り部3によって文節に抽出された
後、日本文単語辞書4を検索して単語候補抽出部5およ
び単語候補抽出制御部8により、第5図の符号13で示す
ような単語候補群を抽出する。この結果、漢字を含む2
文字以上を優先して抽出した単語候補14となる。そして
抽出された単語候補群13は接続単語列生成部9と接続検
定部10によって、符号15で示す接続単語列に生成する。
また、第5図において、16は単語認定が不良となった単
語、17は単語間の接続が不良となった位置である。
〔発明が解決しようとする課題〕
上述した従来の単語解析処理方式では、漢字を含む2文
字以上の漢字用語を優先して検索するため、長単位の単
語列「間引き」に包含される短単位の漢字1文字単語
「間」が検索されず、その「間引き」なる単語列は単語
認定が不良となり、また、「間引き」と「取る」とが文
法的に接続しない等、単語列の認定不良が発生し、単語
認定精度が低下してしまう。
一方、これらの単語検索不足を解決するため、漢字を含
む2文字以上の単語を優先せずに漢字1文字単語を検索
すると、漢字1文字の単語は非常に多いため不要な単語
列の数が増大して解析速度を低下させると共に、単語列
数が増加するためにかえって単語認定精度を低下するこ
ととなる問題があった。
本発明は上述のような問題を解決したもので、単語認定
精度および解析速度を向上できる日本文文書解析装置を
提供することを目的とする。
〔課題を解決するための手段〕
本発明の日本文文書解析装置は、文節切り部、日本文単
語辞書、漢字用語単語抽出部および漢字1文字単語抽出
部を有する単語候補抽出部、単語候補抽出制御部、接続
単語列生成部および接続検定部を備えた解析システムに
おいて、漢字用語単語抽出部で抽出された漢字用語単語
に付随する単語検索フラグおよび単語連鎖フラグを抽出
し、単語検索フラグに応じて漢字1文字単語を検索する
か否かを制御する辞書検索情報抽出部と、単語列生成部
で生成された単語列のうち単語連鎖フラグに応じて単語
列の絞込みを行なう単語列絞込み部を付加したものであ
る。
〔作 用〕
本発明においては、単語候補のうち漢字を含む2文字以
上の漢字用語の単語候補抽出処理で、予め漢字を含む2
文字以上の漢字用語に付随して日本文単語辞書から抽出
された単語検索フラグに応じて、漢字用語に含まれる必
要な漢字1文字単語の抽出を制御し、さらに文字の位置
的な接続関係を用いて生成された接続単語列の絞込みで
は、単語連鎖フラグに応じて、この漢字用語に包含され
る漢字1文字単語を含む見出しごとの位置的な接続を許
可して、これらの接続単語列を削除しないようになる。
従って、本発明にあっては、単語認定精度及び解析速度
を向上させることができる。
〔実施例〕
以下、本発明の実施例を図面について詳細に説明する。
第1図は本発明の解析方式による実施例の全体構成図
で、第4図と同一の部分には同一符号を付して説明す
る。
図において、全体符号20で示す単語解析処理システム
は、データベース2に記録された読取り結果の日本文文
字列に対し字種の変化点における自立語あるいは付属語
からなる文節を抽出する文節切り部3と、各単語ごとに
見出し、読み、文法情報、単語の属性情報および漢字単
語の抽出に関する単語検索フラグおよび漢字単語の接続
に関する単語連鎖フラグを格納した日本文単語辞書21
と、各文節ごとに日本文単語辞書21を検索して単語列を
網羅的に抽出する単語候補抽出部22と、この単語候補抽
出部22にあって、漢字を含む2文字以上の単語を抽出す
る漢字用語単語抽出部23と、単語候補抽出部22にあっ
て、漢字1文字の単語を抽出する漢字1文字単語抽出部
24と、漢字用語単語抽出部23で抽出された漢字用語単語
に付随して予め日本文単語辞書21に格納されている単語
検索フラグおよび単語連鎖フラグを抽出し、単語検索フ
ラグに応じて漢字1文字単語を検索するか否かを制御す
る辞書検索情報抽出部25と、漢字以外の字種の候補を含
めた単語候補抽出を制御する単語候補抽出制御部8と、
抽出された単語列について位置的に接続可能な単語列連
鎖の候補を作成する接続単語列生成部9と、生成された
接続単語列について単語に付随する単語連鎖フラグに応
じて漢字用語に包含される漢字1文字単語を含む見出し
ごとの位置的接続を許可するか否かを制御し、これらの
接続単語列を絞り込む単語列絞込み部26と、接続単語列
の各単語間の文法的接続関係を検定し単語認定列を生成
する接続検定部10とから構成されている。また、11は認
定された単語認定列結果を記録する記録装置である。
上述した実施例の方式においては、単語候補抽出部22で
の単語候補抽出時に、抽出された漢字用語単語の単語検
索フラグに応じ、該漢字用語単語に包含される漢字1文
字単語の抽出の是非を制御して効率の良い単語候補抽出
を行ない、さらに位置的接続条件による単語列候補生成
を行なった後、これらの単語列候補で漢字用語に包含さ
れる単語列について抽出された漢字用語単語の単語連鎖
フラグに応じて、該接続単語列を削除する等の絞込みを
行なうから、単語認定精度の向上および解析速度の高速
化が得られることになる。
第2図は、上記構成の解析処理システムによる単語解析
の具体的処理例(単語連鎖フラグオフの場合)を示す。
第2図に示す原文文字列12は、文節切り部3によって文
節に切られた後、日本文単語辞書21を検索して単語候補
抽出部22および単語候補抽出制御部8により、第2図に
示すような単語候補群13を抽出する。この第2図におい
て、14は漢字を含む2文字以上の単語候補、15は生成し
た接続単語列、16は単語認定が不良となった単語、17は
単語間の接続が不良となった位置であり、また、30は漢
字用語「間引き」、31,32は漢字用語「間引き」30に付
随した単語検索フラグおよび単語連鎖フラグ、33は単語
検索フラグ31がオンのために従来に追加して検索される
単語群、34は抽出された漢字1文字単語、35は漢字1文
字単語34の抽出によって新たに検索される漢字用語単
語、36は「間引き」に包含される単語列で単語連鎖フラ
グ32によって連鎖禁止となる位置、37は連鎖禁止位置36
によって絞り込まれた接続単語列、38は認定不良単語1
6、接続不良位置17によって絞り込まれた接続単語列、3
9は接続検定部10で最終的に認定された接続単語列であ
る。
上述のような処理例では、抽出された長単位の漢字用語
「間引き」に単語検索フラグ31および単語連鎖フラグ32
を予め付加しておき、単語検索フラグ31がオンのため通
常は検索されない包含1文字単語「間」について抽出を
行ない、さらに「間」の後方から通常の検索を行なって
「引き」、「引き取」を抽出する。この結果、位置的に
接続可能な接続単語列15が作成されるが、「間引き」と
「取」は品詞の接続条件から接続不可で、また「間引
き」に包含される単語列「間」と「引き」は「間引き」
の単語連鎖フラグがオフであるので、接続禁止となり、
いずれも接続単語列から削除され、かつ絞り込まれ、最
終的に正規の単語認定結果である接続単語列39が選択さ
れる。
第3図は、本発明による単語解析処理の他の例(単語連
鎖フラグオンの場合)を示すもので、40は漢字用語「後
生」、41,42は漢字用語「後生」40に付随した単語検索
フラグおよび単語連鎖フラグ、43は単語検索フラグ41が
オンのために従来に追加して検索される単語群、44は抽
出された漢字1文字単語、45は漢字1文字単語44の抽出
によって新たに検索される漢字用語単語、46は「後生」
に包含される単語列で単語連鎖フラグ42によって連鎖許
可となる位置、47は認定不良単語16、接続不良位置17に
よって絞り込まれた接続単語列、48は接続検定部で最終
的に認定された接続単語列である。
この処理例では、抽出された長単位の漢字用語「後生」
に単語検索フラグ41および単語連鎖フラグ42を予め付加
しておき、単語検索フラグ41がオンのため通常は検索さ
れない包含漢字1文字単語「後」について抽出を行な
い、さらに「後」の後方から通常の検索を行なって
「生」を抽出する。この結果、位置的に接続可能な接続
単語列15が作成され、この中で、「後生」と「ま」は品
詞の接続条件から接続不可で削除されるが、「後生」に
包含される単語列「後」と「生」は「後生」の単語連鎖
フラグがオンであるので、接続許可となり接続単語列を
生成する。このようにして、最終的に正規の単語認定結
果である接続単語列48が選択される。
従って、これらの結果から明らかなように、従来の技術
に比べ、単語の認定精度が向上し、さらに不要な漢字1
文字単語検索の排除や検定対象の接続単語列の絞込みを
行なうので、総合的な解析速度を向上させ得る。
〔発明の効果〕
以上のように、本発明によれば、単語抽出時に、単に漢
字を含む2文字以上の単語用語を優先し検索して、漢字
1文字単語の検索は漢字を含む2文字以上の漢字用語が
無い場合に行なうだけでなく、予め漢字を含む2文字以
上の漢字用語に付随して日本語辞書に格納されている単
語検索フラグに応じて、このフラグがオンならば、漢字
用語に包含される見出しの漢字1文字単語を抽出し、さ
らに文字の位置的な接続関係を用いて生成された接続単
語列の絞込みにおいて漢字用語の単語連鎖フラグに応じ
てこのフラグがオンならばこの漢字用語に包含される漢
字1文字単語を含む見出しごとの位置的な接続を許可
し、これらの接続単語列を削除しないようにした手段を
備えるものであるから、単語認定精度の向上および総合
的な解析速度の向上を図り、有効な単語解析処理を実現
できる。
【図面の簡単な説明】
第1図は本発明の基本構成例を示す全体構成図、第2図
は本発明の単語解析の基本構成例による単語解析処理例
を示す説明図、第3図は本発明の基本構成例による単語
解析処理の他の例を示す説明図、第4図は従来の単語解
析の構成図、第5図は従来の単語解析処理例を示す説明
図である。 〔主要な部分の符号の説明〕 2……入力日本文データベース 3……文節切り部 8……単語候補抽出制御部 9……接続単語列生成部 10……接続検定部 11……単語認定列結果の記録装置 20……単語解析処理システム 21……日本文単語辞書 22……単語候補抽出部 23……漢字用語単語抽出部 24……漢字1文字単語抽出部 25……辞書検索情報抽出部 26……単語列絞込み部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力された日本文文字列に対し字種の変化
    点における自立語あるいは付属語からなる文節を抽出す
    る文節切り部と、 各単語の見出し、読み、文法情報と、漢字単語の抽出に
    関する単語検索フラグおよび漢字単語の接続に関する単
    語連鎖フラグを格納する日本文単語辞書と、 各文節ごとに日本文単語辞書を用いて取り得る単語とこ
    れに付随する情報を網羅的に抽出する単語候補抽出部
    と、 前記単語候補抽出部にあって、単語候補のうち漢字の含
    む2文字以上の単語である漢字用語の候補を日本文単語
    辞書を用いて抽出する漢字用語単語抽出部と、前記漢字
    用語単語抽出部で抽出された単語に付随して予め日本語
    単語辞書に格納されている単語検索フラグおよび単語連
    鎖フラグを抽出し、単語検索フラグに応じて漢字1文字
    単語を検索するか否かを制御する辞書検索情報抽出部
    と、漢字用語以外の漢字1文字の候補を日本文単語辞書
    を用いて抽出する漢字1文字単語抽出部と、 漢字以外の字種の候補を含めた単語候補抽出を制御する
    単語候補抽出制御部と、 抽出された各単語群について文字の位置的な接続関係を
    用いて文節を形成し得る単語列の候補を作成する接続単
    語列生成部と、 生成された接続単語列につき単語に付随して日本語単語
    辞書に予め格納されている単語連鎖フラグに応じて該漢
    字用語に包含される漢字1文字単語を含む見出しごとの
    位置的な接続を許可するか否かを制御し、これらの接続
    単語列を絞り込む単語列絞込み部と、接続単語列の各単
    語間の文法的な接続関係を検定し単語認定例を生成する
    接続検定部とから成る日本文文書解析装置。
JP63030188A 1988-02-12 1988-02-12 日本文文書解析装置 Expired - Lifetime JPH0715690B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63030188A JPH0715690B2 (ja) 1988-02-12 1988-02-12 日本文文書解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63030188A JPH0715690B2 (ja) 1988-02-12 1988-02-12 日本文文書解析装置

Publications (2)

Publication Number Publication Date
JPH01205377A JPH01205377A (ja) 1989-08-17
JPH0715690B2 true JPH0715690B2 (ja) 1995-02-22

Family

ID=12296779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63030188A Expired - Lifetime JPH0715690B2 (ja) 1988-02-12 1988-02-12 日本文文書解析装置

Country Status (1)

Country Link
JP (1) JPH0715690B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5203324B2 (ja) * 2009-09-16 2013-06-05 日本電信電話株式会社 誤字脱字対応テキスト解析装置及び方法及びプログラム

Also Published As

Publication number Publication date
JPH01205377A (ja) 1989-08-17

Similar Documents

Publication Publication Date Title
JPH0797373B2 (ja) 文書フアイリングシステム
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JPH06259424A (ja) 文書表示装置及び文書要約装置並びにディジタル複写装置
JPH0715690B2 (ja) 日本文文書解析装置
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JPH06124305A (ja) 文書検索方法
JP3377942B2 (ja) 電子辞書検索装置および電子辞書検索装置制御用プログラムを記憶したコンピュータ読取可能な記憶媒体
JPH0748217B2 (ja) 文書要約装置
JP2000090193A (ja) 文字認識装置および項目分類方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
JPS62267872A (ja) 言語解析装置
JP3508312B2 (ja) キーワード抽出装置
Kiawkaew et al. A Practical Technique for Thai-English Word Mapping Using Phonetic Rules: Person Name Matching Case Study
JPH05250403A (ja) 日本文単語解析方式
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JPH04211868A (ja) Cd―romデータの検索用キーワードの作成方法
JPH0612453A (ja) 未知語抽出登録装置
Holstege et al. Visual parsing: an aid to text understanding
JPH0574867B2 (ja)
JPH03129561A (ja) インデックス作成支援装置
JPH01156869A (ja) 日本文解析処理装置
JPH01281561A (ja) 日本文訂正候補文字抽出方法
JPH05108703A (ja) 機械翻訳機
Breuel Applying the OCRopus OCR System to Scholarly Sanskrit Literature

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term