JPH05135094A - 言語解析装置 - Google Patents

言語解析装置

Info

Publication number
JPH05135094A
JPH05135094A JP3323895A JP32389591A JPH05135094A JP H05135094 A JPH05135094 A JP H05135094A JP 3323895 A JP3323895 A JP 3323895A JP 32389591 A JP32389591 A JP 32389591A JP H05135094 A JPH05135094 A JP H05135094A
Authority
JP
Japan
Prior art keywords
field
dictionary
noun
word
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3323895A
Other languages
English (en)
Inventor
Hideo Ito
秀夫 伊東
Yoshihisa Oguro
慶久 大黒
Hiroko Hayashi
寛子 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3323895A priority Critical patent/JPH05135094A/ja
Publication of JPH05135094A publication Critical patent/JPH05135094A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 分野情報を基に分野を自動判定し、複数の分
野にまたがる文書に関しても分野情報を利用して言語解
析を行う。 【構成】 まず入力部1より原文を入力し、次に検索部
2において、単語毎にその単語の語形をキーとして分野
キーワード辞書3を検索する。検索された単語が分野キ
ーワード辞書中にある場合は、対応する分野を分野バッ
ファの持つ記憶場所に記録する。分野判定部4では、分
野バッファに記録された分野の数を集計し、最頻の分野
を求める。これを、原文の分野と判定し、出力部5から
その結果を出力する。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、言語解析装置に関し、より詳細
には、分野情報を利用する言語解析装置に関する。
【0002】
【従来技術】言語の解析(品詞や構文構造の同定等)を
行う過程において、種々の曖昧性が発生する。しかし、
システムの持つ情報(文法や辞書等。ここでは解析情報
と呼ぶ)が不十分であることが原因で、これらの曖昧性
による複数の選択枝から誤った解を選択してしまう場合
があった。そこで従来では、解析情報を分野毎に整備
し、対象文書に適した解析情報を用いることで上記問題
に対処している。
【0003】例えば、特開平3−77169号公報では
対象文書に含まれる語と辞書とのマッチングから、その
語が属する分野を判定し、その判定された分野の割合か
ら文書全体の分野を決定する。 しかし、辞書に含まれる語の全てに関して、その分
野を判定する為の情報を用意し保守管理することは、莫
大なコストがかかる問題がある。 また、従来では、分野の判定に基づいて、その分野
以外の情報を全く排除するが、対象文書が複数分野にま
たがる内容を持っていた場合には、かえって誤解析の原
因となる問題がある。また、言語解析に関して他にも以
下の問題がある。 従来では、英語名詞句の構文解析において、以下の
例のように「分詞が名詞を前置修飾場合」と「名詞補語
を持った分詞の場合」とを区別することが困難であっ
た。 例;saving machine saving(前置連体修飾の分詞)machine(主要部となる
名詞) saving(主要部となる分詞)machine(分詞の目的語)
【0004】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、低コストで管理できる分野情報を基に分野を自
動判定すること、また、複数の分野にまたがる文書に関
しても分野情報を利用して言語解析を行うこと、更に
は、英語名詞句の構文解析において、「分詞が名詞を前
置修飾場合」と「名詞補語を持った分詞の場合」とを判
定するようにした言語解析装置を提供することを目的と
してなされたものである。
【0005】
【構成】本発明は、上記目的を達成するために、(1)
原文を入力する入力手段と、分野毎に語を記憶する分野
キーワード辞書と、文中から前記分野キーワード辞書に
記憶されている語を検出する検索手段と、前記検索手段
による検出結果に基づいて当該文の属する分野を判定す
る判定手段と、該判定手段の結果を出力する出力手段と
から成ること、更には、(2)分野キーワード間の関連
性を表すパタンを記憶する分野パタン辞書を備え、前記
パタンに基づいて分野の推定を行うこと、更には、
(3)前記(2)において、前記分野パタン辞書には分
野間の排他関係を表すパタンを記憶していること、或い
は、(4)原文を入力する入力手段と、分詞に前置修飾
される名詞を予め分野毎に記憶した名詞辞書と、構文解
析を行う構文解析手段と、該構文解析の結果を出力する
出力手段とから成り、前記名詞辞書に記憶された名詞に
限って分詞の前置修飾を許すこと、更には、(5)前記
(4)において、前記名詞辞書が分詞に前置修飾される
名詞を予め文書毎に記憶することを特徴としたものであ
る。以下、本発明の実施例に基づいて説明する。
【0006】図1は、本発明による言語解析装置の一実
施例(請求項1)を説明するための構成図で、図中、1
は入力部、2は検索部、3は分野キーワード辞書、4は
分野判定部、5は出力部である。入力部1は文を入力す
るためのものである。分野キーワード辞書3は、分野キ
ーワードを記憶し、検出部2は前記分野キーワード辞書
3を検索する。分野判定部4は該検出部2の結果から分
野を判定する。判定結果は出力部5により出力される。
すなわち、分野依存性の高い語(分野キーワードと呼
ぶ)のリストを用いることで課題を解決する。
【0007】図2は、本発明による言語解析装置の動作
を説明するためのフローチャートである。図4に示す原
文“He stepped into theWhite House press room.”に
関して分野を判定する場合について説明する。まず、入
力部より原文を入力する(step1)。次に検索部におい
て単語毎の処理を行う(step2)。最後の語であるかど
うかを判断して(step3)、最後の語でなければ再び単
語毎の処理を行い、最後の語であれば分野判定を行う
(step4)。
【0008】図3(a)(b)は、図2における単語毎
の処理(図2のstep2)と分野判定(図2のstep4)の
フローチャートである。単語毎の処理が開始されると
(図3(a)step1)、単語毎にその単語の語形をキー
として分野キーワード辞書を検索する(図3(a)step
2)。分野キーワード辞書は図5に示す形式と内容であ
る。その単語が分野キーワード辞書中にある場合は、対
応する分野を分野バッファと呼ぶ図5と同等の形式を有
する記憶場所(分野判定部内)に記録し(図3(a)st
ep3)、単語毎の処理が終了する(図3(a)step
4)、分野判定部では、分野判定が開始されると(図3
(b)step1)、分野バッファに記録された分野の数を
累計し(図3(b)step2)、最頻の分野を決定する
(図3(b)step3)。これを原文の分野と判定し、出
力部からその結果を出力する(図3(b)step4)。
【0009】図6は、本発明による言語解析装置の他の
実施例(請求項2,3)を示す図で、図中、6は分野パ
タン部で、その他、図1と同じ作用をする部分は同一の
符号を付してある。分野パタン部6は分野パタンを規則
している。すなわち、分野間の関連性を表すパタンを用
いることで課題を解決する。
【0010】図7は、図6に示した言語解析装置の動作
を説明するためのフローチャートである。図3で説明し
たように、分野判定部において、原文に関する分野が判
定されたとする(判定分野と呼ぶ)(step1)。次に分
野判定部は、判定分野に関連する分野を表すパタンを用
いて、関連する分野のリストを作成する(step2)。図
8はその例として包含関係のパタンである(請求項2に
対応)。すなわち A:=B|C|D.. は、分野Aは分野B,C..を包含することを表してい
る。図では技術分野は化学、機械、電気を包含すること
等が表されている。上記パタンにより、判定分野を包含
する分野、及び判定分野が包含する分野のリストを作成
し(step3)、出力部より出力する(step4)。
【0011】言語解析において、上記分野リストを受取
り、そこに含まれる分野に関する解析情報のみを用いて
解析を行うことで、複数の分野を含む文書に関しても、
分野情報を適切に利用できる。また、上記パタンには包
含関係だけでなく、図9に示すように、排他関係(同じ
文書に出現しにくいという関係)を記述してもよい(請
求項3)。図9では、例えば「政治」と「医学」は、同
一文書に出現しにくいことを表している。これにより、
判定分野に関して排他関係にある分野のリストを作成す
る。言語解析において、判定分野に関して排他関係にあ
るリストを受取り、そこに含まれる分野に関する解析情
報を除いて解析を行うことで、複数分野を含む文書に関
しても分野情報を適切に利用できる。
【0012】図10は、本発明による言語解析装置の更
に他の実施例(請求項4,5)を示す図で、図中、11
は入力部、12は辞書、13は構文解析部、14は出力
部、15は名詞辞書である。入力部11は文を入力する
ためのものである。辞書12は語に関する情報を記憶す
る。構文解析部13で構文解析を行い、その結果を出力
部14に出力する。名詞辞書15は分詞に前置修飾され
やすい名詞を記憶する。
【0013】図11は、図10に示した言語解析装置の
動作を説明するためのフローチャートである。まず、入
力部より原文を入力する(step1)。次に、構文解析部
において構文解析を行う(step2)。次に、構文解析結
果を調べて分詞が前置修飾する名詞句の有無を調べる
(step3)。もし、そのような名詞句がある場合には、
修飾判定(その分詞の修飾が正しいかどうか)を行う
(step4)。すなわち、その名詞句の中心となる名詞
(以下の例ではmachine)を取り出し、名詞辞書を語形
と分野/文書名を基に検索する。 例;saving machine saving(前置連体修飾の分詞)machine(主要部となる
名詞) ただし、名詞辞書には、分野/文書名毎に中心名詞とな
りやすい名詞が予め記録されているとする。名詞辞書に
該当する記述がある場合は、その修飾が成立するとみな
す。ない場合には、構文解析にバックトラックして、そ
の修飾を含まない別の構文解析の結果を得る。
【0014】このように、本発明における請求項1〜3
は、分野キーワードに基づいて当該文の属する分野を判
定することを特徴とする言語解析装置に関するものであ
り、また、請求項4,5は分野毎に分詞に前置修飾され
る名詞を記憶し、その名詞に限って分詞の前置修飾を許
す英語解析装置に関するものである。
【0015】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1に対応する効果:低コストで管理できる
分野情報を基に分野を自動判定することができる。 (2)請求項2,3に対応する効果:複数の分野にまた
がる文書に関しても分野情報を利用した言語解析を行う
ことができる。 (3)請求項4,5に対応する効果:英語名詞句の構文
解析において、「分詞が名詞を前置修飾場合」と「名詞
補語を持った分詞の場合」を正しく判定できる。
【図面の簡単な説明】
【図1】 本発明による言語解析装置の一実施例を説明
するための構成図である。
【図2】 本発明による言語解析装置の動作を説明する
ためのフローチャートを示す図である。
【図3】 単語毎の処理と分野判定のフローチャートを
示す図である。
【図4】 原文を示す図である。
【図5】 分野キーワード辞書の内容を示す図である。
【図6】 本発明による言語解析装置の他の実施例を示
す図である。
【図7】 図6に示す言語解析装置の動作を説明するた
めのフローチャートを示す図である。
【図8】 分野パタン部(包含関係)を示す図である。
【図9】 分野パタン部(排他関係)を示す図である。
【図10】 本発明による言語解析装置の更に他の実施
例を示す図である。
【図11】 図10に示す言語解析装置の動作を説明す
るためのフローチャートを示す図である。
【符号の説明】
1…入力部、2…検索部、3…分野キーワード辞書、4
…分野判定部、5…出力部。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 原文を入力する入力手段と、分野毎に語
    を記憶する分野キーワード辞書と、文中から前記分野キ
    ーワード辞書に記憶されている語を検出する検索手段
    と、前記検索手段による検出結果に基づいて当該文の属
    する分野を判定する判定手段と、該判定手段の結果を出
    力する出力手段とから成ることを特徴とする言語解析装
    置。
  2. 【請求項2】 分野キーワード間の関連性を表すパタン
    を記憶する分野パタン辞書を備え、前記パタンに基づい
    て分野の推定を行うことを特徴とする請求項1記載の言
    語解析装置。
  3. 【請求項3】 前記分野パタン辞書には分野間の排他関
    係を表すパタンを記憶していることを特徴とする請求項
    2記載の言語解析装置。
  4. 【請求項4】 原文を入力する入力手段と、分詞に前置
    修飾される名詞を予め分野毎に記憶した名詞辞書と、構
    文解析を行う構文解析手段と、該構文解析の結果を出力
    する出力手段とから成り、前記名詞辞書に記憶された名
    詞に限って分詞の前置修飾を許すことを特徴とする言語
    解析装置。
  5. 【請求項5】 前記名詞辞書が分詞に前置修飾される名
    詞を予め文書毎に記憶することを特徴とする請求項4記
    載の言語解析装置。
JP3323895A 1991-11-12 1991-11-12 言語解析装置 Pending JPH05135094A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3323895A JPH05135094A (ja) 1991-11-12 1991-11-12 言語解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3323895A JPH05135094A (ja) 1991-11-12 1991-11-12 言語解析装置

Publications (1)

Publication Number Publication Date
JPH05135094A true JPH05135094A (ja) 1993-06-01

Family

ID=18159811

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3323895A Pending JPH05135094A (ja) 1991-11-12 1991-11-12 言語解析装置

Country Status (1)

Country Link
JP (1) JPH05135094A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009258887A (ja) * 2008-04-15 2009-11-05 Toshiba Corp 機械翻訳装置及び機械翻訳プログラム
JP2020531957A (ja) * 2017-08-17 2020-11-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 領域特化字句駆動型プレパーサ

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009258887A (ja) * 2008-04-15 2009-11-05 Toshiba Corp 機械翻訳装置及び機械翻訳プログラム
JP2020531957A (ja) * 2017-08-17 2020-11-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 領域特化字句駆動型プレパーサ

Similar Documents

Publication Publication Date Title
US6473729B1 (en) Word phrase translation using a phrase index
US5774845A (en) Information extraction processor
JPH07282063A (ja) 機械翻訳装置
JPH05135094A (ja) 言語解析装置
JP3135221B2 (ja) 用例主導型言語構造解析装置
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
JPH05128159A (ja) キーワード抽出方法及び装置
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JP3244286B2 (ja) 翻訳処理装置
JPH0795323B2 (ja) 自然言語処理装置
JP3222173B2 (ja) 日本語構文解析システム
JPS6368972A (ja) 未登録語処理方式
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
JPS6395570A (ja) 言語解析方式
JPH01126767A (ja) 辞書参照装置
JP2895137B2 (ja) 日本文誤り自動検出および訂正装置
JP3884001B2 (ja) 言語解析システムおよび方法
JP2608384B2 (ja) 機械翻訳装置及びその方法
JPH07200592A (ja) 文章処理装置
JPH08278973A (ja) 並列句解析装置および学習データ作成装置
JPH07219952A (ja) 日本語文章処理装置
JPH0410161A (ja) 省略補完処理装置
JPH08314934A (ja) 辞書登録システム
JPH02208775A (ja) 機械翻訳方式
JPH11259473A (ja) 機械翻訳装置及び機械翻訳方法