JPH01236361A - 日本語文章処理方式 - Google Patents

日本語文章処理方式

Info

Publication number
JPH01236361A
JPH01236361A JP63064340A JP6434088A JPH01236361A JP H01236361 A JPH01236361 A JP H01236361A JP 63064340 A JP63064340 A JP 63064340A JP 6434088 A JP6434088 A JP 6434088A JP H01236361 A JPH01236361 A JP H01236361A
Authority
JP
Japan
Prior art keywords
japanese
morpheme
dictionary
passive
reru
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63064340A
Other languages
English (en)
Inventor
Koji Morino
幸司 森野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63064340A priority Critical patent/JPH01236361A/ja
Publication of JPH01236361A publication Critical patent/JPH01236361A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 助動詞「れる」・「られる」が用いられた日本語文の形
態素解析に関し9 助動詞「れる」・ 「られる」の機能を受身または尊敬
のどちらか一方に決定するように解析することを可能に
することを目的とし。
日本語入力文に、それが属する文書の種類を表す文書種
別情報を持たせ3日本語辞書に、助動詞「れる」・「ら
れる」に受身および尊敬の機能情報を個別に設定し、形
態素解析部は9日本語辞書を検索して日本語入力文中の
助動詞「れる」 ・「られる」を受身の機能情報を持っ
た形態素候補および尊敬の機能情報を持った形態素候補
に解析する第1の形態素解析処理と、第1の形態素解析
処理の結果について2日本語入力文が持っている文書種
別情報を参照して、助動詞「れる」・「られる」の2つ
の形態素候補のうち、受身および尊敬の機能情報のうち
の一方を有する形態素に決定する第2の形態素解析処理
を行うように構成する。
〔産業上の利用分野〕
本発明は2日本語文章処理力式、特に助動詞「れる」・
「られる」が用いられた日本語文の形態素解析に関する
機械翻訳の前処理として行われる日本語文章処理におい
て、構文解析や意味解析の前段階として。
形態素解析が行われる。
形態素解析とは、数・性・特称・人称などの範祷にした
がって、また、格などにしたがって文章を構成する語の
多様な形態を同定し、さらに、その語の構造、すなわち
、その語基やそれと結合している形態素を抽出すること
により、それらの語がどのように構成されているかを解
析することである。いいかえると2文字列として与えら
れた文から形態の列を同定し、これらから形態素の列を
抽出することである。
この形態素解析は辞書を検索しながら行われ。
日本語文章処理において4重要な役割を果たしている。
〔従来の技術〕
第3図は、従来例を示す図である。
第3図において、31は日本語辞書、32は形態素解析
部である。
日本語辞書31は、各単語をレコードとして持っている
。各レコードは、見出し語および意味属性9文法属性な
どの属性情報から構成されている。
形態素解析部32は、入力文から形態の列を同定し、こ
れらから形態素の列を抽出する。
以下、第3図を用いて、従来の形態素解析を説明する。
まず、「博士は9手紙を送られた。」という文が入力さ
れたものとする。
形態素解析部32は1日本語辞書31を検索して入力文
を形態素に解析する。すなわち、「博士は9手紙を送ら
れた。」という入力文を「博士」。
「は」、「手紙」、「を」、「送ら」、「れ」および「
た」という形態素に解析する。各形態素には日本語辞書
31に登録されている各種の属性を持たせる。この例の
場合、「博士」には名詞であるという文法属性を持たせ
、「は」には助詞であるという文法属性を持たせ、「手
紙」には名詞であるという文法属性を持たせ、「を」に
は助詞であるという文法属性を持たせ、「送ら」には動
詞であるという文法属性を持たせ、「れ」には助動詞で
あるという文法属性を持たせ、「た」には活用語尾であ
るという文法属性を持たせる。また。
各形態素には、その意味属性も持たせる。
形態素解析部32における解析結果は、′構文解析、意
味解析などに利用される。
〔発明が解決しようとする課題〕
助動詞「れる」・「られる」には、受身・可能・尊敬・
自発の4種類の機能がある。
このうち、受身と尊敬とは2次の例に示すように表記の
上では区別ができない。
例) 受身:彼は2足を踏ま起た。
尊敬:博士は、彼の足を踏ま芥た。
この例のように、助動詞「れる」は、受身の意味で用い
る場合も尊敬の意味で用いる場合も、共に接続情報およ
び動詞の格変化からなる表層の構造が同しである。
従来の形態素解析では、助動詞「れる」・「られる」は
受身の機能にしか解析することができず。
尊敬の機能に解析することができないという問題があっ
た。
本発明は、助動詞「れる」・ 「られる」の機能を受身
または尊敬のどちらか一方に決定するように解析するこ
とを可能にした1日本語文の形態素解析を行うことので
きる日本語文章処理方式を提供することを目的とする。
〔課題を解決するための手段〕
上記目的を達成するために2本発明の日本語文章処理方
式は1日本語辞書を検索して日本語入力文を形態素に解
析する形態素解析部により、助動詞「れる」・「られる
」を有する日本語入力文を形態素に解析する日本語文章
処理方式において。
日本語入力文に、それが属する文書の種類を表す文書種
別情報を持たせ3日本語辞書に、助動詞「れる」・「ら
れる」に受身および尊敬の機能情報を個別に設定し、形
態素解析部は2日本語辞書を検索して日本語入力文中の
助動詞「れる」・「られる」を受身の機能情報を持った
形態素候補および尊敬の機能情報を持った形態素候補に
解析する第1の形態素解析処理と、第1の形態素解析処
理の結果について5日本語入力文が持っている文書種別
情報を参照して、助動詞「れる」・「られる」の2つの
形態素候補のうち、受身および尊敬の機能情報のうちの
一方を有する形態素に決定する第2の形態素解析処理を
行うように構成する。
第1図は1本発明の原理説明図である。
第1図において、1は日本語辞書、2は形態素解析部で
ある。
日本語辞書1には、助動詞「れる」・「られる」に受身
および尊敬の機能情報が個別に設定しである。
形態素解析部2は、入力文を2段階に分けて形態素に解
析する。
〔作用〕
第1図を用いて1本発明の詳細な説明する。
日本語辞書1は、「れる」・「られる」に助動詞である
という旨の情報と共に受身または尊敬の機能を有する旨
の情報を有している。そして2助動詞−受身には、助動
詞−尊敬よりも高い優先度が与えられている。
次に1本発明による形態素解析の手順を具体例を用いて
説明する。
まず、「博士は9手紙を送られた。」という文が入力さ
れたものとする。そして、この文は手紙の中で書かれた
ものとする。そうすると2文書種別−手紙文となる。
本発明の形態素解析は、2段階に分けて行われる。
入力文は、形態素解析部2の第1の形態素解析処理にお
いて1日本語辞書lを検索して各形態素に解析される。
すなわち、「博士」 「は」 「手紙j 「を」「送ら
」 「れ」 「た」というように解析される。
これらの形態素には9次のように文法属性が持たされる
「博士」=文法属性(名詞) 「はj=文法属性(助詞) 「手紙」−文法属性(名詞) 「を」−文法属性(助詞) 「送ら」−文法属性(動詞) 「れ」=文法属性(助動詞−受身) 「れ」−文法属性(助動詞−尊敬) 「た」−文法属性(活用語尾) 特に、「れ」は、助動詞であるという文法属性の中に受
身および尊敬を表す機能情報を有するものが両方とも形
態素候補としてリストアンプされている。そして、助動
詞−受身という文法属性を持つ形態素は、助動詞−尊敬
という文法属性を持つ形態素よりも優先度が高い。した
がって、助動詞「れ」は、iJl常、受身の意味を有す
るものとして解析される。
第1の形態素解析処理における解析結果は、第2の形態
素解析処理へ送られる。
第2の形態素解析処理では、助動詞「れ」の形態素候補
、「れ」−文法属性(助動詞−受身)および「れ」=文
法属性(助動詞−尊敬)のうちどちらか一方に決定する
。その際に9文書種別情報を参照する。この例の場合7
文書種別−手紙文であるから9丁寧な言い回しを用いる
確率が大きいので、形態素候補「れ」=文法属性(助動
詞−尊敬)の優先度を形態素候補「れ」=文法属性(助
動詞−受身)よりも高め、結果として、「れJ=文法属
性(助動詞−尊敬)を形態素として決定する。
文書種別が手紙文以外の場合9例えば、 Iii告書。
手引書、新開記事などの場合には2丁寧な言い回しを用
いる確率は小さいので、形態素候補「れ」=文法属性(
助動詞−受身)の優先度は9日本語辞書lに設定されて
いる通り、形態素候補「れ」=文法属性(助動詞−尊敬
)よりも高い。したがって、「れ」は受身の意味で使わ
れているものと解析される。
第2の形態素解析処理の結果出力は、構文解析。
意味解析などに利用される。
〔実施例〕
第2図は1本発明の1実施例構成図である。
本実施例は9本発明を日本語−英語機械翻訳システムに
適用した例である。
第2図において、201は入力部、202は日本語解析
部、203は形態素解析部、204は構文解析部、20
5は意味解析部、206は文脈解析部、207は日本語
単語辞書、208は日本語活用形辞書、209は日本語
接続関係辞書、210は日本語構文辞書、211は日本
語草語意味辞1.212は日本語慣用表現辞書、213
は内部表現変換部、214は構造変換辞書、215は訳
文生成部、216は訳語選択部、217は文構造選択部
、218は単語列生成部、219は形態素合成部、22
0は英語単語意味辞書、221は英語構文辞書、222
は英語単語辞書、223は英語慣用表現辞書、224は
英語形態素辞書、225は出力部である。
入力部201は、翻訳すべき日本語文を入力する部分で
あり、入力文が属する文書の種別情報も入力する。
日本語解析部202は、形態素解析部203゜構文解析
部204.意味解析部205および文脈解析部206か
らなる。
形態素解析部203は2日本語単語辞書207゜日本語
活用形辞書208および日本語接続関係辞書209を検
索して、入力文を形態素に解析する。
構文解析部204は、形態素解析部203において解析
された形態素を基に2日本語構文辞書210、日本語単
語意味辞書211および日本語慣用表現辞書212を検
索して、入力文の構造を求める。
意味解析部205は、構文解析部204における解析結
果を基に1日本語構文辞書2109日本語単語意味辞書
211および日本語慣用表現辞書212を検索して、入
力文の意味構造を抽出する。
文脈解析部206は、入力された文と文との接続関係を
求める。
日本語単語辞書207には9日本語の単語の品詞が登録
されている。
日本語活用形辞書208には1日本語の単語の活用形が
登録されている。
日本語接続関係辞書209には9日本語の単語が前後の
単語とどのように接続することが可能であるかという接
続関係が登録されている。
日本語構文辞書210には5日本語の構文情報が登録さ
れている。
日本語単語意味辞書211には2日本語の単語の意味が
登録されている。
日本語慣用表現辞書212には、「おはよう」「こんに
ちは」などの日本語の慣用表現が登録されている。
内部表現変換部213は1日本語解析部202において
入力された日本語文を解析した結果得られた1日本語特
有の構造をした内部表現を、構造変換辞書214を用い
て、英語に適した構造の内部表現に変換する。
構造変換辞書214には1日本語特有の構造をした内部
表現を英語に適した構造の内部表現に変換するための規
則が登録されている。
訳文生成部215は、訳語選択部2169文構造選択部
217.jliL語列生成部218および形態素合成部
219からなる。
訳語選択部216は、内部表現変換部213において変
換された英語に適した構造の内部表現の各構成要素に、
英語単語意味辞書220を用いて。
英語の訳語を付与する。
文構造選択部217は、訳語選択部216において英語
の訳語を付与された。英語に適した内部表現に、英語構
文辞書221を検索して英語の構文構造をあてはめる。
単語列生成部218は1文構造選択部217において選
択された英語の文構造に、英語単語辞書222および英
語慣用表現辞書を検索して英語の単語をあてはめて英語
の単語列を生成する。
形態素合成部219は、単語列生成部218において生
成された英語の単語列を、英語形態素辞書224を検索
して、単語語間の接続関係などから並べ換え、英語の訳
文を生成する。
英語単語意味辞書220には、英語の単語およびその意
味が登録されている。
英語構文辞書221には、英語の構文情報が登録されて
いる。
英語単語辞書222は、英語の単語およびその活用形な
どが登録されている。
英語慣用表現辞書223には、に00d mornin
gなどの英語の慣用表現が登録されている。
英語形態素辞書224には、英語の単語の文法情報など
が登録されている。
出力部225は、英語の訳文を出力する部分である。
以下、第2図に示した日本語−英語機械翻訳システムの
動作を説明する。
対話型機械翻訳の場合、入力部201および出力部22
5はキーボードおよびデイスプレィからなり、翻訳すべ
き日本語文はキーボードから1文ずつ入力し、翻訳結果
はデイスプレィ画面上に表示される。また、−括機械翻
訳の場合には9人力部201および出力部225はキー
ボードおよびプリンタからなり、翻訳すべき日本語文は
文章として入力ファイルに格納しておき、翻訳結果はプ
リンタにより印刷される。
日本語−英語機械翻訳は、入力された日本語文の解析−
内部表現の変換−訳文の生成、という順序で行われる。
入力された日本語文の解析は日本語解析部202で行わ
れ、内部表現の変換は内部表現変換部213で行われ、
訳文の生成は訳文生成部215で行われる。
以下に順をおって説明する。
まず、翻訳すべき日本語文を入力部201へ人力する。
この時、その日本語文が属する文書の種別情報も同時に
入力する。
入力文は、形態素解析部203へ送られる。
形態素解析部203は、2段階に分けて形態素解析処理
を行う。
第1の形態素解析処理では1日本語単語辞書207を検
索して入力文を各形態素に解析する。各形態素は1文法
属性などの各種の属性が持たされる。
この時9日本語単語辞書207には、助動詞「れる」・
「られる」に、受身および尊敬の意味で用いる旨の機能
情報を持つ2個ずつの形態素候補が登録されているので
、「れる」・「られる」は、2個ずつの形態素候補に解
析する。この関係は1次のように示すことができる。
「れる」−文法属性(助動詞−受身) 「れる」−文法属性(助動詞−尊敬) 「られる」=文法属性(助動詞−受身)「られる」−文
法属性(助動詞−尊敬)ここで、助動詞−受身という文
法属性を持つ形態素は、助動詞−尊敬という文法属性を
持つ形態素よりも優先度を高く設定しである。したがっ
て。
「れる」・ 「られる」は1通常、受身の意味を有する
ものとして解析される。
第2の形態素解析処理では、「れる」・「られる」の文
法属性(助動詞−受身)を持つ形態素候補および文法属
性(助動詞−尊敬)を持つ形態素候補のうちどちらか一
方に決定する。
この決定の際に1文書種別情報を参照する。すなわち9
文書種別が手紙文などの場合には1丁寧な言い回しを用
いる確率が大きいので、優先度を変更して1文法属性(
助動詞−尊敬)を持つ形態素候補を形態素として決定す
る。また3文書種別が報告書1手引書、新聞記事などの
場合には1丁寧な言い回しを用いる確率は小さいので1
日本語単語辞8207に設定されている優先変通りに。
文法属性(助動詞−受身)を持つ形態素候補を形態素と
して決定する。
形態素解析部203での解析結果は、構文解析部204
へ送られる。
構文解析部204は9日本語構文辞書21o。
日本語単語意味辞書211および日本語慣用表現辞52
12を検索して、入力文の構造を求める。
構文解析部204での解析結果は、意味解析部205へ
送られる。
意味解析部205は2日本語構文辞書21o。
日本語単語意味辞書211および日本語慣用表現辞書2
12を検索して、入力文の意味構造を抽出する。
意味解析部205での解析結果は9文脈解析部206へ
送られる。
文脈解析部206は、入力された文と文との接続関係を
求める。
文脈解析部206での解析結果は、内部表現変換部21
3へ送られる。
内部表現変換部213は3日本語解析部202において
入力された日本語文を解析した結果得られた1日本語特
有の構造をした内部表現を、構造変換辞書214を用い
て、英語に適した構造の内部表現に変換する。
内部表現変換部213での変換結果は、訳語選択部21
6へ送られる。
訳語選択部216は、英語に適した構造の内部表現の各
構成要素に、英語単語意味辞書220を用いて、英語の
訳語を付与する。
訳語選択部216での処理結果は1文構造選択部217
へ送られる。
文構造選択部217は、英語に適した内部表現に、英語
構文辞書221を検索して英語の構文構造をあてはめる
文構造選択部217での処理結果は、単語列生成部21
8へ送られる。
単語列生成部218は、英語単語辞書222および英語
慣用表現辞書を検索して英語の単語をあてはめて英語の
単語列を生成する。
単語列生成部218での処理結果は、形態素合成部21
9へ送られる。
形態素合成部219は、英語形態素辞書224を検索し
て、単語語間の接続関係などから英語の訳文を生成する
形態素合成部219で生成された英語の訳文は出力部2
25へ出力される。
〔発明の効果〕
本発明によれば、助動詞「れる」・「られる」の機能を
受身または尊敬のどちらが一方に決定するように解析す
ることが可能になる。
特に、助動詞「れる」・「られる」は、従来の方式では
、受身の意味にしか解析することができなかったが、尊
敬の意味にも解析することができるようになる。
【図面の簡単な説明】
第1図は本発明の原理説明図、第2図は本発明の1実施
例構成図、第3図は従来例を示す図である。 第1図において に日本へ辞書 2:形聾素解析部 結果出力 本発明の原理説明図 第1図

Claims (1)

  1. 【特許請求の範囲】 日本語辞書(1)を検索して日本語入力文を形態素に解
    析する形態素解析部(2)により、助動詞「れる」・「
    られる」を有する日本語入力文を形態素に解析する日本
    語文章処理方式において、日本語入力文に、それが属す
    る文書の種類を表す文書種別情報を持たせ、日本語辞書
    (1)に、助動詞「れる」・「られる」に受身および尊
    敬の機能情報を個別に設定し、形態素解析部(2)は、
    日本語辞書(1)を検索して日本語入力文中の助動詞「
    れる」・「られる」を受身の機能情報を持った形態素候
    補および尊敬の機能情報を持った形態素候補に解析する
    第1の形態素解析処理と、 第1の形態素解析処理の結果について、日本語入力文が
    持っている文書種別情報を参照して、助動詞「れる」・
    「られる」の2つの形態素候補のうち、受身および尊敬
    の機能情報のうちの一方を有する形態素に決定する第2
    の形態素解析処理を行うことを特徴とする日本語文章処
    理方式。
JP63064340A 1988-03-17 1988-03-17 日本語文章処理方式 Pending JPH01236361A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63064340A JPH01236361A (ja) 1988-03-17 1988-03-17 日本語文章処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63064340A JPH01236361A (ja) 1988-03-17 1988-03-17 日本語文章処理方式

Publications (1)

Publication Number Publication Date
JPH01236361A true JPH01236361A (ja) 1989-09-21

Family

ID=13255416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63064340A Pending JPH01236361A (ja) 1988-03-17 1988-03-17 日本語文章処理方式

Country Status (1)

Country Link
JP (1) JPH01236361A (ja)

Similar Documents

Publication Publication Date Title
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US6278967B1 (en) Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
JPS62163173A (ja) 機械翻訳方法
JP2007122525A (ja) 言い換え処理方法及び装置
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
JPH01236361A (ja) 日本語文章処理方式
JP2002278963A (ja) 事例翻訳装置
JPH0561902A (ja) 機械翻訳システム
JP2947554B2 (ja) 機械翻訳装置
JP2654533B2 (ja) データベース日本語表記候補生成方式
Chaudhary et al. A Study of Transliteration Approaches
JP3388393B2 (ja) データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置
JPH03229367A (ja) テキストベース検索方式
JPH0320866A (ja) テキストベース検索方式
JP2819766B2 (ja) 外国語電子辞書検索方式
JP3313810B2 (ja) アスペクト処理装置
JPH1125089A (ja) 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH09319746A (ja) 文書解析方法および装置
JPH03240876A (ja) 機械翻訳装置
JPH09160929A (ja) 文書処理装置及び方法
JPH01236360A (ja) 日本語文章処理方式
Yindeemak Computer processing with Thai text: Keyword in context indexing
JPH086950A (ja) キーワード翻訳機能付き機械翻訳装置
JPH02140869A (ja) 文章の構造解析方法