JPH06149869A - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JPH06149869A
JPH06149869A JP4296856A JP29685692A JPH06149869A JP H06149869 A JPH06149869 A JP H06149869A JP 4296856 A JP4296856 A JP 4296856A JP 29685692 A JP29685692 A JP 29685692A JP H06149869 A JPH06149869 A JP H06149869A
Authority
JP
Japan
Prior art keywords
sentence
unit
character
text
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4296856A
Other languages
English (en)
Inventor
Shigeko Akiyama
薫子 秋山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4296856A priority Critical patent/JPH06149869A/ja
Publication of JPH06149869A publication Critical patent/JPH06149869A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 特殊文字を含む文章について、特殊文字の現
れ方を考慮した、一文の認定を行い、入力文の文種(疑
問文、感嘆文など)を判定し、形態素解析結果ととも
に、判定された文の種類を、解析結果として出力する。 【構成】 入力部1により入力された英文を6の形態素
解析制御部において解析を行う前に、4の文認定部によ
り、特殊文字列の存在を考慮しながら一文の認定を行う
とともに、5の文種判定部により、文末文字を参考にし
て、文種を判定し、形態素解析結果と文種の判定結果を
7の解析結果記憶部に記憶しておき、8の出力部に於い
て出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、英語から日本語へ、な
どといった翻訳処理を行う際に行う形態素解析装置に関
するものである。
【0002】
【従来の技術】形態素解析は、入力文字列のトークン分
割を行ない、その各々のトークンの形態的な情報を出力
することが目的である。ここで、文頭、文中、文末に、
特殊文字が存在している場合、その特殊文字をどのよう
な基準でトークン分割するかがトークン分割の重要な問
題となり、トークンの分割の仕方によっては、文頭の特
殊文字と文頭単語が一つのトークンになってしまった
り、文末文字が特殊文字と混ざってしまい、文末文字の
存在が分からなくなり、文末の判定が出来なくなった
り、文の種類(疑問文であるとか、感嘆文であるといっ
た文の種類)が分からなくなってしまうことがある。
【0003】
【発明が解決しようとする課題】上記のように、一つの
トークンの形態的な情報を得るためのトークン分割にお
いて、文中に特殊文字が存在する場合には、何らかの処
理が必要になってくる。
【0004】例えば、特殊文字をまとめて一つのトーク
ンにしてしまうと文末文字の存在が分からなくなり、文
末の判定が出来なくなるだけでなく、文の種類の判断も
困難になり、この形態素解析結果を用いて翻訳処理を行
うと、文末文字を情報にして翻訳処理を進める疑問文や
感嘆文の翻訳が出来なくなる。また、文頭の特殊文字と
文頭単語の間にスペースがなかった場合に、これらの特
殊文字と文頭単語をひとまとめにして、トークン分割を
行うと、文頭の特殊文字の存在が分からなくなってしま
う。
【0005】このように英文の解析に不都合の無いよう
なトークン分割の方法を定義すること、この形態素解析
結果を用いて翻訳処理を行う際に容易に解析が行えるよ
うに、文末文字の情報より文の種類を判定し、形態素解
析結果として出力することが課題である。
【0006】
【課題を解決するための手段】上記課題を解決するため
に本発明は、入力文字列を一文単位に分割した文につい
て文の種類を判定する文種判定部と、形態素解析の解析
結果として文種判定結果を出力するように構成した。
【0007】
【作用】本発明は、文末文字、および特殊文字を用いて
文の認定を行うことにより、文末の判断が容易になり、
文の種類も簡単に推測できるようになる。また、文の種
類を出力することは、この形態素解析結果を用いて行う
翻訳処理の品質の向上、および処理の簡素化につなが
る。
【0008】
【実施例】以下、本発明の一実施例における形態素解析
装置について図面を参照しながら説明を行う。図1は、
本発明の一実施例における形態素解析装置の機能ブロッ
ク図である。同図において、1は文字列を入力する入力
部である。2は入力部1から入力された入力文字列を記
憶する入力文字列記憶部、3は単語の見出し語と形態素
情報を記憶している単語辞書部、4は入力部1より入力
された入力文字列を一文単位に分割する文認定部、5は
文認定部4にて認定された文について文の種類を判定す
る文種判定部、6は単語辞書部3を用いて形態素解析処
理を行う形態素解析制御部である。7は形態素解析制御
部6で解析された形態素解析結果と文種判定部5で判定
された文の種類を記憶する解析結果記憶部、8は解析結
果記憶部7で記憶された解析結果を出力する出力部であ
る。
【0009】上記のように構成された装置において、以
下、この装置の動作について説明する。
【0010】まず、入力部1により入力された入力文字
列を文認定部4で、一文単位に文分割を行う。文認定部
4で分割された一文に対して、文種判定部5で、文の種
類(疑問文、感嘆文、など文の種類)を判定する。文種
判定部5で判定された文体は解析結果記憶部7に記憶さ
れる。文認定部4や文種判定部5への文字列の受渡しの
処理は形態素解析制御部6が行う。文種が決定したとこ
ろで形態素解析制御部6での形態素解析処理が始まる。
形態素解析制御部6により、トークン分割されたトーク
ンで、単語辞書部3を検索する。この単語辞書部3の検
索により形態素情報を得、この形態素情報を解析結果記
憶部7に記憶させる。形態素解析処理終了後、解析結果
記憶部7に記憶された、形態素解析結果と文種を出力部
8より出力する。
【0011】以下、図2のフローチャートを参照しなが
ら一文の認定、文種の判定の仕方についての説明を行
う。
【0012】まず、ステップAで先頭のトークンおよび
次のトークン検査を行う。先頭トークンが特殊文字列
で、その次のトークンの先頭が大文字だったら、先頭の
特殊文字列は、文頭の飾り文字ということになる。文頭
の特殊文字列は、その後出てくる特殊文字列との対応関
係の検査に使用するために、ステップBにて、特殊文字
列を記憶しておく。その後、ステップCにおいて文末文
字の検索を行う。この時、文中に特殊文字が出てきた
ら、ステップBにて記憶していた特殊文字列と対応関係
を検索し、対応するものであれば記憶していた特殊文字
列を抹消し、対応しなければ、さらに、記憶しておく。
これは、特殊文字の対応関係を見るもので、特殊文字列
が記憶されているうちは、文中に特殊文字列が出てくる
度に対応関係を検索し、特殊文字列が記憶されていなけ
れば、その後出てくる特殊文字との対応関係を見るため
に記憶しておく。この処理により、ダブルクォートの対
応関係などが明らかになるとともに、どの文に含まれる
のが適当であるのかが分かる様になる。
【0013】文末文字が見つかったら、文末文字の次の
トークンの検査をステップD,Fで行う。文末文字の次
のトークンが特殊文字列で、前に出てきた特殊文字列と
対応が取れたら、その特殊文字列を含んで一文であるこ
とが認定され(ステップE)、特殊文字列と対応が取れ
なかったとき、または、次のトークンが文頭であると認
識されるときは、文末文字までが一文であると認定され
る(ステップG)。
【0014】一文の認定が行われたら、ステップHにお
いて、文末文字より文の種類を決定する。文の種類は、
文末文字が「?」で終わっていれば疑問文であるとい
え、「!」であれば感嘆文、「.」であれば平叙文であ
ることがいえる。
【0015】形態素解析において、文の種類を決定する
事についての意義は、トークン分割において、文末文字
をそれに続く特殊文字と別トークンにする処理を形態素
解析にて行うこと、この処理により、文末文字の検索は
容易になるものの、文末文字のトークンの後ろにどのく
らい多くの特殊文字列トークンが続くのかということ
は、どこの処理においても決定することはできないが、
形態素解析処理中、特に文認定処理中であれば、文末文
字を頼りに文認定を行うので、文末文字を使って容易に
文の種類を決定することが出来ることにある。
【0016】さらに、具体例を挙げて実際の処理を示
す。次のような英文に対し、文種判定の要求があったと
する。
【0017】例文1「Is this a pen?
YOU....」 この例文では、特殊文字を含んでいないので文末文字で
ある「?」が存在した時点で、一文の認定が行われる。
また、文末文字「?」より、疑問文であることがわか
る。
【0018】例文2「“How are you?”
“I am.....」 この例文の場合は、最初のトークンが特殊文字で、次の
単語は大文字から始まっている。文末文字である「?」
の後ろにも特殊文字があり、文頭の特殊文字と、文末文
字の後ろの特殊文字は、同じもので対応が取れているの
で、文末文字の後ろの特殊文字まで含んで、一文である
と認定される。文の種類は、文末文字「?」より、疑問
文となる。
【0019】例文3「I said to him,
“Did you get myletter?”
You....」 この例文は、文中と文末文字の後に特殊文字が存在して
いる。これら二つの特殊文字は対応が取れているので、
同じ文中に存在していると認識され、文末文字と特殊文
字以降の単語は、大文字で始まっているので、文末文字
の後ろの特殊文字までが一文であると認定される。この
文の種類は、文末文字の疑問文を表わす「?」である
が、特殊文字に囲まれているので、特殊文字列で囲まれ
た文が疑問文であることになり、文認定された文の文種
は、平叙文となる。
【0020】このようにして、一文は認定され、文種は
決定される。以上の動作をまとめると、まず、一文の認
定を行う。この時注目する文字は、文末の区切り文
字(.?!)と、それに続く単語頭が大文字の文字列で
ある。一文の認定を行うときには、文末の区切り文字を
検索し、この文字の次のトークンが、先頭大文字の単語
であれば、文末の区切り文字までが一文となる。もし
も、次のトークンが特殊文字であった場合には、この特
殊文字と対になる特殊文字が文頭または、文中に存在す
れば、この特殊文字までが、一文、存在しなければ、こ
の特殊文字からが次の一文となる。文を認定することに
より、特殊文字が存在した場所が明らかになり、トーク
ン分割の方法も明確になる。
【0021】文の認定が終わったら、文末文字から文の
種類を判定する。形態素解析にて文の種類を判定するこ
との意義は、文末文字の後ろに特殊文字が存在した場合
にあり、文末文字が文末にない場合(特殊文字が文末文
字の後ろにある場合)、翻訳処理中に文末の判定を行う
と、文末文字以降にどれくらいの量の特殊文字列が存在
するかがわからないので、文末文字を検索するのは、困
難になる。
【0022】次に、トークン分割を行う。一文中に特殊
文字が現れている場合には、文頭に現れる場合、文中に
現れる場合、文末に現れる場合の、3つの場合が考えら
れる。
【0023】以下に、3つの場合について、トークン分
割の方法を説明する。文頭に現れるときのトークン分割
で注意すべき点は、文頭にある飾り文字であるのか、そ
れとも文頭の単語の一部であるのかというところであ
る。これは、文頭単語の先頭文字が大文字であるか否か
によって、飾り文字なのか単語の一部であるのかの判断
がつく。よって、特殊文字が、飾り文字であると判断さ
れた場合は、特殊文字のみをまとめて一つのトークンと
し、文頭単語は別のトークンに分割する。飾り文字であ
ると判断されなかった場合には、先頭単語と一緒にまと
めて、一つのトークンとする。
【0024】文中に現れた特殊文字の場合は、前の単語
や後ろの単語との間に空白があるか無いか、また、その
特殊記号の種類によって、単語であるのか、飾り文字で
あるのかの区別がつく。飾り文字であると判断されれ
ば、特殊文字のみで一つのトークンとし、そうでなけれ
ば、前後の単語と一緒にひとまとめで一つのトークンと
する。
【0025】文末に特殊文字が現れた場合は、文末を示
す文末文字のみを一つのトークンとし、特殊文字は、文
末文字とは別のトークンとする。これは、文末文字が飾
り文字ではないので翻訳などの際に、訳出する必要が無
いからである(ここで、文末文字を特殊文字と同じトー
クンとして、トークン分割を行ったら、文末文字まで訳
出してしまうことになる。)。
【0026】上記のように、文頭、文中、文末の特殊文
字について、単語とまとめて一つのトークンとするの
か、特殊文字のみで一つのトークンにするのか区別す
る。また、文末のトークン分割の際であれば、文末文字
がわかっているので、容易に文の種類が判別できる。
【0027】
【発明の効果】以上のように、入力文の文種(疑問文、
感嘆文など)を判定し、その文種を考慮して形態素解析
を行うことにより、文末や文頭に特殊文字が存在すると
きのトークン分割が効率的に行える。また、形態素解析
結果とともに、判定された文種を、解析結果として出力
することにより、この処理結果を用いて行う翻訳処理に
おいて、翻訳処理中に文の種類の認定を行う必要もなく
なり、処理の簡素化につながる。
【図面の簡単な説明】
【図1】本発明の一実施例における形態素解析装置の機
能ブロック図
【図2】同実施例における文体判定処理の動作を表わす
フローチャート
【符号の説明】
1 入力部 2 入力文字列記憶部 3 単語辞書部 4 文認定部 5 文種判定部 6 形態素解析制御部 7 解析結果記憶部 8 出力部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】原文の文字列を入力する入力部と、前記入
    力部により入力された文字列を記憶する入力文字列記憶
    部と、単語の見出し語や形態素情報などを記憶した単語
    辞書部と、入力文字列を一文単位に分割する文認定部
    と、前記文認定部にて認定された文について文の種類を
    判定する文種判定部と、前記単語辞書部を用いて形態素
    解析の処理を行う形態素解析制御部と、形態素解析結果
    と判定された文の種類を記憶する解析結果記憶部と、形
    態素解析結果を出力する出力部とを備え、前記文認定部
    によって一文に分割された文を、前記文種判定部により
    文の種類を判定し、その文種を形態素解析結果として出
    力することを特徴とする形態素解析装置。
JP4296856A 1992-11-06 1992-11-06 形態素解析装置 Pending JPH06149869A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4296856A JPH06149869A (ja) 1992-11-06 1992-11-06 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4296856A JPH06149869A (ja) 1992-11-06 1992-11-06 形態素解析装置

Publications (1)

Publication Number Publication Date
JPH06149869A true JPH06149869A (ja) 1994-05-31

Family

ID=17839051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4296856A Pending JPH06149869A (ja) 1992-11-06 1992-11-06 形態素解析装置

Country Status (1)

Country Link
JP (1) JPH06149869A (ja)

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP2595934B2 (ja) 仮名漢字変換処理装置
JPH06149869A (ja) 形態素解析装置
JP2807236B2 (ja) 形態素解析方法
KR20020059555A (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JPH07146868A (ja) 自然言語処理装置
JPH01266670A (ja) 日本語対象文固有用語抽出処理装置
JPS6368972A (ja) 未登録語処理方式
JPH06289890A (ja) 自然言語処理装置
JPH05233689A (ja) 文書自動要約方法
JPS6172361A (ja) かな漢字変換装置
JPH05233686A (ja) 日本語処理装置
JPH09288494A (ja) 音声認識装置および音声認識方法
JP2001125907A (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JPH06186993A (ja) 音声合成装置
JPS6395570A (ja) 言語解析方式
JPH02105968A (ja) 日本文誤り自動検定・訂正方式
JPS63136264A (ja) 機械翻訳装置
JPH0695330B2 (ja) 文書作成装置
JPH03111965A (ja) 仮名漢字変換方法及び仮名漢字変換装置
JPH07262186A (ja) 形態素解析装置
JPH05128146A (ja) 英語形態素解析装置
JPS6177954A (ja) 仮名漢字変換方式
JPS59100943A (ja) かな漢字変換装置