JP3452309B2 - 形態素解析装置、形態素解析方法、ならびに、記録媒体 - Google Patents

形態素解析装置、形態素解析方法、ならびに、記録媒体

Info

Publication number
JP3452309B2
JP3452309B2 JP2000273300A JP2000273300A JP3452309B2 JP 3452309 B2 JP3452309 B2 JP 3452309B2 JP 2000273300 A JP2000273300 A JP 2000273300A JP 2000273300 A JP2000273300 A JP 2000273300A JP 3452309 B2 JP3452309 B2 JP 3452309B2
Authority
JP
Japan
Prior art keywords
speech
morpheme
analysis
text
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000273300A
Other languages
English (en)
Other versions
JP2002082944A (ja
Inventor
貴志 尾本
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2000273300A priority Critical patent/JP3452309B2/ja
Publication of JP2002082944A publication Critical patent/JP2002082944A/ja
Application granted granted Critical
Publication of JP3452309B2 publication Critical patent/JP3452309B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、括弧文字に囲まれ
た文字列を適切に解析する形態素解析装置、形態素解析
方法、ならびに、これらを実現するプログラムを記録し
たコンピュータ読取可能な記録媒体に関する。
【0002】
【従来の技術】従来から、日本語などの文を単語ごとに
区切って、各単語の品詞を求める形態素解析の手法が研
究されている。形態素解析は、さまざまな文献を自然な
文章を用いて検索したり、要約したりするのに必要な技
術であり、その精度を高めるため、各種の提案がなされ
ている。
【0003】たとえば、形態素解析では、入力文として
「私は日本語を話します。」のような文が与えられた場
合に、以下のような結果を出力する。
【0004】・「私」は、代名詞。 ・「は」は、副助詞。 ・「日本語」は、一般名詞。 ・「を」は、格助詞。 ・「話」は、五段サ行動詞語幹。 ・「し」は、五段サ行動詞連用形語尾。 ・「ます」は、助動詞(丁寧)終止形。 ・「。」は、句点。
【0005】一般に、形態素解析では、辞書を参照して
入力文を先頭から走査し、各単語の区切りの候補を調
べ、その区切り候補の前後に現われる品詞が適切である
か調べて区切りを決定する。
【0006】上記の例では、8つの単語が得られている
が、これらの単語と品詞とは、それぞれ形態素解析用の
辞書に対応付けられて登録されている。
【0007】
【発明が解決しようとする課題】しかしながら、「彼は
拉(ら)致された。」などのように、漢字の読みが括弧
で囲まれて挿入された文が新聞や雑誌、インターネット
で配布される文献などで広く用いられている。これは、
常用漢字に含まれない漢字に対して括弧を用いて読みを
付加するためである。
【0008】これ以外にも、「彼は行か(来)ない。」
「こんにち(ばん)は。」などのように、選択的な候補
をあげる文章でも括弧は多用される。
【0009】ところが、このような文は、途中で単語の
連接関係が分断されてしまうため、従来の形態素解析の
手法では、適切な形態素解析結果が得られなかった。
【0010】このため、括弧で囲まれた文字列を含むよ
うな文であっても、適切に形態素解析したい、という要
望は大きい。
【0011】本発明の目的は、括弧文字に囲まれた文字
列を適切に解析して、正しい形態素解析結果を得るため
の手法を実現することにある。
【0012】
【課題を解決するための手段】上記目的を達成するた
め、本発明の第1の観点に係る形態素解析装置は、文入
力受付部と、除去部と、位置記憶部と、本文解析部と、
括弧内解析部と、前後取得部と、挿入部と、を備えるよ
うに構成する。
【0013】ここで、文入力受付部は、少なくとも1つ
の文字からなる文の入力を受け付ける。
【0014】一方、除去部は、前記受け付けられた文か
ら、括弧文字と、これに囲まれた文字列と、を除去した
文を、本文として生成する。
【0015】さらに、位置記憶部は、前記生成された本
文内の位置であって、前記除去された括弧文字と、これ
に囲まれた文字列と、を前記生成された文内の当該位置
に挿入すると、前記受け付けられた文となる位置を、前
記除去された括弧文字と、これに囲まれた文字列と、に
対応付けて記憶する。
【0016】そして、本文解析部は、前記生成された本
文を形態素解析して、形態素とその品詞と、の列を、本
文解析列として出力する。
【0017】一方、前後取得部は、前記出力された本文
解析列から、前記記憶された本文内の位置の前後に対応
する形態素とその品詞を取得する。
【0018】さらに、括弧内解析部は、前記取得された
形態素とその品詞から、前記削除された括弧文字に囲ま
れた文字列を形態素解析して、形態素とその品詞の列
を、括弧内解析列として出力する。
【0019】そして、挿入部は、前記出力された本文解
析列の前記記憶された本文内の位置に対応する位置に、
前記除去された括弧文字の形態素とその品詞で前記出力
された括弧内解析列を囲んだもの、を挿入して、これを
解析結果列として出力する。
【0020】また、本発明の形態素解析装置において、
前記括弧内解析部は、前記削除された括弧文字に囲まれ
た文字列を形態素解析して得られた形態素とその品詞の
列の末尾の形態素とその品詞の候補が複数得られた場
合、当該候補から、前記取得された本文内の位置の直後
に対応する形態素の品詞と連接可能な品詞のものを選択
して、これを当該末尾の形態素とその品詞として出力す
るように構成することができる。
【0021】また、本発明の形態素解析装置において、
前記括弧内解析部は、前記削除された括弧文字に囲まれ
た文字列を形態素解析して得られた形態素とその品詞の
列の先頭の形態素とその品詞の候補が複数得られた場
合、当該候補から、前記取得された本文内の位置の直前
に対応する形態素の品詞と同じ品詞のものを選択して、
これを当該先頭の形態素とその品詞として出力するよう
に構成することができる。
【0022】また、本発明の形態素解析装置において、
前記括弧内解析部は、前記削除された括弧文字に囲まれ
た文字列を形態素解析して得られた形態素とその品詞の
列の先頭の形態素とその品詞の候補が複数得られた場
合、当該候補から、前記取得された本文内の位置の直前
に対応する形態素の品詞と連接可能な品詞のものを選択
して、これを当該先頭の形態素とその品詞として出力す
るように構成することができる。
【0023】また、本発明の形態素解析装置において、
前記括弧内解析部は、当該候補に当該先頭の形態素の品
詞が前記取得された本文内の位置の前に対応する形態素
の品詞と連接可能なものがない場合、当該取得された本
文内の位置の直前よりもさらに前の位置の形態素の品詞
と連接可能なものを選択して、これを当該先頭の形態素
とその品詞として出力するように構成することができ
る。
【0024】本発明の第2の観点に係る形態素解析方法
は、文入力受付工程と、除去工程と、位置記憶工程と、
本文解析工程と、前後取得工程と、括弧内解析工程と、
挿入工程と、を備えるように構成する。
【0025】ここで、文入力受付工程では、少なくとも
1つの文字からなる文の入力を受け付ける。
【0026】一方、除去工程では、前記受け付けられた
文から、括弧文字と、これに囲まれた文字列と、を除去
した文を、本文として生成する。
【0027】さらに、位置記憶工程では、前記生成され
た本文内の位置であって、前記除去された括弧文字と、
これに囲まれた文字列と、を前記生成された文内の当該
位置に挿入すると、前記受け付けられた文となる位置
を、前記除去された括弧文字と、これに囲まれた文字列
と、に対応付けて記憶する。
【0028】そして、本文解析工程では、前記生成され
た本文を形態素解析して、形態素とその品詞と、の列
を、本文解析列として出力する。
【0029】一方、前後取得工程では、前記出力された
本文解析列から、前記記憶された本文内の位置の前後に
対応する形態素とその品詞を取得する。
【0030】さらに、括弧内解析工程では、前記取得さ
れた形態素とその品詞から、前記削除された括弧文字に
囲まれた文字列を形態素解析して、形態素とその品詞の
列を、括弧内解析列として出力する。
【0031】そして、挿入工程では、前記出力された本
文解析列の前記記憶された本文内の位置に対応する位置
に、前記除去された括弧文字の形態素とその品詞で前記
出力された括弧内解析列を囲んだもの、を挿入して、こ
れを解析結果列として出力する。
【0032】また、本発明の形態素解析方法において、
前記括弧内解析工程では、前記削除された括弧文字に囲
まれた文字列を形態素解析して得られた形態素とその品
詞の列の末尾の形態素とその品詞の候補が複数得られた
場合、当該候補から、前記取得された本文内の位置の直
後に対応する形態素の品詞と連接可能な品詞のものを選
択して、これを当該末尾の形態素とその品詞として出力
するように構成することができる。
【0033】また、本発明の形態素解析方法において、
前記括弧内解析工程では、前記削除された括弧文字に囲
まれた文字列を形態素解析して得られた形態素とその品
詞の列の先頭の形態素とその品詞の候補が複数得られた
場合、当該候補から、前記取得された本文内の位置の直
前に対応する形態素の品詞と同じ品詞のものを選択し
て、これを当該先頭の形態素とその品詞として出力する
ように構成することができる。
【0034】また、本発明の形態素解析方法において、
前記括弧内解析工程では、前記削除された括弧文字に囲
まれた文字列を形態素解析して得られた形態素とその品
詞の列の先頭の形態素とその品詞の候補が複数得られた
場合、当該候補から、前記取得された本文内の位置の直
前に対応する形態素の品詞と連接可能な品詞のものを選
択して、これを当該先頭の形態素とその品詞として出力
するように構成することができる。
【0035】また、本発明の形態素解析方法において、
前記括弧内解析工程では、当該候補に当該先頭の形態素
の品詞が前記取得された本文内の位置の前に対応する形
態素の品詞と連接可能なものがない場合、当該取得され
た本文内の位置の直前よりもさらに前の位置の形態素の
品詞と連接可能なものを選択して、これを当該先頭の形
態素とその品詞として出力するように構成することがで
きる。
【0036】本発明の第3の観点に係るコンピュータ読
取可能な記録媒体に記録されたプログラムは、コンピュ
ータを、文入力受付部、除去部、位置記憶部、本文解析
部、前後取得部、括弧内解析部、および、挿入部として
機能させるように構成する。
【0037】ここで、文入力受付部は、少なくとも1つ
の文字からなる文の入力を受け付ける。
【0038】一方、除去部は、前記受け付けられた文か
ら、括弧文字と、これに囲まれた文字列と、を除去した
文を、本文として生成する。
【0039】さらに、位置記憶部は、前記生成された本
文内の位置であって、前記除去された括弧文字と、これ
に囲まれた文字列と、を前記生成された文内の当該位置
に挿入すると、前記受け付けられた文となる位置を、前
記除去された括弧文字と、これに囲まれた文字列と、に
対応付けて記憶する。
【0040】そして、本文解析部は、前記生成された本
文を形態素解析して、形態素とその品詞と、の列を、本
文解析列として出力する。
【0041】一方、前後取得部は、前記出力された本文
解析列から、前記記憶された本文内の位置の前後に対応
する形態素とその品詞を取得する。
【0042】さらに、括弧内解析部は、前記取得された
形態素とその品詞から、前記削除された括弧文字に囲ま
れた文字列を形態素解析して、形態素とその品詞の列
を、括弧内解析列として出力する。
【0043】そして、挿入部は、前記出力された本文解
析列の前記記憶された本文内の位置に対応する位置に、
前記除去された括弧文字の形態素とその品詞で前記出力
された括弧内解析列を囲んだもの、を挿入して、これを
解析結果列として出力する。
【0044】また、本発明の記録媒体に記録された前記
プログラムは、前記コンピュータにおいて、前記括弧内
解析部は、前記削除された括弧文字に囲まれた文字列を
形態素解析して得られた形態素とその品詞の列の末尾の
形態素とその品詞の候補が複数得られた場合、当該候補
から、前記取得された本文内の位置の直後に対応する形
態素の品詞と連接可能な品詞のものを選択して、これを
当該末尾の形態素とその品詞として出力するように機能
させるように構成することができる。
【0045】また、本発明の記録媒体に記録されたプロ
グラムは、前記コンピュータにおいて、前記括弧内解析
部は、前記削除された括弧文字に囲まれた文字列を形態
素解析して得られた形態素とその品詞の列の先頭の形態
素とその品詞の候補が複数得られた場合、当該候補か
ら、前記取得された本文内の位置の直前に対応する形態
素の品詞と同じ品詞のものを選択して、これを当該先頭
の形態素とその品詞として出力するように機能させるよ
うに構成することができる。
【0046】また、本発明の記録媒体に記録されたプロ
グラムは、前記コンピュータにおいて、前記括弧内解析
部は、前記削除された括弧文字に囲まれた文字列を形態
素解析して得られた形態素とその品詞の列の先頭の形態
素とその品詞の候補が複数得られた場合、当該候補か
ら、前記取得された本文内の位置の直前に対応する形態
素の品詞と連接可能な品詞のものを選択して、これを当
該先頭の形態素とその品詞として出力するように機能さ
せるように構成することができる。
【0047】また、本発明の記録媒体に記録されたプロ
グラムは、前記コンピュータにおいて、前記括弧内解析
部は、当該候補に当該先頭の形態素の品詞が前記取得さ
れた本文内の位置の前に対応する形態素の品詞と連接可
能なものがない場合、当該取得された本文内の位置の直
前よりもさらに前の位置の形態素の品詞と連接可能なも
のを選択して、これを当該先頭の形態素とその品詞とし
て出力するように機能させるように構成することができ
る。
【0048】なお、これらの記録媒体に記録されたプロ
グラムは、コンピュータ通信網を介してあるコンピュー
タが備える記録媒体から別のコンピュータが備える記録
媒体へ転送・配布することができる。
【0049】
【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
【0050】(情報処理装置の概要構成)図1は、本発
明の形態素解析装置として機能する典型的な情報処理装
置(汎用のコンピュータ、各種端末、携帯端末、携帯電
話、ゲーム装置などの専用機器を含む)の概要構成を示
す模式図である。以下、図1を参照して説明する。
【0051】情報処理装置101は、CPU(Central
Processing Unit;中央処理ユニット)102によって
制御される。情報処理装置101に電源を投入すると、
CPU102は、ROM(Read Only Memory;読出専用
メモリ)103に記憶されたIPL(Initial Program
Loader;初期プログラムローダ)を実行する。
【0052】IPLは、ハードディスク104、FD
(Floppy(登録商標) Disk;フロッピー
(登録商標)ディスク)ドライブ110に装着されたF
D、CD−ROM(Compact Disk ROM)ドライブ111
に装着されたCD−ROMなどの記録媒体に記憶された
OS(Operating System;オペレーティング・システ
ム)プログラムを読み出して実行するプログラムであ
る。
【0053】OSを起動した後、CPU102は、キー
ボード105やマウス106などにより入力されたユー
ザの指示にしたがって、あるいは、ハードディスクなど
にあらかじめ記述された設定ファイルの内容にしたがっ
て、ハードディスクなどに記憶されたアプリケーション
プログラムを実行する。
【0054】なお、携帯端末などの小規模な情報処理装
置では、IPL自体がOSやアプリケーションプログラ
ムとしての機能を果たすような実施形態も採用すること
ができる。
【0055】CPU102は、プログラムの実行の際
に、RAM(Random Access Memory)107を一時的な
作業用記憶領域として用いる。このほか、一時的な作業
用記憶領域として、CPU102内に設けられたレジス
タやキャッシュ(図示せず)が使われる。
【0056】プログラムの実行に伴ない、ユーザに結果
を報告したり、途中経過を見せるため、CPU102
は、液晶ディスプレイやCRT(Cathode Ray Tube)な
どの表示装置108に当該情報を表示することができ
る。マウス106による指示操作では、マウス106を
移動することにより、画面に表示されたカーソルが移動
し、マウス106をクリックすることにより、カーソル
が指すメニュー項目を選択することができる。
【0057】情報処理装置101は、NIC(Network
Interface Card)やモデムなどのインターフェース10
9を介してインターネットなどのコンピュータ通信網と
通信を行うことができる。インターフェース109を介
して受信した文書データを処理の対象としたり、処理し
た結果をインターフェース109を介して送信したり、
インターフェース109を介して受信したプログラムを
実行したり、などができる。
【0058】(発明の実施の形態)図2は、本発明に係
る形態素解析装置の実施形態例の概要構成を示す模式図
である。図3は、当該形態素解析装置にて実行される形
態素解析の手順を示すフローチャートである。以下、本
図を参照して説明する。
【0059】本実施形態の形態素解析装置201は、文
入力受付部202と、除去部203と、位置記憶部20
4と、本文解析部205と、前後取得部206と、括弧
内解析部207と、挿入部208と、を備える。
【0060】ここで、文入力受付部202は、少なくと
も1つの文字からなる文の入力を受け付ける(ステップ
S301)。入力される文は、ユーザからキーボード1
05やマウス106などの入力装置を用いて行ったり、
HD104、FDD110に装着されたFD、CDD1
11に装着されたCD−ROMなどの記憶媒体から読み
出したり、インターフェース109を介してコンピュー
タ通信網から取得したりすることができる。入力された
文は、HD104やRAM107に一時的に保存され
る。
【0061】以下では、「彼は行か(来)ない。」とい
う文が受け付けられた場合を例としてとりあげて説明す
る。
【0062】ついで、除去部203は、受け付けられた
文から、括弧文字と、これに囲まれた文字列と、を除去
した文を、本文として生成する(ステップS302)。
【0063】この処理は、CPU102が一時的に保存
した入力文から本文を生成して、この本文をHD104
やRAM107に保存することにより、実行される。上
記例では、本文は「彼は行かない。」となる。
【0064】さらに、位置記憶部204は、生成された
本文内の位置であって、除去された括弧文字と、これに
囲まれた文字列と、を生成された文内の当該位置に挿入
すると、受け付けられた文となる位置を、除去された括
弧文字と、これに囲まれた文字列と、に対応付けて記憶
する(ステップS303)。
【0065】図4は、上記の例に対してこの対応付けを
RAM107内に表形式で記憶する様子を示す模式図で
ある。
【0066】表401には、除去された括弧文字の欄4
02と、これに囲まれた文字列の欄403と、本文の何
文字目(本例では0−オリジン)の後に対して挿入すれ
ばもとの文が得られるかを示す位置の欄404と、本文
が記憶されている領域に対するポインタ405と、が用
意されている。
【0067】図に示す例からは、本文「彼は行かな
い。」の3文字目の後に「(」「来」「)」を挿入すれ
ば、もとの入力文が得られることがわかる。
【0068】そして、本文解析部205は、生成された
本文を形態素解析して、形態素とその品詞と、の列を、
本文解析列として出力する(ステップS304)。
【0069】この処理は、既存の形態素解析の手法をC
PU102などに実行させることにより、実現すること
ができる。
【0070】この処理により、以下のような形態素解析
結果が得られる。 ・「彼」は、代名詞。 ・「は」は、副助詞。 ・「行」は、五段カ行動詞語幹。 ・「か」は、五段カ行動詞未然形語尾。 ・「ない」は、助動詞(打消)終止形。 ・「。」は、句点。
【0071】本文の形態素解析結果は、HDD104や
RAM107に記録される。
【0072】ついで、前後取得部206は、出力された
本文解析列から、記憶された本文内の位置の前後に対応
する形態素とその品詞を取得する(ステップS30
5)。
【0073】上記例の場合、 ・直前の位置の形態素とその品詞は、「か」(五段カ行
動詞未然形語尾)、 ・直後の位置の形態素とその品詞は、「ない」(助動詞
(打消)終止形)である。
【0074】さらに、括弧内解析部207は、取得され
た形態素とその品詞から、削除された括弧文字に囲まれ
た文字列を形態素解析して、形態素とその品詞の列を、
括弧内解析列として出力する(ステップS307)。
【0075】なお、括弧内解析部207は、以下のよう
な種々の手法を適宜利用して、括弧文字に囲まれた文字
列の形態素解析を行う。
【0076】上記例の場合、括弧内の文字列「来」をそ
のまま形態素解析辞書で参照すると、以下のような品詞
が得られる。 ・カ変動詞未然形 ・カ変動詞連用形
【0077】したがって、これのいずれかを決定するた
めに、括弧の前後の形態素の品詞との連接関係を用い
る。これには、以下のような手法がある。 (1)取得された本文内の位置の直前に対応する形態素
の品詞と同じ品詞のものを選択して、これを当該先頭の
形態素とその品詞として出力する。
【0078】上記例の場合は、「五段カ行動詞未然形語
尾」が直前の品詞であるから、これと一致するものはな
い。したがって、上記例の場合は、この手法のみでは不
十分である。なお、後述するように、この手法が有効な
例が存在する。 (2)削除された括弧文字に囲まれた文字列を形態素解
析して得られた形態素とその品詞の列の先頭の形態素と
その品詞の候補が複数得られた場合、当該候補から、取
得された本文内の位置の直前に対応する形態素の品詞と
連接可能な品詞のものを選択して、これを当該先頭の形
態素とその品詞として出力する。
【0079】上記例の場合は、「五段カ行動詞未然形語
尾」が直前の品詞であるが、これと「カ変動詞未然形」
「カ変動詞連用形」は、いずれも連接できない。したが
って、上記例の場合は、この手法のみでは不十分であ
る。なお、後述するように、この手法が有効な例が存在
する。 (3)当該候補に当該先頭の形態素の品詞が取得された
位置の前に対応する形態素の品詞と連接可能なものがな
い場合、当該取得された本文内の位置の直前よりもさら
に前の位置の形態素の品詞と連接可能なものを選択し
て、これを当該先頭の形態素とその品詞として出力す
る。
【0080】「行」(五段カ行動詞語幹)とは、いずれ
も連接できない。
【0081】「は」(副助詞)とは、いずれも連接でき
る。
【0082】このため、品詞を決定することはできな
い。したがって、上記例では、この手法のみでは不十分
である。なお、後述するように、この手法が有効な例が
存在する。
【0083】しかしながら、本手法により、括弧内の文
字列「来」は、本文中の文字列「行か」と、選択的な関
係にあるものである旨がわかる。 (4)取得された本文内の位置の直後に対応する形態素
の品詞と連接可能な品詞のものを選択して、これを当該
末尾の形態素とその品詞として出力する。
【0084】上記例の場合は、「助動詞(打消)終止
形」が直後の品詞であるから、これと連接できるものは
「カ変動詞未然形」である。したがって、括弧内の
「来」は、「カ変動詞未然形」であることがわかる。
【0085】このようにして、括弧内文字列の形態素解
析結果が得られたら、挿入部208は、出力された本文
解析列の記憶された本文内の位置に対応する位置に、除
去された括弧文字の形態素とその品詞で出力された括弧
内解析列を囲んだもの、を挿入して、これを解析結果列
として出力する(ステップS308)。
【0086】出力は、CPU102が、RAM107、
HDD104、FDD110に装着されたFD、インタ
ーフェース109を介して接続されたコンピュータ通信
網、表示装置108などに対して行う。
【0087】上記例の場合、得られる最終的な結果は、
以下のようになる。 ・「彼」は、代名詞。 ・「は」は、副助詞。 ・「行」は、五段カ行動詞語幹。 ・「か」は、五段カ行動詞未然形語尾。 ・「(」は、開き丸括弧。 ・「来」は、カ変動詞未然形。 ・「)」は、閉じ丸括弧。 ・「ない」は、助動詞(打消)終止形。 ・「。」は、句点。
【0088】(他の解析例)以下では、上記手法のいず
れかにより品詞が決定されるような他の解析例をあげ
る。 (a)入力文「運動する(体を動かす)ことが好きで
す。」について考えると、この本文は、「運動すること
が好きです。」となり、従来の形態素解析手法で容易に
形態素解析ができる。
【0089】一方、括弧内文字列「体を動かす」につい
ては、形態素解析辞書によれば、以下のような結果が得
られる。 ・「体」は、一般名詞。 ・「を」は、格助詞。 ・「動か」は、サ行五段動詞語幹。 ・「す」は、サ行五段動詞活用語尾の終止形もしくは連
体形。
【0090】「す」については、括弧の後に連接する
「こと」(形式名詞)の存在から、連体形であることが
わかる。 (b)入力文「本を読ま(ない)。」について考える。
この本文から、括弧直前の「ま」は、マ行五段動詞活用
語尾未然形であることが、「。」は、句点であること
が、それぞれわかる。
【0091】一方、括弧内については、以下の候補があ
る。 ・「な」(形容詞語幹)「い」(形容詞活用語尾終止形
もしくは連体形)。 ・「ない」(助動詞(打消)終止形もしくは連体形)。
【0092】括弧直前の連接関係から、括弧内の候補は
「ない」(助動詞(打消)終止形もしくは連体形)であ
ることがわかる。さらに、括弧直後の連接関係から、こ
れは終止形であることがわかる。 (c)入力文「彼は嗤(わら)った。」について考え
る。括弧内について「わら」にはワ行動詞語幹「嗤」
「笑」のほか、普通名詞「藁」などが得られるが、本文
内の括弧の直前の形態素「嗤」の品詞がワ行動詞語幹で
あるため、品詞としてワ行動詞語幹が選択される。 (d)入力文「そうなった(かもしれない)。」につい
て考える。本文内の括弧の直前の形態素「た」は助詞
(過去)終止形である。括弧内について形態素解析を行
うと「鴨」(普通名詞)、「かも」(副助詞)などが得
られるが、助詞(過去)終止形と連接できるのは「か
も」(副助詞)のみであるので、これが選択される。 (e)入力文「そのことを思い出せない(覚えていな
い)。」を考える。
【0093】本文の形態素解析の結果は以下のようにな
る。 ・「その」は、連体詞。 ・「こと」は、形式名詞(名詞型)。 ・「を」は、格助詞。 ・「思い出せ」は、下一段動詞語幹。 ・「ない」は、助動詞(打消)終止形。
【0094】一方、括弧内の形態素解析の結果は以下の
ようになる。 ・「覚え」は、下一段動詞語幹。 ・「て」は、接続助詞。 ・「い」は、補助動詞上一段連用形。 ・「ない」は、助動詞(打消)終止形。
【0095】この場合、「覚え」が連接可能なものを本
文の括弧直前の位置から順にさかのぼって見ていくと、
「を」(格助詞)と連接可能であることがわかる。した
がって、「を」以下に「思い出せない」「覚えていな
い」が並列的に接続される文構造であることがわかる。
【0096】
【発明の効果】以上説明したように、本発明によれば、
括弧文字に囲まれた文字列を適切に解析する形態素解析
装置、形態素解析方法、ならびに、これらを実現するプ
ログラムを記録したコンピュータ読取可能な記録媒体を
提供することができる。
【図面の簡単な説明】
【図1】本発明の形態素解析装置として機能する典型的
な情報処理装置の概要構成を示す模式図である。
【図2】本発明に係る形態素解析装置の実施形態例の概
要構成を示す模式図である。
【図3】本発明に係る形態素解析装置の実施形態例にて
実行される形態素解析の手順を示すフローチャートであ
る。
【図4】本発明の実施形態例の位置記憶部に各情報が記
憶される様子を示す模式図である。
【符号の説明】
101 情報処理装置 102 CPU 103 ROM 104 ハードディスク 105 キーボード 106 マウス 107 RAM 108 表示装置 109 インターフェース 110 FDドライブ 111 CD−ROMドライブ 201 形態素解析装置 202 文入力受付部 203 除去部 204 位置記憶部 205 本文解析部 206 前後取得部 207 括弧内解析部 208 挿入部 401 表 402 括弧文字欄 403 括弧内文字列欄 404 位置欄 405 本文へのポインタ欄

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】少なくとも1つの文字からなる文の入力を
    受け付ける文入力受付部と、 前記受け付けられた文から、括弧文字と、これに囲まれ
    た文字列と、を除去した文を、本文として生成する除去
    部と、 前記生成された本文内の位置であって、前記除去された
    括弧文字と、これに囲まれた文字列と、を前記生成され
    た文内の当該位置に挿入すると、前記受け付けられた文
    となる位置を、前記除去された括弧文字と、これに囲ま
    れた文字列と、に対応付けて記憶する位置記憶部と、 前記生成された本文を形態素解析して、形態素とその品
    詞と、の列を、本文解析列として出力する本文解析部
    と、 前記出力された本文解析列から、前記記憶された本文内
    の位置の前後に対応する形態素とその品詞を取得する前
    後取得部と、 前記取得された形態素とその品詞から、前記除去された
    括弧文字に囲まれた文字列を形態素解析して、形態素と
    その品詞の列を、括弧内解析列として出力する括弧内解
    析部と、 前記出力された本文解析列の前記記憶された本文内の位
    置に対応する位置に、前記除去された括弧文字の形態素
    とその品詞で前記出力された括弧内解析列を囲んだも
    の、を挿入して、これを解析結果列として出力する挿入
    部と、を備え、 前記括弧内解析部は、 前記除去された括弧文字に囲まれた文字列を形態素解析
    して得られた形態素とその品詞の列の末尾の形態素とそ
    の品詞の候補が複数得られた場合、当該候補から、前記
    取得された本文内の位置の直後に対応する形態素の品詞
    と連接可能な品詞のものを選択して、これを当該末尾の
    形態素とその品詞として出力することを特徴とする形態
    素解析装置。
  2. 【請求項2】 少なくとも1つの文字からなる文の入力を
    受け付ける文入力受付部と、 前記受け付けられた文から、括弧文字と、これに囲まれ
    た文字列と、を除去し た文を、本文として生成する除去
    部と、 前記生成された本文内の位置であって、前記除去された
    括弧文字と、これに囲まれた文字列と、を前記生成され
    た文内の当該位置に挿入すると、前記受け付けられた文
    となる位置を、前記除去された括弧文字と、これに囲ま
    れた文字列と、に対応付けて記憶する位置記憶部と、 前記生成された本文を形態素解析して、形態素とその品
    詞と、の列を、本文解析列として出力する本文解析部
    と、 前記出力された本文解析列から、前記記憶された本文内
    の位置の前後に対応する形態素とその品詞を取得する前
    後取得部と、 前記取得された形態素とその品詞から、前記除去された
    括弧文字に囲まれた文字列を形態素解析して、形態素と
    その品詞の列を、括弧内解析列として出力する括弧内解
    析部と、 前記出力された本文解析列の前記記憶された本文内の位
    置に対応する位置に、前記除去された括弧文字の形態素
    とその品詞で前記出力された括弧内解析列を囲んだも
    の、を挿入して、これを解析結果列として出力する挿入
    部と、 を備え、 前記括弧内解析部は、 前記除去された括弧文字に囲まれた文字列を形態素解析
    して得られた形態素とその品詞の列の先頭の形態素とそ
    の品詞の候補が複数得られた場合、当該候補から、前記
    取得された本文内の位置の直前に対応する形態素の品詞
    と同じ品詞のものを選択して、これを当該先頭の形態素
    とその品詞として出力することを特徴とする形態素解析
    装置。
  3. 【請求項3】 少なくとも1つの文字からなる文の入力を
    受け付ける文入力受付部と、 前記受け付けられた文から、括弧文字と、これに囲まれ
    た文字列と、を除去した文を、本文として生成する除去
    部と、 前記生成された本文内の位置であって、前記除去された
    括弧文字と、これに囲まれた文字列と、を前記生成され
    た文内の当該位置に挿入すると、前記受け付けられた文
    となる位置を、前記除去された括弧文字と、これに囲ま
    れた文字列と、 に対応付けて記憶する位置記憶部と、 前記生成された本文を形態素解析して、形態素とその品
    詞と、の列を、本文解析列として出力する本文解析部
    と、 前記出力された本文解析列から、前記記憶された本文内
    の位置の前後に対応する形態素とその品詞を取得する前
    後取得部と、 前記取得された形態素とその品詞から、前記除去された
    括弧文字に囲まれた文字列を形態素解析して、形態素と
    その品詞の列を、括弧内解析列として出力する括弧内解
    析部と、 前記出力された本文解析列の前記記憶された本文内の位
    置に対応する位置に、前記除去された括弧文字の形態素
    とその品詞で前記出力された括弧内解析列を囲んだも
    の、を挿入して、これを解析結果列として出力する挿入
    部と、 を備え、 前記括弧内解析部は、 前記除去された括弧文字に囲まれた文字列を形態素解析
    して得られた形態素とその品詞の列の先頭の形態素とそ
    の品詞の候補が複数得られた場合、当該候補から、前記
    取得された本文内の位置の直前に対応する形態素の品詞
    と連接可能な品詞のものを選択して、これを当該先頭の
    形態素とその品詞として出力することを特徴とする形態
    素解析装置。
  4. 【請求項4】 前記括弧内解析部は、 当該候補に当該先頭の形態素の品詞が前記取得された本
    文内の位置の前に対応する形態素の品詞と連接可能なも
    のがない場合、当該取得された本文内の位置の直前より
    もさらに前の位置の形態素の品詞と連接可能なものを選
    択して、これを当該先頭の形態素とその品詞として出力
    することを特徴とする請求項3に記載の形態素解析装
    置。
  5. 【請求項5】 文入力受付部により、 少なくとも1つの文
    字からなる文の入力を受け付ける文入力受付工程と、除去部により、 前記受け付けられた文から、括弧文字
    と、これに囲まれた文字列と、を除去した文を、本文と
    して生成する除去工程と、位置記憶部により、 前記生成された本文内の位置であっ
    て、前記除去された括弧文字と、これに囲まれた文字列
    と、を前記生成された文内の当該位置に挿入すると、前
    記受け付けられた文となる位置を、前記除去された括弧
    文字と、これに囲まれた文字列と、に対応付けて記憶す
    る位置記憶工程と、本文解析部により、 前記生成された本文を形態素解析し
    て、形態素とその品詞と、の列を、本文解析列として出
    力する本文解析工程と、前後取得部により、 前記出力された本文解析列から、前
    記記憶された本文内の位置の前後に対応する形態素とそ
    の品詞を取得する前後取得工程と、括弧内解析部により、 前記取得された形態素とその品詞
    から、前記除去された括弧文字に囲まれた文字列を形態
    素解析して、形態素とその品詞の列を、括弧内解析列と
    して出力する括弧内解析工程と、挿入部により、 前記出力された本文解析列の前記記憶さ
    れた本文内の位置に対応する位置に、前記除去された括
    弧文字の形態素とその品詞で前記出力された括弧内解析
    列を囲んだもの、を挿入して、これを解析結果列として
    出力する挿入工程と、を備え、 前記括弧内解析工程では、 前記除去された括弧文字に囲まれた文字列を形態素解析
    して得られた形態素とその品詞の列の末尾の形態素とそ
    の品詞の候補が複数得られた場合、当該候補から、前記
    取得された本文内の位置の直後に対応する形態素の品詞
    と連接可能な品詞のものを選択して、これを当該末尾の
    形態素とその品詞として出力することを特徴とする形態
    素解析方法。
  6. 【請求項6】 文入力受付部により、少なくとも1つの文
    字からなる文の入力を受け付ける文入力受付工程と、 除去部により、前記受け付けられた文から、括弧文字
    と、これに囲まれた文字列と、を除去した文を、本文と
    して生成する除去工程と、 位置記憶部により、前記生成された本文内の位置であっ
    て、前記除去された括 弧文字と、これに囲まれた文字列
    と、を前記生成された文内の当該位置に挿入すると、前
    記受け付けられた文となる位置を、前記除去された括弧
    文字と、これに囲まれた文字列と、に対応付けて記憶す
    る位置記憶工程と、 本文解析部により、前記生成された本文を形態素解析し
    て、形態素とその品詞と、の列を、本文解析列として出
    力する本文解析工程と、 前後取得部により、前記出力された本文解析列から、前
    記記憶された本文内の位置の前後に対応する形態素とそ
    の品詞を取得する前後取得工程と、 括弧内解析部により、前記取得された形態素とその品詞
    から、前記除去された括弧文字に囲まれた文字列を形態
    素解析して、形態素とその品詞の列を、括弧内解析列と
    して出力する括弧内解析工程と、 挿入部により、前記出力された本文解析列の前記記憶さ
    れた本文内の位置に対応する位置に、前記除去された括
    弧文字の形態素とその品詞で前記出力された括弧内解析
    列を囲んだもの、を挿入して、これを解析結果列として
    出力する挿入工程と、 を備え、 前記括弧内解析工程では、 前記除去された括弧文字に囲まれた文字列を形態素解析
    して得られた形態素とその品詞の列の先頭の形態素とそ
    の品詞の候補が複数得られた場合、当該候補から、前記
    取得された本文内の位置の直前に対応する形態素の品詞
    と同じ品詞のものを選択して、これを当該先頭の形態素
    とその品詞として出力することを特徴とする形態素解析
    方法。
  7. 【請求項7】 文入力受付部により、少なくとも1つの文
    字からなる文の入力を受け付ける文入力受付工程と、 除去部により、前記受け付けられた文から、括弧文字
    と、これに囲まれた文字列と、を除去した文を、本文と
    して生成する除去工程と、 位置記憶部により、前記生成された本文内の位置であっ
    て、前記除去された括弧文字と、これに囲まれた文字列
    と、を前記生成された文内の当該位置に挿入すると、前
    記受け付けられた文となる位置を、前記除去された括弧
    文字と、これに 囲まれた文字列と、に対応付けて記憶す
    る位置記憶工程と、 本文解析部により、前記生成された本文を形態素解析し
    て、形態素とその品詞と、の列を、本文解析列として出
    力する本文解析工程と、 前後取得部により、前記出力された本文解析列から、前
    記記憶された本文内の位置の前後に対応する形態素とそ
    の品詞を取得する前後取得工程と、 括弧内解析部により、前記取得された形態素とその品詞
    から、前記除去された括弧文字に囲まれた文字列を形態
    素解析して、形態素とその品詞の列を、括弧内解析列と
    して出力する括弧内解析工程と、 挿入部により、前記出力された本文解析列の前記記憶さ
    れた本文内の位置に対応する位置に、前記除去された括
    弧文字の形態素とその品詞で前記出力された括弧内解析
    列を囲んだもの、を挿入して、これを解析結果列として
    出力する挿入工程と、 を備え、 前記括弧内解析工程では、 前記除去された括弧文字に囲まれた文字列を形態素解析
    して得られた形態素とその品詞の列の先頭の形態素とそ
    の品詞の候補が複数得られた場合、当該候補から、前記
    取得された本文内の位置の直前に対応する形態素の品詞
    と連接可能な品詞のものを選択して、これを当該先頭の
    形態素とその品詞として出力することを特徴とする形態
    素解析方法。
  8. 【請求項8】 前記括弧内解析工程では、 当該候補に当該先頭の形態素の品詞が前記取得された本
    文内の位置の前に対応する形態素の品詞と連接可能なも
    のがない場合、当該取得された本文内の位置の直前より
    もさらに前の位置の形態素の品詞と連接可能なものを選
    択して、これを当該先頭の形態素とその品詞として出力
    することを特徴とする請求項7に記載の形態素解析方
    法。
  9. 【請求項9】コンピュータを、 少なくとも1つの文字からなる文の入力を受け付ける文
    入力受付部、 前記受け付けられた文から、括弧文字と、これに囲まれ
    た文字列と、を除去した文を、本文として生成する除去
    部、 前記生成された本文内の位置であって、前記除去された
    括弧文字と、これに囲まれた文字列と、を前記生成され
    た文内の当該位置に挿入すると、前記受け付けられた文
    となる位置を、前記除去された括弧文字と、これに囲ま
    れた文字列と、に対応付けて記憶する位置記憶部、 前記生成された本文を形態素解析して、形態素とその品
    詞と、の列を、本文解析列として出力する本文解析部、 前記出力された本文解析列から、前記記憶された本文内
    の位置の前後に対応する形態素とその品詞を取得する前
    後取得部、 前記取得された形態素とその品詞から、前記除去された
    括弧文字に囲まれた文字列を形態素解析して、形態素と
    その品詞の列を、括弧内解析列として出力する括弧内解
    析部、および、 前記出力された本文解析列の前記記憶された本文内の位
    置に対応する位置に、前記除去された括弧文字の形態素
    とその品詞で前記出力された括弧内解析列を囲んだも
    の、を挿入して、これを解析結果列として出力する挿入
    として機能させるプログラムを記録したコンピュータ
    読取可能な記録媒体であって、 前記プログラムは、前記コンピュータにおいて、 前記括弧内解析部が、前記除去された括弧文字に囲まれ
    た文字列を形態素解析して得られた形態素とその品詞の
    列の末尾の形態素とその品詞の候補が複数得られた場
    合、当該候補から、前記取得された本文内の位置の直後
    に対応する形態素の品詞と連接可能な品詞のものを選択
    して、これを当該末尾の形態素とその品詞として出力す
    るように機能させることを特徴とする記録媒体。
  10. 【請求項10】コンピュータを、 少なくとも1つの文字からなる文の入力を受け付ける文
    入力受付部、 前記受け付けられた文から、括弧文字と、これに囲まれ
    た文字列と、を除去した文を、本文として生成する除去
    部、 前記生成された本文内の位置であって、前記除去された
    括弧文字と、これに囲まれた文字列と、を前記生成され
    た文内の当該位置に挿入すると、前記受け付けられた文
    となる位置を、前記除去された括弧文字と、これに囲ま
    れた文字列と、に対応付けて記憶する位置記憶部、 前記生成された本文を形態素解析して、形態素とその品
    詞と、の列を、本文解析列として出力する本文解析部、 前記出力された本文解析列から、前記記憶された本文内
    の位置の前後に対応する形態素とその品詞を取得する前
    後取得部、 前記取得された形態素とその品詞から、前記除去された
    括弧文字に囲まれた文字列を形態素解析して、形態素と
    その品詞の列を、括弧内解析列として出力する括弧内解
    析部、および、 前記出力された本文解析列の前記記憶された本文内の位
    置に対応する位置に、前記除去された括弧文字の形態素
    とその品詞で前記出力された括弧内解析列を囲んだも
    の、を挿入して、これを解析結果列として出力する挿入
    として機能させるプログラムを記録したコンピュータ
    読取可能な記録媒体であって、 前記プログラムは、前記コンピュータにおいて、 前記括弧内解析部が、前記除去された括弧文字に囲まれ
    た文字列を形態素解析して得られた形態素とその品詞の
    列の先頭の形態素とその品詞の候補が複数得られた場
    合、当該候補から、前記取得された本文内の位置の直前
    に対応する形態素の品詞と同じ品詞のものを選択して、
    これを当該先頭の形態素とその品詞として出力するよう
    に機能させることを特徴とする記録媒体。
  11. 【請求項11】コンピュータを、 少なくとも1つの文字からなる文の入力を受け付ける文
    入力受付部、 前記受け付けられた文から、括弧文字と、これに囲まれ
    た文字列と、を除去した文を、本文として生成する除去
    部、 前記生成された本文内の位置であって、前記除去された
    括弧文字と、これに囲まれた文字列と、を前記生成され
    た文内の当該位置に挿入すると、前記受け付けられた文
    となる位置を、前記除去された括弧文字と、これに囲ま
    れた文字列と、に対応付けて記憶する位置記憶部、 前記生成された本文を形態素解析して、形態素とその品
    詞と、の列を、本文解析列として出力する本文解析部、 前記出力された本文解析列から、前記記憶された本文内
    の位置の前後に対応する形態素とその品詞を取得する前
    後取得部、 前記取得された形態素とその品詞から、前記除去された
    括弧文字に囲まれた文字列を形態素解析して、形態素と
    その品詞の列を、括弧内解析列として出力する括弧内解
    析部、および、 前記出力された本文解析列の前記記憶された本文内の位
    置に対応する位置に、前記除去された括弧文字の形態素
    とその品詞で前記出力された括弧内解析列を囲んだも
    の、を挿入して、これを解析結果列として出力する挿入
    として機能させるプログラムを記録したコンピュータ
    読取可能な記録媒体であって、 前記プログラムは、前記コンピュータにおいて、 前記括弧内解析部が、前記除去された括弧文字に囲まれ
    た文字列を形態素解析して得られた形態素とその品詞の
    列の先頭の形態素とその品詞の候補が複数得られた場
    合、当該候補から、前記取得された本文内の位置の直前
    に対応する形態素の品詞と連接可能な品詞のものを選択
    して、これを当該先頭の形態素とその品詞として出力す
    るように機能させることを特徴とする記録媒体。
  12. 【請求項12】請求項11に記載のプログラムを記録し
    たコンピュータ読取可能な記録媒体であって、 前記プログラムは、前記コンピュータにおいて、 前記括弧内解析部が、当該候補に当該先頭の形態素の品
    詞が前記取得された本文内の位置の前に対応する形態素
    の品詞と連接可能なものがない場合、当該取得された本
    文内の位置の直前よりもさらに前の位置の形態素の品詞
    と連接可能なものを選択して、これを当該先頭の形態素
    とその品詞として出力するように機能させることを特徴
    とする記録媒体
JP2000273300A 2000-09-08 2000-09-08 形態素解析装置、形態素解析方法、ならびに、記録媒体 Expired - Fee Related JP3452309B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000273300A JP3452309B2 (ja) 2000-09-08 2000-09-08 形態素解析装置、形態素解析方法、ならびに、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000273300A JP3452309B2 (ja) 2000-09-08 2000-09-08 形態素解析装置、形態素解析方法、ならびに、記録媒体

Publications (2)

Publication Number Publication Date
JP2002082944A JP2002082944A (ja) 2002-03-22
JP3452309B2 true JP3452309B2 (ja) 2003-09-29

Family

ID=18759269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000273300A Expired - Fee Related JP3452309B2 (ja) 2000-09-08 2000-09-08 形態素解析装置、形態素解析方法、ならびに、記録媒体

Country Status (1)

Country Link
JP (1) JP3452309B2 (ja)

Also Published As

Publication number Publication date
JP2002082944A (ja) 2002-03-22

Similar Documents

Publication Publication Date Title
US8726148B1 (en) Method and apparatus for processing text and character data
JP3220560B2 (ja) 機械翻訳装置
EP0797155A2 (en) Translating machine
JP2005092849A (ja) ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置及び方法並びにそのコンピュータ読み取り可能な記録媒体
JPS6231467A (ja) 文章作成装置
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
JP2004246440A (ja) 形態素解析装置、自然言語処理装置、形態素解析方法及びプログラム
JPH0344764A (ja) 機械翻訳装置
JP3452309B2 (ja) 形態素解析装置、形態素解析方法、ならびに、記録媒体
JP2001209638A (ja) 情報処理装置及び方法並びにこれに利用される記憶媒体
JP5621145B2 (ja) 文書チェック装置、文書チェックプログラムおよび文書チェック方法
JP7223450B2 (ja) 自動翻訳装置及び自動翻訳プログラム
JPH0474259A (ja) 文書要約装置
JP3628565B2 (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JP2715419B2 (ja) 翻訳装置
JP3058511B2 (ja) 中国語文解析方法および中国語文解析装置
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体
JP2007164278A (ja) 日本語処理装置、日本語処理方法及び日本語処理用プログラム
JP2008071001A (ja) 自然言語処理装置、およびプログラム
JP3995186B2 (ja) 構文解析装置
JPH07200605A (ja) 翻訳装置
JP6598241B2 (ja) 自動翻訳装置及び自動翻訳プログラム
JPH05290030A (ja) 文書処理装置
JP3353873B2 (ja) 機械翻訳装置
JP2004310170A (ja) 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees