JP3380077B2 - 形態素解析装置 - Google Patents
形態素解析装置Info
- Publication number
- JP3380077B2 JP3380077B2 JP00495595A JP495595A JP3380077B2 JP 3380077 B2 JP3380077 B2 JP 3380077B2 JP 00495595 A JP00495595 A JP 00495595A JP 495595 A JP495595 A JP 495595A JP 3380077 B2 JP3380077 B2 JP 3380077B2
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- dictionary
- character string
- connection table
- analysis result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【0001】
【産業上の利用分野】本発明は、自然言語文を自動的に
形態素解析する形態素解析装置に関するものであり、例
えば機械翻訳装置等の自然言語処理装置に適用し得るも
のである。
形態素解析する形態素解析装置に関するものであり、例
えば機械翻訳装置等の自然言語処理装置に適用し得るも
のである。
【0002】
【従来の技術】日本語文等の自然言語文を処理する装置
(例えば機械翻訳装置や質疑応答装置やコンピュータ援
用の教育装置等)においては、自然言語文に対して最初
に形態素解析を行なう。
(例えば機械翻訳装置や質疑応答装置やコンピュータ援
用の教育装置等)においては、自然言語文に対して最初
に形態素解析を行なう。
【0003】従来、このような形態素解析を行なう日本
語文用の形態素解析装置として、形態素解析部(形態素
解析プログラム部)と、日本語辞書と、活用語尾テーブ
ルと、(品詞別)接続テーブルとから構成されているも
のがある(文献1『特公平5−52543号公報』)。
この形態素解析装置においては、形態素解析部が、入力
文の未処理部分をその先頭側から取出し、日本語辞書を
参照して一致する単語(群)を検索し、その際に用言が
でてきた場合には活用語尾テーブルを引いて活用語尾を
付加する。そして、求めた単語が、直前に求めた単語と
接続可能なものか否かを接続テーブルを参照して決定
し、可能であればその単語を形態素として出力し、不可
能であれば他の単語候補文字に対して判断をし直す。
語文用の形態素解析装置として、形態素解析部(形態素
解析プログラム部)と、日本語辞書と、活用語尾テーブ
ルと、(品詞別)接続テーブルとから構成されているも
のがある(文献1『特公平5−52543号公報』)。
この形態素解析装置においては、形態素解析部が、入力
文の未処理部分をその先頭側から取出し、日本語辞書を
参照して一致する単語(群)を検索し、その際に用言が
でてきた場合には活用語尾テーブルを引いて活用語尾を
付加する。そして、求めた単語が、直前に求めた単語と
接続可能なものか否かを接続テーブルを参照して決定
し、可能であればその単語を形態素として出力し、不可
能であれば他の単語候補文字に対して判断をし直す。
【0004】また、従来、日本語文用の形態素解析装置
として、接続可能か不可能かを表す上記接続テーブルに
代えて、連続値をとり得る接続重み表を用いたものも提
案されている(文献2『特開平5−12327号公
報)。
として、接続可能か不可能かを表す上記接続テーブルに
代えて、連続値をとり得る接続重み表を用いたものも提
案されている(文献2『特開平5−12327号公
報)。
【0005】さらにまた、従来、形態素解析結果をユー
ザに提示し、ユーザがこの提示に基づいて区切り位置の
変更を指示でき、指示された場合にそれ以降再解析を行
なうようにした形態素解析装置も既に提案されている
(文献3『特開平5−40749号公報』)。
ザに提示し、ユーザがこの提示に基づいて区切り位置の
変更を指示でき、指示された場合にそれ以降再解析を行
なうようにした形態素解析装置も既に提案されている
(文献3『特開平5−40749号公報』)。
【0006】
【発明が解決しようとする課題】接続可能か不可能かを
表す品詞別接続テーブルを用いた従来の形態素解析装置
に比較すれば、接続可能か不可能かを表す接続テーブル
に代えて、連続値をとり得る接続重み表を用いた従来の
形態素解析装置の方が、接続の可能性を数段階で判断で
きて好ましい。すなわち、接続の可能性の高さを、従っ
て、形態素解析結果の候補順位等を定めることなどがで
き、品詞別接続テーブルを用いた従来の形態素解析装置
よりは有効性が高い。
表す品詞別接続テーブルを用いた従来の形態素解析装置
に比較すれば、接続可能か不可能かを表す接続テーブル
に代えて、連続値をとり得る接続重み表を用いた従来の
形態素解析装置の方が、接続の可能性を数段階で判断で
きて好ましい。すなわち、接続の可能性の高さを、従っ
て、形態素解析結果の候補順位等を定めることなどがで
き、品詞別接続テーブルを用いた従来の形態素解析装置
よりは有効性が高い。
【0007】しかしながら、この形態素解析装置におい
ては、ユーザが正解品詞対を与えることによってその接
続重み表の値を変更することは可能であるが、表に新た
な項目(品詞)を付け加えて例外を処理することができ
ない。
ては、ユーザが正解品詞対を与えることによってその接
続重み表の値を変更することは可能であるが、表に新た
な項目(品詞)を付け加えて例外を処理することができ
ない。
【0008】品詞分けは形態素解析装置に固有なもので
あって別の品詞(分け)に対する要求が生じることがあ
るか、単純に考えた場合に、疑問に思う人が多いかもし
れない。しかし、「名詞」を、例えば「サ変名詞」と
「サ変でない名詞」に分類できる。形態素解析装置では
「名詞」を一括して取り扱っていたが、ユーザが例えば
「サ変でない名詞」を他の「名詞」と区別して取り扱っ
た方が接続の妥当性を適切に判断できて好ましいと考え
ても、従来の形態素解析装置はこれに応じることができ
ない。
あって別の品詞(分け)に対する要求が生じることがあ
るか、単純に考えた場合に、疑問に思う人が多いかもし
れない。しかし、「名詞」を、例えば「サ変名詞」と
「サ変でない名詞」に分類できる。形態素解析装置では
「名詞」を一括して取り扱っていたが、ユーザが例えば
「サ変でない名詞」を他の「名詞」と区別して取り扱っ
た方が接続の妥当性を適切に判断できて好ましいと考え
ても、従来の形態素解析装置はこれに応じることができ
ない。
【0009】また、ユーザが形態素の区切りを指定で
き、指定した場合に入力文を再解析する形態素解析装置
においては、ユーザが指定した形態素区切りは、その入
力文についてのみ有効に利用されるだけであり、ユーザ
が指定した形態素区切りをそれ以降に恒久的に反映する
ことはできなかった。
き、指定した場合に入力文を再解析する形態素解析装置
においては、ユーザが指定した形態素区切りは、その入
力文についてのみ有効に利用されるだけであり、ユーザ
が指定した形態素区切りをそれ以降に恒久的に反映する
ことはできなかった。
【0010】例えば、形態素解析装置の辞書や接続テー
ブルが「断層はずれだ」という入力文に対して「断層/
は/ずれ/だ」という解析結果を出力するように構成さ
れている場合、「町はずれだ」という入力文に対しては
「町/は/ずれ/だ」という同様な解析結果を出力す
る。しかし、ユーザが、「断層はずれだ」という入力文
に対して「断層/は/ずれ/だ」という解析結果を受け
入れるが、「町はずれだ」に対しては「町/はずれ/
だ」という『例外の解析結果』を求めることがある。ユ
ーザが形態素の区切りを指定できる形態素解析装置は、
この面から、かなり使い勝手が良い。しかし、ユーザが
指定した形態素区切りはその入力文だけに適用され、そ
れ以降に恒久的に反映することはできなかった。
ブルが「断層はずれだ」という入力文に対して「断層/
は/ずれ/だ」という解析結果を出力するように構成さ
れている場合、「町はずれだ」という入力文に対しては
「町/は/ずれ/だ」という同様な解析結果を出力す
る。しかし、ユーザが、「断層はずれだ」という入力文
に対して「断層/は/ずれ/だ」という解析結果を受け
入れるが、「町はずれだ」に対しては「町/はずれ/
だ」という『例外の解析結果』を求めることがある。ユ
ーザが形態素の区切りを指定できる形態素解析装置は、
この面から、かなり使い勝手が良い。しかし、ユーザが
指定した形態素区切りはその入力文だけに適用され、そ
れ以降に恒久的に反映することはできなかった。
【0011】さらにまた、仮に「町/はずれ/だ」とい
う『例外の解析結果』を記憶するようにしても、従来の
装置構成のままでは、「村はずれだ」という入力文に対
しては、「村/は/ずれ/だ」という解析結果を出力し
てしまい、「町」と「村」との意味的な類似性から、
「町/はずれ/だ」と同様な解析結果を期待するユーザ
の意図に反することになり、「村はずれだ」についても
改めてユーザが形態素区切りを指定する必要があった。
う『例外の解析結果』を記憶するようにしても、従来の
装置構成のままでは、「村はずれだ」という入力文に対
しては、「村/は/ずれ/だ」という解析結果を出力し
てしまい、「町」と「村」との意味的な類似性から、
「町/はずれ/だ」と同様な解析結果を期待するユーザ
の意図に反することになり、「村はずれだ」についても
改めてユーザが形態素区切りを指定する必要があった。
【0012】すなわち、従来の形態素解析装置では、
(1) ユーザが形態素の接続テーブルの項目を変更するこ
とができない、(2) ユーザが希望する形態素解析結果を
接続テーブルや辞書に記憶させることができない、(3)
以前に区切り指定した表現に意味的に類似した表現に対
しても改めて区切りを指定しなければならない、という
不都合があった。
(1) ユーザが形態素の接続テーブルの項目を変更するこ
とができない、(2) ユーザが希望する形態素解析結果を
接続テーブルや辞書に記憶させることができない、(3)
以前に区切り指定した表現に意味的に類似した表現に対
しても改めて区切りを指定しなければならない、という
不都合があった。
【0013】辞書の内容を変更すると同様に、特殊なエ
ディタを用いてユーザが接続テーブルを変更することも
考えられるが、接続テーブルは解析結果に重要な影響を
与えるので、破壊されないように厳密な手順が必要とな
ってこの際の操作は複雑になり、しかも、接続テーブル
だけでなく、辞書をも変更しなければならないことも生
じて使い勝手上未だ不十分である。
ディタを用いてユーザが接続テーブルを変更することも
考えられるが、接続テーブルは解析結果に重要な影響を
与えるので、破壊されないように厳密な手順が必要とな
ってこの際の操作は複雑になり、しかも、接続テーブル
だけでなく、辞書をも変更しなければならないことも生
じて使い勝手上未だ不十分である。
【0014】
【課題を解決するための手段】かかる課題を解決するた
め、本発明の形態素解析装置は、(1) 入力文が、新たな
形態素解析の対象となる文字列ではなく、ユーザが希望
する形態素解析結果の情報を伴う文字列である場合に、
その入力文字列からユーザが希望する形態素解析結果の
情報を取り除いた文字列を抽出して形態素解析部に送る
入力判定部と、(2) 入力判定部から送られたユーザが希
望する形態素解析結果の情報を伴う文字列と、形態素解
析部から送られてきた形態素解析結果とを照合し、不一
致部分があるときに、希望解析結果を表す文字列の全体
又は部分を出力する出力照合部と、(3) この出力照合部
から希望解析結果を表す文字列の全体又は部分が与えら
れたときに、その文字列に基づいて、接続テーブル及び
辞書の格納情報を追加、変更する接続テーブル・辞書入
力部とを備えることを特徴とする。
め、本発明の形態素解析装置は、(1) 入力文が、新たな
形態素解析の対象となる文字列ではなく、ユーザが希望
する形態素解析結果の情報を伴う文字列である場合に、
その入力文字列からユーザが希望する形態素解析結果の
情報を取り除いた文字列を抽出して形態素解析部に送る
入力判定部と、(2) 入力判定部から送られたユーザが希
望する形態素解析結果の情報を伴う文字列と、形態素解
析部から送られてきた形態素解析結果とを照合し、不一
致部分があるときに、希望解析結果を表す文字列の全体
又は部分を出力する出力照合部と、(3) この出力照合部
から希望解析結果を表す文字列の全体又は部分が与えら
れたときに、その文字列に基づいて、接続テーブル及び
辞書の格納情報を追加、変更する接続テーブル・辞書入
力部とを備えることを特徴とする。
【0015】
【0016】本発明において、意味的に類似する単語間
の情報を記憶している単語間類似情報記憶部をさらに備
え、接続テーブル・辞書入力部が、希望解析結果を表す
文字列の全体又は部分が与えられたときに、その文字列
に基づいて、その文字列に含まれている形態素、及び、
上記単語間類似情報記憶部に記憶されているこの形態素
に類似している単語の情報を、接続テーブル及び辞書に
追加、変更させることは好ましい。
の情報を記憶している単語間類似情報記憶部をさらに備
え、接続テーブル・辞書入力部が、希望解析結果を表す
文字列の全体又は部分が与えられたときに、その文字列
に基づいて、その文字列に含まれている形態素、及び、
上記単語間類似情報記憶部に記憶されているこの形態素
に類似している単語の情報を、接続テーブル及び辞書に
追加、変更させることは好ましい。
【0017】ここで、接続テーブル・辞書入力部が、単
語間類似情報記憶部を利用するモードが指定されている
場合に、希望解析結果を表す文字列の全体又は部分が与
えられたときに、その文字列に基づいて、その文字列に
含まれている形態素、及び、単語間類似情報記憶部に記
憶されているこの形態素に類似している単語の情報を、
接続テーブル及び辞書に追加、変更させ、単語間類似情
報記憶部を利用しないモードが指定されている場合に、
希望解析結果を表す文字列の全体又は部分が与えられた
ときに、その文字列に基づいて、その文字列に含まれて
いる形態素の情報を、接続テーブル及び辞書に追加、変
更させることが好ましい。
語間類似情報記憶部を利用するモードが指定されている
場合に、希望解析結果を表す文字列の全体又は部分が与
えられたときに、その文字列に基づいて、その文字列に
含まれている形態素、及び、単語間類似情報記憶部に記
憶されているこの形態素に類似している単語の情報を、
接続テーブル及び辞書に追加、変更させ、単語間類似情
報記憶部を利用しないモードが指定されている場合に、
希望解析結果を表す文字列の全体又は部分が与えられた
ときに、その文字列に基づいて、その文字列に含まれて
いる形態素の情報を、接続テーブル及び辞書に追加、変
更させることが好ましい。
【0018】
【作用】本発明の形態素解析装置は、形態素解析部が、
入力文の未処理部分に対して辞書を参照して一致する単
語を検索し、検索した単語が、直前及び直後の形態素候
補として規定された単語と接続可能なものか否かを接続
テーブルを参照して決定し、可能であればその単語を形
態素候補とし、不可能であれば他の単語候補に対して判
断をし直す形態素解析装置を前提とする。
入力文の未処理部分に対して辞書を参照して一致する単
語を検索し、検索した単語が、直前及び直後の形態素候
補として規定された単語と接続可能なものか否かを接続
テーブルを参照して決定し、可能であればその単語を形
態素候補とし、不可能であれば他の単語候補に対して判
断をし直す形態素解析装置を前提とする。
【0019】
【0020】
【0021】本発明の形態素解析装置は、その時点での
接続テーブル及び辞書の格納内容によって、ユーザが希
望する形態素解析結果が得られるか否か不明な場合であ
っても、ユーザが希望する形態素解析結果が得られるよ
うに、接続テーブル及び辞書を必要に応じて自動的かつ
恒久的に変更することを可能とした。
接続テーブル及び辞書の格納内容によって、ユーザが希
望する形態素解析結果が得られるか否か不明な場合であ
っても、ユーザが希望する形態素解析結果が得られるよ
うに、接続テーブル及び辞書を必要に応じて自動的かつ
恒久的に変更することを可能とした。
【0022】すなわち、ユーザが、自己が希望する形態
素解析結果の情報を伴う文字列を入力すれば、入力判定
部は、この入力文字列を出力照合部にそのまま送ると共
に、この入力文字列からユーザが希望する形態素解析結
果の情報を取り除いた文字列を抽出して形態素解析部に
送り、出力照合部は、入力判定部から送られたユーザが
希望する形態素解析結果の情報を伴う文字列と、形態素
解析部から送られてきたその形態素解析結果とを照合
し、不一致部分があるときに、希望解析結果を表す文字
列の全体又は部分を接続テーブル・辞書入力部に出力す
る。そして、接続テーブル・辞書入力部は、与えられた
希望解析結果を表す文字列に基づいて、接続テーブル及
び辞書の格納情報を追加、変更する。
素解析結果の情報を伴う文字列を入力すれば、入力判定
部は、この入力文字列を出力照合部にそのまま送ると共
に、この入力文字列からユーザが希望する形態素解析結
果の情報を取り除いた文字列を抽出して形態素解析部に
送り、出力照合部は、入力判定部から送られたユーザが
希望する形態素解析結果の情報を伴う文字列と、形態素
解析部から送られてきたその形態素解析結果とを照合
し、不一致部分があるときに、希望解析結果を表す文字
列の全体又は部分を接続テーブル・辞書入力部に出力す
る。そして、接続テーブル・辞書入力部は、与えられた
希望解析結果を表す文字列に基づいて、接続テーブル及
び辞書の格納情報を追加、変更する。
【0023】本発明の形態素解析装置において、意味的
に類似する単語間の情報を記憶している単語間類似情報
記憶部をさらに備え、接続テーブル・辞書入力部が、希
望解析結果を表す文字列の全体又は部分が与えられたと
きに、その文字列に基づいて、その文字列に含まれてい
る形態素、及び、上記単語間類似情報記憶部に記憶され
ているこの形態素に類似している単語の情報を、接続テ
ーブル及び辞書に追加、変更させるようにすると、希望
解析結果を表す文字列に含まれている形態素だけでな
く、その類似単語の情報も、1回の希望解析結果の入力
により、接続テーブル及び辞書に追加、変更され、その
結果、操作性及び使い勝手が一段と向上する。
に類似する単語間の情報を記憶している単語間類似情報
記憶部をさらに備え、接続テーブル・辞書入力部が、希
望解析結果を表す文字列の全体又は部分が与えられたと
きに、その文字列に基づいて、その文字列に含まれてい
る形態素、及び、上記単語間類似情報記憶部に記憶され
ているこの形態素に類似している単語の情報を、接続テ
ーブル及び辞書に追加、変更させるようにすると、希望
解析結果を表す文字列に含まれている形態素だけでな
く、その類似単語の情報も、1回の希望解析結果の入力
により、接続テーブル及び辞書に追加、変更され、その
結果、操作性及び使い勝手が一段と向上する。
【0024】また、処理対象形態素に類似している単語
間類似情報記憶部に記憶されている単語の情報を接続テ
ーブルや辞書に追加、変更する場合を、ユーザがそのよ
うなモードを指定したときに限定し、ユーザが希望しな
い場合には、類似単語に対する辞書等への登録が実行さ
れないようにすることは好ましい。
間類似情報記憶部に記憶されている単語の情報を接続テ
ーブルや辞書に追加、変更する場合を、ユーザがそのよ
うなモードを指定したときに限定し、ユーザが希望しな
い場合には、類似単語に対する辞書等への登録が実行さ
れないようにすることは好ましい。
【0025】
(A)第1実施例
以下、本発明による形態素解析装置の第1実施例を図面
を参照しながら詳述する。この第1実施例の形態素解析
装置は、実際上、形態素解析用のプログラムやデータを
搭載したワークステーションやパーソナルコンピュータ
等の情報処理装置によって実現されているが、機能的に
は、図1のブロック図に示す構成を有する。
を参照しながら詳述する。この第1実施例の形態素解析
装置は、実際上、形態素解析用のプログラムやデータを
搭載したワークステーションやパーソナルコンピュータ
等の情報処理装置によって実現されているが、機能的に
は、図1のブロック図に示す構成を有する。
【0026】図1において、この第1実施例の形態素解
析装置は、入力判定部1と、形態素解析部(形態素解析
プログラム部)2と、接続テーブル3と、辞書4と、出
力照合部5と、接続テーブル・辞書入力部6と、表示出
力部7とからなる。
析装置は、入力判定部1と、形態素解析部(形態素解析
プログラム部)2と、接続テーブル3と、辞書4と、出
力照合部5と、接続テーブル・辞書入力部6と、表示出
力部7とからなる。
【0027】入力判定部1は、入力文字列が新たな形態
素解析の対象となる文字列であるか、又は、ユーザが希
望する形態素解析結果の情報を伴う文字列であるかを判
定するものである。入力判定部1は、新たな形態素解析
対象の文字列であれば形態素解析部2にその文字列を送
り、これに対して、ユーザが希望する形態素解析結果の
情報を伴う文字列であればその文字列を出力照合部5に
送ると共に、その文字列から形態素解析結果の情報(区
切り希望)を取り除いて解析対象の文字列を抽出して形
態素解析部2に送る。
素解析の対象となる文字列であるか、又は、ユーザが希
望する形態素解析結果の情報を伴う文字列であるかを判
定するものである。入力判定部1は、新たな形態素解析
対象の文字列であれば形態素解析部2にその文字列を送
り、これに対して、ユーザが希望する形態素解析結果の
情報を伴う文字列であればその文字列を出力照合部5に
送ると共に、その文字列から形態素解析結果の情報(区
切り希望)を取り除いて解析対象の文字列を抽出して形
態素解析部2に送る。
【0028】接続テーブル3には、単語間の接続の可否
を主として品詞組合せで表している情報が格納されてい
る(図10〜図12参照)。なお、この第1実施例の接
続テーブル3は、接続の可能性を重み付けされた値で格
納している。辞書4には、図示は省略するが、単語の情
報が、見出しと品詞の組合せで記載されている。これら
接続テーブル3及び辞書4は、後述のように格納情報が
変更され得るものである。また、接続テーブル3や辞書
4は、分野別等の所定の観点から複数存在することもあ
るが、以降の説明では、便宜上一つであるとして行な
う。
を主として品詞組合せで表している情報が格納されてい
る(図10〜図12参照)。なお、この第1実施例の接
続テーブル3は、接続の可能性を重み付けされた値で格
納している。辞書4には、図示は省略するが、単語の情
報が、見出しと品詞の組合せで記載されている。これら
接続テーブル3及び辞書4は、後述のように格納情報が
変更され得るものである。また、接続テーブル3や辞書
4は、分野別等の所定の観点から複数存在することもあ
るが、以降の説明では、便宜上一つであるとして行な
う。
【0029】形態素解析部(形態素解析プログラム部)
2は、入力判定部1から送られた文字列に対して、これ
ら接続テーブル3や辞書4の格納情報を利用して形態素
解析を行なう。すなわち、入力文の未処理部分に対して
辞書4を参照して一致する単語(群)を検索し、その際
に用言がでてきた場合には辞書4内の又は当該解析部2
内の活用語尾情報を用いて活用語尾を付加し、検索され
た単語が、直前及び直後に形態素候補と規定された単語
と接続可能なものか否かを接続テーブル3を参照して決
定し、可能であればその単語を形態素候補として出力
し、不可能であれば他の単語候補に対して判断をし直
す。形態素解析部2は、得られた形態素解析結果を出力
照合部5に送る。
2は、入力判定部1から送られた文字列に対して、これ
ら接続テーブル3や辞書4の格納情報を利用して形態素
解析を行なう。すなわち、入力文の未処理部分に対して
辞書4を参照して一致する単語(群)を検索し、その際
に用言がでてきた場合には辞書4内の又は当該解析部2
内の活用語尾情報を用いて活用語尾を付加し、検索され
た単語が、直前及び直後に形態素候補と規定された単語
と接続可能なものか否かを接続テーブル3を参照して決
定し、可能であればその単語を形態素候補として出力
し、不可能であれば他の単語候補に対して判断をし直
す。形態素解析部2は、得られた形態素解析結果を出力
照合部5に送る。
【0030】出力照合部5は、ユーザが希望する形態素
解析結果の情報を伴う文字列が入力判定部1から送られ
た場合には、これと形態素解析部2から送られた形態素
解析結果とを照合し、不一致の場合には接続テーブル・
辞書入力部6に後述する情報を送り、一致の場合には表
示出力部7に解析結果を送る。また、出力照合部5は、
ユーザが希望する形態素解析結果の情報を伴う文字列が
入力判定部1から送られてきていない場合には、形態素
解析部2から送られた形態素解析結果を表示出力部7に
送る。
解析結果の情報を伴う文字列が入力判定部1から送られ
た場合には、これと形態素解析部2から送られた形態素
解析結果とを照合し、不一致の場合には接続テーブル・
辞書入力部6に後述する情報を送り、一致の場合には表
示出力部7に解析結果を送る。また、出力照合部5は、
ユーザが希望する形態素解析結果の情報を伴う文字列が
入力判定部1から送られてきていない場合には、形態素
解析部2から送られた形態素解析結果を表示出力部7に
送る。
【0031】接続テーブル・辞書入力部6は、出力照合
部5から送られた情報に基づいて、接続テーブル3及び
又は辞書4の格納情報に変更(追加)を加える処理を行
なうものである。
部5から送られた情報に基づいて、接続テーブル3及び
又は辞書4の格納情報に変更(追加)を加える処理を行
なうものである。
【0032】表示出力部7は、形態素解析部2で文字列
が形態素解析された結果を表示出力する処理を行なう。
が形態素解析された結果を表示出力する処理を行なう。
【0033】次に、以上のような各機能部1〜7でなる
形態素解析装置全体での処理の流れを図2を参照しなが
ら説明する。
形態素解析装置全体での処理の流れを図2を参照しなが
ら説明する。
【0034】まず、入力文字列が新たな形態素解析の対
象となる文字列であるか、又は、ユーザが希望する形態
素解析結果の情報を伴う文字列であるかを判定し、ユー
ザが希望する形態素解析結果の情報を伴う文字列であれ
ば、その文字列から区切り希望等の形態素解析結果の情
報を取り除いて解析対象の文字列を分離抽出する(ステ
ップ21)。そして、入力文字列、又は、入力文字列か
ら形態素解析結果の情報を取り除いた文字列に対して形
態素解析を行なう(ステップ22)。
象となる文字列であるか、又は、ユーザが希望する形態
素解析結果の情報を伴う文字列であるかを判定し、ユー
ザが希望する形態素解析結果の情報を伴う文字列であれ
ば、その文字列から区切り希望等の形態素解析結果の情
報を取り除いて解析対象の文字列を分離抽出する(ステ
ップ21)。そして、入力文字列、又は、入力文字列か
ら形態素解析結果の情報を取り除いた文字列に対して形
態素解析を行なう(ステップ22)。
【0035】その後、ユーザが希望する形態素解析結果
の情報を伴う文字列の希望する形態素解析結果と、区切
り希望等を取り除いた文字列に対して実行して得た形態
素解析結果が一致するかを判定する(ステップ23)。
その結果、一致していればその解析結果を表示出力して
一連の処理を終了する(ステップ25)。なお、入力文
字列が新たな形態素解析の対象となる文字列(区切り希
望等がない文字列)である場合には、一致している場合
と同様に取り扱う。一方、希望する形態素解析結果と、
区切り希望等を取り除いた文字列に対して実行して得た
形態素解析結果が一致していない場合には、接続テーブ
ル3及び又は辞書4の格納情報を修正したり項目を追加
したりして、解析の希望区切りを接続テーブル3や辞書
4に反映した後、ステップ22に戻って再度形態素解析
を実行する(ステップ24)。
の情報を伴う文字列の希望する形態素解析結果と、区切
り希望等を取り除いた文字列に対して実行して得た形態
素解析結果が一致するかを判定する(ステップ23)。
その結果、一致していればその解析結果を表示出力して
一連の処理を終了する(ステップ25)。なお、入力文
字列が新たな形態素解析の対象となる文字列(区切り希
望等がない文字列)である場合には、一致している場合
と同様に取り扱う。一方、希望する形態素解析結果と、
区切り希望等を取り除いた文字列に対して実行して得た
形態素解析結果が一致していない場合には、接続テーブ
ル3及び又は辞書4の格納情報を修正したり項目を追加
したりして、解析の希望区切りを接続テーブル3や辞書
4に反映した後、ステップ22に戻って再度形態素解析
を実行する(ステップ24)。
【0036】以上のようにして、ユーザは区切り希望等
を伴う文字列を入力することにより、それに応じた形態
素解析結果を得ることができると共に、その区切り希望
等に係る形態素解析のための情報を接続テーブル3や辞
書4に追加させたり、その区切り希望等に係る形態素解
析のための情報に接続テーブル3や辞書4の既格納内容
を修正させたりすることができる。
を伴う文字列を入力することにより、それに応じた形態
素解析結果を得ることができると共に、その区切り希望
等に係る形態素解析のための情報を接続テーブル3や辞
書4に追加させたり、その区切り希望等に係る形態素解
析のための情報に接続テーブル3や辞書4の既格納内容
を修正させたりすることができる。
【0037】次に、各機能部での処理を順に説明する。
なお、形態素解析部2及び表示出力部7の処理は従来と
同様であって、これにはこの第1実施例の特徴はないの
で、その説明は省略する。
なお、形態素解析部2及び表示出力部7の処理は従来と
同様であって、これにはこの第1実施例の特徴はないの
で、その説明は省略する。
【0038】まず、入力判定部1での処理、言い換える
と、図2におけるステップ21の処理を、図3及び図4
を参照しながら詳細に説明する。
と、図2におけるステップ21の処理を、図3及び図4
を参照しながら詳細に説明する。
【0039】上述のように入力文字列としては、図4
(a)に示すような区切り希望等の情報がない新たな形
態素解析の対象となる文字列と、図4(b)や(c)に
示すようなユーザの希望する形態素解析結果の情報を伴
う文字列との2種類がある。図4(b)の文字列では、
例えば区切り記号として「/」を用いて文字列を形態素
に分割している。なお、ユーザの希望する形態素解析結
果を伴う文字列入力には、図4(c)に示すように、例
えば品詞指定記号として「^」を用いて後に品詞を付加
することもできる。例えば、図4(c)は「地層」の品
詞が名詞であり、「は」の品詞が副助詞であり、「ず
れ」の品詞が名詞であり、「だ」の品詞が助動詞である
ことを示している。この第1実施例の場合、図4(b)
又は図4(c)のいずれの形式の文字列が入力されても
対応できる。
(a)に示すような区切り希望等の情報がない新たな形
態素解析の対象となる文字列と、図4(b)や(c)に
示すようなユーザの希望する形態素解析結果の情報を伴
う文字列との2種類がある。図4(b)の文字列では、
例えば区切り記号として「/」を用いて文字列を形態素
に分割している。なお、ユーザの希望する形態素解析結
果を伴う文字列入力には、図4(c)に示すように、例
えば品詞指定記号として「^」を用いて後に品詞を付加
することもできる。例えば、図4(c)は「地層」の品
詞が名詞であり、「は」の品詞が副助詞であり、「ず
れ」の品詞が名詞であり、「だ」の品詞が助動詞である
ことを示している。この第1実施例の場合、図4(b)
又は図4(c)のいずれの形式の文字列が入力されても
対応できる。
【0040】図3において、このような2種類の入力文
字列(希望解析結果を伴う文字列及び伴わない文字列)
が入力され得る入力判定部1では、まず、予め指定され
た任意の区切り記号「/」が入力文字列中に存在するか
どうか判定する(ステップ31)。
字列(希望解析結果を伴う文字列及び伴わない文字列)
が入力され得る入力判定部1では、まず、予め指定され
た任意の区切り記号「/」が入力文字列中に存在するか
どうか判定する(ステップ31)。
【0041】その結果、区切り記号が入力文字列中に存
在しないと判定した場合には、形態素解析部2にその文
字列を送って一連の処理を終了する(ステップ32)。
在しないと判定した場合には、形態素解析部2にその文
字列を送って一連の処理を終了する(ステップ32)。
【0042】これに対して、区切り記号が入力文字列中
に存在すると判定した場合には、出力照合部5に入力文
字列のコピーを送り、また、入力文字列から区切り記号
(存在するならば区切り記号に加えて品詞指定記号等の
情報を示す記号)を取り除いた文字列(図4(a)参
照)を作成した後(ステップ33、34)、形態素解析
部2にその文字列を送って一連の処理を終了する(ステ
ップ32)。
に存在すると判定した場合には、出力照合部5に入力文
字列のコピーを送り、また、入力文字列から区切り記号
(存在するならば区切り記号に加えて品詞指定記号等の
情報を示す記号)を取り除いた文字列(図4(a)参
照)を作成した後(ステップ33、34)、形態素解析
部2にその文字列を送って一連の処理を終了する(ステ
ップ32)。
【0043】例えば、図4(a)に示した「地層はずれ
だ」という文字列が入力であった場合には、区切り記号
が存在しないと判定され、「地層はずれだ」という文字
列がそのまま形態素解析部2に送られる。また、区切り
記号が「/」で、品詞指定記号が「^」であると定めら
れていて、図4(c)に示した「地層^名詞/は^副助
詞/ずれ^名詞/だ^助動詞」という文字列が入力され
た場合には、区切り記号が存在すると判定され、「地層
^名詞/は^副助詞/ずれ^名詞/だ^助動詞」という
文字列がそのまま出力照合部5に送られ、その後、区切
り記号と品詞指定記号を取り除いた「地層はずれだ」と
いう文字列が作成されて形態素解析部2に送られる。
だ」という文字列が入力であった場合には、区切り記号
が存在しないと判定され、「地層はずれだ」という文字
列がそのまま形態素解析部2に送られる。また、区切り
記号が「/」で、品詞指定記号が「^」であると定めら
れていて、図4(c)に示した「地層^名詞/は^副助
詞/ずれ^名詞/だ^助動詞」という文字列が入力され
た場合には、区切り記号が存在すると判定され、「地層
^名詞/は^副助詞/ずれ^名詞/だ^助動詞」という
文字列がそのまま出力照合部5に送られ、その後、区切
り記号と品詞指定記号を取り除いた「地層はずれだ」と
いう文字列が作成されて形態素解析部2に送られる。
【0044】次に、出力照合部5の処理(図2のステッ
プ23の処理)を図5を参照しながら詳細に説明する。
プ23の処理)を図5を参照しながら詳細に説明する。
【0045】入力判定部1からユーザが希望する形態素
解析結果の情報を伴う文字列が送られてきているかどう
かをチェックする(ステップ51)。
解析結果の情報を伴う文字列が送られてきているかどう
かをチェックする(ステップ51)。
【0046】その結果、ユーザが希望する形態素解析結
果の情報を伴う文字列が送られてきていないと判別すれ
ば、形態素解析部2から送られてきた実際の形態素解析
結果をそのまま表示出力部7に送って一連の処理を終了
する(ステップ55)。
果の情報を伴う文字列が送られてきていないと判別すれ
ば、形態素解析部2から送られてきた実際の形態素解析
結果をそのまま表示出力部7に送って一連の処理を終了
する(ステップ55)。
【0047】これに対して、ユーザが希望する形態素解
析結果の情報を伴う文字列が送られてきていると判別す
れば、ユーザが希望する形態素解析結果と、形態素解析
部2から送られてきた実際の形態素解析結果とを比較し
(ステップ52)、両者に差異があるかどうかをチェッ
クする(ステップ53)。
析結果の情報を伴う文字列が送られてきていると判別す
れば、ユーザが希望する形態素解析結果と、形態素解析
部2から送られてきた実際の形態素解析結果とを比較し
(ステップ52)、両者に差異があるかどうかをチェッ
クする(ステップ53)。
【0048】比較の結果、両形態素解析結果に差異がな
いとわかれば、形態素解析部2から送られてきた実際の
解析結果を表示出力部7に送って一連の処理を終了する
(ステップ55)。一方、差異があるとわかれば、差異
部分を含む前後共に2、3の単語でなる希望解析結果を
表す文字列を接続テーブル・辞書入力部6に送って一連
の処理を終了する(ステップ54)。
いとわかれば、形態素解析部2から送られてきた実際の
解析結果を表示出力部7に送って一連の処理を終了する
(ステップ55)。一方、差異があるとわかれば、差異
部分を含む前後共に2、3の単語でなる希望解析結果を
表す文字列を接続テーブル・辞書入力部6に送って一連
の処理を終了する(ステップ54)。
【0049】以上のようにして、出力照合部5は、ユー
ザが希望する形態素解析結果の情報を伴う文字列が入力
された状況では、接続テーブル3及び辞書4の既存の格
納内容でユーザが希望する解析結果が得られるか否かを
確認し、得られない場合にはユーザが希望する解析結果
の情報を伴う文字列の全体又は部分を接続テーブル・辞
書入力部6に出力する。
ザが希望する形態素解析結果の情報を伴う文字列が入力
された状況では、接続テーブル3及び辞書4の既存の格
納内容でユーザが希望する解析結果が得られるか否かを
確認し、得られない場合にはユーザが希望する解析結果
の情報を伴う文字列の全体又は部分を接続テーブル・辞
書入力部6に出力する。
【0050】例えば、図4(c)に示すような入力文字
列「地層^名詞/は^副助詞/ずれ^名詞/だ^助動
詞」であった場合には、入力判定部1から出力照合部5
にこの文字列が送られてきているので、形態素解析部2
から送られてきた実際の解析結果と照合される。ここ
で、形態素解析部2から送られてきた実際の解析結果が
「地層^名詞/はずれ^名詞/だ^助動詞」であれば、
両者の解析結果に差異があると判定される。その結果、
差異のあった「は^副助詞/ずれ^名詞」周辺(前後2
語ずつ程度)の希望解析結果、この場合は「地層^名詞
/は^副助詞/ずれ^名詞/だ^助動詞」が接続テーブ
ル・辞書入力部6へ送られる。
列「地層^名詞/は^副助詞/ずれ^名詞/だ^助動
詞」であった場合には、入力判定部1から出力照合部5
にこの文字列が送られてきているので、形態素解析部2
から送られてきた実際の解析結果と照合される。ここ
で、形態素解析部2から送られてきた実際の解析結果が
「地層^名詞/はずれ^名詞/だ^助動詞」であれば、
両者の解析結果に差異があると判定される。その結果、
差異のあった「は^副助詞/ずれ^名詞」周辺(前後2
語ずつ程度)の希望解析結果、この場合は「地層^名詞
/は^副助詞/ずれ^名詞/だ^助動詞」が接続テーブ
ル・辞書入力部6へ送られる。
【0051】次に、接続テーブル・辞書入力部6の処理
(図2のステップ24の処理)を図6〜図12を参照し
ながら詳細に説明する。
(図2のステップ24の処理)を図6〜図12を参照し
ながら詳細に説明する。
【0052】図6において、接続テーブル・辞書入力部
6はまず、出力照合部51から送られてきた文字列を、
区切り記号の位置で形態素に分割し、後ろの形態素から
順にスタックに積み上げる(ステップ61)。この際、
品詞指定記号による品詞情報は各形態素が保持する。そ
して、スタックの一番上から形態素を一つ取り出し、形
態素M1と名付ける(ステップ62)。そして、スタッ
クが空になったかどうかを判定し(ステップ63)、ス
タックが空であれば処理を終了し、一方、スタックが空
でなければ、スタックの一番上の形態素を形態素M2と
名付けた後(ステップ64)、形態素M1と形態素M2
について接続テーブル3及び辞書4をチェックし、必要
であれば登録を行なって上述したステップ62に戻る
(ステップ65)。このようにして、ステップ63でス
タックが空になったと判定されるまで、ステップ62〜
ステップ65でなるループ処理が実行される。ここで、
ステップ65の接続テーブル3及び辞書4のチェック、
登録処理は、図7及び図8に詳述しており、後述する。
6はまず、出力照合部51から送られてきた文字列を、
区切り記号の位置で形態素に分割し、後ろの形態素から
順にスタックに積み上げる(ステップ61)。この際、
品詞指定記号による品詞情報は各形態素が保持する。そ
して、スタックの一番上から形態素を一つ取り出し、形
態素M1と名付ける(ステップ62)。そして、スタッ
クが空になったかどうかを判定し(ステップ63)、ス
タックが空であれば処理を終了し、一方、スタックが空
でなければ、スタックの一番上の形態素を形態素M2と
名付けた後(ステップ64)、形態素M1と形態素M2
について接続テーブル3及び辞書4をチェックし、必要
であれば登録を行なって上述したステップ62に戻る
(ステップ65)。このようにして、ステップ63でス
タックが空になったと判定されるまで、ステップ62〜
ステップ65でなるループ処理が実行される。ここで、
ステップ65の接続テーブル3及び辞書4のチェック、
登録処理は、図7及び図8に詳述しており、後述する。
【0053】例えば、出力照合部5から送られてきた文
字列が「地層^名詞/は^副助詞/ずれ^名詞/だ^助
動詞」であった場合、「地層(名詞)」、「は(副助
詞)」、「ずれ(名詞)」、「だ(助動詞)」に分割さ
れて、図9(a)のようにスタックに積み上げる。ここ
で、(名詞)というような表現は品詞情報を形態素が保
持していることを表している。
字列が「地層^名詞/は^副助詞/ずれ^名詞/だ^助
動詞」であった場合、「地層(名詞)」、「は(副助
詞)」、「ずれ(名詞)」、「だ(助動詞)」に分割さ
れて、図9(a)のようにスタックに積み上げる。ここ
で、(名詞)というような表現は品詞情報を形態素が保
持していることを表している。
【0054】そして、図9(b)のようにスタックの一
番上にある「地層」を取り出して形態素M1と名付け
る。この段階では、スタックをチェックしてもスタック
にはまだ「は」と「ずれ」と「だ」が残っているので、
図9(c)のようにスタックのTOPの「は」を形態素
M2と名付ける。そして、形態素M1「地層」と形態素
M2「は」とについて、接続テーブル3と辞書4のチェ
ック及び登録処理を行なう。かかる処理が終了すると、
次に、図9(d)のように「は」をスタックから取り出
して形態素M1と名付け、この際にはスタックにはまだ
「ずれ」及び「だ」が残っているので「ずれ」を形態素
M2と名付ける。そして、形態素M1「は」と形態素M
2「ずれ」とについて、接続テーブル3と辞書4のチェ
ック及び登録処理を行なう。続いて、図9(e)のよう
に「ずれ」を取り出して形態素M1と名付け、この際に
もスタックにはまだ「だ」が残っているので、「だ」を
形態素M2と名付ける。そして、形態素M1「ずれ」と
形態素M2「だ」とについて、接続テーブル3と辞書4
のチェック及び登録処理を行なう。続いて、図9(f)
のように「だ」を取り出して形態素M1と名付けるが、
この際にはスタックが空となったので、一連の処理を終
了する。
番上にある「地層」を取り出して形態素M1と名付け
る。この段階では、スタックをチェックしてもスタック
にはまだ「は」と「ずれ」と「だ」が残っているので、
図9(c)のようにスタックのTOPの「は」を形態素
M2と名付ける。そして、形態素M1「地層」と形態素
M2「は」とについて、接続テーブル3と辞書4のチェ
ック及び登録処理を行なう。かかる処理が終了すると、
次に、図9(d)のように「は」をスタックから取り出
して形態素M1と名付け、この際にはスタックにはまだ
「ずれ」及び「だ」が残っているので「ずれ」を形態素
M2と名付ける。そして、形態素M1「は」と形態素M
2「ずれ」とについて、接続テーブル3と辞書4のチェ
ック及び登録処理を行なう。続いて、図9(e)のよう
に「ずれ」を取り出して形態素M1と名付け、この際に
もスタックにはまだ「だ」が残っているので、「だ」を
形態素M2と名付ける。そして、形態素M1「ずれ」と
形態素M2「だ」とについて、接続テーブル3と辞書4
のチェック及び登録処理を行なう。続いて、図9(f)
のように「だ」を取り出して形態素M1と名付けるが、
この際にはスタックが空となったので、一連の処理を終
了する。
【0055】以上のように、接続テーブル・辞書入力部
6は、出力照合部51から送られてきた文字列の未処理
状態の先頭側2個の形態素M1及びM2の組合せを規定
しては、その接続のチェックや登録を行なうことをを繰
り返す。
6は、出力照合部51から送られてきた文字列の未処理
状態の先頭側2個の形態素M1及びM2の組合せを規定
しては、その接続のチェックや登録を行なうことをを繰
り返す。
【0056】上述したステップ65の処理、すなわち、
接続テーブル3及び辞書4のチェック並びに登録処理を
図7を参照して詳細に説明する。
接続テーブル3及び辞書4のチェック並びに登録処理を
図7を参照して詳細に説明する。
【0057】まず、接続テーブル・辞書入力部6は、処
理対象として形態素M1をセットする(ステップ7
1)。そして、この形態素M1を対象に、図8に示す例
外パターンのチェックと登録処理を行なう(ステップ7
2)。詳細は後述する。この際に例外パターンと判定さ
れると、形態素M1には例外パターンフラグが立てられ
る。また、必要に応じて、形態素M1に関する情報が辞
書4と接続テーブル3へ登録される。
理対象として形態素M1をセットする(ステップ7
1)。そして、この形態素M1を対象に、図8に示す例
外パターンのチェックと登録処理を行なう(ステップ7
2)。詳細は後述する。この際に例外パターンと判定さ
れると、形態素M1には例外パターンフラグが立てられ
る。また、必要に応じて、形態素M1に関する情報が辞
書4と接続テーブル3へ登録される。
【0058】次に、処理対象として形態素M2をセット
し(ステップ73)、同様に、形態素M2を対象に、図
8に示す例外パターンのチェックと登録処理を行なう
(ステップ74)。このときにも、例外パターンと判定
されると、形態素M2には例外パターンフラグが立てら
れ、また、必要に応じて、形態素M2に関する情報が辞
書4と接続テーブル3に対して登録される。
し(ステップ73)、同様に、形態素M2を対象に、図
8に示す例外パターンのチェックと登録処理を行なう
(ステップ74)。このときにも、例外パターンと判定
されると、形態素M2には例外パターンフラグが立てら
れ、また、必要に応じて、形態素M2に関する情報が辞
書4と接続テーブル3に対して登録される。
【0059】その後、形態素M1に例外パターンフラグ
が立っているかどうかをチェックする(ステップ7
5)。形態素M1に例外パターンフラグが立っていれ
ば、接続テーブル3の形態素M1に関連して登録された
列と形態素M2に関連する行の交点の値に最大値を与
え、他の組合せより優先して必ず接続するようにして処
理を終了する(ステップ76)。
が立っているかどうかをチェックする(ステップ7
5)。形態素M1に例外パターンフラグが立っていれ
ば、接続テーブル3の形態素M1に関連して登録された
列と形態素M2に関連する行の交点の値に最大値を与
え、他の組合せより優先して必ず接続するようにして処
理を終了する(ステップ76)。
【0060】これに対して、形態素M1に例外パターン
フラグが立っていなければ、形態素M2に例外パターン
フラグが立っているかどうかをさらにチェックする(ス
テップ77)。形態素M2に例外パターンフラグが立っ
ていれば、接続テーブルの形態素M1に関連する列と形
態素M2に関連して登録された行の交点の値に最大値を
与え、他の組合せより優先して必ず接続するようにして
処理を終了する(ステップ78)。
フラグが立っていなければ、形態素M2に例外パターン
フラグが立っているかどうかをさらにチェックする(ス
テップ77)。形態素M2に例外パターンフラグが立っ
ていれば、接続テーブルの形態素M1に関連する列と形
態素M2に関連して登録された行の交点の値に最大値を
与え、他の組合せより優先して必ず接続するようにして
処理を終了する(ステップ78)。
【0061】形態素M2にも例外パターンフラグが立っ
ていなければ、処理を直ちに終了する。
ていなければ、処理を直ちに終了する。
【0062】ここで、「例外パターン」の語は、希望区
切りで分けられた処理対象形態素M1又はM2が、その
分割や品詞や接続等の面で、接続テーブル3や辞書4の
既存の格納内容の例外になっていることを表している。
言い換えると、形態素解析部2による解析結果を希望解
析結果と異なるようにさせる(未知語の場合を除く)形
態素になっていることを表している。
切りで分けられた処理対象形態素M1又はM2が、その
分割や品詞や接続等の面で、接続テーブル3や辞書4の
既存の格納内容の例外になっていることを表している。
言い換えると、形態素解析部2による解析結果を希望解
析結果と異なるようにさせる(未知語の場合を除く)形
態素になっていることを表している。
【0063】例えば、「地層(名詞)」を形態素M1、
「は(副助詞)」を形態素M2として動作を追ってみ
る。形態素M1「地層」が処理対象にセットされて例外
パターンのチェックを受ける。続いて、形態素M2
「は」が処理対象にセットされて例外パターンのチェッ
クを受ける。
「は(副助詞)」を形態素M2として動作を追ってみ
る。形態素M1「地層」が処理対象にセットされて例外
パターンのチェックを受ける。続いて、形態素M2
「は」が処理対象にセットされて例外パターンのチェッ
クを受ける。
【0064】形態素M1である「地層」が例外パターン
であれば、例外パターンフラグが立てられ、接続テーブ
ル3において、形態素M1「地層」のための列が新規に
追加され、列の各値に最小値(この場合は0とする)が
与えられる(図10(a)参照)。同様に、形態素M2
である「は」が例外パターンであれば、例外パターンフ
ラグが立てられ、接続テーブル3において、形態素M2
「は」のための行が新規に追加され、行の各値に最小値
(この場合は0とする)が与えられる(図11(a)参
照)。その後の形態素M1「地層」の例外パターンフラ
グの判定でフラグが立てられているという結果が得ら
れ、この場合、もし形態素M2である「は」が例外パタ
ーンであれば、接続テーブル3には既に形態素M2
「は」のための行が新規に追加されており、形態素M1
「地層」のための列と形態素M2「は」のための行との
交わった部分の値に最大値(この場合は9とする)が与
えられて処理が終了される(図10(b)参照)。もし
形態素M2「は」が例外パターンでなければ、接続テー
ブル3には既に形態素M2「は」の属する行が発見され
ており、形態素M1「地層」のための列と形態素M2
「は」の属する行との交わった部分の値に最大値(この
場合は9とする)が与えられて処理が終了される(図1
0(c)参照)。
であれば、例外パターンフラグが立てられ、接続テーブ
ル3において、形態素M1「地層」のための列が新規に
追加され、列の各値に最小値(この場合は0とする)が
与えられる(図10(a)参照)。同様に、形態素M2
である「は」が例外パターンであれば、例外パターンフ
ラグが立てられ、接続テーブル3において、形態素M2
「は」のための行が新規に追加され、行の各値に最小値
(この場合は0とする)が与えられる(図11(a)参
照)。その後の形態素M1「地層」の例外パターンフラ
グの判定でフラグが立てられているという結果が得ら
れ、この場合、もし形態素M2である「は」が例外パタ
ーンであれば、接続テーブル3には既に形態素M2
「は」のための行が新規に追加されており、形態素M1
「地層」のための列と形態素M2「は」のための行との
交わった部分の値に最大値(この場合は9とする)が与
えられて処理が終了される(図10(b)参照)。もし
形態素M2「は」が例外パターンでなければ、接続テー
ブル3には既に形態素M2「は」の属する行が発見され
ており、形態素M1「地層」のための列と形態素M2
「は」の属する行との交わった部分の値に最大値(この
場合は9とする)が与えられて処理が終了される(図1
0(c)参照)。
【0065】これに対して、形態素M1「地層」に例外
パターンフラグが立っていなければ、形態素M2「は」
に例外パターンフラグが立っているかどうかをチェック
する。例外パターンフラグが立っていなければ処理を終
了する。例外パターンフラグが立っていれば、接続テー
ブル3は図11(a)のように形態素M2「は」のため
の行が新規に追加されており、列の追加はない状態にな
っているので、形態素M1「地層」の属する行と形態素
M2「は」のための行の交わった部分の値に最大値(こ
の場合は9とする)が与えられて処理が終了される(図
11(b))。
パターンフラグが立っていなければ、形態素M2「は」
に例外パターンフラグが立っているかどうかをチェック
する。例外パターンフラグが立っていなければ処理を終
了する。例外パターンフラグが立っていれば、接続テー
ブル3は図11(a)のように形態素M2「は」のため
の行が新規に追加されており、列の追加はない状態にな
っているので、形態素M1「地層」の属する行と形態素
M2「は」のための行の交わった部分の値に最大値(こ
の場合は9とする)が与えられて処理が終了される(図
11(b))。
【0066】このように学習するので、次に「地層はず
れだ」を入力すると、「地層」と「は」の接続は最大値
となっているために最優先され、以下同様の手順を経
て、「地層/は/ずれ/だ」という希望通りの解析結果
が得られる。
れだ」を入力すると、「地層」と「は」の接続は最大値
となっているために最優先され、以下同様の手順を経
て、「地層/は/ずれ/だ」という希望通りの解析結果
が得られる。
【0067】次に、図7のステップ72又は74の処理
(例外パターンのチェック及び登録処理)を、図8を参
照しながら詳細に説明する。
(例外パターンのチェック及び登録処理)を、図8を参
照しながら詳細に説明する。
【0068】まず、処理対象形態素(M1又はM2)に
品詞指定があるかどうかをチェックする(ステップ8
1)。処理対象形態素に品詞指定がなければ、例外の品
詞として、その形態素を辞書4に登録する(ステップ8
5)。一方、処理対象形態素に品詞指定があれば、その
形態素に指定された品詞が辞書4に存在する品詞かどう
かチェックする(ステップ82)。形態素に指定された
品詞が辞書4に存在しない品詞であった場合、その形態
素を、指定された品詞で辞書4に登録する(ステップ8
6)。形態素に指定された品詞が既に辞書4に存在する
品詞であった場合には、形態素に指定された品詞と見出
し語の組合せで既に辞書4に登録されているかどうかを
チェックする(ステップ83)。形態素に指定された品
詞と見出し語の組合せで辞書4に登録されていなけれ
ば、未知語と判定し、指定された品詞と見出し語の組合
せで辞書4に登録して、処理を終了する(ステップ8
4)。形態素に指定された品詞と見出し語の組合せで既
に辞書4に登録されていれば、登録されているのに解析
結果が希望と異なるパターンと判定し、例外の品詞とし
て、その形態素を辞書4に登録する(ステップ89)。
品詞指定があるかどうかをチェックする(ステップ8
1)。処理対象形態素に品詞指定がなければ、例外の品
詞として、その形態素を辞書4に登録する(ステップ8
5)。一方、処理対象形態素に品詞指定があれば、その
形態素に指定された品詞が辞書4に存在する品詞かどう
かチェックする(ステップ82)。形態素に指定された
品詞が辞書4に存在しない品詞であった場合、その形態
素を、指定された品詞で辞書4に登録する(ステップ8
6)。形態素に指定された品詞が既に辞書4に存在する
品詞であった場合には、形態素に指定された品詞と見出
し語の組合せで既に辞書4に登録されているかどうかを
チェックする(ステップ83)。形態素に指定された品
詞と見出し語の組合せで辞書4に登録されていなけれ
ば、未知語と判定し、指定された品詞と見出し語の組合
せで辞書4に登録して、処理を終了する(ステップ8
4)。形態素に指定された品詞と見出し語の組合せで既
に辞書4に登録されていれば、登録されているのに解析
結果が希望と異なるパターンと判定し、例外の品詞とし
て、その形態素を辞書4に登録する(ステップ89)。
【0069】(1) 処理対象形態素に品詞指定がなくてそ
の形態素を例外品詞として辞書4に登録した後、(2) 処
理対象形態素に品詞指定はあるがその形態素に指定され
た品詞が辞書4に存在しないで、その形態素を指定され
た品詞で辞書4に登録した後、(3) 形態素に指定された
品詞と見出し語の組合せで既に辞書4に登録されてい
て、その形態素を例外品詞として辞書4に登録した後に
は、対象となっている形態素に例外パターンフラグをセ
ットする(ステップ87)。
の形態素を例外品詞として辞書4に登録した後、(2) 処
理対象形態素に品詞指定はあるがその形態素に指定され
た品詞が辞書4に存在しないで、その形態素を指定され
た品詞で辞書4に登録した後、(3) 形態素に指定された
品詞と見出し語の組合せで既に辞書4に登録されてい
て、その形態素を例外品詞として辞書4に登録した後に
は、対象となっている形態素に例外パターンフラグをセ
ットする(ステップ87)。
【0070】そして、接続テーブル3に列項目又は行項
目を追加し、全ての欄に最小値、すなわち接続しないこ
とを示す値(0)を代入しておく(ステップ88)。こ
こで、形態素M1が処理対象であった場合には(図7ス
テップ72)、接続テーブル3に列項目を追加し、形態
素M2が処理対象であった場合には(図7ステップ7
4)、接続テーブル3に行項目を追加し、その後、処理
を終了する。
目を追加し、全ての欄に最小値、すなわち接続しないこ
とを示す値(0)を代入しておく(ステップ88)。こ
こで、形態素M1が処理対象であった場合には(図7ス
テップ72)、接続テーブル3に列項目を追加し、形態
素M2が処理対象であった場合には(図7ステップ7
4)、接続テーブル3に行項目を追加し、その後、処理
を終了する。
【0071】例えば、形態素「地層」が例外パターンチ
ェックの対象であるとする。この形態素「地層」が(名
詞)というような品詞情報を持っていなければ、ステッ
プ85において、品詞が(例外品詞「地層」)、見出し
が「地層」である単語として辞書4に登録される。これ
に対して、形態素「地層(名詞)」のように、処理対象
形態素が品詞情報を持っていれば、ステップ82におい
て、この(名詞)という品詞が辞書4に存在する品詞か
どうかがチェックされる。
ェックの対象であるとする。この形態素「地層」が(名
詞)というような品詞情報を持っていなければ、ステッ
プ85において、品詞が(例外品詞「地層」)、見出し
が「地層」である単語として辞書4に登録される。これ
に対して、形態素「地層(名詞)」のように、処理対象
形態素が品詞情報を持っていれば、ステップ82におい
て、この(名詞)という品詞が辞書4に存在する品詞か
どうかがチェックされる。
【0072】(名詞)という品詞が辞書4に存在すれば
ステップ83に進む。一方、もし処理対象形態素「地
層」が(サ変でない名詞)という品詞情報を持ってお
り、(サ変でない名詞)という品詞が辞書4に存在しな
いとすれば、ステップ86において、処理対象形態素
「地層」は、品詞が(サ変でない名詞)、見出しが「地
層」である単語として辞書4に登録される。
ステップ83に進む。一方、もし処理対象形態素「地
層」が(サ変でない名詞)という品詞情報を持ってお
り、(サ変でない名詞)という品詞が辞書4に存在しな
いとすれば、ステップ86において、処理対象形態素
「地層」は、品詞が(サ変でない名詞)、見出しが「地
層」である単語として辞書4に登録される。
【0073】ステップ83において、仮に品詞が(名
詞)、見出しが「地層」である単語が辞書4に存在しな
ければ、「地層(名詞)」は単なる未知語であったこと
になり、ステップ84で品詞が(名詞)、見出しが「地
層」である単語を辞書4に登録して処理を終了する。一
方、ステップ83において、品詞が(名詞)、見出しが
「地層」である単語が辞書4に存在していた場合、辞書
4に登録されているのに希望通りに解析されていない例
であると考えられるので、例外パターンとして取り扱わ
れる。この場合、ステップ89に進んで、改めて品詞が
(例外品詞「地層」)、見出しが「地層」である単語と
して辞書4に登録される。
詞)、見出しが「地層」である単語が辞書4に存在しな
ければ、「地層(名詞)」は単なる未知語であったこと
になり、ステップ84で品詞が(名詞)、見出しが「地
層」である単語を辞書4に登録して処理を終了する。一
方、ステップ83において、品詞が(名詞)、見出しが
「地層」である単語が辞書4に存在していた場合、辞書
4に登録されているのに希望通りに解析されていない例
であると考えられるので、例外パターンとして取り扱わ
れる。この場合、ステップ89に進んで、改めて品詞が
(例外品詞「地層」)、見出しが「地層」である単語と
して辞書4に登録される。
【0074】未知語以外の場合であって辞書4に登録さ
れた場合には、全て例外パターンであるので、ステップ
87において形態素「地層」に例外パターンフラグをセ
ットする。
れた場合には、全て例外パターンであるので、ステップ
87において形態素「地層」に例外パターンフラグをセ
ットする。
【0075】そして、ステップ88において、「地層」
が形態素M1として処理されてきたならば、接続テーブ
ル3に「地層」の列項目を追加し、全ての欄に最小値
(0)を代入し、何ものとも接続しない状態にしておく
(図10(a))。仮に、「地層」が形態素M2として
処理されてきたならば、接続テーブル3に「地層」の行
項目を追加し、全ての欄に最小値(0)を代入し、何も
のとも接続しない状態にしておく(図12(a))。
が形態素M1として処理されてきたならば、接続テーブ
ル3に「地層」の列項目を追加し、全ての欄に最小値
(0)を代入し、何ものとも接続しない状態にしておく
(図10(a))。仮に、「地層」が形態素M2として
処理されてきたならば、接続テーブル3に「地層」の行
項目を追加し、全ての欄に最小値(0)を代入し、何も
のとも接続しない状態にしておく(図12(a))。
【0076】但し、「地層(サ変でない名詞)」のよう
に辞書4にない品詞が指定され、処理経路81−82−
86−87を経て、ステップ88に到達した形態素の場
合には、接続テーブル3に追加される列項目ないし行項
目は単語の見出しである「地層」ではなく、ユーザ追加
の品詞である「(サ変でない名詞)」として追加される
(図12(b))。
に辞書4にない品詞が指定され、処理経路81−82−
86−87を経て、ステップ88に到達した形態素の場
合には、接続テーブル3に追加される列項目ないし行項
目は単語の見出しである「地層」ではなく、ユーザ追加
の品詞である「(サ変でない名詞)」として追加される
(図12(b))。
【0077】これによって、「地層^サ変でない名詞/
は^副助詞/ずれ^名詞/だ^助動詞」を予め学習させ
ておけば、接続テーブル3には(サ変でない名詞)の列
が追加されていることになる。このとき「道路はずれ
だ」という文字列に対して類似の分割を行ないたけれ
ば、「道路」に対して(サ変でない名詞)の品詞指定を
するだけで良い。つまり「道路^サ変でない名詞」を入
力することで、辞書4に品詞が(サ変でない名詞)で、
見出しが「道路」である単語が登録され、(サ変でない
名詞)の接続に関しては既に接続テーブル3に記述され
ているので、それ以上の入力しなくても「道路はずれ
だ」という入力に対して「地層」の場合と同様に「道路
/は/ずれ/だ」と出力される。
は^副助詞/ずれ^名詞/だ^助動詞」を予め学習させ
ておけば、接続テーブル3には(サ変でない名詞)の列
が追加されていることになる。このとき「道路はずれ
だ」という文字列に対して類似の分割を行ないたけれ
ば、「道路」に対して(サ変でない名詞)の品詞指定を
するだけで良い。つまり「道路^サ変でない名詞」を入
力することで、辞書4に品詞が(サ変でない名詞)で、
見出しが「道路」である単語が登録され、(サ変でない
名詞)の接続に関しては既に接続テーブル3に記述され
ているので、それ以上の入力しなくても「道路はずれ
だ」という入力に対して「地層」の場合と同様に「道路
/は/ずれ/だ」と出力される。
【0078】上記第1実施例によれば、ユーザが辞書4
だけでなく接続テーブル3に任意の項目を追加させるこ
とができる。また、上記第1実施例によれば、ユーザが
指定した形態素区切りは、その入力文についてのみ有効
に利用されるだけでなく、ユーザが指定した形態素区切
りをそれ以降に恒久的に反映させることができる。
だけでなく接続テーブル3に任意の項目を追加させるこ
とができる。また、上記第1実施例によれば、ユーザが
指定した形態素区切りは、その入力文についてのみ有効
に利用されるだけでなく、ユーザが指定した形態素区切
りをそれ以降に恒久的に反映させることができる。
【0079】例えば、「期待はずれだ」という入力文に
対して、「期待/はずれ/だ」という一般の解析結果を
出力し、かつ「地層はずれだ」という入力文に対しては
「地層/はずれ/だ/」という同様な解析結果ではな
く、常に「地層/は/ずれ/だ」という例外の解析結果
を出力させるために、ユーザがその例外パターンを項目
として接続テーブル3及び辞書4に記述させることがで
き、しかも、その記述を恒久的なものとできる。
対して、「期待/はずれ/だ」という一般の解析結果を
出力し、かつ「地層はずれだ」という入力文に対しては
「地層/はずれ/だ/」という同様な解析結果ではな
く、常に「地層/は/ずれ/だ」という例外の解析結果
を出力させるために、ユーザがその例外パターンを項目
として接続テーブル3及び辞書4に記述させることがで
き、しかも、その記述を恒久的なものとできる。
【0080】さらに、上記第1実施例によれば、入力文
に、区切り情報や品詞情報を盛り込むことで、接続テー
ブル3や辞書4に項目を追加できるようにしたので、接
続テーブル3や辞書4に項目を追加する手続きをユーザ
が容易に実行できる。
に、区切り情報や品詞情報を盛り込むことで、接続テー
ブル3や辞書4に項目を追加できるようにしたので、接
続テーブル3や辞書4に項目を追加する手続きをユーザ
が容易に実行できる。
【0081】さらにまた、上記第1実施例によれば、接
続テーブル3や辞書4をシステム提供側が作成したとき
に採用した品詞分類以外であっても、項目を追加するこ
とができ、ユーザはシステムが採用している品詞分類を
意識することなく項目追加を指示することができる。
続テーブル3や辞書4をシステム提供側が作成したとき
に採用した品詞分類以外であっても、項目を追加するこ
とができ、ユーザはシステムが採用している品詞分類を
意識することなく項目追加を指示することができる。
【0082】また、接続テーブル3の項目変更時には辞
書4の変更を要することが多いが、上記第1実施例によ
れば、接続テーブル3と辞書4との項目変更を関連して
行なうことができ、言い換えると、接続テーブル3の項
目変更操作と、辞書4の項目変更動作とを別個独立に行
なう必要がなく、使い勝手が良好である。
書4の変更を要することが多いが、上記第1実施例によ
れば、接続テーブル3と辞書4との項目変更を関連して
行なうことができ、言い換えると、接続テーブル3の項
目変更操作と、辞書4の項目変更動作とを別個独立に行
なう必要がなく、使い勝手が良好である。
【0083】(B)第2実施例
次に、本発明による形態素解析装置の第2実施例を図面
を参照しながら詳述する。この第2実施例の形態素解析
装置も、実際上、形態素解析用のプログラムやデータを
搭載したワークステーションやパーソナルコンピュータ
等の情報処理装置によって実現されているが、機能的に
は、図13のブロック図に示す構成を有する。なお、図
13において、第1実施例に係る図1との同一、対応部
分には、同一符号を付して示している。
を参照しながら詳述する。この第2実施例の形態素解析
装置も、実際上、形態素解析用のプログラムやデータを
搭載したワークステーションやパーソナルコンピュータ
等の情報処理装置によって実現されているが、機能的に
は、図13のブロック図に示す構成を有する。なお、図
13において、第1実施例に係る図1との同一、対応部
分には、同一符号を付して示している。
【0084】図1及び図13の比較から明らかなよう
に、この第2実施例の形態素解析装置は、第1実施例の
構成に加えて、さらにシソーラス8が設けられたもので
あり、接続テーブル・辞書入力部6が、所定の場合に
は、このシソーラス8の格納内容をも参照して、接続テ
ーブル3や辞書4に新たな内容を追加したり、格納内容
を修正したりする点が第1実施例とは異なっている。
に、この第2実施例の形態素解析装置は、第1実施例の
構成に加えて、さらにシソーラス8が設けられたもので
あり、接続テーブル・辞書入力部6が、所定の場合に
は、このシソーラス8の格納内容をも参照して、接続テ
ーブル3や辞書4に新たな内容を追加したり、格納内容
を修正したりする点が第1実施例とは異なっている。
【0085】シソーラス8には、ある単語と別な単語と
の意味的な類似度等の単語間の関係を抽出した情報が記
載されている。このような類似度の情報は、文献4や文
献5のような既存の文献を利用したものであっても良
い。また、文献6に記載されているような方法で新たに
作成されたものであっても良い。
の意味的な類似度等の単語間の関係を抽出した情報が記
載されている。このような類似度の情報は、文献4や文
献5のような既存の文献を利用したものであっても良
い。また、文献6に記載されているような方法で新たに
作成されたものであっても良い。
【0086】文献4『国立国語研究所編集、「分類語彙
表」、秀英出版株式会社、1964年発行』 文献5『大野、浜西著、「角川類語新辞典」、角川書店
株式会社、1981年発行』 文献6『松平、山本、坂本著、「共起データを用いた単
語の意味ネットワークの作成」、情報処理学会第42回
(平成3年前期)全国大会、3−202』 例えば、シソーラス8として、図14に示すような仮想
ネットワークで構成されているものを適用できる。すな
わち、各単語をノードにし、類似関係にある単語(ノー
ド)間をリンクで接続し、そのリンクに両単語間の類似
度の値を付与させている仮想的なネットワークで構成さ
れているものを適用できる。図14は、仮想ネットワー
クの単語「町」を中心とした一部を示しており、単語
「町」は、単語「市」、「村」、「里」、「自由」、
「学校」等と類似関係があり、単語「町」との類似度が
それぞれ、0.89、0.95、0.91、0.07、
0.32の場合を示している。
表」、秀英出版株式会社、1964年発行』 文献5『大野、浜西著、「角川類語新辞典」、角川書店
株式会社、1981年発行』 文献6『松平、山本、坂本著、「共起データを用いた単
語の意味ネットワークの作成」、情報処理学会第42回
(平成3年前期)全国大会、3−202』 例えば、シソーラス8として、図14に示すような仮想
ネットワークで構成されているものを適用できる。すな
わち、各単語をノードにし、類似関係にある単語(ノー
ド)間をリンクで接続し、そのリンクに両単語間の類似
度の値を付与させている仮想的なネットワークで構成さ
れているものを適用できる。図14は、仮想ネットワー
クの単語「町」を中心とした一部を示しており、単語
「町」は、単語「市」、「村」、「里」、「自由」、
「学校」等と類似関係があり、単語「町」との類似度が
それぞれ、0.89、0.95、0.91、0.07、
0.32の場合を示している。
【0087】この第2実施例の接続テーブル・辞書入力
部6も、出力照合部5から送られてきた情報に基づい
て、接続テーブル3及び又は辞書4の格納情報を変更し
たり追加したりするものである。しかし、第2実施例の
接続テーブル・辞書入力部6は、シソーラス8を利用す
るモード(以下、拡張モードと呼ぶ)が指定されている
ときには、シソーラス8に記載されている情報を参照し
て、接続テーブル3及び又は辞書4の格納情報に変更
(追加)を加え、シソーラス8を利用しないモード(以
下、単独モードと呼ぶ)が指定されているときには、シ
ソーラス8に記載されている情報を参照しないで、接続
テーブル3及び又は辞書4の格納情報を変更(追加)を
加えるものであり、この点、第1実施例とは異なってい
る。
部6も、出力照合部5から送られてきた情報に基づい
て、接続テーブル3及び又は辞書4の格納情報を変更し
たり追加したりするものである。しかし、第2実施例の
接続テーブル・辞書入力部6は、シソーラス8を利用す
るモード(以下、拡張モードと呼ぶ)が指定されている
ときには、シソーラス8に記載されている情報を参照し
て、接続テーブル3及び又は辞書4の格納情報に変更
(追加)を加え、シソーラス8を利用しないモード(以
下、単独モードと呼ぶ)が指定されているときには、シ
ソーラス8に記載されている情報を参照しないで、接続
テーブル3及び又は辞書4の格納情報を変更(追加)を
加えるものであり、この点、第1実施例とは異なってい
る。
【0088】なお、拡張モードか単独モードかは、入力
文の中に、例えば一方のモードを表わす記号を挿入する
ことで指示したり、装置のインタフェース(例えばソフ
トウェアスイッチやハードウェアスイッチ)等で指示し
たりする。以下では、前者として説明する。なお、拡張
モードは、入力文字列全体に対して指定しても良く、ま
た、入力文字列の単語毎に個別に指定しても良い。
文の中に、例えば一方のモードを表わす記号を挿入する
ことで指示したり、装置のインタフェース(例えばソフ
トウェアスイッチやハードウェアスイッチ)等で指示し
たりする。以下では、前者として説明する。なお、拡張
モードは、入力文字列全体に対して指定しても良く、ま
た、入力文字列の単語毎に個別に指定しても良い。
【0089】次に、以上のような各機能部1〜8でなる
第2実施例の形態素解析装置全体での処理の流れを説明
する。
第2実施例の形態素解析装置全体での処理の流れを説明
する。
【0090】第2実施例の形態素解析装置の全体の処理
の流れは、第1実施例とほぼ同様であって、図2に示す
フローチャートで表わされる。しかし、ユーザが希望す
る形態素解析結果の情報を伴う文字列の希望する形態素
解析結果と、区切り希望等を取り除いた文字列に対して
実行して得た形態素解析結果とが一致しない場合(ステ
ップ23で否定結果)におけるステップ24での処理が
第1実施例とは、若干異なっている。すなわち、拡張モ
ードが指定されていれば、シソーラス8に記載されてい
る単語間の意味的な類似度を参照しながら、一方、単独
モードが指定されていれば、シソーラス8は使用しない
で、接続テーブル3及び又は辞書4の格納情報を修正し
たり項目を追加したりして、解析の希望区切りを接続テ
ーブル3や辞書4に反映した後、ステップ22に戻って
再度形態素解析を実行する点が、第1実施例とは異なっ
ている。
の流れは、第1実施例とほぼ同様であって、図2に示す
フローチャートで表わされる。しかし、ユーザが希望す
る形態素解析結果の情報を伴う文字列の希望する形態素
解析結果と、区切り希望等を取り除いた文字列に対して
実行して得た形態素解析結果とが一致しない場合(ステ
ップ23で否定結果)におけるステップ24での処理が
第1実施例とは、若干異なっている。すなわち、拡張モ
ードが指定されていれば、シソーラス8に記載されてい
る単語間の意味的な類似度を参照しながら、一方、単独
モードが指定されていれば、シソーラス8は使用しない
で、接続テーブル3及び又は辞書4の格納情報を修正し
たり項目を追加したりして、解析の希望区切りを接続テ
ーブル3や辞書4に反映した後、ステップ22に戻って
再度形態素解析を実行する点が、第1実施例とは異なっ
ている。
【0091】次に、第2実施例の入力判定部1での処理
を説明する。第2実施例の入力判定部1も、基本的に
は、第1実施例の説明で用いた図3に示すフローチャー
トに従った処理を行なう。しかし、ステップ34におい
て、入力文字列から除外する情報の種類が多くなってい
る点が第1実施例と異なっている。
を説明する。第2実施例の入力判定部1も、基本的に
は、第1実施例の説明で用いた図3に示すフローチャー
トに従った処理を行なう。しかし、ステップ34におい
て、入力文字列から除外する情報の種類が多くなってい
る点が第1実施例と異なっている。
【0092】第2実施例の場合、入力判定部1に、ユー
ザが希望する形態素解析結果の情報を伴う文字列と、ユ
ーザが希望する形態素解析結果の情報を伴わない文字列
との2種類が入力され得る点は、第1実施例と同様であ
るが、ユーザが希望する形態素解析結果の情報を伴う文
字列の態様は、第1実施例の場合より多くなされてい
る。
ザが希望する形態素解析結果の情報を伴う文字列と、ユ
ーザが希望する形態素解析結果の情報を伴わない文字列
との2種類が入力され得る点は、第1実施例と同様であ
るが、ユーザが希望する形態素解析結果の情報を伴う文
字列の態様は、第1実施例の場合より多くなされてい
る。
【0093】図15は、第2実施例の入力判定部1に入
力される文字列の態様を示した説明図である。図15
(a)〜(c)の文字列の態様は、図4に示した第1実
施例の場合と同様であるので、その説明は省略する。図
15(d)に示す文字列は、環境指定記号として例えば
「(@=extend=@)」を用いて、文字列全体に
対してシソーラス8を利用する拡張モードが指定されて
いる場合を表わしている。図15(e)に示す文字列
は、モード指定記号として例えば「 extend」を
用いて、文字列中の特定の単語、この場合「町」に対し
てシソーラス8を利用する拡張モードが指定されている
場合を表わしている。
力される文字列の態様を示した説明図である。図15
(a)〜(c)の文字列の態様は、図4に示した第1実
施例の場合と同様であるので、その説明は省略する。図
15(d)に示す文字列は、環境指定記号として例えば
「(@=extend=@)」を用いて、文字列全体に
対してシソーラス8を利用する拡張モードが指定されて
いる場合を表わしている。図15(e)に示す文字列
は、モード指定記号として例えば「 extend」を
用いて、文字列中の特定の単語、この場合「町」に対し
てシソーラス8を利用する拡張モードが指定されている
場合を表わしている。
【0094】従って、図15(d)又は(e)に示す文
字列が入力された場合には、上記ステップ34の処理に
おいて、環境指定記号「(@=extend=@)」や
モード指定記号「 extend」も除外され、図15
(a)に示すような文字列「町はずれだ」に変換されて
ステップ32で形態素解析部2に送られることになる。
字列が入力された場合には、上記ステップ34の処理に
おいて、環境指定記号「(@=extend=@)」や
モード指定記号「 extend」も除外され、図15
(a)に示すような文字列「町はずれだ」に変換されて
ステップ32で形態素解析部2に送られることになる。
【0095】形態素解析部2及び表示出力部7の処理
は、従来装置と同様であるので、その説明は省略する。
は、従来装置と同様であるので、その説明は省略する。
【0096】また、出力照合部5の処理も、第1実施例
の出力照合部5の処理(図5)と同様であるので、その
説明は省略する。なお、出力照合部5は、当然に、環境
指定記号「(@=extend=@)」やモード指定記
号「 extend」は照合対象とはしないが、照合が
不一致の場合には、環境指定記号「(@=extend
=@)」やモード指定記号「 extend」の情報も
接続テーブル・辞書入力部6に送出する。
の出力照合部5の処理(図5)と同様であるので、その
説明は省略する。なお、出力照合部5は、当然に、環境
指定記号「(@=extend=@)」やモード指定記
号「 extend」は照合対象とはしないが、照合が
不一致の場合には、環境指定記号「(@=extend
=@)」やモード指定記号「 extend」の情報も
接続テーブル・辞書入力部6に送出する。
【0097】次に、第2実施例の接続テーブル・辞書入
力部6の処理(図2のステップ24参照)を説明する。
力部6の処理(図2のステップ24参照)を説明する。
【0098】第2実施例の接続テーブル・辞書入力部6
の全体処理も、基本的には、上述した第1実施例に係る
図6に示す通りである。また、第2実施例においても、
図6のステップ65の接続テーブル3及び辞書4のチェ
ック、登録処理は、基本的には、上述した第1実施例に
係る図7に示す通りである。
の全体処理も、基本的には、上述した第1実施例に係る
図6に示す通りである。また、第2実施例においても、
図6のステップ65の接続テーブル3及び辞書4のチェ
ック、登録処理は、基本的には、上述した第1実施例に
係る図7に示す通りである。
【0099】しかしながら、第2実施例の場合、図7の
ステップ72又は74の処理、すなわち例外パターンの
チェック及び登録処理が第1実施例の場合と若干異なっ
ている。図16は、第2実施例における図7のステップ
72又は74の処理を示すものであり、上述した図8と
の同一、対応ステップには、同一符号を付して示してい
る。
ステップ72又は74の処理、すなわち例外パターンの
チェック及び登録処理が第1実施例の場合と若干異なっ
ている。図16は、第2実施例における図7のステップ
72又は74の処理を示すものであり、上述した図8と
の同一、対応ステップには、同一符号を付して示してい
る。
【0100】まず、処理対象形態素(M1又はM2)に
品詞指定があるかどうかをチェックする(ステップ8
1)。処理対象形態素に品詞指定がなければ、その形態
素用の例外品詞グループを一つ作成して、その例外品詞
グループ名を品詞として、その形態素を辞書4に登録す
る(ステップ85)。一方、処理対象形態素に品詞指定
があれば、その形態素に指定された品詞が辞書4に存在
する品詞かどうかチェックする(ステップ82)。形態
素に指定された品詞が辞書4に存在しない品詞であった
場合、その形態素を、指定された品詞で辞書4に登録す
る(ステップ86)。形態素に指定された品詞が既に辞
書4に存在する品詞であった場合には、形態素に指定さ
れた品詞と見出し語の組合せで既に辞書4に登録されて
いるかどうかをチェックする(ステップ83)。形態素
に指定された品詞と見出し語の組合せで辞書4に登録さ
れていなければ、未知語と判定し、指定された品詞と見
出し語の組合せで辞書4に登録して、処理を終了する
(ステップ84)。形態素に指定された品詞と見出し語
の組合せで既に辞書4に登録されていれば、登録されて
いるのに解析結果が希望と異なるパターンと判定し、そ
の形態素用の例外品詞グループを一つ作成して、その例
外品詞グループ名を品詞として、その形態素を辞書4に
登録する(ステップ89)。
品詞指定があるかどうかをチェックする(ステップ8
1)。処理対象形態素に品詞指定がなければ、その形態
素用の例外品詞グループを一つ作成して、その例外品詞
グループ名を品詞として、その形態素を辞書4に登録す
る(ステップ85)。一方、処理対象形態素に品詞指定
があれば、その形態素に指定された品詞が辞書4に存在
する品詞かどうかチェックする(ステップ82)。形態
素に指定された品詞が辞書4に存在しない品詞であった
場合、その形態素を、指定された品詞で辞書4に登録す
る(ステップ86)。形態素に指定された品詞が既に辞
書4に存在する品詞であった場合には、形態素に指定さ
れた品詞と見出し語の組合せで既に辞書4に登録されて
いるかどうかをチェックする(ステップ83)。形態素
に指定された品詞と見出し語の組合せで辞書4に登録さ
れていなければ、未知語と判定し、指定された品詞と見
出し語の組合せで辞書4に登録して、処理を終了する
(ステップ84)。形態素に指定された品詞と見出し語
の組合せで既に辞書4に登録されていれば、登録されて
いるのに解析結果が希望と異なるパターンと判定し、そ
の形態素用の例外品詞グループを一つ作成して、その例
外品詞グループ名を品詞として、その形態素を辞書4に
登録する(ステップ89)。
【0101】なお、ステップ85及び89において、処
理対象形態素用の例外品詞グループを一つ作成して、そ
の例外品詞グループ名を品詞として、その形態素を辞書
4に登録するようにしたのは、第2実施例の場合には、
第1実施例とは異なって、処理対象形態素だけでなく、
その類似単語も同一グループとして処理できるようにす
る必要があるためである。
理対象形態素用の例外品詞グループを一つ作成して、そ
の例外品詞グループ名を品詞として、その形態素を辞書
4に登録するようにしたのは、第2実施例の場合には、
第1実施例とは異なって、処理対象形態素だけでなく、
その類似単語も同一グループとして処理できるようにす
る必要があるためである。
【0102】(1) 処理対象形態素に品詞指定がなくてそ
の形態素を例外品詞グループ名で辞書4に登録した後、
(2) 処理対象形態素に品詞指定はあるがその形態素に指
定された品詞が辞書4に存在しないで、その形態素を指
定された品詞で辞書4に登録した後、(3) 形態素に指定
された品詞と見出し語の組合せで既に辞書4に登録され
ていて、その形態素を例外品詞グループ名で辞書4に登
録した後には、対象となっている形態素に例外パターン
フラグをセットする(ステップ87)。
の形態素を例外品詞グループ名で辞書4に登録した後、
(2) 処理対象形態素に品詞指定はあるがその形態素に指
定された品詞が辞書4に存在しないで、その形態素を指
定された品詞で辞書4に登録した後、(3) 形態素に指定
された品詞と見出し語の組合せで既に辞書4に登録され
ていて、その形態素を例外品詞グループ名で辞書4に登
録した後には、対象となっている形態素に例外パターン
フラグをセットする(ステップ87)。
【0103】そして、後述する図17に示すシソーラス
参照ルーチンを実行した後(ステップ90)、接続テー
ブル3に列項目又は行項目を追加し、全ての欄に最小
値、すなわち接続しないことを示す値(0)を代入して
おく(ステップ88)。ここで、形態素M1が処理対象
であった場合には(図7ステップ72)、接続テーブル
3に列項目を追加し、形態素M2が処理対象であった場
合には(図7ステップ74)、接続テーブル3に行項目
を追加し、その後、処理を終了する。
参照ルーチンを実行した後(ステップ90)、接続テー
ブル3に列項目又は行項目を追加し、全ての欄に最小
値、すなわち接続しないことを示す値(0)を代入して
おく(ステップ88)。ここで、形態素M1が処理対象
であった場合には(図7ステップ72)、接続テーブル
3に列項目を追加し、形態素M2が処理対象であった場
合には(図7ステップ74)、接続テーブル3に行項目
を追加し、その後、処理を終了する。
【0104】すなわち、この第2実施例においては、第
1実施例に比較して、(1) ステップ85及び89におい
て処理対象形態素を例外パターンとして辞書4に登録す
る際に、類似単語の登録をも考慮し、その形態素用の例
外品詞グループを一つ作成して、その例外品詞グループ
名を品詞として登録する点、(2) 例外パターンのチェッ
ク及び登録処理中に、シソーラス参照ルーチンの処理ス
テップ90が追加されている点が異なる。
1実施例に比較して、(1) ステップ85及び89におい
て処理対象形態素を例外パターンとして辞書4に登録す
る際に、類似単語の登録をも考慮し、その形態素用の例
外品詞グループを一つ作成して、その例外品詞グループ
名を品詞として登録する点、(2) 例外パターンのチェッ
ク及び登録処理中に、シソーラス参照ルーチンの処理ス
テップ90が追加されている点が異なる。
【0105】以下では、この第2実施例において、追加
されたシソーラス参照ルーチンの処理を、図17のフロ
ーチャートを参照しながら詳述する。
されたシソーラス参照ルーチンの処理を、図17のフロ
ーチャートを参照しながら詳述する。
【0106】かかるシソーラス参照ルーチンに入ると、
まず、現在の処理対象形態素に拡張モードが指定されて
いるか否かを判別する(ステップ171)。上述したよ
うに、文字列全体に対してシソーラス8を利用する拡張
モードが指定されている場合と、文字列中の特定の単語
(形態素)に対してシソーラス8を利用する拡張モード
が指定されている場合とがあるが、いずれにせよ、現在
の処理対象形態素に拡張モードが指定されているか否か
を判別する。
まず、現在の処理対象形態素に拡張モードが指定されて
いるか否かを判別する(ステップ171)。上述したよ
うに、文字列全体に対してシソーラス8を利用する拡張
モードが指定されている場合と、文字列中の特定の単語
(形態素)に対してシソーラス8を利用する拡張モード
が指定されている場合とがあるが、いずれにせよ、現在
の処理対象形態素に拡張モードが指定されているか否か
を判別する。
【0107】拡張モードが指定されていなければ、直ち
に当該シソーラス参照ルーチンを終了する。
に当該シソーラス参照ルーチンを終了する。
【0108】これに対して、拡張モードが指定されてい
れば、処理対象形態素をキーとしてシソーラス8を参照
する(ステップ172)。そして、処理対象形態素との
類似度が予め規定されている閾値以上の単語がシソーラ
ス8にあるか否かを判別し(ステップ173)、閾値以
上の単語があれば、その単語を、処理対象形態素が有す
る例外品詞グループ名又はユーザが指定した新たな品詞
名を品詞として辞書4に追加登録する(ステップ17
4)。このような処理対象形態素に対して閾値以上の類
似度を有する単語の検索、辞書4への追加登録は、処理
対象形態素に対して閾値以上の類似度を有する単語が見
付からなくなるまで繰り返される。
れば、処理対象形態素をキーとしてシソーラス8を参照
する(ステップ172)。そして、処理対象形態素との
類似度が予め規定されている閾値以上の単語がシソーラ
ス8にあるか否かを判別し(ステップ173)、閾値以
上の単語があれば、その単語を、処理対象形態素が有す
る例外品詞グループ名又はユーザが指定した新たな品詞
名を品詞として辞書4に追加登録する(ステップ17
4)。このような処理対象形態素に対して閾値以上の類
似度を有する単語の検索、辞書4への追加登録は、処理
対象形態素に対して閾値以上の類似度を有する単語が見
付からなくなるまで繰り返される。
【0109】処理対象形態素との類似度が閾値以上の単
語がシソーラス8に存在しない場合、また、処理対象形
態素との類似度が予め規定されている閾値以上の単語を
全て見付け出して追加登録を実行し終えた場合には、当
該シソーラス参照ルーチンを終了する。
語がシソーラス8に存在しない場合、また、処理対象形
態素との類似度が予め規定されている閾値以上の単語を
全て見付け出して追加登録を実行し終えた場合には、当
該シソーラス参照ルーチンを終了する。
【0110】なお、図16のステップ85及び87を経
てシソーラス参照ルーチンに入り、また、図16のステ
ップ89及び87を経てシソーラス参照ルーチンに入
り、ステップ174に進んだ場合には、類似度が高い単
語を、処理対象形態素が有する例外品詞グループ名を品
詞として辞書4に追加登録する。一方、図16のステッ
プ86及び87を経てシソーラス参照ルーチンに入って
ステップ174に進んだ場合には、類似度が高い単語
を、処理対象形態素についてユーザが指定した新たな品
詞名を品詞として辞書4に追加登録する。
てシソーラス参照ルーチンに入り、また、図16のステ
ップ89及び87を経てシソーラス参照ルーチンに入
り、ステップ174に進んだ場合には、類似度が高い単
語を、処理対象形態素が有する例外品詞グループ名を品
詞として辞書4に追加登録する。一方、図16のステッ
プ86及び87を経てシソーラス参照ルーチンに入って
ステップ174に進んだ場合には、類似度が高い単語
を、処理対象形態素についてユーザが指定した新たな品
詞名を品詞として辞書4に追加登録する。
【0111】例えば、図15(b)に示す文字列「町/
はずれ/だ」や図15(c)に示す文字列「町^名詞/
はずれ^名詞/だ^助動詞」が入力され、出力照合部5
が、その文字列から区切り記号等を除いた文字列「町は
ずれだ」(図15(a)参照)に対して形態素解析部2
が実行した解析結果と入力されたユーザ希望の解析結果
とが不一致であると判定した場合には、接続テーブル・
辞書入力部6の処理に進むが、このときには、どの単語
にも拡張モードが指定されていないので、接続テーブル
・辞書入力部6は、シソーラス参照ルーチンをステップ
171で抜け出ることにより、第1実施例と同様に処理
して、処理対象形態素についてのみ接続テーブル3や辞
書4に対する更新、追加を行なう。
はずれ/だ」や図15(c)に示す文字列「町^名詞/
はずれ^名詞/だ^助動詞」が入力され、出力照合部5
が、その文字列から区切り記号等を除いた文字列「町は
ずれだ」(図15(a)参照)に対して形態素解析部2
が実行した解析結果と入力されたユーザ希望の解析結果
とが不一致であると判定した場合には、接続テーブル・
辞書入力部6の処理に進むが、このときには、どの単語
にも拡張モードが指定されていないので、接続テーブル
・辞書入力部6は、シソーラス参照ルーチンをステップ
171で抜け出ることにより、第1実施例と同様に処理
して、処理対象形態素についてのみ接続テーブル3や辞
書4に対する更新、追加を行なう。
【0112】これに対して、例えば、図15(d)に示
す文字列「(@=extend=@)町/はずれ/だ」
や図15(e)に示す文字列「町 extend/はず
れ/だ」」が入力され、出力照合部5が、その文字列か
ら区切り記号等を除いた文字列「町はずれだ」(図15
(a)参照)に対して形態素解析部2が実行した解析結
果と入力されたユーザ希望の解析結果とが不一致である
と判定した場合にも、接続テーブル・辞書入力部6の処
理に進むが、このときには、全て又は一部の単語につい
て拡張モードが指定されているので、接続テーブル・辞
書入力部6は、拡張モードが指定されている単語の類似
単語についても辞書4に対する更新、追加を行なう。
す文字列「(@=extend=@)町/はずれ/だ」
や図15(e)に示す文字列「町 extend/はず
れ/だ」」が入力され、出力照合部5が、その文字列か
ら区切り記号等を除いた文字列「町はずれだ」(図15
(a)参照)に対して形態素解析部2が実行した解析結
果と入力されたユーザ希望の解析結果とが不一致である
と判定した場合にも、接続テーブル・辞書入力部6の処
理に進むが、このときには、全て又は一部の単語につい
て拡張モードが指定されているので、接続テーブル・辞
書入力部6は、拡張モードが指定されている単語の類似
単語についても辞書4に対する更新、追加を行なう。
【0113】今、拡張モードが指定されている形態素
「町」について、シソーラス参照ルーチンに入ったとす
る。また、このシソーラス参照ルーチンで用いられる閾
値が0.9であったとする。拡張モードが指定されてい
てステップ171において肯定結果が得られるので、ス
テップ172において処理対象形態素「町」をキーとし
てシソーラス8が参照される。シソーラス8の「町」に
関連する部分が図14に示すようなものであったとす
る。
「町」について、シソーラス参照ルーチンに入ったとす
る。また、このシソーラス参照ルーチンで用いられる閾
値が0.9であったとする。拡張モードが指定されてい
てステップ171において肯定結果が得られるので、ス
テップ172において処理対象形態素「町」をキーとし
てシソーラス8が参照される。シソーラス8の「町」に
関連する部分が図14に示すようなものであったとす
る。
【0114】このとき、閾値0.9より大きい類似度
0.95を有する単語「村」がステップ173において
取り出され、この単語「村」が、ステップ174におい
て、処理対象形態素「町」が有する例外品詞グループ名
(例えば、『例外品詞グループ「町」』とする)を品詞
として辞書4に追加登録され、又は、処理対象形態素
「町」についてユーザが指定した新たな品詞名(図15
では例示していないが、例えば、「サ変でない名詞」と
いう品詞指定があればこの品詞名)を品詞として辞書4
に追加登録される。
0.95を有する単語「村」がステップ173において
取り出され、この単語「村」が、ステップ174におい
て、処理対象形態素「町」が有する例外品詞グループ名
(例えば、『例外品詞グループ「町」』とする)を品詞
として辞書4に追加登録され、又は、処理対象形態素
「町」についてユーザが指定した新たな品詞名(図15
では例示していないが、例えば、「サ変でない名詞」と
いう品詞指定があればこの品詞名)を品詞として辞書4
に追加登録される。
【0115】また、閾値0.9より大きい類似度0.9
1を有する単語「里」がステップ173において取り出
され、この単語「里」が、ステップ174において、処
理対象形態素「町」が有する例外品詞グループ名(例え
ば、『例外品詞グループ「町」』とする)を品詞として
辞書4に追加登録され、又は、処理対象形態素「町」に
ついてユーザが指定した新たな品詞名(例えば、「サ変
でない名詞」という品詞指定があればこの品詞名)を品
詞として辞書4に追加登録される。
1を有する単語「里」がステップ173において取り出
され、この単語「里」が、ステップ174において、処
理対象形態素「町」が有する例外品詞グループ名(例え
ば、『例外品詞グループ「町」』とする)を品詞として
辞書4に追加登録され、又は、処理対象形態素「町」に
ついてユーザが指定した新たな品詞名(例えば、「サ変
でない名詞」という品詞指定があればこの品詞名)を品
詞として辞書4に追加登録される。
【0116】シソーラス8における「町」に対する他の
類似単語「市」、「自由」、「学校」等は、類似度が閾
値0.9より小さいので、追加登録されることはなく、
上述したように、単語「村」及び「里」についての辞書
4への追加登録がなされた場合に、シソーラス参照ルー
チンから抜け出る。
類似単語「市」、「自由」、「学校」等は、類似度が閾
値0.9より小さいので、追加登録されることはなく、
上述したように、単語「村」及び「里」についての辞書
4への追加登録がなされた場合に、シソーラス参照ルー
チンから抜け出る。
【0117】なお、類似単語の検索時には辞書4にのみ
登録が行なわれるが、この類似単語が属する例外品詞グ
ループについては、処理対象形態素に関連して接続テー
ブル3に登録されており、結局、類似単語についての接
続関係も接続テーブル3に登録されていることになる。
登録が行なわれるが、この類似単語が属する例外品詞グ
ループについては、処理対象形態素に関連して接続テー
ブル3に登録されており、結局、類似単語についての接
続関係も接続テーブル3に登録されていることになる。
【0118】図18は、図15(e)に示す文字列「町
extend/はずれ/だ」」が入力され、接続テー
ブル・辞書入力部6が形態素「町」を例外パターンとし
た場合の接続テーブル3の変更の流れを示すものであ
る。形態素「町」については、その形態素について作成
された例外品詞グループ名(例えば、『例外品詞グルー
プ「町」』とする)を品詞として辞書4に追加登録さ
れ、その類似単語「村」や「里」も同一の例外品詞グル
ープ名(例えば、『例外品詞グループ「町」』とする)
で辞書4に登録されるので、これ以降、文字列「村はず
れだ」や「里はずれだ」が入力されても接続テーブル3
のその接続関係の情報が参照される。
extend/はずれ/だ」」が入力され、接続テー
ブル・辞書入力部6が形態素「町」を例外パターンとし
た場合の接続テーブル3の変更の流れを示すものであ
る。形態素「町」については、その形態素について作成
された例外品詞グループ名(例えば、『例外品詞グルー
プ「町」』とする)を品詞として辞書4に追加登録さ
れ、その類似単語「村」や「里」も同一の例外品詞グル
ープ名(例えば、『例外品詞グループ「町」』とする)
で辞書4に登録されるので、これ以降、文字列「村はず
れだ」や「里はずれだ」が入力されても接続テーブル3
のその接続関係の情報が参照される。
【0119】上記第2実施例によっても、ユーザが辞書
4だけでなく接続テーブル3に任意の項目を追加させる
ことができ、また、ユーザが指定した形態素区切りは、
その入力文についてのみ有効に利用されるだけでなく、
ユーザが指定した形態素区切りをそれ以降に恒久的に反
映させることができる。さらに、上記第2実施例によっ
ても、入力文に、区切り情報や品詞情報を盛り込むこと
で、接続テーブル3や辞書4に項目を追加できるように
したので、接続テーブル3や辞書4に項目を追加する手
続きをユーザが容易に実行できる。さらにまた、上記第
2実施例によっても、接続テーブル3や辞書4をシステ
ム提供側が作成したときに採用した品詞分類以外であっ
ても、項目を追加することができ、ユーザはシステムが
採用している品詞分類を意識することなく項目追加を指
示することができる。また、接続テーブル3の項目変更
時には辞書4の変更を要することが多いが、上記第2実
施例によれば、接続テーブル3と辞書4との項目変更を
関連して行なうことができ、言い換えると、接続テーブ
ル3の項目変更操作と、辞書4の項目変更動作とを別個
独立に行なう必要がなく、使い勝手が良好である。
4だけでなく接続テーブル3に任意の項目を追加させる
ことができ、また、ユーザが指定した形態素区切りは、
その入力文についてのみ有効に利用されるだけでなく、
ユーザが指定した形態素区切りをそれ以降に恒久的に反
映させることができる。さらに、上記第2実施例によっ
ても、入力文に、区切り情報や品詞情報を盛り込むこと
で、接続テーブル3や辞書4に項目を追加できるように
したので、接続テーブル3や辞書4に項目を追加する手
続きをユーザが容易に実行できる。さらにまた、上記第
2実施例によっても、接続テーブル3や辞書4をシステ
ム提供側が作成したときに採用した品詞分類以外であっ
ても、項目を追加することができ、ユーザはシステムが
採用している品詞分類を意識することなく項目追加を指
示することができる。また、接続テーブル3の項目変更
時には辞書4の変更を要することが多いが、上記第2実
施例によれば、接続テーブル3と辞書4との項目変更を
関連して行なうことができ、言い換えると、接続テーブ
ル3の項目変更操作と、辞書4の項目変更動作とを別個
独立に行なう必要がなく、使い勝手が良好である。
【0120】以上のような第1実施例と同様な効果に加
えて、この第2実施例によれば、シソーラス8を設け
て、ある形態素について、接続ケーブル3や辞書4に情
報を追加する際には、その形態素に対してある閾値以上
の類似度を有する他の単語についてもその形態素と同様
な品詞情報で辞書4に追加させるようにしたので、形態
素解析上で同様に取扱われる複数の類似単語を1回の入
力指令によって自動的にまとめて登録させることがで
き、一段と使い勝手を良くすることができる。
えて、この第2実施例によれば、シソーラス8を設け
て、ある形態素について、接続ケーブル3や辞書4に情
報を追加する際には、その形態素に対してある閾値以上
の類似度を有する他の単語についてもその形態素と同様
な品詞情報で辞書4に追加させるようにしたので、形態
素解析上で同様に取扱われる複数の類似単語を1回の入
力指令によって自動的にまとめて登録させることがで
き、一段と使い勝手を良くすることができる。
【0121】また、この第2実施例によれば、シソーラ
ス8を利用する拡張モードとシソーラス8を利用しない
単独モードとを用意したので、希望解析結果を類似単語
に拡張する必要がないと判断した場合には、単独モード
を指定すれば良く、希望解析結果が不必要な表現に自動
的に拡張されることを防止することができる。
ス8を利用する拡張モードとシソーラス8を利用しない
単独モードとを用意したので、希望解析結果を類似単語
に拡張する必要がないと判断した場合には、単独モード
を指定すれば良く、希望解析結果が不必要な表現に自動
的に拡張されることを防止することができる。
【0122】(C)他の実施例
なお、本発明の形態素解析装置はその用途はいかなるも
のであっても良く、種々の自然言語処理装置に適用でき
るものである。自然言語も日本語に限定されるものでは
なく、他の言語の入力文を対象とした自然言語処理装置
にも適用できるものである。
のであっても良く、種々の自然言語処理装置に適用でき
るものである。自然言語も日本語に限定されるものでは
なく、他の言語の入力文を対象とした自然言語処理装置
にも適用できるものである。
【0123】また、本発明の特徴に関係する接続テーブ
ル3及び辞書4は、項目の追加が応じられる構成であれ
ば良く、構成がテーブル構成に限定されるものではな
い。
ル3及び辞書4は、項目の追加が応じられる構成であれ
ば良く、構成がテーブル構成に限定されるものではな
い。
【0124】さらにまた、上記実施例においては、出力
照合部5からの情報に基づいて、接続テーブル・辞書入
力部6が接続テーブル3及び辞書4の項目変更を行なう
装置を示したが、上記実施例の出力照合部5から接続テ
ーブル・辞書入力部6に与えられる形式の情報をユーザ
が直接に接続テーブル・辞書入力部6に入力できるよう
な装置であっても良い。
照合部5からの情報に基づいて、接続テーブル・辞書入
力部6が接続テーブル3及び辞書4の項目変更を行なう
装置を示したが、上記実施例の出力照合部5から接続テ
ーブル・辞書入力部6に与えられる形式の情報をユーザ
が直接に接続テーブル・辞書入力部6に入力できるよう
な装置であっても良い。
【0125】上記第2実施例においては、処理対象形態
素と同様に辞書4等に登録動作する類似単語を弁別する
ための閾値の指定方法を言及しなかったが、装置が固定
的に閾値を有するものであっても良く、また、ユーザが
その都度閾値を指定するものであっても良い。装置が固
定的に有する場合であっても、例えば、ステップ85−
87を経てシソーラス参照ルーチンに進んだとき、ステ
ップ86−87を経てシソーラス参照ルーチンに進んだ
とき、ステップ89−87を経てシソーラス参照ルーチ
ンに進んだときとで、固定閾値を切り換えるようにして
も良い。
素と同様に辞書4等に登録動作する類似単語を弁別する
ための閾値の指定方法を言及しなかったが、装置が固定
的に閾値を有するものであっても良く、また、ユーザが
その都度閾値を指定するものであっても良い。装置が固
定的に有する場合であっても、例えば、ステップ85−
87を経てシソーラス参照ルーチンに進んだとき、ステ
ップ86−87を経てシソーラス参照ルーチンに進んだ
とき、ステップ89−87を経てシソーラス参照ルーチ
ンに進んだときとで、固定閾値を切り換えるようにして
も良い。
【0126】また、シソーラス8を類似関係が高い単語
だけを含むように構成し、閾値との比較を行なうことな
く、シソーラス8に含まれている処理対象形態素との類
似単語を全て追加処理するようにしても良い。
だけを含むように構成し、閾値との比較を行なうことな
く、シソーラス8に含まれている処理対象形態素との類
似単語を全て追加処理するようにしても良い。
【0127】さらに、上記第2実施例においては、シソ
ーラスを利用する拡張モードの場合に取りだてて指定す
るものを示したが、逆に、シソーラスを利用しない単独
モードの場合に取りだてて指定するものであっても良
い。
ーラスを利用する拡張モードの場合に取りだてて指定す
るものを示したが、逆に、シソーラスを利用しない単独
モードの場合に取りだてて指定するものであっても良
い。
【0128】
【発明の効果】以上のように、本発明によれば、希望解
析結果を表す文字列が与えられたときに、その内容に基
づいて、接続テーブル及び辞書の格納情報を追加、変更
する接続テーブル・辞書入力部を設けたので、ユーザは
簡単な入力操作によって、希望する解析結果が得られる
ように、接続テーブル及び辞書を一緒に恒久的に変更さ
せることができ、装置の使い勝手を従来より向上させる
ことができる。
析結果を表す文字列が与えられたときに、その内容に基
づいて、接続テーブル及び辞書の格納情報を追加、変更
する接続テーブル・辞書入力部を設けたので、ユーザは
簡単な入力操作によって、希望する解析結果が得られる
ように、接続テーブル及び辞書を一緒に恒久的に変更さ
せることができ、装置の使い勝手を従来より向上させる
ことができる。
【図1】第1実施例の構成を示すブロック図である。
【図2】第1実施例の全体の処理の流れを示すフローチ
ャートである。
ャートである。
【図3】第1実施例の入力判定部の処理を示すフローチ
ャートである。
ャートである。
【図4】第1実施例の入力文字列の例を示す説明図であ
る。
る。
【図5】第1実施例の出力照合部の処理を示すフローチ
ャートである。
ャートである。
【図6】第1実施例の接続テーブル・辞書入力部の処理
を示すフローチャート(その1)である。
を示すフローチャート(その1)である。
【図7】第1実施例の接続テーブル・辞書入力部の処理
を示すフローチャート(その2)である。
を示すフローチャート(その2)である。
【図8】第1実施例の接続テーブル・辞書入力部の処理
を示すフローチャート(その3)である。
を示すフローチャート(その3)である。
【図9】第1実施例の接続テーブル・辞書入力部の内部
スタックの変化例を示す説明図である。
スタックの変化例を示す説明図である。
【図10】第1実施例の接続テーブルの項目変化例を示
す説明図(その1)である。
す説明図(その1)である。
【図11】第1実施例の接続テーブルの項目変化例を示
す説明図(その2)である。
す説明図(その2)である。
【図12】第1実施例の接続テーブルの項目変化例を示
す説明図(その3)である。
す説明図(その3)である。
【図13】第2実施例の構成を示すブロック図である。
【図14】第2実施例のシソーラス8の構成例を示す説
明図である。
明図である。
【図15】第2実施例の拡張モードの指定方法の説明図
である。
である。
【図16】第2実施例の上記図8に対応する処理フロー
チャートである。
チャートである。
【図17】第2実施例のシソーラス参照ルーチンを示す
フローチャートである。
フローチャートである。
【図18】第2実施例の接続テーブルの項目変化例を示
す説明図である。
す説明図である。
1…入力判定部、2…形態素解析部、3…接続テーブ
ル、4…辞書、5…出力照合部、6…接続テーブル・辞
書入力部、7…表示出力部、8…シソーラス。
ル、4…辞書、5…出力照合部、6…接続テーブル・辞
書入力部、7…表示出力部、8…シソーラス。
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 山本 秀樹
東京都港区虎ノ門1丁目7番12号 沖電
気工業株式会社内
(72)発明者 松下 久明
東京都港区虎ノ門1丁目7番12号 沖電
気工業株式会社内
(72)発明者 下畑 さより
東京都港区虎ノ門1丁目7番12号 沖電
気工業株式会社内
(56)参考文献 特開 平4−32966(JP,A)
特開 平4−328679(JP,A)
特開 平5−334348(JP,A)
特開 平2−301869(JP,A)
(58)調査した分野(Int.Cl.7,DB名)
G06F 17/21 - 17/28
Claims (3)
- 【請求項1】 形態素解析部が、入力文の未処理部分に
対して辞書を参照して一致する単語を検索し、検索した
単語が、直前及び直後の形態素候補として規定された単
語と接続可能なものか否かを接続テーブルを参照して決
定し、可能であればその単語を形態素候補とし、不可能
であれば他の単語候補文字に対して判断をし直す形態素
解析装置において、 入力文が、新たな形態素解析の対象となる文字列ではな
く、ユーザが希望する形態素解析結果の情報を伴う文字
列である場合にその入力文字列からユーザが希望する形
態素解析結果の情報を取り除いた文字列を抽出して上記
形態素解析部に送る入力判定部と、 この入力判定部から送られたユーザが希望する形態素解
析結果の情報を伴う文字列と、上記形態素解析部から送
られてきた形態素解析結果とを照合し、不一致部分があ
るときに、希望解析結果を表す文字列の全体又は部分を
出力する出力照合部と、 この出力照合部から希望解析結果を表す文字列の全体又
は部分が与えられたときに、その文字列に基づいて、上
記接続テーブル及び上記辞書の格納情報を追加、変更す
る接続テーブル・辞書入力部とを備えたことを特徴とす
る形態素解析装置。 - 【請求項2】 意味的に類似する単語間の情報を記憶し
ている単語間類似情報記憶部をさらに備え、 上記接続テーブル・辞書入力部は、希望解析結果を表す
文字列の全体又は部分が与えられたときに、その文字列
に基づいて、その文字列に含まれている形態素、及び、
上記単語間類似情報記憶部に記憶されているこの形態素
に類似している単語の情報を、上記接続テーブル及び上
記辞書に追加、変更させることを特徴とする請求項1に
記載の形態素解析装置。 - 【請求項3】 上記接続テーブル・辞書入力部は、上記
単語間類似情報記憶部を利用するモードが指定されてい
る場合に、希望解析結果を表す文字列の全体又は部分が
与えられたときに、その文字列に基づいて、その文字列
に含まれている形態素、及び、上記単語間類似情報記憶
部に記憶されているこの形態素に類似している単語の情
報を、上記接続テーブル及び上記辞書に追加、変更さ
せ、上記単語間類似情報記憶部を利用しないモードが指
定されている場合に、希望解析結果を表す文字列の全体
又は部分が与えられたときに、その文字列に基づいて、
その文字列に含まれている形態素の情報を、上記接続テ
ーブル及び上記辞書に追加、変更させることを特徴とす
る請求項2に記載の形態素解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP00495595A JP3380077B2 (ja) | 1994-05-23 | 1995-01-17 | 形態素解析装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6-108492 | 1994-05-23 | ||
JP10849294 | 1994-05-23 | ||
JP00495595A JP3380077B2 (ja) | 1994-05-23 | 1995-01-17 | 形態素解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0844743A JPH0844743A (ja) | 1996-02-16 |
JP3380077B2 true JP3380077B2 (ja) | 2003-02-24 |
Family
ID=26338825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP00495595A Expired - Fee Related JP3380077B2 (ja) | 1994-05-23 | 1995-01-17 | 形態素解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3380077B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322412A (ja) * | 1999-05-11 | 2000-11-24 | Nec Corp | 日本語入力システム |
JP4539097B2 (ja) * | 2004-01-23 | 2010-09-08 | アイシン・エィ・ダブリュ株式会社 | 文章読み上げシステム及び方法 |
JP6318024B2 (ja) * | 2014-06-26 | 2018-04-25 | 株式会社日立超エル・エス・アイ・システムズ | 形態素解析チューニング装置、音声合成システム、及び形態素解析チューニング方法 |
JP2019016162A (ja) * | 2017-07-06 | 2019-01-31 | 富士通株式会社 | 形態素解析プログラム、形態素解析装置、および形態素解析方法 |
-
1995
- 1995-01-17 JP JP00495595A patent/JP3380077B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0844743A (ja) | 1996-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4544674B2 (ja) | 選択文字列に関連する情報を提供するシステム | |
JP4491187B2 (ja) | 単語間の翻訳関係を計算する方法 | |
JP4504555B2 (ja) | 翻訳支援システム | |
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
JPH0567144A (ja) | 前編集支援方法およびその装置 | |
JPH09198395A (ja) | 文書検索装置 | |
JP3380077B2 (ja) | 形態素解析装置 | |
CN117195887A (zh) | 一种基于核心词扩散的英语新闻要素抽取方法 | |
JPH08129554A (ja) | 関係表現抽出装置および関係表現検索装置 | |
JP3575242B2 (ja) | キーワード抽出装置 | |
JP2894301B2 (ja) | 文脈情報を用いた文書検索方法および装置 | |
Souter et al. | Using Parsed Corpora: A review of current practice | |
JPH07244669A (ja) | 文書検索方式 | |
JPH1145266A (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4043176B2 (ja) | 自然言語処理装置 | |
JPH1145249A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
KR100400222B1 (ko) | 선택 제한을 위한 동적 의미 분류 방법 및 장치 | |
JPH0561902A (ja) | 機械翻訳システム | |
JP3358100B2 (ja) | 日本語質問メッセージ解析方法及び装置 | |
JP3197110B2 (ja) | 自然言語解析装置および機械翻訳装置 | |
JP2897942B2 (ja) | 日本語形態素解析システム及び形態素解析方式 | |
JPH0410161A (ja) | 省略補完処理装置 | |
Collins | The University of Sheffield | |
JP2009009583A (ja) | 構文パースを用いてセグメント化されていないテキストをセグメント化する方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081213 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081213 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091213 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |