JP2821143B2 - 形態素分解装置 - Google Patents
形態素分解装置Info
- Publication number
- JP2821143B2 JP2821143B2 JP63201603A JP20160388A JP2821143B2 JP 2821143 B2 JP2821143 B2 JP 2821143B2 JP 63201603 A JP63201603 A JP 63201603A JP 20160388 A JP20160388 A JP 20160388A JP 2821143 B2 JP2821143 B2 JP 2821143B2
- Authority
- JP
- Japan
- Prior art keywords
- connection
- word
- morphological decomposition
- morphological
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】 (産業上の利用分野) 本発明は日本語テキスト音声合成システム、日英機械
翻訳システム等の必須構成要素である日本語の形態素分
解装置に関するものである。
翻訳システム等の必須構成要素である日本語の形態素分
解装置に関するものである。
(従来の技術) かな、漢字、句切り記号等が連続して並んでいる日本
語テキストの解析を行うために、単語の同定をして単語
の境界を決定する必要がある。この技術は形態素分解と
よばれる。この形態素分解には種々の方式が提案されて
いる。これらには、例えば「情報処理」第27巻第8号95
1ページに記載されているように、最長一致法、二文節
最長一致法、文節数最小法、拡張文節モデル上のコスト
最小法等の日本語形態素分解の技術が知られている。
語テキストの解析を行うために、単語の同定をして単語
の境界を決定する必要がある。この技術は形態素分解と
よばれる。この形態素分解には種々の方式が提案されて
いる。これらには、例えば「情報処理」第27巻第8号95
1ページに記載されているように、最長一致法、二文節
最長一致法、文節数最小法、拡張文節モデル上のコスト
最小法等の日本語形態素分解の技術が知られている。
(発明が解決しようとする問題点) しかしながら、従来の形態素分解方式においては、文
節の数を最小にするという一種の最適化方式を用いたも
のや、各々の単語に固有のコストを定義して、そのコス
トの和を最小にするという最適化手法が用いられてはい
るものの、隣接する単語候補間の接続のしやすさを統一
的に、例えば加算のような演算が可能な量として表現
し、利用することがなかったので、複数の区切り方が可
能な場合に、より日本語として適切な区切り方を選択す
ることが困難であった。
節の数を最小にするという一種の最適化方式を用いたも
のや、各々の単語に固有のコストを定義して、そのコス
トの和を最小にするという最適化手法が用いられてはい
るものの、隣接する単語候補間の接続のしやすさを統一
的に、例えば加算のような演算が可能な量として表現
し、利用することがなかったので、複数の区切り方が可
能な場合に、より日本語として適切な区切り方を選択す
ることが困難であった。
本発明の目的はこの欠点を改良した高精度の形態素分
解装置を提供することにある。
解装置を提供することにある。
(問題点を解決するための手段) 本発明の形態素分解装置は、接続カテゴリー間の数値
としてあらわされる接続コストを記憶する接続テーブル
と、各単語に対して接続カテゴリー情報を有する辞書
と、入力テキスト列に対する複数の候補単語列について
前記接続コストを積算し、その結果が最小となるような
単語列を結果として出力する形態素分解制御部とを備え
ることを特徴としている。
としてあらわされる接続コストを記憶する接続テーブル
と、各単語に対して接続カテゴリー情報を有する辞書
と、入力テキスト列に対する複数の候補単語列について
前記接続コストを積算し、その結果が最小となるような
単語列を結果として出力する形態素分解制御部とを備え
ることを特徴としている。
(作用) 日本語の文には、文法的に許容される形態素分解のし
かたが複数考えられる場合がある。例えば、第1図にお
いては、(a)のテキストに対して、(b)、(c)の
分割のしかたが考えられ、最長一致法を採用した場合
は、(b)の分割が選択されてしまう。これは、一般に
は、名詞と五段活用動詞語幹が隣接不可能だとはいえな
いことによる。
かたが複数考えられる場合がある。例えば、第1図にお
いては、(a)のテキストに対して、(b)、(c)の
分割のしかたが考えられ、最長一致法を採用した場合
は、(b)の分割が選択されてしまう。これは、一般に
は、名詞と五段活用動詞語幹が隣接不可能だとはいえな
いことによる。
しかしながら、日本語の読み手には、名詞と五段活用
動詞語幹が隣接することはきわめてまれであるという経
験的な知識が存在すると考えられる。
動詞語幹が隣接することはきわめてまれであるという経
験的な知識が存在すると考えられる。
ここで、接続カテゴリー間に数値であらわされる接続
コストを導入する。任意の右向き接続カテゴリーrと、
左向き接続カテゴリーlに対して、c(r、l)がその
間の接続コストをあらわすものとする。c(r、l)は
実数である。これは、rとlの値の組にたいして、それ
らにたいするcを保持する2次元の表として実現するこ
とができる。接続コストは、二つのカテゴリーrとlが
隣接しやすければしやすいほど値が小さくなるように定
義するものとする。
コストを導入する。任意の右向き接続カテゴリーrと、
左向き接続カテゴリーlに対して、c(r、l)がその
間の接続コストをあらわすものとする。c(r、l)は
実数である。これは、rとlの値の組にたいして、それ
らにたいするcを保持する2次元の表として実現するこ
とができる。接続コストは、二つのカテゴリーrとlが
隣接しやすければしやすいほど値が小さくなるように定
義するものとする。
この枠組みを用いると、前記日本語の読み手がもって
いる経験的な知識は、「名詞」という右向き接続カテゴ
リーと「五段活用動詞語幹」という左向き接続カテゴリ
ーの間の接続コストを比較的大きくすることによって実
現される。
いる経験的な知識は、「名詞」という右向き接続カテゴ
リーと「五段活用動詞語幹」という左向き接続カテゴリ
ーの間の接続コストを比較的大きくすることによって実
現される。
よって、接続コストの和を最小化するという基準によ
って分割のしかたを選択すると、たとえば、第1図の例
においては、(c)の分割することが可能となる。
って分割のしかたを選択すると、たとえば、第1図の例
においては、(c)の分割することが可能となる。
(実施例) 次に第2図を参照しつつ、実施例に従って本発明を詳
細に説明する。
細に説明する。
第2図はこのような本発明の原理を実現するための一
実施例である。第2図において、多値接続テーブル202
は品詞な下位分類カテゴリーの順序対(rm、ln)に対し
て0より大なる値であらわされる接続コストc(rm、
ln)を与える表である。二つの接続カテゴリーrm、lnが
隣接しやすければしやすいほど、この値は、小さくな
る。右向き接続カテゴリーrmと、左向き接続カテゴリー
ln間の接続コストc(rm、ln)の値は、たとえば、十分
大きなテキストにおけるrmとlnの隣接の度数をtとし、
すべての単語隣接の出現度数をnとすると、n/tあるい
は、1−(t/n)とすればよい。この他にも、出現度数
によらずに経験的に初期の接続コストのセットを決め
て、形態素分解の実験を繰り返すことにより多値接続テ
ーブルを学習により改良していく方法など、いろいろな
実現の仕方が考えられる。単語辞書203は自立語、付属
語等の単語情報を格納している。各単語の辞書情報に
は、右向きおよび左向き接続カテゴリーも含まれる。
実施例である。第2図において、多値接続テーブル202
は品詞な下位分類カテゴリーの順序対(rm、ln)に対し
て0より大なる値であらわされる接続コストc(rm、
ln)を与える表である。二つの接続カテゴリーrm、lnが
隣接しやすければしやすいほど、この値は、小さくな
る。右向き接続カテゴリーrmと、左向き接続カテゴリー
ln間の接続コストc(rm、ln)の値は、たとえば、十分
大きなテキストにおけるrmとlnの隣接の度数をtとし、
すべての単語隣接の出現度数をnとすると、n/tあるい
は、1−(t/n)とすればよい。この他にも、出現度数
によらずに経験的に初期の接続コストのセットを決め
て、形態素分解の実験を繰り返すことにより多値接続テ
ーブルを学習により改良していく方法など、いろいろな
実現の仕方が考えられる。単語辞書203は自立語、付属
語等の単語情報を格納している。各単語の辞書情報に
は、右向きおよび左向き接続カテゴリーも含まれる。
形態素分解制御部201は、入力文に対して、まず、文
字種が、ひらがなから、漢字・カタカナ・英字・数字の
いずれかに変わる位置を探索範囲の終わりとするという
ルールによって探索範囲を決定する。
字種が、ひらがなから、漢字・カタカナ・英字・数字の
いずれかに変わる位置を探索範囲の終わりとするという
ルールによって探索範囲を決定する。
決定した探索範囲に対して、形態素分解制御部201
は、探索範囲の左端から開始して、単語辞書203を検索
し、候補単語を得る。辞書検索の結果得られる候補単語
は、一般に1つ以上存在しうる。
は、探索範囲の左端から開始して、単語辞書203を検索
し、候補単語を得る。辞書検索の結果得られる候補単語
は、一般に1つ以上存在しうる。
次に形態素分解制御部201は、各候補単語nの左向き
接続カテゴリーと、その左隣接候補単語mの右向き接続
カテゴリーより多値接続テーブル202を検索して、それ
らの接続コストをもとめる。形態素分解制御部201は、
この操作を探索範囲の右端に達するまで繰り返し行う。
探索範囲の右端まで達したら、形態素分解制御部201
は、解析範囲の左端から右端までの各単語候補系列piに
対して、(1)式によってあらわされる評価関数値g
(pi)をもとめる。これは、候補単語系列pi上の接続コ
ストの和となっている。形態素分解制御部201は、g(p
i)が最も小さくなる候補単語系列を形態素分解の解と
して出力する。
接続カテゴリーと、その左隣接候補単語mの右向き接続
カテゴリーより多値接続テーブル202を検索して、それ
らの接続コストをもとめる。形態素分解制御部201は、
この操作を探索範囲の右端に達するまで繰り返し行う。
探索範囲の右端まで達したら、形態素分解制御部201
は、解析範囲の左端から右端までの各単語候補系列piに
対して、(1)式によってあらわされる評価関数値g
(pi)をもとめる。これは、候補単語系列pi上の接続コ
ストの和となっている。形態素分解制御部201は、g(p
i)が最も小さくなる候補単語系列を形態素分解の解と
して出力する。
g(pi)=c(si,ni1)+c(ni1,ni2)+…… +c(ni・nmax−1,ni・nmax) (1) ただし、c(m,n)は、隣接する候補単語m、nの接
続コストであり、 pi=si,i1,ni2,……,ni・nmaxである。
続コストであり、 pi=si,i1,ni2,……,ni・nmaxである。
(発明の効果) 以上述べたように本発明の形態素分解装置によると、
複数の形態素分割の可能性がある入力テキストに対し
て、単語のカテゴリー間の隣接しやすさに関するヒュー
リスティックスを用いることにより、より適切な形態素
分割を行うことが可能となる。
複数の形態素分割の可能性がある入力テキストに対し
て、単語のカテゴリー間の隣接しやすさに関するヒュー
リスティックスを用いることにより、より適切な形態素
分割を行うことが可能となる。
第1図は本発明の作用を説明するための図、第2図は、
本発明の一実施例を示すブロック図である。 図において、 201……形態素分解制御部、202……多値接続テーブル、
203……単語辞書をそれぞれにあらわす。
本発明の一実施例を示すブロック図である。 図において、 201……形態素分解制御部、202……多値接続テーブル、
203……単語辞書をそれぞれにあらわす。
Claims (1)
- 【請求項1】接続カテゴリー間の接続のしやすさの度合
いが数値としてあらわされる接続コストを記憶する接続
テーブルと、各単語に対して接続カテゴリー情報を有す
る辞書と、入力テキスト列に対する複数の候補単語列に
ついて前記接続コストを積算し、その結果が最小となる
ような単語列を結果として出力する形態素分解制御部と
を備えることを特徴とする形態素分解装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63201603A JP2821143B2 (ja) | 1988-08-11 | 1988-08-11 | 形態素分解装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63201603A JP2821143B2 (ja) | 1988-08-11 | 1988-08-11 | 形態素分解装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0250261A JPH0250261A (ja) | 1990-02-20 |
JP2821143B2 true JP2821143B2 (ja) | 1998-11-05 |
Family
ID=16443788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63201603A Expired - Lifetime JP2821143B2 (ja) | 1988-08-11 | 1988-08-11 | 形態素分解装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2821143B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03271972A (ja) * | 1990-03-20 | 1991-12-03 | Nec Corp | 自然言語の翻訳支援装置 |
WO2006137149A1 (ja) | 2005-06-24 | 2006-12-28 | Ibiden Co., Ltd. | ハニカム構造体 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6126175A (ja) * | 1984-07-06 | 1986-02-05 | インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション | 複合漢字列分割装置 |
-
1988
- 1988-08-11 JP JP63201603A patent/JP2821143B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0250261A (ja) | 1990-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3196868B2 (ja) | テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ | |
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
US5895446A (en) | Pattern-based translation method and system | |
JPH10326275A (ja) | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 | |
JP2821143B2 (ja) | 形態素分解装置 | |
JPH0344343B2 (ja) | ||
JP2828692B2 (ja) | 情報検索装置 | |
JPS62165267A (ja) | 音声ワ−ドプロセツサ装置 | |
JPH0578058B2 (ja) | ||
JPH0262665A (ja) | 形熊素分解方式 | |
JP2959769B2 (ja) | 日本語文字列の形態素解析方法及び装置 | |
JPH0232467A (ja) | 機械翻訳方式 | |
Yujian et al. | Semantic grammar and its application to machine translation | |
JPH0612453A (ja) | 未知語抽出登録装置 | |
JPH10198676A (ja) | 日本語形態素解析装置及び日本語形態素解析方法 | |
JP3048793B2 (ja) | 文字変換装置 | |
JP3552750B2 (ja) | 文書処理装置 | |
JPH04372047A (ja) | 仮名漢字変換装置 | |
JPH0262659A (ja) | 日本文訂正候補文字抽出装置 | |
JP2006134051A (ja) | 翻訳装置、翻訳方法およびプログラム | |
JPH0546612A (ja) | 文章誤り検出装置 | |
JPS6395570A (ja) | 言語解析方式 | |
JPS63259763A (ja) | 文字処理装置 | |
JPH03225462A (ja) | ローマ字漢字変換装置 | |
JPH09160913A (ja) | 外国語単語検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070828 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080828 Year of fee payment: 10 |
|
EXPY | Cancellation because of completion of term |