JPS6020234A - 日本語形態素解析方式 - Google Patents
日本語形態素解析方式Info
- Publication number
- JPS6020234A JPS6020234A JP58129639A JP12963983A JPS6020234A JP S6020234 A JPS6020234 A JP S6020234A JP 58129639 A JP58129639 A JP 58129639A JP 12963983 A JP12963983 A JP 12963983A JP S6020234 A JPS6020234 A JP S6020234A
- Authority
- JP
- Japan
- Prior art keywords
- node
- algorithm
- cost
- word
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(1)発明の技術分野
本発明は日本語文の形態素(単語)を解析する方式に係
り、特に最小文節数となる形態素列を速やかに見付り出
すことができる方式に関する。
り、特に最小文節数となる形態素列を速やかに見付り出
すことができる方式に関する。
(2)技術の背景
日本語ワードプロセッサを作成するために、仮名文字で
べた書した日本語文について、その形態素(単語)を解
析して所定の仮名混じり漢字文章を得る方式(カナ漢字
変換)や、或いは自動翻訳などのために、べた書されて
いる漢字かな混しり日本語文を形態素解析して単語を認
定する力j(とじて、最長一致法、最尤評価法などが使
われてきた。これらの評価法によっては、文全体につい
°(の尤度を十分表し°ζいないとい・)反省から、最
近文節最小法が提案され、その実験から正し2い解(1
i′結果は、殆ど文節数が最小であること力積1°明さ
れた。日本語文の解析に使用する装置の主要部構成につ
いてブロックで示すと第1図のよ・)になる。
べた書した日本語文について、その形態素(単語)を解
析して所定の仮名混じり漢字文章を得る方式(カナ漢字
変換)や、或いは自動翻訳などのために、べた書されて
いる漢字かな混しり日本語文を形態素解析して単語を認
定する力j(とじて、最長一致法、最尤評価法などが使
われてきた。これらの評価法によっては、文全体につい
°(の尤度を十分表し°ζいないとい・)反省から、最
近文節最小法が提案され、その実験から正し2い解(1
i′結果は、殆ど文節数が最小であること力積1°明さ
れた。日本語文の解析に使用する装置の主要部構成につ
いてブロックで示すと第1図のよ・)になる。
まずバーズリスト作成部と文節構造抽出部とを制御する
。前者について、整数i、形態素(中詰構造)α、整数
kから成る3項系列を項目と呼び、その有限集合をバー
ズリストという。中詰構造αとは綴り、品詞、活用情報
から成る系列である。
。前者について、整数i、形態素(中詰構造)α、整数
kから成る3項系列を項目と呼び、その有限集合をバー
ズリストという。中詰構造αとは綴り、品詞、活用情報
から成る系列である。
バーズリストを作成するアル−lリスJ・をう5行する
とき、単語辞四を使用する辞書検索部、評価関数計q部
、単語チェック部が動作する。作成されたバーズリスト
を参照して文節構造を抽出する。
とき、単語辞四を使用する辞書検索部、評価関数計q部
、単語チェック部が動作する。作成されたバーズリスト
を参照して文節構造を抽出する。
(3)従来技術と問題点
この解析として文節数最小法について提案された方式を
以下説明する。例えば、情報処理学会論文誌第24巻第
1号第40頁〜第46頁、吉村他「文節数最小法を用い
たべた書き日本語文の形態素解析」(1983年1月号
)には、入力記号列接を深さとした場合、横型に状態−
空間を探索することについて説明しである。まずアルゴ
リズムの最初で入力列の左から考え、総ての可能な状態
を作り出し、アルゴリズムの後半でその中から入力列全
体の文節数が最小になるものを選ぶ。
以下説明する。例えば、情報処理学会論文誌第24巻第
1号第40頁〜第46頁、吉村他「文節数最小法を用い
たべた書き日本語文の形態素解析」(1983年1月号
)には、入力記号列接を深さとした場合、横型に状態−
空間を探索することについて説明しである。まずアルゴ
リズムの最初で入力列の左から考え、総ての可能な状態
を作り出し、アルゴリズムの後半でその中から入力列全
体の文節数が最小になるものを選ぶ。
例えば入力記号列として
「タンゴマタハブンセツヲ」
というべた置板名文字列を考える。第2図において可能
な単語候補を辞書検索により全部作り出す場合を説明す
る。その候補は前述の「項目」として図中先付き数字の
次に表示しである。丸付き数字は生成の順番で、 ■(2,五、2) とあるのは、7番目に生成され、解析構造位置は2で(
「夕」 「ン」の次であるから2)、文節数(次数)が
「タン」の次の2であることを示している。当初「り」
を基準として検索l、次に「ン」を基準として検索して
もこれはないから「ゴ」を基準とし”ζ続LJる。そし
て(47)まで生成して、その結果全記号列について最
小文節数(次数)のものから並べると、 次数 3 単語 または 文節を 〃 丹後 または 文節を 〃 単語 また は 文節 を のようになり、最初のものが目的のものと判る。
な単語候補を辞書検索により全部作り出す場合を説明す
る。その候補は前述の「項目」として図中先付き数字の
次に表示しである。丸付き数字は生成の順番で、 ■(2,五、2) とあるのは、7番目に生成され、解析構造位置は2で(
「夕」 「ン」の次であるから2)、文節数(次数)が
「タン」の次の2であることを示している。当初「り」
を基準として検索l、次に「ン」を基準として検索して
もこれはないから「ゴ」を基準とし”ζ続LJる。そし
て(47)まで生成して、その結果全記号列について最
小文節数(次数)のものから並べると、 次数 3 単語 または 文節を 〃 丹後 または 文節を 〃 単語 また は 文節 を のようになり、最初のものが目的のものと判る。
これは文節の少ないものは、係り受けが少なく、したが
ってめるものにより早く行き当たるという経験則に基づ
いている。しかし、上記の方法では候補を数多く作り出
してしまい、生成手順に長時間を要することが大きな欠
点である。
ってめるものにより早く行き当たるという経験則に基づ
いている。しかし、上記の方法では候補を数多く作り出
してしまい、生成手順に長時間を要することが大きな欠
点である。
(4)発明の目的
本発明の目的は前述の欠点を改善し、従来とは異なるア
ルゴリズムの考えを使用し、高速に最小文節形態素列を
得る方式を提供することにある。
ルゴリズムの考えを使用し、高速に最小文節形態素列を
得る方式を提供することにある。
(5)発明の構成
前述の目的を達成するための本発明の構成は、べた書さ
れた日本語文を読み込み、単語辞書をアクセスして所定
のtl′L語列に変換する形!3素解析方式において、
探索アルゴリズムとして節点から節点に至る経路をコス
トが最低となるように、選択処理するアルゴリズムによ
り実行することである。
れた日本語文を読み込み、単語辞書をアクセスして所定
のtl′L語列に変換する形!3素解析方式において、
探索アルゴリズムとして節点から節点に至る経路をコス
トが最低となるように、選択処理するアルゴリズムによ
り実行することである。
(6)発明の実施例
本発明の実施例においては、均一コスト法とも呼ばれる
At アルゴリズムの一種を使用する。基本的な考え方
は、スタート節点からゴール節点までのコストを最小と
する経路を見い出すことである。その経路を発見するこ
とに役立つ情報をヒユーリスティック情報と云い、それ
は評価関数を使用する形で用いられる。(ヒユーリステ
ィック関数をhで表す。)節点から節点への順序付けに
用いられる成る関数fがあるとして、記号f(n)によ
って節点nにおけるこの関数の値を示すときを評価関数
とし、この関数を用いて順序付けした探索アルゴリズム
をA′アルゴリズムという。そして h(n)ヨ0 ずなわらヒユーリスティック関数値が恒等的に零のとき
、均一 コストアルゴリズムとなる。このアルゴリズム
は常に最小コストの経路を見付り出して停止することか
保障されている。(参上文献:エルシン「人工知能−問
題解決のシステム給」。
At アルゴリズムの一種を使用する。基本的な考え方
は、スタート節点からゴール節点までのコストを最小と
する経路を見い出すことである。その経路を発見するこ
とに役立つ情報をヒユーリスティック情報と云い、それ
は評価関数を使用する形で用いられる。(ヒユーリステ
ィック関数をhで表す。)節点から節点への順序付けに
用いられる成る関数fがあるとして、記号f(n)によ
って節点nにおけるこの関数の値を示すときを評価関数
とし、この関数を用いて順序付けした探索アルゴリズム
をA′アルゴリズムという。そして h(n)ヨ0 ずなわらヒユーリスティック関数値が恒等的に零のとき
、均一 コストアルゴリズムとなる。このアルゴリズム
は常に最小コストの経路を見付り出して停止することか
保障されている。(参上文献:エルシン「人工知能−問
題解決のシステム給」。
コロナ社)
コストの安い経路を見出す意味は次数の少ないもの、文
の終わりの右方により近いものを見出゛]ことで、上記
のg(r+)をそのノードの次数とするごとに相当する
。その結果ゴールを早く発見できる可能性が多く、生成
される状態が少なくてすむから、それだり短時間に終了
できる。
の終わりの右方により近いものを見出゛]ことで、上記
のg(r+)をそのノードの次数とするごとに相当する
。その結果ゴールを早く発見できる可能性が多く、生成
される状態が少なくてすむから、それだり短時間に終了
できる。
この場合のアルゴリズム実施のフローチャー1・を第3
図に示す。即ち i、スタート節点Sを0PENと呼ばれるリストに置け
。f(s)=0とせよ。
図に示す。即ち i、スタート節点Sを0PENと呼ばれるリストに置け
。f(s)=0とせよ。
ii、若し0PENが空ならば、候?di無しとして外
に出よ。さもなくば次へ進め。
に出よ。さもなくば次へ進め。
iii、fの値が最小である節点を0PENから取出し
、それをCLO3EDと呼ばれるリストに置け。この節
点を“n”と呼ぶ。
、それをCLO3EDと呼ばれるリストに置け。この節
点を“n”と呼ぶ。
iv、若しnが最終節点なら候補が見つかったので外へ
出よ。さもなくば次へ進め。
出よ。さもなくば次へ進め。
■9節節点に接続可能な節点を作り出せ。新たに作り出
した節点の各々について計算を繰り返・U。
した節点の各々について計算を繰り返・U。
そして第4図は本発明の実施例として第2図と同様な文
字列について実行した場合の説明図である。第5図は第
4図についてグラフ表現して比較した図である。第4図
は第2図と対応している。
字列について実行した場合の説明図である。第5図は第
4図についてグラフ表現して比較した図である。第4図
は第2図と対応している。
人力された文字列から単語を見出すとき例えばUタンゴ
マタハ・・−」に7いて処理するとき辞書アクセスを行
う回数は処理速度におおきな影響を与えるが従来の第2
vAでは11回に対し、第4図では8回となっている。
マタハ・・−」に7いて処理するとき辞書アクセスを行
う回数は処理速度におおきな影響を与えるが従来の第2
vAでは11回に対し、第4図では8回となっている。
次に本発明の第2実施例として均一アルゴリズムよりも
生成状態数が更に少なくなるAkアルゴリズムを考える
。文節の最大長をM、文節内の付属部分を最大長をmと
して、(0からm)のとき値0、(mからm+M)のと
き値1、(rn+Mからm+2M)のとき値2、(m+
2MからIn+3M)のとき値3−・となるように関数
5TEPを考える。ある節点nの未解析の入力記号列の
長さをLとすると、例えば第6図の■の節点(または、
2)のfは解析済位置が3で、自Iの単語の読み長さが
3であるから ゛ イ=11−(3+3)=5 となる。11は入力文字長である。そごでl+ nを次
のように定める。
生成状態数が更に少なくなるAkアルゴリズムを考える
。文節の最大長をM、文節内の付属部分を最大長をmと
して、(0からm)のとき値0、(mからm+M)のと
き値1、(rn+Mからm+2M)のとき値2、(m+
2MからIn+3M)のとき値3−・となるように関数
5TEPを考える。ある節点nの未解析の入力記号列の
長さをLとすると、例えば第6図の■の節点(または、
2)のfは解析済位置が3で、自Iの単語の読み長さが
3であるから ゛ イ=11−(3+3)=5 となる。11は入力文字長である。そごでl+ nを次
のように定める。
h(n)=STEP (f)
hは残りの文字列を勇えられる最も少ない文節数で構成
できたと仮定した場合の文節数となっている。従ってn
からゴール節点へ至る只のコストh(nl (即ちnの
残りの入力文字列中に実際に存在する最小の文節数)よ
りもh (n lは小さくなり、実行可能性が保障され
る。(参考文献:エルシン「人工知能−問題解決のシス
テム論」)第6図は第4図と対応して示す説明図で、第
7図はそのグラフによる説明図である。
できたと仮定した場合の文節数となっている。従ってn
からゴール節点へ至る只のコストh(nl (即ちnの
残りの入力文字列中に実際に存在する最小の文節数)よ
りもh (n lは小さくなり、実行可能性が保障され
る。(参考文献:エルシン「人工知能−問題解決のシス
テム論」)第6図は第4図と対応して示す説明図で、第
7図はそのグラフによる説明図である。
(7)発明の効果
このようにして本発明によると、比較的簡易な手段で、
目的とする形!as列を速やかに見付は出すことができ
る。
目的とする形!as列を速やかに見付は出すことができ
る。
第1図は解析装置の主要部構成を示すブロック図、第2
図は従来の最小文節法によるアルゴリズム動作説明図、 第3図は本発明による動作フr:I−チャート第4図は
第3図によるアルゴリズム動作説明図、第5図は第4図
のグラフ表現図、 第6図は本発明の(−の実施例にょる′rルゴリズム動
作説明図、 第7図は第6図のグラフ表現図である。 特許出願人 富士通株式会社 代理人 弁理士 鈴木栄祐 タ ン ゴ マ タ ハ フ゛ ン 第6門 ()、: イi、H
図は従来の最小文節法によるアルゴリズム動作説明図、 第3図は本発明による動作フr:I−チャート第4図は
第3図によるアルゴリズム動作説明図、第5図は第4図
のグラフ表現図、 第6図は本発明の(−の実施例にょる′rルゴリズム動
作説明図、 第7図は第6図のグラフ表現図である。 特許出願人 富士通株式会社 代理人 弁理士 鈴木栄祐 タ ン ゴ マ タ ハ フ゛ ン 第6門 ()、: イi、H
Claims (1)
- べた書された日本語文を読み込み、中詰辞書をアクセス
して入力文を単語列に変換する形!3素解析方式におい
て、探索アルゴリズムとして節点から節点に至る経路を
コストが最低となるように、選択処理するアルゴリズム
により実行することを特徴とする日本語形態素解析方式
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58129639A JPS6020234A (ja) | 1983-07-15 | 1983-07-15 | 日本語形態素解析方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58129639A JPS6020234A (ja) | 1983-07-15 | 1983-07-15 | 日本語形態素解析方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6020234A true JPS6020234A (ja) | 1985-02-01 |
Family
ID=15014473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58129639A Pending JPS6020234A (ja) | 1983-07-15 | 1983-07-15 | 日本語形態素解析方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6020234A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6448127A (en) * | 1987-08-18 | 1989-02-22 | Matsushita Electric Ind Co Ltd | Graph retrieving device |
JPS6448171A (en) * | 1987-08-19 | 1989-02-22 | Matsushita Electric Ind Co Ltd | Japanese-language morpheme analyzer |
JPH01216480A (ja) * | 1988-02-24 | 1989-08-30 | Fujitsu Ltd | 形態素解析システム |
JPH0289157A (ja) * | 1988-09-26 | 1990-03-29 | Ricoh Co Ltd | 日本語形態素解析方式 |
KR20020054254A (ko) * | 2000-12-27 | 2002-07-06 | 오길록 | 사전구조를 이용한 한국어 형태소 분석방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5714971A (en) * | 1980-07-02 | 1982-01-26 | Nec Corp | Kana japanese syllabary kanji chinese character conversion device |
-
1983
- 1983-07-15 JP JP58129639A patent/JPS6020234A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5714971A (en) * | 1980-07-02 | 1982-01-26 | Nec Corp | Kana japanese syllabary kanji chinese character conversion device |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6448127A (en) * | 1987-08-18 | 1989-02-22 | Matsushita Electric Ind Co Ltd | Graph retrieving device |
JPS6448171A (en) * | 1987-08-19 | 1989-02-22 | Matsushita Electric Ind Co Ltd | Japanese-language morpheme analyzer |
JPH01216480A (ja) * | 1988-02-24 | 1989-08-30 | Fujitsu Ltd | 形態素解析システム |
JPH0289157A (ja) * | 1988-09-26 | 1990-03-29 | Ricoh Co Ltd | 日本語形態素解析方式 |
KR20020054254A (ko) * | 2000-12-27 | 2002-07-06 | 오길록 | 사전구조를 이용한 한국어 형태소 분석방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4213228B2 (ja) | テキストのトークン分割方法 | |
US5895446A (en) | Pattern-based translation method and system | |
CA2202696C (en) | Method and apparatus for language translation | |
JPH0351020B2 (ja) | ||
JP2003514304A5 (ja) | ||
Krizhanovsky et al. | An approach to automated construction of a general-purpose lexical ontology based on Wiktionary | |
JP3765799B2 (ja) | 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム | |
Gorman et al. | Finite-state text processing | |
Karmakar et al. | Indian regional language abstractive text summarization using attention-based LSTM neural network | |
JPH10326275A (ja) | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 | |
Yona et al. | A finite-state morphological grammar of Hebrew | |
CN101470701A (zh) | 支持基于有限状态机的语义规则的文本分析器及其方法 | |
Haq et al. | Urdu named entity recognition system using deep learning approaches | |
Kubal et al. | Effective Ensembling of Transformer based Language Models for Acronyms Identification. | |
JPS6020234A (ja) | 日本語形態素解析方式 | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
Wen | Text mining using HMM and PMM | |
Guerram et al. | A domain independent approach for ontology semantic enrichment | |
Skënduli et al. | A named entity recognition approach for Albanian | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
Kayalvizhi et al. | Deep learning approach for extracting catch phrases from legal documents | |
Rahate et al. | Text Normalization and Its Role in Speech Synthesis | |
Bowden | Dictionaryless English Plural Noun Singularisation Using A Corpus-Based List of Irregular Forms Paul R. Bowden, Peter Halstead, Tony G. Rose Nottingham Trent University and Canon Research Centre Europe, Surrey | |
Atlınar et al. | Masked Word Prediction with Statistical and Neural Language Models | |
JP3939264B2 (ja) | 形態素解析装置 |