JPH0660114A - 簡易形態素解析方法 - Google Patents
簡易形態素解析方法Info
- Publication number
- JPH0660114A JPH0660114A JP4122462A JP12246292A JPH0660114A JP H0660114 A JPH0660114 A JP H0660114A JP 4122462 A JP4122462 A JP 4122462A JP 12246292 A JP12246292 A JP 12246292A JP H0660114 A JPH0660114 A JP H0660114A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- analysis
- hiragana
- bunsetsu
- rule group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【目的】 自然言語文の形態素解析において、表層的な
規則のみを用いて解析を行う、簡易形態素解析方式。 【構成】 ステップ11で文から1文字読み込み、ステ
ップ12で文字種の判断を行う。ステップ13・14
で、文節切り規則に対応した場合に文節に句切り、ステ
ップ15で一文字進め、ステップ16で文が終わるまで
以上のステップ11からステップ15までを繰り返す。
ステップ17で、解析結果を表示する。 【効果】 膨大な辞書を必要とせずに、高速かつ高精度
な解析が行えるようになった。
規則のみを用いて解析を行う、簡易形態素解析方式。 【構成】 ステップ11で文から1文字読み込み、ステ
ップ12で文字種の判断を行う。ステップ13・14
で、文節切り規則に対応した場合に文節に句切り、ステ
ップ15で一文字進め、ステップ16で文が終わるまで
以上のステップ11からステップ15までを繰り返す。
ステップ17で、解析結果を表示する。 【効果】 膨大な辞書を必要とせずに、高速かつ高精度
な解析が行えるようになった。
Description
【0001】
【産業上の利用分野】本発明は、意味処理等の高度な言
語処理を行わずに自然言語の形態素解析を行う簡易形態
素解析手法に関するものである。
語処理を行わずに自然言語の形態素解析を行う簡易形態
素解析手法に関するものである。
【0002】
【従来の技術】従来、自然言語の簡易形態素解析を行う
技術としては、稲垣他著、「簡易文章構造解析による文
構造の決定」、情報処理学会第42回全国大会講演論文
集、6C−4、3−104頁に記載されている手法で、
基本的には文字種の切れ目で判断し、かな漢字混じりの
単語に関しては「漢字扱い辞書」や「平仮名扱い辞書」
に登録しておくことによって文節を判断するという方式
が知られている。
技術としては、稲垣他著、「簡易文章構造解析による文
構造の決定」、情報処理学会第42回全国大会講演論文
集、6C−4、3−104頁に記載されている手法で、
基本的には文字種の切れ目で判断し、かな漢字混じりの
単語に関しては「漢字扱い辞書」や「平仮名扱い辞書」
に登録しておくことによって文節を判断するという方式
が知られている。
【0003】
【発明が解決しようとする課題】日本語の単語の中に
は、ひらがな表記・漢字表記のいずれも可能であるとい
う単語が存在する。また、大人が漢字で書く単語であっ
ても子供ならひらがなで書くように、個人の趣味、性
質、年齢によって、「単語」とその「表層」が一対一で
対応しない場合がある。そういう場合、従来の技術で
は、精度を上げるためには辞書が膨大になってしまうと
いった問題点がある。
は、ひらがな表記・漢字表記のいずれも可能であるとい
う単語が存在する。また、大人が漢字で書く単語であっ
ても子供ならひらがなで書くように、個人の趣味、性
質、年齢によって、「単語」とその「表層」が一対一で
対応しない場合がある。そういう場合、従来の技術で
は、精度を上げるためには辞書が膨大になってしまうと
いった問題点がある。
【0004】本発明の目的は、このような問題点を解決
する簡易形態素解析手法及び、その装置を提供すること
にある。
する簡易形態素解析手法及び、その装置を提供すること
にある。
【0005】
【課題を解決するための手段】本発明の簡易自然言語形
態素解析方法は、自然言語文の形態素解析において、特
定文字と文字種の列で文節境界を判定する文節切り規則
を参照して適用可能なものがあれば文節字切りを行い、
前記規則中に適用可能なものがない場合はひらがなを含
んだ自立語を格納した漢字扱い辞書と漢字を含んだ付属
語を格納したひらがな扱い辞書に適用可能な語彙がなく
特定文字と文字種の列で文節境界でないことを判定する
文節切り禁止規則にあてはならない場合にひらがなから
漢字に文字種が変化する境界で文節切りを行う事を特徴
とする。
態素解析方法は、自然言語文の形態素解析において、特
定文字と文字種の列で文節境界を判定する文節切り規則
を参照して適用可能なものがあれば文節字切りを行い、
前記規則中に適用可能なものがない場合はひらがなを含
んだ自立語を格納した漢字扱い辞書と漢字を含んだ付属
語を格納したひらがな扱い辞書に適用可能な語彙がなく
特定文字と文字種の列で文節境界でないことを判定する
文節切り禁止規則にあてはならない場合にひらがなから
漢字に文字種が変化する境界で文節切りを行う事を特徴
とする。
【0006】
【実施例】図1に全体の処理フローを示す。ステップ1
1で対象となる文の1文字目を読み込み、ステップ12
でその文字種の判断を行う。基本的には、ひらがなから
その他の文字種に移り変わる時に文節とみなすが、ステ
ップ13で、ひらがな扱い辞書と「『お+動詞』ならば
切らない」等の規則をまとめた文節切り禁止規則群と照
らし合わせ、切ってもいい場所か、切るといけない場所
かの判断を行う。またひらがなからひらがなへの移り変
わりの場所においては、漢字扱い辞書と「『を』の後で
は切る」等の規則をまとめた文節切り規則群と照らし合
わせ、切らない場所なのか、切る場所なのかの判断を行
う。ひらがな扱い辞書・漢字扱い辞書・文節切り規則群
・文節切り禁止規則群の様子をそれぞれ図2・3・4・
5に示す。そして、ステップ13で文節に区切る場所で
あるとの判断をくだされた場合、ステップ14に進み文
節に区切り、結果を一時メモリに格納した後、ステップ
15に進む。区切らない場合は直接ステップ15に進
み、一文字進める。そして、ステップ16で文が終わっ
たかどうかの判断をし、終わりでない場合はステップ1
2〜15を文が終わるまで繰り返す。そして、ステップ
17で、一時メモリに格納されている解析結果を利用者
に提示する。ステップ18で利用者に確認を求め、終了
を指示された場合は処理全体を終了し、そうでなければ
ステップ19で一時メモリをリセットし、ステップ11
に戻る。
1で対象となる文の1文字目を読み込み、ステップ12
でその文字種の判断を行う。基本的には、ひらがなから
その他の文字種に移り変わる時に文節とみなすが、ステ
ップ13で、ひらがな扱い辞書と「『お+動詞』ならば
切らない」等の規則をまとめた文節切り禁止規則群と照
らし合わせ、切ってもいい場所か、切るといけない場所
かの判断を行う。またひらがなからひらがなへの移り変
わりの場所においては、漢字扱い辞書と「『を』の後で
は切る」等の規則をまとめた文節切り規則群と照らし合
わせ、切らない場所なのか、切る場所なのかの判断を行
う。ひらがな扱い辞書・漢字扱い辞書・文節切り規則群
・文節切り禁止規則群の様子をそれぞれ図2・3・4・
5に示す。そして、ステップ13で文節に区切る場所で
あるとの判断をくだされた場合、ステップ14に進み文
節に区切り、結果を一時メモリに格納した後、ステップ
15に進む。区切らない場合は直接ステップ15に進
み、一文字進める。そして、ステップ16で文が終わっ
たかどうかの判断をし、終わりでない場合はステップ1
2〜15を文が終わるまで繰り返す。そして、ステップ
17で、一時メモリに格納されている解析結果を利用者
に提示する。ステップ18で利用者に確認を求め、終了
を指示された場合は処理全体を終了し、そうでなければ
ステップ19で一時メモリをリセットし、ステップ11
に戻る。
【0007】図6は、簡易形態素解析装置の一実施例を
示す構成図である。モニター61は利用者へ解析結果の
提示を行う時に使用される。キーボード62は、利用者
が対象文を入力する時の手段、ならびに解析結果の確認
手段となる。文節判断器63は、ひらがな扱い辞書6
4、漢字扱い辞書65、文節切り規則群66、文節切り
禁止規則群67を参照し解析を行う。一時メモリ68
は、解析結果を格納するために使用される。またシステ
ム制御器69は、このシステム全体を制御するために使
用される。
示す構成図である。モニター61は利用者へ解析結果の
提示を行う時に使用される。キーボード62は、利用者
が対象文を入力する時の手段、ならびに解析結果の確認
手段となる。文節判断器63は、ひらがな扱い辞書6
4、漢字扱い辞書65、文節切り規則群66、文節切り
禁止規則群67を参照し解析を行う。一時メモリ68
は、解析結果を格納するために使用される。またシステ
ム制御器69は、このシステム全体を制御するために使
用される。
【0008】
【発明の効果】本発明の、簡易形態素解析方法では、ひ
らがな扱い辞書・漢字扱い辞書の他に、文節切り規則群
・文節切り禁止規則群を用いて解析を行っているため、
従来の簡易形態素解析手法及び装置に比べ、より高精度
な解析が可能であるといった効果がある。また、規則群
を用いることによって、大きな辞書を必要とせず、高速
度の解析が可能となる効果がある。
らがな扱い辞書・漢字扱い辞書の他に、文節切り規則群
・文節切り禁止規則群を用いて解析を行っているため、
従来の簡易形態素解析手法及び装置に比べ、より高精度
な解析が可能であるといった効果がある。また、規則群
を用いることによって、大きな辞書を必要とせず、高速
度の解析が可能となる効果がある。
【図1】全体の処理フローを表す図
【図2】ひらがな扱い辞書の様子を表す図
【図3】漢字扱い辞書の様子を表す図
【図4】文節切り規則群の様子を表す図
【図5】文節切り禁止規則群の様子を表す図
【図6】発明の一実施例を示す構成図
61 モニター 62 キーボード 63 文節判断器 64 ひらがな扱い辞書 65 漢字扱い辞書 66 文節切り規則群 67 文節切り禁止規則群 68 一時メモリ 69 システム制御器
Claims (1)
- 【請求項1】 自然言語文の形態素解析において、特定
文字と文字種の列で文節境界を判定する文節切り規則を
参照して適用可能なものがあれば文節切りを行い、前記
規則中に適用可能なものがない場合はひらがなを含んだ
自立語を格納した漢字扱い辞書と漢字を含んだ付属語を
格納したひらがな扱い辞書に適用可能な語彙がなく特定
文字と文字種の列で文節境界でないことを判定する文節
切り禁止規則にあてはまらない場合にひらがなから漢字
に文字種が変化する境界で文節切りを行う簡易形態素解
析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4122462A JPH0660114A (ja) | 1992-05-15 | 1992-05-15 | 簡易形態素解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4122462A JPH0660114A (ja) | 1992-05-15 | 1992-05-15 | 簡易形態素解析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0660114A true JPH0660114A (ja) | 1994-03-04 |
Family
ID=14836459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4122462A Withdrawn JPH0660114A (ja) | 1992-05-15 | 1992-05-15 | 簡易形態素解析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0660114A (ja) |
-
1992
- 1992-05-15 JP JP4122462A patent/JPH0660114A/ja not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4777600A (en) | Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms | |
US5410306A (en) | Chinese phrasal stepcode | |
JP5231698B2 (ja) | 日本語の表意文字の読み方を予測する方法 | |
JPS59165179A (ja) | 辞書引方式 | |
JPH0660114A (ja) | 簡易形態素解析方法 | |
JPH04167049A (ja) | 文書処理装置 | |
JP2621999B2 (ja) | 文書処理装置 | |
JPS60193074A (ja) | 日本語解析装置 | |
JP2915225B2 (ja) | 文書作成装置 | |
JPH02255970A (ja) | 文章提示装置 | |
JPH07200605A (ja) | 翻訳装置 | |
JPS5832418B2 (ja) | 漢字まじり文入力装置 | |
Kawada | Inputting Japanese from the keyboard | |
JPS6395573A (ja) | 日本語文形態素解析における未知語処理方法 | |
JPH02255961A (ja) | 文章提示装置 | |
JPH01211167A (ja) | カナ漢字変換方式 | |
JPH11232268A (ja) | 文書処理装置、ルビ割り付け方法、及び記録媒体 | |
JPH0544699B2 (ja) | ||
JPH0346055A (ja) | ローマ字から漢字かなまじり文への変換方式 | |
JPH04213155A (ja) | 文書誤字抽出方式 | |
JPH0546612A (ja) | 文章誤り検出装置 | |
JPS6315633B2 (ja) | ||
JPH0585055B2 (ja) | ||
JPH0468466A (ja) | かな漢字変換装置 | |
JPH08241315A (ja) | 文書処理装置の単語登録機構 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 19990803 |