JPH0660114A - 簡易形態素解析方法 - Google Patents

簡易形態素解析方法

Info

Publication number
JPH0660114A
JPH0660114A JP4122462A JP12246292A JPH0660114A JP H0660114 A JPH0660114 A JP H0660114A JP 4122462 A JP4122462 A JP 4122462A JP 12246292 A JP12246292 A JP 12246292A JP H0660114 A JPH0660114 A JP H0660114A
Authority
JP
Japan
Prior art keywords
dictionary
analysis
hiragana
bunsetsu
rule group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4122462A
Other languages
English (en)
Inventor
Naoko Miyashita
尚子 宮下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP4122462A priority Critical patent/JPH0660114A/ja
Publication of JPH0660114A publication Critical patent/JPH0660114A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 自然言語文の形態素解析において、表層的な
規則のみを用いて解析を行う、簡易形態素解析方式。 【構成】 ステップ11で文から1文字読み込み、ステ
ップ12で文字種の判断を行う。ステップ13・14
で、文節切り規則に対応した場合に文節に句切り、ステ
ップ15で一文字進め、ステップ16で文が終わるまで
以上のステップ11からステップ15までを繰り返す。
ステップ17で、解析結果を表示する。 【効果】 膨大な辞書を必要とせずに、高速かつ高精度
な解析が行えるようになった。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、意味処理等の高度な言
語処理を行わずに自然言語の形態素解析を行う簡易形態
素解析手法に関するものである。
【0002】
【従来の技術】従来、自然言語の簡易形態素解析を行う
技術としては、稲垣他著、「簡易文章構造解析による文
構造の決定」、情報処理学会第42回全国大会講演論文
集、6C−4、3−104頁に記載されている手法で、
基本的には文字種の切れ目で判断し、かな漢字混じりの
単語に関しては「漢字扱い辞書」や「平仮名扱い辞書」
に登録しておくことによって文節を判断するという方式
が知られている。
【0003】
【発明が解決しようとする課題】日本語の単語の中に
は、ひらがな表記・漢字表記のいずれも可能であるとい
う単語が存在する。また、大人が漢字で書く単語であっ
ても子供ならひらがなで書くように、個人の趣味、性
質、年齢によって、「単語」とその「表層」が一対一で
対応しない場合がある。そういう場合、従来の技術で
は、精度を上げるためには辞書が膨大になってしまうと
いった問題点がある。
【0004】本発明の目的は、このような問題点を解決
する簡易形態素解析手法及び、その装置を提供すること
にある。
【0005】
【課題を解決するための手段】本発明の簡易自然言語形
態素解析方法は、自然言語文の形態素解析において、特
定文字と文字種の列で文節境界を判定する文節切り規則
を参照して適用可能なものがあれば文節字切りを行い、
前記規則中に適用可能なものがない場合はひらがなを含
んだ自立語を格納した漢字扱い辞書と漢字を含んだ付属
語を格納したひらがな扱い辞書に適用可能な語彙がなく
特定文字と文字種の列で文節境界でないことを判定する
文節切り禁止規則にあてはならない場合にひらがなから
漢字に文字種が変化する境界で文節切りを行う事を特徴
とする。
【0006】
【実施例】図1に全体の処理フローを示す。ステップ1
1で対象となる文の1文字目を読み込み、ステップ12
でその文字種の判断を行う。基本的には、ひらがなから
その他の文字種に移り変わる時に文節とみなすが、ステ
ップ13で、ひらがな扱い辞書と「『お+動詞』ならば
切らない」等の規則をまとめた文節切り禁止規則群と照
らし合わせ、切ってもいい場所か、切るといけない場所
かの判断を行う。またひらがなからひらがなへの移り変
わりの場所においては、漢字扱い辞書と「『を』の後で
は切る」等の規則をまとめた文節切り規則群と照らし合
わせ、切らない場所なのか、切る場所なのかの判断を行
う。ひらがな扱い辞書・漢字扱い辞書・文節切り規則群
・文節切り禁止規則群の様子をそれぞれ図2・3・4・
5に示す。そして、ステップ13で文節に区切る場所で
あるとの判断をくだされた場合、ステップ14に進み文
節に区切り、結果を一時メモリに格納した後、ステップ
15に進む。区切らない場合は直接ステップ15に進
み、一文字進める。そして、ステップ16で文が終わっ
たかどうかの判断をし、終わりでない場合はステップ1
2〜15を文が終わるまで繰り返す。そして、ステップ
17で、一時メモリに格納されている解析結果を利用者
に提示する。ステップ18で利用者に確認を求め、終了
を指示された場合は処理全体を終了し、そうでなければ
ステップ19で一時メモリをリセットし、ステップ11
に戻る。
【0007】図6は、簡易形態素解析装置の一実施例を
示す構成図である。モニター61は利用者へ解析結果の
提示を行う時に使用される。キーボード62は、利用者
が対象文を入力する時の手段、ならびに解析結果の確認
手段となる。文節判断器63は、ひらがな扱い辞書6
4、漢字扱い辞書65、文節切り規則群66、文節切り
禁止規則群67を参照し解析を行う。一時メモリ68
は、解析結果を格納するために使用される。またシステ
ム制御器69は、このシステム全体を制御するために使
用される。
【0008】
【発明の効果】本発明の、簡易形態素解析方法では、ひ
らがな扱い辞書・漢字扱い辞書の他に、文節切り規則群
・文節切り禁止規則群を用いて解析を行っているため、
従来の簡易形態素解析手法及び装置に比べ、より高精度
な解析が可能であるといった効果がある。また、規則群
を用いることによって、大きな辞書を必要とせず、高速
度の解析が可能となる効果がある。
【図面の簡単な説明】
【図1】全体の処理フローを表す図
【図2】ひらがな扱い辞書の様子を表す図
【図3】漢字扱い辞書の様子を表す図
【図4】文節切り規則群の様子を表す図
【図5】文節切り禁止規則群の様子を表す図
【図6】発明の一実施例を示す構成図
【符号の説明】
61 モニター 62 キーボード 63 文節判断器 64 ひらがな扱い辞書 65 漢字扱い辞書 66 文節切り規則群 67 文節切り禁止規則群 68 一時メモリ 69 システム制御器

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 自然言語文の形態素解析において、特定
    文字と文字種の列で文節境界を判定する文節切り規則を
    参照して適用可能なものがあれば文節切りを行い、前記
    規則中に適用可能なものがない場合はひらがなを含んだ
    自立語を格納した漢字扱い辞書と漢字を含んだ付属語を
    格納したひらがな扱い辞書に適用可能な語彙がなく特定
    文字と文字種の列で文節境界でないことを判定する文節
    切り禁止規則にあてはまらない場合にひらがなから漢字
    に文字種が変化する境界で文節切りを行う簡易形態素解
    析方法。
JP4122462A 1992-05-15 1992-05-15 簡易形態素解析方法 Withdrawn JPH0660114A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4122462A JPH0660114A (ja) 1992-05-15 1992-05-15 簡易形態素解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4122462A JPH0660114A (ja) 1992-05-15 1992-05-15 簡易形態素解析方法

Publications (1)

Publication Number Publication Date
JPH0660114A true JPH0660114A (ja) 1994-03-04

Family

ID=14836459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4122462A Withdrawn JPH0660114A (ja) 1992-05-15 1992-05-15 簡易形態素解析方法

Country Status (1)

Country Link
JP (1) JPH0660114A (ja)

Similar Documents

Publication Publication Date Title
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
US5410306A (en) Chinese phrasal stepcode
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
JPS59165179A (ja) 辞書引方式
JPH0660114A (ja) 簡易形態素解析方法
JPH04167049A (ja) 文書処理装置
JP2621999B2 (ja) 文書処理装置
JPS60193074A (ja) 日本語解析装置
JP2915225B2 (ja) 文書作成装置
JPH02255970A (ja) 文章提示装置
JPH07200605A (ja) 翻訳装置
JPS5832418B2 (ja) 漢字まじり文入力装置
Kawada Inputting Japanese from the keyboard
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH02255961A (ja) 文章提示装置
JPH01211167A (ja) カナ漢字変換方式
JPH11232268A (ja) 文書処理装置、ルビ割り付け方法、及び記録媒体
JPH0544699B2 (ja)
JPH0346055A (ja) ローマ字から漢字かなまじり文への変換方式
JPH04213155A (ja) 文書誤字抽出方式
JPH0546612A (ja) 文章誤り検出装置
JPS6315633B2 (ja)
JPH0585055B2 (ja)
JPH0468466A (ja) かな漢字変換装置
JPH08241315A (ja) 文書処理装置の単語登録機構

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990803