JP3174886B2 - 形態素解析コスト作成支援装置 - Google Patents

形態素解析コスト作成支援装置

Info

Publication number
JP3174886B2
JP3174886B2 JP01583091A JP1583091A JP3174886B2 JP 3174886 B2 JP3174886 B2 JP 3174886B2 JP 01583091 A JP01583091 A JP 01583091A JP 1583091 A JP1583091 A JP 1583091A JP 3174886 B2 JP3174886 B2 JP 3174886B2
Authority
JP
Japan
Prior art keywords
cost
constraint data
rule
rules
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01583091A
Other languages
English (en)
Other versions
JPH04242472A (ja
Inventor
英二 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP01583091A priority Critical patent/JP3174886B2/ja
Publication of JPH04242472A publication Critical patent/JPH04242472A/ja
Application granted granted Critical
Publication of JP3174886B2 publication Critical patent/JP3174886B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、形態素解析プログラム
において、複数の解をパックした意味表現から、一つの
解を選ぶことを目的とし、意味表現の一部分(ノード,
アーク)に付与するコストを決定するために用いる形態
解析コスト作成支援装置に関するものである。
【0002】従来、形態素解析プログラムにおいて、解
の候補が複数ある場合に、それぞれの候補のコストを計
算し、最もコストが小さい解を最終的な解とする方法が
コスト最小法形態解析として知られている。
【0003】このとき、意味表現にコストを与えるルー
ルを作成しなければならないが、各ルールの与える具体
的な値は、人間が統計的データや、例文の解析結果を見
ながら経験的に決定するのが一般的であった。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の方法では、コストルールが与えるコストの値の決定
に多くの労力を要するばかりではなく、コストルールの
数が増えた場合には、コストの値を決定することが事実
上不可能になるという恐れがあった。
【0005】本発明は上述の点に鑑みてなされたもの
で、コスト最小法において、コストルールの与えるコス
トの決定が容易でないという問題点を解決し、大規模な
形態解析用コストルールの作成を容易にする形態
析コスト作成支援装置を提供することを目的とする。
【0006】
【課題を解決するための手段】上記課題を解決するため
本発明は、文書の形態素であるノード及び該形態素の組
合せであるアークに所定のコストルールでコストを与
え、該ノードコストとアークコストの総和からコスト最
小の該形態素系列を決定するコスト最小法形態素解析に
用いるコスト作成を支援する形態解析コスト作成支援
装置において、コストルールを格納するコストルール格
納手段と、文書の形態素を所定のルールの不等式で表現
した制約データを格納する制約データ格納手段と、制約
データを満足するように全てのコストルールの与えるコ
ストを決定するコスト変数決定手段とを備え、コスト変
数決定手段は制約データ格納手段から読み出した制約デ
ータに対して、コストルール格納手段から読み出したコ
ストルールに基づきコスト変数を与え、該コスト変数で
置き換えられた不等式でコストルールのコスト値の決定
を支援することを特徴とする。
【0007】
【作用】上記のように本発明は、コストルールのコスト
値の決定を制約データ格納手段に格納した制約データを
用いて支援するので、複雑なコストルール迅速且つ容
易に作成することができる。
【0008】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明の実施例の形態解析コスト作成支
援装置の構成を示すブロック図である。図1において、
1はコストルールや制約データの入力や結果の修正を行
うためのインターフェース、2はコストルールを格納す
るコストルール格納装置、3は制約データを格納する制
約データ格納装置、4は制約データを満たすようにすべ
ての各コストルールの与えるコストを決定するコスト変
数決定装置、5はコストルール及び制約データを修正す
るコストルール・制約データ修正装置である。
【0009】図1に示す形態解析コスト作成支援装置
の動作を図7基づいて説明する。先ず、コストルール
及び制約データを作成し(人手により作成)(ステップ
ST11)、該コストルール及び制約データをインター
フェース1を通して入力し、それぞれコストルール格納
装置2及び制約データ格納装置3に格納する(ステップ
ST12)。続いてコスト変数決定装置4で、コスト決
定処理を行い(ステップST13)、続いてコスト決定
が成功したか否かを判断し(ステップST14)、コス
ト決定が成功したら該決定したコストを出力し(ステッ
プST15)、コスト決定が不成功であったら、コスト
ルール制約データ修正装置で、コストルール・制約デー
タの修正を行い(ステップST16)、再びコスト決定
処理を行う。以下、上記動作の詳細を説明する。
【0010】図2は形態素解析の複数解をパックした意
味表現の例を示す図である。図2において、11をノー
ド(形態素)、12をアーク(形態素と形態素の組合
せ)と呼ぶことにする。そして文の先頭と最後にSTA
RT,ENDと呼ぶダミーのノードを付加する。
【0011】図3は図2のような意味表現から最も適当
と思われるパスをコスト最小解として選ぶためのコスト
ルールの例を示す図である。同図のコストルールは、ノ
ード及びアークに対してコストを与える。但しここでは
各コストルールが与えるコストは、全て未定としてお
き、非負変数を含んだ項(以下、コスト変数と呼ぶ)で
表現しておく。図3において、C1〜C2はノードに対
するコストルールの変数、C3〜C24はアークに対す
るコストルールの変数である。また、C1〜C24は非
負(0又は正の数)である。
【0012】図4はコストルールのコストを決定するた
めの制約データの例を示す図である。制約データは誤っ
た意味表現>正しい表現、又は正しい表現<誤った表現
(即ち、正しい表現は誤った表現よりコストが小さく
る)の形式で表示する。ここで不等号は両辺の総てのコ
ストルールを適用した場合のコストの総和の大小を表
す。
【0013】図5は、コスト変数決定装置4の動作過程
を示す図であり、コスト決定は下記の手順で行う。制約
データ(図4)の両辺にコストルール(図3)を適用
し、コスト変数の和に置き換える操作を総ての制約デー
タに対して繰返し、図5の(1)の不等式を得る。次
に、図5の(2)に示すように得られた不等式を満たす
コスト変数C1,C2,・・・・・の値を決定する。全
ての解が得られた場合は、コスト変数の値を出力し、終
了するが、解が得られなかった場合は、コストルール・
制約データ修正装置5により、コストルール又は制約デ
ータを修正して、解が得られるようにする。
【0014】図6はコストルール・制約データの修正過
程の例を示す図である。コストルール・制約データの修
正は下記のようにして行う。
【0015】(1)解のない制約データの組が、制約デ
ータ1,2,・・・・nである場合 。 (2)上記制約データ1,2,・・・・nの内、削
除したくない制約データ(例えば絶対間違いのないデー
タ、最優先させるデータ等)に人手によりマーク(○
印)を付ける。そして削りたくないデータがない場合は
何もつけない。 (3)コストルール制約データ修正装置5により、除外
しなければならない制約データの組合せを決定する。 (4)上記(3)の結果で得られた、除外しなければな
らない制約データを見ながら人間が原因を発見し、除外
する制約データが少なくなるようにコストルール又は制
約データを修正して新しい制約データの組、制約データ
1,2,・・・・m(m<n)得、続いてコスト変数決
定装置4により、コスト決定を行う。コスト決定が成功
した場合は終了し、成功しなかった修正の最初に戻り処
理を繰り返す。
【0016】上記(3)のコストルール制約データ修正
装置により、除外しなければならない制約データの組合
せの決定は、下記のようにして行われる。
【0017】(a)制約データ格納装置3内のn個の制
約データを除外して、コスト変数決定を行う。除外する
組合せは全ての組合せを試し、コストが求まるような全
ての除外組合せを出力する。nは1から順にコスト変数
が決定できるまでインクリメントする。 (b)ここで予めマークがつけられている制約データは
除外の対象にしない。 (c)また、採用の優先順位を付けておくこともでき
る。例えば、先に登録した制約データを優先的に採用す
る。或いは、各制約データに確信度をつけ、この確信度
の高い制約データを優先的に採用する。
【0018】上記のようにして決定されたコスト変数の
値でコストルールの変数を置き換えたコストルールを形
態素解析プログラムに組み込んで使用する。
【0019】
【発明の効果】コスト最小解析法に対して、本発明
解析コスト作成支援装置における方法を適用するこ
とにより、下記のような優れた効果が得られる。 (a)複雑なコストルールを迅速かつ容易に作成するこ
とができる。 (b)コスト値を決定した根拠をデータとして残すこと
ができる。
【図面の簡単な説明】
【図1】本発明の実施例の形態解析コスト作成支援装
置の構成を示すブロック図である。
【図2】形態素解析の複数解をパックした意味表現の例
を示す図である。
【図3】図3は図2のような意味表現から最も適当と思
われるパスをコスト最小解として選ぶためのコストルー
ルの例を示す図である。
【図4】コストルールのコストを決定するための制約デ
ータの例を示す図である。
【図5】コスト変数決定装置の動作過程を示す図であ
る。
【図6】コストルール・制約データの修正過程の例を示
す図である。
【図7】図1に示す形態解析コスト作成支援装置の動
作の流れを示す図である。
【符号の説明】
1 インターフェース 2 コストルール格納装置 3 制約データ格納装置 4 コスト変数決定装置 5 コストルール制約データ
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 17/20 - 17/28 G06F 17/10 - 17/12

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書の形態素であるノード及び該形態素
    の組合せであるアークに所定のコストルールでコストを
    与え、該ノードコストとアークコストの総和からコスト
    最小の該形態素系列を決定するコスト最小法形態素解析
    に用いるコスト作成を支援する形態解析コスト作成支
    装置において、 前記コストルールを格納するコストルール格納手段と、 前記文書の形態素を所定のルールの不等式で表現した制
    約データを格納する制約データ格納手段と、 前記制約データを満足するように全てのコストルールの
    与えるコストを決定するコスト変数決定手段とを備え、前記コスト変数決定手段は 前記制約データ格納手段から
    読み出した制約データに対して、前記コストルール格納
    手段から読み出したコストルールに基づきコスト変数を
    与え、該コスト変数で置き換えられた不等式で前記コス
    トルールのコスト値の決定を支援することを特徴とする
    形態解析コスト作成支援装置
JP01583091A 1991-01-16 1991-01-16 形態素解析コスト作成支援装置 Expired - Fee Related JP3174886B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01583091A JP3174886B2 (ja) 1991-01-16 1991-01-16 形態素解析コスト作成支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01583091A JP3174886B2 (ja) 1991-01-16 1991-01-16 形態素解析コスト作成支援装置

Publications (2)

Publication Number Publication Date
JPH04242472A JPH04242472A (ja) 1992-08-31
JP3174886B2 true JP3174886B2 (ja) 2001-06-11

Family

ID=11899769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01583091A Expired - Fee Related JP3174886B2 (ja) 1991-01-16 1991-01-16 形態素解析コスト作成支援装置

Country Status (1)

Country Link
JP (1) JP3174886B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102134127A (zh) * 2011-05-06 2011-07-27 梁锦雄 一种生物窠

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5853595B2 (ja) * 2011-10-31 2016-02-09 富士通株式会社 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
久光徹、新田義彦、「接続コスト最小法による形態素解析の提案と計算量の評価について」、電子情報通信学会技術研究報告、Vol.90、No.116(NLC90−8)、p.17−p.24(1990)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102134127A (zh) * 2011-05-06 2011-07-27 梁锦雄 一种生物窠

Also Published As

Publication number Publication date
JPH04242472A (ja) 1992-08-31

Similar Documents

Publication Publication Date Title
US5379373A (en) Document layout processing method and device for carrying out the same
JP3946233B2 (ja) 画像表示システム
US7530014B2 (en) Data processing and difference computation for generating addressing information
US8321371B2 (en) Enhanced artificial intelligence language
JPH0830620A (ja) 構造検索装置
US6944588B2 (en) Method and apparatus for factoring unambiguous finite state transducers
JP3174886B2 (ja) 形態素解析コスト作成支援装置
JP2004348341A (ja) 構造化文書処理システム、構造化文書処理方法及びプログラム
JP4183774B2 (ja) 要素間参照を利用したレイアウト処理方法および装置
JP2616451B2 (ja) データチェック装置
WO2022070422A1 (ja) 計算機システム及び文字認識方法
JPH0743728B2 (ja) 要約文生成方式
JPH0668748B2 (ja) 文書整形方法
JP2940394B2 (ja) 原始プログラム修正装置
JP3129427B2 (ja) 文書処理方法及び装置
JPH05135054A (ja) 文書処理方法
JPH0424825A (ja) 文法編集処理装置
JPH0359761A (ja) 英単語綴りの誤り訂正装置
JPH09212511A (ja) 自然言語処理装置
JPH08129549A (ja) 文書処理装置
JP4071462B2 (ja) Html文書生成プログラム及びコンピュータ可読媒体
WO2024050636A1 (en) Tokenization of data for use in ai applications
JPH0721802B2 (ja) 数式編集装置
JPH01245353A (ja) セクション番号生成方式
JPS60104373A (ja) 文字処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees