JPH02297194A - 接続コストテーブル作成装置 - Google Patents

接続コストテーブル作成装置

Info

Publication number
JPH02297194A
JPH02297194A JP1051107A JP5110789A JPH02297194A JP H02297194 A JPH02297194 A JP H02297194A JP 1051107 A JP1051107 A JP 1051107A JP 5110789 A JP5110789 A JP 5110789A JP H02297194 A JPH02297194 A JP H02297194A
Authority
JP
Japan
Prior art keywords
connection
cost
group
categories
cost table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1051107A
Other languages
English (en)
Other versions
JPH0792800B2 (ja
Inventor
Shinsuke Sakai
坂井 信輔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1051107A priority Critical patent/JPH0792800B2/ja
Publication of JPH02297194A publication Critical patent/JPH02297194A/ja
Publication of JPH0792800B2 publication Critical patent/JPH0792800B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は日英機械翻訳システム、日本語テキスト音声合
成システム等の必須構成要素である日本語の形態素分割
処理において用いる接続コストテーブルの作成方式に関
するものである。
(従来の技術) 従来、単語の境界に空白などの切れ目がないという特徴
がある日本語テキストの解析を行なうために、単語の境
界を決定する形態素分割の種々の方式が提案されている
。これらには、たとえばF情報処理」第27巻第8号9
51ページに記載されているように、最長一致法、二文
節最長一致法、文節数最小法、拡張文節モデル上のコス
ト最小法等の日本語形態素分割の技術が知られている。
(発明が解決しようとする問題点) しかしながら、従来の形態素分割方式においては、文節
の数を最小にするという一種の最適化方式や、各単語固
有のコストを定義して、そのコストの和を最小にすると
いう最適化手法が用いられているものの、隣接する単語
候補間の接続のしやすさを統一的に、例えば加算のよう
な演算が可能な量として表現し、利用することがなかっ
たので、複数の区切り方が可能な場合に、より日本語と
して適切な区切り方を選択することが困難であった。こ
の問題を改良した方式として、接続カテゴリー間に接続
のコストを定義し、そのコストの累積が最小となるよう
な分割を出力するような形態素分割方式が考えられる(
特願昭63−201603号明細書)。
ところが、単語候補間の接続のしやすさをあられす多値
のコストを、右向き・左向きの全接続カテゴリー間に定
義するには、大規模な多値マトリクスを作成せねばなら
ず、このようなデータを矛盾がないように作成・維持す
るのは非常に困難である。
本発明の目的は、このような多値のコストテーブルを容
易に生成することが可能な接続コストテーブル作成方式
を提供することにある。
(問題を解決するための手段) 本発明では、接続カテゴリー間の接続の可否を記述する
2値の接続テーブルと、1つ以上の接続カテゴリーが属
するグループの定義を記述するグループ定義テーブルと
、グループ間のコストを順に記述したグループ間コスト
テーブルを有し、グループ間コストテーブルに記述され
た順に、グループに属する各接続カテゴリー間の接続が
可であれば、その接続カテゴリー間の接続コストをそれ
らが属するグループ間のコストと同一の値に設定するこ
とによって接続コストテーブルを生成することを特徴と
している。
(作用) 接続カテゴリーは、たとえば片方向で200個程度に細
かく分かれているとしても、ある右(あるいは左)向き
カテゴリーに対して、同程度に接続しやすい左(あるい
は右)向きカテゴリーが複数存在することがあり、これ
らはその接続のしやすさを共通点としであるまとまりを
成していると見ることができる。たとえば、〈す行五段
活用動詞語幹〉という右向き接続カテゴリーに対して、
くす行五段活用動詞活用語尾・未然形〉、くす行五段活
用動詞活用語尾・連用形〉、くす行五段活用動詞活用語
尾・終止形〉、くす行五段活用動詞活用語尾・連体形〉
、くす行五段活用動詞活用語尾・仮定形〉、くす行五段
活用動詞活用語尾・命令形〉などの左向き接続カテゴリ
ーは、接続コストが同様にとても小さいこ゛とにより、
グループとしてまとまっている。
そこで、右向き(あるいは左向き)の接続カテゴリーの
集合において、左向き(あるいは右向き)に同じような
接続の性質をもつと考えられる接続カテゴリーを集めて
右向きくあるいは左向き)接続カテゴリーグループとい
うものを定義する。このグループ間の接続コストCを決
めてやれば、右向き接続カテゴリーrと左向き接続カテ
ゴリー1の間の接続コス) c(r、 1)は、以下に
述べるようにして計算できる。
c (r、 1) = Q) if b (r、 1)
 =0.         (1)c(r、1) = 
γif b(r、1) = 1かつ      (2)
C(R,L)=γかつ r(Rかつ1 (L。
ここで、 b(r、υ : 2値接続マトリクスの(r、 l)要
素。右向き接続カテゴリーrと左向き接続 カテゴリー1が接続可能ならば1、 そうでなければ0である。
C(R,L) :  右向き接続カテゴリーグループR
と左向き接続カテゴリーグループLの 間の接続コスト。
■  =接続不可能であることをあられす。
接続カテゴリーグループ間のコストを定義する表をグル
ープ間コストテーブルと呼ぶ。
(1)式、(2)式による多値接続コストの計算は、グ
ループ間コストテーブルにおける記述の順に行なう。
従って、あるグループの部分集合となっている、より特
殊なグループの接続コストを定義する必要がある場合は
、その、より特殊なグループに対するコスト定義をそれ
を含むグループに対するコスト定義の後方に記述してお
けばよい。
(実施例) 次に第1図を参照しつつ、実施例にしたがって本発明の
詳細な説明する。
第1図は本発明の原理を実現するための一実施例であ、
る。2値接続テーブル103は、2次元の行列であリ、
その1行1列要素の値は、番号rであられされる右向き
接続カテゴリーと番号であられされる左向き接続カテゴ
リーが接続可能ならば1であり、そうでないならばOで
ある。以下、2値接続テーブル103の1行1列要素を
b(r、 1)と呼ぶ。
接続コストテーブル生成バッファ104は、2値接続テ
ーブル103と同じ大きさの2次元行列を格納すること
が可能なバッファである。この(r、1)要素をc(r
、 1)と呼ぶ。
第2図は、接続カテゴリーグループテーブル101の形
式をあられす。このテーブルに接続カテゴリーグループ
の定義を記述しておく。Li(i= 1.2.・・・・
)は、左向きカテゴリーグループ名であり、’tl+ 
’12y・・・・は、それに属する左向き接続カテゴリ
ーである。RH(i=1.2・・・・)は、右向きカテ
ゴリーグループであり、rib ri2+ ’・、・は
、それに属する右向き接続カテゴリーである。
第3図は、グループ間コストテーブルをあられす。この
テーブルにグループ間の接続コストを定義しておく。制
御部105はテーブルにおける記述の順に接続コストテ
ーブル生成バッファ104への書き込みを行なうので、
グループ間接続コストの定義は、一般的なものをより前
方に、特殊なものをより後方に記述する。Li、Riは
、左向きおよび右向き接続カテゴリーグループを、Ci
はそれらの間の接続コストをあられす。
制御部105は、次のように動作する。
■まず2値接続テーブル103を接続コストテーブル生
成バッファ104にコピーする。
■接続コストテーブル生成バッファ104の各要素を、
値が1ならば、デフオールドコスト保持部に登録されて
いるコストのデフオールドの値に書換え、値がOならば
、■に書き換える。
■つぎにグループ間コストテーブル102を先頭から走
査して、グループ間コストテーブル102の各行に対し
て以下の処理を行なう。
Ri、Liに属するすべての右向きおよび左向き接続カ
テゴリーの順序対(riXp ’jy)に対して、もし
b(rix、li、)=1ならば、c(rix+ ’i
y) = Ciとする。
0以上の処理の結果、接続コストテーブル生成バッファ
104の内容が接続コストテーブルとなる。
以上述べた手順で生成された接続コストテーブルを用い
て、形態素分割を行なう方法を第4図を用いて説明する
制御部401は、次のように動作する。
■入力テキスト保持部402に保持された入力テキスト
の各文字位置から始まるすべての形態素を辞書404を
検索して求める。
■上記の検索結果から、入力文のすべての可能な分割を
抽出する。
■抽出された各分割に対して、接続コストテーブル40
3を用いて接続コストの和を求める。
■接続コストの和が最小となるような分割を結果として
出力する。
(発明の効果) 以上述べたように本発明によると、複数の形態素分割の
可能性がある入力テキストに対して、単語のカテゴリー
間の隣接のしやすさに関するヒユーリスティクスを記述
しておくことにより、より適切な形態素分割を行なうこ
とを可能とする接続コストテーブルを、容易に作成する
ことが可能となる。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図である。第
2図は接続カテゴリーグループテーブルの形式を説明す
るための図、第3図は、グループ間コストテーブルを説
明するための図である。第4図は本発明の接続コストテ
ーブルを用いた形態素分割方式の例を説明するための図
である。 図において、 101・・・接続カテゴリーグループテーブル、102
・・・グループ間コストテーブル、103、・・2値接
続テーブル、 104・・・接続コストテーブル生成バッファ、105
・・・制書部、106・・・デフオールコスト保持部、
401・・・制御部、402・・・入力テキスト保持部
、403・・・接続コストテーブル、404・・・辞書
をそれぞれあられす。

Claims (1)

    【特許請求の範囲】
  1. 接続カテゴリー間の接続の可否を記述する2値の接続テ
    ーブルと、1つ以上の接続カテゴリーが属するグループ
    の定義を記述するグループ定義テーブルと、グループ間
    のコストを順に記述したグループ間コストテーブルを有
    し、グループ間コストテーブルに記述された順に、グル
    ープに属する各接続カテゴリー間の接続が可であれば、
    その接続カテゴリー間の接続コストをそれらが属するグ
    ループ間のコストと同一の値に設定することによって接
    続コストテーブルを生成することを特徴とする接続コス
    トテーブル作成方式。
JP1051107A 1989-03-02 1989-03-02 接続コストテーブル作成装置 Expired - Lifetime JPH0792800B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1051107A JPH0792800B2 (ja) 1989-03-02 1989-03-02 接続コストテーブル作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1051107A JPH0792800B2 (ja) 1989-03-02 1989-03-02 接続コストテーブル作成装置

Publications (2)

Publication Number Publication Date
JPH02297194A true JPH02297194A (ja) 1990-12-07
JPH0792800B2 JPH0792800B2 (ja) 1995-10-09

Family

ID=12877580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1051107A Expired - Lifetime JPH0792800B2 (ja) 1989-03-02 1989-03-02 接続コストテーブル作成装置

Country Status (1)

Country Link
JP (1) JPH0792800B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320421A (ja) * 1997-03-19 1998-12-04 Ricoh Co Ltd 文書検索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320421A (ja) * 1997-03-19 1998-12-04 Ricoh Co Ltd 文書検索方法

Also Published As

Publication number Publication date
JPH0792800B2 (ja) 1995-10-09

Similar Documents

Publication Publication Date Title
Yoshiura et al. Top-down construction of 3-D mechanical object shapes from engineering drawings
CN111190522A (zh) 从自然语言请求生成三维数字内容
JPH0630066B2 (ja) テーブル型言語翻訳方法
JPH08241332A (ja) 全文登録語検索装置および方法
CN108363693A (zh) 文本处理方法和装置
Cortadella et al. Complete state encoding based on the theory of regions
CN113051885B (zh) 基于AutoCAD的设计图纸快速排版方法
US5289376A (en) Apparatus for displaying dictionary information in dictionary and apparatus for editing the dictionary by using the above apparatus
Cunningham et al. Experience using GATE for NLP R&D
JPS61107468A (ja) 文書編集方式
JPH02297194A (ja) 接続コストテーブル作成装置
JPH01191270A (ja) 図形編集装置
JPH02123459A (ja) マーカ・エンテイテイ管理方法
JP2000040085A (ja) 日本語形態素解析処理の後処理方法および装置
Hansen A function-based formatting model
CN117540447B (zh) 一种基于业务分析场景的组件化建模方法及系统
Abrams A comparative sampling of the systems for producing computer-drawn flowcharts
JPS60583A (ja) 単語認識方式
JPH045760A (ja) 自然語処理方法および自然語処理システム
JP2714015B2 (ja) 論理回路合成装置
Menšík et al. Algorithm for Generating Sketch Maps from Spatial Information Extracted from Natural Language Descriptions
Pecherer Efficient retrieval in relational data base systems.
CN116187351A (zh) 基于树模型的语料对齐方法及装置
JPH0490026A (ja) 処理フロー図編集装置
JPH06314281A (ja) 文書編集装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071009

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081009

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091009

Year of fee payment: 14

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091009

Year of fee payment: 14