JPH03271962A - 複合語抽出装置 - Google Patents

複合語抽出装置

Info

Publication number
JPH03271962A
JPH03271962A JP2072415A JP7241590A JPH03271962A JP H03271962 A JPH03271962 A JP H03271962A JP 2072415 A JP2072415 A JP 2072415A JP 7241590 A JP7241590 A JP 7241590A JP H03271962 A JPH03271962 A JP H03271962A
Authority
JP
Japan
Prior art keywords
compound word
compound
word
dictionary
affix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2072415A
Other languages
English (en)
Other versions
JP2536221B2 (ja
Inventor
Mikito Hirata
幹人 平田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2072415A priority Critical patent/JP2536221B2/ja
Publication of JPH03271962A publication Critical patent/JPH03271962A/ja
Application granted granted Critical
Publication of JP2536221B2 publication Critical patent/JP2536221B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、官給処理システム及び文献検索システム等に
おける日本語文に出現する複合語を抽出する複合語抽出
装置に関する。
〔従来の技術〕
言語処理システムの中で例えば機械翻訳システムにおい
ては、入力文中に現れる辞書に登録されていない複合語
を辞書に登録することによって、翻訳品質を向上させる
ことができ、また、文献検索システムにおいては、文中
の複合語がキーワードとして用いられる可能性が高いの
で、入力日本語文から質の高い複合語を抽出する技術が
必要とされている。
従来、日本語文から複合語を抽出する技術としては、品
詞情報を持った辞書を用いて日本語文を語に分割し、名
詞及びす変動詞語幹、接辞等の名詞相当語の連続した部
分を複合語として抽出する方式がある。またこの際、利
用者が複合語を構成しないと指定した語を格納する不要
語辞書に登録されている語を除くものもある。
〔発明が解決しようとするIIIIIり上述した従来の
複合語抽出技術では、辞書に登録した9キーワードとし
て用いる複合語の構成要素としては通常不適切な「各」
のような接頭辞、「時」「後」のように他の語に付いて
関係を示す名詞等も、抽出された複合語の構成要素の中
に名詞相当語として含まれることになシ、また、これら
の語を利用者が不要論辞書に登録するには多大の工数を
要するという問題点がある。
(ml亀を解決するための手段〕 本発明の複合語抽出装置は、日本語文を入力するための
日本語文入力装置、解析に必要な文法情報を格納し複合
語の構成!!累に通常ならない接辞及び接辞相当語等に
マークを付与した辞書、前記辞書を用いて日本語入力文
を解析し名詞及び名詞相当飴が連続した部分から前記の
マークに基づいて接辞及び接辞相当語等を除いた部分を
複合語として抽出する複合語抽出部、抽出された複合語
の区間の修正を指示する複合語修正指示装置、前記複合
語修正指示装置の指示に従って複合語の区間の修正を行
う複合語修正部、抽出及び修正された複合語に関する情
報を入力文と対応付けて格納する複合語情報格納部、修
正によって新たに複合語の構成要素になった接辞及び接
辞相当語等及び構成要素から除かれた接辞及び接辞相当
語等に対して前記のマークを前記辞書中から削除及び付
与する辞書更新部、抽出及び修正された複合語を出力す
る複合語出力装置とを有して構成されている。
〔実施例〕
次に1本発明について図面を参照して説明する。
第1図は本発明の一実施例を示すブロック図である。
第1図において、日本語文入力装置11は、日本語の入
力を行うための装置である。一般的にはCRTとキーボ
ードであるが、他にOCR入力装置や文書を扱う他シス
テムが出力した日本語文のファイルを読み込むための装
置である場合もある。
辞書12は、日本語の各見出し飴に対して、品詞、活用
等の解析に必要な文法情報を保持しているとともに、「
各」 「咳」のような接頭辞、「用」「等」のような接
尾辞、「各々」のように副詞としても用いられる副詞的
名詞、1時」 「上」のように他の飴の後ろに付いて1
時”や1場所”等の関係を示す関係性名詞等に対しては
、さらに複合語の構成要素としての不適切性を表す情報
を保持している。後者の情報は、次に述べる39類のマ
ークを1個以上付与することにより格納される。
マークl#′i、その語が複合語を構成する途中の要素
すなわち両端の語でない語として用いられることは通常
ないことを示す。マークlを付与する飴の例としては、
「各複合語抽出装置は抽出直後出力処理等を行う、」と
いう文の中の「直後」が挙けられる。マーク2は、その
語が複合語を構成する左端の飴として用いられることは
通常ないととを示す。マーク2を付与する語の例として
は、前述の例文の中の「各」が挙げられる。マーク3は
、その飴が複合語を構成する右端の飴として用いられる
ことは通常ないことを示す。マーク3を付与する飴の例
としては、前述の例文の中のE等」が挙けられる。これ
らのマークは1個の語に複数個付与される場合も多い。
複合語抽出部13は、第2図に示される処理を行う。[
各複合語抽出装置は抽出直後出力処理等を行う。」とい
う例文を使って処理手順を順番に、説明する。ます、ス
テップ21の語切り処理において辞書12を使って入力
日本語文を解析し、詰切り情報を出力するとともに、語
切りされた各論に対して品詞及び前述のマーク等の情報
を付与する。活用する語については、語幹と1尾は別々
に分けられる。未登録語があった場合、右に隣接する活
用飴尾吟によって名詞以外の飴とわかる場合を除いて名
詞として扱う。ステップ21によって、前述の例文は、
例えば、 「各 複合語 抽出 装置 は 抽出 直後出力 処理
 等 を 行 う。」 のように分解される。次に、ステップ22の名詞連続区
間抽出処理によって、名詞又は名詞相当飴か複数個連続
している区間を取シ出す。ここで、名詞相轟飴としては
、す変動詞語幹、接頭辞及び接頭辞相轟語、接尾辞相当
語等があり、さらに連続部分の右端でない&については
形容詞語幹、形容動詞語幹、r/Jr−J等の一部の記
号等を含んでもよい。また、専門用語を対象に考えた場
合は、多くの専門用語は漢字又はカタカナからなるので
区間に含まれる文字種を漢字とカタカナに限ってもよい
、なお、代名詞は名詞相当語には含まれないものとする
。前述の例文からは、「各 複合語 抽出 装置」「抽
出 直後 出力 処理 等」 02個の区間が取シ出される。次に、ステップ23のマ
ーク1対応処理によって、ステップ22で抽出された名
詞連続区間の中にマーク1を持つ飴があれば、マーク1
を持つ6飴の位置で区間を分割する。この際、マークl
を持つ飴は分割された区間からは除かれ、分割されて1
語になった区間も除かれる。またこの処理によりて除か
れたマーク1を持つ語の各々について文中での位置を以
降に記述する複合語情報格納部16に格納する。前述の
例文においては、「直後」がマーク1を持つので「抽出
 直後 出力 処理 勢」が「直後」の分割され、分割
された左側の1抽出」は1語であるので除かれ、結果と
して、 「各 複合語 抽出 装置」 「出力 処理 等」の2
1mの区間が取ル出される。次に、ステップ24のマー
ク2対応処理によって、ステップ23で抽出された各名
詞連続区間に対して、左端の語から右へ順番にマーク2
を持つ語があるかどうか調べ、マーク2を持つ語があっ
た場合その語を区間から除く処理を、マーク2t−持た
ない語が現れるまで行った後、さらに1語の区間ができ
ていればその区間を除く。またこの処理によって除かれ
たマーク2を持つ語の各々について文中での位置を以降
に記述する複合語情報格納部16に格納する。前述の例
文においては、「各」がマーク2を持つので前の区間か
ら「各」が除かれ、結果として「複合語 抽出 装置」
 「出力 処理 等」の区間が得られる。最後に1ステ
ツプ25のマーク3対応処理によって、ステップ24で
抽出された各名詞連続区間に対して、右端の語から左へ
順番にマーク3を持つ語があるかどうか調べ、マーク3
を持つ語があった場合その飴を区間から除く処理を、マ
ーク3を持たない飴が現れるまで行った後、さらに1語
の区間ができていればその区間を除く、またこの処理に
よって除かれたマーク3を持つ語の各々について文中で
の位置を以降に記述する複合語情報格納部16に格納す
る。前述の例文においては、F等」がマーク3を持つの
で後の区間から「等」が除かれ、結果として、「複合語
 抽出 装置」  「出力 処理」の区間が得られる。
すなわち前述の例文においては、 「複合語抽出装置」 「出力処理」 02個の複合語が抽出される。抽出されり複合−及びそ
の入力文中での位置、また入力文及びその断切多位置、
6語の品詞情報等を以降に記述する複合語情報格納部1
6に格納する。
複合語修正指示装置14は、複合語抽出部13によって
抽出された複合語を入力文とともに表示し、その表示を
参照して利用者が複合語区間の修正指示を入力する装置
である。まず、抽出された複合語を入力文中での位置が
わかる形で、第3図に示すようにCRT等に表示する。
第3図において入力文中の6飴は瞼切りされた状態で懺
不され、また抽出された複合語である「複合語抽出装置
」「出力処理」には下線が引かれている。利用者はマウ
ス又はキーボード等によってカーソルを入力文の任意の
文字に位置付けることができるとともに、カーソルを飴
切シされた1@単位に移動させることもできる。利用者
は複合語の区間を修正する場合、カーソルによって新し
い区間の先頭と終端を指示する。
複合語修正部15は、複合語修正指示装置14の指示に
従って、抽出された複合語の区間の修正を行い、修正さ
れた複合語及びその入力文中での位置を次に記述する複
合語情報格納部16に格納する。
複合語情報格納部16は、複合語抽出部13及び複合語
修正部15から出力された複合語に関する情報及び入力
文に関する情報全格納する。前者の情報としては、抽出
された複合語及びその入力文中での位置、修正された複
合語及びその入力文中での位置、マーク対応処理時に除
かれた飴の入力文中での位置及びどのマーク対応処理で
除かれたか等の情報がある。彼者の情報としては、入力
文及びその語勢多位置、6賭の品詞情報等がある。
辞書更新部17は、複合語情報格納部16に格納されて
いる抽出時及び修正時の情報を利用して、辞書中の語か
らマークを除去するマーク除去処理及び辞書中の語にマ
ークを付与するマーク付与処理を行う。マーク除去処理
は、マーク1除去処理、マーク2除去処理、マーク3除
去処理からなる。
マークl除去処理は、複合語抽出部13のステップ23
のマーク1対応処理で複合語の構成要素から除かれたマ
ーク1を持つ飴が複合語修正部15で再び複合語の両端
の語でない構成要素になった場合に、その語からマーク
1を除去する。マーク2除去処理は、複合語抽出部13
のステップ24のマーク2対応処理で複合語の構成要素
から除かれたマーク2を持つ飴が複合語修正部15で再
び複合語の左端の語になった場合に、その語からマーク
2を除去する。例えば前述の例文において利用者の修正
によって「各複合語抽出装置」が複合語とされた場合、
「各」からマークを除去する。
マーク3除去処理は、複合語抽出部13のステップ25
のマーク3対応処理で複合語の構成要素から除かれたマ
ーク3を持つ飴が複合語修正部15で再び複合語の右端
の語になった場合、その飴からマーク3を除去する。マ
ーク付与処理は、マーク1付与処理、マーク2付与処理
、マーク3付与処理からなる。マーク1付与処理は、複
合語抽出部13で抽出された複合語の両端でない飴が1
個だけ複合語修正部15で複合語の区間から除かれた場
合、その飴にマーク1を付与する。マーク2付与処理は
、複合語抽出部13で抽出された複合語の左端にあった
接頭辞又は接頭辞相当語が複合語修正部15で複合語の
区間から除かれた場合、その語にマーク2を付与する。
マーク3付与処理は、複合語抽出部13で抽出された複
合語の右端にあった接尾辞又は接尾辞相当語が複合語修
正部15で複合語の区間から除かれた場合に、その飴に
マーク3を付与する。なお、修正結果を辞書に反映させ
たくない場合を考慮して、複合語区間の修正時に利用者
の選択によル辞書更新部の処理を行うか行わないかのモ
ードを任意の時点で切り換えることができるようにして
もよい。
複合語出力装置18は、複合語抽出部13で抽出された
又は複合語修正部15で修正された複合語の出力を行う
ための装置である。一般的にはプリンタであるが、他に
CRTや他システムへの入力として使用するためにファ
イルの形で出力する場合もある。
〔発明の効果〕
以上説明したように本発明は、複合語の構成要素として
通常不適切な接辞及び接辞相当語等の辞書に、複合語の
左端、途中、右端に現れることは通常ないという3種類
のマークを付与し、これらのマークに基づいて複合語の
構成要素から不適切な接辞等の語をあらかじめ除くこと
によって、言語処理システムにおいて辞書登録すべき語
及び文献検索システムにおけるキーワードに一層適した
複合@を抽出することができるとともに、不要な複合語
の抽出を抑える効果がある。さらに、利用者が複合語の
区間を修正した場合に、その修正結果に基づいて自動的
に辞書中の語からマークを除去あるいは辞書中の語にマ
ークを付与することによシ、抽出される複合語の質を高
めることができるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
複合語抽出部において行われる処理手順を示す図、第3
図は複合−修正指示装置において表示される画面の例を
示す図である。 11・・・日本語文入力装置、12・・・辞書、13・
・・複合語抽出部、14・・・複合語修正指示装置、1
5・・・複合語修正部、16・・・複合語情報格納部、
17・・・辞書更新部、18・・・複合語出力装置、2
1・・・飴切夛処理、22・・・名詞連続区間抽出処理
、23・・・マーク1対応処理、24・・・マーク2対
応処理、25・・・マーク3対応処理。

Claims (1)

    【特許請求の範囲】
  1. 日本語文を入力するための日本語文入力装置、解析に必
    要な文法情報を格納し複合語の構成要素に通常ならない
    接辞及び接辞相当語等にマークを付与した辞書、前記辞
    書を用いて日本語入力文を解析し名詞及び名詞相当語が
    連続した部分から前記のマークに基づいて接辞及び接辞
    相当語等を除いた部分を複合語として抽出する複合語抽
    出部、抽出された複合語の区間の修正を指示する複合語
    修正指示装置、前記複合語修正指示装置の指示に従って
    複合語の区間の修正を行う複合語修正部、抽出及び修正
    された複合語に関する情報を入力文と対応付けて格納す
    る複合語情報格納部、修正によって新たに複合語の構成
    要素になった接辞及び接辞相当語等及び構成要素から除
    かれた接辞及び接辞相当語等に対して前記のマークを前
    記辞書中から削除及び付与する辞書更新部、抽出及び修
    正された複合語を出力する複合語出力装置とを有したこ
    とを特徴とする複合語抽出装置。
JP2072415A 1990-03-20 1990-03-20 複合語抽出装置 Expired - Lifetime JP2536221B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2072415A JP2536221B2 (ja) 1990-03-20 1990-03-20 複合語抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2072415A JP2536221B2 (ja) 1990-03-20 1990-03-20 複合語抽出装置

Publications (2)

Publication Number Publication Date
JPH03271962A true JPH03271962A (ja) 1991-12-03
JP2536221B2 JP2536221B2 (ja) 1996-09-18

Family

ID=13488629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2072415A Expired - Lifetime JP2536221B2 (ja) 1990-03-20 1990-03-20 複合語抽出装置

Country Status (1)

Country Link
JP (1) JP2536221B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07141392A (ja) * 1993-11-15 1995-06-02 Dainippon Printing Co Ltd キーワード作成装置
JPH08272792A (ja) * 1995-03-31 1996-10-18 Canon Inc 文字処理装置及びその方法
JPH1078969A (ja) * 1996-09-03 1998-03-24 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置
JPH1153384A (ja) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07141392A (ja) * 1993-11-15 1995-06-02 Dainippon Printing Co Ltd キーワード作成装置
JPH08272792A (ja) * 1995-03-31 1996-10-18 Canon Inc 文字処理装置及びその方法
JPH1078969A (ja) * 1996-09-03 1998-03-24 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置
JPH1153384A (ja) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2536221B2 (ja) 1996-09-18

Similar Documents

Publication Publication Date Title
EP0645720B1 (en) Dictionary creation supporting system
JP3254642B2 (ja) 索引の表示方法
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH09198395A (ja) 文書検索装置
JP2536221B2 (ja) 複合語抽出装置
JP2536633B2 (ja) 複合語抽出装置
JPH0619959A (ja) 固有名詞特定処理システム
JPH0877196A (ja) 文書情報抽出装置
JPH1011431A (ja) 漢字検索装置および方法
JP3343941B2 (ja) 例文検索システム
JPH07230468A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JPH06266770A (ja) 文書情報検索装置及び検索装置及び機械翻訳装置及び文書作成装置
JPH03260764A (ja) 翻訳用辞書登録方式
JPH0612453A (ja) 未知語抽出登録装置
JPH04673A (ja) 連語登録方法および装置
JPH01295369A (ja) 漢字仮名混じり文節分割処理方式
JP2817497B2 (ja) 辞書編集装置
JP2000148747A (ja) 変換候補表示方法,およびこの方法によるかな漢字変換用のプログラムの記録媒体ならびにかな漢字変換装置
JP4108772B2 (ja) 文書処理装置及び日本語処理方法
JPS6368972A (ja) 未登録語処理方式
JPH08221443A (ja) 漢字を含むテキストの検索方法及び装置
JPS6349930A (ja) キ−ワ−ド抽出装置
JP2856736B2 (ja) 辞書参照装置及び辞書参照方法
JPH05225183A (ja) 日本文単語誤り自動検出装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070708

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080708

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090708

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100708

Year of fee payment: 14

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100708

Year of fee payment: 14