JP2536221B2 - 複合語抽出装置 - Google Patents

複合語抽出装置

Info

Publication number
JP2536221B2
JP2536221B2 JP2072415A JP7241590A JP2536221B2 JP 2536221 B2 JP2536221 B2 JP 2536221B2 JP 2072415 A JP2072415 A JP 2072415A JP 7241590 A JP7241590 A JP 7241590A JP 2536221 B2 JP2536221 B2 JP 2536221B2
Authority
JP
Japan
Prior art keywords
word
compound word
compound
mark
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2072415A
Other languages
English (en)
Other versions
JPH03271962A (ja
Inventor
幹人 平田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP2072415A priority Critical patent/JP2536221B2/ja
Publication of JPH03271962A publication Critical patent/JPH03271962A/ja
Application granted granted Critical
Publication of JP2536221B2 publication Critical patent/JP2536221B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、言語処理システム及び文献検索システム等
における日本語文に出現する複合語を抽出する複合語抽
出装置に関する。
〔従来の技術〕
言語処理システムの中で例えば機械翻訳システムにお
いては、入力文中に現れる辞書に登録されていない複合
語を辞書に登録することによって、翻訳品質を向上させ
ることができ、また、文献検索システムにおいては、文
中の複合語がキーワードとして用いられる可能性が高い
ので、入力日本語文から質の高い複合語を抽出する技術
が必要とされている。
従来、日本語文から複合語を抽出する技術としては、
品詞情報を持った辞書を用いて日本語文を語に分割し、
名詞及びサ変動詞語幹、接辞等の名詞相当語の連続した
部分を複合語として抽出する方式がある。またこの際、
利用者が複合語を構成しないと指定した語を格納する不
要語辞書に登録されてくる語を除くものもある。
〔発明が解決しようとする課題〕
上述した従来の複合語抽出技術では、辞書に登録した
りキーワードとして用いる複合語の構成要素としては通
常不適切な「各」のような接頭辞、「時」「後」のよう
に他の語に付いて関係を示す名詞等も、抽出された複合
語の構成要素の中に名詞相当語として含まれることにな
り、また、これらの語を利用者が不要語辞書に登録する
には多大の工数を要するという問題点がある。
〔課題を解決するための手段〕
本発明の複合語抽出装置は、日本語文を入力するため
の日本語文入力装置、解析に必要な文法情報を格納し複
合語の構成要素に通常ならない接辞及び接辞相当語等に
マークを付与した辞書、前記辞書を用いて日本語入力文
を解析し名詞及び名詞相当語が連続した部分から前記の
マークに基づいて接辞及び接辞相当語等を除いた部分を
複合語として抽出する複合語抽出部、抽出された複合語
の区間の修正を指示する複合語修正指示装置、前記複合
語修正指示装置の指示に従って複合語の区間の修正を行
う複合語修正部、抽出及び修正された複合語に関する情
報を入力文と対応付けて格納する複合情報格納部、修正
によって新たに複合語の構成要素になった接辞及び接辞
相当語及び構成要素から除かれた接辞及び接辞相当語等
に対して前記のマークを前記辞書中から削除及び付与す
る辞書更新部、抽出及び修正された複合語を出力する複
合語出力装置とを有して構成されている。
〔実施例〕
次に、本発明について図面を参照して説明する。
第1図は本発明の一実施例を示すブロック図である。
第1図において、日本語文入力装置11は、日本語の入
力を行うための装置である。一般的にはCRTとキーボー
ドであるが、他にOCR入力装置と文書を扱う他システム
が出力した日本語文のファイルを読み込むための装置で
ある場合もある。
辞書12は、日本語の各見出し語に対して、品詞、活用
等の解析に必要な文法情報を保持しているとともに、
「各」「該」のような接頭辞、「用」「等」のような接
尾辞、「各々」のように副詞としても用いられる副詞的
名詞、「時」「上」のように他の語の後ろに付いて、
“時”や“場所”等の関係を示す関係性名詞等に対して
は、さらに複合語の構成要素としての不適切性を表す情
報を保持している。後者の情報は、次に述べる3種類の
マークを1個以上付与することにより格納される。マー
ク1は、その語が複合語を構成する途中の要素すなわち
両端の語でない語として用いられることは通常ないこと
を示す。マーク1を付与する語の例としては、「各複合
語抽出装置は抽出直後出力処理等を行う。」という文の
中の「直後」が挙げられる。マーク2は、その語が複合
語を構成する左端の語として用いられることは通常ない
ことを示す。マーク2を付与する語の例としては、前述
の例文の中の「各」が挙げられる。マーク3は、その語
が複合語を構成する右端の語として用いられることは通
常ないことを示す。マーク3を付与する語の例として
は、前述の例文の中の「等」が挙げられる。これらのマ
ークは1個の語に複数個付与される場合も多い。
複合語抽出部13は、第2図に示される処理を行う。
「各複合語抽出装置は抽出直後出力処理等を行う。」と
いう例文を使って処理手順を順番に説明する。まず、ス
テップ21の語切り処理において辞書12を使って入力日本
語文を解析し、語切り情報を出力するとともに、語切り
された各語に対して品詞及び前述のマーク等の情報を付
与する。活用する語については、語幹と語尾は別々に分
けられる。未登録語があった場合、右に隣接する活用語
尾等によって名詞以外の語とわかる場合を除いて名詞と
して扱う。ステップ21によって、前述の例文は、例え
ば、 「各 複合語 抽出 装置 は 抽出 直後 出力
処理 等 を 行 う。」 のように分解される。次に、ステップ22の名詞連続区間
抽出処理によって、名詞又は名詞相当語が複数個連続し
ている区間を取り出す。ここで、名詞相当語としては、
サ変動詞語幹、接頭辞及び接頭辞相当語、接尾辞相当語
等があり、さらに連続部分の右端でない語については形
容詞語幹、形容動詞語幹、「/」「−」等の一部の記号
等を含んでもよい。また、専門用語を対象に考えた場合
は、多くの専門用語は漢字又はカタカナからなるので区
間に含まれる文字種を漢字とカタカナに限ってもよい。
なお、代名詞は名詞相当語には含まれないものとする。
前述の例文からは、 「各 複合語 抽出 装置」「抽出 直後 出力 処
理 等」 の2個の区間が取り出される。次に、ステップ23のマー
ク1対応処理によって、ステップ22で抽出された名詞連
続区間の中にマーク1を持つ語があれば、マーク1を持
つ各語の位置で区間を分割する。この際、マーク1を持
つ語は分割された区間からは除かれ、分割されて1語に
なった区間も除かれる。またこの処理によって除かれた
マーク1を持つ語の各々について文中での位置を以降に
記述する複合語情報格納部16に格納する。前述の例文に
おいては、「直後」がマーク1を持つので「抽出 直後
出力 処理 等」が「直後」の分割され、分割された
左側の「抽出」は1語であるので除かれ、結果として、 「各 複合語 抽出 装置」「出力 処理 等」 の2個の区間が取り出される。次に、ステップ24のマー
ク2対応処理によって、ステップ23で抽出された各名詞
連続区間に対して、左端の語から右へ順番にマーク2を
持つ語があるかどうか調べ、マーク2を持つ語があった
場合その語を区間から除く処理を、マーク2を持たない
語が現れるまで行った後、さらに1語の区間ができてい
ればその区間を除く。またこの処理によって除かれたマ
ーク2を持つ語の各々について文中での位置を以降に記
述する複合語情報格納部16に格納する。前述の例文にお
いては、「各」がマーク2を持つので前の区間から
「各」が除かれ、結果として 「複合語 抽出 装置」「出力 処理 等」 の区間が得られる。最後に、ステップ25のマーク3対応
処理によって、ステップ24で抽出された各名詞連続区間
に対して、右端の語から左へ順番にマーク3を持つ語が
あるかどうか調べ、マーク3を持つ語があった場合その
語を区間から除く処理を、マーク3を持たない語が現れ
るまで行った語、さらに1語の区間ができていればその
区間を除く。またこの処理によって除かれたマーク3を
持つ語の各々について文中での位置を以降に記述する複
合語情報格納部16に格納する。前述の例文においては、
「等」がマーク3を持つので後の区間から「等」が除か
れ、結果として、 「複合語 抽出 装置」「出力 処理」 の区間が得られる。すなわち前述の例文においては、 「複合語抽出装置」「出力処理」 の2個の複合語が抽出される。抽出された複合語及びそ
の入力文中での位置また入力文及びその語切り位置、各
語の品詞情報等を以降に記述する複合語情報格納部16に
格納する。
複合語修正指示装置14は、複合語抽出部13によって抽
出された複合語を入力文とともに表示し、その表示を参
照して利用者が複合語区間の修正指示を入力する装置で
ある。まず、抽出された複合語を入力文中での位置がわ
かる形で、第3図に示すようにCRT等に表示する。第3
図において入力文中の各語は語切りされた状態で表示さ
れ、また抽出された複合語である「複合語抽出装置」
「出力処理」には下線が引かれている。利用者はマウス
又はキーボード等によってカーソルを入力文の任意の文
字に位置付けることができるとともに、カーソルを語切
りされた1語単位に移動させることもできる。利用者は
複合語の区間を修正する場合と、カーソルによって新し
い区間の先頭と終端を指示する。
複合語修正部15は、複合語修正指示装置14の指示に従
って、抽出された複合語の区間の修正を行い、修正され
た複合語及びその入力文中での位置を次に記述する複合
語情報格納部16に格納する。
複合語情報格納部16は、複合語抽出部13及び複合語修
正部15から出力された複合語に関する情報及び入力文に
関する情報を格納する。前者の情報としては、抽出され
た複合語及びその入力文中での位置、修正された複合語
及びその入力文中での位置、マーク対応処理時に除かれ
た語の入力文中での位置及びどのマーク対応処理で除か
れたか等の情報がある。後者の情報としては、入力文及
びその語切り位置、各語の品詞情報等がある。
辞書更新部17は、複合語情報格納部16に格納されてい
る抽出時及び修正時の情報を利用して、辞書中の語から
マークを除去するマーク除去処理及び辞書中の語にマー
クを付与するマーク付与処理を行う。マーク除去処理
は、マーク1除去処理、マーク2除去処理、マーク3除
去処理からなる。マーク1除去処理は、複合語抽出部13
のステップ23のマーク1対応処理で複合語の構成要素か
ら除かれたマーク1を持つ語が複合語修正部15で再び複
合語の両端の語でない構成要素になった場合に、その語
からマーク1を除去する。マーク2除去処理は、複合語
抽出部13のステップ24のマーク2対応処理で複合語の構
成要素から除かれたマーク2を持つ語が複合語修正部15
で再び複合語の左端の語になった場合に、その語からマ
ーク2を除去する。例えば前述の例文において利用者の
修正によって「各複合語抽出装置」が複合語とされた場
合、「各」からマークを除去する。マーク3除去処理
は、複合語抽出部13のステップ25のマーク3対応処理で
複合語の構成要素から除かれたマーク3を持つ語が複合
語修正部15で再び複合語の右端の語になった場合、その
語からマーク3を除去する。マーク付与処理は、マーク
1付与処理、マーク2付与処理、マーク3付与処理から
なる。マーク1付与処理は、複合語抽出部13で抽出され
た複合語の両端でない語が1個だけ複合語修正部15で複
合語の区間から除かれた場合、その語にマーク1を付与
する。マーク2付与処理は、複合語抽出部13で抽出され
た複合語の左端にあった接頭辞又は接頭辞相当語が複合
語修正部15で複合語の区間から除かれた場合、その語に
マーク2を付与する。マーク3付与処理は、複合語抽出
部13で抽出された複合語の左端にあった接尾辞又は接尾
辞相当語が複合語修正部15で複合語の区間から除かれた
場合に、その語にマーク3を付与する。なお、修正結果
を辞書に反映させたくない場合を考慮して、複合語区間
の修正時に利用者の選択により辞書更新部の処理を行う
か行わないかのモードを任意の時点で切り換えることが
できるようにしてもよい。
複合語出力装置18は、複合語抽出部13で抽出された又
は複合語修正部15で修正された複合語の出力を行うため
の装置である。一般的にはプリンタであるが、他にCRT
や他システムへの入力として使用するためにファイルの
形で出力する場合もある。
〔発明の効果〕
以上説明したように本発明は、複合語の構成要素とし
て通常不適切な接辞及び接辞相当語等の辞書に、複合語
の左端、途中、右端に現れることは通常ないという3種
類のマークを付与し、これらのマークに基づいて複合語
の構成要素から不適切な接辞等の語をあらかじめ除くこ
とによって、言語処理システムにおいて辞書登録すべき
語及び文献検索システムにおけるキーワードに一層適し
た複合語を抽出することができるとともに、不要な複合
語の抽出を抑える効果がある。さらに、利用者が複合語
の区間を修正した場合に、その修正結果に基づいて自動
的に辞書中の語からマークを除去あるいは辞書中の語に
マークを付与することにより、抽出される複合語の質を
高めることができるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
複合語抽出部において行われる処理手順を示す図、第3
図は複合語修正指示装置において表示される画面の例を
示す図である。 11……日本語文入力装置、12……辞書、13……複合語抽
出部、14……複合語修正指示装置、15……複合語修正
部、16……複合語情報格納部、17……辞書更新部、18…
…複合語出力装置、21……語切り処理、22……名詞連続
区間抽出処理、23……マーク1対応処理、24……マーク
2対応処理、25……マーク3対応処理。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】日本語文を入力するための日本語文入力装
    置、解析に必要な文法情報を格納し複合語の構成要素に
    通常ならない接辞及び接辞相当語等にマークを付与した
    辞書、前記辞書を用いて日本語入力文を解析し名詞及び
    名詞相当語が連続した部分から前記のマークに基づいて
    接辞及び接辞相当語等を除いた部分を複合語として抽出
    する複合語抽出部、抽出された複合語の区間の修正を指
    示する複合語修正指示装置、前記複合語修正指示装置の
    指示に従って複合語の区間の修正を行う複合語修正部、
    抽出及び修正された複合語に関する情報を入力文と対応
    付けて格納する複合語情報格納部、修正によって新たに
    複合語の構成要素になった接辞及び接辞相当語等及び構
    成要素から除かれた接辞及び接辞相当語等に対して前記
    のマークを前記辞書中から削除及び付与する辞書更新
    部、抽出及び修正された複合語を出力する複合語出力装
    置とを有したことを特徴とする複合語抽出装置。
JP2072415A 1990-03-20 1990-03-20 複合語抽出装置 Expired - Lifetime JP2536221B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2072415A JP2536221B2 (ja) 1990-03-20 1990-03-20 複合語抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2072415A JP2536221B2 (ja) 1990-03-20 1990-03-20 複合語抽出装置

Publications (2)

Publication Number Publication Date
JPH03271962A JPH03271962A (ja) 1991-12-03
JP2536221B2 true JP2536221B2 (ja) 1996-09-18

Family

ID=13488629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2072415A Expired - Lifetime JP2536221B2 (ja) 1990-03-20 1990-03-20 複合語抽出装置

Country Status (1)

Country Link
JP (1) JP2536221B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07141392A (ja) * 1993-11-15 1995-06-02 Dainippon Printing Co Ltd キーワード作成装置
JP3466761B2 (ja) * 1995-03-31 2003-11-17 キヤノン株式会社 文書処理装置及びその制御方法
JP3565239B2 (ja) * 1996-09-03 2004-09-15 日本電信電話株式会社 情報検索装置
JPH1153384A (ja) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JPH03271962A (ja) 1991-12-03

Similar Documents

Publication Publication Date Title
JP3220560B2 (ja) 機械翻訳装置
EP0645720B1 (en) Dictionary creation supporting system
JPH09190449A (ja) 索引自動生成方法とその利用方法
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
WO1997004405A1 (en) Method and apparatus for automated search and retrieval processing
JP2536221B2 (ja) 複合語抽出装置
JP2536633B2 (ja) 複合語抽出装置
JPH11328166A (ja) 文字入力装置及び文字入力処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0877196A (ja) 文書情報抽出装置
JPS6118074A (ja) プレ・エデイツト方式
JP2621999B2 (ja) 文書処理装置
JPH04673A (ja) 連語登録方法および装置
JPH03260764A (ja) 翻訳用辞書登録方式
JP2817497B2 (ja) 辞書編集装置
JPH01295369A (ja) 漢字仮名混じり文節分割処理方式
JP3692711B2 (ja) 機械翻訳装置
JPH0612453A (ja) 未知語抽出登録装置
JPS6368972A (ja) 未登録語処理方式
JPS6349930A (ja) キ−ワ−ド抽出装置
JP2856736B2 (ja) 辞書参照装置及び辞書参照方法
JP2002183134A (ja) 翻訳装置
JP2001067356A (ja) 語彙獲得方法、語彙獲得装置及び語彙獲得プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2001142893A (ja) 情報公開装置および文章公開方法
JP4108772B2 (ja) 文書処理装置及び日本語処理方法
JPS63261467A (ja) 翻訳方法および装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070708

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080708

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090708

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100708

Year of fee payment: 14

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100708

Year of fee payment: 14