JP2536633B2 - 複合語抽出装置 - Google Patents

複合語抽出装置

Info

Publication number
JP2536633B2
JP2536633B2 JP1244201A JP24420189A JP2536633B2 JP 2536633 B2 JP2536633 B2 JP 2536633B2 JP 1244201 A JP1244201 A JP 1244201A JP 24420189 A JP24420189 A JP 24420189A JP 2536633 B2 JP2536633 B2 JP 2536633B2
Authority
JP
Japan
Prior art keywords
word
compound word
compound
mark
nouns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1244201A
Other languages
English (en)
Other versions
JPH03105465A (ja
Inventor
幹人 平田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP1244201A priority Critical patent/JP2536633B2/ja
Publication of JPH03105465A publication Critical patent/JPH03105465A/ja
Application granted granted Critical
Publication of JP2536633B2 publication Critical patent/JP2536633B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、言語処理システムや文献検索システム等に
おいて、日本語文に出現する複合語を抽出するための複
合語抽出装置に関する。
〔従来の技術〕
例えば、言語処理システムの中の機械翻訳システムに
おいては、入力文中に現れる辞書に登録されていない複
合語を、その辞書に追加登録することによって翻訳品質
を向上させることができ、また文献検索システムにおい
ては、文中の複合語がキーワードとして用いられる可能
性が高いため、日本語入力文から質の高い複合語を抽出
する技術が必要とされている。
従来の日本語入力文から複合語を抽出するための技術
としては、品詞情報を持った辞書を用いて日本語文を語
に分割し、名詞およびサ変動詞語幹や接頭辞や接尾辞等
の名詞相当語が連続した部分を複合語として抽出する方
式がある。またこのとき、利用者が、複合語を構成しな
い語として指定した不要語を不要語辞書に格納し、その
不要語辞書に登録してある不要語を複合語から除外する
ものもある。
〔発明が解決しようとする課題〕
上述したように、従来の複合語抽出手段では、辞書に
登録したりキーワードとして用いる複合語の構成要素と
しては、通常では不適切な「各々」のような副詞として
も用いられる副詞的名詞や、「時」「後」「直後」のよ
うに他の語について関係性を表わす名詞も、抽出された
複合語の構成要素の中に含まれている。また、これらの
語を利用者が不要語辞書に登録するためには、多大の工
数を必要とする。
〔課題を解決するための手段〕
本発明の複合語抽出装置は、日本語文を入力するため
の日本語文入力装置と、解析に必要な文法情報を格納し
かつ通常は複合語の構成要素とならない接辞および副詞
的名詞および関係性を表わす名詞にマークを付与して格
納した辞書と、前記辞書を用いて日本語入力文を解析し
て名詞および接辞およびサ変動詞語幹が連続した部分か
ら前記マークを付された接辞および副詞的名詞および関
係性を表わす名詞を除いた部分のうち前記名詞および前
記接辞および前記サ変動詞語幹が連続している部分を複
合語として抽出する複合語抽出部と、抽出された前記複
合語を出力する複合語出力装置とを備えている。
〔実施例〕
次に、本発明の実施例について図面を参照して説明す
る。
第1図は本発明の一実施例を示すブロック図である。
第1図において、日本語文入力装置11は、日本語文の
入力を行うための装置である。一般的には表示装置(CR
T)とキーボードであるが、他にOCR入力装置や文書を扱
う他システムが出力した日本語文のファイルを読込むた
めの装置である場合もある。
辞書12は、日本語の各見出し語に対して、品詞や活用
等の解析に必要な文法情報を保持しているとともに、
「各」「該」のような接頭辞や、「用」「等」のような
接尾辞や、「各々」のように副詞としても用いられる副
詞的名詞や、「時」「上」のように他の語の後ろに付い
て時点や場所等の関係を示す関係性を表わす名詞に対し
ては、複合語の構成要素としての不適切性を表わす情報
を保持している。後者の不適性を表わす情報は、次に述
べる3種類のマークのうちの1種類以上のマークを付与
して格納される。すなわち、マーク1は、通常その語が
複合語を構成する途中の要素すなわち両端の語でない語
として用いられることがないことを示すマークである。
マーク1を付与する語の例としては、「各複合語抽出装
置は抽出直後出力処理等を行う。」という文の中の「直
後」が挙げられる。マーク2は、通常その語が複合語を
構成する左端の語として用いられることがないことを示
すマークである。マーク2を付与する語の例としては、
前述の例文の中の「各」が挙げられる。マーク3は、通
常その語が複合語を構成する右端の語として用いられる
ことがないことを示すマークである。マーク3を付与す
る語の例としては、前述の例文の中の「等」が挙げられ
る。これらのマークは、1個の語に複数個付与される場
合が多い。
複合語抽出部13は、第2図に示す処理を行う。「各複
合語抽出装置は抽出直後出力処理等を行う。」という例
文を使って第2図を参照してその処理手順を説明する。
まず、語切り処理21において辞書12を使って日本語入力
文を解析し、語切り情報を出力するとともに、語切りさ
れた各語に対して品詞および前述のマーク等の情報を付
与する。活用する語については、語幹と語尾は別々に分
ける。未登録語があった場合は、右に隣接する活用語尾
等によって名詞以外の語とわかる場合を除いて名詞とし
て扱う。語切り処理21によって、前述の例文は、 「各」「複合語」「抽出」「装置」「は」「抽出」「直
後」「出力」「処理」「等」「を」「行」「う」「。」 のように分解される。次に、名詞連続区間抽出処理22に
よって、名詞または名詞相当語が複数個連続している区
間を取り出す。ここで、名詞相当語とは、副詞的名詞や
関係性を表わす名詞やサ変動詞語幹や接頭辞や接尾辞を
意味し、さらに連続部分の右端でない語については、形
容詞語幹や、形容動詞語幹や、「/」「−」等の一部の
記号を含んでもよい。また、専門用語を対象とする場合
は、多くの専門用語は漢字またはカタカナからなるの
で、上記の区間に含まれる文字の種類を漢字とカタカナ
に限ってもよい。なお、代名詞は名詞相当語には含まれ
ない。前述の例文からは、 「各 複合語 抽出 装置」および「抽出 直後 出力
処理 等」 の2個の区間が名詞連続区間として取り出される。次
に、マーク1対応処理23によて、前の名詞連続区間抽出
処理22で抽出された名詞連続区間の中にマーク1を持つ
語があれば、マーク1を持つ各語の位置でその区間を分
割する。このとき、マーク1を持つ語は分割された区間
からは除かれ、分割されて1語になった区間も除かれ
る。前述の例文においては、「直後」がマーク1を持つ
ので「抽出 直後 出力 処理 等」が「直後」で分割
され、分割された左端の「抽出」は1語であるので除か
れ、この結果として 「各 複合語 抽出 装置」および「出力 処理 等」 の2個の区間が取り出される。次に、マーク2対応処理
24によって、前の処理23で抽出された各名詞連続区間に
対して、左端の語から右へ順番にマーク2を持つ語があ
るかどうか調べ、マーク2を持つ語があった場合その語
を区間から除く処理をマーク2を持たない語が現れるま
で行った後、さらに1語の区間ができていればその区間
を除く。前述の例文においては、「各」がマーク2を持
つので前の区間から「各」が除かれ、この結果として 「複合語 抽出 装置」および「出力 処理 等」 の区間が得られる。最後に、マーク3対応処理25によっ
て、前記処理24で抽出された各名詞連続区間に対して、
右端の語から左へ順番にマーク3を持つ語があるかどう
か調べ、マーク3を持つ語があった場合その語を区間か
ら除く処理をマーク3を持たない語が現れるまで行った
後、さらに1語の区間ができていればその区間を除く。
前述の例文においては、「等」がマーク3を持つので、
語の区間から「等」が除かれ、この結果として、 「複合語 抽出 装置」および「出力 処理」 の区間が得られる。すなわち前述の例文においては、 「複合語抽出装置」および「出力処理」 の2個の複合語が抽出される。
複合語出力装置14は、複合語抽出部13で抽出された複
合語の出力を行うための装置である。一般的にはプリン
タであるが、他にCRTや他システムへの入力として使用
するためにファイルの形で出力する場合もある。
〔発明の効果〕 以上説明したように本発明の複合語抽出装置は、通常
は複合語の構成要素として不適切な接辞および副詞的名
詞および関係性を表わす名詞を辞書に格納するとき、通
常は複合語の左端および途中および右端に現れることが
ないという3種類のマークを付与して格納し、これらの
マークに基いて複合語の構成要素から不適切な接辞およ
び副詞的名詞および関係性を表わす名詞をあらかじめ除
くことによって、言語処理システムにおいて辞書登録す
べき語および文献検索システムにおけるキーワードに一
層適した複合語を抽出することができるとともに、不要
な複合語の抽出を抑えることができるという効果があ
る。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
第1図の複合語抽出部において行われる処理手順を示す
流れ図である。 11……日本語文入力装置、12……辞書、13……複合語抽
出部、14……複合語出力装置。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】日本語文を入力するための日本語文入力装
    置と、解析に必要な文法情報を格納しかつ通常は複合語
    の構成要素とならない接辞および副詞的名詞および関係
    性を表わす名詞にマークを付与して格納した辞書と、前
    記辞書を用いて日本語入力文を解析して名詞および接辞
    およびサ変動詞語幹が連続した部分から前記マークを付
    された接辞および副詞的名詞および関係性を表わす名詞
    を除いた部分のうち前記名詞および前記接辞および前記
    サ変動詞語幹が連続している部分を複合語として抽出す
    る複合語抽出部と、抽出された前記複合語を出力する複
    合語出力装置とを備えることを特徴とする複合語抽出装
    置。
JP1244201A 1989-09-19 1989-09-19 複合語抽出装置 Expired - Lifetime JP2536633B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1244201A JP2536633B2 (ja) 1989-09-19 1989-09-19 複合語抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1244201A JP2536633B2 (ja) 1989-09-19 1989-09-19 複合語抽出装置

Publications (2)

Publication Number Publication Date
JPH03105465A JPH03105465A (ja) 1991-05-02
JP2536633B2 true JP2536633B2 (ja) 1996-09-18

Family

ID=17115282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1244201A Expired - Lifetime JP2536633B2 (ja) 1989-09-19 1989-09-19 複合語抽出装置

Country Status (1)

Country Link
JP (1) JP2536633B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3398729B2 (ja) * 1994-02-18 2003-04-21 富士通株式会社 キーワード自動抽出装置およびキーワード自動抽出方法
KR100695909B1 (ko) * 2005-03-14 2007-03-20 이인영 브래지어의 후크 고정구조
JP4282704B2 (ja) 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
JP4950930B2 (ja) 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
CN107424612B (zh) * 2017-07-28 2021-07-06 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质
JP7275816B2 (ja) * 2019-04-26 2023-05-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6324458A (ja) * 1986-07-17 1988-02-01 Canon Inc 自然言語処理装置
JPS6368972A (ja) * 1986-09-10 1988-03-28 Hitachi Ltd 未登録語処理方式
JPH07111717B2 (ja) * 1986-11-28 1995-11-29 日本電信電話株式会社 キ−ワ−ド自動抽出装置
JPS63192130A (ja) * 1987-02-05 1988-08-09 Nippon Telegr & Teleph Corp <Ntt> キ−ワ−ド自動抽出装置
JPS6446831A (en) * 1987-08-17 1989-02-21 Nippon Telegraph & Telephone Automatic key word extracting device
JPH01112333A (ja) * 1987-10-26 1989-05-01 Nec Corp システムパラメータの時間的変更処理方式

Also Published As

Publication number Publication date
JPH03105465A (ja) 1991-05-02

Similar Documents

Publication Publication Date Title
KR100453227B1 (ko) 번역 지원 시스템에서의 유사 문장 검색 방법
US6539348B1 (en) Systems and methods for parsing a natural language sentence
US6466901B1 (en) Multi-language document search and retrieval system
EP0907924B1 (en) Identification of words in japanese text by a computer system
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
EP1471440A2 (en) System and method for word analysis
JP2536633B2 (ja) 複合語抽出装置
Graën et al. Cutter–a universal multilingual tokenizer
Attar et al. KEDMA—Linguistic tools for retrieval systems
KR100617317B1 (ko) 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
JP2536221B2 (ja) 複合語抽出装置
JP2003303194A (ja) 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体
JPH07230468A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP2000250913A (ja) 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体
JPH01295369A (ja) 漢字仮名混じり文節分割処理方式
Kobayashi et al. Named entity extraction from Japanese broadcast news.
Abbès et al. AraConc, an Arabic concordance software based on the DIINAR. 1 language resource
JPH05225183A (ja) 日本文単語誤り自動検出装置
JPH0668070A (ja) 複合語辞書登録装置
JP2001142893A (ja) 情報公開装置および文章公開方法
JP2900628B2 (ja) 辞書検索装置
JP2001022752A (ja) 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体
JPH08241319A (ja) 機械翻訳装置
JPH0715692B2 (ja) 文脈処理装置
Grefenstette et al. Deliverable D-2b: Specifications for collocation extraction tools

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070708

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080708

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090708

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100708

Year of fee payment: 14

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100708

Year of fee payment: 14