JPH03105465A - 複合語抽出装置 - Google Patents
複合語抽出装置Info
- Publication number
- JPH03105465A JPH03105465A JP1244201A JP24420189A JPH03105465A JP H03105465 A JPH03105465 A JP H03105465A JP 1244201 A JP1244201 A JP 1244201A JP 24420189 A JP24420189 A JP 24420189A JP H03105465 A JPH03105465 A JP H03105465A
- Authority
- JP
- Japan
- Prior art keywords
- word
- mark
- compound
- section
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 52
- 238000000605 extraction Methods 0.000 title claims abstract description 24
- 239000000470 constituent Substances 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 2
- 238000000034 method Methods 0.000 description 7
- 238000005520 cutting process Methods 0.000 description 3
- 238000013332 literature search Methods 0.000 description 2
- 230000021615 conjugation Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、言語処理システムや文献検索システム等にお
いて;日本語文に出現する複合語を抽出するための複合
語抽出装置に関する。
いて;日本語文に出現する複合語を抽出するための複合
語抽出装置に関する。
例えば、言語処理システムの中の機械翻訳システムにお
いては、入力文中に現れる辞書に登録されていない複合
語を辞書に登録することによって翻訳品質を向上させる
ことができ、また文献検索システムにおいては、文中の
複合語がキーワードとして用いられる可能性が高いため
、日本語入力文から質の高い複合語を抽出する技術が・
必要とされている。
いては、入力文中に現れる辞書に登録されていない複合
語を辞書に登録することによって翻訳品質を向上させる
ことができ、また文献検索システムにおいては、文中の
複合語がキーワードとして用いられる可能性が高いため
、日本語入力文から質の高い複合語を抽出する技術が・
必要とされている。
従来の日本語入力文から複合語を抽出するための技術と
しては、品詞情報を持った辞書を用いて日本語文を語に
分割し、名詞およびサ変動詞語幹や辞書等の名詞相当語
の連続した部分を複合語として抽出する方式がある。ま
たこのとき、利用者が複合語を構成しないと指定した語
を格納する不要語辞書に登録している語を除くものもあ
る。
しては、品詞情報を持った辞書を用いて日本語文を語に
分割し、名詞およびサ変動詞語幹や辞書等の名詞相当語
の連続した部分を複合語として抽出する方式がある。ま
たこのとき、利用者が複合語を構成しないと指定した語
を格納する不要語辞書に登録している語を除くものもあ
る。
上述したように従来の複合語抽出手段では、辞書に登録
したりキーワードとして用いる複合語の構或要素として
は、通常不適切な「各」のように接頭辞や、「時」「語
」のように他の語に付いての関係を示す名詞等も、抽出
された複合語の構或要素の中に名詞相当語として含まれ
る。また、これらの語を利用者が不要語辞書に登録する
ためには、多大の工数を必要とする6 〔課題を解決するための手段〕 本発明の複合語抽出装置は、日本語文を入するための日
本語文入力装置と、解析に必要な文法情報を格納して通
常複合語の構或要素にならない接辞および接辞相当語等
にマークを付与した辞書と、前記辞書を用いて日本語入
力文を解析して、名詞および名詞相当語が連続した部分
から前記マークに基いて接辞および接辞相当語等を除い
た部分を複合語として抽出する複合語抽出部と、抽出さ
れた前記複合語を出力する複合語出力装置とを備えてい
る。
したりキーワードとして用いる複合語の構或要素として
は、通常不適切な「各」のように接頭辞や、「時」「語
」のように他の語に付いての関係を示す名詞等も、抽出
された複合語の構或要素の中に名詞相当語として含まれ
る。また、これらの語を利用者が不要語辞書に登録する
ためには、多大の工数を必要とする6 〔課題を解決するための手段〕 本発明の複合語抽出装置は、日本語文を入するための日
本語文入力装置と、解析に必要な文法情報を格納して通
常複合語の構或要素にならない接辞および接辞相当語等
にマークを付与した辞書と、前記辞書を用いて日本語入
力文を解析して、名詞および名詞相当語が連続した部分
から前記マークに基いて接辞および接辞相当語等を除い
た部分を複合語として抽出する複合語抽出部と、抽出さ
れた前記複合語を出力する複合語出力装置とを備えてい
る。
次に、本発明の実施例について図面を参照して説明する
。
。
第1図は本発明の一実施例を示すブロック図である。
第1図において、日本語入力文装置1lは日本語の入力
を行うための装置である。一般的にはCRTとキーボー
ドである゜が、他にOCR入力装置や文書を扱う他シス
テムが出力した日本語文のファイルを読込むための装置
である場合もある。
を行うための装置である。一般的にはCRTとキーボー
ドである゜が、他にOCR入力装置や文書を扱う他シス
テムが出力した日本語文のファイルを読込むための装置
である場合もある。
辞書l2は、日本語の各見出し語に対して、品詞や活用
等の解析に必要な文法情報を保持しているとともに、「
各」「該」のような接頭辞や、「用J「等」のような接
尾辞や、「各々」のように副詞としても用いられる副詞
的名詞や、「辞」「上」のように他の語の後ろに付いて
時点や場所等の関係を示す関係性名詞等に対しては、さ
らに複合語の構或要素としての不適切性を表す情報を保
持している。後者の情報は、次に述べる3種類のマーク
を1個以上付与することによって格納される。すなわち
、マークIは、通常その語が複合語を構成する途中の要
素すなわち両端の語でない語として用いられることがな
いことを示す。マーク1を付与する語の例としては、「
各複合語抽出装置は抽出直後出力処理等を行う。」とい
う文の中の「直後」が挙げられる。マーク2は、通常そ
の語が複合語を構或する左端の語として用いられること
がないことを示す。マーク2を付与する語の例としては
、前述の例文の中の「各」が挙げられる。マーク3は、
通常その語が複合語を構或する右端の語として用いられ
ることがないことを示す。マーク3を付与する語の例と
しては、前述の例文の中の「等」が挙げられる。これら
のマークは、1個の語に複数個付与される場合が多い。
等の解析に必要な文法情報を保持しているとともに、「
各」「該」のような接頭辞や、「用J「等」のような接
尾辞や、「各々」のように副詞としても用いられる副詞
的名詞や、「辞」「上」のように他の語の後ろに付いて
時点や場所等の関係を示す関係性名詞等に対しては、さ
らに複合語の構或要素としての不適切性を表す情報を保
持している。後者の情報は、次に述べる3種類のマーク
を1個以上付与することによって格納される。すなわち
、マークIは、通常その語が複合語を構成する途中の要
素すなわち両端の語でない語として用いられることがな
いことを示す。マーク1を付与する語の例としては、「
各複合語抽出装置は抽出直後出力処理等を行う。」とい
う文の中の「直後」が挙げられる。マーク2は、通常そ
の語が複合語を構或する左端の語として用いられること
がないことを示す。マーク2を付与する語の例としては
、前述の例文の中の「各」が挙げられる。マーク3は、
通常その語が複合語を構或する右端の語として用いられ
ることがないことを示す。マーク3を付与する語の例と
しては、前述の例文の中の「等」が挙げられる。これら
のマークは、1個の語に複数個付与される場合が多い。
複合語抽出部13は、第2図に示す処理を行う。
「各複合語抽出装置は抽出直後出力処理等を行う。」と
いう例文を使って第2図を参照してその処理手順を説明
する。まず、語切り処理21において辞書12を使って
日本語入゛力文を解析し、語切り情報を出力するととも
に、語切りされた各語に対して品詞および前述のマーク
等の情報を付与する。活用する語については、語幹と語
尾は別々に分ける。未登録語があった場合は、右に隣接
する活用語尾等によって名詞以外の語とわかる場合を除
いて名詞として扱う。語切り処理21によって、前述の
例文は、 「各」「複合語」「抽出」「装置」「は」「抽出」「直
後』「出力」「処理」「等」「を」「行」「う」「。」 のように分解される。次に、名詞連続区間抽出処理22
によって、名詞または名詞相当語が複数個連続している
区間を取り出す。ここで、名詞相当語としては、サ変動
詞語幹や接頭辞および接頭辞相当語や、接尾辞および接
尾辞相当語等があり、さらに連続部分の右端でない語に
ついては、形容詞語幹や、形容動詞語幹や、VJ r−
J等の一部の記号等を含んでもよい。また、専門用語を
対象に考えた場合は、多くの専門用語は漢字またはカタ
カナからなるので、区間に含まれる文字種を漢字とカタ
カナに限ってもよい。なお、代名詞は名詞相当語には含
まれないとする。前述の例文からは、 「各 複合語 抽出 装置」および「抽出 直後 出力
処理 等」 の2個の区間が取り出される。次に、マーク1対応処理
23によって、前の処理22で抽出された名詞連続区間
の中にマークlを持つ語があれば、マーク1を持つ各語
の位置で区間を分割する。このとき、マーク1を持つ語
は分割された区間からは除かれ、分割されて1語になっ
た区間も除かれる。前述の例文においては、「直後」が
マーク1を持つので「抽出 直後 出力 処理 等」が
「直後」で分割され、分割された左端の「抽出」は1語
であるので除かれ、この結果として 「各 複合語 抽出 装置」および「出力 処理 等」 の2個の区間が取り出される。次に、マーク2対応処理
24によって、前の処理23で抽出された各名詞連続区
間に対して、左端の語から右へ順番にマーク2を持つ語
があるかどうか調べ、マーク2を持つ語があった場合そ
の語を区間から除く処理をマーク2を持たない語が現れ
るまで行った後、さらに1語の区間ができていればその
区間を除く.前述の例文においては、「各」がマーク2
を持つので前の区間から「各」が除かれ、この結果とし
て 「複合語 抽出 装置」および「出力 処理等」 の区間が得られる。最後に、マーク3対応処理25によ
って、前記処理24で抽出された各名詞連続区間に対し
て、右端の語から左へ順番にマーク3を持つ語があるか
どうか調べ、マーク3を持つ語があった場合その語を区
間から除く処理をマーク3を持たない語が現れるまで行
った後、さらにl語の区間ができていればその区間を除
く。前述の例文においては、「等」がマーク3を持つの
で、語の区間から「等」が除かれ、この結果として、「
複合語 抽出 装置」および「出力 処理」の区間が得
られる。すなわち前述の例文においては、 「複合語抽出装置」および「出力処理」の2個の複合語
が抽出される。
いう例文を使って第2図を参照してその処理手順を説明
する。まず、語切り処理21において辞書12を使って
日本語入゛力文を解析し、語切り情報を出力するととも
に、語切りされた各語に対して品詞および前述のマーク
等の情報を付与する。活用する語については、語幹と語
尾は別々に分ける。未登録語があった場合は、右に隣接
する活用語尾等によって名詞以外の語とわかる場合を除
いて名詞として扱う。語切り処理21によって、前述の
例文は、 「各」「複合語」「抽出」「装置」「は」「抽出」「直
後』「出力」「処理」「等」「を」「行」「う」「。」 のように分解される。次に、名詞連続区間抽出処理22
によって、名詞または名詞相当語が複数個連続している
区間を取り出す。ここで、名詞相当語としては、サ変動
詞語幹や接頭辞および接頭辞相当語や、接尾辞および接
尾辞相当語等があり、さらに連続部分の右端でない語に
ついては、形容詞語幹や、形容動詞語幹や、VJ r−
J等の一部の記号等を含んでもよい。また、専門用語を
対象に考えた場合は、多くの専門用語は漢字またはカタ
カナからなるので、区間に含まれる文字種を漢字とカタ
カナに限ってもよい。なお、代名詞は名詞相当語には含
まれないとする。前述の例文からは、 「各 複合語 抽出 装置」および「抽出 直後 出力
処理 等」 の2個の区間が取り出される。次に、マーク1対応処理
23によって、前の処理22で抽出された名詞連続区間
の中にマークlを持つ語があれば、マーク1を持つ各語
の位置で区間を分割する。このとき、マーク1を持つ語
は分割された区間からは除かれ、分割されて1語になっ
た区間も除かれる。前述の例文においては、「直後」が
マーク1を持つので「抽出 直後 出力 処理 等」が
「直後」で分割され、分割された左端の「抽出」は1語
であるので除かれ、この結果として 「各 複合語 抽出 装置」および「出力 処理 等」 の2個の区間が取り出される。次に、マーク2対応処理
24によって、前の処理23で抽出された各名詞連続区
間に対して、左端の語から右へ順番にマーク2を持つ語
があるかどうか調べ、マーク2を持つ語があった場合そ
の語を区間から除く処理をマーク2を持たない語が現れ
るまで行った後、さらに1語の区間ができていればその
区間を除く.前述の例文においては、「各」がマーク2
を持つので前の区間から「各」が除かれ、この結果とし
て 「複合語 抽出 装置」および「出力 処理等」 の区間が得られる。最後に、マーク3対応処理25によ
って、前記処理24で抽出された各名詞連続区間に対し
て、右端の語から左へ順番にマーク3を持つ語があるか
どうか調べ、マーク3を持つ語があった場合その語を区
間から除く処理をマーク3を持たない語が現れるまで行
った後、さらにl語の区間ができていればその区間を除
く。前述の例文においては、「等」がマーク3を持つの
で、語の区間から「等」が除かれ、この結果として、「
複合語 抽出 装置」および「出力 処理」の区間が得
られる。すなわち前述の例文においては、 「複合語抽出装置」および「出力処理」の2個の複合語
が抽出される。
複合語出力装置l4は、複合語抽出部13で抽出された
複合語の出力を行うための装置である。
複合語の出力を行うための装置である。
一般的にはプリンタであるが、他にCRTや他システム
への入力として使用するためにファイルの形で出力する
場合もある。
への入力として使用するためにファイルの形で出力する
場合もある。
以上説明したように本発明の複合語抽出装置は、通常複
合語の構或要素として不適切な接辞および接辞相当語等
の辞書に、通常複合語の左端および途中および右端に現
れることがないという3種類のマークを付与し、これら
のマークに基いて複合語の構成要素から不適切な接辞等
の語をあらかじめ除くことによって、言語処理システム
において辞書登録すべき語および文献検索システムにお
けるキーワードに一層適した複合語を抽出することがで
きるとともに、不要な複合語の抽出を抑えることができ
るという効果がある。
合語の構或要素として不適切な接辞および接辞相当語等
の辞書に、通常複合語の左端および途中および右端に現
れることがないという3種類のマークを付与し、これら
のマークに基いて複合語の構成要素から不適切な接辞等
の語をあらかじめ除くことによって、言語処理システム
において辞書登録すべき語および文献検索システムにお
けるキーワードに一層適した複合語を抽出することがで
きるとともに、不要な複合語の抽出を抑えることができ
るという効果がある。
第2図は第1図の複合語抽出部において行われる処理手
順を示す流れ図である。
順を示す流れ図である。
11・・・・・・日本語入力文入力装置、12・・・・
・・辞書、l3・・・・・・複合語抽出部、l4・・・
・・・複合語出力装置。
・・辞書、l3・・・・・・複合語抽出部、l4・・・
・・・複合語出力装置。
Claims (1)
- 日本語文を入力するための日本語文入力装置と、解析に
必要な文法情報を格納して通常複合語の構成要素になら
ない接辞および接辞相当語等にマークを付与した辞書と
、前記辞書を用いて日本語入力文を解析して名詞および
名詞相当語が連続した部分から前記マークに基いて接辞
および接辞相当語等を除いた部分を複合語として抽出す
る複合語抽出部と、抽出された前記複合語を出力する複
合語出力装置とを備えることを特徴とする複合語抽出装
置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1244201A JP2536633B2 (ja) | 1989-09-19 | 1989-09-19 | 複合語抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1244201A JP2536633B2 (ja) | 1989-09-19 | 1989-09-19 | 複合語抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03105465A true JPH03105465A (ja) | 1991-05-02 |
JP2536633B2 JP2536633B2 (ja) | 1996-09-18 |
Family
ID=17115282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1244201A Expired - Lifetime JP2536633B2 (ja) | 1989-09-19 | 1989-09-19 | 複合語抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2536633B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07230468A (ja) * | 1994-02-18 | 1995-08-29 | Fujitsu Ltd | キーワード自動抽出装置およびキーワード自動抽出方法 |
KR100695909B1 (ko) * | 2005-03-14 | 2007-03-20 | 이인영 | 브래지어의 후크 고정구조 |
US8099277B2 (en) | 2006-09-27 | 2012-01-17 | Kabushiki Kaisha Toshiba | Speech-duration detector and computer program product therefor |
US8380500B2 (en) | 2008-04-03 | 2013-02-19 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for judging speech/non-speech |
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
JP2020181523A (ja) * | 2019-04-26 | 2020-11-05 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6324458A (ja) * | 1986-07-17 | 1988-02-01 | Canon Inc | 自然言語処理装置 |
JPS6368972A (ja) * | 1986-09-10 | 1988-03-28 | Hitachi Ltd | 未登録語処理方式 |
JPS63136224A (ja) * | 1986-11-28 | 1988-06-08 | Nippon Telegr & Teleph Corp <Ntt> | キ−ワ−ド自動抽出装置 |
JPS63192130A (ja) * | 1987-02-05 | 1988-08-09 | Nippon Telegr & Teleph Corp <Ntt> | キ−ワ−ド自動抽出装置 |
JPS6446831A (en) * | 1987-08-17 | 1989-02-21 | Nippon Telegraph & Telephone | Automatic key word extracting device |
JPH01112333A (ja) * | 1987-10-26 | 1989-05-01 | Nec Corp | システムパラメータの時間的変更処理方式 |
-
1989
- 1989-09-19 JP JP1244201A patent/JP2536633B2/ja not_active Expired - Lifetime
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6324458A (ja) * | 1986-07-17 | 1988-02-01 | Canon Inc | 自然言語処理装置 |
JPS6368972A (ja) * | 1986-09-10 | 1988-03-28 | Hitachi Ltd | 未登録語処理方式 |
JPS63136224A (ja) * | 1986-11-28 | 1988-06-08 | Nippon Telegr & Teleph Corp <Ntt> | キ−ワ−ド自動抽出装置 |
JPS63192130A (ja) * | 1987-02-05 | 1988-08-09 | Nippon Telegr & Teleph Corp <Ntt> | キ−ワ−ド自動抽出装置 |
JPS6446831A (en) * | 1987-08-17 | 1989-02-21 | Nippon Telegraph & Telephone | Automatic key word extracting device |
JPH01112333A (ja) * | 1987-10-26 | 1989-05-01 | Nec Corp | システムパラメータの時間的変更処理方式 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07230468A (ja) * | 1994-02-18 | 1995-08-29 | Fujitsu Ltd | キーワード自動抽出装置およびキーワード自動抽出方法 |
KR100695909B1 (ko) * | 2005-03-14 | 2007-03-20 | 이인영 | 브래지어의 후크 고정구조 |
US8099277B2 (en) | 2006-09-27 | 2012-01-17 | Kabushiki Kaisha Toshiba | Speech-duration detector and computer program product therefor |
US8380500B2 (en) | 2008-04-03 | 2013-02-19 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for judging speech/non-speech |
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
JP2020181523A (ja) * | 2019-04-26 | 2020-11-05 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2536633B2 (ja) | 1996-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lita et al. | Truecasing | |
JP3254642B2 (ja) | 索引の表示方法 | |
KR940022316A (ko) | 일문 문서용 키 워드 추출장치 | |
KR20030056655A (ko) | 번역 지원 시스템에서의 유사 문장 검색 방법 | |
EP0839357A1 (en) | Method and apparatus for automated search and retrieval processing | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
Zitouni et al. | The impact of morphological stemming on Arabic mention detection and coreference resolution | |
Thabet | Stemming the Qur’an | |
JP2006251843A (ja) | 同義語対抽出装置及びそのためのコンピュータプログラム | |
Lawson et al. | Automatic extraction of citations from the text of English-language patents-an example of template mining | |
Cecchini et al. | Enhancing the latin morphological analyser lemlat with a medieval latin glossary | |
JPH03105465A (ja) | 複合語抽出装置 | |
JP2828692B2 (ja) | 情報検索装置 | |
JP2536221B2 (ja) | 複合語抽出装置 | |
JPH07230468A (ja) | キーワード自動抽出装置およびキーワード自動抽出方法 | |
Moghadam et al. | A Survey of Part of Speech Tagging of Latin and non-Latin Script Languages: A more vivid view on Persian | |
Fernando et al. | Building a Linguistic Resource: A Word Frequency List for Sinhala | |
JP2520195B2 (ja) | 日本文固有用語抽出装置 | |
JP2821143B2 (ja) | 形態素分解装置 | |
JP2897942B2 (ja) | 日本語形態素解析システム及び形態素解析方式 | |
Abbès et al. | AraConc, an Arabic concordance software based on the DIINAR. 1 language resource | |
Kobayashi et al. | Named entity extraction from Japanese broadcast news. | |
JP4262529B2 (ja) | 全文検索装置、方法、プログラム及び記録媒体 | |
JPH05225183A (ja) | 日本文単語誤り自動検出装置 | |
JPS6395573A (ja) | 日本語文形態素解析における未知語処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070708 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080708 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090708 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100708 Year of fee payment: 14 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100708 Year of fee payment: 14 |