JPH01266670A

JPH01266670A - 日本語対象文固有用語抽出処理装置

Info

Publication number: JPH01266670A
Application number: JP63095096A
Authority: JP
Inventors: Masahiro Oku; 雅博奥; Masanobu Higashida; 正信東田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1988-04-18
Filing date: 1988-04-18
Publication date: 1989-10-24
Anticipated expiration: 2011-01-31
Also published as: JPH0810452B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（１）発明の属する技術分野本発明は１日本語文書中から、該文書でのみ使用されて
いる製品名、会社名１人名などの固有名詞や単語の組み
合わせであっても新語や該文書においてのみ使用されて
いると考えられる語（対象文固有用語）を自動的に抽出
する日本語対象文固有用語抽出処理方式に関するもので
ある。

（２）従来の技術従来から文作成に当って１日本語文書中から。

該文書でのみ使用されている製品名、会社名１人名など
の固有名詞や、単語の組み合わせであっても新語や、該
文書においてのみ使用されていると考えられる語（対象
文固有用語）を抽出することが行われている。このため
の従来の方式では、入力日本文をあらかじめ用意した解
析辞書を用いて分かち書きを行い、その結果、うまく分
かち書きできなかった部分を対象文固有用語として抽出
する。また１字種の変化点に着目する方式では、ある字
種から別の字種へ変化する点までを対象文固有用語の候
補として抽出し、該候補の中から、あらかじめ用意した
解析用の日本語辞書に登録されていない候補を、対象文
固有用語として抽出するようにしている。

しかし、前者の方式では。

■　日本語の分かち書き処理は、解析辞書中に単語が登
録されていることを前提としているため。

対象文固有用語についても解析を試み２部分的に解析に
成功すると、その部分を対象文固有用語の対象外となる
（例：「０×会社」は全体で社名を表わす対象文固有用
語であるにもかかわらず、「会社」は一般的な語であっ
て、解析に成功するため、「○×」のみが対象文固有用
語であると認定されてしまう）など、正確に対象文固有
用語を抽出することができない。

■　対象文固有用語が一般的な語によって構成されてい
る場合、該用語は、対象文固有用語として認定されない
０例を以下に示す、「日本電信電話株式会社」は固有名
詞であり、対象文固有用語であるが、−爪的な語のみに
よって構成さているために、［日本／電信／電話／株式
／会社］のように分かち書きに成功する。このため。

対象文固有用語として抽出されるべき「日本電信電話株
式会社」が抽出されない。

また、後者の方式では。

■　複数の字種にわたる対象文固有用語が″抽出しすら
い。

■　「〜向け」などの送りがな付きの接辞を含む対象文
固有用語が抽出できない。

■　途中にひらがなを含む対象文固有用語（例：係り受
は解析）を抽出できない。

（３）発明の目的本発明の目的は、前記の問題点を解決した１日本語文６
中から対象文固有用語を正確に自動抽出する日本語対象
文固有用語抽出処理方式を提供することにある。

（４）発明の構成（４−１）発明の特徴と従来の技術との差異本発明は１
日本語文書中の文字列を例えば１０種類の字種に分類し
たコード列に展開する第１の手段と。

前記コード列における字種の変化点および並び方のみか
ら、対象文固有用語の候補を抽出する第２の手段と。

第２の手段で抽出された候補の中から、該候補の持つ言
語情報を用いて、より精度の高い日本語対象文固有用語
の候補を抽出する第３の手段と。

第３の手段で抽出された候補の中から、あらかじめ用意
した解析用の日本語辞書に収録されていない語のみを日
本語対象文固有用語として出力する第４の手段とを有することを最も主要な特徴とする。

従来の技術とは。

■　第２の手段において１字種の変化点だけでなく、並
び方にも着目して候補を抽出するので。

ひらがなを含む日本語対象文固有用語も候補として抽出
できる。

■　第２の手段において９字種の変化点および並び方に
着目して候補を抽出するので、一般的な語のみから成る
語や一部に一般的な語を含む語も日本語対象文固有用語
の候補として抽出できる。

■　第３の手段において、「漢字５文字以上の列は日本
語対象文固有用語となりやすい」などのヒエ−リスティ
ックルールや、「該候補中に接辞が含まれている場合に
は、接辞に対する処理を施こす」などの処理情報から成
る言語情報を用いて２日本語対象文固有用語の候補を絞
るので、正確な候補抽出が行える。

■　第４の手段においては、解析辞書中の単語と完全一
致しない語はすべて日本語対象文固有用語として出力す
るため、一般的な語のみからなる日本語対象文固有用語
や、一部に一般的な語を含む日本語対象文固有用語も０
日本語対象文固有用語として抽出できる。

の各点が異なる。

（４−２）実施例第１図は本発明をハードウェアによって構成した際の基
本構成図である０図中、１は、入力された日本語文書を
例えば１０種類の字種（漢字コード、漢数字コード、一
般ひらがなコード、連用形活用語尾ひらがなコード、カ
タカナコード、アラビア数字コード、アルファベットコ
ード、句読点コード、区切りコード、その他のコード）
に分類したコード列に展開するコード列展開部、２は。

コード列展開部１において得られたコード列の中から２
字種の変化点および並び方に着目して１日本語対象文固
有用語の候補を抽出する日本語対象文固有用語候補抽出
部、３は９日本語対象文固存用語候補抽出部２において
得られた候補の中の各候補に対して言語情報テーブル９
を検索し、該情報に従って該候補を処理した後、より精
度の高い候補のみから成る候補群を抽出する日本語対象
文固有用語言語処理部、４は１日本語対象文固有用語言
語処理部３において得られた候補群の中の各候補の字面
をキーとして日本語解析辞１１０を検索し１日本語解析
辞書１０に登録されていない語のみを日本語対象文固を
用語として選択する日本語対象文固有用語選択部、５は
１日本語対象文固有用語選択部４で選択された日本語対
象文固有用語を日本語対象文固有用語ファイル６に登録
する日本語対象文固有用語登録部、６は、最終的に抽出
された日本語対象文固有用語を登録しておく日本語対象
文固有用語ファイル、７は、候補として抽出すべき字種
の並びを規定した抽出字種列規定・テーブル、８は３日
本語対象文固有用語候補抽出部２において抽出する字種
列をどのように分類するかを規定した分類テーブル、９
は１日本語対象文固有用語言語処理部３において、より
精度の高い候補を抽出する際に用いる言語情報や処理方
法を記述した言語情報テーブル、１０は、−船釣な日本
語単語の字面や品詞などを登録した日本語解析辞書、１
１は、演算装置およびメモリから成る日本語対象文固有
用語抽出装置である。

第２図は第２図（Ａ）と（Ｂ）とで一体となって１つの
図を構成するものであり２日本語対象文固有用語抽出装
置１１の動作の概略フローである。

次に、第２図の概略フローに従って、動作の説明を行う
。

日本語対象文固有用語抽出装置１１の入力である日本語
文書に対して、コード列展開部ｌでは。

該日本語文書の１文字１文字を１０種類の字種（漢字コ
ード、漢数字コード、一般ひらがなコード、連用形活用
語尾ひらがなコード、カタカナコード、アラビア数字コ
ード、アルファベットコード、句読点コード、区切りコ
ード、その他のコード）のコードに変換し、該日本語文
書に対するコード列を生成する（第２図ステップ１）・
。

このとき、各コードには、該コードが該日本語文書のど
の文字から生成されたのかを示す情報が付与される。コ
ード列展開部１によって生成されたコード列は２日本語
対象文固有用語候補抽出部２に送られる。

日本語対象文固有用語候補抽出部２では、抽出字種列規
定テーブル７に記述されているコード列に対応する文字
列を２日本語文書中から１日本語対象文固有用語の候補
としてすべて抽出し１分類テーブル８に記述されている
条件によって該候補を分類する（第２図ステップ２）。

分類された日本語対象文固有用語の候補は１日本語対象
文固有用語言語処理部３に送られる。第３図に１分類テ
ーブル８の内容の例を示す０日本語対象文固有用語言語
処理部３では、まず、言語情報テーブル９を検索して情
報を得る（第２図ステップ３１）０次に、得られた情報
に従って１日本語対象文固有用語の各候補について処理
する（第２図ステップ３２）ことによって、より精度の
高い日本語対象文固有用語の候補を抽出しく第２図ステ
ップ３３）１日本語対象文固有用語選択部４に該候補を
送る。

日本語対象文固有用語選択部４では９日本語対象文固有
用語言語処理部３より送られてきた日本語対象文固有用
語の候補の字面をキーとして２日本譜解析辞書１０を検
索する。検索の結果、該候補が日本語解析辞書１０に登
録されているときは。

該候補は日本語対象文固有用語ではないとして。

候補から落とす（第２図ステップ４）、逆に、該候補が
日本語解析辞書１０に登録されていないときは、該候補
は日本語対象文固有用語であるとして、該候補を日本語
対象文固有用語登録部５に送る（第２図ステップ４）。

日本語対象文固有用語登録部５では１日本語対象文固有
用語選択部４より送られてきた日本語対象文固有用語を
日本語対象文固有用語ファイル６に書き込み、登録する
（第２図ステップ５）。

次に例を用いて動作の概略を説明する。第４図に示す例
文を日本語対象文固有用語抽出装置１１の入力となる日
本語文書として説明する。

まず、コード列展開部１では、第４図に示す例文の１文
字１文字を対応するコードに変換し、コード列を生成す
る（第５図）、第５図のコード列では、漢字コード（漢
数字を除（全ての漢字）を■、漢数字コード（○、−９
二、三、四、五、六。

七、八、九）を■、一般ひらがなコード（連用形活用語
尾ひらがなコード以外の全てのひらがな）をＯ１連用形
活用語尾ひらがなコード（い、き。

し、ち、み、す、え、け、せ、て、ね、め、れ。

ぎ、じ、び、げ、ぜ、べ、っ）を■、カタカナコード（
カタカナすべて）を［Ｆ］、アラビア数字コード（０，
１，２，３，４，５，６，７，８，９）を［Ｆ］、アル
ファベットコード（Ａ−Ｚ、ａ〜２の大文字、小文字）
を■９句読点コード（読点２句点、カンマ、ピリオド、
クエスチョンマーク、イクスクラメーシ四ンマーク）を
０１区切りコード（カギカッコ、丸カンコなどのカッコ
類、コーチ−ジョンマーク、ダブルコーチ−ジョンマー
ク）を■、その他のコード（前記のどのコードにも入ら
ない文字や記号）をΦと略記している。・このとき、各
コードには、該コードがどの文字から生成されたかを示
す情報（例えば、第５図の一番最初の■は第４図の文字
“位”から９次の■は文字“置”からそれぞれ生成され
たことを示す情報）を付与する。この付与の方法には１
元の文字列に番号を付け、その番号をコード列に付与す
る方法や１元の文字とコードをペアで持つ方法などがあ
るが、ここでは、この方法については問わない。

コード列展開部１によって生成されたコード列（第５図
）は１日本語対象文固有用語候補抽出部２に送られる。

次に２日本語対象文固有用語候補抽出部２では。

第５図に示したコード列から１つ１つのコードを取り出
し、抽出字種列規定テーブル７中のルールと照合し、入
力日本語文書からすべての候補を抽出する。第６図に抽
出字種列規定テーブル７の内容例を１ｆ＝ｔｈｅｎルー
ルの形で表わしたものを示す。

例文において、まず、第１文字目の“位”に対するコー
ドのが処理される。このコードは、抽出字種列規定テー
ブル７における現在のコード＝■のルールと一致するの
で、このコード■に対応する文字“位”が候補文字列バ
ッファに加えられる（第７図（１）参照）。

次に、第２文字目の“置”に対するコードの。

第３文字目の１繰”に対するコードＯが同様に処理され
（第７図（２）、　（３）　”）　、ここまでの処理で
候補文字列バッファには第７図（３）に示す“位置線”
が入っている０次に第４文字目の“す”に対するコード
■が処理される。このコードは抽出字種列規定テーブル
７における現在のコードＯのルールと一致する。このル
ールは次の文字に対するコードによってさらに処理が分
かれている０次の文字は第５文字目の“返”であり、対
応する。コードは■である。従って抽出字種列規定テー
ブル７中の該ルールにより、現在のコード■に対応する
文字“す”が候補文字列バッファに加えられる（第７図
（４））、次に第５文字目が処理され、候補文字列バッ
ファの内容は第７図（５）のようになる、同様にして、
第８文字目の“度”までが候補文字列バッファ内に加え
られる（第７図（８））、、次に第９文字目の“は”に
対するコードＯが処理される。このコードは抽出字種列
規定テーブル７における現在のコード＝Ｏのルールに一
致する。このルールにより、今までの処理で候補文字列
バッファに入っている文字列「位置繰り返し精度」が候
補として抽出され、候補文字列バッファがクリアされる
０以上のような動作を繰り返し、入力日本語文書の最後
まで処理を行い、すべての候補が抽出される（第８図、
第９図参照）。

さらに１日本語対象文固有用語候補抽出部２では、抽出
した候補を分類テーブル８に従って分類する。この結果
を第１０図に示す０分類結果は日本語対象文固有用語言
語処理部３に送られる。

日本語対象文固有用語言語処理部３では、言語情報テー
ブル９を検索し、得られた情報に従って候補を絞り込む
。言語情報テーブル９の内容の例を第１１図に示す０日
本語対象文固有用語言語処理部３では、第１０図に示す
候補の分類をキーとして、言語情報テーブル９を検索す
る。゛第１０図の分類１に属する語「上」は、第１１図
分類１の項の「無条件に候補から落とす」に一致するた
め。

候補から落とされる。また１分類２３に属するｒｏ−ｏ
五ミリ」、［毎秒二・二メートル」の２語は、第１１図
分類２３の項の「漢数字とそれに続く助数詞を持つもの
は候補から落とす」に一致するため、候補から落とされ
る０分［２の「性能」２分類３の「在来機」１分Ｍ６の
「最大合成速度」１分類２２の「位置繰り返し精度」の
４語は候補として残り１日本語対象文固有用語選択部４
に送られる。

日本語対象文固有用語選択部４では０日本語解析辞書１
０を日本語対象文固有用語の候補の字面で検索し１日本
語解析辞書１０に登録されていない語のみを日本語対象
文固有用語として選択する。

例文に対しては、上記４語の候補の各々について。

その字面をキーとして日本語解析辞書１０を検索する。

検索の結果９日本語解析辞書には、「性能」のみが一般
的な語として登録されているため。

「性能」が候補から落とされる。よって上記の４語から
「性能」を除いた３語が日本語対象文固有用語として日
本語対象文固有用語登録部５に送られる。

日本語対象文固有用語登録部５では、送られてきた３個
の日本語対象文固有用語を日本語対象文固有用語ファイ
ル６に書き込み、登録する０日本語対象文固有用語ファ
イル６に占き込まれた日本語対象文固有用語を第１２図
に示す。

このような構造および作用となっていることから、従来
の方法に比べて。

■　日本語対象文固有用語の候補を抽出する際に。

字種の変化点だけでなく、並び方にも着目しているので
、ひらがなを含む日本語対象文固有用語も候補として抽
出できる。

■　字種の変化点および並び方に着目して候補を抽出す
るので、一般的な語のみから成る語や一部に一般的な語
を含む語も日本語対象文固有用語の候補として抽出でき
る。

■　字種の変化点および並び方に着目して抽出した候補
に対して、言語情報テーブル中の情報（「漢字５文字以
上の列は日本語対象文固有用語となりやすい」といった
ヒユーリスティックルールや、「接辞を含む場合には、
接辞に対する処理を施こす」などの処理情報）を用いて
。

候補を絞り込むので′、正確な日本語対象文固有用語の
候補抽出が行える。

■　日本語解析辞書中の単語と完全一致しない語はすべ
て日本語対象文固有用語として抽出するため、一般的な
語のみから成る日本語対象文固有用語や、一部に一般的
な語を含む日本語対象文固有用語も２日本語対象文固有
用語として抽出できる。

の各点で改善があった。

（５）発明の効果以上、説明したように９本発明によれば、該文書でのみ
使用されている製品名、会社名１人名などの固有名詞や
単語の組み合わせであっても新語や該文書においてのみ
使用されていると考えられる語（以上の語をまとめて日
本語対象文固有用語と呼ぶ）の候補を該文書中から１字
種の変化点および並び方の情報によって抽出し、該候補
の持つ言語情報を用いて候補を絞った後に、解析辞書を
検索することによって一般的な１番を取り除いたものを
日本語対象文固を用語として出力するのであるから９日
本語文書中に存在する日本語対象文固有用語を、正確に
抽出できるという利点がある。

【図面の簡単な説明】

第１図は本発明の基本構成図、第２図は本発明の動作の
概略フロー、第３図は分類テーブルの内容の例、第４図
は動作の説明に用いた例文、第５図は例文に対するコー
ド列、第６図は抽出字種列規定テーブルの内容例、第７
図は候補文字列バンファ内の動作例、第８図は第５図の
コード列から抽出される日本語対象文固有用語の候補の
コード列、第９図は第８図のコード列に対応する元の文
字列、第１０図は分類テーブルによる日本語対象文固有
用語の候補の分類、第１１図は言語情報テーブルの内容
の例、第１２図は最終的に抽出される日本語対象文固有
用語を示す。ｌ・・・コード列展開部、２・・・日本語対象文固有用
語候補抽出部、３・・・日本語対象文固有用語言語処理
部・　４°°°日本語対象文固竺用語選択部・　５°°
°日本語対象文固有用語登録部、６・・・日本語対象文
固有用語ファイル、７・・・抽出字種列規定テーブル。８・・・分類テーブル、９・・・言語情報テーブル、１
０・・・日本語解析辞書、１１・・・日本語対象文固有
用語抽出装置。特許出願人　　日本電信電話株式会社

Claims

【特許請求の範囲】日本語文書中の文字列を複数種類の字種に分類したコー
ド列に展開する第１の手段と、前記コード列における字種の変化点および並び方のみか
ら、該文書でのみ使用されている製品名、会社名、人名
などの固有名詞や単語の組み合わせであっても新語や該
文書においてのみ使用されていると考えられる日本語対
象文固有用語の候補を抽出する第２の手段と、第２の手段で抽出された候補の中から、該候補の持つ言
語情報を用いて、より精度の高い日本語対象文固有用語
の候補を抽出する第３の手段と、第３の手段で抽出され
た候補の中から、あらかじめ用意した解析用の日本語辞
書に収録されていない語のみを日本語対象文固有用語と
して出力する第４の手段とを有することを特徴とする日本語対象文固有用語抽出処理方式。