JPH067385B2

JPH067385B2 - キ−ワ−ド自動抽出方式

Info

Publication number: JPH067385B2
Application number: JP58141038A
Authority: JP
Inventors: 和明田中
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1983-08-03
Filing date: 1983-08-03
Publication date: 1994-01-26
Anticipated expiration: 2009-01-26
Also published as: JPS6033665A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、漢字仮名混り文日本文字英文字混り文等の複
数種の文字からなる文章から、検索において利用される
キーワードを自動抽出する方式に関するものである。

〔発明の背景〕

従来のキーワード自動抽出方式には、キーワードとなる
言葉があらかじめキーワード辞書としてコンピュータに
登録されていることを前提とする方式と、キーワード辞
書を用いない方式とがある。

以下複数種文字の例として漢字仮名混り文の場合を中心
に説明する。

本発明は、前者に属する従来抽出処理は、先ず日本語文
中から、付属語、接続詞、接辞などを削除し、残った文
字列を自立語として認定することが一般に行われてい
る。次に、自立語の先頭から、キーワード辞書登録語と
の比較を行い、一致すれば、自立語から、その文字列を
切りはなしてキーワードとする。切りはなされた残りの
文字列についても、先頭から、キーワード辞書登録語と
の比較を行う。一致しない場合には、一字ずつずらし
て、比較処理を繰返し、自立語中のキーワードを見つけ
ている。このような従来方式では、前方部分からキーワ
ードを見つけていくため、自立語の後部にキーワードと
すべき重要な語がある場合、その一部が、前方部分の文
字列と組み合わされてキーワードとなると、より重要な
キーワードが抽出できないことがあった。例えば、「中
央制御装置」，「端末制御装置」，「車上制御装置」に
おいて、「中央制御」，「端末制御」，「車上制御」が
キーワードとなると、「制御装置」がキーワードとなら
なかった。又、この例で、「中央制御」がキーワードと
して登録されていないと、この場合だけ、「制御装置」
がキーワードとなるといった、一貫性に欠けたキーワー
ド自動抽出であった。

〔発明の目的〕

本発明の目的は、漢字仮名混り文複数国文字混り文等か
らのキーワード自動抽出方式として、文中の熟語の後方
部分に存在するキーワード文字列を、キーワード辞書を
参照して、抽出するキーワード自動抽出装置を提供する
ことにある。

〔発明の概要〕

本文では複数種文字混り文として漢字仮名混り文の実施
例を中心に説明しているので以下漢字仮名混り文で代表
して説明する。

日本語熟語の語構成は、その後方部分に、キーワードと
なるような重要な言葉があり、その前方部分に、キーワ
ードを修飾するような言葉があることが多い。

本発明は、漢字仮名混り文中の熟語の後方部分に存在す
るキーワード文字列を抽出するため、熟語の後方部分か
ら、前方方向に、キーワード辞書に登録されているキー
ワードとの比較を行い、一致すれば、キーワードとして
抽出する方式である。

キーワード辞書として、キーワードと、その文字列の先
頭から、最初に字種（漢字，片仮名，平仮名，数字，英
字，特殊文字など）の変化点までの文字列の文字の並び
順を逆転させた文字列を見出し語とする辞書を用いてい
る。

以下に処理概要を示す。

(1)キーワード抽出の対象となる漢字仮名混り文の先頭
から、字種の変化点を調べる。

(2)字種の変化点より前方の文字列の文字の並びを逆順
にして、キーワード候補とする。

(3)キーワード辞書の見出し語のうち、キーワード候補
の先頭からの文字列と一致しているもののキーワード文
字列を取り出す。

ここで、見出し語とキーワード候補との文字列比較は、
見出し語の文字数分行う。

(4)取り出されたキーワード文字列の中で、その全文字
列が、漢字仮名混り文中に含まれており、かつ、文字数
が最も多いものをキーワードとする。

(5)上記(3)で、キーワード候補と一致するキーワード辞
書の見出し語がない場合、キーワード候補の先頭が接辞
であれば、それを削除して、再度、上記(3)，(4)を行
う。

(6)抽出対象の漢字仮名混りデータ中の字種の変化点に
ついて、上記(1)〜(5)を実行する。

上記処理において、キーワード文字列の抽出方法とし
て、次の２つのいずれかを、パラメータで指定できる。

(a)上記(4)で選ばれたキーワード文字列を、そのままキ
ーワードとする。

(b)抽出対象の漢字仮名混り文中で、上記(4)で選ばれた
キーワード文字列の先頭文字と同じ字種のそれ以前の文
字列を合わせて、キーワードとする。たとえば、「今日
の日本語情報処理を解説する。」において、キーワード
辞書に、「情報処理」という文字列が登録されている
と、「情」と同じ字種の「日本語」を合わせ「日本語情
報処理」をキーワードとする。

〔発明の実施例〕

以下、本発明を実施例を参照して詳細に説明する。本発
明の一実施例のハードウエア構成を第１図に示す。第１
図における１はプロセッサ、２は磁気テープや磁気ディ
スク等のキーワード自動抽出の対象となる漢字仮名混り
文の格納メモリ、３は自動抽出されたキーワードの格納
メモリ、４はプログラムの格納メモリ、５はワークエリ
ア、６はキーワード辞書メモリ、７は接辞テーブル格納
メモリ、８はパラメータ格納メモリを表わす。

キーワード辞書メモリ６には、第２図に示す様な形式の
辞書が格納されている。つまり、各キーワードについ
て、キーワード文字列が、１種類の字種の場合には、全
文字を逆順に並べた文字列、２種類以上の字種で構成さ
れている場合には、キーワード文字列先頭から最初の字
種の変化点より前方部分のみを逆順に並べた文字列の見
出し語ＫＡと、キーワード文字列ＫＢとが格納されてい
る。

接辞テーブル格納メモリ７には、第３図に示す様な形式
の辞書が格納されている。つまり、各接辞について、接
辞の文字数ＳＡと接辞文字ＳＢとが格納されている。

パラメータ格納メモリ８には、第４図に示す様な形式の
パラメータが格納されている。キーワードとして、キー
ワード辞書に登録されているキーワード文字列と同じ文
字列を抽出する場合には、パラメータとして、１を格納
する。キーワードとして、キーワード辞書に登録されて
いるキーワード文字列を、後方の一部分とする文字列を
抽出する場合には、パラメータとして、２を格納する。

プログラムは、第５図のようなモジュール構成をとる。

後方一致キーワード抽出メイン・モジュール１００で
は、接辞テーブルを、接辞テーブル格納メモリ７から、
プロセッサの主記憶装置の記憶領域SETSUJIへロードす
る処理，キーワードの抽出方法を指定するパラメータ
を、パラメータ格納メモリ８から読込み、バッファＴＹ
ＰＥへ格納する処理，キーワード抽出の対象となるデー
タを漢字仮名混りデータ格納メモリ２から取出し、バッ
ファＡに格納する処理，抽出処理モジュールを参照し、
１キーワードを抽出する処理，抽出されたキーワード
を、抽出キーワード格納メモリ３へ出力する処理、およ
び上記抽出処理の繰返しの制御を行う。

抽出処理モジュール２００では、漢字仮名混りデータか
ら、キーワード候補を切出す処理、接辞処理モジュール
を参照して、接辞を除く処理，キーワード比較処理モジ
ュールを参照して、キーワードを取出す処理を行う。

キーワード比較処理モジュール３００では、キーワード
辞書を参照し、キーワード候補の先頭からの文字列の一
部を見出し語とするキーワード文字列を取出す処理と、
キーワード文字列の全ての文字が漢字仮名混り文中にあ
るもののうち、文字数が最も多いキーワード文字列を選
ぶ処理と、キーワード抽出方法を指定するパラメータに
基づきキーワードとなる文字列をキーワードして抽出す
る処理を行う。

接辞処理モジュール４００は、接辞テーブルを参照し、
キーワード候補中の接辞を取り除く処理を行う。

次に、後方一致キーワード抽出処理について、「技術資
料情報検索等システムの建設」という漢字仮名混りデー
タから、「情報検索システム」というキーワードを抽出
する場合を例にとって説明する。

初めに、後方一致キーワード抽出メイン・モジュール１
００の処理内容について、第６図のフローチャートに基
づき説明する。

後方一致キーワード抽出メイン・モジュールは、起動さ
れると、接辞テーブル（第３図）を接辞テーブル格納メ
モリ７から、プロセッサ１上にローディングし、バッフ
ァSETSUJIに格納する（１０１）。

パラメータ（第４図）をパラメータ格納メモリ８から読
込み、バッファＴＹＰＥに格納する（１０２）。

次に、漢字仮名混りデータ格納メモリ２から、キーワー
ド抽出の対象となるデータ「技術資料情報検索等システ
ムの建設」を読込み、バッファＡに格納する（１０
３）。もし対象となるデータが漢字仮名混りデータ格納
メモリ２にないと、後方一致キーワード抽出処理メイン
モジュールの処理を終了する。読込まれたデータの文字
数をカウントし、バッファＬＡに格納する（１０４）。
例では、１６を格納される。バッファＫＥＹＷに０を格
納する（１０５）。抽出処理モジュールを参照してキー
ワードの抽出を行う（１０６）。キーワードがあればバ
ッファＢにキーワードが格納され、バッファＫＥＹＷに
０が格納される。キーワードがなければバッファＫＥＹ
Ｗに１が格納される。例では、バッファＢに「情報検索
システム」が格納され、バッファＫＥＹＷに０が格納さ
れる。バッファＫＥＹＷが１ならば（１０７）、１０２
以降の処理を繰返し、１でなければ、バッファＢ内のキ
ーワードを、抽出キーワード格納メモリに書込む（１０
８）。バッファＡに、キーワード抽出の対象となる文字
列が残っていれば、１０４以降の処理を繰返し、残って
いなければ、１０３以降の処理を繰返す（１０９）。

例では、「の建設」という文字列について、１０４以降
の処理が行われる。

次に、抽出処理モジュール２００の処理内容について、
第７図のフローチャートを使用して説明する。

抽出処理モジュールは、起動されると、バッファＬに１
を格納する（２０１）。バッファＬの値と、抽出対象文
字列の文字数を示すバッファＬＡの値を比較し（２０
２）、Ｌが小さければ、２０３以降の処理を行い、等し
いか大きければ、バッファＫＥＹＷに１を格納し（２１
６）、抽出処理モジュールの処理を終了する。

２０３では、バッファＡ中の漢字仮名混りデータの先頭
からＬ文字目以降の文字列について、漢字，片仮名，平
仮名，数字，英字，句読点などの字種の変化点を求め、
バッファＡの先頭から変化点までの文字数をバッファＭ
に格納する。変化点がなければ、バッファＡ中の全文字
数をＭに格納する。バッファＡ中の変化点より前方部分
の文字列をバッファＣに格納する。例では、漢字から片
仮名への変化点を認定し、バッファＭに９が格納される
と共に、バッファＣに「技術資料情報検索等」が格納さ
れる。

次に、バッファＣの文字列を逆順に並べ換えてバッファ
Ｄに格納する（２０４）。例では、バッファＤに「等索
検報情料資術技」が格納される。

次に、バッファＦ１に、０を格納する（２０５）。

キーワード比較処理モジュールを参照して、バッファＤ
の文字列をキーとし、キーワード辞書を調べ、キーワー
ドがあれば、キーワード文字列をバッファＢに格納する
とともに、バッファＦ１に１を格納し、キーワードがな
ければ、バッファＦ１に０を格納する（２０６）。例で
は、バッファＦ１に０が格納される。

バッファＦ１が１ならば、２１５以降の処理を行い、１
でなければ、２０８以降の処理を行う（２０７）。２０
８では、バッファＦ２に０を格納する。次に、接辞処理
モジュールを参照して、バッファＤの先頭が接辞なら
ば、バッファＡおよびＤ中の接辞を削除するとともに、
バッファＦ２に１を格納し、接辞でなければ、バッファ
Ｆ２に０を格納する（２０９）。例では、「等」が接辞
と認定され、バッファＡに、「技術資料情報検索システ
ムの建設」が格納され、バッファＤに、「索検報情料資
術技」が格納され、バッファＦ２に１が格納される。

バッファＦ２が０かを判定し（２１０）、０ならば、２
１４以降の処理を行い、０でなければ２１１以降の処理
を行う。２１１では、バッファＦ１に０を格納する。次
に、キーワード比較処理モジュールを参照する（２１
２）。例えば、バッファＢに「情報検索システム」が格
納されるとともに、バッファＦ１に１が格納される。

バッファＦ１が１かを判定し（２１３）、１ならば、バ
ッファＡの（Ｍ＋１＋ＬＤ−ＬＢ）文字目以降の文字列
をバッファＡの先頭から格納（２１５）後、抽出処理モ
ジュールの処理を終了する。バッファＦ１が１でなけれ
ば、バッファＬに、Ｍ＋１を格納し（２１４）、２０２
以降の処理を繰返す。

例では、バッファＡに「の建設」が格納されて当処理モ
ジュールの処理を終了する。

次に、キーワード比較処理モジュール３００の処理内容
について、第８図のフローチャートに基づき説明する。
例として、バッファＤには「索検報情料資術技」が格納
されており、キーワード辞書には、キーワードとして
「日本語情報検索」，「情報検索システム」が登録され
ているものとする。

キーワード比較処理モジュールは、起動されると、バッ
ファＮＵＭに０を格納する（３０１）。

キーワード辞書の見出し語の中で、バッファＤの先頭か
らの文字列と一致するものの見出し語をバッファＭＤ
に、キーワード文字列をバッファＫＷに、キーワードの
個数をバッファＮＵＭに格納する（３０２）。例では、
バッファＭＤには、「索検報情語本日」と「索検報情」
とが格納され、バッファＫＷには、「日本語情報検索」
と「情報検索システム」とが格納され、バッファＮＵＭ
には、２が格納される。

次に、キーワード数ＮＵＭが０かを判定して、０ならば
キーワード比較処理モジュールの処理を終了し、０でな
ければ、３０４以降の処理を行う（３０４）。

３０４では、バッファＫＷ中のキーワード文字列のう
ち、文字数の最も多いのをバッファＢに格納する。同文
字数のキーワードが２個以上ある場合、最初にあったも
のを選ぶ。例では、バッファＢに「情報検索システム」
が格納される。

次に、バッファＢのキーワードの見出し語の文字数をバ
ッファＬＤに、キーワードの文字数をＬＢに格納する
（３０５）。例えば、バッファＬＤに４が、バッファＬ
Ｂに８が格納される。

次に、バッファＢの文字列が、バッファＡの（Ｍ＋１−
ＬＤ）文字目以降，ＬＢ文字の文字列と一致するかを調
べる（３０６）。一致すれば、３１０以降の処理を行
い、一致しなければ、３０８以降の処理を行う（３０
７）。

３０８では、バッファＫＷから、バッファＢの文字列を
削除する。バッファＮＵＭの値を１減らした（３０９）
後、３０３以降の処理を繰返す。

３１０では、バッファＴＹＰＥの値が１かを判定し、一
致すれば、３１２以降の処理ない、一致しなければ、バ
ッファＡの（Ｍ＋１−ＬＤ）文字目よりも先頭に近い所
で、（Ｍ＋１−ＬＤ）文字目の字種と変化していれば変
化点以降、（Ｍ−ＬＤ＋ＬＢ）文字目までの文字列，字
種が変化していなければ、バッファＡの先頭から、（Ｍ
−ＬＤ＋ＬＢ）文字目までの文字列をバッファＢに格納
する（３１１）。例では、ＴＹＰＥ＝１ならば、バッフ
ァＢに、「情報検索システム」が格納され、ＴＹＰＥ≠
１ならば、バッファＢに、「技術資料情報検索システ
ム」が格納される。

次に、バッファＦ１に、１を格納し（３１２）、キーワ
ード比較処理モジュールの処理を終了する。

次に、接辞処理モジュール４００の処理内容について、
第９図のフローチャートに基づき説明する。例として、
バッファＡには、「技術資料情報検索システムの建
設」、バッファＤには「等索検報情料資術技」が格納さ
れており、接辞テーブルには、接辞として「等」が登録
されているものとする。

接辞処理モジュールは、起動されると、バッファＤの先
頭からの文字列が、接辞テーブルに登録されているかを
調べる（４０１）。登録されているかを判定し、登録さ
れていなければ、接辞処理モジュールの処理を終了し、
登録されていれば、４０３以降の処理を行う（４０
２）。４０３では、バッファＤから、接辞文字列を削除
するとともに、バッファＤ中の文字列の文字数が格納さ
れているバッファＬＤから、接辞文字列の文字数を引き
算する（４０３）。例では、接辞「等」が、接辞テーブ
ルに登録されていることから、バッファＤ中の「等」が
削除され、「索検報情料資術技」が格納されるととも
に、ＬＤは、１は引かれて、８が格納される。

次に、バッファＡから、接辞文字列を削除するともに、
バッファＡ中の文字列の文字数が格納されているバッフ
ァＬＡから、接辞文字列の文字数を引き算する（４０
４）。例では、バッファＡ中の「等」が削除され、「技
術資料情報検索システムの建設」が格納されるととも
に、バッファＬＡに１５が格納される。

次に、バッファＦ２に、１を格納し（４０５）、接辞処
理モジュールの処理を終了する。

〔発明の効果〕

複数種字種混り文特に漢字仮名混り文中の熟語の語構成
は、その後部に基本的な概念を示す言葉があり、前部に
それを修飾する言葉があることが多い。

本発明によれば、漢字仮名混り文等からのキーワード自
動抽出方式として、文中の熟語の語部にあるキーワード
辞書に登録されている言葉を抽出することができるの
で、熟語中の基本的な概念を示す用語の抽出の際の高効
率化の効果がある。

【図面の簡単な説明】

第１図は、本発明の一実施例のハードウエア構成図、第
２図は、本発明キーワード辞書のキーワード毎の論理的
構成図、第３図は、本発明接辞テーブルの接辞毎の論理
的構成図、第４図は、本発明パラメータの論理的構成
図、第５図は、本発明実施例のソフトウエア・モジュー
ル構成を例示するブロック図、第６図は、本発明後方一
致キーワード抽出メイン・モジュールの処理手順を示す
フロー図、第７図は、本発明抽出処理モジュールの処理
手順を示すフロー図、第８図は、本発明キーワード比較
処理モジュールの処理手順を示すフロー図、第９図は、
接辞処理モジュールの処理手順を示すフロー図、第１０
図は、本発明のバッファＡ〜Ｎの構成を例示した説明
図、第１１図(A)は、本発明バッファSETSUJIの構成を例
示した説明図、第１１図(B)は、本発明バッファＴＹＰ
Ｅの構成を例示した説明図である。１…プロセッサ、２…漢字仮名混りデータ格納メモリ、
３…抽出キーワード格納メモリ、４…プログラム格納メ
モリ、５…バッファメモリ、６…キーワード辞書メモ
リ、７…接辞テーブルメモリ、８…パラメータメモリ。

Claims

【特許請求の範囲】

【請求項１】複合語からなる文章から、キーワードを抽
出するキーワード自動抽出方式において、キーワードと
すべき文字列を逆順に並べた文字列を登録したキーワー
ド辞書を設けておき、前記文書を文字種の変化点で分割
してキーワード候補となる複合語を抽出し、該複合語を
逆順に並べた文字列と前記キーワード辞書に登録された
文字列とを比較し、該比較の結果、前記複合語を逆順に
並べた文字列に含まれる文字列が前記キーワード辞書に
格納されている文字列と一致したならば、前記複合語を
キーワードとして抽出することを特徴とするキーワード
自動抽出方式。
【請求項２】特許請求の範囲第１項記載のキーワード自
動抽出方式において、前記複合語を逆順に並べた文字列
に含まれる文字列と一致する文字列が前記キーワード辞
書に格納されていないならば、前記複合語の文字列の後
部から接辞を抽出し、該接辞を除いたもので前記複合語
を置換して前記比較を繰返すことを特徴とするキーワー
ド自動抽出方式。
【請求項３】特許請求の範囲第２項記載のキーワード自
動抽出方式において、前記置換した文字列に含まれる文
字列が前記キーワード辞書に格納されている文字列と一
致したならば、前記複合語の中の前記一致した文字列を
最後部とし、前記複合語の最前部文字を最前部とした文
字列をキーワードとして抽出するようにしたことを特徴
とするキーワード自動抽出方式。
【請求項４】複数種の文字混じり文から、キーワードを
抽出するキーワード自動抽出方式において、キーワード
とすべき第１の文字列と該第１の文字列に引き続く第２
の文字列とを登録したキーワード辞書を予め設け、前記
複数種混じり文の字種の変化点より前方部分の文字列を
キーワード候補として抽出し、該キーワード候補を前記
キーワード辞書に登録されている第１の文字列とを比較
し、該比較の結果一致が検出されたとき、一致が検出さ
れた第１の文字列に引き続く第２の文字列が前記キーワ
ード辞書に登録されているか否かを調べ、登録されてい
れば、前記キーワード候補の後方に前記第２の文字列と
一致する文字列が有るか否かを調べ、前記第２の文字列
と一致する文字列が有れば前記第１の文字列と前記第２
の文字列に一致する文字列とからなる連続文字列をキー
ワードとして抽出することを特徴とするキーワード自動
抽出方式。
【請求項５】特許請求の範囲第４項記載のキーワード自
動抽出方式において、キーワードとなる文字列が同一字
種である場合には該文字列の文字の並びを逆順にした文
字列を前記第１の文字列とし、キーワードとなる文字列
が複数字種からなる場合には該文字列の先頭から最初の
字種の変化点までの文字の並びを逆順にした文字列を前
記第１の文字列、前記変化転以降の文字列を前記第２の
文字列として前記キーワード辞書に登録されることを特
徴とするキーワード自動抽出方式。