JPS6033665A - キ−ワ−ド自動抽出方式 - Google Patents
キ−ワ−ド自動抽出方式Info
- Publication number
- JPS6033665A JPS6033665A JP58141038A JP14103883A JPS6033665A JP S6033665 A JPS6033665 A JP S6033665A JP 58141038 A JP58141038 A JP 58141038A JP 14103883 A JP14103883 A JP 14103883A JP S6033665 A JPS6033665 A JP S6033665A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- buffer
- stored
- character string
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9017—Indexing; Data structures therefor; Storage structures using directory or table look-up
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の利用分野〕
本発明は、漢字仮名混9文日本文字英文字混p文等の複
数種の文字からなる文章から、検索において利用される
キーワードを自動抽出する方式に関するものである。
数種の文字からなる文章から、検索において利用される
キーワードを自動抽出する方式に関するものである。
従来のキーワード自動抽出方式には、キーワードとなる
言葉があらかじめキーワード辞書としてコンピュータに
登録されていることを前提とする方式と、キーワード辞
書を用いない方式とがある。
言葉があらかじめキーワード辞書としてコンピュータに
登録されていることを前提とする方式と、キーワード辞
書を用いない方式とがある。
以下複数種文字の例として漢字仮名混シ文の場合を中心
に説明する。
に説明する。
本発明は、前者に属する従来抽出処理は、先ず日本語文
中から、付属語、接続詞、接辞などを削除し、残った文
字列を自、立語として認定することが一般に行われてい
る。次に、自立語の先頭から、キーワード辞書登録語と
の比較を行い、一致すれば、自立語から、その文字列を
切りはなしてキーワードとする。切9けなされた残シの
文字列についても、先頭から、キーワード辞1゛登録語
との比較を行う。一致しない場合には、−字ずつずらし
て、比較処理を繰返し、自立語中のキルソードを見つけ
ている。このような従来方式では、前方部分からキーワ
ードを見つけていくため、自立語の後部にキーワードと
すべき重要な飴がある場合、その一部が、前方部分の文
字列と組ミ台わされてキーワードとなると、よシ重要な
キーワードが抽出できないことがあった。例えば、「中
央制御装置」、「端末制御装置」、1屯上制御装置」に
おいて、「中央制御」、「端末制御」、1車上制御」が
キーワードとなると、「制御装置」が・)′−ワードと
ならなかった。又、この例で、「中央制御」がキーワー
ドとして登録されていないと、この場合だけ、「制御装
置」がキーワードとなるといった、一貫性に欠けたキー
ワード自動抽出であった。
中から、付属語、接続詞、接辞などを削除し、残った文
字列を自、立語として認定することが一般に行われてい
る。次に、自立語の先頭から、キーワード辞書登録語と
の比較を行い、一致すれば、自立語から、その文字列を
切りはなしてキーワードとする。切9けなされた残シの
文字列についても、先頭から、キーワード辞1゛登録語
との比較を行う。一致しない場合には、−字ずつずらし
て、比較処理を繰返し、自立語中のキルソードを見つけ
ている。このような従来方式では、前方部分からキーワ
ードを見つけていくため、自立語の後部にキーワードと
すべき重要な飴がある場合、その一部が、前方部分の文
字列と組ミ台わされてキーワードとなると、よシ重要な
キーワードが抽出できないことがあった。例えば、「中
央制御装置」、「端末制御装置」、1屯上制御装置」に
おいて、「中央制御」、「端末制御」、1車上制御」が
キーワードとなると、「制御装置」が・)′−ワードと
ならなかった。又、この例で、「中央制御」がキーワー
ドとして登録されていないと、この場合だけ、「制御装
置」がキーワードとなるといった、一貫性に欠けたキー
ワード自動抽出であった。
本発明の目的は、漢字仮名混り文複数国文字混り文等か
らのキーワード自動抽出方式として、文中の熟語の後方
部分に存在するキーワード文字列を、キーソード辞書を
参照して、抽出するキーワード自動抽出装置を提供する
ことにある。
らのキーワード自動抽出方式として、文中の熟語の後方
部分に存在するキーワード文字列を、キーソード辞書を
参照して、抽出するキーワード自動抽出装置を提供する
ことにある。
本文では複数種文字混シ文として漢字仮名混シ文の実施
例を中心に説明しているので以下漢字仮名混シ文で代表
して説明する。
例を中心に説明しているので以下漢字仮名混シ文で代表
して説明する。
日本語熟語の語構成は、その後方部分に、キーワードと
なるような重要な言葉がちシ、その前方部分に、キーワ
ードを修飾するような言葉があることが多い。
なるような重要な言葉がちシ、その前方部分に、キーワ
ードを修飾するような言葉があることが多い。
本発明は、漢字仮名混シ文中の熟語の後方部分に存在す
るキーワード文字列を抽出するため、熟語の後方部分か
ら、前方方向に、キーソード辞書に登録されているキー
ワードとの比較を行い、一致すれば、キーワードとして
抽出する方式である。
るキーワード文字列を抽出するため、熟語の後方部分か
ら、前方方向に、キーソード辞書に登録されているキー
ワードとの比較を行い、一致すれば、キーワードとして
抽出する方式である。
キーソード辞書として、キーワードと、その文字列の先
頭から、最初に字種(漢字、ハ仮名、平板名、数字、英
字、特殊文字など)の変化点までの文字列の文字の並び
順を逆転させた文字列を見出し語とする辞書を用いてい
る。
頭から、最初に字種(漢字、ハ仮名、平板名、数字、英
字、特殊文字など)の変化点までの文字列の文字の並び
順を逆転させた文字列を見出し語とする辞書を用いてい
る。
以下に処理概要を示す。
(1)キーワード抽出の対象となる漢字仮名混シ文の先
頭から、字種の変化点を調べる。
頭から、字種の変化点を調べる。
(2)字種の変化点より前方の文字列の文字の並びを逆
順にして、キーワード候補とする。
順にして、キーワード候補とする。
(3) キーワード辞書の見出し語のうち、キーワード
候補の先頭からの文字列と一致しているもののキーワー
ド文字列を取シ出す。
候補の先頭からの文字列と一致しているもののキーワー
ド文字列を取シ出す。
ここで、見出し語とキーワード候補との文字列比較は、
見出し語の文字数分行う。
見出し語の文字数分行う。
(4)取シ出されたキーワード文字列の中で、その全文
字列が、漢字仮名混り文中に含まれておシ、かつ、文字
数が最も多いものをキーワードとする。
字列が、漢字仮名混り文中に含まれておシ、かつ、文字
数が最も多いものをキーワードとする。
(5)上記(3)で、キーワード候補と一致するキーワ
ード辞書の見出し語がない場合、キーワード候補の先頭
が接辞であれば、それを削除して、再度、上記(3)
、 (4)を行う。
ード辞書の見出し語がない場合、キーワード候補の先頭
が接辞であれば、それを削除して、再度、上記(3)
、 (4)を行う。
(6)抽出対象の漢字仮名混シデータ中の字種の変化点
について、7ヒ躬(1)〜(5)を実行する。
について、7ヒ躬(1)〜(5)を実行する。
上記処理において、キーワード文字列の抽出方法として
、次の2つのいずれかを、パラメータで指定できる。
、次の2つのいずれかを、パラメータで指定できる。
(a) 上記(4)で選ばれたキーワード文字列を、そ
のままキーワードとする。
のままキーワードとする。
(b) 抽出対象の路へ字仮名混シ文中で、上記(4)
で選ばれたキーワード文字列の先頭文字と同じ字種のそ
れ以前の文字列を合わせて、キーワードとする。たとえ
ば、「今日の日本語情報処理を解説する。」において、
キーワード辞書に、「情報処理」という文字列が登録さ
れていると、「情」と同じ字111の「日本語」を合わ
せ「日本語情報処理」をキーワードとする。
で選ばれたキーワード文字列の先頭文字と同じ字種のそ
れ以前の文字列を合わせて、キーワードとする。たとえ
ば、「今日の日本語情報処理を解説する。」において、
キーワード辞書に、「情報処理」という文字列が登録さ
れていると、「情」と同じ字111の「日本語」を合わ
せ「日本語情報処理」をキーワードとする。
以下、本発明を実施例を参照して詳細に説明する。本発
明の一実施例のノ・−ドウエア構成を第1図に示す。第
1図における1はプロセッサ、2は磁気テープや磁気デ
ィスク等のキーワード自動抽出の対象となる漢字仮名混
シ文の格納メモリ、3は自動抽出されたキーワードの格
納メモリ、4はプログラムの格納メモリ、5はワークエ
リア、6はキーワード辞書メモリ、7は接辞テーブル格
納メモリ、8はパラメータ格納メモリを表わす。
明の一実施例のノ・−ドウエア構成を第1図に示す。第
1図における1はプロセッサ、2は磁気テープや磁気デ
ィスク等のキーワード自動抽出の対象となる漢字仮名混
シ文の格納メモリ、3は自動抽出されたキーワードの格
納メモリ、4はプログラムの格納メモリ、5はワークエ
リア、6はキーワード辞書メモリ、7は接辞テーブル格
納メモリ、8はパラメータ格納メモリを表わす。
キーワード辞書メモリ6には、第2図に示す様な形式の
辞書が格納されている。つまり、各キーワードについて
、キーワード文字列が、1種類の字種の場合には、全文
字を逆順に並べた文字列、2種類以上の字種で構成され
ている場合には、キーワード文字列先頭から最初の字種
の変化点よシ前方部分のみを逆順に並べた文字列の見出
し語KAと、キーワード文字列KBとが格納されている
。
辞書が格納されている。つまり、各キーワードについて
、キーワード文字列が、1種類の字種の場合には、全文
字を逆順に並べた文字列、2種類以上の字種で構成され
ている場合には、キーワード文字列先頭から最初の字種
の変化点よシ前方部分のみを逆順に並べた文字列の見出
し語KAと、キーワード文字列KBとが格納されている
。
接辞テーブル格納メモリ7には、第3図に示す様な形式
の辞書が格納されている。つt多、各接辞について、接
辞の文字数SAと接辞文字SBとが格納されている。
の辞書が格納されている。つt多、各接辞について、接
辞の文字数SAと接辞文字SBとが格納されている。
パラメータ格納メモリ8には、第4図に示す様な形式の
パラメータが格納されている。キルワードとして、キー
ワード辞書に登録されているキーワード文字列と同じ文
字列を抽出する場合には、パラメータとして、1を格納
する。キーワードとして、キーワード辞書に登録されて
いるキーワード文字列を、後方の一部分とする文字列を
抽出する場合には、パラメータとして、2を格納する。
パラメータが格納されている。キルワードとして、キー
ワード辞書に登録されているキーワード文字列と同じ文
字列を抽出する場合には、パラメータとして、1を格納
する。キーワードとして、キーワード辞書に登録されて
いるキーワード文字列を、後方の一部分とする文字列を
抽出する場合には、パラメータとして、2を格納する。
プログラムは、第5図のようなモジュール構成をとる。
後方一致キーワード抽出メイン・モジュール100では
、接辞デープルを、接辞テーブル格納メモリ7から、プ
ロセッサの主記憶装置の記憶領域5ETSUJIヘロー
ドする処理、キーワードの抽出方法を指定するパラメー
タを、パラメータ格納メモリ8から読込み、バッファT
YPEへ格納する処理、キーワード抽出の対象となるデ
ータを漢字仮名混シデータ格納メモリ2から取出し、バ
ッファAに格納する処理、抽出処理モジュールを参照し
、lキーワードを抽出する処理、抽出されたキーワード
を、抽出キーワード格納メモリ3へ出力する処理、およ
び上記抽出処理の繰返しの制御を行う。
、接辞デープルを、接辞テーブル格納メモリ7から、プ
ロセッサの主記憶装置の記憶領域5ETSUJIヘロー
ドする処理、キーワードの抽出方法を指定するパラメー
タを、パラメータ格納メモリ8から読込み、バッファT
YPEへ格納する処理、キーワード抽出の対象となるデ
ータを漢字仮名混シデータ格納メモリ2から取出し、バ
ッファAに格納する処理、抽出処理モジュールを参照し
、lキーワードを抽出する処理、抽出されたキーワード
を、抽出キーワード格納メモリ3へ出力する処理、およ
び上記抽出処理の繰返しの制御を行う。
抽出処理モジュール200では、漢字仮名混シデータか
ら、キーワード候補を切出す処理、接辞処理モジュール
を参照して、接辞を除く処理、キーワード比較処理モジ
ュールを参照して、キーワードを取出す処理を行う。
ら、キーワード候補を切出す処理、接辞処理モジュール
を参照して、接辞を除く処理、キーワード比較処理モジ
ュールを参照して、キーワードを取出す処理を行う。
キーワード比較処理モジュール300では、キーワード
辞書を参照し、キーワード候補の先頭からの文字列の一
部を見出し語とするキーワ・−ド文字列を取出す処理と
、キーワード文字列の全ての文字が漢字仮名混9文中に
あるもののうら、文字数が最も多いキーワード文字列を
選ぶ処理と、キーワード抽出方法を指定するパラメータ
に基づきキーワードとなる文字列をキーワードして抽出
する処理を行う。
辞書を参照し、キーワード候補の先頭からの文字列の一
部を見出し語とするキーワ・−ド文字列を取出す処理と
、キーワード文字列の全ての文字が漢字仮名混9文中に
あるもののうら、文字数が最も多いキーワード文字列を
選ぶ処理と、キーワード抽出方法を指定するパラメータ
に基づきキーワードとなる文字列をキーワードして抽出
する処理を行う。
接辞処理モジュール400は、接辞テーブルを参照し、
キーワード候補中の接辞を取シ除く処理を行う。
キーワード候補中の接辞を取シ除く処理を行う。
次に1後方一致キーワード抽出処理について、「技術資
料情報検索等システムの建設」という漢字仮名混シデー
タから、「情報検索システム」というキーワードを抽出
する場合を例にとって説明する。
料情報検索等システムの建設」という漢字仮名混シデー
タから、「情報検索システム」というキーワードを抽出
する場合を例にとって説明する。
初めに、後方一致キーワード抽出メイン・モジュール1
00の処理内容について、第6図のフローチャートに基
づき説明する。
00の処理内容について、第6図のフローチャートに基
づき説明する。
後方一致キーワ〜ド抽出メイン・モジュールは、起動さ
れると、接辞テーブル(第3図)を接辞テーブル格納メ
モリ7から、プロセッサ1上にローディングし、バッフ
ァ5ETStJJIに格納する(101)。
れると、接辞テーブル(第3図)を接辞テーブル格納メ
モリ7から、プロセッサ1上にローディングし、バッフ
ァ5ETStJJIに格納する(101)。
パラメータ(第4図)をパラメータ格納メモリ8から読
込み、バッファTYPEに格納する(102)。
込み、バッファTYPEに格納する(102)。
次に、漢字仮名混9データ格納メモリ2から、キーワー
ド抽出の対象となるデータ「技術資料情報検索等システ
ムの建設」を読込み、バッファAに格納する( 1−0
3 )。もし対象となるデータが漢字仮名混シデータ格
納メモリ2にないと、後方一致キーワード抽出処理メイ
ンモジュールのMWを終了する。読込まれたデータの文
字数をカウントシ、バッファLAに格納する(104)
。例では、16を格納される。バッファKEYWKOe
格納する(105)。抽出処理モジュールを参照してキ
ーワードの抽出を行う(106)。キーワードがあれば
バッファBにキーワードが格納され、バッファKEYW
にOが格納される。キーワードがなければバッファKE
YWに1が格納される。
ド抽出の対象となるデータ「技術資料情報検索等システ
ムの建設」を読込み、バッファAに格納する( 1−0
3 )。もし対象となるデータが漢字仮名混シデータ格
納メモリ2にないと、後方一致キーワード抽出処理メイ
ンモジュールのMWを終了する。読込まれたデータの文
字数をカウントシ、バッファLAに格納する(104)
。例では、16を格納される。バッファKEYWKOe
格納する(105)。抽出処理モジュールを参照してキ
ーワードの抽出を行う(106)。キーワードがあれば
バッファBにキーワードが格納され、バッファKEYW
にOが格納される。キーワードがなければバッファKE
YWに1が格納される。
例では、バッファBに「情報検索システム」が格納され
、バッファKEYWに0が格納される。バッファKEY
Wが1ならば(107)、102以降の処理を繰返し、
■でなければ、バッファB内のキーワードを、抽出キー
ワード格納メモリに書込む(ios)。バッファAに、
キーワード抽出の対象となる文字列が残っていれば、1
04以降の処理を繰返し、残っていなければ、103以
降の処理を繰返す(109)。
、バッファKEYWに0が格納される。バッファKEY
Wが1ならば(107)、102以降の処理を繰返し、
■でなければ、バッファB内のキーワードを、抽出キー
ワード格納メモリに書込む(ios)。バッファAに、
キーワード抽出の対象となる文字列が残っていれば、1
04以降の処理を繰返し、残っていなければ、103以
降の処理を繰返す(109)。
例では、「の建設」という文字列について、104以降
の処理が行われる。
の処理が行われる。
次に、抽出処理モジュール200の処理内容について、
第7図のフローチャートを使用して説明する。
第7図のフローチャートを使用して説明する。
抽出処理モジュールは、起動されると、バッファLに1
を格納する(201)。バッファLの値と、抽出対象文
字列の文字数を示すバッファLAの値を比較しく202
)、Lが小さければ、203以降の処理を行い、等しい
か太きければ、バッファKEYWに1を格納しく216
)、抽出処理モジュールの処理を終了する。
を格納する(201)。バッファLの値と、抽出対象文
字列の文字数を示すバッファLAの値を比較しく202
)、Lが小さければ、203以降の処理を行い、等しい
か太きければ、バッファKEYWに1を格納しく216
)、抽出処理モジュールの処理を終了する。
203では、バッファ人中の漢字仮名混シデータの先頭
からL文字目以降の文字列について、漢字1片仮名、平
板名、数字、英字1句読点などの字種の変化点をめ、バ
ッファAの先頭から変化点までの文字数をバッファMに
格納する。変化点がなければ、バッファ人中の全文字数
をMに格納する。バッファ人中の変化点よシ前方部分の
文字列をバッファCに格納する。例では、漢字から片仮
名への変化点を認定し、バッファMに9が格納されると
共に、バッファCに「技術資料情報検索等」が格納され
る。
からL文字目以降の文字列について、漢字1片仮名、平
板名、数字、英字1句読点などの字種の変化点をめ、バ
ッファAの先頭から変化点までの文字数をバッファMに
格納する。変化点がなければ、バッファ人中の全文字数
をMに格納する。バッファ人中の変化点よシ前方部分の
文字列をバッファCに格納する。例では、漢字から片仮
名への変化点を認定し、バッファMに9が格納されると
共に、バッファCに「技術資料情報検索等」が格納され
る。
次に、バッファCの文字列を逆順に並べ換えてバッファ
Dに格納する(204)。例では、バッファDに「等索
検報情料資術技」が格納される。
Dに格納する(204)。例では、バッファDに「等索
検報情料資術技」が格納される。
次に、バッファF1に、0を格納する(205)。
キーワード比較処理モジュールを参照しで、バッファD
の文字列をキーとし、キーワード辞書を調べ、キーワー
ドがあれば、キーワード文字列をバッファBに格納する
とともに、バッファF1に1を格納し、キーワードがな
ければ、バッファF1に0を格納する(206)。例で
は、バッファF1にOが格納される。
の文字列をキーとし、キーワード辞書を調べ、キーワー
ドがあれば、キーワード文字列をバッファBに格納する
とともに、バッファF1に1を格納し、キーワードがな
ければ、バッファF1に0を格納する(206)。例で
は、バッファF1にOが格納される。
バッファF1が1ならば、215以降の処理を行い、1
でなければ、208以降の処理を行う(207)。20
8では、バッファF2に0を格納する。次に、接辞処理
モジュールを参照して、バッファDの先頭が接辞ならば
、バッファAおよびD中の接辞を削除するとともに、バ
ッファF2に1を格納し、接辞でなければ、バッファF
2に0を格納する(209)。例では、「等」が接辞と
認定され、バッファAに、「技術資料情報検索システム
の建設」が格納され、バッファDに、「索検報情料資術
技」が格納され、バッファF2に1が格納される。
でなければ、208以降の処理を行う(207)。20
8では、バッファF2に0を格納する。次に、接辞処理
モジュールを参照して、バッファDの先頭が接辞ならば
、バッファAおよびD中の接辞を削除するとともに、バ
ッファF2に1を格納し、接辞でなければ、バッファF
2に0を格納する(209)。例では、「等」が接辞と
認定され、バッファAに、「技術資料情報検索システム
の建設」が格納され、バッファDに、「索検報情料資術
技」が格納され、バッファF2に1が格納される。
バッファF2が0かを判定しく210)、0ならば、2
14以降の処理を行い、0でなければ211以降の処理
を行う。211では、バッファF1にOを格納する。次
に、キーワード比較処理モジュールを参照する(212
)。例では、バッファBに「情報検索システム」が格納
されるとともに、バッファF1に1が格納される。
14以降の処理を行い、0でなければ211以降の処理
を行う。211では、バッファF1にOを格納する。次
に、キーワード比較処理モジュールを参照する(212
)。例では、バッファBに「情報検索システム」が格納
されるとともに、バッファF1に1が格納される。
バッファF1が1かを判定しく213)、”ならば、バ
ッファAの(M+1 +LD−LB )文字目以降の文
字列をバッファAの先頭から格納(215)後、抽出処
理モジュールの処理を終了する。バッファFlが1でな
ければ、バッファLに、M+1を格納しく214)、2
02以降の処理を繰返す。
ッファAの(M+1 +LD−LB )文字目以降の文
字列をバッファAの先頭から格納(215)後、抽出処
理モジュールの処理を終了する。バッファFlが1でな
ければ、バッファLに、M+1を格納しく214)、2
02以降の処理を繰返す。
例ヤは、バッファAに1の建設」が格納されて当処理モ
ジュールの処理を終了する。
ジュールの処理を終了する。
次に、キーワード比較処理モジュール300の処理内容
について、第8図のノロ−チャートに基づき説明する。
について、第8図のノロ−チャートに基づき説明する。
例として、バッファDには「索検報情料資術技」が格納
されておシ、キーワード辞書には、キーワードとして「
日本語情報検索」。
されておシ、キーワード辞書には、キーワードとして「
日本語情報検索」。
「情報検索システム」が登録されているものとする。
キーワード比較処理モジュールは、起動されると、バッ
ファNUMKOを格納する( 301 )t。
ファNUMKOを格納する( 301 )t。
キーワード辞書の見出し語の中で、バッファDの先頭か
らの文字列と一致するものの見出し語をバッファMDに
、キーワード文字列をバッファKWに、キーワードの個
数をバッフ7NUMK格納する(302)。例では、バ
ッファMDには、「索検報情語本日」と「索検報情」と
が格納され、バッファKWには、「日本語情報検索」と
「情報検索システム」とが格納され、バッファNUMに
は、2が格納される。
らの文字列と一致するものの見出し語をバッファMDに
、キーワード文字列をバッファKWに、キーワードの個
数をバッフ7NUMK格納する(302)。例では、バ
ッファMDには、「索検報情語本日」と「索検報情」と
が格納され、バッファKWには、「日本語情報検索」と
「情報検索システム」とが格納され、バッファNUMに
は、2が格納される。
次に、キーワード数NUMがOかを判定し1.0ならば
キーワード比較処理モジュールの処理を終了し、0でな
ければ、3o4以降の処理を行う(304)。
キーワード比較処理モジュールの処理を終了し、0でな
ければ、3o4以降の処理を行う(304)。
304では、バッファKW中のキーワード文字列のうち
、文字数の最も多いものをバッファBに格納する。同文
字数のキーワードが2個以上ある場合、最初にあったも
のを選ぶ。例では、バッファBに「情報検索システム」
が格納される。
、文字数の最も多いものをバッファBに格納する。同文
字数のキーワードが2個以上ある場合、最初にあったも
のを選ぶ。例では、バッファBに「情報検索システム」
が格納される。
次に、バッファBのキーワードの見出し語の文字数ヲバ
ッファLDに、キーワードの文字数をLBK格納する(
305)。例では、バッファLDK4が、バッファLB
に8が格納される。
ッファLDに、キーワードの文字数をLBK格納する(
305)。例では、バッファLDK4が、バッファLB
に8が格納される。
次に1バツフアBの文字列が、バッファAの(M+1−
LD)文字目以降、LB大文字文字列と一致するかを調
べる(306)。一致すれば、310以降の処理を行い
、一致しなければ、308以降の処理を行う(307)
。
LD)文字目以降、LB大文字文字列と一致するかを調
べる(306)。一致すれば、310以降の処理を行い
、一致しなければ、308以降の処理を行う(307)
。
308では、バッファKWから、バッファBの文字列を
削除する。バッファNUMの値を1減らした(309)
後、303以降の処理を繰返す。
削除する。バッファNUMの値を1減らした(309)
後、303以降の処理を繰返す。
310では、バッファTYPEの値が1かを判定し、一
致すれば、312以降の処理ない、一致しなければ、バ
ッファAの(M+1−LD )文字目よシも先頭に近い
所で、(M+ 1−1.I) )文字目の字種と変化し
ていれば変化点以降、(M−LD十LB )文字目まで
の文字列1字種が変化していなければ、バッファAの先
頭から、(M、 −i、 I) +LB)文字目までの
文字列をバッファBに格納する(311)。例では、T
Y P E = 1ならば、バッファBに、「情報検
索システム」が格納され、TYPE41ならば、バッフ
ァBに、1−技術資料情報検索システム」が格納さiす
る。
致すれば、312以降の処理ない、一致しなければ、バ
ッファAの(M+1−LD )文字目よシも先頭に近い
所で、(M+ 1−1.I) )文字目の字種と変化し
ていれば変化点以降、(M−LD十LB )文字目まで
の文字列1字種が変化していなければ、バッファAの先
頭から、(M、 −i、 I) +LB)文字目までの
文字列をバッファBに格納する(311)。例では、T
Y P E = 1ならば、バッファBに、「情報検
索システム」が格納され、TYPE41ならば、バッフ
ァBに、1−技術資料情報検索システム」が格納さiす
る。
次に、バッファF1に、1を格納しく312)、キーワ
ード比較処理モジュールの処理を終了する。
ード比較処理モジュールの処理を終了する。
次に、接辞処理モジュール400の処理内容について、
第9図のフローチャートに基づき説明する。例として、
バッファAには、「技術資料情報検索等システムの建設
」、バッファDには「等索検報情料資術技」が格納され
ており、接辞テーブルには、接辞として1等」が登録込
れているものとする。
第9図のフローチャートに基づき説明する。例として、
バッファAには、「技術資料情報検索等システムの建設
」、バッファDには「等索検報情料資術技」が格納され
ており、接辞テーブルには、接辞として1等」が登録込
れているものとする。
接辞処理モジュールは、起動されると、バッファDの先
頭からの文字列が、接辞テーブルに登録されているかを
調べる(401)。登録されているかを判定し、登録さ
れていなければ、接辞処理モジュールの処理を終了し、
登録されていれば、403以降の処理を行う(402)
。403では、バッファDから、接辞文字列を削除する
とともに、バッファD中の文字列の文字数が格納されて
いるバッファLDから、接辞文字列の文字数を引き算す
る(403)。例では、接辞「等」が、接辞テーブルに
登録されていることから、バッファD中の「等」が削除
され、「索検報情料資術技」が格納されるとともに、L
Dは、l引かれて、8が格納される。
頭からの文字列が、接辞テーブルに登録されているかを
調べる(401)。登録されているかを判定し、登録さ
れていなければ、接辞処理モジュールの処理を終了し、
登録されていれば、403以降の処理を行う(402)
。403では、バッファDから、接辞文字列を削除する
とともに、バッファD中の文字列の文字数が格納されて
いるバッファLDから、接辞文字列の文字数を引き算す
る(403)。例では、接辞「等」が、接辞テーブルに
登録されていることから、バッファD中の「等」が削除
され、「索検報情料資術技」が格納されるとともに、L
Dは、l引かれて、8が格納される。
次に、バッファ八から、接辞文字列を削除するとともに
、バツンアA甲の文字列の文字数が格納され−Cいるバ
ッファLAi>ら、接辞文字列の文字数を引き昇する(
404)。例では、バッファA中の「等」が削除され、
[技術資料゛11り報俣索システムの建設」が格納され
るとともに、バッファLAに15が格納される。
、バツンアA甲の文字列の文字数が格納され−Cいるバ
ッファLAi>ら、接辞文字列の文字数を引き昇する(
404)。例では、バッファA中の「等」が削除され、
[技術資料゛11り報俣索システムの建設」が格納され
るとともに、バッファLAに15が格納される。
仄に、バッファF2に、1を格納しく405)、接辞処
理モジュールの処理を終了する。
理モジュールの処理を終了する。
複数イ重字椋混シ文特に漢字匝名混シ又中の熟語の語構
成は、その後部に基本的な概念を・示す画集があり、前
部にそれを修飾する1葉があることが多い。
成は、その後部に基本的な概念を・示す画集があり、前
部にそれを修飾する1葉があることが多い。
本発明によれば、演字仮名混p文?i/J・らのキーワ
ード自動抽出方式とし−c1文中の熟ttnの語部にあ
るキーシード辞書に登録さJl−でいる言葉を抽出する
ことができるので、熟語中の基本的な概念を示す用語の
抽出の際の高効率化の効果がある。
ード自動抽出方式とし−c1文中の熟ttnの語部にあ
るキーシード辞書に登録さJl−でいる言葉を抽出する
ことができるので、熟語中の基本的な概念を示す用語の
抽出の際の高効率化の効果がある。
第1図は、本発明の一実施例のハードウェア構成図、第
2図は、本発明キーワード辞書のキーワード毎の論理的
構成図、第3図は、本発明接辞テーブルの接辞毎の論、
埋的構成図、第4図は、本発明パラメータの論理的構成
図、第5図は、本発明実施例のソフトウェア・モ゛ジュ
ール構成を例示するブロック図、第6図は、本発明後方
一致ギーワード抽出メイン・モジュールの処理手順を示
すフロー図、第7図は、本発明抽出処理モジュールの処
理手順を示すフロー図、第8図は、本発明キーワード比
較処理モジ−!−ルの処理手順を示すフロー図、第9図
は、接辞処理モジュールの処理手順を示すフロー図、第
10図は、本発明のバッファA−Nの構成を例示した説
明図、第11図囚は、本発明バッファSE’[’、5U
JIの構成を例示した説明図、第11図(ロ)は、本発
明バッファ゛F y 1) zの構成を例示した説明図
である。 1・・・プロセッサ、2・・・へ牢仮名混りf−夕格納
メモリ、3・・・抽出キーワード格納メモリ、4・・・
プログラム格納メモリ、5・・・バッファメモリ、6・
・・キーワード辞書メモリ、7・・・接辞テーブルメモ
リ、第1図 第2図 γ 3 凹 冗 4 図 第 5 図 コθ〃 YJ 6 図 循 7 図 ′fJ’3 図 ′第 q 図
2図は、本発明キーワード辞書のキーワード毎の論理的
構成図、第3図は、本発明接辞テーブルの接辞毎の論、
埋的構成図、第4図は、本発明パラメータの論理的構成
図、第5図は、本発明実施例のソフトウェア・モ゛ジュ
ール構成を例示するブロック図、第6図は、本発明後方
一致ギーワード抽出メイン・モジュールの処理手順を示
すフロー図、第7図は、本発明抽出処理モジュールの処
理手順を示すフロー図、第8図は、本発明キーワード比
較処理モジ−!−ルの処理手順を示すフロー図、第9図
は、接辞処理モジュールの処理手順を示すフロー図、第
10図は、本発明のバッファA−Nの構成を例示した説
明図、第11図囚は、本発明バッファSE’[’、5U
JIの構成を例示した説明図、第11図(ロ)は、本発
明バッファ゛F y 1) zの構成を例示した説明図
である。 1・・・プロセッサ、2・・・へ牢仮名混りf−夕格納
メモリ、3・・・抽出キーワード格納メモリ、4・・・
プログラム格納メモリ、5・・・バッファメモリ、6・
・・キーワード辞書メモリ、7・・・接辞テーブルメモ
リ、第1図 第2図 γ 3 凹 冗 4 図 第 5 図 コθ〃 YJ 6 図 循 7 図 ′fJ’3 図 ′第 q 図
Claims (1)
- 【特許請求の範囲】 1、複数種の文字混p文から、キーワードを自動抽出す
る方式において、 キーワードとなる1葉を登録したキーソード辞書を格納
するメモリ領域を有し、 上記複数種文字混p文の字種の変化点よシ前方部分が、
キーワード辞書の見出し藺と一致しているとき、キーワ
ード候補として取出す段階と、 キーワード辞書に、キーワード候補に続く特定の文字列
が指定されている場合には、上記複数種文字混り文を調
べ、該当すれば、キーワードとして取出し、該当しなけ
れば、キーワードとせず、特定の文字列が指定されてい
ない場合には、キーワード候補をキーワードとする段階
とを有することを特徴とするキーワード自動抽出方式。 2、特許請求の範囲第1項において、キーソード辞書と
して、 キーワード文字列が、1種類の字種の場合には、全文字
を逆順に並べた文字列を有し、2種類以上の字種で構成
されている場合には、キーワード文字列先頭から、最初
の字種の変化点よシ前方部分のみを逆順に並べた文字列
を見出し語として有することを特徴とするキーワード自
動抽出方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58141038A JPH067385B2 (ja) | 1983-08-03 | 1983-08-03 | キ−ワ−ド自動抽出方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58141038A JPH067385B2 (ja) | 1983-08-03 | 1983-08-03 | キ−ワ−ド自動抽出方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6033665A true JPS6033665A (ja) | 1985-02-21 |
JPH067385B2 JPH067385B2 (ja) | 1994-01-26 |
Family
ID=15282786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58141038A Expired - Lifetime JPH067385B2 (ja) | 1983-08-03 | 1983-08-03 | キ−ワ−ド自動抽出方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH067385B2 (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61199165A (ja) * | 1985-02-28 | 1986-09-03 | Nippon Shakai Iryo Kenkyusho:Kk | 治験例記憶方法 |
JPS61243531A (ja) * | 1985-04-22 | 1986-10-29 | Nec Corp | 情報検索方式 |
JPS63773A (ja) * | 1986-06-20 | 1988-01-05 | Sanyo Electric Co Ltd | 情報フアイル装置 |
JPS6326999A (ja) * | 1986-07-18 | 1988-02-04 | 柏木パイル織物株式会社 | 帯電除去具 |
JPS6327000A (ja) * | 1986-07-18 | 1988-02-04 | 柏木パイル織物株式会社 | 帯電除去具の製造方法 |
JPS63133228A (ja) * | 1986-11-26 | 1988-06-06 | Matsushita Electric Ind Co Ltd | 情報抽出装置 |
JPH02234982A (ja) * | 1988-11-14 | 1990-09-18 | Milliken Res Corp | 改善された静電気特性を有するカーペット複合体 |
JPH03105000U (ja) * | 1990-02-14 | 1991-10-30 | ||
JPH05266079A (ja) * | 1991-07-23 | 1993-10-15 | Oce Nederland Bv | 複合のターゲット語に関するデータを決定するための装置及び方法 |
JPH0895982A (ja) * | 1994-09-29 | 1996-04-12 | Ricoh Co Ltd | キーワード抽出装置 |
JP2010528351A (ja) * | 2007-05-18 | 2010-08-19 | エヌエイチエヌ コーポレーション | 共通接辞を用いたキーワード順位を提供する方法およびシステム |
-
1983
- 1983-08-03 JP JP58141038A patent/JPH067385B2/ja not_active Expired - Lifetime
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61199165A (ja) * | 1985-02-28 | 1986-09-03 | Nippon Shakai Iryo Kenkyusho:Kk | 治験例記憶方法 |
JPS61243531A (ja) * | 1985-04-22 | 1986-10-29 | Nec Corp | 情報検索方式 |
JPS63773A (ja) * | 1986-06-20 | 1988-01-05 | Sanyo Electric Co Ltd | 情報フアイル装置 |
JPH069055B2 (ja) * | 1986-06-20 | 1994-02-02 | 三洋電機株式会社 | 情報フアイル装置 |
JPS6326999A (ja) * | 1986-07-18 | 1988-02-04 | 柏木パイル織物株式会社 | 帯電除去具 |
JPS6327000A (ja) * | 1986-07-18 | 1988-02-04 | 柏木パイル織物株式会社 | 帯電除去具の製造方法 |
JPS63133228A (ja) * | 1986-11-26 | 1988-06-06 | Matsushita Electric Ind Co Ltd | 情報抽出装置 |
JPH02234982A (ja) * | 1988-11-14 | 1990-09-18 | Milliken Res Corp | 改善された静電気特性を有するカーペット複合体 |
JPH03105000U (ja) * | 1990-02-14 | 1991-10-30 | ||
JPH05266079A (ja) * | 1991-07-23 | 1993-10-15 | Oce Nederland Bv | 複合のターゲット語に関するデータを決定するための装置及び方法 |
JPH0895982A (ja) * | 1994-09-29 | 1996-04-12 | Ricoh Co Ltd | キーワード抽出装置 |
JP2010528351A (ja) * | 2007-05-18 | 2010-08-19 | エヌエイチエヌ コーポレーション | 共通接辞を用いたキーワード順位を提供する方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
JPH067385B2 (ja) | 1994-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
EP0155284B1 (en) | Indexing subject-locating method | |
JPH0724055B2 (ja) | 単語分割処理方法 | |
EP0971294A2 (en) | Method and apparatus for automated search and retrieval processing | |
JPH02271468A (ja) | データ処理方法 | |
JPS6033665A (ja) | キ−ワ−ド自動抽出方式 | |
JP3022539B1 (ja) | 文書検索装置 | |
JPS61248160A (ja) | 文書情報登録方式 | |
CN110347804A (zh) | 一种线性时间复杂度的敏感信息检测方法 | |
JPH0345421B2 (ja) | ||
JPH07111717B2 (ja) | キ−ワ−ド自動抽出装置 | |
JP2590141B2 (ja) | 連語抽出処理方法 | |
JPH0612451A (ja) | 例文検索システム | |
JPH0668159A (ja) | 検索装置 | |
JP3109187B2 (ja) | 形態素解析方式 | |
JP2897942B2 (ja) | 日本語形態素解析システム及び形態素解析方式 | |
JPS6389976A (ja) | 言語解析装置 | |
JPS6132167A (ja) | カナ漢字変換処理装置 | |
JPH0695330B2 (ja) | 文書作成装置 | |
JPH0514303B2 (ja) | ||
JPH09190448A (ja) | 文字列検索装置およびその検索方法 | |
JPH0567147A (ja) | 文書検索装置 | |
JPH07129576A (ja) | 文書処理装置及びその単語辞書 | |
JPH11272661A (ja) | 日本語辞書自動登録システム及び方法 | |
JPH0371369A (ja) | 英単語検索装置 |