JP4711556B2 - Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program - Google Patents
Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program Download PDFInfo
- Publication number
- JP4711556B2 JP4711556B2 JP2001225609A JP2001225609A JP4711556B2 JP 4711556 B2 JP4711556 B2 JP 4711556B2 JP 2001225609 A JP2001225609 A JP 2001225609A JP 2001225609 A JP2001225609 A JP 2001225609A JP 4711556 B2 JP4711556 B2 JP 4711556B2
- Authority
- JP
- Japan
- Prior art keywords
- classification
- item
- keyword
- sentence
- automatic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は文章自動分類プログラム、文章自動分類プログラムを記録したコンピュータ読取可能な記録媒体、文章自動分類方法及び文章自動分類装置に関し、特に、文章に含まれるキーワードを抽出し、抽出したキーワードの分類項目毎の出現頻度を集計し、予め分類項目毎に設定された係数を乗じる重み付けを行うことにより、該当する分類項目を算出して自動分類を行う技術に関する。更には、文章の付属情報をも算出し細分類が可能な技術に関する。
【0002】
【従来の技術】
従来の文章自動分類プログラム、文章自動分類プログラムを記録したコンピュータ読取可能な記録媒体、文章自動分類方法及び文章自動分類装置に関する技術としては、分類するカテゴリを特徴付ける特徴パターンを利用して分類するもの(特開2000−222431)、文章に付与されたキーワードの頻度を自動計算すると共にキーワード間の関連付けを行い、頻度が大きいキーワードに上位ディレクトリを付与し、このキーワードに関連するキーワードを下位ディレクトリとして作成しキーワードのツリー構造を得て、夫々の文章をディレクトリのツリー構造によって分類する技術(特開2000−231560)が提案されている。
【0003】
更に、コーパスを用いて文章の意味属性が付与され既分類の文章の意味属性との類似度により文書を分類する技術(特開2000−339310)、分類する文章及び属性情報を入力し、文章からキーワードを抽出し、分類グループ毎にキーワードと属性情報の組合せからなる分類ルールとキーワード又は属性情報の類似度を算出して最も類似する分類ルールに対応するグループに分類する技術(特開2001−60199)、1以上の予め登録されたキーワードが記事中に含まれているかを照合し、キーワードを含む記事を当該キーワード単位に設けられた所定の格納領域に保存する技術(特開2001−109772)等がある。
【0004】
しかし、これらの従来例では分類するグループを限定すれば分類不可能の文章が増え、反対にすべての文章を分類しようとした場合には分類グループが極めて多くなってしまうという欠点や限定されたツリー構造により分類するので、一の文章が多数の分類グループに分類されるという欠点があった。又、分類を繰り返すうちに対比するパターン、キーワード或いは文章が増加し、分類処理に時間がかかるという欠点もあった。
【0005】
又、キーワードの出現頻度或いは出現の有無のみをそのまま分類に反映させているため夫々のキーワードの分類グループに対する重要性が考慮されなかったり、キーワードを補完する場合には一定のキーワードが過度に重要視されてしまい、精度の高い分類を行うことができないという欠点があった。
【0006】
更に、従来の技術では分類のグループからは分類された文章の主題、関連分野、大まかな内容、関連する国、地域、企業等を把握することは困難であり、分類後の文章の活用が円滑に行えないという欠点もあった。又、分類された文書を分類毎に格納された場所から取り出した場合には、すなわち文書を見ただけではその文書がどのような分類に属しているかを把握することができないという欠点があった。
【0007】
【発明が解決しようとする課題】
そこで、本発明は文章を極めて速やかに且つ高精度に自動に分類することが可能で、更には総ての文章を予め定められた分類グループに分類可能で、分類後のグループによって、当該文章の主題、関連分野、大まかな内容、関連する国、地域、企業等の把握が容易であり、更には当該分類後の文章を分類毎に蓄積、送信可能であって、利用者も文章を解読することなく主題等を把握可能な分類後の文章の活用が円滑に行え、更には簡易な構成のコンピュータ端末を利用しても上述の効果を得られる文章自動分類装置、文章自動分類プログラム、文章自動分類プログラムを記録したコンピュータ読取可能な記録媒体及び文章自動分類方法を提供することを目的とする。
【0008】
【課題を解決するための手段】
上記課題を解決するための手段として第一に本発明の文章自動分類装置は分類項目と分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブルを格納した格納手段と、文章を入力する入力手段と、文章を解析し、単語を抽出するテキスト解析手段と、抽出した単語を格納手段に格納された分類項目キーワードテーブルのキーワード群と比較照合するキーワード走査手段と、比較照合した結果に重み付をして文章が該当する分類項目を算出する比較演算手段を有することを特徴とする文章自動分類装置である。
【0009】
第二に分類項目と分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブルを格納した格納手段と、文章を入力する入力手段と、文章を解析し、単語を抽出するテキスト解析手段と、抽出した単語を格納手段に格納された分類項目キーワードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を分類項目ごとに集計するキーワード走査手段と、集計結果に重み付をして文章が該当する分類項目を算出する比較演算手段とを有することを特徴とする文章自動分類装置である。
【0010】
第三に格納手段は分類項目毎に係数を設定した分類項目係数テーブルを格納し、比較演算手段は一致したキーワードに対応する分類項目を検索し、分類項目毎のキーワード出現頻度に分類項目毎に設定された係数を乗じて重み付をし、該係数で修正した出現頻度で分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出することを特徴とする文章自動分類装置である。
【0011】
第四に少なくても大小の二階層からなる分類項目と小分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブルと属性情報毎の大分類項目毎に係数を設定した分類項目係数テーブルを格納した格納手段と、属性情報を有する文章を入力する入力手段と、入力された文章を解析し、属性情報を抽出すると共に属性情報以外の部分から単語を抽出するテキスト解析手段と、抽出した単語を格納手段に格納された分類項目キーワードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査手段と、キーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出する比較演算手段とを有することを特徴とする文章自動分類装置である。
【0012】
第五に少なくても大小の二階層からなる分類項目と小分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブルと属性情報毎の大分類項目毎に係数を設定した分類項目係数テーブルと分類項目との特定の関係付けを指定するキーワードを分類項目毎に記述した特定分類項目キーワードテーブルを格納した格納手段と、属性情報及び見出し情報を有する文章を入力する入力手段と、入力された文章を解析し、属性情報を抽出すると共に属性情報以外の部分から単語を抽出するテキスト解析手段と、抽出した単語を格納手段に格納された分類項目キーワードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計すると共に、見出し情報から抽出した単語を格納手段に格納された特定分類項目キーワードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードを検索するキーワード走査手段と、キーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出すると共に、見出し情報から抽出した単語と一致するキーワードに対応する小分類項目を算出する比較演算手段とを有することを特徴とする文章自動分類装置である。
【0013】
上記第一から第五の構成によれば文章を極めて速やかに且つ高精度に自動に分類することが可能で、更には総ての文章を予め定められた分類グループに分類可能で、分類後のグループによって、当該文章の主題、大まかな内容の把握が容易となる。
【0014】
第六に格納手段にはコード項目とコード項目に関連付けられたキーワードを記述した少なくても一以上のコードテーブルが格納され、キーワード走査手段は抽出した単語を少なくても一以上のコードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度をコード項目毎に集計し、比較演算手段は一致したキーワードに対応するコード項目を検索し、コード項目毎のキーワード出現頻度でコード項目をソートし、文章が該当するコード項目を算出することを特徴とする文章自動分類装置である。
【0015】
第七にコードテーブルは都道府県市町村名をキーワードとする都道府県市町村コードテーブル、国名をキーワードとする国名コードテーブル、企業名をキーワードとする企業コードテーブルの内少なくても1つ以上を含むことを特徴とする文章自動分類装置である。
【0016】
上記第六及び第七の構成によれば分類後のグループによって、関連分野、関連する国、地域、企業等の把握が容易となる。
【0017】
第八に上記文書自動分類装置は、更に前記比較演算手段により算出された分類の結果の項目を出力する出力手段を有することを特徴とする文書自動分類装置である。
【0018】
第九に上記文書自動分類装置は、更に算出された分類の結果の項目を文章に追記する変換結果格納手段を有することを特徴とする文書自動分類装置である。
【0019】
上記構成によれば利用者も文章を解読することなく主題、関連分野、大まかな内容、関連する国、地域、企業等を把握可能で分類後の文章の活用が円滑に行える。
【0020】
第十に上記文書自動分類装置は、更に分類した文章を分類の結果の項目毎に蓄積する蓄積手段又は/及び配信する配信手段を有することを特徴とする文章自動分類装置である。
【0021】
上記構成によれば分類後の文章を分類毎に自動に蓄積、送信可能となり、蓄積、送信を人が行うことがなくなるので蓄積場所、送信先に誤りがなくなる。
【0022】
第十一に上記文書自動分類装置は、更に一定期間の分類の結果を項目毎に集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類項目毎の文章分布の統計処理を行う分類結果統計手段と、該統計結果を出力する出力手段を有することを特徴とする文章自動分類装置である。
【0023】
第十二に上記文書自動分類装置は、更に格納手段に格納されたテーブルを出力する出力手段と、テーブルの内容を変更、追加、削除してテーブルを再構成する入力手段と、再構成されたテーブルを格納する格納手段を有することを特徴とする文章自動分類装置である。
【0024】
上記構成によれば分類に使用するテーブルを適宜に再構成できるので、文章を極めて高精度に自動に分類することが可能で、分類後のグループによって、当該文章の主題、関連分野、大まかな内容、関連する国、地域、企業等の把握が容易となる。
【0025】
第十三にネットワークを介して接続されている編集端末及びサーバーシステムから構成される文章自動分類装置であって、編集端末は文章を入力する入力手段と、入力した文章及び分類処理要求をサーバーシステムに送信する出力手段と、サーバーシステムからの分類処理結果を受信する入力手段とを有し、サーバーシステムは分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブルを格納した格納手段と、編集端末からの文章及び分類処理要求を受信する入力手段と、編集端末からの分類処理要求にしたがって該文章を単語に分解、抽出するテキスト解析手段と、抽出された単語を格納手段に格納されたキーワード群と比較照合するキーワード走査手段と、比較した結果に重み付をして該当する分類項目を見出す比較演算手段と、分類処理結果を編集端末に送信する出力手段を有することを特徴とする文章自動分類装置である。
【0026】
上記方法によればネットワークに接続された簡易な構成の端末を利用して文章自動分類を行うことが可能となり、又、キーワード群の再構成等の保守が一度ですむ。
【0027】
第十四に文章を解析し、単語を抽出するテキスト解析処理と、抽出した単語をキーワードを分類項目に関連付けて記述したキーワード群と比較照合するキーワード走査処理と、比較照合した結果に重み付をして文章が該当する分類項目を算出する比較演算処理とをコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0028】
第十五に文章を解析し、単語を抽出するテキスト解析処理と、抽出した単語をキーワードを分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を分類項目毎に集計するキーワード走査処理と、集計した結果に重み付をして文章が該当する分類項目を算出して分類する比較演算処理とをコンピュータに実行させることを特徴とする文章自動分類プログラムプログラムである。
【0029】
第十六に比較演算処理は一致したキーワードに対応する分類項目を検索し、分類項目毎のキーワード出現頻度に分類項目毎に設定された係数を乗じて重み付をし、該係数で修正した出現頻度で分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出する処理であることを特徴とする文章自動分類プログラムである。
【0030】
第十七に属性情報を有する文章を自動分類する処理をコンピュータに実行させるプログラムであって、属性情報を有する文章を解析し、属性情報を抽出すると共に、属性情報以外の部分から単語を抽出するテキスト解析処理と、抽出した単語を少なくても大小分類項目の二階層からなり、キーワードを小分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査処理と、一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出する比較演算処理とをコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0031】
第十八に属性情報及び見出し情報を有する文章を自動分類する処理をコンピュータに実行させるプログラムであって、属性情報及び見出し情報を有する文章を解析し、属性情報を抽出すると共に、属性情報以外の部分から単語を抽出するテキスト解析処理と、抽出した単語をキーワードを小分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査処理と、一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出すると共に見出し情報から抽出した単語と一致するキーワードの属する分類項目を検索して文章が該当する分類項目を算出する比較演算処理とをコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0032】
上記第十四から第十八の手段によれば文章を極めて速やかに且つ高精度に自動に分類することが可能で、更には総ての文章を予め定められた分類グループに分類可能で、分類後のグループによって、当該文章の主題、大まかな内容の把握が容易となる。
【0033】
第十九にキーワード走査処理は抽出した単語をキーワードをコード項目に関連付けて記述した少なくても一以上のキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度をコード項目毎に集計する処理を含み、比較演算処理は一致したキーワードに対応するコード項目を検索し、コード項目毎のキーワード出現頻度でコード項目をソートし、文章が該当するコード項目を算出する処理を含むことを特徴とする文章自動分類プログラムである。
【0034】
第二十にキーワードをコード項目に関連付けて記述したキーワード群は都道府県市町村名をキーワードとする都道府県市町村キーワード群、国名をキーワードとする国名キーワード群、企業名をキーワードとする企業キーワード群の内少なくても1つ以上を含むことを特徴とする文章自動分類プログラムである。
【0035】
上記第十九及び第二十の手段によれば分類後のグループによって、関連分野、関連する国、地域、企業等の把握が容易となる。
【0036】
第二十一に上記文書自動分類プログラムは、更に前記比較演算処理により算出された分類の結果の項目を出力する出力処理とを含み、これらの処理をコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0037】
第二十二に上記文書自動分類プログラムは、更に算出された分類の結果の項目を文章に追記する変換結果格納処理とを含み、これらの処理をコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0038】
上記手段によれば利用者も文章を解読することなく主題、関連分野、大まかな内容、関連する国、地域、企業等を把握可能で分類後の文章の活用が円滑に行える。
【0039】
第二十三に上記文書自動分類プログラムは、更に分類した文章を分類の結果の項目毎に蓄積又は/及び配信する処理とを含み、これらの処理をコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0040】
上記手段によれば分類後の文章を分類毎に自動に蓄積、送信可能となり、蓄積、送信を人が行うことがなくなるので蓄積場所、送信先に誤りがなくなる。
【0041】
第二十四に上記文書自動分類プログラムは、更に一定期間の分類の結果を項目毎に集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類結果の項目毎の文章分布の統計処理を行う分類結果統計処理と、該統計結果を出力する処理を含み、これらの処理をコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0042】
第二十五にキーワード群を出力する処理と、該キーワード群を変更、追加、削除してキーワード群を再構成する処理と再構成したキーワード群を格納する処理を含むことを特徴とする文章自動分類プログラムである。
【0043】
上記手段によれば分類に使用するテーブルを適宜に再構成できるので、文章を極めて高精度に自動に分類することが可能で、分類後のグループによって、当該文章の主題、関連分野、大まかな内容、関連する国、地域、企業等の把握が容易となる。
【0044】
第二十六に本発明の文章自動分類プログラムを記録したコンピュータ読取り可能な記録媒体は上記第十四から第二十五の手段の文章自動分類プログラムを記録したコンピュータ読取り可能な記録媒体である。
【0045】
第二十七に文章を入力するステップと、該文章を解析し、単語を抽出するステップと、抽出した単語をキーワードを分類項目に関連付けて記述したキーワード群と比較照合するステップと、比較照合した結果に重み付をして文章が該当する分類項目を見出すステップとを有することを特徴とする文章自動分類方法である。
【0046】
第二十八に文章を解析し、単語を抽出するテキスト解析ステップと、抽出した単語をキーワードを分類項目に関連付けて記述したキーワード群と比較照合し抽出した単語と一致するキーワードの出現頻度を分類項目毎に集計するキーワード走査ステップと、集計した結果に重み付をして文章が該当する分類項目を見出す比較演算ステップとを有することを特徴とする文章自動分類方法である。
【0047】
第二十九に比較演算ステップは一致したキーワードに対応する分類項目を検索するステップと、分類項目毎のキーワード出現頻度に分類項目毎に設定された係数を乗じに重み付をするステップと、該係数で修正した出現頻度で分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出するステップを有することを特徴とする文章自動分類方法である。
【0048】
第三十に属性情報を有する文章を自動分類する方法であって、属性情報を有する文章を解析し、属性情報を抽出すると共に、属性情報以外の部分から単語を抽出するテキスト解析ステップと、抽出した単語を少なくても大小分類項目の二階層からなり、キーワードを小分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査ステップと、一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出する比較演算ステップとを有することを特徴とする文章自動分類方法である。
【0049】
第三十一に属性情報及び見出し情報を有する文章を自動分類する方法であって、属性情報及び見出し情報を有する文章を解析し、属性情報を抽出すると共に、属性情報以外の部分から単語を抽出するテキスト解析ステップと、抽出した単語をキーワードを小分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査ステップと、一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出すると共に、見出し情報から抽出した単語と一致するキーワードの属する分類項目を検索して文章が該当する分類項目を算出する比較演算ステップとを有することを特徴とする文章自動分類方法である。
【0050】
上記第二十七から第三十一の構成によれば文章を極めて速やかに且つ高精度に自動に分類することが可能で、更には総ての文章を予め定められた分類グループに分類可能で、分類後のグループによって、当該文章の主題、大まかな内容の把握が容易となる。
【0051】
第三十二にキーワード走査ステップは抽出した単語をキーワードをコード項目に関連付けて記述した少なくても一以上のキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度をコード項目毎に集計するステップを含み、比較演算ステップは一致したキーワードに対応するコード項目を検索し、コード項目毎のキーワード出現頻度でコード項目をソートし、文章が該当するコード項目を算出するステップを含むことを特徴とする文章自動分類方法である。
【0052】
第三十三にキーワードをコード項目に関連付けて記述したキーワード群は都道府県市町村名をキーワードとする都道府県市町村キーワード群、国名をキーワードとする国名キーワード群、企業名をキーワードとする企業キーワード群の内少なくても1つ以上を含むことを特徴とする文章自動分類方法である。
【0053】
上記第三十二及び第三十三の方法によれば分類後のグループによって、関連分野、関連する国、地域、企業等の把握が容易となる。
【0054】
第三十四に上記文書自動分類方法は、更に前記比較演算ステップにより算出された分類の結果の項目を出力する分類結果出力ステップとを有することを特徴とする文章自動分類方法である。
【0055】
第三十五に上記文書自動分類方法は、更に算出された分類の結果の項目を文章に追記する変換結果格納ステップとを有することを特徴とする文章自動分類方法である。
【0056】
上記方法によれば利用者も文章を解読することなく主題、関連分野、大まかな内容、関連する国、地域、企業等を把握可能で分類後の文章の活用が円滑に行える。
【0057】
第三十六に上記文書自動分類方法は、更に分類した文章を分類の結果の項目毎に蓄積するステップ又は/及び配信するステップとを有することを特徴とする文章自動分類方法である。
【0058】
上記方法によれば分類後の文章を分類毎に自動に蓄積、送信可能となり、蓄積、送信を人が行うことがなくなるので蓄積場所、送信先に誤りがなくなる。
【0059】
第三十七に上記文書自動分類方法は、更に一定期間の分類の結果を項目毎に集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類結果の項目毎の文章分布の統計処理を行う分類結果統計ステップと、該統計結果を出力するステップとを有することを特徴とする文章自動分類方法である。
【0060】
第三十八にキーワード群を出力するステップと、該キーワード群を変更、追加、削除してキーワード群を再構成するステップと、再構成されたキーワード郡を格納するステップとを含むことを特徴とする文章自動分類方法である。
【0061】
上記方法によれば分類に使用するテーブルを適宜に再構成できるので、文章を極めて高精度に自動に分類することが可能で、分類後のグループによって、当該文章の主題、関連分野、大まかな内容、関連する国、地域、企業等の把握が容易となる。
【0062】
第三十九に文章を編集端末に入力するステップと、編集端末が該文章をサーバーシステムに送信して分類処理を要求するステップと、サーバーシステムが文章及び分類処理要求を受信するステップと、サーバーシステムが該文章を解析し、単語を抽出するステップと、抽出した単語をキーワードを分類項目に関連付けて記述したキーワード群と比較照合するステップと、比較照合した結果に重み付けをして該当する項目を見出すステップと、分類処理結果を編集者端末に送信するステップと、編集端末が分類処理結果を受信するステップとを有することを特徴とする文章自動分類方法である。
【0063】
上記方法によればネットワークに接続された簡易な構成の端末を利用して文章自動分類を行うことが可能となり、又、キーワード群の再構成等の保守が一度ですむ。
【0064】
ここで、文章とは電子化された文書であり、コンピュータで処理可能なデータ形式であればそのデータ形式は問はない。そして、分類する文章は日本語に限ることなく、英語等の他の言語で記述されていてもよいことはもちろんである。
【0065】
【発明の実施の形態】
以下、本発明の文書自動分類装置の実施の形態について図に従って詳細に説明する。
図1は本発明の文章自動分類装置の一実施形態のブロック図であり、文章自動分類装置100は入力手段110、テキスト解析手段120、キーワード走査手段130、比較演算手段140、出力手段150、変換結果格納手段160、蓄積手段170、格納手段180、制御手段190から構成されており、パーソナルコンピュータ等で構成することができる。
【0066】
入力手段110はキーボード、スキャナー、モデム、ポインティングデバイス等で構成され、分類する文章を入力する手段である。入力は文章をキーボードにより打ち込んだり、スキャナーにより読み込んだり、モデムを介してネットワークに接続された他の端末から受信すること等により行う。又、出力手段150によって表示された各種キーワード群を変更、追加、削除して再構成し、格納手段に格納を指示し、更には分類の結果の変更、キャンセル等を指示する手段ともなり得る。
【0067】
テキスト解析手段120は入力された文章を解析し、属性情報及び見出し情報を抽出し、属性情報部分以外の文章から単語を抽出する手段である。文章に属性情報、見出し情報が含まれていない場合或いは含まれていても分類に反映させない場合には、属性情報及び見出し情報を抽出することなく文章を解析し、単語を抽出する。文章の解析は単語解析用辞書テーブル181を格納手段18から読み込み、これを参照して形態素解析等により行う。
【0068】
属性情報は文章中の任意の場所例えば文章の一行目に挿入された当該文書の極大雑把な分類のための情報である。見出し情報は文章中の任意の場所例えば文章の二行目に挿入された当該文書のタイトルである。
【0069】
キーワード走査手段130は格納手段180に格納された分類項目キーワードテーブル182を読み込み、テキスト解析手段120で抽出した文章中の単語と比較照合し、抽出した単語と一致したキーワードの出現頻度を小分類項目毎に集計する手段である。又、キーワード走査手段130は格納手段180に格納されたキーワードとなる都道府県市町村名とコード項目たるコード番号を関連付けた都道府県市町村コードテーブル183、キーワードとなる国名とコード項目たるコード記号を関連付けた国名コードテーブル184、キーワードとなる企業名とコード項目たるコード番号を関連付けた企業コードテーブル185等のコードテーブルを読み込み、テキスト解析手段120で抽出した文章中の単語と比較照合し、抽出した単語と一致したキーワードの出現頻度をコード項目毎に集計する手段ともなる。
【0070】
比較演算手段140は一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類の結果を集計して文章が該当する分類項目或いは更にそのコードを算出する手段である。小分類項目のソートに伴い、該小分類項目が属する中分類項目及び大分類項目も同時にソートされることとなる。又、キーワード走査手段130で集計されたコード項目毎のキーワードの出現頻度で国名情報、都道府県市町村等情報、企業情報毎にコード項目をソートし、分類の結果を集計して文章が該当する国名情報、都道府県市町村等情報、企業情報等のコード項目を算出することとしてもよい。
【0071】
出力手段150は前記比較演算手段により算出された分類項目又は/及び付属情報項目を表示或は印字する為のモニター、プリンター等或は文章をネットワークを介して配信するためのモデム等から構成されている。出力手段150は分類項目キーワードテーブル182、各種コードテーブル183,184,185及び係数テーブル186を出力可能である。
【0072】
変換結果格納手段160は分類結果の項目を分類のコードに変換して或いは変換せずにそのまま文章に追記する手段である。蓄積手段170は分類した文章を分類毎に格納手段180に格納、蓄積する手段である。変換結果格納手段160、蓄積手段170は特に設けないこととしてもよい。格納手段180はハードディスク等の磁気記録媒体や光磁気記録媒体などで構成される。制御手段190は上記各手段の処理を制御する手段である。
【0073】
格納手段180は単語解析用辞書テーブル181とキーワードを分類項目毎に記述したキーワード群たる分類項目及び分類項目を示すコードと分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブル182、キーワードをコード項目に関連付けて記述したキーワード群たる都道府県市町村名とコード番号を関連付けた都道府県市町村コードテーブル183、国名とコード記号を関連付けた国名コードテーブル184、企業名とコード番号を関連付けた企業コードテーブル185及び分類項目係数テーブル186を格納している。更に、分類項目、国名情報の項目、都道府県市町村情報の項目、企業情報の項目との特定の関係を指定するキーワードを各項目毎に記述した特定情報キーワードテーブル(図示せず)、分類項目との特定の関係付けを指定するキーワードを分類項目毎に記述した特定分類項目キーワードテーブル(図示せず)を格納することとしてもよい。又、再構成された各種テーブル182,183,184,185,186等を格納する。
【0074】
尚、格納手段180は文章自動分類装置100に内蔵させないで、ネットワークを介して文章自動分類装置100と接続した格納手段、受信手段等を有するサーバー等に記憶させ、該格納手段に格納された各種テーブル181,182,183,184,185,186を使用時に文章自動分類装置100が受信、読み込むものとし、分類済み文章を蓄積する際に該サーバー等に送信して記憶させることとしてもよい。又、分類項目のみ分類する場合には格納手段180には単語解析用辞書テーブル181と分類項目キーワードテーブル182及び分類項目係数テーブル186のみ格納し、都道府県市町村コードテーブル183、国名コードテーブル184、企業コードテーブル185は適宜に削除可能である。この場合には分類項目のみ検索等され、都道府県市町村、国名、企業等の情報は検索、分類されない。又、文章の解析、単語の抽出方法によっては単語解析用辞書テーブル181を有しない場合もある。
【0075】
更に文章自動分類装置100は一定期間の分類の結果を項目毎に集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類結果の項目毎の文章分布の統計処理を行う分類結果統計手段191を有することとしてもよい。統計の結果は出力手段150にて出力する。
【0076】
分類項目キーワードテーブル182は図3に示すように、先ず大項目があり、大項目は中項目に分割され、更に中項目も小項目に分割されて、三層構造に形成されており、キーワードは各小項目毎に関連付けられて記述されている。中分類項目は小分類項目の上位概念であり、大分類項目は中分類項目及び小分類項目の上位概念である。各項目には対応するコードが付されている。尚、必ずしも三層構造にする必要はなく、適宜に一層、二層或いは四層以上としてもよい。都道府県市町村コードテーブル183は図4に示すように都道府県を上層に、各都道府県毎に市町村を下層に二層構造とし、都道府県及び市町村夫々にコード番号が関連付けられている。国名コードテーブル184は図5に示すように国名とコード記号が関連付けられて記述されている。企業コードテーブル185は図6に示すように企業とコード番号が関連付けられて記述されている。
【0077】
分類項目係数テーブル186は属性情報毎に大項目が設定され、各大項目毎に分類項目係数が関連付けられている。特定情報キーワードテーブルは国名情報、都道府県市町村情報、企業情報、との特定の関係を指定するキーワードを記述したテーブルであって、各項目毎にキーワードが関連付けられている。特定分類項目キーワードテーブルは分類項目との特定の関係関係付けを指定するキーワードを記述したテーブルであって、小分類項目ごとにキーワードが関連付けられている。
【0078】
これら各種テーブルは出力手段150であるモニター画面に表示させて、入力手段110たるマウス、キーボード等によって変更、追加、削除が可能であり、変更、追加、削除され再構成された各種テーブルは入力手段110の指示により蓄積手段170によって格納手段180に格納される。
【0079】
又、図2は本発明の文章自動分類装置の他実施形態のブロック図であり、文章自動分類装置200はパーソナルコンピュータ等で構成される編集端末210、ワークステイションやパーソナルコンピュータ等で構成されるサーバーシステム220及び編集端末210とサーバーシステム220を接続するネットワーク230から構成されている。編集端末210はキーボード、スキャナー、モデム、ポインティングデバイス等で構成される文章を入力し更にはサーバーシステム220からの分類情報を受信する為の入力手段211、モニター、プリンター、モデム等分類結果を表示、印字等し、更にはサーバーシステム220に文章及び分類要求を送信する出力手段212、これらの手段を制御する制御手段を少なくても有している。その他変換結果格納手段、蓄積手段を有することとしてもよい。
【0080】
サーバーシステム220は上記文章自動分類装置100と略同様の構成であって、テキスト解析手段221、キーワード走査手段222、比較演算手段223、モデム等から構成される編集端末からの文章等を受信する入力手段224、分類結果等を編集端末210に送信する出力手段225及び単語解析用辞書テーブル241と分類項目キーワードテーブル242、都道府県市町村コードテーブル243、国名コードテーブル244、企業コードテーブル245及び分類項目係数テーブル246を格納した格納手段240、これらの手段を制御する制御手段226から構成されている。その他変換結果格納手段227、蓄積手段228、分類結果統計手段229等を有することとしてもよい。尚、ネットワーク230は有線、無線を問うものではない。
【0081】
次に本発明文書自動分類プログラムの処理手順を説明する。図8は本発明文書自動分類プログラムの処理手順の一実施例を示すフローチャート図である。先ず、分類を行う文書を解析し、該文章から単語を抽出するテキスト解析処理を行うS10。次に抽出した単語をキーワード群と比較照合するキーワード走査処理を行うS20。そして、比較照合した結果に重み付をして文章が該当する分類の項目を算出する比較演算処理を行うS30。次に、分類の項目が見出された後に分類の結果を出力する処理を行うS40。次に、分類の結果の変更の要、不要の判断を要求し、変更を要する場合には文書の変更或は分類の結果の変更を促し、変更を要しない場合又は分類の結果の変更が行われた場合には次のステップへ進める分類確認処理S50をおこなう。そして、分類の結果の項目を文章に追記する変換結果格納処理を行うS60。更に分類した文章を分類された項目毎に蓄積又は/及び配信する処理を行うS70。
【0082】
尚、テキスト解析処理S10、キーワード走査処理S20、比較演算処理S30以外の分類結果出力処理S40、分類確認処理S50、変換結果格納処理S60、蓄積処理又は/及び配信処理S70は必ずしも必要ではなく、これらの処理は省略可能であり、これらの処理の内適宜の処理を選択して処理を進めることとしてもよく、又、適宜に順序を変更して処理を進めることとしてもよい。
【0083】
夫々の処理を詳しく説明すると、テキスト解析処理を行うS10は分類する文章を単語に分解するための単語解析用辞書を読み込みS101、文章から属性情報を抽出しS102、文章から見だし情報を抽出すると共に単語解析用辞書を参照して見だし情報部分の単語を抽出しS103、単語解析用辞書を参照して文章から属性情報及び見だし情報を除いた本文部分の単語を抽出するS104。尚、属性情報の抽出S102、見だし情報の単語の抽出S103、本文部分の単語の抽出S104は必ずしもこの順番である必要はなく、又、同時に処理することとしてもよい。又、分類する文章に属性情報或は見だし情報がない場合或いは分類に反映させない場合等には適宜に属性情報の抽出S102、見だし情報の単語の抽出S103の処理を省略する。尚、属性情報、見だし情報、本文部分はタグ等の制御符号その他の記号、改行等による区切りの情報により分割されており、それぞれの部分が抽出される。
【0084】
尚、テキスト解析処理S10における単語の抽出は上記のように単語解析用辞書を参照して形態素解析に基づいて文章を解析して単語を抽出する他、他の様々な抽出方法を用いることが可能であり、その抽出方法は限定されるものではない。
【0085】
キーワード走査処理を行うS20は、キーワード群を構成する分類項目キーワードテーブル或は分類項目キーワードテーブルに加えて都道府県市町村コードテーブル、国名コードテーブル、企業コードテーブル等の付属の情報の項目テーブルの内少なくても一つを読み込みS201、分類項目キーワードテーブル或は分類項目キーワードテーブルに加えて適宜のコードテーブルをメモリへ展開しS202、抽出した単語を分類項目キーワードテーブル或はコードテーブルのキーワード群と比較照合しS203、抽出した単語と一致した分類項目キーワードテーブルのキーワード群のキーワードの出現頻度を小分類項目毎に集計し、或いは更にコードテーブルのキーワード群のキーワードの出現頻度をコード項目毎に集計するS204。尚、同一キーワードが複数ある場合にもその数をカウントする。又、見出し情報に含まれるキーワードは、カウントしてもよいがしなくてもよい。
【0086】
比較演算処理を行うS30は、抽出した単語と一致したキーワードに対応する大中小の各分類項目、或いは加えて国名情報のコード項目、都道府県市町村情報のコード項目、企業情報のコード項目を検索しS301、検索された小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付けをし、或いは更にコードテーブル毎に検索されたコード項目毎のキーワードを出現頻度で重み付けしS302、該係数で修正した出現頻度で小分類項目、結果としてその小分類項目が属する大中分類項目をソートし、或いは更にコード項目毎の出現頻度でコード項目をソートしてS303、分類項目、国名情報のコード項目、都道府県市町村情報のコード項目、企業情報のコード項目毎に分類の結果を集計して分類項目或いはそのコード項目、国名情報のコード項目、都道府県市町村情報のコード項目、企業情報のコード項目を算出するS306。
【0087】
勿論、分類項目のみを検索、ソート等の処理をすることとしてもよく、適宜国名情報のコード項目、都道府県市町村情報のコード項目、企業情報のコード項目の検索等の処理は省略することとしてもよい。又、重み付けS302は検索された小分類項目毎のキーワード出現頻度に、抽出した属性情報毎の中分類項目または小分類項目毎に設定された係数のうち該小分類項目が属する中分類項目または小分類項目の係数を乗じて重み付けをすることとしてもよく、更には、重み付けは属性情報を有さない或は有しても反映させずに、検索された分類項目毎に、小分類項目毎のキーワード出現頻度に該小分類項目が属する大分類項目毎に設定された或は小分類項目毎又は中分類毎に設定された係数を乗じて重み付けをすることしてもよい。
【0088】
尚、予め分類項目、国名情報、都道府県市町村情報、企業情報のうち少なくても一つとの特定の関係を指定するキーワード群のキーワードと抽出した単語が一致する場合には、キーワードと特定の関係付けが指定されている分類項目、国名情報のコード項目、都道府県市町村情報のコード項目、企業情報のコード項目を特定情報キーワードテーブルを参照して検索しS304、分類の結果に反映させることとしてもよい。この場合にS303で検索された分類項目、国名情報、都道府県市町村情報、企業情報と何れかを優先させて分類結果に反映させるかは任意に設定しうる。更に、見だし情報が本文とは別個に単語抽出処理がされている場合であって、予め分類項目との特定の関係関係付けを指定する特定分類項目キーワードテーブルのキーワード群のキーワードと見だし情報から抽出した単語が一致する場合には、見だし情報部分のキーワードから特定の分類項目を検索するS305こととしてもよい。この場合にS303でソートされ、優先順位がついた分類結果と何れかを優先させて分類結果に反映させるかは任意に設定しうる。
【0089】
尚、分類の結果はソートされた最上位の項目のみを分類結果として算出することとしてもよいが、適宜の上位複数の項目を分類結果として算出することとしてもよい。
【0090】
分類の結果を出力する処理を行うS40は、分類項目キーワードテーブル或は加えて各種コードテーブルを読み込みS401、分類項目キーワードテーブル或は加えて各種コードテーブルを参照して分類結果のコードから項目名を検索しS402、分類結果表示用ダイアログに項目名をセットしS403、分類結果を表示或いは更に印字するS404。ここで、分類結果はソートされた最上位の項目のみを結果として表示してもよいが、適宜の上位複数の項目を分類結果として表示することとしてもよい。
【0091】
分類確認処理S50は分類結果を表示した際に分類結果の変更が必要か否か、分類結果をキャンセルするか否かの判断を要求しS501、変更を要しない場合又は分類結果の変更の指示をうけて変更をした場合S502、次の処理へすすみ、分類結果をキャンセルされる場合には文書の変更を促しS503、分類確認処理S50を行う。
【0092】
変換結果格納処理を行うS60は、分類項目キーワードテーブル或は加えて各種コードテーブルを参照して分類の結果の項目名からテーブル上のコードへ変換しS601、テキスト形式の文章例えばXMLデータの所定のタグ項目に分類結果から変換したコードをセットして文章に追記するS602。勿論、分類の結果をコードに変換することなく分類結果の項目の単語をそのまま追記することとしてもよい。
【0093】
文章を分類毎に蓄積又は/及び配信する処理を行うS70は、分類結果が付与された文章例えばXMLデータを蓄積しS701、又は/及び分類結果が付与された文章を配信するS702。蓄積は予め設けた分類の結果毎の格納領域に分類毎に格納するが、分類の結果毎には格納領域を設けずに、格納することとしてもよい。又、配信は予め定めれた分類に対応した配信先に配信されるが、分類にかかわらずに任意の配信先に配信することとしてもよい。尚、分類の結果毎とは大分類項目毎、中分類項目毎、小分類項目毎、国名情報毎、都道府県市町村情報毎、企業情報毎の何れでもよく、又、これらの内の任意の分類の項目或いは該当する全ての分類の項目に対応させて格納又は配信処理を行うこととしてもよい。
【0094】
更に一定期間の分類の結果を集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類結果の項目毎の文章分布の統計処理を行う分類結果集計処理S801と、該集計結果を出力する処理S802を含ませることは推奨される。
【0095】
更に、分類項目ごとに記述されたキーワード群たる分類項目キーワードテーブル又は/及びコード項目毎に記述したキーワード群たる各種コードテーブルを出力しS901、該キーワード群を変更、追加、削除してS902、キーワード群を再構成するS903、処理とを含ませることは推奨される。
【0096】
又、文書自動分類プログラムを記録したコンピュータ読取り可能な記録媒体としては、以上のような処理をコンピュータに実行させる文章自動分類プログラムを磁気ディスク、磁気テープ、光ディスク等のコンピュータ読取可能な記録媒体に記録したものである。そして、文章自動分類処理を行う場合には該記録媒体をコンピュータに読み込ませて当該プログラムを実行することにより、以上ような文章自動分類処理を行う。
【0097】
次に、本発明自動分類方法の一実施例を図18に示した文章900を例に具体的に説明する。先ず、テキスト解析手段120は入力手段110により入力された文章を解析し単語を抽出するための単語解析用辞書テーブル181を格納手段180から読み込みS101、タグ等の制御符号、その他の記号等、改行等による区切りの情報により文章の属性情報910、見出し情報920、本文部分を認識し、属性情報「外信」910を抽出しS102、単語解析用辞書テーブル181を参照して見だし情報920の単語「通商」を抽出しS103、単語解析用辞書テーブル181を参照して本文部分の単語「議会」、「財政」、「委員会」、「政権」、「貿易」、「貿易」、「通商」、「公聴会」、「米国」、「大阪」、「鈴木産業」等を抽出するS104(テキスト解析処理S10)。尚、属性情報910の抽出S102、見だし情報920の単語の抽出S103、本文部分の単語の抽出S104は必ずしもこの順番である必要はなく、同時に処理することとしてもよい。又、分類する文章に属性情報910或は見だし情報920がない場合等には適宜に属性情報の抽出S102、見だし情報の単語の抽出S103の処理を省略する。
【0098】
次に、キーワード走査手段130は分類項目キーワードテーブル182或は分類項目キーワードテーブル182に加えて都道府県市町村コードテーブル183、国名コードテーブル184、企業コードテーブル185等のコードテーブルの内少なくても一つを読み込みS201、分類項目キーワードテーブル182或は分類項目キーワードテーブル182に加えて適宜のコードテーブルをメモリへ展開しS202、抽出した単語「議会」、「財政」、「委員会」、「政権」、「通商」、「公聴会」、「米国」、「大阪」、「鈴木産業」等を分類項目キーワードテーブル182のキーワード「政権」、「財政」、「貿易」等と、更には都道府県市町村コードテーブル183のキーワード「北海道」、「札幌市」、「大阪」等と、国名コードテーブル184のキーワード「アフガニスタン」、「米国」等と、企業コードテーブル185のキーワード「鈴木産業」、「田中銀行」等と比較照合しS203、抽出した単語と一致したキーワード「通商」、「貿易」、「輸入」、「鉄鋼」、「米国」、「大阪」、「鈴木産業」等の出現頻度を分類項目、国名コード項目、都道府県市町村コード項目、企業コード項目毎に集計するS204(キーワード走査処理S20)。本実施例においては図19に示すとおり「通商」が3、「貿易」が2、「輸入」が1、「鉄鋼」が2、「自動車」が2、「政権」が2、「財政」が1、「赤字」が1であり、「米国」が1、「大阪」が1、「鈴木産業」が1である。
【0099】
そして、比較演算手段140は各種テーブルを参照してキーワード「通商」に対して大分類項目「経済」、中分類項目「マクロ経済」、小分類項目「貿易」をというように一致したキーワードに対応する分類項目、国名情報、都道府県市町村情報、企業情報を検索しS301、検索された小分類項目毎に、小分類項目毎のキーワード出現頻度、例えば小項目「貿易」では「通商」が3、「貿易」が2、「輸入」が1であるので「6」に抽出した属性情報「外信」910の小分類項目「貿易」が属する大分類項目「経済」に設定された係数「0.10」を乗じて重み付けを行い、同様の処理を小分類項目毎に行うと共に、国名コード項目、都道府県市町村コード項目、企業コード項目の出現頻度、例えば「米国」が1、「大阪」が1、「鈴木産業」が1を集計しS302、前記係数で修正した出現頻度「0.6」等で分類項目をソートすると共に、国名情報、都道府県市町村情報、企業情報の出現頻度を各情報毎にソートしS303、分類項目、国名情報、都道府県市町村情報、企業情報毎に分類結果を集計して分類項目、国名情報、都道府県市町村情報、企業情報を算出するS306(比較演算処理S30)。この際に各種算出された項目は例えば「経済」が「02000」、「米国」が「USA」、「鈴木産業」が「2501」のようにコードに変換される。
【0100】
尚、予めキーワードと特定の関係付けが指定されている分類項目、国名情報、都道府県市町村情報、企業情報を格納手段180に格納された特定情報キーワードテーブルを参照して検索しS304、分類項目、国名情報、都道府県市町村情報、企業情報の分類結果に反映させることとしてもよい。この場合にS301で検索された国名情報、都道府県市町村情報情報、企業情報と何れかを優先させて分類結果に反映させるかは任意に設定しうる。更に、見だし情報が本文とは別個に単語抽出処理がされている場合には、格納手段180に格納された特定分類項目キーワードテーブルを参照して見だし情報のキーワードから特定の分類項目を検索するS305こととしてもよい。この場合にS303でソートされ、優先順位がついた分類結果と何れかを優先させて分類結果に反映させるかは任意に設定しうる。
【0101】
次に、出力手段150により分類項目キーワードテーブル182或は加えて各種コードテーブル182,183,184,185を読み込みS401、分類項目キーワードテーブル或は加えて各種コードテーブル182,183,184,185を参照して分類結果のコード情報「02000」、から「経済」を、「USA」から「米国」を、「2501」から「鈴木産業」等を検索しS402、分類結果表示用ダイアログに項目名「経済」、「米国」、「大阪」、「鈴木産業」等をセットしS403、図20に示すように分類結果を表示或は印字するS404(分類結果出力処理S40)。
【0102】
次に、出力手段150により分類結果を表示した際に、例えば入力手段110により表示画面151上のOKタグ158又はキャンセルタグ159の指定或いは参照タグ157の指定により、分類結果の変更が必要か否か或いはを指示しS501、変更が不要であればOKタグ158を指定し次の処理を促し、参照タグ157の指定及び当該指定により画面151に表示される項目一覧(図示せず)からの項目の指定により変更された場合には変更処理をし、キャンセルセルタグ159の指定された場合には文章の変更を要求するS503(分類確認処理S50)。
【0103】
そして、変換結果格納手段160は分類項目キーワードテーブル182或は加えて各種コードテーブ182,183,184,185を参照して分類結果の項目名「経済」、「米国」、「鈴木産業」等からテーブル上のコード「02000」、「USA」、「2501」等へ変換しS601、テキスト形式の文章の所定のタグ項目に分類結果から変換したコードをセットするS602(変換結果格納処理S60)。尚、コードに変換せずに分類結果の項目名「経済」、「米国」、「鈴木産業」等をそのまま文章に追記してもよい。
【0104】
そして、蓄積手段170は、図21に示すような分類結果が付与された文章999を格納手段180に蓄積しS701、又は/及びモデム等の出力手段150は格納手段180に格納された或は未格納の分類結果が付与された文章999をネットワークを介して配信するS702。
【0105】
分類結果統計手段191は一定期間の分類の結果を項目毎に集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類項目毎の文章分布の統計処理を行いS801、出力手段150は該統計結果を出力するS802。
【0106】
尚、時代の変化に伴い、単語の変化、地域名の変化、企業の設立、合併、消滅等の変化に対応して各種テーブル181,182,183,184,185、186を入力手段110の指示で格納手段180から読み出して出力手段150にて表示しS901、入力手段110にて項目、キーワード、係数等の追加、削除、変更を行いS902、テーブルを再構成しS903、再構成したテーブルを格納手段180に格納する。
【0107】
【発明の効果】
以上のような本発明によれば、文章を極めて速やかに且つ高精度に自動に分類することが可能となった。又、総ての文章を予め定められた分類グループに分類可能となり、更には分類後のグループによって、当該文章の主題、関連分野、大まかな内容、関連する国、地域、企業等の把握が容易であり、更には当該分類後の文章を分類毎に蓄積、送信可能であって、利用者も文章を解読することなく主題等を把握可能な分類後の文章の活用が円滑に行うことが可能となり、更には簡易な構成のコンピュータ端末を利用しても上述の効果を得られた。
【図面の簡単な説明】
【図1】 本発明文章自動分類装置の一実施例ブロック図
【図2】 本発明文章自動分類装置の他実施例ブロック図
【図3】 本発明一実施例分類項目キーワードテーブルを示す図
【図4】 本発明一実施例都道府県市町村コードテーブルを示す図
【図5】 本発明一実施例国名コードテーブルを示す図
【図6】 本発明一実施例企業コードテーブルを示す図
【図7】 本発明一実施例係数テーブルを示す図
【図8】 本発明一実施例の処理の流れを示すフロー図
【図9】 本発明一実施例の処理の流れ一部を示すフロー図
【図10】 本発明一実施例の処理の流れ一部を示すフロー図
【図11】 本発明一実施例の処理の流れ一部を示すフロー図
【図12】 本発明一実施例の処理の流れ一部を示すフロー図
【図13】 本発明一実施例の処理の流れ一部を示すフロー図
【図14】 本発明一実施例の処理の流れ一部を示すフロー図
【図15】 本発明一実施例の処理の流れ一部を示すフロー図
【図16】 本発明一実施例の処理の流れ一部を示すフロー図
【図17】 本発明一実施例の処理の流れ一部を示すフロー図
【図18】 本発明における分類対象文章の一例を示す図
【図19】 本発明一実施例分類項目の重み付けの概念図
【図20】 本発明一実施例分類結果の表示画面を示す図
【図21】 本発明一実施例分類済み文章を示す図
【符号の説明】
100 文章自動分類装置
110 入力手段
120 テキスト解析手段
130 キーワード走査手段
140 比較演算手段
150 出力手段
160 変換結果格納手段
170 蓄積手段
180 格納手段
182 分類項目キーワードテーブル
183 都道府県市町村コードテーブル
184 国名コードテーブル
185 企業コードテーブル
186 分類項目係数テーブル
190 制御手段
191 分類結果統計手段
200 文章自動分類装置
210 編集端末
211 入力手段
212 出力手段
220 サーバーシステム
230 ネットワーク
910 属性情報
920 見出し情報[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an automatic sentence classification program, a computer-readable recording medium on which an automatic sentence classification program is recorded, an automatic sentence classification method, and an automatic sentence classification apparatus, and more particularly, a keyword included in a sentence is extracted and the extracted keyword classification item The present invention relates to a technique for performing automatic classification by calculating the corresponding classification items by summing up the appearance frequencies for each and performing weighting by multiplying by coefficients set in advance for each classification item. Furthermore, the present invention relates to a technique that can also calculate sub-category information of a sentence and perform fine classification.
[0002]
[Prior art]
As a technique related to a conventional automatic text classification program, a computer-readable recording medium in which the automatic text classification program is recorded, an automatic text classification method, and an automatic text classification apparatus, classification is performed using a feature pattern that characterizes a category to be classified ( JP-A-2000-222431) automatically calculates the frequency of keywords assigned to sentences and associates them with each other, assigns an upper directory to keywords with a high frequency, and creates keywords related to the keywords as lower directories. A technique (Japanese Patent Laid-Open No. 2000-231560) that obtains a tree structure of keywords and classifies each sentence according to the tree structure of a directory has been proposed.
[0003]
Furthermore, a technology for classifying a document based on a similarity with a semantic attribute of an already classified sentence with a semantic attribute of the sentence using a corpus (JP 2000-339310 A), inputting a sentence to be classified and attribute information, from the sentence A technique for extracting a keyword, calculating a similarity between a classification rule composed of a combination of a keyword and attribute information for each classification group, and the keyword or attribute information, and classifying it into a group corresponding to the most similar classification rule (Japanese Patent Laid-Open No. 2001-60199) ) Technology for checking whether one or more pre-registered keywords are included in an article, and storing an article including the keyword in a predetermined storage area provided for each keyword (Japanese Patent Laid-Open No. 2001-109772), etc. There is.
[0004]
However, in these conventional examples, if the groups to be classified are limited, the number of sentences that cannot be classified increases. On the other hand, if all the sentences are classified, the number of classification groups becomes extremely large and the limited tree. Since they are classified according to the structure, there is a drawback that one sentence is classified into a large number of classification groups. In addition, as the classification is repeated, the number of patterns, keywords, or sentences to be compared increases, and the classification process takes time.
[0005]
In addition, since only the appearance frequency of keywords or the presence or absence of keywords is directly reflected in the classification, the importance of each keyword in the classification group is not considered, or certain keywords are overly important when complementing the keywords. As a result, there is a drawback that classification with high accuracy cannot be performed.
[0006]
Furthermore, it is difficult for the conventional technology to grasp the subject of the classified text, related fields, rough contents, related countries, regions, companies, etc. from the classification group, and the utilization of the text after classification is smooth. There was also a disadvantage that it could not be done. In addition, when the classified document is taken out from the location stored for each classification, that is, it is not possible to grasp what classification the document belongs to only by looking at the document. .
[0007]
[Problems to be solved by the invention]
Therefore, the present invention can categorize sentences very quickly and with high accuracy, and can further classify all sentences into predetermined classification groups. It is easy to grasp the subject, related fields, rough contents, related countries, regions, companies, etc., and the sentences after the classification can be stored and transmitted for each classification, and the user also decodes the sentences. Sentences can be used smoothly without having to be able to grasp subjects, etc., and the above effects can be obtained even with a simple computer terminal, automatic sentence classification program, automatic sentence classification It is an object of the present invention to provide a computer-readable recording medium in which a classification program is recorded and an automatic sentence classification method.
[0008]
[Means for Solving the Problems]
As means for solving the above problems, firstly, the automatic sentence classification apparatus of the present invention is a storage means storing a classification item keyword table describing classification items and keywords associated with the classification items, and an input means for inputting sentences. Text analysis means for analyzing sentences and extracting words; keyword scanning means for comparing and collating the extracted words with the keyword group of the classification item keyword table stored in the storage means; and weighting the comparison and collation results Thus, the automatic sentence classification apparatus includes a comparison calculation unit that calculates a classification item to which the sentence corresponds.
[0009]
Secondly, storage means storing a classification item keyword table describing classification items and keywords associated with the classification items, input means for inputting sentences, text analysis means for analyzing sentences and extracting words, and extraction The keyword scanning means for comparing the collated words with the keyword group of the classification item keyword table stored in the storage means and totaling the appearance frequency of the keywords matching the extracted words for each classification item, and weighting the total results The automatic sentence classification device includes comparison operation means for calculating a classification item corresponding to the sentence.
[0010]
Third, the storage means stores a classification item coefficient table in which a coefficient is set for each classification item, and the comparison calculation means searches for a classification item corresponding to the matched keyword, and sets the keyword appearance frequency for each classification item for each classification item. An automatic sentence classification device characterized by multiplying a set coefficient and weighting, sorting the classification items by the appearance frequency corrected by the coefficient, and calculating the classification item corresponding to the sentence by totaling the classification results It is.
[0011]
Fourthly, a classification item keyword table describing a category item composed of at least two large and small categories and a keyword associated with the small category item, and a classification item coefficient table in which a coefficient is set for each large category item for each attribute information are stored. Storage means, input means for inputting text having attribute information, text analysis means for analyzing the input text, extracting attribute information and extracting words from portions other than the attribute information, and extracting the extracted words The keyword scanning means for comparing and collating with the keyword group of the classification item keyword table stored in the storage means and totaling the appearance frequency of the keyword matching the extracted word for each small classification item, and the small classification item corresponding to the keyword belong Search for major classification items, and extract the keyword appearance frequency for each minor classification item to the coefficient set for each major classification item for each attribute information. The weight is multiplied by the coefficient of the major classification item to which the minor classification item belongs, the minor classification item is sorted by the appearance frequency corrected by the coefficient, and the classification item is calculated by calculating the classification result. An automatic sentence classification device having a comparison operation means.
[0012]
Fifth, a classification item keyword table describing a classification item composed of at least two large and small categories and a keyword associated with the small classification item, a classification item coefficient table and a classification in which a coefficient is set for each large classification item for each attribute information A storage unit storing a specific classification item keyword table in which a keyword specifying a specific association with an item is described for each classification item, an input unit for inputting a sentence having attribute information and heading information, and an input sentence Analyzing and extracting attribute information and extracting a word from a part other than the attribute information; comparing the extracted word with a keyword group in the classification item keyword table stored in the storage means; The frequency of matching keywords is tabulated for each small classification item, and words extracted from the heading information are stored in the storage means. And a keyword scanning means for searching for a keyword that matches the extracted word by comparing with a keyword group in the specified classification item keyword table, and searching for a large classification item to which a small classification item corresponding to the keyword belongs. Of the coefficients set for each large classification item for each attribute information extracted in the keyword appearance frequency, weighting is performed by multiplying the coefficient of the large classification item to which the small classification item belongs, and small with the appearance frequency corrected by the coefficient A comparison operation unit that sorts the classification items, calculates the classification items corresponding to the sentences by counting the classification results, and calculates a small classification item corresponding to the keyword that matches the word extracted from the heading information. This is an automatic sentence classification device.
[0013]
According to the first to fifth configurations, it is possible to automatically classify sentences very quickly and with high accuracy, and further, it is possible to classify all sentences into predetermined classification groups. By group, it becomes easy to grasp the subject and rough contents of the sentence.
[0014]
Sixth, the storage means stores at least one code table describing a code item and a keyword associated with the code item, and the keyword scanning means stores at least one extracted keyword in the code table. Compare the group and count the appearance frequency of the keyword that matches the extracted word for each code item, and the comparison calculation means searches for the code item corresponding to the matching keyword, and the code item by the keyword appearance frequency for each code item This is an automatic sentence classification device characterized in that the code items corresponding to the sentences are calculated.
[0015]
Seventh, the code table should include at least one of the prefecture code table with the prefecture name as the keyword, the country code table with the country name as the keyword, and the company code table with the company name as the keyword. This is an automatic sentence classification device.
[0016]
According to the sixth and seventh configurations, the group after classification makes it easy to grasp related fields, related countries, regions, companies, and the like.
[0017]
Eighth, the automatic document classification device is an automatic document classification device characterized by further comprising output means for outputting the classification result item calculated by the comparison operation means.
[0018]
Ninth, the automatic document classification device is an automatic document classification device characterized by further comprising conversion result storage means for additionally adding the calculated classification result item to a sentence.
[0019]
According to the above configuration, the user can grasp the subject, related fields, rough contents, related countries, regions, companies, and the like without decoding the text, and can smoothly use the classified text.
[0020]
Tenth, the automatic document classification device is an automatic document classification device characterized by further comprising storage means for storing classified text for each item of classification result and / or distribution means for distribution.
[0021]
According to the above configuration, the classified text can be automatically stored and transmitted for each classification, and no person performs the storage and transmission, so there is no error in the storage location and destination.
[0022]
Eleventh, the automatic document classification device further summarizes the results of classification for a certain period for each item, statistically processes the appearance frequency of the set keyword, and normalizes the number of target sentences to distribute the sentence distribution for each classification item. An automatic sentence classification apparatus comprising: a classification result statistical unit that performs the statistical processing; and an output unit that outputs the statistical result.
[0023]
Twelfthly, the automatic document classification apparatus further includes an output unit that outputs a table stored in the storage unit, an input unit that reconfigures the table by changing, adding, or deleting the contents of the table. An automatic sentence classification device comprising storage means for storing a table.
[0024]
According to the above configuration, the table used for classification can be reconfigured appropriately, so it is possible to automatically classify sentences with extremely high accuracy, and depending on the group after classification, the subject matter of the sentence, related fields, and rough contents This makes it easy to identify the countries, regions, and companies involved.
[0025]
Thirteenth, an automatic sentence classification apparatus composed of an editing terminal and a server system connected via a network, wherein the editing terminal is an input means for inputting a sentence, and the inputted sentence and classification processing request is a server system. Storage means for storing a classification item keyword table in which keywords associated with the classification items are stored, and an editing terminal. Input means for receiving a sentence and a classification processing request from the text, a text analysis means for decomposing and extracting the sentence into words according to the classification processing request from the editing terminal, and a keyword group in which the extracted words are stored in the storage means Keyword scanning means to compare and match with, and comparison to find the corresponding classification item by weighting the comparison results A calculation unit, a text automatic classification device characterized in that it has an output means for transmitting the classification processing result to the editing terminal.
[0026]
According to the above method, it is possible to perform automatic text classification using a terminal with a simple configuration connected to the network, and maintenance such as reconfiguration of keyword groups is only required once.
[0027]
Fourteenth, a text analysis process for analyzing sentences and extracting words, a keyword scanning process for comparing and matching the extracted words with a keyword group in which keywords are associated with classification items, and weighting the comparison and matching results Then, an automatic sentence classification program that causes a computer to execute comparison calculation processing for calculating a classification item to which the sentence corresponds.
[0028]
Fifteenth, text analysis processing that analyzes sentences and extracts words, compares the extracted words with keyword groups that describe keywords associated with classification items, and classifies the appearance frequency of keywords that match the extracted words An automatic sentence classification program that causes a computer to execute a keyword scanning process that aggregates for each item and a comparison operation that calculates and classifies the classification items to which the sentence corresponds by weighting the aggregated results. It is.
[0029]
Sixteenth, the comparison calculation process searches for a classification item corresponding to the matched keyword, multiplies the keyword appearance frequency for each classification item by the coefficient set for each classification item, weights it, and corrects the appearance using the coefficient An automatic sentence classification program characterized in that classification items are sorted by frequency, and the classification results are totaled to calculate a classification item to which the sentence corresponds.
[0030]
Seventeenth, a program for causing a computer to execute a process of automatically classifying sentences having attribute information, analyzing the sentences having attribute information, extracting attribute information, and extracting words from portions other than the attribute information It consists of a text analysis process and at least two extracted words, large and small classification items. The keyword is compared with the keyword group described in association with the small classification items, and the appearance frequency of keywords that match the extracted words is reduced. Keyword scan processing to be aggregated for each classification item, search for major classification items to which minor classification items corresponding to matched keywords belong, and set for each major classification item for each attribute information extracted in keyword appearance frequency for each minor classification item The weighted by multiplying the coefficient of the major classification item to which the minor classification item belongs, and sorting the minor classification item with the appearance frequency corrected by the coefficient. And a text automatic classification program, characterized in that sentence summarizes the classification results to perform the comparison operation process of calculating a classification item corresponding to the computer.
[0031]
Eighteenth, a program for causing a computer to execute a process of automatically classifying a sentence having attribute information and heading information, analyzing the sentence having attribute information and heading information, extracting attribute information, and other than attribute information Text analysis processing that extracts words from parts, and compares the extracted words with keyword groups that are described by associating keywords with minor classification items, and the appearance frequency of keywords that match the extracted words is aggregated for each minor classification item Among the coefficients set for each major classification item for each attribute information, the keyword scanning process, the major classification item to which the minor classification item corresponding to the matched keyword belongs is searched, and the keyword appearance frequency for each minor classification item is extracted. Weighting is performed by multiplying the coefficient of the major classification item to which the minor classification item belongs, and the minor classification item is sorted by the appearance frequency corrected by the coefficient, and the classification The computer calculates the classification item to which the sentence corresponds and calculates the classification item to which the keyword that matches the word extracted from the heading information belongs and calculates the classification item to which the sentence corresponds. This is an automatic text classification program.
[0032]
According to the fourteenth to eighteenth means, it is possible to automatically classify sentences very quickly and with high accuracy, and further, all sentences can be classified into predetermined classification groups. The later group will make it easier to understand the subject and general content of the text.
[0033]
Nineteenth, the keyword scanning process compares the extracted words with at least one keyword group described by associating the keywords with the code items, and totals the appearance frequency of the keywords that match the extracted words for each code item. The comparison calculation process includes a process of searching for a code item corresponding to the matched keyword, sorting the code items according to the keyword appearance frequency for each code item, and calculating a code item corresponding to the sentence. This is an automatic sentence classification program.
[0034]
The keyword group described in association with the code item in the 20th is a group keyword of a prefecture city that uses the name of the prefecture city as a keyword, a group of country names keyword that uses the country name as a keyword, and a company keyword group that uses the company name as a keyword. An automatic sentence classification program including at least one or more sentences.
[0035]
According to the nineteenth and twentieth means, the group after classification makes it easy to grasp related fields, related countries, regions, companies, and the like.
[0036]
21. The document automatic classification program further includes an output process for outputting items of the classification result calculated by the comparison operation process, and causes the computer to execute these processes. Classification program.
[0037]
Twenty-secondly, the document automatic classification program further includes a conversion result storing process for adding the calculated classification result item to the sentence, and causing the computer to execute these processes. It is a program.
[0038]
According to the above means, the user can grasp the subject, related fields, rough contents, related countries, regions, companies, etc. without deciphering the text, and can smoothly use the classified text.
[0039]
23. The document automatic classification program further includes a process of storing or / and distributing the classified text for each classification result item, and causing the computer to execute these processes. Classification program.
[0040]
According to the above means, the classified text can be automatically stored and transmitted for each classification, and the person does not store and transmit, so there is no error in the storage location and destination.
[0041]
24. The above automatic document classification program further summarizes the classification results for a certain period for each item, performs statistical processing on the appearance frequency of the set keyword, and normalizes the number of target sentences for each classification result item. This is a sentence automatic classification program characterized in that it includes a classification result statistical process for performing statistical processing of the sentence distribution and a process for outputting the statistical result, and causing the computer to execute these processes.
[0042]
25. A sentence automatic comprising: a process for outputting a keyword group, a process for reconfiguring the keyword group by changing, adding, or deleting the keyword group; and a process for storing the reconstructed keyword group Classification program.
[0043]
According to the above means, the table used for classification can be reconstructed appropriately, so it is possible to automatically classify sentences with extremely high accuracy, and depending on the group after classification, the subject matter, related fields, and rough contents of the sentence This makes it easy to identify the countries, regions, and companies involved.
[0044]
The computer-readable recording medium on which the automatic sentence classification program of the present invention is recorded is a computer-readable recording medium on which the automatic sentence classification program of the fourteenth to twenty-fifth means is recorded.
[0045]
The step of inputting a sentence in 27th, the step of analyzing the sentence and extracting a word, the step of comparing and collating the extracted word with a group of keywords described by associating the keyword with a classification item, and comparing and collating And a step of finding a classification item to which the sentence corresponds by weighting the result.
[0046]
28. Text analysis step that analyzes sentences and extracts words, classifies the appearance frequency of keywords that match the extracted words by comparing and collating the extracted words with keyword groups that associate keywords with classification items A method for automatically classifying sentences, comprising: a keyword scanning step for summing up each item, and a comparison operation step for weighting the summed results to find a classification item to which the sentence falls.
[0047]
29. In the comparison operation step, a step of searching for a classification item corresponding to the matched keyword, a step of weighting the keyword appearance frequency for each classification item by a coefficient set for each classification item, This is an automatic sentence classification method comprising a step of sorting classification items according to appearance frequency corrected by a coefficient, and calculating a classification item corresponding to a sentence by totaling the classification results.
[0048]
Thirty-third is a method for automatically classifying sentences having attribute information, analyzing the sentences having attribute information, extracting attribute information, and extracting a text from a part other than the attribute information, and extracting Even if there are at least two words, the words are classified into two levels, large and small classification items. The keywords are compared with the keyword group described in association with the small classification items, and the appearance frequency of keywords that match the extracted words is totaled for each small classification item. Of the coefficients set for each major classification item for each attribute information extracted in the keyword scanning step and the major classification item to which the minor classification item corresponding to the matched keyword belongs and extracted to the keyword appearance frequency for each minor classification item Weight by multiplying the coefficient of the major classification item to which the minor classification item belongs, sort the minor classification items by the appearance frequency corrected with the coefficient, add up the classification results, and add text A text automatic classification method characterized by having a comparison operation step of calculating a relevant category.
[0049]
Thirty-one is a method for automatically classifying sentences having attribute information and heading information, analyzing the sentences having attribute information and heading information, extracting attribute information, and extracting words from portions other than the attribute information. A text analysis step, a keyword scanning step of comparing and collating the extracted word with a keyword group described in association with the keyword in the small classification item, and counting the appearance frequency of the keyword matching the extracted word for each small classification item, The major classification item to which the minor classification item corresponding to the matched keyword belongs is searched, and the minor classification item belongs to the coefficient set for each major classification item for each attribute information extracted in the keyword appearance frequency for each minor classification item. Multiply by the coefficient of the large classification item, weight it, sort the small classification item by the appearance frequency corrected by the coefficient, add up the classification result, and the sentence corresponds A method for automatically classifying sentences, comprising: calculating a category item, and searching for a category item to which a keyword matching the word extracted from the heading information belongs, and calculating a category item to which the sentence corresponds. is there.
[0050]
According to the above 27th to 31st configurations, it is possible to classify sentences very quickly and with high accuracy, and further, it is possible to classify all sentences into predetermined classification groups. By the group after classification, it becomes easy to grasp the subject and rough contents of the sentence.
[0051]
Thirty-second, the keyword scanning step compares the extracted word with at least one keyword group described by associating the keyword with the code item, and determines the appearance frequency of the keyword matching the extracted word for each code item. Including a step of counting, and the comparison operation step includes a step of searching for code items corresponding to the matched keywords, sorting the code items according to the keyword appearance frequency for each code item, and calculating the code item corresponding to the sentence. This is a featured automatic text classification method.
[0052]
Thirty-third, the keyword group described by associating the keyword with the code item includes a prefecture city keyword group that uses the prefecture city name as a keyword, a country name keyword group that uses the country name as a keyword, and a company keyword group that uses the company name as a keyword. It is a sentence automatic classification method characterized by including at least one or more of them.
[0053]
According to the above methods 32 and 33, the group after classification makes it easy to grasp related fields, related countries, regions, companies, and the like.
[0054]
34. The document automatic classification method according to claim 34, further comprising a classification result output step for outputting a classification result item calculated by the comparison operation step.
[0055]
35. The document automatic classification method according to claim 35, further comprising a conversion result storing step of adding the calculated classification result item to the text.
[0056]
According to the above method, the user can grasp the subject, related fields, rough contents, related countries, regions, companies, etc. without deciphering the text, and can smoothly use the classified text.
[0057]
In a thirty-sixth aspect, the document automatic classification method further includes a step of storing and / or distributing a classified sentence for each item of the classification result.
[0058]
According to the above method, it becomes possible to automatically store and transmit the classified sentences for each classification, and the person does not perform storage and transmission, so that there is no error in the storage location and the transmission destination.
[0059]
Thirty-seventh, the automatic document classification method further summarizes the classification results for a certain period for each item, statistically processes the appearance frequency of the set keyword, and normalizes the number of target sentences for each classification result item. This is an automatic sentence classification method comprising: a classification result statistical step for performing statistical processing of the sentence distribution; and a step of outputting the statistical result.
[0060]
38. A step of outputting a keyword group, a step of reconfiguring the keyword group by changing, adding or deleting the keyword group, and a step of storing the reconstructed keyword group, This is an automatic text classification method.
[0061]
According to the above method, the table used for classification can be reconstructed appropriately, so it is possible to automatically classify sentences with extremely high accuracy, and depending on the group after classification, the subject of the sentence, related fields, and rough contents This makes it easy to identify the countries, regions, and companies involved.
[0062]
39. Steps for inputting sentences to the editing terminal; steps for the editing terminal to send the sentences to the server system to request classification processing; steps for the server system to receive the sentences and classification processing request; The system analyzes the sentence, extracts a word, compares the extracted word with a group of keywords described by associating the keyword with a classification item, weights the result of the comparison and matches the corresponding item, An automatic sentence classification method comprising a step of finding, a step of transmitting a classification process result to an editor terminal, and a step of receiving the classification process result by the editing terminal.
[0063]
According to the above method, it is possible to perform automatic text classification using a terminal with a simple configuration connected to the network, and maintenance such as reconfiguration of keyword groups is only required once.
[0064]
Here, the text is an electronic document, and there is no problem with the data format as long as it is a data format that can be processed by a computer. Of course, the sentences to be classified are not limited to Japanese but may be described in other languages such as English.
[0065]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the automatic document classification apparatus of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram of an embodiment of an automatic sentence classification apparatus according to the present invention. The automatic
[0066]
The
[0067]
The text analysis unit 120 is a unit that analyzes an input sentence, extracts attribute information and heading information, and extracts words from sentences other than the attribute information part. When attribute information and heading information are not included in the sentence or when they are not reflected in the classification, the sentence is analyzed without extracting the attribute information and heading information, and the word is extracted. The analysis of the sentence is performed by reading the word analysis dictionary table 181 from the storage unit 18 and referring to this to perform morphological analysis.
[0068]
The attribute information is information for maximal rough classification of the document inserted in an arbitrary place in the sentence, for example, the first line of the sentence. The heading information is a title of the document inserted in an arbitrary place in the sentence, for example, the second line of the sentence.
[0069]
The keyword scanning unit 130 reads the classification item keyword table 182 stored in the
[0070]
The comparison calculation means 140 searches the major classification item to which the minor classification item corresponding to the matched keyword belongs, and among the coefficients set for each major classification item for each attribute information extracted in the keyword appearance frequency for each minor classification item. Weighting by multiplying the coefficient of the major classification item to which the minor classification item belongs, sorting the minor classification item by the appearance frequency corrected with the coefficient, summarizing the classification results, and the corresponding classification item or the code Is a means for calculating. As the small category items are sorted, the middle category item and the large category item to which the small category item belongs are also sorted at the same time. In addition, the code items are sorted by country name information, prefectural and municipality information, and company information according to the appearance frequency of the keyword for each code item aggregated by the keyword scanning unit 130, and the country name to which the sentence corresponds by summarizing the classification results. It is also possible to calculate code items such as information, information on prefectures and municipalities, and company information.
[0071]
The output means 150 is composed of a monitor for displaying or printing the classification items or / and attached information items calculated by the comparison operation means, a printer, a modem for distributing texts via a network, or the like. Yes. The
[0072]
The conversion
[0073]
The
[0074]
The storage means 180 is not built in the automatic
[0075]
Further, the automatic
[0076]
As shown in FIG. 3, the classification item keyword table 182 has a large item, the large item is divided into medium items, the medium item is also divided into small items, and is formed in a three-layer structure. It is described in association with each sub-item. The middle category item is a superordinate concept of the minor category item, and the major category item is a superordinate concept of the middle category item and the minor category item. Each item has a corresponding code. It is not always necessary to have a three-layer structure, and one layer, two layers, or four or more layers may be used as appropriate. As shown in FIG. 4, the prefecture / city / town / village code table 183 has a two-layer structure with prefectures in the upper layer and municipalities in the lower layer for each prefecture, and code numbers are associated with the respective prefectures and municipalities. As shown in FIG. 5, the country name code table 184 describes a country name and a code symbol in association with each other. The company code table 185 is described in association with the company and the code number as shown in FIG.
[0077]
In the classification item coefficient table 186, a large item is set for each attribute information, and a classification item coefficient is associated with each large item. The specific information keyword table is a table in which keywords specifying a specific relationship with country name information, prefecture city information, and company information are described, and a keyword is associated with each item. The specific classification item keyword table is a table describing keywords that specify a specific relationship with a classification item, and a keyword is associated with each small classification item.
[0078]
These various tables can be displayed on the monitor screen which is the output means 150, and can be changed, added or deleted by the mouse, keyboard or the like which is the input means 110. Various tables which have been changed, added, deleted or reconfigured are input means. 110 is stored in the
[0079]
FIG. 2 is a block diagram of another embodiment of the automatic text classification apparatus of the present invention. The automatic
[0080]
The
[0081]
Next, the processing procedure of the document automatic classification program of the present invention will be described. FIG. 8 is a flowchart showing an embodiment of the processing procedure of the document automatic classification program of the present invention. First, a text analysis process for analyzing a document to be classified and extracting a word from the sentence is performed S10. Next, a keyword scanning process for comparing and collating the extracted word with the keyword group is performed S20. Then, a comparison operation process is performed for weighting the results of the comparison and collation and calculating the category items to which the sentences correspond (S30). Next, after a category item is found, a process of outputting the classification result is performed S40. Next, it is requested to determine whether the classification result needs to be changed or not, and when the change is required, the user is prompted to change the document or the classification result, and when no change is required or the classification result is changed. In the case of failure, classification confirmation processing S50 to be advanced to the next step is performed. And the conversion result storage process which adds the item of the result of a classification to a text is performed S60. Furthermore, the process which accumulate | stores and / or distributes the classified sentence for every classified item is performed S70.
[0082]
The classification result output process S40, the classification confirmation process S50, the conversion result storage process S60, the accumulation process and / or the distribution process S70 other than the text analysis process S10, the keyword scanning process S20, and the comparison calculation process S30 are not necessarily required. This process may be omitted, and an appropriate process may be selected from these processes to proceed, or the process may be appropriately changed to proceed.
[0083]
Each process will be described in detail. The text analysis process S10 reads a word analysis dictionary for decomposing a sentence to be classified into words S101, extracts attribute information from the sentence S102, and extracts information found from the sentence. At the same time, the word of the finding information part is extracted by referring to the word analysis dictionary S103, and the word of the body part excluding the attribute information and the finding information from the sentence by referring to the word analysis dictionary S104. Note that the attribute information extraction S102, the word information extraction S103, and the body part word extraction S104 are not necessarily in this order, and may be performed simultaneously. Further, when there is no attribute information or finding information in the sentence to be classified or when it is not reflected in the classification, the processing of extracting attribute information S102 and extracting word of finding information S103 is omitted as appropriate. The attribute information, the finding information, and the body part are divided by a control code such as a tag, other symbols, and delimiter information by line breaks, and each part is extracted.
[0084]
Note that the word extraction in the text analysis process S10 can be performed by referring to the word analysis dictionary and analyzing the sentence based on the morphological analysis to extract the word and using various other extraction methods. The extraction method is not limited.
[0085]
The keyword scanning process S20 is performed in addition to the classification item keyword table or the classification item keyword table constituting the keyword group, and in addition to the item table of the attached information such as the prefecture code table, the country code table, and the company code table. At least one is read in S201, an appropriate code table is developed in the memory in addition to the classification item keyword table or the classification item keyword table, and the extracted word is compared with the keyword group of the classification item keyword table or the code table. S203, the appearance frequency of keywords in the keyword group of the classification item keyword table that matches the extracted word is totaled for each small classification item, or the appearance frequency of keywords in the keyword group of the code table is further totaled for each code item. . Note that the number is counted even when there are a plurality of the same keywords. The keywords included in the heading information may or may not be counted.
[0086]
S30 which performs the comparison calculation process searches each large / medium / small classification item corresponding to the keyword matched with the extracted word, or in addition, the code item of country name information, the code item of prefecture / city / town / village information, and the code item of company information. S301, weighting by multiplying the coefficient set for each major classification item for each attribute information extracted by the keyword appearance frequency for each retrieved minor classification item by the coefficient of the major classification item to which the minor classification item belongs, or Further, the keywords for each code item searched for each code table are weighted by the appearance frequency in S302, the small classification items are sorted by the appearance frequency corrected by the coefficient, and as a result, the large / medium classification items to which the small classification items belong are sorted, or Further, the code items are sorted by the appearance frequency for each code item, and the code item of S303, classification item, country name information, and prefectural municipal information is sorted. S306 to calculate category or the code entry by aggregating the results of the classification for each code field of enterprise information, code items of country information, code item prefectures municipal information, the code items of the company information.
[0087]
Of course, only the classification items may be searched, sorted, etc., and processing such as country name information code items, prefecture city information code items, company information code items may be omitted as appropriate. Good. In addition, the weighting S302 is based on the keyword appearance frequency for each retrieved small classification item, and the middle classification item or small classification to which the small classification item belongs among the coefficients set for each medium classification item or small classification item for each extracted attribute information. Weighting may be performed by multiplying by the coefficient of the classification item. Furthermore, the weighting does not reflect the attribute information or does not reflect the attribute information. Weighting may be performed by multiplying the keyword appearance frequency by a coefficient set for each major category item to which the minor category item belongs, or for each minor category item or each middle category.
[0088]
In addition, if the extracted word matches the keyword of the keyword group that specifies the specific relationship with at least one of the classification item, country name information, prefecture city information, and company information, the keyword and the specific relationship It is also possible to search the classification item for which the designation is specified, the code item of the country name information, the code item of the prefectural and municipality information, and the code item of the company information with reference to the specific information keyword table and reflect them in the result of classification in S304. Good. In this case, it is possible to arbitrarily set whether to prioritize one of the classification item, country name information, prefecture / city / town / village information, and company information searched in S303 and reflect the result in the classification result. Furthermore, when the extraction information has been subjected to word extraction processing separately from the body text, the keyword information of the keyword group in the specific classification item keyword table for designating a specific relationship with the classification item in advance If the extracted words match, a specific classification item may be searched from the keyword in the found information part. In this case, it is possible to arbitrarily set whether or not the sorting result with the priority ranking and the sorting result with priority ranking is given priority and reflected in the sorting result.
[0089]
As the classification result, only the highest sorted item may be calculated as the classification result, but a plurality of appropriate higher order items may be calculated as the classification result.
[0090]
S40, which performs the process of outputting the classification result, reads the classification item keyword table or various code tables in addition to S401, refers to the classification item keyword table or addition various code tables, and determines the item name from the classification result code. Search S402, set the item name in the classification result display dialog S403, display or further print the classification result S404. Here, the classification result may display only the topmost sorted item as a result, or may display a plurality of appropriate upper items as the classification result.
[0091]
The classification confirmation processing S50 requests to judge whether or not the classification result needs to be changed when the classification result is displayed, and whether or not to cancel the classification result. S501, when no change is necessary or an instruction to change the classification result. If the change is made, the process proceeds to S502, the next process is performed, and if the classification result is cancelled, the change of the document is prompted to perform S503, and the classification confirmation process S50 is performed.
[0092]
The conversion result storing process S60 is performed by referring to the classification item keyword table or in addition to various code tables to convert the classification result item name into the code on the table S601, and the text-formatted sentence such as XML data in a predetermined format. A code converted from the classification result is set in the tag item and added to the sentence S602. Of course, the word of the classification result item may be added as it is without converting the classification result into a code.
[0093]
S70 for performing processing for accumulating or / and distributing sentences for each classification accumulates sentences to which classification results are given, for example, XML data, and distributes S701 or / and sentences to which classification results are given S702. The accumulation is stored for each classification in a storage area for each classification result provided in advance, but may be stored without providing a storage area for each classification result. In addition, the distribution is distributed to a distribution destination corresponding to a predetermined classification, but may be distributed to any distribution destination regardless of the classification. The classification results may be any of large classification items, medium classification items, small classification items, country name information, prefectural and municipality information, and company information, and any of these classifications. It is also possible to perform storage or distribution processing corresponding to the item or all applicable classification items.
[0094]
Further, a result of classification for a certain period is totaled, a statistical processing is performed on the frequency of occurrence of the set keyword, and a statistical result is calculated for each item of the classification result normalized by the number of target sentences, a classification result totaling process S801, It is recommended to include the process S802 for outputting the aggregation result.
[0095]
Further, a classification item keyword table as a keyword group described for each classification item and / or various code tables as a keyword group described for each code item are output S901, and the keyword group is changed, added or deleted, S902, keyword It is recommended to include the process S903 for reconfiguring the group.
[0096]
In addition, as a computer-readable recording medium on which an automatic document classification program is recorded, an automatic sentence classification program for causing a computer to execute the above processing is recorded on a computer-readable recording medium such as a magnetic disk, magnetic tape, or optical disk. It is a thing. When the automatic sentence classification process is performed, the above-described automatic sentence classification process is performed by reading the recording medium into a computer and executing the program.
[0097]
Next, an embodiment of the automatic classification method of the present invention will be specifically described by taking the
[0098]
Next, the keyword scanning means 130 includes at least one of the code table such as the prefectural municipal code table 183, the country code table 184, and the company code table 185 in addition to the classification item keyword table 182 or the classification item keyword table 182. S201, in addition to the classification item keyword table 182 or the classification item keyword table 182, the appropriate code table is expanded in the memory S202, and the extracted words “congress”, “finance”, “committee”, “government”, “Trade”, “Hearing”, “United States”, “Osaka”, “Suzuki Sangyo”, etc. The keywords “government”, “finance”, “trade”, etc. of the classification item keyword table 182, and further, the city code of the prefecture The keywords “Hokkaido”, “Sapporo City”, “Osaka”, etc. The keywords “Afghanistan”, “USA”, etc. of the
[0099]
Then, the comparison calculation means 140 refers to various tables and corresponds to the keyword that matches the keyword “trade” with the large classification item “economy”, the medium classification item “macro economy”, and the small classification item “trade”. S301, search for the category item, country name information, prefecture city information, and company information to be performed, and for each subcategory searched, the keyword appearance frequency for each subcategory item, for example, “Trade” is 3 in the subitem “Trade”, Since “trade” is 2 and “import” is 1, the coefficient “0...” Set for the major category “economy” to which the minor category “trade” of the attribute information “foreign news” 910 extracted to “6” belongs. "10" is weighted, the same processing is performed for each small classification item, and the appearance frequency of the country code item, the prefecture code item, and the company code item, for example, "USA" is 1 and "Osaka" is 1 , "Suzuki "1" is added up to S302, the classification items are sorted by the appearance frequency "0.6" corrected by the coefficient, and the appearance frequency of the country name information, the prefecture city information, and the company information is sorted for each information. Then, the classification item, country name information, prefecture city information, and company information are aggregated for each classification result to calculate the classification item, country name information, prefecture city information, and company information (S306). At this time, various items calculated are converted into codes such that “Economy” is “02000”, “USA” is “USA”, and “Suzuki Industry” is “2501”.
[0100]
It should be noted that the classification item, country name information, prefecture / city / town / village information, and company information for which a specific association with the keyword is designated in advance is searched with reference to the specific information keyword table stored in the storage means 180, and S304, the classification item, It may be reflected in the classification result of country name information, prefecture city information, and company information. In this case, it is possible to arbitrarily set whether to prioritize any of country name information, prefecture / city / town / village information, and company information searched in S301 and reflect them in the classification result. Furthermore, when the extraction information is subjected to word extraction processing separately from the text, a specific classification item is searched from the keywords of the extraction information with reference to the specific classification item keyword table stored in the
[0101]
Next, the classification means keyword table 182 or various code tables 182, 183, 184, and 185 are read by the output means 150 in step S401, and the classification item keyword table or additionally various code tables 182, 183, 184, and 185 are referred to. From the code information “02000” of the classification result, “Economy” is searched, “USA” is searched from “USA”, “Suzuki Sangyo” is searched from “2501”, etc., and the item name “Economy” is displayed in the classification result display dialog. ”,“ USA ”,“ Osaka ”,“ Suzuki Sangyo ”, etc. are set and S403, and the classification result is displayed or printed as shown in FIG. 20 (S404).
[0102]
Next, when the classification result is displayed by the
[0103]
The conversion result storage means 160 refers to the classification item keyword table 182 or in addition to the various code tables 182, 183, 184, and 185, from the classification result item names "Economy", "USA", "Suzuki Sangyo", etc. Conversion to codes “02000”, “USA”, “2501” and the like on the table is performed in S601, and a code converted from the classification result is set in a predetermined tag item of a text-format sentence (S602). The item names “economy”, “US”, “Suzuki Sangyo”, etc. of the classification result may be added to the text as they are without being converted into codes.
[0104]
Then, the storage unit 170 stores the
[0105]
The classification
[0106]
It should be noted that various tables 181, 182, 183, 184, 185, and 186 are instructed by the input means 110 in response to changes in words, changes in area names, establishment of companies, mergers, disappearances, etc. with changes in the times. In step S901, the
[0107]
【The invention's effect】
According to the present invention as described above, it is possible to automatically classify sentences very quickly and with high accuracy. In addition, all sentences can be classified into predetermined classification groups, and the group after classification can easily grasp the subject, related fields, rough contents, related countries, regions, companies, etc. Furthermore, it is possible to store and send the classified text for each classification, and the user can smoothly use the classified text so that the subject can be grasped without decoding the text. Further, the above-described effects can be obtained even when a computer terminal having a simple configuration is used.
[Brief description of the drawings]
FIG. 1 is a block diagram of an embodiment of an automatic sentence classification apparatus according to the present invention.
FIG. 2 is a block diagram of another embodiment of the automatic text classification device of the present invention.
FIG. 3 is a diagram showing a classification item keyword table according to an embodiment of the present invention;
FIG. 4 is a diagram showing a prefecture / city / town / village code table according to an embodiment of the present invention;
FIG. 5 shows a country code table according to an embodiment of the present invention.
FIG. 6 is a diagram showing a company code table according to an embodiment of the present invention.
FIG. 7 is a diagram showing a coefficient table according to an embodiment of the present invention.
FIG. 8 is a flowchart showing the flow of processing according to an embodiment of the present invention.
FIG. 9 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 10 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 11 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 12 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 13 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 14 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 15 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 16 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 17 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 18 is a diagram showing an example of a classification target sentence in the present invention.
FIG. 19 is a conceptual diagram of weighting of classification items according to an embodiment of the present invention.
FIG. 20 is a diagram showing a display screen of a classification result according to an embodiment of the present invention.
FIG. 21 is a diagram showing classified sentences according to one embodiment of the present invention.
[Explanation of symbols]
100 Automatic sentence classification device
110 Input means
120 Text analysis means
130 Keyword scanning means
140 Comparison operation means
150 Output means
160 Conversion result storage means
170 Storage means
180 Storage means
182 Classification Item Keyword Table
183 Prefecture municipality code table
184 country code table
185 company code table
186 Classification item coefficient table
190 Control means
191 Classification result statistical means
200 Automatic sentence classification device
210 Editing terminal
211 Input means
212 Output means
220 server system
230 network
910 Attribute information
920 heading information
Claims (30)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001225609A JP4711556B2 (en) | 2001-07-26 | 2001-07-26 | Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001225609A JP4711556B2 (en) | 2001-07-26 | 2001-07-26 | Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003036261A JP2003036261A (en) | 2003-02-07 |
JP4711556B2 true JP4711556B2 (en) | 2011-06-29 |
Family
ID=19058574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001225609A Expired - Fee Related JP4711556B2 (en) | 2001-07-26 | 2001-07-26 | Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4711556B2 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7451130B2 (en) * | 2003-06-16 | 2008-11-11 | Google Inc. | System and method for providing preferred country biasing of search results |
JP4398461B2 (en) * | 2005-11-25 | 2010-01-13 | 三菱スペース・ソフトウエア株式会社 | Literature retrieval device, literature retrieval method, and literature retrieval program |
JPWO2007060727A1 (en) * | 2005-11-25 | 2009-05-07 | 三菱スペース・ソフトウエア株式会社 | Literature retrieval apparatus, method and program |
JP4886014B2 (en) * | 2009-09-16 | 2012-02-29 | 三菱スペース・ソフトウエア株式会社 | Literature retrieval device, literature retrieval method, and literature retrieval program |
JP2016189036A (en) * | 2013-08-23 | 2016-11-04 | 株式会社Ubic | Document fractionation system, document fractionation method and document fractionation program |
US11043287B2 (en) | 2014-02-19 | 2021-06-22 | Teijin Limited | Information processing apparatus and information processing method |
JP5746403B2 (en) * | 2014-06-18 | 2015-07-08 | 株式会社Ubic | Document separation system, method for controlling document separation system, and control program for document separation system |
CN111126879B (en) * | 2019-12-31 | 2024-05-31 | 厦门美契信息技术有限公司 | Green melt item selection evaluation method |
-
2001
- 2001-07-26 JP JP2001225609A patent/JP4711556B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003036261A (en) | 2003-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Finn et al. | Genre classification and domain transfer for information filtering | |
US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
EP2041669B1 (en) | Text categorization using external knowledge | |
US8266077B2 (en) | Method of analyzing documents | |
US8849787B2 (en) | Two stage search | |
US20070136280A1 (en) | Factoid-based searching | |
US9251248B2 (en) | Using context to extract entities from a document collection | |
US20110270815A1 (en) | Extracting structured data from web queries | |
CN112231494B (en) | Information extraction method and device, electronic equipment and storage medium | |
KR20130095171A (en) | Forensic system and forensic method, and forensic program | |
Banerjee et al. | Bengali question classification: Towards developing qa system | |
CN110968800A (en) | Information recommendation method and device, electronic equipment and readable storage medium | |
US20230419026A1 (en) | Systems and methods for document analysis to produce, consume and analyze content-by-example logs for documents | |
US20230418883A1 (en) | Systems and methods for document analysis to produce, consume and analyze content-by-example logs for documents | |
JP4711556B2 (en) | Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program | |
Tüselmann et al. | Are end-to-end systems really necessary for NER on handwritten document images? | |
EP0822503A1 (en) | Document retrieval system | |
Rahab et al. | Rule-based Arabic sentiment analysis using binary equilibrium optimization algorithm | |
Hamdi et al. | Machine learning vs deterministic rule-based system for document stream segmentation | |
KR20020008096A (en) | Application system for network-based search service using resemblant words and method thereof | |
CN114417010A (en) | Knowledge graph construction method and device for real-time workflow and storage medium | |
JP2006293616A (en) | Document aggregating method, and device and program | |
KR20230057841A (en) | Nuclear-related industry information collection, analysis and classification system and method thereof | |
WO2015125088A1 (en) | Document characterization method | |
Mallek et al. | Automatic detection of variable data in web document: Graphical representation on demand |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100907 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101214 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110214 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110322 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |