JP2006113677A - 文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体 - Google Patents

文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2006113677A
JP2006113677A JP2004297952A JP2004297952A JP2006113677A JP 2006113677 A JP2006113677 A JP 2006113677A JP 2004297952 A JP2004297952 A JP 2004297952A JP 2004297952 A JP2004297952 A JP 2004297952A JP 2006113677 A JP2006113677 A JP 2006113677A
Authority
JP
Japan
Prior art keywords
classification
document
information
lexical
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004297952A
Other languages
English (en)
Other versions
JP2006113677A5 (ja
JP4615279B2 (ja
Inventor
Sumio Fujita
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Patolis Corp
Original Assignee
Patolis Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Patolis Corp filed Critical Patolis Corp
Priority to JP2004297952A priority Critical patent/JP4615279B2/ja
Publication of JP2006113677A publication Critical patent/JP2006113677A/ja
Publication of JP2006113677A5 publication Critical patent/JP2006113677A5/ja
Application granted granted Critical
Publication of JP4615279B2 publication Critical patent/JP4615279B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract


【課題】 文献の分類の認識が容易な文献情報分類システムを提供する。
【解決手段】 要求情報取得手段351にて分類認識対象の文献中の字句情報を取得すると、分類情報とにて1つのデータ構造を構築する文献情報を複数格納するテーブル構造の文献情報記憶領域341の文献情報の字句との同一性を判断手段352により判断する。判断した同一性に基づき文献情報記憶領域341の文献情報を文献選出手段353にて選出し、文献情報に関連付く分類情報を、同一性に対応して分類取得手段354にて認識対象の分類として取得する。
【選択図】 図3

Description

本発明は、分類に関する分類情報が関連付けられた複数の文献情報を利用して文献の分類を認識する文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体に関する。
従来、文書を分類する装置として、各種構成が知られている(例えば、特許文献1参照)。
特許文献1に記載のものは、分類規則データベースに蓄積された分類規則に基づいて、入力された文書を分類毎に分類文書データベースに蓄積する。この分類文書データベースに蓄積されている文書から分類毎にキーワードを抽出し、キーワードデータベースに蓄積する。分類文書データベースに蓄積された文書が、分類作成条件データベースに蓄積されユーザが最初に入力しておいた分類作成条件を満たす場合、キーワードデータベースに蓄積されているキーワードを用い、分類作成規則データベースに蓄積されている分類作成規則に従って文書を分類するための分類規則を新たに作成する。分類規則が新たに作成された場合、文書分類データベースに蓄積されている文書を再分類する。このように、ユーザが最初に分類作成規則を入力しておくことで、文書を分類するため分類規則が作成され、この分類規則に基づいて入力された文書が自動的に分類される構成が採られている。
特許文献2に記載のものは、あらかじめ分類された文書中に含まれる隣接する単語列を分類項目として、分類項目毎に全分類中の所定分類に分類される頻度を演算し、分類項目が文書を分類する確率を演算し蓄積しておく。そして、分類すべき文書が入力された際、その文書中の単語を用いて、分類項目において単語列を抽出し、この抽出した単語列に対してあらかじめ蓄積しておいた連続する単語列で一致する文書がある分類に属する分類確率を抽出する。この分類項目の分類確率を用いて、文書がある分類に対して分類される確率を個別に算出し、この分率確率のうちの最も確率の高いものから順に文書の分類結果として表示させる構成が採られている。
特許文献3に記載のものは、分類済みの文書データから、文書データ内における唯一の分類のみに出現する単語を検出して分類を表すキーワードとして分類用辞書に登録する。未分類の文書データ中の単語を検出し、分類用辞書に登録済みのキーワードとの一致数を検出し、一致した分類の中で最も一致数が多い分類を分類結果とする。
特許文献4に記載のものは、学習用文書に含まれる語から分類に有用な有効語を選定し、出現頻度や他の有効毎の共起状況などによりベクトル表現して有効語辞書として保持する。学習用文書と分類対象文書とについて、有効語辞書を参照して段落ベクトルを求め、段落ベクトルの分布から他話題段落を決定する。他話題段落を参照して段落ベクトルの中から有効な段落ベクトルを取り出し、文書ベクトルを求める。学習用文書の文書ベクトルを用いて各カテゴリのフォルダベクトルを求める。分類対象文書の文書ベクトルと各カテゴリのフォルダベクトルとの比較結果に応じて、分類対象文書が属するカテゴリを決定する構成が採られている。
特許文献5に記載のものは、過去に実施した分類に対する正解率から求めた重み付けなどによる評価関数を各分類担当者毎にデータベース化しておくと共に、各分類毎にその分類を特徴付ける典型文書をあらかじめ用意しておく。分類担当者による対象文書の分類結果と評価関数とから、各分類に対して手動分類を点数化する。対象文書と典型文書との類似度を演算し、各分類に対して自動分類を点数化する。手動分類の点数と自動分類の点数とを各分類毎に合計した値か最も高い分類を最終分類結果とし、手動分類と自動分類とを融合化して正確な分類結果を得る構成が採られている。
特開平11−203302号公報(第5頁左欄〜第7頁右欄) 特開平8−287097号公報(第7頁左欄〜第9頁右欄) 特開平6−348755号公報(第3頁右欄〜第6頁右欄) 特開平11−85796号公報(第6頁右欄〜第9頁左欄) 特開平11−45247号公報(第3頁左欄〜第6頁右欄)
上述したように、特許文献1ないし特許文献5に記載のような従来の構成では、あらかじめ定義された分類項目を特徴付けるキーワードなどの語集合や特徴パターン、規則などをあらかじめ設定しておき、分類項目があらかじめ付与された文献集合を用い、分類項目と分類対象の文献とを照合して分類項目を決定している。このことにより、適切な分類が得られるように、所定の分類項目をあらがめ設定しておく必要があり、装置構築が煩雑である問題がある。
本発明の目的は、このような点に鑑みて、文献の分類の認識が容易な文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体を提供することにある。
本発明の文献分類認識装置は、字句を含む文献に関する文献情報の分類を認識する文献分類認識装置であって、前記分類の認識対象の前記文献に含まれる字句に関する字句情報を取得する字句取得手段と、前記分類に関する分類情報が関連付けられて1つのデータ構造に構築された文献情報を複数格納するテーブル構造の文献記憶手段に格納された前記文献情報に含まれる字句と前記字句取得手段にて取得した字句との同一性を判断する判断手段と、前記同一性に基づいて前記文献記憶手段に格納された前記文献情報を選出する文献選出手段と、前記選出した文献情報に関連付けられた分類情報を前記認識対象の分類として取得する分類取得手段と、を具備したことを特徴とする。
この発明では、字句取得手段にて分類の認識対象の文献に含まれる字句に関する字句情報を取得すると、分類に関する分類情報が関連付けられて1つのデータ構造に構築された文献情報を複数格納するテーブル構造の文献記憶手段に格納された文献情報に含まれる字句と取得した字句との同一性を判断手段により判断する。この判断した同一性に基づいて文献記憶手段に格納された文献情報を文献選出手段にて選出し、この選出した文献情報に関連付けられた分類情報を分類取得手段により認識対象の分類として取得する。この構成では、分類の認識対象の文献と類似する内容の文献を、あらかじめ分類情報が関連付けられた文献情報に基づいて文献に含まれる字句の同一性の判断により認識して内容の類似する文献の分類を認識対象の文献の分類として認識するので、例えば既存の分類が認識されている文献情報のデータベースを利用して、文献の分類が容易な演算により容易に認識可能となる。
そして、本発明では、前記字句取得手段は、前記字句情報として複数の単語を取得し、前記判断手段は、前記字句取得手段により取得した複数の単語のうち前記文献記憶手段の文献情報に含まれる単語と同一の単語の割合を演算して同一性を判断する構成とすることが好ましい。この構成では、字句取得手段にて複数の単語を字句情報として取得させ、この取得した複数の単語のうち文献記憶手段の文献情報に含まれる単語と同一の単語の割合を判断手段にて演算させて同一性を判断させるので、例えば形態素解析などにより認識した単語の同一となる割合を字句の同一性として判断して文献の内容の類似が認識される。このため、容易な演算により文献の内容の類似が判断され、容易に分類が認識可能となる。
さらに、本発明では、前記判断手段は、前記字句取得手段により取得した字句の文字列と、前記文献記憶手段の文献情報に含まれる字句の文字列との類似度を演算して同一性を判断することが好ましい。この構成では、判断手段により、字句取得手段にて取得した字句の文字列と、文献記憶手段の文献情報に含まれる字句の文字列との類似度を演算して字句の同一性を判断しているので、文献の内容の類似が容易な演算により得られ、容易に分類が認識可能となる。
そして、本発明では、前記判断手段は、文字列を1文字分ずつずらした文字列の並びにより類似度を演算することが好ましい。この構成では、判断手段により、文字列を1文字分ずつずらした文字列の並びにより類似度を演算しているので、検索漏れが減少し、適切に字句の同一性が判断される。また、形態素解析などの分析をする必要が無く、簡単な処理で容易に適切な字句の同一性が判断される。なお、文字列の文字数は、特に限定されない。例えば、1字ずつずらした3文字の部分文字列、2文字の部分文字列、または1文字の単位文字列としてもよい。また、これら3文字の部分文字列、2文字の部分文字列、および1文字の単位文字列を全て抽出する構成とするなどしてもよい。
また、本発明では、前記判断手段は、前記同一性に対応した得点に関する得点情報を前記文献記憶手段の文献情報に関連付け、前記文献選出手段は、前記得点情報の得点が高い前記文献情報を選出する構成とすることが好ましい。この構成では、判断手段により判断した同一性に対応した得点に関する得点情報を文献記憶手段の文献情報に関連付け、得点が高い得点情報が関連付けられた文献情報を文献選出手段により選出しているので、認識対象の文献に内容が類似する文献情報の類似度合いが得点により容易に認識され、内容が類似する文献情報の特定が簡単な演算により得られ、分類が容易に認識される。
さらに、本発明では、前記分類取得手段は、前記文献選出手段にて選出された前記文献情報に関連付けられた分類情報とともに前記得点情報を関連付けて取得し、各文献情報から取得した前記分類情報の分類毎に前記得点情報の得点を合算して合計得点を演算し、合計得点が高い前記分類情報を前記認識対象の分類として取得する構成とすることが好ましい。この構成では、分類取得手段により、文献選出手段で選出した文献情報における分類情報および得点情報を取得し、取得した分類情報の分類毎に得点情報の得点を合算して合計得点を演算し、合計得点が高い分類情報を認識対象の分類として取得するので、内容の類似状況に応じた分類が適切に選出される。
そして、本発明では、前記分類取得手段は、前記文献選出手段にて選出された前記文献情報に関連付けられた分類情報の分類毎の出現頻度を演算し、これら各分類の出現頻度が高い分類の分類情報を前記認識対象の分類として取得する構成とすることが好ましい。この構成では、分類取得手段により、文献選出手段にて選出した文献情報に関連付けられた分類情報の分類毎の出現頻度を演算し、各分類の出現頻度が高い分類の分類情報を認識対象の分類としているので、内容に対応した好適な分類が認識可能となる。
さらに、本発明では、前記分類取得手段は、前記文献選出手段にて選出した各文献情報における分類情報を分類毎に計数して出現頻度を演算する構成とすることが好ましい。この構成では、分類取得手段により、文献選出手段にて選出した各文献情報における分類情報を分類毎に計数して出現頻度を演算しているので、より内容に対応した好適な分類が簡単な演算により容易に認識される。
また、本発明では、前記分類情報の分類は、国際特許分類である構成とすることが好ましい。この構成では、分類情報の分類として国際的に統一化された内容の分類である国際特許分類を利用するので、統一的な分類が得られるとともに、国際特許分類が関連付けられた既存の特許文献である特許公開公報データなどのデータベースを利用でき、文献記憶手段をあらかじめ構築する必要がなく簡単な構成で容易に分類の認識が可能となる。
さらに、本発明では、前記分類取得手段にて取得した分類を入力操作により選択可能に表示手段に表示させる表示制御手段を具備した構成とすることが好ましい。この構成では、表示制御手段により、分類取得手段にて取得した分類を入力操作にて選択可能に表示手段に表示させる。このため、演算により認識された分類を利用者が確認できるとともに、適宜設定や修正などを可能とすることが容易となり、より適切な分類の設定が得られる。
また、本発明では、前記表示制御手段は、前記表示手段に表示する分類が入力操作により選択されたことを認識すると前記分類の内容に関する説明情報を前記表示手段に表示させる構成とすることが好ましい。この構成では、表示制御手段により、表示手段に表示される分類が入力操作により選択されたことを認識すると、分類の内容に関する説明情報を表示手段に表示させるので、認識された分類の内容が利用者にて容易に確認可能であり、使い勝手が向上する。
そして、本発明では、前記表示制御手段は、前記分類取得手段で取得した分類を、前記同一性に対応した表示形態で表示させる制御をする構成とすることが好ましい。この構成では、表示制御手段により、分類取得手段で取得した分類を同一性に対応した表示形態、例えば色彩や明度などを同一性に対応した形態で表示させるので、認識対象の文献情報の内容との適合状態を利用者に容易に認識させることができ、例えば分類が複数表示される場合に特に有効である。
さらに、本発明では、前記表示制御手段は、前記分類取得手段で取得した分類を、前記同一性に対応した得点に関する得点情報と併せて表示させる制御をする構成とすることが好ましい。この構成では、表示制御手段により、分類取得手段で取得した分類を、同一性に対応した得点に関する得点情報と併せて表示させるので、認識対象の文献情報の内容との適合状態を利用者に容易に認識させることができ、例えば分類が複数表示される場合に特に有効である。
そして、本発明では、前記字句取得手段にて取得した字句が他の字句と異なる表示形態に前記文献情報を表示手段に表示させる表示制御手段を具備した構成とすることが好ましい。この構成では、表示制御手段により、字句取得手段にて取得した字句が他の字句と異なる表示形態に文献情報を表示手段に表示させるため、分類の認識対象の文献情報やその文献情報と同一の分類の文献情報における分類認識の要因となる字句を利用者に容易に認識させることができ、使い勝手が向上する。
さらに、本発明では、前記表示制御手段は、他の字句と異なる表示形態に表示された字句が入力操作により選択されるとその字句により取得した分類情報を表示手段に表示させる構成とすることが好ましい。この構成では、表示制御手段により、他の字句と異なる表示形態に表示された字句が入力操作により選択されるとその字句により取得した分類情報の分類を表示手段に表示させるので、文献情報の分類の確認が容易となり、使い勝手が向上する。
また、本発明では、ネットワークを介して接続されたサーバ装置から送信され前記文献記憶手段に記憶された前記文献情報を変更させる旨および前記文献情報の記憶状況を変更する旨のうちの少なくともいずれか一方を含むデータ配信操作に関する操作情報を認識すると、前記文献記憶手段を制御して前記データ配信操作に対応して前記文献情報の変更および記憶状況の変更を実施させる制御をする記憶制御手段を具備した構成とすることが好ましい。この構成では、分類に関する分類情報が関連付けられた1つのデータ構造に構築された文献情報を複数格納するテーブル構造の文献記憶手段に対して、ネットワークで接続されたサーバ装置からデータを配信し、その記憶内容を追加・変更または新規に書き込みを実施させ、ネットワーク経由のデータ配信操作によって、分類体系対応能力が拡張・変更可能となる。
そして、本発明の文献分類装置は、分類に関する分類情報が関連付けられて1つのデータ構造に構築された文献情報を複数格納するテーブル構造の文献記憶手段と、この文献記憶手段を利用して所定の文献情報の分類を認識する請求項1ないし請求項15のいずれかに記載の文献分類認識装置と、を具備したことを特徴とする。
この発明では、分類に関する分類情報が関連付けられて1つのデータ構造に構築された文献情報を複数格納するテーブル構造の文献記憶手段を利用して、所定の文献情報の分類を、文献の分類が容易な演算により容易に認識可能な請求項1ないし請求項16のいずれかに記載の文献認識装置により認識する。このことにより、例えば既存の分類が認識されている文献情報のデータベースを利用することが容易で、文献の分類が容易な演算により容易に認識可能な構成の構築や簡略化などが容易に図れる。
そして、この発明では、前記文献分類認識装置にて認識した分類を認識対象の前記文献情報に関連付けてこの文献情報を前記文献記憶手段に格納させる記憶制御手段を具備した構成とすることが好ましい。この構成では、記憶制御手段により、文献分類認識装置にて認識した分類を認識対象の文献情報に関連付け、この文献情報を文献記憶手段に格納させるので、文献情報が自動的に蓄積され、使い勝手が向上する。また、例えば、分類毎に文献情報を構築するなどの使い勝手が良好なデータベースの構築も容易となる。
さらに、この発明では、前記記憶制御手段は、前記分類を関連付けて前記文献記憶手段に記憶させる前記文献情報に新たに格納する旨の識別情報を関連付け、前記文献分類認識装置の分類取得手段は、前記文献選出手段にて選出する文献情報に前記識別情報が関連付けられていることを認識すると、その文献情報の分類情報より前記識別情報が関連付けられていない文献情報の分類情報を優先的に取得する構成とすることが好ましい。この構成では、文献分類認識装置の文献選出手段が選出する文献情報に、記憶制御手段にて分類を関連付けて文献記憶手段に記憶させる文献情報に新たに格納する旨の識別情報が関連付けられている場合、識別情報が関連付けられていない文献情報の分類情報を分類取得手段にて優先的に取得させるので、文献分類認識装置で認識した分類を関連付けて新たに分類の認識のための文献情報として記憶させて文献記憶手段を構築させることによる分類の認識結果の変動が生じにくくなり、より信頼性の高い分類の認識が得られる。
また、本発明の文献分類認識方法は、演算手段により、字句を含む文献に関する文献情報の分類を認識する文献分類認識方法であって、前記演算手段は、前記分類の認識対象の前記文献に含まれる字句に関する字句情報を取得すると、この取得した字句情報と前記分類に関する分類情報が関連付けられて1つのデータ構造に構築された文献情報を複数格納するテーブル構造の文献記憶手段に格納された前記文献情報に含まれる字句との同一性を判断し、この判断した同一性に基づいて前記文献記憶手段に格納された前記文献情報を選出し、この選出した文献情報に関連付けられた文献情報を認識対象の分類として取得することを特徴とする。
この発明では、請求項1に記載の文献分類認識装置の動作を、演算手段により実施する方法に展開したもので、請求項1に記載の発明と同様の作用効果を奏する。
そして、本発明の文献分類プログラムは、演算手段を、請求項1ないし請求項16のいずれかに記載の文献分類認識装置、または、請求項17ないし請求項19のいずれかに記載の文献分類装置として機能させることを特徴とする。
この発明では、例えば汎用のコンピュータなどを演算手段として利用しインストールすることにより請求項1ないし請求項16のいずれかに記載の文献分類認識装置、または請求項17ないし請求項19のいずれかに記載の文献分類装置として機能させて実施させることが可能となり、本発明の利用促進が大幅に図れる。
また、本発明の文献分類プログラムは、請求項20に記載の文献分類認識方法を演算手段に実行させることを特徴とする。
この発明では、例えば汎用のコンピュータなどを演算手段として利用しインストールすることにより請求項20に記載の文献分類認識方法が演算手段に実行されるので、本発明の利用促進が大幅に図れる。
さらに、本発明の文献分類プログラムを記録した記録媒体は、請求項21または請求項22に記載の文献分類プログラムが演算手段に読取可能に記録されたことを特徴とする。
この発明では、請求項21または請求項22に記載の文献分類プログラムを記録媒体に記録するので、文献分類プログラムの取扱が容易で、本発明の利用促進が大幅に図れる。
そして、本発明において、演算手段は、例えば1つのパーソナルコンピュータ、複数のコンピュータをネットワーク状に組み合わせた構成、マイクロコンピュータなどの素子、あるいは複数の電子部品が搭載された回路基板などをも含むものである。
〔文献情報分類システムの構成〕
以下、本発明の一実施の形態について図面を参照して説明する。本実施の形態では、本発明の文献分類認識装置を備え、産業財産権である特許、実用新案および意匠に関する文献情報を利用して、所定の文献情報の分類である国際特許分類を認識するための文献分類装置としての文献情報分類システムの構成について例示するが、例えば商標などの他の産業財産権に関わる文献情報や、技術文献などいずれの文献情報をも対象とすることができる。また、分類としては国際特許分類に限らず、例えばあらかじめ設定された「報道」、「スポーツ」、「娯楽」などの内容、「医学」、「数学」、「生物」などの内容など、文献情報の内容を特定するようないずれの分類が対象となる。図1は、本実施の形態における文献情報分類システムの概略構成を示す概念図である。図2は、文献情報分類システムを構成する端末装置の概略構成を示すブロック図である。図3は、文献情報分類システムを構成するサーバ装置の概略構成を示すブロック図である。図4は、文献情報記憶領域のテーブル構造を概念的に示す模式図である。図5は、文献関連分類記憶領域のテーブル構造を概念的に示す模式図である。
図1において、100は文献分類装置としての文献情報分類システムで、この文献情報分類システム100は、例えば特許、実用新案および意匠などの産業財産権に関わる文献に関する文献情報の分類を認識するためのシステムである。この文献情報分類システム100は、端末装置200と、この端末装置200がネットワーク110を介して各種情報を送受信可能に接続する文献分類装置としても機能するサーバ装置300と、を備えている。
ここで、ネットワーク110としては、サーバ装置300と端末装置200との間を、各種データを送受信可能に接続する。このネットワーク110は、TCP/IP(Transmission Control Protocol/Internet Protocol)などの汎用のプロトコルに基づくインターネット、LAN(Local Area Network)などのイントラネット、無線媒体により情報が送受信可能な複数の基地局がネットワークを構成する通信回線網や放送網などのネットワーク、さらには、データを直接送受信するための媒体となる無線媒体自体など、データを送受信させるいずれの構成が利用できる。ここで、無線媒体としては、電波、光、音波、電磁波などのいずれの媒体をも適用できる。
端末装置200は、サーバ装置300で文献の分類を認識させる処理を要求するための装置で、例えばパーソナルコンピュータやオフィスコンピュータなどが例示できる。そして、端末装置200は、例えば図2に示すように、端末通信手段210と、操作手段としての端末入力手段220と、表示手段としての端末表示手段230と、端末記憶手段240と、端末処理手段250と、を備えている。
端末通信手段210は、ネットワーク110を介してサーバ装置300に接続される。この端末通信手段210は、ネットワーク110を介してサーバ装置300から端末信号を受信可能で、この端末信号の取得によりあらかじめ設定されている入力インターフェース処理を実施し、処理端末信号として端末処理手段250に出力する。また、端末通信手段210は、端末処理手段250から処理端末信号が入力可能で、この入力される処理端末信号の取得によりあらかじめ設定されている出力インターフェース処理を実施し、端末信号としてネットワーク110を介してサーバ装置300に送信する。
端末入力手段220は、例えばキーボードやマウスなどで、分類の認識処理の実施要求をする利用者により入力操作される図示しない各種操作ボタンや操作つまみなどを有している。これら操作ボタンや操作つまみなどの入力操作としては、端末装置200の動作内容の設定の他、文献情報の字句の入力設定、サーバ装置300における分類の認識処理のための各種条件項目、サーバ装置300で選出された分類の決定や修正、変更などの設定事項、文献情報の取得要求などである。そして、端末入力手段220は、入力操作に対応した所定の信号を端末処理手段250へ適宜出力して設定させる。なお、この端末入力手段220としては、操作ボタンや操作つまみなどの入力操作に限らず、例えば端末表示手段230に設けられたタッチパネルによる入力操作や、音声による入力操作など、さらには光学的文字読取装置(Optical Character Reader:OCR)や画像読取装置などにて読み取るなど、各種入力事項を設定入力可能ないずれの構成が適用できる。
端末表示手段230は、端末処理手段250にて制御され端末処理手段250からの画像データを画面表示させる。画像データとしては、例えば分類の認識処理のための各種条件項目の入力を促す画面表示、サーバ装置300で選出された分類を端末入力手段220による入力操作で選択や決定さらには修正や変更などが可能に表示する画面表示、分類が類似する文献情報を特定する固有情報を選択可能に一覧表示する画面表示などの他、端末装置200の動作内容や他のアプリケーションソフトウェアに関する画像データなど、各種画像データが表示可能である。この端末表示手段230としては、種々のディスプレイが挙げられ、例えば液晶表示パネルや有機EL(Electro Luminescence)パネル、PDP(Plasma Display Panel)、CRT(Cathode-Ray Tube)、FED(Field Emission Display)、電気泳動ディスプレイパネルなどが例示できる。
端末記憶手段240は、ネットワーク110を介してサーバ装置300から取得した各種情報や、端末入力手段220で入力操作される入力事項の他、外部から取得した各種情報をも適宜記憶する。また、端末記憶手段240は、端末装置200全体を動作制御するOS(Operating System)上に展開される各種プログラムなどをも記憶する。なお、端末記憶手段240としては、HD(Hard Disc)や光ディスクなどの記録媒体に読み出し可能に記憶するドライブやドライバなどを備えた構成の他、メモリなど、各種情報を記憶可能ないずれの構成が利用でき、ドライブとメモリとの双方さらには複数を備えた構成などとしてもよい。
端末処理手段250は、例えばCPU(Central Processing Unit)を備え、図示しない各種入出力ポート、例えば端末通信手段210が接続される通信制御ポート、端末入力手段220が接続されるキー入力ポート、端末表示手段230が接続される表示部制御ポート、印刷出力する図示しない出力手段としての印刷装置が接続可能な印刷制御ポート、端末記憶手段240が接続される記憶ポートなどを有する。そして、端末処理手段250は、各種プログラムとして、字句設定手段251と、要求設定手段252と、結果取得手段253と、表示制御手段としても機能する出力制御手段254と、などを備えている。
字句設定手段251は、端末入力手段220による入力操作にて入力された情報に基づいて、文献情報の分類を認識するための字句、例えば文献中に含まれる単語や文節などの字句を設定する。具体的には、所定の入力操作にて端末入力手段220で入力された単語や文節に関する字句情報を生成する。なお、字句情報としては、例えば入力支援手段としての入力プログラム(Input Method Editor:IME)などにより、いわゆるローマ字入力やかな入力などの入力に対応して変換された、ひらがな、カタカナ、漢字などの日本語に限らず、アルファベット入力された英単語、中国語、ハングル文字など、いずれの単語や文節、単語の一部が対象となる。また、字句情報は、端末入力手段220におけるキーボードを利用した入力操作にて直接的に入力された単語や文節のみならず、端末表示手段230で表示された文献の一部の単語や文節を選択する入力操作により入力された単語や文節に基づいて生成される。
要求設定手段252は、字句設定手段251で取得した字句情報の字句に基づいて、この字句を抽出した文献情報の分類を認識する処理の実行をサーバ装置300に要求する旨の要求情報を生成する。すなわち、要求情報には、字句と、この分類の認識処理の条件である条件情報と、処理の要求をする利用者や端末装置200を特定する顧客情報などを有した端末特定情報とを1つのデータ構造として関連付けられている。そして、要求設定手段252は、生成した要求情報を端末通信手段210によりネットワーク110を介してサーバ装置300へ送信させる処理をする。
結果取得手段253は、ネットワーク110を介して端末通信手段210によりサーバ装置300から取得した分類の認識処理の結果情報を取得する。この取得した結果情報は、端末記憶手段240や図示しないメモリなどに適宜記憶される。この結果情報としては、例えば分類である国際特許分類、その分類の確からしさである得点に関する得点情報、その分類に関する分類情報が関連付けられた文献情報を特定する文献固有情報、例えば出願番号や登録番号などの他、文献情報自体の情報をも含む。
出力制御手段254は、端末入力手段220による入力操作にて設定された出力状況に基づいて、結果取得手段253にて取得した結果情報を適宜処理し、端末表示手段230で表示させたり、図示しない接続された印刷装置にて印刷出力させたりする結果情報の出力制御をする。また、出力制御手段254は、サーバ装置300から出力される分類の候補を、端末入力手段220による入力操作にて選択可能に端末表示手段230で複数表示させる制御をする。
サーバ装置300は、端末装置200からの設定入力された字句を含み要求対象の文献情報の分類である国際特許分類の選出を実施して端末装置200へ提供する装置で、ネットワーク110を介して端末装置200と各種情報の送受信が可能となっている。このサーバ装置300は、例えば図3に示すように、サーバ通信手段310と、サーバ入力手段320と、サーバ表示手段330と、文献記憶手段として機能するサーバ記憶手段340と、演算手段としての文献分類認識装置であるサーバ処理手段350と、などを備えている。
サーバ通信手段310は、ネットワーク110を介して入力されるサーバ信号に対してあらかじめ設定されている入力インターフェース処理を実行し、処理サーバ信号としてサーバ処理手段350へ出力する。また、サーバ通信手段310は、サーバ処理手段350から端末装置200に対して送信すべき処理サーバ信号が入力されると、入力された処理サーバ信号に対してあらかじめ設定されている出力インターフェース処理を実行し、サーバ信号としてネットワーク110を介して端末装置200へ出力する。なお、サーバ信号は、処理サーバ信号に記載された情報に基づいて、適宜所定の端末装置200のみに出力させたり、ネットワーク110を介して接続される全ての端末装置200に出力させたりすることも可能である。
サーバ入力手段320は、例えば端末入力手段220と同様に、サーバ管理者などにて入力操作される図示しない各種操作ボタンや操作つまみなどを有している。これら操作ボタンや操作つまみなどの入力操作は、サーバ装置300の動作内容の設定や、サーバ記憶手段340に記憶する情報の設定入力、サーバ記憶手段340に記憶された情報の更新など、各種の設定事項である。そして、サーバ入力手段320は、設定事項の入力操作により、設定事項に対応する信号をサーバ処理手段350へ適宜出力して設定入力させる。なお、入力操作としては、端末入力手段220と同様に、操作ボタンや操作つまみなどを備えた構成に限られない。
サーバ表示手段330は、例えば端末表示手段230と同様に、各種表示装置が用いられる。このサーバ表示手段330は、サーバ処理手段350に接続され、サーバ処理手段350の制御によりこのサーバ処理手段350から出力される画像データを適宜表示する。
サーバ記憶手段340は、端末記憶手段240と同様に、各種情報を記憶可能ないずれの構成が用いられ、文献記憶手段としての文献情報記憶領域341と、文献関連分類記憶領域342と、などを備えている。
文献情報記憶領域341は、複数の文献情報341Aを記憶するテーブル構造に構成されている。文献情報341Aは、例えば図4に示すように、本文情報341A1と、識別情報341A2と、などを1つのデータ構造として関連付けられて構成されている。本文情報341A1は、複数の単語にて構成された文章や文節などの例えばテキスト形式の複数の文章情報を有している。なお、文献情報341Aには、画像データ形式の図面情報などが含まれていてもよい。識別情報341A2は、文献情報341Aを特定する文献固有情報である例えばID(identification)番号などである。なお、文献情報341Aには、出願番号や公開番号、出願人や著者などの書誌情報である付帯情報などをも適宜関連付けられている。
文献関連分類記憶領域342は、例えば図5に示すように、文献情報341Aの識別情報341A2と、この文献情報341Aの分類である国際特許分類に関する分類情報342A1と、を1つのレコードとした文献分類対応情報342Aを複数格納、すなわち文献情報記憶領域341に記憶された全ての文献情報341A毎に複数記録したテーブル構造に構築されている。なお、この文献関連分類記憶領域342は、あらかじめ文献情報記憶領域341に記憶された文献情報341Aの書誌的情報として国際特許分類を有したデータベースが構築されている場合、各文献情報341Aの識別情報341A2と国際特許分類の分類情報342A1とを抽出して関連付け、文献分類対応情報342Aを自動的に生成して複数記録することで構築することで、容易に構築される。
また、サーバ記憶手段340は、サーバ装置300全体および文献情報分類システム100全体を動作制御するOS上に展開される各種プログラムなどをも記憶している。さらに、サーバ記憶手段340は、端末装置200などから受信した各種情報や、サーバ入力手段320にて入力された各種情報をも適宜記憶可能となっている。
サーバ処理手段350は、端末処理手段250と同様にCPUを備え、図示しない各種入出力ポート、例えばサーバ通信手段310が接続される通信制御ポート、サーバ入力手段320が接続される入力ポート、サーバ表示手段330が接続される表示制御ポート、サーバ記憶手段340が接続される記憶ポートなどを有している。そして、サーバ処理手段350は、図3に示すように、サーバ記憶手段340に記憶された各種プログラムとして、単語情報取得手段としても機能する要求情報取得手段351と、判断手段352と、文献選出手段353と、分類取得手段354と、報知手段355と、検索手段356と、課金演算手段357と、決済手段358と、記憶制御手段359と、などを備えている。
要求情報取得手段351は、端末装置200から送信されサーバ通信手段310を介して要求情報を取得する。そして、要求情報取得手段351は、要求情報に含まれる字句情報の字句を取得し、判断手段352へ出力する。
判断手段352は、要求情報取得手段351から出力される字句を認識し、この字句とサーバ記憶手段340の文献情報記憶領域341に記憶された文献情報341Aに含まれる字句との同一性を判断する。例えば、字句として1つの単語である場合には、文献情報341Aに同一の単語が含まれている数を認識し、数が多い文献情報341Aほど同一性が高いと判断する。また、字句として複数の単語である場合には、文献情報341Aに含まれる単語と同一の単語の割合さらにはその数を認識し、割合が高い文献情報341Aほど同一性が高くさらにはその数が多いほど同一性が高いと判断する。さらに、字句として文節である場合には、文献情報341Aに同一の文節が含まれる数、さらには文節を形態素解析などにより複数の単語に分解した際の同一の単語の割合やその数などを認識し、同一の文節が多い文献情報341Aほど同一性が高く、複数に分解した単語と同一の割合や数が多いほど同一性が高いと判断する。そして、文節の場合、単に複数の単語に分解したときの同一の単語の割合のみならず、文節をさらに短く分解した文節での同一性を判断してもよい。そして、判断手段352は、その文献情報341A毎の同一性に関する同一性情報を文献選出手段353へ出力する。
なお、同一性の具体的な演算としては、例えば、字句と、文献情報341Aの本文情報341A1との同一性に関する重み度情報を演算し、この重み度情報に基づいて字句に対する本文情報341A1の類似状態に関する得点としての類似度を演算して、同一性とする。まず、重み度情報の演算としては、例えば字句の各単語と一致する本文情報341A1の重み度を演算する。すなわち、字句としての複数の単語をq1,…,qn(nは単語の数)、本文情報341A1の各単語をd1,…,dm(mは単語の数)とすると、重み度W(qi,dj,q,d)は、qi=djについて、以下の数1により演算される。そして、演算された重み度W(qi,dj,q,d)は、サーバ記憶手段340に適宜記憶される。
〔数1〕
W(qi,dj,q,d)=Log(総単語数/(qi=djの出現する単語数))
×(qiの字句の単語の出現数)
×(djの本文情報341A1の単語の出現数)
そして、この演算した重み度に基づいて、字句の単語に対する本文情報341A1の類似度を演算して同一性を判断する。例えば、字句の単語と同一の各単語における重み度の総和を類似度Sとして演算する。具体的には、類似度Sの演算として、以下の数2により演算される。
〔数2〕
S(q,d)=g(ΣW(qi,dj),q,d)
なお、判断手段352は、各単語の類似度Sの演算として、高速かつ多数の各単語について効率よく演算するために、以下の加算方法が例示できる。すなわち、各単語InN(Nは自然数)のうち、所定の単語In1を特定する。そして、所定の単語In1の本文情報341A1の単語d1,…,dtのうち、字句の単語q1と一致する単語d1,…,dtの重み度W(q1,In1)を演算し、サーバ記憶手段340にあらかじめ設けた単語毎の類似度Sの記憶領域s(In1)番地に加算する。同様に字句の単語q2〜qnについても上述した処理を繰り返し、記憶領域s(In1)番地に加算する処理をする。さらに、他の単語In2〜InNについても同様に重み度W(qi,Ini)を順次計算し、サーバ記憶手段340の記憶領域s(In2)番地〜記憶領域s(InN)番地に加算する処理をする。これらにより、各単語の類似度Sがそれぞれ演算され、各文献情報341Aの同一性として演算される。なお、文献情報341Aの識別情報341A2に演算結果の類似度Sが関連付けられたテーブル構造でサーバ記憶手段340に記憶される。
文献選出手段353は、判断手段352で判断された同一性に基づいて、字句の内容に類似する内容となる文献情報341Aの候補を選出する。具体的には、判断手段352で同一性として演算した類似度Sの値が高い順からあらかじめ設定された数、あるいは所定の閾値以上の類似度Sとなる識別情報341A2を複数選出する。なお、選出される文献情報341Aの数は、あらかじめサーバ装置300に設定されている他、端末装置200における入力設定により分類の認識処理の条件として設定する構成とするなどしてもよい。これら選出された文献情報341Aの識別情報341A2は、分類取得手段354へ出力される。
分類取得手段354は、文献選出手段353で選出された文献情報341Aの識別情報341A2に基づいて、サーバ記憶手段340の文献関連分類記憶領域342から識別情報341A2に関連付けられた分類情報342A1を読み取り、分類認識の処理要求対象の文献に対する分類の候補として取得する。この分類の候補は、判断手段352で演算した類似度Sに対応した得点としてのスコア、すなわち字句の内容に類似する度合いに対応して演算したスコアに基づいて選出される。このスコアの演算は、各分類情報342A1における各分類毎の出現頻度の演算である。例えば、識別情報341A2に関連付けられた各分類情報342A1に、その識別情報341A2に関連付けられた類似度Sに基づいてスコアを演算し、分類毎にスコアを集計して合計得点を演算する。すなわち、合計得点Tは、以下の数3により演算される。なお、出現頻度の演算としては、この数3による合計得点Tの演算の他、いずれの方法が利用できる。
〔数3〕
T=SUMk(f(simm(di,q))×g(di,c))
k:文献選出手段353で選出した文献情報341Aの識別情報341A2の数
simm(di,q):処理要求対象の文献とi番目の文献情報341Aの類似度
f(s):sの値に単調増加する運用時の定義される任意の関数
g(di,c):dに分類cが付与されていないときに「0」、
第1項目としてふられているときに「1」、
第2項目以下としてふられているときに「0<g(d,c)<1」の実数となる関数
ここで、文献情報341Aが、分類の認識処理の実行により認識された分類の分類情報342A1が関連付けられ、後述するような記憶制御手段359により文献情報記憶領域341に新たに記憶されたものである場合には、あらかじめ設定されている文献情報341Aより合計得点Tが低い値、例えば八割となる状態に演算してもよい。具体的には、以下の図4により合計得点Tが演算される。なお、新たに記憶された文献情報341Aの認識としては、詳細は後述するが、例えば文献情報341Aに関連付けられたフラグ情報に基づいて認識するなどが例示できる。
〔数4〕
T=SUMk(f’(simm(di,q),New(di))×g(di,c))
New(di):文献情報341Aが新規登録されたものである場合に「1」、
あらかじめ設定されたものである場合に「0」とし、
f’(s,0)=f(s)
f’(s,1)=f(s)×0.8とする。(八割に設定した例示)
そして、分類取得手段354は、演算した合計得点Tに基づいて、各分類情報342A1から処理要求対象の文献に対する分類の候補として選出する。すなわち、合計得点Tの値が高い順からあらかじめ設定された数、あるいは所定の閾値以上の値となる分類情報342A1を複数選出する。この選出される分類情報342A1の数は、あらかじめサーバ装置300に設定されている他、端末装置200における入力設定により分類の認識処理の条件として設定する構成とするなどしてもよい。これら選出された分類情報342A1は、報知手段355へ出力される。
報知手段355は、選出された分類情報342A1を分類の候補として端末表示手段230で一覧表示させる処理をする。例えば、報知手段355は、端末入力手段220における入力操作により一覧表示される分類情報342A1が選択さらには修正可能な図示しない一覧表示出力フォームを作成する。そして、報知手段355は、一覧表示出力フォームをサーバ通信手段310にてネットワーク110を介して端末装置200へ送信させ、端末表示手段230に表示させる処理をする。さらに、報知手段355は、端末装置200の端末表示手段230に表示される一覧表示出力フォームに従って、端末入力手段220の入力操作により所定の類義語が選択あるいは修正された設定入力を、ネットワーク110を介して認識する。そして、報知手段355は、認識した設定入力に基づいて、端末装置200で入力操作による選択あるいは修正された分類情報342A1を分類の認識処理対象の文献に対する分類として設定する。この分類情報342A1が設定された旨の信号は、記憶制御手段359へ出力される。
検索手段356は、端末入力手段220における文献の開示要求である旨の入力操作により、文献情報341Aをサーバ記憶手段340の文献情報記憶領域341から検索し、端末表示手段230で表示させる処理をする。この文献の開示要求としては、例えば所定の入力フォームに基づいて、付帯情報の設定入力やキーワード検索の他、報知手段355で一覧表示される分類情報342A1の選択などである。そして、検索された文献情報341Aの本文情報341A1が報知手段355により所定の出力フォームに基づいて端末装置200へ送信され、図示しない接続された印刷装置にて印刷出力可能に端末表示手段230で表示される。
課金演算手段357は、要求情報や検索手段356にて検索し報知手段355にて送信する文献情報341Aなどに基づいて、要求をした利用者に対して結果の報知に関する対価を演算する。この対価の演算としては、例えば端末装置200がネットワーク110を介してサーバ装置300に接続した時間、処理実行のための処理料金、結果の情報量に対応する回答出力料金などに基づいて演算される。なお、この対価の額は、分類情報342A1や文献情報341Aなどの結果情報とともに報知手段355により端末装置200で確認可能に送信される。
決済手段358は、課金演算手段357にて演算した対価を回収するための処理をする。例えば、サーバ記憶手段340にあらかじめ記憶されている端末装置200を用いて文献検索を利用する利用者を特定する顧客情報などに基づいて、請求書を発行したり、ネットワーク110を介して各金融機関が管理する付加価値通信網(Value-Added Network:VAN)であるいわゆる金融VANに構築されたファームバンキング(Firm Banking:FB)を利用して決済処理したり、決済処理する旨をサーバ表示手段330に表示させて管理者に決済処理を促す案内を報知するなどの処理をする。
記憶制御手段359は、報知手段355からの分類情報342A1が設定された旨の信号を認識すると、その分類情報342A1が設定された文献を端末装置200からネットワーク110を介して取得して本文情報341A1とする。そして、記憶制御手段359は、新たに識別情報341A2を設定して本文情報341A1に関連付けて新たな文献情報341Aを生成し、新たに設定登録された情報である旨のフラグ情報を関連付けて文献情報記憶領域341に記憶させる。さらに、記憶制御手段359は、設定された分類情報342A1を新たな識別情報341A2に関連付けて文献分類対応情報342Aを生成し、フラグ情報を関連付けて文献関連分類記憶領域342に記憶させる。このフラグ情報に基づいて、新規に記憶された文献情報341Aに比してあらかじめ記憶されている文献情報341Aに関連付けられた分類情報342A1を分類取得手段354が選出できるように、分類取得手段354は合計得点Tの演算として数4を利用する。
〔文献情報分類システムの動作〕
次に、上述した文献情報分類システム100における所定の文献についての分類を設定する処理の動作について図面を参照して説明する。図6は、文献情報を検索する検索処理の動作を示すフローチャートである。
文献情報分類システム100を利用した文献の分類の設定に際しては、まず利用者が端末装置200の端末入力手段220を適宜入力操作することで、サーバ装置300とネットワーク110を介して各種情報を送受信可能に端末装置200を接続させる。この接続としては、例えばあらかじめサーバ装置用のアプリケーションソフトウェアがインストールされて構築されたサーバ装置300が常駐するホームページなどにアクセスするなどが例示できる。そして、利用者が端末表示手段230に表示させる画面表示にしたがって端末入力手段220を適宜入力操作し、文献の分類を設定するための文献に含まれる字句を入力する。この入力操作により、端末処理手段250の字句設定手段251が、端末入力手段220からの入力操作に対応、例えばキーボードの操作キーの操作毎に出力される信号列に対応して適宜変換されたキーワードや文節などの字句を設定する(ステップS101)。
この後、利用者が画面表示に従って端末入力手段220を適宜操作し、設定した字句に基づいて文献について分類を認識する処理を要求する旨の入力操作により、分類の認識処理をサーバ装置300に実行させる。この分類の認識処理の実行を要求する旨の入力操作としては、例えば表示画面中に設けられ分類の認識処理の実行要求の設定を促すコマンドボタンの入力操作などが例示できる。この入力操作により、端末処理手段250の要求設定手段252は、設定させた字句に類似する文献を検索させて分類を認識させる処理の実行をサーバ装置300に要求する旨の要求情報を生成し(ステップS102)、端末通信手段210によりネットワーク110を介してサーバ装置300へ送信させる処理をする(ステップS103)。
そして、ステップS103で端末装置200から送信された要求情報を、サーバ通信手段310でサーバ装置300が受信すると(ステップS104)、サーバ処理手段350の要求情報取得手段351が要求情報に含まれる字句を取得する(ステップS105)。このステップS105で取得した字句に基づいて、サーバ処理手段350は、字句に対する類似する文献情報341Aを検索する類似文献検索工程を実施する。
すなわち、サーバ処理手段350の判断手段352は、要求情報取得手段351で取得した字句を認識し、この字句とサーバ記憶手段340の文献情報記憶領域341に記憶された文献情報341Aの本文情報341A1との同一性を判断する(ステップS106)。すなわち、字句と、文献情報341Aの本文情報341A1との同一性に関する重み度情報を上述した数1に基づいて演算する。さらに、この重み度情報に基づいて字句に対する本文情報341A1の類似状態に関する得点としての類似度Sを数2に基づいて演算し、この類似度Sを分類の認識対象の文献と文献情報341Aの本文情報341A1との内容の同一性として判断する。このステップS106における同一性の演算結果に基づいて、サーバ処理手段350の文献選出手段353が、字句の内容に類似する内容となる文献情報341Aの候補を、例えばあらかじめ設定された数で類似度Sの値が高い順から選出する(ステップS107)。
これらステップS106およびステップS107の処理により類似文献検索工程を実施した後、サーバ処理手段350は、検索した文献情報341Aに基づいて、分類を認識する分類認識工程を実施する。すなわち、ステップS107で選出された文献情報341Aの識別情報341A2に基づいて、サーバ処理手段350の分類取得手段354が、サーバ記憶手段340の文献関連分類記憶領域342から識別情報341A2に関連付けられた分類情報342A1を同一性に対応して読み取り、分類認識の処理要求対象の文献に対する分類の候補として取得する(ステップS108)。すなわち、識別情報341A2に関連付けられた分類情報342A1毎に、字句の内容に類似する度合いに対応した類似度Sに基づくスコアを演算し、数3あるいは数4を利用して分類毎にスコアを集計して合計得点Tを演算する。そして、例えばあらかじめ設定された数で合計得点Tの値が高い順から分類情報342A1を分類の候補として選出する。
このステップS108における分類認識工程の後、サーバ処理手段350の課金演算手段357により、例えば端末装置200がネットワーク110を介してサーバ装置300に接続した時間、分類の認識処理を実行するための料金、検索結果の情報量に対応する回答出力料金などに基づいて、要求をした利用者に対して検索結果の報知に関する対価を演算する(ステップS109)。この後、サーバ処理手段350は、報知手段355により選出された分類情報342A1を端末装置200で一覧表示させるべく、端末装置200へ送信する処理をする(ステップS110)。この選出した分類情報342A1を送信する先の端末装置200は、例えばステップS104で受信した要求情報に基づいて特定される。
このステップS110により、サーバ装置300で選出された分類情報342A1に関する一覧表示フォームを端末通信手段210で端末装置200が受信すると(ステップS111)、端末処理手段250の出力制御手段254により、端末表示手段230を適宜制御して端末入力手段220での入力操作により分類情報342A1を選択さらには修正などが可能に画面表示させる(ステップS112)。そして、一覧表示フォームの画面表示にしたがって所定の分類情報342A1が選択あるいは修正されると(ステップS113)、出力制御手段254は入力操作で選択あるいは修正された分類情報342A1をサーバ装置300へ送信させ(ステップS114)、端末装置200における文献の分類の認識処理が終了する。
また、ステップS114における分類情報342A1の選択あるいは修正された分類情報342A1を端末装置200からサーバ通信手段310で受信すると(ステップS115)、サーバ処理手段350の報知手段355が選択あるいは修正された分類情報342A1を認識対象の文献の分類として確定し、新たな文献情報341Aとしてサーバ記憶手段340に記憶させる処理をする(ステップS116)。すなわち、報知手段355が分類情報342A1が設定された旨を認識すると、記憶制御手段359が分類情報342A1が設定された文献を端末装置200からネットワーク110を介して取得して本文情報341A1を生成する。さらに、記憶制御手段359は、新たに識別情報341A2を設定して本文情報341A1に関連付けて新たな文献情報341Aを生成するとともに、新たに設定登録された情報である旨のフラグ情報を関連付けて文献情報記憶領域341に記憶させる。さらに、記憶制御手段359は、設定された分類情報342A1を新たな識別情報341A2に関連付けて文献分類対応情報342Aを生成し、フラグ情報を関連付けて文献関連分類記憶領域342に記憶させる。
この後、サーバ装置300は、決済手段358により、課金演算手段357で演算した対価を回収するための処理をする(ステップS117)。例えば、サーバ記憶手段340にあらかじめ記憶されている端末装置200を用いて文献検索を利用する利用者を特定する顧客情報などに基づいて、請求書を発行したり、ネットワーク110を介していわゆる金融VANに構築されたファームバンキングを利用して決済処理したり、決済処理する旨をサーバ表示手段330に表示させて管理者に決済処理を促す案内を報知するなどの処理をし、サーバ装置300における文献の分類の認識処理が終了する。
〔実施の形態の作用効果〕
上述したように、上記実施の形態では、要求情報取得手段351にて分類の認識対象の文献に含まれる字句に関する字句情報を取得すると、分類に関する分類情報342A1が関連付けられて1つのデータ構造に構築された文献情報341Aを複数格納するテーブル構造の文献情報記憶領域341に格納された文献情報341Aに含まれる字句と取得した字句との同一性を判断手段352により判断する。この判断した同一性に基づいて文献情報記憶領域341に格納された文献情報341Aを文献選出手段353にて選出し、この選出した文献情報341Aに関連付けられた分類情報342A1を分類取得手段354により認識対象の分類として取得する。このように、分類の認識対象の文献と類似する内容の文献を、あらかじめ分類情報342A1が関連付けられた文献情報341Aに基づいて文献に含まれる字句の同一性の判断により認識して内容の類似する文献の分類を認識対象の文献の分類として認識している。このため、例えば既存の分類が認識されている文献情報341Aのデータベースを利用して、文献の分類が容易な演算により容易に認識できる。
そして、要求情報取得手段351にて複数の単語を字句情報として取得させ、この取得した複数の単語のうち文献情報記憶領域341の文献情報341Aに含まれる単語と同一の単語の割合、例えば字句情報の類似度Sを判断手段352にて演算させて同一性を判断している。このため、例えば形態素解析などにより認識した単語の同一となる割合を字句の同一性として判断して文献の内容の類似が容易に認識でき、容易な演算により文献の内容の類似が判断され、容易に分類を認識できる。
また、判断手段352により判断した同一性に対応した得点に関する得点情報を文献情報記憶領域341の文献情報341Aに関連付け、得点が高い得点情報が関連付けられた文献情報341Aを文献選出手段353により選出している。このため、認識対象の文献に内容が類似する文献情報341Aの類似度合いが得点により容易に認識され、内容が類似する文献情報341Aの特定が簡単な演算により得られ、内容が類似する文献情報341Aに基づいて適切な分類を容易に認識できる。
そして、分類取得手段354により、文献選出手段353にて選出した文献情報341Aに関連付けられた分類情報342A1の分類毎の出現頻度を演算し、各分類の出現頻度が高い分類の分類情報342A1を認識対象の分類としている。このため、内容に対応した好適な分類を認識できる。すなわち、分類取得手段354により、文献選出手段353にて選出した各文献情報341Aにおける分類情報342A1を分類毎に計数して出現頻度を演算しているので、より内容に対応した好適な分類が簡単な演算により容易に認識される。具体的には、分類取得手段354により、文献選出手段353で選出した文献情報341Aにおける分類情報342A1および得点情報を取得し、例えば数3または数4に示すように、取得した分類情報342A1の分類毎に得点情報の得点を合算して合計得点Tを演算し、合計得点Tが高い分類情報342A1を認識対象の分類として取得している。このため、簡単な演算方法で内容の類似状況に応じた適切な分類を容易に選出できる。
また、サーバ装置300の報知手段355により、分類取得手段354にて取得した分類を入力操作にて選択可能に出力制御手段245にて端末表示手段230に表示させる。このため、演算により認識された分類を利用者が確認できるとともに、適宜設定や修正などが可能となり、より適切な分類の設定が得られる。
そして、記憶制御手段359により、サーバ処理手段350にて認識した分類を認識対象の文献情報341Aに関連付け、この文献情報341Aを文献情報記憶領域341に格納させている。このため、文献情報341Aが自動的に蓄積され、使い勝手を向上できるとともに、文献情報記憶領域341の更新が容易で、システム管理が容易にできる。さらには、例えば、分類毎に文献情報341Aを構築するなどにより、分類から文献情報341Aを検索するなどの処理も容易となり、使い勝手が良好な文献情報記憶領域341の構築も容易にできる。
また、文献選出手段353が選出する文献情報341Aに、記憶制御手段359にて分類を関連付けて文献情報記憶領域341に記憶させる文献情報341Aに新たに格納する旨の識別情報を関連付けている。このため、例えば数4に示すように、識別情報が関連付けられていない文献情報341Aの分類情報342A1を分類取得手段354にて優先的に取得させる処理が容易にでき、認識した分類を関連付けて新たに分類の認識のための文献情報341Aとして記憶させて文献情報記憶領域341を構築させることによる分類の認識結果の変動が生じにくくなり、より信頼性の高い分類の認識ができる。
そして、分類情報342A1の分類として、例えば国際的に統一化された内容の分類である国際特許分類であるIPCを利用している。このため、統一的な分類が得られるとともに、国際特許分類が関連付けられた既存の特許文献である特許公開公報データなどのデータベースを利用でき、文献情報記憶領域341をあらかじめ構築する必要がなく、簡単な構成で容易に分類を認識できる。
また、ネットワーク110を介して接続する端末装置200からの分類の認識処理要求によりサーバ装置300で要求対象の文献に対する分類を認識する処理をして端末装置200へ報知するシステム構成としている。このため、簡単な端末装置200の構成でも、適切な分類の認識が容易にでき、利用の拡大を容易に図ることができる。さらには、サーバ装置300にて統括的に容量の大きな文献情報341Aや各種テーブルなどを管理でき、データの更新などが容易で、運用管理性を容易に向上できる。したがって、携帯電話などの処理能力が比較的に小さく記憶容量も比較的に少ないものを用いても容易に文献の分類を容易に認識することができ、利用の拡大が容易に図れる。
そして、パーソナルコンピュータなどにプログラムとして文献に対する分類の認識処理を実行可能に構成している。このため、プログラムを組み込む、さらにはプログラムを記録した記録媒体を用いることで、上記処理が容易に得られ、利用の拡大が容易に図れる。
〔実施形態の変形〕
なお、本発明は、上述した一実施の形態に限定されるものではなく、本発明の目的を達成できる範囲で以下に示される変形をも含むものである。
例えば、システム構成として説明したが、1台のパーソナルコンピュータを用い、文献情報記憶領域341を有する記録媒体、例えば端末記憶手段240に記憶された文献情報341Aとの字句の同一性を判断して端末表示手段230で分類を表示させる装置構成としたり、文献情報記憶領域341をネットワーク110を介して読み取って端末処理手段250で同一性を判断する構成としたり、サーバ装置300で同一性を判断して文献情報341Aを選出し、これら文献情報341Aに基づいて端末装置200で分類を選出する構成としたシステム構成としたり、サーバ記憶手段340の構成をサーバ装置300と切り離してネットワーク110を介して別のサーバ装置として構成したりするなど、いずれの形態とすることができる。
また、同一性の判断としては、例えば字句情報の文字列を1文字分ずつずらした文字列の並びにより類似度Sを演算するなどしてもよい。すなわち、例えば、1字ずつずらした3文字の部分文字列、2文字の部分文字列、または1文字の単位文字列を生成し、これら部分文字列や単位文字列と、文献情報341Aの本文情報341A1との同一性に関する重み度情報を数1に基づいて演算し、この重み度情報に基づいて字句に対する本文情報341A1の類似状態に関する得点としての類似度Sを数2に基づいて演算して、同一性とするなど、いずれの方法により字句情報と文献情報341Aとの同一性を判断してもよい。なお、1文字ずつずらした文字列の並びで同一性を判断する構成により、検索漏れが減少し、適切に字句の同一性を判断できる。また、形態素解析などの分析をする必要が無く、簡単な処理で容易に適切な字句の同一性を判断できる。なお、文字列の文字数は、特に限定されない。例えば、1字ずつずらした3文字の部分文字列、2文字の部分文字列、または1文字の単位文字列としてもよく、さらにはこれら3文字の部分文字列、2文字の部分文字列、および1文字の単位文字列を全て抽出する構成とするなどしてもよい。
そして、端末表示手段230で表示される分類情報342A1を入力操作により選択されると、その分類の内容に関する説明文などを表示させてもよい。具体的には、サーバ記憶手段340に分類情報342A1に分類の内容に関する説明文などの説明情報を関連付けて複数記憶するテーブル構造の分類情報記憶領域を構築し、報知手段355により、分類情報342A1を端末装置200へ送信する際に説明情報も合わせて送信、あるいは選択された入力操作をネットワークを介して認識したサーバ装置300がその説明情報を端末装置200へ送信するなどにより、出力制御手段245にて端末表示手段230で表示させる処理をする。この構成により、認識された分類の内容が利用者にて容易に確認でき、使い勝手を向上できる。
また、端末表示手段230で表示させる分類を、同一性に対応した表示形態で表示させてもよい。具体的には、報知手段355により、分類情報342A1を端末装置200へ送信する際に、同一性に関する情報である類似度Sに基づく分類毎の合計得点Tの情報を合わせて送信し、出力制御手段245で端末表示手段230で合計得点Tに対応した表示形態、例えば色彩や明度などを適宜設定して合計得点Tの値が高くなるにしたがって視認性が高くなる表示形態で表示させる処理をする。この構成により、認識対象の文献情報341Aの内容との適合状態を利用者に容易に認識させることができ、例えば分類を複数表示させて報知する場合に特に有効である。
さらに、端末表示手段230で表示させる分類を、同一性に対応した得点と併せて表示させてもよい。具体的には、上述した同一性に対応した表示形態で表示させる場合と同様に、報知手段355により、例えば合計得点Tの情報を合わせて端末装置200へ送信させ、この合計得点Tの値とともに分類が併記される状態に出力制御手段245で端末表示手段230で表示させる処理をする。この構成により、異なる表示形態の構成と同様に、認識対象の文献情報341Aの内容との適合状態を利用者に容易に認識させることができ、例えば分類が複数表示させて報知する場合に特に有効である。
また、要求情報取得手段351にて取得した字句情報の字句を他の字句と異なる表示形態で文献情報341Aを表示させてもよい。具体的には、字句設定手段251で設定された字句を端末記憶手段240に記憶しておき、分類の認識対象の文献を端末表示手段230で表示させる際に、設定された字句が他の字句と異なる表示形態、例えば色彩や明度などを適宜設定して利用者が容易に認識できるように表示させる。また、要求情報取得手段351で取得した字句をサーバ記憶手段340に記憶しておき、端末装置200からの文献検索などの要求に応じて所定の文献情報341Aを検索して端末装置200へ報知する際に、記憶した字句が上述したように異なる表示形態となる状態に報知手段355にて文献情報341Aを端末装置200へ送信してもよい。これらのような構成により、例えば分類の認識対象の文献情報341Aやその文献情報341Aと同一の分類の文献情報341Aにおける分類認識の要因となる字句を利用者に容易に認識させることができ、使い勝手を向上できる。
さらに、このような分類の認識処理の際の字句が異なる表示形態となるように文献情報341Aを表示する構成において、その異なる表示形態の字句を選択する入力操作により、その分類情報342A1の分類、例えばIPCなどの分類の名称や説明文などを表示させてもよい。このような構成により、文献情報341Aの分類の確認が容易にでき、使い勝手を向上できる。
また、文献としては、産業財産権における公報などに限らず、新聞や雑誌、各種書籍など、各種刊行物をも対象とすることができる。さらには、形態素解析により抽出する構成に限らず、あらかじめキー操作により設定入力した字句などでもよい。
さらに、同一性としては、重み度Wに基づいて類似度Sを演算してスコア付けた値を同一性として説明したが、この方法に限られない。また、スコア付けしなくてもよい。
そして、分類を認識した文献を文献情報記憶領域341に記憶して説明したが、記憶させなくてもよい。また、記憶した場合において新たに記憶した文献よりあらかじめ記憶された文献が優先的に選択される状態としたが、同等に選択されるようにしてもよい。さらには、選択の優先性を持たせる構成として新たに記憶する旨の識別情報を関連付けて説明したが、この場合に限らず、新たに記憶されたものとあらかじめ記憶されたものとが識別可能ないずれの構成を利用できる。
また、端末装置200に選出した分類を表示させて報知して説明したが、報知する形態としては表示に限らず音声や印刷物などにより報知するいずれの構成が利用できる。
その他、本発明は、上述した一実施の形態および実施形態の変形のみに限ることなく、その他、本発明の目的を逸脱しない範囲で、例えばデータ構造を変更したり、データ構造の項目を設定したり、処理のための構成を変更するなど、様々な応用が可能である。
本発明は、特許や実用新案、意匠、商標などの他、商号など広義の意味の産業財産権に関わる文献情報に対する国際特許分類などの分類を任意記する構成に利用できる。また、文献情報としては、公報以外の刊行物などをも対象とすることができる。さらには、分類としては国際特許分類に限らず、例えば「報道」、「スポーツ」、「娯楽」などの内容、「医学」、「数学」、「生物」などの内容など、文献情報の内容を特定するようないずれの分類を対象とすることができる。
本発明の一実施の形態に係る文献情報分類システムの概略構成を示す概念図である。 前記一実施の形態における端末装置の概略構成を示すブロック図である。 前記一実施の形態におけるサーバ装置の概略構成を示すブロック図である。 前記一実施の形態における文献情報記憶領域のテーブル構造を概念的に示す模式図である。 前記一実施の形態における文献関連分類記憶領域のテーブル構造を概念的に示す模式図である。 前記一実施の形態における文献の分類を認識する処理の動作を示すフローチャートである。
符号の説明
100…文献分類装置としての文献情報分類システム
230…表示手段としての端末表示手段
254…表示制御手段としても機能する出力制御手段
341…文献記憶手段としての文献情報記憶領域
341A…文献情報
342A1…分類情報
350…演算手段としての文献分類認識装置を構成するサーバ処理手段
351…字句取得手段としても機能する要求情報取得手段
352…判断手段
353…文献選出手段
354…分類取得手段
355…表示制御手段としても機能する報知手段
359…記憶制御手段

Claims (23)

  1. 字句を含む文献に関する文献情報の分類を認識する文献分類認識装置であって、
    前記分類の認識対象の前記文献に含まれる字句に関する字句情報を取得する字句取得手段と、
    前記分類に関する分類情報が関連付けられて1つのデータ構造に構築された文献情報を複数格納するテーブル構造の文献記憶手段に格納された前記文献情報に含まれる字句と前記字句取得手段にて取得した字句との同一性を判断する判断手段と、
    前記同一性に基づいて前記文献記憶手段に格納された前記文献情報を選出する文献選出手段と、
    前記選出した文献情報に関連付けられた分類情報を前記認識対象の分類として取得する分類取得手段と、
    を具備したことを特徴とした文献分類認識装置。
  2. 請求項1に記載の文献分類認識装置であって、
    前記字句取得手段は、前記字句情報として複数の単語を取得し、
    前記判断手段は、前記字句取得手段により取得した複数の単語のうち前記文献記憶手段の文献情報に含まれる単語と同一の単語の割合を演算して同一性を判断する
    ことを特徴とした文献分類認識装置。
  3. 請求項1に記載の文献分類認識装置であって、
    前記判断手段は、前記字句取得手段により取得した字句の文字列と、前記文献記憶手段の文献情報に含まれる字句の文字列との類似度を演算して同一性を判断する
    ことを特徴とした文献分類認識装置。
  4. 請求項3に記載の文献分類認識装置であって、
    前記判断手段は、文字列を1文字分ずつずらした文字列の並びにより類似度を演算する
    ことを特徴とした文献分類認識装置。
  5. 請求項1ないし請求項4のいずれかに記載の文献分類認識装置であって、
    前記判断手段は、前記同一性に対応した得点に関する得点情報を前記文献記憶手段の文献情報に関連付け、
    前記文献選出手段は、前記得点情報の得点が高い前記文献情報を選出する
    ことを特徴とした文献分類認識装置。
  6. 請求項5のいずれかに記載の文献分類認識装置であって、
    前記分類取得手段は、前記文献選出手段にて選出された前記文献情報に関連付けられた分類情報とともに前記得点情報を関連付けて取得し、各文献情報から取得した前記分類情報の分類毎に前記得点情報の得点を合算して合計得点を演算し、合計得点が高い前記分類情報を前記認識対象の分類として取得する
    ことを特徴とした文献分類認識装置。
  7. 請求項1ないし請求項4のいずれかに記載の文献分類認識装置であって、
    前記分類取得手段は、前記文献選出手段にて選出された前記文献情報に関連付けられた分類情報の分類毎の出現頻度を演算し、これら各分類の出現頻度が高い分類の分類情報を前記認識対象の分類として取得する
    ことを特徴とした文献分類認識装置。
  8. 請求項7に記載の文献分類認識装置であって、
    前記分類取得手段は、前記文献選出手段にて選出した各文献情報における分類情報を分類毎に計数して出現頻度を演算する
    ことを特徴とした文献分類認識装置。
  9. 請求項1ないし請求項8のいずれかに記載の文献分類認識装置であって、
    前記分類情報の分類は、国際特許分類である
    ことを特徴とした文献分類認識装置。
  10. 請求項1ないし請求項9のいずれかに記載の文献分類認識装置であって、
    前記分類取得手段にて取得した分類を入力操作により選択可能に表示手段に表示させる表示制御手段を具備した
    ことを特徴とした文献分類認識装置。
  11. 請求項10に記載の文献分類認識装置であって、
    前記表示制御手段は、前記表示手段に表示する分類が入力操作により選択されたことを認識すると前記分類の内容に関する説明情報を前記表示手段に表示させる
    ことを特徴とした文献分類認識装置。
  12. 請求項10または請求項11に記載の文献分類認識装置であって、
    前記表示制御手段は、前記分類取得手段で取得した分類を、前記同一性に対応した表示形態で表示させる制御をする
    ことを特徴とした文献分類認識装置。
  13. 請求項10ないし請求項12のいずれかに記載の文献分類認識装置であって、
    前記表示制御手段は、前記分類取得手段で取得した分類を、前記同一性に対応した得点に関する得点情報と併せて表示させる制御をする
    ことを特徴とした文献分類認識装置。
  14. 請求項1ないし請求項13のいずれかに記載の文献分類認識装置であって、
    前記字句取得手段にて取得した字句が他の字句と異なる表示形態に前記文献情報を表示手段に表示させる表示制御手段を具備した
    ことを特徴とした文献分類認識装置。
  15. 請求項14に記載の文献分類認識装置であって、
    前記表示制御手段は、他の字句と異なる表示形態に表示された字句が入力操作により選択されるとその字句により取得した分類情報を表示手段に表示させる
    ことを特徴とした文献分類認識装置。
  16. 請求項1ないし請求項15のいずれかに記載の文献分類認識装置であって、
    ネットワークを介して接続されたサーバ装置から送信され前記文献記憶手段に記憶された前記文献情報を変更させる旨および前記文献情報の記憶状況を変更する旨のうちの少なくともいずれか一方を含むデータ配信操作に関する操作情報を認識すると、前記文献記憶手段を制御して前記データ配信操作に対応して前記文献情報の変更および記憶状況の変更を実施させる制御をする記憶制御手段を具備した
    ことを特徴とした文献分類認識装置。
  17. 分類に関する分類情報が関連付けられて1つのデータ構造に構築された文献情報を複数格納するテーブル構造の文献記憶手段と、
    この文献記憶手段を利用して所定の文献情報の分類を認識する請求項1ないし請求項16のいずれかに記載の文献分類認識装置と、
    を具備したことを特徴とした文献分類装置。
  18. 請求項17に記載の文献分類装置であって、
    前記文献分類認識装置にて認識した分類を認識対象の前記文献情報に関連付けてこの文献情報を前記文献記憶手段に格納させる記憶制御手段を具備した
    ことを特徴とした文献分類装置。
  19. 請求項18に記載の文献分類装置であって、
    前記記憶制御手段は、前記分類を関連付けて前記文献記憶手段に記憶させる前記文献情報に新たに格納する旨の識別情報を関連付け、
    前記文献分類認識装置の分類取得手段は、前記文献選出手段にて選出する文献情報に前記識別情報が関連付けられていることを認識すると、その文献情報の分類情報より前記識別情報が関連付けられていない文献情報の分類情報を優先的に取得する
    ことを特徴とした文献分類装置。
  20. 演算手段により、字句を含む文献に関する文献情報の分類を認識する文献分類認識方法であって、
    前記演算手段は、
    前記分類の認識対象の前記文献に含まれる字句に関する字句情報を取得すると、この取得した字句情報と前記分類に関する分類情報が関連付けられて1つのデータ構造に構築された文献情報を複数格納するテーブル構造の文献記憶手段に格納された前記文献情報に含まれる字句との同一性を判断し、
    この判断した同一性に基づいて前記文献記憶手段に格納された前記文献情報を選出し、
    この選出した文献情報に関連付けられた文献情報を認識対象の分類として取得する
    ことを特徴とする文献分類認識方法。
  21. 演算手段を、請求項1ないし請求項16のいずれかに記載の文献分類認識装置、または、請求項17ないし請求項19のいずれかに記載の文献分類装置として機能させる
    ことを特徴とした文献分類プログラム。
  22. 請求項20に記載の文献分類認識方法を演算手段に実行させる
    ことを特徴とした文献分類プログラム。
  23. 請求項21または請求項22に記載の文献分類プログラムが演算手段に読取可能に記録された
    ことを特徴とした文献分類プログラムを記録した記録媒体。
JP2004297952A 2004-10-12 2004-10-12 文献分類認識装置、その方法、文献分類装置、および、それらのプログラム Active JP4615279B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004297952A JP4615279B2 (ja) 2004-10-12 2004-10-12 文献分類認識装置、その方法、文献分類装置、および、それらのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004297952A JP4615279B2 (ja) 2004-10-12 2004-10-12 文献分類認識装置、その方法、文献分類装置、および、それらのプログラム

Publications (3)

Publication Number Publication Date
JP2006113677A true JP2006113677A (ja) 2006-04-27
JP2006113677A5 JP2006113677A5 (ja) 2007-11-08
JP4615279B2 JP4615279B2 (ja) 2011-01-19

Family

ID=36382165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004297952A Active JP4615279B2 (ja) 2004-10-12 2004-10-12 文献分類認識装置、その方法、文献分類装置、および、それらのプログラム

Country Status (1)

Country Link
JP (1) JP4615279B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008269375A (ja) * 2007-04-23 2008-11-06 Hidetsugu Nanba 情報処理装置、情報処理方法、及びプログラム
JP2009059013A (ja) * 2007-08-30 2009-03-19 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
CN112784040A (zh) * 2020-12-08 2021-05-11 国网甘肃省电力公司信息通信公司 基于语料库的垂直行业文本分类方法
KR102593054B1 (ko) * 2022-05-09 2023-10-24 한국과학기술정보연구원 임베딩 모델 성능 평가 방법 및 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254883A (ja) * 1997-03-10 1998-09-25 Mitsubishi Electric Corp 文書自動分類方法
JPH11110409A (ja) * 1997-10-07 1999-04-23 Ntt Data Corp 情報分類方法及び装置
JP2002099555A (ja) * 2000-09-22 2002-04-05 Toshiba Corp 文書分類装置及び文書分類方法
JP2002163273A (ja) * 2000-11-22 2002-06-07 Hitachi Ltd 文書管理方法およびシステム
JP2003091542A (ja) * 2001-09-17 2003-03-28 Canon Inc 文書分類方法、文書分類装置、プログラム及び記録媒体
JP2003288366A (ja) * 2002-03-28 2003-10-10 Fujitsu Ltd 類似テキスト検索装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254883A (ja) * 1997-03-10 1998-09-25 Mitsubishi Electric Corp 文書自動分類方法
JPH11110409A (ja) * 1997-10-07 1999-04-23 Ntt Data Corp 情報分類方法及び装置
JP2002099555A (ja) * 2000-09-22 2002-04-05 Toshiba Corp 文書分類装置及び文書分類方法
JP2002163273A (ja) * 2000-11-22 2002-06-07 Hitachi Ltd 文書管理方法およびシステム
JP2003091542A (ja) * 2001-09-17 2003-03-28 Canon Inc 文書分類方法、文書分類装置、プログラム及び記録媒体
JP2003288366A (ja) * 2002-03-28 2003-10-10 Fujitsu Ltd 類似テキスト検索装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008269375A (ja) * 2007-04-23 2008-11-06 Hidetsugu Nanba 情報処理装置、情報処理方法、及びプログラム
JP2009059013A (ja) * 2007-08-30 2009-03-19 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
CN112784040A (zh) * 2020-12-08 2021-05-11 国网甘肃省电力公司信息通信公司 基于语料库的垂直行业文本分类方法
CN112784040B (zh) * 2020-12-08 2023-02-28 国网甘肃省电力公司信息通信公司 基于语料库的垂直行业文本分类方法
KR102593054B1 (ko) * 2022-05-09 2023-10-24 한국과학기술정보연구원 임베딩 모델 성능 평가 방법 및 장치

Also Published As

Publication number Publication date
JP4615279B2 (ja) 2011-01-19

Similar Documents

Publication Publication Date Title
US8229927B2 (en) Apparatus, system, and method for information search
US7769771B2 (en) Searching a document using relevance feedback
JP5241828B2 (ja) 辞書の単語及び熟語の判定
US9916304B2 (en) Method of creating translation corpus
KR101412763B1 (ko) 문맥적 입력 방법
JP5156047B2 (ja) キーワード提示装置、方法及びプログラム
US20190392032A1 (en) Display system, program, and storage medium
US20220222292A1 (en) Method and system for ideogram character analysis
KR20200014716A (ko) 특허 평가 판정 방법, 특허 평가 판정 장치 및 특허 평가 판정 프로그램을 기록한 기록 매체
US11468346B2 (en) Identifying sequence headings in a document
JP6577692B1 (ja) 学習システム、学習方法、及びプログラム
JP4511892B2 (ja) 類義語検索装置、その方法、そのプログラム、および、情報検索装置
JP4936650B2 (ja) 類似単語検索装置、その方法、そのプログラム、および、情報検索装置
JP4615279B2 (ja) 文献分類認識装置、その方法、文献分類装置、および、それらのプログラム
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
US20230054525A1 (en) Information processing apparatus, information processing method, and program
JP5550959B2 (ja) 文書処理システム、及びプログラム
JP3267064B2 (ja) パターン情報処理装置
JP2006227914A (ja) 情報検索装置、情報検索方法、プログラム、記憶媒体
JP4356347B2 (ja) 文書抽出システム
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP2000200279A (ja) 情報検索装置
JP4289891B2 (ja) 情報検索装置、情報検索方法およびプログラム
JP2020021455A (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20070208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070514

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070514

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070920

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100426

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101020

R150 Certificate of patent or registration of utility model

Ref document number: 4615279

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350