JP5391887B2 - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP5391887B2
JP5391887B2 JP2009164390A JP2009164390A JP5391887B2 JP 5391887 B2 JP5391887 B2 JP 5391887B2 JP 2009164390 A JP2009164390 A JP 2009164390A JP 2009164390 A JP2009164390 A JP 2009164390A JP 5391887 B2 JP5391887 B2 JP 5391887B2
Authority
JP
Japan
Prior art keywords
document
sentence
similar
module
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009164390A
Other languages
English (en)
Other versions
JP2011022630A (ja
Inventor
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2009164390A priority Critical patent/JP5391887B2/ja
Publication of JP2011022630A publication Critical patent/JP2011022630A/ja
Application granted granted Critical
Publication of JP5391887B2 publication Critical patent/JP5391887B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、多様な表現に対応して検索漏れを防ぎつつ、検索ゴミの少ない検索結果を得ることを課題とし、検索文を入力する入力ステップと、入力された検索文を解析用単語辞書に基づいて単語単位に分割する形態素解析ステップと、単語間の構文的係り受け関係を解析する構文解析ステップと、構文解析ステップの構文解析結果に基づき文書データベースを検索する一次検索ステップと、領域依存の概念知識を格納した概念知識データベースを基に検索文と一次検索ステップの検索結果との意味的な照合を行い類似あるいは非類似の検索結果を出力する意味照合ステップとを備えていることが開示されている。
特開2000−242650号公報
本発明は、対象とする文書内で構文が類似していない文にまで類似している文を有する文書を検索してしまうことを抑制するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、文書を記憶する文書記憶手段と、対象とする文書から文を抽出する文抽出手段と、前記文抽出手段によって抽出された文の構文に基づいて、該文の集合を生成する文集合生成手段と、前記文集合生成手段によって生成された文の集合内の第1の文と類似する第2の文を前記文書記憶手段に記憶されている文書内の文から検索する類似文検索手段と、前記類似文検索手段によって検索された第2の文に基づいて、前記対象とする文書に関連する文書を前記文書記憶手段から検索する関連文書検索手段と、前記関連文書検索手段によって検索された文書に含まれる前記第2の文の数、該第2の文に対応する前記対象文書における前記第1の文の出現順序と前記関連文書検索手段によって検索された文書における該第2の文の出現順序の比較結果、又はこれらの組み合わせに基づいて、前記関連文書検索手段によって検索された文書を順序付けする順序付手段を具備することを特徴とする情報処理装置である。
請求項の発明は、前記順序付手段は、前記関連文書検索手段によって検索された文書と前記対象とする文書の類似度に基づいて、前記順序付けを行うことを特徴とする請求項に記載の情報処理装置である。
請求項の発明は、コンピュータを、文書を記憶する文書記憶手段と、対象とする文書から文を抽出する文抽出手段と、前記文抽出手段によって抽出された文の構文に基づいて、該文の集合を生成する文集合生成手段と、前記文集合生成手段によって生成された文の集合内の第1の文と類似する第2の文を前記文書記憶手段に記憶されている文書内の文から検索する類似文検索手段と、前記類似文検索手段によって検索された第2の文に基づいて、前記対象とする文書に関連する文書を前記文書記憶手段から検索する関連文書検索手段と、前記関連文書検索手段によって検索された文書に含まれる前記第2の文の数、該第2の文に対応する前記対象文書における前記第1の文の出現順序と前記関連文書検索手段によって検索された文書における該第2の文の出現順序の比較結果、又はこれらの組み合わせに基づいて、前記関連文書検索手段によって検索された文書を順序付けする順序付手段として機能させることを特徴とする情報処理プログラムである。
請求項1の情報処理装置によれば、対象とする文書内で構文が類似していない文にまで類似している文を有する文書を検索してしまうことを抑制することができる。そして、対象文書に関連する文書を順序付けすることができる。
請求項の情報処理装置によれば、対象文書と類似する文書と、対象文書と類似していない文書であるが集合内の文と類似する文を有する文書とを分けることができる。
請求項の情報処理プログラムによれば、対象とする文書内で構文が類似していない文にまで類似している文を有する文書を検索してしまうことを抑制することができる。そして、対象文書に関連する文書を順序付けすることができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態の文書格納モジュール内に記憶されている文書の例を示す説明図である。 対象文書内の文の例を示す説明図である。 本実施の形態の関連文書ランキングモジュールによって上位にランキングされた文書内の文の例を示す説明図である。 本実施の形態の関連文書ランキングモジュールによって上位にランキングされた文書内の文の例を示す説明図である。 対象文書内の文の例を示す説明図である。 本実施の形態の関連文書ランキングモジュールによって上位にランキングされた文書内の文の例を示す説明図である。 文・文書テーブルのデータ構造例を示す説明図である。 文・グループテーブルのデータ構造例を示す説明図である。 類似度テーブルのデータ構造例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
本実施の形態である情報処理装置は、対象とする文書に関連する文書を検索するものであって、図1に示すように、文書受付モジュール110、文書格納モジュール120、文抽出モジュール130、類似構文集合生成モジュール140、類似文検索モジュール150、関連文書検索モジュール160、関連文書ランキングモジュール170、関連文書出力モジュール180を有している。
特に、この情報処理装置は、次のような文書管理システムに適用してもよい。
近年、企業に対するコンプライアンス徹底の社会的要請を背景にして、厳密な文書管理のニーズが高まっている。例えば、RoHS(Restricting the use of Hazardous Substances、危険物質に関する制限)やREACH(Registration, Evaluation, Authorisation and Restriction of CHemicals、欧州化学品規制)といった製品中の含有物質の含有量に関する制限規則に適合していることを証明するための適合宣言書や、機密情報の機密レベルや開示範囲を示すために文書に付与する機密情報表示を正確に記述することが必要不可欠である。このために、例えば、新たに作成する適合宣言書の記述が、準拠すべきRoHSやREACH等の基準書(定義文書)や類似製品の適合宣言書等に適合しているか否かを確認するために、それらを参考情報として参照する必要が生じる。この場合に文書管理システムが用いられる。
以下、情報処理装置がこのような文書管理に用いられる場合を主に例示して説明する。
文書受付モジュール110は、文抽出モジュール130と接続されている。関連文書の検索を行う場合で検索対象とする文書を受け付ける。なお、文書とは、テキストデータによって構成されており、場合によっては画像、動画、音声等の電子データ、又はこれらの組み合わせを含めてもよく、記憶、編集及び検索等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。対象となる文書には、文が含まれている。また、対象とする文書は、1つであってもよいし、複数の文書であってもよい。例えば、新たに作成する適合宣言書等が該当する。
文書を受け付けるとは、例えば、ハードディスク(コンピュータに内蔵されているものの他に、ネットワークを介して接続されているもの等を含む)等に記憶されている文書を読み出すこと、スキャナ、カメラ等で読み込んだ画像を文字認識すること等が含まれる。
文書格納モジュール120は、文抽出モジュール130、類似文検索モジュール150、関連文書検索モジュール160、関連文書ランキングモジュール170からアクセスされる。文書格納モジュール120が記憶する文書について、図3を用いて説明する。図3は、本実施の形態の文書格納モジュール120内に記憶されている文書の例を示す説明図である。文書格納モジュール120は、例えば、定義文書群310、サプライヤからの適合宣言書群320、設計仕様書群330等の過去に作成された文書を記憶しており、作成文書群340内の文書を対象文書として記憶する。
定義文書群310の文書としては「RoHS指令」、「REACH改訂」等の文書があり、サプライヤからの適合宣言書群320の文書としては「サプライヤからの部品aの適合宣言書」等の文書があり、設計仕様書群330の文書としては「○○プロダクトAの設計仕様」等の文書があり、また、文書受付モジュール110が受け付けて文書格納モジュール120に記憶される文書としては「○○プロダクトAのXX向け適合宣言書」等がある。
文抽出モジュール130は、文書受付モジュール110、文書格納モジュール120、関連文書ランキングモジュール170と接続されている。文書受付モジュール110から受け取った対象とする文書から文を抽出し、その文を類似構文集合生成モジュール140へ渡す。また、文書格納モジュール120に記憶されている文書から文を抽出してもよく、その文を文書格納モジュール120に記憶させてもよい。文抽出モジュール130は、文書内のテキストデータを、句点、改行記号に応じて複数の文に分割する。つまり、句点、改行記号があったところを区切りとして、文を切り出す。
類似構文集合生成モジュール140は、文抽出モジュール130、類似文検索モジュール150と接続されている。文抽出モジュール130によって抽出された文の構文に基づいて、その文の集合を生成する。
前述した適合宣言書や機密情報表示のようなコンプライアンスに関わる文書では、コンプライアンス項目に適合していることを示す複数の記述が並置的に記載されているという特徴を持つ。例えば、適合宣言書では、「六価クロムは、500ppm以下である。ポリ臭化ジフェニルエーテルは20ppm以下である。…」というような並置的な記述が続く。類似構文集合生成モジュール140は、適合宣言書や機密情報表示のある文書を対象とした場合、複数の事実や定義が並置的に記述される文の集合を生成する。
より詳細には、例えば、類似構文集合生成モジュール140は、文抽出モジュール130から受け取った文同士の類似度を総当りで比較し、予め定められた閾値T1以上の類似度を持つ文のグループを特定する。類似度の判定には、例えば特許文献1に開示されている文比較手段を用いる。すなわち、解析用単語辞書を有しており、その解析用単語辞書に基づいて、文を単語単位に分割する。その単語間の構文的係り受け関係を解析する。その構文解析結果である構文構造に基づいて、文の集合を生成する。つまり、構文構造が閾値T1以上の類似度(一致している場合を含む)を有している文をグループ化する。さらに、シソーラス辞書を有しており、そのシソーラス辞書に基づいて、構文上の対応する単語がシソーラス上で類似していること(例えば、具体的には、シソーラス上での距離が予め定められた閾値T2以下)をグループ化の条件として加えてもよい。
また、文の集合が複数できた場合には、集合に属する文の数が、予め設定された閾値T3よりも大きい集合のみを残し、他の集合は処理対象から外す。
類似文検索モジュール150は、文書格納モジュール120、類似構文集合生成モジュール140、関連文書検索モジュール160、関連文書ランキングモジュール170と接続されている。類似構文集合生成モジュール140によって生成された文の集合内の第1の文と類似する第2の文(以下、「類似文」ともいう)を文書格納モジュール120に記憶されている文書内の文から検索する。
例えば、具体的には、類似構文集合生成モジュール140から得られた同じ集合に属する各第1の文を対象として、文書格納モジュール120に記憶された各文書から文抽出モジュール130によって得られた文を対象に、それぞれの第1の文に類似する文を検索する。つまり、2つの文の類似度を算出し、その類似度が予め設定された閾値T4よりも大きい文を検索結果とする。類似構文集合生成モジュール140で複数の集合が得られた場合には、集合ごとにこの検索処理を実行する。
類似文検索モジュール150で用いる類似する文の検索手法は、類似構文集合生成モジュール140で用いた文の集合生成手法とは異なるものである。類似文検索モジュール150では単語の一致度を重視する検索手法を用いる。例えば、「Foundations of Statistical Natural Language Processing, The MIT Press (1999)」等に開示されている単語ベクトル法を用いるようにしてもよい。
ただし、数値の単語については、「500」や「20」といった具体的な数値を用いるのではなく、「数値表現」として統一的に扱う。
関連文書検索モジュール160は、文書格納モジュール120、類似文検索モジュール150、関連文書ランキングモジュール170と接続されている。類似文検索モジュール150によって検索された類似文に基づいて、対象とする文書に関連する文書を文書格納モジュール120から検索する。例えば、具体的には、文書格納モジュール120に記憶されている文書のうち、類似文検索モジュール150から検索結果として得られた文を複数含む文書を抽出する。
関連文書ランキングモジュール170は、文書格納モジュール120、文抽出モジュール130、類似文検索モジュール150、関連文書検索モジュール160、関連文書出力モジュール180と接続されている。関連文書ランキングモジュール170は、関連文書検索モジュール160から得られた文書を関連度の高いものから順にランキングする。ランキングに用いる情報は以下の通りである。
(1)関連文書検索モジュール160によって検索された文書に含まれる類似文の数。これは、関連文書検索モジュール160によって検索された文書ごとに、類似文検索モジュール150によって検索された類似文がいくつあるかをカウントすることによって得られる。
(2)関連文書検索モジュール160によって検索された文書に含まれる類似文とその類似文に対応する第1の文の類似度。これは、関連文書検索モジュール160によって検索された文書ごとに、類似文検索モジュール150で算出した類似度を用いる。
(3)類似文に対応する対象文書における第1の文の出現順序と関連文書検索モジュール160によって検索された文書における類似文の出現順序の比較結果。これは、関連文書検索モジュール160によって検索された文書ごとに、その文書内での類似文の出現順序とその類似文に対応する第1の文の対象文書における出現順序を比較することによって得られる。なお、比較結果の値は、出現順序が同じ場合を高い値とし、逆順の場合を低い値とするような関数によって算出する。
(4)前述の(1)、(2)、(3)の2つ以上の組み合わせ
例えば、(1)の値、(2)の値、(3)の値のいずれか、又はこれらの値の組み合わせ(例えば、これらの値の和、各値に予め定めた重み係数を乗じた値の平均値等であってもよい)が大きい文書から順に並べる。
また、関連文書ランキングモジュール170は、関連文書検索モジュール160によって検索された文書と対象文書の類似度に基づいて、前述の順序付けを行うようにしてもよい。例えば、関連文書検索モジュール160によって検索された文書内の全ての単語と対象文書内の全ての単語の類似度を、類似文検索モジュール150で用いた類似度の算出と同等の方法で求めて、予め定められた閾値T5よりも高い文書に対してだけ前述の順序付けを行うようにしてもよい。つまり、文書全体が類似している文書を対象として順序付けを行う。また、予め定められた閾値T6よりも低い文書に対してだけ前述の順序付けを行うようにしてもよい。つまり、文書全体は類似していないが、集合内の文と類似している文を有する文書を対象として順序付けを行う。
関連文書出力モジュール180は、関連文書ランキングモジュール170と接続されている。関連文書ランキングモジュール170によってランキングされた文書を出力する。なお、出力する文書とは、文書そのものであってもよいし、その文書の属性(例えば、タイトル等)のリストであってもよい。また、出力するとは、例えば、ディスプレイ等の表示装置に表示すること、プリンタ等の印刷装置で印刷すること、ファックス等の画像送信装置で画像を送信すること、文書データベース等の文書記憶装置へ文書を書き込むこと、メモリーカード等の記憶媒体に記憶すること、他の情報処理装置へ渡すこと等が含まれる。
図2は、本実施の形態による処理例を示すフローチャートである。具体例を用いて説明する。なお、この例では、文抽出モジュール130が予め文書格納モジュール120内の文書について文を抽出しておく。文の抽出結果は、例えば、文・文書テーブル900に記憶する。図9は、文・文書テーブル900のデータ構造例を示す説明図である。文・文書テーブル900は、文ID欄902、文欄904、文書ID欄906を有している。つまり、文と文書を対応付けている。
文ID欄902は、抽出した文を一意に識別する文ID(IDentification)を記憶する。
文欄904は、抽出した文を記憶する。
文書ID欄906は、その文を抽出した文書を一意に識別する文書IDを記憶する。
ステップS202では、文書受付モジュール110が、対象文書を受け付ける。
ステップS204では、文抽出モジュール130が、受け付けた文書内のテキストデータから文を抽出する。図4は、対象文書(適合宣言書)内の文の例を示す説明図であり、文402から文410の文を抽出した例である。図7は、対象文書(機密情報表示を含む文書)内の文の例を示す説明図であり、文702から文708の文を抽出した例である。つまり、句点又は改行記号のいずれか一方を発見するごとに文を抽出する。
ステップS206では、類似構文集合生成モジュール140が、文同士の(構文構造の類似性に基づく)類似度を計算し、文をグループに分類する。例えば、図4に例示した文のうち文402、文406、文408は、並置的な記述の文(構文構成として「<物質名>を主部に含み、<数値表現><単位>を述部に含む」)であり、これらをグループとして特定する。図7に例示した文702から文708は、並置的な記述の文であり、これらをグループとして特定する。対象文書内の文についてグループ分けした結果を、例えば、文・グループテーブル1000に記憶する。図10は、文・グループテーブル1000のデータ構造例を示す説明図である。文・グループテーブル1000は、文ID欄1002、文欄1004、グループ欄1006を有している。
文ID欄1002は、対象文書内の文を一意に識別する文IDを記憶する。
文欄1004は、抽出した文を記憶する。
グループ欄1006は、グループ分けした結果であるグループIDを記憶する。図10の例では、「A−005」と「A−007」の文は同じグループに属する。
ステップS208では、類似文検索モジュール150が、過去に作成された文書(文書格納モジュール120内の文書)を対象にして、グループに属する各文の(単語の類似性に基づく)類似文を検索する。
例えば、図4に例示した文406である
「ポリ臭化ジフェニルエーテルの含有は、20ppm以下である。」
に類似する文として、
「ポリ臭化ジフェニルエーテルは10ppm以下の含有量である。」
「ポリ臭化ジフェニルエーテルの含有は50ppm以下の含有に抑えること。」
等の文が検索結果として得られる。つまり、これらの文は、文406内の「ポリ臭化ジフェニルエーテル」、「含有」、「『数値表現』ppm」、「以下」と同じ単語を含んでいるので、類似文として検索される。
類似文の検索結果を、例えば、類似度テーブル1100に記憶する。図11は、類似度テーブル1100のデータ構造例を示す説明図である。類似度テーブル1100は、対象文ID欄1102、類似文ID欄1104、文書ID欄1106、類似度欄1108を有している。
対象文ID欄1102は、対象文書内の文の文IDを記憶する。
類似文ID欄1104は、検索結果である類似文の文IDを記憶する。
文書ID欄1106は、その類似文が含まれている文書IDを記憶する。
類似度欄1108は、対象文と類似文との間における類似度を記憶する。
ステップS210では、関連文書検索モジュール160が、得られた類似文を含む文書を文書格納モジュール120から検索する。例えば、類似度テーブル1100のその類似文IDに対応する文書ID欄1106を用いればよい。
ステップS212では、関連文書ランキングモジュール170が、文書内の類似文の数等に基づき文書のランキングを決定する。例えば、図4に例示した文402、文406、文408のそれぞれの文と単語が類似しており、それらの文の出現順序が同じである、図5(文402、406、408に対応する文として文502、504、506)、図6(文402、406、408に対応する文として文602、604、606)に例示した文書が上位にランキングされる。また、図7に例示した文702から文708のそれぞれの文と単語が類似しており、それらの文の出現順序が同じである、図8(文702、704、706、708に対応する文として文802、806、810、814)に例示した文書が上位にランキングされる。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図12に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU1201を用い、記憶装置としてRAM1202、ROM1203、HD1204を用いている。HD1204として、例えばハードディスクを用いてもよい。文抽出モジュール130、類似構文集合生成モジュール140、類似文検索モジュール150、関連文書検索モジュール160、関連文書ランキングモジュール170等のプログラムを実行するCPU1201と、そのプログラムやデータを記憶するRAM1202と、本コンピュータを起動するためのプログラム等が格納されているROM1203と、補助記憶装置であるHD1204と、キーボード、マウス等のデータを入力する入力装置1206と、CRTや液晶ディスプレイ等の出力装置1205と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース1207、そして、それらをつないでデータのやりとりをするためのバス1208により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図12に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図12に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図12に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
前述の実施の形態においては、制限規則に関する文書を示したが、他の文書を対象としてもよい。類似している構文構成の文が複数含まれており、それらの文が検索対象となるような文書であれば適用できる。
なお、前述の実施の形態内の各モジュールの処理内容として従来技術として説明した技術を採用してもよい。
また、前述の実施の形態の説明において、予め定められた値との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
110…文書受付モジュール
120…文書格納モジュール
130…文抽出モジュール
140…類似構文集合生成モジュール
150…類似文検索モジュール
160…関連文書検索モジュール
170…関連文書ランキングモジュール
180…関連文書出力モジュール

Claims (3)

  1. 文書を記憶する文書記憶手段と、
    対象とする文書から文を抽出する文抽出手段と、
    前記文抽出手段によって抽出された文の構文に基づいて、該文の集合を生成する文集合生成手段と、
    前記文集合生成手段によって生成された文の集合内の第1の文と類似する第2の文を前記文書記憶手段に記憶されている文書内の文から検索する類似文検索手段と、
    前記類似文検索手段によって検索された第2の文に基づいて、前記対象とする文書に関連する文書を前記文書記憶手段から検索する関連文書検索手段と、
    前記関連文書検索手段によって検索された文書に含まれる前記第2の文の数、該第2の文に対応する前記対象文書における前記第1の文の出現順序と前記関連文書検索手段によって検索された文書における該第2の文の出現順序の比較結果、又はこれらの組み合わせに基づいて、前記関連文書検索手段によって検索された文書を順序付けする順序付手段
    を具備することを特徴とする情報処理装置。
  2. 前記順序付手段は、前記関連文書検索手段によって検索された文書と前記対象とする文書の類似度に基づいて、前記順序付けを行う
    ことを特徴とする請求項に記載の情報処理装置。
  3. コンピュータを、
    文書を記憶する文書記憶手段と、
    対象とする文書から文を抽出する文抽出手段と、
    前記文抽出手段によって抽出された文の構文に基づいて、該文の集合を生成する文集合生成手段と、
    前記文集合生成手段によって生成された文の集合内の第1の文と類似する第2の文を前記文書記憶手段に記憶されている文書内の文から検索する類似文検索手段と、
    前記類似文検索手段によって検索された第2の文に基づいて、前記対象とする文書に関連する文書を前記文書記憶手段から検索する関連文書検索手段と、
    前記関連文書検索手段によって検索された文書に含まれる前記第2の文の数、該第2の文に対応する前記対象文書における前記第1の文の出現順序と前記関連文書検索手段によって検索された文書における該第2の文の出現順序の比較結果、又はこれらの組み合わせに基づいて、前記関連文書検索手段によって検索された文書を順序付けする順序付手段
    として機能させることを特徴とする情報処理プログラム。
JP2009164390A 2009-07-13 2009-07-13 情報処理装置及び情報処理プログラム Expired - Fee Related JP5391887B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009164390A JP5391887B2 (ja) 2009-07-13 2009-07-13 情報処理装置及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009164390A JP5391887B2 (ja) 2009-07-13 2009-07-13 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2011022630A JP2011022630A (ja) 2011-02-03
JP5391887B2 true JP5391887B2 (ja) 2014-01-15

Family

ID=43632681

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009164390A Expired - Fee Related JP5391887B2 (ja) 2009-07-13 2009-07-13 情報処理装置及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP5391887B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5699789B2 (ja) * 2011-05-10 2015-04-15 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び情報処理システム
WO2016147624A1 (ja) * 2015-03-13 2016-09-22 日本電気株式会社 検索システム、検索方法および検索プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3583631B2 (ja) * 1998-12-03 2004-11-04 三菱電機株式会社 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000242650A (ja) * 1999-02-18 2000-09-08 Mitsubishi Electric Corp 類似文書検索方法、類似文書検索装置、および類似文書検索プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2006227914A (ja) * 2005-02-17 2006-08-31 Canon Inc 情報検索装置、情報検索方法、プログラム、記憶媒体
JP2007279978A (ja) * 2006-04-05 2007-10-25 Hitachi Ltd 文書検索装置及び文書検索方法

Also Published As

Publication number Publication date
JP2011022630A (ja) 2011-02-03

Similar Documents

Publication Publication Date Title
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
JP6141305B2 (ja) 画像検索
US20200302114A1 (en) Information extraction from open-ended schema-less tables
CA2777520C (en) System and method for phrase identification
US10922346B2 (en) Generating a summary based on readability
EP3401802A1 (en) Webpage training method and device, and search intention identification method and device
US20170052945A1 (en) Generation apparatus, generation method, and program
TWI536181B (zh) 在多語文本中的語言識別
WO2022087497A1 (en) Multi-dimensional product information analysis, management, and application systems and methods
CN109145110B (zh) 标签查询方法和装置
US20100332484A1 (en) Document information creation device, document registration system, computer-readable storage medium and document information creation method
CN110427488B (zh) 文档的处理方法及装置
Yerva et al. It was easy, when apples and blackberries were only fruits
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP5391887B2 (ja) 情報処理装置及び情報処理プログラム
US9672275B2 (en) Recommendation apparatus, recommendation method, and storage medium
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
JP2011065255A (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
CN112487181B (zh) 关键词确定方法和相关设备
US20230177362A1 (en) Risk assessment apparatus, risk assessment method, and program
JP5510221B2 (ja) 情報処理装置及び情報処理プログラム
JP2008090396A (ja) 電子文書検索方法、電子文書検索装置及びプログラム
JP6201779B2 (ja) 情報処理装置及び情報処理プログラム
KR100312430B1 (ko) 인터넷 쇼핑몰 상품정보 학습 시스템 및 그 방법
US20180307669A1 (en) Information processing apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130930

R150 Certificate of patent or registration of utility model

Ref document number: 5391887

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees