JP5019315B2

JP5019315B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP5019315B2
Application number: JP2007112532A
Authority: JP
Inventors: 英嗣難波
Original assignee: Hiroshima City University
Current assignee: Hiroshima City University
Priority date: 2007-04-23
Filing date: 2007-04-23
Publication date: 2012-09-05
Anticipated expiration: 2027-04-23
Also published as: JP2008269375A

Description

本発明は、第二文書に対して第一文書に対応付けられている分類情報を付与する情報処置装置等に関する。

従来、ある分野の文書を語彙が異なる分野の文書のカテゴリによって分類する文書分類装置等が開発されている（例えば、特許文献１参照）。
特開２００６−３０１９２０号公報

上記特許文献１で開示されている文書分類装置は、文書から特徴ベクトルを算出し、その特徴ベクトルを用いることによって、ある分野の文書を、異なる分野のカテゴリに分類するものである。しかしながら、そのような分類を行うためには、教師データとして用いる文書と、分類を行う文書とのすべての特徴ベクトルを算出する必要がある。その特徴ベクトルは、非常に大きな次元のものであると考えられるところ、その特徴ベクトルを算出する処理は非常に負荷の大きい処理であり、多大な時間がかかると考えられる。また、特徴ベクトルを用いることによってのみ文書の類似性を判断しているため、精度が低くなるおそれもありうる。

本発明は、上記問題点を解決するためになされたものであり、その一つの目的は、第一の分野の文書に対応付けられている分類情報を、第二の分野の文書に付与する処理を、軽い負荷、高い精度で実行することができる情報処理装置等を提供することである。

また、他の目的は、互いに対応している第一文書と第二文書とを特定し、その特定した第一文書と第二文書との対応を示す情報を出力する情報処理装置等を提供することである。

上記目的を達成するため、本発明による情報処理装置は、第一の分野における文書である第一文書と、当該第一文書の分類を示す情報である分類情報との対応が１以上記憶される第一文書記憶部と、第二の分野における文書である第二文書が１以上記憶される第二文書記憶部と、互いに対応している第一文書と第二文書とを特定する特定部と、前記特定部が特定した第一文書と第二文書とのうち、当該第二文書に対して、当該第一文書に対応付けられている分類情報を付与する分類付与部と、を備えたものである。

このような構成により、第二文書に対して、第一文書に対応付けられている分類情報を付与することができる。また、その分類情報の付与を、互いに対応している第一文書と第二文書との対応を用いて行うことによって、精度が高いものとなる。また、上記特許文献１のように、非常に大きな次元の特徴ベクトルを扱う必要がなく、処理負荷も軽減されている。

また、本発明による情報処理装置では、前記第一文書は、当該第一文書の記載対象を創案した１以上の創案者名を少なくとも含んでおり、前記第二文書は、当該第二文書の記載対象を創案した１以上の創案者名を少なくとも含んでおり、前記特定部は、記載対象が同じであり、少なくとも一部の創案者名が一致している第一文書と第二文書とを互いに対応しているペア文書として特定してもよい。
このような構成により、ペア文書を特定して分類情報の付与を行うため、より精度の高い分類情報の付与が可能となりうる。

また、本発明による情報処理装置では、前記特定部は、第一文書と第二文書との少なくとも一方に、ペア文書の相手方の文書を特定する情報である特定情報が含まれる場合に、当該特定情報を抽出する特定情報抽出手段と、前記特定情報抽出手段が抽出した特定情報を含む文書と、当該特定情報で特定される文書とをペア文書として特定する特定手段と、を備えてもよい。
このような構成により、特定情報によって相手方の文書が特定されている場合にペア文書の特定を行うため、確実なペア文書の特定が可能となりうる。

また、本発明による情報処理装置では、前記特定部は、第一文書に含まれる特徴的な単語である特徴語と、第二文書に含まれる特徴的な単語である特徴語とを抽出する特徴語抽出手段と、前記特徴語抽出手段が抽出した第一文書に含まれる特徴語と、第二文書に含まれる特徴語とを比較し、両文書の類似に関する情報である類似情報を算出する類似情報算出手段と、第一文書の第二文書との少なくとも一部の創案者名が一致しているかどうか判断する創案者名判断手段と、前記類似情報算出手段が算出した類似情報によって類似性の高いことが示される第一文書と第二文書とであって、前記創案者名判断手段による判断の結果、両文書にそれぞれ対応している少なくとも一部の創案者名が一致している第一文書と第二文書とをペア文書として特定する特定手段と、を備えてもよい。

このような構成により、第一文書や第二文書に特定情報が含まれていなくても、ペア文書を特定することができうる。また、２個の文書間で類似情報の算出を行うため、上記特許文献１のように、非常に大きな次元の特徴ベクトルを扱う必要がなく、処理負荷も軽減されることになる。

また、本発明による情報処理装置では、前記特定部は、前記第一文書から抽出された特徴語、または前記第二文書から抽出された特徴語を、相手方の分野の特徴語に変換する特徴語変換手段をさらに備え、前記類似情報算出手段は、前記特徴語変換手段によって変換された特徴語を用いて前記類似情報の算出を行ってもよい。

このような構成により、分野の異なる文書から抽出された特徴語を直接比較することが困難な場合であっても、特徴語の変換を行うことによって、より適切な比較が可能となり、２個の文書の類似性をより適切に示す類似情報の算出が可能となりうる。

また、本発明による情報処理装置では、前記第一文書記憶部では、前記第一文書と、前記分類情報と、当該第一文書に関する時期を示す情報である第一時期情報との対応が１以上記憶されるものであり、前記第二文書記憶部では、前記第二文書と、当該第二文書に関する時期を示す情報である第二時期情報との対応が１以上記憶されるものであり、前記特定部は、第一文書に対応する第一時期情報の示す時期と、第二文書に対応する第二時期情報の示す時期とが所定の範囲内であるかどうか判断する時期判断手段をさらに備え、前記特定手段は、前記時期判断手段によって第一時期情報の示す時期と第二時期情報の示す時期とが所定の範囲内でないと判断された第一文書と第二文書とをペア文書として特定しなくてもよい。

このような構成により、第一時期情報と第二時期情報とを用いて、互いに対応していないであろうと考えられる第一文書と第二文書との対応を除外することができる。その結果、精度を向上させることができうる。

また、本発明による情報処理装置では、前記特定部は、第一文書と第二文書との少なくとも一方に、他の文書を引用する情報である引用情報が含まれる場合に、当該引用情報を抽出する引用情報抽出手段と、前記引用情報抽出手段が抽出した引用情報を含む文書と、当該引用情報で引用される相手方の分野の文書とを互いに対応している文書として特定する特定手段と、を備えてもよい。
このような構成により、引用関係にある文書は近い分野にあると考えられるため、その引用関係を用いて、互いに対応している文書を特定することができる。

また、本発明による情報処理装置では、前記特定部は、前記引用情報抽出手段が抽出した引用情報の示す引用形式が、引用する文書の問題を指摘する形式である問題指摘型引用形式であるかどうか判断する引用形式判断手段をさらに備え、前記特定手段は、前記引用形式判断手段が、前記引用情報の示す引用形式が問題指摘型引用形式であると判断した場合に、当該引用情報を含む文書と、当該引用情報で引用される文書とを互いに対応している文書として特定してもよい。
このような構成により、引用形式を用いて互いに対応している文書を特定するため、精度を向上させることができうる。

また、本発明による情報処理装置では、互いに類似する複数の第二文書を特定する第２の特定部と、前記第２の特定部が特定した互いに類似する複数の第二文書のうち、いずれかの第二文書に前記分類付与部によって分類情報が付与されている場合に、当該分類情報が付与されている第二文書と類似する第二文書に対して当該分類情報を付与する拡張分類付与部と、をさらに備えてもよい。

このような構成により、第二文書の類似性を用いて、分類情報を拡張して付与することができるようになり、より多くの第二文書に分類情報を付与することが可能となりうる。

また、本発明による情報処理装置では、前記第２の特定部は、第二文書に含まれる特徴的な単語である特徴語を抽出する第２の特徴語抽出手段と、前記第２の特徴語抽出手段が抽出した、複数の第二文書に含まれる特徴語を比較し、当該複数の第二文書の類似に関する情報である類似情報を算出する第２の類似情報算出手段と、前記第２の類似情報算出手段が算出した類似情報によって類似性の高いことが示される複数の第二文書を、互いに類似する複数の第二文書として特定する第２の特定手段と、を備えてもよい。
このような構成により、第二文書から抽出した特徴語を用いて、第二文書間の類似性を判断することができうる。

また、本発明による情報処理装置では、前記第２の特定部は、第二文書の少なくともいずれかに、他の文書を引用する情報である引用情報が含まれる場合に、当該引用情報を抽出する第２の引用情報抽出手段と、前記第２の引用情報抽出手段が抽出した引用情報を含む第二文書と、当該引用情報で引用される第二文書とを互いに類似する文書として特定する第２の特定手段と、を備えてもよい。
このような構成により、引用関係にある文書は類似していると考えられるため、その引用関係を用いて、類似している文書を特定することができる。

また、本発明による情報処理装置では、前記第２の特定部は、前記第２の引用情報抽出手段が抽出した引用情報の示す引用形式が、引用する第二文書の問題を指摘する形式である問題指摘型引用形式であるかどうか判断する第２の引用形式判断手段をさらに備え、前記第２の特定手段は、前記第２の引用形式判断手段が、前記引用形式の示す引用形式が問題指摘型引用形式であると判断した場合に、当該引用情報を含む第二文書と、当該引用情報で引用される第二文書とを互いに類似する文書として特定してもよい。
このような構成により、引用形式を用いて類似している文書を特定するため、精度を向上させることができうる。

本発明による情報処理装置は、第一の分野における文書であり、当該文書の記載対象を創案した１以上の創案者名を少なくとも含む文書である第一文書が１以上記憶される第一文書記憶部と、第二の分野における文書であり、当該文書の記載対象を考案した１以上の創案者名を少なくとも含む文書である第２文書が１以上記憶される第二文書記憶部と、記載対象が同じであり、少なくとも一部の創案者名が一致している第一文書と第二文書とをペア文書として特定する特定部と、前記特定部が特定した第一文書と第二文書との対応を示す情報を出力する出力部と、を備えたものである。
このような構成により、出力された情報によって、互いに対応している文書を知ることができる。

本発明による情報処理装置等によれば、例えば、第一の分野の文書に対応付けられている分類情報を、第二の分野の文書に付与する処理を、軽い負荷、高い精度で実行することができる。

以下、本発明による情報処理装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。

（実施の形態１）
本発明の実施の形態１による情報処理装置について、図面を参照しながら説明する。
図１は、本実施の形態による情報処理装置１の構成を示すブロック図である。図１において、本実施の形態による情報処理装置１は、第一文書記憶部１１と、第二文書記憶部１２と、第１の特定部１３と、分類付与部１４と、第２の特定部１５と、拡張分類付与部１６とを備える。

第一文書記憶部１１では、第一文書と、その第一文書の分類を示す情報である分類情報と、その第一文書に関する時期を示す情報である第一時期情報との対応が１以上記憶される。ここで、第一文書とは、第一の分野における文書である。なお、「第一文書」は、本来であれば「第一文書を示す情報」と呼ぶべきであるが、単に第一文書と呼ぶことにする。後述する第二文書や特徴語等についても同様である。

分野とは、文書の範囲を決めるものであり、例えば、特許の分野と論文の分野や、第一言語（例えば、英語）の分野と第二言語（例えば、日本語）の分野等がある。なお、第一言語と第二言語とは異なる言語であるとする。分野は、例えば、使用される語彙に応じた分野であってもよく、文書における構造に応じた分野であってもよい。文書における構造とは、例えば、その文書で用いられている表題等であってもよい。例えば、特許では、「発明の名称」「発明が解決しようとする課題」「課題を解決するための手段」等の表題を有しているのに対して、論文では、「タイトル」「アブストラクト」「はじめに」「今後の展望」「参考文献」等の表題を有しており、それらの表題の違いによって文書の分野を分けることもできうる。また、前述のように、文書を記載している言語によって分野を分けることもできうる。さらに、例えば、文書の流通するルート、例えば、第一の学会で発表されたものか、第二の学会で発表されたものか等によって、分野を分けることもできうる。なお、文書の分野は、これらのものに限定されるものではなく、客観的に区別可能な分野であれば、その他のものであってもよい。

また、分類情報は、その分野において文書を分類するための情報であれば、その内容を問わない。例えば、特許の分野であれば、ＩＰＣや、Ｆターム、ＦＩ、ファセット、ＵＳクラス等であってもよい。また、論文の分野であれば、例えば、学会の名称や、学会のセッション名、分科会の名称等の分類であってもよい。

第一文書は、その第一文書の記載対象を創案した１以上の創案者名を少なくとも含んでいてもよい。創案者名は、例えば、第一文書が特許文書の場合には、発明者であってもよく、第一文書が論文の場合には、論文の著者であってもよい。

第一時期情報は、例えば、第一文書が特許文書の場合には、出願日や公開日等であってもよく、第一文書が論文の場合には、その論文の発表日や刊行日等であってもよい。

第一文書記憶部１１は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。第一文書記憶部１１に第一文書等が記憶される過程は問わない。例えば、記録媒体を介して第一文書等が第一文書記憶部１１で記憶されるようになってもよく、通信回線等を介して送信された第一文書等が第一文書記憶部１１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された第一文書等が第一文書記憶部１１で記憶されるようになってもよい。また、第一文書記憶部１１での記憶は、外部のストレージデバイス等から読み出した第一文書等の一時的な記憶でもよく、あるいは、長期的な記憶でもよい。

第二文書記憶部１２では、第二文書と、その第二文書に関する時期を示す情報である第二時期情報との対応が１以上記憶される。ここで、第二文書とは、第二の分野における文書である。また、第二文書は、その第二文書の記載対象を創案した１以上の創案者名を少なくとも含んでいてもよい。分野、創案者名は、第一文書記憶部１１に関する説明と同様のものである。また、第二時期情報も、前述の第一時期情報と同様のものである。

第二文書記憶部１２は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。第二文書記憶部１２に第二文書等が記憶される過程は問わない。例えば、記録媒体を介して第二文書等が第二文書記憶部１２で記憶されるようになってもよく、通信回線等を介して送信された第二文書等が第二文書記憶部１２で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された第二文書等が第二文書記憶部１２で記憶されるようになってもよい。また、第二文書記憶部１２での記憶は、外部のストレージデバイス等から読み出した第二文書等の一時的な記憶でもよく、あるいは、長期的な記憶でもよい。

第一文書記憶部１１と、第二文書記憶部１２とは、同一の記録媒体によって実現されてもよく、別々の記録媒体によって実現されてもよい。前者の場合には、第一文書を記憶している領域が第一文書記憶部１１となり、第二文書を記憶している領域が第二文書記憶部１２となる。

第一文書と第二文書は、例えば、次のようなものであってもよい。すなわち、第一文書は、特許文書であり、第二文書は、論文であってもよく、あるいは、第一文書は、第一言語の文書であり、第二文書は、第一言語とは異なる第二言語の文書であってもよい。本実施の形態では、第一文書が特許文書であり、第二文書が論文である場合について説明する。また、分類情報がＩＰＣである場合について説明する。

第１の特定部１３は、互いに対応している第一文書と第二文書とを特定する。互いに対応しているとは、例えば、（１）記載対象が同じであり、少なくとも一部の創案者名が一致していることであってもよく、（２）互いに引用関係にあることであってもよく、何らかの対応があるのであれば、その他の関係であってもよい。本実施の形態では、上記（１）の場合について説明する。なお、上記（２）の場合については、実施の形態２において後述する。

本実施の形態では、第１の特定部１３が、記載対象が同じであり、少なくとも一部の創案者名が一致している第一文書と第二文書とを互いに対応しているペア文書として特定するものとする。例えば、ある人が発明を行い、その発明に関して特許を出願すると共に、論文を発表した場合に、第１の特定部１３は、その特許文書と、論文とをペア文書として特定することになる。

ここで、第１の特定部１３がペア文書としての第一文書と第二文書とを特定する方法について説明する。なお、ここでの説明は、概念的な説明であって、詳細な説明については後述する。

［ペア文書の特定方法］
（Ａ）特定情報を用いる方法
一の文書において、その文書とペアとなる文書である他の文書を特定している場合には、それに応じて両文書をペア文書として特定することが好適であると考えられる。したがって、第一文書と第二文書との少なくとも一方に、ペア文書の相手方の文書を特定する情報である特定情報が含まれる場合に、第１の特定部１３は、その特定情報を含む文書と、その特定情報で特定される文書とをペア文書として特定してもよい。

例えば、日本国特許法の第３０条の例外適用を受けて出願している場合には、対応する発表論文等に関する記載が特許文書（例えば、公開公報等）に記載されることがある。その記載が特定情報であり、第１の特定部１３は、その特定情報を用いて、相手方の文書、すなわち特許出願の前に発表した特許出願の内容に関係する論文を特定してもよい。

（Ｂ）文書の類似性を用いる方法
一の文書の内容が、他の文書と近似している場合には、両文書は記載対象が同じであるペア文書である可能性が高いと考えられる。したがって、第１の特定部１３は、第一文書と第二文書との類似性を用いて、類似性の高い文書の組合せをペア文書として特定してもよい。類似性の判断において、第１の特定部１３は、文書から特徴的な単語である特徴語を抽出し、その抽出された特徴語を比較して、文書間の類似に関する情報である類似情報を算出し、その類似情報によって特徴語の類似性が高いことが示される第一文書と第二文書とをペア文書として特定してもよい。なお、第一文書と第二文書では、一般に使用される用語が異なることが多いと考えられる。したがって、いずれかの文書から抽出された特徴語を、相手方の分野の特徴語に変換してから、類似情報の算出を行ってもよい。

（Ｃ）創案者名を用いる方法
この方法は、単独で用いられるのではなく、上記の（Ａ），（Ｂ）等の方法と一緒に用いられる方法である。第一文書と第二文書とがペア文書であるためには、少なくとも一部の創案者名が一致している必要があるため、第１の特定部１３は、第一文書の創案者名と、第二文書の創案者名とを比較し、少なくとも一部の創案者名が一致している（氏名が完全一致している）場合に、その第一文書と第二文書とがペア文書である可能性があると判断し、そうでない場合に、その第一文書と第二文書とがペア文書ではないと判断してもよい。

（Ｄ）時期情報を用いる方法
この方法も、単独で用いられるのではなく、上記の（Ａ），（Ｂ）等の方法と一緒に用いられる方法である。第一文書と第二文書とがペア文書であるのであれば、両文書は少なくとも同時期に発表や公表、出願等が行われていると考えられるため、第１の特定部１３は、第一文書に対応する第一時期情報と、第二文書に対応する第二時期情報とが所定の範囲内であるかどうか判断し、所定の範囲内である場合に、その両文書がペア文書である可能性があると判断し、そうでない場合に、その両文書がペア文書でないと判断してもよい。

なお、本実施の形態では、第１の特定部１３は、上記（Ａ），（Ｂ），（Ｃ），（Ｄ）を組み合わせた方法を用いて、ペア文書としての第一文書と第二文書とを特定する場合について説明する。

図２は、本実施の形態による第１の特定部１３の構成を示すブロック図である。図２で示されるように、本実施の形態による第１の特定部１３は、特定情報抽出手段２１と、創案者名判断手段２２と、時期判断手段２３と、特徴語抽出手段２４と、特徴語変換手段２５と、類似情報算出手段２６と、特定手段２７とを備える。

特定情報抽出手段２１は、第一文書と第二文書との少なくとも一方に、ペア文書の相手方の文書を特定する情報である特定情報が含まれる場合に、その特定情報を抽出する。特定情報は、例えば、日本国特許法の第３０条の新規性を喪失する要因となった発表論文等に関する記載であってもよく、論文における、対応する特許文書を特定する情報であってもよく、その他の記載であってもよい。

特定情報抽出手段２１は、例えば、特定情報を抽出するための手がかり語句を用いて、特定情報を抽出してもよい。例えば、特定情報が前述の第３０条の新規性を喪失する要因となった発表論文等に関する記載である場合には、その手がかり語句は「特許法第３０条第１項適用申請有り」であってもよい。通常、その手がかり語句に続いて、発表論文等に関する記載があるため、特定情報抽出手段２１は、その手がかり語句に続く発表論文等に関する記載を特定情報として抽出することができる。なお、特定情報を抽出する方法は、これに限定されるものではない。例えば、特定情報の形式等が決まっている場合には、特定情報抽出手段２１は、その形式に関するパターンマッチング等を行うことによって、特定情報を抽出してもよい。なお、その手がかり語句やパターン等は、図示しない記録媒体（例えば、特定情報抽出手段２１が有してもよく、他の構成要素が有してもよい）において記憶されていてもよい。

創案者名判断手段２２は、第一文書の第二文書との少なくとも一部の創案者名が一致しているかどうか判断する。より具体的には、創案者名判断手段２２は、ある第一文書に含まれる１番目の創案者名を読み出し、その創案者名と、ある第二文書に含まれるいずれかの創案者名とが一致するかどうか判断する。この一致は、氏名の完全一致で判断することが好ましい。ただし、一方の文書に名字（ファミリーネーム）のみ、あるいは、名（ファーストネーム）のみしか含まれない場合には、その範囲内での幹線一致で判断してもよい。そして、少なくともいずれかと一致する場合には、第一文書の第二文書との少なくとも一部の創案者名が一致していると判断し、いずれとも一致しない場合には、その第一文書に２番目の創案者名が含まれるのであれば、その創案者名について同様の判断をする。その第一文書に含まれるすべての創案者名に対して、この処理を行い、いずれも一致しなかった場合には、創案者名判断手段２２は、その第一文書と、その第二文書とは、いずれの創案者名も一致しないと判断する。

なお、創案者名判断手段２２は、特定情報抽出手段２１と同様に、第一文書や第二文書に含まれる創案者名を特定するために、手がかり語句（例えば、「発明者」等）を用いた検索や、パターンマッチング等を行ってもよい。また、その手がかり語句やパターン等は、図示しない記録媒体（例えば、創案者名判断手段２２が有してもよく、他の構成要素が有してもよい）において記憶されていてもよい。

時期判断手段２３は、第一文書に対応する第一時期情報の示す時期と、第二文書に対応する第二時期情報の示す時期とが所定の範囲内であるかどうか判断する。時期とは、例えば、年月日であってもよく、月日であってもよく、年であってもよい。「所定の範囲内」は、第一時期情報の示す時期と、第二文書に対応する第二時期情報の示す時期との間が、例えば、「１年以内」「２年以内」である、といったように、第一時期情報の示す時期と、第二文書に対応する第二時期情報の示す時期とに方向がないように設定されていてもよく、あるいは、第一時期情報の示す時期から、第一時期情報の示す時期から１８か月経過した時期までの間に、第二文書に対応する第二時期情報の示す時期が存在する、といったように、第一時期情報の示す時期と、第二文書に対応する第二時期情報の示す時期とに方向があるように設定されていてもよい。後者の場合には、例えば、第一文書が特許文書であって、第一時期情報がその出願日であり、第二文書が論文であって、第二時期情報がその発表日または刊行日であるとして、その第一文書が特許法第３０条の適用を受けていないとすると、「所定の範囲内」は、第一時期情報の示す時期から、第一時期情報の示す時期から１８か月経過した時期までの間に、第二文書に対応する第二時期情報の示す時期が存在するというものであってもよい。一般には、特許文書が公開されるまでに論文が発表、あるいは刊行されるものだと考えられるからである。なお、第一文書が特許法第３０条の適用を受けている場合には、「所定の範囲内」は、第一時期情報の示す時期よりも６か月前の時期から、第一時期情報の示す時期までの間に、第二文書に対応する第二時期情報の示す時期が存在するというものであってもよい。このように、「所定の範囲」は、文書の属性に応じて変化してもよい。文書の属性とは、例えば、文書が特許法第３０条の適用を受けているかどうかなどである。なお、所定の範囲内を示す情報は、図示しない記録媒体（例えば、時期判断手段２３が有してもよく、他の構成要素が有してもよい）において記憶されていてもよい。

特徴語抽出手段２４は、第一文書に含まれる特徴的な単語である特徴語と、第二文書に含まれる特徴的な単語である特徴語とを抽出する。特徴語抽出手段２４は、例えば、ｔｆｉｄｆやｔｆ、ｓｍａｒｔ等の値の高い用語を特徴語として抽出してもよい。ｔｆｉｄｆ等については、すでに公知であり、詳細な説明を省略する。ここで、ｔｆｉｄｆ等の値の高い用語とは、例えば、ｔｆｉｄｆ等の値の最も高い用語から所定の個数の用語であってもよく、ｔｆｉｄｆ等の値が所定のしきい値以上である用語であってもよく、あるいは、その組合せであってもよい。その所定のしきい値は、例えば、図示しない記録媒体において記憶されていてもよい。このことは、他のしきい値についても同様であるとする。そして、特徴語抽出手段２４は、その記録媒体から所定のしきい値読み出して、特徴語の抽出する処理を行ってもよい。

また、特徴語抽出手段２４は、第一文書や第二文書の所定の領域から特徴語の抽出を行ってもよい。例えば、第一文書が特許文書である場合に、特徴語抽出手段２４は、第一文書の「発明の名称」「発明の効果」「課題を解決するための手段」等の項目に対して形態素解析を行い、形態素解析の結果から「する」「なる」「ある」を除いた「代名詞」「非自立語」「数」「接尾語」「接頭語」以外の「名詞」「動詞」「形容詞」「未知語」のうち、上述のｔｆｉｄｆ等の値の高いものを特徴語として抽出してもよい。また、例えば、第二文書が論文である場合に、特徴語抽出手段２４は、第二文書の「タイトル」「概要（アブストラクト）」等の項目に対して形態素解析を行い、形態素解析の結果から「する」「なる」「ある」を除いた「代名詞」「非自立語」「数」「接尾語」「接頭語」以外の「名詞」「動詞」「形容詞」「未知語」のうち、上述のｔｆｉｄｆ等の値の高いものを特徴語として抽出してもよい。

また、特徴語抽出手段２４は、特徴語の抽出と共に、その特徴語に対応する頻度も抽出してもよい。頻度は、例えば、その特徴語が文書に出現する回数であってもよく、あるいは、その特徴語が文書に出現する回数を文書の単語数で割ったものであってもよい。この頻度は、例えば、文書の全体に関する頻度であってもよく、あるいは、文書の所定の領域に関する頻度であってもよい。

特徴語変換手段２５は、第一文書から抽出された特徴語、または第二文書から抽出された特徴語を、相手方の分野の特徴語に変換する。本実施の形態では、特徴語変換手段２５は、第二文書から抽出された特徴語を、第一の分野の特徴語に変換する場合について説明する。本実施の形態では、第一文書が特許文書であり、第二文書が論文であるとしているので、特徴語変換手段２５は、論文用語を特許用語に変換することになる。なお、特徴語変換手段２５は、その変換を、例えば、文書から抽出された特徴語を、その特徴語に対応する相手方の分野の特徴語に置換することによって行ってもよく、あるいは、文書から抽出された特徴語に、その特徴語に対応する相手方の分野の特徴語を追加することによって行ってもよい。

次に、その変換方法のいくつかの例について説明する。
（ａ）上位語に変換する方法
一般に、特許文書では、権利範囲等を限定されないように、より一般的な用語、すなわち上位概念の用語を使用する傾向がある。したがって、第二文書から抽出された用語を上位語に変換することによって、論文用語から特許用語への変換を行うことができうる。例えば、特徴語変換手段２５は、上位語と下位語とを対応付ける辞書である上位下位シソーラスを有しており、その上位下位シソーラスを用いて、第二文書から抽出された特徴語で下位語を検索し、その検索された下位語に対応する上位語に、第二文書から抽出された特徴語を変換してもよい。

なお、上位下位シソーラスを作成する方法は問わない。人手によって作成してもよく、あるいは、コンピュータ等による自然言語処理を行うことによって作成してもよい。

後者の場合には、例えば、コーパスから「ＡなどのＢ」「Ａ等のＢ」「ＡのようなＢ」「ＡといったＢ」という表現を含む文を抽出し、単語Ａを下位概念の単語とし、単語Ｂを上位概念の単語として対応付けることによって上位下位シソーラスを作成してもよい。例えば、「フロッピー（登録商標）ディスクなどの情報記録媒体」という表現から上位概念の単語「情報記録媒体」と、下位概念の単語「フロッピー（登録商標）ディスク」とを抽出することができる。

ここで、このままでは、上位概念の単語が大量に存在してしまうことになるため、２段階以上の上位概念の単語を上位下位シソーラスから削除してもよい。例えば、上位語「情報記録媒体」に、下位語「磁気記録媒体」と、下位語「フロッピー（登録商標）ディスク」とが対応付けられており、さらに、上位語「磁気記録媒体」に、下位語「フロッピー（登録商標）ディスク」が対応付けられていたとする。すると、下位語「フロッピー（登録商標）ディスク」から見て、上位語「情報記録媒体」は、上位語「磁気記録媒体」のさらに上位語となり、２段階以上の上位語となるため、上位語「情報記録媒体」と、下位語「フロッピー（登録商標）ディスク」との対応を上位下位シソーラスから削除してもよい。

（ｂ）関連用語に変換する方法
論文で用いられている用語を、特許文書で用いられている用語に変換する方法は、すでに開発されている（次の文献、及び特許文献を参照）。そのような方法を用いて、特徴語変換手段２５は、論文の用語を、特許文書の用語に変換してもよい。

文献：釜屋英昭，難波英嗣，相沢輝昭，新森昭宏，奥村学、「特許，論文間の引用関係を用いた論文用語の特許用語への変換」、言語処理学会第１２回年次大会，ｐｐ．７７９−７８２、２００６年
特許文献：特開２００７−００４２４０号公報

ここで、論文の用語を特許文書の用語に変換する方法について、簡単に説明する。まず、図示しない記録媒体において、多数の論文、及び多数の特許文書が記憶されているものとする。なお、これらの文書として、第一文書記憶部１１及び第二文書記憶部１２で記憶されている文書を用いてもよい。特徴語変換手段２５は、第二文書から抽出された特徴語を検索キーとして、その記録媒体で記憶されている論文を検索する。この検索の際に、論文の所定の領域（例えば、タイトルなど）のみを検索してもよい。そして、ヒットした論文から、引用情報を抽出する。引用情報については、実施の形態２において詳述しているため、ここでの説明は省略する。特徴語変換手段２５は、その抽出した引用情報を用いて、引用形式を判断し、タイプＣの引用形式で引用されている特許文書を図示しない記録媒体から取得する。なお、この取得の際に、特許文書のうち、所定の領域（例えば、特許請求の範囲や、特許請求の範囲に記載されている独立形式の請求項、発明の名称など）のみを取得してもよい。引用形式や、タイプＣ等についても、実施の形態２において詳述しているため、ここでの説明は省略する。そして、特徴語変換手段２５は、その取得した特許文書の全部または一部から、関連用語を取得する。

関連用語の取得は、例えば、次のようにして行われてもよい。まず、特許文書の全部または一部から、関連用語の候補を取得する。この関連用語の候補は、例えば、その特許文書の全部または一部に含まれる単名詞や複合名詞であってもよく、その特許文書の全部または一部に含まれる専門用語であってもよい。

ここで、専門用語を示す情報を取得する方法について説明する。まず特許文書の全部または一部から、単名詞や複合名詞を示す情報を抽出する。そして、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を示す情報を関連用語の候補として取得する。ここで、スコアを付与する方法して、複数の種類が知られている。

（造語能力に基づくスコア付け）
造語能力とは、単名詞の複合語の構成しやすさを示す尺度である。その造語能力の高い名詞を含む単名詞等を示す情報には、高いスコアが付与される。ここで、造語能力を示す指標として連接頻度を用いてもよい。連接頻度とは、ある語に連接する語の異なり数の多さのことであり、ある語の直前または直後に現れる語の種類の多さのことである。すなわち、連接頻度とは、その語がいかに多くの複合名詞に含まれやすいか、換言すれば、いかに複合名詞を構成しやすいかを示す尺度である。このようにして、造語能力に基づいて各単名詞等にスコアを与えることができる。なお、複合名詞においては、構成要素である単名詞のスコアの相乗平均を複合名詞のスコアとして与えてもよい。

（出現頻度に基づくスコア付け）
注目している単名詞等をｔとする。また、そのｔの構成語数をｎとする。その場合に、ｔに対応するスコアを次のように算出する。
ｔのスコア＝（ｔの出現頻度）／（語数をｎとする単名詞等の平均出現頻度）

ここで、上記式中の「単名詞等」とは、専門用語の候補として抽出された単名詞等である。ここで、ｔの出現頻度、及び語数をｎとする単名詞等の平均出現頻度は特徴語変換手段２５が取得した特許文書の全部または一部において算出される。なお、ｔのスコアとして、単に「ｔの出現頻度」を用いてもよい。

また、上記説明以外の方法を用いて、スコア付けを行ってもよく、また、上記説明以外の方法を用いて、専門用語を示す情報を関連用語の候補として取得してもよい。専門用語を示す情報を関連用語の候補として取得する方法については、次の複数の文献において開示されており、従来から知られているため、その詳細な説明を省略する。

文献：佐藤理史、他１名，「ウェブを利用した関連用語の自動収集」、情報処理学会研究報告自然言語処理，ＮＬ−１５３、ｐ．５７−６４、２００３年
文献：白井清昭、他３名、「ポータルサイト自動作成の試み」、言語処理学会第１０回年次大会、ｐ．６２４−６２７、２００４年

文献：ＨｉｒｏｓｈｉＮａｋａｇａｗａ、「ＡｕｔｏｍａｔｉｃＴｅｒｍＲｅｃｏｇｎｉｔｉｏｎｂａｓｅｄｏｎＳｔａｔｉｓｔｉｃｓｏｆＣｏｍｐｏｕｎｄＮｏｕｎｓ」、Ｔｅｒｍｉｎｏｌｏｇｙ、Ｖｏｌ．６、Ｎｏ．２、ｐ．１９５−２１０、２０００

文献：大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、２０００−ＮＬ−１３６、ｐ．１１９−１２６
文献：中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Ｖｏｌ．１０Ｎｏ．１、ｐ．２７−４５、２００３年１月

なお、特徴語変換手段２５は、頻出する一般的な名詞等を示す情報を、関連用語の候補から除外してもよい。例えば、特徴語変換手段２５は、除外すべき名詞等を示す情報を１以上、図示しない記録媒体において保持しておき、関連用語の候補として取得した情報に、除外すべき名詞等を示す情報のいずれかが含まれる場合には、その情報を関連用語の候補から除外してもよい。除外すべき名詞等は、例えば、方法、記載、発行、文献等である。

次に、特徴語変換手段２５は、各関連用語の候補について、関連度を算出する。ここで、関連度の算出方法について説明する。特徴語変換手段２５は、関連用語の候補の関連度を、その関連用語の候補が、取得した特許文書の全部または一部に出現する頻度としてもよい。また、特徴語変換手段２５は、各関連用語の候補について、前述の専門用語である可能性を示すスコア、例えば、造語能力に基づくスコア、出現頻度に基づくスコア、あるいは連接頻度に基づくスコアを算出し、そのスコアを関連度としてもよい。また、その他の方法によって関連度を算出してもよい。

最後に、特徴語変換手段２５は、高い関連度を有する関連用語の候補を関連用語に決定する。例えば、特徴語変換手段２５は、最も高い関連度を有する関連用語の候補を関連用語に決定してもよい。そして、特徴語変換手段２５は、特徴語抽出手段２４が抽出した特徴語を、その特徴語に関連する関連用語に変換する。このように、特徴語抽出手段２４が抽出した特徴語を、その特徴語に関連する関連用語に変換することによって、第二の分野における特徴語を、第一の分野における特徴語に変換することができる。この変換は、その特徴語を関連用語に置換することであってもよく、特徴語抽出手段２４が抽出した特徴語に、関連用語を追加することであってもよい。

類似情報算出手段２６は、特徴語抽出手段２４が抽出した第一文書に含まれる特徴語と、第二文書に含まれる特徴語とを比較し、両文書の類似に関する情報である類似情報を算出する。なお、類似情報算出手段２６は、特徴語変換手段２５によって変換された特徴語を用いて類似情報の算出を行う。この類似情報は、両文書の類似性を判断することができる情報であれば、その内容を問わない。例えば、類似情報の示す値が高いほど、両文書の類似性が高くてもよく、あるいは、類似情報の示す値が低いほど、両文書の類似性が高くてもよい。なお、類似情報算出手段２６は、特徴語の類似性を見ることによって、両文書の類似性に関する類似情報を算出するものである。

類似情報は、例えば、各文書から抽出される特徴語が同数である場合に、その特徴語の一致する個数であってもよい。また、類似情報は、例えば、各文書から抽出された特徴語の一致する割合であってもよい。また、類似情報は、例えば、各文書から特徴語と共に、その特徴語に対応する頻度も抽出される場合に、第一文書と第二文書とから抽出された特徴語（特徴語変換手段２５による変換が適宜なされていてもよい）に対応する頻度のベクトルに対して算出されたコサイン距離であってもよい。コサイン距離については、すでに公知であり、その説明を省略する。

特定手段２７は、特定情報抽出手段２１が抽出した特定情報を含む文書と、その特定情報で特定される文書とをペア文書として特定する。また、特定手段２７は、類似情報算出手段２６が算出した類似情報によって類似性の高いことが示される第一文書と第二文書とであって、創案者名判断手段２２による判断の結果、両文書にそれぞれ対応している少なくとも一部の創案者名が一致している第一文書と第二文書とをペア文書として特定する。ここで、「類似性の高い」とは、他の文書の組合せに比べて、相対的に類似性が高いことであってもよく、さらに、所定のしきい値以上であることが付加的な条件として課されてもよい。なお、一般的には、ある第一文書とペア文書となる第二文書は、１個であると考えられるが、そうでなくてもよい。第二文書についても同様である。なお、本実施の形態では、ある第一文書とペア文書となる第二文書は１個であり、かつ、ある第二文書とペア文書となる第一文書は１個である場合について説明する。

また、特定手段２７は、時期判断手段２３によって第一時期情報の示す時期と第二時期情報の示す時期とが所定の範囲内でないと判断された第一文書と第二文書とをペア文書として特定しないものとする。なお、時期判断手段２３によって第一時期情報の示す時期と第二時期情報の示す時期とが所定の範囲内であると判断された第一文書と第二文書とは、その他の条件を満たす場合に、ペア文書として特定されうることになる。

なお、第一文書と第二文書とを特定するとは、例えば、その第一文書を識別する情報と、その第二文書を識別する情報とを対応付けて所定の記録媒体に蓄積することであってもよく、その第一文書と、その第二文書とに対して、互いに対応していることを示す情報を設定することであってもよく、第一文書と第二文書とを特定する方法は問わない。

図１に戻り、分類付与部１４は、第１の特定部１３が特定した第一文書と第二文書とのうち、その特定された第二文書に対して、その特定された第一文書に対応付けられている分類情報を付与する。ここで、「分類情報を付与する」とは、例えば、その分類情報を第二文書に対応付けて第二文書記憶部１２に蓄積することであってもよく、あるいは、その分類情報と、その第二文書とを紐付けることであってもよい。後者の場合には、例えば、分類付与部１４は、分類情報と、第二文書とを紐付ける情報を別途、所定の記録媒体に蓄積してもよい。本実施の形態では、分類付与部１４は、分類情報を第二文書に対応付けて第二文書記憶部１２に蓄積するものとする。

第２の特定部１５は、互いに類似する複数の第二文書を特定する。本実施の形態では、第２の特定部１５は、複数の第二文書の類似性を用いて、類似性の高い文書の組合せを互いに類似する複数の第二文書として特定するものとする。なお、後述するように、互いに類似する複数の第二文書のうち、拡張分類付与部１６における処理が行われるのは、その互いに類似する複数の第二文書の少なくともいずれかに分類情報が付与されている場合である。したがって、第２の特定部１５は、少なくともいずれかに分類情報が付与されている互いに類似する複数の第二文書を特定するようにしてもよい。また、第２の特定部１５が、互いに引用関係にある複数の第二文書を、互いに類似する複数の第二文書として特定する場合については、実施の形態２において後述する。

図３は、本実施の形態による第２の特定部１５の構成を示すブロック図である。図３において、本実施の形態による第２の特定部１５は、第２の特徴語抽出手段３１と、第２の類似情報算出手段３２と、第２の特定手段３３とを備える。

第２の特徴語抽出手段３１は、第二文書に含まれる特徴的な単語である特徴語を抽出する。第２の特徴語抽出手段３１は、第二文書のみから特徴語を抽出する以外、特徴語抽出手段２４と同様のものであり、その詳細な説明を省略する。

第２の類似情報算出手段３２は、第２の特徴語抽出手段３１が抽出した、複数の第二文書に含まれる特徴語を比較し、その複数の第二文書の類似に関する情報である類似情報を算出する。第２の類似情報算出手段３２は、第２の特徴語抽出手段３１が抽出した特徴語を用いて類似情報を算出する以外、類似情報算出手段２６と同様のものであり、その詳細な説明を省略する。

第２の特定手段３３は、第２の類似情報算出手段３２が算出した類似情報によって類似性の高いことが示される複数の第二文書を、互いに類似する複数の第二文書として特定する。第２の特定手段３３は、第２の類似情報算出手段３２が算出した類似情報のみを用いて互いに類似する複数の第二文書を特定する以外、特定手段２７と同様のものであり、その詳細な説明を省略する。ここで、第２の特定手段３３が特定する複数の第二文書は、２個の第二文書であってもよく、あるいは、３個以上の第二文書であってもよい。
なお、第２の特定部１５では、第二文書に関してのみ類似性を判断しているため、第１の特定部１３のように、特徴語変換手段２５を備えていなくてもよい。

図１に戻り、拡張分類付与部１６は、第２の特定部１５が特定した互いに類似する複数の第二文書のうち、いずれかの第二文書に分類付与部１４によって分類情報が付与されている場合に、その分類情報が付与されている第二文書と類似する１以上の第二文書に対して、その分類情報を付与する。「分類情報の付与」については、分類付与部１４における説明と同様であるとする。

次に、本実施の形態による情報処理装置１の動作につて、図４のフローチャートを用いて説明する。
（ステップＳ１０１）分類付与部１４は、第二文書に分類情報を付与する処理を開始するかどうか判断する。そして、開始する場合には、ステップＳ１０２に進み、そうでない場合には、ステップＳ１０３に進む。なお、分類付与部１４は、例えば、分類情報を付与する処理を開始する旨のユーザからの指示が情報処理装置１で受け付けられたタイミングで、分類情報を付与する処理を開始すると判断してもよく、あるいは、その他のタイミングで分類情報を付与する処理を開始すると判断してもよい。

（ステップＳ１０２）第１の特定部１３と、分類付与部１４とは、分類情報を付与するための処理を実行する。この処理の詳細については、図５のフローチャートを用いて後述する。そして、ステップＳ１０１に戻る。

（ステップＳ１０３）拡張分類付与部１６は、第二文書における分類情報を拡張して付与する処理を開始するかどうか判断する。そして、開始する場合には、ステップＳ１０４に進み、そうでない場合には、ステップＳ１０１に戻る。なお、拡張分類付与部１６は、例えば、第二文書における分類情報を拡張して付与する処理を開始する旨のユーザからの指示が情報処理装置１で受け付けられたタイミングで、分類情報を拡張して付与する処理を開始すると判断してもよく、あるいは、その他のタイミングで分類情報を拡張して付与する処理を開始すると判断してもよい。

（ステップＳ１０４）第２の特定部１５と、拡張分類付与部１６とは、第二文書における分類情報を拡張して付与する処理を実行する。この処理の詳細については、図９のフローチャートを用いて後述する。そして、ステップＳ１０１に戻る。
なお、図４のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

図５は、図４のフローチャートにおけるステップＳ１０２の処理の詳細を示すフローチャートである。
（ステップＳ２０１）第１の特定部１３の特定手段２７は、カウンタｉを１に設定する。

（ステップＳ２０２）特定手段２７等は、ｉ番目の第一文書に対応する第二文書が存在するかどうか判断する。この処理の詳細については、図６のフローチャートを用いて後述する。そして、ｉ番目の第一文書に対応する第二文書が存在する場合には、ステップＳ２０３に進み、そうでない場合には、ステップＳ２０４に進む。

（ステップＳ２０３）特定手段２７は、ｉ番目の第一文書と、そのｉ番目の第一文書に対応する第二文書とを、ペア文書として特定する。
（ステップＳ２０４）特定手段２７は、カウンタｉを１だけインクリメントする。

（ステップＳ２０５）特定手段２７は、第一文書記憶部１１にｉ番目の第一文書が存在するかどうか判断する。そして、存在する場合には、ステップＳ２０２に戻り、そうでない場合には、ステップＳ２０６に進む。
（ステップＳ２０６）特定手段２７は、カウンタｉを１に設定する。

（ステップＳ２０７）特定手段２７等は、ｉ番目の第二文書に対応する第一文書が存在するかどうか判断する。この処理の詳細については、図７のフローチャートを用いて後述する。そして、ｉ番目の第二文書に対応する第一文書が存在する場合には、ステップＳ２０８に進み、そうでない場合には、ステップＳ２１０に進む。

（ステップＳ２０８）特定手段２７は、ｉ番目の第二文書と、そのｉ番目の第二文書に対応する第一文書とが、ペア文書としてまだ特定されていないかどうか判断する。そして、まだ特定されていない場合には、ステップＳ２０９に進み、すでに特定されている場合には、ステップＳ２１０に進む。

（ステップＳ２０９）特定手段２７は、ｉ番目の第二文書と、そのｉ番目の第二文書に対応する第一文書とを、ペア文書として特定する。
（ステップＳ２１０）特定手段２７は、カウンタｉを１だけインクリメントする。

（ステップＳ２１１）特定手段２７は、第二文書記憶部１２にｉ番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップＳ２０７に戻り、そうでない場合には、ステップＳ２１２に進む。

（ステップＳ２１２）分類付与部１４は、特定手段２７による特定結果に応じて、第二文書に分類情報を付与する。この処理の詳細については、図８のフローチャートを用いて後述する。そして、図４のフローチャートに戻る。

図６は、図５のフローチャートにおけるステップＳ２０２の処理の詳細を示すフローチャートである。
（ステップＳ３０１）特定情報抽出手段２１は、第一文書記憶部１１で記憶されているｉ番目の第一文書に特定情報が存在するかどうか判断する。そして、存在する場合には、ステップＳ３０２に進み、そうでない場合には、ステップＳ３０４に進む。

（ステップＳ３０２）特定情報抽出手段２１は、その特定情報を第一文書から抽出する。
（ステップＳ３０３）特定情報抽出手段２１は、その抽出した特定情報によって第二文書記憶部１２で記憶されているいずれかの第二文書が特定されているかどうか判断する。特定情報抽出手段２１は、例えば、その特定情報によって第二文書記憶部１２を検索し、その検索によってヒットする第二文書がある場合に、その特定情報によって第二文書が特定されていると判断してもよい。そして、特定情報によって第二文書が特定されている場合には、図５のフローチャートのステップＳ２０３に進み、そうでない場合には、ステップＳ３０４に進む。なお、ステップＳ２０３に進んだ場合には、特定手段２７は、特定情報抽出手段２１が抽出した特定情報の含まれているｉ番目の第一文書と、その抽出した特定情報で特定される第二文書とをペア文書として特定することになる。

（ステップＳ３０４）特定手段２７は、カウンタｊを１に設定する。
（ステップＳ３０５）創案者名判断手段２２は、ｉ番目の第一文書と、ｊ番目の第二文書との少なくとも一部の創案者名が一致するかどうか判断する。そして、少なくとも一部の創案者名が一致する場合には、ステップＳ３０６に進み、そうでない場合には、ステップＳ３１２に進む。

（ステップＳ３０６）時期判断手段２３は、ｉ番目の第一文書に対応する第一時期情報の示す時期と、ｊ番目の第二文書に対応する第二時期情報の示す時期とが所定の範囲内であるかどうか判断する。そして、所定の範囲内である場合には、ステップＳ３０７に進み、そうでない場合には、ステップＳ３１２に進む。

（ステップＳ３０７）特徴語抽出手段２４は、ｉ番目の第一文書と、ｊ番目の第二文書とからそれぞれ特徴語を抽出する。
（ステップＳ３０８）特徴語変換手段２５は、特徴語抽出手段２４がｊ番目の第二文書から抽出した特徴語を、第一の分野の特徴語に変換する。

（ステップＳ３０９）類似情報算出手段２６は、特徴語抽出手段２４が抽出した特徴語と、特徴語変換手段２５が変換した特徴語とを用いて、ｉ番目の第一文書と、ｊ番目の第二文書との類似に関する情報である類似情報を算出する。

（ステップＳ３１０）特定手段２７は、それまでに算出された類似情報のうち、類似情報の示す類似性が最も高い類似情報のみを所定の記録媒体において一時記憶しているものとする。そして、ステップＳ３０９で新たに算出された類似情報の方が、その所定の記録媒体で一時記憶されている類似情報よりも類似性が高いかどうか判断する。そして、ステップＳ３０９で新たに算出された類似情報の方が、類似性が高い場合には、ステップＳ３１１に進み、そうでない場合には、ステップＳ３１２に進む。なお、その所定の記録媒体にまだ類似情報が記憶されていない場合には、特定手段２７は、ステップＳ３０９で新たに算出された類似情報の方が、類似性が高いと判断するものとする。

（ステップＳ３１１）特定手段２７は、ステップＳ３０９で新たに算出された類似情報を、所定の記録媒体に上書きで蓄積する。なお、特定手段２７は、その時点でのカウンタｊの値を、その類似情報に対応付けて上書きで蓄積するものとする。

（ステップＳ３１２）特定手段２７は、カウンタｊを１だけインクリメントする。
（ステップＳ３１３）特定手段２７は、第二文書記憶部１２にｊ番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップＳ３０５に戻り、そうでない場合には、ステップＳ３１４に進む。

（ステップＳ３１４）特定手段２７は、所定の記録媒体で一時的に記憶されている類似情報の示す類似性が、所定のしきい値以上かどうか判断する。そして、所定のしきい値以上である場合には、図５のフローチャートのステップＳ２０３に進み、そうでない場合には、図５のフローチャートのステップＳ２０４に進む。なお、ステップＳ２０３に進んだ場合には、特定手段２７は、ｉ番目の第一文書と、ｋ番目の第二文書とをペア文書として特定することになる。ここで、ｋは、図示しない記録媒体で一時的に記憶されている類似情報に対応するカウントｊの値である。このステップＳ３１４の判断を行うことによって、たとえ、ある第二文書がｉ番目の第一文書と最も高い類似性を有していたとしても、その類似性が、両文書がペア文書であると考えられるほど高くない場合に、両文書をペア文書として特定することを回避することができる。したがって、類似情報の示す類似性が所定のしきい値以上である場合に、両文書がペア文書と判断されてもよいように、この所定のしきい値が適切に設定されていることが好適である。

図７は、図５のフローチャートにおけるステップＳ２０７の処理の詳細を示すフローチャートである。このステップＳ２０７では、第二文書に対応する第一文書が存在するかどうかを、第二文書に含まれる特定情報のみを用いて判断し、類似情報の算出等は行わない。類似情報による第一文書と第二文書との対応は、ステップＳ２０２ですでに確認済だからである。

（ステップＳ４０１）特定情報抽出手段２１は、第二文書記憶部１２で記憶されているｉ番目の第二文書に特定情報が存在するかどうか判断する。そして、存在する場合には、ステップＳ４０２に進み、そうでない場合には、図５のフローチャートのステップＳ２１０に進む。
（ステップＳ４０２）特定情報抽出手段２１は、その特定情報を第二文書から抽出する。

（ステップＳ４０３）特定情報抽出手段２１は、その抽出した特定情報によって第一文書記憶部１１で記憶されているいずれかの第一文書が特定されているかどうか判断する。特定情報抽出手段２１は、例えば、その特定情報によって第一文書記憶部１１を検索し、その検索によってヒットする第一文書がある場合に、その特定情報によって第一文書が特定されていると判断してもよい。そして、特定情報によって第一文書が特定されている場合には、図５のフローチャートのステップＳ２０８に進み、そうでない場合には、図５のフローチャートのステップＳ２１０に進む。なお、ステップＳ２０８に進み、その後ステップＳ２０９に進んだ場合には、特定手段２７は、特定情報抽出手段２１が抽出した特定情報の含まれているｉ番目の第二文書と、その抽出した特定情報で特定される第一文書とをペア文書として特定することになる。

なお、図６のフローチャートにおいて、ステップＳ３０２で特定情報が抽出され、その抽出された特定情報によって第二文書が特定される場合であっても、ステップＳ３０５〜Ｓ３０９と同様の処理を行い、特定情報が含まれる第一文書と、その特定情報で特定される第二文書とについて、少なくとも一部の創案者名が一致し、両文書に対応する時期情報の示す時期が所定の範囲内であり、両文書から抽出された特徴語を用いた類似情報によって、両文書が所定のしきい値以上の類似性を有することが示される場合に、その両文書がペア文書として特定されるようにしてもよい。この場合に、創案者名の判断、時期情報の判断、類似性の判断のすべてを行わなくてもよい。特定情報によって、両文書がペア文書である可能性が非常に高いことがわかっているため、一部の処理、例えば、創案者名の判断処理のみを行うようにしてもよい。このような処理を行うことによって、例えば、特定情報に誤記があり、第一文書のペアとなる第二文書が適切に特定されていない場合などにおいて、不適切なペア文書の特定を行うことを回避することができうる。また、図７のフローチャートについても同様である。

また、特定情報によって、ペア文書の相手方の文書を唯一に特定していない場合には、特定情報のみによってペア文書を特定することはできないため、特定情報による相手方の文書を絞り込み、さらに、創案者名の判断や、類似性の判断等を行うことによって、ペア文書の特定を行ってもよい。

図８は、図５のフローチャートにおけるステップＳ２１２の処理の詳細を示すフローチャートである。
（ステップＳ５０１）分類付与部１４は、カウンタｉを１に設定する。
（ステップＳ５０２）分類付与部１４は、第１の特定部１３によってｉ番目に特定された第一文書に対応する分類情報を第一文書記憶部１１から取得する。

（ステップＳ５０３）分類付与部１４は、第１の特定部１３によってｉ番目に特定された第二文書に、ステップＳ５０２で取得した分類情報を付与する。具体的には、分類付与部１４は、第二文書記憶部１２において、その第二文書に対応付けて、ステップＳ５０２で取得した分類情報を蓄積する。

（ステップＳ５０４）分類付与部１４は、カウンタｉを１だけインクリメントする。
（ステップＳ５０５）分類付与部１４は、第１の特定部１３によって、ｉ番目に特定された第一文書と第二文書とが存在するかどうか判断する。そして、存在する場合には、ステップＳ５０２に戻り、そうでない場合には、図５のフローチャートに戻る。

図９は、図４のフローチャートにおけるステップＳ１０４の処理の詳細を示すフローチャートである。
（ステップＳ６０１）第２の特定部１５の第２の特定手段３３は、カウンタｉを１に設定し、カウンタｊを２に設定する。

（ステップＳ６０２）第２の特定手段３３は、ｉ番目の第二文書と、ｊ番目の第二文書との少なくとも一方に分類付与部１４によって付与された分類情報が存在するかどうか判断する。そして、存在する場合には、ステップＳ６０３に進み、そうでない場合には、ステップＳ６０７に進む。

（ステップＳ６０３）第２の特徴語抽出手段３１は、ｉ番目の第二文書と、ｊ番目の第二文書とからそれぞれ特徴語を抽出する。
（ステップＳ６０４）第２の類似情報算出手段３２は、ステップＳ６０３で抽出された特徴語を用いて、類似情報を算出する。

（ステップＳ６０５）第２の特定手段３３は、第２の類似情報算出手段３２によって算出された類似情報が、所定のしきい値以上の類似性を示すかどうか判断する。そして、所定のしきい値以上の類似性を示す場合には、ステップＳ６０６に進み、そうでない場合には、ステップＳ６０７に進む。２個の第二文書の類似情報の示す類似性が所定のしきい値以上である場合に、両文書が同じ分類に属すると判断されるように、この所定のしきい値が適切に設定されていることが好適である。

（ステップＳ６０６）拡張分類付与部１６は、ｉ番目の第二文書と、ｊ番目の第二文書とに関して、分類付与部１４によって付与された分類情報を、他方の第二文書に付与する。例えば、一方の第二文書にのみ分類付与部１４によって分類情報が付与されている場合には、拡張分類付与部１６は、その分類情報を他方の第二文書に付与する。例えば、両方の第二文書に分類付与部１４によって分類情報が付与されている場合には、拡張分類付与部１６は、各分類情報を、それぞれ他方の第二文書に付与する。分類情報を付与するとは、具体的には、第二文書記憶部１２において、第二文書に対応付けて分類情報を蓄積することである。なお、ここでの分類情報の付与において、分類付与部１４、または拡張分類付与部１６がすでに付与した分類情報と同じ分類情報を付与しないようにしてもよい。分類情報の重複を避けるためである。

（ステップＳ６０７）第２の特定手段３３は、カウンタｊを１だけインクリメントする。
（ステップＳ６０８）第２の特定手段３３は、第二文書記憶部１２にｊ番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップＳ６０２に戻り、そうでない場合には、ステップＳ６０９に進む。

（ステップＳ６０９）第２の特定手段３３は、カウンタｉを１だけインクリメントする。
（ステップＳ６１０）第２の特定手段３３は、第二文書記憶部１２にｉ番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップＳ６１１に進み、そうでない場合には、図１のフローチャートに戻る。

（ステップＳ６１１）第２の特定手段３３は、カウンタｊを「ｉ＋１」に設定する。
（ステップＳ６１２）第２の特定手段３３は、第二文書記憶部１２にｊ番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップＳ６０２に戻り、そうでない場合には、図１のフローチャートに戻る。

なお、図９のフローチャートのステップＳ６０２では、ｉ番目の第二文書と、ｊ番目の第二文書との少なくとも一方に分類付与部１４によって付与された分類情報が存在するかどうかを判断すると説明したが、ステップＳ６０２において、ｉ番目の第二文書と、ｊ番目の第二文書との少なくとも一方に分類付与部１４、または拡張分類付与部１６によって付与された分類情報が存在するかどうか判断してもよい。

また、図９のフローチャートにおいて、カウンタｉの値は、基本的にカウンタｊの値よりも小さい値に管理されているため、何らかのエラーが発生しない限り、ステップＳ６１０において、Ｎｏと判断されることはない。したがって、ステップＳ６１０の処理を行わず、ステップＳ６０９からステップＳ６１１に進むようにしてもよい。

次に、本実施の形態による情報処理装置１の動作について、具体例を用いて説明する。
この具体例において、情報処理装置１は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）であるとする。そして、そのハードディスクに、第一文書や第二文書等が記憶されることによって、第一文書記憶部１１や、第二文書記憶部１２が構成されているものとする。また、この具体例において、時期判断手段２３が用いる「所定の範囲内」は、「１年以内」であるとする。

また、この具体例において、第一文書記憶部１１では、図１０で示されるように、第一文書と、分類情報と、第一時期情報とが対応付けられて記憶されているものとする。第一文書「ＦＤ００１」等は、第一文書を識別する情報であるとする。「ＦＤ００１」等で識別される第一文書は、例えば、図１１で示されるものであって、第一文書記憶部１１において別途記憶されているものとする。第一文書は、前述のように、特許文書であるとする。この第一文書は、例えば、公開特許公報であってもよい。「ＦＤ００１」で識別される第一文書を、第一文書「ＦＤ００１」と呼ぶこともある。他の文書に関しても同様である。分類情報は、その分類情報に対応する第一文書に対応するＩＰＣである。ここでは、説明の便宜上、１個のＩＰＣのみを記載しているが、分類情報には、２以上のＩＰＣが含まれていてもよい。第一時期情報は、その第一時期情報に対応する第一文書の出願日であるとする。なお、第一文書が公開特許公報である場合には、分類情報や、第一時期情報は第一文書に含まれうることとなるが、その場合にも、図１０で示されるように分類情報等を別途、重複して保持するようにしてもよく、あるいは、公開特許公報におけるＩＰＣが分類情報であり、出願日が第一時期情報であり、それ以外の情報が第一文書であると考えてもよい。

また、この具体例において、第二文書記憶部１２では、図１２で示されるように、第二文書と、分類情報と、第二時期情報とが対応付けられて記憶されているものとする。第二文書「ＳＤ００１」等は、第二文書を識別する情報であるとする。「ＳＤ００２」で識別される第二文書は、例えば、図１３で示されるものであって、第二文書記憶部１２において別途記憶されているものとする。第二文書は、前述のように、論文であるとする。図１２では、第二文書に分類情報が対応付けられているが、この分類情報は、分類付与部１４や拡張分類付与部１６によって付与される。したがって、分類情報を付与する処理の開始される前においては、図１２で示されるように、分類情報が含まれないことになる。第二時期情報は、その第二時期情報に対応する第二文書の発表日、公表日、または刊行日である。なお、第二文書記憶部１２では、図１２で示される情報以外に、第二文書の書誌情報（例えば、第二文書の発表された媒体名や、その媒体を管理している学会名、第二文書のページの範囲等）が第二文書に対応付けられていてもよい。

まず、ユーザがキーボードやマウス等の入力デバイスを操作することによって、分類付与を開始する旨の指示を情報処理装置１に入力したとする。すると、分類付与部１４は、第二文書に分類情報を付与するタイミングであると判断し（ステップＳ１０１）、第１の特定部１３、及び分類付与部１４による分類付与の処理が開始される（ステップＳ１０２）。

その分類付与の処理において、まず、第１の特定部１３の特定手段２７等は、図１０で示される１番目の第一文書「ＦＤ００１」に対応する第二文書が存在するかどうか判断する（ステップＳ２０１，Ｓ２０２）。より詳細には、特定情報抽出手段２１は、手がかり語句「特許法第３０条第１項適用申請有り」を図示しない記録媒体から読み出し、１番目の第一文書「ＦＤ００１」において、その手がかり語句を用いた検索を行うことによって特定情報が存在するかどうか判断する（ステップＳ３０１）。この場合には、図１１で示されるように、第一文書「ＦＤ００１」にその手がかり語句が含まれるため、第一文書に特定情報があると判断され、特定情報抽出手段２１は、その手がかり語句に続く特定情報『２００５年１０月５日ＸＹＺ学会発行の「論文集Ａ」の「ＸＸＸに関する一考察」』を抽出する（ステップＳ３０２）。そして、特定情報抽出手段２１は、その抽出した特定情報によって第二文書記憶部１２で記憶されている第二文書を検索し、ヒットする第二文書が存在するかどうか判断する。この場合には、図１３で示されるように、第二文書「ＳＤ００２」が、その特定情報に対応する第二文書である。したがって、その検索に対して、第二文書「ＳＤ００２」がヒットするため、特定情報抽出手段２１は、特定情報によって第二文書が特定されていると判断する（ステップＳ３０３）。そして、特定情報抽出手段２１は、その抽出した特定情報を、特定手段２７に渡す。

特定手段２７は、特定情報抽出手段２１から受け取ったと特定情報で特定される第二文書「ＳＤ００２」と、１番目の第一文書「ＦＤ００１」とを、互いに対応するペア文書として特定する（ステップＳ２０３）。具体的には、特定手段２７は、互いに対応するペア文書である第一文書を識別する情報「ＦＤ００１」と、第二文書を識別する情報「ＳＤ００２」とを対応付けて有する情報である対応情報を図示しない記録媒体に蓄積する。図１４で示される対応情報の１番目のレコードは、そのようにして蓄積されたものである。

次に、特定手段２７等は、図１０で示される２番目の第一文書「ＦＤ００２」に対応する第二文書が存在するかどうか判断する（ステップＳ２０４，Ｓ２０５，Ｓ２０２）。より詳細には、特定情報抽出手段２１は、２番目の第一文書「ＦＤ００２」において、前述の手がかり語句を用いた検索を行うことによって特定情報が存在するかどうか判断する（ステップＳ３０１）。この場合には、第一文書「ＦＤ００２」に、その手がかり語句が含まれなかったとする。

すると、創案者名判断手段２２は、第一文書「ＦＤ００２」から創案者名を読み出し、また、１番目の第二文書「ＳＤ００１」からも創案者名を読み出し、両文書の少なくとも一部の創案者名が一致するかどうか判断する（ステップＳ３０４，Ｓ３０５）。この場合には、すべての創案者名が一致したとする。すると、時期判断手段２３は、第一文書「ＦＤ００２」に対応する第一時期情報「２００５年１１月１１日」と、１番目の第二文書「ＳＤ００１」に対応する第二時期情報「２００５年１２月２０日」とをそれぞれ読み出し、両者が所定の範囲内、すなわち、１年以内かどうか判断する（ステップＳ３０６）。この場合には、１年以内であるため、特徴語抽出手段２４は、第一文書「ＦＤ００２」と、第二文書「ＳＤ００１」とのそれぞれから特徴語と、その特徴語に対応する頻度とを抽出する（ステップＳ３０７）。図１５は、第二文書「ＳＤ００１」から抽出された特徴語と、頻度とを示す図である。図１５における頻度は、一文書に含まれる単語の個数であるとする。特徴語変換手段２５は、図１５で示される特徴語の上位語を追加することによって特徴語の変換を行う（ステップＳ３０８）。具体的には、特徴語変換手段２５は、図示しない記録媒体で記憶されている図１６で示される上位下位シソーラスにアクセスし、第二文書から抽出された特徴語に対応する上位語を、頻度の高い順に５個読み出してくる。図１６における頻度は、上位下位シソーラスの作成時に用いた文書の集合において上位語と下位語とが対応していた数であるとする。ここでは、「情報処理装置」「文書処理装置」「文書作成装置」「情報機器」「計算装置」が読み出される。特徴語変換手段２５は、下位語である「ワードプロセッサ」の頻度「２０」に０．８を掛けた頻度「１６」を、それらの上位下位シソーラスから読み出した上位語に対応付けて特徴語に追加する。図１７は、そのようにして「ワードプロセッサ」の上位語である「情報処理装置」等が追加された第二文書の特徴語の一覧を示す図である。

その後、類似情報算出手段２６は、第一文書から抽出された特徴語と、第二文書から抽出され、特徴語変換手段２５による変換の行われた特徴語とを用いて、類似情報を算出する（ステップＳ３０９）。この具体例では、類似情報算出手段２６は、各特徴語に対応する頻度を用いて、コサイン距離を求め、その値を特定手段２７に渡す。なお、コサイン距離は、その値が大きいほど、類似性が大きいことになる。

特定手段２７は、そのコサイン距離の値を図示しない記録媒体に蓄積する（ステップＳ３１０，Ｓ３１１）。その後、２番目の第二文書等についても、順次、創案者名に関する判断や、時期に関する判断、類似情報の算出等が行われていく（ステップＳ３１２，Ｓ３１３，Ｓ３０５〜Ｓ３１０）。なお、第一文書「ＦＤ００２」と、第二文書「ＳＤ００１」とに対して算出されたコサイン距離の値が、最も大きな値であり、かつ、そのコサイン距離の値があらかじめ設定されているしきい値よりも大きかったとする（ステップＳ３１４）。すると、特定手段２７は、第一文書「ＦＤ００２」と、第二文書「ＳＤ００１」とを互いに対応するペア文書として特定し（ステップＳ２０３）、図１４で示される２番目のレコードを蓄積する。このようにして、順次、特定手段２７が第一文書と第二文書とを特定し、その対応を示す対応情報にレコードが蓄積されていく（ステップＳ２０２〜Ｓ２１１）。

対応情報の生成が終了すると、分類付与部１４は、特定手段２７から対応情報を受け取り、その対応情報を用いて、第二文書への分類情報の付与を行う（ステップＳ２１２）。より詳細には、分類付与部１４は、図１４で示される対応情報の１番目のレコードを参照して、第一文書を識別する情報「ＦＤ００１」を取得する。そして、分類付与部１４は、第一文書記憶部１１から、第一文書「ＦＤ００１」に対応する分類情報「Ｇ０６Ｑ９０／００」を取得し（ステップＳ５０１，Ｓ５０２）、その分類情報を第二文書「ＳＤ００２」に対応付けて蓄積する（ステップＳ５０３）。また、同様にして、分類付与部１４は、図１４で示される対応情報の２番目のレコードを参照して（ステップＳ５０４，Ｓ５０５）、第一文書を識別する情報「ＦＤ００２」を取得し、第一文書記憶部１１から、第一文書「ＦＤ００２」に対応する分類情報「Ｇ０６Ｆ１７／２８」を取得し（ステップＳ５０２）、その分類情報を第二文書「ＳＤ００１」に対応付けて蓄積する（ステップＳ５０３）。このような分類情報の付与によって、第二文書記憶部１２で記憶されている分類情報等は、図１８で示されるようになる。分類付与部１４は、対応情報のすべてのレコードについて、このような処理を行うことによって、各第二文書に分類情報を付与していく（ステップＳ５０２〜Ｓ５０５）。このようにして、分類情報を付与する処理が終了する。

次に、分類情報を拡張する処理について説明する。拡張分類付与部１６は、分類付与部１４による分類情報の付与の処理が終了したことを検知すると、第二文書における分類情報を拡張して付与する処理を開始するタイミングであると判断する（ステップＳ１０３）。そして、第２の特定部１５、及び拡張分類付与部１６による分類情報を拡張して付与する処理が開始される（ステップＳ１０４）。

その処理において、第２の特定部１５の第２の特定手段３３は、まず、第二文書記憶部１２から、１番目の第二文書「ＳＤ００１」と、２番目の第二文書「ＳＤ００２」との少なくとも一方に分類情報が付与されているかどうか判断する（ステップＳ６０１，Ｓ６０２）。この場合には、図１８で示されるように、両方共に分類情報が付与されているため、第２の特徴語抽出手段３１は、両文書からそれぞれ特徴語と、頻度とを抽出する（ステップＳ６０３）。そして、第２の類似情報算出手段３２は、その特徴語等を用いて、類似情報としてのコサイン距離を算出し、第２の特定手段３３に渡す（ステップＳ６０４）。第２の特定手段３３は、第２の類似情報算出手段３２から受け取ったコサイン距離の値が、あらかじめ設定されている所定のしきい値以上かどうか判断する（ステップＳ６０５）。この場合は、コサイン距離の値が所定のしきい値以上ではなかったとする。すると、１番目の第二文書「ＳＤ００１」と、３番目の第二文書「ＳＤ００３」とについて、同様の処理が行われる（ステップＳ６０７，Ｓ６０８）。

１番目の第二文書「ＳＤ００１」に分類情報が付与されているため（ステップＳ６０２）、１番目の第二文書「ＳＤ００１」と、３番目の第二文書「ＳＤ００３」とについても、特徴語の抽出と、コサイン距離の算出とが行われる（ステップＳ６０３，Ｓ６０４）。この場合には、そのコサイン距離の値が所定のしきい値以上であったとする。すると、拡張分類付与部１６は、１番目の第二文書「ＳＤ００１」に対応付けられている分類情報「Ｇ０６Ｆ１７／２８」を取得し、その分類情報を３番目の第二文書「ＳＤ００３」に対応付けて第二文書記憶部１２に蓄積する（ステップＳ６０６）。その結果、第二文書記憶部１２で記憶されている情報は、図１９で示されるようになる。このように、順次、第二文書に対応付けられている分類情報の拡張が行われていくことになる。

なお、図１９において、分類情報は、分類付与部１４によって付与された情報であり、拡張分類情報は、拡張分類付与部１６によって付与された情報である。したがって、ステップＳ６０２において、分類情報のみを用いて判断を行ってもよく、あるいは、分類情報と、拡張分類情報とを用いて、判断を行ってもよい。

以上のように、本実施の形態による情報処理装置１では、互いに対応している第一文書と、第二文書とを特定し、その第一文書に対応付けられている分類情報を、その第二文書に付与することによって、第一文書の分類情報によって、第二情報を分類することができる。また、互いに対応している第一文書と第二文書とを特定するため、分類を付与する精度が高くなりうる。また、類似情報を算出する際にも、単に２個の文書を対比するだけであるため、従来例の特許文献１のように、非常に大きな次元の特徴ベクトルを扱う必要がなく、処理負荷も軽減されている。

また、拡張分類付与部１６によって分類情報を拡張して付与することができ、より多くの第二文書に分類情報を付与することが可能となりうる。

なお、本実施の形態では、類似情報を算出する際に、特徴語変換手段２５によって変換された特徴語を用いる場合について説明したが、特徴語変換手段２５による特徴語の変換を行わないで類似情報を算出してもよい。その場合には、第１の特定部１３は、特徴語変換手段２５を備えていなくてもよい。

また、本実施の形態では、特定情報や、類似情報、第一時期情報及び第二時期情報を用いてペア文書を特定する場合について説明したが、ペア文書の特定において、それらのすべての情報を用いなくてもよい。例えば、第１の特定部１３は、特定情報を用いたペア文書の特定を行わなくてもよい。その場合には、第１の特定部１３は、特定情報抽出手段２１を備えていなくてもよい。また、例えば、第１の特定部１３は、類似情報を用いたペア文書の特定を行わなくてもよい。その場合には、第１の特定部１３は、特徴語抽出手段２４、特徴語変換手段２５、類似情報算出手段２６を備えていなくてもよい。また、例えば、第１の特定部１３は、時期判断手段２３による判断を行わなくてもよい。その場合には、第１の特定部１３は、時期判断手段２３を備えていなくてもよく、第一文書や第二文書に第一時期情報や、第二時期情報が対応付けられていなくてもよい。

（実施の形態２）
本発明の実施の形態２による情報処理装置について、図面を参照しながら説明する。本実施の形態による情報処理装置は、引用関係にある文書が互いに対応する文書であると判断して分類情報の付与を行うものである。

本実施の形態による情報処理装置１の構成は、第１の特定部１３、及び第２の特定部１５の構成が異なる以外、実施の形態１の図１と同様であり、第１の特定部１３、及び第２の特定部１５以外の説明を省略する。

図２０は、本実施の形態による第１の特定部１３の構成を示すブロック図である。本実施の形態による第１の特定部１３は、引用情報抽出手段４１と、引用形式判断手段４２と、特定手段４３とを備える。

引用情報抽出手段４１は、第一文書と第二文書との少なくとも一方に、他の文書を引用する情報である引用情報が含まれる場合に、その引用情報を抽出する。ここで、引用情報は、少なくとも他の文書を特定する情報である引用文書識別情報が含まれるものとする。引用文書識別情報とは、文書において引用している他の文書（すなわち、引用文書）を識別する情報である。ここで、引用文書識別情報は、引用文書を識別することができる情報であれば、その内容を問わない。引用文書識別情報は、例えば、特許番号や、特許出願の出願公開番号、ＰＭＩＤ（ＰｕｂＭｅｄＩｄｅｎｔｉｆｉｅｒ）等の引用文書を識別するＩＤであってもよく、著者名、タイトル、著作年月日、媒体に関する情報（雑誌名、出版社名、ＵＲＬ等）等の引用文書を識別しうる文書の書誌情報であってもよい。

また、引用情報には、引用情報の含まれる文書において引用している他の文書についての記述を示す情報が含まれていてもよく、あるいは、含まれていなくてもよい。本実施の形態では、前者の場合について説明する。文書についての記述とは、例えば、その文書の問題点を指摘するための記述や、その文書を根拠として新しい理論を提案したり、システムを構築したりするための記述等である。

ここで、引用情報についてさらに詳細に説明する。文書において、例えば、引用している他の文書についての記述を示す情報は引用文書識別情報と同じ領域に存在してもよく、引用している他の文書についての記述を示す情報は引用文書識別情報と異なる領域に存在してもよい。前者の場合としては、例えば、引用文書識別情報が背景技術の領域に記載されており、引用文書識別情報そのものによって、引用文書が引用されている場合である。特許明細書等においては、このような引用がなされている場合がある。一方、後者の場合としては、例えば、引用文書識別情報は参考文献の欄にまとめて記載されており、文書の本文において、その参考文献の欄に記載されている引用文書識別情報に対応する所定のインデックスによって引用文書が引用されている場合である。学術文献においては、このような引用がなされている場合が多い。ここで、インデックスとは、例えば、１、２、３…や、１）、２）、３）…、［１］、［２］、［３］…、［Ａ］、［Ｂ］、［Ｃ］…、特許文献１、特許文献２、特許文献３…、非特許文献１、非特許文献２、非特許文献３…等であり、引用文書識別情報を特定できるものであれば、どのようなものであってもよい。引用文書識別情報そのものによって、引用文書が引用されている場合には、引用している他の文書についての記述を示す情報は、その引用文書識別情報を含む情報となる。引用文書識別情報を含む情報とは、例えば、引用文書識別情報を含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。引用文書識別情報に対応するインデックスによって引用文書が引用されている場合には、引用している他の文書についての記述を示す情報は、そのインデックスを含む情報となる。インデックスを含む情報とは、例えば、インデックスを含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。この所定の領域は、後述するように、所定のルールに基づいて決定されるものであってもよい。

引用情報が引用文書識別情報のみを含む場合には、引用文書識別情報の抽出において、引用情報抽出手段４１は、引用文書識別情報を含むと考えられる参考文献（Ｒｅｆｅｒｅｎｃｅ）の欄を引用情報として抽出してもよく、特許文献、非特許文献の欄を引用情報として抽出してもよく、あるいは、パターンマッチング等の技術を用いて、引用文書識別情報の存在する領域を引用情報として抽出してもよい。参考文献の欄や、特許文献の欄等を引用情報として抽出する場合には、例えば、抽出する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、引用情報抽出手段４１は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文書の領域を抽出してもよい。また、パターンマッチング等の技術を用いて引用文書識別情報を含む引用情報を抽出する場合には、例えば、パターンマッチング等で用いるパターン等を示す情報が図示しない記録媒体において記憶されており、引用情報抽出手段４１は、その記録媒体からパターン等を読み出してパターンマッチング等を行うことによって、文書における引用文書識別情報を含む領域を引用情報として抽出してもよい。引用情報抽出手段４１が抽出した引用文書識別情報を含む引用情報は、図示しない記録媒体に一時的に蓄積されてもよい。なお、前述のように、本実施の形態では、引用情報抽出手段４１は、引用文書識別情報と共に、引用している他の文書についての記述を示す情報を含む引用情報を抽出するものとする。

引用情報が、引用文書識別情報と共に、引用している他の文書についての記述を示す情報をも含む場合には、引用情報抽出手段４１は、引用文書識別情報と共に、その文書において引用している他の文書についての記述を示す情報を含む引用情報を抽出する。引用情報の抽出において、引用情報抽出手段４１は、例えば、引用文書識別情報について言及している領域を、引用文書識別情報等を用いて特定し、その特定した領域を含む引用情報を抽出してもよく、あるいは、引用文書識別情報に対応するインデックスについて言及している領域を、引用文書識別情報に対応するインデックスを用いて特定し、その特定した領域と、引用文書識別情報とを含む引用情報を抽出してもよい。引用情報抽出手段４１が抽出した引用情報は、図示しない記録媒体に一時的に蓄積されてもよい。
なお、この引用情報には、実施の形態１で説明した特定情報が含まれうるものとする。したがって、引用情報として、特定情報を含む情報が抽出されてもよい。

引用形式判断手段４２は、引用情報抽出手段４１が抽出した引用情報の示す引用形式が、引用する文書の問題を指摘する形式である問題指摘型引用形式であるかどうか判断する。

ここで、引用情報における引用文書の引用形式について説明する。引用形式には、例えば、引用文書の問題を指摘する形式である問題指摘型引用形式（以下、「タイプＣ」の引用形式と呼ぶこともある）と、引用文書を論説の根拠に取り込む形式である論説根拠型引用形式（以下、「タイプＢ」の引用形式と呼ぶこともある）と、それら以外の引用形式（以下、「タイプＯ」の引用形式と呼ぶこともある）とがある。タイプＢの引用形式は、既存の研究成果を用いて新しい理論を提案したり、システムを構築したりする場合に用いられる引用形式である。なお、これら以外の引用形式の区分であってもよい。ここで、上記説明の引用形式については、次の文献で説明されている。

文献：難波英嗣、奥村学、「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」、自然言語処理、Ｖｏｌ．６、Ｎｏ．５、ｐ．４３−６２、１９９９年

引用形式判断手段４２は、抽出された引用情報の示す引用形式が、引用している文書の問題を指摘する形式である問題指摘型引用形式（タイプＣの引用形式）であるかどうかを判断する。

例えば、ある文書Ａにおいて文書Ｂが引用されている場合に、文書Ｂの問題を指摘する形式（タイプＣの引用形式）で文書Ｂが引用されている場合には、文書Ａと文書Ｂとの分類が同じである可能性の高いことが発明者らの研究によってわかっている（前述の文献「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」参照）。

したがって、引用情報によって示される文書の引用形式がタイプＣの引用形式である場合には、引用情報を含む文書と、その引用情報引用される引用文書とが同じ分類であると判断することができうる。

引用形式判断手段４２は、例えば、タイプＣの引用形式に応じた１以上の手がかり語句を図示しない記録媒体において保持しておき、引用情報の所定の位置にその手がかり語句が含まれるかどうかによって、引用形式がタイプＣであるかどうかを決定してもよい。所定の位置とは、例えば、引用情報の先頭であってもよく、引用情報の最後であってもよく、引用情報のすべてであってもよく、あるいは、引用情報において引用を行っている文（例えば、引用文書識別情報を含む文や、引用文書識別情報に対応するインデックスを含む文など）を基準として、所定の範囲であってもよい。その所定の位置は、手がかり語句ごとに設定されていてもよい。なお、引用情報から引用形式を決定できるのであれば、これ以外の方法を用いてもよい。

特定手段４３は、引用形式判断手段４２が、引用情報の示す引用形式が問題指摘型引用形式であると判断した場合に、その引用情報を含む文書と、その引用情報で引用される相手方の分野の文書（引用文書）とを互いに対応している文書として特定する。特定手段４３は、互いに異なる分野である、引用情報を含む文書と引用文書とを特定することになる。

図２１は、本実施の形態による第２の特定部１５の構成を示すブロック図である。図２１において、本実施の形態による第２の特定部１５は、第２の引用情報抽出手段５１と、第２の引用形式判断手段５２と、第２の特定手段５３とを備える。

第２の引用情報抽出手段５１は、第二文書の少なくともいずれかに、他の文書を引用する情報である引用情報が含まれる場合に、その引用情報を抽出する。引用情報や、引用情報を抽出する方法については、引用情報抽出手段４１に関する説明と同様であり、その説明を省略する。

第２の引用形式判断手段５２は、第２の引用情報抽出手段５１が抽出した引用情報の示す引用形式が、引用する第二文書の問題を指摘する形式である問題指摘型引用形式であるかどうか判断する。この判断方法については、引用形式判断手段４２に関する説明と同様であり、その説明を省略する。

第２の特定手段５３は、第２の引用形式判断手段５２が、引用形式の示す引用形式が問題指摘型引用形式であると判断した場合に、その引用情報を含む第二文書と、その引用情報で引用される第二文書とを互いに類似する文書として特定する。なお、第２の特定手段５３は、互いに第二の分野の第二文書である、引用情報を含む文書と引用文書とを特定することになる。

次に、本実施の形態による情報処理装置１の動作について、フローチャートを用いて説明する。情報処理装置１の全体の動作は、実施の形態１の図４と同様であり、その説明を省略する。

図２２は、図４のフローチャートにおけるステップＳ１０２の処理の詳細を示すフローチャートである。
（ステップＳ７０１）引用情報抽出手段４１等は、第一文書の引用情報を用いて、互いに対応している第一文書と第二文書との特定を行う。なお、この処理の詳細については、図２３のフローチャートを用いて後述する。

（ステップＳ７０２）引用情報抽出手段４１等は、第二文書の引用情報を用いて、互いに対応している第一文書と第二文書との特定を行う。なお、この処理の詳細については、図２４のフローチャートを用いて後述する。

（ステップＳ７０３）分類付与部１４は、特定結果に応じて、第二文書に分類情報を付与する。この処理の詳細は、実施の形態１の図８のフローチャートと同様であり、その説明を省略する。そして、図４のフローチャートに戻る。

図２３は、図２２のフローチャートにおけるステップＳ７０１の処理の詳細を示すフローチャートである。
（ステップＳ８０１）特定手段４３は、カウンタｉを１に設定する。

（ステップＳ８０２）引用情報抽出手段４１は、ｉ番目の第一文書に引用情報が含まれるかどうか判断する。そして、含まれる場合には、ステップＳ８０３に進み、そうでない場合には、ステップＳ８１０に進む。

（ステップＳ８０３）引用情報抽出手段４１は、ｉ番目の第一文書から引用情報を抽出する。
（ステップＳ８０４）特定手段４３は、カウンタｊを１に設定する。

（ステップＳ８０５）特定手段４３は、引用情報抽出手段４１が抽出した引用情報において特定されているｊ番目の引用文書が存在するかどうか判断する。この判断は、例えば、ｊ番目の引用文書識別情報が存在するかどうかによって判断してもよい。ｊ番目の引用文書識別情報が存在する場合には、ｊ番目の引用文書が存在することになる。そして、ｊ番目の引用文書が存在する場合には、ステップＳ８０６に進み、そうでない場合には、ステップＳ８１０に進む。

（ステップＳ８０６）特定手段４３は、ｊ番目の引用文書が第二文書であるかどうか判断する。この判断は、例えば、ｊ番目の引用文書を識別する引用文書識別情報によって第二文書記憶部１２を検索し、ヒットするかどうかによって判断してもよい。ヒットした場合には、ｊ番目の引用文書が第二文書であることになる。そして、ｊ番目の引用文書が第二文書である場合には、ステップＳ８０７に進み、そうでない場合には、ステップＳ８０９に進む。

（ステップＳ８０７）引用形式判断手段４２は、ｊ番目の引用文書に関する引用形式がタイプＣであるかどうか判断する。そして、タイプＣである場合には、ステップＳ８０８に進み、そうでない場合には、ステップＳ８０９に進む。

（ステップＳ８０８）特定手段４３は、ｉ番目の第一文書と、その第一文書に含まれる引用情報で引用されるｊ番目の引用文書としての第二文書とを、互いに対応している文書として特定する。

（ステップＳ８０９）特定手段４３は、カウンタｊを１だけインクリメントする。そして、ステップＳ８０５に戻る。
（ステップＳ８１０）特定手段４３は、カウンタｉを１だけインクリメントする。

（ステップＳ８１１）特定手段４３は、ｉ番目の第一文書が存在するかどうか判断する。そして、存在する場合には、ステップＳ８０２に戻り、そうでない場合には、図２２のフローチャートに戻る。

図２４は、図２２のフローチャートにおけるステップＳ７０２の処理の詳細を示すフローチャートである。
（ステップＳ９０１）特定手段４３は、カウンタｉを１に設定する。

（ステップＳ９０２）引用情報抽出手段４１は、ｉ番目の第二文書に引用情報が含まれるかどうか判断する。そして、含まれる場合には、ステップＳ９０３に進み、そうでない場合には、ステップＳ９１１に進む。

（ステップＳ９０３）引用情報抽出手段４１は、ｉ番目の第二文書から引用情報を抽出する。
（ステップＳ９０４）特定手段４３は、カウンタｊを１に設定する。

（ステップＳ９０５）特定手段４３は、引用情報抽出手段４１が抽出した引用情報において特定されているｊ番目の引用文書が存在するかどうか判断する。この判断は、例えば、ｊ番目の引用文書識別情報が存在するかどうかによって判断してもよい。ｊ番目の引用文書識別情報が存在する場合には、ｊ番目の引用文書が存在することになる。そして、ｊ番目の引用文書が存在する場合には、ステップＳ９０６に進み、そうでない場合には、ステップＳ９１１に進む。

（ステップＳ９０６）特定手段４３は、ｊ番目の引用文書が第一文書であるかどうか判断する。この判断は、例えば、ｊ番目の引用文書を識別する引用文書識別情報によって第一文書記憶部１１を検索し、ヒットするかどうかによって判断してもよい。ヒットした場合には、ｊ番目の引用文書が第一文書であることになる。そして、ｊ番目の引用文書が第一文書である場合には、ステップＳ９０７に進み、そうでない場合には、ステップＳ９１０に進む。

（ステップＳ９０７）引用形式判断手段４２は、ｊ番目の引用文書に関する引用形式がタイプＣであるかどうか判断する。そして、タイプＣである場合には、ステップＳ９０８に進み、そうでない場合には、ステップＳ９１０に進む。

（ステップＳ９０８）特定手段４３は、ｉ番目の第二文書と、その第二文書に含まれる引用情報で引用されるｊ番目の引用文書としての第一文書とが、互いに対応している文書としてまだ特定されていないかどうか判断する。そして、まだ特定されていない場合には、ステップＳ９０９に進み、そうでない場合、すなわち、すでに特定されている場合には、ステップＳ９１０に進む。

（ステップＳ９０９）特定手段４３は、ｉ番目の第二文書と、その第二文書に含まれる引用情報で引用されるｊ番目の引用文書としての第一文書とを、互いに対応している文書として特定する。

（ステップＳ９１０）特定手段４３は、カウンタｊを１だけインクリメントする。そして、ステップＳ９０５に戻る。
（ステップＳ９１１）特定手段４３は、カウンタｉを１だけインクリメントする。

（ステップＳ９１２）特定手段４３は、ｉ番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップＳ９０２に戻り、そうでない場合には、図２２のフローチャートに戻る。

図２５は、図４のフローチャートにおけるステップＳ１０４の処理の詳細を示すフローチャートである。
（ステップＳ１００１）第２の特定手段５３は、カウンタｉを１に設定する。

（ステップＳ１００２）第２の引用情報抽出手段５１は、ｉ番目の第二文書に引用情報が含まれるかどうか判断する。そして、含まれる場合には、ステップＳ１００３に進み、そうでない場合には、ステップＳ１０１１に進む。

（ステップＳ１００３）第２の引用情報抽出手段５１は、ｉ番目の第二文書から引用情報を抽出する。
（ステップＳ１００４）第２の特定手段５３は、カウンタｊを１に設定する。

（ステップＳ１００５）第２の特定手段５３は、第２の引用情報抽出手段５１が抽出した引用情報において特定されているｊ番目の引用文書が存在するかどうか判断する。この判断は、例えば、ｊ番目の引用文書識別情報が存在するかどうかによって判断してもよい。ｊ番目の引用文書識別情報が存在する場合には、ｊ番目の引用文書が存在することになる。そして、ｊ番目の引用文書が存在する場合には、ステップＳ１００６に進み、そうでない場合には、ステップＳ１０１１に進む。

（ステップＳ１００６）第２の特定手段５３は、ｊ番目の引用文書が第二文書であるかどうか判断する。この判断は、例えば、ｊ番目の引用文書を識別する引用文書識別情報によって第二文書記憶部１２を検索し、ヒットするかどうかによって判断してもよい。ヒットした場合には、ｊ番目の引用文書が第二文書であることになる。そして、ｊ番目の引用文書が第二文書である場合には、ステップＳ１００７に進み、そうでない場合には、ステップＳ１０１０に進む。

（ステップＳ１００７）第２の引用形式判断手段５２は、ｊ番目の引用文書に関する引用形式がタイプＣであるかどうか判断する。そして、タイプＣである場合には、ステップＳ１００８に進み、そうでない場合には、ステップＳ１０１０に進む。

（ステップＳ１００８）第２の特定手段５３は、ｉ番目の第二文書と、その第二文書に含まれる引用情報で引用されているｊ番目の引用文書である第二文書との少なくとも一方に分類付与部１４によって付与された分類情報が存在するかどうか判断する。そして、存在する場合には、ステップＳ１００９に進み、そうでない場合には、ステップＳ１０１０に進む。

（ステップＳ１００９）拡張分類付与部１６は、ｉ番目の第二文書と、その第二文書に含まれる引用情報で引用されているｊ番目の引用文書である第二文書とに関して、分類付与部１４によって付与された分類情報を、他方の第二文書に付与する。例えば、一方の第二文書にのみ分類付与部１４によって分類情報が付与されている場合には、拡張分類付与部１６は、その分類情報を他方の第二文書に付与する。例えば、両方の第二文書に分類付与部１４によって分類情報が付与されている場合には、拡張分類付与部１６は、各分類情報を、それぞれ他方の第二文書に付与する。分類情報を付与するとは、具体的には、第二文書記憶部１２において、第二文書に対応付けて分類情報を蓄積することである。なお、ここでの分類情報の付与において、分類付与部１４、または拡張分類付与部１６がすでに付与した分類情報と同じ分類情報を付与しないようにしてもよい。

（ステップＳ１０１０）第２の特定手段５３は、カウンタｊを１だけインクリメントする。そして、ステップＳ１００５に戻る。
（ステップＳ１０１１）第２の特定手段５３は、カウンタｉを１だけインクリメントする。

（ステップＳ１０１２）第２の特定手段５３は、ｉ番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップＳ１００２に戻り、そうでない場合には、図４のフローチャートに戻る。

次に、本実施の形態による情報処理装置１の動作について、具体例を用いて説明する。
まず、引用情報を抽出する方法と、引用形式を判断する方法について具体的に説明する。

引用情報抽出手段４１は、ある文書から、引用文書識別情報を含む引用情報を抽出する。その場合に、引用情報抽出手段４１は、まず、その文書の引用文書識別情報が含まれうる領域、例えば、「特許文献」「非特許文献」の欄や、「参考文献」の欄に記載されている引用文書識別情報を特定する。その引用文書識別情報は、例えば、特許公報番号や、論文の書誌情報（タイトルや発表年月、著者、掲載媒体等）等である。その引用文書識別情報には、例えば、例えば、１、２、３…や、１）、２）、３）…、［１］、［２］、［３］…、［Ａ］、［Ｂ］、［Ｃ］…、特許文献１、特許文献２、特許文献３…、非特許文献１、非特許文献２、非特許文献３…等のインデックスが付されている場合もあり、それらのインデックスが付されている場合には、そのインデックスも特定する。次に、引用情報抽出手段４１は、引用文書識別情報やインデックスを用いた検索を行い、その引用文書識別情報やインデックスが含まれる文を特定する。そして、引用文書識別情報の含まれる領域と、その引用文書識別情報やインデックスの含まれる文、及びその文と関連の深い文とを引用情報として抽出する。ここで、引用文書識別情報やインデックスの含まれる文と関連の深い文を特定する方法について説明する。

引用情報抽出手段４１は、あらかじめ図示しない記録媒体において、下記の２種類の手がかり語句を保持しているものとする。
（Ａ）前拡張用手がかり語句
Ｉｎｔｈｉｓ，Ｏｎｔｈｉｓ，Ｓｕｃｈ，Ｂｕｔ，Ｈｏｗｅｖｅｒ…
（Ｂ）後拡張用手がかり語句
Ｗｅ，ｗｅ，Ｔｈｅｙ，ｔｈｅｙ，Ｏｕｒ，ｏｕｒ，Ｉｎｔｈｉｓ，Ｏｎｔｈｉｓ，Ｓｕｃｈ，Ｂｕｔ，Ｈｏｗｅｖｅｒ…

引用情報抽出手段４１は、まず、引用文書識別情報やインデックスの含まれる文を候補文とする。そして、その候補文の先頭の文に（Ａ）前拡張用手がかり語句のいずれかが少なくとも含まれる場合に、その候補文よりも１個前の文を候補文に含める。引用情報抽出手段４１は、候補文を前に拡張する処理を、候補文の先頭の文に（Ａ）前拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。また、引用情報抽出手段４１は、候補文の次の文（候補文に後側に隣接する文であり、候補文には含まれない文）に、（Ｂ）後拡張用手がかり語句が含まれる場合に、その候補文の次の文を候補文に含める。引用情報抽出手段４１は、候補文を後に拡張する処理を、候補文の次の文に（Ｂ）後拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。候補文を拡張する処理が終了した時点における候補文と引用文書識別情報の含まれる領域とが、引用情報となる。引用情報抽出手段４１は、その引用情報を抽出する。なお、（Ａ）前拡張用手がかり語句、（Ｂ）後拡張用手がかり語句は一例であって、引用文書識別情報やインデックスの含まれる文と関連の深い文を適切に抽出することができるのであれば、それ以外の手がかり語句を用いてもよい。

次に、引用形式判断手段４２が、引用情報を用いて引用形式がタイプＣであるかどうか判断する方法について説明する。ここで、引用形式判断手段４２は、図２６で示されるタイプＣの手がかり語句と、手がかり語句の位置とを対応付けた情報を図示しない記録媒体で保持しているものとする。図２６の「手がかり語句の位置」とは、引用情報において、インデックスや引用文書識別情報の含まれる文を基準（０）とした、文の数を示す情報である。例えば、手がかり語句の位置「１〜３」の場合には、引用情報において、インデックスや引用文書識別情報の含まれる文の次の文（手がかり語句の位置＝１）から、インデックスや引用文書識別情報の含まれる文から３番目の後方の文（手がかり語句の位置＝３）までの３個の文を意味している。手がかり語句の位置がマイナスである場合には、インデックスや引用文書識別情報の含まれる文よりも前の文を意味する。タイプＣの手がかり語句が、対応する手がかり語句の位置で示される文に含まれる場合に、その引用情報の引用形式は、タイプＣであると判断される。具体的には、引用情報において、インデックスや引用文書識別情報の含まれる文の次の文（１番目の文）から３番目の文までのいずれかの文に「Ｈｏｗｅｖｅｒ」が含まれる場合には、その引用情報の引用形式はタイプＣであると判断される。なお、ここでは、英語の文書について引用情報の抽出や、引用形式の判断を行う場合について説明したが、日本語の文書や他の言語の文書についても、同様にして引用情報の抽出や、引用形式の判断を行うことができうる。

この具体例において、情報処理装置１は、実施の形態１の具体例と同様に、ＰＣであるとする。また、第一文書記憶部１１では、図２７で示されるように第一文書等が記憶されているものとする。また、第二文書記憶部１２では、図２８で示されるように第二文書等が記憶されているものとする。図２９は、第一文書「ＦＤ１０１」を示す図である。

その分類付与の処理において、まず、第１の特定部１３の特定手段４３等は、第一文書の引用情報を用いて、互いに対応している第一文書と第二文書との特定を行う（ステップＳ７０１）。より詳細には、引用情報抽出手段４１は、１番目の第一文書「ＦＤ１０１」に引用情報が含まれるかどうか判断する（ステップＳ８０１，Ｓ８０２）。ここでは、図２９で示されるように、第一文書「ＦＤ１０１」において、非特許文献１が記載されているため、引用情報抽出手段４１は、引用情報が含まれていると判断し、上述のような方法によって、引用情報を抽出する（ステップＳ８０３）。

特定手段４３は、引用情報に非特許文献１に対応する引用文書識別情報が含まれているため、１番目の引用文書が存在すると判断する（ステップＳ８０４，Ｓ８０５）。また、特定手段４３は、引用情報に含まれる非特許文献１の引用文書識別情報『ＢＢＢＢ、「ＹＹＹに関する一考察」、ＺＺＺ学会、……』を用いて、第二文書記憶部１２を検索する。その検索によって、第二文書「ＳＤ１０２」がヒットしたとする。すると、特定手段４３は、引用文書が第二文書であると判断する（ステップＳ８０６）。

また、前述のような処理を行うことによって、引用形式判断手段４２は、その非特許文献１に関する引用形式がタイプＣであると判断したとする（ステップＳ８０７）。すると、特定手段４３は、第一文書「ＦＤ１０１」と、第二文書「ＳＤ１０２」とを、互いに対応している文書であると特定する（ステップＳ８０８）。具体的には、特定手段４３は、「ＦＤ１０１」と、「ＳＤ１０２」とを対応付けて有する情報である対応情報を、図１４で示される対応情報と同様に蓄積する。

このようにして、第一文書の引用情報を用いた、互いに対応している第一文書と第二文書との特定が順次、行われていく（ステップＳ８０２〜Ｓ８１１）。また、同様にして、第二文書の引用情報を用いた、互いに対応している第一文書と第二文書との特定も順次、行われていく（ステップＳ７０２，Ｓ９０１〜Ｓ９１２）。

なお、対応情報を用いた分類情報の付与の処理（ステップＳ７０３）については、実施の形態１の具体例での説明と同様であり、その説明を省略する。その分類情報の付与の処理の結果、第二文書記憶部１２で記憶されている情報は、図３０で示されるようになったとする。

その処理において、第２の引用情報抽出手段５１は、１番目の第二文書「ＳＤ１０１」に引用情報が含まれるかどうか判断する（ステップＳ１００１，Ｓ１００２）。ここでは、引用情報が含まれているものとすると、第２の引用情報抽出手段５１は、その引用情報を抽出する（ステップＳ１００３）。そして、第２の特定手段５３は、１番目の引用文書識別情報が含まれると判断し（ステップＳ１００４，Ｓ１００５）、その引用文書識別情報で識別される文書は、第二文書「ＳＤ１０２」であり、引用形式はタイプＣであったとする（ステップＳ１００６，Ｓ１００７）。この場合には、図３０で示されるように、その引用文書としての第二文書「ＳＤ１０２」に分類情報が対応付けられているため、第２の特定手段５３は、少なくとも一方の文書に分類情報が付与されていると判断する（ステップＳ１００８）。そして、拡張分類付与部１６は、第二文書「ＳＤ１０２」に付与されている分類情報「Ｇ０６Ｑ９０／００」を、第二文書「ＳＤ１０１」に対応付けて蓄積する（ステップＳ１００９）。この処理は、実施の形態１の具体例での説明と同様である。その後、第二文書記憶部１２における他の第二文書についても、同様の処理が順次、行われていくことになる（ステップＳ１００２〜Ｓ１０１２）。

以上のように、本実施の形態による情報処理装置１では、タイプＣの引用関係を有している第一文書と第二文書とを、互いに対応している文書として特定し、その第一文書に対応付けられている分類情報を、その第二文書に付与することによって、第一文書の分類情報によって、第二情報を分類することができる。また、互いに対応している第一文書と第二文書とを特定するため、分類を付与する精度が高くなりうるのは、実施の形態１と同様である。また、引用関係を用いて分野の異なる文書間の対応関係を判断するため、従来例の特許文献１のように、非常に大きな次元の特徴ベクトルを扱う必要がなく、処理負荷も軽減されている。また、拡張分類付与部１６によって分類情報を拡張して付与することができ、より多くの第二文書に分類情報を付与することが可能となりうるのも、実施の形態１と同様である。

なお、本実施の形態では、分類情報の付与の際に文書に含まれる創案者名を利用しない。したがって、本実施の形態では、第一文書、及び第二文書が１以上の創案者名を含んでいなくてもよい。

また、本実施の形態では、第１の特定部１３が引用形式判断手段４２を備えており、タイプＣの引用形式である場合に、互いに引用関係にある文書を特定する場合について説明したが、第１の特定部１３は、引用形式判断手段４２を備えていなくてもよい。引用形式判断手段４２を備えていない場合には、第１の特定部１３の特定手段４３は、引用形式の判断結果によらず、引用情報抽出手段４１が抽出した引用情報を含む文書と、その引用情報で引用される文書（引用文書）とを互いに対応している文書として特定してもよい。第２の特定部１５についても同様である。第２の特定部１５は、第２の引用形式判断手段５２を備えていなくてもよい。第２の引用形式判断手段５２を備えていない場合には、第２の特定部１５の第２の特定手段５３は、引用形式の判断結果によらず、第２の引用情報抽出手段５１が抽出した引用情報を含む第二文書と、その引用情報で引用される第二文書（引用文書）とを互いに類似する文書として特定してもよい。ここで、引用形式の判断を行わない場合には、引用情報は、例えば、引用文書識別情報のみを含む情報であってもよい。

また、実施の形態１において、図２で示される第１の特定部１３と、図３で示される第２の特定部１５とについて説明し、実施の形態２において、図２０で示される第１の特定部１３と、図２１で示される第２の特定部１５とについて説明したが、第１の特定部１３と第２の特定部１５との組合せは、自由である。例えば、情報処理装置１は、図２で示される第１の特定部１３と、図２１で示される第２の特定部１５とを備えていてもよく、また、図２０で示される第１の特定部１３と、図３で示される第２の特定部１５とを備えていてもよい。なお、実施の形態１，２で説明した場合においては、第１の特定部１３と、第２の特定部１５とにおいて、同様の処理を行う構成要素を有することになりうる。例えば、図２で示される第１の特定部１３と、図３で示される第２の特定部１５とに関しては、特徴語抽出手段２４と、第２の特徴語抽出手段３１とが同様の処理を行うものであり、また、類似情報算出手段２６と、第２の類似情報算出手段３２とが同様の処理を行うものである。また、例えば、図２０で示される第１の特定部１３と、図２１で示される第２の特定部１５とに関しては、引用情報抽出手段４１と、第２の引用情報抽出手段５１とが同様の処理を行うものであり、引用形式判断手段４２と、第２の引用形式判断手段５２とが同様の処理を行うものである。このような場合には、同様の処理を行う構成要素を物理的に一体のものとして構成してもよい。物理的に一体のものとして構成されたとしても、例えば、分類情報の付与の処理を行う際には、特徴語抽出手段２４として動作することとなり、分類情報の拡張の処理を行う際には、第２の特徴語抽出手段３１として動作することになる。

また、上記各実施の形態では、情報処理装置１が第２の特定部１５と、拡張分類付与部１６とを備えた場合について説明したが、例えば、分類情報の拡張を行う必要がない場合などには、情報処理装置１は、それらを備えていなくてもよい。

また、上記各実施の形態において、第１の特定部１３は、各実施の形態で説明した以外の方法で互いに対応している第一文書と第二文書との特定を行ってもよい。また、第２の特定部１５は、各実施の形態で説明した以外の方法で互いに類似する複数の第二文書を特定してもよい。

また、上記各実施の形態において、第一文書が特許文書であり、第二文書が論文である場合について主に説明したが、そうでなくてもよいことは前述の通りである。例えば、第一文書が論文であり、第二文書が特許文書であってもよく、第一文書が日本語の文書であり、第二文書が英語の文書であってもよい。そのような場合には、例えば、特徴語変換手段２５は、例えば、特許用語を論文用語に変換するものであってもよく、英語を日本語に翻訳するものであってもよい。また、第一文書と、第二文書との言語が異なる場合には、創案者名判断手段２２による判断や、時期判断手段２３による判断、引用情報を用いた引用文書の特定などの処理において、創案者名や時期情報の示す時期、引用情報等の翻訳を行ってから、それらの処理を行ってもよいことは言うまでもない。

また、上記各実施の形態では、互いに対応している第一文書と第二文書とを特定し、第一文書に対応付けられている分類情報で第二文書を分類する場合について説明したが、互いに対応している第一文書と第二文書とを特定して、その特定結果を示す情報を出力するだけであってもよい。具体的には、図３１で示されるように、情報処理装置２は、第一文書記憶部１１と、第二文書記憶部１２と、第１の特定部１３と、出力部６１とを備えたものであってもよい。出力部６１以外の構成及び動作は、実施の形態１と同様であり、その詳細な説明を省略する。

出力部６１は、第１の特定部１３が特定した第一文書と第二文書との対応を示す情報を出力する。「第一文書と第二文書との対応を示す情報」は、例えば、第一文書を識別する情報と第二文書を識別する情報とを対応付けて有する情報であってもよく、第一文書と第二文書との対応を示すことができる情報であれば、その他の情報であってもよい。この情報は、例えば、図１４で示される対応情報に類似した情報であってもよい。

ここで、この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイなど）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。なお、出力部６１は、出力を行うデバイス（例えば、表示デバイスやプリンタなど）を含んでもよく、あるいは含まなくてもよい。また、出力部６１は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

図３２は、図３１で示される情報処理装置２の動作を示すフローチャートである。
（ステップＳ１１０１）第１の特定部１３は、第一文書と第二文書との特定の処理を開始するかどうか判断する。そして、開始する場合には、ステップＳ１１０２に進み、そうでない場合には、開始すると判断するまで、ステップＳ１１０１の処理を繰り返す。

（ステップＳ１１０２）第１の特定部１３は、互いに対応するペア文書としての第一文書と第二文書とを特定する。このステップＳ１１０２の処理は、分類情報の付与（ステップＳ２１２）の処理を行わない以外、図５のフローチャートと同様であり、その説明を省略する。

（ステップＳ１１０３）出力部６１は、第１の特定部１３が特定した第一文書と第二文書との対応を示す情報を出力する。そして、ステップＳ１１０１に戻る。
このようにして、図３１で示される情報処理装置２によれば、互いに対応している第一文書と第二文書とを特定して、その特定結果を示す情報を出力することにより、情報処理装置２のユーザ等に、互いに対応している文書を示すことができる。例えば、特許の業界では、ある国で出願された特許と、別の国で出願された特許とが同内容のものである場合に、両者をファミリーとして管理する習慣があるが、第一文書が第一言語の特許文書であり、第二文書が第二言語の特許文書である場合には、ファミリーである特許文書を特定することができ、また、第一文書が特許文書であり、第二文書が論文である場合には、特許と論文とについても、そのような対応を把握することが可能となる。
なお、図３１で示される情報処理装置２では、分類情報の付与を行わないため、第一文書記憶部１１において、分類情報が記憶されていなくてもよい。

また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記各実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、第一の分野における文書である第一文書と、当該第一文書の分類を示す情報である分類情報との対応が１以上記憶される第一文書記憶部と、第二の分野における文書である第二文書が１以上記憶される第二文書記憶部とを参照し、互いに対応している第一文書と第二文書とを特定する特定部と、前記特定部が特定した第一文書と第二文書とのうち、当該第二文書に対して、当該第一文書に対応付けられている分類情報を付与する分類付与部として機能させるためのものである。

他のプログラムは、コンピュータを、第一の分野における文書であり、当該文書の記載対象を創案した１以上の創案者名を少なくとも含む文書である第一文書が１以上記憶される第一文書記憶部と、第二の分野における文書であり、当該文書の記載対象を考案した１以上の創案者名を少なくとも含む文書である第２文書が１以上記憶される第二文書記憶部とを参照し、記載対象が同じであり、少なくとも一部の創案者名が一致している第一文書と第二文書とをペア文書として特定する特定部と、前記特定部が特定した第一文書と第二文書との対応を示す情報を出力する出力部として機能させるためのものである。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ−ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

図３３は、上記プログラムを実行して、上記実施の形態による情報処理装置１，２を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。

図３３において、コンピュータシステム１００は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ１０５、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ１０６を含むコンピュータ１０１と、キーボード１０２と、マウス１０３と、モニタ１０４とを備える。

図３４は、コンピュータシステムを示す図である。図３４において、コンピュータ１０１は、ＣＤ−ＲＯＭドライブ１０５、ＦＤドライブ１０６に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１２と、ＣＰＵ１１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク１１４と、ＣＰＵ１１１、ＲＯＭ１１２等を相互に接続するバス１１５とを備える。なお、コンピュータ１０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいてもよい。

コンピュータシステム１００に、上記実施の形態による情報処理装置１，２の機能を実行させるプログラムは、ＣＤ−ＲＯＭ１２１、またはＦＤ１２２に記憶されて、ＣＤ−ＲＯＭドライブ１０５、またはＦＤドライブ１０６に挿入され、ハードディスク１１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ１０１に送信され、ハードディスク１１４に記憶されてもよい。プログラムは実行の際にＲＡＭ１１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ１２１やＦＤ１２２、またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータ１０１に、上記実施の形態による情報処理装置１，２の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム１００がどのように動作するのかについては周知であり、詳細な説明は省略する。

また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上より、本発明による情報処理装置等によれば、例えば、第一の分野の文書に対応付けられている分類情報を、第二の分野の文書に付与することができ、文書と、その文書の分類とを管理しているシステム等において有用である。

本発明の実施の形態１による情報処理装置の構成を示すブロック図同実施の形態における第１の特定部の構成を示すブロック図同実施の形態における第２の特定部の構成を示すブロック図同実施の形態による情報処理装置の動作を示すフローチャート同実施の形態による情報処理装置の動作を示すフローチャート同実施の形態による情報処理装置の動作を示すフローチャート同実施の形態による情報処理装置の動作を示すフローチャート同実施の形態による情報処理装置の動作を示すフローチャート同実施の形態による情報処理装置の動作を示すフローチャート同実施の形態における第一文書記憶部で記憶されている情報の一例を示す図同実施の形態における第一文書の一例を示す図同実施の形態における第二文書記憶部で記憶されている情報の一例を示す図同実施の形態における第二文書の一例を示す図同実施の形態における対応情報の一例を示す図同実施の形態における特徴語の一例を示す図同実施の形態における上位下位シソーラスの一例を示す図同実施の形態における変換のなされた特徴語の一例を示す図同実施の形態における第二文書記憶部で記憶されている情報の一例を示す図同実施の形態における第二文書記憶部で記憶されている情報の一例を示す図本発明の実施の形態２における第１の特定部の構成を示すブロック図同実施の形態における第２の特定部の構成を示すブロック図同実施の形態による情報処理装置の動作を示すフローチャート同実施の形態による情報処理装置の動作を示すフローチャート同実施の形態による情報処理装置の動作を示すフローチャート同実施の形態による情報処理装置の動作を示すフローチャート同実施の形態におけるタイプＣの手がかり語句の一例を示す図同実施の形態における第一文書記憶部で記憶されている情報の一例を示す図同実施の形態における第二文書記憶部で記憶されている情報の一例を示す図同実施の形態における第一文書の一例を示す図同実施の形態における第二文書記憶部で記憶されている情報の一例を示す図他の実施の形態による情報処理装置の構成を示すブロック図同実施の形態による情報処理装置の動作を示すフローチャート上記実施の形態におけるコンピュータシステムの外観一例を示す模式図上記実施の形態におけるコンピュータシステムの構成の一例を示す図

符号の説明

１、２情報処理装置
１１第一文書記憶部
１２第二文書記憶部
１３第１の特定部
１４分類付与部
１５第２の特定部
１６拡張分類付与部
２１特定情報抽出手段
２２創案者名判断手段
２３時期判断手段
２４特徴語抽出手段
２５特徴語変換手段
２６類似情報算出手段
２７、４３特定手段
３１第２の特徴語抽出手段
３２第２の類似情報算出手段
３３、５３第２の特定手段
４１引用情報抽出手段
４２引用形式判断手段
５１第２の引用情報抽出手段
５２第２の引用形式判断手段
６１出力部

Claims

第一の分野における文書である第一文書と、当該第一文書の分類を示す情報である分類情報との対応が１以上記憶される第一文書記憶部と、
第二の分野における文書である第二文書が１以上記憶される第二文書記憶部と、
互いに対応している第一文書と第二文書とを特定する特定部と、
前記特定部が特定した第一文書と第二文書とのうち、当該第二文書に対して、当該第一文書に対応付けられている分類情報を付与する分類付与部と、
互いに類似する複数の第二文書を特定する第２の特定部と、
前記第２の特定部が特定した互いに類似する複数の第二文書のうち、いずれかの第二文書に前記分類付与部によって分類情報が付与されている場合に、当該分類情報が付与されている第二文書と類似する第二文書に対して当該分類情報を付与する拡張分類付与部と、を備えた情報処理装置。
前記第２の特定部は、
第二文書に含まれる特徴的な単語である特徴語を抽出する第２の特徴語抽出手段と、
前記第２の特徴語抽出手段が抽出した、複数の第二文書に含まれる特徴語を比較し、当該複数の第二文書の類似に関する情報である類似情報を算出する第２の類似情報算出手段と、
前記第２の類似情報算出手段が算出した類似情報によって類似性の高いことが示される複数の第二文書を、互いに類似する複数の第二文書として特定する第２の特定手段と、を備えた、請求項１記載の情報処理装置。
前記第２の特定部は、
第二文書の少なくともいずれかに、他の文書を引用する情報である引用情報が含まれる場合に、当該引用情報を抽出する第２の引用情報抽出手段と、
前記第２の引用情報抽出手段が抽出した引用情報を含む第二文書と、当該引用情報で引用される第二文書とを互いに類似する文書として特定する第２の特定手段と、を備えた、請求項１記載の情報処理装置。
前記第２の特定部は、
前記第２の引用情報抽出手段が抽出した引用情報の示す引用形式が、引用する第二文書の問題を指摘する形式である問題指摘型引用形式であるかどうか判断する第２の引用形式判断手段をさらに備え、
前記第２の特定手段は、前記第２の引用形式判断手段が、前記引用形式の示す引用形式が問題指摘型引用形式であると判断した場合に、当該引用情報を含む第二文書と、当該引用情報で引用される第二文書とを互いに類似する文書として特定する、請求項３記載の情報処理装置。
第一の分野における文書である第一文書と、当該第一文書の分類を示す情報である分類情報との対応が１以上記憶される第一文書記憶部と、第二の分野における文書である第二文書が１以上記憶される第二文書記憶部と、特定部と、分類付与部と、第２の特定部と、拡張分類付与部とをもちいて処理される情報処理方法であって、
前記特定部が、互いに対応している第一文書と第二文書とを特定する特定ステップと、
前記分類付与部が、前記特定ステップで特定した第一文書と第二文書とのうち、当該第二文書に対して、当該第一文書に対応付けられている分類情報を付与する分類付与ステップと、
前記第２の特定部が、互いに類似する複数の第二文書を特定する第２の特定ステップと、
前記拡張分類付与部が、前記第２の特定ステップで特定した互いに類似する複数の第二文書のうち、いずれかの第二文書に前記分類付与ステップにおいて分類情報が付与されている場合に、当該分類情報が付与されている第二文書と類似する第二文書に対して当該分類情報を付与する拡張分類付与ステップと、を備えた情報処理方法。
第一の分野における文書である第一文書と、当該第一文書の分類を示す情報である分類情報との対応が１以上記憶される第一文書記憶部と、第二の分野における文書である第二文書が１以上記憶される第二文書記憶部とにアクセス可能なコンピュータを、
互いに対応している第一文書と第二文書とを特定する特定部、
前記特定部が特定した第一文書と第二文書とのうち、当該第二文書に対して、当該第一文書に対応付けられている分類情報を付与する分類付与部、
互いに類似する複数の第二文書を特定する第２の特定部、
前記第２の特定部が特定した互いに類似する複数の第二文書のうち、いずれかの第二文書に前記分類付与部によって分類情報が付与されている場合に、当該分類情報が付与されている第二文書と類似する第二文書に対して当該分類情報を付与する拡張分類付与部として機能させるためのプログラム。