JP5019315B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP5019315B2
JP5019315B2 JP2007112532A JP2007112532A JP5019315B2 JP 5019315 B2 JP5019315 B2 JP 5019315B2 JP 2007112532 A JP2007112532 A JP 2007112532A JP 2007112532 A JP2007112532 A JP 2007112532A JP 5019315 B2 JP5019315 B2 JP 5019315B2
Authority
JP
Japan
Prior art keywords
document
information
unit
classification
citation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007112532A
Other languages
English (en)
Other versions
JP2008269375A (ja
Inventor
英嗣 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hiroshima City University
Original Assignee
Hiroshima City University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hiroshima City University filed Critical Hiroshima City University
Priority to JP2007112532A priority Critical patent/JP5019315B2/ja
Publication of JP2008269375A publication Critical patent/JP2008269375A/ja
Application granted granted Critical
Publication of JP5019315B2 publication Critical patent/JP5019315B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、第二文書に対して第一文書に対応付けられている分類情報を付与する情報処置装置等に関する。
従来、ある分野の文書を語彙が異なる分野の文書のカテゴリによって分類する文書分類装置等が開発されている(例えば、特許文献1参照)。
特開2006−301920号公報
上記特許文献1で開示されている文書分類装置は、文書から特徴ベクトルを算出し、その特徴ベクトルを用いることによって、ある分野の文書を、異なる分野のカテゴリに分類するものである。しかしながら、そのような分類を行うためには、教師データとして用いる文書と、分類を行う文書とのすべての特徴ベクトルを算出する必要がある。その特徴ベクトルは、非常に大きな次元のものであると考えられるところ、その特徴ベクトルを算出する処理は非常に負荷の大きい処理であり、多大な時間がかかると考えられる。また、特徴ベクトルを用いることによってのみ文書の類似性を判断しているため、精度が低くなるおそれもありうる。
本発明は、上記問題点を解決するためになされたものであり、その一つの目的は、第一の分野の文書に対応付けられている分類情報を、第二の分野の文書に付与する処理を、軽い負荷、高い精度で実行することができる情報処理装置等を提供することである。
また、他の目的は、互いに対応している第一文書と第二文書とを特定し、その特定した第一文書と第二文書との対応を示す情報を出力する情報処理装置等を提供することである。
上記目的を達成するため、本発明による情報処理装置は、第一の分野における文書である第一文書と、当該第一文書の分類を示す情報である分類情報との対応が1以上記憶される第一文書記憶部と、第二の分野における文書である第二文書が1以上記憶される第二文書記憶部と、互いに対応している第一文書と第二文書とを特定する特定部と、前記特定部が特定した第一文書と第二文書とのうち、当該第二文書に対して、当該第一文書に対応付けられている分類情報を付与する分類付与部と、を備えたものである。
このような構成により、第二文書に対して、第一文書に対応付けられている分類情報を付与することができる。また、その分類情報の付与を、互いに対応している第一文書と第二文書との対応を用いて行うことによって、精度が高いものとなる。また、上記特許文献1のように、非常に大きな次元の特徴ベクトルを扱う必要がなく、処理負荷も軽減されている。
また、本発明による情報処理装置では、前記第一文書は、当該第一文書の記載対象を創案した1以上の創案者名を少なくとも含んでおり、前記第二文書は、当該第二文書の記載対象を創案した1以上の創案者名を少なくとも含んでおり、前記特定部は、記載対象が同じであり、少なくとも一部の創案者名が一致している第一文書と第二文書とを互いに対応しているペア文書として特定してもよい。
このような構成により、ペア文書を特定して分類情報の付与を行うため、より精度の高い分類情報の付与が可能となりうる。
また、本発明による情報処理装置では、前記特定部は、第一文書と第二文書との少なくとも一方に、ペア文書の相手方の文書を特定する情報である特定情報が含まれる場合に、当該特定情報を抽出する特定情報抽出手段と、前記特定情報抽出手段が抽出した特定情報を含む文書と、当該特定情報で特定される文書とをペア文書として特定する特定手段と、を備えてもよい。
このような構成により、特定情報によって相手方の文書が特定されている場合にペア文書の特定を行うため、確実なペア文書の特定が可能となりうる。
また、本発明による情報処理装置では、前記特定部は、第一文書に含まれる特徴的な単語である特徴語と、第二文書に含まれる特徴的な単語である特徴語とを抽出する特徴語抽出手段と、前記特徴語抽出手段が抽出した第一文書に含まれる特徴語と、第二文書に含まれる特徴語とを比較し、両文書の類似に関する情報である類似情報を算出する類似情報算出手段と、第一文書の第二文書との少なくとも一部の創案者名が一致しているかどうか判断する創案者名判断手段と、前記類似情報算出手段が算出した類似情報によって類似性の高いことが示される第一文書と第二文書とであって、前記創案者名判断手段による判断の結果、両文書にそれぞれ対応している少なくとも一部の創案者名が一致している第一文書と第二文書とをペア文書として特定する特定手段と、を備えてもよい。
このような構成により、第一文書や第二文書に特定情報が含まれていなくても、ペア文書を特定することができうる。また、2個の文書間で類似情報の算出を行うため、上記特許文献1のように、非常に大きな次元の特徴ベクトルを扱う必要がなく、処理負荷も軽減されることになる。
また、本発明による情報処理装置では、前記特定部は、前記第一文書から抽出された特徴語、または前記第二文書から抽出された特徴語を、相手方の分野の特徴語に変換する特徴語変換手段をさらに備え、前記類似情報算出手段は、前記特徴語変換手段によって変換された特徴語を用いて前記類似情報の算出を行ってもよい。
このような構成により、分野の異なる文書から抽出された特徴語を直接比較することが困難な場合であっても、特徴語の変換を行うことによって、より適切な比較が可能となり、2個の文書の類似性をより適切に示す類似情報の算出が可能となりうる。
また、本発明による情報処理装置では、前記第一文書記憶部では、前記第一文書と、前記分類情報と、当該第一文書に関する時期を示す情報である第一時期情報との対応が1以上記憶されるものであり、前記第二文書記憶部では、前記第二文書と、当該第二文書に関する時期を示す情報である第二時期情報との対応が1以上記憶されるものであり、前記特定部は、第一文書に対応する第一時期情報の示す時期と、第二文書に対応する第二時期情報の示す時期とが所定の範囲内であるかどうか判断する時期判断手段をさらに備え、前記特定手段は、前記時期判断手段によって第一時期情報の示す時期と第二時期情報の示す時期とが所定の範囲内でないと判断された第一文書と第二文書とをペア文書として特定しなくてもよい。
このような構成により、第一時期情報と第二時期情報とを用いて、互いに対応していないであろうと考えられる第一文書と第二文書との対応を除外することができる。その結果、精度を向上させることができうる。
また、本発明による情報処理装置では、前記特定部は、第一文書と第二文書との少なくとも一方に、他の文書を引用する情報である引用情報が含まれる場合に、当該引用情報を抽出する引用情報抽出手段と、前記引用情報抽出手段が抽出した引用情報を含む文書と、当該引用情報で引用される相手方の分野の文書とを互いに対応している文書として特定する特定手段と、を備えてもよい。
このような構成により、引用関係にある文書は近い分野にあると考えられるため、その引用関係を用いて、互いに対応している文書を特定することができる。
また、本発明による情報処理装置では、前記特定部は、前記引用情報抽出手段が抽出した引用情報の示す引用形式が、引用する文書の問題を指摘する形式である問題指摘型引用形式であるかどうか判断する引用形式判断手段をさらに備え、前記特定手段は、前記引用形式判断手段が、前記引用情報の示す引用形式が問題指摘型引用形式であると判断した場合に、当該引用情報を含む文書と、当該引用情報で引用される文書とを互いに対応している文書として特定してもよい。
このような構成により、引用形式を用いて互いに対応している文書を特定するため、精度を向上させることができうる。
また、本発明による情報処理装置では、互いに類似する複数の第二文書を特定する第2の特定部と、前記第2の特定部が特定した互いに類似する複数の第二文書のうち、いずれかの第二文書に前記分類付与部によって分類情報が付与されている場合に、当該分類情報が付与されている第二文書と類似する第二文書に対して当該分類情報を付与する拡張分類付与部と、をさらに備えてもよい。
このような構成により、第二文書の類似性を用いて、分類情報を拡張して付与することができるようになり、より多くの第二文書に分類情報を付与することが可能となりうる。
また、本発明による情報処理装置では、前記第2の特定部は、第二文書に含まれる特徴的な単語である特徴語を抽出する第2の特徴語抽出手段と、前記第2の特徴語抽出手段が抽出した、複数の第二文書に含まれる特徴語を比較し、当該複数の第二文書の類似に関する情報である類似情報を算出する第2の類似情報算出手段と、前記第2の類似情報算出手段が算出した類似情報によって類似性の高いことが示される複数の第二文書を、互いに類似する複数の第二文書として特定する第2の特定手段と、を備えてもよい。
このような構成により、第二文書から抽出した特徴語を用いて、第二文書間の類似性を判断することができうる。
また、本発明による情報処理装置では、前記第2の特定部は、第二文書の少なくともいずれかに、他の文書を引用する情報である引用情報が含まれる場合に、当該引用情報を抽出する第2の引用情報抽出手段と、前記第2の引用情報抽出手段が抽出した引用情報を含む第二文書と、当該引用情報で引用される第二文書とを互いに類似する文書として特定する第2の特定手段と、を備えてもよい。
このような構成により、引用関係にある文書は類似していると考えられるため、その引用関係を用いて、類似している文書を特定することができる。
また、本発明による情報処理装置では、前記第2の特定部は、前記第2の引用情報抽出手段が抽出した引用情報の示す引用形式が、引用する第二文書の問題を指摘する形式である問題指摘型引用形式であるかどうか判断する第2の引用形式判断手段をさらに備え、前記第2の特定手段は、前記第2の引用形式判断手段が、前記引用形式の示す引用形式が問題指摘型引用形式であると判断した場合に、当該引用情報を含む第二文書と、当該引用情報で引用される第二文書とを互いに類似する文書として特定してもよい。
このような構成により、引用形式を用いて類似している文書を特定するため、精度を向上させることができうる。
本発明による情報処理装置は、第一の分野における文書であり、当該文書の記載対象を創案した1以上の創案者名を少なくとも含む文書である第一文書が1以上記憶される第一文書記憶部と、第二の分野における文書であり、当該文書の記載対象を考案した1以上の創案者名を少なくとも含む文書である第2文書が1以上記憶される第二文書記憶部と、記載対象が同じであり、少なくとも一部の創案者名が一致している第一文書と第二文書とをペア文書として特定する特定部と、前記特定部が特定した第一文書と第二文書との対応を示す情報を出力する出力部と、を備えたものである。
このような構成により、出力された情報によって、互いに対応している文書を知ることができる。
本発明による情報処理装置等によれば、例えば、第一の分野の文書に対応付けられている分類情報を、第二の分野の文書に付与する処理を、軽い負荷、高い精度で実行することができる。
以下、本発明による情報処理装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
(実施の形態1)
本発明の実施の形態1による情報処理装置について、図面を参照しながら説明する。
図1は、本実施の形態による情報処理装置1の構成を示すブロック図である。図1において、本実施の形態による情報処理装置1は、第一文書記憶部11と、第二文書記憶部12と、第1の特定部13と、分類付与部14と、第2の特定部15と、拡張分類付与部16とを備える。
第一文書記憶部11では、第一文書と、その第一文書の分類を示す情報である分類情報と、その第一文書に関する時期を示す情報である第一時期情報との対応が1以上記憶される。ここで、第一文書とは、第一の分野における文書である。なお、「第一文書」は、本来であれば「第一文書を示す情報」と呼ぶべきであるが、単に第一文書と呼ぶことにする。後述する第二文書や特徴語等についても同様である。
分野とは、文書の範囲を決めるものであり、例えば、特許の分野と論文の分野や、第一言語(例えば、英語)の分野と第二言語(例えば、日本語)の分野等がある。なお、第一言語と第二言語とは異なる言語であるとする。分野は、例えば、使用される語彙に応じた分野であってもよく、文書における構造に応じた分野であってもよい。文書における構造とは、例えば、その文書で用いられている表題等であってもよい。例えば、特許では、「発明の名称」「発明が解決しようとする課題」「課題を解決するための手段」等の表題を有しているのに対して、論文では、「タイトル」「アブストラクト」「はじめに」「今後の展望」「参考文献」等の表題を有しており、それらの表題の違いによって文書の分野を分けることもできうる。また、前述のように、文書を記載している言語によって分野を分けることもできうる。さらに、例えば、文書の流通するルート、例えば、第一の学会で発表されたものか、第二の学会で発表されたものか等によって、分野を分けることもできうる。なお、文書の分野は、これらのものに限定されるものではなく、客観的に区別可能な分野であれば、その他のものであってもよい。
また、分類情報は、その分野において文書を分類するための情報であれば、その内容を問わない。例えば、特許の分野であれば、IPCや、Fターム、FI、ファセット、USクラス等であってもよい。また、論文の分野であれば、例えば、学会の名称や、学会のセッション名、分科会の名称等の分類であってもよい。
第一文書は、その第一文書の記載対象を創案した1以上の創案者名を少なくとも含んでいてもよい。創案者名は、例えば、第一文書が特許文書の場合には、発明者であってもよく、第一文書が論文の場合には、論文の著者であってもよい。
第一時期情報は、例えば、第一文書が特許文書の場合には、出願日や公開日等であってもよく、第一文書が論文の場合には、その論文の発表日や刊行日等であってもよい。
第一文書記憶部11は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。第一文書記憶部11に第一文書等が記憶される過程は問わない。例えば、記録媒体を介して第一文書等が第一文書記憶部11で記憶されるようになってもよく、通信回線等を介して送信された第一文書等が第一文書記憶部11で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された第一文書等が第一文書記憶部11で記憶されるようになってもよい。また、第一文書記憶部11での記憶は、外部のストレージデバイス等から読み出した第一文書等の一時的な記憶でもよく、あるいは、長期的な記憶でもよい。
第二文書記憶部12では、第二文書と、その第二文書に関する時期を示す情報である第二時期情報との対応が1以上記憶される。ここで、第二文書とは、第二の分野における文書である。また、第二文書は、その第二文書の記載対象を創案した1以上の創案者名を少なくとも含んでいてもよい。分野、創案者名は、第一文書記憶部11に関する説明と同様のものである。また、第二時期情報も、前述の第一時期情報と同様のものである。
第二文書記憶部12は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。第二文書記憶部12に第二文書等が記憶される過程は問わない。例えば、記録媒体を介して第二文書等が第二文書記憶部12で記憶されるようになってもよく、通信回線等を介して送信された第二文書等が第二文書記憶部12で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された第二文書等が第二文書記憶部12で記憶されるようになってもよい。また、第二文書記憶部12での記憶は、外部のストレージデバイス等から読み出した第二文書等の一時的な記憶でもよく、あるいは、長期的な記憶でもよい。
第一文書記憶部11と、第二文書記憶部12とは、同一の記録媒体によって実現されてもよく、別々の記録媒体によって実現されてもよい。前者の場合には、第一文書を記憶している領域が第一文書記憶部11となり、第二文書を記憶している領域が第二文書記憶部12となる。
第一文書と第二文書は、例えば、次のようなものであってもよい。すなわち、第一文書は、特許文書であり、第二文書は、論文であってもよく、あるいは、第一文書は、第一言語の文書であり、第二文書は、第一言語とは異なる第二言語の文書であってもよい。本実施の形態では、第一文書が特許文書であり、第二文書が論文である場合について説明する。また、分類情報がIPCである場合について説明する。
第1の特定部13は、互いに対応している第一文書と第二文書とを特定する。互いに対応しているとは、例えば、(1)記載対象が同じであり、少なくとも一部の創案者名が一致していることであってもよく、(2)互いに引用関係にあることであってもよく、何らかの対応があるのであれば、その他の関係であってもよい。本実施の形態では、上記(1)の場合について説明する。なお、上記(2)の場合については、実施の形態2において後述する。
本実施の形態では、第1の特定部13が、記載対象が同じであり、少なくとも一部の創案者名が一致している第一文書と第二文書とを互いに対応しているペア文書として特定するものとする。例えば、ある人が発明を行い、その発明に関して特許を出願すると共に、論文を発表した場合に、第1の特定部13は、その特許文書と、論文とをペア文書として特定することになる。
ここで、第1の特定部13がペア文書としての第一文書と第二文書とを特定する方法について説明する。なお、ここでの説明は、概念的な説明であって、詳細な説明については後述する。
[ペア文書の特定方法]
(A)特定情報を用いる方法
一の文書において、その文書とペアとなる文書である他の文書を特定している場合には、それに応じて両文書をペア文書として特定することが好適であると考えられる。したがって、第一文書と第二文書との少なくとも一方に、ペア文書の相手方の文書を特定する情報である特定情報が含まれる場合に、第1の特定部13は、その特定情報を含む文書と、その特定情報で特定される文書とをペア文書として特定してもよい。
例えば、日本国特許法の第30条の例外適用を受けて出願している場合には、対応する発表論文等に関する記載が特許文書(例えば、公開公報等)に記載されることがある。その記載が特定情報であり、第1の特定部13は、その特定情報を用いて、相手方の文書、すなわち特許出願の前に発表した特許出願の内容に関係する論文を特定してもよい。
(B)文書の類似性を用いる方法
一の文書の内容が、他の文書と近似している場合には、両文書は記載対象が同じであるペア文書である可能性が高いと考えられる。したがって、第1の特定部13は、第一文書と第二文書との類似性を用いて、類似性の高い文書の組合せをペア文書として特定してもよい。類似性の判断において、第1の特定部13は、文書から特徴的な単語である特徴語を抽出し、その抽出された特徴語を比較して、文書間の類似に関する情報である類似情報を算出し、その類似情報によって特徴語の類似性が高いことが示される第一文書と第二文書とをペア文書として特定してもよい。なお、第一文書と第二文書では、一般に使用される用語が異なることが多いと考えられる。したがって、いずれかの文書から抽出された特徴語を、相手方の分野の特徴語に変換してから、類似情報の算出を行ってもよい。
(C)創案者名を用いる方法
この方法は、単独で用いられるのではなく、上記の(A),(B)等の方法と一緒に用いられる方法である。第一文書と第二文書とがペア文書であるためには、少なくとも一部の創案者名が一致している必要があるため、第1の特定部13は、第一文書の創案者名と、第二文書の創案者名とを比較し、少なくとも一部の創案者名が一致している(氏名が完全一致している)場合に、その第一文書と第二文書とがペア文書である可能性があると判断し、そうでない場合に、その第一文書と第二文書とがペア文書ではないと判断してもよい。
(D)時期情報を用いる方法
この方法も、単独で用いられるのではなく、上記の(A),(B)等の方法と一緒に用いられる方法である。第一文書と第二文書とがペア文書であるのであれば、両文書は少なくとも同時期に発表や公表、出願等が行われていると考えられるため、第1の特定部13は、第一文書に対応する第一時期情報と、第二文書に対応する第二時期情報とが所定の範囲内であるかどうか判断し、所定の範囲内である場合に、その両文書がペア文書である可能性があると判断し、そうでない場合に、その両文書がペア文書でないと判断してもよい。
なお、本実施の形態では、第1の特定部13は、上記(A),(B),(C),(D)を組み合わせた方法を用いて、ペア文書としての第一文書と第二文書とを特定する場合について説明する。
図2は、本実施の形態による第1の特定部13の構成を示すブロック図である。図2で示されるように、本実施の形態による第1の特定部13は、特定情報抽出手段21と、創案者名判断手段22と、時期判断手段23と、特徴語抽出手段24と、特徴語変換手段25と、類似情報算出手段26と、特定手段27とを備える。
特定情報抽出手段21は、第一文書と第二文書との少なくとも一方に、ペア文書の相手方の文書を特定する情報である特定情報が含まれる場合に、その特定情報を抽出する。特定情報は、例えば、日本国特許法の第30条の新規性を喪失する要因となった発表論文等に関する記載であってもよく、論文における、対応する特許文書を特定する情報であってもよく、その他の記載であってもよい。
特定情報抽出手段21は、例えば、特定情報を抽出するための手がかり語句を用いて、特定情報を抽出してもよい。例えば、特定情報が前述の第30条の新規性を喪失する要因となった発表論文等に関する記載である場合には、その手がかり語句は「特許法第30条第1項適用申請有り」であってもよい。通常、その手がかり語句に続いて、発表論文等に関する記載があるため、特定情報抽出手段21は、その手がかり語句に続く発表論文等に関する記載を特定情報として抽出することができる。なお、特定情報を抽出する方法は、これに限定されるものではない。例えば、特定情報の形式等が決まっている場合には、特定情報抽出手段21は、その形式に関するパターンマッチング等を行うことによって、特定情報を抽出してもよい。なお、その手がかり語句やパターン等は、図示しない記録媒体(例えば、特定情報抽出手段21が有してもよく、他の構成要素が有してもよい)において記憶されていてもよい。
創案者名判断手段22は、第一文書の第二文書との少なくとも一部の創案者名が一致しているかどうか判断する。より具体的には、創案者名判断手段22は、ある第一文書に含まれる1番目の創案者名を読み出し、その創案者名と、ある第二文書に含まれるいずれかの創案者名とが一致するかどうか判断する。この一致は、氏名の完全一致で判断することが好ましい。ただし、一方の文書に名字(ファミリーネーム)のみ、あるいは、名(ファーストネーム)のみしか含まれない場合には、その範囲内での幹線一致で判断してもよい。そして、少なくともいずれかと一致する場合には、第一文書の第二文書との少なくとも一部の創案者名が一致していると判断し、いずれとも一致しない場合には、その第一文書に2番目の創案者名が含まれるのであれば、その創案者名について同様の判断をする。その第一文書に含まれるすべての創案者名に対して、この処理を行い、いずれも一致しなかった場合には、創案者名判断手段22は、その第一文書と、その第二文書とは、いずれの創案者名も一致しないと判断する。
なお、創案者名判断手段22は、特定情報抽出手段21と同様に、第一文書や第二文書に含まれる創案者名を特定するために、手がかり語句(例えば、「発明者」等)を用いた検索や、パターンマッチング等を行ってもよい。また、その手がかり語句やパターン等は、図示しない記録媒体(例えば、創案者名判断手段22が有してもよく、他の構成要素が有してもよい)において記憶されていてもよい。
時期判断手段23は、第一文書に対応する第一時期情報の示す時期と、第二文書に対応する第二時期情報の示す時期とが所定の範囲内であるかどうか判断する。時期とは、例えば、年月日であってもよく、月日であってもよく、年であってもよい。「所定の範囲内」は、第一時期情報の示す時期と、第二文書に対応する第二時期情報の示す時期との間が、例えば、「1年以内」「2年以内」である、といったように、第一時期情報の示す時期と、第二文書に対応する第二時期情報の示す時期とに方向がないように設定されていてもよく、あるいは、第一時期情報の示す時期から、第一時期情報の示す時期から18か月経過した時期までの間に、第二文書に対応する第二時期情報の示す時期が存在する、といったように、第一時期情報の示す時期と、第二文書に対応する第二時期情報の示す時期とに方向があるように設定されていてもよい。後者の場合には、例えば、第一文書が特許文書であって、第一時期情報がその出願日であり、第二文書が論文であって、第二時期情報がその発表日または刊行日であるとして、その第一文書が特許法第30条の適用を受けていないとすると、「所定の範囲内」は、第一時期情報の示す時期から、第一時期情報の示す時期から18か月経過した時期までの間に、第二文書に対応する第二時期情報の示す時期が存在するというものであってもよい。一般には、特許文書が公開されるまでに論文が発表、あるいは刊行されるものだと考えられるからである。なお、第一文書が特許法第30条の適用を受けている場合には、「所定の範囲内」は、第一時期情報の示す時期よりも6か月前の時期から、第一時期情報の示す時期までの間に、第二文書に対応する第二時期情報の示す時期が存在するというものであってもよい。このように、「所定の範囲」は、文書の属性に応じて変化してもよい。文書の属性とは、例えば、文書が特許法第30条の適用を受けているかどうかなどである。なお、所定の範囲内を示す情報は、図示しない記録媒体(例えば、時期判断手段23が有してもよく、他の構成要素が有してもよい)において記憶されていてもよい。
特徴語抽出手段24は、第一文書に含まれる特徴的な単語である特徴語と、第二文書に含まれる特徴的な単語である特徴語とを抽出する。特徴語抽出手段24は、例えば、tfidfやtf、smart等の値の高い用語を特徴語として抽出してもよい。tfidf等については、すでに公知であり、詳細な説明を省略する。ここで、tfidf等の値の高い用語とは、例えば、tfidf等の値の最も高い用語から所定の個数の用語であってもよく、tfidf等の値が所定のしきい値以上である用語であってもよく、あるいは、その組合せであってもよい。その所定のしきい値は、例えば、図示しない記録媒体において記憶されていてもよい。このことは、他のしきい値についても同様であるとする。そして、特徴語抽出手段24は、その記録媒体から所定のしきい値読み出して、特徴語の抽出する処理を行ってもよい。
また、特徴語抽出手段24は、第一文書や第二文書の所定の領域から特徴語の抽出を行ってもよい。例えば、第一文書が特許文書である場合に、特徴語抽出手段24は、第一文書の「発明の名称」「発明の効果」「課題を解決するための手段」等の項目に対して形態素解析を行い、形態素解析の結果から「する」「なる」「ある」を除いた「代名詞」「非自立語」「数」「接尾語」「接頭語」以外の「名詞」「動詞」「形容詞」「未知語」のうち、上述のtfidf等の値の高いものを特徴語として抽出してもよい。また、例えば、第二文書が論文である場合に、特徴語抽出手段24は、第二文書の「タイトル」「概要(アブストラクト)」等の項目に対して形態素解析を行い、形態素解析の結果から「する」「なる」「ある」を除いた「代名詞」「非自立語」「数」「接尾語」「接頭語」以外の「名詞」「動詞」「形容詞」「未知語」のうち、上述のtfidf等の値の高いものを特徴語として抽出してもよい。
また、特徴語抽出手段24は、特徴語の抽出と共に、その特徴語に対応する頻度も抽出してもよい。頻度は、例えば、その特徴語が文書に出現する回数であってもよく、あるいは、その特徴語が文書に出現する回数を文書の単語数で割ったものであってもよい。この頻度は、例えば、文書の全体に関する頻度であってもよく、あるいは、文書の所定の領域に関する頻度であってもよい。
特徴語変換手段25は、第一文書から抽出された特徴語、または第二文書から抽出された特徴語を、相手方の分野の特徴語に変換する。本実施の形態では、特徴語変換手段25は、第二文書から抽出された特徴語を、第一の分野の特徴語に変換する場合について説明する。本実施の形態では、第一文書が特許文書であり、第二文書が論文であるとしているので、特徴語変換手段25は、論文用語を特許用語に変換することになる。なお、特徴語変換手段25は、その変換を、例えば、文書から抽出された特徴語を、その特徴語に対応する相手方の分野の特徴語に置換することによって行ってもよく、あるいは、文書から抽出された特徴語に、その特徴語に対応する相手方の分野の特徴語を追加することによって行ってもよい。
次に、その変換方法のいくつかの例について説明する。
(a)上位語に変換する方法
一般に、特許文書では、権利範囲等を限定されないように、より一般的な用語、すなわち上位概念の用語を使用する傾向がある。したがって、第二文書から抽出された用語を上位語に変換することによって、論文用語から特許用語への変換を行うことができうる。例えば、特徴語変換手段25は、上位語と下位語とを対応付ける辞書である上位下位シソーラスを有しており、その上位下位シソーラスを用いて、第二文書から抽出された特徴語で下位語を検索し、その検索された下位語に対応する上位語に、第二文書から抽出された特徴語を変換してもよい。
なお、上位下位シソーラスを作成する方法は問わない。人手によって作成してもよく、あるいは、コンピュータ等による自然言語処理を行うことによって作成してもよい。
後者の場合には、例えば、コーパスから「AなどのB」「A等のB」「AのようなB」「AといったB」という表現を含む文を抽出し、単語Aを下位概念の単語とし、単語Bを上位概念の単語として対応付けることによって上位下位シソーラスを作成してもよい。例えば、「フロッピー(登録商標)ディスクなどの情報記録媒体」という表現から上位概念の単語「情報記録媒体」と、下位概念の単語「フロッピー(登録商標)ディスク」とを抽出することができる。
ここで、このままでは、上位概念の単語が大量に存在してしまうことになるため、2段階以上の上位概念の単語を上位下位シソーラスから削除してもよい。例えば、上位語「情報記録媒体」に、下位語「磁気記録媒体」と、下位語「フロッピー(登録商標)ディスク」とが対応付けられており、さらに、上位語「磁気記録媒体」に、下位語「フロッピー(登録商標)ディスク」が対応付けられていたとする。すると、下位語「フロッピー(登録商標)ディスク」から見て、上位語「情報記録媒体」は、上位語「磁気記録媒体」のさらに上位語となり、2段階以上の上位語となるため、上位語「情報記録媒体」と、下位語「フロッピー(登録商標)ディスク」との対応を上位下位シソーラスから削除してもよい。
(b)関連用語に変換する方法
論文で用いられている用語を、特許文書で用いられている用語に変換する方法は、すでに開発されている(次の文献、及び特許文献を参照)。そのような方法を用いて、特徴語変換手段25は、論文の用語を、特許文書の用語に変換してもよい。
文献:釜屋英昭,難波英嗣,相沢輝昭,新森昭宏,奥村学、「特許,論文間の引用関係を用いた論文用語の特許用語への変換」、言語処理学会 第12回年次大会,pp.779−782、2006年
特許文献:特開2007−004240号公報
ここで、論文の用語を特許文書の用語に変換する方法について、簡単に説明する。まず、図示しない記録媒体において、多数の論文、及び多数の特許文書が記憶されているものとする。なお、これらの文書として、第一文書記憶部11及び第二文書記憶部12で記憶されている文書を用いてもよい。特徴語変換手段25は、第二文書から抽出された特徴語を検索キーとして、その記録媒体で記憶されている論文を検索する。この検索の際に、論文の所定の領域(例えば、タイトルなど)のみを検索してもよい。そして、ヒットした論文から、引用情報を抽出する。引用情報については、実施の形態2において詳述しているため、ここでの説明は省略する。特徴語変換手段25は、その抽出した引用情報を用いて、引用形式を判断し、タイプCの引用形式で引用されている特許文書を図示しない記録媒体から取得する。なお、この取得の際に、特許文書のうち、所定の領域(例えば、特許請求の範囲や、特許請求の範囲に記載されている独立形式の請求項、発明の名称など)のみを取得してもよい。引用形式や、タイプC等についても、実施の形態2において詳述しているため、ここでの説明は省略する。そして、特徴語変換手段25は、その取得した特許文書の全部または一部から、関連用語を取得する。
関連用語の取得は、例えば、次のようにして行われてもよい。まず、特許文書の全部または一部から、関連用語の候補を取得する。この関連用語の候補は、例えば、その特許文書の全部または一部に含まれる単名詞や複合名詞であってもよく、その特許文書の全部または一部に含まれる専門用語であってもよい。
ここで、専門用語を示す情報を取得する方法について説明する。まず特許文書の全部または一部から、単名詞や複合名詞を示す情報を抽出する。そして、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を示す情報を関連用語の候補として取得する。ここで、スコアを付与する方法して、複数の種類が知られている。
(造語能力に基づくスコア付け)
造語能力とは、単名詞の複合語の構成しやすさを示す尺度である。その造語能力の高い名詞を含む単名詞等を示す情報には、高いスコアが付与される。ここで、造語能力を示す指標として連接頻度を用いてもよい。連接頻度とは、ある語に連接する語の異なり数の多さのことであり、ある語の直前または直後に現れる語の種類の多さのことである。すなわち、連接頻度とは、その語がいかに多くの複合名詞に含まれやすいか、換言すれば、いかに複合名詞を構成しやすいかを示す尺度である。このようにして、造語能力に基づいて各単名詞等にスコアを与えることができる。なお、複合名詞においては、構成要素である単名詞のスコアの相乗平均を複合名詞のスコアとして与えてもよい。
(出現頻度に基づくスコア付け)
注目している単名詞等をtとする。また、そのtの構成語数をnとする。その場合に、tに対応するスコアを次のように算出する。
tのスコア=(tの出現頻度)/(語数をnとする単名詞等の平均出現頻度)
ここで、上記式中の「単名詞等」とは、専門用語の候補として抽出された単名詞等である。ここで、tの出現頻度、及び語数をnとする単名詞等の平均出現頻度は特徴語変換手段25が取得した特許文書の全部または一部において算出される。なお、tのスコアとして、単に「tの出現頻度」を用いてもよい。
また、上記説明以外の方法を用いて、スコア付けを行ってもよく、また、上記説明以外の方法を用いて、専門用語を示す情報を関連用語の候補として取得してもよい。専門用語を示す情報を関連用語の候補として取得する方法については、次の複数の文献において開示されており、従来から知られているため、その詳細な説明を省略する。
文献:佐藤理史、他1名,「ウェブを利用した関連用語の自動収集」、情報処理学会研究報告 自然言語処理,NL−153、p.57−64、2003年
文献:白井清昭、他3名、「ポータルサイト自動作成の試み」、言語処理学会第10回年次大会、p.624−627、2004年
文献:Hiroshi Nakagawa、「Automatic Term Recognition based on Statistics of Compound Nouns」、Terminology、Vol.6、No.2、p.195−210、2000
文献:大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126
文献:中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月
なお、特徴語変換手段25は、頻出する一般的な名詞等を示す情報を、関連用語の候補から除外してもよい。例えば、特徴語変換手段25は、除外すべき名詞等を示す情報を1以上、図示しない記録媒体において保持しておき、関連用語の候補として取得した情報に、除外すべき名詞等を示す情報のいずれかが含まれる場合には、その情報を関連用語の候補から除外してもよい。除外すべき名詞等は、例えば、方法、記載、発行、文献等である。
次に、特徴語変換手段25は、各関連用語の候補について、関連度を算出する。ここで、関連度の算出方法について説明する。特徴語変換手段25は、関連用語の候補の関連度を、その関連用語の候補が、取得した特許文書の全部または一部に出現する頻度としてもよい。また、特徴語変換手段25は、各関連用語の候補について、前述の専門用語である可能性を示すスコア、例えば、造語能力に基づくスコア、出現頻度に基づくスコア、あるいは連接頻度に基づくスコアを算出し、そのスコアを関連度としてもよい。また、その他の方法によって関連度を算出してもよい。
最後に、特徴語変換手段25は、高い関連度を有する関連用語の候補を関連用語に決定する。例えば、特徴語変換手段25は、最も高い関連度を有する関連用語の候補を関連用語に決定してもよい。そして、特徴語変換手段25は、特徴語抽出手段24が抽出した特徴語を、その特徴語に関連する関連用語に変換する。このように、特徴語抽出手段24が抽出した特徴語を、その特徴語に関連する関連用語に変換することによって、第二の分野における特徴語を、第一の分野における特徴語に変換することができる。この変換は、その特徴語を関連用語に置換することであってもよく、特徴語抽出手段24が抽出した特徴語に、関連用語を追加することであってもよい。
類似情報算出手段26は、特徴語抽出手段24が抽出した第一文書に含まれる特徴語と、第二文書に含まれる特徴語とを比較し、両文書の類似に関する情報である類似情報を算出する。なお、類似情報算出手段26は、特徴語変換手段25によって変換された特徴語を用いて類似情報の算出を行う。この類似情報は、両文書の類似性を判断することができる情報であれば、その内容を問わない。例えば、類似情報の示す値が高いほど、両文書の類似性が高くてもよく、あるいは、類似情報の示す値が低いほど、両文書の類似性が高くてもよい。なお、類似情報算出手段26は、特徴語の類似性を見ることによって、両文書の類似性に関する類似情報を算出するものである。
類似情報は、例えば、各文書から抽出される特徴語が同数である場合に、その特徴語の一致する個数であってもよい。また、類似情報は、例えば、各文書から抽出された特徴語の一致する割合であってもよい。また、類似情報は、例えば、各文書から特徴語と共に、その特徴語に対応する頻度も抽出される場合に、第一文書と第二文書とから抽出された特徴語(特徴語変換手段25による変換が適宜なされていてもよい)に対応する頻度のベクトルに対して算出されたコサイン距離であってもよい。コサイン距離については、すでに公知であり、その説明を省略する。
特定手段27は、特定情報抽出手段21が抽出した特定情報を含む文書と、その特定情報で特定される文書とをペア文書として特定する。また、特定手段27は、類似情報算出手段26が算出した類似情報によって類似性の高いことが示される第一文書と第二文書とであって、創案者名判断手段22による判断の結果、両文書にそれぞれ対応している少なくとも一部の創案者名が一致している第一文書と第二文書とをペア文書として特定する。ここで、「類似性の高い」とは、他の文書の組合せに比べて、相対的に類似性が高いことであってもよく、さらに、所定のしきい値以上であることが付加的な条件として課されてもよい。なお、一般的には、ある第一文書とペア文書となる第二文書は、1個であると考えられるが、そうでなくてもよい。第二文書についても同様である。なお、本実施の形態では、ある第一文書とペア文書となる第二文書は1個であり、かつ、ある第二文書とペア文書となる第一文書は1個である場合について説明する。
また、特定手段27は、時期判断手段23によって第一時期情報の示す時期と第二時期情報の示す時期とが所定の範囲内でないと判断された第一文書と第二文書とをペア文書として特定しないものとする。なお、時期判断手段23によって第一時期情報の示す時期と第二時期情報の示す時期とが所定の範囲内であると判断された第一文書と第二文書とは、その他の条件を満たす場合に、ペア文書として特定されうることになる。
なお、第一文書と第二文書とを特定するとは、例えば、その第一文書を識別する情報と、その第二文書を識別する情報とを対応付けて所定の記録媒体に蓄積することであってもよく、その第一文書と、その第二文書とに対して、互いに対応していることを示す情報を設定することであってもよく、第一文書と第二文書とを特定する方法は問わない。
図1に戻り、分類付与部14は、第1の特定部13が特定した第一文書と第二文書とのうち、その特定された第二文書に対して、その特定された第一文書に対応付けられている分類情報を付与する。ここで、「分類情報を付与する」とは、例えば、その分類情報を第二文書に対応付けて第二文書記憶部12に蓄積することであってもよく、あるいは、その分類情報と、その第二文書とを紐付けることであってもよい。後者の場合には、例えば、分類付与部14は、分類情報と、第二文書とを紐付ける情報を別途、所定の記録媒体に蓄積してもよい。本実施の形態では、分類付与部14は、分類情報を第二文書に対応付けて第二文書記憶部12に蓄積するものとする。
第2の特定部15は、互いに類似する複数の第二文書を特定する。本実施の形態では、第2の特定部15は、複数の第二文書の類似性を用いて、類似性の高い文書の組合せを互いに類似する複数の第二文書として特定するものとする。なお、後述するように、互いに類似する複数の第二文書のうち、拡張分類付与部16における処理が行われるのは、その互いに類似する複数の第二文書の少なくともいずれかに分類情報が付与されている場合である。したがって、第2の特定部15は、少なくともいずれかに分類情報が付与されている互いに類似する複数の第二文書を特定するようにしてもよい。また、第2の特定部15が、互いに引用関係にある複数の第二文書を、互いに類似する複数の第二文書として特定する場合については、実施の形態2において後述する。
図3は、本実施の形態による第2の特定部15の構成を示すブロック図である。図3において、本実施の形態による第2の特定部15は、第2の特徴語抽出手段31と、第2の類似情報算出手段32と、第2の特定手段33とを備える。
第2の特徴語抽出手段31は、第二文書に含まれる特徴的な単語である特徴語を抽出する。第2の特徴語抽出手段31は、第二文書のみから特徴語を抽出する以外、特徴語抽出手段24と同様のものであり、その詳細な説明を省略する。
第2の類似情報算出手段32は、第2の特徴語抽出手段31が抽出した、複数の第二文書に含まれる特徴語を比較し、その複数の第二文書の類似に関する情報である類似情報を算出する。第2の類似情報算出手段32は、第2の特徴語抽出手段31が抽出した特徴語を用いて類似情報を算出する以外、類似情報算出手段26と同様のものであり、その詳細な説明を省略する。
第2の特定手段33は、第2の類似情報算出手段32が算出した類似情報によって類似性の高いことが示される複数の第二文書を、互いに類似する複数の第二文書として特定する。第2の特定手段33は、第2の類似情報算出手段32が算出した類似情報のみを用いて互いに類似する複数の第二文書を特定する以外、特定手段27と同様のものであり、その詳細な説明を省略する。ここで、第2の特定手段33が特定する複数の第二文書は、2個の第二文書であってもよく、あるいは、3個以上の第二文書であってもよい。
なお、第2の特定部15では、第二文書に関してのみ類似性を判断しているため、第1の特定部13のように、特徴語変換手段25を備えていなくてもよい。
図1に戻り、拡張分類付与部16は、第2の特定部15が特定した互いに類似する複数の第二文書のうち、いずれかの第二文書に分類付与部14によって分類情報が付与されている場合に、その分類情報が付与されている第二文書と類似する1以上の第二文書に対して、その分類情報を付与する。「分類情報の付与」については、分類付与部14における説明と同様であるとする。
次に、本実施の形態による情報処理装置1の動作につて、図4のフローチャートを用いて説明する。
(ステップS101)分類付与部14は、第二文書に分類情報を付与する処理を開始するかどうか判断する。そして、開始する場合には、ステップS102に進み、そうでない場合には、ステップS103に進む。なお、分類付与部14は、例えば、分類情報を付与する処理を開始する旨のユーザからの指示が情報処理装置1で受け付けられたタイミングで、分類情報を付与する処理を開始すると判断してもよく、あるいは、その他のタイミングで分類情報を付与する処理を開始すると判断してもよい。
(ステップS102)第1の特定部13と、分類付与部14とは、分類情報を付与するための処理を実行する。この処理の詳細については、図5のフローチャートを用いて後述する。そして、ステップS101に戻る。
(ステップS103)拡張分類付与部16は、第二文書における分類情報を拡張して付与する処理を開始するかどうか判断する。そして、開始する場合には、ステップS104に進み、そうでない場合には、ステップS101に戻る。なお、拡張分類付与部16は、例えば、第二文書における分類情報を拡張して付与する処理を開始する旨のユーザからの指示が情報処理装置1で受け付けられたタイミングで、分類情報を拡張して付与する処理を開始すると判断してもよく、あるいは、その他のタイミングで分類情報を拡張して付与する処理を開始すると判断してもよい。
(ステップS104)第2の特定部15と、拡張分類付与部16とは、第二文書における分類情報を拡張して付与する処理を実行する。この処理の詳細については、図9のフローチャートを用いて後述する。そして、ステップS101に戻る。
なお、図4のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
図5は、図4のフローチャートにおけるステップS102の処理の詳細を示すフローチャートである。
(ステップS201)第1の特定部13の特定手段27は、カウンタiを1に設定する。
(ステップS202)特定手段27等は、i番目の第一文書に対応する第二文書が存在するかどうか判断する。この処理の詳細については、図6のフローチャートを用いて後述する。そして、i番目の第一文書に対応する第二文書が存在する場合には、ステップS203に進み、そうでない場合には、ステップS204に進む。
(ステップS203)特定手段27は、i番目の第一文書と、そのi番目の第一文書に対応する第二文書とを、ペア文書として特定する。
(ステップS204)特定手段27は、カウンタiを1だけインクリメントする。
(ステップS205)特定手段27は、第一文書記憶部11にi番目の第一文書が存在するかどうか判断する。そして、存在する場合には、ステップS202に戻り、そうでない場合には、ステップS206に進む。
(ステップS206)特定手段27は、カウンタiを1に設定する。
(ステップS207)特定手段27等は、i番目の第二文書に対応する第一文書が存在するかどうか判断する。この処理の詳細については、図7のフローチャートを用いて後述する。そして、i番目の第二文書に対応する第一文書が存在する場合には、ステップS208に進み、そうでない場合には、ステップS210に進む。
(ステップS208)特定手段27は、i番目の第二文書と、そのi番目の第二文書に対応する第一文書とが、ペア文書としてまだ特定されていないかどうか判断する。そして、まだ特定されていない場合には、ステップS209に進み、すでに特定されている場合には、ステップS210に進む。
(ステップS209)特定手段27は、i番目の第二文書と、そのi番目の第二文書に対応する第一文書とを、ペア文書として特定する。
(ステップS210)特定手段27は、カウンタiを1だけインクリメントする。
(ステップS211)特定手段27は、第二文書記憶部12にi番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップS207に戻り、そうでない場合には、ステップS212に進む。
(ステップS212)分類付与部14は、特定手段27による特定結果に応じて、第二文書に分類情報を付与する。この処理の詳細については、図8のフローチャートを用いて後述する。そして、図4のフローチャートに戻る。
図6は、図5のフローチャートにおけるステップS202の処理の詳細を示すフローチャートである。
(ステップS301)特定情報抽出手段21は、第一文書記憶部11で記憶されているi番目の第一文書に特定情報が存在するかどうか判断する。そして、存在する場合には、ステップS302に進み、そうでない場合には、ステップS304に進む。
(ステップS302)特定情報抽出手段21は、その特定情報を第一文書から抽出する。
(ステップS303)特定情報抽出手段21は、その抽出した特定情報によって第二文書記憶部12で記憶されているいずれかの第二文書が特定されているかどうか判断する。特定情報抽出手段21は、例えば、その特定情報によって第二文書記憶部12を検索し、その検索によってヒットする第二文書がある場合に、その特定情報によって第二文書が特定されていると判断してもよい。そして、特定情報によって第二文書が特定されている場合には、図5のフローチャートのステップS203に進み、そうでない場合には、ステップS304に進む。なお、ステップS203に進んだ場合には、特定手段27は、特定情報抽出手段21が抽出した特定情報の含まれているi番目の第一文書と、その抽出した特定情報で特定される第二文書とをペア文書として特定することになる。
(ステップS304)特定手段27は、カウンタjを1に設定する。
(ステップS305)創案者名判断手段22は、i番目の第一文書と、j番目の第二文書との少なくとも一部の創案者名が一致するかどうか判断する。そして、少なくとも一部の創案者名が一致する場合には、ステップS306に進み、そうでない場合には、ステップS312に進む。
(ステップS306)時期判断手段23は、i番目の第一文書に対応する第一時期情報の示す時期と、j番目の第二文書に対応する第二時期情報の示す時期とが所定の範囲内であるかどうか判断する。そして、所定の範囲内である場合には、ステップS307に進み、そうでない場合には、ステップS312に進む。
(ステップS307)特徴語抽出手段24は、i番目の第一文書と、j番目の第二文書とからそれぞれ特徴語を抽出する。
(ステップS308)特徴語変換手段25は、特徴語抽出手段24がj番目の第二文書から抽出した特徴語を、第一の分野の特徴語に変換する。
(ステップS309)類似情報算出手段26は、特徴語抽出手段24が抽出した特徴語と、特徴語変換手段25が変換した特徴語とを用いて、i番目の第一文書と、j番目の第二文書との類似に関する情報である類似情報を算出する。
(ステップS310)特定手段27は、それまでに算出された類似情報のうち、類似情報の示す類似性が最も高い類似情報のみを所定の記録媒体において一時記憶しているものとする。そして、ステップS309で新たに算出された類似情報の方が、その所定の記録媒体で一時記憶されている類似情報よりも類似性が高いかどうか判断する。そして、ステップS309で新たに算出された類似情報の方が、類似性が高い場合には、ステップS311に進み、そうでない場合には、ステップS312に進む。なお、その所定の記録媒体にまだ類似情報が記憶されていない場合には、特定手段27は、ステップS309で新たに算出された類似情報の方が、類似性が高いと判断するものとする。
(ステップS311)特定手段27は、ステップS309で新たに算出された類似情報を、所定の記録媒体に上書きで蓄積する。なお、特定手段27は、その時点でのカウンタjの値を、その類似情報に対応付けて上書きで蓄積するものとする。
(ステップS312)特定手段27は、カウンタjを1だけインクリメントする。
(ステップS313)特定手段27は、第二文書記憶部12にj番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップS305に戻り、そうでない場合には、ステップS314に進む。
(ステップS314)特定手段27は、所定の記録媒体で一時的に記憶されている類似情報の示す類似性が、所定のしきい値以上かどうか判断する。そして、所定のしきい値以上である場合には、図5のフローチャートのステップS203に進み、そうでない場合には、図5のフローチャートのステップS204に進む。なお、ステップS203に進んだ場合には、特定手段27は、i番目の第一文書と、k番目の第二文書とをペア文書として特定することになる。ここで、kは、図示しない記録媒体で一時的に記憶されている類似情報に対応するカウントjの値である。このステップS314の判断を行うことによって、たとえ、ある第二文書がi番目の第一文書と最も高い類似性を有していたとしても、その類似性が、両文書がペア文書であると考えられるほど高くない場合に、両文書をペア文書として特定することを回避することができる。したがって、類似情報の示す類似性が所定のしきい値以上である場合に、両文書がペア文書と判断されてもよいように、この所定のしきい値が適切に設定されていることが好適である。
図7は、図5のフローチャートにおけるステップS207の処理の詳細を示すフローチャートである。このステップS207では、第二文書に対応する第一文書が存在するかどうかを、第二文書に含まれる特定情報のみを用いて判断し、類似情報の算出等は行わない。類似情報による第一文書と第二文書との対応は、ステップS202ですでに確認済だからである。
(ステップS401)特定情報抽出手段21は、第二文書記憶部12で記憶されているi番目の第二文書に特定情報が存在するかどうか判断する。そして、存在する場合には、ステップS402に進み、そうでない場合には、図5のフローチャートのステップS210に進む。
(ステップS402)特定情報抽出手段21は、その特定情報を第二文書から抽出する。
(ステップS403)特定情報抽出手段21は、その抽出した特定情報によって第一文書記憶部11で記憶されているいずれかの第一文書が特定されているかどうか判断する。特定情報抽出手段21は、例えば、その特定情報によって第一文書記憶部11を検索し、その検索によってヒットする第一文書がある場合に、その特定情報によって第一文書が特定されていると判断してもよい。そして、特定情報によって第一文書が特定されている場合には、図5のフローチャートのステップS208に進み、そうでない場合には、図5のフローチャートのステップS210に進む。なお、ステップS208に進み、その後ステップS209に進んだ場合には、特定手段27は、特定情報抽出手段21が抽出した特定情報の含まれているi番目の第二文書と、その抽出した特定情報で特定される第一文書とをペア文書として特定することになる。
なお、図6のフローチャートにおいて、ステップS302で特定情報が抽出され、その抽出された特定情報によって第二文書が特定される場合であっても、ステップS305〜S309と同様の処理を行い、特定情報が含まれる第一文書と、その特定情報で特定される第二文書とについて、少なくとも一部の創案者名が一致し、両文書に対応する時期情報の示す時期が所定の範囲内であり、両文書から抽出された特徴語を用いた類似情報によって、両文書が所定のしきい値以上の類似性を有することが示される場合に、その両文書がペア文書として特定されるようにしてもよい。この場合に、創案者名の判断、時期情報の判断、類似性の判断のすべてを行わなくてもよい。特定情報によって、両文書がペア文書である可能性が非常に高いことがわかっているため、一部の処理、例えば、創案者名の判断処理のみを行うようにしてもよい。このような処理を行うことによって、例えば、特定情報に誤記があり、第一文書のペアとなる第二文書が適切に特定されていない場合などにおいて、不適切なペア文書の特定を行うことを回避することができうる。また、図7のフローチャートについても同様である。
また、特定情報によって、ペア文書の相手方の文書を唯一に特定していない場合には、特定情報のみによってペア文書を特定することはできないため、特定情報による相手方の文書を絞り込み、さらに、創案者名の判断や、類似性の判断等を行うことによって、ペア文書の特定を行ってもよい。
図8は、図5のフローチャートにおけるステップS212の処理の詳細を示すフローチャートである。
(ステップS501)分類付与部14は、カウンタiを1に設定する。
(ステップS502)分類付与部14は、第1の特定部13によってi番目に特定された第一文書に対応する分類情報を第一文書記憶部11から取得する。
(ステップS503)分類付与部14は、第1の特定部13によってi番目に特定された第二文書に、ステップS502で取得した分類情報を付与する。具体的には、分類付与部14は、第二文書記憶部12において、その第二文書に対応付けて、ステップS502で取得した分類情報を蓄積する。
(ステップS504)分類付与部14は、カウンタiを1だけインクリメントする。
(ステップS505)分類付与部14は、第1の特定部13によって、i番目に特定された第一文書と第二文書とが存在するかどうか判断する。そして、存在する場合には、ステップS502に戻り、そうでない場合には、図5のフローチャートに戻る。
図9は、図4のフローチャートにおけるステップS104の処理の詳細を示すフローチャートである。
(ステップS601)第2の特定部15の第2の特定手段33は、カウンタiを1に設定し、カウンタjを2に設定する。
(ステップS602)第2の特定手段33は、i番目の第二文書と、j番目の第二文書との少なくとも一方に分類付与部14によって付与された分類情報が存在するかどうか判断する。そして、存在する場合には、ステップS603に進み、そうでない場合には、ステップS607に進む。
(ステップS603)第2の特徴語抽出手段31は、i番目の第二文書と、j番目の第二文書とからそれぞれ特徴語を抽出する。
(ステップS604)第2の類似情報算出手段32は、ステップS603で抽出された特徴語を用いて、類似情報を算出する。
(ステップS605)第2の特定手段33は、第2の類似情報算出手段32によって算出された類似情報が、所定のしきい値以上の類似性を示すかどうか判断する。そして、所定のしきい値以上の類似性を示す場合には、ステップS606に進み、そうでない場合には、ステップS607に進む。2個の第二文書の類似情報の示す類似性が所定のしきい値以上である場合に、両文書が同じ分類に属すると判断されるように、この所定のしきい値が適切に設定されていることが好適である。
(ステップS606)拡張分類付与部16は、i番目の第二文書と、j番目の第二文書とに関して、分類付与部14によって付与された分類情報を、他方の第二文書に付与する。例えば、一方の第二文書にのみ分類付与部14によって分類情報が付与されている場合には、拡張分類付与部16は、その分類情報を他方の第二文書に付与する。例えば、両方の第二文書に分類付与部14によって分類情報が付与されている場合には、拡張分類付与部16は、各分類情報を、それぞれ他方の第二文書に付与する。分類情報を付与するとは、具体的には、第二文書記憶部12において、第二文書に対応付けて分類情報を蓄積することである。なお、ここでの分類情報の付与において、分類付与部14、または拡張分類付与部16がすでに付与した分類情報と同じ分類情報を付与しないようにしてもよい。分類情報の重複を避けるためである。
(ステップS607)第2の特定手段33は、カウンタjを1だけインクリメントする。
(ステップS608)第2の特定手段33は、第二文書記憶部12にj番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップS602に戻り、そうでない場合には、ステップS609に進む。
(ステップS609)第2の特定手段33は、カウンタiを1だけインクリメントする。
(ステップS610)第2の特定手段33は、第二文書記憶部12にi番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップS611に進み、そうでない場合には、図1のフローチャートに戻る。
(ステップS611)第2の特定手段33は、カウンタjを「i+1」に設定する。
(ステップS612)第2の特定手段33は、第二文書記憶部12にj番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップS602に戻り、そうでない場合には、図1のフローチャートに戻る。
なお、図9のフローチャートのステップS602では、i番目の第二文書と、j番目の第二文書との少なくとも一方に分類付与部14によって付与された分類情報が存在するかどうかを判断すると説明したが、ステップS602において、i番目の第二文書と、j番目の第二文書との少なくとも一方に分類付与部14、または拡張分類付与部16によって付与された分類情報が存在するかどうか判断してもよい。
また、図9のフローチャートにおいて、カウンタiの値は、基本的にカウンタjの値よりも小さい値に管理されているため、何らかのエラーが発生しない限り、ステップS610において、Noと判断されることはない。したがって、ステップS610の処理を行わず、ステップS609からステップS611に進むようにしてもよい。
次に、本実施の形態による情報処理装置1の動作について、具体例を用いて説明する。
この具体例において、情報処理装置1は、PC(Personal Computer)であるとする。そして、そのハードディスクに、第一文書や第二文書等が記憶されることによって、第一文書記憶部11や、第二文書記憶部12が構成されているものとする。また、この具体例において、時期判断手段23が用いる「所定の範囲内」は、「1年以内」であるとする。
また、この具体例において、第一文書記憶部11では、図10で示されるように、第一文書と、分類情報と、第一時期情報とが対応付けられて記憶されているものとする。第一文書「FD001」等は、第一文書を識別する情報であるとする。「FD001」等で識別される第一文書は、例えば、図11で示されるものであって、第一文書記憶部11において別途記憶されているものとする。第一文書は、前述のように、特許文書であるとする。この第一文書は、例えば、公開特許公報であってもよい。「FD001」で識別される第一文書を、第一文書「FD001」と呼ぶこともある。他の文書に関しても同様である。分類情報は、その分類情報に対応する第一文書に対応するIPCである。ここでは、説明の便宜上、1個のIPCのみを記載しているが、分類情報には、2以上のIPCが含まれていてもよい。第一時期情報は、その第一時期情報に対応する第一文書の出願日であるとする。なお、第一文書が公開特許公報である場合には、分類情報や、第一時期情報は第一文書に含まれうることとなるが、その場合にも、図10で示されるように分類情報等を別途、重複して保持するようにしてもよく、あるいは、公開特許公報におけるIPCが分類情報であり、出願日が第一時期情報であり、それ以外の情報が第一文書であると考えてもよい。
また、この具体例において、第二文書記憶部12では、図12で示されるように、第二文書と、分類情報と、第二時期情報とが対応付けられて記憶されているものとする。第二文書「SD001」等は、第二文書を識別する情報であるとする。「SD002」で識別される第二文書は、例えば、図13で示されるものであって、第二文書記憶部12において別途記憶されているものとする。第二文書は、前述のように、論文であるとする。図12では、第二文書に分類情報が対応付けられているが、この分類情報は、分類付与部14や拡張分類付与部16によって付与される。したがって、分類情報を付与する処理の開始される前においては、図12で示されるように、分類情報が含まれないことになる。第二時期情報は、その第二時期情報に対応する第二文書の発表日、公表日、または刊行日である。なお、第二文書記憶部12では、図12で示される情報以外に、第二文書の書誌情報(例えば、第二文書の発表された媒体名や、その媒体を管理している学会名、第二文書のページの範囲等)が第二文書に対応付けられていてもよい。
まず、ユーザがキーボードやマウス等の入力デバイスを操作することによって、分類付与を開始する旨の指示を情報処理装置1に入力したとする。すると、分類付与部14は、第二文書に分類情報を付与するタイミングであると判断し(ステップS101)、第1の特定部13、及び分類付与部14による分類付与の処理が開始される(ステップS102)。
その分類付与の処理において、まず、第1の特定部13の特定手段27等は、図10で示される1番目の第一文書「FD001」に対応する第二文書が存在するかどうか判断する(ステップS201,S202)。より詳細には、特定情報抽出手段21は、手がかり語句「特許法第30条第1項適用申請有り」を図示しない記録媒体から読み出し、1番目の第一文書「FD001」において、その手がかり語句を用いた検索を行うことによって特定情報が存在するかどうか判断する(ステップS301)。この場合には、図11で示されるように、第一文書「FD001」にその手がかり語句が含まれるため、第一文書に特定情報があると判断され、特定情報抽出手段21は、その手がかり語句に続く特定情報『2005年10月5日 XYZ学会発行の「論文集A」の「XXXに関する一考察」』を抽出する(ステップS302)。そして、特定情報抽出手段21は、その抽出した特定情報によって第二文書記憶部12で記憶されている第二文書を検索し、ヒットする第二文書が存在するかどうか判断する。この場合には、図13で示されるように、第二文書「SD002」が、その特定情報に対応する第二文書である。したがって、その検索に対して、第二文書「SD002」がヒットするため、特定情報抽出手段21は、特定情報によって第二文書が特定されていると判断する(ステップS303)。そして、特定情報抽出手段21は、その抽出した特定情報を、特定手段27に渡す。
特定手段27は、特定情報抽出手段21から受け取ったと特定情報で特定される第二文書「SD002」と、1番目の第一文書「FD001」とを、互いに対応するペア文書として特定する(ステップS203)。具体的には、特定手段27は、互いに対応するペア文書である第一文書を識別する情報「FD001」と、第二文書を識別する情報「SD002」とを対応付けて有する情報である対応情報を図示しない記録媒体に蓄積する。図14で示される対応情報の1番目のレコードは、そのようにして蓄積されたものである。
次に、特定手段27等は、図10で示される2番目の第一文書「FD002」に対応する第二文書が存在するかどうか判断する(ステップS204,S205,S202)。より詳細には、特定情報抽出手段21は、2番目の第一文書「FD002」において、前述の手がかり語句を用いた検索を行うことによって特定情報が存在するかどうか判断する(ステップS301)。この場合には、第一文書「FD002」に、その手がかり語句が含まれなかったとする。
すると、創案者名判断手段22は、第一文書「FD002」から創案者名を読み出し、また、1番目の第二文書「SD001」からも創案者名を読み出し、両文書の少なくとも一部の創案者名が一致するかどうか判断する(ステップS304,S305)。この場合には、すべての創案者名が一致したとする。すると、時期判断手段23は、第一文書「FD002」に対応する第一時期情報「2005年11月11日」と、1番目の第二文書「SD001」に対応する第二時期情報「2005年12月20日」とをそれぞれ読み出し、両者が所定の範囲内、すなわち、1年以内かどうか判断する(ステップS306)。この場合には、1年以内であるため、特徴語抽出手段24は、第一文書「FD002」と、第二文書「SD001」とのそれぞれから特徴語と、その特徴語に対応する頻度とを抽出する(ステップS307)。図15は、第二文書「SD001」から抽出された特徴語と、頻度とを示す図である。図15における頻度は、一文書に含まれる単語の個数であるとする。特徴語変換手段25は、図15で示される特徴語の上位語を追加することによって特徴語の変換を行う(ステップS308)。具体的には、特徴語変換手段25は、図示しない記録媒体で記憶されている図16で示される上位下位シソーラスにアクセスし、第二文書から抽出された特徴語に対応する上位語を、頻度の高い順に5個読み出してくる。図16における頻度は、上位下位シソーラスの作成時に用いた文書の集合において上位語と下位語とが対応していた数であるとする。ここでは、「情報処理装置」「文書処理装置」「文書作成装置」「情報機器」「計算装置」が読み出される。特徴語変換手段25は、下位語である「ワードプロセッサ」の頻度「20」に0.8を掛けた頻度「16」を、それらの上位下位シソーラスから読み出した上位語に対応付けて特徴語に追加する。図17は、そのようにして「ワードプロセッサ」の上位語である「情報処理装置」等が追加された第二文書の特徴語の一覧を示す図である。
その後、類似情報算出手段26は、第一文書から抽出された特徴語と、第二文書から抽出され、特徴語変換手段25による変換の行われた特徴語とを用いて、類似情報を算出する(ステップS309)。この具体例では、類似情報算出手段26は、各特徴語に対応する頻度を用いて、コサイン距離を求め、その値を特定手段27に渡す。なお、コサイン距離は、その値が大きいほど、類似性が大きいことになる。
特定手段27は、そのコサイン距離の値を図示しない記録媒体に蓄積する(ステップS310,S311)。その後、2番目の第二文書等についても、順次、創案者名に関する判断や、時期に関する判断、類似情報の算出等が行われていく(ステップS312,S313,S305〜S310)。なお、第一文書「FD002」と、第二文書「SD001」とに対して算出されたコサイン距離の値が、最も大きな値であり、かつ、そのコサイン距離の値があらかじめ設定されているしきい値よりも大きかったとする(ステップS314)。すると、特定手段27は、第一文書「FD002」と、第二文書「SD001」とを互いに対応するペア文書として特定し(ステップS203)、図14で示される2番目のレコードを蓄積する。このようにして、順次、特定手段27が第一文書と第二文書とを特定し、その対応を示す対応情報にレコードが蓄積されていく(ステップS202〜S211)。
対応情報の生成が終了すると、分類付与部14は、特定手段27から対応情報を受け取り、その対応情報を用いて、第二文書への分類情報の付与を行う(ステップS212)。より詳細には、分類付与部14は、図14で示される対応情報の1番目のレコードを参照して、第一文書を識別する情報「FD001」を取得する。そして、分類付与部14は、第一文書記憶部11から、第一文書「FD001」に対応する分類情報「G06Q 90/00」を取得し(ステップS501,S502)、その分類情報を第二文書「SD002」に対応付けて蓄積する(ステップS503)。また、同様にして、分類付与部14は、図14で示される対応情報の2番目のレコードを参照して(ステップS504,S505)、第一文書を識別する情報「FD002」を取得し、第一文書記憶部11から、第一文書「FD002」に対応する分類情報「G06F 17/28」を取得し(ステップS502)、その分類情報を第二文書「SD001」に対応付けて蓄積する(ステップS503)。このような分類情報の付与によって、第二文書記憶部12で記憶されている分類情報等は、図18で示されるようになる。分類付与部14は、対応情報のすべてのレコードについて、このような処理を行うことによって、各第二文書に分類情報を付与していく(ステップS502〜S505)。このようにして、分類情報を付与する処理が終了する。
次に、分類情報を拡張する処理について説明する。拡張分類付与部16は、分類付与部14による分類情報の付与の処理が終了したことを検知すると、第二文書における分類情報を拡張して付与する処理を開始するタイミングであると判断する(ステップS103)。そして、第2の特定部15、及び拡張分類付与部16による分類情報を拡張して付与する処理が開始される(ステップS104)。
その処理において、第2の特定部15の第2の特定手段33は、まず、第二文書記憶部12から、1番目の第二文書「SD001」と、2番目の第二文書「SD002」との少なくとも一方に分類情報が付与されているかどうか判断する(ステップS601,S602)。この場合には、図18で示されるように、両方共に分類情報が付与されているため、第2の特徴語抽出手段31は、両文書からそれぞれ特徴語と、頻度とを抽出する(ステップS603)。そして、第2の類似情報算出手段32は、その特徴語等を用いて、類似情報としてのコサイン距離を算出し、第2の特定手段33に渡す(ステップS604)。第2の特定手段33は、第2の類似情報算出手段32から受け取ったコサイン距離の値が、あらかじめ設定されている所定のしきい値以上かどうか判断する(ステップS605)。この場合は、コサイン距離の値が所定のしきい値以上ではなかったとする。すると、1番目の第二文書「SD001」と、3番目の第二文書「SD003」とについて、同様の処理が行われる(ステップS607,S608)。
1番目の第二文書「SD001」に分類情報が付与されているため(ステップS602)、1番目の第二文書「SD001」と、3番目の第二文書「SD003」とについても、特徴語の抽出と、コサイン距離の算出とが行われる(ステップS603,S604)。この場合には、そのコサイン距離の値が所定のしきい値以上であったとする。すると、拡張分類付与部16は、1番目の第二文書「SD001」に対応付けられている分類情報「G06F 17/28」を取得し、その分類情報を3番目の第二文書「SD003」に対応付けて第二文書記憶部12に蓄積する(ステップS606)。その結果、第二文書記憶部12で記憶されている情報は、図19で示されるようになる。このように、順次、第二文書に対応付けられている分類情報の拡張が行われていくことになる。
なお、図19において、分類情報は、分類付与部14によって付与された情報であり、拡張分類情報は、拡張分類付与部16によって付与された情報である。したがって、ステップS602において、分類情報のみを用いて判断を行ってもよく、あるいは、分類情報と、拡張分類情報とを用いて、判断を行ってもよい。
以上のように、本実施の形態による情報処理装置1では、互いに対応している第一文書と、第二文書とを特定し、その第一文書に対応付けられている分類情報を、その第二文書に付与することによって、第一文書の分類情報によって、第二情報を分類することができる。また、互いに対応している第一文書と第二文書とを特定するため、分類を付与する精度が高くなりうる。また、類似情報を算出する際にも、単に2個の文書を対比するだけであるため、従来例の特許文献1のように、非常に大きな次元の特徴ベクトルを扱う必要がなく、処理負荷も軽減されている。
また、拡張分類付与部16によって分類情報を拡張して付与することができ、より多くの第二文書に分類情報を付与することが可能となりうる。
なお、本実施の形態では、類似情報を算出する際に、特徴語変換手段25によって変換された特徴語を用いる場合について説明したが、特徴語変換手段25による特徴語の変換を行わないで類似情報を算出してもよい。その場合には、第1の特定部13は、特徴語変換手段25を備えていなくてもよい。
また、本実施の形態では、特定情報や、類似情報、第一時期情報及び第二時期情報を用いてペア文書を特定する場合について説明したが、ペア文書の特定において、それらのすべての情報を用いなくてもよい。例えば、第1の特定部13は、特定情報を用いたペア文書の特定を行わなくてもよい。その場合には、第1の特定部13は、特定情報抽出手段21を備えていなくてもよい。また、例えば、第1の特定部13は、類似情報を用いたペア文書の特定を行わなくてもよい。その場合には、第1の特定部13は、特徴語抽出手段24、特徴語変換手段25、類似情報算出手段26を備えていなくてもよい。また、例えば、第1の特定部13は、時期判断手段23による判断を行わなくてもよい。その場合には、第1の特定部13は、時期判断手段23を備えていなくてもよく、第一文書や第二文書に第一時期情報や、第二時期情報が対応付けられていなくてもよい。
(実施の形態2)
本発明の実施の形態2による情報処理装置について、図面を参照しながら説明する。本実施の形態による情報処理装置は、引用関係にある文書が互いに対応する文書であると判断して分類情報の付与を行うものである。
本実施の形態による情報処理装置1の構成は、第1の特定部13、及び第2の特定部15の構成が異なる以外、実施の形態1の図1と同様であり、第1の特定部13、及び第2の特定部15以外の説明を省略する。
図20は、本実施の形態による第1の特定部13の構成を示すブロック図である。本実施の形態による第1の特定部13は、引用情報抽出手段41と、引用形式判断手段42と、特定手段43とを備える。
引用情報抽出手段41は、第一文書と第二文書との少なくとも一方に、他の文書を引用する情報である引用情報が含まれる場合に、その引用情報を抽出する。ここで、引用情報は、少なくとも他の文書を特定する情報である引用文書識別情報が含まれるものとする。引用文書識別情報とは、文書において引用している他の文書(すなわち、引用文書)を識別する情報である。ここで、引用文書識別情報は、引用文書を識別することができる情報であれば、その内容を問わない。引用文書識別情報は、例えば、特許番号や、特許出願の出願公開番号、PMID(PubMed Identifier)等の引用文書を識別するIDであってもよく、著者名、タイトル、著作年月日、媒体に関する情報(雑誌名、出版社名、URL等)等の引用文書を識別しうる文書の書誌情報であってもよい。
また、引用情報には、引用情報の含まれる文書において引用している他の文書についての記述を示す情報が含まれていてもよく、あるいは、含まれていなくてもよい。本実施の形態では、前者の場合について説明する。文書についての記述とは、例えば、その文書の問題点を指摘するための記述や、その文書を根拠として新しい理論を提案したり、システムを構築したりするための記述等である。
ここで、引用情報についてさらに詳細に説明する。文書において、例えば、引用している他の文書についての記述を示す情報は引用文書識別情報と同じ領域に存在してもよく、引用している他の文書についての記述を示す情報は引用文書識別情報と異なる領域に存在してもよい。前者の場合としては、例えば、引用文書識別情報が背景技術の領域に記載されており、引用文書識別情報そのものによって、引用文書が引用されている場合である。特許明細書等においては、このような引用がなされている場合がある。一方、後者の場合としては、例えば、引用文書識別情報は参考文献の欄にまとめて記載されており、文書の本文において、その参考文献の欄に記載されている引用文書識別情報に対応する所定のインデックスによって引用文書が引用されている場合である。学術文献においては、このような引用がなされている場合が多い。ここで、インデックスとは、例えば、1、2、3…や、1)、2)、3)…、[1]、[2]、[3]…、[A]、[B]、[C]…、特許文献1、特許文献2、特許文献3…、非特許文献1、非特許文献2、非特許文献3…等であり、引用文書識別情報を特定できるものであれば、どのようなものであってもよい。引用文書識別情報そのものによって、引用文書が引用されている場合には、引用している他の文書についての記述を示す情報は、その引用文書識別情報を含む情報となる。引用文書識別情報を含む情報とは、例えば、引用文書識別情報を含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。引用文書識別情報に対応するインデックスによって引用文書が引用されている場合には、引用している他の文書についての記述を示す情報は、そのインデックスを含む情報となる。インデックスを含む情報とは、例えば、インデックスを含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。この所定の領域は、後述するように、所定のルールに基づいて決定されるものであってもよい。
引用情報が引用文書識別情報のみを含む場合には、引用文書識別情報の抽出において、引用情報抽出手段41は、引用文書識別情報を含むと考えられる参考文献(Reference)の欄を引用情報として抽出してもよく、特許文献、非特許文献の欄を引用情報として抽出してもよく、あるいは、パターンマッチング等の技術を用いて、引用文書識別情報の存在する領域を引用情報として抽出してもよい。参考文献の欄や、特許文献の欄等を引用情報として抽出する場合には、例えば、抽出する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、引用情報抽出手段41は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文書の領域を抽出してもよい。また、パターンマッチング等の技術を用いて引用文書識別情報を含む引用情報を抽出する場合には、例えば、パターンマッチング等で用いるパターン等を示す情報が図示しない記録媒体において記憶されており、引用情報抽出手段41は、その記録媒体からパターン等を読み出してパターンマッチング等を行うことによって、文書における引用文書識別情報を含む領域を引用情報として抽出してもよい。引用情報抽出手段41が抽出した引用文書識別情報を含む引用情報は、図示しない記録媒体に一時的に蓄積されてもよい。なお、前述のように、本実施の形態では、引用情報抽出手段41は、引用文書識別情報と共に、引用している他の文書についての記述を示す情報を含む引用情報を抽出するものとする。
引用情報が、引用文書識別情報と共に、引用している他の文書についての記述を示す情報をも含む場合には、引用情報抽出手段41は、引用文書識別情報と共に、その文書において引用している他の文書についての記述を示す情報を含む引用情報を抽出する。引用情報の抽出において、引用情報抽出手段41は、例えば、引用文書識別情報について言及している領域を、引用文書識別情報等を用いて特定し、その特定した領域を含む引用情報を抽出してもよく、あるいは、引用文書識別情報に対応するインデックスについて言及している領域を、引用文書識別情報に対応するインデックスを用いて特定し、その特定した領域と、引用文書識別情報とを含む引用情報を抽出してもよい。引用情報抽出手段41が抽出した引用情報は、図示しない記録媒体に一時的に蓄積されてもよい。
なお、この引用情報には、実施の形態1で説明した特定情報が含まれうるものとする。したがって、引用情報として、特定情報を含む情報が抽出されてもよい。
引用形式判断手段42は、引用情報抽出手段41が抽出した引用情報の示す引用形式が、引用する文書の問題を指摘する形式である問題指摘型引用形式であるかどうか判断する。
ここで、引用情報における引用文書の引用形式について説明する。引用形式には、例えば、引用文書の問題を指摘する形式である問題指摘型引用形式(以下、「タイプC」の引用形式と呼ぶこともある)と、引用文書を論説の根拠に取り込む形式である論説根拠型引用形式(以下、「タイプB」の引用形式と呼ぶこともある)と、それら以外の引用形式(以下、「タイプO」の引用形式と呼ぶこともある)とがある。タイプBの引用形式は、既存の研究成果を用いて新しい理論を提案したり、システムを構築したりする場合に用いられる引用形式である。なお、これら以外の引用形式の区分であってもよい。ここで、上記説明の引用形式については、次の文献で説明されている。
文献:難波英嗣、奥村学、「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」、自然言語処理、Vol.6、No.5、p.43−62、1999年
引用形式判断手段42は、抽出された引用情報の示す引用形式が、引用している文書の問題を指摘する形式である問題指摘型引用形式(タイプCの引用形式)であるかどうかを判断する。
例えば、ある文書Aにおいて文書Bが引用されている場合に、文書Bの問題を指摘する形式(タイプCの引用形式)で文書Bが引用されている場合には、文書Aと文書Bとの分類が同じである可能性の高いことが発明者らの研究によってわかっている(前述の文献「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」参照)。
したがって、引用情報によって示される文書の引用形式がタイプCの引用形式である場合には、引用情報を含む文書と、その引用情報引用される引用文書とが同じ分類であると判断することができうる。
引用形式判断手段42は、例えば、タイプCの引用形式に応じた1以上の手がかり語句を図示しない記録媒体において保持しておき、引用情報の所定の位置にその手がかり語句が含まれるかどうかによって、引用形式がタイプCであるかどうかを決定してもよい。所定の位置とは、例えば、引用情報の先頭であってもよく、引用情報の最後であってもよく、引用情報のすべてであってもよく、あるいは、引用情報において引用を行っている文(例えば、引用文書識別情報を含む文や、引用文書識別情報に対応するインデックスを含む文など)を基準として、所定の範囲であってもよい。その所定の位置は、手がかり語句ごとに設定されていてもよい。なお、引用情報から引用形式を決定できるのであれば、これ以外の方法を用いてもよい。
特定手段43は、引用形式判断手段42が、引用情報の示す引用形式が問題指摘型引用形式であると判断した場合に、その引用情報を含む文書と、その引用情報で引用される相手方の分野の文書(引用文書)とを互いに対応している文書として特定する。特定手段43は、互いに異なる分野である、引用情報を含む文書と引用文書とを特定することになる。
図21は、本実施の形態による第2の特定部15の構成を示すブロック図である。図21において、本実施の形態による第2の特定部15は、第2の引用情報抽出手段51と、第2の引用形式判断手段52と、第2の特定手段53とを備える。
第2の引用情報抽出手段51は、第二文書の少なくともいずれかに、他の文書を引用する情報である引用情報が含まれる場合に、その引用情報を抽出する。引用情報や、引用情報を抽出する方法については、引用情報抽出手段41に関する説明と同様であり、その説明を省略する。
第2の引用形式判断手段52は、第2の引用情報抽出手段51が抽出した引用情報の示す引用形式が、引用する第二文書の問題を指摘する形式である問題指摘型引用形式であるかどうか判断する。この判断方法については、引用形式判断手段42に関する説明と同様であり、その説明を省略する。
第2の特定手段53は、第2の引用形式判断手段52が、引用形式の示す引用形式が問題指摘型引用形式であると判断した場合に、その引用情報を含む第二文書と、その引用情報で引用される第二文書とを互いに類似する文書として特定する。なお、第2の特定手段53は、互いに第二の分野の第二文書である、引用情報を含む文書と引用文書とを特定することになる。
次に、本実施の形態による情報処理装置1の動作について、フローチャートを用いて説明する。情報処理装置1の全体の動作は、実施の形態1の図4と同様であり、その説明を省略する。
図22は、図4のフローチャートにおけるステップS102の処理の詳細を示すフローチャートである。
(ステップS701)引用情報抽出手段41等は、第一文書の引用情報を用いて、互いに対応している第一文書と第二文書との特定を行う。なお、この処理の詳細については、図23のフローチャートを用いて後述する。
(ステップS702)引用情報抽出手段41等は、第二文書の引用情報を用いて、互いに対応している第一文書と第二文書との特定を行う。なお、この処理の詳細については、図24のフローチャートを用いて後述する。
(ステップS703)分類付与部14は、特定結果に応じて、第二文書に分類情報を付与する。この処理の詳細は、実施の形態1の図8のフローチャートと同様であり、その説明を省略する。そして、図4のフローチャートに戻る。
図23は、図22のフローチャートにおけるステップS701の処理の詳細を示すフローチャートである。
(ステップS801)特定手段43は、カウンタiを1に設定する。
(ステップS802)引用情報抽出手段41は、i番目の第一文書に引用情報が含まれるかどうか判断する。そして、含まれる場合には、ステップS803に進み、そうでない場合には、ステップS810に進む。
(ステップS803)引用情報抽出手段41は、i番目の第一文書から引用情報を抽出する。
(ステップS804)特定手段43は、カウンタjを1に設定する。
(ステップS805)特定手段43は、引用情報抽出手段41が抽出した引用情報において特定されているj番目の引用文書が存在するかどうか判断する。この判断は、例えば、j番目の引用文書識別情報が存在するかどうかによって判断してもよい。j番目の引用文書識別情報が存在する場合には、j番目の引用文書が存在することになる。そして、j番目の引用文書が存在する場合には、ステップS806に進み、そうでない場合には、ステップS810に進む。
(ステップS806)特定手段43は、j番目の引用文書が第二文書であるかどうか判断する。この判断は、例えば、j番目の引用文書を識別する引用文書識別情報によって第二文書記憶部12を検索し、ヒットするかどうかによって判断してもよい。ヒットした場合には、j番目の引用文書が第二文書であることになる。そして、j番目の引用文書が第二文書である場合には、ステップS807に進み、そうでない場合には、ステップS809に進む。
(ステップS807)引用形式判断手段42は、j番目の引用文書に関する引用形式がタイプCであるかどうか判断する。そして、タイプCである場合には、ステップS808に進み、そうでない場合には、ステップS809に進む。
(ステップS808)特定手段43は、i番目の第一文書と、その第一文書に含まれる引用情報で引用されるj番目の引用文書としての第二文書とを、互いに対応している文書として特定する。
(ステップS809)特定手段43は、カウンタjを1だけインクリメントする。そして、ステップS805に戻る。
(ステップS810)特定手段43は、カウンタiを1だけインクリメントする。
(ステップS811)特定手段43は、i番目の第一文書が存在するかどうか判断する。そして、存在する場合には、ステップS802に戻り、そうでない場合には、図22のフローチャートに戻る。
図24は、図22のフローチャートにおけるステップS702の処理の詳細を示すフローチャートである。
(ステップS901)特定手段43は、カウンタiを1に設定する。
(ステップS902)引用情報抽出手段41は、i番目の第二文書に引用情報が含まれるかどうか判断する。そして、含まれる場合には、ステップS903に進み、そうでない場合には、ステップS911に進む。
(ステップS903)引用情報抽出手段41は、i番目の第二文書から引用情報を抽出する。
(ステップS904)特定手段43は、カウンタjを1に設定する。
(ステップS905)特定手段43は、引用情報抽出手段41が抽出した引用情報において特定されているj番目の引用文書が存在するかどうか判断する。この判断は、例えば、j番目の引用文書識別情報が存在するかどうかによって判断してもよい。j番目の引用文書識別情報が存在する場合には、j番目の引用文書が存在することになる。そして、j番目の引用文書が存在する場合には、ステップS906に進み、そうでない場合には、ステップS911に進む。
(ステップS906)特定手段43は、j番目の引用文書が第一文書であるかどうか判断する。この判断は、例えば、j番目の引用文書を識別する引用文書識別情報によって第一文書記憶部11を検索し、ヒットするかどうかによって判断してもよい。ヒットした場合には、j番目の引用文書が第一文書であることになる。そして、j番目の引用文書が第一文書である場合には、ステップS907に進み、そうでない場合には、ステップS910に進む。
(ステップS907)引用形式判断手段42は、j番目の引用文書に関する引用形式がタイプCであるかどうか判断する。そして、タイプCである場合には、ステップS908に進み、そうでない場合には、ステップS910に進む。
(ステップS908)特定手段43は、i番目の第二文書と、その第二文書に含まれる引用情報で引用されるj番目の引用文書としての第一文書とが、互いに対応している文書としてまだ特定されていないかどうか判断する。そして、まだ特定されていない場合には、ステップS909に進み、そうでない場合、すなわち、すでに特定されている場合には、ステップS910に進む。
(ステップS909)特定手段43は、i番目の第二文書と、その第二文書に含まれる引用情報で引用されるj番目の引用文書としての第一文書とを、互いに対応している文書として特定する。
(ステップS910)特定手段43は、カウンタjを1だけインクリメントする。そして、ステップS905に戻る。
(ステップS911)特定手段43は、カウンタiを1だけインクリメントする。
(ステップS912)特定手段43は、i番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップS902に戻り、そうでない場合には、図22のフローチャートに戻る。
図25は、図4のフローチャートにおけるステップS104の処理の詳細を示すフローチャートである。
(ステップS1001)第2の特定手段53は、カウンタiを1に設定する。
(ステップS1002)第2の引用情報抽出手段51は、i番目の第二文書に引用情報が含まれるかどうか判断する。そして、含まれる場合には、ステップS1003に進み、そうでない場合には、ステップS1011に進む。
(ステップS1003)第2の引用情報抽出手段51は、i番目の第二文書から引用情報を抽出する。
(ステップS1004)第2の特定手段53は、カウンタjを1に設定する。
(ステップS1005)第2の特定手段53は、第2の引用情報抽出手段51が抽出した引用情報において特定されているj番目の引用文書が存在するかどうか判断する。この判断は、例えば、j番目の引用文書識別情報が存在するかどうかによって判断してもよい。j番目の引用文書識別情報が存在する場合には、j番目の引用文書が存在することになる。そして、j番目の引用文書が存在する場合には、ステップS1006に進み、そうでない場合には、ステップS1011に進む。
(ステップS1006)第2の特定手段53は、j番目の引用文書が第二文書であるかどうか判断する。この判断は、例えば、j番目の引用文書を識別する引用文書識別情報によって第二文書記憶部12を検索し、ヒットするかどうかによって判断してもよい。ヒットした場合には、j番目の引用文書が第二文書であることになる。そして、j番目の引用文書が第二文書である場合には、ステップS1007に進み、そうでない場合には、ステップS1010に進む。
(ステップS1007)第2の引用形式判断手段52は、j番目の引用文書に関する引用形式がタイプCであるかどうか判断する。そして、タイプCである場合には、ステップS1008に進み、そうでない場合には、ステップS1010に進む。
(ステップS1008)第2の特定手段53は、i番目の第二文書と、その第二文書に含まれる引用情報で引用されているj番目の引用文書である第二文書との少なくとも一方に分類付与部14によって付与された分類情報が存在するかどうか判断する。そして、存在する場合には、ステップS1009に進み、そうでない場合には、ステップS1010に進む。
(ステップS1009)拡張分類付与部16は、i番目の第二文書と、その第二文書に含まれる引用情報で引用されているj番目の引用文書である第二文書とに関して、分類付与部14によって付与された分類情報を、他方の第二文書に付与する。例えば、一方の第二文書にのみ分類付与部14によって分類情報が付与されている場合には、拡張分類付与部16は、その分類情報を他方の第二文書に付与する。例えば、両方の第二文書に分類付与部14によって分類情報が付与されている場合には、拡張分類付与部16は、各分類情報を、それぞれ他方の第二文書に付与する。分類情報を付与するとは、具体的には、第二文書記憶部12において、第二文書に対応付けて分類情報を蓄積することである。なお、ここでの分類情報の付与において、分類付与部14、または拡張分類付与部16がすでに付与した分類情報と同じ分類情報を付与しないようにしてもよい。
(ステップS1010)第2の特定手段53は、カウンタjを1だけインクリメントする。そして、ステップS1005に戻る。
(ステップS1011)第2の特定手段53は、カウンタiを1だけインクリメントする。
(ステップS1012)第2の特定手段53は、i番目の第二文書が存在するかどうか判断する。そして、存在する場合には、ステップS1002に戻り、そうでない場合には、図4のフローチャートに戻る。
次に、本実施の形態による情報処理装置1の動作について、具体例を用いて説明する。
まず、引用情報を抽出する方法と、引用形式を判断する方法について具体的に説明する。
引用情報抽出手段41は、ある文書から、引用文書識別情報を含む引用情報を抽出する。その場合に、引用情報抽出手段41は、まず、その文書の引用文書識別情報が含まれうる領域、例えば、「特許文献」「非特許文献」の欄や、「参考文献」の欄に記載されている引用文書識別情報を特定する。その引用文書識別情報は、例えば、特許公報番号や、論文の書誌情報(タイトルや発表年月、著者、掲載媒体等)等である。その引用文書識別情報には、例えば、例えば、1、2、3…や、1)、2)、3)…、[1]、[2]、[3]…、[A]、[B]、[C]…、特許文献1、特許文献2、特許文献3…、非特許文献1、非特許文献2、非特許文献3…等のインデックスが付されている場合もあり、それらのインデックスが付されている場合には、そのインデックスも特定する。次に、引用情報抽出手段41は、引用文書識別情報やインデックスを用いた検索を行い、その引用文書識別情報やインデックスが含まれる文を特定する。そして、引用文書識別情報の含まれる領域と、その引用文書識別情報やインデックスの含まれる文、及びその文と関連の深い文とを引用情報として抽出する。ここで、引用文書識別情報やインデックスの含まれる文と関連の深い文を特定する方法について説明する。
引用情報抽出手段41は、あらかじめ図示しない記録媒体において、下記の2種類の手がかり語句を保持しているものとする。
(A)前拡張用手がかり語句
In this,On this,Such,But,However…
(B)後拡張用手がかり語句
We,we,They,they,Our,our,In this,On this,Such,But,However…
引用情報抽出手段41は、まず、引用文書識別情報やインデックスの含まれる文を候補文とする。そして、その候補文の先頭の文に(A)前拡張用手がかり語句のいずれかが少なくとも含まれる場合に、その候補文よりも1個前の文を候補文に含める。引用情報抽出手段41は、候補文を前に拡張する処理を、候補文の先頭の文に(A)前拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。また、引用情報抽出手段41は、候補文の次の文(候補文に後側に隣接する文であり、候補文には含まれない文)に、(B)後拡張用手がかり語句が含まれる場合に、その候補文の次の文を候補文に含める。引用情報抽出手段41は、候補文を後に拡張する処理を、候補文の次の文に(B)後拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。候補文を拡張する処理が終了した時点における候補文と引用文書識別情報の含まれる領域とが、引用情報となる。引用情報抽出手段41は、その引用情報を抽出する。なお、(A)前拡張用手がかり語句、(B)後拡張用手がかり語句は一例であって、引用文書識別情報やインデックスの含まれる文と関連の深い文を適切に抽出することができるのであれば、それ以外の手がかり語句を用いてもよい。
次に、引用形式判断手段42が、引用情報を用いて引用形式がタイプCであるかどうか判断する方法について説明する。ここで、引用形式判断手段42は、図26で示されるタイプCの手がかり語句と、手がかり語句の位置とを対応付けた情報を図示しない記録媒体で保持しているものとする。図26の「手がかり語句の位置」とは、引用情報において、インデックスや引用文書識別情報の含まれる文を基準(0)とした、文の数を示す情報である。例えば、手がかり語句の位置「1〜3」の場合には、引用情報において、インデックスや引用文書識別情報の含まれる文の次の文(手がかり語句の位置=1)から、インデックスや引用文書識別情報の含まれる文から3番目の後方の文(手がかり語句の位置=3)までの3個の文を意味している。手がかり語句の位置がマイナスである場合には、インデックスや引用文書識別情報の含まれる文よりも前の文を意味する。タイプCの手がかり語句が、対応する手がかり語句の位置で示される文に含まれる場合に、その引用情報の引用形式は、タイプCであると判断される。具体的には、引用情報において、インデックスや引用文書識別情報の含まれる文の次の文(1番目の文)から3番目の文までのいずれかの文に「However」が含まれる場合には、その引用情報の引用形式はタイプCであると判断される。なお、ここでは、英語の文書について引用情報の抽出や、引用形式の判断を行う場合について説明したが、日本語の文書や他の言語の文書についても、同様にして引用情報の抽出や、引用形式の判断を行うことができうる。
この具体例において、情報処理装置1は、実施の形態1の具体例と同様に、PCであるとする。また、第一文書記憶部11では、図27で示されるように第一文書等が記憶されているものとする。また、第二文書記憶部12では、図28で示されるように第二文書等が記憶されているものとする。図29は、第一文書「FD101」を示す図である。
まず、ユーザがキーボードやマウス等の入力デバイスを操作することによって、分類付与を開始する旨の指示を情報処理装置1に入力したとする。すると、分類付与部14は、第二文書に分類情報を付与するタイミングであると判断し(ステップS101)、第1の特定部13、及び分類付与部14による分類付与の処理が開始される(ステップS102)。
その分類付与の処理において、まず、第1の特定部13の特定手段43等は、第一文書の引用情報を用いて、互いに対応している第一文書と第二文書との特定を行う(ステップS701)。より詳細には、引用情報抽出手段41は、1番目の第一文書「FD101」に引用情報が含まれるかどうか判断する(ステップS801,S802)。ここでは、図29で示されるように、第一文書「FD101」において、非特許文献1が記載されているため、引用情報抽出手段41は、引用情報が含まれていると判断し、上述のような方法によって、引用情報を抽出する(ステップS803)。
特定手段43は、引用情報に非特許文献1に対応する引用文書識別情報が含まれているため、1番目の引用文書が存在すると判断する(ステップS804,S805)。また、特定手段43は、引用情報に含まれる非特許文献1の引用文書識別情報『BBBB、「YYYに関する一考察」、ZZZ学会、……』を用いて、第二文書記憶部12を検索する。その検索によって、第二文書「SD102」がヒットしたとする。すると、特定手段43は、引用文書が第二文書であると判断する(ステップS806)。
また、前述のような処理を行うことによって、引用形式判断手段42は、その非特許文献1に関する引用形式がタイプCであると判断したとする(ステップS807)。すると、特定手段43は、第一文書「FD101」と、第二文書「SD102」とを、互いに対応している文書であると特定する(ステップS808)。具体的には、特定手段43は、「FD101」と、「SD102」とを対応付けて有する情報である対応情報を、図14で示される対応情報と同様に蓄積する。
このようにして、第一文書の引用情報を用いた、互いに対応している第一文書と第二文書との特定が順次、行われていく(ステップS802〜S811)。また、同様にして、第二文書の引用情報を用いた、互いに対応している第一文書と第二文書との特定も順次、行われていく(ステップS702,S901〜S912)。
なお、対応情報を用いた分類情報の付与の処理(ステップS703)については、実施の形態1の具体例での説明と同様であり、その説明を省略する。その分類情報の付与の処理の結果、第二文書記憶部12で記憶されている情報は、図30で示されるようになったとする。
次に、分類情報を拡張する処理について説明する。拡張分類付与部16は、分類付与部14による分類情報の付与の処理が終了したことを検知すると、第二文書における分類情報を拡張して付与する処理を開始するタイミングであると判断する(ステップS103)。そして、第2の特定部15、及び拡張分類付与部16による分類情報を拡張して付与する処理が開始される(ステップS104)。
その処理において、第2の引用情報抽出手段51は、1番目の第二文書「SD101」に引用情報が含まれるかどうか判断する(ステップS1001,S1002)。ここでは、引用情報が含まれているものとすると、第2の引用情報抽出手段51は、その引用情報を抽出する(ステップS1003)。そして、第2の特定手段53は、1番目の引用文書識別情報が含まれると判断し(ステップS1004,S1005)、その引用文書識別情報で識別される文書は、第二文書「SD102」であり、引用形式はタイプCであったとする(ステップS1006,S1007)。この場合には、図30で示されるように、その引用文書としての第二文書「SD102」に分類情報が対応付けられているため、第2の特定手段53は、少なくとも一方の文書に分類情報が付与されていると判断する(ステップS1008)。そして、拡張分類付与部16は、第二文書「SD102」に付与されている分類情報「G06Q 90/00」を、第二文書「SD101」に対応付けて蓄積する(ステップS1009)。この処理は、実施の形態1の具体例での説明と同様である。その後、第二文書記憶部12における他の第二文書についても、同様の処理が順次、行われていくことになる(ステップS1002〜S1012)。
以上のように、本実施の形態による情報処理装置1では、タイプCの引用関係を有している第一文書と第二文書とを、互いに対応している文書として特定し、その第一文書に対応付けられている分類情報を、その第二文書に付与することによって、第一文書の分類情報によって、第二情報を分類することができる。また、互いに対応している第一文書と第二文書とを特定するため、分類を付与する精度が高くなりうるのは、実施の形態1と同様である。また、引用関係を用いて分野の異なる文書間の対応関係を判断するため、従来例の特許文献1のように、非常に大きな次元の特徴ベクトルを扱う必要がなく、処理負荷も軽減されている。また、拡張分類付与部16によって分類情報を拡張して付与することができ、より多くの第二文書に分類情報を付与することが可能となりうるのも、実施の形態1と同様である。
なお、本実施の形態では、分類情報の付与の際に文書に含まれる創案者名を利用しない。したがって、本実施の形態では、第一文書、及び第二文書が1以上の創案者名を含んでいなくてもよい。
また、本実施の形態では、第1の特定部13が引用形式判断手段42を備えており、タイプCの引用形式である場合に、互いに引用関係にある文書を特定する場合について説明したが、第1の特定部13は、引用形式判断手段42を備えていなくてもよい。引用形式判断手段42を備えていない場合には、第1の特定部13の特定手段43は、引用形式の判断結果によらず、引用情報抽出手段41が抽出した引用情報を含む文書と、その引用情報で引用される文書(引用文書)とを互いに対応している文書として特定してもよい。第2の特定部15についても同様である。第2の特定部15は、第2の引用形式判断手段52を備えていなくてもよい。第2の引用形式判断手段52を備えていない場合には、第2の特定部15の第2の特定手段53は、引用形式の判断結果によらず、第2の引用情報抽出手段51が抽出した引用情報を含む第二文書と、その引用情報で引用される第二文書(引用文書)とを互いに類似する文書として特定してもよい。ここで、引用形式の判断を行わない場合には、引用情報は、例えば、引用文書識別情報のみを含む情報であってもよい。
また、実施の形態1において、図2で示される第1の特定部13と、図3で示される第2の特定部15とについて説明し、実施の形態2において、図20で示される第1の特定部13と、図21で示される第2の特定部15とについて説明したが、第1の特定部13と第2の特定部15との組合せは、自由である。例えば、情報処理装置1は、図2で示される第1の特定部13と、図21で示される第2の特定部15とを備えていてもよく、また、図20で示される第1の特定部13と、図3で示される第2の特定部15とを備えていてもよい。なお、実施の形態1,2で説明した場合においては、第1の特定部13と、第2の特定部15とにおいて、同様の処理を行う構成要素を有することになりうる。例えば、図2で示される第1の特定部13と、図3で示される第2の特定部15とに関しては、特徴語抽出手段24と、第2の特徴語抽出手段31とが同様の処理を行うものであり、また、類似情報算出手段26と、第2の類似情報算出手段32とが同様の処理を行うものである。また、例えば、図20で示される第1の特定部13と、図21で示される第2の特定部15とに関しては、引用情報抽出手段41と、第2の引用情報抽出手段51とが同様の処理を行うものであり、引用形式判断手段42と、第2の引用形式判断手段52とが同様の処理を行うものである。このような場合には、同様の処理を行う構成要素を物理的に一体のものとして構成してもよい。物理的に一体のものとして構成されたとしても、例えば、分類情報の付与の処理を行う際には、特徴語抽出手段24として動作することとなり、分類情報の拡張の処理を行う際には、第2の特徴語抽出手段31として動作することになる。
また、上記各実施の形態では、情報処理装置1が第2の特定部15と、拡張分類付与部16とを備えた場合について説明したが、例えば、分類情報の拡張を行う必要がない場合などには、情報処理装置1は、それらを備えていなくてもよい。
また、上記各実施の形態において、第1の特定部13は、各実施の形態で説明した以外の方法で互いに対応している第一文書と第二文書との特定を行ってもよい。また、第2の特定部15は、各実施の形態で説明した以外の方法で互いに類似する複数の第二文書を特定してもよい。
また、上記各実施の形態において、第一文書が特許文書であり、第二文書が論文である場合について主に説明したが、そうでなくてもよいことは前述の通りである。例えば、第一文書が論文であり、第二文書が特許文書であってもよく、第一文書が日本語の文書であり、第二文書が英語の文書であってもよい。そのような場合には、例えば、特徴語変換手段25は、例えば、特許用語を論文用語に変換するものであってもよく、英語を日本語に翻訳するものであってもよい。また、第一文書と、第二文書との言語が異なる場合には、創案者名判断手段22による判断や、時期判断手段23による判断、引用情報を用いた引用文書の特定などの処理において、創案者名や時期情報の示す時期、引用情報等の翻訳を行ってから、それらの処理を行ってもよいことは言うまでもない。
また、上記各実施の形態では、互いに対応している第一文書と第二文書とを特定し、第一文書に対応付けられている分類情報で第二文書を分類する場合について説明したが、互いに対応している第一文書と第二文書とを特定して、その特定結果を示す情報を出力するだけであってもよい。具体的には、図31で示されるように、情報処理装置2は、第一文書記憶部11と、第二文書記憶部12と、第1の特定部13と、出力部61とを備えたものであってもよい。出力部61以外の構成及び動作は、実施の形態1と同様であり、その詳細な説明を省略する。
出力部61は、第1の特定部13が特定した第一文書と第二文書との対応を示す情報を出力する。「第一文書と第二文書との対応を示す情報」は、例えば、第一文書を識別する情報と第二文書を識別する情報とを対応付けて有する情報であってもよく、第一文書と第二文書との対応を示すことができる情報であれば、その他の情報であってもよい。この情報は、例えば、図14で示される対応情報に類似した情報であってもよい。
ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。なお、出力部61は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部61は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
図32は、図31で示される情報処理装置2の動作を示すフローチャートである。
(ステップS1101)第1の特定部13は、第一文書と第二文書との特定の処理を開始するかどうか判断する。そして、開始する場合には、ステップS1102に進み、そうでない場合には、開始すると判断するまで、ステップS1101の処理を繰り返す。
(ステップS1102)第1の特定部13は、互いに対応するペア文書としての第一文書と第二文書とを特定する。このステップS1102の処理は、分類情報の付与(ステップS212)の処理を行わない以外、図5のフローチャートと同様であり、その説明を省略する。
(ステップS1103)出力部61は、第1の特定部13が特定した第一文書と第二文書との対応を示す情報を出力する。そして、ステップS1101に戻る。
このようにして、図31で示される情報処理装置2によれば、互いに対応している第一文書と第二文書とを特定して、その特定結果を示す情報を出力することにより、情報処理装置2のユーザ等に、互いに対応している文書を示すことができる。例えば、特許の業界では、ある国で出願された特許と、別の国で出願された特許とが同内容のものである場合に、両者をファミリーとして管理する習慣があるが、第一文書が第一言語の特許文書であり、第二文書が第二言語の特許文書である場合には、ファミリーである特許文書を特定することができ、また、第一文書が特許文書であり、第二文書が論文である場合には、特許と論文とについても、そのような対応を把握することが可能となる。
なお、図31で示される情報処理装置2では、分類情報の付与を行わないため、第一文書記憶部11において、分類情報が記憶されていなくてもよい。
また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記各実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、第一の分野における文書である第一文書と、当該第一文書の分類を示す情報である分類情報との対応が1以上記憶される第一文書記憶部と、第二の分野における文書である第二文書が1以上記憶される第二文書記憶部とを参照し、互いに対応している第一文書と第二文書とを特定する特定部と、前記特定部が特定した第一文書と第二文書とのうち、当該第二文書に対して、当該第一文書に対応付けられている分類情報を付与する分類付与部として機能させるためのものである。
他のプログラムは、コンピュータを、第一の分野における文書であり、当該文書の記載対象を創案した1以上の創案者名を少なくとも含む文書である第一文書が1以上記憶される第一文書記憶部と、第二の分野における文書であり、当該文書の記載対象を考案した1以上の創案者名を少なくとも含む文書である第2文書が1以上記憶される第二文書記憶部とを参照し、記載対象が同じであり、少なくとも一部の創案者名が一致している第一文書と第二文書とをペア文書として特定する特定部と、前記特定部が特定した第一文書と第二文書との対応を示す情報を出力する出力部として機能させるためのものである。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
図33は、上記プログラムを実行して、上記実施の形態による情報処理装置1,2を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。
図33において、コンピュータシステム100は、CD−ROM(Compact Disk Read Only Memory)ドライブ105、FD(Flexible Disk)ドライブ106を含むコンピュータ101と、キーボード102と、マウス103と、モニタ104とを備える。
図34は、コンピュータシステムを示す図である。図34において、コンピュータ101は、CD−ROMドライブ105、FDドライブ106に加えて、CPU(Central Processing Unit)111と、ブートアッププログラム等のプログラムを記憶するためのROM(Read Only Memory)112と、CPU111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク114と、CPU111、ROM112等を相互に接続するバス115とを備える。なお、コンピュータ101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム100に、上記実施の形態による情報処理装置1,2の機能を実行させるプログラムは、CD−ROM121、またはFD122に記憶されて、CD−ROMドライブ105、またはFDドライブ106に挿入され、ハードディスク114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ101に送信され、ハードディスク114に記憶されてもよい。プログラムは実行の際にRAM113にロードされる。なお、プログラムは、CD−ROM121やFD122、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ101に、上記実施の形態による情報処理装置1,2の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム100がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上より、本発明による情報処理装置等によれば、例えば、第一の分野の文書に対応付けられている分類情報を、第二の分野の文書に付与することができ、文書と、その文書の分類とを管理しているシステム等において有用である。
本発明の実施の形態1による情報処理装置の構成を示すブロック図 同実施の形態における第1の特定部の構成を示すブロック図 同実施の形態における第2の特定部の構成を示すブロック図 同実施の形態による情報処理装置の動作を示すフローチャート 同実施の形態による情報処理装置の動作を示すフローチャート 同実施の形態による情報処理装置の動作を示すフローチャート 同実施の形態による情報処理装置の動作を示すフローチャート 同実施の形態による情報処理装置の動作を示すフローチャート 同実施の形態による情報処理装置の動作を示すフローチャート 同実施の形態における第一文書記憶部で記憶されている情報の一例を示す図 同実施の形態における第一文書の一例を示す図 同実施の形態における第二文書記憶部で記憶されている情報の一例を示す図 同実施の形態における第二文書の一例を示す図 同実施の形態における対応情報の一例を示す図 同実施の形態における特徴語の一例を示す図 同実施の形態における上位下位シソーラスの一例を示す図 同実施の形態における変換のなされた特徴語の一例を示す図 同実施の形態における第二文書記憶部で記憶されている情報の一例を示す図 同実施の形態における第二文書記憶部で記憶されている情報の一例を示す図 本発明の実施の形態2における第1の特定部の構成を示すブロック図 同実施の形態における第2の特定部の構成を示すブロック図 同実施の形態による情報処理装置の動作を示すフローチャート 同実施の形態による情報処理装置の動作を示すフローチャート 同実施の形態による情報処理装置の動作を示すフローチャート 同実施の形態による情報処理装置の動作を示すフローチャート 同実施の形態におけるタイプCの手がかり語句の一例を示す図 同実施の形態における第一文書記憶部で記憶されている情報の一例を示す図 同実施の形態における第二文書記憶部で記憶されている情報の一例を示す図 同実施の形態における第一文書の一例を示す図 同実施の形態における第二文書記憶部で記憶されている情報の一例を示す図 他の実施の形態による情報処理装置の構成を示すブロック図 同実施の形態による情報処理装置の動作を示すフローチャート 上記実施の形態におけるコンピュータシステムの外観一例を示す模式図 上記実施の形態におけるコンピュータシステムの構成の一例を示す図
符号の説明
1、2 情報処理装置
11 第一文書記憶部
12 第二文書記憶部
13 第1の特定部
14 分類付与部
15 第2の特定部
16 拡張分類付与部
21 特定情報抽出手段
22 創案者名判断手段
23 時期判断手段
24 特徴語抽出手段
25 特徴語変換手段
26 類似情報算出手段
27、43 特定手段
31 第2の特徴語抽出手段
32 第2の類似情報算出手段
33、53 第2の特定手段
41 引用情報抽出手段
42 引用形式判断手段
51 第2の引用情報抽出手段
52 第2の引用形式判断手段
61 出力部

Claims (6)

  1. 第一の分野における文書である第一文書と、当該第一文書の分類を示す情報である分類情報との対応が1以上記憶される第一文書記憶部と、
    第二の分野における文書である第二文書が1以上記憶される第二文書記憶部と、
    互いに対応している第一文書と第二文書とを特定する特定部と、
    前記特定部が特定した第一文書と第二文書とのうち、当該第二文書に対して、当該第一文書に対応付けられている分類情報を付与する分類付与部と、
    互いに類似する複数の第二文書を特定する第2の特定部と、
    前記第2の特定部が特定した互いに類似する複数の第二文書のうち、いずれかの第二文書に前記分類付与部によって分類情報が付与されている場合に、当該分類情報が付与されている第二文書と類似する第二文書に対して当該分類情報を付与する拡張分類付与部と、を備えた情報処理装置。
  2. 前記第2の特定部は、
    第二文書に含まれる特徴的な単語である特徴語を抽出する第2の特徴語抽出手段と、
    前記第2の特徴語抽出手段が抽出した、複数の第二文書に含まれる特徴語を比較し、当該複数の第二文書の類似に関する情報である類似情報を算出する第2の類似情報算出手段と、
    前記第2の類似情報算出手段が算出した類似情報によって類似性の高いことが示される複数の第二文書を、互いに類似する複数の第二文書として特定する第2の特定手段と、を備えた、請求項記載の情報処理装置。
  3. 前記第2の特定部は、
    第二文書の少なくともいずれかに、他の文書を引用する情報である引用情報が含まれる場合に、当該引用情報を抽出する第2の引用情報抽出手段と、
    前記第2の引用情報抽出手段が抽出した引用情報を含む第二文書と、当該引用情報で引用される第二文書とを互いに類似する文書として特定する第2の特定手段と、を備えた、請求項記載の情報処理装置。
  4. 前記第2の特定部は、
    前記第2の引用情報抽出手段が抽出した引用情報の示す引用形式が、引用する第二文書の問題を指摘する形式である問題指摘型引用形式であるかどうか判断する第2の引用形式判断手段をさらに備え、
    前記第2の特定手段は、前記第2の引用形式判断手段が、前記引用形式の示す引用形式が問題指摘型引用形式であると判断した場合に、当該引用情報を含む第二文書と、当該引用情報で引用される第二文書とを互いに類似する文書として特定する、請求項記載の情報処理装置。
  5. 第一の分野における文書である第一文書と、当該第一文書の分類を示す情報である分類情報との対応が1以上記憶される第一文書記憶部と、第二の分野における文書である第二文書が1以上記憶される第二文書記憶部と、特定部と、分類付与部と、第2の特定部と、拡張分類付与部とをもちいて処理される情報処理方法であって、
    前記特定部が、互いに対応している第一文書と第二文書とを特定する特定ステップと、
    前記分類付与部が、前記特定ステップで特定した第一文書と第二文書とのうち、当該第二文書に対して、当該第一文書に対応付けられている分類情報を付与する分類付与ステップと、
    前記第2の特定部が、互いに類似する複数の第二文書を特定する第2の特定ステップと、
    前記拡張分類付与部が、前記第2の特定ステップで特定した互いに類似する複数の第二文書のうち、いずれかの第二文書に前記分類付与ステップにおいて分類情報が付与されている場合に、当該分類情報が付与されている第二文書と類似する第二文書に対して当該分類情報を付与する拡張分類付与ステップと、を備えた情報処理方法。
  6. 第一の分野における文書である第一文書と、当該第一文書の分類を示す情報である分類情報との対応が1以上記憶される第一文書記憶部と、第二の分野における文書である第二文書が1以上記憶される第二文書記憶部とにアクセス可能なコンピュータを、
    互いに対応している第一文書と第二文書とを特定する特定部、
    前記特定部が特定した第一文書と第二文書とのうち、当該第二文書に対して、当該第一文書に対応付けられている分類情報を付与する分類付与部、
    互いに類似する複数の第二文書を特定する第2の特定部、
    前記第2の特定部が特定した互いに類似する複数の第二文書のうち、いずれかの第二文書に前記分類付与部によって分類情報が付与されている場合に、当該分類情報が付与されている第二文書と類似する第二文書に対して当該分類情報を付与する拡張分類付与部として機能させるためのプログラム。
JP2007112532A 2007-04-23 2007-04-23 情報処理装置、情報処理方法、及びプログラム Expired - Fee Related JP5019315B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007112532A JP5019315B2 (ja) 2007-04-23 2007-04-23 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007112532A JP5019315B2 (ja) 2007-04-23 2007-04-23 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2008269375A JP2008269375A (ja) 2008-11-06
JP5019315B2 true JP5019315B2 (ja) 2012-09-05

Family

ID=40048769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007112532A Expired - Fee Related JP5019315B2 (ja) 2007-04-23 2007-04-23 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5019315B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6007784B2 (ja) * 2012-12-21 2016-10-12 富士ゼロックス株式会社 文書分類装置及びプログラム
JP7445891B2 (ja) 2020-06-12 2024-03-08 パナソニックIpマネジメント株式会社 文書分類方法、文書分類装置及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2940488B2 (ja) * 1996-10-02 1999-08-25 日本電気株式会社 文書グループ化装置および文書グループ化方法
JP3791877B2 (ja) * 1999-06-15 2006-06-28 富士通株式会社 文書の参照理由を用いて情報検索を行う装置
JP4569178B2 (ja) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 分類符号処理装置
JP4615279B2 (ja) * 2004-10-12 2011-01-19 ヤフー株式会社 文献分類認識装置、その方法、文献分類装置、および、それらのプログラム
JP4332129B2 (ja) * 2005-04-20 2009-09-16 富士通株式会社 文書分類プログラム、文書分類方法および文書分類装置
JP4882040B2 (ja) * 2005-06-21 2012-02-22 公立大学法人広島市立大学 情報処理装置、情報処理システム、およびプログラム

Also Published As

Publication number Publication date
JP2008269375A (ja) 2008-11-06

Similar Documents

Publication Publication Date Title
Kowalski et al. Information storage and retrieval systems: theory and implementation
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
Basheer et al. Efficient text summarization method for blind people using text mining techniques
Croce et al. Neural learning for question answering in italian
Alexander et al. Metaphor, popular science, and semantic tagging: Distant reading with the Historical Thesaurus of English
Atwan et al. Semantically enhanced pseudo relevance feedback for Arabic information retrieval
Moncla et al. Automated geoparsing of paris street names in 19th century novels
Cheon et al. Parallel sentence extraction to improve cross-language information retrieval from Wikipedia
Dalton et al. Local and global query expansion for hierarchical complex topics
JP5463494B2 (ja) 技術動向情報作成装置
McGillivray et al. Applying language technology in humanities research: Design, application, and the underlying logic
JP5019315B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
Krasselt et al. A workbench for corpus linguistic discourse analysis
L'Homme et al. Definition of an evaluation grid for term-extraction software
Popova et al. Keyphrase extraction using extended list of stop words with automated updating of stop words list
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム
US20090249197A1 (en) Document proofreading support method and document proofreading support apparatus
Lehmam Text structuration leading to an automatic summary system: RAFI
Moulay Lakhdar et al. Building an extractive Arabic text summarization using a hybrid approach
Nacinovic Prskalo et al. Identification of Metaphorical Collocations in Different Languages–Similarities and Differences
Ivanović et al. FAIRness at University of Novi Sad-Discoverability of PhD research results for Non-Serbian scientific community–
Walker et al. Answer type identification for question answering: Supervised learning of dependency graph patterns from natural language questions
Hickey Corpus data processing with Lexa
Giovannetti et al. The Terminology of the Babylonian Talmud: Extraction, Representation and Use in the Context of Computational Linguistics

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20100419

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100420

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120530

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120605

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees