JP6973733B2

JP6973733B2 - 特許情報処理装置、特許情報処理方法およびプログラム

Info

Publication number: JP6973733B2
Application number: JP2017214547A
Authority: JP
Inventors: 英和谷川; 貴久太田
Original assignee: 株式会社アイ・アール・ディー
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2021-12-01
Anticipated expiration: 2037-11-07
Also published as: JP2019087006A

Description

本発明は、検索式を用いて検索した特許に対して、機械学習等を用いて分類する情報処理装置等に関するものである。

従来のＳＤＩ（ＳｅｌｅｃｔｉｖｅＤｉｓｓｅｍｉｎａｔｉｏｎｏｆＩｎｆｏｒｍａｔｉｏｎ）等を行う特許情報処理装置では、検索式を用いて膨大な数の特許から特許を絞り込んでいた（例えば、非特許文献１参照）。

発明通信社、"ＨＹＰＡＴ−ｉ２"、［平成２９年１０月３１日検索］、インターネット［URL：http://www.hatsumei.co.jp/hypat_i2/can.html］

しかしながら、従来の特許情報処理装置においては、検索式で検索された特許群にはノイズが含まれるという課題があった。

本第一の発明の特許情報処理装置は、検索式を示す検索式情報に対応付けて、検索式に基づいて検索された１以上の各特許書類に対して、２以上の分類識別子である分類識別子集合のうちの少なくとも一の分類識別子を付与することにより分類された分類結果を学習した結果である分類器が格納される分類器格納部と、検索式情報を用いて、１以上の特許書類を取得する検索部と、分類器を用いて、検索部が取得した１以上の各特許書類に対して、２以上の分類識別子のうちの少なくとも一の分類識別子を決定する分類部と、検索部が取得した１以上の各特許書類に対応付けて、分類部が決定した分類識別子を出力する分類識別子出力部とを具備する特許情報処理装置である。

かかる構成により、特許群中のノイズを削減することができる。

また、本第二の発明の特許情報処理装置は、第一の発明に対して、検索式情報と、１以上の各特許書類を識別する特許識別子と、各特許識別子に対応する分類識別子とを有する２以上のＳＤＩ情報が格納されるＳＤＩ情報格納部を更に具備し、分類部は、ＳＤＩ情報によって、異なる分類識別子集合の中の少なくとも一の分類識別子を決定する特許情報処理装置である。

かかる構成により、同一の検索式に対しても様々な分類器を適用することが可能となるため、柔軟な分類（例えば、○、×や、Ａ，Ｂ，Ｃ等）を行うことができる。

また、本第三の発明の特許情報処理装置は、第一または第二の発明に対して、分類結果の学習の十分であるか否かに関する分類器性能情報を取得する分類器性能情報取得部と、分類器性能情報を出力する分類器性能情報出力部とをさらに具備する特許情報処理装置である。

かかる構成により、分類器の性能を十分に発揮させることができ、さらにユーザが分類器の性能を把握することができる。

また、本第四の発明の特許情報処理装置は、第三の発明に対して、分類器性能情報は、分類の精度に関する精度情報、さらに分類すべき特許書類の数に関する数情報、性能の程度に関する程度情報のうちのいずれか１以上である特許情報処理装置である。

かかる構成により、ユーザは分類器の性能を十分に発揮させるために必定な学習データの数をわかりやすく、また具体的に把握することができる。

また、本第五の発明の特許情報処理装置は、第一から第四いずれかの発明に対して、未分類の特許書類の特許識別子を有する２以上の特許情報が格納される未分類特許情報格納部と、２以上の特許情報の中から、人手によりさらに分類すべき特許情報を決定する学習候補決定部と、学習候補決定部が決定した特許情報が認識可能なように出力する学習候補出力部とをさらに具備する特許情報処理装置である。

かかる構成により、分類器の学習を効率的に行うことができるため、ユーザの手間を削減することができる。

また、本第六の発明の特許情報処理装置は、第五の発明に対して、既に分類した特許書類の１以上の特許情報が格納される既学習特許情報格納部をさらに具備し、学習候補決定部は、１以上の特許情報に対して、予め決められた条件を満たすほど距離が遠い特許情報を未分類特許情報格納部から決定する特許情報処理装置である。

かかる構成により、分類器が過去に学習していないパターンの特許の特徴を学習することができるため、より頑健性の高い分類器を構築することができる。

本発明による特許情報処理装置によれば、特許群中のノイズを効果的に削減することができることができる。

本発明の実施の形態１における特許情報処理装置のブロック図同実施の形態における特許情報処理装置の動作を示すフローチャート同実施の形態における分類処理の動作を示すフローチャート同実施の形態における学習候補決定処理の動作を示すフローチャート同実施の形態における分類器管理表の一例を示す図同実施の形態におけるＳＤＩ情報管理表の一例を示す図同実施の形態における既学習特許情報管理表の一例を示す図同実施の形態における特許検索結果の一例を示す図同実施の形態における分類識別子ならびに学習候補の出力の一例を示す図同実施の形態における分類器性能情報出力の一例を示す図同学習データサイズと評価値の関連の一例を示す図同コンピュータシステムの概観図同コンピュータシステムのブロック図

以下、特許情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）

本実施の形態において、検索式を用いて検索した特許を自動的に分類する特許情報処理装置１について説明する。

図１は、本実施の形態における特許情報処理装置１のブロック図である。

特許情報処理装置１は、格納部１１、検索部１２、分類部１３、分類器性能情報取得部１４、学習候補決定部１５、および出力部１６を備える。また、格納部１１は、分類器格納部１１１、ＳＤＩ情報格納部１１２、未分類特許情報格納部１１３、および既学習特許情報格納部１１４を備える。また、出力部１６は、分類識別子出力部１６１、分類器性能情報出力部１６２、および学習候補出力部１６３を備える。

格納部１１には、種々の情報が格納されている。種々の情報は、例えば、後述する分類器、後述するＳＤＩ情報、後述する未分類特許情報、後述する既学習特許情報である。

分類器格納部１１１は、検索式情報に対応付けられた分類器情報が格納される。なお、分類器情報は、単に分類器と言っても良い。

ここで、検索式情報とは、検索式を示す情報である。検索式情報は、特許検索が可能な検索式の情報であればどのような形式であっても良い。検索式は、例えば、検索条件を論理演算子（多くの場合はＡＮＤもしくはＯＲ）で結合したものである。検索条件は、例えば、特許分類コード（例えば、ＩＰＣ、Ｆターム、ＦＩ等）の指定でも良く、特許書類の特定の位置（［要約］や［発明の効果］等）に現れるキーワードの指定でも良く、出願や公開された期間の指定でも良い。また、検索式は、検索式を複数組み合わせ（論理演算子で結合した）検索式であっても良い。なお、特許書類の特定の位置は、特許書類の特定の箇所、領域と言っても良い。また、検索式情報が示す検索式は、期間の情報（例えば、公開日、登録日などを含む期間の情報）を有さないことは好適である。

また、分類器は、検索式情報によって検索された特許を分類した結果を学習した情報である。分類器は、通常、検索式情報によって検索された特許を人手によって分類した結果を学習した分類器の情報であるが、他の分類器によって分類した結果を学習した情報でも良い。

具体的には、予め検索式に基づいて検索された１以上の各特許書類に対して、例えば、人手で一以上の分類識別子を付与する。ここで、分類識別子とは、例えば、２値分類ならば、「○」と「×」、多値分類ならば「Ａ」、「Ｂ」、「Ｃ」などである。また、分類識別子は、階層関係を持っても良い。例えば、大分類「Ａ」の下位に小分類「ａ」、「ｂ」、「ｃ」が存在する場合、分類識別子は、予め定めた分類の階層を区切る特殊な文字列（例えば「／」）を用いて、各小分類を「Ａ／ａ」、「Ａ／ｂ」、「Ａ／ｃ」としても良い。また、分類識別子は、空文字（空白）であっても良い。分類識別子を人手で付与する際は、２以上の分類識別子である分類識別子集合のうちの少なくとも一の分類識別子を付与する。その後、分類識別子を付与した特許書類の特徴を、機械学習等により学習し、未知の特許（分類識別子が付与されていない特許）に対して付与されるべき分類識別子を予測する分類器を作成する。

分類器情報は、通常、分類器のモデル、用いる素性、パラメータ、付与する分類識別子、モデルへの入出力方法など、特許書類に対して分類識別子を付与するために必要な情報をすべて含む。また、分類器情報は、ランダムフォレストにおけるＯＯＢエラーのような分類器の性能を表す指標を含んでも良く、分類器を作成する際に用いた特許書類とその分類識別子を含んでも良い。さらに、分類器情報は１以上の分類器の情報を含んでも良い。例えば、一の特許に対して複数の特許識別子を付与する場合、特許識別子ごとに分類器を学習させ、分類器情報は、学習した全ての分類器と分類器の適用方法を含んでも良い。ここで、分類器の適用方法とは、例えば、分類器を適用する順番である。また、例えば、分類器の適用方法とは、分類器の出力する値に基づいて分類識別子を付与する方法である。例えば、「Ａ」（高関連特許）、「Ｂ」（低関連特許）、「Ｃ」（無関連特許）という３つの分類識別子のいずれか１つを付与する目的で、「○」（関連）と「×」（無関連）の２値の分類を行うランダムフォレストを分類器として使用する場合において、ランダムフォレストが「○」である確率も出力するものとする。このとき、予め２つのしきい値を定めておき、前記確率をしきい値に基づいて分割することで「Ａ」、「Ｂ」、「Ｃ」の３つのいずれかの分類識別子を付与しても良い。具体的には、ランダムフォレストの出力する確率が第一しきい値（例えば０．８）以上のとき「Ａ」、同確率が第二しきい値（例えば０．５）以上のとき「Ｂ」、それ以外のとき「Ｃ」というように分類識別子を付与する。なお、ランダムフォレストやＯＯＢエラーについては公知であるため説明を省略する。

また、分類器情報を構成するための学習機能のアルゴリズムは問わない。かかる学習機能として、例えば、ランダムフォレスト、ＳＶＭ、深層学習、決定木等の機械学習のアルゴリズムが利用可能である。

図示しない学習部は、例えば、以下のように分類器情報を生成し、分類器格納部１１１に蓄積する。つまり、学習部は、例えば、特許書類からベクトルを取得する。そして、当該ベクトルと、当該特許に対して付与された分類識別子との組の集合を取得する。次に、学習部は、機械学習のアルゴリズムを用いて、ベクトルと分類識別子との組を複数、学習処理し、分類器情報を生成する。次に、学習部は、当該分類器情報を分類器格納部１１１に蓄積する。

なお、学習部は、例えば、以下のように、特許書類からベクトルを取得する。つまり、学習部は、例えば、特許書類の全部または一部に対して、自然言語処理を行い、ベクトルを取得する。学習部は、例えば、特許書類の全部または一部を自然言語処理技術によって解析し、特許書類に含まれるテキストから単語ｎ−ｇｒａｍを抽出する。次に、抽出したｎ−ｇｒａｍのパターンの各々を次元とし、処理対象の特許書類がｎ−ｇｒａｍを含む場合は１、含まない場合は０を値として設定することでベクトル化することができる。なお、特許書類の全部または一部は、特許分類コード（例えば、ＩＰＣ、Ｆタームなど）を含んでも良く、かかる場合、学習部は、１以上の各特許分類コードを含む場合は、その次元（要素）を「１」、特許分類コードを含まない場合は、その次元（要素）を「０」として、ベクトルを取得する。なお、テキストをベクトル化する（テキストからベクトルを取得する）自然言語処理については、各種の方法があり、公知のため説明を省略する。また、ベクトルを構成する要素は、特許書類の全部または一部から取得され得る種々の情報が考えられることを言うまでもない。

ＳＤＩ情報格納部１１２は、２以上のＳＤＩ情報が格納される。ここで、ＳＤＩ情報とは、検索式情報とその検索結果に対する分類に関する情報を含む。検索結果に対する分類に関する情報とは、各特許書類を識別する特許識別子（例えば、出願番号、公開番号、特許番号）と、各特許識別子に対応する分類識別子である。ＳＤＩ情報は、同一の検索式情報であっても、各特許に異なる分類識別子が付与される場合、異なるＳＤＩ情報として扱う。

未分類特許情報格納部１１３は、２以上の未分類特許情報が格納される。未分類特許情報は、未分類の特許の特許情報である。未分類特許情報は、特許書類の特許識別子を有する。未分類特許情報は、例えば、特許識別子と特許書類とを有する。未分類特許情報は、例えば、特許識別子と、特許書類を構成する一部の書類（例えば、要約書、または特許請求の範囲）または特許書類を構成する一部の箇所の情報（例えば、発明の名称と効果と課題解決手段等）とを有する。未分類特許情報格納部１１３には、あくまで、人手による分類が行われていない特許書類とその特許識別子が格納されているため、分類器がまだ学習していない特許書類も含まれる場合がある。

既学習特許情報格納部１１４は、１または２以上の既学習特許情報が格納される。既学習特許情報は、既に分類した特許書類の特許情報である。既学習特許情報は、通常、特許書類の特許識別子とその特許に対応する分類識別とを有する。既学習特許情報は、例えば、特許書類とその特許に対応する分類識別子を有する。また、既学習特許情報は、ベクトル化した特許書類とそのベクトルに対応する分類識別子であっても良い。ここで、ベクトル化とは、通常、分類器格納部１１１に格納された分類器へ入力することが可能なように特許書類をベクトルに変換することである。例えば、すべての既学習特許書類を自然言語処理技術によって解析し、特許書類に含まれるテキストから単語ｎ−ｇｒａｍを抽出する。次に、抽出したｎ−ｇｒａｍのパターンの各々を次元とし、特許書類がｎ−ｇｒａｍを含む場合は１、含まない場合は０を値として設定することでベクトル化することができる。また、この際、特許に付与された特許分類コードに関する次元を含んでも良い。テキストをベクトル化する自然言語処理については公知のため説明を省略する。

検索部１２は、検索式情報を用いて１以上の特許書類を取得する。検索部１２は、通常、新たに公開された１以上の特許書類の中から、検索式情報を用いて１以上の特許書類を取得する。検索部１２は、例えば、分類器格納部１１１に格納された検索式に対応する分類器が用いる情報（例えば、［要約］と［発明の名称］と［ＩＰＣ］など）をすべて取得する。なお、ここでの検索式情報は、分類器情報に対応付けられた検索式情報である。また、「検索式情報を用いて」とは、検索式情報の一部を用いることも含む。検索式情報の一部とは、例えば、検索式情報から公開日に関する条件を除いた検索式を特定する情報である。また、１以上の特許書類を取得することは、１以上の各特許書類を特定する情報（特許識別子）を取得することでも良い。

分類部１３は、検索部１２が取得した１以上の各特許書類に対して、２以上の分類識別子のうちの少なくとも一の分類識別子を決定する。この際、分類部１３は、通常、分類器格納部１１１に格納された分類器情報に従い、当該分類器情報を各特許へ適用し、分類識別子を取得する。具体的には、分類部１３は、各特許書類を分類器へ入力可能な状態へ変換し（通常、ベクトル化し）、当該変換して得られた情報（通常、ベクトル）に対して分類器情報を適用し、分類識別子を取得し、当該分類識別子を各特許書類に対応付けて、蓄積する。

また、分類部１３は、例えば、各特許書類をベクトル化し、当該ベクトルを分類器情報に適用し、２以上の分類識別子ごとにスコアを取得し、最もスコアが高い（該当する尤度が大きい）分類識別子を収録し、当該分類識別子を各特許書類に対応付けて、蓄積する。かかる場合、分類部１３は、分類識別子ごとにスコアを取得するアルゴリズムを用いる。

分類部１３は、例えば、ＳＤＩ情報によって異なる分類識別子集合の中の少なくとも一の分類識別子を決定する。つまり、分類部１３は、例えば、分類のために使用した分類器情報を作成した際に使用された２以上の分類識別子のうちの一の分類識別子を決定する。分類器性能情報取得部１４は、分類器性能情報を取得する。分類器性能情報は、分類器情報の性能に関する情報であり、分類結果の学習が十分であるか否かに関する情報である。分類器性能情報は、例えば、さらに学習させるべきことを示す情報、または学習する必要が無いことを示す情報である。また、分類器性能情報は、例えば、精度情報、数情報、程度情報のいずれか１以上の情報を含む。

ここで、精度情報とは、分類器の精度（性能）に関する情報であり、通常、適合率と再現率（またはこれらの調和平均であるＦ値）である。精度情報は、例えば、後述する程度情報を求める際に得られた適合率と再現率の平均値を用いても良い。また、精度情報は、例えば、ランダムフォレストのＯＯＢエラーのように、学習時に精度情報が得られる分類器を用いる場合、その情報を分類器格納部１１１に格納しておき、その情報をそのまま用いても良い。ランダムフォレストとＯＯＢエラーについては、公知のため説明を省略する。

分類器性能情報取得部１４は、例えば、以下のように精度情報を取得する。

分類器性能情報取得部１４は、例えば、ＳＤＩ情報格納部１１２に格納された特許識別子とそれに対応する分類識別子（以下、学習特許群と呼ぶ）を対象に、Ｋ−ＣｒｏｓｓＶａｌｉｄａｔｉｏｎ（Ｋ分割交差検証）を行い、精度情報を取得しても良い（分類器格納部１１１が分類器の学習に用いた特許を格納している場合は、そちらでも学習特許群としても良い）。具体的には、分類器性能情報取得部１４は、学習特許群をＫ個（Ｋのグループと言っても良い）に分割（Ｋは２〜学習特許群のサイズ）する。次に、分類器性能情報取得部１４は、Ｋ個に分割された特許群のうち１つの取り除き、残りのＫ−１個の特許群を用いて分類器を作成する。次に、作成した分類器を先程取り除いた１つの特許群に適用し、その適合率（分類器がノイズではないと判定した特許のうち、実際にノイズではなかったものの割合）と再現率（実際にノイズではない特許のうち、分類器が正しくノイズではないと判定したものの割合）を算出する。以上の分類器作成から適合率と再現率の算出までの処理を、適合率と再現率の算出に用いる特許群を変えながら合計Ｋ回繰り返す。最後に、Ｋ回算出した適合率と再現率の統計値（例えば、平均値や中央値など）を求めることで精度情報を取得する（さらに、分類器性能情報取得部１４は、平均適合率と平均再現率の調和平均を求めて平均Ｆ値を算出しても良い）。また、分類器性能情報取得部１４は、分類器がランダムフォレストのような分類器の学習と同時にＯＯＢエラーのような精度に関する情報を有する場合、その値を精度情報としても良い。例えば、分類器がランダムフォレストの場合、（１−ＯＯＢエラー）を先の平均Ｆ値の代わりとしても良い。

また、数情報とは、分類器が十分に性能を発揮するためには、学習特許群（人手で分類する特許書類）を、さらに何件行う必要があるかに関する情報である。

分類器性能情報取得部１４は、例えば、以下のように数情報を取得する。

分類器性能情報取得部１４は、例えば、学習特許群の数が予め定めた一定のしきい値以下の場合に、そのしきい値と学習特許群との数の差を数情報として取得しても良い。また、学習特許群のサイズを徐々に大きくしていき、サイズごとに学習結果を評価することで、十分に学習が行われたか否かを判定しても良い。この数情報の取得方法については、その求め方の一例を後述する。

また、程度情報とは、分類器が出力する分類識別子がどの程度信頼できるかを表す（頑健性）情報である。

分類器性能情報取得部１４は、例えば、以下のように程度情報を取得する。

分類器性能情報取得部１４は、例えば、学習特許群が予め定めた一定の数以下の場合に、分類器が出力する分類識別子は信頼できないとする程度情報を取得しても良い。また、分類器性能情報取得部１４は、例えば、先の精度情報の取得で用いたＫ−ＣｒｏｓｓＶａｌｉｄａｔｉｏｎを用いて、それぞれＫ個の適合率と再現率を取得し、適合率と再現率のそれぞれについて、最大値と最小値が予め定めた一定の値以下である場合に、分類器が出力する分類識別子は信頼できるとする程度情報を取得しても良い。また、前記２つの方法を組み合わせ、学習特許群が予め定めた一定の数以下の場合は常に「信頼できない」とし、一定の数を超えた場合にＫ−ＣｒｏｓｓＶａｌｉｄａｔｉｏｎによる判定を行い、程度情報を取得しても良い。

分類器性能情報取得部１４は、通常、分類器を作成するために用いた１以上の各特許書類の全部または一部の情報を用いて、分類器性能情報を取得する。例えば、分類器性能情報取得部１４は、分類器を作成するために用いた１以上の各特許書類の全部または一部の情報から取得した１以上のベクトルを用いて、分類器性能情報を取得する。なお、特許書類の全部または一部には、１または２種類以上の特許分類コードを有することは好適である。また、特許書類の全部または一部の情報から取得したベクトルの要素の一部は、特許分類コードに関する情報であることは好適である。

また、分類器性能情報取得部１４は、分類器を作成するために用いた１以上の各特許書類の全部または一部の情報、および分類対象の１以上の各特許の特許書類の全部または一部の情報を用いて、分類器性能情報を取得しても良い。

分類器性能情報取得部１４は、例えば、分類器を作成する際に使用した１以上の各特許情報からベクトルを取得し、当該１以上のベクトルを代表する代表ベクトル（第一代表ベクトルという。）を取得する。次に、分類器情報を用いた分類対象の１以上の各特許情報からベクトルを取得し、当該１以上のベクトルを代表する代表ベクトル（第二代表ベクトルという。）を取得する。そして、分類器性能情報取得部１４は、第一代表ベクトルと第二代表ベクトルとの距離を算出し、当該距離が予め決められた条件を満たすほど大きい場合（閾値以上、または閾値より大きいなど）、分類器性能情報取得部１４は、当該分類器にとって学習がさらに必要である旨の情報を取得する。

学習候補決定部１５は、２以上の特許情報の中から、人手によりさらに分類すべき特許情報を決定する。

学習候補決定部１５は、例えば、１以上の特許情報に対して、予め決められた条件を満たすほど距離が遠い特許情報を未分類特許情報格納部１１３から決定する。学習候補決定部１５は、例えば、分類器が分類識別子と共に同分類に属する確率を出力する場合、分類器が判断に迷った確率（予め定めた一定の値の範囲、例えば、０．４〜０．６）を人手によってさらに分類するべき特許と判定する。

学習候補決定部１５は、例えば、はじめに、既学習特許情報格納部１１４に格納された特許情報群（ベクトルの集合）を分類識別子ごとに分割し、分類識別子ごとに、平均ベクトルを求める。その後、未分類の特許情報（ベクトル）と各分類識別子のベクトルとの距離を求め、その最大値が予め定めた値を超えた場合に、「人手によってさらに分類すべき特許」と決定する。ここで、特許情報の間の距離は、通常、各特許情報から取得されるベクトル間の距離である。また、距離とは、学習に用いた特許書類との「異なり具合」を測る値ならば何でも良い。例えば、距離は、ユークリッド距離でも良く、コサイン距離でも良い。また、この距離は、前述のように、異なり具合を測るものならば、距離の公理を満たす必要な無い。各距離については公知のため説明を省略する。

学習候補決定部１５は、例えば、２以上の特許情報の中から、任意に、数情報が示す数の分類すべき特許情報を取得しても良い。

また、学習候補決定部１５は、例えば、２以上の特許情報の中から、数情報が示す数の特許情報であり、当該特許情報に含まれる１以上の特許分類コードの分散度合いが予め決められた条件を満たすほど大きい特許情報を取得しても良い。

出力部１６は、各特許の分類識別子、分類器性能情報、および学習候補決定部１５が決定した特許を出力する。

ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。

分類識別子出力部１６１は、検索部１２が取得した１以上の各特許書類に対応付けて、分類部１３が決定した分類識別子を出力する。

分類器性能情報出力部１６２は、分類器性能情報取得部１４が取得した分類器性能情報を出力する。

学習候補出力部１６３は、学習候補決定部１５が決定した特許情報が認識可能なように出力する。

なお、特許情報処理装置１において、格納部１１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

また、格納部１１に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部１１で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部１１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部１１で記憶されるようになってもよい。

また、検索部１２は、分類部１３、分類器性能情報取得部１４、および学習候補決定部１５、通常、ＭＰＵやメモリ等から実現され得る。検索部１２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

また、出力部１６は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部１６は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、特許情報処理装置１の動作について図２のフローチャートを用いて説明する。なお、以下、所定の情報におけるｉ番目の情報は、「情報［ｉ］」と記載するものとする。

（ステップＳ２０１）検索部１２は、カウンタｉに１を代入する。

（ステップＳ２０２）検索部１２は、ｉ番目の検索式情報が存在する場合、ステップＳ２０３へ進む。そうでない場合、処理を終了する。

（ステップＳ２０３）分類器性能情報取得部１４は、検索式情報［ｉ］に対応付けられた分類器の分類器性能情報を取得する。分類器性能情報は、分類器格納部１１１に分類器性能情報が格納されている場合は、その分類器性能情報をそのまま用いても良い。また、後の具体例に後述する、分類器性能情報の求め方の一例のような方法で分類器性能情報を取得しても良い。

（ステップＳ２０４）検索部１２は、検索式情報［ｉ］の検索式を用いて特許群を取得する。なお、ここで、検索部１２は、検索式情報［ｉ］の検索式の一部（例えば、公開日の条件を除いた検索式）に、公開日の条件を加えた検索式を構成し、当該構成した検索式を用いて特許群を取得しても良い。なお、加える公開日の条件は、例えば、最新の公開日、または以前の検索式情報［ｉ］に含まれる公開日の条件が示す公開日より近い日以降の公開日である。

（ステップＳ２０５）検索部１２は、ステップＳ２０４で取得した特許群について、検索式情報［ｉ］に対応付けられた分類器に対して適用されるすべての特許情報を取得する。さらに、例えば、検索部１２は、既学習特許情報格納部１１４を用いて特許群のうち既に学習した特許を記憶し、未学習の特許は、未分類特許情報格納部１１３にその情報を記憶しても良い。

（ステップＳ２０６）分類部１３は、ステップＳ２０５で取得した特許情報を用いて各特許に分類識別子を付与する。かかる処理を分類処理と呼ぶ。分類処理の詳細については、図３のフローチャートを用いて説明する。

（ステップＳ２０７）学習候補決定部１５は、ステップＳ２０５で取得した特許情報とステップＳ２０６の分類処理の結果を用いて、新たに学習するべき（人手で分類を行うべき）特許を決定する。かかる処理を学習候補決定処理と呼ぶ。学習候補決定処理の詳細については、図４のフローチャートを用いて説明する。

（ステップＳ２０８）分類識別子出力部１６１は、ステップＳ２０６で取得した各特許の分類識別子を出力する。

（ステップＳ２０９）学習候補出力部１６３は、ステップＳ２０７で決定した学習候補を出力する。

（ステップＳ２１０）分類器性能情報出力部１６２は、ステップＳ２０３で取得した分類器性能情報を出力する。

（ステップＳ２１１）検索部１２は、カウンタｉを１だけ増加させ、ステップＳ２０２に戻る。

なお、図２のフローチャートにおいて、ステップＳ２０８からステップＳ２１０の処理はどの順番で行っても良い。

また、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、ステップＳ２０６の分類処理の詳細について、図３のフローチャートを用いて説明する。

（ステップＳ３０１）分類部１３は、カウンタｉに１を代入する。

（ステップＳ３０２）分類部１３は、特許［ｉ］が存在する場合、ステップＳ３０３ヘ進む。そうでない場合、上位処理へリターンする。

（ステップＳ３０３）分類部１３は、特許［ｉ］が、未分類特許情報格納部１１３に格納され、かつ既学習特許情報格納部１１４に格納されていない特許の場合、ステップＳ３０４へ進む。そうでない場合、ステップＳ３０５へ進む。

（ステップＳ３０４）分類部１３は、現在の検索式情報に対応する分類器を用いて特許［ｉ］を分類する。つまり、分類部１３は、例えば、特許［ｉ］の特許書類からベクトルを構成し、機械学習のアルゴリズムにより、当該ベクトルを、現在の検索式情報に対応する分類器情報に適用し、分類識別子を得て、当該分類識別子を特許［ｉ］に対応付ける。

（ステップＳ３０５）分類部１３は、特許［ｉ］に対して、人手で付与された分類の分類識別子を対応付ける。なお、特許［ｉ］に対して分類識別子を対応付けることを、分類を付与する、と言っても良い。

（ステップＳ３０６）分類部１３は、カウンタｉを１だけ増加させ、ステップＳ３０２へ戻る。

次に、ステップＳ２０７の学習候補決定処理について、図４のフローチャートを用いて説明する。

（ステップＳ４０１）学習候補決定部１５は、カウンタｉに１を代入する。

（ステップＳ４０２）学習候補決定部１５は、特許［ｉ］が存在す場合、ステップＳ４０３へ進む。そうでない場合、上位処理へリターンする。

（ステップＳ４０３）学習候補決定部１５は、特許［ｉ］が既学習特許情報格納部１１４に格納された特許の場合、ステップＳ４１１へ進む。そうでない場合、ステップＳ４０４へ進む。

（ステップＳ４０４）学習候補決定部１５は、カウンタｊに１を代入する。

（ステップＳ４０５）学習候補決定部１５は、分類［ｊ］が存在する場合、ステップＳ４０６へ進む。そうでない場合、ステップＳ４０８へ進む。なお、分類［ｊ］とは、ｊ番目の分類識別子に対応付けられている１または２以上の特許書類のベクトルを代表する代表ベクトルである。代表ベクトルは、１または２以上の特許書類のベクトルの重心のベクトルでも良いし、１または２以上の特許書類のベクトルの各要素の平均値を要素とするベクトルでも良いし、１または２以上の特許書類のベクトルの各要素の中央値を要素とするベクトル等でも良い。また、分類［ｊ］は、例えば、上述した図示しない学習部が、分類識別子に対応付けて、蓄積している、とする。

（ステップＳ４０６）学習候補決定部１５は、特許［ｉ］と分類［ｊ］の距離を算出する。

（ステップＳ４０７）学習候補決定部１５は、カウンタｊを１だけ増加させステップＳ４０５へ戻る。

（ステップＳ４０８）学習候補決定部１５は、ステップＳ４０６で求めた距離の中から最小の距離を取得する。

（ステップＳ４０９）学習候補決定部１５は、ステップＳ４０８で求めた最小距離が予め定めたしきい値以上の場合、ステップＳ４１０へ進む。そうでない場合、ステップＳ４１１へ進む。

（ステップＳ４１０）学習候補決定部１５は、特許［ｉ］を学習候補に追加する。

（ステップＳ４１１）学習候補決定部１５は、カウンタｉを１だけ増加させ、ステップＳ４０２へ戻る。

なお、図４フローチャートは、学習候補を決定する場合の一例である。学習候補決定部１５は、例えば、特許［ｉ］に対して、機械学習機能を用いて取得された分類識別子と対になるスコアが予め決められた条件を満たすほど小さい場合、当該特許［ｉ］を学習候補として選択する等しても良い。

以下、本実施の形態における特許情報処理装置１の具体的な動作について説明する。

本具体例では、分類器格納部１１１は、図５のような検索式情報と分類器の対応を格納しているとし、本具体例では、ＩＤ３の検索（ＳＤＩ）を行う場合について説明する。ＩＤ３の検索式情報である「１ａｎｄ２」とは、ＩＤ１の検索式とＩＤ２の検索式とのａｎｄ演算を行う検索式であることを示す。また、「１ａｎｄ２」とは、「公開日が２０１０年３月１日〜２０１０年３月３１日までに公開され、かつ、ＩＰＣセクションがＡ、Ｂ、Ｇ、またはＨの特許」を意味する。

また、本具体例では、ＳＤＩ情報格納部１１２は、図６の検索式情報とＳＤＩ情報（特許１から特許４は２０１０年３月１日以前の特許と仮定）を格納しているものとする。

なお、図５のＩＤ３ならびに図６のＩＤ３のように、分類器Ｃは、関連する特許に「○」と、非関連特許（ノイズ）に空文字に分類する分類器である。

また、本具体例では、分類器Ｃに関して、既学習特許情報格納部１１４は、図７のように、既学習の特許書類とその分類識別子を格納しているものとする。なお、図７において、空白の分類は、分類識別子が空文字であることを意味する。

また、本具体例では、分類器Ｃへの入力および学習候補決定処理はすべてベクトルで行うものとし、分類器Ｃを学習する際に用いた各特許ベクトルを用いて、特許識別子ごとにその重心を事前に算出してあるものとする。

また、本具体例では、学習候補決定部１５は、コサイン距離を用いるものとし、最短距離が０．８を超えた特許について「次に学習するべき特許」と判定するものとする。

先にも述べたように、特許情報処理装置１は、検索式情報ＩＤ１とＩＤ２について、処理を終えたものとする（ステップＳ２０１からステップＳ２１１）。

図５のＩＤ３の検索式情報に対するはじめの処理として、分類器性能情報取得部１４は、分類器Ｃの性能を取得する。なお、この方法についてはより具体的な例を後述する。

次に、検索部１２は、図５のＩＤ３の検索式を用いて特許を検索し（ステップＳ２０４）、分類を行うために必要な情報と、既学習特許情報格納部１１４より学習済みの特許の分類識別子を取得する（ステップＳ２０５）。その結果、図８のような特許情報が取得できたものとする。なお、図８において、分類とは人手によって付与された分類識別子を表し「−」は人手による分類が行われていないことを意味し、これらの特許は未分類特許情報格納部１１３に格納する。

次に、分類部１３は図８の各特許に対して分類識別子を付与する（ステップＳ２０６）。

具体的には、分類部１３は、図８の各特許に対して（ステップＳ３０１、ステップＳ３０２、ステップＳ３０６）、未分類特許情報格納部１１３に含まれ、かつ既学習特許情報格納部１１４に含まれない特許に対して（ステップＳ３０３）分類器Ｃを適用し（ステップＳ３０４）、推定された分類識別子を取得する。人手による分類が行われた特許については、人手によって付与された分類識別子を取得する（ステップＳ３０５）。

次に、学習候補決定部１５は、図８の各特許から次に学習するべき特許を決定する（ステップＳ２０７）。

具体的には、学習候補決定部１５は、図８の各特許のうち、人手による分類が行われていない特許から（ステップＳ４０１、ステップＳ４０２、ステップＳ４０３、ステップＳ４１１）、以下に示すように、次に学習するべき特許を決定する。ここで、人手による分類が行われたか否かについての判定は、ステップＳ３０３と同じである。

学習候補決定部１５は、分類器Ｃの各分類（○と空文字）に対して（ステップＳ４０４、ステップＳ４０５、ステップＳ４０７）、特許［ｉ］との距離を算出する。距離の算出では、事前に算出した各特許識別子の重心と、特許［ｉ］のベクトルのコサイン距離を算出する。例えば、図８のＩＤ１の特許に対して、○との距離０．１５、空文字との距離０．１９が取得されたとする（ステップＳ４０６）。

学習候補決定部１５は、ステップＳ４０６で取得した各距離から最も小さい値（最短距離）を選択する（ＩＤ１の場合は０．１５、ステップＳ４０８）。その後、最短距離が予め定められた条件（距離が０．８以上）を満たすか否か判定し（ステップＳ４０９）、条件を満たす場合、学習候補に特許［ｉ］を追加する。先のＩＤ１の例の場合、最長距離０．１５は条件を満たさないため、ＩＤ１の特許は学習候補に追加されない。

次に、分類識別子出力部１６１および学習候補出力部１６３は、図９のように、各特許について、分類識別子と学習候補の情報を加えて出力を行う（ステップＳ２０８、ステップＳ２０９）。なお、図９では、学習候補の距離をそのまま出力し、予め定めた条件（しきい値０．８以上）を満たす学習候補については下線を引くことで次に学習するべき特許を示している。

最後に、分類性能情報出力部１６２は、図１０のような分類器性能情報取得部１４が取得した分類器性能を出力する（ステップＳ２１０）。

以上のように特許情報処理装置１は動作する。

（分類器性能情報の求め方の一例）
さらに、ここで、分類識別子を直接出力するような一般的な分類器を用いた分類器性能情報の求め方の具体例を説明する。なお、簡単のために、本説明では、２値分類を行う分類器の分類器性能情報を取得する方法について説明する。

はじめに、ＳＤＩ情報格納部１１２（学習に用いたデータを分類器格納部１１１が格納していたらそちらでも代用可能）から、分類器の学習に用いたすべての特許情報を取得する（以下、学習データと呼ぶ）。

次に、２０件、４０件、６０件、……と徐々に数を増やしながらランダムに学習データを取得し、その各々で、先述したＫ分割交差検証を行い学習データの数と評価値（適合率と再現率）を取得する。

その結果、図１１のような学習データサイズと評価値の関係が得られる（Ｋ＝５として交差検証を行った結果）。図１１のように、一般的に、学習データ件数を増やすことで性能（評価値）は向上するとともに安定していく。

例えば、図１１の各値の平均値をみると、式１のような形状の関数に近い形で値が向上していくことが確認できる。

数１において、ｖは評価値（適合率もしくは再現率）を、Ｍは最大評価値を、λは係数、ｓは学習データサイズを表す。

図１１のデータと上記式１との誤差（例えば二乗誤差）が最小になるようなＭとλを求めることで、達成可能な最大性能と必要な学習データ量が予測することができる。

以上の情報を用いて、分類器性能情報取得部１４は、現在の学習データ量で十分最大性能を達成可能か否か（評価値が最大性能に近い値に収束しているか否か）を判定することができる。

以上、本実施の形態によれば、自動的に特許書類を分類できる。

また、本実施の形態によれば、特許検索時に含まれるノイズを効果的に削減することができる。

また、以上、本実施の形態によれば、ユーザは、ノイズを削減する分類器の性能を把握することができる。

また、本実施の形態によれば、ユーザは、分類器が十分に性能を発揮するために必要なデータを把握することができる。

また、本実施の形態によれば、ユーザは、効率的に頑健な分類器の学習を行うことができる。

なお、本実施の形態によれば、一度求めた分類器性能情報は、図示しない分類器格納部１１１に格納しても良い。この場合、人手による分類が新たに行われるまでは、ステップＳ２０３の分類器性能情報取得処理では、格納した分類器性能情報を用いても良い。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、コンピュータがアクセス可能な記録媒体は、検索式を示す検索式情報に対応付けて、前記検索式に基づいて検索された１以上の各特許書類に対して、２以上の分類識別子である分類識別子集合のうちの少なくとも一の分類識別子を付与することにより、人手により分類された分類結果を学習した結果である分類器が格納される分類器格納部を具備し、コンピュータを、前記分類の対象となった特許書類が公開された以降に、新たに公開された１以上の特許書類の中から、前記検索式情報を用いて、１以上の特許書類を取得する検索部と、前記分類器を用いて、前記検索部が取得した１以上の各特許書類に対して、前記２以上の分類識別子のうちの少なくとも一の分類識別子を決定する分類部と、前記検索部が取得した１以上の各特許書類に対応付けて、前記分類部が決定した分類識別子を出力する分類識別子出力部として機能させるためのプログラム、である。

図１２は、上記プログラムを実行して、上記実施の形態による特許情報処理装置１等を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。

図１２において、コンピュータシステム３０００は、ＣＤ−ＲＯＭドライブ３００５を含むコンピュータ３００１と、キーボード３００２と、マウス３００３と、モニタ３００４とを備える。

図１３は、コンピュータシステム３０００の内部構成を示す図である。図１３において、コンピュータ３００１は、ＣＤ−ＲＯＭドライブ３００５に加えて、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ３０１２と、ＭＰＵ３０１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ３０１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク３０１４と、ＭＰＵ３０１１、ＲＯＭ３０１２等を相互に接続するバス３０１５とを備える。なお、コンピュータ３００１は、ＬＡＮやＷＡＮ等への接続を提供する図示しないネットワークカードを含んでいてもよい。

コンピュータシステム３０００に、上記実施の形態による特許情報処理装置１等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３０２１に記憶されて、ＣＤ−ＲＯＭドライブ３００５に挿入され、ハードディスク３０１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ３００１に送信され、ハードディスク３０１４に記憶されてもよい。プログラムは実行の際にＲＡＭ３０１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ３０２１、またはネットワークから直接、ロードされてもよい。また、ＣＤ−ＲＯＭ３０２１に代えて他の記録媒体（例えば、ＵＳＢメモリ等）を介して、プログラムがコンピュータシステム３０００に読み込まれてもよい。

プログラムは、コンピュータ３００１に、上記実施の形態による特許情報処理装置１等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム３０００がどのように動作するのかについては周知であり、詳細な説明は省略する。

なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、一の装置に存在する２以上の通信手段（端末情報送信部、端末情報受信部など）は、物理的に一の媒体で実現されても良いことは言うまでもない。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる特許情報処理装置は、特許群中のノイズを削減することができるという効果を有し、特許情報処理装置等として有用である。

１特許情報処理装置
１１格納部
１１１分類器格納部
１１２ＳＤＩ情報格納部
１１３未分類特許情報格納部
１１４既学習特許情報格納部
１２検索部
１３分類部
１４分類器性能情報取得部
１５学習候補決定部
１６出力部
１６１分類識別子出力部
１６２分類性能情報出力部
１６２分類器性能情報出力部
１６３学習候補出力部

Claims

検索式を示す検索式情報に対応付けて、前記検索式に基づいて検索された１以上の各特許書類に対して、２以上の分類識別子である分類識別子集合のうちの少なくとも一の分類識別子を付与することにより分類された分類結果を学習した結果である分類器が格納される分類器格納部と、
前記検索式情報を用いて、１以上の特許書類を取得する検索部と、
前記分類器を用いて、前記検索部が取得した１以上の各特許書類に対して、前記２以上の分類識別子のうちの少なくとも一の分類識別子を決定する分類部と、
前記検索部が取得した１以上の各特許書類に対応付けて、前記分類部が決定した分類識別子を出力する分類識別子出力部とを具備する特許情報処理装置。
検索式情報と、１以上の各特許書類を識別する特許識別子と、各特許識別子に対応する分類識別子とを有する２以上のＳＤＩ情報が格納されるＳＤＩ情報格納部を更に具備し、
前記分類部は、
ＳＤＩ情報によって、異なる分類識別子集合の中の少なくとも一の分類識別子を決定する請求項１記載の特許情報処理装置。
分類結果の学習の十分であるか否かに関する分類器性能情報を取得する分類器性能情報取得部と、
前記分類器性能情報を出力する分類器性能情報出力部とをさらに具備する請求項１または請求項２記載の特許情報処理装置。
前記分類器性能情報は、
分類の精度に関する精度情報、さらに分類すべき特許書類の数に関する数情報、性能の程度に関する程度情報のうちのいずれか１以上である請求項３記載の特許情報処理装置。
未分類の特許書類の特許識別子を有する２以上の特許情報が格納される未分類特許情報格納部と、
前記２以上の特許情報の中から、人手によりさらに分類すべき特許情報を決定する学習候補決定部と、
前記学習候補決定部が決定した特許情報が認識可能なように出力する学習候補出力部とをさらに具備する請求項１から請求項４いずれか記載の特許情報処理装置。
既に分類した特許書類の１以上の特許情報が格納される既学習特許情報格納部をさらに具備し、
前記学習候補決定部は、
前記１以上の特許情報に対して、予め決められた条件を満たすほど距離が遠い特許情報を前記未分類特許情報格納部から決定する請求項５記載の特許情報処理装置。
検索式を示す検索式情報に対応付けて、前記検索式に基づいて検索された１以上の各特許書類に対して、２以上の分類識別子である分類識別子集合のうちの少なくとも一の分類識別子を付与することにより分類された分類結果を学習した結果である分類器が格納される分類器格納部と、検索部と、分類部と、分類識別子出力部とを用いて処理される特許情報処理方法において、
前記検索部が、
前記検索式情報を用いて、１以上の特許書類を取得するステップと、
前記分類部が、
前記分類器を用いて、前記検索部が取得した１以上の各特許書類に対して、前記２以上の分類識別子のうちの少なくとも一の分類識別子を決定するステップと、
前記分類識別子出力部が、
前記検索部が取得した１以上の各特許書類に対応付けて、前記分類部が決定した分類識別子を出力するステップとを具備する特許情報処理方法。
検索式を示す検索式情報に対応付けて、前記検索式に基づいて検索された１以上の各特許書類に対して、２以上の分類識別子である分類識別子集合のうちの少なくとも一の分類識別子を付与することにより分類された分類結果を学習した結果である分類器が格納される分類器格納部を具備する記録媒体にアクセス可能なコンピュータを、
前記検索式情報を用いて、１以上の特許書類を取得する検索部と、
前記分類器を用いて、前記検索部が取得した１以上の各特許書類に対して、前記２以上の分類識別子のうちの少なくとも一の分類識別子を決定する分類部と、
前記検索部が取得した１以上の各特許書類に対応付けて、前記分類部が決定した分類識別子を出力する分類識別子出力部として機能させるためのプログラム。