JP6782858B2

JP6782858B2 - 文献分類装置

Info

Publication number: JP6782858B2
Application number: JP2019556006A
Authority: JP
Inventors: 真主山口; 安藤　俊幸; 俊幸安藤; 長原　進介; 進介長原
Original assignee: Kao Corp
Current assignee: Kao Corp
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2020-11-11
Anticipated expiration: 2037-11-22
Also published as: US10984344B2; US20200279189A1; EP3716099A1; EP3716099A4; CN111373392B; CN111373392A; WO2019102533A1; JPWO2019102533A1

Description

本発明は、文献を分類する技術に関する。

特許公報、登録実用新案公報、公開特許公報、公表特許公報といった特許又は実用新案に係る文献（以降、特許文献と総称する）には、国際特許分類（ＩＰＣ）、ＦＩ記号、Ｆタームといった分類コードが付されている。その他、特許庁で運用されているコンピュータソフトウェアデータベース（ＣＳＤＢ）に蓄積されている各種文献にもＣＳタームと呼ばれる分類コードが付されているし、社内技報等といった各社で独自の分類コードを付して管理する文献もある。

このような文献に付された分類コードを利用して文献を検索する各種手法が存在している。
下記特許文献１には研究者や開発者が特許文献等の産業財産権に関する文献の検索を容易に行えるように支援する手法が開示されている。この手法では、ユーザにより入力された公報番号を検索キーとした検索の結果からテーマコードとＦタームとを抽出して提示することでＦタームを用いた検索が容易化されている。
下記特許文献２には、分類コードを活用して統計処理することで、短時間で簡便に多くの特許文献の属する技術領域を分析することを可能とする手法が開示されている。この手法は、各々の特許文献に付与された複数の分類コードを抽出し、抽出された分類コードの集合から数値分析用分類コードを選抜し、数値分析により数値分析用分類コードの座標を算出し、数値分析用分類コードの座標に基づいて、各々の特許文献の座標を算出し、特許文献の座標に基づきその密度を表現した所定のマップを作成する。
下記非特許文献１には、各特許文献に対するＦタームの付与されやすさを数値化したＦターム概念ベクトル或いは重み付きＦターム概念ベクトルを作成し、特許文献間の類似度を算出することで、特許検索精度を向上させる手法が開示されている。この手法では、特許文献を学習データとし文献中に出現する形態素ｕｎｉ−ｇｒａｍを素性に用いて学習したＦタームごとのＳＶＭ分類器を用い、そのＳＶＭ分類器からの出力値を用いてＦターム概念ベクトルが生成される。
先行技術文献
特許文献１特開２０１４−２５６３号公報
特許文献２特開２０１５−２０７１７３号公報
非特許文献
非特許文献１目黒光司（他５名），「Ｆターム概念ベクトルを用いた特許検索システムの改良」，言語処理学会第２１回年次大会発表論文集，７６８頁−７７１頁，２０１５年３月

本発明は、各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する文献集合取得手段と、前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成手段と、前記各文献の特徴量ベクトルを用いて、前記被分類文献集合に対して複数回のクラスタ分析を行う分類手段と、前記複数回のクラスタ分析の結果を示す文献分類情報を生成する生成手段と、を備え、前記複数回のクラスタ分析には、Ｋ−Ｍｅａｎｓ法を用いたクラスタ分析及びＡｇｇｌｏｍｅｒａｔｉｖｅ法を用いたクラスタ分析が含まれる。

各実施形態に係る文献分類装置のハードウェア構成例を概念的に示す図である。第一実施形態に係る文献分類装置の制御構成例を概念的に示すブロック図である。特徴量ベクトルの第一の生成イメージを示す概念図である。特徴量ベクトルの第二の生成イメージを示す概念図である。特徴量ベクトルの第三の生成イメージを示す概念図である。第一実施形態に係るおける文献分類装置の動作例を示すフローチャートである。第二実施形態に係る文献分類装置の制御構成例を概念的に示すブロック図である。潜在トピック分析の概念図である。第二実施形態に係るおける文献分類装置の動作例を示すフローチャートである。変形例に係る文献分類装置の制御構成例を概念的に示すブロック図である。図１１（ａ）は５出願人の各々におけるクラスタ毎の文献数を示す表であり、図１１（ｂ）は出願人Ａの特定文献１件と他の文献との類似度の統計情報をクラスタごとにまとめた表である。同一の被分類文献集合をＫ−Ｍｅａｎｓ法クラスタリング及びＡｇｇｌｏｍｅｒａｔｉｖｅ法クラスタリングの各々で分類した結果を示す表である。１０４２次元の特徴量ベクトル及び３５５次元の特徴量ベクトルを用いて同一の被分類文献集合を同一のクラスタ分析で分類した結果を示す表である。１０４２次元の特徴量ベクトル及び文字列検索の結果を要素に加えた１０４３次元の特徴量ベクトルを用いて同一の被分類文献集合を同一のクラスタ分析で分類した結果を示す表である。１０４２次元の特徴量ベクトル及び筆頭ＩＰＣを要素に加えた１０７４次元の特徴量ベクトルを用いて同一の被分類文献集合を同一のクラスタ分析で分類した結果を示す表である。３４５次元の特徴量ベクトル及び１２６次元の特徴量ベクトルを用いて同一の被分類文献集合をクラスタ数の異なる同一のクラスタ分析手法で分類した結果を示す表である。ＬＤＡ法による潜在トピック分析を用いた文献分類の結果を示す表である。図１８（ａ）は１２１次元のＣＳターム特徴量ベクトルを用いたＫ−Ｍｅａｎｓ法クラスタリングにより６クラスタに分類した結果を示す表であり、図１８（ｂ）は図１８（ａ）と同一のＣＳターム特徴量ベクトルを用いた同一のクラスタリングにより３クラスタに分類した結果を示す表である。

発明の詳細な説明

上述の特許文献１及び非特許文献１の手法は、特定の文献又は内容と同一又は近似する内容が記載された文献を容易に或いは或る程度の精度で探し出すことができるかもしれない。しかしながら、そのような手法を用いたとしても、所望の文献をピンポイントで見つけ出すことは困難であり、そのためには、ほとんどの場合、或る程度の数の文献を読み込む必要が生じる。
一方で、或る程度広範な検索により数百件程度の文献集合を抽出し、この文献集合について概要や傾向といった全体像を分析し把握したい場合がある。また、特定の検索で抽出された文献集合には明らかに不必要な文献が含まれる場合がほとんどであり、そのような検索上のノイズを除外するために、すべての文献を読む必要が生じる。
本発明は、文献集合の全体像把握を容易化する文献分類装置、文献分類方法、このような文献分類方法を少なくとも一つのコンピュータに実行させるコンピュータプログラム、及び、このようなコンピュータプログラムを記録したコンピュータが読み取り可能な記憶媒体に関するものである。この記憶媒体は、非一時的な有形の媒体を含む。全体像把握を容易化することで、読み込むべき文献や注目すべき文献を絞ること、読み込む優先順位を付すこと等も可能となる。

以下、本発明の好ましい実施形態の例（以降、本実施形態と表記する）について説明する。なお、以下に挙げる各実施形態はそれぞれ例示であり、本発明は以下の各実施形態の構成に限定されない。

まず、後述の各実施形態に係る文献分類装置の概要について説明する。
図１は、各実施形態に係る文献分類装置１０（以降、本装置１０と表記する場合もある）のハードウェア構成例を概念的に示す図である。
本装置１０は、いわゆるコンピュータ（情報処理装置）であり、例えば、バスで相互に接続される、ＣＰＵ（Central Processing Unit）１１、メモリ１２、入出力インタフェース（Ｉ／Ｆ）１３、通信ユニット１４等を有する。本装置１０を形成する各ハードウェア要素の数はそれぞれ制限されず、これらハードウェア要素は情報処理回路と総称することもできる。また、本装置１０は、図示されないハードウェア要素を含んでもよく、そのハードウェア構成は制限されない。

ＣＰＵ１１は、一般的なＣＰＵ以外に、特定用途向け集積回路（ＡＳＩＣ）、ＤＳＰ（Digital Signal Processor）、ＧＰＵ（Graphics Processing Unit）等で構成してもよい。
メモリ１２は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、補助記憶装置（ハードディスク等）である。メモリ１２には文献分類プログラム（コンピュータプログラム）１８が格納されている。文献分類プログラム１８は、例えば、ＣＤ（Compact Disc）、メモリカード等のような可搬型記録媒体やネットワーク上の他のコンピュータから入出力Ｉ／Ｆ１３又は通信ユニット１４を介してインストールされ、メモリ１２に格納されてもよい。
入出力Ｉ／Ｆ１３は、出力装置１５、入力装置１６等のユーザインタフェース装置と接続可能である。出力装置１５は、ＬＣＤ（Liquid Crystal Display）やＣＲＴ（Cathode Ray Tube）ディスプレイのような、ＣＰＵ１１等により処理された描画データに対応する画面を表示する装置、印刷装置等の少なくとも一つである。入力装置１６は、キーボード、マウス等のようなユーザ操作の入力を受け付ける装置である。出力装置１５及び入力装置１６は一体化され、タッチパネルとして実現されてもよい。
通信ユニット１４は、他のコンピュータとの通信網を介した通信や、他の機器との信号のやりとり等を行う。通信ユニット１４には、可搬型記録媒体等も接続され得る。

本装置１０のユーザインタフェースは、本装置１０の入出力Ｉ／Ｆ１３に接続される出力装置１５及び入力装置１６で実現されてもよいし、本装置１０の通信ユニット１４を介して接続される外部コンピュータの出力装置１５及び入力装置１６で実現されてもよい。前者の場合、本装置１０で生成される後述の文献分類情報は、本装置１０の入出力Ｉ／Ｆ１３に接続される出力装置１５から出力される。また、後者の場合には、本装置１０は、サーバ装置として動作し、本装置１０で生成される文献分類情報は、クライアント装置として動作する外部コンピュータの出力装置１５から出力される。

後述の各実施形態に係る文献分類装置１０は、少なくとも、文献集合取得手段と、ベクトル生成手段と、分類手段と、生成手段とを備える。言い換えれば、各文献分類装置１０は、文献集合取得工程と、ベクトル生成工程と、分類工程と、生成工程とを含む文献分類方法を実行可能である。これら各手段又は各工程は、メモリ１２に格納される文献分類プログラム１８がＣＰＵ１１で実行されることにより実現される。

文献集合取得手段（文献集合取得工程）は、各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する。
文献集合取得手段は、被分類文献集合の情報を外部のコンピュータ、機器、可搬型記録媒体等から入出力Ｉ／Ｆ１３又は通信ユニット１４を介して取得してもよいし、後述の第一実施形態のように文献分類装置１０内の検索部２１から取得してもよい。文献集合取得手段の一具体例が後述の取得部２２である。

ここで「多観点分類に基づく分類コード」とは、文献を様々な観点（多観点）で分類する分類体系を識別するコードデータである。このため、多観点分類に基づく分類コードが付与される文献のほとんどにはこの分類コードが複数種、付与される。
この分類コードには、例えば、Ｆターム、ＣＳコード等がある。他の例として、文献を多観点で評価して分類する評価コードであってもよい。具体的には、文章構成「Ａ」、明瞭性「Ｂ」、正確性（誤記等の少なさ）「Ｃ」等の多観点の各評価項目コードと、最高「５」から最低「１」までの評価点コードとから形成される評価コード（「Ａ５」、「Ｂ３」、「Ｃ２」等）であってもよい。但し、多観点分類に基づく分類コードはこのような例に限定されない。
「被分類文献集合」とは、分類対象とされる文献の集合である。被分類文献集合の各文献は、１種以上の多観点分類に基づく分類コードが予め付与された文献であればよく、その内容は特に限定されない。

ベクトル生成手段（ベクトル生成工程）は、当該被分類文献集合に付与されている分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを当該被分類文献集合の各文献についてそれぞれ生成する。ベクトル生成手段の一具体例が後述のベクトル生成部２３である。
生成される特徴量ベクトルの次元数の上限は、計算負荷やデータ容量等で許容される範囲であれば、特に制限されない。その次元数の下限は、分類数（クラスタ数）よりも大きければよい。
また、特徴量ベクトルの要素として用いる分類コードは、被分類文献集合の各文献に付与されている全種であってもよいし、一部の種であってもよく、望まれる分類仕様に従って適宜決められればよい。例えば、被分類文献集合がＣＳＤＢから抽出された文献集合である場合、その文献集合の各文献に付与されている全種（ＣＣ００からＣＣ０９、ＤＤ００からＤＤ１５、ＪＪ００からＪＪ７８等）が特徴ベクトルの要素として用いられてもよいし、一部の種（ＪＪ００からＪＪ７８のみ）が特徴ベクトルの要素として用いられてもよい。
また「分類コードの全種又は一部の種を各要素とする」とは、分類コード自体を特徴ベクトルの要素値とするという意味ではなく、その要素に対応する分類コードがその文献に付与されているか否かを示す値（１／０）、又は、それに重み付けされた値を要素値とすることを意味する。

分類手段（分類工程）は、ベクトル生成手段により生成された各文献の特徴量ベクトルを用いて、被分類文献集合を分類する。分類手段の一具体例が後述のクラスタリング部２４及び潜在トピック分析部２７である。
分類手段による具体的な分類手法は、多観点分類に基づく分類コードを各要素とする多次元の特徴量ベクトルを用いて、被分類文献集合を複数の部分文献集合に分類可能であれば、特に制限されない。後述の各実施形態では、クラスタ分析及び潜在トピック分析を用いた分類手法が例示されている。

生成手段（生成工程）は、分類手段による分類の結果を示す文献分類情報を生成する。生成手段の一具体例が後述の生成部２５である。
生成手段により生成される文献分類情報は、被分類文献集合の分類結果を示す情報であれば、その具体的内容は制限されない。例えば、文献分類情報は、分類手段による分類で分けられた各部分集合を識別する分類識別データ（クラスタ番号等）と、被分類文献集合の少なくとも一部の各文献の文献識別データと、が関連付けられた情報であってもよい。
生成手段により生成された文献分類情報は、出力装置１５への表示、印刷等により出力されてもよいし、入出力Ｉ／Ｆ１３又は通信ユニット１４を介して電子ファイルとして外部に送信されてもよい。

このように、後述の各実施形態では、被分類文献集合の各文献について多観点分類に基づく分類コードを各要素とする多次元の特徴量ベクトルが生成され、この特徴量ベクトルを用いて被分類文献集合が分類される。各文献における多観点分類に基づく分類コードの付与パターンは、その文献の内容に対応しているため、分類コードを各要素とする特徴量ベクトルは、その文献の内容的特徴を表すといえる。このため、この特徴量ベクトルを用いて分類された文献の集合は、内容的特徴が似通った文献の集まりと考えられる。
従って、各実施形態で生成される文献分類情報を用いることで、被分類文献集合の全体像の把握が容易となる。例えば、部分集合ごとに属する文献を数件程度読むことにより、部分集合ごとの内容傾向が把握可能となり、結果、被分類文献集合の全体像を把握できる。また、部分集合ごとの内容傾向が把握できれば、特定の文献又は内容と同一又は近似する内容の文献を特定するのに、読み込む対象とする文献を或る部分集合のみに絞ることもできる。

但し、文献分類方法は生成工程を含まなくてもよいし、上述の各工程には人の手が部分的に介在してもよい。例えば、分類工程においてコンピュータにより特定の分析手法が実行され、その実行結果の出力を人が参照し、各文献の分類や文献分類情報の作成は人により実施されてもよい。

以下、各実施形態に係る文献分類装置１０についてより詳細に説明する。
以下の各実施形態では、説明の便宜のために、特許文献を対象とし、多観点分類に基づく分類コードとしてＦタームを用いる例を挙げることとする。但し、各実施形態に係る文献分類装置１０で扱うことができる文献は特許文献に制限されないし、多観点分類に基づく分類コードもＦタームに制限されない。以降、特許文献は文献と略称される。
本明細書において「Ｆターム」とは、説明の便宜のために、「テーマコード」を含めた形式を指すこととする。このため、「Ｆターム」は、例えば、「テーマコード（英数字）５桁」＋「観点（英字）２桁」＋「数字２桁」、又は、前記「数字２桁」の末尾に記載される１文字の英数字（付加コードと呼ばれる）まで含めた表記形式で示される。但し、「Ｆターム」が「テーマコード」を含まない形式を指す場合にも、実施可能であることは言うまでもない。

［第一実施形態］
〔文献分類装置〕
第一実施形態に係る文献分類装置１０のハードウェア構成は、図１に例示されるとおりである。本装置１０は、上述したとおり、サーバ装置として動作してもよいし、スタンドアローン装置として動作してもよい。

図２は、第一実施形態に係る文献分類装置１０の制御構成例を概念的に示すブロック図である。
本装置１０は、検索部２１、取得部２２、ベクトル生成部２３、クラスタリング部２４、生成部２５を有する。これらは、ソフトウェア要素（モジュール）であり、例えば、メモリ１２に格納される文献分類プログラム１８がＣＰＵ１１により実行されることにより実現される。

検索部２１は、各文献についてＦタームがそれぞれ付与された文献情報を格納する文献データベースから被分類文献集合の文献情報を抽出する。
文献データベースは、本装置１０のメモリ１２に格納されていてもよいし、外部のコンピュータのメモリに格納されていてもよい。後者の場合、検索部２１は、通信ユニット１４を介して当該外部のコンピュータと通信を行うことで、文献データベースにアクセスすればよい。
検索部２１は、検索条件の入力画面を出力装置１５に表示させ、その入力画面に対して入力装置１６を用いたユーザ操作により入力された検索条件の情報（検索式等）を取得し、この情報を用いて検索を実行することができる。

取得部２２は、検索部２１により抽出された、被分類文献集合の文献情報を取得する。このとき、取得部２２は、その文献情報を外部へ出力可能な電子ファイルとして取得してもよいし、メモリ１２に格納される生データとして取得してもよい。ここでの「文献情報を取得する」とは、文献情報を読み込むと言い換えることができる。
取得される文献情報は、被分類文献集合の各文献についての文献識別データ及びＦタームデータを含んでいればよく、その具体的な内容は制限されない。例えば、被分類文献集合が特許文献ならば、出願番号、出願公開番号、特許登録番号、出願人／権利者、ＩＰＣ、ＦＩ、Ｆターム、要約、特許請求の範囲等の情報が取得可能である。

ベクトル生成部２３は、上述したように、被分類文献集合の各文献に関して特徴量ベクトルをそれぞれ生成する。
このとき、ベクトル生成部２３は、取得部２２で取得された文献情報に含まれるＦタームの全種を特定し、特定された各Ｆタームを各要素とする特徴量ベクトルを生成してもよい。また、ベクトル生成部２３は、取得部２２で取得された文献情報に含まれるＦタームの全種の中の一部を特定し、その特定された各Ｆタームを各要素とする特徴量ベクトルを生成してもよい。この場合、ベクトル生成部２３は、当該文献情報に含まれるＦターム全種を出力装置１５に表示させ、その中から特徴量ベクトルの要素として用いるＦタームをユーザに選択させてもよい。この場合、ベクトル生成部２３は、ユーザにより選択されたＦターム種を各要素とする特徴量ベクトルを生成すればよい。

図３は、特徴量ベクトルの第一の生成イメージを示す概念図である。
図３の上部には、特徴量ベクトルの要素として用いるＦターム群が示されている。ベクトル生成部２３は、上述のように特徴量ベクトルの要素として用いるＦターム種の数を特徴量ベクトルの要素数とし、図３に例示されるように、各文献の特徴量ベクトルを生成する。例えば、ベクトル生成部２３は、取得部２２で取得された文献情報に基づいて、被分類文献集合に含まれる文献ごとに、特徴量ベクトルの各要素に対応するＦタームが付与されているか否かをそれぞれ判定し、付与されているＦタームに対応する要素の値を「１」とし、付与されていないＦタームに対応する要素の値を「０」とする。

但し、要素の値は必ずしも「１」又は「０」とされなくてもよく、重み付けが行われてもよい。例えば、ベクトル生成部２３は、被分類文献集合の全ての文献に付されているＦタームに対応する要素については重み付けを小さくし、被分類文献集合の全てではないが多くの文献に付されているＦタームに対応する要素については重み付けを大きくしてもよい。また、注目するＦタームに対応する要素については重み付けを大きくすることもできる。
更に言えば、ベクトル生成部２３は、図３に示されるような重み付け前の特徴量ベクトルのリストをユーザが編集できるように電子ファイルに格納してもよい。また、ベクトル生成部２３は、入力装置１６を用いたユーザ操作により特徴量ベクトルを編集できるように、重み付け前の特徴量ベクトルを出力装置１５に表示させることもできる。

Ｆタームは、上述したように、先頭から５桁の英数字で示されるテーマコード、英字２桁で示される観点、数字２桁で示される或る観点における分類内容等から構成されている。即ち、Ｆタームは、階層構造を有し、階層ごとの部分コードにより形成されているといえる。具体的には、最上位階層の部分コードがテーマコードであり、第二位階層の部分コードが観点コード（英字２桁）であり、第三位階層の部分コードが観点内分類コード（数字２桁）である。付加コードは最下位層の部分コードとしてもよい。
そこで、Ｆタームの中の最上位階層から所定階層までの部分コードを特徴量ベクトルの一要素に対応付けることもできる。即ち、ベクトル生成部２３は、被分類文献集合に付与されている分類コードの一部の種における分類コードの中の最上位階層から所定階層までの部分コードに対応する要素を含む特徴量ベクトルを生成してもよい。

図４は、特徴量ベクトルの第二の生成イメージを示す概念図である。
図４の例では、Ｆタームの最上位階層のテーマコード「４Ｃ１１７」が特徴量ベクトルの一要素に対応付けられている。これにより、テーマコード「４Ｃ１１７」を持つＦターム「４Ｃ１１７ＸＢ０１」、「４Ｃ１１７ＸＢ１３」、「４Ｃ１１７ＸＤ０５」、及び「４Ｃ１１７ＸＥ３６」のいずれか一つでも付与されている文献の特徴量ベクトルでは、テーマコード「４Ｃ１１７」に対応する要素の値が「１」に設定されることになる。
これにより、細かい分類の詳細な情報が必要とならないＦタームはまとめて１要素とすることができるため、目的に沿った分類が可能となる。また、複数種のＦタームをまとめて特徴量ベクトルの１要素に表すことができるため、特徴量ベクトルの要素数を削減することができ、計算負荷を軽減させることができる。

また、ベクトル生成部２３は、被分類文献集合の各文献について２以上の特徴量ベクトルをそれぞれ生成してもよい。即ち、ベクトル生成部２３は、被分類文献集合に付与されている分類コードの一部の種を各要素とする第一の特徴量ベクトルを被分類文献集合の各文献についてそれぞれ生成し、更に、残りの分類コードの少なくとも一部の種を各要素とする第二の特徴量ベクトルを被分類文献集合又は被分類文献集合の一部の各文献についてそれぞれ生成してもよい。
各文献について２以上の特徴量ベクトルが生成される場合、直交性を有するＦターム群が一つの特徴量ベクトルの要素として用いられることが好ましい。ここでのＦターム間の直交性とは、Ｆターム相互に無相関である或いは関連性が低い関係を意味する。Ｆタームのような分類コードは、多観点分類に基づいているため、観点間には或る程度の相関性を示すものあれば、関連性が低いものも有り得る。Ｆタームの例では、テーマコード及び観点（７桁）より下位が異なるＦタームどうしは直交性を有するということもできる。このような直交性を有するＦターム群で一つの特徴量ベクトルを生成することで、文献の特徴を高精度に表す特徴量ベクトルを生成することができる。

図５は、特徴量ベクトルの第三の生成イメージを示す概念図である。
図５の例では、第一の特徴量ベクトルは、被分類文献集合に付与されているＦタームの全種のうち「４Ｃ０８３ＡＡ」、「４Ｃ０８３ＡＢ」、「４Ｃ０８３ＡＣ」、及び「４Ｃ０８３ＡＤ」を含むＦタームを各要素とし、第二の特徴量ベクトルは、当該Ｆタームの全種のうち「４Ｃ０８３ＣＣ」及び「４Ｃ０８３ＤＤ」を含むＦタームを各要素として生成される。これにより、被分類文献集合の各文献について第一及び第二の特徴量ベクトルがそれぞれ生成される。

クラスタリング部２４は、ベクトル生成部２３により生成された特徴量ベクトルを用いて、被分類文献集合に対してクラスタ分析を行い、被分類文献集合を複数のクラスタに分類する。クラスタ分析には、最短距離法（単リンク法）、最長距離法（完全リンク法）、最小分散法（Ｗａｒｄ法）、メジアン法、Ｋ−Ｍｅａｎｓ法等、様々な手法が存在する。ここでのクラスタ分析の具体的手法は制限されない。
例えば、Ｋ−Ｍｅａｎｓ法が用いられる場合、クラスタリング部２４は、Ｅｌｂｏｗ法等を用いてクラスタ数を算出することもできる。また、クラスタリング部２４は、クラスタ数の入力画面を出力装置１５に表示させ、その入力画面に対して入力されたクラスタ数を用いてもよい。

また、クラスタリング部２４は、当該特徴量ベクトルを用いて、被分類文献集合に対して複数回のクラスタ分析を行ってもよい。この場合、クラスタリング部２４は、各回で異なるクラスタ数を用いたクラスタ分析をそれぞれ行ってもよいし、各回で異なるクラスタ分析手法（例えば、Ｋ−Ｍｅａｎｓ法とＷａｒｄ法等）を用いて複数回のクラスタ分析（アンサンブルクラスタリング）を行ってもよい。

各文献について二以上の特徴量ベクトルが生成されている場合、クラスタリング部２４は、各特徴量ベクトルを用いて複数のクラスタ分析を行うことができる。このとき、クラスタリング部２４は、各特徴量ベクトルを用いて被分類文献集合に対してクラスタ分析をそれぞれ行ってもよいし、一つの特徴量ベクトルを用いて被分類文献集合に対してクラスタ分析を行い、分類された一以上の各クラスタに対して他の特徴量ベクトルを用いて更にクラスタ分析を行ってもよい。即ち、各文献について第一及び第二の特徴量ベクトルがそれぞれ生成されている場合、クラスタリング部２４は、第一の特徴量ベクトルを用いて被分類文献集合に対して第一の分類を行い、更に、第二の特徴量ベクトルを用いて、被分類文献集合又は第一の分類の結果により得られる少なくとも一つの部分文献集合に対して第二の分類を行ってもよい。

生成部２５は、クラスタリング部２４によるクラスタ分析の結果を示す文献分類情報を生成する。例えば、生成部２５は、クラスタ分析で分けられた各クラスタの識別データと、各クラスタに属する各文献の文献識別データとが関連付けられた文献分類情報を生成することができる。このとき、生成部２５は、取得部２２により取得された被分類文献集合の文献情報に各クラスタの識別データを加えることで当該文献分類情報を生成してもよい。

複数回のクラスタ分析が行われている場合、生成部２５は、文献の文献識別データに対してクラスタ分析ごとの複数のクラスタ識別データが関連付けられた文献分類情報を生成する。即ち、生成部２５は、第一の分類で分けられた各部分集合を識別する第一の分類識別データ及び第二の分類で分けられた各部分集合を識別する第二の分類識別データと、被分類文献集合の少なくとも一部の各文献の文献識別データとが関連付けられた文献分類情報を生成する。
このようにすれば、複数のクラスタリングの対象となった文献については、多面的な分類の結果が示され、結果として、多面的な観点で被分類文献集合の全体像の把握が可能となる。

生成部２５は、生成した文献分類情報を出力装置１５から表示、印刷等で出力することができる。また、生成部２５は、可搬型記録媒体等に格納したり、外部のコンピュータに通信で送るために、文献分類情報をファイル化しサーバに格納することもできる。

〔文献分類方法／動作例〕
以下、第一実施形態に係る文献分類方法について説明する。
図６は、第一実施形態に係るおける文献分類装置１０の動作例を示すフローチャートである。第一実施形態に係る文献分類方法は、本装置１０のような少なくとも一つのコンピュータにより実行される。図６に示される各工程は、本装置１０が有する上述の各構成の処理内容と同様であるため、各工程の詳細は、適宜省略される。

本実施形態に係る文献分類方法は、工程（Ｓ１１）、工程（Ｓ１３）、工程（Ｓ１５）、及び工程（Ｓ１７）を含む。
本装置１０は、各文献についてＦタームがそれぞれ付与された文献情報を格納する文献データベースから被分類文献集合の文献情報を抽出する（Ｓ１１）。このとき、本装置１０は、ユーザにより入力された検索条件の情報を取得してもよい。また、上述したとおり、文献データベースが外部のコンピュータ（サーバ装置）上に存在する場合には、本装置１０は、そのコンピュータに検索条件を指定して文献情報の抽出を要求してもよい。

本装置１０は、工程（Ｓ１１）で抽出された文献情報で示される被分類文献集合の各文献についてＦタームの特徴量ベクトルをそれぞれ生成する（Ｓ１３）。このとき、特徴量ベクトルの要素として用いられるＦタームは、被分類文献集合に付与されるＦタームの全種であってもよいし、その一部の種であってもよい。本装置１０は、特徴量ベクトルの要素として用いるＦタームをユーザに選択させることもできる。
特徴量ベクトルの生成手法については上述したとおりである。

続いて、本装置１０は、工程（Ｓ１３）で生成されたＦタームの特徴量ベクトルを用いて、被分類文献集合に対してクラスタ分析を適用し、被分類文献集合を複数のクラスタに分類する（Ｓ１５）。各文献について二以上の特徴量ベクトルが生成されている場合、本装置１０は、各特徴量ベクトルを用いて複数のクラスタ分析を行うことができる。
クラスタ分析の手法については上述したとおりである。

本装置１０は、工程（Ｓ１５）におけるクラスタ分析の結果に基づいて、被分類文献集合の文献分類情報を生成する（Ｓ１７）。文献分類情報についても上述したとおりである。
このような文献分類方法は、本装置１０のみにより実行されてもよいし、複数の装置（コンピュータ）により実行されてもよい。例えば、工程（Ｓ１１）は、外部のコンピュータにより実行され、その他の各工程（Ｓ１３）から工程（Ｓ１７）が本装置１０により実行されてもよい。
また、上述の各工程には、人の手が部分的に介在してもよい。例えば、工程（Ｓ１１）で検索条件を指定したり、検索の実行を指示するのは、ユーザ操作であってもよい。また、工程（Ｓ１３）においても、特徴量ベクトルの要素への重み付けや、特徴量ベクトルの要素として用いるＦタームの選択は、ユーザにより行われてもよい。

［第二実施形態］
上述の第一実施形態では、被分類文献集合の分類にクラスタ分析が用いられた。以下に説明する第二実施形態では、潜在トピック分析と呼ばれる他の分類手法が用いられる。以下、第二実施形態に係る文献分類装置及び文献分類方法について、第一実施形態と異なる内容を中心説明する。以下の説明では、第一実施形態と同様の内容については適宜省略する。

〔文献分類装置〕
第二実施形態に係る文献分類装置１０（以降、本装置１０と表記する場合もある）のハードウェア構成についても、図１に例示されるとおりである。本装置１０は、上述したとおり、サーバ装置として動作してもよいし、スタンドアローン装置として動作してもよい。

図７は、第二実施形態に係る文献分類装置１０の制御構成例を概念的に示すブロック図である。
本装置１０は、第一実施形態におけるクラスタリング部２４の代わりに、潜在トピック分析部２７を有している。潜在トピック分析部２７もソフトウェア要素（モジュール）であり、例えば、メモリ１２に格納される文献分類プログラム１８がＣＰＵ１１により実行されることにより実現される。

潜在トピック分析部２７は、ベクトル生成部２３により生成された特徴量ベクトルに対して潜在トピック分析を適用し、この分析結果に基づいて被分類文献集合を分類する。
潜在トピック分析は、潜在的ディリクレ配分法（ＬＤＡ（Latent Dirichlet Allocation））を代表とするトピックモデルに基づく分析手法である。トピックモデルとは、文書のテキストデータ群からトピックを探し出す手法の総称である。
本発明者らは、文献はトピックの集合体であり、文献に付与される多観点分類に基づく分類コードがその文献のトピックを形成すると考えた。そして、文書解析に主に用いられる潜在トピック分析を、多観点分類に基づく分類コードが付与された文献集合の分類に利用することで、文献集合を内容に応じて的確に分類できることを見出したのである。

図８は、潜在トピック分析の概念図である。
図８に示されるように、ここで用いられる潜在トピックは、多観点分類に基づく分類コード（Ｆターム等）の出現確率の分布で表され、潜在トピック分析により被分類文献集合の各文献について潜在トピックの配合比率が算出される。
即ち、潜在トピック分析部２７は、Ｆタームの付与状況を示す各文献の特徴量ベクトルを入力として潜在トピック分析を実行することで、Ｆタームの出現確率の分布で表される潜在トピックリストと、被分類文献集合の各文献についての潜在トピックの配合比率とが出力される。言い換えれば、潜在トピック分析部２７は、被分類文献集合の各文献の特徴量ベクトルに対して、分類コードの出現確率の分布で表される潜在トピックを用いた潜在トピック分析を適用することにより、被分類文献集合の各文献について潜在トピックの配合比率を算出する。

潜在トピック分析部２７は、潜在トピック分析で算出された潜在トピックの配合比率に基づいて、被分類文献集合を分類することができる。例えば、潜在トピック分析部２７は、潜在トピックの配合比率中、最も高い比率を示す潜在トピックをその文献の代表トピックとして選択し、潜在トピックごとにその潜在トピックを代表トピックとする文献の集合で、被分類文献集合を分類することができる。
また、潜在トピックの閾値で分類することもでき、一つの文献に関して閾値よりも高い比率の潜在トピックが複数存在する場合には、その文献については複数の潜在トピックを代表トピックに決定することもできる。この場合には、その文献は複数の分類に属することとされる。また、何れにも属さない文献も分類し得る。

潜在トピック分析のトピック数は、予め指定されていてもよいし、ユーザにより入力されてもよい。後者の場合、潜在トピック分析部２７は、トピック数の入力画面を出力装置１５に表示させ、その入力画面に対して入力されたトピック数を取得することができる。
また、潜在トピック分析部２７は、特定のトピック数による潜在トピック分析を行い、その結果として得られる各文献の潜在トピックの配合比率に基づいてトピック数を自動変更し、その変更されたトピック数により再度、潜在トピック分析を行うようにしてもよい。
潜在トピック分析部２７は、トピック数を変えながら、潜在トピック分析を複数回実行してもよい。この場合、潜在トピック分析の結果ごとに各文献が分類されればよい。

本実施形態では、生成部２５は、代表トピックとされた潜在トピックの識別データと、文献の識別データとが関連付けられた形で文献分類情報を生成することができる。複数の代表トピックを持つ文献については、複数の潜在トピックの識別データが関連付けられればよい。同様に、複数回の潜在トピック分析が行われた場合にも、各文献の識別データに複数の潜在トピックの識別データが関連付けられればよい。

〔文献分類方法／動作例〕
以下、第二実施形態に係る文献分類方法について説明する。
図９は、第二実施形態に係るおける文献分類装置１０の動作例を示すフローチャートである。第二実施形態に係る文献分類方法は、本装置１０のような少なくとも一つのコンピュータにより実行される。図９に示される各工程は、本装置１０が有する上述の各構成の処理内容と同様であるため、各工程の詳細は、適宜省略される。

本実施形態に係る文献分類方法は、工程（Ｓ２１）、工程（Ｓ２３）、工程（Ｓ２５）、工程（Ｓ２７）、及び工程（Ｓ２９）を含む。工程（Ｓ２１）及び工程（Ｓ２３）は、図６に示される工程（Ｓ１１）及び工程（Ｓ１３）と同様である。
第二実施形態では、本装置１０は、工程（Ｓ２３）で生成されたＦタームの特徴量ベクトルに対して潜在トピック分析を適用する（Ｓ２５）。潜在トピック分析手法については上述したとおりである。潜在トピック分析の結果、被分類文献集合の各文献についての潜在トピックの配合比率が算出される。
このとき、本装置１０は、潜在トピック分析のトピック数をユーザに指定させてもよいし、自動で決定してもよい。

続いて、本装置１０は、工程（Ｓ２５）で算出された文献ごとの潜在トピックの配合比率に基づいて、被分類文献集合を分類する（Ｓ２７）。工程（Ｓ２７）での分る手法についても上述した通りである（潜在トピック分析部２７）。
工程（Ｓ２７）の分類結果に基づいて、本装置１０は、被分類文献集合の文献分類情報を生成する（Ｓ２９）。文献分類情報の生成手法についても上述したとおりである（生成部２５）。

但し、工程（Ｓ２７）及び工程（Ｓ２９）では、人の手が介在してもよい。例えば、本装置１０は、文献ごとの潜在トピックの配合比率を出力装置１５に表示させ、その表示に基づいてユーザが文献の分類を指定してもよい。このとき、ユーザは、文献ごとに各分類の識別データを入力してもよい。また、本装置１０が文献ごとの潜在トピックの配合比率を格納する電子ファイルを作成し、この電子ファイルに対してユーザが文献ごとに各分類の識別データを入力してもよい。また、工程（Ｓ２１）及び工程（Ｓ２３）について人の手が介在してもよいのは、第一実施形態で述べた通りである。

このように第二実施形態では、文献の分類手法として、分類コード（Ｆターム）の出現確率の分布で表される潜在トピックを用いた潜在トピック分析が用いられ、文献ごとの潜在トピックの配合比率に基づいて被分類文献集合が分類される。潜在トピック分析を用いても第一実施形態と同様の効果を得ることができる。

［変形例］
特徴量ベクトルの生成手法は上述のような例に限定されず、多観点分類に基づく分類コード（Ｆターム等）を用いた手法であれば種々変形可能である。
当該特徴量ベクトルにＦターム以外の他の要素が加えられてもよい。
例えば、特許文献には、Ｆタームに加えて、ＩＰＣやＦＩといった分類コードも付与されている。ＩＰＣやＦＩは、文献の主題を総括的に分類するコード体系であり、単観点分類に基づく分類コードとも呼ばれる。このように、多観点分類に基づく分類コードに加えて、文献内容の主題を総括的に分類する他の分類に基づく他分類コードが被分類文献集合の各文献に付与されている場合には、当該他分類コードが付与されているか否かに対応する要素が特徴量ベクトルに加えられてもよい。

この場合、ベクトル生成部２３は、被分類文献集合に付与されている多観点分類に基づく分類コードの全種又は一部の種を要素とすると共に、被分類文献集合に付与されている当該他分類コードの全種又は一部の種を要素として更に含む特徴量ベクトルを生成する。上述の各実施形態では、被分類文献集合に付与されているＩＰＣ若しくはＦＩ又はそれらの両方の全種又は一部の種を要素として更に含む特徴量ベクトルが生成されてもよい。

文献の主題を総括的に分類するような他の分類体系の分類コードに対応する要素を更に特徴量ベクトルに加えることで、文献の特徴を高精度に表す特徴量ベクトルを生成することができ、ひいては、文献の分類精度を向上させることができる。

他の例として、各文献が所定のキーワードを含むか否かが特徴量ベクトルの要素に付加されてもよい。また、各文献の所定の記載箇所（特許請求の範囲、要約書、発明が解決しようとする課題の項等）に所定のキーワードが含まれるか否かが要素として付加されてもよい。
図１０は、変形例に係る文献分類装置１０の制御構成例を概念的に示すブロック図である。図１０に示されるように、上述の各実施形態に係る文献分類装置１０は、被分類文献集合の各文献に対して所定文字列の検索を行う文字列検索部２９を更に有していてもよい。文字列検索部２９もソフトウェア要素（モジュール）であり、例えば、メモリ１２に格納される文献分類プログラム１８がＣＰＵ１１により実行されることにより実現される。図１０には、第一実施形態に係る文献分類装置１０の変形例が示されているが、第二実施形態に係る文献分類装置１０も同様に変形可能であることは言うまでもない。

検索に用いる文字列（検索文字列）は、予め決められていてもよいし、ユーザにより指定されてもよい。後者の場合、文字列検索部２９は、検索文字列の入力画面を出力装置１５に表示させ、この入力画面に対して入力された文字列データを取得してもよい。例えば、ユーザは、文献の分類を行う目的に応じた検索文字列を指定することができる。
文字列検索部２９は、取得部２２で取得された被分類文献集合の文献情報から各文献の文献識別データを抽出し、その文献識別データのリスト及び当該検索文字列を検索条件として文献データベースを再度検索することにより、被分類文献集合の各文献について検索文字列の有無をそれぞれ判定することができる。
被分類文献集合の各文献の検索元となるデータ（特許請求の範囲や要約書等の記載データ）が取得部２２で取得されている場合には、文字列検索部２９は、取得部２２で取得されているデータに対して検索文字列の検索を行ってもよい。

ベクトル生成部２３は、検索文字列の検索結果に対応する要素を更に含む特徴量ベクトルを生成する。例えば、ベクトル生成部２３は、検索文字列を含むか否かを示す要素値に設定する。
ベクトル生成部２３は、多観点分類に基づく分類コード（Ｆターム等）に加えて、このような検索文字列を含むか否かと、上述の他分類体系の他分類コードが付与されているか否かとの両方を要素とする特徴量ベクトルを生成することができる。

このように検索文字列の検索結果に対応する要素を更に特徴量ベクトルに加えることで、分類の目的に合った文献の特徴を高精度に表す特徴量ベクトルを生成することができ、ひいては、ユーザにとって所望の文献分類を行うことが可能となる。

また、ベクトル生成部２３により生成される文献ごとの特徴量ベクトルを用いることで、文献間の類似度や文献とクラスタとの類似度、クラスタ間の類似度等を求めることもできる。例えば、文献間の類似度として、文献ごとの特徴量ベクトルの余弦類似度（余弦距離）が算出可能である。また、或るクラスタに属する各文献の特徴量ベクトルと或る特定の文献の特徴量ベクトルとの類似度の平均値を算出し、この平均値をそのクラスタと当該特定の文献との類似度とすることが可能である。同様に、或るクラスタに属する各文献の特徴量ベクトルと他のクラスタに属する各文献の特徴量ベクトルとの類似度の平均値を算出して、この平均値をクラスタ間の類似度とすることもできる。
このような文献間の類似度、文献とクラスタとの類似度、又はクラスタ間の類似度が閾値以上となるようにクラスタ分析のクラスタ数や潜在トピック分析のトピック数が自動で決められてもよい。また、文献とクラスタとの類似度を用いることで、或る特定の文献が既に分類されたクラスタのうちどのクラスタに近いか等といった評価を行うこともできる。

更に、上述の各実施形態及び各変形例は、内容が相反しない範囲で組み合わせることができる。例えば、上述の第一実施形態及び第二実施形態は組み合わせることができる。この場合には、クラスタ分析を用いた分類（クラスタリング）と潜在トピック分析を用いた分類の両方が行われ、被分類文献集合の各文献にはクラスタ番号と潜在トピック番号とが関連付けられる。
また、上述の各実施形態に係る文献分類装置１０は、図示される構成以外の構成を備えてもよいし、図示される構成の一部を備えなくてもよい。例えば、検索部２１は、文献分類装置１０と通信可能な他のコンピュータ上で実現されていてもよい。この場合、文献分類装置１０の取得部２２は、他のコンピュータ上から検索部２１により抽出された被分類文献集合の文献情報を取得することができる。

上述の各実施形態及び各変形例の一部又は全部は、次のようにも特定され得る。但し、上述の各実施形態及び各変形例が以下の記載に制限されるものではない。

＜１＞各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する文献集合取得手段と、
前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成手段と、
前記各文献の特徴量ベクトルを用いて、前記被分類文献集合を分類する分類手段と、
前記分類の結果を示す文献分類情報を生成する生成手段と、
を備える文献分類装置。

＜２＞前記被分類文献集合の各文献に対して所定文字列の検索を行う文字列検索手段、
を更に備え、
前記ベクトル生成手段は、前記所定文字列の検索結果に対応する要素を更に含む前記特徴量ベクトルを生成する、
＜１＞に記載の文献分類装置。
＜３＞前記被分類文献集合の各文献には、前記分類コードに加えて、文献内容の主題を総括的に分類する他の分類に基づく他分類コードがそれぞれ付与されており、
前記ベクトル生成手段は、前記被分類文献集合に付与されている前記他分類コードの全種又は一部の種を要素として更に含む前記特徴量ベクトルを生成する、
＜１＞又は＜２＞に記載の文献分類装置。
＜４＞前記分類手段は、
前記被分類文献集合の各文献の特徴量ベクトルに対して、分類コードの出現確率の分布で表される潜在トピックを用いた潜在トピック分析を適用することにより、前記被分類文献集合の各文献について潜在トピックの配合比率を算出し、
前記算出された潜在トピックの配合比率に基づいて、前記被分類文献集合を分類する、
＜１＞から＜３＞のいずれか一つに記載の文献分類装置。
＜５＞前記ベクトル生成手段は、
前記被分類文献集合に付与されている分類コードの一部の種を各要素とする第一の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成し、
更に、残りの分類コードの少なくとも一部の種を各要素とする第二の特徴量ベクトルを前記被分類文献集合又は前記被分類文献集合の一部の各文献についてそれぞれ生成し、
前記分類手段は、
前記第一の特徴量ベクトルを用いて前記被分類文献集合に対して第一の分類を行い、
更に、前記第二の特徴量ベクトルを用いて、前記被分類文献集合又は該第一の分類の結果により得られる少なくとも一つの部分文献集合に対して第二の分類を行う、
＜１＞から＜４＞のいずれか一つに記載の文献分類装置。
＜６＞前記生成手段は、前記第一の分類で分けられた各部分集合を識別する第一の分類識別データ及び前記第二の分類で分けられた各部分集合を識別する第二の分類識別データと、前記被分類文献集合の少なくとも一部の各文献の文献識別データとが関連付けられた前記文献分類情報を生成する、
＜５＞に記載の文献分類装置。
＜７＞前記分類コードは、階層構造を有し、階層ごとの部分コードにより形成されており、
前記ベクトル生成手段は、前記被分類文献集合に付与されている分類コードの一部の種における分類コードの中の最上位階層から所定階層までの部分コードに対応する要素を含む前記特徴量ベクトルを生成する、
＜１＞から＜６＞のいずれか一つに記載の文献分類装置。
＜８＞各文献について前記分類コードがそれぞれ付与された文献情報を格納する文献データベースから前記被分類文献集合の文献情報を抽出する検索手段、
を更に備え、
前記文献集合取得手段は、前記検索手段により抽出された前記被分類文献集合の文献情報を取得する、
＜１＞から＜７＞のいずれか一つに記載の文献分類装置。
＜９＞各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する文献集合取得工程と、
前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成工程と、
前記各文献の特徴量ベクトルを用いて、前記被分類文献集合を分類する分類工程と、
を含む文献分類方法。
＜１０＞前記被分類文献集合の各文献に対して所定文字列の検索を行う文字列検索工程、
を更に含み、
前記ベクトル生成工程では、前記所定文字列の検索結果に対応する要素を更に含む前記特徴量ベクトルを生成する、
＜９＞に記載の文献分類方法。
＜１１＞前記被分類文献集合の各文献には、前記分類コードに加えて、文献内容の主題を総括的に分類する他の分類に基づく他分類コードがそれぞれ付与されており、
前記ベクトル生成工程では、前記被分類文献集合に付与されている前記他分類コードの全種又は一部の種を要素として更に含む前記特徴量ベクトルを生成する、
＜９＞又は＜１０＞に記載の文献分類方法。
＜１２＞前記分類工程は、
前記被分類文献集合の各文献の特徴量ベクトルに対して、分類コードの出現確率の分布で表される潜在トピックを用いた潜在トピック分析を適用することにより、前記被分類文献集合の各文献について潜在トピックの配合比率を算出する工程と、
前記算出された潜在トピックの配合比率に基づいて、前記被分類文献集合を分類する工程と、
を含む＜９＞から＜１１＞のいずれか一つに記載の文献分類方法。
＜１３＞前記ベクトル生成工程は、
前記被分類文献集合に付与されている分類コードの一部の種を各要素とする第一の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成する工程と、
更に、残りの分類コードの少なくとも一部の種を各要素とする第二の特徴量ベクトルを前記被分類文献集合又は前記被分類文献集合の一部の各文献についてそれぞれ生成する工程と、
を含み、
前記分類工程は、
前記第一の特徴量ベクトルを用いて前記被分類文献集合に対して第一の分類を行う工程と、
前記第二の特徴量ベクトルを用いて、前記被分類文献集合又は該第一の分類の結果により得られる少なくとも一つの部分文献集合に対して第二の分類を行う工程と、
を含む＜９＞から＜１２＞のいずれか一つに記載の文献分類方法。
＜１４＞前記第一の分類で分けられた各部分集合を識別する第一の分類識別データ及び前記第二の分類で分けられた各部分集合を識別する第二の分類識別データと、前記被分類文献集合の少なくとも一部の各文献の文献識別データとが関連付けられた文献分類情報を生成する工程、
を更に含む＜１３＞に記載の文献分類方法。
＜１５＞前記分類コードは、階層構造を有し、階層ごとの部分コードにより形成されており、
前記ベクトル生成工程では、前記被分類文献集合に付与されている分類コードの一部の種における分類コードの中の最上位階層から所定階層までの部分コードに対応する要素を含む前記特徴量ベクトルを生成する、
＜９＞から＜１４＞のいずれか一つに記載の文献分類方法。
＜１６＞＜９＞から＜１５＞のいずれか一つに記載の文献分類方法を少なくとも一つのコンピュータに実行させるコンピュータプログラム。

以下に実施例を挙げ、上述の内容を更に詳細に説明する。但し、以下の実施例の記載は、上述の内容に何ら限定を加えるものではない。以下の実施例によれば、種々の特徴量ベクトル及び種々の分析手法を用いた文献分類結果の有用性が検証された。

文献データベースとして、ＮＲＩサイバーパテント株式会社により提供されるＮＲＩサイバーパテントデスク２が利用された。この文献データベースにおける公開系特許公報を対象にして、筆頭ＩＰＣ（最新）に「Ａ６１Ｋ００８」、Ｆターム（最新）に「４Ｃ０８３ｃｃ３６」、要約書における文字列「直接染料」がＡＮＤ条件で指定された検索条件で検索が実行され、２８９件の特許文献が被分類文献集合として抽出された。この被分類文献集合に付与されているＦタームは、１０４２種類存在していた。

被分類文献集合に付与されているＦタームの全種を要素とする１０４２次元の特徴量ベクトルが生成された。このとき、各文献についてＦタームが付与されている場合にはそのＦタームに対応する要素の値が「１」とされ、付与されていない場合にはその要素の値が「０」とされた。そして、この特徴量ベクトルを用いてＫ−Ｍｅａｎｓ法クラスタリングを行い、被分類文献集合の各文献が８個のクラスタに分類された。クラスタリング処理には、Ｐｙｔｈｏｎ言語のＳｃｉｋｉｔ−ｌｅａｒｎライブラリーパッケージが利用された。

図１１は実施例１の文献分類の結果を示す表であり、図１１（ａ）は５出願人の各々におけるクラスタ毎の文献数を示す表であり、図１１（ｂ）は出願人Ａの特定文献１件と他の文献との類似度の統計情報をクラスタごとにまとめた表である。
図１１（ａ）によれば、出願人ごとに文献数が多いクラスタとそうでないクラスタとが存在していることがわかる。出願人Ａについてはクラスタ（ＣＬ）０及びクラスタ（ＣＬ）４に文献が集中しており、出願人Ｂについてはクラスタ（ＣＬ）４に文献が集中しており、出願人Ｄについてはクラスタ（ＣＬ）１、クラスタ（ＣＬ）３、及びクラスタ（ＣＬ）６に文献が集中しており、出願人Ｅについてはクラスタ（ＣＬ）３に文献が集中している。即ち、本実施例の文献分類によりクラスタごとの文献数分布が出願人ごとに特色を示していることが分かる。

図１１（ｂ）では、出願人Ａのクラスタ２に分類された文献１件が選択され、この文献と他の文献との類似度がＰｙｔｈｏｎ言語のＳｃｉｋｉｔ−ｌｅａｒｎライブラリーパッケージにあるｃｏｓｉｎｅ＿ｓｉｍｉｌａｒｉｔｙ法を用いて算出された。
図１１（ｂ）によれば、類似度の平均値、最大値及び最小値のいずれにおいても、選択された文献が属するクラスタ２が最も大きくなっていることがわかる。また、クラスタ２と他の各クラスタとの間の平均類似度を比較すれば、クラスタ２と他の各クラスタとの間の距離感も見ることができる。
従って、１０４２次元のＦターム特徴量ベクトルを用いたＫ−Ｍｅａｎｓ法クラスタリングによる文献分類により、各文献の特色に応じて被分類文献集合を適切に分類できていることが実証される。

加えて、上述の２８９件の被分類文献集合が、他のクラスタ分析手法であるＡｇｇｌｏｍｅｒａｔｉｖｅ法クラスタリングにより８個のクラスタに分類された。このクラスタリングにおいても上述の１０４２次元のＦターム特徴量ベクトルが用いられた。このクラスタリング処理には、Ｐｙｔｈｏｎ言語のＳｃｉｋｉｔ−ｌｅａｒｎライブラリーパッケージが利用された。

図１２は、同一の被分類文献集合をＫ−Ｍｅａｎｓ法クラスタリング及びＡｇｇｌｏｍｅｒａｔｉｖｅ法クラスタリングの各々で分類した結果を示す表である。
図１２によれば、２つのクラスタ分析結果のマトリクスにおいて、文献が集中しているセルとそうでないセルとが存在していることがわかる。例えば、Ｋ−Ｍｅａｎｓ法クラスタリングでクラスタ（ＣＬ）１に分類された文献群のほとんどは、Ａｇｇｌｏｍｅｒａｔｉｖｅ法クラスタリングでクラスタ（ＣＬ）４に分類されており、逆に、Ａｇｇｌｏｍｅｒａｔｉｖｅ法クラスタリングでクラスタ（ＣＬ）４に分類された文献はすべてＫ−Ｍｅａｎｓ法クラスタリングでクラスタ（ＣＬ）１に分類されている。即ち、Ｋ−Ｍｅａｎｓ法クラスタリングで分類された各クラスタとＡｇｇｌｏｍｅｒａｔｉｖｅ法クラスタリングで分類された各クラスタとは或る程度の相関性を示すといえる。
これにより、Ｋ−Ｍｅａｎｓ法に限られず、他のクラスタ分析手法を用いても、文献を的確に分類できることが実証される。

更に、被分類文献集合に付与されているＦタームの全種（１０４２種類）を要素とせず、その一部の種（３５５種類）を要素とする３５５次元の特徴量ベクトルが生成され、この特徴量ベクトルを用いてＫ−Ｍｅａｎｓ法クラスタリングにより文献分類が行われた。このときの被分類文献集合は上述と同様である（２８９件）。また、テーマコード「４Ｃ０８３」を含むＦタームが特徴量ベクトルの要素に用いられ、テーマコード「４Ｃ０８３」を含むＦタームが付与されている場合にはそのＦタームに対応する要素の値が「１」とされ、付与されていない場合にはその要素の値が「０」とされた。

図１３は、Ｆターム全種を要素とする１０４２次元の特徴量ベクトル及びＦタームの一部の種を要素とする３５５次元の特徴量ベクトルを用いて同一の被分類文献集合を同一のクラスタ分析で分類した結果を示す表である。
図１３の結果によっても、いずれの特徴量ベクトルを用いても特色ある分類ができていることがわかる。これにより、被分類文献集合に付与されているＦタームの一部の種を用いて生成された特徴量ベクトルを用いても文献を的確に分類できることが実証される。

また、被分類文献集合に付与されているＦタームの全種（１０４２種類）を要素とすると共に、特許請求の範囲の記載に検索文字列「染毛」が含まれるか否かに対応する要素を付加した１０４３次元の特徴量ベクトルが生成され、この特徴量ベクトルを用いてＫ−Ｍｅａｎｓ法クラスタリングにより文献分類が行われた。このときの被分類文献集合は上述と同様である（２８９件）。このとき、各文献について、Ｆタームが付与されている場合にはそのＦタームに対応する要素の値が「１」とされ、付与されていない場合にはその要素の値が「０」とされ、特許請求の範囲に検索文字列「染毛」が含まれる場合には対応する要素の値が「２」とされ、付与されていない場合にはその要素の値が「０」とされた。即ち、検索文字列の検索結果に対応する要素に重み付けを行った特徴量ベクトルが用いられた。

図１４は、Ｆターム全種を要素とする１０４２次元の特徴量ベクトル及び文字列検索の結果を要素に加えた１０４３次元の特徴量ベクトルを用いて同一の被分類文献集合を同一のクラスタ分析で分類した結果を示す表である。
図１４の結果によっても、いずれの特徴量ベクトルを用いても特色ある分類ができていることがわかる。これにより、Ｆタームに対応する要素のみでなく文字列検索の結果を要素に加えた特徴量ベクトルを用いても文献を的確に分類できることが実証される。

更に、被分類文献集合に付与されているＦタームの全種（１０４２種類）を要素とすると共に、被分類文献集合の筆頭ＩＰＣを要素に加えた１０７４次元の特徴量ベクトルが生成され、この特徴量ベクトルを用いてＫ−Ｍｅａｎｓ法クラスタリングにより文献分類が行われた。筆頭ＩＰＣは３２種類であり、被分類文献集合は上述と同様である（２８９件）。
図１５は、Ｆターム全種を要素とする１０４２次元の特徴量ベクトル及び筆頭ＩＰＣを要素に加えた１０７４次元の特徴量ベクトルを用いて同一の被分類文献集合を同一のクラスタ分析で分類した結果を示す表である。
図１５の結果によっても、いずれの特徴量ベクトルを用いても特色ある分類ができていることがわかる。これにより、Ｆタームに対応する要素のみでなく筆頭ＩＰＣを要素に加えた特徴量ベクトルを用いても文献を的確に分類できることが実証される。

次に、実施例１とは異なる文献データベースとして、独立行政法人工業所有権情報・研修館が運営する特許情報プラットフォーム（Ｊ−ＰｌａｔＰａｔ）が利用された。この文献データベースに対して、公報全文における文字列「食器」、「油汚」及び「泡切」がＡＮＤ条件で指定された検索条件で検索が実行され、３５件の特許文献が被分類文献集合として抽出された。この被分類文献集合に付与されているＦタームは、３４５種類存在していた。

被分類文献集合に付与されているＦタームの全種を要素とする３４５次元の特徴量ベクトルが生成された。このとき、各文献についてＦタームが付与されている場合にはそのＦタームに対応する要素の値が「１」とされ、付与されていない場合にはその要素の値が「０」とされた。そして、この特徴量ベクトルを用いてＫ−Ｍｅａｎｓ法クラスタリングを行い、被分類文献集合の各文献が６個のクラスタに分類された。クラスタリング処理には、Ｐｙｔｈｏｎ言語のＳｃｉｋｉｔ−ｌｅａｒｎライブラリーパッケージが利用された。

続いて、同一の被分類文献集合に付与されているＦタームの一部の種（１２６種類）を要素とする１２６次元の特徴量ベクトルが生成され、この特徴量ベクトルを用いてＫ−Ｍｅａｎｓ法クラスタリングにより被分類文献集合が５個のクラスタに分類された。Ｆタームの一部の種としては、テーマコード「４Ｈ００３」を含むＦタームが用いられ、テーマコード「４Ｈ００３」を含むＦタームが付与されている場合にはそのＦタームに対応する要素の値が「１」とされ、付与されていない場合にはその要素の値が「０」とされた。

図１６は、Ｆターム全種を要素とする３４５次元の特徴量ベクトル及びＦタームの一部の種を要素とする１２６次元の特徴量ベクトルを用いて同一の被分類文献集合をクラスタ数の異なる同一のクラスタ分析手法で分類した結果を示す表である。
図１６の結果によれば、２つのクラスタ分析結果のマトリクスにおいて、文献が集中しているセルとそうでないセルとが存在していることがわかる。即ち、いずれの特徴量ベクトルを用いても或いは異なるクラスタ数のクラスタ分析を用いても特色ある分類ができていることがわかる。
これにより、文献データベースを制限せず、特徴量ベクトルの要素数を制限せず、クラスタリングのクラスタ数を制限することなく、文献を的確に分類できることが実証される。

加えて、上述の３４５次元の特徴量ベクトル及び１２６次元の特徴量ベクトルに対してＬＤＡ法による潜在トピック分析がそれぞれ適用された。このとき、トピック数が５に設定され、潜在トピック分析の結果として得られる潜在トピックの配合比率のうち最大比率を示す潜在トピックがその文献の代表トピックとされた。これにより、３５件の被分類文献集合が５個の潜在トピックに分類された。ＬＤＡ法による潜在トピック分析の処理にはＰｙｔｈｏｎ言語のｇｅｎｓｉｍライブラリーパッケージが用いられた。なお、その潜在トピック分析において各潜在トピックを構成する上位１０個のトピックワード（Ｆターム）を出力したところ、５つの潜在トピックの合計で３５種のＦタームが出力されていた。

図１７は、ＬＤＡ法による潜在トピック分析を用いた文献分類の結果を示す表である。図１７（ａ）はＦターム全種を要素とする３４５次元の特徴量ベクトルを用いて同一の被分類文献集合をＫ−Ｍｅａｎｓ法クラスタリング及び潜在トピック分析（ＬＤＡ法）で分類した結果を示す表であり、図１７（ｂ）はＦタームの一部の種を要素とする１２６次元の特徴量ベクトルを用いて同一の被分類文献集合をＫ−Ｍｅａｎｓ法クラスタリング及び潜在トピック分析（ＬＤＡ法）で分類した結果を示す表である。
図１７によれば、Ｋ−Ｍｅａｎｓ法クラスタリングによるクラスタごとの文献数分布と、潜在トピック分析（ＬＤＡ法）による代表トピックごとの文献数分布とのマトリクスにおいて、文献が集中するセルとそうでないセルとが見受けられ、いずれの分析手法を用いても特色ある分類ができていることがわかる。
従って、潜在トピック分析を用いたとしても、クラスタ分析と同様に、文献を的確に分類できることが実証される。

実施例３では、文献データベースとして、独立行政法人工業所有権情報・研修館が運営する特許情報プラットフォーム（Ｊ−ＰｌａｔＰａｔ）のコンピュータソフトウェアデータベース（ＣＳＤＢ）が利用された。この文献データベースで管理されるマニュアル、単行本、国内技術雑誌、非技術雑誌、外国学会論文、国内学会論文、企業技報、団体機関誌、予稿集が対象文献とされた。これら各対象文献には、多観点分類に基づく分類コードとしてのＣＳコードが付与されている。
これら対象文献に対して、フリーワードとして「文献」、「分類」及び「解析」がＡＮＤ条件で指定された検索条件で検索が実行され、２２件の文献が抽出された（以降、Ａ群と表記する）。
更に、当該対象文献に対して、フリーワードとして「データベース」、「ファイル」、「検索」及び「類似度」がＡＮＤ条件で指定された検索条件で検索が実行され、２３件の文献が抽出された（以降、Ｂ群と表記する）。
Ａ群及びＢ群の文献集合が被分類文献集合とされ、被分類文献集合に付与されているＣＳタームは、トータルで１２１種類であった。

被分類文献集合に付与されているＣＳタームの全種を要素とする１２１次元の特徴量ベクトルが生成された。このとき、各文献についてＣＳタームが付与されている場合にはそのＣＳタームに対応する要素の値が「１」とされ、付与されていない場合にはその要素の値が「０」とされた。そして、この特徴量ベクトルを用いてＫ−Ｍｅａｎｓ法クラスタリングを行い、被分類文献集合の各文献が６個のクラスタに分類された。クラスタリング処理には、Ｐｙｔｈｏｎ言語のＳｃｉｋｉｔ−ｌｅａｒｎライブラリーパッケージが利用された。
同様に、上述の特徴量ベクトルを用いてＫ−Ｍｅａｎｓ法クラスタリングを行い、被分類文献集合の各文献が３個のクラスタに分類された。

図１８は、実施例３における文献分類の結果を示す表であり、図１８（ａ）は１２１次元のＣＳターム特徴量ベクトルを用いたＫ−Ｍｅａｎｓ法クラスタリングにより６クラスタに分類した結果を示し、図１８（ｂ）は図１８（ａ）と同一のＣＳターム特徴量ベクトルを用いた同一のクラスタリングにより３クラスタに分類した結果を示す。
図１８によれば、クラスタごとのＡ群及びＢ群の各々の文献数分布に或る程度の特色が見て取れるため、ＣＳタームによる特徴量ベクトルを用いても特色ある分類ができていることがわかる。
従って、多観点分類に基づく他の分類コードを用いたとしても、Ｆタームクラスタ分析と同様に、特許文献のＦタームを用いるのと同様に、文献を的確に分類できることが実証される。

上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。

１０文献分類装置
１１ＣＰＵ
１２メモリ
１３入出力Ｉ／Ｆ
１４通信ユニット
１５出力装置
１６入力装置
１８文献分類プログラム
２１検索部
２２取得部
２３ベクトル生成部
２４クラスタリング部
２５生成部
２７潜在トピック分析部
２９文字列検索部

Claims

各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する文献集合取得手段と、
前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成手段と、
前記各文献の特徴量ベクトルを用いて、前記被分類文献集合に対して複数回のクラスタ分析を行う分類手段と、
前記複数回のクラスタ分析の結果を示す文献分類情報を生成する生成手段と、
を備え、
前記複数回のクラスタ分析には、Ｋ−Ｍｅａｎｓ法を用いたクラスタ分析及びＡｇｇｌｏｍｅｒａｔｉｖｅ法を用いたクラスタ分析が含まれる、
文献分類装置。
前記生成手段は、前記複数回のクラスタ分析の中の、Ｋ−Ｍｅａｎｓ法を用いたクラスタ分析の結果であるクラスタごとの文献数分布と、Ａｇｇｌｏｍｅｒａｔｉｖｅ法を用いたクラスタ分析の結果であるクラスタごとの文献数分布とのマトリクス情報を含む前記文献分類情報を生成する、
請求項１に記載の文献分類装置。
前記生成手段は、前記複数回のクラスタ分析の中の、Ｋ−Ｍｅａｎｓ法を用いたクラスタ分析で分けられた各クラスタを識別する第一のクラスタ識別データ及びＡｇｇｌｏｍｅｒａｔｉｖｅ法を用いたクラスタ分析で分けられた各クラスタを識別する第二のクラスタ識別データが少なくとも、前記被分類文献集合の少なくとも一部の各文献の文献識別データとそれぞれ関連付けられた前記文献分類情報を生成する、
請求項１又は２に記載の文献分類装置。
前記被分類文献集合の各文献に対して所定文字列の検索を行う文字列検索手段、
を更に備え、
前記ベクトル生成手段は、前記所定文字列の検索結果に対応する要素を更に含む前記特徴量ベクトルを生成する、
請求項１から３のいずれか一項に記載の文献分類装置。
前記被分類文献集合の各文献には、前記分類コードに加えて、文献内容の主題を総括的に分類する他の分類に基づく他分類コードがそれぞれ付与されており、
前記ベクトル生成手段は、前記被分類文献集合に付与されている前記他分類コードの全種又は一部の種を要素として更に含む前記特徴量ベクトルを生成する、
請求項１から４のいずれか一項に記載の文献分類装置。
前記ベクトル生成手段は、
前記被分類文献集合に付与されている分類コードの一部の種を各要素とする第一の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成し、
更に、残りの分類コードの少なくとも一部の種を各要素とする第二の特徴量ベクトルを前記被分類文献集合又は前記被分類文献集合の一部の各文献についてそれぞれ生成し、
前記分類手段は、
前記複数回のクラスタ分析の中の或る回のクラスタ分析では、前記第一の特徴量ベクトルを用い、
他の回のクラスタ分析では、前記第二の特徴量ベクトルを用いる、
請求項１から５のいずれか一項に記載の文献分類装置。
前記分類コードは、階層構造を有し、階層ごとの部分コードにより形成されており、
前記ベクトル生成手段は、前記被分類文献集合に付与されている分類コードの一部の種における分類コードの中の最上位階層から所定階層までの部分コードに対応する要素を含む前記特徴量ベクトルを生成する、
請求項１から６のいずれか一項に記載の文献分類装置。
各文献について前記分類コードがそれぞれ付与された文献情報を格納する文献データベースから前記被分類文献集合の文献情報を抽出する検索手段、
を更に備え、
前記文献集合取得手段は、前記検索手段により抽出された前記被分類文献集合の文献情報を取得する、
請求項１から７のいずれか一項に記載の文献分類装置。
各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する文献集合取得工程と、
前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成工程と、
前記各文献の特徴量ベクトルを用いて、前記被分類文献集合に対して複数回のクラスタ分析を行う分類工程と、
を含み、
前記複数回のクラスタ分析には、Ｋ−Ｍｅａｎｓ法を用いたクラスタ分析及びＡｇｇｌｏｍｅｒａｔｉｖｅ法を用いたクラスタ分析が含まれる、
文献分類方法。
前記複数回のクラスタ分析の中の、Ｋ−Ｍｅａｎｓ法を用いたクラスタ分析の結果であるクラスタごとの文献数分布と、Ａｇｇｌｏｍｅｒａｔｉｖｅ法を用いたクラスタ分析の結果であるクラスタごとの文献数分布とのマトリクス情報を含む文献分類情報を生成する生成工程、
を更に含む請求項９に記載の文献分類装置。
請求項９又は１０に記載の文献分類方法を少なくとも一つのコンピュータに実行させるコンピュータプログラム。