JP2019200784A

JP2019200784A - 分析方法、分析装置及び分析プログラム

Info

Publication number: JP2019200784A
Application number: JP2019084331A
Authority: JP
Inventors: 耕爾野守; Koji Nomori
Original assignee: Analytics Design Lab Inc
Current assignee: Analytics Design Lab Inc
Priority date: 2018-05-09
Filing date: 2019-04-25
Publication date: 2019-11-21
Anticipated expiration: 2039-04-25
Also published as: JP7221526B2

Abstract

【課題】事象の発生の有無に影響を与えるトピックを優先的に抽出する。【解決手段】テキストデータから第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成する。具体的には、テキストデータに関連するメタデータが予め設定した事象に該当するとき、当該メタデータに関するテキストデータについて第１の共起行列を作成し、メタデータが前記事象に該当しないとき、当該メタデータに関するテキストデータ、あるいは前記事象の該当有無にかかわらず全てのテキストデータについて第２の共起行列を作成し、第１および第２の共起行列との差を計算する。次に、共起行列を入力とする潜在意味解析法を用いて、各トピックを条件とした第１語群に属する語の第１条件付確率、及び第２語群に属する語の第２条件付確率を求める。次に、各トピックを条件とした各文章の条件付確率を計算し、各テキストデータに対する各トピックのスコアを求める。【選択図】図５

Description

本発明は、事象に影響を与えるトピックをテキストデータから抽出する分析方法、分析装置及び分析プログラムに関する。

昨今では、テキストの電子化の急増とテキストマイニングツールの普及に伴い、テキストデータからいかに有用な知識を抽出するかということが課題となっている。例えば、顧客満足の要因を探るために、アンケートの自由記述や口コミに代表されるコメントのテキストデータから、ターゲットとなる事象、例えば満足度の評価得点に影響を与える評価内容（トピック）を抽出すること、あるいはサービスの解約や会員退会を防止する要因を探るために、コールセンターなどの問い合わせ履歴のテキストデータから、ターゲットとなる事象、例えばサービス解約や会員退会の申し出の有無に影響を与える問い合わせ内容（トピック）を抽出すること、あるいは技術動向を探るために、特許文献に代表される技術文書中のテキストデータから、ターゲットとなる事象、例えば出願年に影響を与える技術内容（トピック）を抽出することなどは重要な課題である。

本発明者は、テキストデータから、単語そのものではなく文章のトピックを抽出する手法として知られるＰＬＳＡを応用した分析方法を発明した（特許文献１参照）。ＰＬＳＡは、元々文章分類のために開発された手法で、文章とそこに出現する単語の間には観測できない潜在的な意味クラスがあることを想定し、文章と単語の共通のトピックとなるような特徴を見つける手法である。

このような分析方法においても、テキストデータからマイニングを行い、潜在的なトピックを抽出することはできるが、上記したターゲットとなる事象に着目したものではない。このため、事象の発生の有無に影響を与えるトピックも、そうでないトピックも同様に抽出してしまい、テキストデータに潜む事象に対する要因関係を顕在化できていない。

特開２０１６−０５１２２０号公報

本発明は、上記事情に鑑みてなされたものであり、事象の発生の有無に影響を与えるトピックを優先的に抽出することができる分析方法、分析装置及び分析プログラムを提供す
ることを目的とする。

上記課題を解決する本発明の第１の態様は、テキストデータ及び前記テキストデータに関するメタデータの分析方法であって、前記テキストデータに含まれている第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成ステップと、前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率を求めるトピック抽出ステップと、前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算ステップと、を備え、前記共起行列作成ステップは、前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第１の共起行列を作成し、前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第２の共起行列を作成し、前記第１の共起行列と前記第２の共起行列との差を計算することで前記共起行列を作成することを特徴とする分析方法にある。

本発明の第２の態様は、第１の態様に記載の分析方法であって、前記テキストデータは、カテゴリに分類されたテキスト部を含み、前記共起行列作成ステップは、第１のカテゴリに分類された前記テキスト部から第１語群に属する語、及び第２のカテゴリに分類された前記テキスト部から第２語群に属する語の組み合わせの個数を表す共起行列を作成し、前記スコア計算ステップでは、前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて前記テキストデータに対する各トピックのスコアを求め、前記共起行列作成ステップは、前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記第１のカテゴリに分類された前記テキスト部、及び当該メタデータに関する前記第２のカテゴリに分類された前記テキスト部について第１の共起行列を作成し、前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記第１のカテゴリに分類された前記テキスト部、及び当該メタデータに関する前記第２のカテゴリに分類された前記テキスト部、あるいは前記事象の該当有無にかかわらず全ての前記テキスト部について第２の共起行列を作成し、前記第１の共起行列と前記第２の共起行列との差を計算することで前記共起行列を作成することを特徴とする分析方法にある。

本発明の第３の態様は、第１の態様に記載の分析方法であって、前記共起行列作成ステップは、前記テキストデータから文章を抽出し、各文章に含まれている第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成し、前記スコア計算ステップでは、前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各文章の条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求め、前記共起行列作成ステップは、前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記文章について第１の共起行列を作成し、前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記文章、あるいは前記事象の該当有無にかかわらず全ての前記文章について第２の共起行列を作成し、前記第１の共起行列と前記第２の共起行列との差を計算することで前記共起行列を作成することを特徴とする分析方法にある。

本発明の第４の態様は、第１又は第２の態様に記載の分析方法において、前記共起行列作成ステップでは、前記第１の共起行列に対して補正値を乗じ、前記補正値は、前記第１の共起行列の作成に用いられた前記テキストデータの件数に対する、前記第２の共起行列の作成に用いられた前記テキストデータの件数の比率、あるいは全ての前記テキストデータの件数の比率であることを特徴とする分析方法にある。

本発明の第５の態様は、第１又は第２の態様に記載の分析方法において、前記共起行列作成ステップでは、前記第２の共起行列に対して補正値を乗じ、前記補正値は、前記第２の共起行列の作成に用いられた前記テキストデータの件数に対する、前記第１の共起行列の作成に用いられた前記テキストデータの件数の比率、あるいは全ての前記テキストデータの件数の比率であることを特徴とする分析方法にある。

本発明の第６の態様は、第３の態様に記載の分析方法において、前記共起行列作成ステップでは、前記第１の共起行列に対して補正値を乗じ、前記補正値は、前記第１の共起行列の作成に用いられた前記テキストデータの文章数に対する、前記第２の共起行列の作成に用いられた前記テキストデータの文章数の比率、あるいは全ての前記テキストデータの文章数の比率であることを特徴とする分析方法にある。

本発明の第７の態様は、第３の態様に記載の分析方法において、前記共起行列作成ステップでは、前記第２の共起行列に対して補正値を乗じ、前記補正値は、前記第２の共起行列の作成に用いられた前記テキストデータの文章数に対する、前記第１の共起行列の作成に用いられた前記テキストデータの文章数の比率、あるいは全ての前記テキストデータの文章数の比率であることを特徴とする分析方法にある。

本発明の第８の態様は、第１から第７の何れか一つの態様に記載の分析方法であって、前記トピックごとに、前記スコアが所定の閾値以上である条件の下で前記メタデータが前記事象に該当する確率を前記メタデータが前記事象に該当する確率で除した事象該当ありの指標値、及び前記スコアが所定の閾値以上である条件の下で前記メタデータが前記事象に該当しない確率を前記メタデータが前記事象に該当しない確率で除した事象該当なしの指標値を計算する集計ステップを備えることを特徴とする分析方法にある。

本発明の第９の態様は、テキストデータ、及び前記テキストデータに関するメタデータの分析装置であって、前記テキストデータに含まれている第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成手段と、前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率を求めるトピック抽出手段と、前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段と、を備え、前記共起行列作成手段は、前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第１の共起行列を作成し、前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第２の共起行列を作成し、前記第１の共起行列と前記第２の共起行列との差を計算することで前記共起行列を作成することを特徴とする分析装置にある。

本発明の第１０の態様は、テキストデータ、及び当該テキストデータに関するメタデータをコンピュータに分析させる分析プログラムであって、前記コンピュータを、前記テキストデータに含まれている第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成手段と、前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率を求めるトピック抽出手段と、前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段として機能させ、前記共起行列作成手段は、前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第１の共起行列を作成し、前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第２の共起行列を作成し、前記第１の共起行列と前記第２の共起行列との差を計算することで前記共起行列を作成することを特徴とする分析プログラムにある。

本発明によれば、事象の発生の有無に影響を与えるトピックを優先的に抽出することができる分析方法、分析装置及び分析プログラムが提供される。

本実施形態に係る分析方法を実行する分析プログラムを実行する分析装置の機能ブロック図である。ＰＬＳＡの概念図である。トピックのトレンドを示す図である。トピックのトレンドを示す図である。分析装置での処理を示すフローチャートである。

以下、本発明を実施するための形態について説明する。なお、実施形態の説明は例示であり、本発明は以下の説明に限定されない。

〈実施形態１〉
図１は、本実施形態に係る分析方法を実行する分析プログラムを実行する分析装置の機能ブロック図である。分析プログラム１０は、分析装置１にインストールされて実行されるものである。分析装置１は、特に図示しないが、ＣＰＵ、ＲＡＭ、ハードディスク、入出力装置、通信手段等を備えた一般的なコンピュータである。

ハードディスクには、分析装置１のＣＰＵ等を制御するためのオペレーティングシステムがインストールされている。このオペレーティングシステムにより、ハードディスクにインストールされた分析プログラム１０がＲＡＭに読み込まれ、ＲＡＭに読み込まれた分析プログラムがＣＰＵにより実行される。

このような分析プログラムは、テキストデータ及びメタデータを処理対象とする。テキストデータとは、文章を符号化したデータである。前記テキストデータには、複数の文章が含まれることがあり、本発明でいう文章とは、テキストデータに含まれる一文である。テキストデータの符号化の方式（文字コード）は特に限定はなく、符号化により表される言語の種別も問わない。本実施形態では、テキストデータは日本語の文からなり、ＵＴＦ−８などの文字コードで表現されている。メタデータとは、テキストデータに関連するデータ、あるいはテキストデータから作成したデータである。

本実施形態では、テキストデータとして、日本の特許出願に添付された要約書の文章を用いる。具体的には、要約書及び特許請求の範囲に「風」及び「空気」を含む１０年分（出願日が２００６年１月１日から２０１５年１２月３１日）の特許出願（３０，０３９件）を抽出し、その特許出願の要約書のうち「解決手段」に記載された文章をテキストデータとする。また、テキストデータに関連するメタデータとして、上記特許出願の公報に記
載された書誌事項を用いる。表１にテキストデータ及びメタデータの一例を示す。

表１には、３つのテキストデータが例示されている。テキストデータＩＤは、個々のテキストデータを識別する情報であり、ここでは重複しない数値である。テキストデータは、発明の要約文である。メタデータは、一例として、出願人、発明者、出願年を例示してある。これらのテキストデータ及びメタデータは、電子化された特許公報から得ることができる。

このようなテキストデータ及びメタデータを分析対象とする分析装置１は、共起行列作成手段１１、トピック抽出手段１２、スコア計算手段１３、及び集計手段１４を備えている。本実施形態では、それらの各手段は、分析装置１で実行される分析プログラム１０として実装されている。すなわち、分析プログラム１０は、分析装置１を各手段１１〜１４として機能させるプログラムである。

共起行列作成手段１１は、テキストデータから文章を抽出し、各文章から、第１語群及び第２語群を抽出し、各文章に含まれている第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成する。

共起行列の作成方法について説明する。まず、共起行列作成手段１１は、テキストデータのメタデータが事象に該当するか否かを判定する。事象とは、テキストデータを２つに分類するために、メタデータに適用される条件である。この事象（条件）に該当したメタデータに関するテキストデータは、後述する第１の共起行列を作成するための入力データとなる。一方、この事象に該当しなかったメタデータに関するテキストデータ、あるいは事象の該当有無にかかわらない全てのテキストデータは、後述する第２の共起行列を作成するための入力データとなる。

事象として「出願年は２０１３年以後である」を例に取り説明する。表１のテキストデータＩＤ「３」については、出願年が２０１５年である。したがって、テキストデータＩＤ「３」のメタデータ（出願年）は当該事象に該当する。このようにメタデータが事象に該当したテキストデータを、「事象が発生したテキストデータ」とも称する。

一方、表１のテキストデータＩＤ「１」「２」については、出願年が２０１０、２００９年である。したがって、テキストデータＩＤ「１」「２」のメタデータ（出願年）は当該事象に該当しない。このようにメタデータが事象に該当しないテキストデータを、「事象が発生しなかったテキストデータ」とも称する。

このような事象は、予めプログラムなどに設定しておく。事象の選び方には特に限定はない。上述した事象は、出願年が２０１３年を境にして、後述するトピックに変化があるかを分析するという目的で定めたものである。

共起行列作成手段１１は、事象が発生したテキストデータについて第１の共起行列を作成し、かつ、事象が発生しなかったテキストデータについて、あるいは事象の発生有無にかかわらない全てのテキストデータについて第２の共起行列を作成する。

第１の共起行列及び第２の共起行列は、入力データが異なるだけであり、具体的な作成ステップは同じであるから、第１の共起行列を例にとり説明する。

テキストデータには、複数の文章が含まれることがある。本発明でいう文章とは、テキストデータに含まれる一文である。分析装置１で実行される分析プログラム１０の共起行列作成手段１１は、テキストデータを一つずつ読み込み、各テキストデータについて、句点や「？」「！」など一文の末尾に用いられる文字を基準として文章を出力する。例えば、テキストデータＩＤ「１」については、次のように２つの文章が抽出される。

文章ＩＤは、個々の文章を識別する情報であり、ここでは重複しない数値である。各文章ＩＤは、テキストデータＩＤとの関連も保持されている。したがって、一つの文章ＩＤについては、表１に示したメタデータも関連づけられていることになる。

一つのテキストデータは、発明を特定する事項などが表されたものであるが、各文章に着目すると異なる観点で記載されていることが多い。表２のテキストデータＩＤ「１」からは、換気装置の構成について述べた文章（文章ＩＤ「１」）、及び換気装置の効果について述べた文章（文章ＩＤ「２」）が得られることになる。

後述するトピック抽出手段１２では、文章を元にトピックを抽出するが、もし、仮にテキストデータを元にトピックを抽出する場合、テキストデータに異なる観点の文章が複数含まれていると、適切なトピックとはいえない結果となりうる。しかし、本発明では、テキストデータから抽出した文章を元にトピックを抽出するので、後述するトピック抽出手段１２による抽出精度を向上させることができる。

このように、テキストデータから抽出された文章から第１語群及び第２語群を抽出する。第１語群及び第２語群は、文章中に含まれる特定の品詞に分類される単語や、係り受け表現（文法的構造を持つ単語と単語のペア）からなる。第１語群と第２語群とで、異なる語群が抽出されるようにする。例えば、文章から「単語」を抽出し、その結果を第１語群とし、文章から「係り受け表現」を抽出し、その結果を第２語群とする。

もちろん、第１語群と第２語群の単語等の選び方は特に限定はない。例えば、文章中に含まれる単語のうち「名詞」で分類される単語を第１語群に、「動詞および形容詞」で分類される単語を第２語群としてもよい。すなわち複数の品詞を用いて第１語群（又は第２語群）を形成してもよい。

共起行列作成手段１１は、各文章ＩＤで特定される文章を読み込み、公知の形態素解析手法あるいは構文解析手法を適用することで、一つの文章の中から第１語群及び第２語群を抽出する。

そして、共起行列作成手段１１は、文章より抽出された第１語群及び第２語群から、共起行列を集計する。共起行列とは、第１語群に属する語と、第２語群に属する語との組み合わせの個数を表したものである。表３に第１の共起行列（一部）、表４に第２の共起行列（一部）を例示する。以下例では、第１語群に属する語として単語（名詞、動詞、形容詞）を、第２語群に属する語として係り受け表現（名詞と動詞・形容詞の係り受けペア）
を設定している。

第１語群に属する単語として「配置」「供給」「内部」などが行方向に並び、第２語群に属する係り受け表現として「空気−吸い込む」「吸い込む−空気」「連−通す」などが列方向に並んでいる。共起行列作成手段１１は、一つの文章の中に、「配置」と「空気−吸い込む」との組み合わせが存在すれば、一つカウントする。この組み合わせを共起ペアと称する。表３の第１の共起行列の例では、「配置」及び「空気−吸い込む」という共起ペアが一つの文章の中に存在する文章数は６６件あることになる。

次に、共起行列作成手段１１は、第１の共起行列と第２の共起行列の差を計算して共起行列を作成する。この共起行列は、次のトピック抽出手段１２の入力データとなる。ここでいう第１の共起行列と第２の共起行列の差とは、第１語群に属する語と、第２語群に属する語が同じものについて、組み合わせ数の差をいう。表３、表４の例では、第１の共起行列及び第２の共起行列の同じ共起ペア同士の差を取る。差の取り方は、差の絶対値としてもよいし、差の二乗としてもよい。いずれにしても差が負にならないようにする。

また、第１の共起行列を得るために用いられたテキストデータの文章数（事象が発生したテキストデータを構成する文章の数）と、第２の共起行列を得るために用いられたテキストデータの文章数（事象が発生しなかったテキストデータを構成する文章の数）とに差がある場合は、第１の共起行列又は第２の共起行列の一方あるいはその両方を補正することが好ましい。

本実施形態で示す例では、第１の共起行列を得るために用いたテキストデータの文章数が１１，８３１件、第２の共起行列を得るために用いたテキストデータの文章数が３３，２８３件であった。この場合、第２の共起行列の全ての共起ペアの個数に、１１，８３１／３３，２８３（≒０．３５５５）を乗じる補正を行う。つまり、文章数の多いテキストデータから作成された第２の共起行列に対して、その文章数（３３，２８３件）に対する、第１の共起行列の作成に用いられたテキストデータの文章数（１１，８３１件）の比率を補正値とする。表５に、第１の共起行列と、上述したような補正をした第２の共起行列との差の絶対値を取った共起行列（一部）を示す。

このような補正を行うことで、第２の共起行列は、第１の共起行列と同じ１１，８３１件のテキストデータの文章を用いて作成したものと同等と考えられる。このような補正は、第１の共起行列と第２の共起行列のテキストデータの文章数に偏りがある場合に特に有用である。

なお、第１の共起行列の共起ペアに補正値を乗じてもよい。この場合は、第１の共起行列の作成に用いられたテキストデータの文章数（１１，８３１件）に対する、第２の共起行列の作成に用いられたテキストデータの文章数（３３，２８３件）の比率を補正値とする。また、第１の共起行列の共起ペアと第２の共起行列の共起ペアの両方に補正値を乗じてもよい。この場合は、第１の共起行列の共起ペアには、第１の共起行列の作成に用いられたテキストデータの文章数（１１，８３１件）に対する、全テキストデータの文章総数（４５，１１４件）の比率を補正値とし、第２の共起行列の共起ペアには、第２の共起行列の作成に用いられたテキストデータの文章数（３３，２８３件）に対する、全テキストデータの文章総数（４５，１１４件）の比率を補正値とする。

トピック抽出手段１２は、前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率を求める。トピックは、発明に関する文章の主題を表しているといえる。

潜在意味解析法とは、自然言語処理の技法の一つであり、文書群と文書に含まれる用語群について、それらに関連した概念の集合を生成することで、その関係を分析する手法である。潜在意味解析法の具体例としては、ＬＳＩ（ＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ）、ＬＤＡ（ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ）、ＰＬＳＡ（ＰｒｏｂａｂｉｌｉｓｔｉｃＬａｔｅｎｔＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ）を挙げることができる。

本実施形態では、ＰＬＳＡを用いて説明する。図２は、ＰＬＳＡの概念図である。図２（ａ）に示すように、ＰＬＳＡは、文書分類に用いられるクラスタリング手法の一つであり、一般には、文章Ｄと、その文章に含まれる単語Ｗの間に潜在的なトピックＴがあると想定し、文章Ｄ及び単語Ｗの組み合わせで構成されるトピックＴを抽出するものである。ＰＬＳＡによるトピック抽出は、各トピックＴに属する文章Ｄの条件付確率及び各トピックＴに属する単語Ｗの条件付確率及びトピックＴの確率がＥＭアルゴリズムにより計算される。

本実施形態では、このようなＰＬＳＡに入力するデータは、上述した共起行列である。ＰＬＳＡは、このような共起行列を入力として、図２（ｂ）に示すように、第１語群に属する語Ｗ１と、第２語群に属する語Ｗ２との間に潜在的なトピックＴがあると想定し、第１語群に属する語Ｗ１と第２語群に属する語Ｗ２の組み合わせで構成されるトピックＴを抽出するものである。すなわち、トピック抽出手段１２は、共起行列を入力としてＰＬＳＡを実行することで、各トピックＴを条件とした第１語群に属する語Ｗ１の第１条件付確率としてＰ（Ｗ１｜Ｔ）、及び各トピックＴを条件とした第２語群に属する語Ｗ２の第２条件付確率としてＰ（Ｗ２｜Ｔ）を計算する。本実施形態の例では、第１語群に属する語として単語（名詞、動詞、形容詞）を、第２語群に属する語として係り受け表現（名詞と動詞・形容詞の係り受けペア）を設定している。ＰＬＳＡの具体的な計算方法は、「Hofmann, T.:Probabilistic latent semantic analysis, Proc. Of Uncertainty in Artificial Intelligence, pp.289-296, 1999.」などの文献に記載の公知の技法を用いて実行することができる。

表６に、ＰＬＳＡにより計算されたトピックに属する単語及び係り受け表現を例示する。表６には、複数作成されたトピックのうち、２つのトピックＴ１０とトピックＴ１３に属する単語及び係り受け表現が示されている。それぞれ条件付確率が高い順に単語および係り受け表現を並べている。

トピックＴ１０についてみると、第１条件付確率が最上位である単語は「塵埃」という単語であり、第２条件付確率が最上位である係り受け表現は「付着−塵埃」である。このようなトピックＴ１０に所属する単語及び係り受け表現に基づいて、トピックＴ１０の意味を解釈することができる。例えば、トピックＴ１０は、第１条件付確率が上位である単語に基づけば、塵埃の分離に関するトピックであると解釈することができる。

ＰＬＳＡは、トピック数を予め設定する必要があり、また、初期値依存性があるため初期値によって結果が異なる。そこで、本実施形態のトピック抽出手段１２では、トピック数として範囲を持たせて複数設定し、初期値を変えてそれぞれのトピック数でＰＬＳＡを複数回実行し、それぞれの結果の情報量基準の値を計算する。そして、その全結果の中で情報量基準が最適となる結果を採用する。情報量基準の計算は、公知の方法（例えば「小西貞則,北川源四郎:情報量基準,朝倉書店,2004」参照）により行うことができる。なお、トピック数は、このような情報量基準に基づいて決定する場合に限定されず、任意に定めてもよい。

本実施形態では、表７に示すように、トピック抽出手段１２により１４個のトピックが抽出され、それぞれのトピックの解釈がなされた。表７にトピック抽出手段により抽出されたトピックに解釈を与えたものを例示する。

スコア計算手段１３は、第１条件付確率及び第１語群の出現頻度、並びに第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各文章の条件付確率を計算する。そして、この条件付確率を各文章の発生確率で除した値を、各文章に対する各トピックのスコアとする。そして、そのスコアをテキストデータ単位に集約することで、各テキストデータに対する各トピックのスコアを求める。

各トピックＴｋを条件とした各文章Ｓｈの条件付確率をＰ（Ｓｈ｜Ｔｋ）とする。各文章の発生確率をＰ（Ｓｈ）とする。各文章に対するトピックのスコアは、Ｐ（Ｓｈ｜Ｔｋ）／Ｐ（Ｓｈ）である。スコア計算手段１３は、Ｐ（Ｓｈ｜Ｔｋ）及びＰ（Ｓｈ）を次のように計算する。なお、ｋは、ＰＬＳＡで作成されたトピックを特定する番号であり、トピックの総数を最大とする自然数である。ｈは、文章を特定する番号（文章ＩＤ）であり、文章の総数を最大とする自然数である。

各文章Ｓｈについて、第１語群に設定した単語Ｗによって定義される文章をＳwｈ、第２語群に設定した係り受け表現Ｅによって定義される文章をＳeｈとする。Ｐ（Ｓｈ｜Ｔｋ）を計算するにあたり、Ｐ（Ｓwｈ｜Ｔｋ）とＰ（Ｓeｈ｜Ｔｋ）を計算する。これらはそれぞれ上記式（１）（２）で計算される。単語Ｗｉが含まれる文章の数をｎ（Ｗｉ）、係り受け表現Ｅｊが含まれる文章の数をｎ（Ｅｊ）とすると、Ｐ（Ｓwｈ｜Ｗｉ）はｎ（Ｗｉ）の逆数、Ｐ（Ｓeｈ｜Ｅｊ）はｎ（Ｅｊ）の逆数として計算される。Ｐ（Ｗｉ｜Ｔｋ）とＰ（Ｅｊ｜Ｔｋ）は、ＰＬＳＡの実行によって得られる第１条件付確率と第２条件付確率である。

Ｐ（Ｓｈ｜Ｔｋ）は、上記式（３）より得られる。Ｐ（Ｓｈ｜Ｓwｈ）とＰ（Ｓｈ｜Ｓeｈ）は文章Ｓｈにおいて重みは同じといえるので、それぞれ０．５とする。Ｐ（Ｓｈ）は、上記式（４）で計算され、Ｐ（Ｔｋ）はＰＬＳＡの実行により得られる。

上記式（３）のＰ（Ｓｈ｜Ｔｋ）を、上記式（４）のＰ（Ｓｈ）で除した値が各文章のスコアとなる。本実施形態では、各文章の発生確率を上記式（４）のように計算しているが、例えば一様分布に従うと仮定し、Ｐ（Ｓｈ）を文章の総数の逆数とするなど、各文章の発生確率の取り方はこれに限らない。

このように、Ｐ（Ｓｈ｜Ｔｋ）とＰ（Ｓｈ）との比をもって文章ＳｈにおけるトピックＴｋのスコアとする。この値が１を超えるということは、文章Ｓｈの発生確率はトピックＴｋを条件とすることで上昇し、トピックＴｋとの関係が強いということである。このようなスコアを採用することで、各文章ＳｈとトピックＴｋの関係の強さを把握しやすくすることができる。表８に各文章Ｓｈに対する各トピックＴｋのスコアを例示する。

例えば、文章ＩＤ「１」は、トピックＴ１についてのスコアが３．１であり、トピックＴ２についてのスコアが０．９であり、このようなスコアが全トピックについて計算されている。

スコア計算手段１３は、文章ＩＤ単位に計算された各トピックのスコアをテキストデータＩＤ単位に集約する。文章単位のスコアをテキストデータ単位に集約する方法としては、最大値や平均値などを計算することが挙げられる。本実施形態では、トピック毎のスコアの最大値を、テキストデータＩＤの各トピックのスコアとする。

表９を用いて具体的に説明する。ＩＤが「１」であるテキストデータをテキストデータ「１」と表記し、ＩＤが「１」である文章を文章「１」と表記する。

例えば、テキストデータ「１」は、文章「１」、文章「２」から構成されている。この文章「１」、文章「２」のそれぞれに対する各トピックＴ１〜Ｔ１４のスコアについて、トピック毎に最大値（文章「１」と文章「２」のうち大きいスコア）を求める。

文章「１」に対するトピックＴ１のスコアは「３．１」であり、文章「２」に対するトピックＴ１のスコアは「１．４」である。したがって、「３．１」が最大値となる。この最大値「３．１」がテキストデータ「１」に対するトピックＴ１のスコアとなる。以下同様に、トピックＴ２〜Ｔ１４についてトピック毎に最大値を計算することで、テキストデータ「１」に対する各トピックのスコアを得る。このような最大値を求めてテキストデータに対する各トピックのスコアとする計算を、全テキストデータについて実行する。表９の斜体字で表されたスコアがテキストデータに対する各トピックのスコアである。このようにして、各テキストデータに対して、各トピックのスコアを得ることができる。

このようにして得られたスコアから、トピックの該当の有無を表す１，０の情報を付与してもよい。例えば、閾値を「３」に設定し、スコアが３以上であれば「１」に３未満であれば「０」というフラグ情報を付与してもよい。表１０にフラグ情報を示す。

テキストデータ「１」は、トピックＴ１のスコアが「３．１」であるから（表９参照）、フラグ情報は「１」となり、トピックＴ２のスコアは「０．９」であるから、フラグ情報は「０」となる。なお、閾値は「３」である必要はない。Ｐ（Ｓｈ｜Ｔｋ）／Ｐ（Ｓｈ）で定義したスコアは１が基準と考えることができるので、閾値を「１」と設定してもよい。

次に、上述したスコアに基づいて、事象の発生の有無によってテキストデータ（特許出願）の件数がどの様に変化するかを集計することについて説明する。

まず、集計手段１４は、事象Ｘの発生の有無とトピックＴの関連度を示す指標値として「事象該当ありの指標値」及び「事象該当なしの指標値」を計算する。なおメタデータが事象Ｘに該当する場合はＸ＝１、該当しない場合はＸ＝０と表記する。

「事象該当ありの指標値」は、トピックＴのスコアが所定の閾値以上（Ｔ＝１と表記する）である条件の下でメタデータが事象Ｘに該当する確率を、メタデータが事象Ｘに該当する確率で除した値である。

「トピックＴのスコアが所定の閾値以上である条件の下でメタデータが事象Ｘに該当する確率」をＰ（Ｘ＝１｜Ｔ＝１）と表記する。また、「メタデータが事象Ｘに該当する確率」をＰ（Ｘ＝１）と表記する。これらを用いると、「事象該当ありの指標値」は、Ｐ（Ｘ＝１｜Ｔ＝１）／Ｐ（Ｘ＝１）で求められる。

本実施形態で取り上げる事象は「出願年が２０１３年以後」であるから、Ｐ（Ｘ＝１｜Ｔ＝１）は、トピックＴのスコアが所定の閾値以上である条件の下で、出願年が２０１３年以後である確率を表している。

なお、Ｐ（Ｘ＝１）は、出願年が２０１３年以後であるテキストデータの件数をテキストデータの総数で除すことで得られる。また、Ｐ（Ｘ＝１｜Ｔ＝１）は、あるトピックＴについてのフラグ情報が「１」であるテキストデータの件数のうち、出願年が２０１３年以後であるテキストデータの件数が占める割合を求めることで得られる。

「事象該当なしの指標値」は、トピックＴのスコアが所定の閾値以上である条件の下でメタデータが事象Ｘに該当しない確率を、メタデータが事象Ｘに該当しない確率で除した値である。

「トピックＴのスコアが所定の閾値以上である条件の下でメタデータが事象Ｘに該当しない確率」をＰ（Ｘ＝０｜Ｔ＝１）と表記する。また、「メタデータが事象Ｘに該当しない確率」をＰ（Ｘ＝０）と表記する。これらを用いると、「事象該当なしの指標値」は、Ｐ（Ｘ＝０｜Ｔ＝１）／Ｐ（Ｘ＝０）で求められる。

本実施形態で取り上げる事象は「出願年が２０１３年以後」であるから、Ｐ（Ｘ＝０｜Ｔ＝１）は、トピックＴのスコアが所定の閾値以上である条件の下で、出願年が２０１２年以前である確率を表している。

なお、Ｐ（Ｘ＝０）は、出願年が２０１２年以前であるテキストデータの件数をテキストデータの総数で除すことで得られる。また、Ｐ（Ｘ＝０｜Ｔ＝１）は、あるトピックＴについてのフラグ情報が「１」であるテキストデータの件数のうち、出願年が２０１２年以前であるテキストデータの件数が占める割合を求めることで得られる。

集計手段１４は、上記した事象該当ありの指標値と事象該当なしの指標値をトピック毎に計算し、本実施形態の例ではそれらの比率（増減率）を計算する。ここでは、事象該当なしの指標値に対する事象該当ありの指標値の比率（事象該当ありの指標値／事象該当なしの指標値）を計算した。これは、あるトピックが２０１３年の前後においてどの程度増えたか、又は減ったかを２０１２年以前と２０１３年以後の各テキストデータの件数を加味して示すものとなる。このような比率の例を表１１に示す。なお、減った場合はマイナスを付している。

トピックＴ１３は、２０１２年以前と比較して、２０１３年以後では指標値が４８．５％増加し、トピックＴ０８は、２０１２年以前と比較して、２０１３年以後では指標値が２８．７％減少している。

本実施形態の例では、集計手段１４で計算した事象該当ありの指標値と事象該当なしの指標値について、２０１３年以後と２０１２年以前とに分けてその比率（増減率）を計算したが、このような態様に限定されない。例えば、図３，図４に示すように、年毎に上記指標値を並べ、各トピックのトレンドを表示するようにしてもよい。

次に、本実施形態に係る分析装置１の動作について説明する。図５は、分析装置での処理を示すフローチャートである。

まず、テキストデータから共起行列を作成する（ステップＳ１：共起行列作成ステップ）。具体的には、共起行列作成手段１１が、テキストデータから文章を抽出し、各文章に含まれている第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成する。具体例については、上述したので説明は省略する。

次に、共起行列を入力として潜在意味解析法を実行する（ステップＳ２：トピック抽出ステップ）。具体的には、トピック抽出手段１２が共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行する。これにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率が得られる。具体例につ
いては、上述したので説明は省略する。

次に、各テキストデータに対する各トピックのスコアを計算する（ステップＳ３：スコア計算ステップ）。具体的には、スコア計算手段１３が、第１条件付確率及び第１語群の出現頻度、並びに第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各文章の条件付確率を各文章に対する各トピックのスコアとして求め、それをテキストデータ単位に集約することで、各テキストデータに対する各トピックのスコアを求める。具体例については上述したので説明は省略する。

次に、スコアに基づいて、トピックごとに事象該当ありの指標値と事象該当なしの指標値を計算する（ステップＳ４：集計ステップ）。具体例については上述したので説明は省略する。

以上に述べたように、本実施形態に係る分析方法、分析装置及び分析プログラムによれば、テキストデータからトピックを抽出し、各テキストデータに対してトピックのスコアを求める。このようなスコアを求める前提となる共起行列は、事象が発生したテキストデータと事象が発生していないテキストデータに分け、第１の共起行列及び第２の共起行列を作成し、これらの差から得られたものである。

このようにして得られた共起行列は、事象の発生有無に関係する共起ペアは頻度が大きくなり、そうでない共起ペアでは頻度が小さくなる。このため、共起行列にＰＬＳＡを適用する結果、事象の発生有無に影響を与えるトピックを優先的に抽出することができる。このように、本発明によれば、テキストデータに潜む要因関係（トピックと事象との関係）を顕在化することができる。

また、テキストデータに含まれる文章ごとに共起行列を作成し、トピック抽出手段１２により文章を元にトピックを抽出した。これにより、テキストデータに異なる観点の文章が複数含まれている場合であっても、トピック抽出手段１２による抽出されたトピックは、異なる観点が混在したような曖昧さが低減され、より明確な内容のトピックを抽出することができる。

本発明では、事象該当ありの指標値と事象該当なしの指標値をトピック毎に計算する。これにより、各トピックが着目する事象の有無（上記実施例では２０１３年前後の出願年であるか否か）に対してどの程度関連するものなのかを明確にすることができる。

本発明では、第１の共起行列と第２の共起行列との差を取る際に、何れか一方あるいは両方に補正値を乗じて補正した。これにより、事象の発生有無に影響を与えるトピックを、その発生有無のデータ規模によらず抽出することができる。

なお、本発明を上述した実施形態に基づいて説明したが、本発明は上記実施形態に限定されない。例えば、一台の分析装置１において各手段１１〜１４による処理を実行させたが、このような態様に限らず、複数の分析装置にて各手段を分散して実行させてもよい。

また、上記実施形態では、特許文献を対象としたものであるが、これに限定されない。例えば、顧客から得たアンケートの自由記述結果をテキストデータとし、商品の顧客満足度（ターゲットとなる事象）に影響を与えるトピックを当該テキストデータから抽出するなど、テキストデータの一般に適用することができる。

〈比較例〉
上述した実施形態と同じテキストデータを用いて、第１の共起行列及び第２の共起行列を作成せずに、トピックの抽出及びスコアの集計を行った比較例を示す。具体的には、テキストデータから文章を抽出し、各文章から、第１語群及び第２語群を抽出し、各文章に含まれている第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成する。つまり、共起行列の作成方法自体は、第１の共起行列及び第２の共起行列と同様であり、テキストデータのメタデータが事象に該当するか否かの判定を行わずに、全てのテキストデータを入力データとした点が異なる。

このようにして作成した共起行列について、上述した実施形態と同様にトピック抽出を行った結果を表１２に示す。本発明では表７に示したように、１４個のトピックが抽出されたが、比較例においては４７個のトピックが抽出された。

さらに、得られたトピックについて上述した実施形態と同様にスコア集計した結果を表１３に示す。４７個のトピックについて、２０１３年前後における指標値の増減率が得られた。

比較例においては、４７個のトピックは、２０１３年前後の増減率がばらついていることが分かる。一方、表１１に示すように、本発明によれば、２０１３年前後の増減率は高いものと低いものに集中しており、その値も表１３よりも高く、事象（２０１３年前後における出願傾向）に影響を与える１４個のトピックが優先的に抽出されている。

〈実施形態２〉
実施形態１では、テキストデータからそこに含まれる文章を抽出し、各文章から共起行列を作成した。しかしながら、本発明はこれに限定されず、テキストデータから共起行列を作成してもよい。以下、本実施形態の分析方法、分析装置、分析プログラムについて説明するが、実施形態１と重複する説明は省略する。

共起行列作成手段１１は、テキストデータから第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成する。つまり、テキストデータは１又は複数の文章からなるが、文章単位では処理せずに、テキストデータ単位で処理する。なお、例として用いるテキストデータは、実施形態１の表１と同様である。

共起行列の作成方法について説明する。まず、共起行列作成手段１１は、テキストデータのメタデータが事象に該当するか否かを判定する。この判定については、実施形態１で説明したので、ここでの説明は省略する。

共起行列作成手段１１は、事象が発生した全てのテキストデータから第１語群及び第２語群を抽出する。そして、共起行列作成手段１１は、抽出された第１語群及び第２語群から第１の共起行列を集計する。

同様に、共起行列作成手段１１は、事象が発生しなかった全てのテキストデータ（または事象の発生有無にかかわらない全てのテキストデータ）から第１語群及び第２語群を抽出する。そして、共起行列作成手段１１は、抽出された第１語群及び第２語群から第２の共起行列を集計する。

このようにして、第１語群及び第２語群に属する具体的な語や件数は異なるが、表３及び表４のような第１の共起行列及び第２の共起行列が得られる。表３がテキストデータから作成された第１の共起行列であると仮定すると、「配置」及び「空気−吸い込む」という共起ペアが存在するテキストデータの数は６６件であることを表す。

また、第１の共起行列を得るために用いられたテキストデータの数（事象が発生したテキストデータの数）と、第２の共起行列を得るために用いられたテキストデータの数（事象が発生しなかったテキストデータの数）とに差がある場合は、第１の共起行列又は第２の共起行列の一方あるいはその両方を補正することが好ましい。

例えば、第１の共起行列を得るために用いたテキストデータの数がＮ１件、第２の共起行列を得るために用いたテキストデータの数がＮ２件であった。Ｎ１＜Ｎ２とする。この場合、第２の共起行列の全ての共起ペアの個数に、Ｎ１／Ｎ２を乗じる補正を行う。つまり、数の多いテキストデータから作成された第２の共起行列に対して、第２の共起行列の作成に用いられたテキストデータの数（Ｎ２）に対する、第１の共起行列の作成に用いられたテキストデータの数（Ｎ１）の比率を補正値とする。もちろん、第１の共起行列を補正してもよい。この場合は、第１の共起行列の全ての共起ペアの個数に、補正値Ｎ２／Ｎ１を乗じる。

このような補正を行うことで、第２の共起行列は、第１の共起行列と同じＮ１件のテキストデータを用いて作成したものと同等と考えられる。このような補正は、第１の共起行列と第２の共起行列のテキストデータの数に偏りがある場合に特に有用である。

このようにして得られた共起行列に対して、トピック抽出手段１２によりトピックの抽出を行う。この抽出については、実施形態１と同様であるのでここでの説明は省略する。

実施形態１では、各トピックを条件とした各文章の条件付確率を計算したが、本実施形態では、各トピックを条件とした各テキストデータの条件付確率を計算する。

具体的には、スコア計算手段１３は、第１条件付確率及び第１語群の出現頻度、並びに第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各テキストデータの条件付確率を計算する。そして、この条件付確率を各テキストデータの発生確率で除した値を、各テキストデータに対する各トピックのスコアとする。

各トピックＴｋを条件とした各テキストデータＳｈの条件付確率をＰ（Ｓｈ｜Ｔｋ）とする。各テキストデータの発生確率をＰ（Ｓｈ）とする。各テキストデータに対するトピックのスコアは、Ｐ（Ｓｈ｜Ｔｋ）／Ｐ（Ｓｈ）である。スコア計算手段１３は、Ｐ（Ｓｈ｜Ｔｋ）及びＰ（Ｓｈ）を次のように計算する。なお、ｋは、ＰＬＳＡで作成されたトピックを特定する番号であり、トピックの総数を最大とする自然数である。ｈは、テキストデータを特定する番号（テキストデータＩＤ）であり、テキストデータの総数を最大とする自然数である。

各テキストデータＳｈについて、第１語群に設定した単語Ｗによって定義されるテキストデータをＳwｈ、第２語群に設定した係り受け表現Ｅによって定義されるテキストデータをＳeｈとする。Ｐ（Ｓｈ｜Ｔｋ）を計算するにあたり、Ｐ（Ｓwｈ｜Ｔｋ）とＰ（Ｓeｈ｜Ｔｋ）を計算する。これらはそれぞれ上記式（１）（２）で計算される。単語Ｗｉが含まれるテキストデータの数をｎ（Ｗｉ）、係り受け表現Ｅｊが含まれるテキストデータの数をｎ（Ｅｊ）とすると、Ｐ（Ｓwｈ｜Ｗｉ）はｎ（Ｗｉ）の逆数、Ｐ（Ｓeｈ｜Ｅｊ）はｎ（Ｅｊ）の逆数として計算される。Ｐ（Ｗｉ｜Ｔｋ）とＰ（Ｅｊ｜Ｔｋ）は、ＰＬＳＡの実行によって得られる第１条件付確率と第２条件付確率である。

Ｐ（Ｓｈ｜Ｔｋ）は、上記式（３）より得られる。Ｐ（Ｓｈ｜Ｓwｈ）とＰ（Ｓｈ｜Ｓeh）は文章Ｓｈにおいて重みは同じといえるので、それぞれ０．５とする。Ｐ（Ｓｈ）は、上記式（４）で計算され、Ｐ（Ｔｋ）はＰＬＳＡの実行により得られる。

上記式（３）のＰ（Ｓｈ｜Ｔｋ）を、上記式（４）のＰ（Ｓｈ）で除した値が各テキストデータのスコアとなる。本実施形態では、各テキストデータの発生確率を上記式（４）のように計算しているが、例えば一様分布に従うと仮定し、Ｐ（Ｓｈ）をテキストデータの総数の逆数とするなど、各テキストデータの発生確率の取り方はこれに限らない。

このように、Ｐ（Ｓｈ｜Ｔｋ）とＰ（Ｓｈ）との比をもってテキストデータＳｈにおけるトピックＴｋのスコアとする。この値が１を超えるということは、テキストデータＳｈの発生確率はトピックＴｋを条件とすることで上昇し、トピックＴｋとの関係が強いということである。このようなスコアを採用することで、各テキストデータＳｈとトピックＴｋの関係の強さを把握しやすくすることができる。表１４に各テキストデータＳｈに対する各トピックＴｋのスコアを例示する。

例えば、テキストデータＩＤ「１」は、トピックＴ１についてのスコアが３．１であり、トピックＴ２についてのスコアが０．９であり、このようなスコアが全トピックについて計算されている。

このようにして得られたスコアから、トピックの該当の有無を表す１，０の情報を付与してもよい。例えば、閾値を「３」に設定し、スコアが３以上であれば「１」、３未満であれば「０」というフラグ情報を付与してもよい。表１５にフラグ情報を示す。

テキストデータ「１」は、トピックＴ１のスコアが「３．１」であるから（表１４参照）、フラグ情報は「１」となり、トピックＴ２のスコアは「０．９」であるから、フラグ情報は「０」となる。

集計手段については、上記スコアを元にして、実施形態１と同様に処理することができるので、ここでの説明は省略する。

以上に述べたように、本実施形態に係る分析方法、分析装置及び分析プログラムによれば、実施形態１と同様の作用効果を奏する。また、本実施形態では、文章ごとではなく、テキストデータから共起行列を作成する。このため、本実施形態の分析方法等は、テキストデータに異なる観点の文章が複数含まれていない場合に、特に有用である。

〈実施形態３〉
実施形態１ではテキストデータから抽出された文章を対象として共起行列を作成し、実施形態２ではテキストデータを対象として共起行列を作成したが、本発明はこれらに限定されない。

本実施形態のテキストデータは、カテゴリに分類されたテキスト部（１又は複数の文章からなる）を複数備えた構造となっている。表１６にテキストデータを例示する。

表１６に示すように、テキストデータは、複数のテキスト部からなり、各テキスト部は、カテゴリに分類されている。例えば、特許出願の明細書等に関するテキストデータには、タイトル（発明の名称）、課題、解決手段、効果などのカテゴリに分類されたテキスト部が含まれている。

共起行列作成手段１１は、複数のカテゴリのうち特定の２個のカテゴリを用いる。この２個のカテゴリは、ユーザーに指定されたものである。それらの２個のカテゴリのうちの一つを第１のカテゴリ、他の一つを第２のカテゴリと称する。

共起行列作成手段１１は、第１のカテゴリに分類されたテキスト部から第１語群に属する語、及び第２のカテゴリに分類されたテキスト部から第２語群に属する語の組み合わせの個数を表す共起行列を作成する。

具体的には、まず、共起行列作成手段１１は、テキストデータのメタデータが事象に該当するか否かを判定する。この判定については、実施形態１で説明したので、ここでの説明は省略する。

共起行列作成手段１１は、事象が発生した全てのテキストデータのうち、第１のカテゴリに分類されたテキスト部から第１語群を抽出し、第２のカテゴリに分類されたテキスト部から第２語群を抽出する。そして、共起行列作成手段１１は、抽出された第１語群及び第２語群から第１の共起行列を集計する。

同様に、共起行列作成手段１１は、事象が発生しなかった全てのテキストデータ（または事象の発生有無にかかわらない全てのテキストデータ）のうち、第１のカテゴリに分類されたテキスト部から第１語群を抽出し、第２のカテゴリに分類されたテキスト部から第２語群を抽出する。そして、共起行列作成手段１１は、抽出された第１語群及び第２語群から第２の共起行列を集計する。

表１７は、第１のカテゴリを「タイトル」とし、第２のカテゴリを「解決手段」とし、第１語群を「名詞」とし、第２語群を「係り受け表現」として作成した第１の共起行列を例示している。

例えば、第１のカテゴリ「タイトル」に分類されたテキスト部に「燃焼」という名詞が含まれ、かつ、第２のカテゴリ「解決手段」に分類されたテキスト部に「空気−吸い込む」という係り受け表現が含まれるような共起ペアが存在するテキストデータの数は６６件であることを表す。第２の共起行列については特に例示しないが、表１７と同様の結果が得られる。

また、第１の共起行列を得るために用いられたテキストデータの数（事象が発生したテキストデータの数）と、第２の共起行列を得るために用いられたテキストデータの数（事象が発生しなかったテキストデータの数）とに差がある場合は、第１の共起行列又は第２の共起行列の一方あるいはその両方を補正することが好ましい。補正の方法は、実施形態２と同様である。

以後の処理は実施形態２と同様である。具体的には、本実施形態の分析方法、分析装置及び分析プログラムは、共起行列作成手段１１が第１の共起行列及び第２の共起行列に基づいて共起行列を作成し、トピック抽出手段１２がトピックを抽出し、スコア計算手段１３がスコアを計算し、集計手段１４が集計を行う。

以上に述べたように、本実施形態に係る分析方法、分析装置及び分析プログラムによれば、実施形態１及び実施形態２と同様の作用効果を奏する。また、本実施形態では、カテゴリに分けられたテキスト部を含む、構造化されたテキストデータを対象として分析する場合に特に有用である。

なお、本発明では、メタデータは、事象に該当するか否かによって第１の共起行列及び第２の共起行列を作成するために用いられる。しかしながら、本実施形態のようにカテゴライズされたテキスト部を用いる場合においては、メタデータをカテゴライズされたテキスト部として用いてもよい。

表１８は、メタデータをカテゴライズされたテキスト部としても用いる場合のテキストデータの例を示している。表１６と同様に、メタデータとして「出願人」「発明者」「出願年」がある。一方、これらの「出願人」「発明者」「出願年」は、テキストデータに含まれるカテゴリとしても用いることができる。出願人の「Ａ」や「Ｂ」はカテゴリ「出願人」のテキスト部の具体例である。発明者についても同様である。

表１９に、第１のカテゴリを「出願人」とし、第２のカテゴリを「解決手段」とし、第１語群を「名詞（人名・法人名）」とし、第２語群を「係り受け表現」とし、表１８のテキストデータから作成した第１の共起行列を例示する。

第２の共起行列についても同様に作成し、実施形態２と同様に以後の処理を行う。具体的には、本実施形態の分析方法、分析装置及び分析プログラムは、共起行列作成手段１１が第１の共起行列及び第２の共起行列に基づいて共起行列を作成し、トピック抽出手段１２がトピックを抽出し、スコア計算手段１３がスコアを計算し、集計手段１４が集計を行う。

１分析装置
１０分析プログラム
１１共起行列作成手段
１２トピック抽出手段
１３スコア計算手段
１４集計手段

Claims

テキストデータ及び前記テキストデータに関するメタデータの分析方法であって、
前記テキストデータに含まれている第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成ステップと、
前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率を求めるトピック抽出ステップと、
前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算ステップと、を備え、
前記共起行列作成ステップは、
前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第１の共起行列を作成し、
前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第２の共起行列を作成し、
前記第１の共起行列と前記第２の共起行列との差を計算することで前記共起行列を作成する
ことを特徴とする分析方法。
請求項１に記載の分析方法であって、
前記テキストデータは、カテゴリに分類されたテキスト部を含み、
前記共起行列作成ステップは、第１のカテゴリに分類された前記テキスト部から第１語群に属する語、及び第２のカテゴリに分類された前記テキスト部から第２語群に属する語の組み合わせの個数を表す共起行列を作成し、
前記スコア計算ステップでは、前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて前記テキストデータに対する各トピックのスコアを求め、
前記共起行列作成ステップは、
前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記第１のカテゴリに分類された前記テキスト部、及び当該メタデータに関する前記第２のカテゴリに分類された前記テキスト部について第１の共起行列を作成し、
前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記第１のカテゴリに分類された前記テキスト部、及び当該メタデータに関する前記第２のカテゴリに分類された前記テキスト部、あるいは前記事象の該当有無にかかわらず全ての前記テキスト部について第２の共起行列を作成し、
前記第１の共起行列と前記第２の共起行列との差を計算することで前記共起行列を作成する
ことを特徴とする分析方法。
請求項１に記載の分析方法であって、
前記共起行列作成ステップは、前記テキストデータから文章を抽出し、各文章に含まれている第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成し、
前記スコア計算ステップでは、前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各文章の条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求め、
前記共起行列作成ステップは、
前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記文章について第１の共起行列を作成し、
前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記文章、あるいは前記事象の該当有無にかかわらず全ての前記文章について第２の共起行列を作成し、
前記第１の共起行列と前記第２の共起行列との差を計算することで前記共起行列を作成する
ことを特徴とする分析方法。
請求項１又は請求項２に記載する分析方法において、
前記共起行列作成ステップでは、前記第１の共起行列に対して補正値を乗じ、
前記補正値は、前記第１の共起行列の作成に用いられた前記テキストデータの件数に対する、前記第２の共起行列の作成に用いられた前記テキストデータの件数の比率、あるいは全ての前記テキストデータの件数の比率である
ことを特徴とする分析方法。
請求項１又は請求項２に記載する分析方法において、
前記共起行列作成ステップでは、前記第２の共起行列に対して補正値を乗じ、
前記補正値は、前記第２の共起行列の作成に用いられた前記テキストデータの件数に対する、前記第１の共起行列の作成に用いられた前記テキストデータの件数の比率、あるいは全ての前記テキストデータの件数の比率である
ことを特徴とする分析方法。
請求項３に記載する分析方法において、
前記共起行列作成ステップでは、前記第１の共起行列に対して補正値を乗じ、
前記補正値は、前記第１の共起行列の作成に用いられた前記テキストデータの文章数に対する、前記第２の共起行列の作成に用いられた前記テキストデータの文章数の比率、あるいは全ての前記テキストデータの文章数の比率である
ことを特徴とする分析方法。
請求項３に記載する分析方法において、
前記共起行列作成ステップでは、前記第２の共起行列に対して補正値を乗じ、
前記補正値は、前記第２の共起行列の作成に用いられた前記テキストデータの文章数に対する、前記第１の共起行列の作成に用いられた前記テキストデータの文章数の比率、あるいは全ての前記テキストデータの文章数の比率である
ことを特徴とする分析方法。
請求項１から請求項７の何れか一項に記載する分析方法において、
前記トピックごとに、
前記スコアが所定の閾値以上である条件の下で前記メタデータが前記事象に該当する確率を前記メタデータが前記事象に該当する確率で除した事象該当ありの指標値、及び
前記スコアが所定の閾値以上である条件の下で前記メタデータが前記事象に該当しない確率を前記メタデータが前記事象に該当しない確率で除した事象該当なしの指標値を計算する集計ステップを備える
ことを特徴とする分析方法。
テキストデータ、及び前記テキストデータに関するメタデータの分析装置であって、
前記テキストデータに含まれている第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成手段と、
前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語
の第２条件付確率を求めるトピック抽出手段と、
前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段と、を備え、
前記共起行列作成手段は、
前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第１の共起行列を作成し、
前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第２の共起行列を作成し、
前記第１の共起行列と前記第２の共起行列との差を計算することで前記共起行列を作成する
ことを特徴とする分析装置。
テキストデータ、及び当該テキストデータに関するメタデータをコンピュータに分析させる分析プログラムであって、
前記コンピュータを、
前記テキストデータに含まれている第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成手段と、
前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率を求めるトピック抽出手段と、
前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段として機能させ、
前記共起行列作成手段は、
前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第１の共起行列を作成し、
前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第２の共起行列を作成し、
前記第１の共起行列と前記第２の共起行列との差を計算することで前記共起行列を作成する
ことを特徴とする分析プログラム。