JP2021135676A

JP2021135676A - 文書分析システム

Info

Publication number: JP2021135676A
Application number: JP2020030684A
Authority: JP
Inventors: 孝昌鈴木; Takamasa Suzuki
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2021-09-13
Also published as: US20210263953A1; US11847142B2

Abstract

【課題】文書の潜在的な意味を推定する観点からＬＤＡのトピック数を適当に決定しうるシステムを提供する。【解決手段】文書生成モデルであるＬＤＡにしたがってトピックモデルを定義するトピック数Ｎがさまざまな値に仮定され、かつ、単語群が異なる乱数のそれぞれにより指定された場合に複数の文書ｄのそれぞれが生成される確率である文書生成確率に基づき、パープレキシティＰＰＬが評価される。第１トピック数Ｎ1（パープレキシティＰＰＬが最初に極小値を示す累計頻度が最高になるトピック数）および第２トピック数Ｎ2（パープレキシティＰＰＬが最小値を示す累計頻度が最高になるトピック数）が複合されて決定された基準トピック数Ｎ0によってトピックモデルが定義される。【選択図】図３

Description

本発明は、複数の文書を分析するシステムに関する。

ＬＤＡ計算負荷が大きいクラスタリングを実行して特定の評価指標を与えて結果評価する際、評価指標の分類の適切さがＡＩＣ値として算出され、クラスタ数が断続的に指定される過程で最小クラスタ数を見つけ出し、最適結果を判定する技術的手法が提案されている（例えば、特許文献１参照）。テキストがテキスト集合および部分集合に分割され、確率モデルおよび確率変数を用いて、テキスト内トークン毎に共有語彙の用法、トピック、サブトピックとの関連付けを行い、ＬＤＡ（潜在的ディリクレ配分法）を用いて単語のクラスタを見つける技術的手法が提案されている（例えば、特許文献２参照）。

特開２０１５−１５３３８１号公報特表２０１５−５０３７７６号公報

しかし、文書の潜在的な意味を推定する観点から、ＬＤＡのトピック数が不適当な値に決定される可能性がある。

そこで、本発明は、文書の潜在的な意味を推定する観点からＬＤＡのトピック数を適当に決定しうるシステムを提供することを目的とする。

本発明の文書分析システムは、文書生成モデルであるＬＤＡにしたがってトピック数がさまざまな値に仮定され、かつ、単語群が異なる乱数のそれぞれにより指定された場合に複数の文書のそれぞれが生成される確率である文書生成確率に基づき、パープレキシティを評価するパープレキシティ評価要素と、前記異なる乱数のそれぞれにより指定された単語群ごとに、前記パープレキシティ評価要素により評価された前記パープレキシティが最初に極小値を示す頻度を累計し、当該累計頻度が最高になるトピック数を第１トピック数として決定する第１トピック数決定要素と、前記異なる乱数のそれぞれにより指定された単語群ごとに、前記パープレキシティ評価要素により評価された前記パープレキシティが最小値を示す頻度を累計し、当該累計頻度が最高になるトピック数を第２トピック数として決定する第２トピック数決定要素と、前記第１トピック数決定要素により決定された前記第１トピック数と、前記第２トピック数決定要素により決定された前記第２トピック数と、を複合することにより基準トピック数を定める基準トピック数決定要素と、を備えていることを特徴とする。

当該構成の文書分析システムによれば、文書生成モデルであるＬＤＡにしたがってトピックモデルを定義するトピック数がさまざまな値に仮定され、かつ、単語群が異なる乱数のそれぞれにより指定された場合に複数の文書のそれぞれが生成される確率である文書生成確率に基づき、パープレキシティが評価される。パープレキシティが最初に極小値を示す累計頻度が最高になるトピック数である「第１トピック数」およびパープレキシティが最小値を示す累計頻度が最高になるトピック数である「第２トピック数」のそれぞれは、当該複数の文書のそれぞれに潜在するトピックを抽出する観点から適当な確率モデルとしてのトピックモデルを定義しうる。

しかるに、いずれか一方のトピック数のみによりトピックモデルが定義された場合、他方のトピック数により定義された場合のトピックモデルにより推定されうる文書の潜在的な意味が看過される可能性がある。そこで、第１トピック数および第２トピック数が複合されて決定された基準トピック数によってトピックモデルが定義されることにより、文書の潜在的な意味を推定する観点からさらに適当なトピックモデルが確立されうる。

本発明の文書分析システムにおいて、前記基準トピック数のトピックのそれぞれにおける、前記複数の文書に含まれる複数の単語のそれぞれの累計出現頻度を評価する累計出現頻度評価要素をさらに備えていることが好ましい。さらに、前記累計出現頻度評価要素が、前記基準トピック数のトピックのうち少なくとも１つのトピックにおいて、前記複数の単語に含まれる少なくとも１つの指定単語の累計出現頻度が基準値以下であるか否かを判定することが好ましい。

当該構成の文書分析システムによれば、基準トピック数のトピックのそれぞれにおける、複数の文書に含まれている各単語の累計出現頻度が評価される。単語の「累計出現頻度」とは、出現頻度が上位の単語から当該単語まで順に当該出現頻度を累計した結果である。前記のように、基準トピック数は、複数の文書のそれぞれの文脈上の意味を推定する観点から適当なトピック数である。このため、一のトピックにおける単語の累計出現頻度が低いほど、当該単語の文脈上の意味が当該一のトピックと一致している蓋然性が高い。よって、当該評価結果に基づき、特に、累計出現頻度が基準値以下であるか否かの判定結果に応じて、トピックモデルの生成基礎となった複数の文書における指定単語の文脈上の意味が高精度で推定されうる。

本発明の文書分析システムにおいて、複数のアイテムのそれぞれに関する前記複数の文書のそれぞれが、トピックモデルにしたがって前記基準トピック数のトピックにより構成されていると仮定された場合において、前記複数のアイテムのそれぞれと前記基準トピック数のトピックのそれぞれとの組み合わせごとの相対頻度を評価する相対頻度評価要素と、前記複数のアイテムのそれぞれについて、前記相対頻度評価要素により評価された前記複数のアイテムのそれぞれと前記複数のトピックのそれぞれとの組み合わせごとの相対頻度を主成分分析することにより、前記複数のトピックのそれぞれの主成分ベクトルおよび前記複数のアイテムのそれぞれの主成分ベクトルを評価する主成分分析要素と、をさらに備えていることが好ましい。

当該構成の文書分析システムによれば、複数のアイテムのそれぞれと前記複数のトピックのそれぞれとの組み合わせごとの相対頻度が評価される。アイテムおよびトピックの組み合わせに関する相対頻度は、当該アイテムに関して当該トピックが出現する頻度を表わしており、各アイテムの相対頻度が主成分分析されることにより、各アイテムと各トピックとの相関関係が顕在化されうる。そして、複数のアイテムのそれぞれに関する複数の文書のそれぞれに基づいて生成されたトピックモデルにしたがってトピック分布が定められる複数のトピックのそれぞれと、当該複数のアイテムとの相関関係が推定されうる。

本発明の文書分析システムにおいて、前記主成分分析要素が、前記複数のトピックのそれぞれの主成分ベクトルを構成する主成分の極性および大きさのうち少なくとも一方に応じて区分される複数の主成分群のそれぞれに対して、前記複数のトピックのそれぞれを分類し、前記複数の主成分群のそれぞれに分類されたトピックにおいて単語出現頻度が指定値以上である単語に基づき、前記複数の主成分群のそれぞれの意味を解析することが好ましい。

当該構成の文書分析システムによれば、アイテムがどのような意味を有する主成分群に含まれているかに応じて、当該アイテムに関する複数の文書に潜在している意味が高精度で推定されうる。

本発明の文書分析システムにおいて、前記主成分分析要素が、前記複数の主成分群としての、主成分ベクトルの第１主成分が正であり、かつ、第１主成分の大きさが第２主成分の大きさよりも大きい第１正主成分群、主成分ベクトルの第２主成分が正であり、かつ、第２主成分の大きさが第１主成分の大きさよりも大きい第２正主成分群、主成分ベクトルの第１主成分が負であり、かつ、第１主成分の大きさが第２主成分の大きさよりも大きい第１負主成分群、および、主成分ベクトルの第２主成分が負であり、かつ、第２主成分の大きさが第１主成分の大きさよりも大きい第２負主成分群のそれぞれに対して、前記トピックのそれぞれを分類することが好ましい。

当該構成の文書分析システムによれば、各アイテムに関する複数の文書に潜在する意味が２次元平面において推定されうる。

本発明の文書分析システムにおいて、前記主成分分析要素が、前記トピック分類要素により前記複数の主成分群のそれぞれに分類されたトピックにおいて、前記複数のアイテムのそれぞれに関する単語出現頻度を対比することが好ましい。

当該構成の文書分析システムによれば、各アイテムに関する複数の文書に潜在するトピックが、複数のアイテムの間で対比されうる。

本発明の文書分析システムにおいて、前記複数の文書としてのアンケート結果に含まれる回答文書のそれぞれが、前記トピックモデルにしたがって前記基準トピック数に応じた複数のトピックにより構成されていると仮定された場合において、前記アンケート結果に含まれる複数の項目に対する評点を目的変数とし、かつ、トピック分布を説明変数として回帰分析を実行する回帰分析要素をさらに備えていることが好ましい。

当該構成の文書分析システムによれば、アンケート回答者による複数の項目のそれぞれに対する評点を高める観点から、適当なトピック分布が推定されうる。

本発明の文書分析システムにおいて、前記回帰分析要素が、前記アンケート結果に含まれる回答文書のうち否定的内容の文書に関して、トピック分布の符号をマイナスに反転させたうえで回帰分析を実行することが好ましい。

当該構成の文書分析システムによれば、アンケート結果に含まれる回答文書のうち内容が肯定的であるか否定的であるかのべつに応じて、トピック分布の符号または極性が差異化されるので、回帰分析により、アンケート回答者による複数の項目のそれぞれに対する評点を高める観点から、さらに適当なトピック分布が推定されうる。

本発明の一実施形態としての文書分析システムの構成に関する説明図。本発明の一実施形態としての文書分析システムの第１機能に関する説明図。パープレキシティの評価結果に関する説明図。パープレキシティの最初の極小値頻度に関する説明図。パープレキシティの最初値頻度に関する説明図。本発明の一実施形態としての文書分析システムの第２機能に関する説明図。単語の累計出現頻度に関する説明図。本発明の一実施形態としての文書分析システムの第３機能に関する説明図。相対頻度の計算基礎となる文書集合の包摂関係に関する説明図。主成分分析結果に関する説明図。異なるアイテムに関する単語出現頻度の対比結果に関する説明図。本発明の一実施形態としての文書分析システムの第４機能に関する説明図。

（構成）
図１に示されている本発明の一実施形態としての文書分析システムは、ネットワークを介してクライアント２と相互通信可能な文書分析サーバ１により構成されている。
文書分析サーバ１は、データベース１０と、パープレキシティ評価要素１１と、第１トピック数決定要素１２１と、第２トピック数決定要素１２２と、基準トピック数決定要素１２４と、累計出現頻度評価要素１３と、主成分分析要素１４と、回帰分析要素１５と、を備えている。文書分析サーバ１は、スマートフォンまたはタブレットなどの携帯型の端末装置により構成されていてもよい。文書分析サーバ１は、クライアント２の構成要素（例えばＧＵＩ）であってもよい。

データベース１０は、複数の文書ｄなどを記憶保持する。データベース１０は、サーバ１とは別個のデータベースサーバにより構成されていてもよい。文書分析サーバ１を構成する各要素は演算処理装置により構成されている。演算処理装置は、必要なソフトウェアおよびデータをメモリから読み取り、当該データを対象として当該ソフトウェアにしたがった指定の演算処理を実行する一または複数のＣＰＵおよび必要に応じて通信機器、記憶装置（当該メモリ）等により構成されている。当該指定の演算処理の詳細については後述する。演算処理結果の少なくとも一部は、文書分析サーバ１またはデータベース１０からクライアント２に対して送信またはダウンロードされ、当該クライアント２の出力インターフェース２２を構成するディスプレイ装置に表示されうる。

クライアント２は、例えば、スマートフォンまたはタブレットなどの携帯型の端末装置により構成されている。「携帯型」とは、例えばそのサイズが人間の標準的な手の平程度であり、その重量が片手でまたは衣服のポケットなどに入れて簡単に持ち運びができる程度であることを意味する。クライアント２が、携帯型の機器よりも大型のかつ重量がある機器（たとえば車両４に組み付けられている機器）によって構成されていてもよい。

クライアント２は、記憶装置２０と、入力インターフェース２１と、出力インターフェース２２と、演算処理要素２４と、を備えている。

記憶装置２０は、演算処理要素２４による演算処理結果などを記憶保持するように構成されている。

入力インターフェース２１は、操作ボタンおよびマイクロフォンなどにより構成され、ユーザの接触式操作または発話による非接触式操作を可能とする。出力インターフェース２２は、ディスプレイ装置および音響出力装置（スピーカ）により構成され、クライアントマップ情報等の画像コンテンツを表示または音響コンテンツを出力する。入力インターフェース２１および出力インターフェース２２は、タッチパネル式ディスプレイにより構成されていてもよい。

演算処理要素２４は、記憶装置２０を構成するメモリの指定領域からソフトウェアおよびデータを必要に応じて読み取った上で、当該データを対象として当該ソフトウェアにしたがった指定の演算処理を実行する情報処理部（ＣＰＵ）および必要に応じて通信機器、記憶装置（当該メモリ）等により構成されている。

（機能）
（基準トピックス数の決定）
パープレキシティ評価要素１１により、トピックモデルにしたがって単語の多重集合またはＢＯＷ（ＢａｇｏｆＷｏｒｄｓ）により表現されている複数の文書ｄがデータベース１０から取得される（図２／ＳＴＥＰ１００）。データベース１０に登録されている複数の文書ｄのそれぞれは、例えば、クライアント２の入力インターフェース２１を通じてユーザにより入力され、当該クライアント２の出力インターフェース２２（またはこれを構成する通信機器）により文書分析サーバ１１に送信またはアップロードされる。

乱数または当該乱数により指定される単語群Ｗ_j＝｛ｗ_j1、ｗ_j2、‥ｗ_jk、‥｝を表わす指数ｊが「１」に決定される（図２／ＳＴＥＰ１０１）。トピックモデルを定義するトピック数Ｎ_iを表わす指数ｉが「１」に決定される（図２／ＳＴＥＰ１０２）。

パープレキシティ評価要素１１により、トピック数Ｎ_iおよび単語群Ｗ_jに基づき、文書生成モデルであるＬＤＡにしたがって、各文書ｄの生成確率ｐ（ｄ｜Ｎ_i，Ｗ_j）が計算される（図２／ＳＴＥＰ１０４）。ＬＤＡによれば、文書ｄにおけるトピックｋ（ｋ＝１，２，‥，Ｎ）の出現確率θ_d＝（θ_d,1，θ_d,2，‥，θ_d,N）がディリクレ分布Ｄｉｒ（θ｜α）にしたがい、トピックｋにおける単語ｗの出現分布φ_k,wがディリクレ分布Ｄｉｒ（φ｜β）にしたがう。ディリクレ分布のハイパーパラメータα、βの値は当該計算に際して固定されている。

パープレキシティ評価要素１１により、複数の文書ｄのそれぞれの生成確率ｐ（ｄ｜Ｎ_i，Ｗ_j）の幾何平均の逆数がパープレキシティＰＰＬ（Ｎ_i，Ｗ_j）として評価される（図２／ＳＴＥＰ１０６）。パープレキシティＰＰＬは、情報の曖昧さの尺度であり、関係式（０１）にしたがって評価される。

ＰＰＬ＝２^H(d|α;Φ) ‥（０１）。

ここで、Ｈ（ｘ）はエントロピーであり、文書ｄの生成確率ｐ（ｄ｜Ｎ_i，Ｗ_j）に基づき、関係式（０２）により定義される。

Ｈ（ｄ|Ｎ_i，Ｗ_j）＝−Σ_iΣ_jｐ（ｄ|Ｎ_i，Ｗ_j）ｌｏｇ₂ｐ（ｄ|Ｎ_i，Ｗ_j） ‥（０２）。

続いて、指数ｉが指定数Ｍ_i以上であるか否かが判定される（図２／ＳＴＥＰ１０８）。当該判定結果が否定的である場合（図２／ＳＴＥＰ１０８‥ＮＯ）、指数ｉが「１」だけ増大されたうえで（図２／ＳＴＥＰ１１０）、各文書ｄの生成確率ｐ（ｄ｜Ｎ_i，Ｗ_j）の計算処理（図２／ＳＴＥＰ１０４）およびパープレキシティＰＰＬ（Ｎ_i，Ｗ_j）の評価処理（図２／ＳＴＥＰ１０６）が繰り返される。

その一方、当該判定結果が肯定的である場合（図２／ＳＴＥＰ１０８‥ＹＥＳ）、指数ｊが指定数Ｍ_j以上であるか否かが判定される（図２／ＳＴＥＰ１１２）。当該判定結果が否定的である場合（図２／ＳＴＥＰ１１２‥ＮＯ）、指数ｊが「１」だけ増大され（図２／ＳＴＥＰ１１４）、さらに指数ｉが「１」にリセットされたうえで（図２／ＳＴＥＰ１０２）、各文書ｄの生成確率ｐ（ｄ｜Ｎ_i，Ｗ_j）の計算処理（図２／ＳＴＥＰ１０４）およびパープレキシティＰＰＬ（Ｎ_i，Ｗ_j）の評価処理（図２／ＳＴＥＰ１０６）が繰り返される。

図３には、異なるトピック数Ｎ₁＝５、Ｎ₂＝１０、Ｎ₃＝２０、Ｎ₄＝３０、Ｎ₅＝４０、Ｎ₆＝５０、Ｎ₇＝６０、Ｎ₈＝７０、Ｎ₉＝８０、Ｎ₁₀＝９０、Ｎ₁₁＝１００、Ｎ₁₂＝１１０およびＮ₁₃＝１２０のそれぞれについて、異なる乱数のそれぞれにより指定される１０の単語群Ｗ_jのそれぞれのパープレキシティＰＰＬ（Ｎ_i，Ｗ_j）の評価結果が示されている。

当該判定結果が肯定的である場合（図２／ＳＴＥＰ１１２‥ＹＥＳ）、第１トピック数決定要素１２１により、ＲＰＣ法にしたがってパープレキシティＰＰＬ（Ｎ_i，Ｗ_j）が最初に極小値を示す累計頻度が最高になるトピック数が第１トピックス数Ｓ₁として決定される（図２／ＳＴＥＰ１２１）。潜在トピック数が３０以上である場合、パープレキシティＰＰＬの変化率ＲＰＣ（ＲａｔｅｏｆＰｅｒｐｌｅｘｉｔｙＣｈａｎｇｅ）が高くなるため、ＲＰＣが関係式（０３）にしたがって評価された。

ＲＰＣ_i＝−（Ｐ_i−Ｐ_i-1）／（ｔ_i−ｔ_i-1） ‥（０３）。

初めてＲＰＣ_i＜０となる、すなわち、初めてパープレキシティＰＰＬが上がる直前の潜在トピック数が最適値として選択される。図４Ａには、図３に示されている評価結果に応じた、トピック数Ｎ₁〜Ｎ₁₃のそれぞれにおけるパープレキシティＰＰＬ（Ｎ_i，Ｗ_j）が最初に極小値を示す累計頻度を表わすヒストグラムが示されている。図４Ａに示されている実施例によれば、トピック数「３０（＝Ｎ₄）」が第１トピックス数Ｓ₁として決定される。

同様に、第２トピック数決定要素１２２により、パープレキシティＰＰＬ（Ｎ_i，Ｗ_j）が最小値を示す累計頻度が最高になるトピック数が第２トピックス数Ｓ₂として決定される（図２／ＳＴＥＰ１２２）。図４Ｂには、図３に示されている評価結果に応じた、トピック数Ｎ₁〜Ｎ₁₃のそれぞれにおけるパープレキシティＰＰＬ（Ｎ_i，Ｗ_j）が最小値を示す累計頻度を表わすヒストグラムが示されている。図４Ｂに示されている実施例によれば、トピック数６０（＝Ｎ₇）、９０（＝Ｎ₁₀）および１００（＝Ｎ₁₁）ののうちいずれか１つまたは平均値「８３（小数点切り捨て）」が第２トピックス数Ｓ₂として決定される。

そして、基準トピック数決定要素１２４により、第１トピックス数Ｓ₁および第２トピックス数Ｓ₂が複合されることにより、基準トピックス数Ｓ₀が決定される（図２／ＳＴＥＰ１２４）。例えば、関係式（０４）にしたがって第１トピックス数Ｓ₁および第２トピックス数Ｓ₂の重み付き和が基準トピック数ｎ₀として決定されてもよい。

ｎ₀＝γｎ₁＋（１−γ）ｎ₂ ‥（０４）。

「γ」は不等式０＜γ＜１を満たす正数である。例えば、γ＝０．５である場合、基準トピック数ｎ₀は、０．５×３０＋０．５×８３＝５６（小数点切り捨て）に決定される。そのほか、ＲＰＣ法にしたがって求められたパープレキシティＰＰＬが最小になる頻度の最大値と、最小パープレキシティ法にしたがって求められたパープレキシティＰＰＬが最小になる頻度の最大値との和に対する、ＲＰＣ法にしたがって求められたパープレキシティＰＰＬが最小になる頻度の最大値の比率がγとして定義されていてもよい。例えば、図４Ａに示されている例では、ＲＰＣ法にしたがって求められたパープレキシティＰＰＬが最小になる頻度の最大値は「５」であり、図４Ｂに示されている例では、最小パープレキシティ法にしたがって求められたパープレキシティＰＰＬが最小になる頻度の最大値は「２」であるため、γ＝５／（２＋５）＝０．７１がγとして定義されていてもよい。

（累計出現頻度の評価）
基準トピック数Ｎ₀が決定されたことにより、トピックモデルにおいて、当該基準トピック数Ｎ₀のトピックのそれぞれにおける、複数の文書ｄに含まれる複数の単語ｗのそれぞれの出現頻度φが定まる。累計出現頻度評価要素１３により、基準トピック数Ｎ₀のトピックのそれぞれにおける、複数の文書ｄに含まれる複数の単語ｗのそれぞれの累計出現頻度が評価される（図５／ＳＴＥＰ１３０）。図６には、一のトピックｋにおける複数の単語ｗ₁、‥、ｗ_i、ｗ_i+1、‥の累計出現頻度Σ_iφ_k,wiが示されている。単語ｗ_iの累計出現頻度とは、出現頻度が上位の単語ｗ₁から当該単語ｗ_iまで順に当該出現頻度φ_k,wiを累計した結果である。

さらに、累計出現頻度評価要素１３により、基準トピック数Ｎ₀のトピックのうち少なくとも１つのトピックにおいて、複数の単語ｗに含まれる少なくとも１つの指定単語の累計出現頻度が基準値以下であるか否かが判定される（図５／ＳＴＥＰ１３２）。例えば、図６に示されている一のトピックｋにおける複数の単語ｗ₁、‥、ｗ_i、ｗ_i+1、‥のうち、累計出現頻度Σ_iφ_k,wiが基準値（例えば０．５）以下である単語群｛ｗ₁、‥、ｗ_i、ｗ_i+1｝に指定単語が含まれている場合、当該判定結果が肯定的になる。当該判定結果が肯定的である場合（図５／ＳＴＥＰ１３２‥ＹＥＳ）、累計出現頻度評価要素１３により、当該指定単語がトピックｋに振り分けられる（図５／ＳＴＥＰ１３４）。指定単語の振り分け先となる複数のトピックｋが存在する場合、当該指定単語の累計出現頻度が最高になる一のトピックに選択的に指定単語が振り分けられる。

（主成分分析）
複数のアイテム（例えば、自動車）のそれぞれを（例えば、車種、車型等により）区分するための指数ｍが「１」に設定される（図７／ＳＴＥＰ１４０）。トピックを表わす指数ｎが「１」に設定される（図７／ＳＴＥＰ１４１）。

相対頻度評価要素１４１により、複数のアイテムｍのそれぞれと基準トピック数Ｎ₀のトピックｎのそれぞれとの組み合わせごとの相対頻度Ｌ_mnが評価される（図７／ＳＴＥＰ１４２）。例えば、相対頻度Ｌ_mnは、関係式（０５）にしたがって計算される。

Ｌ_mn＝｛（Ｘ_n∩Ｙ_m）／Ｘ_n｝／｛Ｙ_m／ηＤ｝ ‥（０５）。

「Ｄ」は文書集合Ｄに含まれる文書数を表わしている。「Ｘ_n」は文書集合ｄのうちトピックｎ（例えば、指定単語が振り分けられた先のトピックの１つ）に関する文書集合Ｘ_nに含まれる文書数を表わしている。「Ｙ_m」は文書集合ｄのうちアイテムｍに関する文書集合Ｙ_mに含まれる文書数を表わしている。「η」は相対頻度Ｌ_mnの平均値が「１」になるように設定される調整係数である。図８には、文書集合Ｄ、Ｘ_nおよびＹ_mが概念的に示されている。すなわち、相対頻度Ｌ_mnは、すべての文書数Ｄのうちアイテムｍに関する文書数が占める比に対する、トピックｎに関する文書数Ｘ_nのうちアイテムｍに関する文書数が占める比の比率を表わしている。

続いて、指数ｎが指定数Ｎ以上であるか否かが判定される（図７／ＳＴＥＰ１４３）。当該判定結果が否定的である場合（図７／ＳＴＥＰ１４３‥ＮＯ）、指数ｎが「１」だけ増大されたうえで（図７／ＳＴＥＰ１４４）、相対頻度Ｌ_mnの評価処理（図７／ＳＴＥＰ１４２）が繰り返される。

その一方、当該判定結果が肯定的である場合（図７／ＳＴＥＰ１４３‥ＹＥＳ）、指数ｍが指定数Ｍ以上であるか否かが判定される（図７／ＳＴＥＰ１４５）。当該判定結果が否定的である場合（図７／ＳＴＥＰ１４５‥ＮＯ）、指数ｍが「１」だけ増大され（図７／ＳＴＥＰ１４６）、さらに指数ｎが「１」にリセットされたうえで（図７／ＳＴＥＰ１４１）、相対頻度Ｌ_mnの評価処理（図７／ＳＴＥＰ１４２）が繰り返される。

当該判定結果が肯定的である場合（図７／ＳＴＥＰ１４５‥ＹＥＳ）、主成分分析要素１４２により、複数のアイテムｍのそれぞれと複数のトピックｎのそれぞれとの組み合わせごとの相対頻度Ｌ_mnが主成分分析される（図７／ＳＴＥＰ１４７）。これにより、複数のトピックｎのそれぞれの主成分ベクトルおよび複数のアイテムのそれぞれの主成分ベクトルが決定される。図９には、各トピックｎ（ｎ＝１〜２０）の主成分ベクトルが黒丸白数字により表わされ、各アイテムｍ（ｎ＝１〜２０）の主成分ベクトルが白丸黒数字により表わされている実施例が示されている。

主成分分析要素１４２により、各主成分ベクトルが主成分の極性および大きさのうち少なくとも一方に応じて区分される複数の主成分群のそれぞれに分類される（図７／ＳＴＥＰ１４８）。図９の実施例によれば、各トピックｎおよび各アイテムｍを表わす主成分ベクトルが第１正主成分群Ｇ₁₊、第２正主成分群Ｇ₂₊、第１負主成分群Ｇ_1-および第２負主成分群Ｇ_2-のそれぞれに分類されている。

第１正主成分群Ｇ₁₊に分類される主成分ベクトルは、第１主成分Ｆ₁が正であり、かつ、第１主成分Ｆ₁の大きさが第２主成分Ｆ₂の大きさよりも大きい。図９の実施例では、トピック５、７、１０、１３、１５、１８、１９および２０の主成分ベクトル、ならびに、アイテム７および１３の主成分ベクトルが第１正主成分群Ｇ₁₊に分類されている。

第２正主成分群Ｇ₂₊に分類される主成分ベクトルは、第２主成分Ｆ₂が正であり、かつ、第２主成分Ｆ₂の大きさが第１主成分Ｆ₁の大きさよりも大きい。図９の実施例では、トピック１、６、９および１２の主成分ベクトル、ならびに、アイテム１、２、３、４および６の主成分ベクトルが第２正主成分群Ｇ₂₊に分類されている。

第１負主成分群Ｇ_1-に分類される主成分ベクトルは、第１主成分Ｆ₁が負であり、かつ、第１主成分Ｆ₁の大きさが第２主成分Ｆ₂の大きさよりも大きい。図９の実施例では、トピック２、３、１１、１４、１５および１７の主成分ベクトル、ならびに、アイテム５、１１および１５〜２０の主成分ベクトルが第１負主成分群Ｇ_1-に分類されている。

第２負主成分群Ｇ_2-に分類される主成分ベクトルは、第２主成分Ｆ₂が負であり、かつ、第２主成分Ｆ₂の大きさが第１主成分Ｆ₁の大きさよりも大きい。図９の実施例では、トピック４および８の主成分ベクトル、ならびに、アイテム８、９、１０、１２および１４の主成分ベクトルが第２負主成分群Ｇ_2-に分類されている。

主成分分析要素１４２により、複数の主成分群のそれぞれに分類されたトピックｎにおいて単語出現頻度が指定値以上である単語に基づき、当該複数の主成分群のそれぞれの意味が解析される（図７／ＳＴＥＰ１４９）。例えば、図９の実施例において、第１正主成分群Ｇ₁₊に分類されるトピック５、７、１０、１３、１５、１８、１９および２０のそれぞれにおける出現頻度が指定値以上である単語に基づき、第１正主成分群Ｇ₁₊の意味が解析される。

主成分分析要素１４２が、複数の主成分群のそれぞれに分類されたトピックにおいて、複数のアイテムのそれぞれに関する単語出現頻度を対比してもよい。図１０には、アイテム１および２のそれぞれに関して、第１正主成分群Ｇ₁₊に分類されているトピックにおいて出現する複数の単語ｗ_k1、ｗ_k2、‥ｗ_ki、ｗ_ki+1、‥のそれぞれの出現頻度の対比結果が示されている。図１０から、アイテム１に関してユーザにより作成された文書に出現する単語の文脈上の意味と、アイテム２に関してユーザにより作成された文書に出現する単語の文脈上の意味とが対比されることにより、アイテム１に対するアイテム２の市場における立ち位置などが対比されうる。

（アンケート結果分析）
複数のアイテムｍのそれぞれに対する満足・不満足（要改良）のコメントの別個の記入欄と、関連する質問肢群の評点欄とが含まれる調査シートがクライアント２の出力インターフェース２２に出力される。当該調査シートに入力インターフェース２１を通じてユーザにより入力された満足・不満足のコメントが複数の文書ｄとして評点とともに文書分析サーバ１に対して送信され、回帰分析要素１５により取得される（図１１／ＳＴＥＰ１５２）。当該複数の文書ｄに対してＬＤＡ処理が実行され、各アイテムについてトピック分布θ（＞０）が決定される（図２参照）。各アイテムについて決定されたトピック分布θのうち、不満足欄に記入されたコメントに関するトピック分布θにマイナスが付加されて負値に変換される。

、回帰分析要素１５により、ユーザ評点を目的変数とし、トピック分布θを説明変数としたＳＶＲ処理が実行される（図１１／ＳＴＥＰ１５４）。そして、回帰分析要素１５により、トピック分布θ_kを有するトピックｋの評点に対する寄与率が求められる（図１１／ＳＴＥＰ１５６）。

（作用効果）
文書分析サーバ１によれば、文書生成モデルであるＬＤＡにしたがってトピックモデルを定義するトピック数Ｎがさまざまな値に仮定され、かつ、単語群が異なる乱数のそれぞれにより指定された場合に複数の文書ｄのそれぞれが生成される確率である文書生成確率に基づき、パープレキシティＰＰＬが評価される（関係式（０１）、図２／ＳＴＥＰ１０６、図３参照）。第１トピック数Ｎ₁（パープレキシティＰＰＬが最初に極小値を示す累計頻度が最高になるトピック数）および第２トピック数Ｎ₂（パープレキシティＰＰＬが最小値を示す累計頻度が最高になるトピック数）のそれぞれは、当該複数の文書ｄのそれぞれに潜在するトピックまたは文脈上の意味を抽出する観点から適当な確率モデルとしてのトピックモデルを定義しうる（図２／ＳＴＥＰ１２１、ＳＴＥＰ１２２、図４Ａおよび図４Ｂ参照）。

しかるに、いずれか一方のトピック数（例えばＮ₁）のみによりトピックモデルが定義された場合、他方のトピック数（例えばＮ₂）により定義された場合のトピックモデルにより推定されうる文書の潜在的な意味が看過される可能性がある。そこで、第１トピック数Ｎ₁および第２トピック数Ｎ₂が複合されて決定された基準トピック数Ｎ₀によってトピックモデルが定義されることにより、文書ｄの潜在的な意味を推定する観点からさらに適当なトピックモデルが確立されうる（図２／ＳＴＥＰ１２４、関係式（０４）参照）。

このように確立されたトピックモデルにしたがえば、一のトピックにおける単語の累計出現頻度が低いほど、当該単語の文脈上の意味が当該一のトピックと一致している蓋然性が高い（図６参照）。よって、当該評価結果に基づき、特に、累計出現頻度が基準値以下であるか否かの判定結果に応じて、トピックモデルの生成基礎となった複数の文書における指定単語の文脈上の意味が高精度で推定されうる（図５／ＳＴＥＰ１３０→ＳＴＥＰ１３２‥ＹＥＳ→ＳＴＥＰ１３４参照）。ＬＤＡのトピック数を統計的に最適に処理し、精度の高いトピック内容と、計算時間の短縮を同時に獲得することができる。その結果、ユーザの言葉と車の作り手側のコンセプトワードとの関連性を的確に判定することができる。

複数のアイテムｍのそれぞれと複数のトピックｎのそれぞれとの組み合わせごとの相対頻度Ｌ_mnが主成分分析されることにより、各アイテムと各トピックとの相関関係が顕在化されうる（図７／ＳＴＥＰ１４２→‥ＳＴＥＰ１４７→ＳＴＥＰ１４８→ＳＴＥＰ１４９、図９参照）。そして、複数のアイテムｍのそれぞれに関する複数の文書ｄのそれぞれに基づいて生成されたトピックモデルにしたがってトピック分布θが定められる複数のトピックｎのそれぞれと、当該複数のアイテムｍとの相関関係が推定されうる。

また、評点を伴うアンケート結果が複数の文書ｄとして分析された場合、アンケート回答者による複数の項目のそれぞれに対する評点を高める観点から、適当なトピック分布が推定されうる（図１１／ＳＴＥＰ１５２→ＳＴＥＰ１５４→ＳＴＥＰ１５６参照）。すなわち、アンケート調査におけるユーザ満足度とそのコメントとの関連性を的確に数値化することができる。

１‥文書分析サーバ（文書分析システム）、２‥クライアント、１０‥データベース、１１‥パープレキシティ評価要素、１２１‥第１トピック数決定要素、１２２‥第２トピック数決定要素、１２４‥基準トピック数決定要素、１３‥累計出現頻度評価要素、１４１‥相対頻度評価要素、１４２‥主成分分析要素、１５‥回帰分析要素、２０‥記憶装置、２１‥入力インターフェース、２２‥出力インターフェース、２４‥演算処理装置。

Claims

文書生成モデルであるＬＤＡにしたがってトピックモデルを定義するトピック数がさまざまな値に仮定され、かつ、単語群が異なる乱数のそれぞれにより指定された場合に複数の文書のそれぞれが生成される確率である文書生成確率に基づき、パープレキシティを評価するパープレキシティ評価要素と、
前記異なる乱数のそれぞれにより指定された単語群ごとに、前記パープレキシティ評価要素により評価された前記パープレキシティが最初に極小値を示す頻度を累計し、当該累計頻度が最高になるトピック数を第１トピック数として決定する第１トピック数決定要素と、
前記異なる乱数のそれぞれにより指定された単語群ごとに、前記パープレキシティ評価要素により評価された前記パープレキシティが最小値を示す頻度を累計し、当該累計頻度が最高になるトピック数を第２トピック数として決定する第２トピック数決定要素と、
前記第１トピック数決定要素により決定された前記第１トピック数と、前記第２トピック数決定要素により決定された前記第２トピック数と、を複合することにより基準トピック数を定める基準トピック数決定要素と、を備えていることを特徴とする文書分析システム。
請求項１記載の文書分析システムにおいて、
前記基準トピック数のトピックのそれぞれにおける、前記複数の文書に含まれる複数の単語のそれぞれの累計出現頻度を評価する累計出現頻度評価要素をさらに備えていることを特徴とする文書分析システム。
請求項２記載の文書分析システムにおいて、
前記累計出現頻度評価要素が、前記基準トピック数のトピックのうち少なくとも１つのトピックにおいて、前記複数の単語に含まれる少なくとも１つの指定単語の累計出現頻度が基準値以下であるか否かを判定することを特徴とする文書分析システム。
請求項１〜３のうちいずれか１項に記載の文書分析システムにおいて、
複数のアイテムのそれぞれに関する前記複数の文書のそれぞれが、トピックモデルにしたがって前記基準トピック数のトピックにより構成されていると仮定された場合において、前記複数のアイテムのそれぞれと前記基準トピック数のトピックのそれぞれとの組み合わせごとの相対頻度を評価する相対頻度評価要素と、
前記複数のアイテムのそれぞれについて、前記相対頻度評価要素により評価された前記複数のアイテムのそれぞれと前記複数のトピックのそれぞれとの組み合わせごとの相対頻度を主成分分析することにより、前記複数のトピックのそれぞれの主成分ベクトルおよび前記複数のアイテムのそれぞれの主成分ベクトルを評価する主成分分析要素と、をさらに備えていることを特徴とする文書分析システム。
請求項４記載の文書分析システムにおいて、
前記主成分分析要素が、前記複数のトピックのそれぞれの主成分ベクトルを構成する主成分の極性および大きさのうち少なくとも一方に応じて区分される複数の主成分群のそれぞれに対して、前記複数のトピックのそれぞれを分類し、前記複数の主成分群のそれぞれに分類されたトピックにおいて単語出現頻度が指定値以上である単語に基づき、前記複数の主成分群のそれぞれの意味を解析することを特徴とする文書分析システム。
請求項５記載の文書分析システムにおいて、
前記主成分分析要素が、前記複数の主成分群としての、主成分ベクトルの第１主成分が正であり、かつ、第１主成分の大きさが第２主成分の大きさよりも大きい第１正主成分群、主成分ベクトルの第２主成分が正であり、かつ、第２主成分の大きさが第１主成分の大きさよりも大きい第２正主成分群、主成分ベクトルの第１主成分が負であり、かつ、第１主成分の大きさが第２主成分の大きさよりも大きい第１負主成分群、および、主成分ベクトルの第２主成分が負であり、かつ、第２主成分の大きさが第１主成分の大きさよりも大きい第２負主成分群のそれぞれに対して、前記トピックのそれぞれを分類することを特徴とする文書分析システム。
請求項５または６記載の文書分析システムにおいて、
前記主成分分析要素が、前記トピック分類要素により前記複数の主成分群のそれぞれに分類されたトピックにおいて、前記複数のアイテムのそれぞれに関する単語出現頻度を対比することを特徴とする文書分析システム。
請求項１〜７のうちいずれか１項に記載の文書分析システムにおいて、
前記複数の文書としてのアンケート結果に含まれる回答文書のそれぞれが、前記基準トピック数のトピックにより構成されていると仮定された場合において、前記アンケート結果に含まれる複数の項目に対する評点を目的変数とし、かつ、トピック分布を説明変数として回帰分析を実行する回帰分析要素をさらに備えていることを特徴とする文書分析システム。
請求項８記載の文書分析システムにおいて、
前記回帰分析要素が、前記アンケート結果に含まれる回答文書のうち否定的内容の文書に関して、トピック分布の符号をマイナスに反転させたうえで回帰分析を実行することを特徴とする文書分析システム。