JP2020166426A

JP2020166426A - 文書分析装置および文書分析方法

Info

Publication number: JP2020166426A
Application number: JP2019064867A
Authority: JP
Inventors: 新司飯塚; Shinji Iizuka; 菊地　大介; Daisuke Kikuchi; 大介菊地
Original assignee: Hitachi Solutions East Japan Ltd
Current assignee: Hitachi Solutions East Japan Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2020-10-08
Anticipated expiration: 2039-03-28
Also published as: JP7272846B2

Abstract

【課題】代表文書の抽出作業を高効率・高精度で実施できる文書分析装置及び文章分析方法を提供する。
【解決手段】文書分析装置Ｘは、文書分析処理部Ｘ１において、分散表現による文書のベクトル化を行い、文書ベクトルを算出する前処理関連機能部３と、文書データ前処理部による前処理を行った文書データにおいて、所定の閾値より類似度が高い文書が所定数より少ない文書を孤立文書として除去する孤立文書除去部３ａと、孤立文書除去部３ａにより孤立文書を除去した文書データの類似度を考慮してクラスタリングを行うクラスタリング処理部５と、クラスタリング処理部５によりクラスタリングを行ったクラスタから代表文書を抽出する代表文書抽出部７と、を有する。
【選択図】図３

Description

本発明は、文書分析技術に関する。

大量の文書を分析する際、文書すべてを読んでその内容を把握するには多大な手間がかかる。そこで、図１に示すように、大量の文書群Ｄ１，Ｄ２，…から、よくある内容の文書（Ｄ_Ａ，Ｄ_Ｂ，…）をいくつか抽出し（Ｌ１）、文書Ｄ_Ａ，Ｄ_Ｂ，…を読むことで、大量の文書群Ｄ１，Ｄ２，…の内容を把握したいというニーズがある。これにより、大量の文書すべてを読むのに多大な手間がかかるという課題を解決することが期待できる。
これに対し、従来の技術では、例えば、図２に示すような文書クラスタリング技術が用いられている。文書クラスタリング技術は、大量の文書を、内容が類似する文書の集まりであるクラスタに分類する。図２では、大量の文書群Ｄ１，Ｄ２，…が、文書Ｄ_Ａと内容が類似する文書を含むクラスタ１，文書Ｄ_Ｂと内容が類似する文書を含むクラスタ２，…というようにクラスタへと分類されている（Ｌ２）。そして、各クラスタの文書の内容を把握することにより（Ｌ３）、元の大量の文書の主な内容（Ｓａ１）を把握することが行われている。

下記の特許文献１に記載の技術では、質問文書の各文をルールベースでラベル付けし、質問文書内容の談話構造を解析する。そして、ユーザ指定のキーワードに関連する質問文書群を抽出し、談話構造をもとにグループ化する。これにより、各グループの質問の代表文をＦＡＱ（代表質問）候補としてリスト表示することができる。

特許第５５７４８４２号公報（「ＦＡＱ候補抽出システムおよびＦＡＱ候補抽出プログラム」）

文書が数千から数万の規模で収集されている場合、クラスタリングの結果得られた各クラスタの文書の内容を把握するときに、クラスタ内のすべての文書を読むには膨大な時間がかかるという課題がある。
また、各クラスタの内容を把握するために任意で文書を抽出すると、その文書の内容が元の大量の文書でよくある内容であるとは限らない。クラスタリングでは、よくある内容の文書もそうでない文書もいずれかのクラスタに割り当てられる。そのため、クラスタにはよくある内容の文書とそうでない文書が混在する。従って、文書クラスタリング技術の問題点として、本来抽出したいよくある内容の文書（以下、「代表文書」と呼ぶ）が特定できない点が挙げられる。代表文書としては、元の大量の文書全体において類似する文書の数が多いものが最適である。

また、代表文書の抽出には人手で行う作業が必要である。
例えば、上記特許文献１に記載の技術においても、ＦＡＱの抽出作業は人手で行う必要があるという課題がある。

本発明は、代表文書の抽出作業を高効率・高精度で実施できる技術を提供することを目的とする。

本発明の一観点によれば、分散表現により文書のベクトル化を行い、文書ベクトルを算出する文書データ前処理部と、前記文書データ前処理部による前処理を行った文書において、所定の閾値より類似度が高い文書が所定数より少ない文書を孤立文書として除去する孤立文書除去部と、前記孤立文書除去部により孤立文書を除去した文書の類似度を考慮してクラスタリングを行うクラスタリング処理部と、前記クラスタリング処理部によりクラスタリングを行ったクラスタから代表文書を抽出する代表文書抽出部と、を有することを特徴とする文書分析装置が提供される。
前記孤立文書除去部の処理により、代表文書として所定の閾値より類似度が高い文書が所定数より少ない孤立文書が選ばれることがない。
前記代表文書抽出部は、クラスタ中心点とコサイン距離が最も近い文書ベクトルを持つ文書を抽出することが好ましい。

前記孤立文書除去部は、コサイン距離が閾値ｄよりも近い文書ベクトルをもつ類似文書数が閾値ｎより少ない文書を孤立していると判断して除外することが好ましい。

前記クラスタリング処理部は、実数値ベクトルをクラスタリングする手法を用いて文書ベクトルをクラスタ化することにより、文書の類似度を考慮したクラスタリングを行い、
クラスタ中心点を、前記文書データ前処理部により算出した文書ベクトルからランダム抽出したベクトルとすることで初期化し、前記ランダム抽出において、前記文書ベクトルが抽出される確率が、前記文書ベクトルと初期化済みのクラスタ中心点とのコサイン距離の最小値のα乗と、前記文書ベクトルとのコサイン距離が前記閾値ｄよりも近い文書ベクトルの個数のβ乗と、に比例する確率であることが好ましい。

さらに、前記孤立文書除去部における処理で用いるｎ及びｄと、前記クラスタリング処理部における処理で用いるα，βと、クラスタ数ｋと、をパラメータのセットとして、代表文書に類似する文書の件数の割合である第１の指標と、クラスタリングの正解データと比較したクラスタリング精度の評価指標である第２の指標とを算出する評価指標算出部を有し、前記第１の指標と前記第２の指標の組をプロットして表示する散布図表示部をさらに有し、前記散布図表示部で表示されたプロットから、所定の判断基準に基づき自動で選択されたプロットか、または、ユーザの判断により手動で選択されたプロットに基づいて、前記パラメータを再設定することが好ましい。

本発明の他の観点によれば、コンピュータによる文書分析方法であって、分散表現により文書のベクトル化を行い、文書べクトルを算出する文書データ前処理ステップと、前記文書データ前処理ステップによる前処理を行った文書において、所定の閾値より類似度が高い文書が所定数より少ない文書を孤立文書として除去する孤立文書除去ステップと、前記孤立文書除去ステップにより孤立文書を除去した文書の類似度を考慮してクラスタリングを行うクラスタリング処理ステップと、前記クラスタリング処理ステップによりクラスタリングを行ったクラスタから代表文書を抽出する代表文書抽出ステップと、を有することを特徴とする文書分析方法が提供される。

本発明によれば、大量の文書の内容把握作業を効率化することができる。

文書の内容を把握する方法の一例を示す図である。文書クラスタリング技術の一例を示す図である。本発明の第１の実施の形態による文書分析技術に適用できる文書分析システム、文書分析装置の一構成例を示す機能ブロック図である。本実施の形態による文書分析技術の処理の流れの一例を示すフローチャート図である。図４の文書データ前処理の詳細な処理例を示すフローチャート図である。図６（ａ）は、孤立文書の除去処理を行わない場合の代表文書抽出処理の様子を示す図である。図６（ｂ）は、孤立文書の除去処理を行った場合の代表文書抽出処理の様子を示す図である。ステップＳ２の処理の詳細な例を示すフローチャート図である。図８（ａ）は、代表文書の任意抽出処理の様子を示す図であり、図８（ｂ）は、クラスタ中心点とのコサイン距離が最も近い文書を代表文書として自動抽出処理の様子を示す図である。ステップＳ４の処理の詳細を示すフローチャート図である。本発明の第２の実施の形態による文書分析装置の位置構成例を示す機能ブロック図であり、図３に対応する図である。本発明の第２の実施の形態によるシステム処理の流れを示すフローチャート図である。パラメータ設定例を示す散布図の一例を示す図である。

本明細書において、文書の分散表現とは、例えば、文書内容を実数による数値ベクトルとしてベクトル化したものである。
文書の類似度とは、例えば、文書ベクトル間のコサイン距離である。
孤立文書とは、所定の閾値より類似度が高い文書が所定数より少ない文書である。
代表文書とは、例えば、元の文書内で類似する他の文書が多い文書である。
以下に、本発明の実施の形態による文書分析技術について図面を参照しながら詳細に説明する。

（第１の実施の形態）
図３は、本発明の第１の実施の形態による文書分析技術に適用できる文書分析システムＹ、文書分析装置Ｘの一構成例を示す機能ブロック図である。図４は、本実施の形態による文書分析技術の処理の流れの一例を示すフローチャート図である。また、表１から表１０までは、文書分析に用いられるデータテーブルの一例を示す表である。

表１は、文書分析システムのデータテーブルの一覧を示す表である。Ａは、１．文書データと、２．文書ベクトルとからなる文書関連データである。Ｂは、１．定型文ルールと、２．固有表現ルールと、３．分散表現モデルとを有する前処理関連データである。Ｃは，１．文書クラスタと２．代表文書とを有するクラスタリング関連データである。Ｄは、１．パラメータセットを有するパラメータチューニング関連データである。
以下の各表２から表１０までは、表１のデータテーブル一覧に含まれる各データのテーブル一例を示す表である。

表２は、Ａ１、すなわち、文書データテーブルの一例を示す表である。文書データテーブルＡ１は、質問回答など文書の原文のテキストデータをＩＤ毎に格納する。

表３は、Ａ２、すなわち、文書ベクトルテーブルの一例を示す表である。文書ベクトルテーブルＡ２は、文書ＩＤ毎に、文書ベクトルの要素値ｖ１，ｖ２，…を格納する。
後述するＢ３.分散表現モデルをもとに計算された文書ベクトルデータであり、文書ＩＤはＡ１、文書データテーブルのＩＤに対応する。ベクトル要素値ｖ１，ｖ２，…は、ベクトル次元数だけ列が存在する。

表４は、Ｂ１、すなわち、定型文ルールテーブルの一例を示す表である。定型文ルールテーブルＢ１は、定型文のリストであり、文書中に該当する、もしくは類似する文があれば除外する対象を格納している。

表５は、Ｂ２、すなわち、固有表現ルールテーブルの一例を示す表である。固有表現ルールテーブルＢ２は、正規表現に合致する文中の箇所を、例えば「（ラベル）」に置き換える。例えば、「工事日は2019/1/23です。」は、「工事日は（日付）です。」に置き換える。ここで、ラベルを囲む「（」および「）」は一例であり、ラベルの単語である「日付」等と、原文中に出現する単語とを、置き換えた後の文において識別するための記号である。

表６は、Ｂ３、すなわち、分散表現モデルテーブルの一例を示す表である。分散表現モデルテーブルＢ３は、コーパス(Wikipediaなど)をもとに作成した、単語ベクトルデータであり、単語ベクトル要素値は、ベクトル次元数の分だけ列が存在する。

表７は、Ｃ１、すなわち、文書クラスタテーブルの一例を示す表である。文書クラスタテーブルＣ１では、クラスタリングにより形成されたクラスタと文書の所属を対応付ける。文書ＩＤは文書データテーブルＡ１における文書データのＩＤに対応する。

表８は、Ｃ２、すなわち、代表文書テーブルの一例を示す表である。代表文書テーブルＣ２では、代表文書抽出処理によって選ばれた各クラスタの代表文書を管理する。代表文書ＩＤは、Ａ１の文書データのＩＤに対応する。

表９は、Ｄ１、すなわち、パラメータセットテーブルの一例を示す表である。パラメータセットテーブルＤ１は、クラスタリングや代表文書抽出などの各種パラメータで設定できる値(n, α, β, d, k)のリストである。さらに、どのパラメータが使用中か分かがるように、「使用中」の列が設けられている。

表１０は、正解データＤ２、すなわち、正解データテーブルの一例を示す表である。正解データテーブルＤ２では、人が作成したクラスタ正解データと文書の所属（文書ＩＤ）とを対応付ける。文書ＩＤは文書データテーブルＡ１の文書データのＩＤに対応する。

図３に示すように、本実施の形態による文書分析装置Ｘは、例えば、文書分析処理部Ｘ１と、データベース（記憶装置）ＤＢとを有する。そして、例えば、文書分析装置Ｘと、文書分析装置Ｘとネットワーク（ＮＴ）接続される端末装置（ユーザ端末）Ｚとを含んで、文書分析システムＹを構成する。ネットワークＮＴは、有線でも無線でも良い。
文書分析処理部Ｘ１は、データベース（記憶装置）ＤＢ内の文書データＤＢ１の等を管理する文書データ管理部１と、文書データの前処理関連の処理を行う前処理関連機能部３と、クラスタリング処理部５と、代表文書抽出部７と、代表文書内容表示部１１と、を有する。前処理関連機能部３は、孤立文書除去部３ａを有する。

また、データベース（記憶装置）ＤＢは、文書データテーブルＡ１を格納する文書データＤＢ１と、文書ベクトルテーブルＡ２を格納する文書ベクトルＤＢ２と、文書クラスタテーブルＣ１を格納する文書クラスタＤＢ３と、代表文書テーブルＣ２を格納する代表文書ＤＢ４と、定型文ルールテーブルＢ１，固有表現ルールテーブルＢ２，分散表現モデルテーブルＢ３を格納する前処理関連データＤＢ５と、パラメータセットテーブルＤ１を格納するパラメータセットＤＢ６とを有する。

次に、文書分析処理部Ｘ１による文書分析処理の流れについて説明する。図４に示すように、処理が開始されると（ＳＴＡＲＴ）、ステップＳ１において、前処理関連機能部３が文書データＤＢ１に格納されている文書データテーブルＡ１の文書と前処理関連データＤＢ５に格納されている前処理関連データ（定型文ルールテーブルＢ１、固有表現ルールテーブルＢ２、分散表現モデルテーブルＢ３）までとを取得して、文書データの前処理を行う。前処理は、分散表現モデルに基づく文書ベクトルＡ２の計算などを含む。文書ベクトルＡ２を文書ベクトルＤＢ２に格納する。
次いで、ステップＳ２において、孤立文書除去部３ａが所定の閾値より類似度が高い文書が所定数より少ない孤立文書の除去を行う。孤立文書の除去処理は、例えば、コサイン距離が近い文書ベクトルを持つ他の文書が少ない文書は、孤立していると判断して除外する処理を含む。孤立文書を除去した後の文書ベクトルを文書ベクトルＤＢ２に格納する。

次に、ステップＳ３において、クラスタリング処理部５が、パラメータセットＤＢ６に格納されるパラメータセットＤ１と、文書ベクトルＤＢ２に格納される文書ベクトルＡ２とに基づいてクラスタリング処理を行う。クラスタリング処理は、文書ベクトル間のコサイン距離を考慮してコサイン距離の近い文書群によりクラスタ形成する。形成されたクラスタと文書の所属との対応付けを、文書クラスタＤＢ３に格納する。
次に、ステップＳ４において、代表文書抽出部７が、パラメータセットＤＢ６に格納されるパラメータセットＤ１に基づいて、文書クラスタテーブルＣ１の文書クラスタから代表文書の抽出を行う。代表文書の抽出処理は、あるクラスタについて、クラスタ中心点と最もコサイン距離が近い文書を選択する処理である。抽出された代表文書は、代表文書ＤＢ４に代表文書テーブルＣ２内のデータとして格納される。この処理において、クラスタから抽出する理由は、複数の代表文書の間で内容の重複をなくすためである。

次いで、ステップＳ５において、代表文書内容表示（制御）部１１が、代表文書ＤＢ４に格納される代表文書テーブルＣ２により代表文書内容の要約表示処理を行う。
以上により、処理が終了する（ＥＮＤ）。

次に、上記の各処理について詳細に説明する。
図５は、図４の文書データ前処理の詳細な処理例を示すフローチャート図である。
まず。処理が開始されると（ＳＴＡＲＴ）、以下の処理が行われる。
ステップＳ１１：文書の文への分割
ステップＳ１２：文の形態素解析
ステップＳ１３：文中の記号除去
ステップＳ１４：文書中の定型文除去
ステップＳ１５：文中の固有表現抽出
ステップＳ１６：文書の分散表現計算
ステップＳ１７：文書内容の要約

以上の処理は、公知の技術を用いることができる。一例として、ステップＳ１３、ステップＳ１４、ステップＳ１７の処理には、それぞれ、特願２０１８−１６２５２５号の不要語除去処理部、不要文除去処理部、要約生成部の技術を用いることができる。ステップＳ１５の処理には、Hidden Markov Modelや、Conditional Random Fieldのような、公知の固有表現抽出技術を用いることができる。また、ステップＳ１６の処理には、Doc2VecまたはParagraph Vectorと呼ばれる文書の分散表現を計算する技術（Quoc Le, Tomas Mikolov, “Distributed representations of sentences and documents,” International conference on machine learning, 2014）を用いることができる。
次に、孤立文書の除去処理について説明する。所定の閾値より類似度が高い文書が所定数より少ない孤立文書の除去処理は、例えば、コサイン距離が所定の閾値ｄより近い文書数が所定数ｎより少ない文書を孤立していると判断して除外する処理である。
尚、孤立文書の判定で使うコサイン距離の閾値ｄは、クラスタリングの処理で使うパラメータｄと同じものである。
パラメータｄは、文書が類似しているかどうかの判定の基準となる閾値である。孤立文書の除去では、文書全体の中で類似している文書が少ない文書を「孤立している」と判定したいため、文書の類似の判断基準となるパラメータｄを閾値として使用する。
尚、以下の第２の実施の形態においてチューニング対象のパラメータとして参照することから、文書数の閾値を「閾値ｎ」とした。

図６（ａ）は、孤立文書の除去処理を行わない場合の代表文書抽出処理の様子を示す図である。クラスタ数は４で固定するものとする。
クラスタリングでは、どの文書もいずれかのクラスタに割り当てられる。そのため、孤立文書の除去処理を行わずにクラスタリングを行うと、孤立文書もいずれかのクラスタに割り当てられることになる。孤立文書を含むクラスタは、孤立文書と、それに類似する文書からなる。例えば、上述の所定数ｎが１の場合、孤立文書とコサイン距離が所定の閾値ｄより近い文書数は１件未満であり、孤立文書と類似する文書は存在しない。従って、クラスタには孤立文書に類似する文書は含まれず、孤立文書のみからなるクラスタが形成されることになる。そのため、クラスタから代表文書を抽出すると孤立文書が選ばれてしまうことがある。

図６（ｂ）は、孤立文書の除去処理を行った場合の代表文書抽出処理の様子を示す図である。図６（ｂ）に示すように、孤立文書をクラスタ形成対象から予め除去することで、代表文書として孤立文書が選ばれることがないようにすることができる。

図７は、ステップＳ２の処理の詳細な例を示すフローチャート図である。図７に示すように、まず、ステップＳ２−１において、文書データＤＢ１に登録されている文書群の中から未処理の１文書を特定する。ステップＳ２−２において、特定した１文書において、コサイン距離が所定の閾値ｄより近い文書数をカウントする。ステップＳ２−３において、ステップＳ２−２でカウントされた文書数と所定数ｎとを比較する。所定数ｎは、孤立文書と見なせるかどうかを基準に予め設定しておくことができる。

ステップＳ２−３において、カウントされた文書数が所定数ｎよりも小さいかどうかを判定する。ステップＳ２−３でＮｏの場合には、ステップＳ２−４に進み、当該文書を除外対象とせずに、文書ベクトルＤＢ２に格納する。そして、ステップＳ２−６に進む。

ステップＳ２−３でＹｅｓの場合には、ステップＳ２−５に進み、当該文書を孤立文書として除外する。そして、ステップＳ２−６に進み、現在の文書カウント数ｎが文書データＤＢ１に登録されている全文書数ｍと等しいかどうかを判定する。ステップＳ２−６でＹｅｓの場合には、処理を終了する（ＥＮＤ）。ステップＳ２−６でＮｏの場合には、ステップＳ２−７に進み、ｎ＝ｎ＋１として、ステップＳ２−１に戻る。

以上の処理を継続的に行うことで、孤立文書を除外することができる。
このように、クラスタリング処理の前に孤立文書の除去処理を行っておくことにより、代表文書として孤立文書が選ばれることを未然に防止することができる。

次に、ステップＳ３のクラスタリング処理について説明する。
本実施の形態では、k-means++の改良版アルゴリズムを用いることができる。
k-means++の改良版アルゴリズムでは、従来のk-means++について以下の点を改良している。
１）文書ベクトル間のコサイン距離を考慮したspherical k-means法を用いる（Kurt Hornik, Ingo Feinerer, Martin Kober, Christian Buchta, “Spherical k-Means Clustering,” Journal of Statistical Software, September 2012, Volume 50, Issue 10 参照）。
２）クラスタ中心点の初期値を，文書ベクトルを用いて以下の確率でランダム抽出する。

ここで、各パラメータを可変とする意図は以下の通りである。
α: クラスタリング精度および収束スピードの向上
β: 文書ベクトルが集中しているところから、クラスタ中心点の初期値が選ばれやすくなるようにする
d: 文書ベクトルが類似していると判定するコサイン距離の閾値の調整
尚、α=2かつβ=0のとき，数１を用いたアルゴリズムは、従来のk-means++に相当する。

次に、ステップＳ４の代表文書の自動抽出処理について説明する。
図８（ａ）は、代表文書の任意抽出処理の様子を示す図であり、図８（ｂ）は、クラスタ中心点とのコサイン距離が最も近い文書ベクトルを持つ文書を代表文書として自動抽出処理の様子を示す図である。
図８（ａ）に示すように、代表文書の任意抽出処理によれば、代表文書の文書ベクトルがクラスタ中心から離れる可能性がある。従って、代表文書の文書ベクトルに近いコサイン距離の文書ベクトルを持ったクラスタ内文書が少なくなるという課題がある。

図９は、ステップＳ４の処理の詳細を示すフローチャート図である。
図９に示すように、ステップＳ４のステップＳ４−１において、クラスタ中心点を取得する。ステップＳ４−２において、クラスタ内の各文書の文書ベクトルとクラスタ中心点とのコサイン距離を比較する。ステップＳ４−３において、クラスタ中心点とのコサイン距離が最も近い文書ベクトルを持つ文書を代表文書とする。そして、処理を終了する（ＥＮＤ）。

上記の処理により、図８（ｂ）に示すように、クラスタ中心点からの距離に基づいて代表文書を抽出すると、クラスタ中心点に最も近い文書ベクトルを持つ文書が代表として選ばれる。k-means法では、クラスタ中心点と、クラスタに属するベクトルとの距離が最小化されるようにクラスタが形成される。そのため、クラスタ中心点とコサイン距離が近い文書ベクトルを持つ文書がクラスタ内に多く存在する。従って、クラスタ中心点とのコサイン距離が最も近い文書ベクトルを持つ文書を代表文書とすることで、代表文書の文書ベクトルと近いコサイン距離の文書ベクトルを持つクラスタ内の文書数が多くなるという利点がある。その結果、抽出した代表文書は、元の大量の文書全体において類似する文書の数が多い、よくある内容の文書であるという、望ましい性質を満たすようになる。

以上に説明したように、本実施の形態によれば、クラスタから代表文書を自動抽出するために、クラスタ内のすべての文書を読む必要がない。従って、処理が簡単になる。
抽出した代表文書は元の大量の文書でよくある内容の文書であるため、代表文書を読むことで元の大量の文書の主な内容を把握することができる。
従って、大量の文書の内容把握作業の効率化が可能である。

（第２の実施の形態）
次に、本発明の第２の実施の形態による文書分析技術について説明を行う。本実施の形態による文書分析技術においては、第１の実施の形態に加えて、パラメータチューニング支援機能を追加している。
図１０は、本実施の形態による文書分析装置の一構成例を示す機能ブロック図であり、図３に対応する図である。図１０の文書分析装置Ｘにおいては、図３の文書分析装置に加えて、評価指標算出部１５と、パラメータ設定部１７と、散布図表示部２１とを有している。また、図３のデータベースに加えて、正解データＤ２を格納する正解データデータベースＤＢ７を有している（ＤＢａ，表１０参照）。

評価指標算出部１５は、代表文書Ｃ２により代表文書に類似する文書の件数の割合（第１の指標）を、正解データＤ２によりクラスタリング精度の評価指標（第２の指標）を、算出する。パラメータ設定部１７は、評価指標算出部１５が算出した第１の指標と第２の指標の重み付き和を最大化するプロットを自動的に選択する。尚、パラメータは、ユーザ判断で選択することも可能である。散布図表示部２１は、後述する散布図を表示する。

図１１は、本実施の形態によるシステム処理の流れを示すフローチャート図である。尚、図４と同様の処理を行うステップは、同じ処理の符号を付して説明を省略する。

図１１において、ステップＳ１の次に、ステップＳ９において、パラメータセットＤＢ６の全てのパラメータについて、処理が完了しているかどうかを判定する。処理が完了していなければ（Ｎｏ）、ステップＳ１０において、パラメータセットＤＢから次のＩＤのパラメータを取得する。
次いで、ステップＳ２ａにおいて、孤立文書除去部３ａが、孤立文書の除去処理を行う。この処理は、取得したパラメータセットに含まれる閾値ｎと閾値ｄを使用して行う処理である。

次いで、ステップＳ３ａにおいて、クラスタリング処理部５が、クラスタリング処理を行う。この処理は、取得したパラメータセットのパラメータn, α, β, d, kを使用して行う処理である。
次いで、ステップＳ４において、代表文書抽出部７が、代表文書を抽出し、代表文書ＤＢ４に登録する。

次いで、ステップＳ６において、評価指標算出部１５が、評価指標算出処理を行う。この処理は、以下の２指標の算出を行う。
１）代表文書に類似する文書の件数の割合（第１の指標）
文書データＤＢ１に登録されている文書のうち、当該文書の文書ベクトルと、代表文書ＤＢ４に登録されている、いずれか少なくとも一つの代表文書の文書ベクトルとのコサイン距離が、閾値ｄ以下である文書の割合である。
２）クラスタリング精度の評価指標（第２の指標）
文書クラスタテーブルＣ１と、正解データＤ２とを比較し、クラスタリング精度の評価指標を算出する。評価指標としては、一例として、Adjusted Rand Indexや、Adjusted Mutual Informationを用いることができる。
そして、ステップＳ９に戻る。
一方、ステップＳ９でＹｅｓの場合には、ステップＳ７に進み、散布図表示部２１が、全ての評価指標の組を散布図でプロットする。

次いで、ステップＳ８において、以下のパラメータの設定処理を行う。
１）第１の指標と第２の指標の重み付き和を最大化するプロットを自動で選択する。
２）任意のプロットをユーザ判断で選択することも可能である。
次いで、第１の実施の形態と同様のステップＳ３（クラスタリング処理），ステップＳ４（代表文書抽出処理）を行う。
以上により、パラメータの再設定を継続して行うパラメータチューニング支援処理を終了する。

第２の実施の形態では、第１の実施の形態に、パラメータチューニング支援機能が追加される。
例えば、類似文書件数割合（第１の指標）とクラスタリングの評価指標（第２の指標）を用いた散布図によるパラメータ設定効果の可視化を行う。

図１２は、パラメータ設定例を示す散布図の一例を示す図である。図１２に示すように、散布図は、例えば、横軸に類似文書件数割合（％）（第１の指標）を、縦軸にクラスタリングの評価指標（第２の指標）をとっている。各プロットにおける指標の算出には、異なるパラメータセット(ｎ, α, β, d, k(クラスタ数)の値の組)を用いる。

ここで、可能な値の組み合わせ全てを網羅することはできないため、プロットの対象となるパラメータの値の組み合わせは、事前にパラメータセットＤＢに登録されているものとする。表９のパラメータセットＤＢ（ＤＢ１０）のテーブル構成図に示すように、１のＩＤで特定される１レコードがパラメータの値の組み合わせ１件となるようにし、テーブルの列がパラメータの名称 (n, α, β, d, k) となるようにする。また、どのパラメータが使用中か分かがるように、「使用中」の列を追加する。

ここで、クラスタリングの正解データは、事前に「正解データ（Ｄ２）ＤＢ」に登録されているものとする。正解データ（Ｄ２）ＤＢのテーブル構成図は上記の表１０に示されている。文書ＩＤは文書データテーブルＡ１における文書データのＩＤに対応する。尚、正解データＤ２に登録されている文書は、文書データテーブルＡ１に登録されている全ての文書である必要はなく、手動抽出した一部文書データを用いることができる。

以上のようにして、処理アルゴリズムにおけるパラメータの最適化を以下のように支援する。
１）所定の判断基準に基づくプロット自動選択
２）ユーザの判断によるプロット手動選択

図１２の破線Ｌ１１は、類似文書件数割合（第１の指標）とクラスタリングの評価指標（第２の指標）の重み付き和を最大化するという基準を示す直線である。重み付き和を算出するときの第１の指標と第２の指標の重みは、正の実数値であり、事前に登録されているものとする。ユーザは、重みの値を変更することで、第１の指標と第２の指標のどちらを重視するかを調整することがでる。なお、重みの比は、直線Ｌ１１の傾きを表す。この直線Ｌ１１上において、プロットＰ１を自動的に選択することができる。
また、Ｐ２に示すように、散布図上の別のプロットをユーザの判断で選択することもできる。
以上の構成により、パラメータ調整作業の省力化が可能となる。

尚、文書分析技術の活用例としては、例えば、以下のものが例示的に挙げられる。
１）FAQ(代表質問)作成
質問群に対し、類似の質問をクラスタ化し分類する。
各分類の代表的な質問を抽出し、要約文を表記する。
２）故障情報分析
保守点検報告書群に対し、類似の報告書をクラスタ化し分類する。
各分類の代表的な報告書を抽出し、それに記載された内容を読むことで、よくある故障の内容を把握する。

本実施の形態によれば、文書クラスタの代表文書の抽出作業を効率化・精度向上することが可能である。高効率は、代表文書の抽出処理を自動化することにより達成することができる。
また、高精度は、代表文書に類似する文書数の最大化をすることにより達成することができる。
さらに、処理アルゴリズムにおけるパラメータの最適化処理を支援することができる。従って、パラメータ調整作業を省力化することができる。

処理および制御は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）によるソフトウェア処理、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）によるハードウェア処理によって実現することができる。
上記の実施の形態において、図示されている構成等については、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。

また、本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれるものである。
また、本実施の形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また前記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。機能の少なくとも一部は、集積回路などのハードウェアで実現しても良い。

本発明は、文書分析装置に利用可能である。

Ｘ文書分析装置
Ｘ１文書分析処理部
Ｙ文書分析システム
ＮＴネットワーク
ＤＢデータベース（記憶装置）
１文書データ管理部
３前処理関連機能部
３ａ孤立文書除去部
５クラスタリング処理部
７代表文書抽出部
１１代表文書内容表示部
１５評価指標算出部
１７パラメータ設定部
２１散布図表示部

Claims

分散表現により文書のベクトル化を行い、文書ベクトルを算出する文書データ前処理部と、
前記文書データ前処理部による前処理を行った文書において、所定の閾値より類似度が高い文書が所定数より少ない文書を孤立文書として除去する孤立文書除去部と、
前記孤立文書除去部により孤立文書を除去した文書の類似度を考慮してクラスタリングを行うクラスタリング処理部と、
前記クラスタリング処理部によりクラスタリングを行ったクラスタから代表文書を抽出する代表文書抽出部と
を有することを特徴とする文書分析装置。
前記代表文書抽出部は、
クラスタ中心点とコサイン距離が最も近い文書ベクトルを持つ文書を抽出することを特徴とする請求項１に記載の文書分析装置。
前記孤立文書除去部は、
コサイン距離が閾値ｄよりも近い文書ベクトルをもつ類似文書数が閾値ｎより少ない文書を孤立していると判断して除外する請求項１又は２に記載の文書分析装置。
前記クラスタリング処理部は、実数値ベクトルをクラスタリングする手法を用いて文書ベクトルをクラスタ化することにより、文書の類似度を考慮したクラスタリングを行い、
クラスタ中心点を、前記文書データ前処理部により算出した文書ベクトルからランダム抽出したベクトルとすることで初期化し、
前記ランダム抽出において、前記文書ベクトルが抽出される確率が、前記文書ベクトルと初期化済みのクラスタ中心点とのコサイン距離の最小値のα乗と、前記文書ベクトルとのコサイン距離が前記閾値ｄよりも近い文書ベクトルの個数のβ乗と、に比例する確率であることを特徴とする請求項３に記載の文書分析装置。
さらに、
前記孤立文書除去部における処理で用いるｎ及びｄと、前記クラスタリング処理部における処理で用いるα，βと、クラスタ数ｋと、をパラメータのセットとして、代表文書に類似する文書の件数の割合である第１の指標と、クラスタリングの正解データと比較したクラスタリング精度の評価指標である第２の指標とを算出する評価指標算出部を有し、
前記第１の指標と前記第２の指標の組をプロットして表示する散布図表示部をさらに有し、
前記散布図表示部で表示されたプロットから、所定の判断基準に基づき自動で選択されたプロットか、または、ユーザの判断により手動で選択されたプロットに基づいて、前記パラメータを再設定することを特徴とする請求項４に記載の文書分析装置。
コンピュータによる文書分析方法であって、
分散表現により文書のベクトル化を行い、文書ベクトルを算出する文書データ前処理ステップと、
前記文書データ前処理ステップによる前処理を行った文書において、所定の閾値より類似度が高い文書が所定数より少ない文書を孤立文書として除去する孤立文書除去ステップと、
前記孤立文書除去ステップにより孤立文書を除去した文書の類似度を考慮してクラスタリングを行うクラスタリング処理ステップと、
前記クラスタリング処理ステップによりクラスタリングを行ったクラスタから代表文書を抽出する代表文書抽出ステップと
を有することを特徴とする文書分析方法。