JP6414967B2

JP6414967B2 - 文書処理装置およびプログラム

Info

Publication number: JP6414967B2
Application number: JP2014237693A
Authority: JP
Inventors: 香子有安
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2014-11-25
Filing date: 2014-11-25
Publication date: 2018-10-31
Anticipated expiration: 2034-11-25
Also published as: JP2016099868A

Description

本発明は、文書処理装置およびプログラムに関する。特に、文書を分類するための文書処理装置およびプログラムに関する。

一般的に、大量の文書のデータがあれば、それらの文書に含まれる言語表現を統計的に分析処理することによりグループ分けすることができる。このとき、統計として用いられる要素は、語の出現頻度の偏りや、そういった出現頻度の分布である。文書をグループに分ける技術は、文書分類と呼ばれる。また、そういった手法で分けられたグループを、クラスタ（cluster）あるいはクラス（class）と呼ぶ場合がある。

文書分類の技術において、文書を特徴づけるために用いられる数値の一例は、ＴＦ−ＩＤＦ（Term Frequency - Inverse Document Frequency）である。これは、単語の出現頻度（Term Frequency）と、その単語の文書一般における現れやすさの逆数（逆文書頻度，Inverse Document Frequency）との積を用いる手法である。

また、文書分類の技術の応用例の一つは、ＳＮＳ（ソーシャルネットワーキングサービス）において投稿される内容を分析して、社会の状況を把握できるようにすることである。非特許文献１は、短文投稿サイトであるツイッターに投稿された文書を分析することにより、群衆活動を把握する技術について記載している。

李龍，若宮翔子，角谷和俊，「Twitterユーザの集合経験知を用いた地域的ノーマル状態に基づく地域イベントの発見」，２０１２年３月，電子情報通信学会総合大会，ＩＳＳ招待講演，［平成２６年１１月１１日検索］，インターネット＜ＵＲＬ：http://www.shse.u-hyogo.ac.jp/sumiya/report/papers/2012-03_R_%E9%9B%BB%E5%AD%90%E6%83%85%E5%A0%B1%E9%80%9A%E4%BF%A1%E5%AD%A6%E4%BC%9A%E7%B7%8F%E5%90%88%E5%A4%A7%E4%BC%9AISS%E6%8B%9B%E5%BE%85%E8%AC%9B%E6%BC%94_%E6%9D%8E.pdf＞

災害時に「いつ・誰が・どのように・何をするか」をあらかじめ明確にし、自治体・警察・消防などの主体がどのような対応を取るか、どのような情報を流すかを相互に把握する「タイムライン防災（防災行動計画）」は、災害時の二次災害を防ぎ、減災するために重要な役割を果たすといわれている。これまで長年の経験と勘を元に必要と思われる処置や対応を設計し防災行動計画を立ててきた。
また、大災害時に、ツイッター等のＳＮＳに投稿される情報は、個人レベルで収集されるミクロな情報を大量に含んでおり、災害時の状況把握に有益である。

しかしながら、本願発明者がデータ分析により得た知見によれば、例えば大規模災害が起こった場合などにおいて、ツイッターなどのＳＮＳサイトへの投稿は、特定の話題に極端に偏り、従来技術による分析では十分な情報を得られないことがわかっている。例えば、西暦２０１１年３月に東日本広域において起こった大震災の際のツイッターの投稿文を分類すると、上位の４つのクラスタ（これを多数派クラスタと呼ぶ。交通機関の運行情報と、避難所に関する情報のみが含まれる。）の文書数が、その他の比較的少数ではあるが重要な文書を有するクラスタ（これを少数派クラスタと呼ぶ。「渋滞」、「疲労」、「悩み」、「心配」など、運行および避難所情報以外の情報を含む。）の文書数の、５０倍程度に達する。つまり、特定のトピックに、文書数の極端な偏りがある。このような状況において、従来技術による分類手法を適用すると、上位４つの多数派クラスタの出現単語の組み合わせの差異により、細かなクラスタが２００個近く生成される。このため、本来抽出すべき少数派クラスタがそれらの合間に埋もれ、出現する単語が同じクラスタに吸収されてしまうため、少数派クラスタを抽出することができないという問題がある。

より具体的には、交通機関の運行情報における「路線違い」、「駅名違い」、「運行停止／未定／再開などの情報内容の違い」や、避難所情報における「避難施設名違い」、「施設使用用途違い」、「徒歩帰宅途中の休憩所としての目的地名の違い」など固有名詞の出現パターン違いの分類が無数に存在する。かつ、悩みや疑問・メッセージ発信者の現状描写など、運行・避難所情報以外に分類されるべきメッセージにも同じ単語が出現するため、一括して、交通機関の運行情報および避難所情報と、それ以外のメッセージとを分離することが困難である。

本発明は、上記の課題認識に基づいて、様々な処理手法を試行した結果として行なわれたものである。そして、本発明は、トピックによる出現数に極端な偏りがある場合であって、且つ、頻出するトピックに出現する単語の候補が無数にある場合にも、実践的な情報の抽出（文書の分類）を行うことのできる、文書処理装置およびプログラムを提供するものである。

［１］上記の課題を解決するため、本発明の一態様による文書処理装置は、複数のテキスト文書からなるデータを取得する文書データ取得部と、取得した前記テキスト文書の各々に含まれる係り受け関係のうち、係り元が名詞であり係り先が形容詞と形容動詞と動詞とサ変接続名詞とのいずれかである特定の係り受けを抽出する係り受け抽出部と、前記係り受けの各々について係り先に応じて付与されるラベルの組み合わせを、パターンとして、前記テキスト文書ごとに求めるパターン照応部と、前記パターン照応部によって求められた前記パターンに基づき、（１）パターンが１種類の前記ラベルのみを有する場合に当該パターンを有するテキスト文書と、（２）パターンが複数種類の前記ラベルを有する場合であって、且つ、前記パターンに含まれる前記ラベル間の相関分析による信頼度が所定値より高いパターンについて、当該パターンに対応するラベルが付与された係り受けと、同じ係り元を有するテキスト文書と、を少数派クラスタとして出力する少数派クラスタ抽出部と、を具備することを特徴とする。

［２］また、本発明の一態様は、上記の文書処理装置において、前記少数派クラスタ抽出部によって出力された前記少数派クラスタに属する前記テキスト文書を除外した、前記テキスト文書を対象として、前記パターンを構成する前記ラベル間の相関分析による支持度が所定値よりも高いパターンについて、当該パターンを含む前記テキスト文書を多数派クラスタとして出力する多数派クラスタ抽出部、をさらに具備することを特徴とする。

［３］また、本発明の一態様は、上記の文書処理装置において、前記文書データ取得部が取得した前記テキスト文書の各々について、形態素解析を行い、連続する名詞を連結して連続名詞とするとともに、読みが同じ形態素および一部が同一の形態素をまとめて統一した表記とする前処理部をさらに備え、前記係り受け抽出部は、前記前処理部から出力される前記テキスト文書を処理対象とする、ことを特徴とする。

［４］また、本発明の一態様は、上記の文書処理装置において、前記係り受け抽出部によって抽出された前記係り受けについて、係り元と係り先がともに同じ係り受けを、出現数の多い順に上位の所定個数抽出し、抽出された上位の係り受けだけを処理対象として出力するノイズ除去部をさらに備え、前記ラベル付与部以後の処理においては、前記ノイズ除去部によって処理対象として出力された係り受けのみを処理対象とする、ことを特徴とする。

［５］また、本発明の一態様は、上記のいずれかの文書処理装置として、コンピューターを機能させるプログラムである。

本発明によれば、トピックにより極端に出現数の偏りがあるような文書群を対象とした場合にも、有効な文書分類を行うことができ、その文書群から有用な情報を抽出することが可能となる。

本発明の第１実施形態による文書処理装置の概略機能構成を示すブロック図である。同実施形態に含まれる前処理部による詳細な処理の手順を示すフローチャートである。同実施形態に含まれる係り受け抽出部による詳細な処理の手順を示すフローチャートである。同実施形態による係り受け抽出部が抽出する係り受け関係の例を示す概略図である。同実施形態に含まれるノイズ除去部による詳細な処理の手順を示すフローチャートである。同実施形態に含まれるラベル付与部による詳細な処理の手順を示すフローチャートである。同実施形態に含まれるパターン照応部による詳細な処理の手順を示すフローチャートである。同実施形態に含まれる少数派クラスタ抽出部による詳細な処理の手順を示すフローチャートの第１である。同実施形態に含まれる少数派クラスタ抽出部による詳細な処理の手順を示すフローチャートの第２である。同実施形態に含まれる多数派クラスタ抽出部による詳細な処理の手順を示すフローチャートである。本発明の第２実施形態による文書処理装置の概略機能構成を示すブロック図である。本発明の文書処理装置により少数派クラスタおよび多数派クラスタに属する文書を分類した結果の件数を表すグラフである。

次に、図面を参照しながら、本発明の実施形態について説明する。
［第１実施形態］
図１は、本実施形態による文書処理装置の概略機能構成を示すブロック図である。図示するように、文書処理装置１は、文書データ取得部１１と、前処理部１２と、係り受け抽出部１４と、ノイズ除去部１５と、ラベル付与部１６と、パターン照応部１７と、少数派クラスタ抽出部１８と、多数派クラスタ抽出部１９と、を含んで構成される。

文書データ取得部１１は、外部から文書データを取得する。文書データは、多数の文書からなる文書群である。ここで、文書とは、所定のまとまりのある１件のテキストデータである。文書の例は、ＳＮＳ（ソーシャルネットワーキングサービス）における１件の投稿文である。具体例としては、ツイッター（投稿された短文を共有できるサービス）における１件の投稿（ツイート）や、ＬＩＮＥ（主としてピアトゥピアに、あるいはグループ内で共有する形で、テキスト等をやりとりできるサービス）における投稿や、フェイスブック（特定の個人間ないしはグループ内で情報を共有できるサービス）における投稿記事などが、文書である。文書データ取得部１１は、例えば、ＳＮＳのサーバー装置から大量の文書群をダウンロードしたり、ＳＮＳのサーバー装置から記録媒体等に書かれた大量の文書群を読み込んだりする。
つまり、文書データ取得部１１は、複数のテキスト文書からなるデータを取得するものである。

前処理部１２は、文書データ取得部１１が取得したテキスト文書の各々について、形態素解析を行い、連続する名詞を連結して連続名詞とする（さらにその連結名詞と別の名詞とを連結する場合を含む）とともに、読みが同じ形態素および一部が同一の形態素をまとめて統一した表記とする。
係り受け抽出部１４は、取得したテキスト文書の各々に含まれる係り受け関係のうち、係り元が名詞であり、且つ係り先が用言類（形容詞と形容動詞と動詞とサ変接続名詞とのいずれか）である特定の係り受けを抽出する。
なお、本実施形態では、係り受け抽出部１４は、前処理部１２から出力される形態素に区切られたテキスト文書を処理対象とする。

ノイズ除去部１５は、係り受け抽出部１４によって抽出された係り受けについて、係り元と係り先がともに同じ係り受けを、出現数の多い順に上位の所定個数抽出し、抽出された上位の係り受けだけを処理対象として出力する。
ラベル付与部１６より以後の処理においては、ノイズ除去部１５によって処理対象として出力された係り受けのみを処理対象とする。

ラベル付与部１６は、抽出された係り受けにラベルを付与する。このとき、ラベル付与部１６は、係り先が同一である係り受けには同一のラベルを付与する。また、ラベル付与部１６は、係り先が異なる係り受けには異なるラベルを付与する。つまり、ラベル付与部１６は、以後の処理において、係り先によって係り受けを識別できるようにしている。

パターン照応部１７は、係り受けの各々について係り先に応じて付与されたラベルの組み合わせを、パターンとして、テキスト文書ごとにそのパターンを求める。
少数派クラスタ抽出部１８は、パターン照応部１７によって求められたパターンに基づき、（１）パターンが１種類のラベルのみを有する場合に当該パターンを有するテキスト文書と、（２）パターンが複数種類のラベルを有する場合であって、且つ、パターンに含まれるラベル間の相関分析による信頼度が所定値より高いパターンについて、当該パターンに対応するラベルが付与された係り受けと、同じ係り元を有するテキスト文書と、を少数派クラスタとして出力する。
なお、少数派クラスタ抽出部１８が、ラベル間の相関分析による信頼度が高い順に所定件数のパターンを抽出することとしても、信頼度が所定値より高いパターンを抽出しているのと実質的に同じ処理である。

多数派クラスタ抽出部１９は、少数派クラスタ抽出部１８によって出力された少数派クラスタに属するテキスト文書を除外した、テキスト文書を対象として、パターンを構成するラベル間の相関分析による支持度が所定値よりも高いパターンについて、当該パターンを含むテキスト文書を多数派クラスタとして出力する。
なお、多数派クラスタ抽出部１９が、ラベル間の相関分析による支持度が高い順に所定件数のパターンを抽出することとしても、支持度が所定値より高いパターンを抽出しているのと実質的に同じ処理である。

図２は、前処理部１２による詳細な処理の手順を示すフローチャートである。前処理部１２は、文書データ取得部１１が取得した文書群に含まれる文書を対象として、処理を行う。なお、このフローチャートにおける処理では、形態素のリストを生成していく。この形態素のリストは、複数の形態素を記憶しておく記憶手段を用いて構成されるものであり、初期状態としては要素のない空リストである。ここに、前処理部１２が順次、形態素を追加していくことにより、形態素リストができる。なお、この形態素リストは、要素である各形態素の漢字表記とカタカナ表記とひらがな表記とのセットを情報として有している。
以下、このフローチャートに沿って処理の手順を説明する。

まずステップＳ１１において、前処理部１２は、文書群の中に、未処理の文書が残っているかどうかを判定する。未処理の文書がある場合（ステップＳ１１：ＹＥＳ）には次のステップＳ１２に進む。未処理の文書がない場合（ステップＳ１１：ＮＯ）には、このフローチャート全体の処理を終了する。

次にステップＳ１２に進んだ場合、前処理部１２は、文書群のデータから、未処理の文書データ１件を読み込む。
次にステップＳ１３において、前処理部１２は、読み込んだ１件の文書データについて形態素解析処理を行う。形態素解析処理自体は、既存の技術により行うことができる。形態素解析処理の結果として、１件の文書データから、形態素の列が得られる。また、この処理の結果、各形態素には品詞情報が付加されている。

ステップＳ１４からＳ２０までの処理では、ステップＳ１３で得られた形態素ごとに処理を繰り返す。
次にステップＳ１４において、前処理部１２は、形態素解析結果の中に、未処理の形態素が残っているかどうかを判定する。未処理の形態素がある場合（ステップＳ１４：ＹＥＳ）には次のステップＳ１５に進む。未処理の形態素がない場合（ステップＳ１４：ＮＯ）には、次の文書の処理に移るために、ステップＳ１１に戻る。

次にステップＳ１５に進んだ場合、前処理部１２は、形態素解析結果から、未処理の形態素１個を読み込む。このとき、前処理部１２は、その形態素の品詞に関する情報も取得する。
次にステップＳ１６において、前処理部１２は、ステップＳ１５で形態素を読み込んだことによって、名詞が連続していたか否かを判定する。ここで、「名詞が連続」とは、最後に読み込んだ形態素の品詞が名詞であり、且つ、ひとつ前に読み込んだ形態素の品詞が名詞である場合をさす。名詞が連続した状態であった（ステップＳ１７：ＹＥＳ）ならば、次のステップＳ１７に進む。名詞の連続ではなかった（ステップＳ１７：ＮＯ）ならば、ステップＳ１８に飛ぶ。

ステップＳ１８に進んだ場合は、最新の２つの形態素において名詞が連続していた場合である。そのとき、ステップＳ１８において、前処理部１２は、最新の名詞とひとつ前の名詞とを連結させて、複合名詞とする。なお、ひとつ前の名詞が既に連結済みの複合名詞であった場合も同様であり、その場合、前処理部１２は、さらに連結した長い複合名詞を生成する。つまり、前処理部１２は、読み込んだ形態素が連続して名詞だった場合、それらの連続した名詞を一つの名詞にまとめる。

次にステップＳ１８において、前処理部１２は、最新の形態素（ステップＳ１７で連結した場合には、連結後の形態素）と、読みを共通とする形態素または一部が同一である形態素が、形態素リスト上に既に存在しているか否かを判定する。ここで、「読みを共通とする」とは、一例としては、「避難」という形態素と「避なん」という形態素との関係である。これら両者は、単なる表記の揺れである。またここで、「一部が同一である」とは、一例としては、「横浜急行」という形態素と「横浜急行電鉄」という形態素との関係である。このような場合、本実施形態が分析対象とする文書群においては、両者を同じものとみなしたほうが好都合なことも多い。
最新の形態素と、読みが同じ形態素または一部が同じ形態素が既に形態素リストに存在する場合（ステップＳ１８：ＹＥＳ）、次のステップＳ１９に進む。そのような形態素がまだ形態素リストに存在しない場合（ステップＳ１８：ＮＯ）には、ステップＳ２０に飛ぶ。

次にステップＳ１９に進んだ場合、前処理部１２は、最新の形態素の表記を、既に形態素リストに存在していた表記に変更する。なお、形態素リストに既に保持されている形態素と、読み込んだ最新の形態素の一部の形態素（名詞連結する前の形態素のうちのいずれか）が同じで、読み込んだ最新の形態素の方が長い場合、形態素リストに含まれる要素を、より長い形態素で置き換える。
そしてステップＳ２０において、前処理部１２は、その最新の形態素を出力として保持するとともに、その形態素がまだ形態素リストにない新規の形態素であるならば、その形態素を形態素リストに追加する。
そして、ステップＳ２０の処理が終了すると、次の形態素を処理するためにステップＳ１４に戻る。

上記の処理により、前処理部１２は、形態素の表記ゆれを整える。これにより、後段の処理での文書分類の精度が高くなる。
また、上記の処理により、前処理部１２は、同一概念あるいは類似愛念を有する形態素を、統一する。例えば、「携帯」、「電話」、「携帯電話」、「でんわ」といた形態素を、前処理部１２は、すべて「携帯電話」として出力する。また例えば、「田園都市線」、「東急田園都市線」といった形態素を前処理部１２は、「東急田園都市線」として出力する。

入力された文書群のデータがｔ個の文書Ｔ（ｉ）｛ｉ｜１，２，・・・，ｔ｝からなるとき、前処理部１２は、出力される形態素と文書との関係がわかるように、形態素と文書Ｔ（ｉ）とを関連付けて出力する。前処理部１２から出力されるデータは、係り受け抽出部１４に渡される。

図３は、係り受け抽出部１４による詳細な処理の手順を示すフローチャートである。係り受け抽出部１４は、前処理部１２から受け取ったデータに基づいて処理を行う。以下、このフローチャートに沿って処理の手順を説明する。
まずステップＳ３１において、係り受け抽出部１４は、受け取った文書群データの中に、未処理の文書があるか否かを判定する。未処理の文書がある場合（ステップＳ３１：ＹＥＳ）には次のステップＳ３２に進む。未処理の文書がない場合（ステップＳ３１：ＮＯ）には、このフローチャート全体の処理を終了する。

次にステップＳ３２に進んだ場合、係り受け抽出部１４は、未処理の文書を１件読み込む。
次にステップＳ３３において、係り受け抽出部１４は、ステップＳ３２で読み込んだ文書について、係り受けを抽出する処理を行う。文書を入力して係り受けを抽出する処理自体は、既存の技術を用いて行うことができる。係り受け抽出部１４が抽出する係り受けの例については、後で図４を参照しながら説明する。このステップにおける処理の結果として、文内における文節間の係り受けの関係が得られる。係り受けの情報は、係り元の文節と係り先の文節のペアとして保持される。

次にステップＳ３４において、係り受け抽出部１４は、文書内における係り受け関係のうちの特定の関係を抽出して保持する。その特定の関係とは、係り元が名詞の文節であって、係り先が形容詞、形容動詞、動詞、サ変（サ行変格活用）接続名詞のいずれかの文節であるような係り受けの関係である。文書Ｔ（ｉ）から抽出された、上記の特定の関係を有する係り受けをＭ（ｉ，ｊ）｛ｊ｜１，２，・・・，ｍ｝で表わす。ここで、ｍは、文書Ｔ（ｉ）に含まれる、上記の特定関係の係り受けの数である。なお、係り受けＭ（ｉ，ｊ）において、係り元をＭｂ（ｉ，ｊ）と表わし、係り先をＭｏ（ｉ，ｊ）と表す。特定係り受け関係Ｍ（ｉ，ｊ）は、Ｍｂ（ｉ，ｊ）と、Ｍｏ（ｉ，ｊ）と、対応する形態素の情報とで表される。
なお、係り受けは、文節間における関係であるが、各文節の主要な要素である形態素の品詞により、上記の判断を行うようにする。
ステップＳ３４の処理が終了すると、係り受け抽出部１４は、次の文書を処理するためにステップＳ３１に戻る。

係り受け抽出部１４は、前処理部１２から受け取ったデータと、係り受け抽出の処理によって生成した係り受け関係のデータ（Ｍ（ｉ，ｊ）のデータ）とを、ノイズ除去部１５に渡す。

図４は、係り受け抽出部１４が抽出する係り受け関係の例を示す概略図である。図示する例では、係り受け抽出の対象とする文書は、「緊急地震速報のせいで店の携帯がすべて鳴って驚いた」というテキストである。同図は、［緊急地震速報の］，［せいで］，［店の］，［携帯が］，［すべて］，［鳴って］，［驚いた］という７個の文節をノードとして表わし、係り受け関係をノード間の矢印線として表している。矢印線の、矢頭が付いている方が係り先であり、付いていない方が係り元である。つまり、入力されたテキストを元に、係り受け抽出部１４は、下記の６個の係り受け関係を抽出する。
（１）係り元：［緊急地震速報の］，係り先：［せいで］
（２）係り元：［せいで］，係り先：［鳴って］
（３）係り元：［店の］，係り先：［携帯が］
（４）係り元：［携帯が］，係り先：［鳴って］
（５）係り元：［すべて］，係り先：［鳴って］
（６）係り元：［鳴って］，係り先：［驚いた］
なお、抽出された上記の６個の係り受け関係のうち、係り元が名詞の文節であって係り先が用言の文節である、特定の係り受け関係は、（１）と（４）である。

図５は、ノイズ除去部１５による詳細な処理の手順を示すフローチャートである。以下、このフローチャートに沿って処理の手順を説明する。
まずステップＳ４１において、ノイズ除去部１５は、入力された文書群全体を対象として、同一の係り受けの出現数を数える。ここで、同一の係り受けとは、係り元と係り先が共に同じであるような係り受けである。

次にステップＳ４２において、ノイズ除去部１５は、ステップＳ４１において行ったカウント結果に基づいて、出現数が多い順に、係り受け関係を並べ替える。本ステップでの処理の結果として、係り受けが、出現回数の降順に整列される。なお、各々の係り受けＭ（ｉ，ｊ）は、元の文書Ｔ（ｉ）が関連付けられている。つまり、同一である係り受けには、１個または複数の元の文書が関連付けられている。

次にステップＳ４３において、ノイズ除去部１５は、ステップＳ４２で整列された係り受けのうち、関連付けられている文書数が多いものから順に、文書数をカウントする。そして、そのカウント数（出現数の上位からの累積総数）が値（α×ｔ）となるところまでの係り受けのみを抽出する。ここで、αは、適宜定められる係数であり、０＜α≦１である。αの値は、ノイズをどの程度除去するかに応じて、適宜設定することができるようにする。なお、このときに抽出された係り受けの数をｎとする。
一例を説明する。入力された文書群に含まれる文書数ｔが１０万であり、αを０．５とするとき、α×ｔ＝５万である。よって、出現数の降順に整列させた係り受けＭ（ｉ，ｊ）のうちの上側の５万件の係り受けだけを、ノイズ除去部１５は選択する。

次にステップＳ４４において、ノイズ除去部１５は、上のステップＳ４３において選択された係り受けのみを、出力する。
このようにノイズを取り除いて抽出された係り受けを、Ｍ´（ｉ，ｊ）と表す。そして、係り受けＭ´（ｉ，ｊ）の係り元および係り先を、それぞれ、Ｍ´ｂ（ｉ，ｊ）およびＭ´ｏ（ｉ，ｊ）と表す。

ノイズ除去部１５は、以上で説明した処理のように、統計的にノイズとみなせる係り受けを除去する。ノイズ除去部１５は、係り受け抽出部１４から受け取ったデータのうち、ノイズを除去したデータをラベル付与部１６に渡す。つまり、ノイズ除去部１５から出力される係り受けは、上のステップＳ４４において選択されたものだけである。

図６は、ラベル付与部１６による詳細な処理の手順を示すフローチャートである。なお、ラベル付与部１６が処理の対象とするデータは、ノイズ除去部１５から受け取るデータである。つまり、統計的にノイズとみなされる係り受けは既に除去されている。以下、このフローチャートに沿って処理の手順を説明する。

ステップＳ５１において、ラベル付与部１６は、対象としている係り受けのうち、係り先が同じである係り受け受けに対して同じラベルを付与する。なお、係り先が異なる場合にはラベルも異なる。つまり、ラベル付与部１６は、Ｍ´（ｉ，ｊ）のうち、係り先Ｍ´ｏ（ｉ，ｊ）の文字内容同士が同じものを検出し、それらＭ´ｏ（ｉ，ｊ）が同じであるＭ´（ｉ，ｊ）に対しては同じラベルを付与する。なお、ラベルはＬ（ｋ）｛ｋ｜１，２，・・・，ｌ｝で表される。ここで、ｌ（エル）はラベルの種類の数である。即ち、ｌは、係り先の種類の数である。

本ステップの処理が終了すると、ラベル付与部１６は、このフローチャート全体の処理を終了する。
ラベル付与部１６は、ノイズ除去部１５から受け取ったデータと、そこに含まれる各々の係り受けに付与したラベルの情報とを出力する。ラベル付与部１６は、出力するこのデータをパターン照応部１７に渡す。

図７は、パターン照応部１７による詳細な処理の手順を示すフローチャートである。以下、このフローチャートに沿って処理の手順を説明する。
まずステップＳ６１において、パターン照応部１７は、各文書に含まれる係り受けに付いたラベルの組み合わせを抽出する。つまり、パターン照応部１７は、文書ごとに、前段の処理部から渡されてきた係り受けについての、係り先の集合をパターンとして抽出する。文書ごとのこのパターンは、ラベルＬ（ｋ）の列として表される。なお、ここで、ラベルの順序は問われない。

次にステップＳ６２において、パターン照応部１７は、ステップＳ６１で抽出したパターン（ラベルＬ（ｋ）の組み合わせ）をリスト化する。このパターンを、Ｐ（ｘ）｛ｘ｜１，２，・・・，ｐ｝と表す。なお、ｐは、パターンの種類数である。
一例として、Ｐ（１）＝［Ｌ（ｋ_１１）Ｌ（ｋ_１２）Ｌ（ｋ_１３）］と表される。この例では、Ｐ（１）は３種類のラベルの組み合わせによるパターンであるが、あるパターンに含まれるラベルの数には制約はない。

図８および図９は、少数派クラスタ抽出部１８による詳細な処理の手順を示すフローチャートである。少数派クラスタ抽出部１８による処理は、２段階の処理手順からなり、そのそれぞれを図８および図９に示している。少数派クラスタ抽出部１８は、パターン照応部１７から渡されるデータを対象として以下の処理を行う。

少数派クラスタ抽出部１８は、まず、各パターンＰ（ｘ）｛ｘ｜１，２，・・・，ｐ｝について、この図８のフローチャートに示す手順を実行する。
ステップＳ７１において、少数派クラスタ抽出部１８は、そのパターンが１つのラベルからなるものであるか否かを判定する。そのパターンが１つのラベルのみで構成される場合（ステップＳ７１：ＹＥＳ）には次のステップＳ７２に進む。そのパターンが２つ以上のラベルの組み合わせとして構成されている場合（ステップＳ７１：ＮＯ）には、このフローチャート全体の処理を終了する。なお、あるパターンが１つのラベルのみからなる場合とは、そのパターンに含まれる係り先が１種類しかない場合である。

次にステップＳ７２に進んだ場合、少数派クラスタ抽出部１８は、その１つのラベルに対応するパターンを有する文書を、少数派クラスとして出力する。つまり、現在処理中のパターンＰ（ｘ）に該当する文書Ｔ（ｉ）を、クラスＣ（１）として出力する。ここで、クラスＣ（１）は少数派クラスである。
次にステップＳ７３において、少数派クラスタ抽出部１８は、ステップＳ７２において出力クラスに振り分けられた文書を、処理対象の文書群データから削除する。
つまり、後続の図９および図１０のフローチャートでの処理の対象となるのは、本ステップにおいて削除されなかった文書のみである。

すべてのパターンＰ（ｘ）について図８に示した処理が終了すると、少数派クラスタ抽出部１８は、上記のステップＳ７３で削除されなかった文書およびそれらの文書のパターンを対象として、以下に述べる図９の処理を行う。
まずステップＳ７４において、少数派クラスタ抽出部１８は、残っているすべてのパターンを対象として、それらのパターンにおけるラベルの共起確率を計算する。

次にステップＳ７５において、少数派クラスタ抽出部１８は、ステップＳ７４で計算されたラベルの共起確率に基づいて、相関分析による信頼度の高い上位Ａ件のパターンのリストを作成する。なお、Ａは、適宜設定される整数値である。

ラベルＬ１を前提として、ラベルＬ１とＬ２との共起の信頼度は、次の式で表される。
信頼度＝（ラベルＬ１とＬ２とが共起する確率）／（ラベルＬ１の出現確率）
あるパターンがラベルＬ１とＬ２とを含むとき、少数派クラスタ抽出部１８は、次の２つの信頼度の値を計算する。
信頼度１＝（ラベルＬ１とＬ２とが共起する確率）／（ラベルＬ１の出現確率）
信頼度２＝（ラベルＬ２とＬ１とが共起する確率）／（ラベルＬ２の出現確率）
あるパターンが３つのラベルＬ１とＬ２とＬ３とを含むとき、少数派クラスタ抽出部１８は、次の６つの信頼度の値を計算する。
信頼度１＝（ラベルＬ１とＬ２とが共起する確率）／（ラベルＬ１の出現確率）
信頼度２＝（ラベルＬ２とＬ３とが共起する確率）／（ラベルＬ２の出現確率）
信頼度３＝（ラベルＬ３とＬ１とが共起する確率）／（ラベルＬ３の出現確率）
信頼度４＝（ラベルＬ３とＬ２とが共起する確率）／（ラベルＬ３の出現確率）
信頼度５＝（ラベルＬ２とＬ１とが共起する確率）／（ラベルＬ２の出現確率）
信頼度６＝（ラベルＬ１とＬ３とが共起する確率）／（ラベルＬ１の出現確率）
パターンが４つ以上のラベルを含む場合も同様であり、パターンに含まれるあるラベルが、そのラベルと他の１つのラベルとの前提となる度合いが高いパターンを、少数派クラスタ抽出部１８は、リストに含める。つまり、本ステップで少数派クラスタ抽出部１８が作成するリストに含まれるパターンは、そのパターンに含まれるラベル間の共起の度合いが高いものである。本ステップで作成されたリスト（上位Ａ件）に含まれるパターンを、Ｐ´（ｘ）と表す。

次のステップＳ７６からＳ７９までの処理では、ステップＳ７５で作成したリストに含まれるパターンＰ´（ｘ）が対象である。
ステップＳ７６において、少数派クラスタ抽出部１８は、リスト内に未処理のパターンがあるか否かを判定する。
リスト内に未処理のパターンが１つ以上ある場合（ステップＳ７６：ＹＥＳ）には次のステップＳ７７に進む。リスト内に未処理のパターンが残っていない場合（ステップＳ７６：ＮＯ）には、このフローチャート全体の処理を終了する。

ステップＳ７７に進んだ場合、少数派クラスタ抽出部１８は、リストから未処理のパターンを一つ読み込む。
次にステップＳ７８において、少数派クラスタ抽出部１８は、読み込んだパターンに対応するラベルがつけられた係り受けと、係り元が同じである文書を、少数派クラスとして出力する。

この処理の一例として、リストに含まれるパターンの一つであるＰ´（１００）が、３つのラベルＬ（ｋ_{１００，１}），Ｌ（ｋ_{１００，２}），Ｌ（ｋ_{１００，３}）に対応する場合を説明する。
この３つのラベルのいずれかがつけられている係り受けは、Ｍ´（ｉ_{１００，１}，ｊ_{１００，１}），Ｍ´（ｉ_{１００，２}，ｊ_{１００，２}），Ｍ´（ｉ_{１００，３}，ｊ_{１００，３}），Ｍ´（ｉ_{１００，４}，ｊ_{１００，４}），・・・である。
すると、これらの係り受けにおける係り元は、それぞれ、Ｍｂ´（ｉ_{１００，１}，ｊ_{１００，１}），Ｍｂ´（ｉ_{１００，２}，ｊ_{１００，２}），Ｍｂ´（ｉ_{１００，３}，ｊ_{１００，３}），Ｍｂ´（ｉ_{１００，４}，ｊ_{１００，４}），・・・である。

少数派クラスタ抽出部１８は、処理対象として残っている文書の中から、上記のＭｂ´（ｉ_{１００，１}，ｊ_{１００，１}），Ｍｂ´（ｉ_{１００，２}，ｊ_{１００，２}），Ｍｂ´（ｉ_{１００，３}，ｊ_{１００，３}），Ｍｂ´（ｉ_{１００，４}，ｊ_{１００，４}），・・・を係り元とするような係り受けを含む文書を、少数派クラスＣ（１）として出力する。

つまり、少数派クラスタ抽出部１８は、ここでは、パターンが複数種類のラベルを有する場合であって、且つ、パターンに含まれるラベル間の相関分析による信頼度が所定値より高いパターンについて、当該パターンに対応するラベルが付与された係り受けと、同じ係り元を有するテキスト文書、を少数派クラスタとして出力する。

次にステップＳ７９において、少数派クラスタ抽出部１８は、少数派クラスとして出力した文書を、処理対象の文書群データから削除する。
そして、本ステップの処理が終了すると、リスト内の次のパターンを処理するためにステップＳ７６に戻る。

以上のように、少数派クラスタ抽出部１８は、少数派クラスの文書を抽出して出力する。この処理が終了すると、少数派クラスタ抽出部１８は、残った文書と、それらの各文書に対応するパターンのデータを、多数派クラスタ抽出部１９に渡す。

図１０は、多数派クラスタ抽出部１９による詳細な処理の手順を示すフローチャートである。以下、このフローチャートに沿って処理の手順を説明する。
まずステップＳ９１において、多数派クラスタ抽出部１９は、各パターンについて、パターンを構成するラベルの共起確率を計算する。なお、パターンが３つ以上のラベルで構成される場合には、多数派クラスタ抽出部１９は、パターンが含むラベルのうちの２つのラベルの組み合わせのすべてについて、それぞれ、共起確率を計算する。

次にステップＳ９２において、多数派クラスタ抽出部１９は、相関分析における支持度の高い上位Ｂ件のパターンを含む文書を抽出し、多数派クラスＣ（２）として出力する。なお、Ｂは、適宜設定される整数値である。例えば、Ｂの値は、予備実験などにより、予想される多数派クラスの数を設定する。パターンがラベルＬ１とＬ２とを含むとき、その支持度は、次の式で計算される。
支持度＝（ラベルＬ１とＬ２とが同時に出現する件数）／（対象とする全データ件数）
つまり、支持度は、ステップＳ９１で計算した共起確率そのものである。なお、パターンが３つ以上のラベルで構成される場合には、多数派クラスタ抽出部１９は、パターンが含むラベルのうちの２つのラベルの組み合わせのすべてについて、抽出の判断の基となる数値として支持度を利用する。

上述した一連の処理により、文書処理装置１は、次のような作用・効果を生じさせる。即ち、前処理部１２は、連続した名詞を１つに連結させたり、単なる表記の違いを統一させたりすることにより、同一概念または類似概念の表記の揺れを正規化させる作用を有する。
また、係り受け抽出部１４は、文書ごとの係り受け分析を行うとともに、係り元が名詞で、係り先が用言類（形容詞、形容動詞、動詞、サ変接続名詞）である係り受け関係のみを抽出する作用を有する。このように、係り受け抽出部１４によって抽出される特定の品詞の関係を有する係り受け関係が、後段の処理において統計上重要である。

また、ノイズ除去部１５は、係り元と係り先の組み合わせに関して、出現数が少ないペア（統計的に、ノイズとみなしてよいペア）を除去する作用を有する。これにより、出現数の少ない多種多様なペアを後段の処理の対象としなくなる。つまり、統計的に意味の少ない要素を除去して、分析のために必要な計算量を節約する。言い換えれば、ノイズ除去部１５は、分類するほどの量が見込めない雑音となる文書を排除する。
また、ラベル付与部１６は、係り先（用言類）が同じ係り受けに対して同じラベルを付与する。このラベルは、後段の処理で使用される。
また、パターン照応部１７は、各文書に含まれる係り受けに付いたラベルの組み合わせを、パターンとして抽出する。つまり、ここで抽出されるパターンは、文書に含まれる係り受けの、係り先の種類の組み合わせに対応するパターンである。

また、少数派クラスタ抽出部１８は、１つのラベルからなるパターンを有する文書を、少数派クラスとして出力する。ここで出力されるのは、係り先が１種類のみの文書である。
また、少数派クラスタ抽出部１８は、ラベルの共起確率に基づき、信頼度の高いＡ件のパターンのリストを作る。また、そのようにリストされたパターンのそれぞれについて、そのパターンに対応するラベルが付けられた係り受けと、係り元が同じ文書を、少数派クラスタとして出力する。つまり、信頼度の高いパターンに属する係り受けの、係り元である名詞が同じ文書を、少数派クラスタとして出力する。
また、多数派クラスタ抽出部１９は、残った文書から、支持度の高いパターンを含む文書を、多数派クラスタとして出力する。

つまり、上記の構成では、文書処理装置１は、分類後の文書のグループからなるクラスタ内の文書の数に極端に偏りがある文書を入力した際、各文書の係り受けを抽出し、係り先の種類によってつけられたラベルの、同一文書における出現パターンにより、分類されたのち、少数派クラスタ抽出のための特有な処理をしたのち、多数派クラスタ抽出のための処理をおこない、クラスタ内の文書の数に極端に偏りがある文書を精度よく、文書の内容に応じて分類した結果を出力する。

このような処理により、文書処理装置は、多数派クラスタの中に埋もれさせずに、少数派クラスタを抽出することができる。

次に、第２実施形態について説明する。なお、以下では、本実施形態に特有の事項のみを中心に説明し、前述の実施形態と共通する事項については記載を省略する場合がある。
［第２実施形態］
図１１は、本実施形態による文書処理装置の概略機能構成を示すブロック図である。図示するように、文書処理装置２は、文書データ取得部１１と、係り受け抽出部１４と、ラベル付与部１６と、パターン照応部１７と、少数派クラスタ抽出部１８と、多数派クラスタ抽出部１９と、を含んで構成される。

文書処理装置２を構成する文書データ取得部１１と係り受け抽出部１４とラベル付与部１６とパターン照応部１７と少数派クラスタ抽出部１８と多数派クラスタ抽出部１９の各々の機能自体は、第１実施形態におけるそれらとほぼ同様である。本実施形態による文書処理装置２は、第１実施形態が有していた前処理部１２とノイズ除去部１５とを含まない。

つまり、文書データ取得部１１が外部から取得したデータについて、第１実施形態における前処理部１２が行っていた前処理を行わずに、係り受け抽出部１４が係り受けの抽出を開始する。これにより、表記の違いによって統計的な安定性が失われる場合もあるが、その点を除いては第１実施形態と同様の効果を得られる。
なお、本実施形態では前処理部を設けないため、文書データ取得部１１が、取得した文書のそれぞれについて係り受け分析を行い、その分析の結果を係り受け抽出部１４に渡すようにする。

また、係り受け抽出部１４の処理結果のデータに関して、第１実施形態におけるノイズ除去部１５が行っていたノイズの除去の処理を行わずに、ラベル付与部１６はラベルを付与する。これにより、ノイズが除去されていない分、分類精度が落ちる場合もあり得るが、その点を除いては、第１実施形態と同様の効果を得られる。

なお、本実施形態の変形例として、前処理部１２とノイズ除去部１５のいずれか一方のみの機能を有するように、文書処理装置を構成しても良い。

なお、上述した実施形態における文書処理装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、第１実施形態または第２実施形態において、多数派クラスタ抽出部を設けない構成として文書処理装置を実施しても良い。このような文書処理装置は、多数派クラスタに属する文書を抽出することはないが、既に述べた処理手順のうちの、途中までの処理（少数派クラスタ抽出部による処理まで）によって、少数派クラスタに属する文書を抽出することはできる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

［実施例］
次に、第１実施形態による文書処理装置１を実データに適用して分析した例を説明する。
図１２は、時間帯ごとおよびトピックごとのＳＮＳにおける文書数の分布を示す３次元のグラフである。便宜上、これらの次元を、ｘ軸、ｙ軸、ｚ軸と呼ぶ。同図に示すグラフのｘ軸は、文書処理装置１によって分類された文書のトピックに対応している。同図において、ｚ軸（高さ方向）は、時間帯ごと、且つトピックごとの文書数を示している。

また、同図におけるｙ軸（１５時、１６時、・・・）と示されている軸は、時間帯を表す。対象としている時間帯は、東日本大震災が起こった西暦２０１１年３月１１日の、地震発生直後から、２４時までである。

また、同図におけるｘ軸（トピック名が日本語で列挙されている軸）はトピックの違いに対応する次元である。このうち、「Ａ」で示している範囲は、少数派クラスタに属するトピックである。少数派クラスタに属するトピックは、図中の左側から、「疲れる」、「女性不安」、「迎え−行く」、「無事帰宅」、「寒い」、「渋滞」、「避難呼びかけ」、「テレビ」、「休憩場所希望」、「恐い」、「疑問・悩み」、「連絡−取れない」、「徒歩帰宅状況」、「無事・安心」、「地震現状」、「帰宅困難」、「心配」、「人−多い」、「代替住宅」である。また、同じくｘ軸に沿って「Ｂ」で示している範囲は、多数派クラスタに属するトピックである。多数がクラスタに属するトピックは、「運行予測」、「避難所情報」、「鉄道運行情報」である。

このように、文書処理装置１を用いることにより、多数派クラスタだけではなく、従来技術ではうまく抽出できなかった少数派クラスタを抽出することに成功している。

本発明により、ソーシャルネットワーキングサービスの投稿内容等の分析をきめ細かく行うことができる。これにより、例えば、諸分野における社会的ニーズを把握するために利用できる。例えば、行政における防災行動計画や社会的インフラストラクチャの構築などに利用できる。

１，２文書処理装置
１１文書データ取得部
１２前処理部
１４係り受け抽出部
１５ノイズ除去部
１６ラベル付与部
１７パターン照応部
１８少数派クラスタ抽出部
１９多数派クラスタ抽出部

Claims

複数のテキスト文書からなるデータを取得する文書データ取得部と、
取得した前記テキスト文書の各々に含まれる係り受け関係のうち、係り元が名詞であり係り先が形容詞と形容動詞と動詞とサ変接続名詞とのいずれかである特定の係り受けを抽出する係り受け抽出部と、
前記係り受けの各々について係り先に応じて付与されるラベルの組み合わせを、パターンとして、前記テキスト文書ごとに求めるパターン照応部と、
前記パターン照応部によって求められた前記パターンに基づき、
（１）パターンが１種類の前記ラベルのみを有する場合に当該パターンを有するテキスト文書と、
（２）パターンが複数種類の前記ラベルを有する場合であって、且つ、前記パターンに含まれる前記ラベル間の相関分析による信頼度が所定値より高いパターンについて、当該パターンに対応するラベルが付与された係り受けと、同じ係り元を有するテキスト文書と、
を少数派クラスタとして出力する少数派クラスタ抽出部と、
を具備することを特徴とする文書処理装置。
前記少数派クラスタ抽出部によって出力された前記少数派クラスタに属する前記テキスト文書を除外した、前記テキスト文書を対象として、前記パターンを構成する前記ラベル間の相関分析による支持度が所定値よりも高いパターンについて、当該パターンを含む前記テキスト文書を多数派クラスタとして出力する多数派クラスタ抽出部、
をさらに具備することを特徴とする請求項１に記載の文書処理装置。
前記文書データ取得部が取得した前記テキスト文書の各々について、形態素解析を行い、連続する名詞を連結して連続名詞とするとともに、読みが同じ形態素および一部が同一の形態素をまとめて統一した表記とする前処理部をさらに備え、
前記係り受け抽出部は、前記前処理部から出力される前記テキスト文書を処理対象とする、
ことを特徴とする請求項１または２のいずれか一項に記載の文書処理装置。
前記係り受け抽出部によって抽出された前記係り受けについて、係り元と係り先がともに同じ係り受けを、出現数の多い順に上位の所定個数抽出し、抽出された上位の係り受けだけを処理対象として出力するノイズ除去部をさらに備え、
前記ラベル付与部以後の処理においては、前記ノイズ除去部によって処理対象として出力された係り受けのみを処理対象とする、
ことを特徴とする請求項１から３までのいずれか一項に記載の文書処理装置。
請求項１から４までのいずれか一項に記載の文書処理装置として、コンピューターを機能させるプログラム。