JP2013084216A

JP2013084216A - 定型文判別装置及び定型文判別方法

Info

Publication number: JP2013084216A
Application number: JP2011225120A
Authority: JP
Inventors: Yuji Mori; 勇二森; Daisuke Torii; 大祐鳥居
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2011-10-12
Filing date: 2011-10-12
Publication date: 2013-05-09

Abstract

【課題】文書の集合からより効率的に定型文の判別を行うことができる定型文判別装置及び定型文判別方法を提供すること。
【解決手段】定型文判別装置１は、タグ付けされた文書の集合である文書集合１００をタグに基づいて分類する文書分類部１０１と、文書分類部１０１によって分類された分類文書集合に含まれる各文書を特徴づける単語である特徴語を抽出する特徴語抽出部１０３と、特徴語抽出部１０３によって抽出された特徴語に基づいて、分類文書集合に含まれる各文書が定型文を含むか否かを判別する定型文判別部１０４と、を備える。さらに、定型文判別装置１は、検索クエリを入力するクエリ入力部１０８と、定型文判別部１０４によって定型文を含まないと判別された文書のうち、クエリ入力部１０８によって入力された検索クエリと関連する文書のタグを抽出し、当該タグを出力する推薦タグ出力部１０９と、を備える。
【選択図】図１

Description

本発明は、文書の集合に含まれる文書が定型文を含むか否かを判別する定型文判別装置及び定型文判別方法に関するものである。

近年、Ｔｗｉｔｔｅｒ（登録商標）等、ブログの一種であるミニブログ（マイクロブログ）によるコミュニケーションが増加している。ユーザは、主に自身の状況や雑記などを短い文章で、サービスを提供しているウェブサイトへ投稿する。ミニブログ内の利用者間でコミュニケーションを取れるようにもなっている。投稿内容が短いテキストであるため、更新が容易で、結果的にほぼリアルタイムなコミュニケーションが行われることが多い。ミニブログサービスの中には、個別の投稿に対して言及する話題を特定するタグを付与することが可能なものがある。

一方、ミニブログ等のリアルタイムサービスを対象に、新規投稿を秒単位で検索対象に反映するリアルタイム検索が一般化してきている。リアルタイム検索は、特定の話題を対象にすることで世の中の動向を把握することに役立つが、投稿自体が短いことから略称または通称が使われることも多く、検索クエリに対する再現率をどのように上げるかが課題となる。

ミニブログサービスを対象としたキーワード検索の適合率を向上させる手段として、ユーザが入力した検索クエリの単語と投稿内で共起関係にあるタグを提示する手段が考えられる。タグを検索対象として検索クエリを拡張することで、検索クエリに関連する話題に関する一連の投稿を取得することが可能になる。

しかしながら、ミニブログサービスには、ユーザが直接入力したもの以外にも、アプリケーションによる自動投稿、広告、特定の単語を投稿することで商品が当たるキャンペーン等様々な投稿があり、それらに関連するタグは類似した投稿の集合という、検索ユーザの意図にそぐわない検索結果を返すことが想定される。そのため、定型文の投稿に伴うタグを判別し、検索の推薦対象から外す必要がある。

ここで、定型文の判別方法については、例えば、下記特許文献１及び２に記載されている。特許文献１では、複数ある定型文のうち類似した文同士を集めてクラスタリングし、出力する定型文クラスタリング装置が開示されている。また、特許文献２では、基準文章データと入力された文章データとの類似度を形態素解析を利用して算出し、類似度に基づいて入力された文章データを分類する文章分類プログラムが開示されている。

特開２００３−８５１７０号公報特開２００５−７１２２９号公報

特許文献１及び２に記載の技術は、どちらも人手による文書閲覧の効率を向上させる為に、似たような単語を含む文書同士のクラスタリングを行っている。これらの技術は、電子メールのフィルタリングや、顧客問い合わせ情報の閲覧効率化等を目的としている。ミニブログサービスにおいては、Ｗｅｂサービスであるため、その利用の気軽さから膨大な数の投稿が日々行われていることから、全ての投稿を一つの多次元空間に射影してクラスタリングを行う従来の手法は、計算リソース及び時間の観点から現実的ではない。

そこで、本発明は、かかる課題に鑑みて為されたものであり、文書の集合からより効率的に定型文の判別を行うことができる定型文判別装置及び定型文判別方法を提供することを目的とする。

上記課題を解決するため、本発明の定型文判別装置は、タグ付けされた文書の集合を、タグに基づいて分類する文書分類手段と、文書分類手段によって分類された分類文書集合に含まれる各文書を特徴づける単語である特徴語を抽出する特徴語抽出手段と、特徴語抽出手段によって抽出された特徴語に基づいて、分類文書集合に含まれる各文書が定型文を含むか否かを判別する定型文判別手段と、を備える。

また、本発明の定型文判別方法は、定型文判別装置による定型文判別方法であって、文書分類手段が、タグ付けされた文書の集合を、タグに基づいて分類する文書分類ステップと、特徴語抽出手段が、文書分類ステップにおいて分類された分類文書集合に含まれる各文書を特徴づける単語である特徴語を抽出する特徴語抽出ステップと、定型文判別手段が、特徴語抽出ステップにおいて抽出された特徴語に基づいて、分類文書集合に含まれる各文書が定型文を含むか否かを判別する定型文判別ステップと、を含む。

このような定型文判別装置及び定型文判別方法によれば、タグ付けされた文書の集合が、タグに基づいて分類され、分類された分類文書集合に含まれる各文書の特徴語が抽出される。そして、抽出された特徴語に基づいて、分類文書集合に含まれる各文書が定型文を含むか否かが判別される。かかる構成を採れば、タグに基づいて分類された分類文書集合に対して特徴語に基づいた定型文の判別を行うため、例えば、膨大な数の文書集合に対して定型文の判別を行う場合に比べて、処理コストを大幅に削減し、より効率的に定型文の判別を行うことができる。

また、本発明の定型文判別装置は、分類文書集合に含まれる各文書のうち、分類文書集合に含まれる他の文書に同一の部分がある場合には当該部分を削除し、同一の部分がない場合には削除しないことで文書をフィルタリングする文書フィルタリング手段を更に備え、特徴語抽出手段は、文書フィルタリング手段によってフィルタリングされた各文書を特徴づける単語である特徴語を抽出する、ことが好ましい。ここで、ミニブログサービス特有の仕組みとして、他者の投稿を気に入ったユーザが、自身の知り合いに当該投稿を引用した上で投稿を行う拡散といった仕組みがある。一般的に、拡散を含む文書は、検索ユーザにとって有用である。かかる構成を採れば、例えば、拡散による文書のうち引用した部分が削除されるため、拡散回数の多い投稿を含む文書集合を解析した時に、被拡散投稿内の単語が多重カウントされて不当に定型文を含むと判別されることを防ぐことができ、より正確な定型文の判別を行うことができる。

また、本発明の定型文判別装置は、定型文判別手段は、特徴語の出現頻度に基づいて、定型文を含むか否かを判別する、ことが好ましい。かかる構成を採れば、特徴語の出現頻度に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。また、タグに基づいて分類された分類文書集合全体の統計処理を行うことで、従来の階層的クラスターを用いる手法に比べて計算のイテレーション回数を減らすことが可能になり、高速な判別が可能になる。

また、本発明の定型文判別装置は、定型文判別手段は、特徴語の出現頻度を成分として持つｐ個（ｐは１以上の整数）のベクトルの集合に対して主成分分析を行い、第ｑ主成分（ｑは１以上の整数かつｐ＞ｑ）までの累積寄与率に基づいて、定型文を含むか否かを判別する、ことが好ましい。かかる構成を採れば、主成分分析を行った上で累積寄与率に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。

また、本発明の定型文判別装置は、定型文判別手段は、タグ付けされた文書の集合全体における各特徴語の生起確率に対する、分類文書集合における各特徴語の生起確率のリフト値が予め定められた閾値以上となる特徴語の個数に基づいて、定型文を含むか否かを判別する、ことが好ましい。かかる構成を採れば、タグ付けされた文書の集合全体における各特徴語の生起確率に対する、分類文書集合における各特徴語の生起確率のリフト値が予め定められた閾値以上となる特徴語の個数に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。

また、本発明の定型文判別装置は、定型文判別手段は、分類文書集合における各特徴語の出現頻度のヒストグラムを作成し、出現する要素の数の上位ｒ語（ｒは１以上の整数）の占める累積度数に基づいて、定型文を含むか否かを判別する、ことが好ましい。かかる構成を採れば、特徴語の出現頻度のヒストグラムを作成した上で累積度数に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。

また、本発明の定型文判別装置は、定型文判別手段は、分類文書集合に含まれる各文書を作成した作成元アプリケーションをそれぞれ識別し、分類文書集合における文書数に対する各作成元アプリケーションにより作成された文書数の割合に基づいて、各文書が定型文を含むか否かを判別する、ことが好ましい。かかる構成を採れば、例えば、単一作成元アプリケーションの占める割合が大きい場合は、特定サービスの利用に伴う文書であり、定型文を含むと判定することができ、より正確でより効率的に定型文の判別を行うことができる。

また、本発明の定型文判別装置は、検索クエリを入力するクエリ入力手段と、定型文判別手段によって定型文を含まないと判別された文書のうち、クエリ入力手段によって入力された検索クエリと関連する文書のタグを抽出し、当該タグを出力する推薦タグ出力手段と、を備えることが好ましい。かかる構成を採れば、例えば、ユーザが検索クエリを入力した際、定型文を含まないと判別された文書のうち、検索クエリに関連する文書のタグを出力することができるため、ユーザは、検索クエリに関連する有用な文書のタグを取得し、当該タグを利用して有用な文書をさらに検索することができる。

また、本発明の定型文判別装置は、定型文判別手段によって定型文を含まないと判別された文書のタグのうち、任意の複数のタグの組み合わせに対して、各々のタグの出現頻度と組み合わせに含まれる全てのタグが同時に出現する頻度とに基づいて、複数のタグの共起度を算出し、共起度が予め定められた閾値以上の組み合わせに対して、組み合わせに含まれるタグのうち出現頻度の最も高いタグを代表タグとして決定する代表タグ決定手段を更に備え、推薦タグ出力手段は、抽出したタグに共起度が予め定められた閾値以上のタグの組み合わせが含まれている場合に、当該組み合わせに含まれるタグのうち代表タグ決定手段によって決定された代表タグを出力する、ことが好ましい。一般的に、ある検索クエリの検索結果としてタグを推薦する場合、共起度の高いタグはどちらも似たような検索結果を返すことになるため、組み合わせて推薦することはユーザビリティの観点から不適切と言える。かかる構成を採れば、特定の検索クエリに対して代表タグのみを出力するができ、例えば、殆ど等しい検索結果を返すタグを複数推薦することや、同一の話題に関わるタグが複数表示されることを防ぐことが可能となると共に、表示領域を節約することができる。

本発明によれば、タグ付けされた文書の集合からより効率的に定型文の判別を行うことができる。

本発明の実施形態に係る定型文判別装置の構成を示す機能ブロック図である。本発明の実施形態に係る定型文判別装置のハードウェア構成を示す図である。本発明の実施形態における文書の例を示す図である。本発明の実施形態における形態素解析の結果の例を示す図である。本発明の実施形態における複数のタグの出現頻度の例を示す図である。本発明の実施形態におけるタグ格納部のテーブルの例を示す図である。本発明の実施形態に係る定型文判別装置で実行される定型文判別方法の全体の処理を示すシーケンス図である。本発明の実施形態に係る定型文判別装置で実行される定型文判別方法の処理のうち、定型文の判別の処理を示すシーケンス図である。

以下、図面とともに本発明による視聴率推定装置及び視聴率推定方法の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１は、定型文判別装置１の構成を示す機能ブロック図である。図１に示す通り、定型文判別装置１は、文書分類部１０１（文書分類手段）、文書フィルタリング部１０２（文書フィルタリング手段）、特徴語抽出部１０３（特徴語抽出手段）、定型文判別部１０４（定型文判別手段）、判別結果格納部１０５（判別結果格納手段）、代表タグ決定部１０６（代表タグ決定手段）、タグ格納部１０７（タグ格納手段）、クエリ入力部１０８（クエリ入力手段）、及び推薦タグ出力部１０９（推薦タグ出力手段）を含んで構成される。

定型文判別装置１は、ＣＰＵ等のハードウェアから構成されているものである。図２は、定型文判別装置１のハードウェア構成図である。図１に示される定型文判別装置１は、物理的には、図２に示すように、ＣＰＵ２００、主記憶装置であるＲＡＭ２０１及びＲＯＭ２０２、キーボードやディスプレイなどの入出力装置２０３、通信モジュール２０４、及び補助記憶装置２０５などを含むコンピュータシステムとして構成されている。

図１に示す定型文判別装置１の各機能ブロックの機能は、図２に示すＣＰＵ２００、ＲＡＭ２０１等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ２００の制御のもとで入出力装置２０３、通信モジュール２０４、及び補助記憶装置２０５を動作させるとともに、ＲＡＭ２０１におけるデータの読み出し及び書き込みを行うことで実現される。

以下、図１に示す定型文判別装置１の機能ブロックに基づいて、定型文判別装置１の各機能ブロックを説明する。

文書分類部１０１は、タグ付けされた文書の集合である文書集合１００を、タグに基づいて分類する。なお、以下の実施形態では、タグ付けされた文書の具体例として、ミニブログにおける投稿内容（以下、文書とも呼ぶ）を取り上げる。図３（ａ）は、タグ付けされた文書の例を示す図である。図３（ａ）に示す例では、文書に対するタグは「＃」から始まり、スペースで区切られた文字列としているが、文書に対するタグの与え方はこの方法に限らない。また、タグと文書は１対１の対応ではなく、同一の文書に対して複数のタグが付与されていてもよい。図３（ａ）に示す例では、「台風１５号の影響により、現在○○線に２０分程度の遅延が発生していますが、運行停止の予定はない見込みです。」という文書に対して「台風」及び「運行情報」という２つのタグが付与されている。

文書分類部１０１は、文書集合１００をタグに基づいて分類する際に、具体的には、同一のタグを付与された文書毎に分類する。文書分類部１０１は、タグが一つも付与されていない文書についてはこの段階で分析対象から削除する。つまり、定型文判別装置１は、個別のタグ毎に、所属する文書数がｎ（ｎは１以上の任意の整数）以上のタグを持つ文書の集合を分析対象とする。図３（ｃ）は、文書分類部１０１による図３（ａ）の文書の分類結果の例を示す図である。

文書フィルタリング部１０２は、分類文書集合に含まれる各文書のうち、分類文書集合に含まれる他の文書に同一の部分がある場合には当該部分を削除し、同一の部分がない場合には削除しないことで文書をフィルタリングする。

ここで文書フィルタリング部１０２がフィルタリングを行う主な目的は、例えば、拡散に相当するテキストを取り除くことである。拡散とは、ミニブログにおいて、他者の投稿を再度投稿することで、ユーザ自身の友人に広げる行為であり、ユーザ自身の編集を伴わない純粋な拡散と、ユーザ自身のコメントを追記して再度投稿を行う引用に大きく分類される。図３（ｂ）は、引用の文書の例を示す図である。ここでは、「ＲＴ」という文字列以降が引用元の文書である図３（ａ）に示す文書となるが、拡散、引用の表現はこの方法に限らない。文書フィルタリング部１０２は、図３（ｂ）に示す文書のうち、「ＲＴ」という文字列以降の部分が図３（ａ）に示す文書と同一のため、図３（ｂ）に示す文書のうち、「ＲＴ」という文字列以降の部分を削除する。その結果、図３（ｂ）に示す文書は「ＲＴ」という文字列以前のみの部分が採用される。つまり、図３（ｂ）に示す文書の引用元の文書である図３（ａ）に示す文書は「台風」及び「運行情報」の２つのタグに属するが、文書フィルタリング部１０２のフィルタリングにより、図３（ｃ）に示す文書自体は当該２つのタグには属さなくなる。

拡散はミニブログにおいて頻繁に見られる現象であるが、被拡散投稿と拡散投稿を多重にカウントすると、登場する単語が同一であるため後述の処理で拡散を含むタグが定型文として判別されてしまう可能性がある。拡散を含む文書は、検索ユーザにとって有用であるといえるため、この段階で分析対象から外すことで、定型文を含むとして判別され、推薦対象から外れてしまうことを防止する。

文書フィルタリング部１０２は、更に、文書分類部１０１によって分類された分類文書集合に含まれる各文書について、ＵＲＬや記号といった文書を特徴づける文字列でないものを削除する。また、文書フィルタリング部１０２は、全角、半角といった文字単位の正規化についても実施する。

特徴語抽出部１０３は、文書分類部１０１によって分類された分類文書集合に含まれる各文書を特徴づける単語である特徴語を抽出する。また、特徴語抽出部１０３は、文書フィルタリング部１０２によってフィルタリングされた各文書を特徴づける単語である特徴語を抽出してもよい。特徴語抽出部１０３による特徴語の抽出方法は、本実施形態では形態素解析とするが、予め準備しておいたコーパスをベースとした文字列探索でもよい。特徴語抽出部１０３による形態素解析によって、各文書は単語単位に分かち書きされ、各単語には品詞情報が付与される。図４は、図３（ａ）に示す文書に対する、特徴語抽出部１０３による形態素解析の結果の例を示す図である。特徴語抽出部１０３は、形態素解析を行った段階で、記号や助詞といった文書の特徴と関連の低い単語を取り除いてもよい。

定型文判別部１０４は、特徴語抽出部１０３によって抽出された特徴語に基づいて、分類文書集合に含まれる各文書が定型文を含むか否かを判別する。定型文判別部１０４は、具体的には、特徴語抽出部１０３によって抽出された特徴語の統計情報から、分類文書集合に含まれる各文書が定型文を含むか否かを判別し、判別結果を判別結果格納部１０５に格納する。ここで、統計情報とは、例えば単語の出現頻度分布、ユニークな出現単語の数、それらに基づいた統計解析が挙げられる。

例えば、定型文判別部１０４は、特徴語の出現頻度に基づいて、あるいは特徴語の出現頻度の偏りに基づいて、定型文を含むか否かを判別する。また、例えば、定型文判別部１０４は、特徴語の出現頻度を成分として持つｐ個（ｐは１以上の整数）のベクトルの集合に対して主成分分析を行い、第ｑ主成分（ｑは１以上の整数かつｐ＞ｑ）までの累積寄与率に基づいて、定型文を含むか否かを判別する。また、例えば、定型文判別部１０４は、文書集合１００全体における各特徴語の生起確率に対する、分類文書集合における各特徴語の生起確率のリフト値が予め定められた閾値以上となる特徴語の個数に基づいて、定型文を含むか否かを判別する。また、例えば、定型文判別部１０４は、分類文書集合における各特徴語の出現頻度のヒストグラムを作成し、出現する要素の数の上位ｒ語（ｒは１以上の整数）の占める累積度数に基づいて、定型文を含むか否かを判別する。定型文判別部１０４による主成分分析を利用して特徴語集合の次元数を削減した上で定型文の判別を行う方法については、図８を用いて後述する。

定型文判別部１０４は、分類文書集合に含まれる各文書を作成した作成元アプリケーションをそれぞれ識別し、分類文書集合における文書数に対する各作成元アプリケーションにより作成された文書数の割合に基づいて、各文書が定型文を含むか否かを判別してもよい。作成元アプリケーションとは、文書を投稿するために使用したアプリケーションを指す。作成元アプリケーションは携帯端末上で動作するアプリケーションだけでなく、デスクトップ型、ラップトップ型、タブレット型を始めとするＰＣ（Personal Computer）、ブラウザ上で動作するＷｅｂアプリケーションも含む。定型文判別部１０４は、まず、分類文書集合内の各文書の投稿に使用された作成元アプリケーションを識別し、最も出現頻度の高い作成元アプリケーションの全体の出現頻度に対して占める割合を算出する。ミニブログにおいては、文書の投稿、削除、その他の操作を行うためにＡＰＩ（Application Programming Interface）を公開している場合が多い。また、ミニブログによっては、ＡＰＩによる文書の投稿を行う際にＡＰＩを利用するアプリケーション名を付加情報として付与できる場合がある。ＡＰＩを利用した、ミニブログと連動したサービスは種々存在する。こうしたサービスによる投稿は常に同一の作成元アプリケーションから同一のタグを付与されて行われることが多いため、同一タグを付与された分類文書集合のうち、単一作成元アプリケーションの占める割合を調べることでこういった類の投稿を判別することが可能となる。定型文判別部１０４は、分類文書集合内において、単一の作成元アプリケーションからの投稿の割合が一定以上（例えば、９０％以上）となる場合は、当該タグは特定サービスの利用に伴う投稿と判断し、定型文を含むと判別する。

判別結果格納部１０５は、定型文判別部１０４による判別結果を格納する。判別結果格納部１０５は、具体的には、定型文判別部１０４によって定型文を含むと判別された文書及びそのタグを格納する。

代表タグ決定部１０６は、定型文判別部１０４によって定型文を含まないと判別された文書のタグのうち、任意の複数のタグの組み合わせに対して、各々のタグの出現頻度と組み合わせに含まれる全てのタグが同時に出現する頻度とに基づいて、複数のタグの共起度を算出し、共起度が予め定められた閾値以上の組み合わせに対して、組み合わせに含まれるタグのうち出現頻度の最も高いタグを代表タグとして決定する。

以下、２つのタグｔ１及びｔ２の組み合わせに対する共起度の算出方法について説明する。図５は、ｔ１及びｔ２の出現頻度の関係を示した図である。図５に示すように、ｔ１及びｔ２の出現頻度がそれぞれａ及びｂであり、２つのタグが同時に出現する頻度がｃである。この場合、ｔ１及びｔ２の共起度は以下の式（１）によって示される。

代表タグ決定部１０６は、共起度が予め定められた閾値以上の組み合わせに対して、組み合わせに含まれるタグのうち出現頻度の最も高いタグを代表タグとして決定すると共に、代表タグ以外のタグを対象タグとして決定し、決定した代表タグ及び対象タグをタグ格納部１０７に格納してもよい。図６は、タグ格納部１０７に格納された代表タグ及び対象タグの例を示す図である。

なお、代表タグ決定部１０６は、共起度として他の指標を用いてもよい。例えば、代表タグ決定部１０６は、タグ同士が同一文書に出現する回数である共起回数、もしくは、共起回数と各々の出現頻度から算出される既知の指標であるＣｏｎｆｉｄｅｎｃｅ係数、Ｓｕｐｐｏｒｔ係数、Ｌｉｆｔ係数、及びｄｉｃｅ係数等を用いてもよい。

クエリ入力部１０８は、検索クエリを入力する。クエリ入力部１０８は、ユーザから検索クエリを入力してもよいし、他の装置等から検索クエリを入力してもよい。

推薦タグ出力部１０９は、定型文判別部１０４によって定型文を含まないと判別された文書のうち、クエリ入力部１０８によって入力された検索クエリと関連する文書のタグを抽出し、当該タグを出力する。また、推薦タグ出力部１０９は、抽出したタグに共起度が予め定められた閾値以上のタグの組み合わせが含まれている場合に、当該組み合わせに含まれるタグのうち代表タグ決定部１０６によって決定された代表タグを出力する。

次に、図７及び８を用いて、本実施形態の定型文判別装置１による定型文判別方法の処理について説明する。図７は、定型文判別方法の全体の処理を示すシーケンス図であり、図８は、定型文判別方法の処理のうち、定型文の判別の処理を示すシーケンス図である。

最初に、図７のフローチャートについて説明する。まず、文書分類部１０１により、文書集合１００がタグ毎に分類される（ステップＳ１１、文書分類ステップ）。続くステップＳ１２以降は、ある単一のタグを付与された分類文書集合に対する処理フローを示しているが、実際には与えられた文書集合１００に出現する全てのユニークなタグについて同一の処理が行われる。次に、文書分類部１０１により、分類文書集合に含まれる文書について、個別のタグ毎に、所属する文書数がｎ（ｎは１以上の任意の整数）以上であるか否かが判定される（ステップＳ１２）。ステップＳ１２において、所属する文書数がｎ未満の場合、処理を終了する。ステップＳ１２において、所属する文書数がｎ以上の場合、文書フィルタリング部１０２により、分類文書集合に含まれる文書についてフィルタリングが行われる（ステップＳ１３）。具体的には、文書フィルタリング部１０２により、拡散に相当する部分が除去される。

次に、特徴語抽出部１０３により、分類文書集合に含まれる文書を特徴づける単語である特徴語が抽出される（ステップＳ１４、特徴語抽出ステップ）。具体的には、特徴語抽出部１０３により、形態素解析が行われ、必要の無い品詞等が除去される。次に、定型文判別部１０４により、ステップＳ１４において抽出された特徴語に基づいて、分類文書集合に含まれる文書が定型文を含むか否かが判別される（ステップＳ１５、定型文判別ステップ）。ステップＳ１５の詳細な処理は、後述する。次に、代表タグ決定部１０６により、共起度が予め定められた閾値以上のタグの組み合わせに対して、組み合わせに含まれるタグのうち出現頻度の最も高いタグが代表タグとして決定される（ステップＳ１６）。

続いて、図８のフローチャートについて説明する。図７のステップＳ１４に続いて、定型文判別部１０４により、分類文書集合に含まれる文書の投稿に使用されたクライアント情報、具体的には作成元アプリケーションの情報を取得する（ステップＳ２１）。次に、定型文判別部１０４により、ステップＳ２１で取得した作成元アプリケーションの情報に基づいて、最も出現頻度の高い作成元アプリケーションの全体の出現頻度に対して占める割合が算出され、占める割合が予め定められた閾値以上であるか否かが判定される（ステップＳ２２）。ステップＳ２２において、占める割合が予め定められた閾値以上であると判定された場合、定型文判別部１０４により、当該文書は定型文を含むと判別され、判定結果がＴｒｕｅとされ（ステップＳ２６）、判別が終了し、図７のステップＳ１６に処理が移る。一方、ステップＳ２２において、占める割合が予め定められた閾値未満であると判定された場合、定型文判別部１０４により、分類文書集合に含まれる文書に対して主成分分析が行われる（ステップＳ２３）。

ここで、ステップＳ２３で行われる主成分分析について説明する。分類文書集合に出現するユニークな単語の数をＮとすると、文書は各単語の出現頻度を要素として持つ、Ｎ次元のベクトルとして表現することが可能となる。ここで、各文書はＢａｇｏｆＷｏｒｄｓ（単語の集合）として扱われ、文書内における単語の出現順序は考慮されない。ここでは、ステップＳ１４において抽出された特徴語を要素として持つベクトルが生成される。主成分分析とは、複数の変数間の共分散（相関）を少数の合成変数で説明する手法で、相関性の高い、つまり同時に出現する頻度の多い単語は一つの合成変数に集約され、合成変数を主成分と呼ぶ。

主成分分析によって、Ｎ次元ベクトルｘはＭ個の主成分ｚにより、式（２）の関係で表現される。

ここで、ｚ_ｍを第ｍ主成分と呼ぶ。主成分は第一主成分から次元数を削減することによる情報量の損失を最小限に抑えながら順に選ばれる。つまり、ｍが小さい程ｚ_ｍはｘに関する情報を多く含む。ここで、ｚ_ｍが含む情報量とはｚ_ｍの分散であり、ｘの共分散行列Ｖの固有値問題の解として求められる。Ｖの固有値の総和に占める、ｚ_ｍの固有値の占める割合を寄与率といい、全体の情報量に対してどれくらいの情報量を含むかを示す。ｚ_ｍの寄与率Ｃ_ｍは、式（３）により与えられる。

また、第一主成分から第ｍ主成分までの寄与率の総和を累積寄与率と言う。ここで、λ_ｍはＶの固有値のうち、ｍ番目に大きいものを示す。累積寄与率が一定以上の値を超えた時点で、元のベクトル集合、つまり文書をｍ個の変数で表現できているとみなすことが出来る。主成分は式（２）に表現される通り、元のベクトルｘの成分の線形結合であるが、文書を取り扱う場合は、複数の特徴語の組み合わせとなる。また、その際強く結合される特徴語の組み合わせは相関度、つまり同一の文書に出現するかどうかといった傾向により決定される。つまり、少数の主成分による累積寄与率が高いということは、当該文書集合は特定の文字の組み合わせにより表現される、つまり定型文を含む文書の集合であると判別することができる。

次に、定型文判別部１０４により、少数の主成分、例えば第二主成分までの累積寄与率が予め定められた閾値、例えば９０％以上であるか否かが判定される（ステップＳ２４）。ステップＳ２４において、累積寄与率が予め定められた閾値以上であると判定された場合は、定型文判別部１０４により、当該文書は定型文を含むと判別され、ステップＳ２６に移る。一方、ステップＳ２４において、累積寄与率が予め定められた閾値未満であると判定された場合は、定型文判別部１０４により、当該文書は定型文を含まないと判別され、判定結果がＦａｌｓｅとされ（ステップＳ２５）、判別が終了する。

なお、図８の説明で挙げた値は一例であり、他のいかなる値を取ることも可能である。文書集合を説明するべき主成分数を２、３程度の少ない値とした場合、文書集合に出現するパターンが少数、つまり複数の定型文パターンを含まないことを前提としている。つまり、文書集合から複数の定型文パターンを抽出することができない。しかしながら、与えられた文書集合が定型文を含むかどうかという２値の判断を行うことにおいては従来のクラスタリングをベースにした方法に対して高速に実施することが可能となる。本実施形態の対象とするミニブログにおいては、常時大量の投稿が行われているため、全文書を対象にしたクラスタリングを行うことは現実的に不可能である。また、解析をタグ単位で行うことで一度処理を行ったタグに対しては再度判定処理を行うことが不要となり、更なる処理負荷の軽減が見込まれる。

次に、このように構成された定型文判別装置１の作用効果について説明する。

本実施形態の定型文判別装置１によれば、文書分類部１０１により、タグ付けされた文書の集合が、タグに基づいて分類され、特徴語抽出部１０３により、分類された分類文書集合に含まれる各文書の特徴語が抽出される。そして、定型文判別部１０４により、抽出された特徴語に基づいて、分類文書集合に含まれる各文書が定型文を含むか否かが判別される。かかる構成を採れば、タグに基づいて分類された分類文書集合に対して特徴語に基づいた定型文の判別を行うため、例えば、膨大な数の文書集合に対して定型文の判別を行う場合に比べて、処理コストを大幅に削減し、より効率的に定型文の判別を行うことができる。

本実施形態の定型文判別装置１によれば、文書フィルタリング部１０２により、分類文書集合に含まれる各文書のうち、分類文書集合に含まれる他の文書に同一の部分がある場合には当該部分を削除し、同一の部分がない場合には削除しないことで文書がフィルタリングされる。そして、特徴語抽出部１０３により、文書フィルタリング部１０２によってフィルタリングされた各文書を特徴づける単語である特徴語が抽出される。かかる構成を採れば、例えば、拡散による文書のうち引用した部分が削除されるため、拡散回数の多い投稿を含む文書集合を解析した時に、被拡散投稿内の単語が多重カウントされて不当に定型文を含むと判別されることを防ぐことができ、より正確な定型文の判別を行うことができる。

本実施形態の定型文判別装置１によれば、定型文判別部１０４により、特徴語の出現頻度に基づいて、定型文を含むか否かが判別される。かかる構成を採れば、特徴語の出現頻度に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。また、タグに基づいて分類された分類文書集合全体の統計処理を行うことで、従来の階層的クラスターを用いる手法に比べて計算のイテレーション回数を減らすことが可能になり、高速な判別が可能になる。

本実施形態の定型文判別装置１によれば、定型文判別部１０４により、特徴語の出現頻度を成分として持つｐ個（ｐは１以上の整数）のベクトルの集合に対して主成分分析を行い、第ｑ主成分（ｑは１以上の整数かつｐ＞ｑ）までの累積寄与率に基づいて、定型文を含むか否かが判別される。かかる構成を採れば、主成分分析を行った上で累積寄与率に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。

本実施形態の定型文判別装置１によれば、定型文判別部１０４により、タグ付けされた文書の集合全体における各特徴語の生起確率に対する、分類文書集合における各特徴語の生起確率のリフト値が予め定められた閾値以上となる特徴語の個数に基づいて、定型文を含むか否かが判別される。かかる構成を採れば、タグ付けされた文書の集合全体における各特徴語の生起確率に対する、分類文書集合における各特徴語の生起確率のリフト値が予め定められた閾値以上となる特徴語の個数に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。

本実施形態の定型文判別装置１によれば、定型文判別部１０４により、分類文書集合における各特徴語の出現頻度のヒストグラムを作成し、出現する要素の数の上位ｒ語（ｒは１以上の整数）の占める累積度数に基づいて、定型文を含むか否かが判別される。かかる構成を採れば、特徴語の出現頻度のヒストグラムを作成した上で累積度数に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。

本実施形態の定型文判別装置１によれば、定型文判別部１０４により、分類文書集合に含まれる各文書を作成した作成元アプリケーションをそれぞれ識別し、分類文書集合における文書数に対する各作成元アプリケーションにより作成された文書数の割合に基づいて、各文書が定型文を含むか否かが判別される。かかる構成を採れば、例えば、単一作成元アプリケーションの占める割合が大きい場合（例えば、９０％以上）は、特定サービスの利用に伴う文書であり、定型文を含むと判定することができ、より正確でより効率的に定型文の判別を行うことができる。なお、定型文判別部１０４により、文書が定型文を含まないと判別された場合、定型文を含まないと判別された文書の集合に対して、特徴語抽出部１０３により特徴語が抽出され、定型文判別部１０４により当該特徴語に基づいて定型文の判別が実施されてもよい。

本実施形態の定型文判別装置１によれば、クエリ入力部１０８により検索クエリが入力され、推薦タグ出力部１０９により、定型文判別部１０４によって定型文を含まないと判別された文書のうち、クエリ入力部１０８によって入力された検索クエリと関連する文書のタグが抽出され、当該タグが出力される。かかる構成を採れば、例えば、ユーザが検索クエリを入力した際、定型文を含まないと判別された文書のうち、検索クエリに関連する文書のタグを出力することができるため、ユーザは、検索クエリに関連する有用な文書のタグを取得し、当該タグを利用して有用な文書をさらに検索することができる。また、検索クエリに関連するタグとして推薦するのに適切なタグと、広告や定型文に付与されるような適切でないタグとを効率的に判別することができる。

本実施形態の定型文判別装置１によれば、代表タグ決定部１０６により、定型文判別部１０４によって定型文を含まないと判別された文書のタグのうち、任意の複数のタグの組み合わせに対して、各々のタグの出現頻度と組み合わせに含まれる全てのタグが同時に出現する頻度とに基づいて、複数のタグの共起度が算出され、共起度が予め定められた閾値以上の組み合わせに対して、組み合わせに含まれるタグのうち出現頻度の最も高いタグが代表タグとして決定される。そして、抽出したタグに共起度が予め定められた閾値以上のタグの組み合わせが含まれている場合に、推薦タグ出力部１０９により、当該組み合わせに含まれるタグのうち代表タグ決定部１０６によって決定された代表タグが出力される。かかる構成を採れば、特定の検索クエリに対して代表タグのみを出力するができ、例えば、殆ど等しい検索結果を返すタグを複数推薦することや、同一の話題に関わるタグが複数表示されることを防ぐことが可能となると共に、表示領域を節約することができる。

以上の通り、本実施形態の定型文判別装置１によれば、投稿に付与されるメタ情報を用いて効率的に、かつ高精度に、検索ユーザに推薦するべきタグと定型文等の推薦するべきでないタグとを検出することができる。また、拡散、自動投稿といったミニブログの特性を利用している為、拡散で話題になっている文書と定型文との区別をつけることができ、検索ユーザにとって有用な情報を含んでいる可能性が高い、話題となっている文書のタグを正確に抽出することができる。このため、検索ユーザは検索クエリに対する適合率を向上させ、関連する文書を効果的に閲覧することが可能となる。

１…定型文判別装置、１００…文書集合、１０１…文書分類部、１０２…文書フィルタリング部、１０３…特徴語抽出部、１０４…定型文判別部、１０５…判別結果格納部、１０６…代表タグ決定部、１０７…タグ格納部、１０８…クエリ入力部、１０９…推薦タグ出力部。

Claims

タグ付けされた文書の集合を、タグに基づいて分類する文書分類手段と、
前記文書分類手段によって分類された分類文書集合に含まれる各文書を特徴づける単語である特徴語を抽出する特徴語抽出手段と、
前記特徴語抽出手段によって抽出された特徴語に基づいて、前記分類文書集合に含まれる各文書が定型文を含むか否かを判別する定型文判別手段と、
を備える定型文判別装置。
前記分類文書集合に含まれる各文書のうち、前記分類文書集合に含まれる他の文書に同一の部分がある場合には当該部分を削除し、同一の部分がない場合には削除しないことで文書をフィルタリングする文書フィルタリング手段を更に備え、
前記特徴語抽出手段は、文書フィルタリング手段によってフィルタリングされた各文書を特徴づける単語である特徴語を抽出する、
ことを特徴とする請求項１に記載の定型文判別装置。
前記定型文判別手段は、特徴語の出現頻度に基づいて、定型文を含むか否かを判別する、
ことを特徴とする請求項１又は２に記載の定型文判別装置。
前記定型文判別手段は、特徴語の出現頻度を成分として持つｐ個（ｐは１以上の整数）のベクトルの集合に対して主成分分析を行い、第ｑ主成分（ｑは１以上の整数かつｐ＞ｑ）までの累積寄与率に基づいて、定型文を含むか否かを判別する、
ことを特徴とする請求項１〜３の何れか一項に記載の定型文判別装置。
前記定型文判別手段は、タグ付けされた文書の集合全体における各特徴語の生起確率に対する、前記分類文書集合における各特徴語の生起確率のリフト値が予め定められた閾値以上となる特徴語の個数に基づいて、定型文を含むか否かを判別する、
ことを特徴とする請求項１〜３の何れか一項に記載の定型文判別装置。
前記定型文判別手段は、前記分類文書集合における各特徴語の出現頻度のヒストグラムを作成し、出現する要素の数の上位ｒ語（ｒは１以上の整数）の占める累積度数に基づいて、定型文を含むか否かを判別する、
ことを特徴とする請求項１〜３の何れか一項に記載の定型文判別装置。
前記定型文判別手段は、前記分類文書集合に含まれる各文書を作成した作成元アプリケーションをそれぞれ識別し、前記分類文書集合における文書数に対する各作成元アプリケーションにより作成された文書数の割合に基づいて、各文書が定型文を含むか否かを判別する、
ことを特徴とする請求項１又は２に記載の定型文判別装置。
検索クエリを入力するクエリ入力手段と、
前記定型文判別手段によって定型文を含まないと判別された文書のうち、前記クエリ入力手段によって入力された検索クエリと関連する文書のタグを抽出し、当該タグを出力する推薦タグ出力手段と、
を更に備えることを特徴とする請求項１〜７の何れか一項に記載の定型文判別装置。
前記定型文判別手段によって定型文を含まないと判別された文書のタグのうち、任意の複数のタグの組み合わせに対して、各々のタグの出現頻度と組み合わせに含まれる全てのタグが同時に出現する頻度とに基づいて、前記複数のタグの共起度を算出し、共起度が予め定められた閾値以上の組み合わせに対して、組み合わせに含まれるタグのうち出現頻度の最も高いタグを代表タグとして決定する代表タグ決定手段を更に備え、
前記推薦タグ出力手段は、抽出したタグに共起度が予め定められた閾値以上のタグの組み合わせが含まれている場合に、当該組み合わせに含まれるタグのうち前記代表タグ決定手段によって決定された代表タグを出力する、
ことを特徴とする請求項８に記載の定型文判別装置。
定型文判別装置による定型文判別方法であって、
文書分類手段が、タグ付けされた文書の集合を、タグに基づいて分類する文書分類ステップと、
特徴語抽出手段が、前記文書分類ステップにおいて分類された分類文書集合に含まれる各文書を特徴づける単語である特徴語を抽出する特徴語抽出ステップと、
定型文判別手段が、前記特徴語抽出ステップにおいて抽出された特徴語に基づいて、前記分類文書集合に含まれる各文書が定型文を含むか否かを判別する定型文判別ステップと、
を含む定型文判別方法。