JP2013084216A - 定型文判別装置及び定型文判別方法 - Google Patents

定型文判別装置及び定型文判別方法 Download PDF

Info

Publication number
JP2013084216A
JP2013084216A JP2011225120A JP2011225120A JP2013084216A JP 2013084216 A JP2013084216 A JP 2013084216A JP 2011225120 A JP2011225120 A JP 2011225120A JP 2011225120 A JP2011225120 A JP 2011225120A JP 2013084216 A JP2013084216 A JP 2013084216A
Authority
JP
Japan
Prior art keywords
document
fixed sentence
tag
fixed
feature word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011225120A
Other languages
English (en)
Inventor
Yuji Mori
勇二 森
Daisuke Torii
大祐 鳥居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2011225120A priority Critical patent/JP2013084216A/ja
Publication of JP2013084216A publication Critical patent/JP2013084216A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書の集合からより効率的に定型文の判別を行うことができる定型文判別装置及び定型文判別方法を提供すること。
【解決手段】定型文判別装置1は、タグ付けされた文書の集合である文書集合100をタグに基づいて分類する文書分類部101と、文書分類部101によって分類された分類文書集合に含まれる各文書を特徴づける単語である特徴語を抽出する特徴語抽出部103と、特徴語抽出部103によって抽出された特徴語に基づいて、分類文書集合に含まれる各文書が定型文を含むか否かを判別する定型文判別部104と、を備える。さらに、定型文判別装置1は、検索クエリを入力するクエリ入力部108と、定型文判別部104によって定型文を含まないと判別された文書のうち、クエリ入力部108によって入力された検索クエリと関連する文書のタグを抽出し、当該タグを出力する推薦タグ出力部109と、を備える。
【選択図】図1

Description

本発明は、文書の集合に含まれる文書が定型文を含むか否かを判別する定型文判別装置及び定型文判別方法に関するものである。
近年、Twitter(登録商標)等、ブログの一種であるミニブログ(マイクロブログ)によるコミュニケーションが増加している。ユーザは、主に自身の状況や雑記などを短い文章で、サービスを提供しているウェブサイトへ投稿する。ミニブログ内の利用者間でコミュニケーションを取れるようにもなっている。投稿内容が短いテキストであるため、更新が容易で、結果的にほぼリアルタイムなコミュニケーションが行われることが多い。ミニブログサービスの中には、個別の投稿に対して言及する話題を特定するタグを付与することが可能なものがある。
一方、ミニブログ等のリアルタイムサービスを対象に、新規投稿を秒単位で検索対象に反映するリアルタイム検索が一般化してきている。リアルタイム検索は、特定の話題を対象にすることで世の中の動向を把握することに役立つが、投稿自体が短いことから略称または通称が使われることも多く、検索クエリに対する再現率をどのように上げるかが課題となる。
ミニブログサービスを対象としたキーワード検索の適合率を向上させる手段として、ユーザが入力した検索クエリの単語と投稿内で共起関係にあるタグを提示する手段が考えられる。タグを検索対象として検索クエリを拡張することで、検索クエリに関連する話題に関する一連の投稿を取得することが可能になる。
しかしながら、ミニブログサービスには、ユーザが直接入力したもの以外にも、アプリケーションによる自動投稿、広告、特定の単語を投稿することで商品が当たるキャンペーン等様々な投稿があり、それらに関連するタグは類似した投稿の集合という、検索ユーザの意図にそぐわない検索結果を返すことが想定される。そのため、定型文の投稿に伴うタグを判別し、検索の推薦対象から外す必要がある。
ここで、定型文の判別方法については、例えば、下記特許文献1及び2に記載されている。特許文献1では、複数ある定型文のうち類似した文同士を集めてクラスタリングし、出力する定型文クラスタリング装置が開示されている。また、特許文献2では、基準文章データと入力された文章データとの類似度を形態素解析を利用して算出し、類似度に基づいて入力された文章データを分類する文章分類プログラムが開示されている。
特開2003−85170号公報 特開2005−71229号公報
特許文献1及び2に記載の技術は、どちらも人手による文書閲覧の効率を向上させる為に、似たような単語を含む文書同士のクラスタリングを行っている。これらの技術は、電子メールのフィルタリングや、顧客問い合わせ情報の閲覧効率化等を目的としている。ミニブログサービスにおいては、Webサービスであるため、その利用の気軽さから膨大な数の投稿が日々行われていることから、全ての投稿を一つの多次元空間に射影してクラスタリングを行う従来の手法は、計算リソース及び時間の観点から現実的ではない。
そこで、本発明は、かかる課題に鑑みて為されたものであり、文書の集合からより効率的に定型文の判別を行うことができる定型文判別装置及び定型文判別方法を提供することを目的とする。
上記課題を解決するため、本発明の定型文判別装置は、タグ付けされた文書の集合を、タグに基づいて分類する文書分類手段と、文書分類手段によって分類された分類文書集合に含まれる各文書を特徴づける単語である特徴語を抽出する特徴語抽出手段と、特徴語抽出手段によって抽出された特徴語に基づいて、分類文書集合に含まれる各文書が定型文を含むか否かを判別する定型文判別手段と、を備える。
また、本発明の定型文判別方法は、定型文判別装置による定型文判別方法であって、文書分類手段が、タグ付けされた文書の集合を、タグに基づいて分類する文書分類ステップと、特徴語抽出手段が、文書分類ステップにおいて分類された分類文書集合に含まれる各文書を特徴づける単語である特徴語を抽出する特徴語抽出ステップと、定型文判別手段が、特徴語抽出ステップにおいて抽出された特徴語に基づいて、分類文書集合に含まれる各文書が定型文を含むか否かを判別する定型文判別ステップと、を含む。
このような定型文判別装置及び定型文判別方法によれば、タグ付けされた文書の集合が、タグに基づいて分類され、分類された分類文書集合に含まれる各文書の特徴語が抽出される。そして、抽出された特徴語に基づいて、分類文書集合に含まれる各文書が定型文を含むか否かが判別される。かかる構成を採れば、タグに基づいて分類された分類文書集合に対して特徴語に基づいた定型文の判別を行うため、例えば、膨大な数の文書集合に対して定型文の判別を行う場合に比べて、処理コストを大幅に削減し、より効率的に定型文の判別を行うことができる。
また、本発明の定型文判別装置は、分類文書集合に含まれる各文書のうち、分類文書集合に含まれる他の文書に同一の部分がある場合には当該部分を削除し、同一の部分がない場合には削除しないことで文書をフィルタリングする文書フィルタリング手段を更に備え、特徴語抽出手段は、文書フィルタリング手段によってフィルタリングされた各文書を特徴づける単語である特徴語を抽出する、ことが好ましい。ここで、ミニブログサービス特有の仕組みとして、他者の投稿を気に入ったユーザが、自身の知り合いに当該投稿を引用した上で投稿を行う拡散といった仕組みがある。一般的に、拡散を含む文書は、検索ユーザにとって有用である。かかる構成を採れば、例えば、拡散による文書のうち引用した部分が削除されるため、拡散回数の多い投稿を含む文書集合を解析した時に、被拡散投稿内の単語が多重カウントされて不当に定型文を含むと判別されることを防ぐことができ、より正確な定型文の判別を行うことができる。
また、本発明の定型文判別装置は、定型文判別手段は、特徴語の出現頻度に基づいて、定型文を含むか否かを判別する、ことが好ましい。かかる構成を採れば、特徴語の出現頻度に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。また、タグに基づいて分類された分類文書集合全体の統計処理を行うことで、従来の階層的クラスターを用いる手法に比べて計算のイテレーション回数を減らすことが可能になり、高速な判別が可能になる。
また、本発明の定型文判別装置は、定型文判別手段は、特徴語の出現頻度を成分として持つp個(pは1以上の整数)のベクトルの集合に対して主成分分析を行い、第q主成分(qは1以上の整数かつp>q)までの累積寄与率に基づいて、定型文を含むか否かを判別する、ことが好ましい。かかる構成を採れば、主成分分析を行った上で累積寄与率に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。
また、本発明の定型文判別装置は、定型文判別手段は、タグ付けされた文書の集合全体における各特徴語の生起確率に対する、分類文書集合における各特徴語の生起確率のリフト値が予め定められた閾値以上となる特徴語の個数に基づいて、定型文を含むか否かを判別する、ことが好ましい。かかる構成を採れば、タグ付けされた文書の集合全体における各特徴語の生起確率に対する、分類文書集合における各特徴語の生起確率のリフト値が予め定められた閾値以上となる特徴語の個数に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。
また、本発明の定型文判別装置は、定型文判別手段は、分類文書集合における各特徴語の出現頻度のヒストグラムを作成し、出現する要素の数の上位r語(rは1以上の整数)の占める累積度数に基づいて、定型文を含むか否かを判別する、ことが好ましい。かかる構成を採れば、特徴語の出現頻度のヒストグラムを作成した上で累積度数に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。
また、本発明の定型文判別装置は、定型文判別手段は、分類文書集合に含まれる各文書を作成した作成元アプリケーションをそれぞれ識別し、分類文書集合における文書数に対する各作成元アプリケーションにより作成された文書数の割合に基づいて、各文書が定型文を含むか否かを判別する、ことが好ましい。かかる構成を採れば、例えば、単一作成元アプリケーションの占める割合が大きい場合は、特定サービスの利用に伴う文書であり、定型文を含むと判定することができ、より正確でより効率的に定型文の判別を行うことができる。
また、本発明の定型文判別装置は、検索クエリを入力するクエリ入力手段と、定型文判別手段によって定型文を含まないと判別された文書のうち、クエリ入力手段によって入力された検索クエリと関連する文書のタグを抽出し、当該タグを出力する推薦タグ出力手段と、を備えることが好ましい。かかる構成を採れば、例えば、ユーザが検索クエリを入力した際、定型文を含まないと判別された文書のうち、検索クエリに関連する文書のタグを出力することができるため、ユーザは、検索クエリに関連する有用な文書のタグを取得し、当該タグを利用して有用な文書をさらに検索することができる。
また、本発明の定型文判別装置は、定型文判別手段によって定型文を含まないと判別された文書のタグのうち、任意の複数のタグの組み合わせに対して、各々のタグの出現頻度と組み合わせに含まれる全てのタグが同時に出現する頻度とに基づいて、複数のタグの共起度を算出し、共起度が予め定められた閾値以上の組み合わせに対して、組み合わせに含まれるタグのうち出現頻度の最も高いタグを代表タグとして決定する代表タグ決定手段を更に備え、推薦タグ出力手段は、抽出したタグに共起度が予め定められた閾値以上のタグの組み合わせが含まれている場合に、当該組み合わせに含まれるタグのうち代表タグ決定手段によって決定された代表タグを出力する、ことが好ましい。一般的に、ある検索クエリの検索結果としてタグを推薦する場合、共起度の高いタグはどちらも似たような検索結果を返すことになるため、組み合わせて推薦することはユーザビリティの観点から不適切と言える。かかる構成を採れば、特定の検索クエリに対して代表タグのみを出力するができ、例えば、殆ど等しい検索結果を返すタグを複数推薦することや、同一の話題に関わるタグが複数表示されることを防ぐことが可能となると共に、表示領域を節約することができる。
本発明によれば、タグ付けされた文書の集合からより効率的に定型文の判別を行うことができる。
本発明の実施形態に係る定型文判別装置の構成を示す機能ブロック図である。 本発明の実施形態に係る定型文判別装置のハードウェア構成を示す図である。 本発明の実施形態における文書の例を示す図である。 本発明の実施形態における形態素解析の結果の例を示す図である。 本発明の実施形態における複数のタグの出現頻度の例を示す図である。 本発明の実施形態におけるタグ格納部のテーブルの例を示す図である。 本発明の実施形態に係る定型文判別装置で実行される定型文判別方法の全体の処理を示すシーケンス図である。 本発明の実施形態に係る定型文判別装置で実行される定型文判別方法の処理のうち、定型文の判別の処理を示すシーケンス図である。
以下、図面とともに本発明による視聴率推定装置及び視聴率推定方法の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1は、定型文判別装置1の構成を示す機能ブロック図である。図1に示す通り、定型文判別装置1は、文書分類部101(文書分類手段)、文書フィルタリング部102(文書フィルタリング手段)、特徴語抽出部103(特徴語抽出手段)、定型文判別部104(定型文判別手段)、判別結果格納部105(判別結果格納手段)、代表タグ決定部106(代表タグ決定手段)、タグ格納部107(タグ格納手段)、クエリ入力部108(クエリ入力手段)、及び推薦タグ出力部109(推薦タグ出力手段)を含んで構成される。
定型文判別装置1は、CPU等のハードウェアから構成されているものである。図2は、定型文判別装置1のハードウェア構成図である。図1に示される定型文判別装置1は、物理的には、図2に示すように、CPU200、主記憶装置であるRAM201及びROM202、キーボードやディスプレイなどの入出力装置203、通信モジュール204、及び補助記憶装置205などを含むコンピュータシステムとして構成されている。
図1に示す定型文判別装置1の各機能ブロックの機能は、図2に示すCPU200、RAM201等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU200の制御のもとで入出力装置203、通信モジュール204、及び補助記憶装置205を動作させるとともに、RAM201におけるデータの読み出し及び書き込みを行うことで実現される。
以下、図1に示す定型文判別装置1の機能ブロックに基づいて、定型文判別装置1の各機能ブロックを説明する。
文書分類部101は、タグ付けされた文書の集合である文書集合100を、タグに基づいて分類する。なお、以下の実施形態では、タグ付けされた文書の具体例として、ミニブログにおける投稿内容(以下、文書とも呼ぶ)を取り上げる。図3(a)は、タグ付けされた文書の例を示す図である。図3(a)に示す例では、文書に対するタグは「#」から始まり、スペースで区切られた文字列としているが、文書に対するタグの与え方はこの方法に限らない。また、タグと文書は1対1の対応ではなく、同一の文書に対して複数のタグが付与されていてもよい。図3(a)に示す例では、「台風15号の影響により、現在○○線に20分程度の遅延が発生していますが、運行停止の予定はない見込みです。」という文書に対して「台風」及び「運行情報」という2つのタグが付与されている。
文書分類部101は、文書集合100をタグに基づいて分類する際に、具体的には、同一のタグを付与された文書毎に分類する。文書分類部101は、タグが一つも付与されていない文書についてはこの段階で分析対象から削除する。つまり、定型文判別装置1は、個別のタグ毎に、所属する文書数がn(nは1以上の任意の整数)以上のタグを持つ文書の集合を分析対象とする。図3(c)は、文書分類部101による図3(a)の文書の分類結果の例を示す図である。
文書フィルタリング部102は、分類文書集合に含まれる各文書のうち、分類文書集合に含まれる他の文書に同一の部分がある場合には当該部分を削除し、同一の部分がない場合には削除しないことで文書をフィルタリングする。
ここで文書フィルタリング部102がフィルタリングを行う主な目的は、例えば、拡散に相当するテキストを取り除くことである。拡散とは、ミニブログにおいて、他者の投稿を再度投稿することで、ユーザ自身の友人に広げる行為であり、ユーザ自身の編集を伴わない純粋な拡散と、ユーザ自身のコメントを追記して再度投稿を行う引用に大きく分類される。図3(b)は、引用の文書の例を示す図である。ここでは、「RT」という文字列以降が引用元の文書である図3(a)に示す文書となるが、拡散、引用の表現はこの方法に限らない。文書フィルタリング部102は、図3(b)に示す文書のうち、「RT」という文字列以降の部分が図3(a)に示す文書と同一のため、図3(b)に示す文書のうち、「RT」という文字列以降の部分を削除する。その結果、図3(b)に示す文書は「RT」という文字列以前のみの部分が採用される。つまり、図3(b)に示す文書の引用元の文書である図3(a)に示す文書は「台風」及び「運行情報」の2つのタグに属するが、文書フィルタリング部102のフィルタリングにより、図3(c)に示す文書自体は当該2つのタグには属さなくなる。
拡散はミニブログにおいて頻繁に見られる現象であるが、被拡散投稿と拡散投稿を多重にカウントすると、登場する単語が同一であるため後述の処理で拡散を含むタグが定型文として判別されてしまう可能性がある。拡散を含む文書は、検索ユーザにとって有用であるといえるため、この段階で分析対象から外すことで、定型文を含むとして判別され、推薦対象から外れてしまうことを防止する。
文書フィルタリング部102は、更に、文書分類部101によって分類された分類文書集合に含まれる各文書について、URLや記号といった文書を特徴づける文字列でないものを削除する。また、文書フィルタリング部102は、全角、半角といった文字単位の正規化についても実施する。
特徴語抽出部103は、文書分類部101によって分類された分類文書集合に含まれる各文書を特徴づける単語である特徴語を抽出する。また、特徴語抽出部103は、文書フィルタリング部102によってフィルタリングされた各文書を特徴づける単語である特徴語を抽出してもよい。特徴語抽出部103による特徴語の抽出方法は、本実施形態では形態素解析とするが、予め準備しておいたコーパスをベースとした文字列探索でもよい。特徴語抽出部103による形態素解析によって、各文書は単語単位に分かち書きされ、各単語には品詞情報が付与される。図4は、図3(a)に示す文書に対する、特徴語抽出部103による形態素解析の結果の例を示す図である。特徴語抽出部103は、形態素解析を行った段階で、記号や助詞といった文書の特徴と関連の低い単語を取り除いてもよい。
定型文判別部104は、特徴語抽出部103によって抽出された特徴語に基づいて、分類文書集合に含まれる各文書が定型文を含むか否かを判別する。定型文判別部104は、具体的には、特徴語抽出部103によって抽出された特徴語の統計情報から、分類文書集合に含まれる各文書が定型文を含むか否かを判別し、判別結果を判別結果格納部105に格納する。ここで、統計情報とは、例えば単語の出現頻度分布、ユニークな出現単語の数、それらに基づいた統計解析が挙げられる。
例えば、定型文判別部104は、特徴語の出現頻度に基づいて、あるいは特徴語の出現頻度の偏りに基づいて、定型文を含むか否かを判別する。また、例えば、定型文判別部104は、特徴語の出現頻度を成分として持つp個(pは1以上の整数)のベクトルの集合に対して主成分分析を行い、第q主成分(qは1以上の整数かつp>q)までの累積寄与率に基づいて、定型文を含むか否かを判別する。また、例えば、定型文判別部104は、文書集合100全体における各特徴語の生起確率に対する、分類文書集合における各特徴語の生起確率のリフト値が予め定められた閾値以上となる特徴語の個数に基づいて、定型文を含むか否かを判別する。また、例えば、定型文判別部104は、分類文書集合における各特徴語の出現頻度のヒストグラムを作成し、出現する要素の数の上位r語(rは1以上の整数)の占める累積度数に基づいて、定型文を含むか否かを判別する。定型文判別部104による主成分分析を利用して特徴語集合の次元数を削減した上で定型文の判別を行う方法については、図8を用いて後述する。
定型文判別部104は、分類文書集合に含まれる各文書を作成した作成元アプリケーションをそれぞれ識別し、分類文書集合における文書数に対する各作成元アプリケーションにより作成された文書数の割合に基づいて、各文書が定型文を含むか否かを判別してもよい。作成元アプリケーションとは、文書を投稿するために使用したアプリケーションを指す。作成元アプリケーションは携帯端末上で動作するアプリケーションだけでなく、デスクトップ型、ラップトップ型、タブレット型を始めとするPC(Personal Computer)、ブラウザ上で動作するWebアプリケーションも含む。定型文判別部104は、まず、分類文書集合内の各文書の投稿に使用された作成元アプリケーションを識別し、最も出現頻度の高い作成元アプリケーションの全体の出現頻度に対して占める割合を算出する。ミニブログにおいては、文書の投稿、削除、その他の操作を行うためにAPI(Application Programming Interface)を公開している場合が多い。また、ミニブログによっては、APIによる文書の投稿を行う際にAPIを利用するアプリケーション名を付加情報として付与できる場合がある。APIを利用した、ミニブログと連動したサービスは種々存在する。こうしたサービスによる投稿は常に同一の作成元アプリケーションから同一のタグを付与されて行われることが多いため、同一タグを付与された分類文書集合のうち、単一作成元アプリケーションの占める割合を調べることでこういった類の投稿を判別することが可能となる。定型文判別部104は、分類文書集合内において、単一の作成元アプリケーションからの投稿の割合が一定以上(例えば、90%以上)となる場合は、当該タグは特定サービスの利用に伴う投稿と判断し、定型文を含むと判別する。
判別結果格納部105は、定型文判別部104による判別結果を格納する。判別結果格納部105は、具体的には、定型文判別部104によって定型文を含むと判別された文書及びそのタグを格納する。
代表タグ決定部106は、定型文判別部104によって定型文を含まないと判別された文書のタグのうち、任意の複数のタグの組み合わせに対して、各々のタグの出現頻度と組み合わせに含まれる全てのタグが同時に出現する頻度とに基づいて、複数のタグの共起度を算出し、共起度が予め定められた閾値以上の組み合わせに対して、組み合わせに含まれるタグのうち出現頻度の最も高いタグを代表タグとして決定する。
以下、2つのタグt1及びt2の組み合わせに対する共起度の算出方法について説明する。図5は、t1及びt2の出現頻度の関係を示した図である。図5に示すように、t1及びt2の出現頻度がそれぞれa及びbであり、2つのタグが同時に出現する頻度がcである。この場合、t1及びt2の共起度は以下の式(1)によって示される。
Figure 2013084216
代表タグ決定部106は、共起度が予め定められた閾値以上の組み合わせに対して、組み合わせに含まれるタグのうち出現頻度の最も高いタグを代表タグとして決定すると共に、代表タグ以外のタグを対象タグとして決定し、決定した代表タグ及び対象タグをタグ格納部107に格納してもよい。図6は、タグ格納部107に格納された代表タグ及び対象タグの例を示す図である。
なお、代表タグ決定部106は、共起度として他の指標を用いてもよい。例えば、代表タグ決定部106は、タグ同士が同一文書に出現する回数である共起回数、もしくは、共起回数と各々の出現頻度から算出される既知の指標であるConfidence係数、Support係数、Lift係数、及びdice係数等を用いてもよい。
クエリ入力部108は、検索クエリを入力する。クエリ入力部108は、ユーザから検索クエリを入力してもよいし、他の装置等から検索クエリを入力してもよい。
推薦タグ出力部109は、定型文判別部104によって定型文を含まないと判別された文書のうち、クエリ入力部108によって入力された検索クエリと関連する文書のタグを抽出し、当該タグを出力する。また、推薦タグ出力部109は、抽出したタグに共起度が予め定められた閾値以上のタグの組み合わせが含まれている場合に、当該組み合わせに含まれるタグのうち代表タグ決定部106によって決定された代表タグを出力する。
次に、図7及び8を用いて、本実施形態の定型文判別装置1による定型文判別方法の処理について説明する。図7は、定型文判別方法の全体の処理を示すシーケンス図であり、図8は、定型文判別方法の処理のうち、定型文の判別の処理を示すシーケンス図である。
最初に、図7のフローチャートについて説明する。まず、文書分類部101により、文書集合100がタグ毎に分類される(ステップS11、文書分類ステップ)。続くステップS12以降は、ある単一のタグを付与された分類文書集合に対する処理フローを示しているが、実際には与えられた文書集合100に出現する全てのユニークなタグについて同一の処理が行われる。次に、文書分類部101により、分類文書集合に含まれる文書について、個別のタグ毎に、所属する文書数がn(nは1以上の任意の整数)以上であるか否かが判定される(ステップS12)。ステップS12において、所属する文書数がn未満の場合、処理を終了する。ステップS12において、所属する文書数がn以上の場合、文書フィルタリング部102により、分類文書集合に含まれる文書についてフィルタリングが行われる(ステップS13)。具体的には、文書フィルタリング部102により、拡散に相当する部分が除去される。
次に、特徴語抽出部103により、分類文書集合に含まれる文書を特徴づける単語である特徴語が抽出される(ステップS14、特徴語抽出ステップ)。具体的には、特徴語抽出部103により、形態素解析が行われ、必要の無い品詞等が除去される。次に、定型文判別部104により、ステップS14において抽出された特徴語に基づいて、分類文書集合に含まれる文書が定型文を含むか否かが判別される(ステップS15、定型文判別ステップ)。ステップS15の詳細な処理は、後述する。次に、代表タグ決定部106により、共起度が予め定められた閾値以上のタグの組み合わせに対して、組み合わせに含まれるタグのうち出現頻度の最も高いタグが代表タグとして決定される(ステップS16)。
続いて、図8のフローチャートについて説明する。図7のステップS14に続いて、定型文判別部104により、分類文書集合に含まれる文書の投稿に使用されたクライアント情報、具体的には作成元アプリケーションの情報を取得する(ステップS21)。次に、定型文判別部104により、ステップS21で取得した作成元アプリケーションの情報に基づいて、最も出現頻度の高い作成元アプリケーションの全体の出現頻度に対して占める割合が算出され、占める割合が予め定められた閾値以上であるか否かが判定される(ステップS22)。ステップS22において、占める割合が予め定められた閾値以上であると判定された場合、定型文判別部104により、当該文書は定型文を含むと判別され、判定結果がTrueとされ(ステップS26)、判別が終了し、図7のステップS16に処理が移る。一方、ステップS22において、占める割合が予め定められた閾値未満であると判定された場合、定型文判別部104により、分類文書集合に含まれる文書に対して主成分分析が行われる(ステップS23)。
ここで、ステップS23で行われる主成分分析について説明する。分類文書集合に出現するユニークな単語の数をNとすると、文書は各単語の出現頻度を要素として持つ、N次元のベクトルとして表現することが可能となる。ここで、各文書はBag of Words(単語の集合)として扱われ、文書内における単語の出現順序は考慮されない。ここでは、ステップS14において抽出された特徴語を要素として持つベクトルが生成される。主成分分析とは、複数の変数間の共分散(相関)を少数の合成変数で説明する手法で、相関性の高い、つまり同時に出現する頻度の多い単語は一つの合成変数に集約され、合成変数を主成分と呼ぶ。
主成分分析によって、N次元ベクトルxはM個の主成分zにより、式(2)の関係で表現される。
Figure 2013084216

ここで、zを第m主成分と呼ぶ。主成分は第一主成分から次元数を削減することによる情報量の損失を最小限に抑えながら順に選ばれる。つまり、mが小さい程zはxに関する情報を多く含む。ここで、zが含む情報量とはzの分散であり、xの共分散行列Vの固有値問題の解として求められる。Vの固有値の総和に占める、zの固有値の占める割合を寄与率といい、全体の情報量に対してどれくらいの情報量を含むかを示す。zの寄与率Cは、式(3)により与えられる。
Figure 2013084216

また、第一主成分から第m主成分までの寄与率の総和を累積寄与率と言う。ここで、λはVの固有値のうち、m番目に大きいものを示す。累積寄与率が一定以上の値を超えた時点で、元のベクトル集合、つまり文書をm個の変数で表現できているとみなすことが出来る。主成分は式(2)に表現される通り、元のベクトルxの成分の線形結合であるが、文書を取り扱う場合は、複数の特徴語の組み合わせとなる。また、その際強く結合される特徴語の組み合わせは相関度、つまり同一の文書に出現するかどうかといった傾向により決定される。つまり、少数の主成分による累積寄与率が高いということは、当該文書集合は特定の文字の組み合わせにより表現される、つまり定型文を含む文書の集合であると判別することができる。
次に、定型文判別部104により、少数の主成分、例えば第二主成分までの累積寄与率が予め定められた閾値、例えば90%以上であるか否かが判定される(ステップS24)。ステップS24において、累積寄与率が予め定められた閾値以上であると判定された場合は、定型文判別部104により、当該文書は定型文を含むと判別され、ステップS26に移る。一方、ステップS24において、累積寄与率が予め定められた閾値未満であると判定された場合は、定型文判別部104により、当該文書は定型文を含まないと判別され、判定結果がFalseとされ(ステップS25)、判別が終了する。
なお、図8の説明で挙げた値は一例であり、他のいかなる値を取ることも可能である。文書集合を説明するべき主成分数を2、3程度の少ない値とした場合、文書集合に出現するパターンが少数、つまり複数の定型文パターンを含まないことを前提としている。つまり、文書集合から複数の定型文パターンを抽出することができない。しかしながら、与えられた文書集合が定型文を含むかどうかという2値の判断を行うことにおいては従来のクラスタリングをベースにした方法に対して高速に実施することが可能となる。本実施形態の対象とするミニブログにおいては、常時大量の投稿が行われているため、全文書を対象にしたクラスタリングを行うことは現実的に不可能である。また、解析をタグ単位で行うことで一度処理を行ったタグに対しては再度判定処理を行うことが不要となり、更なる処理負荷の軽減が見込まれる。
次に、このように構成された定型文判別装置1の作用効果について説明する。
本実施形態の定型文判別装置1によれば、文書分類部101により、タグ付けされた文書の集合が、タグに基づいて分類され、特徴語抽出部103により、分類された分類文書集合に含まれる各文書の特徴語が抽出される。そして、定型文判別部104により、抽出された特徴語に基づいて、分類文書集合に含まれる各文書が定型文を含むか否かが判別される。かかる構成を採れば、タグに基づいて分類された分類文書集合に対して特徴語に基づいた定型文の判別を行うため、例えば、膨大な数の文書集合に対して定型文の判別を行う場合に比べて、処理コストを大幅に削減し、より効率的に定型文の判別を行うことができる。
本実施形態の定型文判別装置1によれば、文書フィルタリング部102により、分類文書集合に含まれる各文書のうち、分類文書集合に含まれる他の文書に同一の部分がある場合には当該部分を削除し、同一の部分がない場合には削除しないことで文書がフィルタリングされる。そして、特徴語抽出部103により、文書フィルタリング部102によってフィルタリングされた各文書を特徴づける単語である特徴語が抽出される。かかる構成を採れば、例えば、拡散による文書のうち引用した部分が削除されるため、拡散回数の多い投稿を含む文書集合を解析した時に、被拡散投稿内の単語が多重カウントされて不当に定型文を含むと判別されることを防ぐことができ、より正確な定型文の判別を行うことができる。
本実施形態の定型文判別装置1によれば、定型文判別部104により、特徴語の出現頻度に基づいて、定型文を含むか否かが判別される。かかる構成を採れば、特徴語の出現頻度に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。また、タグに基づいて分類された分類文書集合全体の統計処理を行うことで、従来の階層的クラスターを用いる手法に比べて計算のイテレーション回数を減らすことが可能になり、高速な判別が可能になる。
本実施形態の定型文判別装置1によれば、定型文判別部104により、特徴語の出現頻度を成分として持つp個(pは1以上の整数)のベクトルの集合に対して主成分分析を行い、第q主成分(qは1以上の整数かつp>q)までの累積寄与率に基づいて、定型文を含むか否かが判別される。かかる構成を採れば、主成分分析を行った上で累積寄与率に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。
本実施形態の定型文判別装置1によれば、定型文判別部104により、タグ付けされた文書の集合全体における各特徴語の生起確率に対する、分類文書集合における各特徴語の生起確率のリフト値が予め定められた閾値以上となる特徴語の個数に基づいて、定型文を含むか否かが判別される。かかる構成を採れば、タグ付けされた文書の集合全体における各特徴語の生起確率に対する、分類文書集合における各特徴語の生起確率のリフト値が予め定められた閾値以上となる特徴語の個数に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。
本実施形態の定型文判別装置1によれば、定型文判別部104により、分類文書集合における各特徴語の出現頻度のヒストグラムを作成し、出現する要素の数の上位r語(rは1以上の整数)の占める累積度数に基づいて、定型文を含むか否かが判別される。かかる構成を採れば、特徴語の出現頻度のヒストグラムを作成した上で累積度数に基づいて定型文の判別が行われるため、より正確でより効率的に定型文の判別を行うことができる。
本実施形態の定型文判別装置1によれば、定型文判別部104により、分類文書集合に含まれる各文書を作成した作成元アプリケーションをそれぞれ識別し、分類文書集合における文書数に対する各作成元アプリケーションにより作成された文書数の割合に基づいて、各文書が定型文を含むか否かが判別される。かかる構成を採れば、例えば、単一作成元アプリケーションの占める割合が大きい場合(例えば、90%以上)は、特定サービスの利用に伴う文書であり、定型文を含むと判定することができ、より正確でより効率的に定型文の判別を行うことができる。なお、定型文判別部104により、文書が定型文を含まないと判別された場合、定型文を含まないと判別された文書の集合に対して、特徴語抽出部103により特徴語が抽出され、定型文判別部104により当該特徴語に基づいて定型文の判別が実施されてもよい。
本実施形態の定型文判別装置1によれば、クエリ入力部108により検索クエリが入力され、推薦タグ出力部109により、定型文判別部104によって定型文を含まないと判別された文書のうち、クエリ入力部108によって入力された検索クエリと関連する文書のタグが抽出され、当該タグが出力される。かかる構成を採れば、例えば、ユーザが検索クエリを入力した際、定型文を含まないと判別された文書のうち、検索クエリに関連する文書のタグを出力することができるため、ユーザは、検索クエリに関連する有用な文書のタグを取得し、当該タグを利用して有用な文書をさらに検索することができる。また、検索クエリに関連するタグとして推薦するのに適切なタグと、広告や定型文に付与されるような適切でないタグとを効率的に判別することができる。
本実施形態の定型文判別装置1によれば、代表タグ決定部106により、定型文判別部104によって定型文を含まないと判別された文書のタグのうち、任意の複数のタグの組み合わせに対して、各々のタグの出現頻度と組み合わせに含まれる全てのタグが同時に出現する頻度とに基づいて、複数のタグの共起度が算出され、共起度が予め定められた閾値以上の組み合わせに対して、組み合わせに含まれるタグのうち出現頻度の最も高いタグが代表タグとして決定される。そして、抽出したタグに共起度が予め定められた閾値以上のタグの組み合わせが含まれている場合に、推薦タグ出力部109により、当該組み合わせに含まれるタグのうち代表タグ決定部106によって決定された代表タグが出力される。かかる構成を採れば、特定の検索クエリに対して代表タグのみを出力するができ、例えば、殆ど等しい検索結果を返すタグを複数推薦することや、同一の話題に関わるタグが複数表示されることを防ぐことが可能となると共に、表示領域を節約することができる。
以上の通り、本実施形態の定型文判別装置1によれば、投稿に付与されるメタ情報を用いて効率的に、かつ高精度に、検索ユーザに推薦するべきタグと定型文等の推薦するべきでないタグとを検出することができる。また、拡散、自動投稿といったミニブログの特性を利用している為、拡散で話題になっている文書と定型文との区別をつけることができ、検索ユーザにとって有用な情報を含んでいる可能性が高い、話題となっている文書のタグを正確に抽出することができる。このため、検索ユーザは検索クエリに対する適合率を向上させ、関連する文書を効果的に閲覧することが可能となる。
1…定型文判別装置、100…文書集合、101…文書分類部、102…文書フィルタリング部、103…特徴語抽出部、104…定型文判別部、105…判別結果格納部、106…代表タグ決定部、107…タグ格納部、108…クエリ入力部、109…推薦タグ出力部。

Claims (10)

  1. タグ付けされた文書の集合を、タグに基づいて分類する文書分類手段と、
    前記文書分類手段によって分類された分類文書集合に含まれる各文書を特徴づける単語である特徴語を抽出する特徴語抽出手段と、
    前記特徴語抽出手段によって抽出された特徴語に基づいて、前記分類文書集合に含まれる各文書が定型文を含むか否かを判別する定型文判別手段と、
    を備える定型文判別装置。
  2. 前記分類文書集合に含まれる各文書のうち、前記分類文書集合に含まれる他の文書に同一の部分がある場合には当該部分を削除し、同一の部分がない場合には削除しないことで文書をフィルタリングする文書フィルタリング手段を更に備え、
    前記特徴語抽出手段は、文書フィルタリング手段によってフィルタリングされた各文書を特徴づける単語である特徴語を抽出する、
    ことを特徴とする請求項1に記載の定型文判別装置。
  3. 前記定型文判別手段は、特徴語の出現頻度に基づいて、定型文を含むか否かを判別する、
    ことを特徴とする請求項1又は2に記載の定型文判別装置。
  4. 前記定型文判別手段は、特徴語の出現頻度を成分として持つp個(pは1以上の整数)のベクトルの集合に対して主成分分析を行い、第q主成分(qは1以上の整数かつp>q)までの累積寄与率に基づいて、定型文を含むか否かを判別する、
    ことを特徴とする請求項1〜3の何れか一項に記載の定型文判別装置。
  5. 前記定型文判別手段は、タグ付けされた文書の集合全体における各特徴語の生起確率に対する、前記分類文書集合における各特徴語の生起確率のリフト値が予め定められた閾値以上となる特徴語の個数に基づいて、定型文を含むか否かを判別する、
    ことを特徴とする請求項1〜3の何れか一項に記載の定型文判別装置。
  6. 前記定型文判別手段は、前記分類文書集合における各特徴語の出現頻度のヒストグラムを作成し、出現する要素の数の上位r語(rは1以上の整数)の占める累積度数に基づいて、定型文を含むか否かを判別する、
    ことを特徴とする請求項1〜3の何れか一項に記載の定型文判別装置。
  7. 前記定型文判別手段は、前記分類文書集合に含まれる各文書を作成した作成元アプリケーションをそれぞれ識別し、前記分類文書集合における文書数に対する各作成元アプリケーションにより作成された文書数の割合に基づいて、各文書が定型文を含むか否かを判別する、
    ことを特徴とする請求項1又は2に記載の定型文判別装置。
  8. 検索クエリを入力するクエリ入力手段と、
    前記定型文判別手段によって定型文を含まないと判別された文書のうち、前記クエリ入力手段によって入力された検索クエリと関連する文書のタグを抽出し、当該タグを出力する推薦タグ出力手段と、
    を更に備えることを特徴とする請求項1〜7の何れか一項に記載の定型文判別装置。
  9. 前記定型文判別手段によって定型文を含まないと判別された文書のタグのうち、任意の複数のタグの組み合わせに対して、各々のタグの出現頻度と組み合わせに含まれる全てのタグが同時に出現する頻度とに基づいて、前記複数のタグの共起度を算出し、共起度が予め定められた閾値以上の組み合わせに対して、組み合わせに含まれるタグのうち出現頻度の最も高いタグを代表タグとして決定する代表タグ決定手段を更に備え、
    前記推薦タグ出力手段は、抽出したタグに共起度が予め定められた閾値以上のタグの組み合わせが含まれている場合に、当該組み合わせに含まれるタグのうち前記代表タグ決定手段によって決定された代表タグを出力する、
    ことを特徴とする請求項8に記載の定型文判別装置。
  10. 定型文判別装置による定型文判別方法であって、
    文書分類手段が、タグ付けされた文書の集合を、タグに基づいて分類する文書分類ステップと、
    特徴語抽出手段が、前記文書分類ステップにおいて分類された分類文書集合に含まれる各文書を特徴づける単語である特徴語を抽出する特徴語抽出ステップと、
    定型文判別手段が、前記特徴語抽出ステップにおいて抽出された特徴語に基づいて、前記分類文書集合に含まれる各文書が定型文を含むか否かを判別する定型文判別ステップと、
    を含む定型文判別方法。
JP2011225120A 2011-10-12 2011-10-12 定型文判別装置及び定型文判別方法 Pending JP2013084216A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011225120A JP2013084216A (ja) 2011-10-12 2011-10-12 定型文判別装置及び定型文判別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011225120A JP2013084216A (ja) 2011-10-12 2011-10-12 定型文判別装置及び定型文判別方法

Publications (1)

Publication Number Publication Date
JP2013084216A true JP2013084216A (ja) 2013-05-09

Family

ID=48529325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011225120A Pending JP2013084216A (ja) 2011-10-12 2011-10-12 定型文判別装置及び定型文判別方法

Country Status (1)

Country Link
JP (1) JP2013084216A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915388A (zh) * 2015-03-11 2015-09-16 浙江大学 一种基于谱聚类和众包技术的图书标签推荐方法
JP2018185601A (ja) * 2017-04-25 2018-11-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915388A (zh) * 2015-03-11 2015-09-16 浙江大学 一种基于谱聚类和众包技术的图书标签推荐方法
CN104915388B (zh) * 2015-03-11 2018-03-16 浙江大学 一种基于谱聚类和众包技术的图书标签推荐方法
JP2018185601A (ja) * 2017-04-25 2018-11-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP7027696B2 (ja) 2017-04-25 2022-03-02 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
US7461056B2 (en) Text mining apparatus and associated methods
Kestemont et al. Cross-genre authorship verification using unmasking
Iqbal et al. Mining writeprints from anonymous e-mails for forensic investigation
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
Shouzhong et al. Mining microblog user interests based on TextRank with TF-IDF factor
KR20150036117A (ko) 쿼리 확장
JP5391632B2 (ja) ワードと文書の深さの決定
JP2009093649A (ja) オントロジー空間を規定するタームの推奨
JP2009093653A (ja) ユーザ入力に応じた検索空間の絞り込み
JP2009093654A (ja) 文書の具体性の決定
CN107885717B (zh) 一种关键词提取方法及装置
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
CN109815401A (zh) 一种应用于Web人物搜索的人名消歧方法
Bohne et al. Efficient keyword extraction for meaningful document perception
KR20160002199A (ko) 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템
CN107665442B (zh) 获取目标用户的方法及装置
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
Morgan et al. A generic open world named entity disambiguation approach for tweets
JP2013084216A (ja) 定型文判別装置及び定型文判別方法
Moumtzidou et al. Discovery of environmental nodes in the web
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
TWI534640B (zh) Chinese network information monitoring and analysis system and its method