JP2012243129A

JP2012243129A - 話題語獲得装置、方法、及びプログラム

Info

Publication number: JP2012243129A
Application number: JP2011113487A
Authority: JP
Inventors: Nobuaki Hiroshima; 伸章廣嶋; Katsuto Bessho; 克人別所; Yoshimasa Koike; 義昌小池; Ryoji Kataoka; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-05-20
Filing date: 2011-05-20
Publication date: 2012-12-10
Anticipated expiration: 2031-05-20
Also published as: JP5491446B2

Abstract

【課題】日時及び場所の少なくとも一方で表される特定情報に関連するか否かを重要視した話題語を獲得する。
【解決手段】文書取得部１２で、入力されたキーワード及び日時に関連する文書を文書インデックス２０から検索して取得し、話題語候補抽出部１４で、検索結果の文書を字句で分割し、各字句を先頭とし、かつ文書の最後尾を末尾とする分割成分を生成し、生成された分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数に基づいて話題語候補を抽出する。日時関連話題語獲得部１６で、文書インデックス２０を検索して、話題語候補及び日時の両方を含む文書の数、話題語候補のみを含む文書の数、日時のみを含む文書の数、話題語候補及び日時の両方を含まない文書の数を求め、これらを用いて算出されたカイ２乗値が閾値以上となる話題語候補を、日時との関連度が高い話題語として獲得する。
【選択図】図１

Description

本発明は、話題語獲得装置、方法、及びプログラムに係り、特に、キーワードと日時及び場所の少なくとも一方を表す特定情報とに基づいて検索された文書の把握を支援するための話題語を獲得する話題語獲得装置、方法、及びプログラムに関する。

現在、入力されたキーワードに関連する文書を検索する文書検索システムが数多く存在する。このような文書検索システムにおいて、通常のキーワードに加えて特定の日時や場所を入力として文書を検索したい場合がある。例えば、２０ＸＸ年１月２０日にあるユーザが明日行われるイベントについて知りたい場合には、「イベント」というキーワードに加えて「２０ＸＸ年１月２１日」という日時を入力として、文書の検索を行うことが想定される。この場合、通常のキーワードのみを入力とした検索と同様に、キーワード及び日時や場所を入力とした検索においても、検索された文書の数が膨大となった場合には、ユーザが検索結果の概要を把握することが困難になる、という問題がある。

この問題に対して、検索結果に関連する関連語を獲得して、その関連語を提示することにより、ユーザが検索結果の概要を把握する作業を支援することが行われている。検索結果からの関連語の獲得に関する研究としては、検索結果をさらに絞り込むための絞り込み語を関連語として抽出して提示する研究や、検索された文書をクラスタリングし、クラスタの内容を表す語を関連語として提示する研究が行われている。例えば、ＴＦ−ＩＤＦ（Term Frequency-Inverse Document Frequency）に加えて、絞り込み語の候補となる語が、多くの文書に分散して出現しているかどうかの指標を用いて絞り込み語を獲得する手法が提案されている（例えば、非特許文献１参照）。また、ＴＦ−ＩＤＦや語句の独立性に関する指標を用いた回帰分析により、関連語をランキング形式で提示する手法が提案されている（例えば、非特許文献２参照）。

酒井浩之、大竹清敬、増山繁、「絞り込み語の提示による検索支援の試み」、言語処理学会第６回年次大会（２０００）． Zeng, H .J., He, Q .C., Chen, Z.,Ma, W. Y. and Ma, J.「 Learning to cluster web search results」,Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR ’04), pp.210-217 (2006).

しかしながら、非特許文献１及び２の技術は、検索結果の文書集合から部分的な文書集合を選択するために必要となる語を獲得する手法であり、検索結果として得られた文書のほぼ全てが、獲得されたいずれかの語と対応づけられることを目的とした手法である。そのため、キーワードと日時や場所とを入力とした検索における関連語の獲得のためにこれらの手法を適用すると、関連語が検索結果の文書の全てと関連しているかどうかが重要視されてしまい、関連語が入力された日時や場所に関連するかどうかが重要視されない、という問題があった。

本発明は上記の問題点に鑑みてなされたものであって、キーワードと日時及び場所の少なくとも一方で表される特定情報とに基づいて検索された文書について、特定情報に関連するか否かを重要視した話題語を獲得することができる話題語獲得装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の話題語獲得装置は、予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得する取得手段と、前記取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出する抽出手段と、前記話題語候補及び前記特定情報の両方を含む前記予め記憶された文書内の文書の数、前記話題語候補のみを含む前記予め記憶された文書内の文書の数、前記特定情報のみを含む前記予め記憶された文書内の文書の数、並びに前記話題語候補及び前記特定情報の両方を含まない前記予め記憶された文書内の文書の数に基づいて、前記話題語候補毎に前記特定情報との関連度を算出し、前記抽出手段により抽出された話題語候補から、前記特定情報との関連度が高い話題語候補を話題語として獲得する獲得手段と、を含んで構成されている。

本発明の話題語獲得装置によれば、取得手段が、予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得し、抽出手段が、取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出する。そして、獲得手段が、話題語候補及び特定情報の両方を含む予め記憶された文書内の文書の数、話題語候補のみを含む予め記憶された文書内の文書の数、特定情報のみを含む予め記憶された文書内の文書の数、並びに話題語候補及び特定情報の両方を含まない予め記憶された文書内の文書の数に基づいて、話題語候補毎に特定情報との関連度を算出し、抽出手段により抽出された話題語候補から、特定情報との関連度が高い話題語候補を話題語として獲得する。

このように、キーワードと日時及び場所の少なくとも一方で表される特定情報とに基づいて検索された文書について、抽出された話題語候補から、特定情報との関連度が高い話題語候補を話題語として獲得するため、特定情報に関連するか否かを重要視した話題語を獲得することができる。

また、前記抽出手段は、前記取得手段により取得された複数の文書各々を前記字句で分割し、各字句を先頭とし、かつ各文書の最後尾を末尾とする分割成分を生成し、生成された各分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数を求め、求めた字句の数、及び話題語候補を構成する字句の数に基づいて、前記話題語候補を抽出することができる。このように話題語候補を抽出することにより、任意の話題語候補を柔軟に抽出することができる。

また、本発明の話題語獲得方法は、取得手段と、抽出手段と、獲得手段とを含む話題語獲得装置における話題語獲得方法であって、前記取得手段は、予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得し、前記抽出手段は、前記取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出し、前記獲得手段は、前記話題語候補及び前記特定情報の両方を含む前記予め記憶された文書内の文書の数、前記話題語候補のみを含む前記予め記憶された文書内の文書の数、前記特定情報のみを含む前記予め記憶された文書内の文書の数、並びに前記話題語候補及び前記特定情報の両方を含まない前記予め記憶された文書内の文書の数に基づいて、前記話題語候補毎に前記特定情報との関連度を算出し、前記抽出手段により抽出された話題語候補から、前記特定情報との関連度が高い話題語候補を話題語として獲得する方法である。

また、本発明の話題語獲得方法において、前記抽出手段は、前記取得手段により取得された複数の文書各々を前記字句で分割し、各字句を先頭とし、かつ各文書の最後尾を末尾とする分割成分を生成し、生成された各分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数を求め、求めた字句の数、及び話題語候補を構成する字句の数に基づいて、前記話題語候補を抽出することができる。

また、本発明の話題語獲得プログラムは、コンピュータを、上記の話題語獲得装置を構成する各手段として機能させるためのプログラムである。

以上説明したように、本発明の話題語獲得装置、方法、及びプログラムによれば、キーワードと日時及び場所の少なくとも一方で表される特定情報とに基づいて検索された文書について、抽出された話題語候補から、特定情報との関連度が高い話題語候補を話題語として獲得するため、特定情報に関連するか否かを重要視した話題語を獲得することができる、という効果が得られる。

本実施の形態の話題語獲得装置の機能的構成を示すブロック図である。本実施の形態の話題語獲得装置における話題語獲得処理ルーチンの内容を示すフローチャートである。文書取得部で取得された文書の一例を示す図である。各単語から始まる分割成分の生成結果の一例を示す図である。各分割成分を並び替えて配列し、先頭からの一致単語数を求めた一例を示す図である。抽出された話題語候補の一例を示す図である。各話題語候補について算出されたカイ２乗値の一例を示す図である。獲得された話題語の一例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

本実施の形態に係る話題語獲得装置１０は、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、後述する話題語獲得処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図１に示すように、文書取得部１２、話題語候補抽出部１４、及び日時関連話題語獲得部１６を含んだ構成で表すことができる。

文書取得部１２は、キーボードやマウス等の入力装置により入力されたキーワード及び日時を受け付け、受け付けたキーワード及び日時をキーとして、大量の文書が記憶された検索インデックス２０を検索して、検索結果となる文書の概要を表す概要文を取得する。例えば、入力されたキーワードの文字列を含み、文書中に含まれている日時を表す表現（「１月２１日」「明日」など）が入力された日時を表している文書を検索する。なお、検索方法は、キーワード及び日時に関連した検索が行える方法であればこれに限定されるものではなく、キーワード及び日時の文字列を共に含む文書を検索するようにしてもよい。また、ここでは、検索結果として、文書の概要文を取得する場合について説明するが、文書の取得方法はこれに限定されるものではなく、上位の検索結果のみを取得したり、文書のテキスト全体を取得したり、文書タイトルを文書に含めたり、文書の先頭Ｘ個の文字、単語、文を文書として取得したりしてもよい。

話題語候補抽出部１４は、文書取得部１２で取得された文書から、ユーザによる検索結果の把握を支援するための話題語の候補となる話題語候補を抽出する。具体的には、検索結果の文書を字句（文字、単語、または句）で分割し、各字句を先頭とし、かつ文書の最後尾を末尾とする分割成分を生成し、生成された分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数に基づいて話題語候補を抽出する。

より詳細には、まず、検索結果の文書の各字句から始まる分割成分を生成する。ここでは、字句として単語を用いることとする。なお、字句は単語に限定されるものではなく、文字でもよいし名詞句などの句でもよい。字句として単語を用いる場合には、文書に含まれる各文を単語に分割する必要があるため、従来既知の形態素解析技術を用いて、取得された文書に対して形態素解析を行って単語に分割する。そして、各単語を先頭とし、かつ文書の最後尾を末尾とする分割成分を生成する。

次に、生成された各分割成分を、アルファベット順、五十音順による昇順または降順等の通常の並び替え手法により、字句の順（ここでは単語の順）に並び替えて配列する。配列した各分割成分に対して、１つ前の分割成分との比較を行い、先頭から一致する字句の数（ここでは単語数）をカウントする。この先頭からの一致単語数に基づいて、話題語候補の抽出を行う。例えば、頻度が閾値Ｔ_１以上の長さＭの名詞句（単語数Ｍの名詞句）を話題語候補として抽出する場合には、配列した分割成分集合の先頭から長さＭの名詞句が先頭に出現する分割成分を検索し、その分割成分以降の分割成分について、一致単語数がＭ以上の文が何個連続しているかをカウントする。一致単語数がＭ以上である文がＮ個連続した場合、その名詞句の頻度をＮ＋１として求める。この頻度Ｎ＋１が閾値Ｔ_１以上であれば、その名詞句を話題語候補として抽出する。

なお、話題語候補の抽出方法はこれに限定されるものではなく、頻度によらず全ての名詞句を話題語候補として抽出したり、抽出したい名詞句の長さＭによって頻度の閾値Ｔ_１を変化させたり、名詞句ではなく動詞句や形容詞句などを話題語候補として抽出したり、句ではなく単独の名詞や動詞や形容詞を話題語候補として抽出したりしてもよい。

日時関連話題語獲得部１６は、話題語候補抽出部１４で抽出された話題語候補が、入力された日時に関連しているか否かを判定し、日時に関連していると判定された話題語候補を話題語として獲得する。話題語候補と日時との関連性は、例えば、話題語候補を含み入力された日時を含む文書の数をＡ、話題語候補を含み入力された日時を含まない文書の数をＢ、話題語候補を含まず入力された日時を含む文書の数をＣ、話題語候補を含まず入力された日時を含まない文書の数をＤ、Ａ＋Ｂ＋Ｃ＋Ｄ＝Ｎとし、カイ２乗値を下記（１）式により算出する。

χ^２＝Ｎ（ＡＤ−ＢＣ）^２／（Ａ＋Ｃ）（Ｂ＋Ｄ）（Ａ＋Ｂ）（Ｃ＋Ｄ）（１）
このカイ２乗値が閾値Ｔ_２以上である話題語候補を入力された日時に関連があると判定し、話題語として獲得する。それぞれの文書の数は検索インデックス２０を参照して検索を行うことにより取得する。なお、日時関連性判定の方法は、話題語候補及び日時の両方を含む文書の数、話題語候補のみを含む文書の数、日時のみを含む文書の数、話題語候補及び日時の両方とも含まない文書の数を用いるものであれば、これに限定されるものではなく、例えば、イエーツの修正を行ったり、フィッシャーの正確確率検定を用いたりしてもよい。

次に、本実施の形態の話題語獲得装置１０の作用について説明する。キーワード及び日時が入力されると、話題語獲得装置１０において、図２に示す話題語獲得処理ルーチンが実行される。ここでは、キーワードとして「イベント」が入力され、日時として「２０ＸＸ年１月２１日」が入力されたものとする。

ステップ１００で、入力されたキーワード及び日時を受け付け、受け付けたキーワード及び日時をキーとして、大量の文書が記憶された検索インデックス２０を検索して、検索結果となる文書の概要を表す概要文を取得する。取得された文書の例を図３に示す。

次に、ステップ１０２で、上記ステップ１００で取得された文書に対して形態素解析を行って単語に分割し、各単語を先頭とし、かつ文書の最後尾を末尾とする分割成分を生成する。図３の文書番号１の文書から生成した分割成分の一例を図４に示す。残りの文書に対しても同様にして、分割成分を生成する。

次に、ステップ１０４で、上記ステップ１０２で生成された各分割成分を、アルファベット順、五十音順による昇順または降順等の通常の並び替え手法により、単語の順に並び替えて配列し、配列した各分割成分に対して、１つ前の分割成分との比較を行い、先頭から一致する単語数をカウントする。図３の文書から生成された分割成分を並び替えて配列し、先頭からの一致単語数をカウントした結果を図５に示す。分割成分番号１１の分割成分は、先頭からの一致単語数が４であり、１つ前の分割成分番号１０の分割成分と比較すると、先頭から「ＡＡＡ」「祭り」「と」「いう」の４単語が一致していることを表している。

次に、ステップ１０６で、長さＭの名詞句の頻度を求める。例えば、図５において、「ＡＡＡ祭り」という単語数２の名詞句の頻度を求める場合には、まず、分割成分番号１０の分割成分において「ＡＡＡ祭り」が出現するため、次の分割成分を調べる。分割成分番号１１の分割成分は一致単語数が２以上であるため、その次の分割成分を調べる。これを繰り返すと、分割成分番号３２までが一致単語数２以上となっており、一致単語数が２以上である分割成分が、分割成分番号１０以降２２個連続していることとなり、「ＡＡＡ祭り」の頻度は２３と求まる。

次に、ステップ１０８で、上記ステップ１０６で求めた名詞句の頻度が閾値Ｔ_１以上か否かを判定する。頻度が閾値Ｔ_１以上の場合には、ステップ１１０へ移行して、その名詞句を話題語候補として抽出して、ステップ１１２へ移行する。頻度が閾値Ｔ_１より小さい場合には、その名詞句を話題語候補として抽出することなく、ステップ１１２へ移行する。頻度を求めた全ての名詞句について、本ステップの判定を行う。図３の文書に対して閾値Ｔ_１＝２０を満たす名詞句を抽出して得られた話題語候補の一例を図６に示す。

ステップ１１２では、上記ステップ１１０で抽出された各話題語候補について、話題語候補を含み入力された日時を含む文書の数Ａ、話題語候補を含み入力された日時を含まない文書の数Ｂ、話題語候補を含まず入力された日時を含む文書の数Ｃ、話題語候補を含まず入力された日時を含まない文書の数Ｄを、検索インデックス２０を参照して検索を行うことにより取得する。そして、（１）式に従って、話題語候補毎にカイ２乗値を算出する。図６の話題語候補に対してカイ２乗値を求めた結果の一例を図７に示す。

次に、ステップ１１４で、上記ステップ１１２で算出したカイ２乗値が閾値Ｔ_２以上か否かを判定する。カイ２乗値が閾値Ｔ_２以上の場合には、ステップ１１６へ移行して、その話題語候補を話題語として獲得する。カイ２乗値が閾値Ｔ_２より小さい場合には、その話題語候補を話題語として獲得することなく、処理を終了する。全ての話題語候補について、本ステップの判定を行う。図７の話題語候補に対して、閾値Ｔ_２＝１００として話題語を獲得した結果を図８に示す。図８の結果より、入力の日時「２０ＸＸ年１月２１日」に行われるイベントの名称を表す話題語が獲得されていることがわかる。

以上説明したように、本実施の形態の話題語獲得装置によれば、入力されたキーワード及び日時に関連して検索された文書から得られる話題語候補が、入力された日時に関連するか否かを判定して、話題語として獲得するため、日時に関連するか否かを重要視した話題語を獲得することができる。また、検索結果の文書から生成した分割成分を字句の順に並び替えて配列し、隣接する分割成分の先頭から一致する字句の数に基づいて話題語候補を抽出するため、検索結果の文書から任意の語句を話題語候補として抽出することができる。

なお、上記の実施の形態では、キーワードと共に、特定情報として「日時」が入力された場合について説明したが、特定情報が「場所」であっても、本実施の形態の手法を適用することができる。この場合、入力されたキーワード及び場所に関連した文書を検索し、検索された文書から任意の話題語候補を抽出し、話題語候補が入力された場所に関連するか否かを判定すればよい。関連性の判定は、例えば、上記実施の形態と同様に、話題語候補を含み入力された場所を含む文書の数をＡ、話題語候補を含み入力された場所を含まない文書の数をＢ、話題語候補を含まず入力された場所を含む文書の数をＣ、話題語候補を含まず入力された場所を含まない文書の数をＤ、Ａ＋Ｂ＋Ｃ＋Ｄ＝Ｎとし、（１）式により算出したカイ２乗値を閾値判定すればよい。

また、特定情報として、「日時」及び「場所」の両方が入力された場合にも、本実施の形態の手法を適用することができる。この場合、例えば、各話題語候補について、日時との関連性を示すカイ２乗値、及び場所との関連性を示すカイ２乗値を各々算出し、両方のカイ２乗値が閾値以上となる話題語候補を話題語として獲得するようにすればよい。

また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、上述の話題語獲得装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０話題語獲得装置
１２文書取得部
１４話題語候補抽出部
１６日時関連話題語獲得部
２０検索インデックス

Claims

予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得する取得手段と、
前記取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出する抽出手段と、
前記話題語候補及び前記特定情報の両方を含む前記予め記憶された文書内の文書の数、前記話題語候補のみを含む前記予め記憶された文書内の文書の数、前記特定情報のみを含む前記予め記憶された文書内の文書の数、並びに前記話題語候補及び前記特定情報の両方を含まない前記予め記憶された文書内の文書の数に基づいて、前記話題語候補毎に前記特定情報との関連度を算出し、前記抽出手段により抽出された話題語候補から、前記特定情報との関連度が高い話題語候補を話題語として獲得する獲得手段と、
を含む話題語獲得装置。
前記抽出手段は、前記取得手段により取得された複数の文書各々を前記字句で分割し、各字句を先頭とし、かつ各文書の最後尾を末尾とする分割成分を生成し、生成された各分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数を求め、求めた字句の数、及び話題語候補を構成する字句の数に基づいて、前記話題語候補を抽出する請求項１記載の話題語獲得装置。
取得手段と、抽出手段と、獲得手段とを含む話題語獲得装置における話題語獲得方法であって、
前記取得手段は、予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得し、
前記抽出手段は、前記取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出し、
前記獲得手段は、前記話題語候補及び前記特定情報の両方を含む前記予め記憶された文書内の文書の数、前記話題語候補のみを含む前記予め記憶された文書内の文書の数、前記特定情報のみを含む前記予め記憶された文書内の文書の数、並びに前記話題語候補及び前記特定情報の両方を含まない前記予め記憶された文書内の文書の数に基づいて、前記話題語候補毎に前記特定情報との関連度を算出し、前記抽出手段により抽出された話題語候補から、前記特定情報との関連度が高い話題語候補を話題語として獲得する
話題語獲得方法。
前記抽出手段は、前記取得手段により取得された複数の文書各々を前記字句で分割し、各字句を先頭とし、かつ各文書の最後尾を末尾とする分割成分を生成し、生成された各分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数を求め、求めた字句の数、及び話題語候補を構成する字句の数に基づいて、前記話題語候補を抽出する請求項３記載の話題語獲得方法。
コンピュータを、請求項１または請求項２記載の話題語獲得装置を構成する各手段として機能させるための話題語獲得プログラム。