JP5547030B2

JP5547030B2 - 情報分析装置及び方法及びプログラム

Info

Publication number: JP5547030B2
Application number: JP2010233789A
Authority: JP
Inventors: 貴行足立; 俊郎内山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-10-18
Filing date: 2010-10-18
Publication date: 2014-07-09
Anticipated expiration: 2030-10-18
Also published as: JP2012088854A

Description

本発明は、情報分析装置及び方法及びプログラムに係り、特に、特定分野に関する情報分析を行う情報分析装置及び方法及びプログラムに関するものである。

現在、インターネット上には多種多様で膨大な情報があり、その中から効率的に情報を探すため、情報検索システムが利用されている。その情報検索システムへ入力された単語には、不特定多数のユーザの要求が反映されているため、入力された単語の特徴が明らかになれば、その特徴をもとに情報検索システムの精度改善や、検索絞り込み支援のための関連単語の提示などに利用できる。さらに、入力は不特定多数の人々の関心事が反映されていると考えれば、ユーザ行動を支援する上で役立つ有益な情報となりうる。

従来技術として、情報検索システムにおいて、所定期間内に使用された検索語同士の関連度の強さを求めて、互いに強い関連を持つ語は同一の情報を得るために使用された語であるとみなすことで、例えば、年始における"年賀状"と"当選番号"のように一時的に関連の強くなった検索語同士の関連付けを行う情報関連づけ装置が開示されている（例えば、特許文献1参照）。

また、クエリ内の単語の共起頻度を基に関連付けを行う従来技術がある。例えば、"銀座"との共起頻度の高い順に単語を並べると "ランチ"、"○越"、"△屋"、"松◎屋"、"映画館"などの関連語を得ることができる。

さらに、例えば、"銀座"と共起する関連語は膨大であるため、その関連語を意味的にまとめ上げた方が全体的な特徴把握が行いやすい。なお、まとめ上げは、クエリ内の単語共起頻度を用いて各対象単語と共起する単語を要素とするベクトルを作成し、各対象単語に対するベクトルの類似度によりクラスタリングすることで求めることができる。

特許第３５４７０６９号公報

しかしながら、特定分野に関する特徴を掴みたい場面では、特定分野を端的に表わす単語が存在しない可能性や、特定分野を表わす単語が得られたとしてもクエリとして入力されにくい可能性がある。例えば、特定分野を「東京都内の各場所」としてその特徴を掴みたい場合、単語である"東京都"の共起語の特徴を調べることが考えられるが、東京都内の一場所である"銀座"の共起語には現れる"松◎屋"が"東京都"の共起単語には出現しないといったように、"東京都"が必ずしも「東京都内の各場所」を表わす単語とはなっていない。

本発明は上記のような課題を解決するものであり、特定分野に対する特徴把握のため、特定分野に関連する１つ以上の分野限定単語を準備し、その単語との共起する関連語を求めて、その関連語を対象単語として意味的にまとめ上げた結果を出力する情報分析装置及び方法及びプログラムを提供することを目的とする。

上記の課題を解決するために、本発明（請求項１）は、特定分野の関連語をグループ化する情報分析装置であって、
クエリログからクエリリストを作成するクエリリスト作成手段と、
クエリリストから分野限定単語リストに記載の全ての単語と共起する単語およびその共起頻度を求めた後で、前記分野限定単語リスト内に含まれる１つ以上の単語における共起頻度の高い順から一定の上位単語数または共起頻度が一定値以上の前記共起する単語を対象単語として対象単語リストを作成する対象単語リスト作成手段と、
前記クエリリストから１単語の頻度の高い順に並べた結果を単語データとして作成し、単語データベースに格納する単語データ作成手段と、
前記クエリリストから任意の２単語とその共起頻度を並べた結果を単語共起頻度データとして、単語共起頻度データベースに格納する単語共起頻度データ作成手段と、
前記対象単語リストの単語と前記単語データベースの単語データの単語との共起頻度を前記単語共起頻度データベースの前記単語共起頻度データから求めて、対象単語に対し、単語データの各単語を要素とする統計量のベクトルを作成し、単語ベクトルデータベースに格納する単語ベクトル作成手段と、
前記単語ベクトルデータベースから読み込んだ単語ベクトルデータから、各対象単語のベクトルの類似度を基に所定の条件を満たすまでクラスタリングを実施して、単語グループを作成する単語グループデータ作成手段と、を備える。

また、本発明（請求項２）は、前記単語データ作成手段において、
前記対象単語作成手段で、対象単語と共起する単語について共起頻度の高い順に並べたものを単語データとして作成した結果を用いる。

また、本発明（請求項３）は、特定分野の関連語をグループ化する情報分析方法であって、
単語データベース、単語共起頻度データベース、単語ベクトルデータベースを有する装置において、
クエリリスト作成手段が、クエリログからクエリリストを作成するクエリリスト作成ステップと、
対象単語リスト作成手段が、クエリリストから分野限定単語リストに記載の全ての単語と共起する単語およびその共起頻度を求めた後で、前記分野限定単語リスト内に含まれる１つ以上の単語における共起頻度の高い順から一定の上位単語数または共起頻度が一定値以上の前記共起する単語を対象単語として対象単語リストを作成する対象単語リスト作成ステップと、
単語データ作成手段が、前記クエリリストから１単語の頻度の高い順に並べた結果を単語データとして作成し、前記単語データベースに格納する単語データ作成ステップと、
単語共起頻度データ作成手段が、前記クエリリストから任意の２単語とその共起頻度を並べた結果を単語共起頻度データとして、前記単語共起頻度データベースに格納する単語共起頻度データ作成ステップと、
単語ベクトル作成手段が、前記対象単語リストの単語と前記単語データベースの単語データの単語との共起頻度を前記単語共起頻度データベースの前記単語共起頻度データから求めて、対象単語に対し、単語データの各単語を要素とする統計量のベクトルを作成し、前記単語ベクトルデータベースに格納する単語ベクトル作成ステップと、
単語グループデータ作成手段が、前記単語ベクトルデータベースから読み込んだ単語ベクトルデータから、各対象単語のベクトルの類似度を基に所定の条件を満たすまでクラスタリングを実施して、単語グループを作成する単語グループデータ作成ステップと、を行う。

また、本発明（請求項４）は、前記単語データ作成ステップにおいて、
前記対象単語作成ステップで、対象単語と共起する単語について共起頻度の高い順に並べたものを単語データとして作成した結果を用いる。

また、本発明（請求項５）は、請求項１または２に記載の情報分析装置を構成する各手段としてコンピュータを機能させるための情報分析プログラムである。

本発明によれば、特定分野に対する特徴把握のため、特定分野に関連する1つ以上の分野限定単語を準備し、その単語との共起する関連語を求めて、その関連語を対象単語として意味的にまとめ上げた結果を出力することで、特定分野の全体的な特徴が容易に把握可能となる。

本発明の一実施の形態における情報分析装置の構成図である。本発明の一実施の形態における情報分析装置の処理の流れを表すフローチャートである。本発明の一実施の形態における各種データの一例である。本発明の一実施の形態におけるクラスタリング処理のデータの一例である。本発明の一実施の形態におけるクラスタリング処理の説明図である。

以下図面と共に、本発明の実施の形態を説明する。

なお、本発明は下記の実施形態例に限定されるものではない。

図１は本発明の一実施形態の情報分析装置の構成図である。

本実施形態の情報分析装置１００は、クエリリスト作成部１１０、対象単語リスト作成部１２０、単語データ作成部１３０、単語共起頻度データ作成部１４０、単語ベクトル作成部１５０、単語グループデータ作成部１６０、クエリリスト１７０、対象単語リスト１８０、単語データベース１９０、単語共起頻度データベース２００、単語ベクトルデータベース２１０、分野限定単語リスト３００、クエリログ４００、単語グループデータベース５００で構成される。

単語データベース１９０には、入力されたクエリログ４００から抽出された単語と当該単語頻度が格納される。

単語共起頻度データベース２００には、入力されたクエリログ４００から抽出された任意の２つの単語の共起頻度が格納される。

単語ベクトルデータベース２１０には、入力された分野限定単語リスト３００から抽出された対象単語と単語データベース１９０の頻度上位Ｍ件の特徴単語との共起頻度ベクトルが格納される。

単語グループデータベース５００には、クラスタリングされた単語グループデータが格納される。

また、同図におけるクエリリスト１７０、対象単語リスト１８０は当該情報分析装置１００内のメモリに格納されるものとする。

情報分析装置１００内の各部の、後述する各機能は例えばコンピュータによって達成される。

図２は図１の情報分析装置の処理の流れを表すフローチャートである。図２のＳ１００〜Ｓ１５０は各処理のステップを各々示している。

クエリリスト作成部１１０は、クエリログ４００を入力し、メモリにクエリリスト１７０を出力する（Ｓ１００）。対象単語リスト作成部１２０は、分野限定単語リスト３００を入力し、クエリリスト１７０から分野限定単語リストに記載の単語との共起語の頻度を計数し、高頻度順に並び変えて、上位Ｎ位の単語もしくは出現頻度の閾値Ｔ以上の単語をメモリの対象単語リスト１８０へ出力する（Ｓ１１０）。単語データ作成部１３０は、クエリリスト１７０を入力し、各単語の頻度を計算し、高頻度順に並べ変えて、単語データベース１９０へ出力する（Ｓ１２０）。単語共起頻度データ作成部１４０は、クエリリスト１７０を入力し、２つ以上の単語を含むクエリから、任意の２単語の共起頻度を計数し、単語共起頻度データベース２００へ出力する（Ｓ１３０）。単語ベクトル作成部１５０は、対象単語リスト１８０を入力し、単語データベース１９０の頻度上位Ｍ件の単語を特徴単語とし、対象単語と特徴単語の共起頻度を単語共起頻度データベース２００から求めて、対象単語と特徴単語との共起頻度ベクトルを各対象単語について作成し、データを単語ベクトルデータベース２１０へ出力する（Ｓ１４０）。単語グループデータ作成部１６０は、単語ベクトルデータベース２１０を入力し、対象単語の単語ベクトルを用いてベクトルの類似性に基づいてクラスタリングし、単語グループデータベース５００へ単語グループデータを出力する（Ｓ１５０）。

次に、本実施形態の動作を具体例により説明する。図３は、本発明の一実施の形態における各データの例であり、図４は、本発明の一実施の形態におけるクラスタリング処理の説明図を示す。

クエリリスト作成部１１０は、クエリログ４００を入力し、メモリにクエリリスト１７０を出力する。例えば、所定の期間のクエリログが入力される。図３の（Ａ）クエリログでは書式が
"日付時刻<tab>ユーザ識別子<tab>入力クエリ"
のようになっており、同じユーザ識別子であれば同一ユーザを意味する。また、複数の単語を含む入力クエリは空白によって各単語が区切られている。必要ならば、ある期間において、ユーザ識別子が同一で入力クエリも同一である場合は、誤って重複入力されたと考えて、重複分を除去しても構わない。最後にクエリ部分を、メモリに図３の（Ｂ）に示すようにクエリリスト１７０として出力する。

対象単語リスト作成部１２０は、分野限定単語リスト３００を入力し、クエリリスト１７０から分野限定単語リスト３００に記載の単語との共起語の頻度を計数し、高頻度順に並び替えて、上位Ｎ位もしくは出現頻度の閾値Ｔ以上とった所定の条件を満たす単語をメモリの対象単語リスト１８０へ出力する。例えば、特定分野として「東京都の各場所」に関する単語に限定すると仮定した場合、予め準備されている図３の（Ｃ）分野限定単語リスト３００を読み込む。次に、図３（Ｃ）分野限定単語リスト３００に記載の単語との共起語を図３（Ｂ）のクエリリスト１７０から探し出すと、図３の（Ｃ）の単語"銀座"を含む共起単語として、図３の（Ｂ）の"銀座ランチ"が見つかるので、"銀座"の共起語である"ランチ"の共起頻度が１加算される。同様の処理によって全ての分野限定単語ごとに各単語の共起語と頻度を求めた後、任意の分野限定単語における共起頻度を求めて、頻度の多い順に並べ、図３の（Ｄ）対象単語リスト１８０が出力される。

単語データ作成部１３０は、クエリリスト１７０を入力し、各単語の頻度を計算し、高頻度順に並べ変えて、単語データベース１９０へ出力する。例えば、図３の（Ｂ）クエリリスト１７０を入力すると、空白で区切られた各単語に対して、１単語ごとに計数し、高頻度順に並び替えて、図３の（Ｅ１）に示すデータが単語データベース１９０に出力される。

なお、クエリ全体から求めた単語ではなく、図１の対象単語リスト作成部１２０において得られる対象単語と共起する単語で代用しても構わない。

単語共起頻度データ作成部１４０は、クエリリスト１７０を入力し、２つ以上の単語を含むクエリから、任意の２組の単語について共起頻度を計数し、単語共起頻度データベース２００へ出力する。例えば、図３の（Ｂ）クエリリスト１７０を入力すると、空白で区切られた各単語に対して、任意の２単語の共起単語の組合せを求めて計数し、単語共起頻度データとして単語共起頻度データベース２００に出力する。図３の（Ｆ）に示す単語共起頻度データでは書式が"単語１<tab>単語２<tab>共起頻度"であるので、"○×新聞"と"英語版"の共起頻度は240000である。

単語ベクトル作成部１５０は、対象単語リスト１８０を入力し、単語データベース１９０の頻度上位Ｍ件の単語との共起頻度を単語共起頻度データベース２００から求めて、対象単語と特徴単語との共起頻度ベクトルを各対象単語について作成し、データを単語ベクトルデータベース２１０へ出力する。例えば、単語データベース１９０から図３のＥ１の単語データを読み込み、頻度情報を除き（図３の（Ｅ２））、例えば、地名といったように事前準備した除外単語リスト（未記載）を利用して、除外単語リストに記載のない単語（図３の（Ｅ３））から上位Ｍ件の単語を準備する。次に、図３の（Ｄ）対象単語リスト１８０の"ラーメン"と図３の（Ｅ３）単語データの上位Ｍ件の単語との共起頻度を求めると、図３の（Ｇ）単語ベクトルデータの"ラーメン"に対するＭ個の要素からなる行ベクトルができる。なお、図３の（Ｇ）単語ベクトルデータの値は共起頻度となっているが、各行の要素値の総和が１となるように正規化しても構わない。これを全ての対象単語について処理した後、図３（Ｇ）の単語ベクトルデータが出力される。

単語グループデータ作成部１６０は、単語ベクトルデータベース２１０を入力し、対象単語の単語ベクトルを用いてベクトルの類似性に基づいてクラスタリングし、単語グループデータベース５００へ単語グループデータを出力する。

なお、以下の説明では、クラスタリングは既存の階層的クラスタリング手法を用いるが、ベクトルの類似性を元に対象単語がクラスタリングできれば良いため、上記手法に限定されない。また、ベクトル間の類似度計算はコサイン類似度を用いて説明するが、ベクトル間の類似度を求めることができれば、この計算方法に限定されない。例えば、図４の単語ベクトルデータは、対象単語に対して特徴単語の統計量からなるベクトル群である。図４の単語ベクトルデータの列には対象単語"もつ鍋"、…、"商店街"が、行には特徴単語"レシピ"、…、"ランキング"が並んでおり、対象単語と特徴単語との共起頻度が格納され、さらに各行の和が１となるように正規化されている。また、初期段階では１単語が１クラスタに対応している。

図４の正規化済み単語特徴ベクトルデータで説明すると、対象単語Ａのベクトル要素値をＡj、対象単語Ｂのベクトル要素値をＢjとした場合（この例では、ｊ＝１，…，Ｍ（＝５）とする）、コサイン類似度は、

で求まる。図４の類似度データを格納するメモリには、各クラスタ間の類似度データが格納されており、図４の各表の書式は、１列目、２列目がクラスタ番号であり３列目が１列目と２列目のクラスタ間の類似度である。また、順に行われるクラスタリング処理に従って、類似度データはＡからＤのように変化する。図４のＡ：類似度（初期状態）では、全ての組の中で４番と５番の類似度が１．０で最大となるので、クラスタ番号４番の"地下"とクラスタ番号５番の"商店街"を統合する。統合処理は、統合対象の単語ベクトルデータの更新と、類似度データの更新が実施される。例えば、統合対象の更新結果をメモリ内のクラスタ番号が小さい方のデータへ格納し、クラスタ番号の大きな方のデータを除去する。

具体的には、単語ベクトルデータのクラスタ番号４番の行のクラスタの単語を"地下"から"地下商店街"とし、クラスタ番号４と５を１つのクラスタと考えてベクトル値を再計算し、格納する。また、クラスタ番号５番のクラスタの単語を除去する。一方、ベクトル値の更新の影響のある４番との間で計算された類似度についても再計算すると図４のＢの１と４、２と４、３と４のように類似度が更新される。なお、クラスタ番号のうち大きい方である５番については、４番に統合されて不要となるので、図４のＢの１と５、２と５、３と５、４と５を空とする。次に図４のＢの類似度データに対して同様に処理すると、図４のＢの１番と２番が最大の類似度０．８９であるので統合処理が施され、正規化済み単語ベクトルを更新し、図４のＣの類似度データに更新される。さらに続けると、図４のＣの類似度データの１番と３番が最大の類似度０．７２であるので統合処理を行われる。最終的に図４のＤの類似度データのように１番と４番が類似するので全ての対象単語が１つのクラスタに統合される。しかしながら、実際には全てをまとめずに所定のクラスタ数Ｐもしくは所定の類似度Ｑの閾値を設け、クラスタ数がＰに達した場合もしくは類似度がＱ未満になる時点でクラスタリングを停止する。例えば、Ｐ＝２の場合は、１〜３番、４〜５番の２つのクラスタができた時点で終了する。また、閾値Ｑ＝０．７の場合は、１〜３番、４〜５番の２つのクラスタに統合された後に、次に全てを統合すると閾値未満となるで、この時点で終了する。いずれの停止条件を用いるかは、事前に定めた上で実施する。例えば、クラスタ数Ｐ＝２で停止する場合は、図４の単語グループデータが単語グループデータベース５００に出力される。なお、先頭番号はクラスタ番号である。

次に、特定分野の関連語について意味的にまとめ上げを行う際に、まとめ上げの対象となる単語を、特定分野を表わす１つ以上の分野限定単語との関連語に限定して実施しているが、その効果について説明する。

例えば、特定分野を「東京都の各場所」として、図３の（Ｃ）分野限定単語リストのように"銀座"、"六本木"、"渋谷"などの地名と共起する関連語がまとめ上げの対象の単語とする。本発明では、対象の単語である"もつ鍋"と同一クラスタの単語を調べると、図５の（Ａ）対象単語を限定する場合のように、「食」に関する単語がまとまっている。

一方、別の方法として、クエリの任意の単語をまとめ上げの対象の単語として実施し、その後、特定分野の関連語のみを残すことが考えられる。この方法では、対象の単語である"もつ鍋"と同一クラスタの単語を調べると、図５の（Ｂ）対象単語を限定しない場合のように、ボックスで囲まれていない「東京都の各場所」と共起しない単語もまとめあげに用いられて影響を与えるため、ボックスで囲まれた「東京都の各場所」と共起する単語のみ残したとしても、食以外の"地下鉄"、"地下"、"商店街"といった単語も同一クラスタに含まれるという問題がある。

次に、単語間の共起頻度は、クエリログ全体から計算することで高精度の単語分類が可能な例を説明する。本発明では、単語共起頻度をクエリログ全体から求めている。一方、別の方法として、分野限定単語リスト３００を用いて、クエリログ中に分野限定単語リストを含んでいるデータから単語共起頻度を求めることも考えられるが、その場合、単語共起頻度は全体的に低頻度となってしまうため、図５の（Ｃ）単語共起頻度を限定した場合のように、対象の単語である"もつ鍋"と同一のクラスタの単語として、食以外の"岩盤浴"といった単語も含まるという問題がある。

また、本実施形態の情報分析装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の関連語計算方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばフレキシブルディスクや、MO（Magneto−Optical disk）、ROM（Read Only Memory）、メモリカード、CD（Compact Disk）-ROM、DVD（Digital Versatile Disk）-ROM、CD-R、CD-RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

１００情報分析装置
１１０クエリリスト作成部
１２０対象単語リスト作成部
１３０単語データ作成部
１４０単語共起頻度データ作成部
１５０単語ベクトル作成部
１６０単語グループデータ作成部
１７０クエリリスト
１８０対象単語リスト
１９０単語データベース
２００単語共起頻度データベース
２１０単語ベクトルデータベース
３００分野限定単語リスト
４００クエリログ
５００単語グループデータベース

Claims

特定分野の関連語をグループ化する情報分析装置であって、
クエリログからクエリリストを作成するクエリリスト作成手段と、
クエリリストから分野限定単語リストに記載の全ての単語と共起する単語およびその共起頻度を求めた後で、前記分野限定単語リスト内に含まれる１つ以上の単語における共起頻度の高い順から一定の上位単語数または共起頻度が一定値以上の前記共起する単語を対象単語として対象単語リストを作成する対象単語リスト作成手段と、
前記クエリリストから１単語の頻度の高い順に並べた結果を単語データとして作成し、単語データベースに格納する単語データ作成手段と、
前記クエリリストから任意の２単語とその共起頻度を並べた結果を単語共起頻度データとして、単語共起頻度データベースに格納する単語共起頻度データ作成手段と、
前記対象単語リストの単語と前記単語データベースの単語データの単語との共起頻度を前記単語共起頻度データベースの前記単語共起頻度データから求めて、対象単語に対し、単語データの各単語を要素とする統計量のベクトルを作成し、単語ベクトルデータベースに格納する単語ベクトル作成手段と、
前記単語ベクトルデータベースから読み込んだ単語ベクトルデータから、各対象単語のベクトルの類似度を基に所定の条件を満たすまでクラスタリングを実施して、単語グループを作成する単語グループデータ作成手段と、
を備えたことを特徴とする情報分析装置。
前記単語データ作成手段は、
前記対象単語作成手段で、対象単語と共起する単語について共起頻度の高い順に並べたものを単語データとして作成した結果を用いる
請求項1記載の情報分析装置。
特定分野の関連語をグループ化する情報分析方法であって、
単語データベース、単語共起頻度データベース、単語ベクトルデータベースを有する装置において、
クエリリスト作成手段が、クエリログからクエリリストを作成するクエリリスト作成ステップと、
対象単語リスト作成手段が、クエリリストから分野限定単語リストに記載の全ての単語と共起する単語およびその共起頻度を求めた後で、前記分野限定単語リスト内に含まれる１つ以上の単語における共起頻度の高い順から一定の上位単語数または共起頻度が一定値以上の前記共起する単語を対象単語として対象単語リストを作成する対象単語リスト作成ステップと、
単語データ作成手段が、前記クエリリストから１単語の頻度の高い順に並べた結果を単語データとして作成し、前記単語データベースに格納する単語データ作成ステップと、
単語共起頻度データ作成手段が、前記クエリリストから任意の２単語とその共起頻度を並べた結果を単語共起頻度データとして、前記単語共起頻度データベースに格納する単語共起頻度データ作成ステップと、
単語ベクトル作成手段が、前記対象単語リストの単語と前記単語データベースの単語データの単語との共起頻度を前記単語共起頻度データベースの前記単語共起頻度データから求めて、対象単語に対し、単語データの各単語を要素とする統計量のベクトルを作成し、前記単語ベクトルデータベースに格納する単語ベクトル作成ステップと、
単語グループデータ作成手段が、前記単語ベクトルデータベースから読み込んだ単語ベクトルデータから、各対象単語のベクトルの類似度を基に所定の条件を満たすまでクラスタリングを実施して、単語グループを作成する単語グループデータ作成ステップと、
を行うことを特徴とする情報分析方法。
前記単語データ作成ステップにおいて、
前記対象単語作成ステップで、対象単語と共起する単語について共起頻度の高い順に並べたものを単語データとして作成した結果を用いる
請求項３記載の情報分析方法。
請求項１または２に記載の情報分析装置を構成する各手段としてコンピュータを機能させるための情報分析プログラム。