JP2009217367A

JP2009217367A - 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム

Info

Publication number: JP2009217367A
Application number: JP2008058196A
Authority: JP
Inventors: Yosuke Ohashi; 洋介大橋
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2008-03-07
Filing date: 2008-03-07
Publication date: 2009-09-24
Anticipated expiration: 2028-03-07
Also published as: JP5153390B2

Abstract

【課題】一般通念に沿った関連語辞書を作成する。
【解決手段】画像に付されたメタデータのセットとして入力された複数の単語を、セット毎にメタデータ一覧テーブルに記憶する。メタデータ一覧テーブルに記憶された単語の種類毎にその出現頻度をメタデータ出現頻度テーブルに記憶する。メタデータのセットとして入力された複数の単語について、２つの単語毎に、その２つの単語を含むメタデータのセットがメタデータ一覧テーブルにどれだけ存在するかを示す共起頻度を取得し、メタデータ共起頻度テーブルに記憶する。スコア算出部は、メタデータ出現頻度テーブル及びメタデータ共起頻度テーブルを参照しながら、単語同士の相互情報量を算出し、さらに、メタデータ共起頻度テーブルを参照しながら、単語同士の関連スコアを算出する。スコア算出部で算出された関連スコアをもって関連語辞書テーブルを更新する。
【選択図】図１０

Description

本発明は、単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成方法及び装置、並びに関連語辞書作成プログラムに関する。

最近、携帯電話やパーソナルコンピュータなどの情報端末機器の普及に伴い、映像、画像、音楽、ゲーム、電子辞書、Ｗｅｂページといった様々なコンテンツを大量且つ容易に得ることが可能になった。このため、情報端末機器でコンテンツの検索を行う機会が増加している。コンテンツの検索を行う場合、テキスト検索が広く用いられている。テキスト検索では、ユーザにより入力されたテキストが検索条件として用いられ、予めコンテンツに付されたメタデータに基づいてコンテンツが探し出されることとなる。コンテンツが探し出されると、検索結果として文字や画像などの項目が表示され、ユーザはこれを選択することによりコンテンツを得ることができる。

しかし、ユーザにより入力されるテキストは、検索条件として必ずしも適切であるとは限らない。このため、ユーザは、満足のいく検索結果が得られるまで異なるテキストを思考しながら検索を繰り返すこともある。

このため、単語同士の関連性を記憶した関連語辞書を利用して、入力されたテキストと同義や類似などの語を、入力されたテキストとの結び付きの強さに応じて検索条件に追加し、拡張された検索条件でコンテンツの検索を行う方法がある（例えば、特許文献１、２参照）。関連語辞書を利用することで、入力されたテキストが検索条件として適切とはいえない場合であっても、ユーザが所望するコンテンツを検索にヒットさせることが可能になる。

ところで、そのような関連語辞書を作成する場合、人手で行うと、長い年月と莫大な費用が掛かる。また、新語の出現や単語の使い方の変化に応じて関連語辞書をメンテナンスする場合にも、人手で行うことは面倒である。

一方で、手間を掛けずに自動的に関連語辞書を作成する方法もある。例えば、特許文献３、４の発明では、入力された文章から単語を抽出し、抽出された単語の組合せをデータベースに記憶することで関連語辞書を作成する。単語の結び付きの強さを示すスコアとしては、現在までにその単語の組合せが同一の文章から抽出された回数である共起頻度が利用されている。
特開２００３−２８８３５９号公報特開２００５−０１０８４８号公報国際公開第０２／０３９３１９パンフレット特開２００５−３０９７０６号公報

しかしながら、特許文献３、４の発明のように、単語の結び付きの強さを示すスコアとして共起頻度を単純に利用した場合、どのような文章に対しても出現頻度が高い単語（特許請求の範囲の記載を例にすると、「前記」という単語）はいずれの単語との関係においても共起頻度が高くなり、一般通念と大きく隔たりのある関連語辞書が作成される虞がある。

本発明は、上記課題を鑑みてなされたものであり、一般通念に沿った関連語辞書を作成する関連語辞書作成方法及び装置、並びに関連語辞書作成プログラムを提供することを目的とする。

上記目的を達成するために、本発明の関連語辞書作成装置は、単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置であって、複数の単語がメタデータとして付されたコンテンツの前記複数の単語がメタデータのセットとして入力される入力部と、前記単語をメタデータのセット毎に記憶する単語記憶部と、メタデータのセットで入力された複数の単語について、２つの単語毎に、その２つの単語を含むメタデータのセットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得部と、前記共起頻度に基づいて、前記２つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出部と、前記共起頻度及び前記相互情報量に基づいて、前記２つの単語の関連度合を示す関連スコアを算出するスコア算出部と、前記関連スコアを記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを記憶する関連語記憶部とを備えている。

請求項２の発明では、前記スコア算出部は、前記２つの単語の前記共起頻度が、その単語の一方と前記単語記憶部に記憶されている各単語との共起頻度の中で何番目に高いかを示す順位を取得し、その順位に基づいて、前記関連スコアを算出する。

請求項３の発明では、前記相互情報量算出部は、前記２つの単語の共起頻度をｒｅｌ＿ｃｏｕｎｔ（Ｘ，Ｙ）とし、前記単語記憶部に記憶されている単語の種類数をＳとし、前記２つの単語の一方が前記単語記憶部に記憶されている個数をｎｕｍ＿ｃｏｕｎｔ（Ｘ）とし、且つ、前記２つの単語の他方が前記単語記憶部に記憶されている個数をｎｕｍ＿ｃｏｕｎｔ（Ｙ）として数５の式を用いて前記相互情報量を算出する。

請求項４の発明では、前記スコア算出部は、前記２つの単語の一方と前記単語記憶部に記憶されている各単語との共起頻度の中で最高値をＭＡＸ（ｒｅｌ＿ｃｏｕｎｔ（Ｘ，＊））として数６の式を用いて共起頻度スコアを算出し、前記２つの単語の前記順位をｒａｎｋ（Ｘ，Ｙ）とし、且つ、前記２つの単語の一方と共起する単語が前記単語記憶部に何種類記憶されているかを示す値をＭＡＸ（ｒａｎｋ（Ｘ，＊））として数７の式を用いて順位スコアを算出し、前記共起頻度スコアと前記順位スコアとの相加平均値をＡＶＥＲＡＧＥ＿ＳＣＯＲＥ（Ｘ，Ｙ）とし、且つ、前記相互情報量をＩ（Ｘ，Ｙ）として数８の式を用いて前記関連スコアを算出する。

本発明の関連語辞書作成方法は、単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成方法であって、複数の単語がメタデータとして付されたコンテンツの前記複数の単語がメタデータのセットとして入力される入力ステップと、前記単語をメタデータのセット毎に単語記憶部に記憶する単語記憶ステップと、メタデータのセットで入力された複数の単語について、２つの単語毎に、その２つの単語を含むメタデータのセットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得ステップと、前記共起頻度に基づいて、前記２つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出ステップと、前記共起頻度及び前記相互情報量に基づいて、前記２つの単語の関連度合を示す関連スコアを算出するスコア算出ステップと、前記関連スコアを関連語記憶部に記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを前記関連語記憶部に記憶する関連語記憶ステップとを備えている。

本発明の関連語辞書作成プログラムは、単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置のコンピュータに、複数の単語がメタデータとして付されたコンテンツの前記複数の単語がメタデータのセットとして入力される入力ステップと、前記単語をメタデータのセット毎に単語記憶部に記憶する単語記憶ステップと、メタデータのセットで入力された複数の単語について、２つの単語毎に、その２つの単語を含むメタデータのセットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得ステップと、前記共起頻度に基づいて、前記２つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出ステップと、前記共起頻度及び前記相互情報量に基づいて、前記２つの単語の関連度合を示す関連スコアを算出するスコア算出ステップと、前記関連スコアを関連語記憶部に記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを前記関連語記憶部に記憶する関連語記憶ステップとを実行させる。

本発明の別態様の関連語辞書作成装置は、単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置であって、複数の単語から構成されるテキストデータが入力される入力部と、前記テキストデータから単語を抽出する単語抽出部と、抽出元のテキストデータが同一である単語をセットとして記憶する単語記憶部と、入力されたテキストデータから抽出された複数の単語について、２つの単語毎に、その２つの単語を含む前記セットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得部と、前記共起頻度に基づいて、前記２つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出部と、前記共起頻度及び前記相互情報量に基づいて、前記２つの単語の関連度合を示す関連スコアを算出するスコア算出部と、前記関連スコアを記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを記憶する関連語記憶部とを備えている。

請求項８記載の発明では、前記スコア算出部は、前記２つの単語の前記共起頻度が、その単語の一方と前記単語記憶部に記憶されている各単語との共起頻度の中で何番目に高いかを示す順位を取得し、その順位に基づいて、前記関連スコアを算出する。

本発明の関連語辞書作成方法及び装置、並びに関連語辞書作成プログラムによれば、共起頻度だけでなく相互情報量にも基づいて、２つの単語の関連度合を示す関連スコアを算出するので、出現頻度が高い単語に係る関連スコアが、その出現頻度だけを理由として高くはならないので、一般通念に沿った関連語辞書を作成することができる。

［第１実施形態］
図１において、第１実施形態における関連語辞書作成装置は、関連語辞書作成プログラム３７（図３参照）のインストールによってサーバ１１に構築される形式で実現される。関連語辞書作成装置は、メタデータ（単語）が複数付された画像の入力によって、単語同士の関連性を記憶し、関連語辞書を作成する。なお、本実施形態では、画像に付されたメタデータに基づいて作成する場合を例に説明するが、映像、音楽、ゲーム、電子書籍、その他のコンテンツに付されたメタデータに基づいて作成するようにしてもよい。

サーバ１１は、インターネット１２を媒介して接続されたクライアント端末１３とともに、ネットワークシステム１４を構成する。クライアント端末１３は、例えば周知のパーソナルコンピュータやワークステーションであり、各種操作画面などを表示するモニタ１５と、操作信号を出力するマウス１６及びキーボード１７からなる操作部１８とを備えている。

クライアント端末１３には、デジタルカメラ１９で撮影して得られた画像や、メモリカードやＣＤ−Ｒなどの記録媒体２０に記録された画像が送信され、あるいは、インターネット１２を経由して画像が転送される。

デジタルカメラ１９は、例えば、ＩＥＥＥ１３９４、ＵＳＢ（Universal Serial Bus）などに準拠した通信ケーブルや、無線ＬＡＮなどによりクライアント端末１３に接続され、クライアント端末１３とのデータの相互通信が可能となっている。また、記録媒体２０も同様に、専用のドライバを介してクライアント端末１３とのデータの遣り取りが可能となっている。

図２に示すように、クライアント端末１３を構成するＣＰＵ２１は、操作部１８から入力される操作信号などに従ってクライアント端末１３全体を統括的に制御する。ＣＰＵ２１には、操作部１８の他に、データバス２２を介して、ＲＡＭ２３、ハードディスクドライブ（ＨＤＤ）２４、通信インターフェース（通信Ｉ／Ｆ）２５、及びモニタ１５が接続されている。

ＲＡＭ２３は、ＣＰＵ２１が処理を実行するための作業用メモリである。ＨＤＤ２４には、クライアント端末１３を動作させるための各種プログラムやデータが記憶されている他に、デジタルカメラ１９、記録媒体２０、あるいは、インターネット１２から取り込まれた画像データが記憶される。ＣＰＵ２１は、ＨＤＤ２４からプログラムを読み出してＲＡＭ２３に展開し、読み出したプログラムを逐次処理する。

通信Ｉ／Ｆ２５は、例えばモデムやルータであり、インターネット１２に適合した通信プロトコルの制御を行い、インターネット１２を経由したデータの遣り取りを媒介する。また、通信Ｉ／Ｆ２５は、デジタルカメラ１９や記録媒体２０などの外部機器とのデータ通信も行う。

図３に示すように、サーバ１１を構成するＣＰＵ３１は、インターネット１２を経由してクライアント端末１３から入力される操作信号に従ってサーバ１１全体を統括的に制御する。ＣＰＵ３１には、データバス３２を介して、ＲＡＭ３３、ハードディスクドライブ（ＨＤＤ）３４、通信インターフェース（通信Ｉ／Ｆ）３５、及びスコア算出部３６が接続されている。

ＲＡＭ３３は、ＣＰＵ３１が処理を実行するための作業用メモリである。ＨＤＤ３４には、サーバ１１を動作させるための各種プログラムやデータが記憶されている。また、ＨＤＤ３４には、関連語辞書作成プログラム３７が記憶されている。ＣＰＵ３１は、ＨＤＤ３４からプログラムを読み出してＲＡＭ３３に展開し、読み出したプログラムを逐次処理する。

ＨＤＤ３４には、画像データベース（画像ＤＢ）３８と、関連語辞書データベース（辞書ＤＢ）３９とが設けられている。画像ＤＢ３８には、インターネット１２を経由して入力された画像のデータとともに、図４に示す画像一覧テーブル４１、及び図５に示すメタデータ一覧テーブル４２が格納されている。

画像一覧テーブル４１は、取込み時に自動的に付けられるＩＤ（取込み順に付した通し番号）を見出しとして、画像のファイル名を記憶している。また、メタデータ一覧テーブル４２は、ＩＤを見出しとして、画像に付されたメタデータを記憶している。すなわち、メタデータ一覧テーブル４２は、単語記憶部として機能する。

メタデータには、画像に元々付されたもの、画像を取り込んだ際にファイルシステムなどの外部データベースから取得したもの（画像のタイトル、ジャンル、画像のイメージなど）などがある。例えば、図６に示すＩＤ「０００１」の画像４３には、「桜」、「青空」、「ピンク」、「春」が付されている。なお、画像一覧テーブル４１とメタデータ一覧テーブル４２とを統合して、一つのデータテーブルとしてもよい。

辞書ＤＢ３９には、図７に示すメタデータ出現頻度テーブル４４、図８に示すメタデータ共起頻度テーブル４５、及び図９に示す関連語辞書テーブル４６が格納されている。

メタデータ出現頻度テーブル４４は、メタデータの種類毎に、メタデータ一覧テーブル４２に記憶されている個数（出現頻度）を記憶している。例えば、メタデータ一覧テーブル４２に４３個の「桜」が記憶されている場合、「桜」の出現頻度は「４３」である。画像がサーバ１１に入力され、メタデータ一覧テーブル４２に新たなメタデータが記憶されると、メタデータ出現頻度テーブル４４は更新される。例えば、図６に示す画像４３がサーバ１１に入力された場合、メタデータ出現頻度テーブル４４は、「桜」、「青空」、「ピンク」、「春」の出現頻度がそれぞれ「１」加算される。なお、メタデータ一覧テーブル４２に新しい種類のメタデータが記憶された場合、メタデータ出現頻度テーブル４４には、新たに記憶されたメタデータの欄が追加されるとともに、その出現頻度に「１」が付与される。

メタデータ共起頻度テーブル４５は、メタデータの組合せの種類毎に、その共起頻度を記憶している。共起頻度とは、画像ＤＢ３８に記憶された画像の中に、当該組合せのメタデータが付された画像が何個存在するかを示す値である。例えば、画像ＤＢ３８に、「桜」と「青空」が付された画像が４個記憶されている場合、「桜」と「青空」の共起頻度は「４」である。画像がサーバ１１に入力され、メタデータ一覧テーブル４２に新たなメタデータが記憶されると、メタデータ共起頻度テーブル４５は更新される。例えば、図６に示す画像４３がサーバ１１に入力された場合、「桜」と「青空」、「桜」と「ピンク」、「桜」と「春」、「青空」と「ピンク」、「青空」と「春」、「ピンク」と「春」がそれぞれ共起しているので、メタデータ共起頻度テーブル４５は、「桜」と「青空」、「桜」と「ピンク」、「桜」と「春」、「青空」と「ピンク」、「青空」と「春」、「ピンク」と「春」の共起頻度がそれぞれ「１」加算される。また、メタデータ一覧テーブル４２に新しい組合せのメタデータが記憶された場合、メタデータ共起頻度テーブル４５には、新たに記憶された組合せのメタデータの欄が追加されるとともに、その共起頻度に「１」が付与される。なお、ＣＰＵ３１が共起頻度取得部として機能することで共起頻度が取得され、メタデータ共起頻度テーブル４５が更新される。

関連語辞書テーブル４６は、メタデータの組合せの種類毎にその関連度合を示す関連スコアを記憶する関連語記憶部である。すなわち、関連語辞書テーブル４６は、関連語辞書として機能する。関連語辞書テーブル４６は、画像がサーバ１１に入力され、メタデータ出現頻度テーブル４４及びメタデータ共起頻度テーブル４５が更新されると、関連語辞書テーブル４６は更新される。なお、関連語辞書テーブル４６の具体的な更新方法については、後述する。

図３に戻って、通信Ｉ／Ｆ３５は、例えばモデムやルータであり、インターネット１２に適合した通信プロトコルの制御を行い、インターネット１２を経由したデータの遣り取りを媒介する。通信Ｉ／Ｆ３５は、画像に付されたメタデータなどが入力される入力部として機能する。通信Ｉ／Ｆ３５を媒介して入力されたデータは、ＲＡＭ３３に一時的に記憶される。

スコア算出部３６は、画像がサーバ１１に入力されると、関連語辞書テーブル４６を更新するために、画像に付された複数のメタデータについて、相互情報量を算出する。すなわち、スコア算出部３６は、相互情報量算出部として機能する。相互情報量とは、確率理論において、２つの確率変数の相互依存の尺度を示す量のことで、ここでは、２つのメタデータＸ、Ｙが存在するときに、一方のメタデータから他方のメタデータへの情報量のことであり、メタデータＸとメタデータＹとの共起が相互にどの程度依存しているかを示す尺度である。相互情報量Ｉ（Ｘ；Ｙ）は、以下の数９の式で定義される。なお、ｐ（ｘ，ｙ）はメタデータＸとメタデータＹの同時分布関数であり、ｐ（ｘ）とｐ（ｙ）はそれぞれメタデータＸとメタデータＹの周辺確率分布関数である。

スコア算出部３６は、メタデータ出現頻度テーブル４４及びメタデータ共起頻度テーブル４５を参照しながら、上記数９の式を正規化した以下の数１０の式を用い、メタデータＸとメタデータＹとの相互情報量Ｉ（Ｘ，Ｙ）を算出する。なお、ｒｅｌ＿ｃｏｕｎｔ（Ｘ，Ｙ）は、メタデータＸに対するメタデータＹの共起頻度である。また、Ｓはメタデータ出現頻度テーブル４４に記憶されているメタデータの種類の個数であり、出現頻度テーブル４４に記憶されているメタデータの行数に等しい。また、ｎｕｍ＿ｃｏｕｎｔ（Ｘ）はメタデータＸの出現頻度であり、ｎｕｍ＿ｃｏｕｎｔ（Ｙ）はメタデータＹの出現頻度である。

スコア算出部３６は、相互情報量を算出した後に、メタデータ同士の関連度合を示す関連スコアを算出する。関連スコアの求め方は、例えば、次のとおりである。まず、メタデータ共起頻度テーブル４５を参照しながら、以下の数１１の式を用い、メタデータＸに対するメタデータＹの共起頻度に係る共起頻度スコアＲＥＬ＿ＳＣＯＲＥ（Ｘ，Ｙ）を算出する。これにより、共起頻度は［０，１００）で正規化される。なお、ＭＡＸ（ｒｅｌ＿ｃｏｕｎｔ（Ｘ，＊））は、メタデータ共起頻度テーブル４５に記憶されている中で、メタデータＸに対する共起頻度が最高のものの共起頻度である。

次に、スコア算出部３６は、メタデータ共起頻度テーブル４５を参照しながら、以下の数１２の式を用い、メタデータＸに対するメタデータＹの共起頻度の順位に基づいた順位スコアＲＡＮＫ＿ＳＣＯＲＥ（Ｘ，Ｙ）を算出する。これにより、共起頻度の順位は［０，１００）で正規化される。なお、ｒａｎｋ（Ｘ，Ｙ）は、メタデータＸに対するメタデータＹの共起頻度の順位である。また、ＭＡＸ（ｒａｎｋ（Ｘ，＊））は、メタデータ共起頻度テーブル４５に記憶されている中で、メタデータＸに対する共起頻度が最下位のものの順位である。つまり、ＭＡＸ（ｒａｎｋ（Ｘ，＊））は、メタデータＸと共起するメタデータの種類の総数と等価である。

そして、以下の数１３の式を用いて、数１１の式で求めた共起頻度スコアと、数１２の式で求めた順位スコアとの平均スコアＡＶＥＲＡＧＥ＿ＳＣＯＲＥ（Ｘ，Ｙ）を算出する。これにより、メタデータＸに対する共起頻度にバラツキが生じて共起頻度スコアにバラツキが生じたとしても、そのバラツキを抑えることができる。

最後に、以下の数１４の式に示すように、数１０の式で求めた相互情報量と、数１３の式で求めた平均スコアとを乗算して、関連スコアＭＵＴＵＡＬ＿ＳＣＯＲＥ（Ｘ，Ｙ）を算出する。関連スコアが算出されると、その関連語スコアをもって関連語辞書テーブル４６は更新される。なお、関連スコアが算出されたメタデータの組合せが新しいものである場合、関連語辞書テーブル４６には、新たな組合せのメタデータの欄が追加されるとともに、その関連スコアが記憶される。

次に、上記構成のサーバ１１（図１、図３参照）が関連語辞書作成装置として機能したときの処理手順について、図１０のフローチャートを参照しながら説明する。ユーザは、クライアント端末１３の操作部１８を操作して、サーバ１１に画像を入力する。サーバ１１に入力された画像は、それに付されたメタデータとともにＲＡＭ３３に記憶される。

サーバ１１に入力された画像は、ＲＡＭ３３から画像ＤＢ３８に読み出され、画像ＤＢ３８に記憶される。また、サーバ１１に入力された画像に基づいて画像一覧テーブル４１（図４参照）が更新される。

一方、サーバ１１に入力されたメタデータに基づいて、メタデータ一覧テーブル４２（図５参照）、メタデータ出現頻度テーブル４４（図７参照）、及びメタデータ共起頻度テーブル４５（図８参照）が更新される。

また、サーバ１１に入力されたメタデータは、ＲＡＭ３３からスコア算出部３６に読み出される。スコア算出部３６では、メタデータ出現頻度テーブル４４及びメタデータ共起頻度テーブル４５が参照されながら、上記数１０の式に基づいてメタデータ同士の相互情報量が算出される。

相互情報量が算出されると、スコア算出部３６では、メタデータ共起頻度テーブル４５が参照されながら、上記数１１、数１２、数１３、及び数１４のそれぞれの式に基づいて、関連スコアが算出される。算出された関連スコアは、ＲＡＭ３３記憶される。

スコア算出部３６で算出された関連スコアは、ＲＡＭ３３から辞書ＤＢ３９に読み出される。そして、辞書ＤＢ３９に読み出された関連スコアをもって関連語辞書テーブル４６（図９参照）が更新される。

以上説明したように、共起頻度だけでなく相互情報量にも基づいて、２つの単語の関連度合を示す関連スコアを算出するようにしたので、画像に付されている頻度が高い単語に係る関連スコアが、その頻度だけを理由としては高くならないので、一般通念に沿った関連語辞書を作成することができる。つまり、作成された関連語辞書は、ユーザが納得できる関連語を提供することが可能である。また、関連語辞書テーブル４６に記憶されていない新たなメタデータ（未知語）についても、メタデータ出現頻度テーブル４４及びメタデータ共起頻度テーブル４５に新たに記憶させることができるので、ひいては、関連語辞書テーブル４６に未知語を記憶させることができる。

なお、上記第１実施形態における関連語辞書装置では、画像に付されたメタデータに基づいて関連語辞書を作成したが、テキストデータに含まれる単語に基づいて関連語辞書を作成するようにしてもよい。

［第２実施形態］
図１１において、第２実施形態における関連語辞書作成装置は、関連語辞書作成プログラム５１のインストールによってサーバ５２に構築される形式で実現される。関連語辞書作成装置は、複数の単語からなるテキストデータが入力されることによって、単語同士の関連性を記憶し、関連語辞書を作成する。

ＣＰＵ３１には、データバス３２を介して、ＨＤＤ３４、単語抽出部５３などが接続されている。ＨＤＤ３４には、関連語辞書作成プログラム５１が記憶されるとともに、単語データベース（単語ＤＢ）５４が設けられている。単語ＤＢ５４には、図１２に示す単語一覧テーブル５５が格納されている。

単語一覧テーブル５５は、自動的に付けられるＩＤ（通し番号）を見出しとして、単語を記憶している。すなわち、単語一覧テーブル５５は、単語記憶部として機能する。

単語抽出部５３は、サーバ５２にテキストデータが入力された場合、そのテキストデータを解析して単語を抽出する。具体的には、テキストデータが「大橋青年は物知りである。」である場合、単語抽出部５３は、テキストデータの文法的な構造を解析する構文解析、及び文章を形態素（言語で意味を持つ最小単位）に分割し、品詞に分類する形態素解析をテキストデータに対して施す。そして、これらの解析結果に基づいて、テキストデータから単語を抽出する。この場合、「大橋」、「青年」、「物知り」が抽出される。

単語抽出部５３で抽出された単語は、抽出元のテキストデータを一つの単位としてＩＤが付与されて、そして単語一覧テーブル５５に記憶される。上記の場合、「大橋」、「青年」、「物知り」は、同一のＩＤを見出しとして記憶される。なお、上記第１実施形態と同様の構成については、図面に符号を付すなどして詳しい説明を省略する。

次に、上記構成のサーバ５２（図１１参照）が関連語辞書作成装置として機能したときの処理手順について、図１３のフローチャートを参照しながら説明する。ユーザは、クライアント端末１３の操作部１８（図１参照）を操作して、サーバ５２にテキストデータを入力する。サーバ５２に入力されたテキストデータは、ＲＡＭ３３に記憶される。

サーバ５２に入力されたテキストデータは、ＲＡＭ３３から単語抽出部５３に読み出される。単語抽出部５３では、テキストデータが解析されて単語が抽出される。抽出された単語は、ＲＡＭ３３に記憶される。

単語抽出部５３で抽出された単語は、ＲＡＭ３３から単語ＤＢ５４にメタデータとして読み出される。読み出されたメタデータに基づいて単語一覧テーブル５５（図１２参照）が更新される。

また、単語抽出部５３で抽出された単語は、ＲＡＭ３３からスコア算出部３６にメタデータとして読み出される。スコア算出部３６では、メタデータ出現頻度テーブル４４及びメタデータ共起頻度テーブル４５が参照されながら、上記数１０の式に基づいてメタデータ同士の相互情報量が算出される。

相互情報量が算出されると、スコア算出部３６では、メタデータ共起頻度テーブル４５が参照されながら、上記数１１、数１２、数１３、及び数１４のそれぞれの式に基づいて、関連スコアが算出される。算出された関連スコアは、ＲＡＭ３３に記憶される。

以上説明したように、共起頻度だけでなく相互情報量にも基づいて、２つの単語の関連度合を示す関連スコアを算出するようにしたので、出現頻度が高い単語に係る関連スコアが、その出現頻度だけを理由としては高くならないので、一般通念に沿った関連語辞書を作成することができる。なお、上記第１実施形態と同様の効果については、その説明を省略する。

なお、上記各実施形態では、スコア算出部３６は、上記数１１、数１２、数１３、及び数１４のそれぞれの式に基づいて関連語スコアを算出したが、本発明の趣旨を逸脱しない限りこれに限定されるものではない。

また、上記各実施形態では、インターネット１２に接続されたサーバ１１に関連語辞書作成装置が構築され、万人がアクセス可能な関連語辞書を作成する場合を例に説明したが、これに限定されるものではない。例えば、個人が使用するパーソナルコンピュータに関連語辞書作成装置が構築され、当該パーソナルコンピュータに関連語辞書を作成するようにしてもよい。この場合、メモリカードが記憶した情報を読み込むカードリーダなどが、当該コンテンツに付されたメタデータ（単語）が入力される入力部として機能する。

また、上記各実施形態で示した関連語辞書作成装置は一例にすぎず、本発明の趣旨を逸脱しなければ、如何様な態様にも適宜変更することができる。

ネットワークシステムの構成を示す概略図である。クライアント端末の内部構成を示すブロック図である。サーバの内部構成を示すブロック図である。画像一覧テーブルの構成を示す説明図である。メタデータ一覧テーブルの構成を示す説明図である。「桜」が写る画像図である。メタデータ出現頻度テーブルの構成を示す説明図である。メタデータ共起頻度テーブルの構成を示す説明図である。関連語辞書テーブルの構成を示す説明図である。関連語辞書作成の処理手順を説明するフローチャートである。別の実施形態のサーバの内部構成を示すブロック図である。単語一覧テーブルの構成を示す説明図である。別の実施形態における関連語辞書作成の処理手順を説明するフローチャートである。

符号の説明

１１、５２サーバ（関連語辞書作成装置）
３１ＣＰＵ（共起頻度取得部）
３５通信インターフェース（通信Ｉ／Ｆ、入力部）
３６スコア算出部（相互情報量算出部）
３７、５１関連語辞書作成プログラム
４２、５５メタデータ一覧テーブル（単語記憶部）
４３画像（コンテンツ）
４６関連語辞書テーブル（関連語記憶部）
５３単語抽出部
５５単語一覧テーブル（単語記憶部）

Claims

単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置において、
複数の単語がメタデータとして付されたコンテンツの前記複数の単語がメタデータのセットとして入力される入力部と、
前記単語をメタデータのセット毎に記憶する単語記憶部と、
メタデータのセットで入力された複数の単語について、２つの単語毎に、その２つの単語を含むメタデータのセットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得部と、
前記共起頻度に基づいて、前記２つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出部と、
前記共起頻度及び前記相互情報量に基づいて、前記２つの単語の関連度合を示す関連スコアを算出するスコア算出部と、
前記関連スコアを記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを記憶する関連語記憶部とを備えたことを特徴とする関連語辞書作成装置。
前記スコア算出部は、前記２つの単語の前記共起頻度が、その単語の一方と前記単語記憶部に記憶されている各単語との共起頻度の中で何番目に高いかを示す順位を取得し、その順位に基づいて、前記関連スコアを算出することを特徴とする請求項１記載の関連語辞書作成装置。
前記相互情報量算出部は、前記２つの単語の共起頻度をｒｅｌ＿ｃｏｕｎｔ（Ｘ，Ｙ）とし、前記単語記憶部に記憶されている単語の種類数をＳとし、前記２つの単語の一方が前記単語記憶部に記憶されている個数をｎｕｍ＿ｃｏｕｎｔ（Ｘ）とし、且つ、前記２つの単語の他方が前記単語記憶部に記憶されている個数をｎｕｍ＿ｃｏｕｎｔ（Ｙ）として数１の式を用いて前記相互情報量を算出することを特徴とする請求項２記載の関連語辞書作成装置。
前記スコア算出部は、
前記２つの単語の一方と前記単語記憶部に記憶されている各単語との共起頻度の中で最高値をＭＡＸ（ｒｅｌ＿ｃｏｕｎｔ（Ｘ，＊））として数２の式を用いて共起頻度スコアを算出し、
前記２つの単語の前記順位をｒａｎｋ（Ｘ，Ｙ）とし、且つ、前記２つの単語の一方と共起する単語が前記単語記憶部に何種類記憶されているかを示す値をＭＡＸ（ｒａｎｋ（Ｘ，＊））として数３の式を用いて順位スコアを算出し、
前記共起頻度スコアと前記順位スコアとの相加平均値をＡＶＥＲＡＧＥ＿ＳＣＯＲＥ（Ｘ，Ｙ）とし、且つ、前記相互情報量をＩ（Ｘ，Ｙ）として数４の式を用いて前記関連スコアを算出することを特徴とする請求項３記載の関連語辞書作成装置。
単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成方法において、
複数の単語がメタデータとして付されたコンテンツの前記複数の単語がメタデータのセットとして入力される入力ステップと、
前記単語をメタデータのセット毎に単語記憶部に記憶する単語記憶ステップと、
メタデータのセットで入力された複数の単語について、２つの単語毎に、その２つの単語を含むメタデータのセットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得ステップと、
前記共起頻度に基づいて、前記２つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出ステップと、
前記共起頻度及び前記相互情報量に基づいて、前記２つの単語の関連度合を示す関連スコアを算出するスコア算出ステップと、
前記関連スコアを関連語記憶部に記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを前記関連語記憶部に記憶する関連語記憶ステップとを備えたことを特徴とする関連語辞書作成方法。
単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置のコンピュータに、
複数の単語がメタデータとして付されたコンテンツの前記複数の単語がメタデータのセットとして入力される入力ステップと、
前記単語をメタデータのセット毎に単語記憶部に記憶する単語記憶ステップと、
メタデータのセットで入力された複数の単語について、２つの単語毎に、その２つの単語を含むメタデータのセットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得ステップと、
前記共起頻度に基づいて、前記２つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出ステップと、
前記共起頻度及び前記相互情報量に基づいて、前記２つの単語の関連度合を示す関連スコアを算出するスコア算出ステップと、
前記関連スコアを関連語記憶部に記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを前記関連語記憶部に記憶する関連語記憶ステップとを実行させるための関連語辞書作成プログラム。
単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置において、
複数の単語から構成されるテキストデータが入力される入力部と、
前記テキストデータから単語を抽出する単語抽出部と、
抽出元のテキストデータが同一である単語をセットとして記憶する単語記憶部と、
入力されたテキストデータから抽出された複数の単語について、２つの単語毎に、その２つの単語を含む前記セットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得部と、
前記共起頻度に基づいて、前記２つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出部と、
前記共起頻度及び前記相互情報量に基づいて、前記２つの単語の関連度合を示す関連スコアを算出するスコア算出部と、
前記関連スコアを記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを記憶する関連語記憶部とを備えたことを特徴とする関連語辞書作成装置。
前記スコア算出部は、前記２つの単語の前記共起頻度が、その単語の一方と前記単語記憶部に記憶されている各単語との共起頻度の中で何番目に高いかを示す順位を取得し、その順位に基づいて、前記関連スコアを算出することを特徴とする請求項７記載の関連語辞書作成装置。