JP2009266065A

JP2009266065A - 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム

Info

Publication number: JP2009266065A
Application number: JP2008116844A
Authority: JP
Inventors: Yosuke Ohashi; 洋介大橋
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2008-04-28
Filing date: 2008-04-28
Publication date: 2009-11-12

Abstract

【課題】手間を掛けずに関連語辞書を作成する。
【解決手段】メタデータが付された二つ一組の画像を入力し、二つ一組でサーバに入力された画像のそれぞれに付されたメタデータの組合せ毎に、メタデータ共起頻度テーブルの共起頻度を「１」加算する。スコア算出部は、メタデータ共起頻度テーブルを参照しながら、共起頻度に基づく式を用いて、単語同士の関連スコアを算出する。スコア算出部で算出された関連スコアをもって関連語辞書テーブルを更新する。
【選択図】図１３

Description

本発明は、単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成方法及び装置、並びに関連語辞書作成プログラムに関する。

最近、携帯電話やパーソナルコンピュータなどの情報端末機器の普及に伴い、映像、画像、音楽、ゲーム、電子辞書、Ｗｅｂページといった様々なコンテンツを大量且つ容易に得ることが可能になった。このため、情報端末機器でコンテンツの検索を行う機会が増加している。コンテンツの検索を行う場合、テキスト検索が広く用いられている。テキスト検索では、ユーザにより入力されたテキストが検索条件として用いられ、予めコンテンツに付されたメタデータに基づいてコンテンツが探し出されることとなる。コンテンツが探し出されると、検索結果として文字や画像などの項目が表示され、ユーザはこれを選択することによりコンテンツを得ることができる。

しかし、ユーザにより入力されるテキストは、検索条件として必ずしも適切であるとは限らない。このため、ユーザは、満足のいく検索結果が得られるまで異なるテキストを思考しながら検索を繰り返すこともある。

このため、単語同士の関連性を記憶した関連語辞書を利用して、入力されたテキストと同義や類似などの語を、入力されたテキストとの結び付きの強さに応じて検索条件に追加し、拡張された検索条件でコンテンツの検索を行う方法がある（例えば、特許文献１、２参照）。関連語辞書を利用することで、入力されたテキストが検索条件として適切とはいえない場合であっても、ユーザが所望するコンテンツを検索にヒットさせることが可能になる。

ところで、そのような関連語辞書を作成する場合、人手で行うと、長い年月と莫大な費用が掛かる。また、新語の出現や単語の使い方の変化に応じて関連語辞書をメンテナンスする場合にも、人手で行うことは面倒である。

一方で、手間を掛けずに自動的に関連語辞書を作成する方法もある。例えば、特許文献１の発明では、入力された文章から単語を抽出し、抽出された単語の組合せをデータベースに記憶することで関連語辞書を作成する。特許文献２の発明では、入力された質問文から単語を抽出し、抽出された単語と、抽出された単語に基づく回答候補の単語から選択された単語との組合せをデータベースに記憶することで関連語辞書を作成する。
特開平０８−１６１３４３号公報特開２００６−３４３９２５号公報

しかしながら、特許文献１、２の発明では、ユーザが文章を入力しなければならない。また、特許文献１の発明では、どの単語が関連語辞書に反映されたのかが明確ではない。さらに、特許文献２の発明では、回答候補の単語の中から選択する必要があり、単語の組合せを入力した場合と同等の手間が掛かる。

本発明は、上記課題を鑑みてなされたものであり、手間を掛けずに関連語辞書を作成する関連語辞書作成方法及び装置、並びに関連語辞書作成プログラムを提供することを目的とする。

上記目的を達成するために、本発明の関連語辞書作成装置は、単語が付された二つ一組のコンテンツが、前記単語とともに入力される入力部と、一方のコンテンツに付された単語、及び他方のコンテンツに付された単語の組合せを記憶する関連語記憶部とを備えている。

請求項２に記載の発明では、単語が前記組合せで過去に何回入力されたかを示す共起頻度を、単語の組合せ毎に記憶する共起頻度記憶部と、前記共起頻度に基づいて、単語同士の関連度合を示す関連スコアを算出するスコア算出部とを備えている。また、前記関連語記憶部は、単語の組合せとともに前記関連スコアを記憶する。

請求項３に記載の発明では、前記スコア算出部は、前記共起頻度をｒｅｌ＿ｃｏｕｎｔとし、且つ前記共起頻度記憶部に記憶されている前記共起頻度の中で最高値をＭＡＸ（ｒｅｌ＿ｃｏｕｎｔ）として数１の式を用いて関連スコアを算出する。

本発明の関連語辞書作成方法は、単語が付された二つ一組のコンテンツが、前記単語とともに入力される入力ステップと、一方のコンテンツに付された単語、及び他方のコンテンツに付された単語の組合せを記憶する関連語記憶ステップとを備えている。

請求項５に記載の発明では、前記関連語記憶ステップの前に、単語が前記組合せで過去に何回入力されたかを示す共起頻度を、単語の組合せ毎に記憶する共起頻度記憶ステップと、前記共起頻度に基づいて、単語同士の関連度合を示す関連スコアを算出するスコア算出ステップとを備えている。また、前記関連語記憶ステップでは、単語の組合せとともに前記関連スコアを記憶する。

本発明の関連語辞書作成プログラムは、単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置のコンピュータに、単語が付された二つ一組のコンテンツが、前記単語とともに入力される入力ステップと、一方のコンテンツに付された単語、及び他方のコンテンツに付された単語の組合せを記憶する関連語記憶ステップとを実行させるためのものである。

請求項７に記載の発明では、前記関連語記憶ステップの前に、単語が前記組合せで過去に何回入力されたかを示す共起頻度を、単語の組合せ毎に記憶する共起頻度記憶ステップと、前記共起頻度に基づいて、単語同士の関連度合を示す関連スコアを算出するスコア算出ステップとを実行させる。また、前記関連語記憶ステップでは、単語の組合せとともに前記関連スコアを記憶する。

本発明の別の関連語辞書作成装置は、単語が付された二つ一組のコンテンツが、前記単語とともに入力される入力部と、単語の組合せを記憶する関連語記憶部と、一方のコンテンツに付された単語、及び他方のコンテンツに付された単語の組合せを前記関連語記憶部から削除する関連語削除部とを備えている。

本発明の関連語辞書作成方法及び装置、並びに関連語辞書作成プログラムによれば、入力部から入力された二つ一組のコンテンツに付された単語について、一方のコンテンツに付された単語と、他方のコンテンツに付された単語とを関連付けて単語の組合せとして関連語記憶部に記憶するだけなので、手間を掛けずに関連語辞書を作成することができる。

［第１実施形態］
図１において、第１実施形態における関連語辞書作成装置は、関連語辞書作成プログラム３７（図３参照）のインストールによってサーバ１１に構築される形式で実現される。関連語辞書作成装置は、メタデータ（単語）が付された二つ一組のコンテンツの入力によって、単語同士の関連性を記憶し、関連語辞書を作成する。なお、本実施形態では、画像に付されたメタデータに基づいて作成する場合を例に説明するが、映像、音楽、ゲーム、電子辞書、その他のコンテンツに付されたメタデータに基づいて作成するようにしてもよい。

サーバ１１は、インターネット１２を媒介して接続されたクライアント端末１３とともに、ネットワークシステム１４を構成する。クライアント端末１３は、例えば周知のパーソナルコンピュータやワークステーションであり、各種操作画面などを表示するモニタ１５と、操作信号を出力するマウス１６及びキーボード１７からなる操作部１８とを備えている。

クライアント端末１３には、デジタルカメラ１９で撮影して得られた画像や、メモリカードやＣＤ−Ｒなどの記録媒体２０に記録された画像が送信され、あるいは、インターネット１２を経由して画像が転送される。

デジタルカメラ１９は、例えば、ＩＥＥＥ１３９４、ＵＳＢ（Universal Serial Bus）などに準拠した通信ケーブルや、無線ＬＡＮなどによりクライアント端末１３に接続され、クライアント端末１３とのデータの相互通信が可能となっている。また、記録媒体２０も同様に、専用のドライバを介してクライアント端末１３とのデータの遣り取りが可能となっている。

図２に示すように、クライアント端末１３を構成するＣＰＵ２１は、操作部１８から入力される操作信号などに従ってクライアント端末１３全体を統括的に制御する。ＣＰＵ２１には、操作部１８の他に、データバス２２を介して、ＲＡＭ２３、ハードディスクドライブ（ＨＤＤ）２４、通信インターフェース（通信Ｉ／Ｆ）２５、及びモニタ１５が接続されている。

ＲＡＭ２３は、ＣＰＵ２１が処理を実行するための作業用メモリである。ＨＤＤ２４には、クライアント端末１３を動作させるための各種プログラムやデータが記憶されている他に、デジタルカメラ１９、記録媒体２０、あるいは、インターネット１２から取り込まれた画像データが記憶される。ＣＰＵ２１は、ＨＤＤ２４からプログラムを読み出してＲＡＭ２３に展開し、読み出したプログラムを逐次処理する。

通信Ｉ／Ｆ２５は、例えばモデムやルータであり、インターネット１２に適合した通信プロトコルの制御を行い、インターネット１２を経由したデータの遣り取りを媒介する。また、通信Ｉ／Ｆ２５は、デジタルカメラ１９や記録媒体２０などの外部機器とのデータ通信も行う。

図３に示すように、サーバ１１を構成するＣＰＵ３１は、インターネット１２を経由してクライアント端末１３から入力される操作信号に従ってサーバ１１全体を統括的に制御する。ＣＰＵ３１には、データバス３２を介して、ＲＡＭ３３、ハードディスクドライブ（ＨＤＤ）３４、通信インターフェース（通信Ｉ／Ｆ）３５、及びスコア算出部３６が接続されている。

ＲＡＭ３３は、ＣＰＵ３１が処理を実行するための作業用メモリである。ＨＤＤ３４には、サーバ１１を動作させるための各種プログラムやデータが記憶されている。また、ＨＤＤ３４には、関連語辞書作成プログラム３７が記憶されている。ＣＰＵ３１は、ＨＤＤ３４からプログラムを読み出してＲＡＭ３３に展開し、読み出したプログラムを逐次処理する。

ＨＤＤ３４には、画像データベース（画像ＤＢ）３８と、関連語辞書データベース（辞書ＤＢ）３９とが設けられている。画像ＤＢ３８には、インターネット１２を経由して入力された画像のデータとともに、図４に示す画像一覧テーブル４１、及び図５に示すメタデータ一覧テーブル４２が格納されている。

画像一覧テーブル４１は、取込み時に自動的に付けられるＩＤ（取込み順に付した通し番号）を見出しとして、画像のファイル名を記憶している。また、メタデータ一覧テーブル４２は、ＩＤを見出しとして、画像に付されたメタデータを記憶している。

メタデータには、画像に元々付されたもの、画像を取り込んだ際にファイルシステムなどの外部データベースから取得したもの（画像のタイトル、ジャンル、画像のイメージなど）などがある。例えば、図６に示すＩＤ「０００３」の画像４３には、「桜」、「青空」、「ピンク」、「春」が付されている。また、図７に示すＩＤ「０００４」の画像４４には、「桜」、「菜の花」、「花」が付されている。なお、画像一覧テーブル４１とメタデータ一覧テーブル４２とを統合して、一つのデータテーブルとしてもよい。

辞書ＤＢ３９には、図８に示すメタデータ共起頻度テーブル４５、及び図９に示す関連語辞書テーブル４６が格納されている。

メタデータ共起頻度テーブル４５は、メタデータの組合せの種類毎に、その共起頻度を記憶する共起頻度記憶部である。共起頻度とは、二つ一組でサーバ１１に入力された画像のそれぞれに付されたメタデータの組合せが、今までにどれだけ存在したかを示す値である。例えば、「桜」が付された画像と「ピンク」が付された画像が二つ一組でサーバ１１に入力された回数が今までに３回あった場合、「桜」と「ピンク」の共起頻度は「３」である。

図６に示す画像４３と図７に示す画像４４が二つ一組でサーバ１１に入力された場合、図１０に示すように、「桜」と「桜」、「桜」と「菜の花」、「桜」と「花」、「青空」と「桜」、「青空」と「菜の花」、「青空」と「花」、「ピンク」と「桜」、「ピンク」と「菜の花」、「ピンク」と「花」、「春」と「桜」、「春」と「菜の花」、「春」と「花」がそれぞれ共起している。但し、「桜」と「桜」は同一のメタデータであり、形式的に共起しているに過ぎず、除外される。

図８に示すメタデータ共起頻度テーブル４５は、図１１に示すように、形式的に共起している「桜」と「桜」を除外した残りの組合せ「桜」と「菜の花」、「桜」と「花」、「青空」と「桜」、「青空」と「菜の花」、「青空」と「花」、「ピンク」と「桜」、「ピンク」と「菜の花」、「ピンク」と「花」、「春」と「桜」、「春」と「菜の花」、「春」と「花」の共起頻度がそれぞれ「１」加算される。なお、今までにない組合せについて加算する場合、メタデータ共起頻度テーブル４５には、新たな組合せのメタデータの欄が追加されるとともに、その共起頻度に「１」が付与される。

関連語辞書テーブル４６は、メタデータの組合せの種類毎にその関連度合を示す関連スコアを記憶する関連語記憶部である。すなわち、関連語辞書テーブル４６は、関連語辞書として機能する。画像がサーバ１１に入力され、メタデータ共起頻度テーブル４５が更新されると、関連語辞書テーブル４６は更新される。なお、関連語辞書テーブル４６の具体的な更新方法については、後述する。

図３に戻って、通信Ｉ／Ｆ３５は、例えばモデムやルータであり、インターネット１２に適合した通信プロトコルの制御を行い、インターネット１２を経由したデータの遣り取りを媒介する。通信Ｉ／Ｆ３５は、画像に付されたメタデータなどが入力される入力部として機能する。通信Ｉ／Ｆ３５を媒介して入力されたデータは、ＲＡＭ３３に一時的に記憶される。

スコア算出部３６は、二つ一組の画像がサーバ１１に入力されると、メタデータ共起頻度テーブル４５を参照しながら、メタデータ同士の関連度合を示す関連スコアを算出する。関連スコアＲは、例えば、以下の数３の式によって求められる。なお、ｒｅｌ＿ｃｏｕｎｔは、メタデータの共起頻度である。また、ＭＡＸ（ｒｅｌ＿ｃｏｕｎｔ）は、メタデータ共起頻度テーブル４５に記憶されている中で最高の共起頻度である。

例えば、図１１に示す共起頻度テーブル４５を参照して「桜」と「ピンク」の関連スコアを求めると、Ｒ＝８０（＝４／５×１００）となる。

関連スコアが算出されると、その関連語スコアをもって関連語辞書テーブル４６は更新される。なお、関連スコアが算出されたメタデータの組合せが新しいものである場合、関連語辞書テーブル４６には、新たな組合せのメタデータの欄が追加されるとともに、その関連スコアが記憶される。図１１に示す共起頻度テーブル４５を参照して関連スコアが算出された場合、関連語辞書テーブル４６は、図１２に示すように更新される。例えば、「桜」と「ピンク」の関連スコアは「８０」となる。

次に、上記構成のサーバ１１（図１、図３参照）が関連語辞書作成装置として機能したときの処理手順について、図１３のフローチャートを参照しながら説明する。ユーザは、クライアント端末１３の操作部１８を操作して、サーバ１１に二つ一組の画像を入力する。サーバ１１に入力された二つ一組の画像は、それに付されたメタデータとともにＲＡＭ３３に記憶される。

サーバ１１に入力された画像は、ＲＡＭ３３から画像ＤＢ３８に読み出され、画像ＤＢ３８に記憶される。また、サーバ１１に入力された画像に基づいて画像一覧テーブル４１（図４参照）が更新される。

一方、サーバ１１に入力されたメタデータに基づいて、メタデータ一覧テーブル４２（図５参照）、及びメタデータ共起頻度テーブル４５（図８→図１１）が更新される。

また、サーバ１１に入力されたメタデータは、ＲＡＭ３３からスコア算出部３６に読み出される。スコア算出部３６では、メタデータ共起頻度テーブル４５が参照されながら、上記数３の式に基づいて、関連スコアが算出される。算出された関連スコアは、ＲＡＭ３３に記憶される。

スコア算出部３６で算出された関連スコアは、ＲＡＭ３３から辞書ＤＢ３９に読み出される。そして、辞書ＤＢ３９に読み出された関連スコアをもって関連語辞書テーブル４６（図９→図１２）が更新される。

以上説明したように、メタデータが付された二つ一組の画像が入力されるだけで、関連語辞書テーブル４６が更新される（単語の組合せが追加される）ので、ユーザは手間を掛けずに関連語辞書を作成することができる。また、関連語辞書テーブル４６に記憶されていない新たなメタデータ（未知語）についても、メタデータ共起頻度テーブル４５に新たに記憶させることができるので、ひいては、関連語辞書テーブル４６に未知語を記憶させることができる。

なお、上記第１実施形態では、既にメタデータが記憶されている関連語辞書テーブル４６を更新する場合を例に説明したが、何も記憶されていない関連語辞書テーブル４６にメタデータを記憶するようにしてもよい。

また、上記第１実施形態では、二つ一組で入力された画像のそれぞれに付されたメタデータの組合せに基づいて、共起頻度を「１」だけ加算したが、メタデータ共起頻度テーブル４５の中で最も高くなるように共起頻度を加算するようにしてもよい。例えば、図８に示すメタデータ共起頻度テーブル４５に「桜」と「花」の共起頻度を加算する場合、新たな欄が設けられ、さらに、それまでで最高であった「桜」と「菜の花」の共起頻度「４」に「１」を加えた「５」が共起頻度として付与される。ひいては、「桜」と「花」の関連スコアが最高値となる。つまり、最後に入力された二つ一組の画像のそれぞれに付されたメタデータの組合せの関連スコアが最高値となる。このようにすることで、ユーザは、任意のメタデータの組合せの関連スコアを容易に最高値とすることができる。また、話題の単語を含む組合せの関連スコアを急上昇させることができる。

また、上記第１実施形態では、二つ一組で入力された画像のそれぞれに付されたメタデータの組合せに基づいて共起頻度を加算したが、次の第２実施形態で説明するように、共起頻度を減算するようにしてもよい。

［第２実施形態］
図６に示す画像３４と図７に示す画像４４が二つ一組でサーバ１１に入力された場合、図１０に示すように、「桜」と「桜」、「桜」と「菜の花」、「桜」と「花」、「青空」と「桜」、「青空」と「菜の花」、「青空」と「花」、「ピンク」と「桜」、「ピンク」と「菜の花」、「ピンク」と「花」、「春」と「桜」、「春」と「菜の花」、「春」と「花」がそれぞれ共起している。但し、「桜」と「桜」は同一のメタデータであり、形式的に共起しているに過ぎず、除外される。

図８に示すメタデータ共起頻度テーブル４５は、図１４に示すように、形式的に共起している「桜」と「桜」を除外した残りの組合せ「桜」と「菜の花」、「桜」と「花」、「青空」と「桜」、「青空」と「菜の花」、「青空」と「花」、「ピンク」と「桜」、「ピンク」と「菜の花」、「ピンク」と「花」、「春」と「桜」、「春」と「菜の花」、「春」と「花」の共起頻度がそれぞれ「１」減算される。なお、メタデータ共起頻度テーブル４５に元々ない組合せについては無視される。また、「１」減算されたことで共起頻度が「０」となった場合、そのメタデータの欄は削除される。

スコア算出部３６は、二つ一組の画像がサーバ１１に入力されると、関連スコアを算出する。例えば、図１４に示す共起頻度テーブル４５を参照して「桜」と「ピンク」の関連スコアを求めると、Ｒ＝６６．６６７（≒２／３×１００）となる。図１４に示す共起頻度テーブル４５を参照して関連スコアが算出された場合、関連語辞書テーブル４６は、図１５に示すように更新される。例えば、「桜」と「ピンク」の関連スコアは「６６．６６７」となる。

以上説明したように、メタデータが付された二つ一組の画像が入力されるだけで、関連語辞書テーブル４６が更新される（単語の組合せが削除される）ので、ユーザは手間を掛けずに関連語辞書を作成することができる。なお、上記第１実施形態と同様の構成、処理手順、及び効果については、その説明を省略する。

なお、上記第２実施形態では、二つ一組で入力された画像のそれぞれに付されたメタデータの組合せに基づいて、共起頻度を「１」だけ減算したが、メタデータ共起頻度テーブル４５から削除されるように共起頻度を「０」まで減算するようにしてもよい。例えば、図８に示すメタデータ共起頻度テーブル４５から「かわいい」と「菜の花」の共起頻度を減算する場合、「かわいい」と「菜の花」の共起頻度は「０」まで減算され、さらに、そのメタデータの欄は削除される。ひいては、関連語辞書テーブル４６から「かわいい」と「菜の花」の組合せが削除される。このようにすることで、ユーザは、任意のメタデータの組合せを、関連語辞書テーブル４６から容易に削除することができる。すなわち、一時の流行語で死語となった単語を含む組合せを関連語辞書テーブル４６から削除することが容易である。

また、上記各実施形態を組み合わせ、二つ一組の画像を入力するだけで、単語の組合せを追加したり削除したりすることができるようにしてもよい。

また、上記各実施形態では、スコア算出部３６は、上記数３の式に基づいて関連スコアを算出したが、共起頻度（ｒｅｌ＿ｃｏｕｎｔ）が大きいほど関連スコアが大きくなる増加関数であれば、これに限定されるものではない。

また、上記各実施形態では、二つ一組の画像をユーザが入力する場合を例に説明したが、サーバ１１が自動的に二つ一組の画像を取得するようにしてもよい。

また、上記各実施形態では、インターネット１２に接続されたサーバ１１に関連語辞書作成装置が構築され、万人がアクセス可能な関連語辞書を作成する場合を例に説明したが、これに限定されるものではない。例えば、個人が使用するパーソナルコンピュータに関連語辞書作成装置が構築され、当該パーソナルコンピュータに関連語辞書を作成するようにしてもよい。この場合、メモリカードが記憶した情報を読み込むカードリーダなどが、当該コンテンツに付されたメタデータ（単語）が入力される入力部として機能する。

また、上記各実施形態で示した関連語辞書作成装置は一例にすぎず、本発明の趣旨を逸脱しなければ、如何様な態様にも適宜変更することができる。

ネットワークシステムの構成を示す概略図である。クライアント端末の内部構成を示すブロック図である。サーバの内部構成を示すブロック図である。画像一覧テーブルの構成を示す説明図である。メタデータ一覧テーブルの構成を示す説明図である。「桜」、「青空」、「ピンク」及び「春」が付された画像図である。「桜」、「菜の花」及び「花」が付された画像図である。メタデータ共起頻度テーブルの構成を示す説明図である。関連語辞書テーブルの構成を示す説明図である。共起するメタデータの組合せを説明する図である。メタデータ共起頻度テーブルの構成を示す説明図である。関連語辞書テーブルの構成を示す説明図である。関連語辞書作成の処理手順を説明するフローチャートである。メタデータ共起頻度テーブルの構成を示す説明図である。関連語辞書テーブルの構成を示す説明図である。

符号の説明

１１サーバ（関連語辞書作成装置）
３５通信インターフェース（通信Ｉ／Ｆ、入力部）
３６スコア算出部
３７プログラム
４５メタデータ共起頻度テーブル（共起頻度記憶部）
４６関連語辞書テーブル（関連語記憶部）

Claims

単語が付された二つ一組のコンテンツが、前記単語とともに入力される入力部と、
一方のコンテンツに付された単語、及び他方のコンテンツに付された単語の組合せを記憶する関連語記憶部とを備えたことを特徴とする関連語辞書作成装置。
単語が前記組合せで過去に何回入力されたかを示す共起頻度を、単語の組合せ毎に記憶する共起頻度記憶部と、
前記共起頻度に基づいて、単語同士の関連度合を示す関連スコアを算出するスコア算出部とを備え、
前記関連語記憶部は、単語の組合せとともに前記関連スコアを記憶することを特徴とする請求項１に記載の関連語辞書作成装置。
前記スコア算出部は、前記共起頻度をｒｅｌ＿ｃｏｕｎｔとし、且つ前記共起頻度記憶部に記憶されている前記共起頻度の中で最高値をＭＡＸ（ｒｅｌ＿ｃｏｕｎｔ）として数１の式を用いて関連スコアを算出することを特徴とする請求項２に記載の関連語辞書作成装置。
単語が付された二つ一組のコンテンツが、前記単語とともに入力される入力ステップと、
一方のコンテンツに付された単語、及び他方のコンテンツに付された単語の組合せを記憶する関連語記憶ステップとを備えたことを特徴とする関連語辞書作成方法。
前記関連語記憶ステップの前に、
単語が前記組合せで過去に何回入力されたかを示す共起頻度を、単語の組合せ毎に記憶する共起頻度記憶ステップと、
前記共起頻度に基づいて、単語同士の関連度合を示す関連スコアを算出するスコア算出ステップとを備え、
前記関連語記憶ステップでは、単語の組合せとともに前記関連スコアを記憶することを特徴とする請求項４に記載の関連語辞書作成方法。
単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置のコンピュータに、
単語が付された二つ一組のコンテンツが、前記単語とともに入力される入力ステップと、
一方のコンテンツに付された単語、及び他方のコンテンツに付された単語の組合せを記憶する関連語記憶ステップとを実行させるための関連語辞書作成プログラム。
前記関連語記憶ステップの前に、
単語が前記組合せで過去に何回入力されたかを示す共起頻度を、単語の組合せ毎に記憶する共起頻度記憶ステップと、
前記共起頻度に基づいて、単語同士の関連度合を示す関連スコアを算出するスコア算出ステップとを実行させ、
前記関連語記憶ステップでは、単語の組合せとともに前記関連スコアを記憶することを特徴とする請求項６に記載の関連語辞書作成プログラム。
単語が付された二つ一組のコンテンツが、前記単語とともに入力される入力部と、
単語の組合せを記憶する関連語記憶部と、
一方のコンテンツに付された単語、及び他方のコンテンツに付された単語の組合せを前記関連語記憶部から削除する関連語削除部とを備えたことを特徴とする関連語辞書作成装置。