JP2009217367A - 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム - Google Patents

関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム Download PDF

Info

Publication number
JP2009217367A
JP2009217367A JP2008058196A JP2008058196A JP2009217367A JP 2009217367 A JP2009217367 A JP 2009217367A JP 2008058196 A JP2008058196 A JP 2008058196A JP 2008058196 A JP2008058196 A JP 2008058196A JP 2009217367 A JP2009217367 A JP 2009217367A
Authority
JP
Japan
Prior art keywords
words
metadata
score
word
occurrence frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008058196A
Other languages
English (en)
Other versions
JP5153390B2 (ja
Inventor
Yosuke Ohashi
洋介 大橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2008058196A priority Critical patent/JP5153390B2/ja
Publication of JP2009217367A publication Critical patent/JP2009217367A/ja
Application granted granted Critical
Publication of JP5153390B2 publication Critical patent/JP5153390B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】一般通念に沿った関連語辞書を作成する。
【解決手段】画像に付されたメタデータのセットとして入力された複数の単語を、セット毎にメタデータ一覧テーブルに記憶する。メタデータ一覧テーブルに記憶された単語の種類毎にその出現頻度をメタデータ出現頻度テーブルに記憶する。メタデータのセットとして入力された複数の単語について、2つの単語毎に、その2つの単語を含むメタデータのセットがメタデータ一覧テーブルにどれだけ存在するかを示す共起頻度を取得し、メタデータ共起頻度テーブルに記憶する。スコア算出部は、メタデータ出現頻度テーブル及びメタデータ共起頻度テーブルを参照しながら、単語同士の相互情報量を算出し、さらに、メタデータ共起頻度テーブルを参照しながら、単語同士の関連スコアを算出する。スコア算出部で算出された関連スコアをもって関連語辞書テーブルを更新する。
【選択図】図10

Description

本発明は、単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成方法及び装置、並びに関連語辞書作成プログラムに関する。
最近、携帯電話やパーソナルコンピュータなどの情報端末機器の普及に伴い、映像、画像、音楽、ゲーム、電子辞書、Webページといった様々なコンテンツを大量且つ容易に得ることが可能になった。このため、情報端末機器でコンテンツの検索を行う機会が増加している。コンテンツの検索を行う場合、テキスト検索が広く用いられている。テキスト検索では、ユーザにより入力されたテキストが検索条件として用いられ、予めコンテンツに付されたメタデータに基づいてコンテンツが探し出されることとなる。コンテンツが探し出されると、検索結果として文字や画像などの項目が表示され、ユーザはこれを選択することによりコンテンツを得ることができる。
しかし、ユーザにより入力されるテキストは、検索条件として必ずしも適切であるとは限らない。このため、ユーザは、満足のいく検索結果が得られるまで異なるテキストを思考しながら検索を繰り返すこともある。
このため、単語同士の関連性を記憶した関連語辞書を利用して、入力されたテキストと同義や類似などの語を、入力されたテキストとの結び付きの強さに応じて検索条件に追加し、拡張された検索条件でコンテンツの検索を行う方法がある(例えば、特許文献1、2参照)。関連語辞書を利用することで、入力されたテキストが検索条件として適切とはいえない場合であっても、ユーザが所望するコンテンツを検索にヒットさせることが可能になる。
ところで、そのような関連語辞書を作成する場合、人手で行うと、長い年月と莫大な費用が掛かる。また、新語の出現や単語の使い方の変化に応じて関連語辞書をメンテナンスする場合にも、人手で行うことは面倒である。
一方で、手間を掛けずに自動的に関連語辞書を作成する方法もある。例えば、特許文献3、4の発明では、入力された文章から単語を抽出し、抽出された単語の組合せをデータベースに記憶することで関連語辞書を作成する。単語の結び付きの強さを示すスコアとしては、現在までにその単語の組合せが同一の文章から抽出された回数である共起頻度が利用されている。
特開2003−288359号公報 特開2005−010848号公報 国際公開第02/039319パンフレット 特開2005−309706号公報
しかしながら、特許文献3、4の発明のように、単語の結び付きの強さを示すスコアとして共起頻度を単純に利用した場合、どのような文章に対しても出現頻度が高い単語(特許請求の範囲の記載を例にすると、「前記」という単語)はいずれの単語との関係においても共起頻度が高くなり、一般通念と大きく隔たりのある関連語辞書が作成される虞がある。
本発明は、上記課題を鑑みてなされたものであり、一般通念に沿った関連語辞書を作成する関連語辞書作成方法及び装置、並びに関連語辞書作成プログラムを提供することを目的とする。
上記目的を達成するために、本発明の関連語辞書作成装置は、単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置であって、複数の単語がメタデータとして付されたコンテンツの前記複数の単語がメタデータのセットとして入力される入力部と、前記単語をメタデータのセット毎に記憶する単語記憶部と、メタデータのセットで入力された複数の単語について、2つの単語毎に、その2つの単語を含むメタデータのセットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得部と、前記共起頻度に基づいて、前記2つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出部と、前記共起頻度及び前記相互情報量に基づいて、前記2つの単語の関連度合を示す関連スコアを算出するスコア算出部と、前記関連スコアを記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを記憶する関連語記憶部とを備えている。
請求項2の発明では、前記スコア算出部は、前記2つの単語の前記共起頻度が、その単語の一方と前記単語記憶部に記憶されている各単語との共起頻度の中で何番目に高いかを示す順位を取得し、その順位に基づいて、前記関連スコアを算出する。
請求項3の発明では、前記相互情報量算出部は、前記2つの単語の共起頻度をrel_count(X,Y)とし、前記単語記憶部に記憶されている単語の種類数をSとし、前記2つの単語の一方が前記単語記憶部に記憶されている個数をnum_count(X)とし、且つ、前記2つの単語の他方が前記単語記憶部に記憶されている個数をnum_count(Y)として数5の式を用いて前記相互情報量を算出する。
Figure 2009217367
請求項4の発明では、前記スコア算出部は、前記2つの単語の一方と前記単語記憶部に記憶されている各単語との共起頻度の中で最高値をMAX(rel_count(X,*))として数6の式を用いて共起頻度スコアを算出し、前記2つの単語の前記順位をrank(X,Y)とし、且つ、前記2つの単語の一方と共起する単語が前記単語記憶部に何種類記憶されているかを示す値をMAX(rank(X,*))として数7の式を用いて順位スコアを算出し、前記共起頻度スコアと前記順位スコアとの相加平均値をAVERAGE_SCORE(X,Y)とし、且つ、前記相互情報量をI(X,Y)として数8の式を用いて前記関連スコアを算出する。
Figure 2009217367
Figure 2009217367
Figure 2009217367
本発明の関連語辞書作成方法は、単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成方法であって、複数の単語がメタデータとして付されたコンテンツの前記複数の単語がメタデータのセットとして入力される入力ステップと、前記単語をメタデータのセット毎に単語記憶部に記憶する単語記憶ステップと、メタデータのセットで入力された複数の単語について、2つの単語毎に、その2つの単語を含むメタデータのセットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得ステップと、前記共起頻度に基づいて、前記2つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出ステップと、前記共起頻度及び前記相互情報量に基づいて、前記2つの単語の関連度合を示す関連スコアを算出するスコア算出ステップと、前記関連スコアを関連語記憶部に記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを前記関連語記憶部に記憶する関連語記憶ステップとを備えている。
本発明の関連語辞書作成プログラムは、単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置のコンピュータに、複数の単語がメタデータとして付されたコンテンツの前記複数の単語がメタデータのセットとして入力される入力ステップと、前記単語をメタデータのセット毎に単語記憶部に記憶する単語記憶ステップと、メタデータのセットで入力された複数の単語について、2つの単語毎に、その2つの単語を含むメタデータのセットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得ステップと、前記共起頻度に基づいて、前記2つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出ステップと、前記共起頻度及び前記相互情報量に基づいて、前記2つの単語の関連度合を示す関連スコアを算出するスコア算出ステップと、前記関連スコアを関連語記憶部に記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを前記関連語記憶部に記憶する関連語記憶ステップとを実行させる。
本発明の別態様の関連語辞書作成装置は、単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置であって、複数の単語から構成されるテキストデータが入力される入力部と、前記テキストデータから単語を抽出する単語抽出部と、抽出元のテキストデータが同一である単語をセットとして記憶する単語記憶部と、入力されたテキストデータから抽出された複数の単語について、2つの単語毎に、その2つの単語を含む前記セットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得部と、前記共起頻度に基づいて、前記2つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出部と、前記共起頻度及び前記相互情報量に基づいて、前記2つの単語の関連度合を示す関連スコアを算出するスコア算出部と、前記関連スコアを記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを記憶する関連語記憶部とを備えている。
請求項8記載の発明では、前記スコア算出部は、前記2つの単語の前記共起頻度が、その単語の一方と前記単語記憶部に記憶されている各単語との共起頻度の中で何番目に高いかを示す順位を取得し、その順位に基づいて、前記関連スコアを算出する。
本発明の関連語辞書作成方法及び装置、並びに関連語辞書作成プログラムによれば、共起頻度だけでなく相互情報量にも基づいて、2つの単語の関連度合を示す関連スコアを算出するので、出現頻度が高い単語に係る関連スコアが、その出現頻度だけを理由として高くはならないので、一般通念に沿った関連語辞書を作成することができる。
[第1実施形態]
図1において、第1実施形態における関連語辞書作成装置は、関連語辞書作成プログラム37(図3参照)のインストールによってサーバ11に構築される形式で実現される。関連語辞書作成装置は、メタデータ(単語)が複数付された画像の入力によって、単語同士の関連性を記憶し、関連語辞書を作成する。なお、本実施形態では、画像に付されたメタデータに基づいて作成する場合を例に説明するが、映像、音楽、ゲーム、電子書籍、その他のコンテンツに付されたメタデータに基づいて作成するようにしてもよい。
サーバ11は、インターネット12を媒介して接続されたクライアント端末13とともに、ネットワークシステム14を構成する。クライアント端末13は、例えば周知のパーソナルコンピュータやワークステーションであり、各種操作画面などを表示するモニタ15と、操作信号を出力するマウス16及びキーボード17からなる操作部18とを備えている。
クライアント端末13には、デジタルカメラ19で撮影して得られた画像や、メモリカードやCD−Rなどの記録媒体20に記録された画像が送信され、あるいは、インターネット12を経由して画像が転送される。
デジタルカメラ19は、例えば、IEEE1394、USB(Universal Serial Bus)などに準拠した通信ケーブルや、無線LANなどによりクライアント端末13に接続され、クライアント端末13とのデータの相互通信が可能となっている。また、記録媒体20も同様に、専用のドライバを介してクライアント端末13とのデータの遣り取りが可能となっている。
図2に示すように、クライアント端末13を構成するCPU21は、操作部18から入力される操作信号などに従ってクライアント端末13全体を統括的に制御する。CPU21には、操作部18の他に、データバス22を介して、RAM23、ハードディスクドライブ(HDD)24、通信インターフェース(通信I/F)25、及びモニタ15が接続されている。
RAM23は、CPU21が処理を実行するための作業用メモリである。HDD24には、クライアント端末13を動作させるための各種プログラムやデータが記憶されている他に、デジタルカメラ19、記録媒体20、あるいは、インターネット12から取り込まれた画像データが記憶される。CPU21は、HDD24からプログラムを読み出してRAM23に展開し、読み出したプログラムを逐次処理する。
通信I/F25は、例えばモデムやルータであり、インターネット12に適合した通信プロトコルの制御を行い、インターネット12を経由したデータの遣り取りを媒介する。また、通信I/F25は、デジタルカメラ19や記録媒体20などの外部機器とのデータ通信も行う。
図3に示すように、サーバ11を構成するCPU31は、インターネット12を経由してクライアント端末13から入力される操作信号に従ってサーバ11全体を統括的に制御する。CPU31には、データバス32を介して、RAM33、ハードディスクドライブ(HDD)34、通信インターフェース(通信I/F)35、及びスコア算出部36が接続されている。
RAM33は、CPU31が処理を実行するための作業用メモリである。HDD34には、サーバ11を動作させるための各種プログラムやデータが記憶されている。また、HDD34には、関連語辞書作成プログラム37が記憶されている。CPU31は、HDD34からプログラムを読み出してRAM33に展開し、読み出したプログラムを逐次処理する。
HDD34には、画像データベース(画像DB)38と、関連語辞書データベース(辞書DB)39とが設けられている。画像DB38には、インターネット12を経由して入力された画像のデータとともに、図4に示す画像一覧テーブル41、及び図5に示すメタデータ一覧テーブル42が格納されている。
画像一覧テーブル41は、取込み時に自動的に付けられるID(取込み順に付した通し番号)を見出しとして、画像のファイル名を記憶している。また、メタデータ一覧テーブル42は、IDを見出しとして、画像に付されたメタデータを記憶している。すなわち、メタデータ一覧テーブル42は、単語記憶部として機能する。
メタデータには、画像に元々付されたもの、画像を取り込んだ際にファイルシステムなどの外部データベースから取得したもの(画像のタイトル、ジャンル、画像のイメージなど)などがある。例えば、図6に示すID「0001」の画像43には、「桜」、「青空」、「ピンク」、「春」が付されている。なお、画像一覧テーブル41とメタデータ一覧テーブル42とを統合して、一つのデータテーブルとしてもよい。
辞書DB39には、図7に示すメタデータ出現頻度テーブル44、図8に示すメタデータ共起頻度テーブル45、及び図9に示す関連語辞書テーブル46が格納されている。
メタデータ出現頻度テーブル44は、メタデータの種類毎に、メタデータ一覧テーブル42に記憶されている個数(出現頻度)を記憶している。例えば、メタデータ一覧テーブル42に43個の「桜」が記憶されている場合、「桜」の出現頻度は「43」である。画像がサーバ11に入力され、メタデータ一覧テーブル42に新たなメタデータが記憶されると、メタデータ出現頻度テーブル44は更新される。例えば、図6に示す画像43がサーバ11に入力された場合、メタデータ出現頻度テーブル44は、「桜」、「青空」、「ピンク」、「春」の出現頻度がそれぞれ「1」加算される。なお、メタデータ一覧テーブル42に新しい種類のメタデータが記憶された場合、メタデータ出現頻度テーブル44には、新たに記憶されたメタデータの欄が追加されるとともに、その出現頻度に「1」が付与される。
メタデータ共起頻度テーブル45は、メタデータの組合せの種類毎に、その共起頻度を記憶している。共起頻度とは、画像DB38に記憶された画像の中に、当該組合せのメタデータが付された画像が何個存在するかを示す値である。例えば、画像DB38に、「桜」と「青空」が付された画像が4個記憶されている場合、「桜」と「青空」の共起頻度は「4」である。画像がサーバ11に入力され、メタデータ一覧テーブル42に新たなメタデータが記憶されると、メタデータ共起頻度テーブル45は更新される。例えば、図6に示す画像43がサーバ11に入力された場合、「桜」と「青空」、「桜」と「ピンク」、「桜」と「春」、「青空」と「ピンク」、「青空」と「春」、「ピンク」と「春」がそれぞれ共起しているので、メタデータ共起頻度テーブル45は、「桜」と「青空」、「桜」と「ピンク」、「桜」と「春」、「青空」と「ピンク」、「青空」と「春」、「ピンク」と「春」の共起頻度がそれぞれ「1」加算される。また、メタデータ一覧テーブル42に新しい組合せのメタデータが記憶された場合、メタデータ共起頻度テーブル45には、新たに記憶された組合せのメタデータの欄が追加されるとともに、その共起頻度に「1」が付与される。なお、CPU31が共起頻度取得部として機能することで共起頻度が取得され、メタデータ共起頻度テーブル45が更新される。
関連語辞書テーブル46は、メタデータの組合せの種類毎にその関連度合を示す関連スコアを記憶する関連語記憶部である。すなわち、関連語辞書テーブル46は、関連語辞書として機能する。関連語辞書テーブル46は、画像がサーバ11に入力され、メタデータ出現頻度テーブル44及びメタデータ共起頻度テーブル45が更新されると、関連語辞書テーブル46は更新される。なお、関連語辞書テーブル46の具体的な更新方法については、後述する。
図3に戻って、通信I/F35は、例えばモデムやルータであり、インターネット12に適合した通信プロトコルの制御を行い、インターネット12を経由したデータの遣り取りを媒介する。通信I/F35は、画像に付されたメタデータなどが入力される入力部として機能する。通信I/F35を媒介して入力されたデータは、RAM33に一時的に記憶される。
スコア算出部36は、画像がサーバ11に入力されると、関連語辞書テーブル46を更新するために、画像に付された複数のメタデータについて、相互情報量を算出する。すなわち、スコア算出部36は、相互情報量算出部として機能する。相互情報量とは、確率理論において、2つの確率変数の相互依存の尺度を示す量のことで、ここでは、2つのメタデータX、Yが存在するときに、一方のメタデータから他方のメタデータへの情報量のことであり、メタデータXとメタデータYとの共起が相互にどの程度依存しているかを示す尺度である。相互情報量I(X;Y)は、以下の数9の式で定義される。なお、p(x,y)はメタデータXとメタデータYの同時分布関数であり、p(x)とp(y)はそれぞれメタデータXとメタデータYの周辺確率分布関数である。
Figure 2009217367
スコア算出部36は、メタデータ出現頻度テーブル44及びメタデータ共起頻度テーブル45を参照しながら、上記数9の式を正規化した以下の数10の式を用い、メタデータXとメタデータYとの相互情報量I(X,Y)を算出する。なお、rel_count(X,Y)は、メタデータXに対するメタデータYの共起頻度である。また、Sはメタデータ出現頻度テーブル44に記憶されているメタデータの種類の個数であり、出現頻度テーブル44に記憶されているメタデータの行数に等しい。また、num_count(X)はメタデータXの出現頻度であり、num_count(Y)はメタデータYの出現頻度である。
Figure 2009217367
スコア算出部36は、相互情報量を算出した後に、メタデータ同士の関連度合を示す関連スコアを算出する。関連スコアの求め方は、例えば、次のとおりである。まず、メタデータ共起頻度テーブル45を参照しながら、以下の数11の式を用い、メタデータXに対するメタデータYの共起頻度に係る共起頻度スコアREL_SCORE(X,Y)を算出する。これにより、共起頻度は[0,100)で正規化される。なお、MAX(rel_count(X,*))は、メタデータ共起頻度テーブル45に記憶されている中で、メタデータXに対する共起頻度が最高のものの共起頻度である。
Figure 2009217367
次に、スコア算出部36は、メタデータ共起頻度テーブル45を参照しながら、以下の数12の式を用い、メタデータXに対するメタデータYの共起頻度の順位に基づいた順位スコアRANK_SCORE(X,Y)を算出する。これにより、共起頻度の順位は[0,100)で正規化される。なお、rank(X,Y)は、メタデータXに対するメタデータYの共起頻度の順位である。また、MAX(rank(X,*))は、メタデータ共起頻度テーブル45に記憶されている中で、メタデータXに対する共起頻度が最下位のものの順位である。つまり、MAX(rank(X,*))は、メタデータXと共起するメタデータの種類の総数と等価である。
Figure 2009217367
そして、以下の数13の式を用いて、数11の式で求めた共起頻度スコアと、数12の式で求めた順位スコアとの平均スコアAVERAGE_SCORE(X,Y)を算出する。これにより、メタデータXに対する共起頻度にバラツキが生じて共起頻度スコアにバラツキが生じたとしても、そのバラツキを抑えることができる。
Figure 2009217367
最後に、以下の数14の式に示すように、数10の式で求めた相互情報量と、数13の式で求めた平均スコアとを乗算して、関連スコアMUTUAL_SCORE(X,Y)を算出する。関連スコアが算出されると、その関連語スコアをもって関連語辞書テーブル46は更新される。なお、関連スコアが算出されたメタデータの組合せが新しいものである場合、関連語辞書テーブル46には、新たな組合せのメタデータの欄が追加されるとともに、その関連スコアが記憶される。
Figure 2009217367
次に、上記構成のサーバ11(図1、図3参照)が関連語辞書作成装置として機能したときの処理手順について、図10のフローチャートを参照しながら説明する。ユーザは、クライアント端末13の操作部18を操作して、サーバ11に画像を入力する。サーバ11に入力された画像は、それに付されたメタデータとともにRAM33に記憶される。
サーバ11に入力された画像は、RAM33から画像DB38に読み出され、画像DB38に記憶される。また、サーバ11に入力された画像に基づいて画像一覧テーブル41(図4参照)が更新される。
一方、サーバ11に入力されたメタデータに基づいて、メタデータ一覧テーブル42(図5参照)、メタデータ出現頻度テーブル44(図7参照)、及びメタデータ共起頻度テーブル45(図8参照)が更新される。
また、サーバ11に入力されたメタデータは、RAM33からスコア算出部36に読み出される。スコア算出部36では、メタデータ出現頻度テーブル44及びメタデータ共起頻度テーブル45が参照されながら、上記数10の式に基づいてメタデータ同士の相互情報量が算出される。
相互情報量が算出されると、スコア算出部36では、メタデータ共起頻度テーブル45が参照されながら、上記数11、数12、数13、及び数14のそれぞれの式に基づいて、関連スコアが算出される。算出された関連スコアは、RAM33記憶される。
スコア算出部36で算出された関連スコアは、RAM33から辞書DB39に読み出される。そして、辞書DB39に読み出された関連スコアをもって関連語辞書テーブル46(図9参照)が更新される。
以上説明したように、共起頻度だけでなく相互情報量にも基づいて、2つの単語の関連度合を示す関連スコアを算出するようにしたので、画像に付されている頻度が高い単語に係る関連スコアが、その頻度だけを理由としては高くならないので、一般通念に沿った関連語辞書を作成することができる。つまり、作成された関連語辞書は、ユーザが納得できる関連語を提供することが可能である。また、関連語辞書テーブル46に記憶されていない新たなメタデータ(未知語)についても、メタデータ出現頻度テーブル44及びメタデータ共起頻度テーブル45に新たに記憶させることができるので、ひいては、関連語辞書テーブル46に未知語を記憶させることができる。
なお、上記第1実施形態における関連語辞書装置では、画像に付されたメタデータに基づいて関連語辞書を作成したが、テキストデータに含まれる単語に基づいて関連語辞書を作成するようにしてもよい。
[第2実施形態]
図11において、第2実施形態における関連語辞書作成装置は、関連語辞書作成プログラム51のインストールによってサーバ52に構築される形式で実現される。関連語辞書作成装置は、複数の単語からなるテキストデータが入力されることによって、単語同士の関連性を記憶し、関連語辞書を作成する。
CPU31には、データバス32を介して、HDD34、単語抽出部53などが接続されている。HDD34には、関連語辞書作成プログラム51が記憶されるとともに、単語データベース(単語DB)54が設けられている。単語DB54には、図12に示す単語一覧テーブル55が格納されている。
単語一覧テーブル55は、自動的に付けられるID(通し番号)を見出しとして、単語を記憶している。すなわち、単語一覧テーブル55は、単語記憶部として機能する。
単語抽出部53は、サーバ52にテキストデータが入力された場合、そのテキストデータを解析して単語を抽出する。具体的には、テキストデータが「大橋青年は物知りである。」である場合、単語抽出部53は、テキストデータの文法的な構造を解析する構文解析、及び文章を形態素(言語で意味を持つ最小単位)に分割し、品詞に分類する形態素解析をテキストデータに対して施す。そして、これらの解析結果に基づいて、テキストデータから単語を抽出する。この場合、「大橋」、「青年」、「物知り」が抽出される。
単語抽出部53で抽出された単語は、抽出元のテキストデータを一つの単位としてIDが付与されて、そして単語一覧テーブル55に記憶される。上記の場合、「大橋」、「青年」、「物知り」は、同一のIDを見出しとして記憶される。なお、上記第1実施形態と同様の構成については、図面に符号を付すなどして詳しい説明を省略する。
次に、上記構成のサーバ52(図11参照)が関連語辞書作成装置として機能したときの処理手順について、図13のフローチャートを参照しながら説明する。ユーザは、クライアント端末13の操作部18(図1参照)を操作して、サーバ52にテキストデータを入力する。サーバ52に入力されたテキストデータは、RAM33に記憶される。
サーバ52に入力されたテキストデータは、RAM33から単語抽出部53に読み出される。単語抽出部53では、テキストデータが解析されて単語が抽出される。抽出された単語は、RAM33に記憶される。
単語抽出部53で抽出された単語は、RAM33から単語DB54にメタデータとして読み出される。読み出されたメタデータに基づいて単語一覧テーブル55(図12参照)が更新される。
また、単語抽出部53で抽出された単語は、RAM33からスコア算出部36にメタデータとして読み出される。スコア算出部36では、メタデータ出現頻度テーブル44及びメタデータ共起頻度テーブル45が参照されながら、上記数10の式に基づいてメタデータ同士の相互情報量が算出される。
相互情報量が算出されると、スコア算出部36では、メタデータ共起頻度テーブル45が参照されながら、上記数11、数12、数13、及び数14のそれぞれの式に基づいて、関連スコアが算出される。算出された関連スコアは、RAM33に記憶される。
スコア算出部36で算出された関連スコアは、RAM33から辞書DB39に読み出される。そして、辞書DB39に読み出された関連スコアをもって関連語辞書テーブル46(図9参照)が更新される。
以上説明したように、共起頻度だけでなく相互情報量にも基づいて、2つの単語の関連度合を示す関連スコアを算出するようにしたので、出現頻度が高い単語に係る関連スコアが、その出現頻度だけを理由としては高くならないので、一般通念に沿った関連語辞書を作成することができる。なお、上記第1実施形態と同様の効果については、その説明を省略する。
なお、上記各実施形態では、スコア算出部36は、上記数11、数12、数13、及び数14のそれぞれの式に基づいて関連語スコアを算出したが、本発明の趣旨を逸脱しない限りこれに限定されるものではない。
また、上記各実施形態では、インターネット12に接続されたサーバ11に関連語辞書作成装置が構築され、万人がアクセス可能な関連語辞書を作成する場合を例に説明したが、これに限定されるものではない。例えば、個人が使用するパーソナルコンピュータに関連語辞書作成装置が構築され、当該パーソナルコンピュータに関連語辞書を作成するようにしてもよい。この場合、メモリカードが記憶した情報を読み込むカードリーダなどが、当該コンテンツに付されたメタデータ(単語)が入力される入力部として機能する。
また、上記各実施形態で示した関連語辞書作成装置は一例にすぎず、本発明の趣旨を逸脱しなければ、如何様な態様にも適宜変更することができる。
ネットワークシステムの構成を示す概略図である。 クライアント端末の内部構成を示すブロック図である。 サーバの内部構成を示すブロック図である。 画像一覧テーブルの構成を示す説明図である。 メタデータ一覧テーブルの構成を示す説明図である。 「桜」が写る画像図である。 メタデータ出現頻度テーブルの構成を示す説明図である。 メタデータ共起頻度テーブルの構成を示す説明図である。 関連語辞書テーブルの構成を示す説明図である。 関連語辞書作成の処理手順を説明するフローチャートである。 別の実施形態のサーバの内部構成を示すブロック図である。 単語一覧テーブルの構成を示す説明図である。 別の実施形態における関連語辞書作成の処理手順を説明するフローチャートである。
符号の説明
11、52 サーバ(関連語辞書作成装置)
31 CPU(共起頻度取得部)
35 通信インターフェース(通信I/F、入力部)
36 スコア算出部(相互情報量算出部)
37、51 関連語辞書作成プログラム
42、55 メタデータ一覧テーブル(単語記憶部)
43 画像(コンテンツ)
46 関連語辞書テーブル(関連語記憶部)
53 単語抽出部
55 単語一覧テーブル(単語記憶部)

Claims (8)

  1. 単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置において、
    複数の単語がメタデータとして付されたコンテンツの前記複数の単語がメタデータのセットとして入力される入力部と、
    前記単語をメタデータのセット毎に記憶する単語記憶部と、
    メタデータのセットで入力された複数の単語について、2つの単語毎に、その2つの単語を含むメタデータのセットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得部と、
    前記共起頻度に基づいて、前記2つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出部と、
    前記共起頻度及び前記相互情報量に基づいて、前記2つの単語の関連度合を示す関連スコアを算出するスコア算出部と、
    前記関連スコアを記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを記憶する関連語記憶部とを備えたことを特徴とする関連語辞書作成装置。
  2. 前記スコア算出部は、前記2つの単語の前記共起頻度が、その単語の一方と前記単語記憶部に記憶されている各単語との共起頻度の中で何番目に高いかを示す順位を取得し、その順位に基づいて、前記関連スコアを算出することを特徴とする請求項1記載の関連語辞書作成装置。
  3. 前記相互情報量算出部は、前記2つの単語の共起頻度をrel_count(X,Y)とし、前記単語記憶部に記憶されている単語の種類数をSとし、前記2つの単語の一方が前記単語記憶部に記憶されている個数をnum_count(X)とし、且つ、前記2つの単語の他方が前記単語記憶部に記憶されている個数をnum_count(Y)として数1の式を用いて前記相互情報量を算出することを特徴とする請求項2記載の関連語辞書作成装置。
    Figure 2009217367
  4. 前記スコア算出部は、
    前記2つの単語の一方と前記単語記憶部に記憶されている各単語との共起頻度の中で最高値をMAX(rel_count(X,*))として数2の式を用いて共起頻度スコアを算出し、
    前記2つの単語の前記順位をrank(X,Y)とし、且つ、前記2つの単語の一方と共起する単語が前記単語記憶部に何種類記憶されているかを示す値をMAX(rank(X,*))として数3の式を用いて順位スコアを算出し、
    前記共起頻度スコアと前記順位スコアとの相加平均値をAVERAGE_SCORE(X,Y)とし、且つ、前記相互情報量をI(X,Y)として数4の式を用いて前記関連スコアを算出することを特徴とする請求項3記載の関連語辞書作成装置。
    Figure 2009217367
    Figure 2009217367
    Figure 2009217367
  5. 単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成方法において、
    複数の単語がメタデータとして付されたコンテンツの前記複数の単語がメタデータのセットとして入力される入力ステップと、
    前記単語をメタデータのセット毎に単語記憶部に記憶する単語記憶ステップと、
    メタデータのセットで入力された複数の単語について、2つの単語毎に、その2つの単語を含むメタデータのセットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得ステップと、
    前記共起頻度に基づいて、前記2つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出ステップと、
    前記共起頻度及び前記相互情報量に基づいて、前記2つの単語の関連度合を示す関連スコアを算出するスコア算出ステップと、
    前記関連スコアを関連語記憶部に記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを前記関連語記憶部に記憶する関連語記憶ステップとを備えたことを特徴とする関連語辞書作成方法。
  6. 単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置のコンピュータに、
    複数の単語がメタデータとして付されたコンテンツの前記複数の単語がメタデータのセットとして入力される入力ステップと、
    前記単語をメタデータのセット毎に単語記憶部に記憶する単語記憶ステップと、
    メタデータのセットで入力された複数の単語について、2つの単語毎に、その2つの単語を含むメタデータのセットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得ステップと、
    前記共起頻度に基づいて、前記2つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出ステップと、
    前記共起頻度及び前記相互情報量に基づいて、前記2つの単語の関連度合を示す関連スコアを算出するスコア算出ステップと、
    前記関連スコアを関連語記憶部に記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを前記関連語記憶部に記憶する関連語記憶ステップとを実行させるための関連語辞書作成プログラム。
  7. 単語同士の関連性を記憶した関連語辞書を作成する関連語辞書作成装置において、
    複数の単語から構成されるテキストデータが入力される入力部と、
    前記テキストデータから単語を抽出する単語抽出部と、
    抽出元のテキストデータが同一である単語をセットとして記憶する単語記憶部と、
    入力されたテキストデータから抽出された複数の単語について、2つの単語毎に、その2つの単語を含む前記セットが前記単語記憶部にどれだけ存在するかを示す共起頻度を取得する共起頻度取得部と、
    前記共起頻度に基づいて、前記2つの単語の相互依存の尺度を示す相互情報量を算出する相互情報量算出部と、
    前記共起頻度及び前記相互情報量に基づいて、前記2つの単語の関連度合を示す関連スコアを算出するスコア算出部と、
    前記関連スコアを記憶するとともに、その関連スコアによって関連度合が示された単語の組合せを記憶する関連語記憶部とを備えたことを特徴とする関連語辞書作成装置。
  8. 前記スコア算出部は、前記2つの単語の前記共起頻度が、その単語の一方と前記単語記憶部に記憶されている各単語との共起頻度の中で何番目に高いかを示す順位を取得し、その順位に基づいて、前記関連スコアを算出することを特徴とする請求項7記載の関連語辞書作成装置。
JP2008058196A 2008-03-07 2008-03-07 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム Expired - Fee Related JP5153390B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008058196A JP5153390B2 (ja) 2008-03-07 2008-03-07 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008058196A JP5153390B2 (ja) 2008-03-07 2008-03-07 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム

Publications (2)

Publication Number Publication Date
JP2009217367A true JP2009217367A (ja) 2009-09-24
JP5153390B2 JP5153390B2 (ja) 2013-02-27

Family

ID=41189180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008058196A Expired - Fee Related JP5153390B2 (ja) 2008-03-07 2008-03-07 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム

Country Status (1)

Country Link
JP (1) JP5153390B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011154638A (ja) * 2010-01-28 2011-08-11 Yahoo Japan Corp 検索スコア算出装置
JP2011227633A (ja) * 2010-04-19 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245070A (ja) * 2001-02-20 2002-08-30 Hitachi Ltd データ表示方法及び装置並びにその処理プログラムを記憶した媒体
JP2004062726A (ja) * 2002-07-31 2004-02-26 Nec Corp 翻訳装置と翻訳方法ならびにプログラムと記録媒体
JP2004356691A (ja) * 2003-05-27 2004-12-16 Sony Corp 情報検索システムおよび方法、情報処理装置および方法、プログラム、並びに記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245070A (ja) * 2001-02-20 2002-08-30 Hitachi Ltd データ表示方法及び装置並びにその処理プログラムを記憶した媒体
JP2004062726A (ja) * 2002-07-31 2004-02-26 Nec Corp 翻訳装置と翻訳方法ならびにプログラムと記録媒体
JP2004356691A (ja) * 2003-05-27 2004-12-16 Sony Corp 情報検索システムおよび方法、情報処理装置および方法、プログラム、並びに記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011154638A (ja) * 2010-01-28 2011-08-11 Yahoo Japan Corp 検索スコア算出装置
JP2011227633A (ja) * 2010-04-19 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム

Also Published As

Publication number Publication date
JP5153390B2 (ja) 2013-02-27

Similar Documents

Publication Publication Date Title
US20110078176A1 (en) Image search apparatus and method
US20080215548A1 (en) Information search method and system
US20060190684A1 (en) Reverse value attribute extraction
JP4049317B2 (ja) 検索支援装置およびプログラム
US9542474B2 (en) Forensic system, forensic method, and forensic program
JP5204244B2 (ja) 誤訳の検出を支援する装置及び方法
CN116168793A (zh) 体检数据的处理分析方法及相关设备
JP2009025968A (ja) 関連語辞書作成装置、方法、及びプログラム、並びにコンテンツ検索装置
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP2008268985A (ja) タグを付与する方法
KR20110035001A (ko) 키워드 시각화 장치 및 그 방법
JP2009199302A (ja) ドキュメントを解析するためのプログラム,装置および方法
JP2008191936A (ja) コンテンツ登録・検索システムの構築支援方法、およびコンテンツ登録・検索システムの構築支援装置
JP5153390B2 (ja) 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム
JP2009217741A (ja) メタデータ付与方法及び装置、並びにメタデータ付与プログラム
TW201822031A (zh) 以文字資訊建立圖表索引方法及其電腦程式產品
JP2009266065A (ja) 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム
JP2009217742A (ja) メタデータ付与方法及び装置、並びにメタデータ付与プログラム
JP6034584B2 (ja) 特許調査支援装置、特許調査支援方法、およびプログラム
JP4484957B1 (ja) 検索式生成装置、検索式生成方法、およびプログラム
JP2020021455A (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム
JP5856905B2 (ja) 主題抽出装置およびそのプログラム
JP2005258910A (ja) 階層キーワード抽出装置、方法、およびプログラム
WO2022009354A1 (ja) 発明評価装置、発明評価方法、および発明評価プログラム
JP6457153B2 (ja) キーワード抽出システム、キーワード抽出方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120530

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120822

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121204

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees