JP5414614B2 - キーワードタイプ判定装置及びプログラム - Google Patents

キーワードタイプ判定装置及びプログラム Download PDF

Info

Publication number
JP5414614B2
JP5414614B2 JP2010112046A JP2010112046A JP5414614B2 JP 5414614 B2 JP5414614 B2 JP 5414614B2 JP 2010112046 A JP2010112046 A JP 2010112046A JP 2010112046 A JP2010112046 A JP 2010112046A JP 5414614 B2 JP5414614 B2 JP 5414614B2
Authority
JP
Japan
Prior art keywords
keyword
keyword type
type
document
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010112046A
Other languages
English (en)
Other versions
JP2011242850A (ja
Inventor
伸章 廣嶋
浩之 戸田
由美子 松浦
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010112046A priority Critical patent/JP5414614B2/ja
Publication of JP2011242850A publication Critical patent/JP2011242850A/ja
Application granted granted Critical
Publication of JP5414614B2 publication Critical patent/JP5414614B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、キーワードタイプ判定装置及びプログラムに係り、特に、キーワードに対してそのキーワードのタイプを判定するキーワードタイプ判定装置及びプログラムに関する。
現在、キーワードが入力されるとそのキーワードに関する情報を検索するシステムが数多く存在する。その種類は多岐にわたり、扱う情報によってニュース検索、画像検索、商品検索など様々な種類の専門検索システムが存在する。しかし、キーワードの種類によって専門検索システムを切り替えて利用することは利用者にとって煩わしい操作であり、単一の検索システムが入力されたキーワードのタイプに応じて適切な専門検索を行って結果を出力することが望ましい。ここで、キーワードのタイプとは、例えば「芸能人」「映画」「グルメ」というようなキーワードの意味による分類種別を表す。キーワードのタイプを知ることにより、例えばキーワードのタイプが「芸能人」であれば、画像検索の結果を出力するといったことが可能となる。そのためには、入力されたキーワードに対しそのキーワードのタイプを判定する必要がある。
キーワードからそのキーワードのタイプを判定する方法として、キーワードタイプごとに用意した数個のキーワードタイプ関連語からキーワードタイプの分野を求め、与えられたキーワードの分野との比較を行うことによってキーワードのタイプを判定する方法がある(例えば、非特許文献1参照)。
廣嶋伸章,戸田浩之,松浦由美子,片岡良治,藤村滋,森本正志,概念ベースを利用したWeb検索のクエリタイプ判定,WebDB Forum 2009,2009.
しかしながら、従来の方法では、キーワードのタイプを正しく判定するための調整が難しいという問題があった。非特許文献1では、キーワードタイプ分野データベースを作成するために、キーワードタイプ毎に数個のキーワードタイプ関連語を用意しなければならないが、キーワードタイプの特徴をよく表していると思われるキーワードタイプ関連語を用意しても実際にはキーワードタイプの分野を適切に表現できず性能に影響を及ぼすということが考えられ、キーワードタイプ関連語を変更して試行錯誤を繰り返す必要があった。
本発明は上記の問題点に鑑みてなされたものであって、キーワードのタイプを正しく判定するための調整を行わなくても正しくキーワードのタイプを判定することを可能としたキーワードタイプ判定装置及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、キーワードに対してそのキーワードのタイプを判定するキーワードタイプ判定装置であって、
文書集合記憶手段と、
キーワードタイプ毎に用意されたキーワードタイプに属する数個のキーワードからキーワード集合を取得するキーワード拡張手段と、
取得したキーワード集合からキーワードタイプ分野データベースを作成するキーワードタイプ分野データベース作成手段と、
文書集合記憶手段の中からキーワードに関連する文書を取得する文書取得手段と、
文書中の情報を利用して各キーワードタイプらしさの度合いを表すキーワードタイプスコアを算出するキーワードタイプスコア算出手段と、
キーワードタイプスコアの高い上位N件のキーワードタイプをキーワードに対するキーワードタイプと判定するキーワードタイプ判定手段と、を有する。
また、本発明(請求項2)は、単語と該単語に対する概念を表す単語概念ベクトルが格納された概念ベースを更に有し、
キーワードタイプ分野データベース作成手段は、
概念ベースを参照して各キーワードタイプに対してその分野を表すキーワードタイプ分野ベクトルを算出してキーワードタイプと共にキーワードタイプ分野データベースに格納する手段を含み、
キーワードタイプスコア算出手段は、
概念ベースを参照して文書中の情報である単一または複数のテキストの一部または全部からキーワードの分野を表すキーワード分野ベクトルを算出し、キーワードタイプ分野データベースを参照して該キーワード分野ベクトルと各キーワードタイプ分野ベクトルとの関連度を算出し、関連度をキーワードタイプスコアとする手段を含む。
本発明(請求項3)は、請求項1または2に記載のキーワードタイプ判定装置における各手段をコンピュータに実行させるためのキーワードタイプ判定プログラムである。
本発明によれば、キーワードタイプ関連語よりも容易に用意することができるキーワードタイプに属する数個のキーワードからキーワード集合を取得し、取得したキーワード集合からキーワードタイプ分野データベースを作成するため、キーワードのタイプを正しく判定するための調整を行わなくても正しくキーワードのタイプを判定することができる。
本発明の一実施の形態におけるキーワードタイプ判定装置の構成図である。 本発明の一実施の形態におけるキーワードタイプ判定装置の前処理の動作を示すフローチャートである。 本発明の一実施の形態におけるキーワードタイプ判定装置のキーワードタイプ判定の動作を示すフローチャートである。 本発明の一実施の形態におけるキーワードタイプとそのキーワードタイプに属するキーワードの組の例である。 本発明の一実施の形態における概念ベースの例である。 本発明の一実施の形態におけるキーワードタイプ分野データベースの例である。 本発明の一実施の形態における文書取得部により取得した文書の例である。 本発明の一実施の形態におけるキーワードタイプ判定部により算出したキーワード分野ベクトルの例である。 本発明の一実施の形態におけるキーワードタイプ判定部により算出したキーワードタイプスコアの例である。
以下図面と共に、本発明の実施の形態を説明する。
以下、図面を参照して本発明の実施例について説明する。
図1は、本発明の一実施の形態におけるキーワードタイプ判定装置の構成を示す。図1に示すキーワードタイプ判定装置100は、キーワード拡張部1と、キーワードタイプ分野データベース作成部2と、文書取得部3と、キーワードタイプスコア算出部4と、キーワードタイプ判定部5と、検索ログ記憶部6と、文書集合記憶部7と、概念ベース8と、キーワードタイプ分野データベース9を有する。
キーワード拡張部1は、キーワードタイプ毎に用意したキーワードタイプに属する数個のキーワードからキーワード集合を取得する。
キーワードタイプ分野データベース作成部2は、取得したキーワード集合からキーワードタイプ分野データベース9を作成する。
文書取得部3は、予め用意した文書集合記憶部7の中からキーワードに関連する文書を取得する。
キーワードタイプスコア算出部4は、文書中の情報を利用して各キーワードタイプらしさの度合いを表すキーワードタイプスコアを算出する。
キーワードタイプ判定部5は、キーワードタイプスコアの高い上位N件のキーワードタイプをキーワードに対するキーワードタイプと判定する。
なお、キーワード拡張部1、キーワードタイプ分野データベース作成部2、文書取得部3、キーワードタイプスコア算出部4、キーワードタイプ判定部5は、それぞれ取得したデータや途中結果等を格納するためのメモリ(図示せず)を有する。
次に、キーワードタイプ判定装置100の動作について説明する。
本発明は、データベースを作成するための前処理段階と、実際にキーワードタイプを判定する段階の2つに分かれている。
図2は、本発明の一実施の形態におけるキーワードタイプ判定装置の前処理の動作を示すフローチャートである。
ステップ101) まず、キーワード拡張部1が、検索ログ記憶部6を参照して各キーワードタイプに属するキーワードからキーワード集合を取得し、メモリ(図示せず)に格納する。
ステップ102) キーワードタイプ分野データベース作成部2が、文書集合記憶部7及び概念ベース8を参照して各キーワードタイプのキーワード集合を利用してキーワードタイプの分野を表すキーワードタイプ分野ベクトルを算出し、メモリ(図示せず)に格納する。
ステップ103) キーワードタイプ分野データベース作成部2は、キーワードタイプとキーワードタイプ分野ベクトルの組をキーワードタイプ分野データベース9に格納する。
図3は、本発明の一実施の形態におけるキーワードタイプ判定装置のキーワードタイプ判定の動作を示すフローチャートである。
ステップ201) まず、文書取得部3は、文書集合記憶部7の中からキーワードに関連する文書を取得する。
ステップ202) キーワードタイプスコア算出部4は、取得した文書のテキストの全部を利用して、概念ベース8を参照してキーワードの分野を表すキーワード分野ベクトルを算出し、メモリ(図示せず)に格納する。
ステップ203) 続いて、キーワードタイプスコア算出部4は、キーワードタイプ分野データベース9を参照してキーワード分野ベクトルと各キーワードタイプ分野ベクトルとの関連度を算出し、関連度をキーワードタイプスコアとし、メモリ(図示せず)に格納する。
ステップ204) キーワードタイプ判定部5が、キーワードタイプスコアをメモリ(図示せず)から読み出し、キーワードタイプスコアの高い上位N件のキーワードタイプをキーワードに対するキーワードタイプと判定する。
次に、キーワードタイプ判定装置100の動作をより具体的に説明する。以下の説明では、「ABC」というキーワードのキーワードタイプを判定することとする。
図2に示したフローチャートに従って前処理の動作を具体的に説明する。
ステップ101) キーワード拡張部1は、検索ログ記憶部6を参照して各キーワードタイプに属するキーワードからキーワード集合を取得する。ここでは、文献「小町守,鈴木久美,検索ログからの半教師あり意味知識獲得の改善,人工知能学会論文誌,23巻3号,pp.217−225,2008」に記載のTchaiアルゴリズムを利用して、キーワードと検索ログからキーワードを抽出するためのパターンを抽出し、パターンと検索ログからキーワードを抽出するということを繰り返すことにより、キーワード集合を取得することとする。キーワード集合の取得方法はこれに限るものではなく、キーワードが単語列と助詞「と」で連結されている場合にその単語列を新たにキーワードとして抽出することを繰り返すことによりキーワード集合を取得したりしてもかまわない。ここでは、キーワードタイプ「芸能人」に属するキーワード「AAA」「BBB」「CCC」からキーワード集合「AAA,BBB,CCC,DDD,EEE,FFF,GGG,HHH,III,JJJ,KKK,LLL,MMM,NNN」が得られたものとする。
ステップ102) キーワードタイプ分野データベース作成部2は、文書集合記憶部7及び概念ベース8を参照して、各キーワードタイプのキーワード集合を利用してキーワードタイプの分野を表すキーワードタイプ分野ベクトルを算出し、メモリ(図示せず)に格納する。
当該概念ベース8は単語に対して単語の概念を表す概念ベクトルが付与されたデータベースである。概念ベース8の例を図4に示す。ここでは、キーワード集合中の各キーワードに関連する文書を文書集合記憶部7から取得し、取得された文書のテキスト中の単語の概念ベクトルの平均を文書分野ベクトルとして算出し、文書の文書分野ベクトルの平均をキーワード分野ベクトルとて算出し、キーワードのキーワード分野ベクトルの平均をキーワードタイプ分野ベクトルとして算出することとする。キーワードタイプ分野ベクトルの算出方法はこれに限るものではなく、キーワード中の単語の概念ベクトルの平均をキーワード分野ベクトルとし、キーワード分野ベクトルの平均をキーワードタイプ分野ベクトルとしたりしてもよい。また、ここでは、従来の文書検索手法を用いて文書タイトルまたは本文にキーワードが多く含まれる上位3件の文書を関連する文書として取得するものとする。文書の取得の方法はこれに限るものではなく、任意の件数の文書を取得したり、文書のタイトルがキーワードと一致する文書やキーワードが含まれる文書を関連する文書として取得したりしてもよい。
ステップ103) キーワードタイプ分野データベース作成部2は、キーワードタイプとステップ102の処理により、メモリ(図示せず)に格納されているキーワードタイプ分野ベクトルの組をキーワードタイプ分野データベース9に格納する。キーワードタイプ分野データベース9の例を図6に示す。
次に、上記のステップ101〜103の処理が終了し、キーワードタイプ分野データベース9が生成された後に行われるキーワードタイプ判定処理について説明する。
以下、
図3に示したフローチャートに従ってキーワードタイプ判定の動作を具体的に説明する。
ステップ201) 文書取得部3は、入力されたキーワードに基づいて、文書集合記憶部7の中からキーワードに関連する文書を取得し、メモリ(図示せず)に格納する。ここでは、従来の文書検索手法を用いて文書タイトルまたは本文にキーワードが多く含まれる上位3件の文書を関連する文書として取得するものとする。文書の取得の方法はこれに限るものではなく、任意の件数の文書を取得したり、文書のタイトルがキーワードと一致する文書やキーワードが含まれる文書を関連する文書として取得したりしてもよい。取得し、メモリ(図示せず)に格納された文書の例を図7に示す。
ステップ202) キーワードタイプスコア算出部4は、メモリ(図示せず)に格納されている文書のテキストの全部を利用し、概念ベース8を参照してキーワード分野ベクトルを算出し、メモリ(図示せず)に格納する。各文書の本文をテキストとし、形態素解析手法を用いてテキストを単語に分割し、各単語に対する概念ベクトルが存在すれば概念ベクトルを取得する。各単語から得られた概念ベクトルの平均を文書分野ベクトルとし、各文書から得られた文書分野ベクトルの平均をキーワード分野ベクトルとする。メモリ(図示せず)に格納されたキーワード分野ベクトルの例を図8に示す。
なお、キーワード分野ベクトルの算出方法はこれに限るものではなく、文書のタイトルもテキストとして利用したり、単語の重要度に応じて重みを変えたり、複数のベクトルをクラスタリングして主要なクラスタに含まれるベクトルのみを利用したりしてもよい。
ステップ203) キーワードタイプスコア算出部4により、キーワードタイプ分野データベース9を参照して、キーワード分野ベクトルとメモリ(図示せず)内の各キーワードタイプ分野ベクトルとの関連度を算出してキーワードタイプスコアとして出力する。具体的には、各キーワードタイプに対し、図8に示すキーワード分野ベクトルと図6に示すキーワードタイプ分野ベクトルとのコサイン距離を関連度として算出し、キーワードタイプスコアとし、図9に示すように、メモリ(図示せず)に格納する。
なお、キーワードタイプスコアの例を図9に示す。キーワードタイプスコアの算出方法はこれに限るものではなく、ユークリッド距離などに基づいて算出したりしてもよい。
ステップ204) キーワードタイプ判定部5は、図9に示すメモリ(図示せず)のキーワードタイプスコアの高い上位N件のキーワードタイプを抽出し、これをキーワードに対するキーワードタイプとする。ここではN=1とする。Nの値の設定方法はこれに限るものではなく、1以外の値でもよいし、キーワードタイプスコアの値に応じて動的に変更してもよい。図9より、キーワードタイプスコアの値が最も高いキーワードタイプは「芸能人」であるため、キーワード「ABC」のキーワードタイプは「芸能人」と判定される。
このように、本実施例で説明した処理により、キーワードタイプ関連語よりも容易に用意することができるキーワードタイプに属する数個のキーワードからキーワード集合を取得し、取得したキーワード集合からキーワードタイプ分野データベース9を作成することで、入力されたキーワードのタイプを正しく判定するための調整を行わなくても正しくキーワードのタイプを判定することができる。
なお、本実施例のキーワードタイプ判定装置100は、上述した一連の動作を実行させるプログラムをコンピュータにインストールすることにより実現することが可能である。また、当該プログラムをキーワードタイプ判定装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROMなどの可搬記憶媒体に格納しておき、コンピュータにインストールして実行させることも可能である。また、当該プログラムをネットワークのサーバに格納しておき、そこからダウンロードしてインストールする形態をとることも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、入力されたキーワードのタイプに応じた適切な専門検索を行う検索システムの開発などに利用可能である。
1 キーワード拡張部
2 キーワードタイプ分野データベース作成部
3 文書取得部
4 キーワードタイプスコア算出部
5 キーワードタイプ判定部
6 検索ログ記憶部
7 文書集合記憶部
8 概念ベース
9 キーワードタイプ分野データベース

Claims (3)

  1. キーワードに対してそのキーワードのタイプを判定するキーワードタイプ判定装置であって、
    文書集合記憶手段と、
    キーワードタイプ毎に用意されたキーワードタイプに属する数個のキーワードからキーワード集合を取得するキーワード拡張手段と、
    取得した前記キーワード集合からキーワードタイプ分野データベースを作成するキーワードタイプ分野データベース作成手段と、
    前記文書集合記憶手段の中からキーワードに関連する文書を取得する文書取得手段と、
    前記文書中の情報を利用して各キーワードタイプらしさの度合いを表すキーワードタイプスコアを算出するキーワードタイプスコア算出手段と、
    前記キーワードタイプスコアの高い上位N件のキーワードタイプをキーワードに対するキーワードタイプと判定するキーワードタイプ判定手段と、
    を有するキーワードタイプ判定装置。
  2. 単語と該単語に対する概念を表す単語概念ベクトルが格納された概念ベースを更に有し、
    前記キーワードタイプ分野データベース作成手段は、
    前記概念ベースを参照して各キーワードタイプに対してその分野を表すキーワードタイプ分野ベクトルを算出してキーワードタイプと共に前記キーワードタイプ分野データベースに格納する手段を含み、
    前記キーワードタイプスコア算出手段は、
    前記概念ベースを参照して文書中の情報である単一または複数のテキストの一部または全部からキーワードの分野を表すキーワード分野ベクトルを算出し、前記キーワードタイプ分野データベースを参照して該キーワード分野ベクトルと各キーワードタイプ分野ベクトルとの関連度を算出し、関連度をキーワードタイプスコアとする手段を含む
    請求項1に記載のキーワードタイプ判定装置。
  3. 請求項1または2に記載のキーワードタイプ判定装置における各手段をコンピュータに実行させるためのキーワードタイプ判定プログラム。
JP2010112046A 2010-05-14 2010-05-14 キーワードタイプ判定装置及びプログラム Active JP5414614B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010112046A JP5414614B2 (ja) 2010-05-14 2010-05-14 キーワードタイプ判定装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010112046A JP5414614B2 (ja) 2010-05-14 2010-05-14 キーワードタイプ判定装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2011242850A JP2011242850A (ja) 2011-12-01
JP5414614B2 true JP5414614B2 (ja) 2014-02-12

Family

ID=45409460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010112046A Active JP5414614B2 (ja) 2010-05-14 2010-05-14 キーワードタイプ判定装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5414614B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5404867B1 (ja) * 2012-08-10 2014-02-05 日本電信電話株式会社 キーワードタイプ判定装置及び方法及びプログラム
CN109471972A (zh) * 2018-09-30 2019-03-15 南昌与德软件技术有限公司 新闻播报方法、移动终端和计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4325370B2 (ja) * 2003-11-13 2009-09-02 日本電信電話株式会社 文書関連語彙獲得装置及びプログラム
JP4453437B2 (ja) * 2004-05-11 2010-04-21 日本電信電話株式会社 検索キーワード順位付け方法及び装置及びプログラム
JP2007041721A (ja) * 2005-08-01 2007-02-15 Ntt Resonant Inc 情報分類方法およびプログラム、装置および記録媒体
JP5115059B2 (ja) * 2007-07-03 2013-01-09 大日本印刷株式会社 キーワード分類装置

Also Published As

Publication number Publication date
JP2011242850A (ja) 2011-12-01

Similar Documents

Publication Publication Date Title
EP3371714B1 (en) Techniques for digital entity correlation
US9195738B2 (en) Tokenization platform
CN104462085B (zh) 检索关键词纠错方法及装置
US8275177B2 (en) System and method for media fingerprint indexing
US9087049B2 (en) System and method for context translation of natural language
CN101449271B (zh) 通过搜索进行注释
KR101099908B1 (ko) 문서 간 유사도 계산 시스템 및 방법
JP2009543255A (ja) パラレル・データを特定するために階層的かつ順次的なドキュメント・ツリーを対応付けること
CN106557777B (zh) 一种基于SimHash改进的Kmeans文档聚类方法
KR20120053211A (ko) 멀티미디어 데이터 검색 방법, 장치 및 패턴인식 방법
CN107944041B (zh) 一种hdfs的存储结构优化方法
US9298757B1 (en) Determining similarity of linguistic objects
US11194967B2 (en) Unsupervised on-the-fly named entity resolution in dynamic corpora
US8725766B2 (en) Searching text and other types of content by using a frequency domain
JP2010123000A (ja) Webページグループ抽出方法及び装置及びプログラム
JP2021096858A (ja) ベクトル量子化を利用した重複文書探知方法およびシステム
JP5366212B2 (ja) 多数の参照用映像の中から検索キー用映像を用いて検索する映像検索装置、プログラム及び方法
KR102151858B1 (ko) 링크드 데이터와 문자열 데이터를 이용한 온톨로지 인스턴스 확장 방법 및 시스템
CN108345679B (zh) 一种音视频检索方法、装置、设备及可读存储介质
JP5414614B2 (ja) キーワードタイプ判定装置及びプログラム
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
JP2009098811A (ja) 文書分類装置およびプログラム
CN103870476A (zh) 检索方法及设备
JP2006285419A (ja) 情報処理装置および方法、並びにプログラム
JP6632564B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130820

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131004

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131112

R150 Certificate of patent or registration of utility model

Ref document number: 5414614

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350