JP5404867B1 - キーワードタイプ判定装置及び方法及びプログラム - Google Patents
キーワードタイプ判定装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5404867B1 JP5404867B1 JP2012178415A JP2012178415A JP5404867B1 JP 5404867 B1 JP5404867 B1 JP 5404867B1 JP 2012178415 A JP2012178415 A JP 2012178415A JP 2012178415 A JP2012178415 A JP 2012178415A JP 5404867 B1 JP5404867 B1 JP 5404867B1
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- relevance score
- category
- relevance
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 類似するキーワードのキーワード関連性スコアから個々のキーワードのキーワード関連性スコアを修正し、適切なキーワードタイプを判定する。
【解決手段】 本発明は、入力されたキーワードに対し、キーワードタイプとの関連性を表すキーワード関連性スコアの初期値を設定し、データベースからキーワードに対するカテゴリに属するキーワードのキーワード関連性スコアに基づいて、カテゴリに対する各キーワードタイプとの関連性を表すカテゴリ関連性スコアを算出し、キーワードが属するカテゴリのカテゴリ関連性スコアに基づき、各キーワードタイプとの関連性を表すキーワード関連性スコアを算出し、キーワード関連性スコアを取得して、各キーワードタイプのキーワード関連性スコアを比較可能なように該キーワード関連性スコアを補正補正されたキーワード関連性スコアの大小を比較し、キーワードタイプを判定する。
【選択図】 図1
【解決手段】 本発明は、入力されたキーワードに対し、キーワードタイプとの関連性を表すキーワード関連性スコアの初期値を設定し、データベースからキーワードに対するカテゴリに属するキーワードのキーワード関連性スコアに基づいて、カテゴリに対する各キーワードタイプとの関連性を表すカテゴリ関連性スコアを算出し、キーワードが属するカテゴリのカテゴリ関連性スコアに基づき、各キーワードタイプとの関連性を表すキーワード関連性スコアを算出し、キーワード関連性スコアを取得して、各キーワードタイプのキーワード関連性スコアを比較可能なように該キーワード関連性スコアを補正補正されたキーワード関連性スコアの大小を比較し、キーワードタイプを判定する。
【選択図】 図1
Description
本発明は、キーワードタイプ判定装置及び方法及びプログラムに係り、特に、指定したキーワードがどのようなタイプに属するかを判定するためのキーワードタイプ判定装置及び方法及びプログラムに関する。
キーワードに対して、そのキーワードがどのようなキーワードタイプに属するかを知ることができれば便利である。キーワードタイプとは、キーワードがどのような種類のキーワードであるかを表す情報である。例えば、キーワード「ラーメン」に関するキーワードタイプとして、「グルメ」などが考えられる。キーワードがどのようなキーワードタイプに属するかを知ることができれば、複数のキーワードが提示され、キーワードを選択するとそのキーワードに関する情報が得られるようなシステムが存在した場合、各キーワードに対して「グルメ」「買い物」などのキーワードタイプを付与してキーワードとともに提示することができれば、もしそのシステムの利用者が「グルメ」にしか興味がないのであればキーワードタイプが「グルメ」に属するキーワードだけを提示または選択することにより、効率よく情報を取得することができるようになる。
指定したキーワードがどのようなキーワードタイプに属するかを判定する技術としては、単語の概念を表す概念ベクトルが格納された概念ベースを利用して、キーワードに関する文書に含まれる単語の概念ベクトルからキーワードの分野を表すベクトルを算出し、各キーワードタイプの分野を表すベクトルとの距離を関連性スコアとして、関連性スコアの高いキーワードタイプを選択するという方法が提案されている(例えば、特許文献1参照)。
しかしながら、特許文献1の方法では、近い概念のキーワードタイプが複数存在する場合に、判定を誤るという問題があった。例えば、キーワードが自動車メーカーの名称であり、キーワードタイプに「会社」「自動車」の双方が存在した場合、このキーワードとともに出現する単語は自動車に関連するものが多く存在するため、「会社」ではなく「自動車」が選択されてしまう場合があった。
本発明は上記の問題点に鑑みてなされたものであって、類似するキーワードのキーワード関連性スコアから個々のキーワードのキーワード関連性スコアを修正し、適切なキーワードタイプを判定することが可能なキーワードタイプ判定装置及び方法及びプログラムを提供することを目的とする。
ここで、キーワード関連性スコアとは、キーワードと各キーワードタイプとの関連の強さを表すスコアである。また、カテゴリ関連性スコアとは、カテゴリと各キーワードタイプとの関連の強さを表すスコアである。カテゴリとは、キーワードの分野を表す情報であり、各キーワードに対して付与されているものとする。
上記の課題を解決するため、本発明(請求項1)は、入力されたキーワードがどのような種類のキーワードであるかを表すキーワードタイプを判定するためのキーワードタイプ判定装置であって、
キーワードと該キーワードのカテゴリを組にして格納したカテゴリデータベースと、
キーワードが入力されると、該キーワードに対し、キーワードタイプとの関連性を表すキーワード関連性スコアの初期値を設定し、キーワード関連性記憶手段に格納する初期キーワード関連性スコア算出手段と、
入力された前記キーワードに基づいて前記カテゴリデータベースを参照し、該キーワードに対するカテゴリを取得し、前記キーワード関連性記憶手段の該カテゴリに属する該キーワードのキーワード関連性スコアに基づいて、該カテゴリに対する各キーワードタイプとの関連性を表すカテゴリ関連性スコアを算出し、カテゴリ関連性スコア記憶手段に格納する処理を全てのカテゴリに対して反復するカテゴリ関連性スコア算出手段と、
入力された前記キーワードに基づいて前記カテゴリデータベースを参照し、該キーワードが属するカテゴリを取得し、該カテゴリに基づいて、前記カテゴリ関連スコア記憶手段を参照し、カテゴリのカテゴリ関連性スコアに基づき、該キーワードに対し各キーワードタイプとの関連性を表すキーワード関連性スコアを算出し、キーワード関連性スコア記憶手段に格納する処理を全てのキーワードに対して反復するキーワード関連性スコア算出手段と、
前記キーワード関連性スコア記憶手段から前記キーワード関連性スコアを取得して、各キーワードタイプのキーワード関連性スコアを比較可能なように該キーワード関連性スコアを補正する補正手段と、
キーワードタイプ毎に前記補正手段で補正されたキーワード関連性スコアの大小を比較し、キーワードタイプを判定するキーワード判定手段と、を有する。
キーワードと該キーワードのカテゴリを組にして格納したカテゴリデータベースと、
キーワードが入力されると、該キーワードに対し、キーワードタイプとの関連性を表すキーワード関連性スコアの初期値を設定し、キーワード関連性記憶手段に格納する初期キーワード関連性スコア算出手段と、
入力された前記キーワードに基づいて前記カテゴリデータベースを参照し、該キーワードに対するカテゴリを取得し、前記キーワード関連性記憶手段の該カテゴリに属する該キーワードのキーワード関連性スコアに基づいて、該カテゴリに対する各キーワードタイプとの関連性を表すカテゴリ関連性スコアを算出し、カテゴリ関連性スコア記憶手段に格納する処理を全てのカテゴリに対して反復するカテゴリ関連性スコア算出手段と、
入力された前記キーワードに基づいて前記カテゴリデータベースを参照し、該キーワードが属するカテゴリを取得し、該カテゴリに基づいて、前記カテゴリ関連スコア記憶手段を参照し、カテゴリのカテゴリ関連性スコアに基づき、該キーワードに対し各キーワードタイプとの関連性を表すキーワード関連性スコアを算出し、キーワード関連性スコア記憶手段に格納する処理を全てのキーワードに対して反復するキーワード関連性スコア算出手段と、
前記キーワード関連性スコア記憶手段から前記キーワード関連性スコアを取得して、各キーワードタイプのキーワード関連性スコアを比較可能なように該キーワード関連性スコアを補正する補正手段と、
キーワードタイプ毎に前記補正手段で補正されたキーワード関連性スコアの大小を比較し、キーワードタイプを判定するキーワード判定手段と、を有する。
また、本発明(請求項2)は、請求項1の前記補正手段において、
全体的に、前記キーワード関連性スコアが高い、または、高いキーワード関連性スコアとなるキーワードが多いというキーワードタイプ毎の傾向に基づいて補正する手段を含む。
全体的に、前記キーワード関連性スコアが高い、または、高いキーワード関連性スコアとなるキーワードが多いというキーワードタイプ毎の傾向に基づいて補正する手段を含む。
また、本発明(請求項3)は、請求項2の前記補正手段において、
前記キーワード関連性スコアの初期値の大きい上位X%のスコアの合計を補正重みとし、前記キーワード関連性スコア算出手段における反復により得られた前記キーワード関連性スコアに該補正重みを乗じることにより補正を行う手段を含む。
前記キーワード関連性スコアの初期値の大きい上位X%のスコアの合計を補正重みとし、前記キーワード関連性スコア算出手段における反復により得られた前記キーワード関連性スコアに該補正重みを乗じることにより補正を行う手段を含む。
また、本発明(請求項4)は、請求項2の前記補正手段において、
前記初期キーワード関連性スコア算出手段で前記キーワード関連性スコアの初期値を求める際に正規化で用いた値を、前記キーワード関連性スコア算出手段における反復により得られた前記キーワード関連性スコアに乗じる手段を含む。
前記初期キーワード関連性スコア算出手段で前記キーワード関連性スコアの初期値を求める際に正規化で用いた値を、前記キーワード関連性スコア算出手段における反復により得られた前記キーワード関連性スコアに乗じる手段を含む。
上記のように、本発明によれば、キーワードの関連性スコアをそのキーワードが属するカテゴリの関連性スコアに反映させ、カテゴリの関連性スコアをそのカテゴリに属するキーワードの関連性スコアに反映させた結果をキーワードタイプごとに補正して比較することにより、類似するキーワードの関連性スコアから個々のキーワードの関連性スコアを算出し、入力された検索キーワードに対応する近い概念のキーワードタイプが複数存在する場合でも、従来技術よりも精度よくキーワードタイプの判定が可能となる。
以下、図面と共に本発明の実施の形態を説明する。
図1は、本発明の一実施の形態におけるキーワードタイプ判定装置の構成を示す。図1に示すキーワードタイプ判定装置100は、初期キーワード関連性スコア付与部1と、カテゴリ関連性スコア算出部2と、キーワード関連性スコア算出部3と、キーワード関連性スコア補正部4と、キーワードタイプ判定部5と、カテゴリデータベース6、カテゴリ関連性スコア記憶部7、キーワード関連性スコア記憶部8を有する。さらに、図示しないが、各構成要素は、算出された結果を保持するメモリを有するものとする。
初期キーワード関連性スコア付与部1は、入力されたキーワードに対し、各キーワードタイプとの関連性を表すキーワード関連性スコアの初期値を付与し、キーワード関連性スコア記憶部8に格納する。
カテゴリ関連性スコア算出部2は、カテゴリデータベース6を参照して、カテゴリに属するキーワードを取得し、当該キーワードのキーワード関連性スコアに基づき、カテゴリに対し各キーワードタイプとの関連性を表すカテゴリ関連性スコアを算出して、カテゴリ関連性スコア記憶部7に格納する。
キーワード関連性スコア算出部3は、カテゴリデータベース6を参照して、キーワードが属するカテゴリを取得し、当該カテゴリのカテゴリ関連性スコアに基づき、キーワードに対しキーワード関連性スコアを算出して、キーワード関連性スコア記憶部8に格納する。
キーワード関連性スコア補正部4は、算出されたキーワード関連性スコアをキーワードタイプごとに補正する。
キーワードタイプ判定部5は、キーワードタイプごとのキーワード関連性スコアに基づき、キーワードタイプを判定する。
次に、キーワードタイプ判定装置100の動作をより具体的に説明する。
本実施の形態では、キーワードとしてk0,k1,k2,k3,k4,k5,k6,k7,k8,k9の10個を入力として与えることとし、キーワードタイプとしてt0,t1,t2の3種類が存在するものとする。
<初期キーワード関連性スコア算出部1>
初期キーワード関連性スコア算出部1では、入力されたキーワードに対し、各キーワードタイプとの関連性を表すキーワード関連性スコアの初期値を付与し、キーワード関連性スコア記憶部7に格納する。ここでは、キーワード関連性スコアの初期値の算出方法として、単語の概念を表す概念ベクトルが格納された概念ベース(図示せず)を利用して、キーワードに関する文書に含まれる単語の概念ベクトルからキーワードの分野を表すベクトルを算出し、各キーワードタイプの分野を表すベクトルとの距離をキーワード関連性スコアとして付与することとする。キーワード関連性スコアの初期値の付与方法はこれに限るものではなく、各キーワードタイプとの関連性を表したスコアが付与できる方法であればどのようなものでもかまわない。キーワード関連性スコアの初期値の付与を行った結果の例を図2に示す。
初期キーワード関連性スコア算出部1では、入力されたキーワードに対し、各キーワードタイプとの関連性を表すキーワード関連性スコアの初期値を付与し、キーワード関連性スコア記憶部7に格納する。ここでは、キーワード関連性スコアの初期値の算出方法として、単語の概念を表す概念ベクトルが格納された概念ベース(図示せず)を利用して、キーワードに関する文書に含まれる単語の概念ベクトルからキーワードの分野を表すベクトルを算出し、各キーワードタイプの分野を表すベクトルとの距離をキーワード関連性スコアとして付与することとする。キーワード関連性スコアの初期値の付与方法はこれに限るものではなく、各キーワードタイプとの関連性を表したスコアが付与できる方法であればどのようなものでもかまわない。キーワード関連性スコアの初期値の付与を行った結果の例を図2に示す。
<カテゴリ関連性スコア算出部2>
カテゴリ関連性スコア算出部2では、キーワードに基づいてカテゴリデータベース6を参照して、キーワードに対応するカテゴリを取得し、キーワード関連性スコア記憶部7から取得した当該カテゴリに属するキーワードのキーワード関連性スコアに基づき、カテゴリに対し各キーワードタイプとの関連性を表すカテゴリ関連性スコアを算出し、カテゴリ関連性スコア記憶部8に格納する。カテゴリデータベース6は、キーワードがどのカテゴリに属しているかを格納したデータベースである。カテゴリデータベースの例を図3に示す。この例では、キーワードは複数のカテゴリに属することとしているが、単一のカテゴリに属するとしてもかまわない。ここでは、このカテゴリデータベース6をもとに、カテゴリ関連性スコアを単一のスコアを扱うCo-HITSに基づき以下の式により算出する。
カテゴリ関連性スコア算出部2では、キーワードに基づいてカテゴリデータベース6を参照して、キーワードに対応するカテゴリを取得し、キーワード関連性スコア記憶部7から取得した当該カテゴリに属するキーワードのキーワード関連性スコアに基づき、カテゴリに対し各キーワードタイプとの関連性を表すカテゴリ関連性スコアを算出し、カテゴリ関連性スコア記憶部8に格納する。カテゴリデータベース6は、キーワードがどのカテゴリに属しているかを格納したデータベースである。カテゴリデータベースの例を図3に示す。この例では、キーワードは複数のカテゴリに属することとしているが、単一のカテゴリに属するとしてもかまわない。ここでは、このカテゴリデータベース6をもとに、カテゴリ関連性スコアを単一のスコアを扱うCo-HITSに基づき以下の式により算出する。
図4のフローチャートに基づき、カテゴリ関連性スコア算出部2における実際にカテゴリ関連性スコアの算出方法を説明する。
ステップ205) まず、k=0とし、キーワードタイプt0について処理を行う。
ステップ210) 回数をr=1とし、1回目の反復処理を行う。
ステップ215) i=0とし、c0,c1,c2,c3の4種類のカテゴリのうち0番目のカテゴリであるc0について処理を行う。
ステップ220) カテゴリ関連性スコア記憶部8に格納されているカテゴリ関連性スコアの初期値vi (0)とキーワード関連性スコア記憶部7に格納されている1回前のキーワード関連性スコアuj (r−1)からr回目のカテゴリciのカテゴリ関連性スコアvi (r)を算出し、カテゴリ関連性スコア記憶部8に格納する。
カテゴリ関連性スコア算出処理は、まず、カテゴリデータベース6からキーワード重みwji uvを求める。カテゴリデータベース6のキーワードとカテゴリを読み出し、図5(A)に示すように、キーワードに対してカテゴリの対応がある部分を1とし、それ以外の部分を0とする。次に、図5(B)に示すように、各値を縦に足した合計の値で割り、縦に足した合計が1になるように正規化する。キーワードkjがカテゴリciに属している場合にwji uvに正の重みが付与され、各列の値の和が1になるように正規化されている。また、カテゴリ関連性スコアの初期値vi (0)を図6に示す。カテゴリ関連性スコアは各カテゴリで同一の値とし、和が1になるように正規化する。この例の場合は、カテゴリが4つ存在するため、各カテゴリのカテゴリ関連性スコアは1/4となる。また、キーワード関連性スコアの初期値uj (0)を図7に示す。キーワード関連性スコアも各列の値の和が1になるように正規化されており、図2のキーワードタイプt0の列をその値の和である1.47で割ることにより和が1になるように正規化されている。これらの値をもとに、定数λv =0としてカテゴリ関連性スコアvi (1)を求める。
まずv0 (1)について求めると、
v0 (1)=0×1/4+(1-0)×(1/4×0.204+1/4×0.170+0×0.068+0×0.054+1/4
×0.061+0×0.102+0×0.082+0×0.075+0×0.048+1/4×0.136)=0.143
となる。
v0 (1)=0×1/4+(1-0)×(1/4×0.204+1/4×0.170+0×0.068+0×0.054+1/4
×0.061+0×0.102+0×0.082+0×0.075+0×0.048+1/4×0.136)=0.143
となる。
ステップ225) すべてのカテゴリに関しての処理が終了したかを確認する。すべてのカテゴリについての処理が終了していない場合はステップ230に移行する。終了している場合には、ステップ233に移行する。
ステップ230) i=i+1として、次のカテゴリについて処理を行う。
これをすべてのカテゴリについて処理を繰り返して行うと、カテゴリ関連性スコア記憶部8に格納されるカテゴリ関連性スコアは
v1 (1)=0.073、
v2 (1)=0.071、
v3 (1)=0.091
となる。和が1になるように正規化を行った結果の1回目の反復におけるカテゴリ関連性スコアvi (1)を図8に示す。ここでは、定数λv =0としてvi (1)を求めたが、λv を正の値とし、カテゴリ関連性スコアの初期値vi (0)にカテゴリとキーワードタイプとの関連性を表す値を付与してvi (1)を求めてもかまわない。また、カテゴリ関連性スコアの算出方法は、カテゴリに属するキーワードのキーワード関連性スコアに基づくものであればどのような方法でもかまわない。
v1 (1)=0.073、
v2 (1)=0.071、
v3 (1)=0.091
となる。和が1になるように正規化を行った結果の1回目の反復におけるカテゴリ関連性スコアvi (1)を図8に示す。ここでは、定数λv =0としてvi (1)を求めたが、λv を正の値とし、カテゴリ関連性スコアの初期値vi (0)にカテゴリとキーワードタイプとの関連性を表す値を付与してvi (1)を求めてもかまわない。また、カテゴリ関連性スコアの算出方法は、カテゴリに属するキーワードのキーワード関連性スコアに基づくものであればどのような方法でもかまわない。
ステップ233) ステップ225において、すべてのカテゴリについての処理が終了した場合には、キーワード関連性スコア算出部3によりキーワード関連スコアuj (r)を算出し、キーワード関連スコア記憶部7に格納する。
ステップ235) 反復が終了したか確認を行う。反復が終了していない場合は、ステップ240に移行し、終了している場合は、ステップ245に移行する。
ステップ240) ステップ235において、反復が終了していない場合は、r=r+1とし、次の回の反復を行う。例えば、例えば、1回目の処理であれば、r=2として2回目の反復を行う。
ステップ245) これを繰り返して反復が終了した場合には、すべてのキーワードタイプに関して処理が終了したかどうか確認を行う。すべてのキーワードタイプに関して処理が終了している場合は、当該処理を終了し、終了していない場合は、ステップ250に移行する。
ステップ250) k=k+1とし、ステップ210に戻り、次のキーワードタイプに関する処理を行う。これを繰り返してすべてのキーワードタイプに関する処理が終了する。
<キーワード関連性スコア算出部3>
キーワード関連性スコア算出部3では、カテゴリデータベース6を参照して、キーワードが属するカテゴリを取得し、当該カテゴリに対応するカテゴリ関連性スコア記憶部8に格納されているカテゴリ関連性スコアに基づき、キーワードに対し各キーワードタイプとの関連性を表すキーワード関連性スコアを算出し、キーワード関連性スコア記憶部7に格納する。ここでは、カテゴリ関連性スコアをCo-HITSに基づき以下の式により算出する。
キーワード関連性スコア算出部3では、カテゴリデータベース6を参照して、キーワードが属するカテゴリを取得し、当該カテゴリに対応するカテゴリ関連性スコア記憶部8に格納されているカテゴリ関連性スコアに基づき、キーワードに対し各キーワードタイプとの関連性を表すキーワード関連性スコアを算出し、キーワード関連性スコア記憶部7に格納する。ここでは、カテゴリ関連性スコアをCo-HITSに基づき以下の式により算出する。
ステップ300) カテゴリ関連性スコア算出部2を呼び出してカテゴリ関連性スコアを算出し、カテゴリ関連性スコア記憶部8に格納する。
ステップ305) j=0とし、k0,k1,k2,k3,k4,k5,k6,k7,k8,k9の10種類のカテゴリのうち0番目のカテゴリであるk0について処理を行う。
ステップ310) キーワード関連性スコアの初期値uj (0)と1回前のカテゴリ関連性スコアvi (r−1)からr回目のキーワード関連性スコアuj (r)を算出し、キーワード関連性スコア記憶部7に格納する。
キーワード関連性スコアの算出処理は、まず、カテゴリデータベース6からカテゴリ重みwij vuを求める。具体的には、カテゴリデータベース6からキーワードとカテゴリを読み込み、図10(A)に示すようにカテゴリに対応するキーワードがある場合は1とし、それ以外の部分は0とする。次に、図10(B)に示すように、各値を縦に足した合計の値で割り、縦に足した合計が1になるように正規化する。キーワードkjがカテゴリciに属している場合にwij vuに正の重みが付与され、各列の値の和が1になるように正規化されている。この値をもとに、λu =0.5としてキーワード関連性スコアui (1)を求める。まずu0 (1)について求めると、
u0 (1)=0.5×0.204+(1-0.5)×(1×0.25+0×0.25+0×0.25+0×0.25=0.227
となる。
u0 (1)=0.5×0.204+(1-0.5)×(1×0.25+0×0.25+0×0.25+0×0.25=0.227
となる。
ステップ315) すべてのキーワードに関しての処理が終了したかを確認する。すべてのキーワードについての処理が終了していない場合は、ステップ320に移行し、終了している場合は、ステップ235に移行する。ここでは、終了していないので、ステップ320に移行する。
ステップ320) j=j+1として、ステップ310に移行し、次のキーワードについて処理を行う。
これを繰り返してすべてのキーワードについて処理を行う。残りのキーワードについても同様に求める。和が1になるように正規化を行った結果のui (1)を図11に示す。ここでは、λu =0.5としてvi (1)を求めたが、λv をそれ以外の値に設定してもかまわない。また、30回反復した時点(r=30)における、キーワード関連性スコア記憶部7に格納されているキーワード関連性スコアの例を図12に示す。
なお、キーワード関連性スコアの算出方法は、キーワードに属するカテゴリのカテゴリ関連性スコアに基づくものであればどのような方法でもかまわない。
<キーワード関連性スコア補正部4>
キーワード関連性スコア補正部4では、反復により算出され、キーワード関連性スコア記憶部8のキーワード関連性スコアを入力として、キーワードタイプごとのスコアの比較が行えるようにスコアを補正し、補正されたキーワード関連性スコアを出力する。キーワード関連性スコア補正部4は、全体的にキーワード関連性スコアが高かったり、高いキーワード関連性スコアとなるキーワードが多かったりするというようなキーワードタイプごとの傾向をもとに、各キーワードタイプのキーワード関連性スコアを比較可能なように補正する機能を持つ。
キーワード関連性スコア補正部4では、反復により算出され、キーワード関連性スコア記憶部8のキーワード関連性スコアを入力として、キーワードタイプごとのスコアの比較が行えるようにスコアを補正し、補正されたキーワード関連性スコアを出力する。キーワード関連性スコア補正部4は、全体的にキーワード関連性スコアが高かったり、高いキーワード関連性スコアとなるキーワードが多かったりするというようなキーワードタイプごとの傾向をもとに、各キーワードタイプのキーワード関連性スコアを比較可能なように補正する機能を持つ。
ここでは、キーワードタイプごとに、キーワード関連性スコアの初期値の大きい上位30%のスコアの合計を求めて補正重みとし、反復により得られたキーワード関連性スコアに補正重みを乗じることによって補正を行うこととする。スコアの補正の仕方はこれに限るものではなく、キーワード関連性スコアの初期値を求める際の正規化で割った値を乗じることにより補正を行ったりしてもかまわない。
図13は、本発明の一実施の形態におけるキーワード関連性スコア補正処理のフローチャートである。
ステップ410) まず、k=0とする。
ステップ420) キーワードタイプに関するキーワードタイプ関連性スコアの初期値をスコアの高い順にソートする。図2より、キーワードタイプt0についてソートした結果は、0.30, 0.25, 0.20, 0.15, 0.12, 0.11, 0.10, 0.09, 0.08, 0.07となる。
ステップ430) スコアの高い上位X%のスコアである上位スコアを取得する。ここでは、X=30とする。t0における上位スコアは、0.30, 0.25, 0.20の3つとなる。
ステップ440) 上位スコアの合計である補正重みを算出する。補正重みは0.75となる。
ステップ450) キーワードタイプに関する反復により得られたキーワード関連性スコアに補正重みを乗じる。例えば、キーワードタイプt0については、図10で得られたキーワード関連性スコアの補正重みである0.75を乗じると、図14のt0の欄で示した通りとなる。
ステップ460) すべてのキーワードタイプに関して処理が行われたかどうかを確認する。処理が終わっていない場合はステップ470に移行する。ここではまだ処理が終わっていないため、ステップ470を実行する。
ステップ460) k=k+1とし、次のキーワードタイプについての処理に移る。すべての処理が行われた結果を図14に示す。
<キーワードタイプ判定部5>
キーワードタイプ判定部5では、キーワードタイプ毎のキーワード関連性スコアに基づき、キーワードタイプを判定する。キーワードタイプ毎にキーワード関連性スコアの大小を比較し、値の最も大きいものをそのキーワードに対するキーワードタイプと判定することとする。キーワードタイプの判定の仕方はこれに限るものではなく、値の大きい2つ以上のものをキーワードタイプとしたり、一定のスコアに満たないキーワードに対して「その他」などのキーワードタイプを付与したりしてもかまわない。キーワードタイプt0の場合について、図14において、キーワードごとに値を比較し、最も大きい値は下線が引かれているものである。これより、キーワードk1のキーワードタイプはt0となる。
キーワードタイプ判定部5では、キーワードタイプ毎のキーワード関連性スコアに基づき、キーワードタイプを判定する。キーワードタイプ毎にキーワード関連性スコアの大小を比較し、値の最も大きいものをそのキーワードに対するキーワードタイプと判定することとする。キーワードタイプの判定の仕方はこれに限るものではなく、値の大きい2つ以上のものをキーワードタイプとしたり、一定のスコアに満たないキーワードに対して「その他」などのキーワードタイプを付与したりしてもかまわない。キーワードタイプt0の場合について、図14において、キーワードごとに値を比較し、最も大きい値は下線が引かれているものである。これより、キーワードk1のキーワードタイプはt0となる。
図2と図14を比較することにより、類似するキーワードによるスコアの反映の効果を知ることができる。図2において最も大きい値にも下線が引かれている。これにより、下線が引かれている箇所が変化しているキーワードはk4、k5であることがわかる。図14より、k4はk0やk1と同じカテゴリc0に属するため、キーワードタイプもk0やk1と同じキーワードタイプt0に属すること可能性が高いと考えられるが、類似するキーワードによるスコアの反映によりキーワードタイプがt1からt0に変化している。k5についても、同じカテゴリc2に属するk2、k8と同じキーワードタイプt1に変化している。適切なキーワードタイプに判定されていることがわかる。
本発明を適用した場合の実行例を図15に示す。
キーワード『米子駅』として与えられた場合に、補正前のキーワードタイプは「宿泊」となっており、『米子駅』とは関連性が低い結果であったが、関連性スコアの初期値から関連キーワードの多さを推定し、その結果に基づいてスコアを補正することにより、より適切なキーワードタイプ「交通」が出力される。
<実験>
本発明の有効性を検証するための実験を行った。
本発明の有効性を検証するための実験を行った。
実験は12種類のキーワードタイプを用意し、約12万語のキーワードに対してキーワードタイプの判定を行い、最もキーワード関連性スコアの高いキーワードタイプをキーワードに付与した。手法として、特許文献1の手法を用意し、約12万語のキーワードの中から地域と関連のある約800語を選択し、各キーワードに付与されたキーワードタイプが適切化同化を判定して正解率を求めた。その結果、図16に示す結果が得られた。これ折、本発明の方法は、特許文献1の手法と比較して精度よくキーワードタイプを判定できると考えられる。
なお、上記の図1に示すキーワードタイプ判定装置の各構成要素の動作をプログラムとして構築し、キーワード判定装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
1 初期キーワード関連性スコア付与部
2 カテゴリ関連性スコア算出部
3 キーワード関連性スコア算出部
4 キーワード関連性スコア補正部
5 キーワードタイプ判定部
6 カテゴリデータベース
7 キーワード関連性スコア記憶部
8 カテゴリ関連性スコア記憶部
2 カテゴリ関連性スコア算出部
3 キーワード関連性スコア算出部
4 キーワード関連性スコア補正部
5 キーワードタイプ判定部
6 カテゴリデータベース
7 キーワード関連性スコア記憶部
8 カテゴリ関連性スコア記憶部
Claims (9)
- 入力されたキーワードがどのような種類のキーワードであるかを表すキーワードタイプを判定するためのキーワードタイプ判定装置であって、
キーワードと該キーワードのカテゴリを組にして格納したカテゴリデータベースと、
キーワードが入力されると、該キーワードに対し、キーワードタイプとの関連性を表すキーワード関連性スコアの初期値を設定し、キーワード関連性記憶手段に格納する初期キーワード関連性スコア算出手段と、
入力された前記キーワードに基づいて前記カテゴリデータベースを参照し、該キーワードに対するカテゴリを取得し、前記キーワード関連性記憶手段の該カテゴリに属する該キーワードのキーワード関連性スコアに基づいて、該カテゴリに対する各キーワードタイプとの関連性を表すカテゴリ関連性スコアを算出し、カテゴリ関連性スコア記憶手段に格納する処理を全てのカテゴリに対して反復するカテゴリ関連性スコア算出手段と、
入力された前記キーワードに基づいて前記カテゴリデータベースを参照し、該キーワードが属するカテゴリを取得し、該カテゴリに基づいて、前記カテゴリ関連スコア記憶手段を参照し、カテゴリのカテゴリ関連性スコアに基づき、該キーワードに対し各キーワードタイプとの関連性を表すキーワード関連性スコアを算出し、キーワード関連性スコア記憶手段に格納する処理を全てのキーワードに対して反復するキーワード関連性スコア算出手段と、
前記キーワード関連性スコア記憶手段から前記キーワード関連性スコアを取得して、各キーワードタイプのキーワード関連性スコアを比較可能なように該キーワード関連性スコアを補正する補正手段と、
キーワードタイプ毎に前記補正手段で補正されたキーワード関連性スコアの大小を比較し、キーワードタイプを判定するキーワード判定手段と、
を有することを特徴とするキーワードタイプ判定装置。 - 前記補正手段は、
全体的に、前記キーワード関連性スコアが高い、または、高いキーワード関連性スコアとなるキーワードが多いというキーワードタイプ毎の傾向に基づいて補正する手段を含む
請求項1記載のキーワードタイプ判定装置。 - 前記補正手段は、
前記キーワード関連性スコアの初期値の大きい上位X%のスコアの合計を補正重みとし、前記キーワード関連性スコア算出手段における反復により得られた前記キーワード関連性スコアに該補正重みを乗じることにより補正を行う手段を含む
請求項2記載のキーワードタイプ判定装置。 - 前記補正手段は、
前記初期キーワード関連性スコア算出手段で前記キーワード関連性スコアの初期値を求める際に正規化で用いた値を、前記キーワード関連性スコア算出手段における反復により得られた前記キーワード関連性スコアに乗じる手段を含む
請求項2記載のキーワードタイプ判定装置。 - 入力されたキーワードがどのような種類のキーワードであるかを表すキーワードタイプを判定するためのキーワードタイプ判定方法であって、
キーワードと該キーワードのカテゴリを組にして格納したカテゴリデータベースと、初期キーワード関連性スコア算出手段と、カテゴリ関連性スコア算出手段と、キーワード関連性スコア算出手段と、補正手段と、キーワード判定手段と、を有する装置において、
前記初期キーワード関連性スコア算出手段が、キーワードが入力されると、該キーワードに対し、キーワードタイプとの関連性を表すキーワード関連性スコアの初期値を設定し、キーワード関連性記憶手段に格納する初期キーワード関連性スコア算出ステップと、
前記カテゴリ関連性スコア算出手段が、入力された前記キーワードに基づいて前記カテゴリデータベースを参照し、該キーワードに対するカテゴリを取得し、前記キーワード関連性記憶手段の該カテゴリに属する該キーワードのキーワード関連性スコアに基づいて、該カテゴリに対する各キーワードタイプとの関連性を表すカテゴリ関連性スコアを算出し、カテゴリ関連性スコア記憶手段に格納する処理を全てのカテゴリに対して反復するカテゴリ関連性スコア算出ステップと、
前記キーワード関連性算出手段が、入力された前記キーワードに基づいて前記カテゴリデータベースを参照し、該キーワードが属するカテゴリを取得し、該カテゴリに基づいて、前記カテゴリ関連スコア記憶手段を参照し、カテゴリのカテゴリ関連性スコアに基づき、該キーワードに対し各キーワードタイプとの関連性を表すキーワード関連性スコアを算出し、キーワード関連性スコア記憶手段に格納する処理を全てのキーワードに対して反復するキーワード関連性スコア算出ステップと、
前記補正手段が、前記キーワード関連性スコア記憶手段から前記キーワード関連性スコアを取得して、各キーワードタイプのキーワード関連性スコアを比較可能なように該キーワード関連性スコアを補正する補正ステップと、
前記キーワード判定手段が、キーワードタイプ毎に前記補正ステップで補正されたキーワード関連性スコアの大小を比較し、キーワードタイプを判定するキーワード判定ステップと、
を行うことを特徴とするキーワードタイプ判定方法。 - 前記補正ステップにおいて、
全体的に、前記キーワード関連性スコアが高い、または、高いキーワード関連性スコアとなるキーワードが多いというキーワードタイプ毎の傾向に基づいて補正する
請求項5記載のキーワードタイプ判定方法。 - 前記補正ステップにおいて、
前記キーワード関連性スコアの初期値の大きい上位X%のスコアの合計を補正重みとし、前記キーワード関連性スコア算出手段における反復により得られた前記キーワード関連性スコアに該補正重みを乗じることにより補正を行う
請求項6記載のキーワードタイプ判定方法。 - 前記補正ステップにおいて、
前記初期キーワード関連性スコア算出ステップで前記キーワード関連性スコアの初期値を求める際に正規化で用いた値を、前記キーワード関連性スコア算出手段における反復により得られた前記キーワード関連性スコアに乗じる
請求項6記載のキーワードタイプ判定方法。 - コンピュータを、
請求項1乃至4のいずれか1項に記載のキーワードタイプ判定装置の各手段として機能させるためのキーワードタイプ判定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012178415A JP5404867B1 (ja) | 2012-08-10 | 2012-08-10 | キーワードタイプ判定装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012178415A JP5404867B1 (ja) | 2012-08-10 | 2012-08-10 | キーワードタイプ判定装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5404867B1 true JP5404867B1 (ja) | 2014-02-05 |
JP2014035751A JP2014035751A (ja) | 2014-02-24 |
Family
ID=50202550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012178415A Active JP5404867B1 (ja) | 2012-08-10 | 2012-08-10 | キーワードタイプ判定装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5404867B1 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3225912B2 (ja) * | 1998-01-08 | 2001-11-05 | 日本電気株式会社 | 情報検索装置、方法及び記録媒体 |
JP2010097461A (ja) * | 2008-10-17 | 2010-04-30 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法および文書検索プログラム |
JP5414614B2 (ja) * | 2010-05-14 | 2014-02-12 | 日本電信電話株式会社 | キーワードタイプ判定装置及びプログラム |
-
2012
- 2012-08-10 JP JP2012178415A patent/JP5404867B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014035751A (ja) | 2014-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947919B (zh) | 用于生成文本匹配模型的方法和装置 | |
Kuhn | Variable selection using the caret package | |
CN110008973B (zh) | 一种模型训练方法、基于模型确定目标用户的方法及装置 | |
EP3282407A1 (en) | Assembly line balancing apparatus, method and program | |
WO2013009947A2 (en) | System and method for advertisement placement | |
US20180039693A1 (en) | Learned data filtering | |
EP2631815A1 (en) | Method and device for ordering search results, method and device for providing information | |
CN108415912B (zh) | 基于MapReduce模型的数据处理方法和设备 | |
US10169386B2 (en) | Devices and methods for processing network nodes | |
CN109657145A (zh) | 商户搜索方法及装置、电子设备及计算机可读存储介质 | |
CN105488176A (zh) | 数据处理方法和装置 | |
CN112001491A (zh) | 针对处理器确定神经网络架构的搜索方法和装置 | |
CN111260056A (zh) | 一种网络模型蒸馏方法及装置 | |
TWI780355B (zh) | 維修對象的定損方法及裝置、電子設備 | |
CN103870563B (zh) | 确定给定文本的主题分布的方法和装置 | |
CN111343259A (zh) | 基于二进制编码的云任务调度方法、服务器及存储介质 | |
CN111784246B (zh) | 物流路径的估测方法 | |
CN110889173B (zh) | 一种基于装配关系等级化的装配单元划分方法 | |
JP5404867B1 (ja) | キーワードタイプ判定装置及び方法及びプログラム | |
CN110704437B (zh) | 数据库查询语句的修改方法、装置、设备和存储介质 | |
US20070156769A1 (en) | Partition elimination system for a database that uses a multi-level partitioning definition | |
CN116521527A (zh) | 测试案例推荐方法及装置 | |
CN112256691A (zh) | 一种数据映射方法、装置及电子设备 | |
CN112364610A (zh) | 房源文章中楼盘卡片的插入方法、装置及计算设备 | |
CN112069164B (zh) | 数据查询方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131029 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5404867 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |