JP2021174339A

JP2021174339A - 検索装置および方法

Info

Publication number: JP2021174339A
Application number: JP2020078942A
Authority: JP
Inventors: 正明五十崎; Masaaki Isozaki; 浩司浦部; Koji Urabe
Original assignee: SOCKETS Inc
Current assignee: SOCKETS Inc
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2021-11-01
Anticipated expiration: 2040-04-28
Also published as: JP7037778B2

Abstract

【課題】タグのベースとなるテキスト群に出現し難い抽象度の高いワードを用いて検索するのに適した検索技術を提供する。【解決手段】検索装置において、イディオムメタワード抽出部２０は、入力テキストからイディオムメタワードを抽出する。一次メタワード決定部３０は、イディオムメタワード用タグ記憶部６０２を参照して、イディムメタワードに関連付けられた一次メタワードおよびその重要度スコア値を取出す。検索部４０は、イディオムメタワードに関連付けられた一次メタワードについて検索対象コンテンツタグ記憶部６０３を参照して、検索対象コンテンツとのマッチング度を算出し、検索対象コンテンツを特定する。表示部５０は、特定された検索対象コンテンツに関する情報を検索対象コンテンツ情報データベース６０４を参照して取り出して表示を行い、また、推薦テキスト記憶部６０５を参照してイディオムメタワードの推薦テキストを取り出して表示する。【選択図】図１１

Description

この発明は、検索技術に関し、とくに抽象度の高い語を用いて検索を行うのに適した検索技術に関する。

情報検索においては、検索対象に関連する特徴量（例えば説明文や関連記事に含まれる単語や、音楽、映像に対して物理的な解析をおこなった結果から得られる特徴など）の出現頻度に対して、検索対象のカテゴリ（たとえば、旅行、ファッション、化粧品、音楽 …）に対して特徴となる単語を統計情報から求めて、検索用の情報タグとして付加することが多い。特徴となる単語の抽出手法としては、ＴＦ−ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）やＬＤＡ（ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ）などが用いられる。

しかしながら、抽象度が高い語や、複数の単語で構成される語（以下フレーズ）については、テキストに出現する頻度が少なく、タグから漏れてしまうおそれがあり、抽象度が高い語を用いて検索することが困難な場合が多い。

一般的な情報検索サイトでは、サービス運営者が情報を提供するコンテンツごとにそのコンテンツの内容を表す情報タグを付加し、ユーザから指定された検索条件ワードに完全一致、または部分一致したコンテンツ内容を提示する。情報検索サイトで、ユーザが選択したコンテンツの履歴に対して、それらのコンテンツのタグの統計分析を行い、そのユーザの選択する条件の偏りをユーザの嗜好情報とみなし、上記の情報を表示する際のフィルタ条件とすることで、各ユーザに対する最適化（パーソナライズ）が行われることがある。

図１は、情報タグを利用した検索システム例である。この例では、旅行情報に関するそれぞれのコンテンツに対して図２に示すような情報タグが付加されている。このタグおよびユーザ嗜好情報を用いて検索が行われる。

サービスとして提供されるコンテンツとしては、商品、記事、楽曲、画像、動画といったものがあり、それぞれのコンテンツの特徴を表すタグを付加することで、コンテンツのカテゴリごとの表示、検索、ユーザ嗜好分析などに用いられている。タグとしては、例えば、コンテンツ種別が「化粧品」の場合には図３に示すようなものがある。

ところで、これらは、コンテンツ種別ごとに内容が異なっている。つまり、「旅行」「化粧品」「ファッション」「音楽」「飲料水」といったコンテンツ種別ごとにタグ種別の内容は異なるため、複数の種別のコンテンツを横断的に扱う際に問題となっていた。従って、コンテンツ種別に依存性が少ない、人の「感性」（ユーザの受ける「印象」、ユーザ自身の「感情」）を共通の情報として扱って情報タグとして扱うことが考えられる。

しかし、例えば、同じ「スッキリ」といった印象ワードに対して、「化粧品」「ファッション」「飲料水」では意味が全く同じなわけではないため、単純に「スッキリ」というワードだけで検索しても、検索結果として提示されるコンテンツが、ユーザのイメージに合わないという問題がある。

タグをコンテンツに付加する方法としては、一般的には以下のような手法が用いられる。
（１）対象コンテンツ（例えば商品）の説明文、紹介記事、ブログ、投稿欄への書き込み、ＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）上での書き込みなどのテキスト情報に対して、形態素解析などの手法を用いて、ワードや、フレーズを抽出し、商品の特徴を表すものをタグとして管理する。
（２）音楽コンテンツの場合には、音楽コンテンツに関するテキスト情報（例えば歌詞の内容、紹介記事など）から得られるタグに加えて、例えば、音楽信号のテンポ、音の大きさの時系列変化、周波数スペクトラム成分の時系列変化といった情報、ジャンル情報、歌手の声質や歌い方の特徴などに関係する情報をタグとして管理する。
（３）映像コンテンツの場合には、映像コンテンツに関する記事やシナリオ等のテキスト情報から得られるタグに加えて、映像シーンの色彩の変化、演出、ＢＧＭの印象、出演者のキャラクタ設定やセリフ、声優、監督など複数の要素から判定された情報をタグとして管理する。

図４はタグの自動付与システム例である。Ｘ１の入力テキストデータとしてはコンテンツに関する内容が記載された、説明文、紹介記事、掲示板上での評価コメント、ＳＮＳ上でのコンテンツに関するコメントなどが想定される。また、同時に、コンテンツの種別、識別ＩＤ、コンテンツ名などの属性が付加されているものとする。このテキスト情報に対して、Ｘ２において、記号などの不要な文字の除去、大文字小文字、半角全角をそろえるといった前処理をおこなったのち、Ｘ３で形態素解析を行うことで、単語レベルでの切り出しが可能になる。ここで、形態素解析の例としてＭｅＣａｂ形態素解析エンジンによる出力例を説明する。例えば、入力テキストとして「このクッションはふわふわで可愛い」というテキスト（図５（Ａ））を形態素解析すると、図５（Ｂ）という出力が得られるため、キーワード抽出Ｘ３において「名詞」「副詞」「形容詞」だけ抽出すると、「クッション」「ふわふわ」「可愛い」という単語がキーワード抽出Ｘ３の出力として抽出される（図５（Ｃ））。キーワード抽出にはユーザ辞書Ｘ４が参照されて良い。

文書中の単語の重要度を求める方法にはＬＤＡ（ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ）やワードの意味に合わせたベクトルを用いるなど、さまざまな方法がある。ここでは、ＴＦ−ＩＤＦという手法を用いた例を説明する（ｈｔｔｐｓ：／／ｊａ．ｍ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｔｆ−ｉｄｆ）。ＴＦ−ＩＤＦのＴＦは単語の出現頻度（文書の中で特定の単語が出現した回数）を、ＩＤＦは逆文書頻度（コーパス全体の中で文書を含んだ文書数の自然対数）を表し、それぞれ以下の意義がある。
ＴＦ：文書ｄｄ内で出現頻度が高い単語ほど、その文書の特徴を表すのに重要である
ＩＤＦ：一般的にどの文書にも登場する「ａ」とか「ｔｈｅ」などの単語は重要ではない
ＴＦ−ＩＤＦは、「文書ｄｄにおける単語ｗｗの重要度」を表している。このＴＦ−ＩＤＦは、単語ｗと文書ｄｄごとに決まる量なので、ＴＦ−ＩＤＦ（ｗ，ｄ）とすると以下の式で定義される
ＴＦ−ＩＤＦ（ｗ，ｄ）＝ＴＦ（ｗ，ｄ）×ＩＤＦ（ｗ）
ここでは、コンテンツ種別ごとに出現するワードの重要度を求めるため、同じコンテンツ属性（ｐｇ）の文章は同じ文章として集計してＴＦ−ＩＤＦの値を用いている。
ＴＦ−ＩＤＦ（ｗ，ｐｇ）＝ＴＦ（ｗ，ｐｇ）×ＩＤＦ（ｗ）
このようにして求められた重要度をそのコンテンツ種別におけるワードの重要度は数値が大きい程重要度が高いことを示す。図４においては、統計情報の生成Ｘ５および重要度スコア値算出Ｘ６によってワードの重要度スコア値を算出する。

各テキスト文章から抽出されたキーワードは、そのキーワードｗが文中に出現した回数の値ｎ＿ｃｏｕｎｔ（ｗ）との関係とともに保存される（Ｘ７）。例えば「コンテンツ名Ａ」に関するテキストからの抽出結果として、「クッション」「ふわふわ」「可愛い」のキーワードが１回ずつ抽出されたとする。その場合の図４のキーワード抽出Ｘ３の出力例は図６（Ａ）に示すように以下のようになる。
コンテンツ名Ａ：クッション：１，ふわふわ：１，可愛い：１
図４のタグ処理Ｘ７において、入力テキストＸ１に付加されているコンテンツ名単位で、抽出されたワードの回数を集計する。たとえば上記の抽出結果とは別の「コンテンツ名Ａ」対するテキスト入力のキーワード抽出結果が図６（Ｂ）に示すように
コンテンツ名Ａ：ポーチ：１，柔らかい：１，可愛い：１，ふわふわ：２
とし、
ｓｕｍ＿ｃｏｕｎｔ（ｗ）＝Σｎ＿ｃｏｕｎｔ（ｗ）
の計算を行うと（図６（Ｃ））、タグ処理Ｘ７における集計結果は図６（Ｄ）に示すように、つぎのようになる。
コンテンツ名Ａ：ふわふわ：３，可愛い：２，軽い：１，クッション：１，ポーチ：１
さらに図４の集計タグ付け処理Ｘ８では、このようコンテンツ名Ａに関するキーワードの集計結果に対して、タグとして不要なワード、出現回数が一定値以下のものを削除し（フィルタ処理Ｘ９）、残ったワードｗに対して、図４の重要度スコア値算出処理Ｘ６で計算されたワードの重要度のスコア値ｗｅｉｇｈｔ＿ｓｃｏｒｅ（ｗ）の値を用いたスコア値（ｗｏｒｄ＿ｓｃｏｒｅ（ｗ）＝ｆｕｎｃ（ｗｅｉｇｈｔ＿ｓｃｏｒｅ（ｗ），ｓｕｍ＿ｃｏｕｎｔ（ｗ））を用いて（図６（Ｅ））、キーワードを決定する。例えば、各キーワードの重要度スコアをｗｏｒｄ＿ｓｃｏｒｅ（ｗ）＝ｆｕｎｃ（ｗｅｉｇｈｔ＿ｓｃｏｒｅ（ｗ）×ｓｕｍ＿ｃｏｕｎｔ（ｗ）と計算し（図６（Ｆ））、その値が一定値以上で、該当するキーワードの数が上限数以内のものを情報タグとして付加する。付加する際には、スコア値の高い順に並べたり、付加されるキーワードのスコア値を合計値が１になるように正規化して良い。タグは例えば図６（Ｇ）に示すように以下のとおりタグとして出力される（Ｘ１０）。
コンテンツ名Ａ：ふわふわ：０．５３，可愛い：０．３２，軽い：０．１５

例えば、「ふわふわ」「可愛い」といったコンテンツに対する印象を表すワードがコンテンツのタグとして付加されている場合、これらのタグワードもしくは複数のタグワードを組み合わせにより、該当するコンテンツを検索することができる。

ここで、「小悪魔」といった抽象的で連想される印象があるワードをタグとして付加して、そのタグワードを検索に利用する場合を考える。上述のようなタグ付加手法では、キーワードを抽出したテキストデータ内に「小悪魔」という単語が存在し、それがその商品の特徴を表している（例えばそのワードが一定の比率以上検出された等）場合にのみで情報タグとして付加される。しかしながら、実際にはコンテンツの情報タグとして「小悪魔」というワードが付加される確率は低い。そのため、このような抽象的なワードを情報タグとして付加するためには、システム運営者が手作業でコンテンツごとにタグを付加するといった、手間のかかる作業が必要となる。

また、コンテンツに対する評価を書き込める掲示板などでは、運営者側で情報タグ候補となるリストを用意し、タグ付けするワードをリストの中から選ばせてタグ付けするといった方法で対応する場合もある。しかし、この場合、評価を書きこむユーザの主観的な判断でタグ付けされるため、タグ付け基準が正確性に欠けるという問題がある。

抽象度の高いワードを用いて検索を行え、しかも、ユーザに対して提示内容の推薦情報を提供してユーザが検索結果を利用する際の便宜を図ることが好ましい。

この発明に関連する先行技術文献としては、特開２０１７−０６２７１７号公報がある。この先行技術文献は、コンテンツの出演者、ジャンル等の属性の他、顧客が感じる気分や印象に残るシーンを言語的に表現する言葉等のメタワードをコンテンツに関連付けて、オペレータが顧客との対応に基づいて決定したメタワードを用いてコンテンツを検索する際に、検索結果としてのコンテンツとともに、対応するメタワードを提示して、オペレータと顧客とのコミュニケーションを支援するようにすることを開示している。

なお、本発明は、上述の課題により限定的に理解されるべきでなく、その内容は特許請求の範囲に規定され、以下に実施例を用いて詳細に説明される。

特開２０１７−０６２７１７号公報

タグのベースとなるテキスト群に出現しにくい抽象度の高いワードを用いて検索するのに適した検索技術を提供することが好ましい。

この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。

この発明の一側面によれば、上述の目的を達成するために、検索装置を：予め登録されている一次メタワードセットに含まれる１または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持する検索対象コンテンツ用一次メタワード関連付けデータ保持手段と；上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持する二次メタワード用一次メタワード関連付けデータ保持手段と；上記二次メタワードセットに含まれる少なくとも１つの二次メタワードに表示対象コンテンツを関連付けて保持する表示対象コンテンツ保持手段と；検索入力テキストを入力する検索入力手段と；上記検索入力手段から入力された上記検索入力テキストから１または複数の二次メタワードを抽出する二次メタワード抽出手段と；上記二次メタワード抽出手段によって抽出された上記１または複数の二次メタワードについて上記二次メタワード用関連付けデータ保持手段を参照して当該１または複数の二次メタワードに関連する一次メタワードを決定する関連一次メタワード決定手段と；上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索する検索手段と；上記少なくとも１つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも１つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示する表示対象コンテンツ表示手段と；上記検索出手段によって取り出された検索対象コンテンツを表示する検索対象コンテンツ表示手段とを含むように構成している。

一次メタワードは、二次メタワードを定義する構成要素である。一次メタワードはコーパス等から抽出しやすいワード、フレーズであり、上述の基本メタワードおよび感性メタワードに対応することが多いけれども、これに限定されない。二次メタワード（イディオムメタワード、イディオムタグともいう）はコーパス等から抽出しにくい抽象度の高いワード、フレーズであるけれどもこれに限定されない。

検索対象コンテンツ用一次メタワード関連付けデータは、検索対象コンテンツに一次メタワードをタグとして関連付けるものである。二次メタワード用一次メタワード関連付けデータは、二次メタワードに一次メタワードをタグとして関連付けるものである。

この構成においては、二次メタワードに表示対象コンテンツが関連付けられているので、二次メタワードの検索結果の表示に関連して当該表示対象コンテンツを表示することによりユーザに対して検索結果の閲覧について推薦情報、ヒント情報等の案内情報を提供することができる。

この構成において、上記表示対象コンテンツは、上記二次メタワードに関連して記述されたテキストであって良い。上記表示対象コンテンツは、対象となるユーザコンテンツの種別、ユーザのプロファイリング（年代、性別、嗜好傾向）、季節、時間帯、天候などの環境条件に応じて適合化、最適化されてよい。

また、この構成において、上記検索対象コンテンツ用一次メタワード関連付けデータは、上記検索対象コンテンツの各々に対して１または複数の一次メタワードと、当該一次メタワードの検索対象コンテンツに関連するスコア値とを有し；上記二次メタワード用一次メタワード関連付けデータは、上記二次メタワードの各々に対して複数の一次メタワードと、当該一次メタワードの二次メタワードに関連するスコア値とを有し；上記検索手段は、抽出された二次メタワードについて上記二次メタワード用一次メタワード関連付けデータを参照して複数の一次メタワードの二次メタワードに関連するスコア値を取出し、当該関連付けられた複数の一次メタワードについて上記検索対象コンテンツ用一次メタワード関連付けデータを参照して上記複数の一次メタワードの検索対象コンテンツに関連するスコア値を取出し、上記複数の一次メタワードの二次メタワードに関連するスコア値および上記複数の一次メタワードの検索対象コンテンツに関連するスコア値に基づいて上記検索対象コンテンツを検索するように構成されて良い。

また、この構成において、当該検索装置は、上記二次メタワードセットに含まれる１または複数の二次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用二次メタワード関連付けデータを保持する検索対象コンテンツ用二次メタワード関連付けデータ保持手段と；上記二次メタワードセットに含まれる１または複数の二次メタワードセットについて上記検索手段を用いて上記検索対象コンテンツについて検索を実行し、検索結果に基づいて上記１または複数の二次メタワードについて上記検索対象コンテンツのスコア値を算出して上記１または複数の二次メタワードおよび対応する検索対象コンテンツに関連するスコア値として上記検索対象コンテンツ用二次メタワード関連付けデータ保持手段に登録する学習手段とをさらに有し；上記検索手段は、上記二次メタワード抽出手段によって抽出された二次メタワードについて上記学習手段が学習済みの場合には上記検索対象コンテンツ用二次メタワード関連付けデータを参照して検索を行うように構成されて良い。

また、この構成において、上記二次メタワード抽出手段は、上記検索入力手段から入力された上記検索入力テキストから上記１または複数の二次メタワードに加え、１または複数の一次メタワードを抽出し；上記検索手段は、上記関連一次メタワード決定手段によって決定された上記一次メタワードに加え、上記抽出された１または複数の一次メタワードを用いて検索対象コンテンツを検索するように構成されて良い。

また、この構成において、上記二次メタワード用関連付けデータ保持手段に保持されている上記二次メタワード用関連付けデータの少なくとも１つの一次メタワードについて、コンテンツ種別、季節、シチュエーション、利用者の年齢・性別を有するパラメータ群のパラメータに依存してスコア値を変化させて良い。

また、この構成において、上記パラメータは、コンテンツ種別、季節、シチュエーション、および／または利用者の属性であって良い。

なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品（コンピュータプログラム）もこの発明の技術的な範囲に含まれることも当然である。

この発明の上述の側面および他の側面は特許請求の範囲に記載され、以下、実施例等を用いて詳述される。

この発明によれば、タグのベースとなるテキスト群に出現しにくい抽象度の高いワード、フレーズを用いて検索するのに適した検索技術を提供することができる。

従来の情報タグを利用した検索システム例を説明する図である。従来の情報タグの例を説明する図である。化粧品を例に挙げて従来の情報タグの例を説明する図である。情報タグをコンテンツに付加する例を説明する図である。形態素解析を用いた入力テキストの前処理を説明する図である。重要度スコア値を伴う情報タグをコンテンツに付加する例を説明する図である。実施例の検索の概略例を説明する図である。実施例のイディオムメタワードを説明する図である。コンテンツに関連するメタワードおよび応答テキスト例を説明する図である。イディオムメタワードの例を説明する図である。実施例の具体的な構成例を示すブロック図である。実施例の検索例の前提を説明する図である。実施例の検索例を説明する図である。メタワードの例を説明する図である。メタワードのフォーマット例を説明する図である。メタワードのフォーマット例を説明する図である。実施例の他の具体的な構成例を示すブロック図である。実施例の他の具体的な構成例を示すブロック図である。テーマワードおよび具体的な説明の例を示す図である。テーマワードのタグを説明する図である。

以下、この発明の実施例の検索装置について説明する。

この実施例の検索装置は、従来型のタグ（以下、基本メタワード）による検索手法に対して、コンテンツごとに感性的なタグ（以下、感性メタワード）を付加し、ユーザの抽象度の高いワードによる要求に対しても検索できるようになっている。さらに、より抽象度の高いワード（以下、イディオムメタワード）に対して、それに関連した応答メッセージを定義し、そのイディオムメタワードによる検索結果のコンテンツ情報を提示する際に、推薦理由として提示させるようになっている。具体的には、イディオムメタワードは、その意味的な解釈を複数の感性メタワード、基本メタワードの集合体（以下メタワード因子ともいう）で表したメタワードとして定義される。この実施例の検索手法を採用することによって、図７の実施例のように、抽象度の高いユーザからの検索要求に対しても、イディオムメタワードおよび感性メタワード、基本メタワードを抽出し、それを元に、複数のコンテンツ種別を横断したコンテンツとマッチングさせることができるようになる。

このイディオムメタワードに含まれるメタワード因子（基本メタワード、感性メタワード）は図８（Ａ）のように、固定的に定義されるものと、コンテンツ種別、季節、シチュエーション、ユーザの年齢・性別などにより変動するもので構成される。感性メタワード群、基本メタワード群に含まれる因子数は最大上限数だけが定義されるもので、因子数は変動してもよい。また、変動因子はなくてもよい。ただし、イディオムメタワードに含まれる因子数は最小数、最大数が定義されている。感性メタワード群および基本メタワード群は図８（Ｂ）に示すように個別のメタワードとそれぞれのスコア値とを含んでいる。

イディオムメタワード内のメタワード因子は両者が混在した並び順でもよいけれども、この説明では固定メタワード、変動メタワードごとに前から後ろに向けて、スコア値の大きい順に並んでいる。ユーザからの要求に対しては、このイディオムメタワードを元に検索することで、コンテンツ種別や季節などの変動要因を考慮せずにイディオムメタワードの意味に対応するコンテンツ情報を得ることが可能となる。

コンテンツに付加されるタグは図９（Ａ）に示すように、基本メタワード、感性メタワード、およびイディオムメタワードからなる。イディオムメタワードは図９（Ｂ）に示すような情報を保持する。イディオムメタワードに関連付けられているメタワード因子や推薦理由は、対象となるコンテンツのドメイン、ユーザのプロ大リング（年代、性別、嗜好傾向）、季節、時間帯、天気などの環境条件などに応じて変更または最適化されて良い。「イディオム名」は、イディオムメタワードの表示用の名称である。応答テキスト（推薦テキスト）の例は図９（Ｃ）に示すとおりである。イディオムメタワードの例および対応するメタワード因子の例は図１０に示すとおりである。

図１１は、実施例の具体的な構成例を示しており、この図において、検索装置１００は、テキスト入力部１０、イディオムメタワード抽出部２０、一次メタワード決定部３０、検索部４０、表示部５０、イディオムメタワード辞書６０１、イディオムメタワード用タグ記憶部６０２、検索対象コンテンツ用タグ記憶部６０３、検索対象コンテンツ情報データベース６０４、および推薦テキスト記憶部６０５を含んで構成されている。検索装置１００は典型系的には１または複数の計算機リソース（コンピュータシステム）を用いて構成される。検索装置１００は、例えば、記録媒体２０１に記録されたコンピュータプログラムや通信ネットワーク（図示しない）を介して送信されてくるコンピュータプログラムをコンピュータシステム２００にインストールすることにより実現される。コンピュータシステムは、ＣＰＵ、主メモリ、バス、外部メモリ、種々の入出力インタフェース等を有してなり、パーソナルコンピュータ、スマートフォン、情報家電機器等であって良い。

テキスト入力部１０は、フリー入力テキスト、キャッチコピー等を入力して、形態素解析、意味解析等を行って、ワードやフレーズを切り出すものである。イディオムメタワードに先行して、または後続の予約語がある場合には、これに基づいてイディオムメタワードを切り出して良い。イディオムメタワード抽出部２０は、イディオムメタワード辞書６０１を参照して１または複数のイディオムメタワードを抽出する。イディオムメタワード辞書６０１はイディオムメタワードの各エントリに対して同一のワードまたはフレーズの他に、候補となるワードまたはフレーズを保持してこれらのワードまたはフレーズが表れたときに該当するイディオムメタワードを抽出して良い。一次メタワード決定部３０は、イディオムメタワード用タグ記憶部６０２を参照して、抽出したイディムメタワードに関連付けられた一次メタワード（基本メタワードまたは感性メタワード）およびそれぞれの重要度スコア値を取出す。検索部４０は、抽出したイディオムメタワードに関連付けられた一次メタワードについて検索対象コンテンツ用タグ記憶部６０３を参照して、検索対象コンテンツとのマッチング度を算出し、マッチング度の大きな１または複数の検索対象コンテンツを特定する。マッチング度が予め定められた閾値よりも小さい場合には検索が失敗する。マッチング度は、イディオムメタワードに関連付けられた一次メタワードの重要度スコア値と、検索対象コンテンツに関連付けられた一次メタワードの重要度スコアとを掛け合わせて値を累積して算出して良い。これについては図１２および図１３を参照して後述する。表示部５０は、マッチング度に基づいて決定された検索対象コンテンツに関する情報を検索対象コンテンツ情報データベース６０４を参照して内部または外部のアドレスから取り出して表示を行い、また、推薦テキスト記憶部６０５を参照してイディオムメタワードの推薦テキストを取り出して表示する。推薦テキストに替えて画像や音声を用いても良い。

一次メタワードの重要度スコアは、先に説明したＴＦ−ＩＤＦを用いて準備できる。イディオムメタワードの重要度スコアは、イディオムメタワードに対応するテキストについてＴＦ−ＩＤＦを用いて準備できる。

図１２および図１３は、イディオムメタワードと検索対象コンテンツとのマッチング度の算出例を示しており、これ例では、「大人の品格」および「小悪魔」というイディオムメタワードと商品Ａ、ＢおよびＣとのマッチング度を算出する。イディオムメタワード「小悪魔」および「大人の品格」のイディオムメタワード用タグは図１２（Ａ）に示すとおりであり、商品Ａ、ＢおよびＣの検索対象コンテンツ用タグは図１２（Ｂ）に示すとおりである。これらの商品に対して、各イディオムメタワードとのマッチング度を計算する。この計算例では、各イディオムメタワードのメタワード因子（一次メタワード）と、各商品のタグ内の同じワードに対して、そのワードのイディオム側のスコア値と、商品のタグのスコア値を掛け合わせて、それをすべてのイディオムメタワードのメタワード因子に対して加算した値をマッチングスコアー値とする。

各イディオムメタワードに対する計算結果は図１３に示すとおりである。この結果、「大人の品買う」に対しては商品Ｂが表示され、併せて、イディオムメタワードの推薦テキストが表示される。

なお、図１１におけるテキスト入力部１０、イディオムメタワード抽出部２０、一次メタワード決定部３０、検索部４０、表示部５０は、それぞれ対応する検索方法の各ステップを実行する。

なお、各コンテンツに対して関連性が高いイディオムメタワードをオフラインで計算して、あらかじめ各コンテンツのタグとして管理することもできる。例えば、図１７に示すように学習部７０を設けて、検索対象コンテンツ用タグにイディオムメタワードおよび対応する重要度スコア値を付加して良い。このようにすることにより、イディオムメタワードを原始メタワード（基本メタワードおよび感性メタワード）と同様に扱うことができる。その際、１つのコンテンツに関連するイディオムメタワードは複数であって良い。このイディオムメタワードは、サービス提供者があらかじめ定義しておくことが前提になるが、ユーザ側からのリクエストに応じて追加して良い。図１７において図１１と対応する箇所には対応する符号を付した。

図１４はイディオムメタワード、感性メタワード、および基本メタワードの例を示す。また、図１５は、メタワードのフォーマット例をＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ）形式で示す。図１６（Ａ）および（Ｂ）に示すようなフォーマットで記述されても良い。

図１８は、図１１の具体的な構成例の他の変形例を示す。この図においては、メタワード抽出部２０２を設け、入力テキストからイディオムメタワードのみでなく基本メタワードおよび／または感性メタワードも抽出して、この抽出した基本メタワードおよび／または感性メタワードとイディオムメタワードに基づいて決定した基本メタワードおよび／感性メタワードを用いて複合的に検索を行えるようにしている。図１８において図１１と対応する箇所には対応する符号を付した。

なお、以上の説明において、キャッチコピーは商品、コンテンツ情報のキャンペーンテーマといった宣伝文句である。イディオムメタワードは基本的に固定で、追加修正も行われるけれども、変更頻度は低い。ユーザの欲求情報としてのユーザ要求入力テキスト、キャッチコピー、感情動機フレーズには、それぞれ複数のイディオムメタワードが関連付けられて良い。ユーザからの入力の場合には、テキスト、音声、画像、生体情報から複数の感性因子を抽出し、そのメタワード因子を多く持つイディオムメタデータに関連付ける。イディオムメタワードには複数の感性メタワード因子、基本メタワード因子が関連付けられる。これとは別にテーマワードを設定して複数の感性メタワード因子、基本メタワード因子が関連付けられて良い。これらに付加されているメタワード因子は、例えば季節、利用シーン、商品情報、関連記事、ネット上での評判などの情報を元に関連付けられることが想定され、それらの情報が更新されると付加されているメタワード因子も変更されて良い。テーマワードは付加されている感性メタワード因子とイディオムメタワードに付加されている感性メタワード因子との結びつきの強い場合にはテーマワードとイディオムメタワードとが関連付けられ良い。該当するテーマフレーズがない場合には関連付けされない。イディオムメタワード、テーマワードに付加されているメタワード因子が変更されれば、これらの関係も変更される。推薦テキストとしてテーマフレーズを用いて良い。

図１９はテーマワード「知床五湖」の紹介文で、ここから図２０に示すようなメタワード因子が抽出される。このうち、イディオムメタワード（イディオムタグ）は、メタワード因子から(大自然、眺望)→「雄大な自然」、(幻想的、ひっそり)→「幻想的な静寂」と関連付けられている。

以上で実施例の説明を終了する。

なお、この発明は上述の実施例に限定されることなく、その趣旨を逸脱しない範囲で種々変更が可能である。

例えば、イディオムメタワードに関連付けされているメタワード因子は、特許第６５７１２３１号で用いられているような意味ベクトル空間にワードをマッピングした際にベクトル距離が近いメタワード因子の集合体として定義することもできる。

一例において、メタワードとして用いられるワードの種別と数はあらかじめ定義されている（規定された一次メタワードという。規定一次メタワードともいう）ものとし、規定された一次メタワードに類似したワードは関連する規定された一次メタワードとして名寄せされているものとする。
ｅｘ．規定一次メタワード（温かい）：あたたかい、あったかい、温かい、ホカホカ...．(名寄されたワード）

この例において、例えば、「大人の隠れ家」というイディオムメタワードに対して、この対象となるイディオムメタワードがあらわれる記事や説明文、あらすじ、エッセイなどのテキスト文の集合体に対して、対象となるイディオムメタワードの近傍にあらわれるワードのうち、名寄せ後の規定一次メタワードとのワード間の距離の統計情報を求めることで、そのイディオムメタワードを、規定一次メタワードを用いたベクトルとして表現できる。この規定一次メタワードで表現されるベクトル空間を意味ベクトル空間とする。この方法の１つとして「Ｗｏｒｄ２Ｖｅｃ」（ｈｔｔｐｓ：／／ｄｅｅｐａｇｅ．ｎｅｔ／ｂｉｇｄａｔａ／ｍａｃｈｉｎｅ＿ｌｅａｒｎｉｎｇ／２０１６／０９／０２／ｗｏｒｄ２ｖｅｃ＿ｐｏｗｅｒ＿ｏｆ＿ｗｏｒｄ＿ｖｅｃｔｏｒ．ｈｔｍｌ）といった手法がある。各イディオムメタワードが意味ベクトル空間で表現された場合、複数のイディオムメタワード間の類似性は、たとえばコサイン類似度等の計算で求められる。

例えば、対象イディオム「大人の隠れ家」に対して関連する規定一次メタワードを求める場合、類似度の高いフレーズである「大人の隠れ家」「男の隠れ家」「おとなの隠れ宿」といったワードを基準ワードとし、文章において、その前後に出現する規定一次メタワード、もしくは、規定一次メタワードに名寄せ可能なワードの出現率からイディオムメタワードと規定一次メタワードとの関連性を求める。

以下の例を考える。
テキスト文の例
（１）人には教えたくない、本当のおとなの隠れ家。秘密基地のようなワクワク感。
（２）本当は内緒にしたい隠れ家！落ち着いた雰囲気のおしゃれな空間。
（３）「遊びなれた人だけが知っている、大人の隠れ家」。そんな秘密の場所にはこだわりがあり、その本質を理解した客のみに扉は開かれる。
これらテキスト文の例においては、規定一次メタワードの関連性の高さを表すスコア値を正規化して大きい順に並べた場合、つぎのようになる。
「大人の隠れ家」
大人：０．２４１落ち着いた：０．１４６秘密：０．１１７わくわく：０．１０４内緒：０．０８こだわり：０．０７おしゃれ：０．０６本質：０．０２扉：０．０１
このようにしてイディオムメタワードに、一次メタワードおよびそのスコア値を関連付けることができる。

１０テキスト入力部
２０イディオムメタワード抽出部
３０一次メタワード決定部
４０検索部
５０表示部
７０学習部
１００検索装置
２００コンピュータシステム
２０１記録媒体
２０２メタワード抽出部
６０１イディオムメタワード辞書
６０２イディオムメタワード用タグ記憶部
６０３検索対象コンテンツ用タグ記憶部
６０４検索対象情報コンテンツデータベース
６０５推薦テキスト記憶部

Claims

予め登録されている一次メタワードセットに含まれる１または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持する検索対象コンテンツ用一次メタワード関連付けデータ保持手段と、
上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持する二次メタワード用一次メタワード関連付けデータ保持手段と、
上記二次メタワードセットに含まれる少なくとも１つの二次メタワードに表示対象コンテンツを関連付けて保持する表示対象コンテンツ保持手段と、
検索入力テキストを入力する検索入力手段と、
上記検索入力手段から入力された上記検索入力テキストから１または複数の二次メタワードを抽出する二次メタワード抽出手段と、
上記二次メタワード抽出手段によって抽出された上記１または複数の二次メタワードについて上記二次メタワード用関連付けデータ保持手段を参照して当該１または複数の二次メタワードに関連する一次メタワードを決定する関連一次メタワード決定手段と、
上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索する検索手段と、
上記少なくとも１つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも１つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示する表示対象コンテンツ表示手段と、
上記検索出手段によって取り出された検索対象コンテンツを表示する検索対象コンテンツ表示手段とを有することを特徴とする検索装置。
上記表示対象コンテンツは、上記二次メタワードに関連して記述されたテキストである請求項１記載の検索装置。
上記検索対象コンテンツ用一次メタワード関連付けデータは、上記検索対象コンテンツの各々に対して１または複数の一次メタワードと、当該一次メタワードの検索対象コンテンツに関連するスコア値とを有し、
上記二次メタワード用一次メタワード関連付けデータは、上記二次メタワードの各々に対して複数の一次メタワードと、当該一次メタワードの二次メタワードに関連するスコア値とを有し、
上記検索手段は、抽出された二次メタワードについて上記二次メタワード用一次メタワード関連付けデータを参照して複数の一次メタワードの二次メタワードに関連するスコア値を取出し、当該関連付けられた複数の一次メタワードについて上記検索対象コンテンツ用一次メタワード関連付けデータを参照して上記複数の一次メタワードの検索対象コンテンツに関連するスコア値を取出し、上記複数の一次メタワードの二次メタワードに関連するスコア値および上記複数の一次メタワードの検索対象コンテンツに関連するスコア値に基づいて上記検索対象コンテンツを検索する請求項１または２に記載の検索装置。
上記二次メタワードセットに含まれる１または複数の二次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用二次メタワード関連付けデータを保持する検索対象コンテンツ用二次メタワード関連付けデータ保持手段と、
上記二次メタワードセットに含まれる１または複数の二次メタワードセットについて上記検索手段を用いて上記検索対象コンテンツについて検索を実行し、検索結果に基づいて上記１または複数の二次メタワードについて上記検索対象コンテンツのスコア値を算出して上記１または複数の二次メタワードおよび対応する検索対象コンテンツに関連するスコア値として上記検索対象コンテンツ用二次メタワード関連付けデータ保持手段に登録する学習手段とをさらに有し、
上記検索手段は、上記二次メタワード抽出手段によって抽出された二次メタワードについて上記学習手段が学習済みの場合には上記検索対象コンテンツ用二次メタワード関連付けデータを参照して検索を行う請求項３記載の検索装置。
上記二次メタワード抽出手段は、上記検索入力手段から入力された上記検索入力テキストから上記１または複数の二次メタワードに加え、１または複数の一次メタワードを抽出し、
上記検索手段は、上記関連一次メタワード決定手段によって決定された上記一次メタワードに加え、上記抽出された１または複数の一次メタワードを用いて検索対象コンテンツを検索する請求項１〜４のいずれかに記載の検索装置。
上記二次メタワード用関連付けデータ保持手段に保持されている上記二次メタワード用関連付けデータの少なくとも１つの一次メタワードについて、コンテンツ種別、季節、シチュエーション、利用者の年齢・性別といったユーザーに関する属性情報を有するパラメータ群のパラメータに依存してスコア値を変化させる請求項３または４記載の検索装置。
上記パラメータは、コンテンツ種別、季節、シチュエーション、および／または利用者の属性である請求項６記載の検索装置。
検索対象コンテンツ用一次メタワード関連付けデータ保持手段が、予め登録されている一次メタワードセットに含まれる１または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持するステップと、
二次メタワード用一次メタワード関連付けデータ保持手段が、上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持するステップと、
表示対象コンテンツ保持手段が、上記二次メタワードセットに含まれる少なくとも１つの二次メタワードに表示対象コンテンツを関連付けて保持するステップと、
検索入力手段が、検索入力テキストを入力するステップと、
二次メタワード抽出手段が、上記検索入力手段から入力された上記検索入力テキストから１または複数の二次メタワードを抽出するステップと、
関連一次メタワード決定手段が、上記二次メタワード抽出手段によって抽出された上記１または複数の二次メタワードについて上記二次メタワード用関連付けデータ保持手段を参照して当該１または複数の二次メタワードに関連する一次メタワードを決定するステップと、
検索手段が、上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索するステップと、
表示対象コンテンツ表示手段が、上記少なくとも１つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも１つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示するステップと、
検索対象コンテンツ表示手段が、上記検索出手段によって取り出された検索対象コンテンツを表示するステップとを有することを特徴とする
検索方法。
コンピュータを、
予め登録されている一次メタワードセットに含まれる１または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持する検索対象コンテンツ用一次メタワード関連付けデータ保持手段、
上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持する二次メタワード用一次メタワード関連付けデータ保持手段、
上記二次メタワードセットに含まれる少なくとも１つの二次メタワードに表示対象コンテンツを関連付けて保持する表示対象コンテンツ保持手段、
検索入力テキストを入力する検索入力手段、
上記検索入力手段から入力された上記検索入力テキストから１または複数の二次メタワードを抽出する二次メタワード抽出手段、
上記二次メタワード抽出手段によって抽出された上記１または複数の二次メタワードについて上記二次メタワード用関連付けデータ保持手段を参照して当該１または複数の二次メタワードに関連する一次メタワードを決定する関連一次メタワード決定手段、
上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索する検索手段、
上記少なくとも１つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも１つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示する表示対象コンテンツ表示手段、および、
上記検索出手段によって取り出された検索対象コンテンツを表示する検索対象コンテンツ表示手段、
として実行させるために使用されるコンピュータプログラム。