JP7037778B2 - Search device and method - Google Patents

Search device and method Download PDF

Info

Publication number
JP7037778B2
JP7037778B2 JP2020078942A JP2020078942A JP7037778B2 JP 7037778 B2 JP7037778 B2 JP 7037778B2 JP 2020078942 A JP2020078942 A JP 2020078942A JP 2020078942 A JP2020078942 A JP 2020078942A JP 7037778 B2 JP7037778 B2 JP 7037778B2
Authority
JP
Japan
Prior art keywords
metaword
primary
search
metawords
target content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020078942A
Other languages
Japanese (ja)
Other versions
JP2021174339A (en
Inventor
正明 五十崎
浩司 浦部
Original Assignee
株式会社ソケッツ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソケッツ filed Critical 株式会社ソケッツ
Priority to JP2020078942A priority Critical patent/JP7037778B2/en
Publication of JP2021174339A publication Critical patent/JP2021174339A/en
Application granted granted Critical
Publication of JP7037778B2 publication Critical patent/JP7037778B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、検索技術に関し、とくに抽象度の高い語を用いて検索を行うのに適した検索技術に関する。 The present invention relates to a search technique, and more particularly to a search technique suitable for performing a search using words with a high degree of abstraction.

情報検索においては、検索対象に関連する特徴量(例えば説明文や関連記事に含まれる単語や、音楽、映像に対して物理的な解析をおこなった結果から得られる特徴など)の出現頻度に対して、検索対象のカテゴリ(たとえば、旅行、ファッション、化粧品、音楽 …) に対して特徴となる単語を統計情報から求めて、検索用の情報タグとして付加することが多い。特徴となる単語の抽出手法としては、TF-IDF(Term Frequency-Inverse Document Frequency)やLDA(Latent Dirichlet Allocation)などが用いられる。 In information retrieval, for the frequency of appearance of features related to the search target (for example, words contained in explanatory texts and related articles, features obtained from the results of physical analysis of music and video). In many cases, characteristic words for the search target category (for example, travel, fashion, cosmetics, music, etc.) are obtained from statistical information and added as information tags for search. As a method for extracting a characteristic word, TF-IDF (Trm Frequency-Inverse Division Frequency), LDA (Latent Dirichlet Allocation), or the like is used.

しかしながら、抽象度が高い語や、複数の単語で構成される語(以下フレーズ)については、テキストに出現する頻度が少なく、タグから漏れてしまうおそれがあり、抽象度が高い語を用いて検索することが困難な場合が多い。 However, words with a high degree of abstraction and words composed of multiple words (hereinafter referred to as phrases) rarely appear in the text and may be leaked from the tags, so search using words with a high degree of abstraction. It is often difficult to do.

一般的な情報検索サイトでは、サービス運営者が情報を提供するコンテンツごとにそのコンテンツの内容を表す情報タグを付加し、ユーザから指定された検索条件ワードに完全一致、または部分一致したコンテンツ内容を提示する。情報検索サイトで、ユーザが選択したコンテンツの履歴に対して、それらのコンテンツのタグの統計分析を行い、そのユーザの選択する条件の偏りをユーザの嗜好情報とみなし、上記の情報を表示する際のフィルタ条件とすることで、各ユーザに対する最適化(パーソナライズ)が行われることがある。 In a general information retrieval site, an information tag indicating the content of the content is added to each content provided by the service operator, and the content content that completely or partially matches the search condition word specified by the user is added. Present. When displaying the above information on the information retrieval site by performing statistical analysis of the tags of the contents selected by the user against the history of the contents selected by the user, and considering the bias of the conditions selected by the user as the user's preference information. By setting the filter condition of, optimization (personalization) for each user may be performed.

図1は、情報タグを利用した検索システム例である。この例では、旅行情報に関するそれぞれのコンテンツに対して図2に示すような情報タグが付加されている。このタグおよびユーザ嗜好情報を用いて検索が行われる。 FIG. 1 is an example of a search system using an information tag. In this example, an information tag as shown in FIG. 2 is added to each content related to travel information. A search is performed using this tag and user preference information.

サービスとして提供されるコンテンツとしては、商品、記事、楽曲、画像、動画といったものがあり、それぞれのコンテンツの特徴を表すタグを付加することで、コンテンツのカテゴリごとの表示、検索、ユーザ嗜好分析などに用いられている。タグとしては、例えば、コンテンツ種別が「化粧品」の場合には図3に示すようなものがある。 Content provided as a service includes products, articles, songs, images, videos, etc. By adding tags that represent the characteristics of each content, display, search, user preference analysis, etc. for each content category, etc. It is used in. As the tag, for example, when the content type is "cosmetics", there is a tag as shown in FIG.

ところで、これらは、コンテンツ種別ごとに内容が異なっている。つまり、「旅行」「化粧品」「ファッション」「音楽」「飲料水」といったコンテンツ種別ごとにタグ種別の内容は異なるため、複数の種別のコンテンツを横断的に扱う際に問題となっていた。従って、コンテンツ種別に依存性が少ない、人の「感性」(ユーザの受ける「印象」、ユーザ自身の「感情」)を共通の情報として扱って情報タグとして扱うことが考えられる。 By the way, the contents of these differ depending on the content type. That is, since the content of the tag type is different for each content type such as "travel", "cosmetics", "fashion", "music", and "drinking water", there has been a problem when dealing with a plurality of types of content in a cross-cutting manner. Therefore, it is conceivable to treat a person's "sensitivity" (the user's "impression", the user's own "emotion"), which is less dependent on the content type, as common information and treat it as an information tag.

しかし、例えば、同じ「スッキリ」といった印象ワードに対して、「化粧品」「ファッション」「飲料水」では意味が全く同じなわけではないため、単純に「スッキリ」というワードだけで検索しても、検索結果として提示されるコンテンツが、ユーザのイメージに合わないという問題がある。 However, for example, for the same impression word such as "clean", the meanings of "cosmetics", "fashion", and "drinking water" are not exactly the same, so even if you simply search for the word "clean", you can search for it. There is a problem that the content presented as a search result does not match the user's image.

タグをコンテンツに付加する方法としては、一般的には以下のような手法が用いられる。
(1)対象コンテンツ(例えば商品)の説明文、紹介記事、ブログ、投稿欄への書き込み、SNS(Social Networking Service)上での書き込みなどのテキスト情報に対して、形態素解析などの手法を用いて、ワードや、フレーズを抽出し、商品の特徴を表すものをタグとして管理する。
(2)音楽コンテンツの場合には、音楽コンテンツに関するテキスト情報(例えば歌詞の内容、紹介記事など)から得られるタグに加えて、例えば、音楽信号のテンポ、音の大きさの時系列変化、周波数スペクトラム成分の時系列変化といった情報、ジャンル情報、歌手の声質や歌い方の特徴などに関係する情報をタグとして管理する。
(3)映像コンテンツの場合には、映像コンテンツに関する記事やシナリオ等のテキスト情報から得られるタグに加えて、映像シーンの色彩の変化、演出、BGMの印象、出演者のキャラクタ設定やセリフ、声優、監督など複数の要素から判定された情報をタグとして管理する。
As a method of adding a tag to the content, the following method is generally used.
(1) Using a method such as morphological analysis for text information such as description of target content (for example, product), introductory article, blog, writing in posting column, writing on SNS (Social Networking Service), etc. , Words and phrases are extracted, and those that represent the characteristics of the product are managed as tags.
(2) In the case of music content, in addition to the tags obtained from text information related to the music content (for example, the content of lyrics, introductory articles, etc.), for example, the tempo of the music signal, the time-series change in the volume of the sound, and the frequency. Information related to time-series changes in spectrum components, genre information, singer's voice quality and singing characteristics are managed as tags.
(3) In the case of video content, in addition to tags obtained from text information such as articles and scenarios related to video content, color changes in the video scene, direction, impression of BGM, character settings and lines of performers, voice actors. , Information judged from multiple elements such as supervision is managed as a tag.

図4はタグの自動付与システム例である。X1の入力テキストデータとしてはコンテンツに関する内容が記載された、説明文、紹介記事、掲示板上での評価コメント、SNS上でのコンテンツに関するコメントなどが想定される。また、同時に、コンテンツの種別、識別ID、コンテンツ名などの属性が付加されているものとする。このテキスト情報に対して、X2において、記号などの不要な文字の除去、大文字小文字、半角全角をそろえるといった前処理をおこなったのち、X3で形態素解析を行うことで、単語レベルでの切り出しが可能になる。ここで、形態素解析の例としてMeCab形態素解析エンジンによる出力例を説明する。例えば、入力テキストとして「このクッションはふわふわで可愛い」というテキスト(図5(A))を形態素解析すると、図5(B)という出力が得られるため、キーワード抽出X3において「名詞」「副詞」「形容詞」だけ抽出すると、「クッション」「ふわふわ」「可愛い」という単語がキーワード抽出X3の出力として抽出される(図5(C))。キーワード抽出にはユーザ辞書X4が参照されて良い。 FIG. 4 is an example of an automatic tag attachment system. As the input text data of X1, it is assumed that the content is described, the explanation, the introductory article, the evaluation comment on the bulletin board, the comment on the content on the SNS, and the like. At the same time, it is assumed that attributes such as content type, identification ID, and content name are added. This text information can be cut out at the word level by performing preprocessing such as removing unnecessary characters such as symbols, adjusting uppercase and lowercase letters, and aligning half-width and full-width characters in X2, and then performing morphological analysis in X3. become. Here, as an example of morphological analysis, an output example by the MeCab morphological analysis engine will be described. For example, if the text "This cushion is fluffy and cute" (FIG. 5 (A)) is morphologically analyzed as the input text, the output of FIG. 5 (B) is obtained. When only "adjectives" are extracted, the words "cushion", "fluffy", and "cute" are extracted as the output of the keyword extraction X3 (FIG. 5 (C)). The user dictionary X4 may be referred to for keyword extraction.

文書中の単語の重要度を求める方法にはLDA(Latent Dirichlet Allocation)やワードの意味に合わせたベクトルを用いるなど、さまざまな方法がある。ここでは、TF-IDFという手法を用いた例を説明する(https://ja.m.wikipedia.org/wiki/Tf-idf)。TF-IDFのTFは単語の出現頻度(文書の中で特定の単語が出現した回数)を、IDFは逆文書頻度(コーパス全体の中で文書を含んだ文書数の自然対数)を表し、それぞれ以下の意義がある。
TF: 文書dd内で出現頻度が高い単語ほど、その文書の特徴を表すのに重要である
IDF: 一般的にどの文書にも登場する「a」とか「the」などの単語は重要ではない
TF-IDFは、「文書ddにおける単語wwの重要度」を表している。このTF-IDFは、単語wと文書ddごとに決まる量なので、TF-IDF(w,d)とすると以下の式で定義される
TF-IDF(w,d)=TF(w,d)×IDF(w)
ここでは、コンテンツ種別ごとに出現するワードの重要度を求めるため、同じコンテンツ属性(pg)の文章は同じ文章として集計してTF-IDFの値を用いている。
TF-IDF(w,pg)=TF(w,pg)×IDF(w)
このようにして求められた重要度をそのコンテンツ種別におけるワードの重要度は数値が大きい程重要度が高いことを示す。図4においては、統計情報の生成X5および重要度スコア値算出X6によってワードの重要度スコア値を算出する。
There are various methods for determining the importance of a word in a document, such as using an LDA (Latent Dirichlet Allocation) or a vector that matches the meaning of the word. Here, an example using a method called TF-IDF will be described (https://ja.m.wikipedia.org/wiki/Tf-idf). The TF of TF-IDF represents the frequency of occurrence of words (the number of times a specific word appears in a document), and the IDF represents the frequency of reverse documents (the natural logarithm of the number of documents including documents in the entire corpus). It has the following significance.
TF: Words that appear more frequently in a document dd are more important to characterize the document IDF: Words such as "a" and "the" that generally appear in any document are not important TF -IDF represents "importance of word ww in document dd". Since this TF-IDF is an amount determined for each word w and the document dd, if TF-IDF (w, d) is used, TF-IDF (w, d) = TF (w, d) × defined by the following equation. IDF (w)
Here, in order to obtain the importance of words appearing for each content type, sentences with the same content attribute (pg) are aggregated as the same sentence and the value of TF-IDF is used.
TF-IDF (w, pg) = TF (w, pg) x IDF (w)
The importance obtained in this way indicates that the importance of the word in the content type is higher as the numerical value is larger. In FIG. 4, the importance score value of a word is calculated by generating statistical information X5 and calculating importance score value X6.

各テキスト文章から抽出されたキーワードは、そのキーワードwが文中に出現した回数の値n_count(w)との関係とともに保存される(X7)。例えば「コンテンツ名A」に関するテキストからの抽出結果として、「クッション」「ふわふわ」「可愛い」のキーワードが1回ずつ抽出されたとする。その場合の図4のキーワード抽出X3の出力例は図6(A)に示すように以下のようになる。
コンテンツ名A:クッション:1,ふわふわ:1,可愛い:1
図4のタグ処理X7において、入力テキストX1に付加されているコンテンツ名単位で、抽出されたワードの回数を集計する。たとえば上記の抽出結果とは別の「コンテンツ名A」対するテキスト入力のキーワード抽出結果が図6(B)に示すように
コンテンツ名A:ポーチ:1,柔らかい:1,可愛い:1,ふわふわ:2
とし、
sum_count(w)=Σn_count(w)
の計算を行うと(図6(C))、タグ処理X7における集計結果は図6(D)に示すように、つぎのようになる。
コンテンツ名A:ふわふわ:3,可愛い:2,軽い:1,クッション:1,ポーチ:1
さらに図4の集計タグ付け処理X8では、このようコンテンツ名Aに関するキーワードの集計結果に対して、タグとして不要なワード、出現回数が一定値以下のものを削除し(フィルタ処理X9)、残ったワードwに対して、図4の重要度スコア値算出処理X6で計算されたワードの重要度のスコア値weight_score(w)の値を用いたスコア値(word_score(w)=func(weight_score(w),sum_count(w))を用いて(図6(E))、キーワードを決定する。例えば、各キーワードの重要度スコアをword_score(w)=func(weight_score(w)×sum_count(w)と計算し(図6(F))、その値が一定値以上で、該当するキーワードの数が上限数以内のものを情報タグとして付加する。付加する際には、スコア値の高い順に並べたり、付加されるキーワードのスコア値を合計値が1になるように正規化して良い。タグは例えば図6(G)に示すように以下のとおりタグとして出力される(X10)。
コンテンツ名A:ふわふわ:0.53,可愛い:0.32,軽い:0.15
The keyword extracted from each text sentence is stored together with the relationship with the value n_count (w) of the number of times the keyword w appears in the sentence (X7). For example, it is assumed that the keywords "cushion", "fluffy", and "cute" are extracted once from the text related to "content name A". In that case, the output example of the keyword extraction X3 in FIG. 4 is as follows as shown in FIG. 6 (A).
Content name A: Cushion: 1, Fluffy: 1, Cute: 1
In the tag processing X7 of FIG. 4, the number of times of the extracted words is totaled for each content name added to the input text X1. For example, as shown in FIG. 6B, the keyword extraction result of the text input for the "content name A" different from the above extraction result is the content name A: pouch: 1, soft: 1, cute: 1, fluffy: 2.
age,
sum_count (w) = Σn_count (w)
(FIG. 6 (C)), the aggregated result in the tag processing X7 is as follows, as shown in FIG. 6 (D).
Content name A: Fluffy: 3, Cute: 2, Light: 1, Cushion: 1, Pouch: 1
Further, in the aggregation tagging process X8 of FIG. 4, words unnecessary as tags and those whose appearance count is less than a certain value are deleted from the aggregation result of the keyword related to the content name A in this way (filter processing X9), and remain. For the word w, the score value using the value of the score value weight_score (w) of the importance of the word calculated by the importance score value calculation process X6 of FIG. 4 (word_score (w) = func (weight_score (w)). , Sum_count (w)) (FIG. 6 (E)) to determine the keywords. For example, the importance score of each keyword is calculated as word_score (w) = func (weight_score (w) × sum_count (w)). (FIG. 6 (F)), a tag whose value is equal to or more than a certain value and whose number of applicable keywords is within the upper limit is added as an information tag. When adding, the tags are arranged or added in descending order of score value. The score value of each keyword may be normalized so that the total value becomes 1. The tag is output as a tag as shown in FIG. 6 (G), for example (X10).
Content name A: Fluffy: 0.53, Cute: 0.32, Light: 0.15

例えば、「ふわふわ」「可愛い」といったコンテンツに対する印象を表すワードがコンテンツのタグとして付加されている場合、これらのタグワードもしくは複数のタグワードを組み合わせにより、該当するコンテンツを検索することができる。 For example, when a word expressing an impression of the content such as "fluffy" or "cute" is added as a tag of the content, the corresponding content can be searched by combining these tag words or a plurality of tag words.

ここで、「小悪魔」といった抽象的で連想される印象があるワードをタグとして付加して、そのタグワードを検索に利用する場合を考える。上述のようなタグ付加手法では、キーワードを抽出したテキストデータ内に「小悪魔」という単語が存在し、それがその商品の特徴を表している(例えばそのワードが一定の比率以上検出された等)場合にのみで情報タグとして付加される。しかしながら、実際にはコンテンツの情報タグとして「小悪魔」というワードが付加される確率は低い。そのため、このような抽象的なワードを情報タグとして付加するためには、システム運営者が手作業でコンテンツごとにタグを付加するといった、手間のかかる作業が必要となる。 Here, consider a case where a word such as "small devil" that has an abstract and associated impression is added as a tag and the tag word is used for a search. In the tag addition method as described above, the word "small devil" exists in the text data from which the keyword is extracted, and it represents the characteristics of the product (for example, the word is detected at a certain ratio or more). ) It is added as an information tag only in the case. However, in reality, the probability that the word "small devil" will be added as an information tag for content is low. Therefore, in order to add such an abstract word as an information tag, it is necessary for the system operator to manually add a tag for each content, which is a time-consuming work.

また、コンテンツに対する評価を書き込める掲示板などでは、運営者側で情報タグ候補となるリストを用意し、タグ付けするワードをリストの中から選ばせてタグ付けするといった方法で対応する場合もある。しかし、この場合、評価を書きこむユーザの主観的な判断でタグ付けされるため、タグ付け基準が正確性に欠けるという問題がある。 In addition, on bulletin boards where evaluations of content can be written, the operator may prepare a list of information tag candidates, select the words to be tagged from the list, and tag them. However, in this case, since tagging is performed by the subjective judgment of the user who writes the evaluation, there is a problem that the tagging standard lacks accuracy.

抽象度の高いワードを用いて検索を行え、しかも、ユーザに対して提示内容の推薦情報を提供してユーザが検索結果を利用する際の便宜を図ることが好ましい。 It is preferable that the search can be performed using words with a high degree of abstraction, and that the recommendation information of the presented content is provided to the user for convenience when the user uses the search result.

この発明に関連する先行技術文献としては、特開2017-062717号公報がある。この先行技術文献は、コンテンツの出演者、ジャンル等の属性の他、顧客が感じる気分や印象に残るシーンを言語的に表現する言葉等のメタワードをコンテンツに関連付けて、オペレータが顧客との対応に基づいて決定したメタワードを用いてコンテンツを検索する際に、検索結果としてのコンテンツとともに、対応するメタワードを提示して、オペレータと顧客とのコミュニケーションを支援するようにすることを開示している。 Prior art documents related to this invention include Japanese Patent Application Laid-Open No. 2017-062717. In this prior art document, in addition to attributes such as the performers and genres of the content, metawords such as words that linguistically express the mood and memorable scenes that the customer feels are associated with the content so that the operator can respond to the customer. When searching for content using the metaword determined based on the search result, the corresponding metaword is presented together with the content as a search result to support communication between the operator and the customer.

なお、本発明は、上述の課題により限定的に理解されるべきでなく、その内容は特許請求の範囲に規定され、以下に実施例を用いて詳細に説明される。 It should be noted that the present invention should not be understood in a limited manner due to the above-mentioned problems, and the contents thereof are defined in the scope of claims and will be described in detail below with reference to examples.

特開2017-062717号公報JP-A-2017-062717

タグのベースとなるテキスト群に出現しにくい抽象度の高いワードを用いて検索するのに適した検索技術を提供することが好ましい。 It is preferable to provide a search technique suitable for searching using a word with a high degree of abstraction that is unlikely to appear in the text group that is the base of the tag.

この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。 According to the present invention, in order to achieve the above-mentioned object, the configuration as described in the claims is adopted. Here, prior to explaining the invention in detail, the description of the scope of claims will be supplementarily explained.

この発明の一側面によれば、上述の目的を達成するために、検索装置を:予め登録されている一次メタワードセットに含まれる1または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持する検索対象コンテンツ用一次メタワード関連付けデータ保持手段と;上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持する二次メタワード用一次メタワード関連付けデータ保持手段と;上記二次メタワードセットに含まれる少なくとも1つの二次メタワードに表示対象コンテンツを関連付けて保持する表示対象コンテンツ保持手段と;検索入力テキストを入力する検索入力手段と;上記検索入力手段から入力された上記検索入力テキストから1または複数の二次メタワードを抽出する二次メタワード抽出手段と;上記二次メタワード抽出手段によって抽出された上記1または複数の二次メタワードについて上記二次メタワード用一次メタワード関連付けデータ保持手段を参照して当該1または複数の二次メタワードに関連する一次メタワードを決定する関連一次メタワード決定手段と;上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索する検索手段と;上記少なくとも1つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも1つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示する表示対象コンテンツ表示手段と;上記検索手段によって取り出された検索対象コンテンツを表示する検索対象コンテンツ表示手段とを含むように構成している。 According to one aspect of the invention, in order to achieve the above object, a search device is used: for searchable content that associates one or more primary metawords contained in a pre-registered primary metaword set with the searchable content. Primary metaword association with the primary metaword association data holding means for the content to be searched that holds the primary metaword association data; Primary metaword association data holding means for secondary metaword that holds primary metaword association data for secondary metaword; Displayable content that holds display target content in association with at least one secondary metaword included in the above secondary metaword set. Retention means; Search input means for inputting search input text; Secondary metaword extraction means for extracting one or more secondary metawords from the search input text input from the search input means; Secondary metaword extraction Related primary metaword determining means for determining the primary metaword related to the one or more secondary metawords by referring to the primary metaword association data retention means for the secondary metaword for the one or more secondary metawords extracted by the means. And; a search means for searching the search target content using the primary metaword determined by the related primary metaword determining means; and; when the search target content is searched in relation to the at least one secondary metaword, the said A display target content display means for displaying the display target content stored in the display target content holding means in relation to at least one secondary metaword; and a search target for displaying the search target content retrieved by the search means. It is configured to include content display means.

一次メタワードは、二次メタワードを定義する構成要素である。一次メタワードはコーパス等から抽出しやすいワード、フレーズであり、上述の基本メタワードおよび感性メタワードに対応することが多いけれども、これに限定されない。二次メタワード(イディオムメタワード、イディオムタグともいう)はコーパス等から抽出しにくい抽象度の高いワード、フレーズであるけれどもこれに限定されない。 The primary metaword is a component that defines the secondary metaword. The primary metaword is a word or phrase that can be easily extracted from a corpus or the like, and often corresponds to, but is not limited to, the above-mentioned basic metaword and Kansei metaword. Secondary metawords (also called idiom metawords and idiom tags) are words and phrases with a high degree of abstraction that are difficult to extract from corpora and the like, but are not limited to these.

検索対象コンテンツ用一次メタワード関連付けデータは、検索対象コンテンツに一次メタワードをタグとして関連付けるものである。二次メタワード用一次メタワード関連付けデータは、二次メタワードに一次メタワードをタグとして関連付けるものである。 The primary metaword association data for the search target content associates the primary metaword with the search target content as a tag. The primary metaword association data for the secondary metaword associates the primary metaword with the secondary metaword as a tag.

この構成においては、二次メタワードに表示対象コンテンツが関連付けられているので、二次メタワードの検索結果の表示に関連して当該表示対象コンテンツを表示することによりユーザに対して検索結果の閲覧について推薦情報、ヒント情報等の案内情報を提供することができる。 In this configuration, since the display target content is associated with the secondary metaword, it is recommended to the user to view the search result by displaying the display target content in relation to the display of the search result of the secondary metaword. Guidance information such as information and hint information can be provided.

この構成において、上記表示対象コンテンツは、上記二次メタワードに関連して記述されたテキストであって良い。上記表示対象コンテンツは、対象となるユーザコンテンツの種別、ユーザのプロファイリング(年代、性別、嗜好傾向)、季節、時間帯、天候などの環境条件に応じて適合化、最適化されてよい。 In this configuration, the display target content may be text described in relation to the secondary metaword. The display target content may be adapted and optimized according to environmental conditions such as the type of target user content, user profiling (age, gender, preference tendency), season, time zone, and weather.

また、この構成において、上記検索対象コンテンツ用一次メタワード関連付けデータは、上記検索対象コンテンツの各々に対して1または複数の一次メタワードと、当該一次メタワードの検索対象コンテンツに関連するスコア値とを有し;上記二次メタワード用一次メタワード関連付けデータは、上記二次メタワードの各々に対して複数の一次メタワードと、当該一次メタワードの二次メタワードに関連するスコア値とを有し;上記検索手段は、抽出された二次メタワードについて上記二次メタワード用一次メタワード関連付けデータを参照して複数の一次メタワードの二次メタワードに関連するスコア値を取出し、当該関連付けられた複数の一次メタワードについて上記検索対象コンテンツ用一次メタワード関連付けデータを参照して上記複数の一次メタワードの検索対象コンテンツに関連するスコア値を取出し、上記複数の一次メタワードの二次メタワードに関連するスコア値および上記複数の一次メタワードの検索対象コンテンツに関連するスコア値に基づいて上記検索対象コンテンツを検索するように構成されて良い。 Further, in this configuration, the primary metaword association data for the search target content has one or a plurality of primary metawords for each of the search target contents, and a score value related to the search target content of the primary metaword. The primary metaword association data for the secondary metaword has a plurality of primary metawords for each of the secondary metawords and a score value associated with the secondary metaword of the primary metaword; the search means is extracted. For the secondary metawords that have been created, the score values related to the secondary metawords of multiple primary metawords are retrieved by referring to the primary metaword association data for the secondary metawords, and the associated primary metawords are the primary content for the search target content. With reference to the metaword association data, the score values related to the search target content of the plurality of primary metawords are extracted, and the score values related to the secondary metawords of the plurality of primary metawords and the search target contents of the plurality of primary metawords are related. It may be configured to search the search target content based on the score value to be searched.

また、この構成において、当該検索装置は、上記二次メタワードセットに含まれる1または複数の二次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用二次メタワード関連付けデータを保持する検索対象コンテンツ用二次メタワード関連付けデータ保持手段と;上記二次メタワードセットに含まれる1または複数の二次メタワードセットについて上記検索手段を用いて上記検索対象コンテンツについて検索を実行し、検索結果に基づいて上記1または複数の二次メタワードについて上記検索対象コンテンツのスコア値を算出して上記1または複数の二次メタワードおよび対応する検索対象コンテンツに関連するスコア値として上記検索対象コンテンツ用二次メタワード関連付けデータ保持手段に登録する学習手段とをさらに有し;上記検索手段は、上記二次メタワード抽出手段によって抽出された二次メタワードについて上記学習手段が学習済みの場合には上記検索対象コンテンツ用二次メタワード関連付けデータを参照して検索を行うように構成されて良い。 Further, in this configuration, the search device associates one or a plurality of secondary metawords included in the above secondary metaword set with the search target content, and holds the secondary metaword association data for the search target content for the search target content. With the following metaword association data retention means; the search is performed for the search target content using the search means for one or more secondary metaword sets included in the secondary metaword set, and the search result is used as the basis for the search result. Alternatively, the score value of the search target content is calculated for the plurality of secondary metawords, and the secondary metaword association data holding means for the search target content is used as the score value related to the one or more secondary metawords and the corresponding search target content. The search means further has a learning means to be registered in the above; the search means is the secondary metaword association data for the search target content when the learning means has already been learned for the secondary metaword extracted by the secondary metaword extraction means. It may be configured to search by referring to.

また、この構成において、上記二次メタワード抽出手段は、上記検索入力手段から入力された上記検索入力テキストから上記1または複数の二次メタワードに加え、1または複数の一次メタワードを抽出し;上記検索手段は、上記関連一次メタワード決定手段によって決定された上記一次メタワードに加え、上記抽出された1または複数の一次メタワードを用いて検索対象コンテンツを検索するように構成されて良い。 Further, in this configuration, the secondary metaword extraction means extracts one or a plurality of primary metawords in addition to the one or a plurality of secondary metawords from the search input text input from the search input means; the search. The means may be configured to search the search target content using the extracted one or a plurality of primary metawords in addition to the primary metaword determined by the related primary metaword determining means.

また、この構成において、上記二次メタワード用関連付けデータ保持手段に保持されている上記二次メタワード用関連付けデータの少なくとも1つの一次メタワードについて、コンテンツ種別、季節、シチュエーション、利用者の年齢・性別を有するパラメータ群のパラメータに依存してスコア値を変化させて良い。 Further, in this configuration, at least one primary metaword of the association data for the secondary metaword held in the association data holding means for the secondary metaword has a content type, a season, a situation, and a user's age / gender. The score value may be changed depending on the parameters of the parameter group.

また、この構成において、上記パラメータは、コンテンツ種別、季節、シチュエーション、および/または利用者の属性であって良い。 Further, in this configuration, the above parameters may be content types, seasons, situations, and / or user attributes.

なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品(コンピュータプログラム)もこの発明の技術的な範囲に含まれることも当然である。 It should be noted that the present invention can be realized not only as an apparatus or a system but also as a method. Of course, a part of such an invention can be configured as software. It is also natural that software products (computer programs) used to execute such software on a computer are also included in the technical scope of the present invention.

この発明の上述の側面および他の側面は特許請求の範囲に記載され、以下、実施例等を用いて詳述される。 The above-mentioned aspects and other aspects of the present invention are described in the claims and will be described in detail below with reference to Examples and the like.

この発明によれば、タグのベースとなるテキスト群に出現しにくい抽象度の高いワード、フレーズを用いて検索するのに適した検索技術を提供することができる。 According to the present invention, it is possible to provide a search technique suitable for searching using words and phrases with a high degree of abstraction that are unlikely to appear in the text group that is the base of the tag.

従来の情報タグを利用した検索システム例を説明する図である。It is a figure explaining the example of the search system using the conventional information tag. 従来の情報タグの例を説明する図である。It is a figure explaining the example of the conventional information tag. 化粧品を例に挙げて従来の情報タグの例を説明する図である。It is a figure explaining the example of the conventional information tag by taking cosmetics as an example. 情報タグをコンテンツに付加する例を説明する図である。It is a figure explaining an example of adding an information tag to a content. 形態素解析を用いた入力テキストの前処理を説明する図である。It is a figure explaining the preprocessing of the input text using the morphological analysis. 重要度スコア値を伴う情報タグをコンテンツに付加する例を説明する図である。It is a figure explaining the example which adds the information tag with the importance score value to the content. 実施例の検索の概略例を説明する図である。It is a figure explaining the schematic example of the search of an Example. 実施例のイディオムメタワードを説明する図である。It is a figure explaining the idiom metaword of an embodiment. コンテンツに関連するメタワードおよび応答テキスト例を説明する図である。It is a figure explaining the metaword and response text example related to a content. イディオムメタワードの例を説明する図である。It is a figure explaining an example of an idiom metaword. 実施例の具体的な構成例を示すブロック図である。It is a block diagram which shows the specific configuration example of an Example. 実施例の検索例の前提を説明する図である。It is a figure explaining the premise of the search example of an Example. 実施例の検索例を説明する図である。It is a figure explaining the search example of an Example. メタワードの例を説明する図である。It is a figure explaining the example of a metaword. メタワードのフォーマット例を説明する図である。It is a figure explaining the format example of a metaword. メタワードのフォーマット例を説明する図である。It is a figure explaining the format example of a metaword. 実施例の他の具体的な構成例を示すブロック図である。It is a block diagram which shows the other concrete configuration example of an Example. 実施例の他の具体的な構成例を示すブロック図である。It is a block diagram which shows the other concrete configuration example of an Example. テーマワードおよび具体的な説明の例を示す図である。It is a figure which shows the example of a theme word and a concrete explanation. テーマワードのタグを説明する図である。It is a figure explaining the tag of a theme word.

以下、この発明の実施例の検索装置について説明する。 Hereinafter, the search device according to the embodiment of the present invention will be described.

この実施例の検索装置は、従来型のタグ(以下、基本メタワード)による検索手法に対して、コンテンツごとに感性的なタグ(以下、感性メタワード)を付加し、ユーザの抽象度の高いワードによる要求に対しても検索できるようになっている。さらに、より抽象度の高いワード(以下、イディオムメタワード)に対して、それに関連した応答メッセージを定義し、そのイディオムメタワードによる検索結果のコンテンツ情報を提示する際に、推薦理由として提示させるようになっている。具体的には、イディオムメタワードは、その意味的な解釈を複数の感性メタワード、基本メタワードの集合体(以下メタワード因子ともいう)で表したメタワードとして定義される。この実施例の検索手法を採用することによって、図7の実施例のように、抽象度の高いユーザからの検索要求に対しても、イディオムメタワードおよび感性メタワード、基本メタワードを抽出し、それを元に、複数のコンテンツ種別を横断したコンテンツとマッチングさせることができるようになる。 The search device of this embodiment adds a sensibility tag (hereinafter, sensibility metaword) for each content to a search method using a conventional tag (hereinafter, basic metaword), and uses a word with a high degree of abstraction of the user. You can also search for requests. Furthermore, for a word with a higher degree of abstraction (hereinafter referred to as idiom metaword), a response message related to it should be defined, and when presenting the content information of the search result by the idiom metaword, it should be presented as a reason for recommendation. It has become. Specifically, an idiom metaword is defined as a metaword whose semantic interpretation is represented by a set of a plurality of Kansei metawords and basic metawords (hereinafter, also referred to as metaword factors). By adopting the search method of this embodiment, as in the embodiment of FIG. 7, the idiom metaword, the sensitivity metaword, and the basic metaword are extracted even for the search request from the user with a high degree of abstraction, and the idiom metaword, the sensitivity metaword, and the basic metaword are extracted. Based on this, it will be possible to match content that crosses multiple content types.

このイディオムメタワードに含まれるメタワード因子(基本メタワード、感性メタワード)は図8(A)のように、固定的に定義されるものと、コンテンツ種別、季節、シチュエーション、ユーザの年齢・性別などにより変動するもので構成される。感性メタワード群、基本メタワード群に含まれる因子数は最大上限数だけが定義されるもので、因子数は変動してもよい。また、変動因子はなくてもよい。ただし、イディオムメタワードに含まれる因子数は最小数、最大数が定義されている。感性メタワード群および基本メタワード群は図8(B)に示すように個別のメタワードとそれぞれのスコア値とを含んでいる。 The metaword factors (basic metaword, sensitivity metaword) included in this idiom metaword are fixedly defined as shown in Fig. 8 (A), and vary depending on the content type, season, situation, age / gender of the user, etc. Consists of what to do. Only the maximum number of factors is defined for the number of factors included in the Kansei metaword group and the basic metaword group, and the number of factors may vary. Also, there may be no variable factor. However, the minimum and maximum number of factors included in the idiom metaword is defined. The Kansei metaword group and the basic metaword group include individual metawords and their respective score values as shown in FIG. 8 (B).

イディオムメタワード内のメタワード因子は両者が混在した並び順でもよいけれども、この説明では固定メタワード、変動メタワードごとに前から後ろに向けて、スコア値の大きい順に並んでいる。ユーザからの要求に対しては、このイディオムメタワードを元に検索することで、コンテンツ種別や季節などの変動要因を考慮せずにイディオムメタワードの意味に対応するコンテンツ情報を得ることが可能となる。 The metaword factors in the idiom metaword may be arranged in a mixed order, but in this explanation, they are arranged in descending order of score value from front to back for each fixed metaword and variable metaword. By searching based on this idiom metaword for requests from users, it is possible to obtain content information corresponding to the meaning of the idiom metaword without considering variable factors such as content type and season. Become.

コンテンツに付加されるタグは図9(A)に示すように、基本メタワード、感性メタワード、およびイディオムメタワードからなる。イディオムメタワードは図9(B)に示すような情報を保持する。イディオムメタワードに関連付けられているメタワード因子や推薦理由は、対象となるコンテンツのドメイン、ユーザのプロファイリング(年代、性別、嗜好傾向)、季節、時間帯、天気などの環境条件などに応じて変更または最適化されて良い。「イディオム名」は、イディオムメタワードの表示用の名称である。応答テキスト(推薦テキスト)の例は図9(C)に示すとおりである。イディオムメタワードの例および対応するメタワード因子の例は図10に示すとおりである。 As shown in FIG. 9A, the tag attached to the content consists of a basic metaword, a sensitivity metaword, and an idiom metaword. The idiom metaword retains the information as shown in FIG. 9B. Metaword factors and reasons for recommendation associated with idiom metawords may change or change depending on the domain of the target content, user profiling (age, gender, preference tendency), season, time zone, environmental conditions such as weather, etc. May be optimized. The "idiom name" is a name for displaying the idiom metaword. An example of the response text (recommended text) is as shown in FIG. 9 (C). Examples of idiom metawords and corresponding metaward factors are shown in FIG.

図11は、実施例の具体的な構成例を示しており、この図において、検索装置100は、テキスト入力部10、イディオムメタワード抽出部20、一次メタワード決定部30、検索部40、表示部50、イディオムメタワード辞書601、イディオムメタワード用タグ記憶部602、検索対象コンテンツ用タグ記憶部603、検索対象コンテンツ情報データベース604、および推薦テキスト記憶部605を含んで構成されている。検索装置100は典型系的には1または複数の計算機リソース(コンピュータシステム)を用いて構成される。検索装置100は、例えば、記録媒体201に記録されたコンピュータプログラムや通信ネットワーク(図示しない)を介して送信されてくるコンピュータプログラムをコンピュータシステム200にインストールすることにより実現される。コンピュータシステムは、CPU、主メモリ、バス、外部メモリ、種々の入出力インタフェース等を有してなり、パーソナルコンピュータ、スマートフォン、情報家電機器等であって良い。 FIG. 11 shows a specific configuration example of the embodiment. In this figure, the search device 100 includes a text input unit 10, an idiom metaword extraction unit 20, a primary metaword determination unit 30, a search unit 40, and a display unit. 50, an idiom metaword dictionary 601, an idiom metaword tag storage unit 602, a search target content tag storage unit 603, a search target content information database 604, and a recommended text storage unit 605. The search device 100 is typically configured using one or more computer resources (computer systems). The search device 100 is realized, for example, by installing a computer program recorded on the recording medium 201 or a computer program transmitted via a communication network (not shown) in the computer system 200. The computer system includes a CPU, a main memory, a bus, an external memory, various input / output interfaces, and the like, and may be a personal computer, a smartphone, an information home appliance, or the like.

テキスト入力部10は、フリー入力テキスト、キャッチコピー等を入力して、形態素解析、意味解析等を行って、ワードやフレーズを切り出すものである。イディオムメタワードに先行して、または後続の予約語がある場合には、これに基づいてイディオムメタワードを切り出して良い。イディオムメタワード抽出部20は、イディオムメタワード辞書601を参照して1または複数のイディオムメタワードを抽出する。イディオムメタワード辞書601はイディオムメタワードの各エントリに対して同一のワードまたはフレーズの他に、候補となるワードまたはフレーズを保持してこれらのワードまたはフレーズが表れたときに該当するイディオムメタワードを抽出して良い。一次メタワード決定部30は、イディオムメタワード用タグ記憶部602を参照して、抽出したイディムメタワードに関連付けられた一次メタワード(基本メタワードまたは感性メタワード)およびそれぞれの重要度スコア値を取出す。検索部40は、抽出したイディオムメタワードに関連付けられた一次メタワードについて検索対象コンテンツ用タグ記憶部603を参照して、検索対象コンテンツとのマッチング度を算出し、マッチング度の大きな1または複数の検索対象コンテンツを特定する。マッチング度が予め定められた閾値よりも小さい場合には検索が失敗する。マッチング度は、イディオムメタワードに関連付けられた一次メタワードの重要度スコア値と、検索対象コンテンツに関連付けられた一次メタワードの重要度スコアとを掛け合わせて値を累積して算出して良い。これについては図12および図13を参照して後述する。表示部50は、マッチング度に基づいて決定された検索対象コンテンツに関する情報を検索対象コンテンツ情報データベース604を参照して内部または外部のアドレスから取り出して表示を行い、また、推薦テキスト記憶部605を参照してイディオムメタワードの推薦テキストを取り出して表示する。推薦テキストに替えて画像や音声を用いても良い。 The text input unit 10 inputs free input text, catch phrase, etc., performs morphological analysis, semantic analysis, and the like, and cuts out words and phrases. If there is a reserved word that precedes or follows the idiom metaword, the idiom metaword may be cut out based on this. The idiom metaword extraction unit 20 extracts one or a plurality of idiom metawords with reference to the idiom metaword dictionary 601. The idiom metaword dictionary 601 holds candidate words or phrases in addition to the same word or phrase for each entry of the idiom metaword, and when these words or phrases appear, the corresponding idiom metaword is displayed. You can extract it. The primary metaword determination unit 30 refers to the tag storage unit 602 for the idiom metaword, and extracts the primary metaword (basic metaword or sensitivity metaword) associated with the extracted idim metaword and the importance score value of each. The search unit 40 refers to the tag storage unit 603 for the search target content for the primary metaword associated with the extracted idiom metaword, calculates the matching degree with the search target content, and searches one or more with a large matching degree. Identify the target content. If the degree of matching is smaller than a predetermined threshold value, the search fails. The matching degree may be calculated by multiplying the importance score value of the primary metaword associated with the idiom metaword and the importance score of the primary metaword associated with the search target content, and accumulating the values. This will be described later with reference to FIGS. 12 and 13. The display unit 50 extracts and displays information about the search target content determined based on the matching degree from the internal or external address with reference to the search target content information database 604, and also refers to the recommended text storage unit 605. Then, the recommendation text of the idiom metaword is extracted and displayed. Images and sounds may be used instead of the recommended text.

一次メタワードの重要度スコアは、先に説明したTF-IDFを用いて準備できる。イディオムメタワードの重要度スコアは、イディオムメタワードに対応するテキストについてTF-IDFを用いて準備できる。 The importance score of the primary metaword can be prepared using the TF-IDF described above. The idiom metaword importance score can be prepared using TF-IDF for the text corresponding to the idiom metaword.

図12および図13は、イディオムメタワードと検索対象コンテンツとのマッチング度の算出例を示しており、これ例では、「大人の品格」および「小悪魔」というイディオムメタワードと商品A、BおよびCとのマッチング度を算出する。イディオムメタワード「小悪魔」および「大人の品格」のイディオムメタワード用タグは図12(A)に示すとおりであり、商品A、BおよびCの検索対象コンテンツ用タグは図12(B)に示すとおりである。これらの商品に対して、各イディオムメタワードとのマッチング度を計算する。この計算例では、各イディオムメタワードのメタワード因子(一次メタワード)と、各商品のタグ内の同じワードに対して、そのワードのイディオム側のスコア値と、商品のタグのスコア値を掛け合わせて、それをすべてのイディオムメタワードのメタワード因子に対して加算した値をマッチングスコアー値とする。 12 and 13 show an example of calculating the degree of matching between the idiom metaword and the content to be searched. In this example, the idiom metawords “adult dignity” and “small devil” and products A, B and The degree of matching with C is calculated. The idiom metaword tags for the idiom metawords "small devil" and "adult dignity" are as shown in FIG. 12 (A), and the search target content tags for products A, B, and C are shown in FIG. 12 (B). It is shown. For these products, the degree of matching with each idiom metaword is calculated. In this calculation example, the metaword factor (primary metaword) of each idiom metaword and the same word in the tag of each product are multiplied by the score value on the idiom side of that word and the score value of the tag of the product. , The value obtained by adding it to the metaword factors of all idiom metawords is used as the matching score value.

各イディオムメタワードに対する計算結果は図13に示すとおりである。この結果、「大人の品格」に対しては商品Bが表示され、併せて、イディオムメタワードの推薦テキストが表示される。 The calculation results for each idiom metaword are as shown in FIG. As a result, the product B is displayed for the "adult dignity ", and the recommendation text of the idiom metaword is also displayed.

なお、図11におけるテキスト入力部10、イディオムメタワード抽出部20、一次メタワード決定部30、検索部40、表示部50は、それぞれ対応する検索方法の各ステップを実行する。 The text input unit 10, the idiom metaword extraction unit 20, the primary metaword determination unit 30, the search unit 40, and the display unit 50 in FIG. 11 execute each step of the corresponding search method.

なお、各コンテンツに対して関連性が高いイディオムメタワードをオフラインで計算して、あらかじめ各コンテンツのタグとして管理することもできる。例えば、図17に示すように学習部70を設けて、検索対象コンテンツ用タグにイディオムメタワードおよび対応する重要度スコア値を付加して良い。このようにすることにより、イディオムメタワードを原始メタワード(基本メタワードおよび感性メタワード)と同様に扱うことができる。その際、1つのコンテンツに関連するイディオムメタワードは複数であって良い。このイディオムメタワードは、サービス提供者があらかじめ定義しておくことが前提になるが、ユーザ側からのリクエストに応じて追加して良い。図17において図11と対応する箇所には対応する符号を付した。 It is also possible to calculate an idiom metaword that is highly relevant to each content offline and manage it as a tag for each content in advance. For example, as shown in FIG. 17, a learning unit 70 may be provided to add an idiom metaword and a corresponding importance score value to the search target content tag. By doing so, the idiom metaword can be treated in the same way as the primitive metaword (basic metaword and Kansei metaword). At that time, there may be a plurality of idiom metawords related to one content. This idiom metaword is premised on being defined in advance by the service provider, but may be added in response to a request from the user side. In FIG. 17, the parts corresponding to FIG. 11 are designated by the corresponding reference numerals.

図14はイディオムメタワード、感性メタワード、および基本メタワードの例を示す。また、図15は、メタワードのフォーマット例をJSON(JavaScript(登録商標) Object Notation)形式で示す。図16(A)および(B)に示すようなフォーマットで記述されても良い。 FIG. 14 shows examples of idiom metawords, Kansei metawords, and basic metawords. Further, FIG. 15 shows an example of the format of the metaword in JSON (Javascript (registered trademark) Object Notification) format. It may be described in the format shown in FIGS. 16A and 16B.

図18は、図11の具体的な構成例の他の変形例を示す。この図においては、メタワード抽出部202を設け、入力テキストからイディオムメタワードのみでなく基本メタワードおよび/または感性メタワードも抽出して、この抽出した基本メタワードおよび/または感性メタワードとイディオムメタワードに基づいて決定した基本メタワードおよび/感性メタワードを用いて複合的に検索を行えるようにしている。図18において図11と対応する箇所には対応する符号を付した。 FIG. 18 shows another modification of the specific configuration example of FIG. In this figure, a metaword extraction unit 202 is provided to extract not only the idiom metaword but also the basic metaword and / or the sensation metaword from the input text, and based on the extracted basic metaword and / or the sensation metaword and the idiom metaword. It is possible to perform a complex search using the determined basic metaword and / sensitivity metaword. In FIG. 18, the parts corresponding to FIG. 11 are designated by the corresponding reference numerals.

なお、以上の説明において、キャッチコピーは商品、コンテンツ情報のキャンペーンテーマといった宣伝文句である。イディオムメタワードは基本的に固定で、追加修正も行われるけれども、変更頻度は低い。ユーザの欲求情報としてのユーザ要求入力テキスト、キャッチコピー、感情動機フレーズには、それぞれ複数のイディオムメタワードが関連付けられて良い。ユーザからの入力の場合には、テキスト、音声、画像、生体情報から複数の感性因子を抽出し、そのメタワード因子を多く持つイディオムメタデータに関連付ける。イディオムメタワードには複数の感性メタワード因子、基本メタワード因子が関連付けられる。これとは別にテーマワードを設定して複数の感性メタワード因子、基本メタワード因子が関連付けられて良い。これらに付加されているメタワード因子は、例えば季節、利用シーン、商品情報、関連記事、ネット上での評判などの情報を元に関連付けられることが想定され、それらの情報が更新されると付加されているメタワード因子も変更されて良い。テーマワードは付加されている感性メタワード因子とイディオムメタワードに付加されている感性メタワード因子との結びつきの強い場合にはテーマワードとイディオムメタワードとが関連付けられ良い。該当するテーマフレーズがない場合には関連付けされない。イディオムメタワード、テーマワードに付加されているメタワード因子が変更されれば、これらの関係も変更される。推薦テキストとしてテーマフレーズを用いて良い。
In the above explanation, the catch phrase is a promotional phrase such as a campaign theme for products and content information. The idiom metaword is basically fixed, and although additional modifications are made, the frequency of changes is low. A plurality of idiom metawords may be associated with each of the user request input text, the catch phrase, and the emotional motivation phrase as the user's desire information. In the case of input from the user, a plurality of Kansei factors are extracted from text, voice, image, and biometric information, and associated with idiom metadata having many metaword factors. Multiple Kansei metaword factors and basic metaword factors are associated with idiom metawords. Separately from this, a theme word may be set and a plurality of Kansei metaword factors and basic metaword factors may be associated with each other. It is assumed that the metaward factors added to these are related based on information such as seasons, usage scenes, product information, related articles, and reputation on the Internet, and are added when such information is updated. The metaward factor that is used may also be changed. When the theme word has a strong connection between the added Kansei metaword factor and the Kansei metaword factor added to the idiom metaword, the theme word and the idiom metaword may be associated with each other. If there is no corresponding theme phrase, it will not be associated. If the metaword factors attached to the idiom metaword and theme word are changed, these relationships will also be changed. You may use the theme phrase as the recommendation text.

図19はテーマワード「知床五湖」の紹介文で、ここから図20に示すようなメタワード因子が抽出される。このうち、イディオムメタワード(イディオムタグ)は、メタワード因子から(大自然、眺望)→「雄大な自然」、(幻想的、ひっそり)→「幻想的な静寂」と関連付けられている。 FIG. 19 is an introductory text of the theme word “Shiretoko Goko”, from which metaword factors as shown in FIG. 20 are extracted. Of these, the idiom metaword (idiom tag) is associated with (great nature, view) → "majestic nature", (fantastic, quiet) → "fantastic silence" from the metaword factor.

以上で実施例の説明を終了する。 This is the end of the description of the embodiment.

なお、この発明は上述の実施例に限定されることなく、その趣旨を逸脱しない範囲で種々変更が可能である。 The present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the spirit of the present invention.

例えば、イディオムメタワードに関連付けされているメタワード因子は、特許第6571231号で用いられているような意味ベクトル空間にワードをマッピングした際にベクトル距離が近いメタワード因子の集合体として定義することもできる。 For example, a metaword factor associated with an idiom metaword can also be defined as a collection of metaword factors with close vector distances when a word is mapped to a semantic vector space as used in Japanese Patent No. 6571231. ..

一例において、メタワードとして用いられるワードの種別と数はあらかじめ定義されている(規定された一次メタワードという。規定一次メタワードともいう)ものとし、規定された一次メタワードに類似したワードは関連する規定された一次メタワードとして名寄せされているものとする。
ex.規定一次メタワード(温かい):あたたかい、あったかい、温かい、ホカホカ....(名寄されたワード)
In one example, the type and number of words used as metawords shall be predefined (referred to as defined primary metawords; also referred to as defined primary metawords), and words similar to defined primary metawords shall be relevant. It is assumed that the name is identified as the primary metaword.
ex. Prescribed primary metaward (warm): warm, warm, warm, fluffy ... (Nayoro word)

この例において、例えば、「大人の隠れ家」というイディオムメタワードに対して、この対象となるイディオムメタワードがあらわれる記事や説明文、あらすじ、エッセイなどのテキスト文の集合体に対して、対象となるイディオムメタワードの近傍にあらわれるワードのうち、名寄せ後の規定一次メタワードとのワード間の距離の統計情報を求めることで、そのイディオムメタワードを、規定一次メタワードを用いたベクトルとして表現できる。この規定一次メタワードで表現されるベクトル空間を意味ベクトル空間とする。この方法の1つとして「Word2Vec」(https://deepage.net/bigdata/machine_learning/2016/09/02/word2vec_power_of_word_vector.html)といった手法がある。各イディオムメタワードが意味ベクトル空間で表現された場合、複数のイディオムメタワード間の類似性は、たとえばコサイン類似度等の計算で求められる。 In this example, for example, for the idiom metaword "adult hideout", the target is a collection of text sentences such as articles, explanations, synopses, and essays in which the target idiom metaword appears. Of the words that appear in the vicinity of the idiom metaword, the idiom metaword can be expressed as a vector using the specified primary metaword by obtaining the statistical information of the distance between the word and the specified primary metaword after name identification. The vector space expressed by this defined first-order metaword is defined as the semantic vector space. As one of the methods, there is a method such as "Word2Vec" (https://depage.net/bigdata/machine_learning/2016/02/02/word2vec_power_of_word_vector.html). When each idiom metaword is expressed in a semantic vector space, the similarity between a plurality of idiom metawords can be obtained by calculation such as cosine similarity.

例えば、対象イディオム「大人の隠れ家」に対して関連する規定一次メタワードを求める場合、類似度の高いフレーズである「大人の隠れ家」「男の隠れ家」「おとなの隠れ宿」といったワードを基準ワードとし、文章において、その前後に出現する規定一次メタワード、もしくは、規定一次メタワードに名寄せ可能なワードの出現率からイディオムメタワードと規定一次メタワードとの関連性を求める。 For example, when seeking a prescriptive primary metaword related to the target idiom "Adult Hideaway", the reference words are words such as "Adult Hideaway", "Man's Hideaway", and "Adult Hideaway", which are highly similar phrases. , In the text, the relationship between the idiom metaword and the specified primary metaword is obtained from the appearance rate of the specified primary metaword that appears before and after that, or the word that can be identified as the specified primary metaword.

以下の例を考える。
テキスト文の例
(1) 人には教えたくない、本当のおとなの隠れ家。秘密基地のようなワクワク感。
(2) 本当は内緒にしたい隠れ家!落ち着いた雰囲気のおしゃれな空間。
(3) 「遊びなれた人だけが知っている、大人の隠れ家」。そんな秘密の場所にはこだわりがあり、その本質を理解した客のみに扉は開かれる。
これらテキスト文の例においては、規定一次メタワードの関連性の高さを表すスコア値を正規化して大きい順に並べた場合、つぎのようになる。
「大人の隠れ家」
大人:0.241 落ち着いた:0.146 秘密:0.117 わくわく:0.104 内緒:0.08 こだわり:0.07 おしゃれ:0.06 本質:0.02 扉:0.01
このようにしてイディオムメタワードに、一次メタワードおよびそのスコア値を関連付けることができる。
Consider the following example.
Example of text sentence (1) A true adult hideaway that you do not want to teach. A feeling of excitement like a secret base.
(2) A hideaway that you really want to keep secret! A fashionable space with a calm atmosphere.
(3) "Adult hideaway known only to those who are used to playing". We are particular about such a secret place, and the door is opened only to customers who understand its essence.
In the example of these text sentences, when the score values indicating the high degree of relevance of the prescribed primary metaword are normalized and arranged in descending order, the result is as follows.
"Adult hideout"
Adult: 0.241 Calm: 0.146 Secret: 0.117 Exciting: 0.104 Secret: 0.08 Commitment: 0.07 Fashionable: 0.06 Essence: 0.02 Door: 0.01
In this way, the idiom metaword can be associated with the primary metaword and its score value.

10 テキスト入力部
20 イディオムメタワード抽出部
30 一次メタワード決定部
40 検索部
50 表示部
70 学習部
100 検索装置
200 コンピュータシステム
201 記録媒体
202 メタワード抽出部
601 イディオムメタワード辞書
602 イディオムメタワード用タグ記憶部
603 検索対象コンテンツ用タグ記憶部
604 検索対象情報コンテンツデータベース
605 推薦テキスト記憶部
10 Text input unit 20 Idiom metaword extraction unit 30 Primary metaword determination unit 40 Search unit 50 Display unit 70 Learning unit 100 Search device 200 Computer system 201 Recording medium 202 Metaword extraction unit 601 Idiom metaword dictionary 602 Idiom metaword tag storage unit 603 Search target content tag storage unit 604 Search target information content database 605 Recommended text storage unit

Claims (6)

予め登録されている一次メタワードセットに含まれる1または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持する検索対象コンテンツ用一次メタワード関連付けデータ保持手段と、
上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持する二次メタワード用一次メタワード関連付けデータ保持手段と、
上記二次メタワードセットに含まれる少なくとも1つの二次メタワードに表示対象コンテンツを関連付けて保持する表示対象コンテンツ保持手段と、
検索入力テキストを入力する検索入力手段と、
上記検索入力手段から入力された上記検索入力テキストから1または複数の二次メタワードを抽出する二次メタワード抽出手段と、
上記二次メタワード抽出手段によって抽出された上記1または複数の二次メタワードについて上記二次メタワード用一次メタワード関連付けデータ保持手段を参照して当該1または複数の二次メタワードに関連する一次メタワードを決定する関連一次メタワード決定手段と、
上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索する検索手段と、
上記少なくとも1つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも1つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示する表示対象コンテンツ表示手段と、
上記検索手段によって取り出された検索対象コンテンツを表示する検索対象コンテンツ表示手段とを有することを特徴とする検索装置。
A primary metaword association data holding means for search target content that holds primary metaword association data for search target content that associates one or more primary metawords included in a pre-registered primary metaword set with the search target content.
Primary metaword association data for secondary metawords that retains primary metaword association data for secondary metawords that associates multiple primary metawords included in the above primary metaword set with secondary metawords included in a pre-registered secondary metaword set. Holding means and
A display target content holding means for associating and holding display target content with at least one secondary metaword included in the above secondary metaword set, and a display target content holding means.
Search input means for inputting text and search input means
A secondary metaword extraction means that extracts one or more secondary metawords from the search input text input from the search input means, and a secondary metaword extraction means.
For the one or more secondary metawords extracted by the secondary metaword extraction means, the primary metaword related to the one or more secondary metawords is determined by referring to the primary metaword association data holding means for the secondary metawords. Related primary metaword determination means,
A search means for searching the search target content using the above-mentioned primary metaword determined by the above-mentioned related primary metaword determining means, and
When the search target content is searched in relation to the at least one secondary metaword, the display target content stored in the display target content holding means in relation to the at least one secondary metaword is displayed. Display target content display means and
A search device comprising: a search target content display means for displaying search target content retrieved by the search means.
上記表示対象コンテンツは、上記二次メタワードに関連して記述されたテキストである請求項1記載の検索装置。 The search device according to claim 1, wherein the display target content is a text described in relation to the secondary metaword. 上記検索対象コンテンツ用一次メタワード関連付けデータは、上記検索対象コンテンツの各々に対して1または複数の一次メタワードと、当該一次メタワードの検索対象コンテンツに関連するスコア値とを有し、
上記二次メタワード用一次メタワード関連付けデータは、上記二次メタワードの各々に対して複数の一次メタワードと、当該一次メタワードの二次メタワードに関連するスコア値とを有し、
上記検索手段は、抽出された二次メタワードについて上記二次メタワード用一次メタワード関連付けデータを参照して複数の一次メタワードの二次メタワードに関連するスコア値を取出し、当該関連付けられた複数の一次メタワードについて上記検索対象コンテンツ用一次メタワード関連付けデータを参照して上記複数の一次メタワードの検索対象コンテンツに関連するスコア値を取出し、上記複数の一次メタワードの二次メタワードに関連するスコア値および上記複数の一次メタワードの検索対象コンテンツに関連するスコア値に基づいて上記検索対象コンテンツを検索する請求項1または2に記載の検索装置。
The primary metaword association data for the search target content has one or a plurality of primary metawords for each of the search target contents, and a score value related to the search target content of the primary metaword.
The primary metaword association data for the secondary metaword has a plurality of primary metawords for each of the secondary metawords and a score value related to the secondary metaword of the primary metaword.
The search means refers to the primary metaword association data for the secondary metaword for the extracted secondary metaword, extracts the score value related to the secondary metaword of the plurality of primary metawords, and obtains the score values related to the secondary metaword of the plurality of primary metawords. With reference to the primary metaword association data for the search target content, the score values related to the search target content of the plurality of primary metawords are extracted, and the score values related to the secondary metawords of the plurality of primary metawords and the plurality of primary metawords are obtained. The search device according to claim 1 or 2, wherein the search target content is searched based on the score value related to the search target content.
上記二次メタワード抽出手段は、上記検索入力手段から入力された上記検索入力テキストから上記1または複数の二次メタワードに加え、1または複数の一次メタワードを抽出し、
上記検索手段は、上記関連一次メタワード決定手段によって決定された上記一次メタワードに加え、上記抽出された1または複数の一次メタワードを用いて検索対象コンテンツを検索する請求項1~のいずれかに記載の検索装置。
The secondary metaword extraction means extracts one or more primary metawords in addition to the one or more secondary metawords from the search input text input from the search input means.
The search means is described in any one of claims 1 to 3 for searching the search target content using the extracted one or a plurality of primary metawords in addition to the primary metawords determined by the related primary metaword determining means. Search device.
検索対象コンテンツ用一次メタワード関連付けデータ保持手段が、予め登録されている一次メタワードセットに含まれる1または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持するステップと、
二次メタワード用一次メタワード関連付けデータ保持手段が、上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持するステップと、
表示対象コンテンツ保持手段が、上記二次メタワードセットに含まれる少なくとも1つの二次メタワードに表示対象コンテンツを関連付けて保持するステップと、
検索入力手段が、検索入力テキストを入力するステップと、
二次メタワード抽出手段が、上記検索入力手段から入力された上記検索入力テキストから1または複数の二次メタワードを抽出するステップと、
関連一次メタワード決定手段が、上記二次メタワード抽出手段によって抽出された上記1または複数の二次メタワードについて上記二次メタワード用一次メタワード関連付けデータ保持手段を参照して当該1または複数の二次メタワードに関連する一次メタワードを決定するステップと、
検索手段が、上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索するステップと、
表示対象コンテンツ表示手段が、上記少なくとも1つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも1つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示するステップと、
検索対象コンテンツ表示手段が、上記検索手段によって取り出された検索対象コンテンツを表示するステップとを有することを特徴とする検索方法。
A step in which the primary metaword association data retention means for search target content retains primary metaword association data for search target content that associates one or more primary metawords included in a pre-registered primary metaword set with the search target content.
Primary metaword association for secondary metawords Primary metaword association for secondary metawords The data retention means associates multiple primary metawords included in the above primary metaword set with secondary metawords contained in a pre-registered secondary metaword set. The steps to hold the data and
A step in which the display target content holding means holds the display target content in association with at least one secondary metaword included in the above secondary metaword set.
The search input method is a step to enter the search input text,
A step in which the secondary metaword extraction means extracts one or more secondary metawords from the search input text input from the search input means.
The related primary metaword determining means refers to the primary metaword association data holding means for the secondary metaword for the one or more secondary metawords extracted by the secondary metaword extracting means to the one or more secondary metawords. Steps to determine the relevant primary metaword,
A step in which the search means searches for the content to be searched using the above-mentioned primary metaword determined by the above-mentioned related primary metaword determining means, and
When the search target content is searched in relation to the at least one secondary metaword, the display target content display means is stored in the display target content holding means in relation to the at least one secondary metaword. The steps to display the above display target content and
A search method, characterized in that the search target content display means includes a step of displaying the search target content retrieved by the search means.
コンピュータを、
予め登録されている一次メタワードセットに含まれる1または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持する検索対象コンテンツ用一次メタワード関連付けデータ保持手段、
上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持する二次メタワード用一次メタワード関連付けデータ保持手段、
上記二次メタワードセットに含まれる少なくとも1つの二次メタワードに表示対象コンテンツを関連付けて保持する表示対象コンテンツ保持手段、
検索入力テキストを入力する検索入力手段、
上記検索入力手段から入力された上記検索入力テキストから1または複数の二次メタワードを抽出する二次メタワード抽出手段、
上記二次メタワード抽出手段によって抽出された上記1または複数の二次メタワードについて上記二次メタワード用一次メタワード関連付けデータ保持手段を参照して当該1または複数の二次メタワードに関連する一次メタワードを決定する関連一次メタワード決定手段、
上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索する検索手段、
上記少なくとも1つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも1つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示する表示対象コンテンツ表示手段、および、
上記検索手段によって取り出された検索対象コンテンツを表示する検索対象コンテンツ表示手段、
として実行させるために使用されるコンピュータプログラム。
Computer,
Primary metaword association for search target content that retains primary metaword association data for search target content that associates one or more primary metawords included in a pre-registered primary metaword set with search target content.
Primary metaword association data for secondary metawords that retains primary metaword association data for secondary metawords that associates multiple primary metawords included in the above primary metaword set with secondary metawords included in a pre-registered secondary metaword set. Holding means,
Display target content holding means for holding display target content in association with at least one secondary meta word included in the above secondary meta word set.
Search input means for inputting text,
A secondary metaword extraction means, which extracts one or more secondary metawords from the search input text input from the search input means.
For the one or more secondary metawords extracted by the secondary metaword extraction means, the primary metaword related to the one or more secondary metawords is determined by referring to the primary metaword association data holding means for the secondary metawords. Related primary metaword determination means,
A search means for searching search target content using the above-mentioned primary metaword determined by the above-mentioned related primary metaword determining means,
When the search target content is searched in relation to the at least one secondary metaword, the display target content stored in the display target content holding means in relation to the at least one secondary metaword is displayed. Display target content display means and
Search target content display means that displays the search target content retrieved by the above search means,
A computer program used to run as.
JP2020078942A 2020-04-28 2020-04-28 Search device and method Active JP7037778B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020078942A JP7037778B2 (en) 2020-04-28 2020-04-28 Search device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020078942A JP7037778B2 (en) 2020-04-28 2020-04-28 Search device and method

Publications (2)

Publication Number Publication Date
JP2021174339A JP2021174339A (en) 2021-11-01
JP7037778B2 true JP7037778B2 (en) 2022-03-17

Family

ID=78279861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020078942A Active JP7037778B2 (en) 2020-04-28 2020-04-28 Search device and method

Country Status (1)

Country Link
JP (1) JP7037778B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043115A (en) 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> Document search device, document search method, and document search program
JP2018156420A (en) 2017-03-17 2018-10-04 ヤフー株式会社 Determination device, determination method, and determination program
JP2020173611A (en) 2019-04-10 2020-10-22 富士通株式会社 Search processing program, search processing method, and search processing device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043115A (en) 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> Document search device, document search method, and document search program
JP2018156420A (en) 2017-03-17 2018-10-04 ヤフー株式会社 Determination device, determination method, and determination program
JP2020173611A (en) 2019-04-10 2020-10-22 富士通株式会社 Search processing program, search processing method, and search processing device

Also Published As

Publication number Publication date
JP2021174339A (en) 2021-11-01

Similar Documents

Publication Publication Date Title
US10936824B2 (en) Detecting literary elements in literature and their importance through semantic analysis and literary correlation
US11048882B2 (en) Automatic semantic rating and abstraction of literature
US20190042626A1 (en) Recommendation Engine using Inferred Deep Similarities for Works of Literature
JP6381775B2 (en) Information processing system and information processing method
US9645987B2 (en) Topic extraction and video association
JP4347226B2 (en) Information extraction program, recording medium thereof, information extraction apparatus, and information extraction rule creation method
Serigos Using distributional semantics in loanword research: A concept-based approach to quantifying semantic specificity of Anglicisms in Spanish
US10922340B1 (en) Content extraction for literary work recommendation
KR101074820B1 (en) Recommendation searching system using internet and method thereof
KR101652433B1 (en) Behavioral advertising method according to the emotion that are acquired based on the extracted topics from SNS document
KR101928074B1 (en) Server and method for content providing based on context information
Itani Sentiment analysis and resources for informal Arabic text on social media
Makrynioti et al. PaloPro: a platform for knowledge extraction from big social data and the news
JP7037778B2 (en) Search device and method
Sariki et al. A book recommendation system based on named entities
JP2006139484A (en) Information retrieval method, system therefor and computer program
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
JP5697164B2 (en) Tagging program, apparatus, method, and server for providing a category tag that cannot be directly derived from the target sentence
Sasaki et al. A new readability measure for web documents and its evaluation on an effective web search engine
JP5277090B2 (en) Link creation support device, link creation support method, and program
US20240211776A1 (en) Display control system, display control method, and information storage medium
JP7324577B2 (en) Text processing method and text processing device
JP6852520B2 (en) Information processing equipment, information processing methods and programs
Di Bartolomeo et al. Ontology Extraction from Question/Answer Sections on Online Marketplaces
JP2004234138A (en) Dictionary evaluation support device and dictionary evaluation support program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210720

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220223

R150 Certificate of patent or registration of utility model

Ref document number: 7037778

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150