JP2016126567A - Content recommendation device and program - Google Patents
Content recommendation device and program Download PDFInfo
- Publication number
- JP2016126567A JP2016126567A JP2015000334A JP2015000334A JP2016126567A JP 2016126567 A JP2016126567 A JP 2016126567A JP 2015000334 A JP2015000334 A JP 2015000334A JP 2015000334 A JP2015000334 A JP 2015000334A JP 2016126567 A JP2016126567 A JP 2016126567A
- Authority
- JP
- Japan
- Prior art keywords
- content
- query
- search
- data
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、コンテンツ推薦装置、及びプログラムに関する。 The present invention relates to a content recommendation device and a program.
テレビ番組などのコンテンツを視聴するためのコンテンツ処理装置には、コンテンツ推薦機能を備えたものが存在する(例えば、特許文献1、特許文献2参照)。このコンテンツ推薦機能によって、ユーザは自分の視聴したいコンテンツを簡便に見つけられるという利点がある。コンテンツ推薦機能は、何らかの手段によって構築したコンテンツ再生環境において、個々のユーザの視聴履歴を解析して処理することにより実現される。
Some content processing apparatuses for viewing content such as television programs have a content recommendation function (see, for example,
例えば、特許文献2のコンテンツ処理装置は、個々のユーザのコンテンツ再生開始時間及びコンテンツ再生終了時間と、視聴したコンテンツを特定するコンテンツIDとからなる視聴ログ情報を蓄積する。コンテンツ処理装置は、蓄積した視聴ログ情報の集合の中から、システム設計者があらかじめプログラミングしたヒューリスティックなルールを用いて、個々のユーザの嗜好を反映した視聴ログ情報を機械的に抽出する。コンテンツ処理装置は、抽出した視聴ログ情報に対応する言語情報から、個々の視聴行動の要因となった話題を表す語句(クエリ)を何らかの手段によって取り出す。視聴ログ情報に対応する言語情報は、ユーザが視聴したコンテンツの字幕テキスト、または、視聴したコンテンツに付随する電子番組表(EPG:Electronic Program Guide)から得られる番組概要文などのメタデータである。 For example, the content processing apparatus disclosed in Patent Document 2 accumulates viewing log information including a content reproduction start time and a content reproduction end time of each user and a content ID that identifies the viewed content. The content processing apparatus mechanically extracts viewing log information reflecting individual user preferences from a set of accumulated viewing log information using heuristic rules programmed in advance by a system designer. The content processing apparatus extracts, by some means, a phrase (query) representing a topic that causes individual viewing behavior from language information corresponding to the extracted viewing log information. The language information corresponding to the viewing log information is metadata such as caption text of the content viewed by the user or a program summary sentence obtained from an electronic program guide (EPG) attached to the viewed content.
一方、ツイッターなどの不特定多数のユーザによるソーシャルメディア上での膨大な発言記録を解析するソーシャルデータ・マイニングという技術がある(例えば、非特許文献1参照)。ソーシャルデータ・マイニングでは、世間一般の人々の日々の関心事や、社会生活における多種多様な話題を、具体的な言語表現をともなう形で抽出することが可能である。また、ソーシャルデータにおける発言の対象がどのコンテンツに対して発せられたものであるかを自動的に判定する技術がある(例えば、非特許文献2参照)。
On the other hand, there is a technique called social data mining that analyzes an enormous amount of utterance records on social media by an unspecified number of users such as Twitter (see Non-Patent
コンテンツ検索の条件として用いる語句の集合であるクエリの設定においては、表記の多様性を考慮する必要がある。これは、ある特定の話題を表すクエリは唯一の表記をとるとは限らないためである。例えば、「サッカー」と「フットボール」は多くの文脈において同一の球技種目を指し示す。同じ話題を表す異なる表記のうち、いずれか一方の表記のみをクエリとして設定した場合には、他方の表記によって記述されたコンテンツを検索することは原理的には困難である。そこで、コンテンツの検索を行う装置において、表層的な表記(記述)は異なるものの、指し示す内容がユーザの意図するコンテンツの内容と合致していると想定される語句をクエリに用いることもある。しかし、装置が想定した語句が、ユーザの意図するコンテンツの内容と異なっていれば、その想定した語句をクエリに用いても、ユーザの意図に該当するコンテンツを正しく特定することは原理的に困難である。結果、ユーザに提示すべきコンテンツの一部あるは大部分が推薦リストから欠落する危険性が生じる。 In setting a query, which is a set of words and phrases used as a content search condition, it is necessary to consider the diversity of notation. This is because a query representing a specific topic does not necessarily have a unique notation. For example, “soccer” and “football” refer to the same ball sport in many contexts. In the case where only one of the different notations representing the same topic is set as a query, it is difficult in principle to search for the content described by the other notation. Therefore, in a device that searches for content, although the surface notation (description) is different, a phrase that is assumed to match the content of the content intended by the user may be used in the query. However, if the word / phrase assumed by the device is different from the content of the content intended by the user, it is theoretically difficult to correctly identify the content corresponding to the user's intention even if the assumed word / phrase is used in the query. It is. As a result, there is a risk that some or most of the content to be presented to the user is missing from the recommendation list.
上述したように、コンテンツ推薦に用いるクエリは、表記の多様性を考慮した上で設定されなければならない。しかし、クエリの表記の多様性を、いかにしてクエリの設定の手順に組み込むかという技術的課題に対して、特許文献1、2は何ら具体的な解決方法を示していない。
As described above, the query used for content recommendation must be set in consideration of the variety of notations. However,
一方、非特許文献1の技術によれば、ソーシャルデータ・マイニングによって、世間一般の人々の日々の関心事や、社会生活における多種多様な話題を、具体的な言語表現をともなう形で抽出することが可能である。このように抽出された言語的表現は、コンテンツの検索を行う際のクエリに追加すべき検索語の候補となる。また、非特許文献2の技術では、発言の対象がどのコンテンツに対して発せられたものであるかを自動的に判定している。コンテンツ・サービスを対象としたコンテンツ推薦において、このような技術を、多様性を考慮したクエリ拡張を実現するために利用することが期待される。しかしながら、非特許文献1に記載されたソーシャルデータ・マイニングの技術、及び、非特許文献2に記載されたツイートの対象コンテンツの自動判定の技術は、クエリとなる任意の語句と意味的に関連がある他の語句を特定する具体的手段を定めていない。
On the other hand, according to the technology of Non-Patent
本発明は、このような事情を考慮してなされたもので、元となる検索語に、その検索語と意味的な関連が深い他の表記の語句を加えてコンテンツを検索することができるコンテンツ推薦装置、及びプログラムを提供する。 The present invention has been made in consideration of such circumstances, and can search for content by adding words of other notations that are deeply related to the search word to the original search word. A recommendation device and a program are provided.
本発明の一態様は、検索に用いる語句である検索語のリストを示す一次クエリデータを取得する取得部と、同一の話題が異なる表記により記述され得る複数のコーパスデータから検索語候補の語句を抽出する検索語候補抽出部と、前記検索語候補の語句の中から、前記一次クエリデータに含まれるいずれかの前記検索語との類似度が所定条件よりも高く、かつ、前記所定条件よりも高い前記類似度を得た前記検索語とは異なる前記検索語のいずれかと前記コーパスデータにおいて共起する検索語候補の語句を選択して前記検索語に追加するクエリ拡張部と、前記一次クエリデータに含まれる前記検索語と、前記クエリ拡張部が追加した前記検索語とを用いてコンテンツを検索する検索部と、を備えることを特徴とするコンテンツ推薦装置である。
この発明によれば、コンテンツ推薦装置は、同一の話題が異なる表記により記述され得る複数のコーパスデータから検索語候補となる語句を取得する。コンテンツ推薦装置は、検索語候補の語句の中から、元の検索語との類似度が所定条件よりも高く、かつ、類似度が所定条件よりも高いと判断したときに用いた元の検索語とは異なる元の検索語とコーパスデータにおいて共起する語句を、検索語に追加する。コンテンツ推薦装置は、元の検索語と追加した検索語とを用いてコンテンツを検索する。
これにより、コンテンツ推薦装置は、元となる検索語に、その検索語と意味的な関連が深い他の表記の語句を加えてコンテンツを検索し、推薦することができる。
According to one aspect of the present invention, an acquisition unit that acquires primary query data indicating a list of search terms that are terms used for a search, and a search term candidate phrase from a plurality of corpus data in which the same topic can be described by different notations The search word candidate extraction unit to be extracted and the similarity between the search word candidate and any one of the search words included in the primary query data is higher than a predetermined condition and higher than the predetermined condition. A query expansion unit that selects and adds to the search term a search term candidate phrase that co-occurs in the corpus data with any of the search terms different from the search term that has obtained a high similarity, and the primary query data A content recommendation device comprising: a search unit that searches for content using the search term included in the search term and the search term added by the query expansion unit .
According to the present invention, the content recommendation device acquires a word / phrase as a search word candidate from a plurality of corpus data in which the same topic can be described by different notations. The content recommendation device uses the original search word used when it is determined that the similarity to the original search word is higher than the predetermined condition and the similarity is higher than the predetermined condition from the search word candidate phrases A phrase that co-occurs in the corpus data and the original search word different from is added to the search word. The content recommendation device searches for content using the original search word and the added search word.
As a result, the content recommendation device can search and recommend content by adding, to the original search word, other notation words that are deeply related to the search word.
本発明の一態様は、上述したコンテンツ推薦装置であって、前記検索語候補抽出部は、所定期間内の前記コーパスデータから前記検索語候補の語句を抽出する、ことを特徴とする。
この発明によれば、コンテンツ推薦装置は、所定期間のコーパスデータから抽出した検索語候補の語句の中から検索語として追加する語句を選択する。
これにより、コンテンツ推薦装置は、元となる検索語に、その検索語と意味的な関連が深く、時事性を反映した他の表記の語句を加えてコンテンツを検索し、推薦することができる。
One aspect of the present invention is the content recommendation device described above, wherein the search word candidate extraction unit extracts words of the search word candidate from the corpus data within a predetermined period.
According to the present invention, the content recommendation device selects a word to be added as a search word from the search word candidate words extracted from the corpus data for a predetermined period.
As a result, the content recommendation device can search and recommend content by adding words having other notations that are deeply related to the search word and reflect current affairs to the original search word.
本発明の一態様は、上述したコンテンツ推薦装置であって、前記取得部は、ユーザが視聴したコンテンツに関するテキスト情報から抽出した語句からなる一次クエリデータを取得する、ことを特徴とする。
この発明によれば、コンテンツ推薦装置は、ユーザが視聴したコンテンツの履歴に基づいて、ユーザの嗜好を表す元の検索語を取得する。
これにより、コンテンツ推薦装置は、ユーザが視聴したコンテンツの履歴から、ユーザの嗜好に合った他のコンテンツを検索し、提示することができる。
One aspect of the present invention is the content recommendation device described above, wherein the acquisition unit acquires primary query data including words and phrases extracted from text information related to content viewed by a user.
According to the present invention, the content recommendation device acquires an original search word representing the user's preference based on the history of the content viewed by the user.
Thereby, the content recommendation apparatus can search and present other content that matches the user's preference from the history of the content viewed by the user.
本発明の一態様は、上述したコンテンツ推薦装置であって、前記取得部は、ユーザが再生したコンテンツの部分に関するテキスト情報から抽出した語句からなる一次クエリデータを取得する、ことを特徴とする。
この発明によれば、コンテンツ推薦装置は、ユーザが再生したコンテンツの部分の内容を表すテキスト情報から検索語を取得する。
これにより、コンテンツ推薦装置は、ユーザの嗜好をよく表した検索語を取得することができるため、ユーザの求める内容により則したコンテンツを推薦することができる。
One aspect of the present invention is the content recommendation device described above, wherein the acquisition unit acquires primary query data including words and phrases extracted from text information related to a portion of content reproduced by a user.
According to the present invention, the content recommendation device acquires a search term from text information representing the content portion of the content reproduced by the user.
As a result, the content recommendation device can acquire a search term that well represents the user's preference, and can therefore recommend content that conforms to the content desired by the user.
本発明の一態様は、上述したコンテンツ推薦装置であって、前記検索語候補抽出部は、前記コーパスデータのタグまたは本文から前記検索語候補の語句を抽出する、ことを特徴とする。
この発明によれば、コンテンツ推薦装置は、コーパスデータのタグまたは本文から検索語候補となる語句を抽出する。
これにより、コンテンツ推薦装置は、コーパスデータに含まれるタグを利用することにより、処理の負荷を抑えつつ、コーパスデータの本文の内容を良く表した語句を検索語候補として抽出することができる。また、コンテンツ推薦装置は、タグが利用できない場合でも、コーパスデータの本文の内容から検索語候補の語句を抽出することができる。
One aspect of the present invention is the above-described content recommendation device, wherein the search word candidate extraction unit extracts a phrase of the search word candidate from a tag or text of the corpus data.
According to the present invention, the content recommendation device extracts a phrase that is a search word candidate from a tag or text of corpus data.
As a result, the content recommendation device can extract, as a search word candidate, a phrase that well expresses the content of the text of the corpus data while suppressing the processing load by using the tag included in the corpus data. Further, the content recommendation device can extract a search term candidate word from the content of the text of the corpus data even when the tag cannot be used.
本発明の一態様は、コンピュータを、検索に用いる語句である検索語のリストを示す一次クエリデータを取得する取得手段と、同一の話題が異なる表記により記述され得る複数のコーパスデータから検索語候補の語句を抽出する検索語候補抽出手段と、前記検索語候補の語句の中から、前記一次クエリデータに含まれるいずれかの前記検索語との類似度が所定条件よりも高く、かつ、前記所定条件よりも高い前記類似度を得た前記検索語とは異なる前記検索語のいずれかと前記コーパスデータにおいて共起する検索語候補の語句を選択して前記検索語に追加するクエリ拡張手段と、前記一次クエリデータに含まれる前記検索語と、前記クエリ拡張手段が追加した前記検索語とを用いてコンテンツを検索する検索手段と、を具備するコンテンツ推薦装置として機能させるためのプログラムである。 One aspect of the present invention is a search term candidate from a plurality of corpus data in which a computer can describe primary query data indicating a list of search terms that are words used for a search, and a plurality of corpus data in which the same topic can be described by different notations The search word candidate extracting means for extracting the word of the search term, and the similarity between the search word candidate and any one of the search words included in the primary query data is higher than a predetermined condition, and the predetermined word Query expansion means for selecting and adding to the search terms a search term candidate word that co-occurs in the corpus data with any of the search terms different from the search term that has obtained the similarity higher than a condition; Content comprising: search means for searching for content using the search terms included in primary query data and the search terms added by the query expansion means Is a program for functioning as Como device.
本発明によれば、元となる検索語に、その検索語と意味的な関連が深い他の表記の語句を加えてコンテンツを検索することができる。 According to the present invention, it is possible to search for content by adding words having other notations deeply related to the search word to the original search word.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
本実施形態のコンテンツ推薦装置は、ユーザの嗜好をキーワードなどの言語的手段によって記述した検索語の集合を一次クエリとし、一次クエリと内容が関連する他の表記の語句の集合である二次クエリを新たに一次クエリに追加して拡張クエリを生成する。二次クエリは、元の検索語と意味的な関連が深い語句の集合である。すなわち、二次クエリは、ユーザの嗜好を間接的に表現した補助的な検索語の集合である。本実施形態のコンテンツ推薦装置は、生成した拡張クエリを用いて、ユーザに推薦するコンテンツ(以下、「推薦コンテンツ」とも記載する。)を検索する。
このように、本実施形態のコンテンツ推薦装置は、ユーザの嗜好を表す元の検索語と、元の検索語に意味的な関連が深い他の検索語とを併用してユーザに推薦すべきコンテンツを検索する。従って、本実施形態のコンテンツ推薦装置は、ユーザの潜在的な嗜好や話題の関連性を考慮した高度なコンテンツ推薦を可能にする。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
The content recommendation device according to the present embodiment uses a set of search terms in which user preferences are described by linguistic means such as keywords as a primary query, and a secondary query that is a set of other notation phrases related to the primary query and contents. Is newly added to the primary query to generate an extended query. A secondary query is a set of phrases that are deeply semantically related to the original search term. That is, the secondary query is a set of auxiliary search terms that indirectly expresses the user's preference. The content recommendation device according to the present embodiment searches for content to be recommended to the user (hereinafter also referred to as “recommended content”) using the generated extended query.
As described above, the content recommendation device according to the present embodiment is a content that should be recommended to the user by using the original search word that represents the user's preference and another search word that is deeply related to the original search word. Search for. Therefore, the content recommendation device of the present embodiment enables advanced content recommendation in consideration of the user's potential preference and topic relevance.
また、ユーザの嗜好を構成する個々の概念(すなわち、話題)は、しばしば時事の出来事やその他の社会的情勢に影響され、日々変化すると考えられる。従って、クエリの設定においては、コンテンツ推薦を行う時期に応じた話題の時事性を十分に考慮する必要がある。例えば、芸能の話題や、事件・事故のニュースなど、ユーザの興味がごく短期間に限定した一過性の話題にあるときには、ユーザの長期的な嗜好に加えて、ユーザが新たに興味を示す可能性の高い、時事の話題を反映した検索語をクエリに反映させる必要がある。そこで、本実施形態のコンテンツ推薦装置は、推薦コンテンツの検索に用いる上述の拡張クエリを、表記の多様性に加え、時事性をさらに考慮して設定する。これにより、本実施形態のコンテンツ推薦装置は、ユーザの潜在的な嗜好に加え、日々新たに出現する時事の話題をも反映した、ユーザの求める内容により則したコンテンツ推薦を実現することができる。よって、本実施形態のコンテンツ推薦装置は、例えば、スポーツ中継などの専門性が高いコンテンツや、ニュース番組ならびにドキュメンタリー番組などの時事性が高いコンテンツを多く扱う放送サービスなどに好適である。 In addition, individual concepts (ie, topics) that constitute user preferences are often influenced by current events and other social situations, and are considered to change from day to day. Therefore, in setting the query, it is necessary to sufficiently consider the topical nature of the topic according to the time when the content recommendation is performed. For example, when the user's interest is a temporary topic that is limited to a very short period of time, such as entertainment topics or incident / accident news, in addition to the user's long-term preference, the user is newly interested It is necessary to reflect a search term that reflects the topic of current events that is highly likely. Therefore, the content recommendation device according to the present embodiment sets the above-described extended query used for the search of recommended content in consideration of the currentity in addition to the variety of notations. Thereby, the content recommendation apparatus of this embodiment can implement | achieve the content recommendation according to the content which the user calculates | requires reflecting the topic of the new thing which appears every day in addition to a user's potential preference. Therefore, the content recommendation device according to the present embodiment is suitable for a broadcasting service that handles a large amount of highly specialized content such as sports broadcasts and a highly current content such as news programs and documentary programs.
図1は、本発明の一実施形態によるコンテンツ推薦システムの構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図に示すように、コンテンツ推薦システムは、コンテンツ推薦装置1とコンテンツ表示装置3とを備えて構成される。コンテンツ推薦装置1とコンテンツ表示装置3とは、IP(Internet Protocol)ネットワークなどのネットワーク9を介して接続される。また、ネットワーク9には、ソーシャルメディアサービス提供装置5が接続される。同図においては、コンテンツ表示装置3及びソーシャルメディアサービス提供装置5をそれぞれ1台のみ示しているが、複数台ずつが存在し得る。
FIG. 1 is a functional block diagram showing a configuration of a content recommendation system according to an embodiment of the present invention, and only functional blocks related to the present embodiment are extracted and shown. As shown in the figure, the content recommendation system includes a
コンテンツ推薦装置1は、例えば、1台以上のコンピュータ装置により実現される。コンテンツ推薦装置1は、視聴履歴記録部11と、未視聴コンテンツ情報記録部12と、視聴履歴解析部13(取得部)と、ソーシャルデータ記録部14と、ソーシャルデータ解析部15(検索語候補抽出部)と、クエリ拡張部16と、推薦リスト生成部17(検索部)と、推薦コンテンツ提示部18と、記憶部19とを備えて構成される。例えば、コンテンツ推薦装置1がネットワークにより接続される複数台のコンピュータ装置により実現される場合、いずれのコンピュータ装置がいずれの機能部を実現するかについては任意とすることができる。
The
視聴履歴記録部11は、ユーザ視聴履歴情報を取得し、記録する。ユーザ視聴履歴情報は、コンテンツ推薦装置1が処理対象としているコンテンツ・サービスにおいて、ユーザが視聴したコンテンツの履歴を示す。ユーザ視聴履歴情報は、ユーザが視聴したコンテンツの識別情報と、そのコンテンツに関するテキスト情報とを含む。コンテンツは、テレビ番組、動画、静止画、ウェブページ、文書、テキスト、電子書籍など任意のコンテンツデータとすることができる。例えば、視聴履歴記録部11は、記録するユーザ視聴履歴情報を、コンテンツ表示装置3から受信したコンテンツ視聴情報に基づいて取得する。
The viewing
未視聴コンテンツ情報記録部12は、未視聴コンテンツ情報を取得し、記録する。未視聴コンテンツ情報は、コンテンツ・サービスにおいてユーザに提供可能なコンテンツのうち、ユーザが未視聴のコンテンツに関するテキスト情報を含む。ユーザが未視聴のコンテンツを、「未視聴コンテンツ」とも記載する。未視聴コンテンツは、テレビ番組、動画、静止画、ウェブページ、文書、テキスト、電子書籍など任意のコンテンツデータとすることができる。
The unviewed content
視聴履歴解析部13は、視聴履歴記録部11に記録されているユーザ視聴履歴情報を解析し、一次的な検索語となる語句の集合を示す一次クエリデータを生成する。一次クエリデータが示す語句集合の要素となる語句(検索語)を、「一次クエリの語句」と記載する。
The viewing
ソーシャルデータ記録部14は、不特定多数の投稿者がソーシャルメディア上に投稿したソーシャルデータをソーシャルメディアサービス提供装置5から取得して記録する。ソーシャルメディアの一例は、ツイッター(Twitter)である。ソーシャルデータは、例えばインターネットによりアクセス可能なソーシャルメディア上で公開されているデータであり、投稿者の発言内容を示すテキスト情報と、発言内容を公開(投稿)した日時の情報とを含む。不特定多数の投稿者の発言内容を示すソーシャルデータでは、同一の話題が異なる表記の語句により記述され得る。
The social
ソーシャルデータ解析部15は、ソーシャルデータ記録部14に記録されているソーシャルデータを解析し、二次クエリ候補の語句の集合を示す二次クエリ候補リストデータを生成する。二次クエリ候補とは、二次クエリの要素とすべき語句の候補である。二次クエリは、一次クエリの語句と意味的な関連が深く、一次クエリに追加する検索語となる語句の集合である。つまり、二次クエリ候補の語句は、検索語候補の語句である。
The social
クエリ拡張部16は、一次クエリデータに含まれる一次クエリの語句と、二次クエリ候補リストデータに含まれる二次クエリ候補の語句とを比較して、二次クエリ候補の語句の中から一次クエリの語句と意味的な関係が深い語句を、二次クエリの語句として抽出する。クエリ拡張部16は、抽出した二次クエリの語句を一次クエリの語句に追加した検索語の集合である拡張クエリデータを生成する。
The
推薦リスト生成部17は、未視聴コンテンツ情報が示す未視聴コンテンツに関するテキスト情報と、拡張クエリデータとを用いてマッチングスコアを算出する。推薦リスト生成部17は、算出したマッチングスコアに応じて各々の未視聴コンテンツに順位を付け、未視聴コンテンツの中から順位に基づいて推薦コンテンツを選択する。推薦リスト生成部17は、選択した推薦コンテンツを特定する情報を列挙した推薦コンテンツリストデータを生成する。
The recommendation
推薦コンテンツ提示部18は、推薦コンテンツリストデータが示す各々の推薦コンテンツに関する情報を提示する。つまり、推薦コンテンツ提示部18は、推薦コンテンツに関する情報を設定した推薦コンテンツ提示情報を、ユーザのコンテンツ表示装置3に送信して表示させる。
The recommended
記憶部19は、各コンテンツに関するテキスト情報を記憶する。また、記憶部19は、コンテンツ・サービスにおいて各ユーザに提供可能なコンテンツの情報を記憶する。
The
コンテンツ表示装置3は、例えば、ユーザのパーソナルコンピュータ、スマートフォン、タブレット端末、テレビジョン受信機などである。コンテンツ表示装置3は、操作部31、取得部32、出力部33、通知部34、及び受信部35を備えて構成される。操作部31は、ユーザによる操作を受ける。操作部31は、例えば、キーやボタン、マウス、タッチパネルに配されたタッチセンサ、リモートコントローラによる操作を受信する装置である。取得部32は、ユーザが利用可能なコンテンツ・サービスにおいて提供されるコンテンツの中から、操作部31が受けたユーザの操作により選択されたコンテンツを取得する。出力部33は、ディスプレイやスピーカーであり、取得部32が取得したコンテンツを出力する。通知部34は、ユーザが視聴したコンテンツを示すコンテンツ視聴情報をコンテンツ推薦装置1に通知する。受信部35は、コンテンツ推薦装置1から推薦コンテンツ提示情報を受信し、出力部33に表示させる。
The
続いて、コンテンツ推薦装置1の動作を説明する。以下では、コンテンツがテレビ番組である場合を例に説明する。
視聴履歴記録部11は、各々のユーザが過去に視聴したコンテンツの履歴を示すユーザ視聴履歴情報を、ユーザの識別情報であるユーザIDと対応付けて記録している。具体的には、視聴履歴記録部11は、コンテンツ表示装置3の通知部34からユーザが視聴したコンテンツの情報と、ユーザを特定する情報とを設定したコンテンツ視聴情報を受信する。ユーザが視聴したコンテンツは、コンテンツ表示装置3の操作部31が受けたユーザの操作に基づいて取得部32が取得し、出力部33により出力したコンテンツである。視聴履歴記録部11は、受信したコンテンツ視聴情報に基づいて、ユーザが視聴したコンテンツのコンテンツIDと、そのコンテンツの内容を記述したテキスト情報とを含むユーザ視聴履歴情報を、ユーザIDと対応付けて記録する。テキスト情報は、例えば、番組概要文などである。記憶部19は、コンテンツ推薦装置1が受信した放送波から取得した番組概要文を記憶しており、視聴履歴記録部11は、番組概要文を記憶部19から読み出す。
Next, the operation of the
The viewing
上記のように、視聴履歴記録部11は、ユーザ視聴履歴情報によって、ユーザが視聴したコンテンツの内容を示すテキスト情報を、コンテンツ単位で記録することを基本とする。なお、視聴履歴記録部11は、特許文献2に記載のように、ユーザがコンテンツを視聴したときの細かな操作履歴を詳細に記録した情報をさらにユーザ視聴履歴情報に設定してもよい。この場合、コンテンツ表示装置3の通知部34は、ユーザがコンテンツを視聴したときの操作履歴をさらにコンテンツ推薦装置1に通知する。操作履歴は、例えば、コンテンツの再生開始点及び再生終了点などである。
As described above, the viewing
一方、ソーシャルデータ記録部14は、ネットワーク9を介してソーシャルメディアサービス提供装置5にアクセスする。ソーシャルメディアサービス提供装置5は、不特定多数の投稿者が投稿したソーシャルデータを公開している。ソーシャルデータは、投稿者の発言内容を示すテキスト情報と、そのテキスト情報の投稿日時を示すタイムスタンプとを含む。ソーシャルデータ記録部14は、不特定多数の投稿者が投稿したソーシャルデータをアクセス先のソーシャルメディアサービス提供装置5から取得し、記録する。
On the other hand, the social
なお、ソーシャルデータ記録部14は、取得可能な全てのソーシャルデータを取得することを基本とする。つまり、ソーシャルデータ記録部14は、アクセス可能なソーシャルメディア上の全ての発言記録のデータを収集する。ただし、解析対象のコンテンツを限定したコンテンツ推薦や、時事性をより重視したコンテンツ推薦を実現する用途の場合、ソーシャルデータ記録部14は、収集対象のソーシャルデータを分類し、選別する処理をさらに行ってよい。収集対象のソーシャルデータの分類や選別には、ソーシャルデータの発言対象を自動判定する既存の技術や、発言の日時を特定可能な補助的手段を利用することができる。ソーシャルデータの発言対象を自動判定する技術としては、非特許文献2の技術が利用可能である。また、発言の日時を特定可能な形態でソーシャルデータを網羅的に取得する技術としては、「橋本翔、“tw twitter client on Ruby”、[online]、インターネット<URL:http://shokai.github.io/tw/>」などが利用可能である。これにより、ソーシャルデータ記録部14は、タイムスタンプが所定期間内の投稿日時を示すソーシャルデータを収集する。例えば、最近の話題を反映した場合、ソーシャルデータ記録部14は、例えば、現在から数日、数週間、数か月、あるいは、数年前までの期間のソーシャルデータを収集し、過去の話題を反映したい場合、指定された過去の期間のソーシャルデータを収集する。
The social
図2は、コンテンツ推薦装置1によるコンテンツ推薦処理の処理フローを示す図である。上記の処理により、コンテンツ推薦処理の開始前に、視聴履歴記録部11には、各々のユーザが視聴したコンテンツのコンテンツIDと、そのコンテンツの内容を記述したテキスト情報を含んだユーザ視聴履歴情報が記録されている。コンテンツ推薦装置1は、各ユーザについて、図2に示すコンテンツ推薦処理を実行する。
FIG. 2 is a diagram showing a processing flow of content recommendation processing by the
視聴履歴記録部11は、コンテンツを推薦するユーザのユーザIDが付与されているユーザ視聴履歴情報を未視聴コンテンツ情報記録部12及び視聴履歴解析部13に出力する(ステップS110)。
The viewing
未視聴コンテンツ情報記録部12は、視聴履歴記録部11から受信したユーザ視聴履歴情報に基づいて、コンテンツを推薦するユーザの未視聴コンテンツを検索する。具体的には、未視聴コンテンツ情報記録部12は、記憶部19に記憶されている各ユーザに提供可能なコンテンツの情報を参照し、ユーザ視聴履歴情報にコンテンツIDが設定されておらず、かつ、ユーザが利用可能なコンテンツを検索し、未視聴コンテンツとする。未視聴コンテンツ情報記録部12は、未視聴コンテンツの内容を記述したテキスト情報を記憶部19から読み出す。テキスト情報は、例えば、番組概要文などであり、コンテンツ推薦装置1が放送波から取得して記憶部19に蓄積しておく。未視聴コンテンツ情報記録部12は、未視聴コンテンツのテキスト情報のリストである未視聴コンテンツ情報を生成する(ステップS110)。
The unviewed content
上記により、未視聴コンテンツ情報記録部12は、コンテンツ推薦装置1が処理対象として想定したコンテンツ・サービスにおいてユーザが計算機可読な状態で入手可能な全てのコンテンツの中から、ユーザがまだ視聴していないコンテンツを検索する。入手可能なコンテンツは、例えば、一週間先までの放送予定番組などでもよく、ユーザが契約しているコンテンツ・サービスにおいて現在配信可能なコンテンツなどとしてもよい。なお、ユーザの視聴傾向に明らかな偏りがあることが予めわかっている場合、未視聴コンテンツ情報記録部12は、ジャンルなどのコンテンツの属性により、未視聴コンテンツとして選択する対象を限定する処理を行ってもよい。
As described above, the unviewed content
視聴履歴解析部13は、視聴履歴記録部11からユーザ視聴履歴情報を受信する。視聴履歴解析部13は、受信したユーザ視聴履歴情報に記述されている各々の視聴済みコンテンツの内容に関するテキスト情報を解析して、一次的な検索語の集合を示す一次クエリデータを生成する(ステップS115)。
具体的には、視聴履歴解析部13は、ユーザ視聴履歴情報に記述されている番組概要文などのテキスト情報を、公知の形態素解析技術を用いて単語単位に分割する。視聴履歴解析部13は、分割されたそれらの単語の中から、形態素解析の結果として各単語に付与された品詞などの情報に基づいて、検索語となる語句(単語)を選定する。例えば、視聴履歴解析部13は、固有名詞(例えば、人名)などの意味的に重要な語句(単語)を検索語として選択する。視聴履歴解析部13は、選択した語句をリストの形式で記述して一次クエリデータとする。
The viewing
Specifically, the viewing
なお、ユーザ視聴履歴情報に操作履歴が設定されている場合、視聴履歴解析部13は、特許文献2に記載のように、ユーザが視聴したコンテンツの再生区間に対応するテキスト情報を形態素解析の対象に限定してもよい。コンテンツの再生区間は、ユーザ視聴履歴情報に設定されている操作履歴が示すコンテンツの再生開始点及び再生終了点により示される。コンテンツの再生区間に対応するテキスト情報は、例えば、その再生区間におけるコンテンツの字幕のデータである。コンテンツ推薦装置1は、放送波から取得した各コンテンツの字幕の情報を記憶部19は蓄積しておき、視聴履歴解析部13は、再生区間におけるコンテンツの字幕のデータを記憶部19から読み出す。
When an operation history is set in the user viewing history information, the viewing
ソーシャルデータ記録部14は、記録したソーシャルデータをソーシャルデータ解析部15に出力する(ステップS120)。時事性を考慮する場合、ソーシャルデータ記録部14は、所定の期間のソーシャルデータをソーシャルデータ解析部15に出力する。また、ソーシャルデータ記録部14は、所定の発言対象のソーシャルデータをソーシャルデータ解析部15に出力してもよい。また、ソーシャルデータ記録部14は、事前にソーシャルデータを収集せず、ステップS115の処理の後にソーシャルデータを収集し、ソーシャルデータ解析部15に出力してもよい。この場合、ソーシャルデータ記録部14は、ステップS115の処理において得られた一次クエリデータを利用してソーシャルデータを取得し、記録してもよい。
The social
ソーシャルデータ解析部15は、ソーシャルデータ記録部14から受信したソーシャルデータを解析し、一次クエリデータに追加する検索語の候補となる二次クエリ候補の語句を抽出する。ソーシャルデータ解析部15は、抽出した二次クエリ候補の語句を設定した二次クエリ候補リストデータを生成する(ステップS125)。
The social
ソーシャルデータ解析部15は、ソーシャルメディアの一つであるツイッターにおけるハッシュタグのように、ソーシャルデータ本体に付与されたラベルが利用可能である場合には、それらラベルの文字列(語句)をそのまま二次クエリ候補の語句として用いることを基本とする。また、ソーシャルデータ解析部15は、ソーシャルデータの本体を視聴履歴解析部13と同様の処理により解析し、固有名詞などの重要な語句をそのソーシャルデータの本体から直接抽出する処理を行ってもよい。ソーシャルデータの本体とは、ソーシャルデータにおいて投稿者の発言内容を文字列で記述した本文のデータである。
When a label attached to the social data main body is available, such as a hash tag in Twitter which is one of social media, the social
ソーシャルデータ解析部15は、取得した二次クエリ候補の各々の語句が、その語句が得られた元のソーシャルデータにおいて二次クエリ候補の他の語句と共起する場合、二次クエリ候補リストデータに、二次クエリ候補の語句に付加して補足情報を記録する。二次クエリ候補の語句の補足情報には、その二次クエリ候補の語句が得られた元のソーシャルデータにおいて共起する二次クエリ候補の他の語句全てが設定される。この補足情報は、次のステップS130の二次クエリ選定処理において利用される。
When each acquired phrase of the secondary query candidate co-occurs with other words of the secondary query candidate in the original social data from which the phrase is obtained, the social
クエリ拡張部16は、上記により一次クエリデータと二次クエリ候補リストデータの両者が生成された後、二次クエリ候補リストデータに設定されている語句の中から、一次クエリの複数の語句に内容的に何らかの関係が存在する語句を抽出する。さらに、クエリ拡張部16はそれら抽出した二次クエリ候補の語句の中から選択した語句を一次クエリデータに追加し、拡張クエリデータとする(ステップS130)。
After both the primary query data and the secondary query candidate list data are generated as described above, the
そこでまず、クエリ拡張部16は、二次クエリ候補リストデータに設定されている二次クエリ候補の各語句と一次クエリデータに設定されている一次クエリの各語句との類似度を何らかの手段により計算する。クエリ拡張部16は、二次クエリ候補の語句のうち、一次クエリの語句との類似度が所定の閾値を超えた語句に限り、二次クエリとして採用する処理を基本とする。
First, the
なお、二次クエリ候補の語句にソーシャルデータにおいて共起した二次クエリ候補の他の語句を記述した補足情報を付加した場合、その補足情報に一次クエリの語句のみを残すようにしてもよい。そして、クエリ拡張部16は、二次クエリ候補の語句と一次クエリの語句の対のうち、その二次クエリ候補の語句の補足情報に対の一方となっている一次クエリの語句以外の語句が設定されていない対については、類似度計算の対象から除外してもよい。この処理を施すことにより、クエリ拡張部16は、少なくとも一次クエリのいずれかの語句と意味的な関係が深く、かつ、少なくともひとつの他の一次クエリの語句との間に何らかの意味的なつながりがあることが保証された語句を抽出することが可能となる。すなわち、単一の一次クエリの語句としか意味的なつながりを持たない語句は二次クエリの候補から除外され、複数の一次クエリの語句と意味的なつながりをもった語句のみが二次クエリの語句として抽出される。
Note that when supplemental information describing another phrase of a secondary query candidate that co-occurs in social data is added to the phrase of the secondary query candidate, only the phrase of the primary query may be left in the supplemental information. Then, the
語句間の類似度を定量的に計算する技術としては、多階層神経回路網による意味的距離を反映した単語のベクトル表現の技術(例えば、参考文献1参照)がある。また、単語の文書における出現傾向にもとづく特異値の大きさを特徴量の重み付けに用いた単語のクラスタリングの技術(例えば、参考文献2)も利用可能である。しかし、一次クエリデータから取得した任意の語句と、二次クエリ候補リストデータから選んだ任意の語句との対についての意味的な類似度を数値化できる技術であれば、どのような計算方法でもよく、他の技術を用いてもよい。 As a technique for quantitatively calculating the similarity between words, there is a technique of vector expression of words reflecting a semantic distance by a multi-layer neural network (for example, see Reference 1). In addition, a technique of word clustering (for example, Reference 2) using the magnitude of a singular value based on the appearance tendency of a word document for weighting a feature amount can be used. However, any calculation method can be used as long as it is a technique that can quantify the semantic similarity of a pair of an arbitrary phrase acquired from the primary query data and an arbitrary phrase selected from the secondary query candidate list data. Well, other techniques may be used.
(参考文献1)西尾泰和,「word2vecによる自然言語処理」,オライリー・ジャパン,2014年5月 (Reference 1) Yasukazu Nishio, “Natural Language Processing with word2vec”, O'Reilly Japan, May 2014
(参考文献2)平野真理子、神戸喬輔、小早川健,「大規模データの俯瞰とターゲットデータの抽出に対する文書―単語行列の特異値分解と特異値による重み付けの有効性」,言語処理学会,自然言語処理学会論文誌,2013年,Vol.20,no.3,p.335−365 (Reference 2) Mariko Hirano, Keisuke Kobe, Ken Kobayakawa, “Documents for Overlooking Large-Scale Data and Extracting Target Data—Effectiveness of Singular Value Decomposition of Word Matrix and Weighting by Singular Values”, Natural Language Processing Society, Nature Journal of Language Processing Society, 2013, Vol.20, no. 3, p. 335-365
クエリ拡張部16は、一次クエリの各語句と二次クエリ候補の各語句との論理的に可能な全ての対について、上述したように語句間の類似度を計算し、類似度が所定の閾値以上であるという条件を満たす二次クエリ候補の語句を二次クエリ(検索語)の語句として選択することを基本とする。このとき、クエリ拡張部16は、選択した二次クエリの各々の語句(検索語)に、類似度の計算結果の値に基づいて別途算出したスコアを付与してもよい。スコアは、例えば、同一の語句同士の類似度が1となるように、類似度を正規化した値を用いることができる。また、スコアとして類似度自体を用いてもよい。このスコアは、次のステップS135の推薦コンテンツ選択処理において利用される。
The
推薦リスト生成部17は、未視聴コンテンツ情報記録部12から未視聴コンテンツ情報を読み出す。推薦リスト生成部17は、未視聴コンテンツ情報に記述された未視聴コンテンツのリストの中から、ユーザに提示すべき推薦コンテンツを、拡張クエリデータを用いて選定する。推薦リスト生成部17は、選定した推薦コンテンツを、拡張クエリデータとマッチする順にリストの形式でまとめる。そこで、推薦リスト生成部17は、未視聴コンテンツ情報に設定されている各未視聴コンテンツのテキスト情報と、拡張クエリデータに設定されている一次クエリと二次クエリの各語句(拡張クエリデータの各要素)とのペアについてマッチングスコアを算出する。推薦リスト生成部17は、算出したマッチングスコアに応じて各々の未視聴コンテンツに順位を付け、順位が上位N個(Nは1以上の整数)の未視聴コンテンツのコンテンツIDを列挙したリストを示す推薦コンテンツリストデータを生成する(ステップS135)。
The recommendation
マッチングスコアは、検索語が未視聴コンテンツの内容を記述したテキスト情報に出現した回数などとすることができる。推薦リスト生成部17は、原則として、一次クエリと二次クエリのそれぞれについてのマッチングスコアを同等に扱う方法を基本とする。具体的には、一次クエリの語句(検索語)および二次クエリの語句(検索語)のそれぞれについて独立にマッチングスコアを計算し、それらのマッチングスコアを同等の重みで扱った和(単純和)をとる。なお、推薦リスト生成部17は、後者の二次クエリに対するマッチングスコアに何らかの方法により決定した重みを乗じた上で、前者の一次クエリに対するマッチングスコアに加算する重み付けの処理を別途、追加して行ってもよい。
The matching score may be the number of times that the search word appears in the text information describing the content of the unviewed content. The recommendation
また、二次クエリのマッチングスコアに重みを乗ずる方法の場合、使用する重みは、ヒューリスティックに定めた経験値に固定する方法の他に、一次クエリと二次クエリとの間の類似度を用いる方法が考えられる。後者のクエリ間の類似度を利用する具体的な方法としては、例えば、二次クエリの各語句に付加されているスコアの平均値を重み(0から1の間の数値を持つ重み)とする。二次クエリの各語句に付加されているスコアは、上述したように、一次クエリの語句との類似度に基づいてクエリ拡張部16が算出したスコアである。推薦コンテンツ提示部18は、二次クエリの各語句のマッチングスコアを合計し、合計したマッチングスコアに類似度に基づくスコアの平均値を乗算した後、一次クエリに対するマッチングスコアと加算する。
Further, in the case of a method of multiplying the matching score of the secondary query by a weight, a method of using the similarity between the primary query and the secondary query in addition to a method of fixing the weight to be used to an heuristically determined experience value Can be considered. As a specific method of utilizing the similarity between the latter queries, for example, an average value of scores added to each word of the secondary query is set as a weight (weight having a numerical value between 0 and 1). . As described above, the score added to each word of the secondary query is a score calculated by the
最後に、推薦コンテンツ提示部18は、推薦コンテンツリストデータに記載された推薦コンテンツの内容をユーザに提示する。つまり、推薦コンテンツ提示情報は、推薦コンテンツリストデータに記述された各々の推薦コンテンツに関する情報を記憶部19から読み出し、読み出した情報を設定した推薦コンテンツ提示情報を生成する(ステップS140)。推薦コンテンツ提示部18は、生成した推薦コンテンツ提示情報をユーザのコンテンツ表示装置に送信する(ステップS145)。コンテンツ表示装置3の受信部35は、受信した推薦コンテンツ提示情報を出力部33に出力させる。
Finally, the recommended
推薦コンテンツ提示情報は、推薦コンテンツリストデータに記述された各推薦コンテンツを特定するためのテキスト情報である。例えば、推薦コンテンツが放送番組である場合、推薦コンテンツ提示情報には、放送番組の放送日、放送開始時刻、番組名などを記述する。また、推薦コンテンツにユーザが直接アクセスするための情報や、推薦コンテンツの映像の一部を切り出したサンプル映像を、記憶部19あるいはネットワークを介して接続されるコンピュータサーバから取得できる場合には、推薦コンテンツ提示部18は、それらの情報を補助的情報としてコンテンツ提示情報に設定してもよい。推薦コンテンツにユーザが直接アクセスするための情報には、例えば、インターネット配信コンテンツのリンク情報を利用することができる。また、サンプル映像には、サムネイル画像、ハイライト映像、予告動画などを利用することができる。
The recommended content presentation information is text information for specifying each recommended content described in the recommended content list data. For example, when the recommended content is a broadcast program, the recommended content presentation information describes the broadcast date of the broadcast program, the broadcast start time, the program name, and the like. In addition, when the information for directly accessing the recommended content by the user or the sample video obtained by cutting out a part of the video of the recommended content can be acquired from the
推薦コンテンツ提示情報の表示形態は、コンピュータ装置の画面に一覧表示が可能な、テキストベースの静的な表示形式を基本とする。なお、推薦コンテンツのサンプル映像が利用可能である場合には、それら補助的情報(動画像)を画面上の所定の領域に、推薦コンテンツリストデータに記載された順に提示(動作再生)するなど、視覚的な工夫を別途実装してもよい。 The display format of the recommended content presentation information is basically a text-based static display format that can be displayed as a list on the screen of the computer device. If sample video of recommended content is available, such auxiliary information (moving image) is presented in a predetermined area on the screen in the order described in the recommended content list data (operation playback). A visual device may be implemented separately.
なお、図2の処理において、コンテンツ推薦装置1は、ステップS110の処理、ステップS115の処理、ならびに、ステップS120からステップS125までの処理のうち任意の処理を並行して実行してもよい。
In the process of FIG. 2, the
図3は、視聴履歴解析部13による一次クエリ生成処理の処理フローを示す図であり、図2のステップS115における一次クエリ生成処理の詳細を示す。
視聴履歴解析部13は、視聴履歴記録部11からユーザ視聴履歴情報を受信する(ステップS205)。基本の方法では、視聴履歴解析部13は、ユーザ視聴履歴情報から視聴済みコンテンツの内容を表す番組概要などのテキスト情報を取り出す(ステップS210)。別の方法としては、視聴履歴解析部13は、特許文献2に記載された方法のように、ユーザ視聴履歴情報に設定されている視聴コンテンツの再生区間に対応する字幕テキストなどのテキスト情報を記憶部19から取得する。
FIG. 3 is a diagram showing a processing flow of primary query generation processing by the viewing
The viewing
視聴履歴解析部13は、ステップS210において取り出したテキスト情報に対応した文字列に対して形態素解析の処理を施して、品詞情報が付与された語句(形態素)の列に分解する(ステップS215)。形態素解析の対象となるテキスト情報は、すなわち、視聴コンテンツ全体あるいは視聴コンテンツの再生区間に対応した文字列である。形態素解析の具体的な手段としては、オープンソースの形態素解析ソフトウェアであるMeCabなどの公知の技術が利用可能である。
The viewing
次に、視聴履歴解析部13は、ステップS215の形態素解析により得られた品詞情報付きの語句の列から、視聴コンテンツ全体、あるいは、視聴コンテンツの再生区間にかかる話題を特定可能な語句を選定する(ステップS220)。例えば、視聴履歴解析部13は、品詞情報に基づいて、人名や組織名、地域名、商品名などの語句のように、指し示す対象物が限定的な名詞(固有名詞)を選定する。最後に、視聴履歴解析部13は、選定した語句をリスト形式にまとめて一次クエリデータとして出力する。
Next, the viewing
図4は、クエリ拡張部16による二次クエリ選定処理の処理フローを示す図であり、図2のステップS130における二次クエリ選定処理の詳細を示す。ここでは、二次クエリ候補の語句の中から補足情報を利用して二次クエリの語句を選定する処理の例を示す。
まず、クエリ拡張部16は、視聴履歴解析部13から一次クエリデータを受信し、ソーシャルデータ解析部15から二次クエリ候補リストデータを受信する(ステップS305)。次に、クエリ拡張部16は、二次クエリ候補リストデータに記述されたそれぞれの語句について、当該語句が一次クエリデータに記述されている語句であるか否かを判断する。クエリ拡張部16は、二次クエリ候補リストデータに記述されている二次クエリ候補の語句の中から、一次クエリデータに記述されているいずれかの語句と一致する語句を除外する(ステップS310)。
FIG. 4 is a diagram showing a processing flow of the secondary query selection process by the
First, the
次に、クエリ拡張部16は、ステップS305において一次クエリの語句を除いた二次クエリ候補の語句それぞれについて、補足情報に含まれる語句が、一次クエリデータに記述されている語句であるか否かを判断する。二次クエリ候補の語句に付加されている補足情報は、その二次クエリ候補の語句とソーシャルデータにおいて共起する他の語句を示す。クエリ拡張部16は、補足情報が示す語句の中から、一次クエリデータに記述されている語句のいずれとも一致しない語句を除外する(ステップS315)。これにより、二次クエリ候補の語句の共起の相手の語句から、一次クエリデータに出現しない語句が除外される。
Next, the
クエリ拡張部16は、ステップS315の処理によって二次クエリ候補の補足情報から一次クエリの語句以外の語句を除いた後、二次クエリ候補リストデータに含まれる各語句と、一次クエリデータに含まれる各語句とのそれぞれを、何らかの手段により単語間の意味的距離を反映したベクトル表現に変換する。クエリ拡張部16は、二次クエリ候補の語句と一次クエリの語句との可能なすべての組み合わせそれぞれについて、何らかの手段により語句間の意味的な類似度を計算する(ステップS320)。類似度を定量的に評価する具体的な方法は、例えば、上述した参考文献1や参考文献2など、任意の既存の方法を使用することができるが、この限りではない。
The
二次クエリ候補の語句を語句A、語句Aとの類似度を算出する対象の一次クエリの語句を語句Cとする。クエリ拡張部16は、いずれか1以上の一次クエリの語句Cとの類似度が所定の閾値を超えた二次クエリ候補の全ての語句Aについて、類似度が所定の閾値を超えた相手の語句Cを二次クエリ候補リストデータに上書きして保存する。なお、閾値の設定方法は経験的な値に固定する方法が考えられるが、この限りではない。
The phrase of the secondary query candidate is the phrase A, and the phrase of the primary query for which the similarity with the phrase A is calculated is the phrase C. The
次に、クエリ拡張部16は、二次クエリ候補リストデータから、二次クエリ候補の語句Aと、その語句Aと類似度が所定の閾値を超える一次クエリの語句Cと、語句Aが共起する一次クエリの語句Bとを読み出す(ステップS325)。語句Aが共起する一次クエリの語句Bは、語句Aの補足情報から読み出される。
クエリ拡張部16は、二次クエリ候補の語句Aのそれぞれについて、語句Aが共起する一次クエリの語句Bと、語句Aとの類似度が所定の閾値を超える一次クエリの語句Cとが同一であるか否かを判断する。クエリ拡張部16は、語句Bと語句Cとが同一である二次クエリ候補の語句Aについては、二次クエリの語句として選択せず、二次クエリ候補リストデータからその語句Aに付加されている補足情報及び語句Cと共に除外する。クエリ拡張部16は、語句Bと語句Cとが異なる二次クエリ候補の語句Aについては、二次クエリ候補リストデータにそのまま残す(ステップS330)。
Next, the
For each word A of the secondary query candidate, the
最後に、クエリ拡張部16は、二次クエリ候補リストデータに残った語句Aを二次クエリとして採用する。すなわち、クエリ拡張部16は、類似度が所定の閾値を超える相手の語句が一次クエリデータに存在し、かつ、その相手の語句が共起相手の一次クエリの語句とは異なる二次クエリ候補の語句を、二次クエリの語句として採用する。クエリ拡張部16は、一次クエリの語句のリストを含む一次クエリデータと、採用した二次クエリの語句のリストとを連結したリストを拡張クエリデータとして出力する(ステップS335)。
拡張クエリデータには、後述する図11の拡張クエリデータの具体例に示すように、先の類似度計算で得られた値(二次クエリの語句と一次クエリの語句との間の類似度)を各々の語句に併記してもよいが、これは必須の処理ではない。
Finally, the
In the extended query data, as shown in a specific example of the extended query data in FIG. 11 described later, the value obtained by the previous similarity calculation (similarity between the words of the secondary query and the words of the primary query). May be included in each word, but this is not an essential process.
図5は、推薦リスト生成部17による推薦コンテンツ選択処理の処理フローを示す図であり、図3のステップS135における推薦コンテンツ選択処理の詳細を示す。ここでは、二次クエリのマッチングスコアに重み付け処理を行う場合について示す。
まず、推薦リスト生成部17は、未視聴コンテンツ情報記録部12から未視聴コンテンツ情報を受信し、クエリ拡張部16から拡張クエリデータを受信する(ステップS405)。推薦リスト生成部17は、拡張クエリデータの部分集合である一次クエリデータを取得する。推薦リスト生成部17は、未視聴コンテンツ情報のリストに記述されている各コンテンツについて、そのコンテンツのテキスト情報と一次クエリデータに属する一次クエリの語句とのマッチングスコアを計算し、一次スコアとする(ステップS410)。一次スコアを計算する具体的な処理としては、例えば、表記レベルで一次クエリの語句と一致する語句の出現頻度を単純に足し上げ、その出現頻度の合計値をそのまま利用する方法が考えられるが、その限りではない。
FIG. 5 is a diagram showing a process flow of recommended content selection processing by the recommendation
First, the recommendation
次に、推薦リスト生成部17は、拡張クエリデータの残りの部分集合である二次クエリの語句のリストを取得する。推薦リスト生成部17は、未視聴コンテンツ情報のリストに記述されている各コンテンツについて、そのコンテンツのテキスト情報と二次クエリの語句とのマッチングスコアを計算し、二次スコアとする(ステップS415)。二次スコアを計算する具体的な処理としては、先に示した一次スコアの計算方法と同様に、表記レベルで二次クエリの語句と一致する語句の出現頻度の累計値をそのまま用いる方法が考えられるが、その限りではない。
Next, the recommendation
次に、推薦リスト生成部17は、各コンテンツについて算出した一次スコアと二次スコアそれぞれに所定の重みを乗じた後に、それらの和を計算し、その値を当該コンテンツのマッチングスコアとする(ステップS420)。推薦リスト生成部17は、各々の未視聴コンテンツについてのマッチングスコアをすべて計算した後に、マッチングスコアの値に基づいてコンテンツを何らかの手段により並べ替える。未視聴コンテンツのリストの並べ替えの具体的な手段としては、たとえば公知の技術であるUNIX(登録商標)コマンドのsortが利用可能であるが、この限りではない。推薦リスト生成部17は、並べ替えたマッチングスコアの上位N個の未視聴コンテンツのコンテンツIDを推薦コンテンツリストデータに格納し出力する(ステップS425)。
Next, the recommendation
続いて、具体的なデータ例を用いてコンテンツ推薦装置1の動作例を説明する。
図6は、視聴履歴記録部11が出力するユーザ視聴履歴情報の具体例を示す図である。ユーザ視聴履歴情報には、ユーザが視聴したコンテンツを特定する情報と、コンテンツの内容を示すテキスト情報とが、コンテンツごとに記述される。解析対象のコンテンツが放送番組である場合、同図に示すように、ユーザ視聴履歴情報には、ユーザが視聴した番組の放送チャンネル名、放送日時、番組名、及び番組概要文が、リスト形式で記述される。なお、これら放送番組に関する各種情報は、SKNET社のMonsterTVなどの商用ソフトウェアを用いることによって、放送波から計算機可読な状態で取得可能である。
Next, an operation example of the
FIG. 6 is a diagram illustrating a specific example of user viewing history information output by the viewing
図7は、未視聴コンテンツ情報記録部12が出力する未視聴コンテンツ情報の具体例を示す図である。未視聴コンテンツ情報は、ユーザ視聴履歴情報に含まれず、かつ、ユーザが現在および将来において利用可能なコンテンツに関する情報を、ユーザ視聴履歴情報に準ずる形態で記載したものである。解析対象のコンテンツが放送番組である場合、未視聴コンテンツ情報には、コンテンツ推薦処理の開始から一週間先までの放送予定番組それぞれの番組ID、放送チャンネル名、放送日時、番組名、及び番組概要文が、リスト形式で記述される。なお、これら放送予定番組に関する各種情報は、上述したSKNET社のMonsterTVなどの商用ソフトウェアを用いることによって、放送波から計算機可読な状態で取得可能である。
FIG. 7 is a diagram illustrating a specific example of unviewed content information output by the unviewed content
図8は、視聴履歴解析部13が出力する一次クエリデータの具体例を示す図である。一次クエリデータには、ステップS115において、視聴履歴解析部13が、ユーザ視聴履歴情報から抽出した語句である検索語がリスト形式で記載される。同図に示す一次クエリデータは、視聴履歴解析部13が図6に示すユーザ視聴履歴情報から抽出した3つの語句「建築」、「スコットランド」、「政治」からなる検索語の集合を示す。
FIG. 8 is a diagram illustrating a specific example of primary query data output from the viewing
図9は、ソーシャルデータ記録部14が保存するソーシャルデータの具体例を示す図である。同図に示すソーシャルデータは、ソーシャルデータ記録部14が、ツイッターのツイートログ検索画面に、図8に示す一次クエリデータに含まれる一次クエリの語句「建築」、「スコットランド」、「政治」をそれぞれ検索語として入力して得たツイート内容を示す。各々のエントリにおける括弧内の文字列は、ツイートの発言者と発言日時を表す。また、その括弧に続く文字列は、各々のツイートの発言内容を示す。エントリの最後の「#」記号ではじまる文字列は、ツイートの内容を分類するためのラベル(ハッシュタグ)である。
FIG. 9 is a diagram illustrating a specific example of social data stored by the social
図10は、ソーシャルデータ解析部15が出力する二次クエリ候補リストデータの具体例を示す図である。同図に示す二次クエリ候補リストデータは、ステップS125においてソーシャルデータ解析部15が図9に示したソーシャルデータからハッシュタグを利用して抽出した二次クエリ候補の語句のリストを示す。二次クエリ候補の語句「建築」、「スコットランド」、「グラスゴー」、「狭小」、「ミニマル」、「住民投票」、「政治」、「軍歌」のそれぞれの後ろには、その語句がソーシャルデータで共起した他の語句を示す補足情報が括弧書きで記述されている。
FIG. 10 is a diagram illustrating a specific example of secondary query candidate list data output by the social
クエリ拡張部16は、図4のステップS310の処理において、図10に示す二次クエリ候補リストデータに記述されたそれぞれの語句について、当該語句が一次クエリデータに記述されている語句であるか否かを判断する。クエリ拡張部16は、二次クエリ候補リストデータに記述されている語句の中から、一次クエリデータに含まれる一次クエリの語句「建築」、「スコットランド」、「政治」を除外する。これにより、二次クエリ候補リストデータには、「グラスゴー(建築,スコットランド)」、「狭小(建築,ミニマル)」、「ミニマル(建築,狭小)」、「ウィスキー(スコットランド)」、「住民投票(スコットランド)」、「軍歌(政治)」が残る。
In the process of step S310 in FIG. 4, the
さらに、クエリ拡張部16は、ステップS315の処理において、二次クエリ候補リストデータに設定されている補足情報から一次クエリデータに出現しない語句を除外する。このとき、補足情報に一次クエリデータに出現する語句が含まれない二次クエリ候補の語句も二次クエリ候補リストデータから除外する。これにより、二次クエリ候補リストデータには、「グラスゴー(建築,スコットランド)」、「狭小(建築)」、「ミニマル(建築)」、「ウィスキー(スコットランド)」、「住民投票(スコットランド)」、「軍歌(政治)」が残る。
Further, in the process of step S315, the
クエリ拡張部16は、二次クエリ候補リストデータに残った二次クエリ候補の語句「グラスゴー」、「狭小」、「ミニマル」、「ウィスキー」、「住民投票」、「軍歌」のそれぞれと、一次クエリの語句「建築」、「スコットランド」、「政治」のそれぞれとの類似度を算出する。そして、ステップS320において、クエリ拡張部16は、一次クエリの語句「スコットランド」との類似度が所定以上の二次クエリの語句「グラスゴー」と、一次クエリの語句「政治」との類似度が所定以上の二次クエリの語句「住民投票」を選択する。クエリ拡張部16は、二次クエリ候補リストデータに、二次クエリ候補の語句「グラスゴー」に対応付けて類似度が所定以上の相手の一次クエリの語句「スコットランド」を書き込む。さらに、クエリ拡張部16は、二次クエリ候補の語句「住民投票」に対応付けて類似度が所定以上の相手の一次クエリの語句「政治」を書き込む。クエリ拡張部16は、二次クエリ候補リストデータから、一次クエリの語句との類似度が所定より低い二次クエリの語句「狭小」、「ミニマル」、「ウィスキー」、「軍歌」と、それらの語句の補足情報を削除する。
The
ステップS325〜ステップS330において、クエリ拡張部16は、以下の処理を行う。すなわち、クエリ拡張部16は、二次クエリ候補リストデータから二次クエリ候補の語句「グラスゴー」と、その語句の補足情報(建築,スコットランド)と、類似度が所定以上の相手の一次クエリの語句「スコットランド」を読み出す。クエリ拡張部16は、補足情報に、類似度が所定以上の相手の一次クエリの語句「スコットランド」以外の一次クエリの語句「建築」が設定されているため、二次クエリ候補の語句「グラスゴー」を二次クエリの語句として選択する。クエリ拡張部16は、二次クエリ候補の語句「グラスゴー」を二次クエリ候補リストデータにそのまま残す。
また、クエリ拡張部16は、二次クエリ候補リストデータから二次クエリ候補の語句「住民投票」と、その語句の補足情報(スコットランド)と、類似度が所定以上の相手の一次クエリの語句「政治」を読み出す。クエリ拡張部16は、補足情報に、類似度が所定以上の相手の一次クエリの語句「政治」以外の一次クエリの語句「スコットランド」が設定されているため、二次クエリ候補の語句「住民投票」を二次クエリの語句として選択する。クエリ拡張部16は、二次クエリ候補の語句「住民投票」を二次クエリ候補リストデータにそのまま残す。
In steps S325 to S330, the
In addition, the
図11は、クエリ拡張部16が生成する拡張クエリデータの具体例を示す図である。
同図に示す拡張クエリデータに設定されている語句のリストのうち前半の語句「建築」、「スコットランド」、「政治」は、一次クエリデータから引き継がれた語句である。拡張クエリデータに設定されている語句のリストのうち後半の語句「グラスゴー」及び「住民投票」は、ステップS335において二次クエリ候補の語句の中からクエリ拡張部16が二次クエリとして採択した語句である。
FIG. 11 is a diagram illustrating a specific example of the expanded query data generated by the
The first half of the phrase “architecture”, “Scotland”, and “politics” in the list of phrases set in the expanded query data shown in FIG. 3 are phrases inherited from the primary query data. The latter half of the phrase “Glasgow” and “resident vote” in the list of phrases set in the expanded query data are the phrases that the
同図においてそれぞれの語句と併記されている数値は、クエリ拡張部16が計算したその語句と一次クエリの各語句との類似度のうち最も高い類似度を示す。なお、同じ語句同士の類似度は1.00である。従って、一次クエリデータから引き継がれた語句は、自語句との類似度が最も高いため、1.00となる。
In the figure, the numerical value written together with each word indicates the highest similarity among the similarities between the word calculated by the
図12は、拡張クエリの語句と未視聴コンテンツ情報との関係を説明するための図である。同図において円R1〜R3の中に記述されている語句はそれぞれ、一次クエリの語句「建築」、「スコットランド」、「政治」である。また、円R4〜R5の中に記述されている語句はそれぞれ、二次クエリ候補の語句であり、二次クエリに選択された語句「グラスゴー」、「住民投票」である。円R4〜R9の中に記述されている語句はそれぞれ、二次クエリ候補であるが二次クエリには選択されなかった語句「狭小」、「ミニマル」、「ウィスキー」、「軍歌」である。各円の中心位置は、円の中に記述された語句を、ある手段によりその語句の意味的な類似度を反映したベクトル空間に射影した場合の位置を表す。すなわち、同図において近い位置に配置された円の語句同士は、意味的な類似度が大きいことを表す。 FIG. 12 is a diagram for explaining the relationship between the phrase of the extended query and the unviewed content information. In the figure, the terms described in circles R1 to R3 are the primary query terms “architecture”, “Scotland”, and “politics”, respectively. The phrases described in the circles R4 to R5 are secondary query candidate phrases, which are the phrases “Glasgow” and “resident vote” selected for the secondary query. The phrases described in the circles R4 to R9 are the phrases “narrow”, “minimal”, “whiskey”, and “military song” that are candidates for the secondary query but are not selected for the secondary query. The center position of each circle represents the position when a word described in the circle is projected onto a vector space reflecting the semantic similarity of the word by a certain means. That is, the words in circles arranged at close positions in the figure indicate that the semantic similarity is large.
各々の円に付けられた矢印は、各々の円の中に記述された語句がソーシャルデータにおいて共起する関係を表す。そして、矢印の元の語句は、その語句が一次クエリデータに存在することを表し、矢印の先の語句は、その語句が二次クエリ候補であることを表す。例えば、二次クエリ候補(二次クエリ)の語句「グラスゴー」は、一次クエリの語句「建築」ならびに「スコットランド」とソーシャルデータにおいて共起の関係にあることを表す。また、二次クエリ候補の語句「狭小」は、一次クエリの語句「建築」とソーシャルデータにおいて共起の関係にあることを表す。 An arrow attached to each circle represents a relationship in which words described in each circle co-occur in social data. The original phrase of the arrow indicates that the phrase is present in the primary query data, and the phrase at the end of the arrow indicates that the phrase is a secondary query candidate. For example, the phrase “Glasgow” of the secondary query candidate (secondary query) represents a co-occurrence relationship in the social data with the phrases “Architecture” and “Scotland” of the primary query. In addition, the phrase “narrow” of the secondary query candidate represents a co-occurrence relationship in the social data with the phrase “architecture” of the primary query.
テキスト情報T1は、一次クエリの語句「スコットランド」及び「建築」と、二次クエリの語句「グラスゴー」にヒットした未視聴コンテンツ情報を示す。また、テキスト情報T2は、一次クエリの語句「スコットランド」及び二次クエリの語句「住民投票」にヒットした未視聴コンテンツ情報を示す。すなわち、これらは、二次クエリを用いることによって推薦リストの上位にシフトされるコンテンツの具体例である。 The text information T1 indicates unviewed content information that hits the phrases “Scotland” and “Architecture” of the primary query and the phrase “Glasgow” of the secondary query. The text information T2 indicates unviewed content information that hits the phrase “Scotland” in the primary query and the phrase “resident vote” in the secondary query. That is, these are specific examples of content that is shifted up the recommendation list by using a secondary query.
コンテンツ推薦装置1は、一次クエリの語句と二次クエリ候補の語句間の共起の関係(矢印)、ならびに、語句間の類似度数(円同士の位置の近さ)の両方の情報を用いて、二次クエリ候補の語句の中からどの語句を二次クエリとして採用するかを決定する。そして、コンテンツ推薦装置1は、採用した二次クエリの語句を一次クエリと併用して未視聴コンテンツのテキスト情報とのマッチングスコアを計算する。これにより、コンテンツ推薦装置1は、ユーザの潜在的な嗜好、ならびに、世間一般の時事の話題をより反映したコンテンツを推薦コンテンツリストの上位に位置づけることができる。
The
以下、二次クエリの語句の取捨選択の基準について、具体例をあげながら詳しく説明する。上述したように、二次クエリ候補の語句のうち、円R4、R5の語句「グラスゴー」、「住民投票」は二次クエリとして採択された語句であり、円R6〜R10の語句「狭小」、「ミニマル」、「ウィスキー」、「軍歌」は二次クエリとして棄却された語句である。二次クエリ候補の語句Aを二次クエリの語句として採択するか棄却するかの判断基準は、以下の2点である。 In the following, the criteria for selecting terms in the secondary query will be described in detail with specific examples. As described above, among the phrases of the secondary query candidates, the phrases “Glasgow” and “resident referendum” of the circles R4 and R5 are the phrases adopted as the secondary query, and the phrases “narrow” of the circles R6 to R10, “Minimal”, “whiskey”, and “military song” are rejected phrases as secondary queries. The following two points are used as criteria for determining whether or not to accept the secondary query candidate phrase A as the secondary query phrase.
(1)二次クエリ候補の語句Aが、いずれかの一次クエリの語句Cと類似度が高いこと。
(2)語句Aと共起関係にある一次クエリの語句Bが、(1)の一次クエリの語句Cと異なること。
(1) The word A of the secondary query candidate has a high similarity to the word C of any primary query.
(2) The phrase B of the primary query that is co-occurring with the phrase A is different from the phrase C of the primary query of (1).
コンテンツ推薦装置1は、(1)及び(2)の二つの判断基準を満たす二次クエリ候補の語句Aを二次クエリの語句として採択し、いずれか一方の条件、あるいは、両方の条件を満たさない語句Aを二次クエリから棄却する。上記の2つの判断基準をともに満たす語句Aは、ユーザの興味を反映した一次クエリの語句Cとの類似度が高く、かつ、語句Cとは異なる一次クエリの語句Bと、ソーシャルデータ上のある文脈において何らかの関係があることと同義である。つまり、語句Aが採択されるためには、ソーシャルデータ上での語句Bとの共起関係に基づいてユーザの潜在的な興味の対象を指し示すと類推された語句であり、かつ、ユーザの明示的な興味の対象を指し示す語句Cと意味が近いことが条件となっている。上記の2つの判断基準を満たす語句Aは、時事の話題が多く扱われるソーシャルデータにおける一次クエリの語句(ユーザの明示的な興味の対象)との共起関係を利用してコンテンツ推薦装置1が類推した、ユーザの潜在的な興味の対象であり、また、社会一般における時事の話題を反映した検索語(二次クエリ)である可能性が高い。
The
例えば、図12に示した二次クエリ候補の語句「グラスゴー」(語句Aの具体例)は、一次クエリの語句「建築」(語句Bの具体例)と共起関係にあり、かつ、「建築」とは異なる別の一次クエリの語句「スコットランド」(語句Cの具体例)と意味的に近いため、二次クエリの語句として採択される。同様に、語句「住民投票」(語句Aの具体例)は、一次クエリの語句「スコットランド」(語句Bの具体例)と共起関係にあり、かつ、一次クエリの語句「政治」(語句Cの具体例)と意味的に近い関係にあるので、二次クエリの語句として採択される。一方で、語句「狭小」、「ミニマル」、「ウィスキー」、「軍歌」(語句Aの具体例)については、それぞれの共起の相手「建築」、「スコットランド」、「政治」の他に意味的に近い一次クエリの語句をもたないため、二次クエリの語句として採択されない。仮に、二次クエリ候補の語句「ウィスキー」と意味的に近い語句「酒」が一次クエリに存在するならば、語句「ウィスキー」は二次クエリとして採択される可能性がある。二次クエリとして採択された語句「グラスゴー」、「住民投票」を利用して検索した結果得られたコンテンツは、図12に示すように、ユーザの潜在的な嗜好(グラスゴーに残る壮麗な建築)や、世間一般の時事の話題(スコットランド独立についての住民投票)を反映したコンテンツである。 For example, the phrase “Glasgow” (specific example of the phrase A) of the secondary query candidate shown in FIG. 12 has a co-occurrence relationship with the phrase “architecture” (specific example of the phrase B) of the primary query, and “architecture” Is different from “Scotland” (specific example of the phrase C) of the primary query different from “” and is adopted as the phrase of the secondary query. Similarly, the phrase “resident vote” (specific example of the phrase A) is co-occurring with the phrase “Scotland” (specific example of the phrase B) of the primary query, and the phrase “politics” (phrase C) of the primary query. It is adopted as a phrase of the secondary query because it is semantically close to the specific example. On the other hand, the phrases “narrow”, “minimal”, “whiskey”, “military song” (specific examples of the phrase A) are meanings in addition to their co-occurring counterparts “architecture”, “Scotland”, “politics”. Since it does not have a primary query phrase that is close to the target, it is not adopted as a secondary query phrase. If the phrase “sake” that is semantically close to the phrase “whiskey” of the secondary query candidate exists in the primary query, the phrase “whiskey” may be adopted as the secondary query. As shown in FIG. 12, the content obtained as a result of searching using the phrases “Glasgow” and “local referendum” adopted as the secondary query is the potential user's preference (the magnificent architecture remaining in Glasgow). It is also a content that reflects the topic of the current general public (a referendum on Scotland independence).
図13は、推薦リスト生成部17が出力する推薦コンテンツリストデータの例を示す図である。同図に示す推薦コンテンツリストデータは、各推薦コンテンツの番組名、放送日時、番組概要を設定したデータである。
FIG. 13 is a diagram illustrating an example of recommended content list data output by the recommendation
図14は、推薦コンテンツ提示部18がコンテンツ表示装置に表示させる推薦コンテンツ提示画面の表示例を示す図である。同図は、図13に示す推薦コンテンツリストの内容をウェブブラウザにより表示させたGUI(グラフィック・ユーザ・インタフェース)画面である。なお、推薦コンテンツ提示画面の上部に表示される「今後の放送予定」、「システム設定1」、ならびに「システム設定2」のタブは、それぞれ、未視聴コンテンツの一覧、当該ユーザの拡張クエリの内容の一覧、および、推薦リスト生成部17において二次スコアに乗ずる重みの設定を表示させるためのオプションである。これらの表示は、本実施形態では必須ではない。
FIG. 14 is a diagram illustrating a display example of a recommended content presentation screen that the recommended
上記実施形態においては、一次クエリの語句をユーザ視聴履歴情報から抽出していたが、一次クエリの語句は、ユーザが入力したキーワードでもよい。
また、上記実施形態においては、ソーシャルデータを利用して二次クエリ候補の語句を取得しているが、他のデータを利用して二次クエリの語句を取得してもよい。ソーシャルデータのように、同じ話題に対して多様な表記が用いられ、話題の対象をタイムスタンプなどの時刻により特定することができる計算機利用可能なコーパスデータであれば、任意のデータを利用することができる。
In the above embodiment, the phrase of the primary query is extracted from the user viewing history information. However, the phrase of the primary query may be a keyword input by the user.
Moreover, in the said embodiment, although the phrase of a secondary query candidate is acquired using social data, you may acquire the phrase of a secondary query using other data. Arbitrary data can be used as long as it is computer-usable corpus data that can identify the subject of a topic by time such as a time stamp, etc. Can do.
なお、上記においては、コンテンツ推薦装置1とコンテンツ表示装置3とがネットワークを介して接続される場合について説明したが、コンテンツ表示装置3がコンテンツ推薦装置1を備えるように構成してもよい。また、コンテンツ表示装置3に、コンテンツ推薦装置1の一部の機能部を備える構成としてもよい。例えば、コンテンツ表示装置3にコンテンツ推薦装置1の視聴履歴記録部11を備えてもよく、さらに、未視聴コンテンツ情報記録部12や視聴履歴解析部13を備えてもよい。
In the above description, the case where the
上述した実施形態によれば、コンテンツ推薦装置1は、インターネット上で提供されているソーシャルメディアを利用して、ユーザの嗜好を記述した検索語の集合である一次クエリと意味的に関係が深いその他の言語表現を二次クエリの語句として抽出する。コンテンツ推薦装置1は、ユーザの嗜好を記述した検索語の集合である一次クエリデータに、一次クエリの語句に基づいて抽出した二次クエリの語句を検索語として追加する。コンテンツ推薦装置1は、二次クエリの語句が追加された検索語の集合を用いてコンテンツを検索する。これにより、コンテンツ推薦装置1は、ユーザの求める内容により則したコンテンツを推薦することができる。また、二次クエリの語句の抽出に用いるソーシャルメディアの時期を限定することにより、コンテンツ推薦装置1は、ユーザの潜在的な嗜好に加え、日々新たに出現する時事の話題、あるいは、過去の話題を反映したコンテンツを推薦することができる。
According to the above-described embodiment, the
以上説明したように、本実施形態のコンテンツ推薦装置1によれば、元の検索語から、語句の多様性や話題の時事性を適切に反映したクエリ(拡張クエリ)を自動的に生成することができる。そして、コンテンツ推薦装置1は、生成したクエリを用いてコンテンツを検索することによって、従来よりもユーザの嗜好により合致したコンテンツ推薦を実現することが可能となる。
また、本実施形態のコンテンツ推薦装置1によれば、元の検索語と意味的な関係が深い語句(拡張クエリ)に基づいた多様性に富んだコンテンツ推薦が可能となる。その結果、元の検索語だけからは見つけ出すことが難しい、ユーザの新たな興味の発掘や発見につながる可能性(セレンディピティ)に富んだコンテンツを推薦することができる。
As described above, according to the
In addition, according to the
上述したコンテンツ推薦装置1及びコンテンツ表示装置3は、内部にコンピュータシステムを有している。そして、コンテンツ推薦装置1及びコンテンツ表示装置3の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
The
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
1 コンテンツ推薦装置
11 視聴履歴記録部
12 未視聴コンテンツ情報記録部
13 視聴履歴解析部
14 ソーシャルデータ記録部
15 ソーシャルデータ解析部
16 クエリ拡張部
17 推薦リスト生成部
18 推薦コンテンツ提示部
19 記憶部
3 コンテンツ表示装置
31 操作部
32 取得部
33 出力部
34 通知部
35 受信部
5 ソーシャルメディアサービス提供装置
9 ネットワーク
1
Claims (6)
同一の話題が異なる表記により記述され得る複数のコーパスデータから検索語候補の語句を抽出する検索語候補抽出部と、
前記検索語候補の語句の中から、前記一次クエリデータに含まれるいずれかの前記検索語との類似度が所定条件よりも高く、かつ、前記所定条件よりも高い前記類似度を得た前記検索語とは異なる前記検索語のいずれかと前記コーパスデータにおいて共起する検索語候補の語句を選択して前記検索語に追加するクエリ拡張部と、
前記一次クエリデータに含まれる前記検索語と、前記クエリ拡張部が追加した前記検索語とを用いてコンテンツを検索する検索部と、
を備えることを特徴とするコンテンツ推薦装置。 An acquisition unit that acquires primary query data indicating a list of search terms that are terms used in the search;
A search word candidate extraction unit that extracts words of a search word candidate from a plurality of corpus data in which the same topic can be described by different notations;
The search in which the similarity with any of the search terms included in the primary query data is higher than a predetermined condition and higher than the predetermined condition from the search term candidate words A query expansion unit that selects and adds to the search terms a search term candidate phrase that co-occurs in the corpus data with any of the search terms different from a word;
A search unit for searching for content using the search term included in the primary query data and the search term added by the query expansion unit;
A content recommendation device comprising:
ことを特徴とする請求項1に記載のコンテンツ推薦装置。 The search word candidate extraction unit extracts words of the search word candidate from the corpus data within a predetermined period.
The content recommendation device according to claim 1.
ことを特徴とする請求項1または請求項2に記載のコンテンツ推薦装置。 The acquisition unit acquires primary query data including words extracted from text information related to content viewed by a user.
The content recommendation device according to claim 1, wherein the content recommendation device is a content recommendation device.
ことを特徴とする請求項1から請求項3のいずれか1項に記載のコンテンツ推薦装置。 The acquisition unit acquires primary query data composed of phrases extracted from text information related to a portion of content reproduced by a user,
The content recommendation device according to any one of claims 1 to 3, wherein
ことを特徴とする請求項1から請求項4のいずれか1項に記載のコンテンツ推薦装置。 The search word candidate extraction unit extracts words of the search word candidate from a tag or text of the corpus data.
The content recommendation device according to any one of claims 1 to 4, wherein the content recommendation device is characterized in that:
検索に用いる語句である検索語のリストを示す一次クエリデータを取得する取得手段と、
同一の話題が異なる表記により記述され得る複数のコーパスデータから検索語候補の語句を抽出する検索語候補抽出手段と、
前記検索語候補の語句の中から、前記一次クエリデータに含まれるいずれかの前記検索語との類似度が所定条件よりも高く、かつ、前記所定条件よりも高い前記類似度を得た前記検索語とは異なる前記検索語のいずれかと前記コーパスデータにおいて共起する検索語候補の語句を選択して前記検索語に追加するクエリ拡張手段と、
前記一次クエリデータに含まれる前記検索語と、前記クエリ拡張手段が追加した前記検索語とを用いてコンテンツを検索する検索手段と、
を具備するコンテンツ推薦装置として機能させるためのプログラム。 Computer
An acquisition means for acquiring primary query data indicating a list of search terms that are terms used in the search;
Search word candidate extraction means for extracting words of a search word candidate from a plurality of corpus data in which the same topic can be described by different notations;
The search in which the similarity with any of the search terms included in the primary query data is higher than a predetermined condition and higher than the predetermined condition from the search term candidate words Query expansion means for selecting and adding to the search terms a search term candidate phrase that co-occurs in the corpus data with any of the search terms different from a word;
Search means for searching for content using the search terms included in the primary query data and the search terms added by the query expansion means;
For functioning as a content recommendation device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015000334A JP6429382B2 (en) | 2015-01-05 | 2015-01-05 | Content recommendation device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015000334A JP6429382B2 (en) | 2015-01-05 | 2015-01-05 | Content recommendation device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016126567A true JP2016126567A (en) | 2016-07-11 |
JP6429382B2 JP6429382B2 (en) | 2018-11-28 |
Family
ID=56359541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015000334A Expired - Fee Related JP6429382B2 (en) | 2015-01-05 | 2015-01-05 | Content recommendation device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6429382B2 (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052554A (en) * | 2017-11-29 | 2018-05-18 | 有米科技股份有限公司 | The method and apparatus that various dimensions expand keyword |
JP2018116396A (en) * | 2017-01-17 | 2018-07-26 | 株式会社LIGHTz | Information providing device, information providing system, information providing method and program |
JP2019197486A (en) * | 2018-05-11 | 2019-11-14 | 株式会社Nttドコモ | Information processing apparatus and program |
JP2021009720A (en) * | 2018-02-27 | 2021-01-28 | 株式会社 ミックウェア | Information search device and information search system |
JP2021060991A (en) * | 2019-10-09 | 2021-04-15 | フラミー インコーポレイテッド | Method for displaying dynamic digital content, graphical user interface, and system of the same |
KR20210137846A (en) * | 2020-05-11 | 2021-11-18 | 네이버 주식회사 | Method and system for expanding shopping search results |
JP2021535457A (en) * | 2019-10-16 | 2021-12-16 | クーパン コーポレイション | Computerized systems and computerized methods for providing product recommendations |
JP2022542206A (en) * | 2020-06-28 | 2022-09-30 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | INTERNET MEME GENERATION METHOD AND DEVICE, ELECTRONIC DEVICE AND MEDIUM |
JP7434125B2 (en) | 2020-09-16 | 2024-02-20 | 株式会社東芝 | Document search device, document search method, and program |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145274A (en) * | 1997-07-28 | 1999-02-16 | Just Syst Corp | Extension method for key word using co-occurrence between words and computer readable recording medium recording program for making computer execute respective processes of the method |
JP2005251038A (en) * | 2004-03-05 | 2005-09-15 | Just Syst Corp | Device, method and program for retrieving document |
JP2009093649A (en) * | 2007-10-05 | 2009-04-30 | Fujitsu Ltd | Recommendation for term specifying ontology space |
JP2010049498A (en) * | 2008-08-21 | 2010-03-04 | Fujitsu Ltd | Information retrieval device, information retrieval method, and information retrieval program |
JP2010288024A (en) * | 2009-06-10 | 2010-12-24 | Univ Of Electro-Communications | Moving picture recommendation apparatus |
US20120078918A1 (en) * | 2010-09-28 | 2012-03-29 | Siemens Corporation | Information Relation Generation |
JP2012093864A (en) * | 2010-10-26 | 2012-05-17 | Yahoo Japan Corp | Information selection device, method and program |
US20120151511A1 (en) * | 2010-12-09 | 2012-06-14 | Samsung Electronics Co., Ltd. | Multimedia system and method of recommending multimedia content |
JP2012243033A (en) * | 2011-05-18 | 2012-12-10 | Sony Corp | Information processor, information processing method, and program |
-
2015
- 2015-01-05 JP JP2015000334A patent/JP6429382B2/en not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145274A (en) * | 1997-07-28 | 1999-02-16 | Just Syst Corp | Extension method for key word using co-occurrence between words and computer readable recording medium recording program for making computer execute respective processes of the method |
JP2005251038A (en) * | 2004-03-05 | 2005-09-15 | Just Syst Corp | Device, method and program for retrieving document |
JP2009093649A (en) * | 2007-10-05 | 2009-04-30 | Fujitsu Ltd | Recommendation for term specifying ontology space |
JP2010049498A (en) * | 2008-08-21 | 2010-03-04 | Fujitsu Ltd | Information retrieval device, information retrieval method, and information retrieval program |
JP2010288024A (en) * | 2009-06-10 | 2010-12-24 | Univ Of Electro-Communications | Moving picture recommendation apparatus |
US20120078918A1 (en) * | 2010-09-28 | 2012-03-29 | Siemens Corporation | Information Relation Generation |
JP2012093864A (en) * | 2010-10-26 | 2012-05-17 | Yahoo Japan Corp | Information selection device, method and program |
US20120151511A1 (en) * | 2010-12-09 | 2012-06-14 | Samsung Electronics Co., Ltd. | Multimedia system and method of recommending multimedia content |
JP2012243033A (en) * | 2011-05-18 | 2012-12-10 | Sony Corp | Information processor, information processing method, and program |
Non-Patent Citations (1)
Title |
---|
安川美智子、外1名: "Web検索エンジンを用いた用語検索履歴からのシソーラス自動構築手法の評価と改良", DEWS2005論文集 [ONLINE], JPN6013001049, 2 May 2005 (2005-05-02), JP, pages 1 - 8, ISSN: 0003890856 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018116396A (en) * | 2017-01-17 | 2018-07-26 | 株式会社LIGHTz | Information providing device, information providing system, information providing method and program |
CN108052554A (en) * | 2017-11-29 | 2018-05-18 | 有米科技股份有限公司 | The method and apparatus that various dimensions expand keyword |
CN108052554B (en) * | 2017-11-29 | 2019-04-30 | 有米科技股份有限公司 | The method and apparatus of various dimensions expansion keyword |
JP7182585B2 (en) | 2018-02-27 | 2022-12-02 | 株式会社 ミックウェア | program |
JP2021009720A (en) * | 2018-02-27 | 2021-01-28 | 株式会社 ミックウェア | Information search device and information search system |
JP7134698B2 (en) | 2018-05-11 | 2022-09-12 | 株式会社Nttドコモ | Information processing device and program |
JP2019197486A (en) * | 2018-05-11 | 2019-11-14 | 株式会社Nttドコモ | Information processing apparatus and program |
JP2021060991A (en) * | 2019-10-09 | 2021-04-15 | フラミー インコーポレイテッド | Method for displaying dynamic digital content, graphical user interface, and system of the same |
JP2021535457A (en) * | 2019-10-16 | 2021-12-16 | クーパン コーポレイション | Computerized systems and computerized methods for providing product recommendations |
KR20210137846A (en) * | 2020-05-11 | 2021-11-18 | 네이버 주식회사 | Method and system for expanding shopping search results |
KR102418953B1 (en) * | 2020-05-11 | 2022-07-11 | 네이버 주식회사 | Method and system for expanding shopping search results |
JP2022542206A (en) * | 2020-06-28 | 2022-09-30 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | INTERNET MEME GENERATION METHOD AND DEVICE, ELECTRONIC DEVICE AND MEDIUM |
JP7297084B2 (en) | 2020-06-28 | 2023-06-23 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | INTERNET MEME GENERATION METHOD AND DEVICE, ELECTRONIC DEVICE AND MEDIUM |
JP7434125B2 (en) | 2020-09-16 | 2024-02-20 | 株式会社東芝 | Document search device, document search method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP6429382B2 (en) | 2018-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6429382B2 (en) | Content recommendation device and program | |
US20230197069A1 (en) | Generating topic-specific language models | |
US11197036B2 (en) | Multimedia stream analysis and retrieval | |
US9008489B2 (en) | Keyword-tagging of scenes of interest within video content | |
CN101267518B (en) | Method and system for extracting relevant information from content metadata | |
US8805823B2 (en) | Content processing systems and methods | |
US20080235209A1 (en) | Method and apparatus for search result snippet analysis for query expansion and result filtering | |
US20100274667A1 (en) | Multimedia access | |
JP2009043156A (en) | Apparatus and method for searching for program | |
JP2011529600A (en) | Method and apparatus for relating datasets by using semantic vector and keyword analysis | |
Kunneman et al. | Open-domain extraction of future events from Twitter | |
JP5952711B2 (en) | Prediction server, program and method for predicting future number of comments in prediction target content | |
JP6876649B2 (en) | Illegal content search device, illegal content search method and program | |
JP6760987B2 (en) | Illegal content search device, illegal content search method and program | |
JP6762678B2 (en) | Illegal content search device, illegal content search method and program | |
JP6830917B2 (en) | Illegal content search device, illegal content search method and program | |
JP5478146B2 (en) | Program search device and program search program | |
JP6530002B2 (en) | CONTENT SEARCH DEVICE, CONTENT SEARCH METHOD, PROGRAM | |
JP6621437B2 (en) | Illegal content search device, illegal content search method, and program | |
JP2018180913A (en) | Illegal content search device, illegal content search method, and program | |
JP6625087B2 (en) | Illegal content search device and illegal content search method | |
Hanjalic et al. | Indexing and retrieval of TV broadcast news using DANCERS | |
Goto et al. | A TV agent system that integrates knowledge and answers users' questions | |
Godfrey Winster et al. | Ontology-based blog collection and profile-based personalised ranking | |
Sabhnani et al. | Real-time Topic Detection and Tracking in Microblog: Towards A Comprehensive Tweet Recommendation System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181002 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180928 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181029 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6429382 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |