JP6405343B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP6405343B2
JP6405343B2 JP2016142633A JP2016142633A JP6405343B2 JP 6405343 B2 JP6405343 B2 JP 6405343B2 JP 2016142633 A JP2016142633 A JP 2016142633A JP 2016142633 A JP2016142633 A JP 2016142633A JP 6405343 B2 JP6405343 B2 JP 6405343B2
Authority
JP
Japan
Prior art keywords
product
word
similarity
feature amount
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016142633A
Other languages
English (en)
Other versions
JP2018013925A (ja
Inventor
廣 中地
廣 中地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Personal Computers Ltd
Original Assignee
NEC Personal Computers Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Personal Computers Ltd filed Critical NEC Personal Computers Ltd
Priority to JP2016142633A priority Critical patent/JP6405343B2/ja
Priority to US15/615,960 priority patent/US20180025364A1/en
Publication of JP2018013925A publication Critical patent/JP2018013925A/ja
Application granted granted Critical
Publication of JP6405343B2 publication Critical patent/JP6405343B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
近年、インターネットや放送網から膨大な情報やデータ量が提供されるとともに、提供される情報も多様化してきている。また、インターネットや放送網から情報を取得しようとするユーザも増加している。このような状況の中、インターネットや放送網を使用してコンテンツを提供する事業者が、ユーザが閲覧する記事等を分析し、その記事に関連するコンテンツを推薦するシステムが既に知られている。
上記のようなコンテンツ推薦システムに関連する技術が例えば特許文献1に開示されている。特許文献1では、ユーザが閲覧する記事の中で重要度の高いと判断されたキーワードに基づいて予め検索された商品、もしくはサービスのうち、ユーザが閲覧する記事と、商品、もしくはサービスに関連する情報(例えば商品名、商品の説明文書、および商品を使用した消費者の評価など)と、の類似度を算出して、その類似度が所定の閾値以上の商品、もしくはサービスをユーザに提供する技術が開示されている。
特開2015−022555号公報
しかし、例えば特許文献1に開示されたような従来の技術は、閲覧する記事との類似度が高いコンテンツのみが推薦コンテンツとして提供されるため、1つの記事に複数のコンテンツを推薦しようとすると、どうしても特定のキーワードに基づいて検索し、取得されたコンテンツの推薦に偏ってしまう。また同コンテンツであったとしても、コンテンツの取得元が異なる場合などでは異なるコンテンツとして扱われて推薦されてしまい、ユーザは同コンテンツが複数並んで表示されることに不快感を抱くことがある。そのような状況の中、閲覧する記事に関連するコンテンツをバリエーション豊かに推薦できるようなコンテンツ推薦システムの確立が求められている。
本発明は、このような実情に鑑みてなされたものであって、指定された記事に関連するコンテンツをバリエーション豊かに選択できる情報処理装置を提供することを目的とする。
本発明に係る情報処理装置は、指定ドキュメントに出現する単語の、指定ドキュメントに対する出現頻度を示す第1の単語特徴量を算出するドキュメント解析手段と、商品についての説明に出現する単語の、商品についての説明に対する出現頻度を示す第2の単語特徴量を算出する商品解析手段と、指定ドキュメントの第1の単語特徴量、および商品の第2の単語特徴量に基づいて、指定ドキュメントと、商品と、の類似度を算出する類似度算出手段と、類似度に基づいて、指定ドキュメントに関連する第1の商品を選択する第1の商品選択手段と、選択された第1の商品の第2の単語特徴量、および商品の第2の単語特徴量に基づいて算出された多様性と、類似度と、に基づいて、指定ドキュメントに関連する第2の商品を選択する第2の商品選択手段と、を備える、ことを特徴とする。
本発明に係る情報処理方法は、指定ドキュメントに出現する単語の、指定ドキュメントに対する出現頻度を示す第1の単語特徴量を算出するステップと、商品についての説明に出現する単語の、商品についての説明に対する出現頻度を示す第2の単語特徴量を算出するステップと、指定ドキュメントの第1の単語特徴量、および商品の第2の単語特徴量に基づいて、指定ドキュメントと、商品と、の類似度を算出するステップと、類似度に基づいて、指定ドキュメントに関連する第1の商品を選択するステップと、選択された第1の商品の第2の単語特徴量、および商品の第2の単語特徴量に基づいて算出された多様性と、類似度と、に基づいて、指定ドキュメントに関連する第2の商品を選択するステップと、を有することを特徴とする。
本発明に係る情報処理を実現させるためのプログラムは、指定ドキュメントに出現する単語の、指定ドキュメントに対する出現頻度を示す第1の単語特徴量を算出する工程と、商品についての説明に出現する単語の、商品についての説明に対する出現頻度を示す第2の単語特徴量を算出する工程と、指定ドキュメントの第1の単語特徴量、および商品の第2の単語特徴量に基づいて、指定ドキュメントと、商品と、の類似度を算出する工程と、類似度に基づいて、指定ドキュメントに関連する第1の商品を選択する工程と、選択された第1の商品の第2の単語特徴量、および商品の第2の単語特徴量に基づいて算出された多様性と、類似度と、に基づいて、指定ドキュメントに関連する第2の商品を選択する工程と、をコンピュータに実行させることを特徴とする。
本発明によれば、指定された記事に関連するコンテンツはサービスをバリエーション豊かに選択できる。
本発明の実施形態にかかる情報処理装置1のハードウェア構成図である。 本発明の実施形態にかかる情報処理装置1の機能ブロック図である。 本発明の実施形態にかかる指定ドキュメントの一例である。 本発明の実施形態にかかる単語のグループ化の一例である。 本発明の実施形態にかかる指定ドキュメントの分析結果の一例である。 本発明の実施形態にかかる商品の一例である。 本発明の実施形態にかかる商品の分析結果の一例である。 本発明の実施形態にかかる商品の指定ドキュメントとの類似度を示した結果である。 本発明の実施形態にかかる類似度と多様性に基づいた商品の選択の一例である。 本発明の実施形態にかかる類似度と多様性に基づいた商品の選択の一例である。 本発明の実施形態にかかる類似度と多様性に基づいた商品の選択の一例である。 本発明の実施形態にかかる類似度と多様性に基づいた商品選択のフローチャートの一例である。
以下、本発明の実施の形態について詳細に説明する。
まず、本実施形態の情報処理装置1のハードウェア構成について図1を用いて説明する。ここでの情報処理装置とは、例えばパーソナルコンピュータ、タブレット端末、スマートフォンなどのネットワークに接続が可能な情報端末などがある。また、複数のコンピュータにネットワークを通じて処理要求を行うホストコンピュータやサーバなどであっても良い。尚、情報処理装置1の構成は、図1に示したものと必ずしも同じ構成である必要はなく、本実施形態を実現できるハードウェアを備えていればそれで十分である。例えばパーソナルコンピュータ、タブレット端末、スマートフォンななどであればマウスや入力キーで構成されるキーボードなどの入力装置や、液晶、および有機ELなどのパネルを用いたディスプレイを備えた表示装置や、CD、もしくはDVDなどに記憶されているデータを読み書きする光学ドライブなどを備えていてもよい。
情報処理装置1は、所定のプログラムを実行することにより、情報処理装置1の全体の制御を実現するためのCPU10と、情報処理装置1の電源が投入されたときにCPU10が読出すプログラムを記憶する読出専用の不揮発メモリであるマスクROM、EPROM、またはSSDなどと、CPU10がプログラムを読み出し、演算処理等により生成したデータを一時的に書き込む作業用の揮発メモリであるSRAMやDRAMなどから構成されるメモリ11、情報処理装置1の電源が切断されたときに種々のデータの記録を保持することが可能なHDD12と、を備えている。
また、情報処理装置1は、通信I/F13を更に備えている。情報処理装置1は通信I/F13を介してネットワーク200に接続されている。通信I/F13は、CPU10の動作に基づいてネットワーク200経由でアクセス可能な各種情報にアクセスするものであり、通信I/F13の具体的としてUSBポートやLANポート、無線LANポートなどがあり、外部の機器とデータの送受信が行えればどのようなものでも構わない。
図2は、本発明の実施形態にかかる情報処理装置1の機能ブロック図である。図2に示すように、本発明にかかる情報処理装置1は、ドキュメント解析手段100と、商品解析手段101と、類似度算出手段102と、第1の商品選択手段103と、第2の商品選択手段104と、を備えている。
情報処理装置1のドキュメント解析手段100は、指定ドキュメントに出現する単語の、指定ドキュメントに対する出現頻度を示す第1の単語特徴量を算出する。尚、本実施形態において「指定ドキュメント」とは、コンピュータ、もしくはユーザ自身の何かしらの操作に基づいてネットワーク200経由で取得された文章データ等を意味する。例えば表示装置を備えるようなパーソナルコンピュータなどであれば、ネットワーク200を経由で取得された文章データ等が、表示装置に指定ドキュメントとして表示される。「第1の単語特徴量」については後述にて説明を行う。
ここで、指定ドキュメントとしての一例を図3に示すことにする。これは、例えばユーザが検索エンジンとして知られている「Google」(登録商標)や「Yahoo」(登録商標)などにネットワーク200経由でアクセスを行い、取得された文章データの一例である。取得する指定ドキュメントはこのような文章データに限定されず、動画や画像などを含んでいてもよい。
ドキュメント解析の手法の一つとして形態素解析がある。形態素解析により指定ドキュメントを構成する文章を単語レベルに分解して抽出する。また言語解析の分野では公知であるが、例えばHDD12などに予め備えている単語辞書等で関連性の高い単語をグループ化して記憶しておくことができる。例えば、人物「A山B夫」を指す単語を、グループ「A山B夫」に含めるものとする場合、苗字の「A山」、名前の「B夫」、もしくは愛称などを予めグループ「A山B夫」と関連付けることで、それらの単語が所定のドキュメントに出現した際に一律してグループ「A山B夫」に属すると判断できるわけである。
図4は形態素解析におけるグループ化の一例である。例えばグループ「アニメA」であれば、指定ドキュメントにおいて「アニメA」、「キャラクタA」、「キャラクタB」などが出現した場合に一律してグループ「アニメA」に属すると判断されるように規定する。同様にグループ「声優B」であれば、声優Bの苗字である「○山」、名前である「△子」、および愛称である「△ちゃん」などが指定ドキュメントに出現した場合に一律してグループ「声優B」に属すると判断されるように規定する。尚、本実施形態では、説明の簡素化のために3つのグループに限定しているが、これに限定されない。また、グルーピングの条件なども様々である。このように図3の指定ドキュメントを形態素解析し、予め定められているグルーピングの規定に基づいて単語解析が行われる。
図5は、図3の指定ドキュメントに出現する単語を予めグルーピングの規定に基づいてグループ化を行い、指定ドキュメントの特徴を表した一例である。ここでの第1の特徴量は、指定ドキュメントの全単語の出現頻度に対する各グループに属する単語の合計出現頻度をウェイトで示したものである。例えば、グループ「アニメA」であれば、指定ドキュメント全体のウェイトを100%に対して、「アニメA」に属する単語の出現頻度の合計が50%の割合であることを意味している。その他のグループにおいても同様に第1の特徴量が算出される。指定ドキュメントを構成する文章に出現する単語の単語量は膨大であるため、本実施形態では、単語量をできるだけ抑制するためグループ化しているが、グループ化せずに個々の単語ごとに指定ドキュメントに対する出現頻度として第1の特徴量を算出してもよい。また、第1の特徴量はパーセント表記に限定されず、分数の形で表記してもよい。
情報処理装置1のドキュメント解析手段100は、CPU10がメモリ11に記憶されている所定のドキュメント解析方式が書き込まれているプログラムを読み出して演算処理等が実行される。演算結果などがメモリ11、およびHDD12などの記憶装置に一時的に記憶される。
情報処理装置1の商品解析手段101は、商品についての説明に出現する単語の、商品についての説明に対する出現頻度を示す第2の単語特徴量を算出する。ここでの「商品」とは、例えば、ECサイトとしての「Amazon」(登録商標)、「楽天」(登録商標)、「iTunes」(登録商標)からユーザに提供される商品、「ぐるなび」(登録商標)、「食べログ」(登録商標)、「Yelp」(登録商標)、「ホットペッパー\HOTPEPPER」(登録商標)などからユーザに対して無償で紹介される情報、もしくはユーザに対して無償で紹介される動画や画像などネットワーク200経由で取得可能な多岐に渡るコンテンツを指す。また、第2の単語特徴量については後述にて説明を行う。
図6は、商品の情報の一例を示したものである。商品は予め上記のようなサイトから情報を取得し、データベース形式でHDD12などに備えておいてもよいし、指定ドキュメントが取得されたタイミングで、指定ドキュメントから所定の方法に基づいてキーワードを抽出し、そのキーワードに基づいてその都度商品の情報を取得してもよい。例えば複数のコンピュータにネットワーク200を通じて処理要求を行うホストコンピュータやサーバであれば、予め上記のようなサイトから商品の情報を取得し、商品データベースとして備えておくことも可能である。また、図6のような商品名や商品説明についての文書のみの情報だけでなく、例えば商品の外観が認識できる画像、および動画などを併せて取得することも可能である。また、文章情報としては、その商品を使用したユーザのコメント、更にユーザが購入する商品であれば価格情報などを併せて取得してもよい。また、商品に関連する情報としては、商品の広告を掲載する際の広告単価、および表示された広告に対するクリック数、広告の表示回数などの広告価格情報なども併せて取得が可能である。
商品解析の手法の一つとして、ドキュメント解析手段100での解析手法と同様に形態素解析を用いる。形態素解析により図6の商品の商品名、および商品の説明を構成する文章を単語レベルに分解して抽出する。また、ドキュメント解析手段100の解析手法と同様に、HDD12などに予め備えている単語辞書等で関連性の高い単語をグループとしてまとめることができる。
図7は、図6の商品の商品名、および商品の説明に出現する単語を予めグルーピングの規定に基づいてグループ化を行い、商品の特徴を表した一例である。ここでの第2の特徴量は、商品の商品名、および商品の説明に出現する全単語の出現頻度に対する各グループに属する単語の合計出現頻度をウェイトで示したものである。例えば、商品番号1であれば、商品番号1の商品名、および商品の説明に出現する単語全体のウェイトを100%に対して、「アニメA」というグループに属する単語の出現頻度が60%の割合であり、グループ「テレビ」に属する単語の出現頻度が40%の割合であることを意味している。2〜9の商品についても同様に商品を構成するグルーピングが設定され、第2の特徴量が算出される。尚、本実施形態では説明の簡素化のために商品のカテゴリを「アニメA」、「声優B」、「俳優C」と分けて表記しているが、カテゴリに分けず、個々の商品ごとに商品についての説明に出現する単語の、商品についての説明に対する出現頻度として第2の単語特徴量を算出してもよい。また、商品を商品番号ではなく特有のIDと関連付けて記憶させることも可能である。
情報処理装置1の商品解析手段101は、CPU10がメモリ11に記憶されている所定の商品解析方式が書き込まれているプログラムを読み出して演算処理等が実行される。演算結果などがメモリ11、およびHDD12などの記憶装置に一時的に記憶される。
情報処理装置1の類似度算出手段102は、指定ドキュメントの第1の単語特徴量、および商品の第2の単語特徴量に基づいて、指定ドキュメントと、商品と、の類似度を算出する。2つの比較対象での類似度算出の一例として、本実施形態ではコサイン類似度を用いて指定ドキュメントと、商品との類似度を算出する。
例えば文章に出現する単語の出現回数を単語ベクトル成分としてコサイン類似度を算出する手法は公知である。本実施形態では、指定ドキュメントの単語ベクトル成分として、図5の各グループでの第1の特徴量を用いて表記すると、(0.5、0.3、0.15、0.02、0.01、0.01、0.01)と定めることができる。そして、商品の単語ベクトル成分として、図7の例えば商品番号1の第2の特徴量を用いて表記すると、(0.6、0、0、0.4、0、0、0)と定めることができる。商品番号2〜9においても同様に単語ベクトル成分を定めることができる。
上記のとおり、指定ドキュメントの単語ベクトル成分と、商品の単語ベクトル成分を用いてコサイン類似度を算出できる。コサイン類似度の計算式については公知であるため詳細な計算方法は割愛する。商品番号1〜9について、それぞれ計算結果を表記すると図8のようになる。図8より、商品番号1〜9の商品の中で、指定ドキュメントと最も類似度が高い商品は類似度が0.76の商品番号3であることがわかる。また、最も類似度が低い商品は類似度が0.18の商品番号9であることがわかる。尚、類似度の算出手段としては、コサイン類似度に限定されず、例えばユーグリッド距離などを用いてもよい。
情報処理装置1の類似度算出手段102は、CPU10がメモリ11に記憶されている所定の類似度演算方式が書き込まれているプログラムを読み出して演算処理等が実行される。演算された類似度がメモリ11、およびHDD12などの記憶装置に記憶されている商品の第2の特徴量と関連付けて記憶される。
情報処理装置1の第1の商品選択手段103は、類似度に基づいて、指定ドキュメントに関連する第1の商品を選択する。ここで選択されるべき商品は、類似度が最も高い商品である。つまり、図8より商品番号3の商品が選択されることになる。尚、本実施形態では商品の数は9個だけであると想定しているが、予め類似度に所定のしきい値を設定しておき、そのしきい値以下の商品は選択対象外としてもよい。
情報処理装置1の第1の商品選択手段103は、CPU10がメモリ11に記憶されている所定の商品選択方式が書き込まれているプログラム、および商品の類似度の情報を読み出して演算処理等が実行される。第1の商品として選択された情報がメモリ11、およびHDD12などの記憶装置に一時的に記憶される。
<多様性に基づいた商品選択の第1の実施例>
情報処理装置1の第2の商品選択手段104は、選択された第1の商品の第2の単語特徴量、および商品の第2の単語特徴量に基づいて算出された多様性と、類似度と、に基づいて、指定ドキュメントに関連する第2の商品を選択する。ここで、「選択された第1の商品」は商品番号3であるものとする。また、「第2の商品」は未選択である商品番号1、2、4〜9のいずれかであるものとする。また、「多様性」については後述にて説明を行う。
本実施形態では、第1の商品を指定ドキュメントと類似度が最も高いものを優先的に選択し、第2の商品は、指定ドキュメントとの類似度と、商品のバリエーションを考慮した「多様性」との観点から評価を行い、その評価値が高いものを優先的に取得する。本実施形態では「多様性」の考え方の一つとして、情報エントロピーを用いることにする。情報エントロピーは、事象の起こり得る確率に基づいて情報の大きさを数値化したものであり、本実施形態における商品の選択判断に用いることは適切であると言える。尚、情報の数値化という観点で考えると、「多様性」は情報エントロピーに限定されず例えば情報利得の概念で用いられるカルバック・ライブラー情報量を用いてもよい。
多様性を示す情報エントロピーの値を求めてみる。まず、情報エントロピーにおける事象を、本実施形態では「アニメA」、「声優B」、「俳優C」などの単語ベクトル成分とする。商品が選択される度に、単語ベクトル成分の第2の特徴量が合成される。今、第1の商品として選択済の商品番号3の単語ベクトル成分は、(「アニメA」、「グッズ」)として、(0.7、0.3)と表記される。
次に、未選択である商品番号1、2、4〜9のそれぞれの単語ベクトル成分を合成する。例えば、商品番号1の単語ベクトル成分を合成する場合を考えてみると、合成後の単語グループの表記は、(「アニメA」、「グッズ」、「テレビ」)であり、それぞれの単語ベクトル成分を合成すると(1.3、0.3、0.4)となる。商品番号3と商品番号1の重複事象である「アニメA」に関しては0.7+0.6で単純に和を取る。そして新事象である「テレビ」が新たに追加される。
このように選択済の商品の単語ベクトル成分に対して、未選択の商品の単語ベクトル成分を合成して情報エントロピーが算出できる。情報エントロピーHの演算式は公知であり、H=−ΣPilogPiで表される。Piは単語ベクトル成分全体に対する特定の単語ベクトル成分の割合で表すことができ、例えば単語ベクトル成分の合成後の「アニメA」の単語ベクトル成分の割合は、単語ベクトル成分全体を2とすると、1.3/2で表され、同様に「グッズ」は0.3/2、「テレビ」は0.4/2で表される。この値を各々事象ごとに情報エントロピーHの式に当てはめると、図9のように0.38という値が算出される。尚、図9では「多様性」に該当する値がこの情報エントロピーHの値であるとする。同様に、商品2、4〜9それぞれの情報エントロピーHを算出する。
以上のように求められた情報エントロピーHを用いて、未選択の商品を評価する。本実施形態では、類似度と情報エントロピーHを用いて、商品評価値を類似度+(重み係数×H)という式で表すことにする。重み係数は任意の値であり、重み係数を大きくするほど多様性、つまり情報エントロピーの値が重視され、重み係数を小さくほど類似度が重視されるようになる。この値は、例えば実際に社会一般のサイトから取得されるドキュメントの分析を行い、最適な値を設定することもできる。本実施形態では、重み係数4という数値を一例で用いているが、この数値に限定されず、多様性の概念を考慮して商品を評価できればその他の値を用いてもよい。
上記の式に基づいて、未選択の商品の商品評価値を算出すると、商品番号4が最も高い数値となった。つまり、2商品目として選択される商品が商品番号4の商品となる。従来であれば、指定ドキュメントとの類似度が高い商品番号1、もしくは商品番号2などの商品が優先的に選択されていたが、多様性の概念を踏まえて商品番号1、もしくは商品番号2よりも優先的に類似度の低い商品番号4の商品を2商品目に選択することができるわけである。尚、第1の商品選択の時と同様に、予め類似度に所定のしきい値を設定しておき、まず、そのしきい値以下の商品は選択対象外とする処理を事前に行ってもよい。
次に、3商品目を選択する場合を考えてみる。2商品目を選択した場合と同様に、選択済の商品番号3、および4で合成された単語ベクトル成分(「アニメA」、「グッズ」、「声優B」、「音楽」)でそれぞれ(0.7、0.3、0.7、0.3)を基準として未選択の商品番号1、2、5〜9を選択する場合の情報エントロピーHを算出して、商品評価値を算出する。算出結果として図10に示したとおりであり、商品番号7が最も高い数値となった。つまり、3商品目として選択される商品が商品番号7の商品となる。
次に、4商品目を選択する場合を考えてみる。2商品目、および3商品目を選択した場合と同様に選択済の商品番号3、4、および7で合成された単語ベクトル成分(「アニメA」、「グッズ」、「声優B」、「音楽」、「俳優C」、「テレビ」)でそれぞれ(0.7、0.3、0.7、0.3、0.7、0.3)を基準として未選択の商品番号1、2、5〜6、8〜9を選択する場合の情報エントロピーHを算出して、商品評価値を算出する。算出結果として図11に示したとおりであり、商品番号2が最も高い数値となった。つまり、4商品目として選択される商品が商品番号2の商品となる。以後、予め定められた選択数を満たすまで第2の商品の選択が繰り返される。
以上のように、本実施形態では、商品を選択する順番として、まず類似度に基づいて「アニメA」に関連する商品が選択され、次に多様性を踏まえた評価に基づいて「声優B」に関連する商品が選択され、更に「俳優C」に関連する商品が選択される。従来の類似度を基準とした選択であれば、「アニメA」に関連する商品が優先的に選択されるが、本実施形態では、「アニメA」、「声優B」、「俳優C」などカテゴリの異なる商品をバランスよく選択することが可能となる。
情報処理装置1の第2の商品選択手段104は、CPU10がメモリ11に記憶されている所定の商品選択方式が書き込まれているプログラム、および商品の類似度、および第2の特徴量の情報を読み出して演算処理等が実行される。第2の商品として選択された情報がメモリ11、およびHDD12などの記憶装置に一時的に記憶される。
<多様性に基づいた商品選択の第2の実施例>
多様性に基づいた商品選択として、第2の実施例について説明する。図6に記載されている商品などを指定ドキュメントに広告として掲載する場合では、広告を掲載することで個人や企業が収入を得ることができる。商品ごとに広告単価が定められており、その広告単価に基づいて得られる収入が決まるわけである。広告掲載による得られる収入は、広告の掲載契約が成立した時点で算出されたり、ユーザの情報端末に広告が表示された回数に基づいて算出されたり、表示された広告に対するユーザのクリック数などに基づいて算出されたりなど様々である。
多様性に基づいた商品選択の第2の実施例として、商品の広告価格情報に基づいて商品を選択する。ここでの実施例としては、まず、類似度算出手段102により算出された指定ドキュメントと、商品と、の類似度に基づいて、所定のしきい値を満たす商品だけに絞り込むことにする。ここでの処理は予めメモリ11に記憶させた所定のしきい値を読み出しプログラムに基づいてCPU10が演算処理等を行う。次に、所定の類似度を満たした商品の中から広告価格情報に基づいて指定ドキュメントに関連する第1の商品を選択する。
第1の商品を選択する際に、選択の基準となる広告価格情報は、広告単価そのものでもよいし、広告単価に、表示された広告に対するユーザのクリック数、もしくは表示回数などを重み付けたものであってもよい。選択される第1の商品は、広告単価が高いもの、もしくは広告単価に所定の重み付けをした広告価格情報が大きいものであることが好ましい。次に、選択された第1の商品の単語特徴量、および商品の単語特徴量に基づいて算出された多様性と、広告価格情報と、に基づいて、指定ドキュメントに関連する第2の商品を選択する。ここでの「第1の商品の単語特徴量」、および「商品の単語特徴量」は、例えば第1の実施例と同様に図7に示したような商品の商品名、および商品の説明に出現する全単語の出現頻度に対する各グループに属する単語の合計出現頻度をウェイトで表すことができる。また、グルーピングせずに商品ごとに商品についての説明に出現する単語ごとの、商品についての説明に対する出現頻度で表してもよい。
「多様性」においては、例えば第1の実施例と同様に情報エントロピーHを用いてもよい。このように定義することで、未選択である第2の商品の商品評価値を算出する式を広告価格情報+(重み係数×情報エントロピー)とすることができる。重み係数は任意の値であり、重み係数を大きくするほど多様性、つまり情報エントロピーの値が重視され、重み係数を小さくほど広告価格情報が重視されるようになる。第1の実施例と同様に選択済の商品の単語ベクトル成分に、未選択である商品の単語ベクトル成分を合成し、選択済の商品と未選択の商品との多様性を考慮して第2の商品が選択される。以後、予め定められた選択数を満たすまで第2の商品の選択が繰り返される。
このように第2の実施例では、指定ドキュメントと商品との類似性が高い商品に予め絞り込み、商品の広告価格情報と多様性を加味した商品選択の実現を可能としている。このように商品の選択を行うことで、指定ドキュメントに対する類似性を維持しつつ、例えば広告単価が高いもの、もしくは広告価格情報が大きいものに偏らせることなく、バリエーションに富んだ商品の選択が可能となる。
図12は、本発明の実施形態にかかる商品選択のフローチャートの一例である。
まず、指定ドキュメントに出現する単語の指定ドキュメントに対する出現頻度を示す第1の特徴量を算出する(ステップ1)。商品についての説明に出現する単語の商品についての説明に対する出現頻度を示す第2の特徴量を算出する(ステップ2)。第1の特徴量と、第2の特徴量と、に基づいて指定ドキュメントと商品の類似度を算出する(ステップ3)。
類似度に基づいて指定ドキュメントに類似する商品を第1商品として選択する(ステップ4)。選択された第1商品および未選択の商品の第2の特徴量に基づいて算出された多様性と、類似度と、に基づいて第2商品を選択する(ステップ5)。以後、所定の選択数を満たすまでステップ5の処理が繰り返し行われる(ステップ6)。
本願発明を実現できるような構成であれば、用いる装置の具備する内容、および装置の数量などは本実施例に限定されない。
100 ドキュメント解析手段
101 商品解析手段
102 類似度算出手段
103 第1の商品選択手段
104 第2の商品選択手段

Claims (7)

  1. 指定ドキュメントに出現する単語の、前記指定ドキュメントに対する出現頻度を示す第1の単語特徴量を算出するドキュメント解析手段と、
    商品についての説明に出現する単語の、前記商品についての説明に対する出現頻度を示す第2の単語特徴量を算出する商品解析手段と、
    前記指定ドキュメントの第1の単語特徴量、および前記商品の第2の単語特徴量に基づいて、前記指定ドキュメントと、前記商品と、の類似度を算出する類似度算出手段と、
    前記類似度に基づいて、前記指定ドキュメントに関連する第1の商品を選択する第1の商品選択手段と、
    前記選択された第1の商品の第2の単語特徴量、および前記商品の第2の単語特徴量に基づいて算出された多様性と、前記類似度と、に基づいて、前記指定ドキュメントに関連する第2の商品を選択する第2の商品選択手段と、
    を備え、
    前記第2の商品選択手段は、前記選択された第1の商品の単語ベクトル成分、および前記商品の単語ベクトル成分に基づいて算出された情報エントロピーと、所定のしきい値よりも大きい前記類似度と、に基づいて、前記指定ドキュメントに関連する第2の商品を選択する、
    ことを特徴とする情報処理装置。
  2. 前記第1の商品選択手段は、前記類似度が所定のしきい値よりも大きい商品を、前記指定ドキュメントに関連する第1の商品として選択する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記第2の商品選択手段は、前記選択された第1の商品の第2の単語特徴量、および前記商品の第2の単語特徴量に基づいて算出された多様性に重み係数を乗算した重み多様性と、所定のしきい値よりも大きい前記類似度と、に基づいて、前記指定ドキュメントに関連する第2の商品を選択する、
    ことを特徴とする請求項1、または2に記載の情報処理装置。
  4. 前記第2の商品選択手段は、規定の選択数量を満たすまで、前記第2の商品を選択する、
    ことを特徴とする請求項1からのいずれか1項に記載の情報処理装置。
  5. 指定ドキュメントに出現する単語の、前記指定ドキュメントに対する出現頻度を示す第1の単語特徴量を算出するドキュメント解析手段と、
    商品についての説明に出現する単語の、前記商品についての説明に対する出現頻度を示す第2の単語特徴量を算出する商品解析手段と、
    前記指定ドキュメントの第1の単語特徴量、および前記商品の第2の単語特徴量に基づいて、前記指定ドキュメントと、前記商品と、の類似度を算出する類似度算出手段と、
    前記類似度が所定のしきい値を満たす前記商品のみに絞り込む商品限定手段と、
    前記絞り込んだ商品より、前記商品の広告掲載に関連する広告価格情報に基づいて、前記指定ドキュメントに関連する第1の商品を選択する第1の商品選択手段と、
    前記選択された第1の商品の第2の単語特徴量、および前記商品の第2の単語特徴量に基づいて算出された多様性と、前記広告価格情報と、に基づいて、前記指定ドキュメントに関連する第2の商品を選択する第2の商品選択手段と、
    を備え、
    前記第2の商品選択手段は、前記選択された第1の商品の単語ベクトル成分、および前記商品の単語ベクトル成分に基づいて算出された情報エントロピーと、所定のしきい値よりも大きい前記類似度と、に基づいて、前記指定ドキュメントに関連する第2の商品を選択する、
    ことを特徴とする情報処理装置。
  6. 指定ドキュメントに出現する単語の、前記指定ドキュメントに対する出現頻度を示す第1の単語特徴量を算出するステップと、
    商品についての説明に出現する単語の、前記商品についての説明に対する出現頻度を示す第2の単語特徴量を算出するステップと、
    前記指定ドキュメントの第1の単語特徴量、および前記商品の第2の単語特徴量に基づいて、前記指定ドキュメントと、前記商品と、の類似度を算出するステップと、
    前記類似度に基づいて、前記指定ドキュメントに関連する第1の商品を選択するステップと、
    前記選択された第1の商品の第2の単語特徴量、および前記商品の第2の単語特徴量に基づいて算出された多様性と、前記類似度と、に基づいて、前記指定ドキュメントに関連する第2の商品を選択するステップと、
    を有し、
    前記第2の商品の商品を選択するステップは、前記選択された第1の商品の単語ベクトル成分、および前記商品の単語ベクトル成分に基づいて算出された情報エントロピーと、所定のしきい値よりも大きい前記類似度と、に基づいて、前記指定ドキュメントに関連する第2の商品を選択する、
    ことを特徴とする情報処理方法。
  7. 指定ドキュメントに出現する単語の、前記指定ドキュメントに対する出現頻度を示す第1の単語特徴量を算出する工程と、
    商品についての説明に出現する単語の、前記商品についての説明に対する出現頻度を示す第2の単語特徴量を算出する工程と、
    前記指定ドキュメントの第1の単語特徴量、および前記商品の第2の単語特徴量に基づいて、前記指定ドキュメントと、前記商品と、の類似度を算出する工程と、
    前記類似度に基づいて、前記指定ドキュメントに関連する第1の商品を選択する工程と、
    前記選択された第1の商品の第2の単語特徴量、および前記商品の第2の単語特徴量に基づいて算出された多様性と、前記類似度と、に基づいて、前記指定ドキュメントに関連する第2の商品を選択する工程と、
    をコンピュータに実行させ
    前記第2の商品を選択する工程は、前記選択された第1の商品の単語ベクトル成分、および前記商品の単語ベクトル成分に基づいて算出された情報エントロピーと、所定のしきい値よりも大きい前記類似度と、に基づいて、前記指定ドキュメントに関連する第2の商品を選択する、
    ことを特徴とするプログラム。
JP2016142633A 2016-07-20 2016-07-20 情報処理装置、情報処理方法、およびプログラム Active JP6405343B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016142633A JP6405343B2 (ja) 2016-07-20 2016-07-20 情報処理装置、情報処理方法、およびプログラム
US15/615,960 US20180025364A1 (en) 2016-07-20 2017-06-07 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016142633A JP6405343B2 (ja) 2016-07-20 2016-07-20 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2018013925A JP2018013925A (ja) 2018-01-25
JP6405343B2 true JP6405343B2 (ja) 2018-10-17

Family

ID=60989548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016142633A Active JP6405343B2 (ja) 2016-07-20 2016-07-20 情報処理装置、情報処理方法、およびプログラム

Country Status (2)

Country Link
US (1) US20180025364A1 (ja)
JP (1) JP6405343B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220095539A (ko) 2020-12-30 2022-07-07 숭실대학교산학협력단 디바이스 핑거프린트를 이용한 가중치 부여 방법, 이를 수행하기 위한 기록 매체 및 장치

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538085B2 (en) * 2017-07-19 2022-12-27 Trygle Co., Ltd. Recommendation device
CN110134767B (zh) * 2019-05-10 2021-07-23 云知声(上海)智能科技有限公司 一种词汇表的筛选方法
US20210065276A1 (en) * 2019-08-28 2021-03-04 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium
CN111192128B (zh) * 2019-12-30 2023-06-02 航天信息股份有限公司 识别异常纳税行为的方法
CN113779243A (zh) * 2021-08-16 2021-12-10 深圳市世强元件网络有限公司 一种商品自动分类方法、装置及计算机设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352499B2 (en) * 2003-06-02 2013-01-08 Google Inc. Serving advertisements using user request information and user information
US7860862B2 (en) * 2006-10-27 2010-12-28 Yahoo! Inc. Recommendation diversity
US20080250450A1 (en) * 2007-04-06 2008-10-09 Adisn, Inc. Systems and methods for targeted advertising
US8024327B2 (en) * 2007-06-26 2011-09-20 Endeca Technologies, Inc. System and method for measuring the quality of document sets
US7958136B1 (en) * 2008-03-18 2011-06-07 Google Inc. Systems and methods for identifying similar documents
JP6390139B2 (ja) * 2014-03-31 2018-09-19 大日本印刷株式会社 文書検索装置、文書検索方法、プログラム、及び、文書検索システム
JP6129815B2 (ja) * 2014-12-24 2017-05-17 Necパーソナルコンピュータ株式会社 情報処理装置、方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220095539A (ko) 2020-12-30 2022-07-07 숭실대학교산학협력단 디바이스 핑거프린트를 이용한 가중치 부여 방법, 이를 수행하기 위한 기록 매체 및 장치

Also Published As

Publication number Publication date
JP2018013925A (ja) 2018-01-25
US20180025364A1 (en) 2018-01-25

Similar Documents

Publication Publication Date Title
JP6405343B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US11995112B2 (en) System and method for information recommendation
US9727906B1 (en) Generating item clusters based on aggregated search history data
JP5687401B1 (ja) 情報提供装置、情報提供方法、プログラム、及び記録媒体
WO2020238502A1 (zh) 物品推荐方法及装置、电子设备及存储介质
KR20160083017A (ko) 소셜 데이터 네트워크에서 인플루언서들 및 그들의 커뮤니티를 식별하기 위한 시스템 및 방법
JP2017054214A (ja) 判定装置、学習装置、情報配信装置、判定方法及び判定プログラム
US20150160847A1 (en) System and method for searching through a graphic user interface
US20130332462A1 (en) Generating content recommendations
US20230350955A1 (en) Comparative search within user-generated content
JP5481295B2 (ja) オブジェクト推薦装置、オブジェクト推薦方法、オブジェクト推薦プログラムおよびオブジェクト推薦システム
JP6037540B1 (ja) 検索システム、検索方法およびプログラム
JP2012150563A (ja) 商品推薦装置及び方法及びプログラム
JP2016177690A (ja) サービス推薦装置およびサービス推薦方法並びにサービス推薦プログラム
CN110321490B (zh) 推荐方法、装置、设备及计算机可读存储介质
JP6433270B2 (ja) コンテンツ検索結果提供システム及びコンテンツ検索結果提供方法
JP5011185B2 (ja) 情報分析装置、情報分析方法、及び情報分析プログラム
JP2022066610A (ja) 情報処理装置、情報処理方法、およびプログラム
JP6982546B2 (ja) 情報提供装置、情報提供方法、およびプログラム
JP5613699B2 (ja) 商品推薦装置及び方法及びプログラム
KR101985603B1 (ko) 삼분 그래프에 기반한 추천 방법
Khanom et al. Bookception: A proposed framework for an artificially intelligent recommendation platform
JP6246271B1 (ja) 属性評価装置、販売システム、属性評価方法、および属性評価プログラム
JP7309669B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP7104257B1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180914

R150 Certificate of patent or registration of utility model

Ref document number: 6405343

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250