JP2015191373A - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
JP2015191373A
JP2015191373A JP2014067158A JP2014067158A JP2015191373A JP 2015191373 A JP2015191373 A JP 2015191373A JP 2014067158 A JP2014067158 A JP 2014067158A JP 2014067158 A JP2014067158 A JP 2014067158A JP 2015191373 A JP2015191373 A JP 2015191373A
Authority
JP
Japan
Prior art keywords
keyword
topic
unit
keywords
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014067158A
Other languages
English (en)
Other versions
JP5975470B2 (ja
Inventor
莉紗 川中
Risa Kawanaka
莉紗 川中
吉田 一星
Issei Yoshida
一星 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2014067158A priority Critical patent/JP5975470B2/ja
Priority to US14/635,210 priority patent/US10380487B2/en
Priority to US14/747,011 priority patent/US10387781B2/en
Publication of JP2015191373A publication Critical patent/JP2015191373A/ja
Application granted granted Critical
Publication of JP5975470B2 publication Critical patent/JP5975470B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】関連キーワードにも混入キーワードにもなり得る概要中のキーワードを適切に処理することにより、コンテンツ中のキーワードと概要中のキーワードとの共起関係を適切に学習させることを課題とする。
【解決手段】第1キーワード及び第2キーワードの組を複数組取得するキーワード取得部と、複数の第2キーワードのそれぞれを、複数のトピックのそれぞれに分類する分類部と、複数の組のそれぞれについて、第1キーワードを、第2キーワードが分類されたトピックに関連する関連キーワード、及び、関連しない混入キーワードのいずれであるかを推定する推定部と、関連キーワードであると推定された第1キーワードを同じ組の第2キーワードが分類されたトピックに優先的に割り当て、混入キーワードであると推定された第1キーワードを分類対象となるトピックのうちのいずれかに割り当てる割当部と、を備える情報処理装置を提供する。
【選択図】図11

Description

本発明は、情報処理装置、情報処理方法、及び、プログラムに関する。
ソーシャルメディアサービスの多くは、アカウントごとにコンテンツの内容を紹介し、購読を促すことを目的としたプロフィール等の概要欄を提供する。概要欄に記載されるキーワードは、収集の対象となりマーケティング等に利用されることもある。しかし、概要欄にほとんど記述がないアカウントが多数存在し、ユーザ情報を概要欄から網羅的に収集・分析する妨げとなっている。
この問題を解決するために、コンテンツ中のキーワードと概要中のキーワードとの共起関係を学習して、コンテンツ中のキーワードから概要中のキーワードの内容を推定する方法が知られている(例えば、非特許文献1)。
ところが、ユーザがコンテンツの内容に対応して概要欄を記述するとは限らず、概要中のキーワードの一部がコンテンツの内容と対応していない場合がある。例えば、あるユーザが概要欄に「趣味は読書とスポーツです」と記述しながら、コンテンツでは「読書」についてのみ記述し、「スポーツ」について全く記述しない場合がある。この場合、概要中のキーワードは、コンテンツの内容と対応する関連キーワード(読書)及びコンテンツの内容と対応しない混入キーワード(スポーツ)の両方を含むことになるが、混入キーワードは共起関係の学習の妨げとなる。
これに対し、キーワードとトピックとを関連づけるトピックモデルを導入し、混入キーワードに対して実質的に混入キーワード専用のトピックを割り当てることで、混入キーワードを関連キーワードから除外する方法が知られている(例えば、非特許文献2)。
この方法によると、「お気に入り」及び「あとで読む」等のコンテンツの内容とは直接関係ないが多くのユーザで共通して用いられるキーワードを混入キーワードとして除外する。しかし、この方法では、「スポーツ」等の他の一部のユーザにとっては関連キーワードとなり得るキーワードを、全ユーザに対する混入キーワードとして扱ってしまう。このため、従来、あるユーザに対して混入キーワードとして判断されたキーワードが他のユーザにとって関連キーワードとなりえる状況を適切に処理することができず、コンテンツ中のキーワードと概要中のキーワードとの共起関係の学習精度を十分に向上させることができなかった。
[非特許文献1]David Blei and Michael Jordan. "Modeling annotated data." Proc. of ACM SIGIR 2003
[非特許文献2]Tohoharu Iwata, Takeshi Yamada, Naonori Ueda, "Modeling Noisy Annotated Data with Application to Social Annotation," IEEE Transactions on Knowledge and Data Engineering, vol.25, no.7, pp.1601-1613, 2013.
関連キーワードにも混入キーワードにもなり得る概要中のキーワードを適切に処理することにより、コンテンツ中のキーワードと概要中のキーワードとの共起関係を適切に学習させることを課題とする。
本発明の第1の態様においては、第1キーワード及び第2キーワードの組を複数組取得するキーワード取得部と、複数の第2キーワードのそれぞれを、複数のトピックのそれぞれに分類する分類部と、複数の組のそれぞれについて、第1キーワードを、第2キーワードが分類されたトピックに関連する関連キーワード、及び、関連しない混入キーワードのいずれであるかを推定する推定部と、関連キーワードであると推定された第1キーワードを同じ組の第2キーワードが分類されたトピックに優先的に割り当て、混入キーワードであると推定された第1キーワードを分類対象となるトピックのうちのいずれかに割り当てる割当部と、を備える情報処理装置を提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本実施形態の情報処理装置10のブロック図を示す。 本実施形態の情報処理装置10の処理フローを示す。 キーワード取得部100が取得する第1文書情報及び第2文書情報の一例を示す。 記憶部102が保持する第1ユーザデータの一例を示す。 記憶部102が保持する第2ユーザデータの一例を示す。 混入割合取得部126が取得する第3全体データλの一例を示す。 トピック確率生成部160が生成する第1全体データΨの一例を示す。 トピック確率生成部160が生成する第2全体データΦの一例を示す。 トピック確率生成部160が生成する第3ユーザデータθの一例を示す。 第1生成確率算出部180が生成する第1キーワード生成確率の一例を示す。 本実施形態に係るトピックモデルの一例を示す。 本実施形態の情報処理装置10の効果を示す。 コンピュータ1900のハードウェア構成の一例を示す。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、本実施形態の情報処理装置10のブロック図を示す。本実施形態の情報処理装置10は、ソーシャルメディアサービス等の概要欄及びコンテンツの組を取得し、概要欄に含まれる第1キーワード、及び、コンテンツに含まれる第2キーワードの共起関係を学習する。
情報処理装置10は、トピックモデルに基づいて、第1キーワード及び第2キーワードの共起関係を学習する。例えば、情報処理装置10は、第1キーワード及び第2キーワードにトピックを割り当てる。トピックは、文書情報中に共に出現する可能性が高い複数のキーワードをグループ化する単位であってよく、例えば、複数のキーワードに共通するテーマ、又は、話題等に対応するものであってよい。
情報処理装置10は、キーワード取得部100、記憶部102、初期化部110、分類部112、推定部120、割当部140、第1出現度算出部150、トピック確率生成部160、混入関連割合算出部170、及び、第1生成確率算出部180を備える。
キーワード取得部100は、複数のアカウントについて、ユーザが作成した1以上の第1キーワードを含むソーシャルメディアサービス等の概要欄等である第1文書情報を取得し、1以上の第2キーワードを含む当該概要欄に対応するコンテンツである第2文書情報を取得する。キーワード取得部100は、第1文書情報から第1キーワードを抽出し、当該第1文書情報に対応する第2文書情報から第2キーワードを抽出することにより、第1キーワード及び第2キーワードの組を複数組取得する。
キーワード取得部100は、各アカウントについて、第1文書情報から1以上の第1キーワードを抽出し、第1文書情報に対応する第2文書情報から第2キーワードを抽出して、両者の組を生成して取得する。キーワード取得部100は、第1キーワード及び第2キーワードの組を初期化部110に供給する。
記憶部102は、情報処理装置10が処理に用いるデータを記憶する。例えば、記憶部102は、各ユーザにおける第1キーワードに対するトピックの割当状況及び第1キーワードが混入キーワード/関連キーワードであることを示す第1ユーザデータ、各ユーザにおける第2キーワードに対するトピックの割当状況を示す第2ユーザデータ、各ユーザにおけるトピックの生成確率を示す第3ユーザデータθ、全ユーザにおいて各トピックに対する第1キーワードの生成確率を示す第1全体データΨ、全ユーザにおいて各トピックに対する第2キーワードの生成確率を示す第2全体データΦ、全ユーザの全ての第1キーワードにおける混入キーワードの割合を示す第3全体データλ、及び、第2文書情報に対する第1キーワードの生成確率を示す第1キーワード生成確率を格納する。
初期化部110は、情報処理装置10の処理開始時に、第1キーワード及び第2キーワードに予め定められたルール(例えば、ランダム)でトピックを割り当てて、初期化された第1ユーザデータ及び第2ユーザデータを生成する。初期化部110は、生成した第1ユーザデータ及び第2ユーザデータを記憶部102に格納する。
分類部112は、複数の第2キーワードのそれぞれを、複数のトピックのそれぞれに分類する。例えば、分類部112は、第2ユーザデータを記憶部102から取得し、第2ユーザデータにおいて複数の第2キーワードをユーザごとに複数のトピックに再分類し、再分類した結果を記憶部102に第2ユーザデータとして格納する。
推定部120は、キーワード取得部100から受け取った複数の組のそれぞれについて、第1キーワードを、第2キーワードが分類されたトピックに関連する関連キーワード、及び、関連しない混入キーワードのいずれであるかを推定する。例えば、推定部120は、第1キーワードに割り当てられた第1トピック、及び、第2キーワードに割り当てられた第2トピックに基づいて、第1キーワードが関連キーワード、及び、混入キーワードのいずれであるかを推定する。推定部120は、トピック取得部122、合致度算出部124、混入割合取得部126、混入確率算出部128、及び、混入決定部130を有する。
トピック取得部122は、記憶部102の第1ユーザデータを参照することにより、ユーザの第1キーワードについて現在割り当てられている第1トピックを取得する。
合致度算出部124は、記憶部102の第2ユーザデータを参照することにより、ユーザの第2キーワードに現在割り当てられた第2トピックのうち、第1トピックと同一であるトピックの割合であるトピック合致度を算出する。
混入割合取得部126は、記憶部102の第3全体データλに基づいて、全てのユーザの第1文書情報に含まれる第1キーワードのうち混入キーワードであると推定されたものの割合である混入割合を取得する。
混入確率算出部128は、合致度算出部124が算出したトピック合致度、及び、混入割合取得部126が取得した混入割合に基づいて、第1キーワードが混入キーワードである混入確率、及び、第1キーワードが関連キーワードである関連確率を算出する。混入確率算出部128による具体的な算出方法は後述する。
混入決定部130は、混入確率算出部128が算出した混入確率、及び、関連確率に基づいて、第1キーワードが関連キーワード又は混入キーワードであると決定する。例えば、混入決定部130は、混入確率に等しい確率で第1キーワードが混入キーワードであると決定し、関連確率に等しい確率で第1キーワードが関連キーワードであると決定する。混入決定部130は、第1キーワードを関連キーワード又は混入キーワードと決定した結果に基づき、記憶部102の第1ユーザデータを更新する。
割当部140は、関連キーワードであると推定された第1キーワードを、同じ組の第2キーワードが分類されたトピックに優先的に割り当て、混入キーワードであると推定された第1キーワードを分類対象となるトピックのうちのいずれかに割り当てる。例えば、割当部140は、記憶部102から第2ユーザデータを取得し、第2ユーザデータに基づいて、第1キーワードにトピックを割り当ててよい。割当部140によるトピックの割り当ての具体的な内容は後述する。割当部140は、第1キーワードに割り当てられたトピックを反映させて、記憶部102の第1ユーザデータを更新する。
第1出現度算出部150は、全てのユーザの第1文書情報において、各トピックにおける第1キーワードの出現しやすさを算出する。第1出現度算出部150は、第1キーワードの出現しやすさをトピックごとに記録した第1全体データΨを記憶部102に格納する。
トピック確率生成部160は、各ユーザの第2文書情報における各トピックのそれぞれを生成する確率を生成する。トピック確率生成部160は、トピックの生成確率をユーザごとに記録した第3ユーザデータθを記憶部102に格納する。
また、トピック確率生成部160は、全てのユーザの第2文書情報において、各第2トピックにおける第2キーワードの出現しやすさを算出する。トピック確率生成部160は、第2キーワードの出現しやすさを第2トピックごとに記録した第2全体データΦを記憶部102に格納する。
混入関連割合算出部170は、全ユーザの全ての第1キーワードにおける混入キーワードの割合を示す第3全体データλを生成して、記憶部102に格納する。
第1生成確率算出部180は、第2文書情報において第1キーワードが付与される確率を表す第1キーワード生成確率を算出する。例えば、第1生成確率算出部180は、第3ユーザデータθ及び第1全体データΨに基づいて、第1キーワード生成確率を算出する。第1生成確率算出部180は、第1キーワード生成確率を記憶部102に格納する。
このように本実施形態の情報処理装置10は、第1生成確率算出部180が算出した第1キーワード生成確率により、コンテンツに対応する概要等で使用される第1キーワードを推定することができる。ここで、情報処理装置10は、第1キーワードが混入キーワードである場合に、第1キーワードに混入キーワード専用のトピックを割り当てずに、いずれかのトピックを第1キーワードに割り当てる。
これにより、情報処理装置10は、第1キーワードがあるユーザにとって混入キーワードであり別のユーザにとって関連キーワードである場合にも、第1キーワードに適切なトピックを割り当てることができるので、精度よく第1キーワードを推定することができる。
図2は、本実施形態の情報処理装置10の処理フローを示す。本実施形態において、情報処理装置10は、S100〜S240の処理を実行する。
まず、S100において、キーワード取得部100が第1キーワード及び第2キーワードの組を複数組取得する。例えば、キーワード取得部100は、記憶部102又は情報処理装置10の外部のデータベース等から、ユーザがソーシャルメディアサービス、ブログサイト、及び/又はその他の投稿サイト等に投稿した投稿情報を取得する。
次に、キーワード取得部100は、投稿情報から概要欄、及び、プロフィール等のコンテンツ又はユーザを紹介する文書を第1文書情報として取得し、コンテンツを第2文書情報として取得する。
図3に、キーワード取得部100が取得する第1文書情報及び第2文書情報の一例を示す。図示するように、キーワード取得部100は、複数のユーザについて、第1文書情報及び第2文書情報を含む文書を取得する。図示するように、キーワード取得部100は、ユーザA〜Cがソーシャルメディアサービスに投稿した、概要欄(第1文書情報)及び、コンテンツ(第2文書情報)を含む文書d1〜d3を取得する。
キーワード取得部100は、第1文書情報に含まれる単語を第1キーワードとして取得する。例えば、図示するように、キーワード取得部100は、ユーザAの第1文書情報として「育児と仕事に奮闘中の二児の母です」というテキストを取得した場合、第1キーワードとして「育児」、「仕事」、「奮闘中」、「二児」、及び「母」を取得してよい。なお、第1文書情報がタグ等の単語の羅列である場合、キーワード取得部100は、タグのそれぞれをそのまま第1キーワードとして取得してよい。
キーワード取得部100は、第2文書情報に含まれる単語を第2キーワードとして取得する。例えば、図示するように、キーワード取得部100は、ユーザAの第2文書情報として「○○町の保育園を見てきました。」というテキストを取得した場合、第2キーワードとして「○○町」、及び「保育園」を取得してよい。
キーワード取得部100は、一のユーザから取得した第1キーワード及び第2キーワードから組を形成して取得する。例えば、キーワード取得部100は、ユーザAの文書d1について取得した「育児」等の第1キーワードと「○○町」等の第2キーワードとを組にして取得する。キーワード取得部100は、複数の第1キーワード及び第2キーワードの組を分類部112、推定部120、及び、初期化部110に供給する。
図2に戻り、次に、S110において、初期化部110は、第1ユーザデータ及び第2ユーザデータを初期化する。例えば、初期化部110は、キーワード取得部100から取得した第1キーワードの各々にランダムにK個(Kは予め定められた2以上の整数)のトピックのうちの1つを割り当てて、各第1キーワードにランダムに関連キーワード又は混入キーワードを割り当てた第1ユーザデータを生成する。
また、初期化部110は、処理に用いる調整用のパラメータを予め定められた、又は、情報処理装置10のユーザから与えられた値に設定する。例えば、初期化部110は、パラメータα、β、γ、及び、ηの値を設定してよい。
また、例えば、初期化部110は、情報処理装置10の処理開始時において、キーワード取得部100から取得した第2キーワードの各々にランダムにK個のトピックのうちの1つを割り当てた第2ユーザデータを生成する。初期化部110は、生成した第1ユーザデータ及び第2ユーザデータを記憶部102に格納する。
図4に、記憶部102が保持する第1ユーザデータの一例を示す。図示するように記憶部102は、ユーザA〜Cごとに、1以上の第1キーワード、当該第1キーワードに割り当てられたトピック、及び、当該第1キーワードが関連キーワード又は混入キーワードであるかを示す情報を有する、第1ユーザデータを格納する。
例えば、図示するように、記憶部102は、1番目の文書(ユーザA)に係る第1キーワード「野球」が2番目のトピックに割り当てられた混入キーワードであることを示すレコードを、第1ユーザデータとして保持する。なお、図4は、説明のために2番目のトピックが「趣味」に関するものであることを示すが、情報処理装置10は各トピックの意味に関する情報を取得及び保持しなくてよい。
図5に、記憶部102が保持する第2ユーザデータの一例を示す。図示するように記憶部102は、ユーザA〜Cごとに、1以上の第2キーワード、及び、当該第2キーワードに割り当てられたトピックを有する、第2ユーザデータを格納する。
例えば、図示するように、記憶部102は、1番目の文書(ユーザA)に第2キーワード「公園」が1番目のトピックに割り当てられたことを示すレコードを第2ユーザデータとして保持する。
図2に戻り、次に、S120において、情報処理装置10は、S130〜S230までの処理を含む第1ループ処理を予め定められた回数実行する。
第1ループ処理内のS130において、情報処理装置10は、S140〜S220までの処理を含む第2ループ処理を第1キーワード及び第2キーワードの組ごとに実行する。すなわち、情報処理装置10は、対象となるユーザごとに第2ループ処理を実行する。ここでは、d番目のユーザdについて第2ループ処理を実行するものとして説明する。
情報処理装置10は、一のユーザが複数の第1文書情報及び第2文書情報の組を生成する場合(例えば、単一のユーザが複数のアカウントでブログ記事を生成することを想定する場合等)は、第1文書情報及び第2文書情報の組ごとに第2ループ処理を実行してよい。すなわち、この場合、情報処理装置10は、一のユーザに対して複数回第2ループ処理を実行する。
第2ループ処理内のS140において、情報処理装置10は、S150の処理を含む第3ループ処理を第2キーワードごとに実行する。ここでは、j番目の第2キーワードwについて第3ループ処理を実行するものとして説明する。
第3ループ処理内のS150において、分類部112は、処理対象のユーザdについて、第2キーワードwを、複数のトピックのそれぞれに分類することで、第2キーワードwに割り当てられる第2トピックzを決定する。例えば、分類部112は、図3のユーザAに係る第2キーワードw「○○町」に割り当てられる第2トピックzを決定し、第2キーワードw「保育園」に割り当てられる第2トピックzを決定する。
分類部112は、対象となるユーザの第2キーワードwのうち第2トピックとしてある一のトピックに割り当てられた数、対象となるユーザの第2キーワードの数、一の第2キーワードが当該一のトピックに割り当てられた数、当該一のトピックに割り当てられた第2キーワードの数、及び、全ユーザの第2キーワードの総数に基づいて、当該一の第2キーワードが当該一のトピックに割り当てられるか否かを決定する。
一例として、分類部112は、記憶部102から第1ユーザデータ及び第2ユーザデータを取得し、数式(1)に基づいてトピックzを決定する。即ち、分類部112は、数式(1)の右辺の式に比例する左辺P(z=k|W,T,Z\j,C,R)の確率で、j番目の第2キーワードwにk番目(1≦k≦K)のトピックを第2トピックzとして割り当てる。
Figure 2015191373
なお、Nkd\jは、d番目のユーザdの第2文書情報中の第2キーワード(ただし、j番目の第2キーワードwは除く)によりk番目のトピックkが生成された回数を表し、Nd\jは、ユーザdの第2文書情報の第2キーワード(ただし、j番目の第2キーワードwは除く)の総数を表す。また、Nkwj\jは、k番目のトピックkがj番目の第2キーワードwを生成した回数を表し、Nk\jはトピックkが生成した第2キーワード(ただし、j番目の第2キーワードwは除く)の総数を表し、Wは全ユーザの第2キーワードの異なり数を表す。
数式(1)は、数式(2)〜(7)に基づき、非特許文献2と同様の方法により導出される。
Figure 2015191373
Figure 2015191373
kdは、d番目のユーザdの第2文書情報中の第2キーワードによりk番目のトピックkが生成された回数を表し、Kはトピックの総数を表し、Nはユーザdの第2文書情報の第2キーワードの総数を表す。
Figure 2015191373
kwは、k番目のトピックkがw番目の第2キーワードwを生成した回数を表し、Nはトピックkが生成した第2キーワードの総数を表す。
Figure 2015191373
k,tはt番目の第1キーワードがk番目のトピックkから生成された回数を表し、Mはk番目のトピックkが生成した第1キーワードの総数を表し、Tは全ユーザの第1キーワードの異なり数を表す。なお、当該数式(5)と対応する非特許文献2における数式(4)は、数式(5)と異なる。これは、非特許文献2においては、通常のK個のトピックに加え、混入キーワード用のトピックが存在することによるものである。
Figure 2015191373
Mは第1キーワードの総数を表し、Mは全ユーザの第1キーワードにおける混入キーワードの数を表し、ηは予め定められたパラメータを表す。
Figure 2015191373
(k) 0,dはd番目のユーザdの第2文書情報中でk番目のトピックkから生成された混入キーワードの数を表し、M(k) 1,dはd番目のユーザdの第2文書情報中でk番目のトピックkから生成された関連キーワードの数を表す。なお、当該数式(7)と対応する非特許文献2における数式(6)は、数式(7)と異なる。これは、非特許文献2においては、関連/混入キーワードの判定結果Rが、第1キーワードTの生成に直接影響を与える、という前提であったのに対し、本発明では第1キーワードのトピックCに影響を与えるという前提になっているためである。
第2ループ処理内のS160において、情報処理装置10は、S170〜S220の処理を含む第4ループ処理を第1キーワードごとに実行する。ここでは、j番目の第1キーワードtについて第4ループ処理を実行するものとして説明する。
第4ループ処理において、推定部120は、第1キーワードtが関連キーワード、及び、関連しない混入キーワードのいずれであるかを推定し、推定結果に基づき割当部140が第1キーワードtをいずれかのトピックに割り当てる。
第4ループ処理内のS170において、トピック取得部122は、対象となるユーザdの第1キーワードtについて第1トピックを取得する。例えば、トピック取得部122は、記憶部102の第1ユーザデータを参照することにより、対象となるユーザdの第1キーワードtに現在割り当てられているトピックの番号を第1トピックとして取得する。一例として、トピック取得部122は、第1キーワードtに対してc番目のトピックを取得したときは、第1トピックcを取得する。
次に、S180において、合致度算出部124は、ユーザdの第2キーワードに割り当てられた第2トピックのうち、第1トピックcと同一であるトピックの割合であるトピック合致度を算出する。例えば、合致度算出部124は、記憶部102の第2ユーザデータを参照することにより、ユーザdの複数の第2キーワードに現在割り当てられているトピックを第2トピックとして取得し、ユーザdに係る第2キーワードに割り当てられた第2トピックのうち第1トピックcと同一である割合をトピック合致度として算出する。
次に、S190において、混入割合取得部126は、全てのユーザの第1文書情報に含まれる第1キーワードが混入キーワードを含む割合である混入割合を取得する。例えば、混入割合取得部126は、記憶部102の第3全体データから全ユーザの第1キーワードのうち混入キーワードを含む割合と相関する混入割合、及び、全ユーザの第1キーワードのうち関連キーワードを含む割合と相関する関連割合を取得する。
例えば、混入割合取得部126は、全ユーザの第1キーワード(但し、j番目の第1キーワードtを除く)に含まれる混入キーワードの総数M0\jにパラメータηを加算した値を分子とし、全ユーザの第1キーワードの総数M\j(但し、j番目の第1キーワードtを除く)に2ηを加算した値を分母とする混入割合を取得する。
また、混入割合取得部126は、全てのユーザの第1文書情報に含まれる第1キーワードが関連キーワードを含む割合である関連割合を取得する。例えば、混入割合取得部126は、全ユーザの第1キーワード(但し、j番目の第1キーワードtを除く)に含まれる関連キーワードの総数を表す、M\jからM0\jを減じた値にηを加算した値を分子とし、M\jに2ηを加算した値を分母とする関連割合を取得する。
図6に、混入割合取得部126が取得する第3全体データλの一例を示す。図示するように、記憶部102は、全ユーザの第1キーワードにおける混入キーワードの総数、及び、関連キーワードの総数を含む第3全体データλを格納してよい。ここで、記憶部102は、ηを含む/ηを含まない混入キーワードの混入割合を含む第3全体データλを格納してよい。
図2に戻り、S200において、混入確率算出部128は、S180で合致度算出部124が算出したトピック合致度、及び、S190で混入割合取得部126が取得した混入割合等に基づいて、第1キーワードtが混入キーワードである混入確率、及び、第1キーワードtが関連キーワードである関連確率を算出する。
混入確率算出部128は、全ユーザの第1キーワードに含まれる混入キーワードの総数、全ユーザの第1キーワードの総数、d番目のユーザdの第2キーワードの総数、d番目のユーザdの第1トピックが割り当てられた第1キーワードの総数、及び、トピックの総数に基づいて、第1キーワードの混入確率及び関連確率を算出してよい。
一例として、混入確率算出部128は、記憶部102から第1ユーザデータ及び第2ユーザデータを取得して、数式(8)及び数式(9)に基づいて、j番目の第1キーワードtが混入確率を決定する。例えば、混入確率算出部128は、数式(8)の右辺、及び、数式(9)の右辺を算出し、両者の和を1に正規化することにより、第1キーワードtが混入キーワードである混入確率P(r=0|Z,W,T,C,R\j;α,β,γ,η)、及び、第1キーワードtが関連キーワードである関連確率P(r=1|Z,W,T,C,R\j;α,β,γ,η)を算出してよい。
Figure 2015191373
Figure 2015191373
Mは第1キーワードの総数を表し、Mは全ユーザの第1キーワードにおける混入キーワードの数を表し、ηは予め定められたパラメータを表す。M0\jは全ユーザの第1キーワード(但し、j番目の第1キーワードtを除く)に含まれる混入キーワードの総数を表し、M\jは全ユーザの第1キーワード(但し、j番目の第1キーワードtを除く)の総数を表し、cはS170でトピック取得部122が取得した第1トピックの番号を表す。
ここで、数式(8)の(M0\j+η)/(M\j+2η)の項は、S190で混入割合取得部126が算出した混入割合に対応し、数式(9)の(M\j−M0\j+η)/(Md\j+2η)の項は関連割合に対応する。また、数式(9)のNcj,dは、d番目のユーザdの第2キーワードの中でトピックcが生成された総数を表し、Ncj,d/NはS180で合致度算出部124が算出したトピック合致度に対応する。
次にS210において、混入決定部130は、混入確率算出部128が算出した混入確率、及び、関連確率に基づいて、第1キーワードtが関連キーワード又は混入キーワードであると決定する。例えば、混入決定部130は、混入確率に等しい確率で第1キーワードtが混入キーワードであると決定し、関連確率に等しい確率で第1キーワードtが関連キーワードであると決定する。
次にS220において、割当部140は、関連キーワードであると推定された第1キーワードtを、同じ組の(すなわち、同じユーザdの)第2キーワードが分類されたトピックに優先的に割り当て、混入キーワードであると推定された第1キーワードtをいずれかのトピックに割り当てる。
例えば、割当部140は、第2ユーザデータにおける第2キーワードが各トピックに分類される割合に応じて、関連キーワードであると推定された同じ組の第1キーワードtをどのトピックに割り当てるかを決定してよい。
また、例えば、割当部140は、混入キーワードであると推定された第1キーワードtを、第2ユーザデータにおける第2キーワードが各トピックに分類される割合に依らずどのトピックに割り当てるかを決定してよい。
一例として、割当部140は、記憶部102から第2ユーザデータを取得し、数式(10)及び数式(11)に基づいて、第1キーワードtに新しく割り当てるトピックcを決定してよい。すなわち、第1キーワードtが関連キーワードである場合、割当部140は、数式(10)の右辺の式に比例する左辺P(c=k|rj=1,Z,W,T,C\j,R\j;α,β,γ,η)の確率で、第1キーワードtにk番目(1≦k≦K)のトピックを新しい第1トピックcとして割り当てる。
Figure 2015191373
k,tj\jは全ユーザーの中で第1キーワードtと同じ第1キーワード(ただし、t自身を除く)にk番目のトピックkが割り当てられた数を表し、Mk\jは全ユーザーの全ての第1キーワード(ただし、第1キーワードtを除く)の中でk番目のトピックkが割り当てられた数を表し、Tは全ユーザの第1キーワードの総異なり数を表す。パラメータγは全第1キーワードに対して予め与えられた共通の値であってよく、これに代えて第1キーワードごとに予め設定された値γであってもよい。
第1キーワードtが関連キーワードである場合、数式(10)のNk,d/Nの項が示すように、第1キーワードtと組となる第2キーワードに多く割り当てられるトピックは、割当部140が新しい第1トピックとして割り当てる確率が大きくなる。従って、第1キーワードtが関連キーワードである場合、新しい第1トピックは、第2キーワードが割り当てられたトピックの数(すなわち、コンテンツ等の第2文書情報の内容)に依存する。
また、第1キーワードtが混入キーワードである場合、割当部140は、数式(11)の右辺の式に比例する左辺P(c=k|rj=0,Z,W,T,C\j,R\j;α,β,γ,η)の確率で、第1キーワードtにk番目(1≦k≦K)のトピックを新しい第1トピックcとして割り当てる。
Figure 2015191373
数式(11)はNk,d/Nの項の項を含まない。従って、第1キーワードtが混入キーワードである場合、新しい第1トピックは、第2キーワードが割り当てられたトピックの数(すなわち、コンテンツ等の第2文書情報の内容)に依存せず、第1キーワードtに新しい第1トピックを割り当てる。
ここで、割当部140がユーザdの第1キーワードtに割り当てた第1トピックcは、混入キーワード専用のトピックではないので、関連キーワードである他のユーザの第1キーワードtに当該第1トピックcと同じトピックが第1トピックcとして割り当てられ得る。従って、割当部140は、あるユーザにとって混入キーワードであるが、他のユーザにとっては関連キーワードとなり得る第1キーワードに適切にトピックを割り当てることができる。割当部140は、第1キーワードに割り当てられたトピックを反映させて、記憶部102の第1ユーザデータを更新する。
第1ループ処理内のS230において、情報処理装置10は、第1全体データ、第2全体データ、第3全体データ、及び、第3ユーザデータを更新する。
例えば、第1出現度算出部150は、全てのユーザの第1文書情報において、各トピックにおける第1キーワードの出現しやすさを算出する。第1出現度算出部150は、第1キーワードの出現しやすさをトピックごとに記録した第1全体データΨを記憶部102に格納する。
一例として、第1出現度算出部150は、全てのユーザの第1文書情報において、k番目のトピックk(kは1以上K以下の予め定められた整数)におけるt番目の第1キーワードt(tは1以上の整数)の出現しやすさを示す実数値Ψk,tを数式(12)により算出し、k=1〜K及びt=1〜TのΨk,tからT次元の実数値ベクトルK個の集合を第1全体データΨとして生成する。
Figure 2015191373
図7に、第1出現度算出部150が生成する第1全体データΨの一例を示す。図示するように、第1出現度算出部150は、トピックごとに、第1キーワードの生成される確率を表す第1全体データΨを生成してよい。
例えば、第1出現度算出部150は、トピック1(例えば、育児に関するトピック)が第1キーワード「教育」を生成する確率が30%で、トピック1が第2キーワード「育児」を生成する確率が25%で、トピック1が第1キーワード「保活」を生成する確率が10%で、トピック1が第1キーワード「子供」を生成する確率が8%であることを示す第1全体データΨを生成してよい。なお、第1全体データΨは、第1キーワードが生成する確率でなくてもよく、他の第1キーワードの生成しやすさを表す指標値であってよい。
図2に戻り、S230において、トピック確率生成部160は、全てのユーザの第2文書情報において、各第2トピックにおける第2キーワードの出現しやすさを算出する。トピック確率生成部160は、第2キーワードの出現しやすさを第2トピックごとに記録した第2全体データΦを記憶部102に格納する。
一例として、トピック確率生成部160は、k番目のトピックkにおけるw番目の第2キーワードの出現しやすさを表す実数値φk,wを数式(13)により算出し、k=1〜K及びw=1〜Wのφk,wからW次元の実数値ベクトルK個の集合を第2全体データφとして生成する。
Figure 2015191373
βは全第2キーワードに対して予め与えられた共通のパラメータであってよく、これに代えて第2キーワードごとに予め設定されたパラメータβが用いられてもよい。
図8に、トピック確率生成部160が生成する第2全体データφの一例を示す。図示するように、トピック確率生成部160は、トピックごとに、第2キーワードの生成される確率を表す第2全体データΦを生成してよい。例えば、トピック確率生成部160は、トピック1(例えば、育児に関するトピック)が第2キーワード「育児」を生成する確率が45%で、トピック1が第2キーワード「教育」を生成する確率が22%で、トピック1が第2キーワード「保活」を生成する確率が15%で、トピック1が第2キーワード「子供」を生成する確率が7%であることを示す第2全体データφを生成してよい。なお、第2全体データφは、第2キーワードが生成する確率でなくてもよく、他の第2キーワードの生成しやすさを表す指標値であってよい。
また、図2のS230において、トピック確率生成部160は、各ユーザの第2文書情報における各トピックのそれぞれを生成する確率を生成する。トピック確率生成部160は、トピックの生成確率をユーザごとに記録した第3ユーザデータθを記憶部102に格納する。
例えば、トピック確率生成部160は、d番目のユーザに係る第2文書情報d(dは1以上かつ第2文書情報の総数D以下の整数)におけるk番目のトピックkのそれぞれを生成する確率θd,kを数式(14)により算出し、k=1〜K及びd=1〜Dのθd,kからK次元の実数値ベクトルD個の集合を第3ユーザデータθとして生成する。なお、数式(14)の導出過程は、非特許文献2に記載される。
Figure 2015191373
αは全トピックに対して予め与えられた共通のパラメータであってよく、これに代えてトピックごとに予め設定されたパラメータαが用いられてもよい。
図9に、トピック確率生成部160が生成する第3ユーザデータθの一例を示す。図示するように、トピック確率生成部160は、ユーザごとに、第2文書情報における各トピックの生成される確率を表す第3ユーザデータθを生成してよい。例えば、トピック確率生成部160は、ユーザAがトピック1を生成する確率が20%で、トピック2を生成する確率が45%で、トピック3を生成する確率が10%で、トピック4を生成する確率が18%であることを示す第3ユーザデータθを生成してよい。なお、第3ユーザデータθは、トピックを生成する確率でなくてもよく、他のトピックの生成しやすさを表す指標値であってよい。
更に、図2のS230において、混入関連割合算出部170は、全ユーザの全ての第1キーワードにおける混入キーワードの割合を示す第3全体データλを生成する。例えば、混入関連割合算出部170は、第1ユーザデータから、全ユーザの第1キーワードのうち関連キーワードとされている数、及び、全ユーザの第1キーワードのうち混入キーワードとされている第1キーワードの数、及び、全ユーザの第1キーワードの合計のうち混入キーワードの割合を算出した0〜1の範囲の実数値を第3全体データλとする。混入関連割合算出部170は、第3全体データλを記憶部102に格納する。
S240において、第1生成確率算出部180は、第2文書情報において第1キーワードが付与される確率を表す第1キーワード生成確率を算出する。例えば、第1生成確率算出部180は、第3ユーザデータθ及び第1全体データΨに基づいて、第1キーワード生成確率を算出する。
一例として、第1生成確率算出部180は、d番目のユーザに係る第2文書情報dにおいてトピックkごとのθdkΨktを合算することにより、当該第2文書情報dにおいてt番目の第1キーワードが付与される第1キーワード生成確率P(t|d,D)を数式(15)に基づいて算出する。
Figure 2015191373
すなわち、第1生成確率算出部180は、ユーザdがk番目のトピックkを生成する確率θd,k、及び、k番目のトピックkにおけるt番目の第1キーワードの出現しやすさΨk,tを乗じた値をk=1,...,Kについて算出して総和を得ることにより、第1キーワード生成確率P(t|d,D)を生成する。第1生成確率算出部180は、第1キーワード生成確率を記憶部102に格納する。
図10は、第1生成確率算出部180が生成する第1キーワード生成確率の一例を示す。図示するように、第1生成確率算出部180は、ユーザごとの各第1キーワードの生成確率を含む第1キーワード生成確率を生成してよい。例えば、第1生成確率算出部180は、ユーザAの第2文書情報から第1キーワード「教育」が95%の確率で生成し、第1キーワード「職場」が4%の確率で生成し、ユーザBの第2文書情報から第1キーワード「スポーツ」が40%の確率で生成し、第1キーワード「子供」が30%の確率で生成することを示す第1キーワード生成確率を生成してよい。
このように、本実施形態の情報処理装置10は、第1キーワード及び第2キーワードにトピックを暫定的に割り当てて初期化した後に、ユーザごとに第1キーワード及び第2キーワードのトピックの割り当てを更新する第2ループ処理を第1ループ処理内で繰り返し実行する。これにより、情報処理装置10は、第1キーワード及び第2キーワードに対するトピックの割当の精度を向上させることができる。
また、情報処理装置10は、第1キーワードが混入キーワードである場合に、第1キーワードに混入キーワード専用のトピックを割り当てずに、関連キーワードである第1キーワードに割り当てられ得るトピックを第1キーワードに割り当てる。これにより、情報処理装置10は、第1キーワードが、あるユーザにとって混入キーワードであり別のユーザにとって関連キーワードである場合にも、第1キーワードに適切なトピックを割り当てることができる。
図11は、本実施形態に係るトピックモデルの一例を示す。図11(a)は非特許文献2の手法におけるトピックモデルを示し、図11(b)は本実施形態におけるトピックモデルを示す。
ここで、zは第2キーワードを生成するトピックに係る。rは第1キーワードが1〜K番のいずれかのトピックから生成される関連キーワードのときに1となり、ノイズ用の0番のトピックから生成される混入キーワードのときに0となるフラグを示す。cはrが1のときに第1キーワードを生成するトピックに係る1〜Kの整数値である。wは、ある第2文書情報Nから抽出された第2キーワードであり、tはある第1文書情報Mから抽出される第1キーワードである。
また、θはユーザDのトピック生成確率(トピック数K次元の実数値ベクトル)を示し、λは全ての第1キーワードにおける混入キーワードの割合(0〜1の実数値)を示し、φは全ユーザの各トピックが各第2キーワードを生成する確率(全第2キーワードの数W次元の実数値ベクトル×トピック数K個)を示し、Ψは全ユーザの各トピックが第1キーワードを生成する確率(全第1キーワードの数T次元の実数値ベクトル×K個又はK+1個)を示す。
図11(a)及び(b)に示すように、パラメータαは第3ユーザデータθに影響を与え、パラメータηは第3全体データλに影響を与え、パラメータβは第2全体データΦに影響を与え、パラメータγは第1全体データΨに影響を与える。図示するように第2キーワードwはトピックzから生成され、トピックcはトピックzから生成さる。
ここで、図11(a)に示す非特許文献2に係るモデルでは、第1キーワードtはトピックc及びフラグrから生成される。すなわち、第1キーワードtはフラグr(r=0)から生成される混入キーワード又はフラグr(r=1)及びトピックc(c=1〜K)から生成される関連キーワードとなる。
一方で、図11(b)に示すように、本実施形態に係るモデルでは、第1キーワードtはトピックc生成され、トピックcはフラグr及びトピックzから生成される。すなわち、第1キーワードtが混入キーワードであるか関連キーワードであるかにかかわらず第1キーワードtには必ず1〜Kのいずれかとなるトピックcが与えられる。
ここで、本実施形態の情報処理装置10は、ソーシャルメディアサービス等のコンテンツからユーザに付与すべきタグ等の第1キーワードを推定するだけなく、FAQ検索に利用することができる。例えば、情報処理装置10は、「X社の端末に機種変更するにはどうしたらよいですか?」等の質問を第2文書情報として取得し、当該第2文書情報に対応する第1キーワードを取得し、第1キーワードを含むFAQ文書を検索することで、質問に対応する回答が記載されるFAQ文書を出力することができる。
また、例えば、情報処理装置10は、質問文Qを第1文書情報(又は第1キーワード)、回答Aを第2文書情報(又は第2キーワード)として取得することで、回答Aから対応する質問文Q(又は質問文Qに使用されるキーワード)を推定することができる。
図12は、本実施形態の情報処理装置10の効果を示す。図12は、予め関連キーワード及び混入キーワードが判明している第1文書情報及び第2文書情報の組を、本実施形態の情報処理装置10による方法、及び、非特許文献2の方法により処理し、第2文書情報から対応する第1キーワードを推定させた結果を示す。
グラフの縦軸は、第1キーワードの推定精度を示し、数値が低いほど第1キーワードの推定精度が高いことを表す。グラフの横軸は、処理対象の第1文書情報及び第2文書情報の組における、混入キーワードが含まれる割合を示す。図中の○プロットは情報処理装置10による方法の結果を示し、△プロットは非特許文献2の方法による結果を示す。
図12に示されるように、情報処理装置10によると全体的に非特許文献2の方法よりも高い第1キーワードの推定精度を示す。すなわち、情報処理装置10によると第2文書情報と当該第2文書情報に対応する第1キーワードとをより高い精度で学習させることができる。特に、情報処理装置10によると、混入キーワードの割合が2割から9割の範囲となる場合において顕著に優れた効果を得られた。
図13は、情報処理装置10として機能するコンピュータ1900のハードウェア構成の一例を示す。本実施形態に係るコンピュータ1900は、ホスト・コントローラ2082により相互に接続されるCPU2000、RAM2020、グラフィック・コントローラ2075、及び表示装置2080を有するCPU周辺部と、入出力コントローラ2084によりホスト・コントローラ2082に接続される通信インターフェイス2030、ハードディスクドライブ2040、及びCD−ROMドライブ2060を有する入出力部と、入出力コントローラ2084に接続されるROM2010、フレキシブルディスク・ドライブ2050、及び入出力チップ2070を有するレガシー入出力部を備える。
ホスト・コントローラ2082は、RAM2020と、高い転送レートでRAM2020をアクセスするCPU2000及びグラフィック・コントローラ2075とを接続する。CPU2000は、ROM2010及びRAM2020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ2075は、CPU2000等がRAM2020内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置2080上に表示させる。これに代えて、グラフィック・コントローラ2075は、CPU2000等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
入出力コントローラ2084は、ホスト・コントローラ2082と、比較的高速な入出力装置である通信インターフェイス2030、ハードディスクドライブ2040、CD−ROMドライブ2060を接続する。通信インターフェイス2030は、有線又は無線によりネットワークを介して他の装置と通信する。また、通信インターフェイスは、通信を行うハードウェアとして機能する。ハードディスクドライブ2040は、コンピュータ1900内のCPU2000が使用するプログラム及びデータを格納する。CD−ROMドライブ2060は、CD−ROM2095からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。
また、入出力コントローラ2084には、ROM2010と、フレキシブルディスク・ドライブ2050、及び入出力チップ2070の比較的低速な入出力装置とが接続される。ROM2010は、コンピュータ1900が起動時に実行するブート・プログラム、及び/又は、コンピュータ1900のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ2050は、フレキシブルディスク2090からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。入出力チップ2070は、フレキシブルディスク・ドライブ2050を入出力コントローラ2084へと接続するとともに、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を入出力コントローラ2084へと接続する。
RAM2020を介してハードディスクドライブ2040に提供されるプログラムは、フレキシブルディスク2090、CD−ROM2095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、RAM2020を介してコンピュータ1900内のハードディスクドライブ2040にインストールされ、CPU2000において実行される。
コンピュータ1900にインストールされ、コンピュータ1900を情報処理装置10として機能させるプログラムは、キーワード取得モジュール、記憶モジュール、分類モジュール、初期化モジュール、推定モジュール、トピック取得モジュール、合致度算出モジュール、混入割合取得モジュール、混入確率算出モジュール、混入決定モジュール、割当モジュール、第1出現度算出モジュール、トピック確率生成モジュール、混入関連割合算出モジュール、第1生成確率算出モジュールを備える。これらのプログラム又はモジュールは、CPU2000等に働きかけて、コンピュータ1900を、キーワード取得部100、記憶部102、分類部112、初期化部110、推定部120、トピック取得部122、合致度算出部124、混入割合取得部126、混入確率算出部128、混入決定部130、割当部140、第1出現度算出部150、トピック確率生成部160、混入関連割合算出部170、第1生成確率算出部180としてそれぞれ機能させてよい。
これらのプログラムに記述された情報処理は、コンピュータ1900に読込まれることにより、ソフトウェアと上述した各種のハードウェア資源とが協働した具体的手段であるキーワード取得部100、記憶部102、分類部112、初期化部110、推定部120、トピック取得部122、合致度算出部124、混入割合取得部126、混入確率算出部128、混入決定部130、割当部140、第1出現度算出部150、トピック確率生成部160、混入関連割合算出部170、第1生成確率算出部180として機能する。そして、これらの具体的手段によって、本実施形態におけるコンピュータ1900の使用目的に応じた情報の演算又は加工を実現することにより、使用目的に応じた特有の情報処理装置10が構築される。
一例として、コンピュータ1900と外部の装置等との間で通信を行う場合には、CPU2000は、RAM2020上にロードされた通信プログラムを実行し、通信プログラムに記述された処理内容に基づいて、通信インターフェイス2030に対して通信処理を指示する。通信インターフェイス2030は、CPU2000の制御を受けて、RAM2020、ハードディスクドライブ2040、フレキシブルディスク2090、又はCD−ROM2095等の記憶部102として機能してよい記憶装置上に設けた送信バッファ領域等に記憶された送信データを読み出してネットワークへと送信し、もしくは、ネットワークから受信した受信データを記憶装置上に設けた受信バッファ領域等へと書き込む。このように、通信インターフェイス2030は、DMA(ダイレクト・メモリ・アクセス)方式により記憶装置との間で送受信データを転送してもよく、これに代えて、CPU2000が転送元の記憶装置又は通信インターフェイス2030からデータを読み出し、転送先の通信インターフェイス2030又は記憶装置へとデータを書き込むことにより送受信データを転送してもよい。
また、CPU2000は、ハードディスクドライブ2040、CD−ROMドライブ2060(CD−ROM2095)、フレキシブルディスク・ドライブ2050(フレキシブルディスク2090)等の記憶部102として機能してよい外部記憶装置に格納されたファイルまたはデータベース等の中から、全部または必要な部分をDMA転送等によりRAM2020へと読み込ませ、RAM2020上のデータに対して各種の処理を行う。そして、CPU2000は、処理を終えたデータを、DMA転送等により外部記憶装置へと書き戻す。このような処理において、RAM2020は、外部記憶装置の内容を一時的に保持するものとみなせるから、本実施形態においてはRAM2020及び外部記憶装置等をメモリ、記憶部、または記憶装置等と総称する。
本実施形態における各種のプログラム、データ、テーブル、データベース等の各種の情報は、このような記憶装置上に格納されて、情報処理の対象となる。なお、CPU2000は、RAM2020の一部をキャッシュメモリに保持し、キャッシュメモリ上で読み書きを行うこともできる。このような形態においても、キャッシュメモリはRAM2020の機能の一部を担うから、本実施形態においては、区別して示す場合を除き、キャッシュメモリもRAM2020、メモリ、及び/又は記憶装置に含まれるものとする。
また、CPU2000は、RAM2020から読み出したデータに対して、プログラムの命令列により指定された、本実施形態中に記載した各種の演算、情報の加工、条件判断、情報の検索・置換等を含む各種の処理を行い、RAM2020へと書き戻す。例えば、CPU2000は、条件判断を行う場合においては、本実施形態において示した各種の変数が、他の変数または定数と比較して、大きい、小さい、以上、以下、等しい等の条件を満たすか否かを判断し、条件が成立した場合(又は不成立であった場合)に、異なる命令列へと分岐し、またはサブルーチンを呼び出す。
また、CPU2000は、記憶装置内のファイルまたはデータベース等に格納された情報を検索することができる。例えば、第1属性の属性値に対し第2属性の属性値がそれぞれ対応付けられた複数のエントリが記憶装置に格納されている場合において、CPU2000は、記憶装置に格納されている複数のエントリの中から第1属性の属性値が指定された条件と一致するエントリを検索し、そのエントリに格納されている第2属性の属性値を読み出すことにより、所定の条件を満たす第1属性に対応付けられた第2属性の属性値を得ることができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
10 情報処理装置、100 キーワード取得部、102 記憶部、110 初期化部、112 分類部、120 推定部、122 トピック取得部、124 合致度算出部、126 混入割合取得部、128 混入確率算出部、130 混入決定部、140 割当部、150 第1出現度算出部、160 トピック確率生成部、170 混入関連割合算出部、180 第1生成確率算出部、1900 コンピュータ、2000 CPU、2010 ROM、2020 RAM、2030 通信インターフェイス、2040 ハードディスクドライブ、2050 フレキシブルディスク・ドライブ、2060 CD−ROMドライブ、2070 入出力チップ、2075 グラフィック・コントローラ、2080 表示装置、2082 ホスト・コントローラ、2084 入出力コントローラ、2090 フレキシブルディスク、2095 CD−ROM

Claims (11)

  1. 第1キーワード及び第2キーワードの組を複数組取得するキーワード取得部と、
    複数の第2キーワードのそれぞれを、複数のトピックのそれぞれに分類する分類部と、
    複数の前記組のそれぞれについて、第1キーワードを、第2キーワードが分類されたトピックに関連する関連キーワード、及び、関連しない混入キーワードのいずれであるかを推定する推定部と、
    関連キーワードであると推定された第1キーワードを同じ前記組の第2キーワードが分類されたトピックに優先的に割り当て、混入キーワードであると推定された第1キーワードを分類対象となるトピックのうちのいずれかに割り当てる割当部と、
    を備える情報処理装置。
  2. 前記割当部は、
    第2キーワードが各トピックに分類される割合に応じて、関連キーワードであると推定された同じ組の第1キーワードをどのトピックに割り当てるかを決定し、
    混入キーワードであると推定された第1キーワードを、前記割合に依らずどのトピックに割り当てるかを決定する、
    請求項1に記載の情報処理装置。
  3. 前記キーワード取得部は、ユーザが作成した1以上の前記第1キーワードを含む第1文書情報、及び、1以上の第2キーワードを含む第2文書情報を取得する、
    請求項1又は2に記載の情報処理装置。
  4. 前記推定部は、前記第1キーワードに割り当てられた第1トピック、及び、前記第2キーワードに割り当てられた第2トピックに基づいて、前記第1キーワードが前記関連キーワード、及び、前記混入キーワードのいずれであるかを推定する、
    請求項3に記載の情報処理装置。
  5. 前記推定部は、
    前記第1キーワードについて前記第1トピックを取得するトピック取得部と、
    前記第1トピックと1以上の第2キーワードに割り当てられた前記第2トピックのうち、前記第1トピックと同一であるトピックの割合であるトピック合致度を算出する合致度算出部と、
    全てのユーザの前記第1文書情報に含まれる前記第1キーワードのうち前記混入キーワードであると推定されたものの割合である混入割合を取得する混入割合取得部と、
    前記トピック合致度及び前記混入割合に基づいて前記第1キーワードが混入キーワードである混入確率を算出する混入確率算出部と、
    を有する請求項4に記載の情報処理装置。
  6. 前記推定部は、
    前記混入確率に基づいて、前記第1キーワードが関連キーワード又は混入キーワードであると決定する混入決定部を更に有する、
    請求項5に記載の情報処理装置。
  7. 全てのユーザの前記第1文書情報において、k番目の前記トピックk(kは1以上の予め定められた整数)におけるt番目の前記第1キーワードt(tは1以上の整数)の出現しやすさΨktを算出する第1出現度算出部をさらに備える、
    請求項4から6のいずれか1項に記載の情報処理装置。
  8. 前記第2文書情報d(dは1以上かつ第2文書情報の総数以下の整数)におけるk番目の前記トピックkのそれぞれを生成する確率θdkを生成するトピック確率生成部を更に備える、
    請求項7に記載の情報処理装置。
  9. 一の第2文書情報dにおいてトピックkごとのθdkΨktを合算することにより、前記一の第2文書情報dにおいて第1キーワードtが付与される第1キーワード生成確率P(t|d,D)を算出する第1生成確率算出部を更に備える請求項8に記載の情報処理装置。
  10. コンピュータにより実行される、
    第1キーワード及び第2キーワードの組を複数組取得するキーワード取得段階と、
    複数の第2キーワードのそれぞれを、複数のトピックのそれぞれに分類する分類段階と、
    複数の前記組のそれぞれについて、第1キーワードを、第2キーワードが分類されたトピックに関連する関連キーワード、及び、関連しない混入キーワードのいずれであるかを推定する推定段階と、
    関連キーワードであると推定された第1キーワードを同じ前記組の第2キーワードが分類されたトピックに優先的に割り当て、混入キーワードであると推定された第1キーワードをいずれかのトピックに割り当てる割当段階と、
    を備える情報処理方法。
  11. コンピュータを、情報処理装置として機能させるプログラムであって、
    実行されると当該コンピュータを、
    第1キーワード及び第2キーワードの組を複数組取得するキーワード取得部と、
    複数の第2キーワードのそれぞれを、複数のトピックのそれぞれに分類する分類部と、
    複数の前記組のそれぞれについて、第1キーワードを、第2キーワードが分類されたトピックに関連する関連キーワード、及び、関連しない混入キーワードのいずれであるかを推定する推定部と、
    関連キーワードであると推定された第1キーワードを同じ前記組の第2キーワードが分類されたトピックに優先的に割り当て、混入キーワードであると推定された第1キーワードをいずれかのトピックに割り当てる割当部と、
    として機能させるプログラム。
JP2014067158A 2014-03-27 2014-03-27 情報処理装置、情報処理方法、及び、プログラム Expired - Fee Related JP5975470B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014067158A JP5975470B2 (ja) 2014-03-27 2014-03-27 情報処理装置、情報処理方法、及び、プログラム
US14/635,210 US10380487B2 (en) 2014-03-27 2015-03-02 Information processing using primary and secondary keyword groups
US14/747,011 US10387781B2 (en) 2014-03-27 2015-06-23 Information processing using primary and secondary keyword groups

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014067158A JP5975470B2 (ja) 2014-03-27 2014-03-27 情報処理装置、情報処理方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2015191373A true JP2015191373A (ja) 2015-11-02
JP5975470B2 JP5975470B2 (ja) 2016-08-23

Family

ID=54190883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014067158A Expired - Fee Related JP5975470B2 (ja) 2014-03-27 2014-03-27 情報処理装置、情報処理方法、及び、プログラム

Country Status (2)

Country Link
US (2) US10380487B2 (ja)
JP (1) JP5975470B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11809434B1 (en) 2014-03-11 2023-11-07 Applied Underwriters, Inc. Semantic analysis system for ranking search results
US11176475B1 (en) 2014-03-11 2021-11-16 Applied Underwriters, Inc. Artificial intelligence system for training a classifier
US9971973B1 (en) 2016-05-23 2018-05-15 Applied Underwriters, Inc. Artificial intelligence system for training a classifier
CN106649318B (zh) * 2015-10-29 2020-06-05 北京国双科技有限公司 一种信息展示的方法及装置
US10572726B1 (en) * 2016-10-21 2020-02-25 Digital Research Solutions, Inc. Media summarizer

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237864A (ja) * 2009-03-30 2010-10-21 Nippon Telegr & Teleph Corp <Ntt> アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0315190D0 (en) * 2003-06-28 2003-08-06 Ibm Methods, apparatus and computer programs for visualization and management of data organisation within a data processing system
JP4613346B2 (ja) 2004-09-01 2011-01-19 独立行政法人産業技術総合研究所 キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置
US7599902B2 (en) * 2006-04-27 2009-10-06 Hrl Laboratories, Llc Analogical reasoning system
US7640220B2 (en) * 2006-05-16 2009-12-29 Sony Corporation Optimal taxonomy layer selection method
WO2008097891A2 (en) * 2007-02-02 2008-08-14 Musgrove Technology Enterprises Llc Method and apparatus for aligning multiple taxonomies
US8000956B2 (en) * 2008-02-08 2011-08-16 Xerox Corporation Semantic compatibility checking for automatic correction and discovery of named entities
CN103229223A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 使用多个候选答案评分模型提供问题答案
US20120330869A1 (en) * 2011-06-25 2012-12-27 Jayson Theordore Durham Mental Model Elicitation Device (MMED) Methods and Apparatus
US20130018827A1 (en) * 2011-07-15 2013-01-17 International Business Machines Corporation System and method for automated labeling of text documents using ontologies
JP5791568B2 (ja) 2012-05-30 2015-10-07 日本電信電話株式会社 コンテンツ要約支援装置、順位付け関数学習装置、方法、及びプログラム
US9189742B2 (en) * 2013-11-20 2015-11-17 Justin London Adaptive virtual intelligent agent
IN2014MU00119A (ja) * 2014-01-14 2015-08-28 Tata Consultancy Services Ltd

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237864A (ja) * 2009-03-30 2010-10-21 Nippon Telegr & Teleph Corp <Ntt> アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN7016001644; Tomoharu Iwata,Takeshi Yamada and Naonori Ueda: 'Modeling Noisy Annotated Data with Application to' IEEE Transactions on Knowledge and Data Engineerin Vol.25,No.7, 201307, p.1601-1613, IEEE Educational Activiti *

Also Published As

Publication number Publication date
US10380487B2 (en) 2019-08-13
JP5975470B2 (ja) 2016-08-23
US20150286930A1 (en) 2015-10-08
US20150278702A1 (en) 2015-10-01
US10387781B2 (en) 2019-08-20

Similar Documents

Publication Publication Date Title
CN107402954B (zh) 建立排序模型的方法、基于该模型的应用方法和装置
JP5975470B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
US10599983B2 (en) Inferred facts discovered through knowledge graph derived contextual overlays
US9767144B2 (en) Search system with query refinement
JP5171962B2 (ja) 異種データセットからの知識移転を伴うテキスト分類
US20230142864A1 (en) Estimation of Admixture Generation
US9098532B2 (en) Generating alternative descriptions for images
CN107704512B (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
JP5353173B2 (ja) 文書の具体性の決定
WO2019242144A1 (zh) 电子装置、偏好倾向预测方法和计算机可读存储介质
CN109726298B (zh) 适用于科技文献的知识图谱构建方法、系统、终端及介质
US8243988B1 (en) Clustering images using an image region graph
KR20130056207A (ko) 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
CN110032650B (zh) 一种训练样本数据的生成方法、装置及电子设备
JP6187977B2 (ja) 解析装置、解析方法及びプログラム
CN112667805B (zh) 一种工单类别确定方法、装置、设备及介质
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
US11403304B2 (en) Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects
JP2022042497A (ja) コーパスに格納された既存の械学習プロジェクトのパイプラインからの新しい機械学習プロジェクトのパイプラインの自動生成
US20210182293A1 (en) Candidate projection enumeration based query response generation
US8392393B2 (en) Graph searching
WO2019085118A1 (zh) 基于主题模型的关联词分析方法、电子装置及存储介质
JP6366031B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
JP2017538226A (ja) スケーラブルなウェブデータの抽出

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160112

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160323

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160609

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160621

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20160622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160712

R150 Certificate of patent or registration of utility model

Ref document number: 5975470

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees