JP2013003663A

JP2013003663A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2013003663A
Application number: JP2011131296A
Authority: JP
Inventors: Mitsuhiro Miyazaki; 充弘宮嵜; Shingo Takamatsu; 慎吾高松
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-06-13
Filing date: 2011-06-13
Publication date: 2013-01-07
Also published as: US9164981B2; CN102982018A; US20120316865A1

Abstract

【課題】大量の文書の中から薀蓄文を抽出する。
【解決手段】本開示の情報処理装置は、収集された１以上の文章から成る文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出し、収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出し、収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定し、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する。
【選択図】図２

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関し、特に、人物、コンテンツ、事象などの注目対象に関する知識が記述されている薀蓄文を大量の文書の中から抽出できるようにした情報処理装置、情報処理方法、およびプログラムに関する。

従来、大量の文書を統計的に解析する（統計的自然言語処理を行う）ことにより知識を獲得する試みが広く行われている。例えば、同義語辞書が整備されていない専門的な分野において、その専門的な分野の文書に統計的自然言語処理を行うことにより、その分野の同義語辞書を自動で作成することなどが行われている。

統計的自然言語処理においては、しばしば文脈情報（文書中において注目する単語と、その前後に存在する所定の数の単語からなる単語群を指すものとする）の特徴量が利用される。そして、文脈情報の特徴量の類似度を計算することにより、注目する単語の類義語解析、多義語解析、２名詞間の関連性解析、単語のモダリティ解析などが行われている。例えば、非特許文献１では、固有名詞の関連性の同義解析に文脈情報の特徴量が利用されている。

Takaaki Hasegawa, Satoshi Sekine and Ralph Grishman, "Discovering Relations among Named Entities from Large Corpora", In Proceedings of the Conference of the Association for Computational Linguistics 2004.

ところで、インターネット上には、人物、コンテンツ、事象などの注目対象について記述されている文書が大量に存在する。そのような大量の文書の中から、単に注目対象について記述されているものを検索したり、検索結果の文書を要約したりする技術は存在するが、注目対象に関する知識が記述された薀蓄文を抽出する技術は確立されていない。

ここで、薀蓄文とは、注目対象に関する所定の話題（ローカルトピック）を特徴的な表現（言い回しパターン）で記述している文書を指すものとする。

本開示はこのような状況に鑑みてなされたものであり、大量の文書の中から薀蓄文を抽出できるようにするものである。

本開示の一側面である情報処理装置は、１以上の文章から成る文書を収集する収集部と、収集された前記文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析部と、収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析部と、収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定部と、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する薀蓄文抽出部とを備える。

前記薀蓄文抽出部は、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された抽出対象文書から薀蓄文候補として抽出することができる。

前記評価設定部は、収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対する薀蓄度を設定し、前記各文章の多次元特徴量と前記薀蓄度を機械学習することにより、多次元特徴量空間における薀蓄文の分布の境目を決定し、前記薀蓄文抽出部は、決定された前記境目に基づき、前記薀蓄文候補の中から薀蓄文と抽出することができる。

本開示の一側面である情報処理装置は、指定された注目対象に対応する前記薀蓄文候補または前記薀蓄文をユーザに提示する提示部をさらに備えることができる。

本開示の一側面である情報処理装置は、収集された前記文書を編集する編集部をさらに備えることができる。

本開示の一側面である情報処理方法は、１以上の文章から成る文書を収集する収集部と、収集された前記文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析部と、収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析部と、収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定部と、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する薀蓄文抽出部とを備える情報処理装置の情報処理方法において、前記収集部による、１以上の文章から成る学習対象文書を収集する第１の収集ステップと、前記トピック解析部による、収集された前記学習対象文書をトピック解析することにより、前記学習対象文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析ステップと、前記言語解析部による、収集された前記学習対象文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析ステップと、前記評価設定部による、収集された前記学習対象文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定ステップと、前記収集部による、１以上の文章から成る抽出対象文書を収集する第２の収集ステップと、前記薀蓄文抽出部による、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された前記抽出対象文書から薀蓄文候補として抽出する薀蓄文抽出ステップとを含む。

本開示の一側面であるプログラムは、コンピュータを、１以上の文章から成る文書を収集する収集部と、収集された前記文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析部と、収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析部と、収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定部と、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する薀蓄文抽出部として機能させる。

本開示の一側面においては、１以上の文章から成る学習対象文書が収集され、収集された前記学習対象文書がトピック解析されることにより、前記学習対象文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率が算出され、収集された前記学習対象文書が言語解析されることにより、ローカルトピックの項目毎に特有の言い回しパターンが検出される。また、収集された前記学習対象文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度が設定され、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値が設定される。さらに、１以上の文章から成る抽出対象文書が収集され、前記合計評価値に基づいてローカルトピックの項目が選別され、選別されたローカルトピックの項目に特有の言い回しパターンに適合する文章が、収集された前記抽出対象文書から薀蓄文候補として抽出すされる。

本開示の一側面によれば、大量の文書の中から薀蓄文を抽出することができる。

本開示の実施の形態である薀蓄文抽出装置の動作概要を示す図である。薀蓄文抽出装置の構成例を示すブロック図である。トピック解析にて想定される確率モデルを示す図である。学習処理を説明するフローチャートである。抽出処理を説明するフローチャートである。薀蓄文提示処理を説明するフローチャートである。コンピュータの構成例を示すブロック図である。

以下、本開示を実施するための最良の形態（以下、実施の形態と称する）について、図面を参照しながら詳細に説明する。

＜１．実施の形態＞
［薀蓄文抽出装置の概要］
図１は、本開示の実施の形態である薀蓄文抽出装置の動作概要を示している。本開示の実施の形態である薀蓄文抽出装置は、学習処理、抽出処理、および薀蓄文提示処理の３種類の処理を行う。

学習処理では、人物、コンテンツ、事象などの注目対象について記述されている文書のうち、その記述内容に信憑性があると考えられるものを学習対象文書群として取得する。信憑性があると考えられる文書は、注目対象に関する公式な情報を開示しているインターネット上のサイトから取得する。例えば注目対象が歌手（人物）である場合、その公式webページ、所属レコード会社のwebページ、Wikipediaなどにて公開されているものをインターネット上から取得する。あるいは、音楽評論家などが執筆した文書を直接的に取得してもよい。なお、学習対象文書群は複数の学習対象文書から成り、各学習対象文書は１以上の文章（以下、学習対象文章と称する）から成るものとする。

さらに、学習処理では、学習対象文書群に基づいて、薀蓄文にふさわしい話題（ローカルトピック）を選別する。また、薀蓄文に頻出する特有の表現（言い回しパターン）を学習する。

抽出処理では、人物、コンテンツ、事象などの注目対象について記述されている文書をその信憑性に拘わりなくインターネット上から収集して抽出対象文書群とし、それら抽出対象文書群から、薀蓄文に頻出する特有の表現（言い回しパターン）を有する文書を抽出してデータベース化する。なお、抽出対象文書群は複数の抽出対象文書から成り、各抽出対象文書は１以上の文章（以下、抽出対象文章と称する）から成るものとする。なお、学習対象文書を抽出対象文書に流用してもよい。

薀蓄文提示処理では、指定された注目対象に対応する薀蓄文をユーザに提示する。このとき、薀蓄文とともに、注目対象に関するコンテンツなどの商品をユーザに紹介したり、商品を販売したりすることもできる。注目対象の指定方法を工夫することにより、ユーザに対して意外性のある、得新しい商品の購入を提案することができる。

［薀蓄文抽出装置の構成例］
図２は、本開示の実施の形態である薀蓄文抽出装置の構成例を示している。この薀蓄文抽出装置１０は、収集部１１、編集部１２、トピック解析部１３、言語解析部１４、評価設定部１５、薀蓄文抽出部１６、提示部１７、およびデータベース（ＤＢ）１８を有する。

収集部１１は、インターネット上の所定のサーバにアクセスし、様々な注目対象についての学習対象文書群を取得する。また、収集部１１は、インターネット上の所定のサーバにアクセスし、様々な注目対象についての抽出対象文書群を取得する。なお、収集部１１は、インターネット以外から学習対象文書群および抽出対象文書群を取得することもできる。

編集部１２は、人力によって文書を入力編集するためのものであり、取得された学習対象文書および抽出対象文書をオペレータの操作に従って適宜編集する。また、編集部１２は、例えば、注目対象が歌手である場合、音楽評論家によって記述されたレビュー文を学習対象文書として収集部１１に供給する。取得、編集された学習対象文書および抽出対象文書は、注目対象に対応付けてデータベース１８に保持される。

トピック解析部１３は、各学習対象文書に対してトピック解析を行う。具体的には、各学習対象文書について、予め用意されているグローバルトピック（大分類）の全ての項目それぞれに対する適合度を示す確率を０．０乃至１．０の範囲の値で算出するとともに、学習用文書を構成する各学習対象文章について、予め用意されているローカルトピック（小分類）の全ての項目それぞれに対する適合度を示す確率を０．０乃至１．０の範囲の値で算出する。トピック解析部１３は、抽出対象文書に対しても同様にトピック解析を行う。

例えば、注目対象が歌手である場合、学習対象文書に対するグローバルトピックの項目としては、歌手の音楽性によってJ-POP系、ジャズ系、ヘビーメタル系、ロック系、演歌系などが用意されている。また、学習対象文章に対するローカルトピックの項目として、文章の内容によってヒット曲系、生い立ち系、ゴシップ系、コラボレーション系などが用意されている。

図３は、トピック解析にて想定される確率モデルを示している。同図において、Ｍは文書数、Ｓは各文書の文数、Ｎは各文章の特徴量の要素数を表している。また、添え字glはグローバルトピックに関連することを意味し、添え字locはローカルトピックに関連することを意味する。

この確率モデルでは、グローバルトピックおよびローカルトピックは所定の辞書単語上の多項分布として表わされる。学習対象文書に対してはグローバルトピックが存在し、学習対象文章に対してはそれぞれ異なるローカルトピックが存在する。

文章が生成される過程は次のとおりである。すなわち、文書数Ｍ、各文書を構成する文章数Ｓ、各文章の特徴量の要素数Ｎとし、グローバルトピック数とローカルトピック数を１０乃至１００の値に設定する。特徴量の要素は次の生成過程で生成される。特徴量の各要素に順序をつける。

全ての文書に対して、
（１）各トピックについての単語生成確率をディレクトリ分布ｐ（θ｜α）から生成する。
各文書に対して、
（２）文書のトピック生成確率をディリクレ分布ｐ（θ^gl｜α^gl）から生成する。
各文章に対して、
（３）文章のトピック比をディリクレ分布ｐ（θ^loc｜α^loc）から生成する。
（４）グローバルトピックとローカルトピック間の混合比をディリクレ分布ｐ（ｒ｜α^mix）から生成する。
特徴量の各要素に対して、
（５）グローバルトピックとローカルトピック間のトピック混合比に基づいて、グローバルトピックか、またはローカルトピックかを選択する。
（６）選択されたトピックに対応するトピック比からトピックを選択する（ここで、どのトピックが選択されたが潜在変数ｚにより表現される。なお、（５）と（６）の生成過程で表されるｚの生成過程を表す分布をｐ（ｚ｜θ^gl，θ^Loc，ｒ）と表す）。
（７）選択されたトピックに従って多項分布ｐ（ｗ｜φ，ｚ）から特徴量の要素ｗを生成する。

上記の生成過程は次式（１）で表すことができる。

（１）

トピック解析では、学習対象文書が上述した過程を経て生成されたものとして、仮定する各文章の特徴量を統計的解析することにより、対応する潜在変数を推定する。

具体的には、次式（２）に示すようにギブスサンプリングにより潜在変数を推定する。

（２）

ここで、c(i，j，t，v)は、ｉ番目の学習対象文書のｊ番目の文章にトピックｔと語彙ｖが生成された数である。「・」は、その要素について和を取ることを表す。locはローカルトピックに関する周辺化を表す。glはグローバルトピックに関する周辺化を表す。ijkの添え字は、ｉ番目の文書、ｊ番目の文章、ｋ番目の特徴量要素を示す。ｒ_ijkは、その特徴量の要素の生成の際にグローバルトピックとローカルトピックのどちらが選択されたかを示す。Ｔ^glはグローバルトピックの項目数を表す。Ｔ^locはローカルトピックの項目数を表す。if ｒ_ijk＝glは、グローバルトピックが選択された場合を表す。if ｒ_ijk＝locは、ローカルトピックが選択された場合を表す。

これにより、パラメータおよび潜在変数は次式（３）に示すように計算される。

（３）

ここで、θ_tvは、トピックｔの多項分布においてｖ番目の特徴量要素の生成確率である。θ_itは、ｉ番目の学習対象文書がｔ番目のグローバルトピックを生成する確率である。θ_ijtは、ｉ番目の学習対象文書のｊ番目の文章がｔ番目のローカルトピックを生成する確率である。if ｔ∈glは、トピックがグローバルトピックに含まれる場合を表す。if ｔ∈locは、トピックがローカルトピックに含まれる場合を表す。

図２に戻る。言語解析部１４は、トピック解析済みの学習対象文章を解析して、ローカルトピックの各項目毎、頻出する特有の表現（言い回しパターン）を検出する。例えば、注目対象が歌手である場合のローカルトピックのヒット曲系項目からは「〜チャートで」、「ヒット曲を〜」、「〜位、〜枚を記録」などが言い回しパターンとして検出される。また、ゴシップ系項目からは「噂によると〜」、「〜スキャンダルが発覚」、「〜でパパラッチされた」などが言い回しパターンとして検出される。

評価設定部１５は、各学習対象文章に対する複数の評価者による５段階評価（最低評価１から最高評価５）を平均して、学習対象文章に対するトピック有用度と薀蓄度を設定する。ここで、トピック有用度は、学習対象文章の内容が興味を引き付けるものであるか、面白いかなどに基づいて評価される。薀蓄度は、学習対象文章の内容が薀蓄文としてふさわしい言い回しパターンで記載されているかなどに基づいて評価される。評価設定部１５は、抽出対象文章に対しても同様、トピック有用度と薀蓄度を設定する。

また、評価設定部１５は、各学習対象文章について、トピック解析部１３にて算出されたローカルトピックの各項目に対する確率と、設定されたトピック有用度とを乗算して、ローカルトピックの各項目に対する評価値（＝確率×トピック有用度）を算出する。さらに、ローカルトピックの各項目毎に、全ての学習対象文章における評価値を加算して各項目毎の合計評価値を算出し、各項目毎の合計評価値の最大値が１．０となるように、各項目毎の合計評価値を正規化する。これにより、ローカルトピックの各項目に対して、正規化された合計評価値が設定される。

さらに、評価設定部１５は、各学習対象文章に対して設定した薀蓄度を閾値判定し、薀蓄度が所定の閾値（例えば、４）以上であるものを薀蓄文として認定し、閾値未満のものを薀蓄文に認定しない。また、評価設定部１５は、各学習対象文章を形態素解析し、この解析結果を学習対象文章の多次元特徴量とし、各学習対象文書を多次元特徴量空間に分布する。この薀蓄文の認定結果と多次元特徴量をSVM(Support Vector Machine)を用いて機械学習する。これにより、各学習対象文章が分布された多次元特徴量空間において、薀蓄文に認定されたものと、されないものとを最も大胆に分ける境目が決定される。

薀蓄文抽出部１６は、評価設定部１５にて設定された、正規化された合計評価値が所定の閾値（例えば、０．７）以上であるローカルトピックの項目を選別する。また、薀蓄文抽出部１６は、選別したローカルトピックの項目における特有の言い回しパターンを言語解析部１４から取得し、取得した言い回しパターンに適合する抽出対象文章を薀蓄文候補として抽出対象文書群から抽出する。

例えば、ローカルトピックのヒット曲系項目が選別され、そこから言い回しパターン「〜チャートで」が検出されている場合、抽出対象文書群から薀蓄文候補「最新曲がBillboard Hot100チャートで１位！」などが抽出される。また、例えば、ローカルトピックのゴシップ系項目が選別され、そこから言い回しパターン「噂によると〜」が検出されている場合、抽出対象文書群から薀蓄文候補「噂によるともうすぐ解散するらしい」などが抽出される。

さらに、薀蓄文抽出部１６は、薀蓄文候補を形態素解析することにより、薀蓄文候補の多次元特徴量を求め、薀蓄文候補を多次元特徴量空間に分布する。さらに、評価設定部１５にてSVMにより決定された境目に従い、薀蓄文候補の中から薀蓄文を抽出する。

提示部１７は、指定される注目対象に対応する薀蓄文をユーザに提示する。なお、注目対象の指定は、ユーザが行ってもよいし、ユーザが作成したプレイリスト、ユーザの操作履歴などに基づいて、提示部１７が行うようにしてもよい。さらに、提示部１７は、提示した薀蓄文に対するユーザの反応に応じて、注目対象に関連するコンテンツなどの商品を紹介したり、販売したりする。

データベース１８は、取得された学習対象文書群および抽出対象文書群を注目対象に対応付けて保持する。また、データベース１８は、抽出された薀蓄文を注目対象に対応付けて保持する。さらに、データベース１８には、学習対象文書群および抽出対象文書群のトピック解析の結果、言語解析の結果得られるローカルトピックの各項目における言い回しパターンなどの、各部の処理結果も適宜保持される。

［動作説明］
図４は、薀蓄文抽出装置１０による学習処理を説明するフローチャートである。

ステップＳ１において、収集部１１は、様々な注目対象についての学習対象文書群を取得する。ステップＳ２において、編集部１２は、取得された学習対象文書をオペレータの操作に従って適宜編集する。

ステップＳ３において、トピック解析部１３は、学習対象文書群に対してトピック解析を行う。具体的には、各学習対象文書について、予め用意されているグローバルトピック（大分類）の全ての項目それぞれに対する適合度を示す確率を０．０乃至１．０の範囲の値で算出するとともに、学習用文書を構成する各学習対象文章について、予め用意されているローカルトピック（小分類）の全ての項目それぞれに対する適合度を示す確率を０．０乃至１．０の範囲の値で算出する。

ステップＳ４において、言語解析部１４は、トピック解析済みの学習対象文章を解析して、ローカルトピックの各項目毎、頻出する特有の表現（言い回しパターン）を検出する。

ステップＳ５において、評価設定部１５は、学習対象文章に対するトピック有用度と薀蓄度を設定する。

ステップＳ６において、評価設定部１５は、各学習対象文章について、ステップＳ３のトピック解析で出されたローカルトピックの各項目に対する確率と、設定されたトピック有用度とを乗算して、ローカルトピックの各項目に対する評価値を算出する。さらに、ローカルトピックの各項目毎に、全ての学習対象文章における評価値を加算して各項目毎の合計評価値を算出し、各項目毎の合計評価値の最大値が１．０となるように、各項目毎の合計評価値を正規化する。薀蓄文抽出部１６は、評価設定部１５にて設定された、正規化された合計評価値が所定の閾値以上であるローカルトピックの項目を選別する。

ステップＳ７において、評価設定部１５は、各学習対象文章に対して設定した薀蓄度を閾値判定し、薀蓄度が所定の閾値以上であるものを薀蓄文として認定し、閾値未満のものを薀蓄文に認定しない。また、評価設定部１５は、各学習対象文章を形態素解析し、この解析結果を学習対象文章の多次元特徴量とし、各学習対象文書を多次元特徴量空間に分布する。この薀蓄文の認定結果と多次元特徴量を、SVMを用いて機械学習する。これにより、各学習対象文章が分布された多次元特徴量空間において、薀蓄文に認定されたものと、されないものとを最も大胆に分ける境目が決定される。以上で、学習処理は終了される。

次に、図５は、薀蓄文抽出装置１０による抽出処理を説明するフローチャートである。この抽出処理は、既に学習処理が実行済みであることを前提として実行される。

ステップＳ１１において、収集部１１は、様々な注目対象についての抽出対象文書群を取得する。ステップＳ１２において、編集部１２は、取得された抽出対象文書をオペレータの操作に従って適宜編集する。

ステップＳ１３において、薀蓄文抽出部１６は、学習処理のステップＳ６で選別したローカルトピックの項目における特有の言い回しパターン（学習処理のステップＳ４で検出されたもの）を言語解析部１４から取得し、取得した言い回しパターンに適合する抽出対象文章を薀蓄文候補として抽出対象文書群から抽出する。

ステップＳ１４において、薀蓄文抽出部１６は、薀蓄文候補を形態素解析することにより、薀蓄文候補の多次元特徴量を求め、薀蓄文候補を多次元特徴量空間に分布させ、学習処理のステップＳ７でSVMにより決定された境目に従い、薀蓄文候補の中から薀蓄文を抽出する。ステップＳ１５において、データベース１８は、抽出された薀蓄文を注目対象に対応付けて保持する。

なお、ステップＳ１４の処理を省略し、全ての薀蓄文候補を、そのまま薀蓄文としてデータベース１８に保持するようにしてもよい。以上で、抽出処理は終了される。

学習処理および抽出処理によれば、大量の抽出対象文書の中から薀蓄文を抽出することができる。これにより、例えば、様ザ名な商品についての薀蓄文をローカルトピックの項目毎に事前に準備することができる。

次に、図６は、薀蓄文抽出装置１０による薀蓄文提示処理を説明するフローチャートである。この抽出処理は、既に学習処理および抽出処理が実行済みであることを前提として実行される。

ステップＳ２１において、提示部１７は、例えばユーザから入力される歌手名を注目対象に指定する。ステップＳ２２において、提示部１７は、ステップ２１で指定した注目対象に対応する薀蓄文をデータベース１８から検索し、ステップＳ２３において、検索結果の薀蓄文をユーザに提示する。

ステップＳ２４において、提示部１７は、提示した薀蓄文に対するユーザの評価（例えば、面白かった、つまらなかった、既知の薀蓄であったなど）を受け付ける。ステップＳ２５において、提示部１７は、ステップＳ２４で入力されたユーザからの評価に応じ、指定した注目対象に関連するコンテンツなどの商品の情報をユーザに提示する。なお、ここで、コンテンツなど電子データをストリーミング配信したり、ダウンロード販売したりしてもよい。以上で、薀蓄文提示処理は終了される。

薀蓄文提示処理によれば、例えば、商品をユーザに紹介するための推薦理由として薀蓄文を利用することができる。また、ユーザが未知の領域やコンテンツに対して興味を抱くきっかけを与えることができる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

このコンピュータ１００において、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータ１００では、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５およびバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。

また、プログラムは、１台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。

なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

１０薀蓄文抽出装置，１１収集部，１２編集部，１３トピック解析部，１４言語解析部，１５評価設定部，１６薀蓄文抽出部，１７提示部，１８データベース

Claims

１以上の文章から成る文書を収集する収集部と、
収集された前記文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析部と、
収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析部と、
収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定部と、
前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する薀蓄文抽出部と
を備える情報処理装置。
前記薀蓄文抽出部は、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された抽出対象文書から薀蓄文候補として抽出する
請求項１に記載の情報処理装置。
前記評価設定部は、収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対する薀蓄度を設定し、前記各文章の多次元特徴量と前記薀蓄度を機械学習することにより、多次元特徴量空間における薀蓄文の分布の境目を決定し、
前記薀蓄文抽出部は、決定された前記境目に基づき、前記薀蓄文候補の中から薀蓄文と抽出する
請求項２に記載の情報処理装置。
指定された注目対象に対応する前記薀蓄文候補または前記薀蓄文をユーザに提示する提示部を
さらに備える請求項３に記載の情報処理装置。
収集された前記文書を編集する編集部を
さらに備える請求項２に記載の情報処理装置。
１以上の文章から成る文書を収集する収集部と、
収集された前記文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析部と、
収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析部と、
収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定部と、
前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する薀蓄文抽出部と
を備える情報処理装置の情報処理方法において、
前記収集部による、１以上の文章から成る学習対象文書を収集する第１の収集ステップと、
前記トピック解析部による、収集された前記学習対象文書をトピック解析することにより、前記学習対象文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析ステップと、
前記言語解析部による、収集された前記学習対象文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析ステップと、
前記評価設定部による、収集された前記学習対象文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定ステップと、
前記収集部による、１以上の文章から成る抽出対象文書を収集する第２の収集ステップと、
前記薀蓄文抽出部による、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された前記抽出対象文書から薀蓄文候補として抽出する薀蓄文抽出ステップと
を含む情報処理方法。
コンピュータを、
１以上の文章から成る文書を収集する収集部と、
収集された前記文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析部と、
収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析部と、
収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定部と、
前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する薀蓄文抽出部と
して機能させるプログラム。