JP2013003663A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2013003663A
JP2013003663A JP2011131296A JP2011131296A JP2013003663A JP 2013003663 A JP2013003663 A JP 2013003663A JP 2011131296 A JP2011131296 A JP 2011131296A JP 2011131296 A JP2011131296 A JP 2011131296A JP 2013003663 A JP2013003663 A JP 2013003663A
Authority
JP
Japan
Prior art keywords
topic
sentence
item
local
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011131296A
Other languages
English (en)
Inventor
Mitsuhiro Miyazaki
充弘 宮嵜
Shingo Takamatsu
慎吾 高松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2011131296A priority Critical patent/JP2013003663A/ja
Priority to US13/489,125 priority patent/US9164981B2/en
Priority to CN201210184817XA priority patent/CN102982018A/zh
Publication of JP2013003663A publication Critical patent/JP2013003663A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】大量の文書の中から薀蓄文を抽出する。
【解決手段】本開示の情報処理装置は、収集された1以上の文章から成る文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出し、収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出し、収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定し、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する。
【選択図】図2

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関し、特に、人物、コンテンツ、事象などの注目対象に関する知識が記述されている薀蓄文を大量の文書の中から抽出できるようにした情報処理装置、情報処理方法、およびプログラムに関する。
従来、大量の文書を統計的に解析する(統計的自然言語処理を行う)ことにより知識を獲得する試みが広く行われている。例えば、同義語辞書が整備されていない専門的な分野において、その専門的な分野の文書に統計的自然言語処理を行うことにより、その分野の同義語辞書を自動で作成することなどが行われている。
統計的自然言語処理においては、しばしば文脈情報(文書中において注目する単語と、その前後に存在する所定の数の単語からなる単語群を指すものとする)の特徴量が利用される。そして、文脈情報の特徴量の類似度を計算することにより、注目する単語の類義語解析、多義語解析、2名詞間の関連性解析、単語のモダリティ解析などが行われている。例えば、非特許文献1では、固有名詞の関連性の同義解析に文脈情報の特徴量が利用されている。
Takaaki Hasegawa, Satoshi Sekine and Ralph Grishman, "Discovering Relations among Named Entities from Large Corpora", In Proceedings of the Conference of the Association for Computational Linguistics 2004.
ところで、インターネット上には、人物、コンテンツ、事象などの注目対象について記述されている文書が大量に存在する。そのような大量の文書の中から、単に注目対象について記述されているものを検索したり、検索結果の文書を要約したりする技術は存在するが、注目対象に関する知識が記述された薀蓄文を抽出する技術は確立されていない。
ここで、薀蓄文とは、注目対象に関する所定の話題(ローカルトピック)を特徴的な表現(言い回しパターン)で記述している文書を指すものとする。
本開示はこのような状況に鑑みてなされたものであり、大量の文書の中から薀蓄文を抽出できるようにするものである。
本開示の一側面である情報処理装置は、1以上の文章から成る文書を収集する収集部と、収集された前記文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析部と、収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析部と、収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定部と、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する薀蓄文抽出部とを備える。
前記薀蓄文抽出部は、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された抽出対象文書から薀蓄文候補として抽出することができる。
前記評価設定部は、収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対する薀蓄度を設定し、前記各文章の多次元特徴量と前記薀蓄度を機械学習することにより、多次元特徴量空間における薀蓄文の分布の境目を決定し、前記薀蓄文抽出部は、決定された前記境目に基づき、前記薀蓄文候補の中から薀蓄文と抽出することができる。
本開示の一側面である情報処理装置は、指定された注目対象に対応する前記薀蓄文候補または前記薀蓄文をユーザに提示する提示部をさらに備えることができる。
本開示の一側面である情報処理装置は、収集された前記文書を編集する編集部をさらに備えることができる。
本開示の一側面である情報処理方法は、1以上の文章から成る文書を収集する収集部と、収集された前記文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析部と、収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析部と、収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定部と、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する薀蓄文抽出部とを備える情報処理装置の情報処理方法において、前記収集部による、1以上の文章から成る学習対象文書を収集する第1の収集ステップと、前記トピック解析部による、収集された前記学習対象文書をトピック解析することにより、前記学習対象文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析ステップと、前記言語解析部による、収集された前記学習対象文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析ステップと、前記評価設定部による、収集された前記学習対象文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定ステップと、前記収集部による、1以上の文章から成る抽出対象文書を収集する第2の収集ステップと、前記薀蓄文抽出部による、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された前記抽出対象文書から薀蓄文候補として抽出する薀蓄文抽出ステップとを含む。
本開示の一側面であるプログラムは、コンピュータを、1以上の文章から成る文書を収集する収集部と、収集された前記文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析部と、収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析部と、収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定部と、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する薀蓄文抽出部として機能させる。
本開示の一側面においては、1以上の文章から成る学習対象文書が収集され、収集された前記学習対象文書がトピック解析されることにより、前記学習対象文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率が算出され、収集された前記学習対象文書が言語解析されることにより、ローカルトピックの項目毎に特有の言い回しパターンが検出される。また、収集された前記学習対象文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度が設定され、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値が設定される。さらに、1以上の文章から成る抽出対象文書が収集され、前記合計評価値に基づいてローカルトピックの項目が選別され、選別されたローカルトピックの項目に特有の言い回しパターンに適合する文章が、収集された前記抽出対象文書から薀蓄文候補として抽出すされる。
本開示の一側面によれば、大量の文書の中から薀蓄文を抽出することができる。
本開示の実施の形態である薀蓄文抽出装置の動作概要を示す図である。 薀蓄文抽出装置の構成例を示すブロック図である。 トピック解析にて想定される確率モデルを示す図である。 学習処理を説明するフローチャートである。 抽出処理を説明するフローチャートである。 薀蓄文提示処理を説明するフローチャートである。 コンピュータの構成例を示すブロック図である。
以下、本開示を実施するための最良の形態(以下、実施の形態と称する)について、図面を参照しながら詳細に説明する。
<1.実施の形態>
[薀蓄文抽出装置の概要]
図1は、本開示の実施の形態である薀蓄文抽出装置の動作概要を示している。本開示の実施の形態である薀蓄文抽出装置は、学習処理、抽出処理、および薀蓄文提示処理の3種類の処理を行う。
学習処理では、人物、コンテンツ、事象などの注目対象について記述されている文書のうち、その記述内容に信憑性があると考えられるものを学習対象文書群として取得する。信憑性があると考えられる文書は、注目対象に関する公式な情報を開示しているインターネット上のサイトから取得する。例えば注目対象が歌手(人物)である場合、その公式webページ、所属レコード会社のwebページ、Wikipediaなどにて公開されているものをインターネット上から取得する。あるいは、音楽評論家などが執筆した文書を直接的に取得してもよい。なお、学習対象文書群は複数の学習対象文書から成り、各学習対象文書は1以上の文章(以下、学習対象文章と称する)から成るものとする。
さらに、学習処理では、学習対象文書群に基づいて、薀蓄文にふさわしい話題(ローカルトピック)を選別する。また、薀蓄文に頻出する特有の表現(言い回しパターン)を学習する。
抽出処理では、人物、コンテンツ、事象などの注目対象について記述されている文書をその信憑性に拘わりなくインターネット上から収集して抽出対象文書群とし、それら抽出対象文書群から、薀蓄文に頻出する特有の表現(言い回しパターン)を有する文書を抽出してデータベース化する。なお、抽出対象文書群は複数の抽出対象文書から成り、各抽出対象文書は1以上の文章(以下、抽出対象文章と称する)から成るものとする。なお、学習対象文書を抽出対象文書に流用してもよい。
薀蓄文提示処理では、指定された注目対象に対応する薀蓄文をユーザに提示する。このとき、薀蓄文とともに、注目対象に関するコンテンツなどの商品をユーザに紹介したり、商品を販売したりすることもできる。注目対象の指定方法を工夫することにより、ユーザに対して意外性のある、得新しい商品の購入を提案することができる。
[薀蓄文抽出装置の構成例]
図2は、本開示の実施の形態である薀蓄文抽出装置の構成例を示している。この薀蓄文抽出装置10は、収集部11、編集部12、トピック解析部13、言語解析部14、評価設定部15、薀蓄文抽出部16、提示部17、およびデータベース(DB)18を有する。
収集部11は、インターネット上の所定のサーバにアクセスし、様々な注目対象についての学習対象文書群を取得する。また、収集部11は、インターネット上の所定のサーバにアクセスし、様々な注目対象についての抽出対象文書群を取得する。なお、収集部11は、インターネット以外から学習対象文書群および抽出対象文書群を取得することもできる。
編集部12は、人力によって文書を入力編集するためのものであり、取得された学習対象文書および抽出対象文書をオペレータの操作に従って適宜編集する。また、編集部12は、例えば、注目対象が歌手である場合、音楽評論家によって記述されたレビュー文を学習対象文書として収集部11に供給する。取得、編集された学習対象文書および抽出対象文書は、注目対象に対応付けてデータベース18に保持される。
トピック解析部13は、各学習対象文書に対してトピック解析を行う。具体的には、各学習対象文書について、予め用意されているグローバルトピック(大分類)の全ての項目それぞれに対する適合度を示す確率を0.0乃至1.0の範囲の値で算出するとともに、学習用文書を構成する各学習対象文章について、予め用意されているローカルトピック(小分類)の全ての項目それぞれに対する適合度を示す確率を0.0乃至1.0の範囲の値で算出する。トピック解析部13は、抽出対象文書に対しても同様にトピック解析を行う。
例えば、注目対象が歌手である場合、学習対象文書に対するグローバルトピックの項目としては、歌手の音楽性によってJ-POP系、ジャズ系、ヘビーメタル系、ロック系、演歌系などが用意されている。また、学習対象文章に対するローカルトピックの項目として、文章の内容によってヒット曲系、生い立ち系、ゴシップ系、コラボレーション系などが用意されている。
図3は、トピック解析にて想定される確率モデルを示している。同図において、Mは文書数、Sは各文書の文数、Nは各文章の特徴量の要素数を表している。また、添え字glはグローバルトピックに関連することを意味し、添え字locはローカルトピックに関連することを意味する。
この確率モデルでは、グローバルトピックおよびローカルトピックは所定の辞書単語上の多項分布として表わされる。学習対象文書に対してはグローバルトピックが存在し、学習対象文章に対してはそれぞれ異なるローカルトピックが存在する。
文章が生成される過程は次のとおりである。すなわち、文書数M、各文書を構成する文章数S、各文章の特徴量の要素数Nとし、グローバルトピック数とローカルトピック数を10乃至100の値に設定する。特徴量の要素は次の生成過程で生成される。特徴量の各要素に順序をつける。
全ての文書に対して、
(1)各トピックについての単語生成確率をディレクトリ分布p(θ|α)から生成する。
各文書に対して、
(2)文書のトピック生成確率をディリクレ分布p(θgl|αgl)から生成する。
各文章に対して、
(3)文章のトピック比をディリクレ分布p(θloc|αloc)から生成する。
(4)グローバルトピックとローカルトピック間の混合比をディリクレ分布p(r|αmix)から生成する。
特徴量の各要素に対して、
(5)グローバルトピックとローカルトピック間のトピック混合比に基づいて、グローバルトピックか、またはローカルトピックかを選択する。
(6)選択されたトピックに対応するトピック比からトピックを選択する(ここで、どのトピックが選択されたが潜在変数zにより表現される。なお、(5)と(6)の生成過程で表されるzの生成過程を表す分布をp(z|θgl,θLoc,r)と表す)。
(7)選択されたトピックに従って多項分布p(w|φ,z)から特徴量の要素wを生成する。
上記の生成過程は次式(1)で表すことができる。
Figure 2013003663
(1)
トピック解析では、学習対象文書が上述した過程を経て生成されたものとして、仮定する各文章の特徴量を統計的解析することにより、対応する潜在変数を推定する。
具体的には、次式(2)に示すようにギブスサンプリングにより潜在変数を推定する。
Figure 2013003663
(2)
ここで、c(i,j,t,v)は、i番目の学習対象文書のj番目の文章にトピックtと語彙vが生成された数である。「・」は、その要素について和を取ることを表す。locはローカルトピックに関する周辺化を表す。glはグローバルトピックに関する周辺化を表す。ijkの添え字は、i番目の文書、j番目の文章、k番目の特徴量要素を示す。rijkは、その特徴量の要素の生成の際にグローバルトピックとローカルトピックのどちらが選択されたかを示す。Tglはグローバルトピックの項目数を表す。Tlocはローカルトピックの項目数を表す。if rijk=glは、グローバルトピックが選択された場合を表す。if rijk=locは、ローカルトピックが選択された場合を表す。
これにより、パラメータおよび潜在変数は次式(3)に示すように計算される。
Figure 2013003663
(3)
ここで、θtvは、トピックtの多項分布においてv番目の特徴量要素の生成確率である。θitは、i番目の学習対象文書がt番目のグローバルトピックを生成する確率である。θijtは、i番目の学習対象文書のj番目の文章がt番目のローカルトピックを生成する確率である。if t∈glは、トピックがグローバルトピックに含まれる場合を表す。if t∈locは、トピックがローカルトピックに含まれる場合を表す。
図2に戻る。言語解析部14は、トピック解析済みの学習対象文章を解析して、ローカルトピックの各項目毎、頻出する特有の表現(言い回しパターン)を検出する。例えば、注目対象が歌手である場合のローカルトピックのヒット曲系項目からは「〜チャートで」、「ヒット曲を〜」、「〜位、〜枚を記録」などが言い回しパターンとして検出される。また、ゴシップ系項目からは「噂によると〜」、「〜スキャンダルが発覚」、「〜でパパラッチされた」などが言い回しパターンとして検出される。
評価設定部15は、各学習対象文章に対する複数の評価者による5段階評価(最低評価1から最高評価5)を平均して、学習対象文章に対するトピック有用度と薀蓄度を設定する。ここで、トピック有用度は、学習対象文章の内容が興味を引き付けるものであるか、面白いかなどに基づいて評価される。薀蓄度は、学習対象文章の内容が薀蓄文としてふさわしい言い回しパターンで記載されているかなどに基づいて評価される。評価設定部15は、抽出対象文章に対しても同様、トピック有用度と薀蓄度を設定する。
また、評価設定部15は、各学習対象文章について、トピック解析部13にて算出されたローカルトピックの各項目に対する確率と、設定されたトピック有用度とを乗算して、ローカルトピックの各項目に対する評価値(=確率×トピック有用度)を算出する。さらに、ローカルトピックの各項目毎に、全ての学習対象文章における評価値を加算して各項目毎の合計評価値を算出し、各項目毎の合計評価値の最大値が1.0となるように、各項目毎の合計評価値を正規化する。これにより、ローカルトピックの各項目に対して、正規化された合計評価値が設定される。
さらに、評価設定部15は、各学習対象文章に対して設定した薀蓄度を閾値判定し、薀蓄度が所定の閾値(例えば、4)以上であるものを薀蓄文として認定し、閾値未満のものを薀蓄文に認定しない。また、評価設定部15は、各学習対象文章を形態素解析し、この解析結果を学習対象文章の多次元特徴量とし、各学習対象文書を多次元特徴量空間に分布する。この薀蓄文の認定結果と多次元特徴量をSVM(Support Vector Machine)を用いて機械学習する。これにより、各学習対象文章が分布された多次元特徴量空間において、薀蓄文に認定されたものと、されないものとを最も大胆に分ける境目が決定される。
薀蓄文抽出部16は、評価設定部15にて設定された、正規化された合計評価値が所定の閾値(例えば、0.7)以上であるローカルトピックの項目を選別する。また、薀蓄文抽出部16は、選別したローカルトピックの項目における特有の言い回しパターンを言語解析部14から取得し、取得した言い回しパターンに適合する抽出対象文章を薀蓄文候補として抽出対象文書群から抽出する。
例えば、ローカルトピックのヒット曲系項目が選別され、そこから言い回しパターン「〜チャートで」が検出されている場合、抽出対象文書群から薀蓄文候補「最新曲がBillboard Hot100チャートで1位!」などが抽出される。また、例えば、ローカルトピックのゴシップ系項目が選別され、そこから言い回しパターン「噂によると〜」が検出されている場合、抽出対象文書群から薀蓄文候補「噂によるともうすぐ解散するらしい」などが抽出される。
さらに、薀蓄文抽出部16は、薀蓄文候補を形態素解析することにより、薀蓄文候補の多次元特徴量を求め、薀蓄文候補を多次元特徴量空間に分布する。さらに、評価設定部15にてSVMにより決定された境目に従い、薀蓄文候補の中から薀蓄文を抽出する。
提示部17は、指定される注目対象に対応する薀蓄文をユーザに提示する。なお、注目対象の指定は、ユーザが行ってもよいし、ユーザが作成したプレイリスト、ユーザの操作履歴などに基づいて、提示部17が行うようにしてもよい。さらに、提示部17は、提示した薀蓄文に対するユーザの反応に応じて、注目対象に関連するコンテンツなどの商品を紹介したり、販売したりする。
データベース18は、取得された学習対象文書群および抽出対象文書群を注目対象に対応付けて保持する。また、データベース18は、抽出された薀蓄文を注目対象に対応付けて保持する。さらに、データベース18には、学習対象文書群および抽出対象文書群のトピック解析の結果、言語解析の結果得られるローカルトピックの各項目における言い回しパターンなどの、各部の処理結果も適宜保持される。
[動作説明]
図4は、薀蓄文抽出装置10による学習処理を説明するフローチャートである。
ステップS1において、収集部11は、様々な注目対象についての学習対象文書群を取得する。ステップS2において、編集部12は、取得された学習対象文書をオペレータの操作に従って適宜編集する。
ステップS3において、トピック解析部13は、学習対象文書群に対してトピック解析を行う。具体的には、各学習対象文書について、予め用意されているグローバルトピック(大分類)の全ての項目それぞれに対する適合度を示す確率を0.0乃至1.0の範囲の値で算出するとともに、学習用文書を構成する各学習対象文章について、予め用意されているローカルトピック(小分類)の全ての項目それぞれに対する適合度を示す確率を0.0乃至1.0の範囲の値で算出する。
ステップS4において、言語解析部14は、トピック解析済みの学習対象文章を解析して、ローカルトピックの各項目毎、頻出する特有の表現(言い回しパターン)を検出する。
ステップS5において、評価設定部15は、学習対象文章に対するトピック有用度と薀蓄度を設定する。
ステップS6において、評価設定部15は、各学習対象文章について、ステップS3のトピック解析で出されたローカルトピックの各項目に対する確率と、設定されたトピック有用度とを乗算して、ローカルトピックの各項目に対する評価値を算出する。さらに、ローカルトピックの各項目毎に、全ての学習対象文章における評価値を加算して各項目毎の合計評価値を算出し、各項目毎の合計評価値の最大値が1.0となるように、各項目毎の合計評価値を正規化する。薀蓄文抽出部16は、評価設定部15にて設定された、正規化された合計評価値が所定の閾値以上であるローカルトピックの項目を選別する。
ステップS7において、評価設定部15は、各学習対象文章に対して設定した薀蓄度を閾値判定し、薀蓄度が所定の閾値以上であるものを薀蓄文として認定し、閾値未満のものを薀蓄文に認定しない。また、評価設定部15は、各学習対象文章を形態素解析し、この解析結果を学習対象文章の多次元特徴量とし、各学習対象文書を多次元特徴量空間に分布する。この薀蓄文の認定結果と多次元特徴量を、SVMを用いて機械学習する。これにより、各学習対象文章が分布された多次元特徴量空間において、薀蓄文に認定されたものと、されないものとを最も大胆に分ける境目が決定される。以上で、学習処理は終了される。
次に、図5は、薀蓄文抽出装置10による抽出処理を説明するフローチャートである。この抽出処理は、既に学習処理が実行済みであることを前提として実行される。
ステップS11において、収集部11は、様々な注目対象についての抽出対象文書群を取得する。ステップS12において、編集部12は、取得された抽出対象文書をオペレータの操作に従って適宜編集する。
ステップS13において、薀蓄文抽出部16は、学習処理のステップS6で選別したローカルトピックの項目における特有の言い回しパターン(学習処理のステップS4で検出されたもの)を言語解析部14から取得し、取得した言い回しパターンに適合する抽出対象文章を薀蓄文候補として抽出対象文書群から抽出する。
ステップS14において、薀蓄文抽出部16は、薀蓄文候補を形態素解析することにより、薀蓄文候補の多次元特徴量を求め、薀蓄文候補を多次元特徴量空間に分布させ、学習処理のステップS7でSVMにより決定された境目に従い、薀蓄文候補の中から薀蓄文を抽出する。ステップS15において、データベース18は、抽出された薀蓄文を注目対象に対応付けて保持する。
なお、ステップS14の処理を省略し、全ての薀蓄文候補を、そのまま薀蓄文としてデータベース18に保持するようにしてもよい。以上で、抽出処理は終了される。
学習処理および抽出処理によれば、大量の抽出対象文書の中から薀蓄文を抽出することができる。これにより、例えば、様ザ名な商品についての薀蓄文をローカルトピックの項目毎に事前に準備することができる。
次に、図6は、薀蓄文抽出装置10による薀蓄文提示処理を説明するフローチャートである。この抽出処理は、既に学習処理および抽出処理が実行済みであることを前提として実行される。
ステップS21において、提示部17は、例えばユーザから入力される歌手名を注目対象に指定する。ステップS22において、提示部17は、ステップ21で指定した注目対象に対応する薀蓄文をデータベース18から検索し、ステップS23において、検索結果の薀蓄文をユーザに提示する。
ステップS24において、提示部17は、提示した薀蓄文に対するユーザの評価(例えば、面白かった、つまらなかった、既知の薀蓄であったなど)を受け付ける。ステップS25において、提示部17は、ステップS24で入力されたユーザからの評価に応じ、指定した注目対象に関連するコンテンツなどの商品の情報をユーザに提示する。なお、ここで、コンテンツなど電子データをストリーミング配信したり、ダウンロード販売したりしてもよい。以上で、薀蓄文提示処理は終了される。
薀蓄文提示処理によれば、例えば、商品をユーザに紹介するための推薦理由として薀蓄文を利用することができる。また、ユーザが未知の領域やコンテンツに対して興味を抱くきっかけを与えることができる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図7は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
このコンピュータ100において、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
以上のように構成されるコンピュータ100では、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105およびバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
10 薀蓄文抽出装置, 11 収集部, 12 編集部, 13 トピック解析部, 14 言語解析部, 15 評価設定部, 16 薀蓄文抽出部, 17 提示部, 18 データベース

Claims (7)

  1. 1以上の文章から成る文書を収集する収集部と、
    収集された前記文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析部と、
    収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析部と、
    収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定部と、
    前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する薀蓄文抽出部と
    を備える情報処理装置。
  2. 前記薀蓄文抽出部は、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された抽出対象文書から薀蓄文候補として抽出する
    請求項1に記載の情報処理装置。
  3. 前記評価設定部は、収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対する薀蓄度を設定し、前記各文章の多次元特徴量と前記薀蓄度を機械学習することにより、多次元特徴量空間における薀蓄文の分布の境目を決定し、
    前記薀蓄文抽出部は、決定された前記境目に基づき、前記薀蓄文候補の中から薀蓄文と抽出する
    請求項2に記載の情報処理装置。
  4. 指定された注目対象に対応する前記薀蓄文候補または前記薀蓄文をユーザに提示する提示部を
    さらに備える請求項3に記載の情報処理装置。
  5. 収集された前記文書を編集する編集部を
    さらに備える請求項2に記載の情報処理装置。
  6. 1以上の文章から成る文書を収集する収集部と、
    収集された前記文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析部と、
    収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析部と、
    収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定部と、
    前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する薀蓄文抽出部と
    を備える情報処理装置の情報処理方法において、
    前記収集部による、1以上の文章から成る学習対象文書を収集する第1の収集ステップと、
    前記トピック解析部による、収集された前記学習対象文書をトピック解析することにより、前記学習対象文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析ステップと、
    前記言語解析部による、収集された前記学習対象文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析ステップと、
    前記評価設定部による、収集された前記学習対象文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定ステップと、
    前記収集部による、1以上の文章から成る抽出対象文書を収集する第2の収集ステップと、
    前記薀蓄文抽出部による、前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された前記抽出対象文書から薀蓄文候補として抽出する薀蓄文抽出ステップと
    を含む情報処理方法。
  7. コンピュータを、
    1以上の文章から成る文書を収集する収集部と、
    収集された前記文書をトピック解析することにより、前記文書を成す各文章に対して、ローカルトピックの各項目に対する適合の程度を示す確率を算出するトピック解析部と、
    収集された前記文書を言語解析することにより、ローカルトピックの項目毎に特有の言い回しパターンを検出する言語解析部と、
    収集された前記文書を成す各文章に対する評価者の評価に基づいて各文章に対するトピック有用度を設定し、トピック解析結果と前記トピック有用度に基づき、ローカルトピックの各項目に対して合計評価値を設定する評価設定部と、
    前記合計評価値に基づいてローカルトピックの項目を選別し、選別したローカルトピックの項目に特有の言い回しパターンに適合する文章を、収集された文書から薀蓄文候補として抽出する薀蓄文抽出部と
    して機能させるプログラム。
JP2011131296A 2011-06-13 2011-06-13 情報処理装置、情報処理方法、およびプログラム Withdrawn JP2013003663A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011131296A JP2013003663A (ja) 2011-06-13 2011-06-13 情報処理装置、情報処理方法、およびプログラム
US13/489,125 US9164981B2 (en) 2011-06-13 2012-06-05 Information processing apparatus, information processing method, and program
CN201210184817XA CN102982018A (zh) 2011-06-13 2012-06-06 信息处理设备、信息处理方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011131296A JP2013003663A (ja) 2011-06-13 2011-06-13 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2013003663A true JP2013003663A (ja) 2013-01-07

Family

ID=47293898

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011131296A Withdrawn JP2013003663A (ja) 2011-06-13 2011-06-13 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US9164981B2 (ja)
JP (1) JP2013003663A (ja)
CN (1) CN102982018A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016162961A1 (ja) * 2015-04-08 2016-10-13 株式会社日立製作所 文章検索装置
KR101758555B1 (ko) * 2016-03-08 2017-07-17 아주대학교산학협력단 토픽 표현 추출 방법 및 그 시스템
CN108614597A (zh) * 2018-05-31 2018-10-02 广东美的厨房电器制造有限公司 用于烹饪器具的加热控制方法及设备、烹饪器具

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10289963B2 (en) * 2017-02-27 2019-05-14 International Business Machines Corporation Unified text analytics annotator development life cycle combining rule-based and machine learning based techniques
US10878817B2 (en) * 2018-02-24 2020-12-29 Twenty Lane Media, LLC Systems and methods for generating comedy
US11080485B2 (en) 2018-02-24 2021-08-03 Twenty Lane Media, LLC Systems and methods for generating and recognizing jokes
US10642939B2 (en) * 2018-02-24 2020-05-05 Twenty Lane Media, LLC Systems and methods for generating jokes

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253169B1 (en) * 1998-05-28 2001-06-26 International Business Machines Corporation Method for improvement accuracy of decision tree based text categorization
US6611881B1 (en) * 2000-03-15 2003-08-26 Personal Data Network Corporation Method and system of providing credit card user with barcode purchase data and recommendation automatically on their personal computer
CA2487739A1 (en) * 2002-05-28 2003-12-04 Vladimir Vladimirovich Nasypny Method for synthesising a self-learning system for knowledge acquisition for text-retrieval systems
US7356187B2 (en) * 2004-04-12 2008-04-08 Clairvoyance Corporation Method and apparatus for adjusting the model threshold of a support vector machine for text classification and filtering
WO2006039566A2 (en) * 2004-09-30 2006-04-13 Intelliseek, Inc. Topical sentiments in electronically stored communications
JP2008210024A (ja) * 2007-02-23 2008-09-11 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
US9405830B2 (en) * 2007-02-28 2016-08-02 Aol Inc. Personalization techniques using image clouds
US8073682B2 (en) * 2007-10-12 2011-12-06 Palo Alto Research Center Incorporated System and method for prospecting digital information
JP2009104296A (ja) * 2007-10-22 2009-05-14 Nippon Telegr & Teleph Corp <Ntt> 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
US8010524B2 (en) * 2007-10-29 2011-08-30 International Business Machines Corporation Method of monitoring electronic media
WO2009108726A1 (en) * 2008-02-25 2009-09-03 Atigeo Llc Determining relevant information for domains of interest
JP5439100B2 (ja) * 2009-09-24 2014-03-12 株式会社日立ソリューションズ 文書解析システム
US8458115B2 (en) * 2010-06-08 2013-06-04 Microsoft Corporation Mining topic-related aspects from user generated content

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016162961A1 (ja) * 2015-04-08 2016-10-13 株式会社日立製作所 文章検索装置
KR101758555B1 (ko) * 2016-03-08 2017-07-17 아주대학교산학협력단 토픽 표현 추출 방법 및 그 시스템
CN108614597A (zh) * 2018-05-31 2018-10-02 广东美的厨房电器制造有限公司 用于烹饪器具的加热控制方法及设备、烹饪器具

Also Published As

Publication number Publication date
US9164981B2 (en) 2015-10-20
CN102982018A (zh) 2013-03-20
US20120316865A1 (en) 2012-12-13

Similar Documents

Publication Publication Date Title
US10042896B2 (en) Providing search recommendation
US8321418B2 (en) Information processor, method of processing information, and program
US20110004618A1 (en) Recognizing Domain Specific Entities in Search Queries
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
CN111783518A (zh) 训练样本生成方法、装置、电子设备及可读存储介质
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
JP2013003663A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2007241888A (ja) 情報処理装置および方法、並びにプログラム
US20150120379A1 (en) Systems and Methods for Passage Selection for Language Proficiency Testing Using Automated Authentic Listening
WO2011127655A1 (en) Method for keyword extraction
US11397731B2 (en) Method and system for interactive keyword optimization for opaque search engines
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
CN110020032A (zh) 使用语法单元的文档搜索
Tian et al. Attention-based autoencoder topic model for short texts
WO2011022867A1 (en) Method and apparatus for searching electronic documents
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
Tan et al. Query Rewrite for Null and Low Search Results in eCommerce.
Ramya et al. DRDLC: discovering relevant documents using latent dirichlet allocation and cosine similarity
JP2021163477A (ja) 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
Williams et al. Classifying and ranking search engine results as potential sources of plagiarism
CN116933782A (zh) 一种电商文本关键词提取处理方法及系统
Lau et al. Learning domain-specific sentiment lexicons for predicting product sales
CN115328945A (zh) 数据资产的检索方法、电子设备及计算机可读存储介质
JP2015036892A (ja) 情報処理装置、情報処理方法、及び、プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140902