JP2016162163A

JP2016162163A - 情報処理装置及び情報処理プログラム

Info

Publication number: JP2016162163A
Application number: JP2015039955A
Authority: JP
Inventors: 康秀三浦; Yasuhide Miura; 茂之榊; Shigeyuki Sakaki; 大熊　智子; Tomoko Okuma; 智子大熊
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2015-03-02
Filing date: 2015-03-02
Publication date: 2016-09-05
Also published as: US20160259774A1

Abstract

【課題】構文解析処理の精度に影響されることなく、対象とする文情報における第１のトピックである文脈語を抽出するようにした情報処理装置を提供する。【解決手段】情報処理装置の第１の抽出手段は、対象とする文情報に対して、トピックモデルを適用して、該文情報を構成している単語のトピック分布を抽出し、第２の抽出手段は、前記第１の抽出手段によって抽出されたトピック分布から、前記文情報における第１のトピックを抽出し、第３の抽出手段は、前記第２の抽出手段によって抽出された第１のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する。【選択図】図１

Description

本発明は、情報処理装置及び情報処理プログラムに関する。

特許文献１には、各エンドユーザーが記述した膨大な量の文書を、分析担当者が見やすいように分類・整理して提示することを課題とし、各文の感性用語にネガ／ポジの極性タグを付与し、否定表現に否定表現タグを付与し、極性タグの種類と否定表現タグの有無に基づいて否定評価文か肯定評価文かを判定し、ネガ／ポジ判定タグを付与するネガ／ポジ判定部と、各文の主題を認定する主題認定部と、各文の意図表現に対応の意図類型タグを関連付ける意図抽出部と、各文の主題が評価軸類似表現記憶手段に格納された類似表現に該当する場合には対応の評価軸を関連付け、各文を共通の評価軸、意図類型及び感性用語を備えた複数の類似文グループ毎に分類し、各類似文グループ中で文字数が最も少ない類似文を代表意見と認定し、複数の代表意見が列記された代表意見リストを生成する分析結果評価部を備えたことが開示されている。

特許文献２には、ユーザーが少数の文書に対して対象テーマに関連するか関連しないかの評価をするだけで、文書に含まれる各単語の、対象テーマに対する関連度を高精度に算出でき、効率的かつ高精度に情報検索を行うことができるようにすることを課題とし、単語抽出・分類部は、評価対象文書についての評価を受け、評価対象文書から単語を抽出し、ポジティブ単語、ネガティブ単語、共通単語に分類し、ポジティブ単語用テーマ関連度算出部、共通単語用テーマ関連度算出部、ネガティブ単語用テーマ関連度算出部はそれぞれ、ポジティブ単語、共通単語、ネガティブ単語の対象テーマに対するテーマ関連度を算出し、テーマ関連単語ＤＢは、テーマ関連度を保存・管理し、検索手段は、テーマ関連度の高い単語から検索クエリを生成して検索を行うとともに、テーマ関連度に基づいて文書の提示順位を決めることが開示されている。

非特許文献３には、ツイート（文書）とクエリ（ターゲット）が与えられたときに、クエリの極性を判定することを課題とし、構文情報を用いて、クエリと特定の構文関係にある語を用い、被参照ツイート（リツイート、リプライ）、同じクエリを含む同ユーザーのツイートを用いることが開示されている。

特開２０１２−２５６２８２号公報特開２０１１−０８６０４３号公報

ＬｏｎｇＪｉａｎｇ，ＭｏＹｕ，ＭｉｎｇＺｈｏｕ，ＸｉａｏｈｕａＬｉｕ，ａｎｄＴｉｅｊｕｎＺｈａｏ．２０１１．Ｔａｒｇｅｔ−ｄｅｐｅｎｄｅｎｔＴｗｉｔｔｅｒＳｅｎｔｉｍｅｎｔＣｌａｓｓｉｆｉｃａｔｉｏｎ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｏｆｔｈｅ４９ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，ｐａｇｅｓ１５１−１６０．

本発明は、構文解析処理の精度に影響されることなく、対象とする文情報における第１のトピックである文脈語を抽出するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項１の発明は、対象とする文情報に対して、トピックモデルを適用して、該文情報を構成している単語のトピック分布を抽出する第１の抽出手段と、前記第１の抽出手段によって抽出されたトピック分布から、前記文情報における第１のトピックを抽出する第２の抽出手段と、前記第２の抽出手段によって抽出された第１のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第３の抽出手段を具備することを特徴とする情報処理装置である。

請求項２の発明は、前記対象とする文情報に対して、トピックモデリング手法を適用して、該文情報内のトピック分布を抽出する第５の抽出手段と、前記第５の抽出手段によって抽出されたトピック分布から、前記文情報における第２のトピックを抽出する第６の抽出手段と、前記第６の抽出手段によって抽出された第２のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第７の抽出手段をさらに具備することを特徴とする請求項１に記載の情報処理装置である。

請求項３の発明は、複数の文情報から、該文情報を構成している単語を抽出する第４の抽出手段と、前記第４の抽出手段によって抽出された単語に対して、トピックモデリング手法を適用して、前記トピックモデルを生成する生成手段をさらに具備することを特徴とする請求項１又は２に記載の情報処理装置である。

請求項４の発明は、前記生成手段は、前記複数の文情報として教師データとしての複数の文情報を用い、前記トピックモデリング手法として教師ありトピックモデリング手法を適用することを特徴とする請求項３に記載の情報処理装置である。

請求項５の発明は、コンピュータを、対象とする文情報に対して、トピックモデルを適用して、該文情報を構成している単語のトピック分布を抽出する第１の抽出手段と、前記第１の抽出手段によって抽出されたトピック分布から、前記文情報における第１のトピックを抽出する第２の抽出手段と、前記第２の抽出手段によって抽出された第１のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第３の抽出手段として機能させるための情報処理プログラムである。

請求項１の情報処理装置によれば、構文解析処理の精度に影響されることなく、対象とする文情報における第１のトピックである文脈語を抽出することができる。

請求項２の情報処理装置によれば、第２のトピックを用いて、対象とする文情報における第２のトピックである文脈語を抽出することができる。

請求項３の情報処理装置によれば、文情報を構成している単語に対して、トピックモデリング手法を適用して生成したトピックモデルを用いることができる。

請求項４の情報処理装置によれば、教師データとしての文情報を構成している単語に対して、教師ありトピックモデリング手法を適用して生成したトピックモデルを用いることができる。

請求項５の情報処理プログラムによれば、構文解析処理の精度に影響されることなく、対象とする文情報における第１のトピックである文脈語を抽出することができる。

第１の実施の形態の構成例についての概念的なモジュール構成図である。本実施の形態を利用したシステム構成例を示す説明図である。第１の実施の形態による処理例を示すフローチャートである。文書テーブルのデータ構造例を示す説明図である。第１の実施の形態による処理例を示すフローチャートである。第１の実施の形態による処理例を示す説明図である。第２の実施の形態の構成例についての概念的なモジュール構成図である。第２の実施の形態による処理例を示すフローチャートである。トピック分布テーブルのデータ構造例を示す説明図である。第２の実施の形態による処理例を示す説明図である。第３の実施の形態の構成例についての概念的なモジュール構成図である。第３の実施の形態による処理例を示すフローチャートである。文書テーブルのデータ構造例を示す説明図である。第４の実施の形態の構成例についての概念的なモジュール構成図である。本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。

以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
図１は、第１の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（コンピュータ・プログラム）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム（コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム）、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続（データの授受、指示、データ間の参照関係等）の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、２以上の値（もちろんのことながら、全ての値も含む）が同じであってもよい。また、「Ａである場合、Ｂをする」という意味を有する記載は、「Ａであるか否かを判断し、Ａであると判断した場合はＢをする」の意味で用いる。ただし、Ａであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」（社会システム）にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、外部記憶媒体、通信回線を介した記憶装置、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）内のレジスタ等を含んでいてもよい。

本実施の形態である情報処理装置１００は、対象とする文情報における第１のトピック（以下、メイントピックともいう）である文脈語を抽出するものであって、図１の例に示すように、モデル生成モジュール１０５、モデル記憶装置１２５、文脈処理モジュール１５０を有している。具体的には、情報処理装置１００は、トピックモデルを用いてターゲットのメイントピックを抽出し、メイントピックに基づいてターゲットの文脈情報を取得する。文情報（以下、テキストともいう）として、例えば、文（１つの文、複数の文を含む）、文章、文書等がある。

以下、本実施の形態の説明で用いる用語を説明する。
「極性」とは、ある極に基づく、文書又は単語の性質である。本実施の形態の説明では、ポジティブとネガティブの感性の極についての性質を指す。
「ターゲット」とは、文脈情報を抽出したい対象である。例えば、人名、組織名、地名、製品名等がある。
「トピック」とは、トピックモデリング手法（ＬＤＡ、ＬａｂｅｌｅｄＬＤＡ等）が出力する単語の多項分布を意味する。トピックでは、関連性が強い単語ほど高い確率値を持つ。別名としては、クラスタ、潜在クラス（ｌａｔｅｎｔｃｌａｓｓ）等の名称も用いられる。
「モデル」とは、機械学習手法の学習結果として得られるデータをいう。本実施の形態の説明では、トピックモデリング手法の学習結果を指す。例えば、テキスト集合からトピックモデリング手法を学習させた結果のモデルを用いて、単語のトピック分布が推定できる。
「教師信号」とは、ある入力データに対して、何らかの基準に基づいた正しい結果を示すデータである。例えば、教師信号は、学習プロセスにおいて、ある入力データ例に対する正しい分類の結果を表すデータとして使うことができる。このような入力データと、その分類結果である教師信号との組み合わせを使って学習をすることで、モデルを作成することができる。
識別プロセスにおいては、分類が未知の状態の入力データに対して、機械学習によって得られたモデルを利用することで、入力データに対する分類を予測することが可能となる。このように、教師信号というのは、入力データに対して、ある基準に基づいて決められた正しい出力結果のデータを指すものということができる。
前述の背景技術で挙げた技術では、ターゲットの文脈情報を得るのに構文情報を用いている。このように構文情報を用いた手法では、構文解析の精度が低下するノイズの多いテキスト（例えば、ソーシャルメディアテキストのような話し言葉、新語が用いられる若者言葉、文法的な誤りが含まれている文等）を対象とした場合に、構文解析のエラーによる性能低下が生じてしまう。

モデル生成モジュール１０５は、文書ＤＢ１１０、トピックモデリングモジュール１１５、モデル出力モジュール１２０を有している。モデル生成モジュール１０５は、テキスト集合にトピックモデリング手法を適用し、トピックモデルを作成する。テキスト集合として、例えば、ＳＮＳ（ソーシャル・ネットワーキング・サービス）での投稿文書（ツイート等）等がある。
文脈処理モジュール１５０は、文書・ターゲット入力モジュール１５５、単語トピック推定モジュール１６０、メイントピック抽出モジュール１６５、文脈情報判定モジュール１７０、文脈情報出力モジュール１９０を有している。文脈処理モジュール１５０は、解析対象のテキストに対して、モデル生成モジュール１０５が作成したトピックモデルを適用し、各単語のトピック分布を得る。そして、ターゲットのトピック分布より、例えば、最も確率の高いトピックをメイントピックとして抽出する。次に、ターゲットの文脈情報として、ターゲット以外の単語でメイントピックが、例えば最も高い確率となっているものを抽出する。

文書ＤＢ１１０は、トピックモデリングモジュール１１５と接続されている。文書ＤＢ１１０は、予め収集したテキストを記憶している。例えば、ＳＮＳから収集したテキストを記憶している。
トピックモデリングモジュール１１５は、文書ＤＢ１１０、モデル出力モジュール１２０と接続されている。トピックモデリングモジュール１１５は、文書ＤＢ１１０内に記憶されている複数のテキストから、そのテキストを構成している単語を抽出する。そして、その抽出した単語に対して、トピックモデリング手法を適用して、トピックモデルを生成する。生成したトピックモデルをモデル出力モジュール１２０に渡す。
モデル出力モジュール１２０は、トピックモデリングモジュール１１５、モデル記憶装置１２５と接続されている。モデル出力モジュール１２０は、トピックモデリングモジュール１１５によって生成されたトピックモデルをモデル記憶装置１２５に記憶させる。
モデル記憶装置１２５は、モデル出力モジュール１２０、単語トピック推定モジュール１６０と接続されている。モデル記憶装置１２５は、モデル出力モジュール１２０から出力されたトピックモデル（トピックモデリングモジュール１１５によって生成されたトピックモデル）を記憶する。そして、そのトピックモデルを文脈処理モジュール１５０の単語トピック推定モジュール１６０に供給する。

文書・ターゲット入力モジュール１５５は、単語トピック推定モジュール１６０と接続されている。文書・ターゲット入力モジュール１５５は、ターゲットと対象とするテキストを受け付ける。トピックである文脈語を抽出する対象であるテキストである。対象とするテキストとして、例えば、マウス、キーボード、タッチパネル、音声、視線、ジェスチャ等を用いたユーザーの操作によって、作成されたテキストであってもよいし、ハードディスク等の記憶装置（コンピュータに内蔵されているものの他に、ネットワークを介して接続されているもの等を含む）等に記憶されているテキストを読み出したもの等であってもよい。

単語トピック推定モジュール１６０は、モデル記憶装置１２５、文書・ターゲット入力モジュール１５５、メイントピック抽出モジュール１６５と接続されている。単語トピック推定モジュール１６０は、対象とするテキストに対して、トピックモデルを適用して、そのテキストを構成している単語のトピック分布を抽出する。ここで「文情報を構成している単語」とは、文情報に含まれている単語をいう。「トピック分布」とは、対象としている単語が表すトピックの確率を示すものであり、１つの単語に対して複数のトピックがあり得る場合は、そのそれぞれのトピックとなる確率を示している。例えば、後述するように、「食品Ａ」という単語において、その単語が示すトピックが「Ｔ１」である確率は１００％である。また、「売れ」という単語において、その単語が示すトピックとして、「Ｔ１」、「Ｔ２」があり、「Ｔ１」である確率は６６．７％であり、「Ｔ２」である確率は３３．３％である。つまり、具体的にトピック分布のデータ構造として、単語に対して、その単語が表すトピックとそのトピックの確率値の組（ペア）が１つ以上対応していればよい。

メイントピック抽出モジュール１６５は、単語トピック推定モジュール１６０、文脈情報判定モジュール１７０と接続されている。メイントピック抽出モジュール１６５は、単語トピック推定モジュール１６０によって抽出されたトピック分布から、対象としているテキストにおけるメイントピックを抽出する。具体的には、トピック分布より、最も確率値の高いトピックをターゲットのメイントピックとして抽出する。
文脈情報判定モジュール１７０は、メイントピック抽出モジュール１６５、文脈情報出力モジュール１９０と接続されている。文脈情報判定モジュール１７０は、メイントピック抽出モジュール１６５によって抽出されたメイントピックを有する単語のうち、予め定められた条件を満たす単語をテキストにおける文脈語として抽出する。「予め定められた条件」として、例えば、（１）その単語におけるトピックのうち、最大の確率値となっているトピックがメイントピックである場合に、その単語を文脈語とする条件としてもよいし、（２）その単語におけるトピックのうち、確率値が予め定められた閾値より高い又は以上となっているトピックがメイントピックである場合に、その単語を文脈語とする条件としてもよいし、（３）その単語におけるトピックのうち、最大の確率値が予め定められた閾値より高い又は以上となっているトピックがメイントピックである場合に、その単語を文脈語とする条件としてもよい。なお、文脈語として抽出する単語は複数であってもよい

文脈情報出力モジュール１９０は、文脈情報判定モジュール１７０と接続されている。文脈情報出力モジュール１９０は、文脈情報判定モジュール１７０によって抽出された文脈語（単語集合）を受け取り、その文脈語を出力する。ここでの出力には、例えば、プリンタ等の印刷装置で印刷すること、ディスプレイ等の表示装置に表示すること、データベース等の記憶装置へ書き込むこと、メモリーカード等の記憶媒体に記憶すること、他の情報処理装置へ渡すこと等が含まれる。また、出力する情報として、文脈語だけでなく、対象となったテキストと文脈語を対応させて出力するようにしてもよい。
情報処理装置１００の後処理として、例えば、情報処理装置１００が、ターゲットである製品に対する評価が書き込まれているＳＮＳの各文から、メイントピックの単語を抽出し、文脈情報出力モジュール１９０が出力した情報を受け取って、メイントピックである各単語の極性を判断し、その製品に対してポジティブ（肯定的）評価であるか、ネガティブ（批判的）評価であるかを判断する。

図２は、本実施の形態を利用したシステム構成例を示す説明図である。
情報処理装置１００、文書処理装置２１０、文脈情報応用処理装置２５０、ユーザー端末２８０は、通信回線２９０を介してそれぞれ接続されている。通信回線２９０は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。文書処理装置２１０は、ＳＮＳ等のサービスを提供し、テキストを収集する。又は、ＳＮＳ等のサービスを提供している情報処理装置から、テキストを収集する。情報処理装置１００は、文書処理装置２１０が収集したテキストを用いて、文脈情報を抽出する。そして、文脈情報応用処理装置２５０は、その文脈情報を用いた処理を行う。ユーザー端末２８０は、情報処理装置１００、文脈情報応用処理装置２５０による処理結果を受け取り、ユーザーに提示する。また、情報処理装置１００、文書処理装置２１０、文脈情報応用処理装置２５０による機能は、クラウドサービスとして実現してもよい。なお、モデル生成モジュール１０５、モデル記憶装置１２５を文書処理装置２１０が有していてもよい。その場合、情報処理装置１００は、文書処理装置２１０からトピックモデルを受け取る。また、ユーザー端末２８０は携帯端末であってもよい。

図３は、第１の実施の形態（モデル生成モジュール１０５）による処理例を示すフローチャートである。
ステップＳ３０２では、トピックモデリングモジュール１１５は、文書集合を抽出する。トピックモデリングモジュール１１５が、文書ＤＢ１１０より文書集合を抽出する。文書ＤＢ１１０は、例えば文書テーブル４００を記憶している。図４は、文書テーブル４００のデータ構造例を示す説明図である。文書テーブル４００は、ＩＤ欄４１０、テキスト欄４２０を有している。ＩＤ欄４１０は、本実施の形態において、テキスト欄４２０内のテキストを一意に識別するための情報（ＩＤ：ＩＤｅｎｔｉｆｉｃａｔｉｏｎ）を記憶している。テキスト欄４２０は、テキストを記憶している。なお、図４では、テキスト欄４２０に記憶されているテキストは１文であるが、複数文であってもよい。また、文書集合の量は、数千〜数百万を想定し、計算機の扱える範囲であれば、多いほどよい。

ステップＳ３０４では、トピックモデリングモジュール１１５は、単語を抽出する。各テキストより単語を抽出する。単語の抽出には、テキストが英語であればＰａｒｔＯｆＳｐｅｅｃｈ（ＰＯＳ）Ｔａｇｇｅｒ等、日本語であれば形態素解析器等を用いる。
ステップＳ３０６では、トピックモデリングモジュール１１５は、トピックモデリングを行う。各テキストの単語集合に対してトピックモデリング手法を適用する。具体的な手法として、例えば、ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ（ＬＤＡ）等を用いる。
ステップＳ３０８では、モデル出力モジュール１２０は、トピックモデルを出力する。モデル出力モジュール１２０が作成されたトピックモデルを出力する。

図５は、第１の実施の形態（文脈処理モジュール１５０）による処理例を示すフローチャートである。
ステップＳ５０２では、文書・ターゲット入力モジュール１５５は、ターゲットを入力する。文脈情報の抽出対象であるターゲットの入力を受ける。例えば、「食品Ａ」を受け付ける。
ステップＳ５０４では、文書・ターゲット入力モジュール１５５は、テキストである文書を入力する。ターゲットの文脈情報を抽出したいテキストの入力を受ける。例えば、「食品ＡフレーバーＢとても売れていて早くも品薄です。当店には在庫あります。」を受け付ける。
ステップＳ５０６では、単語トピック推定モジュール１６０は、テキストより単語を抽出する。例えば、前述の例では、「食品Ａ／フレーバーＢ／とても／売れ／て／いて／早く／も／品薄／です／。／当店／に／は／在庫／あり／ます／。」を抽出する。なお、「／」は単語の区切りを示している。

ステップＳ５０８では、単語トピック推定モジュール１６０は、モデルを入力する。つまり、図３の例で示すフローチャートで作成されたトピックモデルを読み込む。
ステップＳ５１０では、メイントピック抽出モジュール１６５は、単語トピックを推定する。つまり、メイントピック抽出モジュール１６５がトピックモデリング手法により、各単語のトピックを推定する。図６は、ステップＳ５１０の処理例を示す説明図である。図中でのＴはトピックを意味しており、例えばＴ１はトピック１を示している。
単語抽出結果６００として、「食品Ａ／フレーバーＢ／とても／売れ／て／いて／早く／も／品薄／です／。当店／に／は／在庫／あり／ます／。」となっている。
単語トピック推定モジュール１６０の処理によって、「食品Ａ」には「トピック１が１００％」、「フレーバーＢ」には「トピック１が１００％」、「売れ」には「トピック１が６６．７％、トピック２が３３．３％」、「早く」には「トピック３が５５．６％、トピック１が１１．１％」、「品薄」には「トピック３が７７．８％」、「当店」には「トピック１が５５．６％、トピック４が２２．２％」、「在庫」には「トピック３が３３．３％、トピック１が１１．１％」、「あり」には「トピック１が２２．２％、トピック３が２２．２％」のトピック分布が推定される。

ステップＳ５１２では、メイントピック抽出モジュール１６５は、メイントピックを抽出する。具体的には、ターゲットに該当する単語のトピックの中で確率値が最大となるものをメイントピックとして抽出する。前述の例では、ターゲットは「食品Ａ」であり、「食品Ａ」では「トピック１が１００％」のトピック分布であるので、トピック１をメイントピックとして抽出する。
ステップＳ５１４では、文脈情報判定モジュール１７０は、文脈語を判定する。メイントピック（トピック１）が最大確率値を取っている単語を文脈語として判定する。図６に示す例であれば「食品Ａ／フレーバーＢ／売れ／当店／あり」（図６では一重下線の単語）が、文脈語として判定される。なお、最大確率値でなく、予め定められた閾値より高い又は以上である単語を文脈語として判定してもよい。
ステップＳ５１６では、文脈情報出力モジュール１９０は、ターゲットの文脈情報を出力する。前述の例では、「食品Ａ／フレーバーＢ／売れ／当店／あり」を出力する。

＜＜第２の実施の形態＞＞
図７は、第２の実施の形態の構成例についての概念的なモジュール構成図である。第２の実施の形態は、第１の実施の形態の情報処理装置１００の文脈情報判定モジュール１７０を文書トピック推定モジュール７７０、サブトピック抽出モジュール７７５、文脈情報判定モジュール７８０としたものである。トピックに基づいてターゲットのサブトピックを抽出することにより、第１の実施の形態よりも広範囲にターゲットの文脈情報を取得するようにしたものである。
情報処理装置７００は、モデル生成モジュール１０５、モデル記憶装置１２５、文脈処理モジュール７５０を有している。文脈処理モジュール７５０は、文書・ターゲット入力モジュール１５５、単語トピック推定モジュール１６０、メイントピック抽出モジュール１６５、文書トピック推定モジュール７７０、サブトピック抽出モジュール７７５、文脈情報判定モジュール７８０、文脈情報出力モジュール１９０を有している。なお、前述の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
モデル記憶装置１２５は、モデル出力モジュール１２０、単語トピック推定モジュール１６０、文書トピック推定モジュール７７０と接続されている。
メイントピック抽出モジュール１６５は、単語トピック推定モジュール１６０、文書トピック推定モジュール７７０と接続されている。
文書トピック推定モジュール７７０は、モデル記憶装置１２５、単語トピック推定モジュール１６０、サブトピック抽出モジュール７７５と接続されている。文書トピック推定モジュール７７０は、対象とするテキストに対して、トピックモデリング手法を適用して、そのテキスト内のトピック分布を抽出する。
サブトピック抽出モジュール７７５は、文書トピック推定モジュール７７０、文脈情報判定モジュール７８０と接続されている。サブトピック抽出モジュール７７５は、文書トピック推定モジュール７７０によって抽出されたトピック分布から、テキストにおける第２のトピック（以下、サブトピックともいう）を抽出する。つまり、ターゲットのサブトピックを考慮することにより、より広範囲な文脈情報を抽出するものである。
文脈情報判定モジュール７８０は、サブトピック抽出モジュール７７５、文脈情報出力モジュール１９０と接続されている。文脈情報判定モジュール７８０は、サブトピック抽出モジュール７７５によって抽出されたサブトピックを有する単語のうち、予め定められた条件を満たす単語をテキストにおける文脈語として抽出する。さらに、第１の実施の形態における文脈情報判定モジュール１７０の処理を行うようにしてもよい。
文脈情報出力モジュール１９０は、文脈情報判定モジュール７８０と接続されている。

図８は、第２の実施の形態による処理例を示すフローチャートである。ステップＳ８０２からステップＳ８１２までの処理は、図５の例に示したフローチャートのステップＳ５０２からステップＳ５１２までの処理と同等の処理である。
ステップＳ８０２では、文書・ターゲット入力モジュール１５５は、ターゲットを入力する。
ステップＳ８０４では、文書・ターゲット入力モジュール１５５は、文書を入力する。
ステップＳ８０６では、単語トピック推定モジュール１６０は、単語を抽出する。
ステップＳ８０８では、単語トピック推定モジュール１６０は、モデルを入力する。
ステップＳ８１０では、メイントピック抽出モジュール１６５は、単語トピックを推定する。
ステップＳ８１２では、メイントピック抽出モジュール１６５は、メイントピックを抽出する。

ステップＳ８１４では、文書トピック推定モジュール７７０は、文書トピックを抽出する。文書トピック推定モジュール７７０がトピックモデリング手法により、文書のトピックを推定する。文書トピックは各単語のトピック分布の和を正規化して得られる。ここでの正規化として、例えば、単語の数（又は加算対象とした単語の数）で、トピック分布の和を除算すればよい。例えばトピック分布テーブル９００のようになる。図９は、トピック分布テーブル９００のデータ構造例を示す説明図である。トピック分布テーブル９００は、トピックＩＤ欄９１０、生成割合欄９２０を有している。トピックＩＤ欄９１０は、本実施の形態において、トピックを一意に識別するための情報（トピックＩＤ）を記憶している。生成割合欄９２０は、そのトピックの正規化した生成割合を記憶している。

ステップＳ８１６では、サブトピック抽出モジュール７７５は、サブトピックを抽出する。ターゲットのサブトピックを抽出する。具体的には、例えば、文書トピックで最大の割合のものを抽出する。図９に示す例であれば、２２．６％のＴ３で示されるトピック３が抽出される。
ステップＳ８１８では、文脈情報判定モジュール７８０は、文脈語を判定する。図５の例に示したフローチャートにおけるステップＳ５１４と同様に、文脈語情報判定モジュール７８０がサブトピックが最大確率値を取っている単語を文脈語として判定する。図６に示す例であれば、「早く／品薄／在庫」（図６では二重下線の単語）が、サブトピックの文脈語として判定される。なお、最大確率値でなく、予め定められた閾値より高い又は以上である単語を文脈語として判定してもよい。
ステップＳ８２０では、文脈情報出力モジュール１９０は、文脈情報を出力する。前述の例では、サブトピックの文脈語として「早く／品薄／在庫」を出力する。また、さらにメイントピックの文脈語を出力するようにしてもよい。

サブトピックの抽出手法として、ステップＳ８１６の処理を、以下のようにしてもよい。ターゲットの周辺にしやすいサブトピック（周辺トピック）を以下の式（１）で抽出するようにしてもよい。

図１０は、第２の実施の形態による処理例を示す説明図である。図中のＴはトピックを意味しており、例えばＴ１はトピック１を示している。単語抽出結果１０００として、「食品Ａ／高い／と／言われ／て／ます／が／私／は／食品Ａ／が／好き／です／。」となっている。単語トピック推定モジュール１６０の処理によって、「高い」には「トピック５が７０．０％、トピック６が３０．０％」、「私」には「トピック７が５０．０％、トピック６が３０．０％、トピック５が２０．０％」、「好き」には「トピック５が４０．０％、トピック１が３０．０％、トピック７が３０．０％」の分布が推定される。
この例では、式（１）を用いて、Ｔ５がｓｃｏｒｅ（Ｔ５）＝（０．７＋０．２＋０．４）／３＝０．４３３で最大のスコアを取るトピックになるため、サブトピックになる。

＜＜第３の実施の形態＞＞
図１１は、第３の実施の形態の構成例についての概念的なモジュール構成図である。第３の実施の形態は、第１の実施の形態の情報処理装置１００のモデル生成モジュール１０５をモデル生成モジュール１１０５にしたものである。教師付き文書ＤＢ１１１０と教師ありトピックモデリングモジュール１１１５を用いることにより、モデル生成モジュール１０５を用いた場合よりも品質の高いトピックモデルを構築するようにしたものである。
情報処理装置１１００は、モデル生成モジュール１１０５、モデル記憶装置１２５、文脈処理モジュール１５０を有している。モデル生成モジュール１１０５は、教師付き文書ＤＢ１１１０、教師ありトピックモデリングモジュール１１１５、モデル出力モジュール１２０を有している。

教師付き文書ＤＢ１１１０は、教師ありトピックモデリングモジュール１１１５と接続されている。教師付き文書ＤＢ１１１０は、予め収集した教師データとしての複数のテキストを記憶している。
教師ありトピックモデリングモジュール１１１５は、教師付き文書ＤＢ１１１０、モデル出力モジュール１２０と接続されている。教師ありトピックモデリングモジュール１１１５は、教師付き文書ＤＢ１１１０内の複数のテキストから、そのテキストを構成している単語を抽出する。そして、その抽出した単語に対して、トピックモデリング手法を適用して、トピックモデルを生成する。ここで、機械学習用の複数のテキストとして教師データとしての教師付き文書ＤＢ１１１０内の複数のテキストを用い、トピックモデリング手法として教師ありトピックモデリング手法を適用する。
モデル出力モジュール１２０は、教師ありトピックモデリングモジュール１１１５、モデル記憶装置１２５と接続されている。モデル出力モジュール１２０は、教師ありトピックモデリングモジュール１１１５によって生成されたトピックモデルをモデル記憶装置１２５に記憶させる。

図１２は、第３の実施の形態（モデル生成モジュール１１０５）による処理例を示すフローチャートである。ステップＳ１２０２、ステップＳ１２０４の処理は、図３の例に示したフローチャートのステップＳ３０２、ステップＳ３０４の処理と同等の処理である。
ステップＳ１２０２では、教師ありトピックモデリングモジュール１１１５は、文書集合を抽出する。
ステップＳ１２０４では、教師ありトピックモデリングモジュール１１１５は、単語を抽出する。
ステップＳ１２０６では、教師ありトピックモデリングモジュール１１１５は、教師ありトピックモデリングを行う。つまり、教師付き文書ＤＢ１１１０の各テキストの単語集合に対して教師ありトピックモデリング手法を適用する。具体的な手法としては、例えば、ＬａｂｅｌｅｄＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ（ＬＬＤＡ）等を用いる。なお、教師あり文書ＤＢ１１１０は、図１３に示す例になる。図１３は、文書テーブル１３００のデータ構造例を示す説明図である。文書テーブル１３００は、ＩＤ欄１３１０、テキスト欄１３２０、教師信号欄１３３０を有している。
ＩＤ欄１３１０は、本実施の形態において、テキスト欄１３２０内のテキストを一意に識別するための情報（ＩＤ）を記憶している。テキスト欄１３２０は、テキストを記憶している。教師信号欄１３３０は、そのテキストにおける教師信号を記憶している。例えば、教師信号「飲食」として、「カツカレーとラーメンを食べた」というテキストを機械学習し、教師信号「飲食」、「玩具」として、「景品狙いで最近食品Ａを良く食べます。」というテキストを機械学習する。
ステップＳ１２０８では、モデル出力モジュール１２０は、ステップＳ１２０６で生成されたトピックモデルをモデル記憶装置１２５に出力する。

＜＜第４の実施の形態＞＞
図１４は、第４の実施の形態の構成例についての概念的なモジュール構成図である。第４の実施の形態は、第２の実施の形態の文脈処理モジュール７５０と第３の実施の形態のモデル生成モジュール１１０５を組み合わせたものであり、教師付き文書ＤＢ１１１０と教師ありトピックモデリングモジュール１１１５を用いることにより、モデル生成モジュール１０５を用いた場合よりも品質の高いトピックモデルを構築し、そのトピックモデルを用いて、ターゲットのサブトピックを抽出することにより、第１の実施の形態よりも広範囲にターゲットの文脈情報を取得するようにしたものである。
情報処理装置１４００は、モデル生成モジュール１１０５、モデル記憶装置１２５、文脈処理モジュール７５０を有している。
モデル生成モジュール１１０５は、教師付き文書ＤＢ１１１０、教師ありトピックモデリングモジュール１１１５、モデル出力モジュール１２０を有している。教師付き文書ＤＢ１１１０は、教師ありトピックモデリングモジュール１１１５と接続されている。教師ありトピックモデリングモジュール１１１５は、教師付き文書ＤＢ１１１０、モデル出力モジュール１２０と接続されている。モデル出力モジュール１２０は、教師ありトピックモデリングモジュール１１１５、モデル記憶装置１２５と接続されている。
モデル記憶装置１２５は、モデル出力モジュール１２０、単語トピック推定モジュール１６０、文書トピック推定モジュール７７０と接続されている。
文脈処理モジュール７５０は、文書・ターゲット入力モジュール１５５、単語トピック推定モジュール１６０、メイントピック抽出モジュール１６５、文書トピック推定モジュール７７０、サブトピック抽出モジュール７７５、文脈情報判定モジュール７８０、文脈情報出力モジュール１９０を有している。
文書・ターゲット入力モジュール１５５は、単語トピック推定モジュール１６０と接続されている。単語トピック推定モジュール１６０は、モデル記憶装置１２５、文書・ターゲット入力モジュール１５５、メイントピック抽出モジュール１６５と接続されている。メイントピック抽出モジュール１６５は、単語トピック推定モジュール１６０、文書トピック推定モジュール７７０と接続されている。文書トピック推定モジュール７７０は、モデル記憶装置１２５、メイントピック抽出モジュール１６５、サブトピック抽出モジュール７７５と接続されている。サブトピック抽出モジュール７７５は、文書トピック推定モジュール７７０、文脈情報判定モジュール７８０と接続されている。文脈情報判定モジュール７８０は、サブトピック抽出モジュール７７５、文脈情報出力モジュール１９０と接続されている。文脈情報出力モジュール１９０は、文脈情報判定モジュール７８０と接続されている。

なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図１５に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部（演算部）としてＣＰＵ１５０１を用い、記憶装置としてＲＡＭ１５０２、ＲＯＭ１５０３、ＨＤ１５０４を用いている。ＨＤ１５０４として、例えばハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）を用いてもよい。トピックモデリングモジュール１１５、モデル出力モジュール１２０、文書・ターゲット入力モジュール１５５、単語トピック推定モジュール１６０、メイントピック抽出モジュール１６５、文脈情報判定モジュール１７０、文脈情報出力モジュール１９０、文書トピック推定モジュール７７０、サブトピック抽出モジュール７７５、文脈情報判定モジュール７８０、教師ありトピックモデリングモジュール１１１５等のプログラムを実行するＣＰＵ１５０１と、そのプログラムやデータを記憶するＲＡＭ１５０２と、本コンピュータを起動するためのプログラム等が格納されているＲＯＭ１５０３と、文書ＤＢ１１０、教師付き文書ＤＢ１１１０、モデル記憶装置１２５としての機能を有している補助記憶装置（フラッシュメモリ等であってもよい）であるＨＤ１５０４と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置１５０６と、ＣＲＴ、液晶ディスプレイ等の出力装置１５０５と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース１５０７、そして、それらをつないでデータのやりとりをするためのバス１５０８により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。

前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図１５に示すハードウェア構成は、１つの構成例を示すものであり、本実施の形態は、図１５に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア（例えば特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）等）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図１５に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器（携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む）、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機（スキャナ、プリンタ、複写機、ファックス等のいずれか２つ以上の機能を有している画像処理装置）などに組み込まれていてもよい。

なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ−ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）等、ブルーレイ・ディスク（Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ）、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）、ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌ）メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。

１００…情報処理装置
１０５…モデル生成モジュール
１１０…文書ＤＢ
１１５…トピックモデリングモジュール
１２０…モデル出力モジュール
１２５…モデル記憶装置
１５０…文脈処理モジュール
１５５…文書・ターゲット入力モジュール
１６０…単語トピック推定モジュール
１６５…メイントピック抽出モジュール
１７０…文脈情報判定モジュール
１９０…文脈情報出力モジュール
２１０…文書処理装置
２５０…文脈情報応用処理装置
２８０…ユーザー端末
２９０…通信回線
７００…情報処理装置
７５０…文脈処理モジュール
７７０…文書トピック推定モジュール
７７５…サブトピック抽出モジュール
７８０…文脈情報判定モジュール
１１００…情報処理装置
１１０５…モデル生成モジュール
１１１０…教師付き文書ＤＢ
１１１５…教師ありトピックモデリングモジュール
１４００…情報処理装置

Claims

対象とする文情報に対して、トピックモデルを適用して、該文情報を構成している単語のトピック分布を抽出する第１の抽出手段と、
前記第１の抽出手段によって抽出されたトピック分布から、前記文情報における第１のトピックを抽出する第２の抽出手段と、
前記第２の抽出手段によって抽出された第１のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第３の抽出手段
を具備することを特徴とする情報処理装置。
前記対象とする文情報に対して、トピックモデリング手法を適用して、該文情報内のトピック分布を抽出する第５の抽出手段と、
前記第５の抽出手段によって抽出されたトピック分布から、前記文情報における第２のトピックを抽出する第６の抽出手段と、
前記第６の抽出手段によって抽出された第２のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第７の抽出手段
をさらに具備することを特徴とする請求項１に記載の情報処理装置。
複数の文情報から、該文情報を構成している単語を抽出する第４の抽出手段と、
前記第４の抽出手段によって抽出された単語に対して、トピックモデリング手法を適用して、前記トピックモデルを生成する生成手段
をさらに具備することを特徴とする請求項１又は２に記載の情報処理装置。
前記生成手段は、前記複数の文情報として教師データとしての複数の文情報を用い、
前記トピックモデリング手法として教師ありトピックモデリング手法を適用する
ことを特徴とする請求項３に記載の情報処理装置。
コンピュータを、
対象とする文情報に対して、トピックモデルを適用して、該文情報を構成している単語のトピック分布を抽出する第１の抽出手段と、
前記第１の抽出手段によって抽出されたトピック分布から、前記文情報における第１のトピックを抽出する第２の抽出手段と、
前記第２の抽出手段によって抽出された第１のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第３の抽出手段
として機能させるための情報処理プログラム。