JP6070501B2

JP6070501B2 - 情報処理装置及び情報処理プログラム

Info

Publication number: JP6070501B2
Application number: JP2013212825A
Authority: JP
Inventors: 康秀三浦; 圭悟服部; 大熊　智子; 智子大熊
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2013-10-10
Filing date: 2013-10-10
Publication date: 2017-02-01
Anticipated expiration: 2033-10-10
Also published as: JP2015075993A; US20150106080A1; US9244910B2

Description

本発明は、情報処理装置及び情報処理プログラムに関する。

特許文献１には、少ない教師ありデータを用いた場合であっても、処理負荷を増大させることなく、人間の直感に合致したトピックモデルを学習することを課題とし、教師あり事後確率付与部で、手掛かり語を含む文書データ毎に手掛かり語に対応するトピックの割合に応じた教師あり事後確率を付与し、事後確率推定部で、トピックモデルパラメータを用いて文書データ毎に教師なし事後確率を推定し、重み付き事後確率付与部で、教師あり事後確率と教師なし事後確率とを重み調整テーブルから取得した重みｗ(ｉ)を用いて線形補間して重み付き事後確率を付与し、事後確率推定部で、手掛かり語を含まない文書データ毎に教師なし事後確率を推定し、パラメータ更新部で、予め定めたトピック数、教師なし事後確率、及び重み付き事後確率に基づいて、トピックモデルパラメータを更新することが開示されている。

特許文献２には、各技術対象分野の特許専門家が人手のみにより特許マップを作成することに起因する量的な限界と高価な費用という課題を解決するために、コンピュータ等により自動的又は半自動的に特許マップを生成する方法を提供することを課題とし、特許マップ生成の対象となる特許明細文書群に含まれる語に関する知識ベースであるところの概念ベースを、特許明細文書群における語の使われ方を統計処理することにより生成し、その概念ベースを用いて特許明細文書群に含まれる個々の特許明細文書についてのベクトル値を計算し、そのベクトル値に基づいて特許明細文書群をクラスタリングすることにより、特許明細文書群の個々の特許明細書が表す特許がどのクラスタに属するかに基づいて、個々の特許の特許明細文書群における位置づけを明らかにし、その位置を視覚化することにより特許マップを生成することが開示されている。

特許文献３には、テキスト類別システムを提供することを課題とし、ドキュメントのサンプルが収集された後、クラスタ・アルゴリズムを用いてクラスタ化し、クラスタは、ＳＭＥなどに解析され、その結果を改良するためにクラスタ分析システムへルールを適用すべきかを判断し、顧客がクラスタ分析結果に満足しなかった場合、同義語セットなどのルールをクラスタ分析システムへ戻し、顧客がクラスタ分析結果に満足した場合、類別のために、トレーニング・セットとして類別システムへ分配され、このような類別されたドキュメントは、統計的及び／又は他の解析を介して動作可能な知識へ変換するために解析されることが開示されている。

非特許文献１には、テキストコーパス及びその他離散データ集合をモデル化する手法であって、トピックモデリング手法の一種であるＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ（ＬＤＡ）では、モデルとしてワードの多項分布であるトピックを抽出することが開示されている。

非特許文献２には、トピックモデリング手法の一種として、ＬＤＡを拡張し、感性情報の付与されたトピックを抽出することが開示されている。

非特許文献３には、ＬＤＡを拡張した教師ありトピックモデリング手法の一種であるＬａｂｅｌｅｄＬＤＡを用いて、マイクロブログからトピック抽出する手法が開示されている。

非特許文献４には、エモティコンをラベルとして、教師あり学習モデルを用いたポジティブ・ネガティブ判定器を実現することが開示されている。

非特許文献５には、教師ありトピックモデリング手法として、マルチラベルを許す手法であるＰＬＤＡが開示されている。
非特許文献６には、テキスト分類におけるラベル設定の技術が開示されている。

特開２０１３−１３４７５１号公報特開２００５−３３９４１２号公報特開２００７−０５８８６３号公報

ＤａｖｉｄＭ．Ｂｌｅｉ，ＡｎｄｒｅｗＹ．Ｎｇ，ａｎｄＭｉｃｈａｅｌＩ．Ｊｏｒｄａｎ．２００３．ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，３：９９３−１０２２．ＣｈｅｎｇｈｕａＬｉｎ，ＹｕｌａｎＨｅ，ＲｉｃｈａｒｄＥｖｅｒｓｏｎ，ａｎｄＳｔｅｆａｎＲｕｇｅｒ．２０１２．Ｗｅａｋｌｙｓｕｐｅｒｖｉｓｅｄｊｏｉｎｔｓｅｎｔｉｍｅｎｔ−ｔｏｐｉｃｄｅｔｅｃｔｉｏｎｆｒｏｍｔｅｘｔ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２４（Ｉｓｓｕｅ６）：１１３４−１１４５．ＤａｎｉｅｌＲａｍａｇｅ，ＳｕｓａｎＤｕｍａｉｓ，ａｎｄＤａｎＬｉｅｂｌｉｎｇ．２０１０．Ｃｈａｒａｃｔｅｒｉｚｉｎｇｍｉｃｒｏｂｌｏｇｓｗｉｔｈｔｏｐｉｃｍｏｄｅｌｓ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｆｏｕｒｔｈｉｎｔｅｒｎａｔｉｏｎａｌＡＡＡＩｃｏｎｆｅｒｅｎｃｅｏｎＷｅｂｌｏｇｓａｎｄＳｏｃｉａｌＭｅｄｉａ，ｐａｇｅｓ１３０−１３７．ＡｌｅｃＧｏ，ＲｉｃｈａＢｈａｙａｎｉ，ａｎｄＬｅｉＨｕａｎｇ．２００９．Ｔｗｉｔｔｅｒｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｄｉｓｔａｎｔｓｕｐｅｒｖｉｓｉｏｎ．Ｔｅｃｈｎｉｃａｌｒｅｐｏｒｔ，ＳｔａｎｆｏｒｄＵｎｉｖｅｒｓｉｔｙ．ＤａｎｉｅｌＲａｍａｇｅ，ＣｈｉｓｔｏｐｈｅｒＤ．Ｍａｎｎｉｎｇ，ａｎｄＳｕｓａｎＤｕｍａｉｓ．２０１１．Ｐａｒｔｉａｌｌｙｌａｂｅｌｅｄｔｏｐｉｃｍｏｄｅｌｓｆｏｒｉｎｔｅｒｐｒｅｔａｂｌｅｔｅｘｔｍｉｎｉｎｇ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１７ｔｈＡＣＭＳＩＧＫＤＤｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙａｎｄｄａｔａｍｉｎｉｎｇ，ｐａｇｅｓ４５７−４６５．ＣｈｒｉｓｔｏｐｈｅｒＤ．Ｍａｎｎｉｎｇ，ＰｒａｂｈａｋａｒＲａｇｈａｖａｎ，ａｎｄＨｉｎｒｉｃｈＳｃｈｕｔｚｅ．２００８．ＴｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄＮａｉｖｅＢａｙｅｓ．ＩｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，ｐａｇｅｓ２３４−２６５．ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ．

本発明は、感性文字列が含まれていない文字列に対しても、複数の標識を付与して、重み調整を行うことなくトピックモデリングを行うようにした情報処理装置及び情報処理プログラムを提供することを目的としている。

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項１の発明は、対象となる文字列を受け付ける受付手段と、感性を示す文字列である感性文字列と該感性を示す標識を対応させて記憶している記憶手段に基づいて、前記受付手段によって受け付けられた文字列内に該感性文字列が含まれているか否かを判断する判断手段と、前記判断手段によって感性文字列が含まれていると判断された場合は、該感性文字列に対応する標識を前記文字列に付与し、感性文字列が含まれていないと判断された場合は、前記記憶手段に含まれている複数の標識を前記文字列に付与する第１の付与手段と、前記文字列からワードを抽出する抽出手段と、前記抽出手段によって抽出されたワードに対して、該ワードが含まれていた文字列に付与されている標識を付与する第２の付与手段と、前記第２の付与手段によって標識が付与された文字列を教師情報として、前記文字列に対して教師ありトピックモデリングを行うモデリング手段と、前記モデリング手段による処理結果を出力する出力手段を具備することを特徴とする情報処理装置である。

請求項２の発明は、前記記憶手段は、標識として感性を否定する標識を有し、前記第１の付与手段は、前記判断手段によって感性文字列が含まれていると判断された場合であって、該感性文字列に対応する標識が、感性を否定する標識であるときは、該感性以外の感性を示す標識を前記文字列に付与することを特徴とする請求項１に記載の情報処理装置である。

請求項３の発明は、前記記憶手段が記憶している感性文字列は、顔文字であることを特徴とする請求項１又は２に記載の情報処理装置である。

請求項４の発明は、前記記憶手段が記憶している感性文字列は、感性を示すワードを含むことを特徴とする請求項３に記載の情報処理装置である。

請求項５の発明は、コンピュータを、対象となる文字列を受け付ける受付手段と、感性を示す文字列である感性文字列と該感性を示す標識を対応させて記憶している記憶手段に基づいて、前記受付手段によって受け付けられた文字列内に該感性文字列が含まれているか否かを判断する判断手段と、前記判断手段によって感性文字列が含まれていると判断された場合は、該感性文字列に対応する標識を前記文字列に付与し、感性文字列が含まれていないと判断された場合は、前記記憶手段に含まれている複数の標識を前記文字列に付与する第１の付与手段と、前記文字列からワードを抽出する抽出手段と、前記抽出手段によって抽出されたワードに対して、該ワードが含まれていた文字列に付与されている標識を付与する第２の付与手段と、前記第２の付与手段によって標識が付与された文字列を教師情報として、前記文字列に対して教師ありトピックモデリングを行うモデリング手段と、前記モデリング手段による処理結果を出力する出力手段として機能させるための情報処理プログラムである。

請求項１の情報処理装置によれば、感性文字列が含まれていない文字列に対しても、複数の標識を付与して、重み調整を行うことなくトピックモデリングを行うことができる。

請求項２の情報処理装置によれば、感性を否定する標識を用いることができる。

請求項３の情報処理装置によれば、感性文字列として顔文字を含めることができる。

請求項４の情報処理装置によれば、感性文字列として感性を示すワードを含めることができる。

請求項５の情報処理プログラムによれば、感性文字列が含まれていない文字列に対しても、複数の標識を付与して、重み調整を行うことなくトピックモデリングを行うことができる。

本実施の形態の構成例についての概念的なモジュール構成図である。本実施の形態による処理例を示すフローチャートである。本実施の形態による処理例を示すフローチャートである。対象テキストデータのデータ構造例を示す説明図である。感性手掛かりテーブルのデータ構造例を示す説明図である。従来技術による処理例を示す説明図である。従来技術による処理例を示す説明図である。従来技術による処理例を示す説明図である。従来技術による処理例を示す説明図である。重み調整テーブルのデータ構造例を示す説明図である。本実施の形態による処理例を示す説明図である。本実施の形態による処理例を示す説明図である。本実施の形態による処理例を示す説明図である。本実施の形態による別の処理例を示すフローチャートである。感性手掛かりテーブルのデータ構造例を示す説明図である。本実施の形態の別の構成例についての概念的なモジュール構成図である。感性手掛かりテーブルのデータ構造例を示す説明図である。感性辞書テーブルのデータ構造例を示す説明図である。ＰＬＤＡによる処理例を示す説明図である。本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。

以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図１は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（コンピュータ・プログラム）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム（コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム）、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続（データの授受、指示、データ間の参照関係等）の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、２以上の値（もちろんのことながら、全ての値も含む）が同じであってもよい。また、「Ａである場合、Ｂをする」という意味を有する記載は、「Ａであるか否かを判断し、Ａであると判断した場合はＢをする」の意味で用いる。ただし、Ａであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」（社会システム）にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、外部記憶媒体、通信回線を介した記憶装置、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）内のレジスタ等を含んでいてもよい。

本実施の形態である情報処理装置は、対象となる文字列（以下、テキストともいう）から感性トピックを抽出するものであって、図１の例に示すように、テキスト受付モジュール１１０、緩いラベル設定モジュール１２０、感性手掛かり記憶モジュール１２５、ワード抽出モジュール１３０、教師ありトピックモデリングモジュール１４０、トピック出力モジュール１５０を有している。
ここで、用語の定義を行う。
感性情報とは、人間の感性と結び付くことを意味する。感性情報の例としては、ポジティブ、ネガティブ、喜怒哀楽等がある。
ワードとは、単語、形態素等のテキストの最小構成要素を意味する。
トピックとは、ＬＤＡ及び関連手法が出力する、ワードの多項分布を意味する。トピックでは関連するワードが高い確率値を持つ。トピックという名称について、ＬＤＡと類似した別の手法では、クラスタ、潜在クラス（ｌａｔｅｎｔｃｌａｓｓ）等の名称も用いられる。
感性トピックとは、何らかの感性情報と結び付いたトピックを意味する。例としては、ポジティブトピック、ネガティブトピック等がある。
ラベル（標識）とは、テキストに付与される特徴を意味する。人手で付けられたもの及びルールに基づいて機械的に付けられたものの両方がある。例としては、“ポジティブ”、“ネガティブ”等がある。
エモティコンとは、感性と強く結び付くテキスト表現を意味する。例としては、顔文字といわれているものがあり、具体的には、“:-)”（楽しい顔）、“orz”（跪いた人）等がある。顔文字とは、文字や記号を組み合わせて表情等を表現したものである。また、エモティコンに、単独のコードで示される絵文字を含めてもよい。
感性手掛かりとは、特定の感性表現（感性情報）と強く結び付くエモティコン等とその感性表現のペアを意味する。例えば、“:-)”と“ポジティブ”等のペアがある。

テキスト受付モジュール１１０は、緩いラベル設定モジュール１２０と接続されている。テキスト受付モジュール１１０は、対象となる文字列を受け付ける。ここでの文字列は、１文字以上の文字の連なりをいう。例えば、ＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）で投稿されたテキスト等がある。
感性手掛かり記憶モジュール１２５は、緩いラベル設定モジュール１２０と接続されている。感性手掛かり記憶モジュール１２５は、感性を示す文字列である感性文字列とその感性を示す標識を対応させて記憶している。つまり、感性手掛かりを格納したＤＢである。
また、感性手掛かり記憶モジュール１２５は、標識として感性を否定する標識を有していてもよい。
また、感性手掛かり記憶モジュール１２５が記憶している感性文字列は、顔文字であってもよい。

緩いラベル設定モジュール１２０は、テキスト受付モジュール１１０、感性手掛かり記憶モジュール１２５、ワード抽出モジュール１３０と接続されている。緩いラベル設定モジュール１２０は、感性手掛かり記憶モジュール１２５に基づいて、テキスト受付モジュール１１０によって受け付けられた文字列内に感性手掛かり記憶モジュール１２５内の感性文字列が含まれているか否かを判断する。そして、感性文字列が含まれていると判断された場合は、その感性文字列に対応する標識を文字列に付与し、感性文字列が含まれていないと判断された場合は、感性手掛かり記憶モジュール１２５に含まれている複数の標識を文字列に付与する。つまり、緩いラベル設定モジュール１２０は、感性手掛かり記憶モジュール１２５内の感性手掛かりに基づいてテキストにラベルを設定する。
また、緩いラベル設定モジュール１２０は、感性文字列が含まれていると判断された場合であって、その感性文字列に対応する標識が、感性を否定する標識であるときは、その感性以外の感性を示す標識をテキスト受付モジュール１１０が受け付けた文字列に付与するようにしてもよい。「感性Ａ以外の感性Ｂを示す標識」とは、感性手掛かり記憶モジュール１２５に含まれている標識であって、否定されている感性Ａではない感性Ｂを示す標識をいう。
なお、緩いラベル設定モジュール１２０の処理における「緩い」について説明する。緩いラベル設定モジュール１２０は、典型的なテキスト分類におけるラベル設定と比較して、ラベルを設定する基準が緩くなっている。ここで、典型的なテキスト分類におけるラベル設定として、例えば、非特許文献６の１３章６節に記載されたＲｅｕｔｅｒｓ−２１５７８を対象としたＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅを用いたテキスト分類手法における基準がある。この非特許文献６に記載の技術では、具体的には、テキストに付与されたラベルをそのまま用いる設定になる。例えば、米国の養豚業者の会議についての記事に対して、データに設定された“ｌｉｖｅｓｔｏｃｋ（家畜）”、“ｈｏｇ（豚）”のラベルを用いることとなる。

ワード抽出モジュール１３０は、緩いラベル設定モジュール１２０、教師ありトピックモデリングモジュール１４０と接続されている。ワード抽出モジュール１３０は、テキスト受付モジュール１１０によって受け付けられた文字列からワードを抽出する。
教師ありトピックモデリングモジュール１４０は、ワード抽出モジュール１３０、トピック出力モジュール１５０と接続されている。教師ありトピックモデリングモジュール１４０は、ワード抽出モジュール１３０によって抽出されたワードに対して、そのワードが含まれていた文字列に付与されている標識を付与する。そして、標識が付与された文字列（ワードであってもよい）を教師情報として、テキスト受付モジュール１１０が受け付けた文字列に対して教師ありトピックモデリングを行う。つまり、教師ありトピックモデリングモジュール１４０は、ラベルとワードが抽出されたテキストに対して教師ありトピックモデリングを実行する。
トピック出力モジュール１５０は、教師ありトピックモデリングモジュール１４０と接続されている。トピック出力モジュール１５０は、教師ありトピックモデリングモジュール１４０による処理結果である感性ラベルと結び付いたトピックを出力する。例えば、後述する図１１の例に示すトピックテーブル１１００を出力する。

図２は、本実施の形態による処理例を示すフローチャートである。
ステップＳ２０２では、テキスト受付モジュール１１０は、対象となるテキストを受け付ける。複数のテキストを受け付ける。なお、その処理は一括でも逐次的でもよい。例えば、対象テキストデータ４００を受け付ける。図４は、対象テキストデータ４００のデータ構造例を示す説明図である。対象テキストデータ４００は、ＩＤ欄４１０、テキスト欄４２０を有している。ＩＤ欄４１０は、本実施の形態においてテキストを一意に識別するためのＩＤ（ＩＤｅｎｔｉｆｉｃａｔｉｏｎ）を記憶している。テキスト欄４２０は、対象となるテキストを記憶している。

ステップＳ２０４では、緩いラベル設定モジュール１２０は、感性手掛かりに基づいてテキストにラベルを設定する。このとき緩い基準でラベル設定を行う。詳細は図３を用いて後述する。
ステップＳ２０６では、ワード抽出モジュール１３０は、ワードをテキストより抽出する。日本語であれば形態素解析器（ＭｅＣａｂ等）を用いて形態素をワードとして抽出する。また、英語等のように分かち書きされている言語であれば、スペースで区切られた文字列をワードとして抽出すればよい。
ステップＳ２０８では、教師ありトピックモデリングモジュール１４０は、ラベルとワードが抽出されたテキストに対して教師ありトピックモデリングを実行する。教師ありトピックモデリング手法としては、例えば、マルチラベルを許す既存の手法であるＰＬＤＡ（非特許文献５（Ｒａｍａｇｅｅｔａｌ．（２０１１））に記載の技術）等を用いる。
ステップＳ２１０では、トピック出力モジュール１５０は、感性ラベルと結び付いたトピックを出力する。

図３は、本実施の形態（緩いラベル設定モジュール１２０）による処理例を示すフローチャートである。この処理は、図２の例に示すフローチャート内のステップＳ２０４の処理例である。
ステップＳ３０２では、各テキストについて感性手掛かりを含むか否かを確かめる。例えば、感性手掛かりテーブル５００を用いる。図５は、感性手掛かりテーブル５００のデータ構造例を示す説明図である。感性手掛かりテーブル５００は、感性手掛かりのデータとしてテキスト表現欄５１０、名称欄５２０、感性情報欄５３０を有している。テキスト表現欄５１０は、エモティコン等のテキスト表現を記憶している。名称欄５２０は、そのエモティコン等の名称を記憶している。感性情報欄５３０は、そのエモティコン等の感性情報を記憶している。なお、感性手掛かりテーブル５００は、少なくともテキスト表現欄５１０と感性情報欄５３０の組み合わせがあればよく、名称欄５２０はなくてもよいし、また他の情報を加えてもよい。

ステップＳ３０４では、対象となっているテキストに対して、名称と感性情報の２つをラベルとして設定する。例えば、図４の例に示す対象テキストデータ４００のＩＤ＝２のテキストと感性手掛かりであれば、“落ち込んでいる顔”ラベル「(´ ・ω ・｀)」と“ネガティブ”ラベルが付与される。
ステップＳ３０６では、対象となっているテキストに対して、全ての感性情報をラベルとして設定する。例えば、図４の例に示す対象テキストデータ４００のＩＤ＝１のテキストでは、感性手掛かりテーブル５００のテキスト表現欄５１０内のテキスト表現がないので、感性情報欄５３０内の全てのラベルである“ポジティブ”、“ネガティブ”ラベルが付与される。

従来技術による処理結果の例を、図６から図１０を用いて示す。その後、図１１を用いて、本実施の形態による処理結果の例示す。
図６は、従来技術（非特許文献１（Ｂｌｅｉｅｔａｌ．（２００３））に記載の技術）による処理例を示す説明図である。ここでは、図４の例に示した対象テキストデータ４００に対する処理結果としてトピックテーブル６００が生成される。トピックテーブル６００は、感性情報欄６１０、トピック欄６２０を有しているが、感性情報欄６１０は使用されない。トピック欄６２０は、各テキストから抽出したトピックを記憶している（ワードの確率値の降順）。つまり、テキスト内の単語の共起に基づきトピックが抽出されるが、感性情報は対応付かない。図６の例では、トピックテーブル６００の１行目内のトピックは破線の下線を各ワードに付し、２行目内のトピックは一重線の下線を各ワードに付し、３行目内のトピックは太い一重線の下線を各ワードに付している。
なお、図６から図１１の例では恣意的に除外している名詞もある（ＩＤ＝１のテレビ等）。もちろんのことながら、これらのワードがトピックに含まれることもありえる。また、動詞、形容詞等で活用しているワードは原形のワードとしてトピックを抽出している。これは、形態素解析等の技術を用いて正規化すればよい。また、助詞、助動詞も存在するが、トピックの要素としては除外している。

図７は、従来技術（非特許文献３（Ｒａｍａｇｅｅｔａｌ．（２０１０））に記載の技術）による処理例を示す説明図である。ここでは、図４の例に示した対象テキストデータ４００に対する処理結果としてトピックテーブル７００が生成される。トピックテーブル７００は、エモティコン欄７１０、感性情報欄７２０、トピック欄７３０を有している。エモティコン欄７１０は、エモティコンを記憶している。感性情報欄７２０は、そのエモティコンに対応する感性情報を記憶している。トピック欄７３０は、そのエモティコン（感性情報）に対応するトピックを記憶している（ワードの確率値の降順）。つまり、この例では、エモティコン／感性情報に対応付いたトピックが抽出される。
なお、この例では、エモティコンを含まないテキスト（ＩＤ＝９の例のように、下線のワードがないテキスト）は感性トピックの抽出に用いられない。

図８は、従来技術（非特許文献２（Ｌｉｎｅｔａｌ．（２０１２）））による処理例を示す説明図である。図４の例に示した対象テキストデータ４００に対する処理結果としてトピックテーブル８００が生成される。この例では、感性表現辞書として、ポジティブに対応するワードとして、例えば、「いい」、「綺麗」等、ネガティブに対応するワードとして、「暑い」、「痛い」、「寒い」、「風邪」、「だるい」等がある。これらのワードがテキストに含まれていれば、トピックテーブル８００を生成できる。トピックテーブル８００は、感性情報欄８１０、トピック欄８２０を有している。感性情報欄８１０は、感性情報を記憶している。トピック欄８２０は、その感性情報に対応するトピックを記憶している（ワードの確率値の降順）。
つまり、感性トピックが抽出されるが、感性表現辞書に依存してしまうことになる。例えば、「オイシー」等の一般的でない表現（感性表現辞書に登録されていない表現）は、ポジティブ／ネガティブに対応が取れないこととなる。

図９は、従来技術（特許文献１（特開２０１３−１３４７５１号公報））による処理例を示す説明図である。図４の例に示した対象テキストデータ４００に対する処理結果としてトピックテーブル（教師なし）９２０が生成される。
まず、対象テキストデータ４００に対して、教師ありのトピック抽出を行って、トピックテーブル（教師あり）９１０を生成する。トピックテーブル（教師あり）９１０は、エモティコン欄９１２、感性情報欄９１４、トピック欄９１６を有している。エモティコン欄９１２は、エモティコンを記憶している。感性情報欄９１４は、そのエモティコンに対応する感性情報を記憶している。トピック欄９１６は、そのエモティコン（感性情報）に対応するトピック（ワードの確率値の降順）を記憶している。そして、対象テキストデータ４００に対して教師なしトピック抽出を行って、トピックテーブル（教師あり）９１０に重み調整テーブル記憶モジュール９３０を用いたバイアスを掛けて、トピックテーブル（教師なし）９２０を生成する。トピックテーブル（教師なし）９２０は、感性情報欄９２２、トピック欄９２４を有している。感性情報欄９２２は、感性情報を記憶している。トピック欄９２４は、その感性情報に対応するトピックを記憶している（ワードの確率値の降順）。ここでバイアスを掛けるとは、トピックにおける教師あり事後確率と教師なし事後確率とを重みを用いて線形補間することである。そして、この線形補間をするために、重み調整テーブル記憶モジュール９３０内の重み調整テーブル１０００を用いる。図１０は、トピックテーブルのデータ構造例を示す説明図である。重み調整テーブル１０００は、イテレーション数欄１０１０、重み欄１０２０を有している。イテレーション数欄１０１０は、イテレーション（繰り返し）回数を記憶している。重み欄１０２０は、そのイテレーション回数に対する重み値を記憶している。つまり、重み調整テーブル１０００には、ＥＭアルゴリズムのイテレーション処理において、繰り返し回数に応じた重み値が設定されている。この従来技術の場合、重みの最適な値はデータにより異なる。

図１１は、本実施の形態による処理例を示す説明図である。ここでは、図４の例に示した対象テキストデータ４００に対する処理結果としてトピックテーブル１１００が生成される。トピックテーブル１１００は、感性情報欄１１１０、トピック欄１１２０を有している。感性情報欄１１１０は、感性情報を記憶している。トピック欄１１２０は、そのラベルに対応するトピックを記憶している（ワードの確率値の降順）。例えば、ポジティブを２つ、ネガティブを１つ、喜んでいる顔を１つにするパラメータで、教師ありトピックモデリングモジュール１４０がトピックを抽出したものである。具体的には、ＩＤ＝８、９、１０のテキストはポジティブ（Ａ）として、ＩＤ＝１、３、６のテキストはポジティブ（Ｂ）として、ＩＤ＝２、４、５、７のテキストはネガティブとして、トピックモデリングされている。そして、喜んでいる顔のように、エモティコン毎に、そのエモティコンに対応したトピックを生成しており、名称ラベル（図５の例に示す感性手掛かりテーブル５００の名称欄５２０）のトピックとして、エモティコン及び頻出する共起ワードを抽出し、ワードの共起とエモティコンに基づいて感性トピックを抽出している。また、トピックモデリングによっては、１つのテキストに対して複数の感性が含まれる場合もある。
また、本実施の形態では、エモティコン、感性表現辞書にトピック抽出対象テキストが限定されない。したがって、対象テキストデータ４００内のＩＤ＝９のようなテキストであってもトピックを抽出できる。ただし、特許文献１に記載の従来技術でも可能ではある。しかし、特許文献１に記載の従来技術では、重み調整テーブルが必要となり、その調整は困難である。
緩いラベル設定モジュール１２０によって、重み調整テーブルなしで感性トピックの抽出を実現している。そして、手掛かりトピックの形成を抑制している。また、感性手掛かり記憶モジュール１２５は、ラベル付与に必要であり、否定条件の感性を設定可能である。

緩いラベル設定モジュール１２０の行う処理について、より詳細に説明する。図１２は、本実施の形態による処理例を示す説明図である。感性手掛かりテーブル１２００は、図５の例に示した感性手掛かりテーブル５００と同等のものである。
緩いラベル設定モジュール１２０のステップＳ３０４の処理では、例えば、ラベル付与参照領域１２５０を用いる。つまり、ワードは感性手掛かりと直接関連する（テキスト内のワードは、テキスト表現欄１２１０内のテキスト表現そのものである）ので、対応する感性情報を付与する。
緩いラベル設定モジュール１２０のステップＳ３０６の処理では、例えば、ラベル付与参照領域１２６０を用いる。つまり、ワードに関連する感性情報は不確定なため、予め定められた感性情報の全て（感性情報欄１２３０内の感性情報）に関連すると想定している。このとき、否定（¬）のある感性は、否定なしの感性（否定されている感性以外の感性を展開したもの）として扱う。

次に、緩いラベル設定モジュール１２０が行うステップＳ３０６処理について詳細に説明する。図１３は、本実施の形態による処理例を示す説明図である。図１３の例における対象テキストデータ４００は、図４の例に示した対象テキストデータ４００のＩＤ＝８、９、１０を抜粋したものである。トピックテーブル１３００は、図１１の例に示したトピックテーブル１１００のポジティブ（Ａ）と喜んでいる顔の行を抜粋したものである。
喜んでいる顔のエモティコンを含んでいるＩＤ＝８のテキストにおけるワードは、“ポジティブ”又は“喜んでいる顔”トピックに所属しやすくなる。
エモティコンが含まれていないＩＤ＝９、ＩＤ＝１０のテキストにおけるワードは、ＩＤ＝８の“飲み”や“オイシー”を含むので“ポジティブ”トピックに所属しやすくなる。
また、“(´∇｀) ノ”はＩＤ＝８にしか出現しないため、トピックテーブル１３００における“喜んでいる顔”トピックに集約される。

図１４は、本実施の形態による別の処理例を示すフローチャートである。これは、図３の例に示したフローチャートの代わりに、図１４の例に示すフローチャートを用いるものである。図１５は、感性手掛かりテーブル１５００のデータ構造例を示す説明図である。感性手掛かりテーブル１５００は、テキスト表現欄１５１０、名称欄１５２０、感性情報欄１５３０を有している。感性手掛かりテーブル１５００は、図５の例に示した感性手掛かりテーブル５００と同等のデータ構造を有している。ただし、感性情報欄１５３０が記憶する感性情報として、否定の感性情報を含んでいる。

ステップＳ１４０２では、感性手掛かりを含むか否かを判断し、含む場合はステップＳ１４０４へ進み、それ以外の場合はステップＳ１４１０へ進む。ステップＳ３０２と同等の処理である。
ステップＳ１４０４では、感性情報は否定条件であるか否かを判断し、否定条件である場合はステップＳ１４０６へ進み、それ以外の場合はステップＳ１４０８へ進む。例えば、図１５の例に示す感性手掛かりテーブル１５００の１行目のように「¬ニュートラル」の場合が、否定条件に該当する。この場合、感情が高まった顔における感性は、それが使用されているテキストの文脈において解釈されるものだからである。
ステップＳ１４０６では、否定感性ラベルを付与する。具体的には、感性手掛かりテーブル１５００のラベル付与参照領域１５５０を用いて、ニュートラル以外の感性ラベル（この場合は、ポジティブとネガティブの２つ）を付与する。
ステップＳ１４０８では、名称・感性ラベルを付与する。ステップＳ３０４と同等の処理である。
ステップＳ１４１０では、全感性ラベルを付与する。ステップＳ３０６と同等の処理である。具体的には、感性手掛かりテーブル１５００のラベル付与参照領域１５６０を用いて、感性ラベルを付与する。ただし、ここでは否定の感性ラベルは付与しない。つまり、名称ラベルと否定以外の全ての感性ラベル（この例ではポジティブとネガティブ）を付与する。

図１６は、本実施の形態の別の構成例についての概念的なモジュール構成図である。この情報処理装置は、テキスト受付モジュール１１０、緩いラベル設定モジュール１２０、感性手掛かり記憶モジュール１２５、感性辞書モジュール１６２７、ワード抽出モジュール１３０、教師ありトピックモデリングモジュール１４０、トピック出力モジュール１５０を有している。つまり、図１の例に示した情報処理装置に感性辞書モジュール１６２７を付加したものである。同種の部位には同一符号を付し重複した説明を省略する。

感性手掛かり記憶モジュール１２５は、緩いラベル設定モジュール１２０と接続されている。感性手掛かり記憶モジュール１２５は、感性辞書モジュール１６２７との組み合わせによって、感性文字列として、感性を示すワードを記憶している。例えば、感性手掛かりテーブル１７００を記憶している。図１７は、感性手掛かりテーブルのデータ構造例を示す説明図である。感性手掛かりテーブル１７００は、条件欄１７１０、名称欄１７２０、感性情報欄１７３０を有している。条件欄１７１０は、ワードの適用条件を記憶している。ここで適用条件とは、感性手掛かりテーブル５００のテキスト表現欄５１０が記憶するエモティコン等のテキスト表現を含み、感性辞書モジュール１６２７内の感性表現にリンクしている。名称欄１７２０は、感性手掛かりテーブル５００の名称欄５２０と同等であり、名称を記憶している。感性情報欄１７３０は、感性手掛かりテーブル５００の感性情報欄５３０と同等であり、感性情報を記憶している。
感性辞書モジュール１６２７は、緩いラベル設定モジュール１２０と接続されている。感性辞書モジュール１６２７は、感性文字列として、感性を示すワードを記憶している。例えば、感性辞書テーブル１８００を記憶している。図１８は、感性辞書テーブル１８００のデータ構造例を示す説明図である。感性辞書テーブル１８００は、感性欄１８１０、感性表現欄１８２０を有している。感性欄１８１０は、感性情報を記憶している。感性表現欄１８２０は、その感性情報を示す具体的な感性表現を記憶している。例えば、ポジティブという感性情報を示す感性表現として、「いい」、「綺麗」等を記憶しており、ネガティブという感性情報を示す感性表現として、「暑い」、「痛い」、「寒い」、「風邪」、「だるい」等を記憶している。

緩いラベル設定モジュール１２０は、テキスト受付モジュール１１０、感性手掛かり記憶モジュール１２５、感性辞書モジュール１６２７、ワード抽出モジュール１３０と接続されている。緩いラベル設定モジュール１２０は、図１の例に示した緩いラベル設定モジュール１２０と同等の機能を有するが、さらに、感性手掛かり記憶モジュール１２５内の感性手掛かりテーブル１７００の条件欄１７１０が「辞書のポジティブ語」である場合は、感性辞書モジュール１６２７内の感性辞書テーブル１８００の感性欄１８１０が「ポジティブ」である感性表現欄１８２０内の感性表現を抽出し、条件欄１７１０が「辞書のネガティブ語」である場合は、感性辞書モジュール１６２７内の感性辞書テーブル１８００の感性欄１８１０が「ネガティブ」である感性表現欄１８２０内の感性表現を抽出する。そして、対象としているテキスト内に、その感性表現があるか否かを判断する。つまり、感性辞書モジュール１６２７とリンクさせることによって、感性文字列として、感性を示すワードを含むようにしている。もちろんのことながら、感性手掛かりテーブル１７００の条件欄１７１０内に感性を示すワードを直接記憶させるようにしてもよい。
そして、図１の例に示した緩いラベル設定モジュール１２０のように、感性手掛かりテーブル１７００のラベル付与参照領域１７５０のように適用する場合（ステップＳ３０４又はステップＳ１４０８の処理）、感性手掛かりテーブル１７００のラベル付与参照領域１７６０のように適用する場合（ステップＳ３０６又はステップＳ１４１０の処理）がある。緩いラベル設定モジュール１２０は、感性辞書モジュール１６２７を用いることによって、感性情報と対応付いたトピックの抽出性能を向上させている。

次に、教師ありトピックモデリングモジュール１４０の処理について説明する。図１９は、ＰＬＤＡによる処理例を示す説明図である。なお、この処理は、既知の技術である。
次に、ＰＬＤＡの生成アルゴリズムを示す。
−−−−− −−−−− −−−−−
それぞれのトピックｋ∈｛１…Ｋ｝について
選択，Φ_ｋ〜Ｄｉｒ（η）
それぞれのドキュメントｄ∈｛１…Ｄ｝について
それぞれのドキュメントラベルｊ∈Λ_ｄ（観測されたラベル）
選択，θ_ｄ，ｊ〜Ｄｉｒ（α）
選択，大きさ｜Λ_ｄ｜のψ_ｄ〜Ｄｉｒ（α）
それぞれのワードｗ∈Ｗ_ｄについて
選択，ラベルｌ〜Ｍｕｌｔ（ψ_ｄ）
選択，トピックｚ〜Ｍｕｌｔ（θ_ｄ，ｊ）
選択，ワードｗ〜Ｍｕｌｔ（Φ_ｚ）
−−−−− −−−−− −−−−−
なお、前述のアルゴリズム中のＤｉｒ（・）はディリクレ分布（Ｄｉｒｉｃｈｌｅｔｄｉｓｔｒｉｂｕｔｉｏｎ）を意味し、Ｍｕｌｔ（・）は多項分布を意味する。ＰＬＤＡではドキュメント集合に対して最適なΦ、ψ、θを計算する必要がある。最適なΦ、ψ、θを効率的に計算する手段は非特許文献５（Ｒａｍａｇｅｅｔａｌ．（２０１１））に記載されている。

なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図２０に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部（演算部）としてＣＰＵ２００１を用い、記憶装置としてＲＡＭ２００２、ＲＯＭ２００３、ＨＤ２００４を用いている。ＨＤ２００４として、例えばハードディスクを用いてもよい。テキスト受付モジュール１１０、緩いラベル設定モジュール１２０、ワード抽出モジュール１３０、教師ありトピックモデリングモジュール１４０、トピック出力モジュール１５０等のプログラムを実行するＣＰＵ２００１と、そのプログラムやデータを記憶するＲＡＭ２００２と、本コンピュータを起動するためのプログラム等が格納されているＲＯＭ２００３と、感性手掛かり記憶モジュール１２５、感性辞書モジュール１６２７等の機能を有する補助記憶装置（フラッシュメモリ等であってもよい）であるＨＤ２００４と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置２００６と、ＣＲＴ、液晶ディスプレイ等の出力装置２００５と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース２００７、そして、それらをつないでデータのやりとりをするためのバス２００８により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。

前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図２０に示すハードウェア構成は、１つの構成例を示すものであり、本実施の形態は、図２０に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア（例えばＡＳＩＣ等）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図２０に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機（スキャナ、プリンタ、複写機、ファックス等のいずれか２つ以上の機能を有している画像処理装置）などに組み込まれていてもよい。

なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ−ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）等、ブルーレイ・ディスク（Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ）、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）、ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌ）メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。

１１０…テキスト受付モジュール
１２０…緩いラベル設定モジュール
１２５…感性手掛かり記憶モジュール
１３０…ワード抽出モジュール
１４０…教師ありトピックモデリングモジュール
１５０…トピック出力モジュール
４００…対象テキストデータ
１６２７…感性辞書モジュール

Claims

対象となる文字列を受け付ける受付手段と、
感性を示す文字列である感性文字列と該感性を示す標識を対応させて記憶している記憶手段に基づいて、前記受付手段によって受け付けられた文字列内に該感性文字列が含まれているか否かを判断する判断手段と、
前記判断手段によって感性文字列が含まれていると判断された場合は、該感性文字列に対応する標識を前記文字列に付与し、感性文字列が含まれていないと判断された場合は、前記記憶手段に含まれている複数の標識を前記文字列に付与する第１の付与手段と、
前記文字列からワードを抽出する抽出手段と、
前記抽出手段によって抽出されたワードに対して、該ワードが含まれていた文字列に付与されている標識を付与する第２の付与手段と、
前記第２の付与手段によって標識が付与された文字列を教師情報として、前記文字列に対して教師ありトピックモデリングを行うモデリング手段と、
前記モデリング手段による処理結果を出力する出力手段
を具備することを特徴とする情報処理装置。
前記記憶手段は、標識として感性を否定する標識を有し、
前記第１の付与手段は、前記判断手段によって感性文字列が含まれていると判断された場合であって、該感性文字列に対応する標識が、感性を否定する標識であるときは、該感性以外の感性を示す標識を前記文字列に付与する
ことを特徴とする請求項１に記載の情報処理装置。
前記記憶手段が記憶している感性文字列は、顔文字である
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記記憶手段が記憶している感性文字列は、感性を示すワードを含む
ことを特徴とする請求項３に記載の情報処理装置。
コンピュータを、
対象となる文字列を受け付ける受付手段と、
感性を示す文字列である感性文字列と該感性を示す標識を対応させて記憶している記憶手段に基づいて、前記受付手段によって受け付けられた文字列内に該感性文字列が含まれているか否かを判断する判断手段と、
前記判断手段によって感性文字列が含まれていると判断された場合は、該感性文字列に対応する標識を前記文字列に付与し、感性文字列が含まれていないと判断された場合は、前記記憶手段に含まれている複数の標識を前記文字列に付与する第１の付与手段と、
前記文字列からワードを抽出する抽出手段と、
前記抽出手段によって抽出されたワードに対して、該ワードが含まれていた文字列に付与されている標識を付与する第２の付与手段と、
前記第２の付与手段によって標識が付与された文字列を教師情報として、前記文字列に対して教師ありトピックモデリングを行うモデリング手段と、
前記モデリング手段による処理結果を出力する出力手段
として機能させるための情報処理プログラム。