JP6070501B2 - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP6070501B2
JP6070501B2 JP2013212825A JP2013212825A JP6070501B2 JP 6070501 B2 JP6070501 B2 JP 6070501B2 JP 2013212825 A JP2013212825 A JP 2013212825A JP 2013212825 A JP2013212825 A JP 2013212825A JP 6070501 B2 JP6070501 B2 JP 6070501B2
Authority
JP
Japan
Prior art keywords
sensitivity
character string
topic
module
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013212825A
Other languages
English (en)
Other versions
JP2015075993A (ja
Inventor
康秀 三浦
康秀 三浦
圭悟 服部
圭悟 服部
大熊 智子
智子 大熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2013212825A priority Critical patent/JP6070501B2/ja
Priority to US14/266,966 priority patent/US9244910B2/en
Publication of JP2015075993A publication Critical patent/JP2015075993A/ja
Application granted granted Critical
Publication of JP6070501B2 publication Critical patent/JP6070501B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、少ない教師ありデータを用いた場合であっても、処理負荷を増大させることなく、人間の直感に合致したトピックモデルを学習することを課題とし、教師あり事後確率付与部で、手掛かり語を含む文書データ毎に手掛かり語に対応するトピックの割合に応じた教師あり事後確率を付与し、事後確率推定部で、トピックモデルパラメータを用いて文書データ毎に教師なし事後確率を推定し、重み付き事後確率付与部で、教師あり事後確率と教師なし事後確率とを重み調整テーブルから取得した重みw(i)を用いて線形補間して重み付き事後確率を付与し、事後確率推定部で、手掛かり語を含まない文書データ毎に教師なし事後確率を推定し、パラメータ更新部で、予め定めたトピック数、教師なし事後確率、及び重み付き事後確率に基づいて、トピックモデルパラメータを更新することが開示されている。
特許文献2には、各技術対象分野の特許専門家が人手のみにより特許マップを作成することに起因する量的な限界と高価な費用という課題を解決するために、コンピュータ等により自動的又は半自動的に特許マップを生成する方法を提供することを課題とし、特許マップ生成の対象となる特許明細文書群に含まれる語に関する知識ベースであるところの概念ベースを、特許明細文書群における語の使われ方を統計処理することにより生成し、その概念ベースを用いて特許明細文書群に含まれる個々の特許明細文書についてのベクトル値を計算し、そのベクトル値に基づいて特許明細文書群をクラスタリングすることにより、特許明細文書群の個々の特許明細書が表す特許がどのクラスタに属するかに基づいて、個々の特許の特許明細文書群における位置づけを明らかにし、その位置を視覚化することにより特許マップを生成することが開示されている。
特許文献3には、テキスト類別システムを提供することを課題とし、ドキュメントのサンプルが収集された後、クラスタ・アルゴリズムを用いてクラスタ化し、クラスタは、SMEなどに解析され、その結果を改良するためにクラスタ分析システムへルールを適用すべきかを判断し、顧客がクラスタ分析結果に満足しなかった場合、同義語セットなどのルールをクラスタ分析システムへ戻し、顧客がクラスタ分析結果に満足した場合、類別のために、トレーニング・セットとして類別システムへ分配され、このような類別されたドキュメントは、統計的及び/又は他の解析を介して動作可能な知識へ変換するために解析されることが開示されている。
非特許文献1には、テキストコーパス及びその他離散データ集合をモデル化する手法であって、トピックモデリング手法の一種であるLatent Dirichlet Allocation(LDA)では、モデルとしてワードの多項分布であるトピックを抽出することが開示されている。
非特許文献2には、トピックモデリング手法の一種として、LDAを拡張し、感性情報の付与されたトピックを抽出することが開示されている。
非特許文献3には、LDAを拡張した教師ありトピックモデリング手法の一種であるLabeled LDAを用いて、マイクロブログからトピック抽出する手法が開示されている。
非特許文献4には、エモティコンをラベルとして、教師あり学習モデルを用いたポジティブ・ネガティブ判定器を実現することが開示されている。
非特許文献5には、教師ありトピックモデリング手法として、マルチラベルを許す手法であるPLDAが開示されている。
非特許文献6には、テキスト分類におけるラベル設定の技術が開示されている。
特開2013−134751号公報 特開2005−339412号公報 特開2007−058863号公報
David M. Blei, Andrew Y. Ng, and Michael I. Jordan. 2003. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993−1022. Chenghua Lin, Yulan He, Richard Everson, and Stefan Ruger. 2012. Weakly supervised joint sentiment−topic detection from text. IEEE Transactions on Knowledge and Data Engineering, 24(Issue 6):1134−1145. Daniel Ramage, Susan Dumais, and Dan Liebling. 2010. Characterizing microblogs with topic models. In Proceedings of the fourth international AAAI conference on Weblogs and Social Media, pages 130−137. Alec Go, Richa Bhayani, and Lei Huang. 2009. Twitter sentiment classification using distant supervision. Technical report, Stanford University. Daniel Ramage, Chistopher D. Manning, and Susan Dumais. 2011. Partially labeled topic models for interpretable text mining. In Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 457−465. Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schutze. 2008. Text classification and Naive Bayes. In Introduction to Information Retrieval, pages 234−265. Cambridge University Press.
本発明は、感性文字列が含まれていない文字列に対しても、複数の標識を付与して、重み調整を行うことなくトピックモデリングを行うようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、対象となる文字列を受け付ける受付手段と、感性を示す文字列である感性文字列と該感性を示す標識を対応させて記憶している記憶手段に基づいて、前記受付手段によって受け付けられた文字列内に該感性文字列が含まれているか否かを判断する判断手段と、前記判断手段によって感性文字列が含まれていると判断された場合は、該感性文字列に対応する標識を前記文字列に付与し、感性文字列が含まれていないと判断された場合は、前記記憶手段に含まれている複数の標識を前記文字列に付与する第1の付与手段と、前記文字列からワードを抽出する抽出手段と、前記抽出手段によって抽出されたワードに対して、該ワードが含まれていた文字列に付与されている標識を付与する第2の付与手段と、前記第2の付与手段によって標識が付与された文字列を教師情報として、前記文字列に対して教師ありトピックモデリングを行うモデリング手段と、前記モデリング手段による処理結果を出力する出力手段を具備することを特徴とする情報処理装置である。
請求項2の発明は、前記記憶手段は、標識として感性を否定する標識を有し、前記第1の付与手段は、前記判断手段によって感性文字列が含まれていると判断された場合であって、該感性文字列に対応する標識が、感性を否定する標識であるときは、該感性以外の感性を示す標識を前記文字列に付与することを特徴とする請求項1に記載の情報処理装置である。
請求項3の発明は、前記記憶手段が記憶している感性文字列は、顔文字であることを特徴とする請求項1又は2に記載の情報処理装置である。
請求項4の発明は、前記記憶手段が記憶している感性文字列は、感性を示すワードを含むことを特徴とする請求項3に記載の情報処理装置である。
請求項5の発明は、コンピュータを、対象となる文字列を受け付ける受付手段と、感性を示す文字列である感性文字列と該感性を示す標識を対応させて記憶している記憶手段に基づいて、前記受付手段によって受け付けられた文字列内に該感性文字列が含まれているか否かを判断する判断手段と、前記判断手段によって感性文字列が含まれていると判断された場合は、該感性文字列に対応する標識を前記文字列に付与し、感性文字列が含まれていないと判断された場合は、前記記憶手段に含まれている複数の標識を前記文字列に付与する第1の付与手段と、前記文字列からワードを抽出する抽出手段と、前記抽出手段によって抽出されたワードに対して、該ワードが含まれていた文字列に付与されている標識を付与する第2の付与手段と、前記第2の付与手段によって標識が付与された文字列を教師情報として、前記文字列に対して教師ありトピックモデリングを行うモデリング手段と、前記モデリング手段による処理結果を出力する出力手段として機能させるための情報処理プログラムである。
請求項1の情報処理装置によれば、感性文字列が含まれていない文字列に対しても、複数の標識を付与して、重み調整を行うことなくトピックモデリングを行うことができる。
請求項2の情報処理装置によれば、感性を否定する標識を用いることができる。
請求項3の情報処理装置によれば、感性文字列として顔文字を含めることができる。
請求項4の情報処理装置によれば、感性文字列として感性を示すワードを含めることができる。
請求項5の情報処理プログラムによれば、感性文字列が含まれていない文字列に対しても、複数の標識を付与して、重み調整を行うことなくトピックモデリングを行うことができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示すフローチャートである。 対象テキストデータのデータ構造例を示す説明図である。 感性手掛かりテーブルのデータ構造例を示す説明図である。 従来技術による処理例を示す説明図である。 従来技術による処理例を示す説明図である。 従来技術による処理例を示す説明図である。 従来技術による処理例を示す説明図である。 重み調整テーブルのデータ構造例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による別の処理例を示すフローチャートである。 感性手掛かりテーブルのデータ構造例を示す説明図である。 本実施の形態の別の構成例についての概念的なモジュール構成図である。 感性手掛かりテーブルのデータ構造例を示す説明図である。 感性辞書テーブルのデータ構造例を示す説明図である。 PLDAによる処理例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置は、対象となる文字列(以下、テキストともいう)から感性トピックを抽出するものであって、図1の例に示すように、テキスト受付モジュール110、緩いラベル設定モジュール120、感性手掛かり記憶モジュール125、ワード抽出モジュール130、教師ありトピックモデリングモジュール140、トピック出力モジュール150を有している。
ここで、用語の定義を行う。
感性情報とは、人間の感性と結び付くことを意味する。感性情報の例としては、ポジティブ、ネガティブ、喜怒哀楽等がある。
ワードとは、単語、形態素等のテキストの最小構成要素を意味する。
トピックとは、LDA及び関連手法が出力する、ワードの多項分布を意味する。トピックでは関連するワードが高い確率値を持つ。トピックという名称について、LDAと類似した別の手法では、クラスタ、潜在クラス(latent class)等の名称も用いられる。
感性トピックとは、何らかの感性情報と結び付いたトピックを意味する。例としては、ポジティブトピック、ネガティブトピック等がある。
ラベル(標識)とは、テキストに付与される特徴を意味する。人手で付けられたもの及びルールに基づいて機械的に付けられたものの両方がある。例としては、“ポジティブ”、“ネガティブ”等がある。
エモティコンとは、感性と強く結び付くテキスト表現を意味する。例としては、顔文字といわれているものがあり、具体的には、“:-)”(楽しい顔)、“orz”(跪いた人)等がある。顔文字とは、文字や記号を組み合わせて表情等を表現したものである。また、エモティコンに、単独のコードで示される絵文字を含めてもよい。
感性手掛かりとは、特定の感性表現(感性情報)と強く結び付くエモティコン等とその感性表現のペアを意味する。例えば、“:-)”と“ポジティブ”等のペアがある。
テキスト受付モジュール110は、緩いラベル設定モジュール120と接続されている。テキスト受付モジュール110は、対象となる文字列を受け付ける。ここでの文字列は、1文字以上の文字の連なりをいう。例えば、SNS(Social Networking Service)で投稿されたテキスト等がある。
感性手掛かり記憶モジュール125は、緩いラベル設定モジュール120と接続されている。感性手掛かり記憶モジュール125は、感性を示す文字列である感性文字列とその感性を示す標識を対応させて記憶している。つまり、感性手掛かりを格納したDBである。
また、感性手掛かり記憶モジュール125は、標識として感性を否定する標識を有していてもよい。
また、感性手掛かり記憶モジュール125が記憶している感性文字列は、顔文字であってもよい。
緩いラベル設定モジュール120は、テキスト受付モジュール110、感性手掛かり記憶モジュール125、ワード抽出モジュール130と接続されている。緩いラベル設定モジュール120は、感性手掛かり記憶モジュール125に基づいて、テキスト受付モジュール110によって受け付けられた文字列内に感性手掛かり記憶モジュール125内の感性文字列が含まれているか否かを判断する。そして、感性文字列が含まれていると判断された場合は、その感性文字列に対応する標識を文字列に付与し、感性文字列が含まれていないと判断された場合は、感性手掛かり記憶モジュール125に含まれている複数の標識を文字列に付与する。つまり、緩いラベル設定モジュール120は、感性手掛かり記憶モジュール125内の感性手掛かりに基づいてテキストにラベルを設定する。
また、緩いラベル設定モジュール120は、感性文字列が含まれていると判断された場合であって、その感性文字列に対応する標識が、感性を否定する標識であるときは、その感性以外の感性を示す標識をテキスト受付モジュール110が受け付けた文字列に付与するようにしてもよい。「感性A以外の感性Bを示す標識」とは、感性手掛かり記憶モジュール125に含まれている標識であって、否定されている感性Aではない感性Bを示す標識をいう。
なお、緩いラベル設定モジュール120の処理における「緩い」について説明する。緩いラベル設定モジュール120は、典型的なテキスト分類におけるラベル設定と比較して、ラベルを設定する基準が緩くなっている。ここで、典型的なテキスト分類におけるラベル設定として、例えば、非特許文献6の13章6節に記載されたReuters−21578を対象としたSupport Vector Machineを用いたテキスト分類手法における基準がある。この非特許文献6に記載の技術では、具体的には、テキストに付与されたラベルをそのまま用いる設定になる。例えば、米国の養豚業者の会議についての記事に対して、データに設定された“livestock(家畜)”、“hog(豚)”のラベルを用いることとなる。
ワード抽出モジュール130は、緩いラベル設定モジュール120、教師ありトピックモデリングモジュール140と接続されている。ワード抽出モジュール130は、テキスト受付モジュール110によって受け付けられた文字列からワードを抽出する。
教師ありトピックモデリングモジュール140は、ワード抽出モジュール130、トピック出力モジュール150と接続されている。教師ありトピックモデリングモジュール140は、ワード抽出モジュール130によって抽出されたワードに対して、そのワードが含まれていた文字列に付与されている標識を付与する。そして、標識が付与された文字列(ワードであってもよい)を教師情報として、テキスト受付モジュール110が受け付けた文字列に対して教師ありトピックモデリングを行う。つまり、教師ありトピックモデリングモジュール140は、ラベルとワードが抽出されたテキストに対して教師ありトピックモデリングを実行する。
トピック出力モジュール150は、教師ありトピックモデリングモジュール140と接続されている。トピック出力モジュール150は、教師ありトピックモデリングモジュール140による処理結果である感性ラベルと結び付いたトピックを出力する。例えば、後述する図11の例に示すトピックテーブル1100を出力する。
図2は、本実施の形態による処理例を示すフローチャートである。
ステップS202では、テキスト受付モジュール110は、対象となるテキストを受け付ける。複数のテキストを受け付ける。なお、その処理は一括でも逐次的でもよい。例えば、対象テキストデータ400を受け付ける。図4は、対象テキストデータ400のデータ構造例を示す説明図である。対象テキストデータ400は、ID欄410、テキスト欄420を有している。ID欄410は、本実施の形態においてテキストを一意に識別するためのID(IDentification)を記憶している。テキスト欄420は、対象となるテキストを記憶している。
ステップS204では、緩いラベル設定モジュール120は、感性手掛かりに基づいてテキストにラベルを設定する。このとき緩い基準でラベル設定を行う。詳細は図3を用いて後述する。
ステップS206では、ワード抽出モジュール130は、ワードをテキストより抽出する。日本語であれば形態素解析器(MeCab等)を用いて形態素をワードとして抽出する。また、英語等のように分かち書きされている言語であれば、スペースで区切られた文字列をワードとして抽出すればよい。
ステップS208では、教師ありトピックモデリングモジュール140は、ラベルとワードが抽出されたテキストに対して教師ありトピックモデリングを実行する。教師ありトピックモデリング手法としては、例えば、マルチラベルを許す既存の手法であるPLDA(非特許文献5(Ramage et al.(2011))に記載の技術)等を用いる。
ステップS210では、トピック出力モジュール150は、感性ラベルと結び付いたトピックを出力する。
図3は、本実施の形態(緩いラベル設定モジュール120)による処理例を示すフローチャートである。この処理は、図2の例に示すフローチャート内のステップS204の処理例である。
ステップS302では、各テキストについて感性手掛かりを含むか否かを確かめる。例えば、感性手掛かりテーブル500を用いる。図5は、感性手掛かりテーブル500のデータ構造例を示す説明図である。感性手掛かりテーブル500は、感性手掛かりのデータとしてテキスト表現欄510、名称欄520、感性情報欄530を有している。テキスト表現欄510は、エモティコン等のテキスト表現を記憶している。名称欄520は、そのエモティコン等の名称を記憶している。感性情報欄530は、そのエモティコン等の感性情報を記憶している。なお、感性手掛かりテーブル500は、少なくともテキスト表現欄510と感性情報欄530の組み合わせがあればよく、名称欄520はなくてもよいし、また他の情報を加えてもよい。
ステップS304では、対象となっているテキストに対して、名称と感性情報の2つをラベルとして設定する。例えば、図4の例に示す対象テキストデータ400のID=2のテキストと感性手掛かりであれば、“落ち込んでいる顔”ラベル「(´ ・ω ・`)」と“ネガティブ”ラベルが付与される。
ステップS306では、対象となっているテキストに対して、全ての感性情報をラベルとして設定する。例えば、図4の例に示す対象テキストデータ400のID=1のテキストでは、感性手掛かりテーブル500のテキスト表現欄510内のテキスト表現がないので、感性情報欄530内の全てのラベルである“ポジティブ”、“ネガティブ”ラベルが付与される。
従来技術による処理結果の例を、図6から図10を用いて示す。その後、図11を用いて、本実施の形態による処理結果の例示す。
図6は、従来技術(非特許文献1(Blei et al. (2003))に記載の技術)による処理例を示す説明図である。ここでは、図4の例に示した対象テキストデータ400に対する処理結果としてトピックテーブル600が生成される。トピックテーブル600は、感性情報欄610、トピック欄620を有しているが、感性情報欄610は使用されない。トピック欄620は、各テキストから抽出したトピックを記憶している(ワードの確率値の降順)。つまり、テキスト内の単語の共起に基づきトピックが抽出されるが、感性情報は対応付かない。図6の例では、トピックテーブル600の1行目内のトピックは破線の下線を各ワードに付し、2行目内のトピックは一重線の下線を各ワードに付し、3行目内のトピックは太い一重線の下線を各ワードに付している。
なお、図6から図11の例では恣意的に除外している名詞もある(ID=1のテレビ等)。もちろんのことながら、これらのワードがトピックに含まれることもありえる。また、動詞、形容詞等で活用しているワードは原形のワードとしてトピックを抽出している。これは、形態素解析等の技術を用いて正規化すればよい。また、助詞、助動詞も存在するが、トピックの要素としては除外している。
図7は、従来技術(非特許文献3(Ramage et al. (2010))に記載の技術)による処理例を示す説明図である。ここでは、図4の例に示した対象テキストデータ400に対する処理結果としてトピックテーブル700が生成される。トピックテーブル700は、エモティコン欄710、感性情報欄720、トピック欄730を有している。エモティコン欄710は、エモティコンを記憶している。感性情報欄720は、そのエモティコンに対応する感性情報を記憶している。トピック欄730は、そのエモティコン(感性情報)に対応するトピックを記憶している(ワードの確率値の降順)。つまり、この例では、エモティコン/感性情報に対応付いたトピックが抽出される。
なお、この例では、エモティコンを含まないテキスト(ID=9の例のように、下線のワードがないテキスト)は感性トピックの抽出に用いられない。
図8は、従来技術(非特許文献2(Lin et al. (2012)))による処理例を示す説明図である。図4の例に示した対象テキストデータ400に対する処理結果としてトピックテーブル800が生成される。この例では、感性表現辞書として、ポジティブに対応するワードとして、例えば、「いい」、「綺麗」等、ネガティブに対応するワードとして、「暑い」、「痛い」、「寒い」、「風邪」、「だるい」等がある。これらのワードがテキストに含まれていれば、トピックテーブル800を生成できる。トピックテーブル800は、感性情報欄810、トピック欄820を有している。感性情報欄810は、感性情報を記憶している。トピック欄820は、その感性情報に対応するトピックを記憶している(ワードの確率値の降順)。
つまり、感性トピックが抽出されるが、感性表現辞書に依存してしまうことになる。例えば、「オイシー」等の一般的でない表現(感性表現辞書に登録されていない表現)は、ポジティブ/ネガティブに対応が取れないこととなる。
図9は、従来技術(特許文献1(特開2013−134751号公報))による処理例を示す説明図である。図4の例に示した対象テキストデータ400に対する処理結果としてトピックテーブル(教師なし)920が生成される。
まず、対象テキストデータ400に対して、教師ありのトピック抽出を行って、トピックテーブル(教師あり)910を生成する。トピックテーブル(教師あり)910は、エモティコン欄912、感性情報欄914、トピック欄916を有している。エモティコン欄912は、エモティコンを記憶している。感性情報欄914は、そのエモティコンに対応する感性情報を記憶している。トピック欄916は、そのエモティコン(感性情報)に対応するトピック(ワードの確率値の降順)を記憶している。そして、対象テキストデータ400に対して教師なしトピック抽出を行って、トピックテーブル(教師あり)910に重み調整テーブル記憶モジュール930を用いたバイアスを掛けて、トピックテーブル(教師なし)920を生成する。トピックテーブル(教師なし)920は、感性情報欄922、トピック欄924を有している。感性情報欄922は、感性情報を記憶している。トピック欄924は、その感性情報に対応するトピックを記憶している(ワードの確率値の降順)。ここでバイアスを掛けるとは、トピックにおける教師あり事後確率と教師なし事後確率とを重みを用いて線形補間することである。そして、この線形補間をするために、重み調整テーブル記憶モジュール930内の重み調整テーブル1000を用いる。図10は、トピックテーブルのデータ構造例を示す説明図である。重み調整テーブル1000は、イテレーション数欄1010、重み欄1020を有している。イテレーション数欄1010は、イテレーション(繰り返し)回数を記憶している。重み欄1020は、そのイテレーション回数に対する重み値を記憶している。つまり、重み調整テーブル1000には、EMアルゴリズムのイテレーション処理において、繰り返し回数に応じた重み値が設定されている。この従来技術の場合、重みの最適な値はデータにより異なる。
図11は、本実施の形態による処理例を示す説明図である。ここでは、図4の例に示した対象テキストデータ400に対する処理結果としてトピックテーブル1100が生成される。トピックテーブル1100は、感性情報欄1110、トピック欄1120を有している。感性情報欄1110は、感性情報を記憶している。トピック欄1120は、そのラベルに対応するトピックを記憶している(ワードの確率値の降順)。例えば、ポジティブを2つ、ネガティブを1つ、喜んでいる顔を1つにするパラメータで、教師ありトピックモデリングモジュール140がトピックを抽出したものである。具体的には、ID=8、9、10のテキストはポジティブ(A)として、ID=1、3、6のテキストはポジティブ(B)として、ID=2、4、5、7のテキストはネガティブとして、トピックモデリングされている。そして、喜んでいる顔のように、エモティコン毎に、そのエモティコンに対応したトピックを生成しており、名称ラベル(図5の例に示す感性手掛かりテーブル500の名称欄520)のトピックとして、エモティコン及び頻出する共起ワードを抽出し、ワードの共起とエモティコンに基づいて感性トピックを抽出している。また、トピックモデリングによっては、1つのテキストに対して複数の感性が含まれる場合もある。
また、本実施の形態では、エモティコン、感性表現辞書にトピック抽出対象テキストが限定されない。したがって、対象テキストデータ400内のID=9のようなテキストであってもトピックを抽出できる。ただし、特許文献1に記載の従来技術でも可能ではある。しかし、特許文献1に記載の従来技術では、重み調整テーブルが必要となり、その調整は困難である。
緩いラベル設定モジュール120によって、重み調整テーブルなしで感性トピックの抽出を実現している。そして、手掛かりトピックの形成を抑制している。また、感性手掛かり記憶モジュール125は、ラベル付与に必要であり、否定条件の感性を設定可能である。
緩いラベル設定モジュール120の行う処理について、より詳細に説明する。図12は、本実施の形態による処理例を示す説明図である。感性手掛かりテーブル1200は、図5の例に示した感性手掛かりテーブル500と同等のものである。
緩いラベル設定モジュール120のステップS304の処理では、例えば、ラベル付与参照領域1250を用いる。つまり、ワードは感性手掛かりと直接関連する(テキスト内のワードは、テキスト表現欄1210内のテキスト表現そのものである)ので、対応する感性情報を付与する。
緩いラベル設定モジュール120のステップS306の処理では、例えば、ラベル付与参照領域1260を用いる。つまり、ワードに関連する感性情報は不確定なため、予め定められた感性情報の全て(感性情報欄1230内の感性情報)に関連すると想定している。このとき、否定(¬)のある感性は、否定なしの感性(否定されている感性以外の感性を展開したもの)として扱う。
次に、緩いラベル設定モジュール120が行うステップS306処理について詳細に説明する。図13は、本実施の形態による処理例を示す説明図である。図13の例における対象テキストデータ400は、図4の例に示した対象テキストデータ400のID=8、9、10を抜粋したものである。トピックテーブル1300は、図11の例に示したトピックテーブル1100のポジティブ(A)と喜んでいる顔の行を抜粋したものである。
喜んでいる顔のエモティコンを含んでいるID=8のテキストにおけるワードは、“ポジティブ”又は“喜んでいる顔”トピックに所属しやすくなる。
エモティコンが含まれていないID=9、ID=10のテキストにおけるワードは、ID=8の“飲み”や“オイシー”を含むので“ポジティブ”トピックに所属しやすくなる。
また、“(´∇`) ノ”はID=8にしか出現しないため、トピックテーブル1300における“喜んでいる顔”トピックに集約される。
図14は、本実施の形態による別の処理例を示すフローチャートである。これは、図3の例に示したフローチャートの代わりに、図14の例に示すフローチャートを用いるものである。図15は、感性手掛かりテーブル1500のデータ構造例を示す説明図である。感性手掛かりテーブル1500は、テキスト表現欄1510、名称欄1520、感性情報欄1530を有している。感性手掛かりテーブル1500は、図5の例に示した感性手掛かりテーブル500と同等のデータ構造を有している。ただし、感性情報欄1530が記憶する感性情報として、否定の感性情報を含んでいる。
ステップS1402では、感性手掛かりを含むか否かを判断し、含む場合はステップS1404へ進み、それ以外の場合はステップS1410へ進む。ステップS302と同等の処理である。
ステップS1404では、感性情報は否定条件であるか否かを判断し、否定条件である場合はステップS1406へ進み、それ以外の場合はステップS1408へ進む。例えば、図15の例に示す感性手掛かりテーブル1500の1行目のように「¬ニュートラル」の場合が、否定条件に該当する。この場合、感情が高まった顔における感性は、それが使用されているテキストの文脈において解釈されるものだからである。
ステップS1406では、否定感性ラベルを付与する。具体的には、感性手掛かりテーブル1500のラベル付与参照領域1550を用いて、ニュートラル以外の感性ラベル(この場合は、ポジティブとネガティブの2つ)を付与する。
ステップS1408では、名称・感性ラベルを付与する。ステップS304と同等の処理である。
ステップS1410では、全感性ラベルを付与する。ステップS306と同等の処理である。具体的には、感性手掛かりテーブル1500のラベル付与参照領域1560を用いて、感性ラベルを付与する。ただし、ここでは否定の感性ラベルは付与しない。つまり、名称ラベルと否定以外の全ての感性ラベル(この例ではポジティブとネガティブ)を付与する。
図16は、本実施の形態の別の構成例についての概念的なモジュール構成図である。この情報処理装置は、テキスト受付モジュール110、緩いラベル設定モジュール120、感性手掛かり記憶モジュール125、感性辞書モジュール1627、ワード抽出モジュール130、教師ありトピックモデリングモジュール140、トピック出力モジュール150を有している。つまり、図1の例に示した情報処理装置に感性辞書モジュール1627を付加したものである。同種の部位には同一符号を付し重複した説明を省略する。
感性手掛かり記憶モジュール125は、緩いラベル設定モジュール120と接続されている。感性手掛かり記憶モジュール125は、感性辞書モジュール1627との組み合わせによって、感性文字列として、感性を示すワードを記憶している。例えば、感性手掛かりテーブル1700を記憶している。図17は、感性手掛かりテーブルのデータ構造例を示す説明図である。感性手掛かりテーブル1700は、条件欄1710、名称欄1720、感性情報欄1730を有している。条件欄1710は、ワードの適用条件を記憶している。ここで適用条件とは、感性手掛かりテーブル500のテキスト表現欄510が記憶するエモティコン等のテキスト表現を含み、感性辞書モジュール1627内の感性表現にリンクしている。名称欄1720は、感性手掛かりテーブル500の名称欄520と同等であり、名称を記憶している。感性情報欄1730は、感性手掛かりテーブル500の感性情報欄530と同等であり、感性情報を記憶している。
感性辞書モジュール1627は、緩いラベル設定モジュール120と接続されている。感性辞書モジュール1627は、感性文字列として、感性を示すワードを記憶している。例えば、感性辞書テーブル1800を記憶している。図18は、感性辞書テーブル1800のデータ構造例を示す説明図である。感性辞書テーブル1800は、感性欄1810、感性表現欄1820を有している。感性欄1810は、感性情報を記憶している。感性表現欄1820は、その感性情報を示す具体的な感性表現を記憶している。例えば、ポジティブという感性情報を示す感性表現として、「いい」、「綺麗」等を記憶しており、ネガティブという感性情報を示す感性表現として、「暑い」、「痛い」、「寒い」、「風邪」、「だるい」等を記憶している。
緩いラベル設定モジュール120は、テキスト受付モジュール110、感性手掛かり記憶モジュール125、感性辞書モジュール1627、ワード抽出モジュール130と接続されている。緩いラベル設定モジュール120は、図1の例に示した緩いラベル設定モジュール120と同等の機能を有するが、さらに、感性手掛かり記憶モジュール125内の感性手掛かりテーブル1700の条件欄1710が「辞書のポジティブ語」である場合は、感性辞書モジュール1627内の感性辞書テーブル1800の感性欄1810が「ポジティブ」である感性表現欄1820内の感性表現を抽出し、条件欄1710が「辞書のネガティブ語」である場合は、感性辞書モジュール1627内の感性辞書テーブル1800の感性欄1810が「ネガティブ」である感性表現欄1820内の感性表現を抽出する。そして、対象としているテキスト内に、その感性表現があるか否かを判断する。つまり、感性辞書モジュール1627とリンクさせることによって、感性文字列として、感性を示すワードを含むようにしている。もちろんのことながら、感性手掛かりテーブル1700の条件欄1710内に感性を示すワードを直接記憶させるようにしてもよい。
そして、図1の例に示した緩いラベル設定モジュール120のように、感性手掛かりテーブル1700のラベル付与参照領域1750のように適用する場合(ステップS304又はステップS1408の処理)、感性手掛かりテーブル1700のラベル付与参照領域1760のように適用する場合(ステップS306又はステップS1410の処理)がある。緩いラベル設定モジュール120は、感性辞書モジュール1627を用いることによって、感性情報と対応付いたトピックの抽出性能を向上させている。
次に、教師ありトピックモデリングモジュール140の処理について説明する。図19は、PLDAによる処理例を示す説明図である。なお、この処理は、既知の技術である。
次に、PLDAの生成アルゴリズムを示す。
−−−−− −−−−− −−−−−
それぞれのトピックk∈{1…K}について
選択,Φ〜Dir(η)
それぞれのドキュメントd∈{1…D}について
それぞれのドキュメントラベルj∈Λ(観測されたラベル)
選択,θd,j〜Dir(α)
選択,大きさ|Λ|のψ〜Dir(α)
それぞれのワードw∈Wについて
選択,ラベルl〜Mult(ψ
選択,トピックz〜Mult(θd,j
選択,ワードw〜Mult(Φ
−−−−− −−−−− −−−−−
なお、前述のアルゴリズム中のDir(・)はディリクレ分布(Dirichlet distribution)を意味し、Mult(・)は多項分布を意味する。PLDAではドキュメント集合に対して最適なΦ、ψ、θを計算する必要がある。最適なΦ、ψ、θを効率的に計算する手段は非特許文献5(Ramage et al.(2011))に記載されている。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図20に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU2001を用い、記憶装置としてRAM2002、ROM2003、HD2004を用いている。HD2004として、例えばハードディスクを用いてもよい。テキスト受付モジュール110、緩いラベル設定モジュール120、ワード抽出モジュール130、教師ありトピックモデリングモジュール140、トピック出力モジュール150等のプログラムを実行するCPU2001と、そのプログラムやデータを記憶するRAM2002と、本コンピュータを起動するためのプログラム等が格納されているROM2003と、感性手掛かり記憶モジュール125、感性辞書モジュール1627等の機能を有する補助記憶装置(フラッシュメモリ等であってもよい)であるHD2004と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置2006と、CRT、液晶ディスプレイ等の出力装置2005と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース2007、そして、それらをつないでデータのやりとりをするためのバス2008により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図20に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図20に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図20に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
110…テキスト受付モジュール
120…緩いラベル設定モジュール
125…感性手掛かり記憶モジュール
130…ワード抽出モジュール
140…教師ありトピックモデリングモジュール
150…トピック出力モジュール
400…対象テキストデータ
1627…感性辞書モジュール

Claims (5)

  1. 対象となる文字列を受け付ける受付手段と、
    感性を示す文字列である感性文字列と該感性を示す標識を対応させて記憶している記憶手段に基づいて、前記受付手段によって受け付けられた文字列内に該感性文字列が含まれているか否かを判断する判断手段と、
    前記判断手段によって感性文字列が含まれていると判断された場合は、該感性文字列に対応する標識を前記文字列に付与し、感性文字列が含まれていないと判断された場合は、前記記憶手段に含まれている複数の標識を前記文字列に付与する第1の付与手段と、
    前記文字列からワードを抽出する抽出手段と、
    前記抽出手段によって抽出されたワードに対して、該ワードが含まれていた文字列に付与されている標識を付与する第2の付与手段と、
    前記第2の付与手段によって標識が付与された文字列を教師情報として、前記文字列に対して教師ありトピックモデリングを行うモデリング手段と、
    前記モデリング手段による処理結果を出力する出力手段
    を具備することを特徴とする情報処理装置。
  2. 前記記憶手段は、標識として感性を否定する標識を有し、
    前記第1の付与手段は、前記判断手段によって感性文字列が含まれていると判断された場合であって、該感性文字列に対応する標識が、感性を否定する標識であるときは、該感性以外の感性を示す標識を前記文字列に付与する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記記憶手段が記憶している感性文字列は、顔文字である
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記記憶手段が記憶している感性文字列は、感性を示すワードを含む
    ことを特徴とする請求項3に記載の情報処理装置。
  5. コンピュータを、
    対象となる文字列を受け付ける受付手段と、
    感性を示す文字列である感性文字列と該感性を示す標識を対応させて記憶している記憶手段に基づいて、前記受付手段によって受け付けられた文字列内に該感性文字列が含まれているか否かを判断する判断手段と、
    前記判断手段によって感性文字列が含まれていると判断された場合は、該感性文字列に対応する標識を前記文字列に付与し、感性文字列が含まれていないと判断された場合は、前記記憶手段に含まれている複数の標識を前記文字列に付与する第1の付与手段と、
    前記文字列からワードを抽出する抽出手段と、
    前記抽出手段によって抽出されたワードに対して、該ワードが含まれていた文字列に付与されている標識を付与する第2の付与手段と、
    前記第2の付与手段によって標識が付与された文字列を教師情報として、前記文字列に対して教師ありトピックモデリングを行うモデリング手段と、
    前記モデリング手段による処理結果を出力する出力手段
    として機能させるための情報処理プログラム。
JP2013212825A 2013-10-10 2013-10-10 情報処理装置及び情報処理プログラム Expired - Fee Related JP6070501B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013212825A JP6070501B2 (ja) 2013-10-10 2013-10-10 情報処理装置及び情報処理プログラム
US14/266,966 US9244910B2 (en) 2013-10-10 2014-05-01 Information processing apparatus, information processing method, and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013212825A JP6070501B2 (ja) 2013-10-10 2013-10-10 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2015075993A JP2015075993A (ja) 2015-04-20
JP6070501B2 true JP6070501B2 (ja) 2017-02-01

Family

ID=52810387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013212825A Expired - Fee Related JP6070501B2 (ja) 2013-10-10 2013-10-10 情報処理装置及び情報処理プログラム

Country Status (2)

Country Link
US (1) US9244910B2 (ja)
JP (1) JP6070501B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275444B2 (en) 2016-07-15 2019-04-30 At&T Intellectual Property I, L.P. Data analytics system and methods for text data
US10380251B2 (en) * 2016-09-09 2019-08-13 International Business Machines Corporation Mining new negation triggers dynamically based on structured and unstructured knowledge
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10558757B2 (en) 2017-03-11 2020-02-11 International Business Machines Corporation Symbol management
CN109271489B (zh) * 2018-10-25 2020-12-15 第四范式(北京)技术有限公司 一种文本检测方法及装置
US11068666B2 (en) * 2019-10-11 2021-07-20 Optum Technology, Inc. Natural language processing using joint sentiment-topic modeling
US11494565B2 (en) 2020-08-03 2022-11-08 Optum Technology, Inc. Natural language processing techniques using joint sentiment-topic modeling

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339412A (ja) 2004-05-31 2005-12-08 Bearnet Inc 特許マップ生成方法およびプログラム
US20070050388A1 (en) 2005-08-25 2007-03-01 Xerox Corporation Device and method for text stream mining
US8340956B2 (en) * 2006-05-26 2012-12-25 Nec Corporation Information provision system, information provision method, information provision program, and information provision program recording medium
CN102200969A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 基于句子顺序的文本情感极性分类系统和方法
US20120179751A1 (en) * 2011-01-06 2012-07-12 International Business Machines Corporation Computer system and method for sentiment-based recommendations of discussion topics in social media
JP5538354B2 (ja) 2011-12-27 2014-07-02 日本電信電話株式会社 トピックモデル学習方法、装置、及びプログラム
US20140088954A1 (en) * 2012-09-27 2014-03-27 Research In Motion Limited Apparatus and method pertaining to automatically-suggested emoticons
US20150073774A1 (en) * 2013-09-11 2015-03-12 Avaya Inc. Automatic Domain Sentiment Expansion

Also Published As

Publication number Publication date
JP2015075993A (ja) 2015-04-20
US20150106080A1 (en) 2015-04-16
US9244910B2 (en) 2016-01-26

Similar Documents

Publication Publication Date Title
JP6070501B2 (ja) 情報処理装置及び情報処理プログラム
Mozetič et al. Multilingual Twitter sentiment classification: The role of human annotators
Rao et al. Social emotion classification of short text via topic-level maximum entropy model
Montejo-Ráez et al. Ranked wordnet graph for sentiment polarity classification in twitter
Giachanou et al. Like it or not: A survey of twitter sentiment analysis methods
Stein et al. Intrinsic plagiarism analysis
Li et al. Mining evidences for named entity disambiguation
Aisopos et al. Content vs. context for sentiment analysis: a comparative analysis over microblogs
Montejo-Ráez et al. Random walk weighting over sentiwordnet for sentiment polarity detection on twitter
Zhu et al. Combined SVM-CRFs for biological named entity recognition with maximal bidirectional squeezing
Kumar et al. IIT-TUDA: System for sentiment analysis in Indian languages using lexical acquisition
US20210073255A1 (en) Analyzing the tone of textual data
Syaifudin et al. Twitter data mining for sentiment analysis on peoples feedback against government public policy
Kauer et al. Using information retrieval for sentiment polarity prediction
Zhang et al. Annotating needles in the haystack without looking: Product information extraction from emails
Alharbi et al. Enhancing topic clustering for Arabic security news based on k‐means and topic modelling
Caicedo et al. Bootstrapping semi-supervised annotation method for potential suicidal messages
Hussain et al. A technique for perceiving abusive bangla comments
Zhang et al. Enhancing clinical decision support systems with public knowledge bases
Singh et al. Towards a knowledge centric semantic approach for text summarization
Li et al. Social context analysis for topic-specific expert finding in online learning communities
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム
Ouertatani et al. Parsing argued opinion structure in Twitter content
JP2016162163A (ja) 情報処理装置及び情報処理プログラム
Wang et al. A novel feature-based text classification improving the accuracy of twitter sentiment analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161219

R150 Certificate of patent or registration of utility model

Ref document number: 6070501

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees