JP2016162163A - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP2016162163A JP2016162163A JP2015039955A JP2015039955A JP2016162163A JP 2016162163 A JP2016162163 A JP 2016162163A JP 2015039955 A JP2015039955 A JP 2015039955A JP 2015039955 A JP2015039955 A JP 2015039955A JP 2016162163 A JP2016162163 A JP 2016162163A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- module
- word
- information
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Abstract
Description
請求項1の発明は、対象とする文情報に対して、トピックモデルを適用して、該文情報を構成している単語のトピック分布を抽出する第1の抽出手段と、前記第1の抽出手段によって抽出されたトピック分布から、前記文情報における第1のトピックを抽出する第2の抽出手段と、前記第2の抽出手段によって抽出された第1のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第3の抽出手段を具備することを特徴とする情報処理装置である。
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
「極性」とは、ある極に基づく、文書又は単語の性質である。本実施の形態の説明では、ポジティブとネガティブの感性の極についての性質を指す。
「ターゲット」とは、文脈情報を抽出したい対象である。例えば、人名、組織名、地名、製品名等がある。
「トピック」とは、トピックモデリング手法(LDA、Labeled LDA等)が出力する単語の多項分布を意味する。トピックでは、関連性が強い単語ほど高い確率値を持つ。別名としては、クラスタ、潜在クラス(latent class)等の名称も用いられる。
「モデル」とは、機械学習手法の学習結果として得られるデータをいう。本実施の形態の説明では、トピックモデリング手法の学習結果を指す。例えば、テキスト集合からトピックモデリング手法を学習させた結果のモデルを用いて、単語のトピック分布が推定できる。
「教師信号」とは、ある入力データに対して、何らかの基準に基づいた正しい結果を示すデータである。例えば、教師信号は、学習プロセスにおいて、ある入力データ例に対する正しい分類の結果を表すデータとして使うことができる。このような入力データと、その分類結果である教師信号との組み合わせを使って学習をすることで、モデルを作成することができる。
識別プロセスにおいては、分類が未知の状態の入力データに対して、機械学習によって得られたモデルを利用することで、入力データに対する分類を予測することが可能となる。このように、教師信号というのは、入力データに対して、ある基準に基づいて決められた正しい出力結果のデータを指すものということができる。
前述の背景技術で挙げた技術では、ターゲットの文脈情報を得るのに構文情報を用いている。このように構文情報を用いた手法では、構文解析の精度が低下するノイズの多いテキスト(例えば、ソーシャルメディアテキストのような話し言葉、新語が用いられる若者言葉、文法的な誤りが含まれている文等)を対象とした場合に、構文解析のエラーによる性能低下が生じてしまう。
文脈処理モジュール150は、文書・ターゲット入力モジュール155、単語トピック推定モジュール160、メイントピック抽出モジュール165、文脈情報判定モジュール170、文脈情報出力モジュール190を有している。文脈処理モジュール150は、解析対象のテキストに対して、モデル生成モジュール105が作成したトピックモデルを適用し、各単語のトピック分布を得る。そして、ターゲットのトピック分布より、例えば、最も確率の高いトピックをメイントピックとして抽出する。次に、ターゲットの文脈情報として、ターゲット以外の単語でメイントピックが、例えば最も高い確率となっているものを抽出する。
トピックモデリングモジュール115は、文書DB110、モデル出力モジュール120と接続されている。トピックモデリングモジュール115は、文書DB110内に記憶されている複数のテキストから、そのテキストを構成している単語を抽出する。そして、その抽出した単語に対して、トピックモデリング手法を適用して、トピックモデルを生成する。生成したトピックモデルをモデル出力モジュール120に渡す。
モデル出力モジュール120は、トピックモデリングモジュール115、モデル記憶装置125と接続されている。モデル出力モジュール120は、トピックモデリングモジュール115によって生成されたトピックモデルをモデル記憶装置125に記憶させる。
モデル記憶装置125は、モデル出力モジュール120、単語トピック推定モジュール160と接続されている。モデル記憶装置125は、モデル出力モジュール120から出力されたトピックモデル(トピックモデリングモジュール115によって生成されたトピックモデル)を記憶する。そして、そのトピックモデルを文脈処理モジュール150の単語トピック推定モジュール160に供給する。
文脈情報判定モジュール170は、メイントピック抽出モジュール165、文脈情報出力モジュール190と接続されている。文脈情報判定モジュール170は、メイントピック抽出モジュール165によって抽出されたメイントピックを有する単語のうち、予め定められた条件を満たす単語をテキストにおける文脈語として抽出する。「予め定められた条件」として、例えば、(1)その単語におけるトピックのうち、最大の確率値となっているトピックがメイントピックである場合に、その単語を文脈語とする条件としてもよいし、(2)その単語におけるトピックのうち、確率値が予め定められた閾値より高い又は以上となっているトピックがメイントピックである場合に、その単語を文脈語とする条件としてもよいし、(3)その単語におけるトピックのうち、最大の確率値が予め定められた閾値より高い又は以上となっているトピックがメイントピックである場合に、その単語を文脈語とする条件としてもよい。なお、文脈語として抽出する単語は複数であってもよい
情報処理装置100の後処理として、例えば、情報処理装置100が、ターゲットである製品に対する評価が書き込まれているSNSの各文から、メイントピックの単語を抽出し、文脈情報出力モジュール190が出力した情報を受け取って、メイントピックである各単語の極性を判断し、その製品に対してポジティブ(肯定的)評価であるか、ネガティブ(批判的)評価であるかを判断する。
情報処理装置100、文書処理装置210、文脈情報応用処理装置250、ユーザー端末280は、通信回線290を介してそれぞれ接続されている。通信回線290は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。文書処理装置210は、SNS等のサービスを提供し、テキストを収集する。又は、SNS等のサービスを提供している情報処理装置から、テキストを収集する。情報処理装置100は、文書処理装置210が収集したテキストを用いて、文脈情報を抽出する。そして、文脈情報応用処理装置250は、その文脈情報を用いた処理を行う。ユーザー端末280は、情報処理装置100、文脈情報応用処理装置250による処理結果を受け取り、ユーザーに提示する。また、情報処理装置100、文書処理装置210、文脈情報応用処理装置250による機能は、クラウドサービスとして実現してもよい。なお、モデル生成モジュール105、モデル記憶装置125を文書処理装置210が有していてもよい。その場合、情報処理装置100は、文書処理装置210からトピックモデルを受け取る。また、ユーザー端末280は携帯端末であってもよい。
ステップS302では、トピックモデリングモジュール115は、文書集合を抽出する。トピックモデリングモジュール115が、文書DB110より文書集合を抽出する。文書DB110は、例えば文書テーブル400を記憶している。図4は、文書テーブル400のデータ構造例を示す説明図である。文書テーブル400は、ID欄410、テキスト欄420を有している。ID欄410は、本実施の形態において、テキスト欄420内のテキストを一意に識別するための情報(ID:IDentification)を記憶している。テキスト欄420は、テキストを記憶している。なお、図4では、テキスト欄420に記憶されているテキストは1文であるが、複数文であってもよい。また、文書集合の量は、数千〜数百万を想定し、計算機の扱える範囲であれば、多いほどよい。
ステップS306では、トピックモデリングモジュール115は、トピックモデリングを行う。各テキストの単語集合に対してトピックモデリング手法を適用する。具体的な手法として、例えば、Latent Dirichlet Allocation (LDA)等を用いる。
ステップS308では、モデル出力モジュール120は、トピックモデルを出力する。モデル出力モジュール120が作成されたトピックモデルを出力する。
ステップS502では、文書・ターゲット入力モジュール155は、ターゲットを入力する。文脈情報の抽出対象であるターゲットの入力を受ける。例えば、「食品A」を受け付ける。
ステップS504では、文書・ターゲット入力モジュール155は、テキストである文書を入力する。ターゲットの文脈情報を抽出したいテキストの入力を受ける。例えば、「食品AフレーバーBとても売れていて早くも品薄です。当店には在庫あります。」を受け付ける。
ステップS506では、単語トピック推定モジュール160は、テキストより単語を抽出する。例えば、前述の例では、「食品A/フレーバーB/とても/売れ/て/いて/早く/も/品薄/です/。/当店/に/は/在庫/あり/ます/。」を抽出する。なお、「/」は単語の区切りを示している。
ステップS510では、メイントピック抽出モジュール165は、単語トピックを推定する。つまり、メイントピック抽出モジュール165がトピックモデリング手法により、各単語のトピックを推定する。図6は、ステップS510の処理例を示す説明図である。図中でのTはトピックを意味しており、例えばT1はトピック1を示している。
単語抽出結果600として、「食品A/フレーバーB/とても/売れ/て/いて/早く/も/品薄/です/。当店/に/は/在庫/あり/ます/。」となっている。
単語トピック推定モジュール160の処理によって、「食品A」には「トピック1が100%」、「フレーバーB」には「トピック1が100%」、「売れ」には「トピック1が66.7%、トピック2が33.3%」、「早く」には「トピック3が55.6%、トピック1が11.1%」、「品薄」には「トピック3が77.8%」、「当店」には「トピック1が55.6%、トピック4が22.2%」、「在庫」には「トピック3が33.3%、トピック1が11.1%」、「あり」には「トピック1が22.2%、トピック3が22.2%」のトピック分布が推定される。
ステップS514では、文脈情報判定モジュール170は、文脈語を判定する。メイントピック(トピック1)が最大確率値を取っている単語を文脈語として判定する。図6に示す例であれば「食品A/フレーバーB/売れ/当店/あり」(図6では一重下線の単語)が、文脈語として判定される。なお、最大確率値でなく、予め定められた閾値より高い又は以上である単語を文脈語として判定してもよい。
ステップS516では、文脈情報出力モジュール190は、ターゲットの文脈情報を出力する。前述の例では、「食品A/フレーバーB/売れ/当店/あり」を出力する。
図7は、第2の実施の形態の構成例についての概念的なモジュール構成図である。第2の実施の形態は、第1の実施の形態の情報処理装置100の文脈情報判定モジュール170を文書トピック推定モジュール770、サブトピック抽出モジュール775、文脈情報判定モジュール780としたものである。トピックに基づいてターゲットのサブトピックを抽出することにより、第1の実施の形態よりも広範囲にターゲットの文脈情報を取得するようにしたものである。
情報処理装置700は、モデル生成モジュール105、モデル記憶装置125、文脈処理モジュール750を有している。文脈処理モジュール750は、文書・ターゲット入力モジュール155、単語トピック推定モジュール160、メイントピック抽出モジュール165、文書トピック推定モジュール770、サブトピック抽出モジュール775、文脈情報判定モジュール780、文脈情報出力モジュール190を有している。なお、前述の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
モデル記憶装置125は、モデル出力モジュール120、単語トピック推定モジュール160、文書トピック推定モジュール770と接続されている。
メイントピック抽出モジュール165は、単語トピック推定モジュール160、文書トピック推定モジュール770と接続されている。
文書トピック推定モジュール770は、モデル記憶装置125、単語トピック推定モジュール160、サブトピック抽出モジュール775と接続されている。文書トピック推定モジュール770は、対象とするテキストに対して、トピックモデリング手法を適用して、そのテキスト内のトピック分布を抽出する。
サブトピック抽出モジュール775は、文書トピック推定モジュール770、文脈情報判定モジュール780と接続されている。サブトピック抽出モジュール775は、文書トピック推定モジュール770によって抽出されたトピック分布から、テキストにおける第2のトピック(以下、サブトピックともいう)を抽出する。つまり、ターゲットのサブトピックを考慮することにより、より広範囲な文脈情報を抽出するものである。
文脈情報判定モジュール780は、サブトピック抽出モジュール775、文脈情報出力モジュール190と接続されている。文脈情報判定モジュール780は、サブトピック抽出モジュール775によって抽出されたサブトピックを有する単語のうち、予め定められた条件を満たす単語をテキストにおける文脈語として抽出する。さらに、第1の実施の形態における文脈情報判定モジュール170の処理を行うようにしてもよい。
文脈情報出力モジュール190は、文脈情報判定モジュール780と接続されている。
ステップS802では、文書・ターゲット入力モジュール155は、ターゲットを入力する。
ステップS804では、文書・ターゲット入力モジュール155は、文書を入力する。
ステップS806では、単語トピック推定モジュール160は、単語を抽出する。
ステップS808では、単語トピック推定モジュール160は、モデルを入力する。
ステップS810では、メイントピック抽出モジュール165は、単語トピックを推定する。
ステップS812では、メイントピック抽出モジュール165は、メイントピックを抽出する。
ステップS818では、文脈情報判定モジュール780は、文脈語を判定する。図5の例に示したフローチャートにおけるステップS514と同様に、文脈語情報判定モジュール780がサブトピックが最大確率値を取っている単語を文脈語として判定する。図6に示す例であれば、「早く/品薄/在庫」(図6では二重下線の単語)が、サブトピックの文脈語として判定される。なお、最大確率値でなく、予め定められた閾値より高い又は以上である単語を文脈語として判定してもよい。
ステップS820では、文脈情報出力モジュール190は、文脈情報を出力する。前述の例では、サブトピックの文脈語として「早く/品薄/在庫」を出力する。また、さらにメイントピックの文脈語を出力するようにしてもよい。
この例では、式(1)を用いて、T5がscore(T5)=(0.7+0.2+0.4)/3=0.433で最大のスコアを取るトピックになるため、サブトピックになる。
図11は、第3の実施の形態の構成例についての概念的なモジュール構成図である。第3の実施の形態は、第1の実施の形態の情報処理装置100のモデル生成モジュール105をモデル生成モジュール1105にしたものである。教師付き文書DB1110と教師ありトピックモデリングモジュール1115を用いることにより、モデル生成モジュール105を用いた場合よりも品質の高いトピックモデルを構築するようにしたものである。
情報処理装置1100は、モデル生成モジュール1105、モデル記憶装置125、文脈処理モジュール150を有している。モデル生成モジュール1105は、教師付き文書DB1110、教師ありトピックモデリングモジュール1115、モデル出力モジュール120を有している。
教師ありトピックモデリングモジュール1115は、教師付き文書DB1110、モデル出力モジュール120と接続されている。教師ありトピックモデリングモジュール1115は、教師付き文書DB1110内の複数のテキストから、そのテキストを構成している単語を抽出する。そして、その抽出した単語に対して、トピックモデリング手法を適用して、トピックモデルを生成する。ここで、機械学習用の複数のテキストとして教師データとしての教師付き文書DB1110内の複数のテキストを用い、トピックモデリング手法として教師ありトピックモデリング手法を適用する。
モデル出力モジュール120は、教師ありトピックモデリングモジュール1115、モデル記憶装置125と接続されている。モデル出力モジュール120は、教師ありトピックモデリングモジュール1115によって生成されたトピックモデルをモデル記憶装置125に記憶させる。
ステップS1202では、教師ありトピックモデリングモジュール1115は、文書集合を抽出する。
ステップS1204では、教師ありトピックモデリングモジュール1115は、単語を抽出する。
ステップS1206では、教師ありトピックモデリングモジュール1115は、教師ありトピックモデリングを行う。つまり、教師付き文書DB1110の各テキストの単語集合に対して教師ありトピックモデリング手法を適用する。具体的な手法としては、例えば、Labeled Latent Dirichlet Allocation(LLDA)等を用いる。なお、教師あり文書DB1110は、図13に示す例になる。図13は、文書テーブル1300のデータ構造例を示す説明図である。文書テーブル1300は、ID欄1310、テキスト欄1320、教師信号欄1330を有している。
ID欄1310は、本実施の形態において、テキスト欄1320内のテキストを一意に識別するための情報(ID)を記憶している。テキスト欄1320は、テキストを記憶している。教師信号欄1330は、そのテキストにおける教師信号を記憶している。例えば、教師信号「飲食」として、「カツカレーとラーメンを食べた」というテキストを機械学習し、教師信号「飲食」、「玩具」として、「景品狙いで最近食品Aを良く食べます。」というテキストを機械学習する。
ステップS1208では、モデル出力モジュール120は、ステップS1206で生成されたトピックモデルをモデル記憶装置125に出力する。
図14は、第4の実施の形態の構成例についての概念的なモジュール構成図である。第4の実施の形態は、第2の実施の形態の文脈処理モジュール750と第3の実施の形態のモデル生成モジュール1105を組み合わせたものであり、教師付き文書DB1110と教師ありトピックモデリングモジュール1115を用いることにより、モデル生成モジュール105を用いた場合よりも品質の高いトピックモデルを構築し、そのトピックモデルを用いて、ターゲットのサブトピックを抽出することにより、第1の実施の形態よりも広範囲にターゲットの文脈情報を取得するようにしたものである。
情報処理装置1400は、モデル生成モジュール1105、モデル記憶装置125、文脈処理モジュール750を有している。
モデル生成モジュール1105は、教師付き文書DB1110、教師ありトピックモデリングモジュール1115、モデル出力モジュール120を有している。教師付き文書DB1110は、教師ありトピックモデリングモジュール1115と接続されている。教師ありトピックモデリングモジュール1115は、教師付き文書DB1110、モデル出力モジュール120と接続されている。モデル出力モジュール120は、教師ありトピックモデリングモジュール1115、モデル記憶装置125と接続されている。
モデル記憶装置125は、モデル出力モジュール120、単語トピック推定モジュール160、文書トピック推定モジュール770と接続されている。
文脈処理モジュール750は、文書・ターゲット入力モジュール155、単語トピック推定モジュール160、メイントピック抽出モジュール165、文書トピック推定モジュール770、サブトピック抽出モジュール775、文脈情報判定モジュール780、文脈情報出力モジュール190を有している。
文書・ターゲット入力モジュール155は、単語トピック推定モジュール160と接続されている。単語トピック推定モジュール160は、モデル記憶装置125、文書・ターゲット入力モジュール155、メイントピック抽出モジュール165と接続されている。メイントピック抽出モジュール165は、単語トピック推定モジュール160、文書トピック推定モジュール770と接続されている。文書トピック推定モジュール770は、モデル記憶装置125、メイントピック抽出モジュール165、サブトピック抽出モジュール775と接続されている。サブトピック抽出モジュール775は、文書トピック推定モジュール770、文脈情報判定モジュール780と接続されている。文脈情報判定モジュール780は、サブトピック抽出モジュール775、文脈情報出力モジュール190と接続されている。文脈情報出力モジュール190は、文脈情報判定モジュール780と接続されている。
なお、図15に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図15に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図15に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
105…モデル生成モジュール
110…文書DB
115…トピックモデリングモジュール
120…モデル出力モジュール
125…モデル記憶装置
150…文脈処理モジュール
155…文書・ターゲット入力モジュール
160…単語トピック推定モジュール
165…メイントピック抽出モジュール
170…文脈情報判定モジュール
190…文脈情報出力モジュール
210…文書処理装置
250…文脈情報応用処理装置
280…ユーザー端末
290…通信回線
700…情報処理装置
750…文脈処理モジュール
770…文書トピック推定モジュール
775…サブトピック抽出モジュール
780…文脈情報判定モジュール
1100…情報処理装置
1105…モデル生成モジュール
1110…教師付き文書DB
1115…教師ありトピックモデリングモジュール
1400…情報処理装置
Claims (5)
- 対象とする文情報に対して、トピックモデルを適用して、該文情報を構成している単語のトピック分布を抽出する第1の抽出手段と、
前記第1の抽出手段によって抽出されたトピック分布から、前記文情報における第1のトピックを抽出する第2の抽出手段と、
前記第2の抽出手段によって抽出された第1のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第3の抽出手段
を具備することを特徴とする情報処理装置。 - 前記対象とする文情報に対して、トピックモデリング手法を適用して、該文情報内のトピック分布を抽出する第5の抽出手段と、
前記第5の抽出手段によって抽出されたトピック分布から、前記文情報における第2のトピックを抽出する第6の抽出手段と、
前記第6の抽出手段によって抽出された第2のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第7の抽出手段
をさらに具備することを特徴とする請求項1に記載の情報処理装置。 - 複数の文情報から、該文情報を構成している単語を抽出する第4の抽出手段と、
前記第4の抽出手段によって抽出された単語に対して、トピックモデリング手法を適用して、前記トピックモデルを生成する生成手段
をさらに具備することを特徴とする請求項1又は2に記載の情報処理装置。 - 前記生成手段は、前記複数の文情報として教師データとしての複数の文情報を用い、
前記トピックモデリング手法として教師ありトピックモデリング手法を適用する
ことを特徴とする請求項3に記載の情報処理装置。 - コンピュータを、
対象とする文情報に対して、トピックモデルを適用して、該文情報を構成している単語のトピック分布を抽出する第1の抽出手段と、
前記第1の抽出手段によって抽出されたトピック分布から、前記文情報における第1のトピックを抽出する第2の抽出手段と、
前記第2の抽出手段によって抽出された第1のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第3の抽出手段
として機能させるための情報処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015039955A JP2016162163A (ja) | 2015-03-02 | 2015-03-02 | 情報処理装置及び情報処理プログラム |
US14/829,804 US20160259774A1 (en) | 2015-03-02 | 2015-08-19 | Information processing apparatus, information processing method, and non-transitory computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015039955A JP2016162163A (ja) | 2015-03-02 | 2015-03-02 | 情報処理装置及び情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016162163A true JP2016162163A (ja) | 2016-09-05 |
Family
ID=56845065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015039955A Pending JP2016162163A (ja) | 2015-03-02 | 2015-03-02 | 情報処理装置及び情報処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20160259774A1 (ja) |
JP (1) | JP2016162163A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018097791A (ja) * | 2016-12-16 | 2018-06-21 | 富士電機株式会社 | プロセス監視装置、プロセス監視システム及びプログラム |
JP7476249B2 (ja) | 2022-03-18 | 2024-04-30 | Lineヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11132507B2 (en) * | 2019-04-02 | 2021-09-28 | International Business Machines Corporation | Cross-subject model-generated training data for relation extraction modeling |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012164220A (ja) * | 2011-02-08 | 2012-08-30 | Nippon Telegr & Teleph Corp <Ntt> | トピックモデリング装置、トピックモデリング方法、及びプログラム |
JP2012221316A (ja) * | 2011-04-11 | 2012-11-12 | Nippon Telegr & Teleph Corp <Ntt> | 文書トピック抽出装置及び方法及びプログラム |
JP2013246586A (ja) * | 2012-05-24 | 2013-12-09 | Nippon Telegr & Teleph Corp <Ntt> | データ群のトピック分析装置 |
JP2014099045A (ja) * | 2012-11-14 | 2014-05-29 | Nippon Telegr & Teleph Corp <Ntt> | プロフィール推定装置、方法、及びプログラム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6981040B1 (en) * | 1999-12-28 | 2005-12-27 | Utopy, Inc. | Automatic, personalized online information and product services |
US7681147B2 (en) * | 2005-12-13 | 2010-03-16 | Yahoo! Inc. | System for determining probable meanings of inputted words |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
US20090192782A1 (en) * | 2008-01-28 | 2009-07-30 | William Drewes | Method for increasing the accuracy of statistical machine translation (SMT) |
US20110047166A1 (en) * | 2009-08-20 | 2011-02-24 | Innography, Inc. | System and methods of relating trademarks and patent documents |
EP2519920A4 (en) * | 2009-12-31 | 2013-08-21 | Nokia Corp | METHOD AND DEVICES FOR MODELING USER INTERESTS |
US9009134B2 (en) * | 2010-03-16 | 2015-04-14 | Microsoft Technology Licensing, Llc | Named entity recognition in query |
US8341185B2 (en) * | 2010-04-02 | 2012-12-25 | Nokia Corporation | Method and apparatus for context-indexed network resources |
US8645554B2 (en) * | 2010-05-27 | 2014-02-04 | Nokia Corporation | Method and apparatus for identifying network functions based on user data |
WO2012001232A2 (en) * | 2010-06-30 | 2012-01-05 | Nokia Corporation | Method and apparatus for in-application purchasing |
US10198431B2 (en) * | 2010-09-28 | 2019-02-05 | Siemens Corporation | Information relation generation |
US8510257B2 (en) * | 2010-10-19 | 2013-08-13 | Xerox Corporation | Collapsed gibbs sampler for sparse topic models and discrete matrix factorization |
US20130173643A1 (en) * | 2010-10-25 | 2013-07-04 | Ahmed K. Ezzat | Providing information management |
WO2012055100A1 (en) * | 2010-10-27 | 2012-05-03 | Nokia Corporation | Method and apparatus for identifying a conversation in multiple strings |
US8868470B2 (en) * | 2010-11-09 | 2014-10-21 | Microsoft Corporation | Parallel processing of data sets |
CN103765415A (zh) * | 2011-05-11 | 2014-04-30 | 谷歌公司 | 文档主题的并行生成 |
US9110983B2 (en) * | 2012-08-17 | 2015-08-18 | Intel Corporation | Traversing data utilizing data relationships |
IN2013CH00469A (ja) * | 2013-01-21 | 2015-07-31 | Keypoint Technologies India Pvt Ltd | |
US9176969B2 (en) * | 2013-08-29 | 2015-11-03 | Hewlett-Packard Development Company, L.P. | Integrating and extracting topics from content of heterogeneous sources |
US9483738B2 (en) * | 2014-01-17 | 2016-11-01 | Hulu, LLC | Topic model based media program genome generation |
-
2015
- 2015-03-02 JP JP2015039955A patent/JP2016162163A/ja active Pending
- 2015-08-19 US US14/829,804 patent/US20160259774A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012164220A (ja) * | 2011-02-08 | 2012-08-30 | Nippon Telegr & Teleph Corp <Ntt> | トピックモデリング装置、トピックモデリング方法、及びプログラム |
JP2012221316A (ja) * | 2011-04-11 | 2012-11-12 | Nippon Telegr & Teleph Corp <Ntt> | 文書トピック抽出装置及び方法及びプログラム |
JP2013246586A (ja) * | 2012-05-24 | 2013-12-09 | Nippon Telegr & Teleph Corp <Ntt> | データ群のトピック分析装置 |
JP2014099045A (ja) * | 2012-11-14 | 2014-05-29 | Nippon Telegr & Teleph Corp <Ntt> | プロフィール推定装置、方法、及びプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018097791A (ja) * | 2016-12-16 | 2018-06-21 | 富士電機株式会社 | プロセス監視装置、プロセス監視システム及びプログラム |
JP7476249B2 (ja) | 2022-03-18 | 2024-04-30 | Lineヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20160259774A1 (en) | 2016-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868733B2 (en) | Creating a knowledge graph based on text-based knowledge corpora | |
JP6544131B2 (ja) | 情報処理装置及び情報処理プログラム | |
US9971763B2 (en) | Named entity recognition | |
JP5957048B2 (ja) | 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム | |
WO2016085409A1 (en) | A method and system for sentiment classification and emotion classification | |
US20180025121A1 (en) | Systems and methods for finer-grained medical entity extraction | |
US11755841B2 (en) | Method for updating a knowledge base of a sentiment analysis system | |
KR101561464B1 (ko) | 수집 데이터 감성분석 방법 및 장치 | |
CN104471568A (zh) | 对自然语言问题的基于学习的处理 | |
JP6070501B2 (ja) | 情報処理装置及び情報処理プログラム | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
US11720481B2 (en) | Method, apparatus and computer program product for predictive configuration management of a software testing system | |
US20160350278A1 (en) | Claim polarity identification | |
JP2018194902A (ja) | 生成装置、生成方法および生成プログラム | |
JP7376631B2 (ja) | 敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための方法及びシステム | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
JP6563350B2 (ja) | データ分類装置、データ分類方法、及びプログラム | |
CN112148958A (zh) | 用于信息推荐的方法、设备和计算机存储介质 | |
US10810497B2 (en) | Supporting generation of a response to an inquiry | |
US8666987B2 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
JP2016162163A (ja) | 情報処理装置及び情報処理プログラム | |
JP6026036B1 (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
US10013482B2 (en) | Context-dependent evidence detection | |
US11423228B2 (en) | Weakly supervised semantic entity recognition using general and target domain knowledge | |
US11132500B2 (en) | Annotation task instruction generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190924 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200218 |