JP2016162163A - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP2016162163A
JP2016162163A JP2015039955A JP2015039955A JP2016162163A JP 2016162163 A JP2016162163 A JP 2016162163A JP 2015039955 A JP2015039955 A JP 2015039955A JP 2015039955 A JP2015039955 A JP 2015039955A JP 2016162163 A JP2016162163 A JP 2016162163A
Authority
JP
Japan
Prior art keywords
topic
module
word
information
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015039955A
Other languages
English (en)
Inventor
康秀 三浦
Yasuhide Miura
康秀 三浦
茂之 榊
Shigeyuki Sakaki
茂之 榊
大熊 智子
Tomoko Okuma
智子 大熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2015039955A priority Critical patent/JP2016162163A/ja
Priority to US14/829,804 priority patent/US20160259774A1/en
Publication of JP2016162163A publication Critical patent/JP2016162163A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Abstract

【課題】構文解析処理の精度に影響されることなく、対象とする文情報における第1のトピックである文脈語を抽出するようにした情報処理装置を提供する。【解決手段】情報処理装置の第1の抽出手段は、対象とする文情報に対して、トピックモデルを適用して、該文情報を構成している単語のトピック分布を抽出し、第2の抽出手段は、前記第1の抽出手段によって抽出されたトピック分布から、前記文情報における第1のトピックを抽出し、第3の抽出手段は、前記第2の抽出手段によって抽出された第1のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する。【選択図】図1

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、各エンドユーザーが記述した膨大な量の文書を、分析担当者が見やすいように分類・整理して提示することを課題とし、各文の感性用語にネガ/ポジの極性タグを付与し、否定表現に否定表現タグを付与し、極性タグの種類と否定表現タグの有無に基づいて否定評価文か肯定評価文かを判定し、ネガ/ポジ判定タグを付与するネガ/ポジ判定部と、各文の主題を認定する主題認定部と、各文の意図表現に対応の意図類型タグを関連付ける意図抽出部と、各文の主題が評価軸類似表現記憶手段に格納された類似表現に該当する場合には対応の評価軸を関連付け、各文を共通の評価軸、意図類型及び感性用語を備えた複数の類似文グループ毎に分類し、各類似文グループ中で文字数が最も少ない類似文を代表意見と認定し、複数の代表意見が列記された代表意見リストを生成する分析結果評価部を備えたことが開示されている。
特許文献2には、ユーザーが少数の文書に対して対象テーマに関連するか関連しないかの評価をするだけで、文書に含まれる各単語の、対象テーマに対する関連度を高精度に算出でき、効率的かつ高精度に情報検索を行うことができるようにすることを課題とし、単語抽出・分類部は、評価対象文書についての評価を受け、評価対象文書から単語を抽出し、ポジティブ単語、ネガティブ単語、共通単語に分類し、ポジティブ単語用テーマ関連度算出部、共通単語用テーマ関連度算出部、ネガティブ単語用テーマ関連度算出部はそれぞれ、ポジティブ単語、共通単語、ネガティブ単語の対象テーマに対するテーマ関連度を算出し、テーマ関連単語DBは、テーマ関連度を保存・管理し、検索手段は、テーマ関連度の高い単語から検索クエリを生成して検索を行うとともに、テーマ関連度に基づいて文書の提示順位を決めることが開示されている。
非特許文献3には、ツイート(文書)とクエリ(ターゲット)が与えられたときに、クエリの極性を判定することを課題とし、構文情報を用いて、クエリと特定の構文関係にある語を用い、被参照ツイート(リツイート、リプライ)、同じクエリを含む同ユーザーのツイートを用いることが開示されている。
特開2012−256282号公報 特開2011−086043号公報
Long Jiang, Mo Yu, Ming Zhou, Xiaohua Liu, and Tiejun Zhao. 2011. Target−dependent Twitter Sentiment Classification. In Proceedings of of the 49th Annual Meeting of the Association for Computational Linguistics, pages 151−160.
本発明は、構文解析処理の精度に影響されることなく、対象とする文情報における第1のトピックである文脈語を抽出するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、対象とする文情報に対して、トピックモデルを適用して、該文情報を構成している単語のトピック分布を抽出する第1の抽出手段と、前記第1の抽出手段によって抽出されたトピック分布から、前記文情報における第1のトピックを抽出する第2の抽出手段と、前記第2の抽出手段によって抽出された第1のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第3の抽出手段を具備することを特徴とする情報処理装置である。
請求項2の発明は、前記対象とする文情報に対して、トピックモデリング手法を適用して、該文情報内のトピック分布を抽出する第5の抽出手段と、前記第5の抽出手段によって抽出されたトピック分布から、前記文情報における第2のトピックを抽出する第6の抽出手段と、前記第6の抽出手段によって抽出された第2のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第7の抽出手段をさらに具備することを特徴とする請求項1に記載の情報処理装置である。
請求項3の発明は、複数の文情報から、該文情報を構成している単語を抽出する第4の抽出手段と、前記第4の抽出手段によって抽出された単語に対して、トピックモデリング手法を適用して、前記トピックモデルを生成する生成手段をさらに具備することを特徴とする請求項1又は2に記載の情報処理装置である。
請求項4の発明は、前記生成手段は、前記複数の文情報として教師データとしての複数の文情報を用い、前記トピックモデリング手法として教師ありトピックモデリング手法を適用することを特徴とする請求項3に記載の情報処理装置である。
請求項5の発明は、コンピュータを、対象とする文情報に対して、トピックモデルを適用して、該文情報を構成している単語のトピック分布を抽出する第1の抽出手段と、前記第1の抽出手段によって抽出されたトピック分布から、前記文情報における第1のトピックを抽出する第2の抽出手段と、前記第2の抽出手段によって抽出された第1のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第3の抽出手段として機能させるための情報処理プログラムである。
請求項1の情報処理装置によれば、構文解析処理の精度に影響されることなく、対象とする文情報における第1のトピックである文脈語を抽出することができる。
請求項2の情報処理装置によれば、第2のトピックを用いて、対象とする文情報における第2のトピックである文脈語を抽出することができる。
請求項3の情報処理装置によれば、文情報を構成している単語に対して、トピックモデリング手法を適用して生成したトピックモデルを用いることができる。
請求項4の情報処理装置によれば、教師データとしての文情報を構成している単語に対して、教師ありトピックモデリング手法を適用して生成したトピックモデルを用いることができる。
請求項5の情報処理プログラムによれば、構文解析処理の精度に影響されることなく、対象とする文情報における第1のトピックである文脈語を抽出することができる。
第1の実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態を利用したシステム構成例を示す説明図である。 第1の実施の形態による処理例を示すフローチャートである。 文書テーブルのデータ構造例を示す説明図である。 第1の実施の形態による処理例を示すフローチャートである。 第1の実施の形態による処理例を示す説明図である。 第2の実施の形態の構成例についての概念的なモジュール構成図である。 第2の実施の形態による処理例を示すフローチャートである。 トピック分布テーブルのデータ構造例を示す説明図である。 第2の実施の形態による処理例を示す説明図である。 第3の実施の形態の構成例についての概念的なモジュール構成図である。 第3の実施の形態による処理例を示すフローチャートである。 文書テーブルのデータ構造例を示す説明図である。 第4の実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置100は、対象とする文情報における第1のトピック(以下、メイントピックともいう)である文脈語を抽出するものであって、図1の例に示すように、モデル生成モジュール105、モデル記憶装置125、文脈処理モジュール150を有している。具体的には、情報処理装置100は、トピックモデルを用いてターゲットのメイントピックを抽出し、メイントピックに基づいてターゲットの文脈情報を取得する。文情報(以下、テキストともいう)として、例えば、文(1つの文、複数の文を含む)、文章、文書等がある。
以下、本実施の形態の説明で用いる用語を説明する。
「極性」とは、ある極に基づく、文書又は単語の性質である。本実施の形態の説明では、ポジティブとネガティブの感性の極についての性質を指す。
「ターゲット」とは、文脈情報を抽出したい対象である。例えば、人名、組織名、地名、製品名等がある。
「トピック」とは、トピックモデリング手法(LDA、Labeled LDA等)が出力する単語の多項分布を意味する。トピックでは、関連性が強い単語ほど高い確率値を持つ。別名としては、クラスタ、潜在クラス(latent class)等の名称も用いられる。
「モデル」とは、機械学習手法の学習結果として得られるデータをいう。本実施の形態の説明では、トピックモデリング手法の学習結果を指す。例えば、テキスト集合からトピックモデリング手法を学習させた結果のモデルを用いて、単語のトピック分布が推定できる。
「教師信号」とは、ある入力データに対して、何らかの基準に基づいた正しい結果を示すデータである。例えば、教師信号は、学習プロセスにおいて、ある入力データ例に対する正しい分類の結果を表すデータとして使うことができる。このような入力データと、その分類結果である教師信号との組み合わせを使って学習をすることで、モデルを作成することができる。
識別プロセスにおいては、分類が未知の状態の入力データに対して、機械学習によって得られたモデルを利用することで、入力データに対する分類を予測することが可能となる。このように、教師信号というのは、入力データに対して、ある基準に基づいて決められた正しい出力結果のデータを指すものということができる。
前述の背景技術で挙げた技術では、ターゲットの文脈情報を得るのに構文情報を用いている。このように構文情報を用いた手法では、構文解析の精度が低下するノイズの多いテキスト(例えば、ソーシャルメディアテキストのような話し言葉、新語が用いられる若者言葉、文法的な誤りが含まれている文等)を対象とした場合に、構文解析のエラーによる性能低下が生じてしまう。
モデル生成モジュール105は、文書DB110、トピックモデリングモジュール115、モデル出力モジュール120を有している。モデル生成モジュール105は、テキスト集合にトピックモデリング手法を適用し、トピックモデルを作成する。テキスト集合として、例えば、SNS(ソーシャル・ネットワーキング・サービス)での投稿文書(ツイート等)等がある。
文脈処理モジュール150は、文書・ターゲット入力モジュール155、単語トピック推定モジュール160、メイントピック抽出モジュール165、文脈情報判定モジュール170、文脈情報出力モジュール190を有している。文脈処理モジュール150は、解析対象のテキストに対して、モデル生成モジュール105が作成したトピックモデルを適用し、各単語のトピック分布を得る。そして、ターゲットのトピック分布より、例えば、最も確率の高いトピックをメイントピックとして抽出する。次に、ターゲットの文脈情報として、ターゲット以外の単語でメイントピックが、例えば最も高い確率となっているものを抽出する。
文書DB110は、トピックモデリングモジュール115と接続されている。文書DB110は、予め収集したテキストを記憶している。例えば、SNSから収集したテキストを記憶している。
トピックモデリングモジュール115は、文書DB110、モデル出力モジュール120と接続されている。トピックモデリングモジュール115は、文書DB110内に記憶されている複数のテキストから、そのテキストを構成している単語を抽出する。そして、その抽出した単語に対して、トピックモデリング手法を適用して、トピックモデルを生成する。生成したトピックモデルをモデル出力モジュール120に渡す。
モデル出力モジュール120は、トピックモデリングモジュール115、モデル記憶装置125と接続されている。モデル出力モジュール120は、トピックモデリングモジュール115によって生成されたトピックモデルをモデル記憶装置125に記憶させる。
モデル記憶装置125は、モデル出力モジュール120、単語トピック推定モジュール160と接続されている。モデル記憶装置125は、モデル出力モジュール120から出力されたトピックモデル(トピックモデリングモジュール115によって生成されたトピックモデル)を記憶する。そして、そのトピックモデルを文脈処理モジュール150の単語トピック推定モジュール160に供給する。
文書・ターゲット入力モジュール155は、単語トピック推定モジュール160と接続されている。文書・ターゲット入力モジュール155は、ターゲットと対象とするテキストを受け付ける。トピックである文脈語を抽出する対象であるテキストである。対象とするテキストとして、例えば、マウス、キーボード、タッチパネル、音声、視線、ジェスチャ等を用いたユーザーの操作によって、作成されたテキストであってもよいし、ハードディスク等の記憶装置(コンピュータに内蔵されているものの他に、ネットワークを介して接続されているもの等を含む)等に記憶されているテキストを読み出したもの等であってもよい。
単語トピック推定モジュール160は、モデル記憶装置125、文書・ターゲット入力モジュール155、メイントピック抽出モジュール165と接続されている。単語トピック推定モジュール160は、対象とするテキストに対して、トピックモデルを適用して、そのテキストを構成している単語のトピック分布を抽出する。ここで「文情報を構成している単語」とは、文情報に含まれている単語をいう。「トピック分布」とは、対象としている単語が表すトピックの確率を示すものであり、1つの単語に対して複数のトピックがあり得る場合は、そのそれぞれのトピックとなる確率を示している。例えば、後述するように、「食品A」という単語において、その単語が示すトピックが「T1」である確率は100%である。また、「売れ」という単語において、その単語が示すトピックとして、「T1」、「T2」があり、「T1」である確率は66.7%であり、「T2」である確率は33.3%である。つまり、具体的にトピック分布のデータ構造として、単語に対して、その単語が表すトピックとそのトピックの確率値の組(ペア)が1つ以上対応していればよい。
メイントピック抽出モジュール165は、単語トピック推定モジュール160、文脈情報判定モジュール170と接続されている。メイントピック抽出モジュール165は、単語トピック推定モジュール160によって抽出されたトピック分布から、対象としているテキストにおけるメイントピックを抽出する。具体的には、トピック分布より、最も確率値の高いトピックをターゲットのメイントピックとして抽出する。
文脈情報判定モジュール170は、メイントピック抽出モジュール165、文脈情報出力モジュール190と接続されている。文脈情報判定モジュール170は、メイントピック抽出モジュール165によって抽出されたメイントピックを有する単語のうち、予め定められた条件を満たす単語をテキストにおける文脈語として抽出する。「予め定められた条件」として、例えば、(1)その単語におけるトピックのうち、最大の確率値となっているトピックがメイントピックである場合に、その単語を文脈語とする条件としてもよいし、(2)その単語におけるトピックのうち、確率値が予め定められた閾値より高い又は以上となっているトピックがメイントピックである場合に、その単語を文脈語とする条件としてもよいし、(3)その単語におけるトピックのうち、最大の確率値が予め定められた閾値より高い又は以上となっているトピックがメイントピックである場合に、その単語を文脈語とする条件としてもよい。なお、文脈語として抽出する単語は複数であってもよい
文脈情報出力モジュール190は、文脈情報判定モジュール170と接続されている。文脈情報出力モジュール190は、文脈情報判定モジュール170によって抽出された文脈語(単語集合)を受け取り、その文脈語を出力する。ここでの出力には、例えば、プリンタ等の印刷装置で印刷すること、ディスプレイ等の表示装置に表示すること、データベース等の記憶装置へ書き込むこと、メモリーカード等の記憶媒体に記憶すること、他の情報処理装置へ渡すこと等が含まれる。また、出力する情報として、文脈語だけでなく、対象となったテキストと文脈語を対応させて出力するようにしてもよい。
情報処理装置100の後処理として、例えば、情報処理装置100が、ターゲットである製品に対する評価が書き込まれているSNSの各文から、メイントピックの単語を抽出し、文脈情報出力モジュール190が出力した情報を受け取って、メイントピックである各単語の極性を判断し、その製品に対してポジティブ(肯定的)評価であるか、ネガティブ(批判的)評価であるかを判断する。
図2は、本実施の形態を利用したシステム構成例を示す説明図である。
情報処理装置100、文書処理装置210、文脈情報応用処理装置250、ユーザー端末280は、通信回線290を介してそれぞれ接続されている。通信回線290は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。文書処理装置210は、SNS等のサービスを提供し、テキストを収集する。又は、SNS等のサービスを提供している情報処理装置から、テキストを収集する。情報処理装置100は、文書処理装置210が収集したテキストを用いて、文脈情報を抽出する。そして、文脈情報応用処理装置250は、その文脈情報を用いた処理を行う。ユーザー端末280は、情報処理装置100、文脈情報応用処理装置250による処理結果を受け取り、ユーザーに提示する。また、情報処理装置100、文書処理装置210、文脈情報応用処理装置250による機能は、クラウドサービスとして実現してもよい。なお、モデル生成モジュール105、モデル記憶装置125を文書処理装置210が有していてもよい。その場合、情報処理装置100は、文書処理装置210からトピックモデルを受け取る。また、ユーザー端末280は携帯端末であってもよい。
図3は、第1の実施の形態(モデル生成モジュール105)による処理例を示すフローチャートである。
ステップS302では、トピックモデリングモジュール115は、文書集合を抽出する。トピックモデリングモジュール115が、文書DB110より文書集合を抽出する。文書DB110は、例えば文書テーブル400を記憶している。図4は、文書テーブル400のデータ構造例を示す説明図である。文書テーブル400は、ID欄410、テキスト欄420を有している。ID欄410は、本実施の形態において、テキスト欄420内のテキストを一意に識別するための情報(ID:IDentification)を記憶している。テキスト欄420は、テキストを記憶している。なお、図4では、テキスト欄420に記憶されているテキストは1文であるが、複数文であってもよい。また、文書集合の量は、数千〜数百万を想定し、計算機の扱える範囲であれば、多いほどよい。
ステップS304では、トピックモデリングモジュール115は、単語を抽出する。各テキストより単語を抽出する。単語の抽出には、テキストが英語であればPart Of Speech (POS) Tagger等、日本語であれば形態素解析器等を用いる。
ステップS306では、トピックモデリングモジュール115は、トピックモデリングを行う。各テキストの単語集合に対してトピックモデリング手法を適用する。具体的な手法として、例えば、Latent Dirichlet Allocation (LDA)等を用いる。
ステップS308では、モデル出力モジュール120は、トピックモデルを出力する。モデル出力モジュール120が作成されたトピックモデルを出力する。
図5は、第1の実施の形態(文脈処理モジュール150)による処理例を示すフローチャートである。
ステップS502では、文書・ターゲット入力モジュール155は、ターゲットを入力する。文脈情報の抽出対象であるターゲットの入力を受ける。例えば、「食品A」を受け付ける。
ステップS504では、文書・ターゲット入力モジュール155は、テキストである文書を入力する。ターゲットの文脈情報を抽出したいテキストの入力を受ける。例えば、「食品AフレーバーBとても売れていて早くも品薄です。当店には在庫あります。」を受け付ける。
ステップS506では、単語トピック推定モジュール160は、テキストより単語を抽出する。例えば、前述の例では、「食品A/フレーバーB/とても/売れ/て/いて/早く/も/品薄/です/。/当店/に/は/在庫/あり/ます/。」を抽出する。なお、「/」は単語の区切りを示している。
ステップS508では、単語トピック推定モジュール160は、モデルを入力する。つまり、図3の例で示すフローチャートで作成されたトピックモデルを読み込む。
ステップS510では、メイントピック抽出モジュール165は、単語トピックを推定する。つまり、メイントピック抽出モジュール165がトピックモデリング手法により、各単語のトピックを推定する。図6は、ステップS510の処理例を示す説明図である。図中でのTはトピックを意味しており、例えばT1はトピック1を示している。
単語抽出結果600として、「食品A/フレーバーB/とても/売れ/て/いて/早く/も/品薄/です/。当店/に/は/在庫/あり/ます/。」となっている。
単語トピック推定モジュール160の処理によって、「食品A」には「トピック1が100%」、「フレーバーB」には「トピック1が100%」、「売れ」には「トピック1が66.7%、トピック2が33.3%」、「早く」には「トピック3が55.6%、トピック1が11.1%」、「品薄」には「トピック3が77.8%」、「当店」には「トピック1が55.6%、トピック4が22.2%」、「在庫」には「トピック3が33.3%、トピック1が11.1%」、「あり」には「トピック1が22.2%、トピック3が22.2%」のトピック分布が推定される。
ステップS512では、メイントピック抽出モジュール165は、メイントピックを抽出する。具体的には、ターゲットに該当する単語のトピックの中で確率値が最大となるものをメイントピックとして抽出する。前述の例では、ターゲットは「食品A」であり、「食品A」では「トピック1が100%」のトピック分布であるので、トピック1をメイントピックとして抽出する。
ステップS514では、文脈情報判定モジュール170は、文脈語を判定する。メイントピック(トピック1)が最大確率値を取っている単語を文脈語として判定する。図6に示す例であれば「食品A/フレーバーB/売れ/当店/あり」(図6では一重下線の単語)が、文脈語として判定される。なお、最大確率値でなく、予め定められた閾値より高い又は以上である単語を文脈語として判定してもよい。
ステップS516では、文脈情報出力モジュール190は、ターゲットの文脈情報を出力する。前述の例では、「食品A/フレーバーB/売れ/当店/あり」を出力する。
<<第2の実施の形態>>
図7は、第2の実施の形態の構成例についての概念的なモジュール構成図である。第2の実施の形態は、第1の実施の形態の情報処理装置100の文脈情報判定モジュール170を文書トピック推定モジュール770、サブトピック抽出モジュール775、文脈情報判定モジュール780としたものである。トピックに基づいてターゲットのサブトピックを抽出することにより、第1の実施の形態よりも広範囲にターゲットの文脈情報を取得するようにしたものである。
情報処理装置700は、モデル生成モジュール105、モデル記憶装置125、文脈処理モジュール750を有している。文脈処理モジュール750は、文書・ターゲット入力モジュール155、単語トピック推定モジュール160、メイントピック抽出モジュール165、文書トピック推定モジュール770、サブトピック抽出モジュール775、文脈情報判定モジュール780、文脈情報出力モジュール190を有している。なお、前述の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
モデル記憶装置125は、モデル出力モジュール120、単語トピック推定モジュール160、文書トピック推定モジュール770と接続されている。
メイントピック抽出モジュール165は、単語トピック推定モジュール160、文書トピック推定モジュール770と接続されている。
文書トピック推定モジュール770は、モデル記憶装置125、単語トピック推定モジュール160、サブトピック抽出モジュール775と接続されている。文書トピック推定モジュール770は、対象とするテキストに対して、トピックモデリング手法を適用して、そのテキスト内のトピック分布を抽出する。
サブトピック抽出モジュール775は、文書トピック推定モジュール770、文脈情報判定モジュール780と接続されている。サブトピック抽出モジュール775は、文書トピック推定モジュール770によって抽出されたトピック分布から、テキストにおける第2のトピック(以下、サブトピックともいう)を抽出する。つまり、ターゲットのサブトピックを考慮することにより、より広範囲な文脈情報を抽出するものである。
文脈情報判定モジュール780は、サブトピック抽出モジュール775、文脈情報出力モジュール190と接続されている。文脈情報判定モジュール780は、サブトピック抽出モジュール775によって抽出されたサブトピックを有する単語のうち、予め定められた条件を満たす単語をテキストにおける文脈語として抽出する。さらに、第1の実施の形態における文脈情報判定モジュール170の処理を行うようにしてもよい。
文脈情報出力モジュール190は、文脈情報判定モジュール780と接続されている。
図8は、第2の実施の形態による処理例を示すフローチャートである。ステップS802からステップS812までの処理は、図5の例に示したフローチャートのステップS502からステップS512までの処理と同等の処理である。
ステップS802では、文書・ターゲット入力モジュール155は、ターゲットを入力する。
ステップS804では、文書・ターゲット入力モジュール155は、文書を入力する。
ステップS806では、単語トピック推定モジュール160は、単語を抽出する。
ステップS808では、単語トピック推定モジュール160は、モデルを入力する。
ステップS810では、メイントピック抽出モジュール165は、単語トピックを推定する。
ステップS812では、メイントピック抽出モジュール165は、メイントピックを抽出する。
ステップS814では、文書トピック推定モジュール770は、文書トピックを抽出する。文書トピック推定モジュール770がトピックモデリング手法により、文書のトピックを推定する。文書トピックは各単語のトピック分布の和を正規化して得られる。ここでの正規化として、例えば、単語の数(又は加算対象とした単語の数)で、トピック分布の和を除算すればよい。例えばトピック分布テーブル900のようになる。図9は、トピック分布テーブル900のデータ構造例を示す説明図である。トピック分布テーブル900は、トピックID欄910、生成割合欄920を有している。トピックID欄910は、本実施の形態において、トピックを一意に識別するための情報(トピックID)を記憶している。生成割合欄920は、そのトピックの正規化した生成割合を記憶している。
ステップS816では、サブトピック抽出モジュール775は、サブトピックを抽出する。ターゲットのサブトピックを抽出する。具体的には、例えば、文書トピックで最大の割合のものを抽出する。図9に示す例であれば、22.6%のT3で示されるトピック3が抽出される。
ステップS818では、文脈情報判定モジュール780は、文脈語を判定する。図5の例に示したフローチャートにおけるステップS514と同様に、文脈語情報判定モジュール780がサブトピックが最大確率値を取っている単語を文脈語として判定する。図6に示す例であれば、「早く/品薄/在庫」(図6では二重下線の単語)が、サブトピックの文脈語として判定される。なお、最大確率値でなく、予め定められた閾値より高い又は以上である単語を文脈語として判定してもよい。
ステップS820では、文脈情報出力モジュール190は、文脈情報を出力する。前述の例では、サブトピックの文脈語として「早く/品薄/在庫」を出力する。また、さらにメイントピックの文脈語を出力するようにしてもよい。
サブトピックの抽出手法として、ステップS816の処理を、以下のようにしてもよい。ターゲットの周辺にしやすいサブトピック(周辺トピック)を以下の式(1)で抽出するようにしてもよい。
Figure 2016162163
図10は、第2の実施の形態による処理例を示す説明図である。図中のTはトピックを意味しており、例えばT1はトピック1を示している。単語抽出結果1000として、「食品A/高い/と/言われ/て/ます/が/私/は/食品A/が/好き/です/。」となっている。単語トピック推定モジュール160の処理によって、「高い」には「トピック5が70.0%、トピック6が30.0%」、「私」には「トピック7が50.0%、トピック6が30.0%、トピック5が20.0%」、「好き」には「トピック5が40.0%、トピック1が30.0%、トピック7が30.0%」の分布が推定される。
この例では、式(1)を用いて、T5がscore(T5)=(0.7+0.2+0.4)/3=0.433で最大のスコアを取るトピックになるため、サブトピックになる。
<<第3の実施の形態>>
図11は、第3の実施の形態の構成例についての概念的なモジュール構成図である。第3の実施の形態は、第1の実施の形態の情報処理装置100のモデル生成モジュール105をモデル生成モジュール1105にしたものである。教師付き文書DB1110と教師ありトピックモデリングモジュール1115を用いることにより、モデル生成モジュール105を用いた場合よりも品質の高いトピックモデルを構築するようにしたものである。
情報処理装置1100は、モデル生成モジュール1105、モデル記憶装置125、文脈処理モジュール150を有している。モデル生成モジュール1105は、教師付き文書DB1110、教師ありトピックモデリングモジュール1115、モデル出力モジュール120を有している。
教師付き文書DB1110は、教師ありトピックモデリングモジュール1115と接続されている。教師付き文書DB1110は、予め収集した教師データとしての複数のテキストを記憶している。
教師ありトピックモデリングモジュール1115は、教師付き文書DB1110、モデル出力モジュール120と接続されている。教師ありトピックモデリングモジュール1115は、教師付き文書DB1110内の複数のテキストから、そのテキストを構成している単語を抽出する。そして、その抽出した単語に対して、トピックモデリング手法を適用して、トピックモデルを生成する。ここで、機械学習用の複数のテキストとして教師データとしての教師付き文書DB1110内の複数のテキストを用い、トピックモデリング手法として教師ありトピックモデリング手法を適用する。
モデル出力モジュール120は、教師ありトピックモデリングモジュール1115、モデル記憶装置125と接続されている。モデル出力モジュール120は、教師ありトピックモデリングモジュール1115によって生成されたトピックモデルをモデル記憶装置125に記憶させる。
図12は、第3の実施の形態(モデル生成モジュール1105)による処理例を示すフローチャートである。ステップS1202、ステップS1204の処理は、図3の例に示したフローチャートのステップS302、ステップS304の処理と同等の処理である。
ステップS1202では、教師ありトピックモデリングモジュール1115は、文書集合を抽出する。
ステップS1204では、教師ありトピックモデリングモジュール1115は、単語を抽出する。
ステップS1206では、教師ありトピックモデリングモジュール1115は、教師ありトピックモデリングを行う。つまり、教師付き文書DB1110の各テキストの単語集合に対して教師ありトピックモデリング手法を適用する。具体的な手法としては、例えば、Labeled Latent Dirichlet Allocation(LLDA)等を用いる。なお、教師あり文書DB1110は、図13に示す例になる。図13は、文書テーブル1300のデータ構造例を示す説明図である。文書テーブル1300は、ID欄1310、テキスト欄1320、教師信号欄1330を有している。
ID欄1310は、本実施の形態において、テキスト欄1320内のテキストを一意に識別するための情報(ID)を記憶している。テキスト欄1320は、テキストを記憶している。教師信号欄1330は、そのテキストにおける教師信号を記憶している。例えば、教師信号「飲食」として、「カツカレーとラーメンを食べた」というテキストを機械学習し、教師信号「飲食」、「玩具」として、「景品狙いで最近食品Aを良く食べます。」というテキストを機械学習する。
ステップS1208では、モデル出力モジュール120は、ステップS1206で生成されたトピックモデルをモデル記憶装置125に出力する。
<<第4の実施の形態>>
図14は、第4の実施の形態の構成例についての概念的なモジュール構成図である。第4の実施の形態は、第2の実施の形態の文脈処理モジュール750と第3の実施の形態のモデル生成モジュール1105を組み合わせたものであり、教師付き文書DB1110と教師ありトピックモデリングモジュール1115を用いることにより、モデル生成モジュール105を用いた場合よりも品質の高いトピックモデルを構築し、そのトピックモデルを用いて、ターゲットのサブトピックを抽出することにより、第1の実施の形態よりも広範囲にターゲットの文脈情報を取得するようにしたものである。
情報処理装置1400は、モデル生成モジュール1105、モデル記憶装置125、文脈処理モジュール750を有している。
モデル生成モジュール1105は、教師付き文書DB1110、教師ありトピックモデリングモジュール1115、モデル出力モジュール120を有している。教師付き文書DB1110は、教師ありトピックモデリングモジュール1115と接続されている。教師ありトピックモデリングモジュール1115は、教師付き文書DB1110、モデル出力モジュール120と接続されている。モデル出力モジュール120は、教師ありトピックモデリングモジュール1115、モデル記憶装置125と接続されている。
モデル記憶装置125は、モデル出力モジュール120、単語トピック推定モジュール160、文書トピック推定モジュール770と接続されている。
文脈処理モジュール750は、文書・ターゲット入力モジュール155、単語トピック推定モジュール160、メイントピック抽出モジュール165、文書トピック推定モジュール770、サブトピック抽出モジュール775、文脈情報判定モジュール780、文脈情報出力モジュール190を有している。
文書・ターゲット入力モジュール155は、単語トピック推定モジュール160と接続されている。単語トピック推定モジュール160は、モデル記憶装置125、文書・ターゲット入力モジュール155、メイントピック抽出モジュール165と接続されている。メイントピック抽出モジュール165は、単語トピック推定モジュール160、文書トピック推定モジュール770と接続されている。文書トピック推定モジュール770は、モデル記憶装置125、メイントピック抽出モジュール165、サブトピック抽出モジュール775と接続されている。サブトピック抽出モジュール775は、文書トピック推定モジュール770、文脈情報判定モジュール780と接続されている。文脈情報判定モジュール780は、サブトピック抽出モジュール775、文脈情報出力モジュール190と接続されている。文脈情報出力モジュール190は、文脈情報判定モジュール780と接続されている。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図15に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU1501を用い、記憶装置としてRAM1502、ROM1503、HD1504を用いている。HD1504として、例えばハードディスク、SSD(Solid State Drive)を用いてもよい。トピックモデリングモジュール115、モデル出力モジュール120、文書・ターゲット入力モジュール155、単語トピック推定モジュール160、メイントピック抽出モジュール165、文脈情報判定モジュール170、文脈情報出力モジュール190、文書トピック推定モジュール770、サブトピック抽出モジュール775、文脈情報判定モジュール780、教師ありトピックモデリングモジュール1115等のプログラムを実行するCPU1501と、そのプログラムやデータを記憶するRAM1502と、本コンピュータを起動するためのプログラム等が格納されているROM1503と、文書DB110、教師付き文書DB1110、モデル記憶装置125としての機能を有している補助記憶装置(フラッシュメモリ等であってもよい)であるHD1504と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置1506と、CRT、液晶ディスプレイ等の出力装置1505と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース1507、そして、それらをつないでデータのやりとりをするためのバス1508により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図15に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図15に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図15に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
100…情報処理装置
105…モデル生成モジュール
110…文書DB
115…トピックモデリングモジュール
120…モデル出力モジュール
125…モデル記憶装置
150…文脈処理モジュール
155…文書・ターゲット入力モジュール
160…単語トピック推定モジュール
165…メイントピック抽出モジュール
170…文脈情報判定モジュール
190…文脈情報出力モジュール
210…文書処理装置
250…文脈情報応用処理装置
280…ユーザー端末
290…通信回線
700…情報処理装置
750…文脈処理モジュール
770…文書トピック推定モジュール
775…サブトピック抽出モジュール
780…文脈情報判定モジュール
1100…情報処理装置
1105…モデル生成モジュール
1110…教師付き文書DB
1115…教師ありトピックモデリングモジュール
1400…情報処理装置

Claims (5)

  1. 対象とする文情報に対して、トピックモデルを適用して、該文情報を構成している単語のトピック分布を抽出する第1の抽出手段と、
    前記第1の抽出手段によって抽出されたトピック分布から、前記文情報における第1のトピックを抽出する第2の抽出手段と、
    前記第2の抽出手段によって抽出された第1のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第3の抽出手段
    を具備することを特徴とする情報処理装置。
  2. 前記対象とする文情報に対して、トピックモデリング手法を適用して、該文情報内のトピック分布を抽出する第5の抽出手段と、
    前記第5の抽出手段によって抽出されたトピック分布から、前記文情報における第2のトピックを抽出する第6の抽出手段と、
    前記第6の抽出手段によって抽出された第2のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第7の抽出手段
    をさらに具備することを特徴とする請求項1に記載の情報処理装置。
  3. 複数の文情報から、該文情報を構成している単語を抽出する第4の抽出手段と、
    前記第4の抽出手段によって抽出された単語に対して、トピックモデリング手法を適用して、前記トピックモデルを生成する生成手段
    をさらに具備することを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記生成手段は、前記複数の文情報として教師データとしての複数の文情報を用い、
    前記トピックモデリング手法として教師ありトピックモデリング手法を適用する
    ことを特徴とする請求項3に記載の情報処理装置。
  5. コンピュータを、
    対象とする文情報に対して、トピックモデルを適用して、該文情報を構成している単語のトピック分布を抽出する第1の抽出手段と、
    前記第1の抽出手段によって抽出されたトピック分布から、前記文情報における第1のトピックを抽出する第2の抽出手段と、
    前記第2の抽出手段によって抽出された第1のトピックを有する単語のうち、予め定められた条件を満たす単語を前記文情報における文脈語として抽出する第3の抽出手段
    として機能させるための情報処理プログラム。
JP2015039955A 2015-03-02 2015-03-02 情報処理装置及び情報処理プログラム Pending JP2016162163A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015039955A JP2016162163A (ja) 2015-03-02 2015-03-02 情報処理装置及び情報処理プログラム
US14/829,804 US20160259774A1 (en) 2015-03-02 2015-08-19 Information processing apparatus, information processing method, and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015039955A JP2016162163A (ja) 2015-03-02 2015-03-02 情報処理装置及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2016162163A true JP2016162163A (ja) 2016-09-05

Family

ID=56845065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015039955A Pending JP2016162163A (ja) 2015-03-02 2015-03-02 情報処理装置及び情報処理プログラム

Country Status (2)

Country Link
US (1) US20160259774A1 (ja)
JP (1) JP2016162163A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097791A (ja) * 2016-12-16 2018-06-21 富士電機株式会社 プロセス監視装置、プロセス監視システム及びプログラム
JP7476249B2 (ja) 2022-03-18 2024-04-30 Lineヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11132507B2 (en) * 2019-04-02 2021-09-28 International Business Machines Corporation Cross-subject model-generated training data for relation extraction modeling

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164220A (ja) * 2011-02-08 2012-08-30 Nippon Telegr & Teleph Corp <Ntt> トピックモデリング装置、トピックモデリング方法、及びプログラム
JP2012221316A (ja) * 2011-04-11 2012-11-12 Nippon Telegr & Teleph Corp <Ntt> 文書トピック抽出装置及び方法及びプログラム
JP2013246586A (ja) * 2012-05-24 2013-12-09 Nippon Telegr & Teleph Corp <Ntt> データ群のトピック分析装置
JP2014099045A (ja) * 2012-11-14 2014-05-29 Nippon Telegr & Teleph Corp <Ntt> プロフィール推定装置、方法、及びプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6981040B1 (en) * 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
US7681147B2 (en) * 2005-12-13 2010-03-16 Yahoo! Inc. System for determining probable meanings of inputted words
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US20090192782A1 (en) * 2008-01-28 2009-07-30 William Drewes Method for increasing the accuracy of statistical machine translation (SMT)
US20110047166A1 (en) * 2009-08-20 2011-02-24 Innography, Inc. System and methods of relating trademarks and patent documents
EP2519920A4 (en) * 2009-12-31 2013-08-21 Nokia Corp METHOD AND DEVICES FOR MODELING USER INTERESTS
US9009134B2 (en) * 2010-03-16 2015-04-14 Microsoft Technology Licensing, Llc Named entity recognition in query
US8341185B2 (en) * 2010-04-02 2012-12-25 Nokia Corporation Method and apparatus for context-indexed network resources
US8645554B2 (en) * 2010-05-27 2014-02-04 Nokia Corporation Method and apparatus for identifying network functions based on user data
WO2012001232A2 (en) * 2010-06-30 2012-01-05 Nokia Corporation Method and apparatus for in-application purchasing
US10198431B2 (en) * 2010-09-28 2019-02-05 Siemens Corporation Information relation generation
US8510257B2 (en) * 2010-10-19 2013-08-13 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
US20130173643A1 (en) * 2010-10-25 2013-07-04 Ahmed K. Ezzat Providing information management
WO2012055100A1 (en) * 2010-10-27 2012-05-03 Nokia Corporation Method and apparatus for identifying a conversation in multiple strings
US8868470B2 (en) * 2010-11-09 2014-10-21 Microsoft Corporation Parallel processing of data sets
CN103765415A (zh) * 2011-05-11 2014-04-30 谷歌公司 文档主题的并行生成
US9110983B2 (en) * 2012-08-17 2015-08-18 Intel Corporation Traversing data utilizing data relationships
IN2013CH00469A (ja) * 2013-01-21 2015-07-31 Keypoint Technologies India Pvt Ltd
US9176969B2 (en) * 2013-08-29 2015-11-03 Hewlett-Packard Development Company, L.P. Integrating and extracting topics from content of heterogeneous sources
US9483738B2 (en) * 2014-01-17 2016-11-01 Hulu, LLC Topic model based media program genome generation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164220A (ja) * 2011-02-08 2012-08-30 Nippon Telegr & Teleph Corp <Ntt> トピックモデリング装置、トピックモデリング方法、及びプログラム
JP2012221316A (ja) * 2011-04-11 2012-11-12 Nippon Telegr & Teleph Corp <Ntt> 文書トピック抽出装置及び方法及びプログラム
JP2013246586A (ja) * 2012-05-24 2013-12-09 Nippon Telegr & Teleph Corp <Ntt> データ群のトピック分析装置
JP2014099045A (ja) * 2012-11-14 2014-05-29 Nippon Telegr & Teleph Corp <Ntt> プロフィール推定装置、方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097791A (ja) * 2016-12-16 2018-06-21 富士電機株式会社 プロセス監視装置、プロセス監視システム及びプログラム
JP7476249B2 (ja) 2022-03-18 2024-04-30 Lineヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
US20160259774A1 (en) 2016-09-08

Similar Documents

Publication Publication Date Title
US11868733B2 (en) Creating a knowledge graph based on text-based knowledge corpora
JP6544131B2 (ja) 情報処理装置及び情報処理プログラム
US9971763B2 (en) Named entity recognition
JP5957048B2 (ja) 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム
WO2016085409A1 (en) A method and system for sentiment classification and emotion classification
US20180025121A1 (en) Systems and methods for finer-grained medical entity extraction
US11755841B2 (en) Method for updating a knowledge base of a sentiment analysis system
KR101561464B1 (ko) 수집 데이터 감성분석 방법 및 장치
CN104471568A (zh) 对自然语言问题的基于学习的处理
JP6070501B2 (ja) 情報処理装置及び情報処理プログラム
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
US11720481B2 (en) Method, apparatus and computer program product for predictive configuration management of a software testing system
US20160350278A1 (en) Claim polarity identification
JP2018194902A (ja) 生成装置、生成方法および生成プログラム
JP7376631B2 (ja) 敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための方法及びシステム
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
JP6563350B2 (ja) データ分類装置、データ分類方法、及びプログラム
CN112148958A (zh) 用于信息推荐的方法、设备和计算机存储介质
US10810497B2 (en) Supporting generation of a response to an inquiry
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
JP2016162163A (ja) 情報処理装置及び情報処理プログラム
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
US10013482B2 (en) Context-dependent evidence detection
US11423228B2 (en) Weakly supervised semantic entity recognition using general and target domain knowledge
US11132500B2 (en) Annotation task instruction generation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190924

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200218