JP5527548B2 - 情報分析装置、情報分析方法、及びプログラム - Google Patents
情報分析装置、情報分析方法、及びプログラム Download PDFInfo
- Publication number
- JP5527548B2 JP5527548B2 JP2010532807A JP2010532807A JP5527548B2 JP 5527548 B2 JP5527548 B2 JP 5527548B2 JP 2010532807 A JP2010532807 A JP 2010532807A JP 2010532807 A JP2010532807 A JP 2010532807A JP 5527548 B2 JP5527548 B2 JP 5527548B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- unit
- training
- sentence
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定する密度推定部と、
前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定する判定部と、
を備えることを特徴とする。
(a)前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
(b)前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、
を備えることを特徴とする。
前記コンピュータに、
(a)前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
(b)前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、を実行させる、ことを特徴とする。
以下、本発明の実施の形態1における情報分析装置、及び情報分析方法について、図1〜図11を参照しながら説明する。最初に、本実施の形態1における情報分析装置の構成について図1〜図3を用いて説明する。図1は、本発明の実施の形態1における情報分析装置の概略構成を示すブロック図である。図2は、分析対象となるテキスト情報の一例を示す図である。図3は、図2に示すテキスト情報に設定された分析単位の例を示す図である。
次に、本発明の実施の形態2における情報分析装置、及び情報分析方法について、図12〜図16を参照しながら説明する。最初に、本実施の形態2における情報分析装置の構成について図12及び図13を用いて説明する。図12は、本発明の実施の形態2における情報分析装置の概略構成を示すブロック図である。図13は、訓練用のテキスト情報の一例を示す図である。
前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定する密度推定部と、
前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定する判定部と、
を備えることを特徴とする情報分析装置。
前記密度推定部が、前記分析単位生成部が生成した分析単位毎に、前記密度を推定する、上記(1)に記載の情報分析装置。
前記分析単位生成部が、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、上記(2)に記載の情報分析装置。
前記分析単位生成部が、1番から(N+W−1)番までの番号が付された(N+W−1)個の分析単位を生成し、その際、
1番の分析単位を、W個の1番の文によって生成し、
2番から(W−1)番までの分析単位それぞれを、1番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
W番からN番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するW個の文を抽出することによって、生成し、
(N+1)番から(N+W−2)番までの分析単位それぞれを、番号がNより小さい文と、N番の文とによって生成し、
(N+W−1)番目の分析単位を、W個のN番の文によって生成する、上記(6)に記載の情報分析装置。
前記判定部が、前記評価値と、前記1種類以上の情報とを用いて、判定を行う、上記(1)に記載の情報分析装置。
前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、上記(1)に記載の情報分析装置。
前記訓練用のテキスト情報は、それに含まれる文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、前記訓練用のテキスト情報には、それに含まれる複数の文を一単位とする訓練単位が複数個生成されており、
前記訓練データ生成部は、前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を、前記訓練データとして生成し、
前記密度推定モデル学習部は、前記生成された訓練データを用いて、前記密度推定部による密度の推定に利用可能な密度推定モデルを学習し、
前記密度推定部が、前記密度推定モデル学習部が学習した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記(1)に記載の情報分析装置。
前記訓練用のテキスト情報は、それに含まれる文毎に各文が前記目的情報であるかどうかを示す情報を有しており、
前記訓練データ生成部は、前記訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を、前記訓練データとして生成し、
前記密度推定モデル学習部は、前記生成された訓練データを用いて、前記密度推定部による密度の推定に利用可能な密度推定モデルを学習し、
前記密度推定部が、前記密度推定モデル学習部が学習した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記(2)に記載の情報分析装置。
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(12)に記載の情報分析装置。
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(12)に記載の情報分析装置。
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(12)に記載の情報分析装置。
訓練データ生成部が、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(12)に記載の情報分析装置。
前記密度推定モデル学習部が、更に、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定し、
前記判定モデル学習部が、前記密度推定モデル学習部が推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記判定部による判定に利用可能な判定モデルを学習し、
前記判定部が、前記学習された判定モデルに従って各文が目的情報であるか否かを判定する、上記(12)に記載の情報分析装置。
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち1種類以上の情報とを用いて、前記特徴データを生成する、上記(17)に記載の情報分析装置。
(a)前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
(b)前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、
を備えることを特徴とする情報分析方法。
前記(b)のステップにおいて、前記(c)のステップで生成された分析単位毎に、前記密度を推定する、上記(21)に記載の情報分析方法。
前記(c)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、上記(22)に記載の情報分析方法。
前記(c)のステップにおいて、1番から(N+W−1)番までの番号が付された(N+W−1)個の分析単位を生成し、その際、
1番の分析単位を、W個の1番の文によって生成し、
2番から(W−1)番までの分析単位それぞれを、1番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
W番からN番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するW個の文を抽出することによって、生成し、
(N+1)番から(N+W−2)番までの分析単位それぞれを、番号がNより小さい文と、N番の文とによって生成し、
(N+W−1)番目の分析単位を、W個のN番の文によって生成する、上記(26)に記載の情報分析方法。
前記(b)のステップにおいて、前記評価値と、前記1種類以上の情報とを用いて、判定を行う、上記(21)に記載の情報分析方法。
前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、上記(21)に記載の情報分析方法。
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
(e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に備え、
前記(a)のステップにおいて、前記(e)のステップで取得された前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記(21)に記載の情報分析方法。
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
(e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に備え、
前記(a)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記(22)に記載の情報分析方法。
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(32)に記載の情報分析方法。
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(32)に記載の情報分析方法。
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(32)に記載の情報分析方法。
前記(d)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(32)に記載の情報分析方法。
(g)前記(f)のステップで推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記(b)のステップにおける判定に利用可能な判定モデルを取得するステップとを、更に備え、
前記(b)のステップにおいて、前記(g)のステップで取得した前記判定モデルに従って各文が目的情報であるか否かを判定する、上記(32)に記載の情報分析方法。
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち1種類以上の情報とを用いて、前記特徴データを生成する、上記(37)に記載の情報分析方法。
前記コンピュータに、
(a)前記テキスト情報中の複数の文を一単位とする分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
(b)前記分析単位毎に推定された密度から、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、を実行させる、命令を含むプログラムを記録したコンピュータ読み取り可能な記録媒体。
前記(b)のステップにおいて、前記(c)のステップで生成された分析単位毎に、前記密度を推定する、上記(41)に記載のコンピュータ読み取り可能な記録媒体。
前記(c)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、上記(42)に記載のコンピュータ読み取り可能な記録媒体。
前記(c)のステップにおいて、1番から(N+W−1)番までの番号が付された(N+W−1)個の分析単位を生成し、その際、
1番の分析単位を、W個の1番の文によって生成し、
2番から(W−1)番までの分析単位それぞれを、1番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
W番からN番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するW個の文を抽出することによって、生成し、
(N+1)番から(N+W−2)番までの分析単位それぞれを、番号がNより小さい文と、N番の文とによって生成し、
(N+W−1)番目の分析単位を、W個のN番の文によって生成する、上記(46)に記載のコンピュータ読み取り可能な記録媒体。
前記(b)のステップにおいて、前記評価値と、前記1種類以上の情報とを用いて、判定を行う、上記(41)に記載のコンピュータ読み取り可能な記録媒体。
前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、上記(41)に記載のコンピュータ読み取り可能な記録媒体。
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
(e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に、前記コンピュータに実行させ、
前記(a)のステップにおいて、前記(e)のステップで取得された前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記(41)に記載のコンピュータ読み取り可能な記録媒体。
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
(e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に、前記コンピュータに実行させ、
前記(a)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、上記(42)に記載のコンピュータ読み取り可能な記録媒体。
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(52)に記載のコンピュータ読み取り可能な記録媒体。
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(52)に記載のコンピュータ読み取り可能な記録媒体。
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(52)に記載のコンピュータ読み取り可能な記録媒体。
前記(d)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、上記(52)に記載のコンピュータ読み取り可能な記録媒体。
(g)前記(f)のステップで推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記(b)のステップにおける判定に利用可能な判定モデルを取得するステップとを、更に、前記コンピュータに実行させ、
前記(b)のステップにおいて、前記(g)のステップで取得した前記判定モデルに従って各文が目的情報であるか否かを判定する、上記(52)に記載のコンピュータ読み取り可能な記録媒体。
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち1種類以上の情報とを用いて、前記特徴データを生成する、上記(57)に記載のコンピュータ読み取り可能な記録媒体。
4 記憶装置
5 情報分析装置(実施の形態1)
6 表示装置
7 訓練テキスト入力部
8 記憶装置
9 情報分析装置(実施の形態2)
10 入力装置
40 入力テキスト記憶部
41 密度推定モデル記憶部
42 判定モデル記憶部
50 分析単位生成部
51 密度推定部
52 判定部
80 訓練テキスト記憶部
90 訓練データ生成部
91 密度推定モデル学習部
92 判定モデル学習部
3000 プロセッサ
3001 プログラムメモリ
3002 記憶媒体
3003 インターフェイス
3004 ビデオカード
3005 コンピュータ読み取り可能な記録媒体
Claims (63)
- テキスト情報に対して目的情報に該当するか否かの分析を行う情報分析装置であって、
前記テキスト情報中の複数の文を一単位とし、且つ、互いに文が重複するように生成された分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を、前記密度の推定ルールを規定する密度推定モデルを用いて、推定する密度推定部と、
複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか1種類以上を求め、求めた値を用いて、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定する判定部と、
を備えることを特徴とする情報分析装置。 - 前記密度推定モデルが、前記分析単位毎に、前記目的情報に関連する関連語が出現している文の数を前記密度として出力する関数、
前記関連語毎に重要度を設定し、前記分析単位それぞれにおいて出現している前記関連語の重要度の積算値を前記密度として出力する関数、及び、
前記分析単位毎に、前記関連語のベクトルと当該分析単位内の単語のベクトルとの類似度を求め、求めた前記類似度を前記密度として出力する関数、
のうちのいずれかを含む、請求項1に記載の情報分析装置。 - 前記テキスト情報から複数の前記分析単位を生成する分析単位生成部を、更に備え、
前記密度推定部が、前記分析単位生成部が生成した分析単位毎に、前記密度を推定する、請求項1または2に記載の情報分析装置。 - 前記分析単位生成部が、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、請求項3に記載の情報分析装置。
- 前記分析単位生成部が、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、請求項3に記載の情報分析装置。
- 前記分析単位生成部が、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、請求項3に記載の情報分析装置。
- 前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記分析単位生成部が、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、請求項3に記載の情報分析装置。 - 前記テキスト情報が、1番からN番までのN個の連続する文を含み、前記複数個の分析単位それぞれがW個の文を含む場合に、
前記分析単位生成部が、1番から(N+W−1)番までの番号が付された(N+W−1)個の分析単位を生成し、その際、
1番の分析単位を、W個の1番の文によって生成し、
2番から(W−1)番までの分析単位それぞれを、1番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
W番からN番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するW個の文を抽出することによって、生成し、
(N+1)番から(N+W−2)番までの分析単位それぞれを、番号がNより小さい文と、N番の文とによって生成し、
(N+W−1)番目の分析単位を、W個のN番の文によって生成する、請求項7に記載の情報分析装置。 - 前記密度推定部が、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、各分析単位の特徴量として、前記判定部に出力し、
前記判定部が、前記評価値と、前記1種類以上の情報とを用いて、判定を行う、請求項1から8のいずれかに記載の情報分析装置。 - 前記密度推定部が、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、請求項1から8のいずれかに記載の情報分析装置。
- 前記判定部が、前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、請求項1から10のいずれかに記載の情報分析装置。
- 訓練用のテキスト情報から訓練データを生成する訓練データ生成部と、密度推定モデル学習部とを、更に備え、
前記訓練用のテキスト情報は、それに含まれる文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、前記訓練用のテキスト情報には、それに含まれる複数の文を一単位とする訓練単位が複数個生成されており、
前記訓練データ生成部は、前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を、前記訓練データとして生成し、
前記密度推定モデル学習部は、前記生成された訓練データを用いて、前記密度推定部による密度の推定に利用可能な密度推定モデルを学習し、
前記密度推定部が、前記密度推定モデル学習部が学習した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項1に記載の情報分析装置。 - 訓練用のテキスト情報から訓練データを生成する訓練データ生成部と、密度推定モデル学習部とを、更に備え、
前記訓練用のテキスト情報は、それに含まれる文毎に各文が前記目的情報であるかどうかを示す情報を有しており、
前記訓練データ生成部は、前記訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を、前記訓練データとして生成し、
前記密度推定モデル学習部は、前記生成された訓練データを用いて、前記密度推定部による密度の推定に利用可能な密度推定モデルを学習し、
前記密度推定部が、前記密度推定モデル学習部が学習した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項3から7のいずれかに記載の情報分析装置。 - 訓練データ生成部が、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項13に記載の情報分析装置。 - 訓練データ生成部が、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項13に記載の情報分析装置。 - 訓練データ生成部が、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項13に記載の情報分析装置。 - 前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
訓練データ生成部が、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項13に記載の情報分析装置。 - 判定モデル学習部を、更に備え、
前記密度推定モデル学習部が、更に、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定し、
前記判定モデル学習部が、前記密度推定モデル学習部が推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記判定部による判定に利用可能な判定モデルを学習し、
前記判定部が、前記学習された判定モデルに従って各文が目的情報であるか否かを判定する、請求項13に記載の情報分析装置。 - 前記密度推定モデル学習部が、更に、学習した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、請求項18に記載の情報分析装置。
- 前記判定モデル学習部が、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち1種類以上の情報とを用いて、前記特徴データを生成する、請求項18または19に記載の情報分析装置。 - 前記分析単位生成部が、訓練データ生成部が前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、請求項13から20のいずれかに記載の情報分析装置。
- テキスト情報に対する目的情報に該当するか否かの分析を行うための情報分析方法であって、
(a)コンピュータによって、前記テキスト情報中の複数の文を一単位とし、且つ、互いに文が重複するように生成された分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を、前記密度の推定ルールを規定する密度推定モデルを用いて、推定するステップと、
(b)前記コンピュータによって、複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか1種類以上を求め、求めた値を用いて、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、
を備えることを特徴とする情報分析方法。 - 前記密度推定モデルが、前記分析単位毎に、前記目的情報に関連する関連語が出現している文の数を前記密度として出力する関数、
前記関連語毎に重要度を設定し、前記分析単位それぞれにおいて出現している前記関連語の重要度の積算値を前記密度として出力する関数、及び、
前記分析単位毎に、前記関連語のベクトルと当該分析単位内の単語のベクトルとの類似度を求め、求めた前記類似度を前記密度として出力する関数、
のうちのいずれかを含む、請求項22に記載の情報分析方法。 - (c)前記コンピュータによって、前記テキスト情報から複数の前記分析単位を生成するステップを更に備え、
前記(b)のステップにおいて、前記(c)のステップで生成された分析単位毎に、前記密度を推定する、請求項22または23に記載の情報分析方法。 - 前記(c)のステップにおいて、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、請求項24に記載の情報分析方法。
- 前記(c)のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、請求項24に記載の情報分析方法。
- 前記(c)のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、請求項24に記載の情報分析方法。
- 前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記(c)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、請求項24に記載の情報分析方法。 - 前記テキスト情報が、1番からN番までのN個の連続する文を含み、前記複数個の分析単位それぞれがW個の文を含む場合に、
前記(c)のステップにおいて、1番から(N+W−1)番までの番号が付された(N+W−1)個の分析単位を生成し、その際、
1番の分析単位を、W個の1番の文によって生成し、
2番から(W−1)番までの分析単位それぞれを、1番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
W番からN番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するW個の文を抽出することによって、生成し、
(N+1)番から(N+W−2)番までの分析単位それぞれを、番号がNより小さい文と、N番の文とによって生成し、
(N+W−1)番目の分析単位を、W個のN番の文によって生成する、請求項28に記載の情報分析方法。 - 前記(a)のステップにおいて、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、各分析単位の特徴量として求め、
前記(b)のステップにおいて、前記評価値と、前記1種類以上の情報とを用いて、判定を行う、請求項22から29のいずれかに記載の情報分析方法。 - 前記(a)のステップにおいて、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、請求項22から29のいずれかに記載の情報分析方法。
- 前記(b)のステップにおいて、前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、請求項22から31のいずれかに記載の情報分析方法。
- (d)前記コンピュータによって、文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、複数の文を一単位とする訓練単位が複数個生成されている、訓練用のテキスト情報から、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
(e)前記コンピュータによって、前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に備え、
前記(a)のステップにおいて、前記(e)のステップで取得された前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項22に記載の情報分析方法。 - (d)文毎に各文が前記目的情報であるかどうかを示す情報を有する訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
(e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に備え、
前記(a)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項24から28のいずれかに記載の情報分析方法。 - 前記(d)のステップにおいて、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項34に記載の情報分析方法。 - 前記(d)のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項34に記載の情報分析方法。 - 前記(d)のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項34に記載の情報分析方法。 - 前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記(d)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項34に記載の情報分析方法。 - (f)前記コンピュータによって、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
(g)前記コンピュータによって、前記(f)のステップで推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記(b)のステップにおける判定に利用可能な判定モデルを取得するステップとを、更に備え、
前記(b)のステップにおいて、前記(g)のステップで取得した前記判定モデルに従って各文が目的情報であるか否かを判定する、請求項34に記載の情報分析方法。 - 前記(f)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、請求項39に記載の情報分析方法。
- 前記(g)のステップにおいて、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち1種類以上の情報とを用いて、前記特徴データを生成する、請求項39または40に記載の情報分析方法。 - 前記(c)のステップにおいて、前記(d)のステップで前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、請求項34から41のいずれかに記載の情報分析方法。
- コンピュータを用いて、テキスト情報に対する目的情報に該当するか否かの分析を実行するための、プログラムであって、
前記コンピュータに、
(a)前記テキスト情報中の複数の文を一単位とし、且つ、互いに文が重複するように生成された分析単位毎に、各分析単位に含まれている前記目的情報の度合いを示す密度を、前記密度の推定ルールを規定する密度推定モデルを用いて、推定するステップと、
(b)複数の分析単位に含まれている文について、当該文を含む複数の分析単位の密度の和、前記密度の平均、及び前記密度の標準偏差のうち、いずれか1種類以上を求め、求めた値を用いて、各分析単位に含まれる各文が前記目的情報に該当する度合いを示す評価値を求め、そして、前記評価値に基づいて、前記各文が前記目的情報であるか否かを判定するステップと、を実行させる、プログラム。 - 前記密度推定モデルが、前記分析単位毎に、前記目的情報に関連する関連語が出現している文の数を前記密度として出力する関数、
前記関連語毎に重要度を設定し、前記分析単位それぞれにおいて出現している前記関連語の重要度の積算値を前記密度として出力する関数、及び、
前記分析単位毎に、前記関連語のベクトルと当該分析単位内の単語のベクトルとの類似度を求め、求めた前記類似度を前記密度として出力する関数、
のうちのいずれかを含む、請求項43に記載のプログラム。 - (c)前記テキスト情報から複数の前記分析単位を生成するステップを、更に前記コンピュータに実行させ、
前記(b)のステップにおいて、前記(c)のステップで生成された分析単位毎に、前記密度を推定する、請求項43または44に記載のプログラム。 - 前記(c)のステップにおいて、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、複数個の前記分析単位を生成する、請求項45に記載のプログラム。
- 前記(c)のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む分析単位を複数個生成する、請求項45に記載のプログラム。
- 前記(c)のステップにおいて、前記テキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各分析単位に含まれるいずれかの文が、他の分析単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記分析単位を複数個生成する、請求項45に記載のプログラム。
- 前記テキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記(c)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、分析単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の分析単位を生成する、請求項45に記載のプログラム。 - 前記テキスト情報が、1番からN番までのN個の連続する文を含み、前記複数個の分析単位それぞれがW個の文を含む場合に、
前記(c)のステップにおいて、1番から(N+W−1)番までの番号が付された(N+W−1)個の分析単位を生成し、その際、
1番の分析単位を、W個の1番の文によって生成し、
2番から(W−1)番までの分析単位それぞれを、1番の文と、各分析単位の番号よりも番号が小さい文と、各分析単位の番号と番号が同じ文とによって生成し、
W番からN番までの分析単位それぞれを、最後の文の番号が各分析単位の番号と同じになるように一つずつ最初の番号をずらしながら、番号が連続するW個の文を抽出することによって、生成し、
(N+1)番から(N+W−2)番までの分析単位それぞれを、番号がNより小さい文と、N番の文とによって生成し、
(N+W−1)番目の分析単位を、W個のN番の文によって生成する、請求項49に記載のプログラム。 - 前記(a)のステップにおいて、前記分析単位毎に推定された密度に加え、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、各分析単位の特徴量として求め、
前記(b)のステップにおいて、前記評価値と、前記1種類以上の情報とを用いて、判定を行う、請求項43から50のいずれかに記載のプログラム。 - 前記(a)のステップにおいて、前記分析単位の中の各文の単語又は文節から得られる情報、及び、前記テキスト情報と前記各文とを比較することによって取得される情報のうち、1種類以上の情報を、分析単位の特徴量とし、前記特徴量を用いて前記密度を推定する、請求項43から50のいずれかに記載のプログラム。
- 前記(b)のステップにおいて、前記評価値が予め定められた閾値を超える文を前記目的情報に該当すると判定する、請求項43から52のいずれかに記載のプログラム。
- (d)文毎に各文が前記目的情報であるかどうかを示す情報を有し、且つ、複数の文を一単位とする訓練単位が複数個生成されている、訓練用のテキスト情報から、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の度合いを示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
(e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に、前記コンピュータに実行させ、
前記(a)のステップにおいて、前記(e)のステップで取得された前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項43に記載のプログラム。 - (d)文毎に各文が前記目的情報であるかどうかを示す情報を有する訓練用のテキスト情報から、それに含まれる複数の文を一単位とする訓練単位を設定条件に従って複数個生成し、
前記訓練単位毎に、各訓練単位内の各文が前記目的情報であるかどうかを示す情報を参照して、各訓練単位に含まれている前記目的情報の量を示す目的情報密度を設定し、
更に、各訓練単位の中の各文の語又は文節から取得される情報から、前記訓練単位毎に特徴量を求め、
そして、前記訓練単位毎の前記目的情報密度及び前記特徴量を含む訓練データを生成するステップと、
(e)前記(d)のステップで生成された訓練データを用いて、前記(a)のステップにおける密度の推定に利用可能な密度推定モデルを学習するステップとを、更に、前記コンピュータに実行させ、
前記(a)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルに従って、前記分析単位毎に前記密度を推定する、請求項45から49のいずれかに記載のプログラム。 - 前記(d)のステップにおいて、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、複数個の前記訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項55に記載のプログラム。 - 前記(d)のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、抽出された前記連続する文を含む訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項55に記載のプログラム。 - 前記(d)のステップにおいて、前記訓練用のテキスト情報中の連続する複数の文の中から、予め設定された数の連続する文を抽出し、そして、各訓練単位に含まれるいずれかの文が、他の訓練単位に含まれるいずれかの文と一致するようにして、抽出された前記連続する文を含む前記訓練単位を複数個生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項55に記載のプログラム。 - 前記訓練用のテキスト情報中の複数の文において、連続する順に、番号が付されている場合に、
前記(d)のステップにおいて、予め設定された数の文を番号が連続するように抽出し、且つ、訓練単位毎に、抽出される文の最初の番号又は最後の番号が設定数だけずれるようにして、前記複数個の訓練単位を生成し、
更に、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち、1種類以上の情報から、前記訓練単位毎に特徴量を求めている、請求項55に記載のプログラム。 - (f)前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定するステップと、
(g)前記(f)のステップで推定した密度と、前記訓練データとから、特徴データを生成し、更に、前記特徴データを用いて、前記(b)のステップにおける判定に利用可能な判定モデルを取得するステップとを、更に、前記コンピュータに実行させ、
前記(b)のステップにおいて、前記(g)のステップで取得した前記判定モデルに従って各文が目的情報であるか否かを判定する、請求項52に記載のプログラム。 - 前記(f)のステップにおいて、前記(e)のステップで取得した前記密度推定モデルを用いて、前記訓練単位毎に、各訓練単位に含まれている前記目的情報の度合いを示す密度を推定する、請求項60に記載のプログラム。
- 前記(g)のステップにおいて、複数の訓練単位に含まれている文について、当該文を含む複数の訓練単位の前記密度の和、平均、及び分散の少なくとも一つを求め、
そして、求めた値と、前記各訓練単位の中の各文の語又は文節から取得される情報、及び、前記訓練用のテキスト情報と前記各訓練単位中の各文とを比較することによって取得される情報のうち1種類以上の情報とを用いて、前記特徴データを生成する、請求項60または61に記載のプログラム。 - 前記(c)のステップにおいて、前記(d)のステップで前記訓練単位を生成する際に従う前記設定条件と同じ条件に従って、複数の前記分析単位を生成する、請求項55から62のいずれかに記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010532807A JP5527548B2 (ja) | 2008-10-10 | 2009-10-06 | 情報分析装置、情報分析方法、及びプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008263950 | 2008-10-10 | ||
JP2008263950 | 2008-10-10 | ||
JP2010532807A JP5527548B2 (ja) | 2008-10-10 | 2009-10-06 | 情報分析装置、情報分析方法、及びプログラム |
PCT/JP2009/005175 WO2010041420A1 (ja) | 2008-10-10 | 2009-10-06 | 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010041420A1 JPWO2010041420A1 (ja) | 2012-03-01 |
JP5527548B2 true JP5527548B2 (ja) | 2014-06-18 |
Family
ID=42100382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010532807A Active JP5527548B2 (ja) | 2008-10-10 | 2009-10-06 | 情報分析装置、情報分析方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8510249B2 (ja) |
JP (1) | JP5527548B2 (ja) |
WO (1) | WO2010041420A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200127553A (ko) * | 2019-05-03 | 2020-11-11 | 주식회사 자이냅스 | 뉴스 기사의 감성 정보 레이블링 방법 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5751253B2 (ja) * | 2010-05-24 | 2015-07-22 | 日本電気株式会社 | 情報抽出システム、方法及びプログラム |
CN105786777B (zh) * | 2016-02-22 | 2018-09-28 | 中国移动通信集团广东有限公司 | 基于文本解析器的存储容量集中处理方法 |
JP6815184B2 (ja) * | 2016-12-13 | 2021-01-20 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
KR20180077689A (ko) * | 2016-12-29 | 2018-07-09 | 주식회사 엔씨소프트 | 자연어 생성 장치 및 방법 |
JP7122835B2 (ja) * | 2018-02-14 | 2022-08-22 | 株式会社Nttドコモ | 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル |
JP2020198546A (ja) * | 2019-06-03 | 2020-12-10 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10134066A (ja) * | 1996-10-29 | 1998-05-22 | Matsushita Electric Ind Co Ltd | 文章集約装置 |
JP2002288091A (ja) * | 2001-03-28 | 2002-10-04 | Seiko Epson Corp | メール、データの表示 |
JP2002297635A (ja) * | 2001-03-30 | 2002-10-11 | Seiko Epson Corp | 要約文作成システム及びその方法 |
WO2007108529A1 (ja) * | 2006-03-23 | 2007-09-27 | Nec Corporation | 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム |
JP2008084203A (ja) * | 2006-09-28 | 2008-04-10 | Nec Corp | ラベル付与システム、ラベル付与方法およびラベル付与プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000285140A (ja) * | 1998-12-24 | 2000-10-13 | Ricoh Co Ltd | 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7017114B2 (en) * | 2000-09-20 | 2006-03-21 | International Business Machines Corporation | Automatic correlation method for generating summaries for text documents |
JP3682529B2 (ja) * | 2002-01-31 | 2005-08-10 | 独立行政法人情報通信研究機構 | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 |
KR100481580B1 (ko) * | 2002-10-09 | 2005-04-08 | 한국전자통신연구원 | 문서에서 이벤트 문장을 추출하는 장치 및 그 방법 |
JP4382526B2 (ja) * | 2003-07-01 | 2009-12-16 | 株式会社山武 | 文章分類装置および方法 |
JP2007241902A (ja) | 2006-03-10 | 2007-09-20 | Univ Of Tsukuba | テキストデータの分割システム及びテキストデータの分割及び階層化方法 |
JP2008084064A (ja) * | 2006-09-28 | 2008-04-10 | National Institute Of Advanced Industrial & Technology | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
-
2009
- 2009-10-06 WO PCT/JP2009/005175 patent/WO2010041420A1/ja active Application Filing
- 2009-10-06 JP JP2010532807A patent/JP5527548B2/ja active Active
- 2009-10-06 US US13/063,231 patent/US8510249B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10134066A (ja) * | 1996-10-29 | 1998-05-22 | Matsushita Electric Ind Co Ltd | 文章集約装置 |
JP2002288091A (ja) * | 2001-03-28 | 2002-10-04 | Seiko Epson Corp | メール、データの表示 |
JP2002297635A (ja) * | 2001-03-30 | 2002-10-11 | Seiko Epson Corp | 要約文作成システム及びその方法 |
WO2007108529A1 (ja) * | 2006-03-23 | 2007-09-27 | Nec Corporation | 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム |
JP2008084203A (ja) * | 2006-09-28 | 2008-04-10 | Nec Corp | ラベル付与システム、ラベル付与方法およびラベル付与プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200127553A (ko) * | 2019-05-03 | 2020-11-11 | 주식회사 자이냅스 | 뉴스 기사의 감성 정보 레이블링 방법 |
KR102361596B1 (ko) | 2019-05-03 | 2022-02-11 | 주식회사 자이냅스 | 빅데이터를 활용하여 뉴스 기사의 감성 정보를 레이블링하는 방법 |
Also Published As
Publication number | Publication date |
---|---|
WO2010041420A1 (ja) | 2010-04-15 |
US20110167027A1 (en) | 2011-07-07 |
US8510249B2 (en) | 2013-08-13 |
JPWO2010041420A1 (ja) | 2012-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5527548B2 (ja) | 情報分析装置、情報分析方法、及びプログラム | |
US8650140B2 (en) | Information processing apparatus and method, and program thereof | |
JP5344715B2 (ja) | コンテンツ検索装置およびコンテンツ検索プログラム | |
JP4622589B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
US20160155067A1 (en) | Mapping Documents to Associated Outcome based on Sequential Evolution of Their Contents | |
US8027977B2 (en) | Recommending content using discriminatively trained document similarity | |
Luyckx | Scalability issues in authorship attribution | |
US8412650B2 (en) | Device and method and program of text analysis based on change points of time-series signals | |
JP2012027845A (ja) | 情報処理装置、関連文提供方法、及びプログラム | |
Homoceanu et al. | Will I like it? Providing product overviews based on opinion excerpts | |
JP7281905B2 (ja) | 文書評価装置、文書評価方法及びプログラム | |
Qiang et al. | Learning to generate posters of scientific papers by probabilistic graphical models | |
JP5455232B2 (ja) | 画像選定装置、方法及びプログラム | |
JP4524640B2 (ja) | 情報処理装置および方法、並びにプログラム | |
JP5942052B1 (ja) | データ分析システム、データ分析方法、およびデータ分析プログラム | |
JP5941078B2 (ja) | 情報処理装置、プログラム及び方法 | |
JP4106470B2 (ja) | 解データ編集処理装置および処理方法 | |
KR102028356B1 (ko) | 코멘트 기반의 광고 추천 장치 및 방법 | |
JP2017068742A (ja) | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム | |
JP4187213B2 (ja) | 自動要約処理装置および自動要約処理方法 | |
JP7427510B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2009140411A (ja) | 文章要約装置および文章要約方法 | |
JP5254888B2 (ja) | 言語資源情報生成装置、方法、プログラム、および記録媒体 | |
JP4712221B2 (ja) | 主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラム | |
JP6852520B2 (ja) | 情報処理装置、情報処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120905 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5527548 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |