JP7014230B2

JP7014230B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7014230B2
Application number: JP2019551849A
Authority: JP
Inventors: 開石川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2022-02-01
Anticipated expiration: 2037-11-10
Also published as: US11507744B2; US20210192137A1; JPWO2019092868A1; WO2019092868A1

Description

本発明は、情報処理装置、情報処理方法及びこれらを実現するためのプログラムに関する。

近年、与えられたテキストから、特定の事象情報に関する単語を抽出するシステムの開発が進められている。

例えば、非特許文献１には、畳み込みニューラルネットワーク（Convolutional Neural Network：以下、CNNとも記載する。）を利用したシステムによって、与えられたテキストから、特定の事象情報に関する単語（以下、特定単語と記載する。）を抽出する方法が開示されている。

図１５は、非特許文献１の方法を利用した抽出装置の構成を示すブロック図である。図１５に示す抽出装置１００は、字句解析部１０１と、エンコーダ１０２と、分類部１０３と、最適化処理部１０４とを備えている。抽出装置１００では、分類部１０３は、訓練用テキストを用いて学習された判定モデルによって、与えられたテキスト（以下、分析用テキストと記載する。）から特定単語を抽出する。

図１６は、訓練用テキストの一部を示す図である。抽出装置１００において判定モデルを学習する際には、まず、訓練用テキスト、及び特定単語の訓練用テキストにおける位置を示す位置情報が、字句解析部１０１に入力される。具体的には、例えば、特定の事象情報として“transfer money”が与えられ、特定単語として“paid”が与えられた場合には、訓練用テキストにおける“paid”の位置が、訓練用テキストとともに字句解析部１０１に入力される。字句解析部１０１は、入力された訓練用テキストを字句解析することによって、図１７に示すような単語列を生成する。

エンコーダ１０２は、字句解析部１０１が生成した単語列から、検出対象の単語１０５を中心とする所定長さＬのウインドウＷを用いて複数の単語を抽出する。より具体的には、字句解析部１０１は、ウインドウＷの位置を移動させながら、各位置において複数の単語を抽出することによって、複数の単語グループを生成する。

また、エンコーダ１０２は、複数の単語グループに対応する複数の行列を生成する。図１８は、エンコーダ１０２によって生成される行列の一例を示す図である。なお、図１８は、“was, booked, and, paid, for”によって構成される単語グループに対応する行列を示す。図１８を参照して、エンコーダ１０２は、各単語グループの複数の単語に対して、辞書モデルを用いて生成した意味ベクトルを対応付けることによって、単語グループごとに、複数の単語と複数の単語それぞれの意味ベクトルとが対応付けられた行列を生成する。なお、図１８では、“was”の意味ベクトルを表す部分が一点鎖線で囲まれている。

分類部１０３は、エンコーダ１０２が生成した行列とＣＮＮを用いた判定モデルとを用いて、単語列（図１７参照）の各位置の単語について、特定単語に該当するか否かを判定する。言い換えると、分類部１０３は、特定単語の訓練用テキストにおける位置を特定する。

最適化処理部１０４は、分類部１０３の判定結果と、特定単語の訓練用テキストにおける実際の位置とに基づいて、判定モデルのパラメータを更新する。このようにして、抽出装置１００においては、判定モデルが学習される。判定モデルが学習された後、分析用テキストが字句解析部１０１に与えられると、エンコーダ１０２によって上記のようにして行列が生成され、生成された行列と学習された判定モデルとを用いて分類部１０３によって、特定単語が抽出される。

Y.Kim, 2014 "Convolutional Neural Networks for SentenceClassification"EMNLP2014、２０１４年１０月２５日、ｐ．１７４６－１７５１

非特許文献１に開示された方法を利用した上述の抽出装置１００では、ウインドウＷの長さを大きくして複数の単語を抽出することによって、検出対象の単語の周辺の文脈を考慮することができる。これにより、検出対象の単語が有する意味のあいまい性を解消して、検出対象の単語が特定単語に該当するか否かを判定することができる。しかしながら、本発明者による検討の結果、ウインドウＷの長さを大きくすることによって、特定単語のテキストにおける位置の特定精度が低下する場合があることが分かった。

本発明の目的の一例は、与えられたテキストから、特定の事象情報に関する単語を精度よく抽出することができる、情報処理装置、情報処理方法及びプログラムを提供することにある。

上記目的を達成するため、本発明の一側面における情報処理装置は、
訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、字句解析部と、
前記字句解析部が生成した前記訓練用単語列において、検出対象の単語を中心とする所定長さのウインドウの位置を前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の単語と前記検出対象の単語とを組み合せることによって得られる複数の訓練用単語ペアを抽出する、ペア生成部と、
予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語ペアの各単語に対応付けることによって、前記複数の訓練用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた訓練用行列を生成する、行列生成部と、
前記行列生成部が生成した複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、分類部と、
前記分類部が算出した前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、最適化処理部と、
を備えることを特徴とする。

また、上記目的を達成するため、本発明の一側面における情報処理方法は、
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする所定長さのウインドウの位置を前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の単語と前記検出対象の単語とを組み合せることによって得られる複数の訓練用単語ペアを抽出する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語ペアの各単語に対応付けることによって、前記複数の訓練用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を備えることを特徴とする。

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする所定長さのウインドウの位置を前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の単語と前記検出対象の単語とを組み合せることによって得られる複数の訓練用単語ペアを抽出する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語ペアの各単語に対応付けることによって、前記複数の訓練用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を実行させる命令を含む、ことを特徴とする。

以上のように本発明によれば、与えられたテキストから、特定の事象情報に関する単語を精度よく抽出することができる。

図１は、本発明の実施の形態における情報処理装置の概略構成を示す構成図である。図２は、字句解析部が生成した訓練用単語列の一部と、ペア生成部が抽出する訓練用単語ペアとの関係の一例を示す図である。図３は、図２に示すウインドウの位置において、ペア生成部によって抽出された４つの訓練用単語ペアを示す図である。図４は、訓練用行列を示す概略図である。図５は、本発明の一実施形態に係る情報処理装置の構成を具体的に示すブロック図である。図６は、ＣＮＮによる処理内容を示す概念図である。図７は、ＣＮＮによって訓練用行列が圧縮される際の処理内容を概念的に示した図である。図８は、ＣＮＮによって訓練用行列が圧縮される際の処理内容を概念的に示した図である。図９は、単語ペアの正例数および負例数を示す図である。図１０は、単語ペアの正例数および負例数を示す図である。図１１は、単語ペアの正例数および負例数を示す図である。図１２は、本発明の実施の形態における情報処理方法の動作を示すフロー図である。図１３は、本発明の実施の形態における情報処理方法の動作を示すフロー図である。図１４は、本発明の実施の形態における情報処理装置を実現するコンピュータの一例を示すブロック図である。図１５は、非特許文献１の方法を利用した抽出装置の構成を示すブロック図である。図１６は、訓練用テキストの一部を示す図である。図１７は、単語列を示す図である。図１８は、エンコーダによって生成される行列の一例を示す図である。図１９は、ＣＮＮによって訓練用行列が圧縮される際の処理内容を概念的に示した図である。

（実施の形態）
以下、本発明の実施の形態における、情報処理装置、情報処理方法及びプログラムについて、図１～図１９を参照しながら説明する。

［装置構成］
最初に、本発明の実施の形態における情報処理装置の構成について説明する。図１は、本発明の実施の形態における情報処理装置の概略構成を示す構成図である。

図１に示すように、本実施の形態における情報処理装置１０は、字句解析部１２と、ペア生成部１４と、行列生成部１６と、分類部１８と、最適化処理部２０とを備えている。本実施形態における情報処理装置１０では、訓練用テキストを用いて、後述する判定モデルが学習される。

具体的には、まず、字句解析部１２に、訓練用テキスト（例えば、図１６参照）、及び特定の事象情報に関する単語（以下、特定単語と記載する。）の訓練用テキストにおける位置を示す位置情報が入力される。本実施形態においては、例えば、特定の事象情報として“transfer money”が与えられ、特定単語として“paid”が与えられた場合には、訓練用テキストにおける“paid”の位置を示す位置情報が、訓練用テキストとともに字句解析部１２に入力される。なお、本実施形態において位置情報とは、例えば、テキストにおける任意の単語の記述領域を示す数値（オフセット）であり、テキストの先頭からの距離を示す整数によって表される。

本実施形態では、字句解析部１２は、入力された訓練用テキストを字句解析することによって、図１７に示したような単語列（以下、訓練用単語列と記載する。）を生成する。なお、本実施形態では、字句解析部１２によって生成された訓練用単語列の各単語には、その単語の訓練用テキストにおける位置を示す位置情報及び特定単語に該当するか否かを示すラベルが付与される。本実施形態では、各単語には、例えば、２値のいずれか（０又は１）が付与される。図１７に示した例では、例えば、特定単語である“paid”には、特定単語に該当することを示すラベル（例えば、１）が付与され、“paid”以外の単語には、特定単語ではないことを示すラベル（例えば、０）が付与される。なお、本実施形態では、特定単語と同じ単語であっても、訓練用テキストにおける位置によっては、特定単語に該当しない場合がある。言い換えると、同じ単語が訓練テキスト中の２つの位置に存在する場合であっても、その単語の周辺の文脈によって、一方の単語は特定単語に該当し、他方の単語は特定単語に該当しない場合がある。この場合には、特定単語に該当しない単語には、特定単語ではないことを示すラベルが付与される。

ペア生成部１４は、検出対象の単語（以下、検出単語とも記載する。）を中心とする所定長さのウインドウの位置を、訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置におけるウインドウ内の複数の単語から、訓練用単語ペアを抽出する。具体的には、ペア生成部１４は、ウインドウ内で検出単語以外の各単語を検出単語にそれぞれ組み合せることによって、複数の訓練用単語ペアを抽出する。

図２は、字句解析部１２が生成した訓練用単語列の一部と、ペア生成部１４が抽出する訓練用単語ペアとの関係の一例を示す図である。また、図３は、図２に示すウインドウＷの位置において、ペア生成部１４によって抽出された４つの訓練用単語ペアを示す図である。

図２及び図３に示す例では、ペア生成部１４は、ウインドウＷ内で、検出単語３２以外の各単語（booked, and, for, 2）を、検出単語３２にそれぞれ組み合せることによって４つの訓練用単語ペアＰ１～Ｐ４を抽出する。なお、本実施形態においてウインドウの長さは、単語数で示される。図２の例では、ウインドウＷの長さＬは５である。なお、本実施形態では、ウインドウの長さは５以上の奇数に設定される。したがって、ウインドウの長さは、７以上の奇数であってもよい。

行列生成部１６は、図４に示すように、ペア生成部１４によって生成された複数の訓練用単語ペアＰ１～Ｐ４の各単語に、その単語の意味ベクトルＶを対応付けることによって、訓練用行列Ｍ１～Ｍ４を生成する。なお、図４に示した訓練用単語ペアＰ１～Ｐ４は、図２に示す位置のウインドウＷによって生成された訓練用単語ペアである。本実施形態では、行列生成部１６は、ペア生成部１４によって生成された全ての訓練用単語ペアについて、訓練用行列を生成する。また、図４に示した訓練用行列Ｍ１～Ｍ４は概略図であり、各単語の意味ベクトルは、例えば、３００次元で表現される。

本実施形態では、行列生成部１６は、例えば、予め設定された辞書モデルを用いて、訓練用単語列３０の各単語の意味ベクトルを取得する。そして、行列生成部１６は、取得した各単語の意味ベクトルＶを、ペア生成部１４によって生成された複数の訓練用単語ペアＰ１～Ｐ４の各単語に対応付けることによって、複数の訓練用行列Ｍ１～Ｍ４を生成することができる。なお、行列生成部１６は、ペア生成部１４によって複数の訓練用単語ペアＰ１～Ｐ４が生成される前に、訓練用単語列３０の複数の単語それぞれに意味ベクトルＶを対応付けてもよい。この場合、ペア生成部１４は、各単語に意味ベクトルＶが対応付けられた訓練用単語列３０から、訓練用単語ペアＰ１～Ｐ４を生成してもよい。辞書モデルとしては、ｗｏｒｄ２ｖｅｃ等の公知のモデルを利用できる。

分類部１８は、ペア生成部１４が生成した複数の訓練用行列Ｍ１～Ｍ４と畳み込みニューラルネットワーク（ＣＮＮ）を用いて予め構築された判定モデルとを用いて、訓練用単語列３０の各位置の単語について、特定単語に該当する確率を算出する。

最適化処理部２０は、分類部１８が算出した訓練用単語列３０の各位置の単語の確率のうち、特定単語に該当することを示すラベルが付された単語の確率が高くなるように、判定モデルのパラメータを更新する。

以上のように、本実施形態では、検出対象の単語ごとに、複数の訓練用単語ペアが生成される。そして、複数の訓練用単語ペアそれぞれから、訓練用行列が生成される。すなわち、本実施形態では、検出対象の単語ごとに、複数の訓練用行列が生成される。本実施形態では、このようにして生成された複数の訓練用行列を用いて、ＣＮＮを用いた判定モデルを学習することができる。これにより、詳細を後述するように、与えられたテキストから、特定単語を精度よく抽出することができるように、判定モデルを学習することができる。

次に、情報処理装置の具体的な構成について説明する。図５は、本発明の一実施形態に係る情報処理装置の構成を具体的に示すブロック図である。

図５に示すように、本実施形態では、情報処理装置１０は、上述の字句解析部１２、ペア生成部１４、行列生成部１６、分類部１８、及び最適化処理部２０に加えて、更に、辞書モデル記憶部２２及びパラメータ記憶部２４を備えている。辞書モデル記憶部２２には、辞書モデルが記憶されている。本実施形態では、辞書モデル記憶部２２には、ｗｏｒｄ２ｖｅｃ等の公知の辞書モデルが記憶されている。パラメータ記憶部２４には、ＣＮＮを用いて構築された判定モデルのパラメータが記憶されている。なお、本実施形態では、パラメータ記憶部２４には、複数の事象情報に対応できるように、事象情報ごとのパラメータが記憶されている。

本実施形態においても、判定モデルを学習する際には、まず、字句解析部１２に、訓練用テキスト及び特定単語の位置情報が入力される。上述したように、字句解析部１２は、入力された訓練用テキストを字句解析することによって、訓練用単語列３０（図２参照）を生成する。上述したように、訓練用単語列３０の各単語には、位置情報及びラベルが付与される。

ペア生成部１４は、上述したように、訓練用単語列３０から複数の訓練用単語ペアＰ１～Ｐ４（図３参照）を抽出する。

本実施形態では、行列生成部１６は、辞書モデル記憶部２２に記憶された辞書モデルを用いて、訓練用単語列３０の各単語の意味ベクトルＶを取得する。行列生成部１６は、取得した各単語の意味ベクトルＶを、複数の訓練用単語ペアＰ１～Ｐ４の各単語に対応付けることによって、複数の訓練用行列Ｍ１～Ｍ４を生成する。また、分類部１８は、パラメータ記憶部２４に記憶された判定モデルのパラメータを用いて、訓練用単語列３０の各位置の単語について、特定単語に該当する確率を算出する。本実施形態では、分類部１８は、算出された確率が閾値（例えば、０．５）以上である単語を、特定単語と判定する。

最適化処理部２０は、分類部１８が算出した訓練用単語列３０の各位置の単語の確率のうち、特定単語に該当することを示すラベルが付された単語の確率が高くなるように、パラメータ記憶部２４に記憶されたパラメータを更新（最適化）する。これにより、判定モデルが学習される。なお、最適化処理部２０は、公知の方法によって、パラメータを最適化できる。本実施形態では、最適化処理部２０は、例えば、判定モデルのパラメータを引数とする損失関数を最小化するように、パラメータを更新する。具体的には、最適化処理部２０は、例えば、目的関数の勾配方向の逆方向にパラメータを更新する勾配降下法を用いてパラメータを更新することができる。

また、本実施形態に係る情報処理装置１０では、上記のようにして学習した判定モデルを用いて、分析用テキストから、特定単語が抽出される。具体的には、分析用テキストが字句解析部１２に与えられると、字句解析部１２は、学習時と同様に、分析用テキストを字句解析することによって、単語列（以下、分析用単語列と記載する。）を生成する。なお、分析用単語列の各単語には、位置情報が付与されるが、ラベルは付与されない。

ペア生成部１４は、学習時と同様に、ウインドウＷ（図２参照）を用いて、分析用単語列から複数の分析用単語ペアを生成する。

行列生成部１６は、学習時と同様に、辞書モデル記憶部２２に記憶された辞書モデルを用いて、分析用単語列の各単語の意味ベクトルを取得する。また、行列生成部１６は、学習時と同様に、取得した各単語の意味ベクトルを、複数の分析用単語ペアの各単語に対応付けることによって、複数の分析用行列を生成する。

本実施形態では、分類部１８には、分析対象となる事象情報が与えられる。分類部１８は、学習時と同様に、パラメータ記憶部２４に記憶された判定モデルのパラメータ（与えられた事象情報に対応するパラメータ）を用いて、分析用単語列の各位置の単語について、特定単語に該当する確率を算出する。本実施形態では、分類部１８は、算出された確率が閾値（例えば、０．５）以上である単語を、特定単語と判定する。また、分類部１８は、特定単語と判定した単語を抽出して、抽出した単語を位置情報とともに出力する。

ここで、ＣＮＮを用いた処理内容について簡単に説明する。図６は、従来利用されているＣＮＮによる処理内容を示す概念図である。なお、図６には、従来の技術を用いた抽出装置１００（図１５参照）において、ウインドウＷの長さを９に設定して生成された訓練用行列が示されている。図６に示すように、ＣＮＮは、畳み込み層、プーリング層及び全結合層を含む。公知の技術であるので、ＣＮＮについての詳細な説明は省略するが、本実施形態においても、図６に示した例と同様に、行列生成部１６によって生成された複数の行列は、フィルタによって畳み込まれる（圧縮される）。

図７及び図８は、ＣＮＮによって訓練用行列Ｍ１～Ｍ４が圧縮される際の処理（畳み込み処理）の内容を概念的に示した図である。なお、図７及び図８に示した訓練用行列Ｍ１～Ｍ４は、長さＬが５のウインドウＷ（図２参照）を用いて生成された訓練用単語ペアＰ１～Ｐ４から得られた行列である。また、図７及び図８には、は、特定単語が“paid”であり、畳み込みフィルタの大きさ（単語の数で表した大きさ）が２の場合の畳み込み処理の一例を示している。また、図７は、検出対象の単語が“and”の場合の例であり、図８は、検出対象の単語が“paid”の場合の例である。

図７及び図８に示すように、本実施形態では、分類部１８は、学習時に畳み込み処理を行なう際に、各単語に付されたラベルに基づいて、畳み込み処理される訓練用単語ペアの「正例」および「負例」を判断する。具体的には、検出対象となる単語が特定単語ではない場合に生成された全ての訓練用単語ペア（図７参照）は、「負例」と判断される。一方、検出対象となる単語が特定単語である場合に生成された全ての訓練用単語ペア（図８参照）は、「正例」と判断される。したがって、例えば、図２に示した訓練用単語列３０の各単語から生成された複数の訓練用行列Ｍ１～Ｍ４を、大きさが２の畳み込みフィルタで処理する場合、単語ペアの正例数および負例数は、図９に示すようになる。

ここで、図７及び図８の訓練用行列Ｍ１～Ｍ４を、分析用行列として見ると、分析時には、検出対象の単語が“and”の場合、畳み込み処理される単語ペアの正例数および負例数は、図１０に示すようにカウントされる。この場合、全カウントに対する正例数のカウントの割合（１／８）は、０．１２５となる。

一方、検出対象の単語が“paid”の場合（図８参照）には、分析時には、畳み込み処理される単語ペアの正例数および負例数は、図１１に示すようにカウントされる。この場合、全カウントに対する正例数のカウントの割合（４／８）は、０．５となる。

以上のことから、本実施形態では、特定単語がウインドウＷの中央に位置している場合（すなわち、特定単語が検出対象の単語である場合）に、スコアが高くなるように、判定モデルを学習できていることが分かる。

特に、本実施形態では、学習時に、特定単語が検出対象の単語である場合には、分類部１８は、複数の訓練用行列Ｍ１～Ｍ４それぞれから生成された全ての単語ペアを「正例」と判断する。例えば、図８の例では、分類部１８において「正例」と判断される４つの単語ペアの全てが、特定単語を含む単語ペアである。一方、図１５の抽出装置１００において“paid”が特定単語でありかつ検出対象の単語である場合には、図１９に示すように、単語ペアの「正例」および「負例」が判断される。したがって、抽出装置１００の分類部１０３において、「正例」と判断される単語ペアの数は４であり、その４つの単語ペアのうち２つの単語ペア（“and paid”及び“paid for”）が特定単語を含む単語ペアとなる。このように、本実施形態に係る情報処理装置１０では、従来の技術を用いた情報処理装置（例えば、図１５の抽出装置１００）に比べて、分類部１８において「正例」と判断される複数の単語ペアにおける、特定単語を含む単語ペアの割合を高くすることができる。

また、本実施形態では、分析時に、特定単語が検出対象の単語である場合には、分類部１８において、特定単語を含む単語ペアが畳み込み層に入力される回数を、特定単語を含まない単語ペアが畳み込み層に入力される回数よりも多くすることができる。例えば、図８の訓練用行列Ｍ１～Ｍ４を分析用行列とすると、分類部１８において畳み込み層に入力される４つの単語ペアの全てが、特定単語を含む単語ペアである。一方、図１５の抽出装置１００において“paid”が特定単語でありかつ検出対象の単語である場合には、図１９に示すように、畳み込み層に入力される４つの単語ペアのうち２つの単語ペアが特定単語を含む単語ペアとなる。このように、本実施形態に係る情報処理装置１０では、従来の技術を用いた情報処理装置（例えば、図１５の抽出装置１００）に比べて、特定単語を含む単語ペアの畳み込み層への入力回数を多くすることができる。これにより、分析用テキストにおける特定単語の位置を精度よく特定することが可能となる。

以上のように、本実施形態では、ウインドウ内から検出単語を基準として複数の単語ペアを抽出することによって、分析用テキストから特定単語を精度よく抽出することができる。

［装置動作］
次に、本発明の実施の形態における情報処理装置１０の動作について図１２及び図１３を用いて説明する。図１２及び図１３は、本発明の実施の形態における情報処理方法の動作を示すフロー図である。以下の説明においては、適宜図１～図１１を参酌する。また、本実施の形態では、情報処理装置１０を動作させることによって、情報処理方法が実施される。よって、本実施の形態における情報処理方法の説明は、以下の情報処理装置１０の動作説明に代える。

まず、学習時の情報処理装置１０の動作について説明する。図１２に示すように、まず、字句解析部１２が、上述したように、訓練用テキストおよび特定単語の位置情報を取得した後、訓練用単語列を生成する（ステップＳ１）。

次に、ペア生成部１４が、上述したように、訓練用単語列から、複数の訓練用単語ペアを抽出する（ステップＳ２）。次に、行列生成部１６が、上述したように、訓練用行列を生成する（ステップＳ３）。次に、分類部１８が、上述したように、訓練用単語列の各単語が、特定単語に該当する確率を算出する。（ステップＳ４）。

最後に、最適化処理部２０が、上述したように、判定モデルのパラメータを更新する（ステップＳ５）。

次に、分析時の情報処理装置１０の動作について説明する。図１３に示すように、まず、字句解析部１２が、上述したように、分析用テキストを取得した後、分析用単語列を生成する（ステップＡ１）。次に、ペア生成部１４が、上述したように、分析用単語列から、複数の分析用単語ペアを抽出する（ステップＡ２）。次に、行列生成部１６が、上述したように、分析用行列を生成する（ステップＡ３）。次に、分類部１８が、上述したように、分析用単語列の各単語が、特定単語に該当する確率を算出する。（ステップＡ４）。

最後に、分類部１８が、上述したように、分析用単語列から特定単語を抽出するとともに、抽出した単語の位置情報を出力する（ステップＡ５）。

［プログラム］
本実施の形態におけるプログラムは、コンピュータに、図１２に示すステップＳ１～Ｓ５及び図１３に示すステップＡ１～Ａ５を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における情報処理装置と情報処理方法とを実現することができる。この場合、コンピュータのプロセッサは、字句解析部１２、ペア生成部１４、行列生成部１６、分類部１８及び最適化処理部２０として機能し、処理を行なう。

また、本実施の形態では、辞書モデル記憶部２２およびパラメータ記憶部２４は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって、又はこのデータファイルが格納された記録媒体をコンピュータと接続された読取装置に搭載することによって実現されている。

また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、字句解析部１２、ペア生成部１４、行列生成部１６、分類部１８及び最適化処理部２０のいずれかとして機能しても良い。また、辞書モデル記憶部２２およびパラメータ記憶部２４は、本実施の形態におけるプログラムを実行するコンピュータとは別のコンピュータ上に構築されていても良い。

［物理構成］
ここで、実施の形態におけるプログラムを実行することによって、情報処理装置を実現するコンピュータについて図１４を用いて説明する。図１４は、本発明の実施の形態における情報処理装置１０を実現するコンピュータの一例を示すブロック図である。

図１４に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。なお、コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-ProgrammableGate Array）を備えていても良い。

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記録媒体、又はＣＤ－ＲＯＭ（Compact DiskRead Only Memory）などの光学記録媒体が挙げられる。

なお、本実施の形態における情報処理装置１０は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、情報処理装置１０は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

上述した実施の形態の一部又は全部は、以下に記載する（付記１）～（付記１２）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、字句解析部と、
前記字句解析部が生成した前記訓練用単語列において、検出対象の単語を中心とする所定長さのウインドウの位置を前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の各単語を前記検出対象の単語にそれぞれ組み合せることによって得られる複数の訓練用単語ペアを抽出する、ペア生成部と、
予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語ペアの各単語に対応付けることによって、前記複数の訓練用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた訓練用行列を生成する、行列生成部と、
前記行列生成部が生成した複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、分類部と、
前記分類部が算出した前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、最適化処理部と、
を備える、情報処理装置。

（付記２）
単語の数によって示される前記ウインドウの長さは、５以上の奇数に設定される、付記１に記載の情報処理装置。

（付記３）
前記字句解析部は、分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成し、
前記ペア生成部は、前記字句解析部が生成した前記分析用単語列において、前記所定長さのウインドウの位置を前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の各単語を前記検出対象の単語にそれぞれ組み合せることによって得られる複数の分析用単語ペアを抽出し、
行列生成部は、前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語ペアの各単語に対応付けることによって、前記複数の分析用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた分析用行列を生成し、
前記分類部は、前記行列生成部が生成した複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、付記１または２に記載の情報処理装置。

（付記４）
前記分類部は、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、付記３に記載の情報処理装置。

（付記５）
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする所定長さのウインドウの位置を前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の各単語を前記検出対象の単語にそれぞれ組み合せることによって得られる複数の訓練用単語ペアを抽出する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語ペアの各単語に対応付けることによって、前記複数の訓練用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を備える、情報処理方法。

（付記６）
単語の数によって示される前記ウインドウの長さは、５以上の奇数に設定される、付記５に記載の情報処理方法。

（付記７）
（ｆ）分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
（ｇ）前記（ｆ）のステップで生成された前記分析用単語列において、前記所定長さのウインドウの位置を前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の各単語を前記検出対象の単語にそれぞれ組み合せることによって得られる複数の分析用単語ペアを抽出する、ステップと、
（ｈ）前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語ペアの各単語に対応付けることによって、前記複数の分析用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
（ｉ）前記（ｈ）のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を更に備える、付記５または６に記載の情報処理方法。

（付記８）
前記（ｉ）のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、付記７に記載の情報処理方法。

（付記９）
コンピュータに、
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする所定長さのウインドウの位置を前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の各単語を前記検出対象の単語にそれぞれ組み合せることによって得られる複数の訓練用単語ペアを抽出する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語ペアの各単語に対応付けることによって、前記複数の訓練用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を実行させる命令を含む、プログラム。

（付記１０）
単語の数によって示される前記ウインドウの長さは、５以上の奇数に設定される、付記９に記載のプログラム。

（付記１１）
前記コンピュータに、
（ｆ）分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
（ｇ）前記（ｆ）のステップで生成された前記分析用単語列において、前記所定長さのウインドウの位置を前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の各単語を前記検出対象の単語にそれぞれ組み合せることによって得られる複数の分析用単語ペアを抽出する、ステップと、
（ｈ）前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語ペアの各単語に対応付けることによって、前記複数の分析用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
（ｉ）前記（ｈ）のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を実行させる命令を更に含む、付記９または１０に記載のプログラム。

（付記１２）
前記（ｉ）のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、付記１１に記載のプログラム。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

以上のように、本発明によれば、与えられたテキストから、特定の事象情報に関する単語を精度よく抽出することができる。

１０情報処理装置
１２字句解析部
１４ペア生成部
１６行列生成部
１８分類部
２０最適化処理部
２２辞書モデル記憶部
２４パラメータ記憶部
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

Claims

訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、字句解析部と、
前記字句解析部が生成した前記訓練用単語列において、検出対象の単語を中心とする所定長さのウインドウの位置を前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の各単語を前記検出対象の単語にそれぞれ組み合せることによって得られる複数の訓練用単語ペアを抽出する、ペア生成部と、
予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語ペアの各単語に対応付けることによって、前記複数の訓練用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた訓練用行列を生成する、行列生成部と、
前記行列生成部が生成した複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、分類部と、
前記分類部が算出した前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、最適化処理部と、
を備える、情報処理装置。
単語の数によって示される前記ウインドウの長さは、５以上の奇数に設定される、請求項１に記載の情報処理装置。
前記字句解析部は、分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成し、
前記ペア生成部は、前記字句解析部が生成した前記分析用単語列において、前記所定長さのウインドウの位置を前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の各単語を前記検出対象の単語にそれぞれ組み合せることによって得られる複数の分析用単語ペアを抽出し、
行列生成部は、前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語ペアの各単語に対応付けることによって、前記複数の分析用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた分析用行列を生成し、
前記分類部は、前記行列生成部が生成した複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、請求項１または２に記載の情報処理装置。
前記分類部は、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、請求項３に記載の情報処理装置。
コンピュータが実行する情報処理方法であって、
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする所定長さのウインドウの位置を前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の各単語を前記検出対象の単語にそれぞれ組み合せることによって得られる複数の訓練用単語ペアを抽出する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語ペアの各単語に対応付けることによって、前記複数の訓練用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を備える、情報処理方法。
単語の数によって示される前記ウインドウの長さは、５以上の奇数に設定される、請求項５に記載の情報処理方法。
（ｆ）分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
（ｇ）前記（ｆ）のステップで生成された前記分析用単語列において、前記所定長さのウインドウの位置を前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の各単語を前記検出対象の単語にそれぞれ組み合せることによって得られる複数の分析用単語ペアを抽出する、ステップと、
（ｈ）前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語ペアの各単語に対応付けることによって、前記複数の分析用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
（ｉ）前記（ｈ）のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を更に備える、請求項５または６に記載の情報処理方法。
前記（ｉ）のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、請求項７に記載の情報処理方法。
コンピュータに、
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする所定長さのウインドウの位置を前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の各単語を前記検出対象の単語にそれぞれ組み合せることによって得られる複数の訓練用単語ペアを抽出する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語ペアの各単語に対応付けることによって、前記複数の訓練用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を実行させる命令を含む、プログラム。
単語の数によって示される前記ウインドウの長さは、５以上の奇数に設定される、請求項９に記載のプログラム。
前記コンピュータに、
（ｆ）分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
（ｇ）前記（ｆ）のステップで生成された前記分析用単語列において、前記所定長さのウインドウの位置を前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置における前記ウインドウ内で前記検出対象の単語以外の各単語を前記検出対象の単語にそれぞれ組み合せることによって得られる複数の分析用単語ペアを抽出する、ステップと、
（ｈ）前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語ペアの各単語に対応付けることによって、前記複数の分析用単語ペアごとに、各単語とその単語の前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
（ｉ）前記（ｈ）のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を実行させる命令を更に含む、請求項９または１０に記載のプログラム。
前記（ｉ）のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、請求項１１に記載のプログラム。