JP2023027985A

JP2023027985A - 識別装置、方法、プログラムおよび学習装置

Info

Publication number: JP2023027985A
Application number: JP2021133394A
Authority: JP
Inventors: 鵬挙高; Pengju Gao; 智弘山崎; Toshihiro Yamazaki; 泰豊武山; Yasutoyo Takeyama
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2023-03-03
Also published as: US20230059476A1

Abstract

【課題】高精度な識別を実現すること。【解決手段】本実施形態に係る識別装置は、取得部と、生成部と、識別部とを含む。取得部は、処理対象となる事例を示すイベントと、複数のセンテンスを含む文書とを取得する。生成部は、前記複数のセンテンスの一部をグループ化したサブセットを複数生成する。識別部は、前記サブセットごとに、前記サブセットに含まれるセンテンスと前記イベントとの間の因果関係を識別する。【選択図】図１

Description

本発明の実施形態は、識別装置、方法、プログラムおよび学習装置に関する。

自然言語処理における文書解析において、事例と文書中のセンテンスとの因果関係が識別できれば、より効率的な情報収集が実現できる。しかし、一般的には、１つの文脈に対して１つの因果関係しか抽出できず、複数の因果関係の識別が難しい。また、対象とする文書の長さにも制限があるため、文書中の離れたセンテンスとの類似度などの特徴量を抽出できず、文書中で離れたセンテンス間では文脈を把握することが難しいという問題がある。

Wei Yang, et al., "End-to-End Open-Domain Question Answering with BERTserini", Proceeding of NAACL-HLT 2019: Demonstrations, Minneapolis, Minnesota, June 2 - June 7, 2019, pages 72-77.

本開示は、上述の課題を解決するためになされたものであり、高精度な識別を実現する識別装置、方法、プログラムおよび学習装置を提供することを目的とする。

本実施形態に係る識別装置は、取得部と、生成部と、識別部とを含む。取得部は、処理対象となる事例を示すイベントと、複数のセンテンスを含む文書とを取得する。生成部は、前記複数のセンテンスの一部をグループ化したサブセットを複数生成する。識別部は、前記サブセットごとに、前記サブセットに含まれるセンテンスと前記イベントとの間の因果関係を識別する。

第１の実施形態に係る識別装置を示すブロック図。第１の実施形態に係る識別装置の動作を示すフローチャート。サブセット生成部のサブセット生成処理の一例を示す図。因果関係識別部の識別結果の一例を示す図。因果関係の決定例を示す図。確信度が低い値を除外した場合の因果関係の決定例を示す図。統計処理の結果を組み合わせた一例を示す図。第２の実施形態に係る学習装置を示すブロック図。第２の実施形態に係る学習データの生成例を示す図。第２の実施形態に係る因果関係識別部のモデル構成の一例を示す図。第２の実施形態に係る学習装置の動作を示すフローチャート。本実施形態に係る識別装置および学習装置のハードウェア構成を示す図。

以下、図面を参照しながら本実施形態に係る識別装置、方法、プログラムおよび学習装置について詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。

（第１の実施形態）
第１の実施形態に係る識別装置について図１のブロック図を参照して説明する。
第１の実施形態に係る識別装置１０は、取得部１０１と、サブセット生成部１０２と、選択部１０３と、因果関係識別部１０４と、決定部１０５とを含む。

取得部１０１は、処理対象となる事例を示すイベントと、複数のセンテンスを含む文書とを取得する。本実施形態に係るイベントは、例えば、原因または結果を示す文字列であり、文書からセンテンスを因果関係があるセンテンスとして抽出するために利用される。例えば、イベントが「水が漏れた」といった結果を表す文字列であれば、文書から「配管にクラックがあったため、」といった原因となる文字列が抽出される。反対に、イベントが「配管にクラックがあったため」といった原因を表す文字列でもよく、この場合は、文書から「水が漏れた」といった結果を表す文字列が抽出されることを目的とする。

またイベントは、質問または回答を表す文字列でもよい。例えばイベントが「駅はどこですか？」といった質問を表す文字列である場合、文書から「右に約２００ｍです」といった回答を表す文字列が抽出されることを目的とする。反対にイベントが「右に約２００ｍです」と回答を表す文字列の場合、文書から「駅はどこですか？」といった質問を表す文字列が抽出されることを目的とする。このように、イベントは、因果関係に関する文字列に限らず、質問および回答といったペアとなる関係の一方を表す文字列であればよい。

サブセット生成部１０２は、複数のセンテンスの一部をグループ化したサブセットを複数生成する。
選択部１０３は、複数のサブセットそれぞれにおいて、因果関係の識別対象となるセンテンスであるターゲットを選択する。

因果関係識別部１０４は、サブセットごとに、サブセットに含まれるセンテンスとイベントとの間の因果関係を識別する。
決定部１０５は、サブセットごとに識別された因果関係に基づき、イベントと文書全体との因果関係を決定する。

次に、第１の実施形態に係る識別装置１０の動作について図２のフローチャートを参照して説明する。
ステップＳ２０１では、取得部１０１が、外部から文書およびイベントを取得する。
ステップＳ２０２では、サブセット生成部１０２が、取得した文書に含まれる複数のセンテンスを用いて、複数のセンテンスのうちの一部のセンテンスをグループ化し、複数のサブセットを生成する。サブセットの生成において、例えば、取得したイベントと関連性の低いセンテンスは除外し、入力されたイベントとの関連性が閾値以上であるセンテンスを文書から選択してグループ化する。関連性は、例えばイベントと各センテンスとの情報の類似度を分析すればよい。また、類似度は、イベントとセンテンスとが類似する度合いを示し、イベントの内容とセンテンスの内容とが近いほど、類似度が高い。よって、類似度が閾値以上であるセンテンスを関連性が閾値以上のセンテンスであると決定する。また、関連性として、イベントの文字列と、各センテンスの内容から分析される情報量を用いてもよい。例えば、センテンスを構成する単語群の意味または出現頻度から、各文の情報量を分析する。情報量が高い文ほど、他の文と比較してユニークな情報が含まれる。

ステップＳ２０３では、選択部１０３が、複数のサブセットの中から、処理対象のサブセットを選択する。
ステップＳ２０４では、選択部１０３が、処理対象のサブセットに含まれる複数のセンテンスのうち、イベントとの比較対象であるターゲットを選択する。

ステップＳ２０５では、因果関係識別部１０４が、例えば学習済みモデルを用いて、イベントとターゲットとの間に因果関係があるか否かを識別する。学習済みモデルは、例えばイベントとターゲットとを入力し、因果関係の識別結果の値を出力するモデルであり、例えば第２の実施形態で後述する機械学習の学習済みモデルを想定する。なお、学習済みモデルに限らず、イベントとターゲットとの間の因果関係を抽出できる手法であれば、どのような手法を用いてもよい。

ステップＳ２０６では、因果関係識別部１０４が、処理対象のサブセットに含まれる全てのセンテンスについて、因果関係を識別したか否かを判定する。全てのセンテンスについて因果関係を識別した場合、ステップＳ２０７に進み、未処理のセンテンスが存在する場合、ステップＳ２０４に戻り、未処理のセンテンスに対して上述した処理を繰り返す。

ステップＳ２０７では、因果関係識別部１０４が、ステップＳ２０２で生成した全てのサブセットについて因果関係を識別したかを判定する。全てのサブセットについて因果関係を識別した場合、ステップＳ２０８に進み、未処理のサブセットが存在する場合、ステップＳ２０３に戻り、未処理のサブセットについて上述した処理を繰り返す。

ステップＳ２０８では、決定部１０５が、サブセットごとの識別結果から、イベントと文書全体との因果関係を決定する。イベントと文書全体との因果関係は、決定部１０５が、例えばターゲットごとの因果関係の識別結果に応じた確信度を算出し、確信度が最も高いターゲットを、イベントと文書全体との因果関係として決定してもよい。また、複数種類の識別結果に応じた値について、投票を実施することにより、因果関係があると判定された数が多いターゲットを、イベントと文書全体との因果関係として決定してもよい。

以上で識別装置１０の識別処理を終了する。なお、ステップＳ２０３からステップＳ２０７までの説明では、１つのサブセットずつ因果関係を識別する例を示した。これに限らず、複数のサブセットについて、並行してイベントとターゲットとの因果関係を識別してもよい。すなわち、選択部１０３が、複数のサブセットについてそれぞれターゲットを選択し、因果関係識別部１０４が、それぞれのサブセットで選択されたターゲットについて順に因果関係を判定してもよい。

次に、第１の実施形態に係るサブセット生成部のサブセット生成処理について図３を参照して説明する。
図３は、文書３０と、当該文書３０から生成された複数のサブセット３２との一例を示す。

文書３０には、ここでは、文書３０中の出現順に７つのセンテンス（センテンス１～センテンス７）が含まれる場合を想定する。サブセットとして選択されるセンテンスの長さ（例えば文字数）は、ほぼ同じ長さであることを想定するが、センテンスごとに異なってもよい。また、１つのサブセットに含まれるセンテンスの数は、各サブセットで同一であることを想定するが、異なってもよい。
図３の例では、関連性が閾値以上となるセンテンス１からセンテンス５まで、およびセンテンス７の６つが抽出され、センテンス７が関連性が閾値未満であるノイズとなり得るセンテンスであるとして、除外されるとする。

サブセット生成部１０２は、センテンス１からセンテンス５まで、およびセンテンス７の６つのセンテンスから、４つのセンテンスをランダムに複数回選択してグループ化し、複数のサブセット３２を生成する。具体的には、例えば、１つ目のサブセット３２として「センテンス１，センテンス２，センテンス３、センテンス５」が選択され、２つ目のサブセット３２として「センテンス１，センテンス３，センテンス４、センテンス７」が選択される。また、サブセット生成部１０２は、文書中の少なくとも1つのセンテンスが複数のサブセットに重複して含まれるようにサブセットを生成する。つまり、図３の例では、「センテンス１，センテンス３」が２つのサブセット３２の両方に含まれる。
このようにサブセット３２は、文書に含まれるセンテンスの数をＮ（Ｎは３以上の自然数）、サブセットに含まれるセンテンスの数をＭ（Ｍは２以上Ｎ未満の自然数）とすると、_ＮＣ_Ｍの組み合わせ数まで生成することができる。すなわち、図３の例では、_６Ｃ_４＝１５通りのサブセット３２を生成することができる。各サブセット３２は関係性を有するセンテンスがグループ化されているため、複数パターンの文脈を生成できる。

なお、文書３０に含まれるセンテンスの長さにばらつきがある場合、サブセット３２の生成処理において、各センテンスの長さを揃えるように処理されてもよい。例えば、センテンス１が６０文字、センテンス２が１２０文字である場合、センテンスの文字列が閾値以上（ここでは６０文字とする）であれば、閾値である６０文字とほぼ同じ長さになる読点の位置でセンテンスを分割し、分割されたセンテンスを用いてもよい。例えばセンテンス２において、５５文字目に読点があれば、当該読点の位置でセンテンス２を分割し、センテンス２－１（５５文字）、センテンス２－２（６５文字）を生成し、サブセット３２の生成に用いてもよい。

また、あるセンテンスを基準とした場合、文書中のセンテンスの出現位置が近いセンテンスと遠いセンテンスとのバランスを考慮してサブセットが生成されてもよい。具体的には、あるサブセット３２の生成においてセンテンス１を基準とし、センテンス２が選択された場合、センテンス３ではなくセンテンス７を選択する。選択の基準としては、例えばサブセット３２に含まれる複数のセンテンスにおける、センテンス１からの距離の総和が閾値以上となるように選択されればよい。

次に、因果関係識別部１０４の識別結果の一例を図４に示す。
図４は、サブセットＡからサブセットＥまでの５つのサブセットにそれぞれ含まれる、４つのセンテンスの因果関係の識別結果を示すテーブルである。４つのセンテンスは、６つセンテンス（センテンス１～センテンス５，センテンス７）のうちの４つの組み合わせである。識別結果として、ここでは０（ゼロ）から１まで間の数値が割り当てられる例を示す。０に近いほど、イベントとセンテンスとの間で因果関係がないことを示し、１に近いほど、イベントとセンテンスとの間に因果関係があることを示す。なお、サブセットに含まれないセンテンスの欄には、該当なしであることを示す「－」の記号が入力される。

例えば、サブセットＡでは、センテンス２の値が「０．９」であり、センテンス５が「０．５」である。このように、因果関係識別部１０４によって、各サブセットに含まれるすべてのセンテンスについて、因果関係が識別される。

次に、決定部１０５における因果関係の決定例について図５に示す。
図５は、図４に示すテーブルに、平均値を示す項目と、因果関係のありなしを示す項目と、イベントと文書全体との因果関係を示す最終結果の項目とを追加したテーブルである。
図５では、決定部１０５は、複数のサブセットに含まれるセンテンスの識別結果を示す値の平均値を算出する。決定部１０５は、当該平均値と閾値とを比較する。ここでは、識別結果の平均値に対する閾値として「０．７」を設定する。決定部１０５は、平均値が閾値以上であれば、「因果関係あり」と決定し、平均値が閾値未満であれば、「因果関係なし」と決定する。また、決定部１０５は、因果関係ありと判定されたセンテンスの中で、平均値が最大のセンテンスを、イベントに対する文書全体の因果関係の最終結果として出力してもよい。

図５の例では、「センテンス２，センテンス４」が「因果関係あり」と決定され、「センテンス１，センテンス３，センテンス５，センテンス６」が「因果関係なし」と決定される。また、平均値が１番高い「センテンス２」がイベントに対する文書の因果関係の最終結果として決定される。なお、平均値に限らず、中央値、最大値、最大値、最頻値、偏差値などの他の統計処理による統計値でもよい。

また、「０．３」以下は因果関係なし、「０．７」以上は因果関係ありとカウントする投票により、因果関係の有無を決定してもよい。例えば、センテンス５では、「０．６，０．７，０．９，０．７，０．２」の識別結果であるため。因果関係なしが１つ（０．２）、因果関係ありが３つ（０．７，０．９，０．７）であるため、投票によれば因果関係ありと決定できる。

また、第１の実施形態では因果関係識別部１０４からの出力が学習済みモデルからの出力を想定し、「０～１」の間で表現されるため、０または１に近いほど、因果関係の確信度は高いが、例えば「０．４～０．６」など中間値の場合は、因果関係の有無を識別しがたく、確信度が低いといえる。よって、確信度が低い値を除外した値を用いて文書全体の因果関係を決定してもよい。

確信度が低い値を除外した場合の因果関係の決定例について図６に示す。
決定部１０５は、識別結果の値から「０．４～０．６」の値を除き、「０．０～０．３」および「０．７～１．０」までの値のみを用いて、例えば投票により識別結果の有無の多数決をとればよい。図６では、図５のテーブルに対し、「０．４～０．６」の値については、斜線を記入して計算から除外することを表現する。
上述した図５では、「センテンス５」の平均値が閾値未満であるため、因果関係なしと決定されたが、図６の例では、「センテンス５」の平均値が「０．７」となり、平均値が閾値以上となるため、因果関係ありと決定される。
このように、確信度が高い値に基づいて因果関係の最終結果を決定することにより、因果関係識別部のモデルによるあいまいな識別結果を除外しつつ、確信度の高い値を用いることで、より因果関係抽出の精度を高めることができる。

さらに、決定部１０５は、複数の統計処理の結果を組み合わせて、イベントと文書全体との因果関係を決定してもよい。統計処理の結果を組み合わせた一例について図７に示す。
図７は、センテンス１～センテンス５およびセンテンス７のセンテンスごとに、複数の統計処理の結果である統計値が入力されたテーブルである。

図７に示すテーブルは、平均値、最大値、最小値、投票数の各項目を示す。例えば、各項目で最大となった回数が最も多いセンテンスを因果関係の最終結果として採用してもよい。例えば、「センテンス４」は、平均値（０．８２）、最大値（０．９）および投票数（３）が各項目で１位となり、最大となった回数は３回である。一方、「センテンス２」は、最大値（０．９）が１位となり、最大となった数が１回である。よって、決定部１０５は、最終結果として、イベントと文書全体との因果関係のセンテンスは、「センテンス４」と決定できる。

以上に示した第１の実施形態によれば、１つの文書に含まれる複数のセンテンスの一部を組み合わせ、複数のセンテンスをそれぞれ含む、複数のサブセットを生成する。複数のサブセットを用いてターゲットとイベントとの因果関係を識別する。これにより、実質的にイベントとの比較対象となるデータの長さに制限がなくなり、文書中で離れているセンテンスとの関係についても識別できる。また、複数のサブセットに含まれる複数のセンテンスについて因果関係を識別できるため、１つのイベントに対し因果関係があるセンテンスを複数抽出できる。
さらに、複数のサブセットにそれぞれ含まれる複数のセンテンスは、関係性を有しているため、複数パターンの文脈を生成できる。よって、学習済みモデルにおいて複数パターンの文脈を考慮した因果関係の識別結果が得られるため、確信度の高い因果関係の抽出結果を得ることができる。すなわち、高精度な識別を実現することができる。

（第２の実施形態）
第１の実施形態では、学習済みモデルを用いて複数のサブセットから因果関係を抽出する例を示すが、生成部により生成された複数のサブセットにより因果関係部のモデルを学習することもできる。

第２の実施形態に係る学習装置について図８のブロック図を参照して説明する。
第２の実施形態に係る学習装置８０は、取得部８０１と、サブセット生成部８０２と、選択部８０３と、因果関係識別部８０４と、学習部８０５と、モデル格納部８０６とを含む。

取得部８０１は、複数のセンテンスを含む文書と、イベントと、当該イベントと因果関係のあるセンテンスに付与されるラベルとを含む。すなわち、因果関係のある文書中のセンテンスには正解となるラベルが付与されている。以下、ラベルが付与されたセンテンスを含む文書をラベル付き文書とも呼ぶ。
サブセット生成部８０２は、第１の実施形態と同様に、文書から複数のサブセットを生成する。
選択部８０３は、複数のサブセットのそれぞれから、イベントに対するターゲットを選択する。

因果関係識別部８０４は、学習対象のネットワークモデルであり、サブセットおよびイベントを学習対象のネットワークモデルに入力し、因果関係の識別結果を出力する。
学習部８０５は、ネットワークモデルの出力と正解となるラベルとの学習誤差を算出する。学習部８０５は、学習誤差が最小となるように、ネットワークモデルのパラメータを更新する。学習部８０５による学習が完了すると、学習済みモデルが生成される。
モデル格納部８０６は、学習前のネットワークモデルおよび学習後の学習済みモデルを格納する。また、必要に応じて、学習データを生成するための文書などを格納してもよい。

次に、第２の実施形態に係る学習データの生成例について図９を参照して説明する。
図９は、ラベル付き文書の例である。センテンス１からセンテンス１０までの１０個のセンテンスを含む１つの文書９０のうち、「センテンス２」がイベントと因果関係があることを示すラベルが付与される。また、サブセット生成部８０２により、文書９０から４個のセンテンスを含むサブセットが複数生成されることを想定する。

サブセットごとに、サブセットにおけるターゲットのインデックスと、ターゲットがイベントと因果関係があるか否かのラベルとを学習データとする。ターゲットには、文書中の文番号が割り当てられる。すなわち、文書９０の「センテンス１」から「センテンス１０」までの文番号が、ターゲットとなるセンテンスのインデックスとして割り当てられる。ラベルとしては、因果関係がある場合、すなわち正例の場合、（１，０）のラベルが付与され、因果関係がない場合、すなわち負例の場合、（０，１）のラベルが付与される。もちろん、１ビットで表されるラベルでもよく、正例の場合は「１」、負例の場合は「０」と表現されてもよい。文書９０は、センテンス２は正例であるため（１，０）のラベルが付与され、センテンス２以外のセンテンスは負例であるため（０，１）のラベルが付与される。

具体的に、図９に示したサブセット９２は、文書９０から「センテンス１，センテンス２，センテンス４，センテンス５」が選択される。例えば、センテンス１は、文番号を示すインデックス「１」と負例を示すラベルとを結合し、（１，０，１）と一意に表現できる。また、センテンス２は、文番号を示すインデックス「２」と正例を示すラベルとを結合し、（２，１，０）と一意に表現できる。生成される複数のサブセットそれぞれに含まれるセンテンスについて、同様に処理すればよい。
このように、複数のサブセットごとに、センテンスがターゲットとして選択される際に、正例および負例のラベルが付与された学習データを用意することができるため、１つの文書９０をまとめて学習データとする場合よりも、学習データ数の増強（データオーギュメンテーション）を実現できる。

なお、生成された学習データの数が多い場合は、正例のデータ数および負例のデータ数の偏りはそれほど問題にならないが、学習データの数が少ない場合には、正例と負例との比率が均等でない場合、どちらかに偏った過学習が行われる場合もありうる。そのような場合は、正例および負例のラベルの数を制御してもよい。例えば、イベントに対し、正例のセンテンスを含むサブセットの数が、サブセット全体の５０パーセントの比率とし、負例のセンテンスしか含まないサブセットの数が、サブセット全体の２５パーセントの比率とし、ランダムにセンテンスを選択したサブセットの数が、サブセット全体の２５パーセントの比率になるようにサブセットを生成すればよい。

次に、第２の実施形態に係る因果関係識別部８０４のモデル構成の一例について図１０を参照して説明する。
図１０は、因果関係識別部８０４を実現する、学習対象となるネットワークモデルを示す。ネットワークモデルは、第１特徴量抽出層１００１と、重み付き平均層１００２と、結合（Concatenate）層１００３と、第２特徴量抽出層１００４と、因果関係識別層１００５と、出力層１００６とを含む。

第１特徴量抽出層１００１は、例えばＢＥＲＴ（Bidirectional Encoder Representations from Transformer）といった学習済みの言語モデルである。第１特徴量抽出層１００１には、学習データとなるイベント、サブセットとが入力される。イベントからイベント特徴量を、サブセットからサブセット特徴量をそれぞれ抽出する。なお、ＢＥＲＴのような学習済みモデルに限らず、イベントおよびサブセットから特徴量を抽出できる処理であれば、どのような処理を適用してもよい。

重み付き平均層１００２は、第１特徴量抽出層１００１からイベント特徴量およびサブセット特徴量を受け取り、タスクによって設定されうる調整可能なパラメータに基づき、加重平均処理が実行される。重み付き平均層１００２からの出力は、入力に対して１つ次元数を減らす処理を想定するが、これに限らず、さらに次元数を削減してもよいし、次元数を減らさなくともよい。

結合層１００３は、重み付き平均層１００２から重み付き平均処理されたイベント特徴量およびサブセット特徴量をそれぞれ受け取り、イベント特徴量およびサブセット特徴量を結合する。

第２特徴量抽出層１００４は、例えば、Ｄｅｎｓｅ層、Multi_Head_Self_Attention層、Global_Max_Pooling層を含む。第２特徴量抽出層１００４は、結合層１００３からの出力を受け取り、サブセットのセンテンス内の単語ごとの特徴量、単語間の関連を分析し、センテンス単位の特徴量であるセンテンス特徴量に変換する。第２特徴量抽出層１００４でも、結合層からの出力に対して、次元数を削減することを想定する。

因果関係識別層１００５は、例えば、Position Encoding層、Transformer層、Multiply層を含む。因果関係識別層１００５は、学習データに含まれるターゲットのインデックスと、第２特徴量抽出層１００４からの出力とをそれぞれ受け取り、ターゲット周辺のセンテンスを参照しながら、イベントとターゲットセンテンスとの間の因果関係の識別結果を出力する。

出力層１００６は、因果関係識別層１００５からの出力を受け取り、例えばソフトマックス関数を利用し、識別結果として「０～１」の数値を出力する。つまり、出力値が０に近いほど因果関係がない確信度が高く、出力値が１に近いほど因果関係がある確信度が高い。

次に、第２の実施形態に係る学習装置８０の学習処理について図１１のフローチャートを参照して説明する。
ステップＳ１１０１では、取得部８０１が、イベントと、ラベル付き文書とを取得する。
ステップＳ１１０２では、サブセット生成部８０２が、ラベル付き文書に含まれる複数のセンテンスに基づいて、複数のサブセットを生成することで、学習データを生成する。サブセットの生成処理については、第１の実施形態と同様の処理を行えばよいため、説明を省略する。

ステップＳ１１０３では、選択部８０３が、複数のサブセットの中から処理対象のサブセットを選択する。
ステップＳ１１０４では、選択部８０３が、処理対象のサブセットに含まれる複数のセンテンスからターゲットを選択する。

ステップＳ１１０５では、因果関係識別部８０４が、図１０に示すようなネットワークモデルに対して、イベントと処理対象のサブセットとを入力する。ネットワークモデルは、ステップＳ１１０４で選択されたターゲットとイベントとの因果関係の有無を表現した値（ここでは、０～１の範囲の値）を出力する。

ステップＳ１１０６では、学習部８０５が、ターゲットのラベルを正解データとし、ネットワークモデルから出力された値と正解データとの差分である学習誤差を算出する。

ステップＳ１１０７では、学習部８０５が、処理対象のサブセットの含まれるセンテンス全てについて、学習誤差を算出したか否かを判定する。すべてのセンテンスについて学習誤差を算出した場合は、ステップＳ１１０８に進み、未処理のセンテンスが存在する場合は、ステップＳ１１０４に戻り、未処理のセンテンスに対して同様に処理を繰り返す。

ステップＳ１１０８では、学習部８０５が、ステップＳ１１０２で生成した全てのサブセットについて学習誤差を算出したか否かを判定する。全てのサブセットについて学習誤差を算出した場合、ステップＳ１１０９に進み、全てのサブセットについて学習誤差を算出していない場合、ステップＳ１１０３に戻り、未処理のサブセットについて同様に処理を繰り返す。

ステップＳ１１０９では、学習部８０５が、算出された複数のターゲットに関する複数の学習誤差の平均などの統計処理により得られた、学習誤差をまとめた誤差関数が最小となるように、ネットワークモデルのパラメータを更新する。例えば、誤差逆伝播法と確率的勾配降下法などを用いてネットワークモデルに関する重み係数、バイアスなどのパラメータを更新すればよい。

ステップＳ１１１０では、学習部８０５が、学習が完了したか否かを判定する。例えば、誤差関数の出力値または減少値といった判定指標が閾値以下となった場合に学習が完了したと判定してもよいし、学習の回数、例えばパラメータの更新回数が所定回数に達した場合に、学習を完了したと判定してもよい。学習が完了した場合は、学習処理を終了し、結果として第１の実施形態に係る因果関係識別部１０４の因果関係識別処理で利用した、学習済みモデルが生成される。

一方、学習が完了していない場合、ステップ１１０１に戻り、同様の処理を繰り返す。なお、ステップＳ１１０６からステップＳ１１１０までに示す学習部８０５の学習方法は、これに限らず、一般的な学習手法を用いてもよい。

以上に示した第２実施形態によれば、イベントと因果関係のあるセンテンスに正解ラベルを付与した１つのラベル付き文書から複数のサブセットを生成することで、複数のサブセットそれぞれをラベル付き文書として学習データに用いることができ、学習データのデータ増強（データオーギュメンテーション）を実現できる。
また、データ増強された学習データを用いてネットワークモデルを学習することで、より高精度な因果関係抽出を実行できる学習済みモデルを生成できる。

ここで、上述の実施形態に係る識別装置１０および学習装置８０のハードウェア構成の一例を図１２のブロック図に示す。
識別装置１０および学習装置８０は、ＣＰＵ（Central Processing Unit）１２０１と、ＲＡＭ（Random Access Memory）１２０２と、ＲＯＭ（Read Only Memory）１２０３と、ストレージ１２０４と、表示装置１２０５と、入力装置１２０６と、通信装置１２０７とを含み、それぞれバスにより接続される。

ＣＰＵ１２０１は、プログラムに従って演算処理および制御処理などを実行するプロセッサである。ＣＰＵ１２０１は、ＲＡＭ１２０２の所定領域を作業領域として、ＲＯＭ１２０３およびストレージ１２０４などに記憶されたプログラムとの協働により、上述した識別装置１０および学習装置８０の各部の処理を実行する。

ＲＡＭ１２０２は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）などのメモリである。ＲＡＭ１２０２は、ＣＰＵ１２０１の作業領域として機能する。ＲＯＭ１２０３は、プログラムおよび各種情報を書き換え不可能に記憶するメモリである。

ストレージ１２０４は、ＨＤＤ（Hard Disc Drive）等の磁気記録媒体、フラッシュメモリなどの半導体による記憶媒体、または、ＨＤＤなどの磁気的に記録可能な記憶媒体、光学的に記録可能な記憶媒体などにデータを書き込みおよび読み出しをする装置である。ストレージ１２０４は、ＣＰＵ１２０１からの制御に応じて、記憶媒体にデータの書き込みおよび読み出しをする。

表示装置１２０５は、ＬＣＤ（Liquid Crystal Display）などの表示デバイスである。表示装置１２０５は、ＣＰＵ１２０１からの表示信号に基づいて、各種情報を表示する。

入力装置１２０６は、マウスおよびキーボード等の入力デバイスである。入力装置１２０６は、ユーザから操作入力された情報を指示信号として受け付け、指示信号をＣＰＵ１２０１に出力する。
通信装置１２０７は、ＣＰＵ１２０１からの制御に応じて外部機器とネットワークを介して通信する。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した識別装置および学習装置の制御動作による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、ＤＶＤ－ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の識別装置および学習装置の制御と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０…識別装置、３０…文書、３２，９２…サブセット、８０…学習装置、９０…ラベル付き文書、１０１，８０１…取得部、１０２，８０２…サブセット生成部、１０３，８０３…選択部、１０４，８０４…因果関係識別部、１０５…決定部、８０５…学習部、８０６…モデル格納部、１００１…特徴量抽出層、１００２…重み付き平均層、１００３…結合層、１００４…特徴量抽出層、１００５…因果関係識別層、１００６…出力層、１２０１…ＣＰＵ、１２０２…ＲＡＭ、１２０３…ＲＯＭ、１２０４…ストレージ、１２０５…表示装置、１２０６…入力装置、１２０７…通信装置。

Claims

処理対象となる事例を示すイベントと、複数のセンテンスを含む文書とを取得する取得部と、
前記複数のセンテンスの一部をグループ化したサブセットを複数生成する生成部と、
前記サブセットごとに、前記サブセットに含まれるセンテンスと前記イベントとの間の因果関係を識別する識別部と、
を具備する識別装置。
前記生成部は、前記イベントと前記文書に含まれる各センテンスとの間の類似度に基づき前記サブセットを生成する、請求項１に記載の識別装置。
前記生成部は、前記文書中の少なくとも1つのセンテンスが複数のサブセットに重複して含まれるように前記サブセットを生成する、請求項１または請求項２に記載の識別装置。
前記複数のサブセットそれぞれにおいて、対象となるセンテンスであるターゲットを選択する選択部をさらに具備し、
前記識別部は、前記イベントと前記ターゲットとの間の因果関係を識別する、請求項１から請求項３のいずれか１項に記載の識別装置。
前記サブセットごとに識別された因果関係に基づき、前記イベントと前記文書全体との因果関係を決定する決定部をさらに具備する、請求項１から請求項４のいずれか１項に記載の識別装置。
前記決定部は、前記サブセットごとに識別された因果関係の確信度を算出し、前記確信度に基づいて前記イベントと前記文書全体との因果関係を決定する、請求項５に記載の識別装置。
前記決定部は、前記サブセットごとに因果関係について複数の識別手段により複数の値を算出し、前記複数の値に関する投票により、前記イベントと前記文書全体との因果関係を決定する、請求項５または請求項６に記載の識別装置。
処理対象となる事例を示すイベントと、複数のセンテンスを含む文書とを取得し、
前記複数のセンテンスの一部をグループ化したサブセットを複数生成し、
前記サブセットごとに、前記サブセットに含まれるセンテンスと前記イベントとの間の因果関係を識別する、識別方法。
コンピュータを、
処理対象となる事例を示すイベントと、複数のセンテンスを含む文書とを取得する取得手段と、
前記複数のセンテンスの一部をグループ化したサブセットを複数生成する生成手段と、
前記サブセットごとに、前記サブセットに含まれるセンテンスと前記イベントとの間の因果関係を識別する識別手段として機能させるための識別プログラム。
処理対象となる事例を示すイベントと、複数のセンテンスを含む文書であって、前記イベントと因果関係のあるセンテンスに関するラベルを含むラベル付き文書とを取得する取得部と、
前記ラベル付き文書に含まれる複数のセンテンスの一部をグループ化したサブセットを、複数生成する生成部と、
ネットワークモデルを用いて、前記サブセットごとに、前記サブセットに含まれるセンテンスと前記イベントとの間の因果関係の識別した値を出力する識別部と、
前記値と前記ラベルとの差分に関する誤差関数を最小化するように前記ネットワークモデルを学習し、学習済みモデルを生成する学習部と、
を具備する学習装置。