JP6817690B2

JP6817690B2 - 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置

Info

Publication number: JP6817690B2
Application number: JP2015068461A
Authority: JP
Inventors: 博之得地
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2015-03-30
Filing date: 2015-03-30
Publication date: 2021-01-20
Anticipated expiration: 2035-03-30
Also published as: JP2016189089A

Description

本発明は、抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置に関し、テキストからの要約文の抽出に関する。

昨今のビッグデータの分析需要の増加により、様々な情報分析を目的とした機械学習の教師ラベル付与の必要性が高まっている。教師ラベルは、機械学習装置に対して未知のデータを学習させる際に、そのデータがどの分類に属するか、又は、どの程度のスコアなのかを機械学習装置に教示するための情報である。ただし、教師ラベルは、装置によって自動的に判定されるのではなく、人がデータの内容を理解して教師ラベルを判定し付与する必要がある。

テキストデータは、数値、又は、画像／映像などのデータに比べ、テキストを書いた筆者の個性、及び、意思、を表現する情報（筆者の語彙、又は、語順／使用頻度の癖、および感情表現など）を豊富に含んでいるため、分析の対象として非常に有用なデータである。しかし、テキストデータは画像／映像データと違って一目眺めれば内容を理解できるものではなく、「読む」ことによって初めて理解することができるため、内容の理解に大きな時間を要する。また、「読む」という作業は、テキストの複雑さや長さによって作業コストが大きく上昇することから、テキストの内容理解を支援する技術が数多く発明されている。

特許文献１の技術は、速読したい文書に対して文書のジャンルを特定し、ジャンルに対応する決定木を選択する。一方、与えられた文書の本文中の各文について特徴を抽出する。選択された決定木と各文の特徴を照し合せ、それぞれの文について要約文か否かを決定する。要約文を強調色、非要約文を背景色で表示する。また与えられた文書の各段落の第一文目を要約文とは異なる色で表示することにより、重要箇所の抽出と表示による文書の速読支援を実現している。

特許第３６５２０８６号公報

特許文献１では、単語の出現頻度による特徴を表すＴＦ−ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）、又は、文字数の統計的特徴を算出し、算出した単語が持つ総合的な特徴によってテキスト内の各文が要約らしいか否かを判定している。このため、単語の語順に伴う文意を反映して要約文を抽出することができない。例えば、「重要」という単語に対し、後続の単語が「である」なのか、「でない」なのかによって、文意が大きく変わる場合があり、所望の要約文の抽出ができなくなる。

本発明の目的は、単語の語順に伴う文意を反映した要約文を抽出することが可能な技術を提供することにある。

本発明の抽出装置は、複数の文を含むテキストから前記文を抽出し、前記文ごとに１以上の単語を含む単語集合を生成し、前記生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、前記算出された評価値に基づいて前記文から要約文を抽出する要約文抽出部を備える。

本発明の抽出方法は、複数の文を含むテキストから前記文を抽出し、前記文ごとに１以上の単語を含む単語集合を生成し、前記生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、前記算出された評価値に基づいて前記文から要約文を抽出する。

本発明の抽出プログラムは、コンピュータに、複数の文を含むテキストから前記文を抽出し、前記文ごとに１以上の単語を含む単語集合を生成し、前記生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、前記算出された評価値に基づいて前記文から要約文を抽出することを実行させる。

本発明の支援装置は、上記の抽出装置と、を備え、
前記抽出装置から出力された前記要約文ごとにその文中で、前記教師単語集合らしいか否かに応じて表示を変化させる。

本発明の表示制御装置は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて前記文から要約文を抽出し、前記要約文を前記評価値に基づいた順序で表示制御する表示制御部を備える。

本発明の表示制御方法は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて前記文から要約文を抽出し、前記要約文を前記評価値に基づいた順序で表示制御する。

本発明の抽出装置は、単語の語順に伴う文意を反映した要約文を抽出することができる。

本発明の第１の実施形態による抽出装置の構成を示すブロック図である。本発明の第１の実施形態による抽出装置の動作を示すフローチャートである。図２に示す文ごとに評価値を算出するサブルーチンの動作を示すブローチャートである。３個の単語をつなげた単語Ｎ−Ｇｒａｍ（Ｎ＝３）の例を説明する図である。確信度の算出を説明するための図である。図２に示す要約文抽出のサブルーチンの動作を示すブローチャートである。確信度の総和によって寄与度を算出する際の問題を説明するための図である。英語のテキストを単語Ｎ−Ｇｒａｍ（Ｎ＝３）で処理する例を示す図である。本発明の第２の実施形態による支援装置および記憶装置の構成を示すブロック図である。本発明の第２の実施形態による支援装置の動作を示すフローチャートである。図１０に示す言語処理のサブルーチンの動作を示すフローチャートである。図１０に示す言語処理のサブルーチンの動作を示すフローチャートである。第２の実施形態による表示装置に表示する画面表示を示す図である。図１０に示す学習のサブルーチンの動作を示すフローチャートである。第３の実施形態による支援装置および記憶装置の構成を示すブロック図である。本発明の第４の実施形態による表示制御装置の構成を示すブロック図である。本発明の第４の実施形態による表示制御装置の動作を示すフローチャートである。本発明の第１の実施形態による抽出装置、第２、３の実施形態による支援装置又は第３の実施形態による表示制御装置をコンピュータ装置で実現したハードウエア構成を示すブロック図である。

＜第１の実施形態＞
本発明の第１の実施形態である抽出装置について、図面を用いて説明する。第１の実施系形態の抽出装置１０は、テキストに教師ラベルを付与する者に対して、その教師ラベルの判定を支援する支援装置の一つの機能を提供する装置である。

図１は、第１の実施形態による抽出装置１０の構成を示すブロック図である。図１に示すように、抽出装置１０は、要約文抽出部４０を備える。要約文抽出部４０は、複数の文を含むテキストから文を抽出し、文ごとに１以上の単語を含む単語集合を生成し、生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、算出された評価値に基づいて文から要約文を抽出する。

複数の文を含むテキストから文を抽出することの一例として、要約文抽出部４０は、教師ラベルを付与するテキストである対象テキストに対し、対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割する。さらに、生成された単語集合に対し学習モデルを用いて評価する評価値を算出することの一例として、要約文抽出部４０は、分割された文ごとにＮ個の単語をつなげた単語Ｎ-Ｇｒａｍ（Ｎは２以上の自然数）を生成する。続いて要約文抽出部４０は、生成された単語Ｎ-Ｇｒａｍに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出する。さらに、算出された評価値に基づいて文から要約文を抽出することの一例として、要約文抽出部４０は、算出された確信度に基づいて分割された文ごとに教師ラベル判定寄与度を算出し、教師ラベル判定寄与度に応じて要約文を抽出する。教師ラベル判定寄与度については後に説明する。

次に、本発明の第１の実施形態による抽出装置の動作について、図面を用いて説明する。図２は、第１の実施形態による抽出装置１０の動作を示すフローチャートである。図２に示すように、抽出装置１０は、複数の文を含むテキストから文を抽出する（Ｓ１０１）。具体的には、抽出装置１０は、教師ラベルを付与するテキストである対象テキストに対し、対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割する。

ここで、単語区切りのテキストとは、分かち書きで表現されたテキストを意味する。例えば、日本語のテキストが「お店は自宅から遠いですが、料理はとても美味しい。」である場合は、「お店は自宅から遠いですが、料理はとても美味しい。」のように単語ごとに区切られたテキストとなる。また、文単位に分割するとは、テキスト内に付された約物（句読点等）の存在及びその位置に応じて文を分けることである。例えば、前例の「お店は自宅から遠いですが、料理はとても美味しい。」という文は、読点の位置によって「お店は自宅から遠いですが、」と、「料理はとても美味しい。」という２つの文に分かれる。なお、文単位へ分割は、約物の位置以外に、次に示す単位で処理することもできる。
・「単語Ｎ-Ｇｒａｍよりも単語区切りが多い単語Ｍ−Ｇｒａｍ（Ｍ＞Ｎ：Ｍ、Ｎは２以上の自然数）の単位」
・「Ｋ文字ごと（Ｋは１以上の自然数）」
・「行単位（改行文字）」
・「ページ単位（改ページコード）」
・「節、段落単位」
次に、抽出装置１０は、文ごとに１以上の単語を含む単語集合を生成し、生成された単語集合に対し学習モデルを用いて評価する評価値を算出する（Ｓ１０２）。具体的には、教師ラベルらしさを表す確信度を算出し、算出された確信度に基づいて分割された文ごとに教師ラベル判定寄与度（以下、寄与度と示す。）を算出する。なお、教師ラベル判定寄与度とは、教師ラベルの付与の際に、付与する者の判定に寄与できる程度を示す値である。

図３は、文ごとに評価値を算出するサブルーチンの動作を示すフローチャートである。図３に示すように、抽出装置１０は、文ごとに単語集合を生成する（Ｓ１０２１）。具体的には、抽出装置１０は、分割された文ごとにＮ個の単語をつなげた単語Ｎ-Ｇｒａｍ（Ｎは２以上の自然数）を生成する。

図４は、３個の単語をつなげた単語Ｎ−Ｇｒａｍ（Ｎ＝３）の例を説明する図である。図４に示すように、「私が先週予約したお店は大変好評でした。」という単語区切りされた１つの文を、単語ごとに３個の連続する単語を含む文字列に変換したものである。図４の例では、１０個の単語Ｎ-Ｇｒａｍ（Ｎ＝３）が生成されている。

ここで、評価値の一例である確信度とは、生成された各単語Ｎ−Ｇｒａｍに対して算出される教師ラベルのスコアである。よって、単語Ｎ-Ｇｒａｍ（Ｎ＝３）の教師ラベルのスコアとは３個の連続する単語を含む文字列が、Ｐ（ポジティブ）なのか、Ｎ（ネガティブ）なのか、その程度を表すスコアである。
当該学習モデルは、以下のように構築される。まず、学習用の教師データとして、Ｐ／Ｎ情報（ポジディブ／ネガティブ情報）が既知であるテキストが用いられる。続いて、学習モデルを生成する学習部（図示せず）は、教師データとなるテキストの単語Ｎ−Ｇｒａｍを作成した後、単語Ｎ-Ｇｒａｍごとに単語に紐づく特徴ベクトルに置換し、学習モデルに特徴ベクトルとＰ／Ｎ情報（スコア）を教え込む。これにより、学習モデルがテキストからＰ／Ｎ情報（スコア）を判断する能力を得る。学習モデルは、例えば、サポートベクタマシン、ニューラルネットワーク、又は、ベイズ分類器のように、任意の教師あり機械学習分類器を用いて生成することができる。なお、第１の実施形態において、確信度を算出するための学習モデルは、確信度の算出前に予め準備されているものとする。学習モデルは、複数の教師単語集合を用いて、所定の単語集合が教師単語集合らしいか否かを評価可能に学習されたモデルであるとも言える。

次に、抽出装置１０は、生成された単語集合に対し学習モデルを用いて評価する評価値を算出する（Ｓ１０２２）。

図５は、ニューラルネットワークを用いて生成した学習モデルと、生成された各単語Ｎ-Ｇｒａｍとを用いた抽出装置１０による確信度の算出を説明するための図である。抽出装置１０は、Ｐ／Ｎ情報が不明なテストデータ（教師ラベルを付与する対象テキスト）として、生成された各単語Ｎ-Ｇｒａｍに対し学習モデルを用いて確信度を算出する。教師ラベルを付与する対象テキストとして図４に示す例を用いる。

図５に示すように、抽出装置１０は、生成された単語Ｎ−Ｇｒａｍ（Ｎ＝３）ごとに単語に紐づく特徴ベクトルに置換する。次に、抽出装置１０は、各単語Ｎ-Ｇｒａｍ（Ｎ＝３）ごとに置換された単語に紐づいた特徴ベクトルを、ニューラルネットワークを用いて生成した学習モデルに入力する。続いて、抽出装置１０は、単語Ｎ-Ｇｒａｍ（Ｎ＝３）ごとのＰ／Ｎ（ポジティブ／ネガディブ）情報のスコアを推定する。なお、確信度のスコアの範囲は、−１から１まで（０．１単位）とする。Ｐ（ポジティブ）、Ｎ（ネガティブ）の双方で現れそうなＮ−Ｇｒａｍは、「０」付近、ポジティブな文章に現れそうなＮ−Ｇｒａｍは「１」付近、ネガティブな文章に現れそうなＮ-Ｇｒａｍは「−１」付近となるように設定されている。図５の例では、１０個の単語Ｎ-Ｇｒａｍ（Ｎ＝３）ごとに、確信度（教師ラベルのスコア）が算出される。

抽出装置１０は、算出された評価値に基づいて文から要約文を抽出する（Ｓ１０３）。図６は、要約文を抽出するサブルーチンの動作を示すフローチャートである。図６に示すように、抽出装置１０は、算出された評価値に基づいて文ごとに教師ラベル判定寄与度を算出する（Ｓ１０３１）。具体的には、抽出装置１０は、単語Ｎ-Ｇｒａｍごとに算出された確信度に基づいて、分割された文ごとに寄与度を算出する。
抽出装置１０による寄与度の算出の一例として、次に示すバリエーションが考えられる。
・各単語Ｎ-Ｇｒａｍにおける算出された確信度の分散値又は標準偏差値
・各単語Ｎ-Ｇｒａｍにおける算出された確信度の最大絶対値
・各単語Ｎ-Ｇｒａｍにおける算出された確信度のノルム値
・単語Ｎ-Ｇｒａｍにおける算出された確信度の平均値
ここで、算出された各確信度の総和によって生じる問題について説明する。図７は、確信度の総和によって算出される値の一例を示す図である。図７に示すように、上段は、算出された８個の単語Ｎ-Ｇｒａｍ（Ｎ＝３）ごとの確信度における、ポジティブ／ネガティブ（Ｐ／Ｎ）を表し、下段は、そのスコアを表す。図７に示す確信度に基づき、確信度を総和だけを用いて文ごとの寄与度を算出すると、総和の合計値は、０．００となる。すなわち、図６に示すように確信度としてポジティブ／ネガティブの値が極端に大きな数値であるにも関わらず、総和により、文ごとの寄与度が０．００となるため、後段の要約文の抽出において、その文が、重要な要約文として抽出できなくなる可能性がある。

この問題に対し、第１の実施形態では、寄与度の算出に、各単語Ｎ-Ｇｒａｍにおける算出された確信度の分散値又は標準偏差を用いる。これにより、図７に示すように、分散値が０．９、標準偏差値が０．９５となり、重要な要約文を抽出することが可能となる。

なお、「確信度の最大絶対値」を寄与度として採用することで、確信度が高い（学習モデルが自信を持って推定した）単語Ｎ−Ｇｒａｍが１つ以上含まれている要約文抽出も考えらえる。また、これらのバリエーションの組合せによって要約文を抽出することも可能である。

最後に、抽出装置１０は、文ごとに算出された寄与度から要約文を抽出する（Ｓ１０３２）。要約文の抽出条件は、算出された寄与度が、所定の閾値以上である文、あるいは、算出された寄与度を降順に整列したうちの上位数十パーセントとなる文を抽出する。上記の要約文の抽出条件は一例であり、他の抽出条件でも適用可能である。

また、第１の実施形態は、教師ラベルを付与するテキストとして、日本語の例を示したが、これに限られるものではなく、英語の対象テキストでも適用可能である。図８は、英語の対象テキストを単語Ｎ−Ｇｒａｍ（Ｎ＝３）で処理する例を示す図である。英語など通常、分かち書きとなっている対象テキストの場合、対象テキストを単語単位に区切る処理は不要となる。図８に示すように、抽出装置１０により、文ごとに生成された単語Ｎ-Ｇｒａｍ（Ｎ＝３）ごとの確信度を算出し、算出された確信度に基づき、文ごとに教師ラベル判定寄与度を算出する。これにより、英語のテキストでも、単語の語順に伴う文意を反映した要約文を抽出することができる。

第１の実施形態の抽出装置によれば、単語の語順に伴う文意を反映した要約文を抽出することが可能になる。例えば、「お店はきれいで雰囲気は悪くない。」というテキストと、「雰囲気は悪くお店はきれいでない。」というテキストでは、テキストを構成する単語は、双方とも同じになる。このため、特許文献１のように単語単位で抽出し、単語の出現頻度を用いる例では、単語の組合せで文意が変わる場合に、順序による文意を考慮することができず、所望の要約文を抽出することができない。これに対し、第１の実施形態による抽出装置１０によれば、「はきれいで」、「は悪くない」のようなＮ−Ｇｒａｍごとに算出するため、単語の組合せで文意が変わる場合でも所望の要約文の抽出が可能となる。すなわち、単語の順序による文意を反映した要約文の抽出が可能となる。

また、文単位だけで抽出する例では、一文中に複数の文意がある（例えば、図７に示すように一文中にＰ（ポジティブ）、Ｎ（ネガティブ）が複数ある）場合に、所望の要約文を抽出することができない。これに対し、第１の実施形態による抽出装置１０は、寄与度の算出で、各単語Ｎ-Ｇｒａｍにおける算出された確信度の分散値又は標準偏差値、算出された確信度の最大絶対値、又は、算出された確信度のノルム値と用いる。これにより、一文中に複数の文意があっても適切な要約文の抽出が可能になる。

＜第２の実施形態＞
本発明の第２の実施形態による支援装置について、図９を用いて説明する。図９は、第２の実施形態による支援装置の構成を示すブロック図である。支援装置１は、表示装置５、及び、記憶装置６が接続されている。

支援装置１は、教師ラベルを付与するテキスト（対象テキスト）、及び、機械学習モデルを用いて、教師ラベルの付与を支援するための要約文を当該テキストから要約文を抽出する機能を有する。さらに、支援装置１は、支援装置１に接続される表示装置５を介して、抽出した要約文を当該支援システムの利用者に提示する機能を有してもよい。具体的には、表示制御部（図示せず）により、抽出された要約文が表示制御される。また、対象テキストは、支援装置１の通信部（図示せず）を介して取得される。

記憶装置６は、支援装置１が取得する、生成する、又は、算出するための各種データを記憶する機能を有する。

表示装置５は、支援装置１から出力される、教師ラベルを付与するために抽出された要約文の情報を表示する機能を有する。

第２の実施形態による支援装置１および記憶装置６について、図面を用いて詳細に説明する。

支援装置１は、抽出装置１０、言語処理部２０、学習部３０、及び、教師ラベル受付部５０を備える。さらに、抽出装置１０は、要約文抽出部４０を備える。なお、第２の実施形態の支援装置の説明にあたり、第１の実施形態と同じ構成については、同じ符号を付与し、その説明を簡略化する。

支援装置１の言語処理部２０は、教師データを付与するテキストである対象テキストを取得し、取得した対象テキストを単語ごとに分割し、対象テキストを構成する単語、及び、単語区切りのテキストデータを生成する機能を有する。言語処理部２０は、生成した単語区切りの対象テキストを、抽出装置１０の要約文抽出部４０へ渡す、あるいは、記憶装置６のテキスト記憶部６２に記憶させる。

支援装置１の学習部３０は、単語区切りの対象テキストを取得し、単語記憶部６１に記憶された対象テキストを構成する単語によってインデックス化する。さらに学習部３０は、単語Ｎ−Ｇｒａｍごとの特徴ベクトルを作成後、学習モデル記憶部６３に格納された学習モデルをパラメータ記憶部６４から読み込んだパラメータに沿って学習させる。ここでパラメータとは、学習モデルの作成に用いる教師データ（Ｐ／Ｎ情報が既知のテキスト、及び、Ｐ／Ｎ情報（スコア）等である。なお、単語区切りの対象テキストは、言語処理部２０から取得してもよく、又は、記憶装置６のテキスト記憶部６２から取得してもよい。

支援装置１の教師ラベル受付部５０は、教師ラベルを付与するテキストに対して、支援システムの利用者によって判定された教師ラベルを受付け、テキスト記憶部６２に判定された教師ラベルの結果を保存する。判定された教師ラベルの受付としては、一般的な入力装置が適用可能である。例えば、マウス、キーボード、又は、タッチパネルなどを用いることができる。

次に、支援装置１に接続された記憶装置６の構成について図９を用いて説明する。記憶装置６は、単語記憶部６１、テキスト記憶部６２、学習モデル記憶部６３、及び、パラメータ記憶部６４を備える。

記憶装置６の単語記憶部６１は、支援装置１に入力された対象テキストを構成する単語を記憶する。

記憶装置６のテキスト記憶部６２は、支援装置１に入力された対象テキスト又は単語区切りの対象テキストと、対象テキストと対となる教師ラベルと、を記憶する。

記憶装置６の学習モデル記憶部６３は、支援装置１に入力された対象テキストを学習するための学習モデルを記憶する。

記憶装置６のパラメータ記憶部６４は、学習モデルの作成と学習に使用するパラメータを記憶する。

なお、記憶装置６が、支援装置１の外部に配置され支援装置１と接続された例を用いているが、記憶装置６が、支援装置１の内部に配置され支援装置１と接続されていてもよい。

次に、本発明の第２の実施形態による支援装置１の動作について図面を用いて説明する。図１０は、本発明の第２の実施形態による支援装置１の動作を示すフローチャートである。

図１０に示すように、支援装置１は、教師ラベルを付与するテキスト（対象テキスト）を取得する。支援装置１の言語処理部２０は、取得した対象テキストに対し対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割する（Ｓ２０１）。
図１１は、言語処理（Ｓ２０１）のサブルーチンの動作の示すフローチャートである。
言語処理部２０は、取得した対象テキストに対して形態素解析を実施して対象テキストを単語区切りに分割する（Ｓ２０１１）。言語処理部２０は、分割した単語、及び、単語区切りの対象テキストをそれぞれ要約文抽出部４０に送る。なお、要約文抽出部４０に送るのではなく、分割した単語、及び、単語区切りの対象テキストをそれぞれ記憶装置（図示せず）に一時的に保存してもよい。

図１２は、言語処理（Ｓ２０１）のサブルーチンの動作の別の例を示すフローチャートである。図１２に示すサブルーチンの動作では、言語処理部２０は、図１１の形態素解析（Ｓ２０１１）の後に、形態素の係り受けを分析する構文解析を実施する（Ｓ２０１２）。言語処理部２０が、構文解析を実施することで、単語の係り受けの情報が得られ、後段の抽出装置１０における単語Ｎ-Ｇｒａｍの確信度の算出時に付加的な情報を与えることができ、要約抽出の適切さがより向上することになる。

なお、言語処理のステップ（Ｓ２０１）では、対象テキストの単語区切りのために形態素解析を用いる例を示したが、単語区切りの対象テキストを生成できるのであれば、形態素解析以外を用いてもよい。また、英語のテキストのように予め分かち書きとなっている対象テキストの場合、対象テキストを文単位で分割する処理をすればよい。

分割した単語は、単語記憶部６１に記憶され、複数の文を含むテキストから抽出された文である単語区切りにした対象テキストは、テキスト記憶部６２に記憶される。もしくは、言語処理部２０により、後段の抽出装置１０の要約文抽出部４０へ送られる。

次に、支援装置１の抽出装置１０は、文ごとに１以上の単語を含む単語集合を生成し、生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、算出された評価値に基づいて文から要約文を抽出する（Ｓ２０２）。具体的には、抽出装置１０は、分割された文ごとにＮ個の単語をつなげた単語Ｎ-Ｇｒａｍ（Ｎは２以上の自然数）を生成し、生成された単語Ｎ-Ｇｒａｍに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出する。続いて、抽出装置１０は、算出された確信度に基づいて分割された文ごとに教師ラベル判定寄与度を算出し、教師ラベル判定寄与度に応じて要約文を抽出する。また抽出装置１０は、抽出された要約文を表示装置５に出力する。

抽出装置１０による要約文の抽出のステップは、第１の実施形態の抽出装置１０の動作と同様のため、詳細な説明は省略する。なお、要約文の抽出のために、言語処理部２０で生成された単語区切りの対象テキストは、記憶装置６のテキスト記憶部６２から取得してもよく、言語処理部２０から取得してもよい。

次に、表示装置５は、支援装置１の抽出装置１０から出力された要約文を表示する（Ｓ２０３）。図１３は、第２の実施形態による支援装置１が表示装置５に出力する画面表示を示す図である。図１３に示すように、表示装置５の表示画面は、「テキスト一覧」、「オプション」、「教師ラベル」、「テキスト」の４つの表示エリアで構成されている。

「テキスト一覧」の表示エリアは、対象テキスト（教師ラベルを付与するテキスト）を一覧表示する。テキスト一覧で表示する対象テキストは、支援装置１に入力された順でもよく、あるいは所定の降順であってもよい。支援システムの利用者は、「テキスト一覧」の表示エリアに表示された中から対象テキストを選択する。

「テキスト」の表示エリアは、「テキスト一覧」で選択されたテキストを表示するエリアである。表示制御部は、抽出装置１０から出力された要約文ごとにその文中で、教師単語集合らしいか否かに応じて表示を変化させる。図１３中、抽出された要約文ごとに、その文中に「ポジティブ」であると推定した箇所に下線がひかれている。

「オプション」の表示エリアは、対象テキストを要約文表示モード、又は、テキスト全文表示モードを選択するエリアであり、これの選択状態によって「テキスト」の表示エリアに表示する内容を変更する。この選択肢は、機械学習が不足している支援システムの初期段階において要約文の抽出が妥当でないときの問題を回避するために用意している。つまり、支援システムの稼働初期はテキスト全文を表示し、教師ラベルが十分に揃うようになれば要約文を表示するよう選択することで、教師ラベルの付与において効率のよい支援システムの運用が可能となる。

「教師ラベル」の表示エリアは、「テキスト」に表示されている対象テキストに対して、教師ラベルを設定／変更するためのエリアである。図１３中、教師ラベルは、「ポジティブ」に選択されている。

支援装置１は、抽出した要約文を表示装置５で表示することで、支援装置１の利用者は、短時間でテキストの内容を理解することができ、教師ラベルの判定の時間と手間を軽減することが可能となる。

次に、支援装置１の教師ラベル受付部５０は、支援システムの利用者によって判定された教師ラベルの結果を受付ける（Ｓ２０４）。教師ラベル受付部５０は、支援システムの利用者が判定した教師ラベルを対象テキストに紐づけてテキスト記憶部６２へ記憶させる。

続いて、支援装置１の学習部３０は、教師ラベル受付部で受付けた教師ラベルと、それに紐づいた対象テキストを用いて、学習モデル記憶部６３に記憶された学習モデルを学習させる（Ｓ２０５）。

図１４は、図１０に示す学習のサブルーチンの動作を示すフローチャートである。なお、ここで言う学習は、対象テキストを学習するための特徴ベクトル作成処理を含む（特徴ベクトル作成処理が、学習処理と一体になっているアルゴリズムが存在するため）。

まず、学習部３０は、学習に用いるベクトルを作成する（Ｓ２０５１）。一般に自然言語の特徴ベクトルは非常に大きいベクトル長のデータであり、そのままでは後段の学習および判別への適用が困難となる。そのため、特徴となる項のみを選択し、圧縮したベクトルを生成する。例えば、特徴ベクトルの生成については、下記論文で詳細に記載されている。
“Sentiment Classification with Supervised Sequence Embedding”, Bespalov, Dmitriy and Qi, Yanjun and Bai, Bing and Shokoufandeh, Ali, Machine Learning and Knowledge Discovery in Databases, Vol.7523, pp.159-174, Springer Berlin Heidelberg, 2012, ISBN: 978-3-642-33459-7
上記の論文では、特徴ベクトルの生成を自動で処理する機構を用いている。第２の実施形態では、これに限られず、例えば、主成分分析などにより、重要なベクトル項を分析し、そのベクトル項を選択して、特徴ベクトルを生成する処理をソフトウェアプログラムに組み込んで構成してもよい。

続いて、学習部３０は、学習モデル記憶部６３から学習モデルを読み込み、ベクトル作成のステップ（Ｓ２０５１）によって作成されたベクトルを用いて学習モデルを補正する。学習モデル記憶部６３で採用する学習モデルは、任意の教師あり機械学習分類器を適用することでき、この他に、サポートベクタマシン、ニューラルネット、ベイズ分類器などを用いてもよい。

＜第３の実施形態＞
本発明の第３の実施形態による支援装置および記憶装置について、図１５を用いて説明する。図１５は、第３の実施形態による支援装置１及び記憶装置７の構成を示すブロック図である。図１５に示すように、第３の実施形態の記憶装置７は、第２の実施形態の記憶装置６と比較して、付加情報記憶部６５が追加されている点で相違する。

第３の実施形態による記憶装置７の付加情報記憶部６５は、対象テキストに関する属性情報を記憶する。これにより、第３の実施形態による支援装置１は、対象テキストの属性情報を使用した学習が可能となる。第２の実施形態の例では、単語記憶部６１とテキスト記憶部６２で記憶する対象テキストを構成する単語、及び、単語区切り対象テキストのデータを学習部３０へ引き渡すことで学習する。それに加えて第３の実施形態の例では、対象テキストのジャンル（論文、小説等）、作者のドメイン（性別、年齢等）、レイアウト（テキスト全体で見た文の出現箇所、文字数）といった付加情報を学習する。これにより、要約文を抽出する精度が向上する。

＜第４の実施形態＞
本発明の第４の実施形態である表示制御装置について、図面を用いて説明する。図１６は、第４の実施形態による表示制御装置１１０の構成を示すブロック図である。第５の実施系形態の表示制御装置１１０は、テキストに教師ラベルを付与する者に対して、その教師ラベルの判定を支援するための表示制御装置である。

図１６に示すように、表示制御装置１１０は、表示制御部１４０を備える。表示制御部１４０は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文から要約文を抽出し、要約文を評価値に基づいた順序で表示制御する。複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文から要約文を抽出する点は、第１の実施形態による抽出装置１０と同様である。

図１７は、第４の実施形態による表示制御装置１１０の動作を示すフローチャートである。図１７に示すように、表示制御装置１１０は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文から要約文を抽出し（Ｓ１１１）、要約文を評価値に基づいた順序で表示制御する複数の文を含むテキストから文を抽出する（Ｓ１１２）。なお、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文ごとに教師ラベル判定寄与度を算出し、寄与度に応じて要約文を抽出した場合、要約文を寄与度に基づいた順序で表示制御してもよい。

第４の実施形態によれば、単語の語順に伴う文意を反映した要約文を表示制御することができる。これにより、テキストに教師ラベルを付与する者に対して、その教師ラベルの判定を支援することが可能になる。

（ハードウエア構成）
図１８は、本発明の第１の実施形態による抽出装置１０、第２、３の実施形態による支援装置１、又は第４の実施形態による表示制御装置１１０をコンピュータ装置で実現したハードウエア構成を示す図である。

図１８に示すコンピュータ装置は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９１、ネットワーク接続用の通信Ｉ／Ｆ（通信インターフェース）９２、メモリ９３、及び、プログラムを格納するハードディスク等の記憶装置９４を含む。また、コンピュータ装置は、システムバス９７を介して入力装置９５及び、出力装置９６に接続されている。

ＣＰＵ９１は、オペレーティングシステムを動作させて、第１の実施形態による抽出装置１０の要約文抽出部４０、第２の実施形態による支援装置１の言語処理部２０、学習部３０、教師ラベル受付部５０又は第４の実施形態による表示制御装置の表示制御部１４０を制御する。またＣＰＵ９１は、例えば、ドライブ装置に装着された記録媒体からメモリ９３にプログラムやデータを読み出す。また、ＣＰＵ９１は、例えば、各実施形態における情報信号を処理する機能を有し、プログラムに基づいて各種機能の処理を実行する。

記憶装置９４は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、又は半導体メモリ等である。記憶装置９４の一部の記憶媒体は、不揮発性記憶装置であり、そこにプログラムを記憶する。また、プログラムは、通信網に接続されている。図示しない外部コンピュータからダウンロードされてもよい。

入力装置９５は、例えば、マウス、キーボード、内臓のキーボタン、カード取込口、又は、タッチパネルなどで実現され、入力操作に用いられる。

出力装置９６は、例えば、ディスプレイで実現され、ＣＰＵ９１により処理された情報等を出力して確認するために用いられる。

以上のように、本発明の各実施形態は、図１８に示されるハードウエア構成によって実現される。但し、抽出装置１０、又は、支援装置１が備える各部の実現手段は、特に限定されない。すなわち、抽出装置１０、又は、支援装置１は、物理的に結合した一つの装置により実現されてもよいし、物理的に分離した二つ以上の装置を有線又は無線で接続し、これら複数の装置により実現してもよい。

以上、実施形態（及び実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（及び実施例）に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

上記の実施形態の一部又は全部は、以下の付記のように記載されうるが、以下には限られない。

（付記１）
教師ラベルを付与するテキストである対象テキストに対し前記対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割し、前記分割された文ごとにＮ個の単語をつなげた単語Ｎ-Ｇｒａｍ（Ｎは２以上の自然数）を生成し、前記生成された単語Ｎ-Ｇｒａｍに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出し、前記算出された確信度に基づいて前記分割された文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出する要約文抽出部を備える抽出装置。

（付記２）
前記要約文抽出部は、
前記単語Ｎ-Ｇｒａｍよりも単語区切りが多い単語Ｍ−Ｇｒａｍ（Ｍ＞Ｎ：Ｍ、Ｎは２以上の自然数）の単位、Ｋ文字ごと（Ｋは１以上の自然数）、行単位（改行文字）、ページ単位（改ページコード）、約物単位、又は、節・段落単位により、前記単語区切りの対象テキストを文単位に分割する、
付記１に記載の抽出装置。

（付記３）
前記学習モデルは、
スコア情報が既知の教師データであるテキストを用いた単語Ｎ−Ｇｒａｍが作成され、前記作成された単語Ｎ-Ｇｒａｍごとに単語に紐づく特徴ベクトルに置換され、前記特徴ベクトルと対応する前記スコア情報とにより任意の教師あり機械学習分類器に学習させたモデルである、
付記１又は付記２に記載の抽出装置。

（付記４）
前記学習モデルは、任意の教師あり機械学習分類器であり、サポートベクタマシン、ニューラルネットワーク、又は、ベイズ分類器のいずれかである、
付記１から３のいずれか１つに記載の抽出装置。

（付記５）
前記寄与度の算出は、各単語Ｎ-Ｇｒａｍにおける算出された確信度の分散値又は標準偏差値、各単語Ｎ-Ｇｒａｍにおける算出された確信度の最大絶対値、又は、各単語Ｎ-Ｇｒａｍにおける算出された確信度のノルム値のいずれかを用いる、
付記１から４のいずれか１つに記載の抽出装置。

（付記６）
前記要約文は、前記算出された寄与度が、所定の閾値以上である文、あるいは、前記算出された寄与度を降順に整列したうちの上位数十パーセントとなる文、を抽出する、
付記１から５のいずれか１つに記載の抽出装置。

（付記７）
前記抽出装置を含む、
付記１〜付記６のいずれか１つに記載の支援装置。

（付記８）
言語処理部を備え、
前記言語処理部は、前記単語区切りの対象テキストを生成する、
付記７に記載の支援装置。

（付記９）
学習部を備え、
前記学習部は、スコア情報が既知の教師データであるテキストを用いた単語Ｎ−Ｇｒａｍを作成し、前記作成された単語Ｎ-Ｇｒａｍごとに単語に紐づく特徴ベクトルに置換し、前記特徴ベクトルと対応する前記スコア情報とにより任意の教師あり機械学習分類器に学習させる、
付記７又は付記８に記載の支援装置。

（付記１０）
教師ラベル受付部を備え、
前記教師ラベル受付部は、前記対象テキストに対して、前記支援装置の利用者によって判定された教師ラベルを受付ける、
付記７〜付記９のいずれか１つに記載の支援装置。

（付記１１）
前記支援装置に記憶装置が接続され、
前記記憶装置は、単語記憶部、テキスト記憶部、学習モデル記憶部、及び、パラメータ記憶部を有する、
付記７〜付記１０のいずれか１つに記載の支援装置。

（付記１２）
前記記憶装置は、付加情報記憶部を有する、
付記１１に記載の支援装置。

（付記１３）
前記記憶装置を備える、
付記１１又は付記１２に記載の支援装置。

（付記１４）
前記支援装置に表示装置が接続され、
前記表示装置は、
付記７〜付記１３のいずれか１つに記載の支援装置。

（付記１５）
前記表示装置を備える、
付記７〜付記１４のいずれか１つに記載の支援装置。

（付記１６）
教師ラベルを付与するテキストである対象テキストに対し前記対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割し、
前記分割された文ごとにＮ個の単語をつなげた単語Ｎ-Ｇｒａｍ（Ｎは２以上の自然数）を生成し、
前記生成された単語Ｎ-Ｇｒａｍに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出し、
前記算出された確信度に基づいて前記分割された文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出する、
抽出方法。

（付記１７）
コンピュータに、
教師ラベルを付与するテキストである対象テキストに対し前記対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割し、
前記分割された文ごとにＮ個の単語をつなげた単語Ｎ-Ｇｒａｍ（Ｎは２以上の自然数）を生成し、
前記生成された単語Ｎ-Ｇｒａｍに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出し、
前記算出された確信度に基づいて前記分割された文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出する、
ことを実行させるための抽出プログラム。

１支援装置
５表示装置
６記憶装置
７記憶装置
１０抽出装置
２０言語処理部
３０学習部
４０要約文抽出部
５０教師ラベル受付部
６１単語記憶部
６２テキスト記憶部
６３学習モデル記憶部
６４パラメータ記憶部
６５付加情報記憶部
９１ＣＰＵ
９２通信Ｉ／Ｆ（通信インターフェース）
９３メモリ
９４記憶装置
９５入力装置
９６出力装置
９７システムバス
１１０表示制御装置
１４０表示制御部

Claims

複数の文を含むテキストから前記文を抽出し、前記文ごとにＮ個（Ｎは２以上の自然数）の単語をつなげたＮ−Ｇｒａｍを生成し、前記Ｎ−Ｇｒａｍに対し学習モデルを用いて評価する評価値を算出し、前記評価値に基づいて前記文から要約文を抽出する要約文抽出部を備える抽出装置。
前記学習モデルは、複数の教師単語集合を用いて、所定の単語集合が前記教師単語集合らしいか否かを評価可能に学習されたモデルである、請求項１記載の抽出装置。
前記要約文抽出部は、前記評価値に基づいて前記文ごとに教師ラベル判定寄与度を算出し、前記教師ラベル判定寄与度に応じて要約文を抽出する、請求項１又は２に記載の抽出装置。
前記教師ラベル判定寄与度の算出は、前記評価値の分散値又は標準偏差値、前記評価値の最大絶対値、又は、前記評価値のノルム値のいずれかを用いる、
請求項３に記載の抽出装置。
複数の文を含むテキストから前記文を抽出し、前記文ごとにＮ個（Ｎは２以上の自然数）の単語をつなげたＮ−Ｇｒａｍを生成し、前記Ｎ−Ｇｒａｍに対し学習モデルを用いて評価する評価値を算出し、前記評価値に基づいて前記文から要約文を抽出する抽出方法。
複数の文を含むテキストから前記文を抽出し、前記文ごとにＮ個（Ｎは２以上の自然数）の単語をつなげたＮ−Ｇｒａｍを生成し、前記Ｎ−Ｇｒａｍに対し学習モデルを用いて評価する評価値を算出し、前記評価値に基づいて前記文から要約文を抽出することをコンピュータに実行させる抽出プログラム。
請求項１から４のいずれか１に記載の抽出装置と、を備え、前記抽出装置から出力された前記要約文ごとにその文中で教師単語集合らしいか否かに応じて表示を変化させる支援装置。
複数の文を含むテキストから抽出された前記文ごとに、学習モデルを用いて算出された、前記文から生成されたＮ個（Ｎは２以上の自然数）の単語をつなげたＮ−Ｇｒａｍに対する評価値に基づいて、前記文から要約文を抽出し、前記要約文を前記評価値に基づいた順序で表示制御する表示制御部を備える表示制御装置。
複数の文を含むテキストから抽出された前記文ごとに、学習モデルを用いて算出された、前記文から生成されたＮ個（Ｎは２以上の自然数）の単語をつなげたＮ−Ｇｒａｍに対する評価値に基づいて、前記文から要約文を抽出し、前記要約文を前記評価値に基づいた順序で表示制御する表示制御方法。
複数の文を含むテキストから抽出された前記文ごとに、学習モデルを用いて算出された、前記文から生成されたＮ個（Ｎは２以上の自然数）の単語をつなげたＮ−Ｇｒａｍに対する評価値に基づいて、前記文ごとに教師ラベル判定寄与度を算出し、前記教師ラベル判定寄与度に応じて要約文を抽出し、前記要約文を前記教師ラベル判定寄与度に基づいた順序で表示制御する表示制御方法。