JP6536580B2

JP6536580B2 - 文集合抽出システム、方法およびプログラム

Info

Publication number: JP6536580B2
Application number: JP2016535794A
Authority: JP
Inventors: 康高山本; 貴士大西; 正明土田; 弘紀水口
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-07-23
Filing date: 2015-07-21
Publication date: 2019-07-03
Anticipated expiration: 2035-07-21
Also published as: JPWO2016013209A1; WO2016013209A1; US20170220585A1

Description

本発明は、分析対象の文が分類される集合を抽出する文集合抽出システム、文集合抽出方法および文集合抽出プログラムに関する。

テキストマイニングは、自然言語で書かれたテキストデータを入力に、その内容の全体的な傾向を把握することや、有用な知見を発見するためのデータ分析手法である。テキストマイニングを利用することで、例えば、コールセンタの応対メモから問い合わせの内容を把握することなどが可能になる。

例えば、特許文献１には、３単語以上の関係に着目して単語間の係り受け関係ネットワーク構造を表示するテキストマイニングシステムが記載されている。特許文献１に記載されたテキストマイニングシステムは、大量のテキストデータに含まれる言語情報を分析して、単語や係り受け関係の関連性を抽出し、これらの関連性のテキストマイニング結果を視覚化して表示する。

なお、特許文献２には、テキスト間の同義や含意関係を判定し、意味が同じテキストをクラスタリングすることにより、テキストの内容を直接理解できる形式で集計する方法が記載されている。

特開２００７−２９３６８５号公報国際公開第２０１３／１６１８５０号

一方、大量のテキストデータの中から特定の内容を示すテキストを抽出したい場合、特許文献１に記載されたシステムを用いるよりも、その内容を抽出するための抽出器を用いることが効率的である。抽出用ルールや抽出用学習モデルを予め構築しておくことで、このような抽出器を実現可能である。

例えば、コールセンタへの問い合わせのうち、特定の要望やクレームを抽出したいとする。この場、例えば、「料金が高い」という内容や、「使い勝手が悪い」という内容に分類されるテキストを抽出する抽出器を用いることで、大量のテキストデータの中から効率的に対象のテキストを抽出することができる。

しかし、このような抽出器で抽出可能なテキストは、予め想定される分類の内容を示すテキストに限られる。すなわち、想定できない内容の抽出器を予め準備しておくことは困難なため、想定しない内容のテキストについては、見落としが発生してしまう。

例えば、上述する抽出器を利用する場合、コールセンタへの問い合わせを示すテキストデータの中から、「料金が高い」という内容や、「使い勝手が悪い」という内容を示すテキストを抽出することは可能である。しかし、このテキストデータの中に、「他社の方が良い」という内容を示すテキストが含まれていても、そのような内容を抽出する抽出器が存在しない場合には、そのテキストが見落とされてしまうことになる。

図１２は、一般的な方法により特定の意見を抽出する方法の例を示す説明図である。図１２は、コールセンタの事例を示している。例えば、コールセンタへの問い合わせの中から、クレームや要望を分類して抽出するとする。図１２に例示するアンダーラインが付された文は、クレームまたは要望を示している。

図１２に例示するように、「料金に関する不満」と「サービス内容に関する不満」の２種類の抽出器が存在するとする。この場合、「料金に関する不満」を抽出する抽出器を用いて２つの文が抽出され、「サービス内容に関する不満」を抽出する抽出器を用いて３つの文が抽出される。しかし、コールセンタへの問い合わせの中には、クレームまたは要望を示す文が他にも３つ存在するにもかかわらず、これらの文を抽出するための抽出器は存在していない。そのため、この場合、残りの３つの文は見落とされてしまうことになる。

このように、大量のテキストデータに様々な分類が含まれているような場合、分類された各テキストを網羅的かつ効率的に抽出できることが望ましい。

そこで、本発明は、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる文集合抽出システム、文集合抽出方法および文集合抽出プログラムを提供することを目的とする。

本発明による文集合抽出システムは、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成部と、分析対象文の集合から特定の分類に属する特定文を抽出可能な１つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない１つ以上の文を除外類似文集合として抽出する類似文集合抽出部とを備えたことを特徴とする。

本発明による他の文集合抽出システムは、分析対象文の集合から特定の分類に属する特定文を抽出可能な１つ以上の特定文抽出器を用いて、その分析対象文の集合から特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成部と、分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定する類似文集合特定部とを備えたことを特徴とする。

本発明による文集合抽出方法は、コンピュータの類似文集合生成部が、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、コンピュータの類似文集合抽出部が、分析対象文の集合から特定の分類に属する特定文を抽出可能な１つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない１つ以上の文を除外類似文集合として抽出することを特徴とする。

本発明による他の文集合抽出方法は、コンピュータの分析文集合生成部が、分析対象文の集合から特定の分類に属する特定文を抽出可能な１つ以上の特定文抽出器を用いて、その分析対象文の集合から特定文抽出器で抽出される文を除外した分析文集合を生成し、コンピュータの類似文集合特定部が、分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、類似文集合特定部が、含まれる文の数が所定の条件を満たす類似文集合を特定することを特徴とする。

本発明による文集合抽出プログラムは、コンピュータに、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成処理、および、分析対象文の集合から特定の分類に属する特定文を抽出可能な１つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない１つ以上の文を除外類似文集合として抽出する類似文集合抽出処理を実行させることを特徴とする。

本発明による他の文集合抽出プログラムは、コンピュータに、分析対象文の集合から特定の分類に属する特定文を抽出可能な１つ以上の特定文抽出器を用いて、その分析対象文の集合から特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成処理、および、分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定する類似文集合特定処理を実行させることを特徴とする。

本発明によれば、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。

本発明による文集合抽出システムの第１の実施形態の構成例を示すブロック図である。文の関係を示す説明図である。類似文集合を生成する処理の例を示す説明図である。抽出される文の数を表形式で表示した例を示す説明図である。第１の実施形態の文集合抽出システムの動作例を示すフローチャートである。本発明による文集合抽出システムの第２の実施形態の構成例を示すブロック図である。類似文集合に含まれる文の数を表形式で表示した例を示す説明図である。第２の実施形態の文集合抽出システムの動作例を示すフローチャートである。本発明による文集合抽出システムの概要を示すブロック図である。本発明による文集合抽出システムの他の概要を示すブロック図である。コンピュータの構成概要を示すブロック図である。一般的な方法により特定の意見を抽出する方法の例を示す説明図である。

以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
図１は、本発明による文集合抽出システムの第１の実施形態の構成例を示すブロック図である。本実施形態の文集合抽出システムは、分析対象文入力部１１と、類似文集合生成部１２と、類似文集合抽出部１３とを備えている。

本実施形態の文集合抽出システムは、文の集合のうち、分析したい内容が記載された文の集合から、分類ごとに文の集合を抽出する。なお、本実施形態で文とは、句点やピリオドなどで区切られる単位に限定されず、所定の意味を表す単語のまとまりも含む。

図２は、本発明で用いられる文の関係を示す説明図である。図２に例示するように、文の集合の中に、要望やクレームなど、分析したい内容が記載された文の集合が含まれる。以下の説明では、この文を分析対象文と記す。例えば、ユーザ等による要求を分析したい場合、この分析対象文は、各ユーザからの要求を示す要求文に該当する。

また、図２に例示するように、分析対象文の集合に含まれる各文は、その分析対象文の特性に応じて分類される。以下、分析対象文を分類した文のことを、特定文と記す。なお、分析対象文のうち、要望やクレームの内容を分類した文は、特定意見文と言うこともできる。

例えば、コールセンタのオペレータが作成するメモ等は、製品・サービスの改善に役立て得る情報である。このメモ等に含まれる文全体が、文の集合に相当し、要望やクレームを示す文が分析対象文に相当する。また、分析対象文を、「料金を安くしてほしい」、「サービス内容を充実してほしい」など、複数の項目に分けたものが特定文（特定意見文）に相当する。

分析対象文入力部１１は、分析対象文を入力する。分析対象文入力部１１は、記憶装置（図示せず）に記憶された分析対象文を読み取って入力してもよく、他のシステムや装置から送信される分析対象文を受信することによって入力してもよい。

また、分析対象文の代わりに、その上位である文の集合が入力された場合、分析対象文入力部１１は、入力された文の集合から、分析したい内容を含む分析対象文を抽出してもよい。この場合、分析対象文入力部１１は、一般的に知られた抽出器を用いて、分析対象文を抽出すればよい。

また、例えば、コールセンタのオペレータが入力する画面上にクレームや要望の入力欄が存在する場合、分析対象文入力部１１は、その入力欄に入力されるテキストを分析対象文として入力してもよい。また、分析対象文入力部１１は、必要に応じて、入力される分析対象文のフォーマット変換等を行ってもよい。

類似文集合生成部１２は、分析対象文の集合から、類似する文をグループ化して類似文集合を作成する。類似文集合の作成方法は任意である。類似文集合生成部１２は、例えば、文と文の間の類似性を、各文に含まれる単語や構文に基づいて総当たりで算出し、類似性の高い文を集約して類似文集合してもよい。また、類似文集合生成部１２は、一般的なクラスタリング手法を用いて類似文集合を生成してもよい。このように分類された類似文集合に含まれる各文は、特定文に対応する。

図３は、類似文集合を生成する処理の例を示す説明図である。図３に示す例では、分析対象文入力部１１がコールセンタへの問い合わせを示す１０個のテキストデータの中から、分析対象文抽出処理を行い、８つの分析対象文を抽出している。

次に、類似文集合生成部１２は、分析対象文の集合から類似文集合を作成する。図３に示す例では、類似文集計結果に示す各行が、類似文集合に対応する。図３に示す例では、同じ出来事を示す「料金が高い」、「値段が高い」という特定文が同じ類似文集合に属し、同様に、「UIが悪い」、「使い勝手が悪い」という特定文が同じ類似文集合に属している。

なお、分析対象文を分類した類似文集合は、分類された内容が分かるように、意味的なまとまり（同じ概念）があることが望ましい。そのため、類似文集合生成部１２は、分析対象文の集合から意味的に類似する文をグループ化して類似文集合を生成することが望ましい。意味的に類似する文をグループ化する方法として、同義または含意関係に基づいてクラスタリングする方法が知られている。類似文集合生成部１２は、例えば、特許文献２に記載されているような方法を用いて、分析対象文の集合から類似文集合を生成してもよい。同義または含意関係に基づいてクラスタリングすることにより、類似文集合の内容を直接理解できる形で集計できる。

また、類似文集合生成部１２は、類似文集合の内容を示す文（以下、代表文と記す。）を特定してもよい。例えば、含意認識技術を用いて類似文集合を生成する場合、類似文集合生成部１２は、その類似文集合に含まれる多数の文が含意する内容を示すテキストを代表文に特定してもよい。また、例えば、一般的なクラスタリング手法を用いて類似文集合を生成する場合、類似文集合生成部１２は、クラスタ中心のテキストを代表文に特定してもよい。

類似文集合抽出部１３は、分析対象文の集合から特定文を抽出可能な抽出器（以下、特定文抽出器と記す。）を用いて、類似文集合に属する文の中から、特定文抽出器で抽出されない文を特定する。

特定文抽出器は、抽出の対象に応じて予め準備される。特定文抽出器は、分析対象文の集合から所望の内容を示す特定文を抽出できるものであれば、その態様は任意である。類似文集合抽出部１３は、例えば、所望の内容を示す単語を含む正規表現に一致するテキストを抽出する特定文抽出器を利用してもよい。ただし、特定文抽出器が特定文を抽出するために用いる方法は、正規表現に限定されず、例えば、抽出用ルールや抽出用学習モデルに基づいて特定文を抽出する方法が用いられてもよい。

具体的には、類似文集合抽出部１３は、１つ以上の特定文抽出器を用いて、類似文集合ごとに特定文を抽出する。このとき、類似文集合抽出部１３は、各類似文集合から抽出された特定文の数を、特定文抽出器ごとに集計してもよい。そして、類似文集合抽出部１３は、特定文抽出器によって抽出されなかった文を類似文集合ごとに特定する。類似文集合抽出部１３は、例えば、特定文抽出器によって抽出された特定文を類似文集合全体から除外することによって、抽出されなかった文を特定してもよい。

次に、類似文集合抽出部１３は、抽出されなかった文の数を類似文集合ごとに集計する。そして、類似文集合抽出部１３は、類似文集合に属する文の中から特定文抽出器で抽出されない１つ以上の文を類似文集合として抽出する。このとき、類似文集合抽出部１３は、抽出された特定文の数に応じて類似文集合を抽出する。具体的には、類似文集合抽出部１３は、特定された類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する。

類似文集合抽出部１３は、例えば、特定された文の数が予め定めた閾値以上である類似文集合を抽出してもよい。また、類似文集合抽出部１３は、例えば、「特定文抽出器で抽出される文の数」と「特定文抽出器で抽出されなかった文の数」との比率に応じて閾値を決定し、特定された文の数が決定された閾値以上である類似文集合を抽出してもよい。具体的には、閾値は、「特定文抽出器で抽出されなかった文の数」が「特定文抽出器で抽出される文の数」に対して多いほど低く設定される。

このようにして抽出される類似文集合の分類は、分析対象文に含まれる多くの文が属する分類にも関わらず、属する文を個別に抽出するための抽出器が存在しない分類と言える。したがって、この類似文集合に属する文を抽出するための抽出器を別途作成することにより、分析対象文から、効率よく特定文を抽出できるようになり、かつ、分析対象文から抽出される分類の網羅性も高めることができる。

また、抽出される類似文集合は、抽出器を生成するための学習データとして利用することが可能である。このように、本実施形態では、類似文集合抽出部１３が類似文集合を抽出することにより、個々に抽出器を生成すべき対象の類似文集合を特定でき、さらに、その抽出器を生成するための学習データも効率的に収集できる。

また、類似文集合抽出部１３は、特定文抽出器を用いて抽出される文の数を類似文集合ごとに集計し、表形式で表示してもよい。図４は、抽出される文の数を表形式で表示した例を示す説明図である。図４に例示する表では、表側に類似文集合を設定し、表頭に抽出に用いた特定文抽出器の内容を設定している。また、表の一番右の列は、特定文抽出器で抽出されなかった文の数を示している。

図４に示す例の場合、例えば、「料金が高い、値段が高い」という内容を示す類似文集合に含まれる文は、「料金に関する不満」を抽出する特定文抽出器を用いて３０件抽出され、「サービス内容に関する不満」を抽出する特定文抽出器を用いて５件抽出されたことを示す。また、図４に示す例の場合、「料金が高い、値段が高い」という内容を示す類似文集合に含まれる文のうち、この２つの抽出器を用いて抽出されない文の件数が０件であったことを示す。

一方、「他社の方が特典が良い、他社の方が良い」という内容を示す類似文集合に含まれる文は、「料金に関する不満」を抽出する特定文抽出器を用いて５件抽出され、「サービス内容に関する不満」を抽出する特定文抽出器を用いて５件抽出されたことを示す。また、「他社の方が特典が良い、他社の方が良い」という内容を示す類似文集合に含まれる文のうち、この２つの抽出器を用いて抽出されない文の件数が３０件だったことを示す。

この表から、「他社の方が特典が良い、他社の方が良い」という内容を示す文が分析対象文に多く含まれているにもかかわらず、このような文を適切に抽出する抽出器が存在しないことが分かる。この結果をもとに、管理者等は、「他社の方が特典が良い、他社の方が良い」という内容を抽出するための抽出器を作成すればよい。

図４に示す例の場合、例えば、抽出されない文の数の閾値を２０に設定することで、類似文集合抽出部１３は、「他社の方が特典が良い、他社の方が良い」、「自分の端末で使えない」という２つの類似文集合を抽出できる。

なお、類似文集合抽出部１３が類似文集合を抽出するために用いられる条件は、１つの類似文集合に含まれる文の数に限定されない。類似文集合抽出部１３は、特定された複数の類似文集合を結合した新たな類似文集合に含まれる文の数を、類似文集合を抽出するための条件に用いてもよい。

すなわち、類似文集合抽出部１３は、特定文抽出器で抽出されない文を含む１つ以上の類似文集合が結合された（纏められた）新たな類似文集合に含まれる文の数が所定の条件（比率や件数）を満たす類似文集合を抽出してもよい。

例えば、類似文集合生成部１２がそれぞれ別の集合として生成した類似文集合であっても、抽出器を生成する際、類似する文を含む類似文集合をまとめて抽出可能な抽出器を生成したいと考える場合が想定される。ここで、以下の２つの類似文集合を想定する。

含意による類似文集合１：「動画がかくかくする、動画の描画が遅い」
含意による類似文集合２：「待ち時間が長い、画面切り替えで待たされる」

類似文集合生成部１２が、この２つの類似文集合をそれぞれ別に生成したとする。一方、この２つの類似文集合の両方に含まれる文を抽出するための抽出器として、「描画速度への要求」という抽出器を生成することが考えられる。そこで、類似文集合生成部１２は、複数の類似文集合を結合した新たな類似文集合を対象に、抽出の有無を判断してもよい。

複数の類似文集合を結合する方法は任意である。類似文集合生成部１２は、例えば、ユーザによって指定された複数の類似文集合を結合してもよい。また、類似文集合生成部１２は、類似文集合同士の類似度を判断する任意の方法を用いて、類似すると判定された類似文集合同士を結合してもよい。

このとき、類似文集合生成部１２は、上述する方法と同様に、類似文集合に含まれる文の数や、特定文抽出器で抽出された文と抽出されなかった文の比率に応じて類似文集合を抽出してもよい。また、類似文集合生成部１２は、結合したそれぞれの類似文集合に含まれる文の数をそのまま用いずに、結合した類似文集合同士の類似度に応じて算出される値を閾値と比較するようにしてもよい。類似文集合生成部１２は、例えば、結合した２つの類似文集合に含まれる文の数を加算又は乗算し、さらに類似度を乗じた値が所定の閾値を超える場合に、結合して生成された新たな類似文集合を抽出してもよい。

分析対象文入力部１１と、類似文集合生成部１２と、類似文集合抽出部１３とは、プログラム（文集合抽出プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、文集合抽出システムを実現する情報処理装置が備える記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、分析対象文入力部１１、類似文集合生成部１２および類似文集合抽出部１３として動作してもよい。また、分析対象文入力部１１と、類似文集合生成部１２と、類似文集合抽出部１３とは、それぞれが専用のハードウェアで実現されていてもよい。

次に、本実施形態の文集合抽出システムの動作を説明する。図５は、本実施形態の文集合抽出システムの動作例を示すフローチャートである。

分析対象文入力部１１は、分析対象文を入力する（ステップＳ１１）。類似文集合生成部１２は、入力された分析対象文の集合から、意味内容が類似する文をグループ化して類似文集合を作成する（ステップＳ１２）。類似文集合抽出部１３は、類似文集合に属する文の中から特定文抽出器で抽出されない文を特定し（ステップＳ１３）、類似文集合ごとに特定された文の数を集計する（ステップＳ１４）。そして、類似文集合抽出部１３は、特定された文の数が所定の条件を満たす類似文集合を抽出する（ステップＳ１５）。

以上のように、本実施形態では、類似文集合生成部１２が、分析対象文の集合から、類似する文をグループ化して類似文集合を作成し、類似文集合抽出部１３が、１つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない１つ以上の文を類似文集合として抽出する。

そのような構成により、抽出器を作成すべき類似文集合が特定できるため、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。

実施形態２．
図６は、本発明による文集合抽出システムの第２の実施形態の構成例を示すブロック図である。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。本実施形態の文集合抽出システムは、分析対象文入力部１１と、分析文集合生成部２２と、類似文集合特定部２３とを備えている。

すなわち、本実施形態の文集合抽出システムは、第１の実施形態における類似文集合生成部１２と類似文集合抽出部１３の代わりに、分析文集合生成部２２と類似文集合特定部２３を備えている。

分析文集合生成部２２は、分析対象文の集合から、特定文抽出器で抽出される文を除外した集合（以下、分析文集合と記す。）を生成する。分析文集合生成部２２が用いる特定文抽出器の内容は、第１の実施形態で類似文集合抽出部１３が用いる特定文抽出器と同様である。

具体的には、分析文集合生成部２２は、１つ以上の特定文抽出器を用いて、分析文対象文から特定文を抽出し、抽出した特定文を分析対象文から除外することで、分析文集合を生成する。

類似文集合特定部２３は、生成された分析文集合から、類似する文をグループ化して類似文集合を作成する。この類似文集合の作成方法は、第１の実施形態の類似文集合生成部１２が類似文集合を作成する方法と同様である。そして、類似文集合特定部２３は、各類似文集合に含まれる文の数を集計し、その類似文集合に含まれる文の数が所定の条件を満たす類似文集合を特定する。具体的には、類似文集合特定部２３は、類似文集合に含まれる文の数が予め定めた閾値以上である類似文集合を特定してもよく、第１の実施形態の類似文集合抽出部１３が用いる比率を閾値と比較して類似文集合を特定してもよい。

このようにして特定される類似文集合の分類も、第１の実施形態と同様に、分析対象文に含まれる多くの文が属する分類にも関わらず、属する文を個別に抽出するための抽出器が存在しない分類と言える。したがって、この類似文集合に属する文を抽出するための抽出器を別途作成することにより、分析対象文から、効率よく特定文を抽出できるようになり、分析対象文から抽出される分類の網羅性も高めることができる。

また、類似文集合特定部２３は、各類似文集合に含まれる文の数を表形式で表示してもよい。図７は、抽出される類似文集合に含まれる文の数を表形式で表示した例を示す説明図である。なお、図７に例示する各類似文集合に含まれる文の数は、図４において、特定文抽出器で抽出されなかった文の数に対応する。

分析対象文入力部１１と、分析文集合生成部２２と、類似文集合特定部２３とは、プログラム（文集合抽出プログラム）に従って動作するコンピュータのＣＰＵによって実現される。また、分析対象文入力部１１と、分析文集合生成部２２と、類似文集合特定部２３とは、それぞれが専用のハードウェアで実現されていてもよい。

次に、本実施形態の文集合抽出システムの動作を説明する。図８は、本実施形態の文集合抽出システムの動作例を示すフローチャートである。

分析対象文入力部１１は、分析対象文を入力する（ステップＳ１１）。分析文集合生成部２２は、特定文抽出器で抽出される文を分析対象文の集合から除外した分析文集合を生成する（ステップＳ２２）。類似文集合特定部２３は、分析文集合から、意味内容が類似する文をグループ化して類似文集合を作成する（ステップＳ２３）。類似文集合特定部２３は、各類似文集合に含まれる文の数を集計し（ステップＳ２４）、類似文集合に含まれる文の数が所定の条件を満たす類似文集合を特定する（ステップＳ２５）。

以上のように、本実施形態では、分析文集合生成部２２が、分析対象文の集合から１つ以上の特定文抽出器で抽出される文を除外した分析文集合を生成し、類似文集合特定部２３が、分析文集合から、類似する文をグループ化して類似文集合を作成する。そして、類似文集合特定部２３が、含まれる文の数が所定の条件を満たす類似文集合を特定する。

そのような構成によっても、第１の実施形態と同様に、抽出器を作成すべき類似文集合が特定できるため、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。

なお、第２の実施形態の文集合抽出システムでは、類似文集合を作成する前に、特定文抽出器で抽出される文を除外するため、類似文集合を作成する対象の文を削減できるため、第１の実施形態の文集合抽出システムと比較すると、より処理時間を短くできる。

一方、第１の実施形態の文集合抽出システムでは、特定文抽出器で抽出される文を除外する前に、各特定文抽出器で抽出される文を特定できる。そのため、第２の実施形態の文集合抽出システムと比較すると、複数の特定文抽出器で抽出される文の数も特定することが可能になる。

次に、本発明の概要を説明する。図９は、本発明による文集合抽出システムの概要を示すブロック図である。本発明による文集合抽出システムは、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合（例えば、特定文の集合）を作成する類似文集合生成部８１（例えば、類似文集合生成部１２）と、分析対象文の集合から特定の分類に属する特定文を抽出可能な１つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない１つ以上の文を除外類似文集合として抽出する類似文集合抽出部８２（例えば、類似文集合抽出部１３）とを備えている。

そのような構成により、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。

具体的には、類似文集合抽出部８２は、特定文抽出器で抽出されない文を含む１つ以上の類似文集合を纏めた新たな類似文集合に含まれる文の数が所定の条件（例えば、文の数、比率などが所定の閾値以上）を満たす類似文集合を抽出してもよい。また、類似文集合抽出部８２は、特定文抽出器で抽出されない文を含む類似文集合をそれぞれ特定し、特定された類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出してもよい。

また、類似文集合生成部８１は、分析対象文同士の同義または含意関係に基づいて、分析対象文の集合をクラスタリングすることにより、類似文集合を作成してもよい。そのような構成により、類似文集合の内容を直接理解できる形で集計できる。よって、新たに生成しようとする抽出器で抽出される内容も、理解しやすい内容に分類できる。

また、類似文集合抽出部８２は、特定文抽出器を用いて抽出される文の数を類似文集合ごとに集計し、各特徴文抽出器で抽出された文の数および特定文抽出器で抽出されなかった文の数を類似文集合ごとに出力してもよい。そのようにすることで、現在利用している特定文抽出器の抽出状況や、新たに特定文抽出器の作成が必要な類似文集合の把握が容易になる。

また、文集合抽出システムは、入力される文の集合から、分析対象文を抽出する分析対象文入力部（例えば、分析対象文入力部１１）を備えていてもよい。そのような構成によれば、抽出器を作成する対象以外の情報を事前に除外できるため、精度の良い特定文抽出器を生成することが可能になる。

図１０は、本発明による文集合抽出システムの他の概要を示すブロック図である。本発明による他の文集合抽出システムは、分析対象文の集合から特定の分類に属する特定文を抽出可能な１つ以上の特定文抽出器を用いて、その分析対象文の集合から特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成部９１（例えば、分析文集合生成部２２）と、分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす（例えば、予め定めた閾値以上である）類似文集合を特定する類似文集合特定部９２（例えば、類似文集合特定部２３）とを備えている。

そのような構成であっても、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。

また、類似文集合特定部９２は、分析対象文同士の同義または含意関係に基づいて、分析文集合をクラスタリングすることにより、類似文集合を作成してもよい。そのような構成によっても、類似文集合の内容を直接理解できる形で集計できる。よって、新たに生成しようとする抽出器で抽出される内容も、理解しやすい内容に分類できる。

図１１は、コンピュータの構成概要を示すブロック図である。コンピュータ１０００は、ＣＰＵ１００１と、主記憶装置１００２と、補助記憶装置１００３と、インタフェース１００４とを備える。

上述の文集合抽出システムは、１つ以上のコンピュータ１０００に実装される。本発明に係る文集合抽出システムは、１つの装置で構成されていてもよく、２つ以上の物理的に分離した装置が有線または無線で接続されることにより構成されていてもよい。

上述した各処理部の動作は、プログラム（文集合抽出プログラム）の形式で補助記憶装置１００３に記憶されている。ＣＰＵ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、上記プログラムに従って上記処理を実行する。

なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ−ＲＯＭ（Digital Versatile Disk Read Only Memory ）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が上記プログラムを主記憶装置１００２に展開し、上記処理を実行しても良い。

また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、上記プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１４年７月２３日に出願された日本特許出願２０１４−１４９４２５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１１分析対象文入力部
１２類似文集合生成部
１３類似文集合抽出部
２２分析文集合生成部
２３類似文集合特定部

Claims

分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成部と、
分析対象文の集合から特定の分類に属する特定文を抽出可能な１つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない１つ以上の文を除外類似文集合として抽出する類似文集合抽出部とを備えた
ことを特徴とする文集合抽出システム。
類似文集合抽出部は、特定文抽出器で抽出されない文を含む１つ以上の類似文集合を纏めた新たな類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する
請求項１記載の文集合抽出システム。
類似文集合抽出部は、特定文抽出器で抽出されない文を含む類似文集合をそれぞれ特定し、特定された類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する
請求項１記載の文集合抽出システム。
類似文集合生成部は、分析対象文同士の同義または含意関係に基づいて、分析対象文の集合をクラスタリングすることにより、類似文集合を作成する
請求項１から請求項３のうちのいずれか１項に記載の文集合抽出システム。
類似文集合抽出部は、特定文抽出器を用いて抽出される文の数を類似文集合ごとに集計し、各特徴文抽出器で抽出された文の数および当該特定文抽出器で抽出されなかった文の数を類似文集合ごとに出力する
請求項１から請求項４のうちのいずれか１項に記載の文集合抽出システム。
入力される文の集合から、分析対象文を抽出する分析対象文入力部を備えた
請求項１から請求項５のうちのいずれか１項に記載の文集合抽出システム。
分析対象文の集合から特定の分類に属する特定文を抽出可能な１つ以上の特定文抽出器を用いて、当該分析対象文の集合から前記特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成部と、
前記分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定する類似文集合特定部とを備えた
ことを特徴とする文集合抽出システム。
コンピュータの類似文集合生成部が、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、
コンピュータの類似文集合抽出部が、分析対象文の集合から特定の分類に属する特定文を抽出可能な１つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない１つ以上の文を除外類似文集合として抽出する
ことを特徴とする文集合抽出方法。
コンピュータの分析文集合生成部が、分析対象文の集合から特定の分類に属する特定文を抽出可能な１つ以上の特定文抽出器を用いて、当該分析対象文の集合から前記特定文抽出器で抽出される文を除外した分析文集合を生成し、
コンピュータの類似文集合特定部が、前記分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、
前記類似文集合特定部が、含まれる文の数が所定の条件を満たす類似文集合を特定する
ことを特徴とする文集合抽出方法。
コンピュータに、
分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成処理、および、
分析対象文の集合から特定の分類に属する特定文を抽出可能な１つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない１つ以上の文を除外類似文集合として抽出する類似文集合抽出処理
を実行させるための文集合抽出プログラム。