JP6536580B2 - 文集合抽出システム、方法およびプログラム - Google Patents

文集合抽出システム、方法およびプログラム Download PDF

Info

Publication number
JP6536580B2
JP6536580B2 JP2016535794A JP2016535794A JP6536580B2 JP 6536580 B2 JP6536580 B2 JP 6536580B2 JP 2016535794 A JP2016535794 A JP 2016535794A JP 2016535794 A JP2016535794 A JP 2016535794A JP 6536580 B2 JP6536580 B2 JP 6536580B2
Authority
JP
Japan
Prior art keywords
sentence
sentences
similar
sentence set
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016535794A
Other languages
English (en)
Other versions
JPWO2016013209A1 (ja
Inventor
康高 山本
康高 山本
貴士 大西
貴士 大西
正明 土田
正明 土田
弘紀 水口
弘紀 水口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2016013209A1 publication Critical patent/JPWO2016013209A1/ja
Application granted granted Critical
Publication of JP6536580B2 publication Critical patent/JP6536580B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Description

本発明は、分析対象の文が分類される集合を抽出する文集合抽出システム、文集合抽出方法および文集合抽出プログラムに関する。
テキストマイニングは、自然言語で書かれたテキストデータを入力に、その内容の全体的な傾向を把握することや、有用な知見を発見するためのデータ分析手法である。テキストマイニングを利用することで、例えば、コールセンタの応対メモから問い合わせの内容を把握することなどが可能になる。
例えば、特許文献1には、3単語以上の関係に着目して単語間の係り受け関係ネットワーク構造を表示するテキストマイニングシステムが記載されている。特許文献1に記載されたテキストマイニングシステムは、大量のテキストデータに含まれる言語情報を分析して、単語や係り受け関係の関連性を抽出し、これらの関連性のテキストマイニング結果を視覚化して表示する。
なお、特許文献2には、テキスト間の同義や含意関係を判定し、意味が同じテキストをクラスタリングすることにより、テキストの内容を直接理解できる形式で集計する方法が記載されている。
特開2007−293685号公報 国際公開第2013/161850号
一方、大量のテキストデータの中から特定の内容を示すテキストを抽出したい場合、特許文献1に記載されたシステムを用いるよりも、その内容を抽出するための抽出器を用いることが効率的である。抽出用ルールや抽出用学習モデルを予め構築しておくことで、このような抽出器を実現可能である。
例えば、コールセンタへの問い合わせのうち、特定の要望やクレームを抽出したいとする。この場、例えば、「料金が高い」という内容や、「使い勝手が悪い」という内容に分類されるテキストを抽出する抽出器を用いることで、大量のテキストデータの中から効率的に対象のテキストを抽出することができる。
しかし、このような抽出器で抽出可能なテキストは、予め想定される分類の内容を示すテキストに限られる。すなわち、想定できない内容の抽出器を予め準備しておくことは困難なため、想定しない内容のテキストについては、見落としが発生してしまう。
例えば、上述する抽出器を利用する場合、コールセンタへの問い合わせを示すテキストデータの中から、「料金が高い」という内容や、「使い勝手が悪い」という内容を示すテキストを抽出することは可能である。しかし、このテキストデータの中に、「他社の方が良い」という内容を示すテキストが含まれていても、そのような内容を抽出する抽出器が存在しない場合には、そのテキストが見落とされてしまうことになる。
図12は、一般的な方法により特定の意見を抽出する方法の例を示す説明図である。図12は、コールセンタの事例を示している。例えば、コールセンタへの問い合わせの中から、クレームや要望を分類して抽出するとする。図12に例示するアンダーラインが付された文は、クレームまたは要望を示している。
図12に例示するように、「料金に関する不満」と「サービス内容に関する不満」の2種類の抽出器が存在するとする。この場合、「料金に関する不満」を抽出する抽出器を用いて2つの文が抽出され、「サービス内容に関する不満」を抽出する抽出器を用いて3つの文が抽出される。しかし、コールセンタへの問い合わせの中には、クレームまたは要望を示す文が他にも3つ存在するにもかかわらず、これらの文を抽出するための抽出器は存在していない。そのため、この場合、残りの3つの文は見落とされてしまうことになる。
このように、大量のテキストデータに様々な分類が含まれているような場合、分類された各テキストを網羅的かつ効率的に抽出できることが望ましい。
そこで、本発明は、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる文集合抽出システム、文集合抽出方法および文集合抽出プログラムを提供することを目的とする。
本発明による文集合抽出システムは、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成部と、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出部とを備えたことを特徴とする。
本発明による他の文集合抽出システムは、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、その分析対象文の集合から特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成部と、分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定する類似文集合特定部とを備えたことを特徴とする。
本発明による文集合抽出方法は、コンピュータの類似文集合生成部が、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、コンピュータの類似文集合抽出部が、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出することを特徴とする。
本発明による他の文集合抽出方法は、コンピュータの分析文集合生成部が、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、その分析対象文の集合から特定文抽出器で抽出される文を除外した分析文集合を生成し、コンピュータの類似文集合特定部が、分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、類似文集合特定部が、含まれる文の数が所定の条件を満たす類似文集合を特定することを特徴とする。
本発明による文集合抽出プログラムは、コンピュータに、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成処理、および、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出処理を実行させることを特徴とする。
本発明による他の文集合抽出プログラムは、コンピュータに、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、その分析対象文の集合から特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成処理、および、分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定する類似文集合特定処理を実行させることを特徴とする。
本発明によれば、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。
本発明による文集合抽出システムの第1の実施形態の構成例を示すブロック図である。 文の関係を示す説明図である。 類似文集合を生成する処理の例を示す説明図である。 抽出される文の数を表形式で表示した例を示す説明図である。 第1の実施形態の文集合抽出システムの動作例を示すフローチャートである。 本発明による文集合抽出システムの第2の実施形態の構成例を示すブロック図である。 類似文集合に含まれる文の数を表形式で表示した例を示す説明図である。 第2の実施形態の文集合抽出システムの動作例を示すフローチャートである。 本発明による文集合抽出システムの概要を示すブロック図である。 本発明による文集合抽出システムの他の概要を示すブロック図である。 コンピュータの構成概要を示すブロック図である。 一般的な方法により特定の意見を抽出する方法の例を示す説明図である。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明による文集合抽出システムの第1の実施形態の構成例を示すブロック図である。本実施形態の文集合抽出システムは、分析対象文入力部11と、類似文集合生成部12と、類似文集合抽出部13とを備えている。
本実施形態の文集合抽出システムは、文の集合のうち、分析したい内容が記載された文の集合から、分類ごとに文の集合を抽出する。なお、本実施形態で文とは、句点やピリオドなどで区切られる単位に限定されず、所定の意味を表す単語のまとまりも含む。
図2は、本発明で用いられる文の関係を示す説明図である。図2に例示するように、文の集合の中に、要望やクレームなど、分析したい内容が記載された文の集合が含まれる。以下の説明では、この文を分析対象文と記す。例えば、ユーザ等による要求を分析したい場合、この分析対象文は、各ユーザからの要求を示す要求文に該当する。
また、図2に例示するように、分析対象文の集合に含まれる各文は、その分析対象文の特性に応じて分類される。以下、分析対象文を分類した文のことを、特定文と記す。なお、分析対象文のうち、要望やクレームの内容を分類した文は、特定意見文と言うこともできる。
例えば、コールセンタのオペレータが作成するメモ等は、製品・サービスの改善に役立て得る情報である。このメモ等に含まれる文全体が、文の集合に相当し、要望やクレームを示す文が分析対象文に相当する。また、分析対象文を、「料金を安くしてほしい」、「サービス内容を充実してほしい」など、複数の項目に分けたものが特定文(特定意見文)に相当する。
分析対象文入力部11は、分析対象文を入力する。分析対象文入力部11は、記憶装置(図示せず)に記憶された分析対象文を読み取って入力してもよく、他のシステムや装置から送信される分析対象文を受信することによって入力してもよい。
また、分析対象文の代わりに、その上位である文の集合が入力された場合、分析対象文入力部11は、入力された文の集合から、分析したい内容を含む分析対象文を抽出してもよい。この場合、分析対象文入力部11は、一般的に知られた抽出器を用いて、分析対象文を抽出すればよい。
また、例えば、コールセンタのオペレータが入力する画面上にクレームや要望の入力欄が存在する場合、分析対象文入力部11は、その入力欄に入力されるテキストを分析対象文として入力してもよい。また、分析対象文入力部11は、必要に応じて、入力される分析対象文のフォーマット変換等を行ってもよい。
類似文集合生成部12は、分析対象文の集合から、類似する文をグループ化して類似文集合を作成する。類似文集合の作成方法は任意である。類似文集合生成部12は、例えば、文と文の間の類似性を、各文に含まれる単語や構文に基づいて総当たりで算出し、類似性の高い文を集約して類似文集合してもよい。また、類似文集合生成部12は、一般的なクラスタリング手法を用いて類似文集合を生成してもよい。このように分類された類似文集合に含まれる各文は、特定文に対応する。
図3は、類似文集合を生成する処理の例を示す説明図である。図3に示す例では、分析対象文入力部11がコールセンタへの問い合わせを示す10個のテキストデータの中から、分析対象文抽出処理を行い、8つの分析対象文を抽出している。
次に、類似文集合生成部12は、分析対象文の集合から類似文集合を作成する。図3に示す例では、類似文集計結果に示す各行が、類似文集合に対応する。図3に示す例では、同じ出来事を示す「料金が高い」、「値段が高い」という特定文が同じ類似文集合に属し、同様に、「UIが悪い」、「使い勝手が悪い」という特定文が同じ類似文集合に属している。
なお、分析対象文を分類した類似文集合は、分類された内容が分かるように、意味的なまとまり(同じ概念)があることが望ましい。そのため、類似文集合生成部12は、分析対象文の集合から意味的に類似する文をグループ化して類似文集合を生成することが望ましい。意味的に類似する文をグループ化する方法として、同義または含意関係に基づいてクラスタリングする方法が知られている。類似文集合生成部12は、例えば、特許文献2に記載されているような方法を用いて、分析対象文の集合から類似文集合を生成してもよい。同義または含意関係に基づいてクラスタリングすることにより、類似文集合の内容を直接理解できる形で集計できる。
また、類似文集合生成部12は、類似文集合の内容を示す文(以下、代表文と記す。)を特定してもよい。例えば、含意認識技術を用いて類似文集合を生成する場合、類似文集合生成部12は、その類似文集合に含まれる多数の文が含意する内容を示すテキストを代表文に特定してもよい。また、例えば、一般的なクラスタリング手法を用いて類似文集合を生成する場合、類似文集合生成部12は、クラスタ中心のテキストを代表文に特定してもよい。
類似文集合抽出部13は、分析対象文の集合から特定文を抽出可能な抽出器(以下、特定文抽出器と記す。)を用いて、類似文集合に属する文の中から、特定文抽出器で抽出されない文を特定する。
特定文抽出器は、抽出の対象に応じて予め準備される。特定文抽出器は、分析対象文の集合から所望の内容を示す特定文を抽出できるものであれば、その態様は任意である。類似文集合抽出部13は、例えば、所望の内容を示す単語を含む正規表現に一致するテキストを抽出する特定文抽出器を利用してもよい。ただし、特定文抽出器が特定文を抽出するために用いる方法は、正規表現に限定されず、例えば、抽出用ルールや抽出用学習モデルに基づいて特定文を抽出する方法が用いられてもよい。
具体的には、類似文集合抽出部13は、1つ以上の特定文抽出器を用いて、類似文集合ごとに特定文を抽出する。このとき、類似文集合抽出部13は、各類似文集合から抽出された特定文の数を、特定文抽出器ごとに集計してもよい。そして、類似文集合抽出部13は、特定文抽出器によって抽出されなかった文を類似文集合ごとに特定する。類似文集合抽出部13は、例えば、特定文抽出器によって抽出された特定文を類似文集合全体から除外することによって、抽出されなかった文を特定してもよい。
次に、類似文集合抽出部13は、抽出されなかった文の数を類似文集合ごとに集計する。そして、類似文集合抽出部13は、類似文集合に属する文の中から特定文抽出器で抽出されない1つ以上の文を類似文集合として抽出する。このとき、類似文集合抽出部13は、抽出された特定文の数に応じて類似文集合を抽出する。具体的には、類似文集合抽出部13は、特定された類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する。
類似文集合抽出部13は、例えば、特定された文の数が予め定めた閾値以上である類似文集合を抽出してもよい。また、類似文集合抽出部13は、例えば、「特定文抽出器で抽出される文の数」と「特定文抽出器で抽出されなかった文の数」との比率に応じて閾値を決定し、特定された文の数が決定された閾値以上である類似文集合を抽出してもよい。具体的には、閾値は、「特定文抽出器で抽出されなかった文の数」が「特定文抽出器で抽出される文の数」に対して多いほど低く設定される。
このようにして抽出される類似文集合の分類は、分析対象文に含まれる多くの文が属する分類にも関わらず、属する文を個別に抽出するための抽出器が存在しない分類と言える。したがって、この類似文集合に属する文を抽出するための抽出器を別途作成することにより、分析対象文から、効率よく特定文を抽出できるようになり、かつ、分析対象文から抽出される分類の網羅性も高めることができる。
また、抽出される類似文集合は、抽出器を生成するための学習データとして利用することが可能である。このように、本実施形態では、類似文集合抽出部13が類似文集合を抽出することにより、個々に抽出器を生成すべき対象の類似文集合を特定でき、さらに、その抽出器を生成するための学習データも効率的に収集できる。
また、類似文集合抽出部13は、特定文抽出器を用いて抽出される文の数を類似文集合ごとに集計し、表形式で表示してもよい。図4は、抽出される文の数を表形式で表示した例を示す説明図である。図4に例示する表では、表側に類似文集合を設定し、表頭に抽出に用いた特定文抽出器の内容を設定している。また、表の一番右の列は、特定文抽出器で抽出されなかった文の数を示している。
図4に示す例の場合、例えば、「料金が高い、値段が高い」という内容を示す類似文集合に含まれる文は、「料金に関する不満」を抽出する特定文抽出器を用いて30件抽出され、「サービス内容に関する不満」を抽出する特定文抽出器を用いて5件抽出されたことを示す。また、図4に示す例の場合、「料金が高い、値段が高い」という内容を示す類似文集合に含まれる文のうち、この2つの抽出器を用いて抽出されない文の件数が0件であったことを示す。
一方、「他社の方が特典が良い、他社の方が良い」という内容を示す類似文集合に含まれる文は、「料金に関する不満」を抽出する特定文抽出器を用いて5件抽出され、「サービス内容に関する不満」を抽出する特定文抽出器を用いて5件抽出されたことを示す。また、「他社の方が特典が良い、他社の方が良い」という内容を示す類似文集合に含まれる文のうち、この2つの抽出器を用いて抽出されない文の件数が30件だったことを示す。
この表から、「他社の方が特典が良い、他社の方が良い」という内容を示す文が分析対象文に多く含まれているにもかかわらず、このような文を適切に抽出する抽出器が存在しないことが分かる。この結果をもとに、管理者等は、「他社の方が特典が良い、他社の方が良い」という内容を抽出するための抽出器を作成すればよい。
図4に示す例の場合、例えば、抽出されない文の数の閾値を20に設定することで、類似文集合抽出部13は、「他社の方が特典が良い、他社の方が良い」、「自分の端末で使えない」という2つの類似文集合を抽出できる。
なお、類似文集合抽出部13が類似文集合を抽出するために用いられる条件は、1つの類似文集合に含まれる文の数に限定されない。類似文集合抽出部13は、特定された複数の類似文集合を結合した新たな類似文集合に含まれる文の数を、類似文集合を抽出するための条件に用いてもよい。
すなわち、類似文集合抽出部13は、特定文抽出器で抽出されない文を含む1つ以上の類似文集合が結合された(纏められた)新たな類似文集合に含まれる文の数が所定の条件(比率や件数)を満たす類似文集合を抽出してもよい。
例えば、類似文集合生成部12がそれぞれ別の集合として生成した類似文集合であっても、抽出器を生成する際、類似する文を含む類似文集合をまとめて抽出可能な抽出器を生成したいと考える場合が想定される。ここで、以下の2つの類似文集合を想定する。
含意による類似文集合1:「動画がかくかくする、動画の描画が遅い」
含意による類似文集合2:「待ち時間が長い、画面切り替えで待たされる」
類似文集合生成部12が、この2つの類似文集合をそれぞれ別に生成したとする。一方、この2つの類似文集合の両方に含まれる文を抽出するための抽出器として、「描画速度への要求」という抽出器を生成することが考えられる。そこで、類似文集合生成部12は、複数の類似文集合を結合した新たな類似文集合を対象に、抽出の有無を判断してもよい。
複数の類似文集合を結合する方法は任意である。類似文集合生成部12は、例えば、ユーザによって指定された複数の類似文集合を結合してもよい。また、類似文集合生成部12は、類似文集合同士の類似度を判断する任意の方法を用いて、類似すると判定された類似文集合同士を結合してもよい。
このとき、類似文集合生成部12は、上述する方法と同様に、類似文集合に含まれる文の数や、特定文抽出器で抽出された文と抽出されなかった文の比率に応じて類似文集合を抽出してもよい。また、類似文集合生成部12は、結合したそれぞれの類似文集合に含まれる文の数をそのまま用いずに、結合した類似文集合同士の類似度に応じて算出される値を閾値と比較するようにしてもよい。類似文集合生成部12は、例えば、結合した2つの類似文集合に含まれる文の数を加算又は乗算し、さらに類似度を乗じた値が所定の閾値を超える場合に、結合して生成された新たな類似文集合を抽出してもよい。
分析対象文入力部11と、類似文集合生成部12と、類似文集合抽出部13とは、プログラム(文集合抽出プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、文集合抽出システムを実現する情報処理装置が備える記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、分析対象文入力部11、類似文集合生成部12および類似文集合抽出部13として動作してもよい。また、分析対象文入力部11と、類似文集合生成部12と、類似文集合抽出部13とは、それぞれが専用のハードウェアで実現されていてもよい。
次に、本実施形態の文集合抽出システムの動作を説明する。図5は、本実施形態の文集合抽出システムの動作例を示すフローチャートである。
分析対象文入力部11は、分析対象文を入力する(ステップS11)。類似文集合生成部12は、入力された分析対象文の集合から、意味内容が類似する文をグループ化して類似文集合を作成する(ステップS12)。類似文集合抽出部13は、類似文集合に属する文の中から特定文抽出器で抽出されない文を特定し(ステップS13)、類似文集合ごとに特定された文の数を集計する(ステップS14)。そして、類似文集合抽出部13は、特定された文の数が所定の条件を満たす類似文集合を抽出する(ステップS15)。
以上のように、本実施形態では、類似文集合生成部12が、分析対象文の集合から、類似する文をグループ化して類似文集合を作成し、類似文集合抽出部13が、1つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない1つ以上の文を類似文集合として抽出する。
そのような構成により、抽出器を作成すべき類似文集合が特定できるため、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。
実施形態2.
図6は、本発明による文集合抽出システムの第2の実施形態の構成例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態の文集合抽出システムは、分析対象文入力部11と、分析文集合生成部22と、類似文集合特定部23とを備えている。
すなわち、本実施形態の文集合抽出システムは、第1の実施形態における類似文集合生成部12と類似文集合抽出部13の代わりに、分析文集合生成部22と類似文集合特定部23を備えている。
分析文集合生成部22は、分析対象文の集合から、特定文抽出器で抽出される文を除外した集合(以下、分析文集合と記す。)を生成する。分析文集合生成部22が用いる特定文抽出器の内容は、第1の実施形態で類似文集合抽出部13が用いる特定文抽出器と同様である。
具体的には、分析文集合生成部22は、1つ以上の特定文抽出器を用いて、分析文対象文から特定文を抽出し、抽出した特定文を分析対象文から除外することで、分析文集合を生成する。
類似文集合特定部23は、生成された分析文集合から、類似する文をグループ化して類似文集合を作成する。この類似文集合の作成方法は、第1の実施形態の類似文集合生成部12が類似文集合を作成する方法と同様である。そして、類似文集合特定部23は、各類似文集合に含まれる文の数を集計し、その類似文集合に含まれる文の数が所定の条件を満たす類似文集合を特定する。具体的には、類似文集合特定部23は、類似文集合に含まれる文の数が予め定めた閾値以上である類似文集合を特定してもよく、第1の実施形態の類似文集合抽出部13が用いる比率を閾値と比較して類似文集合を特定してもよい。
このようにして特定される類似文集合の分類も、第1の実施形態と同様に、分析対象文に含まれる多くの文が属する分類にも関わらず、属する文を個別に抽出するための抽出器が存在しない分類と言える。したがって、この類似文集合に属する文を抽出するための抽出器を別途作成することにより、分析対象文から、効率よく特定文を抽出できるようになり、分析対象文から抽出される分類の網羅性も高めることができる。
また、類似文集合特定部23は、各類似文集合に含まれる文の数を表形式で表示してもよい。図7は、抽出される類似文集合に含まれる文の数を表形式で表示した例を示す説明図である。なお、図7に例示する各類似文集合に含まれる文の数は、図4において、特定文抽出器で抽出されなかった文の数に対応する。
分析対象文入力部11と、分析文集合生成部22と、類似文集合特定部23とは、プログラム(文集合抽出プログラム)に従って動作するコンピュータのCPUによって実現される。また、分析対象文入力部11と、分析文集合生成部22と、類似文集合特定部23とは、それぞれが専用のハードウェアで実現されていてもよい。
次に、本実施形態の文集合抽出システムの動作を説明する。図8は、本実施形態の文集合抽出システムの動作例を示すフローチャートである。
分析対象文入力部11は、分析対象文を入力する(ステップS11)。分析文集合生成部22は、特定文抽出器で抽出される文を分析対象文の集合から除外した分析文集合を生成する(ステップS22)。類似文集合特定部23は、分析文集合から、意味内容が類似する文をグループ化して類似文集合を作成する(ステップS23)。類似文集合特定部23は、各類似文集合に含まれる文の数を集計し(ステップS24)、類似文集合に含まれる文の数が所定の条件を満たす類似文集合を特定する(ステップS25)。
以上のように、本実施形態では、分析文集合生成部22が、分析対象文の集合から1つ以上の特定文抽出器で抽出される文を除外した分析文集合を生成し、類似文集合特定部23が、分析文集合から、類似する文をグループ化して類似文集合を作成する。そして、類似文集合特定部23が、含まれる文の数が所定の条件を満たす類似文集合を特定する。
そのような構成によっても、第1の実施形態と同様に、抽出器を作成すべき類似文集合が特定できるため、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。
なお、第2の実施形態の文集合抽出システムでは、類似文集合を作成する前に、特定文抽出器で抽出される文を除外するため、類似文集合を作成する対象の文を削減できるため、第1の実施形態の文集合抽出システムと比較すると、より処理時間を短くできる。
一方、第1の実施形態の文集合抽出システムでは、特定文抽出器で抽出される文を除外する前に、各特定文抽出器で抽出される文を特定できる。そのため、第2の実施形態の文集合抽出システムと比較すると、複数の特定文抽出器で抽出される文の数も特定することが可能になる。
次に、本発明の概要を説明する。図9は、本発明による文集合抽出システムの概要を示すブロック図である。本発明による文集合抽出システムは、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合(例えば、特定文の集合)を作成する類似文集合生成部81(例えば、類似文集合生成部12)と、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出部82(例えば、類似文集合抽出部13)とを備えている。
そのような構成により、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。
具体的には、類似文集合抽出部82は、特定文抽出器で抽出されない文を含む1つ以上の類似文集合を纏めた新たな類似文集合に含まれる文の数が所定の条件(例えば、文の数、比率などが所定の閾値以上)を満たす類似文集合を抽出してもよい。また、類似文集合抽出部82は、特定文抽出器で抽出されない文を含む類似文集合をそれぞれ特定し、特定された類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出してもよい。
また、類似文集合生成部81は、分析対象文同士の同義または含意関係に基づいて、分析対象文の集合をクラスタリングすることにより、類似文集合を作成してもよい。そのような構成により、類似文集合の内容を直接理解できる形で集計できる。よって、新たに生成しようとする抽出器で抽出される内容も、理解しやすい内容に分類できる。
また、類似文集合抽出部82は、特定文抽出器を用いて抽出される文の数を類似文集合ごとに集計し、各特徴文抽出器で抽出された文の数および特定文抽出器で抽出されなかった文の数を類似文集合ごとに出力してもよい。そのようにすることで、現在利用している特定文抽出器の抽出状況や、新たに特定文抽出器の作成が必要な類似文集合の把握が容易になる。
また、文集合抽出システムは、入力される文の集合から、分析対象文を抽出する分析対象文入力部(例えば、分析対象文入力部11)を備えていてもよい。そのような構成によれば、抽出器を作成する対象以外の情報を事前に除外できるため、精度の良い特定文抽出器を生成することが可能になる。
図10は、本発明による文集合抽出システムの他の概要を示すブロック図である。本発明による他の文集合抽出システムは、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、その分析対象文の集合から特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成部91(例えば、分析文集合生成部22)と、分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす(例えば、予め定めた閾値以上である)類似文集合を特定する類似文集合特定部92(例えば、類似文集合特定部23)とを備えている。
そのような構成であっても、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。
また、類似文集合特定部92は、分析対象文同士の同義または含意関係に基づいて、分析文集合をクラスタリングすることにより、類似文集合を作成してもよい。そのような構成によっても、類似文集合の内容を直接理解できる形で集計できる。よって、新たに生成しようとする抽出器で抽出される内容も、理解しやすい内容に分類できる。
図11は、コンピュータの構成概要を示すブロック図である。コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004とを備える。
上述の文集合抽出システムは、1つ以上のコンピュータ1000に実装される。本発明に係る文集合抽出システムは、1つの装置で構成されていてもよく、2つ以上の物理的に分離した装置が有線または無線で接続されることにより構成されていてもよい。
上述した各処理部の動作は、プログラム(文集合抽出プログラム)の形式で補助記憶装置1003に記憶されている。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、上記プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD−ROM(Compact Disc Read Only Memory)、DVD−ROM(Digital Versatile Disk Read Only Memory )、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が上記プログラムを主記憶装置1002に展開し、上記処理を実行しても良い。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、上記プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2014年7月23日に出願された日本特許出願2014−149425を基礎とする優先権を主張し、その開示の全てをここに取り込む。
11 分析対象文入力部
12 類似文集合生成部
13 類似文集合抽出部
22 分析文集合生成部
23 類似文集合特定部

Claims (10)

  1. 分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成部と、
    分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出部とを備えた
    ことを特徴とする文集合抽出システム。
  2. 類似文集合抽出部は、特定文抽出器で抽出されない文を含む1つ以上の類似文集合を纏めた新たな類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する
    請求項1記載の文集合抽出システム。
  3. 類似文集合抽出部は、特定文抽出器で抽出されない文を含む類似文集合をそれぞれ特定し、特定された類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する
    請求項1記載の文集合抽出システム。
  4. 類似文集合生成部は、分析対象文同士の同義または含意関係に基づいて、分析対象文の集合をクラスタリングすることにより、類似文集合を作成する
    請求項1から請求項3のうちのいずれか1項に記載の文集合抽出システム。
  5. 類似文集合抽出部は、特定文抽出器を用いて抽出される文の数を類似文集合ごとに集計し、各特徴文抽出器で抽出された文の数および当該特定文抽出器で抽出されなかった文の数を類似文集合ごとに出力する
    請求項1から請求項4のうちのいずれか1項に記載の文集合抽出システム。
  6. 入力される文の集合から、分析対象文を抽出する分析対象文入力部を備えた
    請求項1から請求項5のうちのいずれか1項に記載の文集合抽出システム。
  7. 分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、当該分析対象文の集合から前記特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成部と、
    前記分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定する類似文集合特定部とを備えた
    ことを特徴とする文集合抽出システム。
  8. コンピュータの類似文集合生成部が、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、
    コンピュータの類似文集合抽出部が、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する
    ことを特徴とする文集合抽出方法。
  9. コンピュータの分析文集合生成部が、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、当該分析対象文の集合から前記特定文抽出器で抽出される文を除外した分析文集合を生成し、
    コンピュータの類似文集合特定部が、前記分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、
    前記類似文集合特定部が、含まれる文の数が所定の条件を満たす類似文集合を特定する
    ことを特徴とする文集合抽出方法。
  10. コンピュータに、
    分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成処理、および、
    分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出処理
    を実行させるための文集合抽出プログラム。
JP2016535794A 2014-07-23 2015-07-21 文集合抽出システム、方法およびプログラム Active JP6536580B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014149425 2014-07-23
JP2014149425 2014-07-23
PCT/JP2015/003652 WO2016013209A1 (ja) 2014-07-23 2015-07-21 文集合抽出システム、方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2016013209A1 JPWO2016013209A1 (ja) 2017-04-27
JP6536580B2 true JP6536580B2 (ja) 2019-07-03

Family

ID=55162753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016535794A Active JP6536580B2 (ja) 2014-07-23 2015-07-21 文集合抽出システム、方法およびプログラム

Country Status (3)

Country Link
US (1) US20170220585A1 (ja)
JP (1) JP6536580B2 (ja)
WO (1) WO2016013209A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11783005B2 (en) 2019-04-26 2023-10-10 Bank Of America Corporation Classifying and mapping sentences using machine learning
US11328025B1 (en) 2019-04-26 2022-05-10 Bank Of America Corporation Validating mappings between documents using machine learning

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141132A (ja) * 2001-10-30 2003-05-16 Nippon Yunishisu Kk 情報処理装置およびその方法
JP4745419B2 (ja) * 2009-05-15 2011-08-10 株式会社東芝 文書分類装置およびプログラム
JP5389130B2 (ja) * 2011-09-15 2014-01-15 株式会社東芝 文書分類装置、方法およびプログラム

Also Published As

Publication number Publication date
JPWO2016013209A1 (ja) 2017-04-27
WO2016013209A1 (ja) 2016-01-28
US20170220585A1 (en) 2017-08-03

Similar Documents

Publication Publication Date Title
US10108698B2 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
JP6536580B2 (ja) 文集合抽出システム、方法およびプログラム
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP6191440B2 (ja) スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法
JP5838871B2 (ja) データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム
JP5757551B2 (ja) 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
JPWO2014064777A1 (ja) 文書評価支援システム、及び文書評価支援方法
JPWO2016147219A1 (ja) テキスト可視化システム、テキスト可視化方法、及び、プログラム
JP6642429B2 (ja) テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
JP6008067B2 (ja) テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
JP5162215B2 (ja) データ処理装置、データ処理方法、および、プログラム
JP6190341B2 (ja) データ生成装置、データ生成方法、及びプログラム
MX2022014972A (es) Sistema de busqueda de informacion.
JP5389764B2 (ja) マイクロブログテキスト分類装置及び方法及びプログラム
JP5642229B2 (ja) 重要性判定システム、重要性判定方法及びコンピュータプログラム
CN113656443B (zh) 数据拆解方法、装置、电子设备和存储介质
JP5761033B2 (ja) 文書分析装置、文書分析方法、およびプログラム
US11783112B1 (en) Framework agnostic summarization of multi-channel communication
JP4750674B2 (ja) データ表示制御プログラム、データ表示制御方法およびデータ表示制御装置
JP5324500B2 (ja) ファイル共有装置
JP6934621B2 (ja) 方法、装置、及びプログラム
KR20230000421A (ko) 특허 문헌을 이용한 신 기술요소 추출 방법 및 장치와 이를 이용한 신 기술요소 추출 시스템
JP6476638B2 (ja) 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190319

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190520

R150 Certificate of patent or registration of utility model

Ref document number: 6536580

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150