JP6763454B2 - テキスト監視システム、テキスト監視方法、及び、プログラム - Google Patents

テキスト監視システム、テキスト監視方法、及び、プログラム Download PDF

Info

Publication number
JP6763454B2
JP6763454B2 JP2019088031A JP2019088031A JP6763454B2 JP 6763454 B2 JP6763454 B2 JP 6763454B2 JP 2019088031 A JP2019088031 A JP 2019088031A JP 2019088031 A JP2019088031 A JP 2019088031A JP 6763454 B2 JP6763454 B2 JP 6763454B2
Authority
JP
Japan
Prior art keywords
text
texts
representative
monitoring
notification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019088031A
Other languages
English (en)
Other versions
JP2019164816A (ja
Inventor
康高 山本
康高 山本
貴士 大西
貴士 大西
享 赤峯
享 赤峯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2019088031A priority Critical patent/JP6763454B2/ja
Publication of JP2019164816A publication Critical patent/JP2019164816A/ja
Priority to JP2020149529A priority patent/JP6954426B2/ja
Application granted granted Critical
Publication of JP6763454B2 publication Critical patent/JP6763454B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、テキスト監視システム、テキスト監視方法、及び、記録媒体に関し、特に、テキストを用いて監視を行うテキスト監視システム、テキスト監視方法、及び、記録媒体に関する。
収集したテキストから、製品に対する不具合報告や、クレーム等の事象の発生を監視する技術として、特定のキーワードを含むテキストの数を監視する方法が知られている。例えば、特許文献1には、収集した文書から、風評規則に従って、風評表現を抽出する技術が開示されている。特定のキーワードを含むテキストの監視では、予め、監視対象の事象のキーワードを定義する必要がある。
キーワードの定義が不要な監視技術として、例えば、テキスト間のキーワードの共有度合いをもとに、テキストをクラスタに分類し、各クラスタに分類されたテキストの数を監視する方法が考えられる。
しかしながら、一般に、監視対象のテキストには、複数の観点が混在していることがある。このため、キーワードの共有度合いをもとにテキストの分類を行っても、観点の見落とし、或いは、異なる観点のテキストの同じクラスタへの分類等により、各クラスタの観点が不明確になることがある。したがって、キーワードの共有度合いをもとに生成されたクラスタを用いてテキストの監視をした場合、事象の検出精度が低いことがある。
図25は、キーワードの共有度合いをもとにしたクラスタリング結果の例を示す図である。図25のテキストは、自動車の不具合に係るテキストである。これらのテキストは、「不具合」、「発進」、「周辺」等のキーワードを共有しているため、同じクラスタに分類される。しかしながら、このクラスタに分類されるテキストの数が増加したときにアラートが通知されても、クラスタ内に含まれるテキストは同じ事象に係るテキストではないため、ユーザは、どのような事象が増加したかを正確に把握できない。
なお、関連技術として、非特許文献1には、テキスト間の含意関係を抽出し、含意関係があるテキストを同じクラスタに分類する、含意クラスタリング技術が開示されている。また、特許文献2には、テキスト間の含意関係をもとに、含意関係を表す含意グラフを生成する技術が開示されている。特許文献3には、対話テキストの集合から発話を抽出し、含意関係がある発話を発話クラスタとして抽出する技術が開示されている。
特開2003−271609号公報 特許第5494999号公報 特開2013−190991号公報
「NEC、大量の文書データを同じ意味で自動グループ化する技術を開発」、[online]、日本電気株式会社、[平成27年2月9日検索]、インターネット<URL:http://jpn.nec.com/press/201411/20141118_02.html>
上述のように、キーワードの共有度合いをもとに生成されたクラスタを用いて事象の監視を行った場合、事象の検出精度が低いという技術課題があった。
本発明の目的は、上述の技術課題を解決し、テキストを用いた監視において、事象の検出精度を向上できる、テキスト監視システム、テキスト監視方法、及び、記録媒体を提供することである。
本発明の一態様における分析支援システムは、第1のテキストを取得するテキスト取得手段と、第2のテキストの指定を受け付ける受付手段と、前記取得した第1のテキストのうち、前記指定を受け付けた第2のテキストを含意する第1のテキストの数が所定の条件を満たす場合に、通知を行う通知手段と、を備え、前記第2のテキストと、前記第2のテキストを含意する前記第1のテキストとの関係は、前記第1のテキストの内容が真であるならば前記第2のテキストの内容が真である、ことを示す。
本発明の一態様における分析支援方法は、コンピュータに具備されたテキスト取得手段が、第1のテキストを取得し、前記コンピュータに具備された受付手段が、第2のテキストの指定を受け付け、前記コンピュータに具備された通知手段が、前記取得した第1のテキストのうち、前記指定を受け付けた第2のテキストを含意する第1のテキストの数が所定の条件を満たす場合に、通知を行う分析支援方法であって、前記第2のテキストと、前記第2のテキストを含意する前記第1のテキストとの関係は、前記第1のテキストの内容が真であるならば前記第2のテキストの内容が真である、ことを示す。
本発明の一態様におけるプログラムは、コンピュータに、第1のテキストを取得し、第2のテキストの指定を受け付け、前記取得した第1のテキストのうち、前記指定を受け付けた第2のテキストを含意する第1のテキストの数が所定の条件を満たす場合に、通知を行う処理を実行させるプログラムであって、前記第2のテキストと、前記第2のテキストを含意する前記第1のテキストとの関係は、前記第1のテキストの内容が真であるならば前記第2のテキストの内容が真である、ことを示す。
本発明の技術効果は、テキストを用いた監視において、事象の検出精度を向上できることである。
本発明の第1の実施の形態の基本的な構成を示すブロック図である。 本発明の第1の実施の形態における、監視システム1の構成を示すブロック図である。 本発明の第1の実施の形態における、コンピュータにより実現された監視システム1の構成を示すブロック図である。 本発明の第1の実施の形態における、監視システム1の動作を示すフローチャートである。 本発明の第1の実施の形態における、テキストデータの例を示す図である。 本発明の第1の実施の形態における、含意関係の抽出結果の例を示す図である。 本発明の第1の実施の形態における、代表テキスト情報の例を示す図である。 本発明の第1の実施の形態における、各代表テキストを含意するテキストの数の例である。 本発明の第1の実施の形態における、通知画面90の例を示す図である。 本発明の第1の実施の形態における、監視期間毎の、各代表テキストを含意するテキストの数の他の例である。 本発明の第2の実施の形態における、監視システム1の構成を示すブロック図である。 本発明の第2の実施の形態における、テキストデータの例を示す図である。 本発明の第2の実施の形態における、含意関係の抽出結果の例を示す図である。 本発明の第2の実施の形態における、代表テキスト情報の例を示す図である。 本発明の第2の実施の形態における、対象種別情報の例を示す図である。 本発明の第2の実施の形態における、各種別の代表テキストを含意するテキストの数の合計の例である。 本発明の第2の実施の形態における、通知画面100の例を示す図である。 本発明の第3の実施の形態における、監視システム1の動作を示すフローチャートである。 本発明の第3の実施の形態における、テキストデータの例を示す図である。 本発明の第3の実施の形態における、含意関係の抽出結果の例を示す図である。 本発明の第3の実施の形態における、代表テキスト情報の例を示す図である。 本発明の第3の実施の形態における、各代表テキストを含意するテキストの数の例である。 本発明の第3の実施の形態における、比較画面110の例を示す図である。 本発明の実施の形態における、代表テキストと要素テキストの関係の例を示す図である。 キーワードの共有度合いをもとにしたクラスタリング結果の例を示す図である。
はじめに、本発明の実施の形態で用いるテキストのクラスタリング手法である、含意クラスタリングについて説明する。含意クラスタリングでは、非特許文献1に記載されているように、テキスト間の意味の関係である、含意関係をもとにクラスタリングを行う。本発明の実施の形態では、含意関係を、特許文献2と同様に、次のように定義する。すなわち、第1のテキストの内容が真であるならば第2のテキストの内容が真である場合、第1のテキストが第2のテキストを含意(entailment)すると定義する。また、第1のテキストの内容から第2のテキストの内容が読み取れる場合、第1のテキストが第2のテキストを含意すると定義してもよい。含意クラスタリングを用いることにより、分析対象のテキストに含まれる観点をもれなく、かつ、クラスタ内のテキストが共通に含意し、クラスタの概要を表す代表テキストとともに抽出できる。
含意関係の理解を容易にするため、具体例を用いて説明する、
<具体例1>
第1のテキスト:オバマ大統領はホワイトハウスに住んでいる。
第2のテキスト:オバマ大統領はアメリカに住んでいる。
この場合、第1のテキストの内容が真であるならば第2のテキストの内容が真であるので、第1のテキストが第2のテキストを含意するといえる。
<具体例2>
第1のテキスト:犬養毅首相は海軍将校らに暗殺された。
第2のテキスト:犬養毅首相は亡くなった
この場合、第1のテキストの内容が真であるならば第2のテキストの内容が真であるので、第1のテキストが第2のテキストを含意するといえる。
ここで、「代表テキスト」と「要素テキスト」を定義する。テキストの集合に対して含意クラスタリング処理を実行すると、代表テキストと要素テキストとが決定される。代表テキストと要素テキストとの関係は、要素テキストの内容が真であるならば代表テキストの内容が真である、という関係である。すなわち、代表テキストと要素テキストとの関係は、要素テキストは代表テキストを含意するという関係である。
図24は、本発明の実施の形態における、代表テキストと要素テキストの関係の例を示す図である。代表テキストと要素テキストの理解を容易にするため、図24を用いて説明する。図24は、T1からT11までの11個のテキストについて、含意クラスタリング処理を実行した様子を示す。図24における円形のシンボルは一つのテキストを示す。図24における矢印は、矢印の元のテキストが矢印の先のテキストを含意することを示す。図24において、テキストT6、T7、T11が、テキストT1を含意している。同様に、テキストT2、T3、T7、T10が、テキストT5を含意しており、テキストT2、T4、T7、T8が、テキストT9を含意している。このとき、テキストT6、T7、T11は、代表テキストT1の要素テキストである。同様に、テキストT2、T3、T7、T10は、代表テキストT5の要素テキストである。同様に、テキストT2、T4、T7、T8は、代表テキストT9の要素テキストである。
ここで、代表テキスト自身が要素テキストとして扱われてもよい。例えば、テキストT1、T6、T7、T11が代表テキストT1の要素テキストでもよい。
(第1の実施の形態)
本発明の第1の実施の形態について説明する。
はじめに、本発明の第1の実施の形態の構成を説明する。
図2は、本発明の第1の実施の形態における、監視システム1の構成を示すブロック図である。
図2を参照すると、本発明の第1の実施の形態における監視システム1は、テキスト取得部10、テキスト記憶部20、含意関係抽出部30、代表テキスト抽出部40、代表テキスト記憶部50、判定部60、監視部70、及び、表示制御部80を含む。監視システム1は、本発明のテキスト監視システムの一実施形態である。
テキスト取得部10は、監視対象のテキストを取得する。
テキスト記憶部20は、テキスト取得部10が取得したテキストを示すテキストデータを記憶する。
図5は、本発明の第1の実施の形態における、テキストデータの例を示す図である。図5の例は、監視対象のテキストが、自動車の不具合報告における「現象」に係る、自然言語のテキストの場合の例である。テキストデータは、テキストの取得日時、及び、テキストを含む。なお、テキストの前の括弧内の符号は、テキストの識別子を示す。
監視対象のテキストは、例えば、文書(不具合報告書等)から抽出される。この場合、テキストは、例えば、所定の形式に従って、複数のカテゴリ(不具合の現象、原因、対策等)毎に記載された文書中の、監視対象のカテゴリ(現象)に対する記載を取得することにより抽出される。また、テキストは、自由形式で記述された文書から、監視対象のカテゴリに係る記載部分を特定することにより抽出されてもよい。また、テキストは、例えば、コールセンタ等における会話を音声認識することにより生成した、コールログから抽出されてもよい。また、テキストは、口コミサイトや、ブログ、SNS(ソーシャルネットワーキングサービス)から抽出されてもよい。
含意関係抽出部30は、監視対象のテキストの内、含意関係抽出対象のテキスト(以下、抽出対象テキストとも記載する)を用いて、含意関係を抽出する。ここで、抽出対象テキストとして、例えば、複数の所定の長さの監視期間(定期的な監視期間)の内の最初の監視期間等、特定の監視期間の全テキストや、特定の監視期間の一部(所定数や所定の部分期間)のテキストが用いられる。
代表テキスト抽出部40は、抽出された含意関係から代表テキストを抽出し、代表テキスト、及び、代表テキストを含意する要素テキストが設定されたクラスタを生成する。
代表テキスト記憶部50は、代表テキスト抽出部40が生成したクラスタに係る情報を示す代表テキスト情報を記憶する。
判定部60は、監視期間毎に、新たに取得された(テキストデータに追加された)各テキストが、各代表テキストを含意するか(各クラスタに属するか)どうかを判定する。
監視部70は、監視期間毎に、各代表テキストを含意するテキストの数を監視し、監視結果を、表示制御部80を介して出力する。本発明の第1の実施の形態では、監視結果の出力として、代表テキストを含意するテキストの数が所定の通知条件を満たした場合に、通知を行う。ここで、通知条件として、例えば、テキストの数に係る下限の閾値(テキストの数が閾値以上であれば通知)が用いられる。
表示制御部80は、監視結果(通知内容)を表示するための通知画面90を生成し、ユーザ等に表示する。
なお、監視システム1は、CPU(Central Processing Unit)とプログラムを記憶した記憶媒体を含み、プログラムにもとづく制御によって動作するコンピュータであってもよい。
図3は、本発明の第1の実施の形態における、コンピュータにより実現された監視システム1の構成を示すブロック図である。
監視システム1は、CPU2、ハードディスクやメモリ等の記憶デバイス3(記憶媒体)、他の装置等と通信を行う通信デバイス4、マウスやキーボード等の入力デバイス5、及び、ディスプレイ等の出力デバイス6を含む。
CPU2は、テキスト取得部10、含意関係抽出部30、代表テキスト抽出部40、判定部60、監視部70、及び、表示制御部80の機能を実現するためのコンピュータプログラムを実行する。記憶デバイス3は、テキスト記憶部20、及び、代表テキスト記憶部50のデータを記憶する。出力デバイス6は、ユーザ等へ、通知画面90を出力する。入力デバイス5は、ユーザ等から、例えば、通知条件等の指定を受け付ける。また、通信デバイス4が、他の装置等へ通知画面90を出力してもよい。
また、図2に示された監視システム1の各構成要素は、独立した論理回路でもよい。
また、図2に示された監視システム1の各構成要素は、有線または無線で接続された複数の物理的な装置に分散的に配置されていてもよい。
次に、本発明の第1の実施の形態の動作を説明する。
ここでは、テキスト取得部10が、例えば、図示しない記憶部等に定期的にアクセスすることにより、不具合報告に係る文書から監視対象のテキストを抽出し、図5のようなテキストデータを、テキスト記憶部20に保存していると仮定する。
また、テキストの監視は監視期間(1ヶ月)毎に行われると仮定する。さらに、含意関係抽出対象のテキスト(抽出対象テキスト)は、最初の監視期間のテキストの内の、先頭の所定数のテキストであると仮定する。
図4は、本発明の第1の実施の形態における、監視システム1の動作を示すフローチャートである。
はじめに、含意関係抽出部30は、最初の監視期間において、テキスト記憶部20に保存されている、抽出対象テキスト間の含意関係を抽出する(ステップS101)。
ここで、含意関係抽出部30は、例えば、特許文献2と同様の判定処理を行うことにより、テキスト間の含意関係を抽出する。この場合、含意関係抽出部30は、テキストに含まれる内容語を比較し、被覆率を算出することにより、含意関係の有無を判定する。なお、含意関係抽出部30は、テキスト間の含意関係を抽出できれば、特許文献2と異なる判定処理により、テキスト間の含意関係を判定してもよい。
図6は、本発明の第1の実施の形態における、含意関係の抽出結果の例を示す図である。図6において、矢印の元のテキストは、先のテキストを含意することを示す。図6の例では、テキストT6、T7、T11、…が、テキストT1「警告灯が点灯した」を含意している。同様に、テキストT2、T3、T7、T10、…が、テキストT5「異音がする」を含意しており、テキストT2、T4、T7、T8、…が、テキストT9「エンストした」を含意している。
例えば、含意関係抽出部30は、図5における、取得日時が監視期間「2015/1」内の抽出対象テキストから、図6のような含意関係を抽出する。
代表テキスト抽出部40は、抽出された含意関係から代表テキストを抽出し、クラスタを生成する(ステップS102)。代表テキスト抽出部40は、例えば、非特許文献1の技術と同様に、含意関係抽出部30により抽出された含意関係をもとに、クラスタを生成する。ここで、抽出対象テキストの内、他のテキストにより含意されるテキストがクラスタの代表テキスト、当該代表テキストを含意するテキストが当該クラスタの要素テキストに設定される。テキストが複数の代表テキストを含意する場合、当該テキストは、複数のクラスタの要素テキストに設定される。なお、本発明の実施の形態では、あるクラスタの代表テキストに設定されたテキスト自身も、当該クラスタの代表テキストを含意する要素テキストとして設定される。代表テキスト抽出部40は、各クラスタの代表テキストの識別子を当該クラスタの要素テキストの識別子と関連付けた代表テキスト情報を、代表テキスト記憶部50に保存する。
図7は、本発明の第1の実施の形態における、代表テキスト情報の例を示す図である。図7の例では、テキストT1「警告灯が点灯した」、T5「異音がする」、及び、T9「エンストした」が、それぞれ、クラスタC1、C2、及び、C3の代表テキストに設定されている。また、テキストT1とテキストT1を含意するテキストT6、T7、T11…が、クラスタC1の要素テキストに設定されている。同様に、テキストT5とテキストT5を含意するテキストが、クラスタC2の要素テキストに設定され、テキストT9とテキストT9を含意するテキストが、クラスタC3の要素テキストに設定されている。
例えば、代表テキスト抽出部40は、図6の含意関係をもとに、図7のような代表テキスト情報を生成する。
なお、代表テキスト抽出部40は、さらに、異なるクラスタ間の要素テキストの重複の度合いをもとに、当該異なるクラスタを一つのクラスタに統合してもよい。
次に、判定部60は、各監視期間において、テキスト記憶部20に保存されている、当該監視期間に新たに取得された(テキストデータに追加された)各テキストが、各代表テキストを含意するかどうかを判定する(ステップS103)。
監視部70は、各代表テキストについて、当該代表テキストを含意するテキストの数を集計する(ステップS104)。ここで、監視期間のテキストに、抽出対象テキストが含まれる場合、当該抽出対象テキストの数も、集計対象のテキストとして用いられる。また、監視部70は、どの代表テキストにも含意しないテキストの数を、「その他」のテキストの数として集計する。
監視部70は、監視期間の、各代表テキストを含意するテキストの数が、所定の通知条件を満足するかどうかを判定する(ステップS105)。
ステップS105で、所定の通知条件を満たす代表テキストがある場合(ステップS105/Y)、監視部70は、表示制御部80を介して通知を行う(ステップS106)。ここで、表示制御部80は、通知画面90を生成し、ユーザ等に表示する。
さらに、「その他」のテキストの数が所定の抽出閾値未満の間、ステップS103からの処理が、監視期間毎に繰り返される(ステップS107/N)。
図8は、本発明の第1の実施の形態における、各代表テキストを含意するテキストの数の例である。
例えば、監視部70は、監視期間「2015/1」、「2015/2」、…の各々において、図8のように、各代表テキストT1、T5、T9を含意するテキストの数を集計する。
ここで、例えば、通知条件が、テキストの数に係る下限の閾値「100以上」の場合、監視期間「2015/5」における、代表テキストT5「異音がする」を含意するテキストの数が通知条件を満たす。したがって、監視部70は、監視期間「2015/5」の事象「異音がする」に関して、通知を行う。
図9は、本発明の第1の実施の形態における、通知画面90の例を示す図である。
図9の例では、通知画面90は、通知領域91、代表テキスト表示領域92、時系列表示領域93、及び、テキスト表示領域94を含む。
通知領域91には、通知対象の監視期間(通知閾値の超過が検出された監視期間)や通知対象の代表テキスト(通知閾値を超過した代表テキスト)が表示される。
代表テキスト表示領域92の「クラスタ」欄には、例えば、各クラスタの代表テキストが表示される。また、「件数」欄には、例えば、通知対象の監視期間における、各代表テキストを含意するテキストの数が表示される。
時系列表示領域93には、例えば、監視期間毎の、各代表テキストを含意するテキストの数(時系列)を示すグラフが表示される。
テキスト表示領域94の「詳細テキスト」欄には、例えば、通知対象の監視期間における、通知対象の代表テキストを含意するテキストが、取得日時の順番で表示される。
表示制御部80は、図9のような通知画面90を、ユーザ等に表示する。
ユーザ等は、図9の通知画面90の通知領域91を参照し、発生数が多い(または、少ない)事象を、概要レベルで把握できる。また、ユーザ等は、テキスト表示領域94を参照し、当該通知対象の事象の詳細を把握できる。
また、「その他」のテキストの数が、所定の抽出閾値以上の場合(ステップS107/Y)、ステップS101からの処理が行われる。
図10は、本発明の第1の実施の形態における、監視期間毎の、各代表テキストを含意するテキストの数の他の例である。
ここで、例えば、抽出閾値が「10」の場合、監視期間「2016/4」における、「その他」のテキストの数が抽出閾値以上である。したがって、含意関係抽出部30は、例えば、次の監視期間「2016/5」の抽出対象テキストから、再び、含意関係を抽出する。そして、代表テキスト抽出部40は、抽出された含意関係から、再び、代表テキストを抽出し、クラスタを生成する。ここで、代表テキスト抽出部40が、代表テキストT1、T5、T9に加えて、新たな代表テキストT201「オイルが漏れている」を抽出したと仮定する。
監視期間「2016/8」において、代表テキストT201「オイルが漏れている」を含意するテキストの数が通知条件を満たす。したがって、監視部70は、監視期間「2016/8」の事象「オイルが漏れている」に関して通知を行う。
以上により、本発明の第1の実施の形態の動作が完了する。
なお、本発明の第1の実施の形態では、クラスタリング対象のテキストが、自動車の不具合報告に係るテキストである場合を例に説明した。しかしながら、これに限らず、クラスタリング対象のテキストは、様々な現象や原因、対策、意見、評価、苦情、要望等、どのような内容に係るテキストでもよい。
また、本発明の第1の実施の形態では、含意関係抽出対象のテキスト(抽出対象テキスト)として、特定の監視期間のテキスト(全テキストや一部のテキスト)を用いた。そして、当該監視期間のテキストから抽出された含意関係をもとに、代表テキストが抽出され、当該代表テキストが、当該監視期間以降の監視期間の監視に用いられた。また、その他の代表テキストの数が所定の抽出閾値以上の場合に、新たな監視期間のテキストから含意関係が再抽出され、当該含意関係をもとに代表テキストが再抽出された。
しかしながら、これに限らず、抽出対象テキストとして、各監視期間のテキストを用いてもよい。この場合、監視期間ごとに、当該監視期間のテキストから含意関係の再抽出、代表テキストの再抽出が行われ、当該代表テキストが、当該監視期間の監視に用いられる。
また、これに限らず、抽出対象テキストとして、各監視期間までに取得したテキスト(当該監視期間以前のテキスト)を用いてもよい。この場合、監視期間ごとに、当該監視期間のテキストが抽出対象テキストに追加され、含意関係の再抽出、代表テキストの再抽出が行われる。
また、代表テキスト抽出部40は、代表テキストの再抽出により新たな代表テキストが抽出された場合、当該新たな代表テキストを、表示制御部80を介して通知してもよい。
また、代表テキスト抽出部40は、抽出された代表テキストの内、監視対象の代表テキストの指定をユーザ等から受け付け、監視部70は、当該指定された代表テキストについて、含意するテキストの数を監視してもよい。
また、本発明の第1の実施の形態では、通知条件として、テキストの数に係る下限の閾値を用いた。しかしながら、これに限らず、通知条件として、上限の閾値(テキストの数が閾値以下であれば通知)、または、増加量もしくは減少量の下限の閾値(テキストの数の増加量もしくは減少量が閾値以上であれば通知)が用いられてもよい。また、通知条件として、テキストの数や増減量の閾値以外に、テキストの数や増減量に係る、所定の統計量や分布の条件が設定されていてもよい。
次に、本発明の第1の実施の形態の基本的な構成を説明する。
図1は、本発明の第1の実施の形態の基本的な構成を示すブロック図である。図1を参照すると、本発明の監視システム1(テキスト監視システム)は、テキスト取得部10、判定部60、及び、監視部70を含む。監視システム1は、テキスト間の含意関係に基づいて抽出された、他のテキストが含意するテキストである代表テキストを記憶する記憶部にアクセス可能に接続される。テキスト取得部10は、監視対象のテキストを取得する。判定部60は、取得したテキストが代表テキストを含意するかを判定する。監視部70は、代表テキストを含意するテキストの数を監視し、監視結果を出力する。
次に、本発明の第1の実施の形態の効果を説明する。
本発明の第1の実施の形態によれば、テキストを用いた監視において、事象の検出精度を向上できる。その理由は、判定部60が、取得したテキストが代表テキストを含意するかを判定し、監視部70は、代表テキストを含意するテキストの数を監視し、監視結果を出力するためである。これにより、ユーザは、明確な概要レベルの観点毎に、発生数が多い(または、少ない)事象を把握できる。
また、本発明の第1の実施の形態によれば、テキストを用いた監視において、事前に監視対象を定義することなく監視を行うことができる。その理由は、代表テキスト抽出部40が、監視対象のテキスト間の含意関係から代表テキストを抽出するためである。
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。
本発明の第2の実施の形態では、特定の種別の代表テキストを含意するテキストの数の合計を監視する点において、本発明の第1の実施の形態と異なる。
はじめに、本発明の第2の実施の形態の構成を説明する。
図11は、本発明の第2の実施の形態における、監視システム1の構成を示すブロック図である。
図11を参照すると、本発明の第2の実施の形態の監視システム1は、本発明の第1の実施の形態の監視システム1の構成に加えて、対象種別記憶部65を含む。
対象種別記憶部65は、監視対象の代表テキストの種別を示す、対象種別情報を記憶する。
図15は、本発明の第2の実施の形態における、対象種別情報の例を示す図である。対象種別情報は、代表テキストの種別(「種別」欄)、通知条件(「通知条件」欄)、及び、当該種別に分類される代表テキスト(「クラスタ欄」)を含む。図15の例では、代表テキストの種別として、「悪い評価」、及び、「良い評価」が設定されている。また、通知条件として、各種別の代表テキストに含意するテキストの数の合計に係る下限の閾値が設定されている。
代表テキスト抽出部40は、抽出した代表テキストを、対象種別情報で示される種別に分類する。ここで、代表テキスト抽出部40は、所定の分類ルールに従って、抽出した代表テキストを種別に分類する。この場合、分類ルールには、例えば、種別毎に、キーワードや表現が定義され、当該キーワードや表現を含む代表テキストが、対応する種別に分類される。また、代表テキスト抽出部40は、抽出した代表テキストをユーザ等に出力し、ユーザ等から、当該代表テキストの種別の指定を受け付けてもよい。
監視部70は、対象種別情報で示される各種別について、当該種別の代表テキストを含意するテキストの数の合計が、当該種別に対して設定された通知条件を満たす場合に、通知を行う。
表示制御部80は、監視結果(通知内容)を表示するための通知画面100を生成し、ユーザ等に表示する。
次に、本発明の第2の実施の形態の動作を説明する。
上述のステップS102で、代表テキスト抽出部40は、抽出した代表テキストを、対象種別情報で示される種別に分類する。
ステップS104で、監視部70は、対象種別情報で示される各種別について、当該種別の代表テキストを含意するテキストの数の合計を集計する。
ステップS105で、監視部70は、監視期間における、各種別のテキストの数の合計が、当該種別に対して設定された通知条件を満たすかどうかを判定する。通知条件を満たす場合、監視部70は、ステップS106で、通知を行う。
次に、本発明の第2の実施の形態の動作の具体例を説明する。
図12は、本発明の第2の実施の形態における、テキストデータの例を示す図である。図12の例は、監視対象のテキストが、テレビ製品の「評価」に係るテキストである場合の例である。ここでは、テキスト取得部10が、図12のようなテキストデータを、テキスト記憶部20に保存していると仮定する。また、対象種別情報には、図15のような種別、及び、通知条件が設定されていると仮定する。
図13は、本発明の第2の実施の形態における、含意関係の抽出結果の例を示す図である。
含意関係抽出部30は、例えば、図12における、取得日時が監視期間「2015/1」内の抽出対象テキストから、図13に示すように、含意関係を抽出する。
図14は、本発明の第2の実施の形態における、代表テキスト情報の例を示す図である。
代表テキスト抽出部40は、図13の含意関係をもとに、図14のような代表テキスト情報を生成する。そして、代表テキスト抽出部40は、代表テキストT304「価格が高い」を種別「悪い評価」に、代表テキストT305「機能性が高い」、T306「デザインがよい」を種別「良い評価」に分類し、図15のように、対象種別情報に設定する。
図16は、本発明の第2の実施の形態における、各種別の代表テキストを含意するテキストの数の合計の例である。
例えば、監視部70は、監視期間「2015/1」、「2015/2」、…の各々において、図16のように、種別「悪い評価」、「良い評価」の各々の代表テキストを含意するテキストの数の合計を集計する。
ここで、監視期間「2015/5」における、種別「良い評価」の代表テキストを含意するテキストの数の合計が通知条件を満たす。したがって、監視部70は、監視期間「2015/5」の種別「良い評価」の事象に関して通知を行う。
図17は、本発明の第2の実施の形態における、通知画面100の例を示す図である。
図17の例では、通知画面100は、通知領域101、種別表示領域102、代表テキスト表示領域103、時系列表示領域104、及び、テキスト表示領域105を含む。
通知領域101には、通知対象の監視期間や通知対象の種別が表示される。
種別表示領域102の「種別」欄には、例えば、各種別が表示される。また、「件数」欄には、例えば、通知対象の監視期間における、各種別の代表テキストを含意するテキストの数の合計が表示される。
代表テキスト表示領域103の「クラスタ」欄には、例えば、通知対象の種別の代表テキストが表示される。また、「件数」欄には、例えば、通知対象の監視期間における、各代表テキストを含意するテキストの数が表示される。
時系列表示領域104には、例えば、監視期間毎の、各種別の代表テキストを含意するテキストの数の合計(時系列)を示すグラフが表示される。
テキスト表示領域105の「詳細テキスト」欄には、通知対象の監視期間における、通知対象の種別の代表テキストを含意するテキストが、例えば、取得日時の順番で表示される。
表示制御部80は、図17のような通知画面100を、ユーザ等に表示する。
ユーザ等は、図17の通知画面100の通知領域101を参照し、発生数が多い(または、少ない)事象の種別を把握できる。特定の種別が、製品に係る「良い評価」や「悪い評価」であれば、ユーザ等は、当該製品に対してどのような評価がされているかを容易に把握できる。また、ユーザ等は、テキスト表示領域105を参照し、「良い評価」や「悪い評価」の具体的な内容を確認できる。
以上により、本発明の第2の実施の形態の動作が完了する。
次に、本発明の第2の実施の形態の効果を説明する。
本発明の第2の実施の形態によれば、発生数が多い(または、少ない)事象の種別を容易に把握できる。その理由は、監視部70が、所定の種別に属する代表テキストを含意するテキストの数の合計を監視するためである。
(第3の実施の形態)
次に、本発明の第3の実施の形態について説明する。
本発明の第3の実施の形態では、監視結果として、異なる監視期間の間での、各代表テキストを含意するテキストの数の増減傾向を出力する点において、本発明の第1の実施の形態と異なる。
はじめに、本発明の第3の実施の形態の構成を説明する。
本発明の第3の実施の形態の構成を示すブロック図は、本発明の第1の実施の形態(図2)と同様である。
監視部70は、監視結果として、異なる監視期間の間での、各代表テキストを含意するテキストの数の増減傾向(比較結果)を出力する。
表示制御部80は、監視結果(増減傾向)を表示するための比較画面110を生成し、ユーザ等に表示(出力)する。
次に、本発明の第3の実施の形態の動作を説明する。
図18は、本発明の第3の実施の形態における、監視システム1の動作を示すフローチャートである。
はじめに、含意関係抽出部30は、上述のステップS101と同様に、抽出対象テキスト間の含意関係を抽出する(ステップS201)。ここで、含意関係抽出部30は、抽出対象テキストとして、複数の監視期間の全テキストを用いて、含意関係を抽出する。
代表テキスト抽出部40は、上述のステップS102と同様に、抽出された含意関係から代表テキストを抽出し、クラスタを生成する(ステップS202)。
判定部60は、上述のステップS103と同様に、各監視期間に取得された各テキストが、各代表テキストを含意するかどうかを判定する(ステップS203)。
監視部70は、上述のステップS104と同様に、各代表テキストについて、当該代表テキストを含意するテキストの数を集計する(ステップS204)。
判定部60、及び、監視部70は、全ての監視期間について、ステップS203、S204の処理を繰り返す(ステップS205)。
監視部70は、異なる監視期間の間で、各代表テキストを含意するテキストの数を比較する(ステップS206)。
監視部70は表示制御部80を介して、各代表テキストを含意するテキストの数の増減傾向(比較結果)を出力する(ステップS207)。ここで、表示制御部80は、比較画面110を生成し、ユーザ等に表示する。
次に、本発明の第3の実施の形態の動作の具体例を説明する。
図19は、本発明の第3の実施の形態における、テキストデータの例を示す図である。ここでは、本発明の第2の実施の形態と同様に、監視対象のテキストが、テレビ製品の「評価」に係るテキストであると仮定する。また、監視部70が、テレビ製品に係るキャンペーンの前の1ヶ月の監視期間(キャンペーン前)とキャンペーンの後の1ヶ月の監視期間(キャンペーン後)との間で、代表テキストを含意するテキストの数を比較すると仮定する。そして、図19のようなテキストデータが、テキスト記憶部20に保存されていると仮定する。また、含意関係抽出対象のテキスト(抽出対象テキスト)は、キャンペーン前とキャンペーン後の両方の監視期間の全テキストであると仮定する。
図20は、本発明の第3の実施の形態における、含意関係の抽出結果の例を示す図である。
含意関係抽出部30は、例えば、図19の全テキストから、図20に示すように、含意関係を抽出する。
図21は、本発明の第3の実施の形態における、代表テキスト情報の例を示す図である。図21の例では、テキストT501「価格が高い」、T601「デザインがよい」、及び、T604「機能性が高い」が、それぞれ、クラスタC1、C2、及び、C3の代表テキストに設定されている。
代表テキスト抽出部40は、図20の含意関係をもとに、図21のような代表テキスト情報を生成する。
図22は、本発明の第3の実施の形態における、各代表テキストを含意するテキストの数の例である。
例えば、監視部70は、キャンペーン前の監視期間「2015/1」とキャンペーン後の監視期間「2015/2」の各々において、図22のように、各代表テキストT501、T601、T604を含意するテキストの数を集計する。
また、監視部70は、監視期間「2015/1」と「2015/2」との間で、各代表テキストT501、T601、T604を含意するテキストの数を比較する。ここで、代表テキストT501を含意するテキストの数は、キャンペーン前の監視期間「2015/1」には100であったが、キャンペーン後の監視期間「2015/2」には0である。したがって、監視部70は、代表テキストT501のクラスタの「削除」を検出する。また、代表テキストT601を含意するテキストの数は、キャンペーン前には0であったが、キャンペーン後には100である。したがって、監視部70は、代表テキストT501のクラスタの「追加」を検出する。さらに、代表テキストT604を含意するテキストの数は、キャンペーン前には50であったが、キャンペーン後には200である。したがって、代表テキストT604を含意するテキストの数の「増加」を検出する。なお、同様に、監視部70は、代表テキストを含意するテキストの数の「減少」を検出してもよい。
図23は、本発明の第3の実施の形態における、比較画面110の例を示す図である。
図23の例では、比較画面110は、代表テキスト表示領域111、及び、時系列表示領域112を含む。
代表テキスト表示領域111の「クラスタ」欄には、例えば、各代表テキストが表示される。また、「件数」欄には、例えば、監視期間毎の、各代表テキストを含意するテキストの数が表示される。「比較結果」欄には、各代表テキストを含意するテキストの数の比較結果(クラスタの「削除」や「追加」、テキストの数の「増加」や「減少」)が表示される。
例えば、表示制御部80は、図23のような比較画面110を、ユーザ等に表示する。
ユーザ等は、図23の比較画面110を参照し、異なる監視期間の間で追加もしくは削除されたクラスタ、または、発生数が増加もしくは減少した事象を把握できる。ここで、例えば、代表テキストT601「デザインがよい」やT604「機能性が高い」のように、良い評価に係る事象のクラスタの追加や、良い評価に係る事象が増加していた場合、キャンペーンにより、評価が改善されたことがわかる。一方、良い評価に係る事象のクラスタの削除や、良い評価に係る事象が減少していた場合、キャンペーンにより、評価が改悪されたことがわかる。同様に、例えば、代表テキストT501「価格が高い」のように、悪い評価に係る事象のクラスタの削除や、悪い評価に係る事象が減少していた場合も、キャンペーンにより、評価が改善されたことがわかる。また、悪い評価に係る事象のクラスタの追加や、悪い評価に係る事象が増加していた場合も、キャンペーンにより、評価が改悪されたことがわかる。
以上により、本発明の第3の実施の形態の動作が完了する。
次に、本発明の第3の実施の形態の効果を説明する。
本発明の第3の実施の形態によれば、異なる監視期間の間で、追加もしくは削除されたクラスタ、または、発生数が増加もしくは減少した事象を容易に把握できる。その理由は、監視部70が、異なる監視期間の間での、各代表テキストを含意するテキストの数の増減傾向を出力するためである。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
以下、参考形態の例を付記する。
(付記1)
テキスト間の含意関係に基づいて、含意関係があるテキストを同じグループに分類することによりクラスタリングされた情報源と、前記情報源に追加されたテキストと同一グループに属するクラスタを特定する特定手段と、前記特定したクラスタに属するテキストの数を計算して、所定のタイミングで提示する提示手段と、を備える、テキスト監視システム。
本発明は、大量文書データから事象を監視するシステムに適用できる。例えば、本発明は、製品やサービスの改善、マーケティング、営業活動の効率化のために、コールログや顧客の意見等を監視するシステムに適用できる。また、本発明は、製品の不具合や製品に対する評価や要望を監視するシステム、学術文献等の内容を監視するシステムにも適用できる。
1 監視システム
2 CPU
3 記憶デバイス
4 通信デバイス
5 入力デバイス
6 出力デバイス
10 テキスト取得部
20 テキスト記憶部
30 含意関係抽出部
40 代表テキスト抽出部
50 代表テキスト記憶部
60 判定部
70 監視部
80 表示制御部
90 通知画面
91 通知領域
92 代表テキスト表示領域
93 時系列表示領域
94 テキスト表示領域
100 通知画面
101 通知領域
102 種別表示領域
103 代表テキスト表示領域
104 時系列表示領域
105 テキスト表示領域
110 比較画面
111 代表テキスト表示領域
112 時系列表示領域

Claims (8)

  1. 第1のテキストを取得するテキスト取得手段と、
    第2のテキストの指定を受け付ける受付手段と、
    前記取得した第1のテキストのうち、前記指定を受け付けた第2のテキストを含意する第1のテキストの数が所定の条件を満たす場合に、通知を行う通知手段と、
    を備え、
    前記第2のテキストと、前記第2のテキストを含意する前記第1のテキストとの関係は、前記第1のテキストの内容が真であるならば前記第2のテキストの内容が真である、ことを示す
    分析支援システム。
  2. 前記通知手段は、前記指定を受け付けた第2のテキストを含意する第1のテキストの数が閾値を超えた場合に、通知を行う
    請求項1に記載の分析支援システム。
  3. 前記通知手段は、予め定めた複数の期間において、前記指定を受け付けた第2のテキストを含意する第1のテキストの数が所定の条件を満たす場合に、通知を行う
    請求項1に記載の分析支援システム。
  4. 前記通知手段は、前記予め定めた複数の期間において、所定の種別に属する前記第2のテキストを含意する前記第1のテキストの数の合計が、前記所定の条件を満たす場合に、通知を行う
    請求項3に記載の分析支援システム。
  5. 前記所定の条件は、前記第1のテキストの数が所定の閾値以上もしくは所定の閾値以下、または、前記複数の期間の内の異なる期間の間の前記第1のテキストの数の増加量もしくは減少量が所定の閾値以上である
    請求項3または4に記載の分析支援システム。
  6. 前記通知手段は、前記指定を受け付けた前記第2のテキストを含意する前記第1のテキストの数の増減傾向を出力する
    請求項1に記載の分析支援システム。
  7. コンピュータに具備されたテキスト取得手段が、第1のテキストを取得し、
    前記コンピュータに具備された受付手段が、第2のテキストの指定を受け付け、
    前記コンピュータに具備された通知手段が、前記取得した第1のテキストのうち、前記指定を受け付けた第2のテキストを含意する第1のテキストの数が所定の条件を満たす場合に、通知を行う
    分析支援方法であって、
    前記第2のテキストと、前記第2のテキストを含意する前記第1のテキストとの関係は、前記第1のテキストの内容が真であるならば前記第2のテキストの内容が真である、ことを示す
    分析支援方法。
  8. コンピュータに、
    第1のテキストを取得し、
    第2のテキストの指定を受け付け、
    前記取得した第1のテキストのうち、前記指定を受け付けた第2のテキストを含意する第1のテキストの数が所定の条件を満たす場合に、通知を行う
    処理を実行させるプログラムであって、
    前記第2のテキストと、前記第2のテキストを含意する前記第1のテキストとの関係は、前記第1のテキストの内容が真であるならば前記第2のテキストの内容が真である、ことを示す
    プログラム。
JP2019088031A 2019-05-08 2019-05-08 テキスト監視システム、テキスト監視方法、及び、プログラム Active JP6763454B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019088031A JP6763454B2 (ja) 2019-05-08 2019-05-08 テキスト監視システム、テキスト監視方法、及び、プログラム
JP2020149529A JP6954426B2 (ja) 2019-05-08 2020-09-07 テキスト監視システム、テキスト監視方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019088031A JP6763454B2 (ja) 2019-05-08 2019-05-08 テキスト監視システム、テキスト監視方法、及び、プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017505746A Division JP6525051B2 (ja) 2015-03-18 2015-03-18 テキスト監視システム、テキスト監視方法、及び、プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020149529A Division JP6954426B2 (ja) 2019-05-08 2020-09-07 テキスト監視システム、テキスト監視方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2019164816A JP2019164816A (ja) 2019-09-26
JP6763454B2 true JP6763454B2 (ja) 2020-09-30

Family

ID=68064640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019088031A Active JP6763454B2 (ja) 2019-05-08 2019-05-08 テキスト監視システム、テキスト監視方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP6763454B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112019005827T5 (de) 2018-11-21 2021-08-05 Denso Corporation Reinigungssystem und Reinigungsverfahren für Fahrzeuge

Also Published As

Publication number Publication date
JP2019164816A (ja) 2019-09-26

Similar Documents

Publication Publication Date Title
US10884891B2 (en) Interactive detection of system anomalies
US9367603B2 (en) Systems and methods for behavioral segmentation of users in a social data network
KR102355826B1 (ko) 소셜 미디어를 이용하는 사용자의 통계를 추정하는 방법 및 장치
US20200013079A1 (en) Data clustering and user modeling for next-best-action decisions
US11042525B2 (en) Extracting and labeling custom information from log messages
US20180268052A1 (en) Analysis of information in a combination of a structured database and an unstructured database
WO2016093837A1 (en) Determining term scores based on a modified inverse domain frequency
CN108664492B (zh) 一种向用户推送内容的方法、装置、电子设备和存储介质
JP6536671B2 (ja) テキスト可視化システム、テキスト可視化方法、及び、プログラム
JP6763454B2 (ja) テキスト監視システム、テキスト監視方法、及び、プログラム
CN111858245A (zh) 一种异常数据的分析方法、装置、电子设备及存储介质
CN116663505B (zh) 一种基于互联网的评论区管理方法及系统
JP6954426B2 (ja) テキスト監視システム、テキスト監視方法、及び、プログラム
JP6508327B2 (ja) テキスト可視化システム、テキスト可視化方法、及び、プログラム
JP6525051B2 (ja) テキスト監視システム、テキスト監視方法、及び、プログラム
JP2005165754A (ja) テキストマイニング分析装置、テキストマイニング分析方法、及びテキストマイニング分析プログラム
CN105979287B (zh) 一种节目关键词的提取与统计方法及装置
JP2019053763A (ja) テキスト可視化システム、テキスト可視化方法、及び、プログラム
JP2019053764A (ja) テキスト可視化システム、テキスト可視化方法、及び、プログラム
CN114048252A (zh) 生产数据的分析方法、装置、存储介质及处理器
CN111861537A (zh) 运营分析方法及系统
McKernan et al. A human-centered design approach to creating tools to help journalists monitor digital political ads: insights and challenges
CN111461542A (zh) 一种事件统计方法及装置
KR102440037B1 (ko) 고객 응대 통합 관리 방법 및 이를 실행하는 서버
Fernandes et al. Impact of Non-Fitting Cases for Remaining Time Prediction in a Multi-Attribute Process-Aware Method.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200811

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200824

R150 Certificate of patent or registration of utility model

Ref document number: 6763454

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150