JP7223549B2 - 情報運用装置および情報運用方法 - Google Patents

情報運用装置および情報運用方法 Download PDF

Info

Publication number
JP7223549B2
JP7223549B2 JP2018196065A JP2018196065A JP7223549B2 JP 7223549 B2 JP7223549 B2 JP 7223549B2 JP 2018196065 A JP2018196065 A JP 2018196065A JP 2018196065 A JP2018196065 A JP 2018196065A JP 7223549 B2 JP7223549 B2 JP 7223549B2
Authority
JP
Japan
Prior art keywords
unit
document
group
incident
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018196065A
Other languages
English (en)
Other versions
JP2020064463A (ja
Inventor
彩 中嶋
隆之 神田
雅之 山本
公司 田中
信治 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Social Information Services Ltd
Original Assignee
Hitachi Social Information Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Social Information Services Ltd filed Critical Hitachi Social Information Services Ltd
Priority to JP2018196065A priority Critical patent/JP7223549B2/ja
Publication of JP2020064463A publication Critical patent/JP2020064463A/ja
Application granted granted Critical
Publication of JP7223549B2 publication Critical patent/JP7223549B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報運用装置および情報運用方法に関する。
特許文献1には、「音声認識処理によって談話の内容がテキスト化された談話データ、および前記談話データにおける前記談話の構造の解析結果である、前記談話全体の意味内容を把握するための情報である談話セマンティクスを入力とし、前記談話データからFAQ候補となる質問文を抽出して出力するFAQ候補抽出システムであって、前記談話セマンティクスは、前記談話データにおける各ステートメントの意味内容を示すフローの情報を含むフロー情報を含み、前記談話データから、顧客によって発話され、前記談話セマンティクスの前記フロー情報において質問文もしくは要求文であることを示すフローが設定された質問・要求ステートメントを抽出する質問抽出部と、前記質問抽出部によって抽出された前記質問・要求ステートメントから、指定されたキーワードを含むものを抽出する候補抽出部と、前記候補抽出部によって抽出された前記質問・要求ステートメントについて、内容が同様のものにクラスタリングし、各クラスタの代表となる前記質問・要求ステートメントをFAQ候補として出力するクラスタリング部とを有することを特徴とするFAQ候補抽出システム」について開示されている。
特開2012-3704号公報(請求項1)
ヘルプデスクやサービスデスクなどの業務では、利用者からの問い合わせに対して、正確な情報を利用者に発信するという、情報発信の正確性、および、利用者への情報発信を迅速にするという、情報発信の迅速性の両方を向上させて欲しいという要望がある。この要望を満たすため、業務運用側は、利用者との対応履歴を蓄積していき、利用者からの問い合わせが過去の対応履歴と同一または類似していた場合には、当該対応履歴を利用者に即座に発信していた。一方、同一でも類似でもなかった場合には、例えば、担当部署に迅速に問合せを引き継ぐようにしていた。
しかし、業務の運用を継続するにつれ、利用者との対応履歴の蓄積量が増大するため、業務運用側で管理する情報が複雑化、多様化、重複化(同じ意味でも異なるテキストが用いられた情報を管理)する。その結果、同一または類似の対応履歴を抽出するのに時間を要してしまい、上記要望を満たすことが困難になるという問題がある。
特許文献1の技術によれば、利用者の話し言葉に起因する問合せのテキストのずれの影響を受けることなく、適切な対応履歴を発信することは可能と思われる。しかし、業務運用側で管理する情報の複雑化、多様化、重複化に対する解決策を何ら言及しておらず、上記要望に対して改善の余地が残されている。
本発明は、このような事情に鑑みて、情報発信の正確性および迅速性の向上を支援することを課題とする。
前記課題を解決するために、本発明は、
文書群の情報を運用する情報運用装置であって、
前記文書群のうち特定の文書群を検索範囲として指定する検索範囲指定部と、
前記指定された検索範囲のテキストデータを形態素解析する形態素解析部と、
前記テキストデータの係り受け解析をする係り受け解析部と、
前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成部と、
前記作成されたグラフのクラスタリングを行うクラスタリング部と、
前記クラスタリングによって生成されたクラスタから特徴語を抽出する抽出部と、
前記抽出された特徴語を用いて、前記特定の文書群に含まれる文書ごとのトピック割合を計算するトピック割合計算部と、を備え、
前記特定の文書群に含まれる第1の文書について、前記トピック割合計算部が計算したトピック割合と、前記特定の文書群に含まれる第2の文書について、前記トピック割合計算部が計算したトピック割合とを用いて、第1の文書と第2の文書との間の類似度を計算する類似度計算部、をさらに備える、
ことを特徴とする。
また、本発明は、
文書群の情報を運用する情報運用装置であって、
前記文書群のうち特定の文書群を検索範囲として指定する検索範囲指定部と、
前記指定された検索範囲のテキストデータを形態素解析する形態素解析部と、
前記テキストデータの係り受け解析をする係り受け解析部と、
前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成部と、
前記作成されたグラフのクラスタリングを行うクラスタリング部と、
前記クラスタリングによって生成されたクラスタから特徴語を抽出する抽出部と、
前記抽出された特徴語を用いて、前記特定の文書群に含まれる文書ごとのトピック割合を計算するトピック割合計算部と、を備え、
前記特定の文書群は、特定のインシデント群であり、
前記特定のインシデント群に関するインシデント傾向を通知する要求があった場合、前記特定のインシデント群に含まれる各インシデントについて、前記トピック割合計算部が計算したトピック割合を用いたインシデント傾向結果を応答するインシデント分析部、をさらに備える、
ことを特徴とする。
また、本発明は、
文書群の情報を運用する情報運用装置が実行する情報運用方法であって、
前記文書群のうち特定の文書群を検索範囲として指定する検索範囲指定ステップと、
前記指定された検索範囲のテキストデータを形態素解析する形態素解析ステップと、
前記テキストデータの係り受け解析をする係り受け解析ステップと、
前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成ステップと、
前記作成されたグラフのクラスタリングを行うクラスタリングステップと、
前記クラスタリングによって生成されたクラスタから特徴語を抽出する抽出ステップと、
前記抽出された特徴語を用いて、前記特定の文書群に含まれる文書ごとのトピック割合を計算するトピック割合計算ステップと、を実行し、
前記特定の文書群に含まれる第1の文書について、前記トピック割合計算ステップで計算したトピック割合と、前記特定の文書群に含まれる第2の文書について、前記トピック割合計算ステップで計算したトピック割合とを用いて、第1の文書と第2の文書との間の類似度を計算する類似度計算ステップ、をさらに実行する、
ことを特徴とする。
また、本発明は、
文書群の情報を運用する情報運用装置が実行する情報運用方法であって、
前記文書群のうち特定の文書群を検索範囲として指定する検索範囲指定ステップと、
前記指定された検索範囲のテキストデータを形態素解析する形態素解析ステップと、
前記テキストデータの係り受け解析をする係り受け解析ステップと、
前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成ステップと、
前記作成されたグラフのクラスタリングを行うクラスタリングステップと、
前記クラスタリングによって生成されたクラスタから特徴語を抽出する抽出ステップと、
前記抽出された特徴語を用いて、前記特定の文書群に含まれる文書ごとのトピック割合を計算するトピック割合計算ステップと、を実行し、
前記特定の文書群は、特定のインシデント群であり、
前記特定のインシデント群に関するインシデント傾向を通知する要求があった場合、前記特定のインシデント群に含まれる各インシデントについて、前記トピック割合計算ステップで計算したトピック割合を用いたインシデント傾向結果を応答するインシデント分析ステップ、をさらに備える、
ことを特徴とする。
その他の発明については、後記する。
本発明によれば、情報発信の正確性および迅速性の向上を支援することができる。
本実施形態の情報運用装置の機能構成図である。 インシデント対応履歴DBのデータ構造図である。 ナレッジDBのデータ構造図である。 テキストマイニング部の機能構成図である。 テキストマイニング処理を示すフローチャートである。 トピック割合計算処理を示すフローチャートである。 類似度計算処理を示すフローチャートである。 原因・対策推定処理を示すフローチャートである。 類似度計算結果の例の説明図である。 新規ナレッジ作成支援処理を示すフローチャートである。 グループ化処理を示すフローチャートである。 既存ナレッジ統廃合支援処理を示すフローチャートである。 既存ナレッジ見直し支援処理を示すフローチャートである。 インシデント傾向把握支援処理を示すフローチャートである。 インシデント傾向結果の画面例である。 インシデント傾向結果を数値化した表の例である。
続いて、本発明の実施形態について、図面を参照して説明する。本実施形態の情報運用装置は、入力部、出力部、制御部、および記憶部といったハードウェアを含むコンピュータである。例えば、制御部がCPU(Central Processing Unit)から構成される場合、その制御部を含むコンピュータによる情報処理は、CPUによるプログラム実行処理で実現される。また、そのコンピュータが含む記憶部は、CPUの指令により、そのコンピュータの機能を実現するためのさまざまなプログラムを記憶する。これによりソフトウェアとハードウェアの協働が実現される。前記プログラムは、記録媒体に記録したり、ネットワークを経由したりすることで提供することができる。
情報運用装置は、利用者に提供する情報を運用する装置である。情報運用装置が扱う情報は、テキストデータを含む文書であり、情報運用装置は、文書の集合となる文書群を管理する。文書は、例えば、ヘルプデスクやサービスデスクなどの業務を行うためのインシデント管理用の文書とすることができるが、これに限定されない。本実施形態では、文書は、1または複数の項目ごとにテキストデータが入力された構造をとる。例えば、システム障害などの問合せに対する文書は、タイトル、事象、原因、対策の項目ごとにテキストデータが入力された文書となる。なお、文書の項目は、タイトル、事象、原因、対策に限られない。また、本実施形態が対象とする文書は、項目を有しない文書であってもよい。
また、本実施形態では、テキストデータは、日本語の文字列であるとするが、これに限定されず、他の言語の文字列であってもよい。
本実施形態で扱う文書は、インシデントとしてテキスト入力される文書、および、ナレッジとしてテキスト入力される文書に分類することができる。インシデントとは、利用者の問合せ(質問・要望・依頼)や、システムの稼働状況を監視する装置からのアラート情報等に対し、問合せの内容(事象)と、事象の原因と、原因を解消するための対策とを纏めたものである。インシデントは、問合せを受けたオペレータが運用現場で即座に調査して、運用側で作成される文書である。ナレッジは、運用側で蓄積している情報を体系的に整理した文書であって、具体的には、FAQ(Frequently Asked Questions)である。問合せを受けたオペレータは、過去に作成されたインシデント、またはナレッジを抽出して応答することができる。本実施形態では、インシデントもナレッジも、タイトル、事象、原因、対策の項目ごとにテキストデータが入力された文書とする。
≪構成≫
図1に示すように、情報運用装置100は、要求取得部1と、検索範囲指定部2と、テキストマイニング部3と、トピック割合計算部4と、類似度計算部5と、原因・対策推定部6と、ナレッジ修正支援部7と、インシデント分析部8と、応答出力部9と、インシデント対応履歴DB11と、ナレッジDB12と、を備える。
(インシデント対応履歴DB11)
インシデント対応履歴DB11は、運用側で作成されたインシデントに所定の管理情報を付加した情報をインシデント対応履歴として記憶するデータベースである。図2に示すように、インシデント対応履歴DB11は、「カテゴリ」、「管理番号」、「類似度(タイトル・事象)」、「類似度(タイトル・事象・原因・対策)」、「タイトル」、「事象」、「原因」、「対策」、「ステータス」、「記録者」、「受付日時」、「原因分類」といった欄を有し、インシデントごとにエントリを作成して、管理する。
「カテゴリ」欄には、文書の分類を示す値が格納される。インシデント対応履歴DB11に記憶される文書はインシデントであるため、エントリのカテゴリは、「インシデント」となる。
「管理番号」欄には、管理対象となるインシデントの識別子を示す値が格納される。識別子は、例えば、「INCxxxxxxxx」とすることができるが、これに限定されない。「INC」は、インシデントを象徴する。「xxxxxxxx」は、任意の数値列や文字列である。
「類似度(タイトル・事象)」欄には、類似度計算部5が計算した類似度として、問合せのテキストデータ(「問合せデータ」と呼ぶ場合がある)と、管理対象となるインシデントのうち、タイトルおよび事象のテキストデータを合わせたものと、の間の類似度が格納される。この類似度に関する説明の詳細は、後記する。
「類似度(タイトル・事象・原因・対策)」欄には、類似度計算部5が計算した類似度として、問合せデータと、管理対象となるインシデントのうち、タイトル、事象、原因および対策のテキストデータを合わせたものと、の間の類似度が格納される。この類似度に関する説明の詳細は、後記する。
「タイトル」欄には、管理対象となるインシデントのタイトルを示すテキストデータが格納される。
「事象」欄には、管理対象となるインシデントの事象を示すテキストデータが格納される。
「原因」欄には、管理対象となるインシデントの原因を示すテキストデータが格納される。
「対策」欄には、管理対象となるインシデントの対策を示すテキストデータが格納される。
「ステータス」欄には、管理対象となるインシデントの対応の進捗を示す値が格納される。例えば、利用者からの問合せに対し、対策を通知する応答を完了したことを示す「クローズ」という値が格納される。
「記録者」欄には、管理対象となるインシデントをインシデント対応履歴DB11に記録した者の氏名が格納される。
「受付日時」欄には、管理対象となるインシデントに係る問合せをオペレータが受け付けた日時を示す値が格納される。
「原因分類」欄には、管理対象となるインシデントの原因を分類するための語(例:機能仕様、操作手順誤り)が格納される。
(ナレッジDB12)
図1に戻って、ナレッジDB12は、運用側で作成されたナレッジに所定の管理情報を付加した情報を記憶するデータベースである。図3に示すように、ナレッジDB12は、「カテゴリ」、「管理番号」、「タイトル」、「事象」、「原因」、「対策」、「作成日時」、「原因分類」といった欄を有し、ナレッジごとにエントリを作成して、管理する。
「カテゴリ」欄は、文書の分類を示す値が格納される。ナレッジDB12に記憶される文書はナレッジであるため、エントリのカテゴリは、「ナレッジ」となる。
「管理番号」欄には、管理対象となるインシデントの識別子を示す値が格納される。識別子は、例えば、「KLGxxxxxxxx」とすることができるが、これに限定されない。「KLG」は、ナレッジを象徴する。「xxxxxxxx」は、任意の数値列や文字列である。
「タイトル」欄には、管理対象となるナレッジのタイトルを示すテキストデータが格納される。
「事象」欄には、管理対象となるナレッジの事象を示すテキストデータが格納される。
「原因」欄には、管理対象となるナレッジの原因を示すテキストデータが格納される。
「対策」欄には、管理対象となるナレッジの対策を示すテキストデータが格納される。
「作成日時」欄には、管理対象となるナレッジが作成された日時を示す値が格納される。
「原因分類」欄には、管理対象となるナレッジの原因を分類するための語が格納される。
(要求取得部1)
図1に戻って、要求取得部1は、利用者からの要求を取得する。利用者は、例えば、システム障害等の問合せをするユーザ(または問合せを受けたオペレータ)、インシデントおよびナレッジを管理する管理者、インシデントを用いた分析を行う分析者に分類することができるが、これらに限定されない。よって、利用者からの要求の種類は様々である。また、要求取得部1が取得する要求には、システム稼働状況を監視する装置からのアラート情報等が含まれていてもよい。
(検索範囲指定部2)
検索範囲指定部2は、情報運用装置100が扱う文書群のうち特定の文書群を検索範囲として指定する。情報運用装置100が扱う文書群とは、具体的には、インシデント対応履歴DB11に登録されたインシデント、および、ナレッジDB12に登録されたナレッジである。特定の文書群は、情報運用装置100が扱う文書群の全体または部分文書群である。特定の文書群は、例えば、インシデント対応履歴DB11に登録されているすべてのインシデントでもよいし、直近1週間以内に作成されたインシデントのみでもよいし、任意に指定した1つのインシデントでもよいし、さまざま文書群とすることができる。
また、検索範囲指定部2が指定する検索範囲を、指定された特定の文書群のうち、当該特定の文書群に含まれる各文書の一部とすることができる。検索範囲とは、情報運用装置100が各種処理を実行するために参照されるテキストデータの集合を意味する。よって、検索範囲指定部2は、特定の文書群に含まれる各文書の項目である、タイトル、事象、原因、対策の少なくともいずれかを対象とすることもでき、検索範囲を、指定された項目に含まれるテキストデータに限定することもできる。
検索範囲指定部2による検索範囲の指定は、例えば、情報運用装置100のオペレータが行うがこれに限定されない。オペレータからの指定が無い場合、検索範囲指定部2はデフォルトの検索範囲を指定することができる。デフォルトの検索範囲とは、例えば、インシデント対応履歴DB11に登録されたすべてインシデント、および、ナレッジDB12に登録されたすべてのナレッジとすることができるが、これに限定されない。
(テキストマイニング部3)
テキストマイニング部3は、文書群のテキストマイニングを行う。テキストマイニングの対象となる文書群は、検索範囲指定部2が指定した検索範囲となる特定の文書群である。図4に示すように、テキストマイニング部3は、読込部21と、前処理部22と、形態素解析部23と、係り受け解析部24と、グラフ作成部25と、クラスタリング部26と、抽出部27と、設定部28と、を備える。
読込部21は、文書群からテキストデータを読み込む。
前処理部22は、テキストデータの前処理を行う。テキストデータの前処理とは、形態素解析で正しい結果を得るための予備処理である。例えば、同じ意味となる語の全角文字と半角文字が存在する場合にいずれか一方に統一すること、長音記号「ー」とマイナス記号「-」のような、字形が類似することに起因する誤用に対して正しい記号に修正すること、などがある。
なお、テキストデータの前処理は、必須ではない。
形態素解析部23は、テキストデータの形態素解析を行う。本実施形態の形態素解析は、既存の形態素解析、および、既存の形態素辞書を用いる。形態素解析によって、形態素群および各形態素の品詞が特定される。
係り受け解析部24は、テキストデータの係り受け解析を行う。本実施形態の係り受け解析は、既存の係り受け解析を用いる。係り受け解析部24によって、テキストデータの係り受け構造、つまり、どの形態素が「係り」に該当し、どの形態素が「受け」に該当するかを特定することができる。
グラフ作成部25は、係り受け解析部24が特定した係り受け構造に基づくグラフを作成する。本実施形態では、グラフの作成には既存の技術を用いる。グラフは、単語単位のノードと、ノード同士を結ぶエッジとから構成される。グラフ作成部25は、文書ごとにグラフを作成することができる。また、グラフ作成部25は、文書ごとに作成された複数のグラフをマージすることで、複数の文書に対応する1つのグラフを作成することができる。
クラスタリング部26は、グラフ作成部25が作成したグラフのクラスタリングを行う。クラスタリング部26は、複数の文書に対応する1つのグラフのクラスタリングを行うことができる。その結果、1または複数のクラスタが生成される。クラスタリングによって、グラフ上の各ノードの配置は、例えば、ばねモデルに従うようにすることができる。
抽出部27は、クラスタリング部26によって生成された各クラスタから、1または複数の特徴語を抽出する。各クラスタから抽出された特徴語は、例えば、各クラスタ内で出現回数(TF:Term Frequency)が高い語(予め設定した閾値以上に出現する語)である。しかし、特徴語の抽出条件は、クラスタ内での出現回数を用いた条件とする必要はなく、他のパラメータを用いた条件としてもよい。
設定部28は、クラスタリング部26によって生成された各クラスタを象徴するトピックを設定する。クラスタごとのトピックは、例えば、各クラスタに含まれる語から推測することができる。また、トピックは、情報運用装置100の運用者が設定することができる。なお、設定部28によるトピックの設定は、形式的なものであって、実質的には、クラスタリング部26によってクラスタが生成された時点で、当該クラスタに対応するトピックが存在しているといえる。生成されたクラスタに対して、設定部28がトピックを設定しなければ、トピックが存在しないというわけではない。
(テキストマイニング処理)
ここで、テキストマイニング部3が実行するテキストマイニング処理について、図5を参照して説明する。説明の際、図4も適宜参照する。テキストマイニング部3は、テキストマイニング処理の対象となる文書群を予め記憶している。
まず、テキストマイニング部3は、読込部21によって、文書群からテキストデータを読み込む(ステップS1)。タイトル、事象、原因、対策を含む、インシデントまたはナレッジであれば、読込部21は、タイトル、事象、原因、対策すべてのテキストデータを読み込むことができる。
次に、テキストマイニング部3は、前処理部22によって、読み込まれたテキストデータの前処理を行う(ステップS2)。次に、テキストマイニング部3は、形態素解析部23および係り受け解析部24によって、テキストデータの形態素解析および係り受け解析を行う(ステップS3)。
次に、テキストマイニング部3は、グラフ作成部25によって、係り受け解析によって特定された係り受け構造に基づくグラフを文書ごとに作成する(ステップS4)。また、テキストマイニング部3は、グラフ作成部25によって、文書ごとに作成したグラフをマージし、複数の文書に対応する1つのグラフを作成する。
次に、テキストマイニング部3は、クラスタリング部26によって、マージしたグラフのクラスタリングを行う(ステップS5)。その結果、マージしたグラフに関する1または複数のクラスタが生成される。次に、テキストマイニング部3は、抽出部27によって、生成された各クラスタから、1または複数の特徴語を抽出する(ステップS6)。
最後に、テキストマイニング部3は、設定部28によって、生成された各クラスタに対してトピックを設定する(ステップS7)。
テキストマイニング部3は、図5のテキストマイニング処理による結果を、既存のビジュアライズ技術によって、例えば、グラフ構造に従って配置された、文書群中の語の集合の画面表示として出力することができる。
検索範囲指定部2が指定した検索範囲が、インシデント対応履歴DB11に登録されているすべてのインシデント、および、ナレッジDB12に登録されているすべてのナレッジからなる文書群であった場合、テキストマイニング部3は、インシデント対応履歴DB11に登録されているすべてのインシデント、および、ナレッジDB12に登録されているすべてのナレッジからなる文書群に対してテキストマイニング処理を行うことができる。
まず、テキストマイニング部3は、読込部21によって、すべてのインシデントのテキストデータ(「タイトル」、「事象」、「原因」、「対策」の欄(図2参照)に格納されたデータ)、および、すべてのナレッジのテキストデータ(「タイトル」、「事象」、「原因」、「対策」の欄(図3参照)に格納されたデータ)を読み込む(図5のステップS1に対応)。次に、テキストマイニング部3は、前処理部22によって、読み込んだテキストデータの前処理を行う(図5のステップS2に対応)。
次に、テキストマイニング部3は、形態素解析部23および係り受け解析部24によって、すべてのインシデントおよびすべてのナレッジを対象にして、テキストデータの形態素解析および係り受け解析を行う(図5のステップS3に対応)。形態素解析によって、すべてのインシデントおよびすべてのナレッジを対象にした、形態素群および各形態素の品詞が特定される。
例えば、“何が(〈属性〉)どうなのか(〈評価〉)”を知りたい場合、係り受け解析部24は、名詞および形容詞の形態素を選択する。係り受け解析によって、選択された名詞および形容詞の各々が、「係り」または「受け」のいずれに該当するかが判定され、係り受け構造が特定される。
ところで、例えば、形容詞“広い”は、“部屋”や“風呂”など空間・場所を示す名詞を修飾する。このように、語の係り受け関係には意味的な制限があることが知られており、このような制限は「共起制限」と呼ばれる。係り受け解析部24が特定する係り受け構造には、共起制限が強く反映される。
次に、テキストマイニング部3は、グラフ作成部25によって、すべてのインシデントおよびすべてのナレッジのそれぞれについて、係り受け構造に基づくグラフを作成する(図5のステップS4に対応)。グラフ作成部25は、選択された語(名詞および形容詞)の原型をノード(単語ノード)とし、係り受け関係をエッジとする。係り受け関係が成立している語のノード同士がエッジによって連結されている。
また、すべてのインシデントおよびすべてのナレッジについて、係り受け関係に参加しない端点ノードと、端点ノードと連結するエッジとを便宜上用意する。端点ノードは、例えば、各インシデントおよび各ナレッジの管理番号(図2、図3参照)と示すことができる。グラフ作成部25は、端点ノードが同じ文書内のいずれかのノードに連結したグラフを作成する。
また、グラフ作成部25は、選択された語(名詞および形容詞)の出現回数(TF値)を、単語ノードのアトリビュートとして設定する。なお、形容詞については、原型が同じであるが活用が異なる語同士(例:「広く」と「広けれ」)は、同じ形容詞(例:「広い」)が出現したとして扱い、原型の形容詞(例:「広い」)のTF値として積算する。
また、グラフ作成部25は、ある2単語間の係り受け関係が出現した回数を、その2単語ノード間のエッジの重み(weight)として設定する。
また、グラフ作成部25は、インシデントごと、かつ、ナレッジごとに作成したグラフをマージする。マージするグラフ間で、同一の単語ノード、および、同一のエッジが存在する場合、それらのノードおよびエッジは共有されるとともに、TF値および重みは加算される。このように、各ノードにTF値、および各エッジに重みが設定された、マージ後の1つのグラフが作成される。
次に、テキストマイニング部3は、は、クラスタリング部26によって、すべてのインシデントおよびすべてのナレッジを対象にして、マージしたグラフのクラスタリングを行う(図5のステップS5に対応)。このクラスタリングは、エッジの重みを考慮したクラスタリングとなる。クラスタリングによって、1または複数のクラスタが生成される。クラスタリングの結果として、マージしたグラフ中の各ノードは、生成されたクラスタのいずれかに属する。
次に、テキストマイニング部3は、抽出部27によって、生成されたクラスタの各々から、1または複数の特徴語を抽出する(図5のステップS6に対応)。具体的には、TF値が所定値以上に大きな値となるノードの語を特徴語として抽出する。
次に、テキストマイニング部3は、設定部28によって、生成されたクラスタに対してトピックを設定する(図5のステップS7に対応)。例えば、設定部28は、クラスタの各々について、上位20個の特徴語から想定される話題となる語を定義することができる。しかし、上位20個に限定する必要はなく、上位19個以下から定義してもよいし、上位21個以上から定義してもよいし、上位に該当しない同じクラスタ内の任意個数の特徴語から定義してもよい。
テキストマイニング部3のテキストマイニング処理によれば、同義語の関係にある複数種類の語(例:「値段」、「料金」、「価格」)は、同じクラスタに分類される傾向にある。また、テキストマイニング部3のテキストマイニング処理によれば、表記揺れの関係にある複数種類の語は、同じクラスタに分類されるといえる(例:「アメニティ」と「アメニティー」の関係、「ない」と「無い」といった漢字表記とひらがな表記の関係)。
上記の各種分類が可能になるのは、クラスタリングの対象となる文書群のグラフが、係り受け構造、具体的には、共起制限に基づいて作成されたことに起因する。本実施形態によれば、クラスタリングによって生成されたクラスタから、同義語、類義語、表記揺れの関係にある複数種類の語を容易に特定することができ、同義語、類義語、表記揺れを定義する役割を果たすシソーラスを不要とすることができる(クラスタ自身が実質的にシソーラスを構築している)。
したがって、本実施形態によれば、シソーラスを用いない高精度なテキストマイニング(シソーラスを用いた従来のテキストマイニングと同程度の精度のテキストマイニング)を実現することができる。
また、従来のテキストマイニングは、“何が(〈属性〉)どうなのか(〈評価〉)”を知るために、〈評価対象〉を定義する必要があった。換言すれば、〈評価対象〉を定義しなければ、〈属性〉を決定しても〈評価〉を抽出することができず、テキストマイニングを実現することができなかった。しかし、従来における〈評価対象〉の定義は、主にテキストマイニングを行うユーザが手動で行うものであったため、〈評価対象〉の定義漏れを確実に回避することはできなかった。このため、テキストマイニングの精度の低下を招くおそれがあった。
本実施形態によれば、設定部28が設定するトピックが、〈評価対象〉の役割を果たす。クラスタリング部26は、テキストマイニングの対象となる文書群に対してクラスタを漏れなく生成することができる。よって、設定部28によって、生成されたクラスタごとにトピックを漏れなく設定することができ、〈評価対象〉の定義漏れを確実に回避することができる。換言すれば、クラスタリング部26は、新たな〈評価対象〉を発見するためのきっかけを提供することができる。
したがって、本実施形態によれば、〈評価対象〉の定義漏れに起因するテキストマイニングの精度の低下を防ぐことができる。
(トピック割合計算部4)
図1に戻って、トピック割合計算部4は、テキストマイニング処理がなされた特定の文書群に含まれる文書ごとのトピック割合を計算する。特定の文書群に含まれる各文書には、1または複数の特徴語が出現し、各特徴語は、テキストマイニング処理において生成された1または複数種類のクラスタの何れかに属している。また、生成されたクラスタの各々に対して所定のトピックが(設定部28によって設定されていなくても)対応付けられている。つまり、特定の文書群に含まれる各文書は、1または複数種類のトピックを含んでいる。
対象文書におけるトピック割合は、対象文書に含まれるトピックごとに計算することができる。対象文書における対象トピックのトピック割合は、以下の計算式で計算される。
・対象文書における対象トピックのトピック割合 = (対象トピックに対応するクラスタに属する特徴語の数)/(対象文書に出現する特徴語の総数)
対象文書における対象トピックのトピック割合を、対象文書に含まれるすべてのトピックについて計算し、足し合わせれば1となる。
トピック割合計算部4は、テキストマイニング処理がなされた特定の文書群のうち一部を対象とした対象部分文書群におけるトピック割合を計算することもできる。具体的には、対象部分文書群における対象トピックのトピック割合は、対象部分文書群に含まれる各文書における対象トピックのトピック割合(テキストマイニング処理がなされた特定の文書群の文書ごとのトピック割合)を、対象部分文書群に含まれる文書に対して集計した値に等しい。
検索範囲指定部2が指定した検索範囲が、特定の文書群に含まれる各文書の一部であった場合にも、トピック割合計算部4によるトピック割合を計算することができる。例えば、タイトル、事象、原因、対策の4項目を有する文書について、検索範囲を、各文書のタイトルおよび事象の2項目とした場合、各文書のうち、タイトルおよび事象の2項目に記載されているテキストデータを対象としたテキストマイニング処理がなされた後、トピック割合計算部4によって、対象文書における対象トピックのトピック割合を計算することができる。
(類似度計算部5)
類似度計算部5は、特定の文書群に含まれる第1の文書について、トピック割合計算部4が計算したトピック割合と、特定の文書群に含まれる第2の文書について、トピック割合計算部5が計算したトピック割合とを用いて、第1の文書と第2の文書との間の類似度を計算する。類似度の計算方法は、例えば、コサイン類似度を用いることができるが、これに限定されない。コサイン類似度によって、第1の文書と第2の文書との間の類似度を計算する方法は以下の通りである。
すなわち、特定の文書群に対してn種類のトピックが存在する(n個のクラスタが生成した)とした場合、第1の文書について、i(=1,2,・・・,n)番目のトピックのトピック割合を、第1の文書に対して用意する第1のベクトルのi番目の成分の値とする。次に、第2の文書について、i番目のトピックのトピック割合を、第2の文書に対して用意する第2のベクトルのi番目の成分の値とする。
最後に、第1のベクトルおよび第2のベクトルの内積を計算し、正規化した値を計算し、第1の文書と第2の文書との間の類似度とする。コサイン類似度の場合、類似度は、0~1の実数値(絶対値)をとり、1に近づくほど類似度が高くなる。
検索範囲指定部2が指定した検索範囲が、特定の文書群に含まれる各文書の一部であった場合にも、類似度計算部5による類似度を計算することができる。例えば、タイトル、事象、原因、対策の4項目を有する文書について、検索範囲を、各文書のタイトルおよび事象の2項目とした場合、第1の文書のタイトルおよび事象の2項目に記載されているテキストデータに対してトピック割合計算部4が計算したトピック割合と、第2の文書のタイトルおよび事象の2項目に記載されているテキストデータに対してトピック割合計算部4が計算したトピック割合と、を用いて、類似度計算部5が、第1の文書(のタイトルおよび事象のテキストデータ)と第2の文書(のタイトルおよび事象のテキストデータ)との間の類似度を計算することができる。
図2に示す類似度(タイトル・事象・原因・対策)は、問合せデータ、すべてのインシデント、および、すべてのナレッジを対象にして、テキストマイニング部3によるテキストマイニング処理(図5)を実行した場合において、類似度計算部5が、問合せデータに含まれるテキストデータと、各インシデントのタイトル、事象、原因、対策の4項目すべてに含まれるテキストデータとに対して計算した類似度である。
また、図2に示す類似度(タイトル・事象)は、上記と同様のテキストマイニング処理(図5)を実行した場合において、類似度計算部5が、問合せデータに含まれるテキストデータと、各インシデントのタイトルおよび事象の2項目に含まれるテキストデータとに対して計算した類似度である。
(原因・対策推定部6)
原因・対策推定部6は、情報運用装置100の利用者が、システム障害等の問合せをするユーザであった場合、当該ユーザのユーザ端末からの要求、つまり問合せについて、インシデント対応履歴DB11およびナレッジDB12を参照して、事象の原因、および、対策を推定する。原因・対策推定部6による処理の詳細は、後記する。
(ナレッジ修正支援部7)
ナレッジ修正支援部7は、情報運用装置100の利用者が、インシデントおよびナレッジを管理する管理者であった場合、当該管理者の管理者端末からの要求に応じて、インシデント対応履歴DB11およびナレッジDB12を参照して、ナレッジDB12のナレッジの修正を支援する。ナレッジ修正支援部7は、インシデント対応履歴DB11のインシデントの各々、および、ナレッジDB12のナレッジの各々の間で、類似度計算部5による類似度を計算し、計算した類似度を用いて、修正対象となるナレッジの候補を決定する。ナレッジ修正支援部7による処理の詳細は、後記する。
(インシデント分析部8)
インシデント分析部8は、情報運用装置100の利用者が、インシデントを用いた分析を行う分析者であった場合、当該分析者の分析者端末からの要求に応じて、インシデント対応履歴DB11を参照して、インシデントの分析を支援する。インシデント分析部8は、トピック割合計算部4が計算したトピック割合を用いた画面情報を含むインシデント傾向結果を応答することができる。インシデント分析部8による処理の詳細は、後記する。
(応答出力部9)
応答出力部9は、トピック割合計算部4、類似度計算部5、原因・対策推定部6、ナレッジ修正支援部7、および、インシデント分析部8による処理結果を出力し、利用者に応答する。
≪処理≫
本実施形態の情報運用装置100が実行する具体的な処理について説明する。情報運用装置100が実行する具体的な処理には、トピック割合計算処理、類似度計算処理、原因・対策推定処理、新規ナレッジ作成支援処理、グループ化処理、既存ナレッジ統廃合支援処理、既存ナレッジ見直し支援処理、インシデント傾向把握支援処理があり、順次説明する。
[トピック割合計算処理]
トピック割合計算処理は、情報運用装置100がトピック割合計算部4によって実行する処理である。以下、図6を参照して、トピック割合計算処理の詳細を説明する(適宜他図を参照)。トピック割合計算処理は、例えば、オペレータからトピック割合計算の要求があった場合に開始する。
図6に示すように、まず、トピック割合計算部4は、検索範囲指定部2によって、トピック割合計算処理の対象となる特定の文書群を検索範囲として指定する(ステップT1)。指定される検索範囲は、例えば、オペレータからのトピック割合計算の要求に含まれており、つまり、オペレータの発意で決定される。
次に、トピック割合計算部4は、テキストマイニング部3によって、指定された特定の文書群に対するテキストマイニング処理(図5参照)を実行する(ステップT2)。
最後に、トピック割合計算部4は、トピック割合計算部4によって、テキストマイニング処理がなされた特定の文書群について、文書ごとのトピック割合を計算する(ステップT3)。
本実施形態のトピック割合計算処理によれば、トピック割合を計算することで、特定の文書群の各文書がどのようなトピックで構成された文書であるかを定量的に評価することができ、文書の分類を詳細かつ容易にすることができる。
[類似度計算処理]
類似度計算処理は、情報運用装置100が類似度計算部5によって実行する処理である。以下、図7を参照して、類似度計算処理の詳細を説明する(適宜他図を参照)。類似度計算処理は、例えば、オペレータから類似度計算の要求があった場合に開始する。当該要求には、検索範囲指定部2が指定した検索範囲となる特定の文書群のうち、類似度の計算対象となる第1の文書および第2の文書の識別情報が含まれている。
図6に示すように、まず、類似度計算部5は、第1の文書のトピック割合を取得する(ステップU1)。具体的には、類似度計算部5は、類似度計算の要求に含まれている識別情報から読み出した第1の文書に対して、トピック割合計算部4がトピック割合計算処理(図6)を実行して計算したトピック割合を取得する。
次に、類似度計算部5は、第2の文書のトピック割合を取得する(ステップU2)。具体的には、類似度計算部5は、類似度計算の要求に含まれている識別情報から読み出した第2の文書に対して、トピック割合計算部4がトピック割合計算処理(図6)を実行して計算したトピック割合を取得する。
最後に、類似度計算部5は、第1の文書のトピック割合と、第2の文書のトピック割合とを用いて、第1の文書と第2の文書との間の類似度を計算する(ステップU3)。
本実施形態の類似度計算処理によれば、第1の文書と第2の文書との間の類似度を計算することで、利用者の要求を満たすことができる文書が存在するか否かを、トピック割合の観点から定量的に判断することができ、存在する場合には、当該文書を即座に利用者に応答することができる。
[原因・対策推定処理]
原因・対策推定処理は、情報運用装置100が原因・対策推定部6によって実行する処理である。以下、図8を参照して、原因・対策推定処理の詳細を説明する(適宜他図を参照)。原因・対策推定処理は、システム障害等の対策を知りたいユーザから問合せがあった場合に開始する。
図8に示すように、まず、原因・対策推定部6は、要求取得部1によって、ユーザのユーザ端末からの問合せを受け付けた、オペレータのオペレータ端末が、ユーザの問合せを示す問合せデータを入力する(ステップA1)。問合せデータはテキストデータであり、例えば、「新規に参画した人がメールやOSの初期設定をしているのですが、設定がうまくいきません」というテキストデータであったとする。なお、問合せデータは、情報運用装置100の記憶部に記憶される。また、問合せデータのタイムスタンプとして、問合せデータを受け付けた日時(例:2018/08/07)も関連付けて記憶部に記憶される。
次に、原因・対策推定部6は、テキストマイニング部3によって、問合せデータのグラフ(以下、「グラフ(問合せデータ)」を称する場合がある)を作成する(ステップA2)。具体的には、問合せデータに対し、前処理部22(図4)による前処理、形態素解析部23(図4)および係り受け解析部24(図4)による解析を経て、グラフ作成部25(図4)が、グラフ(問合せデータ)を作成する。
次に、原因・対策推定部6は、検索範囲指定部2によって、特定の文書群となる検索範囲を指定する(ステップA3)。検索範囲を指定は、例えば、オペレータのオペレータ端末から、オペレータの発意で行うことができる。なお、検索範囲の指定において、特定の文書群の各文書の一部を指定することもできる。
次に、原因・対策推定部6は、テキストマイニング部3によって、検索範囲のグラフ(以下、「グラフ(検索範囲)」を称する場合がある)を作成する(ステップA4)。具体的には、検索範囲に対し、前処理部22(図4)による前処理、形態素解析部23(図4)および係り受け解析部24(図4)による解析を経て、グラフ作成部25(図4)が、グラフ(検索範囲)を作成する。
次に、原因・対策推定部6は、テキストマイニング部3のグラフ作成部25によって、グラフ(問合せデータ)とグラフ(検索範囲)とをマージする(ステップA5)。
次に、原因・対策推定部6は、テキストマイニング部3のクラスタリング部26によって、マージしたグラフのクラスタリングを行う(ステップA6)。その結果、マージしたグラフに関する1または複数のクラスタが生成される。
次に、原因・対策推定部6は、テキストマイニング部3の抽出部27によって、生成された各クラスタから、1または複数の特徴語を抽出する(ステップA7)。
次に、原因・対策推定部6は、トピック割合計算部4によって、抽出された特徴語を用いて、検索範囲となる特定の文書群において、文書ごとのトピック割合を計算する(ステップA8)。
次に、原因・対策推定部6は、類似度計算部5によって、問合せデータと、検索範囲となる特定の文書群の各文書との間の類似度を計算する(ステップA9)。なお、検索範囲の指定において、特定の文書群の各文書の一部を指定した場合、類似度計算部5は、問合せデータと、各文書のうち、指定した一部との間の類似度を計算する。
次に、原因・対策推定部6は、検索範囲となる特定の文書群のうち、類似度計算部5が計算した類似度が閾値以上となる文書を抽出する(ステップA10)。コサイン類似度の場合、閾値として、0~1の任意の値を設定することができる。抽出された文書は、問合せデータに示す表現に類似する表現を含む文書であり、ユーザからの問合せで示される事象の原因および対策が記載されている可能性が高いといえる。
次に、原因・対策推定部6は、応答出力部9によって、抽出された文書を、オペレータのオペレータ端末に応答する(ステップA11)。オペレータは、オペレータ端末を操作して、例えば、抽出された文書のすべてを、ユーザのユーザ端末に応答してもよいし、特に有用と判断した文書のみを応答してもよい。
最後に、原因・対策推定部6は、オペレータ端末によるユーザへの応答状況に応じて、インシデント対応履歴DB11を更新する(ステップA12)。具体的には、オペレータ端末が入力した問合せデータ(ステップA1)に対して、インシデント対応履歴DB11(図2)のエントリを追加し、追加したエントリの各欄に、問合せデータに応じた事項を登録する。
例えば、インシデント対応履歴DB11(図2)の「カテゴリ」欄には、「インシデント」が格納される。「管理番号」欄には、例えば、オペレータ端末が入力した問合せデータ(ステップA1)際に、自動付与された識別子(INCxxxxxxxx)が格納される。
「類似度(タイトル・事象)」欄には、類似度計算部5が、検索範囲となる特定の文書群の各文書のうち、タイトルおよび事象のテキストデータと、問合せデータとの間での類似度を計算した場合には、当該類似度が格納される。「類似度(タイトル・事象・原因・対策)」欄には、類似度計算部5が、検索範囲となる特定の文書群の各文書のうち、タイトル、事象、原因、対策のテキストデータと、問合せデータとの間での類似度を計算した場合には、当該類似度が格納される。
「タイトル」欄には、例えば、問合せの内容に応じて、オペレータが任意に決定した、タイトル用のテキストデータが格納される。「事象」欄には、問合せの内容そのものを示すテキストデータが格納される。
「原因」欄には、問合せデータに対して、原因・対策推定部6が抽出した文書の、原因の項目に記載されているテキストデータが格納される。「対策」欄には、原因・対策推定部6が抽出した文書の、対策の項目に記載されているテキストデータが格納される。
「ステータス」欄には、例えば、問合せをしたユーザへの応答が完了した場合には、クローズ値が格納される。「記録者」の欄には、例えば、ユーザからの問合せを受け付けたオペレータの氏名が格納される。「受付日時」の欄には、ユーザからの問合せをオペレータが受け付けた日時が格納される。「原因分類」の欄には、問合せの内容に応じて、オペレータが任意に決定した、原因分類用のテキストデータが格納される。
本実施形態の原因・対策推定処理によれば、係り受け構造に基づくテキストマイニングによって、ユーザからの問合せに類似する文書を抽出することができる。よって、ユーザからの問合せの原因、および、その原因の対策の推定を、正確に、かつ、迅速に行うことができる。
[新規ナレッジ作成支援処理]
新規ナレッジ作成支援処理は、情報運用装置100がナレッジ修正支援部7によって実行する処理であり、蓄積されたインシデントを新規のナレッジとしてもよいか否かを判定することを目的とする処理である。以下、図9、図10を参照して、新規ナレッジ作成支援処理の詳細を説明する(適宜他図を参照)。新規ナレッジ作成支援処理は、日々更新されるインシデントに対してナレッジを修正したいと考えている管理者からの要求があった場合に開始する。
なお、図9に示すように、説明の便宜上、新規ナレッジ作成支援処理を実行するために、検索範囲指定部2が検索範囲として指定した特定の文書群は、INC001~INC010の番号(管理番号)が付与された10個のインシデント、および、KLG001~KLG010の番号(管理番号)が付与された10個のナレッジであるとする。
また、トピック割合計算部4は、INC001~INC010のインシデント、および、KLG001~KLG010のナレッジからなる計20個の文書群において、文書ごとのトピック割合を計算することができる。
また、類似度計算部5は、トピック割合計算部4が計算したトピック割合を用いて、INC001~INC010のインシデント、および、KLG001~KLG010のナレッジからなる計20個の文書群のうち2文書の組のすべてに対して、類似度を計算することができる。図9に、類似度の計算結果のマトリクスを示す。この計算結果は、情報運用装置100の記憶部に記憶される。
インシデントまたはナレッジの行と、インシデントまたはナレッジの列とが交差するセルに記載の数値(0~1の任意の実数値)は類似度を示す。例えば、INC004のインシデントと、KLG006のナレッジとの類似度は0.7である。
また、図9において、類似度に関する閾値は0.6とし、閾値以上となる類似度を示すセルには斜線の網掛けを図示している。
また、図9の右端部において、図9中上下に延びるセル群は、マトリクスの行に示すインシデントまたはナレッジと類似する、インシデント(INC)の件数、および、ナレッジ(KLG)の件数を示している(類似件数)。例えば、INC004の行に示すインシデントに関して、他のインシデントとの類似度はすべて閾値(0.6)以下となるため、類似件数は0となる。また、10個のナレッジのうち、KLG003,KLG006の2つのナレッジとの類似度は閾値以上となるため、類似件数は2となる。
新規ナレッジ作成支援処理の説明であるが、図10に示すように、まず、ナレッジ修正支援部7は、要求取得部1によって、管理者が操作する管理者端末からの要求を、新規ナレッジ作成支援要求として取得する(ステップB1)。
次に、ナレッジ修正支援部7は、検索範囲指定部2によって、新規ナレッジ作成支援要求から、特定の文書群としての検索範囲を指定する(ステップB2)。新規ナレッジ作成支援要求には、新規ナレッジ作成支援処理を実行するときの対象となる特定の文書群(INC001~INC010のインシデント、および、KLG001~KLG010のナレッジからなる計20個の文書群)の識別情報が含まれており、当該識別情報から特定の文書群を処理対象とする。
次に、ナレッジ修正支援部7は、トピック割合計算部4および類似度計算部5によって、検索範囲となる特定の文書群に対する類似度計算結果(図9参照)を出力する(ステップB3)。
次に、ナレッジ修正支援部7は、すべてのナレッジとの類似度が閾値以下となるインシデントを新規ナレッジ候補と決定する(ステップB4)。図9に示すように、エリアR1に囲まれた類似度群は、マトリクスの行のインシデントと、マトリクスの列のナレッジとの間の類似度を示す。また、エリアR11に囲まれた類似件数群は、マトリクスの行のインシデントごとの、当該インシデントと類似しているナレッジの件数を示す。
エリアR11に注目すると、「すべてのナレッジとの類似度が閾値以下となるインシデント」には、エリアR11内の類似件数が0となるINC001,INC002,INC003,INC005,INC006,INC007の6つのインシデントが該当する。該当の6つのインシデントは、ナレッジDB12に登録されているいずれのナレッジに示す事象とも異なり、過去に決定した原因とは異なる原因を有し、また、過去に決定した対策とは異なる対策で応答した、新しいパターンのインシデントであると考えられる。このような新しいパターンのインシデントは、新しい情報価値を提供し、ナレッジDB12に登録してもよいと考えられる新規ナレッジ候補とする。
次に、ナレッジ修正支援部7は、新規ナレッジ候補ごとにグループ化を実行する(ステップB5)。新規ナレッジ候補に対するグループ化は、図11に示すグループ化処理によって、実現される。
<グループ化処理>
図11に示すグループ化処理について詳細に説明する。グループ化処理は、文書群中の各文書を複数のグループでグループ分けし、各文書がいずれのグループに属するかを決定する処理である。グループ化処理は、ナレッジ修正支援部7が実行する。
まず、文書群の類似度マトリクステーブルを作成する(ステップC1)。類似度マトリクステーブルは、文書群の文書ごとの、他の文書との間の類似度をマトリクス化してまとめたテーブルであり、図9に示す類似度計算結果と同等である。なお、類似度は、例えば、コサイン類似度で求めた類似度とするが、これに限定されない。
次に、文書群の文書ごとに、他の文書との類似度が閾値以上となる他の文書の文書数をカウントする(ステップC2)。閾値は、0~1の間の任意の実数値として設定することができるが、これに限定されない。ステップC2でカウントする文書数は、図9の右端部に示す類似件数において、文書をインシデントおよびナレッジとして区別しない場合の類似件数と同じ意味である。
次に、カウントした他の文書の文書数が最大となる文書を選出する(ステップC3)。次に、選出した文書、および、選出した文書との類似度が閾値以上となる他の文書群とで第1グループを形成する(ステップC4)。
次に、文書群から、第1のグループを構成する文書を除いた文書群について、ステップC2~ステップC4を実行し、第2グループ、第3グループ、・・・を順次形成する(ステップC5)。ステップC4,C5によれば、第1グループが、最大規模のグループとなり、以下、グループの構成要素の数の降順に第2グループ、第3グループ、・・・が形成される。
最後に、すべての文書についてグループを形成したか否かを判定する(ステップC6)。形成した場合(ステップC6でYes)、文書群中の各文書が、形成された第1グループ、第2グループ、・・・のいずれかのグループに属したことを意味し、グループ化処理を終了する。形成していない場合(ステップC6でNo)、グループに属しない文書が存在することを意味しており、当該文書がいずれのグループに属するかが決まるまで、ステップC5,C6の処理を繰り返し、グループ化処理を終了する。
図10に戻って、ステップB5のグループ化は、INC001~INC010の10個のインシデント群に対して実行される。新規ナレッジ候補となる6つのインシデントINC001,INC002,INC003,INC005,INC006,INC007のうち、他のインシデントとの類似度が閾値(0.6)以上となる他のインシデントの数が最大となるインシデントは、INC001である(INC001との類似度が0.6以上となるインシデントが、INC002,INC006,INC008,INC010の4つであり、最大の類似件数を持つ(図9に示すエリアR12参照)。)。よって、INC001(親),INC002,INC006,INC008,INC010の5つのインシデントからなる第1グループを形成する(図11のステップC4参照)。
また、新規ナレッジ候補となる6つのインシデントINC001,INC002,INC003,INC005,INC006,INC007から、第1グループを構成するINC001,INC002,INC006を除いたINC003,INC005,INC007のうち、他のインシデントとの類似度が閾値(0.6)以上となる他のインシデントの数が最大となるインシデントは、INC003である(図9に示すエリアR12を参照すると、INC003と類似する他のインシデントの件数は2(INC007,INC009)であるのに対し、INC005と類似する他のインシデントの件数は0であり、INC007と類似する他のインシデントの件数は1である)。よって、INC003(親),INC007,INC009の3つのインシデントからなる第2グループを形成する(図11のステップC5参照)。
新規ナレッジ候補となる6つのインシデントINC001,INC002,INC003,INC005,INC006,INC007から、第1グループを構成するINC001,INC002,INC006を除き、かつ、第2グループを構成するINC003,INC007を除いたINC005については、INC005に類似するインシデントは存在しない(類似件数は0)。形式的に、INC005のみからなる第3のグループを形成することは可能であるが、INC005が示す事象は、極めて稀であり、ナレッジとして記録する必要性はそれほど高いとはいえないと考えるのが妥当である。よって、INC005のインシデントは、新規ナレッジ候補から外す。
ステップB5の後、ナレッジ修正支援部7は、グループ化した新規ナレッジの候補の一覧を、管理者端末に応答する(ステップB6)。図9の例に従えば、類似件数が最も多い第1グループ(INC001(親),INC002,INC006,INC008,INC010)のインシデント群、および、類似件数が2番目に多い第2グループ(INC003(親),INC007,INC009)のインシデント群を管理者に表示する。ステップB6の後、新規ナレッジ作成支援処理が終了する。
管理者は、第1グループ(INC001(親),INC002,INC006,INC008,INC010)のインシデント群を精査して、これらのインシデントで示す事象に対する新規ナレッジを作成することができる。つまり、新規ナレッジのタイトル、事象、原因、対策をそれぞれ作成し、ナレッジDB12に新たなエントリとして追加することができる。よって、図10の新規ナレッジ作成支援処理は、既存のナレッジ群に登録されていない事象が記録されたインシデント群を管理者に提示し、管理者による新規ナレッジの作成を支援することができる。
[既存ナレッジ統廃合支援処理]
既存ナレッジ統廃合支援処理は、情報運用装置100がナレッジ修正支援部7によって実行する処理であり、ナレッジDB12に蓄積された既存のナレッジについて、いくつかを1つに統合したり、廃棄したりしてもよいか否かを判定することを目的とする処理である。以下、図9、図12を参照して、既存ナレッジ統廃合支援処理の詳細を説明する(適宜他図を参照)。既存ナレッジ統廃合支援処理は、ナレッジの修正を考えている管理者からの要求があった場合に開始する。新規ナレッジ作成支援処理(図10)と同様にして、既存ナレッジ統廃合支援処理を実行するために、検索範囲指定部2が検索範囲として指定した特定の文書群は、図9に示すものとする。
図12に示すように、まず、ナレッジ修正支援部7は、要求取得部1によって、管理者が操作する管理者端末からの要求を、既存ナレッジ統廃合支援要求として取得する(ステップD1)。
次に、ナレッジ修正支援部7は、検索範囲指定部2によって、既存ナレッジ統廃合支援要求から、特定の文書群としての検索範囲を指定する(ステップD2)。既存ナレッジ統廃合支援要求には、既存ナレッジ統廃合支援処理を実行するときの対象となる特定の文書群(INC001~INC010のインシデント、および、KLG001~KLG010のナレッジからなる計20個の文書群)の識別情報が含まれており、当該識別情報から特定の文書群を処理対象とする。
次に、ナレッジ修正支援部7は、トピック割合計算部4および類似度計算部5によって、検索範囲となる特定の文書群に対する類似度計算結果(図9参照)を出力する(ステップD3)。
次に、ナレッジ修正支援部7は、類似度が閾値以上となる他のナレッジの件数が閾値以上存在するナレッジを統廃合ナレッジ候補と決定する(ステップD4)。図9に示すように、エリアR2に囲まれた類似度群は、マトリクスの行のナレッジと、マトリクスの列のナレッジとの間の類似度を示す。また、エリアR21に囲まれた類似件数群は、マトリクスの行のナレッジごとの、当該ナレッジと類似しているナレッジの件数を示す。
「類似度が閾値以上となる他のナレッジの件数」の閾値を4とした場合、エリアR21に注目すると、KLG001のナレッジは、KLG002,KLG006,KLG008,KLG010の4つのナレッジと類似している。KLG001,KLG002,KLG006,KLG008,KLG010の5つのナレッジは、記載内容が重複していると考えられるため、1つのナレッジに統合したり、他の4つを廃棄してもあまり問題ないと考えられる統廃合ナレッジ候補とする。
次に、ナレッジ修正支援部7は、統廃合ナレッジ候補ごとにグループ化を実行する(ステップD5)。統廃合ナレッジ候補に対するグループ化は、既に説明した図11に示すグループ化処理によって、実現され、詳細な説明は省略する。ステップD5のグループ化は、KLG001~KLG010の10個のインシデント群に対して実行され、1または複数のグループが形成される。
最後に、グループ化した統廃合ナレッジ候補の一覧を、管理者端末に応答する(ステップD6)。図9の例に従えば、第1グループ(KLG001(親),KLG002,KLG006,KLG008,KLG010)のナレッジ群を管理者に表示する。ステップD6の後、既存ナレッジ統廃合支援処理が終了する。
管理者は、第1グループ(KLG001(親),KLG002,KLG006,KLG008,KLG010)のナレッジ群を精査して、これら5つのナレッジの統廃合を決定することができる。例えば、KLG001,KLG002,KLG006,KLG008,KLG010の5つのナレッジの記載内容を包含した1つのナレッジを作成し、ナレッジDB12に新たなエントリとして追加することができる。また、基本的には、KLG001,KLG002,KLG006,KLG008,KLG010の5つのナレッジの記載内容は概ね重複するため、4つのナレッジのエントリをナレッジDB12から削除してもよい。よって、図12の既存ナレッジ統廃合支援処理は、記載内容が概ね重複する既存のナレッジ群を管理者に提示し、管理者による既存ナレッジ統廃合を支援することができる。
[既存ナレッジ見直し支援処理]
既存ナレッジ見直し支援処理は、情報運用装置100がナレッジ修正支援部7によって実行する処理であり、蓄積されたインシデントから既存のナレッジを見直すべきか否かを判定することを目的とする処理である。以下、図9、図13を参照して、既存ナレッジ見直し支援処理の詳細を説明する(適宜他図を参照)。既存ナレッジ見直し支援処理は、日々更新されるインシデントに対してナレッジを見直したいと考えている管理者からの要求があった場合に開始する。新規ナレッジ作成支援処理(図10)と同様にして、既存ナレッジ見直し支援処理を実行するために、検索範囲指定部2が検索範囲として指定した特定の文書群は、図9に示すものとする。
図13に示すように、まず、ナレッジ修正支援部7は、要求取得部1によって、管理者が操作する管理者端末からの要求を、既存ナレッジ見直し支援要求として取得する(ステップE1)。
次に、ナレッジ修正支援部7は、検索範囲指定部2によって、既存ナレッジ見直し支援要求から、特定の文書群としての検索範囲を指定する(ステップE2)。既存ナレッジ見直し支援要求には、既存ナレッジ見直し支援処理を実行するときの対象となる特定の文書群(INC001~INC010のインシデント、および、KLG001~KLG010のナレッジからなる計20個の文書群)の識別情報が含まれており、当該識別情報から特定の文書群を処理対象とする。
次に、ナレッジ修正支援部7は、トピック割合計算部4および類似度計算部5によって、検索範囲となる特定の文書群に対する類似度計算結果(図9参照)を出力する(ステップE3)。
次に、ナレッジ修正支援部7は、類似度が閾値以上となるインシデントの件数が閾値以上存在するナレッジを見直しナレッジ候補と決定する(ステップE4)。図9に示すように、エリアR3に囲まれた類似度群は、マトリクスの行のナレッジと、マトリクスの列のインシデントとの間の類似度を示す。また、エリアR31に囲まれた類似件数群は、マトリクスの行のナレッジごとの、当該ナレッジと類似しているインシデントの件数を示す。
「類似度が閾値以上となるインシデントの件数」の閾値を2とした場合、エリアR11に注目すると、例えば、KLG003のナレッジは、INC004,INC008の2つのインシデントと類似している。INC004,INC008の2つのインシデントは、KLG003のナレッジが存在するにもかかわらず複数回作成されてしまったインシデントであって、KLG003のナレッジの必要性を乏しくさせるものと考えられる。この場合、KLG003のナレッジの改善を図り、KLG003のナレッジを見直しナレッジ候補とする。また、KLG006のナレッジは、INC004,INC009の2つのインシデントと類似しており、見直しナレッジ候補とする。
次に、ナレッジ修正支援部7は、見直しナレッジ候補ごとにグループ化を実行する(ステップE5)。見直しナレッジ候補に対するグループ化は、既に説明した図11に示すグループ化処理によって、実現され、詳細な説明は省略する。ステップE5のグループ化は、KLG001~KLG010の10個のインシデント群に対して実行され、1または複数のグループが形成される。結果として、見直しナレッジ候補となるKLG003のナレッジに対する第1グループ(KLG003(親),INC004,INC008)、および、見直しナレッジ候補となるKLG006のナレッジに対する第2グループ(KLG006(親),INC009)が形成される(INC004のインシデントは、KLG006のナレッジに類似するため第2グループに属することができるが、既に第1グループに属しているため、第2グループからは除外)。
最後に、グループ化した見直しナレッジ候補の一覧を、管理者端末に応答する(ステップE6)。図9の例に従えば、第1グループ(KLG003(親),INC004,INC008)および第2グループ(KLG006(親),INC009)のナレッジ群を管理者に表示する。ステップE5の後、既存ナレッジ見直し支援処理が終了する。
管理者は、第1グループ(KLG003(親),INC004,INC008)のナレッジおよびインシデントを精査して、KLG003のナレッジを見直すことができる。例えば、KLG003のナレッジの記載内容に、INC004,INC008のインシデントの記載内容を包含させることができる。また、インシデント対応履歴DB11のINC004,INC008のエントリの「対策」欄に、KLG003のナレッジのリンクを追記することができる。第2グループ(KLG006(親),INC009)についても同様である。よって、図13の既存ナレッジ見直し支援処理は、作成されたインシデントに対して改善が必要と考えられるナレッジを管理者に提示し、管理者による既存ナレッジ見直しを支援することができる。
また、既存ナレッジ見直し支援処理によれば、1つのグループに属するインシデントは、ユーザからの問合せに対して抽出されるべき、同じグループに属するナレッジに対して、本来は不要に作成されたインシデントであるといえる。このため、既存ナレッジ見直し支援処理は、作成されたインシデントの見直しを支援する処理としても機能することができる。
[インシデント傾向把握支援処理]
インシデント傾向把握支援処理は、情報運用装置100がインシデント分析部8によって実行する処理である。以下、図14を参照して、インシデント傾向把握支援処理の詳細を説明する(適宜他図を参照)。インシデント傾向把握支援処理は、インシデント群を分析する分析者から要求があった場合に開始する。
図14に示すように、まず、インシデント分析部8は、要求取得部1によって、分析者が操作する分析者端末からの要求を、インシデント傾向通知要求として取得する(ステップF1)。インシデント傾向通知要求には、分析対象となる文書群を指定する情報が含まれている。分析対象となる文書群は、インシデント対応履歴DB11に登録されているすべてのインシデントとしてもよいし、一部のインシデントとしてもよい。また、インシデント傾向通知要求において、インシデント群の指定は、複数存在してもよい。
インシデント分析部8は、検索範囲指定部2によって、インシデント傾向通知要求から、分析対象となる文書群(インシデント群)としての検索範囲を指定する(ステップF2)。なお、検索範囲は、複数指定することができる。
次に、インシデント分析部8は、トピック割合計算部4によって、指定されたインシデント群のインシデントごとのトピック割合を計算し、トピック割合計算結果として出力する(ステップF3)。具体的には、指定されたインシデント群に対してトピック割合計算処理(図6)がなされ、分析対象のインシデントごとに、かつ、テキストマイニング処理によって生成されたクラスタに対応するトピックごとに、トピック割合が計算される。対象のインシデントに含まれるすべてのトピックについてトピック割合を計算し、足し合わせれば1となる。
なお、検索範囲が複数指定されていた場合、トピック割合計算部4は、指定された検索範囲ごとに、トピック割合計算結果を出力する。
また、トピック割合計算部4は、分析対象となるインシデント群全体に対する、対象トピックのトピック割合(以下、「トピック割合[全体]」と呼ぶ場合がある)を計算することができる。具体的には、分析対象となるインシデント群の各インシデントについて計算した、対象トピックのトピック割合を集計することで、対象トピックのトピック割合[全体]を計算することができ、トピック割合計算結果として出力される。
また、トピック割合計算部4は、分析対象となるインシデント群の一部に対する、対象トピックのトピック割合(以下、「トピック割合[一部]」と呼ぶ場合がある)を計算することができる。具体的には、分析対象となるインシデント群の一部の各インシデントについて計算した、対象トピックのトピック割合を集計することで、対象トピックのトピック割合[一部]を計算することができる。分析対象となるインシデント群の一部の選択は、例えば、情報運用装置100が行うことができ、トピック割合計算結果として出力される。
例えば、分析対象となるインシデント群全体を、直近1年間に作成されたインシデント群とした場合、選択されるインシデント群を、直近1年間のうち最初の1ヶ月間に作成されたインシデント群とすることができる。トピック割合計算部4は、直近1年間に作成されたインシデント群のインシデントごとの、対象トピックのトピック割合を計算する。すると、トピック割合計算部4は、直近1年間に作成されたインシデント群の各インシデントについて計算した、対象トピックのトピック割合を集計することで、対象トピックのトピック割合[全体]を計算することができる。また、トピック割合計算部4は、直近1年間のうち最初の1ヶ月間に作成されたインシデント群の各インシデントについて計算した、対象トピックのトピック割合を集計することで、対象トピックのトピック割合[一部]を計算することができる。
次に、インシデント分析部8は、出力されたトピック割合計算結果を表示する画面情報を生成するための画面加工処理を行う(ステップF4)。画面情報には、インシデント傾向通知要求において指定されたインシデント群に出現する特徴語に関するさまざまな統計情報を含めることができる。
なお、トピック割合計算結果は、画面情報として表示することに限定されず、例えば、テキスト情報といった他の媒体による情報として表示することもできる。
最後に、インシデント分析部8は、応答出力部9によって、画面加工処理によって生成された画面情報をインシデント傾向結果として分析者端末に応答する(ステップF5)。ステップF5の後、インシデント傾向把握支援処理が終了する。
ステップF5で分析者端末に応答したインシデント傾向結果を、分析者端末の表示部で表示したときの画面例を図15に示す。図15の画面には、コンボボックス1301aと、検索ワード入力欄1301bと、検索ボタン1301cと、事象タブ1302aと、原因タブ1302bと、対策タブ1302cと、今年度ボタン1303aと、前年度ボタン1303bと、トピック割合エリア1303と、インシデント発生件数エリア1304と、特徴語一覧エリア1305とが設けられている。ただし、画面の構成要素は、これらに限定されない。
コンボボックス1301aは、インシデントの検索手段の選択肢を格納するGUI(Graphic User Interface)である。選択肢が「インシデント管理番号検索」である場合、インシデントの管理番号(図2参照)を入力して検索することにより、該当のインシデントのタイトル、事象、原因、対策のテキストデータを表示することができる。また、選択肢が「テキスト検索」である場合、所定のテキストを入力して検索することにより、入力したテキストを含むインシデント一覧を表示することができる。
検索ワード入力欄1301bは、コンボボックス1301aに示す検索手段に対応する検索ワードを入力するためのGUIである。検索ワードには、例えば、数値(例:管理番号)やテキスト(例:インシデントのテキスト)があるが、これらに限定されない。
検索ボタン1301cは、コンボボックス1301aで選択された検索手段で、検索ワード入力欄1301bに入力された検索ワードで検索を開始するためのGUIである。
事象タブ1302aは、検索ボタン1301cの検索で該当するインシデントのうち、事象のテキストを表示するためのGUIである。
原因タブ1302bは、検索ボタン1301cの検索で該当するインシデントのうち、原因のテキストを表示するためのGUIである。
対策タブ1302cは、検索ボタン1301cの検索で該当するインシデントのうち、対策のテキストを表示するためのGUIである。
なお、文書のタイトルのテキストを表示するためのタイトルタブがあってもよい。
今年度ボタン1303aは、例えば、当年4月~当月の期間に受け付けたインシデント群(分析対象となるインシデント群全体)のインシデント傾向結果を表示するためのGUIである。
前年度ボタン1303bは、例えば、前年4月~当年3月の期間に受け付けたインシデント群(分析対象となるインシデント群全体)のインシデント傾向結果を表示するためのGUIである。
なお、任意の期間に受け付けたインシデント群のインシデント傾向結果を表示するためのGUIを設けてもよい。
トピック割合エリア1303には、インシデント傾向通知要求によって指定されたインシデント群に対するトピック割合が表示される。例えば、4月始まりの年度単位で発生したインシデント群に対するトピック割合を円グラフ(年度累計)で表示することができる。つまり、1年間に受け付けた問合せに対するインシデント群に対して設定される複数のトピックを、トピック割合の大きい順に円グラフで表示する。1年間という期間は、例えば、今年度でもよいし、前年度でもよいし、他の年度でもよい。
なお、説明の便宜上、インシデントの発生日時は、インシデント対応履歴DB11(図2)の「受付日時」と同じとする。
インシデント発生件数エリア1304には、インシデント傾向通知要求によって指定されたインシデント群に対応する問合せ(つまり、インシデント)の発生件数が表示される。例えば、4月始まりの年度単位で発生したインシデントの件数を、月別の縦棒グラフで表示することができる。図15に示すように、縦棒グラフを月別に横方向に並べることで、インシデント発生件数の月別推移を表示することができる。
また、図15に示すように、各月の縦棒グラフは、当該月に発生したインシデント群に対して設定されたトピックごとに区分された積み上げ縦棒グラフとすることができる。ここで、「当該月に発生したインシデント群」は、当該月を含む年度に発生したインシデント群を分析対象となるインシデント群(検索範囲)とした場合に、当該分析対象となるインシデント群から一部が選択されたインシデント群である。各月の積み上げ縦棒グラフは、例えば、「トピック割合計算部4によって当該月に発生したインシデント群に対して設定されたトピックごとに計算されたトピック割合と、当該月のインシデント発生件数との積」が大きい順に、上から配置されるように表示することができる。このような表示により、発生したインシデントを特徴づけるトピックを、画面を閲覧する分析者に強く印象付けることができる。
特徴語一覧エリア1305には、インシデント傾向通知要求によって指定されたインシデント群に対して設定されるトピックごとに、当該トピックに属する特徴語の一覧が表示される。図15に示すように、特徴語一覧エリア1305には、設定されたトピックの識別子となるトピックID(T001,T002,T003,・・・)と、当該トピックに対応するクラスタを構成するノードで示される特徴語(図15では、「word-word」と略記)とが、対応付けが確認できるように表示されている。なお、トピックIDの各々には、ハイパーリンクが張られており、ハイパーリンクが張られたトピックIDをクリックすると、該当のトピックのクラスタを表示した画面(図示略)に遷移することができる。
インシデント分析部8によって、図16に示すインシデント傾向結果が得られた場合について説明する。図16には、2016/4/3~2016/4/9の1週間(該当週(の終了日):2016/4/9)に発生したインシデント群から得られる複数のトピックに関する情報リストL1と、2016/4/10~2016/4/16の1週間(該当週(の終了日):2016/4/16)に発生したインシデント群から得られる複数のトピックに関する情報リストL2と、2016/4/17~2016/4/23の1週間(該当週(の終了日):2016/4/23)に発生したインシデント群から得られる複数のトピックに関する情報リストL3と、を合わせたインシデント傾向結果を示す。図16の表は、「トピックID」欄、「トピック割合」欄、「トピック割合×インシデント発生件数」欄、「該当週」欄、「特徴語」欄を有し、トピックごと、かつ、該当週ごとにリストが作成される。
「トピックID」欄には、該当週に発生したインシデント群に対して設定されたトピックの識別子が格納される。
「トピック割合」欄には、該当週に発生したインシデント群に対してトピック割合計算部4が計算したトピック割合の値が格納される。「トピック割合」欄に格納されたトピック割合は、対象のインシデント群の各インシデントごとにピック割合計算部4が計算したトピック割合の平均値を示す。
「トピック割合×インシデント発生件数」欄には、トピック割合と、該当週に発生したインシデントの発生件数との積の値が格納される。
「特徴語」欄には、該当週に発生したインシデント群に対して設定されたトピックに属する特徴語が格納される。
情報リストL1に注目すると、情報リストL1の各トピック(T001,T003,T005,T006,T007,T009,T011,T012,T014)のトピック割合が、トピック割合エリア1303(図15)に円グラフで表示される。このとき、情報リストL1内で最大のトピック割合を有するT005のトピック(トピック割合:0.41379)が、円グラフの時計回りに最初に表示される。なお、情報リストL1の各トピック割合の合計は1である。
また、情報リストL1に示す、2016/4/3~2016/4/9の1週間に発生したインシデントの発生件数は2である。よって、情報リストL1の各トピックの「トピック割合×インシデント発生件数」は、「トピック割合」の2倍になる。よって、インシデント発生件数エリア1304(図15)には、2016/4/3~2016/4/9の1週間に発生したインシデントを一部として含むインシデント群全体に対するインシデント傾向結果における、「トピック割合×インシデント発生件数」の値に応じた、週別の積み上げ縦棒グラフが表示される。このとき、情報リストL1内で最大の「トピック割合×インシデント発生件数」を有するT005のトピック(トピック割合×インシデント発生件数:0.82759)が、積み上げ縦棒グラフの最上部に表示される。
また、情報リストL1に示す、トピックIDごとの特徴語が、特徴語一覧エリア1305(図15)に一覧表示される。
上記の情報リストL1に関する、トピック割合エリア1303、インシデント発生件数エリア1304、特徴語一覧エリア1305の表示の説明は、情報リストL2,L3にもあてはまる。つまり、図16に示すインシデント傾向結果の情報は、図15に示す画面に一通り表示される。
したがって、図14のインシデント傾向把握支援処理は、インシデント傾向結果を示す画面を分析者に提示することにより、分析者によるインシデント傾向の把握を支援することができる。
≪まとめ≫
本実施形態によれば、情報運用装置100がトピック割合計算部4を備えることにより、特定の文書群の各文書がどのようなトピックで構成された文書であるかを定量的に評価することができ、文書の分類を詳細かつ容易にすることができる。つまり、トピック割合計算部4は、利用者からの要求に対し、正確な情報を迅速に応答するための手段となり得る。
したがって、情報発信の正確性および迅速性の向上を支援することができる。
また、情報運用装置100が類似度計算部5を備えることにより、利用者の要求を満たすことができる文書が存在するか否かを、トピック割合の観点から定量的に判断することができ、存在する場合には、当該文書を即座に利用者に応答することができる。
また、情報運用装置100が原因・対策推定部6を備えることにより、ユーザの問合せに対する、原因および対策を含む文書が存在するか否かを正確に判断することができ、存在する場合には、当該文書を即座にユーザに応答することができる。
このとき、検索範囲指定部2が、特定の文書群に含まれる各文書の一部を検索範囲として指定することで、原因および対策を含む文書が存在するか否かの判断に要する時間を短縮することができ、ユーザへの応答をより早くすることができる。
また、情報運用装置100がナレッジ修正支援部7を備えることにより、管理者の要求に対して、情報運用装置100が記憶する文書から、修正を必要とするナレッジの候補を即座に管理者に応答することができる。修正を必要とするナレッジの候補には、新規ナレッジとなり得るインシデント、ナレッジの重複に対して統廃合してもよいナレッジ、見直しが必要なナレッジが含まれる。
また、情報運用装置100がインシデント分析部8を備えることにより、特定のインシデント群の各インシデントがどのようなトピックで構成された文書であるかを定量的に評価することができ、インシデントの分類を詳細かつ容易にすることができる。つまり、インシデント分析部8は、分析者からの要求に対し、正確な情報を迅速に応答するための手段となり得る。
≪その他≫
(a):本実施形態では、係り受け解析の際、係り受け解析部24が名詞および形容詞の形態素を選択した。しかし、選択される品詞は、名詞および形容詞に限らず、例えば副詞の形態素も選択してもよい。また、“何が(〈属性〉)どうなのか(〈評価〉)”ではなく、“何が(〈属性〉)どうした(〈評価〉)”を知りたい場合には、係り受け解析部24が名詞および動詞の形態素を選択することもできる。係り受けの種類に応じて、選択する形態素の品詞を適宜変更することができる。
(b):グラフ作成部25が作成するグラフは、無向グラフでもよいし、有向グラフでもよい。有向グラフの場合、「係り」に該当するノードから「受け」に該当するノードに向かうエッジとしてもよいし、「受け」に該当するノードから「係り」に該当するノードに向かうエッジとしてもよいし、「係り」に該当するノードにも「受け」に該当するノードにも向かうエッジとしてもよいし、これらが混在してもよい。
(c):クラスタリング部26によるクラスタリンク結果の出力形式は、クラスタごとの特徴語の列挙であってもよい。また、特徴語ごとに、〈属性〉と〈評価〉との関係性や、TF値を明示した出力形式とすることができる。この出力形式は、名詞ノード(〈属性〉)と連結している形容詞ノード(〈評価〉)を抽出することで実現することができる。
出力形式の一例としては、「[〈属性〉の語](TF値)-[第1の〈評価〉の語](TF値)/[第2の〈評価〉の語](TF値)/・・・」とすることができる。例えば、特定のクラスタ内の部屋,広い,お部屋,風呂,ベッド,綺麗,狭い,快適,・・・と列挙されている特徴語に対して、「部屋(128)-広い(34)/綺麗(20)・・・」という出力形式をとることができる。
(d):設定部28が設定する話題は、例えば、対応のクラスタに属するノードの中心性の指標にもとづいて設定してもよい。
本実施形態で説明した種々の技術を適宜組み合わせた技術を実現することもできる。
本実施形態で説明したソフトウェアをハードウェアとして実現することもでき、ハードウェアをソフトウェアとして実現することもできる。
その他、ハードウェア、ソフトウェア、フローチャートなどについて、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
100 情報運用装置
1 要求取得部
2 検索範囲指定部
3 テキストマイニング部
4 トピック割合計算部
5 類似度計算部
6 原因・対策推定部
7 ナレッジ修正支援部
8 インシデント分析部
9 応答出力部
11 インシデント対応履歴DB
12 ナレッジDB
21 読込部
22 前処理部
23 形態素解析部
24 係り受け解析部
25 グラフ作成部
26 クラスタリング部
27 抽出部
28 設定部

Claims (7)

  1. 文書群の情報を運用する情報運用装置であって、
    前記文書群のうち特定の文書群を検索範囲として指定する検索範囲指定部と、
    前記指定された検索範囲のテキストデータを形態素解析する形態素解析部と、
    前記テキストデータの係り受け解析をする係り受け解析部と、
    前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成部と、
    前記作成されたグラフのクラスタリングを行うクラスタリング部と、
    前記クラスタリングによって生成されたクラスタから特徴語を抽出する抽出部と、
    前記抽出された特徴語を用いて、前記特定の文書群に含まれる文書ごとのトピック割合を計算するトピック割合計算部と、を備え、
    前記特定の文書群に含まれる第1の文書について、前記トピック割合計算部が計算したトピック割合と、前記特定の文書群に含まれる第2の文書について、前記トピック割合計算部が計算したトピック割合とを用いて、第1の文書と第2の文書との間の類似度を計算する類似度計算部、をさらに備える、
    ことを特徴とする情報運用装置。
  2. 問合せのテキストデータである問合せデータの入力があった場合、前記問合せデータと、前記特定の文書群との間で、前記類似度計算部による類似度を計算し、前記計算した類似度が閾値以上となる文書を応答する原因・対策推定部、をさらに備える、
    ことを特徴とする請求項に記載の情報運用装置。
  3. 前記検索範囲指定部は、前記特定の文書群に含まれる各文書の一部を前記検索範囲として指定し、
    前記原因・対策推定部は、前記問合せデータと、前記特定の文書群のうち前記指定された検索範囲との間で、前記類似度計算部による類似度を計算し、前記計算した類似度が閾値以上となる文書を応答する、
    ことを特徴とする請求項に記載の情報運用装置。
  4. 前記特定の文書群に含まれる文書は、インシデントおよびナレッジであり、
    前記インシデントおよび前記ナレッジの各々について、他のインシデントおよび他のナレッジとの間で、前記類似度計算部による類似度を計算し、前記計算した類似度を用いて、修正対象となる前記ナレッジの候補を決定するナレッジ修正支援部、をさらに備える、
    ことを特徴とする請求項に記載の情報運用装置。
  5. 文書群の情報を運用する情報運用装置であって、
    前記文書群のうち特定の文書群を検索範囲として指定する検索範囲指定部と、
    前記指定された検索範囲のテキストデータを形態素解析する形態素解析部と、
    前記テキストデータの係り受け解析をする係り受け解析部と、
    前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成部と、
    前記作成されたグラフのクラスタリングを行うクラスタリング部と、
    前記クラスタリングによって生成されたクラスタから特徴語を抽出する抽出部と、
    前記抽出された特徴語を用いて、前記特定の文書群に含まれる文書ごとのトピック割合を計算するトピック割合計算部と、を備え、
    前記特定の文書群は、特定のインシデント群であり、
    前記特定のインシデント群に関するインシデント傾向を通知する要求があった場合、前記特定のインシデント群に含まれる各インシデントについて、前記トピック割合計算部が計算したトピック割合を用いたインシデント傾向結果を応答するインシデント分析部、をさらに備える、
    ことを特徴とする情報運用装置。
  6. 文書群の情報を運用する情報運用装置が実行する情報運用方法であって、
    前記文書群のうち特定の文書群を検索範囲として指定する検索範囲指定ステップと、
    前記指定された検索範囲のテキストデータを形態素解析する形態素解析ステップと、
    前記テキストデータの係り受け解析をする係り受け解析ステップと、
    前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成ステップと、
    前記作成されたグラフのクラスタリングを行うクラスタリングステップと、
    前記クラスタリングによって生成されたクラスタから特徴語を抽出する抽出ステップと、
    前記抽出された特徴語を用いて、前記特定の文書群に含まれる文書ごとのトピック割合を計算するトピック割合計算ステップと、を実行し、
    前記特定の文書群に含まれる第1の文書について、前記トピック割合計算ステップで計算したトピック割合と、前記特定の文書群に含まれる第2の文書について、前記トピック割合計算ステップで計算したトピック割合とを用いて、第1の文書と第2の文書との間の類似度を計算する類似度計算ステップ、をさらに実行する、
    ことを特徴とする情報運用方法。
  7. 文書群の情報を運用する情報運用装置が実行する情報運用方法であって、
    前記文書群のうち特定の文書群を検索範囲として指定する検索範囲指定ステップと、
    前記指定された検索範囲のテキストデータを形態素解析する形態素解析ステップと、
    前記テキストデータの係り受け解析をする係り受け解析ステップと、
    前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成ステップと、
    前記作成されたグラフのクラスタリングを行うクラスタリングステップと、
    前記クラスタリングによって生成されたクラスタから特徴語を抽出する抽出ステップと、
    前記抽出された特徴語を用いて、前記特定の文書群に含まれる文書ごとのトピック割合を計算するトピック割合計算ステップと、を実行し、
    前記特定の文書群は、特定のインシデント群であり、
    前記特定のインシデント群に関するインシデント傾向を通知する要求があった場合、前記特定のインシデント群に含まれる各インシデントについて、前記トピック割合計算ステップで計算したトピック割合を用いたインシデント傾向結果を応答するインシデント分析ステップ、をさらに備える、
    ことを特徴とする情報運用方法。
JP2018196065A 2018-10-17 2018-10-17 情報運用装置および情報運用方法 Active JP7223549B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018196065A JP7223549B2 (ja) 2018-10-17 2018-10-17 情報運用装置および情報運用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018196065A JP7223549B2 (ja) 2018-10-17 2018-10-17 情報運用装置および情報運用方法

Publications (2)

Publication Number Publication Date
JP2020064463A JP2020064463A (ja) 2020-04-23
JP7223549B2 true JP7223549B2 (ja) 2023-02-16

Family

ID=70388313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018196065A Active JP7223549B2 (ja) 2018-10-17 2018-10-17 情報運用装置および情報運用方法

Country Status (1)

Country Link
JP (1) JP7223549B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722278A (zh) * 2021-07-27 2021-11-30 山东旗帜信息有限公司 一种基于pdf文件的知识元抽取方法、设备及介质
US20230222358A1 (en) * 2022-01-10 2023-07-13 International Business Machines Corporation Artificial intelligence operations adaptive multi-granularity event grouping

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009211429A (ja) 2008-03-04 2009-09-17 Fujitsu Ltd 情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体
US20150120738A1 (en) 2010-12-09 2015-04-30 Rage Frameworks, Inc. System and method for document classification based on semantic analysis of the document

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009211429A (ja) 2008-03-04 2009-09-17 Fujitsu Ltd 情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体
US20150120738A1 (en) 2010-12-09 2015-04-30 Rage Frameworks, Inc. System and method for document classification based on semantic analysis of the document

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
柳沢孝ほか,潜在的トピックモデルに基づく索引語の係り受けを用いた文書検索,第3回データ工学と情報マネジメントに関するフォーラム 論文集 [online],電子情報通信学会データ工学専門委員会,2011年08月04日,pp.1-6,[検索日:2011.08.04], Internet<URL:http://db-event.jpn.org/deim2011/proceedings/pdf/a1-1.pdf>

Also Published As

Publication number Publication date
JP2020064463A (ja) 2020-04-23

Similar Documents

Publication Publication Date Title
US11789952B2 (en) Ranking enterprise search results based on relationships between users
US11663254B2 (en) System and engine for seeded clustering of news events
US9842170B2 (en) Method, apparatus and system of intelligent navigation
US10970314B2 (en) Content discovery systems and methods
US8719302B2 (en) Methods, apparatus and software for analyzing the content of micro-blog messages
CN103729359B (zh) 一种推荐搜索词的方法及系统
CN113704451B (zh) 一种电力用户诉求筛选方法、系统、电子设备和存储介质
JP4962967B2 (ja) Webページ検索サーバ及びクエリ推薦方法
CN108475320B (zh) 在搜索查询当中识别查询模式及相关联的聚合统计
KR19990076970A (ko) 다수 및/또는 복합 질의를 사용하여 데이터 세트의 내용을 평가하는 방법 및 시스템
CN104077407B (zh) 一种智能数据搜索系统及方法
US10002187B2 (en) Method and system for performing topic creation for social data
MXPA03009815A (es) Generacion dinamica de presentaciones personalizadas de contenido de informacion de dominio especifico.
TW201915777A (zh) 金融非結構化文本分析系統及其方法
US20130066865A1 (en) Implicit or explicit subscriptions and automatic user preference profiling in collaboration systems
US9996529B2 (en) Method and system for generating dynamic themes for social data
JPWO2014002775A1 (ja) 同義語抽出システム、方法および記録媒体
KR20220064016A (ko) 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법
CA2956627A1 (en) System and engine for seeded clustering of news events
JP7223549B2 (ja) 情報運用装置および情報運用方法
JP5556711B2 (ja) カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム
JP4631795B2 (ja) 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
JP2015194831A (ja) 障害現象情報分析装置及び障害現象情報分析方法
JP2022137569A (ja) 情報管理システム
JP2019117484A (ja) テキストマイニング装置およびテキストマイニング方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230206

R150 Certificate of patent or registration of utility model

Ref document number: 7223549

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150