JP2016053871A - データ生成装置、データ生成方法、及びプログラム - Google Patents

データ生成装置、データ生成方法、及びプログラム Download PDF

Info

Publication number
JP2016053871A
JP2016053871A JP2014179888A JP2014179888A JP2016053871A JP 2016053871 A JP2016053871 A JP 2016053871A JP 2014179888 A JP2014179888 A JP 2014179888A JP 2014179888 A JP2014179888 A JP 2014179888A JP 2016053871 A JP2016053871 A JP 2016053871A
Authority
JP
Japan
Prior art keywords
work
description
data
document data
descriptions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014179888A
Other languages
English (en)
Other versions
JP6190341B2 (ja
Inventor
暁 渡邉
Akira Watanabe
暁 渡邉
剛 豊野
Takeshi Toyono
剛 豊野
達明 木村
Tatsuaki Kimura
達明 木村
研 西松
Ken Nishimatsu
研 西松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014179888A priority Critical patent/JP6190341B2/ja
Publication of JP2016053871A publication Critical patent/JP2016053871A/ja
Application granted granted Critical
Publication of JP6190341B2 publication Critical patent/JP6190341B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】一連の作業のそれぞれの内容が自由記述された文書データから各作業の異同を区別可能なデータを獲得すること。
【解決手段】データ生成装置は、実施された一連の作業ごとに当該作業に関する記述を自由形式で含む、複数の文書データを、前記各文書データの記述内容の類似性に基づいて1以上の集合に分類する分類部と、前記複数の文書データのうちの第一の文書データに含まれる各作業に関する第一の記述のそれぞれを、前記第一の文書データと同じ前記集合に分類された第二の文書データに含まれる各作業に関する第二の記述との類似性に基づいて、いずれかの前記第二の記述に対応付け、対応付けられた記述群ごとに共通の識別情報を付与して、前記文書データに含まれる各記述が前記識別情報に置換されたデータを生成する生成部と、を有する。
【選択図】図2

Description

本発明は、データ生成装置、データ生成方法、及びプログラムに関する。
今日、システム運用業務の証跡の確保や、運用ナレッジの蓄積等を目的として、システム運用におけるインシデント発生時の状況と対応とが業務記録データベースに蓄積され、一元的に管理されている。
例えば、業務記録データベースには、過去に発生したインシデントの全てが蓄積され、オペレータは、故障発生時の対応や過去のインシデントからのマニュアルの作成等を、業務記録の情報に基づいて実施する。
業務記録は、業務に関して実施された1以上の作業等を示す情報が、非構造な自然言語データによって記述されたものである。各業務記録は、自由形式によって記述されるため、同じ作業に関する記述でも同一の表現で記述されるとは限らない。そのため、現状は人の手で業務記録から一連の作業系列が抽出され、対応の判断やマニュアル作成等が手作業で実施されている。なお、作業系列とは、業務記録に含まれる作業に関する記述を時系列に示す情報をいう。
業務記録データベースには大量の業務記録が蓄積され、また、マニュアル作成等は運用するシステムのアップデート等に伴って定期的に行われる操作であるため、業務記録から一連の作業系列を抽出する操作は、非常に多くの手間を必要とし、実施頻度も高い。そのため、業務記録を予め構造化された作業系列のデータとして蓄積し、機械的、自動的に業務記録から作業系列を取り出せるようにしたいという要望がある。なお、ここでは、同一の作業ならば同一の作業IDが付与され、異なる作業には異なる作業IDが付与されたデータのことを、構造化された作業系列のデータと呼ぶ。
斯かる状況に鑑み、例えば、非特許文献1には、自然言語で記述された運用手順書から、実施作業の記述箇所を判定及び抽出し、構造化された作業系列のデータを獲得する方法が開示されている。
麻岡正洋、難波功、"運用手順書からの自動実行フロー生成"、信学技報2012-79、2013 渡邉暁、木村達明、豊野剛、西松研、"ネットワーク運用効率化に向けたトラブルチケット分類手法の検討"、 信学会総合大会、2014 渡邉暁、木村達明、豊野剛、西松研、"トラブルチケットにおけるオペレータの作業情報抽出手法"、IN/NS研究会、2014 クラスタ生成の統計アルゴリズム〜階層的手法、k-means法、[online]、[平成26年8月11日検索]、インターネット<http://www.antecanis.com/texts/group_04/> Sorensen-Dice Coefficient、[online]、[平成26年8月11日検索]、インターネット<http://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient> Needleman Saul B and Wunsch Christian D、"A general method applicable to the search for similarities in the amino acid sequence of two proteins"、Journal of Molecular Biology 48、1970
しかしながら、非特許文献1の方法における運用手順書からの作業系列のデータの獲得では、作業を示す機器名等を示す主語と、動作を示す述語との記述ルールを、予め事前に定義しておく必要がある。また、記述ルールは、システムのアップデートに伴う機能追加等により、その都度追加される必要がある。また、業務記録には、「正常性確認」等、対象機器によって異なる作業が同じ記述で表現されている場合もあり、記述ルールの活用では業務記録の違いを得るのは困難である。
本発明は、上記の点に鑑みてなされたものであって、一連の作業のそれぞれの内容が自由記述された文書データから各作業の異同を区別可能なデータを獲得することを目的とする。
そこで上記課題を解決するため、データ生成装置は、実施された一連の作業ごとに当該作業に関する記述を自由形式で含む、複数の文書データを、前記各文書データの記述内容の類似性に基づいて1以上の集合に分類する分類部と、前記複数の文書データのうちの第一の文書データに含まれる各作業に関する第一の記述のそれぞれを、前記第一の文書データと同じ前記集合に分類された第二の文書データに含まれる各作業に関する第二の記述との類似性に基づいて、いずれかの前記第二の記述に対応付け、対応付けられた記述群ごとに共通の識別情報を付与して、前記文書データに含まれる各記述が前記識別情報に置換されたデータを生成する生成部と、を有する。
一連の作業のそれぞれの内容が自由記述された文書データから各作業の異同を区別可能なデータを獲得することができる。
第一の実施の形態におけるデータ生成装置のハードウェア構成例を示す図である。 第一の実施の形態におけるデータ生成装置の機能構成例を示す図である。 第一の実施の形態においてデータ生成装置が実行する処理手順の一例を説明するためのフローチャートである。 業務記録記憶部の構成例を示す図である。 業務記録集合記憶部の構成例を示す図である。 作業記述系列記憶部の構成例を示す図である。 作業系列記憶部の構成例を示す図である。 作業系列の生成処理の処理手順の一例を説明するためのフローチャートである。 第二の実施の形態においてデータ生成装置が実行する処理手順の一例を説明するためのフローチャートである。
以下、図面に基づいて本発明の実施の形態を説明する。図1は、第一の実施の形態におけるデータ生成装置のハードウェア構成例を示す図である。図1のデータ生成装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、インタフェース装置105、表示装置106、及び入力装置107等を有する。
データ生成装置10での処理を実現するプログラムは、CD−ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従ってデータ生成装置10に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。表示装置106はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置107はキーボード及びマウス等で構成され、様々な操作指示を入力させるために用いられる。
図2は、第一の実施の形態におけるデータ生成装置の機能構成例を示す図である。図2において、データ生成装置10は、業務記録分類部11、作業記述抽出部12、作業系列生成部13、及びUI制御部14等を有する。これら各部は、データ生成装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。データ生成装置10は、また、業務記録記憶部121、システム状態記憶部122、業務記録集合記憶部123、作業記述系列記憶部124、及び作業系列記憶部125等を利用する。これら各記憶部は、補助記憶装置102、又はデータ生成装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
業務記録記憶部121は、過去に記述された業務記録を記憶する。業務記録とは、システム運用におけるインシデント発生時の状況や、当該状況に対する対応として行われた一連の作業等に関する記述を時系列に(行われた作業の順に)含む文書データの一例である。例えば、業務記録は、インシデントの発生ごとに作成され、業務記録記憶部121に記憶される。システム状態記憶部122は、業務記録に関連するシステムの状態に関する情報を記憶する。例えば、システム状態記憶部122には、当該システムのログデータ(例えば、syslogデータ)や、アラートメッセージ等が記憶されている。
業務記録分類部11は、業務記録記憶部121に記憶されている業務記録の集合を、業務記録の記述内容の類似性に基づいて分類する。業務記録の記述内容の類似性に基づく分類の趣旨は、業務の共通性に基づく分類である。すなわち、共通の業務に関する業務記録が同一のグループ(以下、「共通業務記録集合」という。)に属するように、業務記録の集合が分類される。分類結果は、業務記録集合記憶部123に記憶される。
本実施の形態において、業務記録の対象となる「業務」とは、システム運用において遂行される業務をいう。例えば、或る障害が発生した場合、当該障害からコンピュータシステムを普及するための業務が、「業務」に該当する。ここで、同じ種類の障害に対して実施される業務が、共通の業務である。すなわち、実施の契機となる原因が共通する業務が、共通の業務である。また、作業とは、業務において実施された一連の作業のそれぞれをいう。換言すれば、作業の集合が業務である。
作業記述抽出部12は、業務記録記憶部121に記憶されている業務記録ごとに、1つの作業記述系列を抽出する。作業記述系列とは、1以上の作業記述が時系列に配列されたデータをいう。作業記述とは、業務記録に係る業務に関して行われた1以上の一連の作業のうちの一つの作業の内容を示す記述である。抽出された作業記述系列は、作業記述系列の抽出元の業務記に関連付けられて、作業記述系列記憶部124に記憶される。
作業系列生成部13は、同一の共通業務記録集合に属する業務記録の作業記述系列間において、類似する作業記述同士を対応付ける。作業系列生成部13は、対応付けられた作業記述群に属する各作業記述対して共通の作業IDを付与する。作業系列生成部13は、更に、各作業記述系列作に含まれる各作業記述が作業IDに置換されたデータ(以下、「作業系列」という。)を生成する。作業IDとは、作業ごとの識別情報である。異なった表現による作業記述であっても、同一の作業を示す作業記述には、同一の作業IDが付与される。したがって、作業系列は、構造化されたデータの一例である。生成された作業系列は、作業系列記憶部125に記憶される。
UI制御部14は、ユーザからの入力の受け付けや、ユーザに対する情報の出力等を行う。
以下、データ生成装置10が実行する処理手順について説明する。図3は、第一の実施の形態においてデータ生成装置が実行する処理手順の一例を説明するためのフローチャートである。
ステップS101において、業務記録分類部11は、業務記録記憶部121に記憶されている業務記録の集合を、業務の共通性に基づいて共通業務記録集合に分類する。
図4は、業務記録記憶部の構成例を示す図である。図4において、業務記録記憶部121は、各業務記録を、業務記録IDに対応付けて記憶する。業務記録IDは、業務記録ごとの識別情報である。業務記録には、当該業務記録に係る業務に関して行われた作業の内容を示す記述(作業記述)や作業の内容以外の記述が、時系列に含まれる。作業記述については、自然言語によって、自由形式で記述される。したがって、同一の作業に関する作業記述であっても、作業者によって異なる表現によって記述される可能性が有る。作業の内容以外の記述の一例としては、作業の実施において参照されたデータや作業の実施によって得られた情報等に関する記述が挙げられる。例えば、図4において業務記録IDが、「業務記録0001」である業務記録の1〜3行目は作業記述に該当する。3行目の「#show log」は、ログを確認するために、作業者がコンソール画面に入力したコマンドを示す。4行目及び5行目は、当該コマンドの入力に応じて出力されたログの内容である。したがって、4行目及び5行目は、作業記述に該当しない。6行目は、「モジュールを交換」という作業に関する作業記述である。
ステップS101では、図4に示されるような業務記録の集合が共通業務記録集合に分類され、分類結果が業務記録集合記憶部123に記憶される。
図5は、業務記録集合記憶部の構成例を示す図である。図5において、業務記録集合記憶部123は、各業務記録IDの集合を、業務IDに対応付けて記憶する。業務記録IDの集合は、同じ共通業務記録集合に分類された各業務記録の業務記録IDの集合である。業務IDは、共通業務記録集合ごとの識別情報である。なお、共通業務記録集合は、業務の共通性に基づいて分類された業務記録の集合である。したがって、業務IDは、業務ごとの識別情報でもある。
なお、業務記録の分類方法は、所定の方法に限定されない。例えば、一般的な文書分類の手法である、K−Meansや階層的クラスタリング(非特許文献4参照)が用いられてもよい。K−Meansとは、複数のデータを、類似したデータ同士で指定した数のクラスに分類するクラスタリング手法である。また、非特許文献2のように、各業務記録に紐付く外部データがシステム状態記憶部122から取得され、各外部データの特徴量が生成されて、当該特徴量が同一又は類似する業務記録同士が、同一の共通業務記録集合に分類されるようにしてもよい。斯かる外部データの一例として、システムのログデータや、アラートメッセージ等が挙げられる。
続いて、作業記述抽出部12は、業務記録記憶部121に記憶されている業務記録ごとに、作業記述系列を抽出する(S102)。図4に示されるように、業務記録には、ログ等、作業記述以外の記述も含まれる。作業記述以外の記述は、最終的に生成される作業系列には不要な記述である。そこで、ステップS102では、作業記述以外の記述を除去するために、業務記録から作業記述系列が抽出され、抽出結果が、作業記述系列記憶部124に記憶される。
図6は、作業記述系列記憶部の構成例を示す図である。図6において、作業記述系列記憶部124は、作業記述系列ID及び業務記録IDに対応付けて、業務記録から抽出された作業記述系列を記憶する。作業記述系列IDは、作業記述系列ごとの識別情報である。業務記録IDは、作業記述系列の抽出元である業務記録の業務記録IDである。基本的に、作業記述系列IDと業務記録IDとは、1対応1に対応する。
例えば、図6において、1行目の作業記述系列は、図4における1行目の業務記録から、作業記述以外の記述である「00:00:00 Module A Error」及び「00:00:00 Module B OK」が除去された結果である。
非特許文献3には、業務記録の各作業記述を、事前に与えた学習データを元に、同一の情報にラベリングするシステムについて記載されており、これによって、作業記述系列を構成する各作業記述の抽出が可能である。非特許文献3に記載された方法では、学習データとしてラベルデータが与えられると、ラベルデータに基づいて、作業記述に含まれる単語等の表現の特徴の頻度について学習が行われる。新たな単語を含む作業記述でも、既知の単語特徴から、作業記述であると判別され、更に、ラベルデータとして新たな単語の頻度を得ることで、作業記述に含まれる表現の特徴を追加的に学習可能である。そのため、新たな作業記述の追加に対して、作業記述の人的なルールのアップデートの必要が無い。そこで、作業記述の抽出には非特許文献3に記載された方法が用いられてもよい。但し、他の方法を用いて作業記述が抽出されてもよい。なお、非特許文献3における「作業記録」又は「トラブルチケット」が、本実施の形態における「業務記録」に対応し、非特許文献3における「作業情報」が、本実施の形態における「作業記述」に対応する。
なお、例えば、当初から業務記録には作業記述以外の記述が含まれない場合、ステップS102は実行されなくてもよい。また、作業記述以外の記述であっても、相互に類似する記述であれば同じ作業IDが付与された作業系列を得たい場合は、ステップS102は実行されなくてもよい。
続いて、作業系列生成部13は、各作業記述系列に含まれる作業記述を作業IDに置換して、作業系列を生成する(S103)。詳しくは、作業系列生成部13は、同一の共通業務記録集合に属する複数の業務記録に対応する複数の作業記述系列のそれぞれに含まれる作業記述に関して、作業の共通性に基づいて対応付けを行う。相互に対応付けられた各作業記述には、共通の作業IDが付与される。生成された作業系列は、作業系列記憶部125に記憶される。
図7は、作業系列記憶部の構成例を示す図である。図7において、作業系列記憶部125は、作業記述系列ID及び業務記録IDに対応付けて、作業IDの集合を記憶する。すなわち、作業系列記憶部125が記憶する情報は、作業記述系列記憶部124が記憶する情報のうち、作業記述系列を構成する各作業記述が、作業IDに置換されたものである。したがって、図7における作業IDの集合が、作業系列に相当する。なお、作業系列には、当該作業系列の生成元の作業記述系列に含まれる作業記述の順番が維持された状態で、各作業記述に対応する作業IDが含まれる。
なお、図3に示される各ステップは、必ずしも同期的又は連続的に実行されなくてもよい。例えば、ステップS101が事前に実行されていてもよい。
続いて、ステップS103の詳細について説明する。図8は、作業系列の生成処理の処理手順の一例を説明するためのフローチャートである。
ステップS201において、UI制御部14は、解析対象とする共通業務記録集合の指定をユーザから受け付ける。例えば、業務IDがユーザによって入力されてもよい。又は、UI制御部14が、業務IDの一覧を表示装置106に表示し、当該一覧の中から業務IDが選択されてもよい。UI制御部14は、指定された業務IDを、作業系列生成部13に入力する。以下、指定された業務IDを「対象業務ID」という。なお、複数の共通業務記録集合が解析対象とされてもよい。この場合、複数の業務IDがユーザによって指定されてもよい。また、全部の共通業務記録集合が解析対象とされてもよい。複数の共通業務記録集合が解析対象とされる場合、ステップS202以降が、共通業務記録集合ごとに実行されればよい。
続いて、作業系列生成部13は、対象業務IDに対応付けられている業務記録IDの集合を、業務記録集合記憶部123(図5)から取得する(S202)。続いて、作業系列生成部13は、取得された各業務記録IDに対応付けられている各作業記述系列を、作業記述系列記憶部124(図6)から取得する(S203)。
続いて、作業系列生成部13は、作業記述系列ごとに、当該作業記述系列に含まれる各作業記述の特徴量を生成する(S204)。すなわち、作業記述系列に含まれる各作業記述を機械的に対応付けるためには、作業記述系列の各作業記述に対して同一の情報であるかどうかを評価可能な数値表現が必要となる。そこで、作業記述系列に含まれる各作業記述が、当該作業記述に含まれる文字や単語等に基づく特徴量によって表現される。
ここで、i番目の作業記述系列を、Wi=[wi1,wi2,...,wiMi]とする。但し、Miはi番目の作業記述系列に含まれる作業記述の数である。例えば、図6の例では、各作業記述系列に含まれる作業記述の数は、4である。なお、各作業記述系列に含まれる作業記述の数は、必ずしも相互に同じでなくてもよい。
wijは、ここでは例として作業記述を示す文字列であるとする。この際、i番目の作業記述系列における、j番目の作業記述の特徴量xijを、次のように表す。
xij={xk|σk(wij)=1}
特徴量xijを決める特徴関数σは、ユーザが任意に定めてもよい。例えば、以下のような関数が定義されてもよい。
Figure 2016053871
数1に示される式は、文字列wijに、"確認"という文字列が含まれる場合に1となり、そうでない場合に0となる。
作業記述系列に含まれる各作業記述の特徴量の集合の系列[X1,X2,...,XN]をTとおく。但し、Nは入力とする(ステップS203で取得された)作業記述系列の数である。例えば、対象業務IDが、「業務001」であれば、業務001に対応する業務記録ID及び作業記述系列IDは2つである。したがって、この場合、Nの値は2である。
このとき、i番目の業務記録(すなわち、i番目の作業記述系列)は、特徴量の列Xi=[xi1,xi2,...,xiMi]として表現される。
なお、ここでは、説明の便宜上、xijが、作業記述を示す文字列wijから生成されることとしたが、作業記述に紐付いたデータであれば、他のデータを用いて特徴量が生成されてもよい。例えば、システム状態記憶部122に記憶されているシステムのログデータやアラートメッセージ等を用いて特徴量が生成されてもよい。特徴量の生成元のデータとしては、作業時に出力されるsyslogの集合、作業時に出力される監視システムのアラートメッセージの集合等が考えられる。又は、作業記述の文字列と当該作業記述に紐付く外部データとが併用されて特徴量が算出されてもよい。また、特徴量ではなく、作業記述の文字列又は外部データ自体が、続くステップS205における類似度の計算対象とされてもよい。
続いて、作業系列生成部13は、N個の作業記述系列のそれぞれに属する各作業記述の特徴量の類似性に基づいて、同じ作業IDを付与する作業記述の対応付けを行う(S205)。同じ作業IDを付与する作業記述の対応付けの方法は、所定のものに限定されないが、本実施の形態では、遺伝子配列の対応付けなどに用いられる、アライメントと呼ばれる系列データの対応付け手法を用いる例について説明する。アライメントでは、特徴量が類似する作業記述同士が対応付けられる。
特徴量の類似は、2つの特徴量の間の類似度に基づいて判定される。ここでは、相互に異なる作業記述系列に含まれる2つの作業記述の特徴量x,x´の類似度を、s(x,x´)として表す。類似度の定義は、作業記述の類似性に相関のある数値であれば、所定のものに限定されない。本実施の形態では、一般的に使用されるDice係数(非特許文献5参照)を用いた類似度について説明する。Dice係数は、2つの集合の間で一致する要素数に比例する値であり、次のように定義される。
s(x,x´)=2|x∩x´|/|x||x´|
但し、|・|は、集合・に含まれる要素数を表す演算であり、x∩x´は、xとx´の積集合である。
作業系列生成部13は、例えば、二つの作業記述系列に属する各作業記述同士のアライメントに関して複数通りの組み合わせが有る場合、各組み合わせについて、当該組み合わせにおいて対応付けられたそれぞれの作業記述同士の類似度の合計を当該組み合わせのスコアとして求める。具体的には、作業記述系列Aに含まれる作業記述が、{a1、a2、a3、a4}であり、作業記述系列Bに含まれる作業記述が、「b1、b2、b3、b4」である場合、作業記述の対応付けは、4×4=16通りの組み合わせが有る。そのうちの一つの組み合わせにおいて、a1とb1、a2とb2、a3とb3、a4とb4とが対応付く。a1とb1との類似度を類似度1、a2とb2との類似度を類似度2、a3とb3との類似度を類似度3、a4とb4との類似度を類似度4とすると、当該組み合わせのスコアは、類似度1+類似度2+類似度3+類似度4である。このようなスコアが全ての組み合わせに関して求められ、スコアが最大となる組み合わせにおいて、類似度が閾値を超える作業記述同士が、同じ作業IDの付与対象として対応付けられる。
なお、アライメントにおいて、同じ作業記述系列に属する作業記述の順番の前後関係と、これらの作業記述が対応付く作業記述の順番の前後関係との交錯が許容されないようにしてもよい。具体的には、上記の例において、a2、a3、又はa4が、a1に対応付く作業記述よりも順番が前である作業記述に付くような組み合わせは、許容されないという制限が設けられてもよい。すなわち、最終的に生成される作業系列において、作業IDの並び順は重要な要素である。したがって、上記のような制限が設けられることにより、作業の前後関係が考慮されて、作業記述同士を対そう付けることができる。また、計算量の削減といった効果も得られる。
なお、アライメントの方法は所定のものに限定されない。例えば、マルチプルシーケンスアライメントの方法を用いて作業記述の対応付けが求められてもよい。
マルチプルシーケンスアライメントとは、複数の系列データに対して、系列データ中の類似度が高い要素同士を対応付ける手法である。マルチプルシーケンスアライメントの方法としては、Needleman−Wunschアルゴリズム(非特許文献6参照)の活用等が考えられる。当該アルゴリズムによれば、類似度が閾値を超えるもの同士で対応付けを行うことが可能である。また、当該アルゴリズムによれば、或る1つの作業記述に対して、或る1つの作業記述系列から複数の作業記述が対応付くことはない。そのため、2つの作業記述系列の間で、一方の作業記述系列に属する1つの作業記述に関して、1対1又は1対0の作業記述間の対応付けが可能となり、類似度の低い作業記述同士が対応付けられるのを回避することができる。
続いて、作業系列生成部13は、ステップS205において相互に対応付けられた作業記述の集合ごとに、同一の作業IDを付与する(S206)。すなわち、同一の集合に属する各作業記述には、相互に同一の作業IDが付与される。この際、異なる集合間において作業IDが重複は許容されないようにする。その結果、同じ作業を表す作業記述ごとに、同じ作業IDが付与され、構造化された作業系列が獲得される。
なお、UI制御部14は、業務記録ごとに、当該業務記録の変換先の作業系列を表示装置106に表示してもよい。ユーザは、同一の作業には同一の作業IDが付与されていることが保証された構造化データである作業系列を、コンピュータシステムのオペレーション業務の作業手順又は操作手順の確認や、オペレーション業務に関するマニュアル作成等に用いることができる。
上述したように、第一の実施の形態によれば、自由記述である業務記録を、作業を示す記述ルール等を事前に定義することなしに、同一の作業が同一の作業IDで表現された構造化データへ自動的に変換することができる。すなわち、複数の作業のそれぞれの内容が自由記述された文書データから、各作業の異同を区別可能なデータを獲得することができる。
次に、第二の実施の形態について説明する。第二の実施の形態では、既存の業務記録群の中から、新たに入力された業務記録に類似する業務記録を検索し、検索された業務記録を出力する例について説明する。
図9は、第二の実施の形態においてデータ生成装置が実行する処理手順の一例を説明するためのフローチャートである。
ステップS301において、UI制御部14は、新たな業務記録の入力を受け付ける。新たな業務記録とは、例えば、業務記録記憶部121に記憶されていない業務記録である。以下、当該業務記録を、「業務記録A」という。
続いて、作業記述抽出部12は、業務記録Aから作業記述系列aを抽出する(S302)。ステップS302の処理は、図3のステップS102の処理と同様でよい。
続いて、作業系列生成部13は、作業記述系列aに含まれる各作業記述と、作業記述系列記憶部124に記憶されている既存の作業記述系列のそれぞれに含まれる各作業記述とについて、特徴量を生成する(S303)。作業記述の特徴量の生成方法は、第一の実施の形態と同様でよい。
続いて、作業系列生成部13は、既存の作業記述系列ごとに、作業記述系列aとの間でスコア(作業記述間の類似度の合計)が最大となる、作業記述同士の対応付けを求める(S304)。斯かる対応付けの求め方は、第一の実施の形態と同様でよい。
続いて、作業系列生成部13は、既存の作業記述系列ごとに求められた対応付けのうち、スコアが上位N番目までの対応付けに対応する業務記録を業務記録記憶部121から取得する(S305)。Nの値は、ステップS301においてユーザによって入力されてもよいし、予め設定されていてもよい。また、N番目までの対応付けに対応する業務記録とは、当該対応付けに係る既存の作業記述系に対応付けられて作業記述系列記憶部124(図6)に記憶されている業務記録IDによって識別される業務記録をいう。
続いて、UI制御部14は、取得された業務記録を、例えば、表示装置106に表示する(S306)。当該業務記録は、スコア順にソートされてされてもよい。
図9の処理の結果、ユーザは、業務記録Aに類似する既存の業務記録を参照することができる。なお、ステップS301において入力される業務記録は、現在作成中の業務記録の一部であってもよい。この場合、当該一部に類似する部分を含む業務記録が出力される。ユーザは、出力された業務記録に基づいて、現在の業務について以降に実施すべき作業を判断することができる。
なお、本実施の形態では、説明の便宜上、業務記録が、コンピュータシステムの運用において発生する業務に関する一連の作業に関する作業記述を含むデータである例を説明したが、業務記録に含まれる作業記述は、斯かる作業に関する記述に限定されなくてもよい。例えば、特定の機器の利用において必要とされる一連の作業(又は操作)に関する記述が業務記録として蓄積されてもよい。また、他の作業に関する記述が業務記録として蓄積されてもよい。
なお、本実施の形態において、業務記録分類部11は、分類部の一例である。作業系列生成部13は、生成部の一例である。
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 データ生成装置
11 業務記録分類部
12 作業記述抽出部
13 作業系列生成部
14 UI制御部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
106 表示装置
107 入力装置
121 業務記録記憶部
122 システム状態記憶部
123 業務記録集合記憶部
124 作業記述系列記憶部
125 作業系列記憶部
B バス

Claims (6)

  1. 実施された一連の作業ごとに当該作業に関する記述を自由形式で含む、複数の文書データを、前記各文書データの記述内容の類似性に基づいて1以上の集合に分類する分類部と、
    前記複数の文書データのうちの第一の文書データに含まれる各作業に関する第一の記述のそれぞれを、前記第一の文書データと同じ前記集合に分類された第二の文書データに含まれる各作業に関する第二の記述との類似性に基づいて、いずれかの前記第二の記述に対応付け、対応付けられた記述群ごとに共通の識別情報を付与して、前記文書データに含まれる各記述が前記識別情報に置換されたデータを生成する生成部と、
    を有することを特徴とするデータ生成装置。
  2. 前記生成部は、前記第一の文書データと同じ前記集合に分類された各文書データに含まれる各作業に関する記述ごとに当該記述の特徴量を生成し、前記第一の文書データに含まれる前記第一の記述のそれぞれの特徴量と、前記第二の文書データに含まれる前記第二の記述のそれぞれの特徴量との類似性に基づいて、前記各第一の記述をいずれかの前記第二の記述に対応付ける、
    ことを特徴とする請求項1記載のデータ生成装置。
  3. 前記生成部は、前記文書データに含まれる各記述の順番が維持された状態で、前記各記述が前記識別情報に置換されたデータを生成する、
    ことを特徴とする請求項1又は2記載のデータ生成装置。
  4. 前記生成部は、前記各第一の記述を、前記第一の文書データにおける並び順において当該第一の記述よりも後の前記第一の記述が対応付く前記第二の記述よりも前記第二の文書データの並び順において前の前記第二の記述に対応付ける、
    ことを特徴とする請求項1乃至3いずれか一項記載のデータ生成装置。
  5. コンピュータが、
    実施された一連の作業ごとに当該作業に関する記述を自由形式で含む、複数の文書データを、前記各文書データの記述内容の類似性に基づいて1以上の集合に分類する分類手順と、
    前記複数の文書データのうちの第一の文書データに含まれる各作業に関する第一の記述のそれぞれを、前記第一の文書データと同じ前記集合に分類された第二の文書データに含まれる各作業に関する第二の記述との類似性に基づいて、いずれかの前記第二の記述に対応付け、対応付けられた記述群ごとに共通の識別情報を付与して、前記文書データに含まれる各記述が前記識別情報に置換されたデータを生成する生成手順と、
    を実行することを特徴とするデータ生成方法。
  6. 請求項1乃至4いずれか一項記載の各機能部としてコンピュータと機能させるプログラム。
JP2014179888A 2014-09-04 2014-09-04 データ生成装置、データ生成方法、及びプログラム Active JP6190341B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014179888A JP6190341B2 (ja) 2014-09-04 2014-09-04 データ生成装置、データ生成方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014179888A JP6190341B2 (ja) 2014-09-04 2014-09-04 データ生成装置、データ生成方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016053871A true JP2016053871A (ja) 2016-04-14
JP6190341B2 JP6190341B2 (ja) 2017-08-30

Family

ID=55745262

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014179888A Active JP6190341B2 (ja) 2014-09-04 2014-09-04 データ生成装置、データ生成方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6190341B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019124988A (ja) * 2018-01-12 2019-07-25 日本電信電話株式会社 切り分け作業特定装置、切り分け作業特定方法及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6629250B2 (ja) * 2017-01-05 2020-01-15 株式会社東芝 作業支援装置、作業支援方法およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149494A (ja) * 2003-11-12 2005-06-09 Microsoft Corp 機械翻訳技術を使用してパラフレーズを特定するためのシステム
JP2006195982A (ja) * 2005-01-10 2006-07-27 Xerox Corp コンテンツテーブルの検出ならびに参照判定の方法
US20100191731A1 (en) * 2009-01-23 2010-07-29 Vasile Rus Methods and systems for automatic clustering of defect reports
JP2012242872A (ja) * 2011-05-16 2012-12-10 Canon Inc ソフトウェアのログ管理システムおよびその制御方法、並びにプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149494A (ja) * 2003-11-12 2005-06-09 Microsoft Corp 機械翻訳技術を使用してパラフレーズを特定するためのシステム
JP2006195982A (ja) * 2005-01-10 2006-07-27 Xerox Corp コンテンツテーブルの検出ならびに参照判定の方法
US20100191731A1 (en) * 2009-01-23 2010-07-29 Vasile Rus Methods and systems for automatic clustering of defect reports
JP2012242872A (ja) * 2011-05-16 2012-12-10 Canon Inc ソフトウェアのログ管理システムおよびその制御方法、並びにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梅原雅之,外2名: "シリーズ型HTML文書の事例に基づく文書論理構造の自動認識と抽出", 第48回 人工知能基礎論研究会資料(SIG−FAI−A104), JPN6017028085, 11 March 2002 (2002-03-11), JP, pages P.27-P.32 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019124988A (ja) * 2018-01-12 2019-07-25 日本電信電話株式会社 切り分け作業特定装置、切り分け作業特定方法及びプログラム

Also Published As

Publication number Publication date
JP6190341B2 (ja) 2017-08-30

Similar Documents

Publication Publication Date Title
US11727203B2 (en) Information processing system, feature description method and feature description program
JP2016091078A (ja) 生成装置、生成方法、およびプログラム
JP7242756B2 (ja) サービス提供システム、方法及びプログラム
JP2017091113A (ja) イベント解析装置、イベント解析システム、イベント解析方法、およびイベント解析プログラム
WO2016112782A1 (zh) 一种用户的生活圈提取方法及系统
JP2017041171A (ja) テストシナリオ生成支援装置およびテストシナリオ生成支援方法
JP2013131075A (ja) 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法
JP6190341B2 (ja) データ生成装置、データ生成方法、及びプログラム
US20150310004A1 (en) Document management system, document management method, and document management program
US20210224307A1 (en) Information processing device, information processing system, and computer program product
JP6522446B2 (ja) ラベル付与装置、方法およびプログラム
JP2016076020A (ja) グループ化方法、グループ化装置、およびグループ化プログラム
JP2011238159A (ja) 計算機システム
US10528899B2 (en) Cladistics data analyzer for business data
US20220138259A1 (en) Automated document intake system
CN115146064A (zh) 意图识别模型优化方法、装置、设备及存储介质
JP2020113035A (ja) 分類支援システム、分類支援装置、学習装置、分類支援方法、及びプログラム
JP6536580B2 (ja) 文集合抽出システム、方法およびプログラム
CN106462614B (zh) 信息分析系统、信息分析方法以及信息分析程序
CN110737749B (zh) 创业计划评价方法、装置、计算机设备及存储介质
JP2017201483A (ja) 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム
CN113419951A (zh) 人工智能模型优化方法、装置、电子设备及存储介质
JP2022037802A (ja) データ管理プログラム、データ管理方法及び情報処理装置
JP6496078B2 (ja) 分析支援装置、分析支援方法、および分析支援プログラム
WO2018100700A1 (ja) データ変換装置とデータ変換方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170804

R150 Certificate of patent or registration of utility model

Ref document number: 6190341

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150