JP6835756B2 - 作業特定装置、作業特定方法及びプログラム - Google Patents

作業特定装置、作業特定方法及びプログラム Download PDF

Info

Publication number
JP6835756B2
JP6835756B2 JP2018014016A JP2018014016A JP6835756B2 JP 6835756 B2 JP6835756 B2 JP 6835756B2 JP 2018014016 A JP2018014016 A JP 2018014016A JP 2018014016 A JP2018014016 A JP 2018014016A JP 6835756 B2 JP6835756 B2 JP 6835756B2
Authority
JP
Japan
Prior art keywords
work
sentence
conversion
vectors
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018014016A
Other languages
English (en)
Other versions
JP2019133339A (ja
Inventor
暁 渡邉
暁 渡邉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018014016A priority Critical patent/JP6835756B2/ja
Publication of JP2019133339A publication Critical patent/JP2019133339A/ja
Application granted granted Critical
Publication of JP6835756B2 publication Critical patent/JP6835756B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、作業特定装置、作業特定方法及びプログラムに関する。
大規模化や機器構成の多様化が進むITシステムの運用においては、業務の効率化が求められている。特に、故障対応等の迅速化に向けた業務の継続的な改善が求められている。これは、ITシステムが大規模化され、日々の故障発生の回数や頻度が増加していることから、迅速に業務を遂行しなければ、ITシステムの維持がいずれ困難となることが予想されるためである。
業務改善に向けた分析では、まず、現在の業務の作業工程の把握が行われる場合が多い。このような分析では、プロセスマイニングと呼ばれる手法が用いられることがある。プロセスマイニングでは、業務中の作業内容をイベントログとして記録したログ列を大量に蓄積し、これらの蓄積されたログ列を分析することで、業務の作業工程を把握する。このような分析を行うツールとしては、例えば、ProM等が知られている(非特許文献1)。
プロセスマイニングでは業務中の作業内容をイベントログとして記録する必要があるため、例えば、ITシステム上で行われた作業を自動で記録するシステム(例えば、作業ログ記録システム等)を活用するのが一般的である。なお、例えば作業ログ記録システム等を用いる場合、ITシステム上で作業を行うことが前提となるが、実際の業務で発生する作業の中には、ITシステムを用いずに行う作業も存在する。
ところで、ITシステムの故障対応では、作業内容はイベントログではなく、自由記述の文書として記録される。一般に、発生した故障や障害、事故等の事象の管理は、トラブルチケットシステムを用いて管理される。トラブルチケットシステムでは、発生した故障や障害、事故等の事象をトラブルチケットという単位で記録する。トラブルチケットシステムを運用する目的は、主に、故障や障害、事故等の事象が再発した場合における参照や証跡記録のためである。
トラブルチケットには、予め決められた定型的な情報を記録する定型欄と、オペレータ等のユーザが自由に情報を記録する非定型欄とが含まれる場合が多い。定型欄には、例えば、障害の発生日時、障害対応の進捗状況、発生エラーメッセージ、対応者の氏名等が記録される。一方で、非定型欄には、例えば図1に示すような障害等の事象説明や障害対応における作業内容等が文書で記述される。発生する障害や故障、事故等の事象は毎回状況が変わり得るため、トラブルチケットに記録される情報の大部分は、非定型欄が占める場合が多い。以降では、トラブルチケットの非定型欄に記述された文書を「作業記録」とも表す。
ここで、作業工程が非定型な文書として蓄積されている場合、実施された作業工程を機械的に解析することが困難なことが多い。例えば、図1に示す作業記録は合計16行の文書であるが、実際には1つの作業を示す文が複数行に跨って記録されている。例えば、図1に示す作業記録の2行目及び3行目はエラーログを確認したこととその結果とが記載されており、2行目と3行目とで1つの作業が記録されている。図1に示す作業記録を、1つの作業毎に各文を区切った場合を図2に示す。図2に示すように、1つの作業を表す文の行数は不定である。また、同一の作業であっても同じ文で記述されることはほとんど無い。例えば、図3(a)に示す文と、図3(b)に示す文とは、いずれも同一の作業「エラーログの確認」を表すが、文の内容や発生ログの時刻等のパラメータが異なっている。
このため、上述したプロセスマイニングでは、図1に示す作業記録のような、1つの作業を表す文の集まりと、その作業内容との把握が困難な文書データを扱うことができない。したがって、作業工程が非定型な文書データとして蓄積されている場合、これら大量の文書データの作業工程を把握することは困難となる。
そこで、特に、学習データを用いずに、蓄積された全ての作業記録の記述内容を解析する技術が求められている。これに対して、保守者が記述した作業記録のうち、作業を表す文が記述されている箇所を抽出する技術が提案されている(例えば特許文献1)。また、同一の作業を表す文が記述されている箇所を特定する技術が提案されている(例えば特許文献2)。
特開2015−153188号公報 特開2016−053871号公報
Process Mining, インターネット<URL:http://www.processmining.org/prom/start>」
しかしながら、例えば特許文献1で提案されている技術では、作業を表す文の記述箇所を示すタグが付与された大量の学習データを用意する必要がある。このため、学習データの作成に多くのコストが掛かる。
他方で、例えば特許文献2で提案されている技術では、入力されるデータが業務毎に予め分類されていることが前提となる。しかしながら、例えば、故障対応等では、新たな故障の種別等が追加され得る。このため、事前に故障の種別(すなわち、業務種別)を定義して分類することが困難な場合があり、入力されるデータを予め業務毎に分類することに多くのコストが掛かることがある。
本発明は、上記の点に鑑みてなされたもので、非定型な文書に記述された各文が表す作業を特定することを目的とする。
上記課題を解決するため、本発明の実施の形態は、非定型に文が記述された文書の各文がそれぞれ表す作業を特定する作業特定装置であって、複数の前記文書が入力されると、複数の前記文書を学習することで得られた変換fにより、前記文書に記述された文に含まれる各単語それぞれを複数のベクトルに変換する変換手段と、前記変換手段により変換された複数のベクトルに基づいて、前記文書に記述された文に対して、該文が表す作業の作業IDを割り当てる割当手段と、を有することを特徴とする。
非定型な文書に記述された各文が表す作業を特定することができる。
作業記録の一例を示す図である。 1つの作業毎に各文が区切られた作業記録の一例を示す図である。 同一の作業が異なる文によって表された場合の一例を示す図である。 本発明の実施の形態における作業特定装置の機能構成の一例を示す図である。 本発明の実施の形態における作業特定装置が実行する処理の一例を示すフローチャートである。 作業記録の各文に対する作業IDの割り当て結果の一例を示す図である。 本発明の実施の形態における作業特定装置のハードウェア構成の一例を示す図である。
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。本発明の実施の形態では、非定型な文書の一例として、トラブルチケットの非定型欄に記述された作業記録を考え、作業記録の各文に対して、作業を示す作業IDを割り当てる作業特定装置10について説明する。作業特定装置10によって作業記録の各文に対して作業IDが割り当てられることで、これら各文が表す作業が特定される。これにより、例えば、作業特定装置10のユーザ等は、同一の作業IDが割り当てられた文同士を同一の作業を表す文の集まり(以降では、文の集まりを「文集合」とも表す。)であると把握することができる。また、同一の文集合に含まれる各文は同一の作業を表すため、当該文集合では同一の業務のために作業を行っていると把握することができると共に、当該業務における作業工程を把握することができる。
なお、本発明の実施の形態では、文とは、意味的にひとまとまりとなっている単語の集合のことを言うものとする。例えば、図1に示す作業記録では、各行がそれぞれ1つの文である。ただし、1つの文が1行で記述されている必要はなく、1つの文が複数の行に跨って記述されていても良い。
本発明の実施の形態では、文書分割と呼ばれる技術を応用して作業IDの割り当てを実現する。文書分割とは、与えられた文書中の各文が示すトピックを推測し、文書中のトピックが変化した位置で文書を区切る手法である。本発明の実施の形態では、作業記録の各文が表す作業をトピックと考え、このトピックを作業IDとして推定する。なお、文書分割は、同一トピックを示す文の文集合を表す学習データを用いる教師あり学習の手法と、学習データを用いない教師無し学習の手法とに大別されるが、本発明の実施の形態では、大量の学習データを作成することの困難さから、教師無し学習の手法を採用する。
また、本発明の実施の形態では、文書分割の精度を高めるため、文書分割の前に、作業記録の各文に含まれる単語を、共起性が計算し易いベクトル表現に変換する。共起性とは、1つの文集合中に同時に出現し易い単語を示す尺度である。
教師無し学習は学習データを用いないため、文書を分割した場合における適切さを何等かの指標によって評価し、その指標値が高い分割を得る必要がある。一般には、この指標として共起性を用いて、1つの文集合中に含まれる各単語の共起性が高くなるように文書分割を行うことが多い。
しかしながら、作業記録は、例えば作業対象とする装置名等、固有の単語(固有名称等)が各文に出現する場合が多い。このため、例えば装置名等の固有名称が異なると、同一の作業を表す文であっても異なる単語が含まれることにより、同一の作業を表す文に対して同一の作業IDを割り当てることが困難となる。そこで、本発明の実施の形態では、類似した意味を持つ類義語や装置名を表す語群等を類似性の高いベクトルに変換することで、この困難性を解決する。
<機能構成>
まず、本発明の実施の形態における作業特定装置10の機能構成について、図4を参照しながら説明する。図4は、本発明の実施の形態における作業特定装置10の機能構成の一例を示す図である。
図4に示すように、本発明の実施の形態における作業特定装置10は、入出力部11と、ベクトル変換部12と、作業ID割当部13とを有する。また、本発明の実施の形態における作業特定装置10は、作業記録データベース(以降、「作業記録DB」と表す。)14と、単語ベクトルデータベース(以降、「単語ベクトルDB」と表す。)15と、作業ID列データベース(以降、「作業ID列DB」と表す。)16とを有する。
入出力部11は、各種情報の入力を受け付けると共に、各種情報を出力する。例えば、入出力部11は、作業記録DB14に格納される作業記録又はベクトル変換部12に渡される作業記録を入力する。入出力部11は、例えば、キーボードやマウス等の入力装置により作成された作業記録や他の装置等から渡された作業記録等を、作業記録DB14に格納される作業記録又はベクトル変換部12に渡される作業記録として入力する。
また、例えば、入出力部11は、作業ID割当部13による割当結果(すなわち、各文に対して作業IDが割り当てられた作業記録)を出力する。入出力部11は、出力先として、例えば、ディスプレイ等の表示装置に割当結果を出力しても良いし、記録媒体や他の装置、他のプログラム等に割当結果を出力しても良い。
ベクトル変換部12は、入出力部11から渡された作業記録又は作業記録DB14に格納されている作業記録の各文に含まれる単語をベクトルに変換する。このとき、ベクトル変換部12は、入力された作業記録から学習した変換(ベクトル変換)によって、単語をベクトルに変換する。ベクトル変換部12により得られたベクトルは、単語ベクトルDB15に格納される。
作業ID割当部13は、単語ベクトルDB15に格納されているベクトルのうち、作業IDの割り当て対象の作業記録から得られたベクトルに基づいて、当該作業記録の各文に割り当てる作業IDの列(作業IDの列を、単に、「作業ID列」とも表す。)を得る。作業ID割当部13により得られた作業ID列は、作業ID列DB16に格納される。これにより、作業記録の各文に対して作業IDが割り当てられる。
<処理の詳細>
以降では、本発明の実施の形態における作業特定装置10が実行する処理の詳細について、図5を参照しながら説明する。図5は、本発明の実施の形態における作業特定装置10が実行する処理の一例を示すフローチャートである。
ステップS101:ベクトル変換部12は、作業記録を入力する。ここで、ベクトル変換部12に入力される作業記録は、入出力部11から渡された作業記録であっても良いし、作業記録DB14に格納されている作業記録であっても良いし、入出力部11から渡された作業記録と作業記録DB14に格納されている作業記録との両方であっても良い。また、作業記録DB14に格納されている作業記録を入力する場合、入出力部11は、作業記録DB14に格納されている全ての作業記録を入力しても良いし、ユーザ等により指定された作業記録のみを入力しても良い。更に、ベクトル変換部12に入力される作業記録の数は、1つ以上のであれば、任意の数を入力することができる。
ステップS102:ベクトル変換部12は、入力した作業記録の各文に含まれる単語をベクトルに変換する。そして、ベクトル変換部12は、得られたベクトルを単語ベクトルDB15に格納する。このとき、作業記録は単語の列として与えられるものとする。
ここで、ベクトル変換部12によるベクトル変換の詳細について説明する。まず、ベクトル変換部12に入力された作業記録のうち、i番目の作業記録をXとする。Xには、N個の文が含まれ、各文をそれぞれ
Figure 0006835756
とする。文とは、xijに含まれる単語wの列である。例えば、或る文が「ケーブルを接続する」であった場合、xijは、xij=wij1,wij2,wij3,wij4=(「ケーブル」,「を」,「接続」,「する」)となる。以降では、入力となる全ての作業記録の集合をX={X,X,・・・,X}とする。Iは入力された作業記録の数である。
このとき、ベクトル変換部12は、入力した作業記録に含まれる任意の単語w∈Wに対応するベクトルvを得るために、wからvへの適切な変換v=f(w)=φw´を学習する。
ただし、w´は、単語wの集合W(すなわち、語彙集合W)における単語wの単語IDがmである場合に、m次元の要素のみが1、それ以外の要素が0である1−hotベクトル(0,・・・,0,1,0,・・・,0)であるとする。また、φは、p<|W|となるpに対して、p×|W|で表される行列である。更に、vは、p次元のベクトルであり、任意の単語wに対して1つ指定される。なお、Tは転置を表す。単語IDは、集合Wにおいて各単語wを識別するIDのことである。
ベクトル変換部12に入力された作業記録の全てに含まれる単語の語彙数|W|は、一般に数万から数十万に及ぶ。また、各単語wは、|W|次元のベクトルと考えることができる。そこで、この単語wを、より小さなp次元のベクトルに変換すると共に、類似した意味を持つ単語w同士をなるべく近しいベクトルに変換することがベクトル変換部12の目的である。なお、ベクトルv同士の距離としては、例えば、ユークリッド距離等を用いれば良い。
ベクトル変換部12は、入力した作業記録の集合Xに含まれる各作業記録Xの各文xijに含まれる各単語wijkの全てをベクトルに変換し、
Figure 0006835756
に対して、
Figure 0006835756
を得る。ここで、|xij|は、文xijに含まれる単語数である。
本発明の実施の形態では、上記のベクトル変換の一例として、Skip−gramを用いたベクトル変換を採用する。なお、Skip−gramについては、以下の参考文献1を参照されたい。
[参考文献1]
Tomas Mikolov, Kai Chen, Greg Corrado and Jeffrey Dean, ''Efficient Estimation of Word Representations in Vector Space,'' ICLR 2013.
Skip−gramでは、入力として与えられたXから、文中の任意のwijkに対して、その周辺にある単語wijk+aの確率P(wijk+a|wijk)が最も高くなる変換fを学習する。ここで、a={−c,・・・,−1,1,・・・,c}であり。また、cはコンテキストサイズと呼ばれる定数である。
Skip−gramでは、以下の式に示す関数を最大化するパラメータφ及びφ´を、入力データであるXから学習することで、変換fを得る。
Figure 0006835756
ただし
Figure 0006835756
である。ここで、v´はφ´によるwの変換結果である
このとき、φ´とφとが異なる値であるため、φ´による変換結果v´とφによる変換結果vとは異なる値である。上記の式1を最大化させるφを、単語wをvに変換するための行列であるとする。より直観的な説明としては、全ての単語wijkは、共通のφを通じて
Figure 0006835756
にまず変換される。その後、φ´によって、|W|次元ベクトルw(a) ijk=φ´ijkに再び変換される。このとき、計算されたw(a) ijkと、実際の周辺語w´ijk+aとができるだけ近しいベクトルとなるように(すなわち、周辺語が正しく予測できているように)パラメータの学習を行う。具体的に説明すると、例えば、「Aを確認する」という文と、「Bを確認する」という文とがあったとする。この場合、単語Aを表すwの変換結果v=φwと、単語Bを表すwの変換結果v=φwとをできるだけ近しい値にしておいた方が上記の式1の値は大きくなる。Skip−gramは、周辺語と類似した単語を近しいベクトルにするように振る舞うため、類義語を得ることが可能となる。
ベクトル変換部12は、上記の式1で得られたパラメータφを用いた変換f(すなわち、v=f(w)=φw´)により、入力した作業記録の集合Xに含まれる各作業記録Xの各文xijに含まれる各単語wijkを変換する。
このように、本発明の実施の形態におけるベクトル変換部12は、単語wを低次元かつ類義語を把握可能なベクトルvに変換する。なお、ベクトル変換部12によるベクトル変換の一例として、Skip−gramを用いたベクトル変換を説明したが、これに限られない。ベクトル変換部12によるベクトル変換として、例えば、CBoW(Continuous Bag-of-Words)モデル等を用いたベクトル変換を採用しても良い。
ステップS103:作業ID割当部13は、単語ベクトルDB15に格納されているベクトルのうち、作業IDの割り当て対象の作業記録から得られたベクトルを入力する。例えば、作業IDの割り当て対象の作業記録の集合をX={X,X,・・・,XI´}とした場合、作業ID割当部13は、これらの作業記録Xから得られたベクトルの列(以降、「ベクトル列」とも表す。)
Figure 0006835756
を入力する。ここで、I´は、作業IDの割り当て対象の作業記録の数(すなわち、作業ID割当部13に入力される作業記録の数)である。
ステップS104:作業ID割当部13は、入力したベクトル列Vに対して、各作業記録の文数と同じ長さであるラベルの列(以降、「ラベル列」とも表す。)
Figure 0006835756
を作業ID列として得る。ここで、zijは、文xijに割り当てられる作業IDを示す変数である。zijは、作業の種類数をKとして、1,・・・,Kのいずれかの値を取る。
そして、作業ID割当部13は、得られた作業ID列を作業ID列DB16に格納する。なお、作業ID割当部13は、得られた作業ID列を、該当の作業記録の各文に割り当てた結果(すなわち、各文に対して作業IDが割り当てられた作業記録)を入出力部11に渡しても良い。これにより、入出力部11により、例えば、各文に対して作業IDが割り当てられた作業記録が出力される。
ここで、作業ID割当部13による作業ID列の割り当ての詳細について説明する。本発明の実施の形態では、隠れマルコフモデル(HMM:Hidden Markov Model)を用いた状態推定によるラベル付けを、作業IDの割り当てに適用する。隠れマルコフモデルでは、各Vに対して、以下の式2を最大化するラベル列Zを作業ID列として得る。
Figure 0006835756
ここで、πは先頭のzi1の確率、Aはzij−1の次にzijになる確率である、また、μ及びΣは、各作業IDにおけるベクトルvの平均及び分散をそれぞれ決定するパラメータである。これらのπ、A、μ及びΣも上記の式2を最大化するための値が同時に推定される。なお、本発明の実施の形態で必要なのは文集合の変化点(すなわち、作業IDの変化点)を得ることであるが、上記の式2によって得られたZから作業IDが変化した文の位置は容易に得ることができる。すなわち、或るzijで作業IDが変化した場合(すなわち、zijとzij−1とが異なる場合)、このzijに対応する文xijの位置が、作業IDが変化した位置である。これにより、ラベル列Lを作業ID列として得ることができる。
上記の式2における各確率分布p(zi1|π)、p(zij|zij−1,A)及びp(vijk|zij,μ,Σ)としては、任意の分布が用いられても良いが、多くの場合は或る決まった分布が用いられる。一般的には、以下に示す分布が用いられることが多い。
・p(zi1|π):πをK次元のパラメータ(すなわち、π=(π,・・・,π))とした多項式分布。zi1=kである確率はπに比例する。
・p(zij|zij−1,A):AをK個のK次元のパラメータとした混合多項分布。K個のK次元のパラメータのうちの1つのK次元のパラメータをAと表した場合に、zijは、
Figure 0006835756
に依存して決定する。
・p(vijk|zij,μ,Σ):μをK個のp次元のパラメータ、ΣをK個のp×p次元のパラメータとした混合多変量正規分布。K個のp次元のパラメータのうちの1つのp次元のパラメータをμ、K個のp×p次元のパラメータのうちの1つのp×p次元のパラメータをΣとした場合に、vijkは、
Figure 0006835756
の多変量正規分布に従う。
ここで、上記の式2は、次のように解釈することができる。すなわち、上記では文数と同じ長さのラベル列Zを定義し、文数と同数のzijが存在するものしたが、上記の式2では、作業記録X中の全ての単語数と同数の作業IDz´ijkが存在すると考える(すなわち、作業記録Xの文xijに含まれる各単語を示すインデックスをkとすれば各単語はwijkで表されるため、単語wijkに対応する作業IDをz´ijkとする。)。まず、作業記録Xの1つ目の単語(すなわち、作業記録Xの1行目の文における先頭の単語)に対する作業IDzi11がkである確率は、確率分布p(z´i11=k|π)によって決まる。2つ目以降の単語に対する作業IDz´ijkの確率は、1つ前の作業IDに従う確率分布p(z´ijk|z´ijk−1,A)によって決まる。ただし、本発明の実施の形態における隠れマルコフモデルでは、各文の途中で作業IDが変わることはなく、文xijに含まれる単語
Figure 0006835756
に対する作業ID
Figure 0006835756
は、
Figure 0006835756
である。上記の式2で、任意の作業記録Xに含まれる単語の数だけ、同じ作業IDであり続ける確率を考慮した項が
Figure 0006835756
及び
Figure 0006835756
である。最後に、作業IDz´ijkに対応した平均μz´ijkと分散Σz´ijkとによって、各単語が変換されたベクトルvijkの確率が決まり、この確率分布をp(vijk|zij,μ,Σ)で表す。
上記の各確率分布に従うことで、類似した単語のベクトルがいずれかの作業IDkに紐付くようにZが得られる。上記の式2をより大きくするためには、p(vijk|zij,μ,Σ)の値を大きくする必要がある。p(vijk|zij,μ,Σ)は確率分布であるために、
Figure 0006835756
という制約を持ち、分散Σが大きくなると、p(vijk|zij,μ,Σ)の値は小さくなる。このため、上記の式2の最大化では、zij=kに対応するベクトルvについて、当該ベクトルvと類似したベクトルだけが集まるようにして、分散Σを小さくしようとする。このように、上記の式2の最大化問題は、類似したベクトル同士に同じ作業IDが割り当てられ易いという特性を持つ。
上記の式2を最大化するZとパラメータπ、A、μ及びΣとを得るには、一般的な隠れマルコフモデルの最適化手法を用いれば良い。例えば、Baum−WelchアルゴリズムとViterbiアルゴリズムとを組み合わせた手法を用いれば良い。Baum−Welchアルゴリズム及びViterbiアルゴリズムについては、以下の参考文献2を参照されたい。
[参考文献2]
Bishop C.M. ,(邦訳 元田浩ら),パターン認識と機械学習 (下)―ベイズ理論による統計的予測,13.2.5.Viterbiアルゴリズム, 丸善出版, 2012.
なお、上記の式2の最大化は、あらゆるZとパラメータπ、A、μ及びΣとの組み合わせを試して、上記の式2が最大となった場合のZを得ても良い。ただし、このような総当たりの手法は非現実的な時間を要するため、上述したアルゴリズムによって解を得ることが好ましい。
なお、上記のステップS101〜ステップS102の処理と、上記のステップS103〜ステップS104の処理とが連続して実行される必要はない。例えば、上記のステップS101〜ステップS102の処理を予め実行した上で、その後、別途、上記のステップS103〜ステップS104の処理が実行されても良い。
<作業IDの割り当て結果>
ここで、本発明の実施の形態における作業特定装置10により、図1に示す作業記録の各文に対して作業IDを割り当てた結果を図6に示す。図6は、作業記録の各文に対する作業IDの割り当て結果の一例を示す図である。
図6に示す例では、図1に示す作業記録をXとして、Xに対して得られた作業ID列Zから1つ前のzij−1と値が変化したzijのみを取り出した作業ID列をYとして、Y=1,2,4,6,3,7,10,11,20,22,21を得た。
図6に示すように、本発明の実施の形態における作業特定装置10により、同一の作業を表す文に対しては同一の作業IDが割り当てられる。これにより、作業記録の各文が表す作業を特定することができる。
このとき、同一の作業IDが割り当てられている文の集合が1つの文集合であり、同一の文集合に含まれる文は、同一の業務のために作業を行っていると把握することができる。例えば、作業ID「2」が割り当てられている2行目の文と3行目の文とは、同一の業務のための作業を表していると把握することができる。同様に、例えば、作業ID「6」が割り当てられている5行目の文と6行目の文とは、同一の業務のための作業を表していると把握することができる。このため、当該業務を遂行にあたって要する作業工程を把握することができるようになる。
また、各作業工程の実施回数の統計が取得可能にもなり、効率化の重要度が高い業務の分析が可能となる。また、例えば、業務が既知である複数の作業記録に割り当てられた作業ID列を比較することで、実施されていない作業を把握することもできる。これにより、例えば、作業工程のうち、不要な作業の把握も可能となる。これら以外にも、本発明の実施の形態における作業特定装置10によって作業記録の各文に作業IDを割り当て、各作業工程を分析することで、様々な業務分析を実現可能とする。
なお、図6に示す例で、各文に割り当てられている作業IDは一例である。各文には、当該文が表す作業を識別する任意の情報(必ずしも数字に限られない。)が作業IDとして割り当てられれば良い。
<ハードウェア構成>
次に、本発明の実施の形態における作業特定装置10のハードウェア構成について、図7を参照しながら説明する。図7は、本発明の実施の形態における作業特定装置10のハードウェア構成の一例を示す図である。
図7に示すように、本発明の実施の形態における作業特定装置10は、入力装置101と、表示装置102と、外部I/F103と、RAM(Random Access Memory)104と、ROM(Read Only Memory)105と、CPU(Central Processing Unit)106と、通信I/F107と、補助記憶装置108とを有する。これら各ハードウェアは、それぞれがバスBを介して通信可能に接続されている。
入力装置101は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種操作を入力するのに用いられる。表示装置102は、例えばディスプレイ等であり、作業特定装置10の処理結果を表示する。なお、作業特定装置10は、入力装置101及び表示装置102の少なくとも一方を有していなくても良い。
外部I/F103は、外部装置とのインタフェースである。外部装置には、記録媒体103a等がある。作業特定装置10は、外部I/F103を介して、記録媒体103a等の読み取りや書き込みを行うことができる。
記録媒体103aには、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SD(Secure Digital)メモリカード、USB(Universal Serial Bus)メモリカード等がある。
RAM104は、プログラムやデータを一時保持する揮発性の半導体メモリである。ROM105は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ROM105には、例えば、OS(Operation System)設定やネットワーク設定等が格納されている。
CPU106は、ROM105や補助記憶装置108等からプログラムやデータをRAM104上に読み出して処理を実行する演算装置である。
通信I/F107は、作業特定装置10をネットワークに接続するためのインタフェースである。
補助記憶装置108は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置108に格納されているプログラムやデータには、例えば、OS、当該OS上において各種機能を実現するアプリケーションプログラム等がある。
本発明の実施の形態における作業特定装置10の入出力部11と、ベクトル変換部12と、作業ID割当部13とは、例えば補助記憶装置108に格納されている1以上のプログラムが、CPU106に実行させる処理により実現される。なお、これら1以上のプログラムは、記録媒体103aに記録されていても良いし、通信I/F107を介してネットワークから取得されても良い。
また、本発明の実施の形態における作業特定装置10の作業記録DB14と、単語ベクトルDB15と、作業ID列DB16とは、例えば補助記憶装置108を用いて実現可能である。なお、これら各DBのうちの少なくとも1つのDBが、作業特定装置10とネットワークを介して接続される記憶装置等により実現されていても良い。
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
10 作業特定装置
11 入出力部
12 ベクトル変換部
13 作業ID割当部
14 作業記録DB
15 単語ベクトルDB
16 作業ID列DB

Claims (6)

  1. 非定型に文が記述された文書の各文がそれぞれ表す作業を特定する作業特定装置であって、
    複数の前記文書が入力されると、複数の前記文書を学習することで得られた変換fにより、前記文書に記述された文に含まれる各単語それぞれを複数のベクトルに変換する変換手段と、
    前記変換手段により変換された複数のベクトルに基づいて、前記文書に記述された文に対して、該文が表す作業の作業IDを割り当てる割当手段と、
    を有し、
    前記割当手段は、
    前記変換手段により変換された複数のベクトルについて、該ベクトル同士の分散が小さくなるように前記複数のベクトルにそれぞれ対応する文を複数の集合に分割し、同一の集合に含まれる文に対して同一の作業IDを割り当てる、ことを特徴とする作業特定装置。
  2. 前記変換手段は、
    前記文書に記述された文に含まれる単語のうち、互いに類似する単語同士がそれぞれ変換fにより変換された場合におけるベクトル同士の距離が近くなるように変換fを学習し、学習された変換fにより前記各単語それぞれを複数のベクトルに変換する、ことを特徴とする請求項1に記載の作業特定装置。
  3. 前記変換手段は、
    Skip−gram又はCBoWにより学習された変換fにより前記各単語それぞれを複数のベクトルに変換する、ことを特徴とする請求項2に記載の作業特定装置。
  4. 前記割当手段は、
    隠れマルコフモデルを用いた状態推定により前記作業IDを割り当てる、ことを特徴とする請求項1乃至3の何れか一項に記載の作業特定装置。
  5. 非定型に文が記述された文書の各文がそれぞれ表す作業を特定するコンピュータが、
    複数の前記文書が入力されると、複数の前記文書を学習することで得られた変換fにより、前記文書に記述された文に含まれる各単語それぞれを複数のベクトルに変換する変換手順と、
    前記変換手順により変換された複数のベクトルに基づいて、前記文書に記述された文に対して、該文が表す作業の作業IDを割り当てる割当手順と、
    を実行し、
    前記割当手順は、
    前記変換手順により変換された複数のベクトルについて、該ベクトル同士の分散が小さくなるように前記複数のベクトルにそれぞれ対応する文を複数の集合に分割し、同一の集合に含まれる文に対して同一の作業IDを割り当てる、ことを特徴とする作業特定方法。
  6. コンピュータを、請求項1乃至の何れか一項に記載の作業特定装置における各手段として機能させるためのプログラム。
JP2018014016A 2018-01-30 2018-01-30 作業特定装置、作業特定方法及びプログラム Active JP6835756B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018014016A JP6835756B2 (ja) 2018-01-30 2018-01-30 作業特定装置、作業特定方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018014016A JP6835756B2 (ja) 2018-01-30 2018-01-30 作業特定装置、作業特定方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019133339A JP2019133339A (ja) 2019-08-08
JP6835756B2 true JP6835756B2 (ja) 2021-02-24

Family

ID=67546206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018014016A Active JP6835756B2 (ja) 2018-01-30 2018-01-30 作業特定装置、作業特定方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6835756B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016015026A (ja) * 2014-07-02 2016-01-28 富士通株式会社 作業対象確定プログラム、作業対象確定装置及び作業対象確定方法
JP6397378B2 (ja) * 2015-07-27 2018-09-26 日本電信電話株式会社 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム
JP6235082B1 (ja) * 2016-07-13 2017-11-22 ヤフー株式会社 データ分類装置、データ分類方法、およびプログラム

Also Published As

Publication number Publication date
JP2019133339A (ja) 2019-08-08

Similar Documents

Publication Publication Date Title
JP5963328B2 (ja) 生成装置、生成方法、およびプログラム
US20200034689A1 (en) A method for retrieving a recommendation from a knowledge database of a ticketing system
CN107679234A (zh) 客服信息提供方法、装置、电子设备、存储介质
CN111400471B (zh) 问题推荐方法、系统、电子设备和存储介质
CN114528845A (zh) 异常日志的分析方法、装置及电子设备
CN112348662B (zh) 基于用户职业预测的风险评估方法、装置和电子设备
CN112433874A (zh) 一种故障定位方法、系统、电子设备及存储介质
CN116861924A (zh) 基于人工智能的项目风险预警方法及系统
CN115617946A (zh) 一种基于知识图谱的供电运维全要素数据融合方法
CN111126629B (zh) 模型的生成方法、刷单行为识别方法、系统、设备和介质
CN111694957A (zh) 基于图神经网络的问题单分类方法、设备及存储介质
CN111190967A (zh) 用户多维度数据处理方法、装置及电子设备
CN114357171A (zh) 一种应急事件处理方法、装置、存储介质及电子设备
JP5253317B2 (ja) 要約文作成装置、要約文作成方法、プログラム
CN117874200A (zh) 风电运维数据的答案文本生成方法、装置、设备及介质
JP6835756B2 (ja) 作業特定装置、作業特定方法及びプログラム
CN117455037A (zh) 一种基于多模态案例知识图的生产业务流程剩余时间预测方法
JP6191440B2 (ja) スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法
CN112417840A (zh) 一种科研项目智能评审系统、计算机设备
JP2004199377A (ja) 遠隔監視診断システム
CN116362247A (zh) 一种基于mrc框架的实体抽取方法
JP2022082525A (ja) 機械学習基盤情報の提供方法および装置
JP6751056B2 (ja) 作業記録作成装置、作業記録作成方法及びプログラム
Gisi et al. Automatic Identification of Requirements from Specification in Special Machinery Engineering: A Human-in-the-Loop Classification Approach
JP2016053871A (ja) データ生成装置、データ生成方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201208

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210204

R150 Certificate of patent or registration of utility model

Ref document number: 6835756

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150