JP2014089606A

JP2014089606A - 情報処理装置及びその制御方法、プログラム

Info

Publication number: JP2014089606A
Application number: JP2012239438A
Authority: JP
Inventors: Tomonori Kudo; 朋紀工藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-10-30
Filing date: 2012-10-30
Publication date: 2014-05-15
Anticipated expiration: 2032-10-30
Also published as: US20140122505A1; US9268842B2; JP6008693B2

Abstract

【課題】ワークフロー推定による操作の推薦において、ワークフローの名前を共に表示して、ユーザが選択し易くする。
【解決手段】データの操作履歴データに基づいて、ワークフローを抽出する。抽出したワークフローを構成するデータの内の主要なデータである主データを推定して、抽出する。抽出した主データにアクセスするためのアクセス経路を表現する名前列を解析して、名前列から目的要素の文字列を推定して抽出する。抽出した目的要素の文字列の繋がりから、ワークフローの名前であるワークフロー名を決定する。
【選択図】図３

Description

本発明は、データの操作履歴から類似する操作のパターンをワークフローとして抽出する情報処理装置及びその制御方法、プログラムに関するものである。

ユーザが所望のアイテムを検索する手法として、従来からキーワードによるマッチング方式等が使われている。しかし、これら従来の手法は、ユーザに掛かる負担が大きい。それに代わり、ユーザの手間を軽減し、必要としているアイテムを自動的に検索してユーザへ提示する推薦手法が提案されている。

推薦手法として有名なものに、ＥＣサイト等で広く普及している協調フィルタリングがある。これは、過去の利用履歴からアイテムの利用傾向が似ている類似ユーザを抽出し、その類似ユーザの利用履歴を用いてお薦めするアイテムを予測するものである。

しかし、オフィスにおいて所望するアイテムは、社内文書やＷｅｂ上の文書等、情報を作成するための情報源としての情報だけではない。ある仕事を達成するための手順であったり、効率的に仕事を進めるための方法であったり、何かしらのノウハウとしての情報も探している。このような情報は、経験的に整理されワークフローとして明文化されている場合は良いが、明文化されていない場合、時間と労力を情報検索に費やしてしまう。

そこで、時系列に並んだ利用履歴から、頻出する部分データ列を抽出し、それをワークフローとして抽出して推薦に利用する各種技術が提案されている。

一方、クラスタリング等で分類された特定の文書等の集合に対して、その集合が何を表わしているのかを容易に理解できるように、ラベルやキーワードや名前等を付ける手法が提案されている。これらのクラスタにつけられたラベル等を利用して検索範囲を絞り込んだり、検索結果を分類して見やすくしたりしている。

従来は、クラスタに含まれる各文書を構成する単語をＴＦ＊ＩＤＦ等を利用して特徴語を抽出し、重要度によってクラスタを代表する１つ以上のラベルやキーワードを決定している。例えば、特許文献１では、クラスタに含まれる文書中の単語の重要度と包含関係からクラスタラベルのスコアを算出して、代表する１つ以上のラベルやキーワードを決定している。また、特許文献２では、クラスタに含まれる文書中の単語の重要度と並列関係の知識データを利用して、ラベルを決定している。

特開２００５−６３２９８号公報特開２００８−８４２０３号公報

従来は、抽出したワークフローから操作を推薦しているだけであり、その操作の意味や何のためにその操作が推薦されたか分からなかった。そのため、複数の推薦された操作の中からユーザが選択することが難しかった。

本発明は上記の課題を解決するためになされたものであり、ワークフロー推定による操作の推薦において、ワークフローの名前を共に表示して、ユーザが選択し易くすることを目的とする。

また、従来のクラスタラベル付けで利用されていた単語のＴＦ＊ＩＤＦ等の頻度を利用した場合、クラスタを検索するキーワードとしては適しているが、ワークフローの名前としては目的が分かる名前ではない。容易にユーザがワークフロー中の操作を選択することはできない。そこで、ワークフローの名前として適切な名前を生成することも目的とする。

上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
データの操作履歴から類似する操作のパターンをワークフローとして抽出する情報処理装置であって、
データの操作履歴データに基づいて、前記ワークフローを抽出するワークフロー抽出手段と、
前記ワークフロー抽出手段で抽出したワークフローを構成するデータの内の主要なデータである主データを推定して、抽出するデータ抽出手段と、
前記データ抽出手段で抽出した主データにアクセスするためのアクセス経路を表現する名前列を解析して、前記名前列から目的要素の文字列を推定して抽出する目的要素抽出手段と、
前記目的要素抽出手段で抽出した目的要素の文字列の繋がりから、前記ワークフローの名前であるワークフロー名を決定する決定手段と
を有する。

本発明によれば、操作の推薦時にワークフローの目的が分かる名前を共に表示することでワークフローの位置づけなどが分かり推薦された操作をユーザが選択し易くなる。それにより、ユーザは次に行うべき操作がわからない場合でも、推薦された操作をワークフローの名前から選択して、効率的に仕事を進めることを支援することができる。

実施形態１のワークフロー名前生成装置の構成例を示すブロック図である。実施形態１のワークフロー抽出処理を示すフローチャートである。実施形態１のワークフロー名前生成処理を示すフローチャートである。実施形態１のワークフロー例を示す図である。実施形態１のワークフロー例に係るデータ例を示す図である。実施形態１のワークフロー例に係るデータ例を示す図である。実施形態１のスコア計算例を示す図である。実施形態１のワークフロー例に係るデータ例を示す図である。実施形態１のワークフロー名を含む表示例を示す図である。実施形態２のワークフロー例に係るデータ例を示す図である。実施形態２のスコア計算例を示す図である。

以下、本発明の実施の形態について図面を用いて詳細に説明する。

＜実施形態１＞
図１は実施形態１のワークフロー名前生成装置の構成例を示すブロック図である。

このワークフロー名前生成装置（情報処理装置）は、ＣＰＵであるデータ処理部１１５、メモリである記憶部１１１、ディスプレイである表示部１１６、キーボードやマウス等の入力部１１３、ネットワークＩ／Ｆ部１１７で構成される。記憶部１１１には、文書データ群１２１の操作に対する操作履歴データ１２０、その文書データ（ファイル）群１２１がそれぞれ格納されている。

初めに、操作履歴から類似する操作のパターンをワークフローとして抽出するワークフロー抽出処理について説明して、次に、抽出されたワークフローからワークフローの名前を生成するワークフロー名前生成処理について説明する。

まず、ワークフロー抽出処理を、図２のフローチャートを用いて説明する。このフローチャートは、データ処理部１１５が制御プログラムを実行することにより実現される。

まず、仮タスク抽出処理（ステップＳ６０１）では、ファイル操作履歴を含む操作履歴データ１２０から、ユーザ単位でのファイル操作履歴を切り出す。次に、そのユーザ毎のファイル操作履歴からある区切り指標を用いて、近い時間に行われたファイル操作群（これを、仮タスクとする）に分割し、アイテム利用操作集合なる仮タスク集合を生成する。ある区切り指標とは、例えば、固定時間の間隔に区切る方法でもよいし、ファイル操作間の時間がある一定時間以上長い個所を区切りとしてもよい。

ファイル間類似度計算処理（ステップＳ６０２）では、ファイル間の類似度の計算を行う。ファイル間の類似度としては、単純に、文書内容の類似性を指標とするのではなく、作業におけるファイルの使用され方が似ているものを類似度が高いと見なす指標を用いる。例えば、そのような指標として次のようなものが利用できる。

・ファイルのコピー関係
・ファイルの構造情報（ＸＭＬ構造）
・ファイルの共起頻度情報
・ファイルの属性情報
ファイルクラスタリング処理（ステップＳ６０３）では、ファイル間類似度計算処理（ステップＳ６０２）で計算したファイル間の類似度を用いて、ファイルをクラスタリングする。クラスタリングの手法としては、階層型と非階層型の大きく２つに分かれるが、ここでは、クラスタの数を予め定める必要のない階層型クラスタリングの手法を用いる。階層型クラスタリングの代表的な手法に、最短距離法、最長距離法、群平均法、ウォード法等があるがどれを用いてもよい。尚、それぞれの手法の説明については本発明の本質ではないため省略する。クラスタリングの結果として、作業におけるファイルの使用され方が似ているものをグループとしてまとめたものをファイルクラスタとして出力する。ここで、ファイルクラスタは、１つ以上のファイルのまとまりであり、類似するファイルが１つもないファイルでも、それ単体でファイルクラスタとする。

仮タスク抽象化処理（ステップＳ６０４）では、仮タスク抽出処理（ステップＳ６０１）で生成した仮タスクに対して、ファイルクラスタリング処理（ステップＳ６０３）で出力したファイルクラスタを用いて、仮タスクを構成するファイル操作群のファイルを、そのファイルが含まれるファイルクラスタに置き換える。これを仮タスクの抽象化と呼ぶ。

仮タスク間類似度計算処理（ステップＳ６０５）では、仮タスク抽象化処理（ステップＳ６０４）までで生成されたファイルクラスタ単位の仮タスクを用いて、仮タスク間の類似度を計算する。仮タスク間の類似度としては、仮タスクに含まれるファイルクラスタ操作集合の要素の一致度を類似性指標とする。このような集合の類似性の指標としては、ジャッカード係数やダイス係数、シンプソン係数等が知られている。

仮タスククラスタリング処理（ステップＳ６０６）では、仮タスク間類似度計算処理（ステップＳ６０５）で計算した仮タスク間の類似度を用いて、仮タスクをクラスタリングして仮タスククラスタを作成する。クラスタリングの処理方法については、ファイルクラスタリング処理（ステップＳ６０３）と同様の方法であるので割愛する。

タスク抽出処理（ステップＳ６０７）では、仮タスククラスタリング処理（ステップＳ６０６）で作成した仮タスククラスタを用いて、タスクの抽出を行う。タスクは、作成した仮タスククラスタの１つ１つとする。ここで、仮タスククラスタに含まれる仮タスク数が閾値以上のものだけをタスクとしてもよい。仮タスククラスタに含まれる仮タスク数が閾値以上であるということは、それだけそのタスクはよく行われ、汎用的であると言える。逆に、閾値未満であるということは、あまり汎用的ではなく、タスクとして重要ではない可能性がある。

仮ワークフロー抽出処理（ステップＳ６０８）では、タスクをシーケンシャルに並べたものである抽象アイテム利用操作集合の系列なる仮ワークフローの抽出を行う。これは、あるユーザのファイル操作履歴であり、そこから仮タスク抽出処理（ステップＳ６０１）によって仮タスクが抽出されている。仮ワークフローを抽出するにあたっては、ある条件により仮タスク間で分割することを行う。

ワークフロー抽出処理（ステップＳ６０９）では、仮ワークフロー抽出処理（ステップＳ６０８）で抽出した仮ワークフローに対して、シーケンシャルパターンマイニングを行い、頻出するタスクシーケンスを発見し、これを最終的にワークフローとして抽出する。

次に、ワークフロー名前生成処理を、図３のフローチャートを用いて説明する。このフローチャートは、データ処理部１１５が制御プログラムを実行することにより実現される。

図３では、抽出されたワークフローを構成するファイル群からワークフローの名前を生成する処理を実行する。この処理は、主ファイル推定・抽出処理（ステップＳ３００）、目的要素推定・抽出処理（ステップＳ３０１）、フォルダツリー再構成処理（ステップＳ３０２）、スコア計算処理（ステップＳ３０３）、ワークフロー名決定処理（ステップＳ３０４）から構成される。

図４（ａ）は抽出されたワークフローとして月報作成のワークフロー例である。

Ｔａｓｋ１として、先月の月報（Ａ１〜Ａ５）をコピーして、コピーファイル（Ａ１’〜Ａ５’）を得る。コピーしたファイル（Ａ１’〜Ａ５’）を今月の月報ファイル名（ａ１〜ａ５）に名前変更する。

Ｔａｓｋ２として、今月の月報ファイル（ａ１〜ａ５）をｃｈｅｃｋ−ｏｕｔして編集を開始する。

Ｔａｓｋ３として、対応する週報を参照する。

Ｔａｓｋ４として、今月の月報を記入してｕｐｄａｔｅして、ｃｈｅｃｋ−ｉｎする。

このようなＴａｓｋ１〜Ｔａｓｋ４を、抽出されたワークフローを例とする。

図４（ｂ）はクラスタを構成するファイルと操作の具体例である。図４（ｂ）のようにＡ１とＡ１’はコピー元ファイルとコピー先ファイルに対応している。Ａ１’とａ１は名前変更前ファイルと名前変更後ファイルに対応している。（Ａ２，Ａ２’，ａ２）、（Ａ３，Ａ３’，ａ３）、（Ａ４，Ａ４’，ａ４）及び（Ａ５，Ａ５’，ａ５）の関係も同様である。

図４（ｂ）中のファイル群２２００は、類似ファイルとしてファイルクラスタＡ（ＦＣ−Ａ）にクラスタリングされている。同様に、ファイル群２２０１とファイル群２２０２も類似ファイルとして、それぞれファイルクラスタＡ’（ＦＣ−Ａ’）とファイルクラスタａ（ＦＣ−ａ）とにクラスタリングされている。図４（ａ）中のファイルクラスタＢ（ＦＣ−Ｂ）とファイルクラスタＤ（ＦＣ−Ｄ）も同様である。

図４（ｂ）のＣ１ファイルとＣ１’ファイルは今月の月報ファイルａ１の編集中に参照した週報のファイルである。（Ｃ２，Ｃ２’，ａ２）、（Ｃ３，Ｃ３’，ａ３）、（Ｃ４，Ｃ４’，ａ４）及び（Ｃ５，Ｃ５’，ａ５）の関係も、ファイルＣ１、ファイルＣ１’及びファイルａ１の関係と同様である。図４（ｂ）中のファイル群２２０３は類似ファイルとしてファイルクラスタＣ（ＦＣ−Ｃ）にクラスタリングされている。

また、図４（ａ）、図４（ｂ）の各ファイルに対する符号（ａ１からａ５）は、後述の図５及び図６と共通である。

図３のワークフロー名前生成処理について動作例を説明する。

初めに、主ファイル推定・抽出処理（ステップＳ３００）では、記憶部１１１に格納されている操作履歴データ１２０のログの種類から主ファイルを推定する。ワークフローを構成している各クラスタのファイル群からログの操作種類によって、ワークフローの主データとなる主ファイル（中心となる主要ファイル）を推定して抽出（データ抽出）する。例えば、新たに作成したファイルや、ベースとなるファイルからコピーして編集したファイルや、印刷したファイルがワークフローの出力となるファイル等を、主ファイルであると推定する。後続する処理では主ファイルだけを使う。

例えば、図５（ａ）はワークフロー中のログの例である。ログの種類（操作のタイプ）、ファイル名が順に記録されている。ログの種類がｃｈｅｃｋ−ｉｎ、ｕｐｄａｔｅ、ｃｈｅｃｋ−ｏｕｔの場合は、主ファイルであると推定する。図５（ａ）の場合、ファイル名が「第一開発室２０１２０２」のファイル４１０２、４１０４及び４１０５は主ファイルであると推定する。一方、ログの種類がｃｏｐｙ、ｒｅｎａｍｅ、ｏｐｅｎしか行っていないファイルは主ファイルではないと推定する。図４（ａ）の場合に示した、ファイル４１００、４１０１及び４１０３は主ファイルではないと推定する。

図５（ｂ）は抽出した主ファイルのファイルパスの例である。４２００はファイル名であり、４２０６はファイルが格納されているフォルダ名である。図４のワークフローから主ファイルとして、図５（ｂ）のファイル４２０１（ａ１）から４２０５（ａ５）までの５つのファイルが主ファイルとして抽出される。

次に、目的要素推定・抽出処理（ステップＳ３０１）では、主ファイル推定・抽出処理（ステップＳ３００）で抽出した主ファイルのパス（フォルダ名及びファイル名）を解析して、目的要素を推定して抽出（目的要素抽出）する。これは、単語の品詞等から単語の役割を推定して抽出する。例では、ファイルのパスを形態素解析、固有表現抽出を行う。目的要素を抽出するための解析で、文字種別による単語の切り出し等でも類似の処理が可能であり、必ずしも形態素解析処理、固有表現抽出処理が必須ではない。品詞及び固有表現の種別で構成要素を推定する。

普通名詞列の場合、「目的」要素として、後述するフォルダツリー再構成処理（ステップＳ３０２）とスコア計算処理（ステップＳ３０３）では、目的要素のみを利用する。普通名詞以外の品詞である固有名詞（組織名：社名、部署）または技術名、製品名、ブランド名等の場合、「対象」要素とする。図６（ａ）の５１０７のように英数字列（含む日付）の場合、「識別子」要素とする。また、図６（ａ）の５１０６のように固有名詞（組織、人名）の場合、「作者」要素とする。目的要素以外は、後述するワークフロー名決定処理（ステップＳ３０４）で使用する。

例として、図６（ａ）のようにワークフローを構成する５つの主ファイルのフォルダ名とファイル名に対して、形態素解析及び固有表現抽出を行って、ここでは目的要素として、普通名詞列を抽出する。図６（ａ）の例では、「月報」５１０１、「テーマ月報」５１０２、「管理」５１０３、「月報」５１０４の普通名詞列が抽出される。これらをワークフロー名の候補とする。この例では、５１０５内のファイル名には普通名詞列がないので、ワークフロー名の候補ではなくなる。

フォルダツリー再構成処理（ステップＳ３０２）では、目的要素推定・抽出処理（ステップＳ３０１）で抽出した目的要素からフォルダツリー（フォルダ構造）を再構成する。フォルダ名、ファイル名から目的要素のみを取り出し、目的要素がないフォルダ名はつめて、上下の階層をつないで、目的要素の繋がりからなるツリーを作成する。例では、図６（ｂ）の５２０１のように、「２０１２テーマ月報」のフォルダは「テーマ月報」と目的要素のみになる。さらに、目的要素のないファイル名はワークフロー名候補から外れる。異なる系統のフォルダツリーは最も深い主ファイルの階層をそろえる。

次に、スコア計算処理（ステップＳ３０３）では、フォルダツリー再構成処理（ステップＳ３０２）で作成されたフォルダツリーのワークフロー名候補の評価値（ワークフロー名としての適切度合いを示す指標）を示すスコアを計算する。スコアは、再構築したフォルダツリーの構造スコア（第１項）と目的要素の頻度スコア（第２項）及び目的要素の構成単語の頻度スコア（第３項）の合計スコアで、以下の計算式１から計算する。

第１項のフォルダツリーの構造スコアは、最も階層が深い主ファイルからの距離ｌ（１オリジンで主ファイル自身は距離１である）とフォルダツリーの幅ｒ（同階層のフォルダまたはファイルの個数）から計算される。最上位のフォルダ名にすると、すべて同じ名前になってしまうため、主ファイルからの距離は小さい方が高スコアになる。また、主ファイルが複数フォルダにある場合、主ファイルすべてに共通する上位フォルダ名がつけられるのが望ましいので、フォルダツリーの幅は小さい方が高スコアになる。従って、複数のフォルダまたはファイルがまとまったところが高スコアになる。

第２項の目的要素の頻度スコア（要素スコア）は、目的要素が再構成されたフォルダツリーに出現する度数であり、再構成されたフォルダツリーに多く出現した目的要素が高スコアとなる。

第３項の目的要素の構成単語の頻度スコア（構成単語スコア）は、目的要素を構成する各単語の頻度の総和で、フォルダツリー中に出現する頻度の高い単語が多く使われている目的要素が高スコアとなる。

・・・計算式１

ｆ（ｍ）：ワークフロー名候補スコア
ｍ：ワークフロー名候補の番号（例では、候補は４つなので１から４）
Ｗ₁：第１項に対する重み（例では、パラメータとして５とする）
ｒ：パスの階層度数（フォルダツリーの幅が狭い方が高スコア）
α：減衰定数（０＜α＜１）（例では、０．５とする）
ｌ：対象ファイルからのフォルダの距離（距離が小さい下位フォルダの方が高スコア）
Ｗ₂：第２項に対する重み（例では、パラメータとして０．５とする）
Ｆ（ｍ）：ｍ番目の目的要素の出現度数
Ｗ₃：第３項に対する重み（例では、パラメータとして１とする）
Ｎ：構成単語総数（例では、５つの構成単語が存在する）
Ｔ_n：ｎ番目の構成単語の頻度
図６（ｂ）の例では、以下のように計算される。クラスタを構成するファイル名に目的要素（普通名詞）がないため、４つのフォルダ名をワークフロー名候補としてスコア計算する。各ワークフロー名候補のスコア計算結果は、図７のように計算される。そして、図６（ｂ）の５２０１「月報」の候補例では、スコア計算は以下のようになる。

第１項の構造スコアは、階層距離（主ファイルからの距離）ｌ＝３、階層度数（フォルダツリーの幅）ｒ＝２なので、第１項は５＊（０．５²）／２＝０．６３となる。

第２項の要素スコアは、出現度数であるＦ（「月報」）は「月報」が２つ出現するので、２となり、第２項は０．５＊２＝１．０となる。

第３項の構成単語スコアは、構成単語総数が５で、「月報」は３個出現するので、１＊３／５＝０．６となる。

合計でスコアは０．６３＋１．０＋０．６＝２．２３となる。

別例として、図８（ａ）のように、見積検討依頼を作成して、決裁書を作成して、契約書を作成するような抽出されたワークフローに対して、図８（ｂ）のように、フォルダツリーを再構築する。この場合、スコア計算すると、その結果は、図８（ｂ）中のワークフロー名候補の周辺に記載したスコアになる。図８（ｂ）の「決裁準備」７２０１のスコアが「１．５６」で最も高くなる。この計算詳細は、以下のようになる。

第１項の構造スコアは、階層距離（主ファイルからの距離）ｌ＝３、階層度数（フォルダツリーの幅）ｒ＝２なので、第１項は５＊（０．５³）／２＝０．３１となる。

第２項の要素スコアは、出現度数であるＦ（「決裁準備」）は「決裁準備」が２つ出現するので、２となり、第２項は０．５＊２＝１．０となる。

第３項の構成単語スコアは、構成単語総数が２８で、「決裁」は５個出現、「準備」は２個出現するので１＊（５／２８＋２／２８）＝０．２５となる。

合計でスコアは０．３１＋１．０＋０．２５＝１．５６となる。

図８（ｂ）の「決裁準備」７２０２のスコア詳細は、第１項の構造スコアは、階層距離（主ファイルからの距離）ｌ＝２、階層度数（フォルダツリーの幅）r＝６なので、第１項は５＊（０．５²）／６＝０．２１となる。また、第２項と第３項は同じである。合計でスコアは０．２１＋１．０＋０．２５＝１．４６となる。

ワークフロー名決定処理（ステップＳ３０４）では、スコア計算処理（ステップＳ３０３）で計算されたスコアの高いものをワークフロー名に決定して、表示部１１６に表示する。例では、「月報」をワークフロー名に決定して、図９のように、表示部１１６に推薦（レコメンド）される操作（Ｃｏｐｙ、Ｒｅｎａｍｅ）と共にワークフロー名を表示する。図９では、「月報」以外に、ワークフロー名として「決裁準備」とその推薦される操作（Ｃｈｅｃｋ−ｏｕｔ）と、「週報」とその推薦される操作（Ｃｏｐｙ）が表示されている。

尚、既に名前作成したワークフロー名に同じワークフロー名がある場合の解決方法として、ここで、２つの解決方法例とについて説明する。

第１の方法は、目的要素推定・抽出処理３０１で推定抽出した目的要素以外の主ファイルに共通する要素（「対象」要素、または「識別子」要素、または「作者」要素）がある場合、ワークフロー名に付加する。共通要素が複数ある場合は、あらかじめ定義した適用順序ルールによって付加する。

例えば、文字数の多い順に適用する。また、共通要素を付加しても同じワークフロー名がある場合、共通要素がなくなるまで、適用順序ルールに従って付加する。図６（ａ）の例では、主ファイルのファイル名に共通する要素として識別子要素「２０１２０２」を付加して「月報２０１２０２」をワークフロー名に決定する。共通する要素がない、またはすべて共通要素を付加しても同じワークフロー名がある場合、そのワークフロー名に新たに識別子（連番等）を付与する。

第２の方法は、既に名前作成したワークフロー名と同じワークフロー名候補を候補から削除して、既に名前作成したワークフロー名と異なるワークフロー名候補のなかから最も高いスコアの候補に決定してもよい。

また、この２つの方法を組み合わせて、スコア計算処理で作成済の同ワークフロー名に対するペナルティ関数を追加して決定してもよい。例えば、ペナルティ関数として、スコア計算時に作成済みの同じ目的要素であるワークフロー名の個数に重みをかけて計算式１の値から引くことによって、作成済みワークフロー名を考慮したスコアとなる。

例えば、下記の計算式２でスコア計算して、最も高いスコアの候補に対して、第１の手法である作成したワークフロー名に同じ名前がある場合、目的要素以外の共通要素があれば付加する。共通する要素がない、または共通要素を付加しても同じワークフロー名がある場合、そのワークフロー名に新たに識別子（連番等）を付与する。

ワークフロー名候補スコア’＝（計算式１）−ペナルティ関数（作成済の同じ目的要素のワークフロー名の個数＊重み）
・・・計算式２
このようにワークフロー名決定方法のいくつかの例を示しているが、同様な処理の異なる順序、組み合わせでもよい。

ここまでの説明で、対象データをファイルとして、対象データの格納されている位置をファイルパスとして説明を行っているが、これに限定されるものではない。例えば、対象データをデータベースのデータとして、対象データの格納されている位置をテーブル名や属性名やリレーション等の階層構造として適用してもよい。データベースの階層構造のデータモデルとしては、入れ子集合モデルや隣接リストモデル等がある。

また、実施形態１でファイルとして説明している対象データは、ワークフロー抽出でクラスタリングされる対象データを表わしている。また、実施形態１でファイルパスとして説明している対象データのアクセス経路は、対象データの格納されている位置にアクセスするための階層的な手順やフォルダ等を表現する名前列（文字列）を表わしている。このアクセス経路によって対象データにアクセスすることが可能になる。

以上説明したように、実施形態１によれば、操作を推薦しても操作の羅列からユーザが選択することは容易ではない従来技術に対して、操作履歴のログの種類から主要なデータのアクセス経路を抽出して、アクセス経路の名前から要素推定を行う。そして、この要素推定の結果から、目的要素を抽出して、その目的要素のフォルダツリーからワークフロー名を決定する。これにより、ワークフロー名として適切な名前が得られる。更に、ワークフローの名前を推薦する操作と共に表示することによって、ユーザに、容易に操作の目的を理解させ、選択し易すさを向上することができる。

＜実施形態２＞
実施形態２のワークフロー名前生成装置は、実施形態１と同様に、図１のワークフロー名の名前生成装置が構成例となる。実施形態２の処理フローは、実施形態１と同様である。実施形態１との違いは、ワークフロー名候補のスコア計算方法である。

実施形態１では、フォルダ構造の形状（フォルダツリー）から直接計算している。これに対して、実施形態２では、フォルダツリーに含まれる主ファイル全体（主データ全体）に対する対象のフォルダに含まれる主ファイルの割合（カバー率）からフォルダ構造のスコアを間接的に計算する。

具体的には、実施形態１では、第１項のフォルダツリーの構造スコアは、フォルダツリーの深さ（主ファイルからの距離）と幅から計算しているが、実施形態２では、フォルダの深さとファイルのカバー率から計算する。カバー率は、そのフォルダに含まれる主ファイルの全体に対する割合である。また、実施形態１では、複数のフォルダツリー構成を、図６（ｂ）や図８（ｂ）のように、まとめて計算している。これに対して、実施形態２では、図１０（ａ）や図１０（ｂ）のように、各フォルダツリーを別々に計算して、最後にそのフォルダツリーに含まれる主ファイル数の比率で重みをかけている。

以下の計算式３で、ワークフロー名候補のスコア計算結果は、図１０（ａ）と図１１のように計算される。

・・・計算式３

ｆ（ｍ）：ラベリングスコア
ｍ：ワークフロー名候補の番号（例では、候補は４つなので１から４）
Ｃ：全体に対する各フォルダツリーのファイルのカバー率（例では、上がカバー率４０%、下が６０%）
Ｗ₀：フォルダツリー構造に対する重み（例では、パラメータとして２とする）
ｃ（ｍ）：フォルダツリー内ファイルのカバー率（カバー率が高いと高スコア）
ｌ：対象ファイルからのフォルダの距離（下位フォルダの方が高スコア）
Ｍ：フォルダ名の総数（例では、４のフォルダが存在する）
Ｗ₁：フォルダの距離に対する重み（例では、パラメータとして２とする）
Ｆ（ｍ）：ｍ番目のフォルダ名（ファイル名）の頻度
Ｗ₂：構成単語に対する重み（例では、パラメータとして１とする）
Ｎ：構成単語総数（例では、５つの構成単語が存在する）
Ｔ_n：ｎ番目の構成単語の頻度
図１０（ｂ）の例では、以下のように計算される。クラスタを構成するファイル名に目的要素（普通名詞）がないため、フォルダ名をワークフロー名としてスコア計算する。各ワークフロー名候補のスコア計算結果は、図１１のように計算される。決定される「月報」を例として、スコア計算は、以下のようになる。

第１項の目的要素の構造スコアは、フォルダツリー内のファイルのカバー率ｃ（ｍ）は１．０で、階層距離ｌが２で、第１項は２＊１．０／２＝１．０となる。

第２項の目的要素の頻度スコア（要素スコア）は、ｍ番目のフォルダ名（ファイル名）の頻度Ｆ（ｍ）は「月報」が２つ出現するので２となり、第２項は２＊２／４＝１．０となる。

第３項の構成単語の頻度スコア（構成単語スコア）は、構成単語総数が５で、「月報」は３個出現するので、１．０＊３／５＝０．６となる。

合計でスコアは、全体に対するフォルダツリーのカバー率は３／５＝０．６となり、０．６＊（１．０＋１．０＋０．６）＝１．５６となる。

別例として、図８（ａ）のように、見積検討依頼を作成して、決裁書を作成して、契約書を作成するような抽出されたワークフローに対して、図１０（ｂ）のようにフォルダツリーを再構築する。この場合、スコア計算したとすると、その結果は、図１０（ｂ）のように、ワークフロー名候補の周辺に記載したスコアになる。図１０（ｂ）の「海外決裁」８２０１のスコアが「０．６５」で最も高くなる。この計算詳細は、以下のようになる。

第１項の構造スコアは、フォルダツリー内のファイルのカバー率ｃ（ｍ）は１．０で、階層距離ｌ＝３なので、第１項は２＊１．０／３＝０．６７となる。

第２項の要素スコアは、「海外決裁」の頻度であるＦ（海外決裁）は目的要素が２１個出現して、「海外決裁」が１つ出現するので、２となり、第２項は２＊１／２１＝０．１となる。

第３項の構成単語スコアは、構成単語総数が３５で、「海外」は１個出現し、「決裁」は６個出現するので、第３項は１．０＊（１／２８＋６／２８）＝０．２となる。

合計でスコアは、全体に対するフォルダツリーのカバー率は１０／１５＝０．６７となり、０．６７＊（０．６７＋０．１＋０．２）＝０．６５となる。

図１０（ｂ）の「見積」８２０２のスコア詳細は、
第１項の構造スコアは、フォルダツリー内のファイル数が１０個でフォルダに含まれるファイル数が４個なので、カバー率ｃ（ｍ）は０．４となる。そして、階層距離ｌ＝２なので、第１項は２＊０．４／２＝０．４となる。

第２項の要素スコアは、「見積」の頻度であるＦ（見積）は目的要素が２１個出現して、「見積」が１つ出現するので、２となり、第２項は２＊１／２１＝０．１となる。

第３項の単語スコアは、構成単語総数が３５で、「見積」は４個出現するので、第３項は１．０＊（４／３５）＝０．１１となる。

合計でスコアは、全体に対するフォルダツリーのカバー率は１０／１５＝０．６７となり、０．６７＊（０．４＋０．１＋０．１１）＝０．４１となる。

以上説明したように、実施形態２によれば、実施形態１で説明した効果に加えて、ファイルのカバー率を加味して、ワークフロー名を作成する。これにより、推薦するワークフローに関係するファイルに管理するフォルダの内、より関係のあるフォルダに由来するワークフロー名を作成することができる。

尚、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

データの操作履歴から類似する操作のパターンをワークフローとして抽出する情報処理装置であって、
データの操作履歴データに基づいて、前記ワークフローを抽出するワークフロー抽出手段と、
前記ワークフロー抽出手段で抽出したワークフローを構成するデータの内の主要なデータである主データを推定して、抽出するデータ抽出手段と、
前記データ抽出手段で抽出した主データにアクセスするためのアクセス経路を表現する名前列を解析して、前記名前列から目的要素の文字列を推定して抽出する目的要素抽出手段と、
前記目的要素抽出手段で抽出した目的要素の文字列の繋がりから、前記ワークフローの名前であるワークフロー名を決定する決定手段と
を有することを特徴とする情報処理装置。
前記目的要素の繋がりの構造と、前記目的要素の頻度と、前記目的要素の構成単語の頻度の１つまたは組み合わせから、前記ワークフロー名の候補の評価値を示すスコアを計算する計算手段を更に備え、
前記決定手段は、前記計算手段で計算されたスコアに基づいて、前記ワークフロー名の候補から、前記ワークフロー名を決定する
ことを特徴とする請求項１に記載の情報処理装置。
前記計算手段では、前記目的要素の繋がりの構造の深さと幅とから、スコア計算される
ことを特徴とする請求項２に記載の情報処理装置。
前記計算手段では、前記目的要素の繋がりの構造の深さと、前記目的要素の繋がりに含まれる前記主データ全体に対する、対象の目的要素に対応するフォルダに含まれる主データの割合を示すカバー率から、スコア計算される
ことを特徴とする請求項２に記載の情報処理装置。
前記決定手段で決定したワークフロー名と、対応するワークフローで推薦する操作の内容を表示装置に出力する出力手段を更に有する
ことを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
データの操作履歴から類似する操作のパターンをワークフローとして抽出する情報処理装置の制御方法であって、
データの操作履歴データに基づいて、前記ワークフローを抽出するワークフロー抽出工程と、
前記ワークフロー抽出工程で抽出したワークフローを構成するデータの内の主要なデータである主データを推定して、抽出するデータ抽出工程と、
前記データ抽出工程で抽出した主データにアクセスするためのアクセス経路を表現する名前列を解析して、前記名前列から目的要素の文字列を推定して抽出する目的要素抽出工程と、
前記目的要素抽出工程で抽出した目的要素の文字列の繋がりから、前記ワークフローの名前であるワークフロー名を決定する決定工程と
を有することを特徴とする情報処理装置の制御方法。
データの操作履歴から類似する操作のパターンをワークフローとして抽出する情報処理装置の制御をコンピュータに機能させるためのプログラムであって、
前記コンピュータを、
データの操作履歴データに基づいて、前記ワークフローを抽出するワークフロー抽出手段と、
前記ワークフロー抽出手段で抽出したワークフローを構成するデータの内の主要なデータである主データを推定して、抽出するデータ抽出手段と、
前記データ抽出手段で抽出した主データにアクセスするためのアクセス経路を表現する名前列を解析して、前記名前列から目的要素の文字列を推定して抽出する目的要素抽出手段と、
前記目的要素抽出手段で抽出した目的要素の文字列の繋がりから、前記ワークフローの名前であるワークフロー名を決定する決定手段と
して機能させることを特徴とするプログラム。