JP6008693B2 - 情報処理装置及びその制御方法、プログラム - Google Patents

情報処理装置及びその制御方法、プログラム Download PDF

Info

Publication number
JP6008693B2
JP6008693B2 JP2012239438A JP2012239438A JP6008693B2 JP 6008693 B2 JP6008693 B2 JP 6008693B2 JP 2012239438 A JP2012239438 A JP 2012239438A JP 2012239438 A JP2012239438 A JP 2012239438A JP 6008693 B2 JP6008693 B2 JP 6008693B2
Authority
JP
Japan
Prior art keywords
workflow
name
data
file
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012239438A
Other languages
English (en)
Other versions
JP2014089606A (ja
Inventor
朋紀 工藤
朋紀 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2012239438A priority Critical patent/JP6008693B2/ja
Priority to US14/045,245 priority patent/US9268842B2/en
Publication of JP2014089606A publication Critical patent/JP2014089606A/ja
Application granted granted Critical
Publication of JP6008693B2 publication Critical patent/JP6008693B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データの操作履歴から類似する操作のパターンをワークフローとして抽出する情報処理装置及びその制御方法、プログラムに関するものである。
ユーザが所望のアイテムを検索する手法として、従来からキーワードによるマッチング方式等が使われている。しかし、これら従来の手法は、ユーザに掛かる負担が大きい。それに代わり、ユーザの手間を軽減し、必要としているアイテムを自動的に検索してユーザへ提示する推薦手法が提案されている。
推薦手法として有名なものに、ECサイト等で広く普及している協調フィルタリングがある。これは、過去の利用履歴からアイテムの利用傾向が似ている類似ユーザを抽出し、その類似ユーザの利用履歴を用いてお薦めするアイテムを予測するものである。
しかし、オフィスにおいて所望するアイテムは、社内文書やWeb上の文書等、情報を作成するための情報源としての情報だけではない。ある仕事を達成するための手順であったり、効率的に仕事を進めるための方法であったり、何かしらのノウハウとしての情報も探している。このような情報は、経験的に整理されワークフローとして明文化されている場合は良いが、明文化されていない場合、時間と労力を情報検索に費やしてしまう。
そこで、時系列に並んだ利用履歴から、頻出する部分データ列を抽出し、それをワークフローとして抽出して推薦に利用する各種技術が提案されている。
一方、クラスタリング等で分類された特定の文書等の集合に対して、その集合が何を表わしているのかを容易に理解できるように、ラベルやキーワードや名前等を付ける手法が提案されている。これらのクラスタにつけられたラベル等を利用して検索範囲を絞り込んだり、検索結果を分類して見やすくしたりしている。
従来は、クラスタに含まれる各文書を構成する単語をTF*IDF等を利用して特徴語を抽出し、重要度によってクラスタを代表する1つ以上のラベルやキーワードを決定している。例えば、特許文献1では、クラスタに含まれる文書中の単語の重要度と包含関係からクラスタラベルのスコアを算出して、代表する1つ以上のラベルやキーワードを決定している。また、特許文献2では、クラスタに含まれる文書中の単語の重要度と並列関係の知識データを利用して、ラベルを決定している。
特開2005−63298号公報 特開2008−84203号公報
従来は、抽出したワークフローから操作を推薦しているだけであり、その操作の意味や何のためにその操作が推薦されたか分からなかった。そのため、複数の推薦された操作の中からユーザが選択することが難しかった。
本発明は上記の課題を解決するためになされたものであり、ワークフロー推定による操作の推薦において、ワークフローの名前を共に表示して、ユーザが選択し易くすることを目的とする。
また、従来のクラスタラベル付けで利用されていた単語のTF*IDF等の頻度を利用した場合、クラスタを検索するキーワードとしては適しているが、ワークフローの名前としては目的が分かる名前ではない。容易にユーザがワークフロー中の操作を選択することはできない。そこで、ワークフローの名前として適切な名前を生成することも目的とする。
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
データの操作履歴から類似する操作のパターンをワークフローとして抽出する情報処理装置であって、
データの操作履歴データに基づいて、前記ワークフローを抽出するワークフロー抽出手段と、
前記ワークフロー抽出手段で抽出したワークフローを構成するデータの内の主要なデータである主データを推定して、抽出するデータ抽出手段と、
前記データ抽出手段で抽出した主データにアクセスするためのアクセス経路を表現する名前列を解析して、前記名前列から目的要素の文字列を推定して抽出する目的要素抽出手段と、
前記目的要素抽出手段で抽出した目的要素の文字列の繋がりから、前記ワークフローの名前であるワークフロー名を決定する決定手段と
を有する。
本発明によれば、操作の推薦時にワークフローの目的が分かる名前を共に表示することでワークフローの位置づけなどが分かり推薦された操作をユーザが選択し易くなる。それにより、ユーザは次に行うべき操作がわからない場合でも、推薦された操作をワークフローの名前から選択して、効率的に仕事を進めることを支援することができる。
実施形態1のワークフロー名前生成装置の構成例を示すブロック図である。 実施形態1のワークフロー抽出処理を示すフローチャートである。 実施形態1のワークフロー名前生成処理を示すフローチャートである。 実施形態1のワークフロー例を示す図である。 実施形態1のワークフロー例に係るデータ例を示す図である。 実施形態1のワークフロー例に係るデータ例を示す図である。 実施形態1のスコア計算例を示す図である。 実施形態1のワークフロー例に係るデータ例を示す図である。 実施形態1のワークフロー名を含む表示例を示す図である。 実施形態2のワークフロー例に係るデータ例を示す図である。 実施形態2のスコア計算例を示す図である。
以下、本発明の実施の形態について図面を用いて詳細に説明する。
<実施形態1>
図1は実施形態1のワークフロー名前生成装置の構成例を示すブロック図である。
このワークフロー名前生成装置(情報処理装置)は、CPUであるデータ処理部115、メモリである記憶部111、ディスプレイである表示部116、キーボードやマウス等の入力部113、ネットワークI/F部117で構成される。記憶部111には、文書データ群121の操作に対する操作履歴データ120、その文書データ(ファイル)群121がそれぞれ格納されている。
初めに、操作履歴から類似する操作のパターンをワークフローとして抽出するワークフロー抽出処理について説明して、次に、抽出されたワークフローからワークフローの名前を生成するワークフロー名前生成処理について説明する。
まず、ワークフロー抽出処理を、図2のフローチャートを用いて説明する。このフローチャートは、データ処理部115が制御プログラムを実行することにより実現される。
まず、仮タスク抽出処理(ステップS601)では、ファイル操作履歴を含む操作履歴データ120から、ユーザ単位でのファイル操作履歴を切り出す。次に、そのユーザ毎のファイル操作履歴からある区切り指標を用いて、近い時間に行われたファイル操作群(これを、仮タスクとする)に分割し、アイテム利用操作集合なる仮タスク集合を生成する。ある区切り指標とは、例えば、固定時間の間隔に区切る方法でもよいし、ファイル操作間の時間がある一定時間以上長い個所を区切りとしてもよい。
ファイル間類似度計算処理(ステップS602)では、ファイル間の類似度の計算を行う。ファイル間の類似度としては、単純に、文書内容の類似性を指標とするのではなく、作業におけるファイルの使用され方が似ているものを類似度が高いと見なす指標を用いる。例えば、そのような指標として次のようなものが利用できる。
・ファイルのコピー関係
・ファイルの構造情報(XML構造)
・ファイルの共起頻度情報
・ファイルの属性情報
ファイルクラスタリング処理(ステップS603)では、ファイル間類似度計算処理(ステップS602)で計算したファイル間の類似度を用いて、ファイルをクラスタリングする。クラスタリングの手法としては、階層型と非階層型の大きく2つに分かれるが、ここでは、クラスタの数を予め定める必要のない階層型クラスタリングの手法を用いる。階層型クラスタリングの代表的な手法に、最短距離法、最長距離法、群平均法、ウォード法等があるがどれを用いてもよい。尚、それぞれの手法の説明については本発明の本質ではないため省略する。クラスタリングの結果として、作業におけるファイルの使用され方が似ているものをグループとしてまとめたものをファイルクラスタとして出力する。ここで、ファイルクラスタは、1つ以上のファイルのまとまりであり、類似するファイルが1つもないファイルでも、それ単体でファイルクラスタとする。
仮タスク抽象化処理(ステップS604)では、仮タスク抽出処理(ステップS601)で生成した仮タスクに対して、ファイルクラスタリング処理(ステップS603)で出力したファイルクラスタを用いて、仮タスクを構成するファイル操作群のファイルを、そのファイルが含まれるファイルクラスタに置き換える。これを仮タスクの抽象化と呼ぶ。
仮タスク間類似度計算処理(ステップS605)では、仮タスク抽象化処理(ステップS604)までで生成されたファイルクラスタ単位の仮タスクを用いて、仮タスク間の類似度を計算する。仮タスク間の類似度としては、仮タスクに含まれるファイルクラスタ操作集合の要素の一致度を類似性指標とする。このような集合の類似性の指標としては、ジャッカード係数やダイス係数、シンプソン係数等が知られている。
仮タスククラスタリング処理(ステップS606)では、仮タスク間類似度計算処理(ステップS605)で計算した仮タスク間の類似度を用いて、仮タスクをクラスタリングして仮タスククラスタを作成する。クラスタリングの処理方法については、ファイルクラスタリング処理(ステップS603)と同様の方法であるので割愛する。
タスク抽出処理(ステップS607)では、仮タスククラスタリング処理(ステップS606)で作成した仮タスククラスタを用いて、タスクの抽出を行う。タスクは、作成した仮タスククラスタの1つ1つとする。ここで、仮タスククラスタに含まれる仮タスク数が閾値以上のものだけをタスクとしてもよい。仮タスククラスタに含まれる仮タスク数が閾値以上であるということは、それだけそのタスクはよく行われ、汎用的であると言える。逆に、閾値未満であるということは、あまり汎用的ではなく、タスクとして重要ではない可能性がある。
仮ワークフロー抽出処理(ステップS608)では、タスクをシーケンシャルに並べたものである抽象アイテム利用操作集合の系列なる仮ワークフローの抽出を行う。これは、あるユーザのファイル操作履歴であり、そこから仮タスク抽出処理(ステップS601)によって仮タスクが抽出されている。仮ワークフローを抽出するにあたっては、ある条件により仮タスク間で分割することを行う。
ワークフロー抽出処理(ステップS609)では、仮ワークフロー抽出処理(ステップS608)で抽出した仮ワークフローに対して、シーケンシャルパターンマイニングを行い、頻出するタスクシーケンスを発見し、これを最終的にワークフローとして抽出する。
次に、ワークフロー名前生成処理を、図3のフローチャートを用いて説明する。このフローチャートは、データ処理部115が制御プログラムを実行することにより実現される。
図3では、抽出されたワークフローを構成するファイル群からワークフローの名前を生成する処理を実行する。この処理は、主ファイル推定・抽出処理(ステップS300)、目的要素推定・抽出処理(ステップS301)、フォルダツリー再構成処理(ステップS302)、スコア計算処理(ステップS303)、ワークフロー名決定処理(ステップS304)から構成される。
図4(a)は抽出されたワークフローとして月報作成のワークフロー例である。
Task1として、先月の月報(A1〜A5)をコピーして、コピーファイル(A1’〜A5’)を得る。コピーしたファイル(A1’〜A5’)を今月の月報ファイル名(a1〜a5)に名前変更する。
Task2として、今月の月報ファイル(a1〜a5)をcheck−outして編集を開始する。
Task3として、対応する週報を参照する。
Task4として、今月の月報を記入してupdateして、check−inする。
このようなTask1〜Task4を、抽出されたワークフローを例とする。
図4(b)はクラスタを構成するファイルと操作の具体例である。図4(b)のようにA1とA1’はコピー元ファイルとコピー先ファイルに対応している。A1’とa1は名前変更前ファイルと名前変更後ファイルに対応している。(A2,A2’,a2)、(A3,A3’,a3)、(A4,A4’,a4)及び(A5,A5’,a5)の関係も同様である。
図4(b)中のファイル群2200は、類似ファイルとしてファイルクラスタA(FC−A)にクラスタリングされている。同様に、ファイル群2201とファイル群2202も類似ファイルとして、それぞれファイルクラスタA’(FC−A’)とファイルクラスタa(FC−a)とにクラスタリングされている。図4(a)中のファイルクラスタB(FC−B)とファイルクラスタD(FC−D)も同様である。
図4(b)のC1ファイルとC1’ファイルは今月の月報ファイルa1の編集中に参照した週報のファイルである。(C2,C2’,a2)、(C3,C3’,a3)、(C4,C4’,a4)及び(C5,C5’,a5)の関係も、ファイルC1、ファイルC1’及びファイルa1の関係と同様である。図4(b)中のファイル群2203は類似ファイルとしてファイルクラスタC(FC−C)にクラスタリングされている。
また、図4(a)、図4(b)の各ファイルに対する符号(a1からa5)は、後述の図5及び図6と共通である。
図3のワークフロー名前生成処理について動作例を説明する。
初めに、主ファイル推定・抽出処理(ステップS300)では、記憶部111に格納されている操作履歴データ120のログの種類から主ファイルを推定する。ワークフローを構成している各クラスタのファイル群からログの操作種類によって、ワークフローの主データとなる主ファイル(中心となる主要ファイル)を推定して抽出(データ抽出)する。例えば、新たに作成したファイルや、ベースとなるファイルからコピーして編集したファイルや、印刷したファイルがワークフローの出力となるファイル等を、主ファイルであると推定する。後続する処理では主ファイルだけを使う。
例えば、図5(a)はワークフロー中のログの例である。ログの種類(操作のタイプ)、ファイル名が順に記録されている。ログの種類がcheck−in、update、check−outの場合は、主ファイルであると推定する。図5(a)の場合、ファイル名が「第一開発室201202」のファイル4102、4104及び4105は主ファイルであると推定する。一方、ログの種類がcopy、rename、openしか行っていないファイルは主ファイルではないと推定する。図4(a)の場合に示した、ファイル4100、4101及び4103は主ファイルではないと推定する。
図5(b)は抽出した主ファイルのファイルパスの例である。4200はファイル名であり、4206はファイルが格納されているフォルダ名である。図4のワークフローから主ファイルとして、図5(b)のファイル4201(a1)から4205(a5)までの5つのファイルが主ファイルとして抽出される。
次に、目的要素推定・抽出処理(ステップS301)では、主ファイル推定・抽出処理(ステップS300)で抽出した主ファイルのパス(フォルダ名及びファイル名)を解析して、目的要素を推定して抽出(目的要素抽出)する。これは、単語の品詞等から単語の役割を推定して抽出する。例では、ファイルのパスを形態素解析、固有表現抽出を行う。目的要素を抽出するための解析で、文字種別による単語の切り出し等でも類似の処理が可能であり、必ずしも形態素解析処理、固有表現抽出処理が必須ではない。品詞及び固有表現の種別で構成要素を推定する。
普通名詞列の場合、「目的」要素として、後述するフォルダツリー再構成処理(ステップS302)とスコア計算処理(ステップS303)では、目的要素のみを利用する。普通名詞以外の品詞である固有名詞(組織名:社名、部署)または技術名、製品名、ブランド名等の場合、「対象」要素とする。図6(a)の5107のように英数字列(含む日付)の場合、「識別子」要素とする。また、図6(a)の5106のように固有名詞(組織、人名)の場合、「作者」要素とする。目的要素以外は、後述するワークフロー名決定処理(ステップS304)で使用する。
例として、図6(a)のようにワークフローを構成する5つの主ファイルのフォルダ名とファイル名に対して、形態素解析及び固有表現抽出を行って、ここでは目的要素として、普通名詞列を抽出する。図6(a)の例では、「月報」5101、「テーマ月報」5102、「管理」5103、「月報」5104の普通名詞列が抽出される。これらをワークフロー名の候補とする。この例では、5105内のファイル名には普通名詞列がないので、ワークフロー名の候補ではなくなる。
フォルダツリー再構成処理(ステップS302)では、目的要素推定・抽出処理(ステップS301)で抽出した目的要素からフォルダツリー(フォルダ構造)を再構成する。フォルダ名、ファイル名から目的要素のみを取り出し、目的要素がないフォルダ名はつめて、上下の階層をつないで、目的要素の繋がりからなるツリーを作成する。例では、図6(b)の5201のように、「2012テーマ月報」のフォルダは「テーマ月報」と目的要素のみになる。さらに、目的要素のないファイル名はワークフロー名候補から外れる。異なる系統のフォルダツリーは最も深い主ファイルの階層をそろえる。
次に、スコア計算処理(ステップS303)では、フォルダツリー再構成処理(ステップS302)で作成されたフォルダツリーのワークフロー名候補の評価値(ワークフロー名としての適切度合いを示す指標)を示すスコアを計算する。スコアは、再構築したフォルダツリーの構造スコア(第1項)と目的要素の頻度スコア(第2項)及び目的要素の構成単語の頻度スコア(第3項)の合計スコアで、以下の計算式1から計算する。
第1項のフォルダツリーの構造スコアは、最も階層が深い主ファイルからの距離l(1オリジンで主ファイル自身は距離1である)とフォルダツリーの幅r(同階層のフォルダまたはファイルの個数)から計算される。最上位のフォルダ名にすると、すべて同じ名前になってしまうため、主ファイルからの距離は小さい方が高スコアになる。また、主ファイルが複数フォルダにある場合、主ファイルすべてに共通する上位フォルダ名がつけられるのが望ましいので、フォルダツリーの幅は小さい方が高スコアになる。従って、複数のフォルダまたはファイルがまとまったところが高スコアになる。
第2項の目的要素の頻度スコア(要素スコア)は、目的要素が再構成されたフォルダツリーに出現する度数であり、再構成されたフォルダツリーに多く出現した目的要素が高スコアとなる。
第3項の目的要素の構成単語の頻度スコア(構成単語スコア)は、目的要素を構成する各単語の頻度の総和で、フォルダツリー中に出現する頻度の高い単語が多く使われている目的要素が高スコアとなる。
Figure 0006008693
・・・計算式1
f(m):ワークフロー名候補スコア
m:ワークフロー名候補の番号 (例では、候補は4つなので1から4)
1:第1項に対する重み (例では、パラメータとして5とする)
r:パスの階層度数 (フォルダツリーの幅が狭い方が高スコア)
α:減衰定数(0<α<1) (例では、0.5とする)
l:対象ファイルからのフォルダの距離 (距離が小さい下位フォルダの方が高スコア)
2:第2項に対する重み (例では、パラメータとして0.5とする)
F(m):m番目の目的要素の出現度数
3:第3項に対する重み (例では、パラメータとして1とする)
N:構成単語総数 (例では、5つの構成単語が存在する)
n:n番目の構成単語の頻度
図6(b)の例では、以下のように計算される。クラスタを構成するファイル名に目的要素(普通名詞)がないため、4つのフォルダ名をワークフロー名候補としてスコア計算する。各ワークフロー名候補のスコア計算結果は、図7のように計算される。そして、図6(b)の5201「月報」の候補例では、スコア計算は以下のようになる。
第1項の構造スコアは、階層距離(主ファイルからの距離)l=3、階層度数(フォルダツリーの幅)r=2なので、第1項は5*(0.52)/2=0.63となる。
第2項の要素スコアは、出現度数であるF(「月報」)は「月報」が2つ出現するので、2となり、第2項は0.5*2=1.0となる。
第3項の構成単語スコアは、構成単語総数が5で、「月報」は3個出現するので、1*3/5=0.6となる。
合計でスコアは0.63+1.0+0.6=2.23となる。
別例として、図8(a)のように、見積検討依頼を作成して、決裁書を作成して、契約書を作成するような抽出されたワークフローに対して、図8(b)のように、フォルダツリーを再構築する。この場合、スコア計算すると、その結果は、図8(b)中のワークフロー名候補の周辺に記載したスコアになる。図8(b)の「決裁準備」7201のスコアが「1.56」で最も高くなる。この計算詳細は、以下のようになる。
第1項の構造スコアは、階層距離(主ファイルからの距離)l=3、階層度数(フォルダツリーの幅)r=2なので、第1項は5*(0.53)/2=0.31となる。
第2項の要素スコアは、出現度数であるF(「決裁準備」)は「決裁準備」が2つ出現するので、2となり、第2項は0.5*2=1.0となる。
第3項の構成単語スコアは、構成単語総数が28で、「決裁」は5個出現、「準備」は2個出現するので1*(5/28+2/28)=0.25となる。
合計でスコアは0.31+1.0+0.25=1.56となる。
図8(b)の「決裁準備」7202のスコア詳細は、第1項の構造スコアは、階層距離(主ファイルからの距離)l=2、階層度数(フォルダツリーの幅)r=6なので、第1項は5*(0.52)/6=0.21となる。また、第2項と第3項は同じである。合計でスコアは0.21+1.0+0.25=1.46となる。
ワークフロー名決定処理(ステップS304)では、スコア計算処理(ステップS303)で計算されたスコアの高いものをワークフロー名に決定して、表示部116に表示する。例では、「月報」をワークフロー名に決定して、図9のように、表示部116に推薦(レコメンド)される操作(Copy、Rename)と共にワークフロー名を表示する。図9では、「月報」以外に、ワークフロー名として「決裁準備」とその推薦される操作(Check−out)と、「週報」とその推薦される操作(Copy)が表示されている。
尚、既に名前作成したワークフロー名に同じワークフロー名がある場合の解決方法として、ここで、2つの解決方法例とについて説明する。
第1の方法は、目的要素推定・抽出処理301で推定抽出した目的要素以外の主ファイルに共通する要素(「対象」要素、または「識別子」要素、または「作者」要素)がある場合、ワークフロー名に付加する。共通要素が複数ある場合は、あらかじめ定義した適用順序ルールによって付加する。
例えば、文字数の多い順に適用する。また、共通要素を付加しても同じワークフロー名がある場合、共通要素がなくなるまで、適用順序ルールに従って付加する。図6(a)の例では、主ファイルのファイル名に共通する要素として識別子要素「201202」を付加して「月報201202」をワークフロー名に決定する。共通する要素がない、またはすべて共通要素を付加しても同じワークフロー名がある場合、そのワークフロー名に新たに識別子(連番等)を付与する。
第2の方法は、既に名前作成したワークフロー名と同じワークフロー名候補を候補から削除して、既に名前作成したワークフロー名と異なるワークフロー名候補のなかから最も高いスコアの候補に決定してもよい。
また、この2つの方法を組み合わせて、スコア計算処理で作成済の同ワークフロー名に対するペナルティ関数を追加して決定してもよい。例えば、ペナルティ関数として、スコア計算時に作成済みの同じ目的要素であるワークフロー名の個数に重みをかけて計算式1の値から引くことによって、作成済みワークフロー名を考慮したスコアとなる。
例えば、下記の計算式2でスコア計算して、最も高いスコアの候補に対して、第1の手法である作成したワークフロー名に同じ名前がある場合、目的要素以外の共通要素があれば付加する。共通する要素がない、または共通要素を付加しても同じワークフロー名がある場合、そのワークフロー名に新たに識別子(連番等)を付与する。
ワークフロー名候補スコア’=(計算式1)−ペナルティ関数(作成済の同じ目的要素のワークフロー名の個数*重み)
・・・計算式2
このようにワークフロー名決定方法のいくつかの例を示しているが、同様な処理の異なる順序、組み合わせでもよい。
ここまでの説明で、対象データをファイルとして、対象データの格納されている位置をファイルパスとして説明を行っているが、これに限定されるものではない。例えば、対象データをデータベースのデータとして、対象データの格納されている位置をテーブル名や属性名やリレーション等の階層構造として適用してもよい。データベースの階層構造のデータモデルとしては、入れ子集合モデルや隣接リストモデル等がある。
また、実施形態1でファイルとして説明している対象データは、ワークフロー抽出でクラスタリングされる対象データを表わしている。また、実施形態1でファイルパスとして説明している対象データのアクセス経路は、対象データの格納されている位置にアクセスするための階層的な手順やフォルダ等を表現する名前列(文字列)を表わしている。このアクセス経路によって対象データにアクセスすることが可能になる。
以上説明したように、実施形態1によれば、操作を推薦しても操作の羅列からユーザが選択することは容易ではない従来技術に対して、操作履歴のログの種類から主要なデータのアクセス経路を抽出して、アクセス経路の名前から要素推定を行う。そして、この要素推定の結果から、目的要素を抽出して、その目的要素のフォルダツリーからワークフロー名を決定する。これにより、ワークフロー名として適切な名前が得られる。更に、ワークフローの名前を推薦する操作と共に表示することによって、ユーザに、容易に操作の目的を理解させ、選択し易すさを向上することができる。
<実施形態2>
実施形態2のワークフロー名前生成装置は、実施形態1と同様に、図1のワークフロー名の名前生成装置が構成例となる。実施形態2の処理フローは、実施形態1と同様である。実施形態1との違いは、ワークフロー名候補のスコア計算方法である。
実施形態1では、フォルダ構造の形状(フォルダツリー)から直接計算している。これに対して、実施形態2では、フォルダツリーに含まれる主ファイル全体(主データ全体)に対する対象のフォルダに含まれる主ファイルの割合(カバー率)からフォルダ構造のスコアを間接的に計算する。
具体的には、実施形態1では、第1項のフォルダツリーの構造スコアは、フォルダツリーの深さ(主ファイルからの距離)と幅から計算しているが、実施形態2では、フォルダの深さとファイルのカバー率から計算する。カバー率は、そのフォルダに含まれる主ファイルの全体に対する割合である。また、実施形態1では、複数のフォルダツリー構成を、図6(b)や図8(b)のように、まとめて計算している。これに対して、実施形態2では、図10(a)や図10(b)のように、各フォルダツリーを別々に計算して、最後にそのフォルダツリーに含まれる主ファイル数の比率で重みをかけている。
以下の計算式3で、ワークフロー名候補のスコア計算結果は、図10(a)と図11のように計算される。
Figure 0006008693
・・・計算式3
f(m):ラベリングスコア
m:ワークフロー名候補の番号 (例では、候補は4つなので1から4)
C:全体に対する各フォルダツリーのファイルのカバー率 (例では、上がカバー率40%、下が60%)
0:フォルダツリー構造に対する重み (例では、パラメータとして2とする)
c(m):フォルダツリー内ファイルのカバー率 (カバー率が高いと高スコア)
l:対象ファイルからのフォルダの距離 (下位フォルダの方が高スコア)
M:フォルダ名の総数 (例では、4のフォルダが存在する)
1:フォルダの距離に対する重み (例では、パラメータとして2とする)
F(m):m番目のフォルダ名(ファイル名)の頻度
2:構成単語に対する重み (例では、パラメータとして1とする)
N:構成単語総数 (例では、5つの構成単語が存在する)
n:n番目の構成単語の頻度
図10(b)の例では、以下のように計算される。クラスタを構成するファイル名に目的要素(普通名詞)がないため、フォルダ名をワークフロー名としてスコア計算する。各ワークフロー名候補のスコア計算結果は、図11のように計算される。決定される「月報」を例として、スコア計算は、以下のようになる。
第1項の目的要素の構造スコアは、フォルダツリー内のファイルのカバー率c(m)は1.0で、階層距離lが2で、第1項は2*1.0/2=1.0となる。
第2項の目的要素の頻度スコア(要素スコア)は、m番目のフォルダ名(ファイル名)の頻度F(m)は「月報」が2つ出現するので2となり、第2項は2*2/4=1.0となる。
第3項の構成単語の頻度スコア(構成単語スコア)は、構成単語総数が5で、「月報」は3個出現するので、1.0*3/5=0.6となる。
合計でスコアは、全体に対するフォルダツリーのカバー率は3/5=0.6となり、0.6*(1.0+1.0+0.6)=1.56となる。
別例として、図8(a)のように、見積検討依頼を作成して、決裁書を作成して、契約書を作成するような抽出されたワークフローに対して、図10(b)のようにフォルダツリーを再構築する。この場合、スコア計算したとすると、その結果は、図10(b)のように、ワークフロー名候補の周辺に記載したスコアになる。図10(b)の「海外決裁」8201のスコアが「0.65」で最も高くなる。この計算詳細は、以下のようになる。
第1項の構造スコアは、フォルダツリー内のファイルのカバー率c(m)は1.0で、階層距離l=3なので、第1項は2*1.0/3=0.67となる。
第2項の要素スコアは、「海外決裁」の頻度であるF(海外決裁)は目的要素が21個出現して、「海外決裁」が1つ出現するので、2となり、第2項は2*1/21=0.1となる。
第3項の構成単語スコアは、構成単語総数が35で、「海外」は1個出現し、「決裁」は6個出現するので、第3項は1.0*(1/28+6/28)=0.2となる。
合計でスコアは、全体に対するフォルダツリーのカバー率は10/15=0.67となり、0.67*(0.67+0.1+0.2)=0.65となる。
図10(b)の「見積」8202のスコア詳細は、
第1項の構造スコアは、フォルダツリー内のファイル数が10個でフォルダに含まれるファイル数が4個なので、カバー率c(m)は0.4となる。そして、階層距離l=2なので、第1項は2*0.4/2=0.4となる。
第2項の要素スコアは、「見積」の頻度であるF(見積)は目的要素が21個出現して、「見積」が1つ出現するので、2となり、第2項は2*1/21=0.1となる。
第3項の単語スコアは、構成単語総数が35で、「見積」は4個出現するので、第3項は1.0*(4/35)=0.11となる。
合計でスコアは、全体に対するフォルダツリーのカバー率は10/15=0.67となり、0.67*(0.4+0.1+0.11)=0.41となる。
以上説明したように、実施形態2によれば、実施形態1で説明した効果に加えて、ファイルのカバー率を加味して、ワークフロー名を作成する。これにより、推薦するワークフローに関係するファイルに管理するフォルダの内、より関係のあるフォルダに由来するワークフロー名を作成することができる。
尚、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (7)

  1. データの操作履歴から類似する操作のパターンをワークフローとして抽出する情報処理装置であって、
    データの操作履歴データに基づいて、前記ワークフローを抽出するワークフロー抽出手段と、
    前記ワークフロー抽出手段で抽出したワークフローを構成するデータの内の主要なデータである主データを推定して、抽出するデータ抽出手段と、
    前記データ抽出手段で抽出した主データにアクセスするためのアクセス経路を表現する名前列を解析して、前記名前列から目的要素の文字列を推定して抽出する目的要素抽出手段と、
    前記目的要素抽出手段で抽出した目的要素の文字列の繋がりから、前記ワークフローの名前であるワークフロー名を決定する決定手段と
    を有することを特徴とする情報処理装置。
  2. 前記目的要素の繋がりの構造と、前記目的要素が前記目的要素の繋がりに出現する頻度と、前記目的要素の構成単語が前記目的要素の繋がりに出現する頻度の1つまたは組み合わせから、前記ワークフロー名の候補の評価値を示すスコアを計算する計算手段を更に備え、
    前記決定手段は、前記計算手段で計算されたスコアに基づいて、前記ワークフロー名の候補から、前記ワークフロー名を決定する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記計算手段では、前記目的要素の繋がりの構造の深さと幅とから、スコア計算される
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記計算手段では、前記目的要素の繋がりの構造の深さと、前記目的要素の繋がりに含まれる前記主データ全体に対する、対象の目的要素に対応するフォルダに含まれる主データの割合を示すカバー率から、スコア計算される
    ことを特徴とする請求項2に記載の情報処理装置。
  5. 前記決定手段で決定したワークフロー名と、対応するワークフローで推薦する操作の内容を表示装置に出力する出力手段を更に有する
    ことを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. データの操作履歴から類似する操作のパターンをワークフローとして抽出する情報処理装置の制御方法であって、
    データの操作履歴データに基づいて、前記ワークフローを抽出するワークフロー抽出工程と、
    前記ワークフロー抽出工程で抽出したワークフローを構成するデータの内の主要なデータである主データを推定して、抽出するデータ抽出工程と、
    前記データ抽出工程で抽出した主データにアクセスするためのアクセス経路を表現する名前列を解析して、前記名前列から目的要素の文字列を推定して抽出する目的要素抽出工程と、
    前記目的要素抽出工程で抽出した目的要素の文字列の繋がりから、前記ワークフローの名前であるワークフロー名を決定する決定工程と
    を有することを特徴とする情報処理装置の制御方法。
  7. データの操作履歴から類似する操作のパターンをワークフローとして抽出する情報処理装置の制御をコンピュータに機能させるためのプログラムであって、
    前記コンピュータを、
    データの操作履歴データに基づいて、前記ワークフローを抽出するワークフロー抽出手段と、
    前記ワークフロー抽出手段で抽出したワークフローを構成するデータの内の主要なデータである主データを推定して、抽出するデータ抽出手段と、
    前記データ抽出手段で抽出した主データにアクセスするためのアクセス経路を表現する名前列を解析して、前記名前列から目的要素の文字列を推定して抽出する目的要素抽出手段と、
    前記目的要素抽出手段で抽出した目的要素の文字列の繋がりから、前記ワークフローの名前であるワークフロー名を決定する決定手段と
    して機能させることを特徴とするプログラム。
JP2012239438A 2012-10-30 2012-10-30 情報処理装置及びその制御方法、プログラム Expired - Fee Related JP6008693B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012239438A JP6008693B2 (ja) 2012-10-30 2012-10-30 情報処理装置及びその制御方法、プログラム
US14/045,245 US9268842B2 (en) 2012-10-30 2013-10-03 Information processing apparatus, control method for the same, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012239438A JP6008693B2 (ja) 2012-10-30 2012-10-30 情報処理装置及びその制御方法、プログラム

Publications (2)

Publication Number Publication Date
JP2014089606A JP2014089606A (ja) 2014-05-15
JP6008693B2 true JP6008693B2 (ja) 2016-10-19

Family

ID=50548391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012239438A Expired - Fee Related JP6008693B2 (ja) 2012-10-30 2012-10-30 情報処理装置及びその制御方法、プログラム

Country Status (2)

Country Link
US (1) US9268842B2 (ja)
JP (1) JP6008693B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102232593B1 (ko) 2013-04-30 2021-03-25 가부시키가이샤 시마노 낚시용 릴

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9787799B2 (en) 2014-02-27 2017-10-10 Dropbox, Inc. Systems and methods for managing content items having multiple resolutions
JP6481463B2 (ja) * 2015-03-30 2019-03-13 富士通株式会社 管理支援プログラム、方法及び装置
US10198355B2 (en) 2015-10-29 2019-02-05 Dropbox, Inc. Proving a dynamic digital content cache
CN110619535B (zh) * 2018-06-19 2023-07-14 华为技术有限公司 一种数据处理方法及其装置
US10983677B2 (en) * 2018-11-16 2021-04-20 Dropbox, Inc. Prefetching digital thumbnails from remote servers to client devices based on a dynamic determination of file display criteria
CN110162695B (zh) * 2019-04-09 2022-04-26 中国科学院深圳先进技术研究院 一种信息推送的方法及设备
US20230205736A1 (en) * 2021-12-24 2023-06-29 Vast Data Ltd. Finding similarities between files stored in a storage system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4552401B2 (ja) 2003-08-19 2010-09-29 富士ゼロックス株式会社 文書処理装置および方法
US7343378B2 (en) * 2004-03-29 2008-03-11 Microsoft Corporation Generation of meaningful names in flattened hierarchical structures
JP4737435B2 (ja) 2006-09-28 2011-08-03 日本電気株式会社 ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム
US7634467B2 (en) * 2006-10-31 2009-12-15 Microsoft Corporation Implicit, specialized search of business objects using unstructured text
JP5218068B2 (ja) * 2009-01-05 2013-06-26 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
RU2644071C2 (ru) * 2013-03-15 2018-02-07 Дзе Дан Энд Брэдстрит Корпорейшн Курирование многоязычных коммерческих признаков и синтез транслитерации

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102232593B1 (ko) 2013-04-30 2021-03-25 가부시키가이샤 시마노 낚시용 릴

Also Published As

Publication number Publication date
US20140122505A1 (en) 2014-05-01
JP2014089606A (ja) 2014-05-15
US9268842B2 (en) 2016-02-23

Similar Documents

Publication Publication Date Title
JP6008693B2 (ja) 情報処理装置及びその制御方法、プログラム
US7562088B2 (en) Structure extraction from unstructured documents
JP4796185B2 (ja) 業務フロー図生成プログラム、業務フロー図生成装置および業務フロー図生成方法
US8285702B2 (en) Content analysis simulator for improving site findability in information retrieval systems
US20080162455A1 (en) Determination of document similarity
US20170308792A1 (en) Knowledge To User Mapping in Knowledge Automation System
US20160042298A1 (en) Content discovery and ingestion
WO2009154153A1 (ja) 文書検索システム
JP2000137601A (ja) オブジェクト分析設計支援方法
CA2923892A1 (en) Systems, methods, and software for manuscript recommendations and submissions
KR101975272B1 (ko) 협업 의존성 기반 컴포넌트 재사용 추천 시스템 및 방법
US20160085389A1 (en) Knowledge automation system thumbnail image generation
Kiziltan et al. Constraint detection in natural language problem descriptions
US20160086499A1 (en) Knowledge brokering and knowledge campaigns
JP7065718B2 (ja) 判断支援装置および判断支援方法
Amreen et al. A methodology for measuring floss ecosystems
Burger et al. Finalist 2: Feature identification, localization, and tracing tool
JP2005316699A (ja) コンテンツ公開システム、コンテンツ公開方法、及びコンテンツ公開プログラム
Zhang et al. MEGAnno: Exploratory labeling for NLP in computational notebooks
JP2012027525A (ja) ファイル格納補助システムと方法およびプログラム
JP2004185346A (ja) プロジェクト作業支援方法およびシステム
JP2009223679A (ja) 電子文書検索装置、及び電子文書検索プログラム
JP4393482B2 (ja) 情報共有システム及びプログラム
JP2015162170A (ja) 情報処理装置、及び制御方法
JP2014203392A (ja) 文書管理装置、文書管理方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160819

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160913

R151 Written notification of patent or utility model registration

Ref document number: 6008693

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees