JP2021179857A - Data generation support device, data generation support method, and data generation support system - Google Patents
Data generation support device, data generation support method, and data generation support system Download PDFInfo
- Publication number
- JP2021179857A JP2021179857A JP2020085428A JP2020085428A JP2021179857A JP 2021179857 A JP2021179857 A JP 2021179857A JP 2020085428 A JP2020085428 A JP 2020085428A JP 2020085428 A JP2020085428 A JP 2020085428A JP 2021179857 A JP2021179857 A JP 2021179857A
- Authority
- JP
- Japan
- Prior art keywords
- data
- workflow
- input
- data generation
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 138
- 238000012545 processing Methods 0.000 claims abstract description 47
- 230000008569 process Effects 0.000 claims description 123
- 230000010365 information processing Effects 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000007726 management method Methods 0.000 description 168
- 238000000605 extraction Methods 0.000 description 98
- 238000013439 planning Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 230000008520 organization Effects 0.000 description 16
- 239000000284 extract Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000013523 data management Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 238000013499 data model Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 108020005196 Mitochondrial DNA Proteins 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、データ生成支援装置、データ生成支援方法、及びデータ生成支援システムに関する。 The present invention relates to a data generation support device, a data generation support method, and a data generation support system.
近年、DNAデータ及びオンラインサービスのユーザ情報など、個人情報に関連した高機
密なデータが急増している。これらの機密データは、企業や研究機関などの組織がデータ分析に用いることでその事業に有意な洞察を得られることから、利用価値が高い。
In recent years, the amount of highly confidential data related to personal information, such as DNA data and user information of online services, has increased rapidly. These confidential data are highly useful because they can be used by organizations such as companies and research institutes for data analysis to gain significant insights into their businesses.
機密データの利用方法としては、例えば、組織間での機密データの相互利用が挙げられる。多量の機密データを保有する組織(データ保有組織)は、機密データの相互利用に関するアライアンスを提携した相手組織(アライアンス組織)に対して、多様な機密データ、それらの機密データの分析などの処理を実行するワークフローを管理するレポジトリ、及び、ワークフローを利用するためのワークフロー実行環境を提供する(オンサイトデータ活用)。データ保有組織は、アライアンス組織の顧客(機密データの利用者)によるデータ利用に対して課金するなどにより収益を図る。 Examples of the method of using confidential data include mutual use of confidential data between organizations. An organization that holds a large amount of confidential data (data holding organization) processes various confidential data and analysis of those confidential data with the partner organization (alliance organization) that has an alliance for mutual use of confidential data. It provides a repository for managing the workflow to be executed and a workflow execution environment for using the workflow (utilization of on-site data). The data holding organization aims to make a profit by charging for the data usage by the customers (users of confidential data) of the alliance organization.
一方で、オンサイトデータ活用に関連した社会動向として、欧州におけるGDPR(General Data Protection Regulation)及び、日本における個人情報保護法の改正などの、機密データに対する法規制が強化されていることが挙げられる。このような法規制によって、機密データの管理に対する厳しい制約が課されている。そのため、データ保有組織は、特に機密性の高いデータ(一次データ)については利用者によるアクセスを禁止し、その代わり、一次データのうち機密性が特に高い部分(例えば、個人を特定する情報)を除くなどの処理を施すことにより得られる、比較的機密性の低い高次データ(二次データ、及び二次データをさらに加工して得られる三次データ等)についてのみ、利用者によるアクセスを許容するなどの対策を講じている。 On the other hand, as a social trend related to the utilization of on-site data, there is a strengthening of laws and regulations on confidential data such as GDPR (General Data Protection Regulation) in Europe and revision of the Personal Information Protection Law in Japan. .. These laws and regulations impose strict restrictions on the management of sensitive data. Therefore, the data holding organization prohibits users from accessing particularly sensitive data (primary data), and instead restricts the particularly sensitive part of the primary data (for example, personally identifiable information). Access by users is permitted only for high-order data with relatively low confidentiality (secondary data, tertiary data obtained by further processing the secondary data, etc.) obtained by performing processing such as removal. We are taking measures such as.
ここで、二次データの活用方法として、特許文献1には、利用者自らの判断により、目的とする二次データを得るためのデータ処理ワークフローまたは処理プログラムを選択できるようにするデータ管理システムが開示されている。
Here, as a method of utilizing the secondary data,
しかし、特許文献1のシステムは、データの利用者が一次データに対してアクセス可能である場合を前提としている。この場合、利用者が一次データへのアクセスができなくなるような対策が講じられた場合には、利用者は当システムを利用することができない。
However, the system of
すなわち、利用者は、自身が利用したい二次データを得るために実行すべきワークフロー(処理プログラム)を、データ保有組織又はアライアンス組織に対して指示する必要がある。そのためには、その元となる一次データについての情報を知る必要があることが多い。例えば、ワークフローに入力する一次データを特定するためには、ワークフローへの入力データに関する情報として、ファイル拡張子などのデータ形式の他、データの性質(内容面)も知る必要がある。 That is, the user needs to instruct the data holding organization or the alliance organization on the workflow (processing program) to be executed in order to obtain the secondary data that he / she wants to use. For that purpose, it is often necessary to know information about the primary data from which the data is based. For example, in order to specify the primary data to be input to the workflow, it is necessary to know the nature (content aspect) of the data as well as the data format such as the file extension as the information regarding the input data to the workflow.
しかし、利用者が一次データへのアクセスがそもそもできない場合、利用者はそのような情報を知ることができないので、適切な一次データにアクセスすることができず、その結果、実行すべきワークフローも選択することができない。 However, if the user does not have access to the primary data in the first place, the user will not be able to know such information and will not be able to access the appropriate primary data and, as a result, select the workflow to be executed. Can not do it.
本発明はこのような背景に鑑みてなされたものであり、その目的は、データを生成するために必要な情報が欠けている場合であってもそのデータを生成することが可能な、データ生成支援装置、データ生成支援方法、及びデータ生成支援システムを提供することにある。 The present invention has been made in view of such a background, and an object thereof is data generation capable of generating data even if the information necessary for generating the data is lacking. The purpose is to provide a support device, a data generation support method, and a data generation support system.
上記課題を解決するための本発明の一つは、所定のデータの生成を要求する要求情報を受信するデータ生成要求受付処理と、前記所定のデータの内容の特徴を第1モデルにより推定し、推定した特徴の内容を備える他のデータにより前記所定のデータが生成可能な処理を、第2モデルにより特定するデータ生成管理処理と、を実行する演算装置を備える、データ生成支援装置、とする。 One of the present inventions for solving the above-mentioned problems is a data generation request acceptance process for receiving request information requesting the generation of predetermined data, and an estimation of the characteristics of the contents of the predetermined data by a first model. A data generation support device including a calculation device for executing a data generation management process specified by a second model as a process in which the predetermined data can be generated by other data having the contents of the estimated features.
また、上記課題を解決するための本発明の他の一つは、情報処理装置が、所定のデータの生成を要求する要求情報を受信するデータ生成要求受付処理と、前記所定のデータの内容の特徴を第1モデルにより推定し、推定した特徴の内容を備える他のデータにより前記所定のデータが生成可能な処理を、第2モデルにより特定するデータ生成管理処理と、を実行する、データ生成支援方法、とする。 Further, another one of the present invention for solving the above-mentioned problems is a data generation request acceptance process in which the information processing apparatus receives request information requesting the generation of predetermined data, and the content of the predetermined data. Data generation support that estimates features by the first model and executes a process that can generate the predetermined data by other data having the contents of the estimated features, and a data generation management process that specifies by the second model. The method.
また、上記課題を解決するための本発明の他の一つは、所定のデータの生成を要求する要求情報を送信する利用者端末と、前記要求情報を受信するデータ生成要求受付処理、及び、前記所定のデータの内容の特徴を第1モデルにより推定し、推定した特徴の内容を備える、所定の情報処理装置が記憶している他のデータにより前記所定のデータが生成可能な処理を、第2モデルにより特定するデータ生成管理処理を実行するデータ生成支援装置とを含んで構成され、前記所定の情報処理装置は、前記他のデータを記憶していると共に、前記利用者端末による前記他のデータへのアクセスを禁止している、データ生成支援システム、とする。 Another aspect of the present invention for solving the above problems is a user terminal for transmitting request information requesting the generation of predetermined data, a data generation request acceptance process for receiving the request information, and a data generation request acceptance process. A process in which the characteristic of the content of the predetermined data is estimated by the first model and the predetermined data can be generated by other data stored in the predetermined information processing apparatus having the content of the estimated characteristic is performed. The predetermined information processing apparatus is configured to include a data generation support device that executes data generation management processing specified by the two models, and the predetermined information processing apparatus stores the other data and the other by the user terminal. It is a data generation support system that prohibits access to data.
本発明によれば、データを生成するために必要な情報が欠けている場合であってもそのデータを生成することができる。 According to the present invention, even if the information necessary for generating the data is lacking, the data can be generated.
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。 Issues, configurations and effects other than those described above will be clarified by the following description of the embodiments.
本実施形態に係るデータ生成支援システムについて、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。 The data generation support system according to this embodiment will be described with reference to the drawings. It should be noted that the embodiments described below do not limit the invention according to the claims, and all of the elements and combinations thereof described in the embodiments are indispensable for the means for solving the invention. Is not always.
[実施例1]
−システム構成−
図1は、実施例1に係るデータ生成支援システム1の構成の一例を示す図である。
[Example 1]
-System configuration-
FIG. 1 is a diagram showing an example of the configuration of the data
データ生成支援システム1は、利用者端末102、ファイル管理サーバ105、ワークフロー実行装置120、データ生成支援装置101、及び管理コンソール107を含んで構成されている。
The data
利用者端末102は、利用者(組織又は個人。例えば、医師。)が利用する情報処理装置である。
The
ファイル管理サーバ105は、所定の事業者により管理され、様々な機密データ(以下、一次データともいう)を記憶している。ファイル管理サーバ105は、例えば、所定のデータ保有組織又はそのアライアンス組織が管理する、多数人の遺伝情報のデータベース装置である。
The
なお、ファイル管理サーバ105は、データ生成支援装置101及びワークフロー実行装置120からのアクセスは許可しているが、利用者端末102からのアクセスは禁止している。
The
ワークフロー実行装置120は、所定の事業者(例えば、データ保有組織又はそのアライアンス組織)が管理する情報処理装置である。ワークフロー実行装置120は、利用者端末102から受信したデータ生成要求108とファイル管理サーバ105の一次データとに基づき所定の処理プログラム(以下、ワークフローという)を実行することにより、一次データを加工して得られる機密性の低いデータ(二次データ)及びこの二次データをさらに加工して得られるデータ(以下、これらのデータを総称して成果データという。)を生成する。
The
二次データは、例えば、遺伝情報に基づき生成される変異情報である。成果データは、例えば、変異情報に基づき生成される疾病リスクの情報である。 The secondary data is, for example, mutation information generated based on genetic information. Outcome data is, for example, disease risk information generated based on mutation information.
データ生成支援装置101は、利用者端末102とワークフロー実行装置120とを仲介する情報処理装置である。データ生成支援装置101は、利用者端末102から受信したデータ生成要求108に基づき、成果データを生成するために必要な一次データを特定し、特定した一次データに基づき、ワークフロー実行装置120に成果データの生成を要求する(データ生成計画)。
The data
管理コンソール107は、データ生成支援装置101の管理者106(組織又は個人)が使用する情報処理装置である。
The
利用者端末102、データ生成支援装置101、ファイル管理サーバ105、管理コンソール107、及びワークフロー実行装置120の間は、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、専用線等の有線又は無線のネットワ
ークによって通信可能に接続される。
Wired LAN (Local Area Network), WAN (Wide Area Network), Internet, dedicated line, etc. between the
ここで、利用者端末102の利用者は、データ生成要求108として自身が保有するデータ及び、成果データを生成するためのワークフローを指定することにより、所望の成果データを得ることを欲している。
Here, the user of the
しかし、ワークフローの実行には、使用する一次データを特定する必要があるところ、事業者はこの一次データについての情報を、利用者に提供することができない。そのため事業者は、通常であれば、提供を受けたデータから必要な一次データを特定するための煩雑な作業を行わなければならなかった。 However, in order to execute the workflow, it is necessary to specify the primary data to be used, and the business operator cannot provide the information about this primary data to the user. Therefore, the business operator would normally have to perform complicated work to identify the necessary primary data from the provided data.
そこで、本実施形態のデータ生成支援装置101は、利用者のデータ生成要求108に対する適切なワークフローを自動的に特定し、ワークフロー実行装置120に成果データを生成させるようにする。
Therefore, the data
以下、このようなデータ生成支援システム1の詳細を説明する。
Hereinafter, the details of such a data
−−利用者端末−−
まず、利用者端末102は、利用者により入力された、成果データの生成を要求するデータ生成要求108を送信する。利用者端末102は、利用者が利用するインタフェースとして、GUI(Graphic User Interface)やCUI(Command User Interface)等を備える。
--User terminal ---
First, the
−−管理コンソール−−
管理コンソール107は、管理者106からの入力により、データ生成支援装置101における後述するファイルメタデータ抽出規則115及びワークフローメタデータ抽出規則118を生成する。管理コンソール107は、管理者106が利用するインタフェースとして、GUI(Graphic User Interface)やCUI(Command User Interface)等を備える。
--Management console ---
The
−−ファイル管理サーバ−−
ファイル管理サーバ105は、ワークフローが利用する一次データのファイル(以下、データファイルともいう)を複数保持する。なお、ファイル管理サーバ105は、データ生成支援装置101に組み込まれていてもよいし、データ生成支援装置101の外部機能として提供されてもよい。すなわち、ファイル管理サーバ105が管理するデータファイルは、NAS(Network Attached Storage)やローカルファイルサーバ、クラウド上のオブ
ジェクトストレージなど、どのような形態で提供されていてもよい。
--File management server ---
The
(データファイル)
ここで、図2は、データファイルの一例を示す図である。データファイル150は、書
誌情報等が設定される部分であるデータヘッダ部R1001と、データボディ部R1021とを有する。データヘッダ部R1001は、データモデル、データボディ部R1021のサイズ、又は、データファイル150に対応づけられている外部のデータファイル150のID等の、サブ情報R1011〜R1016を含む。データボディ部R1021は、データ本体であり、機密情報が含まれる。なお、同図では、データファイル150がバイナリファイル形式である場合の例を示しているが、データファイル150はテキスト形式でもよい。
(data file)
Here, FIG. 2 is a diagram showing an example of a data file. The data file 150 has a data header unit R1001 and a data body unit R1021 which are portions in which bibliographic information and the like are set. The data header unit R1001 includes sub-information R1011 to R1016 such as a data model, a size of the data body unit R1021, or an ID of an external data file 150 associated with the data file 150. The data body unit R1021 is a data body and contains confidential information. Although the figure shows an example in which the data file 150 is in the binary file format, the data file 150 may be in the text format.
−−データ生成支援装置−−
次に、図1に示すように、データ生成支援装置101は、データ生成要求受付部111、データ生成管理部112、ファイルメタデータ抽出部113、及びワークフローメタデータ抽出部116の各機能部(プログラム)を備える。
--Data generation support device ---
Next, as shown in FIG. 1, the data
また、データ生成支援装置101は、ファイルメタデータ管理テーブル114、ファイルメタデータ抽出規則115、ワークフローメタデータ管理テーブル117、及びワークフローメタデータ抽出規則118を記憶している。
Further, the data
まず、データ生成要求受付部111は、所定のデータ(成果データ)の生成を要求する要求情報を受信する。すなわち、データ生成要求受付部111は、利用者端末102から送信されてきたデータ生成要求108を受信する。
First, the data generation
また、データ生成要求受付部111は、ワークフロー実行装置120が生成した成果データ又は当該成果データにアクセスするための情報を、利用者端末102に送信する。
Further, the data generation
データ生成管理部112は、成果データの内容の特徴を第1モデル(ファイルメタデータ管理テーブル114)により推定し、推定した特徴の内容を備える他のデータ(一次データ)により成果データが生成可能な処理(ワークフロー)を、第2モデル(ワークフローメタデータ管理テーブル117)により特定する。
The data
すなわち、データ生成管理部112は、データ生成要求108と、ファイルメタデータ管理テーブル114及びワークフローメタデータ管理テーブル117とに基づき、データ生成要求108の要求内容に対応したワークフロー及びこれに使用されるデータファイル150の情報であるデータ生成計画を生成する。データ生成管理部112は、生成したデータ生成計画をワークフロー実行装置120に送信する。
That is, the data
また、データ生成管理部112は、成果データ(二次データ等)が生成可能な処理(ワークフロー)を特定したことを示す情報、又は成果データが生成可能な処理に基づき成果データを生成中であることを示す情報を表示する。
Further, the data
ここで、データ生成管理部112の詳細を説明する。
Here, the details of the data
(データ生成管理部)
図3は、データ生成管理部112の詳細を説明する図である。データ生成管理部112は、データ生成計画部301、入力ファイル特定部302、実行ワークフロー特定部303、及び計画管理部304を含む。
(Data generation management department)
FIG. 3 is a diagram illustrating details of the data
データ生成計画部301は、データ生成要求受付部111から受信したデータ生成要求108に基づき、次述する実行ワークフロー特定部303と連携することで実行するワークフローを特定すると共に、次述する入力ファイル特定部302と連携することで、特定したワークフローに入力するファイルを特定する。データ生成計画部301は、特定した
これらのワークフロー及びファイルの情報を、データ生成計画として計画管理部304に入力する。
Based on the
入力ファイル特定部302は、データ生成計画部301から入力されたファイルの情報に基づき、そのファイルを特徴付けるデータ(メタデータ)を、ファイルメタデータ管理テーブル114から取得する。
The input
実行ワークフロー特定部303は、データ生成計画部301から入力されたワークフローに基づき、そのワークフローを特徴付けるデータ(メタデータ)を、ワークフローメタデータ管理テーブル117から取得する。
The execution
計画管理部304は、データ生成計画部301から入力されたデータ生成計画を取得し、当該データ生成計画におけるワークフローの実行要求をワークフロー実行装置120に送信する。また、計画管理部304は、計画管理部304からそのワークフローの実行完了の旨の通知及び、そのワークフローの実行結果又は当該実行結果のアクセスに必要な情報(実行結果情報)を、データ生成要求受付部111に入力する。
The
ここで、ファイルメタデータ管理テーブル114及びワークフローメタデータ管理テーブル117について説明する。 Here, the file metadata management table 114 and the workflow metadata management table 117 will be described.
(ファイルメタデータ管理テーブル)
図4は、ファイルメタデータ管理テーブル114の一例を示す図である。
(File metadata management table)
FIG. 4 is a diagram showing an example of the file metadata management table 114.
ファイルメタデータ管理テーブル114は、データファイル150を特徴付ける情報(以下、特徴情報という)として、形式面からデータファイル150を特徴付ける情報であるデータ形式と、内容面からデータファイル150を特徴付ける情報であるメタデータとを記憶している。 File metadata The data management table 114 is a data format that characterizes the data file 150 in terms of format (hereinafter referred to as feature information) and a meta that is information that characterizes the data file 150 in terms of content. I remember the data.
すなわち、ファイルメタデータ管理テーブル114は、データファイル150のIDであるデータID501、データID501に係るデータファイル150の形式(例えば、ファイルの拡張子)の情報であるデータ形式502、及び、データID501に係るデータファイル150のデータの内容を特徴付ける情報であるメタデータ503の各項目を有する1以上のレコードR521〜R526で構成される。
That is, the file metadata management table 114 includes the
メタデータ503は、データファイル150の内容の種別であるデータ種別511と、データファイル150の内容を所定の規則により分類した場合の分類512とを有する。メタデータ503の内容は、データ形式502に係る情報では特定できない、データファイル150の特徴情報である。例えば、メタデータ503は、データファイル150がバイナリ形式の場合は、データファイルのヘッダ部R1001又はボディ部R1021を解析して得られる情報である。
The
(ワークフローメタデータ管理テーブル)
図5は、ワークフローメタデータ管理テーブル117の一例を示す図である。ワークフローメタデータ管理テーブル117は、過去に実行された又はユーザにより予め設定された各ワークフローと各ワークフローの特徴情報とを蓄積している。
(Workflow metadata management table)
FIG. 5 is a diagram showing an example of the workflow metadata management table 117. The workflow metadata management table 117 stores each workflow executed in the past or preset by the user and the feature information of each workflow.
ワークフローメタデータ管理テーブル117は、ワークフローのIDが設定されるワークフローID601と、ワークフローID601に係るワークフローの実行の際に入力されるデータファイル150(以下、入力データという)の特徴情報が設定されるワークフロー入力602と、ワークフローID601に係るワークフローの実行により出力される
ファイル(以下、出力データという)の特徴情報が設定されるワークフロー出力603とを含む各項目を有する、1以上のレコードR(R631〜R636)を備える。
The workflow metadata management table 117 is a workflow in which the
ワークフロー入力602は、入力データの形式(例えば、拡張子)が設定されるデータ形式611と、入力データのメタデータが設定されるメタデータ612とを有する。メタデータ612は、入力データのメタデータの種別が設定される種別621と、入力データのメタデータの分類が設定される分類622とを有する。
The
また、ワークフロー出力603は、出力データの形式(例えば、拡張子)が設定されるデータ形式613と、出力データのメタデータが設定されるメタデータ614を有する。メタデータ614は、出力データのメタデータの種別が設定される種別623と、出力データのメタデータの分類が設定される分類624とを有する。
Further, the
なお、ワークフロー入力602及びワークフロー出力603には、それぞれ0個以上のデータが設定される。
In addition, 0 or more data are set in each of the
次に、図1に示すように、ファイルメタデータ抽出部113は、複数のデータ(データファイル150)の入力を受け付け、入力されたデータの内容に基づき入力されたデータファイル150の内容の各特徴を推定し、推定した各内容の特徴と、入力された各データファイル150とを対応づけて記憶したファイルメタデータ管理テーブル114を第1モデルとして生成する。具体的には、ファイルメタデータ抽出部113は、入力されたデータファイル150の内容から所定の規則に従って前記特徴を抽出することにより、入力されたデータファイル150の内容の特徴を推定する
すなわち、ファイルメタデータ抽出部113は、ファイル管理サーバ105が記憶している各データファイル150から、後述するファイルメタデータ抽出規則115に従って各データファイル150中のメタデータを抽出し、抽出したメタデータ(以下、ファイルメタデータという)をファイルメタデータ管理テーブル114に格納する。
Next, as shown in FIG. 1, the file
ワークフローメタデータ抽出部116は、入力されたデータファイル150の内容の各特徴について、当該特徴と、当該内容の特徴を備えるデータを用いて成果データを生成する処理とを対応づけて記憶したワークフローメタデータ管理テーブル117を第2モデルとして生成する。具体的には、ワークフローメタデータ抽出部116は、処理の情報(ワークフロー)の入力を受け付け、入力された処理が取り扱うデータ(一次データ)の特徴を所定の規則に従って抽出することにより、成果データを生成する処理を特定する。
The workflow
すなわち、ワークフローメタデータ抽出部116は、ファイルメタデータ管理テーブル114と、後述するワークフロー実行ログ104が示すワークフローとに基づき、後述するワークフローメタデータ抽出規則118に従って、各ワークフローにおけるメタデータ(以下、ワークフローメタデータという)を抽出し、抽出したワークフローメタデータを、ワークフローメタデータ管理テーブル117に格納する。
That is, the workflow
ここで、ファイルメタデータ抽出規則115及びワークフローメタデータ抽出規則118について説明する。
Here, the file
(ファイルメタデータ抽出規則)
図6は、ファイルメタデータ抽出規則115の一例を示す図である。ファイルメタデータ抽出規則115は、ファイル管理サーバ105に記録されている各データファイル150から、データファイル150の特徴情報(ファイルメタデータ管理テーブル114)を生成するための、1又は複数の規則を記憶している。
(File metadata extraction rule)
FIG. 6 is a diagram showing an example of the file
ファイルメタデータ抽出規則115は、規則の識別子である規則ID801と、規則ID801に係る規則を適用可能なデータファイル150のデータ形式802と、規則ID801に係る規則を適用してファイルメタデータを生成するためのコマンド(スクリプトやプログラム等)である抽出コマンド803(以下、ファイルメタデータ抽出コマンドともいう)と、抽出コマンド803に係るコマンドが生成するファイルメタデータの属性を定義した情報であるメタデータ定義804とを含む各項目を有する、1以上のレコードR821〜R824を備える。
The file
メタデータ定義804は、ファイルメタデータの属性(種別及び分類)の情報であるキー811と、ファイルメタデータを格納する変数であるバリュー812とを含む組み合わせを、1以上有する。
The
例えば、レコードR821には、「CRAM」というデータ形式(拡張子)を有するデータファイル150に対して実行するファイルメタデータ抽出コマンドが抽出コマンド803として設定されている。そして、この抽出コマンド803はその実行により、ファイルメタデータにおける種別の情報(例えば、「Seq.」)を変数「v1」に設定し、ファイルメタデータにおける分類の情報(例えば、「Whole」「mtDNA」)を変数「v2」に設定する。
For example, in the record R821, a file metadata extraction command to be executed for a
なお、ファイルメタデータ抽出コマンドは、ファイルメタデータを、データファイル150のデータヘッダ部R1001から抽出してもよいし、データボディ部R1021から抽出してもよいし、これらを組み合わせてもよい。また、ファイルメタデータ抽出コマンドは、データボディ部R1021を加工したデータをファイルメタデータとしてもよい。例えば、ファイルメタデータは、データボディ部R1021のデータに対して所定の統計分析(例えば、データモデルの記述方式の違いの分析)又は構文分析(例えば、語句の統計的な偏りの分析)を行ったデータでもよい。 The file metadata extraction command may extract the file metadata from the data header unit R1001 of the data file 150, may be extracted from the data body unit R1021, or may be combined. Further, the file metadata extraction command may use the data obtained by processing the data body portion R1021 as the file metadata. For example, the file metadata performs a predetermined statistical analysis (for example, analysis of differences in the description method of the data model) or syntactic analysis (for example, analysis of statistical bias of words) on the data of the data body unit R1021. Data may be used.
(ワークフローメタデータ抽出規則)
図7は、ワークフローメタデータ抽出規則118の一例を示す図である。ワークフローメタデータ抽出規則118は、ワークフロー実行ログ104に記録されている各ワークフローから、ワークフローのメタデータ(ワークフローメタデータ管理テーブル117)を生成するための、1又は複数の規則を記憶している。なお、ワークフロー実行ログ104における1つのワークフローに対して、ワークフローメタデータ抽出規則118に係る複数の規則が適用される場合がある。
(Workflow metadata extraction rule)
FIG. 7 is a diagram showing an example of the workflow
ワークフローメタデータ抽出規則118は、規則の識別子である規則ID901と、規則ID801に係る規則に対する説明の情報であるステップ任意記述902と、規則ID801に係る規則を適用してワークフローメタデータを生成するコマンド(スクリプト等)である処理コマンド903(以下、ワークフローメタデータ抽出コマンドともいう)と、処理コマンド903に係るコマンドを実行後に適用される規則の規則IDである次ステップ判定904とを含む各情報を各レコードに有する。
The workflow
例えば、レコードR911(規則「WR01」)には、ワークフローの入力データから当該入力データのメタデータを抽出するための規則が設定されている。すなわち、ワークフローにおける「入力データのDataID置換」を行うワークフローメタデータ抽出コマンドが設定されている。また、レコードR912(規則「WR02」)には、ワークフローの出力データのメタデータを抽出するための規則が設定されている。レコードR913(規則「WR03」)には、ワークフローの特徴情報の一つとして、ワークフローのIDを抽出するための規則が設定されている。 For example, the record R911 (rule "WR01") is set with a rule for extracting the metadata of the input data from the input data of the workflow. That is, a workflow metadata extraction command that performs "DataID replacement of input data" in the workflow is set. Further, in the record R912 (rule "WR02"), a rule for extracting the metadata of the output data of the workflow is set. In the record R913 (rule "WR03"), a rule for extracting a workflow ID is set as one of the workflow feature information.
なお、このワークフローメタデータ抽出コマンドは、ワークフロー実行ログ104におけるワークフローの入力データ703に含まれるデータIDを、ファイルメタデータ管理テーブル114が有するデータ形式及びメタデータに置換する処理を実行する。
The workflow metadata extraction command executes a process of replacing the data ID included in the
なお、処理コマンド903は、ワークフロー実行ログ104におけるワークフロー毎に異なる場合がある。また、次ステップ判定904には、単に規則IDが設定されてもよいし、処理コマンド903の実行結果に応じてその後に適用する規則を異ならせるための条件式が設定されてもよい。
The
−−ワークフロー実行装置−−
次に、図1に示すように、ワークフロー実行装置120は、ワークフロー実行部103、ワークフロー管理部109、及びワークフロー実行ログ104を備える。
--Workflow execution device ---
Next, as shown in FIG. 1, the
ワークフロー実行部103は、データ生成計画を、後述するワークフロー管理部109が記憶しているワークフロー、及びファイル管理サーバ105が管理するデータファイル150を利用しつつ実行する。なお、ワークフロー実行部103は、ワークフロー実行装置120に組み込まれていてもよいし、データ生成支援装置101に組み込まれていてもよいし、その他の外部の情報処理装置に設けられていてもよい。
The workflow execution unit 103 executes the data generation plan while using the workflow stored in the
ワークフロー実行ログ104は、ワークフロー実行部103が実行した処理の履歴を蓄積している。なお、ワークフロー実行ログ104は、ワークフロー実行装置120に組み込まれていてもよいし、データ生成支援装置101に組み込まれていてもよいし、その他の外部の情報処理装置に設けられていてもよい。
The
(ワークフロー実行ログ)
図8は、ワークフロー実行ログ104の一例を示す図である。ワークフロー実行ログ104は、過去に実行されたワークフローの情報である。ワークフロー実行ログ104は、ワークフローが実行された日時又は時刻が設定されるタイムスタンプ701と、実行されたワークフローのIDが設定されるワークフローID702と、ワークフローID702に係るワークフローの実行の際に入力されたデータ(データファイル150)が設定される入力データ703と、ワークフローID702に係るワークフローの実行により出力されたデータが設定される出力データ704とを含む各項目を有する、1以上のレコードR711〜R714を備える。
(Workflow execution log)
FIG. 8 is a diagram showing an example of the
入力データ703及び出力データ704には、それぞれ0個以上の情報が設定される。
Zero or more pieces of information are set in the
次に、図9は、データ生成支援システム1における各情報処理装置(利用者端末102、データ生成支援装置101、ワークフロー実行装置120、ファイル管理サーバ105、及び管理コンソール107)が備えるハードウェア構成の一例を示す図である。各情報処理装置は、CPU等の演算装置201と、プログラム及びデータ等が展開される、RAM(Random Access Memory)又はROM(Read Only Memory)等のメインメモリ202と、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又はフラッシュメモリ等の補助記憶装置203と、他の情報処理装置と通信する、ネットワークインタフェースカード等の通信インタフェース204と、外部記憶媒体207が接続されるメディアインタフェース205と、キーボード若しくはタッチパネル等の入力装置及びモニタ若しくはディスプレイ等の出力装置を含む入出力装置206とを備え、これらはバス等で互いに接続されている。なお、外部記憶媒体207は、例えば、通信媒体(すなわち有線、無線、光などのネットワーク、または当該ネットワークを伝搬する搬送波やディジタル信号)、又はメディアインタフェース205に着脱可能な物である。なお、データ生成支援装置101は、入出力装置206を介して管理コンソール107に接続している。
Next, FIG. 9 shows the hardware configuration of each information processing device (
これまでに説明した、各情報処理装置の各機能は、専用ハードウェアにより、又は、演算装置201がメインメモリ202又は補助記憶装置203に記憶されているプログラムを読み出して実行することにより実現される。また、各プログラムは、外部記憶媒体207にあらかじめ記録されていてもよいし、所定の通信ネットワークを介して、必要なときに導入されてもよい。
Each function of each information processing device described so far is realized by dedicated hardware or by reading and executing a program stored in the
−処理−
次に、データ生成支援システム1において行われる処理を説明する。
-Processing-
Next, the processing performed in the data
データ生成支援システム1では、(1)利用者の要求に応じて成果データを生成するデータ生成支援処理と、(2)データ生成支援処理の実行に必要なファイルメタデータ管理テーブル114を生成するファイルメタデータ管理テーブル生成処理と、(3)データ生成支援処理の実行に必要なワークフローメタデータ管理テーブル117を生成するワークフローメタデータ管理テーブル生成処理とが実行される。
In the data
なお、典型的には、(1)を実行する前に、(2)及び(3)が実行される必要がある。また、ワークフローメタデータ管理テーブル117を生成するためにはファイルメタデータ管理テーブル114が必要であるため、(3)を実行する前に(2)が実行される。 It should be noted that, typically, (2) and (3) need to be executed before executing (1). Further, since the file metadata management table 114 is required to generate the workflow metadata management table 117, (2) is executed before the execution of (3).
以下、これらの各処理について説明する。 Hereinafter, each of these processes will be described.
−−データ生成支援処理−−
図10は、データ生成支援処理の一例を説明するフロー図である。データ生成支援処理は、例えば、データ生成支援装置101が起動した際に実行される。
--Data generation support processing ---
FIG. 10 is a flow chart illustrating an example of data generation support processing. The data generation support process is executed, for example, when the data
まず、データ生成支援装置101のデータ生成要求受付部111は、利用者端末102からのデータ生成要求108の受信を待機する(S1101)。データ生成要求受付部111は、データ生成要求108を受信すると、受信したデータ生成要求108を、データ生成管理部112のデータ生成計画部301に入力する(S1101)。
First, the data generation
ここで、データ生成要求108について説明する。
Here, the
(データ生成要求)
図11は、データ生成要求108の一例を示す図である。データ生成要求108は、二次データ(成果データ)を特定する情報である要求データ指定情報401と、成果データを生成するためのワークフロー(以下、指定WFという)のIDである利用ワークフローID402とを有する。
(Data generation request)
FIG. 11 is a diagram showing an example of the
要求データ指定情報401は、一次データの属性情報から推定される情報である。要求データ指定情報401は、例えば、一次データの存在有無の情報のみを提供している(一次データの詳細は不明である)カタログサイトに登録されている識別子である。一次データの属性情報は、一次データがゲノムデータの場合であれば、例えば、ゲノムデータから推定される人の性別、疾病状況、又は人種若しくは民族的な背景情報である。このような属性情報は、医療機関の電子カルテなどの外部情報によって生成されたものであってもよい。なお、属性情報を用いる場合は、その属性情報から複数の要求データ指定情報401が特定されてもよい。そのような場合には、要求データ指定情報401には、複数の情報が設定される。
The request
次に、図10に示すように、データ生成計画部301は、S1101で受信したデータ
生成要求108におけるデータ指定情報(以下、指定データという)を入力ファイル特定部302に入力する(S1111)。
Next, as shown in FIG. 10, the data
具体的には、データ生成計画部301は、入力されたデータ生成要求108のうち要求データ指定情報401を、入力ファイル特定部302に入力する。
Specifically, the data
そして、入力ファイル特定部302は、指定データの特徴情報(データ形式及びメタデータを取得する(S1112)。
Then, the input
具体的には、入力ファイル特定部302は、ファイルメタデータ管理テーブル114から、要求データ指定情報401は、要求データ指定情報401と同内容が要求データ指定情報401に設定されているレコードを特定し、特定したレコードのデータ形式502及びメタデータ503の内容を取得する。
Specifically, the input
データ生成計画部301は、指定データの特徴情報と共に、指定WFを、実行ワークフロー特定部303に入力する(S1121)。
The data
具体的には、データ生成計画部301は、S1112で取得したデータ形式502及びメタデータ503と、S1101で受信したデータ生成要求108における利用ワークフローID402とを、実行ワークフロー特定部303に入力する。
Specifically, the data
実行ワークフロー特定部303は、指定WFが示すワークフローを、ワークフローメタデータ管理テーブル117から取得する(S1122)。
The execution
具体的には、実行ワークフロー特定部303は、ワークフローメタデータ管理テーブル117から、S1121で入力された利用ワークフローID402と同内容のIDがワークフローID601に設定されているレコードを特定し、特定したレコードを取得する。
Specifically, the execution
さらに、実行ワークフロー特定部303は、指定WFが示すワークフローの入力データの特徴情報を取得する(S1123)。
Further, the execution
具体的には、実行ワークフロー特定部303は、S1122で取得したレコードのワークフロー入力602(データ形式611及びメタデータ612)を取得する。
Specifically, the execution
実行ワークフロー特定部303は、指定データと同じ特徴情報を有するデータを入力データとし、指定WFが示すワークフローの入力データと同じ特徴情報を有するデータを出力データとしているWF(以下、実行WFという)を特定する(S1124)。
The execution
具体的には、実行ワークフロー特定部303は、ワークフローメタデータ管理テーブル117から、S1112で取得したデータ形式502及びメタデータ503がワークフロー入力602に設定され、S1123で取得したワークフロー入力602(データ形式611及びメタデータ612)がワークフロー出力603に設定されているレコードを取得し、取得したレコードのワークフローID601を特定する。
Specifically, in the execution
データ生成計画部301は、指定データと共に、実行WFを特定する情報を、計画管理部304に入力する(S1131)。
The data
具体的には、データ生成計画部301は、S1101で受信したデータ生成要求108の要求データ指定情報401と、S1124で特定したワークフローID601とを、計画管理部304に入力する。
Specifically, the data
計画管理部304は、入力された指定データ及び実行WFを特定する情報を含む情報をデータ生成計画として、ワークフロー実行装置120に送信し、ワークフロー実行装置120による実行WFの実行終了を待機する。そして、計画管理部304は、実行WFの実行が完了した旨の完了通知をワークフロー実行装置120から受信するまで待機する(S1141)。
The
計画管理部304は、ワークフロー実行装置120から完了通知と共に、実行WFが出力した成果データ又は当該成果データにアクセスするための情報(実行結果情報)を受信する。計画管理部304は、受信した実行結果情報を、データ生成要求受付部111に送信する。
The
その後、データ生成要求受付部111は、受信した実行結果情報を利用者端末102に送信し、利用者端末102が、受信した実行結果情報に基づき、成果データの内容を画面に表示する。
After that, the data generation
以上でデータ生成支援処理は終了する。 This completes the data generation support process.
(ワークフロー特定画面)
ここで、図12は、S1124で実行WFを発見した場合にデータ生成支援装置101が表示する画面(ワークフロー特定画面)の一例を示す図である。ワークフロー特定画面160は、実行WFを特定したことを示す情報161が表示される。なお、実行WFの名称やIDの情報、実行WFが用いる一次データの具体的な内容の情報が表示されてもよい。
(Workflow specific screen)
Here, FIG. 12 is a diagram showing an example of a screen (workflow specific screen) displayed by the data
また、ワークフロー特定画面160には、特定した実行WFによりワークフロー実行装置120が二次データ又は成果データを生成中であることを示す情報162が表示されてもよい。
Further, the
次に、ファイルメタデータ管理テーブル生成処理について説明する。 Next, the file metadata management table generation process will be described.
−−ファイルメタデータ管理テーブル生成処理−−
図13は、ファイルメタデータ管理テーブル生成処理の一例を説明するフロー図である。ファイルメタデータ管理テーブル生成処理は、データ生成支援処理と独立に実行可能であり、例えば、管理コンソール107から所定の入力があった場合、所定のタイミング(例えば、所定の日時又は所定の時間間隔)が到来した場合、又は、ファイル管理サーバ105に新たなデータファイル150が登録された場合等に実行される。
--File metadata management table generation process ---
FIG. 13 is a flow chart illustrating an example of a file metadata management table generation process. The file metadata management table generation process can be executed independently of the data generation support process. For example, when a predetermined input is received from the
まず、データ生成支援装置101のファイルメタデータ抽出部113は、ファイル管理サーバ105を参照し、ファイルメタデータ管理テーブル114における各データファイル150のリストを取得する(S1201)。
First, the file
ファイルメタデータ抽出部113は、S1201で取得したデータファイル150のリストのうち一つのデータファイル150を選択し(以下、選択ファイルという)(S1211)、選択したデータファイル150の格納場所(パス又はURL)を特定する(S1212)。
The file
そして、ファイルメタデータ抽出部113は、特定した格納場所にある選択ファイルの拡張子を取得する(S1212)。
Then, the file
ファイルメタデータ抽出部113は、S1212で取得した選択ファイルの拡張子に対して適用可能な規則を、ファイルメタデータ抽出規則115から全て特定する(S1213)。
The file
具体的には、ファイルメタデータ抽出部113は、ファイルメタデータ抽出規則115から、S1212で取得した拡張子がデータ形式802に設定されているレコードを全て抽出する。
Specifically, the file
ファイルメタデータ抽出部113は、S1213で抽出した規則のうち一つ(以下、選択規則という)を選択する(S1221)。具体的には、ファイルメタデータ抽出部113は、S1213で抽出したレコードの一つを取得する。
The file
ファイルメタデータ抽出部113は、選択規則を適用するためのファイルメタデータ抽出コマンドを実行することにより、選択ファイルの出力データの特徴情報を取得する。
The file
具体的には、ファイルメタデータ抽出部113は、S1221で取得したレコードの抽出コマンド803を取得し、取得したコマンドを実行する。そして、ファイルメタデータ抽出部113は、その出力データとして、同レコードのメタデータ定義804が示す構成を有するデータ(キー811及びバリュー812が示す構成及び内容のデータ)を取得する。
Specifically, the file
ファイルメタデータ抽出部113は、ファイルメタデータ抽出コマンドが出力データの特徴情報を取得できたか否かを判定する(S1223)。
The file
ファイルメタデータ抽出コマンドが出力データの特徴情報を取得できた場合は(S1223:YES)、ファイルメタデータ抽出部113は、次述するS1214の処理を実行し、ファイルメタデータ抽出コマンドが出力データの特徴情報を取得できなかった場合は(S1223:NO)、ファイルメタデータ抽出部113は、後述するS1224の処理を実行する。
If the file metadata extraction command can acquire the feature information of the output data (S1223: YES), the file
S1214においてファイルメタデータ抽出部113は、ファイルメタデータ抽出コマンドが取得した特徴情報を、ファイルメタデータ管理テーブル114に登録する。
In S1214, the file
具体的には、ファイルメタデータ抽出部113は、ファイルメタデータ管理テーブル114に新たなレコードを生成し、そのレコードのデータ形式502に、S1212で取得した拡張子を設定し、そのレコードのメタデータ503に、S1222で取得したデータ(メタデータ)を設定する。
Specifically, the file
ファイルメタデータ抽出部113は、新たな選択ファイルを選択すべく、S1201で取得したリストにおける全データファイル150が選択されるまで、S1211以降の処理を繰り返す(S1215)。ファイルメタデータ抽出部113は、全てのデータファイル150が選択されたら、ファイルメタデータ管理テーブル生成処理を終了する。
The file
S1224においてファイルメタデータ抽出部113は、新たな選択規則を選択すべく、S1213で特定した規則が全て選択されるまで、S1221以降の処理を繰り返す。
In S1224, the file
次に、ワークフローメタデータ管理テーブル生成処理について説明する。 Next, the workflow metadata management table generation process will be described.
−−ワークフローメタデータ管理テーブル生成処理−−
図14は、ワークフローメタデータ管理テーブル生成処理の一例を説明するフロー図で
ある。ワークフローメタデータ管理テーブル生成処理は、データ生成支援処理と独立に実行可能であり、例えば、管理コンソール107から所定の入力があった場合、所定のタイミング(例えば、所定の日時又は所定の時間間隔)が到来した場合、又は、ワークフロー実行ログ104に新たにワークフローのデータが登録された場合等に実行される。
--Workflow metadata management table generation process ---
FIG. 14 is a flow chart illustrating an example of the workflow metadata management table generation process. The workflow metadata management table generation process can be executed independently of the data generation support process. For example, when a predetermined input is received from the
なお、ここでは、ワークフローメタデータ管理テーブル生成処理が、図7に示すワークフローメタデータ抽出規則118の3つの規則(WR01、WR02、WR03)に基づき、ワークフローの入出力ファイルの特徴情報を抽出するものとする。
Here, the workflow metadata management table generation process extracts the characteristic information of the workflow input / output file based on the three rules (WR01, WR02, WR03) of the workflow
まず、ワークフローメタデータ抽出部116は、ワークフロー実行ログ104を読み込んだ上で(S1301)、それらのワークフローのうち1つ(以下、選択WFという)を選択する(S1311)。具体的には、ワークフローメタデータ抽出部116は、ワークフロー実行ログ104のうち一つのレコードを選択する。
First, the workflow
ワークフローメタデータ抽出部116は、選択WFに対する最初の規則であり入力データの特徴情報を抽出するための規則(WR01)を適用するワークフローメタデータ抽出コマンドを実行する。(S1312)。具体的には、ワークフローメタデータ抽出部116は、ワークフローメタデータ抽出規則118における冒頭のレコードR911の処理コマンド903を取得し、取得した処理コマンド903を実行する。
The workflow
ワークフローメタデータ抽出部116は、S1312でのワークフローメタデータ抽出コマンドの実行により、入力データの特徴情報を推定する(S1321)。
The workflow
具体的には、ワークフローメタデータ抽出部116は、ワークフロー実行ログ104における選択WFに係るレコードの入力データ703を取得し、取得した入力データ703の内容と同じ内容がデータID501に設定されている、ファイルメタデータ管理テーブル114のレコードR911を特定し、特定したレコードR911のデータ形式502及びメタデータ503の内容を取得する。
Specifically, the workflow
ワークフローメタデータ抽出部116は、選択WFに対する次の規則であり出力データの特徴情報を抽出するための規則(WR02)を適用するワークフローメタデータ抽出コマンドを実行する(S1313)。
The workflow
具体的には、ワークフローメタデータ抽出部116は、S1311で選択したレコードR911の次ステップ判定904の内容が規則ID901に設定されているレコードR912を特定し、特定したレコードR912の処理コマンド903を取得し、取得した処理コマンド903を実行する。
Specifically, the workflow
ワークフローメタデータ抽出部116は、S1313でのワークフローメタデータ抽出コマンドの実行により、出力データの特徴情報を推定する(S1331)。
The workflow
具体的には、ワークフローメタデータ抽出部116は、ワークフロー実行ログ104における選択WFに係るレコードの出力データ704を取得し、取得した出力データ704の内容と同じ内容がデータID501に設定されている、ファイルメタデータ管理テーブル114のレコードR912を特定し、特定したレコードR912のデータ形式502及びメタデータ503を取得する。
Specifically, the workflow
ワークフローメタデータ抽出部116は、選択WFに対するさらに次の規則でありワークフローの種類の特徴情報を抽出するための規則(WR03)を適用するワークフローメタデータ抽出コマンドを実行する(S1314)。
The workflow
具体的には、ワークフローメタデータ抽出部116は、ワークフロー実行ログ104における選択WFに係るレコードR912の次ステップ判定904の内容が規則ID901に設定されているレコードR913を特定し、特定したレコードR913の処理コマンド903を取得し、取得した処理コマンド903を実行する。
Specifically, the workflow
ワークフローメタデータ抽出部116は、S1314でのワークフローメタデータ抽出コマンドの実行により、ワークフローの種類の特徴情報を推定する(S1341)。
The workflow
具体的には、ワークフローメタデータ抽出部116は、S1312で選択したワークフロー実行ログ104のレコードR913のワークフローID702を取得する。
Specifically, the workflow
ここで、ワークフローメタデータ抽出部116は、ワークフローメタデータ抽出規則118のレコードR913における次ステップ判定904に情報が設定されていないため、選択WFにおけるさらに次の処理コマンドがないことを確認する。
Here, the workflow
すると、ワークフローメタデータ抽出部116は、選択WFと、選択WFに対する各特徴情報とを、ワークフローメタデータ管理テーブル117に登録する(S1315)。
Then, the workflow
具体的には、ワークフローメタデータ抽出部116は、S1341で取得したワークフローID702の内容を、ワークフローメタデータ管理テーブル117のワークフローID601に設定し、S1321で取得したデータ形式502の内容を、ワークフローメタデータ管理テーブル117のワークフロー入力602におけるデータ形式611に設定し、S1321で取得したメタデータ503の内容を、ワークフローメタデータ管理テーブル117のワークフロー入力602におけるメタデータ612(種別621及び分類622)に設定し、S1331で取得したデータ形式502の内容を、ワークフローメタデータ管理テーブル117のワークフロー出力603におけるデータ形式613に設定し、S1331で取得したメタデータ503の内容を、ワークフローメタデータ管理テーブル117のワークフロー出力603におけるメタデータ614(種別623及び分類624)に設定する。
Specifically, the workflow
ワークフローメタデータ抽出部116は、ワークフロー実行ログ104におけるワークフローのうちこれまでに選択WFとして選択されていないワークフローを新たな選択WFとして選択し、S1312以降の処理を繰り返す(S1316)。ワークフローメタデータ抽出部116は、ワークフローを全て選択した場合に、ワークフローメタデータ管理テーブル生成処理を終了する。
The workflow
このように、ワークフローメタデータ管理テーブル生成処理は、処理対象のワークフローに対する全規則(ワークフローメタデータ抽出規則118が規定する全規則)を当該ワークフローに適用することにより、当該ワークフローの特徴情報(データ形式、メタデータ、ワークフローID)を推定し、推定した特徴情報をワークフローメタデータ管理テーブル117に登録する。 In this way, the workflow metadata management table generation process applies all the rules for the workflow to be processed (all rules specified by the workflow metadata extraction rule 118) to the workflow, so that the characteristic information (data format) of the workflow is applied. , Metadata, workflow ID), and the estimated feature information is registered in the workflow metadata management table 117.
以上に説明したように、本実施形態のデータ生成支援システム1は、成果データの生成を要求するためのデータ生成要求108を受信し、二次データの特徴情報(種別及び分類といったメタデータ)をファイルメタデータ管理テーブル114により推定し、推定した特徴情報を備えるデータ(一次データ)により成果データが生成可能なワークフローを、ワークフローメタデータ管理テーブル117により特定する。これにより、成果データを生成するために必要なデータ(二次データに対応した、機密情報を含む一次データ)が特定できなくても、メタデータを使用することで、データ生成要求108が要求する成果デ
ータを生成するためのワークフローをオンデマンドに特定することができる。
As described above, the data
特に、メタデータを使用することで、予め必要なデータを網羅的に準備することなく、利用者のデータ要求に対してオンデマンドに所望のデータを生成できる。すなわち、予めデータを網羅的に生成しなければならないとすれば、データそのものによるリソース消費のみならず、データ間の関連付けにもリソースを消費することになるため、データも膨大になりうるが、本実施形態のデータ生成支援システム1は、そのようなリソースを必要とせず、データの管理コストを削減することができる。
In particular, by using metadata, it is possible to generate desired data on demand in response to a user's data request without comprehensively preparing necessary data in advance. That is, if the data must be comprehensively generated in advance, not only the resource consumption by the data itself but also the resource consumption for the association between the data will be consumed, so that the data can be enormous. The data
このように、本実施形態のデータ生成支援システム1によれば、データを生成するために必要な情報が欠けている場合であってもそのデータを生成することができる。
As described above, according to the data
[実施例2]
実施例2のデータ生成支援システムは、一次データから成果データ(二次データ等)を生成するために複数のワークフローによる処理が必要な場合に適用されるシステムである。
[Example 2]
The data generation support system of the second embodiment is a system applied when processing by a plurality of workflows is required in order to generate result data (secondary data, etc.) from the primary data.
−システム構成−
図15は、実施例2に係るデータ生成支援システム2における構成例の一部を示す図である。なお、実施例1と同様の符号が付されている部分は、実施例1と同様の構成及び機能を備える。また、同図に示されていない部分は、実施例1と同様の構成及び機能が備わっているものとする。
-System configuration-
FIG. 15 is a diagram showing a part of a configuration example in the data
すなわち、本実施例のデータ生成支援システム2は、実施例1のデータ生成支援システム1の構成に加えて、連結ワークフロー算出部1401及びワークフロー計画管理テーブル1402を備える。
That is, the data
連結ワークフロー算出部1401は、ワークフローメタデータ抽出部116が生成した第2モデル(ワークフローメタデータ管理テーブル117)における各ワークフローに入力されるデータの内容の特徴(メタデータ)と当該各ワークフローが出力するデータの内容の特徴(メタデータ)とを比較することにより、一次データにより成果データ(二次データ等)を生成する複数からなる成果データの実行順序を特定し、特定した複数の成果データの実行順序を第3モデル(ワークフロー計画管理テーブル1402)として生成する。
The concatenated
すなわち、連結ワークフロー算出部1401は、ワークフローメタデータ管理テーブル117を用いて、複数のワークフローを連結して生成可能な一次データと二次データとの組み合わせと、当該複数のワークフローの構成とを含む情報(以下、ワークフロー計画という)を生成し、生成した計画をワークフロー計画管理テーブル1402に格納する。
That is, the consolidated
そして、この場合、データ生成管理部112は、第3モデル(ワークフロー計画管理テーブル1402)に基づき、一次データにより成果データが生成可能な複数のワークフローの実行順序を特定する
ワークフロー計画管理テーブル1402は、連結ワークフロー算出部1401が生成したワークフロー計画を管理するテーブルである。ワークフロー計画管理テーブル1402には、複数のワークフローの実行を備えるワークフロー計画と、実施例1におけるワークフローメタデータ管理テーブル117と同様の、1つのワークフローの実行の構成とをそれぞれ記憶している。
In this case, the data
実施例1では、ワークフローメタデータ管理テーブル117が、実行ワークフロー特定
部303からの入出力データの特徴情報(メタデータ)の取得をクエリとして受け付け、クエリに対する特徴情報を実行ワークフロー特定部303に返す仕組みとなっていたが、実施例2では、ワークフロー計画管理テーブル1402が、実行ワークフロー特定部303からのクエリを受け付けるようになっている。
In the first embodiment, the workflow metadata management table 117 accepts the acquisition of the characteristic information (metadata) of the input / output data from the execution workflow
(ワークフロー計画管理テーブル)
図16は、ワークフロー計画管理テーブル1402の一例を示す図である。
(Workflow plan management table)
FIG. 16 is a diagram showing an example of the workflow plan management table 1402.
ワークフロー計画管理テーブル1402は、ワークフロー計画のIDである計画ID1501と、計画ID1501に係るワークフロー計画において最初に実行されるワークフローのIDである開始ワークフローID1502と、開始ワークフローID1502に係るワークフローの入力データの特徴情報であるワークフロー入力1503と、2番目以降に実行されるワークフローのIDのリストである連結ワークフローIDリスト1504と、最後に実行されるワークフローの出力データの特徴情報であるワークフロー出力1505とを各項目として有する、1以上のレコードR(R1531〜R1533)を備える。
The workflow plan management table 1402 is characterized by a
ワークフロー入力1503は、ワークフローの入力データの形式であるデータ形式1511(拡張子等)、及び、ワークフローの入力データのメタデータであるメタデータ1512の各項目を備え、このメタデータ1512はさらに、入力データの種別1521及び分類1522の各項目を有する。
The
ワークフロー出力1505は、ワークフローの出力データの形式であるデータ形式1513(拡張子等)、及び、ワークフローの出力データのメタデータであるメタデータ1514の各項目を備え、このメタデータ1514はさらに、出力データの種別1523及び分類1524の各項目を有する。
The
なお、開始ワークフローID1502、ワークフロー入力1503、及びワークフロー出力1505はそれぞれ、ワークフローメタデータ管理テーブル117のワークフローID601、ワークフロー入力602、及びワークフロー出力603と同種の情報が設定される項目である。
The
−−ワークフロー計画管理テーブル生成処理−−
図17は、ワークフロー計画管理テーブル生成処理の一例を説明するフロー図である。ワークフロー計画管理テーブル生成処理は、データ生成支援処理と独立に実行可能であり、例えば、管理コンソール107から所定の入力があった場合、所定のタイミング(例えば、所定の日時又は所定の時間間隔)が到来した場合、又は、ワークフロー実行ログ104に新たにワークフローのデータが登録された場合等に実行される。
--Workflow plan management table generation process ---
FIG. 17 is a flow chart illustrating an example of the workflow plan management table generation process. The workflow plan management table generation process can be executed independently of the data generation support process. For example, when a predetermined input is received from the
まず、データ生成支援装置101の連結ワークフロー算出部1401は、ワークフローメタデータ管理テーブル117の各ワークフローの内容を全て取得する(S1601)。具体的には、連結ワークフロー算出部1401は、ワークフローメタデータ管理テーブル117の全レコードを取得する。
First, the connection
連結ワークフロー算出部1401は、S1601で取得した各ワークフローのうちこれまで選択されていないワークフローのうち最初に登録されたワークフロー(以下、選択フローという)を選択する(S1611)。具体的には、例えば、連結ワークフロー算出部1401は、S1601で取得したレコードから、これまでに選択されていないレコードのうち先頭のレコードを取得する。そして、連結ワークフロー算出部1401は、ワークフロー計画管理テーブル1402に生成した新たなレコードの開始ワークフローID1502に、前記取得したレコードのワークフローID601を設定する。
The consolidated
連結ワークフロー算出部1401は、選択フローに出力データがあるか否かを判定する(S1621)。具体的には、連結ワークフロー算出部1401は、S1611で取得したレコードのワークフロー出力603にデータが登録されているか否かを判定する。
The concatenated
選択フローに出力データがある場合は(S1621:YES)、連結ワークフロー算出部1401は、次述するS1622を実行し、選択フローに出力データがない場合は(S1621:NO)、連結ワークフロー算出部1401は、その選択フローについてのデータはワークフロー計画管理テーブル1402に設定しない。その後、連結ワークフロー算出部1401は、後述するS1646の処理を繰り返す。
If there is output data in the selection flow (S1621: YES), the concatenation
S1622において連結ワークフロー算出部1401は、あるワークフローの出力データの特徴情報と他のワークフローの入力データの特徴情報とが一致する場合に、前者を親ノード(ワークフロー)とし、後者をその子ノード(ワークフロー)とするノード探索を、選択フローを起点に繰り返し行うことで、一連の各ノード(ワークフロー)の流れをパスとして記憶する。
In S1622, when the characteristic information of the output data of a certain workflow and the characteristic information of the input data of another workflow match, the consolidated
具体的には、例えば、連結ワークフロー算出部1401は、S1611で取得したレコードのワークフロー出力603をキーにワークフローメタデータ管理テーブル117を検索し、そのキーの内容がワークフロー入力1503に設定されているレコードを取得する。以下、連結ワークフロー算出部1401は同内容の処理を繰り返す。
Specifically, for example, the consolidated
なお、連結ワークフロー算出部1401は、最初のワークフローの入力ノード及び最後のワークフローの出力ノードの特徴情報が互いに同じワークフロー(処理がループするワークフロー。例えば、入出力データの違いが大文字と小文字の違いであり、入出力間のデータ内容に実質的に差異が無い一連のワークフロー。)は、ノード探索から除外する。
In the consolidated
連結ワークフロー算出部1401は、S1622で特定した各パスの一つ(以下、選択パスという)を選択する(S1631)。
The concatenated
連結ワークフロー算出部1401は、選択パスにおける各ノードに対して、親ノードに対する子ノード、及びその子ノードに対する子ノード、・・・とそれぞれ順序づけし、子ノードが存在しなくなるまで(S1643:NO)、順序づけした各ノードの情報を、ワークフロー計画管理テーブル1402に設定する(S1641〜S1645)。
The concatenated
具体的には、例えば、連結ワークフロー算出部1401は、順序づけした各ノード(ワークフローメタデータ管理テーブル117のいずれかのレコード)に係るレコードのワークフローID601を、ワークフロー計画管理テーブル1402の連結ワークフローIDリスト1504にそれぞれ格納する。
Specifically, for example, the consolidated
連結ワークフロー算出部1401は、以上の各ノードに対する処理を、全パスについて実行する(S1646)。さらに、連結ワークフロー算出部1401は、以上の各パスに対する処理を、ワークフローメタデータ管理テーブルの全レコード(全ワークフロー)について実行する(S1647)。
The concatenated
以上のように、本実施例のデータ生成支援システム2によれば、一次データから二次データを生成するために複数のワークフローによる処理が必要な場合に、ワークフロー計画管理テーブル1402を用いることによりその複数のワークフローを実行するパスを生成し、このパスにより二次データ及び成果データを生成することができる。
As described above, according to the data
以上に説明した本発明の内容は上記した実施例に限定されるものではなく、様々な変形例が含まれる。上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されものではない。 The content of the present invention described above is not limited to the above-described embodiment, and includes various modifications. The above-mentioned examples have been described in detail for a better understanding of the present invention, and are not necessarily limited to those having all the configurations of the description.
例えば、本実施形態では、制御線及び情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。 For example, in the present embodiment, the control line and the information line show what is considered necessary for explanation, and do not necessarily show all the control line and the information line in the product. In practice, it can be considered that almost all configurations are interconnected.
また、ある情報処理装置に設けられている機能の一部又は全部を他の情報処理装置に設けてもよい。 Further, a part or all of the functions provided in one information processing device may be provided in another information processing device.
また、本実施形態で利用されるデータ形式は、ファイルの拡張子だけでなく、ファイルの生成日付又は時刻、ファイルのサイズ、ファイルの作成者等の他の形式的な情報でもよい。 Further, the data format used in this embodiment may be not only the file extension but also other formal information such as the file generation date or time, the file size, and the file creator.
また、本実施形態では機密データとして遺伝情報を取り上げたが、所定の個人又は組織が秘匿すべきデータであればその他の任意のデータでもよい。 In addition, although genetic information is taken up as confidential data in this embodiment, any other data may be used as long as it is data that should be kept secret by a predetermined individual or organization.
また、本実施形態では、あるデータの内容を特徴付けるメタデータの例としてデータの種類及び分類を取り上げたが、それ以外の種類のデータであってもよい。メタデータは、一次データ(機密データ)と一次データから生成される成果データ(二次データ等)とが共通して備える属性の情報であればよい。 Further, in the present embodiment, the type and classification of data are taken up as an example of the metadata that characterizes the content of a certain data, but other types of data may be used. The metadata may be information of attributes that the primary data (confidential data) and the result data (secondary data, etc.) generated from the primary data have in common.
また、本実施形態では、ファイルメタデータ及びワークフローメタデータを生成するために、それぞれファイルメタデータ抽出規則115及びワークフローメタデータ抽出規則118を用いたが、その他の情報を用いてもよい。例えば、データファイルの内容とファイルメタデータとの関係、及び、ワークフローの入出力データとワークフローメタデータとの関係をそれぞれ、データファイル及びワークフローに関する特徴量を用いた機械学習(例えば、決定木又はディープラーニングによる学習)により生成した学習済みモデルを生成することで決定してもよい。
Further, in the present embodiment, the file
以上の本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のデータ生成支援装置101においては、前記演算装置は、複数のデータの入力を受け付け、入力されたデータに基づき前記入力されたデータの内容の各特徴を推定し、推定した各内容の特徴と、前記入力された各データとを対応づけて記憶したファイルメタデータ管理テーブルを前記第1モデルとして生成する第1モデル生成処理を実行する、としてもよい。
The above description of the present specification clarifies at least the following. That is, in the data
このように、複数のデータの内容の各特徴を推定し、その各内容の特徴と上記各データとを対応づけて記憶したファイルメタデータ管理テーブル114を生成することで、対象データの内容的な特徴(メタデータ)を正確に特定することができる。 In this way, by estimating each feature of the contents of the plurality of data and generating the file metadata management table 114 that stores the features of each content in association with each of the above data, the contents of the target data are included. Features (metadata) can be identified accurately.
また、本実施形態のデータ生成支援装置101においては、前記演算装置は、前記第1モデル生成処理において、前記入力されたデータから所定の規則に従って前記内容の特徴を抽出することにより、前記入力されたデータの内容の特徴を推定する、としてもよい。
Further, in the data
このように、入力されたデータから所定の規則(ファイルメタデータ抽出規則115)に従ってデータの内容の特徴を抽出することにより、データ内容の特徴(メタデータ)を統一的に抽出することができる。 In this way, by extracting the characteristics of the data contents from the input data according to a predetermined rule (file metadata extraction rule 115), the characteristics (metadata) of the data contents can be uniformly extracted.
また、本実施形態のデータ生成支援装置101においては、前記演算装置は、前記入力されたデータの各内容の特徴について、当該内容の特徴と、当該内容の特徴を備えるデータを用いて前記所定のデータを生成する処理とを対応づけて記憶したワークフローメタデータ管理テーブルを前記第2モデルとして生成する第2モデル生成処理を実行する、としてもよい。
Further, in the data
このように、データの各内容の特徴と、その内容の特徴を備える一次データを用いて成果データを生成するワークフローとを対応づけたワークフローメタデータ管理テーブル117を生成することで、ワークフローの内容的な特徴(メタデータ)を正確に特定することができる。 In this way, by generating the workflow metadata management table 117 that associates the characteristics of each content of the data with the workflow that generates the result data using the primary data having the characteristics of the contents, the content of the workflow Features (metadata) can be accurately identified.
また、本実施形態のデータ生成支援装置101においては、前記演算装置は、前記第2モデル生成処理において、処理の情報の入力を受け付け、入力された処理が取り扱うデータの内容の特徴を所定の規則に従って抽出することにより、前記所定のデータを生成する複数の処理を特定する、としてもよい。
Further, in the data
このように、入力されたワークフローが取り扱うデータの内容の特徴(ファイルメタデータ)を所定の規則(ワークフローメタデータ抽出規則118)に従って抽出することにより、ワークフローの内容の特徴(ワークフローメタデータ)を統一的に抽出することができる。 In this way, by extracting the characteristics (file metadata) of the data contents handled by the input workflow according to a predetermined rule (workflow metadata extraction rule 118), the characteristics of the workflow contents (workflow metadata) are unified. Can be extracted as a workflow.
また、本実施形態のデータ生成支援装置101においては、前記演算装置は、前記生成した第2モデルにおける各前記処理に入力されるデータの内容の特徴と当該各処理が出力するデータの内容の特徴とを比較することにより、第1のデータにより第2のデータを生成する複数からなる処理の実行順序を特定し、特定した複数の処理の実行順序を第3モデルとして生成する連結ワークフロー算出処理を実行し、前記データ生成管理処理において、前記第3モデルに基づき、前記他のデータにより前記所定のデータが生成可能な複数の処理の実行順序を特定する、としてもよい。
Further, in the data
このように、第2モデル(ワークフローメタデータ管理テーブル117)における各ワークフローに入力されるデータの内容の特徴(メタデータ)とそのワークフローが出力するデータの内容の特徴(メタデータ)とを比較することにより、一次データにより成果データ(例えば、二次データ)を生成する複数からなる処理の実行順序を特定し、その実行順序を第3モデル(ワークフロー計画管理テーブル1402)として生成することで、成果データを生成する複数のワークフローを特定することができる。これにより、一次データから成果データ(二次データ等)を生成するワークフローが複雑な場合であっても、確実に二次データ又は成果データを生成することができる。 In this way, the characteristics (metadata) of the content of the data input to each workflow in the second model (workflow metadata management table 117) are compared with the characteristics (metadata) of the content of the data output by the workflow. By specifying the execution order of the plurality of processes for generating the result data (for example, secondary data) from the primary data, and generating the execution order as the third model (workflow plan management table 1402), the result is obtained. You can identify multiple workflows that generate data. This makes it possible to reliably generate secondary data or result data even when the workflow for generating result data (secondary data or the like) from the primary data is complicated.
また、本実施形態のデータ生成支援装置101においては、前記演算装置は、前記データ生成管理処理において、前記所定のデータが生成可能な処理を特定したことを示す情報、又は前記所定のデータが生成可能な処理に基づき前記所定のデータを生成中であることを示す情報を表示する、としてもよい。
Further, in the data
このように、成果データ(二次データ)が生成可能なワークフローを特定したことを示す情報や、そのワークフローに基づき成果データ(二次データ)を生成中であることを示す情報を表示することで、ユーザは、一次データから成果データ(二次データ等)を生成できることを確認することができる。 In this way, by displaying the information indicating that the workflow in which the result data (secondary data) can be generated is specified and the information indicating that the result data (secondary data) is being generated based on the workflow. , The user can confirm that the result data (secondary data, etc.) can be generated from the primary data.
さらに、本実施形態では、情報処理装置が、所定のデータの生成を要求する要求情報を受信するデータ生成要求受付処理と、前記所定のデータの内容の特徴を第1モデルにより
推定し、推定した特徴の内容を備える他のデータにより前記所定のデータが生成可能な処理を、第2モデルにより特定するデータ生成管理処理と、を実行する、としてもよい。
Further, in the present embodiment, the information processing apparatus estimates and estimates the data generation request acceptance process for receiving the request information requesting the generation of predetermined data and the characteristics of the content of the predetermined data by the first model. The process in which the predetermined data can be generated by other data having the content of the feature may be executed with the data generation management process specified by the second model.
また、本実施形態では、前記情報処理装置が、複数のデータの入力を受け付け、入力されたデータに基づき前記入力されたデータの内容の各特徴を推定し、推定した各内容の特徴と、前記入力された各データとを対応づけて記憶したファイルメタデータ管理テーブルを前記第1モデルとして生成する第1モデル生成処理を実行する、としてもよい。 Further, in the present embodiment, the information processing apparatus receives input of a plurality of data, estimates each feature of the content of the input data based on the input data, and the feature of each estimated content and the said. The first model generation process for generating the file metadata management table stored in association with each input data as the first model may be executed.
また、本実施形態では、前記情報処理装置が、前記第1モデル生成処理において、前記入力されたデータから所定の規則に従って前記内容の特徴を抽出することにより、前記入力されたデータの内容の特徴を推定する、としてもよい。 Further, in the present embodiment, the information processing apparatus extracts the features of the contents from the input data according to a predetermined rule in the first model generation process, so that the features of the contents of the input data are characterized. May be estimated.
また、本実施形態では、前記情報処理装置が、前記入力されたデータの各内容の特徴について、当該内容の特徴と、当該内容の特徴を備えるデータを用いて前記所定のデータを生成する処理とを対応づけて記憶したワークフローメタデータ管理テーブルを前記第2モデルとして生成する第2モデル生成処理を実行する、としてもよい。 Further, in the present embodiment, the information processing apparatus generates the predetermined data for the characteristics of each content of the input data by using the characteristics of the contents and the data having the characteristics of the contents. The second model generation process for generating the workflow metadata management table stored in association with the second model may be executed.
また、本実施形態では、前記情報処理装置が、前記第2モデル生成処理において、処理の情報の入力を受け付け、入力された処理が取り扱うデータの内容の特徴を所定の規則に従って抽出することにより、前記所定のデータを生成する処理を特定する、としてもよい。 Further, in the present embodiment, the information processing apparatus receives input of processing information in the second model generation processing, and extracts the characteristics of the contents of the data handled by the input processing according to a predetermined rule. The process of generating the predetermined data may be specified.
また、本実施形態では、前記情報処理装置が、前記生成した第2モデルにおける各前記処理に入力されるデータの内容の特徴と当該各処理が出力するデータの内容の特徴とを比較することにより、第1のデータにより第2のデータを生成する複数からなる処理の実行順序を特定し、特定した複数の処理の実行順序を第3モデルとして生成する連結ワークフロー算出処理を実行し、前記データ生成管理処理において、前記第3モデルに基づき、前記他のデータにより前記所定のデータが生成可能な複数の処理の実行順序を特定する、としてもよい。 Further, in the present embodiment, the information processing apparatus compares the characteristics of the content of the data input to each of the processes in the generated second model with the characteristics of the content of the data output by each process. , The execution order of the plurality of processes for generating the second data is specified from the first data, and the consolidated workflow calculation process for generating the execution order of the specified plurality of processes as the third model is executed, and the data generation is performed. In the management process, the execution order of a plurality of processes in which the predetermined data can be generated may be specified by the other data based on the third model.
また、本実施形態では、前記情報処理装置が、前記データ生成管理処理において、前記所定のデータが生成可能な処理を特定したことを示す情報、又は前記所定のデータが生成可能な処理に基づき前記所定のデータを生成中であることを示す情報を表示する、としてもよい。 Further, in the present embodiment, the information processing apparatus identifies the process in which the predetermined data can be generated in the data generation management process, or the process based on the process in which the predetermined data can be generated. Information indicating that predetermined data is being generated may be displayed.
さらに、本実施形態では、所定のデータの生成を要求する要求情報を送信する利用者端末と、前記要求情報を受信するデータ生成要求受付処理、及び、前記所定のデータの内容の特徴を第1モデルにより推定し、推定した特徴の内容を備える、所定の情報処理装置が記憶している他のデータにより前記所定のデータが生成可能な処理を、第2モデルにより特定するデータ生成管理処理を実行するデータ生成支援装置とを含んで構成され、前記所定の情報処理装置は、前記他のデータを記憶していると共に、前記利用者端末による前記他のデータへのアクセスを禁止している、データ生成支援システム、としてもよい。 Further, in the present embodiment, the characteristics of the user terminal for transmitting the request information requesting the generation of predetermined data, the data generation request acceptance process for receiving the request information, and the content of the predetermined data are first. A data generation management process is executed to specify the process in which the predetermined data can be generated by other data stored in the predetermined information processing apparatus, which is estimated by the model and has the contents of the estimated features, by the second model. The predetermined information processing device is configured to include the data generation support device, and the predetermined information processing device stores the other data and prohibits the user terminal from accessing the other data. It may be a generation support system.
このように、所定の情報処理装置(ファイル管理サーバ105)が、一次データを記憶していると共に、利用者端末102による一次データへのアクセスを禁止していることで、ファイル管理サーバ105に個人情報等の機密情報を記憶していても、これを成果データの生成を欲する利用者に知られることなく、成果データを生成することができる。
In this way, the predetermined information processing device (file management server 105) stores the primary data and prohibits the
1 データ生成支援システム、101 データ生成支援装置、102 利用者端末、12
0 ワークフロー実行装置、105 ファイル管理サーバ、108 データ生成要求、2
データ生成支援システム
1 data generation support system, 101 data generation support device, 102 user terminal, 12
0 Workflow executor, 105 file management server, 108 data generation request, 2
Data generation support system
Claims (15)
前記所定のデータの内容の特徴を第1モデルにより推定し、推定した特徴の内容を備える他のデータにより前記所定のデータが生成可能な処理を、第2モデルにより特定するデータ生成管理処理と、
を実行する演算装置を備える、
データ生成支援装置。 Data generation request acceptance processing to receive request information requesting the generation of predetermined data,
A data generation management process for estimating the characteristics of the contents of the predetermined data by the first model and specifying a process in which the predetermined data can be generated by other data having the contents of the estimated features by the second model.
Equipped with an arithmetic unit to execute
Data generation support device.
複数のデータの入力を受け付け、入力されたデータに基づき前記入力されたデータの内容の各特徴を推定し、推定した各内容の特徴と、前記入力された各データとを対応づけて記憶したファイルメタデータ管理テーブルを前記第1モデルとして生成する第1モデル生成処理を実行する、
請求項1に記載のデータ生成支援装置。 The arithmetic unit is
A file that accepts input of multiple data, estimates each feature of the content of the input data based on the input data, and stores the feature of each estimated content in association with each input data. Execute the first model generation process for generating the metadata management table as the first model.
The data generation support device according to claim 1.
前記入力されたデータから所定の規則に従って前記内容の特徴を抽出することにより、前記入力されたデータの内容の特徴を推定する、
請求項2に記載のデータ生成支援装置。 The arithmetic unit is used in the first model generation process.
By extracting the characteristics of the contents from the input data according to a predetermined rule, the characteristics of the contents of the input data are estimated.
The data generation support device according to claim 2.
前記入力されたデータの各内容の特徴について、当該内容の特徴と、当該内容の特徴を備えるデータを用いて前記所定のデータを生成する処理とを対応づけて記憶したワークフローメタデータ管理テーブルを前記第2モデルとして生成する第2モデル生成処理を実行する、
請求項1に記載のデータ生成支援装置。 The arithmetic unit is
The workflow metadata management table is stored in which the characteristics of each content of the input data are stored in association with the characteristics of the content and the process of generating the predetermined data using the data having the characteristics of the content. Execute the second model generation process to be generated as the second model,
The data generation support device according to claim 1.
処理の情報の入力を受け付け、入力された処理が取り扱うデータの内容の特徴を所定の規則に従って抽出することにより、前記所定のデータを生成する複数の処理を特定する、
請求項4に記載のデータ生成支援装置。 The arithmetic unit is used in the second model generation process.
By accepting the input of processing information and extracting the characteristics of the content of the data handled by the input processing according to a predetermined rule, a plurality of processes that generate the predetermined data are specified.
The data generation support device according to claim 4.
前記生成した第2モデルにおける各前記処理に入力されるデータの内容の特徴と当該各処理が出力するデータの内容の特徴とを比較することにより、第1のデータにより第2のデータを生成する複数からなる処理の実行順序を特定し、特定した複数の処理の実行順序を第3モデルとして生成する連結ワークフロー算出処理を実行し、
前記データ生成管理処理において、前記第3モデルに基づき、前記他のデータにより前記所定のデータが生成可能な複数の処理の実行順序を特定する、
請求項4に記載のデータ生成支援装置。 The arithmetic unit is
The second data is generated from the first data by comparing the characteristics of the contents of the data input to each of the processes in the generated second model with the characteristics of the contents of the data output by each of the processes. Specify the execution order of multiple processes and execute the consolidated workflow calculation process to generate the execution order of the specified multiple processes as the third model.
In the data generation management process, based on the third model, the execution order of a plurality of processes in which the predetermined data can be generated by the other data is specified.
The data generation support device according to claim 4.
前記データ生成管理処理において、前記所定のデータが生成可能な処理を特定したことを示す情報、又は前記所定のデータが生成可能な処理に基づき前記所定のデータを生成中であることを示す情報を表示する、
請求項2に記載のデータ生成支援装置。 The arithmetic unit is
In the data generation management process, information indicating that the process in which the predetermined data can be generated is specified, or information indicating that the predetermined data is being generated based on the process in which the predetermined data can be generated. indicate,
The data generation support device according to claim 2.
所定のデータの生成を要求する要求情報を受信するデータ生成要求受付処理と、
前記所定のデータの内容の特徴を第1モデルにより推定し、推定した特徴の内容を備える他のデータにより前記所定のデータが生成可能な処理を、第2モデルにより特定するデータ生成管理処理と、
を実行する、データ生成支援方法。 Information processing equipment
Data generation request acceptance processing to receive request information requesting the generation of predetermined data,
A data generation management process for estimating the characteristics of the contents of the predetermined data by the first model and specifying a process in which the predetermined data can be generated by other data having the contents of the estimated features by the second model.
Data generation support method to execute.
複数のデータの入力を受け付け、入力されたデータに基づき前記入力されたデータの内容の各特徴を推定し、推定した各内容の特徴と、前記入力された各データとを対応づけて記憶したファイルメタデータ管理テーブルを前記第1モデルとして生成する第1モデル生成処理を実行する、
請求項8に記載のデータ生成支援方法。 The information processing device
A file that accepts input of multiple data, estimates each feature of the content of the input data based on the input data, and stores the feature of each estimated content in association with each input data. Execute the first model generation process for generating the metadata management table as the first model.
The data generation support method according to claim 8.
前記入力されたデータから所定の規則に従って前記内容の特徴を抽出することにより、前記入力されたデータの内容の特徴を推定する、
請求項8に記載のデータ生成支援方法。 In the first model generation process, the information processing apparatus
By extracting the characteristics of the contents from the input data according to a predetermined rule, the characteristics of the contents of the input data are estimated.
The data generation support method according to claim 8.
前記入力されたデータの各内容の特徴について、当該内容の特徴と、当該内容の特徴を備えるデータを用いて前記所定のデータを生成する処理とを対応づけて記憶したワークフローメタデータ管理テーブルを前記第2モデルとして生成する第2モデル生成処理を実行する、
請求項10に記載のデータ生成支援方法。 The information processing device
The workflow metadata management table is stored in which the characteristics of each content of the input data are stored in association with the characteristics of the content and the process of generating the predetermined data using the data having the characteristics of the content. Execute the second model generation process to be generated as the second model,
The data generation support method according to claim 10.
処理の情報の入力を受け付け、入力された処理が取り扱うデータの内容の特徴を所定の規則に従って抽出することにより、前記所定のデータを生成する処理を特定する、
請求項8に記載のデータ生成支援方法。 In the second model generation process, the information processing apparatus
By accepting the input of processing information and extracting the characteristics of the content of the data handled by the input processing according to a predetermined rule, the processing for generating the predetermined data is specified.
The data generation support method according to claim 8.
前記生成した第2モデルにおける各前記処理に入力されるデータの内容の特徴と当該各処理が出力するデータの内容の特徴とを比較することにより、第1のデータにより第2のデータを生成する複数からなる処理の実行順序を特定し、特定した複数の処理の実行順序を第3モデルとして生成する連結ワークフロー算出処理を実行し、
前記データ生成管理処理において、前記第3モデルに基づき、前記他のデータにより前記所定のデータが生成可能な複数の処理の実行順序を特定する、
請求項12に記載のデータ生成支援方法。 The information processing device
The second data is generated from the first data by comparing the characteristics of the contents of the data input to each of the processes in the generated second model with the characteristics of the contents of the data output by each of the processes. Specify the execution order of multiple processes and execute the consolidated workflow calculation process to generate the execution order of the specified multiple processes as the third model.
In the data generation management process, based on the third model, the execution order of a plurality of processes in which the predetermined data can be generated by the other data is specified.
The data generation support method according to claim 12.
前記データ生成管理処理において、前記所定のデータが生成可能な処理を特定したことを示す情報、又は前記所定のデータが生成可能な処理に基づき前記所定のデータを生成中であることを示す情報を表示する、
請求項8に記載のデータ生成支援方法。 The information processing device
In the data generation management process, information indicating that the process in which the predetermined data can be generated is specified, or information indicating that the predetermined data is being generated based on the process in which the predetermined data can be generated. indicate,
The data generation support method according to claim 8.
前記要求情報を受信するデータ生成要求受付処理、及び、
前記所定のデータの内容の特徴を第1モデルにより推定し、推定した特徴の内容を備える、所定の情報処理装置が記憶している他のデータにより前記所定のデータが生成可能な処理を、第2モデルにより特定するデータ生成管理処理を実行するデータ生成支援装置とを含んで構成され、
前記所定の情報処理装置は、前記他のデータを記憶していると共に、前記利用者端末による前記他のデータへのアクセスを禁止している、
データ生成支援システム。 A user terminal that sends request information requesting the generation of predetermined data, and
Data generation request acceptance processing to receive the request information, and
A process in which the characteristics of the contents of the predetermined data are estimated by the first model and the predetermined data can be generated by other data stored in the predetermined information processing apparatus, which has the contents of the estimated characteristics, is the first. It is configured to include a data generation support device that executes data generation management processing specified by two models.
The predetermined information processing device stores the other data and prohibits the user terminal from accessing the other data.
Data generation support system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020085428A JP7431100B2 (en) | 2020-05-14 | 2020-05-14 | Data generation support device, data generation support method, and data generation support system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020085428A JP7431100B2 (en) | 2020-05-14 | 2020-05-14 | Data generation support device, data generation support method, and data generation support system |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021179857A true JP2021179857A (en) | 2021-11-18 |
JP2021179857A5 JP2021179857A5 (en) | 2023-02-24 |
JP7431100B2 JP7431100B2 (en) | 2024-02-14 |
Family
ID=78511566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020085428A Active JP7431100B2 (en) | 2020-05-14 | 2020-05-14 | Data generation support device, data generation support method, and data generation support system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7431100B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005022428A1 (en) * | 2003-08-28 | 2005-03-10 | Ibm Japan, Ltd. | Attribute information providing server, attribute information providing method, and program |
JP2006011738A (en) * | 2004-06-24 | 2006-01-12 | Nec Corp | Personal information management system, personal information management method, personal information data convertion device, leakage detection device, leakage detection method and program |
JP2007102706A (en) * | 2005-10-07 | 2007-04-19 | Konica Minolta Business Technologies Inc | Workflow display method and workflow display device |
JP2010067094A (en) * | 2008-09-11 | 2010-03-25 | Ricoh Co Ltd | Electronic document management system, electronic document management method, and program for the same |
JP2019008666A (en) * | 2017-06-27 | 2019-01-17 | キヤノン株式会社 | Information processing apparatus, control method, and program |
US20200004604A1 (en) * | 2018-06-29 | 2020-01-02 | Optum, Inc. | Automated systems and methods for generating executable workflows |
-
2020
- 2020-05-14 JP JP2020085428A patent/JP7431100B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005022428A1 (en) * | 2003-08-28 | 2005-03-10 | Ibm Japan, Ltd. | Attribute information providing server, attribute information providing method, and program |
JP2006011738A (en) * | 2004-06-24 | 2006-01-12 | Nec Corp | Personal information management system, personal information management method, personal information data convertion device, leakage detection device, leakage detection method and program |
JP2007102706A (en) * | 2005-10-07 | 2007-04-19 | Konica Minolta Business Technologies Inc | Workflow display method and workflow display device |
JP2010067094A (en) * | 2008-09-11 | 2010-03-25 | Ricoh Co Ltd | Electronic document management system, electronic document management method, and program for the same |
JP2019008666A (en) * | 2017-06-27 | 2019-01-17 | キヤノン株式会社 | Information processing apparatus, control method, and program |
US20200004604A1 (en) * | 2018-06-29 | 2020-01-02 | Optum, Inc. | Automated systems and methods for generating executable workflows |
Also Published As
Publication number | Publication date |
---|---|
JP7431100B2 (en) | 2024-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4936028B2 (en) | Information providing support device and information providing support method | |
KR20130018641A (en) | Forensic system, method and program | |
JP4700462B2 (en) | Database usage system | |
Helm et al. | First steps towards process mining in distributed health information systems | |
JP2022159518A (en) | Intellectual property evaluation support system, intellectual property evaluation support program, intellectual property evaluation support method, server and intellectual property support device | |
JP6586050B2 (en) | Management device, management method, and management program | |
JP2020013413A (en) | Judgment support device and judgment support method | |
JP2008197976A (en) | Connection information generation program and connection information generation method | |
JP7431100B2 (en) | Data generation support device, data generation support method, and data generation support system | |
JP3781375B2 (en) | Intellectual property creation support method by cooperative intellectual property management system, information providing system with sublicense management function, and computer program | |
Rhee | A new lifecycle model enabling optimal digital curation | |
KR102463120B1 (en) | Patent document searching server providing user customized flle name generating function when dowloading document and patent document searching method using thereof | |
JP6675868B2 (en) | Information processing apparatus, information processing method, and program | |
CN114443913A (en) | Metadata multi-function multi-condition based user-defined query method, system and medium | |
JP4516007B2 (en) | Intellectual property creation support method by cooperative intellectual property management system, information providing system with sublicense management function, and computer program | |
Kumar et al. | Open Source Software Using Koha: A Case Study of LR Institute Of Engineering & Technology | |
JP2012043258A (en) | Retrieval system, retrieval device, retrieval program, recording medium and retrieval method | |
US20160019231A1 (en) | Reporting tool and method therefor | |
JP2009223679A (en) | Electronic document search device and electronic document search program | |
JP2010170438A (en) | Document management system | |
JP6828287B2 (en) | Information processing equipment and information processing programs | |
Qureshi et al. | Capturing users requirements using a data mining approach | |
US10614105B2 (en) | System and method of designating documents to associate with a search record | |
JP6455087B2 (en) | Form information processing program, form information processing apparatus, and form information processing method | |
CN108897873A (en) | A kind of method, apparatus, storage medium and processor generating job file |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230215 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7431100 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |