JP2023184034A

JP2023184034A - データ利用支援システム、及びデータ利用支援方法

Info

Publication number: JP2023184034A
Application number: JP2022097929A
Authority: JP
Inventors: 雄介藤原; Yusuke Fujiwara; 悠希澤田; Yuki Sawada
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2023-12-28

Abstract

【課題】データを利用する際の整形の煩雑さを軽減し、データの効率的な利用を支援する。【解決手段】データ利用支援システムは、表形式で情報が記述されたデータである表形式データを記憶し、表形式データの行を順に選択し、選択した各行について、当該行と当該行の後続行との間の類似度を求め、求めた類似度に基づき、表形式データにおいてデータ項目名が記述される行であるデータ項目行を推定し、推定したデータ項目行に基づき、表形式データを利用するソフトウェアが読み込むことが可能な形式のデータに当該表形式データを整形したデータである整形後データを生成する。【選択図】図７

Description

本発明は、データ利用支援システム、及びデータ利用支援方法に関する。

近年、企業や官公庁等の組織においては、オープンデータなどの様々なデータの利活用が進められている。しかしこうしたデータは必ずしも取り込み先のシステムが読み込み可能な様式になっていないことも多く、その場合、システムが読み込めるようにデータの内容を整形（調整）する必要がある。

データを利用する際の整形の煩雑さを軽減するための仕組みとして、例えば、特許文献１には、データの読み出しが可能なテーブルデータの様式に対する要求を緩和し、様々な様式のテーブルデータに柔軟に対応してデータの読み出しを可能にすることを目的として構成されたデータ読出装置について記載されている。データ読出装置は、データ処理を行う処理ツールが処理対象とするデータの種類に対して処理ツールに与えられている入力項目名を取得し、テーブルデータのうち同一属性を有しているデータ群であって属性毎に直線状に並べられているデータ群についての並びの方向を示す情報を取得し、入力項目名を示す文字列データが配置されているセルを探索し、探索により発見された上記セルを起点とし、取得した情報で示されている上記並びの方向に並べられている各セルに配置されているデータを読み出す。

特開２００４－０８６６５０号公報

特許文献１に記載のデータ読出装置は、テーブルデータについて処理を行う処理ツールの入力項目名を取得し、取得した入力項目名とテーブルデータのヘッダ項目名との対応関係を示すマッピングテーブルを作成し、マッピングテーブルを利用してテーブルデータからデータを読み出している。このため、対象とする処理ツールについて、ユーザは事前に入力項目名を取得するとともにマッピングテーブルを設定しておく必要がある。また、入力項目名の取得やマッピングテーブルの設定は処理ツール毎に行う必要があり、同文献に記載の仕組みは十分な汎用性を有するものではない。

本発明は、このような背景に基づきなされたものであり、データを利用する際の整形の煩雑さを軽減し、データの効率的な利用を支援することが可能な、データ利用支援システム、及びデータ利用支援方法を提供することを目的とする。

上記の目的を達成するための本発明の一つは、データの利用を支援するシステム（データ利用支援システム）であって、情報処理装置を用いて構成され、表形式で情報が記述されたデータである表形式データを記憶し、前記表形式データの行を順に選択し、選択した各行について、当該行と当該行の後続行との間の類似度を求め、求めた類似度に基づき、前記表形式データにおいてデータ項目名が記述される行であるデータ項目行を推定し、推定した前記データ項目行に基づき、前記表形式データを利用するソフトウェアが読み込むことが可能な形式のデータに当該表形式データを整形したデータである整形後データを生成する。

その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。

本発明によれば、データを利用する際の整形の煩雑さを軽減し、データの効率的な利用を支援することができる。

第１実施形態のデータ利用支援システムの概略的な構成を示す図である。推定基準の一例である。対象行の種類が「その他の行」と推定される例を示す図である。対象行の種類が「データ項目行」と推定される例を示す図である。対象行の種類が「データ行」と推定される例を示す図である。行の種類の推定方法の他の例を説明する図である。推定結果提示画面の一例（データ項目が単数推定された場合）である。推定結果提示画面の一例（データ項目行が推定されなかった場合）である。推定結果提示画面の一例（データ項目行が複数推定された場合）である。整形後データの一例である。データ利用支援システムの各装置が備える主な機能を示す図である。第１実施形態のデータ登録処理を説明するシーケンス図である。行毎種類推定処理を説明するフローチャートである。データ利用処理を説明するシーケンス図である。データ利用支援システムの構成に用いる情報処理装置の一例である。第２実施形態のデータ利用支援システムの概略的な構成を示す図である。第２実施形態のデータ登録処理を説明するシーケンス図である。第２実施形態の行毎種類推定処理を説明するフローチャートである。分類履歴の一例である。

以下、図面を適宜参照しつつ本発明の実施形態について説明する。以下の記載及び図面は、本発明を説明するための例示であり、説明の明確化のため、適宜、省略及び簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。とくに限定しない限り、各構成要素は単数でも複数でも構わない。

以下の説明において、同一の又は類似する構成に同一の符号を付して重複した説明を省略することがある。また、以下の説明において、符号の前に付した「Ｓ」の文字は処理ステップの意味である。

以下の説明において、表の形式で情報が記述されたデータ（行と列を指定して特定される文字情報（文字、文字列、数字、数字列等）の記述欄（以下、「セル」と称する。）の集合からなるデータ）のことを「表形式データ」と称する。

[第１実施形態]
図１に、第１実施形態として説明する情報処理システム（以下、「データ利用支援システム１」と称する。）の概略的な構成を示している。同図に示すように、データ利用支援システム１は、データ利用支援装置１００、データ登録装置２、及びデータ利用装置３の各装置を含む。これらの装置は、いずれも情報処理装置（コンピュータ）を用いて構成されている。データ登録装置２及びデータ利用装置３は、いずれもデータ利用支援装置１０
０と通信ネットワーク５を介して双方向通信が可能な状態で接続されている。通信ネットワーク５は、例えば、ＬＡＮ(Local Area Network)、ＷＡＮ（Wide Area Network）、イ
ンターネット、公衆用通信網、専用線等である。尚、データ利用支援装置１００、データ登録装置２、及びデータ利用装置３は、これらのうちの少なくとも２つ以上が共通の情報処理装置により実現されていてもよい。

データ利用支援システム１の利用主体は必ずしも限定されないが、例えば、企業や官公庁等の組織における、オープンデータなどの第三者により提供されるデータを用いて各種の分析業務を行う部門において利用される。また、データ利用支援装置１００の各種の機能は、例えば、インターネット上のサービスとして（例えば、ＳａａＳ（Software as a Service）として）提供してもよい。

データ利用支援装置１００は、データ登録装置２を介して登録される表形式データ（以下、「登録データ２１」と称する。）を、登録データ２１を利用するユーザが使用する表計算ソフトウェア等のソフトウェア（以下、「利用ソフト」と称する。）が、データ項目の名称（以下、「データ項目名」と称する。）が格納される行（以下、「データ項目行」と称する。）を特定して読み込むことが可能なデータ（以下、「整形後データ３１」と称する。）に整形して蓄積管理する。また、データ利用支援装置１００は、データ利用装置３から送られてくる提供要求に応じて、上記提供要求で指定される整形後データ３１をユーザに提供する。尚、整形後データ３１は、例えば、利用ソフトが独自に採用する形式やＣＳＶ（Comma Separated Value）形式で記述されたデータである。

登録データ２１は、上記のデータ項目行と、データ項目の値が格納される一つ以上の行（以下、「データ行」と称する。）とを含む。また、登録データ２１は、「データ項目行」でも「データ行」でもない行（例えば、人による可読性の向上等を目的とした記述が格納されている行。以下、「その他の行」と称する。）を含んでいることもある。

尚、登録データ２１は、一つ以上のデータ項目が列方向に列挙されている場合だけでなく、一つ以上のデータ項目が行方向に列挙されていることもあるが、後者の場合、行と列を入れ替える処理（転置処理）を行うことで、前者のタイプに容易に変換して取り扱うことができる。そのため、以下では、登録データ２１が、前者のタイプである場合を例として説明することとし、後者のタイプである場合については説明を省略する。

データ利用支援装置１００は、登録データ２１について各行の種類（「データ項目行」、「データ行」、「その他の行」）を推定し、推定した各行の種類に基づき登録データ２１を整形することにより整形後データ３１を生成する。データ利用支援装置１００は、例えば、登録データ２１の行を先頭行（最上位の行）から順次選択し、選択した各行について、選択中の行（以下、「対象行」と称する。）と対象行の後続行との間の類似度を求め、求めた類似度を予め設定した推定基準と対照することにより上記の推定を行う。上記の類似度は、例えば、対象行と対象行の後続行の夫々の同じ列に記述されている情報の類似性に基づく類似度（以下、「格納値類似度」と称する。）や、対象行と対象行の後続行の列数の類似性に基づく類似度（以下、「列数類似度」と称する。）である。上記の「格納値類似度」は、例えば、対象行と対象行の後続行の夫々の同じ列のセルに格納されている文字や文字列の類似性、上記セルに格納されている単語の品詞や型（文字、数値）の類似性に基づき求める。

図２に推定基準の一例を示す。例示する推定基準１１１は、「格納値類似度」が低く、かつ、「列数類似度」が低い場合は対象行を「その他の行」と、また、「格納値類似度」が低く、かつ、「列数類似度」が高い場合は対象行を「データ項目行」と、また、「格納値類似度」が高く、かつ、「列数類似度」が高い場合は対象行を「データ行」と、夫々推
定するものである。尚、類似度の高低の判定は、求めた類似度を予め設定した閾値と比較（類似度が閾値以上か閾値未満か）することにより行う。そのため、登録データ２１の態様に応じて閾値を調節することで対象行の種類の推定精度を向上させることが可能である。

図３Ａ～図３Ｃに、推定基準１１１に基づき登録データ２１の対象行の種類を推定した例を示す。尚、図３Ａは、例示する登録データ２１の１行目が対象行として選択されている場合である。また図３Ｂは、例示する登録データ２１の３行目が対象行として選択されている場合である。また図３Ｃは、例示する登録データ２１の４行目が対象行として選択されている場合である。

例えば、図３Ａでは、対象行（１行目）のＡ列のセルの値「表題:」と各後続行の「公
開日:」、「調査年」、「2019年度」等との間の類似度が低く、対象行のＢ列のセルの値
「地域別所得」と各後続行の「2022年2月9日」、「地域」、「北海道札幌市」等との間
の類似度が低く、対象行のＣ列のセルの値「」と各後続行の「」、「所得（千円）」、「123456789」等との間の類似度が低くなっている。また、対象行の列数は「２」であ
るが、各後続行の列数は「３」であり、両者の間の類似度は低い。そのため、この例の場合、データ利用支援装置１００は、「格納値類似度」が低く、かつ、「列数類似度」が低いことを理由として、対象行の種類を「その他の行」と推定する。

また例えば、図３Ｂでは、対象行（３行目）のＡ列のセルの値「調査年」と各後続行の「2019年度」、「2019年度」等と間の類似度が低く、対象行のＢ列のセルの値「地域」と各後続行の「北海道札幌市」、「北海道函館市」等との間の類似度が低く、対象行のＣ列のセルの値「所得（千円）」と各後続行の「1234567890」、「222555888」等との間の
類似度が低くなっている。また、対象行の列数は「３」であり、各後続行の列数も「３」であるため両者の類似度は高い。そのため、この例の場合、データ利用支援装置１００は、「格納値類似度」が低く、かつ、「列数類似度」が高いことを理由として、対象行の種類を「データ項目行」と推定する。

また例えば、図３Ｃでは、対象行（４行目）のＡ列目のセルの値「2019年度」と各後続行の「2019年度」、「2019年度」等との間の類似度が高く、対象行のＢ列のセルの値「北海道札幌市」と各後続行の「北海道札幌市」、「北海道函館市」等との間の類似度が
高く、対象行のＣ列のセルの値「1234567890」と各後続行の「1234567890」、「222555888」等との間の類似度が高くなっている。また、対象行の列数は「３」であり、各後続行
の列数も「３」であるため両者の類似度は高い。そのため、この例の場合、データ利用支援装置１００は、「格納値類似度」が高く、かつ、「列数類似度」が高いことを理由として、対象行の種類を「データ行」と推定する。

尚、以上に示した「格納値類似度」及び「列数類似度」を用いた行の種類の推定方法は一例に過ぎず、この方法以外の方法でデータ利用支援装置１００が行の種類を推定するようにしてもよい。例えば、データ利用支援装置１００が、表形式データ（例えば、過去に種類の推定を行った登録データ２１）の行と当該行の後続行とに基づき算出される類似度に基づく情報を説明変数とし、当該行の種類を示す情報を目的変数とする学習データにより学習した機械学習モデルを生成し、登録データ２１の各行の記述を上記の機械学習モデルに入力することにより上記の推定を行ってもよい。機械学習モデルを用いた場合、モデルの学習が繰り返されることによる行の種類の推定精度の向上が期待できる。

以下に機械学習モデルを用いて行の種類の推定を行う仕組みの具体例を示す。本例では、データ利用支援装置１００が、正規化編集距離（標準化されたレーベンシュタイン距離(normalized Levenshtein distance)）、形態素解析、及び機械学習を組み合わせた、次
に示す手順（併せて図４を参照）により登録データ２１の各行の種類を推定する。
＜手順＞
１．各列について、対象行と後続する各行との間の格納値類似度の最高値を求める。類似度は以下の方法で求める。
１－１．正規化編集距離(文字列として似ていれば高類似度)
１－２．形態素のコサイン類似度(含有する品詞が似ていれば高類似度)
２．各列について、上記の最高値の平均を求める。
３．「データ項目行」の列数と「データ行」の列数の差の平均を求める。
４．過去のデータに基づく学習データ（上記の３つの値を説明変数とし、推定結果を目的変数とする学習データ）を生成し、生成した学習データにより学習した機械学習モデルを生成し、生成した機械学習モデルを用いて各行の種類を推定する。

データ利用支援装置１００は、以上のようにして行の種類（「その他の行」、「データ項目行」、「データ行」）を推定した結果を、ユーザインタフェースを介してユーザ（例えば、登録データ２１を登録したユーザ）に提示し、ユーザに確認もしくは修正を促す。

図５Ａ～図５Ｃに、上記の確認及び修正に際してデータ利用支援装置１００が表示する画面（以下、「推定結果提示画面５００」と称する。）の例を示す。

図５Ａは、登録データ２１について「データ項目行」が一つだけ（単数）推定された場合にデータ利用支援装置１００が表示する推定結果提示画面５００の一例である。例示する推定結果提示画面５００は、登録データ表示欄５１１、推定結果表示欄５１２、推定結果修正欄５１３、メッセージ表示欄５１４、及びデータ登録ボタン５１５を有する。

登録データ表示欄５１１には、登録データ２１の内容が表示される。この例は、データ利用支援装置１００が、登録データ２１の３行目を「データ項目行」として推定した場合である。ユーザは、登録データ表示欄５１１における当該行の各列のデータ項目名を編集することができる。

推定結果表示欄５１２には、各行の種類の推定結果が表示される。推定結果修正欄５１３はプルダウンメニュー形式になっており、データ利用支援装置１００の推定結果が誤っている場合、ユーザは、プルダウンメニューから種類（「その他の行」、「データ項目行」、「データ行」）を選択することにより各行の種類を修正することができる。

メッセージ表示欄５１４には、推定結果に関するメッセージが表示される。ユーザがデータ登録ボタン５１５を操作すると、データ利用支援装置１００は、当該画面に設定された内容に基づき整形後データ３１を生成して記憶する。

図５Ｂは、登録データ２１について「データ項目行」が一つも見つからなかった場合にデータ利用支援装置１００が表示する推定結果提示画面５００の一例である。尚、画面の構成は図５Ａと同様である。

この例では、「データ項目行」が一つも見つからなかったため、データ利用支援装置１００は、登録データ表示欄５１１にデータ項目名の入力欄を表示し、メッセージ表示欄５１４にてデータ項目名を設定するようユーザに促している。尚、この画面では、「データ行」の各列に対応するデータ項目名を全て入力しない限り、ユーザがデータ登録ボタン５１５を操作することができない。

図５Ｃは、登録データ２１について「データ項目行」が複数（この例では２つ）推定された場合にデータ利用支援装置１００が表示する推定結果提示画面５００の一例である。
尚、画面の構成は図５Ａと同様である。

この例では、「データ項目行」が複数推定されたため、データ利用支援装置１００は、「データ項目行」が単数になるように推定結果修正欄５１３を設定するようユーザに促している。尚、この画面では、「データ項目行」が単数になるように修正しない限り、ユーザがデータ登録ボタン５１５を操作することができない。

図６に、以上のようにして各行の種類を推定した結果（ユーザが推定結果提示画面５００により確認もしくは編集した結果）に基づきデータ利用支援装置１００が生成する整形後データ３１の一例を示す。例示する整形後データ３１は、登録データ２１から「その他の行」（もしくは「その他の行」の記述）を削除した内容になっている。

図７は、データ利用支援システム１を構成する各装置が備える主な機能を示す図である。以下、同図とともに各装置の機能について説明する。

同図に示すように、データ利用支援装置１００は、記憶部１１０、データ登録部１２０、及びデータ提供部１３０の各機能を備える。

このうち記憶部１１０は、登録データ２１、整形後データ３１、及び推定基準１１１を記憶する。

同図に示すように、データ登録部１２０は、登録データ受信部１２１、行間類似度算出部１２２、行毎種類推定部１２３、推定結果提示部１２４、修正結果受信部１２５、及び整形後データ生成部１２６の各機能を有する。

このうち登録データ受信部１２１は、データ登録装置２から送られてくる登録データ２１を受信する。

行間類似度算出部１２２は、登録データ２１の各行について前述した類似度を求める。

行毎種類推定部１２３は、求めた類似度に基づき登録データ２１の各行の種類を推定する。

推定結果提示部１２４は、各行の種類の推定結果をデータ登録装置２を介してユーザに提示（例えば、データ登録装置２が図５Ａ～図５Ｃに例示した画面を表示）する。

修正結果受信部１２５は、データ登録装置２から、上記推定結果をユーザが修正した内容を受信する。

整形後データ生成部１２６は、上記推定結果（ユーザが推定結果を修正した場合は修正後の推定結果）に基づき整形後データ３１を生成する。

同図に示すように、データ提供部１３０は、データ要求受信部１３１及びデータ送信部１３２を有する。

このうちデータ提供部１３０は、データ利用装置３からの整形後データ３１の提供要求を受信する。

データ送信部１３２は、提供要求に応じて、提供要求に指定されている整形後データ３１をデータ利用装置３に送信する。

同図に示すように、データ登録装置２は、登録データ受付部２１１、登録データ送信部２１２、及び推定結果編集部２１３の各機能を備える。

このうち登録データ受付部２１１は、ユーザから登録データ２１の入力を受け付ける。

登録データ送信部２１２は、受け付けた登録データ２１をデータ利用支援装置１００に送信する。

推定結果編集部２１３は、データ利用支援装置１００から送られてくる各行の種類の推定結果をユーザに提示する。また、推定結果編集部２１３は、ユーザから推定結果に対する修正を受け付け（例えば、図５Ａ～図５Ｃに例示した画面を表示してユーザから修正を受け付け）、受け付けた修正の内容を修正結果としてデータ利用支援装置１００に送信する。

同図に示すように、データ利用装置３は、データ提供要求送信部３１１、整形後データ受信部３１２、及びデータ利用部３１３の各機能を備える。

このうちデータ提供要求送信部３１１は、整形後データ３１の提供要求をデータ利用支援装置１００に送信する。

整形後データ受信部３１２は、データ利用支援装置１００から送られてくる整形後データ３１を受信して記憶する。

データ利用部３１３は、例えば、表計算ソフトウェアにより実現される機能であり、整形後データ３１を利用する各種の処理を行う。

図８は、ユーザ（データ提供者等）がデータ登録装置２を介して登録データ２１をデータ利用支援装置１００に登録する際にデータ利用支援システム１において行われる処理の一例（以下、「データ登録処理Ｓ８００」と称する。）を説明するシーケンス図である。以下、同図とともにデータ登録処理Ｓ８００について説明する。

まず、ユーザが、登録データ２１をデータ登録装置２に入力（アップロード）する（Ｓ８１１）。

データ登録装置２は、登録データ２１が入力されると、入力された登録データ２１をデータ利用支援装置１００に送信する（Ｓ８１２）。

データ利用支援装置１００は、送られてきた登録データ２１を受信して記憶する（Ｓ８１３）。そして、データ利用支援装置１００は、登録データ２１について前述した類似度を求めて推定基準１１１と対照することにより各行の種類を推定し（Ｓ８１４）、推定結果をデータ登録装置２に送信する（Ｓ８１５）。

データ登録装置２は、推定結果を受信するとその内容を表示し、ユーザに確認又は修正を促し（Ｓ８１６）、確認の結果又は修正結果を受け付け（Ｓ８１７）、受け付けた結果をデータ利用支援装置１００に送信する（Ｓ８１８）。

データ利用支援装置１００は、確認の結果又は修正結果を受信すると、整形後データ３１を生成して記憶する（Ｓ８１９）。

図９は、図８のデータ登録処理Ｓ８００のＳ８１４においてデータ登録部１２０が行う処理（以下、「行毎種類推定処理Ｓ８１４」と称する。）の詳細を説明するフローチャートである。以下、同図とともに行毎種類推定処理Ｓ８１４について説明する。

同図に示すＳ９１１ｓ～Ｓ９１１ｅの処理は、データ登録部１２０が、登録データ２１の先頭行から順に１行ずつ対象行を選択して繰り返し行われるループ処理である。

まず、Ｓ９１２では、データ登録部１２０が、対象行と後続行を対照して類似度を求める（Ｓ９１２）。

Ｓ９１３では、データ登録部１２０が、求めた類似度を推定基準１１１と対照して対象行の種類を推定する。

上記のループ処理Ｓ９１１ｓ～Ｓ９１１ｅが終了すると、データ登録部１２０は、登録データ２１の各行の種類の推定結果を出力する（Ｓ９１４）。

図１０は、ユーザ（データ利用者等）がデータ利用装置３を介して整形後データ３１を取得し利用する際にデータ利用支援システム１において行われる処理の一例（以下、「データ利用処理Ｓ１０００」と称する。）を説明するシーケンス図である。以下、同図とともにデータ利用処理Ｓ１０００について説明する。

まず、ユーザが、データ利用装置３に利用しようとする整形後データ３１を特定する情報を入力する（Ｓ１０１１）。

データ利用装置３は、上記入力を受け付けると、指定された整形後データ３１の提供要求をデータ利用支援装置１００に送信する（Ｓ１０１２）。

データ利用支援装置１００は、上記提供要求を受信すると、指定された整形後データ３１を検索し（Ｓ１０１３）、データ利用装置３に送信する（Ｓ１０１４）。

データ利用装置３は、整形後データ３１を受信すると、受信した整形後データ１０１５を出力する（もしくは、データ利用部３１３に引き渡す）（Ｓ１０１５）。

以上に説明したように、第１実施形態のデータ利用支援システム１においては、データ利用支援装置１００が、登録データ２１の各行の種類を自動的に推定し、推定した結果に基づき整形後データ３１を生成するので、ユーザは、「その他の行」と推定されるような記述を含むデータを煩雑な整形作業を行うことなく効率よくデータを利用することができる。また、各行の種類の推定結果について修正する必要がある場合は、データ利用支援システム１が提供するユーザインタフェースを利用して効率よくデータを修正することができる。このように、第１実施形態のデータ利用支援システム１によれば、多様な様式で記述されたデータを利用する際の整形の煩雑さを軽減し、データの効率的な利用を支援することができる。

＜情報処理装置の例＞
図１１に、以上に説明したデータ利用支援システム１（データ利用支援装置１００、データ登録装置２、データ利用装置３）の構成に用いる情報処理装置の一例を示す。

例示する情報処理装置１０は、プロセッサ１１、主記憶装置１２（メモリ）、補助記憶装置１３（外部記憶装置）、入力装置１４、出力装置１５、及び通信装置１６を備える。これらはバスや通信ケーブル等を介して通信可能に接続されている。情報処理装置１０の
例として、パーソナルコンピュータ、サーバ装置、スマートフォン、タブレット、オフィスコンピュータ、汎用機（メインフレーム）等がある。

情報処理装置１０は、その全部又は一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また、情報処理装置１０によって提供される機能の全部又は一部は、例えば、クラウドシステムがＡＰＩ（Application Programming Interface）等を介して提供するサービスによって実現してもよい。また
、情報処理装置１０によって提供される機能の全部又は一部は、例えば、ＳａａＳ（Software as a Service）、ＰａａＳ（Platform as a Service）、ＩａａＳ（Infrastructure
as a Service）等を利用して実現されるものであってもよい。

プロセッサ１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable
Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＡＩ（Artificial Intelligence）チップ等を用いて構成されている。

主記憶装置１２は、プロセッサ１１がプログラムを実行する際に利用する装置であり、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、不揮発性メモリ（ＮＶＲＡＭ（Non Volatile RAM））等である。データ利用支援システム１の各構成において実現される各種の機能は、夫々のプロセッサ１１が、補助記憶装置１３に格納（記憶）されているプログラムやデータを主記憶装置１２に読み出して実行することにより実現される。

補助記憶装置１３は、プログラムやデータを記憶する装置であり、例えば、ＳＳＤ（Solid State Drive）、ハードディスクドライブ、光学式記憶装置（ＣＤ（Compact Disc）
、ＤＶＤ（Digital Versatile Disc）等）、ストレージシステム、ＩＣカード、ＳＤカードや光学式記録媒体等の非一時的な記録媒体の読取／書込装置、クラウドサーバの非一時的な記憶領域等で構成することができる。補助記憶装置１３には、記録媒体の読取装置や通信装置１６を介して、非一時的な記録媒体や非一時的な記憶装置を備えた他の情報処理装置からプログラムやデータを読み込むことができる。補助記憶装置１３に格納（記憶）されているプログラムやデータは主記憶装置１２に随時読み込まれる。

入力装置１４は、外部からの情報の入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、音声入力装置等である。

出力装置１５は、処理経過や処理結果等の各種情報を外部に出力するインタフェースである。出力装置１５は、例えば、上記の各種情報を可視化する表示装置（液晶モニタ、ＬＣＤ（Liquid Crystal Display）、グラフィックカード等）、上記の各種情報を音声化する装置（音声出力装置（スピーカ等））、上記の各種情報を文字化する装置（印字装置等）である。尚、例えば、情報処理装置１０が通信装置１６を介して他の装置との間で情報の入力や出力を行う構成としてもよい。

入力装置１４と出力装置１５は、ユーザとの間での対話処理（情報の受け付け、情報の提供等）を実現するユーザインタフェースを構成する。

通信装置１６は、他の装置との間の通信を実現する装置である。通信装置１６は、通信ネットワーク５を介して他の装置との間の通信を実現する、有線方式又は無線方式の通信インタフェースであり、例えば、ＮＩＣ（Network Interface Card）、無線通信モジュー
ル、ＵＳＢモジュール等である。

情報処理装置１０には、例えば、オペレーティングシステム、ファイルシステム、ＤＢＭＳ（DataBase Management System）（リレーショナルデータベース、ＮｏＳＱＬ等）、ＫＶＳ（Key-Value Store）等が導入されていてもよい。

[第２実施形態]
第１実施形態のデータ利用支援システム１では、データ利用支援装置１００が、登録データ２１の各行の後続行との間の類似性に着目して行の種類の推定を行ったが、第２実施形態のデータ利用支援装置１００は、更に、過去に登録データ２１について「データ項目行」として分類した行の記述（ユーザが推定結果を確認もしくは修正した結果。以下、「分類結果」と称する。）を用いて行の種類の推定を行う。尚、第２実施形態のデータ利用支援システム１の基本的な構成は第１実施形態と同様であるので、以下では第１実施形態との相違点を中心として説明する。

図１２は、第２実施形態のデータ利用支援システム１の概略的な構成を示す図である。同図に示すように、第２実施形態のデータ利用支援システム１は、データ利用支援装置１００の記憶部１１０が、分類結果を分類履歴１１２として更に記憶する点、データ登録部１２０が更に分類履歴１１２を用いて行の種類の推定を行う点で第１実施形態と異なる。

図１３は、第２実施形態のデータ登録処理Ｓ８００を説明するシーケンス図である。第２実施形態のデータ登録処理Ｓ８００は、第１実施形態のデータ登録処理Ｓ８００と類似するが、Ｓ８１４においてデータ登録部１２０が分類履歴１１２を用いて更に行の種類の推定を行う点、及び、Ｓ８２０においてデータ登録部１２０が、「データ項目行」として分類した行の記述を分類履歴１１２に追記する点で第１実施形態のデータ登録処理Ｓ８００と異なる。

図１４は、図１２のデータ登録処理Ｓ８００のＳ８１４において、第２実施形態のデータ登録部１２０が行う処理（以下、「行毎種類推定処理Ｓ８１４」と称する。）の詳細を説明するフローチャートである。以下、同図とともに第２実施形態の行毎種類推定処理Ｓ８１４について説明する。

同図に示すＳ１４１１ｓ～Ｓ１４１１ｅの処理は、データ登録部１２０が、登録データ２１の先頭行から順に１行ずつ対象行を選択して繰り返し行われるループ処理である。

まず、Ｓ１４１２では、データ登録部１２０が、対象行と後続行を対照して類似度（以下、「第１類似度」と称する。）を求める。

続いて、データ登録部１２０が、第１類似度を推定基準１１１と対照して対象行の種類を推定する（Ｓ１４１３）。

続いて、データ登録部１２０が、Ｓ１４１３における推定結果が「データ項目行」であるか否かを判定する（Ｓ１４１４）。推定結果が「データ項目行」であれば（Ｓ１４１４：ＹＥＳ）、現在の対象行の処理を終了して次の対象行の処理に移る。尚、後続行がない場合はループを抜ける。一方、推定結果が「データ項目行」でなければ（Ｓ１４１４：ＮＯ）、処理はＳ１４１５に進む。

Ｓ１４１５では、データ登録部１２０が、対象行と分類履歴１１２を対照して類似度（以下、「第２類似度」と称する。）を求める。

図１５に分類履歴１１２の一例を示す。データ登録部１２０は、対象行の記述と分類履歴１１２の「データ項目行」と推定した行の記述との類似度を第２類似度として求める。尚、データ登録部１２０は、第２類似度を、例えば、各行のセルに格納されている文字情報（文字、文字列、数字、数字列等）の類似性や、各行のセルに格納されている単語の品詞や型（文字、数値）の類似性等に基づき求める。

図１４に戻り、Ｓ１４１６では、データ登録部１２０は、第２類似度が予め設定した閾値以上であるか否かを判定する。第２類似度が上記閾値以上でなければ（Ｓ１４１６：ＮＯ）、現在の対象行の処理を終了して次の対象行の処理に移る。尚、後続行がない場合はループを抜ける。一方、第２類似度が上記閾値以上であれば（Ｓ１４１６：ＹＥＳ）、データ登録部１２０は対象行を「データ項目行」と推定する。

上記のループ処理Ｓ１４１１ｓ～Ｓ１４１１ｅが終了すると、データ登録部１２０は、登録データ２１の各行の種類の推定結果を出力する（Ｓ１４１８）。

このように、第２実施形態では、データ利用支援装置１００が、過去に行った行の種類の推定結果である分類履歴１１２を用いて行の推定を行う。このため、例えば、「データ項目行」とすべき行でありながら第１実施形態の方法ではデータ項目行と推定できなかった行を「データ項目行」と推定することができ、行の種類の推定精度を高めることができる。

以上、実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、様々な変形例が含まれ、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることや、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加、削除、置換をすることが可能である。

１データ利用支援システム、２データ登録装置、２１１登録データ受付部、２１２
登録データ送信部、２１３推定結果編集部、３データ利用装置、３１１データ提供要求送信部、３１２整形後データ受信部、３１３データ利用部、２１登録データ、３１整形後データ、１００データ利用支援装置、１１０記憶部、１１１推定基準、１１２分類履歴、１２０データ登録部、１２１登録データ受信部、１２２行間類似度算出部、１２３行毎種類推定部、１２４推定結果提示部、１２５修正結果受信部、１２６整形後データ生成部、１３０データ提供部、１３１データ要求受信部、１３２データ送信部、５００推定結果提示画面、Ｓ８００データ登録処理、Ｓ８１４行毎種類推定処理

Claims

データの利用を支援するシステムであって、
情報処理装置を用いて構成され、
表形式で情報が記述されたデータである表形式データを記憶し、
前記表形式データの行を順に選択し、選択した各行について、当該行と当該行の後続行との間の類似度を求め、求めた類似度に基づき、前記表形式データにおいてデータ項目名が記述される行であるデータ項目行を推定し、
推定した前記データ項目行に基づき、前記表形式データを利用するソフトウェアが読み込むことが可能な形式のデータに当該表形式データを整形したデータである整形後データを生成する、
データ利用支援システム。
請求項１に記載のデータ利用支援システムであって、
前記類似度に基づき、前記表形式データにおいてデータ項目に対応するデータが記述される行であるデータ行を推定し、
推定した前記データ行に基づき、前記表形式データを利用するソフトウェアが読み込むことが可能な形式のデータに当該表形式データを整形したデータである整形後データを生成する、
データ利用支援システム。
請求項２に記載のデータ利用支援システムであって、
前記類似度に基づき、前記表形式データにおいて前記データ項目行でも前記データ行でもない行であるその他の行を推定し、
推定した前記その他の行を削除することにより、前記表形式データを前記表形式データを利用するソフトウェアが読み込むことが可能な形式のデータに整形したデータである整形後データを生成する、
データ利用支援システム。
請求項１乃至３のいずれか一項に記載のデータ利用支援システムであって、
前記類似度は、選択した行と当該行の後続行の夫々の同じ列に記述されている情報の類似性に基づく類似度である格納値類似度、及び、選択した行と当該行の後続行の列数の類似性に基づく類似度である列数類似度のうちの少なくともいずれかである、
データ利用支援システム。
請求項３に記載のデータ利用支援システムであって、
前記類似度は、選択した行と当該行の後続行の夫々の同じ列に記述されている情報の類似性に基づく類似度である格納値類似度、及び、選択した行と当該行の後続行の列数の類似性に基づく類似度である列数類似度のうちの少なくともいずれかであり、
予め設定された閾値と比較することにより前記格納値類似度の高低を判定し、
予め設定された閾値と比較することにより前記列数類似度の高低を判定し、
前記格納値類似度の高低の判定結果と前記列数類似度の前記高低の判定結果に基づき、前記表形式データにおける、前記データ項目行、前記データ行、及び前記その他の行の少なくともいずれかを推定する、
データ利用支援システム。
請求項３に記載のデータ利用支援システムであって、
表形式データの行と当該行の後続行とに基づき算出される類似度に基づく情報を説明変数とし、当該行が前記データ項目行、前記データ行、及び前記その他の行のうちのいずれであるかを示す情報を目的変数とする学習データにより学習した機械学習モデルを生成し
、
表形式データの行の記述を前記機械学習モデルに入力することにより前記推定を行う、
データ利用支援システム。
請求項６に記載のデータ利用支援システムであって、
前記類似度を、前記表形式データの行の記述と当該行の後続行の記述との間の、正規化編集距離及び形態素のコサイン類似度のうちの少なくともいずれかに基づき求める、
データ利用支援システム。
請求項３に記載のデータ利用支援システムであって、
前記表形式データの各行が、前記データ項目行、前記データ行、及び前記その他の行のいずれの種類であるかを推定した結果を提示するユーザインタフェースを有する、
データ利用支援システム。
請求項３に記載のデータ利用支援システムであって、
前記データ項目行と推定した行のデータ項目名を編集するためのユーザインタフェースを有する、
データ利用支援システム。
請求項３に記載のデータ利用支援システムであって、
前記表形式データについて前記データ項目行となる行を推定できなかった場合に、前記表形式データに前記データ項目行を設定するためのユーザインタフェースを有する、
データ利用支援システム。
請求項３に記載のデータ利用支援システムであって、
前記表形式データについて前記データ項目行となる行が複数推定された場合に、前記表形式データにおける前記データ項目行が単数となるように編集するためのユーザインタフェースを有する、
データ利用支援システム。
請求項１に記載のデータ利用支援システムであって、
前記データ項目行として過去に分類された一つ以上の行の記述である分類履歴を記憶し、
前記表形式データの行の記述と前記分類履歴の記述との間の類似度を求め、前記類似度が予め設定した閾値以上である場合に、当該行を前記データ項目行と推定する、
データ利用支援システム。
請求項１に記載のデータ利用支援システムであって、
前記表形式データについて転置処理を行い、前記転置処理を行った後の前記表形式データを対象として前記データ項目行の前記推定を行う、
データ利用支援システム。
データの利用を支援する方法であって、
情報処理装置が、
表形式で情報が記述されたデータである表形式データを記憶するステップ、
前記表形式データの行を順に選択し、選択した各行について、当該行と当該行の後続行との間の類似度を求め、求めた類似度に基づき、前記表形式データにおいてデータ項目名が記述される行であるデータ項目行を推定するステップ、及び、
推定した前記データ項目行に基づき、前記表形式データを利用するソフトウェアが読み込むことが可能な形式のデータに当該表形式データを整形したデータである整形後データ
を生成するステップ、
を実行する、データ利用支援方法。
請求項１４に記載のデータ利用支援方法であって、
前記類似度は、選択した行と当該行の後続行の夫々の同じ列に記述されている情報の類似性に基づく類似度である格納値類似度、及び、選択した行と当該行の後続行の列数の類似性に基づく類似度である列数類似度のうちの少なくともいずれかである、
データ利用支援方法。