JP7429374B2 - 情報処理システム、情報処理方法及び情報処理プログラム - Google Patents

情報処理システム、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JP7429374B2
JP7429374B2 JP2022106293A JP2022106293A JP7429374B2 JP 7429374 B2 JP7429374 B2 JP 7429374B2 JP 2022106293 A JP2022106293 A JP 2022106293A JP 2022106293 A JP2022106293 A JP 2022106293A JP 7429374 B2 JP7429374 B2 JP 7429374B2
Authority
JP
Japan
Prior art keywords
data
information processing
processing system
input data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022106293A
Other languages
English (en)
Other versions
JP2023067730A (ja
Inventor
隼人 久米村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datafluct
Original Assignee
Datafluct
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datafluct filed Critical Datafluct
Publication of JP2023067730A publication Critical patent/JP2023067730A/ja
Priority to JP2024005826A priority Critical patent/JP2024039064A/ja
Application granted granted Critical
Publication of JP7429374B2 publication Critical patent/JP7429374B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理システム、情報処理方法及び情報処理プログラムに関する。
特許文献1には、非構造化情報管理システム(UIMS)用のシステム・アーキテクチャ、コンポーネント、および検索技法が開示されている。
UIMSは、情報ソースの幅広いアレイに関する非構造化情報の効果的な管理および交換のためのミドルウェアとして提供することができる。このアーキテクチャは一般に、検索エンジンと、データ記憶域と、パイプライン化した文書アノテータを含む分析エンジンと、様々なアダプタとを含む。この検索技法は2レベル検索技法を利用する。検索照会は、それぞれが関連重み値を有する複数の検索部分式からなる検索演算子を含む。検索エンジンは、しきい重み値合計を超える重み値合計を有する1つまたは複数の文書を返す。検索演算子は、加重AND(WAND)として機能するブール述部として実現される。
特開2004-362563号公報
ところで、非構造化データは構造化データに比べてデータの取扱が困難である。また、非構造化データの種類は、テキストデータ以外にも、画像、動画、音声など多様である。このような多様な非構造化データを構造化データとして処理するためには、非構造化データの種類に応じた適切な処理が必要となる。しかし、非構造化データに対する適切な処理の特定には、データサイエンスに関する高度な専門性が要求されてきた。
本発明の一態様によれば、情報処理システムが提供される。この情報処理システムでは、次の各ステップがなされるようにプログラムを実行可能なプロセッサを備える。取得ステップでは、入力データを取得する。入力データは、複数種類の非構造化データのうちの少なくとも1つを含む。種類特定ステップでは、取得された入力データの形式に基づき、入力データに含まれる、少なくとも1つの非構造化データの種類を特定する。生成ステップでは、取得された入力データに対して、特定された非構造化データの種類に応じた変換処理を行うことにより、所定のデータ構造を有する第1の構造化データを生成する。
かかる情報処理システムによれば、非構造化データを構造化データに変換するに際し、ユーザに求められるデータサイエンスに関する専門性を緩和することができる。
情報処理システム1を表す構成図である。 情報処理装置2のハードウェア構成を示すブロック図である。 ユーザ端末3のハードウェア構成を示すブロック図である。 プロセッサ23が備える機能部の一例を示す図である。 情報処理システム1において実行される情報処理の流れの一例を示すアクティビティ図である。 表示部34に表示される第1の画像IM1の一例を示す図である。 表示部34に表示される第2の画像IM2の一例を示す図である。 表示部34に表示される第3の画像IM3の一例を示す図である。 表示部34に表示される第4の画像IM4の一例を示す図である。
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体(Non-Transitory Computer-Readable Medium)として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現(いわゆるクラウドコンピューティング)するように提供されてもよい。
また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行されうる。
また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
1.ハードウェア構成
本節では、ハードウェア構成について説明する。
<情報処理システム1>
図1は、情報処理システム1を表す構成図である。情報処理システム1は、情報処理装置2と、ユーザ端末3と、第1のデータベースDB1と、第2のデータベースDB2と、を備える。情報処理装置2と、ユーザ端末3と、第1のデータベースDB1と、第2のデータベースDB2と、は、電気通信回線を通じて通信可能に構成されている。一実施形態において、情報処理システム1とは、1つ又はそれ以上の装置又は構成要素からなるものである。仮に例えば、情報処理装置2のみからなる場合であれば、情報処理システム1は、情報処理装置2となりうる。以下、これらの構成要素について説明する。
<情報処理装置2>
図2は、情報処理装置2のハードウェア構成を示すブロック図である。情報処理装置2は、通信バス20と、通信部21と、記憶部22と、プロセッサ23とを備える。通信部21、記憶部22、及びプロセッサ23は、情報処理装置2の内部において通信バス20を介して電気的に接続されている。
<通信部21>
通信部21は、USB、IEEE1394、Thunderbolt(登録商標)、有線LANネットワーク通信等といった有線型の通信手段が好ましいものの、無線LANネットワーク通信、3G/LTE/5G等のモバイル通信、BLUETOOTH(登録商標)通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。すなわち、情報処理装置2は、通信部21及びネットワークを介して、外部から種々の情報を通信してもよい。
<記憶部22>
記憶部22は、前述の記載により定義される様々な情報を記憶する。これは、例えば、プロセッサ23によって実行される情報処理装置2に係る種々のプログラム等を記憶するソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報(引数、配列等)を記憶するランダムアクセスメモリ(Random Access Memory:RAM)等のメモリとして実施されうる。記憶部22は、プロセッサ23によって実行される情報処理装置2に係る種々のプログラムや変数等を記憶している。
<プロセッサ23>
プロセッサ23は、情報処理装置2に関連する全体動作の処理・制御を行う。プロセッサ23は、例えば不図示の中央処理装置(Central Processing Unit:CPU)である。プロセッサ23は、記憶部22に記憶された所定のプログラムを読み出すことによって、情報処理装置2に係る種々の機能を実現する。すなわち、記憶部22に記憶されているソフトウェアによる情報処理が、ハードウェアの一例であるプロセッサ23によって具体的に実現されることで、プロセッサ23に含まれる各機能部として実行されうる。これらについては、次節においてさらに詳述する。なお、プロセッサ23は単一であることに限定されず、機能ごとに複数のプロセッサ23を有するように実施してもよい。またそれらの組合せであってもよい。
<ユーザ端末3>
図3は、ユーザ端末3のハードウェア構成を示すブロック図である。ユーザ端末3は、通信バス30と、通信部31と、記憶部32と、プロセッサ33と、表示部34と、入力部35と、を備える。通信部31、記憶部32、プロセッサ33、表示部34、及び入力部35は、ユーザ端末3の内部において通信バス30を介して電気的に接続されている。通信部31、記憶部32及びプロセッサ33の説明は、情報処理装置2における各部の説明と同様のため省略する。
<表示部34>
表示部34は、ユーザが操作可能なグラフィカルユーザインターフェース(Graphical User Interface:GUI)の画面を表示する。表示部34は、ユーザ端末3筐体に含まれるものであってもよいし、外付けされるものであってもよい。具体的には、表示部34は、CRTディスプレイ、液晶ディスプレイ、有機ELディスプレイ、又はプラズマディスプレイ等の表示デバイスとして実施され得る。これらの表示デバイスは、ユーザ端末3の種類に応じて使い分けて実施されることが好ましい。
<入力部35>
入力部35は、ユーザによってなされた操作入力を受け付ける。操作入力は、命令信号として通信バス30を介してプロセッサ33に転送される。プロセッサ33は、必要に応じて、転送された命令信号に基づいて所定の制御や演算を実行しうる。入力部35は、ユーザ端末3の筐体に含まれるものであってもよいし、外付けされるものであってもよい。例えば、入力部35は、表示部34と一体となってタッチパネルとして実施されてもよい。入力部35がタッチパネルとして実施される場合、ユーザは、入力部35に対してタップ操作、スワイプ操作等を入力することができる。入力部35としては、タッチパネルに代えて、スイッチボタン、マウス、QWERTYキーボード等が採用可能である。
<第1のデータベースDB1、第2のデータベースDB2>
図1に示すように、第1のデータベースDB1は、参照データD0を含む種々のデータを記憶可能に構成されている。参照データD0は、一般に無償で利用可能ないわゆるオープンデータや、利用許諾を得る等の所定の条件を満たした場合に利用可能な限定提供データなど、任意のデータを含み得る。参照データD0は、例えば、人流データ、交通データ、気象データ、SNSによる発信データ、POSデータ、衛星観測データ、インターネット上で公開されている文書データ、画像データ、音声データなどを含み得る。また、第1のデータベースDB1は、ユーザ、又はユーザが所属する組織が管理する情報を記憶していてもよい。当該情報は、当該組織から権限を付与されたユーザのみがアクセス可能に構成されている。第1のデータベースDB1の具体的態様は任意であるが、例えば、ソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして実施され得る。第1のデータベースDB1の数は任意であり、1つであっても複数であってもよい。第1のデータベースDB1は、上記データ以外にも、情報処理装置2やユーザ端末3等の任意のデバイスによって実行される種々のプログラム等を記憶していてもよい。
第2のデータベースDB2は、情報処理装置2によって出力される種々のデータを記憶可能に構成されている。第2のデータベースDB2の具体的態様は任意であり、第1のデータベースDB1と同様に実施され得る。本実施形態では、第2のデータベースDB2は、第1の記憶領域DB21と、第2の記憶領域DB22と、を備える。第1の記憶領域DB21には、情報処理装置2に入力される入力データD1が記憶される。第2の記憶領域DB22には、情報処理装置2から出力されるデータが記憶される。
2.情報処理装置2の機能構成
図4は、プロセッサ23が備える機能部の一例を示す図である。図4に示すように、プロセッサ23は、取得部231と、特定部232と、生成部233と、表示処理部234と、を備える。
<取得部231>
取得部231は、取得ステップを実行可能に構成されている。取得部231は、ユーザ端末3又は他のデバイスからの情報を取得可能に構成されている。例えば、取得部231は、ユーザ端末3や第1のデータベースDB1から入力される入力データD1の入力を取得可能に構成されている。取得部231は、記憶部22の少なくとも一部であるストレージ領域に記憶されている種々のデータを読み出し、読み出されたデータを記憶部22の少なくとも一部である作業領域に書き込むことで、種々のデータを取得可能に構成されている。ストレージ領域とは、例えば、記憶部22のうち、SSD等のストレージデバイスとして実施される領域である。作業領域とは、例えば、RAM等のメモリとして実施される領域である。取得部231は、記憶部32、第1のデータベースDB1、及び第2のデータベースDB2等の情報処理装置2以外のデバイスに記憶されている種々のデータを、記憶部22のストレージ領域に記憶されている種々の情報と同様に取得可能に構成されている。
<特定部232>
特定部232は、取得された種々の情報に基づき、種類特定ステップ、候補特定ステップ、及び処理特定ステップ等の種々の特定ステップを実行可能に構成されている。特定部232は、取得部231によって取得されたデータに関する種々の情報に基づき、情報処理に用いられる候補、情報又は条件などを特定可能に構成されている。
<生成部233>
生成部233は、生成ステップを実行可能に構成されている。生成部233は、種々のデータ、特に構造化データD2を生成可能に構成されている。例えば、生成部233は、取得され、又は特定された種々の情報に基づき予め定められた演算処理を実行することにより、種々のデータを生成する。
<表示処理部234>
表示処理部234は、表示処理ステップを実行可能に構成されている。表示処理部234は、受け付けられ、又は生成されたデータ等に基づき、種々の情報を表示可能に構成されている。当該情報は、ユーザ端末3の表示部34又は他のデバイスを介して、ユーザに提示可能である。かかる場合、例えば、表示処理部234は、画面、静止画又は動画を含む画像、アイコン、メッセージ等の視覚情報を、ユーザ端末3の表示部34に表示させるように制御する。表示処理部234は、視覚情報をユーザ端末3に表示させるためのレンダリング情報だけを生成してもよい。なお、表示処理部234は、ユーザ端末3又は他のデバイスユーザを介さずに、出力された情報をユーザに対して提示してもよい。
3.情報処理について
本節では、情報処理システム1において実行される情報処理について説明する。
3.1.情報処理の流れについて
図5は、情報処理システム1において実行される情報処理の流れの一例を示すアクティビティ図である。なお、当該情報処理は、図示されない任意の例外処理を含みうる。例外処理は、当該情報処理の中断や、各処理の省略を含む。当該情報処理にて行われる選択又は入力は、ユーザによる操作に基づくものでも、ユーザの操作に依らず自動で行われるものでもよい。
[アクティビティA1]
まず、アクティビティA1にて、ユーザ端末3のプロセッサ33は、ユーザからの操作に基づき、アクセス要求を情報処理装置2に送信する。アクセス要求は、ユーザが所有するユーザアカウント名やパスワードなど、ユーザの情報処理装置2へのアクセス権限の有無を示す情報を含み得る。
[アクティビティA2]
情報処理装置2がユーザ端末3からのアクセス要求を受信した場合、情報処理装置2は、アクティビティA2の処理を行い、ユーザ認証を実行する。情報処理装置2は、アクセス要求に含まれる、情報処理装置2へのアクセス権限の有無を示す情報を、予め登録されたユーザ情報と照合することにより、当該ユーザが情報処理装置2にアクセスすることが可能であるか否かを判定する。ユーザ情報は、例えば、記憶部22に記憶されている。ユーザ情報は、例えば、ユーザの氏名、役職、権限等、ユーザに関する任意の情報を含み得る。ユーザ認証の結果、ユーザが情報処理装置2にアクセスすることが不能であると判定された場合、情報処理を終了し、ユーザ端末3を介して再度アクセス要求の入力を受け付ける。
[アクティビティA3]
一方、ユーザ認証の結果、ユーザが情報処理装置2にアクセスすることが可能であると判定された場合、処理がアクティビティA3に進む。アクティビティA3にて、ユーザ端末3は、ユーザからの操作に応じて、データの送信指令を情報処理装置2に出力する。例えば、ユーザ端末3は、ユーザによるデータの入力を受け付けた場合に、当該データを情報処理装置2に送信する旨の送信指令を出力し、当該データを情報処理装置2に送信する。送信指令は、ユーザがアクセス可能な、第1のデータベースDB1に記憶されているデータ、例えば、参照データD0、の取得要求を含み得る。ユーザがアクセス可能であるか否かは、ユーザ情報に基づいて判断される。
[アクティビティA4]
次に、処理がアクティビティA4に進み、取得部231は、アクティビティA3にて受け付けられた送信指令に基づき、記憶部22、記憶部32、第1のデータベースDB1等の種々の情報源から、入力データD1を取得する。例えば、取得部231は、ユーザ端末3から送信されるデータを取得する。また、取得部231は、送信指令に参照データD0の取得要求が含まれている場合、第1のデータベースDB1から参照データD0を取得する。以下、説明の便宜上、アクティビティA4にて取得されるデータを総称して、入力データD1という。入力データD1の単位は、ファイル単位やフォルダ単位など任意である。
本実施形態の入力データD1は、複数種類の非構造化データのうちの少なくとも1つを含む。非構造化データは、構造化データのように標準化された所定のデータ構造を有しない任意の形式のデータである。言い換えれば、構造化データとは、所定のデータ構造を有するデータであり、非構造化データは、構造化データ以外のデータである。所定のデータ構造は、データを管理するために予め定められた規則である。データ構造は、配列、構造体など、ツリー構造などの任意の形式で構造化される。データ構造は、既存の標準規格に則ったものであっても、ユーザや情報処理システム1の提供事業者などによって構築されたものであってもよい。情報処理装置2は、このように構築されたデータ構造のフォーマットを参照可能に構成されている。情報処理装置2は、データ構造のフォーマットを参照することにより、非構造化データを、フォーマットに従ったデータ構造を有する構造化データに変換することができる。なお、当該フォーマットは、記憶部22に記憶されていても、第1のデータベースDB1等の情報処理装置2以外の記憶媒体等に記憶されていてもよい。
本実施形態における構造化データは、半構造化データを含み得る。半構造化データは、非構造化データと、当該非構造化データを識別可能なタグ(言い換えればアノテーション)と、の組み合わせからなる。半構造化データは、識別可能なタグによって構築されるデータ構造によって構造化された構造化データともいえる。半構造化データの形式は、例えば、グラフ型、キーバリュー型、ドキュメント型、カラム型などである。また、半構造化データの形式は、データ記述言語(例えばjson形式)、マークアップ言語(例えばxml形式)など、所定のコンピュータ言語を用いて表現される形式を含む。例えば、非構造化データの種類は、画像、動画、音声、三次元空間データ、及び時系列データのうちの少なくとも1つを含む。なお、非構造化データの種類はこれに限られず、データ構造を有しない文書データや、二次元図面データなどを含み得る。
[アクティビティA5]
次に、処理がアクティビティA5に進み、取得部231は、取得された入力データD1を、第2のデータベースDB2の第1の記憶領域DB21に格納する。第1の記憶領域DB21は、取得した生データを格納する、いわゆるデータレイクとして機能し得る。また、取得部231は、格納された入力データD1に関する情報を取得する。当該情報は、例えば、入力データD1が第1の記憶領域DB21のどこに記憶されているか(例えば、ファイルパス)、入力データD1が第1の記憶領域DB21に記憶されたタイミング(例えば、タイムスタンプ)、入力データD1のバージョン情報などを含み得る。情報処理装置2は、これらの情報に基づき第1の記憶領域DB21に格納されている入力データD1にアクセスすることができる。
[アクティビティA6]
次に、処理がアクティビティA6に進み、特定部232は、入力データD1の形式に基づき、入力データD1に含まれる、少なくとも1つの非構造化データの種類を特定する。入力データD1の形式は、入力データD1の拡張子を含む。例えば、特定部232は、予め定められた拡張子と非構造化データの種類との対応関係を用いて、入力データD1の拡張子に基づき、入力データD1に含まれる非構造化データの種類を特定する。これにより、情報処理システム1が非構造化データの種類を特定する際の処理負荷を軽減することができる。なお、非構造化データの種類の特定方法はこれに限られず任意である。例えば、特定部232は、特定種類の非構造化データを処理可能なソフトウェアで処理可能か否かに基づき、非構造化データの種類を特定してもよい。
[アクティビティA7]
次に、処理がアクティビティA7に進み、特定部232は、特定された非構造化データの種類に基づき、入力データD1に対して行われる変換処理が属するカテゴリCの候補を特定する。
<変換処理>
変換処理は、非構造化データを構造化データに変換するための一連の処理である。情報処理装置2は、変換処理を実行することにより、非構造化データを含む入力データD1を構造化データに変換することができる。変換処理は、画像認識処理、音声認識処理、時系列処理、自然言語処理など、非構造化データから特徴量を抽出可能な任意の処理を含む。変換処理としては、教師あり学習、教師なし学習、強化学習など任意のアルゴリズムのものを採用可能である。
変換処理は、分析処理を含み得る。分析処理は、抽出された特徴量や特徴量の統計分布などを入力として所定の分析結果を出力する処理である。分析処理は、例えば、分類分析、回帰分析、時系列分析、レコメンド分析、異常検知、クラスタリング、画像解析、及びテキスト解析などを含み得る。情報処理装置2は、当該分析処理による分析結果を、入力データD1を特徴づける特徴量として取得してもよい。
<カテゴリC>
カテゴリCは、指定カテゴリC1、用途カテゴリC2、収集カテゴリC3などを含む。
<指定カテゴリC1>
指定カテゴリC1は、画像、動画、音声、文書、3次元データなど、非構造化データの種類によって規定される。ユーザが入力データD1に含まれる非構造化データの種類を予め把握している場合、ユーザは、指定カテゴリC1を指定することにより、入力データD1に含まれる非構造化データの種類を直接指定することができる。これにより、ユーザの便宜を図ることができる。
<用途カテゴリC2>
用途カテゴリC2は、入力データD1の用途によって規定されている。入力データD1の用途としては、例えば、従業員情報を含む非構造化データを含む入力データD1(例えば、履歴書や報告書など)を用いたIDプラットフォームの構築や、請求書等の会計資料を用いた財務分析などが挙げられる。これにより、ユーザによる入力データD1の利用態様に応じた変換処理の特定が容易となる。
<カテゴリC3>
収集カテゴリC3は、入力データD1の収集態様によって規定される。収集カテゴリC3は、例えば、自然会話を含むか否か、入力データD1の収集手段や情報源などにより分類される。これにより、ユーザが入力データD1の収集態様を把握している場合、ユーザが当該入力データD1に応じて適切な収集カテゴリを指定することによって、変換処理の特定精度を向上させることができる。入力データD1の収集手段とは、例えば、センサの種類、センサの規格、センサによる測定対象などにより特定される。情報源とは、例えば、情報の提供事業者、提供時期、収集に用いられたウェブサイト(例えば、URLやSNSの種類)などによって特定される。
なお、上記複数のカテゴリC1,C2,C3と、当該複数のカテゴリC1,C2,C3のそれぞれに属する変換処理との対応関係は、例えば、記憶部22に記憶されている。当該対応関係は、ユーザによって設定されても、情報処理システム1の提供主体によって設定されても、機械学習等を用いて導出される分類によって設定されてもよい。特定部232は、当該対応関係を用いて、変換処理が属するカテゴリCの候補を特定する。
[アクティビティA8]
次に、処理がアクティビティA8に進み、ユーザ端末3は、特定されたカテゴリCの候補に関する情報を表示部34に表示させる。
[アクティビティA9]
次に、処理がアクティビティA9に進み、ユーザ端末3は、ユーザによるカテゴリCの指定を受け付ける。次に、ユーザ端末3は、受け付けたカテゴリCの指定を情報処理装置2に送信する。
[アクティビティA10]
次に、処理がアクティビティA10に進み、取得部231は、送信された、ユーザからのカテゴリCの指定を取得する。
[アクティビティA11]
次に、処理がアクティビティA11に進み、特定部232は、取得された当該指定に基づき、指定されたカテゴリCに属する変換処理を特定する。特定部232は、指定されたカテゴリCに属する変換処理のうちの少なくとも一部を、入力データD1に対して行う変換処理として特定する。変換処理を特定することは、複数の変換処理のうちのどの変換処理を用いるかを特定することに限られず、入力データD1に対して行われる変換処理の順序なども含み得る。
[アクティビティA12]
次に、処理がアクティビティA12に進み、生成部233は、取得された入力データD1に対して、特定された非構造化データの種類に応じた変換処理を行う。これにより、生成部233は、所定のデータ構造を有する第1の構造化データD21を生成する。本実施形態では、第1の構造化データD21は、1つの入力データD1(例えば、ファイルごとやフォルダごとの入力データD1)に対して少なくとも1つ生成される。生成部233は、生成された第1の構造化データD21や、入力データD1を第2のデータベースDB2の第2の記憶領域DB22に格納する。第2の記憶領域DB22は、生成された構造化データを格納する、いわゆるデータウェアハウス(DWH)として機能し得る。また、取得部231は、格納された第1の構造化データD21に関する情報を取得する。当該情報は、例えば、第1の構造化データD21が第2の記憶領域DB22のどこに記憶されているか(例えば、ファイルパス)、第1の構造化データD21が第2の記憶領域DB22に記憶されたタイミング(例えば、タイムスタンプ)、第1の構造化データD21のバージョン情報などを含み得る。取得部231は、これらの情報に基づき第2の記憶領域DB22に格納されている第1の構造化データD21にアクセスすることができる。また、生成部233は、入力データD1と第1の構造化データD21との対応関係を生成し、例えば、第2の記憶領域DB22に格納する。これにより、情報処理装置2による第1の構造化データD21の情報源の参照が高速化される。以下、説明の便宜上、生成部233によって生成される構造化データや第2の記憶領域DB22に格納される構造化データを総称して、「構造化データD2」と表記する。
[アクティビティA13]
次に、複数の入力データD1が生成され、生成された第1の構造化データD21が複数存在する場合、処理がアクティビティA13に進み、生成部233は、複数の第1の構造化データD21を結合する結合処理を行う。これにより、生成部233は、第2の構造化データD22を生成する。なお、第1の構造化データD21が複数でない場合、例えば、第1の構造化データD21が単数である場合、生成部233は、当該結合処理を省略してもよい。また、生成部233は、生成された第1の構造化データD21が複数存在する場合であっても、ユーザの操作に応じて結合処理を実行するか否かを決定してもよい。これにより、ユーザの意に反して第1の構造化データD21が結合されることを抑制することができる。
生成された第1の構造化データD21が複数存在する場合とは、1度の変換処理によって生成された第1の構造化データD21が複数存在する場合に限られない。例えば、過去の変換処理によって生成され、第2の記憶領域DB22に格納されている第1の構造化データD21が複数存在する場合やこれらを組み合わせた場合も、生成された第1の構造化データD21が複数存在する場合に該当し得る。
第2の構造化データD22の数は、結合処理が行われる第1の構造化データD21の数より少ない。例えば、生成部233は、結合処理を行うことにより、全ての第1の構造化データD21が結合された、単一の第2の構造化データD22を生成する。なお、第1の構造化データD21のデータ構造と第2の構造化データD22のデータ構造とは互いに対応関係がある。好ましくは、第2の構造化データD22のデータ構造は、結合される複数の第1の構造化データD21が有するデータ構造を含む。
具体例として、結合処理の対象となるある第1の構造化データD21がデータ構造として第1の成分と第2の成分とによって構成される配列(第1の成分、第2の成分)=(A1,B1)によって現され、結合処理の対象となる他の第1の構造化データD21がデータ構造として第2の成分と第3の成分とによって構成される配列(第2の成分、第3の成分)=(B2,C2)によって表される場合について説明する。この場合、生成部233は、これらの第1の構造化データD21に対して結合処理を行うことにより、データ構造として第1の成分、第2の成分、及び第3の成分を含む構造体を有する第2の構造化データD22を生成する。第2の構造化データD22の表現形式は任意であるが、例えば、(第1の成分、第2の成分、第3の成分)として、(A1,B1,0)という配列と(0、B2,C2)という配列のそれぞれを行又は列の成分として含む行列として表現可能である。
生成部233は、結合処理によって生成された第2の構造化データD22を、入力データD1と第2の構造化データD22との対応関係とともに第2の記憶領域DB22に格納する。第2の構造化データD22及び当該対応関係の具体的な格納態様は、例えば、第1の構造化データD21等の格納態様と同様である。なお、生成部233は、第1の構造化データD21とは別に第2の構造化データD22を第2の記憶領域DB22に格納しても、第1の構造化データD21に代えて第2の構造化データD22を第2の記憶領域DB22に格納してもよい。第2の構造化データD22は、構造化データD2の一態様である。
[アクティビティA14]
次に、処理がアクティビティA14に進み、表示処理部234は、表示処理を実行する。これにより、表示処理部234は、構造化データの要素をユーザによって編集可能な編集領域R1を含む画像を表示部34に表示させる。なお、編集領域R1によって編集可能な構造化データは、第1の構造化データD21であっても、第2の構造化データD22であってもよい。好ましくは、編集領域R1によって編集可能な構造化データD2は、第2の記憶領域DB22に格納されている最新の構造化データD2であり、結合処理が行われた場合は第2の構造化データD22である。以下、説明の便宜上、編集領域R1によって編集される構造化データは、第2の構造化データD22であるものとして取り扱う。編集領域R1は、第2の構造化データD22の各要素が視認可能な編集視覚情報IF1によって編集可能に構成されていても、文字列等によって規定されるコマンドの入力によって第2の構造化データD22の要素を編集可能に構成されていてもよい。生成部233は、編集領域R1に対する操作に応じて、構造化データ(詳細には第2の構造化データD22)の編集態様を指示する編集指令を生成する。
[アクティビティA15]
次に、処理がアクティビティA15に進み、取得部231は、生成された編集指令に応じて、第2の構造化データD22に対して編集処理を行う。これにより、生成部233は、第2の構造化データD22の要素が編集された、第3の構造化データD23を生成する。第3の構造化データD23は、構造化データD2の一態様である。
生成部233は、編集処理によって生成された第3の構造化データD23を、入力データD1と第3の構造化データD23との対応関係とともに第2の記憶領域DB22に格納する。第3の構造化データD23及び当該対応関係の具体的な格納態様は、例えば、第1の構造化データD21等の格納態様と同様である。なお、生成部233は、第1の構造化データD21とは別に第2の構造化データD22を第2の記憶領域DB22に格納しても、第1の構造化データD21に代えて第2の構造化データD22を第2の記憶領域DB22に格納してもよい。
編集処理の終了後、情報処理システム1は、情報処理を終了する。
3.2.情報処理の結果として表示される画像について
本節では、上記情報処理が行われた結果、表示部34に表示される画像について説明する。当該画像は、第1の画像IM1と、第2の画像IM2と、第3の画像IM3と、第4の画像IM4と、を含む。
<第1の画像IM1>
図6は、表示部34に表示される第1の画像IM1の一例を示す図である。第1の画像IM1は、例えば、アクティビティA3の処理の際に表示部34に表示される。第1の画像IM1は、第1のウィンドウ4と、第2のウィンドウ5と、を含む。
<第1のウィンドウ4>
第1のウィンドウ4は、変換処理の対象となる入力データD1に関する情報を表示可能に構成されている。入力データD1に関する情報とは、例えば、入力データD1の名称(いわゆるファイル名)、第1のウィンドウ4は、入力データ検索領域41と、入力データリスト表示領域42と、第1の操作領域43と、を含む。
<入力データ検索領域41>
入力データ検索領域41は、検索条件を入力することにより入力データD1を検索可能に構成されている。また、入力データ検索領域41は、入力データD1に関する情報を検索項目として指定可能に構成されている。これにより、複数の入力データD1が入力されている場合に、上記情報処理を行う入力データD1の指定が容易となる。なお、入力データ検索領域41は、参照データD0を検索対象に含めるか否かを検索条件として検索可能に構成されていてもよい。これにより、目的に応じた参照データD0の利活用が容易となる。
<入力データリスト表示領域42>
入力データリスト表示領域42には、変換処理の対象となる入力データD1の候補が一覧可能に表示される。入力データ検索領域41を用いた検索が行われている場合、入力データリスト表示領域42には、上記入力データD1の候補のうち、検索条件に適合する入力データD1が一覧可能に表示される。入力データリスト表示領域42は、ユーザによる情報処理を行う入力データD1の指定を受付可能に構成されている。情報処理システム1は、入力データリスト表示領域42にて指定された入力データD1に対して変換処理等を実行することで、第1の構造化データD21等を生成する。
<第1の操作領域43>
第1の操作領域43は、変換処理の対象となる入力データD1を追加するためのUIであり、例えば、図示されるようなボタン型のオブジェクトである。第1の操作領域43は、ボタン型のオブジェクトに代えて、テキストのハイパーリンクが採用されてもよい。第1の操作領域43の操作によって、第2のウィンドウ5が表示される。
<第2のウィンドウ5>
第2のウィンドウ5は、変換処理の対象となる入力データD1を追加可能に構成されている。第2のウィンドウ5は、形式指定領域51と、少なくとも1つの第1の入力データ表示領域52と、第2の操作領域53と、を含む。
<形式指定領域51>
形式指定領域51は、追加される入力データD1の形式をユーザによって指定可能に構成されている。例えば、追加される入力データD1が、請求書を表す画像データである場合、当該入力データD1の形式を請求書形式に指定可能に構成されている。特定部232は、指定された入力データD1の形式に応じて、入力データD1に対して行う変換処理が属するカテゴリの候補を特定してもよい。また、例えば、特定部232は、変換処理としてアノテーションの付与を行うに際し、指定された請求書形式に応じた当該アノテーションの候補を、カテゴリの候補として特定してもよい。また、特定部232は、追加された入力データD1が請求書を表すものである、という情報をアノテーションとして付与してもよい。
<第1の入力データ表示領域52>
第1の入力データ表示領域52の1つは、追加される入力データD1を指定可能に構成されている。例えば、ユーザは、第1の入力データ表示領域52を操作することにより追加される入力データD1を指定する。また、第1の入力データ表示領域52の1つは、指定された入力データD1を視覚的に表現する画像を、プレビュー画像として表示可能に構成されている。また、第1の入力データ表示領域52は、追加される入力データD1の第1の記憶領域DB21内での保存先を指定可能に構成されている。さらに、第1の入力データ表示領域52の1つは、第1の記憶領域DB21内に格納される入力データD1の名称を指定可能に構成されている。
<第2の操作領域53>
第2の操作領域53は、指定された入力データD1の追加を実行するか否かを指定可能に構成されたUIであり、例えば、図示されるようなボタン型のオブジェクトである。第2の操作領域53は、ボタン型のオブジェクトに代えて、テキストのハイパーリンクが採用されてもよい。
<第2の画像IM2>
図7は、表示部34に表示される第2の画像IM2の一例を示す図である。第2の画像IM2は、ユーザがカテゴリCを指定するための画像である。第2の画像IM2は、アクティビティA8の処理の際に表示される。第2の画像IM2は、少なくとも1つのカテゴリ指定領域6を含む。
<カテゴリ指定領域6>
カテゴリ指定領域6は、ユーザがカテゴリCを指定可能なUIである。詳細には、カテゴリ指定領域6は、指定カテゴリC1として、画像並びに動画、音声、及び三次元空間データのいずれかを指定可能に構成されている。また、カテゴリ指定領域6は、用途カテゴリC2として、IDプラットフォーム、地理空間、及びOCR処理のいずれかを指定可能に構成されている。カテゴリ指定領域6は、収集カテゴリC3として、センサによる収集、SNSからの収集、及び自然会話を対象とする収集のいずれかを指定可能に構成されている。入力データD1に含まれる非構造化データの種類に応じて推奨されるカテゴリCに対応するカテゴリ指定領域6の表示態様は、他のカテゴリCに対応するカテゴリ指定領域6の表示態様と異なる。具体的には、推奨されるカテゴリCに対応するカテゴリ指定領域6の輪郭は、強調表示L1によってユーザが他のカテゴリ指定領域6に比べて視認しやすく構成されている。なお、当該表示態様の差異は、輪郭に限られず、色、大きさなどによって実現されてもよい。カテゴリCが指定された後、アクティビティA10~アクティビティA12の処理が行われ、入力データD1が生成される。その後、変換処理が第3の画像IM3が表示部34に表示される。
<第3の画像IM3>
図8は、表示部34に表示される第3の画像IM3の一例を示す図である。第3の画像IM3は、第2の構造化データD22に関する情報を表示可能に構成されている。第3の画像IM3は、第2の入力データ表示領域7と、構造化データ表示領域8と、第1の保存操作領域9と、を含む。
<第2の入力データ表示領域7>
第2の入力データ表示領域7には、生成された入力データD1に関する情報が表示される。本実施形態では、第2の入力データ表示領域7には入力データD1に含まれる請求書の画像が表示される。
<構造化データ表示領域8>
構造化データ表示領域8には、生成された構造化データD2に関する情報が表示される。詳細には、構造化データ表示領域8には、生成された構造化データD2に含まれる要素が一覧可能に表示される。表示態様は、グラフ形式、木構造形式、表形式など、データ構造に応じて決定されればよい。本実施形態では、構造化データD2の要素が二次元の表形式で一覧可能に表示されている。
アクティビティA13の結合処理が行われた場合、構造化データ表示領域8は、第1の領域81と、第2の領域82と、を含む。第1の領域81及び第2の領域82のそれぞれには、結合処理によって生成された第2の構造化データD22のうち、異なる入力データD1の要素が表示される。特に、第1の領域81には、最新の変換処理によって生成された第1の構造化データD21の要素が表示される。第1の領域81の表示態様と第2の領域82の表示態様は、互いに異なる。これにより、第1の領域81と第2の領域82とは視覚的に区別可能に構成されている。例えば、第1の領域81の色は、第2の領域82の色と異なる。なお、アクティビティA13の結合処理が行われない場合、構造化データ表示領域8には、入力データD1に対応する第1の構造化データD21が表示される。この場合、構造化データ表示領域8は、第1の領域81及び第2の領域82のいずれか一方のみを含んでもよい。
本実施形態の構造化データ表示領域8は、編集領域R1としても機能し得る。例えば、構造化データ表示領域8に表示される第2の構造化データD22の要素に対してユーザが編集操作を行うことにより、第3の構造化データD23を生成することが可能である。この場合、構造化データ表示領域8は、第2の構造化データD22の各要素が視認可能な編集視覚情報IF1として機能する。
<第1の保存操作領域9>
第1の保存操作領域9は、入力データD1に対応する構造化データD2の保存を指示するためのUIであり、例えば、図示されるようなボタン型のオブジェクトである。第2の操作領域53は、ボタン型のオブジェクトに代えて、テキストのハイパーリンクが採用されてもよい。第1の保存操作領域9が操作されることにより、アクティビティA13の処理が行われる。これにより、構造化データ表示領域8に表示されている構造化データD2(例えば、第2の構造化データD22)が第2の記憶領域DB22に格納される。その後、第4の画像IM4が表示部34に表示される。
<第4の画像IM4>
図9は、表示部34に表示される第4の画像IM4の一例を示す図である。第4の画像IM4は、生成された構造化データD2(例えば、第2の構造化データD22)を編集するための画像である。第4の画像IM4は、構造化データ検索領域10と、構造化データ編集領域11と、編集結果表示領域12と、第2の保存操作領域13と、を含む。
<構造化データ検索領域10>
構造化データ検索領域10は、検索条件入力領域101と、検索結果表示領域102と、データセット追加領域103と、を含む。
<検索条件入力領域101>
検索条件入力領域101は、第2の記憶領域DB22内に格納されている構造化データD2を検索するための検索条件を入力可能に構成されている。検索条件は、文字列によって指定されても、構造化データD2の容量や生成日などによって指定されてもよい。
<検索結果表示領域102>
検索結果表示領域102は、検索条件入力領域101に入力された検索条件に合致する構造化データD2の一覧を表示可能に構成されている。検索結果表示領域102は、検索結果に表示された構造化データD2の指定を受付可能に構成されている。
<データセット追加領域103>
データセット追加領域103は、検索結果表示領域102にて指定された構造化データD2の編集を開始するためのUIであり、例えば、図示されるようなボタン型のオブジェクトである。データセット追加領域103は、ボタン型のオブジェクトに代えて、テキストのハイパーリンクが採用されてもよい。
<構造化データ編集領域11>
構造化データ編集領域11は、データセット追加領域103の操作によって開始された構造化データD2を編集可能に構成されている。構造化データ編集領域11は、コマンド入力領域111と、コマンド記憶領域112と、コマンド実行領域113と、を含む。
<コマンド入力領域111>
コマンド入力領域111は、構造化データD2に対する編集に関する入力を行うための領域であり、編集領域R1の一態様である。コマンド入力領域111は、ユーザからの編集に関する入力をコマンドとして受付可能に構成されている。コマンドは、例えば構造化データD2の選択、構造化データD2の要素の選択、構造化データD2の要素の変更、構造化データD2の要素の削除、複数の構造化データD2の結合など、任意の編集に関するものを含み得る。
<コマンド記憶領域112>
コマンド記憶領域112は、コマンド入力領域111に入力されたコマンドを記憶するためのUIである。コマンド記憶領域112がユーザによって操作されることにより、当該コマンドのログが生成される。
<コマンド実行領域113>
コマンド実行領域113は、コマンド入力領域111に入力されたコマンドを実行するためのUIである。コマンド実行領域113が操作されることにより、第3の構造化データD23が生成される。
<編集結果表示領域12>
編集結果表示領域12は、コマンド実行領域113の操作によって編集された構造化データD2、すなわち第3の構造化データD23に関する情報を表示可能に構成されている。本実施形態では、編集結果表示領域12は、当該第3の構造化データD23の要素を一覧可能に構成されている。特に、編集結果表示領域12は、構造化データ編集領域11と一覧可能な態様で表示されている。これにより、構造化データ編集領域11による編集操作と当該編集操作の結果との対応関係が把握しやすくなる。そのため、ユーザにとっての利便性が向上する。
<第2の保存操作領域13>
第2の保存操作領域13は、構造化データ編集領域11に入力された編集操作によって生成された第3の構造化データD23を保存するためのUIである。第2の保存操作領域13が操作されることにより、生成された第3の構造化データD23が第2の記憶領域DB22に格納される。
4.その他
上記情報処理の態様はあくまで一例であり、これに限られない。例えば、図5に示される表示処理(アクティビティA14)は、結合処理(アクティビティA13)に組み込まれてもよい。例えば、図8に示される構造化データ表示領域8に表される要素が、ユーザによって編集可能に構成されていてもよい。この場合、第2の構造化データD22と第3の構造化データD23との区別は不要である。また、編集処理は、ユーザの操作によって行われる結合処理を含んでもよい。
情報処理システム1は、過去に実行された入力データD1に対する処理に基づいて、データフローを生成してもよい。データフローは、同一の情報源から取得される入力データD1に行われる変換処理、結合処理、及び編集処理の少なくとも1つを含む。これにより、同一の情報源から取得可能な入力データD1を構造化データD2に変換する際の手間が軽減される。当該データフローは、ユーザによって変更可能に構成されていてもよい。これにより、ユーザの入力データD1の取扱態様に応じて最適なデータフローを構築しやすくなる。
情報処理システム1は、上記データフローに基づく処理を実行するタイミングを指定可能に構成されていてもよい。言い換えれば、情報処理システム1は、上記データフローを実行するためのスケジュールを指定可能に構成されていてもよい。これにより、当該処理を行う際にユーザがユーザ端末3を逐次操作する必要がなくなるため、データフローに基づく処理によって生成される構造化データD2の管理が容易となる。
特定部232は、指定されたカテゴリCに属する変換処理の中から、入力データD1に対して実行する変換処理を特定しなくてもよい。例えば、特定部232は、入力データD1に含まれる非構造化の種類に基づき、実行可能な全変換処理のなかから入力データD1に対して実行する変換処理を特定してもよい。
指定カテゴリC1、用途カテゴリC2、及び収集カテゴリC3の区別は、便宜的なものであり、これに限られない。例えば、指定カテゴリC1及び用途カテゴリC2の両方に属する変換処理が存在してもよい。
上記情報処理は、アクティビティA11にて変換処理を特定し、アクティビティA12にて特定された変換処理を実行することにより、構造化データD2(詳細には第1の構造化データD21)を生成すればよい。したがって、上記情報処理は、アクティビティA13の結合処理、アクティビティA14の表示処理、アクティビティA15の編集処理などを含んでいなくてもよい。なお、生成部233が当該変換処理を行うことによって第1の構造化データD21を生成することは、生成部233を含む情報処理装置2が自ら変換処理を行うことによって第1の構造化データD21を生成することに限られない。例えば、生成部233が当該変換処理を行うことによって第1の構造化データD21を生成することは、情報処理装置2が特定された変換処理に関する情報を他のデバイスに送信することで、他のデバイスに当該変換処理を実行させることで第1の構造化データD21を生成することを含む。
情報処理装置2は、オンプレミス形態であってもよく、クラウド形態であってもよい。クラウド形態の情報処理装置2としては、例えば、SaaS(Software as a Service)、クラウドコンピューティングという形態で、上述の機能や処理を提供してもよい。
上記実施形態では、情報処理装置2が種々の記憶・制御を行ったが、情報処理装置2に代えて、複数の外部装置が用いられてもよい。すなわち、種々の情報やプログラムは、ブロックチェーン技術等を用いて複数の外部装置に分散して記憶されてもよい。
本実施形態の態様は、情報処理システム1に限定されず、情報処理方法であっても、情報処理プログラムであってもよい。情報処理方法は、情報処理システム1の各ステップを含む。情報処理プログラムは、少なくとも1つのコンピュータに、情報処理システム1の各ステップを実行させる。
上記情報処理システム1等は、次に記載の各態様で提供されてもよい。
(1)情報処理システムであって、次の各ステップがなされるようにプログラムを実行可能なプロセッサを備え、取得ステップでは、入力データを取得し、ここで、前記入力データは、複数種類の非構造化データのうちの少なくとも1つを含み、種類特定ステップでは、取得された前記入力データの形式に基づき、前記入力データに含まれる、少なくとも1つの前記非構造化データの種類を特定し、生成ステップでは、取得された前記入力データに対して、特定された前記非構造化データの種類に応じた変換処理を行うことにより、所定のデータ構造を有する第1の構造化データを生成する、もの。
このような構成によれば、情報処理システムが非構造化データから構造化データを生成する際に、入力データに含まれる非構造化データに応じて適切な変換処理が行われる。したがって、非構造化データの種類によって適切な変換処理が異なる場合であっても、非構造化データを構造化データに変換するに際し、ユーザに求められるデータサイエンスに関する専門性を緩和することができる。
(2)上記(1)に記載の情報処理システムにおいて、さらに、候補特定ステップでは、特定された前記非構造化データの種類に基づき、前記入力データに対して行われる前記変換処理が属するカテゴリの候補を特定し、前記取得ステップでは、ユーザによる前記カテゴリの指定を取得し、さらに、処理特定ステップでは、前記指定に基づき、指定された前記カテゴリに属する前記変換処理を特定する、もの。
このような構成によれば、情報処理システムは、変換処理を特定する際にユーザによるカテゴリの指定を用いることで、ユーザの要求に即した適切な変換処理を特定しやすくなる。したがって、利便性の向上を図ることができる。
(3)上記(2)に記載の情報処理システムにおいて、前記カテゴリは、前記入力データの収集態様によって規定される収集カテゴリを含む、もの。
このような構成によれば、ユーザが入力データの収集態様を把握している場合、ユーザが当該入力データに応じて適切な収集カテゴリを指定することによって、変換処理の特定精度を向上させることができる。
(4)上記(1)~(3)の何れか1つに記載の情報処理システムにおいて、前記生成ステップでは、生成された前記第1の構造化データが複数存在する場合、複数の前記第1の構造化データの少なくとも一部を結合することで第2の構造化データを生成する、もの。
このような構成によれば、複数の第1の構造化データがまとめられるため、構造化データの管理負担が軽減される。
(5)上記(1)~(4)の何れか1つに記載の情報処理システムにおいて、さらに、表示処理ステップでは、前記構造化データの要素をユーザによって編集可能な編集領域を表示させる、もの。
このような構成によれば、非構造化データの変換によって生じ得るノイズを、構造化データの編集によって修正することが可能となる。したがって、利便性の向上を図ることができる。
(6)上記(1)~(5)の何れか1つに記載の情報処理システムにおいて、前記入力データの形式は、前記入力データの拡張子を含む、もの。
このような構成によれば、入力データの拡張子という比較的小さい情報量から、非構造化データの種類が特定される。したがって、情報処理システムが種類特定ステップを実行する際の処理負荷を軽減することができる。
(7)上記(1)~(6)の何れか1つに記載の情報処理システムにおいて、前記非構造化データの種類は、画像、動画、音声、三次元空間データ、及び時系列データのうちの少なくとも1つを含む、もの。
このような構成によれば、非構造化データの大半を占める入力データを構造化データに変換することができるため、さらなる利便性の向上を図ることができる。
(8)情報処理方法であって、上記(1)~(7)の何れか1つに記載の情報処理システムの各ステップを含む、方法。
(9)情報処理プログラムであって、少なくとも1つのコンピュータに、上記(1)~(7)の何れか1つに記載の情報処理システムの各ステップを実行させる、もの。
もちろん、この限りではない。
さらに、以下の観点にも留意されたい。
コンピュータの発明と普及、及びインターネットと通信技術の発明と発達により、大量のデータが蓄積され続け、世界の総データ量はこの10年で10倍以上になった。そのうえ、多くのデータベースが運用されるようになり、必要とするデータがどのデータベースに蓄積されているのかを知ることも困難になってきた。
増大したデータ活用に立ちはだかる別の困難も存在する。すなわち、構造化されていない多くのデータの存在である。ここで、構造化されていない非構造化データとは、形式と意味が定義されていない、あるいは定義が不完全なテキストデータ、例えば、音声データ、画像データ、動画データ、センサデータなどである。企業内データの80%が非構造化データであると言われる。非構造化データの典型例として音声データが挙げられるが、これを意味あるデータとしてコンピュータで処理できるようにするためには、近年の発展が著しい音声認識、自然言語処理だけでなく、記号化したデータに対する意味付与が必要である。
現時点では、データの収集、非構造化データからのデータ抽出、正規化、意味づけ、相互関連付け、分類など、データの意味に関わる情報処理技術は未成熟であり、専門家による作業を必要とする。
このような現状に鑑み、本発明は、専門家に依存することなくデータの収集と非構造化データの構造化データへの変換を含む、データの収集・変換・加工・活用を行う情報処理装置、システム、方法及びプログラム、同プログラムが記憶された記録媒体を提供することを課題とする。
本発明は、専門家の介在なしにインターネットでアクセス可能なあらゆるデータを収集・蓄積し、加工し、分析し、利用する技術を提供する。すなわち、本願発明の代表的な態様に係る情報処理方法は、外部データを含むデータへ接続されるステップと、データが収集されるステップと、データが変換されるステップと、データが前処理されるステップと、データが加工されるステップと、タスクが管理されるステップと、活用のためにデータが表示されるステップと、データの全体管理が含まれる統合化された技術が提供され、各ステップにおいて事業特性に応じたテンプレートが用いられることで専門家に頼らない実行が可能にされ、非構造化データの構造化データへの変換においては、ファイル拡張子に基づくデータ属性の推定、テキストマイニング、自然言語処理、画像解析、動画解析、アノテーションの付与、及びメタ情報の付与等が行われるステップとを備える。
本発明により、外部データを含むデータへの接続、データ収集、データ変換、データ前処理、データ加工、タスク管理、データ活用、データの全体管理を含む、統合化された技術が提供される。
データ接続・収集は、各企業や組織が必要とするデータがどこにあり、どのように収集したら良いかを知るには専門知識が必要である。本発明では、これを誰でも行えるようにするために事業特性に応じた基盤テンプレートをあらかじめ用意し、これを本技術の利用者が選択することで社内・組織内及び社外・組織外のデータへの接続と収集を行う。さらに自動的な接続だけでなく、利用者の意図を反映させて接続されてもよい。
データの接続では、利用者が選択したテンプレート等に基づき、接続すべきデータに接続が行われる。このとき、明示的にデータベースやファイルの指定を行わなくてもよいが、提示されたリストから選択したりURLを入力するなど、利用者が明示的に指定することも本発明の範囲である。
一般には、接続先には複数種類のデータが蓄積されている。この中からどのデータに接続するかも上記テンプレートに基づいて行う。さらに、リストから利用者が選択してもよい。
上記接続後に収集されるデータは、接続可能な社内・組織内データ、及び社外データのすべて又は一部を含む。さらに、構造化されているデータだけでなく、音声データや画像。動画データ、チャットデータに代表されるような非構造化データなどを含む。
データ変換では、テキストマイニング、自然言語処理、画像解析、動画解析、アノテーションの付与、メタ情報の付与等を行うがこれらに限られない。
データ加工は、まずファイル拡張子を手掛かりにして、例えば、動画、音声、文書、センサなどのどれであるのかを推定し、分類する。次に、利用者が選択した前記テンプレートに基づいてデータ加工を行う。ここで、より確実正確な加工を実現するために、利用者が欲するデータが指定される方式も本発明の範囲である。
前記データ加工は、データの選択、結合、分割、集計、フィルタリングが含まれるが、これらに限らない。
データの選択では、収集と変換されたデータから移行の処理に必要なものを選択する。この選択はテンプレートで規定されて利用者が介在しない場合と、利用者が介在する形で行われる場合の両方及び/又はいずれかを含む。
データの結合と分割では、選択されたデータにおいて、組み合わせるべきもの、あるいは分割すべきものの処理を行う。例えば、複数店舗の売り上げデータが選択された場合、それを地域ごとに結合(まとめ)たり、あるいは、一店舗のデータを時間や曜日に分割したりする。
データの結合は、複数店舗の売り上げを結合するような単純なものから、利用者の目的に合わせた複雑な論理式で結合されるものも含む。どのような結合方法が行われるかは、テンプレートで規定されて利用者が介在しない場合と介在する場合とを含む。
データのフィルタリングでは、特定の条件に合致するものだけを抽出する。ここでは、ひとまとまりのデータから、特定の条件に基づいて抽出することを含む。
上記のフィルタリングでは同じデータベースの中のデータフィールドによって構成される条件式に限らず、他のデータベースと組み合わせてフィルタリングを行う方法も本発明に含まれる。
一般に、社内外、組織内外を問わず、異なるデータベースから収集されたデータの形式は異なる。データの前処理では、以降の処理のためにこれらを整える。
上記のような前処理は単純な例あるが、例えば自然言語では同じ意味に対して複数の表現が存在する。これらを意味的に同一であるとして処理するための複雑な前処理も含む。
データ活用では、上記のようにデータ接続、データ収集、データ変換、データ前処理、データ加工が行われたデータの表示と、それを利用者が活用して検討するためのシステムが含まれる。
本情報処理装置では上記に加えて、タスク管理機能を有する。たとえばデータベースによっては更新サイクルやタイミングが存在するので、それに合わせたデータ収集が必要になるし、一方、データ活用においては利用者による定期的、定時的アクセルが存在する。このような本情報処理システムにおいて必要になる時間的要素を考慮して、タスク管理が本情報処理システムの管理を行う。
データの全体管理では、本情報処理システムが扱うデータとソフトウェアのセキュリティの管理、データのバックアップ、データの保護、アクセス制御、及び基盤運用を行う。
本情報処理装置において、データへの接続、データ収集、データ変換、データ前処理、データ加工、タスク管理、データ活用、データの全体管理の各サブシステムにおいて、AIや深層学習を含む機械学習の手段を用いることも本発明の範囲である。
そこで、上記課題を解決するために、本発明の第1の態様に係る情報処理方法は、専門家の介在無しに、利用者の属性及び/又は目的に基づいて接続すべきデータベースが決定されるステップと、選択されたデータベースへの接続が行なわれるステップと、利用者の属性及び/又は目的に応じて接続されたデータベースからデータが収集されるステップと、収集されたデータが利用者の属性及び/又は目的に応じて変換されるステップと、変換されたデータが利用者の属性及び/又は目的に応じて前処理されるステップと、前処理されたデータが利用者の属性及び/又は目的に応じて加工されるステップと、加工されたデータが利用者の属性及び/又は目的に応じて表示されるステップとを備えることを特徴とする。
本発明の第2の態様として、第1の態様において、前記データの全体管理が行われる機能と、前記ステップが管理されるタスク管理機能及び/又はスケジューリング機能とを含んでもよい構成をとることもできる。
本発明の第3の態様として、第1の態様において、前記接続すべきデータベースが決定されるステップと、選択されたデータベースへの接続が行なわれるステップと、接続されたデータベースからデータが収集されるステップと、収集されたデータが変換されるステップと、変換されたデータが前処理されるステップと、前処理されたデータが加工されるステップと、加工されたデータが表示されるステップにおいて、形式と意味が定義された構造化データだけでなく、それらが定義されていない、あるいは定義が不完全なテキストデータ、音声データ、画像データ、動画データ、センサデータなどの原データを含む非構造化データを含んでもよい構成をとることもできる。
本発明の第4の態様として、第1の態様において、前記専門家の介在無しに利用者の属性及び/又は目的に基づく複数のステップを実行するために、あらかじめ用意されたテンプレートが用いられること、及び/又はテンプレートに対して利用者が修正を加えるようにしてもよい。
本発明の第5の態様として、第1の態様において、利用者の属性及び/又は目的に応じたテンプレート、及び/又はテンプレートに対して利用者が修正を加えることにより、利用者による明示的なデータベースの指定を行うことなくデータベースへの接続と必要なデータ収集が行われるようにしてもよい。
本発明の第6の態様として、第1の態様において、利用者の属性及び/又は目的に応じたテンプレートにより、及び/又はテンプレートに対して利用者が修正を加えることにより、利用者による明示的な指定なしにテキストマイニング、自然言語処理、画像解析、動画解析、アノテーションの付与、メタ情報の付与を含むデータの変換が行われるようにしてもよい。
本発明の第7の態様として、第1の態様において、ファイル拡張子を手掛かりにして、データの種類、例えば動画、音声、文書、センサなどのどれであるのかを推定すること、及び/又は利用者が選択した前記テンプレートに基づき、及び/又はテンプレートに対して利用者が修正を加えてデータの前処理が行われるようにしてもよい。
本発明の第8の態様として、第1の態様において、利用者の属性及び/又は目的に応じたテンプレートにより、及び/又はテンプレートに対して利用者が修正を加えることにより、利用者による明示的な指定なしにデータの選択、結合、分割、集計、フィルタリングを含むデータの加工が行われるようにしてもよい。
本発明の第9の態様として、第1の態様において、利用者の属性及び/又は目的に応じたテンプレートにより、利用者による明示的な指定なしに、構造化データか非構造化データかを問わず、収集、変換、前処理、加工されたデータが表示されるようにしてもよい。
上記課題を解決するために、本発明の第10の態様に係るプログラムは、コンピュータを、専門家の介在無しに、利用者の属性及び/又は目的に基づいて接続すべきデータベースを決定する接続データベース決定部と、前記選択されたデータベースへの接続を行う接続部と、利用者の属性及び/又は目的に応じて接続されたデータベースからデータを収集するデータ収集部と、前記収集されたデータを利用者の属性及び/又は目的に応じて変換するデータ変換部と、前記変換されたデータを利用者の属性及び/又は目的に応じて前処理するデータ前処理部と、前記前処理されたデータを利用者の属性及び/又は目的に応じて加工するデータ加工部と、前記加工されたデータを利用者の属性及び/又は目的に応じて表示する表示部と、データの全体管理を行う全体管理部と、タスク管理部及び/又はスケジューリング部と、として機能させることを特徴とする。
本発明の第11の態様として、第10の態様において、前記接続データベース決定部、前記接続部、前記データ収集部、前記データ変換部、前記データ前処理部、前記データ加工部、前記表示部のうちのいずれか少なくとも一つにおいて、AIや深層学習を含む機械学習の手段が用いられるようにしてもよい。
本発明の第12の態様として、第10もしくは第11の態様に係るプログラムが記憶された記録媒体として実現してもよい。
上記課題を解決するために、本発明の第13の態様に係る情報処理システムは、専門家の介在無しに、利用者の属性及び/又は目的に基づいて接続すべきデータベースを決定する接続データベース決定部と、前記選択されたデータベースへの接続を行う接続部と、利用者の属性及び/又は目的に応じて接続されたデータベースからデータを収集するデータ収集部と、前記収集されたデータを利用者の属性及び/又は目的に応じて変換するデータ変換部と、前記変換されたデータを利用者の属性及び/又は目的に応じて前処理するデータ前処理部と、前記前処理されたデータを利用者の属性及び/又は目的に応じて加工するデータ加工部と、前記加工されたデータを利用者の属性及び/又は目的に応じて表示する表示部とを備えることを特徴とする。
本発明の各態様によれば、専門家に頼ることなくデータへの接続、データ収集、データ変換、データ前処理、データ加工、タスク管理、データ活用、データの全体管理が行われ、非構造化データを含む多種多様のデータを利用できる情報処理システムが実現される。
最後に、本開示に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1 :情報処理システム
2 :情報処理装置
3 :ユーザ端末
4 :第1のウィンドウ
5 :第2のウィンドウ
6 :カテゴリ指定領域
7 :第2の入力データ表示領域
8 :構造化データ表示領域
9 :第1の保存操作領域
10 :構造化データ検索領域
11 :構造化データ編集領域
12 :編集結果表示領域
13 :第2の保存操作領域
20 :通信バス
21 :通信部
22 :記憶部
23 :プロセッサ
30 :通信バス
31 :通信部
32 :記憶部
33 :プロセッサ
34 :表示部
35 :入力部
41 :入力データ検索領域
42 :入力データリスト表示領域
43 :第1の操作領域
51 :形式指定領域
52 :第1の入力データ表示領域
53 :第2の操作領域
81 :第1の領域
82 :第2の領域
101 :検索条件入力領域
102 :検索結果表示領域
103 :データセット追加領域
111 :コマンド入力領域
112 :コマンド記憶領域
113 :コマンド実行領域
231 :取得部
232 :特定部
233 :生成部
234 :表示処理部
A1 :アクティビティ
A2 :アクティビティ
A3 :アクティビティ
A4 :アクティビティ
A5 :アクティビティ
A6 :アクティビティ
A7 :アクティビティ
A8 :アクティビティ
A9 :アクティビティ
A10 :アクティビティ
A11 :アクティビティ
A12 :アクティビティ
A13 :アクティビティ
A14 :アクティビティ
A15 :アクティビティ
C :カテゴリ
C1 :指定カテゴリ
C2 :用途カテゴリ
C3 :収集カテゴリ
D1 :入力データ
D2 :構造化データ
D21 :第1の構造化データ
D22 :第2の構造化データ
D23 :第3の構造化データ
DB1 :第1のデータベース
DB2 :第2のデータベース
DB21 :第1の記憶領域
DB22 :第2の記憶領域
IM1 :第1の画像
IM2 :第2の画像
IM3 :第3の画像
IM4 :第4の画像
L1 :強調表示
R1 :編集領域

Claims (7)

  1. 情報処理システムであって、
    次の各ステップがなされるようにプログラムを実行するプロセッサを備え、
    取得ステップでは、入力データを取得し、ここで、前記入力データは、複数種類の非構造化データのうちの少なくとも1つを含み、
    種類特定ステップでは、取得された前記入力データの形式に基づき、前記入力データに含まれる、少なくとも1つの前記非構造化データの種類を特定し、
    候補特定ステップでは、特定された前記非構造化データの種類に基づき、前記入力データに対して行われる変換処理が属するカテゴリの候補を特定し、特定された前記カテゴリの候補をユーザが一覧可能な視覚情報を生成し、ここで、前記カテゴリは、入力データの用途によって規定される用途カテゴリ、及び入力データの収集態様によって規定される収集カテゴリのうちの少なくとも1つを含み、予め定められた少なくとも1つの前記変換処理が属するように規定され、
    処理特定ステップでは、前記視覚情報において提示される前記カテゴリの候補のうちの1つを指定する、ユーザによる指定操作に基づき、指定された前記カテゴリに属する前記変換処理を特定し、
    生成ステップでは、取得された前記入力データに対して、特定された前記変換処理を行うことにより、所定のデータ構造を有する第1の構造化データを生成する、情報処理システム。
  2. 請求項1に記載の情報処理システムにおいて、
    前記生成ステップでは、生成された前記第1の構造化データが複数存在する場合、複数の前記第1の構造化データの少なくとも一部を結合することで第2の構造化データを生成する、情報処理システム。
  3. 請求項1に記載の情報処理システムにおいて、
    さらに、表示処理ステップでは、前記第1の構造化データの要素をユーザによって編集可能な編集領域を表示させる、情報処理システム。
  4. 請求項1に記載の情報処理システムにおいて、
    前記入力データの形式は、前記入力データの拡張子を含む、情報処理システム。
  5. 請求項1に記載の情報処理システムにおいて、
    前記非構造化データの種類は、画像、動画、音声、三次元空間データ、及び時系列データのうちの少なくとも1つを含む、情報処理システム。
  6. 情報処理方法であって、
    請求項1~請求項5の何れか1つに記載の情報処理システムの各ステップを、当該情報処理システムが備える前記プロセッサが実行する、情報処理方法。
  7. 情報処理プログラムであって、
    請求項1~請求項5の何れか1つに記載の情報処理システムの各ステップを、当該情報処理システムが備える前記プロセッサに実行させる、情報処理プログラム。
JP2022106293A 2021-10-31 2022-06-30 情報処理システム、情報処理方法及び情報処理プログラム Active JP7429374B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024005826A JP2024039064A (ja) 2021-10-31 2024-01-18 情報処理システム、情報処理方法及び情報処理プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021178415 2021-10-31
JP2021178415 2021-10-31

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024005826A Division JP2024039064A (ja) 2021-10-31 2024-01-18 情報処理システム、情報処理方法及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2023067730A JP2023067730A (ja) 2023-05-16
JP7429374B2 true JP7429374B2 (ja) 2024-02-08

Family

ID=86326090

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022106293A Active JP7429374B2 (ja) 2021-10-31 2022-06-30 情報処理システム、情報処理方法及び情報処理プログラム
JP2024005826A Pending JP2024039064A (ja) 2021-10-31 2024-01-18 情報処理システム、情報処理方法及び情報処理プログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024005826A Pending JP2024039064A (ja) 2021-10-31 2024-01-18 情報処理システム、情報処理方法及び情報処理プログラム

Country Status (1)

Country Link
JP (2) JP7429374B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009129202A (ja) 2007-11-22 2009-06-11 Ntt Data Corp データ処理装置、データ処理方法、および、プログラム
JP2018036794A (ja) 2016-08-30 2018-03-08 コニカミノルタ株式会社 画像処理装置及びプログラム
US20210004385A1 (en) 2019-07-05 2021-01-07 Gangadharan Vijayalakshmi System and method for analysis of one or more unstructured data
JP2021506030A (ja) 2017-12-12 2021-02-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation コンピュータ処理方法、コンピュータ・プログラム製品およびシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009129202A (ja) 2007-11-22 2009-06-11 Ntt Data Corp データ処理装置、データ処理方法、および、プログラム
JP2018036794A (ja) 2016-08-30 2018-03-08 コニカミノルタ株式会社 画像処理装置及びプログラム
JP2021506030A (ja) 2017-12-12 2021-02-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation コンピュータ処理方法、コンピュータ・プログラム製品およびシステム
US20210004385A1 (en) 2019-07-05 2021-01-07 Gangadharan Vijayalakshmi System and method for analysis of one or more unstructured data

Also Published As

Publication number Publication date
JP2023067730A (ja) 2023-05-16
JP2024039064A (ja) 2024-03-21

Similar Documents

Publication Publication Date Title
US11636397B1 (en) Graphical user interface for concurrent forecasting of multiple time series
US11960575B1 (en) Data processing for machine learning using a graphical user interface
US11841853B2 (en) Identifying related field sets based on related source types
US11100172B2 (en) Providing similar field sets based on related source types
US11816140B1 (en) Non-text machine data processing
US11789993B2 (en) Correlating non-text machine data using event fields
US20170220672A1 (en) Enhancing time series prediction
US11373423B2 (en) Automated classification and interpretation of life science documents
US10078843B2 (en) Systems and methods for analyzing consumer sentiment with social perspective insight
US11921799B1 (en) Generating and using alert definitions
KR102565455B1 (ko) 신속한 스크리닝을 위한 도메인-특정 언어 해석기 및 대화형 시각적 인터페이스
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
US11308103B2 (en) Data analyzing device and data analyzing method
US11663109B1 (en) Automated seasonal frequency identification
US11574491B2 (en) Automated classification and interpretation of life science documents
JP7429374B2 (ja) 情報処理システム、情報処理方法及び情報処理プログラム
KR102532216B1 (ko) Esg 보조 툴을 이용하여 정형화된 esg 데이터로 이루어진 esg 데이터베이스를 구축하는 방법 및 이를 수행하는 esg 서비스 제공 시스템
US20180336242A1 (en) Apparatus and method for generating a multiple-event pattern query
US9582782B2 (en) Discovering a reporting model from an existing reporting environment
JP2008083912A (ja) システム構造解析装置および方法、およびそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240118

R150 Certificate of patent or registration of utility model

Ref document number: 7429374

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150