JP2021096548A - データ処理システム及びデータ処理方法 - Google Patents

データ処理システム及びデータ処理方法 Download PDF

Info

Publication number
JP2021096548A
JP2021096548A JP2019226120A JP2019226120A JP2021096548A JP 2021096548 A JP2021096548 A JP 2021096548A JP 2019226120 A JP2019226120 A JP 2019226120A JP 2019226120 A JP2019226120 A JP 2019226120A JP 2021096548 A JP2021096548 A JP 2021096548A
Authority
JP
Japan
Prior art keywords
data
text
correlation
data processing
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019226120A
Other languages
English (en)
Inventor
田井 光春
Mitsuharu Tai
光春 田井
純 古谷
Jun Furuya
純 古谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019226120A priority Critical patent/JP2021096548A/ja
Publication of JP2021096548A publication Critical patent/JP2021096548A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】定性的な指標も含めて、例えばまちの状態等を的確に可視化する指標を自動的に生成し、それを最適化していく特性を備えたデータ処理装置を提供する。【解決手段】演算装置と、記憶装置と、通信装置と、を有するデータ処理システムであって、記憶装置は、複数のデータを保持し、演算装置は、取得したテキストデータを参照して、入力されたテキストと、その他のテキストとの相関関係を抽出し、記憶装置に保持された複数のデータのうち、入力されたテキストとの相関関係が所定の条件を満たすテキストに対応するデータから、入力されたテキストに対応する評価指標を算出するための演算仕様を生成し、生成した演算仕様に基づいて算出した評価指標を出力し、出力した評価指標に対する修正要求が入力されると、相関関係が所定の条件を満たすテキストに対応するデータから修正要求に基づいて修正された評価指標が算出されるように、演算仕様を修正する。【選択図】図1A

Description

本発明は、情報通信、都市計画、及び行政サービス等に関する。
分野横断型の情報処理基盤の必要性が高まっている。国内では、非特許文献1及び非特許文献2で記載されるとおり、政府主導で、ICT(information and communication technology)技術を最大限に活用することによって、新しい産業、社会変革を誘導し、生活の質を向上するいわゆる超スマート社会の実現に向けた取組みをSociety 5.0と銘打ち、これを世界に先駆けて遂行する旨提言されている。
例えば都市計画の分野では、あらゆるICTを駆使することによって、行政サービスの充実及び地域の高付加価値化に貢献し、ステークホルダーの合意形成をサポートする、データ駆動型都市計画手法の構築及び普及が注目されている。従来の都市計画は行政主導の、経験と感覚、もしくはある定まった手法に基づいたものが多く、ステレオタイプのトップダウン的な住民には受け入れにくい事例や、効果がはっきりしない事例、あるいは、有効であっても、経験的、計画者依存的で継承されない事例が殆どである。Society 5.0が掲げるビジョンの下、本分野では、街づくりをデータドリブンで進めることによって、有効かつ暮らすヒトの受容性が高い事例を積み上げる仕組みを構築することが重要となる。
都市計画に必要となるであろうデータは、経済活動を示すデータ、交通流、不動産情報のデータ、水利データ、暮らしやすさ等アンケート等で取得するような定性的なデータなど枚挙に暇がない。これらのデータを活用して得られる情報に関しても、街の状態や施策の効果を可視化する指標(卑近な例では地方の税収額、観光地の収入額、建物やイベントの動員数、データの項で挙げた交通流自体や交通流の渋滞状況、物流など)も多岐に亘る。
特に施策効果の可視化では、時間、時刻の影響も重要な因子であり、これらを有効に処理できる分野横断型の情報処理基盤構築が重要である。
米国特許出願公開第2014/0188449号明細書 米国特許出願公開第2008/0172348号明細書
Society 5.0実現による日本再興、[online]、2017年2月14日、日本経済団体連合会資料、[2019年6月6日検索]、インターネット<URL:http://www.keidanren.or.jp/policy/2017/010_gaiyo.pdf> 原山優子, Society 5.0がめざすのは人間中心の新しい社会,
日立評論 vol.99 pp.8-13. (2017)
張峻屹, 小林敏生,健康増進に寄与するまちづくりのための健康関連QOLの調査および因果構造分析, 日本都市計画学会都市計画論文集,2012 年 47 巻 3 号 pp. 277-282 中居隆, テキストマイニング(データマイニング) 技術紹介, 特許庁技術懇話会誌 2009.1.30. no.252
データ駆動型都市計画手法の目的は、現状の都市の状態の把握のための可視化、および、政策、施策に対する効果の可視化である。目的のために重要なのは、可視化のための指標(KPI:key performance indicator)群の選定と、これに寄与するデータ群の特定、関係解析である。殆どの場合、それぞれのKPIは、一般的には、複数種のデータ群、および他のKPI、更には自身の過去の履歴と時間的、空間的に相関を持ちながら変化する。
現状の都市の状態は、例えば非特許文献3に記載されているように、取扱いを簡単にするために、限定種の入力による単純化したモデルから近似的に目的のKPIを導出する手法がとられてきた。この場合、直接的で、緩和時間が短いKPIについては、実際と良い一致を確認できる場合が多いが、そのようなKPIの例はごく希である。間接、輻輳的、定性的なもの、あるいは緩和時間が長いKPIの例が殆どであり、実際との一致をみることは困難で利用されないことが多い。
さらに単純化したモデルの策定では、恣意的に、もしくは議論の中で寄与するデータ群を選択し、因果関係を洗い出してKPIを特定、策定している。したがって、定性的で数値化が難しい、あるいは、あまりに複雑に因果関係が絡んでいるために単純化できない指標については追跡しきれず、精度を欠いた指標化がなされていた。また、寄与するデータ群策定の過程で想定しないデータは、決して組み入れられることがない。
これらの課題は特に、質的なKPIを可視化する際に顕在化する。都市が暮らしの場と捉えた場合、質的なKPIは都市の状態を可視化する重要な因子となる。
以上の背景から、分野横断型の情報処理基盤には、下記の属性を付与することが必要となる。(1)(初期の)KPIを、質的なものも含め、データベースで根拠立てて人力に頼らず、自動で設定できる、(2)KPIに寄与するデータ群を、データベースで根拠立てて人力に頼らず、自動で策定できる、(3)(初期の)KPIを、利用者が実情(感覚)にあった指標値に変更できて、変更以降は、KPIに寄与するデータ群を入力すれば、変更値を予測できるように演算を修正することができる。
例えば、特許文献1、2などでは、分野横断型の都市経営用途の情報処理基盤の構成が記載されている。これらの基盤の構成、機能ブロックの範疇内でKPIを可視化するためには、KPIの決定因子(入力データ)と、それら入力からのKPIの導出過程が明らかになっていることが前提であり、この構成の下では、上記(1)−(3)の属性(特に(1)と(3)の属性)を付与することはできない。
上記(1)から(3)の要件を備えるデータ処理システムとして、以下の解決手段を示す。
すなわち、演算装置と、記憶装置と、通信装置と、を有するデータ処理システムであって、前記記憶装置は、複数のデータを保持し、前記演算装置は、前記通信装置を介して取得したテキストデータを参照して、入力されたテキストと、その他のテキストとの相関関係を抽出し、前記記憶装置に保持された複数のデータのうち、前記入力されたテキストとの相関関係が所定の条件を満たすテキストに対応するデータから、前記入力されたテキストに対応する評価指標を算出するための演算仕様を生成し、前記生成した演算仕様に基づいて算出した前記評価指標を出力し、前記出力した評価指標に対する修正要求が入力されると、前記相関関係が所定の条件を満たすテキストに対応するデータから前記修正要求に基づいて修正された前記評価指標が算出されるように、前記演算仕様を修正することを特徴とする。
本発明の一態様によれば、定性的な指標も含めて、例えばまちの状態等を的確に可視化する指標が自動的に生成され、その指標が、使う人の目的に合うように、使う人によって最適化されていくシステムが、データベースで構築できるようになる。
その結果、データ駆動型都市計画手法に用いるデータ処理装置として好適なものを供給することが可能となる。
上記した以外の課題、構成、及び効果は、以下の実施形態の説明によって明らかにされる。
本発明の実施例のデータ処理装置の構成機能の一例を示すブロック図である。 本発明の実施例のデータストレージサーバのハードウェア構成の一例を示すブロック図である。 本発明の実施例のクローリング・テキストマイニングサーバのハードウェア構成の一例を示すブロック図である。 本発明の実施例の演算器サーバのハードウェア構成の一例を示すブロック図である。 本発明の実施例のデータ処理装置によるクレンジング後の格納データの例を示す説明図である。 本発明の実施例のデータストレージサーバが、可視化したいKPIの策定時に実行するシーケンスを示すフローチャートである。 本発明の実施例のデータストレージサーバが、可視化したいKPIの策定時に実行するシーケンスを示すフローチャートである。 本発明の実施例におけるクローリングとテキストマイニングによってwebサイトから抽出した対象テキストと、これに相関するテキスト群との仮想的な相関図である。 本発明の実施例における対象テキストとこれに相関するテキスト群との仮想的な相関図に閾値を設定した例を示す説明図である。 本発明の実施例のクローリング・テキストマイニングサーバが、可視化したいKPIの策定時に実行するシーケンスを示すフローチャートである。 本発明の実施例の演算器サーバがKPIを算出する際に実行するシーケンスを示すフローチャートである。 本発明の実施例において可視化されたKPIを模式的に示す説明図である。 本発明の実施例における相関関係の改訂のフローを概念的に示す説明図である。 本発明の実施例における相関関係の改訂の処理を示すフローチャートである。 本発明の実施例において、可視化したいKPI群が策定できた後の、KPI導出の処理を示すフローチャートである。
以下で本発明の実施形態を図面を用いて説明する。図面では本発明の内容の具体的な実施例を示すが、これらは本発明の理解のための例であり、本発明が図面の範疇で限定されるものではない。
図1Aは、本発明の実施例のデータ処理装置の構成機能の一例を示すブロック図である。
本実施例のデータ処理装置100は、データストレージサーバ110と、クローリング・テキストマイニングサーバ120と、演算器サーバ130と、の3つの主要サーバから構成される。
図1Bは、本発明の実施例のデータストレージサーバ110のハードウェア構成の一例を示すブロック図である。
データストレージサーバ110は、例えば、図1Bに示す計算機システムによって構成される。具体的には、データストレージサーバ110は、通信バス152−1を介して相互に接続されたプロセサ(演算器)151−1、データストレージ153−1、入力機能154−1、出力機能155−1、外付けのデータストレージ156−1及び通信機能157−1を有する。
プロセサ151−1は、データストレージ153−1に格納されたプログラムに従って種々の処理を実行する。以下の説明においてデータストレージサーバ110が実行する処理は、実際には、プロセサ151−1がデータストレージサーバ110内の各部を制御することによって実現する。
データストレージ153−1は、プロセサ151−1によって実行されるプログラム、プロセサ151−1が実行する処理において参照されるデータ、及び、プロセサ151−1が実行した処理の結果として生成されたデータ等を格納する機能を有する。データストレージ153−1には、例えば、後述するクレンジングデータ等が格納される。データストレージ153−1は、例えば、ダイナミックランダムアクセスメモリ(DRAM)等のメモリ及びハードディスク(HD)又はフラッシュメモリ等のデータストレージを含んでもよい。
入力機能154−1は、利用者からデータストレージサーバ110への情報の入力を受ける機能であり、例えば、入力インタフェース(IF)と、それに接続されたキーボード、マウスおよびタッチパネルの少なくともいずれかと、によって実現される。
出力機能155−1は、利用者に情報を出力する機能であり、例えば、ビデオ(VD)アダプタと、モニタおよびスピーカの少なくともいずれかと、によって実現される。
外付けのデータストレージ156−1は、例えば、デジタルバーサタイルディスク(DVD)、ユニバーサルシリアルバス(USB)メモリまたは外付けのHD等と、それらに対するデータの読み書きを行うドライバと、を含んでもよい。データストレージサーバ110は、実行する処理のために必要なデータを外付けのデータストレージ156−1から読み込んでもよいし、処理によって生成されたデータを外付けのデータストレージ156−1に書き込んでもよい。
通信機能157−1は、ワイドエリアネットワーク(WAN)158またはローカルエリアネットワーク(LAN)159を介して外部装置と通信する機能であり、例えば入力IFおよびネットワークアダプタ等を含んでもよい。通信する対象の外部装置は、例えば、外部パーソナルコンピュータ(PC)(図示省略)、後述するセンサ143、後述するインターネット147、演算器サーバ130、クローリング・テキストマイニングサーバ120及び後述するデータセンタ140等である。
後述するIF144の機能は、例えば、入力機能154−1および出力機能155−1によって実現されてもよいし、外部PCによって実現されてもよい。
データストレージサーバ110は、必要があれば、上記以外の構成要素を有してもよいし、必要がなければ上記の構成要素の一つ以上を有しなくてもよい。例えば、データストレージサーバ110は、必要がなければ、外付けのデータストレージ156−1を有しなくてもよい。
図1Cは、本発明の実施例のクローリング・テキストマイニングサーバ120のハードウェア構成の一例を示すブロック図である。
クローリング・テキストマイニングサーバ120は、例えば、図1Cに示す計算機システムによって構成される。具体的には、クローリング・テキストマイニングサーバ120は、通信バス152−2を介して相互に接続されたプロセサ151−2、データストレージ153−2、入力機能154−2、出力機能155−2、外付けのデータストレージ156−2及び通信機能157−2を有する。これらは、図1Bに示した通信バス152−1を介して相互に接続されたプロセサ151−1、データストレージ153−1、入力機能154−1、出力機能155−1、外付けのデータストレージ156−1及び通信機能157−1と同様のものであってよいため、以下に特記する点を除いて、詳細な説明を省略する。
プロセサ151−2は、データストレージ153−2に格納されたプログラムに従って種々の処理を実行する。以下の説明においてクローリング・テキストマイニングサーバ120が実行する処理は、実際には、プロセサ151−2がクローリング・テキストマイニングサーバ120内の各部を制御することによって実現する。
データストレージ153−2は、プロセサ151−2によって実行されるプログラム、プロセサ151−2が実行する処理において参照されるデータ、及び、プロセサ151−2が実行した処理の結果として生成されたデータ等を格納する機能を有する。データストレージ153−2には、例えば、後述する基本相関データおよび相関データ等が格納される。
通信機能157−2による通信の対象の外部装置は、例えば、外部PC(図示省略)、インターネット147、データストレージサーバ110および演算器サーバ130等である。
後述するIF145の機能は、例えば、入力機能154−2および出力機能155−2によって実現されてもよいし、外部PCによって実現されてもよい。
図1Dは、本発明の実施例の演算器サーバ130のハードウェア構成の一例を示すブロック図である。
演算器サーバ130は、例えば、図1Dに示す計算機システムによって構成される。具体的には、演算器サーバ130は、通信バス152−3を介して相互に接続されたプロセサ151−3、データストレージ153−3、入力機能154−3、出力機能155−3、外付けのデータストレージ156−3及び通信機能157−3を有する。これらは、図1Bに示した通信バス152−1を介して相互に接続されたプロセサ151−1、データストレージ153−1、入力機能154−1、出力機能155−1、外付けのデータストレージ156−1及び通信機能157−1と同様のものであってよいため、以下に特記する点を除いて、詳細な説明を省略する。
プロセサ151−3は、データストレージ153−3に格納されたプログラムに従って種々の処理を実行する。以下の説明において演算器サーバ130が実行する処理は、実際には、プロセサ151−3が演算器サーバ130内の各部を制御することによって実現する。
データストレージ153−3は、プロセサ151−3によって実行されるプログラム、プロセサ151−3が実行する処理において参照されるデータ、及び、プロセサ151−3が実行した処理の結果として生成されたデータ等を格納する機能を有する。データストレージ153−3には、例えば、後述するKPI演算仕様およびそれに基づく演算結果等が格納される。
通信機能157−3による通信の対象の外部装置は、例えば、外部PC(図示省略)、データストレージサーバ110およびクローリング・テキストマイニングサーバ120等である。
後述するIF146の機能は、例えば、入力機能154−3および出力機能155−3によって実現されてもよいし、外部PCによって実現されてもよい。
本実施例では上記のようにデータストレージサーバ110、クローリング・テキストマイニングサーバ120および演算器サーバ130がそれぞれ独立した計算機によって実現される。このため、データ処理装置100は、複数の計算機からなるデータ処理システムと読み替えてもよい。しかし、このような構成は一例であり、上記の任意の二つ、または全部が一つの計算機によって実現されてもよい。
再び図1Aを参照して説明する。データストレージサーバ110は、所謂クレンジング機能およびストレージ機能を有している。クレンジング機能は、データセンタ140に格納されたデータ、データストレージサーバ110に直接繋がったセンサ群143からのデータ、および、インターフェース(IF)144を介してデータ提供者に入力されたデータを収集し、演算器サーバでデータ処理できるようデータを加工する機能である。なお、データセンタ140には、例えば、データセンタ140に繋がったセンサ群141からのデータ、および、IF142を介してデータ提供者に入力されたデータが格納される。ストレージ機能は、クレンジング機能によって加工されたデータ(すなわちクレンジングデータ)を格納する機能である。
クレンジング機能は、データクレンジングの際、各データに対してタイトリングのデータを所定の書式で追記し、クレンジングデータとして格納する。簡単な例で表記すると、例えば総人口の場合は、“population of xx area”などのテキストデータを取得データに付記する。追記されるデータはこの例のようにダイレクトな表記である必要はなく、後に参照およびデータ選択に利用できるものであれば良い。例えば特定の記載ルールを策定し、これに従う表記を追記しても良い。例えば“a−32”、“a−33”(アルファベットはデータ種で、aは人口、数字はエリアを示す)、“b−1−4”、“b−1−5”(アルファベットはデータ種で、bは電力使用量、真中の数値はビルのid、右端の数値は階を示す)などを追記してもよい。
図2は、本発明の実施例のデータ処理装置によるクレンジング後の格納データの例を示す説明図である。
先に記載したとおり、クレンジングの結果として、演算器サーバ130で処理できるデータが得られれば十分であるので、データの並びは図2に示した通りでなくてもよい。データフォーマットは、データ互換性の観点からテキストデータの形が望ましい。後述するようにエリアごとのKPI表記が多用されるため、図2の例ではエリア毎にデータを分け、時刻と対象データの2カラム構成とし、データタイトルもそれぞれ付記する例を示している。しかし、必ずしもこの例に倣う必要はなく、3カラム以上の構成とし、エリアはカラム毎に割り当てる形式を採用してもよい。
図2には、例として、二つの地域の人口と余暇時間のクレンジング後の格納データを示す。例えば、データ201は、xxエリアという地域における人口のデータであり、「population of xx area」というタイトルが付けられ、時刻(この例では年)と、対象データ(この例では人口)とが対応付けて格納されている。また、データ203は、xxエリアにおける余暇時間のデータであり、「Leisure time of xx area」というタイトルが付けられ、時刻(この例では年)と、対象データ(この例では1カ月当たりの余暇時間)とが対応付けて格納されている。同様に、yyエリアにおける人口のデータ202およびyyエリアにおける余暇時間のデータ204が格納される。
図2は一例であり、実際にはデータストレージサーバ110は種々のデータをクレンジングして上記と同様の形式のデータを作成して格納することができる。
データストレージサーバ110は、後述のクローリング・テキストマイニングサーバ120へ、データストレージサーバ110が保有するデータのタイトリングのリストを転送し、逆にクローリング・テキストマイニングサーバ120から、演算に使用するデータのタイトリングのリストの供給を受ける。データストレージサーバ110は、クローリング・テキストマイニングサーバ120から供給されたリストを参照しながら、演算に必要なデータ群を選択し、演算器サーバ130にデータを転送する。
図3及び図4は、本発明の実施例のデータストレージサーバ110が、可視化したいKPIの策定時に実行するシーケンスを示すフローチャートである。
データクレンジング(図3)、及びKPI算出時のデータセレクティング(図4)の独立した2種のフローがあり、最初は、図3から図4へシーケンシャルにフローが進むが、それ以降はパラレルにフローを進めても良い。初回以降の図3のフローは、ストレージするデータのアップデートに相当する。
図3において時系列のタイムステップは統一されていることが理想的である。統一されたタイムステップの限りではない時系列データに関しては、データストレージサーバ110は、統一されたタイムステップになる様、データを間引く、あるいは補間する。データの補間方法は特に指定はなく、統一しても良いし、データの性質にあわせ適宜選択することにしても良い。統一されたタイムステップは、得られるデータの最小タイムステップにするのが単純で良いが、複数の規格を設けるなど任意に設定してもよい。例えば、エリアの面積など、時系列データではないデータについては、データストレージサーバ110は、タイムステップを付与し、擬似的に時系列データに加工する。
図3には、図2の例にしたがって加工する際のフローを記載している。ストレージに格納されるデータは、{データ名、時刻、データ}の対で再構成されたものである。データ名は、主に格納データの利用の際の検索のタグとして機能する。これとは別に、タグのみを纏めたデータ名リストを格納する。これらは新しいデータが追加されるたびに更新される。
ここで、図3のフローをステップごとに説明する。最初に、データストレージサーバ110は、外部データを読み込む(ステップ301)。外部データとは、例えば、センサ141もしくはIF142からデータセンタ140を介してデータストレージサーバ110が取得したデータ、または、センサ143もしくはIF144からデータストレージサーバ110が直接取得したデータである。
次に、データストレージサーバ110は、読み込んだ外部データが時系列データかを判定する(ステップ302)。例えば読み込んだ外部データがxxエリアの年ごとの人口のデータである場合、時系列データである(ステップ302:YES)。この場合、データストレージサーバ110は、読み込んだ外部データを分解して(ステップ303)、再結合する(ステップ304)。
これによって、例えば、「population of xx area」といったデータ名と、「1900」といった時刻(この例では年)と、「21294」といったデータ(この例では人口)と、の対の、例えば1900年から2019年までのリストが作成され、ストレージに格納される(ステップ307)。
次に、データストレージサーバ110は、作成したデータ名(上記の例では「population of xx area」)をデータ名リストファイルに追加して(ステップ308)、それを新規データ名リストファイルとしてストレージに保存する(ステップ309)。そして、データストレージサーバ110は、保存したデータ名リストファイルをクローリング・テキストマイニングサーバ120に転送する(ステップ310)。
なお、ステップ301で読み込んだ外部データが、例えばxxエリアの面積など、時刻に応じて変化しないデータである場合、時系列データでないと判定される(ステップ302:NO)。この場合、データストレージサーバ110は、例えば、読み込んだxxエリアの面積を各年のxxエリアの面積として複製して(ステップ305におけるデータ分解)、xxエリアの面積を示すデータ名と、時刻(例えば年)と、xxエリアの面積と、の対のリストを生成して(ステップ306におけるデータ再結合)、ストレージに格納する(ステップ307)。
クローリング・テキストマイニングサーバ120では、後述のように、可視化したいKPIの入力となるべきデータが特定され、それらのデータ名がKPI導出データリストとしてリスト化される。図4に示すように、クローリング・テキストマイニングサーバ120から、可視化したいKPIについてのKPI導出データリストがデータストレージサーバ110に転送される(ステップ401)。
その後、KPIの入力値を演算器サーバ130に入力するよう要請があると、データストレージサーバ110は、ストレージからデータ名リストを読み出し(ステップ402)、KPI導出データリストに記載されたデータ名をタグにしながら、ストレージに格納された該当データを選択する。
例えば、データストレージサーバ110は、ステップ402で読みだしたデータ名リスト(すなわちデータストレージサーバ110が保持しているデータのリスト)と、ステップ401で転送されたデータ名リストとを比較して、両方のリストに記載されているデータ名のリストを作成する(ステップ403)。そして、データストレージサーバ110は、そのリストを参照してストレージに格納されているデータ(すなわちそのリストに含まれるデータ名に対応するデータ)を選択する(ステップ404)。
その後、データストレージサーバ110は、これらを演算器サーバの入力データとして転送する。
再び図1Aを参照して説明する。クローリング・テキストマイニングサーバ120は、インターネット147を介して、外部のwebサーバ(図示省略)をクローリングする機能と、ウェブサイトから特定の対象テキスト(名詞に相当する単語)を検索、及び関連するテキスト(これも名詞に相当する単語)をピックアップする、所謂テキストマイニングの機能と、を有する。更に、クローリング・テキストマイニングサーバ120は、ピックアップしたテキストの頻度、および関連の頻度を統計処理し、相関の強さ、および相関の距離を算出する機能を持つ。
利用者(解析者)は、IF145を介して、KPI化したい事象を表現するテキストを入力する。例えば“幸福度”または“余暇時間“といった対象テキストを入力する。クローリング・テキストマイニングサーバ120は、クローリングとテキストマイニングによって、対象テキストを検索し、対象テキストに関連するテキスト群をピックアップする。
ピックアップしたテキスト群の対象テキストに対する相関の強さ、および相関の距離の決定ルールは、例えば、単純に対象テキストの前後にあるピックアップテキストの頻出度で相関の強さを決め、対象テキストと、ピックアップテキストとの間に何個のテキストがあるかで相関の距離を決める、といった単純なルールであってもよい。あるいは、近年発展している機械学習を活用して、文脈から相関の強さ、相関の距離を決定するルールであってもよい。その他、任意のルールを適用することができる。例えば非特許文献4などには、特許マップ作成の自動化を一例としたテキストマイニングの施行例が紹介されている。
図5は、本発明の実施例におけるクローリングとテキストマイニングによってwebサイトから抽出した対象テキスト(すなわち可視化したいKPI)と、これに相関するテキスト群との仮想的な相関図である。
図5には、可視化したいKPIの例として“まちの賑わい”に関する相関図を示す。この相関図において、結線の太さは相関の強さを示したものである。図5では、例えばピックアップテキストの一つである“インフラ充実度”は、“まちの賑わい”と太い線で直接接続されている。これは、両者の相関が強く、相関の距離も近いことを示している。一方、別のピックアップテキストの一つである“バス路線数”は、“インフラ充実度”を介して、“まちの賑わい”と太い線で接続されている。これは、“バス路線数”と“まちの賑わい”との相関は強いが、相関の距離は“インフラ充実度”に対して2倍遠いことを示している。“公園規模”は上記の2つのピックアップテキストに比べて“まちの賑わい”との相関は弱く、距離も遠い。
クローリング・テキストマイニングサーバ120は、可視化するしないに関係なく、膨大なwebデータから、図5のような仮想的な相関図を策定する。テキストマイニングにおいて先に述べた機械学習を適用し、文脈の意味を自動解析できる機能を付加してもよい。これによって、相関の強さに時間の要素を組みこんだり、同意語となるテキストを考慮したりする(例えば、“まちの繁栄度”、“賑やかさ”、“騒がしさ”などからも相関を解析する)などができるようになり、より豊かで精度良い解析を行なうことができる。
本実施例のクローリング・テキストマイニングサーバ120では、利用者(解析者)が、上記相関の強さ、及び相関の距離のしきい値を設定することができる。
図6は、本発明の実施例における対象テキストとこれに相関するテキスト群との仮想的な相関図に閾値を設定した例を示す説明図である。
具体的には、図6は、図5の相関図において、相関の強さα以上、相関の距離が2以下という閾値を設定した場合に出力される相関図を示している。本機能の効果は、入力すべきデータの候補が絞られるので、演算器部分の計算負担が減ると同時に、どの入力が可視化したいKPIに効いてくるのか判別しやすくなるため、まちの課題と、解決方法(施策)を見出し易くなることである。実際の利用に際しては、データ候補をなるべく絞れる様、しきい値を高めに設定し、計算結果を観ながら徐々にしきい値を下げて複雑な相関を探索、設定していくことになる。
図7は、本発明の実施例のクローリング・テキストマイニングサーバ120が、可視化したいKPIの策定時に実行するシーケンスを示すフローチャートである。
利用者(解析者)が、KPI化したい事象を表現するテキスト(例えば“まちの賑わい”)と、相関図の相関強度および相関距離の設定値とを入力することによって、フローが開始される(ステップ701)。図7のフローには、入力されたテキストの類似または同義テキストを選定し、それらに基づいてマイニングで参照する定義テキスト群を規定する行程(ステップ702)も含めている。
例えば、クローリング・テキストマイニングサーバ120は、KPI化したい事象を表現するテキストとして“まちの賑わい”が入力された場合、そのテキストに加えて“まちの活気”、“まちの元気度”といった類似又は同義テキストを含むテキスト群をマイニングで参照する定義テキスト群として規定してもよい。このような類似又は同義テキストの選定は、利用者が手動で行ってもよいし、任意の方法で自動で行われてもよい。
クローリング・テキストマイニングサーバ120は、定義テキスト群を参照し、webサイトをクローリングし、サイト内のテキストマイニングによって相関図を策定する(ステップ703)。この相関図は、例えば、KPI化したい事象を表現するテキストと、それに相関するテキストのリストと、それらの相関関係(例えば相関の強さ及び距離)と、を含む。その一例が図5に示した相関図である。
ここで、相関図の相関強度と距離の閾値が入力された場合(ステップ704)、クローリング・テキストマイニングサーバ120は、閾値を用いて相関図を加工してもよい。その一例が図6に示した相関図である。
クローリング・テキストマイニングサーバ120は、策定した相関図を一旦サーバのストレージに基本相関データとして格納する(ステップ705)。基本相関データは、後にクローリング・テキストマイニングサーバ120のIFを介して参照可能であり(ステップ706)、データストレージサーバ110に取り込むデータの不足分を追加するなどのために活用できるようになっている。
クローリング・テキストマイニングサーバ120は、基本相関データをストレージに格納するとともに、データストレージサーバ110にデータ名リストの提供の要求を発信する。発信を受けたデータストレージサーバ110は、データ名リストをクローリング・テキストマイニングサーバ120に提供する。
クローリング・テキストマイニングサーバ120は、ストレージから基本相関データを読み込み(ステップ706)、さらに、データストレージサーバ110からデータ名リストを取得すると(ステップ707)、基本相関データ中の相関するテキストリストと、データ名リストとの照合を行い、両リストに記載されたテキスト、すなわち、現時点でシステムが扱える入力値を同定し、これらのみを残した相関データを再構成する(ステップ708)。再構成した相関データは、{KPI、相関するテキストリスト(入力可能な入力データ名)、相関関係(入力可能なもののみ残したもの)}の対で構成されるものであるが、クローリング・テキストマイニングサーバ120は、これを更に{KPI、相関するテキストリスト}をKPI導出データリスト、{KPI、相関関係}をKPI演算仕様としてストレージに格納する(ステップ709)。これらは、基本相関データと同様に後で参照することができる。さらに、クローリング・テキストマイニングサーバ120は、KPI導出データリストをデータストレージサーバ110へ転送し、図4のフローを通して入力データを演算器サーバ130に入力する(ステップ710)。加えて、クローリング・テキストマイニングサーバ120は、KPI演算仕様を演算器サーバ130へ転送する(ステップ711)。
図8は、本発明の実施例の演算器サーバ130がKPIを算出する際に実行するシーケンスを示すフローチャートである。
演算器サーバ130は、データストレージサーバ110で選択された演算に必要なデータ群を入力として受ける(ステップ801)。これは、図4のステップ405において転送されたものである。さらに、演算器サーバ130は、クローリング・テキストマイニングサーバ120で策定されたKPI演算仕様の入力を受ける(ステップ802)。これは、図7のステップ711において転送されたものである。
演算器サーバ130は、入力されたデータ群に対して、入力されたKPI演算仕様に従って演算し、可視化したいKPI値を計算結果として導出する(ステップ803)。演算器サーバ130は、算出したKPI値をIF146に転送する(ステップ804)。転送されたKPI値は、IF146によって可視化され、利用者に提示される。
さらに、KPI演算仕様は演算器サーバ130のストレージに格納される(ステップ805)。格納されたKPI演算仕様は、KPIを算出する毎に読み出され、算出に利用される。
本実施例の演算器サーバ130は、可視化したいKPIを活用する利用者が、IF146を介して、KPIの修正要求(修正データの入力)を受けることができ、その修正値をもとに、相関関係を補正する機能を有していることが特徴である。
図9は、本発明の実施例において可視化されたKPIを模式的に示す説明図である。
具体的には、図9(B)の実線は、演算器サーバ130にて、データストレージサーバ110から供給されたデータ群と、クローリング・テキストマイニングサーバ120によって策定された演算仕様と、に従って演算器サーバ130が演算し、可視化したKPI値を模式的に示した図である。この例は、図9(A)に示すように、とある自治体の街区a〜cそれぞれの賑わい度の年次推移を可視化したものである。ここで、計算されたKPI値である、まちの賑わい度が、街区a及び街区cについては概ね住民の実感と合致しているが、街区bについては実感と合致しておらず、過小評価されているという感触を持った場合を想定する。この場合、例えば図9のように可視化されたKPIを参照した利用者が、新たなKPI値を示す破線データを恣意的に引く。これが実感と合致するとした時、演算器サーバ130は、現状の供給データ群から、上記のように入力された恣意的なデータが算出されるように、KPI演算仕様に含まれる相関関係を改訂する。
図10Aは、本発明の実施例における相関関係の改訂のフローを概念的に示す説明図である。
図10Aの最上段には、クローリング・テキストマイニングサーバ120によって絞りこまれた入力値(すなわち図8のステップ801で転送されたデータ値群)に対して、クローリング・テキストマイニングサーバ120によって決定された相関関係(例えば図8のステップ802で転送されたKPI演算仕様)を適用することで演算器サーバ130が計算した、街区ごとのまちの賑わい度の年次推移を示す。これは、図9(B)に実線で示したものである。
図10Aの中段には、利用者の手動によるデータ補正を示す。ここに示す街区ごとのまちの賑わい度の年次推移データの内、街区bのデータは、例えば、利用者の当該街区bの賑わい度の実感に合うように恣意的に校正された新データである。これは、図9(B)に示した破線データに相当する。
演算器サーバ130は、相関関係からKPIを導出する機能ブロックに機械学習機能を有しており、利用者の要請に応じて、相関関係を改訂することが可能となっている。
図10Aの最下段に示すように、演算器サーバ130は、街区bの新データを教師データとし、データストレージサーバ110で選択された演算に必要なデータ群を入力値として、教師データが吐き出されるように機械学習する。学習後は、改定した相関関係を新しいKPI演算仕様としてストレージに上書きし、計算の度にこれを読み出してKPIを算出し、可視化する。
上記の例において、教師データは、可視化したいKPIを活用する利用者が恣意的に作成すると記載した。これは、作成したデータに対する客観的な根拠の有無が本発明では本質的ではないためである。本システムの運用側で、公平性または客観性を必要とする場合は、例えばデータの改訂ルールまたは改訂権限者の制限などのルール化でこれを担保してもよい。
一定期間の評価などを経て、新KPIに信頼性が担保されるようになれば、それを新しいKPIとして活用するだけではなく、入力データのひとつとして、データストレージサーバ110に格納することも可能となる。
図10Bは、本発明の実施例における相関関係の改訂の処理を示すフローチャートである。
演算器サーバ130は、これまでのKPI演算仕様1001(例えば、図8のステップ802で転送されたKPI演算仕様、または、前回の相関関係の改定の処理において上書きされたKPI演算仕様)と、入力データ値群1002と、が入力されると、それらに基づいて、対象KPIを算出する(ステップ1003)。そして、演算器サーバ130は、算出したKPI値をIF146に転送して可視化する(ステップ1004)。これらの処理が、図10Aの最上段に示した処理に相当する。
次に、算出されたKPI値が実感と一致する時系列データかが判定される(ステップ1005)。例えば、利用者が可視化されたKPI値を参照してそれが実感と一致するかを判断して、その結果をIF146に入力してもよい。
算出されたKPI値が実感と一致しないと判定された場合(ステップ1005:NO)、演算器サーバ130は、手動によるデータ補正によって教師データを作成する(ステップ1006)。これは、図10Aにおいて、街区bについて算出されたKPI値が実感と一致しないと判定されたときに実行される中段の処理に相当する。
次に、演算器サーバ130は、入力データ値群1007に基づいて、ステップ1006で補正されたKPI値を算出するように、KPI演算仕様を機械学習する(ステップ1008)。入力データ値群1007は、入力データ値群1002と同じものである。この処理は、図10Aの最下段の処理に相当する。
その後、演算器サーバ130は、学習結果を新KPI演算仕様として演算器サーバ130のストレージに上書きする(ステップ1009)。
一方、算出されたKPI値が実感と一致すると判定された場合(ステップ1005:YES)、KPI演算仕様は更新されない。これは、図10Aの街区aおよびcのKPI値の場合に相当する。
図11は、本発明の実施例において、可視化したいKPI群が策定できた後の、KPI導出の処理を示すフローチャートである。
まず本発明のデータ処理装置100に可視化したいKPIの要求が転送される(ステップ1101)。要求の転送方法は、例えば、演算器サーバ130のIF146を介して、利用者がKPIをテキストで指定する方法、または、利用者がバッチ型プログラミングをIF146を介して演算器サーバ130に実装し、逐次KPIを指定しながら、バッチ処理が進む方法などがある。
演算器サーバ130では、ストレージに格納されているKPI演算仕様の中から、該当の仕様をタグ検索して選出し(ステップ1102)、相関関係を読み込む(ステップ1103)。
要求は同時にクローリング・テキストマイニングサーバ120にも転送される。クローリング・テキストマイニングサーバ120は、ストレージに格納されているKPI導出データリストの中から、該当のリストをタグ検索して選出し(ステップ1104)、これをデータストレージサーバ110へ転送する(ステップ1105)。転送を受けたデータストレージサーバ110は、図4に示すように、KPI導出データリストを参照してストレージからデータを選択し(ステップ1106)、選択したデータを入力データ群として演算器サーバ130へ入力する(ステップ1107)。
演算器サーバ130は、入力データ群と、相関関係とから可視化したいKPIの数値を算出し(ステップ1108)、IF146へ転送すると、IF146の一つである表示装置などが利用者に対しKPIを可視化して提示する(ステップ1109)。さらに、演算器サーバ130は、算出したKPIをストレージに格納する。
以上のように、本発明の一実施形態によれば、KPI(質的なものも含め)をデータベースで根拠立てて設定できるようになる。そのデータベースはインターネットのウェブサイト及びツイート等を情報源にするため、相関関係は過去の不特定多数の経験積み上げから推論することと等価となる。テキストマイニングなどの手法を活用すれば、利用者の技能に依らずに既知、未知の好適KPIを抽出し、新たに定義することが可能となる。また、相関関係の重み、および、関連テキスト間の相関距離のしきい値を設けて制御できるようにすることが可能となるため、KPI値の計算が発散したり、殆ど効かない因子を過大評価したりする懸念が排除できるようになる。また入力すべきデータが絞られるので、都市の課題と解決方法を見出し易くなる。更に、演算器サーバが、ユーザーによる定量指標の修正要求を受け、機械学習などの適用で相関関係を修正する機能を備えることで、ユーザーの感覚にあった指標値を得たり、予測したりすることができるようになる。
以上の属性を備えたデータ処理装置100において、以上で記載した行程を継続的に繰り返すことで、定性的な指標も含めて、例えばまちの状態等を的確に可視化する指標が自動的に生成され、その指標が、使う人の目的に合うように、使う人によって最適化されていくシステムが、データベースで構築できるようになる。
その結果、データ駆動型都市計画手法に用いるデータ処理装置として好適なものを供給することが可能となる。
以上の本発明の実施形態のうち代表的な例を列挙すれば、次の通りである。
(1)本発明の実施形態の一例のデータ処理システム(例えばデータ処理装置100)は、演算装置(例えばプロセサ151−2〜151−3の少なくともいずれか)と、記憶装置(例えばデータストレージ153−1〜153−3および外付けのデータストレージ156−1〜156−3の少なくともいずれか)と、通信装置(例えば通信機能157−1〜157−3を実現する入力IFおよびネットワークアダプタの少なくともいずれか)と、を有してもよい。記憶装置は、複数のデータ(例えばセンサ141、143等によって取得されたデータ、および、IF142、143を介して入力されたデータの少なくともいずれか)を保持してもよい。演算装置は、通信装置を介して取得したテキストデータ(例えばクローリング・テキストマイニングサーバによって参照されるテキストデータ)を参照して、入力されたテキスト(例えばKPI化したい事象を表現するテキスト)と、その他のテキストとの相関関係を抽出し、記憶装置に保持された複数のデータのうち、入力されたテキストとの相関関係が所定の条件を満たすテキストに対応するデータから、入力されたテキストに対応する評価指標を算出するための演算仕様(例えばKPI演算仕様)を生成し、生成した演算仕様に基づいて算出した評価指標を出力し(例えば図8のステップ804、図10Aの最上段または図10Bのステップ1004)、出力した評価指標に対する修正要求が入力されると(例えば図10Aの中段または図10Bのステップ1006)、相関関係が所定の条件を満たすテキストに対応するデータから修正要求に基づいて修正された評価指標が算出されるように、演算仕様を修正してもよい(例えば図10Aの中段または図10Bのステップ1006)。
これによって、KPI(質的なものも含め)をデータベースで根拠立てて設定できるようになる。また、ユーザーの感覚にあった指標値を得たり、予測したりすることができるようになる。
(2)ここで、記憶装置が保持する複数のデータは、それぞれ、時刻と対応付けられた時系列データ(例えば図2に示す格納データ)であってもよい。演算装置は、時系列データから、時刻に対応付けられた時系列の評価指標を算出するための演算仕様を生成してもよい。
これによって、変動するKPIを適切に算出するための演算仕様を生成することができる。
(3)また、記憶装置が保持する複数のデータは、1以上のセンサ(例えばセンサ141および143)によって計測されたデータを含んでもよい。
これによって、各種のセンサデータからKPIを適切に算出するための演算仕様を生成することができる。
(4)また、記憶装置が保持する複数のデータは、それぞれ、当該データの内容を示すタイトル情報(例えば図2に示すタイトリング)を含んでもよい。演算装置は、タイトル情報に基づいて、記憶装置に保持された複数のデータから、入力されたテキストとの相関関係が所定の条件を満たすテキストに対応するデータを抽出してもよい。
これによって、テキストに対応するデータを適切に抽出することができる。
(5)また、演算装置は、入力されたテキストとの相関関係が所定の条件を満たすテキストのリストを生成し、生成したリストを記憶装置に格納し(例えば図7のステップ705)、生成したリストと記憶装置に保持された複数のデータのタイトル情報とを照合する(例えば図4のステップ403)ことによって、入力されたテキストとの相関関係が所定の条件を満たすテキストに対応するデータを抽出してもよい。
これによって、テキストの相関関係に基づいてKPIの算出に利用できると推定されるデータのうち、実際にシステムが保持しているデータを用いてKPIを適切に算出するための演算仕様を生成することができる。
(6)また、演算装置は、入力されたテキストとその他のテキストとの相関関係として、入力されたテキストとその他のテキストとの相関の強さ及び相関の距離を抽出し、その他のテキストのうち、相関の強さ及び相関の距離が所定の条件を満たすテキストを、入力されたテキストとの相関関係が所定の条件を満たすテキストとして抽出してもよい(例えば図6)。
(7)また、所定の条件に相当する前記相関の強さ及び前記相関の距離が変更可能であってもよい(例えば図7のステップ704)。
これによって、KPI値の計算が発散したり、殆ど効かない因子を過大評価したりする懸念が排除できるようになる。また入力すべきデータが絞られるので、都市の課題と解決方法を見出し易くなる。
(8)また、演算装置は、入力されたテキストとその類義テキストとを含むテキスト群を定義し(例えば図7のステップ702)、通信装置を介して取得したテキストデータを参照して、定義されたテキスト群と、その他のテキストとの相関関係を抽出し、記憶装置に保持された複数のデータのうち、定義されたテキスト群との相関関係が所定の条件を満たすテキストに対応するデータから、入力されたテキストに対応する評価指標を算出するための演算仕様を生成してもよい(例えば図7のステップ709)。
これによって、入力されたテキストの類義語も含めて、テキストの相関関係を抽出して、KPIを適切に算出するための演算仕様を生成することができる。
(9)また、通信装置を介して取得したテキストデータは、演算装置(例えばクローリング・テキストマイニングサーバ120のプロセサ151−2)が、通信装置を介してクローリングを行うことによって取得したテキストデータであってもよい。
これによって、例えばインターネットのウェブサイト及びツイート等を情報源にすることができ、相関関係は過去の不特定多数の経験積み上げから推論することと等価となる。また、利用者の技能に依らずに既知、未知の好適KPIを抽出し、新たに定義することが可能となる。
(10)また、演算装置は、修正要求に基づいて修正された評価指標を教師データとする機械学習によって、演算仕様を修正してもよい(例えば図10Aの最下段または図10Bのステップ1008)。
これによって、ユーザーの感覚にあった指標値を推定するための演算仕様を得ることができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
また、制御線及び情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
100 データ処理装置
110 データストレージサーバ
120 クローリング・テキストマイニングサーバ
130 演算器サーバ
140 データセンタ
141、143 センサ
142、144、145、146 インターフェース(IF)
147 インターネット

Claims (11)

  1. 演算装置と、記憶装置と、通信装置と、を有するデータ処理システムであって、
    前記記憶装置は、複数のデータを保持し、
    前記演算装置は、
    前記通信装置を介して取得したテキストデータを参照して、入力されたテキストと、その他のテキストとの相関関係を抽出し、
    前記記憶装置に保持された複数のデータのうち、前記入力されたテキストとの相関関係が所定の条件を満たすテキストに対応するデータから、前記入力されたテキストに対応する評価指標を算出するための演算仕様を生成し、
    前記生成した演算仕様に基づいて算出した前記評価指標を出力し、
    前記出力した評価指標に対する修正要求が入力されると、前記相関関係が所定の条件を満たすテキストに対応するデータから前記修正要求に基づいて修正された前記評価指標が算出されるように、前記演算仕様を修正することを特徴とするデータ処理システム。
  2. 請求項1に記載のデータ処理システムであって、
    前記記憶装置が保持する複数のデータは、それぞれ、時刻と対応付けられた時系列データであり、
    前記演算装置は、前記時系列データから、時刻に対応付けられた時系列の前記評価指標を算出するための前記演算仕様を生成することを特徴とするデータ処理システム。
  3. 請求項2に記載のデータ処理システムであって、
    前記記憶装置が保持する複数のデータは、1以上のセンサによって計測されたデータを含むことを特徴とするデータ処理システム。
  4. 請求項1に記載のデータ処理システムであって、
    前記記憶装置が保持する複数のデータは、それぞれ、当該データの内容を示すタイトル情報を含み、
    前記演算装置は、前記タイトル情報に基づいて、前記記憶装置に保持された複数のデータから、前記入力されたテキストとの相関関係が所定の条件を満たすテキストに対応するデータを抽出することを特徴とするデータ処理システム。
  5. 請求項4に記載のデータ処理システムであって、
    前記演算装置は、前記入力されたテキストとの相関関係が所定の条件を満たすテキストのリストを生成し、
    前記生成したリストを前記記憶装置に格納し、
    前記生成したリストと前記記憶装置に保持された複数のデータの前記タイトル情報とを照合することによって、前記入力されたテキストとの相関関係が所定の条件を満たすテキストに対応するデータを抽出することを特徴とするデータ処理システム。
  6. 請求項1に記載のデータ処理システムであって、
    前記演算装置は、前記入力されたテキストと前記その他のテキストとの相関関係として、前記入力されたテキストと前記その他のテキストとの相関の強さ及び相関の距離を抽出し、
    前記その他のテキストのうち、前記相関の強さ及び前記相関の距離が所定の条件を満たすテキストを、前記入力されたテキストとの相関関係が所定の条件を満たすテキストとして抽出することを特徴とするデータ処理システム。
  7. 請求項6に記載のデータ処理システムであって、
    前記所定の条件に相当する前記相関の強さ及び前記相関の距離が変更可能であることを特徴とするデータ処理システム。
  8. 請求項1に記載のデータ処理システムであって、
    前記演算装置は、
    前記入力されたテキストとその類義テキストとを含むテキスト群を定義し、
    前記通信装置を介して取得したテキストデータを参照して、前記定義されたテキスト群と、その他のテキストとの相関関係を抽出し、
    前記記憶装置に保持された複数のデータのうち、前記定義されたテキスト群との相関関係が所定の条件を満たすテキストに対応するデータから、前記入力されたテキストに対応する評価指標を算出するための演算仕様を生成することを特徴とするデータ処理システム。
  9. 請求項1に記載のデータ処理システムであって、
    前記通信装置を介して取得したテキストデータは、前記演算装置が、前記通信装置を介してクローリングを行うことによって取得したテキストデータであることを特徴とするデータ処理システム。
  10. 請求項1に記載のデータ処理システムであって、
    前記演算装置は、前記修正要求に基づいて修正された前記評価指標を教師データとする機械学習によって、前記演算仕様を修正することを特徴とするデータ処理システム。
  11. 演算装置と、記憶装置と、通信装置と、を有するデータ処理システムが実行するデータ処理方法であって、
    前記記憶装置は、複数のデータを保持し、
    前記データ処理方法は、
    前記演算装置が、前記通信装置を介して取得したテキストデータを参照して、入力されたテキストと、その他のテキストとの相関関係を抽出する手順と、
    前記演算装置が、前記記憶装置に保持された複数のデータのうち、前記入力されたテキストとの相関関係が所定の条件を満たすテキストに対応するデータから、前記入力されたテキストに対応する評価指標を算出するための演算仕様を生成する手順と、
    前記演算装置が、前記生成した演算仕様に基づいて算出した前記評価指標を出力する手順と、
    前記演算装置が、前記出力した評価指標に対する修正要求が入力されると、前記相関関係が所定の条件を満たすテキストに対応するデータから前記修正要求に基づいて修正された前記評価指標が算出されるように、前記演算仕様を修正する手順と、を含むことを特徴とするデータ処理方法。
JP2019226120A 2019-12-16 2019-12-16 データ処理システム及びデータ処理方法 Pending JP2021096548A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019226120A JP2021096548A (ja) 2019-12-16 2019-12-16 データ処理システム及びデータ処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019226120A JP2021096548A (ja) 2019-12-16 2019-12-16 データ処理システム及びデータ処理方法

Publications (1)

Publication Number Publication Date
JP2021096548A true JP2021096548A (ja) 2021-06-24

Family

ID=76431355

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019226120A Pending JP2021096548A (ja) 2019-12-16 2019-12-16 データ処理システム及びデータ処理方法

Country Status (1)

Country Link
JP (1) JP2021096548A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024018671A1 (ja) * 2022-07-20 2024-01-25 株式会社日立製作所 Cld管理装置、cld管理システム及びcld管理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024018671A1 (ja) * 2022-07-20 2024-01-25 株式会社日立製作所 Cld管理装置、cld管理システム及びcld管理方法

Similar Documents

Publication Publication Date Title
US7536637B1 (en) Method and system for the utilization of collaborative and social tagging for adaptation in web portals
Arias et al. Forecasting with twitter data
Weber et al. Coding the News: The role of computer code in filtering and distributing news
Vetitnev et al. System dynamics modelling and forecasting health tourism demand: the case of Russian resorts
Rios et al. Multi-period forecasting and scenario generation with limited data
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
Wątróbski et al. pyrepo-mcda—Reference objects based MCDA software package
Forsey et al. Temporal transferability of work trip mode choice models in an expanding suburban area: the case of York Region, Ontario
Mena et al. On the Bayesian mixture model and identifiability
Kim Spatiotemporal scale dependency and other sensitivities in dynamic land-use change simulations
CN112507230A (zh) 基于浏览器的网页推荐方法、装置、电子设备及存储介质
Bornmann et al. Does the h α-index reinforce the Matthew effect in science? the introduction of agent-based simulations into scientometrics
Al-Jokhadar et al. Spatial reasoning as a syntactic method for programming socio-spatial parametric grammar for vertical residential buildings
Nasrabadi et al. A stepwise benchmarking approach to DEA with interval scale data
Girish et al. Impacts of perception and perceived constraint on the travel decision-making process during the Hong Kong protests
JP2021096548A (ja) データ処理システム及びデータ処理方法
Schwarz et al. Towards an integrated development and sustainability evaluation of energy scenarios assisted by automated information exchange
Hong et al. Reverse designs of doubly reinforced concrete beams using Gaussian process regression models enhanced by sequence training/designing technique based on feature selection algorithms
Darabi et al. Well placement optimization using hybrid optimization technique combined with fuzzy inference system
Monechi et al. Hamiltonian modelling of macro-economic urban dynamics
CN113610580B (zh) 产品推荐方法、装置、电子设备及可读存储介质
Singh et al. Identification of pollution sources using artificial neural network (ANN) and multilevel breakthrough curve (BTC) characterization
CN114218361A (zh) 一种基于医学研究文献的医学路径推荐方法和系统
Ding et al. Tell me how to survey: literature review made simple with automatic reading path generation
Vysotska et al. Set-theoretic models and unified methods of information resources processing in e-business systems