JP7229761B2 - 情報処理装置、検査評価システムおよび検査評価方法 - Google Patents

情報処理装置、検査評価システムおよび検査評価方法 Download PDF

Info

Publication number
JP7229761B2
JP7229761B2 JP2018243458A JP2018243458A JP7229761B2 JP 7229761 B2 JP7229761 B2 JP 7229761B2 JP 2018243458 A JP2018243458 A JP 2018243458A JP 2018243458 A JP2018243458 A JP 2018243458A JP 7229761 B2 JP7229761 B2 JP 7229761B2
Authority
JP
Japan
Prior art keywords
word
dummy variable
text data
information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018243458A
Other languages
English (en)
Other versions
JP2020013535A (ja
Inventor
裕也 小松
麻里 ▲高▼木
豊久 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Publication of JP2020013535A publication Critical patent/JP2020013535A/ja
Priority to JP2023020752A priority Critical patent/JP2023054101A/ja
Application granted granted Critical
Publication of JP7229761B2 publication Critical patent/JP7229761B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理装置、検査評価システムおよび検査評価方法に関するものである。
特許文献1には、「文書の検索語(t)との関連を考慮するファイルシステムのファイルパスにある電子文書(Di)をランク付けする文書ランク付け装置であって、前記装置は、文書の内容を用いて該文書のセマンティック記述(SDi)を生成し、前記セマンティック記述をセマンティック記述レポジトリに格納するよう構成されるセマンティック記述生成モジュールと、文書の前記セマンティック記述と前記検索語との間の類似性に基づき、類似性スコアを計算するよう構成される類似性に基づくスコアリングモジュールと、文書の完全性、正確性、及び鮮度に基づき、該文書の品質スコアを計算するよう構成される品質指示子に基づくスコアリングモジュールと、前記類似性スコア及び前記品質スコアの相対的重み付けのためにユーザ入力を受け、結果として生じる相対的重み付けされた類似性スコア及び品質スコアを結合して文書の最終的スコアを与えるよう構成される結合モジュールと、前記最終的スコアに基づき、前記ファイルパスにある前記文書をランク付けするよう構成されるランク付けモジュールと、を有する文書ランク付け装置」について記載されている。
特開2016-076208号公報
上記技術は、文書を形式的にランク付けすることができるが、文書の内容を適切に評価することができない。
本発明の目的は、文章の内容を適切に評価できる技術を提供することにある。
本願は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。本発明の一態様に係る情報処理装置は、テキストデータの数量化条件を受け付ける条件受付部と、上記テキストデータを所定の区分に分割しその出現回数または出現有無を集計する集計処理部と、集計した上記出現回数または出現有無に上記数量化条件を反映させた結果を表示する出力部と、上記出力部の表示において上記区分ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付部と、上記ダミー変数の指定として受け付けた上記区分の出現回数または出現有無を計数した結果を取得するダミー変数変換部と、を備え、上記出力部は、上記ダミー変数変換部が取得した上記出現回数または出現有無を計数した結果を出力する、ことを特徴とする。
また、上記の情報処理装置であって、上記数量化条件は、上記区分から除外する単語を一つまたは複数指定するブラックリストを含み、上記出力部が上記数量化条件を反映させる処理において、上記ブラックリストを用いて上記区分から上記除外する単語を除外するブラックリスト処理部、を備えることを特徴とするものであってもよい。
また、上記の情報処理装置であって、上記数量化条件は、上記区分として追加する単語を一つまたは複数指定するホワイトリストを含み、上記出力部が上記数量化条件を反映させる処理において、上記ホワイトリストを用いて上記区分に上記追加する単語を追加して出現回数または出現有無を再集計するホワイトリスト処理部、を備えることを特徴とするものであってもよい。
また、上記の情報処理装置であって、上記集計処理部は、N-gramを利用して上記テキストデータを上記所定の区分に分割する、ことを特徴とするものであってもよい。
また、上記の情報処理装置であって、上記数量化条件は、上記区分として追加する単語を一つまたは複数指定するホワイトリストを含み、上記出力部が上記数量化条件を反映させる処理において、上記ホワイトリストを用いて上記区分に上記追加する単語を追加して出現回数または出現有無を再集計するホワイトリスト処理部を備え、上記集計処理部は、N-gramを利用して上記テキストデータを上記所定の区分に分割するとともに、上記出現回数または出現有無を用いて上記所定の区分を組み合わせて、上記Nの値を超える語長の単語を上記ホワイトリストの候補として提案する、ことを特徴とするものであってもよい。
また、上記の情報処理装置であって、上記数量化条件は、上記区分として用いる品詞の指定を含み、上記集計処理部は、形態素解析を利用して上記テキストデータを上記所定の区分に分割するとともに、上記品詞に該当しない上記所定の区分については上記集計から除外する、ことを特徴とするものであってもよい。
また、上記の情報処理装置であって、上記テキストデータには所定の計測結果の値が一つまたは複数付随し、上記出力部は、上記ダミー変数変換部が取得した上記区分の出現回数または出現有無を計数した結果を、上記区分ごとに上記計測結果の値として追加する、ことを特徴とするものであってもよい。
また、上記の情報処理装置であって、上記テキストデータには、構造物の検査結果に関する自然言語の記述を含むとともに、上記構造物の所定の計測結果の値が一つまたは複数付随し、上記計測結果の値を用いて上記構造物の所定の評価指標を算出する評価算出部を備え、上記出力部は、上記ダミー変数変換部が取得した上記区分の出現回数または出現有無を計数した結果を、上記区分ごとに上記計測結果の値として追加する、ことを特徴とするものであってもよい。
また、本発明の別の態様にかかる検査評価システムは、情報処理装置を用いた検査評価システムであって、上記情報処理装置は、制御部と、記憶部と、を備え、上記記憶部には、構造物の検査結果に関する自然言語の記述を含む一つまたは複数のテキストデータとともに、上記構造物の所定の計測結果の値が一つまたは複数付随して格納され、上記制御部は、上記テキストデータの数量化条件を受け付ける条件受付ステップと、上記テキストデータを所定の区分に分割しその出現回数または出現有無を集計する集計処理ステップと、集計した上記出現回数または出現有無に上記数量化条件を反映させた結果を表示する出力ステップと、上記出力ステップの表示において上記区分ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付ステップと、上記ダミー変数の指定として受け付けた上記区分の出現回数または出現有無を計数した結果を取得するダミー変数変換ステップと、上記ダミー変数変換ステップで取得した上記出現回数または出現有無を計数した結果を上記区分ごとに上記計測結果の値として追加する結果出力ステップと、上記計測結果の値を用いて上記構造物の所定の評価指標を算出する評価算出ステップと、を実施することを特徴とする。
また、本発明の別の態様にかかる検査評価方法は、情報処理装置を用いた検査評価方法であって、上記情報処理装置は、制御部と、記憶部と、を備え、上記記憶部には、構造物の検査結果に関する自然言語の記述を含む一つまたは複数のテキストデータとともに、上記構造物の所定の計測結果の値が一つまたは複数付随して格納され、上記制御部は、上記テキストデータの数量化条件を受け付ける条件受付ステップと、上記テキストデータを所定の区分に分割しその出現回数または出現有無を集計する集計処理ステップと、集計した上記出現回数または出現有無に上記数量化条件を反映させた結果を表示する出力ステップと、上記出力ステップの表示において上記区分ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付ステップと、上記ダミー変数の指定として受け付けた上記区分の出現回数または出現有無を計数した結果を取得するダミー変数変換ステップと、上記ダミー変数変換ステップで取得した上記出現回数または出現有無を計数した結果を上記区分ごとに上記計測結果の値として追加する結果出力ステップと、上記計測結果の値を用いて上記構造物の所定の評価指標を算出する評価算出ステップと、を実施することを特徴とする。
本発明によると、文章の内容を適切に評価できる技術を提供することができる。
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
実施形態に係る検査評価システムの例に係るブロック図である。 変換対象データ記憶部のデータ構造例を示す図である。 頻度記憶部のデータ構造例を示す図である。 ホワイトリスト記憶部のデータ構造の例を示す図である。 データ数量化サーバー装置のハードウェア構成例を示す図である。 データ数量化処理のフローの例を示す図である。 変換対象指定画面の例を示す図である。 頻出単語取得条件指定画面の例を示す図である。 単語出現回数集計処理(N-gram利用)のフローの例を示す図である。 ブラックリスト適用処理のフローの例を示す図である。 ホワイトリスト適用処理のフローの例を示す図である。 ダミー変数選択処理のフローの例を示す図である。 ダミー変数指定画面の例を示す図である。 ダミー変数変換処理のフローの例を示す図である。 変換結果確認画面の例を示す図である。 頻出単語取得条件指定画面の別の例を示す図である。 単語出現回数集計処理(形態素解析利用)のフローの例を示す図である。 ダミー変数指定画面の別の例を示す図である。 ダミー変数指定画面のさらに別の例を示す図である。 第四の実施形態に係る地域情報収集システムの例に係るブロック図である。 変換対象データ記憶部のデータ構造例を示す図である。 時刻住所優先順位記憶部のデータ構造例を示す図である。 情報統合処理のフローの例を示す図である。 地域情報集計処理のフローの例を示す図である。 集計項目設定画面の例を示す図である。 単変数集計画面の例を示す図である。 複数変数集計画面の例を示す図である。 一階層クロス表画面の例を示す図である。 多階層クロス表画面の例を示す図である。 一階層クロス表画面の別の例(時刻スライス)を示す図である。 一階層クロス表画面の別の例(継続中限定表示)を示す図である。 地図表示画面の例を示す図である。 地図表示画面の別の例を示す図である。 第四の実施形態に係る地域情報収集システムの別の例に係るブロック図である。 変換対象データ記憶部のデータ構造例を示す図である。 ダミータグ記憶部のデータ構造例を示す図である。 画像間タグ類似度記憶部のデータ構造例を示す図である。 画像あいまい検索画面の例を示す図である。 タグ類似画像検索画面の例を示す図である。
以下に、本発明の一態様に係る実施形態を適用した検査評価システム1について、図面を参照して説明する。以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。
また、以下の実施の形態において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
さらに、以下の実施の形態において、その構成要素(要素ステップ等も含む)は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。
同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは特に明示した場合および原理的に明らかにそうではないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。
また、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。
図1は、本実施形態に係る検査評価システム1のブロック図である。検査評価システム1は、利用者10が図示しない情報処理端末を用いてブラウザ等を介してデータ数量化サーバー装置100に接続して利用するが、これに限られず、データ数量化サーバー装置100を直接操作して利用するものであってもよい。
なお、図示しないが、情報処理端末からデータ数量化サーバー装置100に接続する際には、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、携帯電話網等、あるいはこれらが複合した通信網であるネットワークを介して接続される。なお、当該ネットワークは、携帯電話通信網等の無線通信網上のVPN(Virtual Private Network)等であってもよい。
検査評価システム1の応用例を挙げると、検査評価システム1は、所定の構造物(例えば、橋梁等、道路等の公物)の保守についての検査結果の取り扱いを伴う業務システム、あるいは製造にかかる成果物検査結果の取り扱いを伴う業務システム等がある。
その際には、利用者10は、検査結果として一つまたは複数の所定の検査項目に加え、検査結果に関する自然言語の記述を含む一つまたは複数のテキストデータを検査評価に用いる。この検査結果は、図示しない検査者あるいは検査装置が随時更新するものである。
利用者10は、検査結果を評価することで、検査対象の実態を把握するが、検査項目は定量的なものに限られるため、所見等の定性的な評価については自然言語で記述されることが多い。また、そのような定性的な評価については、検査者の経験やノウハウが含まれることが多く、検査評価に用いるべき情報である。
しかし、大量の検査結果を評価するためには、コンピュータ処理による大量の情報処理を介した方が効率性の面でメリットが大きいため、一般的には所見等の自然言語の記述は検査結果の評価においては省略されることも少なくない。
このような経験やノウハウが反映された自然言語の記述を検査結果の評価に反映できれば、高度に情報を有効活用でき、評価精度をより高め、重大なインシデントの早期発見や未然防止に役立つと考えられる。
本実施形態においては、橋梁の検査結果の取り扱いを伴う業務システムを例に説明する。データ数量化サーバー装置100は、記憶部110と、制御部120と、入力部130と、出力部140と、が互いにバス等で通信可能に接続される。
記憶部110には、変換対象データ記憶部111と、頻度記憶部112と、ブラックリスト記憶部113と、ホワイトリスト記憶部114と、が含まれる。
図2は、変換対象データ記憶部のデータ構造例を示す図である。変換対象データ記憶部111には、自然言語を用いて記述されるテキストデータが含まれる。また、該テキストデータには、構造物の検査結果に関する自然言語の記述が含まれるとともに、構造物の所定の計測結果の値が一つまたは複数付随する。
より具体的には、変換対象データ記憶部111には、ある橋梁を他の橋梁から識別する識別子である橋梁コード111Aと、点検年月日111Bと、点検者コメント111Cと、X計測値111Dと、Y計測値111Eと、が含まれる。
点検者コメント111Cは、上述の自然言語を用いて記述されるテキストデータである。例えば、「主桁にひびがあるため対策が必要。」等の所見が含まれる。X計測値111Dと、Y計測値111Eとは、所定の定量化しうる検査項目の検査結果の値である。
図3は、頻度記憶部のデータ構造例を示す図である。頻度記憶部112には、順位112Aと、単語112Bと、出現回数112Cと、ブラック指定112Dと、ホワイト指定112Eと、ユーザー表示対象112Fと、数量化対象112Gと、が含まれる。
順位112Aは、単語112Bで特定される単語(単語に限られず、テキストデータを分割した所定の区分)の出現頻度(出現回数または出現有無であってもよい)である出現回数112Cの多い順に割り振った順位である。
ブラック指定112Dは、ブラックリストに含まれる単語であるか否かを示す情報である。同様に、ホワイト指定112Eは、ホワイトリストに含まれる単語であるか否かを示す情報である。ユーザー表示対象112Fは、利用者10が利用する画面に表示させる対象の単語(テキストデータを分割した所定の区分)であるか否かを特定する情報である。数量化対象112Gは、利用者10が数量化させる対象の単語(テキストデータを分割した所定の区分)であるか否かを特定する情報である。
ブラックリスト記憶部113については、単語(テキストデータを分割した所定の区分)のうち、評価から除外する単語(テキストデータを分割した所定の区分)を一つまたは複数指定するリストであり、各単語を個々に読み出し、編集することが可能なデータ構造、例えばリストや配列である。
図4は、ホワイトリスト記憶部114のデータ構造例を示す図である。ホワイトリスト記憶部114には、単語(テキストデータを分割した所定の区分)として追加する単語を一つまたは複数指定するリストであるが、付随する情報が多いためテーブル構造として例示する。
単語ID114Aは、単語(テキストデータを分割した所定の区分)を特定する識別子である。単語114Bは、テキストデータを分割した所定の区分である。適用可否114Cは、ホワイトリストとして適用する対象の単語(テキストデータを分割した所定の区分)であるか否かを特定する情報である。
合成語114Dは、合成した単語(テキストデータを分割した所定の区分)であるか否かを特定する情報である。合成基礎語114E、合成隣接語114Fは、単語(テキストデータを分割した所定の区分)が合成したものである場合に、その基礎となった単語(テキストデータを分割した所定の区分)を示す情報である。例えば、「ABC」という合成語が、「BC」の先頭に隣接して利用されることが多い「A」を合成したものである場合には、合成基礎語114Eは「BC」、合成隣接語114Fは「A」となる。つまり、単語114Bの区分が、合成語であれば合成語114Dに「True」が格納され、合成基礎語114Eと、合成隣接語114Fのそれぞれに合成元となった語が格納される。
制御部120には、条件受付部121と、集計処理部122と、ブラックリスト処理部123と、ホワイトリスト処理部124と、ダミー変数受付部125と、ダミー変数変換部126と、評価算出部127と、が含まれる。
条件受付部121は、テキストデータの数量化条件を受け付ける。より具体的には、条件受付部121は、数量化データの対象となるテキストデータの指定、一つまたは複数のブラックリスト指定単語、一つまたは複数のホワイトリスト指定単語、頻出単語取得条件(表示件数)、または品詞フィルタ等の数量化条件を受け付ける。
集計処理部122は、テキストデータを所定の区分に分割しその出現頻度を集計する。より具体的には、集計処理部122は、N-gramあるいは形態素解析を利用して、テキストデータを所定の区分(単語)に分割する。また、集計処理部122は、形態素解析を利用してテキストデータを分割した場合には、分割した所定の区分(単語)について、指定された品詞(一般名詞、固有名詞、人名、地名、記号等)に該当しない所定の区分については出現頻度の集計から除外することもできる。
また、集計処理部122は、N-gramを利用してテキストデータを分割した場合には、集計した出現頻度を用いて、所定の区分(単語)を組み合わせて、N-gramの「N」の値を超える語長の単語をホワイトリストの候補として提案するようにしてもよい。例えば、集計処理部122は、共起表現(ある単語が用いられる場合に共に用いられることが多い表現)を提案するようにしてもよいし、類義語、省略語(「ヒビ」と「ヒビワレ」等)、外来語(「ヒビ」と「クラック」)を提案するようにしてもよい。
また例えば、集計処理部122は、ある単語と別の単語を組み合わせて用いられる検査対象に特有の結合語(例えば、橋梁の検査に関しては、「主」+「桁」の「主桁」、「ゲルバー」+「桁」の「ゲルバー桁」、「床」+「版」の「床版」等)をホワイトリストの候補として提案するようにしてもよい。
ブラックリスト処理部123は、数量化条件を反映させる処理において、ブラックリストを用いて所定の区分(単語)から除外すべき単語を除外する。すなわち、ブラックリスト処理部123は、集計処理部122が集計した出現頻度から、ブラックリストに登録された単語を除外する。
ホワイトリスト処理部124は、数量化条件を反映させる処理において、ホワイトリストを用いて所定の区分(単語)に追加する単語を追加して出現頻度を再集計する。また、ホワイトリスト処理部124は、集計処理部122が提案したホワイトリストの候補のうち、利用者10が指定した候補についてホワイトリストに追加する。また、ホワイトリスト処理部124は、利用者10が指定した所定の区分(単語、またはフリーテキスト)についてホワイトリストに追加する。ホワイトリストへの追加処理では、ホワイトリスト処理部124は、ホワイトリスト記憶部114の適用可否114Cを「False(偽)」から「True(真)」に変更する。
ダミー変数受付部125は、出力部140の表示において利用者から所定の区分(単語)ごとに選択された入力を受け付けて、ダミー変数の指定とする。すなわち、ダミー変数受付部125は、数量化する単語の選択を受け付けると、頻度記憶部112の数量化対象112Gを「False(偽)」から「True(真)」に変更する。
ダミー変数変換部126は、ダミー変数の指定として受け付けた所定の区分(単語)の出現頻度を計数した結果を、集計処理部122から取得し、ダミー変数変換の結果としてそれぞれの単語について計測値の一つとして変換対象データ記憶部111に記憶させる。
評価算出部127は、計測結果の値を用いて、検査対象の構造物の所定の評価指標を算出する。この評価手法については、各種の評価手法が考えられるが、本実施形態ではどのような方法によるものであってもよい。例えば、危険性を予見した単語については、対象物の評価を低く算出する要素として用いてもよい。すなわち、評価算出部127は、ダミー変数として定量的に算出されたテキストデータの特長値を用いて評価するものであれば、さまざまな処理を許容する。
入力部130は、データ数量化サーバー装置100への利用者10からの入力を受け付ける。例えば、入力部130は、タイピングやタッチ、フリック入力等の各種の接触入力、あるいは音声入力、または視線入力等の各種の入力を受け付ける。
出力部140は、データ数量化サーバー装置100からの利用者10への出力を行う。出力される情報は、画面や帳票等の各種出力情報である。
図5は、データ数量化サーバー装置のハードウェア構成例を示す図である。データ数量化サーバー装置100は、いわゆるサーバー装置、ワークステーション、パーソナルコンピュータ、スマートフォンあるいはタブレット端末の筐体により実現されるハードウェア構成を備える。データ数量化サーバー装置100は、演算装置101と、主記憶装置102と、補助記憶装置103と、各装置をつなぐバス107と、を備える。また他に、データ数量化サーバー装置100は、ネットワークを介して他の装置と通信する通信装置、タッチパネルやキーボード、マイク、ディスプレイ等の入出力装置を備える。
演算装置101は、例えばCPU(Central Processing Unit)などの演算装置である。
主記憶装置102は、例えばRAM(Random Access Memory)などのメモリ装置である。
補助記憶装置103は、デジタル情報を記憶可能な、いわゆるハードディスク(Hard Disk Drive)やSSD(Solid State Drive)あるいはフラッシュメモリなどの不揮発性記憶装置である。
なお、入出力装置には、キーボードやマウス、タッチパネル、ディスプレイ、マイク、スピーカー等の各種入出力装置が含まれる。
入出力装置と、演算装置101と、主記憶装置102と、補助記憶装置103とは、バス107等の接続導線により互いに接続される。
上記したデータ数量化サーバー装置100の条件受付部121と、集計処理部122と、ブラックリスト処理部123と、ホワイトリスト処理部124と、ダミー変数受付部125と、ダミー変数変換部126と、評価算出部127とは、演算装置101に処理を行わせるプログラムによって実現される。このプログラムは、主記憶装置102、補助記憶装置103または図示しないROM装置内に記憶され、実行にあたって主記憶装置102上にロードされ、演算装置101により実行される。
また、データ数量化サーバー装置100の記憶部110は、主記憶装置102及び補助記憶装置103により実現される。また、入力部130および出力部140は、入出力装置により実現される。以上が、データ数量化サーバー装置100のハードウェア構成例である。
データ数量化サーバー装置100の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
また、各制御部(条件受付部121と、集計処理部122と、ブラックリスト処理部123と、ホワイトリスト処理部124と、ダミー変数受付部125と、ダミー変数変換部126と、評価算出部127)は、それぞれの機能を実現する専用のハードウェア(ASIC、GPUなど)により構築されてもよい。また、各制御部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
次に、本実施形態における検査評価システム1の動作を説明する。
図6は、データ数量化処理のフローの例を示す図である。データ数量化処理は、利用者10からの開始指示に応じて起動される。
まず、条件受付部121は、変換対象指定受付処理を実施する(ステップS001)。具体的には、条件受付部121は、変換対象指定画面200にて入力された情報(ファイル名、変換対象列)を受け付ける。
図7は、変換対象指定画面の例を示す図である。変換対象指定画面200は、ファイル名入力領域201と、ファイル選択入力領域202と、変換対象列選択入力領域203と、ファイル内容表示領域204と、次へボタン205と、を含む。
ファイル名入力領域201は、ダミー変数へ変換する対象のデータ、すなわちファイルへのパスの入力を受け付ける。ファイル選択入力領域202は、入力を受け付けると、ディレクトリツリーを表示して、対象のファイルの選択を受け付ける。
変換対象列選択入力領域203は、入力を受け付けると、ファイル名入力領域201に入力されたパスのファイル内のカラムの情報(列名)を取得し、選択可能なリストに整形して表示する。
ファイル内容表示領域204は、ファイル名入力領域201に入力されたパスのファイルの内容を取得し、ファイル形式に合った表示情報に整形して(例えば、CSV(Comma-Separated Values)ファイルであれば、表形式に整形して)表示する。
次へボタン205は、入力を受け付けると、ファイル名入力領域201の入力値と、変換対象列選択入力領域203の入力値と、をデータ数量化サーバー装置100に送信する。
そして、条件受付部121は、頻出単語取得条件受付処理を実施する(ステップS002)。具体的には、条件受付部121は、頻出単語取得条件指定画面300にて入力された情報(頻出単語取得上位件数、ブラックリスト、ホワイトリスト)を受け付ける。
図8は、頻出単語取得条件指定画面の例を示す図である。頻出単語取得条件指定画面300は、頻出単語取得上位件数入力領域301と、ブラックリスト入力領域302と、ホワイトリスト入力領域303と、次へボタン304と、を含む。
頻出単語取得上位件数入力領域301は、出現頻度の高い単語(テキストデータを分割した所定の区分)のうち、頻出単語として表示あるいは出力させる最大件数の指定を受け付ける。
ブラックリスト入力領域302は、ブラックリスト、すなわち集計した出現頻度から除外する単語のリスト、の入力を受け付ける。これには、意味情報が極端に少ない単語「もの」「こと」「ため」等の一般的な除外対象単語と、業務的な意味で意味情報が少ない単語があればそのような除外対象単語と、を含めることができる。また、これらの除外対象単語を予め表示させるようにしてもよい。この場合には、利用者10は、予め表示された除外対象単語のうち、除外対象としない単語を削除すればよいため、利用に不慣れな利用者10であるほど利便性が高くなる。
ホワイトリスト入力領域303は、ホワイトリスト、すなわち集計した出現頻度に加え、出現頻度の集計に追加する単語(テキストデータを分割した所定の区分)を一つまたは複数指定するリストの入力を受け付ける。これには、造語や新語、外来語、業務的な重要度が高い単語、あるいは特に文字数の多い単語があればそのような追加対象単語と、を含めることができる。また、これらの追加の対象となる単語を予め表示させるようにしてもよい。この場合には、利用者10は、予め表示された追加の対象の単語のうち、追加の対象としない単語を削除すればよいため、利用に不慣れな利用者10であるほど利便性が高くなる。
次へボタン304は、入力を受け付けると、頻出単語取得上位件数入力領域301の入力値と、ブラックリスト入力領域302の入力値と、ホワイトリスト入力領域303の入力値と、をデータ数量化サーバー装置100に送信する。
そして、集計処理部122は、単語出現回数集計処理を行う(ステップS003)。具体的には、集計処理部122は、図9に示す単語出現回数集計処理を開始する。
そして、ブラックリスト処理部123は、ブラックリスト適用処理を行う(ステップS004)。具体的には、ブラックリスト処理部123は、図10に示すブラックリスト適用処理を開始する。
そして、ホワイトリスト処理部124は、ホワイトリスト適用処理を行う(ステップS005)。具体的には、ホワイトリスト処理部124は、図11に示すホワイトリスト適用処理を開始する。
そして、ダミー変数受付部125は、ダミー変数指定画面400にて入力された情報(チェック入力を受け付けた単語と、ホワイトリスト追加単語の入力値と)を受け付けて、ダミー変数選択処理を開始する(ステップS006)。
図13は、ダミー変数指定画面の例を示す図である。ダミー変数指定画面400は、単語出現回数表示領域401と、適用済みホワイトリスト表示領域404と、ホワイトリスト追加単語入力領域405と、頻出単語取得条件変更ボタン406と、次へボタン407と、を含む。
単語出現回数表示領域401は、単語を、出現回数の降順に、表形式で表示させる領域である。この表示は、ステップS003~ステップS005の処理結果が反映されたものである。そして、単語出現回数表示領域401には、ダミー変数(数量化の対象)に指定するチェック入力受付領域402を含み、また、ホワイトリストの単語403は強調(ハイライト、反転等)されて表示される。
適用済みホワイトリスト表示領域404には、適用されたホワイトリストの単語が表示される。ホワイトリスト追加単語入力領域405は、さらに適用したい追加のホワイトリストの単語の入力を受け付ける。
頻出単語取得条件変更ボタン406は、入力を受け付けると、頻出単語の取得条件を変更するために、頻出単語取得条件指定画面300へ遷移させる。
次へボタン407は、入力を受け付けると、チェック入力受付領域402にチェック入力を受け付けた単語と、ホワイトリスト追加単語入力領域405の入力値と、をデータ数量化サーバー装置100に送信する。
そして、ダミー変数変換部126は、ダミー変数選択完了フラグがONか否か、判定する(ステップS007)。ダミー変数選択完了フラグは、ダミー変数選択処理においてON/OFFが制御されるフラグである。そのフラグが「OFF」である場合(ステップS007にて「No」の場合)には、ダミー変数変換部126は、制御をステップS002に戻す。
ダミー変数選択完了フラグが「ON」である場合(ステップS007にて「Yes」の場合)には、ダミー変数変換部126は、ダミー変数変換処理を行う(ステップS008)。具体的には、ダミー変数変換部126は、ダミー変数(数量化の対象)に指定された単語について、集計処理部122の集計結果を取得するダミー変数変換処理を行う。また、ダミー変数変換部126は、取得した集計結果を用いて、変換結果確認画面500を作成する。
図15は、変換結果確認画面の例を示す図である。変換結果確認画面500は、ファイル名入力領域501と、ファイル選択入力領域502と、ダミー変数表示領域503と、出力ボタン504と、を含む。
ファイル名入力領域501は、ダミー変数へ変換済みのデータ、すなわちファイルへのパスの入力を受け付ける。ファイル選択入力領域502は、入力を受け付けると、ディレクトリツリーを表示して、対象のファイルの選択を受け付ける。
ダミー変数表示領域503は、ファイル名入力領域501に入力されたファイルの内容が表示される。ファイル名入力領域501にダミー変数変換部126により変換処理が行われた結果が追加されたファイルを指定されると、ダミー変数(ダミー変数として指定された単語ごとの出現回数)が追記された情報を含むファイル内容が表示される。
出力ボタン504は、入力を受け付けると、ファイル名入力領域501に入力されたファイル名をデータ数量化サーバー装置100に送信する。
そして、ダミー変数変換部126は、変換結果保存処理を行う(ステップS009)。具体的には、ダミー変数変換部126は、変換結果確認画面500のファイル名入力領域501に入力されたファイル名を受け付けて、変換結果のファイルとして保存する。また、ダミー変数変換部126は、評価算出部127に当該ファイル名を受け渡し、評価算出部127は該ファイルのファイルを用いて検査対象物に所定の評価を行う。
以上が、データ数量化処理のフローの例である。データ数量化処理によれば、フリーテキストエリアを含むファイルのフリーテキスト部分に含まれる重要な単語の出現頻度から、フリーテキストにのみ含まれる情報を定量化できる。そのため、文章の内容を適切に評価できるようになる。
図9は、単語出現回数集計処理(N-gram利用)のフローの例を示す図である。単語出現回数集計処理は、データ数量化処理のステップS003において開始される。
まず、集計処理部122は、単語出現回数リストを初期化する(ステップS0031)。そして、集計処理部122は、変換対象データを読み込む(ステップS0032)。具体的には、集計処理部122は、ファイル名入力領域201の入力値により特定されるファイルについて読み出す。
そして、集計処理部122は、未取得の行があるか否かを判定する(ステップS0033)。未取得の行がない場合(ステップS0033にて「No」の場合)には、集計処理部122は、単語出現回数集計処理を終了させる。
未取得の行がある場合(ステップS0033にて「Yes」の場合)には、集計処理部122は、未取得の行を一行取得する(ステップS0034)。
そして、集計処理部122は、取得した行から対象列の値を取得する(ステップS0035)。具体的には、集計処理部122は、変換対象列選択入力領域203の入力値により特定されるカラムについての未処理の情報を、先頭から順に一つ取得する。
そして、集計処理部122は、値(自由記述)の単語出現回数をN-gramで集計する(全単語対象)(ステップS0036)。具体的には、集計処理部122は、変換対象列選択入力領域203の入力値により特定されるカラムについての各行の情報をテキストとして読み出し、N-gramによりテキストを分割して区分を作成し、各区分の出現頻度を特定する。
そして、集計処理部122は、集計結果を単語出現回数リストへ追加する(ステップS0037)。具体的には、集計処理部122は、各区分の文字を、単語出現回数リストの各区分の文字と照会し、揺らぎの範囲内であれば同一とみなして出現頻度に加算する。いずれの区分の文字とも異なる区分の文字については、特定した出現頻度を当該区分の出現頻度として頻度記憶部112に記録する。そして、集計処理部122は、制御をステップS0033に戻す。
以上が、単語出現回数集計処理のフローである。単語出現回数集計処理によれば、N-gramにより分析対象のフリーテキストを順次読み出して区分し、区分ごとに出現頻度を単語出現回数リストに記録できる。
図10は、ブラックリスト適用処理のフローの例を示す図である。ブラックリスト適用処理は、データ数量化処理のステップS004において開始される。
まず、ブラックリスト処理部123は、単語出現回数リストを取得する(ステップS0041)。具体的には、ブラックリスト処理部123は、単語出現回数集計処理(N-gram利用)のステップS0037にて追加した単語出現回数リストを受け取る。
そして、ブラックリスト処理部123は、ブラックリストを読み込む(ステップS0042)。具体的には、ブラックリスト処理部123は、データ数量化処理のステップS002にて受け付けたブラックリストを読み込む。
そして、ブラックリスト処理部123は、チェックしていない単語があるか否かを判定する(ステップS0043)。チェックしていない単語がない場合(ステップS0043にて「No」の場合)には、ブラックリスト処理部123は、ブラックリスト適用処理を終了させる。
チェックしていない単語がある場合(ステップS0043にて「Yes」の場合)には、ブラックリスト処理部123は、単語出現回数リストから未チェックの単語を取得する(ステップS0044)。
そして、ブラックリスト処理部123は、単語がブラックリストに含まれているか否か判定する(ステップS0045)。単語がブラックリストに含まれていない場合(ステップS0045にて「No」の場合)には、ブラックリスト処理部123は、制御をステップS0043へ戻す。
単語がブラックリストに含まれている場合(ステップS0045にて「Yes」の場合)には、ブラックリスト処理部123は、単語を表示または出力対象から除外する(ステップS0046)。具体的には、ブラックリスト処理部123は、頻度記憶部112の当該単語のブラック指定112Dに「True」を格納する。
以上が、ブラックリスト適用処理のフローである。ブラックリスト適用処理によれば、ブラックリストに挙げた単語が検出された場合であっても、当該単語を表示または出力の対象から除外することができる。
図11は、ホワイトリスト適用処理のフローの例を示す図である。ホワイトリスト適用処理は、データ数量化処理のステップS005において開始される。
まず、ホワイトリスト処理部124は、ホワイトリストを読み込む(ステップS0051)。具体的には、ホワイトリスト処理部124は、データ数量化処理のステップS002にて受け付けたホワイトリストおよび後述するダミー変数選択処理のステップS0064にて追加されたホワイトリストを読み込む。
そして、ホワイトリスト処理部124は、チェックしていない単語があるか否かを判定する(ステップS0052)。チェックしていない単語がない場合(ステップS0052にて「No」の場合)には、ホワイトリスト処理部124は、ホワイトリスト適用処理を終了させる。
チェックしていない単語がある場合(ステップS0052にて「Yes」の場合)には、ホワイトリスト処理部124は、単語出現回数リストに集計結果がない単語がホワイトリストに含まれるか否か、判定する(ステップS0053)。集計結果がある場合(ステップS0053にて「No」の場合)には、ホワイトリスト処理部124は、制御をステップS0052に戻す。
集計結果がない場合(ステップS0053にて「Yes」の場合)には、ホワイトリスト処理部124は、集計結果がない単語について出現回数を集計する(ステップS0054)。そして、ホワイトリスト処理部124は、制御をステップS0052に戻す。
以上が、ホワイトリスト適用処理のフローである。ホワイトリスト適用処理によれば、ホワイトリストに挙げた単語の出現頻度が集計されていない場合には、当該単語の出現頻度を集計し、表示または出力の対象に追加することができる。
図12は、ダミー変数選択処理のフローの例を示す図である。ダミー変数選択処理は、データ数量化処理のステップS006において開始される。
まず、ダミー変数受付部125は、単語出現回数リストを表示させる(ステップS0061)。具体的には、ダミー変数受付部125は、ダミー変数指定画面400を表示させる。この際、ダミー変数受付部125は、ステップS003~ステップS005の処理結果を用いて、出現回数の順に単語を表示させることは、上述のとおりである。
そして、ダミー変数受付部125は、ホワイトリスト単語出現回数表示を行う(ステップS0062)。具体的には、ダミー変数受付部125は、ダミー変数指定画面400において、ホワイトリスト適用処理の結果得たホワイトリストの単語について、ハイライト等により強調表示させる。
そして、ダミー変数受付部125は、ダミー変数の選択を受け付ける(ステップS0063)。具体的には、ダミー変数受付部125は、ダミー変数指定画面400のチェック入力受付領域402にチェック入力を受け付けた単語をダミー変換リストとして受け付ける。
そして、ダミー変数受付部125は、ホワイトリストへの追加単語を受け付ける(ステップS0064)。具体的には、ダミー変数受付部125は、ダミー変数指定画面400のホワイトリスト追加単語入力領域405に入力された値をホワイトリストへ追加する単語として受け付ける。
そして、ダミー変数受付部125は、追加する単語は単語出現回数リストに集計結果が既にあるか否か判定する(ステップS0065)。なお、追加する単語が複数ある場合には、それぞれの単語について判定し、全ての単語が単語出現回数リストに既にあるか否か判定する。
追加する単語は単語出現回数リストに集計結果が既にある場合(ステップS0065にて「Yes」の場合)には、ダミー変数受付部125は、ダミー変数選択完了フラグをONに設定する(ステップS0066)。
追加する単語に、単語出現回数リストの集計結果がないものが含まれる場合(ステップS0065にて「No」の場合)には、ダミー変数受付部125は、ダミー変数選択完了フラグをOFFに設定する(ステップS0067)。
以上が、ダミー変数選択処理のフローである。ダミー変数選択処理によれば、出現回数の示された単語のうち、ダミー変数とする、すなわち数量化する単語を選択することができる。
図14は、ダミー変数変換処理のフローの例を示す図である。ダミー変数変換処理は、データ数量化処理のステップS008において開始される。
まず、ダミー変数変換部126は、ダミー変換リストを読み込む(ステップS0081)。具体的には、ダミー変数変換部126は、ダミー変数選択処理のステップS0063にて受け付けられたダミー変換リストを読み込む。
そして、ダミー変数変換部126は、処理していないダミー変数の単語があるか否か判定する(ステップS0082)。処理していないダミー変数の単語がない場合(ステップS0082にて「No」の場合)には、ダミー変数変換部126は、ダミー変数変換処理を終了させる。
処理していないダミー変数の単語がある場合(ステップS0082にて「Yes」の場合)には、ダミー変数変換部126は、処理していないダミー変数の単語を取得する(ステップS0083)。
そして、ダミー変数変換部126は、入力データにダミー変数の単語の列を追加する(ステップS0084)。具体的には、ダミー変数変換部126は、入力データすなわち変換対象データに対して、ダミー変数の単語ごとにカラムを設ける。
そして、ダミー変数変換部126は、入力データ各行の処理対象列の値を取得する(ステップS0085)。具体的には、ダミー変数変換部126は、変換対象データの変換対象カラムについて読み出す。
そして、ダミー変数変換部126は、取得した処理対象カラムの値に、処理していないダミー変数の単語が含まれているか否か判定する(ステップS0086)。
ダミー変数の単語が取得した処理対象カラムの値に含まれている場合(ステップS0086にて「Yes」の場合)には、ダミー変数変換部126は、処理対象カラムの値に含まれているダミー変数列の値として「1」を入力する(ステップS0087)。そして、ダミー変数変換部126は、制御をステップS0082に戻す。
ダミー変数の単語が、取得した処理対象カラムの値に含まれていない場合(ステップS0086にて「No」の場合)には、ダミー変数変換部126は、処理対象カラムの値に含まれていないダミー変数列の値として「0」を入力する(ステップS0088)。そして、ダミー変数変換部126は、制御をステップS0082に戻す。
以上が、ダミー変数変換処理のフローである。ダミー変数変換処理によれば、フリーテキストを、選択されたダミー変数に変換することができる。
以上が、本発明の実施形態にかかる検査評価システム1である。検査評価システム1によれば、定性的な文書の内容からダミー変数を得られるため適切に評価することができる。
本発明は、上記の実施形態に制限されない。上記の実施形態は、本発明の技術的思想の範囲内で様々な変形が可能である。例えば、上記の実施形態においては、単語出現回数集計処理ではN-gramを用いて区分(単語)を得ているが、これに限られない。例えば、形態素解析等、他の手段により区分(単語)を得るものであってもよい。このようにした場合、品詞まで判別することが可能となるため、出現頻度を集計する処理において品詞フィルタを用いて精度を高めることができる。このような第二の実施形態について、図16から図18を用いて説明する。
第二の実施形態は、第一の実施形態と基本的に同様であるが、一部に相違がある。以下、その相違を中心に説明する。
図16は、頻出単語取得条件指定画面の別の例を示す図である。頻出単語取得条件指定画面300´では、品詞フィルタ指定入力領域310が追加されている。品詞フィルタ指定入力領域310では、ダミー変数として数量化する対象の単語について、品詞別に絞り込むための入力を受け付ける。頻出単語取得条件指定画面300´では、例えば、「一般名詞」、「固有名詞」、「人名」、「地名」、「記号」の品詞を指定入力可能である。ここでチェックを入れなかった品詞については、ダミー変数として数量化する対象の単語とならない。そのため、数量化したい区分(単語)がある場合には、個別にホワイトリストに指定することができる。
図17は、単語出現回数集計処理(形態素解析利用)のフローの例を示す図である。このフローは、基本的に単語出現回数集計処理(N-gram利用)のフローと同様であるが、ステップS0035より後の処理の流れが異なる。
まず、集計処理部122は、対象値(自由記述)を形態素解析する(ステップS0136)。
そして、集計処理部122は、形態素解析結果で評価していない単語があるか否か判定する(ステップS0137)。形態素解析結果で評価していない単語がない場合(ステップS0137にて「No」の場合)には、集計処理部122は、制御をステップS0033に戻す。
形態素解析結果で評価していない単語がある場合(ステップS0137にて「Yes」の場合)には、集計処理部122は、その単語の品詞が名詞(指定された品詞)であるか否か判定する(ステップS0138)。具体的には、集計処理部122は、指定入力された「一般名詞」、「固有名詞」、「人名」、「地名」、「記号」の品詞であるか否か判定する。単語の品詞が名詞(指定された品詞)でない場合(ステップS0138にて「No」の場合)には、集計処理部122は、制御をステップS0137に戻す。
単語の品詞が名詞(指定された品詞)である場合(ステップS0138にて「Yes」の場合)には、集計処理部122は、単語出現回数リストに当該単語の出現回数をカウントして追加する(ステップS0139)。そして、集計処理部122は、制御をステップS0137に戻す。
以上が、単語出現回数集計処理(形態素解析利用)のフローである。単語出現回数集計処理(形態素解析利用)によれば、指定された品詞以外の区分(単語)はノイズとして出現頻度の集計から無視されることとなるため、精度高く評価することが可能となる。
図18は、ダミー変数指定画面の別の例を示す図である。ダミー変数指定画面400´では、基本的にダミー変数指定画面400と表示内容は同じであるが、単語出現回数(名詞)表示領域410と、ホワイトリスト単語出現回数表示領域411と、が含まれる。
単語出現回数(名詞)表示領域410は、単語を、出現回数の降順に、表形式で表示させる領域である。この表示は、ステップS003~ステップS005の処理結果が反映されたものである。そして、単語出現回数(名詞)表示領域410には、ダミー変数(数量化の対象)に指定するチェック入力受付領域を含む。しかし、ホワイトリストの単語は含まれない。ホワイトリストの単語の集計結果は、ホワイトリスト単語出現回数表示領域411に別表として表示される。
以上が、第二の実施形態にかかる検査評価システムである。第二の実施形態に係る検査評価システムによれば、より精度高くダミー変数を得られるため適切に評価することができる。
さらには、このような第二の実施形態において、ホワイトリストの追加候補をダミー変数指定画面において提案するように変形してもよい。このような変形について、図19を用いて説明する。
第三の実施形態に係る検査評価システムでは、基本的には第二の実施形態と略同様の構成を備える。しかし、一部において相違がある。以下、そのような相違を中心に説明する。
図19は、ダミー変数指定画面のさらに別の例を示す図である。ダミー変数指定画面400´´には、ホワイトリスト追加候補入力領域420が含まれる。集計処理部122は、N-gramを利用してテキストデータを所定の区分に分割するとともに、出現頻度を用いて所定の区分を組み合わせて、Nの値を超える語長の単語をホワイトリストの候補として提案することができる。また、集計処理部122は、形態素解析を利用してテキストデータを所定の区分に分割する場合にも、共起表現や類義語、外来語等の他の表現を提案することができる。
そして、集計処理部122により提案されたホワイトリストの候補は、ホワイトリスト追加候補入力領域420にリストして表示され、各単語(区分)に対応するチェック欄を設けられる。チェック欄への入力のあった単語(区分)は、ホワイトリストに追加する対象として扱われる。
以上が、第三の実施形態に係る検査評価システムである。
また、本発明に係る技術は、上述のような検査評価システムに限られず、随時の通報、参照があり、随時にデータ収集・分析を行うシステムである地域情報収集システムに適用されるものであってもよい。このような例について、図20~図39を用いて説明する。
図20は、第四の実施形態に係る地域情報収集システムの例に係るブロック図である。地域情報収集システム1000は、周辺の住民や自治体、行政の担当者との間で、ある地域の異常事態や治安の情報を自由に共有するシステムである。例えば、住民が歩道の隆起を発見すると、当該システムを用いて歩道の隆起を通報することができる。これを自治体組織や行政組織の担当者が当該システムを用いて受け付けて、修繕を手配することにつなげることができる。あるいは、食中毒や流行病、災害の発見・封じ込め、不審者情報の共有につなげることもできる。
地域情報収集システム1000は、基本的には検査評価システム1とほぼ同様の構成を備えるが、一部に相違がある。以下、その相違を中心に説明する。
地域情報収集システム1000には、データ数量化サーバー装置100´が含まれる。当該システムの利用者である外部利用者20は、インターネット等の公衆網や携帯電話データ通信ネットワーク、WAN(Wide Area Network)、あるいはLAN(Local Area Network)等のネットワーク50を介して、スマートフォンやパーソナルコンピュータ等の端末からデータ数量化サーバー装置100´を利用する。
データ数量化サーバー装置100´の記憶部110´には、変換対象データ記憶部111´と、時刻住所優先順位記憶部115と、が含まれる。
図21は、変換対象データ記憶部のデータ構造例を示す図である。変換対象データ記憶部111´には、事象ID111A´と、補助ID111B´と、コメント(自由記述内容)111C´と、コメント者111D´と、コメント時刻111E´と、現場住所111F´と、現場緯度経度111G´と、コメント者位置111H´と、画像位置111J´と、テキスト抽出位置111K´と、ステータス111L´と、が含まれる。
事象ID111A´は、通報とその通報に関連するその他の報告とを含めて一連の事象として他の事象と区別する識別子である。補助ID111B´は、事象内の通報、各報告、連絡等を他から区別する識別子である。コメント(自由記述内容)111C´は、通報や連絡の内容を自然言語で表したフリーテキストである。例えば、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかを含む。
コメント者111D´とコメント時刻111E´とは、それぞれ、コメントを発した者と、コメントされた事象が観測された時刻を特定する情報である。現場住所111F´と現場緯度経度111G´とは、それぞれ、異常事態あるいは治安上の問題の発生した地点を含む地域と、その地点とを特定する情報である。
コメント者位置111H´は、コメント者がコメントを発した時点で存在していた位置を特定する情報である。画像位置111J´は、コメント者が画像を添付している場合にはその画像に関連付けられた撮影位置を特定する情報である。テキスト抽出位置111K´は、コメント内のテキスト情報から位置情報に相当するキーワードを抽出して、ジオコーディングした位置情報である。ステータス111L´は、各コメントの完了/継続中を特定する情報である。
図22は、時刻住所優先順位記憶部のデータ構造例を示す図である。時刻住所優先順位記憶部115には、特定項目115Aと、順位115Bと、元情報115Cと、が含まれる。特定項目115Aは、時刻または住所のいずれを特定する対象とする基準であるかを特定する情報である。順位115Bは、特定項目115Aにより特定される項目についての優先順を特定する情報である。元情報115Cは、特定項目115Aにより特定される項目の元となる情報を特定する情報である。例えば、特定項目115Aが「現場住所」、順位115Bが「1」、元情報115Cが「コメント者位置」であれば、現場住所を特定するにあたり、コメント者位置を最優先として特定する、というルールを示すものである。同様に、特定項目115Aが「現場住所」、順位115Bが「2」、元情報115Cが「画像位置」であれば、現場住所を特定するにあたり、コメント者位置の次に画像位置を優先して現場住所として特定する、というルールを示すものである。
また、制御部120には、情報統合部128が含まれる。情報統合部128は、後述する情報統合処理を実施する。
図23は、情報統合処理のフローの例を示す図である。情報統合処理は、所定件数(例えば、1件または3件)のコメント追加があった場合に、あるいは所定の時間間隔(例えば、10分間隔)で、開始される。
情報統合部128は、図6のデータ数量化処理を実施させ(ステップS101)、その後、各コメントの時刻と住所を特定する(ステップS102)。
各コメントの時刻と住所を特定する処理としては、情報統合部128は、各コメントごとに、時刻住所優先順位記憶部115のルールを参照して、コメント時刻111E´と現場住所111F´とを特定する。具体的には、情報統合部128は、「現場住所」の元情報となる「テキスト抽出位置」については、辞書に「地名」である旨記載してある単語を優先的に、コメントの内容から位置情報に相当するキーワードを抽出するか、固有表現抽出と呼ばれる公知の手法等で、地名らしい単語部分を抽出してジオコーディングと呼ばれる公知の手法で緯度経度を抽出する処理を行う。そして、情報統合部128は、時刻住所優先順位記憶部115を参照し、「現場住所」の「優先順」に位置情報を参照し、欠損値があった場合には、その順位を飛ばして下位の順位の位置情報を「現場住所」として採用する。
コメントの時刻についても同様に、情報統合部128は、通報のあった時刻と、画像の時刻と、テキスト抽出時刻と、を抽出し、時刻住所優先順位記憶部115を参照し、「コメント時刻」の「優先順」に時刻情報を参照し、欠損値があった場合には、その順位を飛ばして下位の順位の時刻情報を「コメント時刻」として採用する。
以上が、情報統合処理の流れである。情報統合処理によれば、データ数量化処理によりコメントにあるフリーテキストを対象として、頻出単語をダミー変数として抽出するとともに、コメントごとに時刻と住所とを特定することができる。
図24は、地域情報集計処理のフローの例を示す図である。地域情報集計処理は、外部利用者20から要求があった場合に、開始される。
まず、情報統合部128は、ダミー変数を取得する(ステップS201)。具体的には、情報統合部128は、情報統合処理のステップS101にて作成されたダミー変数を読み込む。そして、集計項目設定画面600を作成し、外部利用者20のアクセスに用いている端末に送信して表示させる。
図25は、集計項目設定画面の例を示す図である。集計項目設定画面600には、コメントの抽出条件と、表示に用いる分類軸と、集計の表示対象を特定する集計値と、を入力する領域が含まれる。
コメントの抽出条件を入力する領域には、ダミー変数の限定を行うための設定となる抽出条件(ダミー変数)受付領域610と、ダミー変数以外(すなわち、定型項目)の限定を行うための設定となる抽出条件(ダミー変数以外)受付領域620と、が含まれる。
さらに詳細には、抽出条件(ダミー変数)受付領域610には、絞り込み対象とするダミー変数のチェックボックスと、各ダミー変数の存在を条件とするか不存在を条件とするかを制御するチェックボックス611と、が含まれる。
また、抽出条件(ダミー変数以外)受付領域620には、絞り込み対象とするダミー変数以外のチェックボックスと、各ダミー変数の詳細条件の入力を受け付ける詳細条件受け付け領域とが含まれる。例えば、コメント時刻については、コメント時刻の抽出範囲を決定する開始時刻または終了時刻のいずれかまたは両方を指定する入力を受け付ける時刻帯指定受付領域621が含まれる。ステータスについては、継続中か完了かを受け付けるチェックボックス622が含まれる。
表示に用いる分類軸を入力する領域には、ダミー変数の限定を行うための設定となる分類軸X(ダミー変数)受付領域630と、ダミー変数以外(すなわち、定型項目)の限定を行うための設定となる分類軸Y(ダミー変数以外)受付領域640と、が含まれる。
分類軸X(ダミー変数)受付領域630には、ダミー変数の組み合わせnCkを決定するためのパラメータとして、選ぶ数kと元の数nの指定を受け付ける領域が含まれる。選ぶ数kの指定は、選択するダミー変数の数受付領域631において受け付け、元の数nの指定は、値=1を集計するダミー変数のチェックボックスにて受け付ける。
分類軸Y(ダミー変数以外)受付領域640には、分類軸およびその階層を受け付ける領域が含まれる。
集計値受付領域650には、コメントの件数を表示するか否か、コメント内容を連結させて表示するか否か、の指定の受付領域が備えられている。
そして、情報統合部128は、集計項目設定画面600において設定された集計項目を、受け付ける(ステップS202)。
情報統合部128は、分類軸にダミー変数のみが選択されたか否かを判定する(ステップS203)。具体的には、情報統合部128は、分類軸X(ダミー変数)受付領域630に分類軸Xの設定を受け付けて、かつ、分類軸Y(ダミー変数以外)受付領域640に定型項目のチェックを受け付けなかったか否かを判定する。
分類軸にダミー変数のみが選択された場合(ステップS203にて「Yes」の場合)には、情報統合部128は、分類軸にダミー変数を一つ選択されたか否か判定する(ステップS204)。例えば、情報統合部128は、選択するダミー変数の数受付領域631に入力された値が1であるか否かを判定する。
分類軸にダミー変数を一つ選択された場合(ステップS204にて「Yes」の場合)には、情報統合部128は、選択されたダミー変数ごとにコメント件数およびコメントを分類して、集計値受付領域650にて受け付けた指定に応じて出力する(ステップS205)。その出力例は、後述する単変数集計画面700となる。
図26は、単変数集計画面の例を示す図である。単変数集計画面700には、ダミー変数を行(縦軸)として、横軸に件数またはコメント内容を整理する表701が含まれる。例えば、集計値受付領域650にてコメント件数とコメント内容のどちらも指定した場合、ダミー変数が「歩道」の行には、「歩道」を含むコメントの件数と、「歩道」を含むコメントの内容と、が表示される。
分類軸にダミー変数を一つ選択された場合でない場合(ステップS204にて「No」の場合)には、情報統合部128は、選択されたダミー変数の組み合わせごとにコメント件数およびコメントを分類して、集計値受付領域650にて受け付けた指定に応じて出力する(ステップS206)。その出力例は、後述する複数変数集計画面710となる。
図27は、複数変数集計画面の例を示す図である。複数変数集計画面710には、ダミー変数の組み合わせを行(縦軸)として、横軸に件数、コメント内容を整理する表711が含まれる。例えば、集計値受付領域650にてコメント件数とコメント内容のどちらも指定した場合、ダミー変数が「歩道×修繕」の行には、「歩道」と「修繕」の両方を含むコメントの件数と、「歩道」と「修繕」の両方を含むコメントの内容と、が表示される。
分類軸にダミー変数のみが選択されていない場合(ステップS203にて「No」の場合)には、情報統合部128は、分類軸にダミー変数以外の変数を一つ選択されたか否か判定する(ステップS207)。例えば、情報統合部128は、分類軸Y(ダミー変数以外)受付領域640に、分類軸が1階層のみ選択されているか否かを判定する。
分類軸にダミー変数以外の変数を一つ選択された場合(ステップS207にて「Yes」の場合)には、選択されたダミー変数の組み合わせと、ダミー変数以外の分類軸ごとにコメント件数およびコメントを分類して、集計値受付領域650にて受け付けた指定に応じて出力する(ステップS208)。その出力例は、後述する一階層クロス表画面750となる。
図28は、一階層クロス表画面の例を示す図である。一階層クロス表画面750には、ダミー変数の組み合わせを行(縦軸)751として、横軸に分類軸Yに指定された項目である現場の住所752が設けられている。すなわち、コメント内容が、含まれるダミー変数の組み合わせと、現場の住所との交わった領域に表示される。例えば、ダミー変数が「歩道×修繕」の行には、集計値受付領域650にてコメント内容のみ指定した場合、「歩道」と「修繕」の両方を含むコメントの内容が、現場の住所別に整理されて表示される。
分類軸にダミー変数以外の変数を一つ選択されていない場合(ステップS207にて「No」の場合)には、選択されたダミー変数の組み合わせと、ダミー変数以外の分類軸ごとにコメント件数およびコメントを分類して、集計値受付領域650にて受け付けた指定に応じて出力する(ステップS209)。その出力例は、後述する多階層クロス表画面760となる。
図29は、多階層クロス表画面の例を示す図である。多階層クロス表画面760には、ダミー変数の組み合わせを行(縦軸)761として、横軸に分類軸Yに指定された項目である現場の住所762およびコメント者763の組み合わせが分類軸Yに指定した数字の順に設けられている。すなわち、コメント内容が、含まれるダミー変数の組み合わせと、現場の住所およびコメント者の組み合わせとの交わった領域に表示される。例えば、ダミー変数が「歩道×修繕」の行には、集計値受付領域650にてコメント内容のみ指定した場合、「歩道」と「修繕」の両方を含むコメントの内容が、現場の住所およびコメント者別に整理されて表示される。
以上が、地域情報集計処理のフローの例である。地域情報集計処理によれば、地域の通報情報が、指定された項目軸に従って整理されて分類表示される。
地域情報集計処理のフローで出力される画面は、上記の画面に限られず、定型項目の種類によっては別の画面により表示される。
図30は、一階層クロス表画面の別の例(時刻スライス)を示す図である。一階層クロス表画面(時刻スライス)770には、時刻帯別に、一階層クロス表が表示されている。これは、抽出条件(ダミー変数以外)受付領域620にてコメント時刻が受け付けられた出力を並べた例である。
図31は、一階層クロス表画面の別の例(継続中限定表示)を示す図である。一階層クロス表画面継続中限定表示)780には、時刻帯別に、継続中の事案について一階層クロス表が表示されている。これは、(ダミー変数以外)受付領域620にてコメント時刻およびステータスが受け付けられた出力を並べた例である。
図32は、地図表示画面の例を示す図である。地図表示画面800には、地域の地図画像801と、地図画像に重畳されるコメント欄802と、表示設定(表示対象のダミー変数)805と、表示設定(表示対象の場所情報)806と、が含まれる。コメント欄802には、ダミー変数のいずれかとそのコメント件数803と、コメント内容804と、が含まれる。
表示設定(表示対象のダミー変数)805は、選択的にコメント欄802に表示させるダミー変数あるいはダミー変数を決定する基準の指定を受け付ける。表示設定(表示対象の場所情報)806は、地図画像801の領域の境界の分け方の入力を受け付ける。
図33は、地図表示画面の別の例を示す図である。地図表示画面800には、地域の地図画像801と、地図画像に重畳されるコメント欄802´と、表示設定(表示対象のダミー変数)805と、表示設定(表示対象の場所情報)806と、が含まれる。コメント欄802´には、ダミー変数のいずれかとそのコメント件数803´と、コメント内容804´と、が含まれる。
図33の例では、表示設定(表示対象のダミー変数)805は、ダミー変数を決定する基準の指定(件数が該当箇所で最大)を受け付けている状態にある。そのため、地図画像801の各領域(丁)ごとに、件数が最大のダミー変数が抽出され、表示される。
以上が、第四の実施形態に係る地域情報収集システムの例である。第四の実施形態に係る地域情報収集システムによれば、周辺の住民や自治体、行政の担当者との間で、ある地域の異常事態や治安の情報を自由に共有することができる。
図34は、第四の実施形態に係る地域情報収集システムの別の例に係るブロック図である。地域情報収集システム1000´は、基本的には地域情報収集システム1000とほぼ同様の構成を備えるが、一部に相違がある。以下、その相違を中心に説明する。
データ数量化サーバー装置100´´の記憶部110´´には、変換対象データ記憶部111´´と、ダミータグ記憶部116と、画像間タグ類似度記憶部117と、が含まれる。
図35は、変換対象データ記憶部のデータ構造例を示す図である。変換対象データ記憶部111´´にはさらに、画像111M´が含まれる。この画像は、コメント者がコメント時に添付する画像である。
図36は、ダミータグ記憶部のデータ構造例を示す図である。ダミータグ記憶部116には、行方向に画像116Aと、列方向に第一のダミータグ116Bと、第二のダミータグ116Cと、が含まれる。画像116Aは、画像を特定する情報である。第一のダミータグ116Bと、第二のダミータグ116Cとは、ダミー変数に応じて設けられる列である。第一のダミータグ116Bと、第二のダミータグ116Cとは、画像116Aのいずれかと関連するダミータグを重複しないよう列として設けたものである。したがって、画像116Aに含まれる画像に応じて、第一のダミータグ116Bと、第二のダミータグ116Cとについても変動する。そして、行と列がクロスする点には、当該画像のコメントに当該ダミー変数が含まれる場合には「1」が、そうでない場合には「0」が、それぞれ格納される。なお、ダミータグ記憶部116のデータ構造は、これに限られず、例えば、画像に関連するタグのみを関連付けるようにしてもよい。すなわち、コメントに含まれないダミー変数のタグについては関連付けないようなデータ構造としてもよい。このようなデータ構造を用いて、検索キーワードに一致する画像を検索できる。
図37は、画像間タグ類似度記憶部のデータ構造例を示す図である。画像間タグ類似度記憶部117には、画像間の総当り表が含まれ、行方向の画像117Bに対する列方向の画像117Aの類似度が所定の基準に応じて算出されて格納される。なお、この例では、画像間で共通するタグの数が類似度として算出されている。
地域情報収集システム1000´では、情報統合処理のステップS102にて実施される各コメントの時刻と住所を特定する処理に続けて、変換対象データ記憶部111´´の画像111M´が抽出され、それぞれの画像に関連するコメント(自由記述内容)111C´から抽出されたダミー変数が、画像ごとにタグとして類似検索部129により関連付けられる。そして、その関連付けは、ダミータグ記憶部116に類似検索部129により格納される。
そしてさらに、類似検索部129は、画像間の類似度を判定して、画像間タグ類似度記憶部117に格納する。この処理では、類似検索部129は、画像ごとに、関連付けられているダミー変数を基にしたタグを比較して、一致するタグを計数することで、類似度とする。すなわち、共通するダミー変数が3つあるコメントに添付された画像同士は、類似度が「3」とされ、画像間タグ類似度記憶部117に格納される。
また、類似検索部129は、これらのダミータグ記憶部116を用いて、検索ワードを受け付けて画像を検索し、出力することができる。これを画像あいまい検索と称呼する。
図38は、画像あいまい検索画面の例を示す図である。画像あいまい検索画面900には、検索ワード入力領域901と、検索結果表示領域902と、が含まれる。また、検索結果表示領域902には、類似度表示領域903と、画像情報表示領域904と、が含まれる。
検索ワード入力領域901は、画像を検索するキーワード(ダミー変数)を受け付ける。検索結果表示領域902には、検索ワード入力領域901により入力されたキーワードと類似する画像およびタグがリストされる画像情報表示領域904と、類似度表示領域903と、が表示される。
ここで、類似検索部129は、ダミータグ記憶部116の画像116Aごとに、ダミータグの値を成分とするベクトルを、その画像の特徴を示す特徴ベクトルとして扱い、検索キーワードからなる特徴ベクトルとの間の類似度が高い画像を検索する。この検索では、類似検索部129は、ベクトル間のユークリッド距離を求めることで類似度とすることができる。だが、これに限られるものではなく、一致するタグ数を類似度とするものであってもよい。
また、類似検索部129は、これらのダミータグ記憶部116を用いて、画像を受け付けて類似する他の画像を検索し、出力することができる。これをタグ類似画像検索と称呼する。
図39は、タグ類似画像検索画面の例を示す図である。タグ類似画像検索画面910には、検索画像領域911と、類似検索実行指示受付領域912と、検索結果表示領域920と、が含まれる。また、検索結果表示領域920には、類似度表示領域921と、画像情報表示領域922と、が含まれる。
検索画像領域911は、類似画像を検索する画像が含まれる。例えば、ある画像が添付されたコメントを表示し、これに似た画像を検索する場合には、当該コメントに添付されている画像が類似画像を検索する画像に相当する。類似検索指示受付領域912は、入力を受け付けると、対応する検索画像領域911において指定された画像の類似画像を検索する指示を受け付ける。検索結果表示領域920には、検索画像領域911に含まれる画像と類似する画像およびタグがリストされる画像情報表示領域922と、類似度表示領域921と、が表示される。
ここで、類似検索部129は、画像間タグ類似度記憶部117の画像117Bを検索して、類似度の高い他の画像を特定する。なお、これに限られず、類似検索部129は、実行時にダミータグの値を成分とするベクトルを、その画像の特徴を示す特徴ベクトルとして扱い、検索画像の特徴ベクトルとの間の類似度が高い画像を検索するようにしてもよい。この検索では、類似検索部129は、ベクトル間のユークリッド距離を求めることで類似度とすることができる。だが、これに限られるものではなく、一致するタグ数を類似度とするものであってもよい。
以上が、第四の実施形態に係る地域情報収集システムの別の例である。第四の実施形態に係る地域情報収集システムの別の例によれば、フリーテキストのコメントと対応付けられた画像について、関連するダミー変数を画像のタグ情報として関連付けることができる。そのため、画像検索を行う際に、画像そのものの対比ではなく、タグ情報をベクトル情報として扱いベクトルの類似度に応じて類似画像を特定することができるようになる。そのため、画像検索速度が向上する。とくに、大量の画像がある場合にその画像の検索速度を高めつつ、検索ノイズを減らすことができる。
また、第四の実施形態に係る地域情報収集システムの別の例では、画像を対象として検索する例を挙げたが、これに限られず、動画、音声等のいずれかまたはその組み合わせの非構造データがコメントと共に投稿され、これを検索するものであってもよい。
また、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品のような複数の部分に分けられて適用されるようにしてもよい。
以上、本発明について、実施形態を中心に説明した。
1・・・検査評価システム、10・・・利用者、100・・・データ数量化サーバー装置、110・・・記憶部、111・・・変換対象データ記憶部、112・・・頻度記憶部、113・・・ブラックリスト記憶部、114・・・ホワイトリスト記憶部、120・・・制御部、121・・・条件受付部、122・・・集計処理部、123・・・ブラックリスト処理部、124・・・ホワイトリスト処理部、125・・・ダミー変数受付部、126・・・ダミー変数変換部、127・・・評価算出部、130・・・入力部、140・・・出力部、20・・・外部利用者、50・・・ネットワーク、115・・・時刻住所優先順位記憶部、116・・・ダミータグ記憶部、117・・・画像間タグ類似度記憶部、128・・・情報統合部、129・・・類似検索部、1000・・・地域情報収集システム。

Claims (26)

  1. 一つ又は複数のテキストデータが格納された記憶部と、
    前記テキストデータの集計対象の単語についての条件を受け付ける条件受付部と、
    前記テキストデータごとに、単語に分割し、該単語ごとに、前記テキストデータにおける出現回数を集計する集計処理部と、
    集計した前記出現回数に前記集計対象の単語についての条件を反映させた結果を表示する表示部と、
    前記表示部の表示において前記単語ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付部と、
    前記ダミー変数の指定として受け付けた前記単語、前記テキストデータにおける出現回数を取得するダミー変数変換部と、
    前記ダミー変数の指定として受け付けた前記単語の、前記テキストデータにおける出現回数に基づいて、前記テキストデータにおける内容の評価指標を算出する評価算出部と、を備え、
    前記表示部は、前記ダミー変数変換部が取得した前記出現回数を表示し
    前記集計対象の単語についての条件は、前記集計の対象として追加する前記単語を一つまたは複数指定するホワイトリストを含み、
    前記表示部が前記集計対象の単語についての条件を反映させる処理において、前記ホワイトリストの単語を前記集計に追加して出現回数を再集計するホワイトリスト処理部を備え、
    前記集計処理部は、N-gramを利用して前記テキストデータを前記単語に分割するとともに、前記出現回数を用いて前記単語を組み合わせて、前記Nの値を超える語長の単語を前記ホワイトリストの候補として提案する、
    ことを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記集計対象の単語についての条件は、前記集計から除外する前記単語を一つまたは複数指定するブラックリストを含み、
    前記表示部が前記集計対象の単語についての条件を反映させる処理において、前記ブラックリスト単語を前記集計から除外するブラックリスト処理部、
    を備えることを特徴とする情報処理装置。
  3. 請求項1に記載の情報処理装置であって、
    前記集計対象の単語についての条件は、前記単語として用いる品詞の指定を含み、
    前記集計処理部は、形態素解析を利用して前記テキストデータを前記単語に分割するとともに、前記品詞に該当しない前記単語については前記集計から除外する、
    ことを特徴とする情報処理装置。
  4. 請求項1に記載の情報処理装置であって、
    前記テキストデータには所定の計測結果の値が一つまたは複数付随し、
    前記表示部は、
    前記ダミー変数変換部が取得した前記単語の出現回数を、前記単語ごとに、該テキストデータに付随する前記所定の計測結果の値追加して表示する、
    ことを特徴とする情報処理装置。
  5. 請求項1に記載の情報処理装置であって、
    前記テキストデータには、構造物の検査結果に関する自然言語の記述を含むとともに、前記構造物の所定の計測結果の値が一つまたは複数付随し、
    前記評価算出部は、
    前記ダミー変数変換部が取得した前記単語の出現回数を、前記単語ごとに前記所定の計測結果の値として追加して、前記所定の計測結果の値を用いて前記構造物の所定の評価指標を算出し、
    前記表示部は、
    前記ダミー変数変換部が取得した前記単語の出現回数を、前記単語ごとに前記所定の計測結果の値として追加して表示する、
    ことを特徴とする情報処理装置。
  6. 情報処理装置を用いた検査評価システムであって、
    前記情報処理装置は、制御部と、記憶部と、を備え、
    前記記憶部には、構造物の検査結果に関する自然言語の記述を含む一つまたは複数のテキストデータとともに、前記構造物の所定の計測結果の値が一つまたは複数付随して格納され、
    前記制御部は、
    前記テキストデータの集計対象の単語についての条件を受け付ける条件受付ステップと、
    前記テキストデータごとに、単語に分割し、該単語ごとに、前記テキストデータにおける出現回数を集計する集計処理ステップと、
    集計した前記出現回数に前記集計対象の単語についての条件を反映させた結果を表示する表示ステップと、
    前記表示ステップの表示において前記単語ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付ステップと、
    前記ダミー変数の指定として受け付けた前記単語の、前記テキストデータにおける出現回数を取得するダミー変数変換ステップと、
    前記ダミー変数変換ステップで取得した前記出現回数を前記単語ごとに前記所定の計測結果の値として追加して表示する結果表示ステップと、
    前記ダミー変数変換ステップで取得した前記出現回数を前記単語ごとに前記所定の計測結果の値として追加して、前記所定の計測結果の値を用いて前記構造物の所定の評価指標を算出する評価算出ステップと、
    を実施することを特徴とする検査評価システム。
  7. 情報処理装置を用いた検査評価方法であって、
    前記情報処理装置は、制御部と、記憶部と、を備え、
    前記記憶部には、構造物の検査結果に関する自然言語の記述を含む一つまたは複数のテキストデータとともに、前記構造物の所定の計測結果の値が一つまたは複数付随して格納され、
    前記制御部は、
    前記テキストデータの集計対象の単語についての条件を受け付ける条件受付ステップと、
    前記テキストデータごとに、単語に分割し、該単語ごとに、前記テキストデータにおける出現回数を集計する集計処理ステップと、
    集計した前記出現回数に前記集計対象の単語についての条件を反映させた結果を表示する表示ステップと、
    前記表示ステップの表示において前記単語ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付ステップと、
    前記ダミー変数の指定として受け付けた前記単語の、前記テキストデータにおける出現回数を取得するダミー変数変換ステップと、
    前記ダミー変数変換ステップで取得した前記出現回数を前記単語ごとに前記所定の計測結果の値として追加して表示する結果表示ステップと、
    前記ダミー変数変換ステップで取得した前記出現回数を前記単語ごとに前記所定の計測結果の値として追加して、前記所定の計測結果の値を用いて前記構造物の所定の評価指標を算出する評価算出ステップと、
    を実施することを特徴とする検査評価方法。
  8. 請求項1乃至のいずれか一項に記載の情報処理装置であって、
    前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報の
    いずれかに関する自然言語の記述を含み、
    前記表示部は、
    前記ダミー変数の指定として受け付けた前記単語の出現回数が所定の条件を満たす前記テキストデータ件数を集計結果として表示する、
    ことを特徴とする情報処理装置。
  9. 請求項に記載の情報処理装置であって、
    前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかに関する自然言語の記述を含み、
    前記所定の計測結果の値には少なくとも位置情報を含み、
    前記表示部は、前記ダミー変数の指定として受け付けた前記単語の出現回数、及び前記位置情報の値が所定の条件を満たす前記テキストデータ件数を集計結果として表示する、
    ことを特徴とする情報処理装置。
  10. 請求項に記載の情報処理装置であって、
    前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかに関する自然言語の記述を含み、
    前記所定の計測結果の値には複数の位置情報を含み、
    所定の優先順位に従って、前記複数の位置情報のうちいずれかの位置情報の採用を決定する情報統合部を備え、
    前記表示部は、前記ダミー変数の指定として受け付けた前記単語の出現回数、及び前記位置情報の値が所定の条件を満たす前記テキストデータ件数を集計結果として表示する、
    ことを特徴とする情報処理装置。
  11. 請求項または1に記載の情報処理装置であって、
    前記表示部は、前記所定の条件を満たす前記テキストデータの件数を、採用された前記位置情報に応じて地図上に重畳表示させる、
    ことを特徴とする情報処理装置。
  12. 請求項に記載の情報処理装置であって、
    前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかに関する自然言語の記述を含み、
    前記所定の計測結果の値には少なくとも日時情報を含み、
    前記表示部は、前記ダミー変数の指定として受け付けた前記単語の出現回数、及び前記日時情報の値が所定の条件を満たす前記テキストデータ件数を集計結果として表示する、
    ことを特徴とする情報処理装置。
  13. 請求項乃至1のいずれか一項に記載の情報処理装置であって、
    前記表示部は、集計結果に、該当する前記テキストデータを出力する、
    ことを特徴とする情報処理装置。
  14. 請求項に記載の情報処理装置であって、
    前記所定の計測結果の値には少なくとも画像、動画、音声のいずれかまたはこれらの組み合わせの非構造データを含み、
    前記ダミー変数の指定として受け付けた前記単語の出現回数が所定の条件を満たす場合に、前記ダミー変数の名前を当該非構造データのタグとして関連付けて検索に用いる類似検索部、
    を備えることを特徴とする情報処理装置。
  15. 請求項1に記載の情報処理装置であって、
    前記類似検索部は、前記ダミー変数の指定として受け付けた前記単語の出現回数を、前記非構造データの特徴を表す特徴ベクトルとして関連付け、前記特徴ベクトル同士で類似度を算出して前記非構造データの類似検索に用いる、
    ことを特徴とする情報処理装置。
  16. 請求項1に記載の情報処理装置であって、
    前記類似検索部は、
    検索のキーワードを特徴ベクトルとして取得し、
    前記ダミー変数の指定として受け付けた前記単語の出現回数を、前記非構造データの特徴を表す特徴ベクトルとして関連付け、前記検索のキーワードとして取得した特徴ベクトルとの類似度を算出して前記非構造データの類似検索に用いる、
    ことを特徴とする情報処理装置。
  17. 情報処理装置を用いたデータ数量化方法であって、
    前記情報処理装置は、一つ又は複数のテキストデータが格納された記憶部と、制御部を備え、
    前記制御部は、
    前記テキストデータの集計対象の単語についての条件を受け付ける条件受付ステップと、
    前記テキストデータごとに、単語に分割し、該単語ごとに、前記テキストデータにおける出現回数を集計する集計処理ステップと、
    集計した前記出現回数に前記集計対象の単語についての条件を反映させた結果を表示する表示ステップと、
    前記表示ステップの表示において前記単語ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付ステップと、
    前記ダミー変数の指定として受け付けた前記単語、前記テキストデータにおける出現回数を取得するダミー変数変換ステップと、
    前記ダミー変数の指定として受け付けた前記単語の、前記テキストデータにおける出現回数に基づいて、前記テキストデータにおける内容の評価指標を算出する評価算出ステップと、を実施し、
    前記ダミー変数変換ステップにて取得した前記出現回数を表示する第二の表示ステップ、
    を実施し、
    前記集計対象の単語についての条件は、前記集計の対象として追加する前記単語を一つまたは複数指定するホワイトリストを含み、
    前記表示ステップにおいて前記集計対象の単語についての条件を反映させる処理において、前記ホワイトリストの単語を前記集計に追加して出現回数を再集計するホワイトリスト処理ステップを実施し、
    前記集計処理ステップでは、N-gramを利用して前記テキストデータを前記単語に分割するとともに、前記出現回数を用いて前記単語を組み合わせて、前記Nの値を超える語長の単語を前記ホワイトリストの候補として提案する、
    ことを特徴とするデータ数量化方法。
  18. 請求項17に記載のデータ数量化方法であって、
    前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報の
    いずれかに関する自然言語の記述を含み、
    前記ダミー変数の指定として受け付けた前記単語の出現回数が所定の条件を満たす前記テキストデータ件数を集計結果として表示する第三の表示ステップ、
    を実施することを特徴とするデータ数量化方法。
  19. 請求項17に記載のデータ数量化方法であって、
    前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかに関する自然言語の記述を含むとともに所定の計測結果の値が一つまたは複数付随し、
    前記所定の計測結果の値に少なくとも位置情報を含み、
    前記ダミー変数の指定として受け付けた前記単語の出現回数、及び前記位置情報の値が所定の条件を満たす前記テキストデータ件数を集計結果として表示する第三の表示ステップ、
    ことを特徴とするデータ数量化方法。
  20. 請求項17に記載のデータ数量化方法であって、
    前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかに関する自然言語の記述を含むとともに所定の計測結果の値が一つまたは複数付随し、
    前記所定の計測結果の値には複数の位置情報を含み、
    所定の優先順位に従って、前記複数の位置情報のうちいずれかの位置情報の採用を決定する情報統合ステップを実施し、
    前記ダミー変数の指定として受け付けた前記単語の出現回数、及び前記位置情報の値が所定の条件を満たす前記テキストデータ件数を集計結果として表示する第三の表示ステップ、
    を実施することを特徴とするデータ数量化方法。
  21. 請求項19または2に記載のデータ数量化方法であって、
    前記第三の表示ステップでは、前記所定の条件を満たす前記テキストデータの件数を、採用された前記位置情報に応じて地図上に重畳表示させる、
    ことを特徴とするデータ数量化方法。
  22. 請求項17に記載のデータ数量化方法であって、
    前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかに関する自然言語の記述を含むとともに所定の計測結果の値が一つまたは複数付随し、
    前記所定の計測結果の値には少なくとも日時情報を含み、
    前記ダミー変数の指定として受け付けた前記単語の出現回数、及び前記日時情報の値が所定の条件を満たす前記テキストデータ件数を集計結果として表示する第三の表示ステップ、
    を実施することを特徴とするデータ数量化方法。
  23. 請求項18乃至2のいずれか一項に記載のデータ数量化方法であって、
    前記第三の表示ステップでは、集計結果に、該当する前記テキストデータを出力する、
    ことを特徴とするデータ数量化方法。
  24. 請求項17に記載のデータ数量化方法であって、
    前記テキストデータには、所定の計測結果の値が一つまたは複数付随し、前記所定の計測結果の値には少なくとも画像、動画、音声のいずれかまたはこれらの組み合わせの非構造データを含み、
    前記ダミー変数の指定として受け付けた前記単語の出現回数が所定の条件を満たす場合に、前記ダミー変数の名前を当該非構造データのタグとして関連付けて検索に用いる類似検索ステップ、
    を実施することを特徴とするデータ数量化方法。
  25. 請求項2に記載のデータ数量化方法であって、
    前記類似検索ステップでは、前記ダミー変数の指定として受け付けた前記単語の出現回数を、前記非構造データの特徴を表す特徴ベクトルとして関連付け、前記特徴ベクトル同士で類似度を算出して前記非構造データの類似検索に用いる、
    ことを特徴とするデータ数量化方法。
  26. 請求項2に記載のデータ数量化方法であって、
    前記類似検索ステップでは、
    検索のキーワードを特徴ベクトルとして取得し、
    前記ダミー変数の指定として受け付けた前記単語の出現回数を、前記非構造データの特徴を表す特徴ベクトルとして関連付け、前記検索のキーワードとして取得した特徴ベクトルとの類似度を算出して前記非構造データの類似検索に用いる、
    ことを特徴とするデータ数量化方法。
JP2018243458A 2018-07-06 2018-12-26 情報処理装置、検査評価システムおよび検査評価方法 Active JP7229761B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023020752A JP2023054101A (ja) 2018-07-06 2023-02-14 情報処理装置、検査評価システムおよび検査評価方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018128692 2018-07-06
JP2018128692 2018-07-06

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023020752A Division JP2023054101A (ja) 2018-07-06 2023-02-14 情報処理装置、検査評価システムおよび検査評価方法

Publications (2)

Publication Number Publication Date
JP2020013535A JP2020013535A (ja) 2020-01-23
JP7229761B2 true JP7229761B2 (ja) 2023-02-28

Family

ID=69169377

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018243458A Active JP7229761B2 (ja) 2018-07-06 2018-12-26 情報処理装置、検査評価システムおよび検査評価方法
JP2023020752A Pending JP2023054101A (ja) 2018-07-06 2023-02-14 情報処理装置、検査評価システムおよび検査評価方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023020752A Pending JP2023054101A (ja) 2018-07-06 2023-02-14 情報処理装置、検査評価システムおよび検査評価方法

Country Status (1)

Country Link
JP (2) JP7229761B2 (ja)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194721A (ja) 1998-12-24 2000-07-14 Ricoh Co Ltd 文書群分類装置および文書群分類方法
JP2001117937A (ja) 1999-10-20 2001-04-27 Hitachi Ltd 文書検索方法および装置
JP2002083017A (ja) 2000-09-07 2002-03-22 Sankyo Eng Kk 構造物変状調査支援システム
JP2003141132A (ja) 2001-10-30 2003-05-16 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2007272859A (ja) 2005-08-30 2007-10-18 Zoo Corp 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体
US20100057720A1 (en) 2008-08-26 2010-03-04 Saraansh Software Solutions Pvt. Ltd. Automatic lexicon generation system for detection of suspicious e-mails from a mail archive
WO2012111288A1 (ja) 2011-02-14 2012-08-23 パナソニック株式会社 類似症例検索装置および類似症例検索方法
JP2013254402A (ja) 2012-06-08 2013-12-19 Hitachi Ltd 情報収集提供システム、プログラム、および方法
JP2015170302A (ja) 2014-03-10 2015-09-28 株式会社建設環境研究所 樋門・樋管点検支援システム及び樋門・樋管点検支援方法
JP2016153971A (ja) 2015-02-20 2016-08-25 富士通株式会社 災害発生場所推定方法、災害発生場所推定プログラム、及び災害発生場所推定装置
WO2016163008A1 (ja) 2015-04-09 2016-10-13 株式会社日立製作所 異常診断装置および異常診断方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259515A (ja) * 1998-03-12 1999-09-24 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194721A (ja) 1998-12-24 2000-07-14 Ricoh Co Ltd 文書群分類装置および文書群分類方法
JP2001117937A (ja) 1999-10-20 2001-04-27 Hitachi Ltd 文書検索方法および装置
JP2002083017A (ja) 2000-09-07 2002-03-22 Sankyo Eng Kk 構造物変状調査支援システム
JP2003141132A (ja) 2001-10-30 2003-05-16 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2007272859A (ja) 2005-08-30 2007-10-18 Zoo Corp 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体
US20100057720A1 (en) 2008-08-26 2010-03-04 Saraansh Software Solutions Pvt. Ltd. Automatic lexicon generation system for detection of suspicious e-mails from a mail archive
WO2012111288A1 (ja) 2011-02-14 2012-08-23 パナソニック株式会社 類似症例検索装置および類似症例検索方法
JP2013254402A (ja) 2012-06-08 2013-12-19 Hitachi Ltd 情報収集提供システム、プログラム、および方法
JP2015170302A (ja) 2014-03-10 2015-09-28 株式会社建設環境研究所 樋門・樋管点検支援システム及び樋門・樋管点検支援方法
JP2016153971A (ja) 2015-02-20 2016-08-25 富士通株式会社 災害発生場所推定方法、災害発生場所推定プログラム、及び災害発生場所推定装置
WO2016163008A1 (ja) 2015-04-09 2016-10-13 株式会社日立製作所 異常診断装置および異常診断方法

Also Published As

Publication number Publication date
JP2020013535A (ja) 2020-01-23
JP2023054101A (ja) 2023-04-13

Similar Documents

Publication Publication Date Title
US10489441B1 (en) Models for classifying documents
US11755595B2 (en) Apparatus, systems and methods for scoring and distributing the reliability of online information
US10915539B2 (en) Apparatus, systems and methods for scoring and distributing the reliablity of online information
KR101981075B1 (ko) 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체
Yan et al. The sky is falling: Predictors of news coverage of natural disasters worldwide
Roberts et al. Catching the flu: syndromic surveillance, algorithmic governmentality and global health security
KR101658794B1 (ko) 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
JP5827208B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP5723067B1 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
KR101735312B1 (ko) 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법
US9542474B2 (en) Forensic system, forensic method, and forensic program
WO2013179340A1 (ja) 情報分析システム及び情報分析方法
US20230010680A1 (en) Business Lines
JP2019086995A (ja) 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
JPWO2015030112A1 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
JP7229761B2 (ja) 情報処理装置、検査評価システムおよび検査評価方法
JP6124936B2 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
Awe et al. Assessing the factors affecting building construction collapse casualty using machine learning techniques: a case of Lagos, Nigeria
JP2015084168A (ja) 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム
JP6960553B2 (ja) ブランド辞書作成装置、商品等評価装置、ブランド辞書作成方法及びプログラム
KR101987301B1 (ko) 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법
WO2016056095A1 (ja) データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム
JP5078960B2 (ja) テキスト処理装置及びコンピュータプログラム
JP2018147411A (ja) データ処理装置、データ処理方法、データ処理システム及びプログラム
Lee Predicting Food Safety Violations via Social Media to Improve Public Health Surveillance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230215

R150 Certificate of patent or registration of utility model

Ref document number: 7229761

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150