JP7229761B2

JP7229761B2 - 情報処理装置、検査評価システムおよび検査評価方法

Info

Publication number: JP7229761B2
Application number: JP2018243458A
Authority: JP
Inventors: 裕也小松; 麻里 ▲高▼木; 豊久森田
Original assignee: Hitachi Systems Ltd
Current assignee: Hitachi Systems Ltd
Priority date: 2018-07-06
Filing date: 2018-12-26
Publication date: 2023-02-28
Anticipated expiration: 2038-12-26
Also published as: JP2020013535A; JP2023054101A

Description

本発明は、情報処理装置、検査評価システムおよび検査評価方法に関するものである。

特許文献１には、「文書の検索語（ｔ）との関連を考慮するファイルシステムのファイルパスにある電子文書（Ｄｉ）をランク付けする文書ランク付け装置であって、前記装置は、文書の内容を用いて該文書のセマンティック記述（ＳＤｉ）を生成し、前記セマンティック記述をセマンティック記述レポジトリに格納するよう構成されるセマンティック記述生成モジュールと、文書の前記セマンティック記述と前記検索語との間の類似性に基づき、類似性スコアを計算するよう構成される類似性に基づくスコアリングモジュールと、文書の完全性、正確性、及び鮮度に基づき、該文書の品質スコアを計算するよう構成される品質指示子に基づくスコアリングモジュールと、前記類似性スコア及び前記品質スコアの相対的重み付けのためにユーザ入力を受け、結果として生じる相対的重み付けされた類似性スコア及び品質スコアを結合して文書の最終的スコアを与えるよう構成される結合モジュールと、前記最終的スコアに基づき、前記ファイルパスにある前記文書をランク付けするよう構成されるランク付けモジュールと、を有する文書ランク付け装置」について記載されている。

特開２０１６－０７６２０８号公報

上記技術は、文書を形式的にランク付けすることができるが、文書の内容を適切に評価することができない。

本発明の目的は、文章の内容を適切に評価できる技術を提供することにある。

本願は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。本発明の一態様に係る情報処理装置は、テキストデータの数量化条件を受け付ける条件受付部と、上記テキストデータを所定の区分に分割しその出現回数または出現有無を集計する集計処理部と、集計した上記出現回数または出現有無に上記数量化条件を反映させた結果を表示する出力部と、上記出力部の表示において上記区分ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付部と、上記ダミー変数の指定として受け付けた上記区分の出現回数または出現有無を計数した結果を取得するダミー変数変換部と、を備え、上記出力部は、上記ダミー変数変換部が取得した上記出現回数または出現有無を計数した結果を出力する、ことを特徴とする。

また、上記の情報処理装置であって、上記数量化条件は、上記区分から除外する単語を一つまたは複数指定するブラックリストを含み、上記出力部が上記数量化条件を反映させる処理において、上記ブラックリストを用いて上記区分から上記除外する単語を除外するブラックリスト処理部、を備えることを特徴とするものであってもよい。

また、上記の情報処理装置であって、上記数量化条件は、上記区分として追加する単語を一つまたは複数指定するホワイトリストを含み、上記出力部が上記数量化条件を反映させる処理において、上記ホワイトリストを用いて上記区分に上記追加する単語を追加して出現回数または出現有無を再集計するホワイトリスト処理部、を備えることを特徴とするものであってもよい。

また、上記の情報処理装置であって、上記集計処理部は、Ｎ－ｇｒａｍを利用して上記テキストデータを上記所定の区分に分割する、ことを特徴とするものであってもよい。

また、上記の情報処理装置であって、上記数量化条件は、上記区分として追加する単語を一つまたは複数指定するホワイトリストを含み、上記出力部が上記数量化条件を反映させる処理において、上記ホワイトリストを用いて上記区分に上記追加する単語を追加して出現回数または出現有無を再集計するホワイトリスト処理部を備え、上記集計処理部は、Ｎ－ｇｒａｍを利用して上記テキストデータを上記所定の区分に分割するとともに、上記出現回数または出現有無を用いて上記所定の区分を組み合わせて、上記Ｎの値を超える語長の単語を上記ホワイトリストの候補として提案する、ことを特徴とするものであってもよい。

また、上記の情報処理装置であって、上記数量化条件は、上記区分として用いる品詞の指定を含み、上記集計処理部は、形態素解析を利用して上記テキストデータを上記所定の区分に分割するとともに、上記品詞に該当しない上記所定の区分については上記集計から除外する、ことを特徴とするものであってもよい。

また、上記の情報処理装置であって、上記テキストデータには所定の計測結果の値が一つまたは複数付随し、上記出力部は、上記ダミー変数変換部が取得した上記区分の出現回数または出現有無を計数した結果を、上記区分ごとに上記計測結果の値として追加する、ことを特徴とするものであってもよい。

また、上記の情報処理装置であって、上記テキストデータには、構造物の検査結果に関する自然言語の記述を含むとともに、上記構造物の所定の計測結果の値が一つまたは複数付随し、上記計測結果の値を用いて上記構造物の所定の評価指標を算出する評価算出部を備え、上記出力部は、上記ダミー変数変換部が取得した上記区分の出現回数または出現有無を計数した結果を、上記区分ごとに上記計測結果の値として追加する、ことを特徴とするものであってもよい。

また、本発明の別の態様にかかる検査評価システムは、情報処理装置を用いた検査評価システムであって、上記情報処理装置は、制御部と、記憶部と、を備え、上記記憶部には、構造物の検査結果に関する自然言語の記述を含む一つまたは複数のテキストデータとともに、上記構造物の所定の計測結果の値が一つまたは複数付随して格納され、上記制御部は、上記テキストデータの数量化条件を受け付ける条件受付ステップと、上記テキストデータを所定の区分に分割しその出現回数または出現有無を集計する集計処理ステップと、集計した上記出現回数または出現有無に上記数量化条件を反映させた結果を表示する出力ステップと、上記出力ステップの表示において上記区分ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付ステップと、上記ダミー変数の指定として受け付けた上記区分の出現回数または出現有無を計数した結果を取得するダミー変数変換ステップと、上記ダミー変数変換ステップで取得した上記出現回数または出現有無を計数した結果を上記区分ごとに上記計測結果の値として追加する結果出力ステップと、上記計測結果の値を用いて上記構造物の所定の評価指標を算出する評価算出ステップと、を実施することを特徴とする。

また、本発明の別の態様にかかる検査評価方法は、情報処理装置を用いた検査評価方法であって、上記情報処理装置は、制御部と、記憶部と、を備え、上記記憶部には、構造物の検査結果に関する自然言語の記述を含む一つまたは複数のテキストデータとともに、上記構造物の所定の計測結果の値が一つまたは複数付随して格納され、上記制御部は、上記テキストデータの数量化条件を受け付ける条件受付ステップと、上記テキストデータを所定の区分に分割しその出現回数または出現有無を集計する集計処理ステップと、集計した上記出現回数または出現有無に上記数量化条件を反映させた結果を表示する出力ステップと、上記出力ステップの表示において上記区分ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付ステップと、上記ダミー変数の指定として受け付けた上記区分の出現回数または出現有無を計数した結果を取得するダミー変数変換ステップと、上記ダミー変数変換ステップで取得した上記出現回数または出現有無を計数した結果を上記区分ごとに上記計測結果の値として追加する結果出力ステップと、上記計測結果の値を用いて上記構造物の所定の評価指標を算出する評価算出ステップと、を実施することを特徴とする。

本発明によると、文章の内容を適切に評価できる技術を提供することができる。

上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。

実施形態に係る検査評価システムの例に係るブロック図である。変換対象データ記憶部のデータ構造例を示す図である。頻度記憶部のデータ構造例を示す図である。ホワイトリスト記憶部のデータ構造の例を示す図である。データ数量化サーバー装置のハードウェア構成例を示す図である。データ数量化処理のフローの例を示す図である。変換対象指定画面の例を示す図である。頻出単語取得条件指定画面の例を示す図である。単語出現回数集計処理（Ｎ－ｇｒａｍ利用）のフローの例を示す図である。ブラックリスト適用処理のフローの例を示す図である。ホワイトリスト適用処理のフローの例を示す図である。ダミー変数選択処理のフローの例を示す図である。ダミー変数指定画面の例を示す図である。ダミー変数変換処理のフローの例を示す図である。変換結果確認画面の例を示す図である。頻出単語取得条件指定画面の別の例を示す図である。単語出現回数集計処理（形態素解析利用）のフローの例を示す図である。ダミー変数指定画面の別の例を示す図である。ダミー変数指定画面のさらに別の例を示す図である。第四の実施形態に係る地域情報収集システムの例に係るブロック図である。変換対象データ記憶部のデータ構造例を示す図である。時刻住所優先順位記憶部のデータ構造例を示す図である。情報統合処理のフローの例を示す図である。地域情報集計処理のフローの例を示す図である。集計項目設定画面の例を示す図である。単変数集計画面の例を示す図である。複数変数集計画面の例を示す図である。一階層クロス表画面の例を示す図である。多階層クロス表画面の例を示す図である。一階層クロス表画面の別の例（時刻スライス）を示す図である。一階層クロス表画面の別の例（継続中限定表示）を示す図である。地図表示画面の例を示す図である。地図表示画面の別の例を示す図である。第四の実施形態に係る地域情報収集システムの別の例に係るブロック図である。変換対象データ記憶部のデータ構造例を示す図である。ダミータグ記憶部のデータ構造例を示す図である。画像間タグ類似度記憶部のデータ構造例を示す図である。画像あいまい検索画面の例を示す図である。タグ類似画像検索画面の例を示す図である。

以下に、本発明の一態様に係る実施形態を適用した検査評価システム１について、図面を参照して説明する。以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。

また、以下の実施の形態において、要素の数等（個数、数値、量、範囲等を含む）に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。

さらに、以下の実施の形態において、その構成要素（要素ステップ等も含む）は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。

同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは特に明示した場合および原理的に明らかにそうではないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。

また、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。

図１は、本実施形態に係る検査評価システム１のブロック図である。検査評価システム１は、利用者１０が図示しない情報処理端末を用いてブラウザ等を介してデータ数量化サーバー装置１００に接続して利用するが、これに限られず、データ数量化サーバー装置１００を直接操作して利用するものであってもよい。

なお、図示しないが、情報処理端末からデータ数量化サーバー装置１００に接続する際には、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネット、携帯電話網等、あるいはこれらが複合した通信網であるネットワークを介して接続される。なお、当該ネットワークは、携帯電話通信網等の無線通信網上のＶＰＮ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）等であってもよい。

検査評価システム１の応用例を挙げると、検査評価システム１は、所定の構造物（例えば、橋梁等、道路等の公物）の保守についての検査結果の取り扱いを伴う業務システム、あるいは製造にかかる成果物検査結果の取り扱いを伴う業務システム等がある。

その際には、利用者１０は、検査結果として一つまたは複数の所定の検査項目に加え、検査結果に関する自然言語の記述を含む一つまたは複数のテキストデータを検査評価に用いる。この検査結果は、図示しない検査者あるいは検査装置が随時更新するものである。

利用者１０は、検査結果を評価することで、検査対象の実態を把握するが、検査項目は定量的なものに限られるため、所見等の定性的な評価については自然言語で記述されることが多い。また、そのような定性的な評価については、検査者の経験やノウハウが含まれることが多く、検査評価に用いるべき情報である。

しかし、大量の検査結果を評価するためには、コンピュータ処理による大量の情報処理を介した方が効率性の面でメリットが大きいため、一般的には所見等の自然言語の記述は検査結果の評価においては省略されることも少なくない。

このような経験やノウハウが反映された自然言語の記述を検査結果の評価に反映できれば、高度に情報を有効活用でき、評価精度をより高め、重大なインシデントの早期発見や未然防止に役立つと考えられる。

本実施形態においては、橋梁の検査結果の取り扱いを伴う業務システムを例に説明する。データ数量化サーバー装置１００は、記憶部１１０と、制御部１２０と、入力部１３０と、出力部１４０と、が互いにバス等で通信可能に接続される。

記憶部１１０には、変換対象データ記憶部１１１と、頻度記憶部１１２と、ブラックリスト記憶部１１３と、ホワイトリスト記憶部１１４と、が含まれる。

図２は、変換対象データ記憶部のデータ構造例を示す図である。変換対象データ記憶部１１１には、自然言語を用いて記述されるテキストデータが含まれる。また、該テキストデータには、構造物の検査結果に関する自然言語の記述が含まれるとともに、構造物の所定の計測結果の値が一つまたは複数付随する。

より具体的には、変換対象データ記憶部１１１には、ある橋梁を他の橋梁から識別する識別子である橋梁コード１１１Ａと、点検年月日１１１Ｂと、点検者コメント１１１Ｃと、Ｘ計測値１１１Ｄと、Ｙ計測値１１１Ｅと、が含まれる。

点検者コメント１１１Ｃは、上述の自然言語を用いて記述されるテキストデータである。例えば、「主桁にひびがあるため対策が必要。」等の所見が含まれる。Ｘ計測値１１１Ｄと、Ｙ計測値１１１Ｅとは、所定の定量化しうる検査項目の検査結果の値である。

図３は、頻度記憶部のデータ構造例を示す図である。頻度記憶部１１２には、順位１１２Ａと、単語１１２Ｂと、出現回数１１２Ｃと、ブラック指定１１２Ｄと、ホワイト指定１１２Ｅと、ユーザー表示対象１１２Ｆと、数量化対象１１２Ｇと、が含まれる。

順位１１２Ａは、単語１１２Ｂで特定される単語（単語に限られず、テキストデータを分割した所定の区分）の出現頻度（出現回数または出現有無であってもよい）である出現回数１１２Ｃの多い順に割り振った順位である。

ブラック指定１１２Ｄは、ブラックリストに含まれる単語であるか否かを示す情報である。同様に、ホワイト指定１１２Ｅは、ホワイトリストに含まれる単語であるか否かを示す情報である。ユーザー表示対象１１２Ｆは、利用者１０が利用する画面に表示させる対象の単語（テキストデータを分割した所定の区分）であるか否かを特定する情報である。数量化対象１１２Ｇは、利用者１０が数量化させる対象の単語（テキストデータを分割した所定の区分）であるか否かを特定する情報である。

ブラックリスト記憶部１１３については、単語（テキストデータを分割した所定の区分）のうち、評価から除外する単語（テキストデータを分割した所定の区分）を一つまたは複数指定するリストであり、各単語を個々に読み出し、編集することが可能なデータ構造、例えばリストや配列である。

図４は、ホワイトリスト記憶部１１４のデータ構造例を示す図である。ホワイトリスト記憶部１１４には、単語（テキストデータを分割した所定の区分）として追加する単語を一つまたは複数指定するリストであるが、付随する情報が多いためテーブル構造として例示する。

単語ＩＤ１１４Ａは、単語（テキストデータを分割した所定の区分）を特定する識別子である。単語１１４Ｂは、テキストデータを分割した所定の区分である。適用可否１１４Ｃは、ホワイトリストとして適用する対象の単語（テキストデータを分割した所定の区分）であるか否かを特定する情報である。

合成語１１４Ｄは、合成した単語（テキストデータを分割した所定の区分）であるか否かを特定する情報である。合成基礎語１１４Ｅ、合成隣接語１１４Ｆは、単語（テキストデータを分割した所定の区分）が合成したものである場合に、その基礎となった単語（テキストデータを分割した所定の区分）を示す情報である。例えば、「ＡＢＣ」という合成語が、「ＢＣ」の先頭に隣接して利用されることが多い「Ａ」を合成したものである場合には、合成基礎語１１４Ｅは「ＢＣ」、合成隣接語１１４Ｆは「Ａ」となる。つまり、単語１１４Ｂの区分が、合成語であれば合成語１１４Ｄに「Ｔｒｕｅ」が格納され、合成基礎語１１４Ｅと、合成隣接語１１４Ｆのそれぞれに合成元となった語が格納される。

制御部１２０には、条件受付部１２１と、集計処理部１２２と、ブラックリスト処理部１２３と、ホワイトリスト処理部１２４と、ダミー変数受付部１２５と、ダミー変数変換部１２６と、評価算出部１２７と、が含まれる。

条件受付部１２１は、テキストデータの数量化条件を受け付ける。より具体的には、条件受付部１２１は、数量化データの対象となるテキストデータの指定、一つまたは複数のブラックリスト指定単語、一つまたは複数のホワイトリスト指定単語、頻出単語取得条件（表示件数）、または品詞フィルタ等の数量化条件を受け付ける。

集計処理部１２２は、テキストデータを所定の区分に分割しその出現頻度を集計する。より具体的には、集計処理部１２２は、Ｎ－ｇｒａｍあるいは形態素解析を利用して、テキストデータを所定の区分（単語）に分割する。また、集計処理部１２２は、形態素解析を利用してテキストデータを分割した場合には、分割した所定の区分（単語）について、指定された品詞（一般名詞、固有名詞、人名、地名、記号等）に該当しない所定の区分については出現頻度の集計から除外することもできる。

また、集計処理部１２２は、Ｎ－ｇｒａｍを利用してテキストデータを分割した場合には、集計した出現頻度を用いて、所定の区分（単語）を組み合わせて、Ｎ－ｇｒａｍの「Ｎ」の値を超える語長の単語をホワイトリストの候補として提案するようにしてもよい。例えば、集計処理部１２２は、共起表現（ある単語が用いられる場合に共に用いられることが多い表現）を提案するようにしてもよいし、類義語、省略語（「ヒビ」と「ヒビワレ」等）、外来語（「ヒビ」と「クラック」）を提案するようにしてもよい。

また例えば、集計処理部１２２は、ある単語と別の単語を組み合わせて用いられる検査対象に特有の結合語（例えば、橋梁の検査に関しては、「主」＋「桁」の「主桁」、「ゲルバー」＋「桁」の「ゲルバー桁」、「床」＋「版」の「床版」等）をホワイトリストの候補として提案するようにしてもよい。

ブラックリスト処理部１２３は、数量化条件を反映させる処理において、ブラックリストを用いて所定の区分（単語）から除外すべき単語を除外する。すなわち、ブラックリスト処理部１２３は、集計処理部１２２が集計した出現頻度から、ブラックリストに登録された単語を除外する。

ホワイトリスト処理部１２４は、数量化条件を反映させる処理において、ホワイトリストを用いて所定の区分（単語）に追加する単語を追加して出現頻度を再集計する。また、ホワイトリスト処理部１２４は、集計処理部１２２が提案したホワイトリストの候補のうち、利用者１０が指定した候補についてホワイトリストに追加する。また、ホワイトリスト処理部１２４は、利用者１０が指定した所定の区分（単語、またはフリーテキスト）についてホワイトリストに追加する。ホワイトリストへの追加処理では、ホワイトリスト処理部１２４は、ホワイトリスト記憶部１１４の適用可否１１４Ｃを「Ｆａｌｓｅ（偽）」から「Ｔｒｕｅ（真）」に変更する。

ダミー変数受付部１２５は、出力部１４０の表示において利用者から所定の区分（単語）ごとに選択された入力を受け付けて、ダミー変数の指定とする。すなわち、ダミー変数受付部１２５は、数量化する単語の選択を受け付けると、頻度記憶部１１２の数量化対象１１２Ｇを「Ｆａｌｓｅ（偽）」から「Ｔｒｕｅ（真）」に変更する。

ダミー変数変換部１２６は、ダミー変数の指定として受け付けた所定の区分（単語）の出現頻度を計数した結果を、集計処理部１２２から取得し、ダミー変数変換の結果としてそれぞれの単語について計測値の一つとして変換対象データ記憶部１１１に記憶させる。

評価算出部１２７は、計測結果の値を用いて、検査対象の構造物の所定の評価指標を算出する。この評価手法については、各種の評価手法が考えられるが、本実施形態ではどのような方法によるものであってもよい。例えば、危険性を予見した単語については、対象物の評価を低く算出する要素として用いてもよい。すなわち、評価算出部１２７は、ダミー変数として定量的に算出されたテキストデータの特長値を用いて評価するものであれば、さまざまな処理を許容する。

入力部１３０は、データ数量化サーバー装置１００への利用者１０からの入力を受け付ける。例えば、入力部１３０は、タイピングやタッチ、フリック入力等の各種の接触入力、あるいは音声入力、または視線入力等の各種の入力を受け付ける。

出力部１４０は、データ数量化サーバー装置１００からの利用者１０への出力を行う。出力される情報は、画面や帳票等の各種出力情報である。

図５は、データ数量化サーバー装置のハードウェア構成例を示す図である。データ数量化サーバー装置１００は、いわゆるサーバー装置、ワークステーション、パーソナルコンピュータ、スマートフォンあるいはタブレット端末の筐体により実現されるハードウェア構成を備える。データ数量化サーバー装置１００は、演算装置１０１と、主記憶装置１０２と、補助記憶装置１０３と、各装置をつなぐバス１０７と、を備える。また他に、データ数量化サーバー装置１００は、ネットワークを介して他の装置と通信する通信装置、タッチパネルやキーボード、マイク、ディスプレイ等の入出力装置を備える。

演算装置１０１は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置である。

主記憶装置１０２は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などのメモリ装置である。

補助記憶装置１０３は、デジタル情報を記憶可能な、いわゆるハードディスク（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）あるいはフラッシュメモリなどの不揮発性記憶装置である。

なお、入出力装置には、キーボードやマウス、タッチパネル、ディスプレイ、マイク、スピーカー等の各種入出力装置が含まれる。

入出力装置と、演算装置１０１と、主記憶装置１０２と、補助記憶装置１０３とは、バス１０７等の接続導線により互いに接続される。

上記したデータ数量化サーバー装置１００の条件受付部１２１と、集計処理部１２２と、ブラックリスト処理部１２３と、ホワイトリスト処理部１２４と、ダミー変数受付部１２５と、ダミー変数変換部１２６と、評価算出部１２７とは、演算装置１０１に処理を行わせるプログラムによって実現される。このプログラムは、主記憶装置１０２、補助記憶装置１０３または図示しないＲＯＭ装置内に記憶され、実行にあたって主記憶装置１０２上にロードされ、演算装置１０１により実行される。

また、データ数量化サーバー装置１００の記憶部１１０は、主記憶装置１０２及び補助記憶装置１０３により実現される。また、入力部１３０および出力部１４０は、入出力装置により実現される。以上が、データ数量化サーバー装置１００のハードウェア構成例である。

データ数量化サーバー装置１００の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、１つの構成要素がさらに多くの処理を実行するように分類することもできる。

また、各制御部（条件受付部１２１と、集計処理部１２２と、ブラックリスト処理部１２３と、ホワイトリスト処理部１２４と、ダミー変数受付部１２５と、ダミー変数変換部１２６と、評価算出部１２７）は、それぞれの機能を実現する専用のハードウェア（ＡＳＩＣ、ＧＰＵなど）により構築されてもよい。また、各制御部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。

次に、本実施形態における検査評価システム１の動作を説明する。

図６は、データ数量化処理のフローの例を示す図である。データ数量化処理は、利用者１０からの開始指示に応じて起動される。

まず、条件受付部１２１は、変換対象指定受付処理を実施する（ステップＳ００１）。具体的には、条件受付部１２１は、変換対象指定画面２００にて入力された情報（ファイル名、変換対象列）を受け付ける。

図７は、変換対象指定画面の例を示す図である。変換対象指定画面２００は、ファイル名入力領域２０１と、ファイル選択入力領域２０２と、変換対象列選択入力領域２０３と、ファイル内容表示領域２０４と、次へボタン２０５と、を含む。

ファイル名入力領域２０１は、ダミー変数へ変換する対象のデータ、すなわちファイルへのパスの入力を受け付ける。ファイル選択入力領域２０２は、入力を受け付けると、ディレクトリツリーを表示して、対象のファイルの選択を受け付ける。

変換対象列選択入力領域２０３は、入力を受け付けると、ファイル名入力領域２０１に入力されたパスのファイル内のカラムの情報（列名）を取得し、選択可能なリストに整形して表示する。

ファイル内容表示領域２０４は、ファイル名入力領域２０１に入力されたパスのファイルの内容を取得し、ファイル形式に合った表示情報に整形して（例えば、ＣＳＶ（Ｃｏｍｍａ－ＳｅｐａｒａｔｅｄＶａｌｕｅｓ）ファイルであれば、表形式に整形して）表示する。

次へボタン２０５は、入力を受け付けると、ファイル名入力領域２０１の入力値と、変換対象列選択入力領域２０３の入力値と、をデータ数量化サーバー装置１００に送信する。

そして、条件受付部１２１は、頻出単語取得条件受付処理を実施する（ステップＳ００２）。具体的には、条件受付部１２１は、頻出単語取得条件指定画面３００にて入力された情報（頻出単語取得上位件数、ブラックリスト、ホワイトリスト）を受け付ける。

図８は、頻出単語取得条件指定画面の例を示す図である。頻出単語取得条件指定画面３００は、頻出単語取得上位件数入力領域３０１と、ブラックリスト入力領域３０２と、ホワイトリスト入力領域３０３と、次へボタン３０４と、を含む。

頻出単語取得上位件数入力領域３０１は、出現頻度の高い単語（テキストデータを分割した所定の区分）のうち、頻出単語として表示あるいは出力させる最大件数の指定を受け付ける。

ブラックリスト入力領域３０２は、ブラックリスト、すなわち集計した出現頻度から除外する単語のリスト、の入力を受け付ける。これには、意味情報が極端に少ない単語「もの」「こと」「ため」等の一般的な除外対象単語と、業務的な意味で意味情報が少ない単語があればそのような除外対象単語と、を含めることができる。また、これらの除外対象単語を予め表示させるようにしてもよい。この場合には、利用者１０は、予め表示された除外対象単語のうち、除外対象としない単語を削除すればよいため、利用に不慣れな利用者１０であるほど利便性が高くなる。

ホワイトリスト入力領域３０３は、ホワイトリスト、すなわち集計した出現頻度に加え、出現頻度の集計に追加する単語（テキストデータを分割した所定の区分）を一つまたは複数指定するリストの入力を受け付ける。これには、造語や新語、外来語、業務的な重要度が高い単語、あるいは特に文字数の多い単語があればそのような追加対象単語と、を含めることができる。また、これらの追加の対象となる単語を予め表示させるようにしてもよい。この場合には、利用者１０は、予め表示された追加の対象の単語のうち、追加の対象としない単語を削除すればよいため、利用に不慣れな利用者１０であるほど利便性が高くなる。

次へボタン３０４は、入力を受け付けると、頻出単語取得上位件数入力領域３０１の入力値と、ブラックリスト入力領域３０２の入力値と、ホワイトリスト入力領域３０３の入力値と、をデータ数量化サーバー装置１００に送信する。

そして、集計処理部１２２は、単語出現回数集計処理を行う（ステップＳ００３）。具体的には、集計処理部１２２は、図９に示す単語出現回数集計処理を開始する。

そして、ブラックリスト処理部１２３は、ブラックリスト適用処理を行う（ステップＳ００４）。具体的には、ブラックリスト処理部１２３は、図１０に示すブラックリスト適用処理を開始する。

そして、ホワイトリスト処理部１２４は、ホワイトリスト適用処理を行う（ステップＳ００５）。具体的には、ホワイトリスト処理部１２４は、図１１に示すホワイトリスト適用処理を開始する。

そして、ダミー変数受付部１２５は、ダミー変数指定画面４００にて入力された情報（チェック入力を受け付けた単語と、ホワイトリスト追加単語の入力値と）を受け付けて、ダミー変数選択処理を開始する（ステップＳ００６）。

図１３は、ダミー変数指定画面の例を示す図である。ダミー変数指定画面４００は、単語出現回数表示領域４０１と、適用済みホワイトリスト表示領域４０４と、ホワイトリスト追加単語入力領域４０５と、頻出単語取得条件変更ボタン４０６と、次へボタン４０７と、を含む。

単語出現回数表示領域４０１は、単語を、出現回数の降順に、表形式で表示させる領域である。この表示は、ステップＳ００３～ステップＳ００５の処理結果が反映されたものである。そして、単語出現回数表示領域４０１には、ダミー変数（数量化の対象）に指定するチェック入力受付領域４０２を含み、また、ホワイトリストの単語４０３は強調（ハイライト、反転等）されて表示される。

適用済みホワイトリスト表示領域４０４には、適用されたホワイトリストの単語が表示される。ホワイトリスト追加単語入力領域４０５は、さらに適用したい追加のホワイトリストの単語の入力を受け付ける。

頻出単語取得条件変更ボタン４０６は、入力を受け付けると、頻出単語の取得条件を変更するために、頻出単語取得条件指定画面３００へ遷移させる。

次へボタン４０７は、入力を受け付けると、チェック入力受付領域４０２にチェック入力を受け付けた単語と、ホワイトリスト追加単語入力領域４０５の入力値と、をデータ数量化サーバー装置１００に送信する。

そして、ダミー変数変換部１２６は、ダミー変数選択完了フラグがＯＮか否か、判定する（ステップＳ００７）。ダミー変数選択完了フラグは、ダミー変数選択処理においてＯＮ／ＯＦＦが制御されるフラグである。そのフラグが「ＯＦＦ」である場合（ステップＳ００７にて「Ｎｏ」の場合）には、ダミー変数変換部１２６は、制御をステップＳ００２に戻す。

ダミー変数選択完了フラグが「ＯＮ」である場合（ステップＳ００７にて「Ｙｅｓ」の場合）には、ダミー変数変換部１２６は、ダミー変数変換処理を行う（ステップＳ００８）。具体的には、ダミー変数変換部１２６は、ダミー変数（数量化の対象）に指定された単語について、集計処理部１２２の集計結果を取得するダミー変数変換処理を行う。また、ダミー変数変換部１２６は、取得した集計結果を用いて、変換結果確認画面５００を作成する。

図１５は、変換結果確認画面の例を示す図である。変換結果確認画面５００は、ファイル名入力領域５０１と、ファイル選択入力領域５０２と、ダミー変数表示領域５０３と、出力ボタン５０４と、を含む。

ファイル名入力領域５０１は、ダミー変数へ変換済みのデータ、すなわちファイルへのパスの入力を受け付ける。ファイル選択入力領域５０２は、入力を受け付けると、ディレクトリツリーを表示して、対象のファイルの選択を受け付ける。

ダミー変数表示領域５０３は、ファイル名入力領域５０１に入力されたファイルの内容が表示される。ファイル名入力領域５０１にダミー変数変換部１２６により変換処理が行われた結果が追加されたファイルを指定されると、ダミー変数（ダミー変数として指定された単語ごとの出現回数）が追記された情報を含むファイル内容が表示される。

出力ボタン５０４は、入力を受け付けると、ファイル名入力領域５０１に入力されたファイル名をデータ数量化サーバー装置１００に送信する。

そして、ダミー変数変換部１２６は、変換結果保存処理を行う（ステップＳ００９）。具体的には、ダミー変数変換部１２６は、変換結果確認画面５００のファイル名入力領域５０１に入力されたファイル名を受け付けて、変換結果のファイルとして保存する。また、ダミー変数変換部１２６は、評価算出部１２７に当該ファイル名を受け渡し、評価算出部１２７は該ファイルのファイルを用いて検査対象物に所定の評価を行う。

以上が、データ数量化処理のフローの例である。データ数量化処理によれば、フリーテキストエリアを含むファイルのフリーテキスト部分に含まれる重要な単語の出現頻度から、フリーテキストにのみ含まれる情報を定量化できる。そのため、文章の内容を適切に評価できるようになる。

図９は、単語出現回数集計処理（Ｎ－ｇｒａｍ利用）のフローの例を示す図である。単語出現回数集計処理は、データ数量化処理のステップＳ００３において開始される。

まず、集計処理部１２２は、単語出現回数リストを初期化する（ステップＳ００３１）。そして、集計処理部１２２は、変換対象データを読み込む（ステップＳ００３２）。具体的には、集計処理部１２２は、ファイル名入力領域２０１の入力値により特定されるファイルについて読み出す。

そして、集計処理部１２２は、未取得の行があるか否かを判定する（ステップＳ００３３）。未取得の行がない場合（ステップＳ００３３にて「Ｎｏ」の場合）には、集計処理部１２２は、単語出現回数集計処理を終了させる。

未取得の行がある場合（ステップＳ００３３にて「Ｙｅｓ」の場合）には、集計処理部１２２は、未取得の行を一行取得する（ステップＳ００３４）。

そして、集計処理部１２２は、取得した行から対象列の値を取得する（ステップＳ００３５）。具体的には、集計処理部１２２は、変換対象列選択入力領域２０３の入力値により特定されるカラムについての未処理の情報を、先頭から順に一つ取得する。

そして、集計処理部１２２は、値（自由記述）の単語出現回数をＮ－ｇｒａｍで集計する（全単語対象）（ステップＳ００３６）。具体的には、集計処理部１２２は、変換対象列選択入力領域２０３の入力値により特定されるカラムについての各行の情報をテキストとして読み出し、Ｎ－ｇｒａｍによりテキストを分割して区分を作成し、各区分の出現頻度を特定する。

そして、集計処理部１２２は、集計結果を単語出現回数リストへ追加する（ステップＳ００３７）。具体的には、集計処理部１２２は、各区分の文字を、単語出現回数リストの各区分の文字と照会し、揺らぎの範囲内であれば同一とみなして出現頻度に加算する。いずれの区分の文字とも異なる区分の文字については、特定した出現頻度を当該区分の出現頻度として頻度記憶部１１２に記録する。そして、集計処理部１２２は、制御をステップＳ００３３に戻す。

以上が、単語出現回数集計処理のフローである。単語出現回数集計処理によれば、Ｎ－ｇｒａｍにより分析対象のフリーテキストを順次読み出して区分し、区分ごとに出現頻度を単語出現回数リストに記録できる。

図１０は、ブラックリスト適用処理のフローの例を示す図である。ブラックリスト適用処理は、データ数量化処理のステップＳ００４において開始される。

まず、ブラックリスト処理部１２３は、単語出現回数リストを取得する（ステップＳ００４１）。具体的には、ブラックリスト処理部１２３は、単語出現回数集計処理（Ｎ－ｇｒａｍ利用）のステップＳ００３７にて追加した単語出現回数リストを受け取る。

そして、ブラックリスト処理部１２３は、ブラックリストを読み込む（ステップＳ００４２）。具体的には、ブラックリスト処理部１２３は、データ数量化処理のステップＳ００２にて受け付けたブラックリストを読み込む。

そして、ブラックリスト処理部１２３は、チェックしていない単語があるか否かを判定する（ステップＳ００４３）。チェックしていない単語がない場合（ステップＳ００４３にて「Ｎｏ」の場合）には、ブラックリスト処理部１２３は、ブラックリスト適用処理を終了させる。

チェックしていない単語がある場合（ステップＳ００４３にて「Ｙｅｓ」の場合）には、ブラックリスト処理部１２３は、単語出現回数リストから未チェックの単語を取得する（ステップＳ００４４）。

そして、ブラックリスト処理部１２３は、単語がブラックリストに含まれているか否か判定する（ステップＳ００４５）。単語がブラックリストに含まれていない場合（ステップＳ００４５にて「Ｎｏ」の場合）には、ブラックリスト処理部１２３は、制御をステップＳ００４３へ戻す。

単語がブラックリストに含まれている場合（ステップＳ００４５にて「Ｙｅｓ」の場合）には、ブラックリスト処理部１２３は、単語を表示または出力対象から除外する（ステップＳ００４６）。具体的には、ブラックリスト処理部１２３は、頻度記憶部１１２の当該単語のブラック指定１１２Ｄに「Ｔｒｕｅ」を格納する。

以上が、ブラックリスト適用処理のフローである。ブラックリスト適用処理によれば、ブラックリストに挙げた単語が検出された場合であっても、当該単語を表示または出力の対象から除外することができる。

図１１は、ホワイトリスト適用処理のフローの例を示す図である。ホワイトリスト適用処理は、データ数量化処理のステップＳ００５において開始される。

まず、ホワイトリスト処理部１２４は、ホワイトリストを読み込む（ステップＳ００５１）。具体的には、ホワイトリスト処理部１２４は、データ数量化処理のステップＳ００２にて受け付けたホワイトリストおよび後述するダミー変数選択処理のステップＳ００６４にて追加されたホワイトリストを読み込む。

そして、ホワイトリスト処理部１２４は、チェックしていない単語があるか否かを判定する（ステップＳ００５２）。チェックしていない単語がない場合（ステップＳ００５２にて「Ｎｏ」の場合）には、ホワイトリスト処理部１２４は、ホワイトリスト適用処理を終了させる。

チェックしていない単語がある場合（ステップＳ００５２にて「Ｙｅｓ」の場合）には、ホワイトリスト処理部１２４は、単語出現回数リストに集計結果がない単語がホワイトリストに含まれるか否か、判定する（ステップＳ００５３）。集計結果がある場合（ステップＳ００５３にて「Ｎｏ」の場合）には、ホワイトリスト処理部１２４は、制御をステップＳ００５２に戻す。

集計結果がない場合（ステップＳ００５３にて「Ｙｅｓ」の場合）には、ホワイトリスト処理部１２４は、集計結果がない単語について出現回数を集計する（ステップＳ００５４）。そして、ホワイトリスト処理部１２４は、制御をステップＳ００５２に戻す。

以上が、ホワイトリスト適用処理のフローである。ホワイトリスト適用処理によれば、ホワイトリストに挙げた単語の出現頻度が集計されていない場合には、当該単語の出現頻度を集計し、表示または出力の対象に追加することができる。

図１２は、ダミー変数選択処理のフローの例を示す図である。ダミー変数選択処理は、データ数量化処理のステップＳ００６において開始される。

まず、ダミー変数受付部１２５は、単語出現回数リストを表示させる（ステップＳ００６１）。具体的には、ダミー変数受付部１２５は、ダミー変数指定画面４００を表示させる。この際、ダミー変数受付部１２５は、ステップＳ００３～ステップＳ００５の処理結果を用いて、出現回数の順に単語を表示させることは、上述のとおりである。

そして、ダミー変数受付部１２５は、ホワイトリスト単語出現回数表示を行う（ステップＳ００６２）。具体的には、ダミー変数受付部１２５は、ダミー変数指定画面４００において、ホワイトリスト適用処理の結果得たホワイトリストの単語について、ハイライト等により強調表示させる。

そして、ダミー変数受付部１２５は、ダミー変数の選択を受け付ける（ステップＳ００６３）。具体的には、ダミー変数受付部１２５は、ダミー変数指定画面４００のチェック入力受付領域４０２にチェック入力を受け付けた単語をダミー変換リストとして受け付ける。

そして、ダミー変数受付部１２５は、ホワイトリストへの追加単語を受け付ける（ステップＳ００６４）。具体的には、ダミー変数受付部１２５は、ダミー変数指定画面４００のホワイトリスト追加単語入力領域４０５に入力された値をホワイトリストへ追加する単語として受け付ける。

そして、ダミー変数受付部１２５は、追加する単語は単語出現回数リストに集計結果が既にあるか否か判定する（ステップＳ００６５）。なお、追加する単語が複数ある場合には、それぞれの単語について判定し、全ての単語が単語出現回数リストに既にあるか否か判定する。

追加する単語は単語出現回数リストに集計結果が既にある場合（ステップＳ００６５にて「Ｙｅｓ」の場合）には、ダミー変数受付部１２５は、ダミー変数選択完了フラグをＯＮに設定する（ステップＳ００６６）。

追加する単語に、単語出現回数リストの集計結果がないものが含まれる場合（ステップＳ００６５にて「Ｎｏ」の場合）には、ダミー変数受付部１２５は、ダミー変数選択完了フラグをＯＦＦに設定する（ステップＳ００６７）。

以上が、ダミー変数選択処理のフローである。ダミー変数選択処理によれば、出現回数の示された単語のうち、ダミー変数とする、すなわち数量化する単語を選択することができる。

図１４は、ダミー変数変換処理のフローの例を示す図である。ダミー変数変換処理は、データ数量化処理のステップＳ００８において開始される。

まず、ダミー変数変換部１２６は、ダミー変換リストを読み込む（ステップＳ００８１）。具体的には、ダミー変数変換部１２６は、ダミー変数選択処理のステップＳ００６３にて受け付けられたダミー変換リストを読み込む。

そして、ダミー変数変換部１２６は、処理していないダミー変数の単語があるか否か判定する（ステップＳ００８２）。処理していないダミー変数の単語がない場合（ステップＳ００８２にて「Ｎｏ」の場合）には、ダミー変数変換部１２６は、ダミー変数変換処理を終了させる。

処理していないダミー変数の単語がある場合（ステップＳ００８２にて「Ｙｅｓ」の場合）には、ダミー変数変換部１２６は、処理していないダミー変数の単語を取得する（ステップＳ００８３）。

そして、ダミー変数変換部１２６は、入力データにダミー変数の単語の列を追加する（ステップＳ００８４）。具体的には、ダミー変数変換部１２６は、入力データすなわち変換対象データに対して、ダミー変数の単語ごとにカラムを設ける。

そして、ダミー変数変換部１２６は、入力データ各行の処理対象列の値を取得する（ステップＳ００８５）。具体的には、ダミー変数変換部１２６は、変換対象データの変換対象カラムについて読み出す。

そして、ダミー変数変換部１２６は、取得した処理対象カラムの値に、処理していないダミー変数の単語が含まれているか否か判定する（ステップＳ００８６）。

ダミー変数の単語が取得した処理対象カラムの値に含まれている場合（ステップＳ００８６にて「Ｙｅｓ」の場合）には、ダミー変数変換部１２６は、処理対象カラムの値に含まれているダミー変数列の値として「１」を入力する（ステップＳ００８７）。そして、ダミー変数変換部１２６は、制御をステップＳ００８２に戻す。

ダミー変数の単語が、取得した処理対象カラムの値に含まれていない場合（ステップＳ００８６にて「Ｎｏ」の場合）には、ダミー変数変換部１２６は、処理対象カラムの値に含まれていないダミー変数列の値として「０」を入力する（ステップＳ００８８）。そして、ダミー変数変換部１２６は、制御をステップＳ００８２に戻す。

以上が、ダミー変数変換処理のフローである。ダミー変数変換処理によれば、フリーテキストを、選択されたダミー変数に変換することができる。

以上が、本発明の実施形態にかかる検査評価システム１である。検査評価システム１によれば、定性的な文書の内容からダミー変数を得られるため適切に評価することができる。

本発明は、上記の実施形態に制限されない。上記の実施形態は、本発明の技術的思想の範囲内で様々な変形が可能である。例えば、上記の実施形態においては、単語出現回数集計処理ではＮ－ｇｒａｍを用いて区分（単語）を得ているが、これに限られない。例えば、形態素解析等、他の手段により区分（単語）を得るものであってもよい。このようにした場合、品詞まで判別することが可能となるため、出現頻度を集計する処理において品詞フィルタを用いて精度を高めることができる。このような第二の実施形態について、図１６から図１８を用いて説明する。

第二の実施形態は、第一の実施形態と基本的に同様であるが、一部に相違がある。以下、その相違を中心に説明する。

図１６は、頻出単語取得条件指定画面の別の例を示す図である。頻出単語取得条件指定画面３００´では、品詞フィルタ指定入力領域３１０が追加されている。品詞フィルタ指定入力領域３１０では、ダミー変数として数量化する対象の単語について、品詞別に絞り込むための入力を受け付ける。頻出単語取得条件指定画面３００´では、例えば、「一般名詞」、「固有名詞」、「人名」、「地名」、「記号」の品詞を指定入力可能である。ここでチェックを入れなかった品詞については、ダミー変数として数量化する対象の単語とならない。そのため、数量化したい区分（単語）がある場合には、個別にホワイトリストに指定することができる。

図１７は、単語出現回数集計処理（形態素解析利用）のフローの例を示す図である。このフローは、基本的に単語出現回数集計処理（Ｎ－ｇｒａｍ利用）のフローと同様であるが、ステップＳ００３５より後の処理の流れが異なる。

まず、集計処理部１２２は、対象値（自由記述）を形態素解析する（ステップＳ０１３６）。

そして、集計処理部１２２は、形態素解析結果で評価していない単語があるか否か判定する（ステップＳ０１３７）。形態素解析結果で評価していない単語がない場合（ステップＳ０１３７にて「Ｎｏ」の場合）には、集計処理部１２２は、制御をステップＳ００３３に戻す。

形態素解析結果で評価していない単語がある場合（ステップＳ０１３７にて「Ｙｅｓ」の場合）には、集計処理部１２２は、その単語の品詞が名詞（指定された品詞）であるか否か判定する（ステップＳ０１３８）。具体的には、集計処理部１２２は、指定入力された「一般名詞」、「固有名詞」、「人名」、「地名」、「記号」の品詞であるか否か判定する。単語の品詞が名詞（指定された品詞）でない場合（ステップＳ０１３８にて「Ｎｏ」の場合）には、集計処理部１２２は、制御をステップＳ０１３７に戻す。

単語の品詞が名詞（指定された品詞）である場合（ステップＳ０１３８にて「Ｙｅｓ」の場合）には、集計処理部１２２は、単語出現回数リストに当該単語の出現回数をカウントして追加する（ステップＳ０１３９）。そして、集計処理部１２２は、制御をステップＳ０１３７に戻す。

以上が、単語出現回数集計処理（形態素解析利用）のフローである。単語出現回数集計処理（形態素解析利用）によれば、指定された品詞以外の区分（単語）はノイズとして出現頻度の集計から無視されることとなるため、精度高く評価することが可能となる。

図１８は、ダミー変数指定画面の別の例を示す図である。ダミー変数指定画面４００´では、基本的にダミー変数指定画面４００と表示内容は同じであるが、単語出現回数（名詞）表示領域４１０と、ホワイトリスト単語出現回数表示領域４１１と、が含まれる。

単語出現回数（名詞）表示領域４１０は、単語を、出現回数の降順に、表形式で表示させる領域である。この表示は、ステップＳ００３～ステップＳ００５の処理結果が反映されたものである。そして、単語出現回数（名詞）表示領域４１０には、ダミー変数（数量化の対象）に指定するチェック入力受付領域を含む。しかし、ホワイトリストの単語は含まれない。ホワイトリストの単語の集計結果は、ホワイトリスト単語出現回数表示領域４１１に別表として表示される。

以上が、第二の実施形態にかかる検査評価システムである。第二の実施形態に係る検査評価システムによれば、より精度高くダミー変数を得られるため適切に評価することができる。

さらには、このような第二の実施形態において、ホワイトリストの追加候補をダミー変数指定画面において提案するように変形してもよい。このような変形について、図１９を用いて説明する。

第三の実施形態に係る検査評価システムでは、基本的には第二の実施形態と略同様の構成を備える。しかし、一部において相違がある。以下、そのような相違を中心に説明する。

図１９は、ダミー変数指定画面のさらに別の例を示す図である。ダミー変数指定画面４００´´には、ホワイトリスト追加候補入力領域４２０が含まれる。集計処理部１２２は、Ｎ－ｇｒａｍを利用してテキストデータを所定の区分に分割するとともに、出現頻度を用いて所定の区分を組み合わせて、Ｎの値を超える語長の単語をホワイトリストの候補として提案することができる。また、集計処理部１２２は、形態素解析を利用してテキストデータを所定の区分に分割する場合にも、共起表現や類義語、外来語等の他の表現を提案することができる。

そして、集計処理部１２２により提案されたホワイトリストの候補は、ホワイトリスト追加候補入力領域４２０にリストして表示され、各単語（区分）に対応するチェック欄を設けられる。チェック欄への入力のあった単語（区分）は、ホワイトリストに追加する対象として扱われる。

以上が、第三の実施形態に係る検査評価システムである。

また、本発明に係る技術は、上述のような検査評価システムに限られず、随時の通報、参照があり、随時にデータ収集・分析を行うシステムである地域情報収集システムに適用されるものであってもよい。このような例について、図２０～図３９を用いて説明する。

図２０は、第四の実施形態に係る地域情報収集システムの例に係るブロック図である。地域情報収集システム１０００は、周辺の住民や自治体、行政の担当者との間で、ある地域の異常事態や治安の情報を自由に共有するシステムである。例えば、住民が歩道の隆起を発見すると、当該システムを用いて歩道の隆起を通報することができる。これを自治体組織や行政組織の担当者が当該システムを用いて受け付けて、修繕を手配することにつなげることができる。あるいは、食中毒や流行病、災害の発見・封じ込め、不審者情報の共有につなげることもできる。

地域情報収集システム１０００は、基本的には検査評価システム１とほぼ同様の構成を備えるが、一部に相違がある。以下、その相違を中心に説明する。

地域情報収集システム１０００には、データ数量化サーバー装置１００´が含まれる。当該システムの利用者である外部利用者２０は、インターネット等の公衆網や携帯電話データ通信ネットワーク、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、あるいはＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のネットワーク５０を介して、スマートフォンやパーソナルコンピュータ等の端末からデータ数量化サーバー装置１００´を利用する。

データ数量化サーバー装置１００´の記憶部１１０´には、変換対象データ記憶部１１１´と、時刻住所優先順位記憶部１１５と、が含まれる。

図２１は、変換対象データ記憶部のデータ構造例を示す図である。変換対象データ記憶部１１１´には、事象ＩＤ１１１Ａ´と、補助ＩＤ１１１Ｂ´と、コメント（自由記述内容）１１１Ｃ´と、コメント者１１１Ｄ´と、コメント時刻１１１Ｅ´と、現場住所１１１Ｆ´と、現場緯度経度１１１Ｇ´と、コメント者位置１１１Ｈ´と、画像位置１１１Ｊ´と、テキスト抽出位置１１１Ｋ´と、ステータス１１１Ｌ´と、が含まれる。

事象ＩＤ１１１Ａ´は、通報とその通報に関連するその他の報告とを含めて一連の事象として他の事象と区別する識別子である。補助ＩＤ１１１Ｂ´は、事象内の通報、各報告、連絡等を他から区別する識別子である。コメント（自由記述内容）１１１Ｃ´は、通報や連絡の内容を自然言語で表したフリーテキストである。例えば、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかを含む。

コメント者１１１Ｄ´とコメント時刻１１１Ｅ´とは、それぞれ、コメントを発した者と、コメントされた事象が観測された時刻を特定する情報である。現場住所１１１Ｆ´と現場緯度経度１１１Ｇ´とは、それぞれ、異常事態あるいは治安上の問題の発生した地点を含む地域と、その地点とを特定する情報である。

コメント者位置１１１Ｈ´は、コメント者がコメントを発した時点で存在していた位置を特定する情報である。画像位置１１１Ｊ´は、コメント者が画像を添付している場合にはその画像に関連付けられた撮影位置を特定する情報である。テキスト抽出位置１１１Ｋ´は、コメント内のテキスト情報から位置情報に相当するキーワードを抽出して、ジオコーディングした位置情報である。ステータス１１１Ｌ´は、各コメントの完了／継続中を特定する情報である。

図２２は、時刻住所優先順位記憶部のデータ構造例を示す図である。時刻住所優先順位記憶部１１５には、特定項目１１５Ａと、順位１１５Ｂと、元情報１１５Ｃと、が含まれる。特定項目１１５Ａは、時刻または住所のいずれを特定する対象とする基準であるかを特定する情報である。順位１１５Ｂは、特定項目１１５Ａにより特定される項目についての優先順を特定する情報である。元情報１１５Ｃは、特定項目１１５Ａにより特定される項目の元となる情報を特定する情報である。例えば、特定項目１１５Ａが「現場住所」、順位１１５Ｂが「１」、元情報１１５Ｃが「コメント者位置」であれば、現場住所を特定するにあたり、コメント者位置を最優先として特定する、というルールを示すものである。同様に、特定項目１１５Ａが「現場住所」、順位１１５Ｂが「２」、元情報１１５Ｃが「画像位置」であれば、現場住所を特定するにあたり、コメント者位置の次に画像位置を優先して現場住所として特定する、というルールを示すものである。

また、制御部１２０には、情報統合部１２８が含まれる。情報統合部１２８は、後述する情報統合処理を実施する。

図２３は、情報統合処理のフローの例を示す図である。情報統合処理は、所定件数（例えば、１件または３件）のコメント追加があった場合に、あるいは所定の時間間隔（例えば、１０分間隔）で、開始される。

情報統合部１２８は、図６のデータ数量化処理を実施させ（ステップＳ１０１）、その後、各コメントの時刻と住所を特定する（ステップＳ１０２）。

各コメントの時刻と住所を特定する処理としては、情報統合部１２８は、各コメントごとに、時刻住所優先順位記憶部１１５のルールを参照して、コメント時刻１１１Ｅ´と現場住所１１１Ｆ´とを特定する。具体的には、情報統合部１２８は、「現場住所」の元情報となる「テキスト抽出位置」については、辞書に「地名」である旨記載してある単語を優先的に、コメントの内容から位置情報に相当するキーワードを抽出するか、固有表現抽出と呼ばれる公知の手法等で、地名らしい単語部分を抽出してジオコーディングと呼ばれる公知の手法で緯度経度を抽出する処理を行う。そして、情報統合部１２８は、時刻住所優先順位記憶部１１５を参照し、「現場住所」の「優先順」に位置情報を参照し、欠損値があった場合には、その順位を飛ばして下位の順位の位置情報を「現場住所」として採用する。

コメントの時刻についても同様に、情報統合部１２８は、通報のあった時刻と、画像の時刻と、テキスト抽出時刻と、を抽出し、時刻住所優先順位記憶部１１５を参照し、「コメント時刻」の「優先順」に時刻情報を参照し、欠損値があった場合には、その順位を飛ばして下位の順位の時刻情報を「コメント時刻」として採用する。

以上が、情報統合処理の流れである。情報統合処理によれば、データ数量化処理によりコメントにあるフリーテキストを対象として、頻出単語をダミー変数として抽出するとともに、コメントごとに時刻と住所とを特定することができる。

図２４は、地域情報集計処理のフローの例を示す図である。地域情報集計処理は、外部利用者２０から要求があった場合に、開始される。

まず、情報統合部１２８は、ダミー変数を取得する（ステップＳ２０１）。具体的には、情報統合部１２８は、情報統合処理のステップＳ１０１にて作成されたダミー変数を読み込む。そして、集計項目設定画面６００を作成し、外部利用者２０のアクセスに用いている端末に送信して表示させる。

図２５は、集計項目設定画面の例を示す図である。集計項目設定画面６００には、コメントの抽出条件と、表示に用いる分類軸と、集計の表示対象を特定する集計値と、を入力する領域が含まれる。

コメントの抽出条件を入力する領域には、ダミー変数の限定を行うための設定となる抽出条件（ダミー変数）受付領域６１０と、ダミー変数以外（すなわち、定型項目）の限定を行うための設定となる抽出条件（ダミー変数以外）受付領域６２０と、が含まれる。

さらに詳細には、抽出条件（ダミー変数）受付領域６１０には、絞り込み対象とするダミー変数のチェックボックスと、各ダミー変数の存在を条件とするか不存在を条件とするかを制御するチェックボックス６１１と、が含まれる。

また、抽出条件（ダミー変数以外）受付領域６２０には、絞り込み対象とするダミー変数以外のチェックボックスと、各ダミー変数の詳細条件の入力を受け付ける詳細条件受け付け領域とが含まれる。例えば、コメント時刻については、コメント時刻の抽出範囲を決定する開始時刻または終了時刻のいずれかまたは両方を指定する入力を受け付ける時刻帯指定受付領域６２１が含まれる。ステータスについては、継続中か完了かを受け付けるチェックボックス６２２が含まれる。

表示に用いる分類軸を入力する領域には、ダミー変数の限定を行うための設定となる分類軸Ｘ（ダミー変数）受付領域６３０と、ダミー変数以外（すなわち、定型項目）の限定を行うための設定となる分類軸Ｙ（ダミー変数以外）受付領域６４０と、が含まれる。

分類軸Ｘ（ダミー変数）受付領域６３０には、ダミー変数の組み合わせｎＣｋを決定するためのパラメータとして、選ぶ数ｋと元の数ｎの指定を受け付ける領域が含まれる。選ぶ数ｋの指定は、選択するダミー変数の数受付領域６３１において受け付け、元の数ｎの指定は、値＝１を集計するダミー変数のチェックボックスにて受け付ける。

分類軸Ｙ（ダミー変数以外）受付領域６４０には、分類軸およびその階層を受け付ける領域が含まれる。

集計値受付領域６５０には、コメントの件数を表示するか否か、コメント内容を連結させて表示するか否か、の指定の受付領域が備えられている。

そして、情報統合部１２８は、集計項目設定画面６００において設定された集計項目を、受け付ける（ステップＳ２０２）。

情報統合部１２８は、分類軸にダミー変数のみが選択されたか否かを判定する（ステップＳ２０３）。具体的には、情報統合部１２８は、分類軸Ｘ（ダミー変数）受付領域６３０に分類軸Ｘの設定を受け付けて、かつ、分類軸Ｙ（ダミー変数以外）受付領域６４０に定型項目のチェックを受け付けなかったか否かを判定する。

分類軸にダミー変数のみが選択された場合（ステップＳ２０３にて「Ｙｅｓ」の場合）には、情報統合部１２８は、分類軸にダミー変数を一つ選択されたか否か判定する（ステップＳ２０４）。例えば、情報統合部１２８は、選択するダミー変数の数受付領域６３１に入力された値が１であるか否かを判定する。

分類軸にダミー変数を一つ選択された場合（ステップＳ２０４にて「Ｙｅｓ」の場合）には、情報統合部１２８は、選択されたダミー変数ごとにコメント件数およびコメントを分類して、集計値受付領域６５０にて受け付けた指定に応じて出力する（ステップＳ２０５）。その出力例は、後述する単変数集計画面７００となる。

図２６は、単変数集計画面の例を示す図である。単変数集計画面７００には、ダミー変数を行（縦軸）として、横軸に件数またはコメント内容を整理する表７０１が含まれる。例えば、集計値受付領域６５０にてコメント件数とコメント内容のどちらも指定した場合、ダミー変数が「歩道」の行には、「歩道」を含むコメントの件数と、「歩道」を含むコメントの内容と、が表示される。

分類軸にダミー変数を一つ選択された場合でない場合（ステップＳ２０４にて「Ｎｏ」の場合）には、情報統合部１２８は、選択されたダミー変数の組み合わせごとにコメント件数およびコメントを分類して、集計値受付領域６５０にて受け付けた指定に応じて出力する（ステップＳ２０６）。その出力例は、後述する複数変数集計画面７１０となる。

図２７は、複数変数集計画面の例を示す図である。複数変数集計画面７１０には、ダミー変数の組み合わせを行（縦軸）として、横軸に件数、コメント内容を整理する表７１１が含まれる。例えば、集計値受付領域６５０にてコメント件数とコメント内容のどちらも指定した場合、ダミー変数が「歩道×修繕」の行には、「歩道」と「修繕」の両方を含むコメントの件数と、「歩道」と「修繕」の両方を含むコメントの内容と、が表示される。

分類軸にダミー変数のみが選択されていない場合（ステップＳ２０３にて「Ｎｏ」の場合）には、情報統合部１２８は、分類軸にダミー変数以外の変数を一つ選択されたか否か判定する（ステップＳ２０７）。例えば、情報統合部１２８は、分類軸Ｙ（ダミー変数以外）受付領域６４０に、分類軸が１階層のみ選択されているか否かを判定する。

分類軸にダミー変数以外の変数を一つ選択された場合（ステップＳ２０７にて「Ｙｅｓ」の場合）には、選択されたダミー変数の組み合わせと、ダミー変数以外の分類軸ごとにコメント件数およびコメントを分類して、集計値受付領域６５０にて受け付けた指定に応じて出力する（ステップＳ２０８）。その出力例は、後述する一階層クロス表画面７５０となる。

図２８は、一階層クロス表画面の例を示す図である。一階層クロス表画面７５０には、ダミー変数の組み合わせを行（縦軸）７５１として、横軸に分類軸Ｙに指定された項目である現場の住所７５２が設けられている。すなわち、コメント内容が、含まれるダミー変数の組み合わせと、現場の住所との交わった領域に表示される。例えば、ダミー変数が「歩道×修繕」の行には、集計値受付領域６５０にてコメント内容のみ指定した場合、「歩道」と「修繕」の両方を含むコメントの内容が、現場の住所別に整理されて表示される。

分類軸にダミー変数以外の変数を一つ選択されていない場合（ステップＳ２０７にて「Ｎｏ」の場合）には、選択されたダミー変数の組み合わせと、ダミー変数以外の分類軸ごとにコメント件数およびコメントを分類して、集計値受付領域６５０にて受け付けた指定に応じて出力する（ステップＳ２０９）。その出力例は、後述する多階層クロス表画面７６０となる。

図２９は、多階層クロス表画面の例を示す図である。多階層クロス表画面７６０には、ダミー変数の組み合わせを行（縦軸）７６１として、横軸に分類軸Ｙに指定された項目である現場の住所７６２およびコメント者７６３の組み合わせが分類軸Ｙに指定した数字の順に設けられている。すなわち、コメント内容が、含まれるダミー変数の組み合わせと、現場の住所およびコメント者の組み合わせとの交わった領域に表示される。例えば、ダミー変数が「歩道×修繕」の行には、集計値受付領域６５０にてコメント内容のみ指定した場合、「歩道」と「修繕」の両方を含むコメントの内容が、現場の住所およびコメント者別に整理されて表示される。

以上が、地域情報集計処理のフローの例である。地域情報集計処理によれば、地域の通報情報が、指定された項目軸に従って整理されて分類表示される。

地域情報集計処理のフローで出力される画面は、上記の画面に限られず、定型項目の種類によっては別の画面により表示される。

図３０は、一階層クロス表画面の別の例（時刻スライス）を示す図である。一階層クロス表画面（時刻スライス）７７０には、時刻帯別に、一階層クロス表が表示されている。これは、抽出条件（ダミー変数以外）受付領域６２０にてコメント時刻が受け付けられた出力を並べた例である。

図３１は、一階層クロス表画面の別の例（継続中限定表示）を示す図である。一階層クロス表画面継続中限定表示）７８０には、時刻帯別に、継続中の事案について一階層クロス表が表示されている。これは、（ダミー変数以外）受付領域６２０にてコメント時刻およびステータスが受け付けられた出力を並べた例である。

図３２は、地図表示画面の例を示す図である。地図表示画面８００には、地域の地図画像８０１と、地図画像に重畳されるコメント欄８０２と、表示設定（表示対象のダミー変数）８０５と、表示設定（表示対象の場所情報）８０６と、が含まれる。コメント欄８０２には、ダミー変数のいずれかとそのコメント件数８０３と、コメント内容８０４と、が含まれる。

表示設定（表示対象のダミー変数）８０５は、選択的にコメント欄８０２に表示させるダミー変数あるいはダミー変数を決定する基準の指定を受け付ける。表示設定（表示対象の場所情報）８０６は、地図画像８０１の領域の境界の分け方の入力を受け付ける。

図３３は、地図表示画面の別の例を示す図である。地図表示画面８００には、地域の地図画像８０１と、地図画像に重畳されるコメント欄８０２´と、表示設定（表示対象のダミー変数）８０５と、表示設定（表示対象の場所情報）８０６と、が含まれる。コメント欄８０２´には、ダミー変数のいずれかとそのコメント件数８０３´と、コメント内容８０４´と、が含まれる。

図３３の例では、表示設定（表示対象のダミー変数）８０５は、ダミー変数を決定する基準の指定（件数が該当箇所で最大）を受け付けている状態にある。そのため、地図画像８０１の各領域（丁）ごとに、件数が最大のダミー変数が抽出され、表示される。

以上が、第四の実施形態に係る地域情報収集システムの例である。第四の実施形態に係る地域情報収集システムによれば、周辺の住民や自治体、行政の担当者との間で、ある地域の異常事態や治安の情報を自由に共有することができる。

図３４は、第四の実施形態に係る地域情報収集システムの別の例に係るブロック図である。地域情報収集システム１０００´は、基本的には地域情報収集システム１０００とほぼ同様の構成を備えるが、一部に相違がある。以下、その相違を中心に説明する。

データ数量化サーバー装置１００´´の記憶部１１０´´には、変換対象データ記憶部１１１´´と、ダミータグ記憶部１１６と、画像間タグ類似度記憶部１１７と、が含まれる。

図３５は、変換対象データ記憶部のデータ構造例を示す図である。変換対象データ記憶部１１１´´にはさらに、画像１１１Ｍ´が含まれる。この画像は、コメント者がコメント時に添付する画像である。

図３６は、ダミータグ記憶部のデータ構造例を示す図である。ダミータグ記憶部１１６には、行方向に画像１１６Ａと、列方向に第一のダミータグ１１６Ｂと、第二のダミータグ１１６Ｃと、が含まれる。画像１１６Ａは、画像を特定する情報である。第一のダミータグ１１６Ｂと、第二のダミータグ１１６Ｃとは、ダミー変数に応じて設けられる列である。第一のダミータグ１１６Ｂと、第二のダミータグ１１６Ｃとは、画像１１６Ａのいずれかと関連するダミータグを重複しないよう列として設けたものである。したがって、画像１１６Ａに含まれる画像に応じて、第一のダミータグ１１６Ｂと、第二のダミータグ１１６Ｃとについても変動する。そして、行と列がクロスする点には、当該画像のコメントに当該ダミー変数が含まれる場合には「１」が、そうでない場合には「０」が、それぞれ格納される。なお、ダミータグ記憶部１１６のデータ構造は、これに限られず、例えば、画像に関連するタグのみを関連付けるようにしてもよい。すなわち、コメントに含まれないダミー変数のタグについては関連付けないようなデータ構造としてもよい。このようなデータ構造を用いて、検索キーワードに一致する画像を検索できる。

図３７は、画像間タグ類似度記憶部のデータ構造例を示す図である。画像間タグ類似度記憶部１１７には、画像間の総当り表が含まれ、行方向の画像１１７Ｂに対する列方向の画像１１７Ａの類似度が所定の基準に応じて算出されて格納される。なお、この例では、画像間で共通するタグの数が類似度として算出されている。

地域情報収集システム１０００´では、情報統合処理のステップＳ１０２にて実施される各コメントの時刻と住所を特定する処理に続けて、変換対象データ記憶部１１１´´の画像１１１Ｍ´が抽出され、それぞれの画像に関連するコメント（自由記述内容）１１１Ｃ´から抽出されたダミー変数が、画像ごとにタグとして類似検索部１２９により関連付けられる。そして、その関連付けは、ダミータグ記憶部１１６に類似検索部１２９により格納される。

そしてさらに、類似検索部１２９は、画像間の類似度を判定して、画像間タグ類似度記憶部１１７に格納する。この処理では、類似検索部１２９は、画像ごとに、関連付けられているダミー変数を基にしたタグを比較して、一致するタグを計数することで、類似度とする。すなわち、共通するダミー変数が３つあるコメントに添付された画像同士は、類似度が「３」とされ、画像間タグ類似度記憶部１１７に格納される。

また、類似検索部１２９は、これらのダミータグ記憶部１１６を用いて、検索ワードを受け付けて画像を検索し、出力することができる。これを画像あいまい検索と称呼する。

図３８は、画像あいまい検索画面の例を示す図である。画像あいまい検索画面９００には、検索ワード入力領域９０１と、検索結果表示領域９０２と、が含まれる。また、検索結果表示領域９０２には、類似度表示領域９０３と、画像情報表示領域９０４と、が含まれる。

検索ワード入力領域９０１は、画像を検索するキーワード（ダミー変数）を受け付ける。検索結果表示領域９０２には、検索ワード入力領域９０１により入力されたキーワードと類似する画像およびタグがリストされる画像情報表示領域９０４と、類似度表示領域９０３と、が表示される。

ここで、類似検索部１２９は、ダミータグ記憶部１１６の画像１１６Ａごとに、ダミータグの値を成分とするベクトルを、その画像の特徴を示す特徴ベクトルとして扱い、検索キーワードからなる特徴ベクトルとの間の類似度が高い画像を検索する。この検索では、類似検索部１２９は、ベクトル間のユークリッド距離を求めることで類似度とすることができる。だが、これに限られるものではなく、一致するタグ数を類似度とするものであってもよい。

また、類似検索部１２９は、これらのダミータグ記憶部１１６を用いて、画像を受け付けて類似する他の画像を検索し、出力することができる。これをタグ類似画像検索と称呼する。

図３９は、タグ類似画像検索画面の例を示す図である。タグ類似画像検索画面９１０には、検索画像領域９１１と、類似検索実行指示受付領域９１２と、検索結果表示領域９２０と、が含まれる。また、検索結果表示領域９２０には、類似度表示領域９２１と、画像情報表示領域９２２と、が含まれる。

検索画像領域９１１は、類似画像を検索する画像が含まれる。例えば、ある画像が添付されたコメントを表示し、これに似た画像を検索する場合には、当該コメントに添付されている画像が類似画像を検索する画像に相当する。類似検索指示受付領域９１２は、入力を受け付けると、対応する検索画像領域９１１において指定された画像の類似画像を検索する指示を受け付ける。検索結果表示領域９２０には、検索画像領域９１１に含まれる画像と類似する画像およびタグがリストされる画像情報表示領域９２２と、類似度表示領域９２１と、が表示される。

ここで、類似検索部１２９は、画像間タグ類似度記憶部１１７の画像１１７Ｂを検索して、類似度の高い他の画像を特定する。なお、これに限られず、類似検索部１２９は、実行時にダミータグの値を成分とするベクトルを、その画像の特徴を示す特徴ベクトルとして扱い、検索画像の特徴ベクトルとの間の類似度が高い画像を検索するようにしてもよい。この検索では、類似検索部１２９は、ベクトル間のユークリッド距離を求めることで類似度とすることができる。だが、これに限られるものではなく、一致するタグ数を類似度とするものであってもよい。

以上が、第四の実施形態に係る地域情報収集システムの別の例である。第四の実施形態に係る地域情報収集システムの別の例によれば、フリーテキストのコメントと対応付けられた画像について、関連するダミー変数を画像のタグ情報として関連付けることができる。そのため、画像検索を行う際に、画像そのものの対比ではなく、タグ情報をベクトル情報として扱いベクトルの類似度に応じて類似画像を特定することができるようになる。そのため、画像検索速度が向上する。とくに、大量の画像がある場合にその画像の検索速度を高めつつ、検索ノイズを減らすことができる。

また、第四の実施形態に係る地域情報収集システムの別の例では、画像を対象として検索する例を挙げたが、これに限られず、動画、音声等のいずれかまたはその組み合わせの非構造データがコメントと共に投稿され、これを検索するものであってもよい。

また、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品のような複数の部分に分けられて適用されるようにしてもよい。

以上、本発明について、実施形態を中心に説明した。

１・・・検査評価システム、１０・・・利用者、１００・・・データ数量化サーバー装置、１１０・・・記憶部、１１１・・・変換対象データ記憶部、１１２・・・頻度記憶部、１１３・・・ブラックリスト記憶部、１１４・・・ホワイトリスト記憶部、１２０・・・制御部、１２１・・・条件受付部、１２２・・・集計処理部、１２３・・・ブラックリスト処理部、１２４・・・ホワイトリスト処理部、１２５・・・ダミー変数受付部、１２６・・・ダミー変数変換部、１２７・・・評価算出部、１３０・・・入力部、１４０・・・出力部、２０・・・外部利用者、５０・・・ネットワーク、１１５・・・時刻住所優先順位記憶部、１１６・・・ダミータグ記憶部、１１７・・・画像間タグ類似度記憶部、１２８・・・情報統合部、１２９・・・類似検索部、１０００・・・地域情報収集システム。

Claims

一つ又は複数のテキストデータが格納された記憶部と、
前記テキストデータの集計対象の単語についての条件を受け付ける条件受付部と、
前記テキストデータごとに、単語に分割し、該単語ごとに、前記テキストデータにおける出現回数を集計する集計処理部と、
集計した前記出現回数に前記集計対象の単語についての条件を反映させた結果を表示する表示部と、
前記表示部の表示において前記単語ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付部と、
前記ダミー変数の指定として受け付けた前記単語の、前記テキストデータにおける出現回数を取得するダミー変数変換部と、
前記ダミー変数の指定として受け付けた前記単語の、前記テキストデータにおける出現回数に基づいて、前記テキストデータにおける内容の評価指標を算出する評価算出部と、を備え、
前記表示部は、前記ダミー変数変換部が取得した前記出現回数を表示し、
前記集計対象の単語についての条件は、前記集計の対象として追加する前記単語を一つまたは複数指定するホワイトリストを含み、
前記表示部が前記集計対象の単語についての条件を反映させる処理において、前記ホワイトリストの単語を前記集計に追加して出現回数を再集計するホワイトリスト処理部を備え、
前記集計処理部は、Ｎ－ｇｒａｍを利用して前記テキストデータを前記単語に分割するとともに、前記出現回数を用いて前記単語を組み合わせて、前記Ｎの値を超える語長の単語を前記ホワイトリストの候補として提案する、
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置であって、
前記集計対象の単語についての条件は、前記集計から除外する前記単語を一つまたは複数指定するブラックリストを含み、
前記表示部が前記集計対象の単語についての条件を反映させる処理において、前記ブラックリストの単語を前記集計から除外するブラックリスト処理部、
を備えることを特徴とする情報処理装置。
請求項１に記載の情報処理装置であって、
前記集計対象の単語についての条件は、前記単語として用いる品詞の指定を含み、
前記集計処理部は、形態素解析を利用して前記テキストデータを前記単語に分割するとともに、前記品詞に該当しない前記単語については前記集計から除外する、
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置であって、
前記テキストデータには所定の計測結果の値が一つまたは複数付随し、
前記表示部は、
前記ダミー変数変換部が取得した前記単語の出現回数を、前記単語ごとに、該テキストデータに付随する前記所定の計測結果の値に追加して表示する、
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置であって、
前記テキストデータには、構造物の検査結果に関する自然言語の記述を含むとともに、前記構造物の所定の計測結果の値が一つまたは複数付随し、
前記評価算出部は、
前記ダミー変数変換部が取得した前記単語の出現回数を、前記単語ごとに前記所定の計測結果の値として追加して、前記所定の計測結果の値を用いて前記構造物の所定の評価指標を算出し、
前記表示部は、
前記ダミー変数変換部が取得した前記単語の出現回数を、前記単語ごとに前記所定の計測結果の値として追加して表示する、
ことを特徴とする情報処理装置。
情報処理装置を用いた検査評価システムであって、
前記情報処理装置は、制御部と、記憶部と、を備え、
前記記憶部には、構造物の検査結果に関する自然言語の記述を含む一つまたは複数のテキストデータとともに、前記構造物の所定の計測結果の値が一つまたは複数付随して格納され、
前記制御部は、
前記テキストデータの集計対象の単語についての条件を受け付ける条件受付ステップと、
前記テキストデータごとに、単語に分割し、該単語ごとに、前記テキストデータにおける出現回数を集計する集計処理ステップと、
集計した前記出現回数に前記集計対象の単語についての条件を反映させた結果を表示する表示ステップと、
前記表示ステップの表示において前記単語ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付ステップと、
前記ダミー変数の指定として受け付けた前記単語の、前記テキストデータにおける出現回数を取得するダミー変数変換ステップと、
前記ダミー変数変換ステップで取得した前記出現回数を前記単語ごとに前記所定の計測結果の値として追加して表示する結果表示ステップと、
前記ダミー変数変換ステップで取得した前記出現回数を前記単語ごとに前記所定の計測結果の値として追加して、前記所定の計測結果の値を用いて前記構造物の所定の評価指標を算出する評価算出ステップと、
を実施することを特徴とする検査評価システム。
情報処理装置を用いた検査評価方法であって、
前記情報処理装置は、制御部と、記憶部と、を備え、
前記記憶部には、構造物の検査結果に関する自然言語の記述を含む一つまたは複数のテキストデータとともに、前記構造物の所定の計測結果の値が一つまたは複数付随して格納され、
前記制御部は、
前記テキストデータの集計対象の単語についての条件を受け付ける条件受付ステップと、
前記テキストデータごとに、単語に分割し、該単語ごとに、前記テキストデータにおける出現回数を集計する集計処理ステップと、
集計した前記出現回数に前記集計対象の単語についての条件を反映させた結果を表示する表示ステップと、
前記表示ステップの表示において前記単語ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付ステップと、
前記ダミー変数の指定として受け付けた前記単語の、前記テキストデータにおける出現回数を取得するダミー変数変換ステップと、
前記ダミー変数変換ステップで取得した前記出現回数を前記単語ごとに前記所定の計測結果の値として追加して表示する結果表示ステップと、
前記ダミー変数変換ステップで取得した前記出現回数を前記単語ごとに前記所定の計測結果の値として追加して、前記所定の計測結果の値を用いて前記構造物の所定の評価指標を算出する評価算出ステップと、
を実施することを特徴とする検査評価方法。
請求項１乃至４のいずれか一項に記載の情報処理装置であって、
前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報の
いずれかに関する自然言語の記述を含み、
前記表示部は、
前記ダミー変数の指定として受け付けた前記単語の出現回数が所定の条件を満たす前記テキストデータの件数を集計結果として表示する、
ことを特徴とする情報処理装置。
請求項４に記載の情報処理装置であって、
前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかに関する自然言語の記述を含み、
前記所定の計測結果の値には少なくとも位置情報を含み、
前記表示部は、前記ダミー変数の指定として受け付けた前記単語の出現回数、及び前記位置情報の値が所定の条件を満たす前記テキストデータの件数を集計結果として表示する、
ことを特徴とする情報処理装置。
請求項４に記載の情報処理装置であって、
前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかに関する自然言語の記述を含み、
前記所定の計測結果の値には複数の位置情報を含み、
所定の優先順位に従って、前記複数の位置情報のうちいずれかの位置情報の採用を決定する情報統合部を備え、
前記表示部は、前記ダミー変数の指定として受け付けた前記単語の出現回数、及び前記位置情報の値が所定の条件を満たす前記テキストデータの件数を集計結果として表示する、
ことを特徴とする情報処理装置。
請求項９または１０に記載の情報処理装置であって、
前記表示部は、前記所定の条件を満たす前記テキストデータの件数を、採用された前記位置情報に応じて地図上に重畳表示させる、
ことを特徴とする情報処理装置。
請求項４に記載の情報処理装置であって、
前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかに関する自然言語の記述を含み、
前記所定の計測結果の値には少なくとも日時情報を含み、
前記表示部は、前記ダミー変数の指定として受け付けた前記単語の出現回数、及び前記日時情報の値が所定の条件を満たす前記テキストデータの件数を集計結果として表示する、
ことを特徴とする情報処理装置。
請求項８乃至１２のいずれか一項に記載の情報処理装置であって、
前記表示部は、集計結果に、該当する前記テキストデータを出力する、
ことを特徴とする情報処理装置。
請求項４に記載の情報処理装置であって、
前記所定の計測結果の値には少なくとも画像、動画、音声のいずれかまたはこれらの組み合わせの非構造データを含み、
前記ダミー変数の指定として受け付けた前記単語の出現回数が所定の条件を満たす場合に、前記ダミー変数の名前を当該非構造データのタグとして関連付けて検索に用いる類似検索部、
を備えることを特徴とする情報処理装置。
請求項１４に記載の情報処理装置であって、
前記類似検索部は、前記ダミー変数の指定として受け付けた前記単語の出現回数を、前記非構造データの特徴を表す特徴ベクトルとして関連付け、前記特徴ベクトル同士で類似度を算出して前記非構造データの類似検索に用いる、
ことを特徴とする情報処理装置。
請求項１４に記載の情報処理装置であって、
前記類似検索部は、
検索のキーワードを特徴ベクトルとして取得し、
前記ダミー変数の指定として受け付けた前記単語の出現回数を、前記非構造データの特徴を表す特徴ベクトルとして関連付け、前記検索のキーワードとして取得した特徴ベクトルとの類似度を算出して前記非構造データの類似検索に用いる、
ことを特徴とする情報処理装置。
情報処理装置を用いたデータ数量化方法であって、
前記情報処理装置は、一つ又は複数のテキストデータが格納された記憶部と、制御部を備え、
前記制御部は、
前記テキストデータの集計対象の単語についての条件を受け付ける条件受付ステップと、
前記テキストデータごとに、単語に分割し、該単語ごとに、前記テキストデータにおける出現回数を集計する集計処理ステップと、
集計した前記出現回数に前記集計対象の単語についての条件を反映させた結果を表示する表示ステップと、
前記表示ステップの表示において前記単語ごとにユーザーの選択入力をダミー変数の指定として受け付けるダミー変数受付ステップと、
前記ダミー変数の指定として受け付けた前記単語の、前記テキストデータにおける出現回数を取得するダミー変数変換ステップと、
前記ダミー変数の指定として受け付けた前記単語の、前記テキストデータにおける出現回数に基づいて、前記テキストデータにおける内容の評価指標を算出する評価算出ステップと、を実施し、
前記ダミー変数変換ステップにて取得した前記出現回数を表示する第二の表示ステップ、
を実施し、
前記集計対象の単語についての条件は、前記集計の対象として追加する前記単語を一つまたは複数指定するホワイトリストを含み、
前記表示ステップにおいて前記集計対象の単語についての条件を反映させる処理において、前記ホワイトリストの単語を前記集計に追加して出現回数を再集計するホワイトリスト処理ステップを実施し、
前記集計処理ステップでは、Ｎ－ｇｒａｍを利用して前記テキストデータを前記単語に分割するとともに、前記出現回数を用いて前記単語を組み合わせて、前記Ｎの値を超える語長の単語を前記ホワイトリストの候補として提案する、
ことを特徴とするデータ数量化方法。
請求項１７に記載のデータ数量化方法であって、
前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報の
いずれかに関する自然言語の記述を含み、
前記ダミー変数の指定として受け付けた前記単語の出現回数が所定の条件を満たす前記テキストデータの件数を集計結果として表示する第三の表示ステップ、
を実施することを特徴とするデータ数量化方法。
請求項１７に記載のデータ数量化方法であって、
前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかに関する自然言語の記述を含むとともに所定の計測結果の値が一つまたは複数付随し、
前記所定の計測結果の値に少なくとも位置情報を含み、
前記ダミー変数の指定として受け付けた前記単語の出現回数、及び前記位置情報の値が所定の条件を満たす前記テキストデータの件数を集計結果として表示する第三の表示ステップ、
ことを特徴とするデータ数量化方法。
請求項１７に記載のデータ数量化方法であって、
前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかに関する自然言語の記述を含むとともに所定の計測結果の値が一つまたは複数付随し、
前記所定の計測結果の値には複数の位置情報を含み、
所定の優先順位に従って、前記複数の位置情報のうちいずれかの位置情報の採用を決定する情報統合ステップを実施し、
前記ダミー変数の指定として受け付けた前記単語の出現回数、及び前記位置情報の値が所定の条件を満たす前記テキストデータの件数を集計結果として表示する第三の表示ステップ、
を実施することを特徴とするデータ数量化方法。
請求項１９または２０に記載のデータ数量化方法であって、
前記第三の表示ステップでは、前記所定の条件を満たす前記テキストデータの件数を、採用された前記位置情報に応じて地図上に重畳表示させる、
ことを特徴とするデータ数量化方法。
請求項１７に記載のデータ数量化方法であって、
前記テキストデータには、地域の防災情報、災害情報、生活環境での不具合の情報のいずれかに関する自然言語の記述を含むとともに所定の計測結果の値が一つまたは複数付随し、
前記所定の計測結果の値には少なくとも日時情報を含み、
前記ダミー変数の指定として受け付けた前記単語の出現回数、及び前記日時情報の値が所定の条件を満たす前記テキストデータの件数を集計結果として表示する第三の表示ステップ、
を実施することを特徴とするデータ数量化方法。
請求項１８乃至２２のいずれか一項に記載のデータ数量化方法であって、
前記第三の表示ステップでは、集計結果に、該当する前記テキストデータを出力する、
ことを特徴とするデータ数量化方法。
請求項１７に記載のデータ数量化方法であって、
前記テキストデータには、所定の計測結果の値が一つまたは複数付随し、前記所定の計測結果の値には少なくとも画像、動画、音声のいずれかまたはこれらの組み合わせの非構造データを含み、
前記ダミー変数の指定として受け付けた前記単語の出現回数が所定の条件を満たす場合に、前記ダミー変数の名前を当該非構造データのタグとして関連付けて検索に用いる類似検索ステップ、
を実施することを特徴とするデータ数量化方法。
請求項２４に記載のデータ数量化方法であって、
前記類似検索ステップでは、前記ダミー変数の指定として受け付けた前記単語の出現回数を、前記非構造データの特徴を表す特徴ベクトルとして関連付け、前記特徴ベクトル同士で類似度を算出して前記非構造データの類似検索に用いる、
ことを特徴とするデータ数量化方法。
請求項２４に記載のデータ数量化方法であって、
前記類似検索ステップでは、
検索のキーワードを特徴ベクトルとして取得し、
前記ダミー変数の指定として受け付けた前記単語の出現回数を、前記非構造データの特徴を表す特徴ベクトルとして関連付け、前記検索のキーワードとして取得した特徴ベクトルとの類似度を算出して前記非構造データの類似検索に用いる、
ことを特徴とするデータ数量化方法。