JP2010231560A - 地図データ誤り修正装置 - Google Patents
地図データ誤り修正装置 Download PDFInfo
- Publication number
- JP2010231560A JP2010231560A JP2009079129A JP2009079129A JP2010231560A JP 2010231560 A JP2010231560 A JP 2010231560A JP 2009079129 A JP2009079129 A JP 2009079129A JP 2009079129 A JP2009079129 A JP 2009079129A JP 2010231560 A JP2010231560 A JP 2010231560A
- Authority
- JP
- Japan
- Prior art keywords
- error
- search
- name
- information
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】整備された地図データを構成するPOIの名称や住所の入力ミスを自動で検出して修正することができる地図データの誤り修正装置を提供する。
【解決手段】検索部は、読み出された名称情報及び住所情報を検索キーワードとして、インターネット上のWebサイトにおいて検索を実行する。誤り判定部は、検索結果を受け取ると、「名称AND住所」で検索した検索結果において、完全一致する検索結果の件数が存在するか否かを判断する。そして、完全一致する検索結果が3件以上である場合には、読み出された施設データに誤りはないと判定して処理を終了する。一方、ヒット件数が3件未満である場合には、誤り判定部は、読み出された施設データに誤りがないとの判定を保留して再判定処理を実行する。
【選択図】図2
【解決手段】検索部は、読み出された名称情報及び住所情報を検索キーワードとして、インターネット上のWebサイトにおいて検索を実行する。誤り判定部は、検索結果を受け取ると、「名称AND住所」で検索した検索結果において、完全一致する検索結果の件数が存在するか否かを判断する。そして、完全一致する検索結果が3件以上である場合には、読み出された施設データに誤りはないと判定して処理を終了する。一方、ヒット件数が3件未満である場合には、誤り判定部は、読み出された施設データに誤りがないとの判定を保留して再判定処理を実行する。
【選択図】図2
Description
本発明は、地図データを構成する建物、施設情報等の名称及び住所の入力ミスを自動で検出して、正しい情報に修正する地図データの誤り修正技術に関するものである。
従来から、地図データを整備する際に、当該地図データを構成する建物や施設等のPOI(Point of Interest)における名称や付与されている属性情報(住所に関する情報、位置情報等)は、オペレータによって手入力されている。そのため、複数のオペレータによるチェックを実施したとしても、例えば、「ま」と「き」、「水」と「木」、「ソ」と「リ」などのように、表記の類似する文字が存在するため、これら情報の入力ミスを完全になくすことは困難である。
そこで、このように入力された文字の誤りを自動で検出する方法が提案されている。例えば、特許文献1には、データベースに格納されている建物情報と住宅地図情報中の建物情報とを関連付けるシステムが開示されている。具体的に、特許文献1は、誤りを含むかもしれない住所と建物名称が指定されたとき、住宅地図上からそれに対応する可能性があると考えられる建物について、文字列一致率と住所一致度合いの両方の値を基に、指定された建物と地図情報中の建物名称との対応関係の確からしさを示す指標値を算出する。そして、その指標値が最大となる地図情報中の建物名称と指定された建物とを関連付けるようにする。
しかしながら、特許文献1に記載の技術では、誤りを含む可能性のある住所や建物名称が地図データ中に存在すると推定される場合、最も文字列一致率の高い建物同士を対応させることで、誤リンクやリンク漏れを最小限に抑えるものであって、誤りが含まれる住所や建物名称を自動的に修正することはできない。
本発明は、こうした従来技術の問題点に着目してなされた発明である。その目的は、整備された地図データを構成するPOIの名称や住所の誤りを自動で検出して修正することができる地図データの誤り修正装置を提供することにある。
本発明は、こうした従来技術の問題点に着目してなされた発明である。その目的は、整備された地図データを構成するPOIの名称や住所の誤りを自動で検出して修正することができる地図データの誤り修正装置を提供することにある。
上記課題を解決するために、本発明に係る地図データ誤り修正装置は、名称及び住所に関する属性情報を有する施設データが含まれる地図データを記憶する地図データ記憶部と、該地図データ記憶部から、所定の施設の名称情報及び住所情報を読み出す読出部と、前記名称情報及び住所情報を検索キーワードとしてインターネット上のWebサイトを検索する検索部と、前記Webサイトにおいて、前記検索キーワードに一致する情報が含まれるWebサイトのヒット件数をカウントするとともに、該ヒット件数に基づいて、前記施設の名称及び住所の少なくとも何れかに誤りがあるか否かを判定する誤り判定部と、誤りがあると判定された場合、前記検索キーワードに含まれる文字の一部を変更する検索キーワード変更部と、変更された検索キーワードを再検索キーワードとしてインターネット上のWebサイトを再検索する再検索部と、再検索結果に基づいて、前記再検索キーワードに対応する施設の名称情報若しくは住所情報を修正する施設情報修正部とを備えることを特徴とする。
なお、上述した特徴は、本発明の特徴のすべてを列挙したものではなく、これらを要部とする構成等もまた発明となり得る。
なお、上述した特徴は、本発明の特徴のすべてを列挙したものではなく、これらを要部とする構成等もまた発明となり得る。
本発明によれば、地図データを構成するPOIの名称や住所の入力ミスを自動で検出して修正することができる。
(実施例1)
以下、本発明を具体化した実施例1を説明する。
図1に示すように、本実施例における地図データの誤り修正装置は、コンピュータで構成されている。地図データの誤り修正装置は、地図データ記憶部及び表記ミス情報記憶部としてのハードディスク11、一時記憶部としてのメモリ12、表示部としてのディスプレイ13、入力部としてのキーボード14、所定のプログラムに基づいて各種制御を実行するCPU15を備える。これら各部11〜15は、相互にデータ通信可能に接続されており、各部11〜15はCPU15によって動作制御される。
以下、本発明を具体化した実施例1を説明する。
図1に示すように、本実施例における地図データの誤り修正装置は、コンピュータで構成されている。地図データの誤り修正装置は、地図データ記憶部及び表記ミス情報記憶部としてのハードディスク11、一時記憶部としてのメモリ12、表示部としてのディスプレイ13、入力部としてのキーボード14、所定のプログラムに基づいて各種制御を実行するCPU15を備える。これら各部11〜15は、相互にデータ通信可能に接続されており、各部11〜15はCPU15によって動作制御される。
また、誤り修正装置は、インターネット16を介して接続されている図示しない複数のサーバや端末装置等と通信可能に接続されている。
ハードディスク11には、電子地図データが記憶されている。この電子地図データには、レストランやガソリンスタンド等を表す施設データ(POIデータ)が含まれている。施設データには、属性情報として、施設の名称情報、住所情報、位置情報、ジャンル情報、営業時間情報等が付加されている。
ハードディスク11には、電子地図データが記憶されている。この電子地図データには、レストランやガソリンスタンド等を表す施設データ(POIデータ)が含まれている。施設データには、属性情報として、施設の名称情報、住所情報、位置情報、ジャンル情報、営業時間情報等が付加されている。
更に、ハードディスク11には、オペレータによって文字が入力される際に間違いやすい表記ミスパターンに関する表記ミス情報データベースが記憶されている。表記ミス情報データベースに登録されている具体例としては、「ま」と「き」、「水」と「木」、「ソ」と「リ」及び「ン」、「0」と「O」など、ひらがな、カタカナ、漢字、アルファベット、数字等の文字であって外観が類似している複数の文字の組み合わせに関する情報が挙げられる。その他にも、キーボード14において近傍に配置されており、打鍵ミスしやすい文字の組み合わせや、光学式文字読取装置(optical character recognition)によりミスの多い文字の組み合わせ等も登録対象となる。
メモリ12には、CPU15によってハードディスク11等から読み出された各種データ、プログラム等が一時的に記憶される。
図1に示すように、CPU15は、読出部17、検索部18、誤り判定部19、検索キーワード(KW)修正部20、再検索部21、施設情報修正部22を備える。
読出部17は、ハードディスク11から、所定の施設データとともに、当該施設データの名称情報及び住所情報を読み出す。
検索部18は、名称情報及び住所情報を検索キーワードとしてインターネット16上のWebサイトを検索する。
図1に示すように、CPU15は、読出部17、検索部18、誤り判定部19、検索キーワード(KW)修正部20、再検索部21、施設情報修正部22を備える。
読出部17は、ハードディスク11から、所定の施設データとともに、当該施設データの名称情報及び住所情報を読み出す。
検索部18は、名称情報及び住所情報を検索キーワードとしてインターネット16上のWebサイトを検索する。
誤り判定部19は、検索キーワードに一致する情報が含まれるWebサイトのヒット件数をカウントするとともに、そのヒット件数に基づいて、施設の名称及び住所の少なくとも何れかに誤りがあるか否かを判定する。また、誤り判定部19は、検索キーワードと検索結果との類似度を表す類似度情報に基づいて誤りを判定する。
検索キーワード修正部20は、電子地図データに登録されている所定施設の名称及び住所の少なくとも何れか一方に誤りがあると誤り判定部19で判定された場合、検索キーワードに含まれる文字の一部を修正する。例えば、電子地図データに基づいて、街区番号・地番を近傍に実在するものに置き換えて修正する。また、誤り判定がなされた施設の名称又は住所に、表記ミス情報データベースとして登録されている文字が含まれている場合、その文字を修正する。
再検索部21は、修正された検索キーワードを再検索キーワードとしてインターネット上のWebサイトを再検索する。
施設情報修正部22は、再検索部21での再検索結果に基づいて、再検索キーワードに対応する施設の名称情報若しくは住所情報を修正する。例えば、修正された所定施設の名称及び住所に一致する情報が含まれるWebサイトが存在する場合、修正された所定施設の名称及び住所が正しいとして、電子地図データにおける所定施設の名称及び住所が修正される。
施設情報修正部22は、再検索部21での再検索結果に基づいて、再検索キーワードに対応する施設の名称情報若しくは住所情報を修正する。例えば、修正された所定施設の名称及び住所に一致する情報が含まれるWebサイトが存在する場合、修正された所定施設の名称及び住所が正しいとして、電子地図データにおける所定施設の名称及び住所が修正される。
次に、このように構成される地図データの誤り修正装置を用いて、整備された電子地図データを構成する施設の名称や住所の入力ミスを自動で検出して修正する方法について説明する。
図2に示すように、まず、読出部17は、識別用に付されている個別IDに基づいて、電子地図データから1つの施設データを読み出す(ステップS21)。また、読出部17は、施設データの属性情報である名称及び住所に関する各情報も読み出す。
図2に示すように、まず、読出部17は、識別用に付されている個別IDに基づいて、電子地図データから1つの施設データを読み出す(ステップS21)。また、読出部17は、施設データの属性情報である名称及び住所に関する各情報も読み出す。
次に、検索部18は、読み出された名称情報及び住所情報を検索キーワードとして、インターネット16上のWebサイトにおいて検索を実行する(ステップS22)。
誤り判定部19は、検索部18での検索結果を受け取ると、検索結果の解析を行う。具体的には、「名称AND住所」で検索した検索結果において、完全一致する検索結果の件数が存在するか否かを判断する(ステップS23)。
誤り判定部19は、検索部18での検索結果を受け取ると、検索結果の解析を行う。具体的には、「名称AND住所」で検索した検索結果において、完全一致する検索結果の件数が存在するか否かを判断する(ステップS23)。
そして、完全一致する検索結果が存在する場合には、誤り判定部19は、完全連続一致する記述の存在するWebサイトの検索結果が検索結果一覧表示の上位10件中に何件存在するかを判断する(ステップS24)。ここで、完全連続一致の存在するWebサイトの件数が3件以上である場合には、誤り判定部19は、読み出された施設データに誤りはないと判定して(ステップS25)、処理を終了する。一方、完全連続一致の存在するWebサイトの件数が3件未満である場合には、誤り判定部19は、読み出された施設データに誤りがないとの判定を保留して、後述する再判定処理を実行する(ステップS27)。
ステップS23において、完全一致する検索結果が0件である場合(ヒット件数なしの場合)、誤り判定部19は、読み出した施設の重要度が高いか否かについて判定を行う(ステップS26)。なお、施設の重要度については、予め施設データの属性情報として付与されている重要度情報を用いてもよい。また、複数の階層構造で構成される電子地図データにおいて、複数の階層において表示される施設である場合には重要度が高いと判定し、単一の階層あるいは最下位層でのみ表示される施設である場合には重要度が低いと判定するようにしてもよい。更には、施設データの属性情報として付与されている「業種情報」が公共施設や主要な業種に該当する場合には重要度が高いと判定してもよい。ここで、主要な業種は、銀行、コンビニエンスストア、ガソリンスタンドなど、任意に設定可能である。
誤り判定部19によって施設の重要度が高いと判定されると、再判定処理が実行される(ステップS27)。一方、施設の重要度は低いと判定された場合には、CPU15は、施設の名称又は住所に誤りがある可能性があり、確認すべきである旨のメッセージをディスプレイ13に表示する。なお、当該メッセージにかえて、施設データに誤りが存在する可能性があることを示すログデータを生成してハードディスク11に記憶するようにしてもよい。
以上の一連の誤り判定処理が終了すると、CPU15は、次に判定すべき施設データが存在するか否かを判断して、判定すべき施設データが存在する場合には誤り判定処理を継続する。
以上の一連の誤り判定処理が終了すると、CPU15は、次に判定すべき施設データが存在するか否かを判断して、判定すべき施設データが存在する場合には誤り判定処理を継続する。
次に、再判定処理(ステップS27)について説明する。
この再判定処理は、読み出された施設における名称や住所について誤りがないと判定することができなかった場合、条件を変更して詳細に誤りがあるか否かを検討する処理である。
再判定処理は、再判定前処理1(図3)、再判定前処理2(図4)、誤り修正処理(図5)の順で実行される。なお、再判定前処理1、再判定前処理2については、いずれか一方の処理のみを実行するようにしてもよい。
この再判定処理は、読み出された施設における名称や住所について誤りがないと判定することができなかった場合、条件を変更して詳細に誤りがあるか否かを検討する処理である。
再判定処理は、再判定前処理1(図3)、再判定前処理2(図4)、誤り修正処理(図5)の順で実行される。なお、再判定前処理1、再判定前処理2については、いずれか一方の処理のみを実行するようにしてもよい。
・再判定前処理1について
この処理は、施設の名称が正しく、住所に誤りのある可能性が高いという前提のもとで実行される処理である。
図3に示すように、まず、再検索部21は、施設の名称のみを検索キーワードとしてインターネット16上のWebサイトにおいて検索を実行する(ステップS31)。そして、CPU15は、HTML(Hyper Text Markup Language)構造の解析等により、検索結果の上位10サイト内に存在する住所の記述を収集する(ステップS32)。具体的には、CPU15は、検索結果サイトの内容のHTMLを取得して住所パターンにマッチした部分を抽出することで住所が収集される。なお、サイト内には必ずしも住所の記述が存在するとは限らないため、収集される住所数の合計は10とならない場合もある。
この処理は、施設の名称が正しく、住所に誤りのある可能性が高いという前提のもとで実行される処理である。
図3に示すように、まず、再検索部21は、施設の名称のみを検索キーワードとしてインターネット16上のWebサイトにおいて検索を実行する(ステップS31)。そして、CPU15は、HTML(Hyper Text Markup Language)構造の解析等により、検索結果の上位10サイト内に存在する住所の記述を収集する(ステップS32)。具体的には、CPU15は、検索結果サイトの内容のHTMLを取得して住所パターンにマッチした部分を抽出することで住所が収集される。なお、サイト内には必ずしも住所の記述が存在するとは限らないため、収集される住所数の合計は10とならない場合もある。
次に、CPU15は、収集した住所にポイントを付与する(ステップS33)。具体的に、CPU15は、基礎ポイントとして、50ポイントを収集された住所に件数比例配分する。更に、CPU15は、追加ポイントとして、住所が公式サイトから収集されたものである場合には、当該住所に100ポイントを加算する。ここで公式サイトとは、企業等が自ら公開しているWebサイトであり、CPU15は、収集されたサイトが公式サイトであるか否かについて、ハードディスク11に予め登録されている公式サイトデータベースを参照して判断する。このほかにも、インターネット16上で公開されている公式サイト集等の情報を参照して判断してもよい。
また、CPU15は、追加ポイントとして、住所が電話帳サイトやグルメ情報サイトなど特定のサイトに存在する場合、80ポイントを件数比例配分して、該当する各住所に加算する。ここで、特定のサイトとは、比較的アクセスの多いサイトや、信頼性の高いサイトとしてハードディスク11に予め特定サイトデータベースとして登録されているものである。CPU15は、この特定サイトデータベースを参照して特定サイトであるか否か判断する。
また、検索キーワード修正部20は、収集した住所について、電子地図データに基づいて、街区番号や地番を近傍位置に実在する番号等と置換した住所群を生成する。次に、再検索部21は、名称と当該住所群中の各住所とを検索キーワードとして、インターネット16上のWebサイトにおいて検索を実行する(ステップS34)。そして、CPU15は、検索結果の上位10サイト内の連続完全一致件数に従い60ポイントを件数比例配分して、該当する各住所に加算する(ステップS35)。
・再判定前処理2について
この処理は、施設の住所が正しく、名称に誤りのある可能性が高いという前提のもとで実行される処理である。
図4に示すように、まず、CPU15は、住所が不完全である場合、住所の補完を行う(ステップS41)。CPU15は、読み出された住所について市区町村名等が欠如している場合には、Webサイトの検索ヒット数やハードディスク11に登録されている住所データベース等に基づいて欠如している住所部分を補完する。
この処理は、施設の住所が正しく、名称に誤りのある可能性が高いという前提のもとで実行される処理である。
図4に示すように、まず、CPU15は、住所が不完全である場合、住所の補完を行う(ステップS41)。CPU15は、読み出された住所について市区町村名等が欠如している場合には、Webサイトの検索ヒット数やハードディスク11に登録されている住所データベース等に基づいて欠如している住所部分を補完する。
次に、再検索部21は、補完された住所を検索キーワードとして、インターネット16上のWebサイトにおいて検索を実行する(ステップS42)。CPU15は、検索結果の上位10サイト内から名称に関する情報を収集する。なお、名称の収集は、検索結果におけるWebサイトの内容のHTMLを取得して名称パターンにマッチした部分を抽出して行う。なお、サイト内には必ずしも名称の記述が存在するとは限らないため、収集される名称数の合計は10とならない場合もある。
次に、CPU15は、収集した名称にポイントを付与する(ステップS43)。具体的に、CPU15は、基礎ポイントとして、50ポイントを収集した名称に件数比例配分する。また、CPU15は、追加ポイントとして、名称が公式サイトから収集されたものである場合には、当該名称に100ポイントを加算する。
次に、CPU15は、収集した名称にポイントを付与する(ステップS43)。具体的に、CPU15は、基礎ポイントとして、50ポイントを収集した名称に件数比例配分する。また、CPU15は、追加ポイントとして、名称が公式サイトから収集されたものである場合には、当該名称に100ポイントを加算する。
更に、CPU15は、追加ポイントとして、名称が電話帳サイトやグルメ情報サイトなど特定のサイトに存在したものである場合、80ポイントを件数比例配分して、該当する各名称に加算する。
次に、検索キーワード修正部20は、名称について、表記ミスデータベースに基づいて、名称の誤り部分を推定し、その部分を正解候補と置換することで正解候補名称を生成する。そして、再検索部21は、正解候補名称を検索キーワードとして、インターネット16上のWebサイトにおいて検索を実行する(ステップS44)。
次に、検索キーワード修正部20は、名称について、表記ミスデータベースに基づいて、名称の誤り部分を推定し、その部分を正解候補と置換することで正解候補名称を生成する。そして、再検索部21は、正解候補名称を検索キーワードとして、インターネット16上のWebサイトにおいて検索を実行する(ステップS44)。
ここで、名称の誤り部分を推定する処理について、具体的に説明する。
CPU15は、名称を形態素解析等の既存技術を用いて分割するとともに、部分文字列を作成する。次にCPU15は、分割した部分文字列及び住所を検索キーワードとして、インターネット16上のWebサイトにおいて検索を実行する。CPU15は、検索結果の件数をカウントするとともに、カウント件数が顕著に減少する部分文字列があれば、その部分文字列が誤り部分であると推定する。
CPU15は、名称を形態素解析等の既存技術を用いて分割するとともに、部分文字列を作成する。次にCPU15は、分割した部分文字列及び住所を検索キーワードとして、インターネット16上のWebサイトにおいて検索を実行する。CPU15は、検索結果の件数をカウントするとともに、カウント件数が顕著に減少する部分文字列があれば、その部分文字列が誤り部分であると推定する。
次に、再検索部21は、電子地図データを参照して、誤り推定部分について文字一致度の高い地名を検索する。検索キーワード修正部20は、誤り推定部分との文字一致度が高い地名があれば、誤り推定部分をその地名と置換する。なお、検索キーワード修正部20は、表記ミスデータベースに基づいて、誤り推定部分の文字を置換するようにしてもよい。
次に、再検索部21は、一部の文字を置換して得られた正解候補名称及び住所を検索キーワードとして、インターネット16上のWebサイトにおいて検索を実行する。そして、CPU15は、検索結果の上位10サイト内の連続完全一致件数に従い60ポイントを件数比例配分して、該当する各住所に加算する(ステップS45)。
次に、再検索部21は、一部の文字を置換して得られた正解候補名称及び住所を検索キーワードとして、インターネット16上のWebサイトにおいて検索を実行する。そして、CPU15は、検索結果の上位10サイト内の連続完全一致件数に従い60ポイントを件数比例配分して、該当する各住所に加算する(ステップS45)。
・誤り修正処理について
図5に示すように、CPU15は、再判定前処理1,2で得られた名称及び住所の組み合わせについて、加算されたポイントを集計して、比較する(ステップS51)。
CPU15は、何れか1つの名称及び住所の組み合わせの総ポイント数が、他の組み合わせよりも突出して大きい場合であって(ステップS52)、かつ総ポイント数が予め設定されている所定の数値(例えば、100ポイント)以上である場合(ステップS53)、施設の名称及び住所に誤りがあったと判定する。そして、施設情報修正部22は、電子地図データに記憶されている施設データを再判定前処理1,2で得られた名称及び住所の組み合わせに基づいて修正する(ステップS54)。
図5に示すように、CPU15は、再判定前処理1,2で得られた名称及び住所の組み合わせについて、加算されたポイントを集計して、比較する(ステップS51)。
CPU15は、何れか1つの名称及び住所の組み合わせの総ポイント数が、他の組み合わせよりも突出して大きい場合であって(ステップS52)、かつ総ポイント数が予め設定されている所定の数値(例えば、100ポイント)以上である場合(ステップS53)、施設の名称及び住所に誤りがあったと判定する。そして、施設情報修正部22は、電子地図データに記憶されている施設データを再判定前処理1,2で得られた名称及び住所の組み合わせに基づいて修正する(ステップS54)。
一方、CPU15は、総ポイント数が大きいものの、総ポイント数が予め設定されている所定の数値未満である場合には、施設の名称及び住所に誤りがあったと判断することはせず、ディスプレイ13にその旨の警告を表示する(ステップS55)。
ステップS52において、CPU15は、何れか1つの名称及び住所の組み合わせの総ポイント数が、他の組み合わせよりも突出して大きいとはいえない場合には、各組み合わせの総ポイント数に対して統計的処理を施す(ステップS56)。
ステップS52において、CPU15は、何れか1つの名称及び住所の組み合わせの総ポイント数が、他の組み合わせよりも突出して大きいとはいえない場合には、各組み合わせの総ポイント数に対して統計的処理を施す(ステップS56)。
具体的には、CPU15は、総ポイント値を比較して、特定の組み合わせにポイントが集中しているか、あるいは、ポイントが分散しているかの傾向を統計的観点で把握する。CPU15は、ポイントの集中が著しい組み合わせがあれば、その組み合わせが正しい名称及び住所であるとして、自動修正を行う(ステップS57)。一方、CPU15は、ポイントが分散している場合には、どの組み合わせが正しい名称及び住所であると特定することはできないので、その旨のメッセージをディスプレイ13に表示する。
次に、以上のように実行される処理を、具体例を用いて説明する。
・具体例1
施設の名称が「どまんなかたぬき」であって、住所が「栃木県佐野市吉水町366−2」である場合、すなわち名称が誤って電子地図データに付与されている場合について説明する。
・具体例1
施設の名称が「どまんなかたぬき」であって、住所が「栃木県佐野市吉水町366−2」である場合、すなわち名称が誤って電子地図データに付与されている場合について説明する。
読出部17によって、電子地図データから、施設「どまんなかたぬき」に関する施設データが読み出されると、検索部18によって、名称及び住所を検索キーワードとして、インターネット16上のWebサイトにおいてAND検索が実行される。この場合、名称が誤っているため完全一致件数は0件となる。そこで、次に誤り判定部19によって本施設の属性情報として付与されている重要度情報が参照されて、この施設は道の駅であり重要度は高いと判定される。
次に、再判定前処理1(図3)が実行される。はじめに、再検索部21によって名称を検索キーワードとして、インターネット16上のWebサイトにおいて検索が実行される。そして、CPU15によって検索結果の上位10サイト内から住所に関する情報が収集される。ここで、CPU15によって、収集された住所にポイントを付与する処理が実行されるのであるが、名称が誤っているため収集される住所件数は0件となり、ポイントは付与されない。
次に、再判定前処理2(図4)が実行される。はじめに、CPU15によって不完全な住所の補完処理が実行されるが、今回は完全な住所であるため、当該処理は実行されない。次に、再検索部21によって、住所を検索キーワードとして、インターネット16上のWebサイトにおいて検索が実行される。そして、CPU15によって検索結果の上位10サイト内から名称に関する情報が収集される。そして、CPU15によって収集された名称にポイントが付与される。
次に、CPU15によって、名称「どまんなかたぬき」が分割されて部分文字列が作成される。すなわち、名称は、「どまんなか」及び「たぬき」に分割される。そして、再検索部21によって、それぞれの部分文字列及び住所を検索キーワードとして、インターネット16上のWebサイトにおいてAND検索が実行される。この場合、「どまんなかAND栃木県佐野市吉水町366−2」と「たぬきAND栃木県佐野市吉水町366−2」とでそれぞれ検索が実行される。すると、前者の完全一致件数が3件で、後者の完全一致件数は0件となる。したがって、CPU15によって、名称「どまんなかたぬき」のうち、「たぬき」の部分に誤りがあると推定される。
次に、再検索部21によって、誤り推定部分である「たぬき」との文字一致度の高い地名が住所「栃木県佐野市吉水町366−2」の近辺に存在しないか検索される。すると、当該住所の近傍には「たぬま」という地名が存在することがわかるので、検索キーワード修正部20によって、誤り推定部分である「たぬき」が「たぬま」に置換される。次に、再検索部21によって、改めて修正後の名称である「どまんなかたぬまAND栃木県佐野市吉水町366−2」を検索キーワードとして、インターネット16上のWebサイトにおいて検索が実行される。次に、CPU15によって、検索結果の上位10サイト内から名称に関する情報が収集される。そして、CPU15によって、収集された名称にポイントが付与される。
このようにして得られた名称に対して付与されたポイントの結果は、表1のとおりである。
そして、CPU15によって、名称毎にポイントが集計されると、表2に示す結果が得られる。
名称「どまんなかたぬま」における総ポイント数は、次点である名称「富美味田沼店」における総ポイント数の2倍以上であり、かつ、100ポイント以上である。したがって、CPU15によって、施設の名称に誤りがあったと判定されるとともに、施設情報修正部22によって、電子地図データに登録されている施設データにおける施設の名称が「どまんなかたぬき」から「どまんなかたぬま」に修正される。
・具体例2
施設の名称が「どまんなかたぬま」であって、住所が「栃木県佐野市吉水町388−2」である場合、すなわち住所が誤って電子地図データに付与されている場合について説明する。
読出部17によって、電子地図データから、施設「どまんなかたぬま」に関する施設データが読み出されると、検索部18によって、名称及び住所を検索キーワードとして、インターネット16上のWebサイトにおいてAND検索が実行される。この場合、住所が誤っているため完全一致件数は0件となる。そこで、誤り判定部19によって施設の重要度情報が参照されて、この施設は道の駅であり重要度は高いと判定される。
施設の名称が「どまんなかたぬま」であって、住所が「栃木県佐野市吉水町388−2」である場合、すなわち住所が誤って電子地図データに付与されている場合について説明する。
読出部17によって、電子地図データから、施設「どまんなかたぬま」に関する施設データが読み出されると、検索部18によって、名称及び住所を検索キーワードとして、インターネット16上のWebサイトにおいてAND検索が実行される。この場合、住所が誤っているため完全一致件数は0件となる。そこで、誤り判定部19によって施設の重要度情報が参照されて、この施設は道の駅であり重要度は高いと判定される。
次に、再判定前処理1(図3)が実行される。まず、再検索部21によって名称を検索キーワードとして、インターネット16上のWebサイトにおいて検索が実行される。次に、CPU15によって検索結果の上位10サイト内から住所に関する情報が収集されるとともに、収集された住所にポイントが付与される。
また、検索キーワード修正部20によって、収集した住所について、電子地図データに基づいて、街区番号・地番を近傍に実在するものと置換された住所群が生成される。本具体例の場合、近傍に実在する住所は、「栃木県佐野市吉水町366−2」のみであるため、住所「栃木県佐野市吉水町388−2」は「栃木県佐野市吉水町366−2」に置換される。そして、再検索部21によって、名称「どまんなかたぬまAND栃木県佐野市吉水町366−2」を検索キーワードとして、インターネット16上のWebサイトにおいて検索が実行される。検索結果の上位10サイト内の連続完全一致件数は1件であるため、CPU15によって当該住所に対して60ポイントが付与される。
このようにして得られた名称に対して付与されたポイントの結果は、表3のとおりである。
次に、再判定前処理2(図4)が実行される。まず、CPU15によって不完全な住所の補完処理が実行されるが、今回は完全な住所であるため、当該処理は実行されない。次に、再検索部21によって住所「栃木県佐野市吉水町388−2」を検索キーワードとして、インターネット16上のWebサイトにおいて検索が実行される。そして、CPU15によって、検索結果の上位10サイト内から名称に関する情報が収集されるとともに、収集された名称にポイントが付与される。
次に、CPU15によって、名称の誤り部分を推定する処理が実行されるが、再検索部21によって、名称を検索キーワードとして検索が実行された際に、完全一致件数が0件ではないため、当該処理は実行されない。
このようにして、CPU15によって得られた名称に対して付与されたポイントの結果は、表4のとおりである。
このようにして、CPU15によって得られた名称に対して付与されたポイントの結果は、表4のとおりである。
そして、CPU15によって名称毎にポイントが集計されると、表5に示す結果が得られる。
名称「どまんなかたぬま」における総ポイント数は、次点である名称「オンダ電気おくざわ店」における総ポイント数の2倍以上であり、かつ、100ポイント以上である。したがって、誤り判定部19によって施設の住所に誤りがあったと判定されるとともに、施設情報修正部22によって電子地図データに登録されている施設データにおける施設の住所が「栃木県佐野市吉水町388−2」から「栃木県佐野市吉水町366−2」に修正される。
以上説明したとおり、本実施例における地図データの誤り修正装置は、以下の効果を奏する。
・インターネット上のWebサイトにおいて実際に存在する名称や住所を誤り検出の判断に用いたので、正解リファレンスデータを自前で用意する必要がない。
・Web上の最新データを利用して誤りを検出することができる。
・表記ミスパターンに関する表記ミス情報データベースを利用して誤り候補を修正するため、表記ゆれのレベルを超えた入力ミスを検出できる。
・インターネット上のWebサイトにおいて実際に存在する名称や住所を誤り検出の判断に用いたので、正解リファレンスデータを自前で用意する必要がない。
・Web上の最新データを利用して誤りを検出することができる。
・表記ミスパターンに関する表記ミス情報データベースを利用して誤り候補を修正するため、表記ゆれのレベルを超えた入力ミスを検出できる。
・ヒット件数の多少を誤り判断に利用することで、表記ゆれバリエーション中の有力な記述を返すことができる。
・時間間隔をあけて本実施例における誤り検出処理を実行した場合、名称の変更などの経年変化を検出することが可能となる。
・時間間隔をあけて本実施例における誤り検出処理を実行した場合、名称の変更などの経年変化を検出することが可能となる。
(実施例2)
次に、本発明を具体化した実施例2を説明する。なお、実施例2における装置の構成は、図1に示す実施例1の地図データの誤り修正装置と同じである。
本実施例では、電子地図データに含まれている施設データに、属性情報として付加されている電話番号情報に基づいて誤り修正処理が実行される、整備された電子地図データを構成する施設の名称や住所の入力ミスを自動で検出して修正する方法について説明する。
次に、本発明を具体化した実施例2を説明する。なお、実施例2における装置の構成は、図1に示す実施例1の地図データの誤り修正装置と同じである。
本実施例では、電子地図データに含まれている施設データに、属性情報として付加されている電話番号情報に基づいて誤り修正処理が実行される、整備された電子地図データを構成する施設の名称や住所の入力ミスを自動で検出して修正する方法について説明する。
図6に示すように、まず、読出部17は、識別用に付されている個別IDに基づいて、電子地図データから1つの施設データを読み出す(ステップS61)。また、読出部17は、施設データの属性情報である電話番号情報及び名称及び住所に関する各情報も読み出す。次に、検索部18は、読み出された電話番号情報を検索キーワードとして、インターネット16上のWebサイトにおいて検索を実行する(ステップS62)。
誤り判定部19は、検索部18での検索結果を受け取ると、検索結果の解析を行う。具体的には、電話番号で検索した検索結果において、完全一致する検索結果の件数が存在するか否かを判断する(ステップS63)。
誤り判定部19は、検索部18での検索結果を受け取ると、検索結果の解析を行う。具体的には、電話番号で検索した検索結果において、完全一致する検索結果の件数が存在するか否かを判断する(ステップS63)。
電話番号の存在するWebサイトが存在する場合、すなわち、完全一致する検索結果が存在する場合、CPU15は、検索結果の上位10サイト内から名称及び住所に関する情報を収集する。そして、上位10サイトにおいて、同一の名称及び住所の組で3件以上カウントできるものがあるか否かを判定する(ステップS64)。そして、CPU15は、同一の名称及び住所の組で3件以上カウントできるものがあると判定した場合、誤り修正処理1(ステップS65)を実行する。一方、同一の名称及び住所の組のカウント数が最大で3件未満である場合には、誤り修正処理2(ステップS67)を実行する。
ステップS63において、完全一致する検索結果が0件である場合(ヒット件数なしの場合)、誤り判定部19は、読み出した施設の重要度が高いか否かについて判定を行う(ステップS66)。誤り判定部19によって施設の重要度が高いと判定されると、誤り修正処理が実行される(ステップS67)。一方、施設の重要度は低いと判定された場合には、CPU15は、施設の名称又は住所に誤りがある可能性があり、確認すべきである旨のメッセージをディスプレイ13に表示する。以上の一連の誤り判定処理が終了すると、CPU15は、次に判定すべき施設データが存在するか否かを判断して、判定すべき施設データが存在する場合には誤り判定処理を継続する。
次に、誤り修正処理1,2(ステップS65,S67)について説明する。
・誤り修正処理1について
誤り修正処理1は、電話番号が正しいことを前提としており、名称や住所の誤りを修正する処理である。
・誤り修正処理1について
誤り修正処理1は、電話番号が正しいことを前提としており、名称や住所の誤りを修正する処理である。
図7に示すように、CPU15は、同一の名称及び住所の組で3件以上カウントできるものがあると判定した場合、当該Webサイトのうち、最多件数である名称及び住所が、地図データを構成するPOIの名称及び住所と一致するか否かを判定する(ステップS71)。
一致する場合、CPU15は、誤りはないと判定して(ステップS72)、処理を終了する。一方、一致しない場合、名称及び住所のうち少なくとも何れか一方に誤りがあると推定して、電話番号が正しいことを前提に正しい名称及び住所の推定を試みる。
一致する場合、CPU15は、誤りはないと判定して(ステップS72)、処理を終了する。一方、一致しない場合、名称及び住所のうち少なくとも何れか一方に誤りがあると推定して、電話番号が正しいことを前提に正しい名称及び住所の推定を試みる。
CPU15は、収集した「名称AND住所」の組を調べてポイントを付与する(ステップS73)。具体的に、CPU15は、基礎ポイントとして、50ポイントを収集された「名称AND住所」に件数比例配分する。更に、CPU15は、追加ポイントとして、「名称AND住所」が公式サイトから収集されたものである場合には、当該「名称AND住所」に100ポイントを加算する。また、CPU15は、追加ポイントとして、「名称AND住所」が電話帳サイトやグルメ情報サイトなど特定のサイトに存在する場合、80ポイントを件数比例配分して、該当する各「名称AND住所」に加算する。更に、CPU15は、最多数ではない同一の「名称AND住所」の組が2件以上あれば、その組と地図データを構成するPOIの名称及び住所を比較して、等しければ60ポイントを加算する。
次に、CPU15は、付与したポイントを「名称AND住所」毎に集計する(ステップS74)。そして、総ポイント数が、他の組み合わせよりも突出して大きい場合であって、かつ総ポイント数が予め設定されている所定の数値(例えば、100ポイント)以上である場合、施設の「名称AND住所」に誤りがあったと判定する。そして、施設情報修正部22は、電子地図データに記憶されている施設データの名称及び住所を修正する(ステップS75)。
・誤り修正処理2について
誤り修正処理2は、読み出された施設における電話番号について誤りがないと判定することができなかった場合、条件を変更して詳細に誤りがあるか否かを検討するとともに、電話番号の誤りを修正する処理である。
図8に示すように、まず、再検索部21は、施設の名称及び住所を検索キーワードとしてインターネット16上のWebサイトにおいて検索を実行する(ステップS81)。CPU15は、「名称及び住所」と完全一致するWebサイトが存在するか否かを判定する(ステップS82)。完全一致するWebサイトが存在しない場合、CPU15は、施設の名称と、その施設についての名称又は住所に誤りがある可能性があり、確認すべきである旨のメッセージをディスプレイ13に表示して処理を終了する(ステップS83)。
誤り修正処理2は、読み出された施設における電話番号について誤りがないと判定することができなかった場合、条件を変更して詳細に誤りがあるか否かを検討するとともに、電話番号の誤りを修正する処理である。
図8に示すように、まず、再検索部21は、施設の名称及び住所を検索キーワードとしてインターネット16上のWebサイトにおいて検索を実行する(ステップS81)。CPU15は、「名称及び住所」と完全一致するWebサイトが存在するか否かを判定する(ステップS82)。完全一致するWebサイトが存在しない場合、CPU15は、施設の名称と、その施設についての名称又は住所に誤りがある可能性があり、確認すべきである旨のメッセージをディスプレイ13に表示して処理を終了する(ステップS83)。
一方、「名称及び住所」と完全一致するWebサイトが存在する場合、CPU15は、HTML(Hyper Text Markup Language)構造の解析等により、検索結果の上位10サイト内に存在する電話番号を収集する(ステップS84)。具体的には、CPU15は、検索結果サイトの内容のHTMLを取得して電話番号パターンにマッチした部分を抽出することで電話番号が収集される。なお、サイト内には必ずしも電話番号の記述が存在するとは限らないため、収集される電話番号数の合計は10とならない場合もある。
次に、CPU15は、収集した電話番号にポイントを付与する(ステップS85)。具体的に、CPU15は、基礎ポイントとして、50ポイントを収集された電話番号に件数比例配分する。更に、CPU15は、追加ポイントとして、電話番号が公式サイトから収集されたものである場合には、当該電話番号に100ポイントを加算する。また、CPU15は、追加ポイントとして、電話番号が電話帳サイトやグルメ情報サイトなど特定のサイトに存在する場合、80ポイントを件数比例配分して、該当する各電話番号に加算する。
次に、CPU15は、付与したポイントを電話番号毎に集計する(ステップS86)。そして、総ポイント数が、他の組み合わせよりも突出して大きい場合であって、かつ総ポイント数が予め設定されている所定の数値(例えば、100ポイント)以上である場合、施設の電話番号に誤りがあったと判定する。そして、施設情報修正部22は、電子地図データに記憶されている施設データの電話番号を修正する(ステップS87)。
以上説明したとおり、実施例2における地図データの誤り修正装置は、実施例1と同様の効果を奏するとともに、更に電話番号についても誤り判定をすることができる。
11…地図データ記憶部及び表記ミス情報記憶部としてのハードディスク、16…インターネット、17…読出部、18…検索部、19…誤り判定部、20…検索キーワード変更部、21…再検索部、22…施設情報修正部。
Claims (3)
- 名称及び住所に関する属性情報を有する施設データが含まれる地図データを記憶する地図データ記憶部と、
該地図データ記憶部から、所定の施設の名称情報及び住所情報を読み出す読出部と、
前記名称情報及び住所情報を検索キーワードとしてインターネット上のWebサイトを検索する検索部と、
前記Webサイトにおいて、前記検索キーワードに一致する情報が含まれるWebサイトのヒット件数をカウントするとともに、該ヒット件数に基づいて、前記施設の名称及び住所の少なくとも何れかに誤りがあるか否かを判定する誤り判定部と、
誤りがあると判定された場合、前記検索キーワードに含まれる文字の一部を変更する検索キーワード変更部と、
変更された検索キーワードを再検索キーワードとしてインターネット上のWebサイトを再検索する再検索部と、
再検索結果に基づいて、前記再検索キーワードに対応する施設の名称情報若しくは住所情報を修正する施設情報修正部と
を備える地図データ誤り修正装置。 - 更に、表記ミスのパターンに関する表記ミス情報を記憶する表記ミス情報記憶部を備えており、
前記検索キーワード変更部は、前記誤り判定部で誤りがあると判定された場合、前記表記ミス情報に基づいて、前記検索キーワードに含まれる文字の一部を変更することを特徴とする請求項1に記載の地図データ誤り修正装置。 - 前記誤り判定部は、前記検索キーワードと検索結果との類似度を表す類似度情報に基づいて誤りを判定することを特徴とする請求項1又は請求項2に記載の地図データ誤り修正装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009079129A JP2010231560A (ja) | 2009-03-27 | 2009-03-27 | 地図データ誤り修正装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009079129A JP2010231560A (ja) | 2009-03-27 | 2009-03-27 | 地図データ誤り修正装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010231560A true JP2010231560A (ja) | 2010-10-14 |
Family
ID=43047302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009079129A Pending JP2010231560A (ja) | 2009-03-27 | 2009-03-27 | 地図データ誤り修正装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010231560A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012050182A1 (ja) | 2010-10-14 | 2012-04-19 | 凸版印刷株式会社 | リチウムイオン電池用外装材 |
JP2014532916A (ja) * | 2011-10-31 | 2014-12-08 | グーグル インコーポレイテッド | ジオデータに対するユーザベースの事前対応型の内容訂正および強化 |
JP2015026135A (ja) * | 2013-07-24 | 2015-02-05 | 富士通株式会社 | 場所推定方法、場所推定装置および場所推定プログラム |
WO2016135970A1 (ja) * | 2015-02-27 | 2016-09-01 | 楽天株式会社 | 検索システム、検索方法およびプログラム |
JP2017198799A (ja) * | 2016-04-26 | 2017-11-02 | トヨタ自動車株式会社 | 情報収集システム |
CN108241739A (zh) * | 2017-12-28 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | Poi数据的处理方法、装置、设备及计算机可读存储介质 |
US10394920B2 (en) | 2014-11-14 | 2019-08-27 | Fujitsu Limited | Data verification device |
JP2020160213A (ja) * | 2019-03-26 | 2020-10-01 | 株式会社ゼンリンデータコム | 地図作成装置、方法およびプログラム |
CN111881225A (zh) * | 2020-04-01 | 2020-11-03 | 北京嘀嘀无限科技发展有限公司 | 一种修正上车点名称的方法和系统 |
-
2009
- 2009-03-27 JP JP2009079129A patent/JP2010231560A/ja active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012050182A1 (ja) | 2010-10-14 | 2012-04-19 | 凸版印刷株式会社 | リチウムイオン電池用外装材 |
JP2014532916A (ja) * | 2011-10-31 | 2014-12-08 | グーグル インコーポレイテッド | ジオデータに対するユーザベースの事前対応型の内容訂正および強化 |
US9257056B2 (en) | 2011-10-31 | 2016-02-09 | Google Inc. | Proactive user-based content correction and enrichment for geo data |
JP2015026135A (ja) * | 2013-07-24 | 2015-02-05 | 富士通株式会社 | 場所推定方法、場所推定装置および場所推定プログラム |
US10394920B2 (en) | 2014-11-14 | 2019-08-27 | Fujitsu Limited | Data verification device |
WO2016135970A1 (ja) * | 2015-02-27 | 2016-09-01 | 楽天株式会社 | 検索システム、検索方法およびプログラム |
JP6037540B1 (ja) * | 2015-02-27 | 2016-12-07 | 楽天株式会社 | 検索システム、検索方法およびプログラム |
JP2017198799A (ja) * | 2016-04-26 | 2017-11-02 | トヨタ自動車株式会社 | 情報収集システム |
US10515113B2 (en) | 2016-04-26 | 2019-12-24 | Toyota Jidosha Kabushiki Kaisha | Information collection system and information center |
US10762128B2 (en) | 2016-04-26 | 2020-09-01 | Toyota Jidosha Kabushiki Kaisha | Information collection system and information center |
CN108241739A (zh) * | 2017-12-28 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | Poi数据的处理方法、装置、设备及计算机可读存储介质 |
JP2020160213A (ja) * | 2019-03-26 | 2020-10-01 | 株式会社ゼンリンデータコム | 地図作成装置、方法およびプログラム |
JP7200022B2 (ja) | 2019-03-26 | 2023-01-06 | 株式会社ゼンリンデータコム | 地図作成装置、方法およびプログラム |
JP7425171B2 (ja) | 2019-03-26 | 2024-01-30 | 株式会社ゼンリンデータコム | 情報処理装置、地図を提供する方法、及びコンピュータプログラム |
CN111881225A (zh) * | 2020-04-01 | 2020-11-03 | 北京嘀嘀无限科技发展有限公司 | 一种修正上车点名称的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010231560A (ja) | 地図データ誤り修正装置 | |
US8250651B2 (en) | Identifying attributes of aggregated data | |
CN103843003B (zh) | 识别网络钓鱼网站的方法 | |
CN107967208A (zh) | 一种基于深度神经网络的Python资源敏感缺陷代码检测方法 | |
CN111459799A (zh) | 一种基于Github的软件缺陷检测模型建立、检测方法及系统 | |
CN102801709A (zh) | 一种钓鱼网站识别系统及方法 | |
JP2009104591A (ja) | ウェブ文書クラスタリング方法およびシステム | |
CN103399872B (zh) | 对网页抓取进行优化的方法和装置 | |
CN107066262A (zh) | 源代码文件克隆邻接表合并检测方法 | |
CN112069276A (zh) | 地址编码方法、装置、计算机设备及计算机可读存储介质 | |
CN104298923A (zh) | 漏洞类型识别方法以及装置 | |
CN104268289B (zh) | 链接url的失效检测方法和装置 | |
CN105095381A (zh) | 新词识别方法和装置 | |
CN106940711B (zh) | 一种url检测方法及检测装置 | |
US20090204889A1 (en) | Adaptive sampling of web pages for extraction | |
CN106446123A (zh) | 一种网页中验证码元素识别方法 | |
CN111680128A (zh) | 一种网页敏感词检测方法、检测系统及相关装置 | |
CN109064067B (zh) | 基于互联网的金融风险运营主体判定方法及装置 | |
CN105159885A (zh) | 一种兴趣点名称的识别方法和装置 | |
CN103455572B (zh) | 获取网页中影视主体的方法及装置 | |
CN102460440B (zh) | 搜索方法和设备 | |
CN106330861A (zh) | 一种网址检测方法及装置 | |
CN105279249B (zh) | 一种网站中兴趣点数据的置信度的判定方法和装置 | |
CN110472416A (zh) | 一种网页恶意代码检测方法及相关装置 | |
CN103870590B (zh) | 具有报错特征的网页识别方法和装置 |