JP5490908B2 - 人口算出システム及び人口算出方法 - Google Patents

人口算出システム及び人口算出方法 Download PDF

Info

Publication number
JP5490908B2
JP5490908B2 JP2012534045A JP2012534045A JP5490908B2 JP 5490908 B2 JP5490908 B2 JP 5490908B2 JP 2012534045 A JP2012534045 A JP 2012534045A JP 2012534045 A JP2012534045 A JP 2012534045A JP 5490908 B2 JP5490908 B2 JP 5490908B2
Authority
JP
Japan
Prior art keywords
population
concealment
target area
measurement area
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012534045A
Other languages
English (en)
Other versions
JPWO2012036222A1 (ja
Inventor
基成 小林
雅之 寺田
智大 永田
一郎 岡島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2012534045A priority Critical patent/JP5490908B2/ja
Publication of JPWO2012036222A1 publication Critical patent/JPWO2012036222A1/ja
Application granted granted Critical
Publication of JP5490908B2 publication Critical patent/JP5490908B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06MCOUNTING MECHANISMS; COUNTING OF OBJECTS NOT OTHERWISE PROVIDED FOR
    • G06M3/00Counters with additional facilities
    • G06M3/02Counters with additional facilities for performing an operation at a predetermined value of the count, e.g. arresting a machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Description

本発明の一形態は、秘匿化された人口を算出する人口算出システム及び人口算出方法に関する。
従来から、特定エリアの人口を求める方法が知られている。例えば下記特許文献1には、携帯端末をそれぞれ携帯する複数のユーザに関する人口分布を解析すべき領域を設定する領域設定手段と、複数の携帯端末のそれぞれの位置情報を取得する位置情報取得手段と、取得された前記位置情報に基づいて、設定された領域におけるユーザの人口分布を解析する解析手段と、を備えたことを特徴とする人口分布解析装置が開示されている。
特開2003−30373号公報
しかしながら、上記特許文献1に記載の装置等により人口に関する集計を行うと、その集計結果である人口データから個人が特定される場合があり、プライバシー等の点で問題が起こりうる。そこで、人口データにノイズを乗せて情報を隠し、その人口データを秘匿化することが求められる。しかし、人口データを秘匿化する際に必要以上に大きなノイズを乗せると、秘匿化前の人口データとの乖離が大きくなり、人口データの情報としての信頼性が落ちる可能性がある。
そこで本発明の一側面は、人口データの信頼性を一定以上に保ちつつ、人口を秘匿化して提示することが可能な人口算出システム及び人口算出方法を提供することを目的とする。
本発明の一形態に係る人口算出システムは、対象エリアの秘匿化された人口を算出する人口算出システムであって、対象エリアを含む測定エリアにおいてサンプルとして測定された測定人数を取得する取得手段と、取得手段により取得された測定人数と、測定人数から測定エリア内の人口を求めるための拡大係数とに基づいて、該測定エリアの人口を算出し、算出された測定エリアの人口に基づいて対象エリアの人口を算出する人口算出手段と、人口算出手段による算出処理の際に、測定エリアの人口又は対象エリアの人口を、最小集計単位の基準値である秘匿基準と拡大係数との積である階級幅に基づいて秘匿化する秘匿化手段と、秘匿化手段による秘匿化処理を経て得られた対象エリアの人口を該対象エリアの秘匿化人口として出力する出力手段と、を備えることを特徴とする。
本発明の一形態に係る人口算出方法は、対象エリアの秘匿化された人口を算出する人口算出システムにより実行される人口算出方法であって、人口算出システムが、対象エリアを含む測定エリアにおいてサンプルとして測定された測定人数を取得する取得ステップと、人口算出システムが、取得ステップにおいて取得された測定人数と、測定人数から測定エリア内の人口を求めるための拡大係数とに基づいて、該測定エリアの人口を算出し、算出された測定エリアの人口に基づいて対象エリアの人口を算出する人口算出ステップと、人口算出システムが、人口算出ステップにおける算出処理の際に、測定エリアの人口又は対象エリアの人口を、最小集計単位の基準値である秘匿基準と拡大係数との積である階級幅に基づいて秘匿化する秘匿化ステップと、人口算出システムが、秘匿化ステップにおける秘匿化処理を経て得られた対象エリアの人口を該対象エリアの秘匿化人口として出力する出力ステップと、を含むことを特徴とする。
このような形態によれば、測定した人数から測定エリア内の人口を求め、その人口に基づいて対象エリアの人口を求める際に、測定エリアの人口又は対象エリアの人口が秘匿基準及び拡大係数の積である階級幅に基づいて秘匿化される。このように、上記秘匿基準に基づく階級幅を用いて対象エリアの人口を離散的に求めることで、当該階級幅未満の端数を適度に丸め込むことができるので、人口データの信頼性を一定以上に保ちつつ、人口を秘匿化して提示することができる。
別の形態に係る人口算出システムでは、秘匿化手段が、人口算出手段により算出された対象エリアの人口を階級幅に基づいて秘匿化してもよい。
このような形態によれば、算出処理の際に、計算の最終結果である対象エリアの人口が階級幅に基づいて秘匿化されるので、人口データの信頼性を一定以上に保ちつつ、人口を秘匿化して提示することができる。
さらに別の形態に係る人口算出システムでは、秘匿化手段が、人口算出手段により算出された測定エリアの人口を階級幅に基づいて秘匿化し、人口算出手段が、秘匿化手段により秘匿化された測定エリアの人口と、秘匿化前の測定エリアの人口に対する対象エリアの人口の比との積を、秘匿化処理を経て得られた対象エリアの人口として算出してもよい。
このような形態によれば、算出処理の際に、計算の途中結果である測定エリアの人口が、階級幅に基づいて秘匿化され、秘匿化された測定エリアの人口と、秘匿化前の測定エリアの人口に対する対象エリアの人口の比との積が、秘匿化処理を経て得られた対象エリアの人口として算出される。このように、対象エリアよりも人口が多い測定エリアの人口を秘匿化してから、測定エリアの人口に対する対象エリアの人口の比を乗じて対象エリアの秘匿化された人口を算出することで、対象エリアの人口を直接秘匿化する場合に比べて、秘匿化前の人口データとの乖離を小さくすることができる。
さらに別の形態に係る人口算出システムでは、対象エリアと測定エリアとが同一であり、秘匿化手段が、人口算出手段により算出された測定エリアの人口を階級幅に基づいて秘匿化し、人口算出手段が、秘匿化手段により秘匿化された測定エリアの人口を、秘匿化処理を経て得られた対象エリアの人口として算出してもよい。
このような形態によれば、対象エリアと測定エリアが同一の場合、算出された測定エリアの人口が階級幅に基づいて秘匿化され、対象エリアの人口として算出される。このように、対象エリアと測定エリアが同一の場合でも、人口データの信頼性を一定以上に保ちつつ、人口を秘匿化して提示することができる。
さらに別の形態に係る人口算出システムでは、取得手段が、測定人数を複数の属性毎に取得し、人口算出手段が、複数の属性毎に設定された拡大係数に基づいて、測定エリアの人口及び対象エリアの人口を複数の属性毎に算出するとともに、前記複数の属性のうち少なくとも二つの属性についての測定エリアの人口の合計及び対象エリアの人口の合計を算出し、秘匿化手段が、測定エリアの合計人口又は対象エリアの合計人口を、秘匿基準と少なくとも二つの属性毎に設定された拡大係数のうち最大の拡大係数との積である階級幅に基づいて秘匿化してもよい。
このような形態によれば、測定エリアの人口及び対象エリアの人口が複数の属性毎に算出されるとともに、これら2つのエリアについて複数の属性のうち少なくとも二つの属性についての人口の合計が算出される。そして、測定エリア又は対象エリアの合計人口が、秘匿基準と少なくとも二つの属性毎に設定された拡大係数のうち最大の拡大係数との積である階級幅に基づいて秘匿化される。複数の属性の拡大係数のうち最大の拡大係数は、当該複数の属性のうち最も個人が特定されやすい属性の拡大係数であるが、そのような最大の拡大係数に基づいて、対象エリアの合計人口を秘匿化することで、個人が特定されるリスクを抑えることができる。さらに別の形態に係る人口算出システムでは、取得手段が、測定人数を複数の属性毎に取得し、人口算出手段が、複数の属性毎に設定された拡大係数に基づいて、測定エリアの人口及び対象エリアの人口を複数の属性毎に算出し、秘匿化手段が、測定エリアの人口又は対象エリアの人口を、複数の属性毎に秘匿基準と当該属性に設定された拡大係数との積である階級幅に基づいて秘匿化し、複数の属性全てについて足し合わせることで、秘匿化された測定エリアの合計人口又は秘匿化された対象エリアの合計人口を算出してもよい。
さらに別の形態に係る人口算出システムでは、秘匿化手段が、測定エリアの合計人口又は対象エリアの合計人口を、階級幅ではなく、階級幅とは異なる別の階級幅に基づいて秘匿化し、別の階級幅が、少なくとも二つの属性毎に設定された拡大係数を降順に並べた際の上位n個(nは秘匿基準)の拡大係数の和であってもよい。
このような形態によれば、少なくとも二つの属性毎に設定された拡大係数を降順に並べた際の上位n個(nは秘匿基準)の拡大係数の和を階級幅として秘匿化が行われる。これにより、秘匿化前の人口データとの乖離を小さくしつつ、秘匿化することができる。
さらに別の形態に係る人口算出システムでは、秘匿化手段が、階級幅に基づく秘匿化を実行する際に、人口を階級幅の整数倍に量子化してもよい。
このような形態によれば、人口を階級幅の整数倍に量子化することで秘匿化が行われる。これにより、秘匿化前の人口データとの乖離を小さくしつつ、秘匿化することができる。
さらに別の形態に係る人口算出システムでは、秘匿化手段が、人口を階級幅の整数倍に量子化することで人口を特定の階級に丸め込む際に、人口との差が最も小さい階級と人口との差が次に小さい階級とのうちどちらか一方の階級に、人口とそれぞれの階級との差に基づいて丸め込んでもよい。
このような形態によれば、人口を秘匿化する際に、人口と、その人口を丸め込む候補となる各階級との差が考慮されるので、秘匿化前の人口データとの乖離を小さくしつつ、秘匿化することができる。さらに別の形態に係る人口算出システムでは、秘匿化手段が、階級幅に基づく秘匿化を実行する際に、階級幅未満の人口を切り捨ててもよい。さらに別の形態に係る人口算出システムでは、秘匿化手段が、階級幅に基づく秘匿化を実行する際に、階級幅の大きさに応じた確率に基づいて人口をランダムな値にしてもよい。
さらに別の形態に係る人口算出システムでは、秘匿化手段が、別の階級幅に基づく秘匿化を実行する際に、人口を別の階級幅の整数倍に量子化してもよい。
このような形態によれば、人口を別の階級幅の整数倍に量子化することで秘匿化が行われる。これにより、秘匿化前の人口データとの乖離を小さくしつつ、秘匿化することができる。
さらに別の形態に係る人口算出システムでは、秘匿化手段が、人口を別の階級幅の整数倍に量子化することで人口を特定の階級に丸め込む際に、人口との差が最も小さい階級と人口との差が次に小さい階級とのうちどちらか一方の階級に、人口とそれぞれの階級との差に基づいて丸め込んでもよい。
このような形態によれば、人口を秘匿化する際に、人口と、その人口を丸め込む候補となる各階級との差が考慮されるので、秘匿化前の人口データとの乖離を小さくしつつ、秘匿化することができる。さらに別の形態に係る人口算出システムでは、秘匿化手段が、別の階級幅に基づく秘匿化を実行する際に、別の階級幅未満の人口を切り捨ててもよい。さらに別の形態に係る人口算出システムでは、秘匿化手段が、別の階級幅に基づく秘匿化を実行する際に、別の階級幅の大きさに応じた確率に基づいて人口をランダムな値にしてもよい。
さらに別の形態に係る人口算出システムでは、取得手段が、所定期間に測定エリア内で移動機から登録された位置情報のそれぞれについて、移動機が位置情報を登録した時刻、当該移動機が一つ前の位置情報を登録した時刻、及び当該移動機が一つ後の位置情報を登録した時刻、のうち二つ以上を用いて特徴量を算出し、特徴量の総和に基づいて測定エリア内の移動機の数を推計し、測定人数として取得してもよい。
このような形態によれば、特徴量に基づいて、より正確な測定人数を取得することができる。
さらに別の形態に係る人口算出システムでは、取得手段が、移動機から登録された位置情報のうち、移動機が位置情報を登録した時刻が集計される集計時間帯内又は集計時間帯を所定幅拡張した拡張期間内にある位置情報に基づいて、集計時間帯の少なくとも一部において測定エリアに滞在したと推定される移動機、又は当該移動機にて集計時間帯又は拡張期間内に生成された1つの位置情報を抽出し、抽出された移動機の数又は位置情報の数に基づいて、集計時間帯内における測定エリア内の移動機の数を推計し、測定人数として取得してもよい。
このような形態によれば、移動機の2重カウントを回避できるため、より正確な測定人数を取得することができる。
このような形態によれば、測定エリアの人口と対象エリアの人口とが求められ、秘匿化された測定エリアの人口と、秘匿化前の測定エリアの人口に対する対象エリアの人口の比との積が、対象エリアの秘匿化人口として出力される。このように、対象エリアよりも人口が多い測定エリアの人口を秘匿化してから、測定エリアの人口に対する対象エリアの人口の比を乗じて対象エリアの秘匿化された人口を算出することで、対象エリアの人口を直接秘匿化する場合に比べて、秘匿化前の人口データとの乖離を小さくすることができる。
このような人口算出システム及び人口算出方法によれば、人口データの信頼性を一定以上に保ちつつ、人口を秘匿化して提示することができる。
第1実施形態に係る人口算出システムの機能構成を示すブロック図である。 第1実施形態に係る人口算出システムのハードウェア構成を示す図である。 第1実施形態に係る測定エリア及び対象エリアの例を示す図である。 (a)〜(c)は図1に示すデータベースに記憶される情報の例を示す図である。 図1に示すデータベースに記憶される情報の例を示す図である。 第1実施形態に係る人口算出システムの処理を示すフローチャートである。 第2実施形態に係る人口算出システムの機能構成を示すブロック図である。 図7に示すデータベースに記憶される情報の例を示す図である。 第2実施形態に係る人口算出システムの処理を示すフローチャートである。 第2実施形態の変形例1に係る測定エリア及び対象エリアの例を示す図である。 (a)〜(c)は図7に示すデータベースに記憶される情報の例を示す図である。 図7に示すデータベースに記憶される情報の例を示す図である。 端末数推計(在圏数推計)の考え方を説明するための図である(その1)。 端末数推計(在圏数推計)の考え方を説明するための図である(その2)。 端末数推計(入込数推計)の考え方を説明するための図である(その1)。 端末数推計(入込数推計)の考え方を説明するための図である(その2)。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。
(第1実施形態)
まず、図1〜5を用いて、第1実施形態に係る人口算出システム1の機能及び構成を説明する。人口算出システム1は、特定のエリアの量子化された人口を算出するためのコンピュータシステムである。図1に示すように、人口算出システム1は機能的構成要素として取得部(取得手段)10、第1算出部(人口算出手段)11、第2算出部(人口算出手段)12、量子化部(秘匿化手段)13、出力部(出力手段)14、及びデータベース15を備えている。
この人口算出システム1は、図2に示すように、オペレーティングシステムやアプリケーション・プログラムなどを実行するCPU101と、ROM及びRAMで構成される主記憶部102と、メモリなどで構成される補助記憶部103と、データ通信を行う通信制御部104と、ディスプレイなどで構成される表示部105と、キーボードなどで構成される操作部106とで構成される。図1に示す各機能は、CPU101及び主記憶部102の上に所定のプログラムを読み込ませ、CPU101の制御の下で通信制御部104、表示部105及び操作部106を動作させるとともに、主記憶部102や補助記憶部103に対してデータの読み出し又は書き込みを行うことで実現される。データベースや処理に必要なデータは主記憶部102または補助記憶部103内に格納されている。
図1に戻って、取得部10は、対象エリアを含む測定エリアにおいてサンプルとして測定された測定人数を取得する手段である。
対象エリアは、推定人口を算出する対象となる特定の地理範囲である。一方、測定エリアは、移動体通信網を構成する特定の基地局の通信可能範囲であり、本実施形態では複数のセクタで構成されている。対象エリア及び測定エリアの例を図3に示す。図3の例では、セクタA及びBで構成される一つの測定エリア内に、対象エリアである矩形のメッシュMが設けられている。なお、対象エリア及び測定エリアの形状などは限定されない。
移動機が特定の基地局の特定のセクタ内に入ると、移動機と基地局との通信により位置登録処理が行われ、移動機が当該セクタに在圏していることを示す位置情報が移動体通信網の所定のデータベース(図示せず)に記憶される。あるいは、移動機と基地局との定期的な通信により、位置登録処理が定期的に行われ、位置情報がそのデータベースに記憶される。したがって、例えばセクタA及びBのそれぞれに関して0以上の位置情報がデータベースに登録され得る。また、移動体通信網内には、移動機のユーザに関するユーザ情報が登録されているデータベースも存在する。取得部10は、これらのデータベースを参照することで、各セクタ内に存在するユーザ数(測定人数)をユーザ属性毎に集計(測定)する。このとき、取得部10はセクタ内の移動機をユーザ数としてカウントしている。
取得部10は、移動機に搭載されたGPS等により取得された移動機の位置情報に基づいて、測定人数を取得してもよい。GPS等により取得された移動機の位置情報は、移動体通信網の所定のデータベースに記憶される。取得部10は、このデータベースとユーザ情報が登録されているデータベースとを参照し、測定エリア内に位置する位置情報を集計することで、当該測定エリア内に存在するユーザ数をユーザ属性毎に集計する。また、測定エリアと対象エリアとが同じ、あるいはほぼ同じ地理範囲を示している場合、取得部10は、測定エリアではなく対象エリア内に位置する位置情報を集計することで、測定人数として取得してもよい。なお、取得部10が測定人数を取得する際の集計条件や集計方法は限定されない。
図4(a)の“ユーザ数”列は、取得部10がセクタA及びBにおいて取得した測定人数を示す。取得部10は、測定人数を属性毎に取得してもよい。図4(a)の例では、ユーザ数を2種類の属性1及び2に分けて集計している。図4(a)では、属性を属性1及び属性2で抽象的に表現しているが、例えば、性別毎(男性、女性)や年齢層毎(10代、20代、30代、…)などのような任意の切り口でユーザ数を集計してもよい。したがって、あるセクタについて作成されるレコードの個数も2つとは限らない。図4(a)の例では、“ユーザ数”列に示す通り、取得部10は、セクタAにおける属性1のユーザ数が5、セクタAにおける属性2のユーザ数が152、セクタBにおける属性1のユーザ数が5、及びセクタBにおける属性2のユーザ数が55であるという情報を取得している。取得部10によって取得された図4(a)の情報は、取得部10によりデータベース15に記憶される。
データベース15には、図4(b)及び(c)に示す情報が予め記憶されている。図4(b)は、測定人数から測定エリア内の人口を求めるための拡大係数を示している。ここで、拡大係数とは、サンプル調査におけるサンプル率の逆数である。例えば、サンプル率が50%の場合、拡大係数は2となる。つまり、拡大係数は、サンプルとして測定した人数を何倍すれば母集団における数になるかを表す数であり、測定人数に拡大係数を乗じることで測定エリア内の人口を算出することができる。図4の例では、例えば、セクタAにおける属性1のユーザ数は5であり、属性1の拡大係数が2であるから、セクタAにおける属性1の人口は、ユーザ数と拡大係数との積である5×2=10となる。
図4(c)は、測定エリアと当該測定エリアに含まれる対象エリアとの面積比を示している。例えば、図4(c)は、セクタAに含まれるメッシュMの面積はセクタAの面積の30%であり、セクタBに含まれるメッシュMの面積はセクタBの面積の20%であることを示している。
第1算出部11は、取得部10により取得された測定人数と、測定人数から測定エリア内の人口を求めるための拡大係数とに基づいて、該測定エリアの人口を算出する手段である。第1算出部11は、属性毎に設定された拡大係数に基づいて、測定エリアの人口を属性毎に算出してもよい。
第1算出部11は、セクタAにおける属性1の人口として、セクタAにおける属性1のユーザ数と属性1の拡大係数との積である5×2=10を算出する。同様に、第1算出部11は、セクタAにおける属性2の人口として152×2.5=380、セクタBにおける属性1の人口として5×2=10、セクタBにおける属性1の人口として55×2.5=137.5を算出する。第1算出部11は、これら計算結果を、図4(a)に示すテーブルの“人口”列のようにデータベース15に記憶する。
第2算出部12は、算出された測定エリアの人口に基づいて対象エリアの人口を算出する手段である。第2算出部12は、対象エリアの人口を属性毎に算出してもよい。
第2算出部12は、メッシュMにおける属性1の人口として、セクタAにおける属性1の人口と、セクタBにおける属性1の人口と、セクタAとセクタAに含まれるメッシュMとの面積比と、セクタBとセクタBに含まれるメッシュMとの面積比とから、10×0.3+10×0.2=5を算出する。同様に、第2算出部12は、メッシュMにおける属性2の人口として、380×0.3+137.5×0.2=141.5を算出する。また、第2算出部12は、メッシュMの全属性の人口の合計である5+141.5=146.5を、メッシュMの合計人口として算出する。第2算出部12は、これらの計算結果を、図5に示すテーブルの“M人口”(メッシュMの人口を示す)列のようにデータベース15に記憶する。
量子化部13は、第2算出部12による算出処理の際に、対象エリアの人口を、最小集計単位の基準値である秘匿基準と前記拡大係数との積である階級幅に基づいて秘匿化する手段である。本実施形態では、量子化部13は、対象エリアの人口を階級幅の整数倍に量子化するものとして説明するが、秘匿化の方法はこれに限定されない。
量子化部13は、まず、秘匿基準と属性の拡大係数との積である階級幅を算出する。ここで、秘匿基準とは、集計単位における最少人数の基準値である。例えば、ユーザ数を集計した結果、ユーザ数が数人となった場合、個人が容易に特定される可能性がある。そのため、集計した結果、ユーザ数が所定の人数以下にならないようにすることで、当該所定の人数以下の個人が特定されないような集計が可能になる。この所定の人数が秘匿基準である。本実施形態では、属性の種類やエリアに依らず秘匿基準を一律に10とする。
属性1の人口を求める場合には、量子化部13は、属性1の階級幅として10×2=20を算出する。次に、量子化部13は、メッシュMにおける属性1の人口である5を、階級幅である20の整数倍に量子化する。量子化部13は、人口を階級幅の整数倍に量子化することで人口を特定の階級に丸め込む際に、人口との差が最も小さい階級と人口との差が次に小さい階級とのうちどちらか一方の階級に丸め込む。ここで、人口との差が最も小さい階級は0(差は5)、人口との差が次に小さい階級は20(差は15)である。これら2つの階級のうち、値の小さい階級(0)を下値、値が大きい階級(20)を上値とする。本実施形態では、量子化部13は、丸め込む人口を下値に丸め込むものとする。よって、量子化部13は、メッシュMにおける属性1の人口である5を0に量子化する。同様に、量子化部13は、メッシュMにおける属性2の人口である141.5を、属性2の階級幅である10×2.5=25の整数倍に基づき、125に量子化する。
量子化部13は、対象エリアの合計人口を、秘匿基準と属性毎に設定された拡大係数のうち最大の拡大係数との積である階級幅の整数倍に量子化してもよい。
属性1及び2に設定された拡大係数のうち最大の拡大係数は属性2の2.5であるため、量子化部13は、合計人口に対する階級幅として10×2.5=25を算出する。次に、量子化部13は、メッシュMの合計人口である146.5を、階級幅である25の整数倍に量子化した125を算出する。
本実施形態では、量子化部13は丸め込む人口を下値に丸め込んでいるが、丸め込みの方法はこれに限定されない。例えば、量子化部13は、人口を切り上げて上値に丸め込んでもよい。また、量子化部13は、人口を上値及び下値のうち人口との差が小さい方に一方的に丸め込んでもよいし、人口を上値及び下値のうちランダムにどちらか一方に丸め込んでもよい。
さらに量子化部13は、人口を階級幅の整数倍に量子化することで人口を特定の階級に丸め込む際に、人口との差が最も小さい階級と人口との差が次に小さい階級とのうちどちらか一方の階級に、人口とそれぞれの階級との差に基づいて丸め込んでもよい。
以下では、丸め込む人口が上値に近いときは上値に丸め込む確率を高くし、下値に近いときは下値に丸め込む確率を高くしてランダムに丸め込む方法を示す。丸め込む人口をe、下値をr1、及び上値をr2として、人口eをr1に丸め込む確率を(r2−e)/(r2−r1)とし、人口eをr2に丸め込む確率を(e−r1)/(r2−r1)とする。例えば、メッシュMにおける属性1の人口を丸め込む場合、e=5、r1=0、及びr2=20なので、量子化部13がメッシュMにおける属性1の人口を下値に丸め込む確率は(20−5)/(20−0)=75(%)、上値に丸め込む確率は(5−0)/(20−0)=25(%)となる。
量子化部13は、上記のような階級幅を用いずに、属性毎に設定された拡大係数を降順に並べた際の上位n個(nは秘匿基準)の拡大係数の和を別の階級幅として用いて、対象エリアの合計人口を量子化してもよい。
例えば、あるエリアにいる10人の拡大係数がそれぞれ10、5、2、5、3、1、2、4、6、及び3であるとする。ここで秘匿基準が3の場合、量子化部13は、上記10人のうち拡大係数順に上位3人分の拡大係数である10、6、及び5の和である21を別の階級幅とする。そして量子化部13は、当該別の階級幅の整数倍に合計人口を量子化する。ここで、量子化部13が、階級幅を秘匿基準と最大の拡大係数との積として算出する場合、階級幅は3×10=30となり、上記の通り、別の階級幅である21とした方が量子化前後で人口データの乖離が小さくなる。なお、最大の拡大係数を持つ属性の人数が秘匿基準以上の場合は、上記別の階級幅は最大の拡大係数を用いる場合と同じになる。
出力部14は、量子化部13による量子化(秘匿化)処理を経て得られた対象エリアの人口を該対象エリアの秘匿化人口として出力する手段である。
具体的には、出力部14は、量子化された人口を図5の“秘匿化後M人口”列のようにデータベース15に記憶する。図5の例では、メッシュMにおける属性1及び2の人口、及び合計人口である0、125、125がデータベース15に記憶されている。なお、秘匿化人口の出力方法は限定されない。出力部14は、秘匿化人口を、ディスプレイなどの表示部105に出力してもよいし、ネットワークで接続された他のシステムに出力してもよい。
次に、図6を用いて、図1に示す人口算出システム1の動作を説明するとともに本実施形態に係る人口算出方法について説明する。
まず、取得部10が、メッシュMを含むセクタA及びBにおけるユーザ数を取得する(ステップS11、取得ステップ)。次に、第1算出部11が、ステップS11にて取得したユーザ数と、拡大係数とに基づいて、セクタA及びBの人口を算出し、第2算出部12が、算出されたセクタA及びBの人口に基づいて、メッシュMの人口を算出する(ステップS12、人口算出ステップ)。次に、量子化部13が、ステップS12にて算出したメッシュMの人口を、秘匿基準と拡大係数との積である階級幅に基づいて秘匿化する(ステップS13、秘匿化ステップ)。次に、出力部14が、ステップS13にて秘匿化したメッシュMの人口を、メッシュMの秘匿化人口として出力する(ステップS14、出力ステップ)。
以上説明したように、本実施形態によれば、測定した人数からセクタA及びB内の人口を求め、その人口に基づいてメッシュMの人口を求める際に、セクタA及びBの人口又はメッシュMの人口が秘匿基準及び拡大係数の積である階級幅の整数倍に量子化される。このように、上記秘匿基準に基づく階級幅を用いてメッシュMの人口を離散的に求めることで、当該階級幅未満の端数を適度に丸め込むことができるので、人口データの信頼性を一定以上に保ちつつ、人口を秘匿化して提示することができる。
また本実施形態によれば、セクタA及びBの人口及びメッシュMの人口が属性毎に算出されるとともに、これら2つのエリアについて全属性の人口の合計が算出される。そして、セクタA及びB又はメッシュMの合計人口が、秘匿基準と属性毎に設定された拡大係数のうち最大の拡大係数との積である階級幅の整数倍に量子化される。各属性の拡大係数のうち最大の拡大係数は、各属性のうち最も個人が特定されやすい属性の拡大係数であるが、そのような最大の拡大係数に基づいて、対象エリアの合計人口を秘匿化することで、個人が特定されるリスクを抑えることができる。
また本実施形態によれば、属性毎に設定された拡大係数を降順に並べた際の上位n個(nは秘匿基準)の拡大係数の和を階級幅として量子化が行われる。これにより、量子化前の人口データとの乖離を小さくしつつ、量子化することができる。
また本実施形態によれば、人口を量子化する際に、人口と、その人口を丸め込む候補となる各階級との差が考慮されるので、量子化前の人口データとの乖離を小さくしつつ、量子化することができる。
なお、メッシュMの全属性の合計人口を量子化する場合に限らず、当該メッシュMにおける、3以上の属性のうち少なくとも二つの属性についての合計人口を量子化する場合であっても、上述した最大の拡大係数あるいは別の階級幅を同様に設定することができる。例えば、量子化部13は、メッシュMにおける、属性1〜5のうち三つの属性1、3、5についての合計人口を求める際に、秘匿基準と当該属性1、3、5の拡大係数のうち最大の拡大係数との積である階級幅を用いて量子化処理を実行してもよい。また、量子化部13は、同様の場合に、属性1、3、5に属する人の拡大係数を降順に並べた際の上位n個の拡大係数の和を階級幅として、量子化を実行してもよい。
(第2実施形態)
次に、図3、4、7、及び8を用いて、第2実施形態に係る人口算出システム1Aの機能及び構成を説明する。図7に示すように、人口算出システム1Aは、第1実施形態における量子化部13に代えて量子化部13A、出力部14に代えて出力部14Aを備え、さらに第3算出部16(人口算出手段)を備える。本実施形態の他の構成は、第1実施形態と同じなので、説明を省略する。また、人口算出システム1Aのハードウェア構成や当該ハードウェア構成による各機能的構成要素の実現方法も第1実施形態と同様なので、その説明も省略する。
第2実施形態に係る人口算出システム1Aは、第1実施形態と同様に、図3に示すセクタA及びBに含まれるメッシュMの秘匿化された人口を算出するものとする。また、図4(b)及び(c)に示す初期値が与えられ、取得部10により図4(a)に示す“ユーザ数”列の値が取得され、第1算出部11により同図に示す“人口”列の値が取得されたものとする。また、第2算出部12は、第1実施形態と同様に、メッシュMの人口を算出し、算出結果を図8に示すテーブルの“M人口”列のようにデータベース15に記憶したものとする。
第1算出部11は、セクタA及びB(セクタA+Bともいう)における属性1の人口として、図4(a)の“人口”列の値を利用して、10+10=20を算出する。同様に、第1算出部11は、セクタA+Bにおける属性2の人口として380+137.5=517.5を算出する。また、第1算出部11は、セクタA+Bにおける全属性の人口として、20+517.5=537.5を算出する。第1算出部11は、これらの計算結果を、図8に示すテーブルの“A+B人口”(セクタA+Bの人口を示す)列のようにデータベース15に記憶する。
量子化部13Aは、第1算出部11による算出処理の際に、測定エリアの人口を、秘匿基準と拡大係数との積である階級幅に基づいて秘匿化する手段である。本実施形態では、量子化部13Aは、対象エリアの人口を階級幅の整数倍に量子化するものとして説明するが、秘匿化の方法はこれに限定されない。
量子化部13Aは、セクタA+Bにおける属性1の人口である20を、階級幅である10×2=20を利用して、20に量子化する。同様に、量子化部13Aは、セクタA+Bにおける属性2の人口である517.5を、階級幅である10×2.5=25を利用して、500に量子化する。
量子化部13Aは、測定エリアの全属性の合計人口を、秘匿基準と属性毎に設定された拡大係数のうち最大の拡大係数との積である階級幅の整数倍に量子化してもよい。
属性1及び2に設定された拡大係数のうち最大の拡大係数は属性2の2.5であるため、量子化部13Aは、階級幅として10×2.5=25を算出する。次に、量子化部13Aは、セクタA+Bにおける合計人口である537.5を、階級幅である25の整数倍に量子化した525を算出する。量子化部13Aが量子化したセクタA+Bにおける人口は、量子化部13Aにより、図8の“量子化後A+B人口”(量子化されたセクタA+Bの人口を示す)列のようにデータベース15に記憶される。
なお、量子化部13Aは、上記の量子化において、人口を下値に切り下げて丸め込んだが、丸め込みの方法はこれに限るものではない。例えば、量子化部13Aは、第1実施形態と同様に、人口を上値に切り上げて丸め込んでもよいし、人口と階級との差が小さい下値に丸め込んでもよいし、ランダムにどちらかの階級に丸め込んでもよい。
また、量子化部13Aは、第1実施形態の量子化部13と同様に、セクタA+Bにおける全属性の人口を、属性毎に設定された拡大係数順に上位秘匿基準人分の拡大係数の和である階級幅の整数倍に量子化してもよい。
第3算出部16は、量子化部13Aにより量子化された測定エリアの人口と、量子化前の測定エリアの人口に対する対象エリアの人口の比であるエリア人口比との積を、量子化処理を経て得られた対象エリアの人口として算出する手段である。
第3算出部16は、属性1において、量子化部13Aにより量子化されたセクタA+Bの人口である20と、エリア人口比である5/20との積として、20×(5/20)=5を算出する。同様に、第3算出部16は、属性2において、上記積として、500×(141.5/517.5)=136.7を算出する。同様に、第3算出部16は、セクタA+Bにおける全属性の人口について、上記積として525×(146.5/537.5)=143.0を算出する。なお、本実施形態では、小数点以下第2位を切り捨てる。
出力部14Aは、量子化(秘匿化)処理を経て得られた対象エリアの人口を該対象エリアの秘匿化人口として出力する。
具体的には、出力部14Aは、量子化された人口を図8の“秘匿化後M人口”列のようにデータベース15に記憶する。図8の例では、メッシュMにおける属性1及び2の人口、及び合計人口である5、136.7、143.0がデータベース15に記憶されている。なお、秘匿化人口の出力方法は限定されない。出力部14Aは、秘匿化人口を、ディスプレイなどの表示部105に出力してもよいし、ネットワークで接続された他のシステムに出力してもよい。
ここで、図8に示すテーブルの“秘匿化後M人口”の値に着目すると、属性1及び2の人口を単純に足すと5+136.7=141.7となり、秘匿化された合計人口である143.0と一致しない。このように、人口の秘匿化後において、合計人口は必ずしも各属性の人口合計値と一致しない。これにより、例えば、全属性の秘匿化後の人口と属性2の秘匿化後の人口が公開されている場合でも、これらの差を求めて属性1の秘匿化後の人口を知ることができないので、個人が特定されるリスクを抑えることができる。
次に、図9を用いて、図7に示す人口算出システム1Aの動作を説明するとともに本実施形態に係る人口算出方法について説明する。
まず、取得部10が、メッシュMを含むセクタA及びBにおけるユーザ数を取得する(ステップS31、取得ステップ)。次に、第1算出部11が、ステップS31にて取得したユーザ数と、拡大係数とに基づいて、セクタA及びBの人口を算出する(ステップS32、人口算出ステップ)。次に、第2算出部12が、ステップS32にて算出されたセクタA及びBの人口に基づいて、メッシュMの人口を算出する(ステップS33、人口算出ステップ)。次に、量子化部13Aが、ステップS32にて算出したセクタA+Bの人口を、秘匿基準と拡大係数との積である階級幅に基づいて秘匿化する(ステップS34、秘匿化ステップ)。次に、第3算出部16が、ステップS34にて秘匿化したセクタA+Bの人口と、ステップS32にて算出したセクタA+Bの人口に対するステップS33にて算出したメッシュMの人口の比との積を算出する(ステップS35、第3算出ステップ)。次に、出力部14Aが、ステップS35にて算出した積を、メッシュMの秘匿化人口として出力する(ステップS36、出力ステップ)。
以上説明したように、本実施形態によれば、算出処理の際に、計算の途中結果であるセクタA及びBの人口が、最小集計単位の基準値である秘匿基準と拡大係数との積である階級幅の整数倍に量子化され、量子化されたセクタA及びBの人口と、エリア人口比との積が量子化処理を経て得られたメッシュMの人口として算出される。メッシュMの人口を直接秘匿化する場合でも人口データの信頼性を一定以上に保ちつつ人口を秘匿化することが可能であるが、このように、メッシュMよりも人口が多いセクタA及びBの人口を秘匿化してから、エリア人口比を乗じてメッシュMの秘匿化された人口を算出することで、上記のようにメッシュMの人口を直接秘匿化する場合に比べて、秘匿化前の人口データとの乖離をさらに小さくすることができる。
なお、メッシュMとセクタA+Bが同一、あるいはほぼ同一の地理範囲を示す場合、第3算出部16は、量子化部13Aにより量子化されたセクタA+Bの人口を、メッシュMの人口として算出し、出力部14Aは、該メッシュMの人口を秘匿化人口として出力してもよい。このようにメッシュMとセクタA+Bが同一の地理範囲を示す場合でも、人口データの信頼性を一定以上に保ちつつ、人口を秘匿化して提示することができる。このような処理は、量子化された測定エリア人口にエリア人口比「1」を乗じて秘匿化人口を求める処理と実質的に同じである。
また、セクタA+Bの全属性の合計人口を量子化する場合に限らず、当該セクタA+Bにおける、3以上の属性のうち少なくとも二つの属性についての合計人口を量子化する場合であっても、上述した最大の拡大係数あるいは別の階級幅を同様に設定することができる。例えば、量子化部13Aは、セクタA+Bにおける、属性1〜5のうち三つの属性1、3、5についての合計人口を求める際に、秘匿基準と当該属性1、3、5の拡大係数のうち最大の拡大係数との積である階級幅を用いて量子化処理を実行してもよい。また、量子化部13Aは、同様の場合に、属性1、3、5に属する人の拡大係数を降順に並べた際の上位n個の拡大係数の和を階級幅として、量子化を実行してもよい。
(第2実施形態の変形例1)
次に、図10〜12を用いて、第2実施形態に係る人口算出システム1Aの変形例1について説明する。本変形例において、人口算出システム1Aは、図10に示すように、単一の測定エリアであるセクタCに含まれている対象エリアであるメッシュNの秘匿化人口を算出する。図11及び12の各列については図4及び図5と同様のため説明を省略する。
取得部10は、図11(a)に示す通り、セクタCにおける属性1のユーザ数として5、セクタCにおける属性2のユーザ数として152を取得する。
第1算出部11は、セクタCにおける属性1の人口として、セクタCにおける属性1のユーザ数と属性1の拡大係数との積である5×2=10を算出する。同様に、第1算出部11は、セクタCにおける属性2の人口として152×2.5=380を算出する。また、第1算出部11は、セクタCにおける全属性の人口として10+380=390を算出する。
第2算出部12は、メッシュNにおける属性1の人口として、10×0.3=3を算出する。同様に、第2算出部12は、メッシュNにおける属性2の人口として、380×0.3=114を算出する。また、第2算出部12は、メッシュNにおける全属性の人口として、3+114=117を算出する。
量子化部13AはセクタCにおける属性1の人口である10を、階級幅である10×2=20の整数倍で量子化し、0を算出する。同様に、量子化部13AはセクタCにおける属性2の人口である380を、階級幅である10×2.5=25の整数倍で量子化し、375を算出する。同様に、量子化部13AはセクタCの全属性の人口である390を、最大の拡大係数を用いて算出された階級幅である10×2.5=25の整数倍で量子化し、375を算出する。
第3算出部16は、メッシュNにおける属性1の人口として0×(3/10)=0を算出し、メッシュNにおける属性2の人口として375×(114/380)=112.5を算出し、メッシュNの合計人口として375×(117/390)=112.5を算出する。
出力部14Aは、メッシュNにおける属性1及び2の秘匿化後人口、及び秘匿化後合計人口である0、112.5、112.5を出力する。
なお、第1実施形態の人口算出システム1も、図10に示すメッシュNの秘匿化人口を求めることが可能である。本発明に係る人口算出システムは、2以上の測定エリアに跨っている対象エリアの秘匿化人口を求めることも、単一の測定エリアに含まれる対象エリアの秘匿化人口を求めることもできる。秘匿化人口を求める手順は、測定エリアと対象エリアとの位置関係に関係なく同じである。
(第2実施形態の変形例2)
次に、第2実施形態に係る人口算出システム1Aの変形例2について説明する。本変形例において、人口算出システム1Aは、秘匿化部(秘匿化手段)をさらに備える。
秘匿化部は、第1算出部11により算出された測定エリアの人口を秘匿化する。
秘匿化の方法は特定の方法に限るものではない。秘匿化の方法の一例として、第2実施形態における量子化部13Aの量子化の方法が挙げられる。
秘匿化部による秘匿化の方法の別の一例として、秘匿基準、または秘匿基準と最大の拡大係数との積より小さい値を切り捨てる方法が挙げられる。例えば、測定エリアの人口が5の場合、秘匿基準である10より小さいので秘匿化部により切り捨てられ、最終的に秘匿化人口は出力されない。逆に、例えば、測定エリアの人口が20の場合、秘匿基準である10以上であるので秘匿化部により切り捨てられず、秘匿化された測定エリアの人口は20となる。
秘匿化部による秘匿化の方法の別の一例として、拡大係数を決めている単位である単位属性ごとに特定の秘匿化法で秘匿化し、足し合わせる方法が挙げられる。ここで、第2実施形態において、図8のように、量子化部13Aは、A+Bにおける合計人口である537.5を階級幅である25の整数倍に量子化した525を、全属性の量子化後のA+B人口として算出している。この量子化の方法に換えて、例えば、秘匿化部は、属性1のA+B人口である20を属性1の階級幅である20の整数倍に量子化した20と、属性2のA+B人口である517.5を属性2の階級幅である25の整数倍に量子化した500とを足した520を、全属性の量子化後のA+B人口として算出する。この秘匿化の方法により、秘匿化部は、単位属性を秘匿化した値を足し合わせることで、単位属性が複数含まれる複合属性を秘匿化することができる。
秘匿化部による秘匿化の方法の別の一例として、第2実施形態における階級幅を設定せずに、乱数により値をぶれさせる方法が挙げられる。第2実施形態において、量子化部13は、人口を階級幅の整数倍に量子化することで人口を特定の階級に丸め込む際に、人口を上値または下値に丸め込んでいる。一方、乱数により値をぶれさせる秘匿化の方法では、例えば、階級幅に応じた大きさの分散を持つ確率密度関数に応じた確率で、ランダムな値に人口が秘匿化される。
秘匿化部による秘匿化の方法の別の一例として、人口を秘匿基準と拡大係数との積である階級幅の実数倍に秘匿化する方法が挙げられる。ここで、例えば、階級幅をy、整数をzとすると、第1実施形態及び第2実施形態において、それぞれ量子化部13及び量子化部13Aは、人口を0、y、2y、3y、…、zy、…に秘匿化している。この秘匿化の方法に換えて、例えば、量子化部13及び量子化部13Aは、人口を0、1.1y、2.2y、3.3y、…、1.1zy、…に秘匿化する。
秘匿化部による秘匿化の方法の別の一例として、人口を秘匿基準と拡大係数との積である階級幅の整数倍に所定の実数を加えた値に秘匿化する方法が挙げられる。ここで、例えば、階級幅をy、整数をzとすると、第1実施形態及び第2実施形態において、それぞれ量子化部13及び量子化部13Aは、人口を0、y、2y、3y、…、zy、…に秘匿化している。この秘匿化の方法に換えて、例えば、量子化部13及び量子化部13Aは、人口を0、0.5、y+0.5、2y+0.5、3y+0.5、…、zy+0.5、…に秘匿化する。
なお、本第2実施形態の変形例2で挙げた秘匿化部による秘匿化の方法の全ては、第1実施形態でも適用可能である。
出力部14Aは、秘匿化部により秘匿化された測定エリアの人口と、秘匿化前の測定エリアの人口に対する第2算出部12により算出された対象エリアの人口の比であるエリア人口比との積を、対象エリアの秘匿化人口として出力する。秘匿化された測定エリアの人口とエリア人口比との積の算出の具体例は、第2実施形態における第3算出部16の算出内容と同様のため、説明を省略する。
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
人口算出システム1及び1Aは、1台のコンピュータで構成されてもよいし、複数台のコンピュータで構成されてもよい。人口算出システム1及び1Aを複数のコンピュータで構成する場合には、サーバ間でそれぞれの機能的構成要素の入出力を送受信することで、人口算出システム1及び1Aの機能を実現してもよい。
上記各実施形態では、第1算出部11及び第2算出部12が、測定人数と拡大係数とに基づいて測定エリアの人口を算出し、算出された測定エリアの人口に基づいて対象エリアの人口を算出したが、対象エリアの人口の算出手順はこれに限るものではない。例えば、人口算出手段が、測定人数と測定エリアに対する対象エリアの面積比とに基づいて対象エリアの測定人数を算出し、算出された対象エリアの測定人数と拡大係数とに基づいて対象エリアの人口を算出してもよい。
上記各実施形態では測定エリアを移動体通信における空間的なセクタとしたが、これに限定されない。例えば、測定エリアとしてテレビ番組の視聴率調査における実際の視聴率調査対象世帯が挙げられる。このように、測定エリアは、サンプルとして人数が測定可能な領域であればよい。
また、上記各実施形態では人口算出システム1及び1Aにおいて機能的構成要素が算出した一時的なデータをデータベース15に記憶するとしたが、作業用メモリやデータベースシステムなどに記憶してもよい。
また、上記各実施形態の人口算出システム1及び1Aは、秘匿化された人口を算出するが、人口の算出以外にも本発明を適用できる。例えば、データの信頼性を一定以上に保ちつつ、データを秘匿化して提示する分野のコンピュータシステムにも適用してもよい。
また、上記各実施形態の人口算出システム1及び1Aは、取得部10がユーザ数を取得する際、移動体通信網の所定のデータベースを参照することでユーザ数を集計して取得するとしたが、これに限定されない。例えば、アンケートの集計データのように、予め集計された静的な集計データから測定人数を取得してもよい。
また、上記各実施形態の人口算出システム1及び1Aにおいて、取得部10が位置情報やユーザ情報が登録されているデータベースを参照して集計する際に、取得部10は、位置情報やユーザ情報に含まれるユーザ識別子(例えば電話番号)に対し、一方向性関数による不可逆符号への変換を含む非識別化処理を行ってもよい。この一方向性関数として、国内外の評価プロジェクトや評価機関により推奨されているハッシュ関数に基づく鍵付ハッシュ関数を用いることができる。
また、上記各実施形態の人口算出システム1及び1Aにおいて、取得部10が測定人数を取得する際に、例えば、次に説明する端末数推計である在圏数推計、又は入込数推計により、測定人数(移動機数)を推計し、取得してもよい。
以下では、在圏数推計の考え方及び計算方法を説明する。図13に示すモデルのように、ある集計時間帯(長さT)の間に、n個の移動機a,a,…,aがセクタSを通過し、各移動機aの集計時間帯内のセクタSの滞在時間がt(0<t≦T)であったとする。このとき、セクタSに存在する移動機数m(実際にはセクタSに存在する移動機数mの集計時間帯内における平均値)は、以下の式(1)で表わされる。
Figure 0005490908
即ち、各移動機aの集計時間帯内のセクタSの滞在時間tの総和を集計時間帯の長さTで除した結果を、移動機数mとして推計する。ただし、移動機aの集計時間帯内のセクタSの滞在時間tの真の値は観測不能であるが、各移動機aが位置情報を登録するために発する信号は観測可能である。
移動機aが集計時間帯内にセクタSで発信した信号を、時刻順に
Figure 0005490908
(xは、移動機aが集計時間帯内にセクタSで発信した信号の総数)とすると、観測されたqij(jは1以上x以下の整数)からmの値を推計することができる。
さて、図14に基づき移動機数推計の計算方法を説明する。移動機aから信号qijが送信される密度(即ち、単位時間あたりの信号数)をpとする。このとき、信号が送信される確率がセクタに対して独立であれば、移動機aが集計時間帯内にセクタSで発信した信号の総数xの期待値E(x)は、E(x)=t×pであるため、移動機aの集計時間帯内のセクタSの滞在時間tの期待値E(t)について以下の式(2)が成立する。
E(t)=x/p (2)
ここで、信号qijの送信時刻をuijとしたとき、信号qijの密度pijは、以下の式(3)で与えられる。
ij=2/(ui(j+1)−ui(j−1)) (3)
ここで、上記式(3)の(ui(j+1)−ui(j−1))を、信号qijについての特徴量wijとする。すると、上記式(3)は、以下となる。即ち、特徴量wijは、密度pijの逆数に対応づけて算出することができる。
ij=2/(ui(j+1)−ui(j−1))=2/wij (4)
このとき密度pは、
Figure 0005490908
で与えられるため、移動機数mの推計値E(m)は以下の式(6)で計算することができる。
Figure 0005490908
図14の例に示すように、集計時間帯内であり且つ移動機aがセクタSに滞在していた期間内に、移動機aは信号qi1、qi2、qi3を送信し、信号qi1の直前に信号qi0を、信号qi3の直後に信号qi4を送信したものとし、信号qi0、qi1、qi2、qi3、qi4の送信時刻をそれぞれui0、ui1、ui2、ui3、ui4とすると、上記の考え方は、移動機aの集計時間帯内のセクタSの滞在時間tを、(ui0とui1の中点)から(ui3とui4の中点)までの期間と推計することに相当する。なお、移動機aは、集計時間帯内ではないものの、セクタSへの滞在中に信号qi4を送信している。但し、滞在時間tの推計量の不偏性を維持するために、ここでは一例として、滞在時間tの終了時刻を集計時間帯Tの終了時刻と同じとして推計することは行わない処理を説明する。
続いて、以下では、入込数推計の考え方及び計算方法を説明する。なお、本明細書において、入込端末数とは、集計時間帯の少なくとも一部において集計対象とするエリア(セクタ)に滞在したユニークな移動機数を意味する。また、ここでの「ユニークな」とは、同一移動機の重複カウントを除いた後の数を意味する。
以下、取得部10で行われる入込端末数推計処理の一例を説明する。この一例においては、セクタ内の各移動機の推定滞在期間を用いて入込端末数を求める。まず、取得部10は、ユーザ識別子が同じ位置登録情報において、位置登録情報が取得された時刻が後述の拡張期間内にあり、セクタIDがある所定のセクタを示すセクタ内位置データ、及び位置登録情報が取得された時刻順に時系列に並べた場合に当該セクタ内位置データに隣接しセクタIDがある所定のセクタ外を示すセクタ外位置データに基づいて、移動機がある所定のセクタ内に滞在していた推定滞在期間を移動機毎に算出する。なお、上記の「拡張期間」は、ここでは一例として、集計時間帯を前後に所定の時間幅(例えば1時間)だけ拡張した期間、即ち、集計開始時刻t0から所定時間だけ過去に遡った時刻を開始点とし、集計終了時刻t1から所定時間だけ未来に進めた時刻を終了点とする時間帯を意味する。
図15に示すように、拡張期間内に取得された同一移動機に関する一連の位置登録情報を当該位置登録情報が取得された時刻順に時系列に並べ、位置登録情報のセクタIDがある所定のセクタを示すセクタ内位置データを黒丸で、セクタ内位置データに隣接しセクタIDがある所定のセクタ外を示すセクタ外位置データを白丸で、それぞれ示した場合、時系列上で最先のセクタ内位置データの取得時刻tと、該最先のセクタ内位置データに隣接するセクタ外位置データの取得時刻tとの按分点(一例として中点)に相当する時刻tinを推定滞在期間の開始時刻とする。同様に、時系列上で最後のセクタ内位置データの取得時刻tと、該最後のセクタ内位置データに隣接するセクタ外位置データの取得時刻tとの按分点(一例として中点)に相当する時刻toutを推定滞在期間の終了時刻とする。これにより、図15に長方形で示した期間、即ち、時刻tinから時刻toutまでの期間が、当該移動機の推定滞在期間として算出される。
そして、取得部10は、算出された推定滞在期間と集計時間帯とが重複する移動機を抽出する。図16には、拡張期間内に取得された移動機A〜Eに関する一連の位置登録情報を移動機毎に、位置登録情報の取得時刻順に時系列に横軸方向に並べた図を示しており、この図16では、セクタIDがある所定のセクタを示すセクタ内位置データを黒丸で、セクタIDがある所定のセクタ外を示すセクタ外位置データを白丸でそれぞれ示している。仮に、位置登録情報の取得時刻が集計時間帯(時刻t0〜時刻t1)内にあるセクタ内位置データにのみ着目すると、対応する移動機としては移動機C〜Eの3つが抽出される。
ところが、図16で長方形により示した推定滞在期間と集計時間帯(時刻t0〜時刻t1)とが重複する移動機としては、移動機A〜Eの5つが挙げられるため、取得部10は、移動機A〜Eの5つを抽出する。これにより、黒丸で示すセクタ内位置データにのみ着目した場合に除外される移動機A、Bについても、集計時間帯中のどこかである所定のセクタ内に滞在していたと推定されることとなる。この処理を、セクタ毎に順次行うことで、集計時間帯中のどこかで各セクタ内に滞在していた移動機をセクタ毎に抽出することができる。なお、上述した推定滞在期間を用いた方法は一例であり、他の方法を採用しても構わない。他の方法については後述する。
次に、取得部10は、抽出された移動機の数をセクタID毎にカウントし、得られたカウント数を集計時間帯内における各セクタ内の入込端末数として推計する。以上のように、取得部10においてセクタ毎の入込端末数を求める。
なお、前述した取得部10における推定滞在期間を用いた入込端末数の推計方法は一例であり、他の方法を採用しても構わない。別の例として、取得部10は、同一移動機に関する位置登録情報において、位置登録情報が取得された時刻が集計時間帯内にあるセクタ内位置データのうち、1つの位置登録情報(一例として取得時刻が最も早い位置登録情報)を抽出してもよい。このようにして移動機毎に1つの位置登録情報を抽出する場合、上述した推定滞在期間を用いた方法よりも抽出の精度がやや劣るものの、移動機毎の推定滞在期間を算出する必要がないため、低い処理負荷で移動機毎に1つの位置登録情報を抽出することができる。この場合、取得部10は、抽出された位置登録情報の数をカウントすることで入込端末数を推計すればよい。なお、移動機毎に1つの位置登録情報を抽出する場合、取得時刻が最も早い位置登録情報を抽出することは必須ではなく、他の1つの位置登録情報を抽出してもよい。例えば、取得時刻が最も遅い位置登録情報を抽出してもよいし、取得時刻が観測期間のちょうど真ん中の時点に最も近い位置登録情報を抽出してもよい。
なお、上記各実施形態では、移動機の位置情報として、GPS等により取得された位置情報や位置登録情報以外にも、位置を把握できる情報であれば利用できる。
本発明の他の適用分野としては、テレビ番組の視聴率調査、政党支持率調査、Webアンケート調査、及び国勢調査などが挙げられる。
1,1A…人口算出システム、10…取得部(取得手段)、11…第1算出部(人口算出手段)、12…第2算出部(人口算出手段)、13,13A…量子化部(秘匿化手段)、14,14A…出力部(出力手段)、15…データベース、16…第3算出部(人口算出手段)。

Claims (18)

  1. 対象エリアの秘匿化された人口を算出する人口算出システムであって、
    前記対象エリアを含む測定エリアにおいてサンプルとして測定された測定人数を取得する取得手段と、
    前記取得手段により取得された測定人数と、前記測定人数から前記測定エリア内の人口を求めるための拡大係数とに基づいて、該測定エリアの人口を算出し、算出された測定エリアの人口に基づいて前記対象エリアの人口を算出する人口算出手段と、
    前記人口算出手段による算出処理の際に、前記測定エリアの人口又は前記対象エリアの人口を、最小集計単位の基準値である秘匿基準と前記拡大係数との積である階級幅に基づいて秘匿化する秘匿化手段と、
    前記秘匿化手段による秘匿化処理を経て得られた前記対象エリアの人口を該対象エリアの秘匿化人口として出力する出力手段と、を備えることを特徴とする人口算出システム。
  2. 前記秘匿化手段が、前記人口算出手段により算出された対象エリアの人口を前記階級幅に基づいて秘匿化する、請求項1に記載の人口算出システム。
  3. 前記秘匿化手段が、前記人口算出手段により算出された測定エリアの人口を前記階級幅に基づいて秘匿化し、
    前記人口算出手段が、前記秘匿化手段により秘匿化された測定エリアの人口と、秘匿化前の前記測定エリアの人口に対する前記対象エリアの人口の比との積を、秘匿化処理を経て得られた前記対象エリアの人口として算出する、請求項1に記載の人口算出システム。
  4. 前記対象エリアと前記測定エリアとが同一であり、
    前記秘匿化手段が、前記人口算出手段により算出された測定エリアの人口を前記階級幅に基づいて秘匿化し、
    前記人口算出手段が、前記秘匿化手段により秘匿化された測定エリアの人口を、秘匿化処理を経て得られた前記対象エリアの人口として算出する、請求項1に記載の人口算出システム。
  5. 前記取得手段が、前記測定人数を複数の属性毎に取得し、
    前記人口算出手段が、前記複数の属性毎に設定された前記拡大係数に基づいて、前記測定エリアの人口及び前記対象エリアの人口を前記複数の属性毎に算出するとともに、前記複数の属性のうち少なくとも二つの属性についての前記測定エリアの人口の合計及び前記対象エリアの人口の合計を算出し、
    前記秘匿化手段が、前記測定エリアの合計人口又は前記対象エリアの合計人口を、前記秘匿基準と前記少なくとも二つの属性毎に設定された前記拡大係数のうち最大の拡大係数との積である前記階級幅に基づいて秘匿化する、請求項1〜4の何れか一項に記載の人口算出システム。
  6. 前記取得手段が、前記測定人数を複数の属性毎に取得し、
    前記人口算出手段が、前記複数の属性毎に設定された前記拡大係数に基づいて、前記測定エリアの人口及び前記対象エリアの人口を前記複数の属性毎に算出し、
    前記秘匿化手段が、前記測定エリアの人口又は前記対象エリアの人口を、前記複数の属性毎に前記秘匿基準と当該属性に設定された前記拡大係数との積である前記階級幅に基づいて秘匿化し、前記複数の属性全てについて足し合わせることで、秘匿化された前記測定エリアの合計人口又は秘匿化された前記対象エリアの合計人口を算出する、請求項1〜4の何れか一項に記載の人口算出システム。
  7. 前記秘匿化手段が、前記測定エリアの合計人口又は前記対象エリアの合計人口を、前記階級幅ではなく、前記階級幅とは異なる別の階級幅に基づいて秘匿化し、
    前記別の階級幅が、前記少なくとも二つの属性毎に設定された前記拡大係数を降順に並べた際の上位n個(nは前記秘匿基準)の拡大係数の和である、請求項5に記載の人口算出システム。
  8. 前記秘匿化手段が、前記階級幅に基づく秘匿化を実行する際に、人口を前記階級幅の整数倍に量子化する、請求項1〜6の何れか一項に記載の人口算出システム。
  9. 前記秘匿化手段が、人口を前記階級幅の整数倍に量子化することで人口を特定の階級に丸め込む際に、人口との差が最も小さい階級と人口との差が次に小さい階級とのうちどちらか一方の階級に、人口とそれぞれの階級との差に基づいて丸め込む、請求項8に記載の人口算出システム。
  10. 前記秘匿化手段が、前記階級幅に基づく秘匿化を実行する際に、前記階級幅未満の人口を切り捨てる、請求項1〜6の何れか一項に記載の人口算出システム。
  11. 前記秘匿化手段が、前記階級幅に基づく秘匿化を実行する際に、前記階級幅の大きさに応じた確率に基づいて人口をランダムな値にする、請求項1〜6の何れか一項に記載の人口算出システム。
  12. 前記秘匿化手段が、前記別の階級幅に基づく秘匿化を実行する際に、人口を前記別の階級幅の整数倍に量子化する、請求項7に記載の人口算出システム。
  13. 前記秘匿化手段が、人口を前記別の階級幅の整数倍に量子化することで人口を特定の階級に丸め込む際に、人口との差が最も小さい階級と人口との差が次に小さい階級とのうちどちらか一方の階級に、人口とそれぞれの階級との差に基づいて丸め込む、請求項12に記載の人口算出システム。
  14. 前記秘匿化手段が、前記別の階級幅に基づく秘匿化を実行する際に、前記別の階級幅未満の人口を切り捨てる、請求項7に記載の人口算出システム。
  15. 前記秘匿化手段が、前記別の階級幅に基づく秘匿化を実行する際に、前記別の階級幅の大きさに応じた確率に基づいて人口をランダムな値にする、請求項7に記載の人口算出システム。
  16. 前記取得手段が、所定期間に前記測定エリア内で移動機から登録された位置情報のそれぞれについて、前記移動機が前記位置情報を登録した時刻、当該移動機が一つ前の前記位置情報を登録した時刻、及び当該移動機が一つ後の前記位置情報を登録した時刻、のうち二つ以上を用いて特徴量を算出し、前記特徴量の総和に基づいて前記測定エリア内の前記移動機の数を推計し、前記測定人数として取得する、請求項1〜15の何れか一項に記載の人口算出システム。
  17. 前記取得手段が、移動機から登録された位置情報のうち、前記移動機が前記位置情報を登録した時刻が集計される集計時間帯内又は前記集計時間帯を所定幅拡張した拡張期間内にある前記位置情報に基づいて、前記集計時間帯の少なくとも一部において前記測定エリアに滞在したと推定される前記移動機、又は当該移動機にて前記集計時間帯又は前記拡張期間内に生成された1つの前記位置情報を抽出し、抽出された前記移動機の数又は前記位置情報の数に基づいて、前記集計時間帯内における前記測定エリア内の前記移動機の数を推計し、前記測定人数として取得する、請求項1〜15の何れか一項に記載の人口算出システム。
  18. 対象エリアの秘匿化された人口を算出する人口算出システムにより実行される人口算出方法であって、
    前記人口算出システムが、前記対象エリアを含む測定エリアにおいてサンプルとして測定された測定人数を取得する取得ステップと、
    前記人口算出システムが、前記取得ステップにおいて取得された測定人数と、前記測定人数から前記測定エリア内の人口を求めるための拡大係数とに基づいて、該測定エリアの人口を算出し、算出された測定エリアの人口に基づいて前記対象エリアの人口を算出する人口算出ステップと、
    前記人口算出システムが、前記人口算出ステップにおける算出処理の際に、前記測定エリアの人口又は前記対象エリアの人口を、最小集計単位の基準値である秘匿基準と前記拡大係数との積である階級幅に基づいて秘匿化する秘匿化ステップと、
    前記人口算出システムが、前記秘匿化ステップにおける秘匿化処理を経て得られた前記対象エリアの人口を該対象エリアの秘匿化人口として出力する出力ステップと、を含むことを特徴とする人口算出方法。
JP2012534045A 2010-09-15 2011-09-14 人口算出システム及び人口算出方法 Active JP5490908B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012534045A JP5490908B2 (ja) 2010-09-15 2011-09-14 人口算出システム及び人口算出方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010206883 2010-09-15
JP2010206883 2010-09-15
PCT/JP2011/071044 WO2012036222A1 (ja) 2010-09-15 2011-09-14 人口算出システム及び人口算出方法
JP2012534045A JP5490908B2 (ja) 2010-09-15 2011-09-14 人口算出システム及び人口算出方法

Publications (2)

Publication Number Publication Date
JPWO2012036222A1 JPWO2012036222A1 (ja) 2014-02-03
JP5490908B2 true JP5490908B2 (ja) 2014-05-14

Family

ID=45831678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012534045A Active JP5490908B2 (ja) 2010-09-15 2011-09-14 人口算出システム及び人口算出方法

Country Status (4)

Country Link
US (1) US20130090891A1 (ja)
EP (1) EP2618299A4 (ja)
JP (1) JP5490908B2 (ja)
WO (1) WO2012036222A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10200808B2 (en) * 2015-04-14 2019-02-05 At&T Mobility Ii Llc Anonymization of location datasets for travel studies
CN107766360B (zh) * 2016-08-17 2021-01-29 北京神州泰岳软件股份有限公司 一种视频热度预测方法和装置
US10772068B1 (en) 2019-05-20 2020-09-08 Here Global B.V. Estimation of mobile device count
JP7071948B2 (ja) * 2019-08-27 2022-05-19 Kddi株式会社 対象地域の不動産の稼働率を推定するプログラム、装置及び方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000046856A (ja) * 1998-07-24 2000-02-18 Kokusai Kogyo Co Ltd 移動体動向解析管理システム
JP2003122877A (ja) * 2001-10-09 2003-04-25 Oki Electric Ind Co Ltd 地域内人口算出システム
JP2009181469A (ja) * 2008-01-31 2009-08-13 Pioneer Electronic Corp 移動体端末装置、情報管理サーバ、情報制御方法、情報管理方法、情報収集プログラム、情報管理プログラム、および記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030373A (ja) 2001-07-10 2003-01-31 Fujitsu Ltd 人口分布解析装置
US7123918B1 (en) * 2001-08-20 2006-10-17 Verizon Services Corp. Methods and apparatus for extrapolating person and device counts

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000046856A (ja) * 1998-07-24 2000-02-18 Kokusai Kogyo Co Ltd 移動体動向解析管理システム
JP2003122877A (ja) * 2001-10-09 2003-04-25 Oki Electric Ind Co Ltd 地域内人口算出システム
JP2009181469A (ja) * 2008-01-31 2009-08-13 Pioneer Electronic Corp 移動体端末装置、情報管理サーバ、情報制御方法、情報管理方法、情報収集プログラム、情報管理プログラム、および記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6013055925; 瀧敦弘: '集計表におけるセル秘匿問題とその研究動向' 統計数理 第51巻第2号, 2003, p.337-350 *

Also Published As

Publication number Publication date
EP2618299A1 (en) 2013-07-24
JPWO2012036222A1 (ja) 2014-02-03
US20130090891A1 (en) 2013-04-11
EP2618299A4 (en) 2014-08-27
WO2012036222A1 (ja) 2012-03-22

Similar Documents

Publication Publication Date Title
Xu et al. Human mobility and socioeconomic status: Analysis of Singapore and Boston
Csáji et al. Exploring the mobility of mobile phone users
KR102121361B1 (ko) 사용자가 위치되는 지리적 위치의 유형을 식별하기 위한 방법 및 디바이스
JP5627702B2 (ja) 位置情報集計装置及び位置情報集計方法
JP5406981B2 (ja) 統計情報生成システム及び統計情報生成方法
Huang et al. Predicting human mobility with activity changes
KR20120047285A (ko) 위치 정보 분석 장치 및 위치 정보 분석 방법
US11727419B2 (en) Realtime busyness for places
JP5490908B2 (ja) 人口算出システム及び人口算出方法
Bakker et al. Measuring fine-grained multidimensional integration using mobile phone metadata: the case of Syrian refugees in Turkey
Laczko Improving Data on International Migration and Development: Towards a global action plan
CN111148018A (zh) 基于通信数据识别定位区域价值的方法和装置
US20220007133A1 (en) System and method for identifying associated subjects from location histories
Alfeo et al. Assessing refugees’ integration via spatio-temporal similarities of mobility and calling behaviors
CN113360790A (zh) 信息推荐方法、装置及电子设备
Teixeira et al. On the predictability of a user's next check-in using data from different social networks
JP2012054921A (ja) 移動機分布算出システム及び移動機分布算出方法
Arai et al. Understanding the unobservable population in call detail records through analysis of mobile phone user calling behavior: A case study of Greater Dhaka in Bangladesh
Bekhor et al. Investigation of travel patterns using passive cellular phone data
JP5945476B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP5806081B2 (ja) レコメンド装置、レコメンドシステム、レコメンド方法およびプログラム
Li et al. Using call detail records to determine mobility patterns of different socio-demographic groups in the western area of Sierra Leone during early COVID-19 crisis
JP2022001999A (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN109739401B (zh) 一种用户特征数据管理系统及其界面显示方法及相关设备
Zheleva et al. Community detection in cellular network traces

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140226

R150 Certificate of patent or registration of utility model

Ref document number: 5490908

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250