JP6517098B2

JP6517098B2 - 信号機制御システム及び信号機制御方法

Info

Publication number: JP6517098B2
Application number: JP2015135109A
Authority: JP
Inventors: 高行秋山
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2015-07-06
Filing date: 2015-07-06
Publication date: 2019-05-22
Anticipated expiration: 2035-07-06
Also published as: JP2017016554A

Description

本発明は、交差点における交通信号の制御に関する。

交通信号を制御する技術として、例えば特開平８−２２１６９０号公報（特許文献１）及び特開２０１４−１９１７２９号公報（特許文献２）に記載された技術がある。

特許文献１には、「交差点の上流側で走行車両の通過時刻と速度を連続的に検出し各流入路毎に車群が構成される場合を検出し、主道路側に車群が存在する場合に該車群の交差点への予測到着時刻を求め、規定時間の青現示制御では交差点にて停止させられるかを判定し、停止すると判定された場合には該車群が停止した場合の主道路側交通流の遅れ時間（Ｄｍ）を予測し、一方、前記主道路側車群の交差点通過に必要な青延長時間値を求めてこの時間値だけ青現示を延長した場合の従道路側交通流の遅れ時間（Ｄｓ）を予測し、両遅れ時間（Ｄｍ，Ｄｓ）を比較して、（Ｄｍ）＞（Ｄｓ）であれば、前記青延長時間値だけ青現示延長を設定する。」と記載されている。

特許文献２には、「交通信号制御システムでは、交差点の信号制御を行う信号制御機が、交通量や占有率、時間帯等に応じて制御パターンを変更するといった交通感応制御を行うとともに、ある流入路の車両及び歩行者がともに赤表示となる所定の赤短縮階梯において、車群の有無に応じて、当該階梯の時間（標準時間）を短縮する。」と記載されている。

特開平８−２２１６９０号公報特開２０１４−１９１７２９号公報

一般に、交差点の交通量にはその交差点に固有の傾向（例えば特定の車線が混雑しやすいなど）が見られることが多いが、実際にそれぞれの時点で観測される交通量は偶発的な要因によって左右されやすく、それぞれの時点の交通量に合わせて信号機を制御したとしても、長期的にはそのような制御が最適であるとは限らない。上記の特許文献に記載された発明によれば、それぞれの時点の実際の交通量に応じて信号機が制御されるが、ある程度の長さの期間にわたって使用されたときによい結果を生じる信号機の制御パラメータを特定することができない。

上記の課題を解決するために、本発明の一形態は、プロセッサと、記憶装置と、を有する信号機制御システムであって、前記記憶装置は、交差点の信号機が各進行方向に対応する各車線グループの車両に向けて青信号を出力する時間を含む複数のパラメータセットと、前記各パラメータセットに基づいて前記信号機が制御された場合の前記交差点における渋滞の発生しにくさを示す指標と、を保持し、前記プロセッサは、前記指標に基づいて、確率的に前記複数のパラメータセットの一つを選択し、前記選択したパラメータセットに基づいて前記信号機が制御されているときの前記交差点における交通量の計測データを取得し、前記交通量の計測データに基づいて、前記選択したパラメータセットの前記指標を更新することを特徴とする。

本発明の一形態によれば、所定の割合で探索と活用を繰り返すことで、それまでの探索の成果を活用しながら、ある程度の長さの期間にわたって使用されたときによい結果を生じる信号機の制御パラメータを得ることができる。上記した以外の課題、構成、および効果は、以下の実施形態の説明によって明らかにされる。

本発明の実施例１の信号機制御システムの構成を示すブロック図である。本発明の実施例１の信号機制御システムが保持する制御パラメータの説明図である。本発明の実施例１の信号機制御システムが保持する制御パラメータの説明図である。本発明の実施例１の信号機制御システムによる信号時間の出力イメージの説明図である。本発明の実施例１の信号機制御システムが保持するプローブ交通情報の説明図である。本発明の実施例１の信号機制御システムが保持する道路ネットワーク１３５の説明図である。本発明の実施例１の信号機制御システムが保持する報酬データの説明図である。本発明の実施例１の信号機制御システムが実行する処理の第１の例を示すフローチャートである。本発明の実施例１の信号機制御システムが実行する処理の第２の例を示すフローチャートである。本発明の実施例１の信号機制御システムが実行する処理の第３の例を示すフローチャートである。本発明の実施例２の信号機制御システムの構成を示すブロック図である。本発明の実施例２の信号機制御システムが保持する交通量計測データの説明図である。本発明の実施例２の信号機制御システムが制御パラメータを生成する処理を示すフローチャートである。本発明の実施例２の信号機制御システムが制御パラメータの更新の必要性を判断する処理を示すフローチャートである。本発明の実施例３の信号機制御システムの構成を示すブロック図である。本発明の実施例３の信号機制御システムが保持する制御パラメータの説明図である。本発明の実施例４の信号機制御システムの構成を示すブロック図である。本発明の実施例４の信号機制御システムが保持する報酬データの説明図である。

以下、図面を参照して実施例を説明する。

図１は、本発明の実施例１の信号機制御システムの構成を示すブロック図である。

本実施例の信号機制御システム１００は、相互に接続されたプロセッサ１１０、メモリ１２０及び補助記憶装置１３０を有する計算機システムである。

プロセッサ１１０は、メモリ１２０に格納されたプログラムを実行することによって、後述する信号機制御システム１００の種々の機能を実現する。メモリ１２０は、いわゆる主記憶装置であり、例えばＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような比較的高速の記憶装置によって構成される。本実施例のメモリ１２０は、プロセッサ１１０によって実行されるプログラムである制御パラメータ選択プログラム１２１及び報酬更新プログラム１２２を格納する。補助記憶装置１３０は、例えばハードディスクドライブのような比較的大容量の記憶装置であり、プロセッサ１１０がプログラムに従って実行する処理のために参照されるデータ及び処理の結果として生成されるデータ等を格納する。本実施例の補助記憶装置１３０は、制御パラメータ１３１、報酬データ１３２、パラメータ選択確率１３３、プローブ交通情報１３４及び道路ネットワーク１３５を格納する。なお、必要に応じて補助記憶装置１３０内のデータの少なくとも一部がメモリ１２０にコピーされてもよい。

図２は、本発明の実施例１の信号機制御システムが制御する信号機が設置される交差点の説明図である。

図２には、例として、４方向からの四つの道路を接続する十字路型の交差点を俯瞰する平面図を示す。この例に示す道路は右側通行であり、それぞれの道路は交差点に進入する車両が通行可能な三つの車線グループを含む。それぞれの車線は交差点に進入した後の車両の進行方向に対応する。図２に示したｉ＝１〜１２は、それぞれの車線グループを識別する車線グループ番号である。例えば、図２の上方を北とすると、北から交差点に接続される道路は、交差点に進入して左折する（すなわち東に進む）車両が通行する車線グループ（ｉ＝１）と、直進する（すなわち南に進む）車両が通行する車線グループ（ｉ＝６）と、右折する（すなわち西に進む）車両が通行する車線グループ（ｉ＝９）と、を含む。他の道路も同様に進行方向に対応する三つの車線グループを含む。本実施例では、それぞれの車線グループを走行する車両に進行又は停止を指示する信号機（交通信号機）が設置される。

なお、図２には、説明を簡単にするために、各車線グループが一つ以上の実際の車線を含む交差点を示す。すなわち、各道路は少なくとも交差点の付近で当該交差点に進入する車両が通行可能な三つ以上の車線を含んでおり、それぞれの車線がいずれかの車線グループに対応し、一つの車線が二つ以上の車線グループに対応することはなく、また、各車線と車線グループとの対応は固定されている。しかし、このような交差点は一例であり、それ以外の種類の交差点、例えば一つの実際の車線が複数の車線グループに対応する交差点、又は、実際の車線と車線グループとの対応が可変の交差点にも本発明を適用することができる。後者の一例は実施例３にて後述する。前者の一例は、片側１車線の道路が接続された交差点であり、このような交差点では、直進、左折又は右折するいずれの車も同じ車線を走行する。また、進行方向が二つのみの三叉路、又は、四つ以上の進行方向が存在する交差点（例えば五叉路）にも本発明を適用することができる。

図３は、本発明の実施例１の信号機制御システムが保持する制御パラメータ１３１の説明図である。

制御パラメータ１３１は、各車線グループの車両に向けた信号の出力を制御するためのパラメータの複数のセットからなる。制御パラメータ１３１の１行に一つのパラメータセットが登録される。一つのパラメータセットは、一つの交差点の各車線グループの車両に向けた信号の出力を制御するためのパラメータを含む。後述するように、制御パラメータ１３１に含まれる複数のパラメータセットのいずれかが選択され、交差点の信号機に適用される。

図３に例示する制御パラメータ１３１は、パラメータセット番号１〜１０で識別される１０個のパラメータセットを含む。各行の各列には、各車線グループ（ｉ＝１〜８）の車両に向けた信号の出力を制御するパラメータ、具体的には、信号機が出力する信号の１サイクルにおける、車両の進行を許可する青信号の出力時間（秒）が登録される。この青信号は、特定の方向への進行のみを許可する矢印の信号を含んでもよい。図３には、車両がいつでも右折できる交差点の信号機の制御パラメータの例を示す。このため、ｉ＝９〜１２の車線グループに対する青信号の出力時間は登録されていない。

図３の例において、パラメータセット番号「１」で識別されるパラメータセット（以下、これを単に「パラメータセット１」とも記載する。他のパラメータセット番号で識別されるパラメータセットについても同様）が適用された場合、交差点に設置された信号機は、西から進入して直進する車両のための車線（ｉ＝４）及び東から進入して直進する車両のための車線（ｉ＝８）に向けて青信号を２０秒間出力し、それ以外の時間は車両の停止を指示する黄信号又は車両の進行を禁止する赤信号を出力する。西から進入して左折する車両のための車線（ｉ＝７）及び東から進入して左折する車両のための車線（ｉ＝３）に向けて青信号を４秒間出力し、それ以外の時間は黄信号又は赤信号を出力する。北から進入して直進する車両のための車線（ｉ＝６）及び南から進入して直進する車両のための車線（ｉ＝２）に向けて青信号を７秒間出力し、それ以外の時間は黄信号又は赤信号を出力する。北から進入して左折する車両のための車線（ｉ＝１）及び南から進入して左折する車両のための車線（ｉ＝５）に向けて青信号を４秒間出力し、それ以外の時間は黄信号又は赤信号を出力する。さらに、ある所定の時間、信号機は全ての車線に向けて赤信号を出力する。

図３には１０個のパラメータセットを示すが、実際には制御パラメータ１３１がさらに多くのパラメータセットを含んでもよい。また、一つの交差点に適用されるパラメータセットとして、例えば１日の中の時間帯、曜日、又は季節等に応じてそれぞれ複数のパラメータセットが用意されてもよい。これによって、例えば交差点の混雑の態様に応じて適切なパラメータセットを使用することができる。

なお、制御パラメータ１３１に含まれる複数のパラメータセットは、いかなる方法で設定されてもよい。例えば、ユーザが経験に基づいて妥当と考えられる複数のパラメータセットを生成して信号機制御システム１００に入力してもよいし、交差点で実測された交通量に基づいて妥当と考えられる複数のパラメータセットを信号機制御システム１００が自動的に生成してもよい。後者の一例については後述する（実施例２参照）。

図４は、本発明の実施例１の信号機制御システムによる信号時間の出力イメージの説明図である。

図４の例では、交差点の信号機が各車線グループに出力する１サイクル分の信号が図示される。具体的には、ｉ＝４及び８の車線グループに所定の時間（例えば２０秒間）青信号が出力される（フェーズ１）。その後、全ての車線グループに所定の時間黄信号又は赤信号が出力される。その後、ｉ＝３及び７の車線グループに所定の時間（例えば４秒間）青信号が出力される（フェーズ２）。その後、全ての車線グループに所定の時間黄信号又は赤信号が出力される。その後、ｉ＝２及び６の車線グループに所定の時間（例えば７秒間）青信号が出力される（フェーズ３）。その後、全ての車線グループに所定の時間黄信号又は赤信号が出力される。その後、ｉ＝１及び５の車線グループに所定の時間（例えば４秒間）青信号が出力される（フェーズ４）。その後、全ての車線グループに所定の時間黄信号又は赤信号が出力される。図示されたそれぞれのフェーズの白抜き部分が青信号時間、網掛け部分が黄信号時間又は赤信号時間である。信号機は、適用されたパラメータセットに従って上記のフェーズを繰り返すことで、所定のパターンの交通信号を出力する。

図３には、各車線グループに対応する青信号時間のみが表示されているが、実際には、各パラメータセットは、各車線グループ向けの青信号の表示時間の間の前後関係を特定する情報と、各車線グループ向けの青信号の表示時間に挟まれた全車線グループ向けの黄信号及び赤信号の表示時間を特定する情報と、をさらに含む。

例えば信号機制御システム１００はプロセッサ１１０に接続された表示装置（図示省略）をさらに有し、表示装置が、制御パラメータ１３１に基づいて、図４に示すような各車線グループの信号時間のグラフと、それぞれの車線グループの位置関係を示す図と、を表示してもよい。信号機制御システム１００のユーザは、これらを参照してパラメータセットに基づく信号機の動作を容易に把握することができる。さらに、ユーザがこれらの図を参照し、入力装置を操作して各車線の信号時間等を入力することによって、新たなパラメータセットを設定することができる。

図５は、本発明の実施例１の信号機制御システムが保持するプローブ交通情報１３４の説明図である。

プローブ交通情報１３４は、道路上の実際の交通量を示す情報である。図５の例では、プローブ交通情報１３４の各行が、各時刻に各リンク（後述）を走行している車両の旅行速度とそのリンクの法定速度とを示す情報を含む。具体的には、プローブ交通情報１３４は、時刻を示す時刻５０１、リンクを識別するリンク５０２、各時刻に各リンクを走行している車両の速度を示す旅行速度５０３及び当該リンクの法定速度を示す法定速度５０４を含む。

ここで、旅行速度とは、実際に計測された車両の走行速度である。旅行速度はいかなる方法で計測してもよいが、一例を示せば、各車両から収集された時刻ごとの各車両の位置情報に基づいて算出してもよい。

図６は、本発明の実施例１の信号機制御システムが保持する道路ネットワーク１３５の説明図である。

道路ネットワーク１３５は、実際の道路及び交差点の配置を特定する情報として、リンク情報６００（図６（Ａ））及びノード情報６１０（図６（Ｂ））を含む。リンクが交差点間を接続する道路の区間に対応し、ノードが交差点に対応する。リンク情報６００は、各リンクを識別するリンク６０１、各リンクの始点及び終点を示す始点ノード６０２及び終点ノード６０３、並びに、各リンクの長さを示す長さ６０４を含む。ノード情報６１０は、各ノードを識別するノード６１１及び各ノードに接続される一つ以上のリンクを識別する接続リンク６１２を含む。

図７は、本発明の実施例１の信号機制御システムが保持する報酬データ１３２の説明図である。

本実施例において報酬とは、パラメータセットの適切性を評価する指標である。本実施例では、それを適用することによって周囲の道路に発生する渋滞の程度が小さくなるパラメータであるほど適切なパラメータであるとの考え方に基づき、周囲の道路の渋滞の程度が小さいほど報酬が高くなるように、報酬が設定される。すなわち、あるパラメータセットの報酬が高いことは、そのパラメータセットが適用された場合に渋滞が発生しにくいことを示す。渋滞の程度を示す指標として、例えば渋滞の長さ、又は、単位時間に通過する車両の台数等、種々の指標を使用できるが、本実施例では、遅れ時間を使用する。

ここで、遅れ時間とは、交差点（ノード）に接続された道路（リンク）を走行して当該交差点に進入する車両が、当該リンクを法定速度で通過した場合の所要時間と、実測された旅行速度で通過した場合の所要時間との差である。この遅れ時間は、プローブ交通情報１３４に含まれる各時刻の各リンクにおける旅行速度５０３、法定速度５０４及び道路ネットワーク１３５に含まれる各リンクの長さに基づいて計算することができる。例えば、あるパラメータセットがある交差点に所定の時間にわたって適用された場合、その時間内にいずれかの道路からその交差点に進入したいくつかの車両（望ましくは全車両）の遅れ時間の平均値をその時間における報酬として計算してもよい。

遅れ時間が報酬として使用される場合、遅れ時間が小さいほど報酬が高い（すなわち発生しにくい）。一方、渋滞の長さ（例えば所定の速度以下で走行する車両の列の長さ）が使用される場合、渋滞の長さが短いほど報酬が高く、単位時間当たりの車両の通過台数が使用される場合、台数が多いほど報酬が高い。

後述するように、本実施例では、各パラメータセットが一つの交差点に複数回適用される（図８〜図１０等参照）。これまでに適用されたことのあるパラメータセットが再び選択され、交差点に適用された場合、今回の適用時の遅れ時間が反映されるように、これまでの当該パラメータセットの適用時に計算された報酬が更新される。具体的には、例えば各パラメータセットの報酬は、それぞれの回に計測された遅れ時間の平均値であってもよい。例えば、あるパラメータセットがこれまでにＮ回適用され、それぞれの回に計測された遅れ時間から計算された報酬（すなわちＮ回の遅れ時間の平均値）がＲｅｗｏｒｄ_ｏｌｄである場合において、そのパラメータセットがＮ＋１回目の適用をされ、その時の遅れ時間がＲｅｗｏｒｄ_{ｍｅａｓｕｒｅｄ}である場合、そのパラメータセットの報酬は、下記の式（１）によって、Ｎ＋１回の遅れ時間の平均値であるＲｅｗｏｒｄ_ｎｅｗに更新される。

図７には、図２の交差点に図３のパラメータセットが適用された場合の報酬の一例を示す。例えばパラメータセット１の報酬が「６５」、パラメータセット１０の報酬が「６７」であり、パラメータセット７の報酬「３０」が最小である。これは、これまでの実績において、パラメータセット７が適用された場合に最も渋滞が発生しにくいこと、言い換えるとパラメータセット７の適切性が最も高いことを示している。報酬として車両の列の長さが使用された場合も同様に報酬の値が小さいほど渋滞が発生しにくいことを示す。一方、報酬として車両の通過台数を使用した場合には、報酬の値が大きいほど渋滞が発生しにくいことを示す。

ここで、パラメータセット６が１０回適用された結果の報酬が「４５」である場合において、当該パラメータセット６が１１回目の適用をされ、その時の遅れ時間（すなわち図２の交差点に接続される各道路の遅れ時間の合計）が１００秒であった場合、パラメータセット６の報酬は、上記の式（１）によって「５０」に更新される。

次に、本実施例の信号機制御システム１００が実行する処理について、フローチャートを参照して説明する。信号機制御システム１００は、所定のタイミングで、交差点に対応する複数のパラメータセットの一つを選択してそれを適用し、そのときの報酬を計算して、報酬データを更新する。

図８は、本発明の実施例１の信号機制御システムが実行する処理の第１の例を示すフローチャートである。

信号機制御システム１００は、計算を開始すると（ステップ８０１）、乱数を発生させる（ステップ８０２）。これによって、０以上１未満の値がランダムに発生する。

次に、信号機制御システム１００は、発生した乱数がパラメータ選択確率εより大きいか否かを判定する（ステップ８０３）。パラメータ選択確率εは、予めユーザによって設定され、必要に応じて変更することができる（ステップ８０４）。

発生した乱数がパラメータ選択確率εより大きい場合（ステップ８０３：Ｙｅｓ）、信号機制御システム１００は、制御パラメータ１３１に含まれる複数のパラメータセットの一つをランダムに選択する（ステップ８０５）。一方、発生した乱数がパラメータ選択確率ε以下である場合（ステップ８０３：Ｎｏ）、信号機制御システム１００は、複数のパラメータセットのうち、報酬が最も高いものを選択する（ステップ８０６）。言い換えると、信号機制御システム１００は、パラメータ選択確率εで複数のパラメータセットのうち報酬が最も高いものを選択し（ステップ８０６）、残りの確率（すなわち１−ε）で複数のパラメータセットの一つをランダムに選択する（ステップ８０５）。

次に、信号機制御システム１００は、ステップ８０５又は８０６で選択されたパラメータセットを交差点の信号機に適用して、それによって信号機が制御されている間の交通量を所定の時間計測し、それに基づいて渋滞の程度を示す指標（例えば遅れ時間）を計算する（ステップ８０７）。

次に、信号機制御システム１００は、計測されたデータに基づいて報酬データ１３２を更新する（ステップ８０８）。この更新は、図７を参照して説明した通りである。

その後、処理はステップ８０２に戻り、それ以降の処理が繰り返される。例えば、ステップ８０７で１日分の遅れ時間が計測された場合、その計測結果に基づいてステップ８０８において報酬データ１３２が更新される。その後、毎日ステップ８０２〜８０８が繰り返され、１日ごとに報酬データ１３２が更新される。

上記のアルゴリズムは、バンディットアルゴリズムのうちε−ｇｒｅｅｄｙアルゴリズムとして知られているものである。上記の例において、ステップ８０３でＹｅｓと判定された場合に実行されるステップ８０５、８０７及び８０８は、バンディットアルゴリズムの「探索」に相当する。これは、複数のパラメータセットから最適なものを探すために、いずれかのパラメータセットを選択してそれに基づいて信号機を制御し、その結果に基づいてパラメータセットの適切性を評価する処理である。一方、ステップ８０３でＮｏと判定された場合に実行されるステップ８０６、８０７及び８０８は、バンディットアルゴリズムの「活用」に相当する。これは、その時点で最適と思われるパラメータセットを選択してそれに基づいて信号機を制御する処理である。活用の場合もその結果に基づいてパラメータセットの適切性が評価される。評価の結果は報酬として蓄積される。パラメータ選択確率εは、活用の実行の割合を決定するものであり、その値が大きいほど活用が行われやすくなる。上記のように所定の割合で活用を行い、残りの割合で探索を行い、報酬を更新してゆくことによって、それぞれの時点までの探索の成果を享受しながら、より適切なパラメータセットを探すことができる。

なお、ステップ８０７における所定の時間とは、上記のように１日であってもよいが、１日より長い時間又は短い時間であってもよい。例えば、ステップ８０７で１週間分の遅れ時間が計測される場合、１週間ごとにステップ８０２〜８０３が繰り返され、報酬データ１３２が更新される。あるいは、ステップ８０７で、例えば朝の通勤時間帯、昼間の時間帯、夕方の通勤時間帯、夜間から早朝の時間帯、のように１日を複数に区切った時間帯の遅れ時間が計測される場合、その時間帯ごとにステップ８０２〜８０３が繰り返され、報酬データ１３２が更新される。

一つの交差点における交通量（例えば、それぞれの車線における混雑の程度）は、時期（例えば季節、曜日、又は１日の中の時間帯等）によって異なる場合がある。このような場合には、それぞれの時期によって、渋滞を最小化するために最適なパラメータセットが異なると考えられる。このため、信号機制御システム１００は、時期ごとに複数のパラメータセットと報酬データ１３２を用意して、ステップ８０２〜８０８を繰り返し実行するときに、それらが実行される時期に対応するパラメータセットと報酬データ１３２を使用してもよい。あるいは、複数のパラメータセットは時期によらず共通のものを使用し、報酬データ１３２のみを時期ごとに用意してもよい。その結果、「探索」によってそれぞれの時期に適していると評価されたパラメータセットが、「活用」において使用される。

具体的には、報酬データ１３２のみが時期ごとに用意される場合、ステップ８０６において、この処理が実行されている時期に対応する報酬データ１３２が参照され、ステップ８０８において、その時期に対応する報酬データ１３２が更新される。さらにパラメータセットも時期ごとに用意される場合には、ステップ８０５及び８０６においてその時期に対応するパラメータセットが参照される。これによって、それぞれの時期に最適な制御パラメータを特定することができる。

図８にはバンディットアルゴリズムのうちε−ｇｒｅｅｄｙアルゴリズムの例を示したが、バンディットアルゴリズムとしては他にｓｏｆｔｍａｘアルゴリズム及びＵＣＢ（ＵｐｐｅｒＣｏｎｆｉｄｅｎｃｅＢｏｕｎｄ）アルゴリズムが知られている。これらの例について、それぞれ図９及び図１０を参照して説明する。

図９は、本発明の実施例１の信号機制御システムが実行する処理の第２の例を示すフローチャートである。

図９のステップ９０１〜９０４及び９０６〜９０８は、それぞれ図８のステップ８０１〜８０４及び８０６〜８０７と同様であるため、説明を省略する。

ステップ９０３において、発生した乱数がパラメータ選択確率εより大きいと判定された場合、信号機制御システム１００は、報酬に依存した確率で、複数のパラメータセットの一つを選択する。図９の例では、各パラメータセットの選択確率は、次の式（２）によって計算される。

ここで、Ｒｅｗａｒｄは各パラメータセットの報酬である。ただし、図７に示す遅れ時間に基づく報酬のように、数値が小さいほど報酬が高いと評価される場合には、例えばその数値の逆数のように、報酬の高さに応じて大きくなる数値をＲｅｗａｒｄとして使用する必要がある。また、Ｔはユーザが設定する値であり、これが大きいほど各パラメータセットの選択確率が均等に近く（すなわちランダムに近く）なる。また、式（２）の分母は全パラメータセットについての総和である。これによって、ステップ９０５では、報酬の高さによらずどのパラメータセットも選択される可能性はあるが、報酬が高いパラメータセットほど選択されやすい。その結果、これまでの探索によって適切である可能性が低いと評価されたパラメータセットが選択されにくくなるため、高速に最適なパラメータセットを探索できることが期待される。

図８の場合と同様に、図９の処理においても、時期に対応する報酬データ１３２及びパラメータセットを使用することができる。例えば、報酬データ１３２のみが時期ごとに用意される場合、ステップ９０５及び９０６において、この処理が実行されている時期に対応する報酬データ１３２が参照され、ステップ９０８において、その時期に対応する報酬データ１３２が更新される。さらにパラメータセットも時期ごとに用意される場合には、ステップ９０５及び９０６においてその時期に対応するパラメータセットが参照される。

図１０は、本発明の実施例１の信号機制御システムが実行する処理の第３の例を示すフローチャートである。

信号機制御システム１００は、計算を開始すると（ステップ１００１）、式（３）に示すパラメータ選択確率に基づいて複数のパラメータセットの一つを選択する（ステップ１００２）。

ここで、Ｒｅｗａｒｄは、図９の例と同様に、各パラメータセットの報酬である。ｃｏｕｎｔは、各パラメータセットがこれまでに選択され、適用された回数である。ｔｏｔａｌＣｏｕｎｔは、全パラメータセットのｃｏｕｎｔの合計値である。式（３）のパラメータ選択確率を用いることによって、報酬が高いパラメータセットほど選択されやすく、かつ、これまでに選択された回数が少ないパラメータセットほど選択されやすくなる。すなわち、二つのパラメータセットがこれまでに選択された回数が同じであれば、それらのうち報酬が高い方が選択されやすい。一方、二つのパラメータセットの報酬が同じであれば、それらのうちこれまでに選択された回数が少ないパラメータセットが選択されやすい。

パラメータセットが選択され、交差点の信号機に適用された結果、発生した渋滞の程度が大きければ、そのパラメータセットには低い報酬が与えられる。しかし、長期的には適切なパラメータセットであっても、何らかの突発的な要因によって大きな渋滞を発生させてしまう場合があり、それによって不当に低い報酬が与えられたために以後の探索において選択されにくくなると、その不当な評価が是正されにくい。しかし、図１０のＵＣＢアルゴリズムによれば、選択回数が少ないことに起因する不当な評価が是正されやすい。また、交通量が変動したことによってこれまで最適だったパラメータセットが最適でなくなった場合に、新しい最適なパラメータセットを発見しやすい。

ステップ１００３及び１００４は、それぞれ図８のステップ８０７及び８０８と同様であるため、説明を省略する。なお、図１０の処理では、ステップ１００２で最も報酬の高いパラメータセットが選択された場合のステップ１００３及び１００４が「活用」、それ以外のパラメータセットが選択された場合のステップ１００３及び１００４が「探索」に相当する。

図８の場合と同様に、図１０の処理においても、時期に対応する報酬データ１３２及びパラメータセットを使用することができる。例えば、報酬データ１３２のみが時期ごとに用意される場合、ステップ１００２において、この処理が実行されている時期に対応する報酬データ１３２が参照され、ステップ１００４において、その時期に対応する報酬データ１３２が更新される。さらにパラメータセットも時期ごとに用意される場合には、ステップ１００２においてその時期に対応するパラメータセットが参照される。

以上の処理のうち、図８のステップ８０２〜８０７、図９のステップ９０２〜９０７、及び図１０のステップ１００２〜１００３は、プロセッサ１１０が制御パラメータ選択プログラム１２１に従って実行し、図８のステップ８０８、図９のステップ９０８及び図１０のステップ１００４は、プロセッサ１１０が報酬更新プログラム１２２に従って実行する。

以上の本発明の実施例１によれば、交差点の信号機を制御するための制御パラメータのセットを予め複数用意し、バンディットアルゴリズムの探索及び活用を繰り返す。具体的には、それらのパラメータセットの適切性（例えば渋滞の起きにくさ）を示す指標に基づいていずれかのパラメータセットを確率的に選択し（図８のステップ８０３〜８０６、図９のステップ９０３〜９０６、図１０のステップ１００２）、それを交差点の信号機に適用して渋滞度を評価し（図８のステップ８０７、図９のステップ９０７、図１０のステップ１００３）、その結果に基づいてパラメータセットの適切性を示す指標を更新する（図８のステップ８０８、図９のステップ９０８、図１０のステップ１００４）。これによって、これまでに行われた探索の成果を活用しながら、ある程度の期間にわたって使用されたときによい結果が得られるパラメータセットを探索することができる。

次に、本発明の実施例２について、図面を参照して説明する。以下に説明する相違点を除き、実施例２のシステムの各部は、図１〜図１０に示された実施例１の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。

図１１は、本発明の実施例２の信号機制御システムの構成を示すブロック図である。

本実施例の信号機制御システム１１００は、相互に接続されたプロセッサ１１０、メモリ１１２０及び補助記憶装置１１３０を有する。メモリ１１２０は、実施例１のメモリ１２０と同様の主記憶装置であるが、制御パラメータ選択プログラム１２１及び報酬更新プログラム１２２に加えて、制御パラメータ生成プログラム１１２１及び制御パラメータ更新プログラム１１２２を格納する。補助記憶装置１１３０は、実施例１の補助記憶装置１３０と同様の記憶装置であるが、実施例１と同様の制御パラメータ１３１〜道路ネットワーク１３５に加えて、交通量計測データ１１３１を格納する。また、実施例２の制御パラメータ１３１は、制御パラメータ生成プログラムによって生成される。

図１２は、本発明の実施例２の信号機制御システムが保持する交通量計測データ１１３１の説明図である。

交通量計測データ１１３１には、交差点の各車線グループから各方向へ進行する車両の数を示すデータが含まれる。例えば、所定の時間（Ｔｉｍｅｉｎｔｅｒｖａｌ）ごとに、対象の交差点に東（Ｅａｓｔ）西（Ｗｅｓｔ）南（Ｓｏｕｔｈ）北（Ｎｏｒｔｈ）それぞれの方向から接続される道路の、左折（Ｌｅｆｔ）、直進（Ｓｔｒａｉｇｈｔ）及び右折（Ｒｉｇｈｔ）それぞれに対応する車線グループを通過した車両（Ｃａｒ）の数が計測され、交通量計測データ１１３１に登録される。車両の種類（Ｍｏｔｏｒｃｙｃｌｅｔｙｐｅ）ごとに数が計測されてもよい。図１２の例では、７：３０から７：４５までの１５分間に、東から交差点に接続される道路の左折用の車線グループ（図２の例ではｉ＝３に相当）を走行した車両の数が６８台であり、そのうち中型車（Ｍｉｄ−ｓｉｚｅｃａｒ）の数は０台、大型車（Ｌａｒｇｅｓｃａｌｅｖｅｈｉｃｌｅｓ）の数は８台である。

図１３は、本発明の実施例２の信号機制御システムが制御パラメータを生成する処理を示すフローチャートである。

図１３に示す処理は、プロセッサ１１０が制御パラメータ生成プログラム１１２１を実行することによって実現される。信号機制御システム１１００は、制御パラメータ生成処理を開始すると（ステップ１３０１）、交通量計測データ１１３１及び正規分布に基づいて、交通量を発生させる（ステップ１３０２）。具体的には、信号機制御システム１１００は、図１２に示すように計測された各車線グループの交通量を正規分布でモデル化し、その分布に従う交通量（例えば１５分当たりに通過する車両の数）を発生させる。後述するように、生成するパラメータセットの数をＮとすると、ステップ１３０２はＮ回繰り返し実行され、各車線グループについてＮ個の異なる交通量（すなわち各車線グループの交通量のＮ個の組合せ）が得られる。それらの交通量の分布は、交通量計測データ１１３１に基づく各車線グループの交通量の正規分布と同じになる。

次に、信号機制御システム１１００は、ステップ１３０２で発生させた各車線グループの交通量に基づいて、以下の制約条件を満たすように、各車線グループの青信号時間を発生させる（ステップ１３０３）。以下、制約条件について説明する。

信号機制御システム１１００は、最初に、式（４）によって、車線グループｉにおける飽和交通流率（ｓａｔｕｒａｔｉｏｎｆｌｏｗｒａｔｅ、台数／時間）ｓ_ｉを計算する。

ここで、ｓ_０は基本飽和交通流率であり、一般的に１９００の固定値を用いる。式（４）においてＮは車線グループｉの車線数を表す。ｆ_ｗ〜ｆ_Ｒｐｂは以下に列挙する調整用のファクタである。これらを全て１．０としてもよいが、例えばHighway Capacity Manual 2000: http://www.trb.org/Main/Blurbs/164718.aspxに記載された方法で詳細に算出してもよい。

ｆ_Ｗ：車線幅に対する調整
ｆ_ＨＶ：重量車両の交通量に対する調整
ｆ_ｇ：車線の傾斜に対する調整
ｆ_ｐ：駐車レーンや駐車車両の存在に対する調整
ｆ_ｂｂ：公用バスの通行やバス停存在に対する調整
ｆ_ａ：場所の特性に対する調整
ｆ_ＬＵ：車線の使われ方に対する調整
ｆ_ＬＴ：左折行動に対する調整
ｆ_ＲＴ：右折行動に対する調整
ｆ_Ｌｐｂ：左折行動に対する歩行者の影響の調整
ｆ_Ｒｐｂ：右折行動に対する歩行者の影響の調整

上記のｓ_ｉを用いて、交差点の交通容量ｃ_{ｉｎｔｅｒｓｅｃｔｉｏｎ}は式（５）で計算される。

ここで、ｇ_ｉは各車線グループｉの青信号時間、Ｃは信号機の１サイクルの時間である。また、飽和交通流量Ｘ_ｉは式（６）で表される。

ここで、ｑ_ｉは車線グループｉの交通量を表す。さらに、信号機制御システム１１００は、各車線グループｉの信号による遅れ時間ｄｉを、Ｗｅｂｓｔｅｒモデル（Webster F. V.: Traffic Signal Settings, T. R. R. L. Tech. Paper 39, 1958）に基づき、式（７）で計算する。

これらを用いて、信号機制御システム１１００は、交差点の信号遅れ時間ｄ_{ｉｎｔｅｒｓｅｃｔｉｏｎ}を式（８）で計算する。

各車線の交通容量のバランスを取る必要があるため、信号機制御システム１１００は、各車線グループｉの交通容量と遅れ時間の条件下で、式（５）に示す交通容量を最大化する青信号時間を設定する。つまり、式（９）で表される最適化問題である。

信号機制御システム１１００は、式（９）を、以下の式（１０）〜（１２）を満たす範囲内で最大化する青信号時間を選択する。

ここで、

は、車線グループｉの飽和交通流量Ｘ_ｉの平均値、Ｘ_０は飽和交通流量の分散の最大値、Ｘ_ｍａｘは飽和交通流量の最大値、ｄ_ｍａｘは遅れ時間の最大値であり、それぞれ事前に設定される。

信号機制御システム１１００は、上記の計算によって選択された青信号時間をパラメータセットとして保持する。

次に、信号機制御システム１１００は、必要な数（Ｎ個）のパラメータセットが生成されたか否かを判定し（ステップ１３０５）、生成されていない場合はステップ１３０２以降の処理を再度実行し、生成された場合は計算を終了する（ステップ１３０６）。例えば図３に示すように１０個のパラメータセットが生成される場合、ステップ１３０２〜１３０４が１０回繰り返される。

図１３の処理によって、実測された交通量に近い複数通りの交通量に最適と考えられる複数のパラメータセットが作成される。これによって、過去に実測された交通量からかけ離れたパラメータセットを予め除外しておくことができるため、効率的に最適なパラメータセットを探索することができる。

図１４は、本発明の実施例２の信号機制御システムが制御パラメータの更新の必要性を判断する処理を示すフローチャートである。

図１４に示す処理は、プロセッサ１１０が制御パラメータ更新プログラム１１２２を実行することによって実現される。信号機制御システム１１００は、計算を開始すると（ステップ１４０１）、その時点の報酬データ１３２を分析する（ステップ１４０２）。具体的には、信号機制御システム１１００は、報酬データ１３２に含まれる一つの交差点に対応する複数のパラメータセットの報酬のばらつき（例えば分散）を計算する。

次に、信号機制御システム１１００は、報酬の分散が所定の値以上であるか否かを判定する（ステップ１４０３）。報酬の分散が所定の値以上である（すなわちばらつきが大きい）ことは、生成された複数のパラメータセットの中に、実際の交通量からかけ離れた、著しく不適切なパラメータセットが含まれている可能性があることを示している。このため、信号機制御システム１１００は、アラートを発報する（ステップ１４０４）。一方、報酬の分散が所定の値より小さい場合、信号機制御システム１１００は、アラートを発報せずに処理を終了してもよいし、必要があれば、例えば所定の時間経過後にステップ１４０２に戻ってもよい。

アラートを受けたユーザは、当該交差点に対応するパラメータセットを更新することができる。例えばユーザが手動でパラメータセットを更新してもよいし、図１３に示す制御パラメータ生成処理を信号機制御システム１１００に実行させてもよい。あるいは、信号機制御システム１１００がアラートを検知して制御パラメータ生成処理を実行することによって自動的にパラメータセットを更新してもよい。このとき、ユーザ又は信号機制御システム１１００は、報酬の値が特に低いパラメータセットのみを更新してもよい。これによって、実際の交通量からかけ離れたパラメータセットが除外されるため、以後の処理によって効率的に最適なパラメータセットを探索することができる。

なお、実施例１、後述する実施例３又は実施例４の信号機制御システムが制御パラメータ更新プログラム１１２２を保持し、図１４の処理を実行してもよい。

次に、本発明の実施例３について、図面を参照して説明する。以下に説明する相違点を除き、実施例３のシステムの各部は、図１〜図１０に示された実施例１の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。

図１５は、本発明の実施例３の信号機制御システムの構成を示すブロック図である。

本実施例の信号機制御システム１５００は、相互に接続されたプロセッサ１１０、メモリ１５２０及び補助記憶装置１５３０を有する。メモリ１５２０は、実施例１のメモリ１２０と同様の主記憶装置であるが、制御パラメータ選択プログラム１２１及び報酬更新プログラム１２２に加えて、パラメータ選択確率変更プログラム１５２１を格納する。補助記憶装置１５３０は、実施例１の補助記憶装置１３０と同様の記憶装置であるが、制御パラメータ１３１の代わりに制御パラメータ１５３１を格納する。

図１６は、本発明の実施例３の信号機制御システムが保持する制御パラメータ１５３１の説明図である。

本実施形態の制御パラメータ１５３１に含まれる各パラメータセットは、実施例１と同様の、各車線グループの青信号時間に加えて、各車線グループに割り当てられた車線数を含む。これは、交差点に接続される道路の少なくとも一つが、車線グループの数より多い車線を含むときに、それらの車線の車線グループへの割り当て（言い換えると、それぞれの車線を左折、直進及び右折のいずれの進行方向に割り当てるか）を変更できることが前提となる。例えば通過する車両の数が多い進行方向に多くの車線を割り当てることで渋滞の緩和が期待できる。このような各進行方向への車線の割り当ての変更は、例えば、交差点の各車線上の空中に設置された電光掲示板等に表示される進行方向の表示を遠隔操作で変更することなどによって実現できる。

図１６（Ａ）は、実施例１と同様の各車線グループの青信号時間を示す。図１６（Ａ）にはそれぞれパラメータセット番号１〜４で識別される四つのパラメータセットを示しているが、実際の制御パラメータ１５３１は図３と同様に１０個のパラメータセットを含んでもよいし、さらに多くのパラメータセットを含んでもよい。また、車線グループ番号ｉは図２に示した通りである。

図１６（Ｂ）は、各車線グループに割り当てられる車線数を示す。図１６（Ａ）と同様に、実際の制御パラメータ１５３１は実際にはより多くのパラメータセットを含んでもよい。

図１６では便宜上二つのテーブルを示しているが、実際には同一のパラメータセット番号に対応する青信号時間と車線数が一つのパラメータセットをなす。例えば、パラメータセット１が適用された場合、北から交差点に接続される道路（図２参照）に含まれる左折用の車線グループｉ＝１には２車線が含まれ、直進用の車線グループｉ＝６にも２車線が含まれ、それぞれの青信号時間は４秒及び７秒である。一方、パラメータセット２が適用された場合、左折用の車線グループｉ＝１に含まれる車線数は１車線に減り、代わりに直進用の車線グループｉ＝６に含まれる車線数が３車線に増える。それぞれの青信号時間は４秒及び１０秒である。

本実施例の信号機制御システム１５００が制御パラメータ選択プログラム１２１及び報酬更新プログラム１２２に基づいて実行する処理は、実施例１の信号機制御システム１００が実行するものと同様であるため、説明を省略する。

ただし、本実施例の信号機制御システム１５００は、さらにパラメータ選択確率変更プログラム１５２１に基づいてパラメータ選択確率εを変更することができる。例えば、信号機制御システム１５００は、ε−ｇｒｅｅｄｙアルゴリズム（図８）によるパラメータ選択を実行する場合、ステップ８０２〜８０８のループを繰り返す間に、ステップ８０４で参照されるパラメータ選択確率εを変更してもよい。

具体的には、例えば、信号機制御システム１５００は、パラメータ選択確率εの初期値を比較的小さい値に設定し、しばらくステップ８０２〜８０８のループを繰り返した結果、適切なパラメータセットとそうでないパラメータセットとが概ね明らかになった（すなわち報酬の値が収束した）と判定された場合に、パラメータ選択確率εをより大きい値に変更してもよい。パラメータ選択確率εが小さいほど探索が多く行われ、大きいほど活用が多く行われるため、上記のようにパラメータ選択確率εを変更することによって、当初は探索を多く行って早く適切なパラメータセットを発見することができ、εの変更後は報酬が最大のパラメータセットを選択されやすくことで、活用を多く行って探索の成果を享受することができる。

報酬の値が収束したことは、例えば、報酬の高いパラメータセットと報酬の低いパラメータセットとの報酬の差が所定の値より大きくなったことに基づいて判定してもよいし、探索を繰り返したときの報酬の変動が小さくなったことに基づいて判定してもよい。

図９の処理についても同様であり、報酬の値が収束したと判定された場合にパラメータ選択確率εをより大きい値に変更することによって、報酬が最大のパラメータセットが選択されやすくなる。さらに、図１０の処理についても、報酬が収束したと判定された場合に、ステップ１００２において報酬が高いパラメータセットがより高い頻度で選択されるように選択方法を変更してもよい。

以上の実施例３によれば、進行方向に対する車線の割り当てを変更できる交差点にも本発明を適用することができる。さらに、適切なタイミングでパラメータ選択確率εを変更することによって、適切なパラメータセットの早期の発見と、発見したパラメータセットの十分な活用を実現することができる。

なお、実施例１、実施例２又は後述する実施例４の信号機制御システムがパラメータ選択確率変更プログラム１５２１を保持し、図１６の処理を実行してもよい。

次に、本発明の実施例４について、図面を参照して説明する。以下に説明する相違点を除き、実施例４のシステムの各部は、図１〜図１０に示された実施例１の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。

図１７は、本発明の実施例４の信号機制御システムの構成を示すブロック図である。

本実施例の信号機制御システム１７００は、相互に接続されたプロセッサ１１０、メモリ１２０、補助記憶装置１７３０及びネットワークインタフェース（Ｉ／Ｆ）１７４０を有する。補助記憶装置１７３０は、実施例１の補助記憶装置１３０と同様の記憶装置であるが、制御パラメータ１３１及び報酬データ１３２の代わりに制御パラメータ１７３１及び報酬データ１７３２を格納する。

ネットワークＩ／Ｆ１７４０には、ネットワーク１７５０を介して交通信号１７５１及び車線制御１７５２が接続される。交通信号１７５１は、一つ又は複数の交差点の信号機であり、信号機制御システム１７００が選択したパラメータセットに従って制御される。車線制御１７５２は、各車線の各進行方向への（すなわち各車線グループへの）割り当てを行う制御装置であり、例えば実施例３のように各パラメータセットが各車線グループの車線数を含んでいる場合には、信号機制御システム１７００が選択したパラメータセットに従って、交差点に進入する車両に向けた進行方向の表示を制御する。

なお、図１、図１１及び図１５では省略されているが、実施例１〜３の信号機制御システムも上記と同様にネットワークＩ／Ｆを有し、ネットワークを介して交通信号に（実施例３ではさらに車線制御に）接続される。

図１８は、本発明の実施例４の信号機制御システムが保持する報酬データ１７３２の説明図である。

図７に示したように、実施例１〜３の報酬データ１３２に含まれるそれぞれの報酬の値は、一つの交差点の一つのパラメータセットについて計算されたものである。これに対して、実施例４の報酬データ１７３２は、複数の交差点の信号機に適用されるパラメータセットの組合せについて計算されたものである。図１８（Ａ）には、交差点Ａ〜Ｄに適用されるパラメータセットの組合せについて計算された報酬の例を示す。

この例において、図１８Ｂに示すように、交差点Ａでは、道路１８０１と道路１８０３とが交差する。交差点Ｂでは、道路１８０２と道路１８０３とが交差する。交差点Ｃでは、道路１８０１と道路１８０４とが交差する。交差点Ｄでは、道路１８０２と道路１８０４とが交差する。

制御パラメータ１７３１は、各交差点に適用される複数のパラメータセットを含む。一つの交差点に適用されるパラメータセットは、図３又は図１６に示すものと同様であってもよい。複数の交差点に同じパラメータセットが適用されてもよいが、一般には、交差点によって実際の交通量が異なるため、例えば実施例２のような方法を採用した場合、それぞれの交差点に異なるパラメータセットが適用される。本実施例ではパラメータセットの番号は交差点ごとに一意であるため、例えば交差点Ａのパラメータセット１と交差点Ｂのパラメータセット１は、同じであることもあり得るが、通常は異なる。

図１８（Ａ）の例では、交差点Ａ〜Ｄのそれぞれにパラメータセット１が適用された場合の報酬が「９０」である。この報酬は、交差点Ａ〜Ｄの全車線グループを対象として実施例１と同様の方法で計算された値であり、例えば、交差点Ａ〜Ｄの全車線グループの遅れ時間に基づいて式（１）を計算することによって得られる。報酬データ１７３２は、同様に全交差点の全パラメータセットの組合せについて計算された報酬の値を保持する。

実施例４の信号機制御システム１７００は、制御パラメータ選択プログラム１２１及び報酬更新プログラム１２２に従って、報酬データ１７３２を参照して実施例１の信号機制御システム１００と同様の処理を実行することができる（図８〜図１０参照）。例えば、信号機制御システム１７００は、ステップ８０６及び９０６において、最も報酬が高いパラメータセットの組合せを選択し、ステップ８０５において、ランダムにパラメータセットの組合せを選択し、ステップ９０５において、報酬に依存した確率でパラメータセットの組合せを選択し、ステップ１００２において、報酬と確度に依存した確率でパラメータセットの組合せを選択する。

図１８に示すように道路を介して相互に接続された複数の交差点を含む道路ネットワークにおいては、例えば一つの交差点を円滑に通過した車両が別の交差点に流入して渋滞を発生させるなど、ある交差点について最適なパラメータセットが、道路ネットワーク全体の渋滞を緩和させるために最適ではない可能性がある。上記の実施例４によれば、複数の交差点を含む道路ネットワーク全体の報酬に基づいて最適な制御パラメータが探索されるため、道路ネットワーク全体の渋滞を緩和させることができる。

上記の処理は実施例４の実現方法の一例であり、別の方法で実施例４を実現することもできる。例えば、信号機制御システム１７００交差点Ａ〜Ｄの全ての車線グループに、交差点Ａ〜Ｄからなる交差点グループ内で一意の車線グループ番号を付与し、一つのパラメータセットが全車線グループの青信号時間の組合せを含むように複数のパラメータセットを作成して、各パラメータセットについて報酬を計算することによって、実施例１と同様の処理（図８〜図１０）を実行してもよい。

なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。

また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶デバイス、または、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

また、制御線及び情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

１００、１１００、１５００、１７００信号機制御システム
１１０プロセッサ
１２０、１１２０、１５２０メモリ
１２１制御パラメータ選択プログラム
１２２報酬更新プログラム
１３０、１１３０、１５３０、１７３０補助記憶装置
１３１、１５３１、１７３１制御パラメータ
１３２、１７３２報酬データ
１３３パラメータ選択確率
１３４プローブ交通情報
１３５道路ネットワーク
１１２１制御パラメータ生成プログラム
１１２２制御パラメータ更新プログラム
１１３１交通量計測データ
１５２１パラメータ選択確率変更プログラム
１７４０ネットワークＩ／Ｆ
１７５０ネットワーク
１７５１交通信号
１７５２車線制御

Claims

プロセッサと、記憶装置と、を有する信号機制御システムであって、
前記記憶装置は、
交差点の信号機が各進行方向に対応する各車線グループの車両に向けて青信号を出力する時間を含む複数のパラメータセットと、
前記各パラメータセットに基づいて前記信号機が制御された場合の前記交差点における渋滞の発生しにくさを示す指標と、を保持し、
前記プロセッサは、
前記指標に基づいて、確率的に前記複数のパラメータセットの一つを選択し、
前記選択したパラメータセットに基づいて前記信号機が制御されているときの前記交差点における交通量の計測データを取得し、
前記交通量の計測データに基づいて、前記選択したパラメータセットの前記指標を更新することを特徴とする信号機制御システム。
請求項１に記載の信号機制御システムであって、
前記記憶装置は、所定の確率を保持し、
前記プロセッサは、前記所定の確率で前記指標が最も高い前記パラメータセットを選択し、残りの確率で全ての前記パラメータセットのうち一つを選択することによって、確率的に前記複数のパラメータセットの一つを選択することを特徴とする信号機制御システム。
請求項２に記載の信号機制御システムであって、
前記プロセッサは、前記残りの確率で全ての前記パラメータセットのうち一つをランダムに選択することを特徴とする信号機制御システム。
請求項２に記載の信号機制御システムであって、
前記プロセッサは、前記残りの確率で全ての前記パラメータセットのうち一つを前記指標が高いほど選択されやすくなるように選択することを特徴とする信号機制御システム。
請求項１に記載の信号機制御システムであって、
前記プロセッサは、前記指標が高いほど選択されやすく、かつ、過去に選択された回数が少ないほど選択されやすくなるように、確率的に前記複数のパラメータセットの一つを選択することを特徴とする信号機制御システム。
請求項１に記載の信号機制御システムであって、
前記プロセッサは、
前記交差点における交通量の計測データから特定される前記各車線グループにおける所定の時間ごとの交通量の分布に基づいて、前記各車線グループの交通量の複数の組合せを生成し、
前記各車線グループの交通量の複数の組合せについて、前記交差点の交通容量が最大になるように、前記各車線グループの車両に向けて青信号を出力する時間を計算することによって、前記複数のパラメータセットを生成することを特徴とする信号機制御システム。
請求項１に記載の信号機制御システムであって、
前記パラメータセットは、前記各車線グループに割り当てられた車線数を含むことを特徴とする信号機制御システム。
請求項１に記載の信号機制御システムであって、
前記記憶装置は、
複数の交差点の信号機について、前記複数のパラメータセットを保持し、
前記パラメータセットの組合せに基づいて前記複数の交差点の信号機が制御された場合の前記複数の交差点における渋滞の発生しにくさを示す指標を保持し、
前記プロセッサは、
前記指標に基づいて、確率的に、前記複数のパラメータセットから、前記複数の交差点の信号機に適用されるパラメータセットの組合せを選択し、
前記選択したパラメータセットの組合せに基づいて前記複数の交差点の信号機が制御されているときの前記複数の交差点における交通量の計測データを取得し、
前記複数の交差点における交通量の計測データに基づいて、前記選択したパラメータセットの組合せの前記指標を更新することを特徴とする信号機制御システム。
請求項１に記載の信号機制御システムであって、
前記プロセッサは、前記複数のパラメータセットの前記指標のばらつきが所定の値を超える場合、警報を出力することを特徴とする信号機制御システム。
請求項１に記載の信号機制御システムであって、
前記プロセッサは、前記指標が収束した場合に、前記指標が最も高い前記パラメータセットが選択されやすくなるように、確率的に前記複数のパラメータセットの一つを選択することを特徴とする信号機制御システム。
請求項１に記載の信号機制御システムであって、
前記プロセッサは、前記交通量の計測データに基づいて、車両が前記交差点を法定速度で通過する場合の所要時間と実測された速度で通過する場合の所要時間との差である遅れ時間、前記交差点に発生する渋滞の長さ、又は前記交差点を単位時間あたりに通過する車両の数を、前記指標として計算することを特徴とする信号機制御システム。
請求項１１に記載の信号機制御システムであって、
前記プロセッサは、前記選択したパラメータセットが過去にも選択されたことがある場合、それぞれの回に計算した前記指標の平均を計算することによって、前記指標を更新することを特徴とする信号機制御システム。
請求項１に記載の信号機制御システムであって、
前記記憶装置は、前記各パラメータセットについて、それぞれが所定の時期に対応する複数の前記指標を保持し、
前記プロセッサは、
処理が実行される時期に対応する前記指標に基づいて、確率的に前記複数のパラメータセットの一つを選択し、
前記交通量の計測データに基づいて、前記選択したパラメータセットの前記処理が実行される時期に対応する前記指標を更新することを特徴とする信号機制御システム。
プロセッサと、記憶装置と、を有する計算機システムによる信号機制御方法であって、
前記記憶装置は、
交差点の信号機が各進行方向に対応する各車線グループの車両に向けて青信号を出力する時間を含む複数のパラメータセットと、
前記各パラメータセットに基づいて前記信号機が制御された場合の前記交差点における渋滞の発生しにくさを示す指標と、を保持し、
前記信号機制御方法は、
前記プロセッサが、前記指標に基づいて、確率的に前記複数のパラメータセットの一つを選択する手順と、
前記プロセッサが、前記選択したパラメータセットに基づいて前記信号機が制御されているときの前記交差点における交通量の計測データを取得する手順と、
前記プロセッサが、前記交通量の計測データに基づいて、前記選択したパラメータセットの前記指標を更新する手順と、を含むことを特徴とする信号機制御方法。