JP2021018510A

JP2021018510A - パケット処理装置及びそのメモリアクセス制御方法並びにプログラム

Info

Publication number: JP2021018510A
Application number: JP2019132580A
Authority: JP
Inventors: 智洋郡川; Tomohiro Korigawa; 明生川端; Akio Kawabata; 大木　英司; Eiji Oki; 英司大木; 馥君何; Fujun He
Original assignee: Nippon Telegraph and Telephone Corp; Kyoto University NUC
Current assignee: Nippon Telegraph and Telephone Corp; Kyoto University NUC
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2021-02-15

Abstract

【課題】高いメモリアクセス性能を実現するパケット処理装置及びそのメモリアクセス制御方法を提供する。【解決手段】パケット処理装置において、マルチコアＣＰＵ２００とＨＭＣ（ＨｙｂｒｉｄＭｅｍｏｒｙＣｕｂｅ）３００との間にＨＭＣコントローラ１００を配置する。マルチコアＣＰＵ２００は、共有キャッシュ２２０と、アクセスリクエストを共有キャッシュ２２０又はＨＭＣ３００へ振り分けるアクセスリクエスト振分機構２３０を備える。ＨＭＣ３００には並列アクセス可能にテーブルを分割して記憶する。ＨＭＣコントローラ１００は、アクセスリクエストによるＨＭＣ３００の負荷を監視するとともに負荷の高い記憶領域に記憶されている分割されたテーブルを共有キャッシュ２２０にコピーする負荷監視部１４０を備えた。【選択図】図３

Description

本発明は、通信ネットワークにおける大規模トラヒックフローを対象とするパケット処理方式及びパケット処理装置構成に関する。

近年のＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ（ＩｏＴ）やエッジコンピューティング、第５世代モバイルネットワーク（５Ｇ）の登場により、ネットワークを流れるトラヒック量や遅延低減化の要求、ネットワークに接続されるデバイス数、さらには通信の多様性は急速に増加している。通信事業者やサービスプロバイダのネットワークは、その規模や信頼性由来の要件から、従来は用途に特化した専用デバイスや独自のアーキテクチャからなる装置により構成されてきた。

しかし、近年の急激なトラヒック需要変動に対する柔軟かつ迅速な装置増減設やネットワーク機能の容易な追加実装を可能にするために、通信事業者ネットワークやサービスプロバイダネットワークのような大規模ネットワークにおいても、ネットワーク仮想化（Network Function Virtualization；ＮＦＶ）やソフトウェア定義ネットワーク（Software Defined Networking；ＳＤＮ）などの仮想化技術の活用が期待されている。

このような仮想化技術活用の機運到来の背景には、従来に比べてより汎用的なデバイスの性能向上がある。ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）やＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＤＲＡＭ）といった、汎用的で安価なデバイスからなる汎用コンピュータの性能が向上したことにより、従来は専用装置を用いないと実現困難であった数十ギガビット毎秒級のパケット処理が汎用コンピュータ上のソフトウェアにより実現可能になってきている。したがって、今後、大規模ネットワークにおいても、汎用コンピュータを活用したネットワーク構築により、急激な需要変動や新サービスのための機能追加実装を柔軟・迅速・安価に実現することが可能になると期待される。

しかし、このような大規模ネットワークにおいては、以降で議論するように、パケット処理のためのテーブル検索等の処理で、現在の汎用コンピュータアーキテクチャではメモリアクセス性能が支配的な性能ボトルネックとなり、これが大規模ネットワークにおける仮想化技術導入の性能観点での障壁になる。

一方、このメモリアクセス性能を高めるデバイスとして、３Ｄ積層メモリがある。３Ｄ積層メモリは、従来の２次元のＤＲＡＭを複数枚３次元方向に積層したもので、従来の２次元ＤＲＡＭ単一デバイス当たりのメモリ容量やアクセスの並列数が増加している。ＨｙｂｒｉｄＭｅｍｏｒｙＣｕｂｅ（ＨＭＣ。以降、本表記を使用）はＨｉｇｈＢａｎｄｗｉｄｔｈＭｅｍｏｒｙ（ＨＢＭ。以降、本表記を使用）と並び有力な３Ｄ積層メモリである。ＨＭＣはその仕様が２０１３年４月に開示され、既にスーパーコンピュータ等の領域で使用されている。

ＨＭＣは、３次元形状を持つ半導体の層が４〜８枚積層され、各層がシリコン貫通電極によって接続されている。その積層した縦の列を“Ｖａｕｌｔ”と呼び、各Ｖａｕｌｔは、独立したＤＲＡＭベースのメモリであり独立にアクセス可能で並列動作が可能である。また、Ｖａｕｌｔ内には、各層ごとに数個のＢａｎｋと呼ばれる領域がある。同一Ｖａｕｌｔ内でこれらＢａｎｋは、共有バスにより接続されているが、共有バス衝突が発生しない範囲内で並列に動作（Ｂａｎｋ間ｉｎｔｅｒｌｅａｖｉｎｇ。以降、本表記を使用）可能。このため、汎用メモリデバイスながらきわめて高い性能を実現できる可能性を有している。特に、ＨＢＭに比べてＨＭＣは単一デバイス当たりでより多くのｖａｕｌｔを有していることから、より高いメモリアクセス並列数が期待できる。

パケット処理におけるルーティングやフィルタリング等の処理は、特に高いメモリアクセス性能を要求する。テーブル検索処理に特化した場合、従来のネットワーク装置においては、ＴＣＡＭのような専用の高速なメモリを使用されている。しかし、上記した仮想化技術を用いた柔軟かつ低コストな大規模ネットワーク実現に向けてＴｅｒｎａｒｙＣｏｎｔｅｎｔＡｄｄｒｅｓｓａｂｌｅＭｅｍｏｒｙ（ＴＣＡＭ。以降、本表記を使用）のような専用デバイスを汎用コンピュータに組み込むというアプローチから望ましくないとともに、検索処理に限らず今後より多くのネットワーク機能が仮想化されていくうえでは、汎用コンピュータにおけるメモリアクセスの高性能化が必要である。

ＮＦＶを考慮した従来の汎用コンピュータアーキテクチャには、図８に示すような（１）のＤＤＲｘＤＲＡＭ及び（２）のＨＭＣを使用する方式がある。

図８の（１）では、上記したようにＤｏｕｂｌｅ−Ｄａｔａ−Ｒａｔｅ３（ＤＤＲ３）ＤＲＡＭや速度がこの２倍となるＤｏｕｂｌｅ−Ｄａｔａ−Ｒａｔｅ４（ＤＤＲ４）ＤＲＡＭを採用している。最近は、更にＤＤＲ４の２倍程度高速なＤｏｕｂｌｅ−Ｄａｔａ−Ｒａｔｅ５（ＤＤＲ５）等が次世代メモリとして登場してきている。このような、Ｄｏｕｂｌｅ−Ｄａｔａ−ＲａｔｅｘＤＲＡＭ（ＤＤＲｘＤＲＡＭ。以降、本表記を使用）は、パケット処理においてパケットバッファやアドレス検索テーブル等に使用される。ＣＰＵは、マルチコア化されたマルチスレッドでの処理技術が一般化しており、並列処理が可能となっている。また、マルチコアＣＰＵは、各ＣＰＵコア内や各ＣＰＵコアで共通に使用する低容量で高速動作可能なキャッシュメモリを内蔵しており、キャッシュメモリに納まる範囲内の処理であれば高い処理性能を発揮する。しかしながら、これらキャッシュメモリは、容量が小さく容量不足によりメインメモリであるＤＤＲｘＤＲＡＭへのアクセスが頻発した場合、性能のボトルネックが生じる。これは、ＤＤＲｘＤＲＡＭは、アクセス速度がキャッシュメモリと比較して遅いとともに、アクセスの並列度がないかもしくは並列度があっても低いため、複数のＣＰＵコア側が同時に多くのアクセス要求を出す場合、ＤＤＲｘＤＲＡＭ側がアクセス中でビジー状態となり、ＣＰＵコア側で待ち合わせ状態となるためである。

図８の（２）では、メモリとしてＨＭＣを使用し、これを検索テーブル格納に使用している例を示している。非特許文献１及び２に示すように、ＨＭＣの並列アクセス性能を活かした並列パケット処理方式も検討されているが、近年のマルチコアＣＰＵでは一つのＣＰＵ内に数十のコアが存在しており、ＨＭＣ内のＶａｕｌｔ数も数十程度であることから、マルチコアＣＰＵとＨＭＣを用いた汎用コンピュータアーキテクチャにおいては、使用するＣＰＵコア数およびＶａｕｌｔ数によってＣＰＵ内の共有キャッシュメモリのアクセス性能が装置全体の性能ボトルネックとなる可能性がある。一方で、マルチコアＣＰＵ内のキャッシュメモリとＨＭＣを協調動作させることで、さらにパケット処理性能を高める余地が残されている。

Packet Matching on FPGAs Using HMC Memory: Towards One Million Rules, Proceedings of the 2017 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays T. Korikawa, A. Kawabata, F. He, and E. Oki, "Carrier-Scale Packet Processing System Using Interleaved 3D-Stacked DRAM," in IEEE ICC, May 2018, pp. 1-6.

大規模な通信事業者ネットワークを汎用コンピュータにより実現し、将来的な大容量トラヒックに対応するため、前述した従来アーキテクチャの延長によるパケット処理方式では、いずれは限界がくると想定される。これは、テーブル検索に代表される情報処理においてメモリアクセス性能不足が顕在化するためである。図８の従来アーキテクチャでのＤＤＲｘＤＲＡＭやＨＭＣ、また専用メモリであるＴＣＡＭでは、具体的には、以下が問題となってくる。

（１）ＤＤＲｘＤＲＡＭを使用したアーキテクチャでは、メモリのアクセス並列度がないもしくは低い。マルチコアＣＰＵの複数のＣＰＵコアからＤＤＲｘＤＲＡＭへのアクセスが頻発した場合、アクセス待ち状態により情報処理性能のボトルネックになる。

（２）ＨＭＣの複数のＶａｕｌｔやＢａｎｋ間ｉｎｔｅｒｌｅａｖｉｎｇを活用した並列メモリアクセスとマルチコアＣＰＵを用いた並列処理により情報処理性能を高める際に、バースト性の高いトラヒック入力等により特定のメモリ領域へのアクセスが集中した場合、当該メモリ領域のメモリアクセス性能不足が情報処理装置全体の性能ボトルネックとなる。

（３）仮想化適用による柔軟な運用や低コスト化のメリットを享受するためには汎用コンピュータ等汎用装置でネットワークが作れることが重要だが、専用デバイスであるＴＣＡＭを使わないといけなかった高速テーブル検索などの領域の汎用デバイス化が課題となってくる。また、ＴＣＡＭは、高価・高消費電力・小容量という課題もある。

これらの問題を解決するためには、従来のパケット処理装置アーキテクチャでなく、新しいパケット処理装置アーキテクチャが必要となる。特に、仮想化環境での使用を前提とした、汎用デバイスから構成される汎用装置で、高いメモリアクセス性能を実現するパケット処理の具体的な方式の考案が必要である。

上記目的を達成するために、本願発明は、複数のコア及び複数のコアで共有される共有キャッシュを有する演算装置と、前記演算装置からアクセスされるテーブルを記憶した記憶装置と、前記演算装置からの前記記憶装置の前記テーブルへのアクセスリクエストに基づき前記記憶装置へのメモリアクセスを制御するアクセス制御装置とを備えたパケット処理装置であって、前記演算装置は、複数のコアからのアクセスリクエストを前記共有キャッシュ又は前記記憶装置へ振り分けるアクセスリクエスト振分手段を備え、前記記憶装置は互いに並列アクセス可能な複数の記憶領域に区画されており、前記テーブルは分割されて前記記憶装置の前記記憶領域に分散して記憶されており、前記アクセス制御装置は、前記アクセスリクエストに対してアクセス対象データが格納されている記憶領域を特定する記憶領域特定手段と、前記記憶領域特定手段により特定された記憶領域にアクセスするアクセス制御手段と、前記演算装置からのアクセスリクエストによる前記記憶装置の負荷を監視するとともに負荷の高い記憶領域に記憶されている分割されたテーブルを前記共有キャッシュにコピーする負荷監視手段とを備えたことを特徴とする。

本発明によれば、パケット処理における入力トラヒックのバースト性およびそれによる特定分割テーブルへのメモリアクセス集中に対して、共有キャッシュメモリの協調動作有無を動的に切り替えることで、非バースト入力時、バースト入力時とも演算装置と記憶装置のもつ並列処理性能を最大限に引き出し、システム全体のスループットを最大化できる。

本発明に係るパケット処理装置の概要を示す構成図ＨＭＣ内のテーブル分散配置方式を説明する図本発明の一実施の形態に係るパケット処理装置の機能ブロック図本発明の一実施の形態に係る(Vault,Bank)対アクセス履歴部の構成例本発明の一実施の形態に係るメモリアクセス制御動作を説明するフローチャート本発明の一実施の形態に係るメモリアクセス制御動作を説明するフローチャート本発明の一実施の形態に係るメモリアクセス制御動作を説明するフローチャート従来技術を用いた汎用コンピュータアーキテクチャを説明する図

まず、本発明の概要について図面を参照して説明する。図１は本発明に係るパケット処理装置の概要を示す構成図である。

本発明では、上記の課題を解決するため、図１の本発明の汎用コンピュータアーキテクチャに示すような、並列アクセス可能なＨｙｂｒｉｄＭｅｍｏｒｙＣｕｂｅ（ＨＭＣ）３００を検索テーブル等高速なアクセスが求められるデータの格納に用い、ＨＭＣ３００への並列アクセスを可能とするためのＨＭＣコントローラ１００を、マルチコアＣＰＵ２００とＨＭＣ３００間に、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ（ＦＰＧＡ。以降、本表記を使用）等の再プログラム可能な汎用デバイスで実装し、ＨＭＣコントローラ１００の一部機能によりトラヒックのバースト入力を検知するとともにそれに応じてＣＰＵ２００内でＨＭＣ３００に加えて共有キャッシュメモリ２２０を協調動作させてメモリアクセスリクエストを処理するかどうか動的に切り替えることを可能とするパケット処理アーキテクチャを提案する。これにより通信事業者ネットワークのような大規模ネットワークにおけるパケット処理等、高いメモリアクセス性能が求められるアプリケーションにおいて仮想化環境下での使用を想定して、トラヒックのバースト入力時にパケット処理装置全体としてパケット処理性能を低下させないパケット処理装置を構成する。なお、ＨＭＣコントローラ１００は、特許請求の範囲に記載のアクセス制御装置に相当する。

図１において、ＣＰＵは、複数のＣＰＵコア２１０を有するマルチコアＣＰＵ２００で構成され、内部にキャッシュメモリを内蔵し、これと主メモリ用のＤＲＡＭ４００と接続している。キャッシュメモリは、各ＣＰＵコア専用のキャッシュメモリ２１１と、同じマルチコアＣＰＵ２００内の全ＣＰＵコア２１０で共有される共有キャッシュメモリ２２０が存在する。ＨＭＣ３００は、前述したように、Ｖａｕｌｔを複数有し（Ｖａｕｌｔ１〜ＶａｕｌｔＳのＳ個）、各Ｖａｕｌｔは、マルチコアＣＰＵ２００側から並列アクセス可能な構造をもつ。また、一つのＶａｕｌｔは複数のＢａｎｋにより構成され、Ｂａｎｋ間ｉｎｔｅｒｌｅａｖｉｎｇが可能である。パケット処理においては、パケット処理プログラム及びパケットバッファは、ＣＰＵ２００に接続されたＤＲＡＭ４００内に設け、パケット処理時間に特に影響する検索テーブル等データをＨＭＣ３００内に設ける。

検索テーブル等データをＨＭＣ３００内で並列アクセス可能な単位である複数のＶａｕｌｔとＢａｎｋに分散して配置する。Ｂａｎｋ間ｉｎｔｅｒｌｅａｖｉｎｇは同一Ｖａｕｌｔ内の複数のＢａｎｋへのメモリアクセスリクエストの順番を工夫することによる疑似的な並列アクセスであるため、メモリの容量効率も勘案して、元の検索テーブルを同一Ｖａｕｌｔ内で分割して各Ｂａｎｋに分割配置し、Ｖａｕｌｔ間では配置された検索テーブルデータを複製して配置する。この配置方式を分散配置と呼ぶこととし、あるＶａｕｌｔとＢａｎｋで特定されるある領域に配置された部分的なテーブルデータを分割テーブルと呼ぶことにする。さらに、それらの分散配置された分割テーブルへのＣＰＵ２００からのメモリアクセスリクエストを振り分けるためのＨＭＣコントローラ１００をＣＰＵ２００とＨＭＣ３００間に設ける。

本発明では、以下に示すように、パケット処理装置へのトラヒック入力のバースト性に応じて、当該トラヒックのパケット処理に必要な分割テーブルデータをＨＭＣ３００に加えてマルチコアＣＰＵ２００内の共有キャッシュメモリ２２０にも配置し、共有キャッシュメモリ２２０とＨＭＣ３００の応答速度およびメモリアクセスの並列数の違いを考慮してパケット処理後のパケットの順序を極力維持するためにメモリアクセスリクエストを制御する。

（１）ＨＭＣコントローラ１００内の一部機能により、ＨＭＣ３００内のアクセス先Ｖａｕｌｔの統計情報とあらかじめプログラムされている閾値との比較を行い、入力トラヒックのバースト性が閾値以上であるかどうか判断する。

（２）上記（１）の判断により、マルチコアＣＰＵ２００内のリクエスト振り分け機構２３０において、入力トラヒックのバースト性が高く、特定の分割テーブルへのアクセスが集中することにより、他分割テーブルへのメモリアクセス性能が低下しパケット処理装置全体のパケット処理性能が低下している場合は、アクセスが集中している分割テーブルのデータをマルチコアＣＰＵ２００内の共有キャッシュメモリ２２０にコピーする。

（３）リクエスト振り分け機構２３０では、マルチコアＣＰＵ２００内の共有キャッシュメモリ２２０とＨＭＣ３００のメモリ応答速度およびメモリアクセス並列数の違いを考慮し、メモリアクセスリクエストのスケジューリングを行う。

上記（１）、（２）により、バーストトラヒック入力時にパケット処理性能が低下することを動的に回避しつつ、上記（３）によりマルチコアＣＰＵ２００内の共有キャッシュメモリ２２０とＨＭＣ３００の協調動作を行い、メモリアクセス応答速度や並列数の違いによるパケット順序の変更を抑えることが可能となる。

本発明の実施の形態に係るパケット処理装置ついて図１〜図７を参照して説明する。

図２は、図１のＨＭＣ内のテーブル分散配置方式を具体化したものである。図２に示すように、ＨＭＣ３００が、１つのＶａｕｌｔ内のＮ個のＢａｎｋにおいて、ルーティングテーブルやフローテーブル等の検索テーブル全体をテーブル１からテーブルＮまで等分割して配置し、この一つのＶａｕｌｔに配置した検索テーブルを、さらに残りの全てのＶａｕｌｔにコピーして配置する。これにより、同一テーブル番号のアクセスが競合しても複数のＶａｕｌｔに同一内容の検索テーブルがあるため、Ｖａｕｌｔ間の並列動作が可能となる。また、１つのＶａｕｌｔ内では、Ｂａｎｋ間のｉｎｔｅｒｌｅａｖｉｎｇによる並列動作が可能である。これら並列動作機能を高めた方式の採用により、ＣＰＵからの検索テーブルアクセス頻度が増大する、より高いレートでのパケット処理が期待できる。

図３は、図１にその概略を示した、本発明におけるメモリアクセス制御機構構成を示したものである。図３において、本発明は、マルチコアＣＰＵ２００およびＤＲＡＭ４００、ＨＭＣコントローラ１００、ＨＭＣ３００の３つの主要な要素から構成される。

マルチコアＣＰＵ２００には、数個〜数十個の複数のＣＰＵコア２１０とこれに内蔵される各ＣＰＵコア専用のキャッシュメモリ２１１、全ＣＰＵコア２１０で共有される共有キャッシュメモリ２２０、各ＣＰＵコア２１０からのメモリアクセスリクエストを共有キャッシュメモリ２２０またはＨＭＣ３００方面へと振り分けるリクエスト振り分け機構２３０がある。

リクエスト振り分け機構２３０は、後述するように、ＣＰＵコア２１０からＨＭＣ３００へのメモリアクセスリクエストを、共有キャッシュメモリ２２０又は（ＨＭＣコントローラ１００を介して）ＨＭＣ３００に振り分けて送出する第１の処理を行う、或いは、全てのメモリアクセスを共有キャッシュメモリ２２０を介することなくＨＭＣ３００に送出する第２の処理を行う。第１又は第２のいずれの処理を行うかは、ＨＭＣコントローラ１００からの指示に基づく。

ここで、振り分け処理においてメモリアクセスの振り分け先の決定は、単位時間あたりの、共有キャッシュメモリ２２０に送出するメモリアクセスリクエストの数と、共有キャッシュメモリ２２０を介することなくＨＭＣ３００に送出するメモリアクセスリクエストの数の比率が所定値となるように決定する。この所定値は、マルチコアＣＰＵ２００内の共有キャッシュメモリ２２０とＨＭＣ３００のメモリ応答速度およびメモリアクセス並列数の違いを考慮して決定される。本実施の形態では、例えば、共有キャッシュメモリ２２０の応答速度、ＨＭＣ３００の各（Ｖａｕｌｔ，Ｂａｎｋ）対の応答速度とＶａｕｌｔ数の積の比とする。

ＨＭＣ３００には、前述したように、並列動作できる３２個程度のＶａｕｌｔがあり、それぞれのＶａｕｌｔには１６個程度のＢａｎｋがある。

このマルチコアＣＰＵ２００とＨＭＣ３００間にＨＭＣアクセスの制御および入力トラヒックのバースト性を判断する機構をもつＨＭＣコントローラ１００を設ける。

ＨＭＣコントローラ１００は、ＦＰＧＡ等の再プログラム可能な汎用デバイスにより構成可能である。ＨＭＣコントローラ１００には、マルチコアＣＰＵ２００からＨＭＣ３００へのメモリアクセスリクエストを受け付け、アクセス結果を返すＣＰＵインタフェース部１１０と、これと接続してメモリリクエストからテーブル検索処理等に必要な宛先アドレス等の情報を抽出するパケット付随情報抽出部１２０と、この抽出した宛先アドレス等からハッシュ計算によりＨＭＣ３００の検索テーブルの分割テーブル番号（１〜Ｎ）を特定する分割テーブル特定部１３０と、分割テーブル番号をもとに各分割テーブルへのメモリアクセスの負荷を監視する負荷監視部１４０と、この負荷監視部１４０においてマルチコアＣＰＵ２００内のリクエスト振り分け機構２３０に対してメモリアクセスリクエストの振り分けを指示するか判断するために必要な閾値をあらかじめプログラムしておき必要に応じて参照する負荷閾値部１５０と、分割テーブル番号とこれに対応するＨＭＣ３００のＢａｎｋ番号を特定するＢａｎｋ番号特定部１６０と、Ｂａｎｋ番号および分割テーブル番号からＨＭＣ３００のアクセス先Ｖａｕｌｔを決定するＶａｕｌｔ決定部１７０と、このアクセスするＶａｕｌｔを決定する際に（Ｖａｕｌｔ，Ｂａｎｋ）対がアイドル状態（メモリアクセス中でない状態）であるのかビジー状態（メモリアクセス中状態）なのかを表示している（Ｖａｕｌｔ，Ｂａｎｋ）対アクセス履歴部１８０と、および決定したアクセス先（Ｖａｕｌｔ，Ｂａｎｋ）対アドレスをもとにＨＭＣ３００を実際にアクセスするインタフェース部となるＨＭＣアクセスコントローラ部１９０とから構成される。

図４は、図３の（Ｖａｕｌｔ，Ｂａｎｋ）対アクセス履歴部１８０におけるＨＭＣ３００内の（Ｖａｕｌｔ，Ｂａｎｋ）対が現在、アイドル状態なのかビジー状態なのかを表示するアクセス表示フラグ構成を示す。マトリックス構成（Ｂａｎｋ番号、Ｖａｕｌｔ番号）で行がＢａｎｋ番号を示し、Ｂａｎｋ１からＢａｎｋＮまでであり、列がＶａｕｌｔ番号を示し、Ｖａｕｌｔ１からＶａｕｌｔＳまである。現状のＨＭＣ３００では、前述したように最大でも１６×３２程度の簡易なマトリックスであり、アイドル状態時が“０”でビジー状態が“１”のフラグ表示構成となっている。本フラグは、ＨＭＣ３００アクセス開始時に“１”を立て、ＨＭＣアクセス完了時に“０”リセットする。図４では、例として、マトリックス（３，２）においてＢａｎｋ３がアクセス該当部となった場合、Ｖａｕｌｔ２が“０”でアイドル状態であり、アクセス可能な状態にあることを示す。

以下、図３、図４の構成をもとに、メモリアクセスリクエストの流れおよびメモリアクセス制御の流れについて図５〜図７を用いて説明する。

図５において、図３のマルチコアＣＰＵ２００からＨＭＣ３００へのアクセスに伴うメモリリクエストを受け付け、ＨＭＣコントローラ１００の処理を開始する（ステップＳ１０１）。

ＣＰＵインタフェース部１１０では、受け付けたＨＭＣ３００へのメモリアクセスリクエストをパケット付随情報抽出部１２０に転送する（ステップＳ１０２）。

これを受信したパケット付随情報抽出部１２０では、メモリアクセスリクエストの内容に応じて検索テーブル処理に必要な宛先アドレス等の情報を抽出する（ステップＳ１０３）。

この抽出した宛先アドレス等の情報をもとに分割テーブル特定部１３０では、ハッシュ計算によりＨＭＣ３００の検索テーブルの分割テーブル番号（１〜Ｎ）を特定する（ステップＳ１０４）。

負荷監視部１４０では、各分割テーブルへのメモリアクセスリクエスト数により各分割テーブルへの負荷を監視し、負荷閾値部１５０のあらかじめプログラムされている閾値と比較する（ステップＳ１０５）。閾値との比較により、閾値を超える場合、負荷が集中している分割テーブルの内容をマルチコアＣＰＵ２００内の共有キャッシュメモリ２２０に上書きコピーし（ステップＳ１０６，Ｓ１０８）、それ以後のメモリアクセスリクエストについては共有キャッシュメモリ２２０の応答速度、ＨＭＣ３００の各（Ｖａｕｌｔ，Ｂａｎｋ）対の応答速度とＶａｕｌｔ数の積の比で共有キャッシュメモリ２２０とＨＭＣ３００に振り分けるように負荷監視部１４０がリクエスト振り分け機構２３０に指示する（ステップＳ１０９）。

また、閾値との比較により、閾値を超えない場合は、それ以後のメモリアクセスリクエストについては共有キャッシュメモリ２２０を介さずにＨＭＣ３００に直接行うように負荷監視部１４０がリクエスト振り分け機構２３０に指示する（ステップＳ１０６，Ｓ１０７）。

次に、Ｂａｎｋ番号特定部１６０では、分割テーブル特定部１３０で特定した分割テーブル番号からこれと対応するＨＭＣ３００内のアクセス先Ｂａｎｋ番号を特定する（ステップＳ１１０）。

Ｖａｕｌｔ決定部１７０では、Ｂａｎｋ番号からＨＭＣ３００のアクセス先Ｖａｕｌｔを決定するために該当するＢａｎｋ番号のうちアイドル状態のＶａｕｌｔを見つけるため（Ｖａｕｌｔ，Ｂａｎｋ）対アクセス履歴部１８０にアイドル状態の参照要求を出す（ステップＳ１１１）。この参照要求を受信した（Ｖａｕｌｔ，Ｂａｎｋ）対アクセス履歴部１８０では、図４に示す（Ｖａｕｌｔ，Ｂａｎｋ）対のアイドル状態かビジー状態かを表示するアクセス状態表示フラグを該当アクセスＢａｎｋ部分について順次確認する（ステップＳ１１２）。該当アクセスＢａｎｋ部分の全Ｖａｕｌｔがすべてビジー状態である（すべてフラグ“１”）場合、一定時間Ｗ（１〜数クロック程度）待機し（ステップＳ１１３，Ｓ１１５）、再びフラグを順次確認する（ステップＳ１１２）。一方、（Ｖａｕｌｔ，Ｂａｎｋ）対アクセス履歴部１８０は、アイドル状態を最初に見つけたＶａｕｌｔ番号を参照番号結果としてＶａｕｌｔ決定部１７０に返送する（ステップＳ１１３，Ｓ１１４）。この返送直後に、当該（Ｖａｕｌｔ，Ｂａｎｋ）対のアクセス状態表示フラグを“１”としてビジー状態にする（ステップＳ１１６）。

アクセスするＶａｕｌｔ番号を参照結果として受け取ったＶａｕｌｔ決定部１７０では、アクセスするＢａｎｋ番号とＶａｕｌｔ番号の対をＨＭＣアクセスコントローラ部１９０にアクセス要求する（ステップＳ１１７）。これを受信したＨＭＣアクセスコントローラ部１９０では、この（Ｖａｕｌｔ，Ｂａｎｋ）対番号よりＨＭＣ３００の該当アドレスを割り出して、ＨＭＣ３００に対してアクセス要求を出す（ステップＳ１１８）。このアクセスにおいて、ＨＭＣ３００からアクセス応答の状態を監視し（ステップＳ１１９）、アクセス応答が正常である場合にはアクセス結果をＶａｕｌｔ決定部１７０に返却転送する（ステップＳ１２０）。

これを受信したＶａｕｌｔ決定部１７０では、（Ｖａｕｌｔ，Ｂａｎｋ）対アクセス履歴部１８０の対応する（Ｖａｕｌｔ，Ｂａｎｋ）対のアクセス状態表示フラグを“０”にリセット要求を出しアクセス結果をＣＰＵインタフェース部１１０に返送する（ステップＳ１２１）。リセット要求に従って、（Ｖａｕｌｔ，Ｂａｎｋ）対アクセス履歴部では該当のアクセス状態表示フラグを“０”にリセットしアイドル状態とする（ステップＳ１２２）。

一方、ＨＭＣアクセスコントローラ部１９０は、ＨＭＣ３００からのアクセス応答が異常でエラーがあった場合には、アクセス結果をエラーとしてＶａｕｌｔ決定部１７０に返却する（ステップＳ１２３）。Ｖａｕｌｔ決定部１７０では、これをアクセスエラーとしてＣＰＵインタフェース部１１０に返送する（ステップＳ１２４）。マルチコアＣＰＵ２００では、エラー内容に応じてアプリケーションレベルで適宜エラー処理を行う。この流れをもって、メモリアクセスおよびメモリアクセス制御を終了する。

本実施の形態に係るパケット処理装置によれば、パケット処理における入力トラヒックのバースト性およびそれによる特定分割テーブルへのメモリアクセス集中に対して、共有キャッシュメモリ２２０の協調動作有無を動的に切り替えることで、非バースト入力時、バースト入力時ともマルチコアＣＰＵ２００およびＨＭＣ３００のもつ並列処理性能を最大限に引き出し、システム全体のスループットを最大化できる。

また、本実施の形態に係るパケット処理装置によれば、ＨＭＣ３００を含め汎用デバイスから成る汎用コンピュータによるシステム構成のため、幅広い既存アプリケーションをより高速に動作させることが可能である。

また、本実施の形態に係るパケット処理装置によれば、ＴＣＡＭに比べて低消費電力なＤＲＡＭベースのＨＭＣの採用により、システム全体の消費電力削減や実装面積削減によるコンパクト化が可能となる。

以上、本発明の一実施の形態について詳述したが、本発明は上記実施の形態に限定されるものではなく、本発明の主旨を逸脱しない範囲において、種々の改良や変更をしてもよい。

例えば、上記実施の形態では、ＨＭＣコントローラ１００をＦＰＧＡ等の再プログラム可能な汎用デバイスで実装していたが、専用デバイスとして実装してもよい。また、上記実施の形態では、ＨＭＣコントローラ１００をマルチコアＣＰＵ２００やＨＭＣ３００とは別デバイスとして実装していたが、ＨＭＣコントローラ１００の全部又は一部をマルチコアＣＰＵ２００に実装するようにしてもよい。

また、上記実施の形態では、記憶装置の一例としてＨＭＣについて説明したが、並列アクセス可能なブロック（Ｖａｕｌｔやメモリチャネル）及びバンク構成を有する他の構造・規格の記憶装置であっても本発明を適用できる。

１００…ＨＭＣコントローラ
１１０…ＣＰＵインタフェース部
１２０…パケット付随情報抽出部
１３０…分割テーブル特定部
１４０…負荷監視部
１５０…負荷閾値部
１６０…Ｂａｎｋ番号特定部
１７０…Ｖａｕｌｔ決定部
１８０…（Ｖａｕｌｔ，Ｂａｎｋ）対アクセス履歴部
１９０…ＨＭＣアクセスコントローラ部
２００…マルチコアＣＰＵ
２１０…ＣＰＵコア
２１１…コア専用キャッシュメモリ
２２０…共有キャッシュメモリ
２３０…リクエスト振り分け機構
３００…ＨＭＣ

Claims

複数のコア及び複数のコアで共有される共有キャッシュを有する演算装置と、前記演算装置からアクセスされるテーブルを記憶した記憶装置と、前記演算装置からの前記記憶装置の前記テーブルへのアクセスリクエストに基づき前記記憶装置へのメモリアクセスを制御するアクセス制御装置とを備えたパケット処理装置であって、
前記演算装置は、複数のコアからのアクセスリクエストを前記共有キャッシュ又は前記記憶装置へ振り分けるアクセスリクエスト振分手段を備え、
前記記憶装置は互いに並列アクセス可能な複数の記憶領域に区画されており、
前記テーブルは分割されて前記記憶装置の前記記憶領域に分散して記憶されており、
前記アクセス制御装置は、前記アクセスリクエストに対してアクセス対象データが格納されている記憶領域を特定する記憶領域特定手段と、前記記憶領域特定手段により特定された記憶領域にアクセスするアクセス制御手段と、前記演算装置からのアクセスリクエストによる前記記憶装置の負荷を監視するとともに負荷の高い記憶領域に記憶されている分割されたテーブルを前記共有キャッシュにコピーする負荷監視手段とを備えた
ことを特徴とするパケット処理装置。
前記負荷監視手段は、前記記憶装置の負荷に応じた振分指示を前記アクセスリクエスト振分手段に通知し、
前記アクセスリクエスト振分手段は、前記振分指示に応じた比率でアクセスリクエストを前記共有キャッシュ又は前記記憶装置へ振り分ける
ことを特徴とする請求項１記載のパケット処理装置。
前記記憶装置は互いに並列アクセス可能なＳ個（Ｓは２以上の自然数）のブロックに区画されており、
前記各ブロックは互いに並列アクセス可能なＮ個（Ｎは２以上の自然数）のバンクに区画されており、
前記テーブルをＮ個の分割テーブルに分割し、前記Ｓ個のブロックのそれぞれにおいて、前記Ｎ個の分割テーブルを前記Ｎ個のバンクに対応させて記憶した
ことを特徴とする請求項１又は２記載のパケット処理装置。
複数のコア及び複数のコアで共有される共有キャッシュを有する演算装置と、前記演算装置からアクセスされるテーブルを記憶した記憶装置と、前記演算装置からの前記記憶装置の前記テーブルへのアクセスリクエストに基づき前記記憶装置へのメモリアクセスを制御するアクセス制御装置とを備えたパケット処理装置におけるメモリアクセス制御方法であって、
前記記憶装置は互いに並列アクセス可能な複数の記憶領域に区画されており、
前記テーブルは分割されて前記記憶装置の前記記憶領域に分散して記憶されており、
前記演算装置のアクセスリクエスト振分手段が、複数のコアからのアクセスリクエストを前記共有キャッシュ又は前記記憶装置へ振り分ける工程と、
前記アクセス制御装置の記憶領域特定手段が、前記アクセスリクエストに対してアクセス対象データが格納されている記憶領域を特定する工程と、
前記アクセス制御装置のアクセス制御手段が、前記記憶領域特定手段により特定された記憶領域にアクセスする工程と、
前記アクセス制御装置の負荷監視手段が、前記演算装置からのアクセスリクエストによる前記記憶装置の負荷を監視するとともに負荷の高い記憶領域に記憶されている分割されたテーブルを前記共有キャッシュにコピーする工程とを備えた
ことを特徴とするパケット処理装置におけるメモリアクセス制御方法。
コンピュータを、請求項１乃至３何れか１項記載の情報処理装置のアクセス制御装置として機能させる
ことを特徴とするメモリアクセス制御プログラム。