JP2023505783A - Gpuパケット集約システム - Google Patents
Gpuパケット集約システム Download PDFInfo
- Publication number
- JP2023505783A JP2023505783A JP2022534186A JP2022534186A JP2023505783A JP 2023505783 A JP2023505783 A JP 2023505783A JP 2022534186 A JP2022534186 A JP 2022534186A JP 2022534186 A JP2022534186 A JP 2022534186A JP 2023505783 A JP2023505783 A JP 2023505783A
- Authority
- JP
- Japan
- Prior art keywords
- packet
- output
- input
- input packet
- gpu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002776 aggregation Effects 0.000 title claims description 15
- 238000004220 aggregation Methods 0.000 title claims description 15
- 230000004044 response Effects 0.000 claims abstract description 57
- 239000000872 buffer Substances 0.000 claims abstract description 39
- 230000005540 biological transmission Effects 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000009471 action Effects 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 47
- 238000001514 detection method Methods 0.000 claims description 26
- 230000004931 aggregating effect Effects 0.000 claims description 12
- 238000004891 communication Methods 0.000 description 13
- 230000008901 benefit Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000000717 retained effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004744 fabric Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/173—Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
- G06F15/17337—Direct connection machines, e.g. completely connected computers, point to point communication networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/28—Indexing scheme for image data processing or generation, in general involving image processing hardware
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2212/00—Encapsulation of packets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/50—Queue scheduling
- H04L47/62—Queue scheduling characterised by scheduling criteria
- H04L47/625—Queue scheduling characterised by scheduling criteria for service slots or service orders
- H04L47/6255—Queue scheduling characterised by scheduling criteria for service slots or service orders queue load conditions, e.g. longest queue first
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/90—Buffering arrangements
- H04L49/9057—Arrangements for supporting packet reassembly or resequencing
Abstract
Description
Claims (20)
- パケット管理コンポーネント[104]が、グラフィックス処理ユニット(GPU)[100]のコマンドプロセッサ[102]から、第1のコマンドのセットを示す第1の入力パケット[404]を受信することと、
前記第1の入力パケットが送信条件を示さないと判定したことに応じて、前記第1の入力パケットに対応するデータ[412]を、前記パケット管理コンポーネントのパケットバッファー[110]に記憶された、以前に受信したパケットデータ[410]と共に自動的に集約することと、を含む、
方法。 - 前記GPUから受信したコマンドの第2のセットを示す第2の入力パケット[416]を受信することと、
前記第2の入力パケットが送信条件を示していると判定したことに応じて、集約データを出力パケットで計算ユニットに送信することと、
前記送信条件によって示される動作を行うことと、をさらに含む、
請求項1の方法。 - 前記第1の入力パケットは第1の複数の描画インデックスを含み、前記以前に受信したパケットデータは第2の複数の描画インデックスを含み、前記集約データは前記第1の複数の描画インデックス及び前記第2の複数の描画インデックスを含む、
請求項2の方法。 - 前記出力パケットは、前記GPUの前記計算ユニットによって行われる動作のセットを含むウェーブフロントである、
請求項2又は3の方法。 - 前記第2の入力パケットは、レジスタ状態更新、コンテキストスイッチ又はパイプラインフラッシュのうち少なくとも1つを示す、
請求項2~4の何れかの方法。 - 前記動作を行った後に、前記GPUから受信したコマンドの第3のセットを示す第3の入力パケット[406]を受信することと、
前記パケットバッファーにおいて前記第3の入力パケットに対応するデータ[414]を記憶することと、
タイムアウト条件が満たされていると検出したことに応じて、前記第3の入力パケットを第2の出力パケットで前記計算ユニットに送信することと、をさらに含む、
請求項2~5の何れかの方法。 - 前記動作を行った後に、前記GPUから受信したコマンドの第3のセットを示す第3の入力パケットを受信することと、
前記パケットバッファーにおいて前記第3の入力パケットに対応するデータを記憶することと、
前記パケットバッファーに記憶された第2の集約データの量が出力サイズ閾値を超えていると検出したことに応じて、前記第3の入力パケットを第2の出力パケットで前記計算ユニットに送信することと、をさらに含む、
請求項2~5の何れかの方法。 - 前記出力サイズ閾値は、ユーザーがプログラム可能である、
請求項7の方法。 - 前記GPUから受信したコマンドを示す入力パケット[120]を送信するように構成されたコマンドプロセッサ[102]と、
パケット管理コンポーネント[104]と、を備え、
前記パケット管理コンポーネント[104]は、
前記コマンドプロセッサから受信した前記入力パケットに対応するデータを記憶するように構成されたパケットバッファー[110]と、
パケット集約コンポーネント[112]と、を備え、
前記パケット集約コンポーネント[112]は、
着信する第1の入力パケットの状態情報を識別することと、
前記状態情報が集約状態を示していることに応じて、前記第1の入力パケットに対応するデータを、前記パケットバッファーに記憶された第2の入力パケットに対応するデータと共に集約することと、
前記状態情報が送信条件を示していることに応じて、計算ユニットによって処理するために出力パケット[132]を送信することであって、前記出力パケットは、前記パケットバッファーに記憶された集約データを含む、ことと、
を行うように構成されている、
グラフィクス処理ユニット(GPU)[100]。 - 前記パケット集約コンポーネントは、前記第2の入力パケットに対応する前記データの少なくとも一部を記憶している時間がタイムアウト閾値を超えていることに応じて、前記出力パケットを送信させるように構成されたタイムアウト検出コンポーネント[122]を備える、
請求項9のGPU。 - 前記タイムアウト閾値は、ユーザーによって指定される、
請求項10のGPU。 - 前記出力パケットは、ウェーブフロントである、
請求項9又は10のGPU。 - 前記集約データは、前記第1の入力パケットの一部及び前記第2の入力パケットの一部を含む、
請求項9~12の何れかのGPU。 - 前記集約データは、前記第1の入力パケット及び前記第2の入力パケットを含む、
請求項9~12の何れかのGPU。 - パケット管理コンポーネント[104]が、グラフィックス処理ユニット(GPU)[100]から受信した第1のコマンドのセットを示す第1の入力パケットをコマンドプロセッサ[102]から受信することと、
前記パケット管理コンポーネントのパケットバッファー[110]において、前記第1の入力パケットに対応するデータを記憶することと、
前記GPUから受信したコマンドの第2のセットを示す第2の入力パケットを受信することと、
出力条件が満たされていないと判定したことに応じて、前記第2の入力パケットに対応するデータを、前記第1の入力パケットに対応する前記データと共に自動的に集約することと、
出力条件が満たされていると判定したことに応じて、集約データを1つ以上の出力パケットで1つ以上の計算ユニットに送信することと、を含む、
方法。 - 前記出力条件が満たされていると判定することは、前記パケットバッファーに記憶された前記集約データの量が出力サイズ閾値を超えていると判定したことに応じて行われる、
請求項15の方法。 - 前記出力条件が満たされていると判定することは、第3の入力パケットが送信条件を示していると判定することを含む、
請求項15又は16の方法。 - 前記第1の入力パケットを受信したことに応じて、前記パケット管理コンポーネントのタイムアウト検出コンポーネントにおいてパケットストレージタイマーを開始することをさらに含む、
請求項15~17の何れかの方法。 - 前記出力条件が満たされていると判定することは、前記パケットストレージタイマーがタイムアウト閾値を超えていると判定することを含む、
請求項18の方法。 - 前記タイムアウト閾値は、ユーザーによって指定される、
請求項19の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/713,472 US11210757B2 (en) | 2019-12-13 | 2019-12-13 | GPU packet aggregation system |
US16/713,472 | 2019-12-13 | ||
PCT/US2020/063923 WO2021119072A1 (en) | 2019-12-13 | 2020-12-09 | Gpu packet aggregation system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023505783A true JP2023505783A (ja) | 2023-02-13 |
JPWO2021119072A5 JPWO2021119072A5 (ja) | 2023-11-28 |
Family
ID=76316977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022534186A Pending JP2023505783A (ja) | 2019-12-13 | 2020-12-09 | Gpuパケット集約システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US11210757B2 (ja) |
EP (1) | EP4073639A4 (ja) |
JP (1) | JP2023505783A (ja) |
KR (1) | KR20220113710A (ja) |
CN (1) | CN114902181A (ja) |
WO (1) | WO2021119072A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210117202A1 (en) * | 2020-12-03 | 2021-04-22 | Intel Corporation | Methods and apparatus to generate graphics processing unit long instruction traces |
CN113626369B (zh) * | 2021-08-14 | 2023-05-26 | 苏州浪潮智能科技有限公司 | 一种多节点集群环形通信的方法、装置、设备及可读介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050249231A1 (en) * | 2003-11-25 | 2005-11-10 | Asif Khan | Methods and systems for reliable distribution of media over a network |
US7209139B1 (en) * | 2005-01-07 | 2007-04-24 | Electronic Arts | Efficient rendering of similar objects in a three-dimensional graphics engine |
US7839876B1 (en) | 2006-01-25 | 2010-11-23 | Marvell International Ltd. | Packet aggregation |
CN101471826B (zh) * | 2007-12-27 | 2012-12-12 | 华为技术有限公司 | 命令行接口的测试方法及装置 |
US8374986B2 (en) | 2008-05-15 | 2013-02-12 | Exegy Incorporated | Method and system for accelerated stream processing |
EP2596470A1 (en) * | 2010-07-19 | 2013-05-29 | Advanced Micro Devices, Inc. | Data processing using on-chip memory in multiple processing units |
CN102323917B (zh) * | 2011-09-06 | 2013-05-15 | 中国人民解放军国防科学技术大学 | 一种基于共享内存实现多进程共享gpu的方法 |
US20130155077A1 (en) * | 2011-12-14 | 2013-06-20 | Advanced Micro Devices, Inc. | Policies for Shader Resource Allocation in a Shader Core |
US20130162661A1 (en) * | 2011-12-21 | 2013-06-27 | Nvidia Corporation | System and method for long running compute using buffers as timeslices |
US9509616B1 (en) * | 2014-11-24 | 2016-11-29 | Amazon Technologies, Inc. | Congestion sensitive path-balancing |
KR102287402B1 (ko) | 2015-03-23 | 2021-08-06 | 삼성전자주식회사 | 버스 인터페이스 장치, 이를 포함하는 반도체 집적회로 장치 및 상기 장치의 동작 방법 |
US9830731B2 (en) | 2015-04-01 | 2017-11-28 | Mediatek Inc. | Methods of a graphics-processing unit for tile-based rendering of a display area and graphics-processing apparatus |
US10320695B2 (en) | 2015-05-29 | 2019-06-11 | Advanced Micro Devices, Inc. | Message aggregation, combining and compression for efficient data communications in GPU-based clusters |
US20170300361A1 (en) * | 2016-04-15 | 2017-10-19 | Intel Corporation | Employing out of order queues for better gpu utilization |
WO2018044738A1 (en) * | 2016-08-29 | 2018-03-08 | Advanced Micro Devices, Inc. | Hybrid render with preferred primitive batch binning and sorting |
US10572258B2 (en) * | 2017-04-01 | 2020-02-25 | Intel Corporation | Transitionary pre-emption for virtual reality related contexts |
CN110223216B (zh) * | 2019-06-11 | 2023-01-17 | 西安芯瞳半导体技术有限公司 | 一种基于并行plb的数据处理方法、装置及计算机存储介质 |
CN110415161B (zh) * | 2019-07-19 | 2023-06-27 | 龙芯中科(合肥)技术有限公司 | 图形处理方法、装置、设备及存储介质 |
-
2019
- 2019-12-13 US US16/713,472 patent/US11210757B2/en active Active
-
2020
- 2020-12-09 CN CN202080085569.6A patent/CN114902181A/zh active Pending
- 2020-12-09 WO PCT/US2020/063923 patent/WO2021119072A1/en unknown
- 2020-12-09 EP EP20899498.8A patent/EP4073639A4/en active Pending
- 2020-12-09 JP JP2022534186A patent/JP2023505783A/ja active Pending
- 2020-12-09 KR KR1020227019998A patent/KR20220113710A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
US20210183004A1 (en) | 2021-06-17 |
US11210757B2 (en) | 2021-12-28 |
WO2021119072A1 (en) | 2021-06-17 |
KR20220113710A (ko) | 2022-08-16 |
CN114902181A (zh) | 2022-08-12 |
EP4073639A1 (en) | 2022-10-19 |
EP4073639A4 (en) | 2024-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107231815B (zh) | 用于图形渲染的系统和方法 | |
EP3129880B1 (en) | Method and device for augmenting and releasing capacity of computing resources in real-time stream computing system | |
CN108647104B (zh) | 请求处理方法、服务器及计算机可读存储介质 | |
CN110741356A (zh) | 多处理器系统中的中继一致存储器管理 | |
US11030136B2 (en) | Memory access optimization for an I/O adapter in a processor complex | |
US20110161965A1 (en) | Job allocation method and apparatus for a multi-core processor | |
JP2023505783A (ja) | Gpuパケット集約システム | |
US10896001B1 (en) | Notifications in integrated circuits | |
US9996349B2 (en) | Clearing specified blocks of main storage | |
US20210119854A1 (en) | Scalable statistics and analytics mechanisms in cloud networking | |
CN112650558A (zh) | 数据处理方法、装置、可读介质和电子设备 | |
CN103093005A (zh) | 一种遥信数据处理方法和装置 | |
CN104104705A (zh) | 分布式存储系统的接入方法和设备 | |
JP6974510B2 (ja) | データを処理するための方法、装置、デバイス及び媒体 | |
TW201435576A (zh) | 陷阱處理期間的協作執行緒陣列粒化內文切換 | |
US8862786B2 (en) | Program execution with improved power efficiency | |
WO2012023625A1 (ja) | 拡張性評価装置、拡張性評価方法および拡張性評価プログラム | |
CN111338769A (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
US10846125B2 (en) | Memory access optimization in a processor complex | |
US20220027278A1 (en) | Techniques for core-specific metrics collection | |
CN110647493B (zh) | 一种数据传输方法、处理器和pcie系统 | |
JP6653786B2 (ja) | I/o制御方法およびi/o制御システム | |
CN113296972A (zh) | 一种信息的注册方法、计算设备及存储介质 | |
CN112395249A (zh) | 用于多个异步消耗者的方法和装置 | |
KR20140056743A (ko) | 가상 클라우드 환경 내 맵리듀스 클러스터 및 이를 위한 설계방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231116 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231116 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20231116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240329 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240402 |