JP6539236B2 - 効果的なニューラルネットワークの配置に用いるシステム及び方法 - Google Patents
効果的なニューラルネットワークの配置に用いるシステム及び方法 Download PDFInfo
- Publication number
- JP6539236B2 JP6539236B2 JP2016172848A JP2016172848A JP6539236B2 JP 6539236 B2 JP6539236 B2 JP 6539236B2 JP 2016172848 A JP2016172848 A JP 2016172848A JP 2016172848 A JP2016172848 A JP 2016172848A JP 6539236 B2 JP6539236 B2 JP 6539236B2
- Authority
- JP
- Japan
- Prior art keywords
- batch
- data
- processing
- requests
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
- H04L45/08—Learning-based routing, e.g. using neural networks or artificial intelligence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
- H04L47/125—Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Medical Informatics (AREA)
- Neurology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
Description
本出願は2015年9月4日に出願された第62/214,816号米国特許出願の優先権と、本出願は2016年7月13日に出願された第15/209,499号米国特許出願の優先権とを主張し、前記特許文献がその全部内容及びすべての目的のために援用するように本願に組み込んだ。
広告プレースメント、画像及びビデオ認識、音声認識、言語処理、ウェブページ捜索などを含む様々な分野において、ディープニューラルネットワークは日々重要なものになる。多くの重要タスクに対して、ディープニューラルネットワークは比較的良好な精度を提供するが、大規模なディープニューラルネットワークの配置は高価なものである可能性がある。これは主に大量の数学演算を必要とする可能性がある大型ニューラルネットワークを使用する分類データ点の計算負荷に起因する。
図2は本出願の実施形態に係るニューラルネットワークを配置するためのアーキテクチャ構成を示す。アーキテクチャ200は、データセンター210を含み、データセンター210はロードバランサ202及び1つ又は複数のサーバー204を含んでもよく、1つ又は複数のサーバー204はそれぞれバッチビルダー214及び計算エンジン216を含む。
Tストリーム全体処理<T最後のパケット到達+Δ許容可能な遅延と示されることができる。
a)データを前処理する。
b)前処理されたデータを、複数のユーザでシェアされるバッチマトリックスにパッケージする。
c)計算エンジンに当該バッチマトリックスを転送する。
1)各ユーザに用いる入力バッファ。
2)各ユーザに用いる前処理バッファ。
3)バッチのリンクリスト(即ち、ニューラルネットワークに入力されたマトリックス)、バッチリストと示されてもよい。例えば音声又はビデオ処理のアプリケーションにおいて、ニューラルネットワークは計算エンジンが正確的な出力を生成するように、所定の順序に従ってバッチを処理することができる。実施形態において、2つ又はより多いユーザの間でバッチをシェアすることができる。実施形態において、前処理を実行しなくてもよい。
2)他のより構造化の方法は、以下の条件の中の1つを満たす場合にバッチを送信する。
a)バッチは次のパケットが既に到達したユーザのデータを含み、計算エンジンの処理時間にバッチビルダーにより追加の繰り返しを行うことに必要な時間を加えると遅延制約を超える。
b)バッチリストは十分に充填されて、それにより任意のアクティブユーザに対しての最後のパケットが現在に到達すると、遅延制約を満たすことが不可能性である。
Claims (18)
- 少なくとも部分的に未知のタイミングで、ニューラルネットワークモデルを使用することにより処理しようとする、1つ又は複数の制約で制限されるリクエストに関連するデータを受信するステップと、
前記1つ又は複数の制約における少なくとも1つを利用して、前記データにおける少なくとも一部をバッチに動的集合するステップと、
メモリから前記ニューラルネットワークモデルをロードする負荷をシェアリングし、データスループットを向上させるように、複数のスレッドを統合する単一スレッドにより前記バッチを処理するステップと、を含んでおり、
ここで、バッチビルダーが、
単一スレッドで実行することで、
パケットを含む前記データを前処理し、
前処理されたデータを複数のユーザのうちの少なくとも2つのユーザでシェアされたバッチマトリックスに集合し、
計算エンジンに前記バッチマトリックスを提供する、ステップと、を更に含んでおり、
ここで、前記バッチビルダーは、
各ユーザに用いる入力バッファ、
各ユーザに用いる前処理バッファ、
バッチリストと示されるバッチマトリックス、
という3種のタイプのデータ構造を維持することを特徴とする
データ処理リクエストのスループットを向上させるバッチ方法。 - 前記1つ又は複数の制約は遅延要求を含むことを特徴とする
請求項1に記載の方法。 - 前記遅延要求は、前記リクエストにおける最後のパケットが到達した後の予定時間量内にリクエストを処理する要求、及び既に前記リクエストからのデータを含むバッチにデータを添加しない要求の中の少なくとも1つを含むことを特徴とする
請求項2に記載の方法。 - 所定の遅延に対して処理の実行に影響を受ける2つ又はより多いリクエストからのデータを遅延に対して敏感なバッチに集合するステップと、
所定の遅延に対して処理の実行に影響を受けない2つ又はより多いリクエストからのデータを処理するためのスループット指向のバッチに集合するステップを更に含んでおり、
ここで、前記所定の遅延に対して処理の実行に影響を受けるバッチの処理優先度は前記スループット指向のバッチの処理優先度よりも高いことを特徴とする
請求項2に記載の方法。 - 前記バッチは少なくとも1つのステートフルリクエストを含むことを特徴とする
請求項1に記載の方法。 - 前記パケットからのデータを前記複数のユーザのうちの1つのユーザに関連する入力バッファにコピーするステップと、
前記パケットを廃棄するステップと、
前記入力バッファを前処理することにより第1組の結果を取得するステップと、
前記第1組の結果を前記複数のユーザのうちの前記1つのユーザに関連する前処理バッファに置くステップと、を更に含むことを特徴とする
請求項1に記載の方法。 - 前記入力バッファを前処理するステップにおいては、
前記複数のユーザのうちの前記1つのユーザに関連する前処理バッファからの1つの画像及び一部のスペクトログラムを示す予め決められた量のデータを前記バッチリストにおける適格バッチに伝送するステップであって、前記適格バッチは、現在のユーザのために処理される任意のデータを含まないバッチを示す、ステップ、を含むことを特徴とする
請求項6に記載の方法。 - すべての動作中のユーザに関連するデータについて請求項6の各ステップを繰り返すことにより前記バッチリストを充填することに応答して、前記計算エンジンの状態に基づいて前記計算エンジンに1つ又は複数のバッチを提供するかどうかを判定するステップを更に含むことを特徴とする
請求項6に記載の方法。 - 前記計算エンジンに1つ又は複数のバッチを提供かどうかを判定するステップは、
遅延制約を超える追加の繰り返しに必要な時間と、遅延制約に対するバッチリストの状態の効果の中の少なくとも1つに基づいて実行されることを特徴とする
請求項8に記載の方法。 - ニューラルネットワークモデルに関連するリクエストを処理するためのバッチ処理システムであって、
1つ又は複数の計算設備を含んでおり、
各計算設備が、
少なくとも1つのプロセッサ及び記憶設備と、
異なるリクエストに関連するデータを受信し、更に1つ又は複数の制約により少なくとも2つ異なるリクエストからのデータブロックをバッチに動的集合するバッチビルダーアセンブリと、
メモリから前記ニューラルネットワークモデルをロードする負荷をシェアリングし、データスループットを向上させるように、前記バッチビルダーアセンブリと通信可能に連結されて、複数のスレッドを統合する単一スレッドにおいて前記バッチを処理する計算エンジンアセンブリと、を含んでおり、
ここで、前記バッチビルダーアセンブリは、
パケットを含む前記データを前処理し、
前処理されたデータを複数のユーザのうちの少なくとも2つのユーザでシェアされたバッチマトリックスに集合し、
計算エンジンに前記バッチマトリックスを提供し、
ここで、前記バッチビルダーアセンブリは、
各ユーザに用いる入力バッファ、
各ユーザに用いる前処理バッファ、
バッチリストと示されるバッチマトリックス、
という3種のタイプのデータ構造を維持することを特徴とする
ニューラルネットワークモデルに関連するリクエストを処理するためのバッチ処理システム。 - データブロックの大きさがニューラルネットワークモデルの入力の大きさにより確定されることを特徴とする
請求項10に記載のバッチ処理システム。 - ロードバランサを更に含み、前記ロードバランサは未知のタイミングで複数のリクエストを受信し、前記1つ又は複数の計算設備において前記複数のリクエストをロードバランシングすることにより、同一のリクエストに関連するデータが同一の計算設備に送信されることを特徴とする
請求項10に記載のバッチ処理システム。 - 前記計算エンジンは処理されたバッチをそれぞれ1つのユーザに関連する複数の応答に分けることを特徴とする
請求項10に記載のバッチ処理システム。 - 1つ又は複数の指令シーケンスを含む非一時的コンピュータ可読媒体を含み、前記1つ又は複数の指令シーケンスが少なくとも1つのプロセッサで実行される場合に、
少なくとも部分的に未知のタイミングで、ニューラルネットワークモデルを使用することにより処理しようとする、1つ又は複数の制約で制限されるリクエストに関連するデータを受信するステップと、
前記1つ又は複数の制約における少なくとも1つを利用して、前記データにおける少なくとも一部をバッチに動的集合するステップと、
メモリから前記ニューラルネットワークモデルをロードする負荷をシェアリングし、データスループットを向上させるように、複数のスレッドを統合する単一スレッドにより前記バッチを処理するステップと、が実行されており、
ここで、バッチビルダーが、
単一スレッドで実行することで、
パケットを含む前記データを前処理し、
前処理されたデータを複数のユーザのうちの少なくとも2つのユーザでシェアされたバッチマトリックスに集合し、
計算エンジンに前記バッチマトリックスを提供する、ステップと、を更に実行されており、
ここで、前記バッチビルダーは、
各ユーザに用いる入力バッファ、
各ユーザに用いる前処理バッファ、
バッチリストと示されるバッチマトリックス、
という3種のタイプのデータ構造を維持することを特徴とする
バッチビルダー。 - 前記バッチビルダーは、複数のユーザのうちの各ユーザに対する入力バッファ及び前処理バッファを含んでおり、各ユーザが処理しようとするリクエストに関連することを特徴とする
請求項14に記載のバッチビルダー。 - 前記バッチビルダーは前記リクエストを非同期的に受信することを特徴とする
請求項14に記載のバッチビルダー。 - 前記1つ又は複数の制約は、前記リクエストにおける最後のパケットが到達した後の予定時間量内にリクエストを処理する要求、及び既に前記リクエストからのデータを含むバッチにデータを添加しない要求の中の少なくとも1つを含むことを特徴とする
請求項14に記載のバッチビルダー。 - 実行するステップは、更に
遅延に対して敏感な2つ又はより多いリクエストからのデータを遅延に対して敏感なバッチに集合するステップと、
遅延に対して敏感ではない2つ又はより多いリクエストからのデータを処理るためのスループット指向のバッチに集合するステップを更に含んでおり、
ここで、前記遅延に対して敏感なバッチの処理優先度は前記スループット指向のバッチの処理優先度よりも高いことを特徴とする
請求項14に記載のバッチビルダー。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562214816P | 2015-09-04 | 2015-09-04 | |
US62/214,816 | 2015-09-04 | ||
US15/209,499 US10769533B2 (en) | 2015-09-04 | 2016-07-13 | Systems and methods for efficient neural network deployments |
US15/209,499 | 2016-07-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017050001A JP2017050001A (ja) | 2017-03-09 |
JP6539236B2 true JP6539236B2 (ja) | 2019-07-03 |
Family
ID=56896367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016172848A Active JP6539236B2 (ja) | 2015-09-04 | 2016-09-05 | 効果的なニューラルネットワークの配置に用いるシステム及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10769533B2 (ja) |
EP (1) | EP3139314A1 (ja) |
JP (1) | JP6539236B2 (ja) |
KR (1) | KR20170028861A (ja) |
CN (1) | CN106503791B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112598112A (zh) * | 2020-12-04 | 2021-04-02 | 深圳大学 | 一种基于图神经网络的资源调度方法 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018033137A1 (zh) * | 2016-08-19 | 2018-02-22 | 北京市商汤科技开发有限公司 | 在视频图像中展示业务对象的方法、装置和电子设备 |
CN106953802B (zh) * | 2017-03-01 | 2020-03-03 | 浙江工商大学 | 一种基于深度学习的网络最优路径选择方法 |
US11694066B2 (en) | 2017-10-17 | 2023-07-04 | Xilinx, Inc. | Machine learning runtime library for neural network acceleration |
CN107818367B (zh) * | 2017-10-30 | 2020-12-29 | 中国科学院计算技术研究所 | 用于神经网络的处理系统和处理方法 |
US20210166106A1 (en) * | 2017-12-12 | 2021-06-03 | The Regents Of The University Of California | Residual binary neural network |
CN109919308B (zh) * | 2017-12-13 | 2022-11-11 | 腾讯科技(深圳)有限公司 | 一种神经网络模型部署方法、预测方法及相关设备 |
US11275991B2 (en) | 2018-04-04 | 2022-03-15 | Nokia Technologies Oy | Coordinated heterogeneous processing of training data for deep neural networks |
KR20190136431A (ko) | 2018-05-30 | 2019-12-10 | 삼성전자주식회사 | 뉴럴 네트워크 시스템, 이를 포함하는 어플리케이션 프로세서 및 뉴럴 네트워크 시스템의 동작방법 |
CN111078625B (zh) * | 2018-10-18 | 2022-03-29 | 上海寒武纪信息科技有限公司 | 片上网络处理系统和片上网络数据处理方法 |
CN111124658B (zh) * | 2018-10-31 | 2023-09-29 | 伊姆西Ip控股有限责任公司 | 用于处理目标数据的方法、设备和计算机程序产品 |
KR20200051278A (ko) | 2018-11-05 | 2020-05-13 | 삼성전자주식회사 | 인공 신경망에서의 작업 관리 방법 및 이를 포함하는 시스템 |
CN110147251B (zh) * | 2019-01-28 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 用于计算神经网络模型的系统、芯片及计算方法 |
EP3712823A1 (de) * | 2019-03-21 | 2020-09-23 | Siemens Aktiengesellschaft | Verfahren und vorrichtung zur steuerung eines technischen geräts mittels einem programmcode |
US11494237B2 (en) | 2019-06-26 | 2022-11-08 | Microsoft Technology Licensing, Llc | Managing workloads of a deep neural network processor |
US20210216868A1 (en) * | 2020-01-08 | 2021-07-15 | Maxim Integrated Products, Inc. | Systems and methods for reducing memory requirements in neural networks |
CN111767059B (zh) * | 2020-06-30 | 2023-03-31 | 北京百度网讯科技有限公司 | 深度学习模型的部署方法、装置、电子设备和存储介质 |
CN111898698B (zh) * | 2020-08-10 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 对象的处理方法及装置、存储介质和电子设备 |
CN113778635A (zh) * | 2021-01-04 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 处理用户请求的方法、装置、设备和计算机可读介质 |
US11716257B1 (en) * | 2021-05-24 | 2023-08-01 | Neureality Ltd. | Batching of artificial intelligence jobs |
US11442775B1 (en) * | 2021-12-03 | 2022-09-13 | FriendliAI Inc. | Dynamic batching for inference system for transformer-based generation tasks |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100367715B1 (ko) * | 1999-04-03 | 2003-01-10 | 조용범 | 이동통신의 채널할당을 위한 디지털 홉필드 신경망 칩 |
JP3993750B2 (ja) | 2001-03-07 | 2007-10-17 | 株式会社エヌ・ティ・ティ・ドコモ | ゲートウェイ、中継制御方法、プログラムおよび記録媒体 |
US7164919B2 (en) | 2002-07-01 | 2007-01-16 | Qualcomm Incorporated | Scheduling of data transmission for terminals with variable scheduling delays |
US7751338B2 (en) | 2003-12-06 | 2010-07-06 | Terayon Communication Systems, Inc. | Establishment of multiple upstream DOCSIS logical channels based upon performance |
US7626988B2 (en) * | 2004-06-09 | 2009-12-01 | Futurewei Technologies, Inc. | Latency-based scheduling and dropping |
US8135362B2 (en) * | 2005-03-07 | 2012-03-13 | Symstream Technology Holdings Pty Ltd | Symbol stream virtual radio organism method and apparatus |
US8667120B2 (en) | 2006-04-26 | 2014-03-04 | Nippon Telegraph And Telephone Corporation | Load control device and method thereof for controlling requests sent to a server |
US8185909B2 (en) | 2007-03-06 | 2012-05-22 | Sap Ag | Predictive database resource utilization and load balancing using neural network model |
US8369356B2 (en) | 2007-03-21 | 2013-02-05 | Qualcomm Incorporated | Dynamic management of receiver resources |
US7742418B2 (en) | 2007-08-24 | 2010-06-22 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for determining latency and throughput of a data communication |
JP2008159081A (ja) | 2008-02-21 | 2008-07-10 | Nec Corp | キューイング装置、キュー処理方法、およびキュー処理プログラム |
US8276004B2 (en) | 2009-12-22 | 2012-09-25 | Intel Corporation | Systems and methods for energy efficient load balancing at server clusters |
US9251097B1 (en) * | 2011-03-22 | 2016-02-02 | Amazon Technologies, Inc. | Redundant key management |
WO2013033702A1 (en) | 2011-09-01 | 2013-03-07 | Google Inc. | Establishing network connections |
US9336483B1 (en) * | 2015-04-03 | 2016-05-10 | Pearson Education, Inc. | Dynamically updated neural network structures for content distribution networks |
US10140572B2 (en) | 2015-06-25 | 2018-11-27 | Microsoft Technology Licensing, Llc | Memory bandwidth management for deep learning applications |
-
2016
- 2016-07-13 US US15/209,499 patent/US10769533B2/en active Active
- 2016-08-30 CN CN201610772116.6A patent/CN106503791B/zh active Active
- 2016-09-02 KR KR1020160113488A patent/KR20170028861A/ko not_active Application Discontinuation
- 2016-09-05 EP EP16187221.3A patent/EP3139314A1/en not_active Ceased
- 2016-09-05 JP JP2016172848A patent/JP6539236B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112598112A (zh) * | 2020-12-04 | 2021-04-02 | 深圳大学 | 一种基于图神经网络的资源调度方法 |
CN112598112B (zh) * | 2020-12-04 | 2021-09-10 | 深圳大学 | 一种基于图神经网络的资源调度方法 |
Also Published As
Publication number | Publication date |
---|---|
US10769533B2 (en) | 2020-09-08 |
KR20170028861A (ko) | 2017-03-14 |
EP3139314A1 (en) | 2017-03-08 |
CN106503791A (zh) | 2017-03-15 |
US20170068889A1 (en) | 2017-03-09 |
JP2017050001A (ja) | 2017-03-09 |
CN106503791B (zh) | 2019-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6539236B2 (ja) | 効果的なニューラルネットワークの配置に用いるシステム及び方法 | |
Xiang et al. | Pipelined data-parallel CPU/GPU scheduling for multi-DNN real-time inference | |
US11029866B2 (en) | Methods, devices, and computer program products for processing data | |
Yang et al. | Re-thinking CNN frameworks for time-sensitive autonomous-driving applications: Addressing an industrial challenge | |
US10140572B2 (en) | Memory bandwidth management for deep learning applications | |
US10719366B1 (en) | Dynamic and selective hardware acceleration | |
EP3374933A2 (en) | Training neural networks represented as computational graphs | |
Kang et al. | Lalarand: Flexible layer-by-layer cpu/gpu scheduling for real-time dnn tasks | |
US20210295168A1 (en) | Gradient compression for distributed training | |
CN112860402B (zh) | 一种深度学习推理服务的动态批处理任务调度方法及系统 | |
US20210303988A1 (en) | Multi-model training pipeline in distributed systems | |
US9471387B2 (en) | Scheduling in job execution | |
CN111580974B (zh) | Gpu实例分配方法、装置、电子设备和计算机可读介质 | |
CN114514536A (zh) | 分布式系统中的神经网络训练 | |
CN112202595A (zh) | 基于时间敏感网络系统的抽象模型构建方法 | |
KR20140111834A (ko) | 컴퓨팅 스케줄링 방법 및 시스템 | |
CN114240506A (zh) | 多任务模型的建模方法、推广内容处理方法及相关装置 | |
US20200034195A1 (en) | Network-related performance for gpus | |
Dhakal et al. | ECML: Improving efficiency of machine learning in edge clouds | |
KR101674324B1 (ko) | 실시간 제어 응용에 적용되는 태스크 스케쥴링 장치 및 방법 | |
Hadeed et al. | Load balancing mechanism for edge-cloud-based priorities containers | |
JP7349594B2 (ja) | 情報処理装置、情報処理システム及び情報処理方法 | |
Izvozchikova et al. | Optimization of Network Transmission of Multimedia Data Stream in a Cloud System | |
US10908962B1 (en) | System and method to share GPU resources | |
Nigade et al. | Inference serving with end-to-end latency SLOs over dynamic edge networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171026 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180726 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20181023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190402 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190607 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6539236 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |