JP2019061677A

JP2019061677A - 積層型メモリ装置及びその動作方法並びにメモリシステム

Info

Publication number: JP2019061677A
Application number: JP2018180170A
Authority: JP
Inventors: ヒョン昇申; Hyun-Sung Shin; 益準崔; Ik-Joon Choi; 昭映金; So-Young Kim; 泰奎卞; Tae-Kyu Byun; 載允尹; Jae-Youn Youn
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-09-27
Filing date: 2018-09-26
Publication date: 2019-04-18
Anticipated expiration: 2038-09-26
Also published as: US10923165B2; CN109560078B; DE102018108702A1; US20210166740A1; CN109560078A; SG10201808209UA; TW201915730A; TWI750365B; US11114139B2; JP7317478B2; US20190096453A1; KR102395463B1; US20200152244A1; KR20190036358A; US10553260B2

Abstract

【課題】同一のデータを入力の一部とする複数の演算を含むデータプロセスを効率良く遂行することができる積層型メモリ装置及びこれを含むメモリシステムを提供する。【解決手段】積層型メモリ装置は、少なくとも１つのロジック半導体ダイと、ロジック半導体ダイの上に積層される複数のメモリ半導体ダイと、ロジック半導体ダイ及び複数のメモリ半導体ダイを電気的に接続する複数のシリコン貫通ビアとを有する。メモリ半導体ダイ各々にはデータを格納するメモリ集積回路が形成され、メモリ半導体ダイの内の１つ以上は演算ユニットをさらに含む演算半導体ダイであり、演算ユニットはブロードキャストデータ及び内部データに基づいて演算を実行し、演算結果データを生成するように構成され、ブロードキャストデータはシリコン貫通ビアを介して、演算半導体ダイに共通に提供され、内部データは演算半導体ダイのメモリ集積回路から各々読み出される。【選択図】図１

Description

本発明は半導体集積回路に関し、特に、積層型メモリ装置、積層型メモリ装置を含むシステム及び積層型メモリ装置の動作方法に関する。

メモリ帯域幅と遅延時間（ｌａｔｅｎｃｙｏｒｄｅｌａｙｔｉｍｅ）は多くのプロセスシステムで重要な性能のボトルネック（ｐｅｒｆｏｒｍａｎｃｅｂｏｔｔｌｅｎｅｃｋ）の原因となる。
メモリ容量を増やすためにメモリチップのパッケージの内部に積層された半導体ダイ（ｓｅｍｉｃｏｎｄｕｃｔｏｒｄｉｅｓ）はシリコン貫通ビア（ｖｉａ）又は基板貫通ビア（ｔｈｒｏｕｇｈ−ｓｉｌｉｃｏｎｖｉａ：ＴＳＶ、又はｔｈｒｏｕｇｈ−ｓｕｂｓｔｒａｔｅｖｉａ）を通じて電気的に接続される。

このような積層技術を通じてメモリ装置の容量を増加し、かつ帯域幅と遅延時間のペナルティを抑制することができる。
外部装置の積層型メモリ装置に対する各々のアクセス（ａｃｃｅｓｓ）は、積層された半導体ダイの間でのデータ交信を要求し、外部装置と積層型メモリ装置との間のデバイス間（ｉｎｔｅｒ−ｄｅｖｉｃｅ）帯域幅と遅延時間のペナルティが各アクセス当たり２回発生する。
したがって、外部装置が遂行するデータプロセスが積層型メモリ装置への多重アクセスを要求する時、このような帯域幅と遅延時間はシステムのプロセス効率と電力消費量に顕著な影響を及ぼす、という問題がある。

特開２００９−２５２２７７号公報

本発明は上記従来の積層型メモリ装置における問題点に鑑みてなされたものであって、本発明の目的は、同一のデータを入力の一部とする複数の演算を含むデータプロセスを効率良く遂行することができる積層型メモリ装置及びこれを含むメモリシステムを提供することにある。
また、同一のデータを入力の一部とする複数の演算を含むデータプロセスを効率良く遂行することができる積層型メモリ装置の動作方法を提供することにある。

上記目的を達成するためになされた本発明による積層型メモリ装置は、少なくとも１つのロジック半導体ダイ（ｓｅｍｉｃｏｎｄｕｃｔｏｒｄｉｅ）と、前記ロジック半導体ダイの上に積層される複数のメモリ半導体ダイと、前記ロジック半導体ダイ及び前記複数のメモリ半導体ダイを電気的に接続する複数のシリコン貫通ビア（ｖｉａ）と、を有し、前記メモリ半導体ダイ各々には、データを格納するメモリ集積回路が形成され、前記メモリ半導体ダイの内の１つ以上は、演算ユニットをさらに含む演算半導体ダイであり、前記演算ユニットは、ブロードキャストデータ及び内部データに基づいて演算を実行し、演算結果データを生成するように構成され、前記ブロードキャストデータは、前記シリコン貫通ビアを介して、前記演算半導体ダイに共通に提供され、前記内部データは、前記演算半導体ダイの前記メモリ集積回路から各々読み出されることを特徴とする。

上記目的を達成するためになされた本発明によるメモリシステムは、ベース基板と、前記ベース基板の上に積層される少なくとも１つのロジック半導体ダイと、前記ベース基板又は前記ロジック半導体ダイの上に積層される複数のメモリ半導体ダイと、前記メモリ半導体ダイの内の１つ以上の演算半導体ダイに各々形成された複数の演算ユニットと、を有し、前記複数の演算ユニットは、ブロードキャストデータ及び内部データに基づいて演算を実行して、演算結果データを生成し、前記ブロードキャストデータは、演算半導体ダイに共通に提供され、前記内部データは、前記演算半導体ダイに含まれるメモリ集積回路から各々読み出されることを特徴とする。

上記目的を達成するためになされた本発明による積層型メモリ装置の動作方法は、積層された複数のメモリ半導体ダイのうちの１つ以上の演算半導体ダイに複数の演算ユニットを形成するステップと、前記複数のメモリ半導体ダイを電気的に接続する複数のシリコン貫通ビア（ｖｉａ）を介してブロードキャストデータを前記各演算ユニットに共通に提供するステップと、前記演算半導体ダイのメモリ集積回路から各々読み出される内部データを前記複数の演算ユニットに各々提供するステップと、前記複数の演算ユニットを用いて前記共通のブロードキャストデータ及び前記各々の内部データに基づく複数の演算を同時に実行するステップと、を有することを特徴とする。

本発明に係る積層型メモリ装置及びその動作方法並びにメモリシステムによれば、メモリ集約的（ｍｅｍｏｒｙ−ｉｎｔｅｎｓｉｖｅ）またはデータ集約的（ｄａｔａ−ｉｎｔｅｎｓｉｖｅ）なデータプロセスをメモリ半導体ダイに含まれた複数の演算ユニットにより並列的に遂行することによって、積層型メモリ装置、ロジック半導体ダイ、及び外部装置の間に交信するデータの量を減少してデータプロセシング時間及び電力消費を減少することができる。

また、複数の演算ユニットをメモリバンク内に配置してマトリックス−ベクトル乗算（ｍａｔｒｉｘ−ｖｅｃｔｏｒｍｕｌｔｉｐｌｉｃａｔｉｏｎ：ＭＶ）のためのカーネルウェイト（ｋｅｒｎｅｌｗｅｉｇｈｔｓ）のメモリ帯域幅（ｍｅｍｏｒｙｂａｎｄｗｉｄｔｈ）を増加させ、ブロードキャスティングを通じてマトリックス−ベクトル乗算のためのアクティベーション（ａｃｔｉｖａｔｉｏｎｓ）のメモリ帯域幅を増加させることによって、ＭＬＰ（ｍｕｌｔｉｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ）、ＲＮＮ（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）、ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）などのデータプロセシング時間及び電力消費を減少することができる。

本発明の実施形態に係る積層型メモリ装置の動作方法を説明するためのフローチャートである。本発明の実施形態に係る積層型メモリ装置を含むメモリシステムを示す分解斜視図である。本発明の実施形態に係る高帯域幅メモリの構造の一例を示す図である。図２の積層型メモリ装置に含まれる１つのメモリバンクの構造の一例を示す図である。図２の積層型メモリ装置のメモリ半導体ダイに含まれるメモリ集積回路の一実施形態を示すブロック図である。本発明の実施形態に係る演算ユニットの概略構成を示す回路図である。本発明の実施形態に係る積層型メモリ装置における通常のアクセス動作時、データ転送経路を示す分解斜視図である。図７のデータ転送経路を具現する一実施形態を示す回路図である。図７のデータ転送経路を具現する一実施形態を示す回路図である。本発明の実施形態に係る積層型メモリ装置におけるブロードキャストデータの転送経路の実施形態を示す分解斜視図である。図９のブロードキャストデータの転送経路を具現する一実施形態を示す回路図である。図９のブロードキャストデータの転送経路を具現する他の実施形態を示す回路図である。図９のブロードキャストデータの転送経路を具現する他の実施形態を示す回路図である。本発明の実施形態に係る積層型メモリ装置におけるブロードキャストデータの転送経路の一実施形態を示す分解斜視図である。図１２のブロードキャストデータの転送経路を具現する一実施形態を示す回路図である。図１２のブロードキャストデータの転送経路を具現する他の実施形態を示す回路図である。図１２のブロードキャストデータの転送経路を具現する他の実施形態を示す回路図である。図１２のブロードキャストデータの転送経路を具現する他の実施形態を示す回路図である。本発明の実施形態に係る積層型メモリ装置における演算回路の出力データの第１転送経路の実施形態を示す分解斜視図である。図１５の出力データの第１転送経路を具現する一実施形態を示す回路図である。本発明の実施形態に係る積層型メモリ装置における演算回路の出力データの第２転送経路の実施形態を示す分解斜視図である。図１７の出力データの第２転送経路を具現する一実施形態を示す回路図である。本発明の実施形態に係る積層型メモリ装置における演算回路の出力データの転送経路の実施形態を示す分解斜視図である。図１９の出力データの転送経路を具現する一実施形態を示す回路図である。本発明の実施形態に係る積層型メモリ装置における演算回路の出力データの転送経路の実施形態を示す分解斜視図である。図２１の出力データの転送経路を具現する一実施形態を示す回路図である。本発明の実施形態に係る積層型メモリ装置におけるブロードキャストデータの転送経路の一実施形態を示す分解斜視図である。図２３のブロードキャストデータの転送経路を具現する一実施形態を示す回路図である。本発明の実施形態に係る積層型メモリ装置に含まれる演算ユニットの一実施形態を示すブロック図である。本発明の一実施形態に係る演算結果データの出力方法を説明するための図である。本発明の実施形態に係る演算回路を用いたマトリックス演算を説明するための図である。本発明の実施形態に係る積層型メモリ装置の動作を説明するためのタイミング図である。本発明の実施形態に係る積層型メモリ装置のパッケージング構造を示す概略図である。本発明の実施形態に係る積層型メモリ装置のパッケージング構造を示す概略図である。本発明の実施形態に係る積層型メモリ装置を応用した例であるモバイルシステムの概略構成を示すブロック図である。

次に、本発明に係る積層型メモリ装置及びその動作方法並びにメモリシステムを実施するための形態の具体例を図面を参照しながら説明する。

図１は、本発明の実施形態に係る積層型メモリ装置の動作方法を説明するためのフローチャートである。
図１を参照すると、積層された複数のメモリ半導体ダイのうちの１つ以上の演算半導体ダイに複数の演算ユニットを形成する（ステップＳ１００）。
つまり、メモリ半導体ダイ各々には、データを格納するメモリ集積回路が形成され、メモリ半導体ダイの内の１つ以上は、演算ユニットをさらに形成した演算半導体ダイと称する。

メモリ半導体ダイを電気的に接続するシリコン貫通ビア又は基板貫通ビア（ｔｈｒｏｕｇｈ−ｓｉｌｉｃｏｎｖｉａ：ＴＳＶ、又はｔｈｒｏｕｇｈ−ｓｕｂｓｔｒａｔｅｖｉａ）を介してブロードキャストデータを演算ユニットに共通に提供する（ステップＳ２００）。
一方、演算半導体ダイのメモリ集積回路から各々読み出される内部データを演算ユニットに各々提供する（ステップＳ３００）。
演算ユニットを用いて共通のブロードキャストデータ及び各々の内部データに対する複数の演算を同時に実行する（ステップＳ４００）。

このように、本発明の実施形態に係る積層型メモリ装置の動作方法は、メモリ集約的（ｍｅｍｏｒｙ−ｉｎｔｅｎｓｉｖｅ）又はデータ集約的（ｄａｔａ−ｉｎｔｅｎｓｉｖｅ）なデータプロセスをメモリ半導体ダイに含まれた複数の演算ユニットにより並列的に実行することによって、積層型メモリ装置、ロジック半導体ダイ、及び外部装置の間を交信するデータの量を減少させてデータプロセシング時間及び電力消費を減少することができる。

図２は、本発明の実施形態に係る積層型メモリ装置を含むメモリシステムを示す分解斜視図である。
図２を参照すると、メモリシステム１０は、積層型メモリ装置１０００及びホスト装置２０００を含む。

積層型メモリ装置１０００は、垂直に積層された少なくとも１つのベース半導体ダイ（ｂａｓｅｓｅｍｉｃｏｎｄｕｃｔｏｒｄｉｅ）又はロジック半導体ダイ（ｌｏｇｉｃｓｅｍｉｃｏｎｄｕｃｔｏｒｄｉｅ）１０１０及び複数のメモリ半導体ダイ（ｍｅｍｏｒｙｓｅｍｉｃｏｎｄｕｃｔｏｒｄｉｅ）（１０７０、１０８０）を含む。
図２には１つのロジック半導体ダイ及び２つのメモリ半導体ダイを示したが、２つ以上のロジック半導体ダイ及び１つ又は３個以上のメモリ半導体ダイが積層構造に含まれることもできる。
また、図２にはロジック半導体ダイ１０１０がメモリ半導体ダイ（１０７０、１０８０）と共に垂直に積層される実施形態を示したが、図２９を参照して後述するように、ロジック半導体ダイ１０１０を除外したメモリ半導体ダイ（１０７０、１０８０）のみが共に垂直に積層され、ロジック半導体ダイ１０１０はインターポーザ又はベース基板を介して積層されたメモリ半導体ダイ（１０７０、１０８０）と電気的に接続することもできる。

ロジック半導体ダイ１０１０は、メモリインターフェース（ＭＩＦ）１０２０及びメモリ半導体ダイ（１０７０、１０８０）に形成されたメモリ集積回路（１０７１、１０８１）へのアクセスを可能にするためのロジックを含む。
このようなロジックは、メモリ制御部（ＣＴＲＬ）１０３０、グローバルバッファ（ＧＢＦ）１０４０、及びデータトランスフォームロジック（ＤＴＬ）１０５０を含み得る。

メモリインターフェース１０２０は、インターコネクタ装置１２を介してホスト装置２０００のような外部装置との交信を実行する。
メモリ制御部１０３０は、積層型メモリ装置１０００の全般的な動作を制御する。
データトランスフォームロジック１０５０は、メモリ半導体ダイ（１０７０、１０８０）と交信するデータ又はメモリインターフェース１０２０を通じて交信するデータに対する演算を実行することができる。
例えば、データトランスフォームロジック１０５０は、マックスプーリング（ｍａｘｐｏｏｌｉｎｇ）、ＲｅＬＵ（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）、チャンネル単位加算（ｃｈａｎｎｅｌ−ｗｉｓｅａｄｄｉｔｉｏｎ）などの演算を実行することができる。

メモリ半導体ダイ（１０７０、１０８０）は、メモリ集積回路（ＭＥＭ）（１０７１、１０８１）を各々含む。
メモリ半導体ダイ（１０７０、１０８０）の内の少なくとも１つのメモリ半導体ダイ１０８０は、演算回路１００をさらに含む演算半導体ダイに該当する。
後述するように、演算回路１００は１つ以上の演算ブロックを含むことができ、演算ブロックの各々は、１つ以上の演算ユニットを含むことができる。
演算ユニットにはシリコン貫通ビア（ＴＳＶ）を通じてブロードキャストデータが共通に提供され、演算半導体ダイ１０８０のメモリ集積回路１０８１から各々読み出される内部データが提供される。
演算ユニットは、共通のブロードキャストデータ及び各々の内部データに基づいて演算を実行して各々の演算結果データを提供する。

ホスト装置２０００は、ホストインターフェース（ＨＩＦ）２１１０及びプロセッサコア（ｐｒｏｃｅｓｓｏｒｃｏｒｅ：ＣＲ１、ＣＲ２）（２１２０、２１３０）を含み得る。
ホストインターフェース２１１０は、インターコネクタ装置１２を介して積層型メモリ装置１０００のような外部装置との交信を実行する。

図３は、本発明の実施形態に係る高帯域幅メモリの構造の一例を示す図である。
図３を参照すると、高帯域幅メモリ（ｈｉｇｈｂａｎｄｗｉｄｔｈｍｅｍｏｒｙ：ＨＢＭ）１００１は、複数のＤＲＡＭ半導体ダイ、例えば、第１〜第４メモリ半導体ダイ（１１００、１２００、１３００、１４００）が積層された構造を含む。
高帯域幅メモリは、チャンネルと称する複数の独立したインターフェースを介して積層された構造の高帯域幅動作に最適化できる。

ＨＢＭ標準に従って各々のＤＲＡＭスタックは最大８個のチャンネルまで支援することができる。
図３には４個のＤＲＡＭ半導体ダイが積層され、各々のＤＲＡＭ半導体ダイが２つのチャンネル（ＣＨＡＮＮＥＬ（０）、ＣＨＡＮＮＥＬ（１））を支援する例を示す。
例えば、図３に示すように、第４メモリ半導体ダイ１４００は２つのチャンネル（ＣＨＡＮＮＥＬ（０）、ＣＨＡＮＮＥＬ（１））に対応する２つのメモリ集積回路（１４０１、１４０２）を含む。
各々のメモリ半導体ダイは、積層構造に追加的なキャパシティ（ｃａｐａｃｉｔｙ）及び追加的なチャンネルを提供することができる。

例えば、図３の第４メモリ半導体ダイ１４００は前述した演算ユニットを含む演算半導体ダイに該当する。
各チャンネルに対応するメモリ集積回路（１４０１、１４０２）の各々は、複数のメモリバンク（ＭＢ）を含み、各メモリバンク（ＭＢ）は演算ブロック（ＣＢ）を含むことができる。
図４を参照して後述するように、各演算ブロック（ＣＢ）は、複数の演算ユニット（ＣＵ）を含み得る。
このように、演算ユニットは、演算半導体ダイ１４００に含まれるメモリバンク（ＭＢ）の内部に分散して配置できる。

高帯域幅メモリ１００１の各々のチャンネルは、メモリバンクの独立したセットに対するアクセスを提供する。
一般的に、高帯域幅メモリは、１つのチャンネルからのリクエストは他のチャンネルに付着されたデータにアクセスできない。
チャンネルは独立的にクロッキングされ、互いに同期化される必要がない。
しかしながら、本発明の実施形態に係る高帯域幅メモリ１００１は、前述したブロードキャストデータの転送及び／又は演算結果データの転送のために互いに異なるメモリ半導体ダイのデータにアクセスすることができる。

高帯域幅メモリ１００１は、スタック構造の下部に位置し、信号の再分配及び他の機能を提供するインターフェースダイを選択的に含むことができる。
メモリ半導体ダイ（１１００、１２００、１３００、１４００）に通常的に具現される機能がこのようなインターフェースダイ又はロジック半導体ダイに具現できる。

図４は、図２の積層型メモリ装置に含まれる１つのメモリバンクの構造の一例を示す図である。
図４を参照すると、メモリバンク２００は、複数のデータブロック（ＤＢＫ１〜ＤＢＫｎ）及び演算ブロック３００を含む。
データブロック（ＤＢＫ１〜ＤＢＫｎ）は同一の構造を有し、図４には例示的に第１データブロックＤＢＫ１の構造を示す。

各データブロックは、複数のサブメモリセルアレイ（ＳＡＲＲ）を含み、サブメモリセルアレイ（ＳＡＲＲ）の各々は複数のメモリセルを含む。
読み出し動作時、ビットラインセンスアンプ（ＢＬＳＡ）は、メモリセルに格納されたデータをセンシング及び増幅してローカル入出力ライン（ＬＩＯ）とグローバル入出力ライン（ＧＩＯ）を順次に経て外部に転送する。
また、書き込み動作時、外部から提供されるデータは、グローバル入出力ライン（ＧＩＯ）及びローカル入出力ライン（ＬＩＯ）を順次に経てメモリセルに格納される。
このようなデータブロックの階層的構造は多様に変更できる。

演算ブロック３００は、複数の演算ユニット（ＣＵ１〜ＣＵｎ）を含む。
図４にはデータブロック１つ毎に演算ユニットを１つずつ配置する例を示したが、複数のデータブロック毎に１つの演算ユニットを配置することもできる。
前述したように、演算ユニット（ＣＵ１〜ＣＵｎ）の各々は、シリコン貫通ビアを介して演算半導体ダイに共通に提供されるブロードキャストデータ（ＤＡ）及び内部データ（ＤＷ１〜ＤＷｎ）の各々を受信し、これらに基づいた演算を実行して演算結果データ（ＤＲ１〜ＤＲｎ）の各々を提供する。

図４を参照して１つのメモリバンク２００に対して演算ユニットの配置を説明したが、積層型メモリ装置は複数の演算半導体ダイを含み、各演算半導体ダイは複数のメモリバンクを含み、このような全ての演算半導体ダイに含まれた全てのメモリバンクに対して図４に示したような演算ユニットが配置できる。
全ての演算ユニットは、同一のブロードキャストデータを受信し、対応するデータブロックから各々の内部データを受信することができる。
このように積層型メモリ装置に分散して形成される複数の演算ユニットを用いて演算を並列的に実行することによって、積層型メモリ装置、ロジック半導体ダイ、及び外部装置の間で交信するデータの量を減少させてデータプロセシング時間及び電力消費を減少させることができる。

図５は、図２の積層型メモリ装置のメモリ半導体ダイに含まれるメモリ集積回路の一実施形態を示すブロック図である。
図５を参照し、メモリ集積回路の一例としてＤＲＡＭに対する説明をするが、本発明の実施形態に係る積層型メモリ装置は、ＤＲＡＭ、ＴＲＡＭ（ＴｏｐｏｌｏｇｉｃａｌｓｗｉｔｃｈｉｎｇＲＡＭ）、及びＳＲＡＭのような揮発性メモリアーキテクチャ、またはＲＯＭ、フラッシュメモリ、ＦＲＡＭ（登録商標）、ＭＲＡＭ、ＰＲＡＭなどの不揮発性メモリアーキテクチャを含む多様なメモリアーキテクチャで具現できる。

図５を参照すると、メモリ領域４００又はメモリ装置の内部回路は、制御ロジック４１０、アドレスレジスタ４２０、バンク制御ロジック４３０、ロウアドレスマルチプレクサ４４０、コラムアドレスラッチ４５０、ロウデコーダ４６０、コラムデコーダ４７０、メモリセルアレイ４８０、演算回路１００、入出力ゲーティング回路４９０、データ入出力バッファ４９５、及びリフラッシュカウンター４４５を含む。

メモリセルアレイ４８０は、複数のバンクアレイ（４８０ａ〜４８０ｈ）を含む。
ロウデコーダ４６０は、複数のバンクアレイ（４８０ａ〜４８０ｈ）に各々接続された複数のバンクロウデコーダ（４６０ａ〜４６０ｈ）を含み、コラムデコーダ４７０は複数のバンクアレイ（４８０ａ〜４８０ｈ）に各々結合された複数のバンクコラムデコーダ（４７０ａ〜４７０ｈ）を含む。
演算回路１００は、複数のバンクアレイ（４８０ａ〜４８０ｈ）に各々接続された複数の演算ブロック（ＣＢ）（１００ａ〜１００ｈ）を含む。
前述したように、演算ブロック（１００ａ〜１００ｈ）の各々は、ブロードキャストデータを共通に受信し、バンクアレイ（４８０ａ〜４８０ｈ）から各内部データを受信する複数の演算ユニット（図示せず）を含む。

アドレスレジスタ４２０は、メモリコントローラからバンクアドレス（ＢＡＮＫ＿ＡＤＤＲ）、ロウアドレス（ＲＯＷ＿ＡＤＤＲ）、及びコラムアドレス（ＣＯＬ＿ＡＤＤＲ）を含むアドレス信号（ＡＤＤ）を受信する。
アドレスレジスタ４２０は、受信したバンクアドレス（ＢＡＮＫ＿ＡＤＤＲ）をバンク制御ロジック４３０に提供し、受信したロウアドレス（ＲＯＷ＿ＡＤＤＲ）をロウアドレスマルチプレクサ４４０に提供し、受信したコラムアドレス（ＣＯＬ＿ＡＤＤＲ）をコラムアドレスラッチ４５０に提供する。

バンク制御ロジック４３０は、バンクアドレス（ＢＡＮＫ＿ＡＤＤＲ）に応答してバンク制御信号を生成する。
バンク制御信号に応答して、複数のバンクロウデコーダ（４６０ａ〜４６０ｈ）のうち、バンクアドレス（ＢＡＮＫ＿ＡＤＤＲ）に対応するバンクロウデコーダが活性化され、複数のバンクコラムデコーダ（４７０ａ〜４７０ｈ）のうち、バンクアドレス（ＢＡＮＫ＿ＡＤＤＲ）に対応するバンクコラムデコーダが活性化する。

ロウアドレスマルチプレクサ４４０は、アドレスレジスタ４２０からロウアドレス（ＲＯＷ＿ＡＤＤＲ）を受信し、リフラッシュカウンター４４５からリフラッシュロウアドレス（ＲＥＦ＿ＡＤＤＲ）を受信する。
ロウアドレスマルチプレクサ４４０は、ロウアドレス（ＲＯＷ＿ＡＤＤＲ）又はリフラッシュロウアドレス（ＲＥＦ＿ＡＤＤＲ）をロウアドレス（ＲＡ）として選択的に出力する。
ロウアドレスマルチプレクサ４４０から出力されたロウアドレス（ＲＡ）は、バンクロウデコーダ（４６０ａ〜４６０ｈ）に各々印加される。

バンクロウデコーダ（４６０ａ〜４６０ｈ）のうち、バンク制御ロジック４３０により活性化されたバンクロウデコーダは、ロウアドレスマルチプレクサ４４０から出力されたロウアドレス（ＲＡ）をデコーディングしてロウアドレスに対応するワードラインを活性化する。

コラムアドレスラッチ４５０は、アドレスレジスタ４２０からコラムアドレス（ＣＯＬ＿ＡＤＤＲ）を受信し、受信したコラムアドレス（ＣＯＬ＿ＡＤＤＲ）を一時的に格納する。
また、コラムアドレスラッチ４５０は、バーストモード（ｂｕｒｓｔｍｏｄｅ）で、受信したコラムアドレス（ＣＯＬ＿ＡＤＤＲ）を徐々に増加させることができる。
コラムアドレスラッチ４５０は、一時的に格納された、または徐々に増加したコラムアドレス（ＣＯＬ＿ＡＤＤＲ）をバンクコラムデコーダ（４７０ａ〜４７０ｈ）に各々印加する。

バンクコラムデコーダ（４７０ａ〜４７０ｈ）のうち、バンク制御ロジック４３０により活性化されたバンクコラムデコーダは、入出力ゲーティング回路４９０を介してバンクアドレス（ＢＡＮＫ＿ＡＤＤＲ）及びコラムアドレス（ＣＯＬ＿ＡＤＤＲ）に対応するセンスアンプを活性化させる。
入出力ゲーティング回路４９０は、入出力データをゲーティングする回路と共に、入力データマスクロジック、バンクアレイ（４８０ａ〜４８０ｈ）から出力されたデータを格納するための読出データラッチ、及びバンクアレイ（４８０ａ〜４８０ｈ）にデータを書き込むための書込ドライバを含むことができる。

バンクアレイ（４８０ａ〜４８０ｈ）の内の１つのバンクアレイから読み出されるデータ（ＤＱ）は、１つのバンクアレイに対応するセンスアンプにより感知され、読出データラッチに格納される。
読出データラッチに格納されたデータ（ＤＱ）は、データ入出力バッファ４９５を介してメモリコントローラに提供される。
バンクアレイ（４８０ａ〜４８０ｈ）の内の１つのバンクアレイに書き込まれるデータ（ＤＱ）は、メモリコントローラからデータ入出力バッファ４９５に提供される。
データ入出力バッファ４９５に提供されたデータ（ＤＱ）は、書込ドライバを介して１つのバンクアレイに書き込まれる。

制御ロジック４１０は、半導体メモリ領域４００の動作を制御する。
制御ロジック４１０は、半導体メモリ領域４００に書き込み動作又は読み出し動作が実行されるように制御信号を生成する。
制御ロジック４１０は、メモリコントローラから受信されるコマンド（ＣＭＤ）をデコーディングするコマンドデコーダ４１１及び半導体メモリ領域４００の動作モードを設定するためのモードレジスタセット（ｍｏｄｅｒｅｇｉｓｔｅｒｓｅｔ：ＭＲＳ）４１２を含むことができる。

図６は、本発明の実施形態に係る演算ユニット概略構成を示す回路図である。
図６を参照すると、演算ユニット（ＣＵ）の内部データ（ＤＷ［Ｎ−１：０］）を受信する第１入力端子は第１ノードＮ１に接続され、演算ユニット（ＣＵ）のブロードキャストデータ（ＤＡ［Ｎ−１：０］）を受信する第２入力端子は第２ノードＮ２に接続される。
第１ノードＮ１は、グローバル入出力ライン（ＧＩＯ、ＧＩＯＢ）の信号を増幅して出力する入出力センスアンプ（ＩＯＳＡ）の出力端子に該当する。
第２ノードＮ２は、グローバル入出力ライン（ＧＩＯ、ＧＩＯＢ）を駆動する入出力ドライバ（ＩＯＤＲＶ）の入力端子に該当する。

通常の読み出し動作時には演算ユニット（ＣＵ）はディスエーブルされ、入出力センスアンプ（ＩＯＳＡ）はグローバル入出力ライン（ＧＩＯ、ＧＩＯＢ）を介して伝達される読出データを増幅して外部に提供し、通常の書き込み動作時には演算ユニット（ＣＵ）はディスエーブルされ、入出力ドライバ（ＩＯＤＲＶ）は外部から提供された書込データに基づいてグローバル入出力ライン（ＧＩＯ、ＧＩＯＢ）を駆動する。
一方、演算動作時には演算ユニット（ＣＵ）がイネーブルされてブロードキャストデータ（ＤＡ［Ｎ−１：０］）及び内部データ（ＤＷ［Ｎ−１：０］）を受信する。
この際、入出力センスアンプ（ＩＯＳＡ）はイネーブルされて内部データ（ＤＷ［Ｎ−１：０］）を出力し、入出力ドライバ（ＩＯＤＲＶ）はディスエーブルされてブロードキャストデータ（ＤＡ［Ｎ−１：０］）が内部のメモリセルに提供されることを遮断する。

一実施形態において、図６に示したように、演算ユニット（ＣＵ）の演算結果データを提供する出力端子は、入出力センスアンプの出力端子、即ち第１ノードＮ１に接続され、したがって、通常の読み出し経路を用いて演算結果データ（ＤＲ）が提供できる。
演算ユニット（ＣＵ）が演算結果データ（ＤＲ）を提供する間、入出力センスアンプ（ＩＯＳＡ）はディスエーブルされる。
他の実施形態において、演算ユニット（ＣＵ）の出力端子は、第１ノードＮ１に接続されず、通常の読み出し経路と区別される別個の経路を介して提供することもできる。
更に他の実施形態において、演算ユニット（ＣＵ）の出力端子は、第２ノードＮ２に接続され、通常の書き込み経路を介して内部のメモリセルに格納することもできる。

図６には、図の便宜上、１ビットに該当する１つの差動グローバルライン対（ＧＩＯ、ＧＩＯＢ）を示したが、１つの演算ユニット（ＣＵ）はＮ個のグローバルライン対に接続されてＮビットのブロードキャストデータ（ＤＡ［Ｎ−１：０］）、及びＮビットの内部データ（ＤＷ［Ｎ−１：０］）を受信することができる。
例えば、積層型メモリ装置の動作モードによって、Ｎは、８、１６、又は３２であり得る。

以下では、図７から図２４を参照して本発明の実施形態に係る積層型メモリ装置のデータ転送経路の実施形態を説明する。
図７から図２４には説明及び図の便宜のために、１つのロジック半導体ダイ１０１０と第１〜第４メモリ半導体ダイ（１１００、１２００、１３００、１４００）を示すが、ロジック半導体ダイの個数及びメモリ半導体ダイの個数は多様に決定できる。

図７は、本発明の実施形態に係る積層型メモリ装置における通常のアクセス動作時、データ転送経路を示す分解斜視図であり、図８ａ及び８ｂは、図７のデータ転送経路を具現する一実施形態を示す回路図である。
図７の積層メモリ装置を参照すると、第１〜第４メモリ半導体ダイ（１１００、１２００、１３００、１４００）に各々対応する第１〜第４データバス（ＤＢＵＳ１〜ＤＢＵＳ４）を介してロジック半導体ダイ１０１０と第１〜第４メモリ半導体ダイ（１１００、１２００、１３００、１４００）との間にデータ交信が実行できる。

即ち、通常の読み出し及び書き込み動作時には、第１データバスＤＢＵＳ１を介してロジック半導体ダイ１０１０と第１メモリ半導体ダイ１１００との間にデータが転送され、第２データバスＤＢＵＳ２を介してロジック半導体ダイ１０１０と第２メモリ半導体ダイ１２００との間にデータが転送され、第３データバスＤＢＵＳ３を介してロジック半導体ダイ１０１０と第３メモリ半導体ダイ１３００との間にデータが転送され、第４データバスＤＢＵＳ４を介してロジック半導体ダイ１０１０と第４メモリ半導体ダイ１４００との間にデータが転送される。
通常の読み出し及び書き込み動作時には、第１〜第４メモリ半導体ダイ（１１００、１２００、１３００、１４００）の間のデータ転送は実行できない。
データバス（ＤＢＵＳ１〜ＤＢＵＳ４）の各々は、複数のデータ経路を含み、各データ経路は積層された半導体ダイに形成されたシリコン貫通ビアを接続して垂直に長く延長できる。

図８ａ及び８ｂを参照すると、ロジック半導体ダイ１０１０と第１〜第４メモリ半導体ダイ（１１００、１２００、１３００、１４００）には対応するデータバス（ＤＢＵＳ１〜ＤＢＵＳ４）を介して両方向通信を実行する送信回路（ＴＸ１〜ＴＸ４、ＴＸ１１〜ＴＸ１４、ＴＸ２１〜ＴＸ２４、ＴＸ３１〜ＴＸ３４、ＴＸ４１〜ＴＸ４４）及び受信回路（ＲＸ１〜ＲＸ４、ＲＸ１１〜ＲＸ１４、ＲＸ２１〜ＲＸ２４、ＲＸ３１〜ＲＸ３４、ＲＸ４１〜ＲＸ４４）を含む。
製造工程の統一のために、第１〜第４メモリ半導体ダイ（１１００、１２００、１３００、１４００）の各々に、第１〜第４データバス（ＤＢＵＳ１〜ＤＢＵＳ４）の対応する送信回路（ＴＸ１〜ＴＸ４、ＴＸ１１〜ＴＸ１４、ＴＸ２１〜ＴＸ２４、ＴＸ３１〜ＴＸ３４、ＴＸ４１〜ＴＸ４４）及び受信回路（ＲＸ１〜ＲＸ４、ＲＸ１１〜ＲＸ１４、ＲＸ２１〜ＲＸ２４、ＲＸ３１〜ＲＸ３４、ＲＸ４１〜ＲＸ４４）を全て備えて、これらを選択的にイネーブルすることができる。

図８ａは、通常の書き込み動作に対応するデータ転送経路を示し、図８ｂは通常の読み出し動作に対応するデータ転送経路を示す。
図８ａを参照すると、通常の書き込み動作時にはロジック半導体ダイ１０１０の送信回路（ＴＸ１〜ＴＸ４）、とメモリ半導体ダイ（１１００、１２００、１３００、１４００）の各受信回路（ＲＸ１１、ＲＸ２２、ＲＸ３３、ＲＸ４４）がイネーブルされてデータバス（ＤＢＵＳ１〜ＤＢＵＳ４）の各々を介してロジック半導体ダイ１０１０からメモリ半導体ダイ（１１００、１２００、１３００、１４００）に書込データが転送される。

ロジック半導体ダイ１０１０の第１送信回路ＴＸ１と第１メモリ半導体ダイ１１００の第１受信回路ＲＸ１１がイネーブルされて対応する第１データバスＤＢＵＳ１を介して書込データＷＲ１が転送される。
ロジック半導体ダイ１０１０の第２送信回路ＴＸ２と第２メモリ半導体ダイ１２００の第２受信回路ＲＸ２２がイネーブルされて対応する第２データバスＤＢＵＳ２を介して書込データＷＲ２が転送される。
ロジック半導体ダイ１０１０の第３送信回路ＴＸ３と第３メモリ半導体ダイ１３００の第３受信回路ＲＸ３３がイネーブルされて対応する第３データバスＤＢＵＳ３を介して書込データＷＲ３が転送される。
ロジック半導体ダイ１０１０の第４送信回路ＴＸ４と第４メモリ半導体ダイ１４００の第４受信回路ＲＸ４４がイネーブルされて対応する第４データバスＤＢＵＳ４を介して書込データＷＲ４が転送される。

図８ｂを参照すると、通常の読み出し動作時には、メモリ半導体ダイ（１１００、１２００、１３００、１４００）の各送信回路（ＴＸ１１、ＴＸ２２、ＴＸ３３、ＴＸ４４）とロジック半導体ダイ１０１０の受信回路（ＲＸ１〜ＲＸ４）がイネーブルされてデータバス（ＤＢＵＳ１〜ＤＢＵＳ４）の各々を介してメモリ半導体ダイ（１１００、１２００、１３００、１４００）からロジック半導体ダイ１０１０に読出データが転送される。

第１メモリ半導体ダイ１１００の第１送信回路ＴＸ１１とロジック半導体ダイ１０１０の第１受信回路ＲＸ１がイネーブルされて対応する第１データバスＤＢＵＳ１を介して読出データＲＤ１が転送される。
第２メモリ半導体ダイ１２００の第２送信回路ＴＸ２２とロジック半導体ダイ１０１０の第２受信回路ＲＸ２がイネーブルされて対応する第２データバスＤＢＵＳ２を介して読出データＲＤ２が転送される。
第３メモリ半導体ダイ１３００の第３送信回路ＴＸ３３とロジック半導体ダイ１０１０の第３受信回路ＲＸ３がイネーブルされて対応する第３データバスＤＢＵＳ３を介して読出データＲＤ３が転送される。
第４メモリ半導体ダイ１４００の第４送信回路ＴＸ４４とロジック半導体ダイ１０１０の第４受信回路ＲＸ４がイネーブルされて対応する第４データバスＤＢＵＳ４を介して読出データＲＤ４が転送される。

このような方式により通常の書き込み動作及び読み出し動作は、メモリ半導体ダイ（１１００、１２００、１３００、１４００）に各々対応するデータバス（ＤＢＵＳ１〜ＤＢＵＳ４）を介してデータが転送できる。
図９から図２４は、本発明の実施形態に係る演算動作のためのデータ転送経路の実施形態を示す図である。
基本的な構成及び動作は図７、図８ａ、及び図８ｂと同一であるので重複説明は省略する。

図９は、本発明の実施形態に係る積層型メモリ装置におけるブロードキャストデータの転送経路の一実施形態を示す分解斜視図であり、図１０は図９のブロードキャストデータの転送経路を具現する一実施形態を示す回路図である。
積層されたメモリ半導体ダイ（１１００、１２００、１３００、１４００）の一部は、演算回路（ＣＡＬ）が形成された演算半導体ダイに該当し、残りの一部は演算回路（ＣＡＬ）が形成されない入出力半導体ダイに該当する。
図９には、第１、第２、及び第３メモリ半導体ダイ（１１００、１２００、１３００）が演算半導体ダイに該当し、第４メモリ半導体ダイ１４００が入出力半導体ダイに該当する例を示す。

図９を参照すると、ブロードキャストデータ（ＤＡ）は、ロジック半導体ダイ１０１０を経由せず、入出力半導体ダイ１４００から演算半導体ダイ（１１００、１２００、１３００）に直接伝達される。
入出力半導体ダイ１４００は、演算半導体ダイ（１１００、１２００、１３００）に各々対応するデータバス（ＤＢＵＳ１、ＤＢＵＳ２、ＤＢＵＳ３）をブロードキャストデータ（ＤＡ）で同時に駆動する。
演算半導体ダイ（１１００、１２００、１３００）の各々は、演算半導体ダイ（１１００、１２００、１３００）に各々対応するデータバス（ＤＢＵＳ１、ＤＢＵＳ２、ＤＢＵＳ３）を介してブロードキャストデータ（ＤＡ）を受信する。

図１０を参照すると、入出力半導体ダイ１４００の第１送信回路ＴＸ４１と第１演算半導体ダイ１１００の第１受信回路ＲＸ１１がイネーブルされて対応する第１データバスＤＢＵＳ１を介してブロードキャストデータ（ＤＡ）が転送される。
入出力半導体ダイ１４００の第２送信回路ＴＸ４２と第２演算半導体ダイ１２００の第２受信回路ＲＸ２２がイネーブルされて対応する第２データバスＤＢＵＳ２を介してブロードキャストデータ（ＤＡ）が転送される。
入出力半導体ダイ１４００の第３送信回路ＴＸ４３と第３演算半導体ダイ１３００の第３受信回路ＲＸ３３がイネーブルされて対応する第３データバスＤＢＵＳ３を介してブロードキャストデータ（ＤＡ）が転送される。
このようなブロードキャストデータ（ＤＡ）の転送は、全ての演算半導体ダイ（１１００、１２００、１３００）に対して同時に実行できる。

図１０を参照して送信回路と受信回路の選択的なイネーブルによりブロードキャストデータ（ＤＡ）の転送を遂行する実施形態を説明したが、ブロードキャストデータ（ＤＡ）の転送は、図１１ａ及び１１ｂを参照して後述するように、データバスの選択的な接続を通じても実行できる。

図１１ａ及び１１ｂは、図９のブロードキャストデータの転送経路を具現する他の実施形態を示す回路図である。
図１１ａを参照すると、隣接するデータバス（ＤＢＵＳ１〜ＤＢＵＳ４）の間にはスイッチ制御信号（ＳＣＯＮ１、ＳＣＯＮ２、ＳＣＯＮ３）に応答してターンオンされるスイッチ回路（ＳＷ１、ＳＷ２、ＳＷ３）が各々結合される。
スイッチ回路（ＳＷ１、ＳＷ２、ＳＷ３）が全てターンオンされれば、データバス（ＤＢＵＳ１〜ＤＢＵＳ４）が全て電気的に接続される。
この場合、入出力半導体ダイ１４００は対応する第４データバスＤＢＵＳ４のみをブロードキャストデータ（ＤＡ）として駆動しても第１、第２、及び第３データバス（ＤＢＵＳ１、ＤＢＵＳ２、ＤＢＵＳ３）を介して演算半導体ダイ（１１００、１２００、１３００）に各々ブロードキャストデータ（ＤＡ）が転送される。

図１１ｂを参照すると、入出力半導体ダイ１４００に対応する第４データバスＤＢＵＳ４と演算半導体ダイ（１１００、１２００、１３００）に対応するデータバス（ＤＢＵＳ１、ＤＢＵＳ２、ＤＢＵＳ３）の間にはスイッチ制御信号（ＳＣＯＮ１、ＳＣＯＮ２、ＳＣＯＮ３）に応答してターンオンされるスイッチ回路（ＳＷ１、ＳＷ２、ＳＷ３）が各々結合される。
スイッチ回路（ＳＷ１、ＳＷ２、ＳＷ３）が全てターンオンされれば、データバス（ＤＢＵＳ１〜ＤＢＵＳ４）が全て電気的に接続される。
この場合、入出力半導体ダイ１４００は対応する第４データバスＤＢＵＳ４をブロードキャストデータ（ＤＡ）として駆動しても第１、第２、及び第３データバス（ＤＢＵＳ１、ＤＢＵＳ２、ＤＢＵＳ３）を介して演算半導体ダイ（１１００、１２００、１３００）に各々ブロードキャストデータ（ＤＡ）が転送される。

図１２は、本発明の実施形態に係る積層型メモリ装置におけるブロードキャストデータの転送経路の一実施形態を示す分解斜視図であり、図１３は図１２のブロードキャストデータの転送経路を具現する一実施形態を示す回路図である。
図１２を参照すると、ブロードキャストデータ（ＤＡ）は、ロジック半導体ダイ１０１０を経由せず、入出力半導体ダイ１４００から演算半導体ダイ（１１００、１２００、１３００）に直接伝達される。
入出力半導体ダイ１４００は、入出力半導体ダイ１４００に対応する第４データバスＤＢＵＳ４をブロードキャストデータ（ＤＡ）として駆動する。
演算半導体ダイ（１１００、１２００、１３００）の各々は、入出力半導体ダイ１４００に対応する第４データバスＤＢＵＳ４を介してブロードキャストデータ（ＤＡ）を受信する。

図１３を参照すると、入出力半導体ダイ１４００の第４送信回路ＴＸ４４がイネーブルされると共に、第１演算半導体ダイ１１００の第４受信回路ＲＸ１４、第２演算半導体ダイ１２００の第４受信回路ＲＸ２４、及び第３演算半導体ダイ１３００の第４受信回路ＲＸ３４がイネーブルされて第４データバスＤＢＵＳ４を介してブロードキャストデータ（ＤＡ）が同時に転送される。

図１３を参照して送信回路と受信回路の選択的なイネーブルによりブロードキャストデータ（ＤＡ）の転送を遂行する実施形態を説明したが、ブロードキャストデータ（ＤＡ）の転送は、図１４ａ、図１４ｂ、及び図１４ｃを参照して後述するようにデータバスの選択的な接続を通じても実行できる。
図１４ａ、１４ｂ、１４ｃは、図１２のブロードキャストデータの転送経路を具現する他の実施形態を示す回路図である。

図１４ａ、１４ｂ、１４ｃを参照すると、入出力半導体ダイ１４００に対応する第４データバスＤＢＵＳ４と演算半導体ダイ（１１００、１２００、１３００）に対応するデータバス（ＤＢＵＳ１、ＤＢＵＳ２、ＤＢＵＳ３）の間にはスイッチ制御信号（ＳＣＯＮ１、ＳＣＯＮ２、ＳＣＯＮ３）に応答してターンオンされるスイッチ回路（ＳＷ１、ＳＷ２、ＳＷ３）が各々結合される。
スイッチ回路（ＳＷ１、ＳＷ２、ＳＷ３）が全てターンオンされれば、データバス（ＤＢＵＳ１〜ＤＢＵＳ４）が全て電気的に接続される。
この場合、入出力半導体ダイ１４００は対応する第４データバスＤＢＵＳ４のみをブロードキャストデータ（ＤＡ）として駆動しても演算半導体ダイ（１１００、１２００、１３００）では第１、第２、及び第３データバス（ＤＢＵＳ１、ＤＢＵＳ２、ＤＢＵＳ３）に対応する受信回路（ＲＸ１１、ＲＸ２２、ＲＸ３３）を各々イネーブルすることによってブロードキャストデータ（ＤＡ）を受信することができる。

一実施形態において、図１５から図１８を参照して後述するように、演算半導体ダイ（１１００、１２００、１３００）に含まれた演算回路（ＣＡＬ）から出力される演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）は、演算半導体ダイ（１１００、１２００、１３００）からロジック半導体ダイ１０１０に伝達された後、ロジック半導体ダイ１０１０から入出力半導体ダイ１４００に伝達される。
他の実施形態において、図１９から図２２を参照して後述するように、演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）は、ロジック半導体ダイ１０１０を経由せず、演算半導体ダイ（１１００、１２００、１３００）から入出力半導体ダイ１４００に直接伝達される。

図１５は、本発明の実施形態に係る積層型メモリ装置における演算回路の出力データの第１転送経路の一実施形態を示す分解斜視図であり、図１６は図１５の出力データの第１転送経路を具現する一実施形態を示す回路図である。
図１５を参照すると、演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）は、演算半導体ダイ（１１００、１２００、１３００）に各々対応するデータバス（ＤＢＵＳ１、ＤＢＵＳ２、ＤＢＵＳ３）を介して演算半導体ダイ（１１００、１２００、１３００）からロジック半導体ダイ１０１０に同時に伝達される。
図２を参照して前述したように、ロジック半導体ダイ１０１０はグローバルバッファ１０４０を含むことができ、演算半導体ダイ（１１００、１２００、１３００）から伝達される演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）は、グローバルバッファ１０４０に格納できる。

図１６を参照すると、第１演算半導体ダイ１１００の第１送信回路ＴＸ１１とロジック半導体ダイ１０１０の第１受信回路ＲＸ１がイネーブルされて対応する第１データバスＤＢＵＳ１を介して演算結果データＤＲ１が転送される。
第２演算半導体ダイ１２００の第２送信回路ＴＸ２２とロジック半導体ダイ１０１０の第２受信回路ＲＸ２がイネーブルされて対応する第２データバスＤＢＵＳ２を介して演算結果データＤＲ２が転送される。
第３演算半導体ダイ１３００の第３送信回路ＴＸ３３とロジック半導体ダイ１０１０の第３受信回路ＲＸ３がイネーブルされて対応する第３データバスＤＢＵＳ３を介して演算結果データＤＲ３が転送される。
このような演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）の転送は、全ての演算半導体ダイ（１１００、１２００、１３００）に対して同時に遂行できる。

図１７は、本発明の実施形態に係る積層型メモリ装置における演算回路の出力データの第２転送経路の一実施形態を示す分解斜視図であり、図１８は図１７の出力データの第２転送経路を具現する一実施形態を示す回路図である。
図１７を参照すると、演算結果データ（ＤＲ）は入出力半導体ダイ１４００に対応する第４データバスＤＢＵＳ４を通じてロジック半導体ダイ１０１０から入出力半導体ダイ１４００に時分割方式により順次に伝達される。
ロジック半導体ダイ１０１０から入出力半導体ダイ１４００に伝達される演算結果データ（ＤＲ）は、演算半導体ダイ（１１００、１２００、１３００）からロジック半導体ダイ１０１０に伝達される演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）と同一であることもあり得、図２のデータトランスフォームロジック１０５０により処理されたデータであり得る。

図１８を参照すると、ロジック半導体ダイ１０１０の第４送信回路ＴＸ４と入出力半導体ダイ１４００の第４受信回路ＲＸ４４がイネーブルされて対応する第４データバスＤＢＵＳ４を介して演算結果データ（ＤＲ）が転送される。
この場合、演算結果データ（ＤＲ）は、通常の書き込み動作を通じて入出力半導体ダイ１４００のメモリ集積回路に格納される。
演算結果データ（ＤＲ）の量が多い場合には時分割方式により順次に伝達される。

図１９は、本発明の実施形態に係る積層型メモリ装置における演算回路の出力データの転送経路の一実施形態を示す分解斜視図であり、図２０は、図１９の出力データの転送経路を具現する一実施形態を示す回路図である。
図１９を参照すると、演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）は、ロジック半導体ダイ１０１０を経由せず、演算半導体ダイ（１１００、１２００、１３００）から入出力半導体ダイ１４００に直接伝達される。
演算半導体ダイ（１１００、１２００、１３００）は、演算半導体ダイ（１１００、１２００、１３００）に各々対応するデータバス（ＤＢＵＳ１、ＤＢＵＳ２、ＤＢＵＳ３）を各々の演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）として順次に駆動する。
入出力半導体ダイ１４００は、演算半導体ダイ（１１００、１２００、１３００）に対応するデータバス（ＤＢＵＳ１、ＤＢＵＳ２、ＤＢＵＳ３）を介して演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）を順次に受信する。

図２０を参照すると、第１演算半導体ダイ１１００の第１送信回路ＴＸ１１と入出力半導体ダイ１４００の第１受信回路ＲＸ４１がイネーブルされて対応する第１データバスＤＢＵＳ１を介して演算結果データＤＲ１が転送される。
第２演算半導体ダイ１２００の第２送信回路ＴＸ２２と入出力半導体ダイ１４００の第２受信回路ＲＸ４２がイネーブルされて対応する第２データバスＤＢＵＳ２を介して演算結果データＤＲ２が転送される。
第３演算半導体ダイ１３００の第３送信回路ＴＸ３３と入出力半導体ダイ１４００の第３受信回路ＲＸ４３がイネーブルされて対応する第３データバスＤＢＵＳ３を介して演算結果データＤＲ３が転送される。
このような演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）の転送は、演算半導体ダイ（１１００、１２００、１３００）に対して１つずつ順次に実行できる。

図２１は、本発明の実施形態に係る積層型メモリ装置における演算回路の出力データの転送経路の一実施形態を示す分解斜視図であり、図２２は、図２１の出力データの転送経路を具現する一実施形態を示す回路図である。
図２１を参照すると、演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）は、ロジック半導体ダイ１０１０を経由せず、演算半導体ダイ（１１００、１２００、１３００）から入出力半導体ダイ１４００に直接伝達される。
演算半導体ダイ（１１００、１２００、１３００）は、入出力半導体ダイ１４００に対応する第４データバスＤＢＵＳ４を各々の演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）として順次に駆動する。
入出力半導体ダイ１４００は、入出力半導体ダイ１４００に対応する第４データバスＤＢＵＳ４を介して各々の演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）を順次に受信する。

図２２を参照すると、第１演算半導体ダイ１１００の第４送信回路ＴＸ１４、第２演算半導体ダイ１２００の第４送信回路ＴＸ２４、及び第３演算半導体ダイ１３００の第４送信回路ＴＸ３４が順次にイネーブルされて第４データバスＤＢＵＳ４を介して演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）を順次に出力する。
入出力半導体ダイ１４００の第４受信回路ＲＸ４４は、続けてイネーブルされた状態を維持して演算結果データ（ＤＲ１、ＤＲ２、ＤＲ３）を順次に受信する。

図２３は、本発明の実施形態に係る積層型メモリ装置におけるブロードキャストデータの転送経路の一実施形態を示す分解斜視図であり、図２４は図２３のブロードキャストデータの転送経路を具現する一実施形態を示す回路図である。
図２３に示すように、積層されたメモリ半導体ダイ（１１００、１２００、１３００、１４００）の全部は、演算回路（ＣＡＬ）が形成された演算半導体ダイに該当することができる。
この場合、第１〜第４演算半導体ダイ（１１００、１２００、１３００、１４００）のうちの１つから残りの演算半導体ダイにブロードキャストデータ（ＤＡ）を伝達することができる。
ブロードキャストデータ（ＤＡ）を提供する演算半導体ダイは、ロジック半導体ダイ１０１０から提供されるコマンドに基づいて決定できる。
図２３には第３演算半導体ダイ１３００がブロードキャストデータ（ＤＡ）を提供する例を示す。

図２３を参照すると、ブロードキャストデータ（ＤＡ）はロジック半導体ダイ１０１０を経由せず、１つの演算半導体ダイ、即ち第３演算半導体ダイ１３００から他の演算半導体ダイ、即ち第１、第２、及び第４演算半導体ダイ（１１００、１２００、１４００）に直接伝達される。
第３演算半導体ダイ１３００は、第１、第２、及び第４演算半導体ダイ（１１００、１２００、１４００）に各々対応するデータバス（ＤＢＵＳ１、ＤＢＵＳ２、ＤＢＵＳ４）をブロードキャストデータ（ＤＡ）で同時に駆動する。
第１、第２、及び第４演算半導体ダイ（１１００、１２００、１４００）の各々は、対応するデータバス（ＤＢＵＳ１、ＤＢＵＳ２、ＤＢＵＳ４）を介してブロードキャストデータ（ＤＡ）を受信する。

図２４を参照すると、第３演算半導体ダイ１３００の第１送信回路ＴＸ３１と第１演算半導体ダイ１１００の第１受信回路ＲＸ１１がイネーブルされて対応する第１データバスＤＢＵＳ１を介してブロードキャストデータ（ＤＡ）が転送される。
第３演算半導体ダイ１３００の第２送信回路ＴＸ３２と第２演算半導体ダイ１２００の第２受信回路ＲＸ２２がイネーブルされて対応する第２データバスＤＢＵＳ２を介してブロードキャストデータ（ＤＡ）が転送される。
第３演算半導体ダイ１３００の第４送信回路ＴＸ３４と第４演算半導体ダイ１４００の第４受信回路ＲＸ４４がイネーブルされて対応する第４データバスＤＢＵＳ４を介してブロードキャストデータ（ＤＡ）が転送される。

このようなブロードキャストデータ（ＤＡ）の転送は、全ての演算半導体ダイ（１１００、１２００、１４００）に対して同時に実行される。
一方、図２４に示してはいないが、第３演算半導体ダイ１３００の第３送信回路ＴＸ３３と第３受信回路ＲＸ３３がイネーブルされてブロードキャストデータ（ＤＡ）が第３演算半導体ダイ１３００の演算ユニットの対応する入力端子に提供できる。
この場合、第３演算半導体ダイ１３００はブロードキャストデータ（ＤＡ）を提供する役割だけでなく、他の演算半導体ダイと同様に演算動作を実行することができる。

図２５は、本発明の実施形態に係る積層型メモリ装置に含まれる演算ユニットの一実施形態を示すブロック図である。
図２５を参照すると、各演算ユニット５００は、乗算部５２０及び累積部５４０を含む。
乗算部５２０は、バッファ（５２１、５２２）と乗算器５２３を含み、ブロードキャストデータ（ＤＡ［Ｎ−１：０］）及び内部データ（ＤＷ［Ｎ−１：０］）を乗算して出力する。
累積部５４０は、加算器５４１とバッファ５４２を含み、乗算部５２０の出力を累積して演算結果データ（ＤＲ）を提供する。
累積部５４０は、リセット信号（ＲＳＴ）に応答して初期化され、出力制御信号（ＯＵＴＥＮ）に応答して演算結果データ（ＤＲ）を出力する。
このような演算ユニット５００を用いて図２７を参照して後述するマトリックス演算を効率良く実行することができる。

図２６は、本発明の一実施形態に係る演算結果データの出力方法を説明するための図である。
図２６には１つのチャンネル（ＣＨＡＮＮＥＬ−０）に対応する演算結果データの出力方法の一実施形態を示す。
１つのチャンネル（ＣＨＡＮＮＥＬ−０）は、複数のメモリバンク（ＢＡＮＫ０〜ＢＡＮＫ１５）を含み、メモリバンク（ＢＡＮＫ０〜ＢＡＮＫ１５）の各々は、複数の演算ユニット（ＣＵ０〜ＣＵ１５）を含む。
メモリバンク（ＢＡＮＫ０〜ＢＡＮＫ１５）は、ＨＢＭ標準に規定された通り、２つのシュードチャンネル（ＰＳＥ−０、ＰＳＥ−１）に区分できる。

演算ユニットが形成される演算半導体ダイの各々は、図２６に示すようなバンク合算器（６１０ａ〜６１０ｐ）をさらに含む。
バンク合算器（６１０ａ〜６１０ｐ）は、メモリバンク（ＢＡＮＫ０〜ＢＡＮＫ１５）の各々に該当する演算ユニットの出力を合算して各々のバンク結果信号（ＢＲ０〜ＢＲ１５）を発生する。
各々の演算半導体ダイで発生するバンク結果信号（ＢＲ０〜ＢＲ１５）は、各々の演算半導体ダイに対応するデータバスＤＢＵＳを介して同時に出力できる。

例えば、１つのチャンネル（ＣＨＡＮＮＥＬ−０）に対応するデータバスＤＢＵＳが１２８ビットに対応し、１つのチャンネル（ＣＨＡＮＮＥＬ−０）が１６個のメモリバンク（ＢＡＮＫ０〜ＢＡＮＫ１５）を含む場合、１つのバンク合算器の出力は１つのバイト、即ち８ビットに対応するデータバスＤＢＵＳのデータ経路を介して出力される。
即ち、第１バンク合算器６１０ａのバンク結果信号ＢＲ０は、データバスＤＢＵＳの第１バイト（ＢＹ０）に対応するデータ経路を介して出力され、第２バンク合算器６１０ｂのバンク結果信号ＢＲ１は、データバスＤＢＵＳの第２バイト（ＢＹ１）に対応するデータ経路を介して出力され、このような方式により、第１６バンク合算器６１０ｐのバンク結果信号ＢＲ１５はデータバスＤＢＵＳの第１６バイト（ＢＹ１５）に対応するデータ経路を介して出力される。

図２７は、本発明の実施形態に係る演算回路を用いたマトリックス演算を説明するための図である。
図２７は、本発明の実施形態に係る積層型メモリ装置が複数の演算ユニット（ＣＵ０−０〜ＣＵ９５−１５）を用いてマトリックス−ベクトル（ｍａｔｒｉｘ−ｖｅｃｔｏｒ：ＭＶ）乗算（ｍｕｌｔｉｐｌｉｃａｔｉｏｎ）を実行する方法を示す。

図２７で、ｉ番目行の演算ユニット（ＣＵｉ−０〜ＣＵｉ−１５）は、ｉ番目メモリバンクＢＡＮＫｉに対応する。
例えば、ＭＶ乗算は３２ビットモードであり、各メモリバンクは１６個の演算ユニットＣＵを含むことができる。
例えば、４個のメモリ半導体ダイの各々が２つのチャンネルを含み、各チャンネルが１６個のメモリバンクを含むことができる。
この場合、１つの半導体ダイは前述した入出力半導体ダイに用いられ、３個のメモリ半導体ダイが演算半導体ダイに用いられる場合、演算半導体ダイに含まれるメモリバンクの個数は９６個（６チャンネル×１６メモリバンク）でありうる。

第１動作周期（Ｔ１）で第１セットのブロードキャストデータ（ＤＡ０〜ＤＡ１５）が、第２動作周期（Ｔ２）で第２セットのブロードキャストデータ（ＤＡ１６〜ＤＡ３１）が順次にアクティベーション（ａｃｔｉｖａｔｉｏｎｓ）として全てのメモリバンクの全ての演算ユニットに共通に提供される。
このような方式によりアクティベーションが順次にブロードキャストできる。
一方、第１動作周期（Ｔ１）で第１セットの内部データ（ＤＷ０〜ＤＷ９５）が、第２動作周期（Ｔ２）で第２セットの内部データ（ＤＷ９６〜ＤＷ１９１）がウェイト（ｗｅｉｇｈｔｓ）として順次に演算ユニットに各々提供される。

内部データは、各々のメモリバンクから読み出されたデータに該当する。
このように、順次に提供されるアクティベーション及びウェイトに基づいて演算ユニットは内積演算（ｄｏｔｐｒｏｄｕｃｔｏｐｅｒａｔｉｏｎｓ）を実行する。
同一のメモリバンクの演算ユニットは同一の出力アクティベーションの部分和を提供する。
したがって、内積演算が完了した後に部分和は、図２６のバンク合算器により合算されて、最終結果、即ちバンク結果信号（ＢＲ０〜ＢＲ９５）が提供される。

本発明の実施形態に係る積層型メモリ装置において、図２７に示すようなＭＶ乗算は、１×１畳み込み（ｃｏｎｖｏｌｕｔｉｏｎ）、又は完全接続されたレイヤ（ｆｕｌｌｙ−ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）に該当する。
ＭＬＰ及びＲＮＮの場合にブロードキャストデータ、即ちブロードキャスティングされたアクティベーションは１次元入力アクティベーションのサブ−アレイに該当する。
ＣＮＮの場合に入力アクティベーションは、入力アクティベーションテンソルで１×１サブ−コラムに該当する。

図２８は、本発明の実施形態に係る積層型メモリ装置の動作を説明するためのタイミング図である。
図９を参照して前述したように、本発明の実施形態に係る積層型メモリ装置で、第１、第２、及び第３メモリ半導体ダイ（１１００、１２００、１３００）は、演算回路ＣＡＬ、即ち演算ユニットＣＵが形成される第１、第２、及び第３演算半導体ダイに該当し、第４メモリ半導体ダイ１４００は、演算回路ＣＡＬが形成されていない入出力半導体ダイでありうる。

この場合、前述したブロードキャストデータは、入出力半導体ダイ１４００から提供される。
ＨＢＭ標準に規定された通り、第１演算半導体ダイ１１００は第１チャンネルＣＨ０及び第２チャンネルＣＨ１を含み、第２演算半導体ダイ１２００は第３チャンネルＣＨ２及び第４チャンネルＣＨ３を含み、第３演算半導体ダイ１３００は第５チャンネルＣＨ４及び第６チャンネルＣＨ５を含み、入出力半導体ダイ１４００は第７チャンネルＣＨ６及び第８チャンネルＣＨ７を含む。
各チャンネルは、シュードチャンネル（ＰＳＥ）「０」及び「１」として動作することができる。

本発明の実施形態に係る積層型メモリ装置は、演算ユニットを用いた複数の演算を並列的に実行するために図２８に示したＭＲＳＴ、ＡＢＲＯ、ＭＡＣ、ＳＵＭ、ＭＷＲＴのような新しいコマンドを規定することができる。
図２８で、時点（Ｔ０〜ＴＮ＋１）は、コマンドの相対的なタイミングを示す。

ＭＲＳＴは、演算ユニットのバッファをリセットするためのコマンドである。
例えば、ＭＲＳＴに基づいて図２５のリセット信号（ＲＳＴ）が活性化され、バッファ５４２が初期化される。
また、ＭＲＳＴは、ブロードキャストデータの転送のためにロジック半導体ダイ１０１０のメモリ制御部１０３０のチャンネル選択器をセッティングする。

ＡＢＲＯは、ブロードキャストデータの転送を開始する（ｉｎｉｔｉａｔｅ）。
ＡＢＲＯは、読出コマンドと類似しているが、読出データが外部に転送されず、演算半導体ダイの演算ユニットに伝達されるようにする。
ＡＢＲＯは、シュードチャンネル単位で発行される。
ＭＡＣは、演算半導体ダイで演算動作を開始する。
ＭＡＣは、読出コマンドと類似しているが、読出された内部データは演算ユニットのみまで伝達され、ＴＳＶを通じての外部または他の半導体ダイへの転送は防止される。
ＭＡＣは、全ての演算半導体ダイにブロードキャスティングされ、シュードチャンネル単位で発行される。

ＳＵＭは、演算結果データを演算ユニットからロジック半導体ダイに転送する。
例えば、ＳＵＭに基づいて図２５の出力制御信号（ＯＵＴＥＮ）が活性化され、演算結果データ（ＤＲ）は図２６のバンク合算器（６１０ａ〜６１０ｐ）により合算されてバンク結果信号（ＢＲ）としてロジック半導体ダイ１０１０に提供される。
ＭＷＲＴは、演算結果データをロジック半導体ダイ１０１０から入出力半導体ダイに転送するようにロジック半導体ダイ１０１０のメモリ制御部１０３０のチャンネル選択器をセッティングする。

図２８で、第７チャンネルＣＨ６と第８チャンネルＣＨ７は、入出力半導体ダイ１４００に該当し、ブロードキャストデータ及び演算結果データを格納し、第１〜第６チャンネル（ＣＨ０〜ＣＨ５）は、演算半導体ダイ（１１００、１２００、１３００）に該当し、内部データを格納し、演算動作を実行する。
図２８に示したように、ＡＢＲＯ、ＭＡＣ、ＭＷＲＴは、シュードチャンネル単位で、即ち第１シュードチャンネル（ＰＳＥ−０）と第２シュードチャンネル（ＰＳＥ−１）に対して交互に（ａｌｔｅｒｎａｔｉｖｅｌｙ）発行され、これによって、演算ユニットの動作が効率良く実行できる。
例えば、Ｔ２時点では第２シュードチャンネル（ＰＳＥ−１）に対するブロードキャストデータの転送と第１シュードチャンネル（ＰＳＥ−０）に対する内部データの転送及び演算が同時に実行できる。

図２９及び図３０は、本発明の実施形態に係る積層型メモリ装置のパッケージング構造を示す概略図である。
図２９を参照すると、メモリチップ８０１は、インターポーザ（ｉｎｔｅｒｐｏｓｅｒ：ＩＴＰ）、及びインターポーザＩＴＰの上に実装される積層型メモリ装置を含む。
積層型メモリ装置は、ロジック半導体ダイＬＳＤ及び複数のメモリ半導体ダイ（ＭＳＤ１〜ＭＳＤ４）を含む。

図３０を参照すると、メモリチップ８０２は、ベース基板（ｂａｓｅｓｕｂｓｔｒａｔｅ：ＢＳＵＢ）及びベース基板ＢＳＵＢの上に実装される積層型メモリ装置を含む。
積層型メモリ装置は、ロジック半導体ダイＬＳＤ及び複数のメモリ半導体ダイ（ＭＳＤ１〜ＭＳＤ４）を含む。

図２９にはロジック半導体ダイＬＳＤを除外したメモリ半導体ダイ（ＭＳＤ１〜ＭＳＤ４）のみが共に垂直に積層され、ロジック半導体ダイＬＳＤは、インターポーザＩＴＰ（又はベース基板ＢＳＵＢ）を介して積層されたメモリ半導体ダイ（ＭＳＤ１〜ＭＳＤ４）と電気的に接続される構造を示す。
一方、図３０では、ロジック半導体ダイＬＳＤは、メモリ半導体ダイ（ＭＳＤ１〜ＭＳＤ４）と共に垂直に積層される構造を示す。

メモリ半導体ダイ（ＭＳＤ１〜ＭＳＤ４）の１つ以上は、前述した演算回路（ＣＡＬ）を含むことができる。
演算回路（ＣＡＬ）は、共通のブロードキャストデータと各内部データに基づいた演算を遂行する複数の演算ユニットを含む。

ベース基板ＢＳＵＢは、インターポーザＩＴＰを含むものとして見なす。
ベース基板ＢＳＵＢは、印刷回路基板（ｐｒｉｎｔｅｄｃｉｒｃｕｉｔｂｏａｒｄ：ＰＣＢ）でありうる。
ベース基板ＢＳＵＢの下面には外部接続部材、例えば導電性バンプＢＭＰが形成することができ、ベース基板ＢＳＵＢの上面にも内部接続部材、例えば導電性バンプＢＭＰを形成する。
図２９の実施形態ではロジック半導体ダイＬＳＤとメモリ半導体ダイ（ＭＳＤ１〜ＭＳＤ４）はインターポーザＩＴＰに形成された導電ラインパターンを介して互いに電気的に接続される。
このように積層された半導体ダイ（ＬＳＤ、ＭＳＤ１〜ＭＳＤ４）は、封入部材ＲＳＮを用いてパッケージングされる。

図３１は、本発明の実施形態に係る積層型メモリ装置を応用した例であるモバイルシステムの概略構成を示すブロック図である。
図３１を参照すると、モバイルシステム３０００は、アプリケーションプロセッサ３１００、通信部３２００、メモリ装置３３００、不揮発性メモリ装置３４００、ユーザインターフェース３５００、及びパワーサプライ３６００を含む。

アプリケーションプロセッサ３１００は、インターネットブラウザ、ゲーム、動画像などを提供するアプリケーションを実行する。
通信部３２００は、外部装置と無線通信または有線通信を実行する。
メモリ装置３３００は、アプリケーションプロセッサ３１００により処理されるデータを格納するか、又は動作メモリ（ＷｏｒｋｉｎｇＭｅｍｏｒｙ）として動作する。
例えば、メモリ装置３３００は、ＤＤＲＳＤＲＡＭ、ＬＰＤＤＲＳＤＲＡＭ、ＧＤＤＲＳＤＲＡＭ、ＲＤＲＡＭなどの動的ランダムアクセスメモリでありうる。

不揮発性メモリ装置３４００は、モバイルシステム３０００をブーティング（ｂｏｏｔｉｎｇ）するためのブートイメージを格納することができる。
ユーザインターフェース３５００は、キーパッド、タッチスクリーンのような１つ以上の入力装置、及び／又はスピーカー、ディスプレイ装置のような１つ以上の出力装置を含む。
パワーサプライ３６００は、モバイルシステム３０００の電源電圧を供給する。
また、実施形態に従って、モバイルシステム３０００は、カメライメージプロセッサ（ＣａｍｅｒａＩｍａｇｅＰｒｏｃｅｓｓｏｒ：ＣＩＳ）をさらに含むことができ、メモリカード（ＭｅｍｏｒｙＣａｒｄ）、ソリッドステートドライブ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ：ＳＳＤ）、ハードディスクドライブ（ＨａｒｄＤｉｓｋＤｒｉｖｅ：ＨＤＤ）、ＣＤ−ＲＯＭなどの格納装置をさらに含むことができる。

メモリ装置３３００及び／又は不揮発性メモリ装置３４００は、図１から図３０を参照して前述したような積層型構造として具現できる。
積層型構造は、ＴＳＶを通じて接続される積層された複数のメモリ半導体ダイを含み、メモリ半導体ダイの１つ以上には前述したような演算ユニットが形成される。

以上、説明したように、本発明の実施形態に係る積層型メモリ装置、これを含むシステム、及びその動作方法は、メモリ集約的（ｍｅｍｏｒｙ−ｉｎｔｅｎｓｉｖｅ）又はデータ集約的（ｄａｔａ−ｉｎｔｅｎｓｉｖｅ）なデータプロセスをメモリ半導体ダイに含まれた複数の演算ユニットにより並列的に実行することによって、積層型メモリ装置、ロジック半導体ダイ、及び外部装置との間で交信するデータの量を減少させてデータプロセシング時間及び電力消費を減少させることができる。

尚、本発明は、上述の実施形態に限られるものではない。本発明の技術的範囲から逸脱しない範囲内で多様に変更実施することが可能である。

本発明は、メモリ装置及びこれを含む電子機器、システムに好適に利用される。
特に、本発明の実施形態は、メモリカード、ソリッドステートドライブ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ：ＳＳＤ）、コンピュータ、ノートブックコンピュータ、携帯電話、スマートフォン、ＭＰ３プレーヤ、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、デジタルＴＶ、デジタルカメラ、ポータブルゲームコンソールなどの電子機器にさらに有用に適用できる。

１０メモリシステム
１２インターコネクタ装置
１００演算回路
１００ａ〜１００ｈ演算ブロック
２００メモリバンク
３００演算ブロック
４００メモリ領域
４１０制御ロジック
４１１コマンドデコーダ
４１２モードレジスタセット
４２０アドレスレジスタ
４３０バンク制御ロジック
４４０ロウアドレスマルチプレクサ
４４５リフラッシュカウンター
４５０コラムアドレスラッチ
４６０ロウデコーダ
４６０ａ〜４６０ｈバンクロウデコーダ
４７０コラムデコーダ
４７０ａ〜４７０ｈバンクコラムデコーダ
４８０メモリセルアレイ
４８０ａ〜４８０ｈバンクアレイ
４９０入出力ゲーティング回路
４９５データ入出力バッファ
１０００積層型メモリ装置
１００１高帯域幅メモリ
１０１０ロジック半導体ダイ
１０２０メモリインターフェース
１０３０メモリ制御部
１０４０グローバルバッファ
１０５０データトランスフォームロジック
１０７０、１０８０メモリ半導体ダイ（演算半導体ダイを含む）
１０７１、１０８１メモリ集積回路（ＭＥＭ）
１１００〜１４００第１〜第４メモリ半導体ダイ（入出力半導体ダイ、演算半導体ダイを含む）
１４０１、１４０２メモリ集積回路
２０００ホスト装置
２１１０ホストインターフェース
２１２０、２１３０プロセッサコア

Claims

少なくとも１つのロジック半導体ダイ（ｓｅｍｉｃｏｎｄｕｃｔｏｒｄｉｅ）と、
前記ロジック半導体ダイの上に積層される複数のメモリ半導体ダイと、
前記ロジック半導体ダイ及び前記複数のメモリ半導体ダイを電気的に接続する複数のシリコン貫通ビア（ｖｉａ）と、を有し、
前記メモリ半導体ダイ各々には、データを格納するメモリ集積回路が形成され、
前記メモリ半導体ダイの内の１つ以上は、演算ユニットをさらに含む演算半導体ダイであり、
前記演算ユニットは、ブロードキャストデータ及び内部データに基づいて演算を実行し、演算結果データを生成するように構成され、
前記ブロードキャストデータは、前記シリコン貫通ビアを介して、前記演算半導体ダイに共通に提供され、
前記内部データは、前記演算半導体ダイの前記メモリ集積回路から各々読み出されることを特徴とする積層型メモリ装置。
前記メモリ半導体ダイの各々は、複数のメモリバンクを含み、前記演算ユニットは前記演算半導体ダイに含まれる前記メモリバンクの内部に分散して配置されることを特徴とする請求項１に記載の積層型メモリ装置。
前記演算半導体ダイの前記メモリバンクに含まれる前記演算ユニットは、前記ブロードキャストデータを共通に受信して前記演算を並列的に実行することを特徴とする請求項２に記載の積層型メモリ装置。
前記メモリバンクの各々は、複数のデータブロックを含み、前記演算半導体ダイに含まれる前記データブロックの一定の個数毎に演算ユニットが１つずつ配置されることを特徴とする請求項２に記載の積層型メモリ装置。
前記演算ユニットの前記内部データを受信する第１入力端子は、グローバル入出力ラインの信号を増幅して出力する入出力センスアンプの出力端子に接続され、
前記演算ユニットの前記ブロードキャストデータを受信する第２入力端子は、前記グローバル入出力ラインを駆動する入出力ドライバの入力端子に接続されることを特徴とする請求項１に記載の積層型メモリ装置。
前記メモリ半導体ダイのうちの少なくとも１つは、前記演算ユニットを含まない入出力半導体ダイであることを特徴とする請求項１に記載の積層型メモリ装置。
前記ブロードキャストデータは、前記ロジック半導体ダイを経由せず、前記入出力半導体ダイから前記演算半導体ダイに直接伝達されることを特徴とする請求項６に記載の積層型メモリ装置。
前記入出力半導体ダイは、前記ブロードキャストデータと共に前記演算半導体ダイに各々対応する複数のデータバスを同時に駆動し、
前記演算半導体ダイの各々は、対応するデータバスの１つを介して前記ブロードキャストデータを受信することを特徴とする請求項６に記載の積層型メモリ装置。
前記入出力半導体ダイは、前記ブロードキャストデータと共に前記入出力半導体ダイに対応するデータバスを駆動し、
前記演算半導体ダイの各々は、前記入出力半導体ダイに対応するデータバスを介して前記ブロードキャストデータを受信することを特徴とする請求項６に記載の積層型メモリ装置。
前記演算結果データは、前記演算半導体ダイから前記ロジック半導体ダイに伝達された後、前記ロジック半導体ダイから前記入出力半導体ダイに伝達されることを特徴とする請求項６に記載の積層型メモリ装置。
前記演算結果データは、前記演算半導体ダイに各々対応するデータバスを介して前記演算半導体ダイから前記ロジック半導体ダイに同時に伝達され、
前記演算結果データは、前記入出力半導体ダイに対応するデータバスを介して前記ロジック半導体ダイから前記入出力半導体ダイに時分割方式により順次に伝達されることを特徴とする請求項１０に記載の積層型メモリ装置。
前記演算結果データは、前記ロジック半導体ダイを経由せず、前記演算半導体ダイから前記入出力半導体ダイに直接伝達されることを特徴とする請求項６に記載の積層型メモリ装置。
前記各演算半導体ダイは、前記演算結果データと共に対応するデータバスを駆動し、
前記入出力半導体ダイは、前記演算半導体ダイに対応するデータバスを介して前記演算結果データを順次に受信することを特徴とする請求項１２に記載の積層型メモリ装置。
前記演算半導体ダイは、前記演算結果データと共に前記入出力半導体ダイに対応するデータバスを順次に駆動し、
前記入出力半導体ダイは、前記入出力半導体ダイに対応するデータバスを介して前記演算結果データを順次に受信することを特徴とする請求項１２に記載の積層型メモリ装置。
前記メモリ半導体ダイの全部は、前記演算ユニットをさらに含む前記演算半導体ダイであることを特徴とする請求項１に記載の積層型メモリ装置。
前記演算半導体ダイの各々は、複数のバンク合算器をさらに含み、
前記複数のバンク合算器は、前記各メモリバンク内の前記演算ユニットの出力を合算して各々のバンク結果信号を生成することを特徴とする請求項２に記載の積層型メモリ装置。
前記演算ユニットの各々は、前記ブロードキャストデータと前記内部データを乗算して出力する乗算部と、
前記乗算部の出力を累積して前記演算結果データを提供する累積部と、を含むことを特徴とする請求項１に記載の積層型メモリ装置。
前記ロジック半導体ダイは、前記メモリ半導体ダイから提供されたデータ、又は外部装置から提供されたデータを処理するデータトランスフォームロジックをさらに含むことを特徴とする請求項１に記載の積層型メモリ装置。
ベース基板と、
前記ベース基板の上に積層される少なくとも１つのロジック半導体ダイと、
前記ベース基板又は前記ロジック半導体ダイの上に積層される複数のメモリ半導体ダイと、
前記メモリ半導体ダイの内の１つ以上の演算半導体ダイに各々形成された複数の演算ユニットと、を有し、
前記複数の演算ユニットは、ブロードキャストデータ及び内部データに基づいて演算を実行して、演算結果データを生成し、
前記ブロードキャストデータは、演算半導体ダイに共通に提供され、前記内部データは、前記演算半導体ダイに含まれるメモリ集積回路から各々読み出されることを特徴とするメモリシステム。
積層された複数のメモリ半導体ダイのうちの１つ以上の演算半導体ダイに複数の演算ユニットを形成するステップと、
前記複数のメモリ半導体ダイを電気的に接続する複数のシリコン貫通ビア（ｖｉａ）を介してブロードキャストデータを前記各演算ユニットに共通に提供するステップと、
前記演算半導体ダイのメモリ集積回路から各々読み出される内部データを前記複数の演算ユニットに各々提供するステップと、
前記複数の演算ユニットを用いて前記共通のブロードキャストデータ及び前記各々の内部データに基づく複数の演算を同時に実行するステップと、を有することを特徴とする積層型メモリ装置の動作方法。