JP7058810B2

JP7058810B2 - 信号処理システム

Info

Publication number: JP7058810B2
Application number: JP2021560838A
Authority: JP
Inventors: 咲希松尾; 将人後町
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2022-04-22
Anticipated expiration: 2039-12-16
Also published as: JPWO2021124376A1; WO2021124376A1

Description

本発明は、チャープｚ変換（ｃｈｉｒｐＺ－ｔｒａｎｓｆｏｒｍ，ＣＺＴ）を実行するための信号処理技術に関する。

離散フーリエ変換（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ，ＤＦＴ）は、時間領域信号を周波数領域信号に変換する手法であり、音声信号処理、画像信号処理、生体信号解析及びディジタル通信などの種々の技術分野において広く使用されている。ＤＦＴを高速に演算するアルゴリズムとしては、高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ，ＦＦＴ）が広く知られている。ＦＦＴの多くは、信号長が２のべき乗に制限されるクーリー・テューキー型ＦＦＴ（Ｃｏｏｌｅｙ－ＴｕｋｅｙＦＦＴ）であり、任意の信号長でのＤＦＴを演算することができないという課題がある。

そこで、任意の信号長での演算を可能にするアルゴリズムとして、ＣＺＴに基づくＤＦＴが知られている。このＣＺＴに基づくＤＦＴは、ブルースタインのＦＦＴ（Ｂｌｕｅｓｔｅｉｎ’ｓＦＦＴ）と呼ばれることがある。たとえば、非特許文献１には、ＣＺＴに基づくＤＦＴを実装するためのハードウェア構成が開示されている。

P. A. Milder, et al.: "Hardware implementation of the discrete Fourier transform with non-power-of-two problem size", Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2010.

近年、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）及びＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの汎用プロセッサの他に、テンソル演算を実行可能なＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの、並列演算に特化した特定用途向けプロセッサが普及している。この種の特定用途向けプロセッサは、各々が単純に設計された多数のプロセッサコア（演算器）を実装している。

上記のクーリー・テューキー型ＦＦＴは、ＤＦＴを再帰的に分解するアルゴリズムである。前述の特定用途向けプロセッサの個々のプロセッサコアは、汎用プロセッサのプロセッサコアと比べると単純な演算機能を有するように設計されているので、クーリー・テューキー型ＦＦＴの並列化を効率的に行うように設計されていない。一方、従来のＣＺＴに基づくＤＦＴも、２回のＦＦＴと１回のＩＦＦＴ（逆ＦＦＴ）とにより畳み込み演算を実行するアルゴリズムであることから、前述の特定用途向けプロセッサでは、従来のＣＺＴに基づくＤＦＴの並列化を効率的に行うことが難しい。

上記に鑑みて本発明の目的は、特定用途向けプロセッサにおいてＦＦＴを使用せずにＣＺＴの並列化を効率的に行うことを可能とする信号処理システムを提供することである。

本発明の一態様による信号処理システムは、複数の離散信号系列からなる入力行列と位相回転行列との行列積を演算することによりチャープｚ変換を実行する信号処理システムであって、並列演算を実行する複数個のプロセッサコアを含む特定用途向けのマルチコアプロセッサと、前記複数個のプロセッサコアにそれぞれ割り当てられた複数の位相回転データブロックを格納している第１のデータ記憶領域と、前記複数の離散信号系列を一時的に記憶する第２のデータ記憶領域と、前記第１のデータ記憶領域から前記複数の位相回転データブロックを読み出して前記マルチコアプロセッサに転送し、前記第２のデータ記憶領域から前記複数の離散信号系列を読み出して前記マルチコアプロセッサに転送する並列演算制御部とを備え、前記複数の位相回転データブロックの各位相回転データブロックは、連続的にアクセス可能な配列を有する複数の位相回転因子からなり、前記複数個のプロセッサコアの各プロセッサコアは、前記第１のデータ記憶領域から転送された当該複数の位相回転データブロックのうち自己に割り当てられた位相回転データブロックと、前記第２のデータ記憶領域から転送された当該複数の離散信号系列とを用いて前記行列積の一部をなす部分行列積を演算することを特徴とする。

本発明の一態様によれば、第１のデータ記憶領域に格納された位相回転データブロックは、連続的にアクセス可能な配列を有する複数の位相回転因子からなるので、並列演算制御部は、第１のデータ記憶領域にアクセスして各プロセッサコアに割り当てられた位相回転データブロックを効率良く読み出し転送することができる。これにより、複数個のプロセッサコアは、複数の部分行列積の並列演算を効率良く行うことができる。したがって、マルチコアプロセッサとして特定用途向けプロセッサが使用される場合に、ＦＦＴを使用せずにＣＺＴの並列化を効率的に行うことが可能となる。

本発明に係る実施の形態１の信号処理システムのハードウェア構成の一例を概略的に示すブロック図である。本発明に係る実施の形態１の信号処理システムの概略構成を示す機能ブロック図である。位相回転行列を示す図である。離散信号系列を有するデータブロックを概念的に示す図である。並べ替え前後の離散信号系列を有する行データブロックを概念的に示す図である。位相回転データブロック群を概念的に示す図である。列データブロックの構成を概念的に示す図である。ｋ番目の行データブロックとｍ番目の列データブロックとの間の積和演算を説明するための図である。複数の部分行列積の並列演算を説明するための図である。入力データブロックと位相回転データブロックとの間の部分行列積の一例を説明するための図である。ＣＺＴ処理の手順を概略的に示すフローチャートである。位相回転データ生成処理の手順を概略的に示すフローチャートである。

以下、図面を参照しつつ、本発明に係る実施の形態について詳細に説明する。なお、図面全体において同一符号を付された構成要素は、同一構成及び同一機能を有するものとする。

図１は、本発明に係る実施の形態１の信号処理システム１のハードウェア構成の一例を概略的に示すブロック図である。図１に示される信号処理システム１は、互いに独立した演算処理を実行する親機１０及び子機２０を有する。親機１０及び子機２０は、互いに連携動作して分散並列処理を実行するように構成されている。具体的には、親機１０及び子機２０は、複数の離散信号系列からなる入力行列と位相回転行列との行列積を演算することによりチャープｚ変換（以下「ＣＺＴ」という。）を実行する。

親機１０は、図１に示されるように、１個のプロセッサコアＣ０を有するプロセッサ１１と、外部デバイス（図示せず）との間でディジタルデータの送受信を行う入出力インタフェース部（入出力Ｉ／Ｆ部）１４と、ディジタルデータを記憶するメモリ１２と、子機２０との間でデータ伝送路３０を介してディジタルデータの送受信を行う通信機能を有する通信インタフェース部（通信Ｉ／Ｆ部）１３とを備えている。

プロセッサ１１としては、たとえば、ＣＰＵなどの汎用プロセッサが使用されればよい。プロセッサ１１のプロセッサコアＣ０は、汎用処理を実行するように設計されている。なお、本実施の形態のプロセッサ１１は１個のプロセッサコアＣ０を有しているが、これに限定されるものではない。各々が汎用処理を実行する複数個のプロセッサコアを有するようにプロセッサ１１の構成が変更されてもよい。

メモリ１２は、入出力インタフェース部１４により送受信されるディジタルデータを記憶する記憶媒体と、プロセッサ１１で使用されるディジタルデータを一時的に記憶する一時記憶媒体と、プロセッサ１１で実行されるべき信号処理プログラムのコードを格納する記憶媒体とを備えている。このようなメモリ１２は、たとえば、フラッシュメモリ及びＳＤＲＡＭ（ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの半導体メモリで構成されていればよい。

通信インタフェース部１３は、データ伝送路３０を介して子機２０との間で高速にデータ通信を行うことができる機能を有する。たとえば、データ伝送路３０としては、伝送ケーブルまたはローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ，ＬＡＮ）が挙げられる。たとえば、通信インタフェース部１３は、ＰＣＩ－Ｅｘｐｒｅｓｓなどのシリアル転送方式に準拠した機能を有することができる。

一方、子機２０は、並列演算に特化したマルチコアプロセッサ２１と、親機１０との間でディジタルデータの送受信を行う通信インタフェース部（通信Ｉ／Ｆ部）２３と、ディジタルデータを記憶するメモリ２２とを備えている。マルチコアプロセッサ２１は、並列演算を実行する複数個のプロセッサコアＣ１，…，Ｃ１からなるマルチコアＭＣ１と、並列演算を実行する複数個のプロセッサコアＣ２，…，Ｃ２からなるマルチコアＭＣ２とを含む。

マルチコアプロセッサ２１のプロセッサコアＣ１，Ｃ２は、プロセッサ１１のプロセッサコアＣ０よりも行列積演算に特化するように設計されている。たとえば、マルチコアプロセッサ２１として、テンソル演算を高速に行う機能を有するＧＰＵまたはＴＰＵ（ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が使用されればよい。このようなＧＰＵまたはＴＰＵでは、個々のプロセッサコアが行列積演算を高速に実行することができるように設計されている。

メモリ２２は、マルチコアプロセッサ２１で使用されるディジタルデータを一時的に記憶する一時記憶媒体と、マルチコアプロセッサ２１で実行されるべき信号処理プログラムのコードを格納する記憶媒体とを備えている。このようなメモリ２２は、たとえば、フラッシュメモリ及びＳＤＲＡＭなどの半導体メモリで構成されていればよい。

図２は、本発明に係る実施の形態１の信号処理システム２の概略構成を示す機能ブロック図である。図２に示される信号処理システム２は、図１に示した信号処理システム１をより機能的に表現したものである。

図２に示される信号処理システム２は、図１の親機１０に相当する親機１０Ｆと、図１の子機２０に相当する子機２０Ｆとを備える。親機１０Ｆは、並列演算制御部１１Ｆ、メモリ１２、通信インタフェース部（通信Ｉ／Ｆ部）１３及び入出力インタフェース部（入出力Ｉ／Ｆ部）１４を有するように構成されている。並列演算制御部１１Ｆは、位相回転データ生成部４１、データ並べ替え部４２及びデータ送受部４３を有する。並列演算制御部１１Ｆのハードウェア構成は、図１のプロセッサ１１により実現される。

一方、子機２０Ｆは、マルチコアプロセッサ２１Ｆ、メモリ２２及び通信インタフェース部（通信Ｉ／Ｆ部）２３を有するように構成されている。マルチコアプロセッサ２１Ｆは、並列演算部５１，５２及びデータ送受部５３を有する。並列演算部５１，５２の各々は、並列演算を実行する複数個のプロセッサコアを含む。このようなマルチコアプロセッサ２１Ｆのハードウェア構成は、図１のマルチコアプロセッサ２１により実現される。

親機１０Ｆ及び子機２０Ｆは、互いに連携動作して、外部デバイス（図示せず）から親機１０Ｆの入出力インタフェース部１４に入力された離散信号系列（複素信号系列）に対してＣＺＴを実行することができる。ＣＺＴは、次式（１）で表現される。

式（１）において、ｘ_ｋ（ｎ）は、ｋ番目の離散信号系列におけるｎ番目の離散信号であり、Ａ，Ｗは、ＣＺＴのパラメータを示す複素数であり、Ｘ_ｋ（ｍ）は、ＣＺＴにより得られたｍ番目の変換信号である。ここで、ｋは、離散信号系列に割り当てられた番号を示す１以上の整数、ｎは、０～Ｎ－１の範囲内の整数、ｍは、０～Ｍ－１の範囲内の整数である。パラメータＡ，Ｗを適当に設定することにより、式（１）を、たとえば、離散フーリエ変換または逆離散フーリエ変換の式に変形することができる。

ｋ番目の離散信号系列ｘ_ｋは、次式（２）に示されるように１行Ｎ列（Ｎ次元）の入力信号ベクトルとして表現することができる。

ｋ番目の変換信号系列Ｘ_ｋは、次式（３）に示されるように１行Ｍ列（Ｍ次元）の変換信号ベクトルとして表現することができる。

今、次式（４）に示すＮ行Ｎ列の対角行列Ｐを定義し、次式（５）に示すＮ行Ｍ列の行列Ψを定義する。

対角行列Ｐ及び行列Ψを使用すれば、式（１）は次式（６）に示すように表現される。

式（６）において、Ｇは、対角行列Ｐと行列Ψとの行列積から得られるＮ行Ｍ列の位相回転行列である。位相回転行列Ｇは、次式（７）に示すように表現可能である。

ここで、ｇ_ｎ，ｍは、位相回転行列Ｇのｎ行ｍ列目の行列要素である。

本実施の形態の親機１０Ｆ及び子機２０Ｆは、分散並列処理により、親機１０Ｆの入出力インタフェース部１４に入力されたＫ個の離散信号系列ｘ_１，…，ｘ_Ｋに対して一括してＣＺＴを実行することができる。ここで、Ｋは、２以上の整数である。Ｋ個の離散信号系列ｘ_１，…，ｘ_Ｋは、次式（８）に示すようなＫ行Ｎ列の入力行列Ｑとして表現可能である。

ここで、上付き添え字「Ｔ」は転置を示す。

また、ＣＺＴにより得られたＫ個の変換信号系列Ｘ_１，…，Ｘ_Ｋは、次式（９）に示すようなＫ行Ｍ列の変換行列Ｔとして表現可能である。

そして、式（６）を考慮すれば、変換行列Ｔは、次式（１０）に示されるように入力行列Ｑと位相回転行列Ｇとの行列積として表現可能である。

図３に示されるように位相回転行列Ｇは、Ｄ個の部分行列Ｇ_０，…，Ｇ_Ｄ－１に分解することができる。ここで、Ｄは、２以上の整数である。式（１０）から明らかなように、入力行列Ｑと位相回転行列Ｇとの行列積ＱＧは、並列実行可能なＤ個の部分行列積ＱＧ_０，ＱＧ_１，…，ＱＧ_Ｄ－１に分解することができる。後述するように、マルチコアプロセッサ２１Ｆの複数個のプロセッサコアは、Ｄ個の部分行列積ＱＧ_０，ＱＧ_１，…，ＱＧ_Ｄ－１をそれぞれ並列に演算することができる。

以下、信号処理システム２の親機１０Ｆ及び子機２０Ｆの構成について詳細に説明する。

親機１０Ｆの入出力インタフェース部１４は、外部デバイス（図示せず）からＫ個の離散信号系列ｘ_１，…，ｘ_Ｋが入力されると、当該離散信号系列ｘ_１，…，ｘ_Ｋをメモリ１２のデータバッファ領域（第２のデータ記憶領域）１２Ａに一時的に格納する。並列演算制御部１１Ｆのデータ並べ替え部４２は、データバッファ領域１２Ａにおける離散信号系列ｘ_１，…，ｘ_Ｋの配列を、連続的にアクセス可能な配列に並べ替える。

図４は、並べ替え後の離散信号系列ｘ_１，ｘ_２，…，ｘ_Ｋを有するデータブロック６０を概念的に示す図である。図４に示されるようにデータブロック６０は、Ｋ個の離散信号系列ｘ_１，ｘ_２，…，ｘ_Ｋをそれぞれ有するＫ個の行データブロックΩ_１，Ω_２，…，Ω_Ｋで構成されている。

図５に示される行データブロックω_ｋは、並べ替え前のｋ番目の離散信号系列ｘ_ｋを有する行データブロックである。この行データブロックω_ｋでは、離散信号ｘ_ｋ（ｎ）の実数部Ｒｅ［ｘ_ｋ（ｎ）］と虚数部Ｉｍ［ｘ_ｋ（ｎ）］とが交互に配列している。このため、仮に、行列積演算のためにメモリ１２内の行データブロックω_ｋから実数部Ｒｅ［ｘ_ｋ（０）］，Ｒｅ［ｘ_ｋ（１）］，…，Ｒｅ［ｘ_ｋ（Ｎ－１）］を連続的に読み出そうとすれば、効率的なメモリアクセスがなされない。同様に、仮に、行列積演算のためにメモリ１２内の行データブロックω_ｋから虚数部Ｉｍ［ｘ_ｋ（０）］，Ｉｍ［ｘ_ｋ（１）］，…，Ｉｍ［ｘ_ｋ（Ｎ－１）］を連続的に読み出そうとすれば、効率的なメモリアクセスがなされない。

これに対し、図５に示されるように、並べ替え後の行データブロックΩ_ｋは、離散信号系列ｘ_ｋの実数部Ｒｅ［ｘ_ｋ（０）］，…，Ｒｅ［ｘ_ｋ（Ｎ－１）］のみを有する行データブロックΩ_ｋ ^(ｒ)と、離散信号系列ｘ_ｋの虚数部Ｉｍ［ｘ_ｋ（０）］，…，Ｉｍ［ｘ_ｋ（Ｎ－１）］のみを有する行データブロックΩ_ｋ ^(ｉ)とで構成されている。この行データブロックΩ_ｋでは、離散信号系列ｘ_ｋの実数部Ｒｅ［ｘ_ｋ（０）］，…，Ｒｅ［ｘ_ｋ（Ｎ－１）］が連続的に配列し、かつ離散信号系列ｘ_ｋの虚数部Ｉｍ［ｘ_ｋ（０）］，…，Ｉｍ［ｘ_ｋ（Ｎ－１）］が連続的に配列している。このため、実数部Ｒｅ［ｘ_ｋ（０）］，…，Ｒｅ［ｘ_ｋ（Ｎ－１）］は、連続的にアクセス可能な配列でデータバッファ領域１２Ａに記憶され、虚数部Ｉｍ［ｘ_ｋ（０）］，…，Ｉｍ［ｘ_ｋ（Ｎ－１）］も、連続的にアクセス可能な配列でデータバッファ領域１２Ａに記憶されている。これにより、行列積演算のために、メモリ１２内の行データブロックΩ_ｋ ^(ｒ)から実数部Ｒｅ［ｘ_ｋ（０）］，…，Ｒｅ［ｘ_ｋ（Ｎ－１）］を効率良く連続的に読み出してマルチコアプロセッサ２１Ｆに転送することができる。同様に、行列積演算のためにメモリ１２内の行データブロックΩ_ｋ ^(ｉ)から虚数部Ｉｍ［ｘ_ｋ（０）］，…，Ｉｍ［ｘ_ｋ（Ｎ－１）］を効率良く連続的に読み出してマルチコアプロセッサ２１Ｆに転送することができる。

次に、並列演算制御部１１Ｆの位相回転データ生成部４１は、ＣＺＴに使用されるＮ×Ｍ個の位相回転因子ｇ_ｎ，ｍ（ｎ＝０～Ｎ－１，ｍ＝０～Ｍ－１）を算出し、これら位相回転因子ｇ_ｎ，ｍを連続的にアクセス可能な配列でメモリ１２内の位相回転データ記憶領域（第１のデータ記憶領域）１２Ｂに格納する。

図６は、位相回転データ記憶領域１２Ｂにおける２次元配列の位相回転因子ｇ_ｎ，ｍを有する位相回転データブロック群６１を概念的に示す図である。図６に示されるように、位相回転データブロック群６１は、位相回転行列Ｇの列要素｛ｇ_ｎ，０｝，｛ｇ_ｎ，１｝，…，｛ｇ_{ｎ，Ｍ－１}｝（ｎ＝０～Ｎ－１）をそれぞれ有する列データブロックΓ_０，Γ_１，…，Γ_Ｍ－１で構成されている。また、位相回転データブロック群６１は、図３に示したＤ個の部分行列Ｇ_０，…，Ｇ_Ｄ－１をそれぞれ有する位相回転データブロックＢ_０，Ｂ_１，…，Ｂ_Ｄ－１に分割されている。これら位相回転データブロックＢ_０，Ｂ_１，…，Ｂ_Ｄ－１は、マルチコアプロセッサ２１ＦのＤ個のプロセッサコアにそれぞれ割り当てられるべきものである。

図７は、ｍ番目の列データブロックΓ_ｍの構成を概念的に示す図である。この列データブロックΓ_ｍでは、位相回転行列Ｇのｍ番目の列要素｛ｇ_ｎ，ｍ｝の実数部Ｒｅ［ｇ_０，ｍ］，…，Ｒｅ［ｇ_{Ｎ－１，ｍ}］のみを有する列データブロックΓ_ｍ ^(ｒ)と、ｍ番目の列要素｛ｇ_ｎ，ｍ｝の虚数部Ｉｍ［ｇ_０，ｍ］，…，Ｉｍ［ｇ_{Ｎ－１，ｍ}］のみを有する列データブロックΓ_ｍ ^(ｉ)とで構成されている。この列データブロックΓ_ｍでは、ｍ番目の列要素｛ｇ_ｎ，ｍ｝の実数部Ｒｅ［ｇ_０，ｍ］，…，Ｒｅ［ｇ_{Ｎ－１，ｍ}］が連続的に配列し、かつｍ番目の列要素｛ｇ_ｎ，ｍ｝の虚数部Ｉｍ［ｇ_０，ｍ］，…，Ｉｍ［ｇ_{Ｎ－１，ｍ}］が連続的に配列している。このため、実数部Ｒｅ［ｇ_０，ｍ］，…，Ｒｅ［ｇ_{Ｎ－１，ｍ}］は、連続的にアクセス可能な配列で位相回転データ記憶領域１２Ｂに記憶され、虚数部Ｉｍ［ｇ_０，ｍ］，…，Ｉｍ［ｇ_{Ｎ－１，ｍ}］も、連続的にアクセス可能な配列で位相回転データ記憶領域１２Ｂに記憶されている。これにより、行列積演算のために、メモリ１２内の列データブロックΓ_ｍ ^(ｒ)から実数部Ｒｅ［ｇ_０，ｍ］，…，Ｒｅ［ｇ_{Ｎ－１，ｍ}］を効率良く連続的に読み出してマルチコアプロセッサ２１Ｆに転送することができる。同様に、行列積演算のために、メモリ１２内の列データブロックΓ_ｍ ^(ｉ)から虚数部Ｉｍ［ｇ_０，ｍ］，…，Ｉｍ［ｇ_{Ｎ－１，ｍ}］を効率良く連続的に読み出してマルチコアプロセッサ２１Ｆに転送することができる。

図８は、ｋ番目の行データブロックΩ_ｋとｍ番目の列データブロックΓ_ｍとの間の積和演算を説明するための図である。図８に示されるように、マルチコアプロセッサ２１Ｆの並列演算部５１または５２（プロセッサコアＣ１またはＣ２）は、行データブロックΩ_ｋ ^(ｒ)の実数部と列データブロックΓ_ｍ ^(ｒ)の実数部との第１の積和演算を実行して演算結果である計算値Ｘ_ｋ，ｍ ^(ｒｒ)を算出し、行データブロックΩ_ｋ ^(ｒ)の実数部と列データブロックΓ_ｍ ^(ｉ)の虚数部との第２の積和演算を実行して演算結果である計算値Ｘ_ｋ，ｍ ^(ｒｉ)を算出し、行データブロックΩ_ｋ ^(ｉ)の虚数部と列データブロックΓ_ｍ ^(ｒ)の実数部との第３の積和演算を実行して演算結果である計算値Ｘ_ｋ，ｍ ^(ｉｒ)を算出し、行データブロックΩ_ｋ ^(ｉ)の虚数部と列データブロックΓ_ｍ ^(ｉ)の虚数部との第４の積和演算を実行して演算結果である計算値Ｘ_ｋ，ｍ ^(ｉｉ)を算出する。

次に、並列演算部５１または５２（プロセッサコアＣ１またはＣ２）は、減算器７１を用いて、計算値Ｘ_ｋ，ｍ ^(ｒｒ)から計算値Ｘ_ｋ，ｍ ^(ｉｉ)を減算することにより変換信号Ｘ_ｋ（ｍ）の実数部Ｒｅ［Ｘ_ｋ（ｍ）］を算出し、加算器７２を用いて、計算値Ｘ_ｋ，ｍ ^(ｒｉ)と計算値Ｘ_ｋ，ｍ ^(ｉｒ)とを加算することにより変換信号Ｘ_ｋ（ｍ）の虚数部Ｉｍ［Ｘ_ｋ（ｍ）］を算出する。

ここで、並列演算部５１または５２（プロセッサコアＣ１またはＣ２）が変換信号Ｘ_ｋ（ｍ）の実数部Ｒｅ［Ｘ_ｋ（ｍ）］と虚数部Ｉｍ［Ｘ_ｋ（ｍ）］を算出する代わりに、親機１０Ｆの並列演算制御部１１Ｆが、計算値Ｘ_ｋ，ｍ ^(ｒｒ)，Ｘ_ｋ，ｍ ^(ｉｉ)から変換信号Ｘ_ｋ（ｍ）の実数部Ｒｅ［Ｘ_ｋ（ｍ）］を算出し、計算値Ｘ_ｋ，ｍ ^(ｒｉ)，Ｘ_ｋ，ｍ ^(ｉｒ)から変換信号Ｘ_ｋ（ｍ）の虚数部Ｉｍ［Ｘ_ｋ（ｍ）］を算出してもよい。

図２を参照すると、親機１０Ｆのデータ送受部４３は、位相回転データ記憶領域１２ＢからＤ個の位相回転データブロックＢ_０，…，Ｂ_Ｄ－１を読み出して通信インタフェース部１３を介して子機２０Ｆの通信インタフェース部２３に転送し、データバッファ領域１２Ａから入力データブロック６０（Ｋ個の離散信号系列）を読み出して通信インタフェース部１３を介して子機２０Ｆの通信インタフェース部２３に転送する。

マルチコアプロセッサ２１Ｆのデータ送受部５３は、親機１０Ｆから通信インタフェース部２３を介して転送された位相回転データブロックＢ_０，…，Ｂ_Ｄ－１及び入力データブロック６０をメモリ２２に一時的に記憶させる。そして、並列演算部５１または５２のＤ個のプロセッサコアの各々は、自己に割り当てられた位相回転データブロックＢ_ｄと入力データブロック６０とをメモリ２２から読み出し、位相回転データブロックＢ_ｄと入力データブロック６０と用いて行列積ＱＧの一部をなす部分行列積ＱＧ_ｄを演算し、その演算結果を示すデータブロックをメモリ２２に記憶させる。すなわち、並列演算部５１または５２のＤ個のプロセッサコアは、図９に示されるように、位相回転データブロックＢ_０，…，Ｂ_Ｄ－１及び入力データブロック６０を用いて、部分行列積ＱＧ_０，ＱＧ_１，…，ＱＧ_Ｄ－１を並列に演算し、当該演算結果を示すＤ個のデータブロックＣ_０，Ｃ_１，…，Ｃ_Ｄ－１をメモリ２２に記憶させる。

図１０は、入力データブロック６０と位相回転データブロックＢ_ｄとの間の部分行列積ＱＧ_ｄの一例を説明するための図である。図１０に示されるように、並列演算部５１または５２のプロセッサコアは、入力データブロック６０をＪ個の要素データブロックＥ_１～Ｅ_Ｊに分割し、位相回転データブロックＢ_ｄをＪ個の要素データブロックＦ_１～Ｆ_Ｊに分割し、個々の要素データブロックＥ_ｊ，Ｆ_ｊ間の行列積演算を実行して要素データブロックＨ_ｊを算出する。プロセッサコアは、このようにして算出されたＪ個の要素データブロックＨ_１～Ｈ_Ｊを合算することによりデータブロックＣ_ｄを算出することができる。このとき、プロセッサコアは、ｊ番目の要素データブロックＨ_ｊをｊ－１番目の要素データブロックＨ_ｊ－１に加算する演算を再帰的に実行することによりデータブロックＣ_ｄを算出してもよい。

データ送受部５３は、メモリ２２から当該演算結果を示すＤ個のデータブロックＣ_０，Ｃ_１，…，Ｃ_Ｄ－１を読み出し、当該Ｄ個のデータブロックＣ_０，Ｃ_１，…，Ｃ_Ｄ－１を通信インタフェース部２３を介して親機１０Ｆの通信インタフェース部１３に転送する。並列演算制御部１１Ｆのデータ送受部４３は、子機２０Ｆから通信インタフェース部１３を介して転送されたＤ個のデータブロックＣ_０，Ｃ_１，…，Ｃ_Ｄ－１に後処理を施して変換信号系列Ｘ_１，Ｘ_２，…，Ｘ_Ｋを示す変換データを構成し、当該変換データをメモリ１２の変換データ記憶領域１２Ｃに記憶させる。入出力インタフェース部１４は、変換データ記憶領域１２Ｃから読み出した変換データを外部デバイス（図示せず）に出力する。

次に、図１１及び図１２を参照しつつ、ＣＺＴ処理の手順について説明する。図１１は、ＣＺＴ処理の手順の一例を概略的に示すフローチャートであり、図１２は、図１１の位相回転データ生成処理の手順を概略的に示すフローチャートである。

信号処理システム２の起動後、先ず、親機１０Ｆにおける並列演算制御部１１Ｆの位相回転データ生成部４１が位相回転データを生成する（ステップＳＴ１１）。具体的には、図１２を参照すると、位相回転データ生成部４１は、ＣＺＴに使用される位相回転因子ｇ_ｎ，ｍを算出し（ステップＳＴ３１）、当該位相回転因子ｇ_ｎ，ｍをメモリ１２内の位相回転データ記憶領域（第１のデータ記憶領域）１２Ｂに記憶させる（ステップＳＴ３２）。次いで、ＣＺＴに必要なすべての位相回転因子ｇ_ｎ，ｍが算出されていない場合には（ステップＳＴ３３のＮＯ）、位相回転データ生成部４１は、新たな位相回転因子ｇ_ｎ，ｍを算出し記憶させるためにステップＳＴ３１，ＳＴ３２を実行する。ＣＺＴに必要なすべての位相回転因子ｇ_ｎ，ｍが算出された場合には（ステップＳＴ３３のＹＥＳ）、位相回転データ生成部４１は、図１１のステップＳＴ１２に処理を移行させる。

図１１を参照すると、ステップＳＴ１２では、離散信号系列に割り当てられるべき番号ｋが「１」に初期化される。次に、親機１０Ｆは、離散信号系列が入力されるまで待機する（ステップＳＴ１３のＮＯ）。離散信号系列ｘ_ｋが入力されると（ステップＳＴ１３のＹＥＳ）、データ並べ替え部４２は、入力された離散信号系列ｘ_ｋを、連続的にアクセス可能な配列で並べ替えてメモリ１２に記憶させる（ステップＳＴ１４）。その後、番号ｋが設定値Ｋに到達しないときは（ステップＳＴ１５のＮＯ）、番号ｋが１だけインクリメントされて（ステップＳＴ１６）、ステップＳＴ１３に処理が移行する。

一方、番号ｋが設定値Ｋに到達したとき（ステップＳＴ１５のＹＥＳ）、親機１０Ｆのデータ送受部４３は、位相回転データ記憶領域１２ＢからＤ個の位相回転データブロックＢ_０，…，Ｂ_Ｄ－１を読み出して通信インタフェース部１３を介して子機２０Ｆに転送するとともに、データバッファ領域１２Ａから入力データブロック６０（Ｋ個の離散信号系列）を読み出して子機２０Ｆに転送する（ステップＳＴ１７）。

その後、子機２０Ｆの並列演算部５１または５２のＤ個のプロセッサコアは、位相回転データブロックＢ_０，…，Ｂ_Ｄ－１及び入力データブロック６０（Ｋ個の離散信号系列）を用いて、部分行列積ＱＧ_０，ＱＧ_１，…，ＱＧ_Ｄ－１を並列に演算する（ステップＳＴ１８）。

そして、データ送受部５３は、メモリ２２から当該演算結果を示すＤ個のデータブロックＣ_０，Ｃ_１，…，Ｃ_Ｄ－１を読み出し、当該Ｄ個のデータブロックＣ_０，Ｃ_１，…，Ｃ_Ｄ－１を通信インタフェース部２３を介して親機１０Ｆの並列演算制御部１１Ｆに転送する（ステップＳＴ１９）。

その後、並列演算制御部１１Ｆのデータ送受部４３は、子機２０Ｆから転送されたＤ個のデータブロックＣ_０，Ｃ_１，…，Ｃ_Ｄ－１に後処理を施して変換信号系列Ｘ_１，Ｘ_２，…，Ｘ_Ｋを示す変換データを構成し、当該変換データをメモリ１２の変換データ記憶領域１２Ｃに記憶させる（ステップＳＴ２０）。入出力インタフェース部１４は、変換データ記憶領域１２Ｃから読み出した変換データを外部デバイス（図示せず）に出力する（ステップＳＴ２１）。

その後、ＣＺＴ処理が続行される場合には（ステップＳＴ２２のＹＥＳ）、ステップＳＴ１２に処理が移行し、ＣＺＴ処理が続行されない場合には（ステップＳＴ２２のＮＯ）、ＣＺＴ処理が終了する。

以上に説明したように位相回転データ記憶領域１２Ｂに格納された位相回転データブロックは、連続的にアクセス可能な配列を有する複数の位相回転因子からなるので、並列演算制御部１１Ｆは、位相回転データ記憶領域１２Ｂにアクセスしてマルチコアプロセッサ２１Ｆの各プロセッサコアに割り当てられた位相回転データブロックを効率良く読み出し転送することができる。これにより、マルチコアプロセッサ２１Ｆの複数個のプロセッサコアは、部分行列積ＱＧ_０，ＱＧ_１，…，ＱＧ_Ｄ－１の並列演算を効率良く行うことができる。したがって、マルチコアプロセッサ２１Ｆとして特定用途向けプロセッサが使用される場合に、ＦＦＴを使用せずにＣＺＴの並列化を効率的に行うことが可能となる。

たとえば、パラメータＡを「１」に設定し、パラメータＷを次式（１２）に示すＷ_Ｎに設定すれば、信号処理システム２は、次式（１１）に示す離散フーリエ変換を実行することができる。パラメータＡ，Ｗを適当に設定することにより、信号処理システム２は、逆離散フーリエ変換を実行することも可能である。

上記のとおり、クーリー・テューキー型ＦＦＴは、ＤＦＴを再帰的に分解するアルゴリズムであり、図１のマルチコアプロセッサ２１のプロセッサコアＣ１，Ｃ２は、汎用的なプロセッサ１１のプロセッサコアＣ０と比べると単純な演算機能を有するように設計されているので、クーリー・テューキー型ＦＦＴの並列化を効率的に行うように設計されていない。従来のＣＺＴに基づくＤＦＴも、２回のＦＦＴと１回のＩＦＦＴ（逆ＦＦＴ）とにより畳み込み演算を実行するアルゴリズムであることから、マルチコアプロセッサ２１のプロセッサコアＣ１，Ｃ２は、従来のＣＺＴに基づくＤＦＴの並列化を効率的に行うことが難しい。これに対し、本実施の形態は、ＦＦＴを使用せずにＣＺＴの並列化を効率的に行うことができる。

以上、図面を参照して本発明に係る実施の形態１について述べたが、実施の形態１は本発明の例示であり、実施の形態１以外の様々な実施の形態がありうる。本発明の範囲内において、上記実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。

本発明に係る信号処理システムは、並列演算を実行する複数個のプロセッサコアを有する特定用途向けプロセッサにおいてＣＺＴの並列化を効率的に行うことを可能とするので、ＣＺＴに基づくアルゴリズム（たとえば、離散フーリエ変換または逆離散フーリエ変換）を特定用途向けプロセッサに実行させる用途に適している。

１，２信号処理システム、１０，１０Ｆ親機、１１プロセッサ、１１Ｆ並列演算制御部、１２メモリ、１２Ａデータバッファ領域、１２Ｂ位相回転データ記憶領域、１２Ｃ変換データ記憶領域、１３，２３通信インタフェース部（通信Ｉ／Ｆ部）、１４入出力インタフェース部（入出力Ｉ／Ｆ部）、２０，２０Ｆ子機、２１マルチコアプロセッサ、２２メモリ、２３通信インタフェース部（通信Ｉ／Ｆ部）、３０データ伝送路、４１位相回転データ生成部、４２データ並べ替え部、４３データ送受部、５１，５２並列演算部、５３データ送受部、７１減算器、７２加算器、Ｃ０，Ｃ１，Ｃ２プロセッサコア、ＭＣ１，ＭＣ２マルチコア。

Claims

複数の離散信号系列からなる入力行列と位相回転行列との行列積を演算することによりチャープｚ変換を実行する信号処理システムであって、
並列演算を実行する複数個のプロセッサコアを含む特定用途向けのマルチコアプロセッサと、
前記複数個のプロセッサコアにそれぞれ割り当てられた複数の位相回転データブロックを格納している第１のデータ記憶領域と、
前記複数の離散信号系列を一時的に記憶する第２のデータ記憶領域と、
前記第１のデータ記憶領域から前記複数の位相回転データブロックを読み出して前記マルチコアプロセッサに転送し、前記第２のデータ記憶領域から前記複数の離散信号系列を読み出して前記マルチコアプロセッサに転送する並列演算制御部と
を備え、
前記複数の位相回転データブロックの各位相回転データブロックは、連続的にアクセス可能な配列を有する複数の位相回転因子からなり、
前記複数個のプロセッサコアの各プロセッサコアは、前記第１のデータ記憶領域から転送された当該複数の位相回転データブロックのうち自己に割り当てられた位相回転データブロックと、前記第２のデータ記憶領域から転送された当該複数の離散信号系列とを用いて前記行列積の一部をなす部分行列積を演算する、
ことを特徴とする信号処理システム。
請求項１に記載の信号処理システムであって、
前記複数の位相回転因子は、前記各位相回転データブロックにおいて、当該位相回転因子の実数部が連続的に配列し、かつ当該位相回転因子の虚数部が連続的に配列するように格納されており、
前記複数の離散信号系列は、前記第２のデータ記憶領域において、当該離散信号系列の実数部が連続的に配列し、かつ当該離散信号系列の虚数部が連続的に配列するように並べ替えられている、
ことを特徴とする信号処理システム。
請求項１または請求項２に記載の信号処理システムであって、前記並列演算制御部は、外部デバイスから入力された当該複数の離散信号系列を並べ替えて前記第２のデータ記憶領域に記憶させるデータ並べ替え部を含むことを特徴とする信号処理システム。
請求項１から請求項３のうちのいずれか１項に記載の信号処理システムであって、前記並列演算制御部は、前記位相回転データブロックを生成して前記第１のデータ記憶領域に記憶させる位相回転データ生成部を含むことを特徴とする信号処理システム。
請求項２に記載の信号処理システムであって、
前記各プロセッサコアは、
当該離散信号系列の実数部と当該位相回転因子の実数部との第１の積和演算と、
当該離散信号系列の実数部と当該位相回転因子の虚数部との第２の積和演算と、
当該離散信号系列の虚数部と当該位相回転因子の実数部との第３の積和演算と、
当該離散信号系列の虚数部と当該位相回転因子の虚数部との第４の積和演算と、
前記第１の積和演算により得られた演算結果から前記第４の積和演算により得られた演算結果を減算する演算と、
前記第２の積和演算により得られた演算結果と前記第３の積和演算により得られた演算結果とを加算する演算と
を実行することにより前記部分行列積を演算することを特徴とする信号処理システム。
請求項２に記載の信号処理システムであって、
前記各プロセッサコアは、
当該離散信号系列の実数部と当該位相回転因子の実数部との第１の積和演算と、
当該離散信号系列の実数部と当該位相回転因子の虚数部との第２の積和演算と、
当該離散信号系列の虚数部と当該位相回転因子の実数部との第３の積和演算と、
当該離散信号系列の虚数部と当該位相回転因子の虚数部との第４の積和演算と
を実行し、
前記並列演算制御部は、
前記第１の積和演算により得られた演算結果から前記第４の積和演算により得られた演算結果を減算する演算と、
前記第２の積和演算により得られた演算結果と前記第３の積和演算により得られた演算結果とを加算する演算と
を実行することを特徴とする信号処理システム。
請求項１から請求項６のうちのいずれか１項に記載の信号処理システムであって、
前記並列演算制御部は、少なくとも１個のプロセッサコアを含み、
前記複数個のプロセッサコアは、前記少なくとも１個のプロセッサコアよりも行列積演算を高速に実行するように設計されている、
ことを特徴とする信号処理システム。
請求項１から請求項７のうちのいずれか１項に記載の信号処理システムであって、
前記並列演算制御部と接続された第１の通信インタフェース部と、
前記マルチコアプロセッサと接続された第２の通信インタフェース部と、
前記第１の通信インタフェース部と前記第２の通信インタフェース部との間を接続するデータ伝送路と
をさらに備えることを特徴とする信号処理システム。
請求項１から請求項８のうちのいずれか１項に記載の信号処理システムであって、前記チャープｚ変換は、離散フーリエ変換または逆離散フーリエ変換のいずれか一方として実行されることを特徴とする信号処理システム。