JP2022021554A

JP2022021554A - アセンブリ命令変換プログラム、アセンブリ命令変換方法、及び情報処理装置

Info

Publication number: JP2022021554A
Application number: JP2020125185A
Authority: JP
Inventors: 健太郎川上; Kentaro Kawakami
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2022-02-03
Also published as: US11321094B2; US20220027161A1

Abstract

【課題】生成した機械語を実行する際のクロックサイクル数が増大するのを抑制すること。【解決手段】アセンブリ命令変換プログラムは、第１のアセンブリ命令と等価な処理を行う第２のアセンブリ命令の機械語の生成を指示する生成指示を、複数の前記第１のアセンブリ命令ごとに記憶領域に複数格納し、前記記憶領域にある複数の前記生成指示に従って、依存関係のある複数の前記第２のアセンブリ命令の機械語が連続しないように前記機械語を生成する処理をコンピュータに実行させる。【選択図】図１９

Description

本発明は、アセンブリ命令変換プログラム、アセンブリ命令変換方法、及び情報処理装置に関する。

プログラムの実行速度を高速化する技術の一つとしてJIT(Just In Time)コンパイラ技術がある。JITコンパイラ技術は、実行時に決定されるパラメータ、処理内容、及びプロセッサの状況に応じて、好適な機械語の命令列をプログラムの実行時に生成する技術である。JITコンパイラ技術を用いて生成した機械語の命令列は、AOT(Ahead Of Time)型のコンパイラが生成する汎用的に処理可能な機械語の命令列からなる実行プログラムよりも処理が高速である。

但し、JITコンパイラ技術で生成される機械語は、ターゲットプロセッサの命令セットに含まれるアセンブリ命令の機械語であるため、それとは別の命令セットの機械語を実行する別のプロセッサでは動作しない。JITコンパイラ技術で生成した機械語を別の命令セットの機械語に変換すれば、該別の命令セットを採用したプロセッサでも動作可能な実行プログラムが得られる。

しかし、このように単純に機械語を変換したのでは、変換前と比較して実行プログラムを実行するときのクロックサイクル数が増大する可能性がある。

特開昭６３－１３８４２７号公報特開平４－３５３９２３号公報

一側面によれば、生成した機械語を実行する際のクロックサイクル数が増大するのを抑制することを目的とする。

一側面によれば、第１のアセンブリ命令と等価な処理を行う第２のアセンブリ命令の機械語の生成を指示する生成指示を、複数の前記第１のアセンブリ命令ごとに記憶領域に複数格納し、前記記憶領域にある複数の前記生成指示に従って、依存関係のある複数の前記第２のアセンブリ命令の機械語が連続しないように前記機械語を生成する、処理をコンピュータに実行させるためのアセンブリ命令変換プログラムが提供される。

一側面によれば、生成した機械語を実行する際のクロックサイクル数が増大するのを抑制できる。

図１は、JITコンパイラ技術でコンパイルすることを前提としたC++の疑似ソースコードである。図２（ａ）は、x86_64アーキテクチャにおけるベクトルレジスタについて説明するための模式図であり、図２（ｂ）は、アセンブリ命令「vpmovsxbd」について説明するための模式図である。図３（ａ）は、Armv8-Aアーキテクチャにおけるベクトルレジスタについて説明するための模式図であり、図３（ｂ）は、Armv8-Aアーキテクチャの命令セットに含まれるアセンブリ命令「sxtl」について説明するための模式図である。図４は、Armv8-Aアーキテクチャの命令セットの機械語を生成するように改変したソースコードの模式図である。図５は、機械語列を逆アセンブルしたコードの模式図である。図６は、x86_64の１６個のアセンブリ命令をパイプライン処理するときの模式図である。図７は、Armv8-Aの上記の３２個のアセンブリ命令をパイプライン処理するときの模式図である。図８は、JITコンパイラ技術により生成された機械語を実行する第１のターゲットマシンのハードウェア構成図である。図９は、第２のターゲットマシンのハードウェア構成図である。図１０は、第１実施形態及び第２実施形態に係る情報処理装置のハードウェア構成図である。図１１は、C++で記述された第１実施形態に係るセンブリ変換プログラムの疑似ソースコードの模式図である。図１２は、第１実施形態に係るvpmovsxbd関数の定義の一例を示すC++の疑似ソースコードである。図１３は、第１実施形態に係るFIFOバッファの模式図である。図１４（ａ）は、第１実施形態に係るret関数の定義の一例を示すC++の疑似ソースコードであり、図１４（ｂ）は、アセンブリ命令「ret」の生成指示が格納された第１実施形態に係るFIFOバッファの模式図である。図１５は、第１実施形態に係るgenJitCodeOfFifo関数の定義の一例を示すC++の疑似ソースコードである。図１６は、第１実施形態に係るtranslateVPMOVSXBD関数の定義の一例を示すC++の疑似ソースコードである。図１７は、第１実施形態に係るtranslateRET関数の定義の一例を示すC++の疑似ソースコードである。図１８は、第１実施形態に係るアセンブリ命令変換プログラムを実行したときに生成される機械語を逆アセンブルしたアセンブリ命令の命令列の模式図である。図１９は、図１６の各アセンブリ命令を第２のプロセッサにおいてパイプライン処理するときの模式図である。図２０は、第１実施形態に係る情報処理装置の機能構成図である。図２１は、第１実施形態に係るアセンブリ命令変換方法のフローチャートである。図２２は、第２実施形態に係るアセンブリ命令変換プログラムのC++の疑似ソースコードの模式図である。図２３は、第２実施形態においてgenerateJitCode関数が生成した機械語列の模式図である。図２４は、第２実施形態に係るreorderJitCode関数による機械語の並べ替えの方法について示す模式図である。図２５は、第２実施形態に係る情報処理装置の機能構成図である。図２６は、第２実施形態に係るアセンブリ命令変換方法のフローチャートである。

本実施形態の説明に先立ち、本実施形態の基礎となる事項について説明する。

図１は、JITコンパイラ技術でコンパイルすることを前提としたC++の疑似ソースコードである。

このソースコード１においては、main関数１ａを実行することによりgenerateJitCode関数１ｂが呼び出される。generateJitCode関数１ｂは、その内部でvpmovsxbd関数１ｃを呼び出す関数である。

vpmovsxbd関数１ｃは、コード１ｄで定義されるように、Intel社のx86_64アーキテクチャの命令セットに含まれるアセンブリ命令「vpmovsxbd」の機械語を生成する関数である。以下では、このようにあるアセンブリ命令の機械語を生成する関数であって、そのアセンブリ命令の名前と同一の関数名を有する関数をニーモニック関数と呼ぶ。

この例では、generateJitCode関数１ｂを実行することにより、コード１ｅのように「vpmovsxbd xmm0, xmm0」、「vpmovsxbd xmm1, xmm1」、…、「vpmovsxbd xmm15, xmm15」というアセンブリ命令の機械語が生成される。

そして、main関数１ａ内のexecuteJitCode関数１ｆが、vpmovsxbd関数１ｃが生成した機械語列を実行する。

図２（ａ）は、x86_64アーキテクチャにおけるベクトルレジスタについて説明するための模式図である。

図２（ａ）に示すように、x86_64アーキテクチャを採用するプロセッサにおいてはベクトルレジスタとして１２８ビットのSIMD(Single Instruction Multiple Data)レジスタが全部で３２個用意されている。また、これらのベクトルレジスタの名前は「xmm0」、「xmm1」、…「xmm31」となる。なお、その名前における「0」、「1」、…「31」等の数字部分はレジスタ番号を示す。また、ニーモニック関数の引数においては、図１のように各ベクトルレジスタを「xmm (i)」（0≦i≦15）で識別する。

図２（ｂ）は、上記のアセンブリ命令「vpmovsxbd」について説明するための模式図である。

アセンブリ命令「vpmovsxbd」は、ベクトルレジスタの下位側の４個の要素に格納されている８ビットのデータの各々を３２ビットに符号拡張する命令である。例えば、「vpmovsxpd xmm1, xmm0」は、ベクトルレジスタxmm0の下位側の４個の要素に格納されている８ビットのデータa0～a3を３２ビットに符号拡張し、それをベクトルレジスタxmm1の４個の要素に格納する。

図１のソースコード１で生成されるアセンブリ命令「vpmovsxbd」の機械語は、このようにx86_64アーキテクチャのプロセッサで動作する機械語である。そのため、x86_64アーキテクチャとは異なるアーキテクチャのプロセッサではこの機械語を実行することができない。

しかし、x86_64アーキテクチャ向けのソースコード１が既に開発者の手元にある場合には、そのソースコード１を他のアーキテクチャのプロセッサでも実行できるようにすることで、プログラム資産を有効活用できる。そのようなアーキテクチャとしては、例えばARM社のArmv8-Aアーキテクチャがある。

そこで、x86_64アーキテクチャのアセンブリ命令である「vpmovsxbd」命令を、以下のようにArmv8-Aアーキテクチャの等価なアセンブリ命令に置き換えることを考える。

図３（ａ）は、Armv8-Aアーキテクチャを採用するプロセッサにおけるベクトルレジスタについて説明するための模式図である。

図３（ａ）に示すように、Armv8-Aアーキテクチャにおいてもベクトルレジスタとして１２８ビットのSIMDレジスタが全部で３２個用意されている。但し、これらのベクトルレジスタの名前はx86_64アーキテクチャにおけるのとは異なり、「v0」、「v1」、…「v31」となる。なお、その名前における「0」、「1」、…「31」等の数字部分はレジスタ番号を示す。また、x86_64とArmv8-Aの各々のベクトルレジスタは、それらのベクトルレジスタが同一の場合に相互に対応するという。例えば、x86_64の「xmm1」のベクトルレジスタと、Armv8-Aの「v1」のベクトルレジスタは、相互に対応したベクトルレジスタである。

また、Armv8-Aのベクトルレジスタをアセンブリ命令のオペランドに指定する場合には、「vi.s4」、「vi.h8」、「vi.b16」 (0≦i≦31)等の書式を使用する。この書式において、ドット「.」の後に続く「s」、「h」、「b」は、一つのレジスタ「vi」に格納されたベクトルデータの各要素のサイズを示す書式である。例えば、「s」は要素のサイズがシングルワード（３２ビット）であることを示し、「h」は要素のサイズがハーフワード（１６ビット）であることを示す。そして、「b」は、要素のサイズがバイト（８ビット）であることを示す。

図３（ｂ）は、Armv8-Aアーキテクチャの命令セットに含まれるアセンブリ命令「sxtl」について説明するための模式図である。

アセンブリ命令「sxtl」は、オペランドに指定されたベクトルレジスタの要素のサイズに応じて、そのベクトルレジスタに格納されているデータの各要素を符号拡張する命令である。

例えば、「sxtl v2.h8, v0.b16」のように第１オペランドに「vi.h8」(0≦i≦31)が指定され、第２オペランドに「vj.b16」(0≦j≦31)が指定された場合を考える。この場合、アセンブリ命令「sxtl」は、ベクトルレジスタ「vj」の下位側の８個の要素に格納されている８ビットのデータを１６ビットに符号拡張してベクトルレジスタ「vi」の各要素に格納する。例えば、「sxtl v2.h8, v0.b16」は、ベクトルレジスタv0の下位側の８個の要素の各々に格納されている８ビットのデータa0～a7を、それぞれ１６ビットに符号拡張してベクトルレジスタv2の８個の要素に格納する。

また、「sxtl v1.s4, v2.h8」のように第１オペランドに「vi.s4」(0≦i≦31)が指定され、第２オペランドに「vj.h8」(0≦j≦31)が指定された場合を考える。この場合、アセンブリ命令「sxtl」は、ベクトルレジスタ「vj」の下位側の４個の要素に格納されている１６ビットのデータを３２ビットに符号拡張してレジスタ「vi」の各要素に格納する。例えば、「sxtl v1.s4, v2.h8」は、ベクトルレジスタv2の下位側の４個の要素の各々に格納されている１６ビットのデータa0～a3を、それぞれ３２ビットに符号拡張してベクトルレジスタv1の４個の要素に格納する。

よって、図３（ｂ）のように「sxtl v2.h8, v0.b16」と「sxtl v1.s4, v2.h8」とをこの順に実行すると、下位側の４個のデータを８ビットから３２ビットに符号拡張するx86_64のアセンブリ命令「vpmovsxbd」と等価な処理を実現できる。

図４は、このことを利用して、Armv8-Aアーキテクチャの命令セットの機械語を生成するようにソースコード１を改変したソースコード２の模式図である。なお、図４において、図１と同じ要素には図１におけるのと同じ符号を付し、以下ではその説明を省略する。

図４の例では、vpmovsxbd関数１ｃを呼び出すと、コード２ａとコード２ｂの各々のsxtl関数が実行される。

sxtl関数は、アセンブリ命令「sxtl」のニーモニック関数である。この例では、sxtl関数の引数の型に応じて、sxtl関数の処理の内容が変わる。例えば、「sxtl(v(i).h8, v(j).b16)」のように記述した場合を考える。この場合は、コード２ｃに示すように、sxtl関数は、Armv8-Aアーキテクチャのアセンブリ命令「sxtl vi.h8, vj.b16」の機械語を生成する。また、「sxtl(v(i).s4, v(j).h8)」のように記述した場合は、コード２ｄに示すように、Armv8-Aアーキテクチャのアセンブリ命令「sxtl vi.s4, vj.h8」の機械語をsxtl関数が生成する。

そして、generateJitCode関数１ｂを実行すると、コード２ｅのように「sxtl vi.h8, vi.b16」（0≦i≦15）と「sxtl vi.s4, vi.h8」（0≦i≦15）の各命令の機械語列が生成される。その機械語列の「sxtl v0.h8, v0.b16」と「sxtl v0.s4, v0.h8」とをこの順に実行すると、x86_64アーキテクチャの「vpmovsxpd xmm0, xmm0」と等価な処理を実現できる。

これにより、x86_64アーキテクチャ向けのソースコード１を活かしながら、Armv8-Aアーキテクチャの命令セットの機械語を生成することができる。

但し、この方法には以下のような問題がある。

図５は、ソースコード１、２の各々を実行することにより生成される機械語列を逆アセンブルしたコード１ｅ、２ｅの模式図である。

図５に示すように、ソースコード１のforループの内側でvpmovsxbd関数を１６回呼び出すのに対応して、x86_64のアセンブリ命令「vpmovsxbd」は全部で１６個生成される。

一方、Armv8-Aにおいては、前述のように二つのアセンブリ命令「sxtl」で一つのアセンブリ命令「vpmovsxbd」を実現する。そのため、ソースコード２のforループの内側で「vpmovsxbd」関数を１６回呼び出すとアセンブリ命令「sxtl」が全部で３２個（＝２×１６個）生成される。

図６は、x86_64の上記の１６個のアセンブリ命令をパイプライン処理するときの模式図である。

パイプライン処理は、IF（命令フェッチ）ステージ、ID（命令デコード）ステージ、EX1（実行）ステージ、EX2/MA（実行/メモリアクセス）ステージ、及びWB（ライトバック）ステージを有する。

x86_64アーキテクチャにおける１６個のアセンブリ命令「vpmovsxbd xmmi, xmmi」（0≦i≦15）は各々が異なるベクトルレジスタを使用しているため命令間に依存関係がない。よって、一つのアセンブリ命令のIFステージが終了する度に後続のアセンブリ命令をパイプラインに投入できる。その結果、１６個のアセンブリ命令の実行は２０クロックサイクルで終了する。

図７は、Armv8-Aの上記の３２個のアセンブリ命令をパイプライン処理するときの模式図である。

そのパイプライン処理においては、x86_64アーキテクチャにおけるのと同様にIFステージ、IDステージ、EX1ステージ、EX2/MAステージ、及びWBステージがこの順に実行される。

ここで、２番目の「sxtl v0.s4, v0.h8」命令について考える。この「sxtl v0.s4, v0.h8」命令はソースオペランドとしてベクトルレジスタ「v0」を利用しているが、このベクトルレジスタ「v0」は先行命令の「sxtl v0.h8, v0.b16」命令もデスティネーションオペランドとして使用している。したがって、「sxtl v0.s4, v0.h8」命令は、先行の「sxtl v0.h8, v0.b16」命令がWBステージでベクトルレジスタ「v0」にデータを書き込むまでEX1ステージを実行することができない。そのため、「sxtl v0.s4, v0.h8」命令は、２クロックサイクルだけパイプラインをストールさせてしまう。

次に、２番目の「sxtl v0.s4, v0.h8」命令と３番目の「sxtl v1.h8, v1.b16」命令について考える。これらの命令は、互いに異なるベクトルレジスタを使用しているため、命令間に依存関係はない。しかし、２番目の「sxtl v0.s4, v0.h8」命令がEX1ステージを終えて演算器を開放した後でないと、３番目の「sxtl v1.h8, v1.b16」命令がEX1ステージで演算器を使用できない。そのため、３番目の「sxtl v1.h8, v1.b16」命令も２クロックサイクルだけパイプラインをストールさせてしまう。

同様に、４～３２番目の命令も２クロックサイクルだけパイプラインをストールさせてしまう。

その結果、３２個のアセンブリ命令の実行が終了するまで９８クロックサイクルも要することになり、x86_64アーキテクチャにおけるクロックサイクル数（２０サイクル）よりも大幅に増えてしまう。

以下に、クロックサイクル数が増えるのを抑制することが可能な各実施形態について説明する。

（第１実施形態）
図８は、JITコンパイラ技術により生成された機械語を実行する第１のターゲットマシンのハードウェア構成図である。

第１のターゲットマシン１０は、サーバやPC(Personal Computer)、スマートフォン等の計算機であって、第１のプロセッサ１１と第１のメモリ１２とを有する。

このうち、第１のプロセッサ１１は、例えばx86_64アーキテクチャを採用したCPU(Central Procesing Unit)であって、算術演算や論理演算を行う演算器を含む第１の計算コア１３と第１のレジスタファイル１４とを備える。

第１のレジスタファイル１４は、「xmm0」、「xmm1」、…「xmm31」という文字列で識別される３２個の第１のベクトルレジスタ１５を備えたハードウェアである。

一方、第１のメモリ１２は、x86_64の機械語が展開されるDRAM(Dynamic Random Access Memory)等の揮発性メモリである。

本実施形態では、JITコンパイラ技術で第１のプロセッサ１１の命令セットの機械語に翻訳されることを前提にして記述されたソースコードから、以下の第２のプロセッサの命令セットの機械語を生成できるようにする。

図９は、第２のターゲットマシンのハードウェア構成図である。

第１のターゲットマシン１０と同様に、第２のターゲットマシン２０もサーバやPC、スマートフォン等の計算機であって、第２のプロセッサ２１と第２のメモリ２２とを有する。

第２のプロセッサ２１は、第１のプロセッサ１１とは異なるArmv8-Aアーキテクチャを採用したCPUである。また、第２のプロセッサ２１は、算術演算や論理演算を行う演算器を有する第２の計算コア２３と第２のレジスタファイル２４とを備える。

第２のレジスタファイル２４は、「v0」、「v1」、…「v31」という文字列で識別される３２個の第２のベクトルレジスタ２５を備えたハードウェアである。

一方、第２のメモリ２２は、Armv8-Aの機械語が展開されるDRAM等の揮発性メモリである。

図１０は、第２のプロセッサ２１が実行する機械語を生成するための情報処理装置のハードウェア構成図である。

図１０に示すように、情報処理装置３０は、記憶装置３０ａ、メモリ３０ｂ、プロセッサ３０ｃ、通信インターフェース３０ｄ、表示装置３０ｅ、及び入力装置３０ｆを有する。これらの各部は、バス３０ｇにより相互に接続される。

このうち、記憶装置３０ａは、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の不揮発性のストレージデバイスであり、本実施形態に係るアセンブリ命令変換プログラム３１を記憶する。

なお、アセンブリ命令変換プログラム３１をコンピュータが読み取り可能な記録媒体３０ｈに記録させておき、プロセッサ３０ｃに記録媒体３０ｈのアセンブリ命令変換プログラム３１を読み取らせるようにしてもよい。

そのような記録媒体３０ｈとしては、例えばCD-ROM(Compact Disc - Read Only Memory)、DVD(Digital Versatile Disc)、及びUSB(Universal Serial Bus)メモリ等の物理的な可搬型記録媒体がある。また、フラッシュメモリ等の半導体メモリやハードディスクドライブを記録媒体３０ｈとして使用してもよい。これらの記録媒体３０ｈは、物理的な形態を持たない搬送波のような一時的な媒体ではない。

更に、公衆回線、インターネット、及びLAN(Local Area Network)等に接続された装置にアセンブリ命令変換プログラム３１を記憶させておき、プロセッサ３０ｃがそのアセンブリ命令変換プログラム３１を読み出して実行するようにしてもよい。

一方、メモリ３０ｂは、DRAM等のようにデータを一時的に記憶するハードウェアであって、その上に前述のアセンブリ命令変換プログラム３１が展開される。

プロセッサ３０ｃは、情報処理装置３０の各部を制御したり、メモリ３０ｂと協働してアセンブリ命令変換プログラム３１を実行したりするCPUやGPU(Graphical Processing Unit)等のハードウェアである。

更に、通信インターフェース３０ｄは、情報処理装置３０をLAN(Local Area Network)等のネットワークに接続するためのインターフェースである。

そして、表示装置３０ｅは、液晶表示装置等のハードウェアであって、開発者に種々の情報の入力を促すプロンプトを表示する。また、入力装置３０ｆは、キーボードやマウス等のハードウェアである。

次に、アセンブリ命令変換プログラム３１のソースコードの例について説明する。

図１１は、C++で記述されたアセンブリ命令変換プログラム３１の疑似ソースコード３２の模式図である。

このソースコード３２においては、main関数３３を実行することによりgenerateJitCode関数３４、genJitCodeOfFifo関数３５、及びexecuteJitCode関数３６がこの順に呼び出される。

このうち、generateJitCode関数３４は、forループ３７の内部でvpmovsxbd関数３８を複数回呼び出す関数である。また、このforループ３７の実行が終了すると、generateJitCode関数３４はret関数５１を呼び出す。

図１２は、vpmovsxbd関数３８の定義の一例を示すC++の疑似ソースコードである。

この例では、コード４３において、XmmReg型、VRegB16型、VRegH8型、及びVRegS4型を定義する。XmmReg型は、x86_64の３２個の第１のベクトルレジスタ１５（図８参照）の各々のレジスタ番号を表すメンバ変数「index」を有する型である。

一方、VRegB16型、VRegH8型、及びVRegS4型は、Armv8-Aの３２個の第２のベクトルレジスタ２５（図９参照）の各々のレジスタ番号を表すメンバ変数「index」を有する型である。このうち、VRegB16型は、バイトサイズ（８ビット）の要素を１６個有する第２のベクトルレジスタ２５を指定する型である。また、VRegH8型は、ハーフワードサイズ（１６ビット）の要素を８個有する第２のベクトルレジスタ２５を指定する型である。そして、VRegS4型は、シングルワードサイズ（３２ビット）の要素を４個有する第２のベクトルレジスタ２５を指定する型である。

vpmovsxbd関数３８は、上記のXmmReg型の変数を引数にとる関数であって、x86_64のアセンブリ命令「vpmovsxbd」と等価な処理を行うArmv8-Aの機械語を生成するニーモニック関数である。

vpmovsxbd関数３８の引数の「XmmReg src」は、XmmReg型の第１オペランドを示す変数であり、「XmmReg dst」は、XmmReg型の第２オペランドを示す変数である。この場合、vpmovsxbd関数３８は、x86_64アーキテクチャのアセンブリ命令「vpmovsxbd dst, src」と等価な処理を行うArmv8-Aの機械語を生成する。

このvpmovsxbd関数３８を呼び出すと、if文３９の判定結果に応じて、genJitCodeOfFifo関数３５とコード４０のいずれか一方が実行される。

コード４０は、アセンブリ命令「vpmovsxbd dst, src」と等価な処理を行うArmv8-Aの機械語を生成する生成指示４１をFIFO(First In First Out)バッファに格納するコードである。

図１３は、FIFOバッファの模式図である。

FIFOバッファ４５は、記憶装置３０ａやメモリ３０ｂ等に確保された記憶領域の一例であって、ソースコード３２を実行する前では空である。

そのFIFOバッファ４５には、コード４０を実行する度に生成指示４１が格納される。ここでは、複数の生成指示４１の各々を「vpmovsxbd, xmm0, xmm0」等のアセンブリ命令で識別する。例えば、「vpmovsxbd, xmm0, xmm0」で識別される生成指示４１は、x86_64のアセンブリ命令「vpmovsxbd, xmm0, xmm0」と等価な処理を行うArmv8-Aの機械語を生成する指示を表す。

また、FIFOバッファ４５に生成指示４１が格納される順序は、コード４０を実行する順序と同一である。

例えば、図１１の例では、forループ３７の内側でレジスタ番号を示す変数「i」の値を変えながらvpmovsxbd関数３８が４回呼ばれる。そのため、forループ３７を最初に実行すると、「i = 0」に対応した「vpmovsxbd xmm0, xmm0」の生成指示４１がFIFOバッファ４５に最初に格納される。その後、「i = 1」に対応した「vpmovsxbd xmm1, xmm1」の生成指示４１がFIFOバッファ４５に格納され、最終的には「vpmovsxbd xmm3, xmm3」の生成指示４１がFIFOバッファ４５に格納される。

再び図１２を参照する。

if文３９は、FIFOバッファ４５に格納されている生成指示４１が示すアセンブリ命令の種類が、ニーモニック関数vpmovsxbdの種類と異なるかを判定する文である。なお、アセンブリ命令の種類は、アセンブリ命令の名前とそのオペランドの型との組である。そして、ニーモニック関数の種類は、ニーモニック関数の名前と引数の型との組である。

例えば、FIFOバッファ４５に格納されている生成指示４１が示すアセンブリ命令が「vpmovsxbd dst, src」であるとする。この場合は、生成指示４１が示すアセンブリ命令の名前とニーモニック関数vpmovsxbdの名前「vpmovsxbd」とが一致する。また、ニーモニック関数vpmovsxbdの第１及び第２オペランドの型はいずれもXmmReg型である。この型は、アセンブリ命令「vpmovsxbd dst, src」の第１及び第２オペランドの型と一致する。よって、この場合は、アセンブリ命令「vpmovsxbd dst, src」の種類は、ニーモニック関数vpmovsxbdの種類と同じということになる。

そして、if文３９の判定結果に応じ、前述のgenJitCodeOfFifo関数３５とコード４０のいずれか一方が実行される。

なお、本実施形態では、FIFOバッファ４５に複数の生成指示４１が格納されている場合、格納されている全ての生成指示４１が示すアセンブリ命令の種類は全て同一となる。よって、if文３９は、複数の生成指示４１のうちのいずれかのセンブリ命令の種類が、ニーモニック関数vpmovsxbdの種類と異なるかを判定することになる。

図１４（ａ）は、ret関数５１の定義の一例を示すC++の疑似ソースコードである。

ret関数５１は、x86_64アーキテクチャの命令セットに含まれるアセンブリ命令「ret」と等価な処理を行うArmv8-Aの機械語を生成するニーモニック関数である。

このret関数５１を呼び出すと、if文５２の判定結果に応じて、genJitCodeOfFifo関数３５とコード５３のいずれか一方が実行される。

if文５２は、FIFOバッファ４５に格納されている生成指示４１が示すアセンブリ命令の種類が、ニーモニック関数retの種類と異なるかを判定する文である。

そして、コード５３は、アセンブリ命令「ret」の生成指示４１をFIFOバッファ４５に格納するコードである。その生成指示４１は、x86_64のアセンブリ命令「ret」と等価な処理を行うArmv8-Aの機械語を生成する指示である。

図１４（ｂ）は、アセンブリ命令「ret」の生成指示４１が格納されたFIFOバッファ４５の模式図である。

前述のように、本実施形態では、FIFOバッファ４５には同一の種類のアセンブリ命令に係る生成指示４１のみが格納される。そのため、アセンブリ命令「ret」に係る生成指示４１と、アセンブリ命令「vpmovsxbd」に係る生成指示４１とがFIFOバッファ４５に共存することはない。

図１５は、genJitCodeOfFifo関数３５の定義の一例を示すC++の疑似ソースコードである。

図１５に示すように、genJitCodeOfFifo関数３５は、if文５４において変数instTypeの内容を判定し、その内容に応じた処理を実行する。変数instTypeは、FIFOバッファ４５にある生成指示４１が示すアセンブリ命令の名前とそのオペランドの型とを示す変数である。

例えば、「vpmovsxbd xmm0, xmm0」の生成指示４１の場合、アセンブリ命令の名前「vpmovsxbd」と、第１オペランド（xmm0）及び第２オペランド（xmm0）の各々の型である「XmmReg」とが変数instTypeに格納される。

FIFOバッファ４５にアセンブリ命令「vpmovsxbd」の生成指示４１が格納されている場合にはif文５４の評価式が真となり、translateVPMOVSXBD関数５６が呼び出される。

また、FIFOバッファ４５にアセンブリ命令「ret」の生成指示４１が格納されている場合には、if文５５の評価式が真となり、translateRET関数５７が呼び出される。

そして、genJitCodeOfFifo関数３５は、上記のtranslateVPMOVSXBD関数５６やtranslateRET関数５７の実行を終えると、コード５８においてFIFOバッファ４５の中身を空にする。

図１６は、translateVPMOVSXBD関数５６の定義の一例を示すC++の疑似ソースコードである。

この例では、translateVPMOVSXBD関数５６は、第１のforループ６１と第２のforループ６２とを有する。このうち、第１のforループ６１は、FIFOバッファ４５に格納されている先頭の生成指示４１から順に、アセンブリ命令「sxtl」のニーモニック関数であるsxtl関数６５を呼び出すループ処理である。なお、translateVPMOVSXBD関数５６の内部でsxtl関数６５が呼び出される回数は、FIFOバッファ４５に格納しているアセンブリ命令「vpmovsxbd」に対応した生成指示４１の個数に等しい。

ここでは、コード６３において、VRegB16型の変数「vB16」とVRegH8の変数「vH8」とを宣言する。そして、コード６４において、変数「vB16」のメンバ変数「index」に、FIFOバッファ４５の先頭からi番目の生成指示４１に係るアセンブリ命令の第２オペランドのレジスタ番号を格納する。同様に、コード６４において、変数「vH8」のメンバ変数「index」に、FIFOバッファ４５の先頭からi番目の生成指示４１に係るアセンブリ命令の第１オペランドのレジスタ番号を格納する。

その後、sxtl関数６５が、Armv8-Aの命令セットに含まれるアセンブリ命令「sxtl」の機械語を生成する。そのアセンブリ命令「sxtl」の第１オペランドは、３２個の第２のベクトルレジスタ２５のうち、vH8.indexが示すレジスタ番号の第２のベクトルレジスタ２５である。また、このアセンブリ命令「sxtl」の第２オペランドは、３２個の第２のベクトルレジスタ２５のうち、vB16.indexが示すレジスタ番号の第２のベクトルレジスタ２５である。

この場合、アセンブリ命令「sxtl」は、第２オペランドが示す第２のベクトルレジスタ２５の８ビットの要素を１６ビットに符号拡張し、それを第１オペランドが示す第２のベクトルレジスタ２５の各要素に格納する命令となる。

第１のforループ６１の内部の処理は、FIFOバッファ４５に格納された順番を示す変数「i」が小さい順に実行される。そのため、FIFOバッファ４５に最も早くに格納された生成指示４１から順に、sxtl関数６５によって機械語が生成されることになる。

同様に、第２のforループ６２は、FIFOバッファ４５に格納されている先頭の生成指示４１から順に、アセンブリ命令「sxtl」のニーモニック関数であるsxtl関数６８を呼び出すループ処理である。なお、translateVPMOVSXBD関数５６の内部でsxtl関数６８が呼び出される回数は、FIFOバッファ４５に格納しているアセンブリ命令「vpmovsxbd」に対応した生成指示４１の個数に等しい。

この例では、コード６６において、VRegH8の変数「vH8」とVRegS4型の変数「vS4」とを宣言する。そして、コード６７において、変数「vH8」のメンバ変数「index」に、FIFOバッファ４５の先頭からi番目の生成指示４１に係るアセンブリ命令の第２オペランドのレジスタ番号を格納する。同様に、変数「vS4」のメンバ変数「index」に、FIFOバッファ４５の先頭からi番目の生成指示４１に係るアセンブリ命令の第１オペランドのレジスタ番号を格納する。

その後、sxtl関数６８がアセンブリ命令「sxtl」の機械語を生成する。そのアセンブリ命令「sxtl」の第１オペランドは、３２個の第２のベクトルレジスタ２５のうち、vS4.indexが示すレジスタ番号の第２のベクトルレジスタ２５である。同様に、アセンブリ命令「sxtl」の第２オペランドは、３２個の第２のベクトルレジスタ２５のうち、vH8.indexが示すレジスタ番号の第２のベクトルレジスタ２５である。

この場合、アセンブリ命令「sxtl」は、第２オペランドが示す第２のベクトルレジスタ２５の１６ビットの要素を３２ビットに符号拡張し、それを第１オペランドが示す第２のベクトルレジスタ２５の各要素に格納する命令となる。

第１のforループ６１と同様に、第２のforループ６２の内部の処理は、FIFOバッファ４５に格納された順番を示す変数「i」が小さい順に実行される。そのため、FIFOバッファ４５に最も早くに格納された生成指示４１から順に、sxtl関数６８によって機械語が生成される。

図１７は、translateRET関数５７の定義の一例を示すC++の疑似ソースコードである。

translateRET関数５７は、x86_64のアセンブリ命令「ret」に係る生成指示４１がFIFOバッファ４５に格納されている場合に、Armv8-Aのアセンブリ命令「ret」のニーモニック関数であるret_Armv8a関数６９を呼び出す処理を行う。x86_64アーキテクチャにも同じ「ret」というアセンブリ命令が存在するため、区別するため、Armv8-Aのアセンブリ命令「ret」に対応するニーモニック関数の名前はret_Armv8aとしている。また、Armv8-Aのアセンブリ命令「ret」はオペランドを取らない命令なので、対応するニーモニック関数ret_Armv8aは引数をとらない。なお、translateRET関数５７の内部でret_Armv8a関数６９が呼び出される回数は、FIFOバッファ４５に格納しているアセンブリ命令「ret」に対応した生成指示４１の個数に等しい。

図１８は、このようなアセンブリ命令変換プログラム３１を実行したときに生成される機械語を逆アセンブルしたアセンブリ命令の命令列の模式図である。これらのアセンブリ命令は、第２のプロセッサ２１（図９参照）の命令セットであるArmv8-Aで定義された命令である。

本実施形態では、第１のforループ６１（図１６参照）を実行することにより、グループG1のようにアセンブリ命令の命令列「sxtl v0.h8, v0.b16」、「sxtl v1.h8, v1.b16」、…「sxtl v3.h8, v3.b16」に対応した機械語がこの順に生成される。これらのアセンブリ命令は、レジスタ番号が相互に異なる第２のベクトルレジスタ２５がオペランドに指定されているため、依存関係のある複数のアセンブリ命令が連続して並ぶことがない。

その後、第２のforループ６２を実行することにより、グループG2のようにアセンブリ命令の命令列「sxtl v0.s4, v0.h8」、「sxtl v1.s4, v1.h8」、…「sxtl v3.s4, v3.h8」に対応した機械語がこの順に生成される。これらのアセンブリ命令も、レジスタ番号が相互に異なる第２のベクトルレジスタ２５がオペランドに指定されているため、依存関係のある複数のアセンブリ命令が連続して並ぶことがない。

このように、本実施形態では、グループG1の要素である各アセンブリ命令が相互に異なる第２のベクトルレジスタ２５を使用する。グループG2についても同様である。その結果、上記のように依存関係のあるアセンブリ命令が連続するのを防止できる。

図１９は、図１６の各アセンブリ命令を第２のプロセッサ２１においてパイプライン処理するときの模式図である。

本実施形態では前述のように依存関係のある複数のアセンブリ命令が連続して並ばないため、パイプライン処理の実行中に依存関係に起因したストールが発生しない理想的な機械語の順序となっている。その結果、図７のように各機械語の実行時にパイプラインがストールするのを回避でき、図７におけるよりも少ないクロックサイクル数で処理を実行できる。

図２０は、本実施形態に係る情報処理装置３０の機能構成図である。

図２０に示すように、情報処理装置３０は、記憶部７１と制御部７２とを有する。

このうち、記憶部７１は、FIFOバッファ４５を記憶する処理部である。一例として、記憶部７１は、図１０の記憶装置３０ａとメモリ３０ｂとにより実現される。

一方、制御部７２は、情報処理装置３０の各部を制御する処理部であって、呼び出し部７３、判定部７４、格納部７５、生成部７６、及び出力部７７を有する。これらの各部は、メモリ３０ｂとプロセッサ３０ｃとが協働してアセンブリ命令変換プログラム３１（図１０参照）を実行することにより実現される。

呼び出し部７３は、ニーモニック関数を呼び出す処理部であって、例えば図１１のgenerateJitCode関数３４によって実現される。図１１を参照して説明したように、そのgenerateJitCode関数３４を実行すると、ニーモニック関数のvpmovsxbd関数３８とret関数５１が呼び出される。

判定部７４は、FIFOバッファ４５に格納されている生成指示４１が示すアセンブリ命令の種類が、呼び出し部７３が呼び出したニーモニック関数の種類と異なるかを判定する処理部である。一例として、判定部７４は、図１２のif文３９と、図１４（ａ）のif文５２により実現される。

格納部７５は、生成指示４１をFIFOバッファ４５に格納する処理部であり、コード４０（図１２参照）とコード５３（図１４参照）によって実現される。例えば、コード４０を実行すると、forループ３７（図１１参照）でニーモニック関数vpmovsxbd３８が複数回呼び出されるのに対応して、複数のアセンブリ命令「vpmovsxbd」ごとに生成指示４１がFIFOバッファ４５に格納される。

生成部７６は、FIFOバッファ４５にある複数の生成指示４１に従い、生成指示４１に係るアセンブリ命令「vpmovsxbd」と等価な処理を行うArmv8-Aのアセンブリ命令の機械語を生成する処理部である。この例では、図１６のtranslateVPMOVSXBD関数５６によって生成部７６が実現される。図１８に示したように、translateVPMOVSXBD関数５６は、依存関係のある複数のアセンブリ命令「sxtl」が連続して並ばないように機械語を生成する。

出力部７７は、生成部７６が生成した機械語を外部に出力する処理部である。

図２１は、本実施形態に係るアセンブリ命令変換方法のフローチャートである。

まず、呼び出し部７３がニーモニック関数を呼び出す（ステップＳ１１）。一例として、情報処理装置３０が図１１のgenerateJitCode関数３４を実行することにより、ニーモニック関数のvpmovsxbd関数とret関数とを呼び出す。

次に、判定部７４が、FIFOバッファ４５にある生成指示４１のアセンブリ命令と、ステップＳ１１で呼び出されたニーモニック関数の各々の種類が異なるかどうかを判定する（ステップＳ１２）。このとき、判定部７４は、FIFOバッファ４５が空かどうかも判定する。

ここで、FIFOバッファ４５が空であるか、又は生成指示４１のアセンブリ命令とニーモニック関数の各々の種類が同一である場合にはステップＳ１３に移る。

ステップＳ１３においては、格納部７５が生成指示４１をFIFOバッファ４５に格納する。ステップＳ１１でニーモニック関数のvpmovsxbd関数３８が呼ばれた場合、生成指示４１は、アセンブリ命令「vpmovsxbd」と等価な処理を行うArmv8-Aのアセンブリ命令の機械語を生成する指示となる。また、ステップＳ１１でニーモニック関数のret関数５１が呼ばれた場合、生成指示４１は、アセンブリ命令「ret」と等価な処理を行うArmv8-Aのアセンブリ命令の機械語を生成する指示となる。

一方、FIFOバッファ４５にある生成指示４１のアセンブリ命令と、ステップＳ１１で呼び出したニーモニック関数の各々の種類が異なる場合（ステップＳ１２：肯定）にはステップＳ１４に移る。一例として、FIFOバッファ４５に格納されている生成指示４１が示すアセンブリ命令が「vpmovsxbd」である場合に、ステップＳ１１でニーモニック関数retが呼び出されたときにステップＳ１４に移る。

ステップＳ１４においては、生成部７６が、FIFOバッファ４５にある複数の生成指示４１ごとに、生成指示４１に係るアセンブリ命令「vpmovsxbd」と等価な処理を行うArmv8-Aのアセンブリ命令の機械語を生成する。

本実施形態では、図１６のtranslateVPMOVSXBD関数５６を実行することによりArmv8-Aのアセンブリ命令の機械語を生成する。

これにより、前述のように最初に命令列「sxtl v0.h8, v0.b16」、「sxtl v1.h8, v1.b16」、…「sxtl v3.h8, v3.b16」の機械語が生成され、次いで命令列「sxtl v0.s4, v0.h8」、「sxtl v1.s4, v1.h8」、…「sxtl v3.s4, v3.h8」の機械語が生成される。この命令列においては、依存関係のある複数のアセンブリ命令が連続して並ばない。

しかも、図１６のtranslateVPMOVSXBD関数５６の各forループ６１、６２は、変数「i」の値が小さい順にアセンブリ命令「sxtl」の機械語を生成する。変数「i」は、生成指示４１がFIFOバッファ４５に格納された順番を示しているため、先にFIFOバッファ４５に格納された生成指示４１から順に機械語が生成されることになる。そのため、vpmovsxbd関数３８（図１１参照）が呼ばれた順番と同じ順序でアセンブリ命令「sxtl」の機械語を生成できる。その結果、ソースコード３２（図１１参照）のようにvpmovsxbd関数３８が複数回呼び出される場合でも、これと同じ順序でアセンブリ命令「vpmovsxbd」を実行したときと同一の実行結果となる機械語を生成できる。

その後に、生成部７６がFIFOバッファ４５を空にする。

次に、格納部７５が生成指示４１をFIFOバッファ４５に格納する（ステップＳ１５）。一例として、ステップＳ１４で空になる前のFIFOバッファ４５に格納されていた生成指示４１が示すアセンブリ命令が「vpmovsxbd」命令であり、ステップＳ１１でニーモニック関数retが呼び出された場合を考える。この場合にステップＳ１５でFIFOバッファ４５に格納される生成指示４１が示すアセンブリ命令は「ret」命令となる。

この後は、generateJitCode関数３４に記述されている全てのニーモニック関数の呼び出しを終えるまでステップＳ１１～Ｓ１５を繰り返す。

その後、生成部７６が、FIFOバッファ４５に残っている生成指示４１に対応した機械語を生成する（ステップＳ１６）。一例として、情報処理装置３０が図１１のgenJitCodeOfFifo関数３５を実行することにより、FIFOバッファ４５に残っている生成指示４１に対応した機械語を生成する。

そして、出力部７７が、生成部７６が生成した機械語列を外部に出力する（ステップＳ１７）。

以上により、本実施形態に係るアセンブリ命令変換方法の基本的な処理を終える。

上記した本実施形態によれば、x86_64のアセンブリ命令「vpmovsxbd」を取得する度に生成部７６がArmv8-Aのアセンブリ命令「sxtl」の機械語を生成するのではなく、格納部７５が各生成指示４１を一旦FIFOバッファ４５に格納する。そのため、生成部７６が、同一のレジスタを使用するアセンブリ命令「sxtl」同士が連続して並ばないように、当該アセンブリ命令「sxtl」の機械語を生成することができる。その結果、これらの機械語をパイプライン処理するときにストールが発生せず、第２のターゲットマシン２０がx86_64のアセンブリ命令「vpmovsxbd」と等価な処理を行うときのクロックサイクル数が増大するのを抑制できる。

特に、x86_64のアセンブリ命令「vpmovsxbd」と等価な処理は、同一の第２のベクトルレジスタ２５を使用する二つのArmv8-Aのアセンブリ命令「sxtl」により実現される。例えば、「vpmovsxbd xmm0, xmm1」は、「v0」の第２のベクトルレジスタ２５を使用する「sxtl v0.h8, v0.b16」と「sxtl v0.s4, v0.h8」により実現される。このように同一の第２のベクトルレジスタ２５を使用する依存関係がArmv8-Aのアセンブリ命令に生じる場合に本実施形態を適用することにより、依存関係を解消してクロックサイクル数の増大を抑制できる。

また、図１１のソースコード３２のように、レジスタ番号「i」を変えながらvpmovsxbd関数３８を複数回呼び出すと、上記のように同一の第２のベクトルレジスタ２５を使用するアセンブリ命令「sxtl」が複数生成される。この場合に本実施形態を適用することでクロックサイクル数を大幅に抑制でき、プログラムの実行速度を速めることができる。

（第２実施形態）
第１実施形態では、FIFOバッファ４５に格納された生成指示４１を利用して機械語を生成した。これに対し、本実施形態では以下のようにFIFOバッファ４５を不要とする。

図２２は、本実施形態に係るアセンブリ命令変換プログラム３１（図１０参照）のC++の疑似ソースコード８０の模式図である。なお、図２２において、図１１で説明したのと同じ要素には図１１におけるのと同じ符号を付し、以下ではその説明を省略する。

図２２に示すように、本実施形態においては、generateJitCode関数３４のforループ３７の前後に開発者がinsertDummyStart関数８１とinsertDummyEnd関数８２とを記述する。なお、insertDummyStart関数８１は第１のダミー関数の一例であり、insertDummyEnd関数８２は第２のダミー関数の一例である。

この例では、main関数３３がgenerateJitCode関数３４を呼び出すことにより、該generateJitCode関数３４がvpmovsxbd関数３８とret関数５１とを呼び出す。そして、ニーモニック関数であるvpmovsxbd関数３８とret関数５１の各々がArmv8-Aアーキテクチャの機械語を生成する。

そして、main関数３３の内部に記述されたreorderJitCode関数８３が、generateJitCode関数３４が生成した機械語を並べ替える。

図２３は、generateJitCode関数３４が生成した機械語列８５の模式図である。

図２３に示すように、機械語列８５には、insertDummyStart関数８１の機械語である第１のダミー機械語８５ａと、insertDummyEnd関数８２の機械語である第２のダミー機械語８５ｂが含まれる。

第１のダミー機械語８５ａと第２のダミー機械語８５ｂは、いずれもArmv8-Aアーキテクチャで定義されていない無意味な機械語である。

その第１のダミー機械語８５ａと第２のダミー機械語８５ｂとの間には、アセンブリ命令「vpmovsxbd」と等価な処理をする複数のアセンブリ命令「sxtl」の機械語８５ｃが生成される。

そして、第２のダミー機械語８５ｂの後に、ret関数５１の機械語８５ｄが生成される。

この時点では、隣接する機械語８５ｃ同士が同一の第２のベクトルレジスタ２５を使用しているため、この機械語列８５に対してパイプライン処理を実行すると図７のようにストールが発生する。

そこで、本実施形態では、以下のようにしてreorderJitCode関数８３が機械語８５ｃを並べ替える。

図２４は、reorderJitCode関数８３による機械語８５ｃの並べ替えの方法について示す模式図である。

図２４の例では、並び替えをする前に、reorderJitCode関数８３が第１のダミー機械語８５ａの次の機械語８５ｃから順に番号「0」、「1」、「2」、…を付ける。そして、偶数番の機械語８５ｃが連続して出現し、その後に奇数番の機械語８５ｃが連続して出現するように、reorderJitCode関数８３が各機械語８５ｃを並べ替える。その後、第１のダミー機械語８５ａと第２のダミー機械語８５ｂを削除する。

これにより、同一の第２のベクトルレジスタ２５を使用するアセンブリ命令「strl」の機械語８５ｃが連続して並ばないようにすることができる。その結果、各機械語８５ｃをパイプライン処理するときにストールが発生せず、第２のターゲットマシン２０がx86_64のアセンブリ命令「vpmovsxbd」と等価な処理を行うときのクロックサイクル数が増大するのを抑制できる。

図２５は、本実施形態に係る情報処理装置３０の機能構成図である。

図２５に示すように、情報処理装置３０は制御部９１を有する。制御部９１は、情報処理装置３０の各部を制御する処理部であって、生成部９２、ソート部９３、及び出力部９４を有する。これらの各部は、図１０のメモリ３０ｂとプロセッサ３０ｃとが協働してアセンブリ命令変換プログラム３１のソースコード８０（図２２参照）を実行することにより実現される。

このうち、生成部９２は、x86_64のアセンブリ命令「vpmovsxbd」と等価な処理を行うArmv8-Aのアセンブリ命令の機械語８５ｃを、複数のアセンブリ命令「vpmovsxbd」ごとに複数生成する処理部である。例えば、情報処理装置３０が、ソースコード８０に記述されたgenerateJitCode関数３４を実行することにより生成部９２の機能を実現できる。

ソート部９３は、依存関係のある機械語８５ｃ（図２３参照）が連続して並ばないように機械語８５ｃを並べ替える処理部であり、reorderJitCode関数８３（図２２参照）によって実現される。

一例として、ソート部９３は、機械語列８５において、第１のダミー機械語８５ａと第２のダミー機械語８５ｂとの間にある機械語８５ｃを特定する。各ダミー機械語８５ａ、８５ｂはArmv8-Aで定義されておらず、並び替えの始点と終点のみに出現する。そのため、ソート部９３は、各ダミー機械語８５ａ、８５ｂを目印にして、並び替えの始点と終点を一意に特定できる。

そして、ソート部９３は、図２４に示したように、第１のダミー機械語８５ａの次の機械語８５ｃから順に番号「0」、「1」、「2」、…を付ける。更に、ソート部９３は、偶数番の機械語８５ｃが連続して出現し、その後に奇数番の機械語８５ｃが連続して出現するように各機械語８５ｃを並べ替える。その後、ソート部９３は、第１のダミー機械語８５ａと第２のダミー機械語８５ｂを削除する。

出力部９４は、このようにソート部９３が並び替えた機械語８５ｃを含む機械語列８５を外部に出力する処理部である。

図２６は、本実施形態に係るアセンブリ命令変換方法のフローチャートである。

まず、生成部９２が、Armv8-Aの機械語列８５を生成する（ステップＳ２１）。例えば、情報処理装置３０がgenerateJitCode関数３４を実行することによって機械語列８５を生成できる。これにより、アセンブリ命令「vpmovsxbd」と等価な処理を行うアセンブリ命令「sxtl」の機械語８５ｃが、複数のアセンブリ命令「vpmovsxbd」ごとに複数生成される。

次に、ソート部９３が、第１のダミー機械語８５ａと第２のダミー機械語８５ｂとで挟まれた部分にある機械語８５ｃを特定する（ステップＳ２２）。

次いで、ソート部９３が、特定した機械語８５ｃを並べ替える（ステップＳ２３）。例えば、ソート部９３は、前述のように偶数番の機械語８５ｃが連続して出現し、その後に奇数番の機械語８５ｃが連続して出現するように各機械語８５ｃを並べ替える。

その後、ソート部９３が、第１のダミー機械語８５ａと第２のダミー機械語８５ｂとを削除する（ステップＳ２４）。

そして、出力部９４が機械語列８５を外部に出力する（ステップＳ２５）。

以上により、本実施形態に係るアセンブリ命令変換方法の基本的な処理を終える。なお、「vpmovsxbd」とは別のx86_64アセンブリ命令においては、これと等価な処理を行うArmv8-Aのアセンブリ命令の個数が例えば３個の場合がある。この場合は、ソート部９３が、機械語８５ｃに付けた番号「0」、「1」、「2」、…を「3」で割ったときの余りを求め、同じ余りが連続して出現するように機械語８５ｃを並べ替えてもよい。例えば、ソート部９３が、余りが「0」の機械語８５ｃが連続して出現し、次に余りが「1」の機械語８５ｃが連続して出現し、最後に余りが「2」の機械語８５ｃが連続して出現する順に各機械語８５ｃを並べ替えてもよい。このように、本実施形態は、x86_64アセンブリ命令が、N個（Nは３以上の自然数）のArmv8-Aアセンブリ命令で実現される場合にも適用することができる。

上記した本実施形態によれば、図２４に示したように、ソート部９３が、依存関係のあるアセンブリ命令の機械語８５ｃが連続して並ばないように、該機械語８５ｃを並べ替える。これにより、各機械語８５ｃをパイプライン処理してもストールが発生しないため、第２のターゲットマシン２０がx86_64のアセンブリ命令「vpmovsxbd」と等価な処理を行うときのクロックサイクル数が増大するのを抑制できる。

１０…第１のターゲットマシン、１１…第１のプロセッサ、１２…第１のメモリ、１３…第１の計算コア、１４…第１のレジスタファイル、１５…第１のベクトルレジスタ、２０…第２のターゲットマシン、２１…第２のプロセッサ、２２…第２のメモリ、２３…第２の計算コア、２４…第２のレジスタファイル、２５…第２のベクトルレジスタ、３０…情報処理装置、４１…生成指示、４５…ＦＩＦＯバッファ、７１…記憶部、７２…制御部、７３…呼び出し部、７４…判定部、７５…格納部、７６…生成部、７７…出力部、８５…機械語列、９１…制御部、９２…生成部、９３…ソート部、９４…出力部。

Claims

第１のアセンブリ命令と等価な処理を行う第２のアセンブリ命令の機械語の生成を指示する生成指示を、複数の前記第１のアセンブリ命令ごとに記憶領域に複数格納し、
前記記憶領域にある複数の前記生成指示に従って、依存関係のある複数の前記第２のアセンブリ命令の機械語が連続しないように前記機械語を生成する、
処理をコンピュータに実行させるためのアセンブリ命令変換プログラム。
前記第１のアセンブリ命令は、第１の命令セットに含まれるアセンブリ命令であり、
前記第２のアセンブリ命令は、前記第１の命令セットとは異なる第２の命令セットに含まれるアセンブリ命令であることを特徴とする請求項１に記載のアセンブリ命令変換プログラム。
前記第２の命令セットのレジスタに対応する前記第１の命令セットのレジスタが引数として指定された関数を、引数の前記レジスタを変えながら複数回呼び出すごとに、前記生成指示を前記記憶領域に格納することを特徴とする請求項２に記載のアセンブリ命令変換プログラム。
前記依存関係は、複数の前記第２のアセンブリ命令が同一のレジスタを使用する関係であることを特徴とする請求項１に記載のアセンブリ命令変換プログラム。
オペランドに指定された前記レジスタが同一の複数の前記第２のアセンブリ命令によって前記第１のアセンブリ命令と等価な処理が行われることを特徴とする請求項４に記載のアセンブリ命令変換プログラム。
相互に異なる前記レジスタを使用する複数の前記第２のアセンブリ命令を要素とする複数のグループごとに前記機械語を生成する、
処理を前記コンピュータに実行させるための請求項３に記載のアセンブリ命令変換プログラム。
前記記憶領域はFIFO(First In First Out)バッファであり、
前記機械語を生成する処理は、
前記生成指示のうちで前記FIFOバッファに最も早くに格納された前記生成指示から順に行われることを特徴とする請求項１に記載のアセンブリ命令変換プログラム。
第１のアセンブリ命令と等価な処理を行う第２のアセンブリ命令の機械語を、複数の前記第１のアセンブリ命令ごとに複数生成し、
依存関係のある複数の前記第２のアセンブリ命令の各々の機械語が連続して並ばないように前記機械語を並べ替える、
処理をコンピュータに実行させるためのアセンブリ命令変換プログラム。
前記機械語を生成する関数の前に記述された第１のダミー関数と、前記関数の後に記述された第２のダミー関数とを検出したときに、前記機械語を並べ替える処理を前記コンピュータに実行させるための請求項８に記載のアセンブリ命令変換プログラム。
前記第１のアセンブリ命令は、第１の命令セットに含まれるアセンブリ命令であり、
前記第２のアセンブリ命令は、前記第１の命令セットとは異なる第２の命令セットに含まれるアセンブリ命令であり、
前記第１のダミー関数の機械語と、前記第２のダミー関数の機械語の各々は、前記第２の命令セットにおいて定義されていないことを特徴とする請求項９に記載のアセンブリ命令変換プログラム。
コンピュータが、
第１のアセンブリ命令と等価な処理を行う第２のアセンブリ命令の機械語の生成を指示する生成指示を、複数の前記第１のアセンブリ命令ごとに記憶領域に複数格納し、
前記記憶領域にある複数の前記生成指示に従って、依存関係のある複数の前記第２のアセンブリ命令の機械語が連続しないように前記機械語を生成する、
処理を実行することを特徴とするアセンブリ命令変換方法。
第１のアセンブリ命令と等価な処理を行う第２のアセンブリ命令の機械語の生成を指示する生成指示を、複数の前記第１のアセンブリ命令ごとに記憶領域に複数格納する格納部と、
前記記憶領域にある複数の前記生成指示に従って、依存関係のある複数の前記第２のアセンブリ命令の機械語が連続しないように前記機械語を生成する生成部と、
を有することを特徴とする情報処理装置。