JP2022023631A

JP2022023631A - アセンブリ命令変換プログラム、アセンブリ命令変換方法、及び情報処理装置

Info

Publication number: JP2022023631A
Application number: JP2020126706A
Authority: JP
Inventors: 健太郎川上; Kentaro Kawakami
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2022-02-08
Also published as: US11327758B2; US20220027155A1

Abstract

【課題】命令列が長くなるのを抑制すること。【解決手段】アセンブリ命令変換プログラムは、第１の命令セットのアセンブリ命令と等価な処理を行う第２の命令セットの命令列の生成を指示する生成指示を、複数の前記アセンブリ命令ごとに記憶領域に複数格納し、前記記憶領域を参照することにより、複数の前記生成指示の各々に係る前記アセンブリ命令のいずれもが使用しない第１のレジスタを特定し、前記第１のレジスタに対応する前記第２の命令セットの第２のレジスタを、前記命令列の各々におけるテンポラリレジスタとして決定し、前記テンポラリレジスタを使用した前記命令列を生成する処理をコンピュータに実行させる。【選択図】図１１

Description

本発明は、アセンブリ命令変換プログラム、アセンブリ命令変換方法、及び情報処理装置に関する。

あるプロセッサで実行されるプログラムは、そのプロセッサが採用している命令セットの命令列からなる。その実行可能プログラムを他のプロセッサでも実行できると便利であるが、これを実現するには命令列を他のプロセッサの命令セットの命令列に変換する必要がある。

しかし、ある命令セットの命令列を他の命令セットの命令列に変換すると、変換後の命令列が無駄に長くなり、変換後のプログラムの実行時間が長くなることがある。

特開昭６３－１３８４２７号公報

一側面によれば、命令列が長くなるのを抑制することを目的とする。

一側面によれば、第１の命令セットのアセンブリ命令と等価な処理を行う第２の命令セットの命令列の生成を指示する生成指示を、複数の前記アセンブリ命令ごとに記憶領域に複数格納し、前記記憶領域を参照することにより、複数の前記生成指示の各々に係る前記アセンブリ命令のいずれもが使用しない第１のレジスタを特定し、前記第１のレジスタに対応する前記第２の命令セットの第２のレジスタを、前記命令列の各々におけるテンポラリレジスタとして決定し、前記テンポラリレジスタを使用した前記命令列を生成する、処理をコンピュータに実行させるためのアセンブリ命令変換プログラムが提供される。

一側面によれば、命令列が長くなるのを抑制することができる。

図１は、x86_64のアセンブリ命令からArmv8-Aのアセンブリ命令への変換方法を示す模式図である。図２（ａ）は、x86_64アーキテクチャにおけるベクトルレジスタについて説明するための模式図であり、図２（ｂ）は、Armv8-Aアーキテクチャにおけるベクトルレジスタについて説明するための模式図である。図３は、x86_64のアセンブリ命令「vpadd zmm0, zmm1, zmm2」を変換する方法を説明する模式図である。図４は、x86_64のアセンブリ命令「vpadd zmm0, zmm1, [r8]」をArmv8-Aのアセンブリ命令に変換する方法を示す模式図である。図５は、問題について説明するための模式図である。図６は、x86_64アーキテクチャを採用した第１のターゲットマシンのハードウェア構成図である。図７は、Armv8-Aアーキテクチャを採用した第２のターゲットマシンのハードウェア構成図である。図８は、第１～第５実施形態に係る情報処理装置のハードウェア構成図である。図９は、第１実施形態に係るアセンブリ命令変換方法を説明するための模式図である。図１０は、第１実施形態に係る情報処理装置の機能構成図である。図１１は、第１実施形態に係るアセンブリ命令変換方法のフローチャートである。図１２（ａ）～（ｆ）は、図１１のフローチャートに従った場合の第１実施形態に係るFIFOバッファの内容の変遷を示す模式図である。図１３は、第２実施形態に係るアセンブリ命令変換方法を説明するための模式図である。図１４は、アセンブリ命令６５ｂのデスティネーションレジスタ「zmm1」が先行のアセンブリ命令６５ａのソースレジスタとして使用されている場合の模式図である。図１５は、問題について説明するための模式図である。図１６は、第２実施形態に係る情報処理装置が判定する条件を示す模式図である。図１７は、第２実施形態に係る情報処理装置の機能構成図である。図１８は、第２実施形態に係るアセンブリ命令変換方法のフローチャート（その１）である。図１９は、第２実施形態に係るアセンブリ命令変換方法のフローチャート（その２）である。図２０は、第２実施形態に係る取得部が取得したアセンブリ命令の模式図である。図２１（ａ）～（ｅ）は、図１８及び図１９のフローチャートに従った場合の第２実施形態に係るFIFOバッファの内容の変遷を示す模式図である。図２２は、第３実施形態に係るアセンブリ命令変換方法を説明するための模式図である。図２３は、第３実施形態に係る情報処理装置の機能構成図である。図２４は、第３実施形態に係るアセンブリ命令変換方法のフローチャートである。図２５（ａ）、（ｂ）は、第３実施形態におけるテンポラリレジスタリストの模式図である。図２６（ａ）は、第４実施形態に係るアセンブリ命令変換プログラムのソースコードで使用する型宣言のC++の疑似ソースコードの模式図であり、図２６（ｂ）は、第４実施形態に係るvpadd関数の定義を示すC++の疑似ソースコードの模式図である。図２７（ａ）～（ｅ）は、第４実施形態に係るFIFOバッファの模式図である。図２８（ａ）は、第４実施形態に係るret関数の定義の一例を示すC++の疑似ソースコードであり、図２８（ｂ）は、第４実施形態においてアセンブリ命令「ret」の生成指示が格納されたFIFOバッファの模式図である。図２９は、第４実施形態におけるgenJitCodeOfFifo関数の定義の一例を示すC++の疑似ソースコードである。図３０は、第４実施形態に係るtranslateVPADD関数の定義の一例を示すC++の疑似ソースコードである。図３１は、第４実施形態におけるtranslateVPADD関数の実行例を示す模式図である。図３２は、第４実施形態に係る情報処理装置の機能構成図である。図３３は、第４実施形態に係るアセンブリ命令変換方法のフローチャートである。図３４は、第５実施形態に係るtranslateVPADD関数で実現される処理を示す模式図である。図３５は、第５実施形態に係るtranslateVPADD関数が判定する条件を示す模式図である。図３６は、第５実施形態に係るtranslateVPADD関数の定義の一例を示すC++の疑似ソースコードである。図３７は、第５実施形態に係る情報処理装置の機能構成図である。図３８は、第５実施形態に係るアセンブリ命令変換方法のフローチャート（その１）である。図３９は、第５実施形態に係るアセンブリ命令変換方法のフローチャート（その２）である。図４０（ａ）～（ｃ）は、第１実施形態と第２実施形態の他の例について説明するための模式図である。

本実施形態の説明に先立ち、本実施形態の基礎となる事項について説明する。

ある命令セットを採用したプロセッサ向けのプログラムを、別の命令セットを採用した別のプロセッサで実行できると便利である。例えば、インテル社製のx86_64アーキテクチャの命令セットを採用したプロセッサ向けのプログラムを、ARM社のArmv8-Aアーキテクチャの命令セットを採用したプロセッサで動作させることを考える。これを実現するには、以下のようにx86_64の命令セットに含まれる個々のアセンブリ命令を、Armv8-Aの命令セットに含まれるアセンブリ命令に変換すればよい。

図１は、x86_64のアセンブリ命令からArmv8-Aのアセンブリ命令への変換方法を示す模式図である。

図１の例では、アセンブリファイル１に記述されたx86_64の各アセンブリ命令を、変換テーブル２を用いて変換することでArmv8-Aの各アセンブリ命令が記述されたアセンブリファイル３を得る。

アセンブリファイル１には、x86_64のアセンブリ命令としてmov命令１ａ、add命令１ｂ、sub命令１ｃ、及びvpmaxsd命令１ｄが記述されている。

このうち、mov命令１ａは、Armv8-Aにおいては７個のアセンブリ命令からなる命令列３ａで実現できる。また、add命令１ｂはArmv8-Aのadd命令３ｂで実現でき、sub命令１ｃはArmv8-Aのsub命令３ｃで実現できる。

そして、vpmaxsd命令１ｄは、Armv8-Aにおいては１２個のアセンブリ命令からなる命令列３ｄで実現できる。

変換テーブル２には変換元のアセンブリ命令と変換先のアセンブリ命令との対応関係が格納されており、この対応関係を利用して上記のようにアセンブリファイル１から出力アセンブリファイル３を得ることができる。

x86_64とArmv8-Aのいずれにおいても、オペランドにベクトルレジスタが指定されるアセンブリ命令がある。そこで、次にx86_64とArmv8-Aの各々のベクトルレジスタについて説明する。

図２（ａ）は、x86_64アーキテクチャにおけるベクトルレジスタについて説明するための模式図である。

図２（ａ）に示すように、x86_64アーキテクチャにおいてはベクトルレジスタとして５１２ビットのSIMD(Single Instruction Multiple Data)レジスタが全部で３２個用意されている。これらのベクトルレジスタの名前は「zmm0」、「zmm1」、…「zmm31」である。

一方、図２（ｂ）は、Armv8-Aアーキテクチャにおけるベクトルレジスタについて説明するための模式図である。

図２（ｂ）に示すように、Armv8-Aアーキテクチャにおいてもベクトルレジスタとして５１２ビットのSIMDレジスタが３２個用意されている。但し、x86_64アーキテクチャとは異なり、これらのベクトルレジスタの名前は「z0」、「z1」、…「z31」である。

x86_64のアセンブリ命令のうち、オペランドとしてベクトルレジスタのみが指定されるアセンブリ命令は、次のように容易にArmv8-Aのアセンブリ命令に変換できる。

図３は、x86_64のアセンブリ命令「vpadd zmm0, zmm1, zmm2」を変換する方法を説明する模式図である。

アセンブリ命令「vpadd zmm0, zmm1, zmm2」は、ベクトルレジスタzmm1に格納されている１６個の３２ビットのデータの各々と、ベクトルレジスタzmm2に格納されている１６個の３２ビットのデータの各々とを加算する命令である。加算により得られた１６個の３２ビットのデータはベクトルレジスタzmm0に格納される。

このアセンブリ命令「vpadd zmm0, zmm1, zmm2」は、Armv8-Aにおけるアセンブリ命令「add z0.s, z1.s, z2.s」で実現できる。この書式において、「.s」は、５１２ビットのベクトルレジスタを３２ビットの１６個の要素に分けて使用することを示す。また、add命令は、ベクトルレジスタz1に格納されている１６個の３２ビットのデータの各々と、ベクトルレジスタz2に格納されている１６個の３２ビットのデータの各々を加算し、結果をベクトルレジスタz0に格納する命令である。

このようにベクトルレジスタのみがオペランドに指定されたx86_64のvpadd命令は、簡単にArmv8-Aの一つのadd命令に変換することができる。

ただし、オペランドにメモリアドレスが指定されたx86_64のアセンブリ命令は、このように簡単にArmv8-Aの一つのアセンブリ命令に変換することはできない。

これについて、x86_64のアセンブリ命令「vpadd」を例にして説明する。

図４は、x86_64のアセンブリ命令「vpadd zmm0, zmm1, [r8]」をArmv8-Aのアセンブリ命令に変換する方法を示す模式図である。

アセンブリ命令「vpadd zmm0, zmm1, [r8]」は、汎用レジスタr8が示すメモリアドレスに格納されているメモリのデータとベクトルレジスタzmm1に格納されているデータとを加算し、結果をベクトルレジスタzmm0に格納する命令である。なお、図３の例と同様に、加算の対象となるデータは、１６個の３２ビットのデータである。

一方、Armv8-Aの命令セットには、このアセンブリ命令「vpadd」と等価な処理を実現できるアセンブリ命令がない。そのため、Armv8-Aの命令セットに含まれる複数のアセンブリ命令を組み合わせてアセンブリ命令「vpadd」と等価な処理を実現する必要がある。

この例では、Armv8-Aの命令セットに含まれる「str z31, [x9]」、「ldr z31, [x8]」、「add z0.s, z1.s, z31.s」、及び「ldr z31, [x9]」からなる命令列７で「vpadd」と等価な処理を実現する。

命令列７の最初のアセンブリ命令「str z31, [x9]」は、ベクトルレジスタz31に予め格納されているデータをメモリに退避させるためのストア命令である。その退避先は、汎用レジスタx9が示すメモリアドレスである。

次のアセンブリ命令「ldr z31, [x8]」は、汎用レジスタx8が示すメモリアドレスにあるメモリのデータをベクトルレジスタz31に格納するロード命令である。

更に次のアセンブリ命令「add z0.s, z1.s, z31.s」は、ベクトルレジスタz31に格納されたデータと、ベクトルレジスタz1にあるデータとを加算し、結果をベクトルレジスタz0に格納する命令である。

最後のアセンブリ命令「ldr z31, [x9]」は、最初のアセンブリ命令「str z31, [x9]」がメモリに退避させたデータを、元のベクトルレジスタz31に復帰させるためのロード命令である。

その命令列７におけるベクトルレジスタz31はテンポラリレジスタである。テンポラリレジスタは、ロード命令（ldr z31, [x8]）のデスティネーションレジスタに指定され、かつ該ロード命令の直後のアセンブリ命令（add z0.s, z1.s, z31.s）のソースレジスタに指定されたベクトルレジスタである。

このようにテンポラリレジスタを利用した命令列７により、x86_64のアセンブリ命令「vpadd」と等価な処理を実現することができる。

但し、この方法には次のような問題がある。

図５は、その問題について説明するための模式図である。

図５では、x86_64の命令列１０に含まれるアセンブリ命令の各々を、これらと等価な処理を実現するArmv8-Aの命令列に変換する場合を例示している。

命令列１０におけるアセンブリ命令「vpadd zmm29, zmm0, [r8]」は、図４の例と同様にして「str z31, [z9]」、「ldr z31, [z8]」、「add z29.s, z0.s, z31」、「ldr z31, [x9]」の４個のアセンブリ命令からなる命令列１１ａで実現できる。

一方、アセンブリ命令「vpadd zmm30, zmm1, [r8+64]」のようにメモリオフセット「64」を含む命令は、命令列１１ｂのようにArmv8-Aの５個のアセンブリ命令で実現できる。

その命令列１１ｂの最初の「str z31, [x9]」は、命令列１１ｂがテンポラリレジスタとして使用するベクトルレジスタz31のデータをメモリに退避させるストア命令である。次の「add x25, x8, 64」は、汎用レジスタx8のデータとオフセット「64」とを加算したメモリアドレスを汎用レジスタx25に格納するアセンブリ命令である。

そして、次の「ldr z31, [x25]」は、汎用レジスタx25が示すメモリアドレスにあるメモリのデータをベクトルレジスタz31に格納するロード命令である。

次の「add z30.s, z1.s, z31.s」は、ベクトルレジスタz31に格納されたデータとベクトルレジスタz1にあるデータとを加算し、その結果をベクトルレジスタz30に格納するアセンブリ命令である。

そして、最後の「ldr z31, [x9]」は、最初にメモリに退避させいておいたデータを元のベクトルレジスタz31に復帰させるロード命令である。

このような命令列１１ｂによりアセンブリ命令「vpadd zmm30, zmm1, [r8+64]」と等価な処理を実現できる。

これと同様に、命令列１１ｃと命令列１１ｄにより、それぞれ「vpadd zmm31, zmm2, [r8+128]」と「vpadd zmm29, zmm3, [r8+192]」の各々と等価な処理を実現できる。

このようにアセンブリ命令を一つずつ変換する方法では、変換元の命令列１０に含まれるアセンブリ命令ごとに命令列１１ａ～１１ｄが生成される。そのため、これらの命令列１１ａ～１１ｄの各々が同一のテンポラリレジスタを使用することがある。

図５の例では、命令列１１ａと次の命令列１１ｂとがテンポラリレジスタとして同一のベクトルレジスタz31を使用している。その結果、同一のベクトルレジスタz31へのデータの退避と復帰を行う二つの命令「ldr z31, [x9]」と「str z31, [x9]」とが連続してしまう。これらの命令「ldr z31, [x9]」、「str z31, [x9]」は、実行前後においてベクトルレジスタz31の内容を変化させない無駄な命令であり、これにより命令列１１が無駄に長くなってしまう。

また、命令列１１ｂの最初の命令「str z31, [x9]」と最後の命令「ldr z31, [x9]」は、仮に命令列１１ｂ以降の命令列でベクトルレジスタz31をソースオペランドとして使用しないまま、ベクトルレジスタz31をデスティネーションオペランドとして使用するアセンブリ命令が実行される場合、ベクトルレジスタz31に保持されている値は参照されることがないので不要である。

しかし、このように一つのアセンブリ命令ごとに変換を行う方法では命令列１１ｂ以降でベクトルレジスタz31を使用しているかを判定できないため、命令「str z31, [x9]」と命令「ldr z31, [x9]」とを削除できない。

以下に、このような無駄な命令を削除できる各実施形態について説明する。

（第１実施形態）
本実施形態では、x86_64アーキテクチャの命令をArmv8-Aアーキテクチャの命令列に変換する場合に、変換後の命令列が無駄に長くなるのを抑制する。そこで、まずこれらのアーキテクチャを採用したターゲットマシンについて説明する。

図６は、x86_64アーキテクチャを採用した第１のターゲットマシンのハードウェア構成図である。

第１のターゲットマシン３０は、サーバやPC(Personal Computer)等の計算機であって、第１のプロセッサ３１と第１のメモリ３２とを有する。

このうち、第１のプロセッサ３１は、x86_64アーキテクチャを採用したCPU(Central Procesing Unit)であって、算術演算や論理演算を行う演算器を含む第１の計算コア３３と第１のレジスタファイル３４とを備える。

第１のレジスタファイル３４は、複数のベクトルレジスタ３５と複数の汎用レジスタ３６とを備えたハードウェアである。各ベクトルレジスタ３５のサイズは５１２ビットである。また、ベクトルレジスタ３５は全部で３２個あり、「zmm0」、「zmm1」、…「zmm31」という文字列で各々が識別される。なお、この文字列における整数値「0」、「1」、…「31」は各ベクトルレジスタ３５のレジスタ番号を示す。

一方、各汎用レジスタ３６のサイズは６４ビットである。汎用レジスタ３６は全部で１６個あり、各々が「eax」、「ebx」、「ecx」、「edx」、「edi」、「esi」、「esp」、「ebp」、「r8」、「r9」、…「r15」という文字列で識別される。ベクトルレジスタ３５と同様に、この文字列における整数値「8」、「9」、…「15」は各汎用レジスタ３６のレジスタ番号を示し、「eax」、「ebx」、「ecx」、「edx」、「edi」、「esi」、「esp」、「ebp」のレジスタ番号はそれぞれ例えば「0」、「1」、…「7」である。

また、第１のメモリ３２は、x86_64の機械語が展開されるDRAM(Dynamic Random Access Memory)等の揮発性メモリである。

図７は、Armv8-Aアーキテクチャを採用した第２のターゲットマシンのハードウェア構成図である。

第２のターゲットマシン４０は、サーバやPC等の計算機であって、第２のプロセッサ４１と第２のメモリ４２とを有する。

第２のプロセッサ４１は、Armv8-Aアーキテクチャを採用したCPUであって、算術演算や論理演算を行う演算器を含む第２の計算コア４３と第２のレジスタファイル４４とを備える。

第２のレジスタファイル４４は、複数のベクトルレジスタ４５と複数の汎用レジスタ４６とを備えたハードウェアである。各ベクトルレジスタ４５のサイズは５１２ビットである。また、ベクトルレジスタ４５は全部で３２個あり、「z0」、「z1」、…「z31」という文字列で各々が識別される。なお、この文字列における整数値「0」、「1」、…「31」は各ベクトルレジスタ４５のレジスタ番号を示す。

一方、各汎用レジスタ４６のサイズは６４ビットである。汎用レジスタ４６は全部で３２個あり、各々が「x0」、「x1」、…「x31」という文字列で識別される。ベクトルレジスタ４５と同様に、この文字列における整数値「0」、「1」、…「31」は各汎用レジスタ４６のレジスタ番号を示す。

また、第２のメモリ４２は、Armv8-Aの機械語が展開されるDRAM等の揮発性メモリである。

図８は、第１のプロセッサ３１向けのアセンブリ命令を第２のプロセッサ４１向けの命令列に変換するための情報処理装置のハードウェア構成図である。

図８に示すように、情報処理装置５０は、記憶装置５０ａ、メモリ５０ｂ、プロセッサ５０ｃ、通信インターフェース５０ｄ、表示装置５０ｅ、及び入力装置５０ｆを有する。これらの各部は、バス５０ｇにより相互に接続される。

このうち、記憶装置５０ａは、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の不揮発性のストレージデバイスであり、本実施形態に係るアセンブリ命令変換プログラム４９を記憶する。

なお、アセンブリ命令変換プログラム４９をコンピュータが読み取り可能な記録媒体５０ｈに記録させておき、プロセッサ５０ｃに記録媒体５０ｈのアセンブリ命令変換プログラム４９を読み取らせるようにしてもよい。

そのような記録媒体５０ｈとしては、例えばCD-ROM(Compact Disc - Read Only Memory)、DVD(Digital Versatile Disc)、及びUSB(Universal Serial Bus)メモリ等の物理的な可搬型記録媒体がある。また、フラッシュメモリ等の半導体メモリやハードディスクドライブを記録媒体５０ｈとして使用してもよい。これらの記録媒体５０ｈは、物理的な形態を持たない搬送波のような一時的な媒体ではない。

更に、公衆回線、インターネット、及びLAN(Local Area Network)等に接続された装置にアセンブリ命令変換プログラム４９を記憶させておき、プロセッサ５０ｃがそのアセンブリ命令変換プログラム４９を読み出して実行するようにしてもよい。

一方、メモリ５０ｂは、DRAM等のようにデータを一時的に記憶するハードウェアであって、その上に前述のアセンブリ命令変換プログラム４９が展開される。

プロセッサ５０ｃは、情報処理装置５０の各部を制御したり、メモリ５０ｂと協働してアセンブリ命令変換プログラム４９を実行したりするCPUやGPU(Graphical Processing Unit)等のハードウェアである。

更に、通信インターフェース５０ｄは、情報処理装置５０をLAN(Local Area Network)等のネットワークに接続するためのインターフェースである。

そして、表示装置５０ｅは、液晶表示装置等のハードウェアであって、開発者に種々の情報の入力を促すプロンプトを表示する。また、入力装置５０ｆは、キーボードやマウス等のハードウェアである。

次に、本実施形態に係る情報処理装置５０が行う処理の概要について説明する。

図９は、本実施形態に係るアセンブリ命令変換方法を説明するための模式図である。

本実施形態では、情報処理装置５０が、変換対象となる複数のアセンブリ命令６５ａ～６５ｄが記述されたアセンブリファイル６５を取得することにより、アセンブリ命令６５ａ～６５ｄをこの順に取得する。アセンブリ命令６５ａ～６５ｄは、x86_64アーキテクチャの命令であって、この順に実行されるものとする。

次に、情報処理装置５０が、取得したアセンブリ命令６５ａ～６５ｄごとに、生成指示６６をFIFO(First In First Out)バッファ６０に格納する。FIFOバッファ６０は、記憶装置５０ａやメモリ５０ｂ等に確保された記憶領域の一例である。

生成指示６６は、x86_64のアセンブリ命令６５ａ～６５ｄの各々と等価な処理を行うArmv8-Aの命令列の生成を指示する情報である。この例では、複数の生成指示６６の各々を「vpadd zmm30, xmm1, [r8+64]」等のx86_64のアセンブリ命令で識別する。例えば、「vpadd zmm30, xmm1, [r8+64]」で識別される生成指示６６は、アセンブリ命令６５ｂに対応しており、x86_64のアセンブリ命令「vpadd zmm30, xmm1, [r8+64]」と等価な処理を行うArmv8-Aの命令列を生成する指示を表す。

また、FIFOバッファ６０に生成指示６６が格納される順序は、情報処理装置５０がアセンブリ命令６５ａ～６５ｄを取得する順序と同じである。よって、最初に情報処理装置５０がアセンブリ命令「vpadd zmm29, zmm0, [r8]」を取得すると、このアセンブリ命令に係る生成指示６６がFIFOバッファ６０に格納される。その後、「vpadd zmm30, xmm1, [r8+64]」、「vpadd zmm31, zmm2, [r8+128]」、「vpadd zmm29, zmm3, [r8+192]」の各々に係る生成指示６６がFIFOバッファ６０に格納されていく。

次に、情報処理装置５０は、FIFOバッファ６０を参照することにより、複数の生成指示６６の各々に係るアセンブリ命令のいずれもが使用しない第１のベクトルレジスタ３５を特定する。

この例では、４個の生成指示６６が使用する第１のベクトルレジスタ３５は、「0」、「1」、「2」、「3」、「29」、「30」、及び「31」の各レジスタ番号で識別されるレジスタである。よって、情報処理装置５０は、これらのレジスタ番号以外の第１のベクトルレジスタ３５を特定する。ここでは、第１のベクトルレジスタ３５のレジスタ番号0～31のうち、上記の「0」、「1」、「2」、「3」、「29」、「30」、及び「31」の全てと異なる最大の整数値「28」をレジスタ番号として有する第１のベクトルレジスタ３５を情報処理装置５０が特定する。

続いて、情報処理装置５０は、上記で特定した第１のベクトルレジスタ３５に対応する第２のベクトルレジスタ４５をテンポラリレジスタとして特定する。

この例では、レジスタ番号が「28」の第１のベクトルレジスタ３５を情報処理装置５０が特定している。よって、情報処理装置５０は、これと同じレジスタ番号「28」を有する「z28」の第２のベクトルレジスタ４５をテンポラリレジスタとして決定する。

そして、情報処理装置５０は、変換テーブル６１を参照することにより、アセンブリ命令６５ａ～６５ｄの各々と等価な処理を行うArmv8-Aの命令列６７ａ～６７ｄを生成する。変換テーブル６１は、x86_64のアセンブリ命令と、それと等価な処理をするArmv8-Aの命令列とを対応付けたテーブルである。例えば、変換テーブル６１には、x86_64のアセンブリ命令「vpadd」と、これと等価なArmv8-Aの命令列「ldr, add」が対応付けられている。また、情報処理装置５０は、命令列６７ａ～６７ｄの各々において、前述の「z28」の第２のベクトルレジスタ４５をテンポラリレジスタとして使用する。

例えば、x86_64のアセンブリ命令６５ｂは、Armv8-Aの命令列６７ｂにより等価な処理が実現される。その命令列６７ｂにおいては「z28」の第２のベクトルレジスタ４５がテンポラリレジスタとして使用されるが、「z28」に対応する「zmm28」の第１のベクトルレジスタ３５は後続の命令６５ｃ、６５ｄで使用されていない。よって、「z28」の第２のベクトルレジスタ４５のデータを第２のメモリ４２に退避させるためのストア命令を命令列６７ｂの最初に追加する必要がない。同様に、そのデータを「z28」の第２のベクトルレジスタ４５に復帰させるためのロード命令を命令列６７ｂの最後に追加する必要もない。

同様の理由により、命令列６７ａ、６７ｃ～６７ｄの各々の最初と最後にストア命令とロード命令を追加する必要もない。

これにより、本実施形態では命令列６７ａ～６７ｄの各々に無駄なストア命令とロード命令が追加されないため、命令列６７ａ～６７ｄの命令数を少なくでき、実行時間が長くなるのを抑制することができる。

なお、これらの命令列６７ａ～６７ｄの後続のアセンブリ命令が「z28」の第２のベクトルレジスタ４５を使用している場合もある。この場合に上記のように「z28」の第２のベクトルレジスタ４５をテンポラリレジスタとして使用すると、後続のアセンブリ命令が使用する予定のデータが命令列６７ａ～６７ｄによって壊されてしまう。

そのため、情報処理装置５０は、命令列６７ａ～６７ｄの最初に、「z28」の第２のベクトルレジスタ４５のデータを第２のメモリ４２に退避させる「str z28, [x9]」というストア命令６８を追加する。そして、命令列６７ａ～６７ｄの最後に、退避させておいたデータを「z28」の第２のベクトルレジスタ４５に復帰させるための「ldr z28, [x9]」というロード命令６９を追加する。これにより、「z28」の第２のベクトルレジスタ４５をテンポラリレジスタとして使用したことに起因して命令列６７ａ～６７ｄの後続のアセンブリ命令の実行結果が変わってしまうのを防ぐことができる。

その後、情報処理装置５０は、命令列６７ａ～６７ｄ、ストア命令６８、及びロード命令６９の各々が記述されたアセンブリファイル６７を外部に出力する
次に、本実施形態に係る情報処理装置５０の機能構成について説明する。

図１０は、本実施形態に係る情報処理装置５０の機能構成図である。

図１０に示すように、情報処理装置５０は、記憶部５１と制御部５２とを有する。

このうち、記憶部５１は、FIFOバッファ６０と変換テーブル６１とを記憶する処理部である。一例として、記憶部５１は、図８の記憶装置５０ａとメモリ５０ｂとにより実現される。

一方、制御部５２は、情報処理装置５０の各部を制御する処理部であって、取得部５３、格納部５４、判定部５５、特定部５６、決定部５７、生成部５８、及び出力部５９を有する。

このうち、取得部５３は、アセンブリファイル６５を取得することにより、そのアセンブリファイル６５に記述された変換対象のx86_64のアセンブリ命令６５ａ～６５ｄを取得する処理部である。

格納部５４は、取得したアセンブリ命令６５ａ～６５ｄごとに、生成指示６６をFIFOバッファ６０に格納する処理部である。なお、FIFOバッファ６０は、取得部５３がアセンブリ命令６５ａ～６５ｄを取得する前では空である。

また、格納部５４は、取得部５３がアセンブリ命令６５ａ～６５ｄを取得する度にFIFOバッファ６０に生成指示６６を格納する。そのため、FIFOバッファ６０に生成指示６６が格納される順序は、取得部５３がアセンブリ命令６５ａ～６５ｄを取得する順序と同じになる。

判定部５５は、取得部５３が新たに取得したアセンブリ命令の種類が、FIFOバッファ６０に既に格納されている生成指示６６が示すアセンブリ命令の種類と異なるかを判定する処理部である。アセンブリ命令の種類は、アセンブリ命令の名前とオペランドの型との組み合わせである。

なお、本実施形態では、FIFOバッファ６０に複数の生成指示６６が格納されている場合、格納されている全ての生成指示６６が示すアセンブリ命令の種類は全て同一となる。よって、判定部５５は、複数の生成指示６６のうちのいずれかのセンブリ命令の種類が、取得部５３が新たに取得したアセンブリ命令の種類と異なるかを判定することになる。

特定部５６は、FIFOバッファ６０を参照することにより、複数の生成指示６６の各々に係るアセンブリ命令のいずれもが使用しない第１のベクトルレジスタ３５を特定する処理部である。そのような第１のベクトルレジスタ３５が複数ある場合、特定部５６は、複数の第１のベクトルレジスタ３５のうちでレジスタ番号が最大の第１のベクトルレジスタ３５を特定する。

決定部５７は、特定部５６が特定した第１のベクトルレジスタ３５に対応する第２のベクトルレジスタ４５を、命令列６７ａ～６７ｄの各々が使用するテンポラリレジスタとして決定する。なお、本実施形態では、同じレジスタ番号を有する第１のベクトルレジスタ３５と第２のベクトルレジスタ４５とを互いに対応するベクトルレジスタと呼ぶ。

生成部５８は、FIFOバッファ６０の生成指示６６ごとに、生成指示６６に係るアセンブリ命令６５ａ～６５ｂの各々と等価な処理を行う命令列６７ａ～６７ｄを生成する処理部である。例えば、生成部５８は、変換テーブル６１を参照することにより、アセンブリ命令６５ａに対応する命令列６７ａを生成する。このとき、生成部５８は、決定部５７が決定したテンポラリレジスタを命令列６７ａで使用する。

また、生成部５８は、テンポラリレジスタのデータを第２のメモリ４２に退避するストア命令と、そのデータをテンポラリレジスタに復帰させるロード命令を命令列６７ａ～６７ｄの各々に追加しない。これにより、図９を参照して説明したように、無駄なストア命令とロード命令によって命令列６７ａ～６７ｄの命令数を少なくでき、実行時間が長くなるのを抑制できる。

更に、生成部５８は、命令列６７ａ～６７ｄの最初に、テンポラリレジスタとして使用する第２のベクトルレジスタ４５のデータを第２のメモリ４２に退避させるストア命令６８を追加する。また、生成部５８は、命令列６７ａ～６７ｄの最後に、当該データを元の第２のベクトルレジスタ４５に復帰させるロード命令６９を追加する。

出力部５９は、命令列６７ａ～６７ｄ、ストア命令６８、及びロード命令６９の各々が記述されたアセンブリファイル６７を外部に出力する処理部である。

次に、本実施形態に係るアセンブリ命令変換方法について説明する。

図１１は、本実施形態に係るアセンブリ命令変換方法のフローチャートである。

まず、取得部５３が、x86_64のアセンブリ命令６５ａを取得する（ステップＳ１１）。

次に、判定部５５が、ステップＳ１１で取得部５３が取得したアセンブリ命令の種類が、FIFOバッファ６０に格納されている生成指示６６が示すアセンブリ命令の種類と異なるかを判定する（ステップＳ１２）。

ここで、ステップＳ１１で取得したアセンブリ命令の種類が、FIFOバッファ６０に格納されている生成指示６６が示すアセンブリ命令の種類と同じ場合（ステップＳ１２：否定）はステップＳ１３に移る。なお、FIFOバッファ６０が空の場合もステップＳ１３に移る。

ステップＳ１３においては、格納部５４が、ステップＳ１１で取得したアセンブリ命令６５ａに係る生成指示６６をFIFOバッファ６０に格納する。

一方、ステップＳ１１で取得したアセンブリ命令の種類が、FIFOバッファ６０に格納されている生成指示６６が示すアセンブリ命令の種類と異なる場合（ステップＳ１２：肯定）はステップＳ１４に移る。

ステップＳ１４においては、特定部５６が、FIFOバッファ６０を参照することにより、複数の生成指示６６の各々に係るアセンブリ命令のいずれもが使用しない第１のベクトルレジスタ３５を特定する。

次に、決定部５７が、特定部５６が特定した第１のベクトルレジスタ３５に対応する第２のベクトルレジスタ４５をテンポラリレジスタとして決定する（ステップＳ１５）。

次いで、生成部５８は、FIFOバッファ６０の生成指示６６ごとに、生成指示６６に係るアセンブリ命令６５ａ～６５ｂの各々と等価な処理を行う命令列６７ａ～６７ｄを生成する（ステップＳ１６）。このとき、生成部５８は、ステップＳ１５で決定したテンポラリレジスタを命令列６７ａで使用する。更に、生成部５８は、命令列６７ａ～６７ｄの最初と最後に、それぞれストア命令６８とロード命令６９とを追加する。その後、生成部５８がFIFOバッファ６０を空にする。

次に、格納部５４が、ステップＳ１１で取得したアセンブリ命令６５ａに係る生成指示６６をFIFOバッファ６０に格納する（ステップＳ１７）。

この後は、取得部５３がアセンブリ命令を取得する度にステップＳ１１～Ｓ１７を繰り返す。

次に、生成部５８が、FIFOバッファ６０に残っている生成指示６６に従い、当該生成指示６６が示すアセンブリ命令と等価な処理をするArmv8-Aの命令列を生成する（ステップＳ１８）。

その後に、出力部５９が、ステップＳ１５とステップＳ１８の各々で生成した命令列が記述された出力ファイルを外部に出力する（ステップＳ１９）。

以上により、本実施形態に係るアセンブリ命令変換方法の基本的な処理を終える。

次に、本実施形態においてFIFOバッファ６０の内容がどのように変わるのかについて説明する。

図１２（ａ）～（ｆ）は、図１１のフローチャートに従った場合のFIFOバッファ６０の内容の変遷を示す模式図である。

図１２（ａ）に示すように、ステップＳ１１で取得部５３がアセンブリ命令６５ａ～６５ｄを取得する前はFIFOバッファ６０は空である。

次いで、図１２（ｂ）に示すように、ステップＳ１１で「vpadd zmm29, zmm0, [r8]」のアセンブリ命令６５ａを取得すると、ステップＳ１３において該アセンブリ命令６５ａに係る生成指示６６がFIFOバッファ６０に格納される。

この状態で更にステップＳ１１で「vpadd zmm30, zmm1, [r8+64]」のアセンブリ命令６５ｂを取得したとする。ここで、FIFOバッファ６０に既に格納されている生成指示６６が示すアセンブリ命令「vpadd zmm29, zmm0, [r8]」と、今回新たに取得したアセンブリ命令「vpadd zmm30, zmm1, [r8+64]」は、名前が「vpadd」で同一である。更に、両アセンブリ命令の第１～第３オペランドの型も同一である。よって、FIFOバッファ６０に既に格納されている生成指示６６が示すアセンブリ命令「vpadd zmm29, zmm0, [r8]」と、今回新たに取得したアセンブリ命令「vpadd zmm30, zmm1, [r8+64]」の各々の種類は同じである。

そのため、この場合にはステップＳ１２からステップＳ１３に移り、図１２（ｃ）のようにアセンブリ命令６５ｂに係る生成指示６６がFIFOバッファ６０に格納される。

これと同様にして、図１２（ｄ）～（ｅ）に示すように、アセンブリ命令６５ｃ～６５ｄに係る生成指示６６がFIFOバッファ６０に格納される。

その後に、ステップＳ１１において取得部５３がx86_64のアセンブリ命令「ret」を取得したとする。そのアセンブリ命令「ret」は、この時点で既にFIFOバッファ６０に格納されている４個の生成指示６６が示すアセンブリ命令「vpadd」と名前が相違する。よって、この場合にはステップＳ１６でFIFOバッファ６０が空にされる。

その後に、図１２（ｆ）に示すように、ステップＳ１７においてアセンブリ命令「ret」に係る生成指示６６がFIFOバッファ６０に格納される。

このように、本実施形態ではステップＳ１１で取得したアセンブリ命令の種類に応じてステップＳ１２の分岐先が変わる。そのため、FIFOバッファ６０に格納される生成指示６６が示すアセンブリ命令の名前は同一となる。

上記した本実施形態によれば、格納部５４が、複数のアセンブリ命令６５ａ～６５ｄの各々に係る生成指示６６をFIFOバッファ６０に格納する。そのため、特定部５６が、FIFOバッファ６０を参照することにより、複数のアセンブリ命令６５ａ～６５ｄの各々が使用していない第１のベクトルレジスタ３５を特定することができる。

そして、決定部５７が、特定した第１のベクトルレジスタ３５に対応した第２のベクトルレジスタ４５をテンポラリレジスタとして決定する。そのテンポラリレジスタに対応する第１のベクトルレジスタ３５は複数のアセンブリ命令６５ａ～６５ｄのいずれも使用していない。

そのため、生成部５８が、テンポラリレジスタのデータを第２のメモリ４２に退避させるストア命令と、そのデータをテンポラリレジスタに復帰させるためのロード命令とを各命令列６７ａ～６７ｄに含める必要がない。その結果、これらのストア命令やロード命令によって各命令列６７ａ～６７ｄが無駄に長くなるのを抑制することができる。

（第２実施形態）
本実施形態では、第１実施形態とは異なる方法でテンポラリレジスタを決定する。

図１３は、本実施形態に係るアセンブリ命令変換方法を説明するための模式図である。なお、図１３において、第１実施形態で説明したのと同じ要素には第１実施形態におけるのと同じ符号を付し、以下ではその説明を省略する。

図１３では、情報処理装置５０が、アセンブリファイル６５を取得することにより、x86_64の二つの連続したアセンブリ命令６５ａ、６５ｂをこの順に取得した場合を想定している。この場合、情報処理装置５０は、まずアセンブリ命令６５ａに係る生成指示６６をFIFOバッファ６０に格納する。そして、情報処理装置５０は、後続のアセンブリ命令６５ｂを取得した時点で、先行のアセンブリ命令６５ａで使用するテンポラリレジスタを決定する。

この例では、後続のアセンブリ命令６５ｂのデスティネーションレジスタは、「zmm30」の第１のベクトルレジスタ３５である。一方、先行のアセンブリ命令６５ａは上記の「zmm30」の第１のベクトルレジスタ３５を使用していない。

よって、仮にアセンブリ命令６５ａにおいて「zmm30」をテンポラリレジスタとして使用しても、結局は後続のアセンブリ命令６５ｂで「zmm30」の内容が上書きされるため、アセンブリ命令６５ａ、６５ｂの実行結果は変わらない。

そこで、情報処理装置５０は、「zmm30」に対応した「z30」の第２のベクトルレジスタ４５をテンポラリレジスタとして使用したArmv8-Aの命令列６７ａを生成する。その命令列６７ａは、x86_64のアセンブリ命令６５ａと等価な処理を実現する命令列である。

また、「zmm30」の第１のベクトルレジスタ３５の内容は後続のアセンブリ命令６５ｂで上書きされる。よって、「z30」のデータを第２のメモリ４２に退避させるストア命令と、当該データを「z30」に復帰させるためのロード命令とを情報処理装置５０が命令列６７ａに追加する必要がなく、命令列６７ａが無駄に長くなるのを抑制できる。

なお、命令列６７ａの生成に際し、情報処理装置５０は変換テーブル６１を参照する。第１実施形態で説明したように、変換テーブル６１には、x86_64のアセンブリ命令「vpadd」と、これと等価なArmv8-Aの命令列「ldr, add」が対応付けられている。この対応関係を基にして、情報処理装置５０は命令列６７ａを生成することができる。

図１４は、図１３の例とは異なり、アセンブリ命令６５ｂのデスティネーションレジスタ「zmm1」が先行のアセンブリ命令６５ａのソースレジスタとして使用されている場合の模式図である。

この場合に、命令列６７ａに示すように、「zmm1」に対応した「z1」の第２のベクトルレジスタ４５をテンポラリレジスタとして使用したとする。その命令列６７ａを実行すると、アセンブリ命令「ldr」によって、「x8」の第２の汎用レジスタ４６が示すメモリアドレスのデータが「z1」の第２のベクトルレジスタ４５に格納される。そして、アセンブリ命令「add」により、「z1」にあるデータ同士が加算されてその結果が「z30」に格納される。

一方、アセンブリ命令６５ａを実行すると、「r8」の第１の汎用レジスタ３６が示すメモリアドレスのデータと「zmm1」のデータとが加算されてその結果が「zmm30」に格納される。よって、アセンブリ命令６５ａと命令列６７ａとは実行結果が異なってしまい、命令列６７ａはアセンブリ命令６５ａと等価にならない。

以上のように、アセンブリ命令６５ｂのデスティネーションレジスタをテンポラリレジスタとするには、該デスティネーションレジスタが先行のアセンブリ命令６５ａでソースレジスタとして使用されていないことが必要となる。

なお、アセンブリ命令６５ｂのデスティネーションレジスタがアセンブリ命令６５ａのソースレジスタとして使用されていない場合であっても、以下のような問題が生じることがある。

図１５は、その問題について説明するための模式図である。

図１５の例では、アセンブリ命令６５ｂのデスティネーションレジスタは「zmm1」であり、アセンブリ命令６５ａのソースレジスタ「zmm0」とは異なる。但し、アセンブリ命令６５ｂのソースレジスタとデスティネーションレジスタが両方とも「zmm1」で同一である。

この場合に、命令列６７ａが、アセンブリ命令６５ｂのデスティネーションレジスタの「zmm1」に対応した「z1」の第２のベクトルレジスタ４５をテンポラリレジスタとして使用したとする。その命令列６７ａを実行すると、「z1」の第２のベクトルレジスタ４５には、「x8」の第２の汎用レジスタ４６が示すメモリアドレスのデータが格納されてしまい、「z1」の内容が破壊されてしまう。「z1」に対応した「zmm1」の第１のベクトルレジスタ３５にはアセンブリ命令６５ｂが使用するデータが格納されていたため、これではアセンブリ命令６５ｂの実行結果が変わってしまう。

以上のように、アセンブリ命令６５ｂのデスティネーションレジスタをテンポラリレジスタとして使用するには、図１６の条件Aと条件Bの両方が満たされる必要がある。

図１６は、本実施形態に係る情報処理装置５０が判定する条件を示す模式図である。

情報処理装置５０は、条件Aと条件Bの両方の条件が満たされる場合に、図１３のように、x86_64のアセンブリ命令６５ａに等価なArmv8-Aの命令列６７ａを生成する。その命令列６７ａでは、アセンブリ命令６５ｂのデスティネーションレジスタに対応する第２のベクトルレジスタ４５がテンポラリレジスタとして使用される。また、情報処理装置５０は、そのテンポラリレジスタのデータを第２のメモリ４２に退避させるストア命令と、該データをテンポラリレジスタに復帰させるためのロード命令とを生成しない。これにより、命令列が無駄に長くなるのを抑制することができる。

次に、情報処理装置５０の機能構成について説明する。

図１７は、本実施形態に係る情報処理装置５０の機能構成図である。なお、図１７において、第１実施形態で説明したのと同じ要素には第１実施形態におけるのと同じ符号を付し、以下ではその説明を省略する。

図１７に示すように、情報処理装置５０の制御部５２は、第１実施形態で説明した取得部５３と格納部５４の他に、判定部７１、決定部７２、生成部７３、及び出力部７４を有する。

このうち、取得部５３は、図１３のx86_64のアセンブリ命令６５ａ、６５ｂが記述されたアセンブリファイル６５を取得することにより、アセンブリ命令６５ａ、６５ｂをこの順に取得する処理部である。そして、格納部５４は、これらのアセンブリ命令６５ａ、６５ｂの各々に係る生成指示６６をFIFOバッファ６０に格納する処理部である。

判定部７１は、FIFOバッファ６０に既に格納されている生成指示６６に係るアセンブリ命令６５ａと、新たに取得したアセンブリ命令６５ｂとに基づいて、図１６の条件Aと条件Bの両方が満たされるかを判定する処理部である。

決定部７２は、条件Aと条件Bの両方が満たされる場合に、アセンブリ命令６５ｂのデスティネーションレジスタに対応した第２のベクトルレジスタ４５を、命令列６７ａにおけるテンポラリレジスタとして決定する処理部である。

生成部７３は、決定部７２が決定したテンポラリレジスタを使用した命令列６７ａを生成する処理部である。そして、出力部７４は、命令列６７ａが記述されたアセンブリファイル６７を外部に出力する処理部である。

図１８及び図１９は、本実施形態に係るアセンブリ命令変換方法のフローチャートである。

まず、取得部５３が、x86_64のアセンブリ命令６５ａを取得する（ステップＳ２１）。

次に、判定部７１が、FIFOバッファ６０が空かどうかを判定する（ステップＳ２２）。

FIFOバッファ６０が空である場合（ステップＳ２２：肯定）はステップＳ２３に移る。ステップＳ２３においては、格納部５４が、ステップＳ２１で取得したアセンブリ命令６５ａに係る生成指示６６をFIFOバッファ６０に格納する。

一方、FIFOバッファ６０が空ではない場合（ステップＳ２２：否定）はステップＳ２４に移る。ステップＳ２４においては、判定部７１が、ステップＳ２１で取得部５３が取得したアセンブリ命令の種類が、FIFOバッファ６０に格納されている生成指示６６が示すアセンブリ命令の種類と異なるかを判定する。

なお、第１実施形態とは異なり、本実施形態ではFIFOバッファ６０には一つの生成指示６６のみが格納される。よって、判定部７１は、FIFOバッファ６０に格納されている一つの生成指示６６のセンブリ命令の種類が、ステップＳ２１で取得したアセンブリ命令の種類と異なるかを判定すればよい。

ここで、ステップＳ２１で取得したアセンブリ命令の種類が、FIFOバッファ６０に格納されている生成指示６６が示すアセンブリ命令の種類と異なる場合（ステップＳ２４：肯定）はステップＳ２５に移る。

ステップＳ２５においては、図４で説明した方法を用いて、アセンブリ命令６５ａと等価な処理を行うArmv8-Aの命令列を生成部７３が生成する。この方法では、生成部７３が、テンポラリレジスタにあるデータを退避させるストア命令を命令列の最初に追加する。また、生成部７３は、命令列の最後に、該データをテンポラリレジスタに復帰させるロード命令を追加する。よって、ステップＳ２５では、これらのストア命令とロード命令によって命令数が増え、命令数の削減が実行されない。

一方、ステップＳ２１で取得したアセンブリ命令の種類が、FIFOバッファ６０に格納されている生成指示６６が示すアセンブリ命令の種類と同じ場合（ステップＳ２４：否定）はステップＳ２６に移る。

ステップＳ２６においては、判定部７１が、図１６の条件Aと条件Bの両方が満たされるかを判定する。

ここで、条件Aと条件Bの両方が満たされない場合（ステップＳ２６：否定）には前述のステップＳ２５を行う。

一方、条件Aと条件Bの両方が満たされる場合（ステップＳ２６：肯定）にはステップＳ２７に移る。例えば、図１３に示したように、アセンブリ命令６５ａに係る生成指示６６が既にFIFOバッファにあり、この状態でステップＳ２１でアセンブリ命令６５ｂを取得した場合を考える。この場合は、アセンブリ命令６５ｂのデスティネーションレジスタ「zmm30」が、アセンブリ命令６５ａのソースレジスタ「zmm0」と異なるため、条件Aを満たす。更に、アセンブリ命令６５ｂのデスティネーションレジスタ「zmm30」とソースレジスタ「zmm1」とが異なるため、条件Bも満たす。

この場合、ステップＳ２７においては、決定部５７が、アセンブリ命令６５ｂのデスティネーションレジスタ「zmm30」に対応した「z30」の第２のベクトルレジスタ４５をテンポラリレジスタとして決定する。

次に、生成部７３が、ステップＳ２７で決定部５７が決定したテンポラリレジスタを使用した命令列６７ａを生成する（ステップＳ２８）。図１３に示したように、その命令列６７ａには、テンポラリレジスタのデータを第２のメモリ４２に退避させるストア命令と、該データをテンポラリレジスタに復帰させるロード命令とがないため、命令数を削減することができる。

上記のようにしてステップＳ２５又はステップＳ２８を終えた後はステップＳ２９に移る。

ステップＳ２９においては、格納部５４がFIFOバッファ６０を空にする。

次いで、格納部５４が、ステップＳ２１で取得したアセンブリ命令に係る生成指示６６をFIFOバッファ６０に格納する（ステップＳ３０）。

この後は、取得部５３がアセンブリ命令を取得する度にステップＳ２１～Ｓ３０を繰り返す。

次に、生成部７３が、FIFOバッファ６０に残っている生成指示６６に従い、当該生成指示６６が示すアセンブリ命令と等価な処理をするArmv8-Aの命令列を生成する（ステップＳ３１）。

その後に、出力部７４が、ステップＳ２５、Ｓ２８、Ｓ３１の各々で生成した命令列が記述された出力ファイルを外部に出力する（ステップＳ３２）。

図２０は、取得部５３が取得したアセンブリ命令６５ａ～６５ｄの模式図である。以下では、取得部５３がアセンブリ命令６５ａ～６５ｄをこの順に取得した場合を例にして説明する。

図２１（ａ）～（ｅ）は、図１８及び図１９のフローチャートに従った場合のFIFOバッファ６０の内容の変遷を示す模式図である。

図２１（ａ）に示すように、ステップＳ２１で取得部５３がアセンブリ命令６５ａを取得する前はFIFOバッファ６０は空である。

次いで、図２１（ｂ）に示すように、ステップＳ２１で「vpadd zmm29, zmm0, [r8]」のアセンブリ命令６５ａを取得すると、ステップＳ２３において該アセンブリ命令６５ａに係る生成指示６６がFIFOバッファ６０に格納される。

この状態で更にステップＳ２１で「vpadd zmm30, zmm1, [r8+64]」のアセンブリ命令６５ｂを取得したとする。ここで、FIFOバッファ６０に既に格納されている生成指示６６が示すアセンブリ命令「vpadd zmm29, zmm0, [r8]」と、今回新たに取得したアセンブリ命令「vpadd zmm30, zmm1, [r8+64]」は、名前が「vpadd」で同一である。更に、両アセンブリ命令の第１～第３オペランドの型も同一である。

更に、先行の「vpadd zmm29, zmm0, [r8]」と後続の「vpadd zmm30, zmm1, [r8+64]」は条件Aと条件Bの両方を満たす。よって、この場合にはステップＳ２８において命令列が生成された後、ステップＳ２９でFIFOバッファ６０が空にされる。

その後、図２１（ｃ）に示すように、ステップＳ３０でFIFOバッファ６０に「vpadd zmm30, zmm1, [r8+64]」に係る生成指示６６が格納される。

以下、同様にして、図２１（ｄ）～（ｅ）のようにFIFOバッファ６０に一つの生成指示６６のみが格納されていく。

以上説明した本実施形態によれば、格納部５４が、アセンブリ命令６５ａに係る生成指示６６をFIFOバッファ６０に格納する。そのため、判定部７１が、FIFOバッファ６０を参照することにより、生成指示６６に係るアセンブリ命令６５ａと後続のアセンブリ命令６５ｂに対し、図１６の条件Aと条件Bの両方が満たされるかを判定できる。

そして、条件Aと条件Bの両方が満たされる場合に、決定部７２が、アセンブリ命令６５ｂのデスティネーションレジスタに対応した第２のベクトルレジスタ４５を命令列６７ａにおけるテンポラリレジスタとして決定する。そのテンポラリレジスタのデータは後続のアセンブリ命令６５ｂによって上書きされる。そのため、当該データを第２のメモリ４２に退避させるストア命令と、当該データをテンポラリレジスタに復帰させるロード命令とを生成部７３が生成する必要がなく、命令列６７ａが無駄に長くなるのを抑制することができる。

（第３実施形態）
第１実施形態と第２実施形態ではFIFOバッファ６０を利用して命令数を削減した。これに対し、本実施形態では以下のようにFIFOバッファ６０を不要とする。

図２２は、本実施形態に係るアセンブリ命令変換方法を説明するための模式図である。なお、図２２において、第１実施形態や第２実施形態で説明したのと同じ要素にはこれらの実施形態におけるのと同じ符号を付し、以下ではその説明を省略する。

図２２では、情報処理装置５０が、x86_64のアセンブリ命令６５ａ～６５ｃが記述されたアセンブリファイル６５を取得した場合を想定している。本実施形態では、開発者が、各アセンブリ命令６５ａ～６５ｃよりも前の位置におけるアセンブリファイル６５にコード６５ｘを記述する。コード６５ｘは、テンポラリレジスタとして使用可能な第１のベクトルレジスタ３５を指定するコードであって、開発者によって記述される。

図２２の例では、文字列「release」に続く文字列「zmm8」により、「zmm8」の第１のベクトルレジスタ３５がテンポラリレジスタであることが特定される。

更に、情報処理装置５０は、変換テーブル６１を参照することにより、x86_64の各アセンブリ命令６５ａ～６５ｃと等価な処理を行うArmv8-Aの命令列６７ａ～６７ｃを生成する。このとき、情報処理装置５０は、「zmm8」に対応した「z8」の第２のベクトルレジスタ４５を命令列６７ａ、６７ｂのテンポラリレジスタとして使用する。

なお、開発者は、第２のメモリ４２へのデータの退避や、第２のメモリ４２からのデータの復帰が不要なベクトルレジスタをコード６５ｘにおいてテンポラリレジスタとして指定する。そのため、情報処理装置５０は、テンポラリレジスタのデータを第２のメモリ４２に退避させるためのストア命令を各命令列６７ａ、６７ｂに含めない。同様に、情報処理装置５０は、第２のメモリ４２からテンポラリレジスタにデータを復帰させるためのロード命令を各命令列６７ａ、６７ｂに含めない。これにより、ロード命令やストア命令によって各命令列６７ａ、６７ｂが無駄に長くなるのを抑制することができる。

また、この例では、アセンブリ命令６５ｂのデスティネーションレジスタが、コード６５ｘで指定された「zmm8」の第１のベクトルレジスタ３５と同じである。この場合に後続のアセンブリ命令６５ｃで「zmm8」をテンポラリレジスタとして使用してしまうと、アセンブリ命令６５ｂが「zmm8」の第１のベクトルレジスタ３５に格納したデータをアセンブリ命令６５ｃが上書きしてしまう。

よって、この場合は、情報処理装置５０は、コード６５ｘで指定されたのとは異なる「z31」の第２のベクトルレジスタ４５を命令列６７ｃで使用する。「z31」の第２のベクトルレジスタ４５には、命令列６７ｃの後続命令で使用するデータが格納されている可能性がある。そのため、情報処理装置５０は、そのデータを第２のメモリ４２に退避させるアセンブリ命令「str z31.s, [x9]」を命令列６７ｃの先頭に追加する。また、情報処理装置５０は、第２のメモリ４２から「z31」に復帰させるアセンブリ命令「ldr z31.s, [x9]」を命令列６７ｃの最後に追加する。

図２３は、本実施形態に係る情報処理装置５０の機能構成図である。

なお、図２３において、第１実施形態や第２実施形態で説明したのと同じ要素にはこれらの実施形態におけるのと同じ符号を付し、以下ではその説明を省略する。

図２３に示すように、本実施形態における記憶部５１は、変換テーブル６１の他にテンポラリレジスタリスト８７を記憶する。テンポラリレジスタリスト８７は、コード６５ｘで指定された第１のベクトルレジスタ３５の名前「zmm8」を格納するリストである。

一方、制御部５２は、取得部８０、判定部８１、リスト制御部８２、決定部８３、生成部８４、及び出力部８５を有する。

このうち、取得部８０は、アセンブリファイル６５を取得する処理部である。そして、判定部８１は、そのアセンブリファイル６５にコード８５ｘがあるかを判定する。

リスト制御部８２は、コード８５ｘで指定された第１のベクトルレジスタ３５の名前をテンポラリレジスタリスト８７に追加する処理部である。

また、決定部８３は、テンポラリレジスタリスト８７に格納されている名前を特定し、その名前に対応する第２のベクトルレジスタ４５をテンポラリレジスタとして決定する処理部である。

生成部８４は、アセンブリ命令６５ａ～６５ｂの各々と等価な処理を行う命令列６７ａ～６７ｄを生成する処理部である。例えば、生成部８４は、変換テーブル６１を参照することにより、アセンブリ命令６５ａに対応する命令列６７ａを生成する。このとき、生成部８４は、決定部８３が決定したテンポラリレジスタを命令列６７ａで使用する。

なお、生成部８４は、テンポラリレジスタのデータを第２のメモリ４２に退避するストア命令と、そのデータをテンポラリレジスタに復帰させるロード命令を命令列６７ａ～６７ｄの各々に追加しない。これにより、無駄なストア命令とロード命令によって命令列６７ａ～６７ｄの実行時間が長くなるのを抑制できる。

出力部８５は、命令列６７ａ～６７ｄが記述されたアセンブリファイル６７を外部に出力する処理部である。

図２４は、本実施形態に係るアセンブリ命令変換方法のフローチャートである。

最初に、取得部８０が、アセンブリファイル６５を取得する（ステップＳ３１）。

これ以降は、アセンブリファイル６５の行ごとに以下の処理を繰り返す。

まず、判定部８１が、処理対象の行にコード６５ｘが記述されているかを判定することにより、アセンブリファイル６５にコード８５ｘがあるかを判定する（ステップＳ３２）。

ここで、コード６５ｘが記述されている場合（ステップＳ３２：肯定）はステップＳ３３に移る。

ステップＳ３３においては、リスト制御部８２が、コード８５ｘで指定された第１のベクトルレジスタ３５の名前をテンポラリレジスタリスト８７に追加する。

図２５（ａ）は、そのテンポラリレジスタリスト８７の模式図である。ここでは、図２３のようにコード６５ｘが指定する第１のベクトルレジスタ３５の名前が「zmm8」である場合を例示している。

再び図２４を参照する。

一方、コード６５ｘが記述されていない場合（ステップＳ３２：否定）はステップＳ３４に移る。

ステップＳ３４においては、決定部８３が、テンポラリレジスタリスト８７に格納されている名前を特定し、その名前に対応する第２のベクトルレジスタ４５をテンポラリレジスタとして決定する。

次に、生成部８４が、処理中の行に記述されたx86_64のアセンブリ命令と等価な処理を行うArmv8-Aの命令列を生成する（ステップＳ３５）。このとき、生成部８４は、ステップＳ３４で決定したテンポラリレジスタを命令列に使用する。

例えば、処理中の行に記述されているアセンブリ命令が、図２２のアセンブリ命令６５ａであるとする。この場合、生成部８４は、変換テーブル６１を参照することにより、「ldr」と「add」の各アセンブリ命令を用いた命令列６７ａを生成する。更に、生成部８４は、その命令列６７ａにおいて、テンポラリレジスタリスト８７に格納されている名前「zmm8」に対応した「z8」の第２のベクトルレジスタ４５をテンポラリレジスタとして使用する。

次に、判定部８１が、テンポラリレジスタリスト８７に、処理中の行に記述されているアセンブリ命令のデスティネーションレジスタの名前があるかを判定する（ステップＳ３６）。例えば、処理中の行に図２２のアセンブリ命令６５ｂが記述されており、テンポラリレジスタリスト８７に名前「zmm8」が格納されている場合を考える。この場合は、アセンブリ命令６５ｂのデスティネーションレジスタが「zmm8」であるため、テンポラリレジスタリスト８７にその名前があることになる。

この場合に後続のアセンブリ命令６５ｃにおいて「zmm8」をテンポラリレジスタとして使用すると、前述のようにアセンブリ命令６５ｂが「zmm8」に書き込んだデータをアセンブリ命令６５ｃが上書きしてしまう。

これを防ぐために、デスティネーションレジスタの名前がテンポラリレジスタリスト８７にある場合（ステップＳ３６：肯定）は、ステップＳ３７においてリスト制御部８２がその名前をテンポラリレジスタリスト８７から削除する。前述の図２２の例では、名前「zmm8」がテンポラリレジスタリスト８７から削除されることになる。図２５（ｂ）は、このように名前「zmm8」を削除したときのテンポラリレジスタリスト８７の模式図である。

この後は、アセンブリファイル６５の全ての行に対してステップＳ３２～Ｓ３７を繰り返す。デスティネーションレジスタの名前がテンポラリレジスタリスト８７にない場合（ステップＳ３６：否定）も、同様にしてステップＳ３２～Ｓ３７を繰り返す。

その後、出力部８５が、ステップＳ３５で生成した命令列を含むアセンブリファイル６７を外部に出力する（ステップＳ３８）。

上記した本実施形態によれば、生成部８４が、コード６５ｘで指定された第１のベクトルレジスタ３５に対応する第２のベクトルレジスタ４５を命令列６７ｂにおいてテンポラリレジスタとして使用する。そのテンポラリレジスタは、第２のメモリ４２へのデータの退避と、第２のメモリ４２からのデータの復帰とが不要なベクトルレジスタとして開発者が指定したレジスタである。よって、生成部８４は、データの退避と復帰とを行うストア命令とロード命令とを命令列６７ｂに含める必要がなく、命令列６７ｂが無駄に長くなるのを抑制することができる。

（第４実施形態）
第１～第３実施形態では、x86_64のアセンブリ命令に等価な処理を行うArmv8-Aの命令列が無駄に長くなるのを抑制した。これに対し、本実施形態では、JIT(Just In Time)コンパイラ技術で生成した機械語列が無駄に長くなるのを抑制する。

JITコンパイラ技術は、実行時に決定されるパラメータ、処理内容、及びプロセッサの状況に応じて、好適な機械語の命令列をソースコードから生成する技術である。JITコンパイラ技術を用いて生成した機械語の命令列は、AOT(Ahead Of Time)型のコンパイラが生成する汎用的に処理可能な機械語の命令列からなる実行プログラムよりも処理が高速である。

そのJITコンパイラ技術を用いた場合のアセンブリ命令変換プログラム４９のソースコードの例について説明する。

図２６（ａ）は、アセンブリ命令変換プログラム４９のソースコードで使用する型宣言のC++の疑似ソースコードの模式図である。

図２６（ａ）に示すように、本実施形態では「ZmmReg」、「memOperand」、「ZRegS」、及び「XReg」の型を宣言する。

このうち、「ZmmReg」型は、x86_64の第１のベクトルレジスタ３５を示す型であって、第１のベクトルレジスタ３５のレジスタ番号を示すクラス変数「index」を有する。

「memOperand」型は、x86_64のアセンブリ命令のメモリオペランドを示す型である。「memOperand」には、メモリアドレスを保持している第１の汎用レジスタ３６のレジスタ番号を示すクラス変数「index」と、メモリオフセットを示すクラス変数「offset」とが宣言される。

また、「ZRegS」型は、Armv8-Aの第２のベクトルレジスタ４５を示す型であって、第２のベクトルレジスタ４５のレジスタ番号を示すクラス変数「index」を有する。

そして、「XReg」型は、Armv8-Aの第２の汎用レジスタ４６を示す型であって、第２の汎用レジスタ４６のレジスタ番号を示すクラス変数「index」を有する。

図２６（ｂ）は、x86_64のアセンブリ命令「vpadd」の機械語を生成するvpadd関数の定義を示すC++の疑似ソースコード１００の模式図である。

vpadd関数１０１は、第１及び第２オペランドに「ZmmReg」型の変数をとり、第３オペランドに「memOperand」型の変数を引数にとる関数であって、x86_64のアセンブリ命令「vpadd」と等価な処理を行うArmv8-Aの機械語を生成する。このように名前がアセンブリ命令の名前と同一であり、かつ、そのアセンブリ命令の機械語を生成する関数のことを以下ではニーモニック関数と呼ぶ。

このvpmovsxbd関数１０１を呼び出すと、if文１０２の判定結果に応じて、genJitCodeOfFifo関数１０３とコード１０４のいずれか一方が実行される。

コード１０４は、アセンブリ命令「vpadd」と等価な処理を行うArmv8-Aの機械語を生成する生成指示をFIFOバッファに格納するコードである。FIFOバッファは、記憶装置５０ａやメモリ５０ｂ等に確保された記憶領域の一例である。

図２７（ａ）～（ｅ）は、FIFOバッファの模式図である。

図２７（ａ）に示すように、FIFOバッファ１１１は、ソースコード１００を実行する前では空である。

そして、図２７（ｂ）～（ｅ）に示すように、FIFOバッファ１１１には、コード１０４を実行する度に生成指示１１０が格納される。

ここでは、複数の生成指示１１０の各々を「vpadd zmm29, zmm0, [r8]」等のアセンブリ命令で識別する。例えば、「vpadd zmm30, zmm1, [r8+64]」で識別される生成指示１１０は、x86_64のアセンブリ命令「vpadd zmm30, zmm1, [r8+64]」と等価な処理を行うArmv8-Aの機械語を生成する指示を表す。

また、FIFOバッファ１１１に生成指示１１０が格納される順序は、コード１０４を実行する順序と同一である。図２７（ｂ）～（ｅ）においては、最初にアセンブリ命令「vpadd zmm29, zmm0, [r8]」に係る生成指示１１０がFIFOバッファ１１１に格納された場合を想定している。その後に、「vpadd zmm30, zmm1, [r8+64]」、「vpadd zmm31, zmm2, [r8+128]」、及び「vpadd zmm29, zmm3, [r8+192]」の各々に係る生成指示１１０がFIFOバッファ１１１に格納される。

再び図２６（ｂ）を参照する。

if文１０２は、FIFOバッファ１１１に格納されている生成指示１１０が示すアセンブリ命令の種類が、ニーモニック関数vpaddの種類と異なるかを判定する文である。なお、アセンブリ命令の種類は、アセンブリ命令の名前とオペランドの型との組である。そして、ニーモニック関数の種類は、ニーモニック関数の名前と引数の型との組である。

例えば、FIFOバッファ１１１に格納されている生成指示１１０が示すアセンブリ命令が「vpadd zmm29, zmm0, [r8]」であるとする。この場合は、生成指示１１０が示すアセンブリ命令の名前とニーモニック関数vpaddの名前「vpadd」とが一致する。また、ニーモニック関数vpaddの第１～第３オペランドの型は、それぞれZmmReg型、ZmmReg型、memOperand型である。これらの型は、アセンブリ命令「vpadd zmm29, zmm0, [r8]」の第１～第３オペランドの型と一致する。よって、この場合は、アセンブリ命令「vpadd zmm29, zmm0, [r8]」の種類は、ニーモニック関数vpaddの種類と同じということになる。

そして、if文１０２の判定結果に応じ、genJitCodeOfFifo関数１０３とコード１０４のいずれか一方が実行される。

なお、本実施形態では、FIFOバッファ１１１に複数の生成指示１１０が格納されている場合、格納されている全ての生成指示１１０が示すアセンブリ命令の種類は全て同一となる。よって、if文１０２は、複数の生成指示１１０のうちのいずれかのアセンブリ命令の種類がニーモニック関数vpaddの種類と異なるかを判定することになる。

図２８（ａ）は、ret関数１１３の定義の一例を示すC++の疑似ソースコードである。

ret関数１１３は、x86_64アーキテクチャの命令セットに含まれるアセンブリ命令「ret」と等価な処理を行うArmv8-Aの機械語を生成するニーモニック関数である。

このret関数１１３を呼び出すと、if文１１４の判定結果に応じて、genJitCodeOfFifo関数１０３とコード１１５のいずれか一方が実行される。

if文１１４は、FIFOバッファ１１１に格納されている生成指示１１０が示すアセンブリ命令の種類が、ニーモニック関数retの種類と異なるかを判定する文である。

そして、コード１１５は、アセンブリ命令「ret」の生成指示１１０をFIFOバッファ１１１に格納するコードである。その生成指示１１０は、x86_64のアセンブリ命令「ret」と等価な処理を行うArmv8-Aの機械語を生成する指示である。

図２８（ｂ）は、アセンブリ命令「ret」の生成指示１１０が格納されたFIFOバッファ１１１の模式図である。

前述のように、本実施形態では、FIFOバッファ１１１には同一種類のアセンブリ命令に係る生成指示１１０のみが格納される。そのため、アセンブリ命令「ret」に係る生成指示１１０と、アセンブリ命令「vpadd」に係る生成指示１１０とがFIFOバッファ１１１に共存することはない。

図２９は、genJitCodeOfFifo関数１０３の定義の一例を示すC++の疑似ソースコードである。

図２９に示すように、genJitCodeOfFifo関数１０３は、if文１１７において変数instTypeの内容を判定し、その内容に応じた処理を実行する。変数instTypeは、FIFOバッファ１１１にある生成指示１１０が示すアセンブリ命令の名前とそのオペランドの型とを示す変数である。

例えば、「vpadd zmm30, zmm1, [r8+64]」の生成指示１１０の場合、アセンブリ命令の名前「vpadd」が変数instTypeに格納される。更に、第１オペランド（zmm30）及び第２オペランド（zmm1）の各々の型である「ZmmReg」と、第３オペランドの型である「memOperand」が変数instTypeに格納される。

FIFOバッファ１１１にアセンブリ命令「vpadd」の生成指示１１０が格納されている場合にはif文１１７の評価式が真となり、translateVPADD関数１１８が呼び出される。

また、FIFOバッファ１１１にアセンブリ命令「ret」の生成指示１１０が格納されている場合には、if文１１９の評価式が真となり、translateRET関数１２０が呼び出される。

そして、genJitCodeOfFifo関数１０３は、上記のtranslateVPADD関数１１８やtranslateRET関数１２０の実行を終えると、コード１２１においてFIFOバッファ１１１の中身を空にする。

図３０は、本実施形態に係るtranslateVPADD関数１１８の定義の一例を示すC++の疑似ソースコードである。

translateVPADD関数１１８を呼び出すと、コード１２５において、変数「zSrc2」のクラス変数「index」にgetTmpIndexConsideringFifo関数の返り値が代入される。getTmpIndexConsideringFifo関数は、FIFOバッファ１１１にある複数の生成指示１１０の各々に係るアセンブリ命令のいずれもが使用しない第１のベクトルレジスタ３５のレジスタ番号を返す関数である。そのような第１のベクトルレジスタ３５が複数ある場合は、そのうちで最大のレジスタ番号をgetTmpIndexConsideringFifo関数が返す。

次いで、コード１２６においてstr関数が実行される。str関数は、Armv8-Aのアセンブリ命令「str」の機械語を生成するニーモニック関数である。ここでは、そのアセンブリ命令「str」の第１オペランドは、「zSrc2」に対応する第２のベクトルレジスタ４５である。そして、第２オペランドは、開発者が予め定めておいた「x9」で示される第２の汎用レジスタ４６に格納されているメモリアドレスである。

これにより、「zSrc2」に対応する第２のベクトルレジスタ４５に格納されているデータが、「x9」で示されるメモリアドレスに退避されることになる。

次いで、FIFOバッファ１１１にある生成指示１１０の個数だけforループが実行される。そのforループにおける変数「i」は、FIFOバッファ１１１にある生成指示１１０を特定する変数である。ここでは、FIFOバッファ１１１に最初に格納された生成指示１１０に対応する変数「i」の値を「0」とする。そして、２番目、３番目、…に対応する変数「i」の値をそれぞれ「1」、「2」、…とする。

ここで、i番目の生成指示１１０が示すアセンブリ命令「vpadd」の「memOperand」型の第３オペランド「memOp」のメンバ変数「offset」が「0」であるとする。この場合は、コード１２７において、「XReg」型の変数「xaddr」のクラス変数「index」に、i番目の生成指示１１０の変数「memOp」のクラス変数「index」が代入される。

一方、生成指示１１０が示すアセンブリ命令「vpadd」の「memOperand」型の第３オペランド「memOp」のメンバ変数「offset」が「0」ではないとする。

この場合は、コード１２８において、「XReg」型の変数「tmp」のクラス変数「index」に、変数「memOp」のクラス変数「index」の値が代入される。そして、コード１２９においてadd関数が実行される。add関数は、Armv8-Aのアセンブリ命令「add」の機械語を生成するニーモニック関数である。ここでは、そのアセンブリ命令「add」の第１オペランドは、開発者が予め定めておいた「x25」の第２の汎用レジスタ４６である。そして、第２オペランドは、変数「tmp」に対応した第２の汎用レジスタである。また、第３オペランドは、i番目の生成指示１１０の変数「memOp」のクラス変数「offset」が示すメモリオフセットである。

次いで、コード１３０において、変数「xaddr」のクラス変数「index」に、開発者が予め定めておいた値「25」を代入する。

上記のようにしてforループを終えると、コード１３１においてldr関数が実行される。ldr関数は、Armv8-Aのアセンブリ命令「ldr」の機械語を生成するニーモニック関数である。ここでは、そのアセンブリ命令「ldr」の第１オペランドは、「zSrc2」に対応する第２のベクトルレジスタ４５である。そして、第２オペランドは、変数「xaddr」で示される第２の汎用レジスタ４６に格納されているメモリアドレスである。

次に、コード１３２においてadd関数が実行される。このadd関数は、コード１２９と同様に、Armv8-Aのアセンブリ命令「add」の機械語を生成するニーモニック関数である。そのアセンブリ命令「add」の第１と第２オペランドは、それぞれZReg型の変数「zSdst」、「zSrc1」である。そして、第３オペランドは、コード１２５においてテンポラリレジスタのレジスタ番号が格納された変数「zSrc2」である。

その後、コード１３３においてldr関数が実行される。そのldr関数の引数は、コード１２６におけるstr関数の引数と同じである。これにより、「x9」で示されるメモリアドレスに退避されたデータが、「zSrc2」に対応する第２のベクトルレジスタ４５に復帰することになる。

以上により、translateVPADD関数１１８の処理を終える。

図３１は、translateVPADD関数１１８の実行例を示す模式図である。

図３１の例では、FIFOバッファ１１１に最初に「vpadd zmm29, zmm0, [r8]」の生成指示１１０が格納され、次に「vpadd zmm30, zmm1, [r8+64]」以降の三つのアセンブリ命令に係る生成指示１１０が格納されて場合を想定している。

この場合にtranslateVPADD関数１１８を実行すると、コード１２５のgetTmpIndexConsideringFifo関数によって値「28」が変数「zSrc2」に代入される。

次いで、コード１２６によってストア命令１４２の「str z28, [x9]」に対応した機械語が生成される。

そして、コード１３１のldr関数と、コード１３２のadd関数の各々に対応したアセンブリ命令「ldr」、「add」を含む命令列１４１ａ～１４１ｄの機械語が生成される。このうち、命令列１４１ｂ～１４１ｄにおいては、コード１２９のadd関数に対応したアセンブリ命令「add」も含まれる。

その後、コード１３３によってロード命令１４３の「ldr z28, [x9]」に対応した機械語が生成される。

これによれば、命令列１４１ａ～１４１ｄにおいて、「z28」の第２のベクトルレジスタ４５をテンポラリレジスタとして使用する。その「z28」に対応する「zmm28」の第１のベクトルレジスタ３５は、FIFOバッファ１１１の各生成指示１１０では使用されていない。

よって、「z28」の第２のベクトルレジスタ４５のデータを第２のメモリ４２に退避させるためのストア命令を全ての命令列１４１ａ～１４１ｄに追加する必要がない。同様に、そのデータを「z28」の第２のベクトルレジスタ４５に復帰させるためのロード命令を全ての命令列１４１ａ～１４１ｄに追加する必要もない。

これにより、本実施形態では命令列１４１ａ～１４１ｄの各々に無駄なストア命令とロード命令が追加されないため、命令列１４１ａ～１４１ｄの実行時間が長くなるのを抑制することができる。

図３２は、本実施形態に係る情報処理装置５０の機能構成図である。

なお、図３２において、第１～第３実施形態で説明したのと同じ要素にはこれらの実施形態におけるのと同じ符号を付し、以下ではその説明を省略する。

図３２に示すように、情報処理装置５０は、記憶部５１と制御部５２とを有する。

このうち、記憶部５１は、FIFOバッファ１１１を記憶する処理部である。

一方、制御部５２は、呼び出し部１５３、格納部１５４、判定部１５５、特定部１５６、決定部１５７、生成部１５８、及び出力部１５９を有する。これらの各部は、メモリ５０ｂとプロセッサ５０ｃとが協働してアセンブリ命令変換プログラム４９（図８参照）を実行することにより実現される。

このうち、呼び出し部１５３は、ニーモニック関数のvpadd関数１０１（図２６参照）やret関数１１３（図２８（ａ）参照）を呼び出す処理部である。

格納部１５４は、生成指示１１０をFIFOバッファ１１１に格納する処理部である。一例として、格納部１５４は、情報処理装置５０がコード１０４（図２６（ｂ）参照）やコード１１５（図２８（ａ）参照）を実行することにより実現される。

例えば、情報処理装置５０がコード１０４を実行する度に、vpadd関数１０１（図２６（ｂ）参照）の引数のオペランドが指定されたアセンブリ命令「vpadd」に係る生成指示１１０がFIFOバッファ１１１に格納される。また、情報処理装置５０がコード１１５を実行することにより、アセンブリ命令「ret」に係る生成指示１１０がFIFOバッファ１１１に格納される。

判定部１５５は、FIFOバッファ１１１に格納されている生成指示１１０が示すアセンブリ命令の種類が、呼び出し部１５３が呼び出したニーモニック関数の種類と異なるかを判定する処理部である。一例として、判定部１５５は、図２６（ｂ）のif文１０２と、図２８（ａ）のif文１１４により実現される。

特定部１５６は、FIFOバッファ１１１を参照することにより、複数の生成指示１１０の各々に係るアセンブリ命令のいずれもが使用しない第１のベクトルレジスタ３５を特定する処理部である。例えば、特定部１５６は、コード１２５（図３０参照）におけるgetTmpIndexConsideringFifo関数によって実現される。

決定部１５７は、特定部１５６が特定した第１のベクトルレジスタ３５に対応する第２のベクトルレジスタ４５を、命令列１４１ａ～１４１ｄの各々が使用するテンポラリレジスタとして決定する処理部である。一例として、決定部１５７は、図３０のコード１２５により実現される。そのコード１２５において変数「zSrc2」のクラス変数「index」に代入される値がテンポラリレジスタのレジスタ番号である。

生成部１５８は、FIFOバッファ１１１の生成指示１１０ごとに、生成指示１１０に係るアセンブリ命令の各々と等価な処理を行う命令列１４１ａ～１４１ｄ（図３１参照）の機械語を生成する処理部である。この例では、図３０のtranslateVPADD関数１１８によって生成部１５８が実現される。図３１を参照して説明したように、translateVPADD関数１１８は、ストア命令とロード命令とを全ての命令列１４１ａ～１４１ｄには追加しないため、命令数が増えるのを抑制することができる。

更に、生成部１５８は、命令列１４１ａの機械語列の最初に、テンポラリレジスタとして使用する第２のベクトルレジスタ４５のデータを第２のメモリ４２に退避させるストア命令１４２の機械語を追加する。この機能は、例えば図３０のコード１２６により実現される。

また、生成部１５８は、命令列１４１ｄの機械語列の最後に、当該データを元の第２のベクトルレジスタ４５に復帰させるロード命令１４３の機械語を追加する。この機能は、例えば図３０のコード１３３により実現される。

出力部１５９は、命令列１４１ａ～１４１ｄ、ストア命令１４２、及びロード命令１４３の各々の機械語列を外部に出力する処理部である。

図３３は、本実施形態に係るアセンブリ命令変換方法のフローチャートである。

まず、呼び出し部１５３がニーモニック関数を呼び出す（ステップＳ４１）。一例として、情報処理装置５０が、ニーモニック関数のvpadd関数１０１（図２６（ｂ）参照）やret関数１１３（図２８（ａ）参照）を呼び出す。

次に、判定部１５５が、FIFOバッファ１１１にある生成指示１１０のアセンブリ命令と、ステップＳ４１で呼び出されたニーモニック関数の各々の種類が異なるかどうかを判定する（ステップＳ４２）。このとき、判定部１５５は、FIFOバッファ１１１が空かどうかも判定する。

ここで、FIFOバッファ１１１が空であるか、又は生成指示１１０のアセンブリ命令とニーモニック関数の各々の種類が同一である場合（ステップＳ４２：否定）にはステップＳ４３に移る。

ステップＳ４３においては、格納部１５４が生成指示１１０をFIFOバッファ１１１に格納する。ステップＳ４１でニーモニック関数のvpadd関数１０１が呼ばれた場合、生成指示１１０は、アセンブリ命令「vpadd」と等価な処理を行うArmv8-Aのアセンブリ命令の機械語を生成する指示となる。また、ステップＳ４１でニーモニック関数のret関数１１３が呼ばれた場合、生成指示１１０は、アセンブリ命令「ret」と等価な処理を行うArmv8-Aのアセンブリ命令の機械語を生成する指示となる。

一方、FIFOバッファ１１１にある生成指示１１０のアセンブリ命令と、ステップＳ４１で呼び出したニーモニック関数の各々の種類が異なる場合（ステップＳ４２：肯定）にはステップＳ４４に移る。一例として、FIFOバッファ１１１に格納されている生成指示１１０が示すアセンブリ命令の名前「vpadd」である場合に、ステップＳ４１でニーモニック関数retが呼び出されたときにステップＳ４４に移る。

ステップＳ４４においては、特定部１５６が、FIFOバッファ１１１を参照することにより、複数の生成指示１１０の各々に係るアセンブリ命令のいずれもが使用しない第１のベクトルレジスタ３５を特定する。

次に、決定部１５７が、ステップＳ４５で特定した第１のベクトルレジスタ３５に対応する第２のベクトルレジスタ４５を、命令列１４１ａ～１４１ｄ（図３１）の各々が使用するテンポラリレジスタとして決定する（ステップＳ４５）。

次いで、生成部１５８が、FIFOバッファ１１１の生成指示１１０ごとに、生成指示１１０に係るアセンブリ命令の各々と等価な処理を行う命令列１４１ａ～１４１ｄ（図３１参照）の機械語を生成する（ステップＳ４６）。このとき、生成部１５８は、ストア命令とロード命令とを全ての命令列１４１ａ～１４１ｄには追加しないため、命令数が増えるのを抑制することができる。

更に、生成部１５８は、命令列１４１ａの機械語列の最初にストア命令１４２の機械語を追加し、命令列１４１ｄの機械語列の最後にロード命令１４３の機械語を追加する。

その後、情報処理装置５０がコード１２１（図２９参照）を実行することによりFIFOバッファ１１１を空にする。

次に、格納部１５４が、ステップＳ４１で呼び出したニーモニック関数に係る生成指示１１０をFIFOバッファ１１１に格納する（ステップＳ４７）。

この後は、アセンブリ命令変換プログラム４９のソースコードに記述されている全てのニーモニック関数を呼び出し部１５３が呼び出すまでステップＳ４１～Ｓ４７を繰り返す。

次に、情報処理装置５０が、genJitCodeOfFifo関数１０３（図２９参照）を実行することによりFIFOバッファ１１１に残っている生成指示１１０の機械語を生成し、FIFOバッファ１１１を空にする（ステップＳ４８）。

次いで、出力部１５９が、命令列１４１ａ～１４１ｄ、ストア命令１４２、及びロード命令１４３の各々の機械語列を外部に出力する（ステップＳ４９）。

上記した本実施形態によれば、決定部１５７が決定したテンポラリレジスタに対応する第１のベクトルレジスタ３５は、FIFOバッファ１１１にある複数の生成指示１１０に係るアセンブリ命令のいずれも使用していない。

そのため、生成部１５８が、テンポラリレジスタのデータを第２のメモリ４２に退避させるストア命令と、そのデータをテンポラリレジスタに復帰させるためのロード命令とを各命令列１４１ａ～１４１ｄに含める必要がない。その結果、これらのストア命令やロード命令によって各命令列１４１ａ～１４１ｄが無駄に長くなるのを抑制することができる。

（第５実施形態）
第４実施形態では、図３０を参照して説明したように、無駄なストア命令やロード命令を生成しないようにtranslateVPADD関数１１８を定義した。

これに対し、本実施形態では、以下のようにtranslateVPADD関数１１８を定義することにより、第２実施形態と同様の処理を実現する。

図３４は、本実施形態に係るtranslateVPADD関数１１８で実現される処理を示す模式図である。

図３４では、x86_64のアセンブリ命令と等価な処理を実現するArmv8-Aの機械語を生成するニーモニック関数１００ａ、１００ｂがこの順に呼ばれたとする。最初に呼ばれたvpadd関数１００ａは、x86_64のアセンブリ命令「vpadd zmm29, zmm0, [r8]」と等価な処理を実現するArmv8-Aの機械語を生成するニーモニック関数である。そして、次に呼ばれたvpadd関数１００ｂは、x86_64のアセンブリ命令「vpadd zmm30, zmm1, [r8+64]」と等価な処理を実現するArmv8-Aの機械語を生成するニーモニック関数である。

この場合、情報処理装置５０は、最初に呼ばれたニーモニック関数１００ａに対応した生成指示１１０をFIFOバッファ１１１に格納する。

そして、translateVPADD関数１１８は、FIFOバッファ１１１を参照して、各vpadd関数１００ａ、１００ｂについて図３５の条件Aと条件Bの両方が満たされるかを判断する。

図３５は、translateVPADD関数１１８が判定する条件を示す模式図である。この条件Aと条件Bは、図１６におけるのと等価な条件である。

このうち、条件Aは、ニーモニック関数１００ｂに対応したアセンブリ命令vpaddのデスティネーションレジスタが、ニーモニック関数１００ａに対応したアセンブリ命令vpaddのソースレジスタと異なるという条件である。

そして、条件Bは、ニーモニック関数１００ｂに対応したアセンブリ命令vpaddのデスティネーションレジスタとソースレジスタとが異なるという条件である。

図３４の例では条件Aと条件Bの両方が満たされている。この場合、translateVPADD関数１１８は、vpadd関数１００ｂのデスティネーションレジスタに対応する第２のベクトルレジスタ４５をテンポラリレジスタとして決定する。そして、translateVPADD関数１１８は、vpadd関数１００ａのアセンブリ命令に対応したArmv8-Aの命令列１４１ａにそのテンポラリレジスタを使用し、該命令列１４１ａの機械語を生成する。

また、translateVPADD関数１１８は、そのテンポラリレジスタのデータを第２のメモリ４２に退避させるストア命令と、該データをテンポラリレジスタに復帰させるためのロード命令とを生成しない。これにより。ストア命令とロード命令によって命令列が無駄に長くなるのを抑制することができる。

図３６は、上記の処理を実現する本実施形態に係るtranslateVPADD関数１１８の定義の一例を示すC++の疑似ソースコードである。なお、図３６において、第４実施形態で説明した型や変数の説明は省略する。

このtranslateVPADD関数１１８を呼び出すと、コード１７１において、変数「zSrc2」のクラス変数「index」にgetTmpIndexConsideringFifo関数の返り値が代入される。

本実施形態に係るgetTmpIndexConsideringFifo関数はテンポラリレジスタのレジスタ番号を返す関数であるが、その返り値は、図３５の条件Aと条件Bの両方が満たされるかどうかに応じて異なる。

条件Aと条件Bの両方が満たされる場合は、getTmpIndexConsideringFifo関数は、vpadd関数１００ｂに対応するアセンブリ命令のデスティネーションレジスタのレジスタ番号を返す。図３４の例では、そのレジスタ番号は「30」となる。

一方、条件Aと条件Bの両方が満たされない場合は、getTmpIndexConsideringFifo関数は、FIFOバッファ１１１にある生成指示１１０とvpadd関数１００ｂとの両方で使用されていないレジスタ番号を返す。そのレジスタ番号が複数ある場合、getTmpIndexConsideringFifo関数は、複数のレジスタ番号のうちの最大値を返す。

次に、コード１７２において、isTmpCanDiscard関数の値を変数「TmpCanDiscard」に代入する。isTmpCanDiscard関数は、条件Aと条件Bの両方が満たされる場合に「true」を返し、そうでない場合に「false」を返す関数である。

そして、変数「TmpCanDiscard」に「false」が代入された場合には、コード１７３においてstr関数が実行される。第４実施形態で説明したように、str関数は、Armv8-Aのアセンブリ命令「str」の機械語を生成するニーモニック関数である。そのアセンブリ命令「str」の第１オペランド「zSrc2」には、getTmpIndexConsideringFifo関数が決定したテンポラリレジスタのレジスタ番号が格納されている。そして、第２オペランドは、開発者が予め定めておいた「x9」で示される第２の汎用レジスタ４６に格納されているメモリアドレスである。

これにより、getTmpIndexConsideringFifo関数が決定したテンポラリレジスタに格納されているデータが、「x9」で示されるメモリアドレスに退避されることになる。

ここで、FIFOバッファ１１１にある生成指示１１０が示すアセンブリ命令「vpadd」の「memOperand」型の第３オペランド「memOp」のメンバ変数「offset」が「0」であるとする。この場合は、コード１７４において、「XReg」型の変数「xaddr」のクラス変数「index」に、生成指示１１０の変数「memOp」のクラス変数「index」が代入される。

この場合は、コード１７５において、「XReg」型の変数「tmp」のクラス変数「index」に、変数「memOp」のクラス変数「index」の値が代入される。そして、コード１７６においてadd関数が実行される。このadd関数に対応したアセンブリ命令「add」の第１オペランドは、開発者が予め定めておいた「x25」の第２の汎用レジスタ４６である。そして、第２オペランドは、変数「tmp」に対応した第２の汎用レジスタである。また、第３オペランドは、生成指示１１０の変数「memOp」のクラス変数「offset」が示すメモリアドレスである。

次いで、コード１７７において、変数「xaddr」のクラス変数「index」に、開発者が予め定めておいた値「25」を代入する。

その後、コード１７８においてldr関数が実行される。このldr関数に対応したアセンブリ命令「ldr」の第１オペランドは、「zSrc2」に対応する第２のベクトルレジスタ４５である。そして、第２オペランドは、変数「xaddr」で示される第２の汎用レジスタ４６に格納されているメモリアドレスである。

次に、コード１７９においてadd関数が実行される。このadd関数に対応したアセンブリ命令「add」の第１及び第２オペランドは、それぞれZReg型の変数「zSdst」、「zSrc1」である。そして、第３オペランドは、コード１７１においてテンポラリレジスタのレジスタ番号が格納された変数「zSrc2」である。

その後、変数「TmpCanDiscard」に「false」が代入された場合には、コード１８０においてldr関数が実行される。そのldr関数の引数は、コード１７３におけるstr関数の引数と同じである。これにより、「x9」で示されるメモリアドレスに退避されたデータが、「zSrc2」に対応する第２のベクトルレジスタ４５に復帰することになる。

以上により、本実施形態に係るtranslateVPADD関数１１８の処理を終える。

次に、本実施形態に係る情報処理装置５０の機能構成について説明する。

図３７は、本実施形態に係る情報処理装置５０の機能構成図である。なお、図３７において、第１～第４実施形態で説明したのと同じ要素にはこれらの実施形態におけるのと同じ符号を付し、以下ではその説明を省略する。

図３７に示すように、情報処理装置５０の制御部５２は、第４実施形態で説明した呼び出し部１５３と格納部１５４の他に、判定部１８１、決定部１８２、生成部１８３、及び出力部１８４を有する。

このうち、呼び出し部１５３は、図３４のニーモニック関数１００ａ、１００ｂをこの順に呼び出す処理部である。

そして、格納部１５４は、これらのニーモニック関数１００ａ、１００ｂの各々に係る生成指示１１０をFIFOバッファ１１１に格納する処理部である。

判定部１８１は、FIFOバッファ１１１に格納されている生成指示１１０に係るニーモニック関数１００ａと、新たに取得したニーモニック関数１００ｂとに基づいて、図３５の条件A、Bの両方が満たされるかを判定する処理部である。

決定部１８２は、条件A、Bの両方が満たされる場合に、ニーモニック関数１００ｂのデスティネーションレジスタに対応した第２のベクトルレジスタ４５を、命令列１４１ａにおけるテンポラリレジスタとして決定する処理部である。

生成部１８３は、決定部１８２が決定したテンポラリレジスタを使用した命令列１４１ａの機械語列を生成する処理部である。そして、出力部１８４は、その機械語列を外部に出力する処理部である。

図３８及び図３９は、本実施形態に係るアセンブリ命令変換方法のフローチャートである。

まず、呼び出し部１５３がニーモニック関数を呼び出す（ステップＳ５１）。例えば、情報処理装置５０が、ニーモニック関数のvpadd関数１０１（図２６（ｂ）参照）やret関数１１３（図２８（ａ）参照）を呼び出す。

次に、判定部１８１が、FIFOバッファ１１１が空かどうかを判定する（ステップＳ５２）。

FIFOバッファ１１１が空である場合（ステップＳ５２：肯定）はステップＳ５３に移る。ステップＳ５３においては、格納部１５４が、ステップＳ５１で取得したニーモニック関数１００ａに係る生成指示１１０をFIFOバッファ１１１に格納する。

一方、FIFOバッファ１１１が空ではない場合（ステップＳ５２：否定）はステップＳ５４に移る。ステップＳ５４においては、判定部１８１が、FIFOバッファ１１１にある生成指示１１０のアセンブリ命令と、ステップＳ５１で呼び出されたニーモニック関数の各々の種類が異なるかを判定する。

ここで、FIFOバッファ１１１にある生成指示１１０のアセンブリ命令と、ステップＳ５１で呼び出されたニーモニック関数の各々の種類が同じ場合（ステップＳ５４：否定）はステップＳ５６に移る。

ステップＳ５６においては、判定部７１が、図３５の条件Aと条件Bの両方が満たされるかを判定する。

ここで、条件Aと条件Bの両方が満たされない場合（ステップＳ５６：否定）にはステップＳ５５に移る。

ステップＳ５５においては、図３６のコード１７８、１７９が実行されることにより、アセンブリ命令「ldr」、「add」の各々の機械語列が生成される。更に、FIFOバッファ１１１の生成指示１１０においてメモリオフセットが「0」でない場合には、コード１７６が実行されることでアセンブリ命令「add」の機械語列も生成される。

また、このように条件Aと条件Bの両方が満たされない場合には、図３６のコード１７３とコード１８０とが実行されることで、ストア命令「str」とロード命令「ldr」の各々の機械語列も生成される。ステップＳ５５では、これらのストア命令とロード命令によって命令数が増え、命令数の削減が実行されない。

なお、FIFOバッファ１１１にある生成指示１１０のアセンブリ命令と、ステップＳ５１で呼び出されたニーモニック関数の各々の種類が異なる場合（ステップＳ５４：肯定）もステップＳ５５を実行する。

一方、条件Aと条件Bの両方が満たされる場合（ステップＳ５６：肯定）にはステップＳ５７に移る。

ステップＳ５７においては、決定部１８２が、ニーモニック関数１００ｂのデスティネーションレジスタに対応した第２のベクトルレジスタ４５を、命令列１４１ａにおけるテンポラリレジスタとして決定する。

次に、生成部１８３が、ステップＳ５７で決定部１８２が決定したテンポラリレジスタを使用した命令列１４１ａの機械語列を生成する（ステップＳ５８）。

上記のようにしてステップＳ５５又はステップＳ５８を終えた後はステップＳ５９に移る。

ステップＳ５９においては、格納部１５４がFIFOバッファ１１１を空にする。

次いで、格納部１５４が、ステップＳ５１で呼び出したニーモニック関数に係る生成指示１１０をFIFOバッファ１１１に格納する（ステップＳ６０）。

この後は、アセンブリ命令変換プログラム４９（図８参照）のソースコードに記述されている全てのニーモニック関数を呼び出し部１５３が呼び出すまでステップＳ５１～Ｓ６０を繰り返す。

次に、生成部１８３が、FIFOバッファ１１１に残っている生成指示１１０が示すアセンブリ命令と等価な処理をするArmv8-Aの命令列の機械語列を生成する（ステップＳ６１）。

その後に、出力部１８４が、ステップＳ５５、Ｓ５８、Ｓ６１の各々で生成した機械語列が記述された出力ファイルを外部に出力する（ステップＳ６２）。

上記した本実施形態によれば、判定部１８１が、図３５の条件Aと条件Bの両方が満たされるかを判定する。そして、条件Aと条件Bの両方が満たされる場合に、決定部１８２が、ニーモニック関数１００ｂのデスティネーションレジスタに対応した第２のベクトルレジスタ４５を命令列１４１ａにおけるテンポラリレジスタとして決定する。そのテンポラリレジスタのデータは後続のニーモニック関数１００ａに係るアセンブリ命令によって上書きされる。そのため、当該データを第２のメモリ４２に退避させるストア命令と、当該データをテンポラリレジスタに復帰させるロード命令の各々の機械語を生成部１８３が生成する必要がない。これにより、本実施形態では命令列１４１ａが無駄に長くなるのを抑制することができる。

以上、各実施形態について詳細に説明したが、各実施形態は上記に限定されない。

図４０（ａ）～（ｃ）は、第１実施形態と第２実施形態の他の例について説明するための模式図である。

図４０（ａ）は、前述の第１実施形態や第２実施形態で説明したように、x86_64用のアセンブリファイル６５からArmv8-Aのアセンブリファイル６７を情報処理装置５０が生成する場合の模式図である。

これに代えて、図４０（ｂ）に示すように、x86_64用の実行ファイルからx86_64用の逆アセンブラが生成したアセンブリ命令を情報処理装置５０が取得してもよい。この場合は、第１実施形態又は第２実施形態に従って情報処理装置５０がArmv8-Aの命令列を生成し、該命令列をArmv8-A用のアセンブラがArmv8-A用の実行ファイルに変換する。

また、図４０（ｃ）に示すように、第１のターゲットマシン３０（図６参照）の第１のメモリ３２に格納されているx86_64用の機械語を変換元として使用してもよい。この場合は、その機械語からx86_64用の逆アセンブラが生成したアセンブリ命令を情報処理装置５０が取得する。そして、第１実施形態又は第２実施形態に従って情報処理装置５０がArmv8-Aの命令列を生成し、該命令列をArmv8-A用のアセンブラがArmv8-A用の機械語に変換して第２のターゲットマシン４０（図７参照）の第２のメモリ４２に格納する。

１、３…アセンブリファイル、２…変換テーブル、３１…第１のプロセッサ、３２…第１のメモリ、３３…第１の計算コア、３４…第１のレジスタファイル、３５…第１のベクトルレジスタ、３６…第１の汎用レジスタ、４０…第２のターゲットマシン、４１…第２のプロセッサ、４２…第２のメモリ、４３…第２の計算コア、４４…第２のレジスタファイル、４５…第２のベクトルレジスタ、４６…第２の汎用レジスタ、５０…情報処理装置、５１…記憶部、５２…制御部、５３…取得部、５４…格納部、５５…判定部、５６…特定部、５７…決定部、５８…生成部、５９…出力部、６０…FIFOバッファ、６１…変換テーブル、６５、６７…アセンブリファイル、６６…生成指示、７１…判定部、７２…決定部、７３…生成部、７４…出力部、８０…取得部、８１…判定部、８２…リスト制御部、８３…決定部、８４…生成部、８５…出力部、８７…テンポラリレジスタリスト、１１０…生成指示、１１１…FIFOバッファ、１５３…呼び出し部、１５４…格納部、１５５…判定部、１５６…特定部、１５７…決定部、１５８…生成部、１５９…出力部、１８１…判定部、１８２…決定部、１８３…生成部、１８４…出力部。

Claims

第１の命令セットのアセンブリ命令と等価な処理を行う第２の命令セットの命令列の生成を指示する生成指示を、複数の前記アセンブリ命令ごとに記憶領域に複数格納し、
前記記憶領域を参照することにより、複数の前記生成指示の各々に係る前記アセンブリ命令のいずれもが使用しない第１のレジスタを特定し、
前記第１のレジスタに対応する前記第２の命令セットの第２のレジスタを、前記命令列の各々におけるテンポラリレジスタとして決定し、
前記テンポラリレジスタを使用した前記命令列を生成する、
処理をコンピュータに実行させるためのアセンブリ命令変換プログラム。
各々の前記命令列は、前記第２のレジスタのデータをメモリに退避させるストア命令と、前記データを前記第２のレジスタに復帰させるロード命令とを含まないことを特徴とする請求項１に記載のアセンブリ命令変換プログラム。
複数の前記命令列の最初に、前記第２のレジスタのデータをメモリに退避させるストア命令を追加し、
複数の前記命令列の最後に、前記データを前記第２のレジスタに復帰させるロード命令を追加する、
処理を前記コンピュータに実行させるための請求項１に記載のアセンブリ命令変換プログラム。
第１の命令セットに含まれる連続した第１のアセンブリ命令と第２のアセンブリ命令のうち、先行の前記第１のアセンブリ命令と等価な処理を行う第２の命令セットの命令列の生成を指示する生成指示を記憶領域に格納し、
前記第２のアセンブリ命令のデスティネーションレジスタが、前記生成指示に係る前記第１のアセンブリ命令のソースレジスタと異なり、かつ前記第２のアセンブリ命令のソースレジスタが前記デスティネーションレジスタと異なる場合に、前記デスティネーションレジスタに対応した前記第２の命令セットのレジスタを、前記命令列におけるテンポラリレジスタとして決定し、
前記テンポラリレジスタを使用した前記命令列を生成する、
処理をコンピュータに実行させるためのアセンブリ命令変換プログラム。
第１の命令セットのアセンブリ命令が記述されたアセンブリファイルを取得し、
前記アセンブリファイルに第１のレジスタを指定するコードがある場合に、前記第１のレジスタに対応する第２の命令セットの第２のレジスタを、前記アセンブリ命令と等価な処理を行う前記第２の命令セットの命令列におけるテンポラリレジスタとして決定し、
前記テンポラリレジスタが設定された前記命令列を出力する、
処理をコンピュータに実行させるためのアセンブリ命令変換プログラム。
前記アセンブリファイルに前記コードがある場合に前記第１のレジスタの名前をリストに追加し、
前記リストに前記名前がある場合に、前記第２のレジスタを前記テンポラリレジスタとして決定する、
処理を前記コンピュータに実行させるための請求項５に記載のアセンブリ命令変換プログラム。
前記アセンブリ命令において前記第１のレジスタがデスティネーションレジスタとして指定されている場合に、前記リストから前記名前を削除する、
処理を前記コンピュータに実行させるための請求項６に記載のアセンブリ命令変換プログラム。
第１の命令セットのアセンブリ命令と等価な処理を行う第２の命令セットの機械語を生成する関数を複数回呼び出し、
前記関数を呼び出す度に、前記機械語の生成を指示する生成指示を前記アセンブリ命令ごとに記憶領域に複数格納し、
前記記憶領域を参照することにより、複数の前記生成指示の各々に係る前記アセンブリ命令のいずれもが使用しない第１のレジスタを特定し、
前記第１のレジスタに対応する前記第２の命令セットの第２のレジスタを、前記機械語におけるテンポラリレジスタとして決定し、
前記関数が、前記生成指示ごとに、前記テンポラリレジスタを使用した前記機械語を生成する、
処理をコンピュータに実行させるためのアセンブリ命令変換プログラム。
コンピュータが、
第１の命令セットのアセンブリ命令と等価な処理を行う第２の命令セットの命令列の生成を指示する生成指示を、複数の前記アセンブリ命令ごとに記憶領域に複数格納し、
前記記憶領域を参照することにより、複数の前記生成指示の各々に係る前記アセンブリ命令のいずれもが使用しない第１のレジスタを特定し、
前記第１のレジスタに対応する前記第２の命令セットの第２のレジスタを、前記命令列の各々におけるテンポラリレジスタとして決定し、
前記テンポラリレジスタを使用した前記命令列を生成する、
ことを特徴とするアセンブリ命令変換方法。
第１の命令セットのアセンブリ命令と等価な処理を行う第２の命令セットの命令列の生成を指示する生成指示を、複数の前記アセンブリ命令ごとに記憶領域に複数格納する格納部と、
前記記憶領域を参照することにより、複数の前記生成指示の各々に係る前記アセンブリ命令のいずれもが使用しない第１のレジスタを特定する特定部と、
前記第１のレジスタに対応する前記第２の命令セットの第２のレジスタを、前記命令列の各々におけるテンポラリレジスタとして決定する決定部と、
前記テンポラリレジスタを使用した前記命令列を生成する生成部と、
を有することを特徴とする情報処理装置。