CN108027733B - 在目标字段中存储无效 - Google Patents

在目标字段中存储无效 Download PDF

Info

Publication number
CN108027733B
CN108027733B CN201680054479.4A CN201680054479A CN108027733B CN 108027733 B CN108027733 B CN 108027733B CN 201680054479 A CN201680054479 A CN 201680054479A CN 108027733 B CN108027733 B CN 108027733B
Authority
CN
China
Prior art keywords
instruction
instructions
memory
block
store
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680054479.4A
Other languages
English (en)
Other versions
CN108027733A (zh
Inventor
D·C·伯格
A·L·史密斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN108027733A publication Critical patent/CN108027733A/zh
Application granted granted Critical
Publication of CN108027733B publication Critical patent/CN108027733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/3016Decoding the operand specifier, e.g. specifier format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3858Result writeback, i.e. updating the architectural state or memory
    • G06F9/38585Result writeback, i.e. updating the architectural state or memory with result invalidation, e.g. nullification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/3648Software debugging using additional hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/3648Software debugging using additional hardware
    • G06F11/3656Software debugging using additional hardware using a specific debug interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0862Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • G06F12/1009Address translation using page tables, e.g. page table structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4204Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
    • G06F13/4221Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7867Architectures of general purpose stored program computers comprising a single central processing unit with reconfigurable architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8007Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors single instruction multiple data [SIMD] multiprocessors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/22Microcontrol or microprogram arrangements
    • G06F9/26Address formation of the next micro-instruction ; Microprogram storage or retrieval arrangements
    • G06F9/262Arrangements for next microinstruction selection
    • G06F9/268Microinstruction selection not based on processing results, e.g. interrupt, patch, first cycle store, diagnostic programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30021Compare instructions, e.g. Greater-Than, Equal-To, MINMAX
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30043LOAD or STORE instructions; Clear instruction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30047Prefetch instructions; cache control instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • G06F9/30058Conditional branch instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30072Arrangements for executing specific machine instructions to perform conditional operations, e.g. using predicates or guards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/30087Synchronisation or serialisation instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/3009Thread control instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30101Special purpose registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30105Register structure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/3012Organisation of register space, e.g. banked or distributed register file
    • G06F9/30138Extension of register space, e.g. register cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/3016Decoding the operand specifier, e.g. specifier format
    • G06F9/30167Decoding the operand specifier, e.g. specifier format of immediate specifier, e.g. constants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30181Instruction operation extension or modification
    • G06F9/30189Instruction operation extension or modification according to execution mode, e.g. mode flag
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/32Address formation of the next instruction, e.g. by incrementing the instruction counter
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/345Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/35Indirect addressing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3802Instruction prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3802Instruction prefetching
    • G06F9/3804Instruction prefetching for branches, e.g. hedging, branch folding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3818Decoding for concurrent execution
    • G06F9/3822Parallel decoding, e.g. parallel decode units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3824Operand accessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3824Operand accessing
    • G06F9/3826Bypassing or forwarding of data results, e.g. locally between pipeline stages or within a pipeline stage
    • G06F9/3828Bypassing or forwarding of data results, e.g. locally between pipeline stages or within a pipeline stage with global bypass, e.g. between pipelines, between clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3824Operand accessing
    • G06F9/383Operand prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3838Dependency mechanisms, e.g. register scoreboarding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3842Speculative instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3842Speculative instruction execution
    • G06F9/3848Speculative instruction execution using hybrid branch prediction, e.g. selection between prediction techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3851Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution from multiple instruction streams, e.g. multistreaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3853Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution of compound instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3856Reordering of instructions, e.g. using queues or age tags
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3858Result writeback, i.e. updating the architectural state or memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3867Concurrent instruction execution, e.g. pipeline, look ahead using instruction pipelines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units
    • G06F9/3889Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units controlled by multiple instructions, e.g. MIMD, decoupled access or execute
    • G06F9/3891Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units controlled by multiple instructions, e.g. MIMD, decoupled access or execute organised in groups of units sharing resources, e.g. clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/466Transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/526Mutual exclusion algorithms
    • G06F9/528Mutual exclusion algorithms by using speculative mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0811Multiuser, multiprocessor or multiprocessing cache systems with multilevel cache hierarchies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0875Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with dedicated cache, e.g. instruction or stack
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/45Caching of specific data in cache memory
    • G06F2212/452Instruction code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/60Details of cache memory
    • G06F2212/602Details relating to cache prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/60Details of cache memory
    • G06F2212/604Details relating to cache allocation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/62Details of cache specific to multiprocessor cache arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/3012Organisation of register space, e.g. banked or distributed register file
    • G06F9/3013Organisation of register space, e.g. banked or distributed register file according to data content, e.g. floating-point registers, address registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/32Address formation of the next instruction, e.g. by incrementing the instruction counter
    • G06F9/321Program or instruction counter, e.g. incrementing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/355Indexed addressing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/355Indexed addressing
    • G06F9/3557Indexed addressing using program counter as base address
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Executing Machine-Instructions (AREA)
  • Advance Control (AREA)

Abstract

公开了用于使在无效指令的目标字段中标识的存储器存储指令无效的装置和方法。在所公开的技术的一些示例中,一种装置可以包括存储器和被配置为取回并且执行多个指令块的一个或多个基于块的处理器核。核之一可以包括至少部分基于接收无效指令而被配置为基于无效指令的目标字段来获取用于多个存储器访问指令中的存储器访问指令的指令标识的控制单元。使与指令标识相关联的存储器访问指令无效。存储器访问指令位于多个指令块中的第一指令块中。基于无效存储器访问指令,执行来自第一指令块的后续存储器访问指令。

Description

在目标字段中存储无效
背景技术
由于摩尔定律所预测的持续的晶体管扩展,微处理器已经从晶体管数的持续增加、集成电路成本、制造资本、时钟频率、以及能量效率中收益,而相关的处理器指令集架构(ISA)却很小变化。然而,从在过去40年里驱动半导体工业的光刻扩展实现的益处正在放缓或者甚至反转。精简指令集计算(RISC)架构已经成为处理器设计中的主导典范很多年。乱序超标量实现尚未在面积或性能方面展现出持续改进。因此,存在对于扩展性能改进的处理器ISA改进的足够机会。
发明内容
公开了用于配置、操作和编译用于基于块的处理器架构(BB-ISA)(包括显式数据图执行(EDGE)架构)的代码的方法、装置和计算机可读存储设备。所描述的用于例如改进处理器性能和/或减少能量消耗的解决方案的技术和工具可以单独实现,或者以彼此的各种组合来实现。如下面将更充分地描述的,所描述的技术和工具可以被实现在以下各项中:数字信号处理器、微处理器、专用集成电路(ASIC)、软处理器(例如,使用可重新配置逻辑被实现在现场可编程门阵列(FPGA)中的微处理器核)、可编程逻辑、或者其他适合的逻辑电路。如对于本领域的普通技术人员而言将容易地明显的,所公开的技术可以被实现在各种计算平台中,包括但不限于服务器、大型机、手机、智能电话、PDA、手持式设备、手持式计算机、触摸屏平板设备、平板计算机、可穿戴计算机、以及膝上型计算机。
在所公开的技术的一个示例中,一种基于块的处理器被配置为基于存储数据的硬件结构来执行指令块内的至少一个断言的指令,该数据指示存储器访问指令的相对顺序和/或将在与断言的指令相关联的条件满足(或不满足)时执行的存储器访问指令(例如,存储器存储指令)的总数。存储器访问指令的顺序可以通过加载/存储标识符(LSID)来指示。一旦块产生其所有输出(即,寄存器写入、存储器存储和至少一个分支指令),指令块可以被提交(即,它完成并且后续块可以被执行)。参考指令块中的断言的指令,存储器存储指令可以位于断言的指令的两个断言的执行路径中。然而,由于将仅执行断言的执行路径中的一个(基于指令条件是否满足),所以在非正在执行的断言的路径中的存储器访问指令(例如,存储器存储指令)必须在当前正在执行的断言的路径中被无效,以便考虑所有存储器访问指令并且提交断言的指令。
在一些示例中,编译器可以生成至少一个无效指令,无效指令可以用于使出现在断言的指令的非正在执行的断言的路径中的存储器访问指令无效。更具体地,无效指令可以指定目标字段中的存储器访问指令(例如,存储器存储指令)的LSID。无效指令的目标字段中的LSID可以用于使对应的存储器访问指令无效,好像存储器访问指令已经被执行。在一些示例中,无效指令可以在其目标字段中包括移位位和LSID掩码,使得可以通过使用移位位和LSID掩码来覆盖一定范围的LSID(例如,相同的LSID掩码可以基于移位位指定不同的LSID)。在一些示例中,无效指令可以包括两个目标字段,每个目标字段指定必须被无效的存储器访问指令的LSID。在一些示例中,代替生成无效指令,基于块的处理器可以检测出现在断言的指令的非正在执行部分(arm)中的存储器访问指令,并且可以继续执行断言的指令的剩余部分,好像非正在执行部分中的存储器访问指令已经被执行。在一些示例中,处理器可以使用计数器(例如,存储器访问指令的总计数),并且存储器访问指令可以通过递增计数器(并且在计数器达到指令块的存储器访问指令的总数时提交指令块)来被无效。
提供本发明内容以引入以在具体实施方式中下面进一步描述的简化形式的概念的选择。本发明内容不旨在标识要求保护的主题的关键特征或基本特征,其也不旨在用于限制要求保护的主题的范围。所公开的主题的前述和其他目标、特征以及优点将从参考附图进行的以下具体实施方式变得更加明显。
附图说明
图1示出了可以在所公开的技术的一些示例中使用的基于块的处理器核。
图2示出了可以在所公开的技术的一些示例中使用的基于块的处理器核。
图3示出了根据所公开的技术的某些示例的多个指令块。
图4示出了可以在所公开的技术的一些示例中使用的源代码和指令块的部分。
图5示出了可以在所公开的技术的一些示例中使用的基于块的处理器头部和指令。
图6是示出当指令块被映射、执行和引退(retire)时指派给指令块的多个状态的状态图。
图7示出了可以在所公开的技术的一些示例中使用的多个指令块和处理器核。
图8示出了可以在所公开的技术的某些示例中使用的使用移位位和LSID掩码的示例无效指令。
图9示出了可以在所公开的技术的某些示例中使用的用于使多个存储指令无效的示例LSID掩码。
图10示出了可以在所公开的技术的某些示例中使用的在目标字段中具有两个单独的LSID的示例无效指令。
图11A-11D示出了可以在所公开的技术的某些示例中使用的具有存储指令无效的示例控制流程图。
图12-13是概述可以在所公开的技术的某些示例中使用的使存储器访问指令无效的示例方法的流程图。
图14是示出用于实现所公开的技术的一些实施例的合适的计算环境的框图。
具体实施方式
I.一般考虑
在未旨在以任何方式进行限制的代表性实施例的上下文中阐述了本公开内容。
如在本申请中所使用的,除非上下文清楚地指明,否则单数形式“一”、“一种”和“该”包括复数形式。此外,术语“包括”意味着“包含”。而且,术语“耦合的”涵盖机械的、电的、磁性的、光学的以及将多个项耦合或链接在一起的其他实际方式,并且不排除耦合项之间的中间元件的存在。另外,如在此所使用的,术语“和/或”意味着短语中的任何一项或多项的组合。
在此所描述的系统、方法和装置不应当以任何方式被解释为限制性的。相反,本公开涉及彼此单独并且以各种组合和子组合的各种所公开的实施例的所有新颖和非显而易见的特征和方面。所公开的系统、方法和装置既不限于任何特定方面或者特征或者其组合,所公开的内容和方法也不要求任何一个或多个特定优点存在或者问题被解决。此外,所公开的实施例的任何特征或者方面可以彼此以各种组合和子组合被使用。
虽然为了方便呈现而以特定顺序的次序描述所公开的方法中的一些方法的操作,但是应当理解,除非特定排序由下面阐述的特定语言所要求,否则说明书的这种方式涵盖重新布置。例如,顺序地描述的操作可以在一些情况下重新布置或者并行地执行。此外,出于简单的缘故,附图可能未示出所公开的内容和方法可以结合其他内容和方法使用的各种方式。此外,说明书有时使用类似“产生”、“生成”、“显示”、“接收”、“发射”、“验证”、“执行”和“发起”的术语来描述所公开的方法。这些术语是所执行的实际操作的高层描述。对应于这些术语的实际操作将取决于特定实现而变化并且是由本领域的普通技术人员容易地可辨别的。
参考本公开的装置或者方法在此所呈现的操作理论、科学原理或者其他理论描述已经出于更好的理解的目的而被提供,并且不旨在范围方面是限制性的。所附的权利要求中的装置和方法不限于以由这样的操作理论所描述的方式实现的那些装置和方法。
所公开的方法中的任一方法可以被实现为被存储在一个或多个计算机可读介质(例如,计算机可读介质(诸如一个或多个光学介质光盘、易失性存储器部件(诸如DRAM或SRAM))或非易失性存储器部件(诸如硬盘驱动器))上并且被执行在计算机(例如,任何商业可获得的计算机,包括智能电话或者包括计算硬件的其他移动设备)上的计算机可执行指令。用于实现所公开的技术的计算机可执行指令中的任一指令以及在所公开的实施例的实现期间创建和使用的任何数据可以被存储在一个或多个计算机可读介质(例如,计算机可读存储介质)上。计算机可执行指令可以是例如专用软件应用或者经由网络浏览器或者其他软件应用(诸如远程计算应用)访问或者下载的软件应用的一部分。这样的软件可以例如在单个本地计算机(例如,具有在任何适合的商业可获得的计算机上执行的通用处理器和/或基于块的处理器)上被执行,或者在使用一个或多个网络计算机的网络环境(例如,经由因特网、广域网、局域网、客户端服务器网络(诸如云计算网络)、或者其他这样的网络)中被执行。
为了清晰起见,描述了基于软件的实现的仅某些所选的方面。省略了在本领域中众所周知的其他细节。例如,应当理解,所公开的技术不限于任何特定计算机语言或者程序。例如,所公开的技术可以通过以C、C++、JAVA或者任何其他适合的编程语言来实现。同样地,所公开的技术不限于任何特定计算机或者硬件类型。适合的计算机和硬件的某些细节是众所周知的并且不需要在本公开中被详细阐述。
此外,基于软件的实施例(包括例如用于使得计算机执行所公开的方法中的任一方法的计算机可执行指令)中的任一实施例可以通过适合的通信手段被上载、被下载或者被远程访问。这样的适合的通信手段包括例如因特网、万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括RF、微波和红外通信)、电子通信、或者其他这样的通信手段。
II.所公开的技术的介绍
超标量乱序微架构采用大量的电路资源来重命名寄存器,以数据流次序调度指令,在误推测之后清理,并且针对精确异常按序引退结果。这包括昂贵的电路,诸如深的许多端口的寄存器文件、用于数据流指令调度唤醒的许多端口的内容可访问存储器(CAM)、以及许多宽总线复用器和旁路网络,所有的这些都是资源密集的。例如,多读取、多写入RAM的基于FPGA的实现通常要求复制、多循环操作、时钟加倍、组交错、实况值表和其他昂贵技术的混合。
所公开的技术可以通过应用包括高指令集并行性(ILP)、乱序(out-of-order,OoO)、超标量执行的技术来实现性能增强,同时避免处理器硬件和相关联的软件二者中的大量的复杂性和开销。在所公开的技术的一些示例中,基于块的处理器使用针对区域和能量有效的高ILP执行所设计的EDGE ISA。在一些示例中,EDGE架构和相关联的编译器的使用巧妙处理重命名CAM的寄存器的远离和复杂性。
在所公开的技术的某些示例中,EDGE ISA可以消除对于一个或多个复杂架构特征的需要,包括寄存器重命名、数据流分析、误推测恢复以及按序引退,同时支持主流编程语言(诸如C和C++)。在所公开的技术的某些示例中,基于块的处理器执行多个(两个或两个以上)指令作为原子块。基于块的指令可以被用于以更显式的方式表达程序数据流和/或指令流的语义,这允许改进的编译器和处理器性能。在所公开的技术的某些示例中,显式数据图形执行指令集架构(EDGE ISA)包括关于可以用于改进对不适当的控制流指令的检测的程序控制流的信息,从而增加性能、节省存储器资源和/或以及节省能量。
在所公开的技术的一些示例中,在指令块内组织的指令原子地被取指、被执行并且被提交。块内的指令以数据流次序被执行,其使用寄存器重命名减少或者消除并且提供功率有效的OoO执行。编译器可以被用于通过ISA显式地编码数据依存性,这减少或者消除负担的处理器核控制逻辑在运行时重新发现依存性。使用所断言的执行,块内分支可以被转换为数据流指令,并且除了存储器依存性之外的依存性可以限于直接数据依存性。所公开的目标形式编码技术允许块内的指令经由操作数缓冲器直接地传递其操作数,这减少对功耗渴望的多端口物理寄存器文件的访问。
在指令块之间,指令可以使用存储器和寄存器来进行通信。因此,通过利用混合数据流执行模型,EDGE架构可以仍然支持命令式编程语言和顺序的存储器语义,但是期望地还享有具有近按序功率效率和复杂性的乱序执行的益处。
公开了用于生成和使用用于基于块的处理器的存储器访问指令顺序编码的装置、方法和计算机可读存储介质。在所公开的技术的某些示例中,指令块包括指令块头部和多个指令。换言之,指令块的执行的指令影响状态,或者作为一个整体不影响状态。
在所公开的技术的一些示例中,硬件结构存储指示针对多个存储器访问指令(包括存储器加载和存储器存储指令)的要遵循的执行顺序的数据。耦合到处理器核的控制单元至少部分基于存储在硬件结构中的数据来控制存储器访问指令的发出。因此,可以避免存储器读/写危险,同时允许指令块中的指令在其依赖性可用时立即执行。在一些示例中,控制单元包括用于确定存储器指令何时发出到加载/存储队列的唤醒和选择逻辑。
如本领域的普通技术人员将容易地理解到,所公开的技术的实现的范围在各种区域和性能折中的情况下是可能的。
III.示例性的基于块的处理器
图1是如可以被实现在所公开的技术的一些示例中的基于块的处理器100的块图10。处理器100被配置为根据指令集架构(ISA)来执行原子指令块,ISA描述了处理器操作的若干方面,包括寄存器模型、由基于块的指令执行的若干定义操作、存储器模型、中断以及其他架构特征。基于块的处理器包括多个处理器核110,其包括处理器核111。
如在图1中所示,处理器核经由核互连120而彼此连接。核互连120携带数据并且控制核110中的个体核、存储器接口140以及输入/输出(I/O)接口145之间的信号。核互连120可以使用电的、光学的、磁性的或者其他适合的通信技术来发送和接收信号,并且可以取决于特定期望的配置而提供根据若干不同的拓扑布置的通信连接。例如,核互连120可以具有交叉开关、总线、点对点总线、或者其他适合的拓扑。在一些示例中,核110中的任一核可以被连接到其他核中的任一核,而在其他示例中,一些核仅被连接到其他核的子集。例如,每个核可以仅被连接到最近的4、8或20个邻近核。核互连120可以用于将输入/输出数据传送至核以及从核传送输入/输出数据,以及将控制信号和其他信息信号传送至核以及从核传送控制信号和其他信息信号。例如,核110中的每个核110可以接收并且传送指示当前正由相应核中的每个核执行的指令的执行状态的信号量。在一些示例中,核互连120被实现为将核110和存储器系统连接的接线,而在其他示例中,核互连可以包括用于多路复用(一条或多条)互连接线上的数据信号的电路、开关和/或路由部件,包括活跃的信号驱动器和中继器或者其他适合的电路。在所公开的技术的一些示例中,在处理器100内和/或至/来自处理器100的信号不限于全摆幅电数字信号,而是处理器可以被配置为包括差分信号、脉冲信号或者用于传送数据和控制信号的其他适合的信号。
在图1的示例中,处理器的存储器接口140包括被用于连接到附加存储器(例如,被定位在除了处理器100之外的另一集成电路上的存储器)的接口逻辑。外部存储器系统150包括L2高速缓存152和主存储器155。在一些示例中,L2高速缓存可以使用静态RAM(SRAM)被实现,并且主存储器155可以使用动态RAM(DRAM)被实现。在一些示例中,存储器系统150被包括在与处理器100的其他部件相同的集成电路上。在一些示例中,存储器接口140包括允许在不使用(一个或多个)寄存器文件和/或处理器100的情况下传送存储器中的数据块的直接存储器访问(DMA)控制器。在一些示例中,存储器接口140管理虚拟存储器的分配、扩展可用的主存储器155。
I/O接口145包括用于将输入信号和输出信号接收并且发送到其他部件的电路,诸如硬件中断、系统控制信号、外围接口、协处理器控制和/或数据信号(例如,用于图形处理单元、浮点协处理器、物理处理单元、数字信号处理器或者其他协处理部件的信号)、时钟信号、信号量或者其他适合的I/O信号。I/O信号可以是同步的或者异步的。在一些示例中,I/O接口的全部或部分结合存储器接口140使用存储器映射的I/O技术被实现。
基于块的处理器100还可以包括控制单元160。控制单元160监督处理器100的操作。可以由控制单元160执行的操作可以包括对核的分配和去分配以用于执行指令处理;对任何核、寄存器文件、存储器接口140和/或I/O接口145之间的输入数据和输出数据的控制;对执行流的修改;以及验证控制流中的分支指令、指令头部和其他改变的(一个或多个)目标位置。控制单元160可以根据控制流和表示指令块的出口点和控制流概率的元数据信息来生成和控制处理器。
控制单元160还可以处理硬件中断,并且控制特殊系统寄存器(例如,被存储在一个或多个寄存器文件中的程序计数器)的读取和写入。在所公开的技术的一些示例中,控制单元160至少部分地使用处理器核110中的一个或多个核被实现,而在其他示例中,控制单元160使用非基于块的处理器核(例如,耦合到存储器的通用RISC处理核)被实现。在一些示例中,控制单元160至少部分地使用以下各项中的一项或多项被实现:硬连线有限状态机、可编程微代码、可编程门阵列或者其他适合的控制电路。在备选示例中,可以由核110中的一个或多个核来执行控制单元功能。
控制单元160包括用于将指令块分配到处理器核110的调度器165。如在此所使用的,调度器分配涉及引导指令块的操作,包括发起指令块映射、取指、译码、执行、提交、中止、空闲以及刷新指令块。处理器核110在指令块映射期间被指派到指令块。指令操作的叙述阶段出于说明性目的,并且在所公开的技术的一些示例中,某些操作可以被组合、被省略、被分离为多个操作,或者被添加附加操作。调度器165调度指令流,包括用于执行指令处理的核的分配和解除分配、任何核、寄存器文件、存储器接口140和/或I/O接口145之间的输入数据和输出数据的控制。控制单元160还包括存储器访问指令硬件结构167,其可以用于存储包括存储掩码的数据和可以是存储向量寄存器,如下面进一步详细讨论的。
接口140和I/O接口145)。在所公开的技术的一些示例中,所有部件共享共同时钟,而在其他示例中,不同的部件使用不同的时钟(例如,具有不同的时钟频率的时钟信号)。在一些示例中,时钟的一部分被选通以在处理器部件中的一些部件未被使用时允许功率节省。在一些示例中,时钟信号使用锁相环(PLL)被生成以生成具有固定的恒定频率和占空比的信号。接收时钟信号的电路可以在单个边沿(例如,上升沿)上被触发,而在其他示例中,接收电路中的至少一些电路通过上升和下降时钟沿而被触发。在一些示例中,时钟信号可以光学地或无线地被传输。
IV.示例性的基于块的处理器核
图2是如可以在所公开的技术的某些示例中使用的进一步详述用于基于块的处理器100(并且特别地,基于块的处理器核之一的实例)的示例微架构的块图。为了便于解释,示例性的基于块的处理器核被图示有五个阶段:指令取指(IF)、译码(DC)、操作数取回、执行(EX)以及存储器/数据访问(LS)。然而,本领域的普通技术人员将容易地理解到,对所图示的微架构的修改(诸如添加/移除阶段、添加/移除执行操作的单元、以及其他实现细节)可以被修改为适合用于基于块的处理器的特定应用。
如在图2中所示,处理器核111包括控制单元205,其生成控制信号来调节核操作并且使用指令调度器206调度核内的指令流。可以由控制单元205和/或指令调度器206执行的操作可以包括生成和使用存储器存取指令编码;对核的分配和去分配以用于执行指令处理;对任意核、寄存器文件、存储器接口140和/或I/O接口145之间的输入数据和输出数据的控制。控制单元还可以控制加载存储队列、调度器、全局控制单元、用于确定指令发出的速率和顺序的其他单元或这些单元的组合。
在一些示例中,指令调度器206使用耦合到存储器的通用处理器被实现,存储器被配置为存储用于调度指令块的数据。在一些示例中,指令调度器206使用专用处理器或者使用耦合到存储器的基于块的处理器核被实现。在一些示例中,指令调度器206被实现为耦合到存储器的有限状态机。在一些示例中,在处理器(例如,通用处理器或者基于块的处理器核)上执行的操作系统生成优先级、断言和其他数据,其可以至少部分地用于利用指令调度器206来调度指令块。如本领域的普通技术人员将容易地理解到,在集成电路、可编程逻辑或者其他适合的逻辑中实现的其他电路结构可以用于实现用于指令调度器206的硬件。
控制单元205还包括用于存储控制流信息和元数据的存储器(例如,在SRAM或寄存器中)。例如,用于存储器访问指令顺序的数据可以存储在诸如存储指令数据存储207等硬件结构中。存储指令数据存储207可以存储用于存储掩码的数据(例如,通过复制被编码在指令块中的数据而生成的数据或者由指令译码器在译码指令时生成的数据)。存储掩码可以包括一个或多个加载/存储标识符(LSID),其可以指示与指令块相关联的存储器访问指令(加载和存储)的顺序。在一些示例中,存储指令数据存储207包括跟踪已经执行的存储器访问指令的数目和类型的计数器。在其他示例中,存储指令数据存储207可以存储一个或多个指令块的存储器访问指令(例如,存储器存储指令)的总数。
控制单元205还可以处理硬件中断,并且控制特殊系统寄存器(例如,被存储在一个或多个寄存器文件中的程序计数器)的读取和写入。在所公开的技术的其他示例中,控制单元205和/或指令调度器206使用非基于块的处理器核(例如,耦合到存储器的通用RISC处理核)被实现。在一些示例中,控制单元205和/或指令调度器206至少部分地使用以下各项中的一项或多项被实现:硬连线有限状态机、可编程微代码、可编程门阵列、或者其他适合的控制电路。
示例处理器核111包括两个指令窗口210和211,其中的每个指令窗口可以被配置为执行指令块。在所公开的技术的一些示例中,指令块是基于块的处理器指令的原子集合,其包括指令块头部以及多个一个或多个指令。如下面将进一步讨论的,指令块头部包括可以被用于进一步定义指令块内的多个指令中的一个或多个指令的语义的信息。取决于所使用的特定ISA和处理器硬件,还可以在指令的执行期间使用指令块头部,并且通过例如允许对指令和/或数据的早期取回、改进的分支预测、推测的执行、改进的能量效率以及经改进的代码紧密性,来改进执行指令块的性能。在其他示例中,不同的数目的指令窗口是可能的,诸如一个、四个、八个或其他数目的指令窗口。
指令窗口210和211中的每个指令窗口可以从输入端口220、221和222(其连接到互连总线)中的一个或多个输入端口以及指令高速缓存227(其进而连接到指令译码器228和229)接收指令和数据。附加的控制信号还可以在附加的输入端口225上被接收。指令译码器228和229中的每个指令译码器对指令头部和/或用于指令块中的指令进行译码,并且将所译码的指令存储在被定位在每个相应的指令窗口210和211中的存储器存储库215和216内。此外,译码器228和229中的每个可以将数据发送到控制单元205,例如以根据在指令块头部中或在指令中指定的执行标志来配置处理器核111的操作。
处理器核111还包括耦合到L1(第一级)高速缓存235的寄存器文件230。寄存器文件230存储用于在基于块的处理器架构中定义的寄存器的数据,并且可以具有一个或多个读端口和一个或多个写端口。例如,寄存器文件可以包括用于将数据存储在寄存器文件中的两个或两个以上写端口,以及具有用于从寄存器文件内的个体寄存器读取数据的多个读端口。在一些示例中,单个指令窗口(例如,指令窗口210)可以一次访问寄存器文件的仅一个端口,而在其他示例中,指令窗口210可以访问一个读端口和一个写端口,或者可以同时访问两个或两个以上读端口和/或写端口。在一些示例中,寄存器文件230可以包括64个寄存器,寄存器中的每个寄存器保持32位的数据的字。(为了便于解释,除非另有说明,否则本申请将32位数据称为字。根据所公开的技术的合适的处理器可以使用8、16、64、128、256位或另一位数的字来操作)在一些示例中,寄存器文件230内的寄存器中的一些寄存器可以被分配为特殊目的。例如,寄存器中的一些寄存器可以被专用作系统寄存器示例,其包括存储常量值(例如,所有零字)、(一个或多个)程序计数器(PC)(其指示正被执行的程序线程的当前地址)、物理核数目、逻辑核数目、核分配拓扑、核控制标志、执行标志、处理器拓扑或者其他适合的专用目的的寄存器。在一些示例中,存在多个程序计数器寄存器、一个或每个程序计数器,以允许跨一个或多个处理器核和/或处理器的多个执行线程的并发执行。在一些示例中,程序计数器被实现为指定存储器位置,而不是寄存器文件中的寄存器。在一些示例中,系统寄存器的使用可以由操作系统或者其他监督式计算机指令进行限制。在一些示例中,寄存器文件230被实现为触发器阵列,而在其他示例中,寄存器文件可以使用锁存器、SRAM或者其他形式的存储器存储装置被实现。针对给定处理器(例如,处理器100)的ISA规格指定寄存器文件230内的寄存器如何被定义并且被使用。
在一些示例中,处理器100包括由多个处理器核共享的全局寄存器文件。在一些示例中,与处理器核相关联的个体寄存器文件可以被组合以静态地或者动态地形成较大的文件,这取决于处理器ISA和配置。
如在图2中所示,指令窗口210的存储器存储库215包括若干译码的指令241、左操作数(LOP)缓冲器242、右操作数(ROP)缓冲器243、断言缓冲器244、三个广播信道245以及指令记分板247。在所公开的技术的一些示例中,指令块中的每个指令被分解为一行译码的指令、左操作数和右操作数和记分板数据,如在图2中所示。译码的指令241可以包括被存储为位级控制信号的指令的部分或者完全译码的版本。操作数缓冲器242和243存储操作数(例如,从寄存器文件230接收到的寄存器值、从存储器接收到的数据、在指令内编码的中间操作数、由较早发出的指令计算的操作数、或者其他操作数值),直到其相应的译码的指令准备好执行。指令操作数和断言分别从操作数缓冲器242和243以及断言缓冲器244而不是从寄存器文件读取。指令记分板247可以包括用于指向指令的断言的缓冲器,包括用于组合由多个指令发送到指令的断言的线或逻辑。
第二指令窗口211的存储器存储库216存储类似的指令信息(译码的指令、操作数和记分板)作为存储器存储库215,但是出于简单的原因在图2中未示出。指令块可以关于第一指令窗口由第二指令窗口211并发地或者顺序地执行,这受制于ISA约束并且如由控制单元205引导。
在所公开的技术的一些示例中,前端流水线阶段IF和DC可以从后端流水线阶段(IS、EX、LS)运行去耦合。控制单元可以每时钟周期将两个指令取指并且译码到指令窗口210和211中的每个指令窗口中。控制单元205使用记分板247来提供指令窗口数据流调度逻辑以监测每个译码的指令的输入(例如,每个相应指令的(一个或多个)断言和(一个或多个)操作数)的就绪状态。当针对特定译码的指令的所有输入操作数和(一个或多个)断言就绪时,指令准备好发出。控制单元205然后每周期发起(发出)一个或多个下一指令(例如,最低编号的就绪指令)的执行,并且基于译码指令和指令的输入操作数的控制信号被发送到功能单元260中的一个或多个功能单元以用于执行。译码的指令还可以对若干就绪事件进行编码。控制单元205中的调度器接受来自其他源的这些和/或事件,并且更新窗口中的其他指令的就绪状态。因此执行从处理器核的111个就绪零输入指令开始,继续以零输入指令为目标的指令等。
译码指令241不需要以其被布置在指令窗口210的存储器存储库215内的相同次序被执行。相反,指令记分板245用于追踪译码的指令的依存性,并且当依存性已经被满足时,相关联的个体译码指令被调度用于执行。例如,当依存性已经针对相应指令被满足时,对相应指令的参考可以被推送到就绪队列上,并且就绪指令可以从就绪队列以先进先出(FIFO)次序被调度。对于使用加载存储标识符(LSID)编码的指令,执行顺序也将遵循在指令LSID中枚举的优先级、或者按照看起来好像指令按指定顺序执行的顺序执行。
被存储在记分板245中的信息可以包括但不限于相关联的指令的(一个或多个)执行断言(诸如指令是否正等待要被计算的断言位,并且在断言位是真或者假的情况下指令是否执行)、操作数对于指令的可用性、或者在发出和执行相关联的个体指令之前所要求的其他前提条件。被存储在每个指令窗口中的指令的数目通常对应于指令块内的指令的数目。在一些示例中,操作数和/或断言在一个或多个广播信道上接收,这些广播信道允许将相同的操作数或断言发送到更大数目的指令。在一些示例中,指令块内的指令的数目可以是32、64、128、1024或者另一数目的指令。在所公开的技术的一些示例中,跨处理器核内的多个指令窗口分配指令块。乱序操作和存储器访问可以根据指定一个或多个操作模式的数据来控制。
在一些示例中,对处理器施加限制(例如,根据架构定义或通过处理器的可编程配置)以禁止指令的执行脱离指令在指令块中被布置的顺序。在一些示例中,可用的最低编号的指令被配置为要执行的下一指令。在一些示例中,控制逻辑遍历指令块中的指令并且执行准备好执行的下一指令。在一些示例中,一次只能发出和/或执行一个指令。在一些示例中,指令块内的指令以确定性顺序(例如,指令在块中被布置的顺序)发出和执行。在一些示例中,当通过用户调试在基于块的处理器上执行的程序来使用软件调试器时,可以配置对指令顺序的限制。
指令可以使用被定位在处理器核111内的控制单元205而被分配并且被调度。控制单元205安排来自存储器的对指令的取指、对执行的译码、在其已经被加载到相应的指令窗口时对指令的执行、进/出处理器核111的数据流,并且控制由处理器核输入和输出的信号。例如,控制单元205可以包括如上文所描述的就绪队列,以用于在调度指令中使用。可以原子地执行被存储在被定位在每个相应的指令窗口210和211中的存储器存储库215和216中的指令。因此,对由执行的指令影响的可见架构状态(诸如寄存器文件230和存储器)的更新可以本地缓存在核200内直到指令被提交为止。控制单元205可以确定指令何时准备好被提交、对提交逻辑进行排序并且发出提交信号。例如,指令块的提交阶段可以当所有寄存器写入被缓冲、到存储器的所有写入被缓冲并且分支目标被计算时开始。指令块可以当对可见架构状态的更新被完成时被提交。例如,当寄存器写入被写入到寄存器文件、存储被发送到加载/存储单元或者存储器控制器并且提交信号被生成时,指令块可以被提交。控制单元205还至少部分地控制将功能单元260分配到相应的指令窗口中的每个指令窗口。
如在图2中所示,具有若干执行流水线寄存器255的第一路由器250用于将数据从指令窗口210和211中的任一指令窗口发送到功能单元260中的一个或多个功能单元,其可以包括但不限于整数ALU(算术逻辑单元)(例如,整数ALU 264和265)、浮点单元(例如,浮点ALU 267)、移位/旋转逻辑(例如,桶型移位器268)或者其他适合的执行单元,其可以包括图形功能、物理功能和其他数学操作。第一路由器250还包括用于确定何时将存储器指令发送到加载/存储队列275的唤醒/选择逻辑258。例如,唤醒/选择逻辑258可以确定是否所有源操作数和断言条件都可用于存储器访问指令并且基于这个确定,将地址(和数据,如果适用的话)发送到加载/存储队列275。
来自功能单元260的数据可以然后通过第二路由器270被路由到输出290、291和292,路由返回到操作数缓冲器(例如,LOP缓冲器242和/或ROP缓冲器243),或者被馈送回到另一功能单元,这取决于特定指令被执行的要求。第二路由器270包括:加载/存储队列275,其可以被用于发出存储器指令;数据高速缓存277,其存储正输入到核或正从核被输出到存储器的数据;以及加载/存储流水线寄存器278。
加载/存储队列275接收并且临时存储用于执行存储器访问指令(例如,存储器存储和存储器加载指令)的信息。指令块可以将所有存储器访问指令作为单个原子事务块来执行。换言之,执行全部存储器访问指令或者不执行任何存储器访问指令。存储器访问指令的相对顺序基于与每个存储器访问指令(例如,用对应指令编码的LSID)相关联的LSID以及在一些情况下基于存储掩码来确定。在一些示例中,通过不按照LSID指定的相对顺序执行存储器访问指令可以获取附加的性能,但是存储器的状态仍然必须好像指令按序执行一样出现。加载/存储队列275还接收加载指令的地址、以及存储指令的地址和数据。在一些示例中,加载/存储队列等待执行排队的存储器访问指令,直到确定包含的指令块将实际提交。在其他示例中,加载/存储队列275可以推测性地发出至少一些存储器访问指令,但是在块没有提交的情况下将需要刷新存储器操作。在其他示例中,控制单元205通过提供被描述为由唤醒/选择逻辑和/或加载/存储队列275执行的功能来确定存储器访问指令被执行的顺序。在一些示例中,处理器100包括允许借助于调试器来逐步地发出存储器访问指令的调试模式。加载/存储队列275可以使用控制逻辑(例如,具有有限状态机)和存储器(例如,寄存器或SRAM)分别执行存储器事务和存储存储器指令操作数来实现。
核还包括控制输出295,其用于指示例如指令窗口210或者211中的一个或多个指令窗口的所有指令的执行何时已经完成。当指令块的执行完成时,指令块被指定为“提交的”并且来自控制输出295的信号可以进而可以由基于块的处理器100内的其他核和/或由控制单元160用于发起其他指令块的调度、取指和执行。第一路由器250和第二路由器270二者可以将数据发送回到指令(例如,作为用于指令块内的其他指令的操作数)。
如本领域的普通技术人员将容易理解到,个体核200内的部件不限于图2中所示的那些部件,而是可以根据特定应用的要求而变化。例如,核可以具有更少或更多的指令窗口,单个指令译码器可以由两个或两个以上指令窗口共享,并且所使用的功能单元的数目和类型可以取决于用于基于块的处理器的特定目标应用而变化。在利用指令核选择并且分配资源时应用的其他考虑包括性能要求、能量使用要求、集成电路芯片、处理技术和/或成本。
对于本领域的普通技术人员而言将容易明显的,可以通过处理器核110的指令窗口(例如,指令窗口210)和控制单元205内的资源的设计和分配来在处理器性能中做出折中。面积、时钟周期、能力和限制实质上确定个体核110的实现性能和基于块的处理器100的吞吐量。
指令调度器206可以具有不同的功能。在某些较高的性能示例中,指令调度器是高并发的。例如,每个周期(一个或多个)译码器将指令的译码就绪状态和译码指令写入到一个或多个指令窗口中,选择要发出的下一个指令,并且作为响应后端发送第二就绪事件——以特定指令的输入槽(断言、左操作数、右操作数等)为目标的任一目标就绪事件或者以所有指令为目标的广播就绪事件。每指令就绪状态位连同译码就绪状态可以用于确定指令准备好发出。
在一些情况下,调度器206接受目标指令的事件,其尚未被译码并且还必须禁止已发出的就绪指令的重新发出。在一些示例中,指令可以是非断言的、或者断言的(基于真或假条件)。断言的指令直到其由另一指令的断言结果作为目标时才变得就绪,并且该结果匹配断言条件。如果相邻的断言未匹配,则指令绝不发出。在一些示例中,断言指令可以推测地被发出并且被执行。在一些示例中,处理器可以随后检查推测地发出和执行的指令被正确地推测。在一些示例中,误推测的发出指令和消耗其输出的块中的指令的特定传递闭包可以被重新执行、或者被误推测取消的副作用。在一些示例中,对误推测的指令的发现导致整个指令块的完全回滚和重新执行。在一些示例中,调度器执行被描述为由上面讨论的唤醒/选择逻辑和/或加载/存储队列执行的操作中的一些或全部操作。
在分支到新指令块时,(一个或多个)相应指令窗口就绪状态被清除(块重置)。然而,当指令块分支回到其自身(块刷新),仅仅活跃就绪状态被清除。指令块的译码就绪状态可以因此被保留,使得其不需要重新取指并且译码块的指令。因此,块刷新可以用于节省循环中的时间和能量。
V.示例性的指令块流
现在转到图3的示图300,图示了基于块的指令流的一部分310,包括若干可变长度指令块311-314。指令流可以用于实现用户应用、系统服务或者任何其他适合的用途。指令流可以存储在存储器中,从存储器中的另一进程接收,通过网络连接接收,或以任何其他合适的方式存储或接收。在图3中所示的示例中,每个指令块从指令头部开始,其跟随有不同的数目的指令。例如,指令块311包括头部320和二十条指令321。所图示的特定指令头部320包括部分地控制指令块内的指令的执行的若干数据字段,并且还允许改进的性能增强技术,包括例如分支预测、推测执行、惰性评估和/或其他技术。指令头部320还包括指令块大小的指示。指令块大小可以处于比一更大的指令的数据块中,例如,被包含在指令块内的4指令数据块的数目。换句话说,块的大小被移动4位以便压缩被分配到指定指令块大小的头部空间。因此,0的大小值指示最小大小的指令块,其是跟随有四条指令的块头部。在一些示例中,指令块大小被表达为字节数、字数、n字数据块数、地址、地址偏移或者使用用于描述指令块的大小的其他适合的表达。在一些示例中,指令块大小由指令块头部和/或脚部中的终止位模式来指示。
指令块头部320还可以包括执行标志,其指示用于执行指令块的操作的一个或多个模式。例如,操作的模式可以包括核融合操作、向量模式操作、存储器依存性预测和/或顺序或确定性指令执行。
在所公开的技术的一些示例中,指令头部320包括指示编码数据是指令头部的一个或多个标识位。例如,在一些基于块的处理器ISA,最低有效位空间中的单个ID位总是被设定为二进制值1,以指示有效指令块的开始。在其他示例中,不同的位编码可以用于(一个或多个)标识位。在一些示例中,指令头部320包括指示相关联的指令块被编码所针对的ISA的特定版本的信息。
指令块头部还可以包括用于在例如分支预测、控制流确定和/或分支处理中使用的若干块退出类型。退出类型可以指示分支指令的类型是什么,例如:顺序分支指令,其指向存储器中的下一相连的指令块;偏移指令,其是相对于偏移而计算的存储器地址处的另一指令块的分支;子例程调用、或者子例程返回。通过编码指令头部中的分支退出类型,分支预测器可以至少部分地在相同指令块内的分支指令已经被取指和/或被译码之前开始操作。
所示出的指令块标头部320还包括指示在块指令中编码的加载存储队列标识符中的哪些被指派给存储操作的存储掩码。例如,对于具有八个存储器访问指令的块,存储掩码01011011将指示有三个存储器存储指令(位0,对应于LSID 0、2和5)和五个存储器加载指令(位1,对应于LSID 1、3、4、6和7)。指令块头部还可以包括标识相关联的指令块将写入哪个(些)全局寄存器的写入掩码。
在一些示例中,通过例如指令译码器(例如,译码器228或229)将存储掩码存储在存储向量寄存器中。在其他示例中,指令块头部320不包括存储掩码,但是存储掩码是在指令块被译码时由指令译码器通过分析指令依赖性来动态地生成的。例如,译码器可以分析指令块指令的加载存储标识符以确定存储掩码并且将存储掩码数据存储在存储向量寄存器中。类似地,在其他示例中,写入掩码没有被编码在指令块头部中,而是由指令译码器动态地生成(例如,通过分析由指令块中的指令引用的寄存器),并且存储在写入掩码寄存器中。存储掩码和写入掩码可以用于确定指令块的执行何时完成并且从而发起指令块的提交。相关联的寄存器文件必须在指令块可以完成之前接收对每个条目的写入。在一些示例中,基于块的处理器架构可以包括不仅标量指令,而且单指令多数据(SIMD)指令,这允许具有单个指令内的较大数目的数据操作数的操作。在一些示例中,块头部320还可以包括用于指令块内的一个或多个指令类型的指令计数(例如,存储器访问指令或存储器存储指令计数),如图7所示。
可以用于指令321的合适的基于块的指令的示例可以包括用于执行整数和浮点算术运算、逻辑运算、类型转换、寄存器读写、存储器加载和存储、分支和跳转的执行的指令、以及其他合适的处理器指令。在一些示例中,指令包括用于通过例如基于控制流和关于存储在硬件结构(诸如存储指令数据存储207)中的存储器访问指令的数据的推测性执行来配置处理器以根据一个或多个操作进行操作的指令。在一些示例中,存储指令数据存储207在架构上不可见。在一些示例中,对存储指令数据存储207的访问被配置为限于在处理器的监督模式或其他保护模式下的处理器操作。
VI.示例性的块指令目标编码
图4是描绘C语言源代码的两个部分410和415及其相应的指令块420和425的示例的示图400,这图示了基于块的指令可以如何显式地编码其目标。在这个示例中,前两个READ指令430和431分别指向ADD指令432的右(T[2R])和左(T[2L])个操作数(2R指示指向以指令编号2的右操作数;2L指示指令编号2的左操作数)。在所图示的ISA中,读指令是从全局寄存器文件(例如,寄存器文件230)读取的唯一指令;然而,任何指令可以以全局寄存器文件为目标。当ADD指令432接收到这两个寄存器读取的结果时,其将变为就绪并且执行。注意,本公开有时将右操作数称为OP0并且将左操作数称为OP1。
当TLEI(测试小于等于立即(test-less-than-equal-immediate))指令433从ADD接收其单个输入操作数时,其将变为就绪以发出并且执行。测试然后产生在信道一(B[1P])上广播到在广播信道上监听的所有指令的断言操作数用于断言,其在该示例中是两个断言的分支指令(BRO_T 434和BRO_F 435)。接收匹配断言的分支指令将触发(执行),但是用互补断言编码的另一指令不会触发/执行。
指令块420的依存性图形440还被图示为指令节点阵列450和其对应的操作数目标455和456。这图示了块指令420、对应的指令窗口条目以及由指令所表示的底层数据流程图之间的对应性。此处,译码指令READ 430和READ 431准备好发出,因为其不具有输入依存性。当其发出并且执行时,从寄存器R0和R7读取的值被写入到ADD 432的右操作数缓冲器和左操作数缓冲器中,这使得ADD 432的左操作数和右操作数“就绪”。因此,ADD 432指令变为就绪、发出到ALU、执行,并且之和被写入到TLEI指令433的左操作数。
VII.示例性的基于块的指令格式
图5是示出指令头部510、通用指令520、分支指令530和存储器访问指令540(例如,存储器加载或存储指令)的指令格式的通用示例的图。指令格式可以用于根据指定操作模式的指令头部中指定的多个执行标志执行的指令块。指令头部或者指令中的每一个根据位数而被标记。例如,指令头部510包括四个32位的字并且从其最低有效位(lsb)(位0)被标记直到其最高有效位(msb)(位127)。如所示出的,指令头部包括写入掩码字段、存储掩码字段515、多个退出类型字段、多个执行标志字段、指令块大小字段和指令头部ID位(指令头部的最低有效位)。在一些示例中,存储掩码字段515被LSID计数517代替或补充,LSID计数517可以指示指令块的每个断言的路径上的存储指令的数目(或指令块的存储指令的总数)。对于在不同的断言的路径上具有不同数目的存储指令的指令块,可以使一个或多个指令无效,并且递增存储指令的执行计数,使得每个断言的路径将指示在运行时已经执行的相同数目的存储指令。在一些示例中,头部510不指示LSID计数或存储掩码,但是信息由指令译码器基于被编码在个体存储指令中的LSID来动态地生成。
图5中描绘的执行标志字段占据指令块头部510的位6至13并且指示用于执行指令块的一个或多个操作模式。例如,操作模式可以包括核融合操作、向量模式操作、分支预测器抑制、存储器依赖性预测器抑制、块同步、块之后中断、块之前中断、块中断、和/或按序或确定性的指令执行。
退出类型字段包括可以用于指示被编码在指令块内的控制流指令的类型的数据。例如,退出类型字段可以指示指令块包括以下各项中的一项或多项:顺序分支指令、偏移分支指令、间接分支指令、调用指令、和/或返回指令。在一些示例中,分支指令可以是用于在指令块之间传递控制流的任何控制流指令,包括相对地址和/或绝对地址,并且使用有条件的断言或者无条件的断言。除了确定隐式控制流指令之外,退出类型字段可以用于分支预测和推测执行。
所图示的通用块指令520被存储为一个32位的字,并且包括操作码字段、断言字段、广播ID字段(BID)、向量操作字段(V)、单指令多数据(SIMD)字段、第一目标字段(T1)、以及第二目标字段(T2)。对于具有比目标字段更大的消费者的指令而言,编译器可以使用移动指令来构建扇出树,或者其可以将高扇出指令指派到广播。广播支持通过轻量网络将操作数发送到核中的任何数目的消费者指令。
虽然由通用指令520概述的通用指令格式可以表示由基于块的处理器处理的一些或全部指令,但是本领域的技术人员将容易理解到,即使对于ISA的特定示例而言,指令字段中的一个或多个指令字段也可以偏离用于特定指令的通用格式。操作码字段指定由指令520执行的(一个或多个)操作,诸如存储器读取/写入、寄存器加载/存储、加法、减法、乘法、除法、移位、旋转、系统操作或者其他适合的指令。断言字段指定指令在其下将执行的条件。例如,断言字段可以指定值“真”,并且指令将仅在对应的条件标志匹配指定的断言值的情况下执行。在一些示例中,断言字段至少部分地指定哪一个被用于比较断言,而在其他示例中,执行在由先前指令(例如,指令块中的先前指令)设定的标志上被断定。在一些示例中,断言字段可以指定指令将总是或者绝不被执行。因此,断言字段的使用可以通过减少被译码和执行分支指令的数目来允许更密集的目标代码、改进的能量效率以及改进的处理器性能。
目标字段T1和T2指定基于块的指令的结果被发送到的指令。例如,在指令槽5处的ADD指令可以指定其计算结果将被发送到槽3和10处的指令,包括操作数槽的指定(例如,左操作、右操作数、或断言操作数)。取决于特定指令和ISA,所图示的目标字段之一或二者可以由其他信息替换,例如,第一目标字段T1可以由中间操作数、附加操作码、指定两个目标等来替换。
分支指令530包括操作码字段、断言字段、广播ID字段(BID)以及偏移字段。操作码和断言字段在如关于通用指令所描述的格式和功能方面是类似的。偏移可以以四个指令的组为单位被表达,因此扩展在其上可以执行分支的存储器地址范围。利用通用指令520和分支指令530示出的断言可以用于避免指令块内的附加分支。例如,特定指令的执行可以根据先前指令的结果(例如,两个操作数的比较)被断定。如果断言是假的,则指令将不提交由特定指令计算出的值。如果断言值未匹配所要求的断言,则指令不发出。例如,BRO_F(断言假)指令将发出其是否被发送假断言值。
应当容易理解到,如在此所使用的,术语“分支指令”不限于将程序执行改变到相对存储器位置,而且包括跳跃到绝对或者符号存储器位置、子例程调用和返回,以及可以修改执行流的其他指令。在一些示例中,通过改变系统寄存器(例如,程序计数器PC或者指令指针)的值来修改执行流,而在其他示例中,可以通过修改被存储在存储器中的指定位置处的值来改变执行流。在一些示例中,跳跃寄存器分支指令用于跳跃到被存储在寄存器中的存储器位置。在一些示例中,分别使用跳跃和链接以及跳跃寄存器指令来实现子例程调用和返回。
存储器访问指令540格式包括操作码字段、断言字段、广播ID字段(BID)、加载存储ID字段(LSID)、立即字段(IMM)偏移字段和目标字段。操作码、广播、断言字段在格式和功能上与关于通用指令所描述的类似。例如,特定指令的执行可以根据先前指令的结果(例如,两个操作数的比较)来预测。如果断言为假,则指令不会提交由特定指令计算的值。如果断言值与所需要的断言不匹配,则指令不会发出。立即字段(例如,并且移位若干位)可以用作发送到加载或存储指令的操作数的偏移。操作数加(移位的)立即偏移用作加载/存储指令的存储器地址(例如,从存储器读取数据或将数据存储到存储器的地址)。LSID字段指定块内的加载和存储指令的相对顺序。换言之,编号较高的LSID指示指令应当在编号较低的LSID之后执行。在一些示例中,处理器可以确定两个加载/存储指令不冲突(例如,基于指令的读/写地址)并且可以以不同的顺序执行指令,尽管机器的结果状态不应当不同于好像指令已经按照指定的LSID顺序被执行。在一些示例中,具有互斥断言值的加载/存储指令可以使用相同的LSID值。例如,如果第一加载/存储指令基于值p为真,并且第二加载/存储指令基于值p为假,则每个指令可以具有相同的LSID值。
VIII.示例处理器状态图
图6是示出当指令块被映射、执行和引退时指派给指令块的状态的数目的状态图600。例如,根据一个或多个执行标志,在执行指令期间可以指派一个或多个状态。应当容易理解,图6所示的状态是用于所公开的技术的一个示例,但是在其他示例中,指令块可以具有附加的或更少的状态,并且具有与状态图600中所描绘的状态不同的状态。在状态605,指令块未被映射。指令块可以驻留在耦合到基于块的处理器的存储器中,存储在诸如硬盘驱动器或闪存驱动器等计算机可读存储设备上,并且可以位于处理器本地或位于远程服务器处并且使用计算机网络可访问。未映射的指令也可以至少部分驻留在耦合到基于块的处理器的高速缓存存储器中。
在指令块映射状态610处,诸如指令调度器等基于块的处理器的控制逻辑可以用于监测基于块的处理器的处理核资源并且将指令块映射到一个或多个处理核。
控制单元可以将一个或多个指令块映射到处理器核和/或特定处理器核的指令窗口。在一些示例中,控制单元监测之前已经执行特定指令块的处理器核并且可以针对仍然驻留在“预热”处理器核上的指令块重新使用译码指令。一旦一个或多个指令块已经被映射到处理器核,指令块就可以前进到取回状态620。
当指令块处于取回状态620(例如,取指)时,映射的处理器核从基于块的处理器的存储器系统取回计算机可读块指令,并且将它们加载到与特定处理器核相关联的存储器中。例如,指令块的取回的指令可以被取回并且存储在处理器核内的指令高速缓存中。指令可以使用核互连被传送到处理器核。一旦指令块的至少一个指令被取回,指令块就可以进入指令译码状态630。
在指令译码状态630期间,取回的指令的各个位被译码成可以由处理器核用来控制特定指令的执行的信号。例如,译码的指令可以存储在上面在图2中示出的存储器存储215或216中的一个中。译码包括生成译码的指令的依赖性、译码的指令的操作数信息和译码的指令的目标。一旦指令块的至少一个指令已经被译码,指令块就可以继续进行到执行状态640。
在执行状态640期间,使用例如以上关于图2讨论的功能单元260来执行与指令相关联的操作。如上所述,执行的功能可以包括算术功能、逻辑功能、分支指令、存储器操作和寄存器操作。与处理器核相关联的控制逻辑监测指令块的执行,并且一旦确定指令块可以被提交,或者指令块将被中止,则指令块状态被设置为提交/中止650。在在一些示例中,控制逻辑针对指令块使用写入掩码和/或存储掩码来确定执行是否已经足够继续进行以提交指令块。执行的存储器访问指令将数据和地址信息发送到加载/存储队列用于访问存储器。在一些示例中,可以在块执行之前执行一些存储器访问指令(例如,存储器加载指令),而其他指令(例如,存储器存储指令)等待执行直到块提交。在一些示例中,所有存储器访问指令等待访问存储器,直到块提交。在一些示例中,存储器加载和存储指令在指令块的执行期间访问存储器,但是附加硬件捕捉存储器危险条件(例如,在写入之后读取危险)以确保主存储器看起来好像指令是根据它们的相对顺序被执行。
在提交/中止状态650处,处理器核控制单元确定由指令块执行的操作可以完成。例如,存储器加载存储操作、寄存器读/写、分支指令和其他指令将根据指令块的控制流程被肯定地执行。或者,如果指令块将被中止,例如,由于指令的一个或多个依赖性不满足,或者指令在不满足的指令块的断言上被推测地执行,则指令块被中止,使得它不会影响存储器或寄存器文件中的指令序列的状态。任何未完成的存储器访问操作也已完成。无论指令块是已经提交还是中止,指令块进入状态660以确定指令块是否应当被刷新。如果指令块被刷新,则处理器核通常使用新的数据值、特别是由块的刚提交的执行而更新的寄存器和存储器来重新执行指令块,并且直接继续进行到执行状态640。因此,可以避免在映射、取回和译码指令块时花费的时间和精力。或者,如果指令块不需要被刷新,则指令块进入空闲状态670。
在空闲状态670中,执行指令块的处理器核可以通过例如在处理器核内断电硬件同时保持指令块的译码的指令的至少一部分来变为空闲。在某个时刻,控制单元确定680处理器核上的空闲指令块是否要被刷新。如果空闲指令块要被刷新,则指令块可以在执行状态640处恢复执行。或者,如果指令块不需要被刷新,则指令块未被映射,并且处理器核可以被刷新并且随后指令块可以被映射到刷新的处理器核。
尽管状态图600为了便于解释而示出了在单个处理器核上执行的指令块的状态,但是相关领域的普通技术人员应当容易理解,在某些示例中,多个处理器核可以用于同时执行给定指令块的多个实例。
IX.示例性的基于块的处理器和存储器配置
图7是示出包括基于块的处理器710的装置的图700,其包括被配置为根据用于一个或多个操作模式的数据来执行指令块的控制单元720。控制单元720包括核调度器725和存储器访问硬件结构730。核调度器725调度指令流,指令流包括用于执行指令处理的核的分配和解除分配、任何核、寄存器文件、存储器接口和/或I/O接口之间的输入数据和输出数据的控制。存储器访问硬件结构730存储数据,包括例如存储掩码(SM)数据、存储计数(SC)数据和/或其他数据,诸如控制流数据。存储器访问硬件结构730可以使用任何合适的技术来实现,包括SRAM、寄存器(例如,包括触发器或锁存器阵列)或其他合适的存储器技术。当由控制单元720译码指令时,可以生成存储掩码(SM)和存储计数(SC)。在一些示例中,存储掩码和存储计数从存储器750读取(例如,存储掩码751和存储计数752),从指令块头部读取(例如,存储掩码737a和738a以及存储计数737b和738b),或在诸如存储介质盘755等计算机可读存储介质中读取。
基于块的处理器710还包括被配置为取回并且执行指令块的一个或多个处理器核740-747。所示出的基于块的处理器710具有多达八个核,但是在其他示例中,可以有64、512、1024或其他数目的基于块的处理器核。基于块的处理器710耦合到存储器750和计算机可读存储介质盘755,存储器750包括包含指令块A和B在内的多个指令块。
X.示例无效指令格式
图8示出了可以在所公开的技术的某些示例中使用的使用移位位和LSID掩码的示例无效指令。参考图8,示出了用于无效指令802的示例指令格式。操作码字段指定由指令802执行的操作,诸如无效操作。断言字段(PR)指定指令将执行的条件。例如,断言字段可以指定值“真”,并且只有当对应的条件标志匹配指定的断言值时才会执行指令。在一些示例中,断言字段至少部分指定哪个用于比较断言,而在其他示例中,执行基于由先前指令设置的标志(例如,指令块中的先前指令)。在一些示例中,断言字段可以指定指令将永远或永不执行。因此,通过减少译码和执行的分支指令的数目,使用断言字段可以实现更密集的目标代码,提高能量效率,并且改进处理器性能。广播ID(BID)字段可以在PR字段之后。无效指令802还在其目标字段中包括移位位804和LSID掩码806。LSID掩码806可以指示将由无效指令802无效的存储器访问指令(例如,存储器存储)的LSID。当由LSID标识的存储器访问指令无效时,其LSID可以被标记为完成,好像存储器访问指令已经被执行。
表810示出了可以使用LSID掩码806和移位位804来确定的示例LSID。例如,LSID掩码806可以是16位掩码,使得总共32个LSID可以由16位LSID掩码和用于移位位804的2个可能值来表示。在这点上,相同的LSID掩码(例如,0000000000000001)可以表示用于移位位804(例如,分别用于移位位0和1)的对应值的两个不同的LSID(例如,[0]和[16])。
图9示出了可以在所公开的技术的某些示例中使用的用于使多个存储指令无效的示例LSID掩码。在一些示例中,无效指令802可以使用可以指示用于无效的多于一个LSID的LSID掩码。LSID掩码可以与用于移位位0的LSID[0]-[15]和用于移位位1的LSID[16]-[32]相关联。如表900所示,可以在LSID掩码中设置多于一个位,以指示对应的LSID用于无效。例如,LSID掩码902使得位0和1被设置,其指示用于无效的LSID{0}和[1]。LSID掩码904指示用于无效的LSID[0]、[1]、[2]、[13]和[14]。类似地,由于移位位被设置为1,因此LSID掩码906指示LSID[29]和[30]。
图10示出了可以在所公开的技术的某些示例中使用的在目标字段中具有两个单独的LSID的示例无效指令。参考图10,无效指令1002包括两个单独的9位目标字段:T0和T1。在一些示例中,每个目标字段可以为两个单独的LSID存储LSID掩码(例如,如图8所示)。在其他示例中,两个目标字段可以存储两个单独的LSID:LSID1和LSID2。在这点上,可以使用单个无效指令1002来使LSID1和LSID2(图10中的1004和1006)两者无效。
XI.示例控制流程图
图11A-11D示出了可以在所公开的技术的某些示例中使用的具有存储指令无效的示例控制流程图。参考图11A-11D,为了便于说明,控制流程图1102、1120、1126和1140以图形形式描绘,包括节点和边,但是可以用其他形式来表示,这对于相关领域的普通技术人员而言很容易变得清楚。为了便于解释,在控制流程图中仅示出了加载和存储指令,但是应当理解,其他指令将根据每个相应指令的依赖性和断言而被控制流图的节点放置或引用。
参考图11A中的图1102,第一节点1104包括两个加载(LD)指令。为便于说明,只有存储(ST)指令具有相关联的LSID,而不是LD指令。这两个LD指令是非断言的,并且可以发出和执行,只要它们的操作数可用。节点1106包括可以与条件相关联的断言的指令p。基于条件是“真”还是“假”,指令执行可以分别继续进行到节点1108和1110。在节点1108,可以执行具有LSID[0]和[1]的两个ST指令。由于具有LSID[2}的存储指令将不执行,所以在节点1108中插入用于LSID[2]的无效(空)指令。如果指令p的断言的指令条件为假并且执行继续进行到节点1110,则将只执行具有LSID[2]的存储指令,并且具有LSID[0]和[1]的ST指令将不会执行。因此,由于所有的存储器访问指令都必须被考虑(并且产生)以便用于指令块提交,所以节点1110必须包括无效指令以使LSID[0]和[1]无效。LSID可以被编码为无效指令的目标字段的一部分(例如,如图8-10中所述)。
无效指令(“Null[0][1]”)可以由编译器自动生成并且插入到指令块中以考虑所有LSID并且平衡看起来已经针对控制流程图的每个路径被执行的存储器访问指令的数目。与LSID相关联的无效指令(例如,在其目标字段中指定存储指令LSID)的效果可以是,LSID被标记为完成,好像与LSID相关联的存储器访问指令已经被执行。在一些其他示例中,处理器核硬件使存储指令无效,使得其看起来好像存储器存储指令已经被执行,但是没有在指令块中存储/插入单独的无效指令。
在又一些其他示例中,为了指令无效的目的,可以递增指令计数器(例如,存储指令计数器)。例如,针对断言的指令p的“真”部分,可以将存储指令计数设置为2,对于指令p的“假”部分,可以将第二存储指令计数设置为2。每次执行存储指令时(无论选择哪个断言的部分),都可以减少每个计数器,并且一旦至少一个计数器达到0,就可以提交断言的指令P。在其他示例中,也可以使用单个存储指令计数,并且可以在每个存储指令执行之后调节计数,并且不执行非正在执行的断言的部分中的存储指令。
在指令节点1110之后,节点1112可以执行,其作为断言的指令q,其包括相关联的条件的“真”(节点1114)和“假”(节点1116)结果的断言的路径。因为只有节点1116(而不是1114)包括ST指令(LSID[3]),所以在节点1114中插入对应的空指令,其可以用于使具有LSID[3]的存储无效。条件流程图1102在节点1118处以分支指令(BRO)完成,其可用于在另一指令块处恢复指令执行。
参考图11B,控制流程图1120包括具有两个加载指令的节点1121、节点1122中的断言的指令p和节点1125中的分支指令。指令p的断言的执行路径包括具有节点1123的“真”路径和具有节点1124的“假”路径。如图11B可见,LSID仅用于存储指令,并且LSID在相反的断言的执行路径之间重叠。例如,由于节点1123具有具有LSID[0]和[1]的两个存储指令,因此LSID[0]可以重新用于节点1124中的单个存储指令。此外,可以为节点1124添加/插入在其目标字段中标识LSID[1]的无效指令,以便考虑所有可用的LSID,使得断言的指令p可以提交并且指令执行可以在节点1125处分支。
参考图11C,控制流程图1126类似于图11A中的图1102。然而,控制流程图1126的多个边已经被更新以指示在相关联的源代码部分已经被执行之后将要执行的存储器存储指令的数目。例如,节点1127不包括任何存储指令,并且在离开节点1127的边上计数被设置为0。节点1129的源代码部分包括2个存储指令,并且因此离开节点1129的边被设置为具有计数2。节点1130的源代码部分包括1个存储指令,并且因此离开节点1130的边被设置为具有计数1。节点1133具有一个存储指令,但是节点1133的出口处的计数被设置为2,这是存储指令的累计数目(在1130中是一个并且在1133中是一个),它将通过控制流图针对这个路径执行。此外,如图所示,节点1132的源代码部分不包括存储指令,而是插入了空指令,这将递增在节点1132的出口处指示为2的存储器存储指令计数。在节点1134,可以确定,当来自到达节点1134的任何路径的存储指令计数已经递增到2时,可以执行分支指令。在一些示例中,代替在节点1132中插入空指令,计数器可以简单地在节点1132的出口处递增到2,以便考虑节点1133中的非正在执行的存储指令。
参考图11D,控制流程图1140包括类似于图11A中的图的断言的指令p和q。然而,图1140示出了使用单个无效指令来使多个存储指令无效。更具体地,如果处理继续进行到节点1141、1142和1147,则具有LSID[2]、[3]、[4]、[5]和[6]的存储指令必须在节点1142处被无效。因此,可以生成单个空指令并且将其插入到节点1142中,其中可以在目标字段中指定多个LSID[2]-[6](例如,通过使用如图9所述的LSID掩码)。类似地,如果处理继续进行到节点1141、1143,则用于LSID[0]-[1](用于非正在执行的节点1142中的存储)的无效指令被插入在节点1143处。用于LSID[6]和[4]/[5]的无效指令分别插入节点1145和1146中。
XII.示例性的指令无效方法
图12-13是概述可以在所公开的技术的某些示例中使用的使存储器访问指令无效的示例方法的流程图。参考图12,当在第一指令块中接收到无效n指令时,示例方法1200在1210处开始。例如,可以为图11D中的节点1143接收无效指令。在1220,基于无效(空)指令的目标字段,针对多个存储器访问指令中的存储器访问指令获取指令标识。例如,可以在空指令的目标字段中对LSID[0]和[1]进行编码(例如,通过使用如图9所示的LSID掩码)。在1230,执行无效指令以使与指令标识相关联的存储器访问指令无效。例如,节点1143中的无效指令被执行以使具有LSID[0]和[1]的存储指令无效(例如,LSID[0]和[1]可以被标记为好像具有这些LSID的存储指令已经被执行)。在1240,基于无效的存储器访问指令,执行来自第一指令块的后续存储器访问指令。例如,在节点1143中的无效指令被执行并且具有LSID[0]-[1]的存储器存储被无效之后,可以通过执行节点1144中的断言的指令来恢复处理。
参考图13,当检索指示多个存储器存储指令的执行顺序的数据时,示例方法1300在1310处开始。例如,从指令块的头部510检索存储掩码515或LSID计数517。在1320,在指令执行期间检测断言的指令。例如,检测节点1106中的断言的指令p。在1330,确定多个存储器存储指令中的至少第一存储器存储指令,其中当断言的指令的条件满足时,将不执行存储器访问指令。例如,当指令p的条件为“真”并且节点1108被执行时,节点1110中具有LSID[2]的存储指令将不执行。在1340,生成无效指令,其中无效指令的目标字段标识第一存储器存储指令的加载/存储标识符(LSID)。例如,生成在其目标字段中标识LSID[2]的无效指令并且将其插入用于节点1108的指令中。在1350,使第一存储器存储指令(例如,具有LSID[2]的存储器存储)无效并且发出断言的指令(例如,指令p)。
XIII.示例性计算环境
图14示出了其中可以实现包括配置基于块的处理器的所描述的实施例、技术和工艺的合适的计算环境1400的通用示例。例如,计算环境1400可以实现用于配置处理器以根据一个或多个指令块进行操作或者将代码编译成用于执行这样的操作的计算机可执行指令的所公开的技术,如本文所述。
计算环境1400不旨在提出关于技术的使用或者功能的范围的任何限制,因为技术可以被实现在不同的通用或者专用计算环境中。例如,所公开的技术可以利用其他计算机系统配置被实现,包括手持式设备、多处理器系统、可编程消费者电子产品、网络PC、微型计算机、大型计算机,等等。所公开的技术还可以被实践在分布式计算环境中,其中任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块(包括用于基于块的指令块的可执行指令)可以被定位在本地存储器存储设备和远程存储器存储设备二者中。
参考图14,计算环境1400包括至少一个基于块的处理单元1410和存储器1420。在图14中,该最基本配置1430被包括在虚线内。基于块的处理单元1410执行计算机可执行指令并且可以是真实处理器或者虚拟处理器。在多处理系统中,多个处理单元执行计算机可执行指以增加处理能力,并且如此多个处理器可以同时运行。存储器1420可以是易失性存储器(例如,寄存器、高速缓存、RAM)、非易失性存储器(例如,ROM、EEPROM、闪速存储器等)、或者两者的组合。存储器1420存储可以例如实现在此所描述的技术的软件1480、图像和视频。计算环境可以具有附加的特征。例如,计算环境1400包括存储装置1440、一个或多个输入设备1450、一个或多个输出设备1460以及一个或多个通信连接1470。互连机制(未示出)(诸如总线、控制器或者网络)将计算环境1400的部件相互连接。通常,操作系统软件(未示出)提供用于在计算环境1400中执行的其他软件的操作环境,并且协调计算环境1400的部件的活动。
存储装置1440可以是可移除或者不可移除的,并且包括磁盘、磁带或者磁带盒、CD-ROM、CD-RW、DVD或者可以用于存储信息并且可以在计算环境1400内访问的任何其他介质。存储装置1440存储用于软件1480的指令、插入数据和消息,其可以用于实现在此所描述的技术。
(一个或多个)输入设备1450可以是触摸输入设备,诸如键盘、小键盘、鼠标、触屏显示器、笔或轨迹球、语音输入设备、扫描设备或者向计算环境1400提供输入的另一设备。对于音频而言,(一个或多个)输入设备1450可以是以模拟或者数字形式接受音频输入的声卡或者类似设备,或者向计算环境1400提供音频样本的CD-ROM读取器。(一个或多个)输出设备1460可以是显示器、打印机、扬声器、刻录机或者提供来自计算环境1400的输出的另一设备。
(一个或多个)通信连接1470实现通过通信介质(例如,连接网络)与另一计算实体的通信。通信介质传达诸如计算机可执行指令、压缩图形信息、视频或者调制数据信号中的其他数据的信息。(一个或多个)通信连接1470不限于有线连接(例如,兆比特或吉比特以太网、无限带宽、电气或光纤连接上的光纤信道),而且包括无线技术(例如,经由蓝牙、WiFi(IEEE 802.11a/b/n)、WiMax、蜂窝、卫星、激光、红外的RF连接)以及用于提供用于所公开的方法的网络连接的其他适合的通信连接。在虚拟主机环境中,(一个或多个)通信连接可以是由虚拟主机所提供的虚拟化网络连接。
可以使用实现计算云1490中的所公开的技术的全部或部分的计算机可执行指令执行所公开的方法的一些实施例。例如,所公开的编译器和/或基于块的处理器的服务器被定位在计算环境中,或者所公开的编译器可以在被定位在计算云1490中的服务器上执行。在一些示例中,所公开的编译器在传统的中央处理单元(例如,RISC或者CISC处理器)上执行。
计算机可读介质是可以在计算环境1400内访问的任何可用介质。以示例而非限制的方式,利用计算环境1400,计算机可读介质包括存储器1420和/或存储装置1440。如应当容易理解的,术语计算机可读存储介质包括用于数据存储的介质(诸如存储器1420和存储装置1440)而非传输介质(诸如调制数据信号)。
XIV.所公开的技术的附加示例
根据上文所讨论的示例在此讨论了所公开的主题的附加示例。
在一个实施例中,一种装置包括基于块的处理器。基于块的处理器包括被配置为取回并且执行多个指令块的一个或多个处理核。处理器还包括至少部分基于接收无效指令而被配置为基于无效指令的目标字段来获取用于多个存储器访问指令中的存储器访问指令的指令标识的控制单元。控制单元还被配置为使与指令标识相关联的存储器访问指令无效。存储器访问指令位于多个指令块中的第一指令块中。控制单元还被配置为基于无效的存储器访问指令来执行来自第一指令块的后续存储器访问指令。控制单元被配置为通过取回并且执行在第一指令块中编码的无效指令来使存储器访问指令无效。
该装置还包括被配置为存储指示多个存储器访问指令的执行顺序的数据的硬件结构。指示执行顺序的数据是至少部分基于针对第一指令块中的多个存储器访问指令编码的多个加载/存储标识符(LSID)的存储掩码。存储器访问指令是存储器存储指令,并且指令标识包括用于存储器存储指令的来自多个LSID的LSID。指令标识是LSID,并且控制单元还被配置为在无效期间将存储器访问指令的LSID标记为完成,好像存储器访问指令已经被执行。
该装置还包括指令译码器,指令译码器被配置为译码第一指令块的多个存储器访问指令并且检测至少一个断言的指令。断言的指令与第一断言的执行路径和第二断言的执行路径相关联。控制单元还被配置为在第一断言的执行路径中的指令的执行期间,检测第二断言的执行路径中的存储器存储指令,并且在执行第一断言的执行路径中的指令的同时使存储器存储指令无效,就像存储器存储指令已经被执行。在执行第一断言的执行路径中的指令的同时使存储器存储指令无效发生而不在第一指令块中插入单独的无效指令。
控制单元被配置为通过增加已经在第一指令块内执行的存储指令的计数来使存储器访问指令无效。控制单元被配置为当存储指令的计数达到预定值时执行后续存储器访问指令。控制单元还被配置为基于无效的存储器访问指令来提交第一指令块并且执行来自多个指令块中的至少第二指令块的至少一个指令。
在一个实施例中,一种操作处理器以执行具有多个存储器存储指令的指令块的方法包括检索指示多个存储器存储指令的执行顺序的数据。在指令执行期间检测断言的指令。当断言的指令的条件满足时,确定多个存储器存储指令中的至少第一存储器存储指令将不执行。生成无效指令,其中无效指令的目标字段标识第一存储器存储指令的加载/存储标识符(LSID)。然后发出断言的指令。目标字段还包括掩码和移位位,第一存储器存储指令的LSID基于掩码和移位位被标识。无效指令的目标字段包括标识多个存储器存储指令中的多个存储器存储指令的掩码。在指令块的执行期间,可以检测到断言的指令的条件不满足。然后使由无效指令标识的多个存储器存储指令无效。无效还包括继续后续存储器访问指令的执行,好像多个存储器存储指令已经被执行。第一存储器存储指令位于断言的指令的第一断言的执行路径中,并且该方法还包括在执行断言的指令的第二断言的执行路径中的指令期间执行无效指令。无效指令的执行包括将第一存储器存储指令的LSID标记为完成,好像第一存储器存储指令已经被执行。
在一个实施例中,一种或多种计算机可读存储介质,存储用于指令块的计算机可读指令,计算机可读指令在由基于块的处理器执行时引起处理器执行方法。计算机可读指令包括用于分析源代码和/或目标代码中编码的存储器访问以确定用于指令块的存储器依赖性的指令。计算机可读指令还包括用于将源代码和/或目标代码转换成用于指令块的计算机可执行代码的指令,计算机可执行代码包括可以用于生成一个或多个无效指令的存储器访问指令。计算机可读指令还包括用于将一个或多个无效指令存储在指令块中的指令。一个或多个无效指令包括标识至少一个存储器访问指令的加载/存储标识符的目标字段。
鉴于所公开的主题的原理可以应用的许多可能实施例,应当认识到所图示的实施例仅是优选的示例并且不应该当作将权利要求的范围限于那些优选的示例。相反,要求保护的主题的范围由所附的权利要求进行限定。我们因此根据我们的发明要求保护落在这些权利要求的范围内的全部内容。

Claims (33)

1.一种包括基于块的处理器的装置,所述基于块的处理器包括:
一个或多个处理核;以及
控制单元,至少部分基于执行在第一指令块中编码的无效指令被配置为使得所述处理核中的至少一个处理核:
基于所述无效指令的目标字段,获取用于在所述第一指令块中编码的多个存储器访问指令中的存储器访问指令的指令标识;
使与所述指令标识相关联的所述存储器访问指令无效,使得无效的所述存储器访问指令不执行;以及
基于无效的所述存储器访问指令,执行来自所述第一指令块的后续存储器访问指令。
2.根据权利要求1所述的装置,其中所述控制单元被配置为通过取回并且执行在所述第一指令块中编码的所述无效指令来使所述存储器访问指令无效。
3.根据权利要求1所述的装置,还包括:
硬件结构,被配置为存储指示所述多个存储器访问指令的执行顺序的数据,其中指示执行顺序的所述数据是至少部分基于针对所述第一指令块中的所述多个存储器访问指令编码的多个加载/存储标识符(LSID)的存储掩码。
4.根据权利要求3所述的装置,其中所述存储器访问指令是存储器存储指令,并且所述指令标识包括用于所述存储器存储指令的来自所述多个LSID的LSID。
5.根据权利要求1所述的装置,其中所述指令标识是LSID,并且所述控制单元还被配置为在所述无效期间将所述存储器访问指令的所述LSID标记为完成,好像所述存储器访问指令已经被执行。
6.根据权利要求1所述的装置,还包括指令译码器,所述指令译码器被配置为:
译码所述第一指令块的所述多个存储器访问指令;以及
检测所述多个存储器访问指令的至少一个断言的指令,所述断言的指令与第一断言的执行路径和第二断言的执行路径相关联。
7.根据权利要求6所述的装置,其中所述控制单元还被配置为在所述第一断言的执行路径中的指令的执行期间:
检测所述第二断言的执行路径中的存储器存储指令;以及
在执行所述第一断言的执行路径中的所述指令的同时使所述存储器存储指令无效,好像所述存储器存储指令已经被执行。
8.根据权利要求7所述的装置,其中在执行所述第一断言的执行路径中的所述指令的同时使所述存储器存储指令无效发生而不在所述第一指令块中插入单独的无效指令。
9.根据权利要求1所述的装置,其中所述控制单元被配置为通过增加已经在所述第一指令块内被执行的存储指令的计数来使所述存储器访问指令无效。
10.根据权利要求9所述的装置,其中所述控制单元被配置为当所述存储指令的计数达到预定值时执行所述后续存储器访问指令。
11.根据权利要求10所述的装置,其中所述控制单元还被配置为:
基于无效的所述存储器访问指令,提交所述第一指令块并且执行来自至少不同的第二指令块的至少一个指令。
12.一种操作处理器以执行包括多个存储器存储指令的指令块的方法,所述方法包括:
检索指示所述多个存储器存储指令的执行顺序的数据;
在指令执行期间检测断言的指令;
当所述断言的指令的条件被满足时,确定所述多个存储器存储指令中的至少一个断言的第一存储器存储指令将不执行;
生成无效指令,其中所述无效指令的目标字段标识指示用于执行所述第一存储器存储指令的相对顺序的加载/存储标识符(LSID);以及
发出所述断言的指令。
13.根据权利要求12所述的方法,其中所述目标字段还包括掩码和移位位,所述第一存储器存储指令的所述LSID基于所述掩码和所述移位位被标识。
14.根据权利要求12所述的方法,其中所述无效指令的所述目标字段包括标识所述多个存储器存储指令中的多个存储器存储指令的掩码。
15.根据权利要求14所述的方法,还包括:
在所述指令块的执行期间检测所述断言的指令的所述条件不满足;以及
使由所述无效指令标识的所述多个存储器存储指令无效。
16.根据权利要求15所述的方法,其中所述无效还包括:
继续后续存储器访问指令的执行,好像所述多个存储器存储指令已经被执行。
17.根据权利要求12所述的方法,其中所述第一存储器存储指令位于所述断言的指令的第一断言的执行路径中,并且所述方法还包括:
在执行所述断言的指令的第二断言的执行路径中的指令期间执行所述无效指令。
18.根据权利要求17所述的方法,其中所述无效指令的所述执行包括:
将所述第一存储器存储指令的所述LSID标记为完成,好像所述第一存储器存储指令已经被执行。
19.根据权利要求12所述的方法,还包括存储用于指令块的计算机可读指令,所述指令块在由基于块的处理器执行时使得所述处理器执行所述的如下动作:检索数据,检测所述断言的指令,确定至少一个断言的、第一存储器存储指令,生成所述无效指令,以及发出所述断言的指令。
20.一种或多种存储计算机可读指令的计算机可读存储介质,所述计算机可读指令当由处理器执行时使得所述处理器执行方法,所述计算机可读指令包括:
用于分析在源代码和/或目标代码中编码的存储器访问以确定用于由基于块的处理器可执行的指令块的存储器依赖性的指令;
用于将所述源代码和/或目标代码转换成用于所述指令块的计算机可执行代码的指令,所述计算机可执行代码包括:
包括至少一个断言的存储器访问指令的存储器访问指令,以及
包括目标字段的至少一个无效指令,所述目标字段标识指示用于执行所述存储器访问指令中的至少一个存储器访问指令的相对顺序的加载/存储标识符。
21.一种方法,包括:
响应于执行在第一指令块中编码的无效指令,使得处理器:
基于所述无效指令的目标字段,获取用于在所述第一指令块中编码的多个存储器访问指令的存储器访问指令的指令标识;
使与所述指令标识相关联的所述存储器访问指令无效,使得无效的所述存储器访问指令不执行;以及
基于无效的所述存储器访问指令,执行来自是第一指令块的后续存储器访问指令。
22.根据权利要求21所述的方法,还包括,由所述处理器:
通过取回并且执行在所述第一指令块中编码的所述无效指令来使所述存储器访问指令无效。
23.根据权利要求22所述的方法,还包括,由所述处理器:
在硬件结构中存储数据,所述数据指示所述多个存储器访问指令的执行顺序,其中指示执行顺序的所述数据是至少部分基于针对所述第一指令块中的所述多个存储器访问指令编码的多个加载/存储标识符(LSID)的存储掩码。
24.根据权利要求23所述的方法,其中所述存储器访问指令是存储器存储指令,并且所述指令标识包括用于所述存储器存储指令的来自所述多个LSID的LSID。
25.根据权利要求21所述的方法,其中所述指令标识是LSID,并且其中所述方法还包括在所述无效期间将所述存储器访问指令的所述LSID标记为完成,好像所述存储器访问指令已经被执行。
26.根据权利要求21所述的方法,还包括,由所述处理器:
通过增加已经在所述第一指令块内被执行的存储指令的计数来使所述存储器访问指令无效。
27.根据权利要求26所述的方法,还包括:
当所述存储指令的计数达到预定值时执行所述后续存储器访问指令。
28.根据权利要求26所述的方法,还包括:
基于无效的所述存储器访问指令,提交所述第一指令块并且执行来自至少不同的第二指令块的至少一个指令。
29.一种装置,包括基于块的处理器核,所述核包括:
控制电路,被配置为使得所述核:
检索指示多个存储器存储指令的执行顺序的数据;
在指令执行期间检测断言的指令;
当所述断言的指令的条件被满足时,确定所述多个存储器存储指令中的至少一断言的第一存储器存储指令将不执行;
生成无效指令,其中所述无效指令的目标字段标识指示用于执行所述第一存储器存储指令的相对顺序的加载/存储标识符(LSID);以及
发出所述断言的指令。
30.根据权利要求29所述的装置,其中所述目标字段还包括掩码和移位位,所述第一存储器存储指令的所述LSID基于所述掩码和所述移位位被标识。
31.根据权利要求29所述的装置,其中所述无效指令的所述目标字段包括标识所述多个存储器存储指令中的多个存储器存储指令的掩码。
32.根据权利要求31所述的装置,其中所述控制电路还被配置为:
检测所述断言的指令的所述条件不被满足;以及
使由所述无效指令标识的所述多个存储器存储指令无效。
33.根据权利要求31所述的装置,其中所述控制电路还被配置为:
执行后续存储器访问指令,好像所述多个存储器存储指令已经被执行。
CN201680054479.4A 2015-09-19 2016-09-13 在目标字段中存储无效 Active CN108027733B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562221003P 2015-09-19 2015-09-19
US62/221,003 2015-09-19
US15/060,404 US10061584B2 (en) 2015-09-19 2016-03-03 Store nullification in the target field
US15/060,404 2016-03-03
PCT/US2016/051402 WO2017048641A1 (en) 2015-09-19 2016-09-13 Store nullification in the target field

Publications (2)

Publication Number Publication Date
CN108027733A CN108027733A (zh) 2018-05-11
CN108027733B true CN108027733B (zh) 2022-01-21

Family

ID=66000904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680054479.4A Active CN108027733B (zh) 2015-09-19 2016-09-13 在目标字段中存储无效

Country Status (4)

Country Link
US (1) US10061584B2 (zh)
EP (1) EP3350687B1 (zh)
CN (1) CN108027733B (zh)
WO (1) WO2017048641A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2514618B (en) * 2013-05-31 2020-11-11 Advanced Risc Mach Ltd Data processing systems
US11681531B2 (en) 2015-09-19 2023-06-20 Microsoft Technology Licensing, Llc Generation and use of memory access instruction order encodings
US10198263B2 (en) * 2015-09-19 2019-02-05 Microsoft Technology Licensing, Llc Write nullification
US10031756B2 (en) * 2015-09-19 2018-07-24 Microsoft Technology Licensing, Llc Multi-nullification
US10180840B2 (en) 2015-09-19 2019-01-15 Microsoft Technology Licensing, Llc Dynamic generation of null instructions
US11144497B2 (en) 2018-08-16 2021-10-12 Tachyum Ltd. System and method of populating an instruction word
US10824429B2 (en) * 2018-09-19 2020-11-03 Microsoft Technology Licensing, Llc Commit logic and precise exceptions in explicit dataflow graph execution architectures
US10929139B2 (en) 2018-09-27 2021-02-23 Qualcomm Incorporated Providing predictive instruction dispatch throttling to prevent resource overflows in out-of-order processor (OOP)-based devices
CN115543449B (zh) * 2022-11-28 2023-03-14 北京微核芯科技有限公司 处理器设置方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452378A (zh) * 2007-12-05 2009-06-10 国际商业机器公司 阻止指令提取调节的方法、处理器和装置
CN101727311A (zh) * 2009-12-03 2010-06-09 浙江大学 用于降低指令缓存功耗的分支序列缓冲器

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5666506A (en) 1994-10-24 1997-09-09 International Business Machines Corporation Apparatus to dynamically control the out-of-order execution of load/store instructions in a processor capable of dispatchng, issuing and executing multiple instructions in a single processor cycle
US5790822A (en) 1996-03-21 1998-08-04 Intel Corporation Method and apparatus for providing a re-ordered instruction cache in a pipelined microprocessor
US5920724A (en) 1996-03-28 1999-07-06 Intel Corporation Software pipelining a hyperblock loop
US5796997A (en) 1996-05-15 1998-08-18 Hewlett-Packard Company Fast nullify system and method for transforming a nullify function into a select function
US5799167A (en) 1996-05-15 1998-08-25 Hewlett-Packard Company Instruction nullification system and method for a processor that executes instructions out of order
US5845103A (en) 1997-06-13 1998-12-01 Wisconsin Alumni Research Foundation Computer with dynamic instruction reuse
US5943501A (en) 1997-06-27 1999-08-24 Wisconsin Alumni Research Foundation Multiple processor, distributed memory computer with out-of-order processing
US5930158A (en) 1997-07-02 1999-07-27 Creative Technology, Ltd Processor with instruction set for audio effects
US6182210B1 (en) 1997-12-16 2001-01-30 Intel Corporation Processor having multiple program counters and trace buffers outside an execution pipeline
US6164841A (en) 1998-05-04 2000-12-26 Hewlett-Packard Company Method, apparatus, and product for dynamic software code translation system
US6988183B1 (en) 1998-06-26 2006-01-17 Derek Chi-Lan Wong Methods for increasing instruction-level parallelism in microprocessors and digital system
US6115808A (en) 1998-12-30 2000-09-05 Intel Corporation Method and apparatus for performing predicate hazard detection
US6813705B2 (en) 2000-02-09 2004-11-02 Hewlett-Packard Development Company, L.P. Memory disambiguation scheme for partially redundant load removal
US6918032B1 (en) 2000-07-06 2005-07-12 Intel Corporation Hardware predication for conditional instruction path branching
KR20030007403A (ko) 2000-11-27 2003-01-23 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 데이터 프로세싱 장치
US7032217B2 (en) 2001-03-26 2006-04-18 Intel Corporation Method and system for collaborative profiling for continuous detection of profile phase transitions
JP3702815B2 (ja) 2001-07-12 2005-10-05 日本電気株式会社 プロセッサ間レジスタ継承方法及びその装置
JP3564445B2 (ja) * 2001-09-20 2004-09-08 松下電器産業株式会社 プロセッサ、コンパイル装置及びコンパイル方法
WO2003038645A2 (en) 2001-10-31 2003-05-08 University Of Texas A scalable processing architecture
WO2003088048A1 (en) 2002-04-08 2003-10-23 University Of Texas System Non-uniform cache apparatus, systems, and methods
JP3804941B2 (ja) 2002-06-28 2006-08-02 富士通株式会社 命令フェッチ制御装置
US7299458B2 (en) 2002-10-31 2007-11-20 Src Computers, Inc. System and method for converting control flow graph representations to control-dataflow graph representations
EP1731998A1 (en) 2004-03-29 2006-12-13 Kyoto University Data processing device, data processing program, and recording medium containing the data processing program
US7571284B1 (en) 2004-06-30 2009-08-04 Sun Microsystems, Inc. Out-of-order memory transactions in a fine-grain multithreaded/multi-core processor
US7552318B2 (en) 2004-12-17 2009-06-23 International Business Machines Corporation Branch lookahead prefetch for microprocessors
US7853777B2 (en) 2005-02-04 2010-12-14 Mips Technologies, Inc. Instruction/skid buffers in a multithreading microprocessor that store dispatched instructions to avoid re-fetching flushed instructions
US7380038B2 (en) 2005-02-04 2008-05-27 Microsoft Corporation Priority registers for biasing access to shared resources
US8290095B2 (en) 2006-03-23 2012-10-16 Qualcomm Incorporated Viterbi pack instruction
EP2477109B1 (en) 2006-04-12 2016-07-13 Soft Machines, Inc. Apparatus and method for processing an instruction matrix specifying parallel and dependent operations
US8332452B2 (en) 2006-10-31 2012-12-11 International Business Machines Corporation Single precision vector dot product with “word” vector write mask
EP2523101B1 (en) 2006-11-14 2014-06-04 Soft Machines, Inc. Apparatus and method for processing complex instruction formats in a multi- threaded architecture supporting various context switch modes and virtualization schemes
US7600077B2 (en) * 2007-01-10 2009-10-06 Arm Limited Cache circuitry, data processing apparatus and method for handling write access requests
US8181168B1 (en) 2007-02-07 2012-05-15 Tilera Corporation Memory access assignment for parallel processing architectures
US8443029B2 (en) * 2007-03-01 2013-05-14 International Business Machines Corporation Round for reround mode in a decimal floating point instruction
US8447911B2 (en) 2007-07-05 2013-05-21 Board Of Regents, University Of Texas System Unordered load/store queue
US8180997B2 (en) 2007-07-05 2012-05-15 Board Of Regents, University Of Texas System Dynamically composing processor cores to form logical processors
JP2009026106A (ja) 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 命令コード圧縮方法と命令フェッチ回路
US8321850B2 (en) 2008-06-06 2012-11-27 Vmware, Inc. Sharing and persisting code caches
US20100146209A1 (en) 2008-12-05 2010-06-10 Intellectual Ventures Management, Llc Method and apparatus for combining independent data caches
US8127119B2 (en) 2008-12-05 2012-02-28 The Board Of Regents Of The University Of Texas System Control-flow prediction using multiple independent predictors
US20100325395A1 (en) 2009-06-19 2010-12-23 Doug Burger Dependence prediction in a memory system
US8433885B2 (en) 2009-09-09 2013-04-30 Board Of Regents Of The University Of Texas System Method, system and computer-accessible medium for providing a distributed predicate prediction
US10698859B2 (en) 2009-09-18 2020-06-30 The Board Of Regents Of The University Of Texas System Data multicasting with router replication and target instruction identification in a distributed multi-core processing architecture
US20110078424A1 (en) 2009-09-30 2011-03-31 International Business Machines Corporation Optimizing program code using branch elimination
US8464002B2 (en) 2009-10-14 2013-06-11 Board Of Regents Of The University Of Texas System Burst-based cache dead block prediction
WO2011067896A1 (en) 2009-12-02 2011-06-09 Mush-A Co., Ltd. Data processing apparatus, data processing system, packet, recording medium, storage device, and data processing method
JP5057256B2 (ja) 2009-12-02 2012-10-24 株式会社Mush−A データ処理装置、データ処理システムおよびデータ処理方法
CN102096629B (zh) * 2009-12-14 2013-09-25 华为技术有限公司 经过性断点设置、调试方法和装置
EP2519876A1 (en) 2009-12-28 2012-11-07 Hyperion Core, Inc. Optimisation of loops and data flow sections
GB201001621D0 (en) 2010-02-01 2010-03-17 Univ Catholique Louvain A tile-based processor architecture model for high efficiency embedded homogenous multicore platforms
US8850166B2 (en) * 2010-02-18 2014-09-30 International Business Machines Corporation Load pair disjoint facility and instruction therefore
US8201024B2 (en) 2010-05-17 2012-06-12 Microsoft Corporation Managing memory faults
KR101731742B1 (ko) 2010-06-18 2017-04-28 보드 오브 리전츠 더 유니버시티 오브 텍사스 시스템 결합된 분기 타깃 및 프레디킷 예측
WO2012107800A1 (en) 2011-02-11 2012-08-16 Freescale Semiconductor, Inc. Integrated circuit devices and methods for scheduling and executing a restricted load operation
US8683261B2 (en) * 2011-07-20 2014-03-25 International Business Machines Corporation Out of order millicode control operation
US9632779B2 (en) 2011-12-19 2017-04-25 International Business Machines Corporation Instruction predication using instruction filtering
WO2013095508A1 (en) * 2011-12-22 2013-06-27 Intel Corporation Speculative cache modification
US9304776B2 (en) 2012-01-31 2016-04-05 Oracle International Corporation System and method for mitigating the impact of branch misprediction when exiting spin loops
US9513922B2 (en) 2012-04-20 2016-12-06 Freescale Semiconductor, Inc. Computer system and a method for generating an optimized program code
JP2014006807A (ja) * 2012-06-26 2014-01-16 Fujitsu Ltd 演算処理装置、キャッシュメモリ制御装置及びキャッシュメモリの制御方法
US9003225B2 (en) * 2012-10-17 2015-04-07 Advanced Micro Devices, Inc. Confirming store-to-load forwards
US9361111B2 (en) 2013-01-09 2016-06-07 Arm Limited Tracking speculative execution of instructions for a register renaming data store
US9400653B2 (en) 2013-03-14 2016-07-26 Samsung Electronics Co., Ltd. System and method to clear and rebuild dependencies
US9792252B2 (en) 2013-05-31 2017-10-17 Microsoft Technology Licensing, Llc Incorporating a spatial array into one or more programmable processor cores
GB2515076B (en) 2013-06-13 2020-07-15 Advanced Risc Mach Ltd A data processing apparatus and method for handling retrieval of instructions from an instruction cache
US9400651B2 (en) 2013-09-24 2016-07-26 Apple Inc. Early issue of null-predicated operations
US9317284B2 (en) 2013-09-24 2016-04-19 Apple Inc. Vector hazard check instruction with reduced source operands
US9547496B2 (en) 2013-11-07 2017-01-17 Microsoft Technology Licensing, Llc Energy efficient multi-modal instruction issue
US9448936B2 (en) 2014-01-13 2016-09-20 Apple Inc. Concurrent store and load operations
US10180840B2 (en) 2015-09-19 2019-01-15 Microsoft Technology Licensing, Llc Dynamic generation of null instructions
US10198263B2 (en) * 2015-09-19 2019-02-05 Microsoft Technology Licensing, Llc Write nullification
US10031756B2 (en) * 2015-09-19 2018-07-24 Microsoft Technology Licensing, Llc Multi-nullification
US11681531B2 (en) * 2015-09-19 2023-06-20 Microsoft Technology Licensing, Llc Generation and use of memory access instruction order encodings
US20170083331A1 (en) 2015-09-19 2017-03-23 Microsoft Technology Licensing, Llc Memory synchronization in block-based processors

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452378A (zh) * 2007-12-05 2009-06-10 国际商业机器公司 阻止指令提取调节的方法、处理器和装置
CN101727311A (zh) * 2009-12-03 2010-06-09 浙江大学 用于降低指令缓存功耗的分支序列缓冲器

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A New GA Method for Array Pattern Synthesis with Null Steering;Shang Fei et al.;《The 2006 4th Asia-Pacific Conference on Environmental Electromagnetics》;20061211;全文 *
A.Smith et al..Compiling for EDGE architectures.《International Symposium on Code Generation and Optimization》.2006,引言第1-10段,第2节1-2段,第2.1节1-3段,第3.6节1-5段,图1,图3. *
Compiling for EDGE architectures;A.Smith et al.;《International Symposium on Code Generation and Optimization》;20060410;引言第1-10段,第2节1-2段,第2.1节1-3段,第3.6节1-5段,图1,图3 *
Dataflow Predication;Aaron Smith et al.;《2006 39th Annual IEEE/ACM International Symposium on Microarchitecture 》;20061226;全文 *
Distributed Microarchitectural Protocols in the TRIPS Prototype Processor;Karthikeyan Sankaralingam et al.;《2006 39th Annual IEEE/ACM International Symposium on Microarchitecture 》;20061226;引言第3-4段,第2节1-2段,第4.2节1-5段,图2,图5 *
以基本块为单位的非顺序指令预取;沈立 等;《计算机工程与科学》;20030430(第4期);全文 *

Also Published As

Publication number Publication date
US20170083328A1 (en) 2017-03-23
US10061584B2 (en) 2018-08-28
EP3350687A1 (en) 2018-07-25
EP3350687B1 (en) 2022-04-20
CN108027733A (zh) 2018-05-11
WO2017048641A1 (en) 2017-03-23

Similar Documents

Publication Publication Date Title
CN108027769B (zh) 使用寄存器访问指令发起指令块执行
CN108027767B (zh) 寄存器读取/写入排序
CN108027773B (zh) 存储器访问指令顺序编码的生成和使用
CN108027770B (zh) 用于数据流isa的密集读取编码
CN108027731B (zh) 针对基于块的处理器的调试支持
CN108027733B (zh) 在目标字段中存储无效
US20170083319A1 (en) Generation and use of block branch metadata
US10198263B2 (en) Write nullification
US10445097B2 (en) Multimodal targets in a block-based processor
CN108027734B (zh) 空指令的动态生成
US10031756B2 (en) Multi-nullification
US20170083331A1 (en) Memory synchronization in block-based processors
US20180329708A1 (en) Multi-nullification
CN108027735B (zh) 用于操作处理器的装置、方法和计算机可读存储介质
WO2017048645A1 (en) Multimodal targets in a block-based processor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant