CN108112269A - 多重无效 - Google Patents

多重无效 Download PDF

Info

Publication number
CN108112269A
CN108112269A CN201680054133.4A CN201680054133A CN108112269A CN 108112269 A CN108112269 A CN 108112269A CN 201680054133 A CN201680054133 A CN 201680054133A CN 108112269 A CN108112269 A CN 108112269A
Authority
CN
China
Prior art keywords
instruction
register
block
memory
write
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201680054133.4A
Other languages
English (en)
Inventor
D·C·伯格
A·L·史密斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN108112269A publication Critical patent/CN108112269A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/3016Decoding the operand specifier, e.g. specifier format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/3648Software debugging using additional hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/3648Software debugging using additional hardware
    • G06F11/3656Software debugging using additional hardware using a specific debug interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0862Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • G06F12/1009Address translation using page tables, e.g. page table structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4204Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
    • G06F13/4221Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8007Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors single instruction multiple data [SIMD] multiprocessors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/22Microcontrol or microprogram arrangements
    • G06F9/26Address formation of the next micro-instruction ; Microprogram storage or retrieval arrangements
    • G06F9/262Arrangements for next microinstruction selection
    • G06F9/268Microinstruction selection not based on processing results, e.g. interrupt, patch, first cycle store, diagnostic programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30021Compare instructions, e.g. Greater-Than, Equal-To, MINMAX
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • G06F9/30038Instructions to perform operations on packed data, e.g. vector, tile or matrix operations using a mask
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30043LOAD or STORE instructions; Clear instruction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30047Prefetch instructions; cache control instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • G06F9/30058Conditional branch instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30072Arrangements for executing specific machine instructions to perform conditional operations, e.g. using predicates or guards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/30087Synchronisation or serialisation instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/3009Thread control instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30101Special purpose registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30105Register structure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/3012Organisation of register space, e.g. banked or distributed register file
    • G06F9/30138Extension of register space, e.g. register cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/3016Decoding the operand specifier, e.g. specifier format
    • G06F9/30167Decoding the operand specifier, e.g. specifier format of immediate specifier, e.g. constants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30181Instruction operation extension or modification
    • G06F9/30189Instruction operation extension or modification according to execution mode, e.g. mode flag
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/32Address formation of the next instruction, e.g. by incrementing the instruction counter
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/345Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/35Indirect addressing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3802Instruction prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3802Instruction prefetching
    • G06F9/3804Instruction prefetching for branches, e.g. hedging, branch folding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3818Decoding for concurrent execution
    • G06F9/3822Parallel decoding, e.g. parallel decode units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3824Operand accessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3824Operand accessing
    • G06F9/3826Bypassing or forwarding of data results, e.g. locally between pipeline stages or within a pipeline stage
    • G06F9/3828Bypassing or forwarding of data results, e.g. locally between pipeline stages or within a pipeline stage with global bypass, e.g. between pipelines, between clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3824Operand accessing
    • G06F9/383Operand prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3838Dependency mechanisms, e.g. register scoreboarding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3842Speculative instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3842Speculative instruction execution
    • G06F9/3848Speculative instruction execution using hybrid branch prediction, e.g. selection between prediction techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3853Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution of compound instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3856Reordering of instructions, e.g. using queues or age tags
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3858Result writeback, i.e. updating the architectural state or memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3858Result writeback, i.e. updating the architectural state or memory
    • G06F9/38585Result writeback, i.e. updating the architectural state or memory with result invalidation, e.g. nullification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3867Concurrent instruction execution, e.g. pipeline or look ahead using instruction pipelines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3889Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by multiple instructions, e.g. MIMD, decoupled access or execute
    • G06F9/3891Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by multiple instructions, e.g. MIMD, decoupled access or execute organised in groups of units sharing resources, e.g. clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/466Transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/526Mutual exclusion algorithms
    • G06F9/528Mutual exclusion algorithms by using speculative mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0811Multiuser, multiprocessor or multiprocessing cache systems with multilevel cache hierarchies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0875Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with dedicated cache, e.g. instruction or stack
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7867Architectures of general purpose stored program computers comprising a single central processing unit with reconfigurable architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/45Caching of specific data in cache memory
    • G06F2212/452Instruction code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/60Details of cache memory
    • G06F2212/602Details relating to cache prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/60Details of cache memory
    • G06F2212/604Details relating to cache allocation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/62Details of cache specific to multiprocessor cache arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/3012Organisation of register space, e.g. banked or distributed register file
    • G06F9/3013Organisation of register space, e.g. banked or distributed register file according to data content, e.g. floating-point registers, address registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/32Address formation of the next instruction, e.g. by incrementing the instruction counter
    • G06F9/321Program or instruction counter, e.g. incrementing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/355Indexed addressing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/355Indexed addressing
    • G06F9/3557Indexed addressing using program counter as base address
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Executing Machine-Instructions (AREA)

Abstract

公开了用于使在无效指令的目标字段中标识的存储器存储指令和一个或多个寄存器无效的装置和方法。在所公开的技术的一些示例中,一种装置可以包括存储器,以及一个或多个基于块的处理器核,所述一个或多个基于块的处理器核被配置为取回并且执行多个指令块。核其中之一可以包括控制单元,所述控制单元至少部分基于接收到无效指令而被配置为基于无效指令的第一目标字段和第二目标字段来获取多个存储器访问指令中的存储器访问指令的指令标识和多个寄存器中的至少一个寄存器的寄存器标识。使与指令标识相关联的至少一个寄存器和存储器访问指令无效。基于无效的存储器访问指令,来执行后续存储器访问指令。

Description

多重无效
背景技术
由于摩尔定律所预测的持续的晶体管扩展,微处理器已经从晶体管数的持续增加、集成电路成本、制造资本、时钟频率、以及能量效率中收益,而相关的处理器指令集架构(ISA)却很小变化。然而,从在过去40年里驱动半导体工业的光刻扩展实现的益处正在放缓或者甚至反转。精简指令集计算(RISC)架构已经成为处理器设计中的主导典范很多年。乱序超标量实现尚未在面积或性能方面展现出持续改进。因此,存在对于扩展性能改进的处理器ISA改进的足够机会。
发明内容
公开了用于配置、操作和编译基于块的处理器架构(BB-ISA)(包括显式数据图执行(EDGE)架构)的代码的方法、装置和计算机可读存储设备。所描述的用于例如改进处理器性能和/或减少能量消耗的解决方案的技术和工具可以单独实现,或者以彼此的各种组合来实现。如下面将更充分地描述的,所描述的技术和工具可以被实现在以下各项中:数字信号处理器、微处理器、专用集成电路(ASIC)、软处理器(例如,使用可重新配置逻辑被实现在现场可编程门阵列(FPGA)中的微处理器核)、可编程逻辑、或者其他适合的逻辑电路。如对于本领域的普通技术人员而言将容易地明显的,所公开的技术可以被实现在各种计算平台中,包括但不限于服务器、大型机、手机、智能电话、PDA、手持式设备、手持式计算机、触摸屏平板设备、平板计算机、可穿戴计算机、以及膝上型计算机。
在所公开技术的一些示例中,一种基于块的处理器被配置为基于硬件结构执行指令块内的至少一个断言指令,硬件结构存储指示将在指令块执行期间使用的一个或多个可用寄存器的数据、指示存储器访问指令的相对顺序的数据、存储器访问指令的总数(例如,存储器存储指令)和/或将在与断言指令相关联的条件满足(或不满足)时执行的寄存器写入指令的总数。存储器访问指令的顺序可以通过加载/存储标识符(LSID)指示。一旦块产生其所有输出(即,寄存器写入、存储器存储和至少一个分支指令),指令块可以被提交(即,它完成并且后续块可以被执行)。参考指令块中的断言指令、存储器存储指令和寄存器写入指令可以位于断言指令的两个断言执行路径中。然而,由于将仅执行断言执行路径其中之一(基于指令条件是否满足),所以非执行的断言路径中的存储器访问指令(例如,存储器存储指令)和寄存器写入指令(例如,向寄存器写入结果的一个或多个Add指令)必须在当前执行的断言路径中被无效,以便考虑所有寄存器写入和存储器访问指令,并且提交断言指令。
在一些示例中,编译器可以生成至少一个无效指令,其可以用于使出现在断言指令的非执行断言路径中的存储器访问指令和寄存器写入指令(或寄存器写入指令正在写入的寄存器)无效。更具体地,无效指令可以在第一目标字段中指定存储器访问指令(例如,存储器存储指令)的LSID并且在第二目标字段中指定寄存器编号(或寄存器写入指令编号)。无效指令的第一目标字段中的LSID可以用于使相应的存储器访问指令无效,就好像存储器访问指令已被执行。第二目标字段中的寄存器编号(或寄存器写入指令编号)可以用于使正在写入寄存器的寄存器写入指令无效,就好像寄存器写入指令已被执行并且寄存器写入已经完成。
在一些示例中,无效指令可以在其第一目标字段中包括第一偏移位和LSID掩码,使得可以通过使用第一偏移位和LSID掩码来覆盖一定范围的LSID(例如,相同LSID掩码可以基于偏移位来指定不同的LSID)。无效指令还可以在其第二目标字段中包括第二偏移位和寄存器掩码,使得可以通过使用第二偏移位和寄存器掩码来覆盖一定范围的寄存器编号。在一些示例中,可以使用偏移字段来代替偏移位,使得可以针对每个目标字段使用每个偏移字段的2个或更多比特。在这一点上,基于由LSID掩码覆盖的LSID和寄存器的数目以及存储在无效指令的两个目标字段中的寄存器掩码,每个偏移字段可以具有一个、两个或更多偏移位,其可以是实现特定的决定。
在一些示例中,代替生成无效指令,基于块的处理器可以检测存储器访问指令以及出现在断言指令的非执行分支中的寄存器写入指令,并且可以继续执行断言指令的其余分支,就好像非执行分支中的存储器访问指令和寄存器写入指令已被执行。在一些示例中,处理器可以使用计数器(例如,存储器访问指令的总计数和寄存器写入指令的总计数),并且可以通过递增相应计数器(并且在计数器达到指令块的存储器访问指令的总数和寄存器写入指令的总数时提交指令块)来使存储器访问指令和寄存器写入指令无效。
提供本发明内容以引入以在具体实施方式中下面进一步描述的简化形式的概念的选择。本发明内容并非旨在标识要求保护的主题的关键特征或基本特征,其也并非旨在用于限制要求保护的主题的范围。所公开的主题的前述和其他目标、特征以及优点将从参考附图进行的以下具体实施方式变得更加明显。
附图说明
图1示出了可以在所公开的技术的一些示例中使用的基于块的处理器核。
图2图示了可以在所公开的技术的一些示例中使用的基于块的处理器核。
图3图示了根据所公开的技术的某些示例的多个指令块。
图4示出了可以在所公开的技术的一些示例中使用的源码和指令块的部分。
图5示出了可以在所公开的技术的一些示例中使用的基于块的处理器头部和指令。
图6是示出在被映射、执行和引退时指派给指令块的多个状态的状态图。
图7示出了可以在所公开的技术的一些示例中使用的多个指令块和处理器核。
图8示出了可以在所公开的技术的某些示例中使用的使用两个偏移字段、LSID掩码和寄存器掩码的示例多重无效指令。
图9示出了可以在所公开的技术的某些示例中使用的分别用于使多个存储指令和多个寄存器无效的示例LSID掩码和寄存器掩码。
图10示出了可以在所公开的技术的某些示例中使用的在目标字段中具有LSID和寄存器编号的示例无效指令。
图11A-11B示出了可以在所公开的技术的某些示例中使用的具有使用多重无效的存储指令无效和寄存器无效的示例性控制流程图。
图12-13是概述可以在所公开的技术的某些示例中使用的使用多重无效来使存储器访问指令和寄存器无效的示例方法的流程图。
图14是图示用于实现所公开的技术的一些实施例的适合的计算环境的方块图。
具体实施方式
I.一般考虑
在未旨在以任何方式进行限制的代表性实施例的上下文中阐述了本公开内容。
如在本申请中所使用的,除非上下文清楚地指明,否则单数形式“一”、“一种”和“该”包括复数形式。此外,术语“包括”意味着“包含”。而且,术语“耦合的”涵盖机械的、电的、磁性的、光学的以及将多个项耦合或链接在一起的其他实际方式,并且不排除耦合项之间的中间元件的存在。另外,如在此所使用的,术语“和/或”意味着短语中的任何一项或多项的组合。
在此所描述的系统、方法和装置不应当以任何方式被解释为限制性的。相反,本公开涉及彼此单独并且以各种组合和子组合的各种所公开的实施例的所有新颖和非显而易见的特征和方面。所公开的系统、方法和装置既不限于任何特定方面或者特征或者其组合,所公开的内容和方法也不要求任何一个或多个特定优点存在或者问题被解决。此外,所公开的实施例的任何特征或者方面可以彼此以各种组合和子组合被使用。
虽然为了方便呈现而以特定顺序的次序描述所公开的方法中的一些方法的操作,但是应当理解,除非特定排序由下面阐述的特定语言所要求,否则说明书的这种方式涵盖重新布置。例如,顺序地描述的操作可以在一些情况下重新布置或者并行地执行。此外,出于简单的缘故,附图可能未示出所公开的内容和方法可以结合其他内容和方法使用的各种方式。此外,说明书有时使用类似“产生”、“生成”、“显示”、“接收”、“发射”、“验证”、“执行”和“发起”的术语来描述所公开的方法。这些术语是所执行的实际操作的高层描述。对应于这些术语的实际操作将取决于特定实现而变化并且是由本领域的普通技术人员容易地可辨别的。
参考本公开的装置或者方法在此所呈现的操作理论、科学原理或者其他理论描述已经出于更好的理解的目的而被提供,并且并非旨在范围方面是限制性的。所附的权利要求中的装置和方法不限于以由这样的操作理论所描述的方式实现的那些装置和方法。
所公开的方法中的任一方法可以被实现为被存储在一个或多个计算机可读介质(例如,计算机可读介质(诸如一个或多个光学介质光盘、易失性存储器部件(诸如DRAM或SRAM))或非易失性存储器部件(诸如硬盘驱动器))上并且被执行在计算机(例如,任何商业可获得的计算机,包括智能电话或者包括计算硬件的其他移动设备)上的计算机可执行指令。用于实现所公开的技术的计算机可执行指令中的任一指令以及在所公开的实施例的实现期间创建和使用的任何数据可以被存储在一个或多个计算机可读介质(例如,计算机可读存储介质)上。计算机可执行指令可以是例如专用软件应用或者经由网络浏览器或者其他软件应用(诸如远程计算应用)访问或者下载的软件应用的一部分。这样的软件可以例如在单个本地计算机(例如,利用在任何适合的商业可获得的计算机上执行的通用或者基于块的处理器)上被执行,或者在使用一个或多个网络计算机的网络环境(例如,经由因特网、广域网、局域网、客户端服务器网络(诸如云计算网络)、或者其他这样的网络)中被执行。
为了清晰起见,描述了基于软件的实现的仅某些所选的方面。省略了在本领域中众所周知的其他细节。例如,应当理解,所公开的技术不限于任何特定计算机语言或者程序。例如,所公开的技术可以通过以C、C++、JAVA或者任何其他适合的编程语言来实现。同样地,所公开的技术不限于任何特定计算机或者硬件类型。适合的计算机和硬件的某些细节是众所周知的并且不需要在本公开中被详细阐述。
此外,基于软件的实施例(包括例如用于使得计算机执行所公开的方法中的任一方法的计算机可执行指令)中的任一实施例可以通过适合的通信手段被上载、被下载或者被远程访问。这样的适合的通信手段包括例如因特网、万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括RF、微波和红外通信)、电子通信、或者其他这样的通信手段。
II.所公开的技术的简介
超标量乱序微架构采用大量的电路资源来重命名寄存器,以数据流次序调度指令,在误推测之后清理,并且针对精确异常引退结果。这包括昂贵的电路,诸如深的许多端口的寄存器文件、用于数据流指令调度唤醒的许多端口的内容可访问存储器(CAM)、以及许多宽总线复用器和旁路网络,所有的这些都是资源密集的。例如,多读取、多写入RAM的基于FPGA的实现通常要求复制、多循环操作、时钟加倍、组交错、实况值表和其他昂贵技术的混合。
所公开的技术可以通过应用包括高指令集并行性(ILP)、乱序(out-of-order,OoO)、超标量执行的技术,来实现性能增强,同时避免处理器硬件和相关联的软件二者中的大量的复杂性和开销。在所公开的技术的一些示例中,基于块的处理器使用针对区域和能量有效的高ILP执行所设计的EDGE ISA。在一些示例中,EDGE架构和相关联的编译器的使用巧妙处理重命名CAM的寄存器的远离和复杂性。
在所公开的技术的某些示例中,EDGE ISA可以消除对于一个或多个复杂架构特征的需要,包括寄存器重命名、数据流分析、误推测恢复以及按序引退,同时支持主流编程语言(诸如C和C++)。在所公开的技术的某些示例中,基于块的处理器执行多个(两个或两个以上)指令作为原子块。基于块的指令可以被用于以更显式的方式表达程序数据流和/或指令流的语义,这允许改进的编译器和处理器性能。在所公开的技术的某些示例中,显式数据图形执行指令集架构(EDGE ISA)包括关于可以用于改进对不适当的控制流指令的检测的程序控制流的信息,从而增加性能、节省存储器资源和/或节省能量。
在所公开的技术的一些示例中,在指令块内组织的指令原子地被取指、被执行并且被提交。块内的指令以数据流次序被执行,其使用寄存器重命名减少或者消除并且提供功率有效的OoO执行。编译器可以被用于通过ISA显式地编码数据依存性,这减少或者消除负担的处理器核控制逻辑在运行时重新发现依存性。使用所断言的执行,块内分支可以被转换为数据流指令,并且除了存储器依存性之外的依存性可以限于直接数据依存性。所公开的目标形式编码技术允许块内的指令经由操作数缓冲器直接地传递其操作数,这减少对功耗渴望的多端口物理寄存器文件的访问。
在指令块之间,指令可以使用存储器和寄存器来进行通信。因此,通过利用混合数据流执行模型,EDGE架构可以仍然支持命令式编程语言和顺序的存储器语义,但是期望地还享有具有近按序功率效率和复杂性的乱序执行的益处。
公开了用于生成和使用用于基于块的处理器的存储器访问指令顺序编码的装置、方法和计算机可读存储介质。在所公开的技术的某些示例中,指令块包括指令块头部和多个指令。换言之,指令块中被执行的指令影响状态,或者作为一个单位不影响状态。如本文中使用的,术语“指令块输出”是指分支指令、存储器存储指令或寄存器写入指令。
在所公开技术的一些示例中,硬件结构存储指示针对多个存储器访问指令(包括存储器加载和存储器存储指令)的要遵循的执行顺序的数据。耦合到处理器核的控制单元至少部分基于存储在硬件结构中的数据,来控制存储器访问指令的发出。因此,可以避免存储器读/写危险,同时允许指令块中的指令在其相关性可用时立即执行。在一些示例中,控制单元包括用于确定存储器指令何时向加载/存储队列进行发出的唤醒和选择逻辑。
如本领域的普通技术人员将容易地理解到,所公开的技术的实现的范围在各种区域、性能折中的情况下是可能的。
III.示例性的基于块的处理器
图1是如可以被实现在所公开的技术的一些示例中的基于块的处理器100的块图10。处理器100被配置为根据指令集架构(ISA)来执行原子指令块,ISA描述了处理器操作的若干方面,包括寄存器模型、由基于块的指令执行的若干定义操作、存储器模型、中断以及其他架构特征。基于块的处理器包括多个处理器核110,其包括处理器核111。
如在图1中所示,处理器核经由核互连120而彼此连接。核互连120携带数据并且控制核110中的个体核、存储器接口140以及输入/输出(I/O)接口145之间的信号。核互连120可以使用电的、光学的、磁性的或者其他适合的通信技术来发送和接收信号,并且可以取决于特定期望的配置而提供根据若干不同的拓扑布置的通信连接。例如,核互连120可以具有交叉开关、总线、点对点总线、或者其他适合的拓扑。在一些示例中,核110中的任一核可以被连接到其他核中的任一核,而在其他示例中,一些核仅被连接到其他核的子集。例如,每个核可以仅被连接到最近的4、8或20个邻近核。核互连120可以用于将输入/输出数据传送至核以及从核传送输入/输出数据,以及将控制信号和其他信息信号传送至核以及从核传送控制信号和其他信息信号。例如,核110中的每个核110可以接收并且传送指示当前正由相应核中的每个核执行的指令的执行状态的信号量。在一些示例中,核互连120被实现为将核110和存储器系统连接的接线,而在其他示例中,核互连可以包括用于多路复用(一条或多条)互连接线上的数据信号的电路、开关和/或路由部件,包括活跃的信号驱动器和中继器或者其他适合的电路。在所公开的技术的一些示例中,在处理器100内和/或至/来自处理器100的信号不限于全摆幅电数字信号,而是处理器可以被配置为包括差分信号、脉冲信号或者用于传送数据和控制信号的其他适合的信号。
在图1的示例中,处理器的存储器接口140包括被用于连接到附加存储器(例如,被定位在除了处理器100之外的另一集成电路上的存储器)的接口逻辑。外部存储器系统150包括L2高速缓存152和主存储器155。在一些示例中,L2高速缓存可以使用静态RAM(SRAM)被实现,并且主存储器155可以使用动态RAM(DRAM)被实现。在一些示例中,存储器系统150被包括在与处理器100的其他部件相同的集成电路上。在一些示例中,存储器接口140包括允许在不使用(一个或多个)寄存器文件和/或处理器100的情况下传送存储器中的数据块的直接存储器访问(DMA)控制器。在一些示例中,存储器接口14管理虚拟存储器、扩展可用的主存储器155的分配。
I/O接口145包括用于将输入信号和输出信号接收并且发送给其他部件的电路,诸如硬件中断、系统控制信号、外围接口、协处理器控制和/或数据信号(例如,用于图形处理单元、浮点协处理器、物理处理单元、数字信号处理器或者其他协处理部件的信号)、时钟信号、信号量或者其他适合的I/O信号。I/O信号可以是同步的或者异步的。在一些示例中,I/O接口的全部或部分结合存储器接口140使用存储器映射的I/O技术被实现。
基于块的处理器100还可以包括控制单元160。控制单元160监督处理器100的操作。可以由控制单元160执行的操作可以包括对核的分配和去分配以用于执行指令处理;对任何核、寄存器文件、存储器接口140和/或I/O接口145中之间的输入数据和输出数据的控制;对执行流的修改;以及验证控制流中的分支指令、指令头部和其他改变的(一个或多个)目标位置。控制单元160能够根据控制流和代表针对指令块的控制流概率和出口点的元数据,生成并控制处理器。
控制单元160还可以处理硬件中断,并且控制特殊系统寄存器(例如,被存储在一个或多个寄存器文件中的程序计数器)的读取和写入。在所公开的技术的一些示例中,控制单元160至少部分地使用处理器核110中的一个或多个核被实现,而在其他示例中,控制单元160使用非基于块的处理器核(例如,耦合到存储器的通用RISC处理核)被实现。在一些示例中,控制单元160至少部分地使用以下各项中的一项或多项被实现:硬连线有限状态机、可编程微代码、可编程门阵列或者其他适合的控制电路。在备选示例中,可以由核110中的一个或多个核来执行控制单元功能。
控制单元160包括用于将指令块分配到处理器核110的调度器165。如在此所使用的,调度器分配涉及引导指令块的操,包括发起指令块映射、取指、译码、执行、提交、中止、空闲以及刷新指令块。处理器核110在指令块映射期间被指派到指令块。指令操作的叙述阶段出于说明性目的,并且在所公开的技术的一些示例中,某些操作可以被组合、被省略、被分离为多个操作,或者被添加附加操作。调度器165调度指令流,包括用于执行以下操作的核的分配和解除分配:指令处理,对任意核、寄存器文件、存储器接口140和/或I/O接口145之间的输入数据和输出数据的控制。控制单元160还包括存储器访问指令硬件结构167,其可以用于存储数据,包括存储掩码和存储向量寄存器,如下面进一步详细讨论的。
基于块的处理器100还包括时钟发生器170,其将一个或多个时钟信号分布到处理器内的各种部件(例如,核110、互连120、存储器接口140和I/O接口145)。在所公开的技术的一些示例中,所有部件共享共同时钟,而在其他示例中,不同的部件使用不同的时钟(例如,具有不同的时钟频率的时钟信号)。在一些示例中,时钟的一部分被选通以在处理器部件中的一些部件未被使用时允许功率节省。在一些示例中,时钟信号使用锁相环(PLL)被生成以生成具有固定的恒定频率和占空比的信号。接收时钟信号的电路可以在单个边沿(例如,上升沿)上被触发,而在其他示例中,接收电路中的至少一些电路通过上升和下降时钟沿而被触发。在一些示例中,时钟信号可以光学地或无线地被传输。
IV.示例性的基于块的处理器核
图2是如可以在所公开的技术的某些示例中使用的进一步详述用于基于块的处理器100(并且特别地,基于块的处理器核之一的实例)的示例微架构的块图。为了便于解释,示例性的基于块的处理器核被图示有五个阶段:指令取指(IF)、译码(DC)、操作数取回、执行(EX)以及存储器/数据访问(LS)。然而,本领域的普通技术人员将容易地理解到,对所图示的微架构的修改(诸如添加/移除阶段、添加/移除执行操作的单元、以及其他实现细节)可以被修改为适合用于基于块的处理器的特定应用。
如在图2中所示,处理器核111包括控制单元205,其生成控制信号来调节核操作并且使用指令调度器206调度核内的指令流。可以由控制单元205和/或指令调度器206执行的操作可以包括生成和使用生成,使用存储器访问指令编码,对核的分配和去分配以用于执行指令处理;对任意核、寄存器文件、存储器接口140和/或I/O接口145之间的输入数据和输出数据的控制。控制单元还能够控制用于确定指令发出的速率和顺序的加载存储队列、调度器、全局控制单元、其他单元或这些单元的组合。
在一些示例中,指令调度器206使用耦合到存储器的通用处理器来实现,存储器被配置为存储用于调度指令块的数据。在一些示例中,指令调度器206使用专用处理器或使用耦合到存储器的基于块的处理器核来实现。在一些示例中,指令调度器206被实现为耦合到存储器的有限状态机。在一些示例中,在处理器(例如,通用处理器或基于块的处理器核)上执行的操作系统生成可以至少部分用于使用指令调度器206来调度指令块的优先级、预测和其他数据。如相关领域的普通技术人员将容易明白的,可以使用在集成电路、可编程逻辑或其他合适的逻辑中实现的其他电路结构来实现用于指令调度器206的硬件。
控制单元205还包括用于存储控制流信息和元数据的存储器(例如,在SRAM或寄存器中)。例如,用于存储器访问指令顺序的数据可以存储在诸如指令数据存储207等硬件结构中。指令数据存储207可以存储用于存储掩码的数据(例如,通过复制编码在指令块中的数据或者通过指令译码器在译码指令时而生成)、存储计数(SC)、写入掩码(WM,例如,标识寄存器指令的数据将在指令块的执行期间写入)和/或写入寄存器的指令的总计数(例如,RWIC)。存储掩码可以包括一个或多个加载/存储标识符(LSID),其可以指示与指令块相关联的存储器访问指令(加载和存储)的排序。在一些示例中,指令数据存储207包括跟踪已经执行的存储器访问指令的数目和类型的计数器。在其他示例中,指令数据存储207可以存储一个或多个指令块的存储器访问指令(例如,存储器存储指令)的总数。
控制单元205还可以处理硬件中断,并且控制特殊系统寄存器的读取和写入,例如存储在一个或多个寄存器文件中的程序计数器。在所公开技术的其他示例中,控制单元205和/或指令调度器206使用非基于块的处理核(例如,耦合到存储器的通用RISC处理核)来实现。在一些示例中,控制单元205和/或指令调度器206至少部分使用硬连线的有限状态机、可编程微码、可编程门阵列或其他合适的控制电路中的一个或多个来实现。
示例处理器核111包括两个指令窗口210和211,其中的每个指令窗口可以被配置为执行指令块。在所公开的技术的一些示例中,指令块是基于块的处理器指令的原子集合,其包括指令块头部以及多个一个或多个指令。如下面将进一步讨论的,指令块头部包括可以被用于进一步定义指令块内的多个指令中的一个或多个指令的语义的信息。取决于所使用的特定ISA和处理器硬件,还可以在指令的执行期间使用指令块头部,并且通过例如允许对指令和/或数据的早期取回、改进的分支预测、推测的执行、改进的能量效率以及经改进的代码紧密性,来改进执行指令块的性能。在其他示例中,不同的数目的指令窗口是可能的,诸如一个、四个、八个或其他数目的指令窗口。
指令窗口210和211中的每个指令窗口可以从输入端口220、221和222(其连接到互连总线)中的一个或多个输入端口以及指令高速缓存227(其进而连接到指令译码器228和229)接收指令和数据。附加的控制信号还可以在附加的输入端口225上被接收。指令译码器228和229中的每个指令译码器对指令头部和/或用于指令块中的指令进行译码,并且将所译码的指令存储在被定位在每个相应的指令窗口210和211中的存储器存储库215和216内。此外,译码器228和229中的每个可以将数据发送给控制单元205,例如,以根据在指令块头部或指令中指定的执行标志,来配置处理器核111的操作。
处理器核111还包括耦合到L1(第一级)高速缓存235的寄存器文件230。寄存器文件230存储用于在基于块的处理器架构中定义的寄存器的数据,并且可以具有一个或多个读端口和一个或多个写端口。例如,寄存器文件可以包括用于将数据存储在寄存器文件中的两个或两个以上写端口,以及具有用于从寄存器文件内的个体寄存器读取数据的多个读端口。在一些示例中,单个指令窗口(例如,指令窗口210)可以一次访问寄存器文件的仅一个端口,而在其他示例中,指令窗口210可以访问一个读端口和一个写端口,或者可以同时访问两个或两个以上读端口和/或写端口。在一些示例中,寄存器文件230可以包括64个寄存器,寄存器中的每个寄存器保持32位的数据的字。(出于便于说明的目的,本申请将把32位的数据称为字,除非另外指定)。根据所公开技术的适当处理器可以利用8、16、65、128、256位或者其他位字数进行操作。在一些示例中,寄存器文件230内的寄存器中的一些寄存器可以被分配为特殊目的。例如,寄存器中的一些寄存器可以被专用作系统寄存器示例,其包括存储常量值(例如,所有零字)、(一个或多个)程序计数器(PC)(其指示正被执行的程序线程的当前地址)、物理核数目、逻辑核数目、核分配拓扑、核控制标志、执行标志、处理器拓扑或者其他适合的专用目的的寄存器。在一些示例中,存在多个程序计数器寄存器、一个或每个程序计数器,以允许跨一个或多个处理器核和/或处理器的多个执行线程的并发执行。在一些示例中,程序计数器被实现为指定存储器位置,而不是寄存器文件中的寄存器。在一些示例中,系统寄存器的使用能够由操作系统或者其他监督式计算机指令进行限制。在一些示例中,寄存器文件230被实现为触发器阵列,而在其他示例中,寄存器文件可以使用锁存器、SRAM或者其他形式的存储器存储装置被实现。针对给定处理器(例如,处理器100)的ISA规格指定寄存器文件230内的寄存器如何被定义并且被使用。
在一些示例中,处理器100包括由多个处理器核共享的全局寄存器文件。在一些示例中,与处理器核相关联的个体寄存器文件可以被组合以静态地或者动态地形成较大的文件,这取决于处理器ISA和配置。
如在图2中所示,指令窗口210的存储器存储库215包括若干译码的指令241、左操作数(LOP)缓冲器242、右操作数(ROP)缓冲器243、断言缓冲器244、三个广播信道245、以及指令记分板247。在所公开的技术的一些示例中,指令块中的每个指令被分解为一行译码的指令、左操作数和右操作数和记分板数据,如在图2中所示。译码的指令241可以包括被存储为位级控制信号的指令的部分或者完全译码的版本。操作数缓冲器242和243存储操作数(例如,从寄存器文件230接收到的寄存器值、从存储器接收到的数据、在指令内编码的中间操作数、由较早发出的指令计算的操作数、或者其他操作数值),直到其相应的译码的指令准备好执行。指令操作数和断言从操作数缓冲器242和243和短剑缓冲器244被读取,而不是从寄存器文件。指令记分板247可以包括针对指令的断言的缓冲器,包括用于通过多个指令将发送给指令的断言极性组合的线或逻辑。
第二指令窗口211的存储器存储库216存储类似的指令信息(译码的指令、操作数和记分板)作为存储器存储库215,但是出于简单的原因在图2中未示出。指令块可以关于第一指令窗口由第二指令窗口211并发地或者顺序地执行,这受制于ISA约束并且如由控制单元205引导。
在所公开的技术的一些示例中,前端流水线阶段IF和DE可以从后端流水线阶段(IS、EX、LS)运行去耦合。控制单元可以每时钟周期将两个指令取指并且译码到指令窗口210和211中的每个指令窗口中。控制单元205使用记分板247来提供指令窗口数据流调度逻辑以监测每个译码的指令的输入(例如,每个相应指令的(一个或多个)断言和(一个或多个)操作数)的就绪状态。当针对特定译码的指令的所有操作数和断言就绪时,指令准备好发出。控制单元205然后每周期发起对一个或多个下一指令(例如,最低编号的就绪指令)发出的执行,并且基于译码指令的指令和指令的输入操作数被发送给功能单元260中的一个或多个功能单元以用于执行。译码的指令还可以对若干就绪事件进行编码。控制单元205中的调度器接受来自其他源的这些和/或事件,并且更新窗口中的其他指令的就绪状态。因此执行从处理器核的111个就绪零输入指令开始,继续以零输入指令为目标的指令等。
译码指令241不需要以其被布置在指令窗口210的存储器存储库215内的相同次序被执行。相反,指令记分板245用于追踪译码的指令的依存性,并且当依存性已经被满足时,相关联的个体译码指令被调度用于执行。例如,当依存性已经针对相应指令被满足时,对相应指令的参考可以被推送到就绪队列上,并且就绪指令可以从就绪队列以先进先出(FIFO)次序被调度。对于使用加载存储标识符(LSID)编码的指令,执行顺序也将遵循在指令LSID中枚举的优先级,或者按照看起来好像指令按指定顺序执行的顺序来执行。
被存储在记分板245中的信息可以包括但不限于相关联的指令的执行断言(诸如指令是否正等待要被计算的断言位,并且在断言位是真或者假的情况下指令是否执行)、操作数对于指令的可用性、或者在发出和执行相关联的个体指令之前所要求的其他前提条件。被存储在每个指令窗口中的指令的数目通常对应于指令块内的指令的数目。在一些示例中,操作数和/或断言在允许发送相同操作数或断言给大量指令的一个或多个广播信道上接收。在一些示例中,指令块内的指令的数目可以是32、64、128、1024或者另一数目的指令。在所公开的技术的一些示例中,跨处理器核内的多个指令窗口分配指令块。乱序操作和存储器访问可以根据指定一个或多个操作模式的数据来被控制。
在一些示例中,对处理器(例如,根据架构定义或通过处理器的可编程配置)施加限制,以禁用不按照指令在指令块中所布置的顺序次序块的指令执行。在一些示例中,可用的最低编号的指令被配置为将要执行的下一指令。在一些示例中,控制逻辑遍历指令块中的指令,并且执行准备好执行的下一指令。在一些示例中,一次只能发出和/或执行一个指令。在一些示例中,指令块内的指令以确定性顺序(例如,指令在块中被布置的顺序)发出和执行。在一些示例中,当通过用户使用软件调试器啦调试在基于块的处理器上执行的程序时,可以配置对指令排序的限制。
指令可以使用被定位在处理器核111内的控制单元205来分配和调度。控制单元205安排来自存储器的对指令的取指、对执行的译码、在其已经被加载到相应的指令窗口时对指令的执行、进/出处理器核111的数据流,并且控制由处理器核输入和输出的信号。例如,控制单元205可以包括如上文所描述的就绪队列,以用于在调度指令中使用。可以原子地执行被存储在被定位在每个相应的指令窗口210和211中的存储器存储库215和216中的指令。因此,对由执行的指令影响的可见架构状态(诸如寄存器文件230和存储器)的更新可以本地缓存在核200内直到指令被提交为止。控制单元205可以确定指令何时准备好被提交、对提交逻辑进行排序并且发出提交信号。例如,指令块的提交阶段可以当所有寄存器写入被缓冲、到存储器的所有写入被缓冲并且分支目标被计算时被开始。指令块可以当对可视架构状态的更新被完成时提交。例如,当寄存器写入作为寄存器文件被写入、存储被发送给加载/存储单元或者存储器控制器并且提交信号被生成时,指令块可以被提交。控制单元205还至少部分地控制将功能单元260分配到相应的指令窗口中的每个指令窗口。
如在图2中所示,具有若干执行流水线寄存器255的第一路由器250用于将数据从指令窗口210和211中的任一指令窗口发送给功能单元260中的一个或多个功能单元,其可以包括但不限于整数ALU(算术逻辑单元)(例如,整数ALU 264和265)、浮点单元(例如,浮点ALU 267)、偏移/旋转逻辑(例如,桶型偏移器268)或者其他适合的执行单元,其可以包括图形功能、物理功能和其他数学操作。第一路由器250还包括用于确定何时将存储器指令发送给加载/存储队列275的唤醒/选择逻辑258。例如,唤醒/选择逻辑258可以确定是否所有源操作数和断言条件都可用对于存储器访问指令并且基于这个确定来将地址(和数据,如果适用的话)发送给加载/存储队列275。
来自功能单元260的数据可以然后通过第二路由器270被路由到输出290、291和292,路由返回到操作数缓冲器(例如,LOP缓冲器242和/或ROP缓冲器243),或者被馈送回到另一功能单元,这取决于特定指令被执行的要求。第二路由器270包括:加载/存储队列275,其可以被用于发出存储器指令;数据高速缓存277,其存储正从核被输入到或输出到存储器的数据;以及加载/存储流水线寄存器278。
加载/存储队列275接收并且临时存储用于执行存储器访问指令(例如,存储器存储和存储器加载指令)的信息。指令块可以将所有存储器访问指令作为单个原子事务块执行。换言之,要么全部存储器访问指令被执行,要么没有一个存储器访问指令被执行。存储器访问指令的相对顺序基于与每个存储器访问指令(例如,编码有相应指令的LSID)相关联的LSID并且基于存储掩码(在一些情况下)来确定。在一些示例中,可以通过不按照LSID指定的相对顺序执行存储器访问指令,来获得附加性能,但是存储器的状态仍然必须像指令按顺序执行出现。加载/存储队列275还接收加载指令的地址、以及存储指令的地址和数据。在一些示例中,加载/存储队列等待执行排队的存储器访问指令,直到确定包含指令块将实际提交。在其他示例中,加载/存储队列275可以推测性地发出至少一些存储器访问指令,但是在块未提交的情况下,将需要冲刷存储器操作。在其他示例中,控制单元205通过提供被描述为由唤醒/选择逻辑和/或加载/存储队列275执行的功能,来确定存储器访问指令被执行的顺序。在一些示例中,处理器100包括允许借助调试器逐步发出存储器访问指令的调试模式。加载/存储队列275可以使用控制逻辑(例如,具有有限状态机)和存储器(例如,寄存器或SRAM)分别执行存储器事务和存储存储器指令操作数来实现。
核还包括控制输出295,其用于指示例如指令窗口210或者211中的一个或多个指令窗口的所有指令的执行何时已经完成。当指令块的执行完成时,指令块被指定为“提交的”并且来自控制输出295的信号可以进而可以由基于块的处理器100内的其他核和/或由控制单元160用于发起其他指令块的调度、取指和执行。第一路由器250和第二路由器270二者可以将数据发送回到指令(例如,作为用于指令块内的其他指令的操作数)。
如本领域的普通技术人员将容易理解到,个体核200内的部件不限于图2中所示的那些部件,而是可以根据特定应用的要求而变化。例如,核可以具有更少或更多的指令窗口,单个指令译码器可以由两个或两个以上指令窗口共享,并且所使用的功能单元的数目和类型可以取决于用于基于块的处理器的特定目标应用而变化。在利用指令核选择并且分配资源时应用的其他考虑包括性能要求、能量使用要求、集成电路芯片、处理技术和/或成本。
对于本领域的普通技术人员而言将容易明显的,可以通过处理器核110的指令窗口(例如,指令窗口210)和控制单元205内的资源的设计和分配来在处理器性能中做出折中。面积、时钟周期、能力和限制实质上确定个体核110的实现性能和基于块的处理器100的吞吐量。
指令调度器206可以具有不同的功能。在某些较高的性能示例中,指令调度器是高并发的。例如,每个周期(一个或多个)译码器将指令的译码就绪状态和译码指令写入到一个或多个指令窗口中,选择要发出的下一个指令,并且作为响应后端发送第二就绪事件——以特定指令的输入槽(断言、左操作数、右操作数等)为目标的任一目标就绪事件或者以所有指令为目标的广播就绪事件。每指令就绪状态位连同译码就绪状态可以用于确定指令准备好发出。
在一些情况下,调度器206接受目标指令的事件,其尚未被译码并且还必须禁止已发出的就绪指令的重新发出。在一些示例中,指令可以是非断言的、或者断言的(基于真或假条件)。断言的指令直到其由另一指令的断言结果作为目标时才变得就绪,并且该结果匹配断言条件。如果相关的断言条件未匹配,则指令绝不发出。在一些示例中,断言指令可以推测地被发出并且被执行。在一些示例中,处理器能够随后检查推测地发出和执行的指令被正确地推测。在一些示例中,误推测的发出指令和消耗其输出的块中的指令的特定传递闭包能够被重新执行、或者被误推测取消的副作用。在一些示例中,对误推测的指令的发现导致整个指令块的完全回滚和重新执行。在一些示例中,调度器执行被描述为由上面讨论的唤醒/选择逻辑和/或加载/存储队列执行的一些或全部操作。
在分支到新的指令块时,相应的指令窗口就绪状态被清除(块复位)。但是,当指令块分支回到它自己(块刷新)时,只有有效就绪状态被清除。因此可以保留指令块的经译码的就绪状态,使得不需要重新取回和译码块的指令。因此,可以使用块刷新来节省循环中的时间和能量。
V.示例性的指令块流
现在转到图3的示图300,图示了基于块的指令流的一部分310,包括若干可变长度指令块311-314。指令流可以用于实现用户应用、系统服务或者任何其他适合的用途。指令流可以存储在存储器中,从存储器中的另一进程接收,通过网络连接接收,或以任何其他合适的方式存储或接收。在图3中所示的示例中,每个指令块从指令头部开始,其跟随有不同的数目的指令。例如,指令块311包括头部320和二十条指令321。所图示的特定指令头部320包括部分地控制指令块内的指令的执行的若干数据字段,并且还允许改进的性能增强技术,包括例如分支预测、推测执行、惰性评估和/或其他技术。指令头部320还包括指令块大小的指示。指令块大小可以处于比一更大的指令的数据块中,例如,被包含在指令块内的4指令数据块的数目。换句话说,块的大小被移动4位以便压缩被分配到指定指令块大小的头部空间。因此,0的大小值指示最小大小的指令块,其是跟随有四条指令的块头部。在一些示例中,指令块大小被表达为字节数、字数、n字数据块数、地址、地址偏移或者使用用于描述指令块的大小的其他适合的表达。在一些示例中,指令块大小由指令块头部和/或脚部中的终止位模式来指示。
指令块头部320还可以包括一个或多个执行标志,其指示用于执行指令块的一个或多个操作模式。例如,操作模式可以包括核融合操作、向量模式操作、存储器依赖性预测、和/或有序或确定性指令执行。
在所公开的技术的一些示例中,指令头部320包括指示编码数据是指令头部的一个或多个标识位。例如,在一些基于块的处理器ISA,最低有效位空间中的单个ID位总是被设定为二进制值1,以指示有效指令块的开始。在其他示例中,不同的位编码可以用于(一个或多个)标识位。在一些示例中,指令头部320包括指示相关联的指令块被编码所针对的ISA的特定版本的信息。
指令块头部还可以包括用于在例如分支预测、控制流确定和/或分支处理中使用的若干块退出类型。退出类型可以指示分支指令的类型是什么,例如:顺序分支指令,其指向存储器中的下一相连的指令块;偏移指令,其是相对于偏移而计算的存储器地址处的另一指令块的分支;子例程调用、或者子例程返回。通过编码指令头部中的分支退出类型,分支预测器可以至少部分地在相同指令块内的分支指令已经被取指和/或被译码之前开始操作。
所示出的指令块头部320还包括存储掩码,其指示编码在块指令中的加载存储队列标识符中的哪些被指派给存储操作。例如,对于具有八个存储器访问指令的块,存储掩码01011011将指示有三个存储器存储指令(位0,对应于LSID 0、2和5)和五个存储器加载指令(位1,对应于LSID 1、3、4、6和7)。指令块头部还可以包括标识相关联的指令块将写入哪个(些)全局寄存器的写入掩码。
在一些示例中,存储掩码通过例如指令译码器(例如,译码器228或229)而存储在存储向量寄存器中。在其他示例中,指令块头部320不包括存储掩码,存储掩码而是由指令译码器在指令块被译码时通过分析指令依赖性而动态生成的。例如,译码器可以分析指令块指令的加载存储标识符,以确定存储掩码并且将存储掩码数据存储在存储向量寄存器中。类似地,在其他示例中,写入掩码没有被编码在指令块头部中,而是由指令译码器动态地生成(例如,通过分析由指令块中的指令所引用的寄存器)并且被存储在写入掩码寄存器中。存储掩码和写入掩码可以用于确定指令块的执行何时完成并且从而发起指令块的提交。相关联的寄存器文件必须在指令块能够完成之前接收对每个条目的写入。在一些示例中,基于块的处理器架构可以不仅包括标量指令,而且可以包括单指令多数据(SIMD)指令,其允许利用单个指令内的较大数目的数据操作数的操作。在一些示例中,块头部320还可以包括用于指令块内的一个或多个指令类型(例如,存储器访问指令或存储器存储指令计数)的指令计数,如图7所示。
可以用于指令321的合适的基于块的指令的示例可以包括用于执行整数和浮点算术运算、逻辑运算、类型转换、寄存器读取和写入、存储器加载和存储、分支和跳转的执行的指令以及其他合适的处理器指令。在一些示例中,指令包括用于配置处理器以根据一个或多个操作进行操作的指令,通过例如基于控制流和关于存储在硬件结构(诸如指令数据存储207)中的存储器访问指令的数据的推测性执行。在一些示例中,指令数据存储207在架构上不可见。在一些示例中,对存储指令数据存储207的访问被配置为限于在处理器的监督模式或其他保护模式下的处理器操作。
VI.示例块指令目标编码
图4是描绘C语言源码的两个部分410和415及其各自的指令块420和425的示例的示图400,示出了基于块的指令如何明确地编码其目标。在该示例中,前两个READ指令430和431相应地以ADD指令432的右(T[2R])和左(T[2L])操作数为目标(2R指示针对指令数目2的右操作数,2L指示指令数目2的左操作数)。在所图示的ISA中,读指令是从全局寄存器文件(例如寄存器文件230)读取的唯一指令;然而,任何指令可以以全局寄存器文件为目标。当ADD指令432接收到这两个寄存器读取的结果时,其将变为就绪并且执行。注意,本公开有时将右操作数称为OP0并且将左操作数称为OP1。
当TLEI(测试小于等于立即(test-less-than-equal-immediate))指令433从ADD接收其单个输入操作数时,其将变为准备好发出和执行。测试然后产生在信道一(B[1P])上广播到在广播信道上监听的所有指令的断言操作数以用于断言,其在该示例中是两个断言分支指令(BRO_T 434和BRO_F 435)。接收匹配断言分支将激发。接收匹配断言分支指令将触发(执行),但是用互补断言编码的另一指令不会触发/执行。
指令块420的依存性图形440还被图示为指令节点阵列450和其对应的操作数目标455和456。这图示了块指令420、对应的指令窗口条目以及由指令所表示的底层数据流程图之间的对应性。此处,译码指令READ 430和READ 431准备好发出,因为其不具有输入依存性。当其发出并且执行时,从寄存器R0和R7读取的值被写入到ADD432的右操作数缓冲器和左操作数缓冲器中,这使得ADD 432的左操作数和右操作数“就绪”。因此,ADD 432指令变为就绪、发出到ALU、执行,并且之和被写入到TLEI指令433的左操作数。
VII.示例性的基于块的指令格式
图5是示出指令头部510、通用指令520、分支指令530和存储器访问指令540(例如,存储器加载或存储指令)的指令格式的通用示例的图。指令格式可以用于针对根据指定操作模式的指令头部中指定的多个执行标志而执行的指令块。指令头部或者指令中的每一个根据位数而被标记。例如,指令头部510包括四个32位的字并且从其最低有效位(lsb)(位0)被标记直到其最高有效位(msb)(位127)。如所示出的,指令头部包括写入掩码字段、存储掩码字段515、多个退出类型字段、多个执行标志字段、指令块大小字段和指令头部ID位(指令头部的最低有效位)。在一些示例中,存储掩码字段515被LSID计数517替换或补充,LSID计数517可以指示指令块的每个断言路径上的存储指令的数目(或者指令块的存储指令的总数)。在其他示例中,计数器517可以包括寄存器写入指令计数,其指示向寄存器写入的指令块中指令的总计数。对于在不同断言路径上具有不同数目的存储指令的指令块,可以使一个或多个指令无效,并且递增所执行的存储指令的计数,使得每个断言路径将指示在运行时已经执行的相同数目的存储指令。在一些示例中,头部510不指示LSID计数或存储掩码,而是由指令译码器基于编码在各个存储指令中的LSID来动态地生成信息。
图5中描绘的执行标志字段占据指令块头部510的位6至13并且指示用于执行指令块的一个或多个操作模式。例如,操作模式可以包括核融合操作、向量模式操作、分支预测器抑制、存储器依赖性预测器抑制、块同步、块后中断、块前中断、块中断、和/或有序或确定性指令执行。
退出类型字段包括可以用于指示被编码在指令块内的控制流指令的类型的数据。例如,退出类型字段可以指示指令块包括以下各项中的一项或多项:顺序分支指令、偏移分支指令、间接分支指令、调用指令、和/或返回指令。在一些示例中,分支指令可以是用于在指令块之间传递控制流的任何控制流指令,包括相对地址和/或绝对地址,并且使用有条件的断言或者无条件的断言。除了确定隐式控制流指令之外,退出类型字段可以用于分支预测和推测执行。
所图示的通用块指令520被存储为一个32位的字,并且包括操作码字段、断言字段、广播ID字段(BID)、向量操作字段(V)、单指令多数据(SIMD)字段、第一目标字段(T1)、以及第二目标字段(T2)。对于具有比目标字段更大的消费者的指令而言,编译器可以使用移动指令来构建扇出树,或者其可以将高扇出指令指派到广播。广播支持通过轻量网络将操作数发送给核中的任何数目的消费者指令。
虽然由通用指令520概述的通用指令格式可以表示由基于块的处理器处理的一些或全部指令,但是本领域的技术人员将容易理解到,即使对于ISA的特定示例而言,指令字段中的一个或多个指令字段也可以偏离用于特定指令的通用格式。操作码字段指定由指令520执行的(一个或多个)操作,诸如存储器读取/写入、寄存器加载/存储、加法、减法、乘法、除法、偏移、旋转、系统操作或者其他适合的指令。断言字段指定指令在其下将执行的条件。例如,断言字段可以指定值“真”,并且指令将仅在对应的条件标志匹配指定的断言值的情况下执行。在一些示例中,断言字段至少部分地指定哪一个被用于比较断言,而在其他示例中,执行在由先前指令(例如,指令块中的先前指令)设定的标志上被断定。在一些示例中,断言字段可以指定指令将总是或者绝不被执行。因此,断言字段的使用可以通过减少被解码和执行的分支指令的数目,来允许更密集的目标代码、改进的能量效率以及改进的处理器性能。
目标字段T1和T2指定基于块的指令的结果被发送给的指令。例如,在指令槽5处的ADD指令可以指定其计算结果将被发送给槽3和10处的指令,包括对操作槽(左操作数,右操作数,或者断言操作数)的指定。取决于特定指令和ISA,所图示的目标字段之一或二者可以由其他信息替换,例如,第一目标字段T1可以由中间操作数、附加操作码、指定两个目标等来替换。
分支指令530包括操作码字段、断言字段、广播ID字段(BID)以及偏移字段。操作码和断言字段在如关于通用指令所描述的格式和功能方面是类似的。偏移可以以四个指令为组的单位被表达,因此扩展在其上可以执行分支的存储器地址范围。利用通用指令520和分支指令530示出的断言可以用于避免指令块内的附加分支。例如,特定指令的执行可以根据先前指令的结果(例如,两个操作数的比较)被断定。如果断言是假的,则指令将不提交由特定指令计算出的值。如果断言值未匹配所要求的断言,则指令不发出。例如,BRO_F(断言假)指令将发出其是否被发送假断言值。
应当容易理解到,如在此所使用的,术语“分支指令”不限于将程序执行改变到相对存储器位置,而且包括跳跃到绝对或者符号存储器位置、子例程调用和返回,以及可以修改执行流的其他指令。在一些示例中,通过改变系统寄存器(例如,程序计数器PC或者指令指针)的值来修改执行流,而在其他示例中,可以通过修改被存储在存储器中的指定位置处的值来改变执行流。在一些示例中,跳跃寄存器分支指令用于跳跃到被存储在寄存器中的存储器位置。在一些示例中,分别使用跳跃和链接以及跳跃寄存器指令来实现子例程调用和返回。
存储器访问指令540格式包括操作码字段、断言字段、广播ID字段(BID)、加载存储ID字段(LSID)、立即字段(IMM)、偏移字段和目标字段。操作码、广播、断言字段在格式和功能上与关于通用指令所描述的类似。例如,特定指令的执行可以基于先前的指令的结果(例如,两个操作数的比较)。如果断言为假,则指令不会提交由特定指令计算的值。如果断言值与所需要的断言不匹配,则指令不会发出。立即字段(例如,并且偏移若干位)可以用作发送给加载或存储指令的操作数的偏移。操作数加(偏移)立即偏移用作加载/存储指令的存储器地址(例如,从存储器读取数据或将数据存储到存储器的地址)。LSID字段指定块中加载和存储指令的相对顺序。换言之,较高编号的LSID表明指令应当在较低编号的LSID之后执行。虽然机器的结果状态不应当不同于指令已经按指定的LSID顺序被执行,但是在一些示例中,处理器可以确定两个加载/存储指令不冲突(例如,基于指令的读取/写入地址),并且可以以不同顺序执行指令。在一些示例中,具有互斥断言值的加载/存储指令可以使用相同的LSID值。例如,如果第一加载/存储指令基于值p为真,并且第二加载/存储指令基于值p为假,则每个指令可以具有相同的LSID值。
VIII.示例处理器状态图
图6是图示了在指令块被映射、执行和退出时被指派给指令块的多个状态的数目的状态图600。例如,根据一个或多个执行标志,在指令的执行期间可以指派一个或多个状态。应当易于理解的是,图6中所示的状态针对所公开的技术的一个示例,而在其他示例中,指令块可以具有附加的或更少的状态,并且具有与状态图600中所描述的状态不同的状态。在状态605处,指令块是未映射的。指令块可以驻留在耦合到基于块的处理器的存储器中,存储在计算机可读存储设备(诸如硬盘驱动器或闪存驱动器)上,并且可以在处理器本地或者位于远程服务器处并且使用计算机网络可访问。未映射的指令也可以至少部分驻留在耦合至基于块的处理器的高速缓存存储器中。
在指令块映射状态610处,用于基于块的处理器(诸如指令调度器)的控制逻辑可以用于监测基于块的处理器的处理核资源,并且将指令块映射到处理核中的一个或多个处理核。
控制单元可以将一个或多个指令块映射到处理器核和/或特定处理器核的指令窗口。在一些示例中,控制单元监测先前已经执行特定指令块的处理器核,并且可以重新使用经译码的针对仍然驻留在“预热”的处理器核上的指令块的指令。一旦一个或多个指令块已经被映射到处理器核,指令块就可以进行到取指状态620。
当指令块处于取指状态620(例如,指令取回)时,映射的处理器核从基于块的处理器的存储器系统取回计算机可读块指令,并且将它们加载到与特定处理器核相关联的存储器中。例如,所取回的针对指令块的指令可以取回并且存储在处理器核的指令高速缓存中。可以使用核互连将指令传送至处理器核。一旦已经取回指令块的至少一个指令,指令块就可以进入指令译码状态630。
在指令译码状态630期间,所取回的指令的各个位被译码位可以由处理器核使用以控制特定指令的执行的信号。例如,经译码的指令可以存储在以上图2中所示的存储器存储215或216中的一个。译码包括生成针对经译码的指令的依赖性、针对经译码的指令的操作数信息和针对经译码的指令的目标。一旦已经对指令块的至少一个指令进行译码,指令块就可以进行到执行状态640。
在执行状态640期间,使用例如以上关于图2讨论的功能单元260来实现与指令相关联的操作。如上文所讨论的,所实现的功能可以包括运算功能、逻辑功能、分支指令、存储器操作和寄存器操作。与处理器核相关联的控制逻辑监测指令块的执行,并且一旦确定指令块可以被提交,或者指令块将被中止,则指令块状态被设置为提交/中止650。在一些示例中,控制逻辑针对指令块使用写入掩码和/或存储掩码以确定执行是否已经足够进行以提交指令块。所执行的存储器访问指令将数据和地址信息发送到加载/存储队列用于访问存储器。在一些示例中,一些存储器访问指令(例如,存储器加载指令)可以在块执行之前被执行,而其他指令(例如,存储器存储指令)等待执行直到块提交。在一些示例中,所有存储器访问指令等待访问存储器直到块提交。在一些示例中,存储器加载和存储指令在指令块的执行期间访问存储器,但是附加硬件捕获存储器危险条件(例如,在写入危险之后读取)以确保主存储器看起来好像指令是根据它们的相对顺序执行的。
在提交/中止状态650处,处理器核控制单元确定可以完成由指令块实现的操作。例如根据指令块的控制流程将明确地实现存储器加载存储操作、寄存器读取/写入、分支指令以及其他指令。备选地,如果指令块将被中止,例如,因为指令的依赖性中的一个或多个依赖性未被满足,或者对未被满足的针对指令块的断言推测地执行指令,指令块被中止,使得其将不影响存储器或寄存器文件中的指令序列的状态。任何重要的存储器访问操作也完成。不管指令块是否已经被提交或者中止,指令块进入状态660以确定指令块是否应当被刷新。如果指令块被刷新,则处理器核通常使用新的数据值重新执行指令块,新的数据值特别是由块的刚刚提交执行更新的寄存器和存储器,并且直接进行到执行状态640。由此,可以避免对指令块进行映射、取回和译码而耗费的时间和能量。或者,如果指令块不需要被刷新,则指令块进入空闲状态670。
在空闲状态670中,例如可以通过关闭处理器核内的硬件电源,同时针对指令块维持经译码的指令的至少一部分,而是执行指令块的处理器核可以通过例如在中断电硬件同时保持指令块的处理器核空闲。在某一时刻,控制单元确定680处理器核上空闲的指令块是否要被刷新。如果空闲的指令块要被刷新,则指令块可以在执行状态640处恢复执行。备选地,如果指令块不需要被刷新,则指令块是未映射的,并且处理器核可以被冲刷,并且随后指令块可以被映射至经冲刷的处理器核。
虽然为了易于解释,状态图600图示了指令块在单个处理器核上执行时的状态,但是相关领域的普通技术人员应当容易理解,在某些示例中,多个处理器核可以同时用于执行给定指令块的多个实例。
IX.示例性的基于块的处理器和存储器配置
图7是示图示了包括基于块的处理器710的装置的示图700,该基于块的处理器710包括被配置控制单元720,控制单元720配置用于根据针对一个或多个操作模式的数据来执行指令块。控制单元720包括核调度器725和存储器访问硬件结构730。核调度器725调度指令的流,指令的流包括用于实现指令处理的核的分配和解除分配,在核中的任何核、寄存器文件、存储器接口和/或I/O接口之间的输入数据和输出数据的控制。存储器访问硬件结构730存储数据,包括例如存储掩码(SM)数据、存储计数(SC)数据、写入掩码(WM)数据、寄存器写入指令计数(RWIC)数据和/或其他数据,诸如控制流数据。存储器访问硬件结构730可以使用任何合适的技术来实现,包括SRAM、寄存器(例如,包括触发器或锁存器的阵列)或其他合适的存储器技术。当由控制单元720译码指令时,可以生成写入掩码。当由控制单元720译码指令时,可以生成存储掩码(SM)、写入掩码(WM)、RWIC和存储计数(SC)。在一些示例中,SM、SC、WM和RWIC从存储器750(例如,SM 751a、SC 752a、WM 751b和RWIC 752b)、从指令块头部(例如,737a-737d和738a-738d)或者从计算机可读存储介质(诸如存储介质盘755)中读取。
基于块的处理器710还包括:一个或多个处理器核740-747,被配置为取回并且执行指令块。所图示的基于块的处理器710具有多达八个核,但是在其他示例中,可以有64、512、1024或其他数目的基于块的处理器核。基于块的处理器710耦合到存储器750,存储器750包括包含指令块A和B在内的多个指令块,并且耦合到计算机可读存储介质盘755。
X.示例性的多重无效指令格式
图8示出了可以在所公开的技术的某些示例中使用的使用两个偏移字段、LSID掩码和寄存器掩码的示例性的多重无效指令。参考图8,示出了用于多重无效指令802的示例指令格式。操作码字段指定由指令802执行的操作,诸如用于多个目标的无效操作。断言字段(PR)指定指令将执行的条件。例如,断言字段可以指定值“真”,并且指令只有在相应条件标志匹配指定的断言值的情况下才执行。在一些示例中,断言字段至少部分指定哪个用于比较断言,而在其他示例中,执行基于由先前的指令(例如,指令块中的先前指令)设置的标志。在一些示例中,断言字段可以指定指令总是执行或永远不执行。因此,通过减少被译码和执行的分支指令的数目,断言字段的使用可以实现更密集的目标码,提高能量效率并且改进处理器性能。广播ID(BID)字段可以在PR字段之后。
多重无效指令802还包括偏移字段804a-804b和目标字段806a-806b。可以在第一目标字段806a中使用LSID掩码。LSID掩码可以指示将由多重无效指令802来无效的存储器访问指令(例如,存储器存储)的LSID。当由LSID标识的存储器访问指令无效时,其LSID可以被标记为完成,就好像存储器访问指令已被执行。
多重无效指令802还在其第二目标字段806b中包括寄存器掩码。寄存器掩码可以指示将由多重无效指令802来无效的寄存器(例如,断言指令的非执行分支中指令向其写入输出的寄存器)。当由寄存器掩码标识的寄存器被无效时,向寄存器写入的相应指令(例如,向寄存器写入输出的Add指令)可以被标记为完成,就好像寄存器写入指令已被执行。
表810a示出了可以使用LSID掩码807a和偏移字段805a来确定的示例LSID。例如,LSID掩码807a可以是具有2位偏移字段805a的8位掩码,使得至少32个LSID可以由LSID掩码807a和偏移字段805a表示。在这一点上,相同的LSID掩码可以表示针对偏移字段805a的不同值的两个不同的LSID。
表810b示出了可以使用寄存器掩码807b和偏移字段805b来确定的示例寄存器。例如,寄存器掩码807b可以是具有2位偏移字段805b的8位掩码,使得至少64个寄存器可以由寄存器掩码807b和偏移字段805b表示。在这一点上,相同的寄存器掩码可以表示针对偏移字段805b的不同值的不同的寄存器。
在示例实施例中,多重无效指令允许多达8个存储标识符(LSID)和8个全局寄存器通过单个多重无效指令而被批量无效(例如,通过使用第一和第二目标字段中的相应的8位存储和寄存器掩码)。偏移字段可以被用于将相应的掩码一次偏移8位,从而为LSID和寄存器编号提供更大的覆盖范围。
图9示出了可以在所公开的技术的某些示例中所使用的分别用于使多个存储指令和多个寄存器无效的示例LSID掩码和寄存器掩码。在一些示例中,多重无效指令802可以在其第一目标字段806a中使用LSID掩码,这个掩码可以指示用于无效的多于一个LSID。LSID掩码可以与用于偏移01的LSID[0]-[7]、用于偏移01的LSID[8]-[15]等相关联。如表900所示,可以在LSID掩码中设置多于一个位,以指示用于无效的相应的LSID。例如,LSID掩码902具有位0和1集合,其指示用于无效的LSID[0]和[1]。LSID掩码904指示用于无效的LSID[0]、[1]、[2]和[7]。
在一些示例中,多重无效指令802可以在其第二目标字段806b中使用单个寄存器掩码,这个掩码可以指示用于无效的多于一个寄存器。如表910所示,可以在寄存器掩码中设置多于一个位,以指示用于无效的相应的寄存器。例如,寄存器掩码902具有位0和1集合,其指示用于无效的寄存器[0]和[1]。寄存器掩码904指示用于无效的寄存器[5]、[6]和[7]。
图10示出了可以在所公开的技术的某些示例中使用的在目标字段中具有LSID和寄存器编号的示例性的多重无效指令。参考图10,多重无效指令1002包括两个单独的9位目标字段T0和T1。在一些示例中,第一目标字段可以存储LSID编号,并且第二目标字段可以存储寄存器编编号(例如,如图8所示,除了LSID编号和寄存器编编号可以被用在目标字段中,而不是LSID掩码和寄存器掩码之外)。在这一点上,可以使用单个多重无效指令1002来使LSID y和寄存器x(图10中的1006和1004)两者无效。
XI.示例控制流程图
图11A-11B示出了可以在所公开的技术的某些示例中使用的具有使用多重无效的存储指令无效和寄存器无效的示例性控制流程图。参考图11A-11B,为了便于说明,以包括节点和边的图形的形式描绘控制流程图1102和1126,但是也可以以其他形式来表示,如相关领域的普通技术人员将容易明白的。为了便于说明,在控制流程图中仅示出了加载、存储和添加指令,但是应当理解,其他指令将由控制流程图的节点根据各个指令的依赖性和断言来放置或引用。
参考图11A中的曲线图1102,第一节点1104包括两个加载(LD)指令。为便于说明,只有Store(ST)指令具有相关联的LSID,而不是LD指令。这两个LD指令是不可断言的,并且只要它们的操作数可用就可以发出并且执行。节点1106包括可以与条件相关联的断言指令p。基于条件是“真”还是“假”,指令执行可以分别继续进行到节点1108和1110。在节点1108,可以执行具有LSID[0]和[1]的两个ST指令以及向寄存器R1写入的加法指令。由于具有LSID[2]的存储指令和对寄存器R2写入的Add将不执行,所以在节点1108中插入用于LSID[2]和寄存器R2的多重无效(Nullm)指令。如果指令p的断言指令条件为假并且执行继续进行到节点1110,则仅执行具有LSID[2]的存储指令,并且具有LSID[0]和[1]的ST指令以及向寄存器R1写入的Add将不执行。因此,由于所有存储器访问指令都必须被考虑(并且产生)以便用于指令块提交,所以节点1110必须包括用于使LSID[0]和[1]无效的多重无效指令以及寄存器R1。LSID和寄存器编编号可以被编码为多重无效指令的两个目标字段的一部分(例如,如图8-10中所描述的)。
多重无效指令(例如,“NULLM R2[2]”)由编译器自动生成并且插入到指令块中以考虑所有LSID和寄存器,并且平衡看起来好像已经针对控制流程图的每个路径而被执行的存储器访问指令和寄存器写入指令的数目。与寄存器和LSID相关联的多重无效指令(例如,在其目标字段中指定存储指令LSID)的效果可以是LSID被标记为完成,就好像与LSID相关联的存储器访问指令已被执行(并且向寄存器写入的指令也被标记为完成,就好像寄存器写入指令已被执行)。在一些其他示例中,存储指令和寄存器写入指令可以被处理器核硬件无效,使得看起来好像存储器存储指令和寄存器写入指令已被执行,但是并没有在指令块中存储/插入单独的多重无效指令。
在又一些其他示例中,为了指令无效的目的,可以递增指令计数器(例如,存储指令计数器和寄存器写入指令计数器)。例如,对于断言指令p的“真”分支,可以将存储指令计数设置为2,对于指令p的“假”分支,可以将第二存储指令计数设置为2。每当存储指令被执行时(无论选择哪个断言分支),每个计数器可以被减少,并且一旦至少一个计数器达到0,就可以提交断言指令P。在其他示例中,也可以使用单个存储指令计数,并且可以在每个存储指令被执行之后使用调节计数,并且不执行非执行的断言分支中的存储指令。
在又一些其他示例中,为了指令无效的目的,可以递增指令计数器(例如,向寄存器写入的指令块中的所有指令的寄存器写入指令计数或RWIC)。例如,对于断言指令p的“真”分支,可以将RWIC设置为1,对于指令p的“假”分支,可以将第二RWIC设置为1。每当存储指令被执行时(无论选择哪个断言分支),每个计数器可以被减少,并且一旦至少一个计数器达到0,就可以提交断言指令p。在其他示例中,也可以使用单个RWIC,并且可以在每个寄存器写入指令被执行之后调节计数,并且不执行非不执行的断言分支中的寄存器写入指令。
在指令节点1110之后,节点1112可以执行,其是断言指令q,其包括相关联的条件的“真”(节点1114)和“假”(结点1116)结果的断言路径。由于只有节点1116(而不是1114)包括ST指令(LSID[3])和寄存器写入添加指令(向寄存器R3写入),所以在节点1114中插入相应的NULLM指令,其可以用于使具有LSID[3]和寄存器R3的存储无效。条件流程图1102以节点1118处的分支指令(BRO)完成,其可以用于在另一指令块处恢复指令执行。
参考图11B,控制流程图1126类似于图11A中的图1102。然而,控制流程图1126的多个边已经被更新以指示将在相关联的源码部分已被执行之后执行的存储器存储指令(SC)的数目和寄存器写入指令的数目(RWIC或寄存器写入指令计数)。例如,节点1127不包括任何存储指令或寄存器写入指令(例如,向寄存器写入的Add指令),并且在离开节点1127的边上,SC/RWIC计数都被设置为0。节点1129的源码部分包括2个存储指令和2个寄存器写入指令,并且因此退出节点1129的边针对SC和RWIC都被设置为计数2。节点1130的源码部分包括1个存储指令和1个寄存器写入指令,并且因此边退出节点1130的边针对SC和RWIC都被设置为计数1。节点1133具有一个存储指令和一个寄存器写入指令,但是节点1133的出口处的计数针对SC和RWIC中的每个被设置为2,这是存储指令和寄存器写入指令的累积数目(每个两个,一个在1130中和一个在1133中),这将针对通过控制流程图的这个路径进行执行。此外,如图所示,节点1132的源码部分不包括存储或寄存器写入指令,但是NULLM指令已经被插入,这将递增存储器存储指令计数(SC)和RWIC,其针对在节点1132的出口处的SC和RWIC中的每个被指示为2。在节点1134处,当来自到达节点1134的任何路径的存储指令计数已经递增到2时,可以确定可以执行分支指令。在一些示例中,代替在节点1132中插入空指令,计数器(SC和RWIC)可以简单地在节点1132的出口处递增到2,以便解释节点1133中的非执行的存储指令。
XII.指令无效的示例方法
图12-13是概述可以在所公开的技术的某些示例中使用的使用多重无效来使存储器访问指令和寄存器无效的示例方法的流程图。参考图12,当在第一指令块中接收多重无效指令时,示例方法1200在1210处开始。例如,可以为图11A中的节点1108接收多重无效指令。在1220处,基于多重无效(Nullm)指令的第一目标字段,针对多个存储器访问指令中的存储器访问指令获取存储器指令标识。例如,可以在Nullm指令的第一目标字段中对LSID[0]进行编码(例如,通过使用LSID掩码)。在1225处,基于无效指令的第二目标字段,获取多个寄存器中的至少一个寄存器的寄存器标识。例如,节点1108中的无效指令的第二目标字段可以使用标识用于无效的寄存器R2的寄存器掩码。在1230处,执行无效指令以使与存储器指令标识相关联的存储器访问指令和与寄存器标识(例如,R2)相关联的至少一个寄存器写入无效。至少一个寄存器读取位于多个指令块中的第二指令块中。例如,节点1143中的无效指令被执行以使具有LSID[2]的存储指令(例如,LSID[2]可以被标记为好像具有这个LSID的存储指令已被执行)以及寄存器R2(例如,向寄存器R2写入的指令可以被标记为完成/执行)无效。在1240处,基于无效的存储器访问指令和无效的至少一个寄存器,执行来自第一指令块的后续存储器指令和/或来自第二指令块的后续寄存器读取指令。例如,在节点1108中的无效指令被执行,并且具有LSID[0]的存储器和寄存器R2被无效之后,可以通过执行节点1118中的分支指令来恢复处理。
参考图13,当检索指示多个存储器存储指令的执行顺序的数据时,示例方法1300在1310处开始。例如,从指令块的头部510检索存储掩码515或LSID计数517。在1315处,可以检索指示多个寄存器中多个寄存器写入指令中的一个或多个寄存器写入指令将向其写入的一个或多个寄存器的数据。例如,写入掩码751b可以从块的头部中检索。在1320处,在指令执行期间检测断言指令。例如,检测节点1106中的断言指令p。在1330处,确定多个存储器存储指令中的至少第一存储器存储指令和多个寄存器写入指令中的至少第一寄存器写入指令,其中至少第一存储器存储指令和至少第一寄存器写入指令在断言指令的条件满足时将不执行。例如,当指令p的条件为“真”并且节点1108被执行时,在节点1110中具有LSID[2]的存储指令和向寄存器R2写入的Add指令将不执行。在1340处,生成多重无效指令,其中无效指令的第一目标字段标识第一存储器存储指令的加载/存储标识符(LSID),并且无效指令的第二目标字段标识多个寄存器中至少第一寄存器写入指令向其写入的至少一个寄存器的寄存器编号。例如,生成无效指令,其第一目标字段中标识LSID[2]并且在第二目标字段中标识寄存器R2,并且将其插入节点1108的指令中。在1350处,使第一存储器存储指令(例如,具有LSID[2]的存储器存储)和寄存器R2无效,并且断言指令(例如,指令p)发出。
XIII.示例性的计算环境
图14示出了其中可以实现所描述的实施例、技术和工艺(包括配置基于块的处理器)的合适计算环境1400的概括示例。例如,计算环境1400可以实现用于配置处理器以根据一个或多个指令块进行操作或将代码编译成用于执行这种操作的计算机可执行指令的所公开的技术,如本文所述。
计算环境1400并非旨在提出关于技术的使用或者功能的范围的任何限制,因为技术可以被实现在不同的通用或者专用计算环境中。例如,所公开的技术可以利用其他计算机系统配置被实现,包括手持式设备、多处理器系统、可编程消费者电子产品、网络PC、微型计算机、大型计算机,等等。所公开的技术还可以被实践在分布式计算环境中,其中任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块(包括用于基于块的指令块的可执行指令)可以被定位在本地存储器存储设备和远程存储器存储设备二者中。
参考图14,计算环境1400包括至少一个基于块的处理单元1410和存储器1420。在图14中,该最基本配置1430被包括在虚线内。基于块的处理单元1410执行计算机可执行指令并且可以是真实处理器或者虚拟处理器。在多处理系统中,多个处理单元执行计算机可执行指令以增加处理能力,并且如此多个处理器可以同时运行。存储器1420可以是易失性存储器(例如,寄存器、高速缓存、RAM)、非易失性存储器(例如,ROM、EEPROM、闪速存储器等)、或者两者的组合。存储器1420存储可以例如实现在此所描述的技术的软件1480、图像和视频。计算环境可以具有附加的特征。例如,计算环境1400包括存储装置1440、一个或多个输入设备1450、一个或多个输出设备1460以及一个或多个通信连接1470。互连机制(未示出)(诸如总线、控制器或者网络)将计算环境1400的部件相互连接。通常,操作系统软件(未示出)提供用于在计算环境1400中执行的其他软件的操作环境,并且协调计算环境1400的部件的活动。
存储装置1440可以是可移除或者不可移除的,并且包括磁盘、磁带或者磁带盒、CD-ROM、CD-RW、DVD或者可以用于存储信息并且可以在计算环境1400内访问的任何其他介质。存储装置1440存储用于软件1480的指令、插入数据和消息,其可以用于实现在此所描述的技术。
(一个或多个)输入设备1450可以是触摸输入设备,诸如键盘、小键盘、鼠标、触屏显示器、笔或轨迹球、语音输入设备、扫描设备或者向计算环境1400提供输入的另一设备。对于音频而言,(一个或多个)输入设备1450可以是以模拟或者数字形式接受音频输入的声卡或者类似设备,或者向计算环境1400提供音频样本的CD-ROM读取器。(一个或多个)输出设备1460可以是显示器、打印机、扬声器、刻录机或者提供来自计算环境1400的输出的另一设备。
(一个或多个)通信连接1470实现通过通信介质(例如,连接网络)与另一计算实体的通信。通信介质传达诸如计算机可执行指令、压缩图形信息、视频或者调制数据信号中的其他数据的信息。(一个或多个)通信连接1470不限于有线连接(例如,兆比特或吉比特以太网、无限带宽、电气或光纤连接上的光纤信道),而且包括无线技术(例如,经由蓝牙、WiFi(IEEE 802.11a/b/n)、WiMax、蜂窝、卫星、激光、红外的RF连接)以及用于提供用于所公开的方法的网络连接的其他适合的通信连接。在虚拟主机环境中,(一个或多个)通信连接可以是由虚拟主机所提供的虚拟化网络连接。
可以使用实现计算云1490中的所公开的技术的全部或部分的计算机可执行指令执行所公开的方法的一些实施例。例如,所公开的编译器和/或基于块的处理器的服务器被定位在计算环境中,或者所公开的编译器可以在被定位在计算云1490中的服务器上执行。在一些示例中,所公开的编译器在传统的中央处理单元(例如,RISC或者CISC处理器)上执行。
计算机可读介质是可以在计算环境1400内访问的任何可用介质。以示例而非限制的方式,利用计算环境1400,计算机可读介质包括存储器1420和/或存储装置1440。如应当容易理解的,术语计算机可读存储介质包括用于数据存储的介质(诸如存储器1420和存储装置1440)而非传输介质(诸如调制数据信号)。
XIV.所公开的技术的附加示例
根据上文所讨论的示例在此讨论了所公开的主题的附加示例。
在示例实施例中,一种装置包括基于块的处理器。基于块的处理器包括被配置为取回并且执行多个指令块的一个或多个处理核。该处理器还包括至少部分基于接收到无效指令而被配置为使至少两个块输出无效的控制单元。至少两个块输出由寄存器写入指令和存储器存储指令生成。控制单元被配置为使用无效指令使至少寄存器写入指令和存储器存储指令无效。寄存器写入指令和存储器存储指令在无效指令的目标字段中被标识。
在示例实施例中,一种装置包括基于块的处理器,该基于块的处理器具有被配置为取回并且执行多个指令块的一个或多个处理核。处理器还包括控制单元,该控制单元至少部分基于接收到无效指令来被配置为基于无效指令的第一目标字段来获取多个存储器访问指令中的存储器访问指令的存储器指令标识。控制单元还被配置为基于无效指令的第二目标字段来获取多个寄存器中的至少一个寄存器的寄存器标识。控制单元还被配置为使与存储器指令标识相关联的存储器访问指令无效。控制单元还被配置为使与寄存器标识相关联的至少一个寄存器读取无效,其中至少一个寄存器读取位于多个指令块中的第二指令块中。控制单元还被配置为基于被无效的存储器访问指令和被无效的至少一个寄存器来执行来自第一指令块的后续存储器指令和/或来自第二指令块的后续寄存器指令。
控制单元被配置为通过取回并且执行被编码在第一指令块中的无效指令来使至少一个寄存器和存储器访问指令无效。该装置还包括被配置为存储指示多个存储器访问指令的执行顺序的数据的硬件结构。指示执行顺序的数据为存储掩码,其至少部分基于针对第一指令块中的多个存储器访问指令而编码的多个加载/存储标识符(LSID)。数据结构还存储指示在第一指令块的执行期间数据将被写入的多个寄存器中的一个或多个的数据。存储器访问指令是存储器存储指令,并且存储器指令标识包括来自多个LSID的针对存储器存储指令的LSID。存储器指令标识是LSID,并且控制单元还被配置为在无效期间将存储器访问指令的LSID标记为已完成,就好像存储器访问指令已被执行,并且将向至少一个寄存器写入的至少一个寄存器写入指令标记为已完成,就好像至少一个寄存器写入指令已被执行。
该装置还包括指令译码器,指令译码器被配置为译码第一指令块的多个存储器访问指令和寄存器写入指令,并且检测至少一个断言指令,断言指令与第一断言执行路径和第二断言执行路径相关联。控制单元还被配置为在第一断言执行路径中的指令的执行期间,在第二断言执行路径中检测存储器存储指令和向多个寄存器中的至少第二寄存器写入的指令。控制单元还被配置为在执行第一断言执行路径中的指令的同时,使存储器存储指令和至少第二寄存器无效,就好像存储器存储指令和向至少第二寄存器写入的指令已被执行。在执行第一断言执行路径中的指令的同时,使存储器存储指令和至少第二寄存器的无效发生,而无需在第一指令块中插入的单独的无效指令。
控制单元被配置为通过增加已经在第一指令块内被执行的存储指令的第一指令计数,来使存储器访问指令无效。控制单元被配置为通过增加向多个寄存器中的一个或多个寄存器进行写入并且已经在第一指令块内被执行的寄存器写入指令的第二指令计数,来使至少一个寄存器无效。控制单元被配置为在第一指令计数和第二指令计数达到预定值时,执行后续存储器访问指令。
控制单元还被配置为基于被无效的存储器访问指令和被无效的至少一个寄存器,来提交第一指令块并且执行来自多个指令块中的至少第二指令块的至少一个指令。
在一个实施例中,一种操作处理器以执行指令块的方法,所述指令块具有多个存储器存储指令和多个寄存器写入指令,所述方法包括检索指示多个存储器存储指令的执行顺序的数据。检索指示多个寄存器中多个寄存器写入指令将向其进行写入的一个或多个寄存器的数据。在指令执行期间检测断言指令。该方法还包括确定当断言指令的条件满足时,将不执行的多个存储器存储指令中的至少第一存储器存储指令和多个寄存器写入指令中的至少第一寄存器写入指令。生成无效指令。无效指令的第一目标字段标识第一存储器存储指令的加载/存储标识符(LSID),并且无效指令的第二目标字段标识多个寄存器中至少第一寄存器向其写入指令将进行写入的至少一个寄存器的寄存器编号。然后发出断言指令。
第一目标字段包括第一掩码和第一偏移位,第一存储器存储指令的LSID基于第一掩码和第一偏移位而被标识。第二目标字段包括第二掩码和第二偏移位,至少第一寄存器写入指令基于第二掩码和第二偏移位而被标识。
分析被编码在源码和/或目标码中的存储器访问,以确定指令块的存储器依赖性。将源码和/或目标码转换成针对指令块的计算机可执行码,计算机可执行码包括可以能够被用于生成无效指令的存储器访问指令和寄存器写入指令。一个或多个无效指令存储在指令块中。无效指令包括第一目标字段和第二目标字段,第一目标字段标识存储器访问指令中的至少一个存储器访问指令的加载/存储标识符,第二目标字段标识多个寄存器中寄存器写入指令对其进行写入的至少一个寄存器。
在一个示例性实施例中,公开了一个或多个计算机可读存储介质,其存储用于指令块的计算机可读指令,计算机可读指令在由基于块的处理器执行时引起处理器执行一种方法,计算机可读指令包括用于分析被编码在源码和/或目标码中的存储器访问以确定指令块的存储器依赖性的指令、以及用于将源码和/或目标码转换成用于指令块的计算机可执行码的指令,计算机可执行码包括可以能够被用于生成一个或多个无效指令的存储器访问指令和寄存器写入指令。计算机可读指令还包括用于将一个或多个无效指令存储在指令块中的指令,一个或多个无效指令包括第一目标字段和第二目标字段,第一目标字段标识存储器访问指令中的至少一个存储器访问指令的加载/存储标识符,第二目标字段标识多个寄存器中寄存器写入指令对其进行写入的至少一个寄存器。
鉴于所公开的主题的原理可以应用的许多可能实施例,应当认识到所图示的实施例仅是优选的示例并且不应该当作将权利要求的范围限于那些优选的示例。相反,要求保护的主题的范围由所附的权利要求进行限定。我们因此根据我们的发明要求保护落在这些权利要求的范围内的全部内容。

Claims (15)

1.一种包括基于块的处理器的装置,所述基于块的处理器包括:
一个或多个处理核,其被配置为取回并且执行多个指令块;以及
控制单元,其至少部分基于接收到无效指令而被配置为使至少两个块输出无效。
2.根据权利要求1所述的装置,其中所述至少两个块输出由寄存器写入指令和存储器存储指令生成,并且其中所述控制单元被配置为使用所述无效指令使至少所述寄存器写入指令和所述存储器存储指令无效,
其中所述寄存器写入指令和所述存储器存储指令在所述无效指令的目标字段中被标识。
3.一种包括基于块的处理器的装置,所述基于块的处理器包括:
一个或多个处理核,其被配置为取回并且执行多个指令块;以及
控制单元,其至少部分基于接收到无效指令而被配置为:
基于所述无效指令的第一目标字段来获取多个存储器访问指令中的存储器访问指令的存储器指令标识;
基于所述无效指令的第二目标字段来获取多个寄存器中的至少一个寄存器的寄存器标识;
使与所述存储器指令标识相关联的存储器访问指令无效;
使与所述寄存器标识相关联的至少一个寄存器读取无效,其中所述至少一个寄存器读取位于所述多个指令块中的第二指令块中;以及
基于被无效的所述存储器访问指令和被无效的所述至少一个寄存器,来执行来自所述第一指令块的后续存储器指令和/或来自所述第二指令块的后续寄存器指令。
4.根据权利要求3所述的装置,其中所述控制单元被配置为通过取回并且执行被编码在所述第一指令块中的所述无效指令,来使所述至少一个寄存器和所述存储器访问指令无效。
5.根据权利要求3所述的装置,还包括:
硬件结构,所述硬件结构被配置为存储:
指示所述多个存储器访问指令的执行顺序的数据,其中指示执行顺序的所述数据为存储掩码,所述存储掩码至少部分基于针对所述第一指令块中的所述多个存储器访问指令而编码的多个加载/存储标识符(LSID);以及
指示所述多个寄存器中的一个或多个寄存器的数据,在所述第一指令块的执行期间将向所述一个或多个寄存器写入数据,
其中所述存储器访问指令为存储器存储指令,并且所述存储器指令标识包括来自所述多个LSID的、针对所述存储器存储指令的LSID。
6.根据权利要求3所述的装置,其中所述存储器指令标识为LSID,并且所述控制单元还被配置为在所述无效期间:
将所述存储器访问指令的LSID标记为已完成,就像所述存储器访问指令已被执行;以及
将向所述至少一个寄存器进行写入的至少一个寄存器写入指令标记为已完成,就像所述至少一个寄存器写入指令已被执行。
7.根据权利要求3所述的装置,还包括指令译码器,所述指令译码器被配置为:
译码所述第一指令块的所述多个存储器访问指令和寄存器写入指令;以及
检测至少一个断言指令,所述断言指令与第一断言执行路径和第二断言执行路径相关联。
8.根据权利要求7所述的装置,其中所述控制单元还被配置为在所述第一断言执行路径中的指令的执行期间:
在所述第二断言执行路径中检测存储器存储指令和向所述多个寄存器中的至少第二寄存进行写入的指令;以及
在执行所述第一断言执行路径中的指令的同时,使所述存储器存储指令和所述至少第二寄存器无效,就像所述存储器存储指令和向所述至少第二寄存器写入的指令已被执行,
其中在执行所述第一断言执行路径中的所述指令的同时,所述存储器存储指令和所述至少第二寄存器的所述无效发生,而无需在所述第一指令块中插入单独的无效指令。
9.根据权利要求3所述的装置,其中所述控制单元被配置为:
通过增加已经在所述第一指令块内被执行的存储指令的第一指令计数,来使所述存储器访问指令无效;以及
通过增加向所述多个寄存器中的一个或多个寄存器进行写入并且已经在所述第一指令块内被执行的寄存器写入指令的第二指令计数,来使所述至少一个寄存器无效。
10.根据权利要求9所述的装置,其中所述控制单元被配置为在所述第一指令计数和所述第二指令计数达到预定值时,执行所述后续存储器访问指令。
11.根据权利要求3所述的装置,其中所述控制单元还被配置为:
基于被无效的所述存储器访问指令和被无效的所述至少一个寄存器,来提交所述第一指令块并且执行来自所述多个指令块中的至少第二指令块的至少一个指令。
12.一种操作处理器以执行指令块的方法,所述指令块包括多个存储器存储指令和多个寄存器写入指令,所述方法包括:
检索指示所述多个存储器存储指令的执行顺序的数据;
检索指示多个寄存器中所述多个寄存器写入指令将向其进行写入的一个或多个寄存器的数据;
在指令执行期间检测断言指令;
确定所述多个存储器存储指令中的至少第一存储器存储指令和所述多个寄存器写入指令中的至少第一寄存器写入指令,当所述断言指令的条件被满足时,所述至少第一存储器存储指令和所述至少第一寄存器写入指令将不执行;
生成无效指令,其中所述无效指令的第一目标字段标识所述第一存储器存储指令的加载/存储标识符(LSID),并且所述无效指令的第二目标字段标识所述多个寄存器中所述至少第一寄存器写入指令将向其进行写入的至少一个寄存器的寄存器编号;以及
发出所述断言指令。
13.根据权利要求12所述的方法,其中所述第一目标字段包括第一掩码和第一偏移位,所述第一存储器存储指令的所述LSID基于所述第一掩码和所述第一偏移位而被标识。
14.根据权利要求13所述的方法,其中所述第二目标字段包括第二掩码和第二偏移位,所述至少第一寄存器写入指令基于所述第二掩码和所述第二偏移位而被标识。
15.根据权利要求12所述的方法,还包括:
分析被编码在源码和/或目标码中的存储器访问,以确定所述指令块的存储器依赖性;
将所述源码和/或目标码转换成针对所述指令块的计算机可执行码,所述计算机可执行码包括能够被用于生成所述无效指令的存储器访问指令和寄存器写入指令;以及
将所述一个或多个无效指令存储在所述指令块中,所述无效指令包括第一目标字段和第二目标字段,所述第一目标字段标识所述存储器访问指令中的至少一个存储器访问指令的加载/存储标识符,所述第二目标字段标识多个寄存器中所述寄存器写入指令对其进行写入的至少一个寄存器。
CN201680054133.4A 2015-09-19 2016-09-13 多重无效 Withdrawn CN108112269A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562221003P 2015-09-19 2015-09-19
US62/221,003 2015-09-19
US15/060,445 2016-03-03
US15/060,445 US10031756B2 (en) 2015-09-19 2016-03-03 Multi-nullification
PCT/US2016/051404 WO2017048643A1 (en) 2015-09-19 2016-09-13 Multi-nullification

Publications (1)

Publication Number Publication Date
CN108112269A true CN108112269A (zh) 2018-06-01

Family

ID=66000895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680054133.4A Withdrawn CN108112269A (zh) 2015-09-19 2016-09-13 多重无效

Country Status (4)

Country Link
US (1) US10031756B2 (zh)
EP (1) EP3350689A1 (zh)
CN (1) CN108112269A (zh)
WO (1) WO2017048643A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115543449A (zh) * 2022-11-28 2022-12-30 北京微核芯科技有限公司 处理器设置方法、装置、电子设备及存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198263B2 (en) * 2015-09-19 2019-02-05 Microsoft Technology Licensing, Llc Write nullification
US10180840B2 (en) 2015-09-19 2019-01-15 Microsoft Technology Licensing, Llc Dynamic generation of null instructions
US11681531B2 (en) 2015-09-19 2023-06-20 Microsoft Technology Licensing, Llc Generation and use of memory access instruction order encodings
US10061584B2 (en) * 2015-09-19 2018-08-28 Microsoft Technology Licensing, Llc Store nullification in the target field
US10430912B2 (en) * 2017-02-14 2019-10-01 Qualcomm Incorporated Dynamic shader instruction nullification for graphics processing
GB2571352B (en) * 2018-02-27 2020-10-21 Advanced Risc Mach Ltd An apparatus and method for accessing metadata when debugging a device
US10915324B2 (en) * 2018-08-16 2021-02-09 Tachyum Ltd. System and method for creating and executing an instruction word for simultaneous execution of instruction operations
US10824429B2 (en) * 2018-09-19 2020-11-03 Microsoft Technology Licensing, Llc Commit logic and precise exceptions in explicit dataflow graph execution architectures

Family Cites Families (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5666506A (en) 1994-10-24 1997-09-09 International Business Machines Corporation Apparatus to dynamically control the out-of-order execution of load/store instructions in a processor capable of dispatchng, issuing and executing multiple instructions in a single processor cycle
US5790822A (en) 1996-03-21 1998-08-04 Intel Corporation Method and apparatus for providing a re-ordered instruction cache in a pipelined microprocessor
US5920724A (en) 1996-03-28 1999-07-06 Intel Corporation Software pipelining a hyperblock loop
US5796997A (en) 1996-05-15 1998-08-18 Hewlett-Packard Company Fast nullify system and method for transforming a nullify function into a select function
US5799167A (en) 1996-05-15 1998-08-25 Hewlett-Packard Company Instruction nullification system and method for a processor that executes instructions out of order
US5845103A (en) 1997-06-13 1998-12-01 Wisconsin Alumni Research Foundation Computer with dynamic instruction reuse
US5943501A (en) 1997-06-27 1999-08-24 Wisconsin Alumni Research Foundation Multiple processor, distributed memory computer with out-of-order processing
US5930158A (en) 1997-07-02 1999-07-27 Creative Technology, Ltd Processor with instruction set for audio effects
US6182210B1 (en) 1997-12-16 2001-01-30 Intel Corporation Processor having multiple program counters and trace buffers outside an execution pipeline
US6164841A (en) 1998-05-04 2000-12-26 Hewlett-Packard Company Method, apparatus, and product for dynamic software code translation system
US6988183B1 (en) 1998-06-26 2006-01-17 Derek Chi-Lan Wong Methods for increasing instruction-level parallelism in microprocessors and digital system
US6115808A (en) 1998-12-30 2000-09-05 Intel Corporation Method and apparatus for performing predicate hazard detection
US6813705B2 (en) * 2000-02-09 2004-11-02 Hewlett-Packard Development Company, L.P. Memory disambiguation scheme for partially redundant load removal
US6918032B1 (en) 2000-07-06 2005-07-12 Intel Corporation Hardware predication for conditional instruction path branching
KR20030007403A (ko) * 2000-11-27 2003-01-23 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 데이터 프로세싱 장치
US7032217B2 (en) 2001-03-26 2006-04-18 Intel Corporation Method and system for collaborative profiling for continuous detection of profile phase transitions
JP3702815B2 (ja) * 2001-07-12 2005-10-05 日本電気株式会社 プロセッサ間レジスタ継承方法及びその装置
AU2002363142A1 (en) 2001-10-31 2003-05-12 Doug Burger A scalable processing architecture
JP2005522773A (ja) 2002-04-08 2005-07-28 ユニバーシティー・オブ・テキサス・システム 非均等型キャッシュ装置、システム及び方法
JP3804941B2 (ja) 2002-06-28 2006-08-02 富士通株式会社 命令フェッチ制御装置
US7299458B2 (en) 2002-10-31 2007-11-20 Src Computers, Inc. System and method for converting control flow graph representations to control-dataflow graph representations
EP1731998A1 (en) 2004-03-29 2006-12-13 Kyoto University Data processing device, data processing program, and recording medium containing the data processing program
US7571284B1 (en) 2004-06-30 2009-08-04 Sun Microsystems, Inc. Out-of-order memory transactions in a fine-grain multithreaded/multi-core processor
US7552318B2 (en) 2004-12-17 2009-06-23 International Business Machines Corporation Branch lookahead prefetch for microprocessors
US7853777B2 (en) 2005-02-04 2010-12-14 Mips Technologies, Inc. Instruction/skid buffers in a multithreading microprocessor that store dispatched instructions to avoid re-fetching flushed instructions
US7380038B2 (en) 2005-02-04 2008-05-27 Microsoft Corporation Priority registers for biasing access to shared resources
US8290095B2 (en) 2006-03-23 2012-10-16 Qualcomm Incorporated Viterbi pack instruction
US8327115B2 (en) 2006-04-12 2012-12-04 Soft Machines, Inc. Plural matrices of execution units for processing matrices of row dependent instructions in single clock cycle in super or separate mode
US8332452B2 (en) 2006-10-31 2012-12-11 International Business Machines Corporation Single precision vector dot product with “word” vector write mask
EP2527972A3 (en) 2006-11-14 2014-08-06 Soft Machines, Inc. Apparatus and method for processing complex instruction formats in a multi- threaded architecture supporting various context switch modes and virtualization schemes
US7600077B2 (en) 2007-01-10 2009-10-06 Arm Limited Cache circuitry, data processing apparatus and method for handling write access requests
US8291400B1 (en) 2007-02-07 2012-10-16 Tilera Corporation Communication scheduling for parallel processing architectures
US8447911B2 (en) 2007-07-05 2013-05-21 Board Of Regents, University Of Texas System Unordered load/store queue
US8180997B2 (en) 2007-07-05 2012-05-15 Board Of Regents, University Of Texas System Dynamically composing processor cores to form logical processors
JP2009026106A (ja) 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 命令コード圧縮方法と命令フェッチ回路
US8321850B2 (en) 2008-06-06 2012-11-27 Vmware, Inc. Sharing and persisting code caches
US8127119B2 (en) 2008-12-05 2012-02-28 The Board Of Regents Of The University Of Texas System Control-flow prediction using multiple independent predictors
US20100146209A1 (en) 2008-12-05 2010-06-10 Intellectual Ventures Management, Llc Method and apparatus for combining independent data caches
US20100325395A1 (en) 2009-06-19 2010-12-23 Doug Burger Dependence prediction in a memory system
US8433885B2 (en) 2009-09-09 2013-04-30 Board Of Regents Of The University Of Texas System Method, system and computer-accessible medium for providing a distributed predicate prediction
US10698859B2 (en) 2009-09-18 2020-06-30 The Board Of Regents Of The University Of Texas System Data multicasting with router replication and target instruction identification in a distributed multi-core processing architecture
US20110078424A1 (en) 2009-09-30 2011-03-31 International Business Machines Corporation Optimizing program code using branch elimination
US8464002B2 (en) 2009-10-14 2013-06-11 Board Of Regents Of The University Of Texas System Burst-based cache dead block prediction
JP5057256B2 (ja) 2009-12-02 2012-10-24 株式会社Mush−A データ処理装置、データ処理システムおよびデータ処理方法
WO2011067896A1 (en) 2009-12-02 2011-06-09 Mush-A Co., Ltd. Data processing apparatus, data processing system, packet, recording medium, storage device, and data processing method
EP2519876A1 (en) 2009-12-28 2012-11-07 Hyperion Core, Inc. Optimisation of loops and data flow sections
GB201001621D0 (en) 2010-02-01 2010-03-17 Univ Catholique Louvain A tile-based processor architecture model for high efficiency embedded homogenous multicore platforms
US8201024B2 (en) 2010-05-17 2012-06-12 Microsoft Corporation Managing memory faults
US9021241B2 (en) 2010-06-18 2015-04-28 The Board Of Regents Of The University Of Texas System Combined branch target and predicate prediction for instruction blocks
WO2012107800A1 (en) 2011-02-11 2012-08-16 Freescale Semiconductor, Inc. Integrated circuit devices and methods for scheduling and executing a restricted load operation
US8683261B2 (en) * 2011-07-20 2014-03-25 International Business Machines Corporation Out of order millicode control operation
US9632779B2 (en) 2011-12-19 2017-04-25 International Business Machines Corporation Instruction predication using instruction filtering
US9092346B2 (en) * 2011-12-22 2015-07-28 Intel Corporation Speculative cache modification
US9304776B2 (en) 2012-01-31 2016-04-05 Oracle International Corporation System and method for mitigating the impact of branch misprediction when exiting spin loops
WO2013156825A1 (en) 2012-04-20 2013-10-24 Freescale Semiconductor, Inc. A computer system and a method for generating an optimized program code
US9003225B2 (en) * 2012-10-17 2015-04-07 Advanced Micro Devices, Inc. Confirming store-to-load forwards
US9361111B2 (en) 2013-01-09 2016-06-07 Arm Limited Tracking speculative execution of instructions for a register renaming data store
US9400653B2 (en) 2013-03-14 2016-07-26 Samsung Electronics Co., Ltd. System and method to clear and rebuild dependencies
US9792252B2 (en) 2013-05-31 2017-10-17 Microsoft Technology Licensing, Llc Incorporating a spatial array into one or more programmable processor cores
GB2515076B (en) 2013-06-13 2020-07-15 Advanced Risc Mach Ltd A data processing apparatus and method for handling retrieval of instructions from an instruction cache
US9400651B2 (en) 2013-09-24 2016-07-26 Apple Inc. Early issue of null-predicated operations
US9317284B2 (en) 2013-09-24 2016-04-19 Apple Inc. Vector hazard check instruction with reduced source operands
US9547496B2 (en) 2013-11-07 2017-01-17 Microsoft Technology Licensing, Llc Energy efficient multi-modal instruction issue
US9448936B2 (en) 2014-01-13 2016-09-20 Apple Inc. Concurrent store and load operations
US10198263B2 (en) * 2015-09-19 2019-02-05 Microsoft Technology Licensing, Llc Write nullification
US11681531B2 (en) 2015-09-19 2023-06-20 Microsoft Technology Licensing, Llc Generation and use of memory access instruction order encodings
US10061584B2 (en) * 2015-09-19 2018-08-28 Microsoft Technology Licensing, Llc Store nullification in the target field
US20170083331A1 (en) * 2015-09-19 2017-03-23 Microsoft Technology Licensing, Llc Memory synchronization in block-based processors
US10180840B2 (en) 2015-09-19 2019-01-15 Microsoft Technology Licensing, Llc Dynamic generation of null instructions

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115543449A (zh) * 2022-11-28 2022-12-30 北京微核芯科技有限公司 处理器设置方法、装置、电子设备及存储介质
CN115543449B (zh) * 2022-11-28 2023-03-14 北京微核芯科技有限公司 处理器设置方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
EP3350689A1 (en) 2018-07-25
US20170083330A1 (en) 2017-03-23
US10031756B2 (en) 2018-07-24
WO2017048643A1 (en) 2017-03-23

Similar Documents

Publication Publication Date Title
CN108027767A (zh) 寄存器读取/写入排序
CN108112269A (zh) 多重无效
CN108027731A (zh) 针对基于块的处理器的调试支持
CN108027730A (zh) 写入无效
CN108139913A (zh) 处理器操作的配置模式
CN108027750A (zh) 乱序提交
CN108027769A (zh) 使用寄存器访问指令发起指令块执行
CN108027766A (zh) 预取指令块
CN108027768A (zh) 指令块地址寄存器
CN108027732A (zh) 与断言的加载指令相关联的预取
CN108027729A (zh) 分段式指令块
CN108027770A (zh) 用于数据流isa的密集读取编码
CN108027773A (zh) 存储器访问指令顺序编码的生成和使用
CN108027771A (zh) 基于块的处理器核复合寄存器
CN109074260A (zh) 乱序的基于块的处理器和指令调度器
CN108027807A (zh) 基于块的处理器核拓扑寄存器
CN108027733A (zh) 在目标字段中存储无效
CN108027772A (zh) 用于逻辑处理器的不同的系统寄存器
CN108027778A (zh) 与断言的存储指令相关联的预取
CN107810483A (zh) 验证基于块的处理器中的跳转目标
CN107810479A (zh) 用于处理器控制传送的目标位置的确定
CN110249302A (zh) 在处理器核上同时执行多个程序
CN109564508A (zh) 处理器的事务寄存器文件
CN108027734A (zh) 空指令的动态生成
CN108369513A (zh) 用于加载-索引-和-收集操作的指令和逻辑

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180601