CN105808357B

CN105808357B - 性能可精确控制多核多线程处理器

Info

Publication number: CN105808357B
Application number: CN201610187335.8A
Authority: CN
Inventors: 杨华; 曹丽娜; 石祥斌; 潘琢金
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2016-03-29
Filing date: 2016-03-29
Publication date: 2021-07-27
Anticipated expiration: 2036-03-29
Also published as: CN105808357A

Abstract

一种性能可精确控制多核多线程处理器，包括OS级配置及监控接口、性能记录寄存器组、硬件级监管线程处理核、资源记录寄存器组、线程上下文寄存器、中心控制单元和共享的处理器硬件；本发明的有益效果：（1）性能记录寄存器组N个、资源记录寄存器组N个、硬件级监管线程处理核1个，均是多核多线程处理器的新体系结构、微体系结构、运行机制的设计，实现对多线程性能和资源配置的显式调控和精确控制。（2）HLST的OS级配置及监控接口，为系统协同设计预留接口，有效克服一般多核多线程处理器上普遍存在的硬件上的“重总体、轻个体”问题和OS级调度的“黑盒”效应。

Description

性能可精确控制多核多线程处理器

技术领域

本发明涉及一种多核多线程（multi-core multi-threading）处理器技术，特别涉及性能可精确控制的多核多线程处理器技术。该发明属于计算机系统设计领域，用于对多核多线程计算机系统、特别是多核多线程处理器的硬件资源的显式调控和线程性能的精确控制。具体应用领域是多核多线程计算机系统、特别是对线程性能、实时性、确定性要求较高的多核多线程计算机系统结构设计，包括对应OS级的资源分配和线程性能控制等功能的设计和实现。

背景技术

计算机系统已进入片上多线程（CMT）架构时代，即多核多线程（multi-coremulti-threading）处理器时代。多个线程在处理器内部同时运行，竞争并共享处理器内部的各种资源，用线程级并行（TLP）克服单线程运行时指令级并行（ILP）相对不足的缺点，提高计算机系统的整体处理能力和资源利用率。CMT的架构形式包括片上多处理器（CMP）、同时多线程（SMT）或二者的混合体。与操作系统（OS）通过时间片调度实现的并发（concurrency）机制不同，CMT是硬件上、时间上的物理并行，多个线程同时在片运行，“竞争式共享”处理器内部及整个计算机系统的各类资源，这使得系统吞吐率（throughput）和资源利用率显著提升。

然而，多个线程对处理器内部资源的竞争存在很大的盲目性，线程间存在相互干扰、耦合甚至恶性竞争现象，即使进入处理器内部也是走走停停，而不是一路畅行，容易导致线程的饥饿和停滞、资源滥用、优先级颠倒、实时性被破坏、服务质量（QoS）降低等不良后果，严重影响计算机系统的可预测性和可控制性，整体性能也随之降低。此外，各线程的最坏运行时间（WCET）难以分析和估测，形成确定性问题，这对实时计算、特别是硬实时计算（HRT）来说是危险甚至致命的。究其原因，可归纳为以下三方面：

（1）硬件级措施的“重总体、轻个体”：多核多线程处理器的设计和实现，靠片上硬件逻辑实现的资源分配和线程调度策略通常比较简单，在灵活性和适应性方面先天不足，一般是追求系统整体性能和资源利用率的提升，对各个线程的性能和资源需求的不断变化、资源的效率、公平和占用均衡度、线程间互相干扰、恶性竞争等方面则鲜有监督和控制机制。

（2）OS级调度的“黑盒”效应：OS对多线程的性能管理止步于将选定的线程或线程组合调度到处理器上运行，对多核多线程处理器的片上资源如何分配、各个线程的片内实际运行状态等方面则难以监控和管理。

（3）系统级综合设计的缺失：缺少针对多核多线程处理器上同时运行的多个线程的性能和资源分配的系统级的监测和控制机制和方法，缺少相关的系统级协同设计。

综上，多核多线程虽然带来计算性能的大幅提升，但迄今仍缺少对多线程性能及资源占用进行精确控制的方法、设计和实现。

发明内容

本发明是针对一般多核多线程处理器上述的不足之处，提供一种性能可精确控制的多核多线程处理器设计，解决目前多核多线程处理器上线程性能难以控制的问题。为实现线程性能的精确控制，本发明采取如下设计：

该多核多线程处理器包括OS级配置及监控接口、性能记录寄存器组、硬件级监管线程处理核、资源记录寄存器组、线程上下文寄存器、中心控制单元和共享的处理器硬件；

其中OS级配置及监控接口的输入输出接口连接硬件级监管线程处理核的输入输出接口，性能记录寄存器组的输入输出接口连接硬件级监管线程处理核的输入输出接口，资源记录寄存器组的输入输出接口连接硬件级监管线程处理核的输入输出接口，硬件级监管线程处理核的输入输出接口连接中心控制单元的输入输出接口，线程上下文寄存器的输入输出接口连接中心控制单元的输入输出接口，共享的处理器硬件的输入输出接口连接中心控制单元的输入输出接口。

所述的性能记录寄存器组为N个，能够实时监测并记录同时运行的各线程的各项性能指标，包括提交的指令数、IPC、访存数量、cache访问和失效数量、I/O操作数量及平均等待时间；每个线程设置一组性能记录寄存器，专门监测并记录该线程的各项性能指标，当线程被OS调度进入处理器时，对应的性能记录寄存器组即被初始化，伴随该线程运行的同时，对应性能寄存器组的各项内容不断更新，直到该线程被调度出处理器为止；性能记录寄存器组的内容更新是由该线程对应的运行过程通过触发硬件级监管线程处理核及上面运行的HIST计算完成，不占用运行该线程的处理核的处理能力，且无需OS及应用软件干预，保证既有多处理核的处理能力不受影响和对于应用程序的透明性。

所述的资源记录寄存器组为N个，能够实时监测并记录同时运行的各线程的资源分配和使用情况，包括重命名寄存器的分配占比及实时占用数量、主存分配占比及占用量、cache的分配占比、I/O操作的机会占比；每个线程有一组资源记录寄存器，专门监测并记录该线程的资源分配和使用情况，当线程被OS调度进入处理器时，对应的资源记录寄存器组即被初始化，伴随该线程运行的同时，对应资源寄存器组的各项内容不断更新，直到该线程被调度出处理器为止；资源记录寄存器组的内容更新是由该线程对应的运行过程通过触发硬件级监管线程处理核及上面运行的HIST计算完成，不占用运行该线程的处理核的处理能力，且无需OS及应用软件干预，保证既有多处理核的处理能力不受影响和对于应用程序的透明性。

所述的硬件级监管线程处理核为1个，硬件级监管线程处理核针对普通用户为隐含式的，运行专门开辟的硬件级性能管理线程，即HLST，实时或周期性读取、计算及更新各线程的性能记录寄存器组及资源记录寄存器组的相关内容，根据各线程的性能需求及实际运行状况，调整关键资源配比，实现性能的精确控制，HIST是硬件级隐含线程，运行于硬件级监管线程处理核之上，对OS及应用程序透明；用户可通过OS级配置及监控接口对各个线程的目标性能及资源需求进行初始化设置和在线调整，对实时性能和资源情况进行监控。

所述的OS级配置及监控接口为1个，用于执行供OS调用的特权指令（previlegeinstruction），对各线程性能记录寄存器组和资源记录寄存器组的内容进行读取和部分设置，在此基础上，OS可通过该接口设计并提供若干例程，提供给系统级资源分配和性能管理程序调用，允许用户根据应用程序的实际需要对各线程性能和资源分配和使用情况进行预设和实时监管。这种架构为OS提供了足够的设计空间，允许其更大程度上直接参与多核多线程处理器内部的资源分配和线程性能管理，且实现了对用户级应用程序完全透明。

本发明的有益效果：

（1）性能记录寄存器组N个、资源记录寄存器组N个、硬件级监管线程处理核1个，均是多核多线程处理器的新体系结构、微体系结构、运行机制的设计，实现对多线程性能和资源配置的显式调控和精确控制。

（2）HLST的OS级配置及监控接口，为系统协同设计预留接口，有效克服一般多核多线程处理器上普遍存在的硬件上的“重总体、轻个体”问题和OS级调度的“黑盒”效应。

附图说明

图1. N线程性能可精确控制的多核多线程处理器的逻辑框图；

图2. 16线程性能可精确控制的多核多线程处理器的逻辑框图。

具体实施方式

图1是N线程性能可精确控制的多核多线程处理器的逻辑框图，其结构包括两大部分及二者间的通用互联总线：1）性能精确控制逻辑部分，具体包括性能记录寄存器组N个，资源记录寄存器组N个，硬件级监管线程处理核1个，OS级配置及监控接口1个，以及贯穿各部件间的通用总线连接；2）CMP、SMT或二者组合形式多核多线程基础硬件架构部分，作为多线程并行的基础运行环境，包括N个线程的上下文寄存器，中央控制单元，以及共享的硬件处理逻辑，其中共享硬件处理逻辑包括取指及分支预测、指令译码、整数指令队列、浮点数指令队列、重命名寄存器、访存单元、整数单元、浮点数单元、I/O单元以及各部件间的互联总线，各部件以流水线形式贯穿并受中央控制器控制。

性能可精确控制的多核多线程处理器的工作原理如下：当某线程被调入处理器开始执行时，用户根据其性能特性和资源需求特性（预先离线学习掌握）通过OS级配置及监控接口向HIST发送设置指令，由HIST对该线程对应的资源记录寄存器组的内容进行初始设置；如果该线程没有特殊的性能要求，则HIST采用缺省设置。当出现各线程的资源需求之和大于该处理器的既有配置时，HIST将重新计算并配置各线程的资源记录寄存器组，可采用等比例下降或根据优先级递次排列的策略，具体可根据各线程的实时性要求、优先级等灵活设置。此后，该线程连同处理器内既有的其它线程一道，在HIST的监管下同时运行。在多线程同时运行过程中，中心控制单元与HIST协同，根据各线程资源记录寄存器组的设置内容对共享的处理资源进行分配和调控，并对每个线程的性能记录寄存器组和资源记录寄存器组进行持续跟踪记录和监管。当某线程被调出处理器时，其对应的性能记录寄存器组和资源记录寄存器组的内容被清空，清空之前亦可通过OS级配置及监控接口读出；如没有新的线程调入，HIST为处理器内其余线程进行重新计算并调整资源分配。此外，各线程的性能记录寄存器组和资源记录寄存器组的内容亦可通过OS级配置及监控接口由OS级或用户性能管理程序随时读出，供更高层级的线程性能分析和调度管理，此举可弥补单纯依赖多核多线程处理器内部硬件级调度和分配措施的灵活性和适应性差的问题，进一步增加线程调度和资源管理的灵活性、适应性。

本发明的特点：

（1）通过设计体系结构级、微体系结构级实时的线程性能记录和资源调控的设计和措施，实现对多线程性能和资源配置的显式调控和精确控制。

（2）提供OS级管理接口，弥补单纯依赖处理器内部硬件级设计和措施的局限性，增加线程调度和资源管理的灵活性、适应性。

（3）支持系统级协同设计，对应用程序透明，无需对既有应用程序的重新编写或编译。

实施例:

参照说明书附图对本发明的性能可精确控制多核多线程处理器作以下详细说明。设本实施例中N=16，即16线程性能可精确控制多核多线程处理器，如图2所示，其结构包括两大部分及二者间的通用互联总线：1）性能精确控制逻辑部分，具体包括性能记录寄存器组16个，资源记录寄存器组16个，硬件级监管线程处理核1个，OS级配置及监控接口1个，以及贯穿各部件间的通用总线连接；2）CMP、SMT或二者组合形式的多核多线程基础硬件架构部分，包括16个线程的上下文寄存器，中央控制单元，以及共享的硬件处理逻辑，其中共享的硬件处理逻辑包括取指及分支预测、指令译码、整数指令队列、浮点数指令队列、重命名寄存器、访存单元、整数单元、浮点数单元、I/O单元等，各部件以流水线形式贯穿并受中央控制器控制。

本发明的具体实施需要预先掌握应用程序的线程性能变化和资源需求的特性（需预先学习和建模，相关技术措施已成熟并广泛采用，如应用程序WCET的估测、运行过程的跟踪和分段记录等），且需要OS级线程性能设置和监管例程（supervisor routine, 简称SR）的配合设计和共同完成。这里通过一个典型的应用场景来说明该发明的运行过程。设N=16，即有16个独立线程（T1-T16）同时运行于采用该设计的包含16个逻辑处理核（C1-C16）的多核多线程处理器上，其中T1、T2、T3是实时计算任务，其余线程是一般计算任务。设某一时刻SR与处理器的HLST的OS级配置及监控接口进行交互，发现线程T1、T2运行正常，而T3运行略为滞后，则开启调控措施如下：首先读取各线程在该时刻（或之前若干时段的平均值）的性能记录寄存器组和资源记录寄存器组的内容；其次，对各线程特别是T3的各项实际记录值与该时刻（或之前若干时段的平均值）的预先资源分配和预期性能目标比较，找出T3性能滞后的原因，例如是因为线程T5的某I/O操作阻塞，导致其大量无效占用重命名寄存器（RRF），使得T3连续几个时段的RRF分配相对不足；再次，根据各线程特别是T3在未来若干时段的性能变化和资源需求的特性，重新计算并通过HLST的OS级配置及监控接口重新设置各线程资源记录寄存器组的内容，即重新调整RRF等资源的分配，给T3以相对充裕的运行资源并且尽量不损害其它线程特别是实时任务的正常运行，让T3在随后时段加速运行，达到预期进度。这样，经过按时段实时连续的跟踪调整，确保各线程特别是实时任务线程T1、T2、T3的性能精确控制和按预定进度运行完成。

附：英文缩写的含义、中文名称

CMT：chip multi-threading，片上多线程

CMP：chip multi-processor，片上多处理器

SMT：simultaneous multithreading，同时多线程

TLP：thread level parallelism，线程级并行

ILP：instruction level parallelism，指令级并行

OS：operating system，操作系统

QoS：quality of service，服务质量

WCET：worst case execution time，最坏运行时间

HRT：hard real-time，硬实时

IPC：instruction per cycle，指令/节拍，计算机系统性能单位

I/O：input and output，输入输出

HLST：hardware level supervisor thread，硬件级管理线程

RRF: rename register file，重命名寄存器

PC: program counter，程序计数器

SR：supervisor routine，监管例程。

Claims

1.一种性能可精确控制多核多线程处理器，其特征在于：包括OS级配置及监控接口、性能记录寄存器组、硬件级监管线程处理核、资源记录寄存器组、线程上下文寄存器、中心控制单元和共享的处理器硬件；

其中OS级配置及监控接口的输入输出接口连接硬件级监管线程处理核的输入输出接口，性能记录寄存器组的输入输出接口连接硬件级监管线程处理核的输入输出接口，资源记录寄存器组的输入输出接口连接硬件级监管线程处理核的输入输出接口，硬件级监管线程处理核的输入输出接口连接中心控制单元的输入输出接口，线程上下文寄存器的输入输出接口连接中心控制单元的输入输出接口，共享的处理器硬件的输入输出接口连接中心控制单元的输入输出接口；

所述的性能记录寄存器组为N个，能够实时监测并记录同时运行的各线程的各项性能指标，包括提交的指令数、IPC、访存数量、cache访问和失效数量、I/O操作数量及平均等待时间；每个线程设置一组性能记录寄存器，专门监测并记录该线程的各项性能指标，当线程被OS调度进入处理器时，对应的性能记录寄存器组即被初始化，伴随该线程运行的同时，对应性能寄存器组的各项内容不断更新，直到该线程被调度出处理器为止；性能记录寄存器组的内容更新是由该线程对应的运行过程通过触发硬件级监管线程处理核及上面运行的HIST计算完成，不占用运行该线程的处理核的处理能力，且无需OS及应用软件干预，保证既有多处理核的处理能力不受影响和对于应用程序的透明性；

所述的资源记录寄存器组为N个，能够实时监测并记录同时运行的各线程的资源分配和使用情况，包括重命名寄存器的分配占比及实时占用数量、主存分配占比及占用量、cache的分配占比、I/O操作的机会占比；每个线程有一组资源记录寄存器，专门监测并记录该线程的资源分配和使用情况，当线程被OS调度进入处理器时，对应的资源记录寄存器组即被初始化，伴随该线程运行的同时，对应资源寄存器组的各项内容不断更新，直到该线程被调度出处理器为止；资源记录寄存器组的内容更新是由该线程对应的运行过程通过触发硬件级监管线程处理核及上面运行的HIST计算完成，不占用运行该线程的处理核的处理能力，且无需OS及应用软件干预，保证既有多处理核的处理能力不受影响和对于应用程序的透明性；

所述的硬件级监管线程处理核为1个，硬件级监管线程处理核针对普通用户为隐含式的，运行专门开辟的硬件级性能管理线程，即HLST，实时或周期性读取、计算及更新各线程的性能记录寄存器组及资源记录寄存器组的相关内容，根据各线程的性能需求及实际运行状况，调整关键资源配比，实现性能的精确控制，HIST是硬件级隐含线程，运行于硬件级监管线程处理核之上，对OS及应用程序透明；用户可通过OS级配置及监控接口对各个线程的目标性能及资源需求进行初始化设置和在线调整，对实时性能和资源情况进行监控；

所述的OS级配置及监控接口为1个，用于执行供OS调用的特权指令（previlegeinstruction），对各线程性能记录寄存器组和资源记录寄存器组的内容进行读取和部分设置，在此基础上，OS可通过该接口设计并提供若干例程，提供给系统级资源分配和性能管理程序调用，允许用户根据应用程序的实际需要对各线程性能和资源分配和使用情况进行预设和实时监管；这种架构为OS提供了足够的设计空间，允许其更大程度上直接参与多核多线程处理器内部的资源分配和线程性能管理，且实现了对用户级应用程序完全透明。