CN110765034B - 一种数据预取方法及终端设备 - Google Patents
一种数据预取方法及终端设备 Download PDFInfo
- Publication number
- CN110765034B CN110765034B CN201810844371.6A CN201810844371A CN110765034B CN 110765034 B CN110765034 B CN 110765034B CN 201810844371 A CN201810844371 A CN 201810844371A CN 110765034 B CN110765034 B CN 110765034B
- Authority
- CN
- China
- Prior art keywords
- cache
- data
- address
- prefetching
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0877—Cache access modes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0806—Multiuser, multiprocessor or multiprocessing cache systems
- G06F12/0811—Multiuser, multiprocessor or multiprocessing cache systems with multilevel cache hierarchies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0862—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1016—Performance improvement
- G06F2212/1021—Hit rate improvement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/60—Details of cache memory
- G06F2212/602—Details relating to cache prefetching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/60—Details of cache memory
- G06F2212/6028—Prefetching based on hints or prefetch instructions
Abstract
一种数据预取方法及终端设备。终端设备包括CPU核组、至少一级缓存、预取器和存储器;CPU核组,用于向至少一级缓存的第一缓存下发数据访问请求,数据访问请求中携带有第一地址,第一地址为CPU核组当前需要访问的数据在存储器中的地址;预取器,用于根据第一预取算法、第一地址和历史数据访问请求,生成第一预取地址;预取器还用于根据第一预取地址从存储器中与第一预取地址对应的数据加载到第一缓存中。本申请实施例提供的终端设备中的预取器可以生成预取地址,并将与生成的预取地址对应的数据加载到第一缓存中,当CPU核组需要所述数据时,可以从第一缓存中读取,无需从存储器中读取,提高了CPU核组的运行速率。
Description
技术领域
本申请涉及终端技术领域,尤其涉及一种数据预取方法及终端设备。
背景技术
随着终端设备的普及,各种应用程序(application)不断涌现,比如腾讯聊天软件(QQ)、微信、邮箱、王者荣耀等,以满足用户的多样性需求。通常,终端设备中的这些应用程序运行在中央处理器(central processing unit,CPU)上,以实现相应的功能。
因此,应用程序在CPU上的运行速度对用户的体验有很大影响。以王者荣耀为例,如果CPU的性能较差,游戏画面容易出现卡顿,流畅性差,导致用户体验差。因此,CPU性能的提升是各个厂家都面临的问题。
发明内容
本申请实施例提供一种数据预取方法和终端设备,用以提升CPU的性能。
第一方面,本申请实施例提供了一种终端设备,所述终端设备例如为智能手机、ipad等。所述终端设备包括CPU核组、三级缓存、预取器和存储器,其中,所述CPU核组,用于向所述三级缓存的第一缓存下发数据访问请求,所述数据访问请求中携带有第一地址,所述第一地址为所述CPU核组当前需要访问的数据在所述存储器中的地址;所述预取器,用于根据第一预取算法、所述第一地址和历史数据访问请求,生成第一预取地址;根据所述第一预取地址从所述存储器中与所述第一预取地址对应的数据加载到所述第一缓存中。
在本申请实施例中,终端设备中的预取器可以根据CPU核组当前需要的数据在存储器中的第一地址、历史数据访问请求和预取算法,生成预取地址,并将与生成的预取地址对应的数据加载到第一缓存中,当CPU核组后续需要与预取地址对应的数据时,可以从第一缓存中读取,无需从存储器中读取,有助于提高CPU核组的运行速率。
在一种可能的实现方式中,所述预取器在用于根据第一预取算法、所述第一地址和历史访问请求生成第一预取地址时,包括:所述预取器,用于根据所述第一预取算法和历史数据访问请求中携带的地址,生成第一地址偏移量;所述预取器,用于根据所述第一地址偏移量和所述第一地址生成所述第一预取地址。
在本申请实施例中,终端设备中的预取器根据历史数据访问请求和预取算法计算地址偏移量,然后根据地址偏移量和CPU核组当前需要访问的数据在存储器中的第一地址确定预取地址。通过这种方式,预取器可以实时的根据当前需要访问的数据在存储器中的第一地址确定预取地址,并将与预取地址对应的数据加载到第一缓存中,当CPU核组后续需要访问所述与预取地址对应的数据时,可以从第一缓存中读取,而无需从存储器中读取,提高了CPU核组的运行速率。
在一种可能的实现方式中,所述第一缓存为所述三级缓存中的第三级缓存。
在本申请实施例中,终端设备中的三级缓存中的最后一级缓存即第三级缓存具有预取能力,即预取器可以根据最后一级缓存的历史数据访问请求、CPU核组当前需要访问的数据在存储器中的第一地址、第一预取算法生成预取地址,并将与预取地址对应的数据加载到最后一级缓存中,当CPU核组后续需要访问所述与预取地址对应的数据时,可以从最后一级缓存中读取,而无需从存储器中读取,提高了CPU核组的运行速率。
在一种可能的实现方式中,所述CPU核组,用于向所述三级缓存的第一缓存下发数据访问请求,包括:所述CPU核组,用于向所述三级缓存中的第一级缓存下发数据访问请求;其中,所述第一级缓存的缓存控制器,用于确定第一级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给第二级缓存;所述第二级缓存的缓存控制器,用于确定第二级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给第三级缓存;或者所述CPU核组,用于向所述三级缓存的第一缓存下发数据访问请求,包括:所述CPU核组,用于向所述三级缓存中的第一级缓存下发数据访问请求;其中,所述第一级缓存的缓存控制器,用于确定第一级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给第二级缓存;所述第二级缓存的缓存控制器,用于确定二级缓存中没有与第一地址相对应的数据时,向所述CPU核组反馈响应信息;所述CPU核组,在接收到所述响应信息之后,向所述第三级缓存下发所述数据访问请求。
在本申请实施例中,所述CPU核组向所述三级缓存的第一缓存下发数据访问请求可以有两种方式。方式一:CPU核组向三级缓存中的第一级缓存下发数据访问请求;当第一级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给第二级缓存;当所述第二级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给第三级缓存;方式二:CPU核组向三级缓存中的第一级缓存下发数据访问请求;当第一级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给第二级缓存;当第二级缓存中没有与第一地址相对应的数据时,向所述CPU核组反馈响应信息;CPU核组在接收到所述响应信息之后,向第三级缓存下发所述数据访问请求。终端设备中的三级缓存中的最后一级缓存即第三级缓存具有预取能力,即预取器可以根据最后一级缓存的历史数据访问请求、CPU核组当前需要访问的数据在存储器中的第一地址、第一预取算法生成预取地址,并将与预取地址对应的数据加载到最后一级缓存中,当CPU核组后续需要访问所述与预取地址对应的数据时,可以从最后一级缓存中读取,而无需从存储器中读取,提高了CPU核组的运行速率。
在一种可能的实现方式中,所述预取器存储有多种预取算法,所述预取器根据所述终端设备当前运行的应用程序从所述多种预取算法中确定所述第一预取算法。
在本申请实施例中,终端设备中的预取器中有多种预取算法,终端设备可以根据当前运行的应用程序从多种预取算法中确定一种预取算法。在这种方式中,终端设备运行不同的应用程序时,可以采用不用的预取算法,较为灵活。
在一种可能的实现方式中,所述预取器根据数据预取时的命中率或未命中率确定所述第一预取算法;其中,所述命中率为预取数据中被所述CPU核组访问的数据占所述预取数据的比例,所述未命中率为所述预取数据中被未被所述CPU核组访问的数据占所述预取数据的比例。
在本申请实施例中,终端设备可以根据数据预取时的命中率或未命中率确定所述第一预取算法。比如,终端设备可以选择命中率较高(比如高于预设命中率)的预取算法为第一预取算法,或者选择未命中率较低(比如低于预设未命中率)的预取算法为第一预取算法。通过这种方式,终端设备可以选择命中率较高的预取算法,即预取数据中被所述CPU核组访问的数据占所述预取数据的比例较大,有助于提升了CPU核组的运行速率。
在一种可能的实现方式中,所述预取器中有N个预取算法,其中每个预取算法在一个周期内生效,所述预取器还用于:在N个周期中的每一个周期内,根据在所述每一个周期内生效的预取算法进行数据预取;确定所述N个周期中每一个周期内生效的预取算法进行数据预取的N个第一命中率;确定所述N第一命中率中最大的第一命中率,确定所述最大的第一命中率对应的预取算法为所述第一预取算法;其中,所述第一命中率为所述预取器根据一个周期内生效的预取算法将预取数据存储到所述第一缓存后,所述预取数据中被所述CPU核组访问的数据占所述预取数据的比例。
在本申请实施例中,终端设备中的预取器中有N个预取算法,其中每个预取算法在一个周期内生效,预取器可以选择N个预取算法中命中率最高的预取算法为第一预取算法。通过这种方式,终端设备可以采用一个命中率较高的预取算法进行数据预取,即预取数据中被所述CPU核组访问的数据占所述预取数据的比例较大,有助于提升了CPU核组的运行速率。
在一种可能的实现方式中,所述存储器为DDR SDRAM。
在本申请实施例中,存储器可以有多种类型,DDR SDRAM只是一种举例,本申请实施例对此不作限定。
第二方面,本发明实施例提供了一种数据预取的方法,该方法适用于终端设备中。终端设备例如为智能手机、ipad等。方法包括:向三级缓存的第一缓存下发数据访问请求,所述数据访问请求中携带有第一地址,所述第一地址为所述CPU核组当前需要访问的数据在所述存储器中的地址;根据第一预取算法、所述第一地址和历史数据访问请求,生成第一预取地址;根据所述第一预取地址从所述存储器中将与所述第一预取地址对应的数据加载到所述第一缓存中。
在一种可能的实现方式中,所述根据第一预取算法、所述第一地址和历史访问请求生成第一预取地址,包括:根据所述第一预取算法和历史数据访问请求中携带的地址,生成第一地址偏移量;根据所述第一地址偏移量和所述第一地址生成第一预取地址。
在一种可能的实现方式中,所述第一缓存为所述三级缓存中的第三级缓存。
在一种可能的实现方式中,向所述三级缓存的第一缓存下发数据访问请求,包括:向所述三级缓存中的第一级缓存下发数据访问请求;其中,所述第一级缓存的缓存控制器,用于确定第一级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给第二级缓存;所述第二级缓存的缓存控制器,用于确定第二级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给第三级缓存;或者向所述三级缓存的第一缓存下发数据访问请求,包括:向所述三级缓存中的第一级缓存下发数据访问请求;其中,所述第一级缓存的缓存控制器,用于确定第一级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给第二级缓存;所述第二级缓存的缓存控制器,用于确定二级缓存中没有与第一地址相对应的数据时,生成响应信息;接收到所述响应信息,向所述三级缓存中的第三级缓存下发所述数据访问请求。
在一种可能的实现方式中,在根据第一预取算法、所述第一地址和历史数据访问请求,生成第一预取地址之前,所述方法还包括:根据终端设备当前运行的应用程序从所述多种预取算法中确定所述第一预取算法。
在一种可能的实现方式中,所述终端根据数据预取时的命中率或未命中率确定所述第一预取算法,其中,所述命中率为预取数据中被所述CPU核组访问的数据占所述预取数据的比例,所述未命中率为所述预取数据中被未被所述CPU核组访问的数据占所述预取数据的比例。
在一种可能的实现方式中,终端中有N个预取算法,其中每个预取算法在一个周期内生效,所述方法还包括:在N个周期中的每一个周期内,根据在所述每一个周期内生效的预取算法进行数据预取;确定所述N个周期中每一个周期内生效的预取算法进行数据预取的N个第一命中率;确定所述N第一命中率中最大的第一命中率,确定所述最大的第一命中率对应的预取算法为所述第一预取算法;其中,所述第一命中率为所述预取器根据一个周期内生效的预取算法将预取数据存储到所述第一缓存后,所述预取数据中被所述CPU核组访问的数据占所述预取数据的比例。
在一种可能的实现方式中,所述存储器为DDR SDRAM。
第三方面,本发明实施例提供了一种终端设备,终端设备例如为智能手机、ipad等。所述终端设备包括CPU核组、至少一级缓存、预取器和存储器,其中,所述CPU核组,用于向所述至少一级缓存的第一缓存下发数据访问请求,所述数据访问请求中携带有第一地址,所述第一地址为所述CPU核组当前需要访问的数据在所述存储器中的地址;所述预取器,用于根据第一预取算法、所述第一地址和历史数据访问请求,生成第一预取地址;根据所述第一预取地址从所述存储器中与所述第一预取地址对应的数据加载到所述第一缓存中。
在本申请实施例中,终端设备具有至少一级缓存,比如一级缓存、二级缓存、三级缓存、四级缓存等。终端设备中的预取器可以根据CPU核组当前需要的数据在存储器中的第一地址、历史数据访问请求和预取算法,生成预取地址,并将与生成的预取地址对应的数据加载到第一缓存(至少一级缓存中的某一级缓存)中,当CPU核组后续需要与预取地址对应的数据时,可以从第一缓存中读取,无需从存储器中读取,有助于提高CPU核组的运行速率。
在一种可能的实现方式中,所述预取器,用于根据第一预取算法、所述第一地址和历史访问请求生成第一预取地址,包括:所述预取器,用于根据所述第一预取算法和历史数据访问请求中携带的地址,生成第一地址偏移量;所述预取器,用于根据所述第一地址偏移量和所述第一地址生成所述第一预取地址。
在本申请实施例中,终端设备中的预取器可以根据历史数据访问请求和预取算法计算地址偏移量,然后根据地址偏移量和CPU核组当前需要访问的数据在存储器中的第一地址确定预取地址。通过这种方式,预取器可以实时的根据当前需要访问的数据在存储器中的第一地址确定预取地址,并将与预取地址对应的数据加载到第一缓存中,当CPU核组后续需要访问所述与预取地址对应的数据时,可以从第一缓存中读取,无需从存储器中读取,提高了CPU核组的运行速率。
在一种可能的实现方式中,所述第一缓存为所述至少一级缓存中的最后一级缓存。
在本申请实施例中,终端设备具有至少一级缓存,比如一级缓存、二级缓存、三级缓存、四级缓存等。所述至少一级缓存中的最后一级缓存具有预取能力,即预取器可以根据最后一级缓存的历史数据访问请求、CPU核组当前需要访问的数据在存储器中的第一地址、预取算法生成预取地址,并将与预取地址对应的数据加载到最后一级缓存中,当CPU核组后续需要访问所述与预取地址对应的数据时,可以从最后一级缓存中读取,无需从存储器中读取,提高了CPU核组的运行速率。
在一种可能的实现方式中,所述至少一级缓存包括两级缓存,所述第一缓存为所述两级缓存中的二级缓存;所述CPU核组,用于向所述至少一级缓存的第一缓存下发数据访问请求,包括:所述CPU核组,用于向所述两级缓存中的一级缓存下发数据访问请求;其中,所述一级缓存的缓存控制器,用于确定一级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给所述二级缓存;或者所述CPU核组,用于向所述至少一级缓存的第一缓存下发数据访问请求,包括:所述CPU核组,用于向所述两级缓存中的一级缓存下发数据访问请求;其中,所述一级缓存的缓存控制器,用于确定一级缓存中没有与第一地址相对应的数据时,向所述CPU核组反馈响应信息;所述CPU核组,在接收到所述响应信息之后,向所述两级缓存中的二级缓存下发所述数据访问请求。
在本申请实施例中,以至少一级缓存包括两级缓存为例,第一缓存为两级缓存中的最后一级缓存即二级缓存,CPU核组向二级缓存下发数据访问请求可以有两种方式。方式一:CPU核组向二级缓存中的一级缓存下发数据访问请求;当一级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给二级缓存;方式二:CPU核组向二级缓存中的一级缓存下发数据访问请求;当一级缓存中没有与第一地址相对应的数据时,向所述CPU核组反馈响应信息;CPU核组在接收到所述响应信息之后,向二级缓存下发所述数据访问请求。终端设备中的两级缓存中的最后一级缓存即二级缓存具有预取能力,即预取器可以根据最后一级缓存的历史数据访问请求、CPU核组当前需要访问的数据在存储器中的第一地址、预取算法生成预取地址,并将与预取地址对应的数据加载到最后一级缓存中,当CPU核组后续需要访问所述与预取地址对应的数据时,可以从最后一级缓存中读取,无需从存储器中读取,提高了CPU核组的运行速率。
在一种可能的实现方式中,所述预取器存储有多种预取算法,所述预取器根据所述终端设备当前运行的应用程序从所述多种预取算法中确定所述第一预取算法。
在本申请实施例中,终端设备中的预取器中有多种预取算法,终端设备可以根据当前运行的应用程序从多种预取算法中确定一种预取算法。在这种方式中,终端设备运行不同的应用程序时,可以采用不用的预取算法,较为灵活。
在一种可能的实现方式中,所述预取器根据数据预取时的命中率或未命中率确定所述第一预取算法;其中,所述命中率为预取数据中被所述CPU核组访问的数据占所述预取数据的比例,所述未命中率为所述预取数据中被未被所述CPU核组访问的数据占所述预取数据的比例。
在本申请实施例中,终端设备可以根据数据预取时的命中率或未命中率确定所述第一预取算法。比如,终端设备可以选择命中率较高(比如高于预设命中率)的预取算法为第一预取算法,或者选择未命中率较低(比如低于预设未命中率)的预取算法为第一预取算法。通过这种方式,终端设备可以选择命中率较高的预取算法,即预取数据中被所述CPU核组访问的数据占所述预取数据的比例较大,有助于提升了CPU核组的运行速率。
在一种可能的实现方式中,所述预取器中有N个预取算法,其中每个预取算法在一个周期内生效,所述预取器还用于:在N个周期中的每一个周期内,根据在所述每一个周期内生效的预取算法进行数据预取;确定所述N个周期中每一个周期内生效的预取算法进行数据预取的N个第一命中率;确定所述N第一命中率中最大的第一命中率,确定所述最大的第一命中率对应的预取算法为所述第一预取算法;其中,所述第一命中率为所述预取器根据一个周期内生效的预取算法将预取数据存储到所述第一缓存后,所述预取数据中被所述CPU核组访问的数据占所述预取数据的比例。
在本申请实施例中,终端设备中的预取器中有N个预取算法,其中每个预取算法在一个周期内生效,预取器可以选择N个预取算法中命中率最高的预取算法为第一预取算法。通过这种方式,终端设备可以采用一个命中率较高的预取算法进行数据预取,即预取数据中被所述CPU核组访问的数据占所述预取数据的比例较大,有助于提升了CPU核组的运行速率。
在一种可能的实现方式中,所述存储器为DDR SDRAM。
在本申请实施例中,存储器可以有多种类型,DDR SDRAM只是一种举例,本申请实施例对此不作限定。
第四方面,本发明实施例提供了一种数据预取的方法,该方法适用于终端设备中。终端设备例如为智能手机、ipad等。所述方法包括:向所述至少一级缓存的第一缓存下发数据访问请求,所述数据访问请求中携带有第一地址,所述第一地址为所述CPU核组当前需要访问的数据在所述存储器中的地址;根据第一预取算法、所述第一地址和历史数据访问请求,生成第一预取地址;根据所述第一预取地址从所述存储器中将与所述第一预取地址对应的数据加载到所述第一缓存中。
在一种可能的实现方式中,所述根据第一预取算法、所述第一地址和历史访问请求生成第一预取地址,包括:根据所述第一预取算法和所述历史数据访问请求中携带的地址,生成第一地址偏移量;根据所述第一地址偏移量和所述第一地址生成所述第一预取地址。
在一种可能的实现方式中,所述第一缓存为所述至少一级缓存中的最后一级缓存。
在一种可能的实现方式中,若所述至少一级缓存包括两级缓存,所述第一缓存为所述两级缓存中的二级缓存;向所述至少一级缓存的第一缓存下发数据访问请求,包括:向所述两级缓存中的一级缓存下发数据访问请求;其中,所述一级缓存的缓存控制器,用于确定一级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给所述二级缓存;或者向所述至少一级缓存的第一缓存下发数据访问请求,包括:向所述两级缓存中的一级缓存下发数据访问请求;其中,所述一级缓存的缓存控制器,用于确定一级缓存中没有与第一地址相对应的数据时,生成响应信息;基于所述响应信息,向所述两级缓存中的二级缓存下发所述数据访问请求。
在一种可能的实现方式中,在根据第一预取算法、所述第一地址和历史数据访问请求,生成第一预取地址之前,所述方法还包括:根据终端设备当前运行的应用程序从所述多种预取算法中确定所述第一预取算法。
在一种可能的实现方式中,所述终端根据数据预取时的命中率或未命中率确定所述第一预取算法,其中,所述命中率为预取数据中被所述CPU核组访问的数据占所述预取数据的比例,所述未命中率为预取数据中被未被所述CPU核组访问的数据占所述预取数据的比例。
在一种可能的实现方式中,终端中有N个预取算法,其中每个预取算法在一个周期内生效,所述方法还包括:在N个周期中的每一个周期内,根据在所述每一个周期内生效的预取算法进行数据预取;确定所述N个周期中每一个周期内生效的预取算法进行数据预取的N个第一命中率;确定所述N第一命中率中最大的第一命中率,确定所述最大的第一命中率对应的预取算法为所述第一预取算法;其中,所述第一命中率为所述预取器根据一个周期内生效的预取算法将预取数据存储到所述第一缓存后,所述预取数据中被所述CPU核组访问的数据占所述预取数据的比例。
在一种可能的实现方式中,所述存储器为DDR SDRAM。
第五方面,本发明实施例提供了一种终端设备,包括至少一个处理器和存储器;所述存储器用于存储一个或多个计算机程序;当所述存储器存储的一个或多个计算机程序被所述至少一个处理器执行时,使得所述终端设备实现第二方面或者第二方面的任意一种可能的设计的方法;或者,当所述存储器存储的一个或多个计算机程序被所述至少一个处理器执行时,使得所述终端设备实现第四方面或者第四方面的任意一种可能的设计的方法。
第六方面,本申请实施例还提供了一种终端设备,所述终端设备包括执行第二方面或者第二方面的任意一种可能的设计的方法的模块/单元;或者所述终端设备包括执行第四方面或者第四方面的任意一种可能的设计的方法的模块/单元;其中,这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
第七方面,本发明实施例提供了一种计算机存储介质,所述计算机可读存储介质包括计算机程序,当计算机程序在终端设备上运行时,使得所述终端设备实现第二方面或者第二方面的任意一种可能的设计的方法;或者,当计算机程序在终端设备上运行时,使得所述终端设备实现第四方面或者第四方面的任意一种可能的设计的方法。
第八方面,本发明实施例提供了一种包含指令的计算机程序产品,当所述计算机程序产品在终端上运行时,使得所述终端执行第二方面或上述第二方面的任意一种可能的设计的方法;或者当所述计算机程序产品在终端上运行时,使得所述终端执行第四方面或上述第四方面的任意一种可能的设计的方法。
其中,上述实现方式中的CPU核组可以包括大核组、小核组、或者大核组和小核组。
附图说明
图1为本申请实施例提供的一种终端设备的结构示意图;
图2为本申请实施例提供的具有二级缓存的终端设备的结构示意图;
图3为本申请实施例提供的具有三级缓存的终端设备的结构示意图;
图4为本申请实施例提供的一种具有二级缓存的终端设备的结构示意图;
图5为本申请实施例提供的一种数据预取方法的流程示意图;
图6为本申请实施例提供的终端设备通过一种预取算法进行数据预取的示意图;
图7为本申请实施例提供的另一种具有二级缓存的终端设备的结构示意图;
图8为本申请实施例提供的终端设备通过预取算法1进行数据预取的示意图;
图9为本申请实施例提供的终端设备通过预取算法2进行数据预取的示意图;
图10为本申请实施例提供的终端设备通过预取算法3进行数据预取的示意图;
图11为本申请实施例提供的预取器的训练模式和工作模式的示意图;
图12为本申请实施例提供的预取器的训练模式和工作模式的示意图;
图13为本申请实施例提供的预取器的三种模式之间的切换示意图;
图14为本申请实施例提供的具有三级缓存的终端设备的结构示意图;
图15为本申请实施例提供的DDR SDRAM的三种状态之间的切换示意图;
图16为本申请实施例提供的在LLC Cache有预取和无预取时DDR SDRAM的三种状态的对比示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
以下,对本申请中的部分用语进行解释说明,以便与本领域技术人员理解。
终端设备,又可以称为用户设备(user equipment,UE)。比如,智能手机、平板电脑、各类可穿戴设备、车载设备、掌上电脑等。终端设备中可以安装各种应用程序(application,简称app)。
应用程序,例如为完成某项或多项工作的计算机程序。通常一个应用程序可以实现相应的功能,它可以具有可视的用户界面,用户可以通过该用户界面实现与终端设备的交互。应用程序的种类较多,比如,应用程序包括:用于游戏的各种app,王者荣耀,QQ斗地主,QQ开心消消乐等;用于购物的各种app,淘宝、京东等;用于旅行的各类app,携程app等;或者用于获取位置的各类app,百度地图、高德地图等;用于聊天通信的各类app,短信、彩信、各种邮箱、微信、腾讯聊天软件(QQ)、WhatsApp Messenger、连我(Line)、照片分享(instagram)、Kakao Talk、钉钉等。
本申请实施例涉及的预取技术,终端设备具有一种预先将CPU可能需要的数据预取到缓存中的技术。举例来说,CPU在运行过程中,可以将某个数据预先从存储器中取出来存储到缓存中。这样,如果CPU在后续运行过程中需要访问该数据时,由于数据已经在缓存中了,CPU可以直接在缓存中访问数据,不需要在存储器中查找数据,即通过预取技术,可以减少CPU访问存储器内存所带来的延迟,提高CPU运行速率。
本申请实施例涉及的预取算法,可以有多种,比如,OBL算法(one-block look-ahead,OBL)算法、IBL算法(infinite-block look-ahead,IBL)等等。
本申请实施例涉及的预取地址,即终端设备根据预取算法计算的得到的地址,该预取地址可以用于指示CPU后续需要的数据在存储器中的地址。CPU可以根据所述预取地址在存储器中寻找与所述预取地址对应的数据,并将该数据加载到缓存中。
本申请实施例涉及的多个,是指大于或等于两个。
另外,需要理解的是,在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。本申请实施例提供一种数据预取方法及终端设备,该方法适用于终端设备中。图1示出了一种可能的终端设备的结构图。参阅图1所示,所述终端设备100包括:射频(radio frequency,RF)电路110、电源120、处理器130、存储器140、输入单元150、显示单元160、摄像头170、通信接口180、以及无线保真(wireless fidelity,WiFi)模块190等部件。本领域技术人员可以理解,图1中示出的终端设备的结构并不构成对终端设备的限定,本申请实施例提供的终端设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1对所述终端设备100的各个构成部件进行具体的介绍:
所述RF电路110可用于通信或通话过程中,数据的接收和发送。特别地,所述RF电路110在接收到基站的下行数据后,发送给所述处理器130处理;另外,将待发送的上行数据发送给基站。通常,所述RF电路110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier,LNA)、双工器等。
此外,RF电路110还可以通过无线通信与网络和其它设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(global system of mobilecommunication,GSM)、通用分组无线服务(general packet radio service,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code divisionmultiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
WiFi技术属于短距离无线传输技术,所述终端设备100可以通过WiFi模块190可以连接接入点(access point,AP),从而实现数据网络的访问。所述WiFi模块190可用于通信过程中,数据的接收和发送。
所述终端设备100可以通过所述通信接口180与其它设备实现物理连接。可选的,所述通信接口180与所述其它设备的通信接口可以通过电缆连接,实现所述终端设备100和其它设备之间的数据传输。
由于在本申请实施例中,所述终端设备100能够实现通信业务,向其它联系人发送信息,因此所述终端设备100需要具有数据传输功能,即所述终端设备100内部需要包含通信模块。虽然图1示出了所述RF电路110、所述WiFi模块190、和所述通信接口180等通信模块,但是可以理解的是,所述终端设备100中存在上述部件中的至少一个或者其它用于实现通信的通信模块(如蓝牙模块),以进行数据传输。
例如,当所述终端设备100为手机时,所述终端设备100可以包含所述RF电路110,还可以包含所述WiFi模块190和蓝牙模块;当所述终端设备100为计算机时,所述终端设备100可以包含所述通信接口180,还可以包含所述WiFi模块190;当所述终端设备100为平板电脑时,所述终端设备100可以包含所述WiFi模块。可以理解的,计算机和平板电脑也可以包含蓝牙模块。
所述存储器140可用于存储软件程序。所述处理器130通过运行存储在所述存储器140的软件程序,从而执行所述终端设备100的各种功能应用以及数据处理。
可选的,所述存储器140可以包括存储程序区的存储器和存储数据区的存储器。其中,存储程序区可存储操作系统、各种应用程序的软件程序和/或模块,处理器130可以运行存储在存储器140中的各种应用程序的软件程序和/或模块,以实现相应的功能。其中,存储数据区可存储数据、各种图片、视频文件等多媒体文件等,以便处理器130调用。
此外,所述存储器140可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件。
所述输入单元150可用于接收用户输入的数字或字符信息,以及产生与所述终端设备100的用户设置以及功能控制有关的键信号输入。
可选的,输入单元150可包括触控面板151以及其它输入设备152。
其中,所述触控面板151,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在所述触控面板151上或在所述触控面板151附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,所述触控面板151可以包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给所述处理器130,并能接收所述处理器130发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现所述触控面板151。
可选的,所述其它输入设备152可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
所述显示单元160可用于显示由用户输入的信息或提供给用户的信息以及所述终端设备100的各种菜单。所述显示单元160可以为所述终端设备100的显示系统,用于呈现界面,实现人机交互。
所述显示单元160可以包括显示面板161。可选的,所述显示面板161可以采用液晶显示屏(liquid crystal display,LCD)、有机发光二极管(organic light-emittingdiode,OLED)等形式来配置。
其中,触控面板151和显示单元160可以理解为触摸显示屏。
进一步的,所述触控面板151可覆盖所述显示面板161,当所述触控面板151检测到在其上或附近的触摸操作后,传送给所述处理器130以确定触摸事件的类型,随后所述处理器130根据触摸事件的类型在所述显示面板161上提供相应的视觉输出。
虽然在图1中,所述触控面板151与所述显示面板161是作为两个独立的部件来实现所述终端设备100的输入和输入功能,但是在某些实施例中,可以将所述触控面板151与所述显示面板161集成而实现所述终端设备100的输入和输出功能。
所述处理器130是所述终端设备100的控制中心,利用各种接口和线路连接各个部件,通过运行或执行存储在所述存储器140内的软件程序和/或模块,以及调用存储在所述存储器140内的数据,执行所述终端设备100的各种功能和处理数据,从而实现基于所述终端设备的多种业务。
可选的,所述处理器130可以是CPU。处理器130也可以包括应用处理器和调制解调处理器。
可选的,所述处理器130可以包括一个或多个处理单元。可选的,所述处理器130可以是应用处理器,当然,所述处理器130也可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到所述处理器130中。
所述摄像头170,用于实现所述终端设备100的拍摄功能,拍摄图片或视频。
所述终端设备100还包括用于给各个部件供电的电源120(比如电池)。可选的,所述电源120可以通过电源管理系统与所述处理器130逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗等功能。
尽管未示出,所述终端设备100还可以包括至少一种传感器、音频电路等,在此不再赘述。
以图1所示的终端设备100是手机为例,处理器130以CPU为例。用户在使用终端设备100中的某个应用程序时,CPU需要运行该应用程序的软件程序,才能实现该应用程序中的相应的功能。具体而言,CPU在运行该应用程序的软件程序时,可以从存储器140中找到相应的软件程序,然后运行该软件程序。为了提升CPU的运行速度,终端设备中可以引用缓存(cache)技术来提升CPU运行速度。
CPU缓存技术,即,当CPU读取数据时,先从缓存中查找需要的数据,如果该缓存中存在CPU需要的数据,则CPU可以直接从缓存中读取数据,如果在缓存中不存在CPU需要的数据,CPU再从存储器中查找。以存储器可以为双倍速率动态随机存取存储器(double datarate synchronous dynamic random access memory,DDR SDRAM)为例。由于CPU缓存的运行速度比DDR SDRAM快得多,所以CPU从CPU缓存中读取数据比从DDR SDRAM中读取数据要快很多。因此,CPU缓存技术的引入,提升了CPU的运行速率。
其中,CPU缓存可以分为一级缓存(L1Cache)、二级缓存(L2Cache)。CPU在运行过程中,先从一级缓存中读取数据,当一级缓存中没有需要的数据时,再从二级缓存中读取数据,当二级缓存中也没有需要的数据时,再从DDR SDRAM中读取数据。通常,CPU在读取数据时,有80%的数据可以在一级缓存中读取到,剩余20%的数据中的一部分数据可以从二级缓存中读取到,另一部分数据可以从DDR SDRAM中读取。因此,一级缓存和二级缓存可以满足CPU的大部分需求,CPU从DDR SDRAM中读取的数据量较小,大大的提升了CPU的运行速度。
图2示出了具有二级缓存的终端设备的结构示意图。如图2所示,终端设备包括:大核(例如乱序核)组和小核(例如顺序核)组。大核组中包含4个核,分别为core0-3,小核组也包括4个核,分别为core0-3。每个核上可以集成有一级缓存(L1Cache)。一个应用程序的不同线程被配置在不同的核上运行。比如,一个应用程序的部分线程被配置到大核组上的core0运行,另一部分线程被配置到小核组上的core0上运行,多核共同完成该应用程序的运行。以大核组上的core0为例,core0在运行该应用程序的某个线程时,先从core0中的一级缓存201中读取数据,若一级缓存201中没有需要的数据,core0通过监听控制接口(snoopcontrol unit,SCU)从二级缓存202中读取数据。当二级缓存202中没有需要的数据时,通过总线从DDR SDRAM中读取数据。
图3示出了具有三级缓存的终端设备的结构示意图。与图2不同的是,大核组和小核组中每个核上具有一级缓存和二级缓存。以大核组上的core0为例,core0在运行应用程序的线程时,先从core0中的一级缓存301中读取数据,若一级缓存301中没有需要的数据,core0从二级缓存302中读取数据。当二级缓存302中没有需要的数据时,通过SCU(snoopcontrol unit,SCU)接口从三级缓存303中读取数据。当三级缓存303中没有需要的数据时,通过总线从DDR SDRAM中读取数据。
CPU缓存的容量不会太大(因为CPU缓存占用芯片面积,而芯片面积不能做太大),即一级缓存和二级缓存中存储的数据量较少。因此,为了尽可能的保证CPU需要的数据存在于CPU缓存中,终端设备可以采用预取技术(关于预取技术前述已经描述过,为了说明书简洁,在此不多赘述)。
本申请实施例提供一种数据预取方法和终端设备。该终端设备中包括至少一级缓存,且至少一级缓存中的最后一级缓存具有预取能力,从而提升了CPU的运行效率。本申请实施例涉及的数据预取方法可以适用于图2所示的具有二级缓存的终端设备中,也可以适用于图3所示的具有三级缓存的终端设备中,还可以适用于可能出现的具有四级或者更多级缓存的终端设备中。
图4示出了本申请实施例提供的具有二级缓存的终端设备的结构示意图。如图4所示,终端设备400包括CPU核组401、预取器402,二级缓存(LLC Cache)403,总线404和DDR控制器405和DDR SDRAM 406。其中,预取器402和CPU核组401、二级缓存403分别通信连接。
在本申请实施例中,预取器402中可以预存有一种预取算法,也可以预存有多种预取算法。预取器402中的预取算法的数量不同,可以有不同的处理方式。下面分别进行介绍这两种情况。
在一种实施例中,预取器402中存储有一个预取算法。请参见图5,为本申请实施例提供的数据预取方法的流程示意图,在图5中,以终端设备是图4所示的终端设备400为例。如图5所示,通过终端设备400实现数据预取包括:
第1步,CPU核组401向二级缓存403下发数据访问请求,该数据访问请求中携带有第一地址,所述第一地址用于指示CPU核组401当前需要访问的数据在所述存储器中的地址。
其中,第一步的实现方式可以有多种。第一种方式,CPU核组401向一级缓存发送数据访问请求,当一级缓存中没有与所述数据访问请求对应的数据时,一级缓存将所述数据访问请求转发给二级缓存(比如,一级缓存中具有缓存控制器,该缓存控制器可以在确定一级缓存中没有与第一地址相对应的数据时,将所述数据访问请求转发给二级缓存)。第二种方式,CPU核组401向一级缓存下发数据访问请求,一级缓存中的缓存控制器在确定一级缓存中没有与第一地址相对应的数据时,向CPU核组401反馈响应信息(该响应信息用于指示一级缓存中没有与第一地址对应的数据)。CPU核组401在接收到所述响应信息之后,向二级缓存403下发数据访问请求。
CPU核组401可以采用这两种方式中的任一种方式向二级缓存403下发数据访问请求,应理解,对于历史数据访问请求也可以采用同样的方式。
在一种实现方式中,如果采用第一种方式,即二级缓存403接收到的数据访问请求是一级缓存转发的。即一级缓存可以向二级缓存403转发CPU核组401下发数据访问请求,但如果一级缓存具有预取能力,那么一级缓存还可以向二级缓存发送预取访问请求。其中,数据访问请求和预取访问请求不同。如果一级缓存具有预取能力,CPU核组401可以根据与一级缓存对应的预取算法,计算出预取地址后,根据该预取地址生成的预取访问请求,CPU核组401将该预取访问请求发送给一级缓存,当一级缓存中没有与所述预取访问请求对应的数据时,将所述预取访问请求下发给二级缓存402,如果二级缓存403中存在所述数据,CPU核组401将所述数据从二级缓存中加载到所述一级缓存中,如果二级缓存403中没有所述数据,CPU核组从存储器中将与所述预取访问请求对应的数据加载到一级缓存中。由此可见,二级缓存403接收到的访问请求可以包括两部分,一部分是数据访问请求,另一部分是预取访问请求。第一部分的数据访问请求就是前述的CPU核组401向一级缓存下发的数据访问请求。第二部分的预取访问请求是CPU核组401根据与一级缓存对应的预取算法,计算出的预取地址后,根据该预取地址生成的预取访问请求。也就是说,第一部分的数据访问请求中携带的地址不是经过预取算法的计算得到的,而第二部分中预取数据访问请求中携带的地址可以是经过一级缓存对应的预取算法得到的预取地址。因此,在本申请实施例中,如果采用第一种方式,预取器402可以过滤掉来自一级缓存的预取访问请求,得到一级缓存向二级缓存转发的数据访问请求。
一种可能的实现方式为,无论是预取访问请求还是数据访问请求,都可以携带一个标志位(TAG),该标志位用于指示一个访问请求是预取访问请求,还是数据访问请求。比如,该标志位可以用二进制数字表示,比如分别用0、1表示。其中,0用于指示数据访问请求,1用于指示预取访问请求。预取器402可以过滤掉标志位为1的预取访问请求,保留标志位为0的数据访问请求。
在本申请实施例中,预取器402可以实时的监控二级缓存403接收到哪些数据访问请求,比如二级缓存403每接收到一个数据访问请求可以将该数据访问请求转发给预取器402,由预取器402作记录。或者,二级缓存403也可以自己记录接收到的数据访问请求,并将记录的数据访问请求存储在存储器中,以便使用。
因此,在第1步中,预取器402监控到二级缓存403接收到数据访问请求时,可以提取该数据访问请求中携带的第一地址,以便后续步骤使用。
第2步,预取器402根据存储的预取算法、历史数据访问请求以及第1步中提取的第一地址计算预取地址。
在第2步中,预取器402需要历史数据访问请求,可以理解的是,该历史数据访问请求可以是第1步中,二级缓存403在接收数据访问请求之前,接收到的数据访问请求。比如,第1步中,二级缓存403在t1时刻接收到一个数据访问请求,那么历史数据访问请求即二级缓存403在t1时刻之前接收到的数据访问请求。示例性的,历史数据访问请求可以是在t1时刻之前的预设时间段内接收的数据访问请求,若预设时间段例如为t3-t1的时间段,其中,t3小于t1。t3的取值可以根据实际情况而定,本申请实施例不作限定。
由图4可知,预取器402可以包括特征提取器4021和预取算法模块4022。因此,在第2步中,即预取器402根据存储的预取算法、历史数据访问请求以及第一地址计算预取地址的过程可以包括子步骤。比如,第2步包括:第2.1步,特征提取器4021可以从历史数据访问请求中提取特征信息。第2.2步,预取算法模块4022中存储有预取算法,可以根据该预取算法和第2.1步中特征提取器4021提取的特征信息计算地址偏移量。第2.3步,预取算法模块4022根据该地址偏移量和所述第一地址,得到预取地址。
在本申请实施例中,终端设备存储应用程序的软件程序时,每个应用程序对应一个存储位置。终端设备中可以存储应用程序的包名与存储位置之间的映射关系。其中,一个应用程序的软件程序可以以页为单位进行存储。比如,app1的软件程序存储在DDRSDRAM406中的位置1处,并且app1的软件程序有3页。其中每一页中的软件程序(函数和/或变量)被运行时,可以实现不同的功能;或者每一页中的每一行软件程序(函数和/或变量)被运行时,可以实现不同的功能。其中,页地址可以以page_addr(比如p0、p1等)表示,行地址可以以cache line ID(比如ID1、ID2)表示。那么p0,ID10用于指示数据的存储地址在第0页第10行。通常,一页的所占的存储空间大小为4KB,而一个cache line ID所占的存储空间大小为64byte,因此每个页有64个cache line ID。
因此,CPU核组401下发的数据访问请求中可以携带较多的信息,比如携带有当前运行的应用程序的包名、当前需要的数据在存储器中的地址、数据访问请求的类型(读请求或写请求)等等。因此,第2.1步中,特征提取器4021可以从历史数据访问请求中提取的特征信息;所述特征信息可以包括当前运行的应用程序的包名、要访问的数据在存储器中的地址等;其中,地址可以包括页地址和行地址。应用程序的包名用于确定该应用程序的软件程序的存储位置;页地址和行地址可以用于确定CPU核组401需要访问的数据在该存储位置的软件程序中的哪页哪行的数据。在本申请实施例中,特征提取器4021从历史数据访问请求中提取页地址和行地址后,还可以对页地址和行地址进行预处理。以行地址为例,通常,终端设备在某页中存储应用程序的软件程序是以固定字节单位存储的,比如以4个字节为单位进行存储,即每4个字节存储一个数据,预取器402在访问数据时,也可以是以4个字节为单位读取数据。由于预取器402从历史数据访问请求中提取的行地址可能不是4个字节,所以预取器402可以将提取的行地址按照4个字节进行对齐,即将提取的行地址中所占的字节数不是4个字节的行地址按照地址对齐的方式转换为4个字节的整数倍的行地址,其中,地址对齐方式可以采用比如补充0字节的方式,本申请实施例不多赘述。
第2.1步中,特征提取器4021可以获取N条历史数据访问请求,提取每条历史数据访问请求的特征信息,得到N条特征信息。其中,N的取值,可以是终端设备在出厂时设置好的,也可以是用户在使用终端设备的过程中自定义的,N为正整数。
第2.2步,预取算法模块4022根据预取算法和第2.1步中特征提取器4021提取的特征信息,计算地址偏移量。
如前述内容可知,第2.1步中特征提取器4021提取的特征信息包括地址,在第2.2步中,可以使用特征信息中的地址,即预取算法模块4022根据预取算法和历史数据访问请求中携带的地址,计算地址偏移量。
示例性的,图6示出了本申请实施例提供的终端设备通过一种预取算法进行数据预取的示意图。图6中,以N是8为例,即预取算法模块4022根据从8个历史数据访问请求中提取的8个地址(页地址和行地址)。预取算法模块4022根据8个地址中每相邻的两个地址,计算地址偏移量,得到7个地址偏移量。从7个地址偏移量中确定一个地址偏移量。
请继续参见图6,8个地址中,第1个地址和第2个地址是相邻的两个地址,且第1个地址和第2个地址之间的地址偏移量是ID3。第2个地址和第3个地址是相邻的两个地址,且第2个地址和第3个地址之间的地址偏移量是ID1,以此类推。如图6所示,每相邻两个存储地址之间的地址偏移量分别是ID3、ID1、ID2、ID4、ID1、ID3、ID1(共7个地址偏移量)。预取算法模块4022取这7个地址偏移量中出现次数最多的一个地址偏移量即ID 1,确定该地址偏移量为后续步骤中使用的地址偏移量。
第2.3步,预取算法模块4022根据第2.2步确定的地址偏移量和第1步中得到的第一地址,计算得到预取地址。
继续以图6为例,在第2.2步中,预取算法模块4022确定地址偏移量为ID1。预取算法模块4022确定地址偏移量后,使用该地址偏移量进行数据预取。比如,请继续参见图6所示,t1时刻,二级缓存403接收的数据访问请求中携带的第一地址是p1,ID1(即图6中的第9个地址),预取算法模块4022将p1,ID1加上地址偏移量ID1得到预取地址,即p1,ID2。
请继续参见图6,之后,如果在t2时刻(t2>t1),二级缓存403又接收到一个数据访问请求,该数据访问请求中携带的地址是p1,ID4(即图6中的第10个地址),那么预取算法模块4022根据该p1,ID4以及地址偏移量ID1确定预取地址为p1,ID5。依次类推,图6中,第11个存储地址是p1,ID5,那么预取算法模块4022根据该p1,ID5以及地址偏移量ID1确定预取地址为p1,ID6。第12个存储地址是p1,ID7,那么预取算法模块4022根据该p1,ID7以及地址偏移量ID1确定预取地址为p1,ID8。第13个存储地址是p1,ID11,那么预取算法模块4022根据该p1,ID11以及地址偏移量ID1确定预取地址为p1,ID12。第14个存储地址是p1,ID12,那么预取算法模块4022根据该p1,ID12以及地址偏移量ID1确定预取地址为p1,ID13。第15个存储地址是p1,ID15,那么预取算法模块4022根据该p1,ID15以及地址偏移量ID1确定预取地址为p1,ID16。第16个存储地址是p1,ID16,那么预取算法模块4022根据该p1,ID16以及地址偏移量ID1确定预取地址为p1,ID17。
第3步,预取器402根据第2步中确定的预取地址从所述存储器中与所述预取地址对应的数据加载到所述二级缓存403中。
在第2步(具体是第2.3步)中,预取算法模块4022生成的8个预取地址包括p1,ID2、p1,ID5、p1,ID6、p1,ID8、p1,ID12、p1,ID13、p1,ID16、p1,ID17。预取算法模块4022可以每生成一个预取地址,可以向二级缓存403发送一个预取地址。由于二级缓存403中可能已经存在与所述一个预取地址对应的数据,所以二级缓存403接收到所述一个预取地址后,二级缓存403中缓存控制器确定没有与所述一个预取地址对应的数据时,可以向CPU核组401反馈响应信息。CPU核组401基于响应信息,从存储器中将与所述一个预取地址对应的数据加载到二级缓存403中。当然,预取算法模块4022也可以在生成8个预取地址后,将这8个预取地址一并发送给二级缓存403。举例来说,预取算法模块4022将8个预取地址发送给二级缓存403后,若二级缓存403中不存在与p1,ID2对应的数据,可以向CPU核组发送响应信息,CPU核组401基于该响应信息,从存储器中将与p1,ID2对应的数据加载到二级缓存403中。在本申请实施例中,当二级缓存403中没有某个预取地址对应的数据时,CPU核组401可以从存储器中将与某个预取地址对应的数据加载到二级缓存403中;当然,还有其它的方式,比如,当二级缓存403中没有某个预取地址对应的数据时,预取器402可以通过总线404从DDR SDRAM中406查找数据,并将查找到的某个预取地址对应的数据存储到二级缓存403中;或者,当二级缓存403中没有某个预取地址对应的数据时,二级缓存403自己可以根据预取地址从存储器中将与所述预取地址对应的数据加载到二级缓存403中。
图6只是列举了一种可能的预设算法,在实际应用中,预取算法模块4022还可以使用其它的预取算法进行数据预取,本申请实施例不作限定。
通过以上描述可知,本申请实施例提供的终端设备中包括预取器402,该预取器402可以根据CPU核组401向二级缓存403下发的数据访问请求、历史数据访问请求以及预取算法,计算预取地址,预取器402可以根据该预取地址从存储器中将与预取地址对应的数据加载到二级缓存403中。如果CPU后续需要该数据时,可直接从二级缓存403中读取,无需从DDR SDRAM406中读取,由于CPU从二级缓存403中读取数据的效率大于DDR SDRAM406中读取数据的效率,从而提升了CPU的运行效率。
在上述实施例中,预取器402中预存有一种预取算法,通过该预取算法进行数据预取。下面介绍另一实施例,在该实施例中,终端设备中的预取器中可以预存有多种预取算法,预取器可以从多种预取算法中选择一种预取算法进行数据预取,当选择出一种预取算法之后,按照图5所示的流程进行数据预取。
请参见图7所示,为本申请实施例提供的终端设备的结构示意图。图7以终端设备具有两级缓存为例。如图7所示,终端设备700可以包括CPU核组701、预取器702,二级缓存(L2Cache)703,总线704、DDR控制器705和DDR SDRAM 706。其中,预取器702中还包括特征提取器7020、预取算法模块组7021、预取效果检测模块7022、和预取输出判决器7023;其中,预取算法模块组7021中可以包括三个预取算法模块,分别为预取算法1模块、预取算法2模块、预取算法3模块,每个预取算法模块对应一种预取算法。
由于预取器702中存储有多种预取算法,所以预取器702在进行数据预取之前,可以从多种预取算法中确定一种预取算法。下面介绍预取器702从多种预设算法中确定一种预取算法的方式。
一种可能的实现方式为,预取器702可以根据当前的应用场景从多种预取算法中确定一种预取算法。比如,预取器702确定终端设备当前处于某种应用场景后,确定与该应用场景对应的预取算法。其中,应用场景可以是终端设备使用各种应用程序比如微信、邮箱、网页等场景。比如,终端设备中可以存储有应用程序和预取算法之间的映射关系,当终端设备确定当前处于某个应用程序时,基于所述映射关系确定于该应用程序对应的预取算法。应用程序和预取算法之间的映射关系可以设计人员根据大量实验得到的、并在终端设备出厂时设置好,也可以在用户使用终端设备的过程中设置。
可选的,如前述内容可知,预取器702中的特征提取器7020可以从数据访问请求中提取应用程序的包名。预取器702根据该应用程序的包括确定当前运行的应用程序后,基于应用程序和预取算法之间的映射关系,确定预取算法。比如,预取器702确定当前处于微信的应用场景,预取器702通过预取算法1模块进行数据预取。
另一种可能的实现方式为,预取器702可以通过训练的方式从多种预取算法中确定一种合适的预取算法。比如,预取器702可以具有两种模式,即训练模式和工作模式。在训练模式下,预取器702可以从多种预期算法中确定一种较为合适的预取算法。由前述内容可知,预取器得到预取地址后,将该预取地址对应的数据从存储器中加载到二级缓存703中。实际上,这些数据不一定都会被CPU核组701用到。如果这些数据中大部分数据被CPU核组701用到,即预取效果较好,如果这些数据中只有小部分数据被CPU核组701用到,则预取效果较差。因此,预取器702可以在训练模式下,判断采用哪种预取算法时,预取效果最好。以预取算法1为例,预取效果检测模块7022可以统计预取算法1模块生成的所有预取地址中哪些预取地址有用(哪些预取地址对应的数据被CPU核组701用到),哪些预取地址无用(哪些预取地址对应的数据未被CPU核组701用到),以得到预取算法1模块的预取效果。因此,在训练模式下,预取器702分别使用三种预取算法进行数据预取,确定其中预取效果最好的预取算法。
在本申请实施例中,在训练模式下,预取算法模块组7021中的每个预取算法模块在一个周期内生效。比如,在第一个周期内,预取算法1模块通过预取算法1进行数据预取。在第二个周期内,预取算法2模块通过预设算法2进行数据预取。在第三个周期内,预取算法3模块通过预设算法3进行数据预取。
可选的,这三个周期可以相同或者不同,预取器702的训练模式的时长为这三个周期之和。
在第一个周期内,特征提取器7020可以提取二级缓存703接收的N条历史数据访问请求中每条历史数据访问请求的地址。预取算法模块组7021中的预取算法1模块根据所述地址和预取算法1计算地址偏移量,然后根据该地址偏移量进行数据预取。其中,N可以为8也可以为16,具体可以根据实际情况而定。可选的,特征提取器7020可以在每个预取算法模块生效的周期内的刚开始的一段时间内从历史数据访问请求中提取地址;或者,特征提取器7020可以在每个预取算法模块生效的周期到达之前为将地址提取好,当所述周期到达时,所述每个预取算法模块使用该地址。
下面介绍两种确定预取算法1的预取效果的方式。下面的两种方式中均以预取效果是未命中(miss)率为例。
方式一,以N是16为例,请参见图8,为本申请实施例提供的终端设备通过预取算法1进行训练过程的示意图。如图8所示,预取器702通过16个地址中的前8个地址确定地址偏移量,然后根据该地址偏移量从第9个地址开始生成预取地址,即预取算法1模块生成了8个预取地址。预取算法1模块可以将这8个预取地址与提取的16个存储地址中的后8个存储地址进行比较,如果某个预取地址和后8个存储地址中的某一个存储地址一致,说明这个预取地址有用。比如,预取算法1模块生成的8个预取地址中有3个预取地址与提取的16个存储地址中的后8个存储地址中的3个存储地址相同,即图8中被填充的六边形。预取效果检测模块7022确定预取算法1模块的miss率为5/8。这里的miss率可以理解为,所有预取地址中未被实际用到的预取地址的总数与所有预取地址的总数的比值。对于预取算法1模块来说,预取地址的总数为8,其中未被实际用到的预取地址的总数为8-5=3,所以预取算法1模块的miss率为5/8。其中,miss率可以被称之为未命中率或其它名称,本申请实施例不限定。
方式二,预取算法1模块生成8个预取地址后,预取器702可以将这8个预取地址对应的数据从DDR SDRAM 706中加载二级缓存403中。预取器702可以监控在预设时长内,二级缓存703中哪个预取地址对应的数据被CPU核组701读取过。比如,在预设时长内,预取算法1模块生成的8个预取地址中有3个预取地址(即图5中被填充的六边形)对应的数据被CPU核组701读取过,则预取效果检测模块7022确定预取算法1模块的miss率为5/8。
需要说明的是,预取效果还可以是命中率,命中率和miss率相对而言。命中率用于指示,所有预取地址中被实际用到的预取地址的总数与所有预取地址的总数的比值。继续以图8为例,预取算法1的miss率5/8,也就是说命中率为3/8。
以上只是列举了两种确定预取算法1模块的miss率的方式,在实际应用中,还可以有其它方式来确定预取算法1模块的miss率,本申请实施例不作限定。比如,特征提取器7020获取的数据访问请求可能不止16条,比如有256条,即提取的特征信息有256个,预取算法1模块可以以16个特征信息为一个周期,每16个特征信息进行一次前述的计算过程,即每通过16个特征信息进行一次计算,得到一个miss率,即总共得到16个miss率,取这16个miss率的平均值为预取算法1模块的最终的miss率。
当第一周期结束后,预取器702启动预取算法2模块,进入第二周期。在第二周期内,预取算法2模块开启时,预取器702可以关闭预取算法1模块。预取算法2模块进行数据预取的过程与预取算法1模块进行数据预取的过程类似,为了说明书的简洁,不多赘述。
图9示出了本申请实施例提供的终端设备通过预取算法2进行数据预取的示意图。图9以N是16为例,预取算法2模块计算前8个地址中每间隔1个地址的两个地址之间的地址偏移量。比如,第1个地址和第3个地址之间间隔1个地址,所以第1个地址和第3个地址之间的地址偏移量是ID4,第2个地址和第4个地址之间间隔1个地址,所以第2个地址和第4个地址之间的地址偏移量是ID3。以此类推,在图9中的前8个地址中,每间隔1个地址的两个地址之间的地址偏移量分别是ID4、ID3、ID6、ID5、ID4、ID4(共6个值)。预取算法2模块取这6个值中出现次数最多的一个值即ID4,将该值作为地址偏移量。预取算法2模块确定地址偏移量后,根据该地址偏移量生成预取地址。
比如,预取算法2模块通过前8个地址确定地址偏移量后,从第9个地址开始生成预取地址。第9个地址是p1,ID1,那么预取算法2模块将该p1,ID1加上地址偏移量ID4,得到预取地址为p1,ID5。第10个存储地址是p1,ID4,那么预取算法2模块根据该p1,ID4以及地址偏移量4确定预取地址为p1,ID8。第11个存储地址是p1,ID5,那么预取算法2模块根据该p1,ID5以及地址偏移量4确定预取地址为p1,ID9。第12个存储地址是p1,ID7,那么预取算法2模块根据该p1,ID7以及地址偏移量4确定预取地址为p1,ID11。第13个存储地址是p1,ID11,那么预取算法2模块根据该p1,ID11以及地址偏移量4确定预取地址为p1,ID15。第14个存储地址是p1,ID12,那么预取算法2模块根据该p1,ID12以及地址偏移量4确定预取地址为p1,ID16。第15个存储地址是p1,ID15,那么预取算法2模块根据该p1,ID15以及地址偏移量4确定预取地址为p1,ID19。第16个存储地址是p1,ID16,那么预取算法2模块根据该p1,ID16以及地址偏移量4确定预取地址为p1,ID20。
综上所述,预取算法2模块最终生成的8个预取地址,包括p1,ID5、p1,ID8、p1,ID9、p1,ID11、p1,ID15、p1,ID16、p1,ID19、p1,ID20。预取器702可以按照前述列举的两种确定预取算法1模块的miss率的方式,来确定预取算法2模块的miss率。
举例来说,在预设时长内,预取算法2模块生成的8个预取地址中有4个预取地址(即图7中被填充的六边形)对应的数据被CPU核组701读取,则预取效果检测模块7022确定预取算法2模块的miss率为4/8。类似的,对于预取算法2模块来说,特征提取器7020获取的数据访问请求可能不止16条,比如有256条,即提取的特征信息有256个,预取算法2模块可以以16个特征信息为一个周期,每16个特征信息进行一次前述的计算过程,即每通过16个特征信息进行一次计算,得到一个miss率,即总共得到16个miss率,取这16个miss率的平均值最为预取算法1模块的最终的miss率。
当第二周期结束后,预取器702启动预取算法3模块,进入第三周期。在第三周期内,预取算法3模块开启时,预取器702可以关闭预取算法2模块。预取算法3模块进行数据预取的过程与预取算法1模块进行数据预取的过程类似,为了说明书的简洁,不多赘述。
在第三个周期内,预取算法3模块的计算过程同预取算法1模块和预取算法2模块的计算过程类似。因此,为了说明书的简洁,关于预设算法3模块的计算过程不作详细描述。本文给出预设算法3模块的数据预取过程的示意图,即图10。预设算法3模块进行数据预取后,预取效果检测模块7022确定预设算法3模块的miss率为6/8。
在训练模式下,预取效果检测模块7022确定三个预取算法模块各自的miss率之后,可以比较这三个miss率,确定miss较小的预取算法模块为最合适的预取算法模块。通过比较可知,预取算法2模块的miss率最低,即通过预取算法2模块进行数据预取时,预取到的数据被CPU核组701读取的可能性比较大。因此,预取效果检测模块7022确定预取算法2为预取效果最佳的预取算法。
在本申请实施例中,除了上述的三个周期外,预取器702还可以多设置一个周期即第四周期,在该第四周期内,预取器702无预取,即不采用任何预取算法。比如,在该第四周期内,预取器702中的预取算法1模块、预取算法2模块和预取算法3模块均处于关闭或者休眠状态。预取效果检测模块7022可以统计该第四周期内的miss率。若第四周期的miss率相对于前三个周期最低,那么预取器702确定不采用任何预取算法。第四周期可以发生在前述的三个周期之后,也可以发生在前述的三个周期之前。比如第一周期内,预取器702无预取,第二周期内,预取器702通过预取算法1模块进行数据预取,第三周期内,预取器702通过预取算法2模块进行数据预取,第四周期内,预取器702通过预取算法3进行数据预取。
在本申请实施例中,预取效果可以是miss率,还可以考虑每个预取算法模块的预取效率。如前述内容可知,预取器702产生预取地址后,该预取地址对应的数据可能已经存在于二级缓存中了,所以二级缓存不需要向DDR SDRAM 706发出的预取地址。因此,预取效率可以理解为二级缓存向DDR SDRAM 706发出的所有预取地址中实际被CPU用的预取地址的总数与所述发出的所有预取地址的总数的比值。可见,预取效率越高,即所有预取地址中被实际用到的预取地址越多,所以预取效率越高的预取算法越准确。因此,预取效果检测模块7022在考虑每个预取算法模块的预取效果时,可以考虑每个预取算法模块的miss率或者每个预取算法模块的预取效率(即确定预取效率最高预取算法模块),或者也可以同时考虑这两个因素。
预取器702确定最合适的预取算法模块之后,进入工作模式,在工作模式下,预取器702通过确定的最合适的预取算法模块进行数据预取。比如,预取器702在训练模式下,确定出最合适的预取算法是预取算法1,那么预取器702进入工作模式后,采用预取算法1执行一次图5所示的流程。
作为一种示例,请参见图11所示,图11示出了本申请实施例提供的预取器两种模式的切换示意图。预取器702中存储有M个预取算法时,可以设置M+1个周期。在训练模式下,第一个周期内,预取器702不采用预取算法,从第二个周期开始到第M+1个周期,每个周期采用一种预取算法。预取效果检测模块7022统计每个周期内的预取算法的miss率,得到M+1个miss率。预取效果检测模块7022确定M+1个miss率中miss率最低的预取算法。当第M+1个周期结束后,从第M+2个周期开始,预取器702自动进入工作模式。
作为另一种示例,请参见图12所示,图12示出了本申请实施例提供的预取器两种模式的切换示意图。预取器702中存储有M个预取算法时,设置M+1个周期。在训练模式下,第一个周期内,不采用预取算法。从第二个周期开始第M+1个周期,每个周期采用一种预取算法。预取效果检测模块7022统计每个周期内的预取算法的miss率。当某个周期内的预取算法的miss率小于等于预设的miss率时,预取效果检测模块7022触发预取器702进入工作模式。比如,预取效果检测模块7022确定第二个周期内的预取算法1的miss率小于等于预设的miss率,则触发预取器702进入工作模式,在工作模式下,预取器702通过预取算法1进行数据预取。通过这种方式,预取器702无需进行从第三个周期到第M+1个周期的训练,有助于提高效率。
在本申请实施例中,在训练模式下,预取效果检测模块7022确定最合适的预取算法模块后,将该预取算法模块的标识(比如预取算法模块的编号)发送给预取输出判决器7023,该预取输出判决器7023可以开启确定的预取算法模块,并关闭除所述确定出的预取算法之外的其它的预取算法模块,以使在工作模式下,预取器702通过确定的预取算法模块进行数据预取。
预取器702进入工作模式后,预取效果检测模块7022可以实时的监控采用当前的预取算法(即预取器702在训练模式下确定出的预设算法)进行数据预取的预取效果,当预取效果较差时,重新进入训练模式,即重新从多个预取算法中确定最合适的预取算法。
举例来说,在工作模式下,预取器702通过预取算法2模块进行数据预取,预取效果检测模块7022可以监控预取算法2模块的预取效果(miss率和/或预取效率)。当预取算法2模块的预取效果较差时,预取效果检测模块7022控制预取器702再次进入训练模块。比如,预取效果检测模块7022向预取输出判决器7023发送指令,以使预取输出判决器7023依次开启各个预取算法模块,进入训练模式。
在本申请实施例中,在工作模式下,预取效果检测模块7022可以统计N个周期内每个周期内通过预取算法2模块进行数据预取时的miss率。前面已经介绍过,预取效果检测模块7022获取每个预取算法模块的miss率的过程,为了说明书的简洁,在此不做赘述。预取效果检测模块7022根据每个周期的miss率确定是否需要再次进入训练模式。
作为一种示例,当某个周期的miss率大于预设miss率时,确定需要再次进入训练模式。
在本申请实施例中,预取器702中可以存储有预设miss率,该预设miss率的具体值,可以在终端设备出厂时设置好,也可以在用户使用终端设备的过程中,终端设备自学习设置的,本申请实施例对此不作限定。
作为另一种示例,当某个周期的miss率大于无预取时的miss率时,确定需要再次进入训练模式。如前述内容可知,在第四周期内,预取器702可以不采用任何预取算法,预取效果检测模块7022确定该周期内的miss率后,如果其它某个周期内的miss率大于该第四周期内的miss率,则确定需要再次进入训练模块。
作为又一种示例,预取效果检测模块7022确定N个周期的N个miss率之后,确定这N个miss率的方差,若该方差大于等于一个预设方差,确定需要重新进入训练模式。通常,N个miss率的方差较大时,认为当前的预取算法的预取效果不稳定,波动较大,所以预取器702需要再次进入训练模式确定合适的预取算法。
作为又一种示例,预取器702从多种预取算法中确定出一种预取算法后,预取器702通过确定出的预取算法进行数据预取,一段时间后,预取器702自动进入训练模式。
如前述内容可知,预取器702可以通过应用场景比如应用程序确定合适的预取算法模块,还可以通过训练确定合适的预取算法。在实际应用中,这两种方式可以单独使用,也可以结合使用。比如,预取器702根据当前的应用场景确定出的预取算法模块有多个时,可以进一步通过训练从这多个预取算法模块中确定一种预设算法模块。再比如,预取器702确定当前的应用场景发生变化时,触发再次进入训练模式。
通常,当终端设备的应用场景变化(比如用户从微信的场景切换到王者荣耀的场景)时,CPU核组701需要读取的数据会发生较大的变化。假设终端设备在0-t1的时间段内处于微信的应用场景,在该场景中,预取器702通过训练模式确定最合适的预取算法是预取算法2。在t1-t2的时间段内,终端设备处于王者荣耀的场景,在该时间段内,如果仍然按照预取算法2进行数据预取的话,预取效果可能会降低,所以预取器702可以继续通过训练确定适合该王者荣耀场景的预取算法。因此,在本申请实施例中,预取器702中的预设效果检测模块7022可以监控各个预取算法模块进行数据预取时的预取效果,如果预取效果较差时,说明当前的预取算法不合适,再次进入训练模式,重新确定合适的预取算法,最终实现在不同的应用场景下,都能够尽可能的使用最合适的预取算法进行数据预取。
请参见图13,为本申请实施例提供的工作模式和训练模式之间的切换示意图。终端设备处于关闭状态(比如手机处于关机状态)时,预取器中的所有模块不工作,不上电,即预取器处于停止模式。当终端设备处于开启状态时,终端设备通过软件开关触发预取器开始工作(比如,CPU核组配置软件开关enablebit为1,控制预取器开始工作),进入训练模式,当训练周期到期后,预取器进入工作模式。在工作模式下,如果预取算法的miss率不满足条件(比如,某个周期的miss率大于无预取时的miss率,或者N个miss率的方差大于等于一个预设方差)时,再次进入训练模式。当然,在工作模式或者训练模式下,终端设备还可以通过软件开关控制预取器从工作模式或训练模式进入停止模式,即关闭预取器。比如,请继续参见图11,在训练模式下,CPU核组可以配置软件开关enablebit为0,即控制预取器进入停止模式;或者,在工作模式下,CPU核组也可以配置软件开关enablebit为0,即控制预取器进入停止模式。
图4或图7是以具有两级缓存的终端设备为例进行说明(预取器设置在CPU核组和二级缓存之间,即该预取器服务于二级缓存)。可以理解地,图4或图7中的预取器还可以适用于具有三级缓存的终端设备中。图14示出了本申请实施例提供的具有三级缓存的终端设备的结构示意图。在图14中,预取器设置在CPU核组和三级缓存之间,该预取器服务于三级缓存。
可以理解地,虽然图4、图7或者图14所示的终端设备中,预取器设置在CPU核组和最后一级缓存之间(比如图14所示的具有三级缓存的终端设备中,预取器设置在CPU核组和三级缓存之间),即预取器服务于最后一级缓存。当然,预取器还可以设置在一级缓存和二级缓存之间(比如图14所示的具体三级缓存的终端设备中,预取器设置在一级缓存和二级缓存之间),服务于二级缓存。即本申请实施例提供的预取器不仅可以服务于最后一级缓存,还可以服务于终端设备的任意一级缓存。
通过以上描述可知,本申请实施例的技术方案中,终端设备中的预取器为最后一级缓存提供预取能力,提高了CPU的运行效率。下面分别从不同的角度分析本申请实施例提供的终端设备(例如,最后一级缓存具有预取能力):
一,从CPU性能的角度来说:
通常,终端设备运行某应用程序时,画面越是流畅,用户体验越好。画面流畅度可以是由帧率决定,帧率越高,即每秒显示的帧数越多,画面越流畅。通常,终端设备显示每一帧图像需要执行的指令数是固定的。
需要说明的是,通常,CPU是以一定的周期工作的。一个应用程序的运行可能需要多个周期。比如,CPU在运行某个应用程序时,需要调用该应用程序的指令或数据,一个指令或数据的调用过程可能经过多个周期(cycle per instruction,CPI)。通常CPI越低(即调用一个指令或数据需要的周期数越少),说明CPU的运行越快,CPI越高(即调用一个指令或数据需要的周期数越多),说明CPU的运行越慢。因为,如前面的描述可知,本申请实施例中,由于最后一级缓存具有预取能力,而且预取器可以在训练模式下,寻找miss率最小的预取算法(小于无预取时的miss率)。CPU读取数据效率提高,所以在读取一个指令或数据需要的时间缩短,即CPI降低。也就是说,终端设备显示一帧画面需要的时间减少,即画面更加流畅,从而进一步提升用户的体验。
二,从CPU功耗的角度来说:
如前述内容可知,采用本申请实施例的技术方案后,可以降低CPI。CPI降低之后,即CPU需要工作的周期数减少,即降低CPU工作时间,增加休眠时间。因为CPU休眠功耗相对工作功耗要低得多,因此技术可以降低CPU功耗。
三,从DDR控制器的角度来说:
通常,DDR控制器包括三种访问状态,自刷新状态、IDLE状态和访问状态。请参见图13,为本申请实施例提供的DDR的三种状态之间的切换示意图。如图15,当终端设备开机时,进入自刷新状态。当DDR控制器接收到一级缓存或者二级缓存发送的数据访问请求时,退出自刷新状态,进入IDLE状态。当IDLE状态持续一定时间后,进入访问状态。DDR控制器进入访问状态后,开始处理来自一级缓存或者二级缓存的数据访问请求。这三种状态中,访问状态功耗最高,其次是IDLE状态,功耗最低的是自刷新状态。也就是说,数据访问过程发生在DDR控制器处于访问状态下,IDLE状态和自刷新状态下都是无数据访问的状态。因此,在无访问的时候,为了节省功耗,可以尽量让DDR控制器处于最省电的自刷新状态,而不是IDLE状态。
由于,IDLE状态是自刷新状态切换到访问状态的过程中经过的一种状态,所以要减少IDLE状态的持续时间,可以通过减少自刷新状态和访问状态之间的切换次数来实现。由于本申请实施例提供的终端设备中的最后一级缓存具有预取能力,可以在正常数据访问时把预取数据一并读取到最后一级缓存中,所以有助于降低访问次数。访问次数降低后,即访问状态和自刷新状态之间的切换次数降低,即降低了IDLE状态的持续时间。
举例来说,请参见图16,为本申请实施例提供的LLC Cache有预取和LLC Cache无预取时,两种状态各自占的时间的对比示意图。如图16中的(a),t从0开始,先经过自刷新状态,然后进入IDLE状态,然后进入访问状态,在访问状态下,LLC Cache访问数据D1,访问结束后,进入IDLE状态,再进入自刷新状态。之后,进入下一个流程,以访问数据D2和数据D3。之后,再进入下一个流程,以访问数据D4。可见,在图16的(a)中,LLC Cache无预取时,自刷新状态和访问状态之间,切换了6次,即进入IDLE状态有6次。
如图16的(b),t从0开始,先经过自刷新状态,然后进入IDLE状态,再进入访问状态。由于终端设备中的最后一级缓存具有预取能力,可以在正常数据访问时把预取数据一并读取到最后一级缓存中,所以在访问状态下,LLC Cache访问数据D1、数据D2和预取数据P1,访问结束后,进入IDLE状态,再进入自刷新状态。之后,进入下一个流程,以读取数据D3、数据D4和预取数据P2。因此,自刷新状态和访问状态之间的切换次数减少,即进入DDR IDLE的次数由6次降低为4次,因此降低了DDR IDLE的时间占比,提升了DDR自刷新状态的时间占比。
本申请的各实施方式可以任意进行组合,以实现不同的技术效果。
上述本申请提供的实施例中,从终端设备作为执行主体的角度对本申请实施例提供的方法进行了介绍。为了实现上述本申请实施例提供的方法中的各功能,终端设备可以包括硬件结构或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行,取决于技术方案的特定应用和设计约束条件。
本发明实施例还提供一种计算机存储介质,该存储介质可以包括存储器,该存储器可存储有计算机程序,该计算机程序被执行时,可以使得终端设备执行包括如前述的图5所示的方法实施例中记载的终端设备所执行的全部步骤。
本发明实施例还提供一种包含计算机程序产品,当所述计算机程序产品在终端设备上运行时,可以使得所述终端设备执行包括如前述的图5所示的方法实施例中记载的终端设备所执行的全部步骤。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请实施例可以用硬件实现,或固件实现,或它们的组合方式来实现。当使用软件实现时,可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于:计算机可读介质可以包括RAM、ROM、电可擦可编程只读存储器(electrically erasable programmable read only memory,EEPROM)、只读光盘(compactdisc read-Only memory,CD-ROM)或其它光盘存储、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质。此外。任何连接可以适当的成为计算机可读介质。如本申请实施例所使用的,盘(disk)和碟(disc)包括压缩光碟(compact disc,CD)、激光碟、光碟、数字通用光碟(digital video disc,DVD)、软盘和蓝光光碟,其中盘通常磁性的复制数据,而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。
总之,以上所述仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡根据本申请的揭露,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.一种终端设备,其特征在于,所述终端设备包括CPU核组、至少一级缓存、预取器和存储器,其中,
所述CPU核组,用于向所述至少一级缓存的第一缓存下发数据访问请求,所述数据访问请求中携带有第一地址,所述第一地址为所述CPU核组当前需要访问的数据在所述存储器中的地址;
所述预取器,用于从M个历史数据访问请求中提取M个特征信息,M为正整数,根据第一预取算法和所述M个特征信息计算出M个地址偏移量,并从所述M个地址偏移量中选择出现次数最多的地址偏移量,根据选择出的地址偏移量和所述第一地址,生成第一预取地址,所述第一预取地址用于从所述存储器中与所述第一预取地址对应的数据加载到所述第一缓存中;其中,所述第一预取算法是根据当前运行的应用程序从多种预取算法中确定的、并且历史命中率大于第一阈值的预设算法;其中,所述历史命中率为历史预取到的数据中被所述CPU核组访问的数据的比例。
2.如权利要求1所述的终端设备,其特征在于,所述第一缓存为所述至少一级缓存中的最后一级缓存。
3.如权利要求1-2任一所述的终端设备,其特征在于,所述至少一级缓存包括两级缓存,所述第一缓存为所述两级缓存中的二级缓存;
所述CPU核组,用于向所述至少一级缓存的第一缓存下发数据访问请求,包括:
所述CPU核组,用于向所述两级缓存中的一级缓存下发数据访问请求;其中,所述一级缓存的缓存控制器,用于确定一级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给所述二级缓存;
或者
所述CPU核组,用于向所述至少一级缓存的第一缓存下发数据访问请求,包括:
所述CPU核组,用于向所述两级缓存中的一级缓存下发数据访问请求;其中,所述一级缓存的缓存控制器,用于确定一级缓存中没有与第一地址相对应的数据时,向所述CPU核组反馈响应信息;
所述CPU核组,在接收到所述响应信息之后,向所述两级缓存中的二级缓存下发所述数据访问请求。
4.如权利要求1-2任一所述的终端设备,其特征在于,所述预取器中有N个预取算法,其中每个预取算法在一个周期内生效,所述预取器还用于:
在N个周期中的每一个周期内,根据在所述每一个周期内生效的预取算法进行数据预取;
确定所述N个周期中每一个周期内生效的预取算法进行数据预取的N个第一命中率;
确定所述N个第一命中率中最大的第一命中率,确定所述最大的第一命中率对应的预取算法为所述第一预取算法;
其中,所述第一命中率为所述预取器根据一个周期内生效的预取算法将预取数据存储到所述第一缓存后,所述预取数据中被所述CPU核组访问的数据占所述预取数据的比例。
5.如权利要求1-2任一所述的终端设备,其特征在于,所述存储器为DDR SDRAM。
6.一种数据预取的方法,其特征在于,所述方法包括:
向至少一级缓存的第一缓存下发数据访问请求,所述数据访问请求中携带有第一地址,所述第一地址为CPU核组当前需要访问的数据在存储器中的地址;
从M个历史数据访问请求中提取M个特征信息,M为正整数;
根据第一预取算法和所述M个特征信息计算出M个地址偏移量,并从所述M个地址偏移量中选择出现次数最多的地址偏移量;
根据选择出的地址偏移量和所述第一地址,生成第一预取地址;
根据所述第一预取地址从所述存储器中将与所述第一预取地址对应的数据加载到所述第一缓存中;其中,所述第一预取算法是根据当前运行的应用程序从多种预取算法中确定的、并且历史命中率大于第一阈值的预设算法;其中,所述历史命中率为历史预取到的数据中被所述CPU核组访问的数据的比例。
7.如权利要求6所述的方法,其特征在于,所述第一缓存为所述至少一级缓存中的最后一级缓存。
8.如权利要求6-7任一所述的方法,其特征在于,若所述至少一级缓存包括两级缓存,所述第一缓存为所述两级缓存中的二级缓存;
向所述至少一级缓存的第一缓存下发数据访问请求,包括:
向所述两级缓存中的一级缓存下发数据访问请求;其中,所述一级缓存的缓存控制器,用于确定一级缓存中没有与第一地址相对应的数据时,将所述数据访问请求发送给所述二级缓存;
或者
向所述至少一级缓存的第一缓存下发数据访问请求,包括:
向所述两级缓存中的一级缓存下发数据访问请求;其中,所述一级缓存的缓存控制器,用于确定一级缓存中没有与第一地址相对应的数据时,生成响应信息;
基于所述响应信息,向所述两级缓存中的二级缓存下发所述数据访问请求。
9.如权利要求6-7任一所述的方法,其特征在于,终端中有N个预取算法,其中每个预取算法在一个周期内生效,所述方法还包括:
在N个周期中的每一个周期内,根据在所述每一个周期内生效的预取算法进行数据预取;
确定所述N个周期中每一个周期内生效的预取算法进行数据预取的N个第一命中率;
确定所述N个第一命中率中最大的第一命中率,确定所述最大的第一命中率对应的预取算法为所述第一预取算法;
其中,所述第一命中率为根据一个周期内生效的预取算法将预取数据存储到所述第一缓存后,所述预取数据中被所述CPU核组访问的数据占所述预取数据的比例。
10.如权利要求6-7任一所述的方法,其特征在于,所述存储器为DDR SDRAM。
11.一种终端设备,其特征在于,包括至少一个处理器和存储器;
所述存储器用于存储一个或多个计算机程序;
当所述存储器存储的一个或多个计算机程序被所述至少一个处理器执行时,使得所述终端设备执行如权利要求6至10任一所述的方法。
12.一种计算机存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,当计算机程序在终端设备上运行时,使得所述终端设备执行如权利要求6至10任一所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844371.6A CN110765034B (zh) | 2018-07-27 | 2018-07-27 | 一种数据预取方法及终端设备 |
PCT/CN2019/097330 WO2020020175A1 (zh) | 2018-07-27 | 2019-07-23 | 一种数据预取方法及终端设备 |
EP19840126.7A EP3819773A4 (en) | 2018-07-27 | 2019-07-23 | DATA PRE-EXTRACTION PROCESS AND TERMINAL DEVICE |
US17/263,197 US11586544B2 (en) | 2018-07-27 | 2019-07-23 | Data prefetching method and terminal device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844371.6A CN110765034B (zh) | 2018-07-27 | 2018-07-27 | 一种数据预取方法及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765034A CN110765034A (zh) | 2020-02-07 |
CN110765034B true CN110765034B (zh) | 2022-06-14 |
Family
ID=69180391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810844371.6A Active CN110765034B (zh) | 2018-07-27 | 2018-07-27 | 一种数据预取方法及终端设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11586544B2 (zh) |
EP (1) | EP3819773A4 (zh) |
CN (1) | CN110765034B (zh) |
WO (1) | WO2020020175A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435601A (zh) * | 2020-03-23 | 2021-09-24 | 华为技术有限公司 | 数据预取方法、装置以及存储设备 |
GB2593484B (en) * | 2020-03-24 | 2022-09-28 | Advanced Risc Mach Ltd | Memory management |
CN115605851A (zh) * | 2020-04-22 | 2023-01-13 | 美光科技公司(Us) | 用于读取操作的映射描述符 |
US20230100328A1 (en) * | 2021-09-30 | 2023-03-30 | Micron Technology, Inc. | Delta predictions for page scheduling |
CN114065947B (zh) * | 2021-11-15 | 2022-07-22 | 深圳大学 | 一种数据访问推测方法、装置、存储介质及电子设备 |
CN116561020B (zh) * | 2023-05-15 | 2024-04-09 | 合芯科技(苏州)有限公司 | 一种混合缓存粒度下的请求处理方法、设备及存储介质 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6421763B1 (en) * | 1999-06-30 | 2002-07-16 | International Business Machines Corporation | Method for instruction extensions for a tightly coupled speculative request unit |
US7197605B2 (en) * | 2002-12-30 | 2007-03-27 | Intel Corporation | Allocating cache lines |
KR20050061123A (ko) * | 2003-12-18 | 2005-06-22 | 삼성전자주식회사 | Ddr sdram 콘트롤러의 데이터 제어회로 |
US20090006813A1 (en) * | 2007-06-28 | 2009-01-01 | Abhishek Singhal | Data forwarding from system memory-side prefetcher |
CN100481028C (zh) * | 2007-08-20 | 2009-04-22 | 杭州华三通信技术有限公司 | 一种利用缓存实现数据存储的方法和装置 |
US8442959B2 (en) * | 2007-12-19 | 2013-05-14 | Verizon Patent And Licensing Inc. | Methods and systems for automated processing of fallout orders |
US9274965B2 (en) * | 2008-12-15 | 2016-03-01 | International Business Machines Corporation | Prefetching data |
CN101751245B (zh) * | 2010-01-18 | 2013-05-15 | 龙芯中科技术有限公司 | 基于访存历史学习的处理器Cache写失效处理方法 |
US8478961B2 (en) * | 2011-03-02 | 2013-07-02 | International Business Machines Corporation | Dynamic migration of virtual machines based on workload cache demand profiling |
CN102214146B (zh) * | 2011-07-28 | 2013-04-10 | 中国人民解放军国防科学技术大学 | 步长自适应的Cache预取方法及其系统 |
US9262328B2 (en) * | 2012-11-27 | 2016-02-16 | Nvidia Corporation | Using cache hit information to manage prefetches |
US20140281232A1 (en) * | 2013-03-14 | 2014-09-18 | Hagersten Optimization AB | System and Method for Capturing Behaviour Information from a Program and Inserting Software Prefetch Instructions |
CN104050092B (zh) * | 2013-03-15 | 2018-05-01 | 上海芯豪微电子有限公司 | 一种数据缓存系统及方法 |
CN103226521B (zh) * | 2013-04-18 | 2016-03-02 | 浙江大学 | 多模式数据预取装置及其管理方法 |
US20150286571A1 (en) | 2014-04-04 | 2015-10-08 | Qualcomm Incorporated | Adaptive cache prefetching based on competing dedicated prefetch policies in dedicated cache sets to reduce cache pollution |
CN104063330B (zh) | 2014-06-25 | 2017-04-26 | 华为技术有限公司 | 数据预取方法及装置 |
CN104808967B (zh) * | 2015-05-07 | 2017-07-04 | 盐城工学院 | 一种处理器的动态数据预取系统 |
US10067872B2 (en) * | 2015-06-22 | 2018-09-04 | Advanced Micro Devices, Inc. | Memory speculation for multiple memories |
CN105677580B (zh) * | 2015-12-30 | 2019-04-12 | 杭州华为数字技术有限公司 | 访问缓存的方法和装置 |
CN105426322B (zh) * | 2015-12-31 | 2019-05-28 | 华为技术有限公司 | 一种数据的预取方法及装置 |
CN106021128B (zh) * | 2016-05-31 | 2018-10-30 | 东南大学—无锡集成电路技术研究所 | 一种基于步幅和数据相关性的数据预取器及其预取方法 |
CN107479860B (zh) * | 2016-06-07 | 2020-10-09 | 华为技术有限公司 | 一种处理器芯片以及指令缓存的预取方法 |
CN108073525B (zh) * | 2016-11-08 | 2021-10-19 | 华为技术有限公司 | 预取数据的方法、装置和系统 |
-
2018
- 2018-07-27 CN CN201810844371.6A patent/CN110765034B/zh active Active
-
2019
- 2019-07-23 US US17/263,197 patent/US11586544B2/en active Active
- 2019-07-23 EP EP19840126.7A patent/EP3819773A4/en active Pending
- 2019-07-23 WO PCT/CN2019/097330 patent/WO2020020175A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
US11586544B2 (en) | 2023-02-21 |
WO2020020175A1 (zh) | 2020-01-30 |
CN110765034A (zh) | 2020-02-07 |
EP3819773A4 (en) | 2021-10-27 |
EP3819773A1 (en) | 2021-05-12 |
US20210149806A1 (en) | 2021-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765034B (zh) | 一种数据预取方法及终端设备 | |
US9053029B2 (en) | Multicore computer system with cache use based adaptive scheduling | |
JP6076501B2 (ja) | 無線ネットワークのオン・オフを制御するための方法、装置、設備、システム、プログラム及び記録媒体 | |
CN110888821B (zh) | 一种内存管理方法及装置 | |
KR101846397B1 (ko) | 게임 워크로드들에 대해 cpu 주파수를 동적으로 스로틀하는 시스템 및 방법 | |
US10444822B2 (en) | Method for managing central processing unit and related products | |
CN104967896A (zh) | 一种显示弹幕评论信息的方法和装置 | |
EP3411775B1 (en) | Forced idling of memory subsystems | |
KR20060129873A (ko) | 휴대단말기의 메모리 정리 방법 | |
US11907164B2 (en) | File loading method and apparatus, electronic device, and storage medium | |
CN107332997B (zh) | 减少终端发热的方法、装置、移动终端及存储介质 | |
CN104423996A (zh) | 视图刷新方法和装置 | |
CN104104711A (zh) | 阅读历史处理方法和装置 | |
CN106937258A (zh) | 一种广播的控制方法、装置及移动终端 | |
CN111104180A (zh) | 应用程序优化方法、装置、存储介质及电子设备 | |
CN110750743A (zh) | 一种动画播放方法、装置、设备及存储介质 | |
CN107688498B (zh) | 应用程序处理方法和装置、计算机设备、存储介质 | |
US20070022251A1 (en) | Data caching method and computer program product therefor | |
CN111836300B (zh) | 网络切换方法及通信终端 | |
CN110471622B (zh) | 一种sd卡数据写入方法、装置、存储介质及终端 | |
CN105302741B (zh) | 一种高速缓存控制方法及装置 | |
CN103853307A (zh) | 电子装置及降低处理器系统功耗的方法 | |
CN104837063A (zh) | 请求处理方法、装置及电子设备 | |
CN116737602B (zh) | 将外设ram共享为系统ram的方法、装置及存储介质 | |
CN116150057B (zh) | 数据传输方法、装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |