CN112241289B - 一种文本数据的处理方法和电子设备 - Google Patents

一种文本数据的处理方法和电子设备 Download PDF

Info

Publication number
CN112241289B
CN112241289B CN201910649391.2A CN201910649391A CN112241289B CN 112241289 B CN112241289 B CN 112241289B CN 201910649391 A CN201910649391 A CN 201910649391A CN 112241289 B CN112241289 B CN 112241289B
Authority
CN
China
Prior art keywords
processing
numerical data
text data
processing result
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910649391.2A
Other languages
English (en)
Other versions
CN112241289A (zh
Inventor
乔于洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910649391.2A priority Critical patent/CN112241289B/zh
Publication of CN112241289A publication Critical patent/CN112241289A/zh
Application granted granted Critical
Publication of CN112241289B publication Critical patent/CN112241289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3818Decoding for concurrent execution
    • G06F9/3822Parallel decoding, e.g. parallel decode units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种文本数据的处理方法,获取文本数据;基于中央处理器中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据;向图形处理器发送至少两组数值数据;接收图形处理器发送的对至少两组数值数据进行处理所得到的第一处理结果,并基于第一处理结果,确定文本数据对应的第二处理结果;本发明的实施例同时还公开了一种电子设备;实现在对文本数据进行处理的过程中,中央处理器和图形处理器二者始终保持繁忙,减少等待时间,提升中央处理器和图形处理器的处理效率,确保高效运行。

Description

一种文本数据的处理方法和电子设备
技术领域
本发明涉及但不限于计算机技术领域,尤其涉及一种文本数据的处理方法和电子设备。
背景技术
随着科学技术的飞速发展,人工智能越来越常见,相关技术中实现人工智时多采用深度学习的方法。目前,相关技术中提出了一种面向深度学习的中央处理器与图形处理器混合的集群架构系统;该系统在处理文本数据的过程中,基于文本数据的数据量的大小选择中央处理器和图形处理器中的一个,对文本数据进行处理,该方法无法充分利用中央处理器与图形处理器各自的优势,导致文本数据的处理效率低;或者,采用串行处理的方式,由中央处理器基于单线程对文本数据进行转换,再将转换后的数据传给图形处理器进行处理,该方法中图形处理器等待时间过长,同样导致文本数据的处理效率低。因此,相关技术中对文本数据进行处理的过程中,存在处理效率低的问题。
发明内容
有鉴于此,本发明实施例提供一种文本数据的处理方法和电子设备,解决了相关技术中对文本数据进行处理的过程中,处理效率低的问题,实现在对文本数据进行处理的过程中,中央处理器和图形处理器二者始终保持繁忙,减少等待时间,提升中央处理器和图形处理器的处理效率,确保高效运行。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,一种文本数据的处理方法,该方法应用于中央处理器,该方法包括:
获取文本数据;
基于中央处理器中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据;
向图形处理器发送至少两组数值数据;
接收图形处理器发送的对至少两组数值数据进行处理所得到的第一处理结果,并基于第一处理结果,确定文本数据对应的第二处理结果。
可选的,第一处理结果包括与至少两组数值数据对应的至少两个第一处理结果;基于第一处理结果,确定文本数据对应的第二处理结果,包括:
对至少两个第一处理结果进行加权处理,得到第二处理结果。
可选的,对至少两个第一处理结果进行加权处理,得到第二处理结果,包括:
对至少两个第一处理结果进行加权处理,得到第三处理结果;
若第三处理结果与特定结果之间的第一关联关系符合预设关联关系,确定第三处理结果为第二处理结果。
可选的,第一处理结果为图形处理器将至少两组数值数据输入至第一模型中得到的处理结果,方法还包括:
若第一关联关系不符合预设关联关系,将第一关联关系发送至图形处理器,使得图形处理器基于第一关联关系对第一模型的参数进行调整以得到第二模型;
接收图形处理器发送的至少两个第四处理结果;其中,所述至少两个第四处理结果包括所述图形处理器将所述至少两组数值数据输入至所述第二模型中所得到的处理结果;
对至少两个第四处理结果进行加权处理,得到第五处理结果;
若第五处理结果与特定结果之间的第二关联关系符合预设关联关系,确定第五处理结果为第二处理结果。
可选的,上述方法还包括:
若第二关联关系不符合预设关联关系,将第二关联关系发送至图形处理器,使得图形处理器基于第二关联关系对第二模型的参数进行调整以得到第三模型;
接收图形处理器发送的至少两个第六处理结果;其中,所述至少两个第六处理结果包括所述图形处理器将所述至少两组数值数据输入至所述第三模型中所得到的处理结果;
对至少两个第六处理结果进行加权处理,得到第七处理结果;
若第七处理结果与特定结果之间的第三关联关系符合预设关联关系,确定第七处理结果为第二处理结果。
第二方面,一种文本数据的处理方法,方法应用于图形处理器,方法包括:
接收中央处理器发送的至少两组数值数据;其中,至少两组数值数据包括中央处理器基于自身中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到的数值数据;
对至少两组数值数据进行处理,得到第一处理结果;
向中央处理器发送第一处理结果,使得中央处理器基于第一处理结果,确定文本数据对应的第二处理结果。
可选的,对至少两组数值数据进行处理,得到第一处理结果,包括:
对至少两组数值数据中的第一部分数值数据进行处理,并获取图形处理器的计算资源的利用率;
若利用率符合特定阈值,设置至少两组数值数据中除第一部分数值数据外的第二部分数值数据的状态为挂起状态;
若获得第一部分数值数据对应的第一处理结果,对第二部分数值数据进行处理,得到第二部分数值数据对应的第一处理结果。
可选的,对至少两组数值数据进行处理,得到至少两个第一处理结果,包括:
将至少两组数值数据输入至第一模型中,得到与至少两组数值数据对应的至少两个第一处理结果。
可选的,向中央处理器发送至少两个第一处理结果之后,方法还包括:
接收中央处理器发送的第一关联关系;
基于第一关联关系对第一模型的参数进行调整以得到第二模型;
将至少两组数值数据输入至第二模型中,得到与至少两组数值数据对应的至少两个第四处理结果;
向中央处理器发送至少两个第四处理结果,使得中央处理器基于至少两个第四处理结果,确定文本数据对应的第二处理结果。
第三方面,一种电子设备,所述电子设备包括中央处理器、图形处理器、存储器和通信总线;
所述通信总线用于实现中央处理器、图形处理器和存储器之间的通信连接;
所述中央处理器用于执行存储器中存储的文本数据的处理程序,以实现如上述第一方面中的文本数据的处理方法的步骤;
所述图形处理器用于执行存储器中存储的文本数据的处理程序,以实现如上述第二方面中的文本数据的处理方法的步骤。
第四方面,一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如上述第一方面或上述第二方面中的文本数据的处理方法的步骤。
本发明实施例所提供的文本数据的处理方法和电子设备,该方法包括:获取文本数据;基于中央处理器中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据;向图形处理器发送至少两组数值数据;接收图形处理器发送的对至少两组数值数据进行处理所得到的第一处理结果,并基于第一处理结果,确定文本数据对应的第二处理结果;也就是说,本发明实施例提供的方法,对文本数据进行处理时CPU中的至少两个线程是并行运行的,同时对文本数据中的不同子文本数据进行处理;并及时发送至GPU,减少GPU的等待时间,进而得到GPU对至少两组数值数据处理得到的第一处理结果;解决了相关技术中对文本数据进行处理的过程中,处理效率低的问题;实现在对文本数据进行处理的过程中,中央处理器和图形处理器二者始终保持繁忙,减少等待时间,提升中央处理器和图形处理器的处理效率,确保高效运行。
附图说明
图1为本发明实施提供的一种文本数据的处理方法的流程示意图;
图2为本发明实施例提供的另一种文本数据的处理方法的流程示意图;
图3为本发明实施例提供的又一种文本数据的处理方法的流程示意图;
图4为本发明另一实施例提供的一种文本数据的处理方法的流程示意图;
图5为本发明另一实施例提供的另一种文本数据的处理方法的流程示意图;
图6为本发明实施提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图及实施例对本发明再作进一步详细的描述。
这里,对中央处理器(Central Processing Unit,CPU)、图形处理器(GraphicsProcessing Unit,GPU)的背景进行简单的说明,CPU由专为顺序串行处理而优化的几个核心组成,而GPU则是一个拥有数以千计的更小更高效的核心的大规模并行计算架构。传统CPU是面向指令执行高效率来设计的,注重指令运算加数值运算,单个核心就可以处理较为复杂的业务逻辑;而GPU是面向适合于矩阵类型的数值计算来设计的,可实现高度并行数值计算,只有完全按照并行模式运行时才能达到峰值性能。
目前,通过数学模型和统计方法来寻找规律是数据挖掘的常用手段,面对海量的数据,分析人员通常通过数据预处理将形式各样的数据转化成数值,再通过各种算法模型来挖掘新知识。在实际应用中,本申请的发明人发现有一些数据是以文本形式记录的,将其转化成数值的过程涉及到逻辑判断,字符串处理等过程,CPU比较擅长这类业务的处理,而转化成数值之后则是GPU擅长的数值运算过程。
进一步地,充分发挥CPU和GPU的优势可以实现分析、处理过程的加速。这个过程涉及到CPU和GPU之间的数据传输,传统串行的逻辑即CPU通过单线程将文本数据转换之后再传给GPU进行数值计算的过程,不仅要考虑GPU的内存容量,还需要考虑GPU的带宽。不同GPU版本的内存容量和带宽均有所不同,数据量过大会占用更多预处理以及数据传输的时间,数据量过小GPU负载率不高且浪费计算资源,还会增加数据传输次数从而增加数据传输时间,并使得程序配置变得复杂。
相关技术中,用于混合GPU和CPU数据处理的方法中提到,对于每个单独的计算子任务,通过支持最适合的架构比通过单独使用任意平台能够取得更高的吞吐量。但是,该方案是针对大规模图形遍历计算,拟解决的问题是模型过大,超过GPU存储器限制,为此加入CPU做高速缓存来辅助计算,实现实时查找识别,然而,其较为复杂的搜索任务也在GPU中进行。
本发明实施例所提供的文本数据的处理方法,在对海量数据采用多线程进行同时识别,针对模型不大即GPU显存不是限制条件,但数据量极大即速度只依赖流处理器(streaming Processor,SM)簇数目需求量的计算的加速;同时,根据CPU和GPU各自的优势对任务进行了更为细致的划分,只有涉及到密集的数值计算时才在GPU中进行,并且尽可能保证GPU计算资源的高效利用。
此外,相关技术中,构建了一种面向深度学习的CPU与GPU混合的集群架构系统。其CPU集群运行逻辑密集、并行性不高的深度学习应用,GPU集群运行计算密集高度并行的深度学习应用。在实际应用中,该方案通过文本数据的数据量的大小来分配不同类型/数量的计算资源,即基于文本数据的数据量的大小选择中央处理器和图形处理器中的一个,并不是同一个问题本身同时使用CPU和GPU两种计算资源。该集群实现的类似于任务调度的功能。
本发明实施例所提供的文本数据的处理方法,则是将同一任务进行拆分,将上述同一任务中CPU擅长的业务利用CPU处理,将上述同一任务中GPU擅长的业务利用GPU处理;即分别在不同的计算设备上完成相应计算再进行整合;以确保CPU和GPU各自资源的充分及合理地利用。
基于前述内容,本发明的实施例提供一种文本数据的处理方法,该方法应用于CPU,该CPU用于执行电子设备中的存储器中存储的文本数据的处理程序,以实现如图1所示的步骤:
步骤101、获取文本数据。
在本发明实施例中,对文本数据进行处理可以包括对文本数据进行分类;上述文本数据可以包括基因序列或移动客服领域营销活动的工单。
在实际应用中,对基因序列进行分类,能够实现对基因序列的快速标注;对移动客服领域营销活动的工单进行分类,能够实现对工单标注标签,进而快速捕捉客户针对移动客服领域营销活动的意见,如此不仅有利于了解客户诉求,更有助于提升服务质量。本发明实施例所提供的文本数据的处理方法,可以用于对数据量比较大的文本数据进行数值化计算,以提升处理速度。
步骤102、基于中央处理器中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据。
本发明实施例中,当电子设备中的文本数据的处理程序启动时,就有一个进程被操作系统创建,与此同时一个线程也立刻运行,该线程通常叫做程序的主线程。进一步,主线程创建多个CPU线程thread,每个thread分别执行classFun,其中,classFun可以理解为每个CPU都执行的程序。
本发明实施例中,CPU可以通过数学模型,对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据;上述数学模型包括布尔模型和向量空间模型中的任一个;当然,上述数学模型还可以包括其他模型,如概率模型本发明实施例对此不做具体地限定。
在实际应用中,为了便于与主线程进行区分,上述至少两个线程可以称为至少两个子线程。主线程创建子线程的基本步骤可以参考如下伪代码。其中,threadNum为设置好的线程数,调用pthread库的pthread_create方法创建子线程,并指定子线程执行classFun函数内的程序。
Figure BDA0002134652950000071
Figure BDA0002134652950000081
基于上述伪代码,电子设备中的CPU基于主线程创建至少两个线程,进而,CPU基于自身中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据。这里,CPU基于中央处理器中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据的过程中,至少两个线程与至少两个子文本数据之间可以是一一映射的关系,如一个线程处理与文本数据中唯一的子文本数据;当前,至少两个线程与至少两个子文本数据之间也可以是一对多的映射关系,如一个线程处理文本数据中至少一个子文本数据,且每个线程处理的子文本数据不同。也就是说,本发明实施例中,对文本数据进行处理时CPU中的至少两个线程是并行运行的,同时对文本数据中的不同子文本数据进行处理。
步骤103、向图形处理器发送至少两组数值数据。
在本发明实施例中,CPU基于中央处理器中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据后,向GPU发送至少两组数值数据;也就是说,CPU基于多个线程对文本数据中的子文本数据进行处理,一处理完就发给GPU;这相对于相关技术中CPU串行处理文本数据再发给GPU的方式而言,提高了CPU对文本数据的处理效率,同时提高了CPU向GPU发送数值数据的效率,相应的,减少了GPU接收数值数据的等待时间,如此,提高了CPU和GPU二者的处理效率。
步骤104、接收图形处理器发送的对至少两组数值数据进行处理所得到的第一处理结果,并基于第一处理结果,确定文本数据对应的第二处理结果。
在本发明实施例中,CPU向GPU发送至少两组数值数据后,接收GPU发送的对至少两组数值数据进行处理所得到的第一处理结果,并基于第一处理结果,确定文本数据对应的第二处理结果。
在本发明实施例中,待CPU将至少两组数值数据上传到GPU显存中,GPU对至少两组数值数据进行密集计算,如矩阵运算,进而得到第一处理结果。
在实际应用中,第一处理结果的个数可以为一个,当GPU对至少两组数值数据进行处理,得到第一处理结果并发送至CPU后,CPU可以确定接收到的第一处理结果为文本数据对应的第二处理结果。这里,文本数据为移动客服领域营销活动的工单时,第二处理结果为该工单对应的标注标签。
第一处理结果的个数可以为多个,每一处理结果与每一数值数据具有对应关系;进一步地,CPU基于第一处理结果,确定文本数据对应的第二处理结果,可以包括CPU基于第一处理结果,确定要进行迭代运算时,对第一处理结果进行迭代处理,得到文本数据对应的第二处理结果。
由上述内容可知,本发明实施例提供的文本数据的处理方法,对文本数据的分析任务进行分割,逻辑复杂的任务通过CPU并行实现,密集的数值运算放在GPU中实现,并且CPU并行与GPU并行同步进行,以提升处理效率。
也就是说,本发明实施例所提供的文本数据的处理方法,基于分治的思想,将一个任务进行分解,分别在CPU和GPU上进行复杂逻辑运算和计算密集运算,并通过CPU并行来实现复杂逻辑运算的加速同时增加GPU资源的利用率,在此过程中,CPU和GPU始终保持繁忙,减少输入/输出(Input/Output,I/O)等待时间,提升计算效率。该方法可以适用于模型不大,不超过GPU显存,但数据量非常大的应用,尤其是涉及到信息载体是文本的数据,并行读写和数值转换,以及最后的结果整合由CPU来负责,GPU负责密集计算。
本发明实施例所提供的文本数据的处理方法,获取文本数据;基于中央处理器中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据;向图形处理器发送至少两组数值数据;接收图形处理器发送的对至少两组数值数据进行处理所得到的第一处理结果,并基于第一处理结果,确定文本数据对应的第二处理结果;也就是说,本发明实施例提供的方法,对文本数据进行处理时CPU中的至少两个线程是并行运行的,同时对文本数据中的不同子文本数据进行处理;并及时发送至GPU,减少GPU的等待时间,进而得到GPU对至少两组数值数据处理得到的第一处理结果;解决了相关技术中对文本数据进行处理的过程中,处理效率低的问题;实现在对文本数据进行处理的过程中,中央处理器和图形处理器二者始终保持繁忙,减少等待时间,提升中央处理器和图形处理器的处理效率,确保高效运行。
基于前述实施例,本发明的实施例提供一种文本数据的处理方法,该方法应用于CPU,该CPU用于执行电子设备中的存储器中存储的文本数据的处理程序,以实现如图2所示的步骤:
步骤201、获取文本数据。
本发明实施例中,电子设备中的CPU先申请文本数据的存储空间,进而获取文本数据并存储。
步骤202、基于中央处理器中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据。
本发明实施例中,CPU申请存储对至少两个子文本数据进行转换后所需的存储空间,进而,基于中央处理器中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据并存储。
CPU基于自身中的至少两个线程,通过特定模型对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据;这里,特定模型能够挖掘文本数据内部深层的语义信息,进而将至少两个子文本数据进行转换得到至少两组数值数据如至少两组向量。
步骤203、向图形处理器发送与至少两个子文本数据对应的至少两组数值数据。
本发明实施例中,CPU将CPU内存中的至少两组数值数据上传到GPU显存的数值数据存储空间中。
本发明实施例中,GPU可以根据自身的性能参数设定传输阈值。进一步地,CPU向GPU发送至少两组数值数据,可以通过如下步骤实现:CPU根据传输阈值向GPU发送至少两组数值数据。
示例性的,性能参数可以包括带宽,传输阈值可以为1000,即CPU根据GPU对应的传输阈值设置批处理的子文本数据的数量为1000条。那么,CPU向GPU发送至少两组向量的过程中,CPU确定自身转化了1000条子文本数据才会往GPU传,这样在带宽允许的条件下保证GPU每次处理的都是一定规模的矩阵数据。
步骤204、接收图形处理器发送的对至少两组数值数据进行处理所得到的至少两个第一处理结果。
本发明实施例中,CPU申请存储GPU对至少两组数值数据进行处理后所需的存储空间,CPU接收GPU发送的对至少两组数值数据进行处理所得到的至少两个第一处理结果,并存储;并释放GPU显存。
本发明实施例中,第一处理结果为图形处理器将至少两组数值数据输入至第一模型中得到的处理结果。这里,CPU将至少两组数值数据输入至第一模型中,对至少两组数值数据进程密集计算如矩阵运算,得到第一处理结果。
步骤205、对至少两个第一处理结果进行加权处理,得到第二处理结果。
本发明实施例中,步骤205对至少两个第一处理结果进行加权处理,得到第二处理结果,可以通过如下步骤实现:
步骤a1、对至少两个第一处理结果进行加权处理,得到第三处理结果。
本发明实施例中,步骤a1对至少两个第一处理结果进行加权处理,得到第三处理结果之后,可以选择执行步骤b1或步骤c1至步骤c5,以得到第二处理结果。
步骤b1、若第三处理结果与特定结果之间的第一关联关系符合预设关联关系,确定第三处理结果为第二处理结果。
本发明实施例中,CPU对第三处理结果和特定结果进行处理,得到第一关联关系。这里,第一关联关系可以表征第三处理结果与特定结果之间的接近程度,或者相似度。例如,第三处理结果和特定结果均是用向量表征的结果,那么,CPU计算第三处理结果和特定结果之间的相似度;并且,当第三处理结果和特定结果之间的相似度符合预设关联关系如预设相似度时,确定第三处理结果为第二处理结果。
步骤c1、若第一关联关系不符合预设关联关系,将第一关联关系发送至图形处理器,使得图形处理器基于第一关联关系对第一模型的参数进行调整以得到第二模型。
其中,当第三处理结果和特定结果之间的相似度不符合预设关联关系如预设相似度时,CPU确定执行迭代运算,将第一关联关系发送至GPU,使得GPU基于第一关联关系对第一模型的参数进行调整以得到第二模型。这里,GPU基于第一关联关系对第一模型的参数进行调整,可以实现对每一数值数据对应的权重的调整。
步骤c2、接收图形处理器发送的至少两个第四处理结果。
其中,至少两个第四处理结果包括图形处理器将至少两组数值数据输入至第二模型中所得到的处理结果。
本发明实施例中,GPU将至少两组数值数据输入至第二模型中对至少两组数值数据进程密集计算如矩阵运算,以得到与至少两组数值数据对应的至少两个第四处理结果。
步骤c3、对至少两个第四处理结果进行加权处理,得到第五处理结果。
本发明实施例中,步骤c3对至少两个第四处理结果进行加权处理,得到第五处理结果之后,可以选择执行步骤c4或步骤c5至步骤c8,以得到第二处理结果。
步骤c4、若第五处理结果与特定结果之间的第二关联关系符合预设关联关系,确定第五处理结果为第二处理结果。
步骤c5、若第二关联关系不符合预设关联关系,将第二关联关系发送至图形处理器,使得图形处理器基于第二关联关系对第二模型的参数进行调整以得到第三模型。
这里,若第二关联关系不符合预设关联关系,那么,CPU确定继续执行迭代运算,将第二关联关系发送至GPU,使得GPU基于第二关联关系对第二模型的参数进行调整以得到第三模型。
本发明实施例中,CPU向GPU发送至少两组数值数据,使得GPU将至少两组数值数据输入至第三模型中对至少两组数值数据进程密集计算如矩阵运算,以得到与至少两组数值数据对应的至少两个第六处理结果。
步骤c6、接收图形处理器发送的至少两个第六处理结果。
其中,至少两个第六处理结果包括图形处理器将至少两组数值数据输入至第三模型中所得到的处理结果。
步骤c7、对至少两个第六处理结果进行加权处理,得到第七处理结果。
步骤c8、若第七处理结果与特定结果之间的第三关联关系符合预设关联关系,确定第七处理结果为第二处理结果。
这里,若第三关联关系符合预设关联关系,那么,CPU确定执行迭代结束,并确定第七处理结果为第二处理结果。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
基于前述内容,本发明的实施例提供一种文本数据的处理方法,该方法应用于图形处理器,参照图3所示,该方法包括以下步骤:
步骤301、接收中央处理器发送的至少两组数值数据。
其中,至少两组数值数据包括中央处理器基于自身中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到的数值数据。
步骤302、对至少两组数值数据进行处理,得到至少两个第一处理结果。
本发明实施例中,步骤302对至少两组数值数据进行处理,得到第一处理结果,可以通过如下步骤实现:
步骤302a、对至少两组数值数据中的第一部分数值数据进行处理,并获取图像处理器的计算资源的利用率。
这里,GPU获取自身的计算资源的利用率是为了确定利用率是否符合特定阈值,例如此时自身是否处于满载状态,若不是,则接收到CPU发送的数值数据后便进行处理。
步骤302b、若利用率符合特定阈值,设置至少两组数值数据中除第一部分数值数据外的第二部分数值数据的状态为挂起状态。
这里,如果GPU确定利用率符合特定阈值,即自身处于满载状态,则GPU设置至少两组数值数据中除第一部分数值数据外的第二部分数值数据的状态为挂起状态。
步骤302c、若获得第一部分数值数据对应的第一处理结果,对第二部分数值数据进行处理,得到第二部分数值数据对应的第一处理结果。
本发明实施例中,GPU获得第一部分数值数据对应的第一处理结果即等到第一部分数值数据处理完成后,对第二部分数值数据进行处理,得到第二部分数值数据对应的第一处理结果。
步骤303、向中央处理器发送至少两个第一处理结果,使得中央处理器基于至少两个第一处理结果,确定文本数据对应的第二处理结果。
由上述可知,本发明实施例中尽可能保证GPU满载,一旦满载,GPU内部的任务调度器可以把后到的任务挂起,当有空余的核心时将挂起的内核程序分配到GPU硬件上。因此当任务之间存在足够的并行度时,运算速度会随着处理器集群数量的增加而加快;所以CPU端只要保证提供足够的任务并行度即可实现高效计算。
本发明实施例所提供的文本数据的处理方法,接收中央处理器发送的至少两组数值数据;其中,至少两组数值数据包括中央处理器基于自身中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到的数值数据;对至少两组数值数据进行处理,得到至少两个第一处理结果;向中央处理器发送至少两个第一处理结果,使得中央处理器基于至少两个第一处理结果,确定文本数据对应的第二处理结果;也就是说,GPU可以实时获取CPU发送的至少两组数值数据,并在满载状态下对至少两组数值数据进行密集运算;解决了相关技术中对文本数据进行处理的过程中,处理效率低的问题,实现在对文本数据进行处理的过程中,中央处理器和图形处理器二者始终保持繁忙,减少等待时间,提升中央处理器和图形处理器的处理效率,确保高效运行。
基于前述实施例,本发明的实施例提供一种文本数据的处理方法,参照图4所示,该方法包括以下步骤:
步骤401、接收中央处理器发送的至少两组数值数据。
其中,至少两组数值数据包括中央处理器基于自身中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到的数值数据。
步骤402、将至少两组数值数据输入至第一模型中,得到至少两个第一处理结果。
步骤403、向中央处理器发送至少两个第一处理结果。
这里,GPU向CPU发送至少两个第一处理结果,使得CPU基于至少两个第一处理结果,确定文本数据对应的第二处理结果。
步骤404、接收中央处理器发送的第一关联关系。
这里,第一关联关系用于对第一模型中的参数进行调整以得到第二模型。进一步地,对第一模型中的参数进行调整,可以实现对每一数值数据对应的权重的调整。
步骤405、基于第一关联关系对第一模型的参数进行调整以得到第二模型。
这里,GPU对第一模型的参数进行调整得到第二模型后,将至少两组数据之间输入第二模型中,对至少两组数值数据进行迭代运算,以提高文本数据的处理结果的精确度。
步骤406、将至少两组数值数据输入至第二模型中,得到与至少两组数值数据对应的至少两个第四处理结果。
这里,以对文本数据进行分类为例,第四处理结果相对于第一处理结果而言,更接近于文本数据的真实分类结果。
步骤407、向中央处理器发送至少两个第四处理结果,使得中央处理器基于至少两个第四处理结果,确定文本数据对应的第二处理结果。
基于前述实施例,对本发明的实施例所提供一种文本数据的处理方法作进一步的说明,参照图5所示,该方法包括以下步骤:
步骤一、CPU接收原始文本数据,创建CPU多线程。
这里,主线程创建多个CPU线程,每个线程分别执行classFun。示例性的,主线程创建3个CPU线程,分别为线程1、线程2和线程3。
classFun是每个CPU线程都执行的程序。以下为主线程创建子线程的基本步骤。threadNum为设置好的线程数,调用pthread库的pthread_create方法创建线程,并指定子线程执行classFun函数内的程序。
步骤二、每个CPU线程分别执行文本数据的转换以及与GPU的数据交换。
这里,多个CPU线程分别将分块的文本数据转换成数值数据如数值向量,并将CPU内存中的数值向量数据上传到GPU显存当中。
这里,每个线程都执行文本数据转换成数值向量的过程,比如文档建模的常用方法,布尔模型、向量空间模型和概率模型。
步骤三、CPU在GPU完成计算之后接收GPU传回的处理结果。
需要说明的是,在对文本数据进行处理的过程中,首先在CPU中申请文本数据的存储空间以及数值数据的存储空间和接收结果数据的存储空间,在GPU中申请数值数据的存储空间。将文本数据通过数学模型转化成数值数据,再将CPU内存中的数值数据上传到GPU显存的数值数据存储空间当中。接着,在GPU中对数值数据进行密集计算,并将结果传回CPU内存,并释放GPU显存。计算过程保持GPU满载。未能获取GPU计算资源的数据在调度系统中等待计算。
实际应用中,可以通过如下伪代码实现存储空间的申请:
void*classFun(void*arg){
//1.在CPU中申请文本数据存储空间
char*line;
line=(char*)malloc(x*sizeof(char));
//2.在CPU中申请数值数据存储空间
float*numLine=(float*)malloc(sizeof(float)*y);
float*resultData=(float*)malloc(sizeof(float)*z);
//3.读入文本数据并转化成数值数据
cpu_compute_fun(line,numline,…);
//4.在GPU显存中申请数值数据存储空间
cublasAlloc(y,sizeof(float),(void**)&data_num);
cublasSetVector(y,sizeof(float),numLine,1,data_num,1);
cublasAlloc(z,sizeof(float),(void**)&data_resultData);
实际应用中,可以通过如下伪代码实现将处理结果传回CPU内存:
//5.GPU中进行数值密集计算并将处理结果传回CPU内存
gpu_compute_fun(data_num,data_model,data_resultData,resultData,…);
本发明实施例中,示例性的,CPU接收到GPU传回的3个处理结果,分别为结果1、结果2和结果3。
实际应用中,可以通过如下伪代码实现内存空间和显存空间的释放:
//6.释放内存空间和显存空间
free(…);
cudafree(…);
}
步骤四、CPU基于GPU传回的处理结果,确定是否进行迭代运算。
这里,若确定进行迭代运算,则CPU再次将多组数值数据发送至GPU,使得GPU基于更新参数后的模型对多组数值数据进行处理,得到新的处理结果;并再次传回CPU,由CPU确定迭代运算是否结束;直至得到文本数据的精确的处理结果。
本发明实施例中,通过任务分割以及CPU并行与GPU并行结合的方式可以实现计算的加速,充分发挥CPU和GPU的优势对其擅长部分进行运算,同步进行减少等待时间,减少GPU非满载情况,高效利用计算资源,实现文本数据相关建模以及数据挖掘工作的加速;并且此种方法随着GPU处理器的数量增加而进一步提高效率。
本发明实施例所提供的文本数据的处理方法中,文本数据的建模涉及到文本的遍历,计数,该过程从算法层面可通过分治的思想增加并行度,从而降低时间复杂度,从O(n)降到O(logn),该算法逻辑可通过CPU并行来实现,增加建模速度。模型建好之后,要对大量数据进行比对,对于彼此独立的数据的分析更加适合采用CPU并行,将文本数据通过建模方法,如概率模型,转化成数值数据,将转化之后的数值数据和之前通过训练建好的数学模型在GPU中进行比较计算,通常是矩阵加减乘除的密集运算;该方法适用于模型不大的分类问题,实现高效运行。使得在计算资源有限时也能实现较高的资源利用以及尽可能多的加速。
基于前述实施例,本发明的实施例提供一种CPU,该CPU可以应用于图1-2对应的实施例提供的一种文本数据的处理方法中,该CPU包括:
第一获取模块,用于获取文本数据;
转换模块,用于基于中央处理器中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据;
第一发送模块,用于向图形处理器发送至少两组数值数据;
第一处理模块,用于接收图形处理器发送的对至少两组数值数据进行处理所得到的第一处理结果,并基于第一处理结果,确定文本数据对应的第二处理结果。
可选的,第一处理结果包括与至少两组数值数据对应的至少两个第一处理结果;第一处理模块,还用于对至少两个第一处理结果进行加权处理,得到第二处理结果。
可选的,第一处理模块,还用于对至少两个第一处理结果进行加权处理,得到第三处理结果;
若第三处理结果与特定结果之间的第一关联关系符合预设关联关系,确定第三处理结果为第二处理结果。
可选的,第一处理结果为图形处理器将至少两组数值数据输入至第一模型中得到的处理结果;
第一处理模块,还用于若第一关联关系不符合预设关联关系,将第一关联关系发送至图形处理器,使得图形处理器基于第一关联关系对第一模型的参数进行调整以得到第二模型;
接收图形处理器发送的至少两个第四处理结果;其中,至少两个第四处理结果包括图形处理器将至少两组数值数据输入至第二模型中所得到的处理结果。
对至少两个第四处理结果进行加权处理,得到第五处理结果;
若第五处理结果与特定结果之间的第二关联关系符合预设关联关系,确定第五处理结果为第二处理结果。
可选的,第一处理模块,还用于若第二关联关系不符合预设关联关系,将第二关联关系发送至图形处理器,使得图形处理器基于第二关联关系对第二模型的参数进行调整以得到第三模型;
接收图形处理器发送的至少两个第六处理结果;其中,至少两个第六处理结果包括图形处理器将至少两组数值数据输入至第三模型中所得到的处理结果。
对至少两个第六处理结果进行加权处理,得到第七处理结果;
若第七处理结果与特定结果之间的第三关联关系符合预设关联关系,确定第七处理结果为第二处理结果。
需要说明的是,本实施例中CPU所执行的步骤的具体实现过程,可以参照图1-2对应的实施例提供的文本数据的处理方法中的实现过程,此处不再赘述。
基于前述实施例,本发明的实施例提供一种GPU,该GPU可以应用于图3-4对应的实施例提供的一种文本数据的处理方法中,该GPU包括:
第一接收模块,用于接收中央处理器发送的至少两组数值数据;其中,至少两组数值数据包括中央处理器基于自身中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到的数值数据;
第二处理模块,用于对至少两组数值数据进行处理,得到第一处理结果;
第二发送模块,用于向中央处理器发送第一处理结果,使得中央处理器基于第一处理结果,确定文本数据对应的第二处理结果。
可选的,第二处理模块,还用于对至少两组数值数据中的第一部分数值数据进行处理,并获取图形处理器的计算资源的利用率;
若利用率符合特定阈值,设置至少两组数值数据中除第一部分数值数据外的第二部分数值数据的状态为挂起状态;
若获得第一部分数值数据对应的第一处理结果,对第二部分数值数据进行处理,得到第二部分数值数据对应的第一处理结果。
可选的,第二处理模块,还用于将至少两组数值数据输入至第一模型中,得到与至少两组数值数据对应的至少两个第一处理结果。
可选的,GPU还包括:
第二接收模块,用于接收中央处理器发送的第一关联关系;
调整模块,用于基于第一关联关系对第一模型的参数进行调整以得到第二模型;
第二处理模块,还用于将至少两组数值数据输入至第二模型中,得到与至少两组数值数据对应的至少两个第四处理结果;
第三发送模块,用于向中央处理器发送至少两个第四处理结果,使得中央处理器基于至少两个第四处理结果,确定文本数据对应的第二处理结果。
需要说明的是,本实施例中GPU所执行的步骤的具体实现过程,可以参照图3-4对应的实施例提供的文本数据的处理方法中的实现过程,此处不再赘述。
基于前述实施例,本发明的实施例提供一种电子设备,该电子设备可以应用于图1-2和3-4对应的实施例提供的一种文本数据的处理方法中,参照图6示,该电子设备5包括:中央处理器51、存储器52、通信总线53和图形处理器54,其中:
通信总线53用于实现中央处理器51、图形处理器54和存储器52之间的通信连接;
中央处理器51用于执行存储器52中存储的文本数据的处理程序,以实现如图1-2对应的实施例提供的文本数据的处理方法的步骤。
图形处理器54用于执行存储器52中存储的文本数据的处理程序,以实现如图3-4对应的实施例提供的文本数据的处理方法的步骤。
需要说明的是,本实施例中处理器所执行的步骤的具体实现过程,可以参照图1-2和3-4对应的实施例提供的文本数据的处理方法中的实现过程,此处不再赘述。
需要说明的是,上述计算机可读存储介质可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种电子设备,如移动电话、计算机、平板设备、个人数字助理等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所描述的方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (3)

1.一种文本数据的处理方法,其特征在于,所述方法应用于中央处理器,所述方法包括:
获取文本数据;
基于中央处理器中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到至少两组数值数据;
向图形处理器发送所述至少两组数值数据;
接收所述图形处理器发送的对所述至少两组数值数据进行处理所得到的第一处理结果,所述第一处理结果包括与所述至少两组数值数据对应的至少两个第一处理结果;
对所述至少两个第一处理结果进行加权处理,得到第三处理结果;
若所述第三处理结果与特定结果之间的第一关联关系符合预设关联关系,确定所述第三处理结果为所述文本数据的第二处理结果;
所述第一处理结果为所述图形处理器将所述至少两组数值数据输入至第一模型中得到的处理结果,若所述第一关联关系不符合所述预设关联关系,将所述第一关联关系发送至所述图形处理器,使得所述图形处理器基于所述第一关联关系对所述第一模型的参数进行调整以得到第二模型;接收所述图形处理器发送的至少两个第四处理结果;其中,所述至少两个第四处理结果包括所述图形处理器将所述至少两组数值数据输入至所述第二模型中所得到的处理结果;对所述至少两个第四处理结果进行加权处理,得到第五处理结果;若所述第五处理结果与所述特定结果之间的第二关联关系符合所述预设关联关系,确定所述第五处理结果为所述第二处理结果;
若所述第二关联关系不符合所述预设关联关系,将所述第二关联关系发送至所述图形处理器,使得所述图形处理器基于所述第二关联关系对所述第二模型的参数进行调整以得到第三模型;接收所述图形处理器发送的至少两个第六处理结果;其中,所述至少两个第六处理结果包括所述图形处理器将所述至少两组数值数据输入至所述第三模型中所得到的处理结果;对所述至少两个第六处理结果进行加权处理,得到第七处理结果;若所述第七处理结果与所述特定结果之间的第三关联关系符合所述预设关联关系,确定所述第七处理结果为所述第二处理结果。
2.一种文本数据的处理方法,其特征在于,所述方法应用于图形处理器,所述方法包括:
接收中央处理器发送的至少两组数值数据;其中,所述至少两组数值数据包括所述中央处理器基于自身中的至少两个线程,对文本数据中的至少两个子文本数据进行转换得到的数值数据;
在对所述至少两组数值数据进行处理,得到第一处理结果的情况下,向所述中央处理器发送所述第一处理结果,使得所述中央处理器基于所述第一处理结果,确定所述文本数据对应的第二处理结果;
在将所述至少两组数值数据输入至第一模型中,得到与所述至少两组数值数据对应的至少两个第一处理结果的情况下,向所述中央处理器发送所述至少两个第一处理结果,使得所述中央处理器基于所述至少两个第一处理结果,确定所述文本数据对应的第二处理结果;
其中,所述对所述至少两组数值数据进行处理,得到第一处理结果,包括:对所述至少两组数值数据中的第一部分数值数据进行处理,并获取所述图形处理器的计算资源的利用率;若所述利用率符合特定阈值,设置所述至少两组数值数据中除所述第一部分数值数据外的第二部分数值数据的状态为挂起状态;若获得所述第一部分数值数据对应的第一处理结果,对所述第二部分数值数据进行处理,得到所述第二部分数值数据对应的第一处理结果;
所述向所述中央处理器发送所述至少两个第一处理结果,使得所述中央处理器基于所述至少两个第一处理结果,确定所述文本数据对应的第二处理结果,包括:
向所述中央处理器发送所述至少两个第一处理结果;接收所述中央处理器发送的第一关联关系;基于所述第一关联关系对所述第一模型的参数进行调整以得到第二模型;将所述至少两组数值数据输入至所述第二模型中,得到与所述至少两组数值数据对应的至少两个第四处理结果;向所述中央处理器发送所述至少两个第四处理结果,使得所述中央处理器基于所述至少两个第四处理结果,确定所述文本数据对应的第二处理结果。
3.一种电子设备,其特征在于,所述电子设备包括中央处理器、图形处理器、存储器和通信总线;
所述通信总线用于实现中央处理器、图形处理器和存储器之间的通信连接;
所述中央处理器用于执行存储器中存储的文本数据的处理程序,以实现如权利要求1所述的文本数据的处理方法的步骤;
所述图形处理器用于执行存储器中存储的文本数据的处理程序,以实现如权利要求2所述的文本数据的处理方法的步骤。
CN201910649391.2A 2019-07-18 2019-07-18 一种文本数据的处理方法和电子设备 Active CN112241289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910649391.2A CN112241289B (zh) 2019-07-18 2019-07-18 一种文本数据的处理方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910649391.2A CN112241289B (zh) 2019-07-18 2019-07-18 一种文本数据的处理方法和电子设备

Publications (2)

Publication Number Publication Date
CN112241289A CN112241289A (zh) 2021-01-19
CN112241289B true CN112241289B (zh) 2022-12-13

Family

ID=74167892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910649391.2A Active CN112241289B (zh) 2019-07-18 2019-07-18 一种文本数据的处理方法和电子设备

Country Status (1)

Country Link
CN (1) CN112241289B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113448706A (zh) * 2021-06-29 2021-09-28 中国工商银行股份有限公司 批量任务处理方法、装置及系统
CN116628168B (zh) * 2023-06-12 2023-11-14 深圳市逗娱科技有限公司 基于大数据的用户个性分析处理方法、系统及云平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147722A (zh) * 2011-04-08 2011-08-10 深圳中微电科技有限公司 实现中央处理器和图形处理器功能的多线程处理器及方法
CN104881320A (zh) * 2015-05-22 2015-09-02 北京京东尚科信息技术有限公司 一种可伸缩的生成文本的方法
CN109783232A (zh) * 2018-12-21 2019-05-21 王家万 视频数据处理方法、装置及存储介质
CN109933429A (zh) * 2019-03-05 2019-06-25 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147722A (zh) * 2011-04-08 2011-08-10 深圳中微电科技有限公司 实现中央处理器和图形处理器功能的多线程处理器及方法
CN104881320A (zh) * 2015-05-22 2015-09-02 北京京东尚科信息技术有限公司 一种可伸缩的生成文本的方法
CN109783232A (zh) * 2018-12-21 2019-05-21 王家万 视频数据处理方法、装置及存储介质
CN109933429A (zh) * 2019-03-05 2019-06-25 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112241289A (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
Wu et al. Machine learning at facebook: Understanding inference at the edge
US20190065954A1 (en) Memory bandwidth management for deep learning applications
CN110147251B (zh) 用于计算神经网络模型的系统、芯片及计算方法
Yadwadkar et al. Multi-task learning for straggler avoiding predictive job scheduling
US11436019B2 (en) Data parallelism in distributed training of artificial intelligence models
US11740941B2 (en) Method of accelerating execution of machine learning based application tasks in a computing device
US11520592B2 (en) Executing large artificial intelligence models on memory-constrained devices
US11354579B2 (en) Dynamic multi-layer execution for artificial intelligence modeling
CN112035238A (zh) 任务调度处理方法、装置、集群系统及可读存储介质
Dong et al. Characterizing the microarchitectural implications of a convolutional neural network (cnn) execution on gpus
CN112241289B (zh) 一种文本数据的处理方法和电子设备
CN111488177A (zh) 数据处理方法、装置、计算机设备和存储介质
CN114450699A (zh) 由处理单元实现的方法、可读存储介质和处理单元
CN109542596B (zh) 一种基于OpenCL内核任务的调度方法
US11443173B2 (en) Hardware-software co-design for accelerating deep learning inference
US9965318B2 (en) Concurrent principal component analysis computation
US11562554B1 (en) Workload reduction for non-maximum suppression operation
US11221979B1 (en) Synchronization of DMA transfers for large number of queues
Peng et al. Adaptive runtime exploiting sparsity in tensor of deep learning neural network on heterogeneous systems
CN106778812B (zh) 聚类实现方法和装置
CN112395055A (zh) 用于实现对预定义工作负载的动态处理的方法和装置
US20220343146A1 (en) Method and system for temporal graph neural network acceleration
US20240054384A1 (en) Operation-based partitioning of a parallelizable machine learning model network on accelerator hardware
Le et al. An OpenCL-based SIFT accelerator for image features extraction on FPGA in mobile edge computing environment
CN116762084A (zh) 用于神经处理器电路的分支操作

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant