CN111324732B - 模型训练方法、文本处理方法、装置及电子设备 - Google Patents
模型训练方法、文本处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111324732B CN111324732B CN202010068919.XA CN202010068919A CN111324732B CN 111324732 B CN111324732 B CN 111324732B CN 202010068919 A CN202010068919 A CN 202010068919A CN 111324732 B CN111324732 B CN 111324732B
- Authority
- CN
- China
- Prior art keywords
- training
- target
- text
- task
- vectorization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 297
- 238000000034 method Methods 0.000 title claims abstract description 279
- 238000012545 processing Methods 0.000 title claims abstract description 181
- 239000013598 vector Substances 0.000 claims abstract description 127
- 230000000875 corresponding effect Effects 0.000 claims description 40
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000013145 classification model Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 10
- 238000003672 processing method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 3
- AZFKQCNGMSSWDS-UHFFFAOYSA-N MCPA-thioethyl Chemical compound CCSC(=O)COC1=CC=C(Cl)C=C1C AZFKQCNGMSSWDS-UHFFFAOYSA-N 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种模型训练方法、文本处理方法、装置及电子设备。模型训练方法包括:当接收到训练请求时,获取训练文本集;基于训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法;基于目标向量化方法对训练文本集进行向量化处理得到训练向量集;基于训练向量集对训练请求中携带的任务标识信息对应的目标模型进行训练。本申请提供的模型训练方法,实现了在训练过程中自动选择向量化方法以及任务处理模型,能够应对多种处理任务以及多种应用场景下任务处理模型的训练过程,为支持多种处理任务以及多种应用场景的文本处理提供了基础。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,本申请涉及一种模型训练方法、文本处理方法、装置及电子设备。
背景技术
目前,自然语言处理平台主要提供以下三种实现方式:
第一种是将各种算法分别封装为子模块提供给算法工程师,算法工程师在使用时可以根据实际需要对算法子模块进行排布,这种方式在实现过程中需要人工进行个性化开发,对用户的要求较高,并且无法实现端对端交付。
第二种是针对某种文本处理任务处理过程中的算法进行封装,形成端对端交付,如Facebook的fasttext,但是这种方式只能针对单一的文本处理任务,无法应对多种处理任务并存的情况。
第三种是针对某种应用场景所使用的算法进行封装,但是这种方式支持单一的应用场景,无法应对多种应用场景并存的情况。
现有的自然语言处理平台所提供的文本处理方式无法应对多种处理任务并存以及多种应用场景并存的情况,无法满足实际的使用需求,亟需一种支持多种处理任务以及多种应用场景的文本处理处理方式。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下:
第一方面,本申请实施例提供了一种模型训练方法,该方法包括:
当接收到训练请求时,获取训练文本集;
基于所述训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法;
基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集;
基于所述训练向量集对所述训练请求中携带的任务标识信息对应的目标模型进行训练。
第二方面,本申请实施例提供了一种文本处理方法,该方法包括:
当接收到文本处理请求时,获取待处理文本;
基于所述文本处理请求携带的任务ID,以及预设的关联关系,确定所述待处理文本的目标向量化方法以及任务处理模型,所述关联关系为任务ID与目标向量化方法以及任务处理模型的关联关系;
基于所述目标向量化方法对所述待处理文本进行向量化处理得到待处理向量;
基于所述任务处理模型对所述待处理向量进行处理,所述任务处理模型基于本申请的第一方面提供的模型训练方法得到。
第三方面,本申请实施例提供了一种模型训练装置,该模型训练装置包括:
训练文本集获取模块,用于在接收到训练请求时,获取训练文本集;
目标向量化方法确定模块,用于基于所述训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法;
训练向量集确定模块,用于基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集;
模型训练模块,用于基于所述训练向量集对所述训练请求中携带的任务标识信息对应的目标模型进行训练。
第三方面,本申请实施例提供了一种文本处理装置,该文本处理装置包括:
待处理文本获取模块,用于在接收到文本处理请求时,获取待处理文本;
关联关系模块,用于基于所述文本处理请求携带的任务标识ID,以及预设的关联关系,确定所述待处理文本的目标向量化方法以及任务处理模型,所述关联关系为任务ID与目标向量化方法以及任务处理模型的关联关系;
待处理向量确定模块,用于基于所述目标向量化方法对所述待处理文本进行向量化处理得到待处理向量;
处理模块,用于基于所述任务处理模型对所述待处理向量进行处理,所述任务处理模型基于本申请的第一方面提供的模型训练方法得到。
第五方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行如本申请的第一方面所示的模型训练方法或第二方面所示的文本处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请的第一方面所示的模型训练方法或第二方面所示的文本处理方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例提供的模型训练方法,在接收到训练请求时,基于训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法,基于目标向量化方法对训练文本集进行向量化处理得到训练向量集,基于训练向量集对训练请求中携带的任务标识信息对应的目标模型进行训练。基于本方案,通过训练请求中是否携带有向量化方法的指定信息确定目标向量化方法,通过任务标识信息确定目标模型,基于目标向量化方法处理得到的训练向量集对目标模型,实现了在训练过程中自动选择向量化方法以及任务处理模型,能够应对多种处理任务以及多种应用场景下任务处理模型的训练过程,为支持多种处理任务以及多种应用场景的文本处理提供了基础。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种模型训练方法的流程示意图;
图2为本申请实施例提供的一种文本处理方法的流程示意图;
图3为本申请实施例提供的一种模型训练装置的结构示意图;
图4为本申请实施例提供的一种文本处理装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请实施例提供的一种模型训练方法的流程示意图,如图1所示,该方法主要可以包括:
步骤S110:当接收到训练请求时,获取训练文本集。
本申请实施例中,可以在执行接入方的文本处理任务之前,接收接入方发出的训练请求,并对模型进行训练。
本申请实施例中,训练文本集可以基于训练文档得到,具体而言,训练请求中可以包括训练文档的存储路径,训练文档的文档格式可以包括但是不限于pdf、excel以及doc。
针对于不同文档格式的训练文档,可以采用相应的解析方法对训练文档进行解析,得到训练样本数据,训练样本数据可以为文本流。实际使用中,在确定出训练样本数据后,可以基于训练样本中文本数据的字节数量判定训练样本数据为短文本或者长文本。如果训练样本数据为短文本,可以对训练样本数进行分词以及词性标注,得到训练文本集。如果训练样本数据为长文本,例如为doc或者pdf格式的文章,文章中可能会含有段落、章节等信息,在对训练样本数进行分词以及词性标注的同时,还可以对长文本进行切分,提取出文章中的段落信息、标题信息以及章节信息等,从而得到训练文本集。
在实际使用中,训练文本集中的文本可以包括但是不限于合同文本,审计文本,反欺诈文本,客诉文本等,其中,合同文本与审计文本一般为长文本,反欺诈文本与客诉文本一般为短文本。
步骤S120:基于训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法;
步骤S130:基于目标向量化方法对训练文本集进行向量化处理得到训练向量集。
实际使用中,存在多种将训练文本集转化为训练向量集的向量化方法。本申请实施例中,接入方用户可以根据自身需要对向量化方法进行指定。具体而言,训练请求中可以携带有向量化方法的指定信息。
本申请实施例中,可以基于训练请求中是否携带有向量化方法的指定信息,来确定目标向量化方法,并基于目标向量化方法对训练文本集进行向量化处理。
步骤S140:基于训练向量集对训练请求中携带的任务标识信息对应的目标模型进行训练。
本申请实施例中,训练请求中可以携带有任务标识信息,任务标识信息用于标识具体的文本处理任务类型。由于各种类型的文本处理任务分别对应有任务处理模型,可以将与任务标识信息对应的任务处理模型确定目标模型,并基于训练向量集对目标模型进行训练。
本申请实施例提供的模型训练方法,在接收到训练请求时,基于训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法,基于目标向量化方法对训练文本集进行向量化处理得到训练向量集,基于训练向量集对训练请求中携带的任务标识信息对应的目标模型进行训练。基于本方案,通过训练请求中是否携带有向量化方法的指定信息确定目标向量化方法,通过任务标识信息确定目标模型,基于目标向量化方法处理得到的训练向量集对目标模型,实现了在训练过程中自动选择向量化方法以及任务处理模型,能够应对多种处理任务以及多种应用场景下任务处理模型的训练过程,为支持多种处理任务以及多种应用场景的文本处理提供了基础。
本申请实施例的一种可选方式中,上述模型训练方法还包括:
基于目标向量化方法以及训练完成的目标模型确定业务ID,将业务ID与训练完成的目标模型关联存储。
本申请实施例中,在完成对目标模型的训练后,可以生成业务ID,业务ID与目标向量化方法以及训练完成的目标模型存在关联关系。本申请实施例中,可以将业务ID发送给接入方,使得接入方能够基于业务ID发起文本处理请求,有助于在后续进行文本处理时,能够快速确定出所使用的目标向量化方法以及任务处理模型,实现了对多种处理任务以及多种应用场景下文本处理的支持。
本申请实施例的一种可选方式中,基于训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法,包括:
若训练请求中携带有向量化方法的指定信息,则基于指定信息对应的向量化方法确定为目标向量化方法;
若训练请求中未携带有向量化方法的指定信息,则基于预设规则确定目标向量化方法。
本申请实施例中,如果接入方用户在训练请求的字段中设定了向量化方法的指定信息,则可以将指定信息对应的向量化方法确定为目标向量化方法。
如果接入方用户没有在训练请求的字段中设定向量化方法的指定信息,则可以基于预设规则来确定目标向量化方法。
本申请实施例的一种可选方式中,任务标识信息包括以下至少一项:
文本分类任务的标识信息;
文本关键词提取任务的标识信息;
文本相似性判定任务的标识信息。
本申请实施例中,任务标识信息可以用于对文本处理任务的标识,具体而言,可以包括但是不限于以下三种文本处理任务进行标识:文本分类任务、文本关键词提取任务以及文本相似性判定任务。
本申请实施例的一种可选方式中,若任务标识信息包括文本关键词提取任务的标识信息,基于预设规则确定目标向量化方法,包括:
将词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法确定为目标向量化方法。
本申请实施例中,在对文本关键词进行提取时一般会采用TF-IDF算法来生成向量,因此,在待处理的任务为文本关键词提取任务时,可以将TF-IDF算法确定为目标向量化方法。
本申请实施例的一种可选方式中,若任务标识信息包括文本相似性判定任务的标识信息,基于预设规则确定目标向量化方法,包括:
基于训练文本集的数据量,以及预设的数据量与向量化方法第一对应关系,确定目标向量化方法。
本申请实施例,在待处理的任务为文本相似性判定任务时,可以基于训练文本集的数据量来确定目标向量化方法。
具体而言,可以设定数据量阈值,当训练文本集的数据量大于数据量阈值时,认为数据量较大,这时可以引入gensim向量包对待处理文本集进行向量化处理;当训练文本集的数据量不大于数据量阈值时,认为数据量较小,这时可以引入预训练pre-trained模型,如汉语言处理(HanLanguage Processing,HanLP)工具包对待处理文本集进行向量化处理。
在实际使用中,可以认为数据量在万级时,训练文本集为大数据量的数据。
本申请实施例的一种可选方式中,若任务标识信息包括文本分类任务的标识信息,基于预设规则确定目标向量化方法,包括:
确定训练文本集中的文本是否属于商户名称;
若属于,则将商户名称向量化方法确定为目标向量化方法;
若不属于,则基于训练文本集的数据量,以及预设的数据量与向量化方法第二对应关系,确定目标向量化方法。
本申请实施例中,商户可以为在银行系统中有交易记录的用户,商户名称的语义信息可能自带金融属性,为了更好的表达金融属性可以判断训练文本集中的文本是否属于商户名称,若属于,则基于商户名称向量化方法对商户名称进行向量化处理。
本申请实施例中,在确定训练文本集中的文本不属于商户名称时,可以基于训练文本集的数据量来确定目标向量化方法。在实际使用中,第一对应关系可以与第二对应关系相同。
在基于商户名称向量化方法对训练文本集进行向量化处理得到训练向量集时,具体可以采用如下方式:
确定训练文本集的第一相似度矩阵;
对相似度矩阵进行聚类,确定中心向量;
确定训练文本集与中心向量的第二相似度矩阵,并从第二相似度矩阵中确定训练向量集。
本申请实施例中,可以基于pretrain模型,对于训练文本集中的商户名称进行处理,获得训练文本集对应的第一相似度矩阵,如训练文本集中包括n个训练样本,则可以得到n×n的第一相似度矩阵。基于聚类算法对第一相似度矩阵进行聚类处理,得到聚类结果,聚类结果中可以包括聚类得到的多个类。可以通过最优搜索算法在聚类结果中确定出各类的中心向量。基于训练文本集与中心向量,可以确定出第二相似度矩阵,并将第二相似度矩阵中的向量确定为训练向量集合。如果中心向量的数量为w,那么确定出的训练向量集合中包括n个向量维度为w维的向量。
通过上述商户名称向量化方法对商户名称进行向量化处理,确定出的训练向量集能够更好的表达商户名称中带有的金融属性,能够有效提高训练出的任务处理模型的处理效果。
本申请实施例的一种可选方式中,若训练向量集中的词均衡度不满足指定条件,基于训练向量集对训练请求中携带的任务标识信息对应的目标模型进行训练,包括:
对训练向量集进行抽样得到抽样向量集;
基于抽样向量集训练请求中携带的任务标识信息对应的目标模型进行训练。
本申请实施例,可以存在训练向量集中文本分布不均衡的情况,如果直接基于训练向量集对目标模型进行训练,可能会影响训练效果。
本申请实施例中,可以对训练向量集中文本的均衡度进行判断,当判断出训练向量集中文本的词均衡度不满足指定条件时,可以认为其分布不均衡,这时可以从训练向量集中进行抽样,得到抽样向量集,得到的抽样向量集的词均衡度较高,基于抽样向量集对目标模型进行训练,能够避免因文本分布不均衡影响对模型的训练。
本申请实施例的一种可选方式中,基于训练向量集对训练请求中携带的任务标识信息对应的目标模型进行训练,包括:
基于训练向量集的数据特征,在目标模型中确定目标分类模型;
基于训练向量集对目标分类模型进行训练。
本申请实施例中,可以确定训练向量集的数据特征,基于数据特征确定目标分类模型。
具体而言,若确定出训练向量集具有零一分布的数据特征,可以选择零一分类模型作为目标分类模型。若确定出训练向量集中具有多分类变量,可以选择多分类模型作为目标分类模型。
图2示出了本申请实施例提供的一种文本处理方法的流程示意图,如图2所示,该方法主要可以包括:
步骤S210:当接收到文本处理请求时,获取待处理文本。
步骤S220:基于文本处理请求携带的任务标识ID,以及预设的关联关系,确定待处理文本的目标向量化方法以及任务处理模型,关联关系为任务标识与目标向量化方法以及任务处理模型的关联关系。
本申请实施例中,任务处理模型是基于上述的模型训练方法进行训练得到的。
本申请实施例中,在接入方用户发出文本处理请求时,可以获取述文本处理请求携带中携带的任务ID,任务ID可以是基于上述模型训练方法中的业务ID生成的。任务ID对应有业务ID,也与目标向量化方法以及任务处理模型存在关联关系。
本申请实施例中,可以将任务ID与目标向量化方法以及任务处理模型关联存储,在获取到任务ID时,确定对应的业务ID,并相应确定目标向量化方法以及任务处理模型。
步骤S230:基于目标向量化方法对待处理文本进行向量化处理得到待处理向量;
步骤S240:基于任务处理模型对待处理向量进行处理。
本申请实施例中,由于在模型训练时,已对接入方的训练文本集确定了目标向量化方法,并在对目标模型训练完成后得到了任务处理模型,因此可以通过在发出文本处理请求时设定任务ID的方式,来获取目标向量化方法以及任务处理模型,从而实现了基于目标向量化方法对待处理文本进行向量化处理得到待处理向量,并基于任务处理模型对待处理向量进行处理。
在对多种处理任务以及多种应用场景的文本数据进行处理时,需要针对处理任务或者应用场景选择向量化方法以及处理模型,本申请实施例中提供的方法,能够自动确定出目标向量化方法以及任务处理模型,实现对多种处理任务以及多种应用场景的文本数据的处理。
在实际使用中,可以将所有处理任务或者所有应用场景的多种向量化方法以及多种任务处理模型一次性加载,并存储至缓存中,便于在进行文本处理时直接调用。
本申请实施例提供的文本处理方法,在接收到文本处理请求时,基于文本处理请求携带的任务ID,确定目标向量化方法以及任务处理模型,基于目标向量化方法对待处理文本进行向量化处理得到待处理向量,基于任务处理模型对待处理向量进行处理。本方案中,通过训练请求中携带的任务ID,自动确定目标向量化方法以及任务处理模型,从而实现对文本的处理,能够支持多种处理任务以及多种应用场景下的文本处理,方便了用户的使用。
基于与图1中所示的方法相同的原理,图3示出了本申请实施例提供的一种模型训练装置的结构示意图,如图3所示,该模型训练装置30可以包括:
训练文本集获取模块310,用于在接收到训练请求时,获取训练文本集;
目标向量化方法确定模块320,用于基于训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法;
训练向量集确定模块330,用于基于目标向量化方法对训练文本集进行向量化处理得到训练向量集;
模型训练模块340,用于基于训练向量集对训练请求中携带的任务标识信息对应的目标模型进行训练。
本申请实施例提供的模型训练装置,在接收到训练请求时,基于训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法,基于目标向量化方法对训练文本集进行向量化处理得到训练向量集,基于训练向量集对训练请求中携带的任务标识信息对应的目标模型进行训练。基于本方案,通过训练请求中是否携带有向量化方法的指定信息确定目标向量化方法,通过任务标识信息确定目标模型,基于目标向量化方法处理得到的训练向量集对目标模型,实现了在训练过程中自动选择向量化方法以及任务处理模型,能够应对多种处理任务以及多种应用场景下任务处理模型的训练过程,为支持多种处理任务以及多种应用场景的文本处理提供了基础。
可选地,上述模型训练装置还包括:
业务ID模块,用于基于目标向量化方法以及训练完成的目标模型确定业务标识ID,将业务ID与训练完成的目标模型关联存储。
可选地,目标向量化方法确定模块具体用于:
若训练请求中携带有向量化方法的指定信息,则基于指定信息对应的向量化方法确定为目标向量化方法;
若训练请求中未携带有向量化方法的指定信息,则基于预设规则确定目标向量化方法。
可选地,任务标识信息包括以下至少一项:
文本分类任务的标识信息;
文本关键词提取任务的标识信息;
文本相似性判定任务的标识信息。
可选地,目标向量化方法确定模块在基于预设规则确定目标向量化方法时,具体用于:
若任务标识信息包括文本关键词提取任务的标识信息,将TF-IDF算法确定为目标向量化方法。
可选地,目标向量化方法确定模块在基于预设规则确定目标向量化方法时,具体用于:
若任务标识信息包括文本相似性判定任务的标识信息,基于训练文本集的数据量,以及预设的数据量与向量化方法第一对应关系,确定目标向量化方法。
可选地,目标向量化方法确定模块在基于预设规则确定目标向量化方法时,具体用于:
若任务标识信息包括文本分类任务的标识信息,确定训练文本集中的文本是否属于商户名称;
若属于,则将商户名称向量化方法确定为目标向量化方法;
若不属于,则基于训练文本集的数据量,以及预设的数据量与向量化方法第二对应关系,确定目标向量化方法。
可选地,训练向量集确定模块具体用于:
当将商户名称向量化方法确定为目标向量化方法时,确定训练文本集的第一相似度矩阵;
对相似度矩阵进行聚类,确定中心向量;
确定训练文本集与中心向量的第二相似度矩阵,并从第二相似度矩阵中确定训练向量集。
可选地,模型训练模块具体用于:
若训练向量集中的词均衡度不满足指定条件,对训练向量集进行抽样得到抽样向量集;
基于抽样向量集训练请求中携带的任务标识信息对应的目标模型进行训练。
可选的模型训练模块具体用于:
基于训练向量集的数据特征,在目标模型中确定目标分类模型;
基于训练向量集对目标分类模型进行训练。
可以理解的是,本实施例中的模型训练装置的上述各模块具有实现图1中所示的实施例中的模型训练方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述模型训练装置的各模块的功能描述具体可以参见图1中所示实施例中的模型训练方法的对应描述,在此不再赘述。
基于与图2中所示的方法相同的原理,图4示出了本申请实施例提供的一种文本处理装置的结构示意图,如图4所示,该文本处理装置40可以包括:
待处理文本获取模块410,用于在接收到文本处理请求时,获取待处理文本;
关联关系模块420,用于基于文本处理请求携带的任务标识ID,以及预设的关联关系,确定待处理文本的目标向量化方法以及任务处理模型,关联关系为任务ID与目标向量化方法以及任务处理模型的关联关系;
待处理向量确定模块430,用于基于目标向量化方法对待处理文本进行向量化处理得到待处理向量;
处理模块440,用于基于任务处理模型对待处理向量进行处理,任务处理模型是基于户模型训练方法得到的。
本申请实施例提供的文本处理装置,在接收到文本处理请求时,基于文本处理请求携带的任务ID,确定目标向量化方法以及任务处理模型,基于目标向量化方法对待处理文本进行向量化处理得到待处理向量,基于任务处理模型对待处理向量进行处理。本方案中,通过训练请求中携带的任务ID,自动确定目标向量化方法以及任务处理模型,从而实现对文本的处理,能够支持多种处理任务以及多种应用场景下的文本处理,方便了用户的使用。
本申请实施例提供了一种电子设备,包括处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行本申请任一实施方式中所提供的方法。
作为一个示例,图5示出了本申请实施例所适用的一种电子设备的结构示意图,如图5所示,该电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选的,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
其中,处理器2001应用于本申请实施例中,用于实现上述方法实施例所示的方法。收发器2004可以包括接收机和发射机,收发器2004应用于本申请实施例中,用于执行时实现本申请实施例的电子设备与其他设备通信的功能。
处理器2001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(FieldProgrammable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random AccessMemory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read OnlyMemory,电可擦可编程只读存储器)、CD-ROM(Compact Disc ReadOnlyMemory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器2003用于存储执行本申请方案的应用程序代码,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码,以实现本申请任一实施方式中所提供的方法。
本申请实施例提供的电子设备,适用于上述方法任一实施例,在此不再赘述。
本申请实施例提供了一种电子设备,与现有技术相比,在接收到训练请求时,基于训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法,基于目标向量化方法对训练文本集进行向量化处理得到训练向量集,基于训练向量集对训练请求中携带的任务标识信息对应的目标模型进行训练。基于本方案,通过训练请求中是否携带有向量化方法的指定信息确定目标向量化方法,通过任务标识信息确定目标模型,基于目标向量化方法处理得到的训练向量集对目标模型,实现了在训练过程中自动选择向量化方法以及任务处理模型,能够应对多种处理任务以及多种应用场景下任务处理模型的训练过程,为支持多种处理任务以及多种应用场景的文本处理提供了基础。在接收到文本处理请求时,基于文本处理请求携带的任务ID,确定目标向量化方法以及任务处理模型,基于目标向量化方法对待处理文本进行向量化处理得到待处理向量,基于任务处理模型对待处理向量进行处理。本方案中,通过训练请求中携带的任务ID,自动确定目标向量化方法以及任务处理模型,从而实现对文本的处理,能够支持多种处理任务以及多种应用场景下的文本处理,方便了用户的使用。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述方法实施例所示的方法。
本申请实施例提供的计算机可读存储介质,适用于上述方法任一实施例,在此不再赘述。
本申请实施例提供了一种计算机可读存储介质,与现有技术相比,在接收到训练请求时,基于训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法,基于目标向量化方法对训练文本集进行向量化处理得到训练向量集,基于训练向量集对训练请求中携带的任务标识信息对应的目标模型进行训练。基于本方案,通过训练请求中是否携带有向量化方法的指定信息确定目标向量化方法,通过任务标识信息确定目标模型,基于目标向量化方法处理得到的训练向量集对目标模型,实现了在训练过程中自动选择向量化方法以及任务处理模型,能够应对多种处理任务以及多种应用场景下任务处理模型的训练过程,为支持多种处理任务以及多种应用场景的文本处理提供了基础。在接收到文本处理请求时,基于文本处理请求携带的任务ID,确定目标向量化方法以及任务处理模型,基于目标向量化方法对待处理文本进行向量化处理得到待处理向量,基于任务处理模型对待处理向量进行处理。本方案中,通过训练请求中携带的任务ID,自动确定目标向量化方法以及任务处理模型,从而实现对文本的处理,能够支持多种处理任务以及多种应用场景下的文本处理,方便了用户的使用。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种模型训练方法,其特征在于,包括:
当接收到训练请求时,获取训练文本集;
基于所述训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法;
基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集;
基于所述训练向量集对所述训练请求中携带的任务标识信息对应的目标模型进行训练;
所述基于所述训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法,包括:
若所述训练请求中携带有向量化方法的指定信息,则基于所述指定信息对应的向量化方法确定为目标向量化方法;
若所述训练请求中未携带有向量化方法的指定信息,则基于预设规则确定目标向量化方法;
所述任务标识信息包括:文本分类任务的标识信息;文本关键词提取任务的标识信息;文本相似性判定任务的标识信息;
若所述任务标识信息包括文本关键词提取任务的标识信息,所述基于预设规则确定目标向量化方法,包括:将词频-逆文档频率TF-IDF算法确定为目标向量化方法;
若所述任务标识信息包括文本相似性判定任务的标识信息,所述基于预设规则确定目标向量化方法,包括:基于所述训练文本集的数据量,以及预设的数据量与向量化方法第一对应关系,确定所述目标向量化方法;
若所述任务标识信息包括文本分类任务的标识信息,所述基于预设规则确定目标向量化方法,包括:
确定所述训练文本集中的文本是否属于商户名称;
若属于,则将商户名称向量化方法确定为目标向量化方法,所述商户名称向量化方法用于对商户名称进行向量化处理,基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集,包括:
确定所述训练文本集的第一相似度矩阵;
对所述相似度矩阵进行聚类,确定中心向量;
确定所述训练文本集与所述中心向量的第二相似度矩阵,并从所述第二相似度矩阵中确定训练向量集;
若不属于,则基于所述训练文本集的数据量,以及预设的数据量与向量化方法第二对应关系,确定所述目标向量化方法。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于所述目标向量化方法以及训练完成的所述目标模型确定业务标识ID,将所述业务ID与训练完成的目标模型关联存储。
3.根据权利要求1所述的方法,其特征在于,若所述任务标识信息包括文本分类任务的标识信息,若所述训练向量集中的词均衡度不满足指定条件,所述基于所述训练向量集对所述训练请求中携带的任务标识信息对应的目标模型进行训练,包括:
对所述训练向量集进行抽样得到抽样向量集;
基于所述抽样向量集所述训练请求中携带的任务标识信息对应的目标模型进行训练。
4.根据权利要求1所述的方法,其特征在于,若所述任务标识信息包括文本分类任务的标识信息,所述基于所述训练向量集对所述训练请求中携带的任务标识信息对应的目标模型进行训练,包括:
基于所述训练向量集的数据特征,在所述目标模型中确定目标分类模型;
基于所述训练向量集对所述目标分类模型进行训练。
5.一种文本处理方法,其特征在于,包括:
当接收到文本处理请求时,获取待处理文本;
基于所述文本处理请求携带的任务标识ID,以及预设的关联关系,确定所述待处理文本的目标向量化方法以及任务处理模型,所述关联关系为任务ID与目标向量化方法以及任务处理模型的关联关系;
基于所述目标向量化方法对所述待处理文本进行向量化处理得到待处理向量;
基于所述任务处理模型对所述待处理向量进行处理,所述任务处理模型基于如权利要求1至4中的任一项所述的方法训练得到。
6.一种模型训练装置,其特征在于,包括:
训练文本集获取模块,用于在接收到训练请求时,获取训练文本集;
目标向量化方法确定模块,用于基于所述训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法;所述基于所述训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法,包括:
若所述训练请求中携带有向量化方法的指定信息,则基于所述指定信息对应的向量化方法确定为目标向量化方法;
若所述训练请求中未携带有向量化方法的指定信息,则基于预设规则确定目标向量化方法;
训练向量集确定模块,用于基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集;
模型训练模块,用于基于所述训练向量集对所述训练请求中携带的任务标识信息对应的目标模型进行训练,所述任务标识信息包括:文本分类任务的标识信息;文本关键词提取任务的标识信息;文本相似性判定任务的标识信息;
若所述任务标识信息包括文本关键词提取任务的标识信息,所述基于预设规则确定目标向量化方法,包括:将词频-逆文档频率TF-IDF算法确定为目标向量化方法;
若所述任务标识信息包括文本相似性判定任务的标识信息,所述基于预设规则确定目标向量化方法,包括:基于所述训练文本集的数据量,以及预设的数据量与向量化方法第一对应关系,确定所述目标向量化方法;
若所述任务标识信息包括文本分类任务的标识信息,所述基于预设规则确定目标向量化方法,包括:
确定所述训练文本集中的文本是否属于商户名称;
若属于,则将商户名称向量化方法确定为目标向量化方法,所述商户名称向量化方法用于对商户名称进行向量化处理,基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集,包括:
确定所述训练文本集的第一相似度矩阵;
对所述相似度矩阵进行聚类,确定中心向量;
确定所述训练文本集与所述中心向量的第二相似度矩阵,并从所述第二相似度矩阵中确定训练向量集;
若不属于,则基于所述训练文本集的数据量,以及预设的数据量与向量化方法第二对应关系,确定所述目标向量化方法。
7.一种文本处理装置,其特征在于,包括:
待处理文本获取模块,用于在接收到文本处理请求时,获取待处理文本;
关联关系模块,用于基于所述文本处理请求携带的任务标识ID,以及预设的关联关系,确定所述待处理文本的目标向量化方法以及任务处理模型,所述关联关系为任务ID与目标向量化方法以及任务处理模型的关联关系;
待处理向量确定模块,用于基于所述目标向量化方法对所述待处理文本进行向量化处理得到待处理向量;
处理模块,用于基于所述任务处理模型对所述待处理向量进行处理,所述任务处理模型基于如权利要求1至4中的任一项所述的方法训练得到。
8.一种电子设备,其特征在于,包括处理器和存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行权利要求1-5中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068919.XA CN111324732B (zh) | 2020-01-21 | 2020-01-21 | 模型训练方法、文本处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068919.XA CN111324732B (zh) | 2020-01-21 | 2020-01-21 | 模型训练方法、文本处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111324732A CN111324732A (zh) | 2020-06-23 |
CN111324732B true CN111324732B (zh) | 2024-04-02 |
Family
ID=71173233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010068919.XA Active CN111324732B (zh) | 2020-01-21 | 2020-01-21 | 模型训练方法、文本处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111324732B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114219029A (zh) * | 2021-12-16 | 2022-03-22 | 中国建设银行股份有限公司 | 一种模型训练系统、方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147552A (zh) * | 2019-05-22 | 2019-08-20 | 南京邮电大学 | 基于自然语言处理的教育资源质量评价挖掘方法及系统 |
CN110210624A (zh) * | 2018-07-05 | 2019-09-06 | 第四范式(北京)技术有限公司 | 执行机器学习过程的方法、装置、设备以及存储介质 |
CN110362999A (zh) * | 2019-06-25 | 2019-10-22 | 阿里巴巴集团控股有限公司 | 用于检测账户使用异常的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11080616B2 (en) * | 2016-09-27 | 2021-08-03 | Clarifai, Inc. | Artificial intelligence model and data collection/development platform |
-
2020
- 2020-01-21 CN CN202010068919.XA patent/CN111324732B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210624A (zh) * | 2018-07-05 | 2019-09-06 | 第四范式(北京)技术有限公司 | 执行机器学习过程的方法、装置、设备以及存储介质 |
CN110147552A (zh) * | 2019-05-22 | 2019-08-20 | 南京邮电大学 | 基于自然语言处理的教育资源质量评价挖掘方法及系统 |
CN110362999A (zh) * | 2019-06-25 | 2019-10-22 | 阿里巴巴集团控股有限公司 | 用于检测账户使用异常的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111324732A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110874440B (zh) | 一种信息推送及其模型训练的方法、装置及电子设备 | |
TWI743773B (zh) | 基於隱私資料保護的異常採集行為識別方法和裝置 | |
CN110490721B (zh) | 财务凭证生成方法及相关产品 | |
CN112380401B (zh) | 业务数据的核对方法和装置 | |
CN110046648B (zh) | 基于至少一个业务分类模型进行业务分类的方法及装置 | |
CN111258905B (zh) | 缺陷定位方法、装置和电子设备及计算机可读存储介质 | |
CN111324732B (zh) | 模型训练方法、文本处理方法、装置及电子设备 | |
CN114398315A (zh) | 一种数据存储方法、系统、存储介质及电子设备 | |
CN113407599A (zh) | 一种基于文本数据的标准化处理方法及设备 | |
CN111739537B (zh) | 语义识别方法、装置、存储介质及处理器 | |
CN111259975B (zh) | 分类器的生成方法及装置、文本的分类方法及装置 | |
CN112784572A (zh) | 一种营销场景话术分析方法和系统 | |
CN115495498B (zh) | 数据关联方法、系统、电子设备及存储介质 | |
CN112541373A (zh) | 司法文本识别方法、文本识别模型获得方法及相关设备 | |
CN115221874A (zh) | 倒排索引的构建方法、名单筛查方法、装置、电子设备 | |
CN113949887A (zh) | 对于网络直播数据的处理方法及装置 | |
CN111078877A (zh) | 数据处理、文本分类模型的训练、文本分类方法和装置 | |
CN110941719A (zh) | 数据分类方法、测试方法、装置及存储介质 | |
CN113220187B (zh) | 一种微银行业务交互方法及相关设备 | |
CN115374372B (zh) | 网络社区虚假信息快速识别方法及装置、设备、存储介质 | |
CN116992111B (zh) | 数据处理方法、装置、电子设备及计算机存储介质 | |
CN118115257A (zh) | 金融业务的处理方法和装置、存储介质及电子设备 | |
CN113852538A (zh) | 一种基于即时聊天工具的服务推广处理方法和系统 | |
CN117952097A (zh) | 事件抽取方法、相关设备及存储介质 | |
CN116886817A (zh) | 业务操作提醒方法、装置、设备、介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |