CN111400443A

CN111400443A - 信息处理方法、装置及存储介质

Info

Publication number: CN111400443A
Application number: CN202010143192.7A
Authority: CN
Inventors: 唐可欣; 齐保元; 孟二利
Original assignee: Beijing Pinecone Electronics Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2020-07-10
Anticipated expiration: 2040-03-04
Also published as: CN111400443B

Abstract

本公开是关于一种信息处理方法、装置及存储介质，包括：获取第一语料数据；从配置文件中，确定与待训练模型的模型结构相匹配的参数配置信息；初始化所述待训练模型的模型参数获得初始化参数；将所述模型参数从所述初始化参数更新为所述参数配置信息中的第一配置参数；基于所述第一语料数据，对所述模型参数更新后的待训练模型进行训练得到目标模型。由于配置文件所包含的第一配置参数是根据待训练模型的模型结构预先确定的，相较于待训练模型的初始化参数更优，通过将初始化参数更新为第一配置参数，能够提高待训练模型的训练效率和精确度。

Description

信息处理方法、装置及存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种信息处理方法、装置及存储介质。

背景技术

文本分类，就是指根据文本内容本身将文本归为不同的类别，通常是有监督学习(Supervised learning，SL)的任务。例如，根据文本内容的长短，进行单句、段落或者文档的分类；根据文本分类的标签，进行情感分类、意图分析、黄反识别、垃圾信息检测等分类任务。由于文本分类在工业界和学术界的广泛应用，其和序列标注、文本匹配、文本生成一起并称为自然语言处理(Natural Language Processing，NLP)四类基本任务。

文本的长短、任务不同可能会导致文本需抽取的特征存在细微差异，传统机器学习算法，如支持向量机(Support Vector Machines，SVM)、逻辑回归(LogisticRegression，LR)，在解决文本分类问题时往往需要根据任务本身分析数据、进行细致精密的特征工程，不仅会降低分类模型的训练效率和精确度，也使得文本分类任务工作流难以实现自动化。

发明内容

本公开提供一种信息处理方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种信息处理方法，包括：

获取第一语料数据；

从配置文件中，确定与待训练模型的模型结构相匹配的参数配置信息；

初始化所述待训练模型的模型参数获得初始化参数；

将所述模型参数从所述初始化参数更新为所述参数配置信息中的第一配置参数；

基于所述第一语料数据，对所述模型参数更新后的待训练模型进行训练得到目标模型。

可选的，所述方法还包括：

基于所述第一语料数据，至少获得表征所述第一语料数据的分类特点的统计信息；

根据所述统计信息，确定与所述分类特点匹配的第二配置参数；

确定所述待训练模型中未更新为所述第一配置参数的初始化参数；

将未更新为所述第一配置参数的初始化参数更新为所述第二配置参数。

可选的，所述基于所述第一语料数据，至少获得表征所述第一语料数据的分类特点的统计信息，包括：

将所述第一语料数据的数据格式转化为设定格式；

对转化为所述设定格式的第一语料数据进行预处理，得到第二语料数据；

基于所述第二语料数据，获得包含有所述第二语料数据中文本类别个数以及文本长度的统计信息。

可选的，所述将所述模型参数从初始化参数更新为所述参数配置信息中的第一配置参数，包括：

基于所述待训练模型的类方法调用初始化函数，并基于所述初始化函数将所述待训练模型的初始化参数，更新为所述参数配置信息所包含的第一配置参数。

可选的，所述方法还包括：

基于所述待训练模型的递归函数，调用所述类方法；

对被调用的所述类方法进行实例化处理，得到所述待训练模型的实例化对象。

可选的，所述方法还包括：

根据所述统计信息，确定所述待训练模型的损失函数，并基于所述配置文件更新所述损失函数的配置参数；

利用所述损失函数计算所述待训练模型中的训练损失；

基于所述训练损失，调整所述待训练模型的模型参数。

可选的，所述根据所述统计信息，确定所述待训练模型的损失函数，并基于所述配置文件更新所述损失函数的配置参数，包括：

确定所述统计信息所包含的文本类别个数是否大于或者等于预设类别个数阈值；

如果所述文本类别个数大于或者等于所述预设类别个数阈值，将第一类损失函数确定为所述待训练模型的损失函数，并基于所述配置文件所包含的第一配置参数更新所述第一类损失函数的配置参数；

如果所述文本类别个数小于所述预设类别个数阈值，将第二类损失函数确定为所述待训练模型的损失函数，并基于所述配置文件所包含的第一配置参数更新所述第二类损失函数的配置参数。

可选的，所述初始化所述待训练模型的模型参数获得初始化参数，包括：

检测初始化输入；

根据所述初始化输入，初始化所述待训练模型的模型参数获得所述初始化参数。

根据本公开实施例的第二方面，提供一种信息处理装置，包括：

第一获取模块，配置为获取第一语料数据；

第一确定模块，配置为从配置文件中，确定与待训练模型的模型结构相匹配的参数配置信息；

初始化模块，配置为初始化所述待训练模型的模型参数获得初始化参数；

第一更新模块，配置为将所述模型参数从所述初始化参数更新为所述参数配置信息中的第一配置参数；

训练模块，配置为基于所述第一语料数据，对所述模型参数更新后的待训练模型进行训练得到目标模型。

可选的，所述装置还包括：

第二获取模块，配置为基于所述第一语料数据，至少获得表征所述第一语料数据的分类特点的统计信息；

第二确定模块，配置为根据所述统计信息，确定与所述分类特点匹配的第二配置参数；

第三确定模块，配置为确定所述待训练模型中未更新为所述第一配置参数的初始化参数；

第二更新模块，配置为将未更新为所述第一配置参数的初始化参数更新为所述第二配置参数。

可选的，所述第二获取模块，还配置为：

将所述第一语料数据的数据格式转化为设定格式；

可选的，所述第一更新模块，还配置为：

可选的，所述装置还包括：

调用模块，配置为基于所述待训练模型的递归函数，调用所述类方法；

实例化模块，配置为对被调用的所述类方法进行实例化处理，得到所述待训练模型的实例化对象。

可选的，所述装置还包括：

函数确定模块，配置为根据所述统计信息，确定所述待训练模型的损失函数，并基于所述配置文件更新所述损失函数的配置参数；

计算模块，配置为利用所述损失函数计算所述待训练模型中的训练损失；

调整模块，配置为基于所述训练损失，调整所述待训练模型的模型参数。

可选的，所述函数确定模块，还配置为：

可选的，所述初始化模块，还配置为：

检测初始化输入；

执行音频输出或提高音频输出的音量。

根据本公开实施例的第三方面，提供一种信息处理装置，包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为执行时实现上述第一方面中任一种信息处理方法中的步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行上述第一方面中任一种信息处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

在本公开的实施例中，通过设定配置文件，并基于配置文件所包含的与待训练模型的模型结构相匹配的参数配置信息，将待训练模型的初始化参数更新为参数配置信息中的第一配置参数，并基于第一语料数据，对模型参数更新后的待训练模型进行训练得到目标模型，由于配置文件所包含的第一配置参数是根据待训练模型的模型结构预先确定的，相较于待训练模型的初始化参数更优，通过将初始化参数更新为第一配置参数，能够提高待训练模型的训练效率和精确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的信息处理方法的流程图一。

图2是根据一示例性实施例示出的信息处理方法的流程图二。

图3A是根据一示例性实施例示出的信息处理方法的流程图三。

图3B是根据一示例性实施例示出的信息处理装置的结构示意图。

图4是根据一示例性实施例示出的语料数据的格式示意图。

图5是根据一示例性实施例示出的文本分类网络模型的组成架构示意图。

图6是根据一示例性实施例示出的混淆矩阵示意图。

图7是根据一示例性实施例示出的评估指标示意图。

图8是根据一示例性实施例示出的一种信息处理装置框图。

图9是根据一示例性实施例示出的一种信息处理装置的硬件结构框图。

图10是根据一示例性实施例示出的另一种用于信息处理装置的硬件结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的信息处理方法的流程图一，如图1所示，该方法包括以下步骤：

在步骤101中，获取第一语料数据；

在步骤102中，从配置文件中，确定与待训练模型的模型结构相匹配的参数配置信息；

在步骤103中，初始化待训练模型的模型参数获得初始化参数；

在步骤104中，将模型参数从初始化参数更新为参数配置信息中的第一配置参数；

在步骤105中，基于第一语料数据，对模型参数更新后的待训练模型进行训练得到目标模型。

这里，信息处理方法可以应用于移动终端和固定终端，其中，移动终端包括：手机、平板电脑、笔记本电脑等；固定终端包括：个人计算机。在其他可选的实施例中，该信息处理方法也可以运行于网络侧设备，其中，网络侧设备包括：服务器、处理中心等。

本公开实施例中，第一语料数据可以是设定语言的语料数据，例如，第一语料数据可以是基于中文的语料数据，也可以是基于英文的语料数据。

待训练模型包括神经网络模型、快速文本分类模型以及支持向量机模型等。这里，可以预先设定配置文件，并从配置文件中确定与待训练模型的模型结构相匹配的参数配置信息。以待训练模型是卷积神经网络为例，卷积神经网络可以包括嵌入层、编码层、解码层、以及输出层，本公开实施例中，可以预先设置配置文件，并在配置文件中对卷积神经网络所包括的嵌入层、编码层、解码层、以及输出层进行参数配置。例如，针对卷积神经网络的编码层配置卷积神经网络的卷积核宽度；针对卷积神经网络的嵌层配置是否冻结词嵌入的权重，这里，如果对词嵌入的权重进行了冻结，则冻结后的权重值在训练的过程中不会发生变化；针对卷积神经网络的嵌入层配置词嵌入的初始化策略，如随机初始化、初始化为零或者求平均值等。

本公开实施例中，可以对待训练模型的模型参数进行初始化，并得到初始化参数。还是以卷积神经网络为例，本公开实施例中，可以对卷积神经网络进行初始化获得初始化参数，例如，将卷积神经网络的初始化参数设置为零。在实现的过程中，可以基配置文件中的第一配置参数更行初始化参数，例如，如果卷积神经网络的卷积核的宽度的初始化参数值是零，而配置文件中卷积核的宽度是128，则可以将卷积神经网络的卷积核宽度由零更新为128。

在对待训练模型的模型参数进行更新之后，可以基于第一语料数据对待训练模型进行训练，这样，就能够得到与第一语料数据对应的目标模型。在一个可选的实施例中，该方法还包括：基于目标模型对输入语料数据进行分类处理，得到分类结果；其中，输入语料数据的类型包括以下至少之一：图像数据类型、文本数据类型和音频数据类型。

本公开实施例中，通过配置文件配置待训练模型的模型参数，可以快速获得当前语料下的待训练模型，且可以通过配置文件中的参数配置信息更新模型参数得到需要的待训练模型，由于配置文件所包含的第一配置参数是根据待训练模型的模型结构预先确定的，相较于待训练模型的初始化参数更优，通过将初始化参数更新为第一配置参数，能够提高待训练模型的训练效率和精确度。

图2是根据一示例性实施例示出的信息处理方法的流程图二，如图2所示，该方法包括以下步骤：

在步骤201中，获取第一语料数据；

在步骤202中，从配置文件中，确定与待训练模型的模型结构相匹配的参数配置信息；

在步骤203中，初始化待训练模型的模型参数获得初始化参数；

在步骤204中，将模型参数从初始化参数更新为参数配置信息中的第一配置参数；

在步骤205中，基于第一语料数据，至少获得表征第一语料数据的分类特点的统计信息；

在步骤206中，根据统计信息，确定与分类特点匹配的第二配置参数；

在步骤207中，确定待训练模型中未更新为第一配置参数的初始化参数；

在步骤208中，将未更新为第一配置参数的初始化参数更新为第二配置参数；

在步骤209中，基于第一语料数据，对模型参数更新后的待训练模型进行训练得到目标模型。

这里，统计信息包括第一语料数据的文本类别个数以及文本长度。本公开实施例中，由于部分模型参数未在配置文件中进行配置，在基于配置文件中的第一配置参数对待训练模型的模型参数进行更新后，可能会存在未更新为第一配置参数的初始化参数，这时，就需要根据统计信息，确定与第一语料数据的分类特点相匹配的第二配置参数。

在基于配置文件中的第一配置参数对待训练模型的模型参数进行更新之后，确定是否存在未更新为第一配置参数的出初始化参数，如果有，则可以基于文本类别个数确定出的第二配置参数对未更新为第一配置参数的初始化参数进行更新。这里，以统计信息是文本类别个数为例，可以基于文本类别个数确定与文本类别个数匹配的第二配置参数。例如，当文本类别个数大于或者等于预设类别个数阈值时，则确定出来的第二配置参数表征将第一类损失函数确定为待训练模型的损失函数；当文本类别个数小于预设类别个数阈值时，则确定出来的第二配置参数表征将第二类损失函数确定为待训练模型的损失函数。如果初始化参数表征待训练模型的损失函数为第一类损失函数，而基于文本类别个数确定出来的第二配置参数表征将第二类损失函数确定为待训练模型的损失函数，则可以将初始化参数更新为第二配置参数。

本公开实施例中，通过获得表征第一语料数据的分类特点的统计信息，并根据统计信息，将未更新为第一配置参数的初始化参数更新为第二配置参数，这样，即使没有通过配置文件中的第一配置参数完全覆盖待训练模型的模型参数，也能够基于根据统计信息确定对应的第二配置参数对待训练模型的初始化参数进行补充更新，在待训练模型是对文本进行分类的模型时，能够在不需要人为定义参数的基础上，实现文本分类任务工作流的自动化。

在其他可选的实施例中，基于第一语料数据，至少获得表征第一语料数据的分类特点的统计信息，包括：

将第一语料数据的数据格式转化为设定格式；

对转化为设定格式的第一语料数据进行预处理，得到第二语料数据；

基于第二语料数据，获得包含有第二语料数据中文本类别个数以及文本长度的统计信息。

这里，在对第一语料数据进行预处理之前，需要将第一语料数据的数据格式转化为设定格式，例如，将第一语料数据转化为制表符分隔值(Tab Separated Values，TSV)格式。在将第一语料数据转化为TSV格式之后，需要对转化为TSV格式的第一语料数据进行预处理，保证预处理后的语料中的每句话都是语法正确、语义清晰的自然语言语句。预处理方法包括：去除特殊字符、编程语言(如html语句)等无法有效表达语料主旨的部分。在对第一语料数据进行预处理之后，能够得到第二语料数据，并得到包含有第二语料数据中文本类别个数以及文本长度的统计信息。本公开实施例中，通过对第一语料数据进行预处理，能够得到语法正确、语义清晰的自然语言句子，以保证所获取的统计信息的准确性。

在其他可选的实施例中，将模型参数从初始化参数更新为参数配置信息中的第一配置参数，包括：

基于待训练模型的类方法调用初始化函数，并基于，初始化函数将待训练模型的初始化参数，更新为参数配置信息所包含的第一配置参数。

在获取到第一配置参数之后，可以基于待训练模型中的类方法(from_config)调用初始化函数(__init__)，并基于初始化函数将待训练模型的初始化参数，更新为参数配置信息所包含的第一配置参数，即输入配置文件中该类方法的参数配置信息所包含的第一配置参数。这里，对于词嵌入层，第一配置参数可以为表征是否冻结词嵌入的权重的相关参数，或者可以为表征词嵌入的初始化策略的相关参数；而对于编码层，则需传入卷积核的相关配置参数。

本公开实施例中，用户可以通过更改配置文件达到建立自定义待训练模型的目的，能够在不用编码的情况下更新待训练模型，能够降低获取待训练模型的学习成本和难度。

在其他可选的实施例中，该方法还包括：

基于待训练模型的递归函数，调用类方法；

对被调用的类方法进行实例化处理，得到待训练模型的实例化对象。

这里，在对待训练模型进行更新的过程中，会执行递归函数(create_module)，该递归函数会依次调用待训练模型下各个模块的类方法(from_config)，对被调用的类方法进行实例化处理，从而生成各个模块的实例化对象。本公开实施例中，由于类方法中的初始化参数已经更新为第一配置参数，通过对被调用的类方法进行实例化处理，得到待训练模型的实例化对象，这样，在对待训练模型进行训练的过程中能够实现各个类方法之间的调用，进而实现待训练模型中各个模块的配置参数的动态更新。

在其他可选的实施例中，该方法还包括：

根据统计信息，确定待训练模型的损失函数；

利用损失函数计算待训练模型中的训练损失；

基于训练损失，调整待训练模型的模型参数。

这里，损失函数用于衡量待训练模型预测的好坏，基于构建的损失函数，例如使用梯度下降法来反向调整基础神经网络的训练参数，使模型收敛，即使得最终获得模型更优。而其中，损失函数的选取，也在一定程度上影响了模型的好坏。本公开实施例中，可以基于统计信息确定与待训练模型相匹配的损失函数，进而利用基于损失函数得到的训练损失调整待训练模型的模型参数。

在其他可选的实施例中，该方法还包括：基于测试数据集对训练后的目标模型进行性能评估，得到评估结果；其中，测试数据集中测试数据的类型包括以下至少之一：图像数据类型、业务数据类型和音频数据类型。其中，测试数据集包括验证语料数据和测试语料数据。

这里，在得到训练后的目标模型之后，可以在测试数据集上评估其性能，逐步优化目标模型，直至找到最优的目标模型，例如最小化验证损失或最大化奖励的目标模型。这里，可以将测试数据集中的测试数据输入训练好的目标模型，经由该目标模型输出评估结果，然后将输出的评估结果与预设的标准进行比较，得到比较结果，并根据比较结果评估目标模型的性能，其中，测试结果可以为目标模型处理测试数据的速度或者精度。

在其他可选的实施例中，根据统计信息，确定待训练模型的损失函数，并基于所述配置文件更新所述损失函数的配置参数，包括：

确定统计信息所包含的文本类别个数是否大于或者等于预设类别个数阈值；

如果文本类别个数大于或者等于预设类别个数阈值，将第一类损失函数确定为待训练模型的损失函数，并基于所述配置文件所包含的第一配置参数更新所述第一类损失函数的配置参数；

如果文本类别个数小于预设类别个数阈值，将第二类损失函数确定为待训练模型的损失函数，并基于所述配置文件所包含的第一配置参数更新所述第二类损失函数的配置参数。

这里，预设类别个数阈值可以根据需要确定。例如，可以将类别个数阈值设置为2，在文本类别个数大于或者等于2时，可以将第一类损失函数确定为待训练模型的损失函数；在文本类别个数小于2时，可以将第二类损失函数确定为待训练模型的损失函数。其中，第一类损失函数包括二元互熵损失(Binary Cross-Entropy loss)以及叉熵损失(Categorical Cross-Entropy loss)函数，第二类损失函数包括带权重的交叉熵损失函数。在其他可选的实施例中，用户可以根据需要指定所需损失函数或自定义损失函数。本公开实施例中，损失函数会随着统计信息所包含的文本类别个数动态设切换损失函数，以确定出与待训练模型相匹配的损失函数，能够提高对待训练模型进行训练所得到的目标模型的预测的准确性。

在其他可选的实施例中，初始化待训练模型的模型参数获得初始化参数，包括：

检测初始化输入；

根据初始化输入，初始化待训练模型的模型参数获得初始化参数。

这里，以本公开实施例所涉及的方法是在终端设备执行为例，可以基于终端设备检测初始输入，在检测到初始化输入时，可以基于初始化输入，对待训练模型的模型参数进行初始化处理，得到对应的初始化参数，即可以给待训练模型的模型参数赋予默认值，这样，即使配置文件中的配置参数缺省时，也能保证待训练模型的正常运行。

随着计算机的计算能力的提高和深度学习在NLP领域的蓬勃发展，深度学习可以通过不同结构的端到端(End-to-end)神经网络自动捕获文本的隐层特征或者说潜在语义表征，再通过解码网络将表征信息映射到输出类别上，从而使得文本分类可以抽象出处理流程，进而实现文本分类的自动化工作流。本公开实施例中的待训练模型可以包括对文本进行分类的文本分类网络模型。图3A是根据一示例性实施例示出的信息处理方法的流程图三，如图3A所示，该方法包括以下步骤：

在步骤301中，将训练语料数据、验证语料数据和测试语料数据保存为TSV格式，并将配置文件存储至相应文件夹下。

这里，训练预料数据即为第一语料数据，TSV格式的数据包括以纯文本形式存储的表格数据，可由表格软件导出或读入。图4是根据一示例性实施例示出的语料数据的格式示意图，如图4所示，第一列为文本，第二列为文本的关联标签，表头分别为Text和Label，其中，表头需要和配置文件中的信息相对应。

在步骤302中，对训练语料进行数据预处理，并获取训练语料的统计信息。

这里，在获取训练语料后，工作流会依次完成数据清洗、去除停顿词和重复标点和文本词条化的工作。本公开实施例中，可以通过数据清洗的方式去除训练语料中的空格和不含中文只含标点符号的语料，并将数字替换为“#”，以减小不同数字和文本的不一致导致结果产生偏差。

本公开实施例中，还可以基于数据清洗的方式去除重复的标点符号，并按照配置文件中的配置参数决定是否去除训练语料中的停顿词(Stop word)。

还可以调用分词和词性标注工具对训练语料进行词条化处理，将训练语料切分成输入文本分类网络模型的最小表征单位。如输入训练语料数据：“看了视频。。。有点支持开电频车的。。。”，输出向量序列为分词后的单词标识(id)和词性标识(id)，如下所示(所示依然为原词，实际为相应单词的id)：[“看p”，“了u”，“视频n”，“。w”，“有点d”，“支持v”，“开v”，“电n”，“频车n”，“的u”，“。w”]。本公开实施例中，也会对、验证语料数据和测试语料数据进行与训练语料相同的数据预处理。

本公开实施例中，在获取训练语料的统计信息之后，可以基于获取的统计信息来配置文本分类网络模型。统计信息包括：文本类别个数；设定最大序列长度(max_sequence_length)，即文本长度。这里，分别取文本长度0.8分位值、0.9分位值、0.95分位值、0.98分位值取平均值，来计算设定最大序列长度，设定最大序列长度的计算公式如下：

Max_sequence_length＝int(1/4*(Text.quantile(0.80)+Text.quantile(0.90)+Text.quantile(0.95)+Text.quantile(0.98))) (1)

公式(1)中，Max_sequence_length表示设定最大序列长度，int()函数用于将一个字符串或数字转换为整型，Text.quantile()函数用户获取文本长度的分位值。

在步骤303中，创建文本分类网络模型。

这里，文本分类网络模型由嵌入层、编码层、解码层、以及输出层组成，图5是根据一示例性实施例示出的文本分类网络模型的组成架构示意图，如图5所示，文本分类模型501包括嵌入层502、编码层503、解码层504以及输出层505，嵌入层502包括词嵌入、字嵌入以及混合嵌入，编码层503包括卷积网络、循环网络以及Transformer网络，解码层504以及输出层505用于实现各个网络之间的全连接。这里，文本分类网络模型会根据配置文件中的配置参数动态配置各个网络的参数，即使用户没有给出相应参数的值，模型也会有一个相对合适的默认值，以提供一个不错的基础模型。

这里，工作流会定义文本分类模型的结构，以Python代码为例，

在获取到第一配置参数之后，可以基于待训练模型中的类方法(from_config)调用初始化函数(__init__)，并基于初始化函数将待训练模型的初始化参数，更新为参数配置信息所包含的第一配置参数，即输入配置文件中该类方法的参数配置信息所包含的第一配置参数。这里，对于词嵌入层，第一配置参数可以为表征是否冻结词嵌入的权重的相关参数，或者可以为表征词嵌入的初始化策略的相关参数；而对于编码层，则需传入卷积核的相关配置参数。本公开实施例中，用户可以通过更改配置文件达到建立自定义文本分类网络模型的目的，能够在不用编码的情况下更新文本分类网络模型，能够降低获取文本分类网络模型的学习成本和难度。

在实际运行代码生成模块的过程中，会执行递归函数(create_module)，该递归函数会依次调用文本分类网络模型下各个模块的类方法(from_config)，对被调用的类方法进行实例化处理，从而生成各个模块的实例化对象。本公开实施例中，通过对被调用的类方法进行实例化处理，得到文本分类网络模型的实例化对象，基于该实例化对象能够直接将类方法所包含的初始化参数更新为参数配置信息所包含的第一配置参数，进而实现配置参数的动态更新。

在步骤304中，根据配置文件和统计信息更新损失函数和优化算法。

在其他可选的实施例中，损失函数(loss_function)会随着分类类别个数为2或2以上，动态设为二元互熵损失函数或者分类交叉熵损失函数，例如，分类类别个数为2时，损失函数设为二元互熵损失函数，分类类别个数大于2时，损失函数设为分类交叉熵损失函数。在其他可选的实施例中，用户可以根据需要指定所需损失函数或自定义损失函数。这里，优化器会创新性的采用多段优化器更新算法，根据每个训练周期获得的反馈动态更新优化器，例如，开始会使用Adam优化算法更新模型参数，在模型前后两次的损失差值小于或者等于设定损失阈值时，更新为梯度更新规则(Stochastic gradient descent，SGD)优化算法。

在步骤305中，在配置好损失函数和优化算法后，对文本分类网络模型进行训练，得到目标模型。这里，可以调用Keras的训练函数对文本分类网络模型进行训练。

在步骤306中，基于测试数据集对训练后的目标模型进行性能评估，得到评估结果。

图3B是根据一示例性实施例示出的信息处理装置的结构示意图，如图3B所示，该信息处理装置30主要包括：

数据预处理模块31，配置为对训练语料进行数据预处理，依次完成数据清洗、去除停顿词和重复标点和文本词条化的工作；获取统计类别以及设定最大序列长度；自定义数据处理函数。

神经网络模块32，包括嵌入层、编码层、解码层以及输出层，会根据配置文件中的配置参数动态配置各个神经网络的参数，即使用户没有给出相应参数的值，模型也会有相对合适的默认值，以提供一个基础模型。

优化器模块33，配置为根据配置文件和统计信息更新损失函数和优化算法。

评估模块34，配置为基于测试数据集对训练后的目标模型进行性能评估，得到评估结果。

本公开实施例中，可以使用内置数据预处理工具使原始数据向量化，并获取模型自动化生成所需的统计信息；动态生成文本分类网络模型；根据类别个数自动生成损失函数，优化器采用多段更新方法；工作流最后会统计分类任务各项评估指标，整理成报告，方便用户分析、调优、使用模型以及展示结果。

图6是根据一示例性实施例示出的混淆矩阵示意图，图7是根据一示例性实施例示出的评估指标示意图，如图6和图7所示，计算评估指标的方法包括但不限于混淆矩阵，各个类别的准确率(Precision)、召回率(Recall)、F1值(F1-score)和曲线下面积(Area undercurve，AUC)等。在确定出各个类别的指标之后，可以提供相应指标的简介，如某指标在什么情况下为最佳，让用户可以快速进行分析并使用，然后将模型的配置参数信息、训练模型日志和模型评估结果保存在输出文件中。

本公开实施例中，使用了配置文本分类网络模型的各个模块，对于初学者和非NLP研究人员也能实现文本分类任务，对于NLP研究人员，可以快速获得当前语料下的基础分类模型，还可以通过自定义文本分类网络模型，无需从头编写代码便能实现复杂的文本分类模型；内置中文数据处理工具可以直接处理原始文本而无需手动编写处理程序，并且可以根据预处理得到的统计信息和训练过程中的反馈动态配置文本分类网络模型参数、优化器和损失函数；在训练完成后，记录各项评估指标，并整理成报告，方便用户分析、调优、使用模型以及展示结果。

图8是根据一示例性实施例示出的一种信息处理装置框图。如图8所示，该信息处理装置800主要包括：

第一获取模块801，配置为获取第一语料数据；

第一确定模块802，配置为从配置文件中，确定与待训练模型的模型结构相匹配的参数配置信息；

初始化模块803，配置为初始化待训练模型的模型参数获得初始化参数；

第一更新模块804，配置为将模型参数从初始化参数更新为参数配置信息中的第一配置参数；

训练模块805，配置为基于第一语料数据，对模型参数更新后的待训练模型进行训练得到目标模型。

在其他可选的实施例中，该装置800还包括：

第二获取模块，配置为基于第一语料数据，至少获得表征第一语料数据的分类特点的统计信息；

第二确定模块，配置为根据统计信息，确定与分类特点匹配的第二配置参数；

第三确定模块，配置为确定待训练模型中未更新为第一配置参数的初始化参数；

第二更新模块，配置为将未更新为第一配置参数的初始化参数更新为第二配置参数。

在其他可选的实施例中，第二获取模块，还配置为：

将第一语料数据的数据格式转化为设定格式；

在其他可选的实施例中，第一更新模块804，还配置为：

基于待训练模型的类方法调用初始化函数，并基于初始化函数将待训练模型的初始化参数，更新为参数配置信息所包含的第一配置参数。

在其他可选的实施例中，装置800还包括：

调用模块，配置为基于待训练模型的递归函数，调用类方法；

实例化模块，配置为对被调用的类方法进行实例化处理，得到待训练模型的实例化对象。

在其他可选的实施例中，该装置800还包括：

函数确定模块，配置为根据统计信息，确定待训练模型的损失函数，并基于所述配置文件更新所述损失函数的配置参数；

计算模块，配置为利用损失函数计算待训练模型中的训练损失；

调整模块，配置为基于训练损失，调整待训练模型的模型参数。

在其他可选的实施例中，函数确定模块，还配置为：

如果文本类别个数大于或者等于预设类别个数阈值，将第一类损失函数确定为待训练模型的损失函数，并基于配置文件所包含的第一配置参数更新第一类损失函数的配置参数；

如果文本类别个数小于预设类别个数阈值，将第二类损失函数确定为待训练模型的损失函数，并基于配置文件所包含的第一配置参数更新第二类损失函数的配置参数。

在其他可选的实施例中，初始化模块803，还配置为：

检测初始化输入；

图9是根据一示例性实施例示出的一种信息处理装置900的硬件结构框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电力组件906，多媒体组件908，音频组件910，输入/输出(I/O)接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件906为装置900的各种组件提供电力。电力组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到装置900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或6G，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由信息处理装置的处理器执行时，使得信息处理装置能够执行一种信息处理方法，所述方法包括：

获取第一语料数据；

初始化所述待训练模型的模型参数获得初始化参数；

图10是根据一示例性实施例示出的另一种用于信息处理装置700的硬件结构框图。例如，装置700可以被提供为一服务器。参照图10，装置700包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行一种信息处理方法，所述方法包括：

获取第一语料数据；

初始化所述待训练模型的模型参数获得初始化参数；

装置700还可以包括一个电源组件726被配置为执行装置700的电源管理，一个有线或无线网络接口750被配置为将装置700连接到网络，和一个输入输出(I/O)接口758。装置700可以操作基于存储在存储器732的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种信息处理方法，其特征在于，包括：

获取第一语料数据；

初始化所述待训练模型的模型参数获得初始化参数；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一语料数据，至少获得表征所述第一语料数据的分类特点的统计信息，包括：

将所述第一语料数据的数据格式转化为设定格式；

4.根据权利要求1所述的方法，其特征在于，所述将所述模型参数从初始化参数更新为所述参数配置信息中的第一配置参数，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

基于所述待训练模型的递归函数，调用所述类方法；

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

利用所述损失函数计算所述待训练模型中的训练损失；

基于所述训练损失，调整所述待训练模型的模型参数。

7.根据权利要求6所述的方法，其特征在于，所述根据所述统计信息，确定所述待训练模型的损失函数，并基于所述配置文件更新所述损失函数的配置参数，包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述初始化所述待训练模型的模型参数获得初始化参数，包括：

检测初始化输入；

9.一种信息处理装置，其特征在于，包括：

第一获取模块，配置为获取第一语料数据；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述第二获取模块，还配置为：

将所述第一语料数据的数据格式转化为设定格式；

12.根据权利要求9所述的装置，其特征在于，所述第一更新模块，还配置为：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求11所述的装置，其特征在于，所述装置还包括：

15.根据权利要求14所述的装置，其特征在于，所述函数确定模块，还配置为：

16.根据权利要求9至15任一项所述的装置，其特征在于，所述初始化模块，还配置为：

检测初始化输入；

17.一种信息处理装置，其特征在于，包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述权利要求1至8中任一种信息处理方法中的步骤。

18.一种非临时性计算机可读存储介质，当所述存储介质中的指令由信息处理装置的处理器执行时，使得所述装置能够执行上述权利要求1至8中任一种信息处理方法中的步骤。