CN112464660A

CN112464660A - 文本分类模型构建方法以及文本数据处理方法

Info

Publication number: CN112464660A
Application number: CN202011335804.9A
Authority: CN
Inventors: 高宇轩
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-09
Anticipated expiration: 2040-11-25
Also published as: CN112464660B

Abstract

本申请涉及人工智能技术领域，提供了一种文本分类模型构建方法以及文本数据处理方法。所述文本分类模型构建方法包括：获取携带产品条款词组标签的样本数据集，样本数据集包括多个样本数据，对样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合，对词语集合进行新词筛选，得到各样本数据对应的新词，根据新词以及样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系，对样本数据进行拆分，得到样本数据对应的短句集合，根据第一对应关系和短句集合进行模型训练，得到文本分类模型。采用本方法能够提高有效信息获取效率。

Description

文本分类模型构建方法以及文本数据处理方法

技术领域

本申请涉及人工智能技术领域，特别是涉及一种文本分类模型构建方法以及文本数据处理方法。

背景技术

随着计算机技术的发展，出现了传统产品销售模式与“互联网+”模式相结合的新模式。

传统技术中，在线上进行产品购买时，通常需要用户通过终端阅读相关条款以及内容了解将要购买的产品，在线上进行产品销售时，通常需要工作人员通过终端阅读相关条款以及内容以便更好的推荐和解读。

然而，相关条款以及内容通常比较冗长，用户和工作人员通过阅读无法快速获取到有效的产品条款信息，存在有效信息获取效率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高有效信息获取效率的文本分类模型构建方法以及文本数据处理方法。

一种文本分类模型构建方法，所述方法包括：

获取携带产品条款词组标签的样本数据集，样本数据集包括多个样本数据；

对样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合；

对词语集合进行新词筛选，得到各样本数据对应的新词，根据新词以及样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系；

对样本数据进行拆分，得到样本数据对应的短句集合，根据第一对应关系和短句集合进行模型训练，得到文本分类模型，文本分类模型用于确定短句集合中各短句与产品条款词组之间的第二对应关系。

一种文本数据处理方法，所述方法包括：

获取待处理文本数据，对待处理文本数据进行拆分，得到待处理文本数据对应的文本短句集合；

将文本短句集合输入已训练的文本分类模型，得到文本短句集合中各文本短句与产品条款词组之间的类别对应关系，已训练的文本分类模型根据上述文本分类模型构建方法构建；

根据类别对应关系，从待处理文本数据中筛选出与各产品条款词组对应的有效文本短句；

根据有效文本短句，得到有效产品条款信息。

一种文本分类模型构建装置，所述装置包括：

样本获取模块，用于获取携带产品条款词组标签的样本数据集，样本数据集包括多个样本数据；

分词模块，用于对样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合；

筛选模块，用于对词语集合进行新词筛选，得到各样本数据对应的新词，根据新词以及样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系；

训练模块，用于对样本数据进行拆分，得到样本数据对应的短句集合，根据第一对应关系和短句集合进行模型训练，得到文本分类模型，文本分类模型用于确定短句集合中各短句与产品条款词组之间的第二对应关系。

一种文本数据处理装置，所述装置包括：

文本获取模块，用于获取待处理文本数据，对待处理文本数据进行拆分，得到待处理文本数据对应的文本短句集合；

分类模块，用于将文本短句集合输入已训练的文本分类模型，得到文本短句集合中各文本短句与产品条款词组之间的类别对应关系，已训练的文本分类模型根据上述文本分类模型构建方法构建；

第一处理模块，用于根据类别对应关系，从待处理文本数据中筛选出与各产品条款词组对应的有效文本短句；

第二处理模块，用于根据有效文本短句，得到有效产品条款信息。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据有效文本短句，得到有效产品条款信息。

一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据有效文本短句，得到有效产品条款信息。

上述文本分类模型构建方法，通过获取携带产品条款词组标签的样本数据集，对样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合，对词语集合进行新词筛选，得到各样本数据对应的新词，根据新词以及样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系，根据第一对应关系以及样本数据集中各样本数据对初始文本分类网络进行模型训练，得到文本分类模型，能够实现对可识别出短句与产品条款词组之间的对应关系的文本分类模型的获取，上述文本数据处理方法，可以根据文本分类模型，确定待处理文本数据中各文本短句与产品条款词组之间的类别对应关系，根据类别对应关系，从待处理文本数据中筛选出与各产品条款词组对应的有效文本短句，根据有效文本短句，得到有效产品条款信息，不需要阅读冗长的待处理文本数据，能够提高有效信息获取效率。

附图说明

图1为一个实施例中文本分类模型构建方法的流程示意图；

图2为一个实施例中文本分类模型的示意图；

图3为一个实施例中文本数据处理方法的流程示意图；

图4为一个实施例中文本分类模型构建方法以及文本数据处理方法的应用场景图；

图5为一个实施例中文本分类模型构建装置的结构框图；

图6为一个实施例中文本数据处理装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种文本分类模型构建方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤102，获取携带产品条款词组标签的样本数据集，样本数据集包括多个样本数据。

其中，产品条款词组标签用于表征产品条款词组，产品条款词组是指由产品条款关键字组成的词组。比如，在保险合同条款中，产品条款词组具体可以是合同构成、保险责任、投保年龄、责任免除、犹豫期、合同解除、保险金额、保险金申请等。样本数据集是指样本数据的集合，样本数据是指与产品条款词组对应的产品合同文档、产品条款文档等。

具体的，服务器可以从预设数据库中直接获取携带产品条款词组标签的样本数据集，样本数据集包括多个样本数据。

步骤104，对样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合。

具体的，服务器会对样本数据集中各样本数据进行n-gram分词，得到各样本数据对应的词语集合。其中，n-gram分词是指以n为间隔进行分词。比如，当n为2时，投保年龄可以被分为投保/保年/年龄。

步骤106，对词语集合进行新词筛选，得到各样本数据对应的新词，根据新词以及样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系。

其中，新词是指新出现的词语。

具体的，服务器会遍历样本数据，对样本数据对应的词语集合中各词语进行词频统计，得到样本数据中各词语的词频，再根据各词语的词频进行新词筛选，从词语集合中筛选出各样本数据对应的新词，根据新词以及样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系。其中，各样本数据对应的新词可以为一个，也可以为多个。

步骤108，对样本数据进行拆分，得到样本数据对应的短句集合，根据第一对应关系和短句集合进行模型训练，得到文本分类模型，文本分类模型用于确定短句集合中各短句与产品条款词组之间的第二对应关系。

其中，短句集合是指根据标点符号对样本数据进行拆分，得到的短句的集合。文本分类模型是指用于对文本数据进行分类的模型，通过将文本数据输入，可以得到文本数据所属类别的输出，在本方案中，输入的文本数据即是指短句集合中各短句，输出的文本数据所属类别即是指短句对应的产品条款词组。

具体的，服务器会根据标点符号对样本数据进行拆分，得到样本数据对应的短句集合，将短句集合中各短句作为输入，将与各样本数据对应的产品条款词组标签作为监督学习标签，同时结合第一对应关系，对初始文本分类网络进行模型训练，得到文本分类模型。

上述文本分类模型构建方法，通过获取携带产品条款词组标签的样本数据集，对样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合，对词语集合进行新词筛选，得到各样本数据对应的新词，根据新词以及样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系，根据第一对应关系以及样本数据集中各样本数据对初始文本分类网络进行模型训练，得到文本分类模型，能够实现对可识别出短句与产品条款词组之间的对应关系的文本分类模型的获取。

在其中一个实施例中，对词语集合进行新词筛选，得到各样本数据对应的新词包括：

遍历样本数据，对词语集合中各词语进行词频统计，得到样本数据中各词语的词频；

根据各词语的词频，计算样本数据中各词语之间的互信息；

根据互信息计算结果，从词语集合中筛选出样本数据对应的备选新词集合；

根据备选新词集合，得到样本数据对应的新词。

其中，词频是指词语出现的次数。互信息是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。在本实施例中，互信息体现了两个词语之间的相互依赖程度。互信息值越高，表示两个词语之间的相关性越高，则这两个词语组成短语的可能性越大。

具体的，服务器会遍历样本数据，对词语集合中各词语进行词频统计，得到样本数据中各词语的词频，根据各词语的词频，计算样本数据中各词语之间的互信息，根据互信息计算结果比对预设互信息阈值，从样本数据对应的词语集合中筛选出样本数据对应的备选新词集合，再通过对备选新词集合进行进一步筛选，得到与样本数据对应的新词。

具体的，以两个词语(第一词语x和第二词语y)为例，对根据各词语的词频，计算样本数据中各词语之间的互信息的方式进行说明，服务器会根据第一词语x的词频计算第一词语x在样本数据中出现的第一概率，根据第二词语y的词频计算第二词语y在样本数据中出现的第二概率，并通过遍历样本数据，计算第一词语x和第二词语y组成的词组xy在样本数据中出现的第三概率，根据第一概率p(x)、第二概率p(y)、第三概率p(x，y)以及互信息计算公式，计算第一词语x和第二词语y之间的互信息。举例说明，互信息计算公式具体可以为：

在本实施例中，通过获取样本数据中各词语的词频，根据各词语的词频，计算样本数据中各词语之间的互信息，根据互信息计算结果，从词语集合中筛选出样本数据对应的备选新词集合，根据备选新词集合，得到样本数据对应的新词，能够实现对样本数据对应的新词的获取。

在其中一个实施例中，根据备选新词集合，得到样本数据对应的新词包括：

根据备选新词集合中各备选新词在样本数据中的位置，计算各备选新词的左右熵；

根据各备选新词的左右熵以及预设统计量得分公式，计算各备选新词的统计量得分，并计算各备选新词的平均互信息；

根据统计量得分和平均互信息，对各备选新词进行排序，得到样本数据对应的新词。

其中，熵表示随机变量不确定性的量度。左右熵包括左熵和右熵，左熵是指多字词表达的左边界的熵，右熵是指多字词表达的右边界的熵。左边界的熵可通过对词语左边所有可能的词以及词频，计算信息熵得到。同理，右边界的熵可通过对词语右边所有可能的词以及词频，计算信息熵得到。平均互信息用于度量词语内聚程度。

具体的，服务器会根据备选新词集合中各备选新词在样本数据中的位置，得到各备选新词的左边界词语集合以及右边界词语集合，进而根据左边界词语集合中各词语的词频计算左边界的熵，根据右边界词语集合中各词语的词频计算右边界的熵，得到各备选新词的左右熵，然后将给备选新词的左右熵带入预设统计量得分公式，计算各备选新词的统计量得分，并根据各备选新词在样本数据集中出现的概率以及分别在各样本数据中出现的概率计算各备选新词的平均互信息，通过叠加统计量得分和平均互信息，得到各备选新词的候选词得分，根据候选词得分，对各备选新词进行排序，得到与样本数据对应的新词。其中，在根据候选词得分，对各备选新词进行排序，得到与样本数据对应的新词时，可以预设新词个数N，根据排序结果从各备选新词中筛选出排名靠前的N个备选新词作为新词，也可以预设分数阈值，将候选词得分大于预设分数阈值的备选新词都作为新词。

举例说明，在计算左右熵时利用的公式具体可以为：

其中，w_n|w表示左边界词语集合或右边界词语集合。预设统计量得分公式具体可以为：

其中，LE和RE分别表示左右熵大小，|LE-RE|表示LE与RE的差的绝对值。

在本实施例中，通过根据备选新词集合中各备选新词在样本数据中的位置计算各备选新词的统计量得分，并计算各备选新词的平均互信息，根据统计量得分和平均互信息，对各备选新词进行排序，得到样本数据对应的新词，能够实现对样本数据对应的新词的获取。

在其中一个实施例中，计算各备选新词的平均互信息包括：

计算各备选新词在样本数据集中出现的第一概率以及分别在各样本数据中出现的第二概率；

获取样本数据集的样本数量，根据样本数量、第一概率以及第二概率，计算各备选新词的平均互信息。

具体的，服务器会计算各备选新词在样本数据集中出现的第一概率以及分别在各样本数据中出现的第二概率，获取样本数据集的样本数量，将样本数据、第一概率以及第二概率带入预设平均互信息计算公式，计算各备选新词的平均互信息。其中，预设平均互信息计算公式具体可以为：

其中p(w)是指第一概率，n是指样本数量，p(c1)…p(cn)是指备选新词分别在各样本数据中出现的第二概率。

在本实施例中，通过获取样本数据集的样本数量，根据样本数量、第一概率以及第二概率，计算各备选新词的平均互信息，能够实现对各备选新词的平均互信息的计算，从而可以利用平均互信息实现新词筛选。

在其中一个实施例中，根据第一对应关系和短句集合进行模型训练，得到文本分类模型包括：

根据第一对应关系设置初始文本分类网络的隐藏层参数；

将短句集合作为输入，将与各样本数据对应的产品条款词组标签作为监督学习标签，对初始文本分类网络进行模型训练，得到文本分类模型。

具体的，根据第一对应关系设置初始文本分类网络的隐藏层参数是指将与产品条款词组对应的新词作为确定短句集合中各短句与产品条款词组之间的第二对应关系的依据，即利用新词对各短句进行识别，确定各短句与产品条款词组之间的第二对应关系。服务器会根据第一对应关系设置初始文本分类网络的隐藏层参数，将短句集合作为输入，将与各样本数据对应的产品条款词组标签作为监督学习标签，对初始文本分类网络进行模型训练，得到文本分类模型。

举例说明，初始文本分类模型具体可以是Fast text模型，如图2所示，Fast text模型包括输入层、单层隐藏层(hidden)以及输出层(output)，在本实施例中，X1、X2、……X_N-1、X_N是指短句集合中各短句。Fast text模型中的隐藏层，可以对短句集合中各短句进行分词，得到与各短句对应的拆分词语集合，再根据拆分词语集合构造与各短句对应的特征向量，将特征向量通过线性变换进行映射，根据映射结果输出短句集合中各短句对应于各产品条款词组的概率，从而可以从中选取概率最大的产品条款词组，作为与短句对应的产品条款词组，确定各短句与产品条款词组之间的第二对应关系。

本实施例中，通过根据第一对应关系设置初始文本分类网络的隐藏层参数，将短句集合作为输入，将与各样本数据对应的产品条款词组标签作为监督学习标签，对初始文本分类网络进行模型训练，得到文本分类模型，能够实现对文本分类模型的训练，得到可识别出短句与产品条款词组之间的对应关系的文本分类模型。

在一个实施例中，如图3所示，提供了一种文本数据处理方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤302，获取待处理文本数据，对待处理文本数据进行拆分，得到待处理文本数据对应的文本短句集合。

步骤304，将文本短句集合输入已训练的文本分类模型，得到文本短句集合中各文本短句与产品条款词组之间的类别对应关系，已训练的文本分类模型根据上述文本分类模型构建方法构建。

步骤306，根据类别对应关系，从待处理文本数据中筛选出与各产品条款词组对应的有效文本短句。

步骤308，根据有效文本短句，得到有效产品条款信息。

其中，待处理文本数据是指待处理的产品合同文档、产品条款文档等。有效文本短句是指可以确定与产品条款词组之间的类别对应关系的文本短句。有效产品条款信息是指产品条款词组和产品条款词组描述组成的信息。产品条款词组描述是指对合同文档或条款文档中产品条款词组的解释说明，举例说明，当产品条款词组为投保期时，产品条款词组描述具体可以为投保期是六个月。更进一步的，产品条款词组描述具体也可以直接是六个月。

具体的，服务器会获取待处理文本数据，根据标点符号对待处理文本数据进行拆分，得到待处理文本数据对应的文本短句集合，将文本短句集合中各文本短句输入已训练的文本分类模型，通过文本分类模型中的隐藏层对各文本短句进行分词，得到与各文本短句对应的文本词语集合，再根据文本词语集合构造与各文本短句对应的特征向量，根据与各文本短句对应的特征向量得到各文本短句归属于各产品条款词组的概率，根据各文本短句归属于各产品条款词组的概率，确定各文本短句与产品条款词组之间的类别对应关系，根据类别对应关系，从待处理文本数据中筛选出与各产品条款词组对应的有效文本短句，根据有效文本短句，得到有效产品条款信息。

其中，由于文本分类模型中的隐藏层是根据第一对应关系设置的，利用文本分类模型对文本短句集合中各文本短句进行分类，实际就是识别文本短句中的新词，根据文本短句中的新词进行分类，当文本短句中存在与产品条款词组对应的新词时，就可以确定文本短句与产品条款词组之间的类别对应关系，因此，当文本短句中不存在与产品条款词组对应的新词时，此时文本分类模型虽然也可以输出文本短句与产品条款词组之间的类别对应关系，但此时得到的文本短句归属于各产品条款词组的概率都比较小，且比较接近，即可认为实际上是不存在类别对应关系的。所以，在根据类别对应关系，从待处理文本数据中筛选出与各产品条款词组对应的有效文本短句时，可通过比对概率阈值和与类别对应关系对应的概率(即文本短句归属于各产品条款词组的概率中的最大概率)的方式，确定文本短句与产品条款词组之间实际上是否存在类别对应关系，筛选出有效文本短句。

上述文本数据处理方法，可以根据文本分类模型，确定待处理文本数据中各文本短句与产品条款词组之间的类别对应关系，根据类别对应关系，从待处理文本数据中筛选出与各产品条款词组对应的有效文本短句，根据有效文本短句，得到有效产品条款信息，不需要阅读冗长的待处理文本数据，能够提高有效信息获取效率。

在其中一个实施例中，根据有效文本短句，得到有效产品条款信息包括：

根据有效文本短句对应的条款对应关系，确定有效文本短句对应的目标新词；

根据目标新词遍历有效文本短句，得到有效描述信息；

根据有效描述信息和有效文本短句对应的产品条款词组，得到有效产品条款信息。

其中，条款对应关系是指有效文本短句与产品条款词组的对应关系。有效描述信息是指对产品条款词组的解释说明，举例说明，当产品条款词组为投保期时，有效描述信息具体可以为投保期是六个月。更进一步的，有效描述信息具体也可以直接是六个月。

具体的，服务器会根据有效文本短句对应的条款对应关系以及产品条款词组与新词之间的第一对应关系，确定有效文本短句对应的目标新词，根据目标新词遍历有效文本短句，在有效文本短句中定位到目标新词，根据目标新词识别出有效描述信息，根据有效描述信息和有效文本短句对应的产品条款词组，得到有效产品条款信息。

在本实施例中，通过根据有效文本短句对应的条款对应关系，确定目标新词，根据目标新词遍历有效文本短句，得到有效描述信息，根据有效描述信息和有效文本短句对应的产品条款词组，得到有效产品条款信息，能够实现对有效产品条款信息的获取。

如图4所示，提供一个应用场景来说明本申请的文本分类模型构建方法以及文本数据处理方法，本申请的文本分类模型构建方法以及文本数据处理方法在该应用场景的应用如下：

在文本分类模型构建之前，先通过预处理得到样本保险条款文档集合，具体的，预处理可以是指将PDF、word等格式的保险条款转换为纯文本格式。在文本分类模型构建阶段，服务器获取携带产品条款词组标签的样本保险条款文档集合，样本保险条款文档集合包括多个样本保险条款文档，对样本保险条款文档集合中各样本保险条款文档进行分词，得到各样本保险条款文档对应的词语集合，对词语集合进行新词筛选，得到各样本保险条款文档对应的新词(即建立词库)，根据新词以及样本保险条款文档携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系，对样本保险条款文档进行拆分，得到样本保险条款文档对应的短句集合，根据第一对应关系和短句集合进行模型训练，得到文本分类模型(即模型构建)，文本分类模型用于确定短句集合中各短句与产品条款词组之间的第二对应关系。在模型处理阶段，服务器获取待处理保险条款文档，对待处理保险条款文档进行拆分，得到待处理保险条款文档对应的文本短句集合，将文本短句集合输入已训练的文本分类模型，得到文本短句集合中各文本短句与产品条款词组之间的类别对应关系，已训练的文本分类模型根据上述文本分类模型构建方法构建，根据类别对应关系，从待处理保险条款文档中筛选出与各产品条款词组对应的有效文本短句，根据有效文本短句，得到有效产品条款信息(即结构化信息)。

应该理解的是，虽然图1和图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1和图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种文本分类模型构建装置，包括：样本获取模块502、分词模块504、筛选模块506和训练模块508，其中：

样本获取模块502，用于获取携带产品条款词组标签的样本数据集，样本数据集包括多个样本数据；

分词模块504，用于对样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合；

筛选模块506，用于对词语集合进行新词筛选，得到各样本数据对应的新词，根据新词以及样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系；

训练模块508，用于对样本数据进行拆分，得到样本数据对应的短句集合，根据第一对应关系和短句集合进行模型训练，得到文本分类模型，文本分类模型用于确定短句集合中各短句与产品条款词组之间的第二对应关系。

上述文本分类模型构建装置，通过获取携带产品条款词组标签的样本数据集，对样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合，对词语集合进行新词筛选，得到各样本数据对应的新词，根据新词以及样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系，根据第一对应关系以及样本数据集中各样本数据对初始文本分类网络进行模型训练，得到文本分类模型，能够实现对可识别出短句与产品条款词组之间的对应关系的文本分类模型的获取。

在其中一个实施例中，筛选模块还用于遍历样本数据，对词语集合中各词语进行词频统计，得到样本数据中各词语的词频，根据各词语的词频，计算样本数据中各词语之间的互信息，根据互信息计算结果，从词语集合中筛选出样本数据对应的备选新词集合，根据备选新词集合，得到样本数据对应的新词。

在其中一个实施例中，筛选模块还用于根据备选新词集合中各备选新词在样本数据中的位置，计算各备选新词的左右熵，根据各备选新词的左右熵以及预设统计量得分公式，计算各备选新词的统计量得分，并计算各备选新词的平均互信息，根据统计量得分和平均互信息，对各备选新词进行排序，得到样本数据对应的新词。

在其中一个实施例中，筛选模块还用于计算各备选新词在样本数据集中出现的第一概率以及分别在各样本数据中出现的第二概率，获取样本数据集的样本数量，根据样本数量、第一概率以及第二概率，计算各备选新词的平均互信息。

在其中一个实施例中，训练模块还用于根据第一对应关系设置初始文本分类网络的隐藏层参数，将短句集合作为输入，将与各样本数据对应的产品条款词组标签作为监督学习标签，对初始文本分类网络进行模型训练，得到文本分类模型。

在一个实施例中，如图6所示，提供了一种文本数据处理装置，包括：文本获取模块602、分类模块604、第一处理模块606和第二处理模块608，其中：

文本获取模块602，用于获取待处理文本数据，对待处理文本数据进行拆分，得到待处理文本数据对应的文本短句集合；

分类模块604，用于将文本短句集合输入已训练的文本分类模型，得到文本短句集合中各文本短句与产品条款词组之间的类别对应关系，已训练的文本分类模型根据上述文本分类模型构建方法构建；

第一处理模块606，用于根据类别对应关系，从待处理文本数据中筛选出与各产品条款词组对应的有效文本短句；

第二处理模块608，用于根据有效文本短句，得到有效产品条款信息。

上述文本数据处理装置，可以根据文本分类模型，确定待处理文本数据中各文本短句与产品条款词组之间的类别对应关系，根据类别对应关系，从待处理文本数据中筛选出与各产品条款词组对应的有效文本短句，根据有效文本短句，得到有效产品条款信息，不需要阅读冗长的待处理文本数据，能够提高有效信息获取效率。

在其中一个实施例中，第二处理模块还用于根据有效文本短句对应的条款对应关系，确定有效文本短句对应的目标新词，根据目标新词遍历有效文本短句，得到有效描述信息，根据有效描述信息和有效文本短句对应的产品条款词组，得到有效产品条款信息。

关于文本分类模型构建装置的具体限定可以参见上文中对于文本分类模型构建方法的限定，关于文本数据处理装置的具体限定可以参见上文中对于文本数据处理方法的限定，在此不再赘述。上述文本分类模型构建装置和文本数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储携带产品条款词组标签的样本数据集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分类模型构建方法以及文本数据处理方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：遍历样本数据，对词语集合中各词语进行词频统计，得到样本数据中各词语的词频，根据各词语的词频，计算样本数据中各词语之间的互信息，根据互信息计算结果，从词语集合中筛选出样本数据对应的备选新词集合，根据备选新词集合，得到样本数据对应的新词。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据备选新词集合中各备选新词在样本数据中的位置，计算各备选新词的左右熵，根据各备选新词的左右熵以及预设统计量得分公式，计算各备选新词的统计量得分，并计算各备选新词的平均互信息，根据统计量得分和平均互信息，对各备选新词进行排序，得到样本数据对应的新词。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：计算各备选新词在样本数据集中出现的第一概率以及分别在各样本数据中出现的第二概率，获取样本数据集的样本数量，根据样本数量、第一概率以及第二概率，计算各备选新词的平均互信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据第一对应关系设置初始文本分类网络的隐藏层参数，将短句集合作为输入，将与各样本数据对应的产品条款词组标签作为监督学习标签，对初始文本分类网络进行模型训练，得到文本分类模型。

根据有效文本短句，得到有效产品条款信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据有效文本短句对应的条款对应关系，确定有效文本短句对应的目标新词，根据目标新词遍历有效文本短句，得到有效描述信息，根据有效描述信息和有效文本短句对应的产品条款词组，得到有效产品条款信息。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：遍历样本数据，对词语集合中各词语进行词频统计，得到样本数据中各词语的词频，根据各词语的词频，计算样本数据中各词语之间的互信息，根据互信息计算结果，从词语集合中筛选出样本数据对应的备选新词集合，根据备选新词集合，得到样本数据对应的新词。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据备选新词集合中各备选新词在样本数据中的位置，计算各备选新词的左右熵，根据各备选新词的左右熵以及预设统计量得分公式，计算各备选新词的统计量得分，并计算各备选新词的平均互信息，根据统计量得分和平均互信息，对各备选新词进行排序，得到样本数据对应的新词。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：计算各备选新词在样本数据集中出现的第一概率以及分别在各样本数据中出现的第二概率，获取样本数据集的样本数量，根据样本数量、第一概率以及第二概率，计算各备选新词的平均互信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据第一对应关系设置初始文本分类网络的隐藏层参数，将短句集合作为输入，将与各样本数据对应的产品条款词组标签作为监督学习标签，对初始文本分类网络进行模型训练，得到文本分类模型。

根据有效文本短句，得到有效产品条款信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据有效文本短句对应的条款对应关系，确定有效文本短句对应的目标新词，根据目标新词遍历有效文本短句，得到有效描述信息，根据有效描述信息和有效文本短句对应的产品条款词组，得到有效产品条款信息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本分类模型构建方法，所述方法包括：

获取携带产品条款词组标签的样本数据集，所述样本数据集包括多个样本数据；

对所述样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合；

对所述词语集合进行新词筛选，得到各样本数据对应的新词，根据所述新词以及所述样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系；

对所述样本数据进行拆分，得到所述样本数据对应的短句集合，根据所述第一对应关系和所述短句集合进行模型训练，得到文本分类模型，所述文本分类模型用于确定所述短句集合中各短句与产品条款词组之间的第二对应关系。

2.根据权利要求1所述的方法，其特征在于，所述对所述词语集合进行新词筛选，得到各样本数据对应的新词包括：

遍历所述样本数据，对所述词语集合中各词语进行词频统计，得到所述样本数据中各词语的词频；

根据所述各词语的词频，计算所述样本数据中各词语之间的互信息；

根据互信息计算结果，从所述词语集合中筛选出所述样本数据对应的备选新词集合；

根据所述备选新词集合，得到所述样本数据对应的新词。

3.根据权利要求2所述的方法，其特征在于，所述根据所述备选新词集合，得到所述样本数据对应的新词包括：

根据所述备选新词集合中各备选新词在所述样本数据中的位置，计算各备选新词的左右熵；

根据各所述备选新词的左右熵以及预设统计量得分公式，计算各备选新词的统计量得分，并计算各所述备选新词的平均互信息；

根据所述统计量得分和所述平均互信息，对各所述备选新词进行排序，得到所述样本数据对应的新词。

4.根据权利要求3所述的方法，其特征在于，所述计算各所述备选新词的平均互信息包括：

计算各所述备选新词在所述样本数据集中出现的第一概率以及分别在各所述样本数据中出现的第二概率；

获取所述样本数据集的样本数量，根据所述样本数量、所述第一概率以及所述第二概率，计算各所述备选新词的平均互信息。

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一对应关系和所述短句集合进行模型训练，得到文本分类模型包括：

根据所述第一对应关系设置初始文本分类网络的隐藏层参数；

将所述短句集合作为输入，将与各所述样本数据对应的产品条款词组标签作为监督学习标签，对所述初始文本分类网络进行模型训练，得到文本分类模型。

6.一种文本数据处理方法，所述方法包括：

获取待处理文本数据，对所述待处理文本数据进行拆分，得到所述待处理文本数据对应的文本短句集合；

将所述文本短句集合输入已训练的文本分类模型，得到所述文本短句集合中各文本短句与产品条款词组之间的类别对应关系，所述已训练的文本分类模型根据如权利要求1-5任意一项所述的方法构建；

根据所述类别对应关系，从所述待处理文本数据中筛选出与各产品条款词组对应的有效文本短句；

根据所述有效文本短句，得到有效产品条款信息。

7.根据权利要求6所述的方法，其特征在于，所述根据所述有效文本短句，得到有效产品条款信息包括：

根据所述有效文本短句对应的条款对应关系，确定所述有效文本短句对应的目标新词；

根据所述目标新词遍历所述有效文本短句，得到有效描述信息；

根据所述有效描述信息和所述有效文本短句对应的产品条款词组，得到有效产品条款信息。

8.一种文本分类模型构建装置，其特征在于，所述装置包括：

样本获取模块，用于获取携带产品条款词组标签的样本数据集，所述样本数据集包括多个样本数据；

分词模块，用于对所述样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合；

筛选模块，用于对所述词语集合进行新词筛选，得到各样本数据对应的新词，根据所述新词以及所述样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系；

训练模块，用于对所述样本数据进行拆分，得到所述样本数据对应的短句集合，根据所述第一对应关系和所述短句集合进行模型训练，得到文本分类模型，所述文本分类模型用于确定所述短句集合中各短句与产品条款词组之间的第二对应关系。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。