CN105787088A

CN105787088A - 一种基于分段编码遗传算法的文本信息分类方法

Info

Publication number: CN105787088A
Application number: CN201610144800.XA
Authority: CN
Inventors: 童飞; 童一飞; 裴凤雀; 周开俊; 江松; 卓兴成; 李东波; 何非
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2016-03-14
Filing date: 2016-03-14
Publication date: 2016-07-20
Anticipated expiration: 2036-03-14
Also published as: CN105787088B

Abstract

本发明涉及智能制造信息分析技术，尤其是涉及一种基于分段编码遗传算法的文本信息分类方法。本发明主要包括以下步骤：通过文本前处理技术生成相应的文本信息矩阵，即为群体规模，给定降维特征数，随机产生初始群体，同时标记优化目标函数值最大的染色体，记录优化函数值；染色体采用分段编码(每段对应一类)，对初始种群交叉、变异生产新的种群，计算优化种群的优化函数值。本发明可以生成优化的文本信息分类，基于分段编码/交叉的合理分类可以解决遗传算法因数据量大而产生的工作效率低下的问题，同时因分段编码/交叉可以实现分布式处理、并行操作，可极大地提高后续数据处理的效率。

Description

一种基于分段编码遗传算法的文本信息分类方法

技术领域

本发明涉及一种基于分段编码遗传算法的文本信息分类方法，属于智能信息分析技术领域。

背景技术

据不完全统计全球互联网提供的科技信息总量超过20TB，而且正以每年高于5％的速度增长。互联网带来海量文本信息的同时也产生了一些问题，一方面用户对文本信息的大量需求，另一方面文本信息的大规模积累，用户要获取想要的信息必须要花费大量的时间，而且有时需求者无法及时准确的找到所需信息。

而如何对如此庞大的文本信息进行分类检索和管理一直是研究人员研究的热点，例如以医院患者对病情的描述文本为研究对象，通过患者描述的特征(关键词)“我很头痛”、“我腿骨断了”等可以将病情快速、准确地分类，从而帮助医生诊疗。目前传统的文本分类算法主要有两类：一类是基于统计的文本分类算法，如贝叶斯分类算法、支持向量机、K-最邻近和Rocchio算法等；一类是基于规则的文本分类算法，如基于决策树、粗糙集、模糊集合等的分类算法等。这两类算法都存在计算复杂度大，难以应对大规模文本集分类的问题，而信息分类耗时太长也难以适用于实际应用，因此不具有工程应用价值。

发明内容

本发明要解决技术问题是：克服上述现有技术的缺点，提供一种可以快速、准确地对大规模文本集进行信息分类的方法，该方法具有较高的工程应用价值。

为了解决上述技术问题，本发明提出的技术方案是：一种基于分段编码遗传算法的文本信息分类方法，假设文本信息共分为t种类型，分别记为C₁,C₂,…,C_t，式中t≥2，其中C_i类文本信息预设通过k_i个特征表示，1≤i≤t；则文本信息中共有个特征，设特征向量

F = [F_{1}, F_{2}, ..., F_{k_{1}}, F_{k_{1} + 1}, F_{k_{1} + 2}, ..., F_{k_{1} + k_{2}}, F_{k_{1} + k_{2} + 1}, ..., F_{n}],

其中F₁,F₂,…,F_n分别表示不同的特征；

所述方法包括以下步骤：

第一步、从每个待分类文本信息mc中找出所有的特征，则该文本信息描述为其中表示该文本信息mc与特征向量F的关系矩阵；为关系运算符号，a_j取0或1，当a_j＝0时表示该文本信息中不包含特征F_j，当a_j＝1时表示该文本信息中包含特征F_j,其中1≤j≤n；

以每个待分类文本信息mc的关系矩阵A为染色体进行基因编码，并随机选取d个染色体生成初始种群，将初始种群作为当代种群；

第二步、对当代种群的染色体进行适应度计算来筛选保留作为子代染色体，步骤为：

步骤一、给定任一染色体的降维优化函数为

f (p) = Σ_{i = 1}^{t} (\frac{s_{i}}{m} \cdot Σ_{j = 1}^{k_{i}} \frac{x_{i j}}{s_{i}} \cdot a_{i}),

式中p为降维特征数，s_i为该染色体T中包含C_i类的所有k_i个特征总数量，x_ij为C_i类的第j个特征出现的次数，1≤i≤t，

步骤二、找到初始种群中降维优化函数值最大的染色体记为其降维优化函数值记为

步骤三、计算当代种群中所有染色体的降维优化函数值，找出使降维优化函数最大的染色体U，其降维优化函数值为f，如果则令同时找出当代种群中所有染色体的降维优化函数值最小的染色体V，其降维优化函数值为f_min，如果则令

第三步、对第二步筛选后的当代种群进行变异和交叉，得到子代种群，如不满足迭代终止条件则将子代种群作为当代种群并转到第二步，否则执行第四步；

第四步、计算第三步得到的子代种群所有染色体中包含C_i类文本信息的特征总数量s1_i，以及所有染色体中C_i类文本信息第j个特征出现的次数x1_ij，其中1≤i≤t，1≤j≤k_i，令计算每个待分类文本信息mc的目标函数值

g (m c) = \max_{i = 1, 2, ..., t} (\frac{s 1_{i}}{m 1} \cdot Σ_{j = 1}^{k_{i}} \frac{x 1_{i j}}{s 1_{i}} \cdot y_{i j})

式中，y_ij为待分类文本信息mc中C_i类文本信息第j个特征出现的次数；

第五步、将待分类文本信息mc划归到使目标函数值g(mc)最大的类，得出分类结果。

本发明先随机选取d个待分类文本信息作为训练样本，通过降维优化函数(即适应度函数)对每一代种群中的染色体采用精英保留(保留降维优化函数值大的染色体)、末尾取代(用最优染色体替代不适应的染色体)的方法将训练样本的特征数从n个逐渐剔除相应类中出现的频次低、重要性低的特征，并保留相应类中出现的频次高、重要性高的特征作为分类的依据，然后将所有的待分类的文本信息依次通过目标函数进行分类，最终得到分类结果。本发明的方法可以生成优化的文本信息分类，并极大的增加了计算过程的准确性和高效性，实践证明具有较高的工程应用价值。

本发明的迭代终止条件一般为遗传代数达到预定值时终止，当然也可以采用常规的阈值方法(需要在训练样本中选取一个阈值函数)。

上述技术方案的进一步改进是：第三步中将每个染色体顺序分成t段，其中每段对应一类，即第i段包括k_i个特征，1≤i≤t；将当代种群每个染色体对应的关系矩阵作为一行从而使当代种群的所有染色体形成一个d行n列的种群矩阵，并采用段内整列交叉移位结合段间整列交叉移位的方法对当代种群进行交叉运算。

这样，所有染色体均经列交叉，且不会改变每个染色体中基因取值为1的个数，保证了最后训练样本的特征数降维的统一性。另外，这种交叉方法无需考虑父代的染色体情况，获得的子代染色体均会有一定程度的变异效果，有利于保持种群的多样化，而且可以加快训练样本的特征数的降维，可以提高分类的速度和准确性。

本发明通过对传统遗传算法进行编码改进，通过采用段内全种群整列交叉移位重组与段间交叉相结合的方案求解，可用于分布式(离散)以及并行计算与处理，从而大大缓解了传统遗传算法、基于统计的文本分类算法和基于规则的文本分类算法在应对大数据时存在的计算量大、计算缓慢、效率低下、精确度低等问题。

优选的，第三步中在进行段内整列交叉移位以及段间整列交叉移位时，每次移位一列或多列。

上述技术方案的进一步改进是：第三步中进行变异运算时，将当代种群每个染色体对应的关系矩阵作为一行从而使当代种群的所有染色体形成一个d行n列的种群矩阵，随机产生一个0到n的随机数作为种群矩阵的列编号，另外随机产生两个0到d的随机数作为种群矩阵的行交换位置，将行交换位置的列对应的基因值进行交换。这样在交换位置变异时可以保证染色体的基因值不相同，尽可能改变原染色体值，有利于产生新的染色体，从而进一步提高计算过程的准确性和高效性。

附图说明

下面结合附图对本发明作进一步说明。

图1是本发明实施例的流程示意图。

图2为段内整列交叉的示意图。

图3为将染色体进行分段的示意图。

具体实施方式

实施例

本实施例通过病人对病情文本描述进行病情划分为例，以医院患者对病情的描述文本为研究对象，如“我很头痛”、“我腿骨断了”等，给定初始种群规模(可以为10000等固定值，表示训练样本中所有文本信息的数量)。

本实施例中文本信息共分为t种类型，即t代表可以被划分的病情种类数，分别记为C₁,C₂,…,C_t，式中t≥2，其中C_i类文本信息预设通过k_i个特征表示，1≤i≤t，如“我很头痛”和“我的头被书本砸到了”组成一类，这一类的特征表示为{“我”“很”“头痛”“的”“被”“书本”“砸到”“了”}共8个特征；则文本信息中共有个特征，设特征向量

F = [F_{1}, F_{2}, ..., F_{k_{1}}, F_{k_{1} + 1}, F_{k_{1} + 2}, ..., F_{k_{1} + k_{2}}, F_{k_{1} + k_{2} + 1}, ..., F_{n}],

其中F₁,F₂,…,F_n分别表示不同的特征；

本发明的分类方法如图1所示，包括以下步骤：

第一步、从每个待分类文本信息mc中找出所有的特征(可以通过现有技术中的文本前处理技术提取文本信息中的特征)，则该文本信息描述为其中表示该文本信息mc与特征向量F的关系矩阵；为关系运算符号，a_j取0或1，当a_j＝0时表示该文本信息中不包含特征F_j，当a_j＝1时表示该文本信息中包含特征F_j,其中1≤j≤n；

以每个待分类文本信息mc的关系矩阵A为染色体进行基因编码，并随机选取d个染色体生成初始种群，将初始种群作为当代种群。

步骤一、给定任一染色体的降维优化函数为

f (p) = Σ_{i = 1}^{t} (\frac{s_{i}}{m} \cdot Σ_{j = 1}^{k_{i}} \frac{x_{i j}}{s_{i}} \cdot a_{i}),

式中，p为降维特征数，s_i为该染色体T中包含C_i类的所有k_i个特征的总数量，x_ij为C_i类的第j个特征出现的次数，1≤i≤t，

步骤三、计算当代种群中所有染色体的降维优化函数值，找出使降维优化函数最大的染色体U，其降维优化函数值为f，如果则令

同时找出当代种群中所有染色体的降维优化函数值最小的染色体V，其降维优化函数值为f_min，如果则令

如“我的头下午很痛”和“是因为我的头上午被课本砸到了”中的特征数量为“我的”2次、“头”2次、“下午”1次、“很”1次、“痛”1次“是”1次、“因为”1次、“上午”1次、“被”1次、“课本”1次、“砸到”1次、“了”1次，“头”出现的频次为2，所以代表“头”的特征值数量是2，特征的总数量m＝14。如果预先选定“头”、“手”“脚”等作为文本信息的特征，则“头”的频次为2，“脚”的频次为0，显然当p相同时，含有“头”的染色体的f(p)更大，说明“头”在相应类中出现的频次高、重要性高，最终将得以保留。

第三步、对第二步筛选后的当代种群进行变异和交叉(可采用传统的变异和交叉方法)，得到子代种群，如不满足迭代终止条件则将子代种群作为当代种群并转到第二步，否则执行第四步。本实施例中迭代终止条件为遗传代数达到预定值时终止，如迭代30000次等。

g (m c) = \max_{i = 1, 2, ..., t} (\frac{s 1_{i}}{m 1} \cdot Σ_{j = 1}^{k_{i}} \frac{x 1_{i j}}{s 1_{i}} \cdot y_{i j})

第五步、将待分类文本信息mc划归到使目标函数值g(mc)最大的类，即待分类文本信息mc与该类的特征之间的关联性最强，因此得出分类结果。

本实施例还可以作以下改进：1)为了保证种群的交叉效果，第三步中将每个染色体顺序分成t段，如图3所示，其中每段对应一类，即第i段包括k_i个特征，1≤i≤t；将当代种群每个染色体对应的关系矩阵作为一行从而使当代种群的所有染色体形成一个d行n列的种群矩阵，并在在设定交叉概率的条件下采用段内整列交叉移位结合段间整列交叉移位的方法对当代种群进行交叉运算。

段内整列交叉移位以图2所示为例，种群矩阵的某一段共有7行7列，随机在其中选择一个3列的交配区域，然后将交配区域加到父代种群中该段的前面，再顺次后移3列即得到子代种群，此方法的好处是所有染色体均经整列交叉，且不会改变每个染色体中特征值为1的个数，保证了最后降维特征数的统一性。另外，这种交叉方法无需考虑父代染色体情况，获得的子代染色体均会有一定程度的变异效果，有利于保持种群的多样化。

段间整列交叉移位与段内整列交叉移位类似，共区别在于移位操作在段间进行。另外需要说明的是，在进行段间整列交叉移位或段内整列交叉移位时，每次可以移位一列或多列。

2)第三步中进行变异运算时，将当代种群每个染色体对应的关系矩阵作为一行从而使当代种群的所有染色体形成一个d行n列的种群矩阵，随机产生一个0到n的随机数作为种群矩阵的列编号，另外随机产生两个0到d的随机数作为种群矩阵的行交换位置，将行交换位置的列对应的基因值进行交换。这样可以保证染色体的基因值不相同，尽可能改变原染色体值，有利于产生新的染色体。

3)第四步中得到的子代种群中每个染色体的降维特征数p为预设的固定值，该固定值是技术人员大致给定的作为判断依据的特征数量，这样结合技术人员的常识可以避免训练样本中的特征剔除过多，影响分类的准确性，例如在通过文本信息判断病人病情的过程中，需要有100个特征词作为判断依据。在实施时，通过合适的交叉和变异保证训练样本中每个染色体的特征数量不小于上述预设的固定值。

本发明不局限于上述实施例所述的具体技术方案，除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换形成的技术方案，均为本发明要求的保护范围。

Claims

1.一种基于分段编码遗传算法的文本信息分类方法，分别将分为t种类型的文本信息记为C₁,C₂,…,C_t，式中t≥2，其中C_i类文本信息预设通过k_i个特征表示，1≤i≤t；则文本信息中共有个特征，设特征向量

F = [F_{1}, F_{2}, ..., F_{k_{1}}, F_{k_{1} + 1}, F_{k_{1} + 2}, ..., F_{k_{1} + k_{2}}, F_{k_{1} + k_{2} + 1}, ..., F_{n}],

其中F₁,F₂,…,F_n分别表示不同的特征；

接着进行以下步骤：

第一步、从每个待分类文本信息mc中找出所有特征，该文本信息描述为其中表示该文本信息mc与特征向量F的关系矩阵；为关系运算符号，a_j取0或1，当a_j＝0时表示该文本信息中不包含特征F_j，当a_j＝1时表示该文本信息中包含特征F_j,其中1≤j≤n；

以每个待分类文本信息mc的关系矩阵A为染色体的基因编码，并随机选取d个染色体生成初始种群，将初始种群作为当代种群；

步骤一、给定任一染色体的降维优化函数为

f (p) = Σ_{i = 1}^{t} (\frac{s_{i}}{m} \cdot Σ_{j = 1}^{k_{i}} \frac{x_{i j}}{s_{i}} \cdot a_{i}),

V = \overset{&OverBar;}{U}, f_{m i n} = \overset{&OverBar;}{f};

g (m c) = \max_{i = 1, 2, ..., t} (\frac{s 1_{i}}{m 1} \cdot Σ_{j = 1}^{k_{i}} \frac{x 1_{i j}}{s 1_{i}} \cdot y_{i j})

第五步、将待分类分配信息mc划归到使目标函数g(mc)最大的类，得出分类结果。

2.根据权利要求1所述的基于分段编码遗传算法的文本信息分类方法，其特征在于：第三步中将每个染色体顺序分成t段，其中每段对应一类，即第i段包括k_i个特征，1≤i≤t；将当代种群每个染色体对应的关系矩阵作为一行从而使当代种群的所有染色体形成一个d行n列的种群矩阵，并采用段内整列交叉移位结合段间整列交叉移位的方法对当代种群进行交叉运算。

3.根据权利要求2所述的基于分段编码遗传算法的文本信息分类方法，其特征在于：第三步中在进行段内整列交叉移位以及段间整列交叉移位时，每次移位一列或多列。

4.根据权利要求1-3之任一所述的基于分段编码遗传算法的文本信息分类方法，其特征在于：第三步中进行变异运算时，将当代种群每个染色体对应的关系矩阵作为一行从而使当代种群的所有染色体形成一个d行n列的种群矩阵，随机产生一个0到n的随机数作为种群矩阵的列编号，另外随机产生两个0到d的随机数作为种群矩阵的行交换位置，将行交换位置的列对应的基因值进行交换。