CN109933790A

CN109933790A - 一种文本特征提取方法及系统

Info

Publication number: CN109933790A
Application number: CN201910155204.5A
Authority: CN
Inventors: 张宇; 郭业亮; 张爽; 李显锋; 熊纯; 张永强
Original assignee: Wuhan Dameng Database Co Ltd
Current assignee: Wuhan Dayun Data Technology Co ltd; Wuhan Dream Database Co ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2019-06-25
Anticipated expiration: 2039-03-01
Also published as: CN109933790B

Abstract

本发明公开一种文本特征提取方法，包括以下步骤：步骤S1、获取样本数据集，根据所述样本数据集获取样本矩阵；步骤S2、以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据，获取所述非平滑非负矩阵分解算法的目标函数；步骤S3、根据所述目标函数构造近端函数，根据所述近端函数求取最优样本矩阵；步骤S4、根据所述最优样本矩阵构建样本矩阵的迭代公式，根据所述迭代公式对所述样本矩阵进行迭代更新，得到特征矩阵。本发明在进行文本特征提取时，收敛速度快，提取效率高。

Description

一种文本特征提取方法及系统

技术领域

本发明涉及文本处理技术领域，具体涉及一种文本特征提取方法及系统。

背景技术

在公安部门的案件侦破过程中，办案人员会记录一些重要的与案件相关的信息，比如：作案类别、作案区域、作案时间、作案地点和作案手法等。这些重要的案件特征一部分是结构化的，后续处理的难度不大，但是像作案时间、作案地点和作案手法这些案件特征被记录在非结构化的案情描述文本中时，如果要从非结构化的案情描述中提取特定类型的案件特征，则依赖于人工干预，比如人工提取特定类型的案件特征，或者人工标注大量的训练语料。这种方式存在人力成本大、效率低的问题。

非负矩阵分解，即NMF，由于其非负的约束使得其获得解具有很好的可解释性，因此已经成为机器学习和信号处理领域的研究热点。此外，它在学习数据有效的特征表示问题上表现出了巨大的潜力。因此，现有技术中，有通过非负矩阵分解实现非结构化文本的特征提取，但是传统的非负矩阵分解采用乘性迭代的方式获得最优解存在收敛速度慢的问题。

发明内容

本发明的目的在于克服上述技术不足，提供一种文本特征提取方法及系统，解决现有技术中非结构文本的特征提取依赖人力以及提取文本特征收敛速度慢的技术问题。

为达到上述技术目的，本发明的技术方案提供一种文本特征提取方法，包括以下步骤：

步骤S1、获取样本数据集，根据所述样本数据集获取样本矩阵；

步骤S2、以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据，获取所述非平滑非负矩阵分解算法的目标函数；

步骤S3、根据所述目标函数构造近端函数，根据所述近端函数求取最优样本矩阵；

步骤S4、根据所述最优样本矩阵构建样本矩阵的迭代公式，根据所述迭代公式对所述样本矩阵进行迭代更新，得到特征矩阵。

本发明还提供一种文本特征提取系统，包括样本模块、目标函数模块、最优样本模块以及迭代模块；

所述样本模块用于获取样本数据集，根据所述样本数据集获取样本矩阵；

所述目标函数模块用于以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据，获取所述非平滑非负矩阵分解算法的目标函数；

所述最优样本模块用于根据所述目标函数构造近端函数，根据所述近端函数求取最优样本矩阵；

所述迭代模块用于根据所述最优样本矩阵构建样本矩阵的迭代公式，根据所述迭代公式对所述样本矩阵进行迭代更新，得到特征矩阵。

本发明还提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现所述文本特征提取方法。

与现有技术相比，本发明的有益效果包括：本发明基于Nesterov理论，创新性的提出了一种非平滑非负矩阵的快速分解方法，并利用该分解方法自动的学习文本数据的特征，通过该方法济进行文本特征的提取能够有效地节约人力成本，加速算法收敛速度。

附图说明

图1是本发明提供的文本特征提取方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1：

如图1所示，本发明的实施例1提供了一种文本特征提取方法，包括以下步骤：

对于学习非结构的文本数据有效的特征表示的问题，特征提取依赖大量的人力成本，而基于非负矩阵分解的自动特征提取方法又存在收敛速度慢的问题，针对此问题本发明提出了一种基于非平滑非负矩阵分解的方法自动学习有效的案件特征。本发明通过目标函数构造近端函数，利用近端函数求取最优样本矩阵，再跟据最优样本矩阵构建迭代公式，使得求解特征矩阵时收敛更快速，提高文本特征提取效率。

优选的，所述步骤S1具体为：

获取多条样本数据，构造所述样本数据集；

对每一条所述样本数据进行向量表示，得到样本向量；

对各所述样本向量进行归一化处理，得到所述样本矩阵。

优选的，所述向量表示具体为：

对所述样本数据进行中文分词，并过滤掉所述样本数据中的停用词，得到所述样本数据的词序列；

基于所有所述样本数据的词序列，构造所述样本数据集的字典，计算所述字典中每一个词的词频以及逆文本频率；

根据所述词频以及逆文本频率，计算所述样本数据中每一个词的TFIDF值，得到所述样本数据的向量表示。

具体的，采用结巴分词工具进行中文分词处理；逆文本频率IDF，其计算公式为：其中n为样本数据的个数，c为某个词在n个样本数据中的出现次数。然后将词频TF和逆文本频率IDF相乘得到TFIDF值。按照相同的方式计算每个样本数据的TFIDF值，得到样本数据的向量表示。每个样本数据的向量表示长度为字典的长度m，向量中每一维的值为样本数据中出现某个词的TFIDF值，样本数据中没有出现的词，其TFIDF值为0。根据样本数据的向量表示得到样本矩阵

优选的，所述归一化处理具体为：

其中，x_j为所述样本向量，v_j为归一化后的样本向量，m为所述样本向量的维度数。

根据归一化后的样本向量v_j即可得到所述样本矩阵。

优选的，所述步骤S2具体为：

所述非平滑非负矩阵分解算法的初始目标函数为：

其中，V为归一化后的所述样本矩阵，H为文本特征表示矩阵，W为文本特征基矩阵，|| ||_F表示矩阵的F范数，θ为调节解的稀疏性的超参数，θ∈[0,1]，I表示单位矩阵，r为文本特征向量的维度数，ll表示一个全1的向量，ll^T表示向量ll的转置；

固定所述初始目标函数中文本特征基矩阵W得到所述目标函数f₁(H)。

文本特征基矩阵W和文本特征表示矩阵H的乘积是对原始的文本矩阵V的近似。为了求解局部最优矩阵这里我们采用交替更新的方式，具体来讲就是求解最优矩阵时，我们固定住文本特征基矩阵W，将目标函数记作f₁(H)。在求解H时，我们随机初始化W并将其固定，可以理解为文本特征基矩阵W是已知的矩阵。

通过对f₁(H)的进一步分析可以得到如下引理：

引理1：f₁(H)的梯度是Lipschitz连续的，并且Lipschitz常数为L＝||S^TW^TWS||₂。

优选的，所述步骤S3具体为：

根据所述目标函数构造所述近端函数：

其中，L为Lipschitz常数，L＝||S^TW^TWS||₂，<>表示矩阵的内积；

采用拉格朗日乘子法求解所述近端函数最小值对应的最优矩阵

优选的，采用拉格朗日乘子法求解所述最优矩阵具体包括：

所述拉格朗日乘子法的K.K.T条件为：

其中，表示矩阵的Kronecker积,Y为中间参数，

基于投影梯度算法计算所述最优矩阵

其中，P()表示所述投影梯度算法，P(Z)表示将矩阵Z中所有的负数投影为0。

我们进一步分析可知，所述最优矩阵是满足所述K.K.T条件的。

优选的，所述步骤S4具体为：

所述迭代公式为：

其中，β₀为常数；

给定随机的迭代初始值β₀＝1，Y₀＝H₀，根据所述迭代公式进行迭代更新，当迭代次数达到设定阈值k时，迭代终止，得到H_k即为所述特征矩阵。

具体的，基于Nesterov理论以及所述最优矩阵的表达式，我们得到求解使得φ₁(Y,H)最小的最优矩阵和Y的迭代公式。

当满足迭代终止条件时，迭代终止，得到最终的H_k，即为最优的文本特征表示矩阵。

为了更好的理解本发明，下面代入具体数据进行说明：

取5条脱敏后的侵财类案件的案情描述构造的案件文本数据集如下所示：

corpus＝

['姚某将自己的一辆女式摩托车停放在公司门口，到次日7时许，姚某发现摩托车不见了。'；'2018年6月6日下午14时许，万某报警称从城区坐公交车到镇上时，随身携带的一台玫瑰金苹果6SP手机不见，价值：4800元。'；'程某称在小松路万达大酒店对面拉面馆内水平仪被盗。'；'民警立即联系报警人李某并赶到现场，经了解电缆(价值一万余元)被盗，民警现场勘察并将报警人带回分局做进一步调查。'；'石某在清华路客运站钱包被盗，内有人民币500元。']

对案件文本数据集corpus采用TFIDF值进行向量表示得到样本矩阵：

可以看出样本矩阵的大小为56×5，样本矩阵的每一列为一个案件文本数据的向量表示。

对样本矩阵进行列归一化处理，使得每一列元素的和为1，归一化之后的样本矩阵如下：

采用非平滑非负矩阵分解算法对归一化之后的样本矩阵进行特征提取，得到案件特征表示的特征矩阵H^T(5×10)，H^T的每一行表示一个案件文本样本的10个特征系数。

实施例2：

本发明的实施例2提供了一种文本特征提取系统，包括样本模块、目标函数模块、最优样本模块以及迭代模块；

本发明提供的文本特征提取系统，基于上述文本特征提取方法，因此上述文本特征提取方法所具备的技术效果，文本特征提取系统同样具备，在此不再赘述。

实施例3：

本发明的实施例3提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现以上任一实施例所述的文本特征提取方法。

本发明提供的计算机存储介质，用于实现文本特征提取方法，因此上述文本特征提取方法所具备的技术效果，计算机存储介质同样具备，在此不再赘述。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种文本特征提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的文本特征提取方法，其特征在于，所述步骤S1具体为：

获取多条样本数据，构造所述样本数据集；

对每一条所述样本数据进行向量表示，得到样本向量；

对各所述样本向量进行归一化处理，得到所述样本矩阵。

3.根据权利要求2所述的文本特征提取方法，其特征在于，所述向量表示具体为：

4.根据权利要求2所述的文本特征提取方法，其特征在于，所述归一化处理具体为：

5.根据权利要求2所述的文本特征提取方法，其特征在于，所述步骤S2具体为：

所述非平滑非负矩阵分解算法的初始目标函数为：

6.根据权利要求5所述的文本特征提取方法，其特征在于，所述步骤S3具体为：

根据所述目标函数构造所述近端函数：

其中，L为Lipschitz常数，L＝||S^TW^TWS||₂，<>表示矩阵的内积；

7.根据权利要求6所述的文本特征提取方法，其特征在于，采用拉格朗日乘子法求解所述最优矩阵具体包括：

所述拉格朗日乘子法的K.K.T条件为：

其中，表示矩阵的Kronecker积,Y为中间参数，

基于投影梯度算法计算所述最优矩阵

8.根据权利要求6所述的文本特征提取方法，其特征在于，所述步骤S4具体为：

所述迭代公式为：

其中，β₀为常数；

9.一种文本特征提取系统，其特征在于，包括样本模块、目标函数模块、最优样本模块以及迭代模块；

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-8任一所述的文本特征提取方法。