CN109933790A - 一种文本特征提取方法及系统 - Google Patents

一种文本特征提取方法及系统 Download PDF

Info

Publication number
CN109933790A
CN109933790A CN201910155204.5A CN201910155204A CN109933790A CN 109933790 A CN109933790 A CN 109933790A CN 201910155204 A CN201910155204 A CN 201910155204A CN 109933790 A CN109933790 A CN 109933790A
Authority
CN
China
Prior art keywords
sample
matrix
optimal
text
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910155204.5A
Other languages
English (en)
Other versions
CN109933790B (zh
Inventor
张宇
郭业亮
张爽
李显锋
熊纯
张永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Dayun Data Technology Co ltd
Wuhan Dream Database Co ltd
Original Assignee
Wuhan Dameng Database Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Dameng Database Co Ltd filed Critical Wuhan Dameng Database Co Ltd
Priority to CN201910155204.5A priority Critical patent/CN109933790B/zh
Publication of CN109933790A publication Critical patent/CN109933790A/zh
Application granted granted Critical
Publication of CN109933790B publication Critical patent/CN109933790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开一种文本特征提取方法,包括以下步骤:步骤S1、获取样本数据集,根据所述样本数据集获取样本矩阵;步骤S2、以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据,获取所述非平滑非负矩阵分解算法的目标函数;步骤S3、根据所述目标函数构造近端函数,根据所述近端函数求取最优样本矩阵;步骤S4、根据所述最优样本矩阵构建样本矩阵的迭代公式,根据所述迭代公式对所述样本矩阵进行迭代更新,得到特征矩阵。本发明在进行文本特征提取时,收敛速度快,提取效率高。

Description

一种文本特征提取方法及系统
技术领域
本发明涉及文本处理技术领域,具体涉及一种文本特征提取方法及系统。
背景技术
在公安部门的案件侦破过程中,办案人员会记录一些重要的与案件相关的信息,比如:作案类别、作案区域、作案时间、作案地点和作案手法等。这些重要的案件特征一部分是结构化的,后续处理的难度不大,但是像作案时间、作案地点和作案手法这些案件特征被记录在非结构化的案情描述文本中时,如果要从非结构化的案情描述中提取特定类型的案件特征,则依赖于人工干预,比如人工提取特定类型的案件特征,或者人工标注大量的训练语料。这种方式存在人力成本大、效率低的问题。
非负矩阵分解,即NMF,由于其非负的约束使得其获得解具有很好的可解释性,因此已经成为机器学习和信号处理领域的研究热点。此外,它在学习数据有效的特征表示问题上表现出了巨大的潜力。因此,现有技术中,有通过非负矩阵分解实现非结构化文本的特征提取,但是传统的非负矩阵分解采用乘性迭代的方式获得最优解存在收敛速度慢的问题。
发明内容
本发明的目的在于克服上述技术不足,提供一种文本特征提取方法及系统,解决现有技术中非结构文本的特征提取依赖人力以及提取文本特征收敛速度慢的技术问题。
为达到上述技术目的,本发明的技术方案提供一种文本特征提取方法,包括以下步骤:
步骤S1、获取样本数据集,根据所述样本数据集获取样本矩阵;
步骤S2、以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据,获取所述非平滑非负矩阵分解算法的目标函数;
步骤S3、根据所述目标函数构造近端函数,根据所述近端函数求取最优样本矩阵;
步骤S4、根据所述最优样本矩阵构建样本矩阵的迭代公式,根据所述迭代公式对所述样本矩阵进行迭代更新,得到特征矩阵。
本发明还提供一种文本特征提取系统,包括样本模块、目标函数模块、最优样本模块以及迭代模块;
所述样本模块用于获取样本数据集,根据所述样本数据集获取样本矩阵;
所述目标函数模块用于以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据,获取所述非平滑非负矩阵分解算法的目标函数;
所述最优样本模块用于根据所述目标函数构造近端函数,根据所述近端函数求取最优样本矩阵;
所述迭代模块用于根据所述最优样本矩阵构建样本矩阵的迭代公式,根据所述迭代公式对所述样本矩阵进行迭代更新,得到特征矩阵。
本发明还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述文本特征提取方法。
与现有技术相比,本发明的有益效果包括:本发明基于Nesterov理论,创新性的提出了一种非平滑非负矩阵的快速分解方法,并利用该分解方法自动的学习文本数据的特征,通过该方法济进行文本特征的提取能够有效地节约人力成本,加速算法收敛速度。
附图说明
图1是本发明提供的文本特征提取方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1:
如图1所示,本发明的实施例1提供了一种文本特征提取方法,包括以下步骤:
步骤S1、获取样本数据集,根据所述样本数据集获取样本矩阵;
步骤S2、以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据,获取所述非平滑非负矩阵分解算法的目标函数;
步骤S3、根据所述目标函数构造近端函数,根据所述近端函数求取最优样本矩阵;
步骤S4、根据所述最优样本矩阵构建样本矩阵的迭代公式,根据所述迭代公式对所述样本矩阵进行迭代更新,得到特征矩阵。
对于学习非结构的文本数据有效的特征表示的问题,特征提取依赖大量的人力成本,而基于非负矩阵分解的自动特征提取方法又存在收敛速度慢的问题,针对此问题本发明提出了一种基于非平滑非负矩阵分解的方法自动学习有效的案件特征。本发明通过目标函数构造近端函数,利用近端函数求取最优样本矩阵,再跟据最优样本矩阵构建迭代公式,使得求解特征矩阵时收敛更快速,提高文本特征提取效率。
优选的,所述步骤S1具体为:
获取多条样本数据,构造所述样本数据集;
对每一条所述样本数据进行向量表示,得到样本向量;
对各所述样本向量进行归一化处理,得到所述样本矩阵。
优选的,所述向量表示具体为:
对所述样本数据进行中文分词,并过滤掉所述样本数据中的停用词,得到所述样本数据的词序列;
基于所有所述样本数据的词序列,构造所述样本数据集的字典,计算所述字典中每一个词的词频以及逆文本频率;
根据所述词频以及逆文本频率,计算所述样本数据中每一个词的TFIDF值,得到所述样本数据的向量表示。
具体的,采用结巴分词工具进行中文分词处理;逆文本频率IDF,其计算公式为:其中n为样本数据的个数,c为某个词在n个样本数据中的出现次数。然后将词频TF和逆文本频率IDF相乘得到TFIDF值。按照相同的方式计算每个样本数据的TFIDF值,得到样本数据的向量表示。每个样本数据的向量表示长度为字典的长度m,向量中每一维的值为样本数据中出现某个词的TFIDF值,样本数据中没有出现的词,其TFIDF值为0。根据样本数据的向量表示得到样本矩阵
优选的,所述归一化处理具体为:
其中,xj为所述样本向量,vj为归一化后的样本向量,m为所述样本向量的维度数。
根据归一化后的样本向量vj即可得到所述样本矩阵。
优选的,所述步骤S2具体为:
所述非平滑非负矩阵分解算法的初始目标函数为:
其中,V为归一化后的所述样本矩阵,H为文本特征表示矩阵,W为文本特征基矩阵,|| ||F表示矩阵的F范数,θ为调节解的稀疏性的超参数,θ∈[0,1],I表示单位矩阵,r为文本特征向量的维度数,ll表示一个全1的向量,llT表示向量ll的转置;
固定所述初始目标函数中文本特征基矩阵W得到所述目标函数f1(H)。
文本特征基矩阵W和文本特征表示矩阵H的乘积是对原始的文本矩阵V的近似。为了求解局部最优矩阵这里我们采用交替更新的方式,具体来讲就是求解最优矩阵时,我们固定住文本特征基矩阵W,将目标函数记作f1(H)。在求解H时,我们随机初始化W并将其固定,可以理解为文本特征基矩阵W是已知的矩阵。
通过对f1(H)的进一步分析可以得到如下引理:
引理1:f1(H)的梯度是Lipschitz连续的,并且Lipschitz常数为L=||STWTWS||2
优选的,所述步骤S3具体为:
根据所述目标函数构造所述近端函数:
其中,L为Lipschitz常数,L=||STWTWS||2,<>表示矩阵的内积;
采用拉格朗日乘子法求解所述近端函数最小值对应的最优矩阵
优选的,采用拉格朗日乘子法求解所述最优矩阵具体包括:
所述拉格朗日乘子法的K.K.T条件为:
其中,表示矩阵的Kronecker积,Y为中间参数,
基于投影梯度算法计算所述最优矩阵
其中,P()表示所述投影梯度算法,P(Z)表示将矩阵Z中所有的负数投影为0。
我们进一步分析可知,所述最优矩阵是满足所述K.K.T条件的。
优选的,所述步骤S4具体为:
所述迭代公式为:
其中,β0为常数;
给定随机的迭代初始值β0=1,Y0=H0,根据所述迭代公式进行迭代更新,当迭代次数达到设定阈值k时,迭代终止,得到Hk即为所述特征矩阵。
具体的,基于Nesterov理论以及所述最优矩阵的表达式,我们得到求解使得φ1(Y,H)最小的最优矩阵和Y的迭代公式。
当满足迭代终止条件时,迭代终止,得到最终的Hk,即为最优的文本特征表示矩阵。
为了更好的理解本发明,下面代入具体数据进行说明:
取5条脱敏后的侵财类案件的案情描述构造的案件文本数据集如下所示:
corpus=
['姚某将自己的一辆女式摩托车停放在公司门口,到次日7时许,姚某发现摩托车不见了。';'2018年6月6日下午14时许,万某报警称从城区坐公交车到镇上时,随身携带的一台玫瑰金苹果6SP手机不见,价值:4800元。';'程某称在小松路万达大酒店对面拉面馆内水平仪被盗。';'民警立即联系报警人李某并赶到现场,经了解电缆(价值一万余元)被盗,民警现场勘察并将报警人带回分局做进一步调查。';'石某在清华路客运站钱包被盗,内有人民币500元。']
对案件文本数据集corpus采用TFIDF值进行向量表示得到样本矩阵:
可以看出样本矩阵的大小为56×5,样本矩阵的每一列为一个案件文本数据的向量表示。
对样本矩阵进行列归一化处理,使得每一列元素的和为1,归一化之后的样本矩阵如下:
采用非平滑非负矩阵分解算法对归一化之后的样本矩阵进行特征提取,得到案件特征表示的特征矩阵HT(5×10),HT的每一行表示一个案件文本样本的10个特征系数。
实施例2:
本发明的实施例2提供了一种文本特征提取系统,包括样本模块、目标函数模块、最优样本模块以及迭代模块;
所述样本模块用于获取样本数据集,根据所述样本数据集获取样本矩阵;
所述目标函数模块用于以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据,获取所述非平滑非负矩阵分解算法的目标函数;
所述最优样本模块用于根据所述目标函数构造近端函数,根据所述近端函数求取最优样本矩阵;
所述迭代模块用于根据所述最优样本矩阵构建样本矩阵的迭代公式,根据所述迭代公式对所述样本矩阵进行迭代更新,得到特征矩阵。
本发明提供的文本特征提取系统,基于上述文本特征提取方法,因此上述文本特征提取方法所具备的技术效果,文本特征提取系统同样具备,在此不再赘述。
实施例3:
本发明的实施例3提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现以上任一实施例所述的文本特征提取方法。
本发明提供的计算机存储介质,用于实现文本特征提取方法,因此上述文本特征提取方法所具备的技术效果,计算机存储介质同样具备,在此不再赘述。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。

Claims (10)

1.一种文本特征提取方法,其特征在于,包括以下步骤:
步骤S1、获取样本数据集,根据所述样本数据集获取样本矩阵;
步骤S2、以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据,获取所述非平滑非负矩阵分解算法的目标函数;
步骤S3、根据所述目标函数构造近端函数,根据所述近端函数求取最优样本矩阵;
步骤S4、根据所述最优样本矩阵构建样本矩阵的迭代公式,根据所述迭代公式对所述样本矩阵进行迭代更新,得到特征矩阵。
2.根据权利要求1所述的文本特征提取方法,其特征在于,所述步骤S1具体为:
获取多条样本数据,构造所述样本数据集;
对每一条所述样本数据进行向量表示,得到样本向量;
对各所述样本向量进行归一化处理,得到所述样本矩阵。
3.根据权利要求2所述的文本特征提取方法,其特征在于,所述向量表示具体为:
对所述样本数据进行中文分词,并过滤掉所述样本数据中的停用词,得到所述样本数据的词序列;
基于所有所述样本数据的词序列,构造所述样本数据集的字典,计算所述字典中每一个词的词频以及逆文本频率;
根据所述词频以及逆文本频率,计算所述样本数据中每一个词的TFIDF值,得到所述样本数据的向量表示。
4.根据权利要求2所述的文本特征提取方法,其特征在于,所述归一化处理具体为:
其中,xj为所述样本向量,vj为归一化后的样本向量,m为所述样本向量的维度数。
5.根据权利要求2所述的文本特征提取方法,其特征在于,所述步骤S2具体为:
所述非平滑非负矩阵分解算法的初始目标函数为:
其中,V为归一化后的所述样本矩阵,H为文本特征表示矩阵,W为文本特征基矩阵,|| ||F表示矩阵的F范数,θ为调节解的稀疏性的超参数,θ∈[0,1],I表示单位矩阵,r为文本特征向量的维度数,ll表示一个全1的向量,llT表示向量ll的转置;
固定所述初始目标函数中文本特征基矩阵W得到所述目标函数f1(H)。
6.根据权利要求5所述的文本特征提取方法,其特征在于,所述步骤S3具体为:
根据所述目标函数构造所述近端函数:
其中,L为Lipschitz常数,L=||STWTWS||2,<>表示矩阵的内积;
采用拉格朗日乘子法求解所述近端函数最小值对应的最优矩阵
7.根据权利要求6所述的文本特征提取方法,其特征在于,采用拉格朗日乘子法求解所述最优矩阵具体包括:
所述拉格朗日乘子法的K.K.T条件为:
其中,表示矩阵的Kronecker积,Y为中间参数,
基于投影梯度算法计算所述最优矩阵
其中,P()表示所述投影梯度算法,P(Z)表示将矩阵Z中所有的负数投影为0。
8.根据权利要求6所述的文本特征提取方法,其特征在于,所述步骤S4具体为:
所述迭代公式为:
其中,β0为常数;
给定随机的迭代初始值β0=1,Y0=H0,根据所述迭代公式进行迭代更新,当迭代次数达到设定阈值k时,迭代终止,得到Hk即为所述特征矩阵。
9.一种文本特征提取系统,其特征在于,包括样本模块、目标函数模块、最优样本模块以及迭代模块;
所述样本模块用于获取样本数据集,根据所述样本数据集获取样本矩阵;
所述目标函数模块用于以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据,获取所述非平滑非负矩阵分解算法的目标函数;
所述最优样本模块用于根据所述目标函数构造近端函数,根据所述近端函数求取最优样本矩阵;
所述迭代模块用于根据所述最优样本矩阵构建样本矩阵的迭代公式,根据所述迭代公式对所述样本矩阵进行迭代更新,得到特征矩阵。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-8任一所述的文本特征提取方法。
CN201910155204.5A 2019-03-01 2019-03-01 一种文本特征提取方法及系统 Active CN109933790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910155204.5A CN109933790B (zh) 2019-03-01 2019-03-01 一种文本特征提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910155204.5A CN109933790B (zh) 2019-03-01 2019-03-01 一种文本特征提取方法及系统

Publications (2)

Publication Number Publication Date
CN109933790A true CN109933790A (zh) 2019-06-25
CN109933790B CN109933790B (zh) 2020-06-26

Family

ID=66986203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910155204.5A Active CN109933790B (zh) 2019-03-01 2019-03-01 一种文本特征提取方法及系统

Country Status (1)

Country Link
CN (1) CN109933790B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159387A (zh) * 2019-12-12 2020-05-15 北京睿企信息科技有限公司 基于多维度报警信息文本相似度分析的推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090289942A1 (en) * 2008-05-20 2009-11-26 Timothee Bailloeul Image learning, automatic annotation, retrieval method, and device
CN102779162A (zh) * 2012-06-14 2012-11-14 浙江大学 一种带局域限制的矩阵概念分解方法
CN106779090A (zh) * 2016-12-15 2017-05-31 南开大学 一种基于自适应Dropout非负矩阵分解的特征学习模型
CN109063698A (zh) * 2018-10-23 2018-12-21 深圳大学 一种非负特征提取及人脸识别应用方法、系统及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090289942A1 (en) * 2008-05-20 2009-11-26 Timothee Bailloeul Image learning, automatic annotation, retrieval method, and device
CN102779162A (zh) * 2012-06-14 2012-11-14 浙江大学 一种带局域限制的矩阵概念分解方法
CN106779090A (zh) * 2016-12-15 2017-05-31 南开大学 一种基于自适应Dropout非负矩阵分解的特征学习模型
CN109063698A (zh) * 2018-10-23 2018-12-21 深圳大学 一种非负特征提取及人脸识别应用方法、系统及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159387A (zh) * 2019-12-12 2020-05-15 北京睿企信息科技有限公司 基于多维度报警信息文本相似度分析的推荐方法
CN111159387B (zh) * 2019-12-12 2024-03-29 北京睿企信息科技有限公司 基于多维度报警信息文本相似度分析的推荐方法

Also Published As

Publication number Publication date
CN109933790B (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
Lofi Measuring semantic similarity and relatedness with distributional and knowledge-based approaches
CN109388743B (zh) 语言模型的确定方法和装置
CN104715063B (zh) 搜索排序方法和装置
CN108073576A (zh) 智能搜索方法、搜索装置以及搜索引擎系统
CN112836637B (zh) 一种基于空间逆向注意网络的行人重识别方法
CN108959305A (zh) 一种基于互联网大数据的事件抽取方法及系统
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN113254601A (zh) 面向知识产权的科技资源画像构建方法、装置和存储介质
Wang et al. Gated convolutional LSTM for speech commands recognition
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
Gao et al. SetConv: A new approach for learning from imbalanced data
CN112766378A (zh) 一种专注细粒度识别的跨域小样本图像分类模型方法
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
Somervuo Time–frequency warping of spectrograms applied to bird sound analyses
CN110674637A (zh) 一种人物关系识别模型训练方法、装置、设备及介质
CN108153818B (zh) 一种基于大数据的聚类方法
Namuduri et al. Automated quantification of DNA damage via deep transfer learning based analysis of comet assay images
CN109933790A (zh) 一种文本特征提取方法及系统
CN103279581A (zh) 一种利用紧凑视频主题描述子进行视频检索的方法
US20170337484A1 (en) Scalable web data extraction
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN114566184A (zh) 音频识别方法及相关装置
Vadivukarassi et al. A framework of keyword based image retrieval using proposed Hog_Sift feature extraction method from Twitter Dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 430074 16-19 / F, building C3, future science and technology building, 999 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Patentee after: Wuhan dream database Co.,Ltd.

Address before: 430074 16-19 / F, building C3, future science and technology building, 999 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Patentee before: WUHAN DAMENG DATABASE Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210112

Address after: Room 1601, building C3, future science and technology building, 999 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province, 430000

Patentee after: Wuhan Dayun Data Technology Co.,Ltd.

Address before: 430074 16-19 / F, building C3, future science and technology building, 999 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Patentee before: Wuhan dream database Co.,Ltd.