CN114357996A - 时序文本特征提取方法、装置、电子设备及存储介质 - Google Patents
时序文本特征提取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114357996A CN114357996A CN202111478449.5A CN202111478449A CN114357996A CN 114357996 A CN114357996 A CN 114357996A CN 202111478449 A CN202111478449 A CN 202111478449A CN 114357996 A CN114357996 A CN 114357996A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- time sequence
- time
- series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 52
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 41
- 230000011218 segmentation Effects 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000015654 memory Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 15
- 230000002123 temporal effect Effects 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 abstract description 9
- 238000013136 deep learning model Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了时序文本特征提取方法、装置、电子设备及存储介质,解决了现有的基于神经网络模型的时序文本的特征提取方式不适用于非深度学习模型,且实现复杂度较高、特征提取效率不高的问题,所述方法,包括:获取目标时序文本集合;对目标时序文本集合中的每一时序文本进行分词,统计目标时序文本集合中包含的各个词语在每一时序文本中出现的次数;根据各个词语在每一时序文本中出现的次数,确定各个词语在每一时序文本中的权重;针对每一词语,根据所述词语在每一时序文本中的权重,确定所述词语的平均权重;根据各个词语的平均权重,获得每一时序文本的特征向量。
Description
技术领域
本申请涉及自然语言处理领域,尤其涉及时序文本特征提取方法、装置、电子设备及存储介质。
背景技术
在自然语言处理(Natural Language Processing,NLP)领域,针对时序文本的特征提取通常基于深度学习神经网络来实现,如词嵌入,词嵌入是一种对文本中词语的数值化表示方式,一般是将一个词语映射到一个高维的向量中(词向量)来表征这个词语,例如,将“机器学习”表示为[1,2,3],将“深度学习”表示为[2,3,3],词嵌入算法可以将文本中一个语句转换为一个高维矩阵,每个词语对应一行数值。然而,利用词嵌入提取时序文本特征的方式通常是作为(NLP任务模型)深度学习神经网络模型的一部分一同进行的,令训练词嵌入与深度学习神经网络学习模型一同训练更新,将提取的时序文本特征通过深度学习神经网络模型进行学习,但是这样训练好的词嵌入往往只能提供给这一深度学习神经网络模型使用,在非深度学习的机器学习模型(如随机森林、支持向量机(Support VectorMachines,SVM)等)中无法使用,并且,由于深度学习神经网络模型结构复杂、体积大、性能消耗较高、训练时间较长,且对数据量及数据质量要求较高,因此,现有的基于神经网络模型的时序文本的特征提取方式实现复杂度较高且特征提取效率不高。
发明内容
为了解决现有的基于神经网络模型的时序文本的特征提取方式不适用于非深度学习模型,且实现复杂度较高、特征提取效率不高的问题,本申请实施例提供了一种时序文本特征提取方法、装置、电子设备及存储介质,可适用于非深度学习的机器学习模型中,且性能消耗低、实现速度快、对数据质量以及数据要求较低,降低了实现复杂度并提高了时序文本的特征提取效率。
第一方面,本申请实施例提供了一种时序文本特征提取方法,包括:
获取目标时序文本集合;
对所述目标时序文本集合中的每一时序文本进行分词,统计所述目标时序文本集合中包含的各个词语在所述每一时序文本中出现的次数;
根据所述各个词语在所述每一时序文本中出现的次数,确定所述各个词语在所述每一时序文本中的权重;
针对每一词语,根据所述词语在所述每一时序文本中的权重,确定所述词语的平均权重;
根据所述各个词语的平均权重,获得所述每一时序文本的特征向量。
在一种可能的实施方式中,根据所述各个词语在所述每一时序文本中出现的次数,确定所述各个词语在所述每一时序文本中的权重,具体包括:
针对所述每一词语,根据所述词语在所述每一时序文本中出现的次数以及所述每一时序文本中的词语总数量,确定所述词语在所述每一时序文本中的词频;
根据所述目标时序集合中包含所述词语的时序文本的数量以及所述时序文本的总数量,确定所述词语对应的逆文档频率;
根据所述词语在所述每一时序文本中的词频以及所述词语对应的逆文档频率,分别确定所述词语在所述每一时序文本中的权重。
在一种可能的实施方式中,根据所述各个词语的平均权重,获得所述每一时序文本的特征向量,具体包括:
针对每一时序文本,利用所述时序文本分词后的每一词语的平均权重替换对应词语,获得所述时序文本中的每一词语对应的数字特征;
根据所述时序文本中的每一词语对应的数字特征获得所述时序文本的特征向量。
在一种可能的实施方式中,根据所述时序文本中的每一词语对应的数字特征获得所述时序文本的特征向量,具体包括:
当确定所述时序文本中包含的词语数量小于所述目标时序文本集合中的时序文本包含的词语的最大数量时,在最后一个数字特征尾部补零,使得获得的所述时序文本的特征向量中包含的数字特征的数量与所述最大数量相同。
在一种可能的实施方式中,针对所述每一词语,根据所述词语在所述每一时序文本中出现的次数以及所述每一时序文本中的词语总数量,确定所述词语在所述每一时序文本中的词频,具体包括:
针对所述每一词语,按照以下公式计算所述词语在任一时序文本中的词频:
其中,TF表示所述词语在所述任一时序文本中的词频;
t表示所述词语在所述任一时序文本中出现的次数;
m表示所述任一时序文本中的词语总数量。
在一种可能的实施方式中,根据所述目标时序集合中包含所述词语的时序文本的数量以及所述时序文本的总数量,确定所述词语对应的逆文档频率,具体包括:
针对所述每一词语,通过以下公式计算所述词语对应的逆文档频率:
其中,IDF表示所述词语对应的逆文档频率;
n表示所述目标时序集合中所述时序文本的总数量;
l表示所述目标时序集合中包含所述词语的时序文本的数量。
在一种可能的实施方式中,根据所述词语在所述每一时序文本中的词频以及所述词语对应的逆文档频率,分别确定所述词语在所述每一时序文本中的权重,具体包括:
针对所述每一词语,通过以下公式计算所述词语在任一时序文本中的权重:
ω=TF*IDF
其中,ω表示所述词语在所述任一时序文本中的权重;
TF表示所述词语在所述任一时序文本中的词频;
IDF表示所述词语对应的逆文档频率。
在一种可能的实施方式中,在确定所述各个词语在所述每一时序文本中的权重之后,还包括:
针对所述每一词语,按照以下公式对所述每一词语在任一时序文本的权重进行标准化处理:
其中,ωnorm,i表示所述目标时序集合中包含的第i个词语在所述任一时序文本的权重的标准化值;
ωi表示所述目标时序集合中包含的第i个词语在所述任一时序文本中的权重;
ωj表示所述任一时序文本中包含的第j个词语在所述任一时序文本中的权重;
m表示所述任一时序文本中的词语总数量。
第二方面,本申请实施例提供了一种时序文本特征提取装置,包括:
获取单元,用于获取目标时序文本集合;
分词单元,用于对所述目标时序文本集合中的每一时序文本进行分词,统计所述目标时序文本集合中包含的各个词语在所述每一时序文本中出现的次数;
第一确定单元,用于根据所述各个词语在所述每一时序文本中出现的次数,确定所述各个词语在所述每一时序文本中的权重;
第二确定单元,用于针对每一词语,根据所述词语在所述每一时序文本中的权重,确定所述词语的平均权重;
特征提取单元,用于根据所述各个词语的平均权重,获得所述每一时序文本的特征向量。
在一种可能的实施方式中,所述第一确定单元,具体用于:
针对所述每一词语,根据所述词语在所述每一时序文本中出现的次数以及所述每一时序文本中的词语总数量,确定所述词语在所述每一时序文本中的词频;
根据所述目标时序集合中包含所述词语的时序文本的数量以及所述时序文本的总数量,确定所述词语对应的逆文档频率;
根据所述词语在所述每一时序文本中的词频以及所述词语对应的逆文档频率,分别确定所述词语在所述每一时序文本中的权重。
在一种可能的实施方式中,所述特征提取单元,具体用于:
针对每一时序文本,利用所述时序文本分词后的每一词语的平均权重替换对应词语,获得所述时序文本中的每一词语对应的数字特征;
根据所述时序文本中的每一词语对应的数字特征获得所述时序文本的特征向量。
在一种可能的实施方式中,所述特征提取单元,具体用于:
当确定所述时序文本中包含的词语数量小于所述目标时序文本集合中的时序文本包含的词语的最大数量时,在最后一个数字特征尾部补零,使得获得的所述时序文本的特征向量中包含的数字特征的数量与所述最大数量相同。
在一种可能的实施方式中,所述第一确定单元,具体用于:
针对所述每一词语,按照以下公式计算所述词语在任一时序文本中的词频:
其中,TF表示所述词语在所述任一时序文本中的词频;
t表示所述词语在所述任一时序文本中出现的次数;
m表示所述任一时序文本中的词语总数量。
在一种可能的实施方式中,所述第一确定单元,具体用于:
针对所述每一词语,通过以下公式计算所述词语对应的逆文档频率:
其中,IDF表示所述词语对应的逆文档频率;
n表示所述目标时序集合中所述时序文本的总数量;
l表示所述目标时序集合中包含所述词语的时序文本的数量。
在一种可能的实施方式中,所述第一确定单元,具体用于:
针对所述每一词语,通过以下公式计算所述词语在任一时序文本中的权重:
ω=TF*IDF
其中,ω表示所述词语在所述任一时序文本中的权重;
TF表示所述词语在所述任一时序文本中的词频;
IDF表示所述词语对应的逆文档频率。
在一种可能的实施方式中,所述装置,还包括:
处理单元,用于在确定所述各个词语在所述每一时序文本中的权重之后,针对所述每一词语,按照以下公式对所述每一词语在任一时序文本的权重进行标准化处理:
其中,ωnorm,i表示所述目标时序集合中包含的第i个词语在所述任一时序文本的权重的标准化值;
ωi表示所述目标时序集合中包含的第i个词语在所述任一时序文本中的权重;
ωj表示所述任一时序文本中包含的第j个词语在所述任一时序文本中的权重;
m表示所述任一时序文本中的词语总数量。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请所述的时序文本特征提取方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请所述的时序文本特征提取方法中的步骤。
本申请的有益效果如下:
本申请实施例提供的时序文本特征提取方法、装置、电子设备及存储介质,获取目标时序文本集合,对目标时序文本集合中的每一时序文本进行分词处理,统计目标时序文本集合中包含的各个词语在每一时序文本中出现的次数,根据各个词语在每一时序文本中出现的次数,确定各个词语在每一时序文本中的权重,进而,针对每一词语,根据该词语在每一时序文本中的权重,确定该词语的平均权重,根据各个词语的平均权重,获得目标时序文本集合中每一时序文本的特征向量,根据本申请实施例提供的时序文本特征提取方法提取的时序文本特征,适用于非深度学习模型的训练(如机器学习模型),通过将目标时序文本集合中的各个词语的平均权重表征该目标时序文本集合中每一时序文本包含的每一词语的特征,将时序文本中的每一词语进行数值化表示,时序文本中的每一词语对应一个数值,相比于现有的词嵌入算法中用一行数值表征一个词语的方式,大大降低了特征数据量,并且,本申请中在对时序文本进行特征提取时,无需依赖于深度学习神经网络模型,性能消耗较低、实现速度快、对数据质量以及数据要求较低,降低了时序复杂度并提高了特征提取效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的时序文本特征提取方法的实施流程示意图;
图2为本申请实施例提供的确定排列后的各个词语在每一时序文本中的权重的实施流程示意图;
图3为本申请实施例提供的时序文本特征提取装置的结构示意图;
图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了解决背景技术中的问题,本申请实施例提供了一种时序文本特征提取方法、装置、电子设备及存储介质。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请实施例提供的时序文本特征提取方法可以应用于具有计算功能的服务器或者终端设备,服务器可以是独立的物理服务器,也可以是提供云服务器、云数据库、云存储等基础云计算服务的云服务器,终端设备可以但不限于为:智能手机、平板电脑、笔记本电脑、台式计算机等,本申请实施例对此不作限定。以下仅以服务器为执行主体进行说明。
如图1所示,其为本申请实施例提供的时序文本特征提取方法的实施流程示意图,所述时序文本特征提取方法可以包括以下步骤:
S11、获取目标时序文本集合。
具体实施时,服务器获取待训练的时序文本集合,时序文本集合中包括若干个时序文本,时序文本中包含的是时序数据,时序数据是指时间序列数据,即是根据统一指标按时间顺序记录的数据列,时序数据前后具有关联性,例如一系列操作指令数据等。时序文本集合中的时序文本中可以为英文文本,也可以为中文文本,还可以为中英文混合的文本,本申请实施例对此不作限制。
服务器对时序文本集合中的每一时序文本进行数据清洗,去除每一时序文本中的异常数据以及停用词,得到预处理后的目标时序文本集合。其中,异常数据可包括但不限于以下数据:(1)错误数据:如因意外采集到的乱码数据等;(2)过长的数据:例如,时序文本中的各条时序数据的平均长度为5,一条长度远大于5的时序数据如长度为20的数据,则可确定为过长的数据,其中,可以用一条时序数据中包含的词语的数量表示该条时序数据的长度,具体实施时,可根据时序文本中各条数据的平均长度来设置对应的长度阈值,本申请实施例对此不作限定,对于超过长度阈值的数据则为过长的数据,应予以去除;(3)偏离数据:即时序文本中数据类型不同的时序数据,例如在一组SHELL命令数据中,混入了一条MYSQL命令数据,则这条MYSQL命令数据即为偏离数据。停用词(Stop words)表示一些常用的、但是对时序文本含义没有帮助,或者排除后不影响原义的词语,例如各种语气助词(如“啊”、“吗”、“哦”、“呢”等),谓语(如“这是一朵花”中,将谓语“是”去除后不影响理解),冠词(如英文中的“the”、“a”、“an”等),以及标点符号等。去除异常数据和停用词有助于提高时序文本特征提取的准确性,进一步,可提高基于提取的时序文本特征进行模型训练获得的模型的准确性。
S12、对目标时序文本集合中的每一时序文本进行分词,统计目标时序文本集合中包含的各个词语在每一时序文本中出现的次数。
具体实施时,服务器可以利用分词工具将目标时序文本集合中的每一预处理后的中文时序文本与词组库中的词组进行匹配,对每一中文时序文本进行分词,例如,一些常用词汇(“人类”、“花朵”、“河流”等)、专业术语(“机器学习”、“数据清洗”等)等可以分别划分为一个词语。分词工具中包含了创建词组库这一功能,利用分词工具可以较准确地进行分词,而无需人工创建词组库。在实施时,还可以将多个词语映射为同一个“代号”(如一个字符串)进行表示,例如:可以将“一个”、“一朵”、“一只”、“一颗”等具有类似含义的词语,利用同一个特殊符号或者同一串特殊序列来表示,如利用“word01”这串字符表示“一个”、“一朵”、“一只”、“一颗”这几个词语,在对时序文本进行分词处理过程中,可以将文本中出现的“一个”、“一朵”、“一只”、“一颗”均转换为“word01”进行替代,需要说明的是,用于表征多个类似含义的词语的字符串可使用各时序文本中未出现过的词。针对目标时序文本集合中的英文时序文本,可以按照空格进行分词,将每一个英文单词作为一个单独的词语进行划分。
进而,服务器可将目标时序文本集合中的所有时序文本中包含的所有词语按照预设顺序进行排列,统计排列后的各个词语在每一时序文本中出现的次数。
具体地,可以利用词袋模型统计排列后的各个词语在每一时序文本中出现的次数,并根据各个词语在每一时序文本中出现的次数得到每一时序文本各自对应的第一特征向量,其中,时序文本对应的第一特征向量是基于目标文本集合中的所有时序文本中包含的所有词语的在该时序文本中的数值化表示,预设顺序可以为:各个词语首次出现的顺序,也可以自行设置各个词语的顺序,本申请实施例对此不作限定。
下面举一实例进行说明:
假设目标时序文本集合中包含两个时序文本,时序文本1为服务器A的进程信息,分词后获得的分词结果为:[‘mysql’,‘python’,‘python’],时序文本2为服务器B的进程信息,分词后获得的分词结果为:[‘redis’,‘java’,‘tomcat’],将时序文本1和时序文本2中出现的各个词语按照以下顺序进行排列:‘mysql’,‘python’,‘redis’,‘java’,‘tomcat’,则经过词袋模型进行处理后,时序文本1对应的第一特征向量为:[1,2,0,0,0],此第一特征向量中的各个数值分别表示‘mysql’,‘python’,‘redis’,‘java’,‘tomcat’在时序文本1中出现的次数,时序文本2对应的第一特征向量为:[0,0,1,1,1],此第一特征向量中的各个数值分别表示‘mysql’,‘python’,‘redis’,‘java’,‘tomcat’在时序文本2中出现的次数。
需要说明的是,在具体实施过程中,采集的作为训练样本的时序文本可为大批量的时序文本,每个时序文本分词后获得的分词结果中的词语个数远不止上述的3个,本申请实施例中所举上述实例仅仅为了方便说明。
S13、根据各个词语在每一时序文本中出现的次数,确定各个词语在每一时序文本中的权重。
具体实施时,服务器可采用TF-IDF(词频-逆文档频率)算法根据排列后的各个词语在每一时序文本中出现的次数,确定排列后的各个词语在每一时序文本中的权重,其中,一个词语在一个时序文本中的权重表征所述词语在所述时序文本中的重要程度。
如图2所示,其为确定排列后的各个词语在每一时序文本中的权重的实施流程示意图,可以包括以下步骤:
S131、针对每一词语,根据词语在每一时序文本中出现的次数以及每一时序文本中的词语总数量,确定词语在每一时序文本中的词频。
具体实施时,针对目标时序文本集合中包含的每一词语,服务器可以按照以下公式计算所述词语在任一时序文本中的词频:
其中,TF表示所述词语在所述任一时序文本中的词频;
t表示所述词语在所述任一时序文本中出现的次数;
m表示所述任一时序文本中的词语总数量。
S132、根据目标时序集合中包含所述词语的时序文本的数量以及时序文本的总数量,确定所述词语对应的逆文档频率。
具体实施时,针对目标时序集合中包含的每一词语,服务器可以通过以下公式计算所述词语对应的逆文档频率:
其中,IDF表示所述词语对应的逆文档频率;
n表示所述目标时序集合中所述时序文本的总数量;
l表示所述目标时序集合中包含所述词语的时序文本的数量。
还可以通过以下公式计算所述词语对应的逆文档频率:
需要说明的是,本申请实施例中计算词语对应的逆文档频率的算法不限于上述两种算法,还可以为其他任意可以计算逆文档频率的算法,本申请实施例对此不作限定。
S133、根据所述词语在每一时序文本中的词频以及所述词语对应的逆文档频率,分别确定所述词语在每一时序文本中的权重。
具体实施时,针对目标时序文本集合中包含的每一词语,服务器可以通过以下公式计算所述词语在任一时序文本中的权重:
ω=TF*IDF
其中,ω表示所述词语在所述任一时序文本中的权重;
TF表示所述词语在所述任一时序文本中的词频;
IDF表示所述词语对应的逆文档频率。
仍延续上例,在计算出各个词语‘mysql’,‘python’,‘redis’,‘java’,‘tomcat’在时序文本1中出现的次数以及在时序文本2中出现的次数以后,计算各个词语在时序文本1和时序文本2中的词频以及各个词语对应的逆文档频率。‘mysql’在时序文本1中的词频为:‘python’在时序文本1中的词频为:‘redis’在时序文本1中的词频为:‘java’在时序文本1中的词频为:‘tomcat’在时序文本1中的词频为:‘mysql’在时序文本2中的词频为:‘python’在时序文本2中的词频为:‘redis’在时序文本2中的词频为:‘java’在时序文本2中的词频为:‘tomcat’在时序文本2中的词频为:‘mysql’对应的逆文档频率为:‘python’对应的逆文档频率为: ‘redis’对应的逆文档频率为:‘java’对应的逆文档频率为: ‘tomcat’对应的逆文档频率为:进而,将‘mysql’在时序文本1中的词频与‘mysql’对应的逆文档频率相乘,得到‘mysql’在时序文本1中的权重为:将‘python’在时序文本1中的词频与‘python’对应的逆文档频率相乘,得到‘python’在时序文本1中的权重为:将‘redis’在时序文本1中的词频与‘redis’对应的逆文档频率相乘,得到‘redis’在时序文本1中的权重为:0;将‘java’在时序文本1中的词频与‘java’对应的逆文档频率相乘,得到‘java’在时序文本1中的权重为:0;将‘tomcat’在时序文本1中的词频与‘tomcat’对应的逆文档频率相乘,得到‘tomcat’在时序文本1中的权重为:0,即:‘mysql’,‘python’,‘redis’,‘java’,‘tomcat’在时序文本1中对应的权重矩阵为:[0.3920,0.7840,0,0,0]。将‘mysql’在时序文本2中的词频与‘mysql’对应的逆文档频率相乘,得到‘mysql’在时序文本2中的权重为:0;将‘python’在时序文本2中的词频与‘python’对应的逆文档频率相乘,得到‘python’在时序文本2中的权重为:0;将‘redis’在时序文本2中的词频与‘redis’对应的逆文档频率相乘,得到‘redis’在时序文本2中的权重为:将‘java’在时序文本2中的词频与‘java’对应的逆文档频率相乘,得到‘java’在时序文本1中的权重为:将‘tomcat’在时序文本1中的词频与‘tomcat’对应的逆文档频率相乘,得到‘tomcat’在时序文本1中的权重为:即:‘mysql’,‘python’,‘redis’,‘java’,‘tomcat’在时序文本2中对应的权重矩阵为:[0,0,0.3920,0.3920,0.3920]。
S14、针对每一词语,根据所述词语在每一时序文本中的权重,确定所述词语的平均权重。
具体实施时,服务器针对目标时序文本集合中的每一词语,将该词语在每一时序文本中的权重的均值,确定为该词语的平均权重,这样,可以分别计算出各个词语的平均权重。
S15、根据各个词语的平均权重,获得每一时序文本的特征向量。
具体实施时,服务器针对目标时序文本集合中的每一时序文本,利用该时序文本分词后的每一词语的平均权重替换对应词语,获得该时序文本中的(分词后的)每一词语对应的数字特征,根据该时序文本中的每一词语对应的数字特征获得该时序文本的特征向量。
具体地,当确定该时序文本中包含的词语数量小于目标时序文本集合中的时序文本包含的词语最大数量时,在最后一个数字特征尾部补零(即:在该时序文本中分词后的最后一个词语对应的数字特征尾部补零),使得获得的该时序文本的特征向量中包含的数字特征的数量与该最大数量相同。
提取的各时序文本的特征向量可用于非深度学习模型的训练,非深度学习模型可以但不限于为:随机森林、SVM等机器学习模型。
作为一种可能的实施方式,在每一时序文本中包含的各个第一词语在每一时序文本中的权重之后,还可以对各个权重进行L2-Norm标准化处理后,再根据排列后的各个词语在每一时序文本中的标准化处理后的权重,计算排列后的各个词语的平均权重,本申请实施例对此不作限定。
具体实施时,服务器针对目标时序文本集合中的每一词语,可以按照以下公式对每一词语在任一时序文本的权重进行标准化处理:
其中,ωnorm,i表示所述目标时序集合中包含的第i个词语在所述任一时序文本的权重的标准化值;
ωi表示所述目标时序集合中包含的第i个词语在所述任一时序文本中的权重;
ωj表示所述任一时序文本中包含的第j个词语在所述任一时序文本中的权重;
m表示所述任一时序文本中的词语总数量。
需要说明的是,目标时序集合中包含的第i个词语是指按照预设顺序排列后的第i个词语。
若对排列后的各个词语在每一时序文本的权重进行了标准化处理,则针对目标时序文本集合中的排列后的每一词语,将该词语在每一时序文本中的权重的标准化值的均值,确定为该词语的平均权重。
仍延续上例,‘mysql’,‘python’,‘redis’,‘java’,‘tomcat’在时序文本1中对应的权重矩阵为:[0.3920,0.7840,0,0,0],‘mysql’,‘python’,‘redis’,‘java’,‘tomcat’在时序文本2中对应的权重矩阵为:[0,0,0.3920,0.3920,0.3920],则‘mysql’在时序文本1的权重标准化值为:‘python’在时序文本1的权重标准化值为:‘redis’、‘java’、‘tomcat’在时序文本1的权重标准化值均为0;‘mysql’和‘python’在时序文本2的权重标准化值均为0,‘redis’在时序文本2的权重标准化值为: ‘java’在时序文本2的权重标准化值为: ‘tomcat’在时序文本2的权重标准化值为: 则‘mysql’的平均权重为:‘mysql’在时序文本1的权重标准化值与‘mysql’在时序文本2的权重标准化值的均值为:‘python’在时序文本1的权重标准化值与‘python’在时序文本2的权重标准化值的均值为:‘redis’在时序文本1的权重标准化值与‘redis’在时序文本2的权重标准化值的均值为: ‘java’在时序文本1的权重标准化值与‘java’在时序文本2的权重标准化值的均值为:‘tomcat’在时序文本1的权重标准化值与‘tomcat’在时序文本2的权重标准化值的均值为:即:‘mysql’,‘python’,‘redis’,‘java’,‘tomcat’的平均权重分别为:0.2236,0.4472,0.2887,0.2887,0.2887,将时序文本1分词后的分词结果[‘mysql’,‘python’,‘python’]中的第一个词语‘mysql’替换为‘mysql’的平均权重0.2236,将第二个词语‘python’、和第三个词语‘python’均替换为‘python’的平均权重0.4472,得到时序文本1中各个词语对应的数字特征分别为:[0.2236,0.4472,0.4472],将时序文本2分词后的分词结果[‘redis’,‘java’,‘tomcat’]中的第一个词语‘redis’替换为‘redis’的平均权重0.2887,将第二个词语‘java’替换为‘java’的平均权重0.2887,将第三个词语‘tomcat’替换为‘tomcat’的平均权重0.2887,得到时序文本2中各个词语对应的数字特征分别为:[0.2887,0.2887,0.2887],假设目标时序文本集合中仅有这两个时序文本,这两个时序文本中包含的词语的数量相同,均为3,那么则不需要在数字特征的尾部补零,则最终得到的时序文本1的特征向量为:[0.2236,0.4472,0.4472],时序文本2的特征向量为:[0.2887,0.2887,0.2887],假设目标时序文本集合中除了这两个时序文本还包含若干其他时序文本,目标时序文本集合的所有时序文本中,包含词语的最大数量是5,例如时序文本N包含了5个词语,时序文本N中包含的词语最多,则需在时序文本1和时序文本2中各自最后一个词语对应的数字特征后补两个零,使得获得的时序文本的特征向量中包含的数字特征的数量与所述最大数量相同,得到最终的时序文本1的特征向量为:[0.2236,0.4472,0.4472,0,0],最终的时序文本2的特征向量为:[0.2887,0.2887,0.2887,0,0],时序文本1的特征向量和时序文本2的特征向量为一维向量。
本申请实施例中,目标时序文本集合中包含的各个词语的平均权重组成的一维向量中,是由目标时序集合中包含的各个词语对应的平均权重的数值组成,这样,将目标时序集合中包含的每一词语对应的平均权重作为该词语的特征值,相比于现有的词嵌入算法中将目标时序集合中包含的所有词语转换为高维特征向量,将一个词语用一行数值进行表示的方式,本申请中大大降低了提取的特征数据量,并且,本申请中在对时序文本进行特征提取时,无需依赖于深度学习神经网络模型,性能消耗较低、实现速度快、对数据质量以及数据要求较低,降低了时序复杂度并提高了特征提取效率,通过本申请实施例提供的时序文本特征提取方法提取的时序文本特征可以作为传统机器学习模型(如随机森林、SVM)等非深度学习模型的训练特征数据,可以将提取的时序文本特征输入任意的非深度学习模型中进行训练,针对不同的非深度学习模型无需对时序文本特征进行重复提取,具有普遍的适用性。
基于同一发明构思,本申请实施例还提供了一种时序文本特征提取装置,由于上述时序文本特征提取方法解决问题的原理与时序文本特征提取方法相似,因此上述时序文本特征提取方法中的对时序文本特征提取部分的实施可以参见时序文本特征提取方法的实施,重复之处不再赘述。
如图3所示,其为本申请实施例提供的时序文本特征提取装置的结构示意图,所述时序文本特征提取装置包括:
获取单元21,用于获取目标时序文本集合;
分词单元22,用于对所述目标时序文本集合中的每一时序文本进行分词,统计所述目标时序文本集合中包含的各个词语在所述每一时序文本中出现的次数;
第一确定单元23,用于根据所述各个词语在所述每一时序文本中出现的次数,确定所述各个词语在所述每一时序文本中的权重;
第二确定单元24,用于针对每一词语,根据所述词语在所述每一时序文本中的权重,确定所述词语的平均权重;
特征提取单元25,用于根据所述各个词语的平均权重,获得所述每一时序文本的特征向量。
在一种可能的实施方式中,所述第一确定单元23,具体用于:
针对所述每一词语,根据所述词语在所述每一时序文本中出现的次数以及所述每一时序文本中的词语总数量,确定所述词语在所述每一时序文本中的词频;
根据所述目标时序集合中包含所述词语的时序文本的数量以及所述时序文本的总数量,确定所述词语对应的逆文档频率;
根据所述词语在所述每一时序文本中的词频以及所述词语对应的逆文档频率,分别确定所述词语在所述每一时序文本中的权重。
在一种可能的实施方式中,所述特征提取单元25,具体用于:
针对每一时序文本,利用所述时序文本分词后的每一词语的平均权重替换对应词语,获得所述时序文本中的每一词语对应的数字特征;
根据所述时序文本中的每一词语对应的数字特征获得所述时序文本的特征向量。
在一种可能的实施方式中,所述特征提取单元25,具体用于:
当确定所述时序文本中包含的词语数量小于所述目标时序文本集合中的时序文本包含的词语最大数量时,在最后一个数字特征尾部补零,使得获得的所述时序文本的特征向量中包含的数字特征的数量与所述最大数量相同。
在一种可能的实施方式中,所述第一确定单元23,具体用于:
针对所述每一词语,按照以下公式计算所述词语在任一时序文本中的词频:
其中,TF表示所述词语在所述任一时序文本中的词频;
t表示所述词语在所述任一时序文本中出现的次数;
m表示所述任一时序文本中的词语总数量。
在一种可能的实施方式中,所述第一确定单元23,具体用于:
针对所述每一词语,通过以下公式计算所述词语对应的逆文档频率:
其中,IDF表示所述词语对应的逆文档频率;
n表示所述目标时序集合中所述时序文本的总数量;
l表示所述目标时序集合中包含所述词语的时序文本的数量。
在一种可能的实施方式中,所述第一确定单元23,具体用于:
针对所述每一词语,通过以下公式计算所述词语在任一时序文本中的权重:
ω=TF*IDF
其中,ω表示所述词语在所述任一时序文本中的权重;
TF表示所述词语在所述任一时序文本中的词频;
IDF表示所述词语对应的逆文档频率。
在一种可能的实施方式中,所述装置,还包括:
处理单元,用于在确定所述各个词语在所述每一时序文本中的权重之后,针对所述每一词语,按照以下公式对所述每一词语在任一时序文本的权重进行标准化处理:
其中,ωnorm,i表示所述目标时序集合中包含的第i个词语在所述任一时序文本的权重的标准化值;
ωi表示所述目标时序集合中包含的第i个词语在所述任一时序文本中的权重;
ωj表示所述任一时序文本中包含的第j个词语在所述任一时序文本中的权重;
m表示所述任一时序文本中的词语总数量。
基于同一技术构思,本申请实施例还提供了一种电子设备300,参照图4所示,电子设备300用于实施上述方法实施例记载的时序文本特征提取方法,该实施例的电子设备300可以包括:存储器301、处理器302以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如时序文本特征提取程序或者时序文本特征提取程序。所述处理器执行所述计算机程序时实现上述各个时序文本特征提取方法实施例中的步骤,例如图1所示的步骤S11。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如21。
本申请实施例中不限定上述存储器301、处理器302之间的具体连接介质。本申请实施例在图4中以存储器301、处理器302之间通过总线303连接,总线303在图4中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线303可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器301可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器301也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器301是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器301可以是上述存储器的组合。
处理器302,用于实现如图1所示的一种时序文本特征提取方法。
本申请实施例还提供了一种计算机可读存储介质,存储为执行上述处理器所需执行的计算机可执行指令,其包含用于执行上述处理器所需执行的程序。
在一些可能的实施方式中,本申请提供的时序文本特征提取方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的时序文本特征提取方法中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (11)
1.一种时序文本特征提取方法,其特征在于,包括:
获取目标时序文本集合;
对所述目标时序文本集合中的每一时序文本进行分词,统计所述目标时序文本集合中包含的各个词语在所述每一时序文本中出现的次数;
根据所述各个词语在所述每一时序文本中出现的次数,确定所述各个词语在所述每一时序文本中的权重;
针对每一词语,根据所述词语在所述每一时序文本中的权重,确定所述词语的平均权重;
根据所述各个词语的平均权重,获得所述每一时序文本的特征向量。
2.如权利要求1所述的方法,其特征在于,根据所述各个词语在所述每一时序文本中出现的次数,确定所述各个词语在所述每一时序文本中的权重,具体包括:
针对所述每一词语,根据所述词语在所述每一时序文本中出现的次数以及所述每一时序文本中的词语总数量,确定所述词语在所述每一时序文本中的词频;
根据所述目标时序集合中包含所述词语的时序文本的数量以及所述时序文本的总数量,确定所述词语对应的逆文档频率;
根据所述词语在所述每一时序文本中的词频以及所述词语对应的逆文档频率,分别确定所述词语在所述每一时序文本中的权重。
3.如权利要求2所述的方法,其特征在于,根据所述各个词语的平均权重,获得所述每一时序文本的特征向量,具体包括:
针对每一时序文本,利用所述时序文本分词后的每一词语的平均权重替换对应词语,获得所述时序文本中的每一词语对应的数字特征;
根据所述时序文本中的每一词语对应的数字特征获得所述时序文本的特征向量。
4.如权利要求3所述的方法,其特征在于,根据所述时序文本中的每一词语对应的数字特征获得所述时序文本的特征向量,具体包括:
当确定所述时序文本中包含的词语数量小于所述目标时序文本集合中的时序文本包含的词语的最大数量时,在最后一个数字特征尾部补零,使得获得的所述时序文本的特征向量中包含的数字特征的数量与所述最大数量相同。
7.如权利要求2、5或6任一项所述的方法,其特征在于,根据所述词语在所述每一时序文本中的词频以及所述词语对应的逆文档频率,分别确定所述词语在所述每一时序文本中的权重,具体包括:
针对所述每一词语,通过以下公式计算所述词语在任一时序文本中的权重:
ω=TF*IDF
其中,ω表示所述词语在所述任一时序文本中的权重;
TF表示所述词语在所述任一时序文本中的词频;
IDF表示所述词语对应的逆文档频率。
9.一种时序文本特征提取装置,其特征在于,包括:
获取单元,用于获取目标时序文本集合;
分词单元,用于对所述目标时序文本集合中的每一时序文本进行分词,统计所述目标时序文本集合中包含的各个词语在所述每一时序文本中出现的次数;
第一确定单元,用于根据所述各个词语在所述每一时序文本中出现的次数,确定所述各个词语在所述每一时序文本中的权重;
第二确定单元,用于针对每一词语,根据所述词语在所述每一时序文本中的权重,确定所述词语的平均权重;
特征提取单元,用于根据所述各个词语的平均权重,获得所述每一时序文本的特征向量。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~8任一项所述的时序文本特征提取方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~8任一项所述的时序文本特征提取方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111478449.5A CN114357996B (zh) | 2021-12-06 | 2021-12-06 | 时序文本特征提取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111478449.5A CN114357996B (zh) | 2021-12-06 | 2021-12-06 | 时序文本特征提取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114357996A true CN114357996A (zh) | 2022-04-15 |
CN114357996B CN114357996B (zh) | 2024-07-02 |
Family
ID=81098192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111478449.5A Active CN114357996B (zh) | 2021-12-06 | 2021-12-06 | 时序文本特征提取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357996B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115134660A (zh) * | 2022-06-27 | 2022-09-30 | 中国平安人寿保险股份有限公司 | 视频剪辑方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN109271517A (zh) * | 2018-09-29 | 2019-01-25 | 东北大学 | Ig tf-idf文本特征向量生成及文本分类方法 |
CN110472240A (zh) * | 2019-07-26 | 2019-11-19 | 北京影谱科技股份有限公司 | 基于tf-idf的文本特征提取方法和装置 |
CN111680168A (zh) * | 2020-05-29 | 2020-09-18 | 平安银行股份有限公司 | 文本特征语义提取方法、装置、电子设备及存储介质 |
CN113704398A (zh) * | 2021-08-05 | 2021-11-26 | 上海万物新生环保科技集团有限公司 | 一种关键词提取的方法及设备 |
-
2021
- 2021-12-06 CN CN202111478449.5A patent/CN114357996B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN109271517A (zh) * | 2018-09-29 | 2019-01-25 | 东北大学 | Ig tf-idf文本特征向量生成及文本分类方法 |
CN110472240A (zh) * | 2019-07-26 | 2019-11-19 | 北京影谱科技股份有限公司 | 基于tf-idf的文本特征提取方法和装置 |
CN111680168A (zh) * | 2020-05-29 | 2020-09-18 | 平安银行股份有限公司 | 文本特征语义提取方法、装置、电子设备及存储介质 |
CN113704398A (zh) * | 2021-08-05 | 2021-11-26 | 上海万物新生环保科技集团有限公司 | 一种关键词提取的方法及设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115134660A (zh) * | 2022-06-27 | 2022-09-30 | 中国平安人寿保险股份有限公司 | 视频剪辑方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114357996B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287961B (zh) | 中文分词方法、电子装置及可读存储介质 | |
CN109271521B (zh) | 一种文本分类方法及装置 | |
EP3508992A1 (en) | Error correction method and device for search term | |
CN109684476B (zh) | 一种文本分类方法、文本分类装置及终端设备 | |
CN109190110A (zh) | 一种命名实体识别模型的训练方法、系统及电子设备 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN107506389B (zh) | 一种提取职位技能需求的方法和装置 | |
CN113378940B (zh) | 神经网络训练方法、装置、计算机设备及存储介质 | |
CN110889412B (zh) | 体检报告中的医学长文定位与分类方法及装置 | |
CN110738059B (zh) | 一种文本相似度计算方法及系统 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN113722438A (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN108628822A (zh) | 无语义文本的识别方法及装置 | |
CN117501283A (zh) | 文本到问答模型系统 | |
CN109117475B (zh) | 一种文本改写的方法以及相关设备 | |
CN109871544B (zh) | 基于中文病历的实体识别方法、装置、设备及存储介质 | |
CN114357996B (zh) | 时序文本特征提取方法、装置、电子设备及存储介质 | |
CN113743650B (zh) | 电力负荷预测方法、装置、设备与存储介质 | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN110717008A (zh) | 基于语意识别的搜索结果排序方法及相关装置 | |
CN109753976B (zh) | 语料标注装置和方法 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
CN116955406A (zh) | Sql语句生成方法、装置、电子设备及存储介质 | |
CN112287667A (zh) | 一种文本生成方法及设备 | |
CN113935387A (zh) | 文本相似度的确定方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |