发明内容
为了解决现有技术直接对各个分词高维向量通过PCA降维方法进行数据降维的效果较差,造成对英文文本数据知识提取的效果较差的技术问题,本发明的目的在于提供一种用于大语言模型的数据知识提取方法,所采用的技术方案具体如下:
本发明提出了一种用于大语言模型的数据知识提取方法,所述方法包括:
对用于知识提取的英文文本数据通过分词方法以及词向量生成方法处理后,通过关键词提取方法得到至少两个分词高维向量;
根据每个分词高维向量与其余分词高维向量之间的相似度整体偏离情况,得到每个分词高维向量的噪声存在概率;根据所述噪声存在概率在所有分词高维向量中筛除噪声高维向量,得到至少两个参考高维向量;
根据每个参考高维向量对应数值序列的数值分布复杂性,以及每个参考高维向量与其余参考高维向量之间的关联性,得到每个参考高维向量的分析重要性;根据所述分析重要性筛选出主成分分析高维向量;
根据所述主成分分析高维向量结合主成分分析方法进行数据降维,得到降维后的摘要信息向量;根据所述摘要信息向量进行英文文本数据知识提取。
进一步地,所述噪声存在概率的获取方法包括:
任选两个分词高维向量作为一个高维向量二元组,获取所有的高维向量二元组;将每个高维向量二元组中的两个分词高维向量之间的余弦相似度,作为每个高维向量二元组的参考相似度;将所有高维向量二元组的参考相似度的均值,作为向量整体相似度;
依次将每个分词高维向量,作为目标分词高维向量;在所有分词高维向量中,将目标分词高维向量之外的其他分词高维向量,作为目标分词高维向量的对比高维向量;将目标分词高维向量与每个对比高维向量之间的余弦相似度,作为目标分词高维向量的每个对比高维向量的对比相似度;将目标分词高维向量的对应的所有对比高维向量的对比相似度的均值,作为目标分词高维向量的向量局部相似度;
将目标分词高维向量的向量局部相似度与所述向量整体相似度之间的差异,作为目标分词高维向量的向量偏离程度;
将目标分词高维向量中所有元素值的方差,作为目标分词高维向量的数值离散程度;
根据所述向量偏离程度和所述数值离散程度,得到目标分词高维向量的噪声存在概率,所述向量偏离程度和所述数值离散程度均与所述噪声存在概率呈正相关关系。
进一步地,所述参考高维向量的获取方法包括:
将大于预设噪声阈值的噪声存在概率对应的分词高维向量,作为噪声高维向量;将所有分词高维向量中噪声高维向量之外的分词高维向量,作为参考高维向量。
进一步地,所述分析重要性的获取方法包括:
将每个参考高维向量标量化后,得到每个参考高维向量的标量数据序列;将所述标量数据序列中所有数据的信息熵,作为每个参考高维向量的分布混乱程度;
依次将每个参考高维向量作为目标参考高维向量;在所有参考高维向量中,将目标参考高维向量之外的其他参考高维向量,作为目标参考高维向量对应的对比参考高维向量;
根据每个对比参考高维向量的分布混乱程度与目标参考高维向量的分布混乱程度之间的相对占比,得到每个对比参考高维向量的对比权重系数;
将每个对比参考高维向量的对比权重系数的负相关映射值,作为每个对比参考高维向量影响下目标参考高维向量的参考权重系数;
通过所述对比权重系数对每个对比参考高维向量的标量数据序列进行加权,得到每个对比参考高维向量的加权数据序列;通过所述参考权重系数对目标参考高维向量的标量数据序列进行加权,得到每个对比参考高维向量影响下目标参考高维向量的加权数据序列;
将每个对比参考高维向量的加权数据序列与对应的对比参考高维向量影响下目标参考高维向量的加权数据序列之间的皮尔逊相关系数,作为每个对比参考高维向量的加权相关性;将目标参考高维向量对应的所有对比参考高维向量的加权相关性的均值的归一化值,作为目标参考高维向量的分析重要性。
进一步地,所述根据所述主成分分析高维向量结合主成分分析方法进行数据降维,得到降维后的摘要信息向量的方法包括:
将每个主成分高维向量作为列向量组成主成分分析矩阵;对所述主成分分析矩阵通过主成分分析方法得到对应的协方差矩阵的各个特征向量和每个特征向量对应的特征值;
将每个特征向量对应的特征值,以从大到小的顺序排列,得到特征值序列;将特征值序列中所有特征值的累加和,作为整体累加值;在所述特征值序列中,将每个特征值与该特征值之前的所有特征值的累加和,作为每个特征值的参考累加值;将所述参考累加值与所述整体累加值的比值,作为每个特征值对应的特征向量的方差解释率;在所述特征值序列中,将大于预设解释率阈值的方差解释率对应的特征值的索引值,作为主成分分析的最优k值;
根据所述最优k值以及所述主成分分析矩阵进行主成分分析降维,得到降维后的各个摘要信息向量。
进一步地,所述分词高维向量的获取方法包括:
对用于知识提取的英文文本数据通过分词方法进行分词,得到至少两个分词处理单元;通过Word2Vec技术将每个分词处理单元映射为初始高维向量;通过训练好的大语言模型BERT得到每个初始高维向量的语义信息;根据所有初始高维向量的语义信息通过TF-IDF算法进行提取,得到至少两个分词高维向量。
进一步地,所述根据所述向量偏离程度和所述数值离散程度,得到目标分词高维向量的噪声存在概率的方法包括:
将所述向量偏离程度和所述数值离散程度的乘积的归一化值,作为目标分词高维向量的噪声存在概率。
进一步地,所述对比权重系数的获取方法包括:
将每个对比参考高维向量的分布混乱程度与目标参考高维向量的分布混乱程度之间的和值,作为每个对比参考高维向量的参考适应和值;将目标参考高维向量的分布混乱程度与所述参考适应和值的比值,作为每个对比参考高维向量的对比权重系数。
进一步地,所述参考权重系数的获取方法包括:
将正数1与每个对比参考高维向量的对比权重系数之间的差值,作为每个对比参考高维向量影响下目标参考高维向量的参考权重系数。
进一步地,所述根据所述分析重要性筛选出主成分分析高维向量的方法包括:
将大于预设分析阈值的分析重要性对应的参考高维向量,作为主成分分析高维向量。
本发明具有如下有益效果:
考虑到PCA降维通常借助累计方差解释率选取k值,但是首先需要确定累计方差解释率的最优阈值,而最优阈值的确定受到降维后向量的特征保留度的制约,向量的特征保留度即降维后的结果满足简单显示并概括文本内容的程度,对于能够满足简单显示并概括文本内容的信息对应的分词高维向量,在进行k值累计方差解释率阈值选取时的贡献度是需要放大的,目的是将其作为摘要信息保留到最终经过降维后的向量中,从而使得得到的k值更加准确。对于满足简单显示并概括文本内容的分词高维向量的特征,通常表现为向量内元素的重复性较高并且向量之间的距离和模值相近,以及重复率较高等数据分布性较高的向量,也即本发明对应的主成分分析高维向量。因此本发明的目的即获取主成分分析高维向量,首先为了避免部分可能出现异常的噪声高维向量对后续筛选过程的影响,噪声数据通常对应拼写错误或转录错误对应的数据,所以根据每个分词高维向量与其余分词高维向量之间的相似度整体偏离情况得到噪声存在概率,得到筛除噪声高维向量后对应的各个参考高维向量;进一步地根据简单显示并概括文本内容通常具有较高的重复性并且分布较为稳定的特征,结合每个参考高维向量对应数值序列的数值分布复杂性,以及每个参考高维向量与其余参考高维向量之间的关联性,筛选出主成分分析高维向量,使得根据主成分分析高维向量通过PCA降维方法进行数据降维的效果更好,也即根据降维后的摘要信息向量对英文文本数据知识提取的效果更好。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于大语言模型的数据知识提取方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种用于大语言模型的数据知识提取方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种用于大语言模型的数据知识提取方法流程图,该方法包括:
步骤S1:对用于知识提取的英文文本数据通过分词方法以及词向量生成方法处理后,通过关键词提取方法得到至少两个分词高维向量。
本发明实施例旨在提供一种用于大语言模型的数据知识提取方法,根据用于知识提取的英文文本数据进行自然语言处理分析,得到所需要提取的摘要信息向量,并根据摘要信息向量进行英文文本数据知识提取。因此首先需要获取用于知识提取的英文文本数据。在本发明实施例中,将需要获取摘要内容的英文文本或英文文档,作为用于知识提取的英文文本数据。
进一步地考虑到本发明实施例的主要目的是对PCA降维选取k值的过程进行优化,因此在大语言模型的数据提取方法中,进行PCA降维之前的过程。而大语言模型的数据提取方法包括:文本数据预处理、分词、词向量表示、训练模型、特征抽取和知识提取以及后处理几个过程,后处理即对应PCA降维的过程,因此本发明实施例对用于知识提取的英文文本数据通过分词方法以及词向量生成方法处理后,通过关键词提取方法得到至少两个分词高维向量。
优选地,分词高维向量的获取方法包括:
对用于知识提取的英文文本数据通过分词方法进行分词,得到至少两个分词处理单元;通过词向量表示(Word to Vector,Word2Vec)技术将每个分词处理单元映射为初始高维向量;通过训练好的大语言模型BERT得到每个初始高维向量的语义信息。考虑到词频-逆文档频率(Term frequency–inverse document frequency,TF-IDF)算法为一种常用的关键词提取方法,所以本发明实施例根据所有初始高维向量的语义信息通过TF-IDF算法进行提取,得到至少两个分词高维向量。需要说明的是,Word2Vec技术、大语言模型BERT和TF-IDF算法均为本领域技术人员所熟知的现有技术,实施者也可根据具体实施环境采样其他方法进行替代,在此不做进一步赘述。
步骤S2:根据每个分词高维向量与其余分词高维向量之间的相似度整体偏离情况,得到每个分词高维向量的噪声存在概率;根据噪声存在概率在所有分词高维向量中筛除噪声高维向量,得到至少两个参考高维向量。
考虑到PCA降维通常借助累计方差解释率选取k值,但是首先需要确定累计方差解释率的最优阈值,而最优阈值的确定受到降维后向量的特征保留度的制约,向量的特征保留度即降维后的结果满足简单显示并概括文本内容的程度,对于能够满足简单显示并概括文本内容的信息对应的分词高维向量,在进行k值累计方差解释率阈值选取时的贡献度是需要放大的,目的是将其作为摘要信息保留到最终经过降维后的向量中,从而使得得到的k值更加准确。对于满足简单显示并概括文本内容的分词高维向量的特征,通常表现为向量内元素的重复性较高并且向量之间的距离和模值相近,以及重复率较高等数据分布性较高的向量,也即本发明对应的主成分分析高维向量。因此本发明实施例的目的在于获取主成分分析向量,而根据高维向量的特征,即简单显示并概括文本内容的特征,因此通常具有较高的重复性且与其余高维向量之间的关联程度或相似性较好。而对应拼写错误或转录错误对应的噪声数据,会对后续筛选过程造成影响,因此为了能够更加准确的获取主成分分析向量,首先需要将噪声数据筛选出来。而存在拼写错误或转录错误对应的噪声数据的分词高维向量而言,其对应的元素混乱程度通常较高,并且与其他分词高维向量之间的相似度通常较低,因此本发明实施例根据每个分词高维向量与其余分词高维向量之间的相似度整体偏离情况,得到每个分词高维向量的噪声存在概率。
优选地,噪声存在概率的获取方法包括:
任选两个分词高维向量作为一个高维向量二元组,获取所有的高维向量二元组;将每个高维向量二元组中的两个分词高维向量之间的余弦相似度,作为每个高维向量二元组的参考相似度;将所有高维向量二元组的参考相似度的均值,作为向量整体相似度。向量整体相似度表征了所有分词高维向量之间的相似特征,也即整体上的相似程度;而对于元素混乱程度高、存在拼写错误或转录错误的噪声高维向量而言,其与各个分词高维向量之间的相似度相比于整体的相似程度通常会有较大的偏离,因此进一步地对每个分词高维向量与其余各个高维向量之间的相似度进行分析。需要说明的是,除余弦相似度外,实施者也可通过其他相似度计算方法替换两个分词高维向量之间的余弦相似度,在此不做进一步赘述。
本发明实施例依次将每个分词高维向量,作为目标分词高维向量;在所有分词高维向量中,将目标分词高维向量之外的其他分词高维向量,作为目标分词高维向量的对比高维向量;将目标分词高维向量与每个对比高维向量之间的余弦相似度,作为目标分词高维向量的每个对比高维向量的对比相似度;将目标分词高维向量的对应的所有对比高维向量的对比相似度的均值,作为目标分词高维向量的向量局部相似度。向量局部相似度即每个分词高维向量与其余各个分词高维向量之间的余弦相似度的均值,对于表征噪声数据的分词高维向量而言,通常与各个分词高维向量之间的相似度较小,相对于表征整体分词高维向量之间相似度的向量整体相似度的差别较大,因此进一步地将目标分词高维向量的向量局部相似度与向量整体相似度之间的差异,作为目标分词高维向量的向量偏离程度,对应的向量偏离程度越大,说明目标分词高维向量越可能表征噪声数据。
将目标分词高维向量中所有元素值的方差,作为目标分词高维向量的数值离散程度。而对于每个分词高维向量而言,其对应的元素值越混乱或越离散,则该向量就越不具备清晰的结构或者模式,而方差能够一定程度上表征对应元素值的混乱或离散情况,因此对应的数值离散程度越大,说明元素值分布越混乱或离散,也即目标分词高维向量越可能为噪声数据。实施者也可通过计算信息熵的方式得到数值离散程度,在此不做进一步赘述。
进一步地根据向量偏离程度和数值离散程度,得到目标分词高维向量的噪声存在概率,向量偏离程度和数值离散程度均与噪声存在概率呈正相关关系。
优选地,根据向量偏离程度和数值离散程度,得到目标分词高维向量的噪声存在概率的方法包括:
由于向量偏离程度和数值离散程度越大,对应的目标分词高维向量越可能为噪声数据,因此本发明实施例将向量偏离程度和数值离散程度的乘积的归一化值,作为目标分词高维向量的噪声存在概率。需要说明的是,除乘积的归一化值外,实施者也可通过其他方法根据向量偏离程度和数值离散程度得到噪声存在概率,例如将向量偏离程度和数值离散程度和值的归一化值,作为噪声存在概率,在此不做进一步赘述。
在本发明实施例中,目标分词高维向量的噪声存在概率的获取方法在公式上表现为:
其中,为目标分词高维向量/>的噪声存在概率,/>为目标分词高维向量的数值离散程度,/>为高维向量二元组的数量,/>为第/>个高维向量二元组的参考相似度,/>为目标分词高维向量/>对应的第/>个对比高维向量的对比相似度;/>为分词高维向量的数量,也即/>为目标分词高维向量对应的对比高维向量的数量;/>为绝对值符号;为归一化函数,本发明实施例中所有的归一化方法均采样线性归一化,实施者也可根据具体实施环境采样其他归一化方法,在此和后续不做进一步赘述。为目标分词高维向量/>的向量局部相似度;/>为向量整体相似度;/>为目标分词高维向量/>的向量偏离程度。
本发明实施例根据噪声存在概率在所有分词高维向量中筛除噪声高维向量,得到至少两个参考高维向量。优选地,参考高维向量的获取方法包括:
由于噪声存在概率越大,对应的分词高维向量越可能为噪声数据,因此为了将噪声数据去除,本发明实施例将大于预设噪声阈值的噪声存在概率对应的分词高维向量,作为噪声高维向量;将所有分词高维向量中噪声高维向量之外的分词高维向量,作为参考高维向量。在本发明实施例中,考虑到噪声存在概率为归一化后的值,因此设置噪声存在概率为0.95,实施者可根据具体实施环境自行调整噪声存在概率的大小,在此不做进一步赘述。
步骤S3:根据每个参考高维向量对应数值序列的数值分布复杂性,以及每个参考高维向量与其余参考高维向量之间的关联性,得到每个参考高维向量的分析重要性;根据分析重要性筛选出主成分分析高维向量。
考虑到简单显示并概括文本内容通常具有较高的重复性并且分布较为稳定,因此进一步地对各个参考高维向量的数值序列进行分析。并且对于重复性高的数据,其对应的重要程度一般较高,因此越需要处于向量投影靠前的部分,即方差解释率阈值的选取越需要考虑到该参考高维向量,对应的分析重要性越高。而对于重复性,当参考高维向量与其余参考高维向量之间的关联性均较高时,说明该参考高维向量对应的文本数据概括能力强,并且具有较高的重复性,因此可能通过分析两两参考高维向量之间的关联性来判断分析重要性。此外,不同的参考高维向量对应的文本数据可信度不同,当参考高维向量对应的各个数值序列的元素分布越混乱时,说明对应的文本数据越可能为偏离的不常见的词汇或者语句组合,那么越不应该作为目标向量投影输出,因此在计算相关性是给予更小的权重。因此本发明实施例根据每个参考高维向量对应数值序列的数值分布复杂性,以及每个参考高维向量与其余参考高维向量之间的关联性,得到每个参考高维向量的分析重要性。
优选地,分析重要性的获取方法包括:
将每个参考高维向量标量化后,得到每个参考高维向量的标量数据序列;将标量数据序列中所有数据的信息熵,作为每个参考高维向量的分布混乱程度。在本发明实施例中,标量话即将方向去除后对应的元素组成的序列,例如参考高维向量为,则标量化后的标量数据序列为/>。
信息熵能够表征一组数据的混乱程度,对应的信息熵越大,混乱程度越大;对于每个参考高维向量而言,如果对应的标量数据序列的信息熵越大,说明对应的向量元素分布越混乱,根据分词向量的获取过程,其越可能对应偏离的、不常见的词汇或语句组合,也即越不可能为摘要信息,对应的重要程度也就越低,也即分析的重要性越低,在后续计算皮尔逊相关系数时对协方差结果的贡献度就越低,旨在依据数据特性更新相关系数的计算,使得具有数据重复性的数据特性具备摘要需求。而皮尔逊相关系数是计算两个数据序列之间的相关性,如果固定每个参考高维向量的权重会影响算法的鲁棒性,因此本发明实施例依次将每个参考高维向量作为目标参考高维向量;在所有参考高维向量中,将目标参考高维向量之外的其他参考高维向量,作为目标参考高维向量对应的对比参考高维向量;根据每个对比参考高维向量的分布混乱程度与目标参考高维向量的分布混乱程度之间的相对占比,得到每个对比参考高维向量的对比权重系数;将每个对比参考高维向量的对比权重系数的负相关映射值,作为每个对比参考高维向量影响下目标参考高维向量的参考权重系数。从而使得目标参考高维向量与不同的对比参考高维向量进行相关性计算时,对应的目标参考高维向量都有不同的权重,使得后续所计算出的分析重要性更加准确。
优选地,对比权重系数的获取方法包括:
将每个对比参考高维向量的分布混乱程度与目标参考高维向量的分布混乱程度之间的和值,作为每个对比参考高维向量的参考适应和值;将目标参考高维向量的分布混乱程度与参考适应和值的比值,作为每个对比参考高维向量的对比权重系数。由于参考高维向量的熵值越小时,对协方差结果计算的贡献度越高,对应的权重越大。因此目标参考高维向量的分布混乱度相比对越小时,目标参考高维向量对协方差计算的贡献度相对越大,而对比参考高维向量对协方差计算的贡献度相对较小,因此以目标参考高维向量的分布混乱程度与参考适应和值的比值,作为每个对比参考高维向量的对比权重系数。
优选地,参考权重系数的获取方法包括:
由于目标参考高维向量的权重与每个对比参考高维向量之间进行相关性计算时对应的参考适应和值不同,因此目标参考高维向量在与不同的对比参考高维向量进行计算时对应不同的权重,以对比参考高维向量的对比权重系数的方法进行计算表现为:将每个对比参考高维向量的分布混乱程度与对应的参考适应和值的比值,作为目标参考高维向量的参考权重系数,但是为了使得参考权重系数和对比权重系数存在关联,进一步地进行转化,本发明实施例将正数1与每个对比参考高维向量的对比权重系数之间的差值,作为每个对比参考高维向量影响下目标参考高维向量的参考权重系数,从而使得参考高维向量对应的熵值越小时,加权后的序列对协方差结果的贡献度越高。
进一步地通过对比权重系数对每个对比参考高维向量的标量数据序列进行加权,得到每个对比参考高维向量的加权数据序列;也即将对比权重系数作为权重,对对比参考高维向量的标量数据序列中的每个元素进行乘积运算,将运算后的得到的新的数据序列作为每个对比参考高维向量加权数据序列。参考权重系数对目标参考高维向量的标量数据序列进行加权,得到每个对比参考高维向量影响下目标参考高维向量的加权数据序列,同理每个对比参考高维向量影响下目标参考高维向量的参考权重系数作为权重,对目标参考高维向量的标量数据序列中的每个元素进行乘积运算,将运算后的得到的新的数据序列作为每个对比参考高维向量影响下目标参考高维向量的加权数据序列。
在本发明实施例中,依次将目标参考高维向量对应的每个对比参考高维向量,作为目标参考高维向量/>的第/>个对比参考高维向量,则目标参考高维向量/>的第/>个对比参考高维向量的对比权重系数的获取方法在公式上表现为:
其中,为目标参考高维向量/>的第/>个对比参考高维向量的对比权重系数,为目标参考高维向量/>的分布混乱程度,/>为目标参考高维向量/>的第/>个对比参考高维向量的分布混乱程度;/>为目标参考高维向量/>的第/>个对比参考高维向量的参考适应和值。
在本发明实施例中,目标参考高维向量的第/>个对比参考高维向量影响下目标参考高维向量/>的参考权重系数的获取方法在公式上表现为:
其中,为目标参考高维向量/>的第/>个对比参考高维向量影响下目标参考高维向量/>的参考权重系数,/>为目标参考高维向量/>的第/>个对比参考高维向量的对比权重系数。
进一步地计算目标参考高维向量与每个对比参考高维向量之间的相关性,本发明实施例通过目标参考高维向量与每个对比参考高维向量的加权数据序列的皮尔逊相关系数表征对应的相关性,也即本发明实施例将每个对比参考高维向量的加权数据序列与对应的对比参考高维向量影响下目标参考高维向量的加权数据序列之间的皮尔逊相关系数,作为每个对比参考高维向量的加权相关性。需要说明的是,皮尔逊相关系数为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。当参考高维向量与其余参考高维向量之间的关联性均较高时,说明该参考高维向量对应的文本数据概括的能力强,并且具有较高的重复性。因此本发明实施例将目标参考高维向量对应的所有对比参考高维向量的加权相关性的均值的归一化值,作为目标参考高维向量的分析重要性,也即对应的分析重要性越高,说明目标参考高维向量与其余参考高维向量之间的关联性整体越高,对应的文本数据概括的能力越强,对应的重复性越高,越需要处于向量投影靠前的部分,也即越需要作为主成分分析对应的参考高维向量。
因此进一步地根据分析重要性筛选出主成分分析高维向量。优选地,根据分析重要性筛选出主成分分析高维向量的方法包括:
由于分析重要性越高,越需要作为主成分分析对应的参考高维向量,因此本发明实施例将大于预设分析阈值的分析重要性对应的参考高维向量,作为主成分分析高维向量。在本发明实施例中,由于分析重要性为归一化后的值,因此将预设分析阈值的取值范围限定为0到1,且本发明实施例将预设分析阈值设置为0.9,实施者可根据具体实施环境自行调整预设分析阈值的大小,在此不做进一步赘述。
步骤S4:根据主成分分析高维向量结合主成分分析方法进行数据降维,得到降维后的摘要信息向量;根据摘要信息向量进行英文文本数据知识提取。
在得到用于主成分分析降维的主成分分析高维向量后,进一步地根据主成分分析高维向量结合主成分分析方法进行数据降维,得到降维后的摘要信息向量。
优选地,根据主成分分析高维向量结合主成分分析方法进行数据降维,得到降维后的摘要信息向量的方法包括:
将每个主成分高维向量作为列向量组成主成分分析矩阵,对主成分分析矩阵通过主成分分析方法得到对应的协方差矩阵的各个特征向量和每个特征向量对应的特征值。PCA降维方法首先需要将所需要降维的数据序列组成矩阵的形式进行分析,并且包括得到对应的协方差矩阵的特征向量和特征值的过程均为本领域技术人员所熟知的现有技术,在此不对其意义作进一步赘述。
将每个特征向量对应的特征值,以从大到小的顺序排列,得到特征值序列;将特征值序列中所有特征值的累加和,作为整体累加值;在特征值序列中,将每个特征值与该特征值之前的所有特征值的累加和,作为每个特征值的参考累加值;将参考累加值与整体累加值的比值,作为每个特征值对应的特征向量的方差解释率。需要说明的是,该过程与现有技术中方差解释率的获取过程本质相同,在此不对其意义作进一步赘述。进一步地根据本发明实施例的目的,借助方差好解释率选取PCA降维中的k值,本发明实施例在特征值序列中,将大于预设解释率阈值的方差解释率对应的特征值的索引值,作为主成分分析的最优k值。在本发明实施例中预设解释率阈值设置为0.9,实施者可根据具体实施环境自行调整。需要说明的是,PCA降维中的k值为PCA降维中的技术名词,其本质为要保留的主成分或主要特征的数量,在此不做进一步赘述。
在本发明实施例中,依次将根据协方差矩阵得到的每个特征向量作为第个特征向量,则第/>个特征向量的方差解释率的获取方法在公式上表现为:
其中,为第/>个特征向量的方差解释率,/>为第/>个特征向量对应的特征值在所有特征值序列中的索引值,也即包括该特征值本身在内以及之前的所有特征值的数量;/>为特征值序列中所有特征值的数量;/>为特征值序列中第/>个特征值,/>为特征值序列中第/>个特征值。
最后根据最优k值以及主成分分析矩阵进行主成分分析降维,得到降维后的各个摘要信息向量。需要说明的是,在获取PCA降维分析所需要的k值后进行降维的方法为本领域技术人员所熟知的现有技术,在此不做进一步赘述。
摘要信息向量即满足简单显示并概括文本内容的分词高维向量降维后的向量,对应英文文本数据所需要的场景摘要信息,因此最后根据摘要信息向量进行英文文本数据知识提取,也即摘要信息向量对应的数据本身即为本发明实施例在英文文本中数据所需要提取到的数据。
综上所述,本发明首先基于自然语言处理方法根据英文文本数据进行分析得到分词高维向量;根据噪声数据与整体数据之间的相似度较低的特征,通过分析分词高维向量之间的相似度整体偏离情况,将噪声高维向量筛除,得到参考高维向量;根据参考高维向量对应的数值分布复杂性以及参考高维向量之间的关联性,筛选出主成分分析向量和最优k值;使得结合最优k值后根据主成分分析高维向量通过PCA降维方法进行数据降维的效果更好,也即根据降维后的摘要信息向量对英文文本数据知识提取的效果更好。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。