加快计算机运算的数据分析方法及影像辨识系统运作方法
技术领域
本发明涉及一种加快计算机运算的数字数据分析方法及其应用系统,特别是涉及一种可以大幅提升计算机分析系统对数据的运算速度的数字数据分析方法及其推荐系统运作方法及影像辨识系统运作方法。
背景技术
在此信息爆炸时代,许多用于数据分析的计算机分析系统被开发出来与其应用装置相结合,对欲分析的数据量做有效的分析与运算,而数值分析方法即是该些计算机分析系统中处理数据的核心所在。然而日益庞大的数据量却会大大地减缓整体计算机分析系统的运算速度,如无线通讯系统传输速度的提升大大增加了数据的传输量、影像感光组件中像素的提高大大增加了影像的数据量、网络的普及带来大量使用者的浏览纪录信息量......等,因此极需要一种能符合所需而可快速处理该些数据量的数值方法来对应。
用来处理庞大数据量的分析中,数值分析法被用来处理与分析该些庞大数据量,在这些数值分析法中,传统的奇异值分解法(singular ValueDecomposition,SVD)是一种可靠的矩阵分解法,常被应用在复杂的数据分析,特别是多变量的分析。奇异值分解法(SVD)是将一个矩阵对应的行向量空间(column space)和列向量空间(row space)拆解成两个正交矩阵和一个对角矩阵的方法。假设X是一个mxn的实数矩阵,X的秩(rank)为r,X被分解成X=SVDT,其中S和D是正交矩阵,即S和D的行向量长度为1,并且彼此正交。V是一个对角矩阵,V的非对角线的值都是零。无论X是否为对称矩阵,XXT一定是对称矩阵。传统上求解奇异值分解法(SVD)就是先把X自乘为XXT,然后对XXT矩阵求其特征值和特征向量。计算XXT所求得的特征向量所排成的矩阵就是S矩阵,其对应的特征值正好是V的对角线值的平方。同理,要计算D,就是把X自乘为XTX,然后计算XTX的特征向量。所求得的特征向量矩阵就是D。
近年来奇异值分解法(SVD)技术被大量使用在自然语言处理中,最有名的方法是隐含语意索引法(Latent Semantic Indexing,LSI)简称为LSI。利用隐含语意索引法(LSI)技术,学者可将文本和关键词做一个对应,并且将文本以及关键词的数据同时投影在一个维度较小的空间,在此空间中,学者可以做文本对关键词、文本对文本以及关键词对关键词的比对与分类。在隐含语意索引法(LSI)分析过程中,首先用一个矩阵A来记录文本与字词的关系,例如,要探讨一百万篇文章和五十万词的关联性,那么这个矩阵中,每一行对应一篇文章,每一列对应一个词,如下面的式(1)所示:
在上述的式(1)中,m=1,000,000,n=500,000。第i行,第j列的元素,是字典中第j个词在第i篇文章中出现的加权词频。而这个矩阵非常大,有一百万乘以五十万,即五千亿个元素。假设这个大矩阵有显着的秩(rank)是100,隐含语意索引法(LSI)的关键技术就是利用奇异值分解法(SVD)将这种大矩阵分解成三个小矩阵相乘,如图1所示,是传统的分析方法的一实施例的示意图,把上面例子中的矩阵分解成一个一百万乘以一百的矩阵X,一个一百乘以一百的矩阵B,和一个一百乘以五十万的矩阵Y。这三个矩阵的元素总数加起来为1.5亿,仅是原来的三千分之一。相应的存储量和计算量都可小三个数量级以上。在图1中,分解后的第一个X矩阵就是这一百万篇文章在100维度的潜在语意索引法(LSI)空间的表现,第三个Y矩阵就是五十万个字词在潜在语意索引法(LSI)空间中的表现,中间的矩阵的对角线值代表在潜在语意索引法(LSI)空间中每一个轴向的重要性,当同时把文章和字词投影在潜在语意索引法(LSI)空间中,若某些字词落在文章的附近(或相同方向),那么这些字词就可以当作这篇文章的关键词。我们也可以在潜在语意索引法(LSI)空间中比较文章与文章之间的距离,如果两个文章在潜在语意索引法(LSI)空间中的距离靠近,那么这两个文章的内容也会比较靠近。同理,也可以比较字词与字词的距离,进而找出有哪些词汇其实是近义词。此即潜在语意索引法(LSI)在语意学上的基本应用。然而假设m与n大小相当,传统的奇异值分解法(Singular Value Decomposition,SVD)其计算量即为O(n3),当A为更大型矩阵时,计算机分析系统的运算时间将会拖长,在实际的应用上便会受到许多的限制。
主成分分析法(Principal Component Analysis,PCA)也是分析多变量数据一个常用的方法,其主要精神是将数据通过线性转换,使数据成为某一组正交基底的线性组合,并且此正交的基底顺序,对应原始数据在该基底展开方向的变异数。配合消息理论的精神,变异数越大的方向,为重要讯息存在的方向,因此,主成分分析法(PCA)自然地提供依讯息重要性排序的数据表示法。在许多的应用上,主要的方向(成分)已充分提供所需的讯息。为此,主成分分析法PCA则成为精简数据,与消除数据噪声的重要工具。
奇异值分解法(SVD)与主成分分析法(PCA)的计算精神非常类似,由于主成分分析法(PCA)是从分解变异数矩阵开始,所以,主成分分析法(PCA)可视为将行向量调整到质心为零,再做张量乘积(tensor product)后的矩阵的奇异值分解法(SVD)。因此,若原始数据是分布再质量中心为零的资料,奇异值分解法(SVD)分解得到的行向量基底,会与主成分分析法(PCA)分解得到的基底相同。
另外一种奇异值分解法(SVD)的重要应用技术是在1952年被提出的多元尺度分析。多元尺度分析(Multidimensional Scaling,MDS)是一种从对象与对象相对距离,回推对象与对象相对坐标的方法,此方法主要应用在已知对象与对象具有相似性或差异性时,如何用一个有效的视觉表示,来呈现这些对象彼此的关系。因此,多元尺度分析(MDS)常被应用在复杂的数据分析,特别是多变量分析时,将高维度数据映像到低维度的2D空间或是3D空间,以方便人类的视觉系统判读。根据维度诅咒定理(Curse ofdimension),在高维度空间搜寻数据会比低维度空间需要更多的数据量,并且精准度会比低维度空间搜寻的结果差。因此,降低维度是一个必经的过程,而多元尺度分析(MDS)在这过程中占据举足轻重的地位。以下所述的多元尺度分析(MDS)技术过程,已阐明多元尺度分析(MDS)技术与主成分分析法(PCA)及奇异值分解法(SVD)的密切关系。
上述的多元尺度分析(MDS),假设X是一个p by N的矩阵,亦即有N个对象,每个对象都由相同的p种不同的变量来描述。令D=XTX为X的相乘矩阵,i是一个Nx1的向量,他的每一个元素都是1。定义:
式(2)是X平移到中心点的相乘矩阵,亦即X的变异矩阵。B矩阵可视为D矩阵做双中心化(double centering)运算后的结果。定义:
则B可以简化成B=HDH。由于B矩阵是对称矩阵,B的奇异值分解法(SVD)分解会成为B=UVUT,而:
的行向量即为X中心化平移后的坐标。因此,对X矩阵的张量乘积D做双中心化恰好得到矩阵X的变异矩阵。将变异矩阵做平方拆解,所得到的矩阵,恰好为X矩阵将行向量平移到质心为零的矩阵。故,多元尺度分析方法(MDS)的核心技巧就是矩阵的双中心化与平方拆解,其中平方拆解的过程就是利用奇异值分解法(SVD)的技术。计算后的结果会失去原始数据质心的信息,但是仍旧保留相对位置的关系。由于多元尺度分析(MDS)步骤中利用到奇异值分解法(SVD)技术,所以其计算复杂度和奇异值分解法(SVD)相当。传统的多元尺度分析方法(MDS)亦受限于计算量的限制,当对象的个数增加时,其计算量是以O(N
3)的速度在增加。因此,当对象个数庞大时,传统的多元尺度分析(MDS)并无法真正的被使用。
因此,如何改良分析方法,使得在处理庞大的对象个数数据量时,计算机分析系统运算时间冗长的瓶颈能有效改善,即为本发明的重点。
发明内容
本发明的目的在于,提供一种加快计算机运算的数字数据分析方法及其推荐系统运作方法及影像辨识系统运作方法,所要解决的技术问题是使其可以改善现有传统的分析方法(SVD)在分解庞大对象个数时,运算时间冗长的瓶颈,非常适于实用。
本发明的目的及解决其技术问题是采用以下技术方案来实现的。依据本发明提出的一种加快计算机运算的数字数据分析方法,该分析方法包括以下步骤:(a).输入一第一矩阵的数字数据于一计算机中,其中该第一矩阵为N乘p矩阵,N为一第一对象个数,p为一变数个数;(b).该计算机中的一计算单元计算该第一矩阵列向量的一平均向量;(c).该计算单元对该第一矩阵的行向量作重叠的随机数分群,随机将该N个第一对象拆解成K个有部分重叠的小群;(d).该计算单元对该些小群的行向量分别计算其变异矩阵;(e).该计算单元对该些变异矩阵计算其个别的多元尺度分析,(f).该计算单元分别重组该些多元尺度分析的空间坐标;(g).该计算单元将重组后的该些多元尺度坐标转换成一主成分分析(PCA)结果;(h).该计算机利用该主成分分析(PCA)结果及该平均向量输出一完整的矩阵数字数据序。
本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。
前述的加快计算机运算的数字数据分析方法,其中所述的步骤(c)中,其更包含:该些重叠部分为一第二对象个数,且该第二对象个数分别大于该变数个数p。
前述的加快计算机运算的数字数据分析方法,其中所述的步骤(g)中,其更包含:该计算单元调整该第一矩阵列向量使其平均为0,再利用矩阵正交化分解(QR分解)使该第一矩阵列向量互相正交计算出一主成分分析(PCA)结果。
前述的加快计算机运算的数字数据分析方法,其中所述的步骤(h)中,其更包含:该计算单元合并该主成分分析(PCA)结果与该平均向量形成一新矩阵;该计算单元利用矩阵正交化分解(QR分解)将该新矩阵的列向量正交化,计算出一对角矩阵(Dr);该计算单元将该对角矩阵(Dr)乘回该第一矩阵并做行向量的正交化,计算出一第二矩阵(Sr);该计算单元再将该第二矩阵(Sr)与该对角矩阵(Dr)分别乘在该第一矩阵的左右两边,计算出一第三矩阵(Vr);该计算机根据该第二矩阵(Sr)、该第三矩阵(Vr)及该对角矩阵(Dr),输出一完整的矩阵数字数据序。
本发明的目的及解决其技术问题还采用以下技术方案来实现。依据本发明提出的一种使用上述技术方案(即如权利要求1所述)的加快计算机运算的数字数据分析方法的推荐系统运作方法,其包括以下步骤:(a).输入一使用者记录信息矩阵于该推荐系统;(b).利用该数字数据分析方法计算潜在语意索引法(Latent semantic Index,LSI)在低维度空间的展开基底;(c).藉由该展开基底将潜在语意索引法(LSI)空间中的使用者分群;(d).建立对应于该使用者分群的推荐列表;(e).将一新使用者投影至该潜在语意索引法(LSI)空间;(f).该推荐系统藉由该新使用者所对应的推荐列表输出一推荐信息予该新使用者。
本发明的目的及解决其技术问题另外还采用以下技术方案来实现。依据本发明提出的一种使用上述技术方案的加快计算机运算的数字数据分析方法的影像辨识系统运作方法,包括以下步骤:(a).将撷取的一第一影像与一第二影像的矩阵数据输入该影像辨识系统;(b).对该第一影像与该第二影像的矩阵数据个别利用该数字数据分析方法分解;(c).比较该第一影像与该第二影像的矩阵数据分解后的行向量基底角度与列向量基底角度;(d).统计该些基底角度是否接近0°或180°,得到一分析结果;(e).该影像辨识系统根据该分析结果,若接近0°或180°则判定该第一影像与该第二影像的来源相同,辨识结果为符合;若为否则判定来源不同,辨识结果为不符合。
本发明与现有技术相比具有明显的优点和有益效果。由以上技术方案可知,本发明的主要技术内容如下:
为达上述目的,本发明提供一种加快计算机运算的数字数据分析方法(快速奇异值分解法SVD),该分析方法包含以下步骤:(a).输入一第一矩阵的数字数据于一计算机中,其中该第一矩阵为N乘p矩阵,N为一第一对象个数,p为一变数个数;(b).该计算机中的一计算单元计算该第一矩阵列向量的一平均向量;(c).该计算单元对该第一矩阵的行向量作重叠的随机数分群,随机将该N个第一对象拆解成K个有部分重叠的小群,该些重叠部分为一第二对象个数,且该第二对象个数分别大于大于该变数个数p;(d).该计算单元对该些小群的行向量计算其变异矩阵;(e).该计算单元对该些变异矩阵计算其个别的多元尺度分析;(f).该计算单元分别重组该些多元尺度分析的空间坐标;(g).该计算单元调整该第一矩阵列向量使其平均为0,再利用矩阵正交化分解(QR分解)使该第一矩阵列向量互相正交计算出一主成分分析(PCA)结果;(h).该计算单元合并该主成分分析(PCA)结果与该平均向量形成一新矩阵;(i).该计算单元调整该第一矩阵列向量使其平均为0,再利用矩阵正交化分解(QR分解)将该新矩阵的列向量正交化,计算出一对角矩阵(Dr);(j).该计算单元将该对角矩阵(Dr)乘回该第一矩阵并做行向量的正交化,计算出一第二矩阵(Sr),再将该第二矩阵(Sr)与该对角矩阵(Dr)分别乘在该第一矩阵的左右两边,计算出一第三矩阵(Vr);(k).该计算单元根据该第二矩阵(Sr)、该第三矩阵(Vr)及该对角矩阵(Dr),输出一完整的矩阵数字数据序。
本发明的一实施例是使用该分析方法的推荐系统运作方法,其包含以下步骤:(a).输入一使用者记录信息矩阵于该推荐系统;(b).利用该数字数据分析方法计算潜在语意索引法(LSI)在低维度空间的展开基底;(c).藉由该展开基底将潜在语意索引法(LSI)空间中的使用者分群;(d).建立对应于该使用者分群的推荐列表;(e).将一新使用者投影至该潜在语意索引法(LSI)空间;(f).该推荐系统藉由该新使用者所对应的推荐列表输出一推荐信息予该新使用者。
本发明的另一实施例是使用该分析方法的影像辨识系统运作方法,其包含以下的步骤:(a).将该影像辨识系统撷取的一第一影像与一第二影像的矩阵数据输入该影像辨识系统;(b).对该第一影像与该第二影像的矩阵数据个别利用该数字数据分析方法分解;(c).比较该第一影像与该第二影像的矩阵数据分解后的行向量基底角度与列向量基底角度;(d).统计该些基底角度是否接近0°或180°,得到一分析结果;(e)该影像辨识系统根据该分析结果,若接近0°或180°则判定该第一影像与该第二影像的来源相同,辨识结果为符合;若否则判定来源不同,辨识结果为不符合。
借由上述技术方案,本发明加快计算机运算的数字数据的分析方法及其推荐系统运作方法及影像辨识系统运作方法至少具有下列优点及有益效果:藉此,多元尺度分析(MDS)虽为奇异值分解法(SVD)的应用,但经过本发明的阐释,反而能利用改良多元尺度分析(MDS)的方法,改进主成分分析(PCA)的运算速度,进而改善奇异值分解法(SVD)的运算过程。因此,本发明的一种加快计算机运算的数字数据分析方法(快速奇异值分解法SVD)使用矩阵拆解及分群的概念,搭配变异矩阵的分解及列向量平均向量的调整来最佳化奇异值分解法(SVD),而大幅提升整体计算机分析系统的运算速度。
综上所述,本发明是使用一种加快计算机运算的数字数据分析方法来改善现有传统的在分解庞大对象个数时运算时间冗长的瓶颈,并且可以处理任何形式的矩阵而不受对称矩阵的限制。该分析方法使用矩阵拆解及分群的概念,搭配变异矩阵的分解及列向量平均向量的调整来最佳化,而可大幅提升系统的运算速度。本发明具有上述诸多优点及实用价值,其不论在方法、产品结构或功能上皆有较大改进,在技术上有显着的进步,并产生了好用及实用的效果,从而更加适于实用,诚为一新颖、进步、实用的新设计。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是现有传统的分析方法的一实施例的示意图。
图2是本发明的加快计算机运算的数字数据分析方法(快速奇异值分解法SVD)的流程图。
图3是非满秩矩阵的运算速度比较图。
图4是非满秩矩阵的运算精准度比较图。
图5是运算满秩矩阵前十个奇异值的奇异值分解法(SVD)所需要的时间的示意图。
图6是本发明的加快计算机运算的数字数据分析方法应用于推荐系统运作方法的流程图。
图7是本发明的加快计算机运算的数字数据分析方法应用于影像辨识系统运作方法的流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的数字数据的分析方法及其推荐系统及影像辨识系统其具体实施方式、方法、步骤、结构、特征及其功效,详细说明如后。
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例的详细说明中将可清楚呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得一更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
以下介绍本发明内容的过程中会多次使用到矩阵正交化分解(QR分解)的技术,为达到充分揭露的目的,在此简单介绍何为矩阵正交化分解(QR分解)。矩阵正交化分解(QR分解)是将矩阵的行向量或是列向量做正交化的一种标准技术,该理论是由Gram-Schmidt所提出。实数矩阵A的矩阵正交化分解(QR分解)是把A分解为A=QR,这里的Q是正交矩阵(意味着QTQ=I),而R是一个对角线以下的值为0的上三角矩阵。
本发明是对大量数字数据进行一分析方法,该分析方法是为一快速奇异值分解法(SVD),用来运算及分析以大幅增进系统效能。首先请参阅图2所示,是本发明的加快计算机运算的数字数据分析方法(快速奇异值分解法SVD)的流程图。本发明的加快计算机运算的数字数据分析方法,包括以下步骤:
(a).输入一第一矩阵的数字数据于一计算机中,其中该第一矩阵为N乘p矩阵,N为一第一观测对象个数,p为描述该观测对象的一变量个数;
(b).该计算机中的一计算单元计算该第一矩阵列向量的一平均向量b;
(c).该计算单元对该第一矩阵的行向量作重叠的随机数分群,随机将该N个第一对象拆解成K个有部分重叠的小群,该些重叠部分为一第二对象个数,且该第二对象个数最佳为分别大于该变数个数p;
(d).该计算单元对该些小群的行向量分别计算其变异矩阵;
(e).该计算单元对该些变异矩阵计算其个别的多元尺度分析(MDS);
(f).该计算单元分别重组该些多元尺度分析(MDS)的空间坐标;
(g).该计算单元调整该第一矩阵列向量使其平均为0,再利用矩阵正交化分解(QR分解)使该第一矩阵列向量互相正交计算出一主成分分析(PCA)结果;
(h).该计算单元合并该主成分分析(PCA)结果与该平均向量形成一新矩阵;
(i).该计算单元利用矩阵正交化分解(QR分解)将该新矩阵的列向量正交化,计算出一对角矩阵(Dr);
(j).该计算单元将该对角矩阵(Dr)乘回该第一矩阵并做行向量的正交化,计算出一第二矩阵(Sr),再将该第二矩阵(Sr)与该对角矩阵(Dr)分别乘在该第一矩阵的左右两边,计算出一第三矩阵(Vr);
(k).该计算机根据该第二矩阵(Sr)、该第三矩阵(Vr)及该对角矩阵(Dr),输出一完整的矩阵数字数据序。
上述的步骤(i)是利用矩阵正交化分解(QR分解),计算出合并小群间坐标所需要的转换公式。如,第一小群的多元尺度分析(MDS)坐标为X1,第二小群的多元尺度分析(MDS)坐标为X2,X1与X2是对应的对行向量中心化的坐标矩阵,因此该转换公式为 通过此公式可以将X2的坐标,转换到X1的坐标系。依此类推,即可以将每一个小群的坐标系都转换到第一个坐标系上,进而得到一个完整的坐标。在一般状况下要连结的两群坐标其表示的维度会相同,假若要连结的两群坐标其表示的维度不同,例如:X1的维度是r1,X2的维度是r2,其中r1<r2,此时并不是将X2的坐标转接到X1的坐标,而是由低维度的坐标表示转接到高维度的坐标表示。这时转换的公式变成 此时的Q2只取r1个行向量,因此Q2是一个r2乘r1的矩阵,Q1是一个r1乘r1的矩阵,公式仍旧满足一般公式的形式。要串接更多的坐标系统,就依此维度低的坐标系转接到维度高的坐标系的原则,一一将坐标系统串接起来。
接着请参阅图3至图5所示,是使用本发明的分析方法-快速奇异值分解法(SVD)与使用传统奇异值分解法(SVD)的相关模拟比较图。该些图式的横坐标代表矩阵nxm中的n,模拟使用的矩阵为n=m,大小为100*100的矩阵到2000*2000的矩阵,做快速奇异值分解法(SVD)与传统奇异值分解法(SVD)的速度与精准度分析,并分别对满秩(full rank)矩阵和非满秩矩阵做模拟测试。
在非满秩矩阵中,设定以矩阵的秩(rank)是10对应一个矩阵的大小。接着用随机数产生十六个矩阵大小相同,秩也相同的矩阵,矩阵中每一个元素都是由[0,1]区间的平均分配中取出的随机数。计算奇异值分解法(SVD)分解所需要的时间以及误差后,再利用这十六个随机数产生的矩阵对应结果的平均作为图表上的数据。
请参阅图3所示,是非满秩矩阵的运算速度比较图,实线表示传统奇异值分解法(SVD),虚线表示本发明的快速奇异值分解法(SVD)。由图3中可以明显得知,当矩阵大小变大时,本发明明显的改善了运算速度。请参阅图4所示,是非满秩矩阵的运算精准度比较图,所呈现的是相对误差,由图4可得知,相对误差并没有随着矩阵大小的增加而增加,且本分析方法的快速奇异值分解法(SVD)的运算误差与传统奇异值分解法(SVD)的误差相比并无太大的差别。请参阅图5所示,是运算满秩矩阵前十个奇异值的传统奇异值分解法(SVD)所需要的时间,图5显示,本分析方法的快速奇异值分解法(SVD)所需要的运算时间随着矩阵的大型化仅呈线性增加,相对于传统奇异值分解法(SVD)运算时间的指数型增加要快速许多。
本发明的加快计算机运算的数字数据分析方法的应用-推荐系统
本发明的一实施例是使用该分析方法应用于一推荐系统(RecommenderSystem)中。推荐系统是人工智能领域这十年来非常热门的课题,其中结合了统计学,辨识科学,数据处理,数值算法等重要知识,并且被广泛的应用到客户管理系统,交互式网站,推荐式广告等领域。在现今信息爆炸时代,网络使用者在有限的时间内能浏览的网站有限,如何有效的让使用者接触到适合的内容,并且减少接触不适合内容的机率是推荐系统主要的功能。推荐系统企图达到快速又精准的推荐,但是快速与精准通常是互相矛盾的限制条件。因此,本发明即利用具有快速奇异值分解法(SVD)开发出更新、更快、更准确的推荐系统。
推荐系统有两大主要分类,第一大类是单一使用者记录推荐:此类方法仅使用单一使用者的记录,来学习该使用者的偏好(taste)。统计方法中的变量分析常被应用到此领域;第二大类是广义数据学习:此类方法用到该使用者之外的其它使用者的使用记录,来辅助学习出该使用者的偏好。由于真实的应用中,使用者记录通常会有缺值(missing data),而补足缺值的方法,最常见的就是利用偏好相近的其它使用者的信息来补足这些缺值。因此广义数据学习的结果,一般而言优于单一使用者记录推荐。当今热门的广义数据学习推荐系统是协同合作式筛选(Collaborative Filtering)。
常见的协同合作式筛选,有总量统计法(POP Algorithm),邻近法(Nearest Neighbor Algorithm),还有特征偏好法(Eigentaste Algorithm)。上述方法需要去定义使用者与其它使用者偏好的距离。这距离与使用者曾经点选过的对象有关。曾经点选相同对象的不同使用者,假设该使用者有相同的偏好。在定义距离时最常遇到的两个挑战是:第一,不同的对象,可能代表相同的偏好。第二,许多未曾被点选的对象,不代表该对象不在使用者所偏好的范围内,大部分仅是使用者没有机会接触到该对象,因此不会去点选。为了克服这两个主要的问题,等构映图(Isomap)和潜在语意索引法(Latent semantic Index,LSI)方法是最常被应用的统计方法,多数的推荐系统都是利用这两个方法之一来达到将高维度数据转换到低维度空间,来进行比对,定义距离,进而归类等动作。等构映图(Isomap)是一个类似MDS的方法,也是将数据两两的相似性或差异性转成低维度数据的方法,与MDS的差别在于,等构映图(Isomap)将数据的差异性转换成最小路径的距离,再利用这转换过的距离矩阵,来计算MDS的结果。在数据不全以及数据有特别的分布结构时,等构映图(Isomap)的计算结果会比MDS来的有意义。
然而,无论是等构映图(Isomap)或是潜在语意索引法(LSI)方法,其基本核心都是利用传统奇异值分解法(SVD)来求得低维度空间的展开基底。为了达到更精准的推荐,就是将曾经发生过的推荐数据都纳入计算范围,那么实时性地重算潜在语意索引法(LSI)的使用者低维度表现,就是整个推荐系统的关键。在先前现有技术中,传统奇异值分解法(SVD)的运算速度是O(n3)的规模,当使用者的人数庞大的时候,O(n3)的计算规模要在短时间内完成而达到实时性更新的效果就变得相当困难。因此,本发明使用的加快计算机运算数字数据分析方法(快速奇异值分解法SVD)的推荐系统将可以大幅改善这方面的需求,进而能够达到实时性的推荐信息更新。
请参阅图6所示,是本发明的加快计算机运算的数字数据分析方法应用于推荐系统运作方法的流程图,其包括以下步骤:
(a).输入一使用者记录信息矩阵于该推荐系统;其中,以N乘p矩阵来说,N是网络上的使用者个数;p为此网页服务器里,可供浏览的网页个数;
(b).利用该数字数据分析方法计算潜在语意索引法(LSI)在低维度空间的展开基底;
(c).藉由该展开基底将潜在语意索引法(LSI)空间中的使用者分群;
(d).建立对应于该使用者分群的推荐列表;
(e).将一新使用者投影至该潜在语意索引法(LSI)空间;
(f).该推荐系统藉由该新使用者所对应的推荐列表输出一推荐信息予该新使用者。
加快计算机运算的数字数据分析方法的应用-影像辨识系统
本发明的另一实施例是使用该分析方法应用于一影像辨识系统中。该影像系统中的每一个影像都可以当作是一个矩阵,在比对两张影像的数字数据时,若用点对点的方式比对,在影像大小不同以及影像做轻微的平移和旋转后,点对点的比对将会产生很大的差异。即两张看似相同的影像,点对点的比对差异将会非常的大。因此,最可靠的方式就是将对应影像调整到相同的大小,然后计算这两个影像的快速奇异值分解法(SVD)分解,按照奇异值的大小顺序比对行向量基底和列向量基底。比对的方法是计算向量的夹角。一般来说,肉眼看似相似或是源于相同来源的影像,对应的行向量和对应的列向量其向量的指向差距不大,亦即计算夹角的结果会接近平行。使用本发明的分析方法只需比较前两个最大奇异值对应的行向量基底以及列向量基底。对应奇异值较小的行向量基底及列向量基底则可视为干扰项的展开基底。
请再参阅图7所示,是本发明的加快计算机运算的数字数据分析方法应用于影像辨识系统运作方法的流程图。其包括以下步骤:
(a).将撷取的一第一影像X1与一第二影像X2的矩阵数据输入该影像辨识系统;其中,该些矩阵资料中,N与p(N乘p矩阵)可为该些影像中x轴与y轴的像素个数;
(b).对该输入的该第一影像X1与该第二影像X2矩阵数据个别利用该数字数据分析方法分解;
(c).比较该第一影像X1与该第二影像X2矩阵数据分解后的行向量基底角度与列向量基底角度;
(d).统计该些基底角度是否接近0°或180°,得到一分析结果;
(e).该影像辨识系统根据该分析结果,若接近0°或180°则判定该第一影像与该第二影像的来源相同,辨识结果为符合;若为否则判定来源不同,辨识结果为不符合。
上述的加快计算机运算的数字数据分析方法(快速奇异值分解法SVD)是从求矩阵特征值所推导出的矩阵分解,因此和需要计算特征值有关的应用都有关联。除本发明的二个较佳实施例外,举例来说:在统计计算里,奇异值分解法(SVD)被应用到计算高维度数据最大变异方向,因此近年来被广泛应用到脱氧核糖核酸(DNA)研究领域。在数值计算中,奇异值分解法(SVD)最常被应用到求劣质反算问题(ill-pose inverse problem),在劣质反算问题的无穷多解里面,奇异值分解法(SVD)提供最快速找到近似解的能力。在通讯领域里,奇异值分解法(SVD)提供最自然的频谱分析。在人工智能的领域里,特别是和语意学有关的领域,奇异值分解法(SVD)也提供了将复杂的数据转换到更有关联性的特征空间的能力。简言之,奇异值分解法(SVD)是近代数值分析计算的重要基础。
如上所述,本发明的加快计算机运算的数字数据分析方法(快速奇异值分解法SVD)改善了传统奇异值分解法(SVD)在分解庞大对象个数时,运算时间冗长的瓶颈,并且可以处理任何形式的矩阵而不受对称矩阵的限制。该快速传统奇异值分解法(SVD)使用矩阵拆解及分群的概念,搭配变异矩阵的分解及列向量平均向量的调整来最佳化奇异值分解法(SVD),而可大幅提升整体计算机分析系统的运算速度。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。