CN109145111A - 一种基于机器学习的多特征文本数据相似度计算方法 - Google Patents
一种基于机器学习的多特征文本数据相似度计算方法 Download PDFInfo
- Publication number
- CN109145111A CN109145111A CN201810838529.9A CN201810838529A CN109145111A CN 109145111 A CN109145111 A CN 109145111A CN 201810838529 A CN201810838529 A CN 201810838529A CN 109145111 A CN109145111 A CN 109145111A
- Authority
- CN
- China
- Prior art keywords
- data
- vector
- algorithm
- matrix
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000010801 machine learning Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 95
- 239000011159 matrix material Substances 0.000 claims abstract description 46
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 230000004931 aggregating effect Effects 0.000 claims abstract description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于机器学习的多特征文本数据相似度计算方法,使用文本矢量化算法将每条数据的每个特征转化为一个矢量数组;将每条数据的多个特征生成的矢量数据进行拼接,正则化处理,并将所有数据的对应矢量数组组成一个矩阵;可选地使用PCA算法对上述矩阵进行降维;由业务专家在上述数据中标注出一系列相似数据对,每个数据对由两条相似数据组成;基于上述相似数据对,计算出矢量距离映射矩阵,并基于该矩阵得到矢量距离计算公式;使用低精度聚合算法。该方法采用机器学习算法实现了多特征文本数据的距离计算,并使用低精度聚类方法降低了计算量,提升了算法性能。
Description
技术领域
本发明属于计算机软件技术领域,特别涉及一种基于机器学习的多特征文本数据相似度计算方法。
背景技术
在大数据处理领域,一种需求是需要对多特征文本数据的相似度进行计算。所谓多特征文本数据是指这么一种数据:该数据包含多个特征(也可以称作域),每个特征都是一段多个字符组成的文本,或者是可以转换为文本的其他数据类型。
如图一所示,这是一组电子商务商品的数据,该数据包含有“商品编号”,“品牌”和“产品型号”三个特征,每个特征都是一段文本数据(或是可以简单转换为文本数据的其他数据类型)。
对于这样的一组多特征文本数据,有很多数据应用都涉及对其中数据之间的相似度进行计算。比如:1,希望在数据组中找到与某条已知数据相似度最高的数据;2,希望对数据组中的数据进行分类,并保证相似度高的数据属于同一类别。
对多特征文本数据的相似度进行计算存在以下难点:
1,在不同的应用或不同的数据组中,多特征文本数据的相似度所依赖的数据特征是变化的,因此难以设计一个通用的算法以应对不同的应用及不同的数据组。以图一数据组为例,显然“产品型号”这个特征对相似度的贡献最大,而另外一个设计公司信息的数据组中,可能“公司名称”和“公司地址”则对相似度贡献较大。
2,文本是一种非量化信息,需要有一种有效量化算法来计算数据之间的相似性;对于一组有N条数据的数据组,如果想求得与其中一条数据相似度最高的数据,那么理论上需要进行N×(N-1)次计算,当N较大时,算法的效率是很低的。
发明内容
本发明所要解决的技术问题是提供一种基于机器学习的多特征文本数据相似度计算方法,该方法可以计算出与某条特定数据相似度最高的数据,有效解决现有技术中的不足。
本发明是通过以下技术方案来实现的:包括以下几个具体步骤:
一、使用文本矢量化算法将每条数据的每个特征转化为一个矢量数组;
二、将每条数据的多个特征生成的矢量数据进行拼接,正则化处理,并将所有数据的对应矢量数组组成一个矩阵;
三、可选地使用PCA算法对上述矩阵进行降维;
四、由业务专家在上述数据中标注出一系列相似数据对,每个数据对由两条相似数据组成;
五、基于上述相似数据对,计算出矢量距离映射矩阵,并基于该矩阵得到矢量距离计算公式;
六、使用低精度聚合算法,将所有数据归入多个聚类,一条数据有可能属于多个聚类;
七、对于某条特定数据,基于上述聚类和距离计算公式,得到与该数据相似度最高的数据。
作为优选的技术方案,上述步骤一中的文本矢量化算法,包含以下步骤:
(1)将特征文本字符串切分为词;
(2)使用矢量化算法将每个词转化为一个矢量;
(3)组合特征字符串中每个词转化的矢量生成特征矢量;
其中,(1)中所述将特征文本字符串切分为词的方法,是对于英文等拼音文字,一种简单的分词方法就是直接使用字符串中的空格作为词的分界符号进行分词;对于中文等表意文字,业界也有成熟算法进行分词,比如在中文分词方面,一种常用的分词开源软件是结巴分词;
(2)中所述的矢量化算法,它可以将某个词转化为一个浮点数数组,常见的矢量化算法包括但不限于tf-idf算法,word2vec算法以及fasttext算法;
(3)中所述组合方法的特征是将组成字符串的所有词所生成的矢量数组通过矢量加法运算生成组合后的矢量数组,计算结果是每个特征字符串对应一个矢量数组。
作为优选的技术方案,步骤二中,
(2.1)所述的矢量拼接方法是每个数据的每个特征文本字符串都转化成一个特定长度的矢量数组,设矢量数组的长度为K,每个数据的特征数量为d,那么每条数据将拥有d个K维的矢量数组,将d个矢量拼接为一个单一矢量,这样获得一个维度为的矢量数组;
(2.2)数据正则化处理的特征是对矢量数组中每个元素再除以数组中所有元素平方和的平方根,也就是进行二次正则化;
(2.3)矩阵化操作的特征是将所有数据所对应的多个矢量数组组合生成一个矩阵,每个矢量数组成为矩阵的一行。
作为优选的技术方案,步骤五中所述的距离计算公式的特征是包括以下计算步骤:
(5.1)对于前述步骤中标注得到的m个相似数据对{(x1,y1),(x2,y2),(x3,y3),……,(xm,ym)},对其中每一个相似数据对(xi,yi)分别计算其和向量和差向量(在以下计算中,xi和yi都被作为列向量):
(5.2)基于所有m个和向量和差向量,计算和矩阵和差矩阵:
公式中的上标T代表转置;
(5.3)基于上述和矩阵和差矩阵,我们可以求出两个距离映射计算矩阵A和B:
(5.4)基于上述距离映射矩阵A和B,最后得到我们的数据间距离计算公式:对于数据集中任意两个向量x和y,它们之间的距离可以用以下公式计算:
D=(x+y)TA(x+y)-λ(x-y)TB(x-y),其中λ是一个常数值,在不同的应用中其取值可以不同。其常见取值范围是从0.9到1.5之间。
作为优选的技术方案,步骤6中所述低精度聚类算法其特征是包括以下步骤:
(6.1)将所有数据放入待聚类数据集,并设定两个距离阈值D1和D2,并确定0<D1<D2<数据间最大距离;
(6.2)如果待聚类数据集不为空则转入下一步骤,否则算法终止;在待聚类数据集中任意选择一条数据作为参考数据,并计算所有数据与该参考数据的距离;
(6.3)生成一个新的聚类,并将所有与参考数据距离值小于的数据放入这个聚类;
(6.4)生成一个新的聚类,并将所有与参考数据距离值小于的数据放入这个聚类;
(6.5)跳转到步骤6.2。
作为优选的技术方案,步骤7中所述求得与某条数据相似度最高的数据的方法的特征是包括以下步骤:
(7.1)首先按照上述聚类算法确定该数据的聚类;
(7.2)然后使用上述矢量距离计算公式计算该数据与所有与其同一聚类的其他数据的距离;
(7.3)对计算出来的数据进行排序;
(7.4)得到与该数据相似度最高的数据。
本发明的有益效果是:本发明采用机器学习算法实现了多特征文本数据的距离计算,并使用低精度聚类方法降低了计算量,提升了算法性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一组多特征文本数据样例图;
图2是由N条文本数据组成的数据组图;
图3是在多特征文本数据组中求取与某数据相似度最高数据的算法流程图;
图4是数据拼接与正则化的流程示意图;
图5是使用低精度聚合算法将数据分布到不同聚类中的流程示意图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
如图2所示,该数据组中每条数据都有d个特征,每个特征都是文本类型或是能转换为文本类型的数据。同时,数据的总条数是N。现在我们的目标是对数据组中任意某条数据,需要在数据组中得到与其相似度最高的其他数据。
为了解决这个问题,我们提出了一种多特征文本数据的相似度计算方法。该方法的流程如图3所示,包括以下流程:文本数据矢量化:使用文本矢量化算法将每条数据的每个特征转化为一个矢量数组;
文本数据矢量化包括以下几个步骤:
a)将特征文本字符串切分为词;这也就是所谓的分词,对于英文等拼音文字,一种简单的分词方法就是直接使用字符串中的空格作为词的分界符号进行分词;对于中文等表意文字,业界也有成熟算法进行分词,比如在中文分词方面,一种常用的分词开源软件是结巴分词(https://github.com/fxsjy/jieba)。
b)使用矢量化算法将每个词转化为一个矢量;一种常用词转化为矢量的方法是Word2Vec。这个算法是谷歌科学家提出来的。这个算法也叫word embeddings,中文名“词向量”,作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。该算法有很多开源实现,如https://github.com/danielfrg/word2vec。该算法对于输入的每个词,都会输出一个矢量,也就是一个浮点数数组,数组的长度在数百;
c)组合特征字符串中每个词转化的矢量(浮点数数组)生成特征矢量;举例而言,如果一个特征的文本字符串被切分为100个词,每个词都通过上述矢量化算法转化为一个200维的矢量(长度为200的浮点数数组),假设这100个词转化的矢量为v1,v2,v3,…,v100,那么该特征组合后生成的矢量也是一个200维的矢量vt,该矢量的各个维度满足以下关系:
vt[0]=v1[0]+v2[0]+…+v100[0]
vt[1]=v1[1]+v2[1]+…+v100[1]
……
vt[200]=v1[200]+v2[200]+…+v100[200]
也就是说特征组合矢量的各个维度值是该特征字符串中各个词生成矢量的对应维度值的和。
经过上述流程,则每个特征字符串都转化为一个矢量。
拼接/正则化/矩阵生成:在上一流程中,每个数据的每个特征都转化成一个特定长度的矢量数组,设矢量数组的长度为K,每个数据的特征数量为d,那么每条数据将拥有d个K维的矢量数组。如图3所示,我们将d个矢量拼接为一个单一矢量,这样获得一个维度为d×k的矢量数组。然后,数组中每个元素再除以所有元素平方和的平方根,也就是进行二次正则化。正则化的目的是对元素的大小范围进行限制,以提高后续算法的精度。
然后所有N条数据所对应的N个d×k维矢量数组组合生成一个矩阵,每个矢量数组成为矩阵的一行。我们生成的矩阵是N行d×k列。
可选地使用PCA(Principal components analysis,主成分分析)算法对上述矩阵进行降维。上述步骤生成的矩阵列数为d×k,当d和k都较大时(比如数百或数千),矩阵的列数有可能达到数百万,这将使得后续计算处理的工作量变得极大并拖慢处理速度。而PCA算法是一种主流且广为人知的数据降维方法,可以将上述矩阵的列数(维度)极大降低(同时保证数据损失尽量地小)。在实际使用中,我们可以使用PCA方法将上述矩阵的列数降低到数百。
标注相似或相等数据对:在这个步骤中,由业务专家在上述N条数据中标注出m对相似数据对,每个数据对由两条相似数据组成。这个步骤也就是机器学习中的数据标注步骤。我们可以假设这标注出来的m条数据是:
{(x1,y1),(x2,y2),(x3,y3),……,(xm,ym)}。
值得注意是,专家进行标注时是基于原始文本数据进行,基于前述步骤,我们可以得知每条原始数据都与前述步骤中生成的数据矩阵的某一行一一对应。后续计算也将基于这些数据。
基于标注出的相似数据对计算出距离映射矩阵,并得到数据距离计算公式:该步骤包含以下计算:
对于前述标注的相似数据对{(x1,y1),(x2,y2),(x3,y3),……,(xm,ym)},对其中每一个相似数据对(xi,yi)分别计算其和向量和差向量(在以下计算中,xi和yi都被作为列向量:
基于所有m个和向量和差向量,计算和矩阵和差矩阵:
公式中的上标T代表转置。
基于上述和矩阵和差矩阵,我们可以求出两个距离映射计算矩阵A和B:
其中公式中的上标-1代表矩阵求逆。
基于上述距离映射矩阵A和B,最后得到我们的数据间距离计算公式:对于数据集中任意两个向量x和y,它们之间的距离可以用以下公式计算:
D=(x+y)TA(x+y)-λ(x-y)TB(x-y)
其中λ是一个常数值,在不同的应用中其取值可以不同。其常见取值范围是从0.9到1.5之间。
使用低精度聚合算法,将所有数据归入多个聚类,一条数据有可能属于多个聚类。该算法流程如图5所示,算法中所有数据间的距离值由上述距离计算公式计算。算法包括以下步骤:
a)将所有数据放入待聚类数据集,并设定两个距离阈值D1和D2,并确定0<D1<D2<数据间最大距离;
b)如果待聚类数据集不为空则转入下一步骤,否则算法终止;
c)在待聚类数据集中任意选择一条数据作为参考数据,并计算所有数据与该参考数据的距离;
d)生成一个新的聚类,并将所有与参考数据距离值小于D2的数据放入这个聚类;
e)将所有与参考数据距离值小于D1的数据从待聚类数据集中去除;
f)跳转到步骤b;
基于上述算法,我们将所有数据都归入至少一个聚类,需要注意每条数据有可能属于多于一个的聚类,这也是称之为低精度聚类的原因。
对于某条特定数据,首先按照上述聚类算法确定其聚类(可能多个),然后使用上述距离映射矩阵计算该数据与所有与其同一聚类的其他数据的距离,对计算出来的数据进行排序,就能得到与该数据相似度最高的数据(也就是距离最小的数据)。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。
Claims (6)
1.一种基于机器学习的多特征文本数据相似度计算方法,其特征在于,包括以下几个具体步骤:
一、使用文本矢量化算法将每条数据的每个特征转化为一个矢量数组;
二、将每条数据的多个特征生成的矢量数据进行拼接,正则化处理,并将所有数据的对应矢量数组组成一个矩阵;
三、可选地使用PCA算法对上述矩阵进行降维;
四、由业务专家在上述数据中标注出一系列相似数据对,每个数据对由两条相似数据组成;
五、基于上述相似数据对,计算出矢量距离映射矩阵,并基于该矩阵得到矢量距离计算公式;
六、使用低精度聚合算法,将所有数据归入多个聚类,一条数据有可能属于多个聚类;
七、对于某条特定数据,基于上述聚类和距离计算公式,得到与该数据相似度最高的数据。
2.如权利要求1所述的基于机器学习的多特征文本数据相似度计算方法,其特征在于:上述步骤一中的文本矢量化算法,包含以下步骤:
(1)将特征文本字符串切分为词;
(2)使用矢量化算法将每个词转化为一个矢量;
(3)组合特征字符串中每个词转化的矢量生成特征矢量;
其中,(1)中所述将特征文本字符串切分为词的方法,是对于英文等拼音文字,一种简单的分词方法就是直接使用字符串中的空格作为词的分界符号进行分词;对于中文等表意文字,业界也有成熟算法进行分词,比如在中文分词方面,一种常用的分词开源软件是结巴分词;
(2)中所述的矢量化算法,它可以将某个词转化为一个浮点数数组,常见的矢量化算法包括但不限于tf-idf算法,word2vec算法以及fasttext算法;
(3)中所述组合方法的特征是将组成字符串的所有词所生成的矢量数组通过矢量加法运算生成组合后的矢量数组,计算结果是每个特征字符串对应一个矢量数组。
3.如权利要求1所述的基于机器学习的多特征文本数据相似度计算方法,其特征在于:步骤二中,
(2.1)所述的矢量拼接方法是每个数据的每个特征文本字符串都转化成一个特定长度的矢量数组,设矢量数组的长度为K,每个数据的特征数量为d,那么每条数据将拥有d个K维的矢量数组,将d个矢量拼接为一个单一矢量,这样获得一个维度为的矢量数组;
(2.2)数据正则化处理的特征是对矢量数组中每个元素再除以数组中所有元素平方和的平方根,也就是进行二次正则化;
(2.3)矩阵化操作的特征是将所有数据所对应的多个矢量数组组合生成一个矩阵,每个矢量数组成为矩阵的一行。
4.如权利要求1所述的基于机器学习的多特征文本数据相似度计算方法,其特征在于:步骤五中所述的距离计算公式的特征是包括以下计算步骤:
(5.1)对于前述步骤中标注得到的m个相似数据对{(x1,y1),(x2,y2),(x3,y3),……,(xm,ym)},对其中每一个相似数据对(xi,yi)分别计算其和向量和差向量(在以下计算中,xi和yi都被作为列向量):
(5.2)基于所有m个和向量和差向量,计算和矩阵和差矩阵:
公式中的上标T代表转置;
(5.3)基于上述和矩阵和差矩阵,我们可以求出两个距离映射计算矩阵A和B:
(5.4)基于上述距离映射矩阵A和B,最后得到我们的数据间距离计算公式:对于数据集中任意两个向量x和y,它们之间的距离可以用以下公式计算:
D=(x+y)TA(x+y)-λ(x-y)TB(x-y),其中λ是一个常数值,在不同的应用中其取值可以不同。其常见取值范围是从0.9到1.5之间。
5.如权利要求1所述的基于机器学习的多特征文本数据相似度计算方法,其特征在于,步骤6中所述低精度聚类算法其特征是包括以下步骤:
(6.1)将所有数据放入待聚类数据集,并设定两个距离阈值D1和D2,并确定0<D1<D2<数据间最大距离;
(6.2)如果待聚类数据集不为空则转入下一步骤,否则算法终止;在待聚类数据集中任意选择一条数据作为参考数据,并计算所有数据与该参考数据的距离;
(6.3)生成一个新的聚类,并将所有与参考数据距离值小于的数据放入这个聚类;
(6.4)生成一个新的聚类,并将所有与参考数据距离值小于的数据放入这个聚类;
(6.5)跳转到步骤6.2。
6.如权利要求1所述的基于机器学习的多特征文本数据相似度计算方法,其特征在于,步骤7中所述求得与某条数据相似度最高的数据的方法的特征是包括以下步骤:
(7.1)首先按照上述聚类算法确定该数据的聚类;
(7.2)然后使用上述矢量距离计算公式计算该数据与所有与其同一聚类的其他数据的距离;
(7.3)对计算出来的数据进行排序;
(7.4)得到与该数据相似度最高的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810838529.9A CN109145111B (zh) | 2018-07-27 | 2018-07-27 | 一种基于机器学习的多特征文本数据相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810838529.9A CN109145111B (zh) | 2018-07-27 | 2018-07-27 | 一种基于机器学习的多特征文本数据相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145111A true CN109145111A (zh) | 2019-01-04 |
CN109145111B CN109145111B (zh) | 2023-05-26 |
Family
ID=64797959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810838529.9A Active CN109145111B (zh) | 2018-07-27 | 2018-07-27 | 一种基于机器学习的多特征文本数据相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145111B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473534A (zh) * | 2019-07-12 | 2019-11-19 | 南京邮电大学 | 一种基于深度神经网络的老年人看护对话系统 |
CN112733067A (zh) * | 2020-12-22 | 2021-04-30 | 上海机器人产业技术研究院有限公司 | 一种面向机器人目标检测算法的数据集选择方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和系统及应用系统 |
CN103093235A (zh) * | 2012-12-30 | 2013-05-08 | 北京工业大学 | 一种基于改进距离核主成分分析的手写体数字识别方法 |
CN104392231A (zh) * | 2014-11-07 | 2015-03-04 | 南京航空航天大学 | 基于分块与稀疏主特征提取的快速协同显著性检测方法 |
CN106096066A (zh) * | 2016-08-17 | 2016-11-09 | 盐城工学院 | 基于随机近邻嵌入的文本聚类方法 |
CN106599029A (zh) * | 2016-11-02 | 2017-04-26 | 焦点科技股份有限公司 | 一种中文短文本聚类方法 |
-
2018
- 2018-07-27 CN CN201810838529.9A patent/CN109145111B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和系统及应用系统 |
CN103093235A (zh) * | 2012-12-30 | 2013-05-08 | 北京工业大学 | 一种基于改进距离核主成分分析的手写体数字识别方法 |
CN104392231A (zh) * | 2014-11-07 | 2015-03-04 | 南京航空航天大学 | 基于分块与稀疏主特征提取的快速协同显著性检测方法 |
CN106096066A (zh) * | 2016-08-17 | 2016-11-09 | 盐城工学院 | 基于随机近邻嵌入的文本聚类方法 |
CN106599029A (zh) * | 2016-11-02 | 2017-04-26 | 焦点科技股份有限公司 | 一种中文短文本聚类方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473534A (zh) * | 2019-07-12 | 2019-11-19 | 南京邮电大学 | 一种基于深度神经网络的老年人看护对话系统 |
CN112733067A (zh) * | 2020-12-22 | 2021-04-30 | 上海机器人产业技术研究院有限公司 | 一种面向机器人目标检测算法的数据集选择方法 |
CN112733067B (zh) * | 2020-12-22 | 2023-05-09 | 上海机器人产业技术研究院有限公司 | 一种面向机器人目标检测算法的数据集选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109145111B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sirimongkolkasem et al. | On regularisation methods for analysis of high dimensional data | |
CN111753101B (zh) | 一种融合实体描述及类型的知识图谱表示学习方法 | |
US8650138B2 (en) | Active metric learning device, active metric learning method, and active metric learning program | |
CN107220311B (zh) | 一种利用局部嵌入话题建模的文本表示方法 | |
CN107704996A (zh) | 一种基于情感分析的教师评价系统 | |
US11288266B2 (en) | Candidate projection enumeration based query response generation | |
US20090287991A1 (en) | Generation of fusible signatures for fusion of heterogenous data | |
Golay et al. | Unsupervised feature selection based on the Morisita estimator of intrinsic dimension | |
CN110781295A (zh) | 一种多标记数据的特征选择方法及装置 | |
CN109145111A (zh) | 一种基于机器学习的多特征文本数据相似度计算方法 | |
Xu et al. | Large-margin multi-view Gaussian process for image classification | |
CN108960335A (zh) | 一种基于大规模网络进行高效聚类方法 | |
Pauletic et al. | An overview of clustering models with an application to document clustering | |
Aliusta | Bibliometric Analysis of Research on The Relationship of Accounting and Information Systems/Technologies | |
Srinivasan et al. | An approach to enhance business intelligence and operations by sentimental analysis | |
Cutura et al. | Hagrid: using Hilbert and Gosper curves to gridify scatterplots | |
Bleeker et al. | Do lessons from metric learning generalize to image-caption retrieval? | |
Makwana et al. | Axes re-ordering in parallel coordinate for pattern optimization | |
Tayal et al. | A new MapReduce solution for associative classification to handle scalability and skewness in vertical data structure | |
Soares et al. | Improving lab-of-origin prediction of genetically engineered plasmids via deep metric learning | |
Villacorta et al. | Sensitivity analysis in the scenario method: A multi-objective approach | |
Pereira et al. | Assessing active learning strategies to improve the quality control of the soybean seed vigor | |
Huckle et al. | Demographic influences on contemporary art with unsupervised style embeddings | |
Cowans et al. | A graphical model for simultaneous partitioning and labeling | |
WO2022123695A1 (ja) | 学習装置、検索装置、学習方法、検索方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A machine learning based similarity calculation method for multi feature text data Granted publication date: 20230526 Pledgee: Shenzhen small and medium sized small loan Co.,Ltd. Pledgor: SHENZHEN YIHAI YUNFENG TECHNOLOGY Co.,Ltd. Registration number: Y2024980006331 |