CN114781348B - 一种基于词袋模型的文本相似度计算方法及系统 - Google Patents
一种基于词袋模型的文本相似度计算方法及系统 Download PDFInfo
- Publication number
- CN114781348B CN114781348B CN202210373623.8A CN202210373623A CN114781348B CN 114781348 B CN114781348 B CN 114781348B CN 202210373623 A CN202210373623 A CN 202210373623A CN 114781348 B CN114781348 B CN 114781348B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- recommended
- user
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000010606 normalization Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理技术领域,公开了一种基于词袋模型的文本相似度计算方法及系统,该文本相似度计算方法,包括以下步骤:S1,获取文本信息;S2,提取文本特征;S3,生成文本特征向量;S4,计算文本相似度。本发明解决了现有技术存在的文字产品的文本相似度计算精度不够、个性化推荐精准度较低等问题。
Description
技术领域
本发明涉及自然语言处理技术领域,具体是一种基于词袋模型的文本相似度计算方法及系统。
背景技术
随着大数据时代的发展,用户获取信息的数据来源越来越丰富,如何从海量数据中向用户提供更为精确的个性化服务,成为亟待解决的问题。为此,个性化推荐成为近年来越来越热门的研究领域。
智能推荐算法是个性化推荐系统的核心,推荐算法的优劣是影响个性化推荐系统性能优劣的重要因素。而在智能推荐服务领域,文字产品是服务产品的主要样式之一。以文字产品为推荐对象,如何为用户更为精确的推荐信息,是目前智能推荐服务领域研究的热点之一。
根据获取用户兴趣方式的不同,推荐算法主要包括基于内容的推荐、协同过滤推荐、基于知识的推荐、混合推荐等多种方法。其中应用最为广泛的基于内容推荐算法,核心思想是计算内容的相似度。目前,文本相似度计算思想,均是通过对文本进行数字向量转换,将文本相似度计算转换为向量相似度计算问题。因此,如何用数字向量准确表征文本特征,是提高文本相似度计算精度的关键因素之一。
发明内容
为克服现有技术的不足,本发明提供了一种基于词袋模型的文本相似度计算方法及系统,解决现有技术存在的文字产品的文本相似度计算精度不够、个性化推荐精准度较低等问题。
本发明解决上述问题所采用的技术方案是:
一种基于词袋模型的文本相似度计算方法,包括以下步骤:
S1,获取文本信息:获取文字产品的文本信息,所述文本信息包括用户在阅文本正文信息、待推荐文本正文信息;
S2,提取文本特征:采用TF-IDF关键词提取算法,对文本进行关键词提取,输出文本的【关键词,TF-IDF值】列表,用以表征文本特征,从而提取文本特征,所述文本特征包括用户在阅文本的文本特征、待推荐文本的文本特征;
S3,生成文本特征向量:生成词袋模型,采用词袋模型将文本特征进行数值化向量表示;
S4,计算文本相似度:计算在阅文本向量与待推荐文本向量之间的夹角,计算得到用户在阅文本与待推荐文本的相似度。
作为一种优选的技术方案,步骤S2包括以下步骤:
S21,利用文本预处理方法,提取出文本关键词;
S22,采用TF-IDF算法计算各关键词的TF-IDF值;
S23,将文本关键词按TF-IDF值从大到小排序,输出排名靠前的n个关键词及其TF-IDF值,输出的用户在阅文本的文本特征形式如下:
{[word11,VTF-IDF11],[word12,VTF-IDF12],...,,..[word1n,VTF-IDF1n]};
输出的待推荐文本的文本特征形式如下:
{[word21,VTF-IDF21],[word22,VTF-IDF22],...,,..[word2m,VTF-IDF2m]};
其中,word11,word12,...,word1n分别表示用户在阅文本的前n个关键词,VTF-IDF11,VTF-IDF12,...,VTF-IDF1n分别表示用户在阅文本的各关键词的TF-IDF值,n≥3且n为正整数,n的取值根据需要自行设定;word21,word22,...,word2m分别表示待推荐文本的前m个关键词,VTF-IDF21,VTF-IDF22,...,VTF-IDF2m分别表示待推荐文本的各关键词的TF-IDF值,m≥3且m为正整数,m的取值根据需要自行设定。
作为一种优选的技术方案,步骤S21中,文本预处理方法包括结巴分词和/或去除停用词。
作为一种优选的技术方案,步骤S3包括以下步骤:
S31,分别对用户在阅文本特征列表和待推荐文本特征列表进行关键词的权重归一化,输出用户在阅文本特征归一化列表和待推荐文本的特征归一化列表;
用户在阅文本特征列表的关键词权重归一化公式如下:
输出用户在阅文本特征归一化列表的形式如下:
{[word11,w11],[word12,w12],...,[word1i,w1i],..[word1n,w1n]};
其中,i表示用户在阅文本关键词的编号,1≤i≤n;w1i表示用户在阅文本第i个关键词的权重,w11+w12+...+w1i+...+w1n=1;VTF-IDF1i表示用户在阅文本第i个关键词的TF-IDF值;
待推荐文本特征列表的关键词权重归一化公式如下:
输出待推荐文本的特征归一化列表,形式如下:
{[word21,w21],[word22,w22],...,[word2j,w2j],..[word2m,w2m]};
其中,j表示待推荐文本关键词的编号,1≤j≤m;w2j表示待推荐文本第j个关键词的权重,w21+w22+...+w2j+...+w2m=1;VTF-IDF2j表示待推荐文本第j个关键词的TF-IDF值;
S32,对用户在阅文本的文本关键词和待推荐文本的文本关键词求并集,生成词袋模型;词袋模型形式如下:
U=U(word11,word12,...,word1n)∪U(word21,word22,...,word2m);
S33,以词袋模型中文本关键词为索引,将文本关键词对应的数值用词权重表示,生成用以表征文本特征的词袋向量,词袋向量形式如下:
word11,word12,...,word1n,word22,...,word2m
[w11,w12,...,w1n,0,...,0]
[w21,0,...,0,w22,...,w2m];
其中,
word11,word12,..·,word1n,word22,...,word2m表示索引号;
[w11,w12,···,w1n,0,···,0]表示用户在阅文本的特征向量;
[w21,0,···,0,w22,···,w2m]表示待推荐文本的特征向量。
作为一种优选的技术方案,步骤S32中,未在文本中出现的词,则权重为0。
作为一种优选的技术方案,步骤S4中,采用余弦计算公式,计算在阅文本特征向量和待推荐文本特征向量之间夹角的余弦值,用以表征用户在阅文本和待推荐文本之间的相似度。
作为一种优选的技术方案,步骤S4中,余弦计算公式如下:
一种基于词袋模型的文本相似度计算系统,基于所述的一种基于词袋模型的文本相似度计算方法,包括依次电相连的文本信息获取模块、文本特征提取模块、文本特征向量生成模块、文本相似度计算模块;
其中,
文本信息获取模块:用以获取文字产品的文本信息,所述文本信息包括用户在阅文本正文信息、待推荐文本正文信息;
文本特征提取模块:用以采用TF-IDF关键词提取算法,对文本进行关键词提取,输出文本的【关键词,TF-IDF值】列表,用以表征文本特征,从而提取文本特征,所述文本特征包括用户在阅文本的文本特征、待推荐文本的文本特征;
文本特征向量生成模块:用以生成词袋模型,采用词袋模型将文本特征进行数值化向量表示;
文本相似度计算模块:用以计算在阅文本向量与待推荐文本向量之间的夹角,计算得到用户在阅文本与待推荐文本的相似度。
本发明相比于现有技术,具有以下有益效果:
本发明提出一种基于词袋模型的文本相似度计算方法及系统,计算文字产品相似度,利用本发明计算得出的文本相似度比其他方法具有更高的准确性,从而提高文字产品的个性化推荐精度。
附图说明
图1为本发明所述的一种基于词袋模型的文本相似度计算方法的步骤示意图;
图2为本发明所述的一种基于词袋模型的文本相似度计算系统的结构示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例1
如图1、图2所示,本发明提出一种基于词袋模型的文本相似度计算方法,计算文字产品相似度,从而提高文字产品的个性化推荐精度。
包括下列步骤:
步骤S1:获取文本信息。文本信息包括用户在阅文本信息和待推荐文本信息。
用户在阅文本信息主要指用户在阅文本的正文内容;待推荐文本信息主要指待推荐文本的正文内容。
步骤S2:提取文本特征。文本体征包括用户在阅文本特征和待推荐文本特征。
用户在阅文本特征提取:
首先利用结巴分词、及去除停用词等文本预处理方法,提取出文本关键词;其次采用TF-IDF算法计算各关键词的TF-IDF值;将文本关键词按TF-IDF值从大到小排序,输出排名靠前的n个关键词及其TF-IDF值,形如:
{[word11,VTF-IDF11],[word12,VTF-IDF12],...,,..[word1n,VTF-IDF1n]};
用以表征文本特征。其中,word11,word12,...,word1n分别表示文本的前n个关键词,VTF-IDF11,VTF-IDF12,...,VTF-IDF1n分别表示各关键词的TF-IDF值。n的取值可根据需要自行设定。
待推荐文本特征提取:
待推荐文本特征提取方法参看用户在阅文本特征提取方法。输出为待推荐文本的特征列表,形如:
{[word21,VTF-IDF21],[word22,VTF-IDF22],...,,..[word2m,VTF-IDF2m]};
其中:word21,word22,...,word2m分别为待推荐文本的前m个关键词,VTF-IDF21,VTF-IDF22,...,VTF-IDF2m分别表示各关键词的TF-IDF值。m的取值可根据需要自行设定。
步骤S3:生成文本特征向量。文本特征向量包括用户在阅文本特征向量,和待推荐文本特征向量。
首先,对用户在阅文本特征列表进行关键词的权重归一化处理。归一化公式如下:
其中:VTF-IDF11,VTF-IDF12,...,VTF-IDF1n分别表示在阅文本前n个关键词的TF-IDF值;VTF-IDF1i表示在阅文本第i个关键词的TF-IDF值。
输出用户在阅文本特征归一化列表,形如:
{[word11,w11],[word12,w12],...,,..[word1n,w1n]};
其中,word11,word12,...,word1n分别表示文本的前n个关键词,w11,w12,...,w1n分别表示各关键词的权重,满足w11+w12+...+w1n=1。
其次,对待推荐文本特征列表进行关键词的权重归一化处理。归一化方法参看对用户在阅文本特征列表的归一化方法,待推荐文本特征列表的关键词权重归一化公式如下:
其中,w2j表示待推荐文本第j个关键词的权重;VTF-IDF21,VTF-IDF22,...,VTF-IDF2m分别表示待推荐文本前m个关键词的TF-IDF值;VTF-IDF2j表示待推荐文本第j个关键词的TF-IDF值。
输出待推荐文本的特征归一化列表,形如:
{[word21,w21],[word22,w22],...,,..[word2m,w2m]};
其中,word21,word22,...,word2m分别为待推荐文本的前m个关键词,w21,w22,...,w2m分别为各关键词的权重,满足w21+w22+...+w2m=1。
然后,计算分别用户在阅文本和待推荐文本的特征向量。步骤如下:
对用户在阅文本特征归一化列表和待推荐文本特征归一化列表中的关键词求并集,输出词袋模型,形如:
U=U(word11,word12,...,word1n)∪U(word21,word22,...,word2m);
其中,word11,word12,...,word1n分别表示文本的前n个关键词,word21,word22,...,word2m分别为待推荐文本的前m个关键词。
举例说明:当关键词word11=word21时,输出词袋模型为:
U=U(word11,word12,...,word1n,word22,...,word2m);
以词袋模型U中的文本关键词为索引,其对应的数值用词权重表示,未在文本中出现的词,则权重为0,分别生成用户在阅文本和待推荐文本的词袋向量,用以表征文本特征,称之为文本特征向量。
举例说明:当关键词word11=word21时,输出用户在阅文本的词袋向量和待推荐文本的词袋向量如下所示:
word11,word12,...,word1n,word22,...,word2m
[w11,w12,...,w1n,0,...,0]
[w21,0,...,0,w22,...,w2m];
其中:
word11,word12,...,wordln,word22,..·,word2m为索引号;
[w11,w12,...,w1n,0,...,0]为用户在阅文本的特征向量;
[w21,0,...,0,w22,...,w2m]为待推荐文本的特征向量。
步骤S4:计算文本相似度。
采用余弦计算公式,计算在阅文本特征向量和待推荐文本特征向量之间夹角的余弦值(取值范围为(0~1)),用以表征用户在阅文本和待推荐文本之间的相似度。相似度越高的两篇文本,其特征向量夹角的余弦值越接近于1。计算公式如下:
将提出的基于改进词袋模型的文本相似度计算方法,与其他方法进行对比验证,在收集的10万条文字产品数据集上,本发明的评测指标高于其他方法,利用本发明计算得出的文本相似度比其他方法具有更高的准确性。
如上所述,可较好地实现本发明。
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (6)
1.一种基于词袋模型的文本相似度计算方法,其特征在于,包括以下步骤:
S1,获取文本信息:获取文字产品的文本信息,所述文本信息包括用户在阅文本正文信息、待推荐文本正文信息;
S2,提取文本特征:采用TF-IDF关键词提取算法,对文本进行关键词提取,输出文本的[关键词,TF-IDF值]列表,用以表征文本特征,从而提取文本特征,所述文本特征包括用户在阅文本的文本特征、待推荐文本的文本特征;
S3,生成文本特征向量:生成词袋模型,采用词袋模型将文本特征进行数值化向量表示;
S4,计算文本相似度:计算在阅文本向量与待推荐文本向量之间的夹角,计算得到用户在阅文本与待推荐文本的相似度;
步骤S2包括以下步骤:
S21,利用文本预处理方法,提取出文本关键词;
S22,采用TF-IDF算法计算各关键词的TF-IDF值;
S23,将文本关键词按TF-IDF值从大到小排序,输出排名靠前的n个关键词及其TF-IDF值,输出的用户在阅文本的文本特征形式如下:
{[word11,VTF-IDF11],[word12,VTF-IDF12],...,,..[word1n,VTF-IDF1n]};
输出的待推荐文本的文本特征形式如下:
{[word21,VTF-IDF21],[word22,VTF-IDF22],...,,..[word2m,VTF-IDF2m]};
其中,word11,word12,...,word1n分别表示用户在阅文本的前n个关键词,VTF-IDF11,VTF-IDF12,...,VTF-IDF1n分别表示用户在阅文本的各关键词的TF-IDF值,n≥3且n为正整数,n的取值根据需要自行设定;word21,word22,...,word2m分别表示待推荐文本的前m个关键词,VTF-IDF21,VTF-IDF22,...,VTF-IDF2m分别表示待推荐文本的各关键词的TF-IDF值,m≥3且m为正整数,m的取值根据需要自行设定;
步骤S3包括以下步骤:
S31,分别对用户在阅文本特征列表和待推荐文本特征列表进行关键词的权重归一化,输出用户在阅文本特征归一化列表和待推荐文本的特征归一化列表;
用户在阅文本特征列表的关键词权重归一化公式如下:
输出用户在阅文本特征归一化列表的形式如下:
{[word11,w11],[word12,w12],...,[word1i,w1i],..[word1n,w1n]};
其中,i表示用户在阅文本关键词的编号,1≤i≤n;w1i表示用户在阅文本第i个关键词的权重,w11+w12+...w1i+...+w1n=1;VTF-IDF1i表示用户在阅文本第i个关键词的TF-IDF值;
待推荐文本特征列表的关键词权重归一化公式如下:
输出待推荐文本的特征归一化列表,形式如下:
{[word21,w21],[word22,w22],...,[word2j,w2j],..[word2m,w2m]};
其中,j表示待推荐文本关键词的编号,1≤j≤m;w2j表示待推荐文本第j个关键词的权重,w21+w22+...+w2j+...+w2m=1;VTF-IDF2j表示待推荐文本第j个关键词的TF-IDF值;
S32,对用户在阅文本的文本关键词和待推荐文本的文本关键词求并集,生成词袋模型;词袋模型形式如下:
U=U(word11,word12,...,word1n)∪U(word21,word22,...,word2m);
S33,以词袋模型中文本关键词为索引,将文本关键词对应的数值用词权重表示,生成用以表征文本特征的词袋向量,词袋向量形式如下:
word11,word12,...,word1n,word22,...,word2m
[w11,w12,...,w1n,0,...,0]
[w21,0..,0,w22,...,w2m];
其中,
word11,word12,...,word1n,word22,...,word2m表示索引号;
[w11,w12,...,w1n,0,...,0]表示用户在阅文本的特征向量;
[w21,0,...,0,w22,...,w2m]表示待推荐文本的特征向量。
2.根据权利要求1所述的一种基于词袋模型的文本相似度计算方法,其特征在于,步骤S32中,未在文本中出现的词,则权重为0。
3.根据权利要求2所述的一种基于词袋模型的文本相似度计算方法,其特征在于,步骤S4中,采用余弦计算公式,计算在阅文本特征向量和待推荐文本特征向量之间夹角的余弦值,用以表征用户在阅文本和待推荐文本之间的相似度。
5.根据权利要求1所述的一种基于词袋模型的文本相似度计算方法,其特征在于,步骤S21中,文本预处理方法包括结巴分词和/或去除停用词。
6.一种基于词袋模型的文本相似度计算系统,其特征在于,基于权利要求1至5任一项所述的一种基于词袋模型的文本相似度计算方法,包括依次电相连的文本信息获取模块、文本特征提取模块、文本特征向量生成模块、文本相似度计算模块;
其中,
文本信息获取模块:用以获取文字产品的文本信息,所述文本信息包括用户在阅文本正文信息、待推荐文本正文信息;
文本特征提取模块:用以采用TF-IDF关键词提取算法,对文本进行关键词提取,输出文本的[关键词,TF-IDF值]列表,用以表征文本特征,从而提取文本特征,所述文本特征包括用户在阅文本的文本特征、待推荐文本的文本特征;
文本特征向量生成模块:用以生成词袋模型,采用词袋模型将文本特征进行数值化向量表示;
文本相似度计算模块:用以计算在阅文本向量与待推荐文本向量之间的夹角,计算得到用户在阅文本与待推荐文本的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210373623.8A CN114781348B (zh) | 2022-04-11 | 2022-04-11 | 一种基于词袋模型的文本相似度计算方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210373623.8A CN114781348B (zh) | 2022-04-11 | 2022-04-11 | 一种基于词袋模型的文本相似度计算方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114781348A CN114781348A (zh) | 2022-07-22 |
CN114781348B true CN114781348B (zh) | 2023-06-02 |
Family
ID=82428518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210373623.8A Active CN114781348B (zh) | 2022-04-11 | 2022-04-11 | 一种基于词袋模型的文本相似度计算方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114781348B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114971817B (zh) * | 2022-07-29 | 2022-11-22 | 中国电子科技集团公司第十研究所 | 基于用户需求画像的产品自适应服务方法、介质及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597949A (zh) * | 2019-08-01 | 2019-12-20 | 湖北工业大学 | 一种基于词向量和词频的法院相似案件推荐模型 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10482118B2 (en) * | 2017-06-14 | 2019-11-19 | Sap Se | Document representation for machine-learning document classification |
CN111125297B (zh) * | 2019-11-29 | 2022-11-25 | 中国电子科技集团公司第二十八研究所 | 一种基于搜索引擎的海量离线文本实时推荐方法 |
CN111061957A (zh) * | 2019-12-26 | 2020-04-24 | 广东电网有限责任公司 | 一种文章相似度推荐方法和装置 |
CN113254655B (zh) * | 2021-07-05 | 2021-09-17 | 北京邮电大学 | 文本分类方法、电子设备及计算机存储介质 |
-
2022
- 2022-04-11 CN CN202210373623.8A patent/CN114781348B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597949A (zh) * | 2019-08-01 | 2019-12-20 | 湖北工业大学 | 一种基于词向量和词频的法院相似案件推荐模型 |
Also Published As
Publication number | Publication date |
---|---|
CN114781348A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN114780690B (zh) | 基于多模态矩阵向量表示的专利文本检索方法及装置 | |
CN113239159B (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN112836702B (zh) | 一种基于多尺度特征提取的文本识别方法 | |
CN110162624A (zh) | 一种文本处理方法、装置以及相关设备 | |
CN114781348B (zh) | 一种基于词袋模型的文本相似度计算方法及系统 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
JP5833499B2 (ja) | 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム | |
Perdana et al. | Instance-based deep transfer learning on cross-domain image captioning | |
CN112463922A (zh) | 一种风险用户识别方法及存储介质 | |
CN116932736A (zh) | 一种基于用户需求结合倒排表的专利推荐方法 | |
CN107423294A (zh) | 一种社群图像检索方法及系统 | |
Chen et al. | Exploiting aesthetic features in visual contents for movie recommendation | |
CN112650869B (zh) | 图像检索重排序方法、装置、电子设备及存储介质 | |
KR20230100220A (ko) | 컴퓨터 장치를 이용한 어문 저작물 ip의 거래 중개 방법 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN114022233A (zh) | 一种新型的商品推荐方法 | |
CN113761125A (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 | |
CN112417845A (zh) | 一种文本评价方法、装置、电子设备及存储介质 | |
CN110413782A (zh) | 一种表自动主题分类方法、装置、计算机设备及存储介质 | |
Nayak et al. | A Machine Learning Model to Classify Indian Taxi System in Tourism Industry | |
CN117556275B (zh) | 相关度模型数据处理方法、装置、计算机设备和存储介质 | |
US20230259818A1 (en) | Learning device, feature calculation program generation method and similarity calculator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |