CN114781348A - 一种基于词袋模型的文本相似度计算方法及系统 - Google Patents

一种基于词袋模型的文本相似度计算方法及系统 Download PDF

Info

Publication number
CN114781348A
CN114781348A CN202210373623.8A CN202210373623A CN114781348A CN 114781348 A CN114781348 A CN 114781348A CN 202210373623 A CN202210373623 A CN 202210373623A CN 114781348 A CN114781348 A CN 114781348A
Authority
CN
China
Prior art keywords
text
word
recommended
bag
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210373623.8A
Other languages
English (en)
Other versions
CN114781348B (zh
Inventor
吴超蓉
戴礼灿
宋丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Original Assignee
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 10 Research Institute filed Critical CETC 10 Research Institute
Priority to CN202210373623.8A priority Critical patent/CN114781348B/zh
Publication of CN114781348A publication Critical patent/CN114781348A/zh
Application granted granted Critical
Publication of CN114781348B publication Critical patent/CN114781348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理技术领域,公开了一种基于词袋模型的文本相似度计算方法及系统,该文本相似度计算方法,包括以下步骤:S1,获取文本信息;S2,提取文本特征;S3,生成文本特征向量;S4,计算文本相似度。本发明解决了现有技术存在的文字产品的文本相似度计算精度不够、个性化推荐精准度较低等问题。

Description

一种基于词袋模型的文本相似度计算方法及系统
技术领域
本发明涉及自然语言处理技术领域,具体是一种基于词袋模型的文本相似度计算方法及系统。
背景技术
随着大数据时代的发展,用户获取信息的数据来源越来越丰富,如何从海量数据中向用户提供更为精确的个性化服务,成为亟待解决的问题。为此,个性化推荐成为近年来越来越热门的研究领域。
智能推荐算法是个性化推荐系统的核心,推荐算法的优劣是影响个性化推荐系统性能优劣的重要因素。而在智能推荐服务领域,文字产品是服务产品的主要样式之一。以文字产品为推荐对象,如何为用户更为精确的推荐信息,是目前智能推荐服务领域研究的热点之一。
根据获取用户兴趣方式的不同,推荐算法主要包括基于内容的推荐、协同过滤推荐、基于知识的推荐、混合推荐等多种方法。其中应用最为广泛的基于内容推荐算法,核心思想是计算内容的相似度。目前,文本相似度计算思想,均是通过对文本进行数字向量转换,将文本相似度计算转换为向量相似度计算问题。因此,如何用数字向量准确表征文本特征,是提高文本相似度计算精度的关键因素之一。
发明内容
为克服现有技术的不足,本发明提供了一种基于词袋模型的文本相似度计算方法及系统,解决现有技术存在的文字产品的文本相似度计算精度不够、个性化推荐精准度较低等问题。
本发明解决上述问题所采用的技术方案是:
一种基于词袋模型的文本相似度计算方法,包括以下步骤:
S1,获取文本信息:获取文字产品的文本信息,所述文本信息包括用户在阅文本正文信息、待推荐文本正文信息;
S2,提取文本特征:采用TF-IDF关键词提取算法,对文本进行关键词提取,输出文本的【关键词,TF-IDF值】列表,用以表征文本特征,从而提取文本特征,所述文本特征包括用户在阅文本的文本特征、待推荐文本的文本特征;
S3,生成文本特征向量:生成词袋模型,采用词袋模型将文本特征进行数值化向量表示;
S4,计算文本相似度:计算在阅文本向量与待推荐文本向量之间的夹角,计算得到用户在阅文本与待推荐文本的相似度。
作为一种优选的技术方案,步骤S2包括以下步骤:
S21,利用文本预处理方法,提取出文本关键词;
S22,采用TF-IDF算法计算各关键词的TF-IDF值;
S23,将文本关键词按TF-IDF值从大到小排序,输出排名靠前的n个关键词及其TF-IDF值,输出的用户在阅文本的文本特征形式如下:
{[word11,VTF-IDF11],[word12,VTF-IDF12],...,,..[word1n,VTF-IDF1n]};
输出的待推荐文本的文本特征形式如下:
{[word21,VTF-IDF21],[word22,VTF-IDF22],...,,..[word2m,VTF-IDF2m]};
其中,word11,word12,...,word1n分别表示用户在阅文本的前n个关键词,VTF-IDF11,VTF-IDF12,...,VTF-IDF1n分别表示用户在阅文本的各关键词的TF-IDF值,n≥3且n为正整数,n的取值根据需要自行设定;word21,word22,...,word2m分别表示待推荐文本的前m个关键词,VTF-IDF21,VTF-IDF22,...,VTF-IDF2m分别表示待推荐文本的各关键词的TF-IDF值,m≥3且m为正整数,m的取值根据需要自行设定。
作为一种优选的技术方案,步骤S21中,文本预处理方法包括结巴分词和/或去除停用词。
作为一种优选的技术方案,步骤S3包括以下步骤:
S31,分别对用户在阅文本特征列表和待推荐文本特征列表进行关键词的权重归一化,输出用户在阅文本特征归一化列表和待推荐文本的特征归一化列表;
用户在阅文本特征列表的关键词权重归一化公式如下:
Figure BDA0003589871790000031
输出用户在阅文本特征归一化列表的形式如下:
{[word11,w11],[word12,w12],...,[word1i,w1i],..[word1n,w1n]};
其中,i表示用户在阅文本关键词的编号,1≤i≤n;w1i表示用户在阅文本第i个关键词的权重,w11+w12+...+w1i+...+w1n=1;VTF-IDF1i表示用户在阅文本第i个关键词的TF-IDF值;
待推荐文本特征列表的关键词权重归一化公式如下:
Figure BDA0003589871790000032
输出待推荐文本的特征归一化列表,形式如下:
{[word21,w21],[word22,w22],...,[word2j,w2j],..[word2m,w2m]};
其中,j表示待推荐文本关键词的编号,1≤j≤m;w2j表示待推荐文本第j个关键词的权重,w21+w22+...+w2j+...+w2m=1;VTF-IDF2j表示待推荐文本第j个关键词的TF-IDF值;
S32,对用户在阅文本的文本关键词和待推荐文本的文本关键词求并集,生成词袋模型;词袋模型形式如下:
U=U(word11,word12,...,word1n)∪U(word21,word22,...,word2m);
S33,以词袋模型中文本关键词为索引,将文本关键词对应的数值用词权重表示,生成用以表征文本特征的词袋向量,词袋向量形式如下:
word11,word12,...,word1n,word22,...,word2m
[w11,w12,...,w1n,0,...,0]
[w21,0,...,0,w22,...,w2m];
其中,
word11,word12,..·,word1n,word22,...,word2m表示索引号;
[w11,w12,···,w1n,0,···,0]表示用户在阅文本的特征向量;
[w21,0,···,0,w22,···,w2m]表示待推荐文本的特征向量。
作为一种优选的技术方案,步骤S32中,未在文本中出现的词,则权重为0。
作为一种优选的技术方案,步骤S4中,采用余弦计算公式,计算在阅文本特征向量和待推荐文本特征向量之间夹角的余弦值,用以表征用户在阅文本和待推荐文本之间的相似度。
作为一种优选的技术方案,步骤S4中,余弦计算公式如下:
Figure BDA0003589871790000051
一种基于词袋模型的文本相似度计算系统,基于所述的一种基于词袋模型的文本相似度计算方法,包括依次电相连的文本信息获取模块、文本特征提取模块、文本特征向量生成模块、文本相似度计算模块;
其中,
文本信息获取模块:用以获取文字产品的文本信息,所述文本信息包括用户在阅文本正文信息、待推荐文本正文信息;
文本特征提取模块:用以采用TF-IDF关键词提取算法,对文本进行关键词提取,输出文本的【关键词,TF-IDF值】列表,用以表征文本特征,从而提取文本特征,所述文本特征包括用户在阅文本的文本特征、待推荐文本的文本特征;
文本特征向量生成模块:用以生成词袋模型,采用词袋模型将文本特征进行数值化向量表示;
文本相似度计算模块:用以计算在阅文本向量与待推荐文本向量之间的夹角,计算得到用户在阅文本与待推荐文本的相似度。
本发明相比于现有技术,具有以下有益效果:
本发明提出一种基于词袋模型的文本相似度计算方法及系统,计算文字产品相似度,利用本发明计算得出的文本相似度比其他方法具有更高的准确性,从而提高文字产品的个性化推荐精度。
附图说明
图1为本发明所述的一种基于词袋模型的文本相似度计算方法的步骤示意图;
图2为本发明所述的一种基于词袋模型的文本相似度计算系统的结构示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例1
如图1、图2所示,本发明提出一种基于词袋模型的文本相似度计算方法,计算文字产品相似度,从而提高文字产品的个性化推荐精度。
包括下列步骤:
步骤S1:获取文本信息。文本信息包括用户在阅文本信息和待推荐文本信息。
用户在阅文本信息主要指用户在阅文本的正文内容;待推荐文本信息主要指待推荐文本的正文内容。
步骤S2:提取文本特征。文本体征包括用户在阅文本特征和待推荐文本特征。
用户在阅文本特征提取:
首先利用结巴分词、及去除停用词等文本预处理方法,提取出文本关键词;其次采用TF-IDF算法计算各关键词的TF-IDF值;将文本关键词按TF-IDF值从大到小排序,输出排名靠前的n个关键词及其TF-IDF值,形如:
{[word11,VTF-IDF11],[word12,VTF-IDF12],...,,..[word1n,VTF-IDF1n]};
用以表征文本特征。其中,word11,word12,...,word1n分别表示文本的前n个关键词,VTF-IDF11,VTF-IDF12,...,VTF-IDF1n分别表示各关键词的TF-IDF值。n的取值可根据需要自行设定。
待推荐文本特征提取:
待推荐文本特征提取方法参看用户在阅文本特征提取方法。输出为待推荐文本的特征列表,形如:
{[word21,VTF-IDF21],[word22,VTF-IDF22],...,,..[word2m,VTF-IDF2m]};
其中:word21,word22,...,word2m分别为待推荐文本的前m个关键词,VTF-IDF21,VTF-IDF22,...,VTF-IDF2m分别表示各关键词的TF-IDF值。m的取值可根据需要自行设定。
步骤S3:生成文本特征向量。文本特征向量包括用户在阅文本特征向量,和待推荐文本特征向量。
首先,对用户在阅文本特征列表进行关键词的权重归一化处理。归一化公式如下:
Figure BDA0003589871790000071
其中:VTF-IDF11,VTF-IDF12,...,VTF-IDF1n分别表示在阅文本前n个关键词的TF-IDF值;VTF-IDF1i表示在阅文本第i个关键词的TF-IDF值。
输出用户在阅文本特征归一化列表,形如:
{[word11,w11],[word12,w12],...,,..[word1n,w1n]};
其中,word11,word12,...,word1n分别表示文本的前n个关键词,w11,w12,...,w1n分别表示各关键词的权重,满足w11+w12+...+w1n=1。
其次,对待推荐文本特征列表进行关键词的权重归一化处理。归一化方法参看对用户在阅文本特征列表的归一化方法,待推荐文本特征列表的关键词权重归一化公式如下:
Figure BDA0003589871790000072
其中,w2j表示待推荐文本第j个关键词的权重;VTF-IDF21,VTF-IDF22,...,VTF-IDF2m分别表示待推荐文本前m个关键词的TF-IDF值;VTF-IDF2j表示待推荐文本第j个关键词的TF-IDF值。
输出待推荐文本的特征归一化列表,形如:
{[word21,w21],[word22,w22],...,,..[word2m,w2m]};
其中,word21,word22,...,word2m分别为待推荐文本的前m个关键词,w21,w22,...,w2m分别为各关键词的权重,满足w21+w22+...+w2m=1。
然后,计算分别用户在阅文本和待推荐文本的特征向量。步骤如下:
对用户在阅文本特征归一化列表和待推荐文本特征归一化列表中的关键词求并集,输出词袋模型,形如:
U=U(word11,word12,...,word1n)∪U(word21,word22,...,word2m);
其中,word11,word12,...,word1n分别表示文本的前n个关键词,word21,word22,...,word2m分别为待推荐文本的前m个关键词。
举例说明:当关键词word11=word21时,输出词袋模型为:
U=U(word11,word12,...,word1n,word22,...,word2m);
以词袋模型U中的文本关键词为索引,其对应的数值用词权重表示,未在文本中出现的词,则权重为0,分别生成用户在阅文本和待推荐文本的词袋向量,用以表征文本特征,称之为文本特征向量。
举例说明:当关键词word11=word21时,输出用户在阅文本的词袋向量和待推荐文本的词袋向量如下所示:
word11,word12,...,word1n,word22,...,word2m
[w11,w12,...,w1n,0,...,0]
[w21,0,...,0,w22,...,w2m];
其中:
word11,word12,...,wordln,word22,..·,word2m为索引号;
[w11,w12,...,w1n,0,...,0]为用户在阅文本的特征向量;
[w21,0,...,0,w22,...,w2m]为待推荐文本的特征向量。
步骤S4:计算文本相似度。
采用余弦计算公式,计算在阅文本特征向量和待推荐文本特征向量之间夹角的余弦值(取值范围为(0~1)),用以表征用户在阅文本和待推荐文本之间的相似度。相似度越高的两篇文本,其特征向量夹角的余弦值越接近于1。计算公式如下:
Figure BDA0003589871790000091
将提出的基于改进词袋模型的文本相似度计算方法,与其他方法进行对比验证,在收集的10万条文字产品数据集上,本发明的评测指标高于其他方法,利用本发明计算得出的文本相似度比其他方法具有更高的准确性。
如上所述,可较好地实现本发明。
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (8)

1.一种基于词袋模型的文本相似度计算方法,其特征在于,包括以下步骤:
S1,获取文本信息:获取文字产品的文本信息,所述文本信息包括用户在阅文本正文信息、待推荐文本正文信息;
S2,提取文本特征:采用TF-IDF关键词提取算法,对文本进行关键词提取,输出文本的【关键词,TF-IDF值】列表,用以表征文本特征,从而提取文本特征,所述文本特征包括用户在阅文本的文本特征、待推荐文本的文本特征;
S3,生成文本特征向量:生成词袋模型,采用词袋模型将文本特征进行数值化向量表示;
S4,计算文本相似度:计算在阅文本向量与待推荐文本向量之间的夹角,计算得到用户在阅文本与待推荐文本的相似度。
2.根据权利要求1所述的一种基于词袋模型的文本相似度计算方法,其特征在于,步骤S2包括以下步骤:
S21,利用文本预处理方法,提取出文本关键词;
S22,采用TF-IDF算法计算各关键词的TF-IDF值;
S23,将文本关键词按TF-IDF值从大到小排序,输出排名靠前的n个关键词及其TF-IDF值,输出的用户在阅文本的文本特征形式如下:
{[word11,VTF-IDF11],[word12,VTF-IDF12],...,,..[word1n,VTF-IDF1n]};
输出的待推荐文本的文本特征形式如下:
{[word21,VTF-IDF21],[word22,VTF-IDF22],...,,..[word2m,VTF-IDF2m]};
其中,word11,word12,...,word1n分别表示用户在阅文本的前n个关键词,VTF-IDF11,VTF-IDF12,...,VTF-IDF1n分别表示用户在阅文本的各关键词的TF-IDF值,n≥3且n为正整数,n的取值根据需要自行设定;word21,word22,...,word2m分别表示待推荐文本的前m个关键词,VTF-IDF21,VTF-IDF22,...,VTF-IDF2m分别表示待推荐文本的各关键词的TF-IDF值,m≥3且m为正整数,m的取值根据需要自行设定。
3.根据权利要求2所述的一种基于词袋模型的文本相似度计算方法,其特征在于,步骤S21中,文本预处理方法包括结巴分词和/或去除停用词。
4.根据权利要求1至3任一项所述的一种基于词袋模型的文本相似度计算方法,其特征在于,步骤S3包括以下步骤:
S31,分别对用户在阅文本特征列表和待推荐文本特征列表进行关键词的权重归一化,输出用户在阅文本特征归一化列表和待推荐文本的特征归一化列表;
用户在阅文本特征列表的关键词权重归一化公式如下:
Figure FDA0003589871780000021
输出用户在阅文本特征归一化列表的形式如下:
{[word11,w11],[word12,w12],...,[word1i,w1i],..[word1n,w1n]};
其中,i表示用户在阅文本关键词的编号,1≤i≤n;w1i表示用户在阅文本第i个关键词的权重,w11+w12+...w1i+...+w1n=1;VTF-IDF1i表示用户在阅文本第i个关键词的TF-IDF值;
待推荐文本特征列表的关键词权重归一化公式如下:
Figure FDA0003589871780000031
输出待推荐文本的特征归一化列表,形式如下:
{[word21,w21],[word22,w22],...,[word2j,w2j],..[word2m,w2m]};
其中,j表示待推荐文本关键词的编号,1≤j≤m;w2j表示待推荐文本第j个关键词的权重,w21+w22+...+w2j+...+w2m=1;VTF-IDF2j表示待推荐文本第j个关键词的TF-IDF值;
S32,对用户在阅文本的文本关键词和待推荐文本的文本关键词求并集,生成词袋模型;词袋模型形式如下:
U=U(word11,word12,...,word1n)∪U(word21,word22,...,word2m);
S33,以词袋模型中文本关键词为索引,将文本关键词对应的数值用词权重表示,生成用以表征文本特征的词袋向量,词袋向量形式如下:
word11,word12,...,word1n,word22,...,word2m[w11,w12,...,w1n,0,...,0][w21,0,...,0,w22,...,w2m];
其中,
word11,word12,...,word1n,word22,...,word2m表示索引号;
[w11,w12,...,w1n,0,...,0]表示用户在阅文本的特征向量;
[w21,0,...,0,w22,...,w2m]表示待推荐文本的特征向量。
5.根据权利要求4所述的一种基于词袋模型的文本相似度计算方法,其特征在于,步骤S32中,未在文本中出现的词,则权重为0。
6.根据权利要求5所述的一种基于词袋模型的文本相似度计算方法,其特征在于,步骤S4中,采用余弦计算公式,计算在阅文本特征向量和待推荐文本特征向量之间夹角的余弦值,用以表征用户在阅文本和待推荐文本之间的相似度。
7.根据权利要求6所述的一种基于词袋模型的文本相似度计算方法,其特征在于,步骤S4中,余弦计算公式如下:
Figure FDA0003589871780000041
8.一种基于词袋模型的文本相似度计算系统,其特征在于,基于权利要求1至7任一项所述的一种基于词袋模型的文本相似度计算方法,包括依次电相连的文本信息获取模块、文本特征提取模块、文本特征向量生成模块、文本相似度计算模块;
其中,
文本信息获取模块:用以获取文字产品的文本信息,所述文本信息包括用户在阅文本正文信息、待推荐文本正文信息;
文本特征提取模块:用以采用TF-IDF关键词提取算法,对文本进行关键词提取,输出文本的【关键词,TF-IDF值】列表,用以表征文本特征,从而提取文本特征,所述文本特征包括用户在阅文本的文本特征、待推荐文本的文本特征;
文本特征向量生成模块:用以生成词袋模型,采用词袋模型将文本特征进行数值化向量表示;
文本相似度计算模块:用以计算在阅文本向量与待推荐文本向量之间的夹角,计算得到用户在阅文本与待推荐文本的相似度。
CN202210373623.8A 2022-04-11 2022-04-11 一种基于词袋模型的文本相似度计算方法及系统 Active CN114781348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210373623.8A CN114781348B (zh) 2022-04-11 2022-04-11 一种基于词袋模型的文本相似度计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210373623.8A CN114781348B (zh) 2022-04-11 2022-04-11 一种基于词袋模型的文本相似度计算方法及系统

Publications (2)

Publication Number Publication Date
CN114781348A true CN114781348A (zh) 2022-07-22
CN114781348B CN114781348B (zh) 2023-06-02

Family

ID=82428518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210373623.8A Active CN114781348B (zh) 2022-04-11 2022-04-11 一种基于词袋模型的文本相似度计算方法及系统

Country Status (1)

Country Link
CN (1) CN114781348B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114971817A (zh) * 2022-07-29 2022-08-30 中国电子科技集团公司第十研究所 基于用户需求画像的产品自适应服务方法、介质及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180365248A1 (en) * 2017-06-14 2018-12-20 Sap Se Document representation for machine-learning document classification
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
CN111061957A (zh) * 2019-12-26 2020-04-24 广东电网有限责任公司 一种文章相似度推荐方法和装置
CN111125297A (zh) * 2019-11-29 2020-05-08 中国电子科技集团公司第二十八研究所 一种基于搜索引擎的海量离线文本实时推荐方法
CN113254655A (zh) * 2021-07-05 2021-08-13 北京邮电大学 文本分类方法、电子设备及计算机存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180365248A1 (en) * 2017-06-14 2018-12-20 Sap Se Document representation for machine-learning document classification
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
CN111125297A (zh) * 2019-11-29 2020-05-08 中国电子科技集团公司第二十八研究所 一种基于搜索引擎的海量离线文本实时推荐方法
CN111061957A (zh) * 2019-12-26 2020-04-24 广东电网有限责任公司 一种文章相似度推荐方法和装置
CN113254655A (zh) * 2021-07-05 2021-08-13 北京邮电大学 文本分类方法、电子设备及计算机存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIN YAO等: "Unlabeled Short Text Similarity With LSTM Encoder" *
谷重阳 等: "基于词汇语义信息的文本相似度计算" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114971817A (zh) * 2022-07-29 2022-08-30 中国电子科技集团公司第十研究所 基于用户需求画像的产品自适应服务方法、介质及装置
CN114971817B (zh) * 2022-07-29 2022-11-22 中国电子科技集团公司第十研究所 基于用户需求画像的产品自适应服务方法、介质及装置

Also Published As

Publication number Publication date
CN114781348B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN109086375B (zh) 一种基于词向量增强的短文本主题抽取方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN110704606B (zh) 一种基于图文融合的生成式摘要生成方法
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
Abdul-Rashid et al. Shrec’18 track: 2d image-based 3d scene retrieval
Tran et al. Aggregating image and text quantized correlated components
CN104778157A (zh) 一种多文档摘要句的生成方法
CN110162624A (zh) 一种文本处理方法、装置以及相关设备
CN110928986A (zh) 法律证据的排序和推荐方法、装置、设备及存储介质
CN116541607A (zh) 基于商品检索数据分析的智能推荐方法
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
CN116205222A (zh) 一种基于多通道注意力融合的方面级情感分析系统及方法
CN115115883A (zh) 一种基于多模态特征融合的证照分类方法及系统
CN114781348B (zh) 一种基于词袋模型的文本相似度计算方法及系统
Yao et al. Online deception detection refueled by real world data collection
CN116579348A (zh) 基于不确定语义融合的虚假新闻检测方法及系统
Chen et al. Exploiting aesthetic features in visual contents for movie recommendation
CN114022233A (zh) 一种新型的商品推荐方法
CN113191381B (zh) 一种基于交叉知识的图像零次分类模型及其分类方法
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
Nakanishi et al. Semantic waveform measurement method of kansei transition for time-series media contents
CN110717100B (zh) 基于高斯嵌入表示技术的上下文感知推荐方法
KR20230100220A (ko) 컴퓨터 장치를 이용한 어문 저작물 ip의 거래 중개 방법
CN112417845A (zh) 一种文本评价方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant