CN104239512A - 一种文本推荐方法 - Google Patents

一种文本推荐方法 Download PDF

Info

Publication number
CN104239512A
CN104239512A CN201410469707.7A CN201410469707A CN104239512A CN 104239512 A CN104239512 A CN 104239512A CN 201410469707 A CN201410469707 A CN 201410469707A CN 104239512 A CN104239512 A CN 104239512A
Authority
CN
China
Prior art keywords
vector
text
similarity
feature words
centerdot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410469707.7A
Other languages
English (en)
Other versions
CN104239512B (zh
Inventor
于富财
伍盛
李林
胡光岷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201410469707.7A priority Critical patent/CN104239512B/zh
Publication of CN104239512A publication Critical patent/CN104239512A/zh
Application granted granted Critical
Publication of CN104239512B publication Critical patent/CN104239512B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本推荐方法,包括建立用户模型,预处理文本文档,提取特征向量,计算特征向量间同义词的最优匹配,根据特征向量与用户模型间的相似度,确定推荐文本,本发明的方法在传统余弦夹角算法基础上加入同义词间语义相似度的匹配因子,考虑文本同义词对相似度的影响,更精确的计算文本间、文本与用户模型间的相似程度,经实验验证,本发明的一种文本推荐方法较余弦夹角算法在准确率上平均有20%的提升,具有较好的实用价值。

Description

一种文本推荐方法
技术领域
本发明属于文本分类领域,具体涉及一种文本推荐方法。
背景技术
随着信息时代的来临,为了从海量的文本中查找需要的信息,需要进行大量的阅读。传统的做法是对文本进行人工分类,并加以组织和整理,为人们提供一种相对有效的信息获取手段。但是,这种传统的文本分类的做法存在着许多弊端:一是耗费大量的人力,物力和精力;二是文本的分类方法不能满足所有用户的需求。这就要求我们探索文本个性化服务的有效方法,提高文本阅读效率。在此背景下,根据用户兴趣模型进一步筛选文档的算法——文本推荐算法应运而生。
一般的文本推荐首先要进行文本预处理,然后根据用户已读文档构建用户模型,最后按照一定的算法计算待推荐文档与用户兴趣模型之间的相关性,将相关性大于阀值的文档推荐给用户。
在实现上,目前文本推荐的主流做法是依照用户历史习惯建立用户模型,然后通过推荐算法计算用户模型与文本库中待推荐文档间的相符程度,将相符程度高于一定阀值的文档列表作为结果反馈给用户,完成推荐过程。目前常见的文本推荐算法如余弦夹角算法、Jaccard系数算法均仅考虑了特征词的严格匹配。但由于自然语言的灵活性,不同文档对同一事物的描述可能会使用意义相同的同义词,若在文本推荐过程中只考虑词形匹配,不考虑同义词匹配,必然会出现推荐结果覆盖率不全、准确率不高的问题。
发明内容
针对传统的文本推荐算法仅考虑了特征词的严格匹配,而未考虑其在语义上的相似性的缺点,本发明提出了一种文本推荐方法。
本发明的技术方案为:一种文本推荐方法,具体包括以下步骤:
S1:预处理待推荐文档,提取文本信息中能代表文本信息的特征词及对应权重;
S2:根据提取出的特征词构成特征向量;
S3:根据用户历史阅读文档,采用均权技术建立用户模型;
S4:根据同义词词典计算特征向量间的中英文同义词对;
S5:根据Kuhn-Munkres算法计算特征向量间同义词的最优匹配,得到余弦夹角;
根据Kuhn-Munkres算法得到的特征向量间同义词的最优匹配为,
OptimalMatch ( X , Y ) = max Σ i = 0 , j = 0 n , m wx i · wy j · Similarity ( x i , y j ) ,
其中,X、Y分别表示两个向量中相互间存在同义词关系的特征词向量,wxi表示用户向量模型中特征词xi所对应的权重,wyj表示用户向量模型中特征词yj所对应的权重,Similarity(xi,yj)表示X向量中第i个特征词与Y向量中第j个特征词间的同义词相似度,n表示X向量中的特征词个数,m表示Y向量中的特征词个数;
根据特征向量间同义词的最优匹配得到余弦夹角:
Similarity ( A , B ) = A · B | A | · | B | = Σ i , j ∈ ( 0 , max ( m , n ) ) wa i · wb j + OptimalMatch ( X , Y ) Σ i = 1 m wa i 2 + OptimalMatch ( X , Y ) · Σ j = 1 n wb j 2 + OptimalMatch ( X , Y )
其中,为余弦夹角公式,A、B分别代表用户模型向量和文档特征向量;
S6:根据步骤S5得到的余弦夹角计算待推荐文档与用户模型向量之间的相似程度;
S7:选取相似程度大于阀值的文档作为结果推荐给用户。
本发明的有益效果:本发明的一种文本推荐方法,在现有的余弦夹角算法基础上考虑同义词对文本推荐的积极作用,提高推荐结果的覆盖率和准确率,具体为,在传统余弦算法基础上加入同义词间语义相似度的匹配因子,考虑文本同义词对相似度的影响,更精确的计算文本间、文本与用户模型间的相似程度,经实验验证,本发明的一种文本推荐方法较传统余弦夹角算法在准确率上平均有20%的提升,具有较好的实用价值。
附图说明
图1是现有技术文本文档预处理的流程图。
图2是本发明的文本推荐方法流程图。
图3是存在多对多同义词关系的两向量示意图。
具体实施方式
下面结合具体的实施例对本发明的内容作进一步的说明。
现有技术的处理流程如图1所示,在文本推荐中,非结构化的文本信息无法被直接用于推荐算法,需通过文本预处理提取文本信息中最能代表文本信息的特征词及对应权重。预处理文本信息包括建立向量空间模型、特征词提取以及停用词剔除。
Salton等人提出的向量空间模型,是一种简单高效的文档表示模型。该模型思想是对于任何一个文档集,以其不同的特征词为基础,构成文档特征词向量空间,用空间中的特征向量表征文档。向量空间模型通常有两种,分别是布尔型向量空间模型和数值型向量空间模型。本发明使用数值型向量空间并使用NLPIR库基于交叉熵提取文档特征向量。例如一个含有两篇文档A,B的文档集,经特征提取后的特征向量如表1所示:
表1 文档特征向量
其中,word为文档的特征词,weight为特征词对应权重。该文档集构成(中国,军事,人文,经济,科技,文化,贸易)7维向量空间,A,B文档向量在此向量空间中分别表示为{(中国,1.1),(军事,1.3),(人文,1.6),(经济,1.7),(科技,0.9),(文化,0),(贸易,0)}、{(中国,0.8),(军事,0),(人文,0),(经济,1.1),(科技,0),(文化,0.9),(贸易,1.3)}。
停用词是指那些对表征文本特征没有实际意义或者对文档的分类以及信息的检索帮助不大,甚至会影响分类和检索精确度的词,如一些虚词(如:啊、很、是、哟、哦、什么等等)。在处理自然语言文本时要过滤掉这些词。
用户兴趣模型由用户历史信息建立,表征该用户对文档的兴趣方向。如何建立用户模型也是个性化推荐中的一个研究方向。文献从不同角度探讨了构建兴趣模型的一些方法。本发明使用均权建模过程。例如取表格1所示的文档特征向量建立用户兴趣模型:
mode l ( A , B ) = ( 1.1 + 0.8,1.3,1.6,1.7 + 1.1,0.9,0.9,1.3 ) 2 = ( 0.95,0.65,0.8,1.4,0.45,0.45,0.65 )
其中,Model(A,B)表示由文档A和B在向量空间模型下建立的兴趣模型:{(中国,0.95),(军事,0.65),(人文,0.8),(经济,1.4),(科技,0.45),(文化,0.45),(贸易,0.65)}。
同义词的使用中会遇到同义词相似度这一概念,即用来反映同义词之间的语义相似程度,它是目标文本特征词和用户兴趣模型特征词在语义上的匹配程度的一种量化。同义词词典应用比较广泛的有《同义词词林》、WordNet等。本方案算法实验中分别使用《同义词词林》和WordNet计算中、英文同义词之间的相似度。
本发明基于余弦夹角算法、结合同义词最优匹配的得到改进型文本推荐算法,该算法在余弦夹角算法基础上加入衡量文本间同义词最优匹配程度的因子,将文本间同义词关系纳入文本相似度计算的考虑范围,能更全面的反应文本间的相似程度。具体的,基于向量空间模型,利用NLPIR库提取文本特征向量,结合停用词表去除噪音特征,运用均权技术建立用户模型,最后给出推荐结果。
所述余弦夹角算法是典型的在数值型向量空间模型中计算相似度的算法,该算法用余弦夹角公式计算文档特征向量与用户模型向量之间的相似度,具体计算公式为:
Similarity ( A , B ) = A · B | A | · | B | - - - ( 1 )
其中,A、B分别代表用户模型向量和文档特征向量,两个向量分别表示如下:
A={(a1,wa1),(a2,wa2),(a3,wa3),。。。。。。(am,wam)};           (2)
B={(b1,wb1),(b2,wb2),(b3,wb3),。。。。。。(bn,wbn)};                 (3)
其中,wam表示用户模型向量中特征词am所对应权重;wbn表示用户模型向量中特征词bn所对应权重。
结合公式(1)、(2)和(3),化简得到公式(4):
Similarity ( A , B ) = A · B | A | · | B | = Σ i , j ∈ ( 0 , max ( m , n ) ) wa i · wb j Σ i = 1 m wa i 2 · Σ j = 1 n wb j 2 - - - ( 4 )
其中,wai与wbj相乘的条件为特征词ai=bj
余弦夹角算法用公式(4)计算用户模型与文档特征向量之间的相似度,最后把相似度大于给定阀值的文档推荐给用户。
所述的余弦夹角算法结构简单,算法复杂度低,且能够保证一定的算法性能,是目前应用很广的一种文档推荐算法。但本发明人发现其依然存在一些缺陷,如只考虑了向量中的特征词在字面上是否相同,而没有考虑不同词语间词义上的相关性。由于词义相关现象在自然语言中非常普遍,忽略词义相关性势必会影响推荐结果的精度和广度。
本发明针对传统文本推荐算法不考虑词义相关性的缺陷,在余弦夹角的基础上,提出一种文本推荐方法。本发明的方法不仅考虑特征词字面上的匹配,还考虑同义词间语义相似度的匹配,其具体实现是在公式(4)的基础上,加入衡量同义词语义相似性的部分:
Similarity ( A , B ) = A · B | A | · | B | = Σ i , j ∈ ( 0 , max ( m , n ) ) wa i · wb j + Σ x , y ( 0 , max ( m , n ) ) wa x · wb y · sim ( a x , b y ) Σ i = 1 m wa i 2 + Σ sim ( a x , b y ) · wa x 2 · Σ j = 1 n wb j 2 + Σ sim ( a x , b y ) · wb y 2 - - - ( 5 )
其中,Sim(ax,by)表示的是向量A中特征词ax和向量B中特征词by的同义词相似度。
以表格1所示的文档特征向量A、B为例,对比得知向量中有两个分量相同,即中国和经济,同时,人文和文化之间还有同义词关系,假设它们之间的相似度为0.8,则根据公式(5)的定义,向量A、B的相似度为:
Similarity ( A , B ) = ( 1.1 × 0.8 + 1.7 × 1.1 ) + ( 1.6 × 0.9 × 0.8 ) ( 1 . 1 2 + 1.3 2 + 1.6 2 + 1.7 2 + 0.9 2 ) + ( 1.6 2 × 0.8 ) + ( 0.8 2 + 0.9 2 + 1.3 2 + 1.1 2 ) + ( 0.9 2 × 0.8 )
计算得到,Similarity(A,B)=0.69,即向量A、B表示的两篇文本的相似度为0.69,然而,采用余弦夹角的特征词字面匹配算法,由公式(8)得到的相似度为0.54,明显低于本发明的方法得出的相似度。
本发明的方法在计算两篇文本相似度过程中考虑了更多影响相似度的因素,所以相似度结果更高。这种相似度大小的变化,恰恰可以区分目标文本与用户兴趣模型联系的密切程度,更有利于向用户推荐真正与用户兴趣模型相似的文本,从而使最后的推荐结果更加准确。
下面给出本发明的进一步改进实施例。
上述例子说明同义词匹配对文本推荐确实有积极地作用,但该例子只考虑了一种最简单的情况,即两个向量中只有一对同义词,但实际的推荐过程中,向量间同义关系一般比较复杂,如图3所示。
其中,A、B为两个特征向量,椭圆表示特征词与权重,点之间的直线表示特征词之间的同义词关系。
A中一个特征词百姓与B中的特征词群众、人有同义词关系,同时A中另一个词工作人员也与B中的特征词人、医生有同义词关系,若以相似度大小来判断,人应该与百姓构成同义词关系(相似度0.7),则剩下的工作人员只能与医生构成同义词关系(相似度0.1),这两对同义词关系的相似度的和为0.7+0.1=0.8。若百姓和群众构成同义词关系(相似度0.8),工作人员和人构成同义词关系(相似度0.3),那么这两对同义词关系的相似度的和为0.8+0.3=1.1,大于前一种同义词组合方式。
本发明采用Kuhn-Munkres算法求解同义词间语义相似度的匹配问题,最优匹配的解的形式为存在同义词关系的特征词组相似度的和,具体公式如下:
OptimalMatch ( X , Y ) = max Σ i = 0 , j = 0 n , m Similarity ( x i , y j ) - - - ( 6 )
其中,X、Y分别表示A、B向量中相互间存在同义词关系的特征词的向量,similarity(xi,yj)表示X向量中第i个特征词与Y向量中第j个特征词间的同义词相似度,n表示X向量中的特征词个数,m表示Y向量中的特征词个数。
考虑到文本的向量表示中各个词都有自身的权重值,最优匹配解的形式调整为:
OptimalMatch ( X , Y ) = max Σ i = 0 , j = 0 n , m wx i · wy j · Similarity ( x i , y j ) - - - ( 7 )
本发明的文本推荐方法可进一步化简为:
Similarity ( A , B ) = A · B | A | · | B | = Σ i , j ∈ ( 0 , max ( m , n ) ) wa i · wb j + OptimalMatch ( X , Y ) Σ i = 1 m wa i 2 + OptimalMatch ( X , Y ) · Σ j = 1 n wb j 2 + OptimalMatch ( X , Y ) - - - ( 8 )
该公式综合考虑了用户模型向量和待推荐文档特征向量间基于字面匹配和同义词二分图最优匹配结果,弥补了传统推荐算法仅考虑字面匹配的缺陷。
该系统基于向量空间模型,利用NLPIR库提取文本特征向量,结合停用词表去除噪音特征,运用均权技术建立用户模型,根据最优匹配理论获得文档间的同义词对,最后利用公式(8)计算文档与用户模型间的相符程度。
本发明的文本推荐方法如图2所示。
经实验验证,本发明的一种文本推荐方法较余弦夹角算法在准确率上平均有20%的提升,具有较好的实用价值。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (3)

1.一种文本推荐方法,其特征在于,具体包括以下步骤:
S1:预处理待推荐文档,提取文本信息中能代表文本信息的特征词及对应权重;
S2:根据提取出的特征词构成特征向量;
S3:根据用户历史阅读文档,采用均权技术建立用户模型;
S4:根据同义词词典计算特征向量间的中英文同义词对;
S5:根据Kuhn‐Munkres算法计算特征向量间同义词的最优匹配,得到余弦夹角;
根据Kuhn‐Munkres算法得到的特征向量间同义词的最优匹配为,
OptimalMatch ( X , Y ) = max Σ i = 0 , j = 0 n , m wx i · wy j · Similarity ( x i , y j ) ,
其中,X、Y分别表示两个向量中相互间存在同义词关系的特征词向量,wxi表示用户向量模型中特征词xi所对应的权重,wyj表示用户向量模型中特征词yj所对应的权重,Similarity(xi,yj)表示X向量中第i个特征词与Y向量中第j个特征词间的同义词相似度,n表示X向量中的特征词个数,m表示Y向量中的特征词个数;
根据特征向量间同义词的最优匹配得到余弦夹角:
Similarity ( A , B ) = A · B | A | · | B | = Σ i , j ∈ ( 0 , max ( m , n ) ) wa i · wb j + OptimalMatch ( X , Y ) Σ i = 1 m wa i 2 + OptimalMatch ( X , Y ) · Σ j = 1 n wb j 2 + OptimalMatch ( X , Y )
其中,为余弦夹角公式,A、B分别代表用户模型向量和文档特征向量;
S6:根据步骤S5得到的余弦夹角,计算待推荐文档与用户模型向量之间的相似程度;
S7:选取相似程度大于预先设定阀值的文档作为结果推荐给用户。
2.根据权利要求1一种文本推荐方法,其特征在于,所述步骤S2预处理待推荐文档还包括剔除停用词。
3.根据权利要求1一种文本推荐方法,其特征在于,所述步骤S3根据提取出的特征词构成特征向量具体为,采用数值型向量空间并结合NLPIR库基于交叉熵的方式将特征词构成特征向量。
CN201410469707.7A 2014-09-16 2014-09-16 一种文本推荐方法 Expired - Fee Related CN104239512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410469707.7A CN104239512B (zh) 2014-09-16 2014-09-16 一种文本推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410469707.7A CN104239512B (zh) 2014-09-16 2014-09-16 一种文本推荐方法

Publications (2)

Publication Number Publication Date
CN104239512A true CN104239512A (zh) 2014-12-24
CN104239512B CN104239512B (zh) 2017-06-06

Family

ID=52227571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410469707.7A Expired - Fee Related CN104239512B (zh) 2014-09-16 2014-09-16 一种文本推荐方法

Country Status (1)

Country Link
CN (1) CN104239512B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778201A (zh) * 2015-01-23 2015-07-15 湖南科技大学 一种基于多查询结果合并的在先技术检索方法
CN104965889A (zh) * 2015-06-17 2015-10-07 腾讯科技(深圳)有限公司 内容推荐方法及装置
CN105095188A (zh) * 2015-08-14 2015-11-25 北京京东尚科信息技术有限公司 句子相似度计算方法及装置
CN106934007A (zh) * 2017-02-14 2017-07-07 北京时间股份有限公司 关联信息的推送方法及装置
CN107346344A (zh) * 2017-07-24 2017-11-14 北京京东尚科信息技术有限公司 文本匹配的方法和装置
CN107562912A (zh) * 2017-09-12 2018-01-09 电子科技大学 新浪微博事件推荐方法
CN108664464A (zh) * 2017-03-27 2018-10-16 中国移动通信有限公司研究院 一种语义相关度的确定方法及确定装置
CN109190046A (zh) * 2018-09-18 2019-01-11 北京点网聚科技有限公司 内容推荐方法、装置及内容推荐服务器
CN109460461A (zh) * 2018-11-13 2019-03-12 苏州思必驰信息科技有限公司 基于文本相似度模型的文本匹配方法及系统
CN109710845A (zh) * 2018-12-25 2019-05-03 百度在线网络技术(北京)有限公司 资讯推荐方法、装置、计算机设备和可读存储介质
CN110633408A (zh) * 2018-06-20 2019-12-31 北京正和岛信息科技有限公司 智能商业资讯的推荐方法和系统
CN110929017A (zh) * 2019-11-25 2020-03-27 三角兽(北京)科技有限公司 文本的推荐方法及装置
CN111652299A (zh) * 2020-05-26 2020-09-11 泰康保险集团股份有限公司 一种业务数据自动匹配的方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488705A (zh) * 2013-09-06 2014-01-01 电子科技大学 个性化推荐系统的用户兴趣模型增量更新方法
US20140101162A1 (en) * 2012-10-09 2014-04-10 Industrial Technology Research Institute Method and system for recommending semantic annotations
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140101162A1 (en) * 2012-10-09 2014-04-10 Industrial Technology Research Institute Method and system for recommending semantic annotations
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN103488705A (zh) * 2013-09-06 2014-01-01 电子科技大学 个性化推荐系统的用户兴趣模型增量更新方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIMOTEJ BETINA ET AL: "Document Creation with Information Retrieval System Support", 《IEEE INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND INFORMATICS》 *
田久乐等: "基于同义词词林的词语相似度计算方法", 《吉林大学学报(信息科技版)》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778201A (zh) * 2015-01-23 2015-07-15 湖南科技大学 一种基于多查询结果合并的在先技术检索方法
CN104778201B (zh) * 2015-01-23 2018-01-02 湖南科技大学 一种基于多查询结果合并的在先技术检索方法
CN104965889A (zh) * 2015-06-17 2015-10-07 腾讯科技(深圳)有限公司 内容推荐方法及装置
CN105095188A (zh) * 2015-08-14 2015-11-25 北京京东尚科信息技术有限公司 句子相似度计算方法及装置
CN105095188B (zh) * 2015-08-14 2018-02-16 北京京东尚科信息技术有限公司 句子相似度计算方法及装置
CN106934007A (zh) * 2017-02-14 2017-07-07 北京时间股份有限公司 关联信息的推送方法及装置
CN108664464A (zh) * 2017-03-27 2018-10-16 中国移动通信有限公司研究院 一种语义相关度的确定方法及确定装置
CN108664464B (zh) * 2017-03-27 2021-07-16 中国移动通信有限公司研究院 一种语义相关度的确定方法及确定装置
CN107346344A (zh) * 2017-07-24 2017-11-14 北京京东尚科信息技术有限公司 文本匹配的方法和装置
CN107562912A (zh) * 2017-09-12 2018-01-09 电子科技大学 新浪微博事件推荐方法
CN107562912B (zh) * 2017-09-12 2021-08-27 电子科技大学 新浪微博事件推荐方法
CN110633408A (zh) * 2018-06-20 2019-12-31 北京正和岛信息科技有限公司 智能商业资讯的推荐方法和系统
CN110633408B (zh) * 2018-06-20 2024-03-15 北京正和岛信息科技有限公司 智能商业资讯的推荐方法和系统
CN109190046A (zh) * 2018-09-18 2019-01-11 北京点网聚科技有限公司 内容推荐方法、装置及内容推荐服务器
CN109460461A (zh) * 2018-11-13 2019-03-12 苏州思必驰信息科技有限公司 基于文本相似度模型的文本匹配方法及系统
CN109710845A (zh) * 2018-12-25 2019-05-03 百度在线网络技术(北京)有限公司 资讯推荐方法、装置、计算机设备和可读存储介质
CN110929017A (zh) * 2019-11-25 2020-03-27 三角兽(北京)科技有限公司 文本的推荐方法及装置
CN111652299A (zh) * 2020-05-26 2020-09-11 泰康保险集团股份有限公司 一种业务数据自动匹配的方法及设备

Also Published As

Publication number Publication date
CN104239512B (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
CN104239512A (zh) 一种文本推荐方法
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
CN104573046B (zh) 一种基于词向量的评论分析方法及系统
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
Li et al. TextRank algorithm by exploiting Wikipedia for short text keywords extraction
CN103324628A (zh) 一种针对发布文本的行业分类方法和系统
CN103235774B (zh) 一种科技项目申请书特征词提取方法
CN107609121A (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN106599029A (zh) 一种中文短文本聚类方法
CN102955857B (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
CN103150405B (zh) 一种分类模型建模方法、中文跨文本指代消解方法和系统
CN103678275A (zh) 一种基于主客观语义的双层次文本相似度计算方法
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN105320646A (zh) 一种基于增量聚类的新闻话题挖掘方法及其装置
CN103064969A (zh) 自动建立关键词索引表的方法
CN101295294A (zh) 基于信息增益改进贝叶斯词义消歧方法
CN103092828A (zh) 基于语义分析和语义关系网络的文本相似度度量方法
CN104967558B (zh) 一种垃圾邮件的检测方法及装置
CN110781679A (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN103631858A (zh) 一种科技项目相似度计算方法
CN101894129B (zh) 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN102375842A (zh) 面向领域整体的关键词集的评价和提取方法
CN103646029A (zh) 一种针对博文的相似度计算方法
CN108920545B (zh) 基于扩展的情感词典和卡方模型的中文情感特征选择方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170606

Termination date: 20180916

CF01 Termination of patent right due to non-payment of annual fee