CN104298732A - 一种面向网络用户的个性化文本排序及推荐方法 - Google Patents
一种面向网络用户的个性化文本排序及推荐方法 Download PDFInfo
- Publication number
- CN104298732A CN104298732A CN201410514028.7A CN201410514028A CN104298732A CN 104298732 A CN104298732 A CN 104298732A CN 201410514028 A CN201410514028 A CN 201410514028A CN 104298732 A CN104298732 A CN 104298732A
- Authority
- CN
- China
- Prior art keywords
- text
- node
- keyword
- similarity
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种面向网络用户的个性化文本排序及推荐方法,所述个性化文本排序方法包括对于用户的每条包括具有关键词和运算符的表达式的兴趣规则,执行以下步骤:1)、对于多个文本中的每个文本提取关键词和该关键词在该文本中的权重。2)、对于所述多个文本中的每个文本,计算该文本与该兴趣规则对应的表达式树的相似度;其中,表达式树是根据兴趣规则中包括的表达式建立的,表达式树中的节点分为运算符节点和文本节点,文本节点包括关键词和该关键词在该兴趣规则中的权重。3)、根据与所述表达式树的相似度大小,对所述多个文本中的每个文本进行排序。本发明能够在稀疏用户行为的场景下有效地将符合个性化需求的文本信息推荐给用户。
Description
技术领域
本发明涉及信息检索和过滤推荐技术领域,以及更具体地,涉及一种面向网络用户的个性化文本排序及推荐方法。
背景技术
互联网时刻产生着海量的信息,新闻、论坛、博客等媒体不停地生成供用户浏览的网页,这些网页中承载了各种文本信息。一方面,网络信息的丰富性与透明性为用户提供了前所未有的便利;另一方面,由于信息的数量过于庞大,因此给用户查询带来了很大的困难,其中大量的用户不感兴趣的信息或者垃圾信息将很多有意义的信息淹没。目前,很多网站通过将热门信息推荐给用户来提高服务质量。然而,热门信息的量仍然非常大,并且所有用户接收到的信息是完全相同的。在现实中,由于不同的人对信息种类的需求不同,用户希望能够将有限的精力用在阅读自己关心的内容上,因此,按照用户的兴趣为不同用户提供不同的个性化文本,将用户真正关心和感兴趣的内容排在文本列表的前面推荐给用户,能够极大地满足用户阅读的效率和满意度。
当前,如何将个性化文本进行排序并推荐给用户已受到广泛的关注。其中一类是基于内容过滤的方法,该方法将文本与用户收藏的文本计算相似度,如果相似度大于某一设定阈值,就将该文本推荐给用户,其中被推荐的文本按照相似度来排序呈现。然而,这类方法的相似度计算比较费时,同时用户收藏的文本的质量、数量以及时效性也会制约相似度计算的效果,因此采用这类方法对文本数量和质量的要求较高。另一类是协同过滤方法,该方法根据最近邻用户的行为来推断用户的兴趣。由于这类方法需要有大量的用户群体,因此对用户数量以及用户之间关系的要求较高。此外需要处理的信息往往是最新的,而此时很少有近邻用户能够提供有效的信息。现有方法中,可采用兴趣规则来表示用户的行为兴趣,根据规则构建trie树来匹配文本,并且基于匹配结果进行文本排序以用于推荐。这种方法容易推广应用,但在计算排序时没有考虑到规则中操作符的影响,且基于文本字符串与trie树的匹配也容易造成误配。
综上所述,在用户数量较小的个性化文本排序应用场景下,采用协同过滤的方法是不适用的,而基于内容过滤的方法对用户收藏的文本数量和质量的要求较高。因此,针对稀疏用户行为,如何实现有效的个性化文本排序及推荐是当前亟待解决的问题。其中,稀疏用户行为指的是用户数量小(即用户稀疏、难以寻找近邻用户)或者用户行为稀疏(即没有大量的浏览、收藏等可以揭示用户行为兴趣的用户行为)。
发明内容
针对上述问题,本发明提供一种面向网络用户的个性化文本排序方法。对于用户的每条包括具有关键词和运算符的表达式的兴趣规则,所述方法包括以下步骤:
步骤1)、对于多个文本中的每个文本提取关键词和该关键词在该文本中的权重;
步骤2)、对于所述多个文本中的每个文本,计算该文本与该兴趣规则对应的表达式树的相似度;其中,表达式树是根据该兴趣规则中包括的表达式建立的,表达式树中的节点分为运算符节点和文本节点,文本节点包括关键词和该关键词在该兴趣规则中的权重;
步骤3)、根据与所述表达式树的相似度大小,对所述多个文本中的每个文本进行排序。
上述方法中,步骤2)包括:
对于所述多个文本中的每个文本,后序遍历与该兴趣规则对应的表达式树,在遍历时根据如下方式计算每个节点的相似度分值:
如果该节点N是文本节点,则其相似度分值计算如下:
f(N)=g(T(N))
其中,T(N)表示节点N中的关键词,g(T(N))表示关键词T(N)在该兴趣规则中的权重;
如果该节点N是“&”运算符节点,则其相似度分值计算如下:
其中,N1,…,NK表示节点N的子节点并且前m个是文本节点,p为正整数,T(Ni)表示节点Ni中的关键词,w(T(Ni))表示关键词T(Ni)在该文本中的权重,其中如果T(Ni)不是该文本中的关键词,则w(T(Ni)=0;
如果该节点N是“|”运算符节点,则其相似度分值计算如下:
其中,N1,…,NK表示节点N的子节点且前m个是文本节点,并且其中前m个是文本节点;
如果该节点N是“-”运算符节点,则其相似度分值计算如下:
f(N)=1-f(N1)
其中,N1为节点N的子节点;
在得到根节点的相似度分值后,将该根节点的相似度分值作为该文本与所述表达式树的相似度。
上述方法中,将关键词在兴趣规则中出现的次数除以该兴趣规则中所有关键词出现次数的最大值,来得到该关键词在该兴趣规则中的权重。
上述方法中,在步骤2)中还包括:在得到该文本与所述表达式树的相似度后修正该相似度。其中,修正该文本与所述表达式树的相似度包括:
步骤a)、得到该文本的标题与所述表达式树中的每个关键词的最长公共子串以及该最长公共子串的长度;
步骤b)、根据如下方式修正相似度:
如果相似度小于k并且所有最长公共子串的长度都小于n个汉字,则令该相似度为0,其中k为小于1的正数且n为正整数;
如果相似度大于或等于k并且所有最长公共子串的长度都小于n个汉字,则将相似度乘以小于1的正数l;
如果相似度小于k并且存在长度大于或等于n个汉字的最长公共子串,则在该文本的关键词中查找该最长公共子串;如果找到,则将具有该最长公共子串的该文本的关健词替换为对应的所述表达式树中的关键词;如果未找,则在该文本的关健词中添加对应的所述表达式树中的关键词,并且该关键词在该文本中的权重为该文本的关键词的权重的中值;重新后序遍历所述表达式树,用根节点的相似度分值作为该文本与所述表达式树的相似度;
如果相似度大于或等于k并且存在长度大于或等于n个汉字的最长公共子串,则不修改相似度。
上述方法中,在步骤2)之前还包括:
根据该兴趣规则中包括的表达式建立对应的表达式树的步骤。
上述方法中,在步骤1)中,在根据兴趣规则建立对应的表达式树之前还要将该兴趣规则中的空格替换为逻辑与运算符,以及将没有运算符连接的子句采用逻辑与运算符进行连接。
根据本发明的一个实施例,还提供一种面向网络用户的个性化文本推荐方法,包括:
步骤A)、根据用户的兴趣规则请求,获得采用如权利要求1-10中任何一个所述的排序方法得到的与该兴趣规则对应的排序的文本;
步骤B)、将该排序的文本推荐给用户。
本发明的有益效果如下:
本发明基于用户兴趣规则建立用户兴趣模型,其中用户兴趣模型能够全面保留规则信息,根据用户兴趣模型中的关键词及文本中的关键词进行相似度计算,并根据该相似度进行个性化文本排序。其中,采用现有技术提取文本关键词,该关键词信息能够准确代表文本的主题内容,相似度计算的复杂度较低、准确性较高并且减少了误配的情况。此外,本发明还利用文本的标题信息对相似度结果进行修正,速度较快并且进一步减少了在关键词提取中可能带来的一些误差。本发明能够在稀疏用户行为的场景下有效地将符合个性化需求的文本信息推荐给用户。
附图说明
以下附图仅对本发明做示意性说明和解释,并不用于限定本发明的范围,其中:
图1是根据本发明一个实施例的面向网络用户的个性化文本排序方法的流程图;
图2是根据本发明一个实施例的获得用户兴趣规则的方法流程图;
图3是根据本发明一个实施例的建立用户兴趣模型的方法流程图;
图4是根据本发明一个实施例的用户兴趣模型的示意图;
图5是根据本发明一个实施例的从文本中提取关键词信息的方法流程图;以及
图6是根据本发明一个实施例的对文本和用户兴趣模型进行相似度打分的方法流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
根据本发明的一个实施例,提供一种面向网络用户的个性化文本排序方法。参考图1且概括而言,该方法包括:获得用户行为兴趣,建立用户兴趣模型,提取文本的关键词信息,以及计算文本与用户兴趣模型的相似度,根据该相似度对文本进行排序。下文描述了该方法的各个步骤,需要说明的是,说明书中所描述方法的各个步骤并非一定是必须的,而是可以根据实际情形来省略或替换其中的一个或多个步骤。此外,步骤之间的顺序也可以根据实际情况而变换。
步骤001:获得用户行为兴趣
参考图2,根据本发明的一个实施例,步骤001可以包括以下子步骤:
步骤011,读取用户的兴趣规则,其中,用户的兴趣规则可以是单条规则,也可以是由多条规则组合得到的复杂规则。
本领域技术人员应理解,用户的兴趣规则可以是用户自己提交的,也可以从用户的搜索行为中挖掘得到。结合表1(表1示出了4条规则),该兴趣规则的格式通常描述如下:
a)、一条规则可包含规则ID、规则名称和规则内容三个基本要素。其中,规则ID是规则的唯一区分标识,规则名称是对该条规则的说明,而规则内容是规则的表达式部分(即规则的核心内容)。
b)、规则内容的格式类似于用户搜索时采用的搜索词和布尔表达式的格式(为简单起见,后文中通常将用户兴趣规则中的规则内容简称为用户兴趣规则),通常包含两个部分:关键词和运算符。其中,运算符有三种:“|”表示逻辑或,例如表1中的“(阿里巴巴|阿里)”表示关键词“阿里巴巴”和“阿里”至少出现一个;“&”表示逻辑与,例如表1中的“(清华&夺刀救人)”表示关键词“清华”和“夺刀救人”都要出现;“-”表示逻辑非,例如表1中的“-(煤气爆炸)”代表不出现关键词“煤气爆炸”。另外,沿用搜索习惯,关键词之间的空格也可以用于表示逻辑与“&”,例如“(阿里巴巴收购)”相当于“(阿里巴巴&收购)”。
c)、规则内容可以包括多个子句,每个子句用括号包围,如表1中的“(阿里巴巴|阿里)(收购恒大)”,其中,没有操作符连接的子句之间是“&”关系。
表1
应理解,用户的行为兴趣如果是如表1中的一条规则,则直接读取该规则内容的字符串;如果是多条规则的合并,如{规则1,规则4},则可以采用运算符来“|”连接规则1和规则4的规则内容的字符串:(规则1)|(规则4)。参考表1,具体表示为“((阿里巴巴|阿里)(收购恒大))|((阿里巴巴收购)(恒大俱乐部))”。
本领域技术人员应理解,规则内容的形式不局限于表1中的形式。例如,操作符可以是英文的表达形式。如“and”对应“&”、“or”对应“|”、“not”对应“-”等,其中采用与或非逻辑关系的关键词组合都可以作为规则内容,如“(阿里巴巴and收购and恒大俱乐部)”。
步骤012,对用户的兴趣规则进行预处理。
预处理是指将规则内容处理为完全采用运算符与关键词(有时包含括号)进行表达的形式。如上文所述,由于用户的搜索习惯可以直接移植到本发明中,在规则内容中可能有空格,该空格通常用于表示“&”。则在预处理过程中,将这些空格替换为“&”,以方便后续的处理。例如,将表1的规则1中的“(收购恒大)”处理为“(收购&恒大)”。还有另外一种情况,将没有运算符连接的子句采用“&”运算符进行连接,例如,将表1的规则2“(清华&夺刀救人)(橄榄枝)"处理为“(清华&夺刀救人)&(橄榄枝)"。
步骤002:建立用户兴趣模型
在本步骤中,根据步骤001获得的用户行为兴趣,建立相应的用户的兴趣模型。
下面参考图3,并以用户兴趣规则“((阿里巴巴&收购)&(恒大俱乐部))|((阿里巴巴|阿里)&(收购&恒大))”为例,描述步骤002的各个子步骤:
步骤021,统计用户兴趣规则中每个关键词出现的次数。
对于上述例子,统计后的结果为“(阿里巴巴,2)(恒大俱乐部,1))(收购,2)(阿里,1)(恒大,1)”,即表示“阿里巴巴”在用户的兴趣规则中出现了两次,“恒大俱乐部”出现了1次,等等。
步骤022,根据步骤021中的统计结果计算每个关键词的重要度参数,重要度参数用于体现关键词的重要性,出现次数越多的关键词说明受到用户的重视程度越高。本文中,关键词A的重要度参数可以表示为g(A)。
在一个实施例中,可以将关键词的出现次数除以兴趣规则中所有关键词出现次数的最大值来得到该关键词的重要度参数。在上述例子中,找到出现次数的最大值2,用出现次数除以2来得到每个关键词的重要度参数,计算结果为“(阿里巴巴,1)(恒大俱乐,0.5))(收购,1)(阿里,0.5)(恒大,0.5)”。
步骤023,对于用户的兴趣规则,结合步骤022中得到的重要度参数建立用户兴趣模型。
用户兴趣模型为树状,该建模过程与一般的表达式树的建立过程相同。图4示出了根据兴趣规则“((阿里巴巴&收购)&(恒大俱乐部))|((阿里巴巴|阿里)&(收购&恒大))”建立的兴趣模型。该树中包含两类节点:运算符节点和文本节点。其中,运算符节点记录了运算符的类型,文本节点记录了关键词和关键词对应的重要度参数。例如,文本节点N对应的关键词可以表示为T(N),重要度参数表示为g(T(N))。文本节点只能是叶子节点,根节点和中间节点是运算符节点。
步骤003:提取文本的关键词信息
参见图5,本步骤载入文本流数据,提取每个文本的关键词信息,并且更新该文本流数据,包括以下子步骤:
步骤031,载入文本流数据。
每次的载入数据量没有限制,可以一次载入一个文本数据,也可以载入一批文本数据,从而可见本发明支持处理在线数据。其中每个文本包含标题和正文信息,作为本领域普通技术人员的公知常识,对互联网中采集来的网页进行抽取处理即可以得到每个文本,并且可采用现有技术来实现网页的采集与处理。
步骤032,对文本流数据中的每个文本提取一定数量的关键词并计算其权重,使用具有权重信息的关键词集合来代替文本的正文信息,从而完成文本流数据的更新。
作为本领域的公知常识,关键词可以帮助用户快速和粗略地获取文本的内容,对于文本的进一步处理非常有意义。目前,单文本关键词提取算法主要有四类:基于统计的算法、基于词共现图的算法、基于SWN(Small WorldNetwork)的算法和基于词语网络的算法,这些算法都可以应用在本发明中。本文中,关键词提取算法处理得到的关键词信息中包含归一化后的权重,记关键词A的权重为w(A)。
由于限定关键词的数目能够保证后续计算的效率,因此关键词的数量不宜过多也不宜过少。优选地,一个文本中的关键词数量设置为10-30之间的数值。用于代替文本中正文信息的关键词信息可表示((A,w(A)),(B,w(B))…),其中A、B…为关键词,w(A)、w(B)…为相应的关键词权重。
步骤004:计算文本与用户兴趣模型的相似度,根据相似度对文本进行排序
对于步骤003中得到的更新后的文本流数据,计算其中每个文本与步骤002中建立的用户兴趣模型的相似度。由于用户兴趣模型是树形的,因此根据本发明的一个实施例,可通过后序遍历该树,对每个文本和步骤002中建立的用户兴趣模型进行相似度打分。包括以下子步骤:
步骤041,对步骤002中建立的用户兴趣模型M,后序遍历该模型的表达式树,在遍历的同时对树中的每个节点N,计算相似度分值f(N)。针对文本节点和每种运算符节点,f(N)的具体定义如下:
1)、若节点N是文本节点,节点N的关键词为T(N),则:
f(N)=g(T(N)) (1)
如上文所述,g(T(N))表示关键词T(N)在规则中的重要度参数。
2)、若N是“&”运算符节点,N的孩子节点为N1,…,NK,且其中前m个是文本节点,那么:
其中,p为正整数,优选地p=2。在公式(2)中,w(T(Ni))表示关键词T(Ni)在文本中的权重,若词T(Ni)不是该文本中的关键词,那么w(T(Ni)=0。
3)、若N是“|”运算符节点,该节点的孩子节点为N1,…,NK,且其中前m个是文本节点,那么:
同上,p为正整数,优选地p=2。
4)、若N是“-”运算符节点,那么该节点只有一个孩子节点N1,那么:
f(N)=1-f(N1) (4)
下面举例说明f(N)的含义,其中p=2。
如果兴趣规则为((A,g(A))|(B,g(B))),即兴趣模型中有三个节点:“|”运算符节点、文本节点(A,g(A))和(B,g(B)),则在该示例中,文本中仅有关键词A和B会对相似度计算有意义,因此仅需要考虑文本关键词信息中的有效部分kv=((A,w(A)),(B,w(B)))。根据“或”运算规则,只要文本中出现关键词A或者B中的任意一个即满足规则,因此关键词A和B对相似度都起到提升的作用,作用的大小由权重参数和重要度参数共同决定,则以下公式:
完全符合该逻辑,规则关键词在文本中越重要(权重越高)则相似度越高。
如果兴趣规则为((A,g(A))&(B,g(B))),根据“&”运算规则,文本中同时出现关键词A和B则满足规则。根据布尔逻辑,该规则可转化为“文本中未出现关键词A或者B”的逆(非),“文本中未出现A”可表示为1-w(A),那么相似度计算公式由公式(5)进行推导可得:
步骤042,在遍历后得到根节点Nroot的f(Nroot),将文本d与用户兴趣模型M的初始相似度记作:S0(d,M)=f(Nroot)。
根节点的值是对表达式树和文本计算相似度的结果,该相似度值在0-1之间,数值越高表示越相似,数值为0说明是无关文档。
在一个实施例中,为进一步减少误配的情况,步骤004中(在步骤042之后)还包括以下修正操作:
步骤043,取出文本的标题信息对步骤042中计算出的初始相似度进行修正,从而得到该文本d与兴趣模型M的相似度S(d,M)。包括以下两个子步骤:
A)、扫描文本标题与用户兴趣模型中的每个关键词的最长公共子串。
本领域技术人员应理解,由于文本标题与关键词的长度都比较短,因此普通的字符串遍历就可以实现该步骤。另外,也可以采用诸如动态规划等的其他方法来实现该子步骤。
B)、统计步骤A)中得到的每个关键词的最长公共子串的长度,结合初始相似度,来确定S(d,M),包括以下四种情况:
1、当S0(d,M)<k且所有最长公共子串的长度全部小于n个汉字(包括0)时,S(d,M)=0;优选地,k=0.0001,n=2。
2、当S0(d,M)≥k且所有最长公共子串的长度全部小于n个汉字(包括0)时,S(d,M)=l*S0(d,M),其中0<l<1;优选地,l=0.1,k=0.0001,n=2。
3、当S0(d,M)<k且存在长度大于或等于n个汉字的最长公共子串时(优选地,k=0.0001,n=2),在文本的关键词中查找这些子串。如找到,则将具有该最长公共子串的文本关健词替换为对应的表达式树中的关键词(即对应的用户兴趣模型中的关健词);如果找不到,则直接在文本关健词中添加新的关健词(即对应的表达式树中的关键词),且该关键词的权重取所有文本关键词的权重的中值。然后按照步骤041-042重新计算f(Nroot),将S(d,M)=f(Nroot)。
4、当S0(d,M)≥k,且存在长度大于或等于n个汉字的最长公共子串时,令S(d,M)=S0(d,M);优选地,k=0.0001,n=2。
本发明使用文本的关键词信息来计算文本与用户兴趣模型的相似度,大大降低了相似度计算的复杂度。同时,由于在很多系统应用中关键词提取操作必不可少,因此在这些系统中,本发明只需直接载入已有的关键词信息即可。
在进一步的实施例中,还可以将本发明得到的文本与用户兴趣模型的相似度与现有的排序方法结合。例如,采用基于内容过滤的方法得到相似度,将该相似度与本发明得到的相似度进行结合,得到最终的相似度来进行个性化文本的排序。
在计算得到文本与用户兴趣模型的相似度后,可将计算结果存储到数据库;或者将文本按相似度顺序排列好入库。待用户发出某一兴趣规则请求时,将与该兴趣规则相关的文本按照相似度从大到小的顺序呈现给用户。
应理解,上文示例性地描述了针对一个用户兴趣模型如何得到对应的文本序列。可针对多个用户兴趣模型采用上述方法,得到每个用户兴趣模型对应的文本序列。
根据本发明的一个实施例,还提供一种面向网络用户的个性化文本推荐方法。该方法包括:
根据用户的兴趣规则请求,获得采用上述面向网络用户的个性化文本排序方法得到的与该兴趣规则对应的排序的文本;以及,将该排序的文本推荐给用户。
为验证本发明提供的面向网络用户的个性化文本排序及推荐方法的有效性,发明人进行了如下实验:
首先取一批文本样本集,兴趣规则如表2所示,采用本发明提供的个性化文本排序方法进行文本排序,得到排名前十的文本,如表3所示。
表2
表3
发明人还使用现有技术(即采用双数组trie树来表示用户兴趣模型,且对文本直接采用字符串处理并打分),得到排名前十的文本,参见表4。在表4所示的对比实验文本排名列表中,排名第二的文本“孕妇为夫猎艳杀人案宣判:丈夫被判死刑妻子无期”与实验的兴趣规则是不相关的,但是因为文本中含有“宣判”、“死刑”等词语导致该文本排在前面,而在本发明中该文本的排名降低了。这是因为,在本发明中兴趣规则的表达式树形式包含了关键词之间的“&”关系(即同时出现),而由于“新疆”未出现导致了该文本排名的降低。从本发明的结果(表3中)可以看出,排在前列的文本都是与兴趣规则非常相关的,因此采用本发明的方法得到的关于该条兴趣规则对文本的排序结果是符合实际的,具有较高的应用价值。
表4
应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
以上所述仅为本发明示意性的具体实施方式,并非用以限定本发明的范围。任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合,均应属于本发明保护的范围。
Claims (11)
1.一种面向网络用户的个性化文本排序方法,对于用户的每条包括具有关键词和运算符的表达式的兴趣规则,所述方法包括以下步骤:
步骤1)、对于多个文本中的每个文本提取关键词和该关键词在该文本中的权重;
步骤2)、对于所述多个文本中的每个文本,计算该文本与该兴趣规则对应的表达式树的相似度;其中,表达式树是根据该兴趣规则中包括的表达式建立的,表达式树中的节点分为运算符节点和文本节点,文本节点包括关键词和该关键词在该兴趣规则中的权重;
步骤3)、根据与所述表达式树的相似度大小,对所述多个文本中的每个文本进行排序。
2.根据权利要求1所述的方法,其中,步骤2)包括:
对于所述多个文本中的每个文本,后序遍历与该兴趣规则对应的表达式树,在遍历时根据如下方式计算每个节点的相似度分值:
如果该节点N是文本节点,则其相似度分值计算如下:
f(N)=g(T(N))
其中,T(N)表示节点N中的关键词,g(T(N))表示关键词T(N)在该兴趣规则中的权重;
如果该节点N是“&”运算符节点,则其相似度分值计算如下:
其中,N1,...,NK表示节点N的子节点并且前m个是文本节点,p为正整数,T(Ni)表示节点Ni中的关键词,w(T(Ni))表示关键词T(Ni)在该文本中的权重,其中如果T(Ni)不是该文本中的关键词,则w(T(Ni)=0;
如果该节点N是“|”运算符节点,则其相似度分值计算如下:
其中,N1,...,NK表示节点N的子节点且前m个是文本节点,并且其中前m个是文本节点;
如果该节点N是“-”运算符节点,则其相似度分值计算如下:
f(N)=1-f(N1)
其中,N1为节点N的子节点;
在得到根节点的相似度分值后,将该根节点的相似度分值作为该文本与所述表达式树的相似度。
3.根据权利要求2所述的方法,其中,p=2。
4.根据权利要求1-3中任何一个所述的方法,其中,将关键词在兴趣规则中出现的次数除以该兴趣规则中所有关键词出现次数的最大值,来得到该关键词在该兴趣规则中的权重。
5.根据权利要求1-3中任何一个所述的方法,其中,在步骤2)中还包括:在得到该文本与所述表达式树的相似度后修正该相似度。
6.根据权利要求5所述的方法,其中,修正该文本与所述表达式树的相似度包括:
步骤a)、得到该文本的标题与所述表达式树中的每个关键词的最长公共子串以及该最长公共子串的长度;
步骤b)、根据如下方式修正相似度:
如果相似度小于k并且所有最长公共子串的长度都小于n个汉字,则令该相似度为0,其中k为小于1的正数且n为正整数;
如果相似度大于或等于k并且所有最长公共子串的长度都小于n个汉字,则将相似度乘以小于1的正数l;
如果相似度小于k并且存在长度大于或等于n个汉字的最长公共子串,则在该文本的关键词中查找该最长公共子串;如果找到,则将具有该最长公共子串的该文本的关健词替换为对应的所述表达式树中的关键词;如果未找,则在该文本的关健词中添加对应的所述表达式树中的关键词,并且该关键词在该文本中的权重为该文本的关键词的权重的中值;重新后序遍历所述表达式树,用根节点的相似度分值作为该文本与所述表达式树的相似度;
如果相似度大于或等于k并且存在长度大于或等于n个汉字的最长公共子串,则不修改相似度。
7.根据权利要求6所述的方法,其中,k=0.0001,n=2,l=0.1。
8.根据权利要求1-3中任何一个所述的方法,其中,在步骤2)之前还包括:
根据该兴趣规则中包括的表达式建立对应的表达式树的步骤。
9.根据权利要求1-3中任何一个所述的方法,步骤1)中,在根据兴趣规则建立对应的表达式树之前还要将该兴趣规则中的空格替换为逻辑与运算符,以及将没有运算符连接的子句采用逻辑与运算符进行连接。
10.根据权利要求1-3中任何一个所述的方法,在步骤1)中,对于每个文本所提取的关键词个数为10-30中的一个整数。
11.一种面向网络用户的个性化文本推荐方法,包括:
步骤A)、根据用户的兴趣规则请求,获得采用如权利要求1-10中任何一个所述的排序方法得到的与该兴趣规则对应的排序的文本;
步骤B)、将该排序的文本推荐给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410514028.7A CN104298732B (zh) | 2014-09-29 | 2014-09-29 | 一种面向网络用户的个性化文本排序及推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410514028.7A CN104298732B (zh) | 2014-09-29 | 2014-09-29 | 一种面向网络用户的个性化文本排序及推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104298732A true CN104298732A (zh) | 2015-01-21 |
CN104298732B CN104298732B (zh) | 2018-01-09 |
Family
ID=52318457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410514028.7A Active CN104298732B (zh) | 2014-09-29 | 2014-09-29 | 一种面向网络用户的个性化文本排序及推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104298732B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3166323A1 (en) * | 2015-11-06 | 2017-05-10 | TV Control Ltd | Method, system and computer program product for providing a description of a program to a user equipment |
CN107273359A (zh) * | 2017-06-20 | 2017-10-20 | 北京四海心通科技有限公司 | 一种文本相似度确定方法 |
CN107832312A (zh) * | 2017-01-03 | 2018-03-23 | 北京工业大学 | 一种基于深度语义辨析的文本推荐方法 |
CN108846062A (zh) * | 2018-06-04 | 2018-11-20 | 上海市疾病预防控制中心 | 基于用户个性化需求的推送方法 |
CN110147433A (zh) * | 2019-05-21 | 2019-08-20 | 北京鸿联九五信息产业有限公司 | 一种基于字典树的文本模板提取方法 |
CN111061983A (zh) * | 2019-12-17 | 2020-04-24 | 上海冠勇信息科技有限公司 | 一种侵权数据抓取优先级的评估方法及其网络监控系统 |
WO2020258481A1 (zh) * | 2019-06-28 | 2020-12-30 | 平安科技(深圳)有限公司 | 个性化文本智能推荐方法、装置及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004802A (zh) * | 2010-12-30 | 2011-04-06 | 北京大学 | Xml关键词检索的摘要生成方法 |
CN103177120A (zh) * | 2013-04-12 | 2013-06-26 | 同方知网(北京)技术有限公司 | 一种基于索引的XPath查询模式树匹配方法 |
CN103473283A (zh) * | 2013-08-29 | 2013-12-25 | 中国测绘科学研究院 | 一种文本案例匹配方法 |
US20140149425A1 (en) * | 2012-11-23 | 2014-05-29 | Mobitv, Inc. | View count weighted content recommendation |
-
2014
- 2014-09-29 CN CN201410514028.7A patent/CN104298732B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004802A (zh) * | 2010-12-30 | 2011-04-06 | 北京大学 | Xml关键词检索的摘要生成方法 |
US20140149425A1 (en) * | 2012-11-23 | 2014-05-29 | Mobitv, Inc. | View count weighted content recommendation |
CN103177120A (zh) * | 2013-04-12 | 2013-06-26 | 同方知网(北京)技术有限公司 | 一种基于索引的XPath查询模式树匹配方法 |
CN103473283A (zh) * | 2013-08-29 | 2013-12-25 | 中国测绘科学研究院 | 一种文本案例匹配方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3166323A1 (en) * | 2015-11-06 | 2017-05-10 | TV Control Ltd | Method, system and computer program product for providing a description of a program to a user equipment |
US10659825B2 (en) | 2015-11-06 | 2020-05-19 | Alex Chelmis | Method, system and computer program product for providing a description of a program to a user equipment |
CN107832312A (zh) * | 2017-01-03 | 2018-03-23 | 北京工业大学 | 一种基于深度语义辨析的文本推荐方法 |
CN107832312B (zh) * | 2017-01-03 | 2023-10-10 | 北京工业大学 | 一种基于深度语义辨析的文本推荐方法 |
CN107273359A (zh) * | 2017-06-20 | 2017-10-20 | 北京四海心通科技有限公司 | 一种文本相似度确定方法 |
CN108846062A (zh) * | 2018-06-04 | 2018-11-20 | 上海市疾病预防控制中心 | 基于用户个性化需求的推送方法 |
CN108846062B (zh) * | 2018-06-04 | 2019-08-13 | 上海市疾病预防控制中心 | 基于用户个性化需求的推送方法 |
CN110147433A (zh) * | 2019-05-21 | 2019-08-20 | 北京鸿联九五信息产业有限公司 | 一种基于字典树的文本模板提取方法 |
CN110147433B (zh) * | 2019-05-21 | 2021-01-29 | 北京鸿联九五信息产业有限公司 | 一种基于字典树的文本模板提取方法 |
WO2020258481A1 (zh) * | 2019-06-28 | 2020-12-30 | 平安科技(深圳)有限公司 | 个性化文本智能推荐方法、装置及计算机可读存储介质 |
CN111061983A (zh) * | 2019-12-17 | 2020-04-24 | 上海冠勇信息科技有限公司 | 一种侵权数据抓取优先级的评估方法及其网络监控系统 |
CN111061983B (zh) * | 2019-12-17 | 2024-01-09 | 上海冠勇信息科技有限公司 | 一种侵权数据抓取优先级的评估方法及其网络监控系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104298732B (zh) | 2018-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104298732A (zh) | 一种面向网络用户的个性化文本排序及推荐方法 | |
US8010539B2 (en) | Phrase based snippet generation | |
Furlan et al. | Semantic similarity of short texts in languages with a deficient natural language processing support | |
CN105426360A (zh) | 一种关键词抽取方法及装置 | |
CN104731923A (zh) | 互联网商品评论挖掘本体词库的构建方法 | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
US20150331953A1 (en) | Method and device for providing search engine label | |
Evert | A Lightweight and Efficient Tool for Cleaning Web Pages. | |
CN104346382B (zh) | 使用语言查询的文本分析系统和方法 | |
CN112749272A (zh) | 面向非结构化数据的新能源规划性文本智能推荐方法 | |
Selamat et al. | Word-length algorithm for language identification of under-resourced languages | |
Shi et al. | Mining chinese reviews | |
US11436278B2 (en) | Database creation apparatus and search system | |
Ashna et al. | Lexicon based sentiment analysis system for malayalam language | |
Claster et al. | Unsupervised artificial neural nets for modeling movie sentiment | |
Mehta et al. | Sentiment analysis on product reviews using Hadoop | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
Dianati et al. | Words stemming based on structural and semantic similarity | |
Tohalino et al. | Extractive multi-document summarization using dynamical measurements of complex networks | |
CN115129850A (zh) | 基于学术异质网络表示学习的参考文献引荐方法及设备 | |
Fan et al. | Opinion Summarizationof CustomerComments | |
CN110096618B (zh) | 一种基于分维度情感分析的电影推荐方法 | |
Kannan et al. | Text document clustering using statistical integrated graph based sentence sensitivity ranking algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |