CN101373486B - 一种基于用户兴趣模型的个性化摘要系统 - Google Patents
一种基于用户兴趣模型的个性化摘要系统 Download PDFInfo
- Publication number
- CN101373486B CN101373486B CN2008102242851A CN200810224285A CN101373486B CN 101373486 B CN101373486 B CN 101373486B CN 2008102242851 A CN2008102242851 A CN 2008102242851A CN 200810224285 A CN200810224285 A CN 200810224285A CN 101373486 B CN101373486 B CN 101373486B
- Authority
- CN
- China
- Prior art keywords
- sentence
- user interest
- personalized
- unit
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于用户兴趣模型的个性化摘要系统,该个性化摘要系统由Web信息检索单元、用户兴趣单元和个性化摘要单元组成。该个性化摘要系统通过分析用户检索日志,利用概念聚类方法建立和/或更新以层次概念结构描述的用户兴趣模型;然后依据该用户兴趣模型与检索结果进行用户兴趣与检索结果中句子相似度的解析,从而得到满足用户的个性化摘要。采用的个性化句子评分处理得到的个性化摘要充分考虑了用户的兴趣特点,使摘要的生成过程根据用户的兴趣进行匹配,可以提高摘要的有效性以及用户的满意度。
Description
技术领域
本发明涉及Internet中的信息检索方法,更特别地说,是指一种通过分析用户检索日志,利用概念聚类方法建立和/或更新以层次概念结构描述的用户兴趣模型的个性化摘要系统。
背景技术
搜索引擎是目前人们在使用互联网资源时的重要工具,用户根据自己的检索意图提交查询,然后得到大量的检索结果。用户不可能阅读每个结果的所有内容,因此检索结果往往以摘要的形式给出以供用户选择自己感兴趣的内容。
传统方式的摘要采用偏重摘要(query-biased summary)的形式。偏重摘要是根据用户的查询需求而生成的存在侧重点的摘要。由于偏重摘要通常仅根据查询条件生成,而查询条件往往不能准确表达用户的查询意图;另一方面,偏重摘要内容不考虑用户的兴趣差异,只要查询内容相同,摘要内容就相同,难以满足不同用户的需求。因此在Web信息检索系统中用偏重摘要表达文档内容的方式亟待改善。
发明内容
本发明的目的是提供一种基于用户兴趣模型的个性化摘要系统,该系统通过分析用户检索日志,利用概念聚类方法建立和/或更新以层次概念结构描述的用户兴趣模型;然后依据该用户兴趣模型与检索结果进行用户兴趣与检索结果中句子相似度的解析,从而得到满足用户的个性化摘要。该系统的个性化摘要在偏重摘要的基础上,充分考虑了用户的兴趣特点。
本发明是一种基于用户兴趣模型的个性化摘要系统,该个性化摘要系统由Web信息检索单元、用户兴趣单元和个性化摘要单元组成;
所述Web信息检索单元根据查询请求负责完成对Web页面的索引和检索任务,并将检索结果WR输出给个性化摘要单元、检索日志WLOG输出给用户兴趣单元;
所述用户兴趣单元根据Web信息检索单元提供的检索日志WLOG,利用概念聚类法建立以层次概念结构描述的用户兴趣模型IC,所述用户兴趣模型IC为用户在通过Web信息检索单元进行检索时,所访问的Web页面对象的并集;表达形式为IC={p1,p2,p3,……,pM};
所述个性化摘要单元(A)根据用户兴趣单元提供的用户兴趣模型IC与Web信息检索单元输出的检索结果WR进行用户兴趣与检索结果中句子相似度的解析,获得相似度I(s)=max(I(c1,s),I(c2,s),……,I(cn,s))输出给个性化句子评分处理;
(B)利用检索结果WR计算出句子中的查询关键词的逆文本频率IDF,然后依据逆文本频率IDF计算每一个句子s的分值Sidf(s),并将分值Sidf(s)输出给个性化句子评分处理;
在此步骤中,分值中IDFt表示出现在句子s中的查询关键词t的倒排词频,tq表示查询q中的关键词组成的集合。Sidf(s)反映了句子包含查询关键词的多少,能表达与查询之间的紧密关系。
(C)利用检索结果WR计算出每一个句子s中的信息量Sic(s),并将信息量Sic(s)输出给个性化句子评分处理;
在此步骤中,信息量中Weightt表示TF*IDF算法计算得到的关键词t的权重,ts表示句子s中的关键词组成的集合,f表示一个句子长度调节系数;Sic(s)反映了句子所包含信息的多少,更贴近句子的主题,在生成摘要的过程中作为Sidf(s)的辅助因素。
所述的基于用户兴趣模型的个性化摘要系统,其用户兴趣模型中的每个概念c用一组关键词及其权重的二元组表示为c={(t1,W1),(t2,W2)……,(tm,Wm)},t表示关键词,W表示关键词的权重,m表示概念c所包含的关键词个数。
附图说明
图1是Internet中的信息检索的结构简图。
图2是本发明个性化摘要的流程框图。
图3是本发明用户兴趣单元中层次概念结构表示的用户兴趣简示图。
图4是应用本发明个性化摘要系统的一个实施例展示图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的详细说明。
参见图1所示,本发明是一种基于用户兴趣模型的个性化摘要系统,该个性化摘要系统由Web信息检索单元、用户兴趣单元和个性化摘要单元组成;
Web信息检索单元根据查询请求负责完成对Web页面的索引和检索任务,并将检索结果WR输出给个性化摘要单元、检索日志WLOG输出给用户兴趣单元。
用户兴趣单元根据Web信息检索单元提供的检索日志WLOG,利用概念聚类法建立以层次概念结构描述的用户兴趣模型IC,所述用户兴趣模型IC为用户在通过Web信息检索单元进行检索时,所访问的Web页面对象的并集;表达形式为IC={p1,p2,p3,……,pM}其中,p表示Web页面对象,M表示Web页面的数量。在本发明中,通过用户的检索日志WLOG、以及概念聚类方法建立和/或更新用户兴趣模型,使得本发明的用户兴趣模型具有层次概念结构描述的用户兴趣模型。
参见图2所示,个性化摘要单元进行下列分步骤的处理为:
(A)根据用户兴趣单元提供的用户兴趣模型IC与Web信息检索单元输出的检索结果WR进行用户兴趣与检索结果中句子相似度的解析,获得相似度I(s)输出给个性化句子评分处理;
相似度I(s)=max(I(c1,s),I(c2,s),……,I(cn,s))中,c表示概念,s表示一个句子,n表示用户兴趣的概念个数。
(B)利用检索结果WR计算出句子中的查询关键词的逆文本频率IDF,然后依据逆文本频率IDF计算每一个句子s的分值Sidf(s),并将分值Sidf(s)输出给个性化句子评分处理;
(C)利用检索结果WR计算出每一个句子s中的信息量Sic(s),并将信息量Sic(s)输出给个性化句子评分处理;
在此步骤中,信息量中Weightt表示TF*IDF算法计算得到的关键词t的权重,ts表示句子s中的关键词组成的集合,f表示一个句子长度调节系数;Sic(s)反映了句子所包含信息的多少,更贴近句子的主题,在生成摘要的过程中作为Sidf(s)的辅助因素。
在本发明中,用户兴趣单元根据用户的浏览内容,为每个用户建立了用层次概念描述的兴趣模型。通过计算每个句子与用户兴趣之间的相似程度,可以有效地确定用户对于句子的兴趣。用户兴趣模型中的每个概念c用一组关键词t及其权重W的二元组表示,即c={(t1,W1),(t2,W2)……,(tm,Wm)},t表示关键词,W表示关键词的权重,m表示概念c所包含的关键词个数。
用上述方法计算每个句子的最终评分,根据分值Sidf(s)对每一个句子s的重要性排序,取前K个句子组成提供给用户的个性化摘要。
在本发明中,采用的个性化句子评分处理得到的个性化摘要充分考虑了用户的兴趣特点,使摘要的生成过程根据用户的兴趣进行匹配,可以提高摘要的有效性以及用户的满意度。
参见图3所示,本发明中使用层次概念的结构表示用户兴趣,层次概念的建立采用概念聚类法来实现。
在本发明中,用户兴趣模型IC中将概念集合记作C={c1,c2,……cn},模型中的每个概念用一组关键词及其权重的二元组描述,即ci={(t1,w1),(t2,w2),……(tm,wm)}。如图3中的概念“政治”可以表示为{(政治,0.9),(访问,0.8),(政府,0.6)}。图3中的“政治”,“体育”,“程序开发”等称为概念的标签。在用户运行具有个性化摘要单元的本发明中,可以根据用户的兴趣不同,得到不同的概念聚类。
使用层次概念结构表示用户兴趣之后,本发明为每个用户建立用XML格式描述的用户档案文件。例如,图3中的实例相应的用户档案文件结构为:
<InterestModel>
<User UserID=”yongli.buaa”>
<Concept Level=’0’>
<Concept Level=’1’>
<TermWeight Term=”政治”Weight=’0.9’>
<TermWeight Term=”访问”Weight=’0.8’>
<TermWeight Term=”政府”Weight=’0.6’>
<Cluster ID=’0’/>
</Concept>
<Concept Level=’1’>
<TermWeight Term=”体育”Weight=’0.8’>
<TermWeight Term=”奥运”Weight=’0.6’>
<Cluster ID=’1’/>
</Concept>
<Concept Level=’1’>
<TermWeight Term=”程序”Weight=’1.0’>
<TermWeight Term=”需求”Weight=’0.8’>
<TermWeight Term=”测试”Weight=’0.6’>
<Concept Level=’2’>
<TermWeight Term=”VC”Weight=’1.0’>
<TermWeight Term=”微软”Weight=’0.8’>
<Cluster ID=’3’/>
</Concept>
<Concept Level=’2’>
<TermWeight Term=”JAVA”Weight=’1.0’>
<TermWeight Term=”SUN”Weight=’0.8’>
<Cluster ID=’4’/>
</Concept>
</Concept>
</Concept>
</User>
</InterestModel>
实施例
假设有三个用户分别是养殖、厨艺和营养专家,由于各自的兴趣不同,使得三个用户在网络上关注的消息不同,很容易从用户的浏览内容上得到反映,因此可以根据用户浏览过的web文档建立用户兴趣模型。三个用户的用户模型参见图4A、图4B、图4C所示,图中,当养殖、厨艺和营养专家分别在具有个性化摘要单元的检索系统中输入“牛肉”进行查询的时候,虽然三个个用户同时检索到了下面一篇有关“牛肉”的文章,但是由于用户之间的兴趣模型不同,因此呈现给用户的摘要内容是不同的。
根据养殖、厨艺和营养专家三个用户的检索日志,应用本方法分别对养殖、厨艺和营养专家建立了如图4A、图4B、图4C所示的用户兴趣模型。其中,养殖专家的兴趣模型包含有概念“娱乐”、“养殖”、“养牛”、“牛肉”、“草料”和“奶牛”等;厨艺专家的兴趣模型包含有概念“汽车”、“厨房”、“牛肉”、“烧烤”、“美味”和“佐料”等;营养专家的兴趣模型包含有概念“旅游”、“营养学”、“牛肉”、“蛋白质”、“健康”和“鸡蛋”等;这些概念的权重及层次关系如图4A、图4B、图4C所示。
当养殖、厨艺和营养专家三个用户分别提交查询“牛肉”时,都搜索到了同一篇文章,此文章即为初始查询结果。然后,本方法会分别根据养殖、厨艺和营养专家三个用户的兴趣模型,对该文章(初始查询结果)中的句子进行句子评分计算。对于养殖专家来说,其用户模型包含有“养殖”、“牛肉”和“草料”这些与该文章中的关键词相关的概念,因此在计算句子评分时,包含有这些概念的句子分值就更高。同样,对于厨艺专家来说,其用户模型包含有“厨房”、“牛肉”、“烧烤”和“美味”这些与该文章中的关键词相关的概念,因此在计算句子评分时,包含有这些概念的句子分值就更高。对于营养专家来说,其用户模型包含有“牛肉”、“蛋白质”和“健康”这些与该文章中的关键词相关的概念,因此在计算句子评分时,包含有这些概念的句子分值就更高。在此基础上,选取得分最高的前2~5个句子,就得到了如下表中所示的个性化摘要结果。
文章原内容 | 紧跟市场需要调整日粮配方。各大城市要求的牛肉数量和等级不同,如北京的肥牛火锅片、上海的烤牛排用料、广州的牛肉煲原料,都要求上等牛肉,养殖专家普遍认为牛肉肉质的大理石花纹的是好牛肉。因此日粮中精料比例 |
可从40%提高到75%,甚至更高。育肥期如从90天延长到140天,还要求科技饲养。牛肉营养丰富,味道鲜美,许多人都爱吃,可是很多人却总是做不好牛肉菜肴,往往是又硬又韧难吃至极。因此,许多家庭煮妇都不愿意做牛肉菜肴,害怕炒出的牛肉菜会硬、韧难吃。其实你不必害怕,只要你掌握了烹饪牛肉的技巧,就能够炒出味鲜嫩滑的牛肉菜来,不信你试试。 | |
养殖专家看到的摘要内容 | 紧跟市场需要调整日粮配方。各大城市要求的牛肉数量和等级不同,如北京的肥牛火锅片、上海的烤牛排用料、广州的牛肉煲原料,都要求上等牛肉,养殖专家普遍认为牛肉肉质的大理石花纹的是好牛肉。 |
厨艺专家看到的摘要内容 | 其实你不必害怕,只要你掌握了烹饪牛肉的技巧,就能够炒出味鲜嫩滑的牛肉菜来,不信你试试。 |
营养专家看到的摘要内容 | 牛肉营养丰富,味道鲜美。 |
Claims (5)
1.一种基于用户兴趣模型的个性化摘要系统,该个性化摘要系统由Web信息检索单元、用户兴趣单元和个性化摘要单元组成;其特征在于:
所述Web信息检索单元根据查询请求负责完成对Web页面的索引和检索任务,并将检索结果WR输出给个性化摘要单元、将检索日志WLOG输出给用户兴趣单元;
所述用户兴趣单元根据Web信息检索单元提供的检索日志WLOG,利用概念聚类法建立以层次概念结构描述的用户兴趣模型IC,所述用户兴趣模型IC为用户在通过Web信息检索单元进行检索时,所访问的Web页面对象的并集;表达形式为IC={p1,p2,p3,......,pM},其中,p表示Web页面对象,M表示Web页面的数量;
所述个性化摘要单元(A)根据用户兴趣单元提供的用户兴趣模型IC与Web信息检索单元输出的检索结果WR进行用户兴趣与检索结果中句子相似度的解析,获得相似度I(s),I(s)=max(I(c1,s),I(c2,s),……,I(cn,s))输出给个性化句子评分处理;
I(s)=max(I(c1,s),I(c2,s),……,I(cn,s))中,c表示概念,s表示一个句子,n表示用户兴趣的概念个数;
(B)利用检索结果WR计算出句子中的查询关键词的逆文本频率IDF,然后依据逆文本频率IDF计算每一个句子s的分值Sidf(s),并将分值Sidf(s)输出给个性化句子评分处理;
(C)利用检索结果WR计算出每一个句子s中的信息量Sic(s),并将信息量Sic(s)输出给个性化句子评分处理;
2.根据权利要求1所述的基于用户兴趣模型的个性化摘要系统,其特征在于:用户兴趣模型中的每个概念c用一组关键词及其权重的二元组表示为c={(t1,W1),(t2,W2)……,(tm,Wm)},t表示关键词,W表示关键词的权重,m表示概念c所包含的关键词个数。
5.根据权利要求1所述的基于用户兴趣模型的个性化摘要系统,其特征在于:排序结果中前K项中K的取值为排序结果中的前2~5句句子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102242851A CN101373486B (zh) | 2008-10-16 | 2008-10-16 | 一种基于用户兴趣模型的个性化摘要系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102242851A CN101373486B (zh) | 2008-10-16 | 2008-10-16 | 一种基于用户兴趣模型的个性化摘要系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101373486A CN101373486A (zh) | 2009-02-25 |
CN101373486B true CN101373486B (zh) | 2010-06-02 |
Family
ID=40447648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008102242851A Expired - Fee Related CN101373486B (zh) | 2008-10-16 | 2008-10-16 | 一种基于用户兴趣模型的个性化摘要系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101373486B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298587B (zh) * | 2010-06-24 | 2015-12-16 | 深圳市腾讯计算机系统有限公司 | 满意度调查方法及系统 |
CN102456019A (zh) * | 2010-10-18 | 2012-05-16 | 腾讯科技(深圳)有限公司 | 检索方法及装置 |
CN102479196B (zh) * | 2010-11-23 | 2014-09-10 | 夏普株式会社 | 摘要生成装置和摘要生成方法 |
CN102654879B (zh) * | 2011-03-04 | 2015-01-28 | 中兴通讯股份有限公司 | 搜索方法及装置 |
CN102156728B (zh) * | 2011-03-31 | 2013-08-21 | 河南理工大学 | 一种改进的基于用户兴趣模型的个性化摘要系统 |
CN102163229B (zh) * | 2011-04-13 | 2013-04-17 | 北京百度网讯科技有限公司 | 一种用于生成搜索结果的摘要的方法与设备 |
CN104035955B (zh) * | 2014-03-18 | 2018-07-10 | 北京百度网讯科技有限公司 | 搜索方法和装置 |
CN104199836B (zh) * | 2014-08-04 | 2017-07-14 | 浙江工商大学 | 一种基于子兴趣划分的标注用户模型建构方法 |
CN104376058B (zh) * | 2014-11-07 | 2018-04-27 | 华为技术有限公司 | 用户兴趣模型更新方法及相关装置 |
CN104636487A (zh) * | 2015-02-26 | 2015-05-20 | 湖北光谷天下传媒股份有限公司 | 一种广告信息管理方法 |
CN110929137B (zh) * | 2018-08-31 | 2023-06-16 | 深圳市雅阅科技有限公司 | 文章推荐方法、装置、设备及存储介质 |
CN109271594B (zh) * | 2018-11-21 | 2021-03-05 | 掌阅科技股份有限公司 | 电子书的推荐方法、电子设备及计算机存储介质 |
CN110287413A (zh) * | 2019-06-19 | 2019-09-27 | 掌阅科技股份有限公司 | 电子书描述信息的显示方法及电子设备 |
US11328732B2 (en) | 2020-09-16 | 2022-05-10 | International Business Machines Corporation | Generating summary text compositions |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1341899A (zh) * | 2000-09-07 | 2002-03-27 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
CN1967533A (zh) * | 2006-07-17 | 2007-05-23 | 北京航空航天大学 | 采用元推荐引擎的门户个性化推荐服务方法和系统 |
-
2008
- 2008-10-16 CN CN2008102242851A patent/CN101373486B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1341899A (zh) * | 2000-09-07 | 2002-03-27 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
CN1967533A (zh) * | 2006-07-17 | 2007-05-23 | 北京航空航天大学 | 采用元推荐引擎的门户个性化推荐服务方法和系统 |
Non-Patent Citations (2)
Title |
---|
闫英杰,林鸿飞,杨志豪,赵晶.关键词密度分布法在偏重摘要中的应用研究.计算机工程33 16.2007,33(16),156-158. |
闫英杰,林鸿飞,杨志豪,赵晶.关键词密度分布法在偏重摘要中的应用研究.计算机工程33 16.2007,33(16),156-158. * |
Also Published As
Publication number | Publication date |
---|---|
CN101373486A (zh) | 2009-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101373486B (zh) | 一种基于用户兴趣模型的个性化摘要系统 | |
CN106250673A (zh) | 一种饮食推荐及评价方法、智能终端、云服务器及系统 | |
Bilgic et al. | Demand for meat and dairy products by Turkish households: A Bayesian censored system approach | |
Fuller et al. | China's accession to the World Trade Organization: what is at stake for agricultural markets? | |
Gnemmi et al. | Use of ultrasounds while assessing the quality of beef cattle. | |
Buyarov et al. | Comparative evaluation of dairy productivity of cows different lines in the conditions of the Orel region. | |
An et al. | Growth curve fitting analysis of main beef cattle breeds in China. | |
Han et al. | Development of Danish dairy industry and status quo of cooperation with china. | |
Xu et al. | Comparison of functional responses between exotic species Lepisosteus oculatus and native species Channa maculata. | |
Zhang et al. | Optimization of process parameters of prepared meat products and study on quality changes during low-temperature storage. | |
Nong et al. | Study on comparison of quality of inulin-added beef balls based on fuzzy mathematics sensory evaluation. | |
Carballo et al. | Quantitative characteristics of the unusable cow carcasses in Galicia. | |
Augustsson | Production and consumption of animal products in 1987/88. | |
Karolyi et al. | Composition of carcass cuts in young Simmental bulls and heifers. | |
Kamoun | Dromedary meat: production, qualitative aspects and capacity for conversion. | |
Miščević et al. | Evaluation of the genetic parameters of fattening traits of young cattle of different genotypes. | |
Pape | The cheese market. Goat cheeses put up a fight. | |
Jeżewska-Zychowicz | The factors influencing temporary nutrition behaviours in women's opinions. | |
Schneijdenberg et al. | Beef quality and palatability of cows and young bulls. | |
Abou-Taleb et al. | Effect of polysaccharides on the cooking quality and sensory characteristics of carp fish pattie. | |
Greenwood | The Statistical Aspects of the Problem of National Nutrition. | |
Gnyp et al. | Genetic parameters of life dairy traits in cows of black and white breed in Central-Eastern Poland. | |
Ekman | Fat in the Swedish diet. | |
Borys et al. | Promotion of sheep meat. Part II. How it's done in the lowlands. | |
Młynek et al. | Slaughter value and meat quality traits of bulls fed semi-intensively and slaughtered at different ranges of weight. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100602 Termination date: 20101016 |