CN108153752B - 一种确定文本关键词的方法及装置 - Google Patents

一种确定文本关键词的方法及装置 Download PDF

Info

Publication number
CN108153752B
CN108153752B CN201611100002.3A CN201611100002A CN108153752B CN 108153752 B CN108153752 B CN 108153752B CN 201611100002 A CN201611100002 A CN 201611100002A CN 108153752 B CN108153752 B CN 108153752B
Authority
CN
China
Prior art keywords
user
text
determining
keywords
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611100002.3A
Other languages
English (en)
Other versions
CN108153752A (zh
Inventor
杜晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201611100002.3A priority Critical patent/CN108153752B/zh
Publication of CN108153752A publication Critical patent/CN108153752A/zh
Application granted granted Critical
Publication of CN108153752B publication Critical patent/CN108153752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种确定文本关键词的方法及装置,其中所述方法还包括:确定待处理的文本;根据所述文本的标识信息确定浏览所述文本的用户的标识信息;根据所述用户的标识信息确定所述用户的标签,所述用户的标签是基于所述用户之前阅读的文本的关键词和/或用户行为进行统计得到的;将所述用户的标签确定为所述文本的关键词。

Description

一种确定文本关键词的方法及装置
技术领域
本发明涉及互联网技术,尤其涉及一种确定文本关键词的方法及装置。
背景技术
新闻是一种以记叙为主的文体,有如同记叙文一样的基本要素,但由于各种部分的内容要求不同,故其各个部分的概述要点不尽相同。新闻必须具备时间、地点、人物、事件、原因(包括经过、结果)等五个要素。新闻的关键词(标签)对用户了解新闻概要是非常有帮助的,而且还能在一定程度上反映该新闻的类别,例如反腐、民生、金融、经济、房产、汽车、养生、教育等等。
一般来说,新闻关键词的要求是准确、清晰、恰当、贴切。如图1所示,相关技术中确定新闻数据库中新闻关键词的方式一般包括两种,第一种是通过人工方式11确定关键词,第二种是抽取文章词汇的方式12,即抽取文章出现较多的词汇作为关键词。其中人工方式一般采用下面的方法来实现:
1)核心话题法。抓住语段核心话题词语,记叙类语段抓叙述的对象(人、事),议论类语段抓取中心论点或中心话题,而说明类语段可以抓取说明对象。
2)关键语句法。筛选出语段中的关键句,如针对核心话题的核心陈述句、或总起或总结的概括性中心句,抓住这类关键句就易于筛选出关键词。
3)结构层次法。任何语段都表现为一定的思路层次,如并列式语段关键词通常出现在多层次中,递进式语段关键词通常出现在最后层次中,折式语段关键词通常出现在转折句中,总分语段关键词通常出现在总说句中。
4)语段中反复出现的词语往往是关键词语。
而抽取文章词汇的方式是采用上述人工方式的第4)种方式。由此可见,现有技术的缺点在于:第一种,人工方式对于数百万篇新闻的数据量来说显得效率比较低下;第二种,抽取文章词汇的方式常常无法发现隐含信息,比如新闻标题是“纪检委打掉XX省打老虎”,传统的词汇抽取的方式无法识别出“反腐”,“国内时政”等隐含关键词,而且确定的关键词不准确且比较单一,无法从多个维度来描述新闻。
发明内容
有鉴于此,本发明实施例为解决现有技术中存在的至少一个问题而提供一种确定文本关键词的方法及装置,通过用户阅读过的优质新闻的关键词来补充长尾新闻的关键词,从而解决了识别新闻关键词不准确的问题。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供一种确定文本关键词的方法,所述方法包括:
确定待处理的文本;
根据所述文本的标识信息确定浏览所述文本的用户的标识信息;
根据所述用户的标识信息确定所述用户的标签,所述用户的标签是基于所述用户之前阅读的文本的关键词和/或用户行为进行统计得到的;
将所述用户的标签确定为所述文本的关键词。
第二方面,本发明实施例提供一种确定文本关键词的装置,所述装置包括第一确定单元、第二确定单元、第三确定单元和第四确定单元,其中:
所述第一确定单元,用于确定待处理的文本;
所述第二确定单元,用于根据所述文本的标识信息确定浏览所述文本的用户的标识信息;
所述第三确定单元,用于根据所述用户的标识信息确定所述用户的标签,所述用户的标签是基于所述用户之前阅读的文本的关键词和/或用户行为进行统计得到的;
所述第四确定单元,用于将所述用户的标签确定为所述文本的关键词。
本发明实施例提供一种确定文本关键词的方法及装置,其中,确定待处理的文本;根据所述文本的标识信息确定浏览所述文本的用户的标识信息;根据所述用户的标识信息确定所述用户的标签,所述用户的标签是基于所述用户之前阅读的文本的关键词和/或用户行为进行统计得到的;将所述用户的标签确定为所述文本的关键词;如此,通过用户阅读过的优质新闻的关键词来补充长尾新闻的关键词,从而解决了识别新闻关键词不准确的问题。
附图说明
图1为相关技术中确定新闻数据库中新闻关键词的方式的示意图;
图2为本发明实施例确定文本关键词的方法的实现流程示意图;
图3-1为本发明实施例确定文本关键词的方法的实现流程示意图;
图3-2为本发明实施例确定文本关键词的方法的实现流程示意图;
图3-3为本发明实施例确定文本关键词的关联示意图;
图4-1为本发明实施例确定文本关键词的装置的组成结构示意图;
图4-2为本发明实施例确定文本关键词的装置的组成结构示意图;
图5为本发明实施例计算装置的组成结构示意图。
具体实施方式
为了更好的理解本发明实施例的技术方案,先介绍一个本发明实施例所涉及的技术术语:
用户上传内容(UGC,User Generated Content)指用户自己上传的内容。
长尾理论,是研究消费者的个性化需求和处理冷门商品的理论。该理论是由美国《连线》杂志主编克里斯安德森在2004年提出的,该理论的含义是只要商品的储存和流通的渠道足够大,需求不旺或销售不佳的商品所共同占据的市场份额可以和那些少数热销商品所占据的市场份额相匹敌甚至更大,即众多小市场汇聚成可产生于主流相匹敌的市场能量。即奇特的销售量不在于传统需求曲线上那个代表冷门商品经常为人遗忘的长尾。
长尾新闻,是由长尾理论引申出来的一个概念,长尾新闻是指非优质非精选的新闻,但是由于数量多仍然能带来很大一部分流量。
在个性化推荐新闻算法中,计算一篇新闻是否值得推荐以及被推荐的理由,通常是通过关键词来进行的。对于优质精选新闻,编辑会人工打上关键词,然而对于大量非优质长尾新闻或者UGC新闻,是缺少人工关键词的,使用传统的分词技术只能识别文章中出现过的词汇作为关键词,无法理解文章隐含的一些信息。因此,这些新闻被推荐的概率就比较小。
为了解决这一问题,本发明实施例提供的技术方案能够作为对现有技术的补充,使用算法打关键词解决了人工效率低下的问题,通过用户阅读过的优质新闻的关键词来补充长尾新闻的关键词,从而解决了无法识别新闻隐含信息的问题。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
为了解决背景技术中存在的技术问题,本发明实施例提供一种确定文本关键词的方法,应用于服务器,该方法所实现的功能可以通过服务器中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该计算设备至少包括处理器和存储介质。
图2为本发明实施例确定文本关键词的方法的实现流程示意图,如图2所示,该方法包括:
步骤S101,确定待处理的文本;
这里,所述服务器在具体实施例的过程中可以为各种类型的具有信息处理能力的计算设备,例如所述计算设备可以包括平板电脑、台式机、集群服务器等。
这里,所述待处理的文本可以具有关键词也可以不具有关键词,一般来说,当待处理的文本不具有关键词时,可以通过本实施例提供的方法最终得到该文本的关键词;当待处理的文本具有关键词是,通过本是实力提供的方法得到的关键词可以作为该文本关键词的补充或校正。
这里,所述文本可以为新闻、帖子、文章、产品说明(例如应用程序的简介)等,在实现的过程中只要需要用到关键词或标签标明的都可以作为本实施例中的文本。
步骤S102,根据所述文本的标识信息确定浏览所述文本的用户的标识信息;
这里,文本的标识信息在实现的过程中可以采用文本的编码、文本的名称等来实现,用户的标识信息可以采用用户的编码、账户名称、昵称等来实现,其中账户名称可以采用身份证号码、护照号码、邮箱、手机号码等来实现。
这里,在实现的过程中,用户在自己的终端如手机上浏览或阅读该文本,当用户浏览完成前或完成后,终端主动上报用户的标识信息,用于表明该用户已经浏览过该文本。一般来说,用户在终端上通过客户端查看文本,在查看文本的过程中需要向服务器发送查看请求,该查看请求中携带有用户的标识信息,服务器收到查看请求后,确定用户已经浏览过该文本。
步骤S103,根据所述用户的标识信息确定所述用户的标签,所述用户的标签是基于所述用户之前阅读的文本的关键词和/或用户行为进行统计得到的;
这里,用户之前阅读的文本一般都是优质文本,即优质文本本身具有关键词,而且关键词的可信度(准确性)比较高。
这里,所述用户的标签一般包括隐含关键词,该用户的标签是通过用户兴趣模型来确定的,用户兴趣模型基于具有隐含关键词的文本而统计出的,且用户兴趣模型中包括大于预设第四阈值(次数或百分比)的关键词。
这里,继续承接前述的例子,服务器根据用户的标识信息确定用户的用户兴趣模型,用户兴趣模型采用关键词来描述,以此确定用户的标签;如此,服务器能够根据用户的标识信息确定用户的标签。用户兴趣模型可以采用基于所述用户之前阅读的文本或用户行为来确定,例如用户之前阅读的文本对应有关键词,那么文本的关键词可以作为用户兴趣模型的关键词;另外,用户行为可以是用户兴趣的体现(例如用户偏好信息),那么可以根据用户行为确定用户的标签,用户行为例如可以是用户阅读完对某一类文章、帖子的点赞行为;用户行为还可以是用户的下载行为或购买行为,例如用户对某一类或几类应用(APP)的下载,通过统计用户下载的应用的类别信息,然后根据应用的类别信息确定用户的标签,例如用户喜欢下载游戏类的APP,那么下载的应用的类别信息即为游戏,那么游戏可以作为用户的标签;再如用户喜欢购买地理书籍或杂志,那么通过购买行为的标签确定用户的标签,即将地理确定为用户的标签。
步骤S104,将所述用户的标签确定为所述文本的关键词。
这里,继续承接前述的例子,服务器根据用户的标识信息确定用户的用户兴趣模型,用户兴趣模型采用关键词来描述,例如一个文本浏览过的用户包括用户A至D,其中用户A喜欢看汽车类和娱乐类文本,那么用户兴趣模型的关键词即为汽车、娱乐;用户B喜欢看政治类和娱乐类文本,那么用户兴趣模型的关键词即为政治、娱乐;用户C喜欢看汽车类、经济类和政治类文本,那么用户兴趣模型的关键词即为政治、经济和汽车;用户D喜欢看养生类和娱乐类文本,那么用户兴趣模型的关键词即为养生、娱乐。根据四个用户的标识信息A至D可以分别确定四个用户对应关键词分别为:汽车、娱乐,政治、娱乐,政治、经济和汽车和养生、娱乐;其中汽车这一关键词出现过2次,娱乐这一关键词出现过3次,政治这一关键词出现过2次,经济和养生各出现过1次,然后就根据汽车、娱乐、政治、经济和养生来确定该文本的关键词。
基于前述的实施例,所述根据所述文本的标识信息确定浏览所述文本的用户的标识信息,包括:根据所述文本的标识信息确定第一用户集合,所述第一用户集合为浏览所述文本的用户的标识信息;
对应地,根据所述文本的标识信息确定浏览所述文本的用户的标识信息,包括:根据所述第一用户集合中用户的标识信息确定第一关键词集合,所述第一关键词集合为所述第一用户集合中每一用户的标签;
对应地,将所述用户的标签确定为所述文本的关键词,包括:将所述第一关键词集合中出现次数大于等于预设的第一阈值的标签确定为所述文本的关键词。
本实施例中,继续承接前述的例子,用户在终端上通过客户端查看文本,在查看文本的过程中需要向服务器发送查看请求,该查看请求中携带有用户的标识信息,服务器收到查看请求后,确定用户已经浏览过该文本;然后服务器根据用户的标识信息确定用户的用户兴趣模型,用户兴趣模型采用关键词来描述,例如一个文本浏览过的用户包括用户A至D,其中用户A喜欢看汽车类和娱乐类文本,那么用户兴趣模型的关键词即为汽车、娱乐;用户B喜欢看政治类和娱乐类文本,那么用户兴趣模型的关键词即为政治、娱乐;用户C喜欢看汽车类、经济类和政治类文本,那么用户兴趣模型的关键词即为政治、经济和汽车;用户D喜欢看养生类和娱乐类文本,那么用户兴趣模型的关键词即为养生、娱乐。根据四个用户的标识信息A至D可以分别确定四个用户对应关键词分别为:汽车、娱乐,政治、娱乐,政治、经济和汽车和养生、娱乐;其中汽车这一关键词出现过2次,娱乐这一关键词出现过3次,政治这一关键词出现过2次,经济和养生各出现过1次,如果第一阈值设置有3次,那么该文本对应的关键词即为娱乐。需要说明的是,如果一个文本被几个人浏览过,例如被四个人浏览过,那么用户的标签会比较分散,关键词出现的次数之间的差异也不大,那么不能完全凸显出该文本到底是被哪一类用户所喜欢,例如关键词娱乐出现了3次,但是政治和汽车出现了2次,娱乐对应的3次和政治对应的2次出现的次数之间的差异并不大。但是当浏览这一文本的用户量达到几百人或几千人甚至几万人时,那么统计出现的次数或比例会差异比较大。那么更能体现出该文本对应的关键词。
基于前述的理解,本实施例提供的方法中,所述步骤S101,所述确定待处理的文本,包括:判断第一文本的浏览量是否达到预设的第三阈值,如果所述第一文本的浏览量达到预设的第三阈值,将第一文本确定为待处理的文本;如果所述第二文本的浏览量未达到预设的第三阈值,将第二文本不确定为待处理的文本。本例中,浏览量达到第三阈值的文本确定为待处理的文本,浏览量未达到第三阈值的文本不确定为待处理的文本。
本实施例中,还可以修改用户的标签,例如以前标记为政治、经济关键词的用户开始阅读娱乐类文本了,那么就对该用户的关键词进行标记,例如用户一共阅读过5千的文本,其中2千的政治,2千的经济,1千的娱乐,第5001次是娱乐的娱乐类,那么娱乐类的阅读次数为1001次,当娱乐类的阅读次数达到一定阈值(第四阈值)的,那么娱乐关键词可以确定为用户的新关键词。基于此,所述方法还包括:
步骤S201,确定第二用户集合,所述第二用户集合包括所述第一关键词集合中出现次数大于预设的第一阈值的标签对应的用户的标识信息;
步骤S202,根据第一用户集合和第二用户集合确定第三用户集合,所述第三用户集合为所述第一关键词集合中出现次数小于预设的第一阈值的标签对应的用户的标识信息;
步骤S203,将所述文本的关键词确定为所述第三用户集合对应的关键词。
本发明实施例中的所述待处理的文本可以具有关键词也可以不具有关键词,一般来说,当待处理的文本不具有关键词时,可以通过本实施例提供的方法最终得到该文本的关键词;当待处理的文本具有关键词是,通过本是实力提供的方法得到的关键词可以作为该文本关键词的补充或校正。
基于此,所述方法还包括:
步骤S211,判断所述文本是否对应有关键词集合;
步骤S212,如果所述文本未对应有关键词集合,将确定出的所述文本的关键词添加至所述关键词集合中。
步骤S213,如果所述文本对应有关键词集合,判断所述关键词集合中是否包括确定出的所述文本的关键词;
步骤S214,如果所述关键词集合中未包括确定出的所述文本的关键词,将确定出的所述文本的关键词添加至所述关键词集合中。
在本发明的其他实施例中,步骤S103,所述根据所述用户的标识信息确定所述用户的标签,包括:
步骤S131,根据所述用户的标识信息获取第一文本集合,所述第一文本集合包括用户所浏览过的文本;
步骤S132,确定所述第一文本集合对应的关键词;
这里,所述确定所述第一文本集合对应的关键词,包括:对所述第一文本集合中的文本进行分析,得到所述第一文本集合对应的关键词。在实现的过程中,可以采用人工方式和/或抽取文章词汇的方式来实现。
步骤S133,将所述第一文本集合对应的关键词中大于等于预设第二阈值的关键词确定所述用户的标签。
这里,所述确定所述第一文本集合对应的关键词,包括:将所述第一文本集合中具有关键词的文本确定为第二文本集合;对应地,所述将所述第一文本集合对应的关键词中大于等于预设第二阈值的关键词确定所述用户的标签确定所述第二文本集合对应的关键词,包括:将所述第二文本集合对应的关键词中大于等于预设第二阈值的关键词确定所述用户的标签。
本实施例提出了一种基于用户兴趣模型的确定文本关键词的方法,图3-1为本发明实施例确定文本关键词的方法的实现流程示意图,如图3-1所示,该方法包括:
步骤S301,为用户提供优质新闻;
这里,本步骤的优质新闻具有准确的关键词,一般来说,用户可以从网页或新闻类应用(APP,Application)上浏览新闻。
步骤S302,使用用户行为来计算用户兴趣模型;
这里,用户在新闻上的点击浏览分享等行为都能体现用户对某一类新闻的兴趣喜好,使用已有的优质新闻的关键词来表达用户这种兴趣,形成用户兴趣模型的基础数据。
步骤S303,根据用户兴趣模型确定长尾新闻的关键词;
这里,对于缺少标签和关键词的新闻例如长尾新闻,统计已阅读过该新闻的用户的兴趣,当某一类用户兴趣的积累达到一个阈值,这一类兴趣的关键词便可以补充到该新闻的关键词中。
从以上可以看出,本发明实施例提供的技术方案形成了“优质新闻关键词→用户兴趣模型→长尾新闻关键词”这样一个良性循环。需要说明的是,上面虽然是以新闻为例进行说明的,但是同样可以应用到文章(例如科技类、娱乐类、政治类、经济类等)、帖子等其他的文本中。另外,由于本实施例提供的技术方案属于基础算法改进,可以应用在客户端(新闻、文章)文本推荐中。
图3-2为本发明实施例确定文本关键词的方法的实现流程示意图,如图3-2所示,该算法通过新闻数据库31、关键词库32、用户兴趣模型33等来实现,其中关键词库32的左侧是新闻数据库31,从新闻数据库31到关键词库32可以采用传统技术来实现,例如可以采用人工方式34和/或抽取文章高频词汇的方式35来形成关键词库32。
形成关键词库32后,结合用户点击行为36(即用户点击阅读新闻的行为)来定义用户兴趣模型33,然后把用户兴趣模型33里的关键词再赋予给用户点击过的新闻,在某种程度上类似将采用协同过滤算法将关键词再赋予给用户点击过的新闻。
从以上可以看出,优质新闻的人工编辑关键词可以通过用户行为关联传递给长尾新闻。比如用户1点击过文章1和文章2,用户1的兴趣模型中就会包含文章1的关键词(标签tag1),然后用户1的兴趣模型会赋值给他点击过的文章,tag1便会赋予给文章2。如图3-3所示,如果阅读过文章2的用户大量都带有tag1的兴趣,积累的分值达到一定阈值后,tag1便可以作为文章2的关键词,从而达到补充关键词的目的,如下图所示:
本发明实施例提供的技术方案具有以下有益效果:第一是补充了文章的关键词,使缺失描述信息的新闻增加了一些特征;第二是发掘了新闻的隐含信息。最终的目的都是使整套算法能够更好的理解新闻内容,从而服务于推荐搜索等应用。
需要说明的是,本发明实施例提供的技术方案还可以通过关键词的相似性来达到同样目的。如果大量用户兴趣模型中同时包含A和B两个词,就可以认为A和B是同义词,比如“iphone”和“苹果手机”,然后使用同义词填充文章标签和关键词。
另外,本实施例中的关键字设置的一般包括以下原则:1)尽量用名词或名词+动词(名词与动词)的组合;2)尽量使用人名、事件名一般明星相关的可以直接用该明星的名字或明星名字+事件的格式作为关键词;重大事件类,如某地地震,可单独使用“地震”作为关键词;非重大事件或某个时间段、地域或领域的事件,如某地公交车爆炸,则不能只写公交车,而应尽量写全“某地公交车爆炸”;3)资源类的关键词可考虑使用作者名;4)避免使用过于宽泛的关键词,如中国、国内、体育、篮球、电影、小说、NBA、比赛、会议、手机、十大、大学等;5)避免设置形容词作为关键词;6)严禁使用低俗、情色、暴力、血腥等带有不良倾向的词语:如卖淫、嫖客、小姐、女优、性感、写真、偷拍、走光、一夜情、虐待、暴打、捅死、杀人等,情色暴力类的社会新闻可不设置关键词。
基于前述的实施例,本发明实施例再提供一种确定文本关键词的装置,该装置所包括的各单元以及各单元所包括的各模块,都可以通过计算设备中的处理器来实现,当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。
图4-1为本发明实施例确定文本关键词的装置的组成结构示意图,如图4-1所示,该装置400包括第一确定单元401、第二确定单元402、第三确定单元403和第四确定单元404,其中:
所述第一确定单元401,用于确定待处理的文本;
所述第二确定单元402,用于根据所述文本的标识信息确定浏览所述文本的用户的标识信息;
所述第三确定单元403,用于根据所述用户的标识信息确定所述用户的标签;所述用户的标签是基于所述用户之前阅读的文本的关键词和/或用户行为进行统计得到的。
所述第四确定单元404,用于将所述用户的标签确定为所述文本的关键词。
在本发明的其他实施例中,所述第二确定单元402,用于根据所述文本的标识信息确定第一用户集合,所述第一用户集合为浏览所述文本的用户的标识信息;
所述第三确定单元403,用于根据所述第一用户集合中用户的标识信息确定第一关键词集合,所述第一关键词集合为所述第一用户集合中每一用户的标签;
所述第四确定单元404,用于将所述第一关键词集合中出现次数大于等于预设的第一阈值的标签确定为所述文本的关键词。
在本发明的其他实施例中,如图4-2所示,所述装置400还包括第五确定单元405、第六确定单元406和第七确定单元407,其中:
所述第五确定单元405,用于确定第二用户集合,所述第二用户集合包括所述第一关键词集合中出现次数大于预设的第一阈值的标签对应的用户的标识信息;
所述第六确定单元406,用于根据第一用户集合和第二用户集合确定第三用户集合,所述第三用户集合为所述第一关键词集合中出现次数小于预设的第一阈值的标签对应的用户的标识信息;
所述第七确定单元407,用于将所述文本的关键词确定为所述第三用户集合对应的关键词。
在本发明的其他实施例中,所述装置还包括第一判断单元、第一添加单元、第二判断单元和第二添加单元,其中,其中
所述第一判断单元,用于判断所述文本是否对应有关键词集合;
所述第一添加单元,用于如果所述文本未对应有关键词集合,将确定出的所述文本的关键词添加至所述关键词集合中。
所述第二判断单元,用于如果所述文本对应有关键词集合,判断所述关键词集合中是否包括确定出的所述文本的关键词;
所述第二添加单元,用于如果所述关键词集合中未包括确定出的所述文本的关键词,将确定出的所述文本的关键词添加至所述关键词集合中。
在本发明的其他实施例中,所述第三确定单元包括获取模块、第一确定模块和第二确定模块,其中:
所述获取模块,用于根据所述用户的标识信息获取第一文本集合,所述第一文本集合包括用户所浏览过的文本;
所述第一确定模块,用于确定所述第一文本集合对应的关键词;
这里,所述确定所述第一文本集合对应的关键词,包括:对所述第一文本集合中的文本进行分析,得到所述第一文本集合对应的关键词。
所述第二确定模块,用于将所述第一文本集合对应的关键词中大于等于预设第二阈值的关键词确定所述用户的标签。
在本发明的其他实施例中,所述第一确定模块,用于将所述第一文本集合中具有关键词的文本确定为第二文本集合;对应地,所述第二确定模块,用于将所述第二文本集合对应的关键词中大于等于预设第二阈值的关键词确定所述用户的标签。
这里需要指出的是:以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
需要说明的是,本发明实施例中,如果以软件功能模块的形式实现上述的确定文本关键词的方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
相应地,本发明实施例再提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,该计算机可执行指令用于执行本发明实施例中确定文本关键词的方法。
基于前述的实施例,本发明实施例再提供一种计算设备,包括:存储介质和处理器,其中存储介质配置为存储可执行指令,处理器配置为执行存储的可执行指令,所述可执行指令用于执行上述的确定文本关键词的方法。
这里需要指出的是:以上计算设备或存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明计算设备或存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
在实现的过程中,服务器和终端都可以通过计算设备来实现,图5为本发明实施例计算设备的组成结构示意图,如图5所示,该计算设备500可以包括:至少一个处理器501、至少一个通信总线502、用户接口503、至少一个外部通信接口504和存储器505。其中,通信总线502用于实现这些组件之间的连接通信。其中,用户接口503可以包括显示屏和键盘。外部通信接口504可选的可以包括标准的有线接口和无线接口。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种确定文本关键词的方法,其特征在于,所述方法包括:
确定待处理的文本;
根据所述文本的标识信息确定第一用户集合,所述第一用户集合为浏览所述文本的用户的标识信息;
根据所述用户的标识信息确定所述用户的标签,所述用户的标签是基于所述用户之前阅读的文本的关键词和/或用户行为进行统计得到的;
根据所述第一用户集合中用户的标识信息确定第一关键词集合,所述第一关键词集合为所述第一用户集合中每一用户的标签;
将所述用户的标签确定为所述文本的关键词;
确定第二用户集合,所述第二用户集合包括所述第一关键词集合中出现次数大于预设的第一阈值的标签对应的用户的标识信息;
根据所述第一用户集合和所述第二用户集合确定第三用户集合,所述第三用户集合包括所述第一关键词集合中出现次数小于预设的第一阈值的标签对应的用户的标识信息;
将所述文本的关键词确定为所述第三用户集合对应的关键词。
2.根据权利要求1所述的方法,其特征在于,所述将所述用户的标签确定为所述文本的关键词,包括:
将所述第一关键词集合中出现次数大于等于预设的第一阈值的标签确定为所述文本的关键词。
3.根据权利要求1至2任一项所述的方法,其特征在于,所述方法还包括:
判断所述文本是否对应有关键词集合;
如果所述文本未对应有关键词集合,将确定出的所述文本的关键词添加至所述关键词集合中。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
如果所述文本对应有关键词集合,判断所述关键词集合中是否包括确定出的所述文本的关键词;
如果所述关键词集合中未包括确定出的所述文本的关键词,将确定出的所述文本的关键词添加至所述关键词集合中。
5.根据权利要求1至2任一项所述的方法,其特征在于,所述根据所述用户的标识信息确定所述用户的标签,包括:
根据所述用户的标识信息获取第一文本集合,所述第一文本集合包括用户所浏览过的文本;
确定所述第一文本集合对应的关键词;
将所述第一文本集合对应的关键词中大于等于预设第二阈值的关键词确定所述用户的标签。
6.根据权利要求5所述的方法,其特征在于,所述确定所述第一文本集合对应的关键词,包括:
将所述第一文本集合中具有关键词的文本确定为第二文本集合;
对应地,所述将所述第一文本集合对应的关键词中大于等于预设第二阈值的关键词确定所述用户的标签,包括:
将所述第二文本集合对应的关键词中大于等于预设第二阈值的关键词确定所述用户的标签。
7.一种确定文本关键词的装置,其特征在于,所述装置包括第一确定单元、第二确定单元、第三确定单元、第四确定单元、第五确定单元、第六确定单元和第七确定单元,其中:
所述第一确定单元,用于确定待处理的文本;
所述第二确定单元,用于根据所述文本的标识信息确定第一用户集合,所述第一用户集合为浏览所述文本的用户的标识信息;
所述第三确定单元,用于根据所述用户的标识信息确定所述用户的标签,所述用户的标签是基于所述用户之前阅读的文本的关键词和/或用户行为进行统计得到的;根据所述第一用户集合中用户的标识信息确定第一关键词集合,所述第一关键词集合为所述第一用户集合中每一用户的标签;
所述第四确定单元,用于将所述用户的标签确定为所述文本的关键词;
所述第五确定单元,用于确定第二用户集合,所述第二用户集合包括所述第一关键词集合中出现次数大于预设的第一阈值的标签对应的用户的标识信息;
所述第六确定单元,用于根据第一用户集合和第二用户集合确定第三用户集合,所述第三用户集合包括所述第一关键词集合中出现次数小于预设的第一阈值的标签对应的用户的标识信息;
所述第七确定单元,用于将所述文本的关键词确定为所述第三用户集合对应的关键词。
8.根据权利要求7所述的装置,其特征在于,
所述第四确定单元,用于将所述第一关键词集合中出现次数大于等于预设的第一阈值的标签确定为所述文本的关键词。
9.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至6任一项所述的确定文本关键词的方法。
10.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至6任一项所述的确定文本关键词的方法。
CN201611100002.3A 2016-12-02 2016-12-02 一种确定文本关键词的方法及装置 Active CN108153752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611100002.3A CN108153752B (zh) 2016-12-02 2016-12-02 一种确定文本关键词的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611100002.3A CN108153752B (zh) 2016-12-02 2016-12-02 一种确定文本关键词的方法及装置

Publications (2)

Publication Number Publication Date
CN108153752A CN108153752A (zh) 2018-06-12
CN108153752B true CN108153752B (zh) 2022-02-11

Family

ID=62470462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611100002.3A Active CN108153752B (zh) 2016-12-02 2016-12-02 一种确定文本关键词的方法及装置

Country Status (1)

Country Link
CN (1) CN108153752B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460545B (zh) * 2018-10-26 2023-05-30 上海连尚网络科技有限公司 一种基于文本内容的用户匹配方法及其终端、服务器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105373531A (zh) * 2015-12-09 2016-03-02 微梦创科网络科技(中国)有限公司 一种基于社交网络的短话题文本识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218355B (zh) * 2012-01-18 2016-08-31 腾讯科技(深圳)有限公司 一种为用户生成标签的方法和装置
CN105653547B (zh) * 2014-11-12 2020-08-07 北大方正集团有限公司 一种提取文本关键词的方法和装置
US10521464B2 (en) * 2015-12-10 2019-12-31 Agile Data Decisions, Llc Method and system for extracting, verifying and cataloging technical information from unstructured documents

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105373531A (zh) * 2015-12-09 2016-03-02 微梦创科网络科技(中国)有限公司 一种基于社交网络的短话题文本识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multilabel Text Classication for Automated Tag Suggestion;I Katakis等;《In: Proceedings of the ECML/PKDD-08 Workshop on Discovery Challenge》;20081230;第2页第2章到第7页第5章 *

Also Published As

Publication number Publication date
CN108153752A (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN110325986B (zh) 文章处理方法、装置、服务器及存储介质
CN107291780B (zh) 一种用户评论信息展示方法和装置
US11176142B2 (en) Method of data query based on evaluation and device
US8725717B2 (en) System and method for identifying topics for short text communications
US8521818B2 (en) Methods and apparatus for recognizing and acting upon user intentions expressed in on-line conversations and similar environments
EP2800015A1 (en) Content distribution
US20130159277A1 (en) Target based indexing of micro-blog content
CN106970991B (zh) 相似应用的识别方法、装置和应用搜索推荐方法、服务器
WO2018069449A1 (en) Machine learning-based data aggregation using social media content
CN106682170B (zh) 一种应用搜索方法和装置
US20140108143A1 (en) Social content distribution network
CN110334356B (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
EP2745210A1 (en) System and method for managing opinion networks with interactive opinion flows
US9720978B1 (en) Fingerprint-based literary works recommendation system
US8880390B2 (en) Linking newsworthy events to published content
US20150379610A1 (en) Recommendation information presentation device, recommendation information presentation method, and recommendation information presentation program
US20160171111A1 (en) Method and system to detect use cases in documents for providing structured text objects
KR102322668B1 (ko) 콘텐츠 크리에이터의 창작활동 활성화를 위한 다중 플랫폼 서비스 제공 시스템
Burgers et al. How satirical news impacts affective responses, learning, and persuasion: A three-level random-effects meta-analysis
CN113688310A (zh) 一种内容推荐方法、装置、设备及存储介质
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
Verhoeven et al. Gender profiling for Slovene Twitter communication: The influence of gender marking, content and style
Ying et al. Understanding memes on Chinese social media: Biaoqing
CN108153752B (zh) 一种确定文本关键词的方法及装置
KR101652433B1 (ko) Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant