CN105653533B - 一种更新分类关联词集合的方法和装置 - Google Patents
一种更新分类关联词集合的方法和装置 Download PDFInfo
- Publication number
- CN105653533B CN105653533B CN201410640244.6A CN201410640244A CN105653533B CN 105653533 B CN105653533 B CN 105653533B CN 201410640244 A CN201410640244 A CN 201410640244A CN 105653533 B CN105653533 B CN 105653533B
- Authority
- CN
- China
- Prior art keywords
- word
- classification associated
- classification
- words
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明公开了一种更新分类关联词集合的方法和装置,属于互联网技术领域。所述方法包括获取网络发布信息;在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合;在所述网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语;将所述词语加入与所述词语的关联度满足所述预设关联度条件的分类关联词所属的分类关联词集合中。采用本发明,可以提高更新分类关联词集合的及时性。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种更新分类关联词集合的方法和装置。
背景技术
随着互联网技术的发展,互联网在人们生活中的应用越来越广泛,功能也越来越全面。服务提供商经常会通过互联网向用户发送展示信息,如新闻和广告等。为了可以向用户发送其感兴趣的展示信息,可以对用户进行分类。
服务器可以预先设置若干个用户分类,并对每个用户分类设置分类关联词集合,分类关联词集合中包含一个或多个分类关联词,并且设置分类关联词中的某分类关联词为核心词。例如,预先设置用户分类为阿根廷、巴西、西班牙等,其中,阿根廷的关联词为阿根廷、潘帕斯雄鹰、马拉多纳和蓝白球衣,核心词为阿根廷。另外,还可以确定两个词语之间的关联度,关联度可以通过对大量的文本进行检索后,根据两个词语在文本中同时出现的频率以及这两个词语在文本中间隔的字符数来确定,例如,上述核心词和其他分类关联词的关联度依次为0.9,0.6和0.4,核心词与自身的关联度则为1。服务提供商可以获取用户在网络中发布的网络发布信息,如用户发布的微博或评论等,然后根据网络发布信息和各分类关联词集合对用户进行分类。技术人员可以根据外界的新闻、评论等,了解到新出现的与某用户分类相关的词语,然后将该词语加入到该用户分类中,以实现分类关联词集合的更新。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
上述更新分类关联词集合的方法中,技术人员获取新闻、评论等的过程可能会存在一定的滞后性,这样会导致更新分类关联词集合的及时性较差。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种更新分类关联词集合的方法和装置。所述技术方案如下:
第一方面,提供了一种更新分类关联词集合的方法,所述方法包括:
获取网络发布信息;
在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合;
在所述网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语;
将所述词语加入与所述词语的关联度满足所述预设关联度条件的分类关联词所属的分类关联词集合中。
第二方面,提供了一种更新分类关联词集合的装置,所述装置包括:
获取模块,用于获取网络发布信息;
查找模块,用于在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合;
选取模块,用于在所述网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语;
添加模块,用于将所述词语加入与所述词语的关联度满足所述预设关联度条件的分类关联词所属的分类关联词集合中。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例中,获取网络发布信息,在网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合,在网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语,将该词语加入与该词语的关联度满足预设关联度条件的分类关联词所属的分类关联词集合中,这样,分类关联词集合中的分类关联词可以根据网络发布信息来自动更新,新出现的与某用户分类相关的词语在通过网络发布信息发布出来时,就可以作为分类关联词添加到分类关联词集合中,从而可以提高更新分类关联词集合的及时性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种更新分类关联词集合的方法流程图;
图2是本发明实施例提供的一种更新分类关联词集合的装置结构示意图;
图3是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种更新分类关联词集合的方法,如图1所示,该方法的处理流程可以包括如下的步骤:
步骤101,获取网络发布信息。
步骤102,在网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合。
步骤103,在网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语。
步骤104,将该词语加入与该词语的关联度满足预设关联度条件的分类关联词所属的分类关联词集合中。
本发明实施例中,获取网络发布信息,在网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合,在网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语,将该词语加入与该词语的关联度满足预设关联度条件的分类关联词所属的分类关联词集合中,这样,分类关联词集合中的分类关联词可以根据网络发布信息来自动更新,新出现的与某用户分类相关的词语在通过网络发布信息发布出来时,就可以作为分类关联词添加到分类关联词集合中,从而可以提高更新分类关联词集合的及时性。
实施例二
本发明实施例提供了一种更新分类关联词集合的方法,该方法的执行主体为分类服务器。其中,分类服务器可以是用于对用户进行分类的服务器。
下面将结合具体实施方式,对图1所示的处理流程进行详细的说明,内容可以如下:
步骤101,获取网络发布信息。
在实施中,用户可以在终端安装服务提供商开发的应用程序,然后通过该应用程序在网络中发布网络发布信息,如微博或评论等,用户输入待发布的网络发布信息后,可以点击发送按钮,终端则会将该网络发布信息发送给相应的业务服务器,业务服务器接收到该网络发布信息后,可以存储该网络发布信息,并对该网络发布信息进行发布处理。业务服务器可以每接收到一个网络发布信息,就将该网络发布信息转发给分类服务器,也可以在接收到分类服务器发送的网络发布信息的获取请求后,将已存储的网络发布信息发送给分类服务器。分类服务器中可以预先设置更新周期,当达到预设的更新周期时,分类服务器可以向业务服务器发送网络发布信息的获取请求,该获取请求中可以携带有时长信息,分类服务器接收到该获取请求后,可以获取其中的时长信息,将该时长内的网络发布信息发送给分类服务器。例如,分类服务器向业务服务器发送网络发布信息的获取请求,获取请求中携带的时长信息为12小时,业务服务器在22:00接收到该获取请求,则可以将从10:00到22:00接收到的所有网络发布信息发送给分类服务器。
步骤102,在网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合。
在实施中,分类服务器中可以预先设置多个用户分类,并且对每个用户分类设置一个分类关联词集合,分类关联词集合中可以包括一个或多个分类关联词。分类服务器获取到网络发布信息后,可以根据各用户分类的分类关联词集合所包含的分类关联词,对该网络发布信息进行查询,确定该网络发布信息中包含的分类关联词,进而可以确定网络发布信息中包含的分类关联词所属的分类关联词集合。例如,在世界杯期间,分类服务器设置用户分类为西班牙、阿根廷和德国等,其中,西班牙的分类关联词集合中的分类关联词为西班牙和比利亚,阿根廷的分类关联词集合中的分类关联词为阿根延、马拉多纳和蓝白色球衣,德国的分类关联词集合中的分类关联词为德国和穆勒,分类服务器获取到内容为“阿根廷的梅西比穆勒表现的更好”的网络发布信息后,可以查询到该网络发布信息中包含的分类关联词为阿根廷和穆勒,进而可以确定阿根廷所属的分类关联词集合和穆勒所属的关联词集合。
可选的,可以在网络发布信息中,查询各用户分类的分类关联词集合中的部分关联词,相应的处理过程可以如下:在网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词中的核心词;或者,在网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词中的核心词以及与核心词的关联度大于第一预设关联度阈值的分类关联词。
其中,关联度是通过对大量的文本进行检索后,根据两个词语在文本中同时出现的频率以及这两个词语在文本中间隔的字符数,确定出的词语之间联系的紧密程度。
在实施中,分类关联词集合中可以包括一个或多个分类关联词,分类关联词中,可设置某分类关联词为核心词,分类服务器获取到网络发布信息后,可以根据各用户分类的分类关联词集合中的核心词,对该网络发布信息进行查询,确定该网络发布信息中包含的核心词。例如,分类服务器设置用户分类为西班牙、阿根廷和德国,其中,西班牙的分类关联词集合中的分类关联词为西班牙和比利亚,西班牙为核心词,阿根廷的分类关联词集合中的分类关联词为阿根延、马拉多纳和蓝白色球衣,阿根廷为核心词,德国的分类关联词集合中的分类关联词为德国和穆勒,德国为核心词,则分类服务器获取到内容为“阿根廷的梅西比穆勒表现的更好”的网络发布信息后,可以查询到该网络发布信息中包含的核心词为阿根廷。
分类服务器可以计算出各分类关联词集合中,核心词语和其他分类关联词的关联度,并确定该类别中,与核心词的关联度大于关联度阈值(即第一预设关联度阈值)的分类关联词,然后根据确定出的分类关联词,对该网络发布信息进行查询。例如,分类服务器设置用户分类为西班牙、阿根廷和德国等,其中,西班牙的分类关联词为西班牙和比利亚,西班牙为核心词,比利亚与西班牙的关联度为0.7,阿根廷的分类关联词为阿根延、马拉多纳和蓝白色球衣,阿根廷为核心词,马拉多纳与阿根廷的关联度为0.6,蓝白色球衣与阿根廷的关联度为0.4,德国的分类关联词为德国和穆勒,德国为核心词,穆勒与德国的关联度为0.7,关联度阈值为0.5,则分类服务器可以确定与核心词的关联度大于0.5的分类关联词为比利亚、马拉多纳和穆勒,进而可以根据这些分类关联词和核心词,在网络发布信息中进行查询。
步骤103,在网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语。
在实施中,分类服务器确定查找到的分类关联词所属的分类关联词集合后,可以确定这些分类关联词集合中包含的分类关联词,然后可以对获取到的网络发布信息进行分词处理,得到组成该网络发布信息的若干个词,进而可以计算这些词语中,除分类关联词之外的词语,与上述确定出的分类关联词集合中包含的分类关联词的关联度,然后选取与分类关联词的关联度满足预设关联度条件的词语。分类服务器可以选取与分类关联词的关联度最大的词语,或者可以选择与分类关联词的关联度大于预设关联度阈值的词语,或者可以选择与某分类关联词集合中的分类关联词的关联度之和最大的词语。
例如,通过对内容为“阿根廷的梅西比穆勒表现的更好”的网络发布信息进行查找,可以确定阿根廷所属的分类关联词集合和穆勒所属的关联词集合,进而确定这两个分类关联词集合中的分类关联词为阿根延、马拉多纳、蓝白色球衣、德国和穆勒,然后分类服务器可以对“阿根廷的梅西比穆勒表现的更好”进行分词处理,得到“阿根廷”、“的”、“梅西”、“比”、“穆勒”、“表现”、“的”和“更好”。分类服务器可以计算这些词语与上述分类关联词的关联度,如“梅西”与“阿根延”的关联度为0.8,与“马拉多纳”的关联度为0.6,与“蓝白色球衣”的关联度为0.4,与“德国”的关联度为0.1,与“穆勒”的关联度为0.2;“表现”与“阿根延”的关联度为0.3,与“马拉多纳”的关联度为0.1,与“蓝白色球衣”的关联度为0.02,与“德国”的关联度为0.3,与“穆勒”的关联度为0.3。分类服务器可以在计算出的多个关联度中,确定最大的关联度,即0.8,然后选取词语“梅西”。
可选的,可以根据网络发布信息中的部分信息进行词语选取,相应的,步骤103的处理过程可以如下:在网络发布信息中,获取与查找到的分类关联词相邻的预设字符数目的文本信息;在文本信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语。
在实施中,分类服务器确定网络发布信息中包含的分类关联词后,可以确定该分类关联词在网络发布信息中的位置,然后获取与该分类关联词相邻的预设字符数目的文本信息,如预设字符数目为30个字符,则分类服务器可以获取到该分类关联词之前的30个字符和该分类关联词之后的30个字符,然后可以对这60个字符的文本信息进行分词处理,得到组成该文本信息的若干个词,进而可以计算这些词语与该分类关联词所属的分类关联词集合中全部分类关联词的关联度,分类服务器可以确定计算出的最大关联度,然后选取相应的词语。
步骤104,将词语加入与该词语的关联度满足预设关联度条件的分类关联词所属的分类关联词集合中。
在实施中,分类服务器选取词语后,可以确定与该词语的关联度满足预设关联度条件的分类关联词,然后确定这些分类关联词所属的分类关联词集合,进而可以在该分类关联词集合中加入该词语。例如,分类服务器选取词语“梅西”后,可以确定与“梅西”关联度最大的分类关联词为“阿根延”,然后可以确定阿根廷所属的分类关联词集合,进而可以将“梅西”加入该分类关联词集合中。
可选的,可以对选取的词语进行检测,确定是否将该词语加入分类关联词集合中,相应的,步骤104的处理过程可以如下:根据预设时长内发布的网络发布信息,确定包含该词语所属的分类关联词集合中的任意分类关联词的网络发布信息的第一数目,并确定不包含该词语所属的分类关联词集合中其他分类关联词且包含该词语的网络发布信息的第二数目;如果第二数目占第一总数目的百分比小于预设的百分比阈值,则将该词语加入与该词语的关联度满足预设关联度条件的分类关联词所属的分类关联词集合中。
在实施中,分类服务器选取词语后,可以确定该词语所属的分类关联词集合中的分类关联词。分类服务器可以获取预设时长内发布的网络发布信息,如24小时内发布的网络发布信息,然后在获取的网络发布信息中,确定包含上述分类关联词集合中的任意分类关联词的网络发布信息,并可以确定这些网络发布信息的数目(即第一数目),分类服务器还可以在获取的网络发布信息中,确定只包含选取的词语,不包含选取的词语所属的分类关联词集合中其他分类关联词的网络发布信息,并可以确定这些网络发布信息的数目(即第二数目),分类服务器可以计算第二数目占第一数目的百分比,并比较该百分比与预设的百分比阈值的大小,如果该百分比小于预设的百分比阈值,则将该词语加入上述分类关联词集合中,如果该百分比大于预设的百分比阈值,则保持上述分类关联词集合中分类关联词不变。
例如,分类服务器选取的词语为“梅西”,该词语所属的分类关联词集合为用户类别是阿根廷的分类关联词集合,预设的百分比阈值为0.1,则分类服务器可以获取24小时内发布的网络发布信息,确定包含“阿根延”、“马拉多纳”、“蓝白色球衣”、“梅西”这几个分类关联词中,任意一个或多个分类关联词的网络发布信息,并确定这些网络发布信息的数目(即第一数目),如10000,还可以确定只包含“梅西”,不包含“阿根延”、“马拉多纳”和“蓝白色球衣”的网络发布信息,如“最佳球员梅西”,并确定这些网络发布信息的数目(即第一数目),如800,则分类服务器可以得到百分比0.08,该百分比小于0.1,则分类服务器将“梅西”加入用户类别是阿根廷的分类关联词集合中。
又如,分类服务器选取的词语为“冠军”,该词语所属的分类关联词集合为用户类别是阿根廷的分类关联词集合,预设的百分比阈值为0.1,则分类服务器可以获取24小时内发布的网络发布信息,确定包含“阿根延”、“马拉多纳”、“蓝白色球衣”、“冠军”这几个分类关联词中,任意一个或多个分类关联词的网络发布信息,并确定这些网络发布信息的数目(即第一数目),如10000,还可以确定只包含“冠军”,不包含“阿根延”、“马拉多纳”和“蓝白色球衣”的网络发布信息,如“德国队是冠军”、“西班牙是冠军”等,并确定这些网络发布信息的数目(即第一数目),如为2000,则分类服务器可以得到百分比0.2,该百分比大于0.1,说明“冠军”不适合加入阿根廷的分类关联词集合中,则分类服务器保持阿根廷的分类关联词集合中分类关联词不变。
可选的,可以将分类关联词集合中与核心词关联度较低的分类关联词删除,相应的处理过程可以如下:在该词语所属的分类关联词集合中,确定分类关联词中的核心词与其他分类关联词的关联度;在该词语所属的分类关联词集合中,删除与核心词的关联度小于第二预设关联度阈值的分类关联词。
在实施中,每达到预设的更新周期时,分类服务器可以计算各分类关联词集合中,核心词与其他分类关联词的关联度,然后确定与核心词的关联度小于关联度阈值(即第二预设关联度阈值)的分类关联词,将这些关联词从分类关联词集合中删除。
本发明实施例中,获取网络发布信息,在网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合,在网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语,将该词语加入与该词语的关联度满足预设关联度条件的分类关联词所属的分类关联词集合中,这样,分类关联词集合中的分类关联词可以根据网络发布信息来自动更新,新出现的与某用户分类相关的词语在通过网络发布信息发布出来时,就可以作为分类关联词添加到分类关联词集合中,从而可以提高更新分类关联词集合的及时性。
实施例三
基于相同的技术构思,本发明实施例还提供了一种更新分类关联词集合的装置,如图2所示,该装置包括:
获取模块210,用于获取网络发布信息;
查找模块220,用于在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合;
选取模块230,用于在所述网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语;
添加模块240,用于将所述词语加入与所述词语的关联度满足所述预设关联度条件的分类关联词所属的分类关联词集合中。
可选的,所述查找模块220,用于:
在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词中的核心词;或者,
在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词中的核心词以及与所述核心词的关联度大于第一预设关联度阈值的分类关联词。
可选的,所述选取模块230,用于:
在所述网络发布信息中,获取与所述查找到的分类关联词相邻的预设字符数目的文本信息;
在所述文本信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语。
可选的,所述添加模块240,用于:
根据预设时长内发布的网络发布信息,确定包含所述词语所属的分类关联词集合中的任意分类关联词的网络发布信息的第一数目,并确定不包含所述词语所属的分类关联词集合中其他分类关联词且包含所述词语的网络发布信息的第二数目;
如果所述第二数目占所述第一数目的百分比小于预设的百分比阈值,则将所述词语加入与所述词语的关联度满足所述预设关联度条件的分类关联词所属的分类关联词集合中。
可选的,所述装置还包括删除模块,用于:
在所述词语所属的分类关联词集合中,确定分类关联词中的核心词与其他分类关联词的关联度;
在所述词语所属的分类关联词集合中,删除与所述核心词的关联度小于第二预设关联度阈值的分类关联词。
可选的,所述获取模块210,还用于:
当达到预设的更新周期时,获取网络发布信息。
本发明实施例中,获取网络发布信息,在网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合,在网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语,将该词语加入与该词语的关联度满足预设关联度条件的分类关联词所属的分类关联词集合中,这样,分类关联词集合中的分类关联词可以根据网络发布信息来自动更新,新出现的与某用户分类相关的词语在通过网络发布信息发布出来时,就可以作为分类关联词添加到分类关联词集合中,从而可以提高更新分类关联词集合的及时性。
需要说明的是:上述实施例提供的更新分类关联词集合的装置在更新分类关联词集合时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的更新分类关联词集合的装置与更新分类关联词集合的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
实施例四
图3是本发明实施例提供的分类服务器的结构示意图。该分类服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对分类服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在分类服务器1900上执行存储介质1930中的一系列指令操作。
分类服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
分类服务器1900可以包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取网络发布信息;
在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合;
在所述网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语;
将所述词语加入与所述词语的关联度满足所述预设关联度条件的分类关联词所属的分类关联词集合中。
可选的,所述在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,包括:
在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词中的核心词;或者,
在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词中的核心词以及与所述核心词的关联度大于第一预设关联度阈值的分类关联词。
可选的,所述在所述网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语,包括:
在所述网络发布信息中,获取与所述查找到的分类关联词相邻的预设字符数目的文本信息;
在所述文本信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语。
可选的,所述将所述词语加入与所述词语的关联度满足所述预设关联度条件的分类关联词所属的分类关联词集合中,包括:
根据预设时长内发布的网络发布信息,确定包含所述词语所属的分类关联词集合中的任意分类关联词的网络发布信息的第一数目,并确定不包含所述词语所属的分类关联词集合中其他分类关联词且包含所述词语的网络发布信息的第二数目;
如果所述第二数目占所述第一数目的百分比小于预设的百分比阈值,则将所述词语加入与所述词语的关联度满足所述预设关联度条件的分类关联词所属的分类关联词集合中。
可选的,所述方法还包括:
在所述词语所属的分类关联词集合中,确定分类关联词中的核心词与其他分类关联词的关联度;
在所述词语所属的分类关联词集合中,删除与所述核心词的关联度小于第二预设关联度阈值的分类关联词。
可选的,所述获取网络发布信息,包括:
当达到预设的更新周期时,获取网络发布信息。
本发明实施例中,获取网络发布信息,在网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合,在网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语,将该词语加入与该词语的关联度满足预设关联度条件的分类关联词所属的分类关联词集合中,这样,分类关联词集合中的分类关联词可以根据网络发布信息来自动更新,新出现的与某用户分类相关的词语在通过网络发布信息发布出来时,就可以作为分类关联词添加到分类关联词集合中,从而可以提高更新分类关联词集合的及时性。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种更新分类关联词集合的方法,其特征在于,所述方法包括:
获取网络发布信息;
在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合;
在所述网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语;
将所述词语加入与所述词语的关联度满足所述预设关联度条件的分类关联词所属的分类关联词集合中;
其中,所述在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,包括:
在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词中的核心词;或者,
在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词中的核心词以及与所述核心词的关联度大于第一预设关联度阈值的分类关联词。
2.根据权利要求1所述的方法,其特征在于,所述在所述网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语,包括:
在所述网络发布信息中,获取与所述查找到的分类关联词相邻的预设字符数目的文本信息;
在所述文本信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语。
3.根据权利要求1所述的方法,其特征在于,所述将所述词语加入与所述词语的关联度满足所述预设关联度条件的分类关联词所属的分类关联词集合中,包括:
根据预设时长内发布的网络发布信息,确定包含所述词语所属的分类关联词集合中的任意分类关联词的网络发布信息的第一数目,并确定不包含所述词语所属的分类关联词集合中其他分类关联词且包含所述词语的网络发布信息的第二数目;
如果所述第二数目占所述第一数目的百分比小于预设的百分比阈值,则将所述词语加入与所述词语的关联度满足所述预设关联度条件的分类关联词所属的分类关联词集合中。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述词语所属的分类关联词集合中,确定分类关联词中的核心词与其他分类关联词的关联度;
在所述词语所属的分类关联词集合中,删除与所述核心词的关联度小于第二预设关联度阈值的分类关联词。
5.一种更新分类关联词集合的装置,其特征在于,所述装置包括:
获取模块,用于获取网络发布信息;
查找模块,用于在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词,并确定查找到的分类关联词所属的分类关联词集合;
选取模块,用于在所述网络发布信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语;
添加模块,用于将所述词语加入与所述词语的关联度满足所述预设关联度条件的分类关联词所属的分类关联词集合中;
所述查找模块,用于:
在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词中的核心词;或者,
在所述网络发布信息中,查找预先存储的各用户分类的分类关联词集合所包含的分类关联词中的核心词以及与所述核心词的关联度大于第一预设关联度阈值的分类关联词。
6.根据权利要求5所述的装置,其特征在于,所述选取模块,用于:
在所述网络发布信息中,获取与所述查找到的分类关联词相邻的预设字符数目的文本信息;
在所述文本信息中,选取与确定出的分类关联词集合中的分类关联词的关联度满足预设关联度条件的词语。
7.根据权利要求5所述的装置,其特征在于,所述添加模块,用于:
根据预设时长内发布的网络发布信息,确定包含所述词语所属的分类关联词集合中的任意分类关联词的网络发布信息的第一数目,并确定不包含所述词语所属的分类关联词集合中其他分类关联词且包含所述词语的网络发布信息的第二数目;
如果所述第二数目占所述第一数目的百分比小于预设的百分比阈值,则将所述词语加入与所述词语的关联度满足所述预设关联度条件的分类关联词所属的分类关联词集合中。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括删除模块,用于:
在所述词语所属的分类关联词集合中,确定分类关联词中的核心词与其他分类关联词的关联度;
在所述词语所属的分类关联词集合中,删除与所述核心词的关联度小于第二预设关联度阈值的分类关联词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410640244.6A CN105653533B (zh) | 2014-11-13 | 2014-11-13 | 一种更新分类关联词集合的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410640244.6A CN105653533B (zh) | 2014-11-13 | 2014-11-13 | 一种更新分类关联词集合的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105653533A CN105653533A (zh) | 2016-06-08 |
CN105653533B true CN105653533B (zh) | 2019-10-25 |
Family
ID=56479344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410640244.6A Active CN105653533B (zh) | 2014-11-13 | 2014-11-13 | 一种更新分类关联词集合的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105653533B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416019A (zh) * | 2018-03-06 | 2018-08-17 | 王海泉 | 关联词调整方法及调整系统 |
TWI681304B (zh) * | 2018-12-14 | 2020-01-01 | 財團法人工業技術研究院 | 自適應性調整關連搜尋詞的系統及其方法 |
CN113555114A (zh) * | 2020-04-23 | 2021-10-26 | 浙江远图互联科技股份有限公司 | 一种健康管理方案推荐方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1930567A (zh) * | 2005-01-07 | 2007-03-14 | 松下电器产业株式会社 | 联想辞典制作装置 |
CN101079024A (zh) * | 2006-06-19 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种专业词表动态生成系统和方法 |
CN103377258A (zh) * | 2012-04-28 | 2013-10-30 | 索尼公司 | 用于对微博信息进行分类显示的方法和设备 |
CN103593454A (zh) * | 2013-11-21 | 2014-02-19 | 中国科学院深圳先进技术研究院 | 面向微博文本分类的挖掘方法及系统 |
CN104102723A (zh) * | 2014-07-21 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 搜索内容提供方法和搜索引擎 |
-
2014
- 2014-11-13 CN CN201410640244.6A patent/CN105653533B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1930567A (zh) * | 2005-01-07 | 2007-03-14 | 松下电器产业株式会社 | 联想辞典制作装置 |
CN101079024A (zh) * | 2006-06-19 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种专业词表动态生成系统和方法 |
CN103377258A (zh) * | 2012-04-28 | 2013-10-30 | 索尼公司 | 用于对微博信息进行分类显示的方法和设备 |
CN103593454A (zh) * | 2013-11-21 | 2014-02-19 | 中国科学院深圳先进技术研究院 | 面向微博文本分类的挖掘方法及系统 |
CN104102723A (zh) * | 2014-07-21 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 搜索内容提供方法和搜索引擎 |
Also Published As
Publication number | Publication date |
---|---|
CN105653533A (zh) | 2016-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10534824B2 (en) | Blending search results on online social networks | |
CN104182488B (zh) | 搜索方法、服务器及客户端 | |
US8055720B2 (en) | Cluster-based friend suggestion aggregator | |
US11580179B2 (en) | Method and system for service agent assistance of article recommendations to a customer in an app session | |
WO2016074492A1 (zh) | 基于社交平台的数据挖掘方法及装置 | |
US9684695B2 (en) | Ranking test framework for search results on an online social network | |
CN104537000B (zh) | 一种用于推送信息的方法和装置 | |
US10102290B2 (en) | Methods for identifying, ranking, and displaying subject matter experts on social networks | |
CN105279535B (zh) | 一种识别码智能分析处理系统及其处理方法 | |
US9299098B2 (en) | Systems for generating a global product taxonomy | |
CN103916436B (zh) | 信息推送方法、装置、终端及服务器 | |
US20140095308A1 (en) | Advertisement distribution apparatus and advertisement distribution method | |
US10037316B2 (en) | Selective capture of incoming email messages for diagnostic analysis | |
CN104317804B (zh) | 发布投票信息的方法和装置 | |
CN105389325A (zh) | 内容搜索方法和实施内容搜索方法的电子装置 | |
CN105574030B (zh) | 一种信息搜索方法及装置 | |
WO2018205845A1 (zh) | 一种数据处理方法及服务器、计算机存储介质 | |
US9946794B2 (en) | Accessing special purpose search systems | |
CN107885873A (zh) | 用于输出信息的方法和装置 | |
CN110785970A (zh) | 使网页的机器人创建自动化的技术 | |
CN105653533B (zh) | 一种更新分类关联词集合的方法和装置 | |
CN109672721A (zh) | 媒体文件推送方法、装置、服务端及计算机可读存储介质 | |
JP6055912B2 (ja) | 端末装置および装置のプログラム | |
CN105740255B (zh) | 网络搜索方法及装置 | |
CN112667869B (zh) | 数据处理方法、设备、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |