CN105069064A - 词汇的获取方法及装置、推送方法及装置 - Google Patents
词汇的获取方法及装置、推送方法及装置 Download PDFInfo
- Publication number
- CN105069064A CN105069064A CN201510454758.7A CN201510454758A CN105069064A CN 105069064 A CN105069064 A CN 105069064A CN 201510454758 A CN201510454758 A CN 201510454758A CN 105069064 A CN105069064 A CN 105069064A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- user
- personalized
- dictionary
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种词汇的获取方法及装置、推送方法及装置。一方面,本发明实施例通过获取用户的兴趣分布信息;从而,生成个性化词库,所述个性化词库包含基础词汇和新词;进而,根据所述用户的兴趣分布信息和所述个性化词库,获得针对所述用户的个性化词汇。因此,本发明实施例提供的技术方案用以解决输入法词汇无法满足用户的个性化输入需求的问题。
Description
【技术领域】
本发明涉及互联网应用技术领域,尤其涉及一种词汇的获取方法及装置、推送方法及装置。
【背景技术】
目前,输入法词库包括终端本地预先下载的词库和线上的云词库,这样,当用户使用输入法输入词汇时,可以为用户提供丰富的候选词汇,供用户选择。
现有技术中,每个用户所使用的客户端能够获取到的候选词汇都是从输入法词库获取的,每个用户的输入法词库都是相同的;而且,输入法词库量级的增长也无法满足用户的个性化输入需求,30万词库量级之后,词库扩容所带来的首选率和覆盖率的提升能力越来越有限。因此,现有技术中输入法能够提供的词汇无法满足用户的个性化输入需求,使得词汇首选率和词库利用效率都比较低,从而导致输入效率较低。
【发明内容】
有鉴于此,本发明实施例提供了一种词汇的获取方法及装置、推送方法及装置,用以解决输入法词汇无法满足用户的个性化输入需求的问题。
本发明实施例的一方面,提供一种词汇的获取方法,包括:
获取用户的兴趣分布信息;
生成个性化词库,所述个性化词库包含基础词汇和新词;
根据所述用户的兴趣分布信息和所述个性化词库,获得针对所述用户的个性化词汇。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述生成个性化词库,包括:
根据已有词库,获取所述基础词汇;
根据热门词汇和时效性词汇,获取所述新词;
根据所述基础词汇和所述新词,生成所述个性化词库。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据热门词汇和时效性词汇,获取所述新词之前,所述方法还包括:
获取时效性的页面内容;
对所述时效性的页面内容进行切词处理,以获得至少一个候选词汇;
根据用户输入词汇历史记录和每个候选词汇的标签,对所述至少一个候选词汇进行筛选,以获得所述时效性词汇。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述用户的兴趣分布信息包括所述用户的至少一个兴趣标签以及每个所述兴趣标签的权重值;所述根据所述用户的兴趣分布信息和所述个性化词库,获得针对所述用户的个性化词汇,包括:
根据预设的词汇总数和每个所述兴趣标签的权重值,确定每个所述兴趣标签对应的个性化词汇数目;
根据每个所述兴趣标签和每个所述兴趣标签对应的个性化词汇数目,从所述个性化词库获得每个所述兴趣标签对应的个性化词汇,以作为针对所述用户的个性化词汇。
本发明实施例的一方面,提供一种词汇的推送方法,包括:
接收客户端发送的词汇版本信息和用户标识;
根据所述词汇版本信息和所述用户标识,获得针对使用所述客户端的用户的个性化词汇;所述针对使用所述客户端的用户的个性化词汇为利用所述的词汇的获取方法获取的;
将针对使用所述客户端的用户的个性化词汇推送给所述客户端。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述词汇版本信息和所述用户标识,获得针对使用所述客户端的用户的个性化词汇,包括:
根据所述用户标识,获得最新的词汇版本信息;
将所述最新的词汇版本信息与从所述客户端接收的词汇版本信息进行比较,若两个词汇版本信息不一致,根据所述用户标识,获得针对使用所述客户端的用户的个性化词汇。
本发明实施例的一方面,提供一种词汇的获取装置,包括:
兴趣获取单元,用于获取用户的兴趣分布信息;
词库生成单元,用于生成个性化词库,所述个性化词库包含基础词汇和新词;
词汇获取单元,用于根据所述用户的兴趣分布信息和所述个性化词库,获得针对所述用户的个性化词汇。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述词库生成单元,具体用于:
根据已有词库,获取所述基础词汇;
根据热门词汇和时效性词汇,获取所述新词;
根据所述基础词汇和所述新词,生成所述个性化词库。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述词库生成单元,还用于:
获取时效性的页面内容;
对所述时效性的页面内容进行切词处理,以获得至少一个候选词汇;
根据用户输入词汇历史记录和每个候选词汇的标签,对所述至少一个候选词汇进行筛选,以获得所述时效性词汇。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述用户的兴趣分布信息包括所述用户的至少一个兴趣标签以及每个所述兴趣标签的权重值;所述词汇获取单元,具体用于:
根据预设的词汇总数和每个所述兴趣标签的权重值,确定每个所述兴趣标签对应的个性化词汇数目;
根据每个所述兴趣标签和每个所述兴趣标签对应的个性化词汇数目,从所述个性化词库获得每个所述兴趣标签对应的个性化词汇,以作为针对所述用户的个性化词汇。
本发明实施例的一方面,提供一种词汇的推送装置,包括:
信息输入单元,用于接收客户端发送的词汇版本信息和用户标识;
词汇处理单元,用于根据所述词汇版本信息和所述用户标识,获得针对使用所述客户端的用户的个性化词汇;所述针对使用所述客户端的用户的个性化词汇为利用所述的词汇的获取装置获取的;
信息输出单元,用于将针对使用所述客户端的用户的个性化词汇推送给所述客户端。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述词汇处理单元,具体用于:
根据所述用户标识,获得最新的词汇版本信息;
将所述最新的词汇版本信息与从所述客户端接收的词汇版本信息进行比较,若两个词汇版本信息不一致,根据所述用户标识,获得针对使用所述客户端的用户的个性化词汇。
由以上技术方案可以看出,本发明实施例具有以下有益效果:
本发明实施例提供的技术方案,能够生成个性化词库,并根据用户的兴趣信息从个性化词库中获取针对用户的个性化词汇,进一步可以输出用户的个性化词汇,因此,实现了用户词汇的个性化获取和推送,能够满足用户的个性化输入需求,解决现有技术中输入法词汇无法满足用户的个性化输入需求的问题,从而能够提高用户输入效率、词库首选率和覆盖率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提供的词汇的获取方法的流程示意图;
图2是本发明实施例所提供的获得针对用户的个性化词条的示例图;
图3是本发明实施例所提供的个性化词库的结构示例图;
图4是本发明实施例所提供的网页中新闻热搜词的示例图;
图5是本发明实施例所提供的词汇的推送方法的流程示意图;
图6是本发明实施例所提供的词汇的获取装置的功能方块图;
图7是本发明实施例所提供的词汇的推送装置的功能方块图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
本发明实施例给出一种词汇的获取方法,请参考图1,其为本发明实施例所提供的词汇的获取方法的流程示意图,如图所示,该方法包括以下步骤:
S101,获取用户的兴趣分布信息。
具体的,本发明实施例中,为了获得用户的个性化词汇,服务器需要先获取用户的兴趣分布信息。
在一个具体的实现过程中,服务器可以利用现有的用户标签库,从该用户标签库,获得每个用户的兴趣分布信息。
在一个具体的实现过程中,所述用户的兴趣分布信息可以包括但不限于:所述用户的至少一个兴趣标签以及每个所述兴趣标签的权重值。
请参考图2,其为本发明实施例所提供的获得针对用户的个性化词条的示例图,如图所示,对于每个用户都有对应的至少一个兴趣标签,图2中的用户具有三个标签,即标签1、标签2和标签3,每个标签都有对应的权重值,图2中的标签1的权重值是0.7,标签2的权重值是0.2,标签3的权重值时0.1;可以理解的是,对于每个用户而言,用户的所有标签的权重值之和等于1。
可以理解的是,用户的兴趣分部信息中,每个兴趣标签可以表示一种兴趣类型,例如,汽车、美食、购物、足球、NBA、游戏、股票、音乐和小说等。用户的兴趣标签的权重值越高,表示用户对这类兴趣类型越有兴趣。
S102,生成个性化词库,所述个性化词库包含基础词汇和新词。
具体的,本发明实施例中,生成个性化词库的方法可以包括但不限于:
首先,服务器根据已有词库,获取所述基础词汇。然后,服务器根据热门词汇和时效性词汇,获取所述新词。最后,服务器根据所述基础词汇和所述新词,生成所述个性化词库。
请参考图3,其为本发明实施例所提供的个性化词库的结构示例图,如图所示,现有技术中只有图3中的基础词库,本发明实施例所提供的技术方案,在已有的基础词库的基础上,服务器新生成个性化词库,该个性化词库可以包含基础词汇和新词。
在一个具体的实现过程中,服务器可以从已有词库,如云输入词库、分类词库、百科词库和神经语言程序学(Neuro-LinguisticProgramming,NLP)词库中,获取所述基础词汇。
在一个具体的实现过程中,很多网页都有提供热门词汇,如图4所示,某网页提供了若干新闻热搜词,因此,服务器可以从互联网的各个网页中抓取当前的热门词汇,并用抓取到的热门词汇构成所述个性化词库。
举例说明,获取所述时效性词汇的方法可以包括但不限于:
首先,服务器从网页获取时效性的页面内容,如新闻内容、微博内容等。然后,服务器根据切词词典,对所述时效性的页面内容进行切词处理,以获得至少一个候选词汇。最后,服务器根据用户输入词汇历史记录和每个候选词汇的标签,对所述至少一个候选词汇进行筛选,以获得所述时效性词汇。
在一个具体的实现过程中,服务器可以预先对用户输入的词汇进行记录,以生成用户输入词汇历史记录,然后利用用户输入词汇历史记录对所述至少一个候选词汇进行筛选,用以筛除干扰词汇。
例如,可以根据预设的出现阈值,从用户输入词汇历史记录中获取大于该出现阈值的用户输入词汇,然后获取该用户输入词汇与至少一个候选词汇的交集,即在至少一个候选词汇中保留属于所述用户输入词汇的候选词汇。
例如,所述出现阈值可以等于3。
在一个具体的实现过程中,对于经过用户输入词汇历史记录筛选后剩余的至少一个候选词汇,需要根据每个候选词汇的标签进一步进行筛选,筛选后剩余的候选词汇将作为本发明实施例中的所述时效性词汇,用以构建个性化词库。
在一个具体的实现过程中,对于经过用户输入词汇历史记录筛选后剩余的至少一个候选词汇,可以将具有公有标签的候选词汇筛除。例如,候选词条为“不得不”,体育类标签中有该候选词条,物理类标签也有该候选词条,则认为该候选词条具有公有标签,属于通用词汇,因此需要在体育类词汇和物理类词汇中都删除该候选词条。
需要说明的是,上述S101和S102的执行顺序仅为一种实现方式,也可以将S101与S102的执行顺序调换,并不影响本发明实施例技术方案的实现。
S103,根据所述用户的兴趣分布信息和所述个性化词库,获得针对所述用户的个性化词汇。
具体的,举例说明,本发明实施例中,在获取到用户的兴趣分布信息,并生成所述个性化词库之后,就可以根据所述用户的兴趣分布信息和所述个性化词库,获得针对所述用户的个性化词汇。其方法可以包括但不限于:
首先,根据预设的词汇总数和每个所述兴趣标签的权重值,确定每个所述兴趣标签对应的个性化词汇数目。然后,根据每个所述兴趣标签和每个所述兴趣标签对应的个性化词汇数目,从所述个性化词库获得每个所述兴趣标签对应的个性化词汇,以作为针对所述用户的个性化词汇。
在一个具体的实现过程中,可以根据所述词汇总数与每个所述兴趣标签的权重值的乘积,获得每个所述兴趣标签对应的个性化词汇数目。例如,如图2所示,标签1的权重值等于0.7,预设的词汇总数为10000,则标签1对应的个性化词汇数目可以为7000个,以此类推,标签2对应的个性化词汇数目可以为2000,标签3对应的个性化词汇书目可以为1000。
在一个具体的实现过程中,对于每个兴趣标签,在已经生成的个性化词库中,找到该兴趣标签下的所有个性化词汇,然后根据个性化词汇数目,从所有个性化词汇中获取权重值最高的相应数目的个性化词汇,构成了该兴趣标签的个性化词库,所有兴趣标签的个性化词汇就构成了针对该用户的个性化词汇。
例如,如图2所示,根据标签1对应的个性化词汇数目7000,从S102中生成的个性化词库的相应标签下的个性化词汇中,获取权重值最高的7000个个性化词汇,构成针对所述用户的个性化词库1;以此类推,根据标签2对应的个性化词汇数目2000,从S102中生成的个性化词库的相应标签下的个性化词汇中,获取权重值最高的2000个个性化词汇,构成针对所述用户的个性化词库2,以及,根据标签3对应的个性化词汇数目1000,从S102中生成的个性化词库的相应标签下的个性化词汇中,获取权重值最高的1000个个性化词汇,构成针对所述用户的个性化词库3。从而,将获得的10000个个性化词汇作为针对所述用户的个性化词汇,构成针对所述用户的个性化词库。
进一步的,服务器可以将所述用户的用户标识与针对所述用户的个性化词汇,对应存储到存储设备中,以便于可以在收到客户端的请求时,将用户的个性化词汇下发到用户所使用的客户端。
优选的,所述存储设备可以是网络存储设备,如云盘。
优选的,所述用户标识可以包括但不限于被叫用户识别号(CalledUserIdentificationnumber,CUID)。
可以理解的是,本发明实施例中,可以根据每个用户的不同兴趣标签和权重,获取到不同的个性化词汇,实现针对用户进行个性化词汇的获取,因此,每个用户的个性化词汇都是针对该用户定制的,是不同的,能够满足用户的个性化输入需求。
需要说明的是,上述生成的个性化词库可以以一定周期,进行周期性的更新,例如,可以每个月更新一次,同样,针对用户的个性化词汇也可以以该周期进行周期性的更新。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于个人计算机(PersonalComputer,PC)、个人数字助理(PersonalDigitalAssistant,PDA)、无线手持设备、平板电脑(TabletComputer)、手机、MP3播放器、MP4播放器等。
基于上述提供的词汇的获取方法,本发明实施例还给出一种词汇的推送方法,请参考图5,其为本发明实施例所提供的词汇的推送方法的流程示意图,如图所示,该方法包括以下步骤:
S501,接收客户端发送的词汇版本信息和用户标识。
具体的,当所述客户端所在终端连接上Wi-Fi之后,所述客户端向服务器发送请求,所述请求中可以携带所述词汇版本信息和所述用户标识。
优选的,所述用户标识可以包括但不限于被叫用户识别号(CalledUserIdentificationnumber,CUID)。
S502,根据所述词汇版本信息和所述用户标识,获得针对使用所述客户端的用户的个性化词汇;所述针对使用所述客户端的用户的个性化词汇为利用所述的词汇的获取方法获取的。
具体的,所述服务器在收到客户端发送的所述词汇版本信息和所述用户标识之后,所述服务器先根据所述用户标识,在存储设备中获得最新的词汇版本信息。
然后,所述服务器将所述最新的词汇版本信息与从所述客户端接收的词汇版本信息进行比较。若两个词汇版本信息不一致,则服务器根据所述用户标识,从存储设备中对应存储的用户标识与针对所述用户的个性化词汇中,获得针对使用所述客户端的用户的个性化词汇。
反之,若两个词汇版本信息一致,表示所述客户端所在终端中的个性化词汇已经是最新版本,因此,所述服务器不需要获取针对使用所述客户端的用户的个性化词汇,从而不需要将针对使用所述客户端的用户的个性化词汇推送给所述客户端。
S503,将针对使用所述客户端的用户的个性化词汇推送给所述客户端。
具体的,所述服务器在获得针对使用所述客户端的用户的个性化词汇之后,将其推送给所述客户端。
在一个具体的实现过程中,所述服务器可以将针对使用所述客户端的用户的个性化词汇的下载地址推送给所述客户端,这样,所述客户端可以从该下载地址,下载所需要的个性化词汇。
本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
请参考图6,其为本发明实施例所提供的词汇的获取装置的功能方块图。如图所示,该装置包括:
兴趣获取单元60,用于获取用户的兴趣分布信息;
词库生成单元61,用于生成个性化词库,所述个性化词库包含基础词汇和新词;
词汇获取单元62,用于根据所述用户的兴趣分布信息和所述个性化词库,获得针对所述用户的个性化词汇。
优选的,所述词库生成单元61,具体用于:
根据已有词库,获取所述基础词汇;
根据热门词汇和时效性词汇,获取所述新词;
根据所述基础词汇和所述新词,生成所述个性化词库。
可选的,所述词库生成单元61,还用于:
获取时效性的页面内容;
对所述时效性的页面内容进行切词处理,以获得至少一个候选词汇;
根据用户输入词汇历史记录和每个候选词汇的标签,对所述至少一个候选词汇进行筛选,以获得所述时效性词汇。
优选的,所述用户的兴趣分布信息包括所述用户的至少一个兴趣标签以及每个所述兴趣标签的权重值;所述词汇获取单元62,具体用于:
根据预设的词汇总数和每个所述兴趣标签的权重值,确定每个所述兴趣标签对应的个性化词汇数目;
根据每个所述兴趣标签和每个所述兴趣标签对应的个性化词汇数目,从所述个性化词库获得每个所述兴趣标签对应的个性化词汇,以作为针对所述用户的个性化词汇。
由于本实施例中的各单元能够执行图1所示的方法,本实施例未详细描述的部分,可参考对图1的相关说明。
请参考图7,其为本发明实施例所提供的词汇的推送装置的功能方块图。如图所示,该装置包括:
信息输入单元70,用于接收客户端发送的词汇版本信息和用户标识;
词汇处理单元71,用于根据所述词汇版本信息和所述用户标识,获得针对使用所述客户端的用户的个性化词汇;所述针对使用所述客户端的用户的个性化词汇为利用所述的词汇的获取装置获取的;
信息输出单元72,用于将针对使用所述客户端的用户的个性化词汇推送给所述客户端。
优选的,所述词汇处理单元71,具体用于:
根据所述用户标识,获得最新的词汇版本信息;
将所述最新的词汇版本信息与从所述客户端接收的词汇版本信息进行比较,若两个词汇版本信息不一致,根据所述用户标识,获得针对使用所述客户端的用户的个性化词汇。
由于本实施例中的各单元能够执行图5所示的方法,本实施例未详细描述的部分,可参考对图5的相关说明。
本发明实施例的技术方案具有以下有益效果:
本发明实施例中,通过获取用户的兴趣分布信息;从而,生成个性化词库,所述个性化词库包含基础词汇和新词;进而,根据所述用户的兴趣分布信息和所述个性化词库,获得针对所述用户的个性化词汇。
本发明实施例提供的技术方案,能够生成个性化词库,并根据用户的兴趣信息从个性化词库中获取针对用户的个性化词汇,进一步可以输出用户的个性化词汇,因此,实现了用户词汇的个性化获取和推送,能够满足用户的个性化输入需求,解决现有技术中输入法词汇无法满足用户的个性化输入需求的问题,从而能够提高用户输入效率、词库首选率和覆盖率。
另外,向用户提供针对用户的个性化词汇,可以在减少词库数目增长的前提下,仍然满足用户的输入需求,有效提升词库利用率,降低词库扩容,节省存储空间。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (12)
1.一种词汇的获取方法,其特征在于,所述方法包括:
获取用户的兴趣分布信息;
生成个性化词库,所述个性化词库包含基础词汇和新词;
根据所述用户的兴趣分布信息和所述个性化词库,获得针对所述用户的个性化词汇。
2.根据权利要求1所述的方法,其特征在于,所述生成个性化词库,包括:
根据已有词库,获取所述基础词汇;
根据热门词汇和时效性词汇,获取所述新词;
根据所述基础词汇和所述新词,生成所述个性化词库。
3.根据权利要求2所述的方法,其特征在于,所述根据热门词汇和时效性词汇,获取所述新词之前,所述方法还包括:
获取时效性的页面内容;
对所述时效性的页面内容进行切词处理,以获得至少一个候选词汇;
根据用户输入词汇历史记录和每个候选词汇的标签,对所述至少一个候选词汇进行筛选,以获得所述时效性词汇。
4.根据权利要求1或2所述的方法,其特征在于,所述用户的兴趣分布信息包括所述用户的至少一个兴趣标签以及每个所述兴趣标签的权重值;所述根据所述用户的兴趣分布信息和所述个性化词库,获得针对所述用户的个性化词汇,包括:
根据预设的词汇总数和每个所述兴趣标签的权重值,确定每个所述兴趣标签对应的个性化词汇数目;
根据每个所述兴趣标签和每个所述兴趣标签对应的个性化词汇数目,从所述个性化词库获得每个所述兴趣标签对应的个性化词汇,以作为针对所述用户的个性化词汇。
5.一种词汇的推送方法,其特征在于,所述方法包括:
接收客户端发送的词汇版本信息和用户标识;
根据所述词汇版本信息和所述用户标识,获得针对使用所述客户端的用户的个性化词汇;所述针对使用所述客户端的用户的个性化词汇为利用权利要求1至4中任一权利要求所述的词汇的获取方法获取的;
将针对使用所述客户端的用户的个性化词汇推送给所述客户端。
6.根据权利要求5所述的方法,其特征在于,所述根据所述词汇版本信息和所述用户标识,获得针对使用所述客户端的用户的个性化词汇,包括:
根据所述用户标识,获得最新的词汇版本信息;
将所述最新的词汇版本信息与从所述客户端接收的词汇版本信息进行比较,若两个词汇版本信息不一致,根据所述用户标识,获得针对使用所述客户端的用户的个性化词汇。
7.一种词汇的获取装置,其特征在于,所述装置包括:
兴趣获取单元,用于获取用户的兴趣分布信息;
词库生成单元,用于生成个性化词库,所述个性化词库包含基础词汇和新词;
词汇获取单元,用于根据所述用户的兴趣分布信息和所述个性化词库,获得针对所述用户的个性化词汇。
8.根据权利要求7所述的装置,其特征在于,所述词库生成单元,具体用于:
根据已有词库,获取所述基础词汇;
根据热门词汇和时效性词汇,获取所述新词;
根据所述基础词汇和所述新词,生成所述个性化词库。
9.根据权利要求8所述的装置,其特征在于,所述词库生成单元,还用于:
获取时效性的页面内容;
对所述时效性的页面内容进行切词处理,以获得至少一个候选词汇;
根据用户输入词汇历史记录和每个候选词汇的标签,对所述至少一个候选词汇进行筛选,以获得所述时效性词汇。
10.根据权利要求7或8所述的装置,其特征在于,所述用户的兴趣分布信息包括所述用户的至少一个兴趣标签以及每个所述兴趣标签的权重值;所述词汇获取单元,具体用于:
根据预设的词汇总数和每个所述兴趣标签的权重值,确定每个所述兴趣标签对应的个性化词汇数目;
根据每个所述兴趣标签和每个所述兴趣标签对应的个性化词汇数目,从所述个性化词库获得每个所述兴趣标签对应的个性化词汇,以作为针对所述用户的个性化词汇。
11.一种词汇的推送装置,其特征在于,所述装置包括:
信息输入单元,用于接收客户端发送的词汇版本信息和用户标识;
词汇处理单元,用于根据所述词汇版本信息和所述用户标识,获得针对使用所述客户端的用户的个性化词汇;所述针对使用所述客户端的用户的个性化词汇为利用权利要求7至10中任一权利要求所述的词汇的获取装置获取的;
信息输出单元,用于将针对使用所述客户端的用户的个性化词汇推送给所述客户端。
12.根据权利要求11所述的装置,其特征在于,所述词汇处理单元,具体用于:
根据所述用户标识,获得最新的词汇版本信息;
将所述最新的词汇版本信息与从所述客户端接收的词汇版本信息进行比较,若两个词汇版本信息不一致,根据所述用户标识,获得针对使用所述客户端的用户的个性化词汇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510454758.7A CN105069064B (zh) | 2015-07-29 | 2015-07-29 | 词汇的获取方法及装置、推送方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510454758.7A CN105069064B (zh) | 2015-07-29 | 2015-07-29 | 词汇的获取方法及装置、推送方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105069064A true CN105069064A (zh) | 2015-11-18 |
CN105069064B CN105069064B (zh) | 2019-04-30 |
Family
ID=54498434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510454758.7A Active CN105069064B (zh) | 2015-07-29 | 2015-07-29 | 词汇的获取方法及装置、推送方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105069064B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107544685A (zh) * | 2016-06-29 | 2018-01-05 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN108073303A (zh) * | 2016-11-17 | 2018-05-25 | 北京搜狗科技发展有限公司 | 一种输入方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006115642A1 (en) * | 2005-04-21 | 2006-11-02 | Google Inc. | Predictive conversion of user input |
CN1924858A (zh) * | 2006-08-09 | 2007-03-07 | 北京搜狗科技发展有限公司 | 一种获取新词的方法、装置以及一种输入法系统 |
CN102163198A (zh) * | 2010-02-24 | 2011-08-24 | 北京搜狗科技发展有限公司 | 提供新词或热词的方法及系统 |
-
2015
- 2015-07-29 CN CN201510454758.7A patent/CN105069064B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006115642A1 (en) * | 2005-04-21 | 2006-11-02 | Google Inc. | Predictive conversion of user input |
CN1924858A (zh) * | 2006-08-09 | 2007-03-07 | 北京搜狗科技发展有限公司 | 一种获取新词的方法、装置以及一种输入法系统 |
CN102163198A (zh) * | 2010-02-24 | 2011-08-24 | 北京搜狗科技发展有限公司 | 提供新词或热词的方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107544685A (zh) * | 2016-06-29 | 2018-01-05 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN108073303A (zh) * | 2016-11-17 | 2018-05-25 | 北京搜狗科技发展有限公司 | 一种输入方法、装置及电子设备 |
CN108073303B (zh) * | 2016-11-17 | 2021-11-30 | 北京搜狗科技发展有限公司 | 一种输入方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105069064B (zh) | 2019-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457581B (zh) | 一种资讯推荐方法、装置、电子设备及存储介质 | |
JP6594534B2 (ja) | テキスト情報処理方法およびデバイス | |
CN105550173A (zh) | 文本校正方法和装置 | |
CN104462113A (zh) | 搜索方法、装置及电子设备 | |
CN109344314B (zh) | 一种数据处理方法、装置及服务器 | |
CN104246748A (zh) | 用于确定情境的系统和方法 | |
CN104750789A (zh) | 标签的推荐方法及装置 | |
CN105210064A (zh) | 使用深度网络将资源分类 | |
CN104516950A (zh) | 一种兴趣点的查询方法及装置 | |
CN107908662B (zh) | 搜索系统的实现方法和实现装置 | |
CN103714141A (zh) | 信息推送方法及装置 | |
CN104965842A (zh) | 搜索推荐方法和装置 | |
WO2017136295A1 (en) | Adaptive seeded user labeling for identifying targeted content | |
CN108140055A (zh) | 触发应用信息 | |
CN105045412A (zh) | 一种生成输入法候选项的方法及系统 | |
CN105468419A (zh) | 一种基于应用软件实现播报的方法、装置及电子设备 | |
CN104063799A (zh) | 一种推广信息的推送方法及装置 | |
CN105706081A (zh) | 结构化信息链接注释 | |
CN109726295A (zh) | 品牌知识图谱显示方法、装置、图服务器及存储介质 | |
CN104598571A (zh) | 一种多媒体资源的播放方法及装置 | |
CN105224172A (zh) | 一种主题输出方法及系统 | |
CN104809207A (zh) | 一种搜索方法及装置 | |
CN104881224A (zh) | 一种卡片的添加方法及装置 | |
CN105069064A (zh) | 词汇的获取方法及装置、推送方法及装置 | |
CN105354342A (zh) | 一种检索的方法以及移动终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |