CN106484729B - 一种词汇生成、分类方法及装置 - Google Patents

一种词汇生成、分类方法及装置 Download PDF

Info

Publication number
CN106484729B
CN106484729B CN201510549508.1A CN201510549508A CN106484729B CN 106484729 B CN106484729 B CN 106484729B CN 201510549508 A CN201510549508 A CN 201510549508A CN 106484729 B CN106484729 B CN 106484729B
Authority
CN
China
Prior art keywords
vocabulary
webpage
category
search
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510549508.1A
Other languages
English (en)
Other versions
CN106484729A (zh
Inventor
梅峰
邢加和
李晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201510549508.1A priority Critical patent/CN106484729B/zh
Publication of CN106484729A publication Critical patent/CN106484729A/zh
Application granted granted Critical
Publication of CN106484729B publication Critical patent/CN106484729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种词汇生成、分类方法及装置,用于解决网络词库的更新速度较慢的技术问题。词汇生成方法包括:获得至少一个通信话单信息,所述通信话单信息包括用户访问的网页地址;对所述至少一个通信话单信息分别包括的网页地址进行解析,获得对应的搜索语句;获得所述搜索语句包括的搜索词汇,并从所述搜索词汇中去除已包括在词库中的搜索词汇,得到新词汇。

Description

一种词汇生成、分类方法及装置
技术领域
本发明涉及互联网技术领域,特别涉及一种词汇生成、分类方法及装置。
背景技术
在互联网的飞速发展下,文字的发展速度越来越快,词汇在不断更新变化,在许多领域涌现出大量的新的网络词汇。
用户在访问网页时,遇到新的网络词汇,如果不了解的话,可能需要查询,此时网站可以从存储的网络词库中查找新的网络词汇的类别等信息,便于用户理解,以及,在对网页内容进行分词处理时,也需要借助网络词库来支撑。可见,网络词库是否完备,直接影响着网页中文字内容信息提取是否完全。
然而,由于网络词汇的产生、传播速度快,更新特别频繁等特点,导致网络词库在很多情况下是不完备的,网络词库的更新速度远远滞后于新词汇的出现速度。
发明内容
本发明实施例提供一种词汇生成、分类方法及装置,用于解决网络词库的更新速度较慢的技术问题。
第一方面,提供一种词汇生成方法,包括:
获得至少一个通信话单信息,所述通信话单信息包括用户访问的网页地址;
对所述至少一个通信话单信息分别包括的网页地址进行解析,获得对应的搜索语句;
获得所述搜索语句包括的搜索词汇,并从所述搜索词汇中去除已包括在词库中的搜索词汇,得到新词汇。
结合第一方面,在第一方面的第一种可能的实现方式中,从所述搜索词汇中去除已包括在词库中的搜索词汇,得到新词汇,包括:
从所述搜索词汇中去除已包括在词库中的搜索词汇,并从剩余的搜索词汇中选择出现次数大于预设次数阈值的第一数量个搜索词汇,所述第一数量为正整数;
将所述第一数量个搜索词汇中的任意两个搜索词汇两两进行比较,若一个搜索词汇完全包括在另一个搜索词汇中,则去除被包含的搜索词汇,得到第二数量个搜索词汇,所述第二数量个搜索词汇为所述新词汇。
结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,获得至少一个通信话单信息,包括:
将获得的全部的通信话单信息对应的网页地址分别与预设网络域名进行匹配,匹配成功的通信话单信息为所述至少一个通信话单信息。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,在得到新词汇之后,还包括:
根据所述用户访问的网页地址确定所述新词汇的类别。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述通信话单信息中还包括用户标识;根据所述用户访问的网页地址获取新词汇的类别,包括:
获得所述新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容;
对所述网页内容进行分词操作得到第三数量个关键词;
根据所述第三数量个关键词,以及所述关键词对应的词汇类别信息,确定所述新词汇的类别。
结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,对网页内容进行分词操作得到第三数量个关键词包括:
对所述网页内容进行分词操作得到至少一个网页词汇,从所述至少一个网页词汇中去除部分网页词汇,所述部分网页词汇为不包括所述新词汇的网页内容所包括的网页词汇;
从去除所述部分网页词汇后剩余的网页词汇中确定所述第三数量个关键词。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,从去除所述部分网页词汇后剩余的网页词汇中确定所述第三数量个关键词,包括:
获得去除所述部分网页词汇后剩余的网页词汇中的每个网页词汇的TF-IDF分数;
按照分数从高到低的顺序,获得所述剩余的网页词汇中分数靠前的所述第三数量个网页词汇,所述第三数量个网页词汇为所述第三数量个关键词。
结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,根据第三数量个关键词以及所述关键词对应的词汇类别信息,确定所述新词汇的类别,包括:
获得所述词汇类别信息中每种类别的先验概率,以及获得所述第三数量个关键词中的每个关键词在每种类别下的条件概率;
根据获得的先验概率和条件概率,获得所述第三数量个关键词对应于每种类别的总概率;
确定总概率最高的类别为所述新词汇的类别。
第二方面,提供一种词汇分类方法,包括:
获得新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容;
对所述网页内容进行分词操作得到第三数量个关键词;
根据所述第三数量个关键词以及所述关键词对应的词汇类别信息,确定所述新词汇的类别。
结合第二方面,在第二方面的第一种可能的实现方式中,对网页内容进行分词操作得到第三数量个关键词包括:
对所述网页内容进行分词操作得到至少一个网页词汇,从所述至少一个网页词汇中去除部分网页词汇,所述部分网页词汇为不包括所述新词汇的网页内容所包括的网页词汇;
从去除所述部分网页词汇后剩余的网页词汇中确定所述第三数量个关键词。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,从去除所述部分网页词汇后剩余的网页词汇中确定所述第三数量个关键词,包括:
获得去除所述部分网页词汇后剩余的网页词汇中的每个网页词汇的TF-IDF分数;
按照分数从高到低的顺序,获得所述剩余的网页词汇中分数靠前的所述第三数量个网页词汇,所述第三数量个网页词汇为所述第三数量个关键词。
结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,根据所述第三数量个关键词以及所述关键词对应的词汇类别信息,确定所述新词汇的类别,包括:
获得所述词汇类别信息中每种类别的先验概率,以及获得所述第三数量个关键词中的每个关键词在每种类别下的条件概率;
根据获得的先验概率和条件概率,获得所述第三数量个关键词对应于每种类别的总概率;
确定总概率最高的类别为所述新词汇的类别。
第三方面,提供一种词汇生成装置,包括:
第一获取模块,用于获得至少一个通信话单信息,所述通信话单信息包括用户访问的网页地址;
解析模块,用于对所述至少一个通信话单信息分别包括的网页地址进行解析,获得对应的搜索语句;
第二获取模块,用于获得所述搜索语句包括的搜索词汇,并从所述搜索词汇中去除已包括在词库中的搜索词汇,得到新词汇。
结合第三方面,在第三方面的第一种可能的实现方式中,所述第二获取模块用于:
从所述搜索词汇中去除已包括在词库中的搜索词汇,并从剩余的搜索词汇中选择出现次数大于预设次数阈值的第一数量个搜索词汇,所述第一数量为正整数;
将所述第一数量个搜索词汇中的任意两个搜索词汇两两进行比较,若一个搜索词汇完全包括在另一个搜索词汇中,则去除被包含的搜索词汇,得到第二数量个搜索词汇,所述第二数量个搜索词汇为所述新词汇。
结合第三方面或第三方面的第一种可能的实现方式,在第三方面的第二种可能的实现方式中,所述第一获取模块用于:
将获得的全部的通信话单信息对应的网页地址分别与预设网络域名进行匹配,匹配成功的通信话单信息为所述至少一个通信话单信息。
结合第三方面的第二种可能的实现方式,在第三方面的第三种可能的实现方式中,所述装置还包括第一类别确定模块,用于在所述所述第二获取模块得到新词汇之后,根据所述用户访问的网页地址确定所述新词汇的类别。
结合第三方面的第三种可能的实现方式,在第三方面的第四种可能的实现方式中,所述通信话单信息中还包括用户标识;所述第一类别确定模块用于:
获得所述新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容;
对所述网页内容进行分词操作得到第三数量个关键词;
根据所述第三数量个关键词,以及所述关键词对应的词汇类别信息,确定所述新词汇的类别。
结合第三方面的第四种可能的实现方式,在第三方面的第五种可能的实现方式中,所述第一类别确定模块用于:
对所述网页内容进行分词操作得到至少一个网页词汇,从所述至少一个网页词汇中去除部分网页词汇,所述部分网页词汇为不包括所述新词汇的网页内容所包括的网页词汇;
从去除所述部分网页词汇后剩余的网页词汇中确定所述第三数量个关键词。
结合第三方面的第五种可能的实现方式,在第三方面的第六种可能的实现方式中,所述第一类别确定模块用于:
获得去除所述部分网页词汇后剩余的网页词汇中的每个网页词汇的TF-IDF分数;
按照分数从高到低的顺序,获得所述剩余的网页词汇中分数靠前的所述第三数量个网页词汇,所述第三数量个网页词汇为所述第三数量个关键词。
结合第三方面的第六种可能的实现方式,在第三方面的第七种可能的实现方式中,所述第一类别确定模块用于:
获得所述词汇类别信息中每种类别的先验概率,以及获得所述第三数量个关键词中的每个关键词在每种类别下的条件概率;
根据获得的先验概率和条件概率,获得所述第三数量个关键词对应于每种类别的总概率;
确定总概率最高的类别为所述新词汇的类别。
第四方面,提供一种词汇分类装置,包括:
第三获取模块,用于获得新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容;
第四获取模块,用于对所述网页内容进行分词操作得到第三数量个关键词;
第二类别确定模块,用于根据所述第三数量个关键词,以及所述关键词对应的词汇类别信息,确定所述新词汇的类别。
结合第四方面,在第四方面的第一种可能的实现方式中,所述第四获取模块用于:
对所述网页内容进行分词操作得到至少一个网页词汇,从所述至少一个网页词汇中去除部分网页词汇,所述部分网页词汇为不包括所述新词汇的网页内容所包括的网页词汇;
从去除所述部分网页词汇后剩余的网页词汇中确定所述第三数量个关键词。
结合第四方面的第一种可能的实现方式,在第四方面的第二种可能的实现方式中,所述第四获取模块用于:
获得去除所述部分网页词汇后剩余的网页词汇中的每个网页词汇的TF-IDF分数;
按照分数从高到低的顺序,获得所述剩余的网页词汇中分数靠前的所述第三数量个网页词汇,所述第三数量个网页词汇为所述第三数量个关键词。
结合第四方面的第二种可能的实现方式,在第四方面的第三种可能的实现方式中,所述第二类别确定模块用于:
获得所述词汇类别信息中每种类别的先验概率,以及获得所述第三数量个关键词中的每个关键词在每种类别下的条件概率;
根据获得的先验概率和条件概率,获得所述第三数量个关键词对应于每种类别的总概率;
确定总概率最高的类别为所述新词汇的类别。
本发明实施例中,可以根据通信话单信息来更新网络词库,有大量的用户每天都在不断地访问网页,可能在很短的时间内就可以产生大量的有效的通信话单信息,可见,通信话单信息的数据量巨大,那么,基于这些通信话单信息来生成新词汇,生成新词汇的效率也可以得到较大的提高,加快了网络词库的更新速度。
附图说明
图1为本发明实施例中词汇生成方法的流程图;
图2为本发明实施例中从搜索词汇中得到新词汇的流程图;
图3为本发明实施例中词汇分类方法的流程图;
图4为本发明实施例中确定关键词的第一个流程图;
图5为本发明实施例中确定关键词的第二个流程图;
图6为本发明实施例中获得新词汇的类别的流程图;
图7为本发明实施例中词汇生成装置的结构框图;
图8为本发明实施例中词汇分类装置的结构框图;
图9为本发明实施例中词汇生成装置的结构示意图;
图10为本发明实施例中词汇分类装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图对本发明实施例作进一步详细描述。
请参见图1,本发明一个实施例提供一种词汇生成方法,所述方法的流程描述如下。
步骤101:获得至少一个通信话单信息,通信话单信息包括用户访问的网页地址;
步骤102:对至少一个通信话单信息分别包括的网页地址进行解析,获得对应的搜索语句;
步骤103:获得搜索语句包括的搜索词汇,并从搜索词汇中去除已包括在词库中的搜索词汇,得到新词汇。
可选的,在本发明另一实施例中,可以通过通信运营商获得至少一个通信话单信息,这里的通信运营商例如可以包括中国电信、联通等运营商,或其他虚拟运营商等。
例如,通信运营商可以设置用于统计或监控用户的流量信息的系统,比如可以称为流量统计系统,可以位于网关上,该系统的接口例如为Gn口,只要签约该通信运营商的用户访问网页,就会通过Gn口向该流量统计系统输入通信话单信息,通信话单信息中可以包括用户访问的网页地址(例如为URL(Uniform Resource Locator,统一资源定位符))。
从通信运营商处获得通信话单信息,由于通信运营商处得到的通信话单信息覆盖面非常广,则生成的新网络词汇的覆盖面也会比较广,采用通信运营商提供的通信话单信息作为新词汇生成的数据来源,产生的新词汇就可以覆盖绝大多数行业,能够满足大多数场景的需求。同时,由于通信运营商处的通信话单信息的数据量巨大,例如在很短的时间内就可以产生大量的有效的通信话单信息,那么,基于这些通信话单信息生成新词汇的效率也可以得到较大的提高,加快了网络词库的更新速度。
可选的,在本发明另一实施例中,一个通信话单信息中除了包括用户访问的网页地址之外,还可以包括对应的用户标识,即表明是该用户标识对应的用户访问了该网页地址。用户标识例如可以是用户的手机号,或者可以是PC(个人计算机)或其他设备的IP(Internet Protocol,网际协议)地址,等等,本发明对此不作限制。
因此,通信运营商处保存的通信话单信息,包含的信息量比较大,基本能够覆盖大多数用户的访问记录,覆盖面比较广,则生成的新词汇的覆盖面也会比较广,采用通信运营商提供的通信话单信息作为新词汇生成的数据来源,产生的新词汇就可以覆盖绝大多数行业,能够满足大多数场景的需求。
可选的,在本发明另一实施例中,获得至少一个通信话单信息,包括:
将获得的全部通信话单信息对应的网页地址分别与预设网络域名进行匹配,匹配成功的通信话单信息为至少一个通信话单信息。
在该实施例中,可以预先设定一些网络域名,例如将预先设定的网络域名称为预设网络域名。通过设置预设网络域名,可以从多个通信话单信息中筛选出部分通信话单信息进行处理,减少后续的工作量,同时也可以筛选出所需要的通信话单信息。
例如,共获得了两个通信话单信息,分别为通信话单信息1和通信话单信息2,其中,通信话单信息1包括的URL为:http://weibo.com/u/1907304573/home?topnav=1&wvr=6#1438310730976,通信话单信息2包括的URL为:http://www.baidu.com/s?wd=%E7%88%B8%E7%88%B8%E5%8E%BB%E5%93%AA%E5%84%BF%E5%A5%BD%E7%9C%8B%E5%90%97&ie=utf-8&f=8&rsv_bp=1&tn=baidu&rsv_pq=e94ca8e90001044f&rsv_t=1cdfYEptSpeUTkK0BPGcjQGNusLfdv6ypMqZbTBsAQJIHOHsxs6MkS57suY&bs=%E8%AF%AD%E6%B3%95%E8%A7%84%E5%88%99%E7%9A%84%E5%AE%9A%E4%B9%89。例如预设网络域名为:www.baidu.com。则分别将通信话单信息1包括的URL和通信话单信息2包括的URL与预设网络域名进行匹配,可以确定通信话单信息2能够与预设网络域名相匹配,则可以将通信话单信息2作为筛选出的通信话单信息,可以丢弃通信话单信息1。
在获得通信话单信息后,可以根据步骤102,对每个通信话单信息所包括的网页地址进行解析,从而可以获得网页地址所对应的搜索语句。例如,对一个网页地址进行解析,得到其对应的搜索语句为“爸爸去哪儿好看吗”。
通过解析网页地址获得搜索语句的实施过程,可参考现有技术中的过程,此处不多赘述。
例如,可以对得到的每个搜索语句分别进行字词顺序组合,生成待选词组合(即搜索词汇)。在本发明另一实施例中,为了减少工作量,当一个待选词组合包括的字数大于预定字数阈值时,可以丢弃该待选词组合,预定字数阈值可根据不同的情况设定,例如可以将预定字数阈值设定为7,这样,如果一个待选词组合中包括的字数大于7时,就可以丢弃该待选词组合。当然,预定字数阈值也可以设定为其他数值,根据不同需求进行设定即可,本发明不作限制。
例如,一个搜索语句为“爸爸去哪儿好看吗”,根据该搜索语句所生成的待选词组合为:
“爸爸,爸爸去,爸爸去哪,爸爸去哪儿,爸爸去哪儿好,爸爸去哪儿好看,爸爸去哪儿好看吗,爸去,爸去哪,爸去哪儿,爸去哪儿好,爸去哪儿好看,爸去哪儿好看吗,去哪,去哪儿,去哪儿好,去哪儿好看,去哪儿好看吗,哪儿,哪儿好,哪儿好看,哪儿好看吗,儿好,儿好看,儿好看吗,好看,好看吗,看吗”。
例如,预定字数阈值为7,则根据该搜索语句生成的待选词组合中,可以丢弃爸爸去哪儿好看和爸爸去哪儿好看吗这两个待选词组合。
对剩下的待选词组合,即,对剩下的搜索词汇,可以根据步骤103,分别与词库进行匹配,看对于剩下的每个待选词组合,是否已经包括在了词库中。
例如,在如前的例子中得到的待选词组合中,“爸爸”、“哪儿”等待选词组合已经包括在了词库中,则可以丢弃已包括在词库中的待选词组合。
在丢弃已包括在词库中的搜索词汇后,可以将剩余的搜索词汇中的全部或部分作为得到的新词汇。
可选的,请参见图2,在本发明另一实施例中,从搜索词汇中去除已包括在词库中的搜索词汇,得到新词汇,包括:
步骤201:从搜索词汇中去除已包括在词库中的搜索词汇,并从剩余的搜索词汇中选择出现次数大于预设次数阈值的第一数量个搜索词汇,第一数量为正整数;
步骤202:将第一数量个搜索词汇中的任意两个搜索词汇两两进行比较,若一个搜索词汇完全包括在另一个搜索词汇中,则去除被包含的搜索词汇,得到第二数量个搜索词汇,第二数量个搜索词汇为新词汇。
例如,在丢弃已包括在词库中的搜索词汇后,还剩下5个搜索词汇,则还可以分别确定这5个搜索词汇的出现次数,预设次数阈值可以是根据经验设定,或者也可以是根据需求设定,本发明不作限制。其中,搜索词汇出现的次数,可以根据获取的全部通信话单信息来进行确定,当然也可以通过其他方式确定。例如可以将预设次数阈值设置为5000,当然也可以设定为其他数值。例如在剩下的5个搜索词汇中,确定第一个搜索词汇的出现次数为7680次,第二个搜索词汇的出现次数为13次,第三个搜索词汇的出现次数为5513次,第四个搜索词汇的出现次数为4677次,第五个搜索词汇的出现次数为2518次,则可以提取第一个搜索词汇和第三个搜索词汇作为待选的新词汇,而可以丢弃其他的三个搜索词汇,此时第一数量为2。
在筛选出出现次数大于预设次数阈值的第一数量个搜索词汇后,可以将这第一数量个搜索词汇进行两两比较。例如,第一数量为2,这两个搜索词汇分别为“爸爸去哪”和“爸爸去哪儿”,可采用最大长度词语匹配约减方式,可以看到,“爸爸去哪儿”中包含“爸爸去哪”,也就是说,“爸爸去哪”这个搜索词汇完全包含在“爸爸去哪儿”这个搜索词汇中,因此,可以丢弃“爸爸去哪”这个搜索词汇,“爸爸去哪儿”这个搜索词汇就是得到的新词汇,此时第二数量为1。
通过筛选出现次数较多的搜索词汇,可以尽量保证得到的新词汇是比较热门的词汇,关注这类词汇的用户比较多,可以提高得到的新词汇的利用率。以及,通过去掉重复词汇可以有效减少待处理的词汇量,减轻设备的负担。
在得到新词汇后,可能还会涉及到对新词汇进行分类,以帮助用户理解新词汇,同时便于用户在词库中更好地进行搜索。
可选的,在本发明另一实施例中,在得到新词汇之后,还包括:
根据用户访问的网页地址确定新词汇的类别。
下面介绍一种可能的对新词汇进行分类的方法。
请参见图3,基于同一发明构思及上述各实施例,本发明另一实施例介绍一种词汇分类方法,该方法的流程描述如下。
步骤301:获得新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容;
步骤302:对网页内容进行分词操作得到第三数量个关键词;
步骤303:根据第三数量个关键词以及关键词对应的词汇类别信息,确定新词汇的类别。
需要说明的是,图3中进行词汇分类时,所针对的新词汇可以是通过图1或图2流程中的词汇生成方法生成的新词汇,或者也可以是通过其他方式获取的新词汇,例如可以是通过现有技术中的方式获取的新词汇,图3流程所对应的实施例所要保护的是对新词汇进行分类的方式,对于新词汇的来源不作限制。即,图3流程中所述的新词汇可以来源于步骤103中获得的新词汇,或者也可以是人工收集的新词汇,等等。
为了便于区分,在后面的介绍过程中,可以认为图3流程以及后续流程中的新词汇是第一新词汇,即,第一新词汇可以是步骤103中获得的任意一个新词汇,或者也可以是人工收集的任意一个新词汇,等等。对每个新词汇进行分类的过程都可以相同或类似,在对多个新词汇进行分类的时候,可以并行实现图3的方法,也可以串行实现图3的方法,本发明不作限制。因此下面介绍的对一个新词汇进行分类的方法即可涵盖对多个新词汇进行分类的过程。
那么,如果第一新词汇是步骤103中获得的任意一个新词汇,则步骤301可以发生在步骤103之后,如果第一新词汇是人工收集的任意一个新词汇,则图3流程与图1流程两个大的方法流程的执行顺序可以任意,甚至图3流程与图1流程可以单独实施,互不影响。
那么,步骤301可以是,获得第一新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容,步骤303可以是,根据第三数量个关键词以及关键词对应的词汇类别信息,确定第一新词汇的类别。
例如,在获得第一新词汇后,可以确定第一新词汇对应的通信话单信息,第一新词汇对应的通信话单信息,可能是一个,也可能是多个。通信话单信息中除了包括用户访问的网页地址之外,还可以包括对应的用户标识,那么,根据通信话单信息中包括的用户标识,可以确定该用户标识对应的用户访问过的网页地址,从而可以获取该用户访问过的网页内容。例如可以通过爬虫(一种自动获取网页内容的程序)获取该用户标识访问过的网页内容,当然也可以通过其他方式获取,本发明对此不作限制。
在获得该用户标识对应的用户访问过的网页内容后,对获得的每个网页内容进行分词(例如将一个网页地址对应的内容看作一个网页内容),则获得的网页内容可能是一个也可以是多个,这些网页内容分词后可以得到至少一个词汇,例如将对网页内容进行分词后得到的词汇称为网页词汇,即,得到的至少一个网页词汇对应一个网页内容或对应多个网页内容。
其中,可以采用分词技术对网页内容进行分词,分词技术可以将各类结构复杂的网页中包括的文字内容转换成网络词汇的集合。
可选的,请参见图4,在本发明另一实施例中,对网页内容进行分词操作得到第三数量个关键词,包括:
步骤401:对网页内容进行分词操作得到至少一个网页词汇,从至少一个网页词汇中去除部分网页词汇,该部分网页词汇为不包括新词汇的网页内容所包括的网页词汇;
步骤402:从去除部分网页词汇后剩余的网页词汇中确定第三数量个关键词。
其中,步骤402为对步骤302中介绍的步骤:得到第三数量个关键词,的细化过程。
即,在对每个网页内容进行分词后,可以得到每个网页内容对应的网页词汇。如果一个网页内容对应的网页词汇中不包括第一新词汇,可能表明该网页内容与第一新词汇无关,如果将该网页内容也作为确定第一新词汇的类别的因素,则可能会导致确定的结果不够准确,而且信息量也比较大,增加了设备的工作负担,因此,可以从得到的网页词汇中去掉这个网页内容对应的网页词汇。
那么,就可以在去掉了这类网页内容对应的网页词汇后剩余的网页词汇中确定第三数量个关键词,这样确定出的关键词与第一新词汇的关系可能较为密切,能够用来比较好地确定第一新词汇的类别。
可选的,本发明另一实施例提供一种从网页词汇中确定关键词的方式,这里的方式只是一种举例,本发明不限于采用其他确定关键词的方式。例如,请参见图5,从去除部分网页词汇后剩余的网页词汇中确定第三数量个关键词,包括:
步骤501:获得去除部分网页词汇后剩余的网页词汇中的每个网页词汇的TF-IDF(term frequency–inverse document frequency,词频-反转文件频率)分数;
步骤502:按照分数从高到低的顺序,获得剩余的网页词汇中分数靠前的第三数量个网页词汇,第三数量个网页词汇为第三数量个关键词。
在该实施例中,第三数量的具体值可根据实际需求设定,本发明不作限制。
在去掉不包括第一新词汇的网页内容包括的网页词汇后,可以计算剩下的每个网页词汇的TF-IDF分数,在得到每个网页词汇的TF-IDF分数后,可以按照分数由高到低的顺序对网页词汇进行排序,那么,如果将排序后的结果看做是一个序列,就可以从这个序列中取前面的第三数量个网页词汇作为关键词。
其中,TF-IDF是一种统计方法,用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。
计算TD-IDF的分数,公式如下:
tfidfi,j=tfi,j×idfi (1)
公式(1)中,tfi,j为词频,指的是某一个给定的词汇在该文件dj中出现的频率,idf为逆向文件频率,是一个词汇普遍重要性的度量,
Figure BDA0000793426680000161
其中ni,j是该词汇在文件dj中的出现次数,而分母则是在文件dj中所有词汇的出现次数之和,
Figure BDA0000793426680000162
|D|为语料库中的文件总数,|{j:ti∈dj}|为包含词语ti的文件的数目(即ni,j≠0的文件数目)。
可选的,在本发明另一实施例中,可以根据贝叶斯分类方式来确定第一新词汇的类别。例如,请参见图6,根据第三数量个关键词,以及关键词对应的词汇类别信息,确定新词汇的类别,包括:
步骤601:获得词汇类别信息中每种类别的先验概率,以及获得第三数量个关键词中的每个关键词在每种类别下的条件概率;
步骤602:根据获得的先验概率和条件概率,获得第三数量个关键词对应于每种类别的总概率;
步骤603:确定总概率最高的类别为新词汇的类别。
其中,词汇类别信息可以是已知的,例如可以包括体育类别、娱乐类别等等,词汇类别信息中每种类别的先验概率也可以是已知的,例如体育类别的先验概率为0.5,IT(Information Technology,互联网技术)类别的先验概率为0.5,等等。
获得第三数量个关键词后,可以计算其中的每个关键词在每种类别下的条件概率,计算条件概率的方式可参考现有技术中的方式,本发明不多赘述。
在获得每种类别的先验概率和第三数量个关键词的条件概率后,可以根据获得的先验概率和条件概率,获得第三数量个关键词对应于每种类别的总概率。
例如,共包括两个类别,分别为类别1和类别2,类别1的先验概率为先验概率1,类别2的先验概率为先验概率2,第三数量为2,分别为关键词1和关键词2,关键词1在类别1下的条件概率为条件概率11,关键词1在类别2下的条件概率为条件概率12,关键词2在类别1下的条件概率为条件概率21,关键词2在类别2下的条件概率为条件概率22。则,计算第三数量个关键词对应于每种类别的总概率,一种可能的方式如下:
关键词1和关键词2对应于类别1的总概率=先验概率1*条件概率11*条件概率21
关键词1和关键词2对应于类别2的总概率=先验概率2*条件概率12*条件概率22
例如,求得关键词1和关键词2对应于类别1的总概率大于关键词1和关键词2对应于类别2的总概率,则可以将类别1确定为第一新词汇的类别。
本发明实施例中,在获得新词汇后,可以通过对使用该新词汇的用户标识访问的网页内容进行分析,确定该新词汇的类别,无需人工确定新词汇的类别,减轻了人工操作的负担,也提高了设备的智能性。同时,也无需先训练语料库,通过将新词汇与语料库进行匹配的方式来确定新词汇的类别,节省了训练语料库所带来的大量工作量,减轻设备在确定新词汇的类别时的负担。而且,在确定新词汇的类别时,是通过与新词汇相关的网页内容来确定,能够尽量使确定的结果较为准确。
下面通过一个比较完整的例子来介绍词汇生成过程和词汇分类过程。
一、词汇生成过程的示例。
预先设置有预设网络域名,首先,根据步骤101,从通信运营商处获得至少一个通信话单信息,每个通信话单信息中包括URL以及对应的用户标识。
在获得至少一个通信话单信息后,根据如前介绍的步骤:将获得的全部通信话单信息对应的网页地址分别与预设网络域名进行匹配,匹配成功的通信话单信息为至少一个通信话单信息,将获得的通信话单信息分别与预设网络域名进行匹配,找出满足解析条件的通信话单信息,即能够与预设网络域名匹配的通信话单信息,对找出的通信话单信息包括的URL进行解析,可以得到用户输入的搜索语句。
假设预设网络域名如表1所示,能够与预设网络域名匹配的一个通信话单信息如表2所示。
根据步骤102,对表2中的URL进行解析,即,对表2中的“%E7%88%B8%E7%88%B8%E5%8E%BB%E5%93%AA%E5%84%BF%E5%A5%BD%E7%9C%8B%E5%90%97”进行解析,对其进行编译得到用户输入的搜索语句,这里解析出的搜索语句为:“爸爸去哪儿好看吗”。
表1预设网络域名
域名编号 预设网络域名
0001 www.baidu.com
表2通信话单信息
Figure BDA0000793426680000181
Figure BDA0000793426680000191
对得到的搜索语句进行字词顺序组合,生成待选词组合(即搜索词汇)。其中,当一个待选词组合包括的字数大于预定字数阈值时,可以丢弃该字词顺序组合,例如将预定字数阈值设定为7,这样,如果一个待选词组合中包括的字数大于7时,就可以丢弃该待选词组合。
例如,根据“爸爸去哪儿好看吗”这个搜索语句所生成的待选词组合为:
“爸爸,爸爸去,爸爸去哪,爸爸去哪儿,爸爸去哪儿好,爸爸去哪儿好看,爸爸去哪儿好看吗,爸去,爸去哪,爸去哪儿,爸去哪儿好,爸去哪儿好看,爸去哪儿好看吗,去哪,去哪儿,去哪儿好,去哪儿好看,去哪儿好看吗,哪儿,哪儿好,哪儿好看,哪儿好看吗,儿好,儿好看,儿好看吗,好看,好看吗,看吗”。
根据步骤103,将得到的待选词组合分别与词库进行匹配,去除在词库中已包含的待选词组合。
例如,如上得到的待选词组合中,“爸爸”、“哪儿”等待选词组合在词库中匹配成功,即这些待选词组合已经包括在了词库中,因此舍弃这些被匹配成功的词汇。
根据步骤201,对于舍弃被匹配成功的词汇后剩下的待选词组合,分别统计其中每个待选词组合的出现次数,并筛选出超过预设次数阈值的待选词组合。
例如,预设次数阈值=5000,即表示在一个待选词字词组合被用户搜索的次数大于5000次时,才会将该待选词组合提取出来。例如,对剩下的待选词组合的出现次数的统计结果如表3所示。
表3待选词字词组合的出现次数
待选词组合 出现次数
爸爸去 13
爸爸去哪 5600
爸爸去哪儿 7680
爸爸去哪儿好 23
经过统计发现,“爸爸去哪”和“爸爸去哪儿”出现的次数都大于5000,这两个待选词组合被选择出来。
根据步骤202,对筛选出的待选词组合,采用相同字词最大长度词语匹配约减,得到最终的待选词组合,即为新词汇。
筛选出的待选词组合为“爸爸去哪”和“爸爸去哪儿”,采用最大长度词语匹配约减,“爸爸去哪儿”完全包含“爸爸去哪”,因此,丢弃“爸爸去哪”这个待选词组合,得到最终的待选词组合,即,“爸爸去哪儿”就作为最终得到的新词汇。
二、词汇分类过程的示例。
根据步骤301,对于获得的新词汇,可以获知其对应的通信话单信息,在通信话单信息中包括用户标识,则可以通过爬虫获取该用户标识对应的用户访问过的网页内容。
假设获得的新词汇为“纳什”,“纳什”这个新词汇对应的用户标识如表4所示,表4中的用户标识所访问过的URL如表5所示:
表4新词汇对应的用户标识
用户标识 新词汇
0001 纳什
0002 纳什
表5用户标识访问的URL
用户标识 URL
0001 http://news.xinhuanet.com/sports/2015-04/18/c_127704822.html
0001 http://www.infoq.com/cn/news/2014/03/tag-personal-data/
0002 http://g.hupu.com/nba/players/stevenash-514.html
..
可以通过爬虫获得表2所示的URL对应的网页内容。
假设“http://news.xinhuanet.com/sports/2015-04/18/c_127704822.html”这个URL对应的网页内容如下:
<title>纳什太阳谁成就了谁?_NBA烽火_篮坛风云_体育论坛_新浪网</title>
<meta name="keywords"content=""/>
<div id="p_content"><p style="text-indent:2em;">上个赛季,年近34岁的纳什在连续席卷了两届MVP之后,又交出了更出色的数据:18.6分,11.6次助攻,九成的罚球命中率以及45.5%的三分球。过去的三年发生了什么?是什么让纳什更出色?是他的进攻技巧日臻完美,还是得益于安东尼的战术?或许纳什、小斯和马里昂更应该感谢彼此太阳的突变,让“跑轰”这个名词不再陌生。知道安东尼是怎么训练球队的进攻吗?队内训练,球队不是遵循24秒进攻,而是20秒。进攻的政策就是如果你不投篮,你就将失去上场时间。在安东尼的执教下,太阳的跑轰战术有序而又“杂乱”。而这个有序和“杂乱”虽然是安东尼制定的战术,却是由场上的“大脑”纳什来执行完成的。跑轰提供了一个展示纳什组织能力的更大的舞台。他的组织功力自不必说,这是进攻有序的保障。同时他总能将球输送到空位的队友手中,这种谁有机会谁投的进攻又呈现“杂乱”的假象。如果没有纳什,安东尼的跑轰不会发挥得如此极致,因为联盟几乎没有人具有纳什那种在敞开进攻状态的视野;同样,没有跑轰,纳什的能力也不会得到百分百的体现,他也只是那个在达拉斯的中规中矩的后卫。纳什和安东尼成就了彼此。当然小斯、马里昂的运动天赋是跑轰战术中不可或缺的元素。很难再找出比他俩更适合跑轰的锋线球员了。有了纳什的组织,小斯、马里昂的得分就容易多了(但是我不赞同马里昂是纳什效应的产物)。同时他们的存在使得跑轰战术不是单纯投篮,更多了雷霆万钧的激情四射,也让纳什的组织更立体化,比赛也更精彩了。太阳的三剑客应该感激彼此,虽然太阳的跑轰战术风生水起,但没有总冠军总让他们少了一分说服力。有人说夺得总冠军的第一手段是防守。不过看看几个月前的西区半决赛,马刺的防守已经有点跟不住太阳进攻的步伐了。再看看现在联盟越来越多的球队开始奉行小球跑轰战术,太阳的成功已经不言自明了。纳什、安东尼、小斯们成就了彼此,他们的那些事也将和跑轰成为NBA历史上浓重的一笔<span style="text-indent:2em;"></span></p><div class="zdfy clearfix"></div><center><table border="0"align="center"width="40%"><tr></tr></table></center></div>
在得到网页内容后,根据步骤302,对每个网页内容进行分词操作,得到第三数量个关键词。则通过对该网页内容进行分词,假设可以得到如下网页词汇:
纳什,太阳,罚球,总冠军,组织,后卫,安东尼,训练,NBA,……
在对每个网页内容进行分词操作之后,根据步骤401,去除不包含新词汇的网页内容对应的全部网页词汇。
例如,http://www.infoq.com/cn/news/2014/03/tag-personal-data/这个URL对应的网页内容中不包含“纳什”这个新词汇,则丢弃该URL对应的网页词汇。
对剩余的网页词汇,根据步骤402,或可以根据步骤501,分别计算其中每个网页词汇的TF-IDF分数,再根据步骤502,依据分数的高低选择关键词。其中,TF-IDF分数的计算方式如前已有描述,可以根据公式(1)计算每个网页词汇的TF-IDF分数。
假设对上述网页内容得到的网页词汇,通过TF-IDF计算后得到的每个网页词汇的分数如表6所示。
表6网页词汇的TF-IDF分数
网页词汇 TF-IDF分数
火箭 0.77
太阳 0.86
总冠军 0.43
主场 0.52
…… ……
这里为了便于理解,假设设定的第三数量为3,即要挑选3个关键词。则根据表6,确定挑选的3个关键词为“太阳”,“火箭”和“主场”,即,得到的种子词表征向量为[“太阳”,“火箭”,“主场”]。
对种子词表征向量进行贝叶斯分类,计算新词汇的类别。
进行贝叶斯分类的过程,示例如下:
根据步骤601,获得词汇类别信息中每种类别的先验概率,以及获得第三数量个关键词中的每个关键词在每种类别下的条件概率。假设词汇类别信息中包括的类别的先验概率如表7所示,和种子词(即关键词)的条件概率如表8所示。
表7类别的先验概率
类别 先验概率
体育 0.5
IT 0.5
表8种子词的条件概率
种子词 类别 条件概率
太阳 体育 0.6
太阳 IT 0.4
火箭 体育 0.6
火箭 IT 0.1
主场 体育 0.8
主场 IT 0.1
…… …… ……
请参见表9,为假设的新词汇所对应的种子词表征向量。
表9新词汇对应的种子词表征向量
新词汇 种子词
纳什 火箭、主场、太阳…
…… ……
根据表7-表9,以及步骤602,对新词汇“纳什”计算其在每种类别下的总概率,即在每种类别下的分类概率,计算过程如表10所示。
则,对于“纳什”这个新词汇,
属于体育类别的总概率=0.5*0.6*0.8*0.6=0.44
属于IT类别的总概率=0.5*0.1*0.1*0.4=0.002
通过计算结果,根据步骤603,可以确定“纳什”这个新词汇的类别为体育类别。
本发明实施例中,可以通过对使用新词汇的用户访问过的网页内容进行分析来确定新词汇的类别,确定的结果比较准确。且在确定的过程中可以通过贝叶斯分类等方式来进行计算,可以使得获得的结果更为合理。
以下结合附图介绍本发明实施例中的装置。
请参见图7,基于同一发明构思及上述各实施例,本发明一个实施例提供一种词汇生成装置,所述装置可以包括第一获取模块701、解析模块702和第二获取模块703。
第一获取模块701,用于获得至少一个通信话单信息,通信话单信息包括用户访问的网页地址;
解析模块702,用于对至少一个通信话单信息分别包括的网页地址进行解析,获得对应的搜索语句;
第二获取模块703,用于获得搜索语句包括的搜索词汇,并从搜索词汇中去除已包括在词库中的搜索词汇,得到新词汇。
可选的,在本发明另一实施例中,第二获取模块703用于:
从搜索词汇中去除已包括在词库中的搜索词汇,并从剩余的搜索词汇中选择出现次数大于预设次数阈值的第一数量个搜索词汇,第一数量为正整数;
将第一数量个搜索词汇中的任意两个搜索词汇两两进行比较,若一个搜索词汇完全包括在另一个搜索词汇中,则去除被包含的搜索词汇,得到第二数量个搜索词汇,第二数量个搜索词汇为新词汇。
可选的,在本发明另一实施例中,第一获取模块701用于:
将获得的全部的通信话单信息对应的网页地址分别与预设网络域名进行匹配,匹配成功的通信话单信息为至少一个通信话单信息。
可选的,在本发明另一实施例中,所述装置还包括第一类别确定模块,第一类别确定模块用于在第二获取模块703得到新词汇之后,根据用户访问的网页地址确定新词汇的类别。
可选的,在本发明另一实施例中,通信话单信息中还包括用户访问的网页地址对应的用户标识;第一类别确定模块用于:
获得新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容;
对网页内容进行分词操作得到第三数量个关键词;
根据第三数量个关键词,以及关键词对应的词汇类别信息,确定新词汇的类别。
可选的,在本发明另一实施例中,第一类别确定模块用于:
对所述网页内容进行分词操作得到至少一个网页词汇,从所述至少一个网页词汇中去除部分网页词汇,该部分网页词汇为不包括新词汇的网页内容所包括的网页词汇;
从去除部分网页词汇后剩余的网页词汇中确定第三数量个关键词。
可选的,在本发明另一实施例中,第一类别确定模块用于:
获得去除部分网页词汇后剩余的网页词汇中的每个网页词汇的TF-IDF分数;
按照分数从高到低的顺序,获得剩余的网页词汇中分数靠前的第三数量个网页词汇,第三数量个网页词汇为第三数量个关键词。
可选的,在本发明另一实施例中,第一类别确定模块用于:
获得词汇类别信息中每种类别的先验概率,以及获得第三数量个关键词中的每个关键词在每种类别下的条件概率;
根据获得的先验概率和条件概率,获得第三数量个关键词对应于每种类别的总概率;
确定总概率最高的类别为新词汇的类别。
请参见图8,基于同一发明构思及上述各实施例,本发明一个实施例提供一种词汇分类装置,所述装置可以包括第三获取模块801、第四获取模块802和第二类别确定模块803。
第三获取模块801,用于获得新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容;
第四获取模块802,用于对网页内容进行分词操作得到第三数量个关键词;
第二类别确定模块803,用于根据第三数量个关键词,以及关键词对应的词汇类别信息,确定新词汇的类别。
可选的,在本发明另一实施例中,第四获取模块802还用于:
对网页内容进行分词操作得到至少一个网页词汇,从至少一个网页词汇中去除部分网页词汇,所述部分网页词汇为不包括新词汇的网页内容所包括的网页词汇;
用于从去除部分网页词汇后剩余的网页词汇中确定第三数量个关键词。
可选的,在本发明另一实施例中,第四获取模块802用于:
获得去除部分网页词汇后剩余的网页词汇中的每个网页词汇的TF-IDF分数;
按照分数从高到低的顺序,获得剩余的网页词汇中分数靠前的第三数量个网页词汇,第三数量个网页词汇为第三数量个关键词。
可选的,在本发明另一实施例中,第二类别确定模块803用于:
获得词汇类别信息中每种类别的先验概率,以及获得第三数量个关键词中的每个关键词在每种类别下的条件概率;
根据获得的先验概率和条件概率,获得第三数量个关键词对应于每种类别的总概率;
确定总概率最高的类别为新词汇的类别。
请参见图9,基于同一发明构思及上述各实施例,本发明一个实施例提供一种词汇生成装置,该词汇生成装置可以包括存储器901和处理器902。
处理器902具体可以是中央处理器或ASIC(Application Specific IntegratedCircuit,特定应用集成电路),可以是一个或多个用于控制程序执行的集成电路,可以是使用FPGA(Field Programmable Gate Array,现场可编程门阵列)开发的硬件电路,可以是基带芯片。存储器901的数量可以是一个或多个。存储器901可以包括ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)和磁盘存储器。
存储器901可以通过总线与处理器902相连接,或者也可以通过专门的连接线与处理器902连接。
通过对处理器902进行设计编程,将前述所示的方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述实施例中的所示的方法。如何对处理器902进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
本发明实施例中,
存储器901,用于存储处理器902执行任务所需的指令;
处理器902,用于执行存储器901存储的指令,获得至少一个通信话单信息,通信话单信息包括用户访问的网页地址;对至少一个通信话单信息分别包括的网页地址进行解析,获得对应的搜索语句;获得搜索语句包括的搜索词汇,并从搜索词汇中去除已包括在词库中的搜索词汇,得到新词汇。
可选的,在本发明另一实施例中,处理器902用于:
从搜索词汇中去除已包括在词库中的搜索词汇,并从剩余的搜索词汇中选择出现次数大于预设次数阈值的第一数量个搜索词汇,第一数量为正整数;
将第一数量个搜索词汇中的任意两个搜索词汇两两进行比较,若一个搜索词汇完全包括在另一个搜索词汇中,则去除被包含的搜索词汇,得到第二数量个搜索词汇,第二数量个搜索词汇为新词汇。
可选的,在本发明另一实施例中,处理器902用于:
将获得的全部的通信话单信息对应的网页地址分别与预设网络域名进行匹配,匹配成功的通信话单信息为至少一个通信话单信息。
可选的,在本发明另一实施例中,处理器902还用于:
在得到新词汇之后,根据用户访问的网页地址确定新词汇的类别。
可选的,在本发明另一实施例中,通信话单信息中还包括用户访问的网页地址对应的用户标识;处理器902还用于:
获得新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容;
对网页内容进行分词操作得到第三数量个关键词;
根据第三数量个关键词,以及关键词对应的词汇类别信息,确定新词汇的类别。
可选的,在本发明另一实施例中,处理器902用于:
对网页内容进行分词操作得到至少一个网页词汇,从至少一个网页词汇中去除部分网页词汇,该部分网页词汇为不包括新词汇的网页内容所包括的网页词汇;
从去除部分网页词汇后剩余的网页词汇中确定第三数量个关键词。
可选的,在本发明另一实施例中,处理器902还用于:
获得去除部分网页词汇后剩余的网页词汇中的每个网页词汇的TF-IDF分数;
按照分数从高到低的顺序,获得剩余的网页词汇中分数靠前的第三数量个网页词汇,第三数量个网页词汇为第三数量个关键词。
可选的,在本发明另一实施例中,处理器902还用于:
获得词汇类别信息中每种类别的先验概率,以及获得第三数量个关键词中的每个关键词在每种类别下的条件概率;
根据获得的先验概率和条件概率,获得第三数量个关键词对应于每种类别的总概率;
确定总概率最高的类别为新词汇的类别。
请参见图10,基于同一发明构思及上述各实施例,本发明一个实施例提供一种词汇分类装置,该词汇分类装置可以包括存储器1001和处理器1002。
处理器1002具体可以是中央处理器或ASIC,可以是一个或多个用于控制程序执行的集成电路,可以是使用FPGA开发的硬件电路,可以是基带芯片。存储器1001的数量可以是一个或多个。存储器1001可以包括ROM、RAM和磁盘存储器。
存储器1001可以通过总线与处理器1002相连接,或者也可以通过专门的连接线与处理器1002连接。
通过对处理器1002进行设计编程,将前述所示的方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述实施例中的所示的方法。如何对处理器1002进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
本发明实施例中,
存储器1001,用于存储处理器1002执行任务所需的指令;
处理器1002,用于执行存储器1001存储的指令,获得新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容;对网页内容进行分词操作,得到第三数量个关键词;根据第三数量个关键词,以及关键词对应的词汇类别信息,确定新词汇的类别。
可选的,在本发明另一实施例中,处理器1002还用于:
对网页内容进行分词操作得到至少一个网页词汇,从至少一个网页词汇中去除部分网页词汇,部分网页词汇为不包括新词汇的网页内容所包括的网页词汇;
从去除部分网页词汇后剩余的网页词汇中确定第三数量个关键词。
可选的,在本发明另一实施例中,处理器1002还用于:
获得去除部分网页词汇后剩余的网页词汇中的每个网页词汇的TF-IDF分数;
按照分数从高到低的顺序,获得剩余的网页词汇中分数靠前的第三数量个网页词汇,第三数量个网页词汇为第三数量个关键词。
可选的,在本发明另一实施例中,处理器1002用于:
获得词汇类别信息中每种类别的先验概率,以及获得第三数量个关键词中的每个关键词在每种类别下的条件概率;
根据获得的先验概率和条件概率,获得第三数量个关键词对应于每种类别的总概率;
确定总概率最高的类别为新词汇的类别。
本发明实施例中,可以根据通信话单信息来更新网络词库,有大量的用户每天都在不断地访问网页,可能在很短的时间内就可以产生大量的有效的通信话单信息,可见,通信话单信息的数据量巨大,那么,基于这些通信话单信息来生成新词汇,生成新词汇的效率也可以得到较大的提高,加快了网络词库的更新速度。
在本发明另一实施例中,可以从通信运营商处获得通信话单信息,由于通信运营商处得到的通信话单信息覆盖面非常广,则生成的新网络词汇的覆盖面也会比较广,采用通信运营商提供的通信话单信息作为新词汇生成的数据来源,产生的新词汇就可以覆盖绝大多数行业,能够满足大多数场景的需求。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将装置的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以对本申请的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,不应理解为对本发明的限制。本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (18)

1.一种词汇生成方法,其特征在于,包括:
通过通信运营商统计或监控的用户的流量信息,获得至少一个通信话单信息,所述通信话单信息包括所述用户访问的网页地址;
对所述至少一个通信话单信息分别包括的网页地址进行解析,获得对应的搜索语句;
获得所述搜索语句包括的搜索词汇,并从所述搜索词汇中去除已包括在词库中的搜索词汇,得到新词汇;
在所述得到新词汇之后,还包括:
根据所述用户访问的网页地址确定所述新词汇的类别。
2.如权利要求1所述的方法,其特征在于,从所述搜索词汇中去除已包括在词库中的搜索词汇,得到新词汇,包括:
从所述搜索词汇中去除已包括在词库中的搜索词汇,并从剩余的搜索词汇中选择出现次数大于预设次数阈值的第一数量个搜索词汇,所述第一数量为正整数;
将所述第一数量个搜索词汇中的任意两个搜索词汇两两进行比较,若一个搜索词汇完全包括在另一个搜索词汇中,则去除被包含的搜索词汇,得到第二数量个搜索词汇,所述第二数量个搜索词汇为所述新词汇。
3.如权利要求1或2所述的方法,其特征在于,所述获得至少一个通信话单信息,包括:
将获得的全部的通信话单信息对应的网页地址分别与预设网络域名进行匹配,匹配成功的通信话单信息为所述至少一个通信话单信息。
4.如权利要求1所述的方法,其特征在于,所述通信话单信息中还包括用户标识;所述根据所述用户访问的网页地址确定新词汇的类别,包括:
获得所述新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容;
对所述网页内容进行分词操作得到第三数量个关键词;
根据所述第三数量个关键词,以及所述关键词对应的词汇类别信息,确定所述新词汇的类别。
5.如权利要求4所述的方法,其特征在于,所述对网页内容进行分词操作得到第三数量个关键词包括:
对所述网页内容进行分词操作得到至少一个网页词汇,从所述至少一个网页词汇中去除部分网页词汇,所述部分网页词汇为不包括所述新词汇的网页内容所包括的网页词汇;
从去除所述部分网页词汇后剩余的网页词汇中确定所述第三数量个关键词。
6.如权利要求5所述的方法,其特征在于,所述从去除所述部分网页词汇后剩余的网页词汇中确定所述第三数量个关键词,包括:
获得去除所述部分网页词汇后剩余的网页词汇中的每个网页词汇的词频-反转文件频率TF-IDF分数;
按照分数从高到低的顺序,获得所述剩余的网页词汇中分数靠前的所述第三数量个网页词汇,所述第三数量个网页词汇为所述第三数量个关键词。
7.如权利要求6所述的方法,其特征在于,所述根据第三数量个关键词以及所述关键词对应的词汇类别信息,确定所述新词汇的类别,包括:
获得所述词汇类别信息中每种类别的先验概率,以及获得所述第三数量个关键词中的每个关键词在每种类别下的条件概率;
根据获得的先验概率和条件概率,获得所述第三数量个关键词对应于每种类别的总概率;
确定总概率最高的类别为所述新词汇的类别。
8.一种词汇分类方法,其特征在于,包括:
获得新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容;所述通信话单信息为通过通信运营商统计或监控随时用户的流量信息获得的信息;
对所述网页内容进行分词操作得到第三数量个关键词;
根据所述第三数量个关键词以及所述关键词对应的词汇类别信息,确定所述新词汇的类别。
9.如权利要求8所述的方法,其特征在于,所述对网页内容进行分词操作得到第三数量个关键词包括:
对所述网页内容进行分词操作得到至少一个网页词汇,从所述至少一个网页词汇中去除部分网页词汇,所述部分网页词汇为不包括所述新词汇的网页内容所包括的网页词汇;
从去除所述部分网页词汇后剩余的网页词汇中确定所述第三数量个关键词。
10.如权利要求9所述的方法,其特征在于,所述从去除所述部分网页词汇后剩余的网页词汇中确定所述第三数量个关键词,包括:
获得去除所述部分网页词汇后剩余的网页词汇中的每个网页词汇的词频-反转文件频率TF-IDF分数;
按照分数从高到低的顺序,获得所述剩余的网页词汇中分数靠前的所述第三数量个网页词汇,所述第三数量个网页词汇为所述第三数量个关键词。
11.如权利要求10所述的方法,其特征在于,所述根据所述第三数量个关键词以及所述关键词对应的词汇类别信息,确定所述新词汇的类别,包括:
获得所述词汇类别信息中每种类别的先验概率,以及获得所述第三数量个关键词中的每个关键词在每种类别下的条件概率;
根据获得的先验概率和条件概率,获得所述第三数量个关键词对应于每种类别的总概率;
确定总概率最高的类别为所述新词汇的类别。
12.一种词汇生成装置,其特征在于,包括:
第一获取模块,用于通过通信运营商统计或监控的用户的流量信息,获得至少一个通信话单信息,所述通信话单信息包括所述用户访问的网页地址;
解析模块,用于对所述至少一个通信话单信息分别包括的网页地址进行解析,获得对应的搜索语句;
第二获取模块,用于获得所述搜索语句包括的搜索词汇,并从所述搜索词汇中去除已包括在词库中的搜索词汇,得到新词汇;
所述装置还包括第一类别确定模块,用于在所述第二获取模块得到新词汇之后,根据所述用户访问的网页地址确定所述新词汇的类别。
13.如权利要求12所述的装置,其特征在于,所述第二获取模块用于:
从所述搜索词汇中去除已包括在词库中的搜索词汇,并从剩余的搜索词汇中选择出现次数大于预设次数阈值的第一数量个搜索词汇,所述第一数量为正整数;
将所述第一数量个搜索词汇中的任意两个搜索词汇两两进行比较,若一个搜索词汇完全包括在另一个搜索词汇中,则去除被包含的搜索词汇,得到第二数量个搜索词汇,所述第二数量个搜索词汇为所述新词汇。
14.如权利要求12或13所述的装置,其特征在于,所述第一获取模块用于:
将获得的全部通信话单信息对应的网页地址分别与预设网络域名进行匹配,匹配成功的通信话单信息为所述至少一个通信话单信息。
15.如权利要求12所述的装置,其特征在于,所述通信话单信息中还包括用户访问的网页地址对应的用户标识;所述第一类别确定模块用于:
获得所述新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容;
对所述网页内容进行分词操作得到第三数量个关键词;
根据所述第三数量个关键词,以及所述关键词对应的词汇类别信息,确定所述新词汇的类别。
16.一种词汇分类装置,其特征在于,包括:
第三获取模块,用于获得新词汇对应的通信话单信息中包括的用户标识的用户访问过的网页内容;所述通信话单信息为通过通信运营商统计或监控随时用户的流量信息获得的信息;
第四获取模块,用于对所述网页内容进行分词操作得到第三数量个关键词;
第二类别确定模块,用于根据所述第三数量个关键词,以及所述关键词对应的词汇类别信息,确定所述新词汇的类别。
17.如权利要求16所述的装置,其特征在于,所述第四获取模块还用于:
对所述网页内容进行分词操作得到至少一个网页词汇,从所述至少一个网页词汇中去除部分网页词汇,所述部分网页词汇为不包括所述新词汇的网页内容所包括的网页词汇;
从去除所述部分网页词汇后剩余的网页词汇中确定所述第三数量个关键词。
18.如权利要求17所述的装置,其特征在于,所述第二类别确定模块用于:
获得所述词汇类别信息中每种类别的先验概率,以及获得所述第三数量个关键词中的每个关键词在每种类别下的条件概率;
根据获得的先验概率和条件概率,获得所述第三数量个关键词对应于每种类别的总概率;
确定总概率最高的类别为所述新词汇的类别。
CN201510549508.1A 2015-08-31 2015-08-31 一种词汇生成、分类方法及装置 Active CN106484729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510549508.1A CN106484729B (zh) 2015-08-31 2015-08-31 一种词汇生成、分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510549508.1A CN106484729B (zh) 2015-08-31 2015-08-31 一种词汇生成、分类方法及装置

Publications (2)

Publication Number Publication Date
CN106484729A CN106484729A (zh) 2017-03-08
CN106484729B true CN106484729B (zh) 2020-05-08

Family

ID=58235477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510549508.1A Active CN106484729B (zh) 2015-08-31 2015-08-31 一种词汇生成、分类方法及装置

Country Status (1)

Country Link
CN (1) CN106484729B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728134A (zh) * 2018-06-29 2020-01-24 北京京东尚科信息技术有限公司 新词发现方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100578500C (zh) * 2006-12-20 2010-01-06 腾讯科技(深圳)有限公司 一种网页分类方法及装置
CN101645066B (zh) * 2008-08-05 2011-08-24 北京大学 一种互联网新颖词监测方法
CN101986310A (zh) * 2010-11-16 2011-03-16 无敌科技(西安)有限公司 一种更新网络用语词典的方法及装置
CN102508847A (zh) * 2011-09-27 2012-06-20 无敌科技(西安)有限公司 词典数据更新方法及系统、储存媒体及计算机程序产品
CN103186522B (zh) * 2011-12-29 2018-01-26 富泰华工业(深圳)有限公司 电子设备及其自然语言分析方法
CN103186612B (zh) * 2011-12-30 2016-04-27 中国移动通信集团公司 一种词汇分类的方法、系统和实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SVM词库智能更新技术在搜索分类中的应用;齐富民 等;《计算机工程与设计》;20140630;第35卷(第6期);第2017-2023页 *

Also Published As

Publication number Publication date
CN106484729A (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN106980692B (zh) 一种基于微博特定事件的影响力计算方法
KR101700585B1 (ko) 온라인 제품 검색 방법 및 시스템
Mihalcea Language independent extractive summarization
JP5449628B2 (ja) マルチステージを使用したカテゴリ情報の決定
US8849798B2 (en) Sampling analysis of search queries
CN106445963B (zh) App平台的广告索引关键词自动生成方法和装置
CN110096614B (zh) 信息推荐方法及装置、电子设备
CN110929145A (zh) 舆情分析方法、装置、计算机装置及存储介质
CN106780073A (zh) 一种考虑用户行为和情感的社会网络影响力最大化初始节点选取方法
CN101909018A (zh) 根据用户浏览网页返回即时通信群组的方法与系统
CN109388693B (zh) 一种确定分区意图的方法以及相关设备
CN103745380A (zh) 一种广告投放方法和装置
CN112667814A (zh) 热词的发现方法及系统
CN109635072B (zh) 舆情数据分布式存储方法、装置、存储介质和终端设备
CN111401039A (zh) 基于二元互信息的词语检索方法、装置、设备及存储介质
CN108446333A (zh) 一种大数据文本挖掘处理系统及其方法
CN104123321B (zh) 一种确定推荐图片的方法及装置
CN104462347A (zh) 关键词的分类方法及装置
CN105447004A (zh) 查询推荐词的挖掘、相关查询方法及装置
CN106484729B (zh) 一种词汇生成、分类方法及装置
CN108509449B (zh) 一种信息处理的方法及服务器
CN117593089A (zh) 信用卡推荐方法、装置、设备、存储介质及程序产品
CN110990701B (zh) 书籍搜索方法、计算设备及计算机存储介质
CN104077320B (zh) 一种用于生成待发布信息的方法和装置
CN106407254B (zh) 用户点击行为链的处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant