CN101315623A - 一种文本主题推荐方法和装置 - Google Patents

一种文本主题推荐方法和装置 Download PDF

Info

Publication number
CN101315623A
CN101315623A CNA200710107364XA CN200710107364A CN101315623A CN 101315623 A CN101315623 A CN 101315623A CN A200710107364X A CNA200710107364X A CN A200710107364XA CN 200710107364 A CN200710107364 A CN 200710107364A CN 101315623 A CN101315623 A CN 101315623A
Authority
CN
China
Prior art keywords
phrase
target
word
theme
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200710107364XA
Other languages
English (en)
Other versions
CN100595753C (zh
Inventor
吴辉
文德
项碧波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN200710107364A priority Critical patent/CN100595753C/zh
Publication of CN101315623A publication Critical patent/CN101315623A/zh
Priority to HK09100030.3A priority patent/HK1120895A1/xx
Application granted granted Critical
Publication of CN100595753C publication Critical patent/CN100595753C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种文本主题推荐方法和装置,所述方法包括:获取目标文本的目标词语;将所述目标词语组合为目标词组;根据所述目标词组和预置的短语词典获得所述目标文本的主题短语。这样一来,用户通过这些主题短语就可以迅速的获知该目标文本的主题内容,并进一步判断该信息的有效性,大大降低了用户判断文本主题所花费的时间成本。

Description

一种文本主题推荐方法和装置
技术领域
本发明涉及数据的分析处理,特别是涉及一种文本主题推荐的方法和装置。
背景技术
在信息技术快速发展的今天,与传统的纸质媒体相比,人们获取信息的能力获得了前所未有的提高。但是,人们在一边享受信息技术及互联网带来便利的同时,也不得不面对信息泛滥所带来的困扰。通常,在人们在获得的有效信息的同时,往往还掺杂着大量的、无用的垃圾信息。例如,人们可能每天都要面对数量庞大的电子邮件、网页或其他载有信息的文件等。那么该如何从如此繁多的文件中获取有效信息呢?
现有的技术条件下,用户为了判断文章中所记载信息的有效性,往往需要通过浏览文章的内容才能做出判断,而通常文章的内容都会具有较大的篇幅、包含非常多的信息,而用户浏览这些信息则需要花费大量的时间。若这样的文章、邮件是垃圾信息,则会极大地浪费用户的时间和资源。
发明内容
本发明的目的提供一种文本主题推荐方法和装置,以解决现有技术中用户必须通过浏览全文才能获知该文章主题所花费的大量时间成本的问题。
为解决上述问题,本发明公开了一种文本主题推荐方法,包括:
获取目标文本的目标词语;
将所述目标词语组合为目标词组;
根据所述目标词组和预置的短语词典获得所述目标文本的主题短语。
优选的,所述将目标词语组合为目标词组包括:
将所述目标词语组成相关词组;
对所述相关词组中的目标词语进行聚类获得目标词组。
优选的,所述收集目标词语包括:对所述目标文本分词,获得目标词语。
优选的,所述方法还包括:对分词后得到的目标词语按预置规则进行过滤。
优选的,所述根据目标词组和预置的短语词典获得主题短语包括:据目标词组中的词语分别从预置的短语词典中查找对应的短语;对同一目标词组的词语所对应的短语,取其交集作为目标文本的一个主题短语;重复该步骤,直到获得所有的主题短语。
优选的,所述预置的短语词典中的短语设置有短语权重;所述获得主题短语还包括:对主题短语按其对应的权重进行排序。
优选的,所述方法还包括:计算目标词语的权重;根据所述目标词语的权重优选出所述目标文本的主题关键词;将所述主题关键词组成相关词组;所述对相关词组中的词语进行聚类是对该相关词组中的主题关键词进行聚类。
为解决上述问题,本发明还公开了一种文本主题推荐装置,所述装置包括:
目标词语获取单元,用于获取目标文本的目标词语;
组合单元,用于将目标词语获取单元所获取的目标词语组合为目标词组;
主题短语获取单元,用于根据聚类单元所获得的目标词组和预置的短语词典获取目标文本的主题短语。
优选的,所述组合单元包括:
相关词组获取单元,用于将目标词语获取单元所获取的目标词语组成相关词组;
聚类单元,用于对相关词组获取单元所获取的相关词组中的词语进行聚类以获得目标词组;
优选的,所述目标词语收集单元还包括:
分词单元,用于对目标文本分词,获得目标词语。
优选的,所述目标词语收集单元还包括:过滤单元,用于对分词单元获得目标词语按预定规则进行过滤。
优选的,所述主题短语获取单元包括:
短语查找单元,用于从预置的短语词典中查找与目标词组中的词语对应的短语;
主题短语生成单元,用于对同一目标词组中的词语所对应的短语,取其交集作为一个主题短语。
优选的,所述预置的短语词典中设置有权重;
所述主题短语获取单元还包括:主题短语排序单元,用于对主题短语按其对应的权重进行排序。
优选的,所述系统还包括:
权重计算单元,用于计算目标词语的权重;
主题关键词优选单元,用于从目标词语中按照其权重优选出主题关键词;
所述相关词组获取单元还用于将主题关键词优选单元所优选出的主题关键词生成相关词组。
另外,本发明还公开了一种网页搜索方法,包括以下步骤:
收集目标网页,获取该目标网页的目标词语;
将所述目标词语组合为目标词组;
根据所述目标词组和预置的短语词典获得所述目标网页的主题短语;
建立所述目标网页与该目标网页主题短语的映射关系;
从所述映射关系中查找与搜索关键词匹配的主题短语及相应的目标网页。
另外,本发明还公开了一种网页搜索装置,包括:
目标网页收集单元,用于收集目标网页;
目标词语获取单元,用于获取目标文本的目标词语;
组合单元,用于将目标词语获取单元所获取的目标词语组合为目标词组;
主题短语获取单元,用于根据聚类单元所获得的目标词组和预置的短语词典获取目标网页的主题短语。
映射单元,用于建立目标网页与该目标网页主题短语之间的映射关系;
接口单元,用于接收搜索关键字;
搜索单元,用于从所述映射单元中查找与接口单元接收的搜索关键字相匹配的主题短语和相应的目标网页。
与现有技术相比,本发明能够取得以下效果:
在现有技术中,面对各种各样的电子信息,用户往往只能通过浏览全文才能判断该信息的有效性,如此一来,将会耗费该用户大量的时间成本。本发明通过对目标文本分词获得目标词语;再将目标词语组合为目标词组;最后根据目标词组和预置的短语词典获得所述目标文本的主题短语。这样一来,用户通过这些主题短语就可以迅速的获知该目标文本的主题内容,因此,大大降低了用户判断文本信息有效性所花费的大量时间成本。
附图说明
图1是本发明所述文本主题推荐方法的实施例1步骤流程图;
图2是本发明所述文本主题推荐方法的实施例2步骤流程图;
图3是本发明所述文本主题推荐装置的一实施例的结构框图;
图4是本发明所述网页搜索方法的一实施例的步骤流程图;
图5是本发明所述网页搜索装置的一实施例的结构框图。
具体实施方式
目前,随着信息技术的发展,人们获取信息的方式也变得非常快捷,但随之而来的垃圾信息却给人们带来了无尽的困扰。在现有技术中,面对各种各样的电子信息,用户往往只能通过浏览全文才能判断该信息的有效性,如此一来,将会耗费该用户大量的时间成本。本发明通过对获取目标文本的目标词语;将所述目标词语组成相关词组;对所述相关词组中的目标词语进行聚类获得目标词组;根据所述目标词组和预置的短语词典获得所述目标文本的主题短语,这样一来,用户通过这些主题短语就可以迅速的获知该目标文本的主题内容,并进一步判断该信息的有效性,因而很好的解决了现有技术存在的上述问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施例对本发明作进一步详细的说明。
本发明的实施例1中,通过对获取目标文本的目标词语,然后对目标词语聚类获得该目标文本的主题关键词。下面结合图1对该实施例作进一步详细描述:
步骤101:获取目标文本的目标词语。
本发明中,对目标文本的存储载体不做限制,例如可以是网页、txt文件、word文件、xml文件等。本发明所述的目标文本既可以是一句、一段话,也可以是一篇文章,当然也可以是其他任何形式的存在的文本信息。可以看出,对任何具有语意的文本都可以看作是由很多个句子组成,因此,句子是最基本的目标文本。
本发明中,词语是最小的语意单位,所述目标词语就是构成目标文本内容的词语。优选的,对目标词语分词获得目标词语。另外,目标词语也可由第三方根据目标文本获得并提供。
对目标文本分词可采用典型的“查字典”法。所谓“查字典”法,就是把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如“上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词,这样,对一个句子的分词就完成了。当然也可以采用其它分词方法,如统计语言模型分词方法。采用何种分词方法对目标文本进行分词,可由本领域技术人员在实施本发明时根据需要自行选择,本发明对此不做限制。
优选的,对获得的目标词语按预置规则进行过滤。例如,过滤掉目标词语中包含的“的”“地”“啊”这样的词。由于这类“应删除”的词语对文本主题通常不会产生影响,将其过滤掉不但可以减少处理其所消耗的成本,而且可以降低对其他词语产生的干扰。
步骤102:将所述目标词语组成相关词组。
在得到目标文本的目标词语后,将任意两个不同的目标词语组成相关词组,然后逐一判断相关词组在预置的相关性词典中是否存在,若存在,则取得该相关词组对应的相关性权重;否则,将该相关词组的权重置为0。
相关性词典中设置有词组和词组的相关性权重。其中,每个词组包含2个词语,如假设词语为Wi(1<=i<=n,n为词语总数),则相关性词典的内容示例如下:
词组         相关性权重
w1:w2        0.4
w1:w3        0.1
w1:w4        0.3
w2:w3        0.0
w2:w4        0.2
w3:w4        0.1
....
下面举例说明如何计算词组的相关性权重:
首先,采集多个文本作为语料;然后,对每个文本进行切词,得到每个词语出现的文本数P;最后,统计任意两个词语共同出现的文本数T,根据公式计算任意两个词语W1和W2的相关性:(T/P1+T/P2)/2。
例如,选择100个文本作为语料,词语“雅虎”在20个文本中出现,则“雅虎”的文本数为20,词语“中国”出现的文本数为“90。“雅虎”和“中国”一起出现的文本数为10,那么词语“雅虎”和“中国”的相关性为(10/20+10/90)/2=0.31。
按照上述方法,若得到目标词语为:w1、w2、w3、w4,将这些目标词语两两组成相关词组,然后逐个查询相关性词典中是否存在该词组,若存在,获得对应的权重;若不存在,权重设置为0。查询结果为:{w1,w2}=0.4,{w1,w3}=0.1,{w1,w4}=0.3,{w2,w3}=0,{w2,w4}=0.2,{w3,w4}=0.1。
步骤103:对相关词组中的目标词语进行聚类获得目标词组。
聚类算法的具体描述如下:
首先,预置第二阀值(m)和一个空的词组集(A)。所述第二阀值根据经验给出。
步骤s1:判断A是否为空,若为空,执行步骤s2;若不为空,执行步骤s3。
步骤s2:判断是否存在权重值大于阀值m的相关词组,若存在,取权重值最大的词组置为A,并将该词组从相关词组集合中删除;否则,则执行步骤s5。
步骤s3:判断是否扫描完所有的主题关键词,若扫描未完成,扫描并选择一个主题关键词(w),所述用于扫描的主题关键词不包括所述当前A中的主题关键词;否则,执行步骤s5。
步骤s4:若w满足预置条件,则将w作为一个新的元素加入A,然后执行步骤s3;若不满足,将A保存为一个目标词组,然后将A置空,执行步骤s1。
步骤s5:聚类结束。
上述步骤s4中,优选的,所述用于判断当前关键词是否满足的预置条件是指:当前主题关键词与A中每一个主题关键词所构成的相关词组的相关性权重均大于预置阀值。另外,所述预置条件还可以是:当前主题关键词与A中的任意一个主题关键词所构成的相关词组的相关性权重大于预置阀值。该步骤中,若w满足预置条件,即w与A中的任意一个关键词或每一个关键词构成的相关词组的权重值大于第二阀值,则将该相关词组从相关词组集合中删除。
对于步骤102得到的相关词组:
{w1,w2}=0.4,
{w1,w3}=0.1,
{w1,w4}=0.3,
{w2,w3}=0,
{w2,w4}=0.2,
{w3,w4}=0.1,
若预置阀值为0.2,应用上述聚类算法得到的目标词组为:{w1,w2,w4}。
上述对词语聚类获得目标词组的描述只是本发明优选的实现方式,本领域技术人员在实施本发明时可对聚类算法进行改进或替换,但是无论采用何种表达形式,都不能认为超出了上述算法所描述的思想。
需要指出的是,步骤102和步骤103所述将目标词语组合为目标词组的方法只是本发明优选的方法,本领域技术人员在实施本发明时不必局限与此,例如,还可采用下面的方法将目标词语组合为目标词组:
首先,将目标词语视为元素,按照元素可能组成的关系分别获得相应的元素集合;
其次,对所述元素集合进行分组获得子集合,其中每一个子集合就是一个目标词组。分组时应该满足以下两个条件:
1)各个子集合的元素合起来为元素全集;
2)每个元素只可能出现在一个子集合中。
下面,通过一个例子对上述方法进一步说明:
若存在3个目标词语w1、w2和w3,首先分别获得包含1个元素和2个元素集合:
一元集合:{w1}、{w2}、{w3}
二元集合:{w1,w2}、{w1,w3}、{w2,w3}
然后,按上述规则将得到的元素集合进行分组获得新的子集合:
{{w1}、{w2}、{w3}};
{{w1}、{w2,w3}};
{{w2}、{w1,w3}};
{[w3}、{w1,w2}};
其中,每一个子集和都将被作为一个目标词组。
步骤104:根据所述目标词组和预置的短语词典获得所述目标文本的主题短语。
该步骤包括以下子步骤,下面逐个描述:
首先,从获得的目标词组中选择一个目标词组执行步骤1401。
步骤1041:根据目标词组中的词语分别从预置的短语词典中查找对应的短语。
本发明中,短语是有顺序的两个或多个词语的组合。预置的短语词典中设置有词语和包含该词语的短语之间的映射关系,内容示例如下:
  词语   短语1  短语2   短语3
  w1   w1w3w4  w4w1   w2w3w1w4
  w2   w1w2  W2w1   w2w3w1w4
  W3   w1w3  w3w4
  W4   w1w4  W2w4   w2w3w1w4
例如,对于目标词组{w1,w2,w4},分别在短语词典中查询词语w1、w2和w4对应的短语。
步骤1042:对同一目标词组中的词语所对应的短语,取其交集作为目标文本的一个主题短语。
步骤1043:判断是否处理完所有的目标词组,若没有,执行步骤1041。
例如对于目标词组{w1,w2,w4},词语w1,w2,w4短语的交集为:w2w3w1w4,该短语即为目标文本的一个主题短语。对其它的目标词组也采用同样的方法进行处理获得相应的主题短语。
优选的,短语词典中的每一个短语还设置有相应的权重。
  词语   短语1  权重1
  w1   w1w3w4  3
  w2   w1w2  2
  W3   w1w3  2
  W4   w1w4  2
权重值可以按照该短语包含的词语个数进行设置,如短语w1w3w4包含了3个词语,则该短语的权重值为3;另外,也可以按照该短语被检索的次数统计得出,如,若短语w1w3w4被检索了600次,则该短语的权重为600,当然也可以采用其他方法设置短语的权重。由于短语词典中设置了短语的权重,因此,根据该短语词典得到的主题短语也具有相应的权重,可按照权重对多个主题短语进行排序,将权重值高的主题短语优先展示给用户,有利于该用户更加快速地判断文本的主题。
优选的,短语词典中还设置有短语的所属类别。例如:
  词语   短语1  权重1  所属类别1
  w1   w1w3w4  3  机械
  w2   w1w2  2  电子
  W3   w1w3  2  法律
  W4   w1w4  2  手机
通过所属类别,在检索目标词组别中主题关键词的短语时,按照预先给定的类别检索短语,这样一来,可进一步缩小检索范围,提高主题短语的准确性。
一般的,短语是有顺序的两个或多个的词语。与独立的词语相比较,短语具有更加准确的语意含义,例如:词语“笔记本”通常具有两种含义,一种是书写用的工具,另一种是个人电脑。当出现“笔记本”时,我们往往还不能对其表达的含义做出准确判断,但是若出现的是一个短语“IBM笔记本”,则可以认为其要表达的含义是笔记本电脑。实施例1通过对目标文本的目标词语进行聚类,并进一步获得具有明确语意、能够准确预测目标文本主题的短语,用户通过这些主题短语就能够快速、有效地获得该文本的主题,并进一步对文本内容的有效性做出判断,从而极大地节省了用户的时间和资源。
以上描述了本发明所述文本主题推荐方法的实施例1,在本发明的实施例2中,在获得目标文本的目标词语后,计算目标词语的权重,然后,按规则优选出主题关键词,并进一步将得到的主题关键组成相关词组以获得相应的主题短语。下面结合图2对该实施例进行详细描述:
步骤201:对目标文本分词获得目标词语。
步骤202:对目标词语按预置规则进行过滤。
步骤203:计算目标词语的权重。
优选的,目标词语的权重按以下步骤计算:
a:从得到的目标词语中选择一个用于计算权重的目标词语tw。
b:从预置的词典中获取该目标词语tw对应的词根权重。
所述预置的词典中设置有词根和该词根对应的权重。优选的,词根的权重为该词根的逆文本频率指数(IDF,Inverse Document Frequency)。词根的IDF是根据预先收集的多个文本作为语料计算得出。IDF的计算公式为ln(D/Dw),其中D是收集的全部的语料文本数,Dw为词根w在D个文本中出现的次数。例如,假定中文网页数是D=10亿,假如词根“巧克力”在两百万篇文章中出现,即Dw=200万,则词根“巧克力”的权重IDF=ln(500)=6.2。
从词典中查找与目标词语tw匹配的词根,并取得该词根对应的权重。
c:计算该目标词语在所述目标文本中的词语频率(TF,Term Frequency)。
将该目标词语在目标文本中出现的次数除以该目标文本的总字数,其商值就是该目标词语的TF。例如,一篇1000字的文章中,“巧克力”出现了2次,那么目标词语“巧克力”的TF值为2。
d:计算目标词语tw的权重Weight。目标词语的权重为该目标词语的TF与所对应的词根IDF的乘积。
e:按照上述步骤b、c、d所述的方法分别计算每一个目标词语的权重。
结果如下:
Weight1=TF1*IDF1;
Weight2=TF2*IDF2;
...
Weightn=TFn*IDFn
优选的,上述步骤b所使用的词典的内容按照语料所属专业或所属领域进行设置。例如,可按照法律、机械、电子、化工等领域分别收集语料、设置背景词典。若已知目标文本所述领域,就可以选择相应的词典计算目标词语的权重,这样一来,进一步缩小了词根的语意范围,提高了计算的准确性。
需要指出的是,上述将词根的IDF值作为词根的权重只是本发明优选的方法,在实施本发明时还可以采用其他方法设置词根的权重,例如,可将词根在语料中出现的频率作为该词根的权重。
用目标词语的频率和词根权重的乘积作为目标词语的权重也是本发明优选的方法,此外,还可以根据目标词语在目标文本中的位置以及该目标词语所属词性来计算目标词语的权重,具体过程为:
所述词语位置为词语在文本中出现的位置比例,例如,文本总的字数为100,若词语在第5字符的位置出现,那么该词语在所述文本中的位置为:5/100=0.05。
在词典中设置词根以及与该词根对应的词性,每一种词性设置有相应的权重,例如,可将动词的权重设置为5,形容词设置为2。
计算目标词语的权重时,首先计算该目标词语在目标文本中的位置,然后查找词典,获得该目标词语对应的词性权重,取二者的乘积作为该目标词语的权重。
当然,本领域技术人员在实施本发明时也可采用其他方式计算目标词语的权重,本发明对此不做限制。
步骤204:根据目标词语的权重优选出目标文本的主题关键词。
优选的,按照以下步骤优选主题关键词:
对目标词语按权重进行排序;将所述目标词语的权重与预置的第一阀值进行比较,若大于,则将该目标词语作为目标文本的主题关键词。
步骤205:将主题关键词组成相关词组。
步骤206:对相关词组中的主题关键词进行聚类获得目标词组。
步骤207:根据目标词组和预置得短语词典获取目标文本的主题短语。
在本发明的实施例2中,通过对目标文本的目标词语计算权重,优选出该目标文本的主题关键词,然后基于得到的主题关键词获得相应的主题短语。由于主题关键词与最初获得的目标词语相比数量大大减少,因此在获得主题短语地过程中,其运算量也大大减少,不但进一步提高了推荐主题短语的速度,而且资源消耗也大为降低。实施例2中未详尽之处,请参考实施例1,这里不再赘述。
以上结合具体的实施例描述了本发明所述的一种文本主题推荐方法,在下面的实施例3中,结合图3,对本发明所述的一种文本主题推荐装置进行描述,如图3所示,
所述装置包括:
目标词语获取单元310,用于获取目标文本的目标词语;
组合单元320,用于将目标词语获取单元所获取的目标词语组合为目标词组;
主题短语获取单元340,用于根据聚类单元所获得的目标词组和预置的短语词典获取目标文本的主题短语。
优选的,所述装置还包括:分词单元350,用于对目标文本分词,获得目标词语。
优选的,所述装置还包括:过滤单元360,用于对分词单元获得的目标词语按预定规则进行过滤。
优选的,所述装置还包括:词典训练单元370,用于建立词典;存储单元380,用于存储词典。
其中,所述词典训练单元370包括:语料收集单元371,用于收集多个不同的文本作为语料;相关性词典训练单元372,用于根据语料收集单元所收集的语料在存储单元中设置相关性词典,该相关性词典包括词组和该词组的相关性权重;短语词典训练单元373,用于根据语料收集单元所收集的语料在存储单元中设置短语词典,该短语词典包括词语以及该词语对应的短语。
优选的,所述组合单元330包括:
相关词组获取单元331,用于将目标词语获取单元所获取的目标词语组成相关词组;
聚类单元332,用于对相关词组获取单元所获取的相关词组中的词语进行聚类以获得目标词组。其中,所述聚类单元332还包括:
初始化单元3321,用于根据存储单元中的相关性词典设置所述相关词组的相关性权重;目标词组生成单元3322,用于从所述相关词组中选择相关性权重最高的词组作为目标词组;扫描词语,将满足预置条件的词语作为一个新的元素加入目标词组,所述用于扫描的词语不包括所述目标词组中的词语;重复该步骤,直到获得所有的目标词组。优选的,所述满足预置条件为该词语与所述目标词组中的每一个词语组成的相关词组的相关性权重大于第二阀值。
优选的,所述组合单元330还包括:
分组单元333,用于对目标词语分组获得目标词组。
所述主题短语获取单元340包括:
短语查找单元341,用于从存储单元中的短语词典中查找与目标词组中的词语对应的短语;
主题短语生成单元342,用于对同一目标词组的词语所对应的短语,取其交集作为一个主题短语。
优选的,所述存储单元中的短语词典的短语设置有短语权重;所述主题短语获取单元包括还包括:主题短语排序单元343,用于对主题短语生成单元所生成的主题短语按其对应的权重进行排序。
优选的,所述词典训练单元370还包括:词根词典训练单元374,用于根据语料收集单元所收集的语料在存储单元中设置词根词典,该词根词典包括词根以及该词根对应的权重。优选的,所述权重为该词根在所述语料中的逆文本频率指数。
优选的,所述装置还包括:权重计算单元390,用于计算目标词语的权重;主题关键词优选单元320,用于从目标词语中按照其权重优选出主题关键词;所述相关词组获取单元还可用于将主题关键词优选单元得到的主题关键词生成相关词组,再由聚类单元对这些相关词组中的主题关键词进行聚类获得目标词组,最后,由主题短语获取单元根据所述目标词组和存储单元中的短语词典获得目标文本的主题短语。
其中,所述权重计算单元包括:
词频计算单元391,用于计算目标词语在所述目标文本中的词语频率;
词根权重获取单元392,用于从存储单元的词根词典中获取目标词语的词根权重;
目标词语权重计算单元393,用于根据词频计算单元所计算的目标词语的词语频率和词根权重获取单元所获取的词根权重计算目标词语的权重,所述目标词语的权重为所述词语频率与所述词根权重的乘积。另外,目标词语权重计算单元也可按照目标词语在目标文本中的位置以及该目标词语所述的词性计算该目标词语的权重。
其中,所述主题关键词优选单元320包括:排序单元321,用于对目标词语按权重进行排序;主题关键词选择单元322,用于比较目标词语的权重与第一阀值,若大于,则将该目标词语作为目标文本的主题关键词。
应用所述文本主题推荐装置,对于一个目标文本,
首先,分词单元350对该目标文本进行分词,获得目标词语;然后,过滤单元360对分词单元350获得的目标词语按规则进行过滤。
其次,词频计算单元391计算目标词语在所述目标文本中的词语频率;词根权重获取单元392从存储单元380的词根词典中获取目标词语的词根权重;目标词语权重计算单元393计算目标词语的权重,所述目标词语的权重为所述词语频率与所述词根权重的乘积。
得到目标词语的权重后,排序单元321对目标词语按权重进行排序;主题关键词选择单元322比较目标词语的权重与第一阀值,若大于,则将该目标词语作为目标文本的主题关键词。
基于得到的主题关键词,相关词组获取单元331将每两个主题关键词组合成一个相关词组;然后,初始化单元3321根据存储单元380中的相关性词典设置这些相关词组的权重;最后,由目标词组生成单元3322将这些相关词组生成目标词组。
对于目标词组生成的目标词组,短语查找单元根据该目标词组中的主题关键词分别从短语词典中查找对应的短语;最后,主题短语生成单元342将属于同一目标词组的主题关键词所对应的短语取交集生成一个主题短语。
以上对本发明所述文本主题推荐装置的一个实施例进行了描述,未详尽之处请参见上述方法实施例所述内容。
随着互联网的发展,网页资源以指数级数量增长,因此,如何从庞大数量的网页资源中准确的获取我们需要的信息就变得越来越重要。参见图4,图4示出了本发明所述网页搜索方法的一实施例的步骤流程图,下面对该实施例进行详细介绍。
步骤501:对从互联网中收集到的网页进行分词,获得目标词语。
利用离散数学中图的概念,我们可以将整个互联网看作是一个图,每一个网页看作是这个图中的一个节点,而网页中的超链接则可以看作是图中节点之间的弧。这样一来,收集网页的过程就可以看作是遍历图中的每一个节点的过程。
可以通过建立程序,自动从互联网中收集网页、对网页分词以获得目标词语。这样的程序也就是我们常说的“网络爬虫”。
步骤502:将得到的目标词语组成相关词组。
步骤503:对相关词组中的词语进行聚类获得目标词组。
步骤504:根据目标词组和预置的短语词典获得该网页的主题短语。
步骤505:基于得到的网页的主题短语,建立网页和网页主题短语的映射关系。
其中,步骤502和步骤503是将目标词语组合为目标词组的优选方法。
为了便于实现对网页的搜索,我们进一步建立词根与包含该词根的主题短语以及对应网页之间的映射关系,这样的映射关系可以看作是一张表,表结构内容示例如下,表中所述“地址”为网页地址:
词根a主题短语1地址1主题短语2地址2...主题短语n地址n
词根b主题短语1地址1主题短语2地址2...主题短语n地址n
...
词根n主题短语1地址1主题短语2地址2...主题短语n地址n
步骤506:从所述映射关系中查找与检索关键词相匹配的主题短语及相应的网页。
当用户需要搜索网页时,通常会先输入搜索关键词。然后,根据该搜索关键词从上述映射表中查找包含该搜索关键词的主题短语和相应的网页地址。最后,将搜索结果显示给用户。
在上述实施例中,由于主题短语能够非常准确的预测网页内容的主题,因此通过查找主题短语所获得网页与搜索关键词的相关性大大提高。而且,由于避免了用网页的全部内容与搜索关键词进行匹配,因此,有效的提高了搜索效率,节约了搜索所需花费的时间。上述实施例中未详尽之处,请参见上文有关实施例1或实施例2的内容,这里不再赘述。
参照以上有关本发明的介绍,如图5所示,是本发明所述网页搜索装置的一个实施例的结构框图,所述装置600包括:
目标网页收集单元610,用于收集目标网页;
目标词语获取单元620,用于获取目标网页的目标词语;
组合单元630,用于将目标词语获取单元所获取的目标词语组合为目标词组;
主题短语获取单元640,用于根据聚类单元所获得的目标词组和预置的短语词典获取目标网页的主题短语。
映射单元650,用于建立目标网页与该目标网页主题短语之间的映射关系;
接口单元670,用于接收搜索关键字;
搜索单元660,用于从所述映射单元中查找与接口单元接收的搜索关键字相匹配的主题短语和相应的目标网页。
优选的,所述组合单元630还包括:相关词组获取单元631,用于将目标词语获取单元所获取的目标词语组成相关词组;聚类单元632,用于对相关词组获取单元所获取的相关词组中的词语进行聚类以获得目标词组;分组单元633,用于对目标词语获取单元所获取的目标词语进行分组获得目标词组。
首先,目标网页收集单元610从互联网中收集网页;然后,对目标网页收集单元610所收集的每一个网页,目标词语获取单元620从该网页中获取目标词语。其次,相关词组获取单元631将得到的目标词语组成目标词组。聚类单元632对该目标词组中的词语进行聚类获得目标词组。再其次,由主题短语获取单元640根据目标词组和预置的短语词典获得该目标网页的主题短语。最后,基于获得的主题短语,映射单元650建立目标网页和目标网页主题短语之间的映射关系。建立了上述映射关系,接口单元670可以接收用户从外部输入的搜索关键词,然后由搜索单元660从所述映射单元650中查找与接口单元670接收的搜索关键字相匹配的主题短语和相应的目标网页。
该实施例未详尽之处请参见上文实施例所述内容。
以上对本发明所提供的一种文本主题推荐方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1、一种文本主题推荐方法,其特征在于,包括:
获取目标文本的目标词语;
将所述目标词语组合为目标词组;
根据所述目标词组和预置的短语词典获得所述目标文本的主题短语。
2、根据权利要求1所述的方法,其特征在于,所述将目标词语组合为目标词组包括:
将所述目标词语组成相关词组;
对所述相关词组中的目标词语进行聚类获得目标词组。
3、根据权利要求1所述的方法,其特征在于,所述收集目标词语包括:
对所述目标文本分词,获得目标词语。
4、根据权利要求3所述的方法,其特征在于,所述方法还包括:
对分词后得到的目标词语按预置规则进行过滤。
5、根据权利要求1、2、3或4所述的方法,其特征在于,所述根据目标词组和预置的短语词典获得主题短语包括:
根据目标词组中的词语分别从预置的短语词典中查找对应的短语;
对同一目标词组的词语所对应的短语,取其交集作为目标文本的一个主题短语;重复该步骤,直到获得所有的主题短语。
6、根据权利要求5所述的方法,其特征在于,所述预置的短语词典中的短语设置有短语权重;
所述获得主题短语还包括:对主题短语按其对应的权重进行排序。
7、根据权利要求6所述的方法,其特征在于,所述方法还包括:
计算目标词语的权重;
根据所述目标词语的权重优选出所述目标文本的主题关键词;
将所述主题关键词组成相关词组;
所述对相关词组中的词语进行聚类是对该相关词组中的主题关键词进行聚类。
8、一种文本主题推荐装置,其特征在于,所述装置包括:
目标词语获取单元,用于获取目标文本的目标词语;
组合单元,用于将目标词语获取单元所获取的目标词语组合为目标词组;
主题短语获取单元,用于根据聚类单元所获得的目标词组和预置的短语词典获取目标文本的主题短语。
9、根据权利要求8所述的装置,其特征在于,所述组合单元包括:
相关词组获取单元,用于将目标词语获取单元所获取的目标词语组成相关词组;
聚类单元,用于对相关词组获取单元所获取的相关词组中的词语进行聚类以获得目标词组。
10、根据权利要求9所述的装置,其特征在于,所述目标词语收集单元还包括:
分词单元,用于对目标文本分词,获得目标词语。
11、根据权利要求10所述的装置,其特征在于,所述目标词语收集单元还包括:
过滤单元,用于对分词单元获得目标词语按预定规则进行过滤。
12、根据权利要求8、9、10或11所述的装置,其特征在于,所述主题短语获取单元包括:
短语查找单元,用于从预置的短语词典中查找与目标词组中的词语对应的短语;
主题短语生成单元,用于对同一目标词组中的词语所对应的短语,取其交集作为一个主题短语。
13、根据权利要求12所述的装置,其特征在于,所述预置的短语词典中设置有权重;
所述主题短语获取单元还包括:主题短语排序单元,用于对主题短语按其对应的权重进行排序。
14、根据权利要求13所述的装置,其特征在于,所述系统还包括:
权重计算单元,用于计算目标词语的权重;
主题关键词优选单元,用于从目标词语中按照其权重优选出主题关键词;
所述相关词组获取单元还用于将主题关键词优选单元所优选出的主题关键词生成相关词组。
15、一种网页搜索方法,其特征在于,包括以下步骤:
收集目标网页,获取该目标网页的目标词语;
将所述目标词语组合为目标词组;
根据所述目标词组和预置的短语词典获得所述目标网页的主题短语;
建立所述目标网页与该目标网页主题短语的映射关系;
从所述映射关系中查找与搜索关键词匹配的主题短语及相应的目标网页。
16、一种网页搜索装置,其特征在于,包括:
目标网页收集单元,用于收集目标网页;
目标词语获取单元,用于获取目标文本的目标词语;
组合单元,用于将目标词语获取单元所获取的目标词语组合为目标词组;
主题短语获取单元,用于根据聚类单元所获得的目标词组和预置的短语词典获取目标网页的主题短语。
映射单元,用于建立目标网页与该目标网页主题短语之间的映射关系;
接口单元,用于接收搜索关键字;
搜索单元,用于从所述映射单元中查找与接口单元接收的搜索关键字相匹配的主题短语和相应的目标网页。
CN200710107364A 2007-05-29 2007-05-29 一种文本主题推荐方法和装置 Active CN100595753C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN200710107364A CN100595753C (zh) 2007-05-29 2007-05-29 一种文本主题推荐方法和装置
HK09100030.3A HK1120895A1 (en) 2007-05-29 2009-01-02 Text subject recommending method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710107364A CN100595753C (zh) 2007-05-29 2007-05-29 一种文本主题推荐方法和装置

Publications (2)

Publication Number Publication Date
CN101315623A true CN101315623A (zh) 2008-12-03
CN100595753C CN100595753C (zh) 2010-03-24

Family

ID=40106635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710107364A Active CN100595753C (zh) 2007-05-29 2007-05-29 一种文本主题推荐方法和装置

Country Status (2)

Country Link
CN (1) CN100595753C (zh)
HK (1) HK1120895A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200984A (zh) * 2010-03-24 2011-09-28 深圳市腾讯计算机系统有限公司 一种基于复合词的搜索方法和搜索引擎服务器
CN102737017A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 一种提取页面主题的方法和装置
CN103914490A (zh) * 2013-01-08 2014-07-09 纽海信息技术(上海)有限公司 网页运行方法和系统
WO2014187076A1 (zh) * 2013-05-23 2014-11-27 华为技术有限公司 自然语言的生成方法及系统
CN104462360A (zh) * 2014-12-05 2015-03-25 北京奇虎科技有限公司 一种为文本集合生成语义标识的方法和装置
CN104598607A (zh) * 2015-01-29 2015-05-06 百度在线网络技术(北京)有限公司 推荐搜索短语的方法及系统
CN105930435A (zh) * 2016-04-19 2016-09-07 北京深度时代科技有限公司 一种基于画像模型的对象识别方法
CN106326246A (zh) * 2015-06-19 2017-01-11 阿里巴巴集团控股有限公司 一种基于数据支持的应用系统构建方法及装置
CN103136300B (zh) * 2011-12-05 2017-02-01 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN106778862A (zh) * 2016-12-12 2017-05-31 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN107145571A (zh) * 2017-05-05 2017-09-08 广东艾檬电子科技有限公司 一种搜索方法及装置
CN107832287A (zh) * 2017-09-26 2018-03-23 晶赞广告(上海)有限公司 一种标签识别方法及装置、存储介质、终端
CN108509545A (zh) * 2018-03-20 2018-09-07 北京搜狐互联网信息服务有限公司 一种文章的评论处理方法及系统
CN108681564A (zh) * 2018-04-28 2018-10-19 北京京东尚科信息技术有限公司 关键词和答案的确定方法、装置和计算机可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893622A (zh) * 2016-04-29 2016-08-24 深圳市中润四方信息技术有限公司 一种聚合搜索方法及聚合搜索系统

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200984A (zh) * 2010-03-24 2011-09-28 深圳市腾讯计算机系统有限公司 一种基于复合词的搜索方法和搜索引擎服务器
CN102737017A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 一种提取页面主题的方法和装置
CN103136300B (zh) * 2011-12-05 2017-02-01 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103914490B (zh) * 2013-01-08 2018-06-12 北京京东尚科信息技术有限公司 网页运行方法和系统
CN103914490A (zh) * 2013-01-08 2014-07-09 纽海信息技术(上海)有限公司 网页运行方法和系统
WO2014187076A1 (zh) * 2013-05-23 2014-11-27 华为技术有限公司 自然语言的生成方法及系统
CN104462360A (zh) * 2014-12-05 2015-03-25 北京奇虎科技有限公司 一种为文本集合生成语义标识的方法和装置
CN104462360B (zh) * 2014-12-05 2020-02-18 北京奇虎科技有限公司 一种为文本集合生成语义标识的方法和装置
CN104598607A (zh) * 2015-01-29 2015-05-06 百度在线网络技术(北京)有限公司 推荐搜索短语的方法及系统
CN106326246A (zh) * 2015-06-19 2017-01-11 阿里巴巴集团控股有限公司 一种基于数据支持的应用系统构建方法及装置
CN106326246B (zh) * 2015-06-19 2019-11-12 阿里巴巴集团控股有限公司 一种基于数据支持的应用系统构建方法及装置
CN105930435B (zh) * 2016-04-19 2019-02-12 北京深度时代科技有限公司 一种基于画像模型的对象识别方法
CN105930435A (zh) * 2016-04-19 2016-09-07 北京深度时代科技有限公司 一种基于画像模型的对象识别方法
CN106778862A (zh) * 2016-12-12 2017-05-31 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN106778862B (zh) * 2016-12-12 2020-04-21 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN107145571A (zh) * 2017-05-05 2017-09-08 广东艾檬电子科技有限公司 一种搜索方法及装置
CN107145571B (zh) * 2017-05-05 2020-02-14 广东艾檬电子科技有限公司 一种搜索方法及装置
CN107832287A (zh) * 2017-09-26 2018-03-23 晶赞广告(上海)有限公司 一种标签识别方法及装置、存储介质、终端
CN108509545A (zh) * 2018-03-20 2018-09-07 北京搜狐互联网信息服务有限公司 一种文章的评论处理方法及系统
CN108681564A (zh) * 2018-04-28 2018-10-19 北京京东尚科信息技术有限公司 关键词和答案的确定方法、装置和计算机可读存储介质
CN108681564B (zh) * 2018-04-28 2021-06-29 北京京东尚科信息技术有限公司 关键词和答案的确定方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
HK1120895A1 (en) 2009-04-09
CN100595753C (zh) 2010-03-24

Similar Documents

Publication Publication Date Title
CN100595753C (zh) 一种文本主题推荐方法和装置
CN101315624B (zh) 一种文本主题推荐的方法和装置
US7519588B2 (en) Keyword characterization and application
Ferragina et al. Tagme: on-the-fly annotation of short text fragments (by wikipedia entities)
US7461056B2 (en) Text mining apparatus and associated methods
CN100433007C (zh) 提供搜索结果的方法
Efron Cultural Orientation: Classifying Subjective Documents by Cociation Analysis.
Manjari et al. Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm
CN110543595B (zh) 一种站内搜索系统及方法
WO2003098396A2 (en) System and method for automatically discovering a hierarchy of concepts from a corpus of documents
CN102737021B (zh) 搜索引擎及其实现方法
WO2008100522A1 (en) Document matching engine using asymmetric signature generation
CN102722498A (zh) 搜索引擎及其实现方法
Chau et al. Web searching in Chinese: A study of a search engine in Hong Kong
CN111368038A (zh) 一种关键词的提取方法、装置、计算机设备和存储介质
WO2007011129A1 (en) Information search method and information search apparatus on which information value is reflected
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
Zaïane et al. Mining research communities in bibliographical data
Hong et al. Automatic extraction of new words based on Google News corpora for supporting lexicon-based Chinese word segmentation systems
JP5364010B2 (ja) 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法
Bharamagoudar et al. Literature survey on web mining
Moumtzidou et al. Discovery of environmental nodes in the web
Batra et al. Content based hidden web ranking algorithm (CHWRA)
Gulati et al. Ontology driven query expansion for better image retrieval
Tohalino et al. Using citation networks to evaluate the impact of text length on the identification of relevant concepts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1120895

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1120895

Country of ref document: HK