CN101315624A - 一种文本主题推荐的方法和装置 - Google Patents
一种文本主题推荐的方法和装置 Download PDFInfo
- Publication number
- CN101315624A CN101315624A CNA2007101073654A CN200710107365A CN101315624A CN 101315624 A CN101315624 A CN 101315624A CN A2007101073654 A CNA2007101073654 A CN A2007101073654A CN 200710107365 A CN200710107365 A CN 200710107365A CN 101315624 A CN101315624 A CN 101315624A
- Authority
- CN
- China
- Prior art keywords
- phrase
- target
- weight
- word
- key words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种文本主题推荐方法和装置,所述方法包括:对目标文本分词,获得目标词语;计算所述目标词语的权重;根据所述目标词语的权重优选出所述目标文本的主题关键词。由于基于上述方法得到的主题关键词能够很好地预测目标文本的主题,因此,通过主题关键词,用户可以在很短的时间内对文本内容的有效性做出判断,大大节约了用户的时间成本。
Description
技术领域
本发明涉及数据的分析处理,特别是涉及一种文本主题推荐的方法和装置。
背景技术
在信息技术快速发展的今天,与传统的纸质媒体相比,人们获取信息的能力获得了前所未有的提高。但是,人们在一边享受信息技术及互联网带来便利的同时,也不得不面对信息泛滥所带来的困扰。通常,在人们在获得的有效信息的同时,往往还掺杂着大量的、无用的垃圾信息。例如,人们可能每天都要面对数量庞大的电子邮件、网页或其他载有信息的文件等。那么该如何从如此繁多的文件中获取有效信息呢?
现有的技术条件下,用户为了判断文章中所记载信息的有效性,往往需要通过浏览文章的内容才能做出判断,而通常文章的内容都会具有较大的篇幅、包含非常多的信息,而用户浏览这些信息则需要花费大量的时间。若这样的文章、邮件是垃圾信息,则会极大地浪费用户的时间和资源。
发明内容
本发明的目的是提供一种文本主题推荐方法和装置,以解决现有技术中用户必须通过浏览全文才能获知该文章主题所花费的大量时间成本的问题。
为解决上述问题,本发明公开了一种文本主题推荐方法,包括:
对目标文本分词,获得目标词语;
计算所述目标词语的权重;
根据所述目标词语的权重优选出所述目标文本的主题关键词。
优选的,所述计算目标词语的权重包括:
计算该目标词语在所述目标文本中的词语频率;
从预置的词根词典中获取与所述目标词语对应的词根权重;
根据所述目标词语的词语频率和词根权重计算该目标词语的权重,所述目标词语的权重为所述词语频率与所述词根权重的乘积。
优选的,所述预置的词根词典中的词根权重通过以下步骤获得:
收集多个不同的文本作为语料;
计算词根在所述语料中的逆文本频率指数作为该词根的权重。
优选的,所述方法还包括:对分词后得到的目标词语按预置规则进行过滤。
优选的,所述根据目标词语的权重优选出目标文本的主题关键词包括:对目标词语按权重进行排序;将所述目标词语的权重与预置的第一阀值进行比较,若大于,则将该目标词语作为所述目标文本的主题关键词。
优选的,所述方法还包括:将主题关键词组成相关词组;对所述相关词组中的主题关键词进行聚类获得目标词组;根据所述目标词组和预置的短语词典获得主题短语。
优选的,所述对相关词组中的主题关键词进行聚类获得目标词组包括:从预置的相关性词典获取所述相关词组的相关性权重;从所述相关词组中选择相关性权重最高的词组作为目标词组;扫描主题关键词,将满足预置条件的主题关键词作为一个新的元素加入目标词组,所述用于扫描的主题关键词不包括所述目标词组中的主题关键词;重复该步骤,直到获得所有的目标词组。
优选的,所述预置条件为该主题关键词与所述目标词组中的每一个主题关键词组成的相关词组的相关性权重大于第二阀值。
优选的,所述根据目标词组和预置的短语词典获得主题短语包括:根据目标词组中的主题关键词分别从短语词典中查找对应的短语;对同一目标词组的主题关键词所对应的短语,取其交集作为目标文本的一个主题短语;重复该步骤,直到获得所有的主题短语。
优选的,所述短语词典中的短语设置有短语权重;所述获得主题短语还包括:对主题短语按其对应的权重进行排序。
为解决上述问题,本发明还公开了一种文本主题推荐装置,包括:
分词单元,用于对目标文本分词,获得目标词语;
权重计算单元,用于计算目标词语的权重;
主题关键词优选单元,用于从目标词语中按照其权重优选出主题关键词。
优选的,所述装置还包括:词典训练单元,用于建立词典;存储单元,用于存储词典;
所述词典词语训练单元还包括:
语料收集单元,用于收集多个不同的文本作为语料;
词根词典训练单元,用于在存储单元中设置词根词典,该词根词典包括词根以及该词根对应的权重,所述权重为该词根在所述语料中的逆文本频率指数;
所述权重计算单元还包括:
词频计算单元,用于计算目标词语在目标文本中的词语频率;
词根权重获取单元,用于从存储单元的词根词典中获取目标词语的词根权重;
目标词语权重计算单元,用于根据词频计算单元所计算的目标词语的词语频率和词根权重计算目标词语的权重,所述目标词语的权重为所述词语频率与所述词根权重的乘积。
优选的,所述主题关键词优选单元包括:
排序单元,用于对目标词语按权重进行排序;
主题关键词选择单元,用于比较目标词语的权重与第一阀值,若大于,则将该目标词语作为目标文本的主题关键词。
优选的,所述装置还包括:
相关词组获取单元,用于将主题关键词组成相关词组;
聚类单元,用于对相关词组中的主题关键词进行聚类获得目标词组;
主题短语获取单元,用于根据聚类单元所获得的目标词组和预置的短语词典获取主题短语。
优选的,所述聚类单元包括:
初始化单元,用于根据相关性词典设置所述相关词组的相关性权重;
目标词组生成单元,用于从所述相关词组中选择相关性权重最高的词组作为目标词组;扫描主题关键词,将满足预置条件的主题关键词作为一个新的元素加入目标词组,所述用于扫描的主题关键词不包括所述目标词组中的主题关键词;重复该步骤,直到获得所有的目标词组。
优选的,所述词典训练单元还包括:
短语词典训练单元,用于在存储单元中设置短语词典,该短语词典包括词语以及该词语对应的短语。
所述主题短语获取单元包括:
短语查找单元,用于从存储单元的短语词典中查找与目标词组中主题关键词对应的短语;
主题短语生成单元,用于对同一目标词组的主题关键词所对应的短语,取其交集作为一个主题短语;重复该步骤,直到获得所有的主题短语。
与现有技术相比,本发明具有以下优点:
对于一篇文章、邮件等文本信息,词语是该文本中最小的语意单位。通常,文章中的一个或几个关键词语就足以构成该文章所要表达的主题,通过这些主题关键词,用户不必浏览全文,就能够迅速地对文章的重要性以及是否有效做出判断。本发明通过对文本分词,获得目标词语,计算目标词语的权重,然后根据权重优选出该目标文本的主题关键词。这样一来,避免了现有技术中通过浏览文章内容判断信息有效性导致的时间和资源的浪费。
附图说明
图1是本发明所述文本主题推荐方法的实施例1的步骤流程图;
图2是本发明所述文本主题推荐方法的实施例2的步骤流程图;
图3是是本发明所述文本主题推荐装置的一实施例的结构框图;
图4是本发明所述文本主题推荐方法的一个应用实施例的步骤流程图。
具体实施方式
目前,随着信息技术的发展,人们获取信息的方式也变得非常快捷,但随之而来的垃圾信息却给人们带来了无尽的困扰。在现有技术中,面对各种各样的电子信息,用户往往只能通过浏览全文才能判断该信息的有效性,如此一来,将会耗费该用户大量的时间成本。本发明通过对目标文本分词获得目标词语,然后计算目标词语的权重,再根据目标词语的权重优选出该目标文本的主题关键词,这样一来,用户通过这些主题关键词就可以迅速的获知该目标文本的主题内容,并进一步判断该信息的有效性,因而很好的解决了现有技术存在的上述问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施例对本发明作进一步详细的说明。
本发明的实施例1中,通过对目标文本分词获得目标词语,然后计算目标词语的权重,最后根据目标词语的权重优选出该目标文本的主题关键词。下面结合图1对该实施例作进一步详细描述:
步骤101:对目标文本分词获得目标词语。
本发明中,对所述目标文本的存储载体不做限制,例如可以是网页、txt文件、word文件、xml文件等。本发明所述的目标文本既可以是一句、一段话,也可以是一篇文章,当然也可以是其他任何形式的存在的文本信息。可以看出,对任何具有语意的文本都可以看作是由很多个句子组成,因此,句子是最基本的目标文本。
本发明中,词语是最小的语意单位。对目标文本分词可采用典型的“查字典”法。所谓“查字典”法,就是把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如“上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词,这样,对一个句子的分词就完成了。当然也可以采用其它分词方法,如统计语言模型分词方法。实施本发明时采用何种分词方法对目标文本进行分词,可由本领域技术人员根据需要自行选择,本发明对此不做限制。其中,经分词得到的词语称为目标词语。
步骤102:对目标词语按预置规则进行过滤。
本步骤为可选步骤。分词完成后,对得到的目标词语进行过滤。例如,过滤掉目标词语中包含的“的”“地”“啊”这样的词。由于这类“应删除”的词语对文本主题通常不会产生影响,将其过滤掉不但可以减少处理其所消耗的成本,而且可以降低对其他词语产生的干扰。
步骤103:计算目标词语的权重。
优选的,目标词语的权重按以下步骤计算:
a:从分词得到的目标词语中选择一个用于计算权重的目标词语tw。
b:从预置的词根词典中获取该目标词语tw对应的词根权重。
所述预置的词根词典中设置有词根和该词根对应的权重。优选的,词根的权重为该词根的逆文本频率指数(IDF,Inverse Document Frequency)。词根的IDF是根据预先收集的多个文本作为语料计算得出。IDF的计算公式为ln(D/Dw),其中D是收集的全部的语料文本数,Dw为词根w在D个文本中出现的次数。例如,假定中文网页数是D=10亿,若词根“巧克力”在两百万篇文章中出现,即Dw=200万,则词根“巧克力”的权重IDF=ln(500)=6.2。
从词典中查找与目标词语tw匹配的词根,并取得该词根对应的权重。
c:计算该目标词语在所述目标文本中的词语频率(TF,Term Frequency)。
将该目标词语在目标文本中出现的次数除以该目标文本的总字数,其商值就是该目标词语的TF。例如,一篇1000字的文章中,“巧克力”出现了2次,那么目标词语“巧克力”的TF值为2。
d:计算目标词语tw的权重Weight。目标词语的权重为该目标词语的TF与所对应的词根IDF的乘积。
e:按照上述步骤b、c、d所述的方法分别计算每一个目标词语的权重。
结果如下:
Weight1=TF1*IDF1;
Weight2=TF2*IDF2;
...
Weightn=TFn*IDFn
优选的,上述步骤b所使用的词典的内容按照语料所属专业或所属领域进行设置。例如,可按照法律、机械、电子、化工等领域分别收集语料、设置背景词典。若已知目标文本所述领域,就可以选择相应的词典计算目标词语的权重,这样一来,进一步缩小了词根的语意范围,提高了计算的准确性。
需要指出的是,在所述词根词典中将词根的IDF值作为词根的权重只是本发明优选的方法,在实施本发明时还可以采用其他方法设置词根的权重,例如,可将词根在语料中出现的频率作为该词根的权重。
用目标词语的频率和词根权重的乘积作为目标词语的权重也是本发明优选的方法,此外,还可以根据目标词语在目标文本中的位置以及该目标词语所属词性来计算目标词语的权重,具体过程为:
所述词语位置为词语在文本中出现的位置比例,例如,文本总的字数为100,若词语在第5字符的位置出现,那么该词语在所述文本中的位置为:5/100=0.05。
在词典中设置词根以及与该词根对应的词性,每一种词性设置有相应的权重,例如,可将动词的权重设置为5,形容词设置为2。
计算目标词语的权重时,首先计算该目标词语在目标文本中的位置,然后查找词典,获得该目标词语对应的词性权重,取二者的乘积作为该目标词语的权重。
当然,本领域技术人员在实施本发明时也可采用其他方式计算目标词语的权重,本发明对此不做限制。
步骤104:根据目标词语的权重优选出目标文本的主题关键词。
优选的,按照以下步骤优选主题关键词:
对目标词语按权重进行排序;将所述目标词语的权重与预置的第一阀值进行比较,若大于,则将该目标词语作为目标文本的主题关键词。所述第一阀值的取值根据经验得出。
按照上述优选方法可获得目标文本的一个或多个主题关键词,并且这些主题关键词是按照权重的大小排序列出的,因此,当用户从前向后查看这些主题关键词时,可迅速的获知该目标文本的主题。
在本发明的实施例2中,在获得目标文本的主题关键词后,将主题关键词组成相关词组;从预置的相关性词典获取所述相关词组的相关性权重,然后对相关词组中的主题关键词进行聚类获得目标词组,最后,根据目标词组和预置的短语词典获得主题短语。下面结合图2对该实施例进行详细描述:
步骤201:对目标文本分词获得目标词语。
步骤202:对目标词语按预置规则进行过滤。
步骤203:计算目标词语的权重。
步骤204:根据目标词语的权重优选出目标文本的主题关键词。
步骤205:将主题关键词组成相关词组;从预置的相关性词典获取所述相关词组的相关性权重。
相关性词典中设置有词组和词组的相关性权重。其中,每个词组包含2个词语,如假设词语为Wi(1<=i<=n,n为词语总数),则相关性词典的内容示例如下:
词组 相关性权重
w1:w2 0.4
w1:w3 0.1
w1:w4 0.3
w2:w3 0.0
w2:w4 0.2
w3:w4 0.1
...
下面举例说明如何计算词组的相关性权重:
首先,采集多个文本作为语料;然后,对每个文本进行切词,得到每个词语出现的文本数P;最后,统计任意两个词语共同出现的文本数T,根据公式计算任意两个词语W1和W2的相关性:(T/P1+T/P2)/2。
例如,选择100个文本作为语料,词语“雅虎”在20个文本中出现,则“雅虎”的文本数为20,词语“中国”出现的文本数为“90。“雅虎”和“中国”一起出现的文本数为10,那么词语“雅虎”和“中国”的相关性为(10/20+10/90)/2=0.31。
在得到目标文本的主题关键词后,将任意两个不同的主题关键词组成相关词组,若该相关词组在所述相关性词典中存在,则取得该相关词组对应的相关性权重;否则,将该相关词组的权重置为0。例如:目标文本的主题关键词分别为w1、w2、w3、w4,将这些主题关键词两两组成相关词组,并查询相关性词典中是否存在该词组,若存在,获得对应的权重;若不存在,权重设置为0。结果为:{w1,w2}=0.4,{w1,w3}=0.1,{w1,w4}=0.3,{w2,w3}=0,{w2,w4}=0.2,{w3,w4}=0.1。
步骤206:对相关词组中的主题关键词进行聚类获得目标词组。聚类算法的具体描述如下:
首先,预置第二阀值(m)和一个空的词组集(A)。所述第二阀值的取值根据经验得出。
步骤s1:判断A是否为空,若为空,执行步骤s2;若不为空,执行步骤s3。
步骤s2:判断是否存在权重值大于阀值m的相关词组,若存在,取权重值最大的词组置为A,并将该词组从相关词组集合中删除;否则,则执行步骤s5。
步骤s3:判断是否扫描完所有的主题关键词,若扫描未完成,扫描并选择一个主题关键词(w),所述用于扫描的主题关键词不包括所述当前A中的主题关键词;否则,执行步骤s5。
步骤s4:若w满足预置条件,则将w作为一个新的元素加入A,然后执行步骤s3;若不满足,将A保存为一个目标词组,然后将A置空,执行步骤s1。
步骤s5:聚类结束。
上述步骤s4中,优选的,所述用于判断当前关键词是否满足的预置条件是指:当前主题关键词与A中每一个主题关键词所构成的相关词组的相关性权重均大于第二阀值。另外,所述预置条件还可以是:当前主题关键词与A中的任意一个主题关键词所构成的相关词组的相关性权重大于预置阀值。该步骤中,若w满足预置条件,即w与A中的任意一个关键词或每一个关键词构成的相关词组的权重值大于第二阀值,则将该相关词组从相关词组集合中删除。
对于步骤205得到的相关词组:
{w1,w2}=0.4,
{w1,w3}=0.1,
{w1,w4}=0.3,
{w2,w3}=0,
{w2,w4}=0.2,
{w3,w4}=0.1,
若预置阀值为0.2,应用上述聚类算法得到的目标词组为:{w1,w2,w4}。
需要说明的是,上述对词语聚类获得目标词组的描述只是本发明优选的实现方式,本领域技术人员在实施本发明时可对聚类算法进行改进或替换,但是无论采用何种表达形式,都不能认为超出了上述算法所描述的思想。
步骤207:根据目标词组中的主题关键词分别从短语词典中查找对应的短语。
本发明中,短语是有顺序的两个或多个词语的组合。本发明的短语词典中设置有词语和包含该词语的短语之间的映射关系,内容示例如下:
词语 | 短语1 | 短语2 | 短语3 | … |
w1 | w1w3w4 | w4w1 | w2w3w1w4 | … |
w2 | w1w2 | W2w1 | w2w3w1w4 | … |
W3 | w1w3 | w3w4 | ||
W4 | w1w4 | W2w4 | w2w3w1w4 |
例如,对于目标词组{w1,w2,w4},分别在短语词典中查询关键词w1、w2和w4对应的短语。
步骤208:对属于同一目标词组的主题关键词的短语,取其交集作为目标文本的一个主题短语
步骤209:判断是否处理完所有的目标词组,若没有,执行步骤208。
例如对于目标词组{w1,w2,w4},主题关键词w1,w2,w4短语的交集为:w2w3w1w4,该短语即为目标文本的一个主题短语。对其它的目标词组也采用同样的方法进行处理获得相应的主题短语。
优选的,短语词典中的每一个短语还设置有相应的权重。
词语 | 短语1 | 权重1 | … |
w1 | w1w3w4 | 3 | … |
w2 | w1w2 | 2 | … |
W3 | w1w3 | 2 | … |
W4 | w1w4 | 2 | … |
权重值可以按照该短语包含的词语个数进行设置,如短语w1w3w4包含了3个词语,则该短语的权重值为3;另外,也可以按照该短语被检索的次数统计得出,如,若短语w1w3w4被检索了600次,则该短语的权重为600,当然也可以采用其他方法设置短语的权重。由于短语词典中设置了短语的权重,因此,根据该短语词典得到的主题短语也具有相应的权重,可按照权重对多个主题短语进行排序,将权重值高的主题短语优先展示给用户,有利于该用户更加快速地判断文本的主题。
优选的,短语词典中还设置有短语的所属类别。例如:
词语 | 短语1 | 权重1 | 所属类别1 | … |
w1 | w1w3w4 | 3 | 机械 | … |
w2 | w1w2 | 2 | 电子 | … |
W3 | w1w3 | 2 | 法律 | … |
W4 | w1w4 | 2 | 手机 | … |
通过所属类别,在检索目标词组别中主题关键词的短语时,按照预先给定的类别检索短语,这样一来,可进一步缩小检索范围,提高主题短语的准确性。
以上为本发明实施例2的具体描述。
一般的,短语是有顺序的两个或多个的词语。与独立的词语相比较,短语具有更加准确的语意含义,例如:词语“笔记本”通常具有两种含义,一种是书写用的工具,另一种是个人电脑。当出现“笔记本”时,我们往往还不能对其表达的含义做出准确判断,但是若出现的是一个短语“IBM笔记本”,则可以认为其要表达的含义是笔记本电脑。实施例2在获得目标文本主题关键词的基础上,对主题关键词进行聚类,并进一步获得目标文本的主题短语,而这些主题短语具有更明确的语意,因此能够更加准确的预测文本的主题,提高了用户判断文本内容的效率和准确性。
以上结合具体的实施例描述了本发明所述的一种文本主题推荐方法,下面结合图3,对本发明所述的一种文本主题推荐装置进行描述,如图3所示,
所述装置包括:分词单元310,用于对目标文本分词,获得目标词语;权重计算单元320,用于计算目标词语的权重;主题关键词优选单元330,用于从目标词语中按照其权重优选出主题关键词。
优选的,所述装置还包括:过滤单元390,用于对分词单元获得的目标词语按预定规则进行过滤。
所述装置还包括:词典训练单元340,用于建立词典;存储单元380,用于存储词典;其中,词典词语训练单元还包括:语料收集单元341,用于收集多个不同的文本作为语料;词根词典训练单元342,用于在存储单元380中设置词根词典,该词典包括词根以及该词根对应的权重,所述权重为该词根在所述语料中的逆文本频率指数。
其中,所述权重计算单元320包括:
词频计算单元321,用于计算目标词语在所述目标文本中的词语频率;
词根权重获取单元322,用于从存储单元380中的词根词典中获取目标词语的词根权重;
目标词语权重计算单元323,用于根据词频计算单元321所计算的目标词语的词语频率和词根权重获取单元322所获取的词根权重计算目标词语的权重,所述目标词语的权重为所述词语频率与所述词根权重的乘积。另外,目标词语权重计算单元323也可以根据目标词语在目标文本中的位置以及该目标词语所属词性计算该目标词语的权重。
所述主题关键词优选单元330还包括:排序单元331,用于对目标词语按权重进行排序;主题关键词选择单元332,用于比较目标词语的权重与第一阀值,若大于,则将该目标词语作为目标文本的主题关键词。
所述装置还包括:
相关词组获取单元350,用于将主题关键词组成相关词组;
聚类单元360,用于对相关词组获取单元350所获取的相关词组中的主题关键词进行聚类以获得目标词组;
主题短语获取单元370,用于根据聚类单元所获得的目标词组和预置的短语词典获取主题短语。
所述词典训练单元340还包括:相关性词典训练单元343,用于根据语料收集单元所收集的语料在存储单元380中设置相关性词典,该相关性词典包括词组和该词组的相关性权重其中;
所述聚类单元360还包括:初始化单元361,用于根据存储单元380中的相关性词典设置所述相关词组的相关性权重;目标词组生成单元362,用于从所述相关词组中选择相关性权重最高的词组作为目标词组;扫描主题关键词,将满足预置条件的主题关键词作为一个新的元素加入目标词组,所述用于扫描的主题关键词不包括所述目标词组中的主题关键词;重复该步骤,直到获得所有的目标词组。
其中,所述预置条件为该主题关键词与所述目标词组中的每一个主题关键词组成的相关词组的相关性权重大于第二阀值。另外,所述预置条件还可以为该主题关键词与所述目标词组中的任意一个主题关键词组成的相关词组的相关性权重大于第二阀值。
所述词典训练单元340还包括:短语词典训练单元343,用于在存储单元380中设置短语词典,该短语词典包括词语以及该词语对应的短语。其中,所述主题短语获取单元370包括:短语查找单元371,用于从存储单元380的短语词典中查找与目标词组中主题关键词对应的短语;主题短语生成单元372,用于对属于同一目标词组的主题关键词的短语,取其交集作为一个主题短语;重复该步骤,直到获得所有的主题短语。优选的,所述短语词典中的短语设置有短语权重;所述主题短语获取单元370包括还包括:主题短语排序单元373,用于对主题短语生成单元372所生成的主题短语按其对应的权重进行排序。
应用所述文本主题推荐装置,对于一个目标文本,
首先,分词单元310对该目标文本进行分词,获得目标词语;其次,过滤单元390按预定规则对分词单元310获得的目标词语进行过滤。
然后,词频计算单元321计算目标词语在所述目标文本中的词语频率;词根权重获取单元322从存储单元380的词根词典中获取目标词语的词根权重;目标词语权重计算单元323计算目标词语的权重,所述目标词语的权重为所述词语频率与所述词根权重的乘积。
得到目标词语的权重后,排序单元对目标词语按权重进行排序;主题关键词选择单元332比较目标词语的权重与第一阀值,若大于,则将该目标词语作为目标文本的主题关键词。
基于得到的主题关键词,相关词组获取单元350将每两个主题关键词组合成一个相关词组;然后,初始化单元361根据相关性词典设置这些相关词组的权重;最后,由目标词组生成单元372将这些相关词组生成目标词组。
选择一个目标词组,短语查找单元371根据目标词组中的主题关键词分别从短语词典中查找对应的短语;最后,主题短语生成单元372将同一目标词组的主题关键词所对应的短语取交集生成一个主题短语。依次选择其他目标词组,获得相应的主题短语。对所获得的主题短语,按权重排序后推出。
以上对本发明所述文本主题推荐装置的一个实施例进行了描述,未详尽之处请参见上述方法实施例所述内容。
在实施本发明时,能够将本发明所述的文本主题推荐方法和装置实施到多种应用环境中。
例如:有些用户每天都可能收到大量的邮件,利用本发明所述方法获得该邮件内容的主题关键词或主题短语显示给用户,这样该用户在不用查看邮件内容的情况下就能快速地对邮件信息的有效性做出判断,节省了大量的时间。若将这样的方法应用到垃圾邮件过滤中,通过验证邮件的主题关键词或主题短语是否包括预定的垃圾信息,不但提高了验证垃圾邮件的准确性,而且由于只是通过少量的主题关键词或主题短语进行验证,而不必用邮件全文进行匹配验证,因此使得验证的效率大大提高。
又例如:随着互联网的发展,网页资源以指数级数量增长,因此,如何从庞大数量的网页资源中准确的获取我们需要的信息就变得越来越重要。参见图4,图4示出了将本发明所述文本主题推荐方法应用到网页搜索中的一实施例的步骤流程图,下面对该实施例进行详细介绍。
步骤401:对从互联网中收集到的网页进行分词,获得目标词语。
利用离散数学中图的概念,我们可以将整个互联网看作是一个图,每一个网页看作是这个图中的一个节点,而网页中的超链接则可以看作是图中节点之间的弧。这样一来,收集网页的过程就可以看作是遍历图中的每一个节点的过程。
可以通过建立程序,自动从互联网中收集网页、对网页分词以获得目标词语。这样的程序也就是我们常说的“网络爬虫”。
步骤402:对获取到的目标词语按规则过滤。
步骤403:计算目标词语的权重。
步骤404:按权重对目标词语进行排序,优选出网页内容的主题关键词。
步骤405:以主题关键词为词根,建立词根和网页之间的映射关系。
建立词根和网页之间的映射关系,所述网页的主题关键词包含该词根。这样的映射关系可以看作是一张表,表结构内容示例如下,表中所述“地址”为网页地址:
词根a 地址1 地址2 ... 地址n
词根b 地址1 地址2 ... 地址n
....
词根n 地址1 地址2 ... 地址n
在上述映射关系表中,一个词根对应一个或多个网页,也就是说存在多个网页的主题关键词中包含同一个主题关键词的可能。
步骤406:接收用户输入的搜索关键词,从所述映射关系中查找与该搜索关键词相匹配的词根及相应的网页。
当用户需要搜索网页时,通常会先输入搜索关键词。然后,根据该搜索关键词从上述映射表中查找与该搜索关键词匹配的词根和相应的网页地址。最后,将搜索结果显示给用户。
在该实施例中,将输入的搜索关键词作为网页的主题关键词查找对应的网页,由于主题关键词能够非常准确的预测网页内容的主题,因此查找出的网页与该搜索关键词的相关性大大提高。而且,由于避免了用网页的全部内容与搜索关键词进行匹配,因此,有效的提高了搜索效率,节约了搜索所需花费的时间。
当然上述实施例中,为了进一步提高搜索关键词与网页主题的相关性,可在得到网页主题关键词的基础上进一步获得网页内容的主题短语,然后建立词根与包含该词根的主题短语以及该主题短语对应网页的映射关系表,如下所示:
词根a 主题短语1 地址1 主题短语2 地址2 ... 主题短语n 地址n
当用户输入搜索关键词后,首先查找与该搜索关键词匹配的词根,然后再进一步得到包含该词根的主题短语和对应的网页。由于主题短语相比主题关键词更能准确预测网页内容的主题,因此得到的搜索结果的准确性也大为提高。
上述实施例中未详尽之处,请参见上文有关实施例1或实施例2的内容,这里不再赘述。以上对本发明所提供的一种文本主题推荐方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (16)
1、一种文本主题推荐方法,其特征在于,包括:
对目标文本分词,获得目标词语;
计算所述目标词语的权重;
根据所述目标词语的权重优选出所述目标文本的主题关键词。
2、根据权利要求1所述的方法,其特征在于,所述计算目标词语的权重包括:
计算该目标词语在所述目标文本中的词语频率;
从预置的词根词典中获取与所述目标词语对应的词根权重;
根据所述目标词语的词语频率和词根权重计算该目标词语的权重,所述目标词语的权重为所述词语频率与所述词根权重的乘积。
3、根据权利要求2所述的方法,其特征在于,所述预置的词根词典中的词根权重通过以下步骤获得:
收集多个不同的文本作为语料;
计算词根在所述语料中的逆文本频率指数作为该词根的权重。
4、根据权利要求1或3所述的方法,其特征在于,所述方法还包括:对分词后得到的目标词语按预置规则进行过滤。
5、根据权利要求1所述的方法,其特征在于,所述根据目标词语的权重优选出目标文本的主题关键词包括:
对目标词语按权重进行排序;
将所述目标词语的权重与预置的第一阀值进行比较,若大于,则将该目标词语作为所述目标文本的主题关键词。
6、根据权利要求1所述的方法,其特征在于,所述方法还包括:
将主题关键词组成相关词组;
对所述相关词组中的主题关键词进行聚类获得目标词组;
根据所述目标词组和预置的短语词典获得主题短语。
7、根据权利要求6所述的方法,其特征在于,所述对相关词组中的主题关键词进行聚类获得目标词组包括:从预置的相关性词典获取所述相关词组的相关性权重;从所述相关词组中选择相关性权重最高的词组作为目标词组;扫描主题关键词,将满足预置条件的主题关键词作为一个新的元素加入目标词组,所述用于扫描的主题关键词不包括所述目标词组中的主题关键词;重复该步骤,直到获得所有的目标词组。
8、根据权利要求7所述的方法,其特征在于,所述预置条件为该主题关键词与所述目标词组中的每一个主题关键词组成的相关词组的相关性权重大于第二阀值。
9、根据权利要求7所述的方法,其特征在于,所述根据目标词组和预置的短语词典获得主题短语包括:
根据目标词组中的主题关键词分别从短语词典中查找对应的短语;
对同一目标词组的主题关键词所对应的短语,取其交集作为目标文本的一个主题短语;重复该步骤,直到获得所有的主题短语。
10、根据权利要求9所述的方法,其特征在于,所述短语词典中的短语设置有短语权重;所述获得主题短语还包括:对主题短语按其对应的权重进行排序。
11、一种文本主题推荐装置,其特征在于,包括:
分词单元,用于对目标文本分词,获得目标词语;
权重计算单元,用于计算目标词语的权重;
主题关键词优选单元,用于从目标词语中按照其权重优选出主题关键词。
12、根据权利要求11所述的装置,其特征在于,所述装置还包括:
词典训练单元,用于建立词典;
存储单元,用于存储词典;
所述词典词语训练单元还包括:
语料收集单元,用于收集多个不同的文本作为语料;
词根词典训练单元,用于在存储单元中设置词根词典,该词根词典包括词根以及该词根对应的权重,所述权重为该词根在所述语料中的逆文本频率指数;
所述权重计算单元还包括:
词频计算单元,用于计算目标词语在目标文本中的词语频率;
词根权重获取单元,用于从存储单元的词根词典中获取目标词语的词根权重;
目标词语权重计算单元,用于根据词频计算单元所计算的目标词语的词语频率和词根权重计算目标词语的权重,所述目标词语的权重为所述词语频率与所述词根权重的乘积。
13、根据权利要求11所述的装置,其特征在于,所述主题关键词优选单元包括:
排序单元,用于对目标词语按权重进行排序;
主题关键词选择单元,用于比较目标词语的权重与第一阀值,若大于,则将该目标词语作为目标文本的主题关键词。
14、根据权利要求11所述的装置,其特征在于,所述装置还包括:
相关词组获取单元,用于将主题关键词组成相关词组;
聚类单元,用于对相关词组中的主题关键词进行聚类获得目标词组;
主题短语获取单元,用于根据聚类单元所获得的目标词组和预置的短语词典获取主题短语。
15、根据权利要求14所述的装置,其特征在于,所述聚类单元包括:
初始化单元,用于根据相关性词典设置所述相关词组的相关性权重;
目标词组生成单元,用于从所述相关词组中选择相关性权重最高的词组作为目标词组;扫描主题关键词,将满足预置条件的主题关键词作为一个新的元素加入目标词组,所述用于扫描的主题关键词不包括所述目标词组中的主题关键词;重复该步骤,直到获得所有的目标词组。
16、根据权利要求15所述的装置,其特征在于,所述词典训练单元还包括:
短语词典训练单元,用于在存储单元中设置短语词典,该短语词典包括词语以及该词语对应的短语。
所述主题短语获取单元包括:
短语查找单元,用于从存储单元的短语词典中查找与目标词组中主题关键词对应的短语;
主题短语生成单元,用于对同一目标词组的主题关键词所对应的短语,取其交集作为一个主题短语;重复该步骤,直到获得所有的主题短语。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710107365.4A CN101315624B (zh) | 2007-05-29 | 2007-05-29 | 一种文本主题推荐的方法和装置 |
HK09100032.1A HK1120896A1 (zh) | 2007-05-29 | 2009-01-02 | 種文本主題推薦的方法和裝置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710107365.4A CN101315624B (zh) | 2007-05-29 | 2007-05-29 | 一种文本主题推荐的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101315624A true CN101315624A (zh) | 2008-12-03 |
CN101315624B CN101315624B (zh) | 2015-11-25 |
Family
ID=40106636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200710107365.4A Active CN101315624B (zh) | 2007-05-29 | 2007-05-29 | 一种文本主题推荐的方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN101315624B (zh) |
HK (1) | HK1120896A1 (zh) |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102446174A (zh) * | 2010-10-09 | 2012-05-09 | 百度在线网络技术(北京)有限公司 | 一种在网络设备中用于确定关键子词权重的方法和设备 |
CN102737039A (zh) * | 2011-04-07 | 2012-10-17 | 北京百度网讯科技有限公司 | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 |
CN102929873A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种基于情境搜索提取搜索价值词的方法及装置 |
CN102999366A (zh) * | 2011-12-09 | 2013-03-27 | 微软公司 | 基于推断的扩展激活 |
CN103226546A (zh) * | 2013-04-15 | 2013-07-31 | 北京邮电大学 | 一种基于分词和词性分析的后缀树聚类方法 |
CN103246676A (zh) * | 2012-02-10 | 2013-08-14 | 富士通株式会社 | 对消息进行聚类的方法和设备 |
CN103377245A (zh) * | 2012-04-27 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 一种自动问答方法及装置 |
CN103383697A (zh) * | 2013-06-26 | 2013-11-06 | 百度在线网络技术(北京)有限公司 | 确定对象标题的对象表征信息的方法与设备 |
CN103514181A (zh) * | 2012-06-19 | 2014-01-15 | 阿里巴巴集团控股有限公司 | 一种搜索方法和装置 |
CN103870461A (zh) * | 2012-12-10 | 2014-06-18 | 腾讯科技(深圳)有限公司 | 主题推荐方法、装置和服务器 |
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
CN103902673A (zh) * | 2014-03-19 | 2014-07-02 | 新浪网技术(中国)有限公司 | 反垃圾过滤规则升级方法和装置 |
CN103942257A (zh) * | 2014-03-19 | 2014-07-23 | 百度在线网络技术(北京)有限公司 | 一种视频搜索的方法与装置 |
CN104866496A (zh) * | 2014-02-22 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 确定词素重要性分析模型的方法及装置 |
CN105159927A (zh) * | 2015-08-04 | 2015-12-16 | 北京金山安全软件有限公司 | 目标文本主题词的选取方法、装置及终端 |
CN105260359A (zh) * | 2015-10-16 | 2016-01-20 | 晶赞广告(上海)有限公司 | 语义关键词提取方法及装置 |
US9256445B2 (en) | 2012-01-30 | 2016-02-09 | Microsoft Technology Licensing, Llc | Dynamic extension view with multiple levels of expansion |
CN105740229A (zh) * | 2016-01-26 | 2016-07-06 | 中国人民解放军国防科学技术大学 | 关键词提取的方法及装置 |
CN105787078A (zh) * | 2016-03-02 | 2016-07-20 | 合网络技术(北京)有限公司 | 多媒体标题显示方法及装置 |
US9449112B2 (en) | 2012-01-30 | 2016-09-20 | Microsoft Technology Licensing, Llc | Extension activation for related documents |
CN106557508A (zh) * | 2015-09-28 | 2017-04-05 | 北京神州泰岳软件股份有限公司 | 一种文本关键词提取方法和装置 |
CN106598997A (zh) * | 2015-10-19 | 2017-04-26 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN106598999A (zh) * | 2015-10-19 | 2017-04-26 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN106844554A (zh) * | 2016-12-30 | 2017-06-13 | 全民互联科技(天津)有限公司 | 一种合同分类自动识别方法及系统 |
US9679163B2 (en) | 2012-01-17 | 2017-06-13 | Microsoft Technology Licensing, Llc | Installation and management of client extensions |
CN107832306A (zh) * | 2017-11-28 | 2018-03-23 | 武汉大学 | 一种基于Doc2vec的相似实体挖掘方法 |
CN108153781A (zh) * | 2016-12-05 | 2018-06-12 | 北京国双科技有限公司 | 提取业务领域的关键词的方法和装置 |
CN108241667A (zh) * | 2016-12-26 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN108345605A (zh) * | 2017-01-24 | 2018-07-31 | 苏宁云商集团股份有限公司 | 一种文本搜索方法及装置 |
CN108538286A (zh) * | 2017-03-02 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法以及计算机 |
WO2019096032A1 (zh) * | 2017-11-20 | 2019-05-23 | 腾讯科技(深圳)有限公司 | 文本信息处理方法、计算机设备及计算机可读存储介质 |
CN110032622A (zh) * | 2018-11-28 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 关键词确定方法、装置、设备及计算机可读存储介质 |
CN110400123A (zh) * | 2019-07-05 | 2019-11-01 | 中国平安财产保险股份有限公司 | 交友信息推广方法、装置、设备及计算机可读存储介质 |
CN110414006A (zh) * | 2019-07-31 | 2019-11-05 | 京东方科技集团股份有限公司 | 文本的主题标注方法、装置、电子设备及存储介质 |
CN111078849A (zh) * | 2019-12-02 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN111274798A (zh) * | 2020-01-06 | 2020-06-12 | 北京大米科技有限公司 | 一种文本主题词确定方法、装置、存储介质及终端 |
CN112384938A (zh) * | 2018-05-07 | 2021-02-19 | 谷歌有限责任公司 | 基于接收方的电子消息的文本预测 |
CN112446214A (zh) * | 2020-12-09 | 2021-03-05 | 北京有竹居网络技术有限公司 | 广告关键词的生成方法、装置、设备及存储介质 |
CN113032683A (zh) * | 2021-04-28 | 2021-06-25 | 玉米社(深圳)网络科技有限公司 | 一种网络推广中快速分词的方法 |
CN113392637A (zh) * | 2021-06-24 | 2021-09-14 | 青岛科技大学 | 基于tf-idf的主题词提取方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1629838A (zh) * | 2003-12-17 | 2005-06-22 | 国际商业机器公司 | 电子文档的处理、浏览以及信息提取的方法、装置及系统 |
CN100538695C (zh) * | 2004-07-22 | 2009-09-09 | 国际商业机器公司 | 构造、维护个性化分类树的方法及系统 |
CN100401300C (zh) * | 2006-04-29 | 2008-07-09 | 上海世纪互联信息系统有限公司 | 具有自动分类功能的搜索引擎 |
-
2007
- 2007-05-29 CN CN200710107365.4A patent/CN101315624B/zh active Active
-
2009
- 2009-01-02 HK HK09100032.1A patent/HK1120896A1/zh unknown
Cited By (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102446174A (zh) * | 2010-10-09 | 2012-05-09 | 百度在线网络技术(北京)有限公司 | 一种在网络设备中用于确定关键子词权重的方法和设备 |
CN102446174B (zh) * | 2010-10-09 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种在网络设备中用于确定关键子词权重的方法和设备 |
CN102737039B (zh) * | 2011-04-07 | 2014-11-12 | 北京百度网讯科技有限公司 | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 |
CN102737039A (zh) * | 2011-04-07 | 2012-10-17 | 北京百度网讯科技有限公司 | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 |
CN102929873A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种基于情境搜索提取搜索价值词的方法及装置 |
CN102999366A (zh) * | 2011-12-09 | 2013-03-27 | 微软公司 | 基于推断的扩展激活 |
US9679163B2 (en) | 2012-01-17 | 2017-06-13 | Microsoft Technology Licensing, Llc | Installation and management of client extensions |
US10922437B2 (en) | 2012-01-17 | 2021-02-16 | Microsoft Technology Licensing, Llc | Installation and management of client extensions |
US10459603B2 (en) | 2012-01-30 | 2019-10-29 | Microsoft Technology Licensing, Llc | Extension activation for related documents |
US9449112B2 (en) | 2012-01-30 | 2016-09-20 | Microsoft Technology Licensing, Llc | Extension activation for related documents |
US9256445B2 (en) | 2012-01-30 | 2016-02-09 | Microsoft Technology Licensing, Llc | Dynamic extension view with multiple levels of expansion |
US10503370B2 (en) | 2012-01-30 | 2019-12-10 | Microsoft Technology Licensing, Llc | Dynamic extension view with multiple levels of expansion |
CN103246676A (zh) * | 2012-02-10 | 2013-08-14 | 富士通株式会社 | 对消息进行聚类的方法和设备 |
CN103377245A (zh) * | 2012-04-27 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 一种自动问答方法及装置 |
CN103377245B (zh) * | 2012-04-27 | 2018-09-11 | 深圳市世纪光速信息技术有限公司 | 一种自动问答方法及装置 |
CN103514181B (zh) * | 2012-06-19 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种搜索方法和装置 |
CN103514181A (zh) * | 2012-06-19 | 2014-01-15 | 阿里巴巴集团控股有限公司 | 一种搜索方法和装置 |
CN103870461B (zh) * | 2012-12-10 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 主题推荐方法、装置和服务器 |
CN103870461A (zh) * | 2012-12-10 | 2014-06-18 | 腾讯科技(深圳)有限公司 | 主题推荐方法、装置和服务器 |
CN103226546A (zh) * | 2013-04-15 | 2013-07-31 | 北京邮电大学 | 一种基于分词和词性分析的后缀树聚类方法 |
CN103383697A (zh) * | 2013-06-26 | 2013-11-06 | 百度在线网络技术(北京)有限公司 | 确定对象标题的对象表征信息的方法与设备 |
CN103383697B (zh) * | 2013-06-26 | 2017-02-15 | 百度在线网络技术(北京)有限公司 | 确定对象标题的对象表征信息的方法与设备 |
CN104866496B (zh) * | 2014-02-22 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 确定词素重要性分析模型的方法及装置 |
CN104866496A (zh) * | 2014-02-22 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 确定词素重要性分析模型的方法及装置 |
US10296582B2 (en) | 2014-02-22 | 2019-05-21 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for determining morpheme importance analysis model |
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
CN103942257A (zh) * | 2014-03-19 | 2014-07-23 | 百度在线网络技术(北京)有限公司 | 一种视频搜索的方法与装置 |
CN103942257B (zh) * | 2014-03-19 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 一种视频搜索的方法与装置 |
CN103902673A (zh) * | 2014-03-19 | 2014-07-02 | 新浪网技术(中国)有限公司 | 反垃圾过滤规则升级方法和装置 |
CN103902673B (zh) * | 2014-03-19 | 2017-11-24 | 新浪网技术(中国)有限公司 | 反垃圾过滤规则升级方法和装置 |
CN105159927A (zh) * | 2015-08-04 | 2015-12-16 | 北京金山安全软件有限公司 | 目标文本主题词的选取方法、装置及终端 |
CN106557508A (zh) * | 2015-09-28 | 2017-04-05 | 北京神州泰岳软件股份有限公司 | 一种文本关键词提取方法和装置 |
CN105260359A (zh) * | 2015-10-16 | 2016-01-20 | 晶赞广告(上海)有限公司 | 语义关键词提取方法及装置 |
CN105260359B (zh) * | 2015-10-16 | 2018-10-02 | 晶赞广告(上海)有限公司 | 语义关键词提取方法及装置 |
CN106598997A (zh) * | 2015-10-19 | 2017-04-26 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN106598997B (zh) * | 2015-10-19 | 2021-05-18 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN106598999B (zh) * | 2015-10-19 | 2020-02-04 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN106598999A (zh) * | 2015-10-19 | 2017-04-26 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN105740229A (zh) * | 2016-01-26 | 2016-07-06 | 中国人民解放军国防科学技术大学 | 关键词提取的方法及装置 |
CN105740229B (zh) * | 2016-01-26 | 2018-05-11 | 中国人民解放军国防科学技术大学 | 关键词提取的方法及装置 |
CN105787078A (zh) * | 2016-03-02 | 2016-07-20 | 合网络技术(北京)有限公司 | 多媒体标题显示方法及装置 |
CN105787078B (zh) * | 2016-03-02 | 2020-02-14 | 合一网络技术(北京)有限公司 | 多媒体标题显示方法及装置 |
CN108153781A (zh) * | 2016-12-05 | 2018-06-12 | 北京国双科技有限公司 | 提取业务领域的关键词的方法和装置 |
CN108241667B (zh) * | 2016-12-26 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN108241667A (zh) * | 2016-12-26 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN106844554A (zh) * | 2016-12-30 | 2017-06-13 | 全民互联科技(天津)有限公司 | 一种合同分类自动识别方法及系统 |
CN108345605B (zh) * | 2017-01-24 | 2022-04-05 | 苏宁易购集团股份有限公司 | 一种文本搜索方法及装置 |
CN108345605A (zh) * | 2017-01-24 | 2018-07-31 | 苏宁云商集团股份有限公司 | 一种文本搜索方法及装置 |
CN108538286A (zh) * | 2017-03-02 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法以及计算机 |
WO2019096032A1 (zh) * | 2017-11-20 | 2019-05-23 | 腾讯科技(深圳)有限公司 | 文本信息处理方法、计算机设备及计算机可读存储介质 |
CN107832306A (zh) * | 2017-11-28 | 2018-03-23 | 武汉大学 | 一种基于Doc2vec的相似实体挖掘方法 |
CN112384938A (zh) * | 2018-05-07 | 2021-02-19 | 谷歌有限责任公司 | 基于接收方的电子消息的文本预测 |
CN110032622A (zh) * | 2018-11-28 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 关键词确定方法、装置、设备及计算机可读存储介质 |
CN110032622B (zh) * | 2018-11-28 | 2023-07-14 | 创新先进技术有限公司 | 关键词确定方法、装置、设备及计算机可读存储介质 |
CN110400123A (zh) * | 2019-07-05 | 2019-11-01 | 中国平安财产保险股份有限公司 | 交友信息推广方法、装置、设备及计算机可读存储介质 |
CN110400123B (zh) * | 2019-07-05 | 2023-06-20 | 中国平安财产保险股份有限公司 | 交友信息推广方法、装置、设备及计算机可读存储介质 |
CN110414006A (zh) * | 2019-07-31 | 2019-11-05 | 京东方科技集团股份有限公司 | 文本的主题标注方法、装置、电子设备及存储介质 |
CN111078849A (zh) * | 2019-12-02 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN111274798A (zh) * | 2020-01-06 | 2020-06-12 | 北京大米科技有限公司 | 一种文本主题词确定方法、装置、存储介质及终端 |
CN111274798B (zh) * | 2020-01-06 | 2023-08-18 | 北京大米科技有限公司 | 一种文本主题词确定方法、装置、存储介质及终端 |
CN112446214A (zh) * | 2020-12-09 | 2021-03-05 | 北京有竹居网络技术有限公司 | 广告关键词的生成方法、装置、设备及存储介质 |
CN112446214B (zh) * | 2020-12-09 | 2024-02-02 | 北京有竹居网络技术有限公司 | 广告关键词的生成方法、装置、设备及存储介质 |
CN113032683B (zh) * | 2021-04-28 | 2021-12-24 | 玉米社(深圳)网络科技有限公司 | 一种网络推广中快速分词的方法 |
CN113032683A (zh) * | 2021-04-28 | 2021-06-25 | 玉米社(深圳)网络科技有限公司 | 一种网络推广中快速分词的方法 |
CN113392637A (zh) * | 2021-06-24 | 2021-09-14 | 青岛科技大学 | 基于tf-idf的主题词提取方法、装置、设备及存储介质 |
CN113392637B (zh) * | 2021-06-24 | 2023-02-07 | 青岛科技大学 | 基于tf-idf的主题词提取方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
HK1120896A1 (zh) | 2009-04-09 |
CN101315624B (zh) | 2015-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101315624B (zh) | 一种文本主题推荐的方法和装置 | |
CN100595753C (zh) | 一种文本主题推荐方法和装置 | |
US7461056B2 (en) | Text mining apparatus and associated methods | |
Glance et al. | Deriving marketing intelligence from online discussion | |
Ferragina et al. | Tagme: on-the-fly annotation of short text fragments (by wikipedia entities) | |
US7519588B2 (en) | Keyword characterization and application | |
Wan et al. | Multi-document summarization using cluster-based link analysis | |
Ye et al. | Sentiment classification for movie reviews in Chinese by improved semantic oriented approach | |
US8862591B2 (en) | System and method for evaluating sentiment | |
Efron | Cultural Orientation: Classifying Subjective Documents by Cociation Analysis. | |
CN111368038B (zh) | 一种关键词的提取方法、装置、计算机设备和存储介质 | |
WO2003098396A2 (en) | System and method for automatically discovering a hierarchy of concepts from a corpus of documents | |
WO2008100522A1 (en) | Document matching engine using asymmetric signature generation | |
CN102737021B (zh) | 搜索引擎及其实现方法 | |
US20070233563A1 (en) | Web-page sorting apparatus, web-page sorting method, and computer product | |
Litvak et al. | Degext: a language-independent keyphrase extractor | |
CN106649308B (zh) | 一种分词词库更新方法及系统 | |
Zaïane et al. | Mining research communities in bibliographical data | |
Hong et al. | Automatic extraction of new words based on Google News corpora for supporting lexicon-based Chinese word segmentation systems | |
JP5364010B2 (ja) | 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法 | |
Moumtzidou et al. | Discovery of environmental nodes in the web | |
Oliveira et al. | Automatic tag suggestion based on resource contents | |
Jeong et al. | Efficient keyword extraction and text summarization for reading articles on smart phone | |
Java et al. | The blogvox opinion retrieval system | |
Oudshoff et al. | Knowledge discovery in virtual community texts: Clustering virtual communities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1120896 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1120896 Country of ref document: HK |