获取相关数字资源的方法及使用其生成专题的方法及装置
技术领域
本发明涉及数字资源处理领域,具体涉及一种获取相关数字资源的方法及使用其的专题生成方法及装置。
背景技术
随着互联网的迅猛发展,数字报刊日益普及,从而极大地增强了用户与报刊的交互性,为个性化报刊专题组织与生成提供了可能。此外,全国每日新增大量新闻报道,多数为新生事件并伴有大量新词。所谓“新词”主要指内容新、形式新,原来词汇系统中没有或者虽有但词义是全新的词语。
为了对这些数字资源进行更好的描述,便于后续相关专题的推荐、检索等处理,需要对这些数字资源进行主题词的提取,现有技术中一般采用分词后提取数字资源中的词汇的方式,通过合并的方式获得出现频次多的词汇作为主题词,但是由于每个词语可能具有多种不同的语义信息,不同的词语表达的含义又可能相同,比如手机、移动电话,其表达的含义相同,也为主题词的提取带来干扰。此外,现有的主题词提取方法中,一般需要特工编辑特征词或主题候选词列表,采用命名实体技术确定主题词候选词,使用向量空间模型和命名实体识别。该方案过程复杂,需要大量的数据运算量。
上述提取的主题词,可以用于数字资源如新闻专题的组织与生成中。新闻专题的组织与生成是指将相关的新闻组织在一起,形成一个专题。例如,当报刊用户面对自己感兴趣的某一新闻事件时,希望能够方便快捷地从多家报刊的海量新闻报道中获取更多的相关报道,提高信息获取的效率和阅读的个性化。例如,当用户读到某篇有关外国媒体对“3.1昆明火车站暴力恐怖案”看法的报道时,希望能够快速查看其它有关外国媒体对该事件看法的报道时,首先,选择该篇用户阅读到的感兴趣的新闻,通过分析获取该新闻的主题词,然后将其余新闻的关键词与上述主题词进行比较,将相关程度高的新闻相关组织到一起便形成了一个专题。目前,主要利用向量空间模型、命名实体识别、文本聚类等技术事先在报刊资源库上抽取专题,推送给用户供用户选择查阅。该类方法对特征词的选择及命名实体识别具有很强的依赖性,从而导致处理新词频出的报刊文本时效果欠佳,且没有充分考虑新闻的语义信息及多义词和同义词给主题词向量带来的干扰,不能根据用户当前感兴趣的报道来组织、生成个性化专题。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的专题生成时需要使用向量空间模型和命名实体识别,鲁棒性差的缺陷,从而提供一种获取相关数字资源的方法及使用其生成专题的方法和装置。
本发明提供一种获取相关数字资源的方法,包括如下步骤:
提取第一数字资源的主题词;
获取第二数字资源的关键词及其权重;
获取所述第一数字资源与所述第二数字资源的文本相似度;
获取所述主题词在所述第二数字资源中的语义分布密度;
判断所述文本相似度是否大于文本相似度阈值且语义分布密度是否大于语义分布密度阈值时,若均为是则将第二数字资源作为第一数字资源的相关数字资源。
此外,本发明还提供一种专题生成方法,其特征在于,包括如下步骤:
选择第一数字资源;
依次选取一篇候选数字资源作为第二数字资源;
获取与第一数字资源相关的第二数字资源,遍历所有第二数字资源,将与第一数字资源相关的第二数字资源作为所述专题中的数字资源。
此外,本发明还提供一种获取相关数字资源的装置,包括
主题词提取单元,提取第一数字资源的主题词;
关键词确定单元,获取第二数字资源的关键词及其权重;
文本相似度获取单元,获取所述第一数字资源与所述第二数字资源的文本相似度;
语义分布密度获取单元,获取所述主题词在所述第二数字资源中的语义分布密度;
相关资源确定单元,判断所述文本相似度是否大于文本相似度阈值且语义分布密度是否大于语义分布密度阈值时,若均为是则将第二数字资源作为第一数字资源的相关数字资源。
此外,本申请还提供一种专题生成装置,其特征在于,包括:
第一数字资源选择单元,选择第一数字资源;
第二数字资源选择单元,依次选取一篇候选数字资源作为第二数字资源;
专题生成单元,获取与第一数字资源相关的第二数字资源,遍历所有第二数字资源,将与第一数字资源相关的第二数字资源作为所述专题中的数字资源。
本发明技术方案,具有如下优点:
1.本发明还提供一种获取相关数字资源的方法和装置,首先,提取第一数字资源的主题词,然后获取第二数字资源的关键词及其权重,获取所述第一数字资源与所述第二数字资源的文本相似度,获取所述主题词在所述第二数字资源中的语义分布密度,当所述文本相似度大于文本相似度阈值,且语义分布密度大于语义分布密度阈值时,将第二数字资源作为第一数字资源的相关数字资源。该方案中,通过两篇数字资源的文本相似度和语义分布密度两个方面,来衡量两篇数字资源是否相关,文本相似度表示出了这两篇文本描述同一主题的程度,语义分布密度表示第一数字资源主题词在第二数字资源中分布的均衡程度,通过这两个值可以量化的表示出数字资源间的相关程度,从而获得准确的相关的数字资源。
2.本发明还提供一种专题生成方法和装置,预先选定第一数字资源,将候选数字资源作为第二数字资源,遍历所述第二数字资源,获取与第一数字资源相关的第二数字资源,作为所述专题中的数字资源。通过该方案可以扩展一个专题中的数字资源,也可以用于根据用户当前的阅读内容,获取用户关注的数字资源,如根据新闻文本的语义提取用户感兴趣报道的主题词向量,并利用主题相关性从数字报刊资源库中组织并生成个性化专题。可以利用用户当前阅读的报道内容,通过文本处理,基于语义提取感兴趣报道的主题词向量,进而在数字报刊资源库中根据主题词向量抽取相关报道,并利用相关性的强弱及主题词的分布情况组织、生成个性化的报刊专题,方便该用户快速获取感兴趣报道。该方案可以消除现有技术中对特征词的选择及命名实体识别的依赖,减弱多义词和同义词给主题词向量带来的干扰,同时实现面向用户的个性化专题组织与生成。自定义的相似度计算方法,既能统一不同专题的阈值,又无需建立全局向量空间模型,满足面向用户的报刊专题个性化和多样化的需求
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中的获取相关数字资源的方法的流程图;
图2为本发明实施例2中的主题词提取方法的流程图;
图3为本发明实施例3中的专题生成方法的流程图;
图4为本发明实施例4中的生成专题的主题词向量的流程图;
图5为本发明实施例4中的生成专题的流程图;
图6为本发明实施例4中的专题列表示意图;
图7是本发明实施例5中的获取相关数字资源的装置的流程图;
图8为本发明实施例6中的专题生成装置的流程图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1:
本实施例中提供一种获取相关数字资源的方法,用于在海量的数字资源中,获取与选定的数字资源相关的数字资源,首先,选定第一数字资源,第一数字资源可以是一篇也可以是多篇属于一个主题的数字资源,本实施例的目的就是找出与第一数字资源相关的其他数字资源。该方法的流程图如图1所示,包括以下步骤:
S21、提取第一数字资源的主题词。选定第一数字资源后,提取第一数字资源的主题词可以采用现有技术中的方法,如通过统计出现次数较多的词语,以词频作为其权重。当然也可以采用现有技术中其他的方式,本领域的技术人员根据需要来选择合适的获取数字资源的主题词的方式,这样就可以得到第一数字资源的主题词向量topicWords=(tterm1,tterm2,…,ttermq),其中ttermi,i=1,…,q(q<p),i表示语义权重第i高的主题词,相应的分布概率定义为pi,pi根据每个主题词的权重来确定。
S22、获取第二数字资源的关键词及其权重。第二数字资源是需要判断与第一数字资源是否相关的数字资源,第二数字资源可以是第一数字资源以外的其他数字资源。获取第二数字资源的关键词及其权重的过程如下:
第一,对第二数字资源的文本进行分词。分词方式与实施例1中的相同,此处不再赘述。
第二、对分词结果进行去噪得到词语序列。也与实施例1中的方法相同,利用停用词表及停用词性对分词结果进行去噪得到词语序列seqTerms。该词语序列seqTerms中,是按照文本的顺序依次排列的词语,重复的词语也是按照出现顺序依次在该序列中保留的。
第三、将所述词语序列中的词语采用TF-IDF方法降序排列。
TF-IDF是现有技术中的一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
通过TF-IDF方法处理后得到了重要的词语及其权重,并按照权重的高低将这些词语进行了降序排列。
第四,获取所述上一步骤中保留的词语的每个词义,合并具有相同词义的词语,将合并后的词语作为关键词。
合并具有相同词义的词语也与实施例1相同,通过synonymyMap集合来去除。将seqTerms中的意义词通过TF-IDF降序排列并利用synonymyMap去除后得到的关键词向量为keyWords=(kterm1,kterm2,…,ktermQ),其中ktermi,i=1,…,Q,i表示第i重要的关键词,Q表示关键词的总数。ktermi的权重设置为
S23、获取所述第一数字资源与所述第二数字资源的文本相似度。
文本相似度计算公式为:其中M为第二数字资源的关键词和第一数字资源的主题词含有的非重复语义词语的总数,wi表示第i个非重复语义词在第二数字资源中的权重,pi表示第i个非重复语义词在第一数字资源中的主题词中的分布概率。
虽然现有技术中的文本相似度的计算方式还有多种,但采用本实施例中的上述方法可以获得更好的效果。
S24、获取所述主题词在所述第二数字资源中的语义分布密度。
此处语义分布密度ρ的计算方法如下:
第一步,选取第一数字资源的所述主题词与第二数字资源的所述关键词中共同含有的非重复词语。
第二步,按照各词语在第一数字资源的主题词中的权重由高到低进行排序。
第三步,选择排列在前的预设数量的词语作为密度关注词。此处可以选择3个词语,也可以根据需要选择其他数量。
第四步,获取所述密度关注词的同语义词。选定的每个密度关注词对应多个具有相同或相似语义的同语义词,此处采用与上述实施例中相同的方式,便可以获得每个密度关注词同的语义词。
第五步,获取所述同语义词中在所述第二数字资源中首次出现的同语义词的位置。该步骤中,得到了多个同语义词中最先出现的同语义词,将这个同语义词的位置作为最早的位置。
第六步,获取所述同语义词中在所述第二数字资源中末次出现的同语义词的位置。该步骤中,得到上述多个同语义词中最后一次出现的同语义词,将位置为末次出现的位置。
第七步,获取所述首次出现的语义词与末次出现的语义词之间的距离,此处可以统计字符数或字数。
第八步,将所述距离与所述第二数字资源长度的比值作为所述语义分布密度。第二数字资源的长度也采用字符数或字数来统计。该比值表示第一数字资源主题词在第二数字资源中分布的均衡程度,通过这两个值可以量化的表示出数字资源间的相关程度。
S25、判断所述文本相似度是否大于文本相似度阈值且语义分布密度是否大于语义分布密度阈值时,若均为是则将第二数字资源作为第一数字资源的相关数字资源。
一般地,所述文本相似度阈值设置为0.2-0.4;所述语义分布密度阈值设置为0.4-0.6。优选地,所述文本相似度阈值设置ξ=0.3,所述语义分布密度阈值设置为δ=0.5,当s>ξ且ρ>δ时,将第二数字资源作为第一数字资源的相关数字资源。
本实施例的方案中,通过两篇数字资源的文本相似度和语义分布密度两个方面,来衡量两篇数字资源是否相关,文本相似度表示出了这两篇文本描述同一主题的程度,语义分布密度表示第一数字资源主题词在第二数字资源中分布的均衡程度,通过这两个值可以量化的表示出数字资源间的相关程度,从而获得准确的相关的数字资源,可以用于相关数字资源的推荐,专题文库的建立等领域中。
实施例2
本实施例中提供一种主题词提取方法,可用于实施例1中的步骤S21中,用于提取第一数字资源的主题词。此处的数字资源可以是一篇文件,也可以是多篇文件,预先选定数字资源后,针对选定的数字资源来提取主题词。该方法的流程图如图2所示,包括如下步骤:
S11、对数字资源的文本进行分词。
选定数字资源后,选定的数字资源的集合定位为D={d1,d2,…,dm},其中di,i=1,…,m表示第i篇新闻文本,m可以为1。加载用户词典对单篇新闻文本进行分词。用户字典是由习惯用语、缩略语和新词组成的词语集合,其作用是对特定领域的一些特殊用语,如习惯用语、缩略语和新词进行添加,提高分词器分词的精度,定义为userLib={e1,e2,…,er},其中ei,i=1,…,r表示一个词或短语。
该步骤中,通过现有技术中的成熟的分词器可以完成分词,通过用户字典有利于合理地进行分词,提高分词精度。通过分词,可以将上述数字资源分成一系列的短语和词语。
S12、根据分词结果得到意义词。
分词结果中包含了数字资源中的所有文字,其中一些词语没有具体的含义如语气词、助词,此外还包括标点以及一些没有具体信息含义的无意义的词,这些词都需要去掉。预先建立停用词表和设置停用词性,其中停用词表是由标点符号及新闻体中的无意义词等组成的词语集合,定义为stopWords={w1,w2,…,ws},其中wi,i=1,…,s表示一个词、标点符号或短语。停用词性是由功能词性构成的集合,定义为stopSpeeches={s1,s2,…,st},其中si,i=1,…,t表示一种功能词性,如语气词、助词等。此处以stopWords和stopSpeeches滤除功能词的方式选择局部特征词,并不使用向量空间模型和命名实体识别,可以增强主题词提取方法的鲁棒性。该步骤包括如下过程:
首先,利用停用词表及停用词性对分词结果进行去噪得到词语序列。在分词结果中,去掉停用词表中的标点以及无意义的词,并去掉功能性词,然后得到一系列的词语,所产生的词语序列定义为seqTerms={term1,term2,…,termo},其中termi,i=1,…,o表示第i个意义词。该词语序列中,各词语是按照文本的顺序依次排列,重复的词语也是按照出现顺序依次在该序列中保留的。
然后,将词语序列中的相同词语进行合并后得到的词语作为意义词。针对上一过程中的词语序列,将相同的词语进行了合并形成意义词的集合V,所有D中元素的seqTerms中的意义词构成D的意义词集合,定义为V={v1,v2,…,vn},其中vi,i=1,…,n,i表示V中第i个意义词。
S13、针对每个主题,获取所述意义词的概率分布,所述概率分布包括意义词及其对应的权重。
利用文档主题生成模型来计算V中所有意义词的主题概率分布,每篇数字资源可以属于多个不同的主题,但属于不同主题时的主题概率分布是不同的,此处采用的是文档主题生成模型计算V中所有意义词的针对一个选定的主题的概率分布。
文档主题生成模型采用现有技术中的方案来实现,如LDA(LatentDirichletAllocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bagofwords)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
因此,利用文档主题生成模型就可以计算出V中所有意义词的属于选定的主题的概率分布,将这些概率降序排列,某一主题的降概率主题词向量为termFreq=(fterm1,fterm2,…,ftermp),其中ftermi,i=1,…,p,i表示概率第i高的意义词,每个意义词对应一个概率权重。
S14、获取所述意义词的每个词义,合并具有相同词义的意义词及其对应的权重,过程如下:
第一,建立词语与词义之间的映射关系。令W={wi,i=1,…,u}是多义词集合,M={mj,j=1,…,v}是词义编码集合,由同义词词林生成的词语与词义的映射关系定义为其表达的含义为对于一个具有多种语义的词语x,其对应的语义集合为Y,Y中的每个词对应词语x的一种语义。例如,对于词语手机,其对应的语义集合为{移动电话,手持电话}。
第二,获取所述意义词相对应的词义。针对termFreq中的每一个意义词,都会获取其对应的语义集合。
第三,查找具有相同词义的意义词。通过将语义集合中的词相比较,看这两个意义词的语义集合中是否存在相同的语义编码,存在相同的语义编码说明这两个意义词存在相同的语义,如是则执行下一步,若否,则不执行任何操作。
第四,将具有相同词义的意义词合并成一个意义词。合并后的意义词,可以选择在具有相同词义的意义词中的权重最高的意义词。
第五,将所述具有相同词义的意义词分别对应的权重累加作为合并后的意义词的权重。
通过上述过程,可以得到合并后的意义词及其对应的权重。
S15、根据合并后的意义词及其权重确定主题词。
按照权重由大到小将所述合并后的意义词排序,选择排列在前的预设数量的意义词作为主题词。一般,预设数量为总量的10%-30%,优选所述预设数量为总量的20%。通过20%的意义词可以基本覆盖该数字资源的主题方向,并减少后续运算量。利用synonymyMap将termFreq做语义去重后选取前θ的意义词得到的主题词向量定义为topicWords=(tterm1,tterm2,…,ttermq),其中ttermi,i=1,…,q(q<p)表示语义权重第i高的主题词,相应的分布概率定义为pi。
本实施例中的上述方案中从词义的角度出发,将具有相同词义的词语进行了合并,避免了现有技术中多义词、同义词对主题词提取的干扰,提高了主题词提取的准确性。此外,该方案不需要通过人工编辑特征词或主题词候选列表,也不需要采用命名实体技术确定主题词候选词。以stopWords和stopSpeeches滤除功能词的方式选择局部特征词,并不使用向量空间模型和命名实体识别,增强主题词提取方法的鲁棒性。
进一步的方案中,预先建立词语与词义之间的映射关系,通过该对应关系可以获得所述意义词相对应的多个词义,然后将含有相同词义的意义词合并且将权重累加,按照权重由大到小将所述合并后的意义词排序,选择排列在前的预设数量的意义词作为主题词,如选择排列在前的20%作为关键词,通过合并词义相同的意义词,提高关键词的准确度,选择排列在前的20%的意义词,基本可以覆盖该数字资源的重要信息,减少了后续的数据处理量。
实施例3
本实施例中提供一种专题生成方法,用于根据用户已经阅读的感兴趣的文件去获得资源库中与用户阅读的文件属于一个专题的文件,将这些专题推送给用户,增加用户体验。该主题生成方法的流程如图3所示,包括以下步骤:
S31、选择第一数字资源,此处可以选择用户感兴趣或关注的数字资源,也可以是用户已经阅读过的一些数字资源。该步骤用于选择参考信息,第一数字资源是后续处理的参照信息。
S32、依次选取一篇候选数字资源作为第二数字资源。在候选的资源库中选择一篇数字资源作为第二数字资源,进行后续的处理。
S33、采用实施例2所述的方法获取与第一数字资源相关的第二数字资源,如果满足s>ξ且ρ>δ时,将第二数字资源作为第一数字资源的相关数字资源,否则不认为是相关数字资源。这样,遍历所有S32中依次选择的第二数字资源,可以获得候选的资源库中所有与第一数字资源相关的第二数字资源作为所述专题中的数字资源。
通过本实施例中的方案,可以用于根据用户当前的阅读内容,获取用户关注的数字资源,如根据新闻文本的语义提取用户感兴趣报道的主题词向量,并利用主题相关性从数字报刊资源库中组织并生成个性化专题。可以利用用户当前阅读的报道内容,通过文本处理,基于语义提取感兴趣报道的主题词向量,进而在数字报刊资源库中根据主题词向量抽取相关报道,并利用相关性的强弱及主题词的分布情况组织、生成个性化的报刊专题,方便该用户快速获取感兴趣报道。该方案可以消除现有技术中对特征词的选择及命名实体识别的依赖,减弱多义词和同义词给主题词向量带来的干扰,不需要通过人工编辑特征词或主题词候选列表,也不需要采用命名实体技术确定主题词候选词,实现面向用户的个性化专题组织与生成。
在进一步的实施方案中,还包括获取与第一数字资源相关的第二数字资源的优先级,将所述第二数字资源按照优先级的高低进行排序。也就是说,针对专题库中的第二数字资源,其与第一数字资源的相关程度并不相同,s越大ρ越大,则该数字资源的优先级越高。由s和ρ计算得到的该数字资源在专题中的优先级定义为prior。此处的优先级可以采用现有技术中的方案进行计算,如加权相加的方式,其目的是为了给资源排序,得到的专题集定义为当specialTopic={news1,news2,…,newsT},其中newsi,i=1,…,T,i表示优先级排序第i高的数字资源。
此外,在上述基础上,针对同一优先级的数字资源,为了避免是重复的数字资源,还可以进一步计算具有同一优先级的两篇第二数字资源之间的文本相似度,若所述文本相似度大于预设阈值,如0.8时,则将该两篇数字资源标记为重复数字资源,去掉其中一篇数字资源。此处的文本相似度的计算采用现有技术中的方案,如可以通过文字的匹配来实现。当然,上述实施例2中的计算文本相似度的方法也可以采用,但由于实施例2中的该方法比较复杂,此处优选现有技术中简单的计算文本相似度的方法便可以获得较好的效果。
实施例4
本施例提供一种具体的应用实例,面向用户的报刊专题组织与生成主要包含两个步骤。
第一步,利用用户感兴趣的新闻集基于语义生成专题的主题词向量,该步骤的输入是用户感兴趣的新闻文本集合D,输出是专题主题词向量topicWords。具体流程图见图1。将分词器加载用户字典后,对新闻文本集D进行粗粒度分词。基于语义的文档主题模型采用LDA(LatentDirichletAllocation)。取synonymyMap语义去重后分布概率排序较高的前20%作为最终的专题主题词,如图4所示。
具体地,例如,对于用户选择的一篇讲诉“3.8马航事件”搜救工作的新闻,组织和生成专题。
该第一步中,生成专题主题词向量。将分词器加载用户字典后,对该新闻进行粗粒度分词。通过stopWords和stopSpeeches对分词结果进行过滤。利用过滤后得到的意义词训练LDA模型,计算主题词概率分布,得到{海域=0.0432,飞机=0.0305,客机=0.0029,马来西亚=0.0208,救援=0.0203,海军=0.0183,搜寻=0.0168,舰=0.0163,马航=0.0158,…}。在synonymyMap中马航、马来西亚和舰、舰船、舰艇、军舰等分别具有相同语义编码,利用synonymyMap语义去重后概率分布变更为{海域=0.0468,飞机=0.0336,舰=0.0318,救援=0.0289,搜寻=0.0275,客机=0.0029,船=0.0224,马来西亚=0.0208,马航=0.0204,…},取分布概率排序较高的前20%作为“马航搜救工作”的主题词。
第二步,通过数字报刊资源库中各候选新闻文本与主题词的相似度计算来组织和生成专题。该步骤的输入是数字报刊资源库和专题的主题词向量topicWords,输出是用户感兴趣的专题集。利用用户感兴趣新闻的出版时间及报刊优先级选取专题候选集后,在候选集上遍历计算每一新闻与专题主题词的相似度s及新闻文本中主题词密度ρ,当s>ξ且ρ>δ时,将该新闻添加到specialTopic中。利用s和ρ计算prior,并按照prior由高到低的顺序组织新闻。对specialTopic中同一prior下的各新闻文本进行两两相似度计算,将相似度大于η的两篇新闻标记为重复新闻,如图5所示。
结合上述具体的例子,对于用户选择的一篇讲诉“3.8马航事件”搜救工作的新闻来组织和生成专题。本步骤中,通过计算数字报刊库中新闻文本与主题词的相似度组织和生成专题。根据用户选择新闻的发布时间“2014年3月10日”,将数字报刊库中该日期前后一定时间内重要报刊的所有新闻作为专题候选集。对候选集中的每篇新闻计算其与第一步得到的主题词的相似度s,对于相似度大于0.3的新闻进一步计算主题词在其文本内的分布密度ρ,当分布密度大于0.5时,将该新闻添加到“马航搜救工作”专题中。对专题中的各条新闻,按照由s和ρ计算得到的prior由高到低进行排序,并将同一prior内相似度大于0.8的各条新闻进行标记。最终得到的“马航搜救工作”专题如图6所示,同一优先级下同组别的新闻表示被标记为重复的新闻。
本实施例中,输入为用户感兴趣的新闻文本集合,是面向用户的个性化专题组织与生成,优于多关键词检索方式,特别是新闻主题难以用多个关键词描述的情况;以stopWords和stopSpeeches滤除功能词的方式选择局部特征词,并不使用向量空间模型和命名实体识别,增强了方法的鲁棒性;结合LDA与synonymyMap抽取新闻专题主题词向量,充分考虑了新闻的语义信息,减弱了多义词和同义词给主题词向量带来的干扰;自定义的相似度计算方法,既能统一不同专题的阈值,又无需建立全局向量空间模型,满足面向用户的报刊专题个性化和多样化的需求。
实施例5
本实施例中提供一种获取相关数字资源的装置,如图7所示,包括
主题词提取单元21,提取第一数字资源的主题词。
关键词确定单元22,获取第二数字资源的关键词及其权重。
文本相似度获取单元23,获取所述第一数字资源与所述第二数字资源的文本相似度。
语义分布密度获取单元24,获取所述主题词在所述第二数字资源中的语义分布密度。
相关资源确定单元25,判断所述文本相似度是否大于文本相似度阈值且语义分布密度是否大于语义分布密度阈值时,若均为是则将第二数字资源作为第一数字资源的相关数字资源。其中,所述文本相似度阈值设置为0.2-0.4;和/或所述语义分布密度阈值设置为0.4-0.6。优选,所述文本相似度阈值设置为0.3;和/或所述语义分布密度阈值设置为0.5。
其中,关键词确定单元22包括:
文本分词子单元,对第二数字资源的文本进行分词;
分词结果去噪子单元,对分词结果进行去噪得到词语序列;
降序排列子单元,将所述词语序列中的词语采用TF-IDF方法降序排列;
关键词获取子单元,获取所述词语的每个词义,合并具有相同词义的词语,将合并后的词语作为关键词。
所述关键词向量为keyWords=(kterm1,kterm2,…,ktermQ),其中ktermi,i=1,…,Q,i表示第i重要的关键词,Q表示关键词的总数;
ktermi的权重设置为
其中,文本相似度获取单元23中包括
文本相似度计算公式:其中M为第二数字资源的关键词和第一数字资源的主题词含有的非重复语义词语的总数,wi表示第i个非重复语义词在第二数字资源中的权重,pi表示第i个非重复语义词在第一数字资源中的主题词中的分布概率。
其中,语义分布密度获取单元24包括
非重复词语确定子单元,选取第一数字资源的所述主题词与第二数字资源的所述关键词中共同含有的非重复词语;
权重排序子单元,按照各词语在第一数字资源的主题词中的权重由高到低进行排序;
选取子单元,选择排列在前的预设数量的词语作为密度关注词;
同语义词获取子单元,获取所述密度关注词的同语义词;
首次出现位置获取子单元,获取所述同语义词中在所述第二数字资源中首次出现的语义词的位置;
末次出现位置获取子单元,获取所述同语义词中在所述第二数字资源中末次出现的语义词的位置;
距离获取子单元,获取所述首次出现的语义词与末次出现的语义词之间的距离;
语义分布密度计算子单元,将所述距离与所述第二数字资源长度的比值作为所述语义分布密度。
其中,主题词提取单元21,包括:
分词单元,对数字资源的文本进行分词;
分词结果处理单元,根据分词结果得到意义词;
概率分布单元,针对每个主题,获取所述意义词的概率分布,所述概率分布包括意义词及其对应的权重;
合并单元,获取所述意义词的每个词义,合并具有相同词义的意义词及其对应的权重;
主题词确定单元,根据合并后的意义词及其权重确定主题词。按照权重的大小将所述合并后的意义词排序,选择排列在前的预设数量的意义词作为主题词。所述预设数量为总量的10%-30%,优选为总量的20%。
其中,合并单元包括
映射子单元,建立词语与词义之间的映射关系。
词义获取子单元,获取所述意义词相对应的词义。
词义查找子单元,查找具有相同词义的意义词。
意义词合并子单元,将具有相同词义的意义词合并成一个意义词,选择对应的权重最高的意义词作为合并后的意义词。
权重计算子单元,将所述具有相同词义的意义词分别对应的权重累加作为合并后的意义词的权重。
其中,分词结果处理单元12包括:
去噪子单元,利用停用词表及词性对分词结果进行去噪得到词语序列;
词语合并子单元,将词语序列中的相同词语进行合并后得到的词语作为意义词。
实施例6
本实施例中提供一种专题生成装置,如图8所示,包括:
第一数字资源选择单元31,选择第一数字资源;
第二数字资源选择单元32,依次选取一篇候选数字资源作为第二数字资源;
专题生成单元33,获取与第一数字资源相关的第二数字资源,遍历所有第二数字资源,将与第一数字资源相关的第二数字资源作为所述专题中的数字资源。
此外,还包括优先级计算单元,获取与第一数字资源相关的第二数字资源的优先级,将所述第二数字资源按照优先级的高低进行排序。
还包括去重单元,计算具有同一优先级的两篇第二数字资源之间的文本相似度,若所述文本相似度大于预设阈值,则将该两篇数字资源标记为重复数字资源,去掉其中一篇数字资源。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。