CN109635290B - 用于处理信息的方法、装置、设备和介质 - Google Patents

用于处理信息的方法、装置、设备和介质 Download PDF

Info

Publication number
CN109635290B
CN109635290B CN201811454949.3A CN201811454949A CN109635290B CN 109635290 B CN109635290 B CN 109635290B CN 201811454949 A CN201811454949 A CN 201811454949A CN 109635290 B CN109635290 B CN 109635290B
Authority
CN
China
Prior art keywords
document
predicted
occurrence
core word
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811454949.3A
Other languages
English (en)
Other versions
CN109635290A (zh
Inventor
赵娜
施茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811454949.3A priority Critical patent/CN109635290B/zh
Publication of CN109635290A publication Critical patent/CN109635290A/zh
Application granted granted Critical
Publication of CN109635290B publication Critical patent/CN109635290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

根据本公开的示例实施例,提供了一种用于处理信息的方法、装置、设备和计算机可读存储介质。一种用于处理信息的方法,包括:获取针对对象的描述文档和与描述文档相关联的评论文档,描述文档用于描述对象;确定描述文档中的第一核心词和评论文档中的第二核心词;以及基于第一核心词和第二核心词,确定第一核心词在与描述文档和评论文档相关联的主题下的第一出现可能性、以及第二核心词在主题下的第二出现可能性。

Description

用于处理信息的方法、装置、设备和介质
技术领域
本公开的实施例主要涉及信息处理领域,并且更具体地,涉及用于确定针对对象的描述文档和评论文档之间的相关性的方法、装置、设备和计算机可读存储介质。
背景技术
当前,来自网络用户的评论日益重要。例如,有效的用户评论可以帮助潜在用户在购物网站中购买期望的商品。此外,有效的用户评论还构成新闻应用不可或缺的一部分。可见,高质量的评论能够增加网络用户的参与感,从而提高应用的活跃度。然而,由于来自网络用户的评论的不可控性或竞争对手的恶意行为,不相关评论大量出现,极大降低了应用的用户体验。
发明内容
根据本公开的示例实施例,提供了一种用于处理信息的方案。
在本公开的第一方面中,提供了一种用于处理信息的方法,包括:获取针对对象的描述文档和与描述文档相关联的评论文档,描述文档用于描述对象;确定描述文档中的第一核心词和评论文档中的第二核心词;以及基于第一核心词和第二核心词,确定第一核心词在与描述文档和评论文档相关联的主题下的第一出现可能性、以及第二核心词在主题下的第二出现可能性。
在本公开的第二方面中,提供了一种用于处理信息的方法,包括:获取针对历史对象的历史描述文档中的第一核心词在与历史描述文档和历史评论文档相关联的主题下的第一出现可能性,历史描述文档用于描述历史对象,历史评论文档与历史描述文档相关联;获取针对待预测对象的待预测描述文档和与待预测描述文档相关联的待预测评论文档,待预测描述文档用于描述待预测对象;基于第一出现可能性和待预测描述文档,确定主题在待预测描述文档中的主题出现可能性;以及基于主题出现可能性和待预测评论文档,确定待预测描述文档和待预测评论文档的相关性。
在本公开的第三方面中,提供了一种用于处理信息的装置,包括:文档获取模块,被配置为获取针对对象的描述文档和与描述文档相关联的评论文档,描述文档用于描述对象;核心词确定模块,被配置为确定描述文档中的第一核心词和评论文档中的第二核心词;以及可能性确定模块,被配置为基于第一核心词和第二核心词,确定第一核心词在与描述文档和评论文档相关联的主题下的第一出现可能性、以及第二核心词在主题下的第二出现可能性。
在本公开的第四方面中,提供了一种用于处理信息的装置,包括:第一出现可能性获取模块,被配置为获取针对历史对象的历史描述文档中的第一核心词在与历史描述文档和历史评论文档相关联的主题下的第一出现可能性,历史描述文档用于描述历史对象,历史评论文档与历史描述文档相关联;待预测文档获取模块,被配置为获取针对待预测对象的待预测描述文档和与待预测描述文档相关联的待预测评论文档,待预测描述文档用于描述待预测对象;主题出现可能性确定模块,被配置为基于第一出现可能性和待预测描述文档,确定主题在待预测描述文档中的主题出现可能性;以及相关性确定模块,被配置为基于主题出现可能性和待预测评论文档,确定待预测描述文档和待预测评论文档的相关性。
在本公开的第五方面中,提供了一种设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第六方面中,提供了一种设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第二方面的方法。
在本公开的第七方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
在本公开的第八方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第二方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本公开的实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的一些实施例的用于确定核心词在主题下的出现可能性的过程的流程图;
图3示出了根据本公开的一些实施例的用于确定描述文档与评论文档之间的相关性的过程的流程图;
图4示出了根据本公开的一些实施例的用于确定核心词在主题下的出现可能性的装置的示意框图;
图5示出了根据本公开的一些实施例的用于确定描述文档与评论文档之间的相关性的装置的示意框图;以及
图6示出了能够实施本公开的一些实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
术语“对象”是指文档所涉及的主体。例如在描述手机的文档中,手机为文档所针对的对象。在本文中,文档可以是一篇完整的文章,也可以是文章的一部分,例如文章中的段落或句子。
术语“描述文档”是指用于描述对象的文档。例如,针对该对象的新闻稿,产品介绍等。
术语“评论文档”是指针对对象或描述文档进行评论的文档。例如,在描述文档为产品介绍的情况下,评论文档为关于产品的用户评论或评价。
术语“主题”是指文档的抽象中心思想,其表征与该文档所针对的对象的某一方面。例如,在对象为手机的情况下,主题可以是手机的外观、性能等。
术语“核心词”应当理解为文档中重要性高的词语。核心词可以是在文档中出现频率高而在整个语料库中出现频率低的词语。例如,核心词可以是“颜色”、“CPU”等。
术语“出现可能性”是指出文档中的主题在该文档中的出现概率或概率分布,或者核心词在该主题下的出现概率或概率分布。
如以上提及的,与评论对象不相关的评论内容大量出现,极大降低了应用的用户体验。为了提高评论对象和评论内容的相关性,存在三种传统方案。第一种方案是基于核心词相似性的计算方法。其可以确定在评论内容中是否出现在评论对象的描述中出现的核心词,从而通过计算评论对象和评论内容的词袋模型的余弦相似度来确定评论对象和评论内容的相关性。然而,该方案要求评论内容中出现与评论对象的描述完全相同的核心词,因此无法适当地处理同义词、相关词等。
第二种方案针对特定模式的不相关评论内容构建机器学习分类模型。其收集针对评论对象的常见不相关评论内容和相关评论内容,以及将不相关评论内容作为负样本并且将相关评论内容作为正样本,来构建机器学习分类模型,以确定评论对象和评论内容的相关性。然而,该方案仅针对常见不相关评论内容(例如来自竞争者的集中恶意评论内容),但是无法解决来自个体网络用户的分散的不相关评论内容。
第三种方案构建通用主题模型来确定评论对象和评论内容的相关性。其将评论对象的描述作为主题模型的训练语料,计算评论内容与评论对象的主题分布的似然,并且基于似然来确定相关性。该方案可以适当地处理同义词、相关词等,并且处理分散的不相关评论内容。然而,当评论对象的描述与评论内容的潜在语义分布差异较大时,该方案的效果不佳。
总地,传统方案存在字面分布不一致、评论稀疏以及杂质问题。对于字面分布不一致问题,描述文档的词语通常比较正式,而评论文档通常较不正式。例如,体育新闻在提及运动员时通常会使用其正式名称,但是球迷更倾向于使用该运动员的昵称。作为另一示例,在手机的产品页面上描述手机时通常提及CPU的型号和主频等信息,但是用户通常仅评论手机是否流畅。
此外,对于评论稀疏,评论文档通常仅包括数个或数十个词语,这样的短文本用于训练模型一般效果不佳。进一步地,对于杂质问题,例如针对当前的新闻评论文档,大约有20%的评论文档属于不相关评论文档,如果这些不相关的评论文档用于训练模型,将引入大量杂质,导致效果不佳。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题,本公开的示例实施例提出了一种用于处理信息的方案。在该方案中,在训练过程中,获取针对对象的描述文档和与描述文档相关联的评论文档,描述文档用于描述对象;确定描述文档中的第一核心词和评论文档中的第二核心词;以及基于第一核心词和第二核心词,确定第一核心词在与描述文档和评论文档相关联的主题下的第一出现可能性、以及第二核心词在主题下的第二出现可能性。
此外,在该方案中,在预测过程中,获取针对历史对象的历史描述文档中的第一核心词在与历史描述文档和历史评论文档相关联的主题下的第一出现可能性,历史描述文档用于描述历史对象,历史评论文档与历史描述文档相关联;获取针对待预测对象的待预测描述文档和与待预测描述文档相关联的待预测评论文档,待预测描述文档用于描述待预测对象;基于第一出现可能性和待预测描述文档,确定主题在待预测描述文档中的主题出现可能性;以及基于主题出现可能性和待预测评论文档,确定待预测描述文档和待预测评论文档的相关性。由此,可以以简洁和有效的方式实现确定描述文档与评论文档之间相关性,从而提高用户体验。
以下将参照附图来具体描述本公开的实施例。
图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。示例环境100包括计算设备110。计算设备110可以获取用于描述待预测对象的描述文档140(也被称为“待预测描述文档140”)和包括针对待预测描述文档140的评论的评论文档150-1至150-M(其中M为大于1的自然数,并且也被统称为“待预测评论文档150”),并且预测待预测描述文档140和待预测评论文档150之间的相关性。在某些实施例中,计算设备110可以从语料库获取预测待预测描述文档140和待预测评论文档150。例如,计算设备110可以是分布式计算设备、大型机、服务器、个人计算机、平板计算机、智能电话等具有计算能力的任何设备。
为了预测相关性,本公开的示例实施例提出了非对称主题模型的评论相关性计算方法。在该方法中,计算设备110可以所执行的动作可以包括训练过程和预测过程。在训练过程中,计算设备110可以获取用于描述历史对象的描述文档120(也被称为“历史描述文档120”)和包括针对历史描述文档120的评论的评论文档130-1至130-N(其中N为大于1的自然数,并且也被统称为“历史评论文档130”)。在某些实施例中,计算设备110可以从语料库获取历史描述文档120和历史评论文档130。
在某些实施例中,计算设备110可以对所获取的历史描述文档120和历史评论文档130进行过滤,以获取高质量的历史描述文档120和历史评论文档130。例如,计算设备110可以确定与描述历史对象的候选历史描述文档相关联的候选历史评论文档的数目,并且在确定候选历史评论文档的数目超过预定数目(也被称为“第一预定数目”)的情况下,将候选历史描述文档确定为历史描述文档120。以此方式,计算设备110可以选择具有较多评论文档的历史对象的描述文档,从而避免与描述文档相关联的评论文档的数目过少,而无法实现高内聚。此外,评论文档的数目越多,相关评论文档比例趋同于整体相关评论文档比例,从而避免同一对象下完全是不相关评论文档的情况。
此外,在某些实施例中,计算设备110可以从候选历史评论文档中的点赞数目和字符数目中的至少一项超过预定数目(也被称为“第二预定数目”)的候选历史评论文档中确定历史评论文档130。以此方式,计算设备110可以选择点赞数目较高,内容较丰富的评论文档。这样的评论文档通常具有更高的质量和相关性。
然后,在某些实施例中,计算设备110可以对选择的历史描述文档120和历史评论文档130进行特征提取。例如,计算设备110可以从历史描述文档120中确定一组候选词语。具体地,计算设备110可以将历史描述文档120划分为一组候选词语。然后,计算设备110可以确定这组候选词语的重要性。重要性可以是基于候选词语在历史描述文档120和参考文档中的出现频率而被确定。例如,重要性可以是TF-IDF(Term Frequency-InverseDocument Frequency)值。候选词语的TF-IDF值与该候选词语在历史描述文档120中出现的次数成正比,并且与该候选词语在整个语料库中出现的次数成反比。
在确定重要性之后,计算设备110可以确定历史描述文档120中的核心词(也被称为“第一核心词”)和历史评论文档130中的核心词(也被称为“第二核心词”)。在某些实施例中,计算设备110可以将这组候选词语中重要性高的候选词语确定为第一核心词。例如,计算设备110可以选择TF-IDF值最高的多个词语作为核心词以构建词袋模型。
类似地,计算设备110可以从历史评论文档130中确定一组候选词语。在存在多个历史评论文档130的情况下,计算设备110可以将多个历史评论文档130合并为经合并的历史评论文档130,并且从经合并的历史评论文档130中确定一组候选词语。然后,计算设备110可以确定这组候选词语的重要性。重要性可以是基于候选词语在历史评论文档130和参考文档中的出现频率而被确定。例如,重要性可以是TF-IDF值。候选词语的TF-IDF值与该候选词语在历史评论文档130中出现的次数成正比,并且与该候选词语在整个语料库中出现的次数成反比。
在确定重要性之后,计算设备110可以将这组候选词语中重要性高的候选词语确定为第二核心词。例如,计算设备110可以选择TF-IDF值最高的多个词语作为核心词以构建词袋模型。
在某些实施例中,计算设备110可以将第一核心词和第二核心词映射到不同的表示空间。在不同的表示空间中的相同的词语被视为两个不同的词语。例如,出现在历史描述文档120和历史评论文档130中的相同的词语“屏幕”分别被视为历史描述文档120中的“屏幕”和历史评论文档130中的“屏幕”。在某些实施例中,可以为词语添加标记以指示词语被映射到的表示空间以对词语进行区分。然后,计算设备110可以将两个表示空间合并为经合并的表示空间。换言之,合并历史描述文档120中的第一核心词和历史评论文档130中的第二核心词。
计算设备110可以基于第一核心词和第二核心词,确定第一核心词在与历史描述文档120和历史评论文档130相关联的主题下的出现可能性(也被称为“第一出现可能性”)、以及第二核心词在主题下的出现可能性(也被称为“第二出现可能性”)。例如,关于介绍国家的文档,主题可以是教育、经济和交通。教育主题下的词语可以是大学、老师、课程,经济主题下的词语可以是市场、企业、金融,并且交通主题下的词语可以是高铁、汽车、飞机。进一步地,第一出现可能性可以是第一核心词在主题下的概率分布,并且第二出现可能性可以是第二核心词在主题下的概率分布。
在某些实施例中,计算设备110可以将第一核心词和第二核心词应用于可能性确定模型,以得到第一出现可能性和第二出现可能性。可能性确定模型是基于诸如期望最大化算法建立的。例如,计算设备110可以初始化第一出现可能性、第二出现可能性以及主题在历史描述文档120和历史评论文档130中的主题出现可能性。主题出现可能性可以是主题在历史描述文档120和历史评论文档130中的概率分布。然后,计算设备110可以通过诸如期望最大化算法进行极大似然估计,以得到第一出现可能性和第二出现可能性以用于后续预测过程。
在预测过程中,计算设备110可以预测待预测描述文档140和待预测评论文档150之间的相关性。计算设备110可以获取针对历史对象的历史描述文档120中的第一核心词在主题下的第一出现可能性。此外,计算设备110还可以获取待预测描述文档140和待预测评论文档150。
在某些实施例中,计算设备110可以基于第一出现可能性和待预测描述文档140,确定主题在待预测描述文档140中的主题出现可能性。例如,计算设备110可以确定待预测描述文档140中的核心词。待预测描述文档140中的核心词以与如上所述的确定第一核心词和第二核心词相同的方法被确定,因此在此省略其描述。
然后,计算设备110可以将第一出现可能性和待预测描述文档140中的核心词应用于可能性确定模型,以得到主题在待预测描述文档140中的主题出现可能性。主题在待预测描述文档140中的主题出现可能性可以是主题在待预测描述文档140中的概率分布。可能性确定模型是基于期望最大化算法建立的。
例如,计算设备110可以初始化待预测描述文档140中的主题出现可能性。具体地,计算设备110可以将待预测描述文档140中的主题出现可能性初始化为均匀分布,以得到稳定的预测。然后,计算设备110可以通过诸如期望最大化算法进行极大似然估计,以得到待预测描述文档140中的主题出现可能性。
然后,计算设备110可以基于待预测描述文档140中的主题出现可能性和待预测评论文档150,确定待预测描述文档140和待预测评论文档150的相关性。在某些实施例中,计算设备110可以确定待预测评论文档150中的核心词的重要性。与上文描述的第一核心词和第二核心词的重要性类似,待预测评论文档140中的核心词的重要性基于待预测评论文档150中的核心词在待预测评论文档150和参考文档中的出现频率而被确定。例如,重要性可以是TF-IDF值。候选词语的TF-IDF值与该候选词语在待预测评论文档150中出现的次数成正比,并且与该候选词语在整个语料库中出现的次数成反比。
此外,计算设备110可以获取历史评论文档130中的第二核心词在主题下的第二出现可能性。然后,计算设备110可以基于待预测描述文档140中的主题出现可能性、重要性和第二出现可能性,确定待预测描述文档140和待预测评论文档150的相关性。例如,相关性或似然可以使用如下公式确定:
Figure BDA0001887529350000101
其中j表示待预测评论文档150中的核心词的数目,weight表示待预测评论文档150中的核心词的重要性,wcj表示待预测评论文档150中的第j个核心词,k表示待预测描述文档140中的主题的数目,zk表示第k个主题,do表示待预测描述文档140,P(wcj|zk)表示待预测评论文档150中的第j个核心词在第k个主题下的概率分布,并且P(zk|do)表示第k个主题在待预测描述文档140中的概率分布。
计算设备110可以在确定出待预测描述文档140和待预测评论文档150的相关性之后,可以基于相关性对待预测评论文档150进行各种操作。例如,计算设备110可以隐藏显示或删除相关性低的评论文档150,或者突出显示或置顶相关性高的评论文档150。
以此方式,克服了描述文档与评论文档字面分布不一致的问题,例如无需收集不相关评论样本,而仅需要一定数目的高质量评论文档和相关的选择方法,具有较好的容错性。由此,可以以简洁和有效的方式实现确定描述文档与评论文档之间相关性,从而提高用户体验。
图2示出了根据本公开的一些实施例的用于确定核心词在主题下的出现可能性的过程200的流程图。过程200可以由计算设备110来实现。在框210,计算设备120获取针对历史对象的历史描述文档120和与历史描述文档相关联的历史评论文档130。历史描述文档120用于描述历史对象。历史评论文档130包括针对历史描述文档120的评论。
在某些实施例中,计算设备110可以确定与描述历史对象的候选历史描述文档相关联的候选历史评论文档的数目。在确定候选历史评论文档的数目超过第一预定数目的情况下,计算设备110可以将候选历史描述文档确定为历史描述文档120。此外,计算设备110可以从候选历史评论文档中的点赞数目和字符数目中的至少一项超过第二预定数目的候选历史评论文档中确定历史评论文档130。
在框220,计算设备110确定历史描述文档120中的第一核心词和历史评论文档130中的第二核心词。在某些实施例中,为了确定第一核心词,计算设备110可以从历史描述文档120中确定一组候选词语,以及将一组候选词语中重要性高的候选词语确定为第一核心词。重要性基于候选词语在描述文档和参考文档中的出现频率而被确定。例如,如上所述,重要性可以是TF-IDF值。类似地,计算设备110可以以与确定第一核心词类似的方式确定第二核心词。
在框230,计算设备110基于第一核心词和第二核心词,确定第一核心词在与历史描述文档120和历史评论文档130相关联的主题下的第一出现可能性、以及第二核心词在主题下的第二出现可能性。在某些实施例中,计算设备110可以将第一核心词和第二核心词应用于可能性确定模型,以得到第一出现可能性和第二出现可能性。可能性确定模型是基于期望最大化算法建立的。以此方式,可以以简洁和有效的方式实现确定历史描述文档120和历史评论文档130的核心词在主题下的出现可能性,以用于结合图3描述的后续预测过程。
图3示出了根据本公开的一些实施例的用于确定待预测描述文档140与待预测评论文档150之间的相关性的过程300的流程图。过程300可以由计算设备110来实现。在框310,计算设备110获取针对历史对象的历史描述文档120中的第一核心词在与历史描述文档120和历史评论文档130相关联的主题下的第一出现可能性。历史描述文档120用于描述历史对象。历史评论文档130包括针对历史描述文档120的评论。
在框320,计算设备110获取针对待预测对象的待预测描述文档140和与待预测描述文档140相关联的待预测评论文档150。待预测描述文档140用于描述待预测对象。待预测评论文档150包括针对待预测描述文档140的评论。
在框330,计算设备110基于第一出现可能性和待预测描述文档140,确定主题在待预测描述文档140中的主题出现可能性。在某些实施例中,计算设备110可以确定待预测描述文档140中的核心词。然后,计算设备110可以将第一出现可能性和待预测描述文档140中的核心词应用于可能性确定模型,以得到主题出现可能性。可能性确定模型是基于期望最大化算法建立的。
在框340,计算设备110基于主题出现可能性和待预测评论文档150,确定待预测描述文档140和待预测评论文档150的相关性。在某些实施例中,计算设备110可以确定待预测评论文档150中的核心词的重要性。重要性基于待预测评论文档150中的核心词在待预测评论文档150和参考文档中的出现频率而被确定。例如,重要性可以是TF-IDF值。
此外,计算设备110可以获取历史评论文档130中的第二核心词在主题下的第二出现可能性。然后,计算设备110可以基于主题出现可能性、重要性和第二出现可能性,确定相关性。由此,可以以简洁和有效的方式实现确定描述文档与评论文档之间相关性,从而提高用户体验。
图4示出了根据本公开的实施例的用于确定核心词在主题下的出现可能性的装置400的示意框图。如图4所示,装置400包括:文档获取模块410,被配置为获取针对对象的描述文档和与描述文档相关联的评论文档,描述文档用于描述对象;核心词确定模块420,被配置为确定描述文档中的第一核心词和评论文档中的第二核心词;以及可能性确定模块430,被配置为基于第一核心词和第二核心词,确定第一核心词在与描述文档和评论文档相关联的主题下的第一出现可能性、以及第二核心词在主题下的第二出现可能性。
在某些实施例中,文档获取模块410包括:数目确定模块,被配置为确定与描述对象的候选描述文档相关联的候选评论文档的数目;描述文档确定模块,被配置为响应于确定候选评论文档的数目超过第一预定数目,将候选描述文档确定为描述文档;以及评论文档确定模块,被配置为从候选评论文档中的点赞数目和字符数目中的至少一项超过第二预定数目的候选评论文档中确定评论文档。
在某些实施例中,核心词确定模块420包括:候选词语确定模块,被配置为从描述文档中确定一组候选词语;以及第一核心词确定模块,被配置为将一组候选词语中重要性高的候选词语确定为第一核心词,重要性基于候选词语在描述文档和参考文档中的出现频率而被确定。
在某些实施例中,可能性确定模块430包括:模型应用模块,被配置为将第一核心词和第二核心词应用于可能性确定模型,以得到第一出现可能性和第二出现可能性,其中可能性确定模型是基于期望最大化算法建立的。
图5示出了根据本公开的实施例的用于确定描述文档与评论文档之间的相关性的装置500的示意框图。如图5所示,装置500包括:第一出现可能性获取模块510,被配置为获取针对历史对象的历史描述文档中的第一核心词在与历史描述文档和历史评论文档相关联的主题下的第一出现可能性,历史描述文档用于描述历史对象,历史评论文档与历史描述文档相关联;待预测文档获取模块520,被配置为获取针对待预测对象的待预测描述文档和与待预测描述文档相关联的待预测评论文档,待预测描述文档用于描述待预测对象;主题出现可能性确定模块530,被配置为基于第一出现可能性和待预测描述文档,确定主题在待预测描述文档中的主题出现可能性;以及相关性确定模块540,被配置为基于主题出现可能性和待预测评论文档,确定待预测描述文档和待预测评论文档的相关性。
在某些实施例中,主题出现可能性确定模块530包括:待预测描述文档核心词确定模块,被配置为确定待预测描述文档中的核心词;以及可能性确定模型应用模块,被配置为将第一出现可能性和待预测描述文档中的核心词应用于可能性确定模型,以得到主题出现可能性,其中可能性确定模型是基于期望最大化算法建立的。
在某些实施例中,相关性确定模块540包括:重要性确定模块,被配置为确定待预测评论文档中的核心词的重要性,重要性基于待预测评论文档中的核心词在待预测评论文档和参考文档中的出现频率而被确定;第二出现可能性获取模块,被配置为获取历史评论文档中的第二核心词在主题下的第二出现可能性;以及相关性模块,被配置为基于主题出现可能性、重要性和第二出现可能性,确定相关性。
图6示出了可以用来实施本公开的实施例的示例设备600的示意性框图。设备600可以用于实现图1的计算设备110。如图所示,设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元601执行上文所描述的各个方法和处理,例如过程200和/或过程300。例如,在一些实施例中,200和/或过程300可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由CPU 601执行时,可以执行上文描述的200和/或过程300的一个或多个步骤。备选地,在其他实施例中,CPU 601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行200和/或过程300。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (12)

1.一种用于处理信息的方法,包括:
获取针对对象的描述文档和与所述描述文档相关联的评论文档,所述描述文档用于描述所述对象;
确定所述描述文档中的第一核心词和所述评论文档中的第二核心词;基于所述第一核心词和所述第二核心词,确定所述第一核心词在与所述描述文档和所述评论文档相关联的主题下的第一出现可能性、以及所述第二核心词在所述主题下的第二出现可能性;
获取针对待预测对象的待预测描述文档和与所述待预测描述文档相关联的待预测评论文档,所述待预测描述文档用于描述所述待预测对象;基于所述第一出现可能性和所述待预测描述文档,确定所述主题在所述待预测描述文档中的主题出现可能性;
基于所述待预测评论文档中的核心词在所述待预测评论文档和参考文档中的出现频率,确定所述待预测评论文档中的核心词的重要性;以及
基于所述主题出现可能性、所述重要性和所述第二出现可能性,确定所述待预测描述文档和所述待预测评论文档的相关性。
2.根据权利要求1所述的方法,其中获取所述描述文档和所述评论文档包括:
确定与描述所述对象的候选描述文档相关联的候选评论文档的数目;
响应于确定所述候选评论文档的数目超过第一预定数目,将所述候选描述文档确定为所述描述文档;以及
从所述候选评论文档中的点赞数目和字符数目中的至少一项超过第二预定数目的候选评论文档中确定所述评论文档。
3.根据权利要求1所述的方法,其中确定所述描述文档中的第一核心词包括:
从所述描述文档中确定一组候选词语;以及
将所述一组候选词语中重要性高的候选词语确定为所述第一核心词,所述重要性基于所述候选词语在所述描述文档和参考文档中的出现频率而被确定。
4.根据权利要求1所述的方法,其中确定所述主题出现可能性包括:
确定所述待预测描述文档中的核心词;以及
将所述第一出现可能性和所述待预测描述文档中的核心词应用于可能性确定模型,以得到所述主题出现可能性,其中所述可能性确定模型是基于期望最大化算法建立的。
5.根据权利要求1所述的方法,其中确定所述第一出现可能性和所述第二出现可能性包括:
将所述第一核心词和所述第二核心词应用于可能性确定模型,以得到所述第一出现可能性和所述第二出现可能性,其中所述可能性确定模型是基于期望最大化算法建立的。
6.一种用于处理信息的装置,包括:
文档获取模块,被配置为获取针对对象的描述文档和与所述描述文档相关联的评论文档,所述描述文档用于描述所述对象;
核心词确定模块,被配置为确定所述描述文档中的第一核心词和所述评论文档中的第二核心词;
可能性确定模块,被配置为基于所述第一核心词和所述第二核心词,确定所述第一核心词在与所述描述文档和所述评论文档相关联的主题下的第一出现可能性、以及所述第二核心词在所述主题下的第二出现可能性;
待预测文档获取模块,被配置为获取针对待预测对象的待预测描述文档和与所述待预测描述文档相关联的待预测评论文档,所述待预测描述文档用于描述所述待预测对象;
主题出现可能性确定模块,被配置为基于所述第一出现可能性和所述待预测描述文档,确定所述主题在所述待预测描述文档中的主题出现可能性;
重要性确定模块,基于所述待预测评论文档中的核心词在所述待预测评论文档和参考文档中的出现频率,确定所述待预测评论文档中的核心词的重要性;以及
相关性确定模块,被配置为基于所述主题出现可能性、所述重要性和所述第二出现可能性,确定所述待预测描述文档和所述待预测评论文档的相关性。
7.根据权利要求6所述的装置,其中所述文档获取模块包括:
数目确定模块,被配置为确定与描述所述对象的候选描述文档相关联的候选评论文档的数目;
描述文档确定模块,被配置为响应于确定所述候选评论文档的数目超过第一预定数目,将所述候选描述文档确定为所述描述文档;以及
评论文档确定模块,被配置为从所述候选评论文档中的点赞数目和字符数目中的至少一项超过第二预定数目的候选评论文档中确定所述评论文档。
8.根据权利要求6所述的装置,其中所述核心词确定模块包括:
候选词语确定模块,被配置为从所述描述文档中确定一组候选词语;以及
第一核心词确定模块,被配置为将所述一组候选词语中重要性高的候选词语确定为所述第一核心词,所述重要性基于所述候选词语在所述描述文档和参考文档中的出现频率而被确定。
9.根据权利要求6所述的装置,其中所述主题出现可能性确定模块包括:
待预测描述文档核心词确定模块,被配置为确定所述待预测描述文档中的核心词;以及
可能性确定模型应用模块,被配置为将所述第一出现可能性和所述待预测描述文档中的核心词应用于可能性确定模型,以得到所述主题出现可能性,其中所述可能性确定模型是基于期望最大化算法建立的。
10.根据权利要求6所述的装置,其中所述可能性确定模块包括:
模型应用模块,被配置为将所述第一核心词和所述第二核心词应用于可能性确定模型,以得到所述第一出现可能性和所述第二出现可能性,其中所述可能性确定模型是基于期望最大化算法建立的。
11.一种用于处理信息的设备,所述设备包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN201811454949.3A 2018-11-30 2018-11-30 用于处理信息的方法、装置、设备和介质 Active CN109635290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811454949.3A CN109635290B (zh) 2018-11-30 2018-11-30 用于处理信息的方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811454949.3A CN109635290B (zh) 2018-11-30 2018-11-30 用于处理信息的方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN109635290A CN109635290A (zh) 2019-04-16
CN109635290B true CN109635290B (zh) 2022-07-22

Family

ID=66070248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811454949.3A Active CN109635290B (zh) 2018-11-30 2018-11-30 用于处理信息的方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN109635290B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239373A (zh) * 2013-06-24 2014-12-24 腾讯科技(深圳)有限公司 为文档添加标签的方法及装置
CN104933022A (zh) * 2014-03-20 2015-09-23 株式会社东芝 信息处理装置和信息处理方法
CN107818091A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN108363790A (zh) * 2018-02-12 2018-08-03 百度在线网络技术(北京)有限公司 用于对评论进行评估的方法、装置、设备和存储介质
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108694176A (zh) * 2017-04-06 2018-10-23 北京京东尚科信息技术有限公司 文档情感分析的方法、装置、电子设备和可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140379719A1 (en) * 2013-06-24 2014-12-25 Tencent Technology (Shenzhen) Company Limited System and method for tagging and searching documents

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239373A (zh) * 2013-06-24 2014-12-24 腾讯科技(深圳)有限公司 为文档添加标签的方法及装置
CN104933022A (zh) * 2014-03-20 2015-09-23 株式会社东芝 信息处理装置和信息处理方法
CN107818091A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN108694176A (zh) * 2017-04-06 2018-10-23 北京京东尚科信息技术有限公司 文档情感分析的方法、装置、电子设备和可读存储介质
CN108363790A (zh) * 2018-02-12 2018-08-03 百度在线网络技术(北京)有限公司 用于对评论进行评估的方法、装置、设备和存储介质
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN109635290A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN109190049B (zh) 关键词推荐方法、系统、电子设备和计算机可读介质
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN103885608A (zh) 一种输入方法及系统
US11238050B2 (en) Method and apparatus for determining response for user input data, and medium
US20180210897A1 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN111767393A (zh) 一种文本核心内容提取方法及装置
CN111241813B (zh) 语料扩展方法、装置、设备及介质
CN112214576B (zh) 舆情分析方法、装置、终端设备及计算机可读存储介质
CN113688310A (zh) 一种内容推荐方法、装置、设备及存储介质
CN113360711A (zh) 视频理解任务的模型训练和执行方法、装置、设备及介质
JP2023544925A (ja) データ評価方法、トレーニング方法および装置、電子機器、記憶媒体、コンピュータプログラム
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN104615723B (zh) 查询词权重值的确定方法和装置
CN111324725B (zh) 一种话题获取方法、终端、计算机可读存储介质
CN109918661B (zh) 同义词获取方法及装置
US20170161322A1 (en) Method and electronic device for searching resource
US9946765B2 (en) Building a domain knowledge and term identity using crowd sourcing
CN109635290B (zh) 用于处理信息的方法、装置、设备和介质
CN116310994A (zh) 一种视频片段提取方法、装置、电子设备及介质
CN111382258A (zh) 电子阅读对象章节的确定方法及其装置
CN105893397A (zh) 一种视频推荐方法及装置
CN115238676A (zh) 招标需求热点识别方法、装置、存储介质及电子设备
JP6680472B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN110851560B (zh) 信息检索方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant