CN113761349A - 一种推荐信息的挖掘方法和装置 - Google Patents

一种推荐信息的挖掘方法和装置 Download PDF

Info

Publication number
CN113761349A
CN113761349A CN202110224557.3A CN202110224557A CN113761349A CN 113761349 A CN113761349 A CN 113761349A CN 202110224557 A CN202110224557 A CN 202110224557A CN 113761349 A CN113761349 A CN 113761349A
Authority
CN
China
Prior art keywords
attribute
information
scene
combination information
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110224557.3A
Other languages
English (en)
Inventor
周明龙
张雄伟
赫阳
陶通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Priority to CN202110224557.3A priority Critical patent/CN113761349A/zh
Publication of CN113761349A publication Critical patent/CN113761349A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种推荐信息的挖掘方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:从目标对象的文本描述信息中提取设定属性类型的属性要素,获得所述目标对象的场景属性信息;根据设定的组合策略,将所述场景属性信息的属性要素进行组合,生成包括事件属性要素的场景组合信息;根据所述场景组合信息的属性要素与设定的推荐模板,生成所述目标对象的推荐信息。该实施方式将目标对象本身的属性与用户意图相结合,既能突出目标对象,又能切合用户需求,提升推荐效果,提升用户体验。

Description

一种推荐信息的挖掘方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种推荐信息的挖掘方法和装置。
背景技术
在推荐场景中,推荐信息是辅助用户决策的重要信息。用户可以根据网站页面提供的推荐信息,决定是否点击、收藏、或者购买相关目标对象。现有技术中,推荐信息的生成主要有以下几种方式:方式一:由运营人员人工撰写推荐信息,比如产品亮点、促销信息;方式二:由专业人员针对不同品类产品设计若干模板,根据模板拼接得到推荐信息;方式三:抽取产品评论信息作为推荐信息。
在实现本发明过程中,现有技术中至少存在如下问题:
现有推荐信息的生成方案未考虑推荐场景的差异,导致不同推荐场景下所生成的推荐信息相同,无法实现个性化推荐,推荐效果差。
发明内容
有鉴于此,本发明实施例提供一种推荐信息的挖掘方法和装置,该方法通过获取目标对象的场景属性信息,并将场景属性信息的属性要素进行组合得到考虑用户意图的场景组合信息,进而基于该场景组合信息生成推荐信息。上述方式将目标对象本身的属性与用户意图相结合,既能突出目标对象,又能切合用户需求,提升推荐效果,提升用户体验。
为实现上述目的,根据本发明实施例的一个方面,提供了一种推荐信息的挖掘方法。
本发明实施例的一种推荐信息的挖掘方法,包括:从目标对象的文本描述信息中提取设定属性类型的属性要素,获得所述目标对象的场景属性信息;根据设定的组合策略,将所述场景属性信息的属性要素进行组合,生成包括事件属性要素的场景组合信息;根据所述场景组合信息的属性要素与设定的推荐模板,生成所述目标对象的推荐信息。
可选地,所述组合策略定义生成的场景组合信息所包括的属性要素,以及所述属性要素的组合数量和组合顺序;所述生成包括事件属性要素的场景组合信息,包括:对初始组合信息进行语义合理性筛选,将筛选结果作为场景组合信息;其中,所述初始组合信息为将所述场景属性信息的属性要素进行组合得到的结果。
可选地,所述语义合理性筛选包括困惑度筛选和/或相似度筛选;其中,所述困惑度筛选,包括:计算初始组合信息或相似度筛选结果的困惑度;其中,所述困惑度表示所述初始组合信息中的属性要素构成句子的概率;比较所述困惑度与设定困惑度阈值的大小,滤除所述困惑度大于所述困惑度阈值的初始组合信息或相似度筛选结果;所述相似度筛选,包括:对所述初始组合信息或困惑度筛选结果的属性要素进行向量化,得到对应的属性向量;计算所述属性向量之间的相似度,比较所述相似度与设定相似度阈值的大小;滤除所述相似度小于等于所述相似度阈值的初始组合信息或所述困惑度筛选结果。
可选地,所述目标对象为多个;所述生成包括事件属性要素的场景组合信息的步骤之后,所述方法还包括:确定具有相同所述场景组合信息的目标对象,根据确定的目标对象构建候选对象集合;计算所述场景组合信息对应的场景组合特征数据,以及计算所述候选对象集合对应的候选对象特征数据;将所述场景组合特征数据和对应的所述候选对象特征数据进行加权融合,得到融合特征数据;将所述融合特征数据和对应的所述候选对象特征数据输入双塔模型进行训练,使用训练好的双塔模型预测待测对象的场景组合信息;其中,所述待测对象包括生成所述场景组合信息失败的目标对象。
可选地,所述计算所述场景组合信息对应的场景组合特征数据,包括:对所述场景组合信息中属性要素进行向量化,得到对应的属性向量;对得到的所述属性向量进行加权求和,得到所述场景组合信息对应的场景组合特征数据。
可选地,所述计算所述候选对象集合对应的候选对象特征数据,包括:对所述候选对象集合中目标对象的文本描述信息进行分词向量化,得到分词对应的分词向量;对得到的所述分词向量进行加权求和,得到所述目标对象对应的目标对象向量;将所述候选对象集合中目标对象对应的目标对象向量进行加权求和,得到所述候选对象集合对应的候选对象特征数据。
可选地,所述使用训练好的双塔模型预测待测对象的场景组合信息,包括:将所述待测对象的文本描述信息进行分词向量化,得到分词对应的分词向量;对得到的所述分词向量进行加权求和,得到所述待测对象对应的待测对象向量;计算所述待测对象向量与所述场景组合信息对应的融合特征数据的相似度,根据相似度计算结果,选择对应的场景组合信息作为所述待测对象的场景组合信息。
可选地,所述推荐信息包括多个;所述生成所述目标对象的推荐信息的步骤之后,所述方法还包括:获取为用户的历史操作对象生成的场景组合信息,构建场景组合信息集合;根据所述场景组合信息集合中属性要素出现的频次和所述属性要素对应的属性类型出现的频次,计算所述场景组合信息集合中不同属性类型的属性要素的第一分值;根据所述第一分值,分别计算所述目标对象的多个所述推荐信息的第二分值;根据所述第二分值的大小,对多个所述推荐信息进行排序。
可选地,所述目标对象为多个;所述获得目标对象的场景属性信息,包括:从多个所述目标对象中选择当前目标对象,从所述属性类型中选择当前属性类型,重复执行以下步骤,直至最后一个目标对象的最后一个属性类型:统计所述当前目标对象的当前属性类型对应的属性要素在属性要素集中出现的频次;其中,所述属性要素集包括多个所述目标对象的当前属性类型对应的属性要素;根据所述频次,对所述属性要素集进行划分,得到高频属性要素集和低频属性要素集;计算所述低频属性要素集的低频属性要素与所述高频属性要素集的高频属性要素之间的关联度;根据所述关联度,从所述高频属性要素集中选择高频属性要素,将所述低频属性要素重写为选择出的高频属性要素。
可选地,所述从目标对象的文本描述信息中提取设定属性类型的属性要素,包括:对目标对象的文本描述信息进行分词,得到分词结果;对所述分词结果进行词性标注,根据词性标注结果的词性标签,获取对应属性类型的属性要素。
为实现上述目的,根据本发明实施例的另一方面,提供了一种推荐信息的挖掘装置。
本发明实施例的一种推荐信息的挖掘装置,包括:获取模块,用于从目标对象的文本描述信息中提取设定属性类型的属性要素,获得所述目标对象的场景属性信息;组合模块,用于根据设定的组合策略,将所述场景属性信息的属性要素进行组合,生成包括事件属性要素的场景组合信息;生成模块,用于根据所述场景组合信息的属性要素与设定的推荐模板,生成所述目标对象的推荐信息。
可选地,所述组合策略定义生成的场景组合信息所包括的属性要素,以及所述属性要素的组合数量和组合顺序;所述组合模块,还用于:对初始组合信息进行语义合理性筛选,将筛选结果作为场景组合信息;其中,所述初始组合信息为将所述场景属性信息的属性要素进行组合得到的结果。
可选地,所述语义合理性筛选包括困惑度筛选和/或相似度筛选;其中,所述困惑度筛选,包括:计算初始组合信息或相似度筛选结果的困惑度;其中,所述困惑度表示所述初始组合信息中的属性要素构成句子的概率;比较所述困惑度与设定困惑度阈值的大小,滤除所述困惑度大于所述困惑度阈值的初始组合信息或相似度筛选结果;所述相似度筛选,包括:对所述初始组合信息或困惑度筛选结果的属性要素进行向量化,得到对应的属性向量;计算所述属性向量之间的相似度,比较所述相似度与设定相似度阈值的大小;滤除所述相似度小于等于所述相似度阈值的初始组合信息或所述困惑度筛选结果。
可选地,所述目标对象为多个;所述装置还包括:模型预测模块,用于确定具有相同所述场景组合信息的目标对象,根据确定的目标对象构建候选对象集合;计算所述场景组合信息对应的场景组合特征数据,以及计算所述候选对象集合对应的候选对象特征数据;将所述场景组合特征数据和对应的所述候选对象特征数据进行加权融合,得到融合特征数据;将所述融合特征数据和对应的所述候选对象特征数据输入双塔模型进行训练,使用训练好的双塔模型预测待测对象的场景组合信息;其中,所述待测对象包括生成所述场景组合信息失败的目标对象。
可选地,所述模型预测模块,还用于对所述场景组合信息中属性要素进行向量化,得到对应的属性向量;对得到的所述属性向量进行加权求和,得到所述场景组合信息对应的场景组合特征数据。
可选地,所述模型预测模块,还用于所述计算所述候选对象集合对应的候选对象特征数据,包括:对所述候选对象集合中目标对象的文本描述信息进行分词向量化,得到分词对应的分词向量;对得到的所述分词向量进行加权求和,得到所述目标对象对应的目标对象向量;将所述候选对象集合中目标对象对应的目标对象向量进行加权求和,得到所述候选对象集合对应的候选对象特征数据。
可选地,所述模型预测模块,还用于将所述待测对象的文本描述信息进行分词向量化,得到分词对应的分词向量;对得到的所述分词向量进行加权求和,得到所述待测对象对应的待测对象向量;计算所述待测对象向量与所述场景组合信息对应的融合特征数据的相似度,根据相似度计算结果,选择对应的场景组合信息作为所述待测对象的场景组合信息。
可选地,所述推荐信息包括多个;所述装置还包括:排序模块,用于获取为用户的历史操作对象生成的场景组合信息,构建场景组合信息集合;根据所述场景组合信息集合中属性要素出现的频次和所述属性要素对应的属性类型出现的频次,计算所述场景组合信息集合中不同属性类型的属性要素的第一分值;根据所述第一分值,分别计算所述目标对象的多个所述推荐信息的第二分值;根据所述第二分值的大小,对多个所述推荐信息进行排序。
可选地,所述目标对象为多个;所述获取模块,还用于从多个所述目标对象中选择当前目标对象,从所述属性类型中选择当前属性类型,重复执行以下步骤,直至最后一个目标对象的最后一个属性类型:统计所述当前目标对象的当前属性类型对应的属性要素在属性要素集中出现的频次;其中,所述属性要素集包括多个所述目标对象的当前属性类型对应的属性要素;根据所述频次,对所述属性要素集进行划分,得到高频属性要素集和低频属性要素集;计算所述低频属性要素集的低频属性要素与所述高频属性要素集的高频属性要素之间的关联度;根据所述关联度,从所述高频属性要素集中选择高频属性要素,将所述低频属性要素重写为选择出的高频属性要素。
可选地,所述获取模块,还用于对目标对象的文本描述信息进行分词,得到分词结果;对所述分词结果进行词性标注,根据词性标注结果的词性标签,获取对应属性类型的属性要素。
为实现上述目的,根据本发明实施例的再一方面,提供了一种电子设备。
本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种推荐信息的挖掘方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种推荐信息的挖掘方法。
上述发明中的一个实施例具有如下优点或有益效果:通过获取目标对象的场景属性信息,并将场景属性信息的属性要素进行组合得到考虑用户意图的场景组合信息,进而基于该场景组合信息生成推荐信息,上述方式将目标对象本身的属性与用户意图相结合,既能突出目标对象,又能切合用户需求,提升推荐效果,提升用户体验。
对根据组合策略对属性要素进行组合所得的初始组合信息进行筛选,保证最终得到的场景组合信息的语义合理性。通过计算困惑度,从句子的角度,筛选掉构成句子概率低的初始组合信息,以保证得到的场景组合信息的语义合理性。通过计算相似度,从词语的角度,筛选掉词语间距离小于等于相似度阈值的初始组合信息,或者对困惑度筛选结果进行进一步筛选,进一步保证得到的场景组合信息的语义合理性。
对于无法从文本描述信息中提取出场景信息的情况,可以利用已有场景组合信息,以及基于场景组合信息构建的候选对象集合,训练双塔模型,进而结合待测对象的文本描述信息,预测其场景组合信息,降低了推荐信息的生成成本,准确率高,同时提高了对象召回率。在模型训练过程中,进行向量加权,保证模型训练效果。
通过计算待测对象向量与已有场景组合信息对应的融合特征数据的相似度,为待测对象向量选择相似度高的融合特征数据对应的场景组合信息作为待测对象的场景组合信息,保证生成的场景组合信息的准确性。基于为用户的历史操作对象生成的场景组合信息,对多个推荐信息进行排序,以使得将用户更感兴趣、更可能引导用户点击行为的推荐信息能够排在前面,进一步提升推荐效果,提升用户体验。
根据出现的频次对属性要素集进行划分,得到高频属性要素和低频属性要素,进而重写低频属性要素,保证属性要素本身表达的合理性,进一步提升用户体验。通过分词、词性标注的方式,从文本描述信息中高效、准确地获得属性要素。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明一实施例的推荐信息的挖掘方法的主要步骤的示意图;
图2是根据本发明另一实施例的推荐信息的挖掘方法的主要流程示意图;
图3是本发明实施例的合并基础场景属性信息的主要流程示意图;
图4是本发明实施例的对推荐信息进行排序的主要流程示意图;
图5是根据本发明再一实施例的推荐信息的挖掘方法的主要流程示意图;
图6是本发明实施例的双塔模型的结构示意图;
图7是根据本发明实施例的推荐信息的挖掘装置的主要模块的示意图;
图8是本发明实施例可以应用于其中的示例性系统架构图;
图9是适用于来实现本发明实施例的电子设备的计算机装置的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面对本实施例涉及的技术术语进行解释。
LTP:全称为Language Technology Platform,是哈工大社会计算与信息检索研究中心研发的中文自然语言处理平台。
BiLSTM:即双向长短期记忆网络。
CRF:全称为Conditional Random Field Algorithm,条件随机场。
CNN:全称为Convolutional Neural Networks,卷积神经网络。
RNN:全称为Recurrent Neural Networks,循环神经网络。
LSTM:全称为Long Short-Term Memory,长短期记忆网络
本发明实施例的主要应用场景是:为使用文本描述的目标对象生成推荐理由(即推荐信息)。实施例中,目标对象比如可以是产品、新闻等。以生成产品的推荐理由为例,为了提升产品点击率、点击转化率以及用户体验,网站上通常会对产品进行描述,为产品生成推荐理由。如背景技术所述,现有的推荐理由主要考虑产品自身亮点、促销信息、用户评论数据、用户搜索数据等来生成,并没有将产品本身属性与用户意图相结合。
由于用户在网站浏览时,通常会带有一定意图,本实施例利用场景这一纽带,将产品与用户意图相连接,既能突出产品,又能切合用户需求,保证生成的推荐理由新颖有效。需要说明的是,本实施例的场景侧重于用户利用目标对象进行某项活动或者行为(即事件)的情形。该场景中需包含事件,可选地,还可以包含时间、人物、地点等。比如,冬季穿搭、女士穿搭、冬季女士穿搭、穿搭等。下面对本实施例进行详细说明。
实施例一
图1是根据本发明一实施例的推荐信息的挖掘方法的主要步骤的示意图。如图1所示,本发明实施例的推荐信息的挖掘方法,主要包括如下步骤:
步骤S101:从目标对象的文本描述信息中提取设定属性类型的属性要素,获得所述目标对象的场景属性信息。该步骤用于基于目标对象的文本描述信息,获取场景所需的场景属性信息。此处的场景属性信息是指可描述某项活动或者行为的要素,比如时间属性要素-冬季,地点属性要素-户外,事件属性要素-运动。属性要素具有属性类型,比如,“冬季”的属性类型为时间,“户外”的属性类型为地点。
为了提取属性要素,需要先对目标对象的文本描述信息进行分词,得到分词结果;之后对分词结果进行词性标注,得到词性标注结果;然后根据词性标注结果中的词性标签,获取对应属性类型的属性要素。其中,分词工具可以是jieba切词,哈工大的LTP等。词性标注可以利用词性标注模型实现,比如BiLSTM+CRF,BiLSTM+CNN+CRF,TENER等机器学习模型。实施例中,可以将属性类型和对应的属性要素作为目标对象的场景属性信息,该场景属性信息中包括事件属性类型的属性要素。
步骤S102:根据设定的组合策略,将所述场景属性信息的属性要素进行组合,生成包括事件属性要素的场景组合信息。预先配置组合策略,该组合策略定义生成的场景组合信息所包括的属性要素,以及属性要素的组合数量和组合顺序。按照组合策略,将场景属性信息中的属性要素进行合理且考虑用户意图的组合,即可得到场景组合信息。
其中,组合数量可以根据具体业务设定,比如对于短文案推荐信息,通常可选择2-3个场景属性信息;对于长文案推荐信息,可选择更多场景属性信息。在组合时,为了避免因属性要素的位置带来的不合理性,需要在组合策略中定义组合顺序。此处的合理性是指表达方式的合理性,以中文表达方式为例,什么时间做什么事情,即时间属性在前,事件属性在后,反之则不合理。
同时,由于用户对目标对象的点击、购买等行为是有做某件事的意图的,且最终生成推荐信息时需要结合用户意图,如果场景组合信息不包含事件属性要素,比如冬季办公室、冬季女士等,则并未建立起目标对象本身属性与用户意图的链接。因此,为了保证生成的场景组合信息具有场景叙事的完整性,每个场景组合信息需包含事件属性要素。通过这一限定即可建立目标对象本身属性与用户意图的链接。
比如,定义组合数量为2-3个,组合顺序为“人群-事件”、“时间-事件”、“时间-人群-事件”,则场景属性信息“人群-男士”、“时间-秋冬季”、“事件-运动”,可组合为[男士-运动],[秋冬季-运动],[秋冬季-男士-运动]的场景组合信息。
步骤S103:根据所述场景组合信息的属性要素与设定的推荐模板,生成所述目标对象的推荐信息。推荐模板即预先设置的用于生成推荐信息的模板,包括可变部分。其中,可变部分用于填充场景组合信息的属性要素。优选地,推荐模板还可以包括固定部分。实施例中,固定部分为至少一个推荐词,推荐词可以根据具体业务自定义设置。
比如,推荐模板可以为:[人群][事件]、[人群][事件]精选/就选它、[时间][人群][事件]好物等。[]中的内容即为可变部分,“精选/就选它”、“好物”即固定部分。该步骤中,将场景组合信息的属性要素填充到推荐模板的可变部分,基于填充的属性要素和推荐词即可自动生成目标对象的推荐信息。比如,场景组合信息为[男士-运动],推荐模板为[人群][事件]精选/就选它,则推荐信息为男士运动精选/就选它。
实施例二
图2是根据本发明另一实施例的推荐信息的挖掘方法的主要流程示意图。如图2所示,本发明实施例的推荐信息的挖掘方法,将目标对象具体化为产品,主要包括如下步骤:
步骤S201:从多个产品的文本描述信息中分别提取设定属性类型的属性要素,获得产品的场景属性信息。其中,文本描述信息可以是产品标题、达人文案、用户评论、产品详情页图片中的文字、商家填写的各种产品属性等。从文本描述信息中提取属性要素的具体实现包括:对文本描述信息进行分词,对分词结果进行词性标注,得到设定属性类型的属性要素。
进行词性标注之前,需基于待标注信息的特性,确定分词结果可能隶属的词性标签。比如针对产品标题,其可能隶属的词性标签为:品牌词,型号词,产品词,适用事件,适用时间,适用地点,适用人群,其他适用对象,功能属性,材质属性,样式属性,风格属性,产地属性,颜色属性,味道属性,规格属性等。进而基于词性标签对全部的产品标题进行词性标注。实施例中,提取人群、时间、地点、产地、事件、风格等各种属性类型的属性词(即属性要素)作为基础场景属性信息。
在一优选的实施例中,由于产品标题等文本描述信息多为人工方式输入,可能存在错别字。为了保证用户体验,以及保证分词结果的准确性,实施例中,可以先对产品标题等文本描述信息进行错别字纠正后,再进行分词。具体错别字纠正方法,包括但不仅限于RNN_CRF模型,seq2seq模型(序列到序列模型)等。具体举例如表1所示:
表1基础场景属性信息获取结果示例
Figure BDA0002956611520000111
Figure BDA0002956611520000121
经过上述处理,可以提取出不同属性类型的属性要素的集合。由于一种属性类型对应的属性要素中,可能会存在非常见口语表达词、语句过长、存在歧义等出现频率较低的属性要素。比如,人群属性要素中“1-2-3-4-5-6年级”、“初中大小高中学生”等,通常出现频率较低,对用户理解不友好。其中,当前属性要素的出现频率Ft的计算可以使用如下公式:
Ft=Nt/Ntotal,t=1,2,…,n
公式1
式中,Nt为当前属性要素在提取的全部属性要素中出现的次数,Ntotal为与当前属性要素具有相同属性类型的全部属性要素在提取的全部属性要素中出现的总次数,n为与当前属性要素具有相同属性类型的属性要素的数量。比如,当前属性要素为人群属性要素的“小学生”,则其出现频率为“小学生”在全部属性要素中出现的次数/人群属性要素在全部属性要素中出现的总次数。
为了提升用户体验,实施例中,基于关联规则,将相似的基础场景属性信息进行合并(即重写出现频率较低的属性要素),得到产品最终的场景属性信息。该步骤的具体实现见后续关于图3的描述。
步骤S202:根据设定的组合策略,将场景属性信息的属性要素进行组合,得到包括事件属性要素的初始组合信息。该步骤的具体实现见步骤S102,此处不再赘述。可以理解的是,实施例一的场景组合信息即此处的初始组合信息。但是由于实施例一所得的场景组合信息可能存在组合不合理的情况,故本实施例利用步骤S203对其进行了进一步筛选。
步骤S203:对初始组合信息进行语义合理性筛选,将筛选结果作为场景组合信息。其中,语义合理性筛选包括困惑度筛选和/或相似度筛选。困惑度(Perplexity)表示初始组合信息中的属性要素构成句子的概率。困惑度越大,初始组合信息中的属性要素构成句子的概率越低,说明场景组合信息的组合越不合理,筛选掉困惑度大于困惑度阈值的场景组合信息。困惑度阈值的大小取决于具体业务对场景组合信息正确率与产品覆盖率的需求权衡。正确率的计算公式如下:
正确率=判定为合理的场景组合信息的数量/全部场景组合信息的数量
公式2
产品覆盖率=场景组合信息对应的产品数量/全部产品数量
公式3
设场景组合信息为C=(属性要素1,属性要素2,…,属性要素k),则困惑度PP(C)的计算公式如下:
Figure BDA0002956611520000131
式中,P(C)为场景组合信息概率,k为场景组合信息包含的属性要素的数量,P(属性要素1)为属性要素1在文本描述信息出现的频次/属性要素1所属属性类型在文本描述信息出现的总频次,
P(属性要素2|属性要素1)为在文本描述信息中属性要素1和属性要素2同时出现的频次/属性要素1在文本描述信息出现的频次,P(属性要素k|属性要素1,…,属性要素k-1)为在文本描述信息中属性要素1,属性要素2,…,属性要素k-1,属性要素k同时出现的频次/属性要素1,属性要素2,…,属性要素k-1在文本描述信息中同时出现的频次。此处的频次即次数,总频次即总次数。
实施例中,困惑度筛选的实现过程,包括:首先按照公式4计算初始组合信息的困惑度,之后比较困惑度与设定困惑度阈值的大小,最后滤除困惑度大于困惑度阈值的初始组合信息,得到困惑度筛选结果。
相似度即场景组合信息中属性要素之间的语义距离。实施例中,可以使用的无监督词向量工具对场景组合信息中的属性要素进行向量化,之后计算各向量间的距离,得到相似度。无监督词向量工具包括但不限于word2vec、fasttext等工具。向量距离包括不限于余弦距离、欧氏距离等。如选择余弦距离,筛选得到各属性要素间余弦距离均大于相似度阈值的场景组合信息,相似度阈值的大小取决于具体业务对场景组合信息正确率与产品覆盖率的需求权衡。余弦距离cosθ的计算公式如下:
Figure BDA0002956611520000141
式中,n为属性要素进行向量化的向量维度。
实施例中,相似度筛选的实现过程,包括:首先对困惑度筛选结果的属性要素进行向量化,得到对应的属性向量;之后计算属性向量之间的相似度,比较相似度与设定相似度阈值的大小;最后滤除相似度小于等于相似度阈值的困惑度筛选结果,保留相似度大于相似度阈值的困惑度筛选结果,得到相似度筛选结果。下面举例说明。
假如设定向量维度为50,得到场景属性信息“男士”,“运动”,“孕产”的向量化表示如表2所示,经计算得到场景组合信息[男士,运动]的语义距离为0.5244,场景组合信息[男士,孕产]的语义距离为0.2964,语义距离表明场景组合信息[男士,运动]的合理性明显优于场景组合信息[男士,孕产]。
表2场景属性信息向量化表示结果
Figure BDA0002956611520000151
可以理解的是,困惑度筛选是从句子角度对组合结果进行筛选,相似度筛选是从词语角度对组合结果进行筛选,两者是并行、相互独立的过程。因此,可以先执行困惑度筛选后,再执行相似度筛选(如上例所示,相似度筛选的基础数据为困惑度筛选结果),相似度筛选结果即最终的场景组合信息。也可以先执行相似度筛选,再执行困惑度筛选(此时相似度筛选的基础数据为初始组合信息,困惑度筛选的基础数据为相似度筛选结果),困惑度筛选结果即最终的场景组合信息。也可以只执行困惑度筛选和相似度筛选中任意一个,来得到最终的场景组合信息。
步骤S204:根据场景组合信息的属性要素与设定的推荐模板,生成产品的推荐信息。该步骤根据推荐模板,对场景组合信息生成设定粒度(比如短句粒度)的推荐信息,具体见表3。在一优选的实施例中,还可以结合用户画像对推荐信息进行个性化重写,提升用户体验。比如,表3的第2行,如果用户画像表明用户年龄为18-25岁,则可以将女士改写为女生、小仙女等更符合人群气质的属性词。此外,还可根据推荐信息的应用场景,对推荐信息的字数进行限制。
表3场景类推荐信息生成示例
Figure BDA0002956611520000161
每个产品会有多种不同组合的推荐信息。比如,表3第3行,生成的推荐信息可以是冬季小个子穿搭好物,也可以是冬季穿搭好物,也可以是小个子穿搭好物,推荐词好物也可以变化。而且一个产品的一个属性类型可以有多个属性要素,比如表4中事件属性要素可以是运动,也可以是跑步,也可以是重写后的穿搭等。在一优选的实施例中,可以将用户更感兴趣、更可能引导用户点击的推荐信息排在推荐序列前面,见步骤S205。
步骤S205:计算推荐信息中不同属性类型的属性要素的第一分值,根据计算的第一分值,对推荐信息进行排序。排序的依据包括但不限于用户的历史浏览、点击或搜索信息等行为数据。比如,根据用户近期点击的产品列表,对列表产品依次通过步骤S201至步骤S203挖掘其对应的场景组合信息,然后依据出现的频次计算各属性类型各属性要素的分值,再将推荐信息各属性要素进行平均加权求和,或者根据业务需求确定各属性类型各属性要素的权重后,再加权求和。具体实现参见关于图4的描述。
图3是本发明实施例的合并基础场景属性信息的主要流程示意图。如图3所示,本发明实施例的合并基础场景属性信息的主要流程,包括以下步骤:
步骤S301:从多个目标对象中选择当前目标对象,从设定的属性类型中选择当前属性类型。实施例中的目标对象即产品。
步骤S302:统计当前目标对象的当前属性类型对应的属性要素在属性要素集中出现的频次。其中,属性要素集包括多个目标对象的当前属性类型对应的属性要素。此处的频次为当前属性类型对应的属性要素在属性要素集中出现的次数。
步骤S303:根据出现的频次,对属性要素集进行划分,得到高频属性要素集和低频属性要素集。实施例中,可以将各属性要素在属性要素集中出现的次数进行排序,选择排序靠前(比如前10%、15%)的属性要素添加到高频属性要素集,选择排序靠后(比如后10%、15%)的属性要素添加到低频属性要素集。
步骤S304:计算低频属性要素集的低频属性要素与高频属性要素集的高频属性要素之间的关联度。其中,关联度的计算如下:
score(关联度)=P(高频属性要素i|低频属性要素j)*P(低频属性要素j|高频属性要素i)
公式6
Figure BDA0002956611520000171
Figure BDA0002956611520000172
式中,F(高频属性要素i,低频属性要素j)为高频属性要素i和低频属性要素j同时出现的频次,F(低频属性要素j)为低频属性要素j出现的总频次,F(高频属性要素i)为高频属性要素i出现的总频次。
步骤S305:根据关联度,从高频属性要素集中选择高频属性要素,将低频属性要素重写为选择出的高频属性要素。关联度越大,说明高频属性要素和低频属性要素越相似,故可以选择与低频属性要素关联度最大的高频属性要素进行重写。即用与低频属性要素关联度最大的高频属性要素替换该低频属性要素。
步骤S306:重复执行步骤S301至步骤S305,直至最后一个目标对象的最后一个属性类型。即判断当前属性类型是否为最后一个目标对象的最后一个属性类型,如果不是,则重复执行上述步骤S301至步骤S305,否则结束本流程。
图4是本发明实施例的对推荐信息进行排序的主要流程示意图。如图4所示,本发明实施例的对推荐信息进行排序的主要流程,包括以下步骤:
步骤S401:获取为用户的历史操作对象生成的场景组合信息,构建场景组合信息集合。历史操作对象即用户在设定时间段内在网站进行浏览、点击、搜索等操作的产品。该步骤需利用步骤S201至步骤S203、或者利用步骤S501至步骤S507挖掘产品对应的场景组合信息,得到场景组合信息集合。
步骤S402:根据场景组合信息集合中属性要素出现的频次和属性要素对应的属性类型出现的频次,计算场景组合信息集合中不同属性类型的属性要素的第一分值。其中,当前属性要素的第一分值的计算公式如下:
Figure BDA0002956611520000181
步骤S403:根据第一分值,分别计算目标对象的多个推荐信息的第二分值。此处的目标对象即待推荐产品,由需要进行推荐业务的需求方提供。则待推荐产品的当前推荐信息的第二分值即归属于当前推荐信息的属性要素的第一分值之和,具体计算公式如下:
Figure BDA0002956611520000191
步骤S404:根据第二分值的大小,对多个推荐信息进行排序。将待推荐产品的多个推荐信息按照第二分值由高到低的顺序进行排序。实施例的推荐信息排序结果见表4。
表4推荐信息排序结果示例
Figure BDA0002956611520000192
Figure BDA0002956611520000201
如表4所示,对于“春季小仙女运动精选”这一推荐信息,第2列的推荐信息中,“春季”出现的频次为1,“春季”所属属性类型为“时间”,出现的总频次为1,则“春季”的第一分值为1。“小仙女”出现的频次为2,“小仙女”所属属性类型为人群,出现的总频次为4,则“小仙女”的第一分值为2/4。“运动”出现的频次为2,“运动”所属属性类型为事件,出现的总频次为6,则“运动”的第一分值为2/6,即可得到“春季小仙女运动精选”这一推荐信息的第二分值为1+2/4+2/6=1.83。
实施例三
由于产品的文本描述信息中可能并不包含场景概念,因此无法通过实施例一和实施例二得到场景组合信息。为了召回更多的产品,本实施例中,根据已有的场景组合信息,训练机器学习模型,预测产品的场景组合信息。实施例中,机器学习模型包括但不仅限于深度语义匹配模型DSSM(Deep Structured Semantic Models),CNN-DSSM、LSTM-DSSM等DSSM模型变种或其他机器学习模型。下面进行详细说明。
图5是根据本发明再一实施例的推荐信息的挖掘方法的主要流程示意图。如图5所示,本发明实施例的推荐信息的挖掘方法,将目标对象具体化为产品,主要包括如下步骤:
步骤S501:从多个产品的文本描述信息中分别提取设定属性类型的属性要素,获得产品的场景属性信息。
步骤S502:根据设定的组合策略,将场景属性信息的属性要素进行组合,得到包括事件属性要素的初始组合信息。
步骤S503:对初始组合信息进行语义合理性筛选,将筛选结果作为场景组合信息。
其中,上述步骤S501-步骤S503,以及下述步骤S508、步骤S509的具体实现对应参见步骤S201-步骤S205,该实施例不再赘述。下面对步骤S504-步骤S507进行详细说明。
步骤S504:确定具有相同场景组合信息的产品,根据确定的产品构建候选对象集合。本步骤以场景组合信息为关键字进行聚合,构建产品的候选对象集合。所述的聚合即将具有相同场景组合信息的产品作为一个集合。比如产品1和产品2的场景组合信息都是“冬季穿搭”,则产品1和产品2就聚合到冬季穿搭对应的集合里。
实施例中,一个场景组合信息和其对应的候选对象集合构成一个种子,该种子可以用以下方式表示:场景组合信息\t商品1,商品2,……。比如:冬季穿搭\t商品1Id,商品2Id,商品3Id,……。Id为标识。
另外,为了避免候选对象集合中的产品场景单一或者场景混杂,需要对聚合得到的初始对象集合进行筛选。其中,场景单一是指初始对象集合的产品单一,比如均来源于同一店铺。场景混杂是指初始对象集合的产品混杂,比如来自于多级分类类目。
具体地,为了避免场景单一,可以基于初始对象集合所含店铺数量、产品数量等进行过滤。比如,将店铺数小于2,包含产品数小于20的过滤掉。为了避免场景混杂,可以基于产品的产品词(比如手机、冰箱)或者各级分类类目数进行筛选。比如将产品词个数小于5、均在同一一级分类类目的保留。
步骤S505:计算场景组合信息对应的场景组合特征数据,以及计算候选对象集合对应的候选对象特征数据。其中,场景组合信息对应的场景组合特征数据的计算过程为:对场景组合信息中属性要素进行向量化,得到对应的属性向量;对得到的属性向量进行加权求和,得到场景组合信息对应的场景组合特征数据。场景组合特征数据的具体计算公式如下:
Figure BDA0002956611520000211
式中,V场景组合信息即场景组合信息对应的场景组合特征数据,V属性要素为属性要素对应的属性向量,n(属性要素|种子S)为种子S下属性要素的总个数。
候选对象集合对应的候选对象特征数据的计算过程为:对候选对象集合中产品的文本描述信息进行分词向量化,得到分词对应的分词向量;对得到的分词向量进行加权求和,得到产品对应的产品向量;将候选对象集合中产品对应的产品向量进行加权求和,得到候选对象集合对应的候选对象特征数据。候选对象特征数据的具体计算公式如下:
Figure BDA0002956611520000221
式中,V候选对象集合即候选对象集合对应的候选对象特征数据,V分词即分词对应的分词向量,n(分词|产品Pro)为候选对象集合中某产品Pro的文本描述信息中分词的总个数,n(产品|种子S)为种子S下的产品总个数。
上述实现过程中,可以使用步骤S201的分词方式和无监督词向量工具,对文本描述信息进行分词向量化(包括分词和向量化)。其中,向量化的实现还可以通过one-hot、word2vec或fasttext方式编码后,进行特征拼接得到。
步骤S506:将场景组合特征数据和对应的候选对象特征数据进行加权融合,得到融合特征数据。该步骤中通过融合场景组合特征数据和候选对象特征数据,获取融合特征数据,使得融合特征数据可以同时蕴含用户意图层面和产品本身层面的两种信息,表述更加全面。融合特征数据的具体计算公式如下:
Figure BDA0002956611520000222
式中,V种子S即当前场景组合信息对应的融合特征数据,1/2为权重,可以理解的是该权重值仅为示例,V场景组合信息和V候选对象集合的权重可以不同。
步骤S507:将融合特征数据和对应的候选对象特征数据输入双塔模型进行训练,使用训练好的双塔模型预测待测对象的场景组合信息。图6是本发明实施例的双塔模型的结构示意图。如图6所示,双塔模型即使用两个神经网络分别对训练数据进行训练,分为输入层、表示层和匹配层。
其中,输入层的两种输入分别为融合特征数据和候选对象特征数据。两种不同的输入信息,分别根据对应的深度学习网络进行训练,两种深度学习网络内部的网络层数及神经元个数可不一样,但最后输出维度必须保持一致。所述深度学习网络包括但不限于神经网络(NN),卷积神经网络(CNN),循环神经网络(RNN)等深度学习网络。经过模型训练后,可以得到最终的场景组合信息embedding(向量)和产品embedding,将其存储到内存数据库中。
为待测对象生成场景组合信息时,首先将该将待测对象的文本描述信息进行分词向量化,得到分词对应的分词向量;之后对得到的分词向量进行加权求和,得到待测对象对应的待测对象向量;再计算待测对象向量与全部场景组合信息对应的融合特征数据的相似度(比如余弦距离),根据相似度计算结果,选择对应的场景组合信息作为待测对象的场景组合信息。实施例中,选择相似度最大的融合特征数据对应的场景组合信息作为待测对象的场景组合信息。
在一优选的实施例中,如果双塔模型预测出的场景组合信息,与从产品的文本描述信息中提取得到的场景组合信息有差异,则选择提取得到的场景组合信息作为其最终场景组合信息。
步骤S508:根据场景组合信息的属性要素与设定的推荐模板,生成产品的推荐信息。
步骤S509:计算推荐信息中不同属性类型的属性要素的第一分值,根据计算的第一分值,对推荐信息进行排序。
通过本发明实施例的推荐信息的挖掘方法可以看出,本实施例可以根据不同产品特性定制产出适合该产品的推荐信息,成本较低,多样性较好,可为用户提供产品的场景应用信息,也可命中用户当前的场景应用需求以打动用户。同时基于场景类推荐信息,用户可以比较自己的需求和实际提供的产品特性,改变和强化用户对此产品的正面观点,使其接受推荐结果并进行点击、收藏或购买等行为,使推荐结果看上去更友好,极大的改善了用户体验。
图7是根据本发明实施例的推荐信息的挖掘装置的主要模块的示意图。如图7所示,本发明实施例的推荐信息的挖掘装置700,主要包括:
获取模块701,用于从目标对象的文本描述信息中提取设定属性类型的属性要素,获得所述目标对象的场景属性信息。该模块用于基于目标对象的文本描述信息,获取场景所需的场景属性信息。此处的场景属性信息是指可描述某项活动或者行为的要素,比如时间属性要素-冬季,地点属性要素-户外,事件属性要素-运动。属性要素具有属性类型,比如,“冬季”的属性类型为时间,“户外”的属性类型为地点。
为了提取属性要素,需要先对目标对象的文本描述信息进行分词,得到分词结果;之后对分词结果进行词性标注,得到词性标注结果;然后根据词性标注结果中的词性标签,获取对应属性类型的属性要素。实施例中,可以将属性类型和对应的属性要素作为目标对象的场景属性信息,该场景属性信息中包括事件属性类型的属性要素。
组合模块702,用于根据设定的组合策略,将所述场景属性信息的属性要素进行组合,生成包括事件属性要素的场景组合信息。预先配置组合策略,该组合策略定义生成的场景组合信息所包括的属性要素,以及属性要素的组合数量和组合顺序。按照组合策略,将场景属性信息中的属性要素进行合理且考虑用户意图的组合,即可得到场景组合信息。
其中,组合数量可以根据具体业务设定,比如对于短文案推荐信息,通常可选择2-3个场景属性信息;对于长文案推荐信息,可选择更多场景属性信息。在组合时,为了避免因属性要素的位置带来的不合理性,需要在组合策略中定义组合顺序。此处的合理性是指表达方式的合理性,以中文表达方式为例,什么时间做什么事情,即时间属性在前,事件属性在后,反之则不合理。
同时,由于用户对目标对象的点击、购买等行为是有做某件事的意图的,且最终生成推荐信息时需要结合用户意图,如果场景组合信息不包含事件属性要素,比如冬季办公室、冬季女士等,则并未建立起目标对象本身属性与用户意图的链接。因此,为了保证生成的场景组合信息具有场景叙事的完整性,每个场景组合信息需包含事件属性要素。通过这一限定即可建立目标对象本身属性与用户意图的链接。
生成模块703,用于根据所述场景组合信息的属性要素与设定的推荐模板,生成所述目标对象的推荐信息。推荐模板即预先设置的用于生成推荐信息的模板,包括可变部分。其中,可变部分用于填充场景组合信息的属性要素。优选地,推荐模板还可以包括固定部分。实施例中,固定部分为至少一个推荐词,推荐词可以根据具体业务自定义设置。将场景组合信息的属性要素填充到推荐模板的可变部分,基于填充的属性要素和推荐词即可自动生成目标对象的推荐信息。
另外,本发明实施例的推荐信息的挖掘装置700还可以包括:模型预测模块和排序模块(图7中未示出)。其中,模型预测模块用于确定具有相同所述场景组合信息的目标对象,根据确定的目标对象构建候选对象集合;计算所述场景组合信息对应的场景组合特征数据,以及计算所述候选对象集合对应的候选对象特征数据;将所述场景组合特征数据和对应的所述候选对象特征数据进行加权融合,得到融合特征数据;将所述融合特征数据和对应的所述候选对象特征数据输入双塔模型进行训练,使用训练好的双塔模型预测待测对象的场景组合信息;其中,所述待测对象包括生成所述场景组合信息失败的目标对象。
排序模块,用于获取为用户的历史操作对象生成的场景组合信息,构建场景组合信息集合;根据所述场景组合信息集合中属性要素出现的频次和所述属性要素对应的属性类型出现的频次,计算所述场景组合信息集合中不同属性类型的属性要素的第一分值;根据所述第一分值,分别计算所述目标对象的多个所述推荐信息的第二分值;根据所述第二分值的大小,对多个所述推荐信息进行排序。
从以上描述可以看出,通过获取目标对象的场景属性信息,并将场景属性信息的属性要素进行组合得到考虑用户意图的场景组合信息,进而基于该场景组合信息生成推荐信息,上述方式将目标对象本身的属性与用户意图相结合,既能突出目标对象,又能切合用户需求,提升推荐效果,提升用户体验。
图8示出了可以应用本发明实施例的推荐信息的挖掘方法或推荐信息的挖掘装置的示例性系统架构800。
如图8所示,系统架构800可以包括终端设备801、802、803,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器805可以是提供各种服务的服务器,例如对管理员利用终端设备801、802、803发送的文本描述信息进行处理的后台管理服务器。后台管理服务器可以提取文本描述信息中的属性要素,生成场景组合信息,生成推荐信息,并将处理结果(例如生成的推荐信息)反馈给终端设备。
需要说明的是,本申请实施例所提供的推荐信息的挖掘方法一般由服务器805执行,相应地,推荐信息的挖掘装置一般设置于服务器805中。
应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的实施例,本发明还提供了一种电子设备和一种计算机可读介质。
本发明的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种推荐信息的挖掘方法。
本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种推荐信息的挖掘方法。
下面参考图9,其示出了适用于来实现本发明实施例的电子设备的计算机系统900的结构示意图。图9示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有计算机系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本发明公开的实施例,上文主要步骤图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、组合模块和生成模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“从目标对象的文本描述信息中提取设定属性类型的属性要素,获得所述目标对象的场景属性信息的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:从目标对象的文本描述信息中提取设定属性类型的属性要素,获得所述目标对象的场景属性信息;根据设定的组合策略,将所述场景属性信息的属性要素进行组合,生成包括事件属性要素的场景组合信息;根据所述场景组合信息的属性要素与设定的推荐模板,生成所述目标对象的推荐信息。
根据本发明实施例的技术方案,通过获取目标对象的场景属性信息,并将场景属性信息的属性要素进行组合得到考虑用户意图的场景组合信息,进而基于该场景组合信息生成推荐信息,上述方式将目标对象本身的属性与用户意图相结合,既能突出目标对象,又能切合用户需求,提升推荐效果,提升用户体验。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (13)

1.一种推荐信息的挖掘方法,其特征在于,包括:
从目标对象的文本描述信息中提取设定属性类型的属性要素,获得所述目标对象的场景属性信息;
根据设定的组合策略,将所述场景属性信息的属性要素进行组合,生成包括事件属性要素的场景组合信息;
根据所述场景组合信息的属性要素与设定的推荐模板,生成所述目标对象的推荐信息。
2.根据权利要求1所述的方法,其特征在于,所述组合策略定义生成的场景组合信息所包括的属性要素,以及所述属性要素的组合数量和组合顺序;
所述生成包括事件属性要素的场景组合信息,包括:
对初始组合信息进行语义合理性筛选,将筛选结果作为场景组合信息;其中,所述初始组合信息为将所述场景属性信息的属性要素进行组合得到的结果。
3.根据权利要求2所述的方法,其特征在于,所述语义合理性筛选包括困惑度筛选和/或相似度筛选;其中,
所述困惑度筛选,包括:
计算初始组合信息或相似度筛选结果的困惑度;其中,所述困惑度表示所述初始组合信息中的属性要素构成句子的概率;
比较所述困惑度与设定困惑度阈值的大小,滤除所述困惑度大于所述困惑度阈值的初始组合信息或相似度筛选结果;
所述相似度筛选,包括:
对所述初始组合信息或困惑度筛选结果的属性要素进行向量化,得到对应的属性向量;
计算所述属性向量之间的相似度,比较所述相似度与设定相似度阈值的大小;
滤除所述相似度小于等于所述相似度阈值的初始组合信息或所述困惑度筛选结果。
4.根据权利要求1所述的方法,其特征在于,所述目标对象为多个;
所述生成包括事件属性要素的场景组合信息的步骤之后,所述方法还包括:
确定具有相同所述场景组合信息的目标对象,根据确定的目标对象构建候选对象集合;
计算所述场景组合信息对应的场景组合特征数据,以及计算所述候选对象集合对应的候选对象特征数据;
将所述场景组合特征数据和对应的所述候选对象特征数据进行加权融合,得到融合特征数据;
将所述融合特征数据和对应的所述候选对象特征数据输入双塔模型进行训练,使用训练好的双塔模型预测待测对象的场景组合信息;其中,所述待测对象包括生成所述场景组合信息失败的目标对象。
5.根据权利要求4所述的方法,其特征在于,所述计算所述场景组合信息对应的场景组合特征数据,包括:
对所述场景组合信息中属性要素进行向量化,得到对应的属性向量;
对得到的所述属性向量进行加权求和,得到所述场景组合信息对应的场景组合特征数据。
6.根据权利要求4所述的方法,其特征在于,所述计算所述候选对象集合对应的候选对象特征数据,包括:
对所述候选对象集合中目标对象的文本描述信息进行分词向量化,得到分词对应的分词向量;
对得到的所述分词向量进行加权求和,得到所述目标对象对应的目标对象向量;
将所述候选对象集合中目标对象对应的目标对象向量进行加权求和,得到所述候选对象集合对应的候选对象特征数据。
7.根据权利要求4所述的方法,其特征在于,所述使用训练好的双塔模型预测待测对象的场景组合信息,包括:
将所述待测对象的文本描述信息进行分词向量化,得到分词对应的分词向量;
对得到的所述分词向量进行加权求和,得到所述待测对象对应的待测对象向量;
计算所述待测对象向量与所述场景组合信息对应的融合特征数据的相似度,根据相似度计算结果,选择对应的场景组合信息作为所述待测对象的场景组合信息。
8.根据权利要求1所述的方法,其特征在于,所述推荐信息包括多个;
所述生成所述目标对象的推荐信息的步骤之后,所述方法还包括:
获取为用户的历史操作对象生成的场景组合信息,构建场景组合信息集合;
根据所述场景组合信息集合中属性要素出现的频次和所述属性要素对应的属性类型出现的频次,计算所述场景组合信息集合中不同属性类型的属性要素的第一分值;
根据所述第一分值,分别计算所述目标对象的多个所述推荐信息的第二分值;
根据所述第二分值的大小,对多个所述推荐信息进行排序。
9.根据权利要求1所述的方法,其特征在于,所述目标对象为多个;
所述获得目标对象的场景属性信息,包括:
从多个所述目标对象中选择当前目标对象,从所述属性类型中选择当前属性类型,重复执行以下步骤,直至最后一个目标对象的最后一个属性类型:
统计所述当前目标对象的当前属性类型对应的属性要素在属性要素集中出现的频次;其中,所述属性要素集包括多个所述目标对象的当前属性类型对应的属性要素;
根据所述频次,对所述属性要素集进行划分,得到高频属性要素集和低频属性要素集;
计算所述低频属性要素集的低频属性要素与所述高频属性要素集的高频属性要素之间的关联度;
根据所述关联度,从所述高频属性要素集中选择高频属性要素,将所述低频属性要素重写为选择出的高频属性要素。
10.根据权利要求1至9的任一项所述的方法,其特征在于,所述从目标对象的文本描述信息中提取设定属性类型的属性要素,包括:
对目标对象的文本描述信息进行分词,得到分词结果;
对所述分词结果进行词性标注,根据词性标注结果的词性标签,获取对应属性类型的属性要素。
11.一种推荐信息的挖掘装置,其特征在于,包括:
获取模块,用于从目标对象的文本描述信息中提取设定属性类型的属性要素,获得所述目标对象的场景属性信息;
组合模块,用于根据设定的组合策略,将所述场景属性信息的属性要素进行组合,生成包括事件属性要素的场景组合信息;
生成模块,用于根据所述场景组合信息的属性要素与设定的推荐模板,生成所述目标对象的推荐信息。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。
CN202110224557.3A 2021-03-01 2021-03-01 一种推荐信息的挖掘方法和装置 Pending CN113761349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110224557.3A CN113761349A (zh) 2021-03-01 2021-03-01 一种推荐信息的挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110224557.3A CN113761349A (zh) 2021-03-01 2021-03-01 一种推荐信息的挖掘方法和装置

Publications (1)

Publication Number Publication Date
CN113761349A true CN113761349A (zh) 2021-12-07

Family

ID=78786709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110224557.3A Pending CN113761349A (zh) 2021-03-01 2021-03-01 一种推荐信息的挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN113761349A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610745A (zh) * 2023-06-08 2023-08-18 云南庸目科技有限公司 应用数字孪生技术的ai场景信息推送处理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610745A (zh) * 2023-06-08 2023-08-18 云南庸目科技有限公司 应用数字孪生技术的ai场景信息推送处理方法及系统
CN116610745B (zh) * 2023-06-08 2023-12-26 深圳市巨灵数字有限公司 应用数字孪生技术的ai场景信息推送处理方法及系统

Similar Documents

Publication Publication Date Title
WO2020108608A1 (zh) 搜索结果处理方法、装置、终端、电子设备及存储介质
CN106709040B (zh) 一种应用搜索方法和服务器
CN111461841B (zh) 物品推荐方法、装置、服务器及存储介质
US20160300144A1 (en) System and method for generating recommendations
CN108345702A (zh) 实体推荐方法和装置
US20150213361A1 (en) Predicting interesting things and concepts in content
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
CN110325986A (zh) 文章处理方法、装置、服务器及存储介质
US11023503B2 (en) Suggesting text in an electronic document
CN109636430A (zh) 对象识别方法及其系统
CN109783539A (zh) 用户挖掘及其模型构建方法、装置及计算机设备
Hanni et al. Summarization of customer reviews for a product on a website using natural language processing
CN111737560B (zh) 内容搜索方法、领域预测模型训练方法、装置及存储介质
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN114971730A (zh) 文案素材提取方法及其装置、设备、介质、产品
CN111429214B (zh) 一种基于交易数据的买卖双方匹配方法及装置
Eide et al. Deep neural network marketplace recommenders in online experiments
CN112749330A (zh) 信息推送方法、装置、计算机设备和存储介质
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN113761349A (zh) 一种推荐信息的挖掘方法和装置
JP7454630B2 (ja) ラベル推奨モデルのトレーニング方法及び装置、ラベル取得方法及び装置
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN111797622B (zh) 用于生成属性信息的方法和装置
CN113254824A (zh) 内容确定方法、设备、介质及程序产品
CN113744011A (zh) 物品搭配方法和物品搭配装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination