CN114240568A - 关联产品的推荐方法和推荐装置 - Google Patents
关联产品的推荐方法和推荐装置 Download PDFInfo
- Publication number
- CN114240568A CN114240568A CN202111574361.3A CN202111574361A CN114240568A CN 114240568 A CN114240568 A CN 114240568A CN 202111574361 A CN202111574361 A CN 202111574361A CN 114240568 A CN114240568 A CN 114240568A
- Authority
- CN
- China
- Prior art keywords
- entity
- target
- tag
- label
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种关联产品的推荐方法和推荐装置,应用于推荐系统领域,有利于提高对关联产品推荐的准确率。该方法包括:对目标资讯进行内容识别,获得目标资讯的目标主题标签、目标概念标签和目标实体标签;基于预先构建的三级分层标签树、目标主题标签、目标概念标签和目标实体标签,确定多个候选实体;基于三级分层标签树,确定多个候选实体中每个候选实体与目标资讯之间的关联度;基于每个候选实体与目标资讯之间的关联度,从多个候选实体中选择至少一个实体作为目标资讯的关联产品。
Description
技术领域
本申请涉及推荐系统领域,更具体地,涉及一种关联产品的推荐方法和推荐装置。
背景技术
随着互联网和国内证券市场的快速发展,互联网资讯更新更加地频繁,金融资讯为用户交易投资以及掌握市场动态提供了数据辅助。市场上通常会短时间内爆发出非常多的资讯内容,而过多的资讯信息会使得用户应接不暇,如何在大量的资讯内容中准确、快速地获取相关联基金、股票、外汇等信息并及时展示给用户变得非常困难。
目前,可以通过对资讯内容提取关键词,再结合关键词和金融产品进行简单的术语匹配,或者通过关键词向量与股票词向量计算相似度的方式确定与资讯内容相关的一个或者多个股票。
然而,上述方法无法精准刻画资讯内容,为用户推荐的与资讯内容关联的金融产品的准确率不高。
发明内容
本申请提供一种关联产品的推荐方法和推荐装置,有利于提高对关联产品推荐的准确率。
第一方面,提供了一种关联产品的推荐方法,该方法包括:对目标资讯进行内容识别,获得目标资讯的目标主题标签、目标概念标签和目标实体标签,目标主题标签用于表示目标资讯对应的产品类型,目标概念标签用于表示目标资讯中的关键短语,目标实体标签用于表示目标资讯对应的产品。基于预先构建的三级分层标签树、目标主题标签、目标概念标签和目标实体标签,确定多个候选实体,三级分层标签树表示多个主题标签、多个概念标签和多个实体标签之间的关联关系,多个主题标签包括目标主题标签,多个概念标签包括目标概念标签,多个实体标签包括目标实体标签。基于三级分层标签树,确定多个候选实体中每个候选实体与目标资讯之间的关联度。基于每个候选实体与目标资讯之间的关联度,从多个候选实体中选择至少一个实体作为目标资讯的关联产品。
在本申请中,基于预先构建的三级分层标签树,数据处理设备可以利用三级分层标签树的层级关系以及三级分层标签树中上层和下层之间的关联度,并结合根据目标资讯识别的目标资讯的目标主题标签、目标概念标签和目标实体标签计算目标资讯和产品的关联度,根据目标资讯和产品的关联度为用户推荐至少一个关联产品。
本申请的三级分层标签树是基于大量的资讯内容和产品构建的,可以深度挖掘资讯内容的语义特征,通过三级分层标签树中上层和下层之间的关联度精准刻画资讯内容和业务产品之间的关联,这样为用户推荐的与资讯内容关联的产品的可解释性更强、准确率更高。
结合第一方面,在第一方面的某些实现方式中,基于预先构建的三级分层标签树、目标主题标签、目标概念标签和目标实体标签,确定多个候选实体,包括:将三级分层标签树中目标主题标签下的实体标签对应的实体确定为第一候选实体。将三级分层标签树中目标概念标签下的实体标签对应的实体确定为第二候选实体。将目标实体标签对应的实体确定为第三候选实体。将第一候选实体、第二候选实体和第三候选实体确定为多个候选实体。
结合第一方面,在第一方面的某些实现方式中,三级分层标签树中包括多个主题标签与多个主题标签下的至少一个概念标签之间的关联度、多个概念标签与多个概念标签下的至少一个实体标签之间的关联度。
基于三级分层标签树,确定多个候选实体中每个候选实体与目标资讯之间的关联度,包括:将三级分层标签树中每个候选实体与目标主题标签之间的关联度确定为第一关联度,每个候选实体与目标主题标签之间的关联度是通过每个候选实体与目标主题标签下的概念标签之间的关联度以及目标主题标签下的概念标签与目标主题标签之间的关联度确定的。将三级分层标签树中每个候选实体与目标概念标签之间的关联度确定为第二关联度。将每个候选实体与目标实体标签对应的实体之间的关联度确定为第三关联度。将第一关联度、第二关联度和第三关联度之和确定为每个候选实体与目标资讯之间的关联度。
结合第一方面,在第一方面的某些实现方式中,若多个候选实体中的第一候选实体属于目标实体标签对应的实体,则第一候选实体与目标实体标签对应的实体之间的关联度为1。若第一候选实体不属于目标实体标签对应的实体,则第一候选实体与目标实体标签对应的实体之间的关联度为0。
结合第一方面,在第一方面的某些实现方式中,基于海量历史资讯,确定多个主题标签、多个概念标签和多个实体标签。计算多个主题标签与多个概念标签之间的关联度、多个概念标签与多个实体标签之间的关联度。基于多个主题标签与多个概念标签之间的关联度、多个概念标签与多个实体标签之间的关联度,构建三级分层标签树。
结合第一方面,在第一方面的某些实现方式中,基于每个候选实体与目标资讯之间的关联度,从多个候选实体中选择至少一个实体作为目标资讯的关联产品,包括:从多个候选实体中选择与目标资讯之间的关联度最大的至少一个实体作为目标资讯的关联产品。
第二方面,提供了一种关联产品的推荐装置,用于执行上述第一方面中任一种可能的实现方式中的方法。具体地,该装置包括用于执行上述第一方面中任一种可能的实现方式中的方法的模块。
第三方面,提供了一种关联产品的推荐装置,包括处理器,该处理器与存储器耦合,可用于执行存储器中的指令,以实现上述第一方面中任一种可能实现方式中的方法。可选地,该装置还包括存储器。可选地,该装置还包括通信接口,处理器与通信接口耦合。
第四方面,提供了一种处理器,包括:输入电路、输出电路和处理电路。处理电路用于通过输入电路接收信号,并通过输出电路发射信号,使得处理器执行上述第一方面中任一种可能实现方式中的方法。
在具体实现过程中,上述处理器可以为芯片,输入电路可以为输入管脚,输出电路可以为输出管脚,处理电路可以为晶体管、门电路、触发器和各种逻辑电路等。输入电路所接收的输入的信号可以是由例如但不限于接收器接收并输入的,输出电路所输出的信号可以是例如但不限于输出给发射器并由发射器发射的,且输入电路和输出电路可以是同一电路,该电路在不同的时刻分别用作输入电路和输出电路。本申请对处理器及各种电路的具体实现方式不做限定。
第五方面,提供了一种处理装置,包括处理器和存储器。该处理器用于读取存储器中存储的指令,并可通过接收器接收信号,通过发射器发射信号,以执行上述第一方面中任一种可能实现方式中的方法。
可选地,处理器为一个或多个,存储器为一个或多个。
可选地,存储器可以与处理器集成在一起,或者存储器与处理器分离设置。
在具体实现过程中,存储器可以为非瞬时性(non-transitory)存储器,例如只读存储器(read only memory,ROM),其可以与处理器集成在同一块芯片上,也可以分别设置在不同的芯片上,本申请对存储器的类型以及存储器与处理器的设置方式不做限定。
应理解,相关的数据交互过程例如发送指示信息可以为从处理器输出指示信息的过程,接收能力信息可以为处理器接收输入能力信息的过程。具体地,处理输出的数据可以输出给发射器,处理器接收的输入数据可以来自接收器。其中,发射器和接收器可以统称为收发器。
上述第五方面中的处理装置可以是一个芯片,该处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于该处理器之外,独立存在。
第六方面,提供了一种计算机程序产品,计算机程序产品包括:计算机程序(也可以称为代码,或指令),当计算机程序被运行时,使得计算机执行上述第一方面中任一种可能实现方式中的方法。
第七方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序(也可以称为代码,或指令)当其在计算机上运行时,使得计算机执行上述第一方面中任一种可能实现方式中的方法。
附图说明
图1是本申请实施例提供的一种关联产品的推荐方法的示意性流程图;
图2是本申请实施例提供的一种构建三级分层标签树的方法的示意性流程图;
图3是本申请实施例提供的一种三级分层标签树的示意图;
图4是本申请实施例提供的另一种关联产品的推荐方法的示意性流程图;
图5是本申请实施例提供的一种关联产品的推荐装置的示意性框图;
图6是本申请实施例提供的另一种关联产品的推荐装置的示意性框图。
具体实施方式
在介绍本申请实施例提供的关联产品的推荐方法和推荐装置之前,先做出以下几点说明。
第一,在下文示出的实施例中,各术语及英文缩略语,如主题标签、概念标签、实体标签等,均为方便描述而给出的示例性举例,不应对本申请构成任何限定。本申请并不排除在已有或未来的协议中定义其它能够实现相同或相似功能的术语的可能。
第二,在下文示出的实施例中第一、第二以及各种数字编号仅为描述方便进行的区分,并不用来限制本申请实施例的范围。例如,区分不同的候选实体、区分不同的关联度等。
第三,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a、b和c中的至少一项(个),可以表示:a,或b,或c,或a和b,或a和c,或b和c,或a、b和c,其中a,b,c可以是单个,也可以是多个。
在计算资讯内容关联金融产品的实现方式中,可以通过对资讯内容提取关键词,再结合关键词与金融产品进行简单的术语匹配,或者通过关键词向量与股票词向量计算余弦相似度。另外,可以通过基于金融业务场景构建标签体系来计算资讯内容和金融产品的关联。
然而,上述方法对资讯内容的语义特征的挖掘不够,缺乏对资讯内容的语义理解,为用户推荐的与资讯内容关联的金融产品的准确率不高。
有鉴于此,本申请实施例提供一种关联产品的推荐方法和推荐装置,可以基于资讯内容和产品业务构建的三层标签树以及标签树中上层节点和下层节点之间的关联度,计算实时资讯内容与金融产品的关联度,从而为用户推荐与实时资讯内容关联的产品。
示例性地,本申请可应用于资讯内容关联金融产品,但本申请实施例对此不作限定。
图1是本申请实施例提供的一种关联产品的推荐方法100的示意性流程图。方法100可以通过数据处理设备执行,示例性地,数据处理设备可以是服务器或其它具有数据处理功能的设备,本申请实施例对此不作限定。方法100包括如下步骤:
S101,对目标资讯进行内容识别,获得所述目标资讯的目标主题标签、目标概念标签和目标实体标签。
其中,目标主题标签用于表示目标资讯对应的产品类型,目标概念标签用于表示目标资讯中的关键短语,目标实体标签用于表示目标资讯对应的产品。
S102,基于预先构建的三级分层标签树、目标主题标签、目标概念标签和目标实体标签,确定多个候选实体。
其中,三级分层标签树表示多个主题标签、多个概念标签和多个实体标签之间的关联关系。多个主题标签包括上述目标主题标签,多个概念标签包括上述目标概念标签,多个实体标签包括上述目标实体标签。
S103,基于三级分层标签树,确定多个候选实体中每个候选实体与目标资讯之间的关联度。
S104,基于每个候选实体与目标资讯之间的关联度,从多个候选实体中选择至少一个实体作为目标资讯的关联产品。
在本申请实施例中,基于预先构建的三级分层标签树,数据处理设备可以利用三级分层标签树的层级关系以及三级分层标签树中上层和下层之间的关联度,并结合根据目标资讯识别的目标资讯的目标主题标签、目标概念标签和目标实体标签计算目标资讯和产品的关联度,根据目标资讯和产品的关联度为用户推荐至少一个关联产品。
本申请实施例的三级分层标签树是基于大量的资讯内容和业务产品构建的,可以深度挖掘资讯内容的语义特征,通过三级分层标签树中上层和下层之间的关联度精准刻画资讯内容和业务产品之间的关联,这样为用户推荐的与资讯内容关联的产品的可解释性更强、准确率更高。
图2是本申请实施例提供的一种构建三级分层标签树的方法200的示意性流程图。应理解,方法200的步骤可以在方法100的步骤之前执行。方法200包括如下步骤:
S201,基于海量历史资讯,确定多个主题标签、多个概念标签和多个实体标签。
示例性地,数据处理设备可以根据用户的点击行为对资讯内容进行聚类,再由人工对聚类结果进行标注从而构建主题标签。
可选地,主题标签可以包括基金、股票、债券、保险、理财、期货中的至少一种。
示例性地,数据处理设备可以从海量资讯中抽取关键短语,对关键短语进行语义归一化和合并,将有效的关键短语作为概念标签。本申请实施例将具有相同属性的一类实体统称为概念。
示例性地,数据处理设备可以由产品名称构成实体标签,产品的其他属性可以作为实体标签的属性,用于辅助实体进行链接。
应理解,实体标签可以是具体的某一种基金、股票、债券、保险、理财或者期货,例如,实体标签e为股票代码为12345x的股票。
S202,计算多个主题标签与多个概念标签之间的关联度、多个概念标签与多个实体标签之间的关联度。
在构建主题标签、概念标签和实体标签后,数据处理设备可以计算主题标签和概念标签之间的关联度以及概念标签和实体标签之间的关联度。
示例性地,计算主题标签和概念标签之间的关联度的步骤如下:
步骤2,统计海量资讯文章的主题中包括主题标签p的资讯文章的数量,记为np。
步骤4,如果p(p|c)<δ1,则不建立主题标签p和概念标签c之间的层级关系。如果p(p|c)≥δ1,则建立主题标签p和概念标签c之间的层级关系,并且其关联度为p(p|c)。
示例性地,计算概念标签和实体标签之间的关联度的步骤如下:
步骤1,对海量资讯文章进行分词,去除停用词。
步骤2,使用训练好的实体识别模型识别海量资讯文章中提到的实体。
步骤3,根据资讯文章中提到的实体与实体标签库中的实体标签的名称、简称、别名、代码等术语进行匹配,如果匹配成功,将资讯文章中提到的实体链接到实体标签上。假设匹配到的为实体标签e。
步骤4,根据分词后的海量资讯文章和识别出的实体标签e,统计实体标签e的上下文词以及实体标签e对应的实体的词,计算实体标签e和概念标签c之间的关联度。
示例性地,实体标签e和概念标签c之间的关联度可以通过如下公式表示:
其中,X表示实体标签e的上下文词的窗口长度,xi表示实体标签e的上下文词。如果概念标签c对应的关键短语中不包括实体标签e对应的实体的名称、简称、别名或者代码,那么执行上述公式(a)。如果概念标签c对应的关键短语中包括实体标签e对应的实体的名称、简称、别名或者代码,那么执行上述公式(b)。p(xi|e)等于包含实体标签e的上下文词xi出现的次数与包含实体标签e出现的次数的比值。
上述公式(a)中的p(c|xi)可以通过如下公式表示:
其中,表示概念标签c对应的关键短语包括xi的子串的长度。如果概念标签c对应的关键短语包括xi的子串,那么执行上述公式(c),表示实体标签e对应的实体的上下文词xi在概念标签c对应的关键短语中的长度的倒数,相当于对词长度进行归一化。如果概念标签c对应的关键短语不包括xi的子串,那么执行上述公式(d)。
步骤5,如果p(c|e)<δ2,则不建立概念标签c和实体标签e之间的层级关系。如果p(c|e)≥δ2,则建立主题标签p和概念标签c之间的关联关系,并且其关联度为p(c|e)。
S203,基于多个主题标签与多个概念标签之间的关联度、多个概念标签与多个实体标签之间的关联度,构建三级分层标签树。
图3是本申请实施例提供的一种三级分层标签树的示意图。如图3所示,三级分层标签树从上而上依次为主题标签p、概念标签c和实体标签e。其中,主题标签p包括主题标签p1、主题标签p2以及主题标签p3。概念标签c包括概念标签c1、概念标签c2以及概念标签c3,实体标签e包括实体标签e1、实体标签e2以及实体标签e3。
如图3所示,主题标签p1与概念标签c1和概念标签c3之间具有关联关系,主题标签p2与概念标签c2和概念标签c3之间具有关联关系,主题标签p3与概念标签c3之间具有关联关系。概念标签c1和实体标签e1之间具有关联关系,概念标签c2和实体标签e3之间具有关联关系,概念标签c3和实体标签e2之间具有关联关系。
图4是本申请实施例提供的另一种关联产品的推荐方法400的示意性流程图。方法400可以由数据处理设备执行,但本申请实施例对此不作限定。方法400包括如下步骤:
S401,通过训练好的主题分类模型对目标资讯进行识别,得到目标资讯的目标主题标签。
示例性地,数据处理设备可以通过人工标注主题相关的海量资讯,通过标注的海量资讯训练深度学习网络,得到训练好的主题分类模型,通过训练好的主题分类模型对每日实时更新的目标资讯进行主题识别,得到目标资讯的目标主题标签。
可选地,数据处理设备可以将识别出的主题标签与主题标签库中的主题标签进行匹配,如果匹配成功,则将匹配到的得到主题标签库中的主题标签赋予目标资讯,得到目标资讯的目标主题标签。如果匹配失败,则将识别出的主题标签作为一个新的主题标签加入主题标签库,为目标资讯赋予该新的主题标签,得到目标资讯的目标主题标签。
S402,通过关键短语抽取模型对目标资讯进行识别,得到目标资讯的目标概念标签。
示例性地,数据处理设备可以通过关键短语抽取模型对每日实时更新的目标资讯抽取关键短语,将抽取的关键短语与概念标签库的语义计算最大相似度。如果最大相似度小于预设阈值,则将抽取的关键短语作为一个新的概念标签加入概念标签库,并基于上文中描述的计算关联度的方式确定与该新的概念标签关联的实体标签,以及确定与该新的概念标签关联的主题标签。如果最大相似度大于或等于预设阈值,则将该抽取的关键短语对应的概念标签与概念标签库中的概念标签进行合并,并为目标资讯赋予概念标签库中的概念标签,得到目标资讯的目标概念标签。
S403,通过训练好的实体识别模块对目标资讯进行识别,得到目标资讯的目标实体标签。
示例性地,数据处理设备可以通过训练好的实体识别模块对目标资讯中提到的实体进行识别,再根据目标资讯中提到的实体与实体标签库中实体标签的名称、别名、简称、全称、代码等术语进行匹配,如果匹配成功,则为该目标资讯提到的实体赋予实体标签库中相应的实体标签,得到目标资讯的目标实体标签。
示例性地,实体识别模块为序列标注模型。上述主题分类模型、关键短语抽取模型以及实体识别模块可以具有深度学习的网络结构,采用深度学习可以提升对资讯标签识别的准确率。
应理解,主题标签库可以包括基于海量历史资讯构建的三级分层标签树中的多个主题标签。概念标签库可以包括基于海量历史资讯构建的三级分层标签树中的多个概念标签。实体标签库可以包括基于海量历史资讯构建的三级分层标签树中的多个实体标签。
还应理解,上述目标主题标签、目标概念标签以及目标实体标签的数量可以为至少一个,但本申请实施例对此不作限定。
示例性地,目标资讯d的目标主题标签有k个,分别为p1,p2,……,pk,目标概念标签有m个,分别为c1,c2,……,cm,目标实体标签有n个,分别为e1,e2,……,en。
S404,将三级分层标签树中目标主题标签下的实体标签对应的实体确定为第一候选实体。
在本步骤中,数据处理设备可以根据已构建的三级分层标签树,确定目标资讯d的目标主题标签下所有关联的实体标签对应的实体为第一候选实体。
以图3所示的三级分层标签树为例,假设目标资讯d的目标主题标签包括p1和p3,其中,目标主题标签p1下的实体标签包括e1和e2,目标主题标签p3下的实体标签包括e2。这样目标资讯d的目标主题标签下所有关联的实体标签包括e1和e2,确定的第一候选实体包括实体标签e1和e2对应的实体。
S405,将三级分层标签树中所述目标概念标签下的实体标签对应的实体确定为第二候选实体。
在本步骤中,数据处理设备可以根据已构建的三级分层标签树,确定目标资讯d的目标概念标签下所有关联的实体标签对应的实体为第二候选实体。
以图3所示的三级分层标签树为例,假设目标资讯d的目标概念标签包括c1和c3,其中,目标概念标签c1下的实体标签包括e1,目标概念标签c3下的实体标签包括e2。这样目标资讯d的目标概念标签下所有关联的实体标签包括e1和e2,确定的第二候选实体包括实体标签e1和e2对应的实体。
S406,将目标实体标签对应的实体确定为第三候选实体。
在本步骤中,数据处理设备可以根据已构建的三级分层标签树,确定目标资讯d的目标实体标签对应的实体为第三候选实体。
以图3所示的三级分层标签树为例,假设目标资讯d的目标实体标签包括e2,确定的第三候选实体包括实体标签e2对应的实体。
S407,将第一候选实体、第二候选实体和第三候选实体确定为上述多个候选实体。
在本步骤中,数据处理设备可以将第一候选实体、第二候选实体和第三候选实体进行合并,得到上述多个候选实体,以步骤S404、步骤S405以及步骤S406中确定的第一候选实体、第二候选实体和第三候选实体为例,上述多个候选实体可以包括实体标签e1和e2对应的实体。
S408,计算多个候选实体中每个候选实体与目标资讯之间的关联度。
示例性地,候选实体ez(z∈(1,2,……,n))与目标资讯d之间的关联度可以通过如下公式表示:
其中,表示目标资讯d的所有目标主题标签下关联的实体标签的关联度之和。表示目标资讯d的所有目标概念标签下关联的实体标签的关联度之和。1表示如果实体ez是目标资讯d识别的目标实体标签对应的实体,即ez∈(1,2,……,n),那么实体ez与目标资讯d之间的关联度为1。如果实体ez不是目标资讯d识别的目标实体标签对应的实体,那么实体ez与目标资讯d之间的关联度为0。
上述公式中的p(ez|pi)=∑jp(ez|cj)p(cj|pi),p(ez|cj)表示实体ez与概念标签cj之间的关联度,p(cj|pi)表示概念标签cj与主题标签pi之间的关联度。
S409,根据每个候选实体与目标资讯之间的关联度,从多个候选实体中选择至少一个实体作为目标资讯的关联产品。
在本申请实施例中,数据处理设备可以基于构建的三级分层标签树得到与目标资讯关联的多个候选实体。这样基于主题标签、概念标签和实体标签三种粒度去识别目标资讯的语义内容可以更加精准地刻画目标资讯。
可选地,S409包括:从上述多个候选实体中选择与目标资讯之间的关联度最大的至少一个实体作为目标资讯的关联产品。
在本申请实施例中,数据处理设备可以基于每个候选实体与目标资讯之间的关联度的公式得到每个候选实体与目标资讯之间的关联度,之后将多个候选实体与目标资讯之间的关联度从大到小进行排序,选取关联度最大的前N个实体作为目标资讯的关联产品推荐给用户。
示例性地,N可以取值为3,但本申请实施例对N的取值不作限定。
应理解,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上文中结合图1至图4,详细描述了根据本申请实施例的关联产品的推荐方法,下面将结合图5和图6详细描述根据本申请实施例的关联产品的推荐装置。
图5示出了本申请实施例提供的一种关联产品的推荐装置500的示意性框图,该装置500包括获取模块510和处理模块520。
其中,获取模块510用于:对目标资讯进行内容识别,获得目标资讯的目标主题标签、目标概念标签和目标实体标签,目标主题标签用于表示目标资讯对应的产品类型,目标概念标签用于表示目标资讯中的关键短语,目标实体标签用于表示目标资讯对应的产品。处理模块520用于:基于预先构建的三级分层标签树、目标主题标签、目标概念标签和目标实体标签,确定多个候选实体,三级分层标签树表示多个主题标签、多个概念标签和多个实体标签之间的关联关系,多个主题标签包括目标主题标签,多个概念标签包括目标概念标签,多个实体标签包括目标实体标签;基于三级分层标签树,确定多个候选实体中每个候选实体与目标资讯之间的关联度;以及,基于每个候选实体与目标资讯之间的关联度,从多个候选实体中选择至少一个实体作为目标资讯的关联产品。
可选地,处理模块520用于:将三级分层标签树中目标主题标签下的实体标签对应的实体确定为第一候选实体;将三级分层标签树中目标概念标签下的实体标签对应的实体确定为第二候选实体;将目标实体标签对应的实体确定为第三候选实体;以及,将第一候选实体、第二候选实体和第三候选实体确定为多个候选实体。
可选地,三级分层标签树中包括多个主题标签与多个主题标签下的至少一个概念标签之间的关联度、多个概念标签与多个概念标签下的至少一个实体标签之间的关联度。处理模块520用于:将三级分层标签树中每个候选实体与目标主题标签之间的关联度确定为第一关联度,每个候选实体与目标主题标签之间的关联度是通过每个候选实体与目标主题标签下的概念标签之间的关联度以及目标主题标签下的概念标签与目标主题标签之间的关联度确定的;将三级分层标签树中每个候选实体与目标概念标签之间的关联度确定为第二关联度;将每个候选实体与目标实体标签对应的实体之间的关联度确定为第三关联度;以及,将第一关联度、第二关联度和第三关联度之和确定为每个候选实体与目标资讯之间的关联度。
可选地,若多个候选实体中的第一候选实体属于目标实体标签对应的实体,则第一候选实体与目标实体标签对应的实体之间的关联度为1。若第一候选实体不属于目标实体标签对应的实体,则第一候选实体与目标实体标签对应的实体之间的关联度为0。
可选地,处理模块520用于:基于海量历史资讯,确定多个主题标签、多个概念标签和多个实体标签;计算多个主题标签与多个概念标签之间的关联度、多个概念标签与多个实体标签之间的关联度;以及,基于多个主题标签与多个概念标签之间的关联度、多个概念标签与多个实体标签之间的关联度,构建三级分层标签树。
可选地,处理模块520用于:从多个候选实体中选择与目标资讯之间的关联度最大的至少一个实体作为目标资讯的关联产品。
在一个可选的例子中,本领域技术人员可以理解,装置500可以具体为上述实施例中的数据处理设备,或者,上述实施例中数据处理设备的功能可以集成在装置500中。上述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。装置500可以用于执行上述方法实施例中与数据处理设备对应的各个流程和/或步骤。
应理解,这里的装置500以功能模块的形式体现。这里的术语“模块”可以指应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在本申请的实施例,图5中的装置500也可以是芯片或者芯片系统,例如:片上系统(system on chip,SoC)。
图6是本申请实施例提供的另一种关联产品的推荐装置600的示意性框图。该装置600包括处理器610、收发器620和存储器630。其中,处理器610、收发器620和存储器630通过内部连接通路互相通信,该存储器630用于存储指令,该处理器610用于执行该存储器630存储的指令,以控制该收发器620发送信号和/或接收信号。
应理解,装置600可以具体为上述实施例中的数据处理设备,或者,上述实施例中数据处理设备的功能可以集成在装置600中,装置600可以用于执行上述方法实施例中与数据处理设备对应的各个步骤和/或流程。可选地,该存储器630可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。该处理器610可以用于执行存储器中存储的指令,并且该处理器执行该指令时,该处理器可以执行上述方法实施例中与数据处理设备对应的各个步骤和/或流程。
应理解,在本申请实施例中,该处理器610可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器执行存储器中的指令,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种关联产品的推荐方法,其特征在于,包括:
对目标资讯进行内容识别,获得所述目标资讯的目标主题标签、目标概念标签和目标实体标签,所述目标主题标签用于表示所述目标资讯对应的产品类型,所述目标概念标签用于表示所述目标资讯中的关键短语,所述目标实体标签用于表示所述目标资讯对应的产品;
基于预先构建的三级分层标签树、所述目标主题标签、所述目标概念标签和所述目标实体标签,确定多个候选实体,所述三级分层标签树表示多个主题标签、多个概念标签和多个实体标签之间的关联关系,所述多个主题标签包括所述目标主题标签,所述多个概念标签包括所述目标概念标签,所述多个实体标签包括所述目标实体标签;
基于所述三级分层标签树,确定所述多个候选实体中每个候选实体与所述目标资讯之间的关联度;
基于所述每个候选实体与所述目标资讯之间的关联度,从所述多个候选实体中选择至少一个实体作为所述目标资讯的关联产品。
2.根据权利要求1所述的方法,其特征在于,所述基于预先构建的三级分层标签树、所述目标主题标签、所述目标概念标签和所述目标实体标签,确定多个候选实体,包括:
将所述三级分层标签树中所述目标主题标签下的实体标签对应的实体确定为第一候选实体;
将所述三级分层标签树中所述目标概念标签下的实体标签对应的实体确定为第二候选实体;
将所述目标实体标签对应的实体确定为第三候选实体;
将所述第一候选实体、所述第二候选实体和所述第三候选实体确定为所述多个候选实体。
3.根据权利要求1所述的方法,其特征在于,所述三级分层标签树中包括所述多个主题标签与所述多个主题标签下的至少一个概念标签之间的关联度、所述多个概念标签与所述多个概念标签下的至少一个实体标签之间的关联度;
所述基于所述三级分层标签树,确定所述多个候选实体中每个候选实体与所述目标资讯之间的关联度,包括:
将所述三级分层标签树中所述每个候选实体与所述目标主题标签之间的关联度确定为第一关联度,所述每个候选实体与所述目标主题标签之间的关联度是通过所述每个候选实体与所述目标主题标签下的概念标签之间的关联度以及所述目标主题标签下的概念标签与所述目标主题标签之间的关联度确定的;
将所述三级分层标签树中所述每个候选实体与所述目标概念标签之间的关联度确定为第二关联度;
将所述每个候选实体与所述目标实体标签对应的实体之间的关联度确定为第三关联度;
将所述第一关联度、所述第二关联度和所述第三关联度之和确定为所述每个候选实体与所述目标资讯之间的关联度。
4.根据权利要求3所述的方法,其特征在于,若所述多个候选实体中的第一候选实体属于所述目标实体标签对应的实体,则所述第一候选实体与所述目标实体标签对应的实体之间的关联度为1;
若所述第一候选实体不属于所述目标实体标签对应的实体,则所述第一候选实体与所述目标实体标签对应的实体之间的关联度为0。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于海量历史资讯,确定所述多个主题标签、所述多个概念标签和所述多个实体标签;
计算所述多个主题标签与所述多个概念标签之间的关联度、所述多个概念标签与所述多个实体标签之间的关联度;
基于所述多个主题标签与所述多个概念标签之间的关联度、所述多个概念标签与所述多个实体标签之间的关联度,构建所述三级分层标签树。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述从所述多个候选实体中选择至少一个实体作为所述目标资讯的关联产品,包括:
从所述多个候选实体中选择与所述目标资讯之间的关联度最大的至少一个实体作为所述目标资讯的关联产品。
7.一种关联产品的推荐装置,其特征在于,包括:
获取模块,用于对目标资讯进行内容识别,获得所述目标资讯的目标主题标签、目标概念标签和目标实体标签,所述目标主题标签用于表示所述目标资讯对应的产品类型,所述目标概念标签用于表示所述目标资讯中的关键短语,所述目标实体标签用于表示所述目标资讯对应的产品;
处理模块,用于基于预先构建的三级分层标签树、所述目标主题标签、所述目标概念标签和所述目标实体标签,确定多个候选实体,所述三级分层标签树表示多个主题标签、多个概念标签和多个实体标签之间的关联关系,所述多个主题标签包括所述目标主题标签,所述多个概念标签包括所述目标概念标签,所述多个实体标签包括所述目标实体标签;
所述处理模块还用于:基于所述三级分层标签树,确定所述多个候选实体中每个候选实体与所述目标资讯之间的关联度;
所述处理模块还用于:基于所述每个候选实体与所述目标资讯之间的关联度,从所述多个候选实体中选择至少一个实体作为所述目标资讯的关联产品。
8.根据权利要求7所述的推荐装置,其特征在于,所述处理模块用于:
将所述三级分层标签树中所述目标主题标签下的实体标签对应的实体确定为第一候选实体;
将所述三级分层标签树中所述目标概念标签下的实体标签对应的实体确定为第二候选实体;
将所述目标实体标签对应的实体确定为第三候选实体;
将所述第一候选实体、所述第二候选实体和所述第三候选实体确定为所述多个候选实体。
9.根据权利要求7所述的推荐装置,其特征在于,所述三级分层标签树中包括所述多个主题标签与所述多个主题标签下的至少一个概念标签之间的关联度、所述多个概念标签与所述多个概念标签下的至少一个实体标签之间的关联度;
所述处理模块用于:
将所述三级分层标签树中所述每个候选实体与所述目标主题标签之间的关联度确定为第一关联度,所述每个候选实体与所述目标主题标签之间的关联度是通过所述每个候选实体与所述目标主题标签下的概念标签之间的关联度以及所述目标主题标签下的概念标签与所述目标主题标签之间的关联度确定的;
将所述三级分层标签树中所述每个候选实体与所述目标概念标签之间的关联度确定为第二关联度;
将所述每个候选实体与所述目标实体标签对应的实体之间的关联度确定为第三关联度;
将所述第一关联度、所述第二关联度和所述第三关联度之和确定为所述每个候选实体与所述目标资讯之间的关联度。
10.根据权利要求9所述的推荐装置,其特征在于,若所述多个候选实体中的第一候选实体属于所述目标实体标签对应的实体,则所述第一候选实体与所述目标实体标签对应的实体之间的关联度为1;
若所述第一候选实体不属于所述目标实体标签对应的实体,则所述第一候选实体与所述目标实体标签对应的实体之间的关联度为0。
11.根据权利要求7所述的推荐装置,其特征在于,所述处理模块用于:
基于海量历史资讯,确定所述多个主题标签、所述多个概念标签和所述多个实体标签;
计算所述多个主题标签与所述多个概念标签之间的关联度、所述多个概念标签与所述多个实体标签之间的关联度;
基于所述多个主题标签与所述多个概念标签之间的关联度、所述多个概念标签与所述多个实体标签之间的关联度,构建所述三级分层标签树。
12.根据权利要求7至11中任一项所述的推荐装置,其特征在于,所述处理模块用于:
从所述多个候选实体中选择与所述目标资讯之间的关联度最大的至少一个实体作为所述目标资讯的关联产品。
13.一种关联产品的推荐装置,其特征在于,包括:处理器,所述处理器和存储器耦合,所述存储器用于存储计算机程序,当所述处理器调用所述计算机程序时,使得所述装置执行如权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序包括实现权利要求1至6中任一项所述的方法的指令。
15.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111574361.3A CN114240568A (zh) | 2021-12-21 | 2021-12-21 | 关联产品的推荐方法和推荐装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111574361.3A CN114240568A (zh) | 2021-12-21 | 2021-12-21 | 关联产品的推荐方法和推荐装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114240568A true CN114240568A (zh) | 2022-03-25 |
Family
ID=80760684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111574361.3A Pending CN114240568A (zh) | 2021-12-21 | 2021-12-21 | 关联产品的推荐方法和推荐装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114240568A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226363A (zh) * | 2023-05-08 | 2023-06-06 | 中信建投证券股份有限公司 | 一种参考信息生成方法及装置 |
CN116738968A (zh) * | 2023-08-14 | 2023-09-12 | 宁波深擎信息科技有限公司 | 内容建联方法、装置、计算机设备和存储介质 |
-
2021
- 2021-12-21 CN CN202111574361.3A patent/CN114240568A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226363A (zh) * | 2023-05-08 | 2023-06-06 | 中信建投证券股份有限公司 | 一种参考信息生成方法及装置 |
CN116738968A (zh) * | 2023-08-14 | 2023-09-12 | 宁波深擎信息科技有限公司 | 内容建联方法、装置、计算机设备和存储介质 |
CN116738968B (zh) * | 2023-08-14 | 2023-11-24 | 宁波深擎信息科技有限公司 | 内容建联方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657238B (zh) | 基于知识图谱的上下文识别补全方法、系统、终端及介质 | |
CN114240568A (zh) | 关联产品的推荐方法和推荐装置 | |
CN111177507B (zh) | 多标记业务处理的方法及装置 | |
CN110110213B (zh) | 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备 | |
CN110990532A (zh) | 一种处理文本的方法和装置 | |
CN109947903B (zh) | 一种成语查询方法及装置 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN112270188A (zh) | 一种提问式的分析路径推荐方法、系统及存储介质 | |
CN101894160A (zh) | 一种智能检索方法 | |
CN114661861A (zh) | 文本匹配方法及装置、存储介质、终端 | |
US20180365223A1 (en) | Semantic analysis apparatus, method, and non-transitory computer readable storage medium thereof | |
CN113378090B (zh) | 一种互联网网站相似度分析方法、装置以及可读存储介质 | |
CN112328655B (zh) | 文本标签挖掘方法、装置、设备及存储介质 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN110069558A (zh) | 基于深度学习的数据分析方法及终端设备 | |
CN113918686A (zh) | 智能问答模型构建方法、装置、计算机设备及存储介质 | |
CN110750643B (zh) | 上市公司非定期公告的分类方法、装置及存储介质 | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
CN116127087A (zh) | 一种知识图谱构建方法、装置、电子设备及存储介质 | |
CN113420119B (zh) | 基于知识卡片的智能问答方法、装置、设备及存储介质 | |
CN113032523B (zh) | 三元组信息的抽取方法、装置、电子设备和存储介质 | |
CN113011153B (zh) | 文本相关性检测方法、装置、设备及存储介质 | |
CN114357184A (zh) | 事项推荐方法及相关装置、电子设备和存储介质 | |
CN112541357A (zh) | 实体识别方法、装置及智能设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |