CN107679103A - 用于实体的属性分析方法及系统 - Google Patents
用于实体的属性分析方法及系统 Download PDFInfo
- Publication number
- CN107679103A CN107679103A CN201710819832.XA CN201710819832A CN107679103A CN 107679103 A CN107679103 A CN 107679103A CN 201710819832 A CN201710819832 A CN 201710819832A CN 107679103 A CN107679103 A CN 107679103A
- Authority
- CN
- China
- Prior art keywords
- entity
- sample
- mark
- index
- sample set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于实体的属性分析方法及系统,涉及数据分析领域,该方法包括:接收标注样本集合,确定所述标注样本集合中的各个标注样本的实体类型;根据预设的实体指标库确定与所述实体类型相对应的实体指标集,根据所述实体指标集确定与所述标注样本集合中的各个标注样本相对应的样本属性信息;根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型,通过所述属性分析模型分析实体的属性。该方式简化了用户操作,而且,由于实体指标库中存储了尽可能多的实体属性,加之属性分析模型是经过机器学习及训练的,因此,分析结果准确可靠。
Description
技术领域
本发明涉及数据分析领域,具体涉及一种用于实体的属性分析方法及系统。
背景技术
实体是指现实世界中客观存在、并可以相互区分的对象或事物。通常,可以用一系列的属性来描述实体之间的差别。例如,在电商和O2O(全称为“Online To Offline”,即:在线离线/线上到线下)行业中,商品、门店、电子券、和商户等都可以被称为实体。以商品这一实体举例而言,商品的名称、价格、类目、销量、评价等特征都可以作为描述商品这一实体的属性。通过对实体的属性进行分析,能够实现多种业务功能,例如,可通过实体分析的方式实现招商、促销活动、末位淘汰、规划新产品、以及业务人群运营等多种目的。
目前,为了通过实体分析的方式实现上述目的,首先,需要人为设定实体的相关属性以及用于筛选符合条件的实体的阈值;然后,根据人为设定的相关属性以及阈值筛选符合条件的实体。例如,为了能够提升销售目标,需要选取销量高、信誉好的店铺进行合作,为此,运营人员根据经验通过人工方式将店铺的动态评分以及商品前30天内成交金的排名两个属性确定为与店铺这一实体对应的相关属性,并且,通过人工方式确定用于筛选动态评分较高的店铺的第一阈值为4.7、用于筛选排名靠前的店铺的第二阈值为100,相应地,运营人员据此筛选出了某一类目下店铺的评分大于等于4.7,且商品前30天内成交金的排名位于前100名的店铺,并从筛选出的店铺中寻求合作店铺。
但是,发明人在实现本发明的过程中,发现在现有技术中至少存在如下问题:实体的属性数量不胜枚举、且不同实体之间的属性千差万别,因此,通过人工方式很难确定出准确而合理的相关属性;并且,人工设定的阈值也往往存在不够合理、无法准确筛选合适的实体的缺陷。由此可见,人工筛选的方式耗时耗力、且筛选结果的准确性难以保证。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种用于实体的属性分析方法及系统。
根据本发明的一个方面,提供了一种用于实体的属性分析方法,包括:接收标注样本集合,确定所述标注样本集合中的各个标注样本的实体类型;根据预设的实体指标库确定与所述实体类型相对应的实体指标集,根据所述实体指标集确定与所述标注样本集合中的各个标注样本相对应的样本属性信息;根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型,通过所述属性分析模型分析实体的属性。
可选地,所述通过所述属性分析模型分析实体的属性的步骤具体包括:
确定与所述属性分析模型相对应的输入参数,根据所述输入参数确定与待分析的实体相对应的实体参数值;
将所述实体参数值输入所述属性分析模型,根据输出结果确定所述待分析的实体的属性。
可选地,所述根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型的步骤之后,进一步包括:将所述属性分析模型存储为可更新模型;
则所述方法进一步包括步骤:当所述实体指标库更新后,根据更新后的实体指标库更新已存储的各个可更新模型及其对应的输入参数。
可选地,所述根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型的步骤之后,进一步包括:
接收更新的样本集合;根据所述实体指标集确定与所述更新的样本集合中的各个更新样本相对应的样本属性信息;
根据所述更新的样本集合中的各个更新样本的标注结果以及各个更新样本相对应的样本属性信息对所述属性分析模型进行更新。
可选地,所述接收更新的样本集合的步骤之前,进一步包括:
通过对已分析的实体进行标注的方式确定所述更新的样本集合;和/或,通过接收到的业务结果信息或用户反馈信息确定所述更新的样本集合。
可选地,所述根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型的步骤具体包括:
根据标注样本集合中的各个标注样本的实体类型、与所述实体类型相对应的实体指标集、和/或标注样本的标注结果的类型,从预先配置的多个机器学习模型中选择与所述标注样本集合相匹配的机器学习模型;
根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息对选择的机器学习模型进行训练,得到对应的属性分析模型。
可选地,所述实体指标库用于分别存储与各种类型的实体相对应的实体指标;
且所述根据预设的实体指标库确定与所述实体类型相对应的实体指标集的步骤具体包括:
确定所述实体指标库中存储的与所述实体类型相对应的第一类实体指标;
确定与所述实体类型相对应的关联实体类型,确定所述实体指标库中存储的与所述关联实体类型相对应的第二类实体指标;
将所述第一类实体指标和/或第二类实体指标加入与所述实体类型相对应的实体指标集。
依据本发明的又一方面,提供了一种用于实体的属性分析系统,包括:
样本接收模块,适于接收标注样本集合,确定所述标注样本集合中的各个标注样本的实体类型;
属性确定模块,适于根据预设的实体指标库确定与所述实体类型相对应的实体指标集,根据所述实体指标集确定与所述标注样本集合中的各个标注样本相对应的样本属性信息;
训练分析模块,适于根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型,通过所述属性分析模型分析实体的属性。
可选地,所述训练分析模块具体适于:
确定与所述属性分析模型相对应的输入参数,根据所述输入参数确定与待分析的实体相对应的实体参数值;
将所述实体参数值输入所述属性分析模型,根据输出结果确定所述待分析的实体的属性。
可选地,所述系统进一步包括
存储模块,适于将所述属性分析模型存储为可更新模型;
更新模块,适于当所述实体指标库更新后,根据更新后的实体指标库更新已存储的各个可更新模型及其对应的输入参数。
可选地,所述更新模块进一步用于:
接收更新的样本集合;根据所述实体指标集确定与所述更新的样本集合中的各个更新样本相对应的样本属性信息;
根据所述更新的样本集合中的各个更新样本的标注结果以及各个更新样本相对应的样本属性信息对所述属性分析模型进行更新。
可选地,所述更新模块具体用于:
通过对已分析的实体进行标注的方式确定所述更新的样本集合;和/或,通过接收到的业务结果信息或用户反馈信息确定所述更新的样本集合。
可选地,所述训练分析模块具体适于:
根据标注样本集合中的各个标注样本的实体类型、与所述实体类型相对应的实体指标集、和/或标注样本的标注结果的类型,从预先配置的多个机器学习模型中选择与所述标注样本集合相匹配的机器学习模型;
根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息对选择的机器学习模型进行训练,得到对应的属性分析模型。
可选地,所述实体指标库用于分别存储与各种类型的实体相对应的实体指标;
且所述属性确定模块具体适于:
确定所述实体指标库中存储的与所述实体类型相对应的第一类实体指标;
确定与所述实体类型相对应的关联实体类型,确定所述实体指标库中存储的与所述关联实体类型相对应的第二类实体指标;
将所述第一类实体指标和/或第二类实体指标加入与所述实体类型相对应的实体指标集。
依据本发明的再一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上述的用于实体的属性分析方法对应的操作。
依据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述的用于实体的属性分析方法对应的操作。
综上所述,在本发明提供的用于实体的属性分析方法及系统中,预先设置了实体指标库,相应地,当用户需要进行实体分析时,只需根据业务需求创建对应的标注样本集合,然后,根据实体指标库确定与各个标注样本相对应的样本属性信息,并训练对应的属性分析模型即可。由此可见,在该种方式中,预先设置了实体指标库,并且,根据该实体指标库确定的各个标注样本的样本属性信息中包含了尽可能多的属性,在后续过程中通过训练方式训练对应的属性分析模型并根据训练结果确定相关的属性,因此,用户只需选取标注样本集合即可,无需考虑相关属性的设置问题,简化了用户操作,而且,由于实体指标库中存储了尽可能多的实体属性,加之属性分析模型是经过机器学习及训练的,因此,分析结果准确可靠。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的一种用于实体的属性分析方法的流程图;
图2示出了本发明实施例二提供的一种用于实体的属性分析方法的流程图;
图3示出了本发明实施例三提供的一种用于实体的属性分析系统的结构图;
图4示出了根据本发明实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明实施例一提供的一种用于实体的属性分析方法的流程图。如图1所示,该方法包括:
步骤S110:接收标注样本集合,确定该标注样本集合中的各个标注样本的实体类型。
其中,标注样本集合中包含多个已标注的标注样本。例如,该标注样本集合可以是由用户输入的。通常情况下,用户输入的标注样本集合是根据具体的业务需求而设定的。例如,业务运营人员根据最终想要达成的业务目标,将已知的各个实体(例如门店)标注为是否入选,可以是正样本也可以是负样本,还可以是分级样本。
其中,各个标注样本通常属于同一种实体类型,例如,均属于门店类型;或者,各个标注样本也可以分属于两种甚至更多种相互存在关联关系的实体类型,例如,分属于门店类型、商品类型等。具体实施时,标注样本集合中的各个标注样本的实体类型取决于具体业务需求。
在本步骤中确定该标注样本集合中的各个标注样本的实体类型时,假设全部标注样本均属于门店类型,相应地,本步骤中确定的实体类型为门店。在本发明其他的实施例中,确定的该标注样本集合中的各个标注样本的实体类型还可以为以下类型中的至少一个:商品类型、电子券类型、商户类型、以及电子卡类型等。
步骤S120:根据预设的实体指标库确定与该实体类型相对应的实体指标集,根据实体指标集确定与该标注样本集合中的各个标注样本相对应的样本属性信息。
其中,实体指标库用于分别存储与各种类型的实体相对应的实体指标。其中,实体的类型包括多种类型,且每种类型的实体分别对应于多项实体指标。例如,以门店类型的实体为例,其对应的实体指标包括以下中的至少一个:门店的类别、品牌、品牌层次、门店的大区、省份、城市、城市的等级、经纬度、所处商圈等,参见表1。表1示出了实体指标库中存储的几种常见类型的实体及其对应的实体指标。从表1中可以看出,实体指标库中除存储有门店类型的实体及其对应的指标外,通常还存储有商品、电子券等多种类型的实体及其对应的指标。表1中的内容仅为示意性的,本领域技术人员还可以根据需要对表1中的内容进行删减或补充。
表1
相应地,在确定与该实体类型相对应的实体指标集时,可以直接根据实体指标库中与该实体类型相对应的实体指标确定该实体指标集。或者,还可以进一步结合与该实体类型相对应的关联实体类型确定该实体指标集。例如,门店类型的关联实体类型为商品类型。
确定出实体指标集之后,根据实体指标集确定与该标注样本集合中的各个标注样本相对应的样本属性信息。例如,实体指标集中共包含门店类别、门店品牌、品牌层次、门店省份这四个指标,相应地,对于标注样本1而言,其对应的样本属性信息可能为:快餐类门店、麦当劳品牌、中等层次、北京。
参见表2。表2示出了几个标注样本对应的样本属性信息的具体内容。表2以两个标注样本为例进行了说明。其中,表2中的实体指标集中共包含4个指标,但是,本领域技术人员能够理解的是,表2中的内容仅为示意性的,还可以对表2中实体指标集所包含的指标数量进行扩充或删减,本发明对此不做限定。
表2
由此可见,通过本步骤,能够根据实体指标库确定实体指标集,在具体实施中,实体指标集中的指标数量越多、涵盖内容越全面越好,相应地,各个标注样本的样本属性信息的内容也较为丰富,由此能够尽可能全面地反映样本信息。
步骤S130:根据标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型,通过属性分析模型分析实体的属性。
其中,各个标注样本的标注结果可以为多种形式,例如,可以仅标注样本的正负属性、也可以对各个样本进行排序后标注各个样本的排序序号、还可以将样本分为多个等级并标注各个样本的等级标识。总之,本发明不限定标注样本的具体标注形式,本领域技术人员可根据具体业务需求确定标注结果的形式。
在根据标注样本集合中的各个标注样本的标注结果以及上一步骤中得到的样本属性信息训练对应的属性分析模型时,可以从多个预设的机器学习模型中选择至少一个模型进行训练。具体选择时,可结合标注样本集合中的各个标注样本的实体类型、与实体类型相对应的实体指标集、和/或标注样本的标注结果的类型进行选择。训练出对应的属性分析模型后,通过该属性分析模型即可分析各个实体的属性,并根据属性分析结果进行相应的业务处理。
由此可见,在该种方式中,预先设置了实体指标库,并且,根据该实体指标库确定的各个标注样本的样本属性信息中包含了尽可能多的属性,在后续过程中通过训练方式训练对应的属性分析模型并根据训练结果确定相关的属性,因此,用户只需选取标注样本集合即可,无需考虑相关属性的设置问题,简化了用户操作,而且,由于实体指标库中存储了尽可能多的实体属性,加之属性分析模型是经过机器学习及训练的,因此,分析结果准确可靠。
实施例二
图2示出了本发明实施例二提供的一种用于实体的属性分析方法的流程图。如图2所示,该方法包括:
步骤S200:预先设置实体指标库。
实际情况中,本发明中的方案能够通用于多种类型的实体。具体实施时,本发明实际上提供了一种属性分析系统,该系统能够实现各种类型的实体的分析操作,相应地,实体指标库中分别存储有与各种类型的实体相对应的实体指标。例如,可能存储有与门店类型的实体相对应的多个门店实体指标、还存储有与商品类型的实体相对应的多个商品实体指标、还存储有与电子券类型的实体相对应的多个电子券实体指标。关于具体的指标名称将在后文中以示例方式描述,此处不再赘述。本领域技术人员能够理解的是,每种类型的实体指标可以进一步划分为多个维度,且多种类型的实体指标之间还可能存在交叉。总之,本发明旨在尽可能全面地收集适用于每类实体的所有指标,以便全面反映实体的特征,对于具体的指标数量和名称不做限定。具体实施时,可以预先收集适用于实体的所有相关属性进行指标生产化,分不同的周期定期产出,例如以T+1、T+7或自然月等方式定期产生,其中,T为周期时长。
步骤S210:接收标注样本集合,确定该标注样本集合中的各个标注样本的实体类型。
其中,标注样本集合中包含多个已标注的标注样本。例如,该标注样本集合可由用户输入。通常情况下,用户输入的标注样本集合是根据具体的业务需求而设定的。例如,运营根据最终想要达成的业务目标,将已知的各个实体标注为是否入选,可以是正样本也可以是负样本,还可以是分级样本,从而得到标注样本集合。
其中,各个标注样本通常属于同一种实体类型,例如,均属于门店类型;或者,各个标注样本也可以分属于两种甚至更多种相互存在关联关系的实体类型,例如,分属于门店类型、商品类型等。具体实施时,标注样本集合中的各个标注样本的实体类型取决于具体业务需求。
在本步骤中确定该标注样本集合中的各个标注样本的实体类型时,假设全部标注样本均属于门店类型,相应地,本步骤中确定的实体类型为门店。在本发明其他的实施例中,确定的该标注样本集合中的各个标注样本的实体类型还可以为以下类型中的至少一个:商品类型、电子券类型、商户类型、以及电子卡类型等。
步骤S220:根据预设的实体指标库确定与该实体类型相对应的实体指标集,根据实体指标集确定与该标注样本集合中的各个标注样本相对应的样本属性信息。
其中,实体指标库用于分别存储与各种类型的实体相对应的实体指标。其中,实体的类型包括多种类型,且每种类型的实体分别对应于多项实体指标。例如,以门店类型的实体为例,其对应的实体指标包括以下中的至少一个:门店的类别、品牌、品牌层次、门店的大区、省份、城市、城市的等级、经纬度、所处商圈等。相应地,在确定与该实体类型相对应的实体指标集时,可通过下述两种方式中的至少一种实现:
在第一种方式中,可以直接根据实体指标库中与该实体类型相对应的实体指标确定该实体指标集。在第二种方式中,可以进一步结合与该实体类型相对应的关联实体类型确定该实体指标集。具体地,首先,确定实体指标库中存储的与该实体类型相对应的第一类实体指标;然后,确定与该实体类型相对应的关联实体类型;最后,确定实体指标库中存储的与该关联实体类型相对应的第二类实体指标,并将第一类实体指标和/或第二类实体指标加入与该实体类型相对应的实体指标集。例如,假设上一步骤中确定的实体类型为门店类型,相应地,首先,将实体指标库中存储的门店实体指标确定为第一类实体指标;然后,确定与门店这一类型的实体存在关联关系的实体,将与门店类型的实体存在关联关系的实体类型作为门店类型的关联实体类型,例如,关联实体类型为商品类型,相应地,将实体指标库中存储的商品实体指标确定为第二类实体指标,并在与门店类型相对应的实体指标集中同时包含第一类和第二类实体指标。通过该种方式能够尽可能全面地收集实体的指标信息,并从多个维度反映实体的特征。
确定出实体指标集之后,根据实体指标集确定与该标注样本集合中的各个标注样本相对应的样本属性信息。例如,实体指标集中共包含门店类别、门店品牌、品牌层次、门店省份这四个指标,相应地,对于标注样本1而言,其对应的样本属性信息可能为:快餐类门店、麦当劳品牌、中等层次、北京。具体实施中,通常会将样本属性信息中的各项信息进行符号化或参数化表示,以便于后续的计算处理。由此可见,通过本步骤,能够根据实体指标库确定实体指标集,在具体实施中,实体指标集中的指标数量越多、涵盖内容越全面越好,相应地,各个标注样本的样本属性信息的内容也更为丰富,由此能够尽可能全面地反映样本信息。
步骤S230:根据标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型。
实际情况中,为了能够广泛适用于各种类型的样本,本发明提供的属性分析系统中可能预先配置了多个机器学习模型。相应地,在本步骤中,需要根据标注样本集合中的各个标注样本的实体类型、与实体类型相对应的实体指标集、和/或标注样本的标注结果的类型等因素,从预先配置的多个机器学习模型中选择与该标注样本集合相匹配的机器学习模型。具体地,进行模型的选取时,可以结合实体的类型进行选取,相应地,需要预先配置实体类型与适宜的机器学习模型之间的对应关系;还可以结合实体指标的类型(例如浮点型、整数型、布尔型等)、数量进行选取,相应地,需要预先配置实体指标与适宜的机器学习模型之间的对应关系;也可以结合标注结果的类型(例如离散型、连续型等)进行选取,相应地,需要预先配置标注结果类型与适宜的机器学习模型之间的对应关系。
确定好对应的机器学习模型之后,根据标注样本集合中的各个标注样本的标注结果以及样本属性信息对选择的机器学习模型进行训练,得到对应的属性分析模型。其中,各个标注样本的标注结果可以为多种形式,例如,可以仅标注样本的正负属性、也可以对各个样本进行排序后标注各个样本的排序序号、还可以将样本分为多个等级并标注各个样本的等级标识。总之,本发明不限定标注样本的具体标注形式,本领域技术人员可根据具体业务需求确定标注结果的形式。具体的训练过程取决于机器学习模型的种类,此处不再赘述。最终训练得到的模型为用于在本次业务场景中分析该实体的属性分析模型。
步骤S240:通过上述属性分析模型分析实体的属性。
首先,确定与上述属性分析模型相对应的输入参数,根据该输入参数确定与待分析的实体相对应的实体参数值;然后,将实体参数值输入属性分析模型,根据输出结果确定待分析的实体的属性。具体实施时,可以根据模型对满足基础条件的实体进行计算,输出入选的实体列表。
具体地,属性分析模型相对应的输入参数是根据训练结果确定的,该输入参数是指:输入到模型中用于计算输出结果的参数。其中,输入参数也可以理解为显著因子,即:能够明显区分实体的属性值的因子(也叫属性或指标)。由此可见,本实施例中的方式无需人工确定显著因子,只需根据训练结果即可获取显著因子,通过该种方式获取的显著因子更加准确合理。
例如,假设输入参数包括:门店成交量、门店品牌层次、以及门店当前是否有在线优惠所对应的参数,相应地,与待分析的实体相对应的实体参数值可能为:1000、高级、否。
步骤S250:判断上述属性分析模型是否符合业务需求,若是,则执行步骤S260;若否,则执行步骤S270。其中,步骤S250与步骤S240的执行顺序可以互换。在判断属性分析模型是否符合业务需求时,可以结合步骤S240中的输出结果进行判断。例如,若运营人员对输出的入选的实体列表满意,则说明该模型符合业务需求,反之,则说明该模型不符合业务需求。
步骤S260:对上述属性分析模型进行存储。
为了便于在日后与本次业务场景类似的场景中分析实体属性,以实现模型的多次复用、也为了便于对模型进行更新优化,在步骤中,需要对上述的属性分析模型进行存储。具体存储时,可以针对该属性分析模型进一步存储其适用的业务场景、实体类型等相关信息,以便于日后进行复用。另外,在存储时,还可以将该属性分析模型存储为可更新模型,相应地,能够在后续过程中根据系统中的各项参数的变化情况进行自动更新,以更好地适应业务场景。具体实施时,系统中可能会存储大量的属性分析模型,有些属性分析模型需要较强的稳定性,因此不便于自动更新,而有些属性分析模型则需要根据实际业务的变化情况而自动更新,因此,本领域技术人员可根据模型的具体适用场景将其存储为可更新模型或不可更新模型。
步骤S270:接收更新的样本集合,根据实体指标集确定与更新的样本集合中的各个更新样本相对应的样本属性信息,根据更新的样本集合中的各个更新样本的标注结果以及各个更新样本相对应的样本属性信息对上述属性分析模型进行更新,直至属性分析模型符合业务需求。
其中,更新的样本集合可通过下述两种实现方式中的至少一种生成:
在第一种方式中,通过对已分析的实体进行标注的方式确定该更新的样本集合。该种方式主要适用于运营人员对输出的入选的实体列表不满意的情况。相应地,运营人员可以直接对输出的实体列表中的实体进行人工标注,将标注后的各个实体作为更新样本加入到更新的样本集合中。比如,若运营人员对输出的实体列表中的部分实体不满意,则将其标注为负样本;若运营人员对输出的实体列表中的部分实体很满意,可将其标注为正样本。通过该种方式,能够通过对输出结果的二次标注,实现模型的不断迭代优化,直至用户满意为止。
在第二种方式中,通过接收到的业务结果信息或用户反馈信息确定该更新的样本集合。其中,业务结果信息和用户反馈信息的来源和形式可以是多种多样的,本发明对此不做限定。例如,如果输出的实体列表中的各个实体展示在在线产品或活动中,则业务结果或用户反馈都可以作为更新的样本集合的确定依据,以帮助优化已存模型。其中,用户反馈包括但不限于:是否点击、是否转化、是否爆款等。业务结果包括但不限于:实体之间的排名结果(例如将排名位于前50的实体作为正样本加入到更新的样本集合中)、实体的打分情况等。
另外,根据实体指标集确定与更新的样本集合中的各个更新样本相对应的样本属性信息时,其确定方式与步骤S220中根据实体指标集确定与标注样本集合中的各个标注样本相对应的样本属性信息的实现方式类似,此处不再赘述。另外,在根据更新的样本集合中的各个更新样本的标注结果以及样本属性信息对上述属性分析模型进行更新时,既可以仅根据更新的样本集合进行更新,也可以根据更新的样本集合与标注样本集合的结合进行更新,而且,更新的样本集合也可以多次生成,即:本步骤可以循环多次执行,直至用户满意为止;或者,本步骤也可以定期执行,例如每隔预设周期执行一次。例如,当更新的样本集合通过第一种方式实现时,可以根据更新的样本集合与以往的标注样本集合的结合进行更新,以便更好地根据运营需求不断优化模型;当更新的样本集合通过第二种方式实现时,可以仅根据本次的更新的样本集合进行更新,例如,当实体为商品时,商品推荐列表可能会随季节而变化,相应地,可以每个季度生成一批更新的样本集合,并根据本季度的更新的样本集合更新模型。
另外,在本实施例中,基于步骤S260中将各个属性分析模型按照适用场景存储为可更新模型或不可更新模型的操作,该方法还可以进一步包括如下步骤:当实体指标库更新后,根据更新后的实体指标库更新已存储的各个可更新模型及其对应的输入参数。在具体实施中,只要运营人员认为有探索或优化的需求,就可以随时对步骤S200中设置的实体指标库进行扩充,例如,可以针对某一实体增加或减少对应的实体指标,相应地,实体指标更新后,与该实体相关的属性分析模型所对应的标注样本集合中的各个标注样本的样本属性信息也随之更新,因此,系统将自动利用更新后的标注样本的样本属性信息对可更新的属性分析模型进行更新,以实现模型的自动更新效果,从而自动优化,提升分析效果。
本领域技术人员可以将上述步骤合并成更少的步骤,或拆分成更多的步骤,还可以对其中的部分细节进行灵活增删,本发明对具体的实现细节不做限定。
由此可见,本发明实施例提供的方式至少具备如下优势:第一,预先设置了实体指标库,并且,根据该实体指标库确定的各个标注样本的样本属性信息中包含了尽可能多的属性,在后续过程中通过训练方式训练对应的属性分析模型并根据训练结果确定相关的属性,因此,用户只需选取标注样本集合即可,无需考虑相关属性的设置问题,简化了用户操作,而且,由于实体指标库中存储了尽可能多的实体属性,加之属性分析模型是经过机器学习及训练的,因此,分析结果准确可靠。
第二,能够根据更新的样本集合对已训练出的属性分析模型进行更新优化。一方面,更新的样本集合可以根据接收到的业务结果信息或用户反馈信息确定,从而使属性分析模型能够在业务运行过程中不断优化,并根据用户的反馈情况进行学习,以使模型更符合用户的实际需求。另一方面,更新的样本集合还可以由运营人员自行筛选,具体地,运营人员可以根据业务需求筛选更加合适的样本,以此来更新分析模型,获得,从而使属性分析模型更加优化,进而输出符合要求的实体属性,因此可以零活的适应线下和线下业务营销的多种需求;而且,运营人员还可以根据季节变化或业务变化等因素来重新选择样本作为更新的样本集合,从而使属性分析模型能够根据具体情况的变化而调整。
除上述两点外,本发明中的方式还至少具备如下优势:(1)系统中预先保存各类实体的指标,指标数量丰富、种类全面,因此,在实体分析过程中,无需人工输入规则或指标,只需输入标注样本即可,降低了使用门槛,且提升了系统的通用性;(2)系统进行自动模型选择和训练,甄别指标和阈值,能够更好地确定显著因子;(3)业务结果或用户反馈可以进一步作为标注输入,用以进一步优化模型;(4)不同的业务方可以依据不同的业务目标,对训练得到的适合于本业务方的模型进行存储,以便定期产出结果,从而实现了指标复用,无需重复建模,减少了资源浪费;(5)当有实体相关的新指标输入之后,系统会针对所有已存且接受自动优化的模型进行重新训练,以实现优化更新的目的。
为了便于理解本发明,接下来,以两个具体示例为例,详细介绍本发明提供的上述方法:
示例一:
本示例以商品为例进行说明。在本示例中,存在两种不同的场景,场景一为:运营A要做活动选品;场景二为:运营B要应对消费升级,有一个高端用户对应的新产品,需要建立一个精品商品池。
运营A和运营B都根据自己的经验,标注了200个满足条件的商品作为标注样本输入系统。系统中现有的实体指标库中存储有如下商品实体指标:
(1)商品的品类,品牌,品牌调性分,属性,算法提炼的关键词,主图质量分,产品id(GSPUid)等各类产品标识;
(2)商品的销售金额和件数,转化率,单次购买件数,件单价,同订单关联购买金额和数量,单用户购买的频次和时间间隔;
(3)店铺的销量;店铺的服务质量,例如DSR(Detail Seller Rating,卖家服务评级),品质退款率,纠纷率,发货速度,旺旺响应速度等;店铺分层;店铺的运营能力,例如私域流量,微淘粉丝等;O2O店铺的经营类目,实体POI(Point of Interest,兴趣点)信息;
(4)商品的流量来源,例如付费流量、私域流量、搜索流量、内容产品流量、促销产品流量、扫码流量、其它流量;
(5)人群运营相关的,例如分层人群访问和购买占比,分地域层次的人群访问和购买占比;
(6)区域化运营相关的,例如分地域人群访问和购买占比,分地域交易笔数,笔单价,流动非流动的人群访问和购买占比;
(7)内容运营相关的,例如被索引内容的数量和质量;
(8)本地化运营相关的,例如可兑换门店的数量和LBS(location basedservices,基于位置的服务)分布,商品所处商圈,预测购买人数。
相应地,将上述实体指标全部加入实体指标集合中,并据此确定与各个标注样本相对应的样本属性信息,然后,结合样本的标注结果,系统进行自动建模,找到如下规律:
场景一的商品“共性”是:商品品牌调性分3分以上,过去7天销量在100件,日平均付费流量在200个UV(unique visitor,独立访客)以上,主图质量分大于等于5;
场景二的商品“共性”是:商品品牌调性分5分以上,商家是天猫的SKA或GSKA(大商家),高端用户购买占比超过60%,被索引内容的数量在50以上,前30天的销量大于等于10000元或小于100元。
系统根据场景一和场景二各自的共性输出了商品列表,运营A表示满意采用了这个结果并保存了该模型;运营B不甚满意,在输出商品列表的基础上继续标注了100个不想要的商品(作为更新的样本集合中的负样本)输入系统,系统重新建模,找到如下规律:
场景二的商品“共性”是:商品品牌调性分5分以上,高端用户购买占比超过60%,一线城市购买占比+二线城市购买占比大于等于50%,被索引内容的数量在55以上,前30天的销量大于等于12300元或小于100元。
系统根据场景二的新的共性输出了商品列表,运营B表示满意采用了这个结果并保存了该模型,每天定期产出该商品列表,供新产品调用。
然后,运营B将这个新产品的高端用户的点击数据作为已标注的更新样本全部回流至分析系统中,每个月作一次B模型的训练和升级,一个月后B模型的商品“共性”调整为:商品品牌调性分5分以上,高端用户购买占比超过60%,一线城市购买占比+二线城市购买占比大于等于50%,被索引内容的数量在55以上,前30天的销量大于等于12300元或小于100元,商家是天猫的SKA或GSKA。由此可见,属性分析模型能够根据更新的样本集合进行更新优化。
接下来,BI(Business Intelligence,商业智能)作为实体指标库的管理方,在实体指标库中针对商品这一实体,新增商品属性“收货地址非默认地址的交易占比”作为商品实体指标,这个指标在模型迭代中,被系统中的B模型采用,并确定为显著因子,相应地,B模型的商品“共性”调整为:商品品牌调性分5分以上,高端用户购买占比超过60%,一线城市购买占比+二线城市购买占比大于等于50%,被索引内容的数量在55以上,前30天的销量大于等于12300元或小于100元,商家是天猫的SKA或GSKA,收货地址非默认地址的交易占比大于5%。由此可见,系统中的属性分析模型能够根据实体指标库的更新进行相应更新。
示例二:
本示例以门店为例进行说明。在线上的实体指标库中存储有如下与门店这一实体相对应的指标:
门店的类别,品牌,品牌层次;门店的大区,省份,城市,城市的等级,经纬度,所处商圈;机具数,交易笔数,交易金额,交易用户数,是否为KA(KeyAccount,关键客户)店铺,高峰时间,高峰时长;评价分,评价数,带图评论数,动态数,达人文章数,相册图片数,推荐菜数;是否覆盖优惠,优惠数,券发放量,券核销量,商品销售量,商品核销量;店铺访问UV,分来源访问UV(线下:店铺码,桌码,服务码,推广码;线上:搜索,活动,免费,付费);所处商圈人流量,高峰时间,高峰时长;顾客消费频次,客单价,二次回访率,留存率;分层顾客消费贡献占比等。
运营人员在此基础上标注了100个LBS位置上,人气眼上应该推荐的10个门店,一共1000个样本,输入系统后,系统进行模型的自动选型,最后选定了深度学习模型,且显著因子包括下述六个因子:用户LBS所处商圈与门店所属商圈是否相符;门店所处商圈前7天交易笔数,交易用户数;门店品牌层次;门店前7天交易笔数,交易用户数;门店当前是否有在线优惠;门店前7天券核销量+商品核销量。
以模型输出的分数作为人气眼的排序算法,上线后以商圈的LBS和商圈内每天TOP10点击的店铺作为标注样本输入,反哺模型,每2周做一次模型升级,经过3次迭代,显著因子更新为下述7个因子:用户LBS所处商圈与门店所属商圈是否相符;门店所处商圈前30天交易笔数,交易用户数;门店品牌层次;门店前7天交易笔数,交易用户数;门店当前是否有在线优惠;门店前7天券核销量+商品核销量;门店评价分。
然后,本系统接入了交通数据,相应地,BI在实体指标库中增加了门店的新指标“每天门店所在商圈的汽车流量和共享单车流量”,人气眼门店重新进行了模型训练,将显著因子更新为下述8个:用户LBS所处商圈与门店所属商圈是否相符;门店所处商圈前30天交易笔数,交易用户数;门店品牌层次;门店前7天交易笔数,交易用户数;门店当前是否有在线优惠;门店前7天券核销量+商品核销量;门店评价分;每天门店所在商圈的汽车流量+共享单车流量。由此可见,本实施例也可以根据实体指标库的更新自动更新模型及其对应的输入参数,从而实现模型的不断优化升级。
另外,在本实施例中,输入标注样本的方式也可以采用在线的方式,通过特定条件圈选实体,在线进行标注,批量入库;或者在输出实体入选结果时,对实体结果进行在线标注,直接入库,通过在线标注的方式能够提升标注效率。并且,模型复用及指标扩充的过程也都可以线上化。当然,本领域技术人员还可以直接将标注样本以txt等格式的文本文档输入到系统中,本发明对标注样本的标注方式和输入形式均不作限定。
由此可见,在大数据的背景下,可以选择用来描述符合业务目标的实体的属性过多过于复杂,为每一个场景单独做指标生产化和训练模型不仅过程繁琐,对人员和系统的要求也很高,而且对于公司而言也存在资源上的浪费。而且,可以使用的指标增多,会给一开始的指标甄选提高难度,应用于不同业务目标的分析场景,需要大量的先验经验和试错成本,也使这个工作的复杂程度超过了一般运营同学甚至是BI同学可以承担的范围。取而代之,本发明中的方式让人工智能可以从更早的环节就介入,从结果反推,通过算法找到合适的指标集,并把各种场景的模型训练系统化,使之可被复用且自动优化。因此,通过本发明中的方式,可以解决传统分析方法中的一系列弊端,具体的技术优势包括:关于同一实体的指标口径统一无异议;指标集中式生产,多模型复用,节约计算资源;使用方标注输入即可训练模型,使用门槛低,人人可建模型,输出可固化;业务结果作为标注输入,自动进入模型优化,提升效果;新增指标,自动进入模型优化,提升效果。
综上可知,本发明中的方式,应对不同的业务场景,不同的业务目标,不做人工判别指标,而是引入尽可能多和全面的指标,通过人工智能的方式,对标注样本进行算法建模完成显著因子的分析,并在此基础上形成对实体是否可以入选的判断。其中提及的算法建模的方式不限于深度学习、决策树、线性回归等及它们的组合。
另外,本发明中的实体分析方法可以被应用于多种分析场景,例如:在招商、促销活动、末位淘汰、新规划产品(产品目标)、业务人群运营(基于人群定位进行商品规划)等场景中,需要做商品分析。在招商、分层制定运营策略、销售预测、及对门店匹配智能营销策略等场景中,需要做门店分析。另外,就O2O场景而言,例如门店分析方法可以被新美大应用于门店推荐、招商等场景,商品分析方法可以用于(单品套餐、代金券)栏目推荐、活动招商、专题生成等场景。简而言之,实体分析即根据一定的运营目标或产品目标,对实体的属性做多维度的分析,输出一个实体列表。由此可见,本发明中的方式的适用范围非常广泛。
实施例三
图3示出了本发明实施例三提供的一种用于实体的属性分析系统的结构示意图,该系统包括:
样本接收模块31,适于接收标注样本集合,确定所述标注样本集合中的各个标注样本的实体类型;
属性确定模块32,适于根据预设的实体指标库确定与所述实体类型相对应的实体指标集,根据所述实体指标集确定与所述标注样本集合中的各个标注样本相对应的样本属性信息;
训练分析模块33,适于根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型,通过所述属性分析模型分析实体的属性。
可选地,所述训练分析模块33具体适于:
确定与所述属性分析模型相对应的输入参数,根据所述输入参数确定与待分析的实体相对应的实体参数值;
将所述实体参数值输入所述属性分析模型,根据输出结果确定所述待分析的实体的属性。
可选地,所述系统进一步包括
存储模块34,适于将所述属性分析模型存储为可更新模型;
更新模块35,适于当所述实体指标库更新后,根据更新后的实体指标库更新已存储的各个可更新模型及其对应的输入参数。
可选地,所述更新模块35进一步用于:
接收更新的样本集合;根据所述实体指标集确定与所述更新的样本集合中的各个更新样本相对应的样本属性信息;
根据所述更新的样本集合中的各个更新样本的标注结果以及各个更新样本相对应的样本属性信息对所述属性分析模型进行更新。
可选地,所述更新模块35具体用于:
通过对已分析的实体进行标注的方式确定所述更新的样本集合;和/或,通过接收到的业务结果信息或用户反馈信息确定所述更新的样本集合。
可选地,所述训练分析模块33具体适于:
根据标注样本集合中的各个标注样本的实体类型、与所述实体类型相对应的实体指标集、和/或标注样本的标注结果的类型,从预先配置的多个机器学习模型中选择与所述标注样本集合相匹配的机器学习模型;
根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息对选择的机器学习模型进行训练,得到对应的属性分析模型。
可选地,所述实体指标库用于分别存储与各种类型的实体相对应的实体指标;且所述属性确定模块32具体适于:确定所述实体指标库中存储的与所述实体类型相对应的第一类实体指标;确定与所述实体类型相对应的关联实体类型,确定所述实体指标库中存储的与所述关联实体类型相对应的第二类实体指标;将所述第一类实体指标和/或第二类实体指标加入与所述实体类型相对应的实体指标集。
关于上述各个模块的具体结构和工作原理可参照方法实施例中相应部分的描述,此处不再赘述。
实施例四
本申请实施例四提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于实体的属性分析方法。
可执行指令具体可以用于使得处理器执行以下操作:
接收标注样本集合,确定所述标注样本集合中的各个标注样本的实体类型;
根据预设的实体指标库确定与所述实体类型相对应的实体指标集,根据所述实体指标集确定与所述标注样本集合中的各个标注样本相对应的样本属性信息;
根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型,通过所述属性分析模型分析实体的属性。
实施例五
图4示出了根据本发明实施例五的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图4所示,该电子设备可以包括:处理器(processor)402、通信接口(Communications Interface)406、存储器(memory)404、以及通信总线408。
其中:
处理器402、通信接口406、以及存储器404通过通信总线408完成相互间的通信。
通信接口406,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述用于实体的属性分析方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器404,用于存放程序410。存储器404可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:
接收标注样本集合,确定所述标注样本集合中的各个标注样本的实体类型;
根据预设的实体指标库确定与所述实体类型相对应的实体指标集,根据所述实体指标集确定与所述标注样本集合中的各个标注样本相对应的样本属性信息;
根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型,通过所述属性分析模型分析实体的属性。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用于实体的属性分析装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种用于实体的属性分析方法,其特征在于,包括:
接收标注样本集合,确定所述标注样本集合中的各个标注样本的实体类型;
根据预设的实体指标库确定与所述实体类型相对应的实体指标集,根据所述实体指标集确定与所述标注样本集合中的各个标注样本相对应的样本属性信息;
根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息,训练对应的属性分析模型,通过所述属性分析模型分析实体的属性。
2.根据权利要求1所述的方法,其中,所述通过所述属性分析模型分析实体的属性的步骤具体包括:
确定与所述属性分析模型相对应的输入参数,根据所述输入参数确定与待分析的实体相对应的实体参数值;
将所述实体参数值输入所述属性分析模型,根据输出结果确定所述待分析的实体的属性。
3.根据权利要求2所述的方法,其中,所述根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型的步骤之后,进一步包括:将所述属性分析模型存储为可更新模型;
则所述方法进一步包括步骤:当所述实体指标库更新后,根据更新后的实体指标库更新已存储的各个可更新模型及其对应的输入参数。
4.根据权利要求1-3任一所述的方法,其中,所述根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型的步骤之后,进一步包括:
接收更新的样本集合;根据所述实体指标集确定与所述更新的样本集合中的各个更新样本相对应的样本属性信息;
根据所述更新的样本集合中的各个更新样本的标注结果以及各个更新样本相对应的样本属性信息对所述属性分析模型进行更新。
5.根据权利要求4所述的方法,其中,所述接收更新的样本集合的步骤之前,进一步包括:
通过对已分析的实体进行标注的方式确定所述更新的样本集合;和/或,通过接收到的业务结果信息或用户反馈信息确定所述更新的样本集合。
6.根据权利要求1-5任一所述的方法,其中,所述根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型的步骤具体包括:
根据标注样本集合中的各个标注样本的实体类型、与所述实体类型相对应的实体指标集、和/或标注样本的标注结果的类型,从预先配置的多个机器学习模型中选择与所述标注样本集合相匹配的机器学习模型;
根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息对选择的机器学习模型进行训练,得到对应的属性分析模型。
7.根据权利要求1-6任一所述的方法,其中,所述实体指标库用于分别存储与各种类型的实体相对应的实体指标;
且所述根据预设的实体指标库确定与所述实体类型相对应的实体指标集的步骤具体包括:
确定所述实体指标库中存储的与所述实体类型相对应的第一类实体指标;
确定与所述实体类型相对应的关联实体类型,确定所述实体指标库中存储的与所述关联实体类型相对应的第二类实体指标;
将所述第一类实体指标和/或第二类实体指标加入与所述实体类型相对应的实体指标集。
8.一种用于实体的属性分析系统,其特征在于,包括:
样本接收模块,适于接收标注样本集合,确定所述标注样本集合中的各个标注样本的实体类型;
属性确定模块,适于根据预设的实体指标库确定与所述实体类型相对应的实体指标集,根据所述实体指标集确定与所述标注样本集合中的各个标注样本相对应的样本属性信息;
训练分析模块,适于根据所述标注样本集合中的各个标注样本的标注结果以及各个标注样本相对应的样本属性信息训练对应的属性分析模型,通过所述属性分析模型分析实体的属性。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的用于实体的属性分析方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的用于实体的属性分析方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710819832.XA CN107679103B (zh) | 2017-09-08 | 2017-09-08 | 用于实体的属性分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710819832.XA CN107679103B (zh) | 2017-09-08 | 2017-09-08 | 用于实体的属性分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107679103A true CN107679103A (zh) | 2018-02-09 |
CN107679103B CN107679103B (zh) | 2020-08-04 |
Family
ID=61134864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710819832.XA Active CN107679103B (zh) | 2017-09-08 | 2017-09-08 | 用于实体的属性分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679103B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549655A (zh) * | 2018-03-09 | 2018-09-18 | 阿里巴巴集团控股有限公司 | 一种影视作品的制作方法、装置及设备 |
CN108764348A (zh) * | 2018-05-30 | 2018-11-06 | 口口相传(北京)网络技术有限公司 | 基于多个数据源的数据采集方法及系统 |
CN108960563A (zh) * | 2018-05-22 | 2018-12-07 | 深圳壹账通智能科技有限公司 | 一种商店的评级方法及其设备 |
CN109033471A (zh) * | 2018-09-05 | 2018-12-18 | 中国信息安全测评中心 | 一种信息资产识别方法及装置 |
CN109635029A (zh) * | 2018-12-07 | 2019-04-16 | 深圳前海微众银行股份有限公司 | 基于标签指标体系的数据处理方法、装置、设备及介质 |
CN111339152A (zh) * | 2020-02-03 | 2020-06-26 | 口碑(上海)信息技术有限公司 | 一种门店拓展记录数据处理装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7562063B1 (en) * | 2005-04-11 | 2009-07-14 | Anil Chaturvedi | Decision support systems and methods |
CN102253936A (zh) * | 2010-05-18 | 2011-11-23 | 阿里巴巴集团控股有限公司 | 记录用户访问商品信息的方法及搜索方法和服务器 |
CN102760150A (zh) * | 2012-04-05 | 2012-10-31 | 中国人民解放军国防科学技术大学 | 基于属性重现和标签路径的网页抽取方法 |
CN103207913A (zh) * | 2013-04-15 | 2013-07-17 | 武汉理工大学 | 商品细粒度语义关系的获取方法和系统 |
CN103869783A (zh) * | 2014-03-18 | 2014-06-18 | 东北大学 | 一种精矿产量在线预测方法 |
CN104881447A (zh) * | 2015-05-14 | 2015-09-02 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN106022912A (zh) * | 2016-05-30 | 2016-10-12 | 深圳市华傲数据技术有限公司 | 评价模型的更新方法及系统 |
CN106447366A (zh) * | 2015-08-07 | 2017-02-22 | 百度在线网络技术(北京)有限公司 | 多媒体广告的审核方法、广告审核模型的训练方法及装置 |
CN106844603A (zh) * | 2017-01-16 | 2017-06-13 | 竹间智能科技(上海)有限公司 | 实体热门度的计算方法及装置、应用方法及装置 |
CN106874279A (zh) * | 2015-12-11 | 2017-06-20 | 腾讯科技(深圳)有限公司 | 生成应用类别标签的方法及装置 |
-
2017
- 2017-09-08 CN CN201710819832.XA patent/CN107679103B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7562063B1 (en) * | 2005-04-11 | 2009-07-14 | Anil Chaturvedi | Decision support systems and methods |
CN102253936A (zh) * | 2010-05-18 | 2011-11-23 | 阿里巴巴集团控股有限公司 | 记录用户访问商品信息的方法及搜索方法和服务器 |
CN102760150A (zh) * | 2012-04-05 | 2012-10-31 | 中国人民解放军国防科学技术大学 | 基于属性重现和标签路径的网页抽取方法 |
CN103207913A (zh) * | 2013-04-15 | 2013-07-17 | 武汉理工大学 | 商品细粒度语义关系的获取方法和系统 |
CN103869783A (zh) * | 2014-03-18 | 2014-06-18 | 东北大学 | 一种精矿产量在线预测方法 |
CN104881447A (zh) * | 2015-05-14 | 2015-09-02 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN106447366A (zh) * | 2015-08-07 | 2017-02-22 | 百度在线网络技术(北京)有限公司 | 多媒体广告的审核方法、广告审核模型的训练方法及装置 |
CN106874279A (zh) * | 2015-12-11 | 2017-06-20 | 腾讯科技(深圳)有限公司 | 生成应用类别标签的方法及装置 |
CN106022912A (zh) * | 2016-05-30 | 2016-10-12 | 深圳市华傲数据技术有限公司 | 评价模型的更新方法及系统 |
CN106844603A (zh) * | 2017-01-16 | 2017-06-13 | 竹间智能科技(上海)有限公司 | 实体热门度的计算方法及装置、应用方法及装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549655A (zh) * | 2018-03-09 | 2018-09-18 | 阿里巴巴集团控股有限公司 | 一种影视作品的制作方法、装置及设备 |
CN108960563A (zh) * | 2018-05-22 | 2018-12-07 | 深圳壹账通智能科技有限公司 | 一种商店的评级方法及其设备 |
CN108764348A (zh) * | 2018-05-30 | 2018-11-06 | 口口相传(北京)网络技术有限公司 | 基于多个数据源的数据采集方法及系统 |
CN108764348B (zh) * | 2018-05-30 | 2020-07-10 | 口口相传(北京)网络技术有限公司 | 基于多个数据源的数据采集方法及系统 |
CN109033471A (zh) * | 2018-09-05 | 2018-12-18 | 中国信息安全测评中心 | 一种信息资产识别方法及装置 |
CN109033471B (zh) * | 2018-09-05 | 2022-11-08 | 中国信息安全测评中心 | 一种信息资产识别方法及装置 |
CN109635029A (zh) * | 2018-12-07 | 2019-04-16 | 深圳前海微众银行股份有限公司 | 基于标签指标体系的数据处理方法、装置、设备及介质 |
CN109635029B (zh) * | 2018-12-07 | 2023-10-13 | 深圳前海微众银行股份有限公司 | 基于标签指标体系的数据处理方法、装置、设备及介质 |
CN111339152A (zh) * | 2020-02-03 | 2020-06-26 | 口碑(上海)信息技术有限公司 | 一种门店拓展记录数据处理装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107679103B (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679103A (zh) | 用于实体的属性分析方法及系统 | |
CN107730311A (zh) | 一种推荐信息的推送方法、装置及服务器 | |
Kumar et al. | An interactive multicriteria approach to identifying potential foreign markets | |
CN110084374A (zh) | 构建基于pu学习的模型的方法、装置及预测方法、装置 | |
CN110400103A (zh) | 补货量确定方法、装置、计算机装置及存储介质 | |
Kemeny et al. | Creative differences? Measuring creative economy employment in the United States and the UK | |
CN106408341A (zh) | 货品销量的预测方法及装置、电子设备 | |
CN107918818A (zh) | 基于大数据技术的供应链管理决策支持系统 | |
CN108960719A (zh) | 选品方法和装置以及计算机可读存储介质 | |
KR101963817B1 (ko) | 키워드 검색량 기반 예측 정보 생성 장치 및 방법 | |
CN104408648A (zh) | 一种挑选商品的方法及装置 | |
CN108921398A (zh) | 店铺质量评价方法及装置 | |
CN102592236A (zh) | 一种互联网广告人群分析系统和分析方法 | |
CN104346698A (zh) | 基于云计算和数据挖掘的餐饮会员大数据分析和考核系统 | |
Fuchs et al. | Applying business intelligence for knowledge generation in tourism destinations–A case study from Sweden | |
CN111192161A (zh) | 电力市场交易对象推荐方法、装置 | |
Agostino et al. | Forecasting models in the manufacturing processes and operations management: Systematic literature review | |
CN114782065A (zh) | 一种基于模型组合的商品销量预测方法、装置及存储介质 | |
CN110503186A (zh) | 商品排序神经网络模型训练方法、装置、电子设备 | |
Ambrammal et al. | R&D and patenting by firms in India in high-and medium-high-technology industries | |
Namburu et al. | Product pricing solutions using hybrid machine learning algorithm | |
CN108319612A (zh) | 受众媒体推荐方法和系统 | |
Papić et al. | Multi-criteria decision-making in the tourism domain: The past, present and future of the research field | |
Singh et al. | Supply chain performance: A review of literature | |
CN115099837B (zh) | 一种用于电子商务的供应链管理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |