CN111126422B - 行业模型的建立及行业的确定方法、装置、设备及介质 - Google Patents
行业模型的建立及行业的确定方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111126422B CN111126422B CN201811295904.6A CN201811295904A CN111126422B CN 111126422 B CN111126422 B CN 111126422B CN 201811295904 A CN201811295904 A CN 201811295904A CN 111126422 B CN111126422 B CN 111126422B
- Authority
- CN
- China
- Prior art keywords
- industry
- user
- description attribute
- data
- attribute association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000013145 classification model Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 44
- 238000010276 construction Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000003245 working effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种行业确定模型的建立及用户所属行业的确定方法、装置、设备及介质。该方法包括:获取多个行业样本数据,构造行业样本数据集合,行业样本数据包括:用户标识、以及与所述用户标识匹配的行业信息;根据用户信息数据库,确定与所述用户标识分别对应的至少一类行业描述属性关联数据;根据所述行业描述属性关联数据,确定与所述用户标识对应的行业描述属性关联特征;根据与各所述用户标识分别对应的所述行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到行业确定模型。通过本发明的技术方案,能够在未知行业用户的海量信息中挖掘出与已知行业用户相关的特征来确定用户所属行业,提高行业确定方式的多样性。
Description
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种行业确定模型的建立及用户所属行业的确定方法、装置、设备及介质。
背景技术
随着互联网中大数据的不断增加,可以通过大数据挖掘出各种用户信息,为用户提供更加便利的信息服务。
现有技术中,一般是通过确定用户工作时间的常驻点所对应的公司名,来确定出用户从事的行业信息(例如,医疗或者教育等),但是,如果无法获取的一个用户的上述信息,则无法确定出该用户的行业信息,导致可以用于确定用户所属行业的方式过于单一。
发明内容
本发明实施例提供一种行业确定模型的建立及用户所属行业的确定方法、装置、设备及介质,以实现在未知行业用户的海量信息中挖掘出与已知行业用户相关的特征来确定用户所属行业,提高行业确定方式的多样性。
第一方面,本发明实施例提供了一种行业确定模型的建立方法,包括:
获取多个行业样本数据,构造行业样本数据集合,所述行业样本数据包括:用户标识、以及与所述用户标识匹配的行业信息;
根据用户信息数据库,确定与所述用户标识分别对应的至少一类行业描述属性关联数据;
根据所述行业描述属性关联数据,确定与所述用户标识对应的行业描述属性关联特征;
根据与各所述用户标识分别对应的所述行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到所述行业确定模型。
第二方面,本发明实施例还提供了一种用户所属行业的确定方法,应用通过本发明实施例中任一所述的行业确定模型的建立方法所建立的行业确定模型,该方法包括:
根据用户信息数据库,获取与目标用户的目标用户标识对应的至少一类行业描述属性关联数据;
根据所述行业描述属性关联数据,确定与所述目标用户标识对应的行业描述属性关联特征;
将与所述目标用户标识对应的所述行业描述属性关联特征输入至预先训练的所述行业确定模型中,得到与所述目标用户对应的行业信息。
第三方面,本发明实施例还提供了一种行业确定模型的建立装置,该装置包括:
样本构造模块,用于获取多个行业样本数据,构造行业样本数据集合,所述行业样本数据包括:用户标识、以及与所述用户标识匹配的行业信息;
数据确定模块,用于根据用户信息数据库,确定与所述用户标识分别对应的至少一类行业描述属性关联数据;
特征对应模块,用于根据所述行业描述属性关联数据,确定与所述用户标识对应的行业描述属性关联特征;
模型训练模块,用于根据与各所述用户标识分别对应的所述行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到所述行业确定模型。
第四方面,本发明实施例还提供了一种用户所属行业的确定装置,应用通过本发明实施例中任一所述的行业确定模型的建立装置所建立的行业确定模型,该装置包括:
数据获取模块,用于根据用户信息数据库,获取与目标用户的目标用户标识对应的至少一类行业描述属性关联数据;
特征确定模块,用于根据所述行业描述属性关联数据,确定与所述目标用户标识对应的行业描述属性关联特征;
特征输入模块,用于将与所述目标用户标识对应的所述行业描述属性关联特征输入至预先训练的所述行业确定模型中,得到与所述目标用户对应的行业信息。
第五方面,本发明实施例还提供了一种计算机设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的行业确定模型的建立方法,和/或本发明实施例中任一所述的用户所属行业的确定方法。
第六方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的行业确定模型的建立方法,和/或本发明实施例中任一所述的用户所属行业的确定方法。
本发明实施例通过获取多个行业样本数据,构造行业样本数据集合,再根据用户信息数据库,确定与行业样本数据中包括的用户表示分别对应的至少一类行业描述属性关联数据,并根据该行业描述属性关联数据确定与用户标识对应的行业描述属性关联特征,根据与各用户标识分别对应的行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,以最终得到行业确定模型的技术手段,使得最终得到的行业确定模型可以在未知行业用户的海量信息中挖掘出与已知行业用户相关的属性特征来确定用户所属行业,而不仅仅只是依赖于通过判断用户工作地点来获取用户行业信息的方式,提高了行业确定方式的多样性。
附图说明
图1是本发明实施例一提供的一种行业确定模型的建立方法的流程示意图;
图2是本发明实施例二提供的一种行业确定模型的建立方法的流程示意图;
图3是本发明实施例三提供的一种行业确定模型的建立方法的流程示意图;
图4是本发明实施例四提供的一种行业确定模型的建立方法的流程示意图;
图5是本发明实施例五提供的一种用户所属行业的确定方法的流程示意图;
图6是本发明实施例六提供的一种行业确定模型的建立装置的结构示意图;
图7是本发明实施例七提供的一种用户所属行业的确定装置的结构示意图;
图8是本发明实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种行业确定模型的建立方法的流程示意图。该方法可适用于对能够识别用户所属行业的模型进行建立的情况,该方法可以由本发明实施例提供的行业确定模型的建立装置来执行,该装置可由硬件和/或软件组成,并一般可集成在行业信息推荐服务器中。具体包括如下:
S110、获取多个行业样本数据,构造行业样本数据集合,行业样本数据包括:用户标识、以及与用户标识匹配的行业信息。
在为用户提供信息推荐等服务的过程中,常常需要获取用户所属行业的行业信息,以根据用户所属的行业进行相应的资讯推送,从而为用户提供更好的信息服务。目前,由于获取用户所属行业的方式过于单一,一旦用户关闭唯一的信息获取通道,例如关闭手机定位,服务商就无法获取用户的工作时间的常驻点,也就无法确定用户从事的行业信息。
本发明实施例基于互联网上用户的行为数据,例如用户公司所在地特征、用户常用搜索关键词和主题特征等方面进行分析和建模,进而通过机器学习加规则的方式挖掘用户的行业信息,提高行业确定方式的多样性。
在进行建模之前,首先需要获取样本数据,本实施例中,行业样本数据可以是由具有明确行业信息的用户所对应的用户标识,以及该用户所属行业的行业信息所构造的样本数据。其中,用户所属行业包括但不限于文化创意、科技服务、金融保险、制造业、建筑、教育、医疗等。用户标识是用于标识用户身份的信息,具有唯一性,例如用户标识可以是用户登录APP时所使用的用户ID或用户所使用的移动终端序列号等,在此不作限定。示例性的,行业样本数据可以从特定渠道自动获取,也可以通过不同的渠道自动获取,将从至少一个渠道获取的多个行业样本数据,组合成行业样本数据集合。
可选的,获取多个行业样本数据,包括下述至少一项:
获取至少两个第一备选用户在工作时间内的定位轨迹数据,并根据定位轨迹数据,确定各第一备选用户的工作常驻点,将各工作常驻点与预设公司登记点集合进行匹配,提取工作常驻点命中公司登记点集合的第一备选用户构造行业样本数据;
获取至少两个第二备选用户的热点连接数据,并根据热点连接数据确定与各第二备选用户分别对应的连接热点集合,并将各连接热点集合与预设的公司标准热点集合进行匹配,提取连接热点集合命中公司标准热点集合的第二备选用户构造行业样本数据;
获取至少两个第三备选用户在设定时间区间内的应用程序安装列表,并将各应用程序安装列表与预设的标准行业应用程序集合进行匹配,提取应用程序安装列表命中标准行业应用程序集合的第三备选用户构造行业样本数据。
在上述行业样本数据获取方式的基础上,举几个实际例子:
基于用户手机定位数据,可获取用户在早上8点至下午5点之间的定位轨迹数据,进而识别用户的公司。例如,若识别出用户的公司是某个医院,则说明该用户所属行业为医疗行业;若识别出用户的公司为某个学校,则说明该用户所属行业为教育行业;若识别出用户的公司为某个科技公司,则说明该用户所属行业为科技服务。从而将该用户作为第一备选用户,将其对应的用户标识以及行业信息用于构造一个行业样本数据。
基于用户连接wifi数据,可识别用户所连wifi的信息,通过该信息也可识别出用户的公司。例如,若用户在工作时间连接了某银行的wifi,则说明该用户所属行业为金融保险行业。从而将该用户作为第二备选用户,将其对应的用户标识以及行业信息用于构造一个行业样本数据。
基于用户安装app数据,可通过该app数据识别用户所属的行业。例如,若用户近期安装了“牙护士医生版”,则说明该用户所属行业为医疗行业;若用户近期安装了“幼儿教育教师版”,则说明该用户所属行业为教育行业。从而将该用户作为第三备选用户,将其对应的用户标识以及行业信息用于构造一个行业样本数据。
在以上三种行业样本数据获取方式的基础上,可通过获取国家统计局不同行业的占比,来构造最终的行业样本数据集合。
S120、根据用户信息数据库,确定与用户标识分别对应的至少一类行业描述属性关联数据。
其中,用户信息数据库中可存储有用户的行为数据,将其中能够体现出用户所属行业的行为数据确定为该用户标识所对应的行业描述属性关联数据。例如,能够体现出用户所属行业的行为数据包括但不限于:用户进行信息搜索时所使用的关键词、用户公司所在网格的特征、用户公司周边兴趣点的分布特征、用户最近到访过的兴趣点特征等。
获取行业样本数据集合中包含的多个用户标识所分别对应的至少一类行业描述属性关联数据的目的在于,提取已知行业用户的相关行为特征,来对标准模型进行训练,以使训练后得到的模型能够通过未知行业用户的相关行为数据来判断该用户所属行业的行业信息,提高了行业确定方式的多样性,进而可以基于用户所属行业为用户提供了更好的信息服务。
S130、根据行业描述属性关联数据,确定与用户标识对应的行业描述属性关联特征。
本实施例中,可分别将各用户标识对应的行业描述属性关联数据进行向量化处理,将处理后得到的特征向量作为与各自用户标识分别对应的行业描述属性关联特征。其中,具体向量化处理过程可根据行业描述属性关联数据的类型来确定,进行向量化处理的目的在于,将相关的文字性描述进行数字化,以便在后续过程中训练模型时进行运算处理。
S140、根据与各用户标识分别对应的行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到行业确定模型。
本实施例中,标准多分类模型可以是基于机器学习技术建立的训练模型,用于对输入的特征进行分析,并输出相应的类别信息。因此,可基于该标准多分类模型,来建立行业确定模型。示例性的,可将行业样本数据集合中包括的多个用户标识,所分别对应的行业描述属性关联特征以及行业样本数据中各用户标识对应的行业信息,分别输入至标准多分类模型,以对该多分类模型进行训练。
具体的,对多分类模型训练的过程可以是调整各模型参数的过程,经过不断的训练,获得最优的模型参数,具有最优模型参数的多分类模型即为最终要获得的行业确定模型。
在将行业描述属性关联特征输入至标准多分类模型之前,可对行业描述属性关联特征中各个特征按照各自对应的行业描述属性数据的类型,进行加权处理,以调节各行业描述属性的权重,例如,根据用户公司所在网格的特征属性来判断用户所属行业的准确性,大于根据用户进行信息搜索时所使用的关键词属性来判断用户所属行业的准确性,因此,可将用户公司所在网格的特征的权重设置得高于用户进行信息搜索时所使用的关键词特征的权重。
本实施例的技术方案,通过获取多个行业样本数据,构造行业样本数据集合,再根据用户信息数据库,确定与行业样本数据中包括的用户表示分别对应的至少一类行业描述属性关联数据,并根据该行业描述属性关联数据确定与用户标识对应的行业描述属性关联特征,根据与各用户标识分别对应的行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,以最终得到行业确定模型的技术手段,使得最终得到的行业确定模型可以在未知行业用户的海量信息中挖掘出与已知行业用户相关的属性特征来确定用户所属行业,而不仅仅只是依赖于通过判断用户工作地点来获取用户行业信息的方式,提高了行业确定方式的多样性。
实施例二
图2为本发明实施例二提供的一种行业确定模型的建立方法的流程示意图,本实施例以上述实施例为基础进行具体化。在本实施例中,根据用户信息数据库,确定与用户标识分别对应的至少一类行业描述属性关联数据,具体为:在搜索引擎数据库中,获取与用户标识匹配的搜索关键词集合作为行业描述属性关联数据;
以及,根据行业描述属性关联数据,确定与用户标识对应的行业描述属性关联特征,具体为:根据搜索关键词集合中包括的搜索关键词,构造关键词特征向量作为行业描述属性关联特征;和/或,对搜索关键词集合中包括的搜索关键词进行主题模型聚类,并根据聚类结果得到与各聚类簇分别对应的主题词,并根据主题词构造关键词泛化特征向量作为行业描述属性关联特征。
相应的,本实施例的方法包括:
S210、获取多个行业样本数据,构造行业样本数据集合,行业样本数据包括:用户标识、以及与用户标识匹配的行业信息。
S220、在搜索引擎数据库中,获取与用户标识匹配的搜索关键词集合作为行业描述属性关联数据。
不同行业的用户在进行搜索的时候往往会有所倾向,例如,医生在使用搜索引擎时,可能会更倾向于搜索与医药或治疗方法相关的资料,而教师可能会更倾向于搜索教学方法相关的资料,因此,可获取用户在使用搜索引擎时,所输入的搜索关键词,作为行业描述属性关联数据。
其中,搜索引擎数据库可以是本服务器中自带的数据库,也可以是第三方数据库,在此不作限定。在搜索引擎数据库中,可记录有不同用户一段时间之内使用过的搜索关键词所构成的搜索关键词集合,示例性的,获取搜索引擎数据库中具有明确行业信息的用户所对应的搜索关键词集合,也即与行业样本数据中包括的用户标识相匹配的搜索关键词集合,以便分析样本用户的搜索行为特征。
S230、根据搜索关键词集合中包括的搜索关键词,构造关键词特征向量作为行业描述属性关联特征;和/或,对搜索关键词集合中包括的搜索关键词进行主题模型聚类,并根据聚类结果得到与各聚类簇分别对应的主题词,并根据主题词构造关键词泛化特征向量作为行业描述属性关联特征。
本实施例的一种可选实施方式为,将搜索关键词集合中包括的所有搜索关键词进行向量化处理,以将搜索关键词数字化,得到关键词特征向量,并将该关键词特征向量作为行业描述属性关联特征。
本实施例的另一种可选实施方式为,将搜索关键词集合中包括的搜索关键词进行主题模型聚类,具体可根据预设的主题列表,将搜索关键词集合中包括的所有搜索关键词与该主题列表进行一一比对,从而将该关键词归为主题列表中某一预设的主题中,最后,获取主题列表中统计得到的所有主题所对应的主题词,并对主题词进行向量化处理,得到关键词泛化特征向量,作为行业描述属性关联特征。这种实施方式的好处在于,可以将海量的搜索关键词聚类为有限的几个主题类,从而化繁为简,便于后续的运算。
S240、根据与各用户标识分别对应的行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到行业确定模型。
本实施例的技术方案,通过在搜索引擎数据库中,获取与用户标识匹配的搜索关键词集合作为行业描述属性关联数据,进而根据该搜索关键词集合中包括的搜索关键词,构造关键词特征向量作为行业描述属性关联特征,和/或,对该搜索关键词集合中包括的搜索关键词进行主题模型聚类后,得到各聚类分别对应的主题词,进而根据主题词构造关键词泛化特征向量作为行业描述属性关联特征,最终利用各用户标识分别对应的行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到行业确定模型,利用已知行业用户的搜索行为特征,来构建行业确定模型,使得最终得到的行业确定模型可以在未知行业用户的搜索行为数据中挖掘出与已知行业用户相关的属性特征,来确定用户所属行业,提高了行业确定方式的多样性。
实施例三
图3为本发明实施例三提供的一种行业确定模型的建立方法的流程示意图,本实施例以上述实施例为基础进行具体化。在本实施例中,根据用户信息数据库,确定与用户标识分别对应的至少一类行业描述属性关联数据,具体为:查询轨迹数据库,获取与用户标识匹配的轨迹数据,并根据轨迹数据获取与用户标识对应的工作常驻点;根据工作常驻点,获取与用户标识匹配的公司网格信息,和/或公司周边兴趣点信息作为行业描述属性关联数据;
以及,根据行业描述属性关联数据,确定与用户标识对应的行业描述属性关联特征,具体为:根据公司网格信息,构造地理网格特征向量作为行业描述属性关联特征,和/或,根据公司周边兴趣点信息进行独热编码,得到公司周边兴趣点分布特征向量作为行业描述属性关联特征。
相应的,本实施例的方法包括:
S310、获取多个行业样本数据,构造行业样本数据集合,行业样本数据包括:用户标识、以及与用户标识匹配的行业信息。
S320、查询轨迹数据库,获取与用户标识匹配的轨迹数据,并根据轨迹数据获取与用户标识对应的工作常驻点。
本实施例中,轨迹数据可以是基于用户所使用的移动终端设备的定位信息来获取的数据,该数据可保存在本服务器或第三方服务器的轨迹数据库中,通过获取用户的轨迹数据,即可确定工作时间内用户的常驻点,也即工作常驻点。
S330、根据工作常驻点,获取与用户标识匹配的公司网格信息,和/或公司周边兴趣点信息作为行业描述属性关联数据。
在本实施例的一种可选实施方式中,通过Geohash网格聚合技术,按照地理位置经纬度将地区划分为多个网格,由于工作常驻点在同一网格中的用户,往往具有相同或相近的行业,所以可获取用户工作常驻点所在的公司网格信息作为行业描述属性关联数据。
在本实施例的另一种可选实施方式中,还可根据工作常驻点所对应的周边预设范围内的兴趣点信息作为行业描述属性关联数据。其中,兴趣点可以是地图标记点,例如银行、加油站、咖啡厅等。通过该周边兴趣点信息可在一定程度上体现用户所属的行业,示例性的,若样本用户的行业信息为金融行业,则其工作常驻点附近的兴趣点中很可能银行居多,因此,周边兴趣点信息可以作为体现用户行业属性的特征之一。
S340、根据公司网格信息,构造地理网格特征向量作为行业描述属性关联特征,和/或,根据公司周边兴趣点信息进行独热编码,得到公司周边兴趣点分布特征向量作为行业描述属性关联特征。
示例性的,若获取的行业描述属性关联数据为公司网格信息,则可通过对公司网格信息进行向量化处理后得到的向量化处理结果,也即地理网格特征向量,作为行业描述属性关联特征。若获取的行业描述属性关联数据为公司周边兴趣点信息,则对该兴趣点信息进行向量化处理后,还需要对向量化处理结果进行独热编码,以获取行业描述属性关联特征。其中,独热编码(One-Hot编码)又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。进行独热编码的目的在于,将离散的周边兴趣点信息连续化,从而体现出各兴趣点的分布特征。
S350、根据与各用户标识分别对应的行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到行业确定模型。
本实施例的技术方案,通过查询轨迹数据库,获取与用户标识匹配的轨迹数据,根据该轨迹数据获取与用户标识对应的工作常驻点,进而根据该工作常驻点获取与用户标识匹配的公司网格信息,和/或公司周边兴趣点信息,作为行业描述属性关联数据,根据公司网格信息构造地理网格特征向量,和/或,根据公司周边兴趣点信息进行独热编码,得到公司周边兴趣点分布特征向量,作为行业描述属性关联特征,最终利用各用户标识分别对应的行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到行业确定模型,利用已知行业用户的运动轨迹特征,来构建行业确定模型,使得最终得到的行业确定模型可以在未知行业用户的运动轨迹数据中挖掘出与已知行业用户相关的属性特征,来确定用户所属行业,提高了行业确定方式的多样性。
实施例四
图4为本发明实施例四提供的一种行业确定模型的建立方法的流程示意图,本实施例以上述实施例为基础进行具体化。在本实施例中,根据用户信息数据库,确定与用户标识分别对应的至少一类行业描述属性关联数据,具体为:查询到访兴趣点数据库,获取与用户标识匹配的到访兴趣点时序集合作为行业描述属性关联数据;
以及,根据行业描述属性关联数据,确定与用户标识对应的行业描述属性关联特征,具体为:将到访兴趣点时序集合,输入至到访兴趣点向量训练模型中进行无监督训练,并将兴趣点到访向量训练模型中的嵌入层特征进行拼接,得到到访兴趣点特征向量作为行业描述属性关联特征。
相应的,本实施例的方法包括:
S410、获取多个行业样本数据,构造行业样本数据集合,行业样本数据包括:用户标识、以及与用户标识匹配的行业信息。
S420、查询到访兴趣点数据库,获取与用户标识匹配的到访兴趣点时序集合作为行业描述属性关联数据。
本实施例中,到访兴趣点时序集合可以是特定时间段内,基于用户所使用的移动终端设备的定位信息,来获取的用户到访过的兴趣点信息的集合,该集合可保存在本服务器或第三方服务器的到访兴趣点数据库中。
由于用户到访过的兴趣点信息能够在一定程度上反映出用户的工作性质,因此,可将获取的与行业样本数据中包括的样本用户的用户标识相匹配的到访兴趣点时序集合,作为行业描述属性关联数据。示例性的,若样本用户的行业信息为房地产行业,则其到访的兴趣点可能多集中于银行、房管局、居民小区等,因此,用户到访过的兴趣点信息可以作为体现用户行业属性的特征之一。
S430、将到访兴趣点时序集合,输入至到访兴趣点向量训练模型中进行无监督训练,并将兴趣点到访向量训练模型中的嵌入层特征进行拼接,得到到访兴趣点特征向量作为行业描述属性关联特征。
示例性的,将到访兴趣点时序集合中包括的所有兴趣点信息进行向量化处理,并将向量化处理结果输入至到访兴趣点向量训练模型中进行无监督训练,将训练后得到的到访向量训练模型中的嵌入层特征进行前后拼接,即可得到到访兴趣点特征向量,以作为行业描述属性关联特征。这样设置的好处在于,可以将一些离散的兴趣点信息构造为具有设定维度的连续型数据向量特征,从而提高后续训练的有效性。
S440、根据与各用户标识分别对应的行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到行业确定模型。
本实施例的技术方案,通过查询到访兴趣点数据库,获取与用户标识匹配的到访兴趣点时序集合作为行业描述属性关联数据,同时,将到访兴趣点时序集合输入至到访兴趣点向量训练模型中进行无监督训练,并将兴趣点到访向量训练模型中的嵌入层特征进行拼接,得到到访兴趣点特征向量作为行业描述属性关联特征,最终利用各用户标识分别对应的行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到行业确定模型,利用已知行业用户的到访兴趣点特征,来构建行业确定模型,使得最终得到的行业确定模型可以在未知行业用户的到访兴趣点数据中挖掘出与已知行业用户相关的属性特征,来确定用户所属行业,提高了行业确定方式的多样性。
实施例五
图5为本发明实施例五提供的一种用户所属行业的确定方法的流程示意图。该方法可适用于对未知行业的用户进行行业识别的情况,本实施例在上述各实施例的基础上,应用本发明实施例的行业确定模型的建立方法所建立的行业确定模型。本实施例的方法可以由本发明实施例提供的用户所属行业的确定装置来执行,该装置可由硬件和/或软件组成,并一般可集成在行业信息推荐服务器中。具体包括如下:
S510、根据用户信息数据库,获取与目标用户的目标用户标识对应的至少一类行业描述属性关联数据。
本实施例中,目标用户的行业描述属性关联数据的获取方式,与上述各实施例中,确定与行业样本数据中包括的用户标识对应的行业描述属性关联数据的方式相同,在此不再赘述。其中,目标用户可以是未知行业但需要获取其所属行业的用户。
S520、根据行业描述属性关联数据,确定与目标用户标识对应的行业描述属性关联特征。
本实施例中,由行业描述属性关联数据来确定行业描述属性关联特征的方式,与上述各实施例中,确定与行业样本数据中包括的用户标识对应的行业描述属性关联特征的方式相同,在此不再赘述。
S530、将与目标用户标识对应的行业描述属性关联特征输入至预先训练的行业确定模型中,得到与目标用户对应的行业信息。
其中,预先训练的行业确定模型,可以是基于上述各实施例中训练方式训练得到的行业确定模型,由于该行业确定模型可以在未知行业用户的海量信息中挖掘出与已知行业用户相关的属性特征,因此,将目标用户标识对应的行业描述属性关联特征输入至该行业确定模型后,该模型即可利用该用户公司所在地特征、用户搜索关键词特征、和/或主题特征等能够体现用户行为特征的数据,输出得到与目标用户对应的行业信息。
本实施例的技术方案,通过根据用户信息数据库,获取与目标用户的目标用户标识对应的至少一类行业描述属性关联数据,然后,根据该行业描述属性关联数据,确定与目标用户标识对应的行业描述属性关联特征,最后,将与目标用户标识对应的行业描述属性关联特征输入至预先训练的行业确定模型中,得到与目标用户对应的行业信息,利用构建的行业确定模型,在未知行业用户的海量信息中挖掘出与已知行业用户相关的属性特征来确定用户所属行业,而不仅仅只是依赖于通过判断用户工作地点来获取用户行业信息的方式,提高了行业确定方式的多样性和准确性,进而可以基于用户所属行业为用户提供更好的信息服务。
实施例六
图6为本发明实施例六提供的一种行业确定模型的建立装置的结构示意图。参考图6,行业确定模型的建立装置包括:样本构造模块610、数据确定模块620、特征对应模块630以及模型训练模块640,下面对各模块进行具体说明。
样本构造模块610,用于获取多个行业样本数据,构造行业样本数据集合,所述行业样本数据包括:用户标识、以及与所述用户标识匹配的行业信息;
数据确定模块620,用于根据用户信息数据库,确定与所述用户标识分别对应的至少一类行业描述属性关联数据;
特征对应模块630,用于根据所述行业描述属性关联数据,确定与所述用户标识对应的行业描述属性关联特征;
模型训练模块640,用于根据与各所述用户标识分别对应的所述行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到所述行业确定模型。
本发明实施例提供了一种行业确定模型的建立装置,通过获取多个行业样本数据,构造行业样本数据集合,再根据用户信息数据库,确定与行业样本数据中包括的用户表示分别对应的至少一类行业描述属性关联数据,并根据该行业描述属性关联数据确定与用户标识对应的行业描述属性关联特征,根据与各用户标识分别对应的行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,以最终得到行业确定模型的技术手段,使得最终得到的行业确定模型可以在未知行业用户的海量信息中挖掘出与已知行业用户相关的属性特征来确定用户所属行业,而不仅仅只是依赖于通过判断用户工作地点来获取用户行业信息的方式,提高了行业确定方式的多样性。
在上述各实施例的基础上,样本构造模块610,具体可以包括下述至少一项:
第一样本构造子模块,用于获取至少两个第一备选用户在工作时间内的定位轨迹数据,并根据所述定位轨迹数据,确定各所述第一备选用户的工作常驻点,将各所述工作常驻点与预设公司登记点集合进行匹配,提取工作常驻点命中所述公司登记点集合的第一备选用户构造所述行业样本数据;
第二样本构造子模块,用于获取至少两个第二备选用户的热点连接数据,并根据所述热点连接数据确定与各所述第二备选用户分别对应的连接热点集合,并将各所述连接热点集合与预设的公司标准热点集合进行匹配,提取连接热点集合命中所述公司标准热点集合的第二备选用户构造所述行业样本数据;
第三样本构造子模块,用于获取至少两个第三备选用户在设定时间区间内的应用程序安装列表,并将各所述应用程序安装列表与预设的标准行业应用程序集合进行匹配,提取应用程序安装列表命中标准行业应用程序集合的第三备选用户构造所述行业样本数据。
在上述各实施例的基础上,数据确定模块620,具体可以用于:
在搜索引擎数据库中,获取与所述用户标识匹配的搜索关键词集合作为行业描述属性关联数据;
相应的,特征对应模块630,具体可以用于:
根据所述搜索关键词集合中包括的搜索关键词,构造关键词特征向量作为所述行业描述属性关联特征;和/或
对所述搜索关键词集合中包括的搜索关键词进行主题模型聚类,并根据聚类结果得到与各聚类簇分别对应的主题词,并根据所述主题词构造关键词泛化特征向量作为所述行业描述属性关联特征。
在上述各实施例的基础上,数据确定模块620,具体可以用于:
查询轨迹数据库,获取与用户标识匹配的轨迹数据,并根据所述轨迹数据获取与所述用户标识对应的工作常驻点;
根据所述工作常驻点,获取与所述用户标识匹配的公司网格信息,和/或公司周边兴趣点信息作为所述行业描述属性关联数据;
相应的,特征对应模块630,具体可以用于:
根据所述公司网格信息,构造地理网格特征向量作为所述行业描述属性关联特征,和/或
根据所述公司周边兴趣点信息进行独热编码,得到公司周边兴趣点分布特征向量作为所述行业描述属性关联特征。
在上述各实施例的基础上,数据确定模块620,具体可以用于:
查询到访兴趣点数据库,获取与所述用户标识匹配的到访兴趣点时序集合作为所述行业描述属性关联数据;
相应的,特征对应模块630,具体可以用于:
将所述到访兴趣点时序集合,输入至到访兴趣点向量训练模型中进行无监督训练,并将所述兴趣点到访向量训练模型中的嵌入层特征进行拼接,得到所述到访兴趣点特征向量作为所述行业描述属性关联特征。
上述产品可执行本发明任意实施例所提供的行业确定模型的建立方法,具备执行行业确定模型的建立方法相应的功能模块和有益效果。
实施例七
图7为本发明实施例七提供的一种用户所属行业的确定装置的结构示意图,应用通过本发明实施例所述的行业确定模型的建立装置所建立的行业确定模型。参考图7,用户所属行业的确定装置包括:数据获取模块710、特征确定模块720以及特征输入模块730,下面对各模块进行具体说明。
数据获取模块710,用于根据用户信息数据库,获取与目标用户的目标用户标识对应的至少一类行业描述属性关联数据;
特征确定模块720,用于根据所述行业描述属性关联数据,确定与所述目标用户标识对应的行业描述属性关联特征;
特征输入模块730,用于将与所述目标用户标识对应的所述行业描述属性关联特征输入至预先训练的所述行业确定模型中,得到与所述目标用户对应的行业信息。
本发明实施例提供了一种用户所属行业的确定装置,通过根据用户信息数据库,获取与目标用户的目标用户标识对应的至少一类行业描述属性关联数据,然后,根据该行业描述属性关联数据,确定与目标用户标识对应的行业描述属性关联特征,最后,将与目标用户标识对应的行业描述属性关联特征输入至预先训练的行业确定模型中,得到与目标用户对应的行业信息,利用构建的行业确定模型,在未知行业用户的海量信息中挖掘出与已知行业用户相关的属性特征来确定用户所属行业,而不仅仅只是依赖于通过判断用户工作地点来获取用户行业信息的方式,提高了行业确定方式的多样性和准确性,进而可以基于用户所属行业为用户提供更好的信息服务。
上述产品可执行本发明任意实施例所提供的用户所属行业的确定方法,具备执行用户所属行业的确定方法相应的功能模块和有益效果。
实施例八
图8为本发明实施例八提供的一种计算机设备的结构示意图。图8示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图8显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的行业确定模型的建立方法。也即,获取多个行业样本数据,构造行业样本数据集合,行业样本数据包括:用户标识、以及与用户标识匹配的行业信息;根据用户信息数据库,确定与用户标识分别对应的至少一类行业描述属性关联数据;根据行业描述属性关联数据,确定与用户标识对应的行业描述属性关联特征;根据与各用户标识分别对应的行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到行业确定模型。
又例如:实现本发明实施例所提供的用户所属行业的确定方法。也即,根据用户信息数据库,获取与目标用户的目标用户标识对应的至少一类行业描述属性关联数据;根据行业描述属性关联数据,确定与目标用户标识对应的行业描述属性关联特征;将与目标用户标识对应的行业描述属性关联特征输入至预先训练的行业确定模型中,得到与目标用户对应的行业信息。
实施例九
本发明实施例九提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的行业确定模型的建立方法。也即,获取多个行业样本数据,构造行业样本数据集合,行业样本数据包括:用户标识、以及与用户标识匹配的行业信息;根据用户信息数据库,确定与用户标识分别对应的至少一类行业描述属性关联数据;根据行业描述属性关联数据,确定与用户标识对应的行业描述属性关联特征;根据与各用户标识分别对应的行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到行业确定模型。
或者,实现如本申请所有发明实施例提供的关联检索方法。也即,根据用户信息数据库,获取与目标用户的目标用户标识对应的至少一类行业描述属性关联数据;根据行业描述属性关联数据,确定与目标用户标识对应的行业描述属性关联特征;将与目标用户标识对应的行业描述属性关联特征输入至预先训练的行业确定模型中,得到与目标用户对应的行业信息。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.一种行业确定模型的建立方法,其特征在于,包括:
获取多个行业样本数据,构造行业样本数据集合,所述行业样本数据包括:用户标识、以及与所述用户标识匹配的行业信息;
根据用户信息数据库,确定与所述用户标识分别对应的至少一类行业描述属性关联数据;
根据所述行业描述属性关联数据,确定与所述用户标识对应的行业描述属性关联特征;
根据与各所述用户标识分别对应的所述行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到所述行业确定模型;
其中,所述获取多个行业样本数据,包括下述至少一项:
获取至少两个第一备选用户在工作时间内的定位轨迹数据,并根据所述定位轨迹数据,确定各所述第一备选用户的工作常驻点,将各所述工作常驻点与预设公司登记点集合进行匹配,提取工作常驻点命中所述公司登记点集合的第一备选用户构造所述行业样本数据;
获取至少两个第二备选用户的热点连接数据,并根据所述热点连接数据确定与各所述第二备选用户分别对应的连接热点集合,并将各所述连接热点集合与预设的公司标准热点集合进行匹配,提取连接热点集合命中所述公司标准热点集合的第二备选用户构造所述行业样本数据;
获取至少两个第三备选用户在设定时间区间内的应用程序安装列表,并将各所述应用程序安装列表与预设的标准行业应用程序集合进行匹配,提取应用程序安装列表命中标准行业应用程序集合的第三备选用户构造所述行业样本数据。
2.根据权利要求1所述的方法,其特征在于,根据用户信息数据库,确定与所述用户标识分别对应的至少一类行业描述属性关联数据,包括:
在搜索引擎数据库中,获取与所述用户标识匹配的搜索关键词集合作为行业描述属性关联数据;
相应的,根据所述行业描述属性关联数据,确定与所述用户标识对应的行业描述属性关联特征,包括:
根据所述搜索关键词集合中包括的搜索关键词,构造关键词特征向量作为所述行业描述属性关联特征;和/或
对所述搜索关键词集合中包括的搜索关键词进行主题模型聚类,并根据聚类结果得到与各聚类簇分别对应的主题词,并根据所述主题词构造关键词泛化特征向量作为所述行业描述属性关联特征。
3.根据权利要求1所述的方法,其特征在于,根据用户信息数据库,确定与所述用户标识分别对应的至少一类行业描述属性关联数据,包括:
查询轨迹数据库,获取与用户标识匹配的轨迹数据,并根据所述轨迹数据获取与所述用户标识对应的工作常驻点;
根据所述工作常驻点,获取与所述用户标识匹配的公司网格信息,和/或公司周边兴趣点信息作为所述行业描述属性关联数据;
相应的,根据所述行业描述属性关联数据,确定与所述用户标识对应的行业描述属性关联特征,包括:
根据所述公司网格信息,构造地理网格特征向量作为所述行业描述属性关联特征,和/或
根据所述公司周边兴趣点信息进行独热编码,得到公司周边兴趣点分布特征向量作为所述行业描述属性关联特征。
4.根据权利要求1所述的方法,其特征在于,根据用户信息数据库,确定与所述用户标识分别对应的至少一类行业描述属性关联数据,包括:
查询到访兴趣点数据库,获取与所述用户标识匹配的到访兴趣点时序集合作为所述行业描述属性关联数据;
相应的,根据所述行业描述属性关联数据,确定与所述用户标识对应的行业描述属性关联特征,包括:
将所述到访兴趣点时序集合,输入至到访兴趣点向量训练模型中进行无监督训练,并将所述兴趣点到访向量训练模型中的嵌入层特征进行拼接,得到到访兴趣点特征向量作为所述行业描述属性关联特征。
5.一种用户所属行业的确定方法,应用通过权利要求1-4任一项所述的方法所建立的行业确定模型,其特征在于,包括:
根据用户信息数据库,获取与目标用户的目标用户标识对应的至少一类行业描述属性关联数据;
根据所述行业描述属性关联数据,确定与所述目标用户标识对应的行业描述属性关联特征;
将与所述目标用户标识对应的所述行业描述属性关联特征输入至预先训练的所述行业确定模型中,得到与所述目标用户对应的行业信息。
6.一种行业确定模型的建立装置,其特征在于,包括:
样本构造模块,用于获取多个行业样本数据,构造行业样本数据集合,所述行业样本数据包括:用户标识、以及与所述用户标识匹配的行业信息;
数据确定模块,用于根据用户信息数据库,确定与所述用户标识分别对应的至少一类行业描述属性关联数据;
特征对应模块,用于根据所述行业描述属性关联数据,确定与所述用户标识对应的行业描述属性关联特征;
模型训练模块,用于根据与各所述用户标识分别对应的所述行业描述属性关联特征以及行业信息,对标准多分类模型进行训练,得到所述行业确定模型;
其中,样本构造模块,具体包括下述至少一项:
第一样本构造子模块,用于获取至少两个第一备选用户在工作时间内的定位轨迹数据,并根据所述定位轨迹数据,确定各所述第一备选用户的工作常驻点,将各所述工作常驻点与预设公司登记点集合进行匹配,提取工作常驻点命中所述公司登记点集合的第一备选用户构造所述行业样本数据;
第二样本构造子模块,用于获取至少两个第二备选用户的热点连接数据,并根据所述热点连接数据确定与各所述第二备选用户分别对应的连接热点集合,并将各所述连接热点集合与预设的公司标准热点集合进行匹配,提取连接热点集合命中所述公司标准热点集合的第二备选用户构造所述行业样本数据;
第三样本构造子模块,用于获取至少两个第三备选用户在设定时间区间内的应用程序安装列表,并将各所述应用程序安装列表与预设的标准行业应用程序集合进行匹配,提取应用程序安装列表命中标准行业应用程序集合的第三备选用户构造所述行业样本数据。
7.一种用户所属行业的确定装置,应用通过权利要求6所述的装置所建立的行业确定模型,其特征在于,包括:
数据获取模块,用于根据用户信息数据库,获取与目标用户的目标用户标识对应的至少一类行业描述属性关联数据;
特征确定模块,用于根据所述行业描述属性关联数据,确定与所述目标用户标识对应的行业描述属性关联特征;
特征输入模块,用于将与所述目标用户标识对应的所述行业描述属性关联特征输入至预先训练的所述行业确定模型中,得到与所述目标用户对应的行业信息。
8.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的行业确定模型的建立方法,和/或权利要求5中任一所述的用户所属行业的确定方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的行业确定模型的建立方法,和/或权利要求5中任一所述的用户所属行业的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811295904.6A CN111126422B (zh) | 2018-11-01 | 2018-11-01 | 行业模型的建立及行业的确定方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811295904.6A CN111126422B (zh) | 2018-11-01 | 2018-11-01 | 行业模型的建立及行业的确定方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126422A CN111126422A (zh) | 2020-05-08 |
CN111126422B true CN111126422B (zh) | 2023-10-31 |
Family
ID=70494125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811295904.6A Active CN111126422B (zh) | 2018-11-01 | 2018-11-01 | 行业模型的建立及行业的确定方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126422B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015756A (zh) * | 2020-07-08 | 2020-12-01 | 广州乐摇摇信息科技有限公司 | 一种系统模型构建方法及装置 |
CN112765347A (zh) * | 2020-12-31 | 2021-05-07 | 浙江省方大标准信息有限公司 | 强制性标准自动识别方法、系统、装置 |
CN114185880A (zh) * | 2021-12-10 | 2022-03-15 | 北京金堤科技有限公司 | 所属行业数据确定方法及其装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740424A (zh) * | 2016-01-29 | 2016-07-06 | 湖南大学 | 一种基于 Spark 平台的高效率文本分类方法 |
CN106407930A (zh) * | 2016-09-18 | 2017-02-15 | 长沙军鸽软件有限公司 | 一种按摩机器人的服务方法 |
CN107071193A (zh) * | 2016-11-28 | 2017-08-18 | 阿里巴巴集团控股有限公司 | 互动应答系统接入用户的方法和装置 |
CN107908620A (zh) * | 2017-11-15 | 2018-04-13 | 珠海金山网络游戏科技有限公司 | 一种基于工作文档预判用户职业的方法和装置 |
CN107944481A (zh) * | 2017-11-16 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN108171276A (zh) * | 2018-01-17 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN108536800A (zh) * | 2018-04-03 | 2018-09-14 | 有米科技股份有限公司 | 文本分类方法、系统、计算机设备和存储介质 |
CN108648093A (zh) * | 2018-04-23 | 2018-10-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9704130B2 (en) * | 2009-10-26 | 2017-07-11 | International Business Machines Corporation | Standard based mapping of industry vertical model to legacy environments |
US20140122370A1 (en) * | 2012-10-30 | 2014-05-01 | Hewlett-Packard Development Company, L.P. | Systems and methods for model selection |
-
2018
- 2018-11-01 CN CN201811295904.6A patent/CN111126422B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740424A (zh) * | 2016-01-29 | 2016-07-06 | 湖南大学 | 一种基于 Spark 平台的高效率文本分类方法 |
CN106407930A (zh) * | 2016-09-18 | 2017-02-15 | 长沙军鸽软件有限公司 | 一种按摩机器人的服务方法 |
CN107071193A (zh) * | 2016-11-28 | 2017-08-18 | 阿里巴巴集团控股有限公司 | 互动应答系统接入用户的方法和装置 |
CN107908620A (zh) * | 2017-11-15 | 2018-04-13 | 珠海金山网络游戏科技有限公司 | 一种基于工作文档预判用户职业的方法和装置 |
CN107944481A (zh) * | 2017-11-16 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN108171276A (zh) * | 2018-01-17 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN108536800A (zh) * | 2018-04-03 | 2018-09-14 | 有米科技股份有限公司 | 文本分类方法、系统、计算机设备和存储介质 |
CN108648093A (zh) * | 2018-04-23 | 2018-10-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
基于元数据的企业搜索引擎研究;文必龙;李智新;王英艳;;郑州轻工业学院学报(自然科学版);23(第06期);10-12 * |
基于敏捷制造的行业信息网模型与应用研究;郭丽娟,陈云,张红刚;机械设计与制造工程;30(第04期);44-46 * |
Also Published As
Publication number | Publication date |
---|---|
CN111126422A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363449B (zh) | 一种风险识别方法、装置及系统 | |
CN108509569B (zh) | 企业画像的生成方法、装置、电子设备以及存储介质 | |
CN110597962B (zh) | 搜索结果展示方法、装置、介质及电子设备 | |
CN110968654B (zh) | 文本数据的地址类目确定方法、设备以及系统 | |
US20150379087A1 (en) | Apparatus and method for replying to query | |
CN111126422B (zh) | 行业模型的建立及行业的确定方法、装置、设备及介质 | |
CN110765280B (zh) | 地址识别方法和装置 | |
CN107133263A (zh) | Poi推荐方法、装置、设备及计算机可读存储介质 | |
CN111310065A (zh) | 一种社交推荐方法、装置、服务器及存储介质 | |
CN110737820B (zh) | 用于生成事件信息的方法和装置 | |
CN110895587A (zh) | 用于确定目标用户的方法和装置 | |
CN117216393A (zh) | 信息推荐方法、信息推荐模型的训练方法及装置、设备 | |
CN116756281A (zh) | 知识问答方法、装置、设备和介质 | |
CN107169005A (zh) | Poi推荐方法、装置、设备及计算机可读存储介质 | |
CN111831750A (zh) | 一种区块链数据分析方法、装置、计算机设备及存储介质 | |
CN110598122B (zh) | 社交群体挖掘方法、装置、设备及存储介质 | |
CN112861474B (zh) | 一种信息标注方法、装置、设备及计算机可读存储介质 | |
US11714855B2 (en) | Virtual dialog system performance assessment and enrichment | |
CN112417260B (zh) | 本地化推荐方法、装置及存储介质 | |
WO2021151354A1 (zh) | 一种单词识别方法、装置、计算机设备和存储介质 | |
CN114925680A (zh) | 物流兴趣点信息生成方法、装置、设备和计算机可读介质 | |
US11288322B2 (en) | Conversational agents over domain structured knowledge | |
CN111353864B (zh) | 一种产品推荐方法、装置、服务器及存储介质 | |
CN111125272B (zh) | 一种区域特征获取方法、装置、计算机设备及介质 | |
CN110619086B (zh) | 用于处理信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |