CN112528007B - 一种招商项目的目标企业的确认方法及确认装置 - Google Patents

一种招商项目的目标企业的确认方法及确认装置 Download PDF

Info

Publication number
CN112528007B
CN112528007B CN201910885069.XA CN201910885069A CN112528007B CN 112528007 B CN112528007 B CN 112528007B CN 201910885069 A CN201910885069 A CN 201910885069A CN 112528007 B CN112528007 B CN 112528007B
Authority
CN
China
Prior art keywords
enterprise
verification
user
industry
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910885069.XA
Other languages
English (en)
Other versions
CN112528007A (zh
Inventor
袁宁
刘明
袁小东
秦悦展
丁昭祥
陈正国
王志伟
黄永强
谢宜阳
黎正纲
方青青
凌鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CISDI Chongqing Information Technology Co Ltd
Original Assignee
CISDI Chongqing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CISDI Chongqing Information Technology Co Ltd filed Critical CISDI Chongqing Information Technology Co Ltd
Priority to CN201910885069.XA priority Critical patent/CN112528007B/zh
Publication of CN112528007A publication Critical patent/CN112528007A/zh
Application granted granted Critical
Publication of CN112528007B publication Critical patent/CN112528007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的一种招商项目的目标企业的确认方法及确认装置,所述包括确认方法根据用户企业信息获得用户关注企业集;获得数据库企业集;对数据库企业集和所述用户关注企业集进行产业精准推荐第一次推荐处理,以得到关联产业企业集;对所述关联产业企业集和所述用户关注企业集进行行业细分第二次推荐处理,以得到细分企业集;对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集;对所述相似企业集进行评估以得到目标企业集;通过数据采集、产业精准推荐、行业细分、相似企业推荐、精准评估等流程实现对庞大的数据量的企业进行逐级筛选、评估和过滤,得到目标企业集,实现的手段更加智能化,节约了人力成本且提高了结果的准确率。

Description

一种招商项目的目标企业的确认方法及确认装置
技术领域
本发明涉及招商投资领域,特别是涉及一种招商项目的目标企业的确认方法及确认装置。
背景技术
随着计算机技术以及智能信息化的发展,很多领域利用机器智能化处理来替代繁琐的人工处理过程,不仅能够节省人力资源、降低成本,而且能够提高工作的准确率和稳定性。但是,目前在招商引资领域,招商安商主要是通过工作人员进行人工匹配以及筛选,缺乏高效的智能化手段,通过人工匹配筛选:线索挖掘不精准、结果的准确性低等问题,且浪费大量的人力成本。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种招商项目的目标企业的确认方法及确认装置,用于解决招商安商浪费人力、线索挖掘不精准、结果的准确性低等问题。
为实现上述目的及其他相关目的,本发明提供一种招商项目的目标企业的确认方法,包括:根据用户企业信息获得用户关注企业集;调用预先建立的数据库企业集;对所述数据库企业集和所述用户关注企业集进行匹配,以得到相似企业集;对所述相似企业集进行评估以得到目标企业集。
可选的,所述对所述数据库企业集和所述用户关注企业集进行匹配,以得到相似企业集包括:对数据库企业集和所述用户关注企业集进行推荐处理,以得到细分企业集;对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集。
可选的,所述对数据库企业集和所述用户关注企业集进行推荐处理,以得到细分企业集包括:对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集;对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集。
可选的,所述根据用户企业信息获得用户关注企业集包括:获取多个用户企业信息,其中每个所述用户企业信息包括与各个用户企业关联的用户企业文本信息,所述用户企业文本信息包括多维度信息;对所述用户企业文本信息的各个所述维度信息进行分词、去停用词和数据清洗处理,得到各个维度词汇信息;根据预设规则对所述维度词汇信息进行处理得到维度词组信息;根据各个所述维度词汇信息和所述维度词组信息构建词向量空间,得到所述用户企业文本信息的词向量空间;根据权重策略对所述用户企业文本信息的词向量空间进行处理得到用户企业维度特征词和用户企业维度特征词组;对于各个所述用户企业关联的所述用户企业维度特征词和所述用户企业维度特征词组进行一一关联,得到所述用户关注企业集。
可选的,所述招商项目的目标企业确认方法还包括:获得多个行业企业信息,其中每个所述行业企业信息包括与各个行业企业关联的行业企业文本信息,所述行业企业文本信息包括多维度信息;对所述行业企业的各个所述维度信息进行分词、去停用词和数据清洗处理,得到各个维度词汇信息;根据预设规则对所述维度词汇信息进行处理得到维度词组信息;根据各个所述维度词汇信息和所述维度词组信息构建词向量空间,得到所述行业企业文本信息的词向量空间;根据权重策略对所述行业企业文本信息的词向量空间进行处理得到数据库企业维度特征词和数据库企业维度特征词组;对于各个所述行业企业关联的所述数据库企业维度特征词和所述数据库企业维度特征词组进行一一关联,建立数据库企业集。
可选的,所述对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集之前还包括:获取第一企业样本集与第一企业验证集,所述第一企业样本集包括多个第一样本企业、与各个所述第一样本企业一一关联的第一样本企业维度特征词和第一样本维度特征词组、多个第一验证企业、与各个所述第一验证企业一一关联的第一验证企业维度特征词和第一验证维度特征词组;根据所述第一样本企业集训练第一模型;根据所述第一企业验证集对所述第一模型进行验证,若验证通过,建立产业匹配模型。
可选的,所述确认方法还包括:将所述第一验证企业集分成至少一组第一验证企业集第一子集和第一验证企业集第二子集;通过所述第一模型根据所述第一验证子集的第一验证企业维度特征词和第一验证维度特征词组对所述第一验证企业集的第二子集进行相似度计算,得到多个所述第一验证企业集的第二子集与所述第一验证企业集的第一子集相似的第一相似度概率;若所述第一相似度概率大于第一概率阈值的数量大于第一预设数量比,则验证通过,建立产业匹配模型。
可选的,所述对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集包括:通过所述产业匹配模型根据所述用户关注企业集对所述对数据库企业集和所述用户关注企业集进行相似度计算,得到多个所述对数据库企业集与所述用户关注企业集相似的所述第一相似度概率;获得所述数据库企业集中第一相似度概率大于所述第一概率阈值的各个所述数据库企业,以得到所述关联产业企业集。
可选的,所述对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集之前还包括:获取第二企业样本集与第二企业验证集,所述第二企业样本集包括多个第二样本企业、与各个所述第二样本企业一一关联的第二样本企业维度特征词和第二样本维度特征词组、多个第二验证企业、与各个所述第二验证企业一一关联的第二验证企业维度特征词和第二验证维度特征词组;根据所述第二样本企业集训练第二模型;根据所述第二企业验证集对所述第二模型进行验证,若验证通过,建立行业细分模型。
可选的,所述根据所述第二企业验证集对所述第二模型进行验证,若验证通过,建立行业细分模型包括:将所述第二验证企业集分成至少一组第二验证企业集第一子集和第二验证企业集第二子集;通过所述第二模型根据所述第二验证企业维度特征词和所述第二验证维度特征词组对所述第二验证企业集第一子集和所述第二验证企业集第二子集中的第二验证企业进行目标层级分类,得到与各个所述第二验证企业关联的层级编码;根据所述第二验证企业集的所述第二验证企业维度特征词、所述第二验证维度特征词组和所述层级编码对所述第二验证企业集第一子集和所述第二验证企业集第二子集进行相似度计算,得到多个对所述第二验证企业集第一子集与所述第二验证企业集第二子集相似的第二相似度概率;若所述第二相似度概率大于第二概率阈值的数量大于第二预设数量比,则验证通过,建立行业细分模型。
可选的,所述对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集:通过所述行业细分模型对所述用户关注企业集和关联产业企业集进行所述目标层级分类,得到与各个所述用户企业关联的层级编码以及与所述关联产业企业集中的关联产业企业关联的层级编码;根据所述用户关注企业集、所述用户企业关联的层级编码、所述关联产业企业集和所述关联产业企业关联的层级编码对所述用户关注企业集和所述关联产业企业集进行相似度计算,得到多个所述关联产业企业集与所述用户关注企业集相似的所述第二相似度概率;得到所述关联产业企业集中所述第二相似度概率大于所述第二概率阈值的各个所述关联产业企业,以得到所述细分企业集。
可选的,所述目标层级包括国民经济行业分类中的小类。
可选的,所述对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集之前还包括:获取第三企业样本集与第三企业验证集,所述第三企业样本集包括多个第三样本企业、与各个所述第三样本企业一一关联的第三样本企业维度特征词和第三样本维度特征词组、多个第三验证企业、与各个所述第三验证企业一一关联的第三验证企业维度特征词和第三验证维度特征词组;
根据所述第三样本企业集训练第三模型;
根据所述第三企业验证集对所述第三模型进行验证,若验证通过,建立相似企业匹配模型。
可选的,所述根据所述第三企业验证集对所述第三模型进行验证,若验证通过,建立相似企业匹配模型包括:
将所述第三验证企业集分成至少一组第三验证企业集第一子集和第三验证企业集第二子集;
通过所述第三验证企业维度特征词和所述第三验证维度特征词组对所述第三验证企业集第一子集和第三验证企业集第二子集进行相似度计算,得到所述第三验证企业集第二子集与所述第三验证企业集第一子集相似的第三相似度概率;
若所述第三相似度概率大于第三概率阈值的数量大于第三预设数量比,则验证通过,建立相似企业匹配模型。
可选的,所述对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集包括:
通过相似企业匹配模型对所述细分企业集和所述用户关注企业集进行相似度计算,得到多个所述细分企业集与所述用户关注企业集相似的第三相似度概率;
得到所述细分企业集中细分企业的第三相似度概率大于所述第三概率阈值的细分企业,以得到所述相似企业集。
可选的,所述对所述相似企业集进行评估以得到目标企业集包括:
根据所述相似企业集中相似企业的维度特征词、相似企业的维度特征词组和预设招商规则对所述相似企业集中的相似企业进行评估。
可选的,所述预设招商规则包括至少分别对所述相似企业集中的相似企业的注册资金变化、股东人数变化和招聘人数变化进行评分。
可选的,所述用户企业文本信息和所述行业企业文本信息至少包括以下维度信息:
公司名称、公司信息、经营范围、招聘信息、企业的产品信息、知识产权信息、投资情况、涉诉信息、工商信息、税务信息或媒体信息。
本发明还提供一种招商项目的目标企业的确认装置,包括:
采集模块,用于获得多个行业企业信息和用户企业信息;
处理模块,用于对所述用户企业信息进行处理以得到用户关注企业集和对多个所述行业企业信息进行处理以得到数据库企业集;
筛选模块,用于对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集;对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集;对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集;
评估模块,用于对所述相似企业集进行评估以得到目标企业集。
本发明还提供一种设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行上述的方法。
本发明还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行上述的方法。
如上所述,本发明提供的一种招商项目的目标企业的确认方法及确认装置,通过根据用户企业信息获得用户关注企业集;获得数据库企业集;对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集;对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集;对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集;对所述相似企业集进行评估以得到目标企业集;通过数据采集、产业分类、精准行业细分类、相似企业推荐、评估等流程实现对庞大的数据量的企业进行逐级筛选、评估和过滤,实现目标企业匹配得到目标企业集,实现的手段更加智能化,节约了人力成本且提高了结果的准确率。
附图说明
图1为一种招商项目的目标企业的确认方法的流程图。
图2为又一种招商项目的目标企业的确认方法的流程图。
图3为一种招商项目的目标企业的确认装置的结构框图。
图4为一实施例提供的终端设备的硬件结构示意图。
图5为另一实施例提供的终端设备的硬件结构示意图。
元件标号说明
采集模块10、处理模块20、筛选模块30、评估模块40
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1-2,本发明提供一种本发明提供一种招商项目的目标企业的确认方法,包括:
S10:根据用户企业信息获得用户关注企业集;
S20:调用预先建立的数据库企业集;
S30:对所述数据库企业集和所述用户关注企业集进行匹配,以得到相似企业集;
S40:对所述相似企业集进行评估以得到目标企业集。
在某些实施方式中,所述对所述数据库企业集和所述用户关注企业集进行匹配,以得到相似企业集包括:对数据库企业集和所述用户关注企业集进行推荐处理,以得到细分企业集;对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集。
在某些实施方式中,所述对数据库企业集和所述用户关注企业集进行推荐处理,以得到细分企业集包括:
S31:对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集;
S32:对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集。
在某些实施方式中,所述根据用户企业信息获得用户关注企业集包括:
获取多个用户企业信息,其中每个所述用户企业信息包括与各个用户企业关联的用户企业文本信息,所述用户企业文本信息包括多维度信息;
对所述用户企业文本信息的各个所述维度信息进行分词、去停用词和数据清洗处理,得到各个维度词汇信息;
根据预设规则对所述维度词汇信息进行处理得到维度词组信息;
根据各个所述维度词汇信息和所述维度词组信息构建词向量空间,得到所述用户企业文本信息的词向量空间;
根据权重策略对所述用户企业文本信息的词向量空间进行处理得到用户企业维度特征词和用户企业维度特征词组;
对于各个所述用户企业关联的所述用户企业维度特征词和所述用户企业维度特征词组进行一一关联,得到所述用户关注企业集。
可以理解的,用户企业文本信息包括各个用户企业的公司名称、公司信息、经营范围、招聘信息、企业的产品信息、知识产权信息、投资情况、涉诉信息、工商信息、税务信息或媒体信息。
可以理解的,所述用户关注企业集中的用户企业可以包括根据用户浏览企业、收藏企业、取消收藏企业等信息获得的,诸如一家液晶显示器生产厂家,其浏览的企业可能包括玻璃基材制造企业、液晶材料制造企业、印刷电路板制造企业等,如此通过网页爬取的形式可以获得用户企业的相关信息,以便做到个性化的推荐。
可以理解的,用户关注企业集包括多个用户企业信息,每个用户企业信息包括以下维度的信息:企业的公司名称、公司信息、经营范围、招聘信息、企业的产品信息、知识产权信息、投资情况、涉诉信息、工商信息、税务信息或媒体信息等信息,用户关注企业集可以是多个用户企业ID的集合,每个企业ID包括与每个企业一一对应的上述多维度信息。
可以对所述用户企业文本信息的各个所述维度信息进行结巴分词,当结巴分词以后,过滤掉标点符号、连词、助词、副词、介词以及其他停用词,去除文本的噪声信息。同时,根据不同维度信息的特性,及招商的业务特征,对不同维度的信息构建专用的停用词表。例如,在处理企业的经营范围时,几乎每一个企业的经营范围里都会出现类似于“法律、法规、决定规定禁止的不得经营;法律、法规、决定规定应当许可(审批)的,经审批机关批准后凭许可(审批)文件经营;法律、法规、决定规定无需许可(审批)的,市场主体自主选择经营。”这样的内容,为了突出文本独有的特征,可以在停用词表内添加上“法律”、“法规”、“决定”“规定”、“许可”、“审批”、“机关”、“批准”、“文件”、“不得”、“自主”、“选择”等词汇,以过滤掉文本中具有普遍性的词汇,以减少处理数量。
可以理解的,对于基础语料的处理,不同于一般情况进行简单的分词即可。为了使得后面的算法运行结果更加精准。预设规则可以是在基础预料处理阶段可以针对不同的维度特征,做一定的处理。例如:在经营范围方面,经常会出现动词和名词的结合,一般的方法分词后,会将动词和名词分开。但为了突显各个经营范围的特征,可以将动词和名词再次结合起来,作为一个新的词汇语料。此条件下,预设规则即为动名词结合。例如:在茶产业中,常常会出现“茶叶批发”这样的名词和动词的结合,在机械设备批发行业中也常常出现“机械设备批发”这样的词汇组合。一般的分词会将它们分为“茶叶”、“批发”以及“机械”、“设备”、“批发”这样独立的词汇。当分词以后,将名字和动词结合起来,重新构成“茶叶批发”、“机械批发”、“设备批发”这样的新词汇作为基础语料。可以根据不同的项目需求设定预设规则的具体内容,在此不做限制。
在某些实施方式中,可以将预处理好的企业各维度的信息存储在HBase、Mysql当中。这样,后面需要用到哪些企业的哪些维度的信息,便可以直接从数据库中获取,这样省去了前期大量的预处理时间,使得整个计算过程更加高效。
在某些实施方式中,包括:
获得多个行业企业信息,其中每个所述行业企业信息包括与各个行业企业关联的行业企业文本信息,所述行业企业文本信息包括多维度信息;
对所述行业企业的各个所述维度信息进行分词、去停用词和数据清洗处理,得到各个维度词汇信息;
根据预设规则对所述维度词汇信息进行处理得到维度词组信息;
根据各个所述维度词汇信息和所述维度词组信息构建词向量空间,得到所述行业企业文本信息的词向量空间;
根据权重策略对所述行业企业文本信息的词向量空间进行处理得到数据库企业维度特征词和数据库企业维度特征词组;
对于各个所述行业企业关联的所述数据库企业维度特征词和所述数据库企业维度特征词组进行一一关联,建立数据库企业集。
在某些实施方式中,可以运用TF-IDF权重策略,计算各个用户企业、行业企业、样本企业等的各维度的TF-IDF权值,并持久化为词袋。
可以理解的,数据库企业集中的企业数量可以是数千万量级,如此为精准产业分类为热门产业发展、上下游产业链协作与联动等提供坚实的基础
可以理解的,数据库企业集中包括多个企业ID,每个企业ID关联企业的公司名称、公司信息、经营范围、招聘信息、企业的产品信息、知识产权信息、投资情况、涉诉信息、工商信息、税务信息或媒体信息等信息,数据库企业集可以是多个企业ID的集合,每个企业ID包括与每个企业一一对应的上述多维度信息。可以理解的,本发明的企业集可以是指企业ID的集合。
在某些实施方式中,数据库企业集可以存储在存储器中,如此在进行处理时可以直接调用存储器中的内容。
在某些实施方式中,所述对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集之前还包括:
获取第一企业样本集与第一企业验证集,所述第一企业样本集包括多个第一样本企业、与各个所述第一样本企业一一关联的第一样本企业维度特征词和第一样本维度特征词组、多个第一验证企业、与各个所述第一验证企业一一关联的第一验证企业维度特征词和第一验证维度特征词组;
根据所述第一样本企业集训练第一模型;
根据所述第一企业验证集对所述第一模型进行验证,若验证通过,建立产业匹配模型。
在某些实施方式中,将所述第一验证企业集分成至少一组第一验证企业集第一子集和第一验证企业集第二子集;
通过所述第一模型根据所述第一验证子集的第一验证企业维度特征词和第一验证维度特征词组对所述第一验证企业集的第二子集进行相似度计算,得到多个所述第一验证企业集的第二子集与所述第一验证企业集的第一子集相似的第一相似度概率;
若所述第一相似度概率大于第一概率阈值的数量大于第一预设数量比,则验证通过,建立产业匹配模型。
可以理解的,所述第一概率阈值可以是大于85%的区间,第一预设数量比可以是大于85%的区间,在此不做限定,可以理解,当第一概率阈值大于85%的数量超过总数量的85%,则产业匹配模型模建立。在验证的过程中,第一验证企业集的第二子集的数量可以远大于第一验证企业集的第一子集相似的第一相似度概率,诸如第一验证企业集的第二子集的数量可以是1000个,第一验证企业集的第一子集的数量可以是20个,在此不做限定。
在某些实施方式中,所述对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集包括:
通过所述产业匹配模型根据所述用户关注企业集对所述对数据库企业集和所述用户关注企业集进行相似度计算,得到多个所述对数据库企业集与所述用户关注企业集相似的所述第一相似度概率;
获得所述数据库企业集中第一相似度概率大于所述第一概率阈值的各个所述数据库企业,以得到所述关联产业企业集。
可以理解的,所述产业匹配模型可以选定公司名称、公司信息、经营范围、招聘信息此三个维度的信息作为计算基准,来计算数据库企业集中各个企业与用户关注企业集中各个企业的相似度,所述第一概率阈值可以是大于85%的区间。可以理解,所述关联产业企业集是数据库企业集中各个企业与用户企业的相似度大于85%的企业的集合,通过对数据库企业集和所述用户关注企业集进行推荐处理,从数据库企业中得到了更小数据量的关联产业企业集。
本发明的产业匹配模型可以使用Scikit-Learn库中的算法模块进行推荐处理,主要用到朴素贝叶斯(Naive Bayes)和随机森林(Random Frorest)模型进行机器监督算法模型。例如最简单的朴素贝叶斯算法模型,它认为词袋中的各词之间的关系是相互独立的,即对象的特征向量中每个维度是相互独立的。它的推导公式如下所示:
Figure GDA0002291035060000101
其中,y为类变量,即为产业,可以是国民经济分类中的大类;x1到xn为独立影响因子,x即为待分类的测试企业集或样本集,其中每一个元素即为每一个企业。我们需要构造分类器,将待分类的企业分到各产业中。
通过独立原则假定:
P(xi|y,x1,x2,...xi-1,xi+1,...xn)=P(xi|y)    (公式2)
这个关系可以简化为:
Figure GDA0002291035060000102
由于P(x1,...,xn)通常是由输入的第一样本企业集中的中的各个训练子集和测试子集决定,可以理解的,从训练子集中选出与测试子集匹配度或者相似度较高的企业集以实现对训练子集的分类,我们可以变化公式如下:
Figure GDA0002291035060000103
由公式(5)可以看出,朴素贝叶斯的分类主要取决于P(xi|y)的值,即每个企业属于各个产业的概率大小。
朴素贝叶斯算法是较为简单的分类算法模型,基于它有一些变种模型,例如:高斯朴素贝叶斯算法(Gaussian Navie Bayes);本发明的的产业匹配模型可以使用朴素贝叶斯分类器或随机森林分类算法,在此不做限定。
在某些实施方式中,可以采用随机森林分类算法对数据库企业集和所述用户关注企业集进行推荐处理;如此随机森林分类算法训练过程并行化高,对于上亿级的企业数量来说,对大样本的训练速度更有优势;由于可以随机选择决策树节点划分特征,这样在样本维度很高时,仍能高效地训练模型;训练出的模型方差小,泛化能力强;由于有些数据维度的信息有所确实,随机森林算法正好对部分特征确实不敏感。
在某些实施方式中,所述对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集之前还包括:
获取第二企业样本集与第二企业验证集,所述第二企业样本集包括多个第二样本企业、与各个所述第二样本企业一一关联的第二样本企业维度特征词和第二样本维度特征词组、多个第二验证企业、与各个所述第二验证企业一一关联的第二验证企业维度特征词和第二验证维度特征词组;
根据所述第二样本企业集训练第二模型;
根据所述第二企业验证集对所述第二模型进行验证,若验证通过,建立行业细分模型。
在某些实施方式中,所述根据所述第二企业验证集对所述第二模型进行验证,若验证通过,建立行业细分模型包括:
将所述第二验证企业集分成至少一组第二验证企业集第一子集和第二验证企业集第二子集;
通过所述第二模型根据所述第二验证企业维度特征词和所述第二验证维度特征词组对所述第二验证企业集第一子集和所述第二验证企业集第二子集中的第二验证企业进行目标层级分类,得到与各个所述第二验证企业关联的层级编码;
根据所述第二验证企业集的所述第二验证企业维度特征词、所述第二验证维度特征词组和所述层级编码对所述第二验证企业集第一子集和所述第二验证企业集第二子集进行相似度计算,得到多个对所述第二验证企业集第一子集与所述第二验证企业集第二子集相似的第二相似度概率;
若所述第二相似度概率大于第二概率阈值的数量大于第二预设数量比,则验证通过,建立行业细分模型。
在某些实施方式中行业细分模型可以与产业匹配模型选择相同的分类算法,在此不做限定。
在某些实施方式中,所述对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集:
通过所述行业细分模型对所述用户关注企业集和关联产业企业集进行所述目标层级分类,得到与各个所述用户企业关联的层级编码以及与所述关联产业企业集中的关联产业企业关联的层级编码;
根据所述用户关注企业集、所述用户企业关联的层级编码、所述关联产业企业集和所述关联产业企业关联的层级编码对所述用户关注企业集和所述关联产业企业集进行相似度计算,得到多个所述关联产业企业集与所述用户关注企业集相似的所述第二相似度概率;得到所述关联产业企业集中所述第二相似度概率大于所述第二概率阈值的各个所述关联产业企业,以得到所述细分企业集。
在某些实施方式中,可以按照国家统计局的国民经济行业分类标准记进行分类,国民经济分类中包括门类、大类、种类和小类四个层级,所述目标层级包括国民经济行业分类中的小类,如此行业细分可以更加精确。
可以理解的,所述第二概率阈值可以是大于85%的区间,第二预设数量比可以是大于85%的区间,在此不做限定,可以理解,当第二概率阈值大于85%的数量超过总数量的85%,则产业匹配模型模建立。在验证的过程中,第二验证企业集的第二子集的数量可以远小于第二验证企业集的第一子集相似的第二相似度概率,诸如第二验证企业集的第二子集的数量可以是10个,第二验证企业集的第一子集的数量可以是500个,第二验证企业集的第一子集的第二相似度概率大于85%的数量超过第二验证企业集的第一子集的总数量的85%即超过425个,即行业细分模型建立成功,在实际应用过程中,验证集与样本集的数量用户可以自行进行选择,在此不做限定。
可以理解的,所述行业细分模型可以选定企业的产品信息、知识产权信息和与企业关联的层级编码作为计算基准,来计算细分企业集中各个企业与用户关注企业集中各个企业的相似度,所述第二概率阈值可以是大于85%的区间。可以理解,所述细分企业集是关联产业企业集中各个企业与用户企业的相似度大于85%的企业的集合,通过对关联产业企业集和所述用户关注企业集进行推荐处理,从关联产业企业集中得到了更小数据量的细分企业集。
在某些实施方式中,步骤S33:所述对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集,之前还包括:获取第三企业样本集与第三企业验证集,所述第三企业样本集包括多个第三样本企业、与各个所述第三样本企业一一关联的第三样本企业维度特征词和第三样本维度特征词组、多个第三验证企业、与各个所述第三验证企业一一关联的第三验证企业维度特征词和第三验证维度特征词组;根据所述第三样本企业集训练第三模型;根据所述第三企业验证集对所述第三模型进行验证,若验证通过,建立相似企业匹配模型。
在某些实施方式中,所述根据所述第三企业验证集对所述第三模型进行验证,若验证通过,建立相似企业匹配模型包括:
将所述第三验证企业集分成至少一组第三验证企业集第一子集和第三验证企业集第二子集;
通过所述第三验证企业维度特征词和所述第三验证维度特征词组对所述第三验证企业集第一子集和第三验证企业集第二子集进行相似度计算,得到所述第三验证企业集第二子集与所述第三验证企业集第一子集相似的第三相似度概率;
若所述第三相似度概率大于第三概率阈值的数量大于第三预设数量比,则验证通过,建立相似企业匹配模型。
在某些实施方式中,所述对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集包括:
通过相似企业匹配模型对所述细分企业集和所述用户关注企业集进行相似度计算,得到多个所述细分企业集与所述用户关注企业集相似的第三相似度概率;
得到所述细分企业集中细分企业的第三相似度概率大于所述第三概率阈值的细分企业,以得到所述相似企业集。
可以理解的,所述第三概率阈值可以是大于85%的区间,第三预设数量比可以是大于85%的区间,在此不做限定,可以理解,当第三概率阈值大于85%的数量超过总数量的85%,则产业匹配模型模建立。在验证的过程中,第三验证企业集的第二子集的数量可以远小于第三验证企业集的第一子集相似的第二相似度概率,诸如第三验证企业集的第二子集的数量可以是600个,第三验证企业集的第一子集的数量可以是20个,第三验证企业集的第二子集与第三验证企业集的第一子集相似的第二相似度概率大于85%的数量超过第二验证企业集的第二子集的总数量的85%,即相似企业匹配模型建立成功,在实际应用过程中,验证集与样本集的数量用户可以自行进行选择,在此不做限定。
可以理解的,所述相似企业匹配模型可以选定经营范围、招聘信息和企业的产品信息作为计算基准,来计算细分企业集中各个企业与用户关注企业集中各个企业的相似度,所述第二概率阈值可以是大于85%的区间。可以理解,所述相似企业集是细分企业集中各个企业与用户企业的相似度大于85%的企业的集合,通过对细分企业集和所述用户关注企业集进行相似度计算,从细分企业集中得到了更小数据量的相似企业集。
本发明将细分企业集的细分行业类别即层级编码作为测试企业集,然后将细分企业集中各企业的各维度视为测试文本,运用潜在语义分析(LSI)算法,计算它们与用户关注企业集的相似度。LSI是基于奇异值分解(SVD)的方法来得到文本的主题,对于SVD来说,m×n的矩阵A可以分解为三个矩阵:
Figure GDA0002291035060000141
有时可以降低矩阵的维度到k,SVD的分解可以近似地写成:
Figure GDA0002291035060000142
对于如上的公式,我们可以理解为:对于测试企业集的某一个维度,有m家企业,这个维度的n个词。而Aij则对应第i家企业的第j个词的特征值,通常基于预处理后的标准化TF-IDF值。k是指目标企业所在的类别数。经过SVD分解后:Uil对应第i家企业和第l个类别的相关度,Vjm对应第j个词和第m个词义的相关度。∑lm对应第l个类别和第m个词义的相关度。
本发明通过用户关注企业集、和它相似度很高的已知的细分企业集,然后进行拟合计算。大量数据的拟合便可以得到各个维度的影响因子所占的权重。然后结合通过LSI算法模型计算出的各维度的相似度,乘以其对应的权重值,计算出综合相关性。
在某些实施方式中,所述对所述相似企业集进行评估以得到目标企业集包括:
根据所述相似企业集中相似企业的维度特征词、相似企业的维度特征词组和预设招商规则对所述相似企业集中的相似企业进行评估。
在某些实施方式中,所述预设招商规则包括至少分别对所述相似企业集中的相似企业的注册资金变化、股东人数变化和招聘人数变化进行评分。
在某些实施方式中,招商规则可以选择多个维度的信息进行分级并设置等级和评分机制,以一个维度的信息为例进行说明,可以对公司信息中的注册资金分成多个四个等级:0—500万元为第一等级,对应评分为5分:500—2000万元为第二等级,对应评分为7分;2000万元以上为第三等级,对应评分为10分;还可以对股东人数变化设置等级和评分机制,对招聘信息中的招聘人数变化设置等级和评分机制;可以理解的用户可以根据不同的需求设定不同的招商规则,在此不做限定。
在某些实施方式中,用户可以对企业的注册资金、专利数量、融资轮数、过往投资经验、招聘等方面进行综合评分,从而评估企业的投资实力,感知企业的投资意愿,进而为用户进行潜在目标企业的精准推荐。对于企业投资实力的评估主要基于一些静态维度的指标评估,例如企业的注册资金、企业性质、当前的员工人数、专利数、产品数等维度。通过从产业经济学角度评估每个维度中的各个状态对企业实力的影响确定一个评分值,综合调整以后,确定一个最终的得分,以此作为衡量企业的投资实力的重要指标。
在对投资意愿进行感知时,不同于投资实力的评估。投资意愿感知模型有一个重要的预测环节,即:根据企业过往的活动过程和状态,对企业是否对项目进行投资进行预测。那么,便要基于样本企业过往的数据进行拟合。对于样本企业的过往数据,可以设定一个观察点,用于界定样本数据的观察期和表现期。对于企业投资意愿感知模型而言,观察期内企业的经营情况为X,表现期内企业的投资情况为Y,拟合出X与Y的关系。这些调整可以综合地进行评估分值的调整,影响评估最终得分。
在某些实施方式中,所述用户企业文本信息和所述行业企业文本信息至少包括以下维度信息:
公司名称、公司信息、经营范围、招聘信息、企业的产品信息、知识产权信息、投资情况、涉诉信息、工商信息、税务信息或媒体信息。
在某些实施方式中,各个模型可以运用潜在语义分析来计算各个维度的相似度,并拟合出各维度的权重,进而计算出输入的用户关注企业集与输入的其他企业集的与综合相关性。
以相似企业匹配模型为例,
请参阅图3,本发明还提供一种招商项目的目标企业的确认装置,包括:
采集模块10,用于获得多个行业企业信息和用户企业信息;
处理模块20,用于对所述用户企业信息进行处理以得到用户关注企业集和对多个所述行业企业信息进行处理以得到数据库企业集;
筛选模块30,用于对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集;对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集;对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集;
评估模块40,用于对所述相似企业集进行评估以得到目标企业集。
本发明招商项目的目标企业的确认装置的实施例以及相关效果可以参照本发明的招商项目的目标企业的确认方法的相关内容,此处不再赘述。
本发明还提供一种设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行上述的方法。
本发明还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行上述的方法。
如上所述,本发明提供的一种招商项目的目标企业的确认方法及确认装置,通过根据用户企业信息获得用户关注企业集;获得数据库企业集;对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集;对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集;对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集;对所述相似企业集进行评估以得到目标企业集;通过数据采集、产业分类、精准行业细分类、相似企业推荐、评估等流程实现对庞大的数据量的企业进行逐级筛选、评估和过滤,实现目标企业匹配得到目标企业集,实现的手段更加智能化,节约了人力成本且提高了结果的准确率。
在本实施例中,该数据处理设备执行上述系统或方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。
本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中方法所包含步骤的指令(instructions)。
图4为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、得到设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
在某些实施方式中,上述第一处理器1101例如可以为中央处理器(CentralProcessing Unit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和得到设备1102。
在某些实施方式中,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。在某些实施方式中,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);在某些实施方式中,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);在某些实施方式中,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;得到设备1102可以包括显示器、音响等得到设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图5为本申请的一个实施例提供的终端设备的硬件结构示意图。图5是对图4在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1或图2所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/得到接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述数据处理方法中的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个得到接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
语音组件1206被配置为得到和/或输入语音信号。例如,语音组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于得到语音信号。
输入/得到接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图5实施例中所涉及的通信组件1203、语音组件1206以及输入/得到接口1207、传感器组件1208均可以作为图4实施例中的输入设备的实现方式。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (19)

1.一种招商项目的目标企业的确认方法,其特征在于,包括:
根据用户企业信息获得用户关注企业集;
调用预先建立的数据库企业集;
对所述数据库企业集和所述用户关注企业集进行匹配,以得到相似企业集;
其中,对所述数据库企业集和所述用户关注企业集进行匹配包括,获取第一企业样本集与第一企业验证集;
根据所述第一企业样本集训练第一模型,根据所述第一企业验证集对所述第一模型进行验证,若验证通过,建立产业匹配模型,并通过所述产业匹配模型根据所述用户关注企业集对所述数据库企业集和所述用户关注企业集得到关联产业企业集;
获取第二企业样本集与第二企业验证集;
根据所述第二企业样本集训练第二模型;
根据所述第二企业验证集对所述第二模型进行验证,若验证通过,建立行业细分模型,并通过所述行业细分模型根据所述用户关注企业集和关联产业企业集得到细分企业集;
其中,根据所述第二企业验证集对所述第二模型进行验证,若验证通过,建立行业细分模型包括,将所述第二企业验证集分成至少一组第二企业验证集第一子集和第二企业验证集第二子集;
通过所述第二模型根据第二验证企业维度特征词和第二验证维度特征词组对所述第二企业验证集第一子集和所述第二企业验证集第二子集中的第二验证企业进行目标层级分类,得到与各个所述第二验证企业关联的层级编码;
根据所述第二企业验证集的所述第二验证企业维度特征词、所述第二验证维度特征词组和所述层级编码对所述第二企业验证集第一子集和所述第二企业验证集第二子集进行相似度计算,得到多个对所述第二企业验证集第一子集与所述第二企业验证集第二子集相似的第二相似度概率;
若所述第二相似度概率大于第二概率阈值的数量大于第二预设数量比,则验证通过,建立行业细分模型;
获取第三企业样本集与第三企业验证集;
根据所述第三企业样本集训练第三模型;
根据所述第三企业验证集对所述第三模型进行验证,若验证通过,建立相似企业匹配模型,并通过所述相似企业匹配模型根据所述细分企业集和所述用户关注企业集得到相似企业集,所述相似企业匹配模型选定经营范围、招聘信息和企业的产品信息作为计算基准,以计算细分企业集中各个企业与用户关注企业集中各个企业的相似度;
根据所述相似企业集中相似企业的维度特征词、相似企业的维度特征词组和预设招商规则对所述相似企业集中的相似企业进行评估,以得到目标企业集。
2.根据权利要求1所述的一种招商项目的目标企业的确认方法,其特征在于,所述对所述数据库企业集和所述用户关注企业集进行匹配,以得到相似企业集包括:
对数据库企业集和所述用户关注企业集进行推荐处理,以得到细分企业集;
对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集。
3.根据权利要求2所述的一种招商项目的目标企业的确认方法,其特征在于,所述对数据库企业集和所述用户关注企业集进行推荐处理,以得到细分企业集包括:
对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集;
对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集。
4.根据权利要求1所述的一种招商项目的目标企业的确认方法,其特征在于,所述根据用户企业信息获得用户关注企业集包括:
获取多个用户企业信息,其中每个所述用户企业信息包括与各个用户企业关联的用户企业文本信息,所述用户企业文本信息包括多维度信息;
对所述用户企业文本信息的各个所述维度信息进行分词、去停用词和数据清洗处理,得到各个维度词汇信息;
根据预设规则对所述维度词汇信息进行处理得到维度词组信息;
根据各个所述维度词汇信息和所述维度词组信息构建词向量空间,得到所述用户企业文本信息的词向量空间;
根据权重策略对所述用户企业文本信息的词向量空间进行处理得到用户企业维度特征词和用户企业维度特征词组;
对于各个所述用户企业关联的所述用户企业维度特征词和所述用户企业维度特征词组进行一一关联,得到所述用户关注企业集。
5.根据权利要求4所述的一种招商项目的目标企业的确认方法,其特征在于,包括:
获得多个行业企业信息,其中每个所述行业企业信息包括与各个行业企业关联的行业企业文本信息,所述行业企业文本信息包括多维度信息;
对所述行业企业的各个所述维度信息进行分词、去停用词和数据清洗处理,得到各个维度词汇信息;
根据预设规则对所述维度词汇信息进行处理得到维度词组信息;
根据各个所述维度词汇信息和所述维度词组信息构建词向量空间,得到所述行业企业文本信息的词向量空间;
根据权重策略对所述行业企业文本信息的词向量空间进行处理得到数据库企业维度特征词和数据库企业维度特征词组;
对于各个所述行业企业关联的所述数据库企业维度特征词和所述数据库企业维度特征词组进行一一关联,建立数据库企业集。
6.根据权利要求3所述的一种招商项目的目标企业的确认方法,其特征在于,所述对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集之前还包括:
获取第一企业样本集与第一企业验证集,所述第一企业样本集包括多个第一样本企业、与各个所述第一样本企业一一关联的第一样本企业维度特征词和第一样本维度特征词组、多个第一验证企业、与各个所述第一验证企业一一关联的第一验证企业维度特征词和第一验证维度特征词组;
根据所述第一企业样本集训练第一模型;
根据所述第一企业验证集对所述第一模型进行验证,若验证通过,建立产业匹配模型。
7.根据权利要求6所述的一种招商项目的目标企业的确认方法,其特征在于,将所述第一企业验证集分成至少一组第一企业验证集第一子集和第一企业验证集第二子集;
通过所述第一模型根据所述第一企业验证集第一子集的第一验证企业维度特征词和第一验证维度特征词组对所述第一企业验证集第二子集进行相似度计算,得到多个所述第一企业验证集第二子集与所述第一企业验证集第一子集相似的第一相似度概率;
若所述第一相似度概率大于第一概率阈值的数量大于第一预设数量比,则验证通过,建立产业匹配模型。
8.根据权利要求7所述的一种招商项目的目标企业的确认方法,其特征在于,所述对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集包括:
通过所述产业匹配模型根据所述用户关注企业集对所述对数据库企业集和所述用户关注企业集进行相似度计算,得到多个所述对数据库企业集与所述用户关注企业集相似的所述第一相似度概率;
获得所述数据库企业集中第一相似度概率大于所述第一概率阈值的各个所述数据库企业,以得到所述关联产业企业集。
9.根据权利要求3所述的一种招商项目的目标企业的确认方法,其特征在于,所述对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集之前还包括
获取第二企业样本集与第二企业验证集,所述第二企业样本集包括多个第二样本企业、与各个所述第二样本企业一一关联的第二样本企业维度特征词和第二样本维度特征词组、多个第二验证企业、与各个所述第二验证企业一一关联的第二验证企业维度特征词和第二验证维度特征词组;
根据所述第二企业样本集训练第二模型;
根据所述第二企业验证集对所述第二模型进行验证,若验证通过,建立行业细分模型。
10.根据权利要求3所述的一种招商项目的目标企业的确认方法,其特征在于,所述对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集:
通过所述行业细分模型对所述用户关注企业集和关联产业企业集进行所述目标层级分类,得到与各个所述用户企业关联的层级编码以及与所述关联产业企业集中的关联产业企业关联的层级编码;
根据所述用户关注企业集、所述用户企业关联的层级编码、所述关联产业企业集和所述关联产业企业关联的层级编码对所述用户关注企业集和所述关联产业企业集进行相似度计算,得到多个所述关联产业企业集与所述用户关注企业集相似的所述第二相似度概率;得到所述关联产业企业集中所述第二相似度概率大于所述第二概率阈值的各个所述关联产业企业,以得到所述细分企业集。
11.根据权利要求10所述的一种招商项目的目标企业的确认方法,其特征在于,所述目标层级包括国民经济行业分类中的小类。
12.根据权利要求11所述的一种招商项目的目标企业的确认方法,其特征在于,所述对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集之前还包括:获取第三企业样本集与第三企业验证集,所述第三企业样本集包括多个第三样本企业、与各个所述第三样本企业一一关联的第三样本企业维度特征词和第三样本维度特征词组、多个第三验证企业、与各个所述第三验证企业一一关联的第三验证企业维度特征词和第三验证维度特征词组;
根据所述第三企业样本集训练第三模型;
根据所述第三企业验证集对所述第三模型进行验证,若验证通过,建立相似企业匹配模型。
13.根据权利要求12所述的一种招商项目的目标企业的确认方法,其特征在于,所述根据所述第三企业验证集对所述第三模型进行验证,若验证通过,建立相似企业匹配模型包括:
将所述第三企业验证集分成至少一组第三企业验证集第一子集和第三企业验证集第二子集;
通过所述第三验证企业维度特征词和所述第三验证维度特征词组对所述第三企业验证集第一子集和第三企业验证集第二子集进行相似度计算,得到所述第三企业验证集第二子集与所述第三企业验证集第一子集相似的第三相似度概率;
若所述第三相似度概率大于第三概率阈值的数量大于第三预设数量比,则验证通过,建立相似企业匹配模型。
14.根据权利要求13所述的一种招商项目的目标企业的确认方法,其特征在于,所述对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集包括:
通过所述相似企业匹配模型对所述细分企业集和所述用户关注企业集进行相似度计算,得到多个所述细分企业集与所述用户关注企业集相似的第三相似度概率;
得到所述细分企业集中细分企业的第三相似度概率大于所述第三概率阈值的细分企业,以得到所述相似企业集。
15.根据权利要求1所述的一种招商项目的目标企业的确认方法,其特征在于,所述预设招商规则包括至少分别对所述相似企业集中的相似企业的注册资金变化、股东人数变化和招聘人数变化进行评分。
16.根据权利要求5所述的一种招商项目的目标企业的确认方法,其特征在于,所述用户企业文本信息和所述行业企业文本信息至少包括以下维度信息:
公司名称、公司信息、经营范围、招聘信息、企业的产品信息、知识产权信息、投资情况、涉诉信息、工商信息、税务信息或媒体信息。
17.一种招商项目的目标企业的确认装置,其特征在于,包括:
采集模块,用于获得多个行业企业信息和用户企业信息;
处理模块,用于对所述用户企业信息进行处理以得到用户关注企业集和对多个所述行业企业信息进行处理以得到数据库企业集;
筛选模块,用于对数据库企业集和所述用户关注企业集进行第一次推荐处理,以得到关联产业企业集;对所述关联产业企业集和所述用户关注企业集进行第二次推荐处理,以得到细分企业集;对所述细分企业集和所述用户关注企业集进行相似度计算得到相似企业集;
其中,对所述数据库企业集和所述用户关注企业集进行匹配包括,获取第一企业样本集与第一企业验证集;
根据所述第一企业样本集训练第一模型,根据所述第一企业验证集对所述第一模型进行验证,若验证通过,建立产业匹配模型,并通过所述产业匹配模型根据所述用户关注企业集对所述数据库企业集和所述用户关注企业集得到所述产业企业集;
获取第二企业样本集与第二企业验证集;
根据所述第二企业样本集训练第二模型;
根据所述第二企业验证集对所述第二模型进行验证,若验证通过,建立行业细分模型,并通过所述行业细分模型根据所述用户关注企业集和关联产业企业集得到细分企业集;
其中,所述根据所述第二企业验证集对所述第二模型进行验证,若验证通过,建立行业细分模型包括,将所述第二企业验证集分成至少一组第二企业验证集第一子集和第二企业验证集第二子集;
通过所述第二模型根据第二验证企业维度特征词和第二验证维度特征词组对所述第二企业验证集第一子集和所述第二企业验证集第二子集中的第二验证企业进行目标层级分类,得到与各个所述第二验证企业关联的层级编码;
根据所述第二企业验证集的所述第二验证企业维度特征词、所述第二验证维度特征词组和所述层级编码对所述第二企业验证集第一子集和所述第二企业验证集第二子集进行相似度计算,得到多个对所述第二企业验证集第一子集与所述第二企业验证集第二子集相似的第二相似度概率;
若所述第二相似度概率大于第二概率阈值的数量大于第二预设数量比,则验证通过,建立行业细分模型;
获取第三企业样本集与第三企业验证集;
根据所述第三企业样本集训练第三模型;
根据所述第三企业验证集对所述第三模型进行验证,若验证通过,建立相似企业匹配模型,并通过所述相似企业匹配模型根据所述细分企业集和所述用户关注企业集得到相似企业集,所述相似企业匹配模型选定经营范围、招聘信息和企业的产品信息作为计算基准,以计算细分企业集中各个企业与用户关注企业集中各个企业的相似度;
评估模块,用于根据所述相似企业集中相似企业的维度特征词、相似企业的维度特征词组和预设招商规则对所述相似企业集中的相似企业进行评估,以得到目标企业集。
18.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-16中一个或多个所述的方法。
19.一种机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-16中一个或多个所述的方法。
CN201910885069.XA 2019-09-19 2019-09-19 一种招商项目的目标企业的确认方法及确认装置 Active CN112528007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910885069.XA CN112528007B (zh) 2019-09-19 2019-09-19 一种招商项目的目标企业的确认方法及确认装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910885069.XA CN112528007B (zh) 2019-09-19 2019-09-19 一种招商项目的目标企业的确认方法及确认装置

Publications (2)

Publication Number Publication Date
CN112528007A CN112528007A (zh) 2021-03-19
CN112528007B true CN112528007B (zh) 2023-04-07

Family

ID=74975329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910885069.XA Active CN112528007B (zh) 2019-09-19 2019-09-19 一种招商项目的目标企业的确认方法及确认装置

Country Status (1)

Country Link
CN (1) CN112528007B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342904B (zh) * 2021-04-01 2021-12-24 山东省人工智能研究院 一种基于企业特征传播的企业服务推荐方法
CN114741606A (zh) * 2022-04-27 2022-07-12 盐城金堤科技有限公司 企业推荐方法、装置、计算机可读介质及电子设备
CN114926222B (zh) * 2022-06-06 2024-05-10 山东浪潮爱购云链信息科技有限公司 一种核心企业的推广方法、设备及介质
CN116127009A (zh) * 2022-11-17 2023-05-16 上海倍通医药科技咨询有限公司 一种企业信息匹配系统及方法
CN116668106B (zh) * 2023-05-22 2024-01-09 山东鼎夏智能科技有限公司 一种威胁情报处理系统以及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105761122A (zh) * 2016-04-29 2016-07-13 山东大学 一种融合制造商相似度的产品推荐方法及装置
CN109558541A (zh) * 2018-11-30 2019-04-02 北京百悟科技有限公司 一种信息处理的方法、装置及计算机存储介质
CN110020191A (zh) * 2018-07-19 2019-07-16 平安科技(深圳)有限公司 电子装置、招商引资的目标对象确定方法及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7373399B2 (en) * 2002-05-09 2008-05-13 Hewlett-Packard Development Company, L.P. System and method for an enterprise-to-enterprise compare within a utility data center (UDC)
RU2632132C1 (ru) * 2016-07-07 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и устройство для создания рекомендаций содержимого в системе рекомендаций
WO2018040069A1 (zh) * 2016-09-02 2018-03-08 浙江核新同花顺网络信息股份有限公司 信息推荐系统及方法
CN107368564A (zh) * 2017-07-10 2017-11-21 微家实业(上海)有限公司 一种企业推广系统及方法
CN108427695A (zh) * 2017-08-04 2018-08-21 平安科技(深圳)有限公司 企业推荐方法及应用服务器
CN109242514A (zh) * 2018-08-28 2019-01-18 腾讯科技(深圳)有限公司 客户标签推荐方法、装置和系统
CN109299362B (zh) * 2018-09-21 2023-04-14 平安科技(深圳)有限公司 相似企业推荐方法、装置、计算机设备及存储介质
CN110119466A (zh) * 2019-03-29 2019-08-13 五渡(杭州)科技有限责任公司 一种大数据智能营销系统及其方法
CN110110171A (zh) * 2019-05-09 2019-08-09 上海泰豪迈能能源科技有限公司 企业信息搜索方法、装置及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105761122A (zh) * 2016-04-29 2016-07-13 山东大学 一种融合制造商相似度的产品推荐方法及装置
CN110020191A (zh) * 2018-07-19 2019-07-16 平安科技(深圳)有限公司 电子装置、招商引资的目标对象确定方法及存储介质
CN109558541A (zh) * 2018-11-30 2019-04-02 北京百悟科技有限公司 一种信息处理的方法、装置及计算机存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Anuradha Bhamidipaty 等.Cognitive company discovery.《RecSys "18: Proceedings of the 12th ACM Conference on Recommender Systems》.2018,508-509. *
弓月.电子商务推荐系统的设计与实现.《中国优秀硕士学位论文全文数据库 信息科技辑》.2016,I138-7687. *

Also Published As

Publication number Publication date
CN112528007A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112528007B (zh) 一种招商项目的目标企业的确认方法及确认装置
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
Gupta et al. Study of Twitter sentiment analysis using machine learning algorithms on Python
Gu et al. " what parts of your apps are loved by users?"(T)
US20220343250A1 (en) Multi-service business platform system having custom workflow actions systems and methods
Aivazoglou et al. A fine-grained social network recommender system
Chen et al. AR-miner: mining informative reviews for developers from mobile app marketplace
CN104573054B (zh) 一种信息推送方法和设备
US8676730B2 (en) Sentiment classifiers based on feature extraction
Aisopos et al. Sentiment analysis of social media content using n-gram graphs
Atoum A novel framework for measuring software quality-in-use based on semantic similarity and sentiment analysis of software reviews
CN109325121B (zh) 用于确定文本的关键词的方法和装置
Antonyuk et al. Medical news aggregation and ranking of taking into account the user needs
Jha et al. Reputation systems: Evaluating reputation among all good sellers
Liu et al. Supporting features updating of apps by analyzing similar products in App stores
Wei et al. Online education recommendation model based on user behavior data analysis
Araújo et al. Tensorcast: forecasting time-evolving networks with contextual information
Shou et al. Predictions on usefulness and popularity of online reviews: evidence from mobile phones for older adults
US20240078256A1 (en) System and method for generating and obtaining remote classification of condensed large-scale text objects
CN116127367A (zh) 服务评价的审核方法、装置以及计算机可读存储介质
Siddiqui et al. Quality Prediction of Wearable Apps in the Google Play Store.
WO2019133164A1 (en) System and method for recommending features for content presentations
Turdjai et al. Simulation of marketplace customer satisfaction analysis based on machine learning algorithms
JP2019194793A (ja) 情報処理装置およびプログラム
Li et al. Recommender Systems: Frontiers and Practices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 401329 No. 5-6, building 2, No. 66, Nongke Avenue, Baishiyi Town, Jiulongpo District, Chongqing

Applicant after: MCC CCID information technology (Chongqing) Co.,Ltd.

Address before: Building 1, No. 11, Huijin Road, North New District, Yubei District, Chongqing

Applicant before: CISDI CHONGQING INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant