CN107330592A - 一种标的企业对象的筛选方法、装置及计算设备 - Google Patents

一种标的企业对象的筛选方法、装置及计算设备 Download PDF

Info

Publication number
CN107330592A
CN107330592A CN201710469187.3A CN201710469187A CN107330592A CN 107330592 A CN107330592 A CN 107330592A CN 201710469187 A CN201710469187 A CN 201710469187A CN 107330592 A CN107330592 A CN 107330592A
Authority
CN
China
Prior art keywords
enterprise object
screened
target
enterprise
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710469187.3A
Other languages
English (en)
Inventor
赵全颖
曹培坤
滕放
马超
赵继广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Causality Network Technology Co Ltd
Original Assignee
Beijing Causality Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Causality Network Technology Co Ltd filed Critical Beijing Causality Network Technology Co Ltd
Priority to CN201710469187.3A priority Critical patent/CN107330592A/zh
Publication of CN107330592A publication Critical patent/CN107330592A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种标的企业对象的筛选方法、装置及计算设备,可自动从网络资源中获取与目标企业对象的属性相同的待筛选企业对象的描述信息,并对获取到的描述信息进行量化,从而筛选出与目标企业对象的属性相同并且特征相似的标的企业对象,进而可便于专业人员有针对性地调研数量有限的具有并购前景的潜在并购目标,避免了漫无目的的无效检索,不仅提高了调研的效率,而且调研结果更加客观、全面。

Description

一种标的企业对象的筛选方法、装置及计算设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种标的企业对象的筛选方法、装置及计算设备。
背景技术
近些年来,随着经济的繁荣发展,越来越多的企业出现并购的需求,试图通过并购与自身业务相似,所属行业相同或所处产业层级相关的其它企业来实现自身的快速增长。
目前企业并购通常是依靠投行或券商的相关部门的分析师团队来人工完成项目或企业调研的,这种人工调研的方式不仅效率较低,分析师团队要花费大量的时间和人力去尽量全面地调研产业链和行业内的相关企业;而且人工调研的调研范围较为片面、调研结果主观性较强,这些容易给企业的并购决策带来严重的负面影响。
发明内容
本发明实施例提供了一种利用计算机和互联网为企业自动筛选并购目标的标的企业对象的筛选方法、装置及计算设备。
本发明实施例一方面提供了一种标的企业对象的筛选方法,所述方法包括:
确定与目标企业对象的属性信息相同的待筛选企业对象;其中,属性信息包括所属行业信息和/或产业链信息;
从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量;
根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象。
本发明实施例另一方面还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述标的企业对象的筛选方法。
本发明实施例又一方面还提供了一种标的企业对象的筛选装置,包括:
查找单元,用于确定与目标企业对象的属性信息相同的待筛选企业对象;其中,属性信息包括所属行业信息和/或产业链信息;
提取单元,用于从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量;
处理单元,用于根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象。
本发明实施例再一方面还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行:确定与目标企业对象的属性信息相同的待筛选企业对象;其中,属性信息包括所属行业信息和/或产业链信息;以及,从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量;并根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象。
本发明有益效果如下:
本发明实施例提供了一种标的企业对象的筛选方法、装置及计算设备,可确定与目标企业对象的属性信息相同的待筛选企业对象;其中,属性信息包括所属行业信息和/或产业链信息;以及,从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量;根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象。也就是说,可自动从网络资源中获取与目标企业对象的属性相同的待筛选企业对象的描述信息,并对获取到的描述信息进行量化,从而筛选出与目标企业对象的属性相同并且特征相似的标的企业对象,进而可便于专业人员有针对性地调研数量有限的具有并购前景的潜在并购目标,避免了漫无目的的无效检索,不仅提高了调研的效率,而且调研结果更加客观、全面。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1所示为本发明实施例一中的标的企业对象的筛选方法的步骤流程图;
图2所示为本发明实施例二中的标的企业对象的筛选装置的结构示意图;
图3所示为本发明实施例三中的计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一:
本发明实施例一提供了一种标的企业对象的筛选方法,具体地,如图1所示,其为本发明实施例一中所述方法的步骤流程图,所述方法可包括以下步骤:
步骤101:确定与目标企业对象的属性信息相同的待筛选企业对象;其中,属性信息包括所属行业信息和/或产业链信息。
可选地,所述目标企业对象可为市场上现存的一设定企业对象,也就是说,本实施例提供的所述方法可用于根据某设定企业的实际运营情况为该企业筛选并购目标;同样可选地,所述目标企业对象还可为市场上不存在的一虚构的企业对象,可灵活为该虚构的企业对象设置属性信息以及特征向量,也就是说,所述方法还可用于根据用户的需求,筛选与用户的理想并购目标最接近的标的企业。
需要说明的是,产业链的本质是用于描述一个具有某种内在联系的企业群结构,它是一个相对宏观的概念,存在两维属性:结构属性和价值属性。产业链中大量存在着上下游关系和相互价值的交换,上游环节向下游环节输送产品或服务,下游环节向上游环节反馈信息。产业链可以用于表达产业层次,还可以用于表达产业关联程度,因此,确定目标企业对象的产业链信息,并筛选出与目标企业对象的产业链信息相同的待筛选企业对象,即可以获得与目标企业对象所处的产业层级相近、或与目标企业对象的产业关联程度高的待选并购目标,可扩大筛选的维度,使得筛选效果更佳。
另外,根据所属行业信息和/或产业链信息,在不同维度上对企业对象进行分类,这样在计算企业对象之间的相似度时,无需遍历所有可以获取到的企业对象,而是在设定类别的限定下进行有针对性的计算,可提高筛选的效率,减小计算量。
可选地,确定与目标企业对象的属性信息相同的待筛选企业对象,可具体包括:
根据预先存储的属性信息与企业对象标识的对应关系,确定所属行业与所述目标企业对象的所属行业相同的待筛选企业对象,或确定所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象,或确定所属行业与所述目标企业对象的所属行业相同且所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象。
也就是说,可预先遍历市场上现存的企业对象,并依据所属行业信息和/或产业链信息对这些企业对象进行分类并存储分类结果,在针对设定的目标企业对象筛选标的企业对象时,可根据该目标企业对象的所属行业信息和/或产业链信息,直接获取对应的分类下已存储的各企业对象的标识,即确定了与目标企业对象的属性信息相同的待筛选企业对象。
另外,需要说明的是,所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象,可以指所处产业层级与所述目标企业对象的所处产业层级相同或相近的待筛选企业对象,还可以指与所述目标企业对象的产业关联程度高的待筛选企业对象,本实施例在此不作任何限定。
同样可选地,确定与目标企业对象的属性信息相同的待筛选企业对象,也可具体包括:
根据所述目标企业对象的所属行业信息和/或产业链信息,对第二设定站点进行爬虫抓取,确定所属行业与所述目标企业对象的所属行业相同的待筛选企业对象,或确定所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象,或确定所属行业与所述目标企业对象的所属行业相同且所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象。
也就是说,也可不预先对市场上现存的企业对象进行分类,在针对设定的目标企业对象筛选标的企业对象时,可根据该目标企业对象的所属行业信息和/或产业链信息,直接在设定站点上进行爬虫抓取,确定待筛选企业对象。
步骤102:从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量。
可选地,从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量,可具体包括:
针对每一待筛选企业对象,对所述第一设定站点进行爬虫抓取,获取该待筛选企业对象的描述信息;
基于设定算法,根据该待筛选企业对象的描述信息确定设定数量(可根据实际使用需求灵活设置)的该待筛选企业对象的特征关键词以及各特征关键词的权重值,其中,任一特征关键词的权重值用于表征所述任一特征关键词的关键程度;
根据该待筛选企业对象的特征关键词以及各特征关键词的权重值,建立该待筛选企业对象的特征向量。
例如,针对A企业,对某设定站点进行爬虫抓取,获取该待筛选企业对象的企业简介;基于设定算法,确定A企业的2个特征关键词为"蜜蜂"和"养殖",且确定"蜜蜂"的权重值a1,"养殖"的权重值a2;建立A企业的特征向量为:A企业:[a1("蜜蜂"),a2("养殖")]。
也就是说,在确定各待筛选企业对象之后,针对任一待筛选企业对象,可基于爬虫技术,从设定站点中获取所述任一待筛选企业对象的描述信息。由于获取到的描述信息通常是关于所述任一待筛选企业对象的非结构化的、描述性的一个或多个文字段落,例如,企业简介、公司概括等;因此,欲针对所述任一待筛选企业对象进行计算处理,需首先对描述信息进行结构化处理,即从描述信息中提取所述任一待筛选企业对象的特征向量。
进一步可选地,基于设定算法,根据该待筛选企业对象的描述信息确定设定数量的该待筛选企业对象的特征关键词以及各特征关键词的权重值,可具体包括:
基于TF-IDF(Term Frequency–Inverse Document Frequency,词频—逆文档频率)算法,以全部待筛选企业对象的描述信息为语料库,确定设定数量的该待筛选企业对象的描述信息的特征关键词以及各特征关键词的权重值。
TF-IDF算法是一种用于资讯检索与资讯探勘的加权技术,是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
例如,确定2个A企业的特征关键词以及特征关键词的权重值,可首先对A企业的企业简介进行词频(Term Frequency,TF)统计,提取出词频最大的关键词:"的"、"是"、"在"、"中国"、"蜜蜂"和"养殖",TF的大小与关键词在该企业简介中出现的次数成正比;过滤掉"的"、"是"、"在"等停用词(Stop Words),剩余有实际意义的关键词"中国"、"蜜蜂"和"养殖";再分别计算"中国"、"蜜蜂"和"养殖"的逆文档频率(Inverse Document Frequency,IDF),IDF的大小与关键词在全部待筛选企业对象的描述信息中的常见程度成反比;针对每个关键词,计算该关键词的TF与IDF的乘积,确定该关键词的TF-IDF值;选取TF-IDF值最大的2个关键词"蜜蜂"和"养殖"为A企业的特征关键词,根据各特征关键词的TF-IDF值,确定"蜜蜂"的权重值a1,"养殖"的权重值a2。
进一步可选地,在实际应用中,由于一般短语作为标签(特征关键词)的描述性和概括性更强,例如,“可持续发展”;因此,考虑到业务需求,对于确定出的短语性的关键词,可按照设定的规则,在该关键词的TF-IDF值上适当增加一个附加值,使得依据TF-IDF值排序时,短语性的关键词的排名可适当提前,以提高将其确定为特征关键词的概率,以及增大其作为特征关键词的权重值。
进一步可选地,在对所述第一设定站点进行爬虫抓取,获取该待筛选企业对象的描述信息之后,基于设定算法,根据该待筛选企业对象的描述信息确定设定数量的该待筛选企业对象的特征关键词以及各特征关键词的权重值之前,所述方法还可包括:
对该待筛选企业对象的描述信息进行筛选,保留该待筛选企业对象的描述信息中的满足设定表达规则的语句。
需要说明的是,针对任一待筛选企业对象,获取到的所述任一待筛选企业对象的描述信息中通常包含一些不具有实际意义的文字、语句或者段落,例如URL(UniformResource Locator,统一资源定位符)等,因此,可在针对所述任一待筛选企业对象提取特征向量之前,首先对所述任一待筛选企业对象的描述信息进行清洗。可选地,可设置一个或多个设定的正则表达式,只保留所述任一待筛选企业对象的描述信息中符合设定表达规则的一个或多个语句作为所述任一待筛选企业对象的描述信息。在提取待筛选企业对象的特征向量之前,首先对该待筛选企业对象的描述信息进行清洗,可有效减小计算量,提高信息处理的效率。
步骤103:根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值(可根据实际使用需求灵活设置)的待筛选企业对象为标的企业对象。
可选地,目标企业对象的特征向量可以预先设置,也可与确定待筛选企业对象的特征向量的方法类似,在设定站点中抓取目标企业对象的描述信息并进行特征提取,以确定目标企业对象的特征向量,本实施例在此不作任何限定。
同样可选地,在确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象之前,所述方法还可包括:根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量建立特征向量矩阵。
例如,确定待筛选企业A的特征向量为:A企业:[a1("蜜蜂"),a2("养殖")],待筛选企业B的特征向量为:B企业:[b1("蜜蜂"),b2("养殖"),b3("可持续发展")],待筛选企业C的特征向量为:C企业:[c1("荔枝"),c2("养殖"),c3("蜜蜂")],目标企业O的特征向量为:O企业:[o1("荔枝"),o2("养殖"),o3("蜂蜜")];可建立特征向量矩阵为:其中,行表示企业对象,从上到下依次为A企业、B企业、C企业和O企业,列表示特征关键词,分别为"蜜蜂"、"养殖"、"可持续发展"、"荔枝"和"蜂蜜"。
进一步可选地,所述方法包括但不限于基于余弦相似性,计算目标企业对象的特征向量与各待筛选企业对象的特征向量之间的余弦距离,来确定目标企业对象的与各待筛选企业对象之间的相似度,本实施例在此不再赘述。
可选地,在根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象之后,所述方法还可包括:
针对所述标的企业对象,对第三设定站点进行爬虫抓取,获取所述标的企业对象的设定资源信息;其中,任一企业对象的设定资源信息包括:所述任一企业对象占有的设定资源的数量信息和/或所述任一企业对象占有的任一设定资源的质量信息;
基于设定规则,根据所述标的企业对象的设定资源信息,计算所述标的企业对象的分值;
确定所述标的企业对象的分值不低于设定的分数阈值(可根据实际使用需求灵活设置)。
进一步可选地,设定资源可包括但不限于专利;相应地,任一企业对象占有的设定资源的数量信息可为该任一企业对象持有的专利的数量信息,任一设定资源的质量信息可为专利的权利要求的数量信息、专利的引用信息,和/或专利的被引用信息等。
由于专利数量信息和专利质量信息的取值的数量级存在差异,因此,在计算标的企业对象的分值时,可首先将专利数量信息和专利质量信息标准化,去除单位的影响,使两种指标在大小上具有可比性,然后对数量信息和质量信息分别赋予不同的权重,来计算标的企业对象的分值。再从确定的标的企业对象中,筛选出分值不低于设定的分数阈值的标的企业对象,或者确定出设定数量的分值靠前的标的企业对象,来作为最终的标的企业对象。专利申请体现的是企业在技术上的创新水平,因此,将企业的专利申请以及专利维持情况引入对并购目标的考量,可方便用户快速定位在自身需要完善的领域技术较强的企业作为并购目标,以求弥补自身技术创新的不足,使得筛选效果更佳。
需要说明的是,所述第一设定站点、所述第二设定站点以及所述第三设定站点可根据实际使用需求灵活选取,且它们可为相同的站点也可为各自不同的站点,本实施例在此不作任何限定。
综上所述,本发明实施例提供的标的企业对象的筛选方法,可确定与目标企业对象的属性信息相同的待筛选企业对象;其中,属性信息包括所属行业信息和/或产业链信息;以及,从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量;根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象。也就是说,可自动从网络资源中获取与目标企业对象的属性相同的待筛选企业对象的描述信息,并对获取到的描述信息进行量化,从而筛选出与目标企业对象的属性相同并且特征相似的标的企业对象,进而可便于专业人员有针对性地调研数量有限的具有并购前景的潜在并购目标,避免了漫无目的的无效检索,不仅提高了调研的效率,而且调研结果更加客观、全面。
另外,本实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述标的企业对象的筛选方法。
实施例二:
基于同样的发明构思,本发明实施例二提供了一种标的企业对象的筛选装置,具体地,如图2所示,其为本发明实施例二中所述装置的结构示意图,所述装置可包括:
查找单元201,用于确定与目标企业对象的属性信息相同的待筛选企业对象;其中,属性信息包括所属行业信息和/或产业链信息;
提取单元202,用于从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量;
处理单元203,用于根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象。
可选地,所述查找单元201,可具体用于根据预先存储的属性信息与企业对象标识的对应关系,确定所属行业与所述目标企业对象的所属行业相同的待筛选企业对象,或确定所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象,或确定所属行业与所述目标企业对象的所属行业相同且所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象;或用于根据所述目标企业对象的所属行业信息和/或产业链信息,对第二设定站点进行爬虫抓取,确定所属行业与所述目标企业对象的所属行业相同的待筛选企业对象,或确定所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象,或确定所属行业与所述目标企业对象的所属行业相同且所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象。
可选地,所述提取单元202,可具体用于针对每一待筛选企业对象,对所述第一设定站点进行爬虫抓取,获取该待筛选企业对象的描述信息;以及,基于设定算法,根据该待筛选企业对象的描述信息确定设定数量的该待筛选企业对象的特征关键词以及各特征关键词的权重值,其中,任一特征关键词的权重值用于表征所述任一特征关键词的关键程度;并根据该待筛选企业对象的特征关键词以及各特征关键词的权重值,建立该待筛选企业对象的特征向量。
进一步可选地,所述提取单元202,还可用于在对所述第一设定站点进行爬虫抓取,获取该待筛选企业对象的描述信息之后,基于设定算法,根据该待筛选企业对象的描述信息确定设定数量的该待筛选企业对象的特征关键词以及各特征关键词的权重值之前,对该待筛选企业对象的描述信息进行筛选,保留该待筛选企业对象的描述信息中的满足设定表达规则的语句;
所述提取单元202,可具体用于通过以下方式实现确定设定数量的该待筛选企业对象的特征关键词以及各特征关键词的权重值:基于TF-IDF算法,以全部待筛选企业对象的描述信息为语料库,确定设定数量的该待筛选企业对象的描述信息的特征关键词以及各特征关键词的权重值。
可选地,所述查找单元201,还可用于针对所述标的企业对象,对第三设定站点进行爬虫抓取,获取所述标的企业对象的设定资源信息;其中,任一企业对象的设定资源信息包括:所述任一企业对象占有的设定资源的数量信息和/或所述任一企业对象占有的任一设定资源的质量信息;
所述处理单元203,还可用于基于设定规则,根据所述标的企业对象的设定资源信息,计算所述标的企业对象的分值;以及,确定所述标的企业对象的分值不低于设定的分数阈值。
综上所述,本发明实施例提供的标的企业对象的筛选装置,可确定与目标企业对象的属性信息相同的待筛选企业对象;其中,属性信息包括所属行业信息和/或产业链信息;以及,从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量;根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象。也就是说,可自动从网络资源中获取与目标企业对象的属性相同的待筛选企业对象的描述信息,并对获取到的描述信息进行量化,从而筛选出与目标企业对象的属性相同并且特征相似的标的企业对象,进而可便于专业人员有针对性地调研数量有限的具有并购前景的潜在并购目标,避免了漫无目的的无效检索,不仅提高了调研的效率,而且调研结果更加客观、全面。
实施例三:
本发明实施例三提供了一种计算设备,如图3所示,其为本发明实施例中所述的计算设备的结构示意图。该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等。具体地,由图3可知,本发明实施例中所述的计算设备可以包括中央处理器301(Center Processing Unit,CPU)、存储器302、输入设备303以及输出设备304等,输入设备303可以包括键盘、鼠标和/或触摸屏等,输出设备304可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器302可以包括只读存储器(ROM)和随机存取存储器(RAM),并向中央处理器301提供存储器302中存储的程序指令和数据。在本发明实施例中,存储器302可以用于存储标的企业对象的筛选方法的程序。
中央处理器301通过调用存储器302存储的程序指令,中央处理器301可用于按照获得的程序指令执行:确定与目标企业对象的属性信息相同的待筛选企业对象;其中,属性信息包括所属行业信息和/或产业链信息;以及,从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量;并根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象。
另外,需要说明的是,附图和说明书中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
本领域技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种标的企业对象的筛选方法,其特征在于,所述方法包括:
确定与目标企业对象的属性信息相同的待筛选企业对象;其中,属性信息包括所属行业信息和/或产业链信息;
从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量;
根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象。
2.如权利要求1所述的方法,其特征在于,确定与目标企业对象的属性信息相同的待筛选企业对象,具体包括:
根据预先存储的属性信息与企业对象标识的对应关系,确定所属行业与所述目标企业对象的所属行业相同的待筛选企业对象,或确定所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象,或确定所属行业与所述目标企业对象的所属行业相同且所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象;或者,
根据所述目标企业对象的所属行业信息和/或产业链信息,对第二设定站点进行爬虫抓取,确定所属行业与所述目标企业对象的所属行业相同的待筛选企业对象,或确定所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象,或确定所属行业与所述目标企业对象的所属行业相同且所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象。
3.如权利要求1所述的方法,其特征在于,从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量,具体包括:
针对每一待筛选企业对象,对所述第一设定站点进行爬虫抓取,获取该待筛选企业对象的描述信息;
基于设定算法,根据该待筛选企业对象的描述信息确定设定数量的该待筛选企业对象的特征关键词以及各特征关键词的权重值,其中,任一特征关键词的权重值用于表征所述任一特征关键词的关键程度;
根据该待筛选企业对象的特征关键词以及各特征关键词的权重值,建立该待筛选企业对象的特征向量。
4.如权利要求3所述的方法,其特征在于,在对所述第一设定站点进行爬虫抓取,获取该待筛选企业对象的描述信息之后,基于设定算法,根据该待筛选企业对象的描述信息确定设定数量的该待筛选企业对象的特征关键词以及各特征关键词的权重值之前,所述方法还包括:
对该待筛选企业对象的描述信息进行筛选,保留该待筛选企业对象的描述信息中的满足设定表达规则的语句;
基于设定算法,根据该待筛选企业对象的描述信息确定设定数量的该待筛选企业对象的特征关键词以及各特征关键词的权重值,具体包括:
基于TF-IDF算法,以全部待筛选企业对象的描述信息为语料库,确定设定数量的该待筛选企业对象的描述信息的特征关键词以及各特征关键词的权重值。
5.如权利要求1所述的方法,其特征在于,在根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象之后,所述方法还包括:
针对所述标的企业对象,对第三设定站点进行爬虫抓取,获取所述标的企业对象的设定资源信息;其中,任一企业对象的设定资源信息包括:所述任一企业对象占有的设定资源的数量信息和/或所述任一企业对象占有的任一设定资源的质量信息;
基于设定规则,根据所述标的企业对象的设定资源信息,计算所述标的企业对象的分值;
确定所述标的企业对象的分值不低于设定的分数阈值。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1~5任一项所述的标的企业对象的筛选方法。
7.一种标的企业对象的筛选装置,其特征在于,包括:
查找单元,用于确定与目标企业对象的属性信息相同的待筛选企业对象;其中,属性信息包括所属行业信息和/或产业链信息;
提取单元,用于从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量;
处理单元,用于根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象。
8.如权利要求7所述的标的企业对象的筛选装置,其特征在于,
所述查找单元,具体用于根据预先存储的属性信息与企业对象标识的对应关系,确定所属行业与所述目标企业对象的所属行业相同的待筛选企业对象,或确定所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象,或确定所属行业与所述目标企业对象的所属行业相同且所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象;或用于根据所述目标企业对象的所属行业信息和/或产业链信息,对第二设定站点进行爬虫抓取,确定所属行业与所述目标企业对象的所属行业相同的待筛选企业对象,或确定所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象,或确定所属行业与所述目标企业对象的所属行业相同且所处产业层级与所述目标企业对象的所处产业层级相关的待筛选企业对象。
9.如权利要求7所述的标的企业对象的筛选装置,其特征在于,
所述提取单元,具体用于针对每一待筛选企业对象,对所述第一设定站点进行爬虫抓取,获取该待筛选企业对象的描述信息;以及,基于设定算法,根据该待筛选企业对象的描述信息确定设定数量的该待筛选企业对象的特征关键词以及各特征关键词的权重值,其中,任一特征关键词的权重值用于表征所述任一特征关键词的关键程度;并根据该待筛选企业对象的特征关键词以及各特征关键词的权重值,建立该待筛选企业对象的特征向量。
10.如权利要求9所述的标的企业对象的筛选装置,其特征在于,
所述提取单元,还用于在对所述第一设定站点进行爬虫抓取,获取该待筛选企业对象的描述信息之后,基于设定算法,根据该待筛选企业对象的描述信息确定设定数量的该待筛选企业对象的特征关键词以及各特征关键词的权重值之前,对该待筛选企业对象的描述信息进行筛选,保留该待筛选企业对象的描述信息中的满足设定表达规则的语句;
所述提取单元,具体用于通过以下方式实现确定设定数量的该待筛选企业对象的特征关键词以及各特征关键词的权重值:基于TF-IDF算法,以全部待筛选企业对象的描述信息为语料库,确定设定数量的该待筛选企业对象的描述信息的特征关键词以及各特征关键词的权重值。
11.如权利要求7所述的标的企业对象的筛选装置,其特征在于,
所述查找单元,还用于针对所述标的企业对象,对第三设定站点进行爬虫抓取,获取所述标的企业对象的设定资源信息;其中,任一企业对象的设定资源信息包括:所述任一企业对象占有的设定资源的数量信息和/或所述任一企业对象占有的任一设定资源的质量信息;
所述处理单元,还用于基于设定规则,根据所述标的企业对象的设定资源信息,计算所述标的企业对象的分值;以及,确定所述标的企业对象的分值不低于设定的分数阈值。
12.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行:确定与目标企业对象的属性信息相同的待筛选企业对象;其中,属性信息包括所属行业信息和/或产业链信息;以及,从第一设定站点中获取各所述待筛选企业对象的描述信息,并基于获取到的描述信息提取各所述待筛选企业对象的特征向量;并根据确定的所述目标企业对象的特征向量以及各所述待筛选企业对象的特征向量,确定与所述目标企业对象的相似度不低于设定的相似度阈值的待筛选企业对象为标的企业对象。
CN201710469187.3A 2017-06-20 2017-06-20 一种标的企业对象的筛选方法、装置及计算设备 Pending CN107330592A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710469187.3A CN107330592A (zh) 2017-06-20 2017-06-20 一种标的企业对象的筛选方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710469187.3A CN107330592A (zh) 2017-06-20 2017-06-20 一种标的企业对象的筛选方法、装置及计算设备

Publications (1)

Publication Number Publication Date
CN107330592A true CN107330592A (zh) 2017-11-07

Family

ID=60194500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710469187.3A Pending CN107330592A (zh) 2017-06-20 2017-06-20 一种标的企业对象的筛选方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN107330592A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886239A (zh) * 2017-11-09 2018-04-06 安徽律正科技信息服务有限公司 一种企业匹配科技信息遴选方法
CN108399191A (zh) * 2018-01-25 2018-08-14 温州大学 一种招标信息的个性化推荐方法
CN110969332A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 企业筛选方法及装置
CN113869639A (zh) * 2021-08-26 2021-12-31 中国环境科学研究院 长江流域企业筛选方法、装置、电子设备及存储介质
CN115577184A (zh) * 2022-11-10 2023-01-06 中关村科技软件股份有限公司 信息推荐方法、装置、电子设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034671A (zh) * 2012-01-09 2013-04-10 任一涛 管理用户和机密信息的高匹配度自动筛选推送方法和系统
CN103077348A (zh) * 2012-12-28 2013-05-01 华为技术有限公司 一种Web站点漏洞扫描方法和装置
CN104636402A (zh) * 2013-11-13 2015-05-20 阿里巴巴集团控股有限公司 一种业务对象的分类、搜索、推送方法和系统
CN104732416A (zh) * 2013-12-24 2015-06-24 中兴通讯股份有限公司 一种数据处理的方法及装置
CN104850537A (zh) * 2014-02-17 2015-08-19 腾讯科技(深圳)有限公司 对文本内容进行筛选的方法及装置
CN105117466A (zh) * 2015-08-27 2015-12-02 中国电信股份有限公司湖北号百信息服务分公司 一种互联网信息筛选系统及方法
CN106339382A (zh) * 2015-07-07 2017-01-18 阿里巴巴集团控股有限公司 一种业务对象的推送方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034671A (zh) * 2012-01-09 2013-04-10 任一涛 管理用户和机密信息的高匹配度自动筛选推送方法和系统
CN103077348A (zh) * 2012-12-28 2013-05-01 华为技术有限公司 一种Web站点漏洞扫描方法和装置
CN104636402A (zh) * 2013-11-13 2015-05-20 阿里巴巴集团控股有限公司 一种业务对象的分类、搜索、推送方法和系统
CN104732416A (zh) * 2013-12-24 2015-06-24 中兴通讯股份有限公司 一种数据处理的方法及装置
CN104850537A (zh) * 2014-02-17 2015-08-19 腾讯科技(深圳)有限公司 对文本内容进行筛选的方法及装置
CN106339382A (zh) * 2015-07-07 2017-01-18 阿里巴巴集团控股有限公司 一种业务对象的推送方法和装置
CN105117466A (zh) * 2015-08-27 2015-12-02 中国电信股份有限公司湖北号百信息服务分公司 一种互联网信息筛选系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886239A (zh) * 2017-11-09 2018-04-06 安徽律正科技信息服务有限公司 一种企业匹配科技信息遴选方法
CN108399191A (zh) * 2018-01-25 2018-08-14 温州大学 一种招标信息的个性化推荐方法
CN108399191B (zh) * 2018-01-25 2021-06-15 广州大学 一种招标信息的个性化推荐方法
CN110969332A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 企业筛选方法及装置
CN113869639A (zh) * 2021-08-26 2021-12-31 中国环境科学研究院 长江流域企业筛选方法、装置、电子设备及存储介质
CN113869639B (zh) * 2021-08-26 2023-11-07 中国环境科学研究院 长江流域企业筛选方法、装置、电子设备及存储介质
CN115577184A (zh) * 2022-11-10 2023-01-06 中关村科技软件股份有限公司 信息推荐方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN107330592A (zh) 一种标的企业对象的筛选方法、装置及计算设备
US20180357302A1 (en) Method and device for processing a topic
CN105138665B (zh) 一种基于改进lda模型的互联网话题在线挖掘方法
CN108334591A (zh) 基于聚焦爬虫技术的行业分析方法及系统
CN108197144B (zh) 一种基于BTM和Single-pass的热点话题发现方法
CN107515873A (zh) 一种垃圾信息识别方法及设备
WO2020233344A1 (zh) 一种搜索方法、装置及存储介质
CN104077407B (zh) 一种智能数据搜索系统及方法
CN109918497A (zh) 一种基于改进textCNN模型的文本分类方法、装置及存储介质
CN110287409B (zh) 一种网页类型识别方法及装置
CN107545038B (zh) 一种文本分类方法与设备
CN106227756A (zh) 一种基于情感分类的股票指数预测方法及系统
CN107895038A (zh) 一种链路预测关系推荐方法及装置
CN110008463A (zh) 用于事件抽取的方法、装置和计算机可读介质
CN108287916A (zh) 一种资源推荐方法
CN103914538B (zh) 基于锚文本上下文和链接分析的主题抓取方法
CN106649871A (zh) 文章重复度的检测方法、装置及计算设备
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN108804564A (zh) 金融产品的组合推荐方法及终端设备
CN110019653A (zh) 一种融合文本和标签网络的社交内容表征方法和系统
CN104850537A (zh) 对文本内容进行筛选的方法及装置
CN113723737A (zh) 一种基于企业画像的政策匹配方法、装置、设备及介质
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
CN104462061B (zh) 词语提取方法及提取装置
Altiti et al. Just at semeval-2020 task 11: Detecting propaganda techniques using bert pre-trained model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171107