CN113785321A

CN113785321A - 公司规模估计系统

Info

Publication number: CN113785321A
Application number: CN202080033406.3A
Authority: CN
Inventors: 尼基塔·日利佐夫; 玛丽亚·格里内夫; 亚历山大·博尔达科夫
Original assignee: Dun and Bradstreet Corp
Current assignee: Dun and Bradstreet Corp
Priority date: 2019-04-19
Filing date: 2020-04-16
Publication date: 2021-12-10
Also published as: WO2020214768A1; US20200334595A1; EP3956774A1; CA3137134A1; EP3956774A4

Abstract

公司规模估计(CSE)系统基于开放的政府和网站源中可获取的信息来预测公司的雇员数量范围。CSE系统将问题分解成两个连续的机器学习任务。第一个操作识别大公司，并且第二个操作识别小型公司和中型公司的雇员数量范围。这两种操作都利用针对公司收集的一组丰富的企业统计结构属性，例如，行业代码、办公位置、企业网站文本、网站流量、社交媒体存在以及关于各种数据源的可发现性。

Description

公司规模估计系统

背景技术

公司规模的自动估计是各种商业应用的重要部分。在企业对企业(B2B)销售中，自动潜在客户(lead)(潜在客户(potential customer))资格和评分依赖于关于给定销售潜在客户的可用信息。在典型场景中，B2B公司通过公司网站从潜在客户接收稳定的入站查询流。在销售代表开始与潜在客户接洽之前对入站潜在客户进行资格鉴定是重要的，因为这节省公司资源并改善客户体验。在B2B营销中，通常根据公司收入或雇用规模执行总体可寻址市场估计和市场划分。

小企业借款申请的批准是另一示例。贷款机构尽可能多地收集关于公司的信息，以评估其信用风险。在小企业贷款的情况下，自动执行信息收集，并且公司规模是关键数据点之一。

附图说明

图1描绘了示例公司规模估计(CSE)系统。

图2描绘了由图1的CSE系统使用的用于预测公司规模的示例过程。

图3A和图3B描绘了由CSE系统生成的用于预测公司规模的示例特征。

图4和图5描述了CSE系统如何将人口普查数据转换成公司规模概率。

图6描绘了用于实现CSE系统的示例计算设备。

具体实施方式

公司规模估计(CSE)系统基于开放政府和网站资源中可获取的信息预测公司的雇员数量范围。CSE系统将问题分解为两个连续的机器学习任务。第一机器学习模型识别大公司，并且第二机器学习模型识别小型和中型公司的雇员数量范围。

两种操作都利用为公司收集的丰富的一组企业统计结构(firmographic)属性，例如，行业代码、办公室位置、企业网站文本、网站流量、社交媒体存在和关于各种数据源的可发现性。

参照图1，公司规模估计(CSE)系统100从不同源收集数据。在一个示例中，CSE系统100从由公司向不同政府机关提交的文档中收集数据102。例如，政府档案数据102可以包括由公司提交并由各个美国联邦和州级政府机关(例如，劳工部、国税局(IRS)、证券交易委员会和州务卿办公室)公布的公开可获取文档。

政府档案数据102可以包括公司向任何机构提交的任何文档或以其他方式与公司相关联的任何其他文档。在一个示例中，政府文档可以与国家、州、市、县或任何其他市政当局相关联地提交。在下面描述的一个示例中，政府实体位于美国。然而，应当理解，政府档案数据102可以与位于世界上的任何政府、国家、州、省、县、市、市政当局、或任何其他实体相关联。

当允许时，CSE系统100还可以从由特定公司运营的网站收集网站数据104。公司运营的网站的任何组合可以用于获得网站数据104。

CSE系统100还可以从任何公开可获取的源收集人口普查数据106，诸如美国人口普查局(census.gov)。美国的人口普查数据106可以包括商业统计数据，例如，位于不同州的不同行业的不同雇员数量范围内的公司数量。当然，CSE系统100还可以使用来自其他国家的人口普查数据106。

特征生成器108分别根据数据102、104和106生成不同的特征110A、110B和110C。例如，特征生成器108可以根据政府档案数据102生成识别特定公司的不同办公地址的数量的特征110A。特征生成器108将与同一公司相关联的特征110组合成同一公司简档112。例如，特征生成器108可以在同一公司简档112中存储与同一公司名称和地址相关联的特征110A、110B和110C的任何组合。特征生成器108可以使用任何模糊名称匹配、手工制作的匹配规则和人工数据审查来确定哪些特征110与同一公司相关联。

特征生成器108可以使用任何方法来获得政府档案数据102、网站数据104和人口普查数据106。例如，特征生成器108可以使用应用编程接口(API)或网络爬虫来访问公司网站和不同政府的内容。其他数据102、104或106可以由监控和累积不同网站的度量的应用提供。可以经由不同政府机关或企业发送的文档来获得其他数据102、104或106。

特征生成器108针对可能与公司规模具有某种关联的不同特征110A、110B和110C解析数据102、104和106。例如，特征生成器108可以解析政府档案数据102以识别特定公司的办公位置的数量。办公位置的数量越大可以指示越大的公司规模。特征生成器108可以将公司办公位置的数量转换成特征110A。

特征生成器108还可以解析网站数据104以识别网站中的不同内容以及与公司规模有关的网站的特性。例如，由同一公司运营的网站的数量越大以及由同一公司使用的社交媒体网站的数量越大，可以指示越大的公司规模。特征生成器108基于可能与公司规模相关联的网站的内容和特性来生成另一组网站特征110B。

特征生成器108还可以解析来自美国人口普查局的公开可获取人口普查数据106以获得任何其他公司规模数据。例如，人口普查数据106可以按雇员数量范围、不同行业中的公司的数量被列出。特征生成器108可以将人口普查数量转换成雇员数量范围概率特征110C。

特征生成器108使用政府档案数据102、网站数据104和人口普查数据106中的公司名称、电子邮箱地址、物理地址、行业分类等来将同一公司的特征110A、110B和110C链接至同一公司简档112。

大公司分类器114使用来自公司简档112的一组特征110来区分大公司与中型和小型公司。例如，大公司分类器114可以使用一组特征110，例如，公司的成立年份、网站域排名和指示企业帐户在

和

上的存在的布尔标志。

由大公司分类器114使用的其他特征110可以包括识别与给定公司共享相同位置地址的公司的数量的邻居计数以及公司网站上的网页的类型，例如，联系人页面、职位页面、产品页面、条款页面和投资者页面。大公司分类器114还可以使用识别在公司网站上使用的软件技术的类型的特征110。下面更详细地描述由大公司分类器114使用的这些和其他特征110。

大公司分类器114还可以使用文本分类器116来基于公司网页中包含的文本来识别大型公司。例如，公司网站上的网页可以包括诸如“国际总部”、“欧洲办事处”、“全球领导者”等与大公司规模相关联的词语。其他公司网站上的网页包括诸如本地、餐厅、清洁等与较小公司规模相关联的词语。

文本分类器116可以接受从公司网页中的文本的某个word2vector生成器获得的词矢量作为输入。文本分类器116中使用的示例word2vector生成器可以包括脸书的FastText、谷歌的word2vec和Fast.ai的语言模型学习器。在一个示例中，使用Python NLTK包执行标准令牌化和停用词语过滤。文本分类器116输出基于文本的概率分数115，该分数是给定公司是大公司的概率。然后，将该分数作为输入提供给大公司分类器114。

在一个示例中，在文本分类器116中使用的计算机学习模型是前馈神经网络，例如FastText。在训练期间，神经网络联合学习词语嵌入和隐藏层权重，将它们拟合以将大公司的描述和小公司的描述分开。例如，神经网络自动地检测属于大和小公司的有意义的词语和短语。

大公司分类器114中的计算机学习模型使用来自文本分类器116的基于文本的概率分数115和来自公司简档112的特征110作为输入。大公司分类器114可以生成指示每个公司简档112是大公司还是不是大公司的二分类输出。在一个示例中，拥有多于1000名雇员的任何公司都被视为大公司。然而，这仅是一个示例，并且任何数量的雇员都可以用作大公司的阈值。大公司分类器114可以将标签120分配给识别为大公司的公司简档112。

未标记为大公司的任何公司简档112A由雇员数量范围预测器118进一步分类。标记为大公司的公司简档可以传递给数据编辑者团队以供审查。数据编辑者可以审查公司信息并在Web上研究该公司信息，并且可以手动地分配正确的雇员数量。关于大公司的雇员数量的信息可以在Web上找到，例如在公开报道、新闻稿或维基百科中找到。

在一个示例中，范围预测器118将公司简档112A分类为5个不同的雇员规模范围122，如下表1.0所示。然而，这仅是一个示例，并且可以使用任何数量的雇员规模范围。

表1.0

由大公司分类器114使用的一些相同特征110被用作雇员范围预测器118的输入。然而，在一个示例中，预测器118可以使用或可以不使用由文本分类器116生成的基于文本的概率分数115，并且可以使用根据人口普查数据106生成的附加特征。

对于每个公司简档112A，预测器118可以预测公司规模范围122和相关联的概率124。例如，预测器118可以确定特定公司简档112A具有拥有1至10名雇员的概率为0.02、拥有10-50名雇员的概率为0.06、拥有50至200名雇员的概率为0.72、拥有200至500名雇员的概率为0.10以及拥有500至1000名雇员的概率为0.10。

雇员数量范围预测器118可以计算和识别五个雇员数量范围122中的每一个的概率124，或者可以仅计算和识别具有最高概率124的雇员数量范围122。无论哪种方式，雇员数量范围预测器118都可以将所识别的雇员数量范围122和概率124添加到相关联的公司简档112A。在范围预测器118的末端处可以存在过滤器，该过滤器去除概率124在特定阈值以下的任何预测122。

雇员数量范围预测器118可以通过计算每个雇员数量范围122的值将范围分类转换成回归问题。例如，将1至10名雇员的最小雇员数量范围转换成值(10+1)/2＝5.5。将公司规模范围10至50、50至200、200至500、500至1000分别转换成以下值：(10+50)/2＝30；(50+200)/2＝125；(200+500)/2＝350；以及(500+1000)/2＝750。

如以上提及的，美国的人口普查数据106可以包括州和北美行业分类系统(NAICS)行业代码。特征生成器108可以向从政府文档102和/或网站数据104识别的每个公司简档112分配类似的州和NAICS代码。

特征生成器108可以基于人口普查数据106中的落入范围122中的公司的数量来计算每个雇员数量范围122的单独似然估计。人口普查数据106中的这种先验知识按行业和位置识别公司规模的分布并且可以用作雇员数量范围预测器118的偏差。

例如，根据人口普查数据106生成的概率可以指示，与德克萨斯州中的信息技术公司(70.5％的概率)相比，加利福尼亚州中的信息技术公司(NAICS代码51)可以更有可能拥有1至10名之间的雇员(80.0％的概率)。雇员数量范围预测器118可以使用人口普查概率对公司简档112的雇员数量范围122进行初始猜测，或者可以使用人口普查概率来调整计算的概率124。

在一个示例中，雇员数量范围预测器118可以使用机器学习模型，例如，线性回归模型如套索、脊回归、随机森林、梯度提升回归树(GBRT)、XGBoost、Cat-Boost或LightGBM。当然，这些仅是示例，并且用于回归或分类的任何机器学习模型都可以用于预测公司规模范围122和相关联的概率124。

如以上提及的，作为运行大公司分类器114和雇员数量范围预测器118两者的结果而获得的六个公司范围可以由需要关于公司的大致规模的信息的任何实体使用。例如，银行可以使用雇员数量范围预测120和122来决定是否批准借款或确定借款利率。银行还可以使用规模预测120和122的历史来发现公司增长模式。如果公司显示出增长的历史，则银行可以更倾向于批准借款请求。

公司规模预测120和122可以用于潜在客户资格。例如，特定的销售员可能仅向中型公司销售产品。公司规模预测120和122可以用于过滤掉未被识别为中型公司的潜在客户。

公司规模预测120和122还可以帮助估计潜在的销售收入。例如，销售雇员/用户软件或雇员福利的销售员可以使用规模估计120和122来估计可以被销售给特定公司的潜在软件许可证或福利服务的数量。

公司规模预测120和122也可以用于数据验证。例如，诸如

的服务可能想要验证其用户生成的公司规模数据。这些商业信息公司可以将他们的用户生成的公司规模数据与公司规模预测120和122进行比较以确认数据准确性。

图2更详细地示出了由CSE系统100执行的操作。参照图1和图2，在操作130A中，CSE100接收或提取政府档案数据102、网站数据104和/或人口普查数据106。如以上说明的，可以经由API从网站或数据库中提取一些数据，并且可以由监控来自网站的数据和从网站提取数据的应用提供其他数据。例如，诸如

的服务可以基于网站的访问者的数量对网站进行排名。

操作130B根据数据102、104和106生成特征110。例如，CSE系统100可以针对公司网站生成基于

排名的值。该值用作公司简档112中的访问者的数量。操作130C将同一公司的特征110一起组合成同一公司简档112。特征110可被归一化为类似的数据范围。特征110还可以包括由文本分类器116生成的主题矢量115。

操作130D将公司简档112和主题矢量115馈送到大公司分类器114中。大公司分类器114预测哪些公司简档112与具有多于1000名雇员的大公司相关联。大公司分类器114可以将大公司标签120附加到被预测为具有多于1000名雇员的公司简档112。

操作130E将公司简档112A和人口普查概率馈送到雇员数量范围预测器118中。范围预测器118预测公司简档112A的雇员数量范围122，并且还可以生成指示预测的雇员数量范围122的置信水平的概率值124。预测的雇员数量范围122也可以作为标签附加到公司简档112A。

特征

图3A和图3B更详细地说明了由图1中的特征生成器108生成的一些特征110。参照图1、图3A和图3B，操作140A中的特征生成器108接收政府档案数据102、网站数据104和人口普查数据106。可以定期扫描不同的数据源，并使用自动和手动过程来验证数据有效性。

特征F1：公司成立的年份

在操作140B中，特征生成器108可以生成识别公司成立的年份的特征F1。公司成立的年份可以从政府档案数据102或网站数据104中提取。例如，证券交易委员会档案和州注册文档可以识别公司的注册年份。向州务卿提交的其他业务档案也可以识别公司建立的年份。

特征F2：网站访问者的数量。

在操作140C中，特征生成器108可以生成识别公司网站的访问者的数量的特征F2。特征F2可以是指示由公司运营的网站的受欢迎程度的任何数值。如以上所提及的，诸如

的应用可以基于访问者数量对网站进行排名。特征生成器108可以基于排名位置将网站排名转换为1与0之间的归一化值，并且可以将归一化值分配给运营该网站的公司的公司简档112。

特征F3：社交媒体上的存在。

在操作140D中，特征生成器108可以生成识别公司在社交媒体上的存在的特征F3。在一个示例中，特征生成器108可以确定公司是否在某些社交媒体网站上具有账户。如果公司在某些社交媒体网站上具有账户，特征生成器108可以在不同的矢量场中生成值1。例如，特征生成器108可以生成指示公司在不同社交媒体网站上具有账户的二分类值，例如领英(LinkedIn)＝0/1、脸书(Facebook)＝0/1和推特(Twitter)＝0/1。当然，可以搜索任何其他网站以进一步确定公司的社交媒体存在。

特征F4：政府档案的数量。

在操作140E中，特征生成器108可以生成识别公司的政府档案的数量的特征F4。如以上所提及的，政府档案不限于在美国的城市、州和联邦级别处提交的文档。政府档案还可以包括任何其他国家中的档案，例如在英国(UK)档案、欧盟(EU)等中。特征生成器108可以从由不同政府机关运营的可公开访问的数据库中获取或识别政府档案。

政府档案的示例可以包括但不限于与雇员福利、SEC、签证的国土安全、非营利、法律、医疗、农业、有限责任公司(LLC)等有关的档案。一些政府档案可以包括与行业分类的层次结构相关联的NAICS代码。政府档案的数量和类型可以用作公司规模的预测指标。特征生成器108可以生成与公司的这些政府档案的数量成比例的数值。在另一示例中，特征生成器108可以生成二分类矢量值，每个二分类矢量值指示不同政府档案的存在/不存在。

特征F5：网络域的数量。

在操作140F中，特征生成器108可以生成识别由每个公司拥有和/或运营的网站/web域的数量的特征F5。例如，公司可以拥有针对不同的产品和/或组织的单独的网站。特征生成器108可以为其他实体的链接和名称爬取公司网站或政府文档。例如，公司网站的主页可以包括到由同一公司拥有的其他网站的链接。政府文档和网站域注册也可以包括由同一公司拥有的公司名称和域名的地址。

特征F6：办公位置的数量。

在操作140G中，特征生成器108可以生成识别与同一公司相关联的不同物理办公地址的数量的特征F6。例如，每次公司迁入新的办公地址时，办公名称和地址可以被提交到州务卿办公室。在另一示例中，公司网站可以列出公司的不同企业地址。特征生成器108可以爬取识别公司的不同物理办公位置的数量的公司网站页面和州务卿文档。与其他特征一样，特征生成器108可以对办公位置的数量进行归一化并将经归一化的数量保存为矢量值。

特征F7：邻居的数量。

在操作140H中，特征生成器108可以生成识别公司的邻居的数量的特征F7。特征生成器108可以考虑与邻居共享相同地址的两个公司。公司邻居的数量越多可以指示大体较小的公司，而公司邻居的数量越少可以指示较大的公司。特征生成器108可以从任何的政府文档102或网站数据104中识别公司地址。然后，特征生成器108可以比较所有公司简档112中的公司地址并且识别与邻居具有相同地址的任何公司。

特征F8：网站技术的数量/类型。

在操作140I中，特征生成器108可以生成识别在公司网站上使用的网站技术的数量或类型的特征F8。替选地，网站技术被称为技术图。公司网站可以使用不同的软件工具，每个软件工具都有相关联的成本。例如，公司网站可以使用诸如Google

(免费)的web分析软件、诸如

(中等成本)的表单应用软件以及诸如

或

(高成本)的销售和营销软件。

特征生成器108可以将不同的基于web的软件工具的成本先验识别为免费、中等或昂贵。特征生成器108可以使用web爬虫来识别在公司网站上运行的软件工具并将二分类标签分配给所识别的软件工具作为免费＝1/0、中等＝1/0或昂贵＝1/0。特征生成器108可以生成识别每个成本类别中软件工具的数量的特征F8。特征F8可以指示公司软件的复杂性，其中更昂贵的软件工具可能对应于更大、更成熟的公司。

特征F9：网页的类型。

在操作140J中，特征生成器108可以生成识别公司网站上的网页的类型的特征F9。特征生成器108可以针对特定类型的网页或到那些网页的链接爬取公司网站。例如，公司网站可以包括企业信息网页、职位发布网页、联系网页、投资者关系网页、法律条款网页和博客网页。这些网页的存在可以指示公司规模。例如，上市公司可能需要在其网站上提供企业信息网页。职位发布网页可以指示较大的公司。特征生成器108可以创建特征矢量F9，该特征矢量F9使用二分类值来表示这些不同类型的网页中的每一个的存在。

特征F10：基于文本的概率分数。

在操作140K中，文本分类器116可以生成基于文本的概率分数F10，其表示给定公司为大公司的概率。网页中使用的某些词语可以与公司规模对应。例如，诸如“大公司”、“不同大陆”、“国家”、“全球领导者”、“国际存在”、“土木工程”、“欧洲办事处”等的词语和短语可以对应于较大的公司。诸如本地、餐厅、清洁等词语或短语可以对应于较小的公司。

在一个示例中，基于文本的概率分数115由文本分类器116生成并输入到大公司分类器114中。在另一示例中，基于文本的概率分数115可以或可以不在雇员数量范围预测器118中使用。还应当理解，特征F1至F10中的任何特征或任何其他特征可以用作大公司分类器114或雇员数量范围预测器118的输入。

人口普查数据(先验知识)

图4示出了由特征生成器108接收到的示例人口普查数据106。人口普查数据106包括州标识符106A、行业代码106B和雇员规模范围106C。人口普查数据106还为指定的州106A、行业代码106B和雇员规模范围106C中的每一个识别公司的数量106D。在政府人口普查中提供所有人口普查数据106A至106D。

参照图4和图5，特征生成器108根据人口普查数据106生成概率160。例如，特征生成器108可以生成包括州标识符150A、行业代码150B和不同公司规模范围150C至150H的表150。特征生成器108针对每个州150A、行业代码150B和公司规模范围150C至150H计算概率160。

例如，特征生成器108可以将佐治亚州的行业代码为92的公司总数量相加。特征生成器108可以将佐治亚州中的具有行业代码为92和1至10名雇员的公司的数量除以佐治亚州中的具有行业代码为92的公司的总数量。所得到的比率0.60用作佐治亚州中的具有行业代码为92的公司拥有1至10名雇员的概率。特征生成器108为每个州150A、行业代码150B和公司规模范围150C至150H生成概率160。特征生成器108还可以为整个国家生成类似的概率。例如，特征生成器108可以将美国中的具有行业代码为92和1至10名雇员的公司的数量除以美国中的具有行业代码为92的公司的总数量。

特征生成器108将概率160作为特征添加到公司简档112。例如，特征生成器108可以识别包含在每个公司简档112中的行业代码150B和州。如以上所说明的，政府档案数据102和/或网站数据104可以包括办公地址和行业代码。然后，特征生成器108识别具有相同州150A和行业代码150B的公司规模范围150C至150H的一组概率160。特征生成器108可以将识别的该组概率160转换成六元素矢量并将概率矢量与匹配的公司简档112链接。

该组概率160被提供为到雇员数量范围预测器118中的输入。雇员数量范围预测器118可以在训练阶段期间或正常操作期间使用概率160，同时预测图1中的雇员数量范围122。例如，预测器118使用具有最高概率值160的公司规模范围作为初始猜测。预测器118还可以基于从人口普查数据106得出的对应先验知识概率160来调整图1中的概率124。

CSE系统100使用用于估计公司雇用规模的新颖方案，该新颖方案结合了异构的政府和网络数据源中的公开可获取信息。CSE系统100还可以很好地扩展到具有数百万个公司的数据集，并可以用于估计美国公司或其他国家的公司的规模。

硬件和软件

图6示出了可以用于操作CSE系统100并执行以上讨论的操作的任何组合的计算设备1000。计算设备1000可以在服务器-客户端网络环境中以服务器或客户端机器的能力进行操作，或者作为对等(或分布式)网络环境中的对等机器进行操作。在其他示例中，计算设备1000可以是托管在云基础设施、个人计算机(PC)、平板电脑、个人数字助理(PDA)、蜂窝电话、智能电话、web设备或能够执行指令1006(顺序地或其他方式)的任何其他机器或设备内的具有可选GPU支持的专用服务器，所述指令指定该机器要采取的动作。

虽然仅示出了单个计算设备1000，但是计算设备1000可以包括单独或联合执行一组(或多组)指令以执行以上讨论的操作中的任何一个或更多个操作的设备或电路的任何集合。计算设备1000可以是集成控制系统或系统管理器的一部分，或者可以被提供作为便携式电子设备，该便携式电子设备被配置成经由无线传输在本地或远程地与联网系统对接。

处理器1004可以包括中央处理单元(CPU)、图形处理单元(GPU)、可编程逻辑设备、专用处理器系统、微控制器或可以执行上述操作中的一些或全部的微处理器。处理器1004还可以包括但不限于模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

以上描述的一些操作可以在软件中实现，而其他操作可以在硬件中实现。本文中描述的操作、过程或方法中的一个或更多个可以由与本文中描述并参照附图的那些装置、设备或系统类似的装置、设备或系统来执行。

处理器1004可以执行存储在存储器1008、1010或1020中的任一个中的指令或“代码”1006。存储器也可以存储数据。也可以通过网络1014经由网络接口设备1012利用多种公知的传输协议中的任何一种传输协议来发送或接收指令1006和数据。

存储器1008、1010和1020可以与处理设备1000集成在一起，例如，设置在集成电路微处理器等内的RAM或FLASH存储器。在其他示例中，存储器可以包括独立设备，例如外部盘驱动器、存储阵列或在数据库系统中使用的任何其他存储设备。存储器和处理设备可以可操作地耦接在一起，或者例如通过I/O端口、网络连接等彼此通信，使得处理设备可以读取存储在存储器上的文件。

一些存储器可以由于权限设置而是依靠设计“只读”的(ROM)，或者不是。存储器的其他示例可以包括但不限于可以在固态半导体设备中实现的WORM、EPROM、EEPROM、FLASH等。其他存储器可以包括移动部件，例如传统的旋转盘驱动器。所有这样的存储器可以是“机器可读的”，因为它们可以被处理设备读取。

“计算机可读存储介质”(或替选地，“机器可读存储介质”)可以包括所有前述类型的存储器，以及未来可能出现的新技术，只要它们可以能够以计算机程序或其他数据的性质至少暂时地存储数字信息，使得所存储的信息可以被适当的处理设备“读取”即可。术语“计算机可读”可以不受限于“计算机”的历史使用以意指完整的大型机、小型计算机、台式机、无线设备，甚至是膝上型计算机。更确切地，“计算机可读”可以包括可以能够由处理器、处理设备或任何计算系统读取的存储介质。这样的介质可以是能够由计算机或处理器本地和/或远程访问的任何可用介质，并且可以包括易失性和非易失性介质，以及可移除和不可移除介质。

计算设备1000还可以包括诸如液晶显示器(LCD)或阴极射线管(CRT)的视频显示器1016以及诸如键盘、鼠标、触摸屏等的用户接口1018。所有计算设备1000的多个部件可以经由总线1002和/或网络连接在一起。

为方便起见，操作可以被描述为各种互连或耦接的功能块或图。然而，可能存在以下情况：这些功能块或图可以等效地聚合成具有不明确边界的单个逻辑设备、程序或操作。

已经描述和图示了优选实施方式的原理，显然可以在不脱离这样的原理的情况下，在布置和细节上修改实施方式。要求保护落入所附权利要求的精神和范围内的所有修改和变化。

Claims

1.一种存储在非暂态存储介质上的计算机程序，所述计算机程序包括一组指令，所述一组指令在由硬件处理器执行时，使所述硬件处理器执行以下操作：

从政府档案和网站接收与不同公司相关联的数据；

根据所述数据生成与所述公司相关联的特征；

将与相同公司相关联的特征组合成公司简档；以及

基于所述公司简档，使用一个或更多个机器学习模型来预测所述公司的规模。

2.根据权利要求1所述的计算机程序，其中，所述一组指令在由硬件处理器执行时还使所述硬件处理器执行以下操作：

使用第一机器学习模型来预测所述公司中的哪些公司在所选择的雇员阈值以上；以及

使用第二机器学习模型来预测在所选择的雇员阈值以下的公司的不同雇员数量范围。

3.根据权利要求2所述的计算机程序，其中，所述第一机器学习模型是二分类输出决策树模型，并且所述第二机器学习模型是线性回归模型。

4.根据权利要求1所述的计算机程序，其中，根据所述数据生成的所述特征中的一个特征标识了所述公司何时被创立。

5.根据权利要求1所述的计算机程序，其中，根据所述数据生成的所述特征中的一个特征与由所述公司运营的网站的访问者的数量相关联。

6.根据权利要求1所述的计算机程序，其中，根据所述数据生成的所述特征中的一个特征标识了所述公司所加入的不同社交媒体网站。

7.根据权利要求1所述的计算机程序，其中，根据所述数据生成的所述特征中的一个特征与所述公司的政府档案的数量相关联。

8.根据权利要求1所述的计算机程序，其中，根据所述数据生成的所述特征中的一个特征与所述公司所拥有的网站域的数量相关联。

9.根据权利要求1所述的计算机程序，其中，根据所述数据生成的所述特征中的一个特征与所述公司的办公地址的数量相关联。

10.根据权利要求1所述的计算机程序，其中，根据所述数据生成的所述特征中的一个特征和与所述公司共享相同办公地址的其他公司的数量相关联。

11.根据权利要求1所述的计算机程序，其中，根据所述数据生成的所述特征中的一个特征与在由所述公司运营的网站上使用的软件应用的数量、软件应用的类型或软件应用的成本相关联。

12.根据权利要求1所述的计算机程序，其中，根据所述数据生成的所述特征中的一个特征与由所述公司运营的网站上的网页的类型相关联。

13.根据权利要求1所述的计算机程序，其中，所述一组指令在由硬件处理器执行时还使所述硬件处理器执行以下操作：

生成位于由所述公司运营的网站上的网页中的文本的矢量表示；以及

使用所述矢量表示作为在用来预测所述公司的规模的所述公司简档中使用的特征之一。

14.根据权利要求1所述的计算机程序，其中，所述一组指令在由硬件处理器执行时还使所述硬件处理器执行以下操作：

接收人口普查数据；

识别所述人口普查数据中的行业分类；

识别公司分类中的每一个的雇员数量范围；

将所述行业分类的雇员数量范围转换成概率；以及

使用所述概率作为所述公司简档中的特征来匹配于行业分类，以预测所述公司的规模。

15.一种用于预测公司规模的装置，包括：

处理设备；

耦接至所述处理设备的存储设备，所述存储设备上存储有指令，所述指令响应于被所述处理设备执行而能够操作成：

识别由公司运营或使用的网站以及所述公司的政府档案；

识别所述网站和所述政府档案的与所述公司的雇员规模有关的特性；

根据所述网站和所述政府档案的特性来生成特征；

将相同公司的特征组合成公司简档；以及

使用所述公司简档来预测所述公司的雇员数量范围。

16.根据权利要求15所述的装置，其中，所述指令响应于被所述处理设备执行，还能够操作成将所述公司简档输入多个机器学习模型之一中以预测所述雇员数量范围。

17.根据权利要求15所述的装置，其中，所述指令响应于被所述处理设备执行，还能够操作成：

识别所述公司的政府档案的数量；以及

使用所述政府档案的数量作为所述公司简档中的特征之一。

18.根据权利要求15所述的装置，其中，所述指令响应于被所述处理设备执行，还能够操作成：

识别由所述公司运营的网站域的数量；以及

使用所述网站域的数量作为所述公司简档中的特征之一。

19.根据权利要求15所述的装置，其中，所述指令响应于被所述处理设备执行，还能够操作成：

识别相同公司的不同办公地址的数量；以及

使用所述不同办公地址的数量作为所述公司简档中的特征之一。

20.根据权利要求15所述的装置，其中，所述指令响应于被所述处理设备执行，还能够操作成：

识别与所述公司共享相同办公地址的其他公司的数量；以及

使用共享相同办公地址的其他公司的数量作为所述公司简档中的特征之一。

21.根据权利要求15所述的装置，其中，所述指令响应于被所述处理设备执行，还能够操作成：

识别由所述公司运营的网站上使用的软件应用的类型；以及

使用所述软件应用的类型作为所述公司简档中的特征之一。

22.根据权利要求15所述的装置，其中，所述指令响应于被所述处理设备执行，还能够操作成：

识别由所述公司运营的网站中的网页的类型；以及

使用所述网页的类型作为所述公司简档中的特征之一。

23.根据权利要求15所述的装置，其中，所述指令响应于被所述处理设备执行，还能够操作成：

使用所述矢量表示作为所述公司简档中使用的特征之一。

24.根据权利要求15所述的装置，其中，所述指令响应于被所述处理设备执行，还能够操作成：

识别人口普查数据中的行业分类；

识别公司分类中的每一个的雇员数量范围；

将所述行业分类的雇员数量范围转换成概率；以及

使用所述概率作为所述公司简档中的特征。