CN111209397B - 一种确定企业产业类别的方法 - Google Patents
一种确定企业产业类别的方法 Download PDFInfo
- Publication number
- CN111209397B CN111209397B CN201911392145.XA CN201911392145A CN111209397B CN 111209397 B CN111209397 B CN 111209397B CN 201911392145 A CN201911392145 A CN 201911392145A CN 111209397 B CN111209397 B CN 111209397B
- Authority
- CN
- China
- Prior art keywords
- industry
- matching
- enterprise
- label
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种确定企业产业类别的方法。该方法包括:设置二维产业标签矩阵;获取待分类企业的N个年度的企业信息;将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的每一个产业标签进行匹配,得到与N个年度的企业信息对应的N个匹配结果;根据所述N个匹配结果计算得到所述待分类企业的N个产业特征趋势值;根据待分类企业的N个产业特征趋势值确定待分类企业的行业类别。通过使用上述确定企业产业类别的方法,可以提高企业分类的精度,进而提高用户的体验度。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种确定企业产业类别的方法。
背景技术
随着互联网的蓬勃发展,企业信息已进入互联网时代,企业越来越多的信息被公开在互联网的各大免费平台上,例如工商登记信息、上市企业股市信息、企业财务信息、企业经营信息、企业风险信息、企业行政监管信息,这些信息像一个一个的孤岛散落在互联网的各个角落,如果要得到关注企业的产业类别,则需要到互联网的各大免费平台查询,人工将查询到的海量信息集中到一起,然后再将这些信息分类,得到企业的产业类别。然而,这种方式处理耗时长,无法及时更新企业信息,从而导致企业的产业类别信息不准确。
现有技术提供了网络爬虫程序,该程序可以自动从互联网的免费平台抓取企业的信息,通过这种方式,可以及时获取到企业的最新信息,进而通过分类处理,得到企业的产业类别。
现有技术还提供了将获取到的企业信息通过数据处理、信息建模等一定的技术手段进行归纳统计处理,从而得到企业的产业类别。
上述方式虽然可以得到企业的产业类别,但是在分类处理的过程中,都是基于获取到的企业信息,没有从现有的维度延伸分析,导致得到的企业的产业类别不够准确,进一步影响用户体验。
发明内容
有鉴于此,本发明提供了一种确定企业产业类别的方法,提高企业分类的精度以及用户的体验度。
本发明的技术方案具体是这样实现的:
一种确定企业产业类别的方法,该确定企业产业类别的方法包括:
设置二维产业标签矩阵,用于表示各个产业类别和产业标签的关系;所述二维产业标签矩阵包括多个产业单元;所述每个产业单元中设置一个或多个产业标签,每个产业标签均包括:一个或多个特征词;
获取待分类企业的N个年度的企业信息;所述N为大于1的整数;
将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的每一个产业标签进行匹配,得到与N个年度的企业信息对应的N个匹配结果;
根据所述N个匹配结果计算得到所述待分类企业的N个产业特征趋势值;
根据所述待分类企业的N个产业特征趋势值确定待分类企业的行业类别。
较佳的,为所述产业标签设置一个对应的权重。
较佳的,该方法还进一步包括:
对所述企业信息进行处理,使得所述企业信息具有预先设置的信息格式。
较佳的,所述将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的产业标签进行匹配包括:
为所述二维产业标签矩阵中的每一个产业标签均设置N个产业标签匹配记录,所述N个产业标签匹配记录分别对应于N个年度的企业信息;
对于每一个年度的企业信息,将企业信息与所述二维产业标签矩阵中的每一个产业标签的特征词匹配,并将匹配结果存储在与该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中;
根据每一个产业标签匹配记录的匹配标识数据计算得到每一个产业标签匹配记录的匹配值;
根据每一个产业标签匹配记录的匹配值得到与N个年度的企业信息对应的N个匹配结果。
较佳的,所述对于每一个年度的企业信息,将企业信息与所述二维产业标签矩阵中的每一个产业标签的特征词匹配,并将匹配结果存储在与该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中包括:
将所企业信息进行分组,形成M组分组信息,并为每组分组信息设置相应的分组权重;所述M为自然数;
将每一组分组信息分别与所述二维产业标签矩阵中的每一个产业标签中的特征词进行匹配,并将匹配结果存储在该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中。
较佳的,所述将每一组分组信息分别与所述二维产业标签矩阵中的每一个产业标签中的特征词进行匹配,并将匹配结果存储在该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中包括:
对该分组信息进行分词,并将分词后的得到的每一个词都分别与所述二维产业标签矩阵中的每一个产业标签进行匹配;
将该分组信息的名称以及该分组信息的匹配次数作为一个匹配标识数据存储到该分组信息所在的年度的企业信息所对应的产业标签匹配记录中。
较佳的,该方法还进一步包括:
按照所述二维产业标签矩阵的结构,将一个年度的企业信息所对应的所有产业标签匹配记录组成一个产业标签匹配记录矩阵。
较佳的,对于所述产业标签匹配记录矩阵中的每一个产业标签匹配记录,如果所述产业标签匹配记录的匹配值大于0时,则将所述产业标签匹配记录在所述产业标签匹配记录矩阵中所对应的图标记为■,如果所述产业标签匹配记录的匹配值等于0时,则将所述产业标签匹配记录在所述产业标签匹配记录矩阵中所对应的图标记为□,以形成特征点阵图,并将所述特征点阵图作为企业信息所对应的匹配结果。
较佳的,所述根据待分类企业的N个产业特征趋势值确定待分类企业的行业类别包括:
将所述待分类企业的N个产业特征趋势值中的每个产业类别的各个年度的特征趋势值从大到小排序,取出前U个特征趋势值,将这U个特征趋势值之和作为该产业类别的匹配度值,并将匹配度值最大的产业类别作为待分类企业的行业类别;所述U为自然数。
较佳的,所述的二维产业标签矩阵的每一个产业标签的内容根据企业样本信息更新包括:
获取待更新的产业标签所对应产业的企业样本信息;
对所述的企业样本信息进行分词,并将分词后的所有信息存入一个匹配集合中;
将所述的匹配集合中的每一个词都分别与待更新的产业标签进行匹配,当匹配集合中的一个词与所述的产业标签匹配时,将该词的计数加一,同时所述的待更新的产业标签的特征词的计数也加一;
当所述匹配集合中的所有词都匹配完成后,将所述待更新的产业标签的特征词计数从小到大排序,取出前V个词作为低命中词;找出所述的匹配集合中没有被所述的待更新的产业标签命中的词,并计算这些词在所述的企业样本信息中出现次数,将这些词的出现次数从大到小排序,取出前V个次数对应的词作为高频词,用所述的高频词替换所述的待更新的产业标签中的低命中词;所述V为自然数;
重复循环执行如上的步骤,直至循环次数达到预设的循环次数阈值。
如上可见,在本发明的确定企业产业类别的方法中,由于设置了二维产业标签矩阵;获取待分类企业的N个年度的企业信息;将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的每一个产业标签进行匹配,得到与N个年度的企业信息对应的N个匹配结果;根据所述N个匹配结果计算得到所述待分类企业的N个产业特征趋势值;根据待分类企业的N个产业特征趋势值确定待分类企业的行业类别。因此,通过使用上述确定企业产业类别的方法,可以提高企业分类的精度,进而提高用户的体验度。
附图说明
图1为本发明实施例中的确定企业产业类别的方法的流程示意图。
图2为本发明实施例中的-二维产业标签矩阵的示意图一。
图3为本发明实施例中的特征点阵图。
图4为本发明实施例中的产业特征趋势图。
图5为本发明实施例中的二维产业标签矩阵的示意图二。
图6为本发明实施例中的二维产业标签矩阵中的产业标签的示意图一。
图7为本发明实施例中的待分类企业的企业信息的示意图一。
图8为本发明实施例中的待分类企业的企业信息的示意图二。
图9为本发明实施例中的待分类企业的企业信息匹配结果的示意图一。
图10为本发明实施例中的待分类企业的企业信息匹配结果的示意图二。
图11为本发明实施例中的待分类企业的企业信息匹配结果的示意图三。
图12为本发明实施例中的待分类企业的企业信息匹配结果的示意图四。
图13为本发明实施例中的待分类企业的企业信息匹配结果的示意图五。
图14为本发明实施例中的待分类企业的企业信息匹配结果的示意图六。
具体实施方式
为使本发明的技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明作进一步详细的说明。
图1为本发明实施例中的确定企业产业类别的方法的流程示意图,该方法包括以下步骤:
步骤101,设置二维产业标签矩阵。
在本发明的技术方案中,预先设置一个二维产业标签矩阵,用于表示各个产业类别和产业标签的关系。所述二维产业标签矩阵包括多个产业单元,多个产业单元组合成为一个矩阵。
例如,作为示例,如图2所示,在本发明的一个较佳的具体实施例中,可以将上述二维产业标签矩阵的横坐标设置为产业大类,并将纵坐标设置为产业小类,因此,在上述的上述二维产业标签矩阵中,一个产业大类中的一个产业小类将唯一对应于一个产业单元D11。
再例如,在本发明中的另一个较佳的具体实施例中,可以在每个产业单元D11中预设一个或多个产业标签C101。其中,每个产业标签均包括:一个或多个特征词。另外,还可以为每一个产业标签C101预先设置一个对应的权重。
步骤102,获取待分类企业的N个年度的企业信息。
在本发明的技术方案中,如果需要确定某一个企业所属的产业类别,则需要先获取该企业的相关信息(即企业信息)。另外,为了更全面的分析该企业的情况,可以获取该企业在不同年度的企业信息。因此,在本步骤中,将获取该企业在N个年度的企业信息。其中,N为大于1的整数。
当然,在本发明的技术方案中,可以根据实际应用场景的需要来预设N的取值。例如,作为示例,在本发明的一个较佳的具体实施例中,所述N的取值可以是5或10,也可以是其它的取值。
另外,作为示例,在本发明的一个较佳的具体实施例中,可以对所获取的每一个年度的企业信息进行处理,使得所述企业信息具有预先设置的信息格式,以便于进行后续的数据处理工作。
例如,作为示例,在本发明的一个较佳的具体实施例中,可以将所述企业信息根据预设的分组策略进行分组,形成一个或多个组信息。例如,作为示例,在本发明的一个较佳的具体实施例中,所述分组策略为信息类别。另外,还可以为每一个组信息预先设置一个对应的权重。
另外,作为示例,在本发明的一个较佳的具体实施例中,所述待分类企业信息包含企业的工商登记信息、企业的发展情况、企业的股市情况、企业的经营状况,按照信息类别将所述企业信息分为三组,分别为:登记分组信息、股市分组信息、经营分组信息,将企业的工商登记信息和企业的发展情况划分到登记分组信息;将企业的股市情况划分到股市分组信息;将企业的经营状况划分到经营分组信息。
另外,在本发明的技术方案中,可以根据实际应用情况的需要,使用合适的方式获取所述的企业信息。
例如,作为示例,在本发明的一个较佳的具体实施例中,所述企业信息采用预设的网络爬虫装置获取。
步骤103,将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的每一个产业标签进行匹配,得到与N个年度的企业信息对应的N个匹配结果。
在本发明的技术方案中,可以通过多种方式来进行上述的匹配操作,以下将以其中的一种具体实现方式为例,对本发明的技术方案进行介绍。
例如,作为示例,在本发明的一个较佳的具体实施例中,所述将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的每一个产业标签进行匹配可以包括:
步骤1030,为所述二维产业标签矩阵中的每一个产业标签均设置N个产业标签匹配记录,所述N个产业标签匹配记录分别对应于N个年度的企业信息。
在本发明的技术方案中,由于有N个年度的企业信息需要分别与所述二维产业标签矩阵中的每一个产业标签都进行匹配,因此,对于每一个产业标签来说,都需要进行N次匹配,并产生N个匹配结果。
所以,在本步骤中,将为所述二维产业标签矩阵中的每一个产业标签均设置N个相对应的产业标签匹配记录;其中,一个产业标签的N个产业标签匹配记录可以分别对应N个年度的企业信息,从而可以在后续步骤中分别存储上述N个年度的企业信息与该产业标签进行匹配时的N次匹配结果。
例如,当所述N为4时,4个年度的企业信息都需要分别与所述二维产业标签矩阵中的每一个产业标签都进行匹配。此时,可以为所述二维产业标签矩阵中的每一个产业标签设置4个相对应的产业标签匹配记录,分别对应于该产业标签与4个年度的企业信息的匹配结果。
举例来说,对于图2中所示的产业标签C101,将为该产业标签设置4个相对应的产业标签匹配记录:产业标签匹配记录C101’、产业标签匹配记录C101”、产业标签匹配记录C101”’、产业标签匹配记录C101””。上述4个产业标签匹配记录可以分别对应4个年度的企业信息,用于存储该产业标签C101与4个年度的企业信息的匹配结果。
例如,产业标签匹配记录C101’可以用于存储产业标签C101与第1个年度的企业信息的匹配结果;产业标签匹配记录C101”可以用于存储产业标签C101与第2个年度的企业信息的匹配结果;产业标签匹配记录C101”’可以用于存储产业标签C101与第3个年度的企业信息的匹配结果;产业标签匹配记录C101””可以用于存储产业标签C101与第4个年度的企业信息的匹配结果。
同理,可以按照上述的方式为所述二维产业标签矩阵中的每一个产业标签均设置4个相应的产业标签匹配记录,在此不再赘述。
另外,为了存储相应的匹配结果,所述产业标签匹配记录可以包括:所对应的产业标签的标识以及一个或多个匹配标识,其中,所述产业标签匹配记录的匹配标识,用于记录该产业标签匹配记录所对应的产业标签的匹配结果。每一个匹配标识均包括分组信息的名称、产业标签在该分组信息的匹配次数。
步骤1031,对于每一个年度的企业信息,将企业信息与所述二维产业标签矩阵中的每一个产业标签的特征词匹配,并将匹配结果存储在与该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中。
在本发明的技术方案中,可以通过多种方式来实现上述的步骤1031,以下将以其中的一种具体实现方式为例,对本发明的技术方案进行介绍。
例如,作为示例,在本发明的一个较佳的具体实施例中,所述将企业信息与所述二维产业标签矩阵中的每一个产业标签的特征词匹配,并将匹配结果存储在与该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中可以包括:
步骤10311,将所企业信息进行分组,形成M组分组信息,并为每组分组信息设置相应的分组权重。
在本发明的技术方案中,所述企业信息可以包含多方面的信息,例如,企业的工商信息、企业的股市信息、企业的经营信息等等。因此,在本步骤中,为了方便与所述产业标签进行匹配,可以将所述企业信息根据预设的分组策略(例如按照类别)进行分组,形成M组分组信息,并为每组分组信息设置相应的分组权重。
步骤10312,将每一组分组信息分别与所述二维产业标签矩阵中的每一个产业标签中的特征词进行匹配,并将匹配结果存储在该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中。
在本发明的技术方案中,可以通过多种方式来进行上述的匹配操作,以下将以其中的一种具体实现方式为例,对本发明的技术方案进行介绍。
例如,作为示例,在本发明的一个较佳的具体实施例中,所述步骤10312可以包括:
步骤103121,对该分组信息进行分词,并将分词后的得到的每一个词都分别与所述二维产业标签矩阵中的每一个产业标签进行匹配;
步骤103132,将该分组信息的名称以及该分组信息的匹配次数作为一个匹配标识数据存储到该分组信息所在的年度的企业信息所对应的产业标签匹配记录中。
在本发明的技术方案中,在进行上述的匹配操作是,当分词后得到的一个词与一个产业标签中的特征词匹配(即相同)时,即可将该分组信息的匹配次数加一。当分词后得到的每一个词都与所述二维产业标签矩阵中的每一个产业标签的特征词完成匹配操作之后,即可将该分组信息的名称以及该分组信息的匹配次数作为一个匹配标识数据存储在该分组信息所在的年度的企业信息所对应的产业标签匹配记录中。
在本发明的技术方案中,可以根据上述的匹配操作的不同匹配结果对所对应的匹配标识数据作不同的处理。
例如,作为示例,在本发明的一个较佳的具体实施例中,按照分组信息的名称在所述产业标签匹配记录的匹配标识数据中查找是否存在对应的匹配标识数据,如果不存在,则新建一个匹配标识数据,将所述分组信息的名称以及该分组信息的匹配次数作为一个匹配标识数据存储在该分组信息所在的年度的企业信息所对应的产业标签匹配记录中。
步骤1032,根据每一个产业标签匹配记录的匹配标识数据计算得到每一个产业标签匹配记录的匹配值;
在本发明的技术方案中,由于已经在步骤1031中将每一个年度的企业信息与所述二维产业标签矩阵中的每一个产业标签中的特征词的匹配结果都存储在与该年度的企业信息对应的产业标签匹配记录中,因此在本步骤中即可根据每一个产业标签匹配记录中的匹配标识数据计算得到每一个产业标签匹配记录的匹配值。
在本发明的技术方案中,可以使用多种计算方法来计算每一个产业标签匹配记录的匹配值,以下将以其中的一种具体实现方式为例,对本发明的技术方案进行介绍。
例如,作为示例,在本发明一个较佳的具体实施例中,可以根据该产业标签匹配记录所对应的产业标签的权重、该产业标签匹配记录所对应的匹配标识数据中的各个分组信息的匹配次数以及对应的各个分组信息的分组权重进行计算,计算得到该产业标签匹配记录的匹配值。
例如,可以通过如下所示的公式计算得到产业标签匹配记录的匹配值:
产业标签匹配记录的匹配值=产业标签的权重×(分组信息1的匹配次数×分组信息1的分组权重+分组信息2的匹配次数×分组信息2的分组权重+……+分组信息N的匹配次数×分组信息N的分组权重)。
步骤1033,根据每一个产业标签匹配记录的匹配值得到与N个年度的企业信息对应的N个匹配结果。
例如,作为示例,在本发明的一个较佳的具体实施例中,可以按照所述二维产业标签矩阵的结构,将一个年度的企业信息所对应的所有产业标签匹配记录组成一个产业标签匹配记录矩阵。例如,将第1年度的企业信息所对应的所有产业标签匹配记录组成第1个产业标签匹配记录矩阵,将第2年度的企业信息所对应的所有产业标签匹配记录组成第2个产业标签匹配记录矩阵,……,依次类推。因此,如果待分类企业有N个年度的企业信息,则可以组成与N个年度的企业信息相对应的N个产业标签匹配记录矩阵。
另外,对于产业标签匹配记录矩阵中的每一个产业标签匹配记录,如果该产业标签匹配记录的匹配值大于0时,则将该产业标签匹配记录在产业标签匹配记录矩阵中所对应的图标记为■,如果该产业标签匹配记录的匹配值等于0时,则将该产业标签匹配记录在产业标签匹配记录矩阵中所对应的图标记为□。依次类推,即可形成如图3所示的特征点阵图,并可将该特征点阵图作为企业信息所对应的匹配结果。
因此,在对N个年度的企业信息均进行上述操作之后,将会得到N个匹配结果,从而可以得到N个特征点阵图。
步骤104,根据所述N个匹配结果计算得到所述待分类企业的N个产业特征趋势值。
在本发明的技术方案中,对于所述的每一个匹配结果进行如下操作:
找出所述匹配结果中的所有匹配值大于0的产业标签匹配记录所对应的产业标签所属的产业单元,以及该产业单元所属的产业类别;
将上述产业单元中的每一个产业单元中的所有产业标签所对应的产业标签匹配记录的匹配值之和作为该产业单元的产业特征趋势值;
根据每一个产业类别的所有产业单元的产业特征趋势值以及所对应年度的年度权重进行加权平均计算,并将计算得到的值作为该产业类别的产业特征趋势值。
N个匹配结果按照上述步骤操作完后,形成所述待分类企业的N个特征趋势值。
在本发明的技术方案中,可以根据实际情况的需要,将所述待分类企业的产业特征趋势值展现为不同的形式,以下将以其中的一种具体实现方式为例,对本发明的技术方案进行介绍。
例如,作为示例,在本发明的一个较佳的具体实施例中,所述N个特征趋势值是根据所述待分类企业的N个年度的企业信息与所述二维产业标签矩阵的匹配结果计算得到的,因此,可以预先设置一个二维产业趋势坐标系,用来表示所述二维产业标签矩阵中的各个产业类别在各个年度的产业特征趋势情况。该二维产业趋势坐标系的横坐标设置为年度,并将纵坐标设置为产业特征趋势值。因此,在该二维产业趋势坐标系中,一个产业类别的每一年度的产业特征趋势情况将唯一对应于一个产业特征趋势值。
另外,将N个特征趋势值中每一个产业类别的每一个年度的特征趋势值在上述的二维产业趋势坐标系中所对应的位置标记为一个小圆点,将该产业类别所有年度的小圆点依次连接起来,就可以得到所待分类企业在该产业类别上的产业特征趋势线,依次类推,即可形成如图4所示的该待分类企业的产业特征趋势图。
步骤105,根据待分类企业的N个产业特征趋势值确定待分类企业的行业类别。
在本发明的技术方案中,将所述待分类企业的N个产业特征趋势值中的每个产业类别的各个年度的特征趋势值从大到小排序,取出前3个特征趋势值,将这3个特征趋势值之和作为该产业类别的匹配度值。匹配度值最大的产业类别即为待分类企业的行业类别。
另外,所述的二维产业标签矩阵的每一个产业标签的内容可根据企业样本信息更新,包括以下步骤:
获取待更新的产业标签所对应产业的企业样本信息;
对所述的企业样本信息进行分词,并将分词后的所有信息存入一个匹配集合中;
将所述的匹配集合中的每一个词都分别与待更新的产业标签进行匹配,当匹配集合中的一个词与所述的产业标签匹配(即相同)时,将该词的计数加一,同时所述的待更新的产业标签的特征词的计数也加一;
当所述的匹配集合中的所有词都匹配完成后,将所述的待更新的产业标签的特征词计数从小到大排序,取出前10个词作为低命中词;找出所述的匹配集合中没有被所述的待更新的产业标签命中的词,并计算这些词在所述的企业样本信息中出现次数,将这些词的出现次数从大到小排序,取出前10个次数对应的词作为高频词,用所述的高频词替换所述的待更新的产业标签中的低命中词;
重复循环执行如上的步骤,直至循环次数达到预设的循环次数阈值。所述的二维产业标签矩阵中的产业标签的特征词越来越丰富,进而使得企业分类更加精细。
以下将以一个具体实施例的方式,对确定企业产业类别的方法进行描述。
具体实施例一、
步骤A101,设置二维产业标签矩阵。
请参见图5,在图5所示的二维产业标签矩阵中,将所述二维产业标签矩阵的横坐标为产业大类,并将纵坐标为产业小类,因此,在所述的二维产业标签矩阵中,一个产业大类中的一个产业小类往往唯一对应于一个产业单元。
大类2包括产业单元SD11、产业单元SD22、产业单元SD33。其中,所述的产业单元SD11包括产业标签SC101、产业标签SC102;所述的产业单元SD22包括产业标签SC201、产业标签SC202;所述的产业单元SD33包括产业标签SC301、产业标签SC302。
大类4包括产业单元SD44、产业单元SD55、产业单元SD66。其中,所述的产业单元SD44包括产业标签SC401、产业标签SC402;所述的产业单元SD55包括产业标签SC501、产业标签SC502;所述的产业单元SD66包括产业标签SC601、产业标签SC602。
请参见图6,为上述的每一个产业标签设置如图6所示的特征词和权重。
步骤A102,获取待分类企业A的最近4个年度的企业信息。
在本发明的技术方案中,采用预设的网络爬虫装置获取待分类企业A如图7所示的最近4个年度的企业信息。
步骤A103,将所获取的待分类企业A的4个年度的企业信息分别与所述二维产业标签矩阵中的产业标签进行匹配,得到与4个年度的企业信息对应的4个匹配结果。
在本发明的技术方案中,由于有4个年度的企业信息需要分别与所述二维产业标签矩阵中的每一个产业标签都进行匹配,因此,对于每一个产业标签来说,都需要进行4次匹配,并产生4个匹配结果。
所以,在本步骤中,将为所述二维产业标签矩阵中的每一个产业标签均设置4个相对应的产业标签匹配记录;其中,一个产业标签的4个产业标签匹配记录可以分别对应4个年度的企业信息,从而可以在后续步骤中分别存储上述4个年度的企业信息与该产业标签进行匹配时的N次匹配结果。
例如,对于图5所示的二维产业标签矩阵的产业标签SC101设置4个相对应的产业标签匹配记录,分别为产业标签匹配记录SC101’、产业标签匹配记录SC101”、产业标签匹配记录SC101”’、产业标签匹配记录SC101””,其中,产业标签匹配记录SC101’对应于2016年度的企业信息,用于存储该产业标签SC101与2016年的企业信息的匹配结果。产业标签匹配记录SC101”对应于2017年度的企业信息,,用于存储该产业标签SC101与2017年的企业信息的匹配结果。产业标签匹配记录SC101”’对应于2018年度的企业信息,用于存储该产业标签SC101与2018年的企业信息的匹配结果。产业标签匹配记录SC101””对应于2019年度的企业信息,,用于存储该产业标签SC101与2019年的企业信息的匹配结果。
同理,可以按照上述的方式为所述二维产业标签矩阵中的每一个产业标签均设置4个相应的产业标签匹配记录,在此不再赘述。
请参见图7,将如图7所示的企业A的2016年度的企业信息按照信息类别进行分组,形成三组分组信息,即分组信息1、分组信息2、分组信息3,并为分组信息1设置一个分组权重70%,分组信息2设置一个分组权重25%,分组信息3设置一个分组权重5%。依次类推,得到如图8所示的企业A的各个年度的分组信息。
将企业A的2016年度的分组信息1进行分词,将分词后的所有词语“北京”、“***”、“A1”、“贸易”、“有限”、“公司”中的每一个词都分别与所述产业标签SC101的特征词进行匹配,匹配完成后,所述产业标签SC101中的特征词“A1”被匹配上,因此,分组信息1的匹配次数为1。将该分组信息的名称“分组信息1”和该分组信息的匹配次数“1”作为一个匹配标识数据存储到2016年度的企业信息所对应的产业标签匹配记录SC101’中。
按照上述的方法,将企业A的2016年度的分组信息2与所述产业标签SC101进行匹配,匹配完成后,所述产业标签SC101中的特征词“A4”、“A2”、“A7”被匹配上,因此,分组信息2的匹配次数为3。将该分组信息的名称“分组信息2”和该分组信息的匹配次数“3”作为一个匹配标识数据存储到2016年度的企业信息所对应的产业标签匹配记录SC101’中。
按照上述的方法,将企业A的2016年度的分组信息3与所述产业标签SC101进行匹配,匹配完成后,所述产业标签SC101中的特征词均未被命中,因此,分组信息3的匹配次数为0。将该分组信息的名称“分组信息3”和该分组信息的匹配次数“0”作为一个匹配标识数据存储到2016年度的企业信息所对应的产业标签匹配记录SC101’中。
根据所述产业标签匹配记录SC101’所对应的产业标签SC101的权重、产业标签匹配记录SC101’所对应的匹配标识数据中的各个分组信息的匹配次数以及对应的各个分组信息的分组权重通过如下所示的公式进行计算,得到该产业标签匹配记录SC101’的匹配值:
产业标签匹配记录SC101’的匹配值=产业标签SC101的权重×(分组信息1的匹配次数×分组信息1的分组权重+分组信息2的匹配次数×分组信息2的权重+分组信息3的匹配次数×分组信息3的权重)
即60%×(1×70%+3×25%+0×5%)=0.87
按照如上的方法,将2016年度的企业A的企业信息的每组分组信息与所述二维产业标签矩阵中的每一个产业标签进行匹配,匹配完成后,得到如图9所示的匹配结果。
同理,企业A的2017、2018、2019年度三个年度的企业信息也按照2016年度匹配的方法与所述的二维产业标签矩阵中的所有产业标签进行匹配,匹配完成后,得到如图10、图11、图12所示的匹配结果。
步骤A104,根据所述4个匹配结果计算得到所述待分类企业的4个产业特征趋势值。
在本发明的技术方案中,分别为4个年度预先设置一个对应的年度权重,例如,为2016年设置一个对应的年度权重20%,为2017年设置一个对应的年度权重80%,为2018年设置一个对应的年度权重80%,为2019年设置一个对应的年度权重80%。
在如图9所示的2016年度的企业A的匹配结果中,先分别计算每个产业单元的所有产业标签的匹配值之和,所得到的值作为该产业单元的产业特征趋势值,因此,得到所述产业单元SD11的产业特征趋势值为0.89,所述产业单元SD22的产业特征趋势值为0.28,所述产业单元SD33的产业特征趋势值为0.35。再根据产业单元SD11、产业单元SD22、产业单元SD33的产业特征趋势值以及该产业特征趋势值所对应的年度的年度权重进行加权平均计算,所得到的值作为大类2的产业特征趋势值。
依次类推,得到如图13所示的4个年度的大类2、大类4的产业趋势值。
所述4个特征趋势值是根据企业A的4个年度的企业信息与所述二维产业标签矩阵的匹配结果计算得到的,因此,可以预先设置一个二维产业趋势坐标系,用来表示所述二维产业标签矩阵中的各个产业类别在各个年度的产业特征趋势情况。将该二维产业趋势坐标系的横坐标设置为年度,并将纵坐标设置为产业特征趋势值。因此,在该二维产业趋势坐标系中,一个产业类别的每一年度的产业特征趋势情况将唯一对应于一个产业特征趋势值。
另外,将4个特征趋势值中每一个产业类别的每一个年度的特征趋势值在上述的二维产业趋势坐标系中所对应的位置标记为一个小圆点,将该产业类别所有年度的小圆点依次连接起来,就可以得到所述待分类企业在该产业类别上的产业特征趋势线,依次类推,即可形成如图14所示的该待分类企业的产业特征趋势图。
步骤A105,根据企业A的4个产业特征趋势值确定企业A的行业类别。
请参见图14,在如图14所示中,企业A在大类2中,将4个年度的产业特征趋势值从大到小排列,取出前3个产业特征趋势值,并将他们之和0.97作为大类2的匹配度值。
企业A在大类4中,将4个年度的产业特征趋势值从大到小排列,取出前3个产业特征趋势值,并将他们之和1.37作为大类2的匹配度值。
由上可得出,企业A在大类4中的匹配度值最大,表明企业A于大类4匹配度强,因此,企业A的行业类别是大类4。
综上所述,在本发明的技术方案中,由于设置了二维产业标签矩阵;获取待分类企业的N个年度的企业信息;将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的每一个产业标签进行匹配,得到与N个年度的企业信息对应的N个匹配结果;根据所述N个匹配结果计算得到所述待分类企业的N个产业特征趋势值;根据待分类企业的N个产业特征趋势值确定待分类企业的行业类别。因此,通过使用上述确定企业产业类别的方法,从而可以提高企业分类的精度,进而提高用户的体验度。
上述本发明实施例中的方法适用于各种网络或者客户端环境中,例如可以实现在诸如个人计算机设备之类的计算机设备中,或者可以实现在诸如移动电话、移动通信设备、个人数字助理(PDA)等其他便携式电子设备或者非便携式电子设备中。因此本领域技术人员要明确的是,本发明的保护范围并不限于PC上运行浏览器中的网页标签的实时管理功能,仅是出于描述的简洁和方便而在本发明实施例中采用了PC上运行浏览器中的网页标签的实时管理功能进行描述。
最后,还需要说明的是,在本文中的“和/或”表示本文既包含了“和”的关系,也包含了“或”的关系,
其中:如果方案A与方案B是“和”的关系,则表示某实施例中可以同时包括方案A和方案B;如果方案A与方案B是“或”的关系,则表示某实施例中可以单独包括方案A,或者单独包括方案B。
以上对本发明所提供的一种确定企业产业类别的方法,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种确定企业产业类别的方法,其特征在于,包括:
设置二维产业标签矩阵,用于表示各个产业类别和产业标签的关系;所述二维产业标签矩阵包括多个产业单元;所述每个产业单元中设置一个或多个产业标签,每个产业标签均包括:一个或多个特征词;
获取待分类企业的N个年度的企业信息;所述N为大于1的整数;
将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的每一个产业标签进行匹配,得到与N个年度的企业信息对应的N个匹配结果;
根据所述N个匹配结果计算得到所述待分类企业的N个产业特征趋势值;
根据所述待分类企业的N个产业特征趋势值确定待分类企业的行业类别。
2.根据权利要求1所述的确定企业产业类别的方法,其特征在于,
为所述产业标签设置一个对应的权重。
3.根据权利要求1所述的确定企业产业类别的方法,其特征在于,该方法还进一步包括:
对所述企业信息进行处理,使得所述企业信息具有预先设置的信息格式。
4.根据权利要求1所述的确定企业产业类别的方法,其特征在于,所述将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的产业标签进行匹配包括:
为所述二维产业标签矩阵中的每一个产业标签均设置N个产业标签匹配记录,所述N个产业标签匹配记录分别对应于N个年度的企业信息;
对于每一个年度的企业信息,将企业信息与所述二维产业标签矩阵中的每一个产业标签的特征词匹配,并将匹配结果存储在与该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中;
根据每一个产业标签匹配记录的匹配标识数据计算得到每一个产业标签匹配记录的匹配值;
根据每一个产业标签匹配记录的匹配值得到与N个年度的企业信息对应的N个匹配结果。
5.根据权利要求4所述的确定企业产业类别的方法,其特征在于,所述对于每一个年度的企业信息,将企业信息与所述二维产业标签矩阵中的每一个产业标签的特征词匹配,并将匹配结果存储在与该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中包括:
将所企业信息进行分组,形成M组分组信息,并为每组分组信息设置相应的分组权重;所述M为自然数;
将每一组分组信息分别与所述二维产业标签矩阵中的每一个产业标签中的特征词进行匹配,并将匹配结果存储在该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中。
6.根据权利要求5所述的确定企业产业类别的方法,其特征在于,所述将每一组分组信息分别与所述二维产业标签矩阵中的每一个产业标签中的特征词进行匹配,并将匹配结果存储在该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中包括:
对该分组信息进行分词,并将分词后的得到的每一个词都分别与所述二维产业标签矩阵中的每一个产业标签进行匹配;
将该分组信息的名称以及该分组信息的匹配次数作为一个匹配标识数据存储到该分组信息所在的年度的企业信息所对应的产业标签匹配记录中。
7.根据权利要求4所述的确定企业产业类别的方法,其特征在于,该方法还进一步包括:
按照所述二维产业标签矩阵的结构,将一个年度的企业信息所对应的所有产业标签匹配记录组成一个产业标签匹配记录矩阵。
8.根据权利要求7所述的确定企业产业类别的方法,其特征在于:
对于所述产业标签匹配记录矩阵中的每一个产业标签匹配记录,如果所述产业标签匹配记录的匹配值大于0时,则将所述产业标签匹配记录在所述产业标签匹配记录矩阵中所对应的图标记为■,如果所述产业标签匹配记录的匹配值等于0时,则将所述产业标签匹配记录在所述产业标签匹配记录矩阵中所对应的图标记为□,以形成特征点阵图,并将所述特征点阵图作为企业信息所对应的匹配结果。
9.根据权利要求1所述的确定企业产业类别的方法,其特征在于,所述根据待分类企业的N个产业特征趋势值确定
待分类企业的行业类别包括:
将所述待分类企业的N个产业特征趋势值中的每个产业类别的各个年度的特征趋势值从大到小排序,取出前U个特征趋势值,将这U个特征趋势值之和作为该产业类别的匹配度值,并将匹配度值最大的产业类别作为待分类企业的行业类别;所述U为自然数。
10.根据权利要求1所述的确定企业产业类别的方法,其特征在于,该方法还进一步包括:二维产业标签矩阵的每一个产业标签的内容根据企业样本信息更新;具体包括如下步骤:
获取待更新的产业标签所对应产业的企业样本信息;
对所述的企业样本信息进行分词,并将分词后的所有信息存入一个匹配集合中;
将所述的匹配集合中的每一个词都分别与待更新的产业标签进行匹配,当匹配集合中的一个词与所述的产业标签匹配时,将该词的计数加一,同时所述的待更新的产业标签的特征词的计数也加一;
当所述匹配集合中的所有词都匹配完成后,将所述待更新的产业标签的特征词计数从小到大排序,取出前V个词作为低命中词;找出所述的匹配集合中没有被所述的待更新的产业标签命中的词,并计算这些词在所述的企业样本信息中出现次数,将这些词的出现次数从大到小排序,取出前V个次数对应的词作为高频词,用所述的高频词替换所述的待更新的产业标签中的低命中词;所述V为自然数;
重复循环执行如上的步骤,直至循环次数达到预设的循环次数阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911392145.XA CN111209397B (zh) | 2019-12-30 | 2019-12-30 | 一种确定企业产业类别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911392145.XA CN111209397B (zh) | 2019-12-30 | 2019-12-30 | 一种确定企业产业类别的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111209397A CN111209397A (zh) | 2020-05-29 |
CN111209397B true CN111209397B (zh) | 2020-09-08 |
Family
ID=70787671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911392145.XA Active CN111209397B (zh) | 2019-12-30 | 2019-12-30 | 一种确定企业产业类别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111209397B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347318B (zh) * | 2020-10-26 | 2022-08-02 | 杭州数智政通科技有限公司 | 划分企业所属行业类别的方法、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
CN109783818A (zh) * | 2019-01-17 | 2019-05-21 | 上海三零卫士信息安全有限公司 | 一种企业行业多标签分类方法 |
CN110245226A (zh) * | 2018-10-23 | 2019-09-17 | 爱信诺征信有限公司 | 企业行业分类方法及其装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170109358A1 (en) * | 2015-10-15 | 2017-04-20 | Krishna Kishore Dhara | Method and system of determining enterprise content specific taxonomies and surrogate tags |
CN107169036A (zh) * | 2017-04-19 | 2017-09-15 | 畅捷通信息技术股份有限公司 | 确定企业所属行业类别的方法及系统 |
CN107944480B (zh) * | 2017-11-16 | 2020-11-24 | 广州探迹科技有限公司 | 一种企业行业分类方法 |
CN110378569A (zh) * | 2019-06-19 | 2019-10-25 | 平安国际智慧城市科技股份有限公司 | 产业关系链构建方法、装置、设备及存储介质 |
-
2019
- 2019-12-30 CN CN201911392145.XA patent/CN111209397B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
CN110245226A (zh) * | 2018-10-23 | 2019-09-17 | 爱信诺征信有限公司 | 企业行业分类方法及其装置 |
CN109783818A (zh) * | 2019-01-17 | 2019-05-21 | 上海三零卫士信息安全有限公司 | 一种企业行业多标签分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111209397A (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020062660A1 (zh) | 企业信用风险评估方法、装置、设备及存储介质 | |
CN111459985B (zh) | 标识信息处理方法及装置 | |
US20120136812A1 (en) | Method and system for machine-learning based optimization and customization of document similarities calculation | |
CN109558541B (zh) | 一种信息处理的方法、装置及计算机存储介质 | |
CN111553137B (zh) | 报告生成方法、装置、存储介质及计算机设备 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN104103011B (zh) | 一种基于纳税人利益关联网络的可疑纳税人识别方法 | |
CN109359186B (zh) | 一种确定地址信息的方法、装置和计算机可读存储介质 | |
CN107844558A (zh) | 一种分类信息的确定方法以及相关装置 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN112613569A (zh) | 图像识别方法、图像分类模型的训练方法及装置 | |
CN109492859A (zh) | 基于神经网络模型的员工分类方法及装置、设备、介质 | |
CN111209397B (zh) | 一种确定企业产业类别的方法 | |
CN117155771B (zh) | 一种基于工业物联网的设备集群故障溯源方法及装置 | |
CN111460268B (zh) | 数据库查询请求的确定方法、装置和计算机设备 | |
CN116304236A (zh) | 一种用户画像生成方法、装置、电子设备和存储介质 | |
CN110807082A (zh) | 质量抽检项目确定方法、系统、电子设备及可读存储介质 | |
CN109919811B (zh) | 基于大数据的保险代理人培养方案生成方法及相关设备 | |
CN115660756A (zh) | 一种电商商品的价格监测方法、装置、设备和介质 | |
CN115168509A (zh) | 风控数据的处理方法及装置、存储介质、计算机设备 | |
CN110941952A (zh) | 一种完善审计分析模型的方法及装置 | |
CN113743838B (zh) | 目标用户识别方法、装置、计算机设备和存储介质 | |
CN114021716A (zh) | 一种模型训练的方法、系统及电子设备 | |
CN113849618A (zh) | 基于知识图谱的策略确定方法、装置、电子设备及介质 | |
CN112559589A (zh) | 一种远程测绘数据处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |