CN107463616B

CN107463616B - 一种企业信息分析方法及系统

Info

Publication number: CN107463616B
Application number: CN201710535084.2A
Authority: CN
Inventors: 张永煦; 程窦华
Original assignee: Shanghai Fanxiang Network Technology Co ltd
Current assignee: Shanghai Fanxiang Network Technology Co ltd
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2020-04-10
Anticipated expiration: 2037-07-03
Also published as: CN107463616A

Abstract

一种企业信息分析方法及系统，包括：采集企业的网页数据，并据以处理得到与每种产品类别信息对应的关键词集合，其中，产品类别信息与行业信息相关；根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息，据以得到该网页数据的相关企业所生产产品相关的产品类别，再据以得到该企业相关的行业信息。

Description

一种企业信息分析方法及系统

技术领域

本发明涉及一种产品类别识别方法，特别是涉及一种企业信息分析方法及系统。

背景技术

近期在智能推荐系统、精准营销等大数据应用领域，如何对企业进行画像，识别企业产品所属的类别是系统中重要的环节。

全国的注册的企业已达千万之多，而且企业的数量在不断增长。如通过人工方式去查询分析这些企业的产品类别，所属行业等，必将耗费极大的人力和时间。而且，随着企业业务范围的拓展和变化，新的产品不断增加，旧的产品也可能消失，每隔一段时间就需要重新进行统计。因此如果快速、准确的识别企业产品所属类别和企业所属行业就成为了亟待解决的问题。

现有技术存在过度依赖人工查询、信息提取效率低、查询条件无法动态更新，类别信息提取精度差的技术问题。

发明内容

鉴于以上现有技术存在过度依赖人工查询、信息提取效率低、查询条件无法动态更新，类别信息提取精度差的技术问题，本发明的目的在于提供一种企业信息分析方法及系统，包括：一种企业信息分析方法，包括：采集企业的网页数据，并据以处理得到与每种产品类别信息对应的关键词集合，其中，产品类别信息与行业信息相关；根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息，据以得到该网页数据的相关企业所生产产品相关的产品类别，再据以得到该企业相关的行业信息。

于本发明的一实施方式中，采集企业的网页数据，并据以处理得到与每种产品类别信息对应的关键词集合，其中，产品类别信息与行业信息相关，包括：对各行业的产品类别进行分类，并分析确定该产品类别的关键词；利用word2vector算法，根据欧式距离确定不少于两个的与关键词的相近词语；筛除相近词语中与关键词的重复内容，最后得到新增关键词；将新增关键词与关键词的集合合并，得到产品的最终关键词。

于本发明的一实施方式中，根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息，据以得到该网页数据的相关企业所生产产品相关的产品类别，再据以得到该企业相关的行业信息，包括：获取相关网页，从相关网页中提取网页词汇信息；根据网页词汇信息，通过BM25算法计算每一网页与各产品类别的相关程度信息，计算相关程度信息，得到类别关联数据；根据类别关联数据识别产品的类别信息及行业信息。

于本发明的一实施方式中，根据网页分词信息，通过BM25算法计算每一网页与各产品类别的相关程度信息，包括：获取产品类别信息及产品相关网页的网页词汇信息；根据BM25 算法，计算相关性数据IDF(q_i)，公式如下所示：

根据相关性数据IDF(q_i)的大小确定相关程度信息，N为索引中的全部文档数，n(q_i)为包含q_i的文档数；对相关程度信息归一化，得到类别关联数据。

于本发明的一实施方式中，根据类别关联数据识别产品的类别信息及行业信息，包括：对每个产品类对应的类别关联数据排序；取排列中最大值及其后不小于3个类别关联数据求平均值，得产品类别数据；对所示产品类别数据归一化得到类别指示数据；将行业包含产品类别的类别指示数据相加，得到企业在各行业的行业指示数据；计算行业指示数据，得出行业指示数据最大的行业，得行业信息。

于本发明的一实施方式中，一种企业信息分析的系统，其特征在于，包括：关键词库模块和产品类别提取模块；关键词库模块，用于采集企业的网页数据，并据以处理得到与每种产品类别信息对应的关键词集合，其中，产品类别信息与行业信息相关；产品类别提取模块，用于根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息，据以得到该网页数据的相关企业所生产产品相关的产品类别，再据以得到该企业相关的行业信息，产品类别提取模块与关键词库模块连接。

于本发明的一实施方式中，关键词库模块，包括：关键词确定模块、相近词确定模块、新词获取模块和最终关键词模块；关键词确定模块，用于对各行业的产品类别进行分类，并分析确定该产品类别的关键词；相近词确定模块，用于利用word2vector算法，根据欧式距离确定不少于两个的与关键词的相近词语，相近词确定模块与关键词确定模块连接；新词获取模块，用于筛除相近词语中与关键词的重复内容，最后得到新增关键词，新词获取模块与相近词确定模块连接；最终关键词模块，用于将新增关键词与关键词的集合合并，得到产品的最终关键词，最终关键词模块与关键词确定模块连接，最终关键词模块与新词获取模块连接。

于本发明的一实施方式中，产品类别提取模块，包括：网页分词模块、关联数据计算模块和分类信息识别模块；网页分词模块，用于获取相关网页，从相关网页中提取网页词汇信息；关联数据计算模块，用于根据网页词汇信息，通过BM25算法计算每一网页与各产品类别的相关程度信息，计算相关程度信息，得到类别关联数据，关联数据计算模块与网页分词模块连接；分类信息识别模块，用于根据类别关联数据识别产品的类别信息及行业信息，分类信息识别模块与关联数据计算模块连接。

于本发明的一实施方式中，关联数据计算模块，包括：类别及分词信息获取模块、相关性数据模块、相关程度确定模块和关联数据生成模块；类别及分词信息获取模块，用于获取产品类别信息及产品相关网页的网页词汇信息；相关性数据模块，用于根据BM25算法，计算相关性数据IDF(q_i)，公式如下所示：

，N为索引中的全部文档数，n(q_i)为包含q_i的文档数，相关性数据模块与类别及分词信息获取模块连接；相关程度确定模块，用于根据相关性数据IDF(q_i)的大小确定相关程度信息，相关程度确定模块与相关性数据模块连接；关联数据生成模块，用于对相关程度信息归一化，得到类别关联数据，关联数据生成模块连接相关程度确定模块连接。

于本发明的一实施方式中，分类信息识别模块，包括：关联排序模块、类别数据模块、归一化模块、行业指示数据模块和行业信息计算模块；关联排序模块，用于对每个产品类对应的类别关联数据排序；类别数据模块，用于取排列中最大值及其后不小于3个类别关联数据求平均值，得产品类别数据，类别数据模块与关联排序模块连接；归一化模块，用于对所示产品类别数据归一化得到类别指示数据，归一化模块与类别数据模块连接；行业指示数据模块，用于将行业包含产品类别的类别指示数据相加，得到企业在各行业的行业指示数据，行业指示数据模块与归一化模块连接；行业信息计算模块，用于计算行业指示数据，得出行业指示数据最大的行业，得行业信息，行业信息计算模块与行业指示数据模块连接。

如上所述，本发明提供的一种企业信息分析方法及系统，具有以下有益效果：提供一种基于自然语言处理技术提取企业产品类别的方法，能够通过计算机自动的识别各企业所经营的产品类别，同时识别各企业的所属行业，与传统的人工分析、统计各企业的产品类别及其所属行业，该方法结合数据挖掘、自然语言处理等技术，能够自动、快速、准确的实现个企业的产品类别及其所属行业，大大节省了人力、财力以及时间资源。

综上所述，本发明提供一种企业信息分析方法及系统，搜索互联网，得到产品类别的关键词集合，统计关键词的词频及识别率信息，确定产品类别的关键词，根据word2vector算法获取最终关键词；根据所示关键词筛选网页信息，计算网页及关键词的相关程度信息及每个产品类与每个网页的相关程度信息，计算得到类别关联数据，根据类别关联数据识别产品的类别信息及行业信息首先在提取企业产品类别之前，有大量的准备工作，其中包括语料库建立、产品分类及其关键词确定、各企业的网页数据搜集，以某公司为例来说明产品类别提取的步骤，其他企业的产品类别的提取方法一样，解决了传统技术中过度依赖人工查询、信息提取效率低、查询条件无法动态更新，类别信息提取精度差的技术问题。

附图说明

图1显示为本发明的一种企业信息方法步骤示意图。

图2显示为本发明的产品关键词提取步骤示意图。

图3显示为本发明的企业产品信息获取步骤示意图。

图4显示为本发明的类别管理数据计算步骤示意图。

图5显示为本发明的列别及行业信息获取步骤示意图。

图6显示为本发明的一种企业信息分析的系统模块示意图。

图7显示为本发明的关键词库模块示意图。

图8显示为本发明的产品类别提取模块示意图。

图9显示为本发明的产品类别提取模块示意图。

图10显示为本发明的分类信息识别模块示意图。

元件标号说明

1 企业信息分析的系统

11 关键词库模块

12 产品类别提取模块

111 关键词确定模块

112 相近词确定模块

113 新词获取模块

114 最终关键词模块

121 网页分词模块

122 关联数据计算模块

123 分类信息识别模块

1221 类别及分词信息获取模块

1222 相关性数据模块

1223 相关程度确定模块

1224 关联数据生成模块

1231 关联排序模块

1232 类别数据模块

1233 归一化模块

1234 行业指示数据模块

1235 行业信息计算模块

步骤标号说明

图1 S1～S2

图2 S11～S14

图3 S21～S23

图4 S221～S224

图5 S231～S235

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

请参阅图1至图10，须知，本说明书所附图式所绘示的结构，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本实用新型所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时，本说明书中所引用的如”上”、”下”、”左”、”右”、”中间”及”一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

请参阅图1，显示为本发明的一种企业信息方法步骤示意图，如图1所示，一种企业信息方法包括：一种企业信息分析方法，包括：

S1、采集企业的网页数据，并据以处理得到与每种产品类别信息对应的关键词集合，其中，产品类别信息与行业信息相关，在提取企业产品类别之前，有大量的准备工作，其中包括语料库建立、产品分类及其关：1词确定、各企业的网页数据搜集；

S2、根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息，利用word2vector，采用欧式距离求各产品关键词的同义词，取其最相近的前10个词添加到该产品的关键词中，如和理财最相近的10个词语为：理财产品、理财师、理财专家、家庭理财、封闭期、出借、投资、基金、股票、收益率，据以得到该网页数据的相关企业所生产产品相关的产品类别，再据以得到该企业相关的行业信息，以某公司为例来说明产品类别提取的步骤，其他企业的产品类别的提取方法一样。

请参阅图2，显示为本发明的产品关键词提取步骤示意图，如图2所示，S1、采集企业的网页数据，并据以处理得到与每种产品类别信息对应的关键词集合，其中，产品类别信息与行业信息相关，包括：

S11、对各行业的产品类别进行分类，并分析确定该产品类别的关键词，从互联网上搜集大量网页数据，这些网页数据包含各行业的专业词汇，得到语料库，然后统计每个词出现的词频及它的IDF值；

S12、利用word2vector算法，根据欧式距离确定不少于两个的与关键词的相近词语，对各行业的产品类别进行分类，并分析确定该产品类别的关键词，这些关键词必须与该产品密切相关，是产品的描述性词语，假设其关键词有w1、w2、w3...wn；

S13、筛除相近词语中与关键词的重复内容，最后得到新增关键词，对每个网页进行分词、去停用词，将这些对获取关键词没有作用的信息和词汇筛除，除去网页中的HTML标签，对剩下的数据进行分词，去停用词，得到如图所示，一个公司的所有网页分词结果保存为一个 txt，一个网页的分词结果为其中的一行；

S14、将新增关键词与关键词的集合合并，得到产品的最终关键词，利用word2vector算法，采用欧式距离来寻找分别与w1、w2、w3...wn最相近的前10个词语，去掉相同的词语，最后得到新增的关键词w1、w2、w3...wm(m小于等于10*n)，总的关键词为w1、w2、w3... wn，wn+1...wn+m。

请参阅图3，显示为本发明的企业产品信息获取步骤示意图，如图3所示，S2、根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息，据以得到该网页数据的相关企业所生产产品相关的产品类别，再据以得到该企业相关的行业信息，包括：

S21、获取相关网页，从相关网页中提取网页词汇信息，除去该企业的每个网页数据的停用词、HTML标签，然后对其进行分词；

S22、根据网页词汇信息，通过BM25算法计算每一网页与各产品类别的相关程度信息，计算相关程度信息，得到类别关联数据，计算每个网页与每个关键词的相关性得分；

S23、根据类别关联数据识别产品的类别信息及行业信息，对每个产品类对应的网页相关性得分进行排序和归一化，根据归一化的数据得企业产品类别及所属行业。

请参阅图4，显示为本发明的类别管理数据计算步骤示意图，如图4所示，S22、根据网页分词信息，通过BM25算法计算每一网页与各产品类别的相关程度信息，包括：

S221、获取产品类别信息及产品相关网页的网页词汇信息，对其进行分词，按照特定的个数作为输入数据；

S222、根据BM25算法，计算相关性数据IDF(q_i)，BM25算法的一般性公式如下：

其中，Q表示Query，q_i表示Q解析之后的一个语素(对中文而言，可以把Query的分词作为语素分析，每个词表示一个语素)，d表示一个搜索结果文档，W_i表示语素q_i的权重， R(q_i，d)表示语素q_i与文档d的相关性得分。公式如下所示：

其中，N为索引中的全部文档数，n(q_i)为包含q_i的文档数。

S223、根据相关性数据IDF(q_i)的大小确定相关程度信息，计算其前10个最大值的平均得分，即为该公司在每个产品类的得分，最后对其进行归一化，通过产品类的得分高低进行识别，根据IDF的定义可以看出，对于给定的文档集合，包含q_i的文档数越多，q_i的权重则越低，即当很多文档都包含q_i时，q_i的区分度就不高，因此使用q_i来判断相关性时的重要度就较低；

S224、对相关程度信息归一化，得到类别关联数据，语素q_i与文档的相关性得分R(q_i，d)，其一般形式为：

其中，k₁，k₂，b为调节因子，通常根据经验设置，一般k_i∈(1.2，2.0)，这里取k_i＝2，b＝0.75； f_i为q_i在d中的出现频率，qf_i为q_i在Query中的出现频率。dl为文档d的长度，avgdl为所有文档的平均长度。由于绝大部分情况下，q_i在Query中只会出现一次，即qf_i＝1，当k₂＝0，因此公式可以简化为：

从K的定义中可以看出，参数b的作用是调整文档长度对相关性影响的大小。b越大，文档长度对相关性得分的影响越大，反之越小。而文档的相对长度越长，K值将越大，则相关性得分会越小。即当文档较长时，包含q_i的机会就越大，因此，同等fi的情况下，长文档与q_i的相关性应该比短文档与q_i的相关性弱。以一家公司为例，假设该企业共有30个网页数据，计算每个关键词与每个网页的相关性得分，假设一个网页Q出现理财的次数为f_i＝30，IDF(理财) ＝3.56，该网页的长度，即总词数为dl＝275，所有文档的平均长度avgdl＝380，调节因子k₁＝2， b＝0.75，则该网页与理财的相关性得分为：

求出所有关键词与该企业的所有网页的相关性得分。

请参阅图5，显示为本发明的列别及行业信息获取步骤示意图，如图5所示，S23、根据类别关联数据识别产品的类别信息及行业信息，包括：

S231、对每个产品类对应的类别关联数据排序，一种产品会含有多个关键词，因此需要将各产品的所有关键词进行加和，得到每个网页与各产品的相关性得分；

S232、取排列中最大值及其后不小于3个类别关联数据求平均值，得产品类别数据，对每个产品类对应的网页相关性得分进行排序，计算其前10个最大值的平均得分；

S233、对所示产品类别数据归一化得到类别指示数据，将产品类与网页的相关性得分进行排序，取前10个最大值的均值，归一化后的值即为该企业在各产品类的得分，从该企业在各产品的得分即可知道该公司经营的产品类有哪些以及该公司属于哪个行业；

S234、将行业包含产品类别的类别指示数据相加，得到企业在各行业的行业指示数据；

S235、计算行业指示数据，得出行业指示数据最大的行业，得行业信息，如想知道企业的所属行业，只需将行业所含产品类别的得分进行相加，即可得到企业在各行业的得分，计算得分最高所属的行业，从而判断出其行业。

请参阅图6，显示为本发明的一种企业信息分析的系统模块示意图，如图6所示，一种企业信息分析的系统1，其特征在于，包括：关键词库模块11和产品类别提取模块12；关键词库模块11，用于采集企业的网页数据，并据以处理得到与每种产品类别信息对应的关键词集合，其中，产品类别信息与行业信息相关，在提取企业产品类别之前，有大量的准备工作，其中包括语料库建立、产品分类及其关键词确定、各企业的网页数据搜集；产品类别提取模块12，用于根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息，据以得到该网页数据的相关企业所生产产品相关的产品类别，再据以得到该企业相关的行业信息，利用word2vector，采用欧式距离求各产品关键词的同义词，取其最相近的前10个词添加到该产品的关键词中，如和理财最相近的10个词语为：理财产品、理财师、理财专家、家庭理财、封闭期、出借、投资、基金、股票、收益率，据以得到该网页数据的相关企业所生产产品相关的产品类别，再据以得到该企业相关的行业信息，以某公司为例来说明产品类别提取的步骤，其他企业的产品类别的提取方法一样，关键词库模块11与产品类别提取模块12连接。

请参阅图7，显示为本发明的关键词库模块示意图，如图7所示，关键词库模块11，包括：关键词确定模块111、相近词确定模块112、新词获取模块113和最终关键词模块114；关键词确定模块111，用于对各行业的产品类别进行分类，并分析确定该产品类别的关键词，从互联网上搜集大量网页数据，这些网页数据包含各行业的专业词汇，得到语料库，然后统计每个词出现的词频及它的IDF值；相近词确定模块112，用于利用word2vector算法，根据欧式距离确定不少于两个的与关键词的相近词语，对各行业的产品类别进行分类，并分析确定该产品类别的关键词，这些关键词必须与该产品密切相关，是产品的描述性词语，假设其关键词有w1、w2、w3...wn，相近词确定模块112与关键词确定模块111连接；新词获取模块113，用于筛除相近词语中与关键词的重复内容，最后得到新增关键词，最后得到新增关键词，对每个网页进行分词、去停用词，将这些对获取关键词没有作用的信息和词汇筛除，除去网页中的HTML标签，对剩下的数据进行分词，去停用词，得到如图所示，一个公司的所有网页分词结果保存为一个txt，一个网页的分词结果为其中的一行，新词获取模块113与相近词确定模块112连接；最终关键词模块114，用于将新增关键词与关键词的集合合并，得到产品的最终关键词，最终关键词模块114与关键词确定模块111连接，利用word2vector算法，采用欧式距离来寻找分别与w1、w2、w3...wn最相近的前10个词语，去掉相同的词语，最后得到新增的关键词w1、w2、w3...wm(m小于等于10*n)，总的关键词为w1、w2、 w3...wn，wn+1...wn+m，最终关键词模块114与新词获取模块113连接。

请参阅图8，显示为本发明的产品类别提取模块示意图，如图8所示，产品类别提取模块12，包括：网页分词模块121、关联数据计算模块122和分类信息识别模块123；网页分词模块121，用于获取相关网页，从相关网页中提取网页词汇信息，除去该企业的每个网页数据的停用词、HTML标签，然后对其进行分词；关联数据计算模块122，用于根据网页词汇信息，通过BM25算法计算每一网页与各产品类别的相关程度信息，计算相关程度信息，得到类别关联数据，计算每个网页与每个关键词的相关性得分，关联数据计算模块122与网页分词模块121连接；分类信息识别模块123，用于根据类别关联数据识别产品的类别信息及行业信息，对每个产品类对应的网页相关性得分进行排序和归一化，根据归一化的数据得企业产品类别及所属行业，分类信息识别模块123与关联数据计算模块122连接。

请参阅图9，显示为本发明的产品类别提取模块示意图，如图9所示，关联数据计算模块122，包括：类别及分词信息获取模块1221、相关性数据模块1222、相关程度确定模块1223 和关联数据生成模块1224；类别及分词信息获取模块1221，用于获取产品类别信息及产品相关网页的网页词汇信息，对其进行分词，按照特定的个数作为输入数据；相关性数据模块1222，用于根据BM25算法，计算相关性数据IDF(q_i)，公式如下所示：

BM25算法的一般性公式如下：

，其中，Q表示Query，q_i表示Q解析之后的一个语素(对中文而言，可以把Query的分词作为语素分析，每个词表示一个语素)，d表示一个搜索结果文档，W_i表示语素q_i的权重， R(q_i，d)表示语素q_i与文档d的相关性得分。公式如下所示：

其中，N为索引中的全部文档数，n(q_i)为包含q_i的文档数，相关性数据模块1222与类别及分词信息获取模块1221连接；相关程度确定模块1223，用于根据相关性数据IDF(q_i)的大小确定相关程度信息，计算其前10个最大值的平均得分，即为该公司在每个产品类的得分，最后对其进行归一化，通过产品类的得分高低进行识别，根据IDF的定义可以看出，对于给定的文档集合，包含q_i的文档数越多，q_i的权重则越低，即当很多文档都包含q_i时，q_i的区分度就不高，因此使用q_i来判断相关性时的重要度就较低，相关程度确定模块1223与相关性数据模块1222连接；关联数据生成模块1224，用于对相关程度信息归一化，得到类别关联数据，关联数据生成模块1224连接相关程度确定模块1223连接，语素q_i与文档的相关性得分R(q_i，d)，其一般形式为：

求出所有关键词与该企业的所有网页的相关性得分。

请参阅图10，显示为本发明的分类信息识别模块示意图，如图10所示，分类信息识别模块123，包括：关联排序模块1231、类别数据模块1232、归一化模块1233、行业指示数据模块1234和行业信息计算模块1235；关联排序模块1231，用于对每个产品类对应的类别关联数据排序，一种产品会含有多个关键词，因此需要将各产品的所有关键词进行加和，得到每个网页与各产品的相关性得分；类别数据模块1232，用于取排列中最大值及其后不小于3个类别关联数据求平均值，得产品类别数据，对每个产品类对应的网页相关性得分进行排序，计算其前10个最大值的平均得分，类别数据模块1232与关联排序模块1231连接；归一化模块1233，用于对所示产品类别数据归一化得到类别指示数据，归一化模块1233与类别数据模块1232连接，取前10个最大值的均值，归一化后的值即为该企业在各产品类的得分，从该企业在各产品的得分即可知道该公司经营的产品类有哪些以及该公司属于哪个行业；行业指示数据模块1234，用于将行业包含产品类别的类别指示数据相加，得到企业在各行业的行业指示数据，得到企业在各行业的行业指示数据，行业指示数据模块1234与归一化模块1233 连接；行业信息计算模块1235，用于计算行业指示数据，得出行业指示数据最大的行业，得行业信息，如想知道企业的所属行业，只需将行业所含产品类别的得分进行相加，即可得到企业在各行业的得分，计算得分最高所属的行业，从而判断出其行业，得行业信息，行业信息计算模块1235与行业指示数据模块1234连接。

综上所述，本发明提供的一种企业信息分析方法及系统，具有以下有益效果：提供一种基于自然语言处理技术提取企业产品类别的方法，能够通过计算机自动的识别各企业所经营的产品类别，同时识别各企业的所属行业，与传统的人工分析、统计各企业的产品类别及其所属行业，该方法结合数据挖掘、自然语言处理等技术，能够自动、快速、准确的实现个企业的产品类别及其所属行业，大大节省了人力、财力以及时间资源。

综上所述，本发明提供一种企业信息分析方法及系统，搜索互联网，得到产品类别的关键词集合，统计关键词的词频及识别率信息，确定产品类别的关键词，根据word2vector算法获取最终关键词；根据所示关键词筛选网页信息，计算网页及关键词的相关程度信息及每个产品类与每个网页的相关程度信息，计算得到类别关联数据，根据类别关联数据识别产品的类别信息及行业信息首先在提取企业产品类别之前，有大量的准备工作，其中包括语料库建立、产品分类及其关键词确定、各企业的网页数据搜集，以某公司为例来说明产品类别提取的步骤，其他企业的产品类别的提取方法一样，解决了传统技术中过度依赖人工查询、信息提取效率低、查询条件无法动态更新，类别信息提取精度差的技术问题，具有很高的商业价值和实用性。

Claims

1.一种企业信息分析方法，其特征在于，包括：

采集企业的网页数据，并据以处理得到与每种产品类别信息对应的关键词集合，其中，所述产品类别信息与行业信息相关，对各行业的产品类别进行分类，并分析确定该产品类别的关键词；利用word2vector算法，根据欧式距离确定不少于两个的与所述关键词的相近词语；筛除所述相近词语中与所述关键词的重复内容，最后得到新增关键词；将所述新增关键词与所述关键词的集合合并，得到所述产品的最终关键词；

根据所计算的所述关键词集合和所述网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息，据以得到该网页数据的相关企业所生产产品相关的产品类别，再据以得到该企业相关的行业信息，获取相关网页，从相关网页中提取网页词汇信息；根据所述网页词汇信息，通过BM25算法计算每一网页与各所述产品类别的相关程度信息，计算所述相关程度信息，得到类别关联数据；根据所述类别关联数据识别所述产品的类别信息及所述行业信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述网页词汇信息，通过BM25算法计算每一网页与各所述产品类别的相关程度信息，包括：

获取产品类别信息及产品相关网页的所述网页词汇信息；

根据BM25算法，计算相关性数据IDF(q_i)，公式如下所示：

根据所述相关性数据IDF(q_i)的大小确定相关程度信息，其中，q_i为一个语素，N为索引中的全部文档数，n(q_i)为包含q_i的文档数；

对所述相关程度信息归一化，得到所述类别关联数据。

3.根据权利要求1所述的方法，其特征在于，所述根据所述类别关联数据识别所述产品的类别信息及所述行业信息，包括：

对每个产品类对应的所述类别关联数据排序；

取排列中最大值及其后不小于3个所述类别关联数据求平均值，得产品类别数据；

对所示产品类别数据归一化得到类别指示数据；

将行业包含产品类别的所述类别指示数据相加，得到企业在各行业的行业指示数据；

计算所述行业指示数据，得出所述行业指示数据最大的所述行业，得所述行业信息。

4.一种企业信息分析的系统，其特征在于，包括：关键词库模块和产品类别提取模块；

所述关键词库模块，用于采集企业的网页数据，并据以处理得到与每种产品类别信息对应的关键词集合，其中，所述产品类别信息与行业信息相关，所述关键词库模块，包括关键词确定模块、相近词确定模块、新词获取模块和最终关键词模块；所述关键词确定模块，用于对各行业的产品类别进行分类，并分析确定该产品类别的关键词；所述相近词确定模块，用于利用word2vector算法，根据欧式距离确定不少于两个的与所述关键词的相近词语；所述新词获取模块，用于筛除所述相近词语中与所述关键词的重复内容，最后得到新增关键词；所述最终关键词模块，用于将所述新增关键词与所述关键词的集合合并，得到所述产品的最终关键词；

所述产品类别提取模块，用于根据所计算的所述关键词集合和所述网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息，据以得到该网页数据的相关企业所生产产品相关的产品类别，再据以得到该企业相关的行业信息，所述产品类别提取模块，包括：网页分词模块、关联数据计算模块和分类信息识别模块；所述网页分词模块，用于获取相关网页，从相关网页中提取网页词汇信息；所述关联数据计算模块，用于根据所述网页词汇信息，通过BM25算法计算每一网页与各所述产品类别的相关程度信息，计算所述相关程度信息，得到类别关联数据；所述分类信息识别模块，用于根据所述类别关联数据识别所述产品的类别信息及所述行业信息。

5.根据权利要求4所述的系统，其特征在于，所述关联数据计算模块，包括：类别及分词信息获取模块、相关性数据模块、相关程度确定模块和关联数据生成模块；

所述类别及分词信息获取模块，用于获取产品类别信息及产品相关网页的所述网页词汇信息；

所述相关性数据模块，用于根据BM25算法，计算相关性数据IDF(q_i)，公式如下所示：

所述相关程度确定模块，用于根据所述相关性数据IDF(q_i)的大小确定相关程度信息，其中，q_i为一个语素，N为索引中的全部文档数，n(q_i)为包含q_i的文档数；

所述关联数据生成模块，用于对所述相关程度信息归一化，得到所述类别关联数据。

6.根据权利要求5所述的系统，其特征在于，所述分类信息识别模块，包括：关联排序模块、类别数据模块、归一化模块、行业指示数据模块和行业信息计算模块；

所述关联排序模块，用于对每个产品类对应的所述类别关联数据排序；

所述类别数据模块，用于取排列中最大值及其后不小于3个所述类别关联数据求平均值，得产品类别数据；

所述归一化模块，用于对所示产品类别数据归一化得到类别指示数据；

所述行业指示数据模块，用于将行业包含产品类别的所述类别指示数据相加，得到企业在各行业的行业指示数据；

所述行业信息计算模块，用于计算所述行业指示数据，得出所述行业指示数据最大的所述行业，得所述行业信息。