CN107193936A

CN107193936A - 一种用于设置企业特性标签的方法及其系统

Info

Publication number: CN107193936A
Application number: CN201710355321.7A
Authority: CN
Inventors: 李小强
Original assignee: Qianhai Sycamore (shenzhen) Data Co Ltd
Current assignee: Qianhai Sycamore (shenzhen) Data Co Ltd
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2017-09-22

Abstract

本发明涉及一种用于设置企业特性标签的方法及其系统，该方法包括建立多维度企业特性标签指标体系；根据多维度企业特性标签指标体系，获取语料库；收集海量企业信息，提取标准化表达方式；将标准表达方式与语料库进行匹配，确定企业特性标签。本发明通过对海量企业信息植入多维度企业特性标签指标体系，实现自动过滤冗杂无效的企业信息，对有价值的非结构化的企业网络信息进行体系化的挖掘分析辅助用户对企业进行价值判断，准确得知企业的特性及价值，直观又快速，简单明呈现企业的全貌和不同特性，从企业的八个维度，市场、技术、产品、客户、组织、资金、服务、管理文化，对企业全景动态跟踪分析，精炼且直观，具象化感知企业全貌和不同特性。

Description

一种用于设置企业特性标签的方法及其系统

技术领域

本发明涉及企业经营体系，更具体地说是指一种用于设置企业特性标签的方法及其系统。

背景技术

企业数据泛指所有与企业经营相关的信息、资料，包括公司概况、产品信息、经营数据、研究成果等，其中不乏涉及商业机密。通常所说的企业数据是指狭义的企业数据，一般只包含公司概况介绍，包括公司经营范围、联系方式、企业规模等，通常是公开的数据。

这些企业公开数据一般放置在互联网上，重复采用通识标签对这些数据进行标识，以达到对企业结构化信息的简单分类汇总，并没有对有价值的非结构化的企业网络数据进行体系化的挖掘分析并设置企业特性标签，以此精炼呈现企业特性，无法自动对冗余信息进行过滤，也无法准确得知企业的特性以及价值。

因此，有必要设计一种用于设置企业特性标签的方法，实现自动过滤冗杂无效的企业信息，对有价值的非结构化的企业网络信息进行体系化的挖掘分析辅助用户对企业进行价值判断，准确得知企业的特性以及价值，直观又快速。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种用于设置企业特性标签的方法及其系统。

为实现上述目的，本发明采用以下技术方案：一种用于设置企业特性标签的方法，所述方法包括：

建立多维度企业特性标签指标体系；

根据多维度企业特性标签指标体系，获取语料库；

收集海量企业信息，提取标准化表达方式；

将所述标准表达方式与语料库进行匹配，确定企业特性标签。

其进一步技术方案为：根据多维度企业特性标签指标体系，获取语料库的步骤，包括以下具体步骤：

根据多维度企业特性标签指标体系，提炼企业特性标签的标准化表达方式；

根据多维度企业特性标签指标体系，对支撑企业特性标签的非标准化网络信息提取标准化表达方式；

将企业特性标签的标准化表达方式以及非标准化网络信息提取标准化表达方式组成语料库。

其进一步技术方案为：收集海量企业信息，提取标准化表达方式的步骤，包括以下具体步骤：

收集海量企业信息，进行分析处理；

筛选所述海量企业信息内与多维度企业特性标签指标体系相关联的各个特性的样本企业信息；

对所述样本企业信息提取标准化表达方式。

其进一步技术方案为：收集海量企业信息，进行分析处理的步骤，包括以下具体步骤：

利用企业全名、企业简称、产品名称采集相关咨讯网站的海量企业信息；

对采集所述海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析。

其进一步技术方案为：对所述样本企业信息提取标准化表达方式的步骤，包括以下具体步骤：

根据语料库的分类，对所述样本企业信息进行分类汇总；

将所述样本企业信息经过格式化数据处理和标准化表述，形成标准表达方式。

本发明还提供了一种用于设置企业特性标签的系统，包括体系建立单元、语料库获取单元、提取单元以及匹配确定单元；

所述体系建立单元，用于建立多维度企业特性标签指标体系；

所述语料库获取单元，用于根据多维度企业特性标签指标体系，获取语料库；

所述提取单元，用于收集海量企业信息，提取标准化表达方式；

所述匹配确定单元，用于将所述标准表达方式与语料库进行匹配，确定企业特性标签。

其进一步技术方案为：所述语料库获取单元包括标准化提炼模块、非标准化提炼模块以及组合模块；

所述标准化提炼模块，用于根据多维度企业特性标签指标体系，提炼企业特性标签的标准化表达方式；

所述非标准化提炼模块，用于根据多维度企业特性标签指标体系，对支撑企业特性标签的非标准化网络信息提取标准化表达方式；

所述组合模块，用于将企业特性标签的标准化表达方式以及非标准化网络信息提取标准化表达方式组成语料库。

其进一步技术方案为：所述提取单元包括收集分析模块、筛选模块以及信息提炼模块；

所述收集分析模块，用于收集海量企业信息，进行分析处理；

所述筛选模块，用于筛选所述海量企业信息内与多维度企业特性标签指标体系相关联的各个特性的样本企业信息；

所述信息提炼模块，用于对所述样本企业信息提取标准化表达方式。

其进一步技术方案为：所述收集分析模块包括采集子模块以及分析处理子模块；

所述采集子模块，用于利用企业全名、企业简称、产品名称采集相关咨讯网站的海量企业信息；

所述分析处理子模块，用于对采集所述海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析。

其进一步技术方案为：所述信息提炼模块包括分类汇总子模块以及表述子模块；

所述分类汇总子模块，用于根据语料库的分类，对所述样本企业信息进行分类汇总；

所述表述子模块，用于将所述样本企业信息经过格式化数据处理和标准化表述，形成标准表达方式。

本发明与现有技术相比的有益效果是：本发明的一种用于设置企业特性标签的方法，通过对海量企业信息植入多维度企业特性标签指标体系，对与多维度企业特性标签指标体系相关的特性样本企业信息进行匹配和确定企业特性标签，实现自动过滤冗杂无效的企业信息，对有价值的非结构化的企业网络信息进行体系化的挖掘分析辅助用户对企业进行价值判断，准确得知企业的特性以及价值，直观又快速，简单明呈现企业的全貌和不同特性，从企业的八个维度，市场、技术、产品、客户、组织、资金、服务、管理文化，对企业进行全景动态跟踪分析，精炼且直观，具象化感知企业的全貌和不同特性。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

图1为本发明具体实施例提供的一种用于设置企业特性标签的方法的流程图；

图2为本发明具体实施例提供的获取语料库的具体流程图；

图3为本发明具体实施例提供的提取标准化表达方式的具体流程图；

图4为本发明具体实施例提供的收集海量企业信息进行分析处理的具体流程图；

图5为本发明具体实施例提供的对样本企业信息提取标准化表达方式的具体流程图；

图6为本发明具体实施例提供的一种用于设置企业特性标签的系统的结构框图；

图7为本发明具体实施例提供的语料库获取单元的结构框图；

图8为本发明具体实施例提供的提取单元的结构框图；

图9为本发明具体实施例提供的收集分析模块的结构框图；

图10为本发明具体实施例提供的信息提炼模块的结构框图.

具体实施方式

为了更充分理解本发明的技术内容，下面结合具体实施例对本发明的技术方案进一步介绍和说明，但不局限于此。

如图1～10所示的具体实施例，本实施例提供的一种用于设置企业特性标签的方法，可以运用在企业公开信息使用者以及投资方寻求投资对象的过程中，实现自动过滤冗杂无效的企业信息，对有价值的非结构化的企业网络信息进行体系化的挖掘分析辅助用户对企业进行价值判断，准确得知企业的特性以及价值，直观又快速。

如图1所示，本实施例提供的一种用于设置企业特性标签的方法，该方法包括：

S1、建立多维度企业特性标签指标体系；

S2、根据多维度企业特性标签指标体系，获取语料库；

S3、收集海量企业信息，提取标准化表达方式；

S4、将所述标准表达方式与语料库进行匹配，确定企业特性标签。

对于上述的S1步骤，具体是基于在国内和世界市场上在某一领域领先或者由某一特性驱动领先的2000家企业为研究样本，结合世界领先管理学科学、行业经济技术分析学派等分析框架以及管理学技术，构建“企业特性标签”指标体系。该多维度企业特性标签指标体系，可以从企业的八个维度：市场、技术、产品、客户、组织、资金、服务、管理文化，对企业进行全景动态跟踪分析，精炼且直观，快速直达企业、具象化感知企业的全貌和不同特性。

更进一步的，上述的S2步骤，根据多维度企业特性标签指标体系，获取语料库的步骤，包括以下具体步骤：

S21、根据多维度企业特性标签指标体系，提炼企业特性标签的标准化表达方式；

S22、根据多维度企业特性标签指标体系，对支撑企业特性标签的非标准化网络信息提取标准化表达方式；

S23、将企业特性标签的标准化表达方式以及非标准化网络信息提取标准化表达方式组成语料库。

上述的S21步骤，具体是根据多维度企业特性标签指标体系，分类汇总反映指标体系内各个特性的样本企业信息，通过自然语义理解将企业信息从文字转换成格式化数据，对格式化数据提取表达方式。

上述的S22步骤，具体是根据多维度企业特性标签指标体系内所包含的企业所处的行业、市场、技术以及产品等维度，通过自然语言生成，将非结构化数据转换成具有针对性的标准化叙述，对支撑企业特性标签的非标准化网络信息提取标准化表达方式。

上述的S21至S23步骤，将标准的以及非标准的网络信息都囊括在语料库内，保证对企业进行全景动态跟踪分析，精炼且直观，快速直达企业、具象化感知企业的全貌和不同特性。

更进一步的，对于上述的S3步骤，收集海量企业信息，提取标准化表达方式的步骤，包括以下具体步骤：

S31、收集海量企业信息，进行分析处理；

S32、筛选所述海量企业信息内与多维度企业特性标签指标体系相关联的各个特性的样本企业信息；

S33、对所述样本企业信息提取标准化表达方式。

对于上述S31步骤，收集海量企业信息，进行分析处理的步骤，包括以下具体步骤：

S311、利用企业全名、企业简称、产品名称采集相关咨讯网站的海量企业信息；

S312、对采集所述海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析。

上述的S311步骤，具体是针对新增企业进行企业全名、企业简称、产品名称搜索，当新企业加入后，用企业全名、企业简称、产品名称在互联网采集相关咨讯网站(百度、百度新闻、网络黄页、企业官网、微博、微信等)的海量企业信息，并使用大数据HDFS技术分布式存储海量数据，基于成熟的大数据技术，保证海量数据的安全存储，保证海量数据分布式处理，效率高，准确度随着数据的积累不断提升。

对于S312步骤，具体是基于自然语言处理的理论和技术，对采集返回的海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析，以大数据技术驱动，基于分布式并行计算架构，解决海量数据的存储以及计算。

上述的S32步骤，具体是使用机器学习技术收集网上公开的海量企业信息，进行语义分析，筛选出与多维度企业特性标签指标体系相关联的各个特性的样本企业信息，使用机器学习和自然语言处理的理论，让机器智能处理企业相关信息，进行摘要、归类以及提取等。且该步骤中的各个特性的样本企业信息为新增企业的样本企业信息。

更进一步的，S33步骤，对所述样本企业信息提取标准化表达方式的步骤，包括以下具体步骤：

S331、根据语料库的分类，对所述样本企业信息进行分类汇总；

S332、将所述样本企业信息经过格式化数据处理和标准化表述，形成标准表达方式。

上述S331步骤，具体是根据企业所处的行业、细分市场、技术、产品等维度，进行分类汇总。

上述S332步骤，通过自然语义理解将所述样本企业信息从文字转换成格式化数据，并通过自然语言生成将所述样本企业信息转换成具有针对性的标准化叙述，以此获取标准表达方式。

另外，上述的S4步骤，将所述标准表达方式与语料库进行匹配，确定企业特性标签，具体是运用行业分析工具，通过行业特征、企业细分市场、产品特色等分析，赋予标签以行业、市场、产品等特色，形成企业特性标签，并对企业特性标签进行排序，从企业的八个维度，市场、技术、产品、客户、组织、资金、服务、管理文化，对企业进行全景动态跟踪分析，精炼且直观，快速直达企业、具象化感知企业的全貌和不同特性。

上述的一种用于设置企业特性标签的方法，通过对海量企业信息植入多维度企业特性标签指标体系，对与多维度企业特性标签指标体系相关的特性样本企业信息进行匹配和确定企业特性标签，实现自动过滤冗杂无效的企业信息，对有价值的非结构化的企业网络信息进行体系化的挖掘分析辅助用户对企业进行价值判断，准确得知企业的特性以及价值，直观又快速，简单明呈现企业的全貌和不同特性，从企业的八个维度，市场、技术、产品、客户、组织、资金、服务、管理文化，对企业进行全景动态跟踪分析，精炼且直观，具象化感知企业的全貌和不同特性。

如图6所示，是本实施例提供的一种用于设置企业特性标签的系统，该包括体系建立单元1、语料库获取单元2、提取单元3以及匹配确定单元4。

体系建立单元1，用于建立多维度企业特性标签指标体系。

语料库获取单元2，用于根据多维度企业特性标签指标体系，获取语料库。

提取单元3，用于收集海量企业信息，提取标准化表达方式。

匹配确定单元4，用于将所述标准表达方式与语料库进行匹配，确定企业特性标签。

体系建立单元1具体是基于在国内和世界市场上在某一领域领先或者由某一特性驱动领先的2000家企业为研究样本，结合世界领先管理学科学、行业经济技术分析学派等分析框架以及管理学技术，构建“企业特性标签”指标体系。该多维度企业特性标签指标体系，可以从企业的八个维度：市场、技术、产品、客户、组织、资金、服务、管理文化，对企业进行全景动态跟踪分析，精炼且直观，快速直达企业、具象化感知企业的全貌和不同特性。

更进一步的，上述的语料库获取单元2包括标准化提炼模块21、非标准化提炼模块22以及组合模块23。

标准化提炼模块21，用于根据多维度企业特性标签指标体系，提炼企业特性标签的标准化表达方式。

非标准化提炼模块22，用于根据多维度企业特性标签指标体系，对支撑企业特性标签的非标准化网络信息提取标准化表达方式。

组合模块23，用于将企业特性标签的标准化表达方式以及非标准化网络信息提取标准化表达方式组成语料库。

上述的标准化提炼模块21具体是根据多维度企业特性标签指标体系，分类汇总反映指标体系内各个特性的样本企业信息，通过自然语义理解将企业信息从文字转换成格式化数据，对格式化数据提取表达方式。

上述的非标准化提炼模块22具体是根据多维度企业特性标签指标体系内所包含的企业所处的行业、细分市场、技术以及产品等维度，通过自然语言生成，将非结构化数据转换成具有针对性的标准化叙述，对支撑企业特性标签的非标准化网络信息提取标准化表达方式。

语料库获取单元2将标准的以及非标准的网络信息都囊括在语料库内，保证对企业进行全景动态跟踪分析，精炼且直观，快速直达企业、具象化感知企业的全貌和不同特性。

更进一步的，提取单元3包括收集分析模块31、筛选模块32以及信息提炼模块33。

收集分析模块31，用于收集海量企业信息，进行分析处理。

筛选模块32，用于筛选所述海量企业信息内与多维度企业特性标签指标体系相关联的各个特性的样本企业信息。

信息提炼模块33，用于对所述样本企业信息提取标准化表达方式。

对于收集分析模块31包括采集子模块311以及分析处理子模块312。

采集子模块311，用于利用企业全名、企业简称、产品名称采集相关咨讯网站的海量企业信息。

分析处理子模块312，用于对采集所述海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析。

采集子模块311具体是针对新增企业进行企业全名、企业简称、产品名称搜索，当新企业加入后，用企业全名、企业简称、产品名称在互联网采集相关咨讯网站(百度、百度新闻、网络黄页、企业官网、微博、微信等)的海量企业信息，并使用大数据HDFS技术分布式存储海量数据，基于成熟的大数据技术，保证海量数据的安全存储，保证海量数据分布式处理，效率高，准确度随着数据的积累不断提升。

分析处理子模块312具体是基于自然语言处理的理论和技术，对采集返回的海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析，以大数据技术驱动，基于分布式并行计算架构，解决海量数据的存储以及计算。

筛选模块32具体是使用机器学习技术收集网上公开的海量企业信息，进行语义分析，筛选出与多维度企业特性标签指标体系相关联的各个特性的样本企业信息，使用机器学习和自然语言处理的理论，让机器智能处理企业相关信息，进行摘要、归类以及提取等。且该步骤中的各个特性的样本企业信息为新增企业的样本企业信息。

更进一步的，上述的信息提炼模块33包括分类汇总子模块331以及表述子模块332。

分类汇总子模块331，用于根据语料库的分类，对所述样本企业信息进行分类汇总。

表述子模块332，用于将所述样本企业信息经过格式化数据处理和标准化表述，形成标准表达方式。

分类汇总子模块331具体是根据企业所处的行业、细分市场、技术、产品等维度，进行分类汇总。

表述子模块332通过自然语义理解将所述样本企业信息从文字转换成格式化数据，并通过自然语言生成将所述样本企业信息转换成具有针对性的标准化叙述，以此获取标准表达方式。

上述的匹配确定单元4将所述标准表达方式与语料库进行匹配，确定企业特性标签，具体是运用行业分析工具，通过行业特征、企业细分市场、产品特色等分析，赋予标签以行业、市场、产品等特色，形成企业特性标签，并对企业特性标签进行排序，从企业的八个维度，市场、技术、产品、客户、组织、资金、服务、管理文化，对企业进行全景动态跟踪分析，精炼且直观，快速直达企业、具象化感知企业的全貌和不同特性。

上述的一种用于设置企业特性标签的系统，通过对海量企业信息植入多维度企业特性标签指标体系，对与多维度企业特性标签指标体系相关的特性样本企业信息进行匹配和确定企业特性标签，实现自动过滤冗杂无效的企业信息，对有价值的非结构化的企业网络信息进行体系化的挖掘分析辅助用户对企业进行价值判断，准确得知企业的特性以及价值，直观又快速，简单明呈现企业的全貌和不同特性，从企业的八个维度，市场、技术、产品、客户、组织、资金、服务、管理文化，对企业进行全景动态跟踪分析，精炼且直观，具象化感知企业的全貌和不同特性。

上述仅以实施例来进一步说明本发明的技术内容，以便于读者更容易理解，但不代表本发明的实施方式仅限于此，任何依本发明所做的技术延伸或再创造，均受本发明的保护。本发明的保护范围以权利要求书为准。

Claims

1.一种用于设置企业特性标签的方法，其特征在于，所述方法包括：

建立多维度企业特性标签指标体系；

根据多维度企业特性标签指标体系，获取语料库；

收集海量企业信息，提取标准化表达方式；

2.根据权利要求1所述的一种用于设置企业特性标签的方法，其特征在于，根据多维度企业特性标签指标体系，获取语料库的步骤，包括以下具体步骤：

3.根据权利要求2所述的一种用于设置企业特性标签的方法，其特征在于，收集海量企业信息，提取标准化表达方式的步骤，包括以下具体步骤：

收集海量企业信息，进行分析处理；

对所述样本企业信息提取标准化表达方式。

4.根据权利要求3所述的一种用于设置企业特性标签的方法，其特征在于，收集海量企业信息，进行分析处理的步骤，包括以下具体步骤：

5.根据权利要求4所述的一种用于设置企业特性标签的方法，其特征在于，对所述样本企业信息提取标准化表达方式的步骤，包括以下具体步骤：

根据语料库的分类，对所述样本企业信息进行分类汇总；

6.一种用于设置企业特性标签的系统，其特征在于，包括体系建立单元、语料库获取单元、提取单元以及匹配确定单元；

7.根据权利要求6所述的一种用于设置企业特性标签的系统，其特征在于，所述语料库获取单元包括标准化提炼模块、非标准化提炼模块以及组合模块；

8.根据权利要求7所述的一种用于设置企业特性标签的系统，其特征在于，所述提取单元包括收集分析模块、筛选模块以及信息提炼模块；

9.根据权利要求8所述的一种用于设置企业特性标签的系统，其特征在于，所述收集分析模块包括采集子模块以及分析处理子模块；

10.根据权利要求9所述的一种用于设置企业特性标签的系统，其特征在于，所述信息提炼模块包括分类汇总子模块以及表述子模块；