CN107193936A - 一种用于设置企业特性标签的方法及其系统 - Google Patents

一种用于设置企业特性标签的方法及其系统 Download PDF

Info

Publication number
CN107193936A
CN107193936A CN201710355321.7A CN201710355321A CN107193936A CN 107193936 A CN107193936 A CN 107193936A CN 201710355321 A CN201710355321 A CN 201710355321A CN 107193936 A CN107193936 A CN 107193936A
Authority
CN
China
Prior art keywords
enterprise
features tab
information
magnanimity
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710355321.7A
Other languages
English (en)
Inventor
李小强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianhai Sycamore (shenzhen) Data Co Ltd
Original Assignee
Qianhai Sycamore (shenzhen) Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianhai Sycamore (shenzhen) Data Co Ltd filed Critical Qianhai Sycamore (shenzhen) Data Co Ltd
Priority to CN201710355321.7A priority Critical patent/CN107193936A/zh
Publication of CN107193936A publication Critical patent/CN107193936A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于设置企业特性标签的方法及其系统,该方法包括建立多维度企业特性标签指标体系;根据多维度企业特性标签指标体系,获取语料库;收集海量企业信息,提取标准化表达方式;将标准表达方式与语料库进行匹配,确定企业特性标签。本发明通过对海量企业信息植入多维度企业特性标签指标体系,实现自动过滤冗杂无效的企业信息,对有价值的非结构化的企业网络信息进行体系化的挖掘分析辅助用户对企业进行价值判断,准确得知企业的特性及价值,直观又快速,简单明呈现企业的全貌和不同特性,从企业的八个维度,市场、技术、产品、客户、组织、资金、服务、管理文化,对企业全景动态跟踪分析,精炼且直观,具象化感知企业全貌和不同特性。

Description

一种用于设置企业特性标签的方法及其系统
技术领域
本发明涉及企业经营体系,更具体地说是指一种用于设置企业特性标签的方法及其系统。
背景技术
企业数据泛指所有与企业经营相关的信息、资料,包括公司概况、产品信息、经营数据、研究成果等,其中不乏涉及商业机密。通常所说的企业数据是指狭义的企业数据,一般只包含公司概况介绍,包括公司经营范围、联系方式、企业规模等,通常是公开的数据。
这些企业公开数据一般放置在互联网上,重复采用通识标签对这些数据进行标识,以达到对企业结构化信息的简单分类汇总,并没有对有价值的非结构化的企业网络数据进行体系化的挖掘分析并设置企业特性标签,以此精炼呈现企业特性,无法自动对冗余信息进行过滤,也无法准确得知企业的特性以及价值。
因此,有必要设计一种用于设置企业特性标签的方法,实现自动过滤冗杂无效的企业信息,对有价值的非结构化的企业网络信息进行体系化的挖掘分析辅助用户对企业进行价值判断,准确得知企业的特性以及价值,直观又快速。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种用于设置企业特性标签的方法及其系统。
为实现上述目的,本发明采用以下技术方案:一种用于设置企业特性标签的方法,所述方法包括:
建立多维度企业特性标签指标体系;
根据多维度企业特性标签指标体系,获取语料库;
收集海量企业信息,提取标准化表达方式;
将所述标准表达方式与语料库进行匹配,确定企业特性标签。
其进一步技术方案为:根据多维度企业特性标签指标体系,获取语料库的步骤,包括以下具体步骤:
根据多维度企业特性标签指标体系,提炼企业特性标签的标准化表达方式;
根据多维度企业特性标签指标体系,对支撑企业特性标签的非标准化网络信息提取标准化表达方式;
将企业特性标签的标准化表达方式以及非标准化网络信息提取标准化表达方式组成语料库。
其进一步技术方案为:收集海量企业信息,提取标准化表达方式的步骤,包括以下具体步骤:
收集海量企业信息,进行分析处理;
筛选所述海量企业信息内与多维度企业特性标签指标体系相关联的各个特性的样本企业信息;
对所述样本企业信息提取标准化表达方式。
其进一步技术方案为:收集海量企业信息,进行分析处理的步骤,包括以下具体步骤:
利用企业全名、企业简称、产品名称采集相关咨讯网站的海量企业信息;
对采集所述海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析。
其进一步技术方案为:对所述样本企业信息提取标准化表达方式的步骤,包括以下具体步骤:
根据语料库的分类,对所述样本企业信息进行分类汇总;
将所述样本企业信息经过格式化数据处理和标准化表述,形成标准表达方式。
本发明还提供了一种用于设置企业特性标签的系统,包括体系建立单元、语料库获取单元、提取单元以及匹配确定单元;
所述体系建立单元,用于建立多维度企业特性标签指标体系;
所述语料库获取单元,用于根据多维度企业特性标签指标体系,获取语料库;
所述提取单元,用于收集海量企业信息,提取标准化表达方式;
所述匹配确定单元,用于将所述标准表达方式与语料库进行匹配,确定企业特性标签。
其进一步技术方案为:所述语料库获取单元包括标准化提炼模块、非标准化提炼模块以及组合模块;
所述标准化提炼模块,用于根据多维度企业特性标签指标体系,提炼企业特性标签的标准化表达方式;
所述非标准化提炼模块,用于根据多维度企业特性标签指标体系,对支撑企业特性标签的非标准化网络信息提取标准化表达方式;
所述组合模块,用于将企业特性标签的标准化表达方式以及非标准化网络信息提取标准化表达方式组成语料库。
其进一步技术方案为:所述提取单元包括收集分析模块、筛选模块以及信息提炼模块;
所述收集分析模块,用于收集海量企业信息,进行分析处理;
所述筛选模块,用于筛选所述海量企业信息内与多维度企业特性标签指标体系相关联的各个特性的样本企业信息;
所述信息提炼模块,用于对所述样本企业信息提取标准化表达方式。
其进一步技术方案为:所述收集分析模块包括采集子模块以及分析处理子模块;
所述采集子模块,用于利用企业全名、企业简称、产品名称采集相关咨讯网站的海量企业信息;
所述分析处理子模块,用于对采集所述海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析。
其进一步技术方案为:所述信息提炼模块包括分类汇总子模块以及表述子模块;
所述分类汇总子模块,用于根据语料库的分类,对所述样本企业信息进行分类汇总;
所述表述子模块,用于将所述样本企业信息经过格式化数据处理和标准化表述,形成标准表达方式。
本发明与现有技术相比的有益效果是:本发明的一种用于设置企业特性标签的方法,通过对海量企业信息植入多维度企业特性标签指标体系,对与多维度企业特性标签指标体系相关的特性样本企业信息进行匹配和确定企业特性标签,实现自动过滤冗杂无效的企业信息,对有价值的非结构化的企业网络信息进行体系化的挖掘分析辅助用户对企业进行价值判断,准确得知企业的特性以及价值,直观又快速,简单明呈现企业的全貌和不同特性,从企业的八个维度,市场、技术、产品、客户、组织、资金、服务、管理文化,对企业进行全景动态跟踪分析,精炼且直观,具象化感知企业的全貌和不同特性。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
图1为本发明具体实施例提供的一种用于设置企业特性标签的方法的流程图;
图2为本发明具体实施例提供的获取语料库的具体流程图;
图3为本发明具体实施例提供的提取标准化表达方式的具体流程图;
图4为本发明具体实施例提供的收集海量企业信息进行分析处理的具体流程图;
图5为本发明具体实施例提供的对样本企业信息提取标准化表达方式的具体流程图;
图6为本发明具体实施例提供的一种用于设置企业特性标签的系统的结构框图;
图7为本发明具体实施例提供的语料库获取单元的结构框图;
图8为本发明具体实施例提供的提取单元的结构框图;
图9为本发明具体实施例提供的收集分析模块的结构框图;
图10为本发明具体实施例提供的信息提炼模块的结构框图.
具体实施方式
为了更充分理解本发明的技术内容,下面结合具体实施例对本发明的技术方案进一步介绍和说明,但不局限于此。
如图1~10所示的具体实施例,本实施例提供的一种用于设置企业特性标签的方法,可以运用在企业公开信息使用者以及投资方寻求投资对象的过程中,实现自动过滤冗杂无效的企业信息,对有价值的非结构化的企业网络信息进行体系化的挖掘分析辅助用户对企业进行价值判断,准确得知企业的特性以及价值,直观又快速。
如图1所示,本实施例提供的一种用于设置企业特性标签的方法,该方法包括:
S1、建立多维度企业特性标签指标体系;
S2、根据多维度企业特性标签指标体系,获取语料库;
S3、收集海量企业信息,提取标准化表达方式;
S4、将所述标准表达方式与语料库进行匹配,确定企业特性标签。
对于上述的S1步骤,具体是基于在国内和世界市场上在某一领域领先或者由某一特性驱动领先的2000家企业为研究样本,结合世界领先管理学科学、行业经济技术分析学派等分析框架以及管理学技术,构建“企业特性标签”指标体系。该多维度企业特性标签指标体系,可以从企业的八个维度:市场、技术、产品、客户、组织、资金、服务、管理文化,对企业进行全景动态跟踪分析,精炼且直观,快速直达企业、具象化感知企业的全貌和不同特性。
更进一步的,上述的S2步骤,根据多维度企业特性标签指标体系,获取语料库的步骤,包括以下具体步骤:
S21、根据多维度企业特性标签指标体系,提炼企业特性标签的标准化表达方式;
S22、根据多维度企业特性标签指标体系,对支撑企业特性标签的非标准化网络信息提取标准化表达方式;
S23、将企业特性标签的标准化表达方式以及非标准化网络信息提取标准化表达方式组成语料库。
上述的S21步骤,具体是根据多维度企业特性标签指标体系,分类汇总反映指标体系内各个特性的样本企业信息,通过自然语义理解将企业信息从文字转换成格式化数据,对格式化数据提取表达方式。
上述的S22步骤,具体是根据多维度企业特性标签指标体系内所包含的企业所处的行业、市场、技术以及产品等维度,通过自然语言生成,将非结构化数据转换成具有针对性的标准化叙述,对支撑企业特性标签的非标准化网络信息提取标准化表达方式。
上述的S21至S23步骤,将标准的以及非标准的网络信息都囊括在语料库内,保证对企业进行全景动态跟踪分析,精炼且直观,快速直达企业、具象化感知企业的全貌和不同特性。
更进一步的,对于上述的S3步骤,收集海量企业信息,提取标准化表达方式的步骤,包括以下具体步骤:
S31、收集海量企业信息,进行分析处理;
S32、筛选所述海量企业信息内与多维度企业特性标签指标体系相关联的各个特性的样本企业信息;
S33、对所述样本企业信息提取标准化表达方式。
对于上述S31步骤,收集海量企业信息,进行分析处理的步骤,包括以下具体步骤:
S311、利用企业全名、企业简称、产品名称采集相关咨讯网站的海量企业信息;
S312、对采集所述海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析。
上述的S311步骤,具体是针对新增企业进行企业全名、企业简称、产品名称搜索,当新企业加入后,用企业全名、企业简称、产品名称在互联网采集相关咨讯网站(百度、百度新闻、网络黄页、企业官网、微博、微信等)的海量企业信息,并使用大数据HDFS技术分布式存储海量数据,基于成熟的大数据技术,保证海量数据的安全存储,保证海量数据分布式处理,效率高,准确度随着数据的积累不断提升。
对于S312步骤,具体是基于自然语言处理的理论和技术,对采集返回的海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析,以大数据技术驱动,基于分布式并行计算架构,解决海量数据的存储以及计算。
上述的S32步骤,具体是使用机器学习技术收集网上公开的海量企业信息,进行语义分析,筛选出与多维度企业特性标签指标体系相关联的各个特性的样本企业信息,使用机器学习和自然语言处理的理论,让机器智能处理企业相关信息,进行摘要、归类以及提取等。且该步骤中的各个特性的样本企业信息为新增企业的样本企业信息。
更进一步的,S33步骤,对所述样本企业信息提取标准化表达方式的步骤,包括以下具体步骤:
S331、根据语料库的分类,对所述样本企业信息进行分类汇总;
S332、将所述样本企业信息经过格式化数据处理和标准化表述,形成标准表达方式。
上述S331步骤,具体是根据企业所处的行业、细分市场、技术、产品等维度,进行分类汇总。
上述S332步骤,通过自然语义理解将所述样本企业信息从文字转换成格式化数据,并通过自然语言生成将所述样本企业信息转换成具有针对性的标准化叙述,以此获取标准表达方式。
另外,上述的S4步骤,将所述标准表达方式与语料库进行匹配,确定企业特性标签,具体是运用行业分析工具,通过行业特征、企业细分市场、产品特色等分析,赋予标签以行业、市场、产品等特色,形成企业特性标签,并对企业特性标签进行排序,从企业的八个维度,市场、技术、产品、客户、组织、资金、服务、管理文化,对企业进行全景动态跟踪分析,精炼且直观,快速直达企业、具象化感知企业的全貌和不同特性。
上述的一种用于设置企业特性标签的方法,通过对海量企业信息植入多维度企业特性标签指标体系,对与多维度企业特性标签指标体系相关的特性样本企业信息进行匹配和确定企业特性标签,实现自动过滤冗杂无效的企业信息,对有价值的非结构化的企业网络信息进行体系化的挖掘分析辅助用户对企业进行价值判断,准确得知企业的特性以及价值,直观又快速,简单明呈现企业的全貌和不同特性,从企业的八个维度,市场、技术、产品、客户、组织、资金、服务、管理文化,对企业进行全景动态跟踪分析,精炼且直观,具象化感知企业的全貌和不同特性。
如图6所示,是本实施例提供的一种用于设置企业特性标签的系统,该包括体系建立单元1、语料库获取单元2、提取单元3以及匹配确定单元4。
体系建立单元1,用于建立多维度企业特性标签指标体系。
语料库获取单元2,用于根据多维度企业特性标签指标体系,获取语料库。
提取单元3,用于收集海量企业信息,提取标准化表达方式。
匹配确定单元4,用于将所述标准表达方式与语料库进行匹配,确定企业特性标签。
体系建立单元1具体是基于在国内和世界市场上在某一领域领先或者由某一特性驱动领先的2000家企业为研究样本,结合世界领先管理学科学、行业经济技术分析学派等分析框架以及管理学技术,构建“企业特性标签”指标体系。该多维度企业特性标签指标体系,可以从企业的八个维度:市场、技术、产品、客户、组织、资金、服务、管理文化,对企业进行全景动态跟踪分析,精炼且直观,快速直达企业、具象化感知企业的全貌和不同特性。
更进一步的,上述的语料库获取单元2包括标准化提炼模块21、非标准化提炼模块22以及组合模块23。
标准化提炼模块21,用于根据多维度企业特性标签指标体系,提炼企业特性标签的标准化表达方式。
非标准化提炼模块22,用于根据多维度企业特性标签指标体系,对支撑企业特性标签的非标准化网络信息提取标准化表达方式。
组合模块23,用于将企业特性标签的标准化表达方式以及非标准化网络信息提取标准化表达方式组成语料库。
上述的标准化提炼模块21具体是根据多维度企业特性标签指标体系,分类汇总反映指标体系内各个特性的样本企业信息,通过自然语义理解将企业信息从文字转换成格式化数据,对格式化数据提取表达方式。
上述的非标准化提炼模块22具体是根据多维度企业特性标签指标体系内所包含的企业所处的行业、细分市场、技术以及产品等维度,通过自然语言生成,将非结构化数据转换成具有针对性的标准化叙述,对支撑企业特性标签的非标准化网络信息提取标准化表达方式。
语料库获取单元2将标准的以及非标准的网络信息都囊括在语料库内,保证对企业进行全景动态跟踪分析,精炼且直观,快速直达企业、具象化感知企业的全貌和不同特性。
更进一步的,提取单元3包括收集分析模块31、筛选模块32以及信息提炼模块33。
收集分析模块31,用于收集海量企业信息,进行分析处理。
筛选模块32,用于筛选所述海量企业信息内与多维度企业特性标签指标体系相关联的各个特性的样本企业信息。
信息提炼模块33,用于对所述样本企业信息提取标准化表达方式。
对于收集分析模块31包括采集子模块311以及分析处理子模块312。
采集子模块311,用于利用企业全名、企业简称、产品名称采集相关咨讯网站的海量企业信息。
分析处理子模块312,用于对采集所述海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析。
采集子模块311具体是针对新增企业进行企业全名、企业简称、产品名称搜索,当新企业加入后,用企业全名、企业简称、产品名称在互联网采集相关咨讯网站(百度、百度新闻、网络黄页、企业官网、微博、微信等)的海量企业信息,并使用大数据HDFS技术分布式存储海量数据,基于成熟的大数据技术,保证海量数据的安全存储,保证海量数据分布式处理,效率高,准确度随着数据的积累不断提升。
分析处理子模块312具体是基于自然语言处理的理论和技术,对采集返回的海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析,以大数据技术驱动,基于分布式并行计算架构,解决海量数据的存储以及计算。
筛选模块32具体是使用机器学习技术收集网上公开的海量企业信息,进行语义分析,筛选出与多维度企业特性标签指标体系相关联的各个特性的样本企业信息,使用机器学习和自然语言处理的理论,让机器智能处理企业相关信息,进行摘要、归类以及提取等。且该步骤中的各个特性的样本企业信息为新增企业的样本企业信息。
更进一步的,上述的信息提炼模块33包括分类汇总子模块331以及表述子模块332。
分类汇总子模块331,用于根据语料库的分类,对所述样本企业信息进行分类汇总。
表述子模块332,用于将所述样本企业信息经过格式化数据处理和标准化表述,形成标准表达方式。
分类汇总子模块331具体是根据企业所处的行业、细分市场、技术、产品等维度,进行分类汇总。
表述子模块332通过自然语义理解将所述样本企业信息从文字转换成格式化数据,并通过自然语言生成将所述样本企业信息转换成具有针对性的标准化叙述,以此获取标准表达方式。
上述的匹配确定单元4将所述标准表达方式与语料库进行匹配,确定企业特性标签,具体是运用行业分析工具,通过行业特征、企业细分市场、产品特色等分析,赋予标签以行业、市场、产品等特色,形成企业特性标签,并对企业特性标签进行排序,从企业的八个维度,市场、技术、产品、客户、组织、资金、服务、管理文化,对企业进行全景动态跟踪分析,精炼且直观,快速直达企业、具象化感知企业的全貌和不同特性。
上述的一种用于设置企业特性标签的系统,通过对海量企业信息植入多维度企业特性标签指标体系,对与多维度企业特性标签指标体系相关的特性样本企业信息进行匹配和确定企业特性标签,实现自动过滤冗杂无效的企业信息,对有价值的非结构化的企业网络信息进行体系化的挖掘分析辅助用户对企业进行价值判断,准确得知企业的特性以及价值,直观又快速,简单明呈现企业的全貌和不同特性,从企业的八个维度,市场、技术、产品、客户、组织、资金、服务、管理文化,对企业进行全景动态跟踪分析,精炼且直观,具象化感知企业的全貌和不同特性。
上述仅以实施例来进一步说明本发明的技术内容,以便于读者更容易理解,但不代表本发明的实施方式仅限于此,任何依本发明所做的技术延伸或再创造,均受本发明的保护。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种用于设置企业特性标签的方法,其特征在于,所述方法包括:
建立多维度企业特性标签指标体系;
根据多维度企业特性标签指标体系,获取语料库;
收集海量企业信息,提取标准化表达方式;
将所述标准表达方式与语料库进行匹配,确定企业特性标签。
2.根据权利要求1所述的一种用于设置企业特性标签的方法,其特征在于,根据多维度企业特性标签指标体系,获取语料库的步骤,包括以下具体步骤:
根据多维度企业特性标签指标体系,提炼企业特性标签的标准化表达方式;
根据多维度企业特性标签指标体系,对支撑企业特性标签的非标准化网络信息提取标准化表达方式;
将企业特性标签的标准化表达方式以及非标准化网络信息提取标准化表达方式组成语料库。
3.根据权利要求2所述的一种用于设置企业特性标签的方法,其特征在于,收集海量企业信息,提取标准化表达方式的步骤,包括以下具体步骤:
收集海量企业信息,进行分析处理;
筛选所述海量企业信息内与多维度企业特性标签指标体系相关联的各个特性的样本企业信息;
对所述样本企业信息提取标准化表达方式。
4.根据权利要求3所述的一种用于设置企业特性标签的方法,其特征在于,收集海量企业信息,进行分析处理的步骤,包括以下具体步骤:
利用企业全名、企业简称、产品名称采集相关咨讯网站的海量企业信息;
对采集所述海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析。
5.根据权利要求4所述的一种用于设置企业特性标签的方法,其特征在于,对所述样本企业信息提取标准化表达方式的步骤,包括以下具体步骤:
根据语料库的分类,对所述样本企业信息进行分类汇总;
将所述样本企业信息经过格式化数据处理和标准化表述,形成标准表达方式。
6.一种用于设置企业特性标签的系统,其特征在于,包括体系建立单元、语料库获取单元、提取单元以及匹配确定单元;
所述体系建立单元,用于建立多维度企业特性标签指标体系;
所述语料库获取单元,用于根据多维度企业特性标签指标体系,获取语料库;
所述提取单元,用于收集海量企业信息,提取标准化表达方式;
所述匹配确定单元,用于将所述标准表达方式与语料库进行匹配,确定企业特性标签。
7.根据权利要求6所述的一种用于设置企业特性标签的系统,其特征在于,所述语料库获取单元包括标准化提炼模块、非标准化提炼模块以及组合模块;
所述标准化提炼模块,用于根据多维度企业特性标签指标体系,提炼企业特性标签的标准化表达方式;
所述非标准化提炼模块,用于根据多维度企业特性标签指标体系,对支撑企业特性标签的非标准化网络信息提取标准化表达方式;
所述组合模块,用于将企业特性标签的标准化表达方式以及非标准化网络信息提取标准化表达方式组成语料库。
8.根据权利要求7所述的一种用于设置企业特性标签的系统,其特征在于,所述提取单元包括收集分析模块、筛选模块以及信息提炼模块;
所述收集分析模块,用于收集海量企业信息,进行分析处理;
所述筛选模块,用于筛选所述海量企业信息内与多维度企业特性标签指标体系相关联的各个特性的样本企业信息;
所述信息提炼模块,用于对所述样本企业信息提取标准化表达方式。
9.根据权利要求8所述的一种用于设置企业特性标签的系统,其特征在于,所述收集分析模块包括采集子模块以及分析处理子模块;
所述采集子模块,用于利用企业全名、企业简称、产品名称采集相关咨讯网站的海量企业信息;
所述分析处理子模块,用于对采集所述海量企业信息进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析。
10.根据权利要求9所述的一种用于设置企业特性标签的系统,其特征在于,所述信息提炼模块包括分类汇总子模块以及表述子模块;
所述分类汇总子模块,用于根据语料库的分类,对所述样本企业信息进行分类汇总;
所述表述子模块,用于将所述样本企业信息经过格式化数据处理和标准化表述,形成标准表达方式。
CN201710355321.7A 2017-05-19 2017-05-19 一种用于设置企业特性标签的方法及其系统 Pending CN107193936A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710355321.7A CN107193936A (zh) 2017-05-19 2017-05-19 一种用于设置企业特性标签的方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710355321.7A CN107193936A (zh) 2017-05-19 2017-05-19 一种用于设置企业特性标签的方法及其系统

Publications (1)

Publication Number Publication Date
CN107193936A true CN107193936A (zh) 2017-09-22

Family

ID=59874176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710355321.7A Pending CN107193936A (zh) 2017-05-19 2017-05-19 一种用于设置企业特性标签的方法及其系统

Country Status (1)

Country Link
CN (1) CN107193936A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038490A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于互联网数据的p2p企业自动识别方法与系统
CN109190034A (zh) * 2018-08-23 2019-01-11 北京百度网讯科技有限公司 用于获取信息的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425741A (zh) * 2013-07-16 2013-12-04 北京中科汇联信息技术有限公司 一种信息展示方法和装置
WO2014074917A1 (en) * 2012-11-08 2014-05-15 Cooper & Co Ltd Edwin System and method for divisive textual clustering by label selection using variant-weighted tfidf
CN104036045A (zh) * 2014-07-01 2014-09-10 彩带网络科技(北京)有限公司 一种信息分析方法及服务平台
CN106354861A (zh) * 2016-09-06 2017-01-25 中国传媒大学 电影标签自动标引方法及自动标引系统
CN106383894A (zh) * 2016-09-23 2017-02-08 深圳市由心网络科技有限公司 一种企业供需信息匹配方法和装置
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014074917A1 (en) * 2012-11-08 2014-05-15 Cooper & Co Ltd Edwin System and method for divisive textual clustering by label selection using variant-weighted tfidf
CN103425741A (zh) * 2013-07-16 2013-12-04 北京中科汇联信息技术有限公司 一种信息展示方法和装置
CN104036045A (zh) * 2014-07-01 2014-09-10 彩带网络科技(北京)有限公司 一种信息分析方法及服务平台
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN106354861A (zh) * 2016-09-06 2017-01-25 中国传媒大学 电影标签自动标引方法及自动标引系统
CN106383894A (zh) * 2016-09-23 2017-02-08 深圳市由心网络科技有限公司 一种企业供需信息匹配方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038490A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于互联网数据的p2p企业自动识别方法与系统
CN109190034A (zh) * 2018-08-23 2019-01-11 北京百度网讯科技有限公司 用于获取信息的方法及装置

Similar Documents

Publication Publication Date Title
Hsiang et al. Endless forams:> 34,000 modern planktonic foraminiferal images for taxonomic training and automated species recognition using convolutional neural networks
CN105653444B (zh) 基于互联网日志数据的软件缺陷故障识别方法和系统
Weaver et al. LeafMachine: Using machine learning to automate leaf trait extraction from digitized herbarium specimens
Hienert et al. Digital library research in action–supporting information retrieval in sowiport
CN106959998B (zh) 一种试题推荐方法及装置
CN106502989A (zh) 情感分析方法及装置
KR20140129212A (ko) 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
CN104679827A (zh) 一种基于大数据的公开信息关联方法及挖掘引擎
CN108829661B (zh) 一种基于模糊匹配的新闻主体名称提取方法
CN115312183A (zh) 医学检验报告智能解读方法及系统
CN104268181B (zh) 海洋生物调查数据快速检核方法及装置
CN112685564A (zh) 一种智能科技政策分类、推送方法、以及系统
CN107193936A (zh) 一种用于设置企业特性标签的方法及其系统
CN103425748B (zh) 一种文档资源建议词的挖掘方法和装置
CN107493275A (zh) 异构网络安全日志信息的自适应提取和分析方法及系统
CN110533466A (zh) 基于大数据辅助产品开发的方法、系统和存储介质
CN107330076A (zh) 一种网络舆情信息展示系统及方法
Hardaya et al. Application of text mining for classification of community complaints and proposals
Gutsche Automatic weak signal detection and forecasting
Yang et al. Topic analysis of academic disciplines based on prolific and authoritative researchers
Goodman et al. Virtual Modeling and Visual Computing Technologies, Internet of Things-based Decision Support and Remote Sensing Systems, and Context Awareness and Spatio-Temporal Fusion Algorithms in the Immersive Industrial Metaverse.
Gurney et al. Analysing knowledge capture mechanisms: Methods and a stylised bioventure case
Neeley et al. Standards and practices for reporting plankton and other particle observations from images. Technical Manual.
Vadrucci et al. PhytoNumb3rs: An easy-to-use computer toolkit for counting microalgae by the Utermöhl method
CN112241446A (zh) 一种大数据下基于学生画像的精准资助系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922

RJ01 Rejection of invention patent application after publication