CN109558541B - 一种信息处理的方法、装置及计算机存储介质 - Google Patents

一种信息处理的方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN109558541B
CN109558541B CN201811457324.2A CN201811457324A CN109558541B CN 109558541 B CN109558541 B CN 109558541B CN 201811457324 A CN201811457324 A CN 201811457324A CN 109558541 B CN109558541 B CN 109558541B
Authority
CN
China
Prior art keywords
enterprise
information
data
product
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811457324.2A
Other languages
English (en)
Other versions
CN109558541A (zh
Inventor
刘豹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baiwu Tech Co ltd
Original Assignee
Beijing Baiwu Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baiwu Tech Co ltd filed Critical Beijing Baiwu Tech Co ltd
Priority to CN201811457324.2A priority Critical patent/CN109558541B/zh
Publication of CN109558541A publication Critical patent/CN109558541A/zh
Application granted granted Critical
Publication of CN109558541B publication Critical patent/CN109558541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种信息处理的方法、装置及计算机存储介质,包括:获取当前企业与关联企业的关联企业信息;根据获取的关联企业信息,确定当前企业与关联企业的企业相似度信息;根据确定的企业相似度信息,确定当前企业的营销的关联企业。本发明实施例根据关联企业信息,确定企业营销的关联企业,提升了企业营销的准确性。

Description

一种信息处理的方法、装置及计算机存储介质
技术领域
本文涉及但不限于信息分析技术,尤指一种信息处理的方法、装置及计算机存储介质。
背景技术
精准营销(Precision marketing)就是在精准定位的基础上,依托现代信息技术手段建立个性化的服务体系,实现企业可度量的低成本扩张。即企业需要更精准、可衡量和高投资回报的营销沟通,需要更注重结果和行动的营销传播计划。
随着互联网信息的不断发展,越来越多的信息通过网络获取;因为数据庞杂,如何把对网络中获取的信息进行综合分析,获得对企业营销有用的信息,成为一个需要面对的问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种信息处理的方法、装置及计算机存储介质,能够提升企业营销的准确性。
本发明实施例提供了一种信息处理的方法,包括:
获取当前企业与关联企业的关联企业信息;
根据获取的关联企业信息,确定当前企业与关联企业的企业相似度信息;
根据确定的企业相似度信息,确定当前企业的营销的关联企业。
可选的,所述确定当前企业与关联企业的企业相似度信息包括:
将所述关联企业信息转换为关联企业信息编码;
对所述关联企业信息编码进行分词处理;
根据分词处理的分词处理结果,对关联企业进行企业画像;
根据企业画像确定当前企业与关联企业的企业相似度信息。
可选的,所述关联企业信息包括以下一项以上关联企业的数据:
工商数据、知识产权数据、招投标数据、法务数据、新闻数据、政策数据、投融资数据、企业运营生产数据、互联网数据、及失信数据。
可选的,所述进行分词处理包括:
通过包含有预设的条件随机场CRF识别实体模型的ANSJ分词系统,对所述关联企业信息编码进行分词处理。
可选的,所述CRF识别实体模型包括:
基于字五标记BISEO模式区分识别出实体名称;
对识别出的所述实体名称的各个字段,通过预设的标记进行标记;
通过标记的字段进行语料训练,获得所述CRF识别实体模型;
其中,所述实体名称包括以下一种以上名称:企业名称、企业产品名称、人名、地名、行业名称、时间、组织机构名称。
可选的,所述分词处理结果包括以下一种以上信息:
注册资金、员工规模、成立年限、分布范围、产品有无、纳税等级、专利信息、企业性质信息、商标信息、营业额。
可选的,所述对关联企业进行企业画像包括:
通过预设的量化标准参数对所述分词处理结果进行量化,获得各关联企业的画像标签;
根据量化获得的画像标签,构建获得各关联企业的企业画像;
其中,所述量化标准参数包括:预先设定了对所述关联企业信息进行编码或特征量化的量化标准参数。
可选的,所述关联企业信息包括:
从工商管理系统获取的工商数据;
从商标局和知识产权局获取的知识产权数据;
从招投标网站上获取的企业招投标的招投标数据;
从法院、工商管理局的网站上获取的法务数据;
基于搜索引擎获取的新闻数据;
从政府公布的信息中获取的政策和法规的政策数据;
从关联网站上获取的对企业和/或产品的投融资数据;
从关联企业的官网获取的企业运营生产数据;
通过论坛、微博和微信获取的与企业产品和高管相关的互联网数据;
获取的包括管理人、企业是否失信的失信数据。
其中,所述工商数据包含以下部分或全部信息:注册资金、年报数据;所述知识产权数据包括专利数据和商标数据;所述法务数据包括以下部分或全部数据:经营异常、违法公告和诉讼;所述企业运营生产数据包括以下部分或全部信息:企业高管、产品、客户、企业活动报道。
可选的,所述确定企业相似度信息之前,所述方法还包括:
获取企业的企业客户产品特征词;
根据企业的企业客户产品特征词,计算获得企业产品相似度信息;
根据计算获得的企业产品相似度信息,将需确定企业产品相似度信息的关联企业中,企业产品相似度数值小于预设相似度阈值的关联企业进行删除处理。
可选的,所述获取企业的企业产品特征词包括:
基于词频-反转文件频率对新闻数据和企业运营生产数据进行运算后,获得预设数量的高频词语;
通过词语相关度的计算,为每个名称计算预设数量的企业客户产品特征词。
可选的,所述计算获得企业产品相似度信息后,所述方法还包括:
根据所述关联企业信息确定营销参考信息;
根据确定的营销参考信息,对所述企业产品相似度信息进行调整;
其中,所述营销参考信息包括以下部分或全部信息:企业市场占有率、企业发展潜力、企业信用情况、企业关系信息、产品评价信息、产品研发信息、企业融资、企业上市、企业人事变动、企业员工规模调整、企业股票波动、高管不当行为。
可选的,所述确定当前企业与关联企业的企业相似度信息后,所述方法还包括:
根据所述关联企业信息确定营销参考信息;
根据确定的营销参考信息,对所述企业相似度信息进行调整;
其中,所述营销参考信息包括以下部分或全部信息:企业市场占有率、企业发展潜力、企业信用情况、企业关系信息、产品评价信息、产品研发信息、企业融资、企业上市、企业人事变动、企业员工规模调整、企业股票波动、高管不当行为。
另一方面,本发明实施例还提供一种信息处理的装置,包括:获取单元、确定信息单元和确定企业单元;其中,
获取单元用于:获取当前企业与关联企业的关联企业信息;
确定信息单元用于:根据获取的关联企业信息,确定当前企业与关联企业的企业相似度信息;
确定企业单元用于:根据确定的企业相似度信息,确定当前企业的营销的关联企业。
再一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述信息处理的方法。
与相关技术相比,本申请技术方案包括:获取当前企业与关联企业的关联企业信息;根据获取的关联企业信息,确定当前企业与关联企业的企业相似度信息;根据确定的企业相似度信息,确定当前企业的营销的关联企业。本发明实施例根据关联企业信息,确定企业营销的关联企业,提升了企业营销的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例信息处理的方法的流程图;
图2为本发明实施例信息处理的装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例信息处理的方法的流程图,如图1所示,包括:
步骤101、获取当前企业与关联企业的关联企业信息;
可选的,本发明实施例关联企业信息包括以下一项以上关联企业的数据:
工商数据、知识产权数据、招投标数据、法务数据、新闻数据、政策数据、投融资数据、企业运营生产数据、互联网数据、及失信数据。
可选的,本发明实施例关联企业信息包括:
从工商管理系统获取的工商数据;
从商标局和知识产权局获取的知识产权数据;
从招投标网站上获取的企业招投标的招投标数据;
从法院、工商管理局的网站上获取的法务数据;
基于搜索引擎获取的新闻数据;
从政府公布的信息中获取的政策和法规的政策数据;
从关联网站上获取的对企业和/或产品的投融资数据;
从关联企业的官网获取的企业运营生产数据;
通过论坛、微博和微信获取的与企业产品和高管相关的互联网数据;
获取的包括管理人、企业是否失信的失信数据。
其中,所述工商数据包含以下部分或全部信息:注册资金、年报数据;所述知识产权数据包括专利数据和商标数据;所述法务数据包括以下部分或全部数据:经营异常、违法公告和诉讼;所述企业运营生产数据包括以下部分或全部信息:企业高管、产品、客户、企业活动报道;
需要说明的是,本发明实施例搜索引擎包括以下部分或全部搜索引擎:百度、搜狗、360等;政府包括:国家部委和各级政府;关联网站包括财经网站在内的网站。
步骤102、根据获取的关联企业信息,确定当前企业与关联企业的企业相似度信息;
可选的,本发明实施例确定当前企业与关联企业的企业相似度信息包括:
将所述关联企业信息转换为关联企业信息编码;
对所述关联企业信息编码进行分词处理;
根据分词处理的分词处理结果,对关联企业进行企业画像;
根据企业画像确定当前企业与关联企业的企业相似度信息。
可选的,本发明实施例进行分词处理包括:
通过包含有预设的条件随机场CRF识别实体模型的ANSJ分词系统,对所述关联企业信息编码进行分词处理。
可选的,本发明实施例CRF识别实体模型包括:
基于字五标记BISEO模式区分识别出实体名称;
对识别出的所述实体名称的各个字段,通过预设的标记进行标记;
通过标记的字段进行语料训练,获得所述CRF识别实体模型;
其中,所述实体名称包括以下一种以上名称:企业名称、企业产品名称、人名、地名、行业名称、时间、组织机构名称。
可选的,本发明实施例分词处理结果包括以下一种以上信息:
注册资金、员工规模、成立年限、分布范围、产品有无、纳税等级、专利信息、企业性质信息、商标信息、营业额。
可选的,本发明实施例对关联企业进行企业画像包括:
通过预设的量化标准参数对所述分词处理结果进行量化,获得各关联企业的画像标签;
根据量化获得的画像标签,构建获得各关联企业的企业画像;
其中,所述量化标准参数包括:预先设定了对所述关联企业信息进行编码或特征量化的量化标准参数。
步骤103、根据确定的企业相似度信息,确定当前企业的营销的关联企业。
可选的,确定企业相似度信息之前,本发明实施例方法还包括:
获取企业的企业客户产品特征词;
根据企业的企业客户产品特征词,计算获得企业产品相似度信息;
根据计算获得的企业产品相似度信息,将需确定企业产品相似度信息的关联企业中,企业产品相似度数值小于预设相似度阈值的关联企业进行删除处理。
可选的,本发明实施例获取企业的企业产品特征词包括:
基于词频-反转文件频率对新闻数据和企业运营生产数据进行运算后,获得预设数量的高频词语;
通过词语相关度的计算,为每个名称计算预设数量的企业客户产品特征词。
可选的,计算获得企业产品相似度信息后,本发明实施例方法还包括:
根据所述关联企业信息确定营销参考信息;
根据确定的营销参考信息,对所述企业产品相似度信息进行调整;
其中,所述营销参考信息包括以下部分或全部信息:企业市场占有率、企业发展潜力、企业信用情况、企业关系信息、产品评价信息、产品研发信息、企业融资、企业上市、企业人事变动、企业员工规模调整、企业股票波动、高管不当行为。
可选的,确定当前企业与关联企业的企业相似度信息后,本发明实施例方法还包括:
根据所述关联企业信息确定营销参考信息;
根据确定的营销参考信息,对所述企业相似度信息进行调整;
其中,所述营销参考信息包括以下部分或全部信息:企业市场占有率、企业发展潜力、企业信用情况、企业关系信息、产品评价信息、产品研发信息、企业融资、企业上市、企业人事变动、企业员工规模调整、企业股票波动、高管不当行为。
与相关技术相比,本申请技术方案包括:获取当前企业与关联企业的关联企业信息;根据获取的关联企业信息,确定当前企业与关联企业的企业相似度信息;根据确定的企业相似度信息,确定当前企业的营销的关联企业。本发明实施例根据关联企业信息,确定企业营销的关联企业,提升了企业营销的准确性。
图2为本发明实施例信息处理的装置的结构框图,如图2所示,包括:获取单元、确定信息单元和确定企业单元;其中,
获取单元用于:获取当前企业与关联企业的关联企业信息;
确定信息单元用于:根据获取的关联企业信息,确定当前企业与关联企业的企业相似度信息;
确定企业单元用于:根据确定的企业相似度信息,确定当前企业的营销的关联企业。
可选的,本发明实施例确定信息单元具体用于:
将所述关联企业信息转换为关联企业信息编码;
对所述关联企业信息编码进行分词处理;
根据分词处理的分词处理结果,对关联企业进行企业画像;
根据企业画像确定当前企业与关联企业的企业相似度信息。
可选的,本发明实施例关联企业信息包括以下一项以上关联企业的数据:
工商数据、知识产权数据、招投标数据、法务数据、新闻数据、政策数据、投融资数据、企业运营生产数据、互联网数据、及失信数据。
可选的,本发明实施例确定信息单元进行分词处理包括:
通过包含有预设的条件随机场CRF识别实体模型的ANSJ分词系统,对所述关联企业信息编码进行分词处理。
可选的,本发明实施例CRF识别实体模型包括:
基于字五标记BISEO模式区分识别出实体名称;
对识别出的所述实体名称的各个字段,通过预设的标记进行标记;
通过标记的字段进行语料训练,获得所述CRF识别实体模型;
其中,所述实体名称包括以下一种以上名称:企业名称、企业产品名称、人名、地名、行业名称、时间、组织机构名称。
可选的,本发明实施例分词处理结果包括以下一种以上信息:
注册资金、员工规模、成立年限、分布范围、产品有无、纳税等级、专利信息、企业性质信息、商标信息、营业额。
可选的,本发明实施例确定信息单元用于对关联企业进行企业画像包括:
通过预设的量化标准参数对所述分词处理结果进行量化,获得各关联企业的画像标签;
根据量化获得的画像标签,构建获得各关联企业的企业画像;
其中,所述量化标准参数包括:预先设定了对所述关联企业信息进行编码或特征量化的量化标准参数。
可选的,本发明实施例关联企业信息包括:
从工商管理系统获取的工商数据;
从商标局和知识产权局获取的知识产权数据;
从招投标网站上获取的企业招投标的招投标数据;
从法院、工商管理局的网站上获取的法务数据;
基于搜索引擎获取的新闻数据;
从政府公布的信息中获取的政策和法规的政策数据;
从关联网站上获取的对企业和/或产品的投融资数据;
从关联企业的官网获取的企业运营生产数据;
通过论坛、微博和微信获取的与企业产品和高管相关的互联网数据;
获取的包括管理人、企业是否失信的失信数据。
其中,所述工商数据包含以下部分或全部信息:注册资金、年报数据;所述知识产权数据包括专利数据和商标数据;所述法务数据包括以下部分或全部数据:经营异常、违法公告和诉讼;所述企业运营生产数据包括以下部分或全部信息:企业高管、产品、客户、企业活动报道;
需要说明的是,本发明实施例搜索引擎包括以下部分或全部搜索引擎:百度、搜狗、360等;政府包括:国家部委和各级政府;关联网站包括财经网站在内的网站。
可选的,本发明实施例装置还包括删除处理单元,用于:
获取企业的企业客户产品特征词;
根据企业的企业客户产品特征词,计算获得企业产品相似度信息;
根据计算获得的企业产品相似度信息,将需确定企业产品相似度信息的关联企业中,企业产品相似度数值小于预设相似度阈值的关联企业进行删除处理。
可选的,本发明实施例删除处理单元用于获取企业的企业产品特征词包括:
基于词频-反转文件频率对新闻数据和企业运营生产数据进行运算后,获得预设数量的高频词语;
通过词语相关度的计算,为每个名称计算预设数量的企业客户产品特征词。
可选的,本发明实施例装置还包括第一调整单元,用于:
根据所述关联企业信息确定营销参考信息;
根据确定的营销参考信息,对所述企业产品相似度信息进行调整;
其中,所述营销参考信息包括以下部分或全部信息:企业市场占有率、企业发展潜力、企业信用情况、企业关系信息、产品评价信息、产品研发信息、企业融资、企业上市、企业人事变动、企业员工规模调整、企业股票波动、高管不当行为。
可选的,本发明实施例装置还包括第二调整单元,用于:
根据所述关联企业信息确定营销参考信息;
根据确定的营销参考信息,对所述企业相似度信息进行调整;
其中,所述营销参考信息包括以下部分或全部信息:企业市场占有率、企业发展潜力、企业信用情况、企业关系信息、产品评价信息、产品研发信息、企业融资、企业上市、企业人事变动、企业员工规模调整、企业股票波动、高管不当行为。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述信息处理的方法。
以下通过应用示例对本发明实施例方法进行清楚详细的说明,应用示例仅用于陈述本发明,并不用于限定本发明的保护范围。
应用示例
本发明应用示例基于网络上可以查到的与当前企业相关的关联企业信息,关联企业信息可以包括以下部分或全部信息:工商数据、知识产权数据、招投标数据、法务数据、新闻数据、政策数据、投融资数据、企业运营生产数据、互联网数据、及失信数据;可选的,上述数据可以通过已有的爬虫方式获取:
从工商管理系统获取的工商数据;包含注册资金、年报数据等;
从商标局和知识产权局等获取的知识产权数据;包括专利数据和商标数据;
从招投标网站上获取的企业招投标的招投标数据;
从法院、工商管理局等网站上获取的经营异常、违法公告和诉讼等法务数据;
基于百度、搜狗、360等搜索引擎获取的新闻数据;
从国家部委和各级政府公布的信息中获取的政策和法规等政策数据;
从包括财经网站在内的关联网站上获取的对企业和/或产品的投融资数据;
从关联企业的官网获取的包括企业高管、产品、客户、企业活动报道等企业运营生产数据;
通过论坛、微博和微信等获取的与企业产品和高管相关的互联网数据;
获取包括管理人、企业是否失信的失信数据。
需要说明的是,上述数据在进行获取时,爬虫规则的设定可以由本领域技术人员根据相关技术进行分析确定,在此不做赘述。
获取获得上述关联企业信息后,本发明应用示例,将关联企业信息统一转换为预设编码格式的关联企业信息编码后,将关联企业信息编码通过相关技术进行预处理;其中,关联企业信息编码可以包括utf8编码(utf8编码涵盖内容广泛,有利于内容和字符的编码);预处理可以包括以下处理:分词处理、繁简转化,去除乱码内容和部分乱码内容,进行部分数字和字母的格式转换;具体的,部分乱码包括网页内容不是字母数据、汉字和其余有意义的内容的其他语言的内容、一些数学公式,比例超过30%;字母转换主要是为了后续处理方便,进行大小写转换;数字主要去除中间不必要的空格,将分割的数字直接去除逗号合并为一起等;
本发明应用示例通过分词系统对关联企业信息编码进行分词处理;其中,分词系统包括改进了CRF识别实体模型的ANSJ分词系统;改进的改进了CRF识别实体包括:基于字五标记(BISEO)模式区分识别出实体名称后,通过预设的标记对实体名称的各个字段进行标记,通过标记进行语料训练的条件随机场(CRF)模型;本发明应用示例实体名称包括:企业名称、企业产品名称、人名、地名、行业名称等;以李小四生于湖南省为例,本发明应用示例对这句话中的人名和地名进行识别后,对人名和地名采用预先设定的人名编码和地名编码进行区分后,假设将实体名称划分为开始字段、中间字段和结束字段,则李小四生于湖南省可以标注为以下形式的训练语料:李:人名编码-开始字段、小:人名编码-中间字段、四:人名编码-结束字段、生-0(非实体名称)、于-0(非实体名称)、湖:地名编码-开始字段、南:地名编码-中间字段、省:地名编码-结束字段;人名编码、地名编码、开始字段、中间字段、结束字段、可以由本领域技术人员根据经验进行设定;本发明应用示例上述CRF模型的训练可以采用crf++5.5的工具包实现。
ANSJ分词系统是基于n-Gram+条件随机场模型的中文分词方法,通过java实现,改进后的ANSJ分词系统分词速度可以达到每秒钟大约200万字左右,由于基于条件随机场进行命名实体识别,识别效果好;其中,命名实体名称识别包括企业名称、企业产品名称、人名、地名、行业名称、时间、组织机构名称等。本发明应用示例还可以采用其他分词系统进行分词处理,例如、汉语言处理包(hanlp)、中科院分词系统等;
本发明应用示例对关联企业进行企业画像处理之前,本发明应用示例预先设定了对部分关联企业信息进行编码或特征量化的量化标准参数,以下为本发明应用示例量化标准参数的示例,量化标准参数可以根据实际情况进行调整:
1、所属行业种类,包括对企业所属行业种类和编码进行确定,表1为行业种类划分示意表,并未对所有行业都列举,根据行业的不同,本发明实施例将关联企业划分为不同种类,同时通过编码标识该种类;本发明应用示例可以直接使用相关技术中已有的行业分类和编码,也可以根据需求对行业分类和编码进行调整。
所属行业种类 行业编码
商务服务业 01
软件和信息技术服务业 02
批发业 03
科技推广和应用服务业 04
零售页 05
互联网和相关服务 06
房地产业 07
研究和实验发展 08
文化艺术业 09
专业技术服务业 10
道路运输业 11
其他服务业 12
资本市场服务 13
…… ……
表1
2、企业性质
本发明应用示例根据经营类型确定企业性质,表2对有限责任公司根据资金属性及组成的不同进行划分的示意,如表2所示,有限责任公司可以细分为多种类型,本发明应用示例为其设置了相应的编码:
Figure GDA0003029010580000141
Figure GDA0003029010580000151
表2
3、企业注册资金
本发明应用示例根据预先设定的注册资金评分阈值,将企业注册资金根据资金规模的不同,给予相应的评分,表3为本发明应用示例关联企业不同注册资金规模时对应的评分示意;
Figure GDA0003029010580000152
Figure GDA0003029010580000161
表3
4、企业员工规模
本发明应用示例根据预先设定的员工规模评分阈值,将员工规模根据设定的员工规模评分阈值,给予相应的评分,表4为本发明应用示例关联企业不同员工数对应的评分示意。
企业员工数 分数
大于4999 100
大于1999、小于或等于4999 90
大于999、小于或等于1999 85
大于799、小于或等于999 70
大于499、小于或等于799 55
大于199、小于或等于499 45
大于99、小于或等于199 35
大于49、小于或等于99 25
大于19、小于或等于49 15
小于或等于19 5
表4
5、营业额
本发明应用示例根据预先设定的营业额评分阈值,将营业额根据设定的营业评分阈值,给予相应的评分,表5为本发明应用示例关联企业不同营业额对应的评分示意。
营业额 分数
大于500亿 100
大于200亿、小于或等于500亿 95
大于50亿、小于或等于200亿 90
大于10亿、小于或等于50亿 85
大于2亿、小于或等于10亿 75
大于0.5亿、小于或等于2亿 65
大于0.2亿、小于或等于0.5亿 50
大于0.01亿、小于或等于0.2亿 35
小于0.01亿 20
表5
6、企业等级
本发明应用示例按照预设策略对企业经营状况进行评级,包括根据经营收入、企业员工规模、市场占有额及经营是否异常等进行经营等级的划分,表6为本发明应用示例经营等级划分的示意。
Figure GDA0003029010580000171
Figure GDA0003029010580000181
表6
7、专利数
本发明应用示例按照预设策略对企业专利数进行等级划分,表7为本发明应用示例专利等级划分的示意;
专利数 分数
1~5 10
6~10 20
11~20 35
21~30 50
31~40 65
41~50 80
51~100 95
101以上 100
表7
8、企业年数
本发明应用示例按照预设策略对企业年数进行等级划分,表8为本发明应用示例企业年数等级划分的示意;
Figure GDA0003029010580000182
Figure GDA0003029010580000191
表8
本发明应用示例确定画像标签的相关信息可以通过以下方式获得:
根据工商数据确定关联企业的企业注册资金;
根据企业运营生产数据确定企业员工规模;
根据工商数据确定企业所属行业种类和企业性质;
通过对工商数据中包含的历年的年报采用逻辑回归模型工具包进行建模预测获得的企业营业额;
根据企业产品客户分布确定分布范围;其中,通过工商数据确定企业客户的所属行业类型和所在地区等信息,将企业客户的所属行业类型、所在地区等进行分析后,对企业产品客户通过数字化方式表示分布信息;主要包括:分析企业产品客户在全国的位置分布及地区公司的分布等;比如所属行业种类的编码,企业经营类型编码,还有所在地区的全国行政区市级编码。
根据包括根据经营收入、企业员工规模、市场占有额及经营是否异常进行经营等级;其中,经营收入、企业员工规模、市场占有额及经营是否异常可以根据关联企业信息进行分析确定。
根据知识产权数据确定专利数和是否有商标;其中,专利可以从包括专利局在内的数据库进行获取,商标可以从包括商标局在内的数据库中获取;
根据企业运营生产数据确定营业额。
本发明应用示例可以通过以下部分或全部画像标签计算企业相似度:注册资金、员工规模、成立年限、分布范围、产品有无、纳税等级(根据国家规定)、是否有专利、是否有企业性质信息、是否有商标、营业额等;
Figure GDA0003029010580000192
Figure GDA0003029010580000201
表9
本发明应用示例将注册资金、成立年限、员工规模、产品有无、纳税等级、专利数、是否有企业性质信息、是否有商标、营业额等画像标签都确定为可以量化的点,按照表1到表8的相关设定进行特征量化,获得表9的量化特征后,可以建立企业和关联企业的属性矩阵,计算最相似的企业推荐给客户,进行产品营销;其中,产品有无、是否有企业性质信息、是否有商标可以通过预设的量化标准参数进行特征量化,例如、有企业性质信息时,量化为1、没有企业性质信息时,量化为0;有产品时,量化为1、没有产品时,量化为0;本发明应用示例可以对经营等级按照预设策略进行量化,例如,基于等级越高,量化数值越大的规律进行量化;企业相似度计算出来的是最相似的企业,找到企业了销售人员就可以对企业进行联系,实现产品营销。
本发明应用示例根据企业客户属性,计算与之最为相似的企业,作为潜在客户进行营销,具体展示给营销人员可以是按照企业相似度进行排序的关联企业;即候选营销企业名单,给出营销的理由;比如、和已有客户有一样的产品需求,和已有客户生产模式比较类似或者需求类似等。
本发明应用示例两个企业的相似度可以通过两个向量的余弦夹角cos的相似度进行来描述。企业D1和D2的相似性,基于已有的公式计算如下:
Figure GDA0003029010580000211
其中,wk(D1)、wk(D2)分别表示各企业量化后的画像标签;分子表示两个向量的点乘积,分母表示两个向量的模的积。
可选的,确定企业相似度信息之前,本发明应用示例方法还包括:
基于词频-反转文件频率(TF-IDF,TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术;其主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类)对新闻数据和企业运营生产数据进行运算后,可以计算出一批高频词语(可以是频率在前的2000个词语);通过Word2vec计算词语相关度的方式,为每个名称计算15个企业客户产品特征词,即用企业客户产品名称和高频词计算出15个企业客户产品特征词(用于计算企业产品相似度);具体的,本发明实施例基于Word2vec工具包提供的应用程序访问接口(API),通过API计算出企业产品特征;用企业客户名称和高频词计算出企业客户的特征,用企业客户的产品名成和高频词计算出企业客户产品特征。
本发明应用示例可以采用Dice系数的方式进行加权获得企业产品相似度,本发明应用示例假设确定15个企业产品特征词,15个企业产品特征词的标签权重按照1.5,逐渐减少0.1的方式实现。假设两个企业产品特征词分别是taga=(taga,taga2,...,taga15)共n个画像标签的权重;本发明应用示例计算抓取集中每一关联企业时候,采用相同的方法计算出tagb=(tagb1,tagb2,...,tagb15),假如taga1和tagb1相等,权重记为1.5、taga1和tagb15相等,权重记为0.1,通过上述权重设定可以有效的提高产品相似的可能性。本发明应用示例针对计算到的企业产品相似度信息,对企业产品相似度进行排序;
可选的,本发明应用示例根据企业产品相似度小于相似度阈值的关联企业进行删除处理;本发明应用示例,相似度阈值可以设置为大于或等于0.75以上的数值。
可选的,删除企业产品相似度小于相似度阈值的关联企业之前,本发明实施例方法还包括:
根据所述关联企业信息确定营销参考信息;
根据确定的营销参考信息,对所述企业产品相似度信息进行调整;
其中,所述营销参考信息包括以下部分或全部信息:企业市场占有率、企业发展潜力、企业信用情况、企业关系信息、产品评价信息、产品研发信息、企业融资、企业上市、企业人事变动、企业员工规模调整、企业股票波动、高管不当行为。
可选的,确定当前企业与关联企业的企业相似度信息后,本发明实施例方法还包括:
根据所述关联企业信息确定营销参考信息;
根据确定的营销参考信息,对所述企业相似度信息进行调整;
其中,所述营销参考信息包括以下部分或全部信息:企业市场占有率、企业发展潜力、企业信用情况、企业关系信息、产品评价信息、产品研发信息、企业融资、企业上市、企业人事变动、企业员工规模调整、企业股票波动、高管不当行为。
以下对企业相似度信息和企业产品相似度信息进行调整的营销参考信息,营销参考信息包括政策影响因子和舆情影响因子;其中,政策影响因子和舆情影响因子可以包括:
企业市场占有率、企业发展潜力、企业信用情况、企业关系信息、产品评价信息、产品研发信息、企业融资、企业上市、企业人事变动、企业员工规模调整、企业股票波动、高管不当行为等。以下对营销参考信息的获取或来源进行简要说明:
企业发展潜力:利用情感分析方法对获取的政策数据进行分析后,获得政策是否利于行业发展的政策影响信息,确定产品是否具备发展潜力;比如同样的产品,有些省份有进行地方保护,限制外来,有些省份没有大量支持引进和外来;
产品评价信息:通过情感分析方法对获取的互联网数据进行分析后,获得企业产品优劣的产品评价信息。产品评价信息包括产品良好反馈和产品负面反馈;良好反馈和负面反馈可以根据产品评价信息中正面和负面评价的比例确定,正面评价大于一定的百分比时,确定良好反馈;负面评价大于另一设定的百分比时,确定负面反馈。
企业的市场占用率:通过情感分析方法对排行榜数据、行业报表数据、企业官网数据进行分词处理获得相关参数后,通过预设算法确定企业的市场占有率;
企业信用情况:企业信用状况对于企业营销十分重要,一个资金链断裂或者没用信用的企业,即使市场再大,也不值得企业营销产品,因此企业信用特别重要。本发明应用示例通过以下方式获得企业信用情况:从获取的法务数据通过分词系统识别出实体名称(企业名称、人名、产品名称)后,通过识别出的实体名称确定关联企业的名称和高管等,通过分词系统和预先设定的法务数据处理模板,将法务数据根据法务类型进行划分后,确定企业是否违法、是否参与诉讼、是否发生违约和经营异常等,基于对法务数据的处理目的,本领域技术人员可以基于相关技术确定法务数据处理模板,根据识别出的企业名称及获取的失信数据,确定企业是否失信;通过识别出的高管结合失信数据,确定高管是否失信。
企业关系信息:对获取的互联网数据进行分词识别处理,并识别其中的实体名称;对识别的实体名称,采用相关技术中已有的情感分析方法,确定实体之间的好坏关系。比如、企业和产品关系好,利于后面的推送,起积极影响。
产品研发信息,产品研发信息包括企业产品重大突破,企业产品重大突破可以通过用户数据确定,例如、用户增加到一定数量、或出现一定百分比的增长;
市场占有率大幅度提高:市场占有率大幅度提高可以通过排行榜数据局,新闻数据,采用相关技术中已有的NLP方法分析获取;也可以通过企业运营生产数据获得;还可以是来自互联网数据;
企业融资;需要说明的是,本发明应用示例企业融资包括企业上市实现的融资;
企业人事变动包括:企业重大人事变动影响;例如,企业管理层发生变动;
企业员工规模调整包括:企业大量扩招或裁员;例如、新建生产线或分厂后扩招;扩招或裁员规模是否作为营销参考信息可以由本领域技术人员进行分析确定;
企业股票波动包括:企业股票大幅度波动的影响;包括:大幅上涨或下跌;可以通过公司财务报表和股票价格等分析确定;波动范围可以由本领域技术人员根据实际情况分析确定;
高管不当行为的影响:可以通过对新闻信息、互联网数据进行分析获得;本发明应用示例可以运用公司高管的名字从搜索引擎抓取新闻信息、互联网数据,基于指定的负面关键词或知识库进行NLP分析处理获得。
本发明应用示例上述信息可以根据包括占有量、名列前茅、名列三甲、区域销量冠军、占有率、裁员、扩招、人员缩减在内的知识库对新闻数据进行分析获得;本发明应用示例产品名称可以通过以下方式获得:对企业运营生产数据、新闻数据,运用命名实体识别分析技术(改进的ANSJ分词系统)识别出来相应的公司名和产品名实现。
可选的,本发明应用示例还包括:进行产品营销时,如果营销对象是失信企业,可以对失信企业进行提示;失信企业也可以推荐但是要采用预付费的模式,防止产生坏账和烂账。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的每个模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (13)

1.一种信息处理的方法,其特征在于,包括:
获取当前企业与关联企业的关联企业信息;
根据获取的关联企业信息,确定当前企业与关联企业的企业相似度信息;
根据确定的企业相似度信息,确定当前企业的营销的关联企业;
其中,所述确定当前企业与关联企业的企业相似度信息包括:将所述关联企业信息转换为关联企业信息编码;对所述关联企业信息编码进行分词处理;根据分词处理的分词处理结果,对关联企业进行企业画像;根据企业画像确定当前企业与关联企业的企业相似度信息;所述当前企业的营销的关联企业包括:当前企业的营销的按照企业相似度信息进行排序的关联企业。
2.根据权利要求1所述的方法,其特征在于,所述关联企业信息包括以下一项以上关联企业的数据:
工商数据、知识产权数据、招投标数据、法务数据、新闻数据、政策数据、投融资数据、企业运营生产数据、互联网数据、失信数据。
3.根据权利要求2所述的方法,其特征在于,所述进行分词处理包括:
通过包含有预设的条件随机场CRF识别实体模型的ANSJ分词系统,对所述关联企业信息编码进行分词处理。
4.根据权利要求3所述的方法,其特征在于,所述CRF识别实体模型包括:
基于字五标记BISEO模式区分识别出实体名称;
对识别出的所述实体名称的各个字段,通过预设的标记进行标记;
通过标记的字段进行语料训练,获得所述CRF识别实体模型;
其中,所述实体名称包括以下一种以上名称:企业名称、企业产品名称、人名、地名、行业名称、时间、组织机构名称。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述分词处理结果包括以下一种以上信息:
注册资金、员工规模、成立年限、分布范围、产品有无、纳税等级、专利信息、企业性质信息、商标信息、营业额。
6.根据权利要求5所述的方法,其特征在于,所述对关联企业进行企业画像包括:
通过预设的量化标准参数对所述分词处理结果进行量化,获得各关联企业的画像标签;
根据量化获得的画像标签,构建获得各关联企业的企业画像;
其中,所述量化标准参数包括:预先设定了对所述关联企业信息进行编码或特征量化的量化标准参数。
7.根据权利要求1所述的方法,其特征在于,所述关联企业信息包括:
从工商管理系统获取的工商数据;
从商标局和知识产权局获取的知识产权数据;
从招投标网站上获取的企业招投标的招投标数据;
从法院、工商管理局的网站上获取的法务数据;
基于搜索引擎获取的新闻数据;
从政府公布的信息中获取的政策和法规的政策数据;
从关联网站上获取的对企业和/或产品的投融资数据;
从关联企业的官网获取的企业运营生产数据;
通过论坛、微博和微信获取的与企业产品和高管相关的互联网数据;
获取的包括管理人、企业是否失信的失信数据;
其中,所述工商数据包含以下部分或全部信息:注册资金、年报数据;所述知识产权数据包括专利数据和商标数据;所述法务数据包括以下部分或全部数据:经营异常、违法公告和诉讼;所述企业运营生产数据包括以下部分或全部信息:企业高管、产品、客户、企业活动报道。
8.根据权利要求2所述的方法,其特征在于,确定所述企业相似度信息之前,所述方法还包括:
获取企业的企业客户产品特征词;
根据企业的企业客户产品特征词,计算获得企业产品相似度信息;
根据计算获得的企业产品相似度信息,将需确定企业产品相似度信息的关联企业中,企业产品相似度数值小于预设相似度阈值的关联企业进行删除处理。
9.根据权利要求8所述的方法,其特征在于,所述获取企业的企业产品特征词包括:
基于词频-反转文件频率对新闻数据和企业运营生产数据进行运算后,获得预设数量的高频词语;
通过词语相关度的计算,为每个名称计算预设数量的企业客户产品特征词。
10.根据权利要求8所述的方法,其特征在于,所述计算获得企业产品相似度信息后,所述方法还包括:
根据所述关联企业信息确定营销参考信息;
根据确定的营销参考信息,对所述企业产品相似度信息进行调整;
其中,所述营销参考信息包括以下部分或全部信息:企业市场占有率、企业发展潜力、企业信用情况、企业关系信息、产品评价信息、产品研发信息、企业融资、企业上市、企业人事变动、企业员工规模调整、企业股票波动、高管不当行为。
11.根据权利要求1~4任一项所述的方法,其特征在于,所述确定当前企业与关联企业的企业相似度信息后,所述方法还包括:
根据所述关联企业信息确定营销参考信息;
根据确定的营销参考信息,对所述企业相似度信息进行调整;
其中,所述营销参考信息包括以下部分或全部信息:企业市场占有率、企业发展潜力、企业信用情况、企业关系信息、产品评价信息、产品研发信息、企业融资、企业上市、企业人事变动、企业员工规模调整、企业股票波动、高管不当行为。
12.一种信息处理的装置,其特征在于,包括:获取单元、确定信息单元和确定企业单元;其中,
获取单元用于:获取当前企业与关联企业的关联企业信息;
确定信息单元用于:根据获取的关联企业信息,将关联企业信息转换为关联企业信息编码;对关联企业信息编码进行分词处理;根据分词处理的分词处理结果,对关联企业进行企业画像;根据企业画像确定当前企业与关联企业的企业相似度信息;
确定企业单元用于:根据确定的企业相似度信息,确定当前企业的营销的关联企业;其中,所述当前企业的营销的关联企业包括:当前企业的营销的按照企业相似度信息进行排序的关联企业。
13.一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~11中任一项所述的信息处理的方法。
CN201811457324.2A 2018-11-30 2018-11-30 一种信息处理的方法、装置及计算机存储介质 Active CN109558541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811457324.2A CN109558541B (zh) 2018-11-30 2018-11-30 一种信息处理的方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811457324.2A CN109558541B (zh) 2018-11-30 2018-11-30 一种信息处理的方法、装置及计算机存储介质

Publications (2)

Publication Number Publication Date
CN109558541A CN109558541A (zh) 2019-04-02
CN109558541B true CN109558541B (zh) 2021-10-22

Family

ID=65868347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811457324.2A Active CN109558541B (zh) 2018-11-30 2018-11-30 一种信息处理的方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN109558541B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084493A (zh) * 2019-04-11 2019-08-02 企家有道网络技术(北京)有限公司 基于人工智能的企业诊断、预测方法及装置、服务器
CN112528007B (zh) * 2019-09-19 2023-04-07 中冶赛迪信息技术(重庆)有限公司 一种招商项目的目标企业的确认方法及确认装置
JP2021114017A (ja) * 2020-01-16 2021-08-05 富士通株式会社 生成方法,情報処理装置及び生成プログラム
CN111309993B (zh) * 2020-01-22 2023-05-23 奇安信科技集团股份有限公司 企业资产数据画像的生成方法及系统
CN112182246B (zh) * 2020-09-28 2022-01-11 上海市浦东新区行政服务中心(上海市浦东新区市民中心) 通过大数据分析建立企业画像的方法、系统、介质及应用
CN112800333B (zh) * 2021-02-04 2023-10-27 北京信息科技大学 企业用户服务的推荐方法、装置、设备及存储介质
CN114615311B (zh) * 2022-03-03 2024-02-13 平安国际融资租赁有限公司 一种企业信息处理方法、装置、设备及存储介质
CN116664318A (zh) * 2023-06-29 2023-08-29 成都市人力资源社会保障信息中心(成都市社会保障卡卡务中心) 一种企业归纳系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416494A (zh) * 2018-01-29 2018-08-17 广州越秀金融科技有限公司 基于大数据的企业客户画像构建方法及系统实现
CN108763507A (zh) * 2018-05-30 2018-11-06 北京百度网讯科技有限公司 企业关联关系挖掘方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403335A (zh) * 2017-06-19 2017-11-28 北京至信普林科技有限公司 一种基于深度用户画像进行精准营销的系统及实现方法
CN107527151A (zh) * 2017-08-31 2017-12-29 郑州云海信息技术有限公司 一种构建企业画像的方法及系统
CN107730318B (zh) * 2017-10-30 2021-08-20 厦门二五八网络科技集团股份有限公司 智能客户推荐平台及其推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416494A (zh) * 2018-01-29 2018-08-17 广州越秀金融科技有限公司 基于大数据的企业客户画像构建方法及系统实现
CN108763507A (zh) * 2018-05-30 2018-11-06 北京百度网讯科技有限公司 企业关联关系挖掘方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
知识图谱赋能金融科技,看这一篇就够了;隗樊 Iris;《https://www.iyiou.com/p/83869.html》;20181023;第1-6页 *

Also Published As

Publication number Publication date
CN109558541A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN109558541B (zh) 一种信息处理的方法、装置及计算机存储介质
CN107945024B (zh) 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
US10095780B2 (en) Automatically mining patterns for rule based data standardization systems
Tsui et al. Knowledge-based extraction of intellectual capital-related information from unstructured data
CN115002200B (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
CN109508373B (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
CN105975459B (zh) 一种词项的权重标注方法和装置
CN112395410B (zh) 一种基于实体抽取的产业舆情推荐方法、装置及电子设备
CN112148843B (zh) 文本处理方法、装置、终端设备和存储介质
CN110489646B (zh) 用户画像构建方法及终端设备
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
US20190080352A1 (en) Segment Extension Based on Lookalike Selection
WO2018171295A1 (zh) 一种给文章标注标签的方法、装置、终端及计算机可读存储介质
CN116521865A (zh) 一种基于自动识别技术的元数据分类方法、存储介质及系统
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN114303140A (zh) 与产品和服务相关的知识产权数据分析
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN115239214B (zh) 企业的评估处理方法、装置及电子设备
Mitsuzuka et al. Analysis of CSR activities affecting corporate value using machine learning
CN116451074A (zh) 目标对象的画像生成方法、装置、计算机设备、存储介质
CN112560433B (zh) 一种信息处理的方法及装置
CN111798214B (zh) 职位技能标签生成系统及方法
CN112463966B (zh) 虚假评论检测模型训练方法、检测方法及装置
CN112434126B (zh) 一种信息处理方法、装置、设备和存储介质
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant