CN111539605B - 企业画像的构建方法及装置 - Google Patents
企业画像的构建方法及装置 Download PDFInfo
- Publication number
- CN111539605B CN111539605B CN202010290316.4A CN202010290316A CN111539605B CN 111539605 B CN111539605 B CN 111539605B CN 202010290316 A CN202010290316 A CN 202010290316A CN 111539605 B CN111539605 B CN 111539605B
- Authority
- CN
- China
- Prior art keywords
- organization
- attribute information
- enterprise
- name
- natural person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims description 17
- 230000008520 organization Effects 0.000 claims abstract description 370
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 31
- 238000010606 normalization Methods 0.000 claims description 14
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 abstract description 5
- 230000015654 memory Effects 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种企业画像的构建方法及装置。所述方法包括:对获取到的企业公告文本进行预处理,得到预处理后的企业公告文本,再从预处理后的企业公告文本中,识别出自然人的属性信息和组织机构的属性信息,进而可以根据自然人的属性信息和组织机构的属性信息,构建企业画像。如此,基于企业公告文本来构建企业画像,企业公告文本能够更加全面、清楚且准确地反映企业的经营情况,从而可以提高构建企业画像的准确度;进一步地,通过识别出自然人的属性信息和组织机构的属性信息来构建企业画像,相比于现有技术中人工手动映射分类的方式而言,大大降低了构建企业画像所需的时间,提高构建企业画像的效率。
Description
技术领域
本申请涉及互联网技术领域,特别涉及一种企业画像的构建方法及装置。
背景技术
随着大数据时代的来临,企业画像的概念应运而生。企业画像描述的是企业基本情况、经营情况、消费决策和对产品的诉求等多维度企业信息数据,运用企业画像,可以更加全面地了解企业状况。
目前,通常根据企业工商信息、产品信息、网站信息等数据进行人工手动映射分类,从而构建企业画像。但是,这种方法获取数据的难度较大,人工分类的方式效率较低,准确度也不高。
基于此,目前急需一种企业画像的构建方法,用于解决现有技术中企业画像构建效率低、准确度低的问题。
发明内容
本申请提供了一种企业画像的构建方法及装置,可用于解决在现有技术中企业画像构建效率低、准确度低的技术问题。
第一方面,本申请实施例提供一种企业画像的构建方法,所述方法包括:
获取企业公告文本;
对所述企业公告文本进行预处理,得到预处理后的企业公告文本;
从所述预处理后的企业公告文本中,识别出自然人的属性信息和组织机构的属性信息;
根据所述自然人的属性信息和所述组织机构的属性信息,构建企业画像。
结合第一方面,在第一方面的一种可实现方式中,所述自然人的属性信息包括自然人的姓名,所述组织机构的属性信息包括组织机构的名称和组织机构的法定代表人;
根据所述自然人的属性信息和所述组织机构的属性信息,构建企业画像,包括:
根据就近原则,基于所述自然人的姓名建立自然人的属性信息之间的关联关系,以及基于所述组织机构的名称建立组织机构的属性信息之间的关联关系;
根据所述自然人的姓名以及所述组织机构的法定代表人,建立自然人的属性信息与组织机构的属性信息之间的关联关系;
根据所述自然人的属性信息、所述组织机构的属性信息、所述自然人的属性信息之间的关联关系、所述组织机构的属性信息之间的关联关系以及所述自然人的属性信息与组织机构的属性信息之间的关联关系,构建企业画像。
结合第一方面,在第一方面的一种可实现方式中,对所述企业公告文本进行预处理,得到预处理后的企业公告文本,包括:
从所述企业公告文本中提取出组织机构全称、组织机构简称和组织机构指代名称;
根据所述组织机构全称、所述组织机构简称和所述组织机构指代名称,对所述企业公告文本进行名称归一化处理后,得到所述预处理后的企业公告文本。
结合第一方面,在第一方面的一种可实现方式中,根据所述组织机构全称、所述组织机构简称和所述组织机构指代名称,对所述企业公告文本进行名称归一化处理后,得到所述预处理后的企业公告文本,包括:
将所述企业公告文本中所述组织机构简称替换为所述组织机构全称,将所述企业公告文本中所述组织机构指代名称替换为所述组织机构全称,得到所述预处理后的企业公告文本。
结合第一方面,在第一方面的一种可实现方式中,从所述企业公告文本中提取出组织机构全称,包括:
采用预设NER模型,从所述企业公告文本中提取到所述组织机构全称;所述预设NER模型是根据多个企业公告信息及每个企业公告信息包含的组织机构全称,通过机器学习算法训练得到的。
结合第一方面,在第一方面的一种可实现方式中,从所述企业公告文本中提取出组织机构简称,包括:
根据预设的简称提取规则,从所述企业公告文本中提取出所述组织机构简称;所述预设的简称提取规则是根据所述组织机构简称对应的关键词与所述组织机构简称对应的语境规则确定的。
结合第一方面,在第一方面的一种可实现方式中,从所述企业公告文本中提取出组织机构指代名称,包括:
根据预设的指代名称提取规则,从所述企业公告文本中提取出所述组织机构指代名称;所述预设的指代名称提取规则是根据所述组织机构指代名称对应的关键词与所述组织机构指代名称对应的语境规则确定的。
结合第一方面,在第一方面的一种可实现方式中,从所述预处理后的企业公告文本中,识别出自然人的属性信息,包括:
根据预设的自然人属性关键词,从所述预处理后的企业公告文本中识别出所述自然人的属性信息。
结合第一方面,在第一方面的一种可实现方式中,所述自然人的属性信息包括自然人的姓名、自然人的性别、自然人的年龄、自然人的学历、自然人的国籍、自然人的身份证号码、自然人的住址和自然人的工作情况中的至少一项。
结合第一方面,在第一方面的一种可实现方式中,从所述预处理后的企业公告文本中,识别出组织机构的属性信息,包括:
根据预设的组织机构属性关键词,从所述预处理后的企业公告文本中识别出所述组织机构的属性信息。
结合第一方面,在第一方面的一种可实现方式中,所述组织机构的属性信息包括组织机构的名称、组织机构的法定代表人、组织机构的法人代表、组织机构的成立日期、组织机构的注册资本、组织机构的注册编号、组织机构的资本金和组织机构的经营范围中的至少一项。
第二方面,本申请实施例提供一种企业画像的构建装置,所述装置包括:
获取单元,用于获取企业公告文本;
处理单元,用于对所述企业公告文本进行预处理,得到预处理后的企业公告文本;以及,从所述预处理后的企业公告文本中,识别出自然人的属性信息和组织机构的属性信息;
构建单元,用于根据所述自然人的属性信息和所述组织机构的属性信息,构建企业画像。
结合第二方面,在第二方面的一种可实现方式中,所述自然人的属性信息包括自然人的姓名,所述组织机构的属性信息包括组织机构的名称和组织机构的法定代表人;
所述构建单元具体用于:
根据就近原则,基于所述自然人的姓名建立自然人的属性信息之间的关联关系,以及基于所述组织机构的名称建立组织机构的属性信息之间的关联关系;以及,根据所述自然人的姓名以及所述组织机构的法定代表人,建立自然人的属性信息与组织机构的属性信息之间的关联关系;以及,根据所述自然人的属性信息、所述组织机构的属性信息、所述自然人的属性信息之间的关联关系、所述组织机构的属性信息之间的关联关系以及所述自然人的属性信息与组织机构的属性信息之间的关联关系,构建企业画像。
结合第二方面,在第二方面的一种可实现方式中,所述处理单元具体用于:
从所述企业公告文本中提取出组织机构全称、组织机构简称和组织机构指代名称;以及,根据所述组织机构全称、所述组织机构简称和所述组织机构指代名称,对所述企业公告文本进行名称归一化处理后,得到所述预处理后的企业公告文本。
结合第二方面,在第二方面的一种可实现方式中,所述处理单元具体用于:
将所述企业公告文本中所述组织机构简称替换为所述组织机构全称,将所述企业公告文本中所述组织机构指代名称替换为所述组织机构全称,得到所述预处理后的企业公告文本。
结合第二方面,在第二方面的一种可实现方式中,所述处理单元具体用于:
采用预设NER模型,从所述企业公告文本中提取到所述组织机构全称;所述预设NER模型是根据多个企业公告信息及每个企业公告信息包含的组织机构全称,通过机器学习算法训练得到的。
结合第二方面,在第二方面的一种可实现方式中,所述处理单元具体用于:
根据预设的简称提取规则,从所述企业公告文本中提取出所述组织机构简称;所述预设的简称提取规则是根据所述组织机构简称对应的关键词与所述组织机构简称对应的语境规则确定的。
结合第二方面,在第二方面的一种可实现方式中,所述处理单元具体用于:
根据预设的指代名称提取规则,从所述企业公告文本中提取出所述组织机构指代名称;所述预设的指代名称提取规则是根据所述组织机构指代名称对应的关键词与所述组织机构指代名称对应的语境规则确定的。
结合第二方面,在第二方面的一种可实现方式中,所述处理单元具体用于:
根据预设的自然人属性关键词,从所述预处理后的企业公告文本中识别出所述自然人的属性信息。
结合第二方面,在第二方面的一种可实现方式中,所述自然人的属性信息包括自然人的姓名、自然人的性别、自然人的年龄、自然人的学历、自然人的国籍、自然人的身份证号码、自然人的住址和自然人的工作情况中的至少一项。
结合第二方面,在第二方面的一种可实现方式中,所述处理单元具体用于:
根据预设的组织机构属性关键词,从所述预处理后的企业公告文本中识别出所述组织机构的属性信息。
结合第二方面,在第二方面的一种可实现方式中,所述组织机构的属性信息包括组织机构的名称、组织机构的法定代表人、组织机构的法人代表、组织机构的成立日期、组织机构的注册资本、组织机构的注册编号、组织机构的资本金和组织机构的经营范围中的至少一项。
本申请实施例中,对获取到的企业公告文本进行预处理,得到预处理后的企业公告文本,再从预处理后的企业公告文本中,识别出自然人的属性信息和组织机构的属性信息,进而可以根据自然人的属性信息和组织机构的属性信息,构建企业画像。如此,一方面,本申请实施例基于企业公告文本来构建企业画像,企业公告文本能够更加全面、清楚且准确地反映企业的经营情况,从而可以提高构建企业画像的准确度;另一方面,本申请实施例通过识别出自然人的属性信息和组织机构的属性信息来构建企业画像,相比于现有技术中人工手动映射分类的方式而言,大大降低了构建企业画像所需的时间,提高构建企业画像的效率。
附图说明
图1为本申请实施例提供一种企业画像的构建方法所对应的流程示意图;
图2为本申请实施例提供的一种具体的构建企业画像的方法所对应的流程示意图;
图3为本申请实施例提供的一种企业画像构建装置的结构示意图;
图4为本申请实施例提供的电子设备硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示例性示出了本申请实施例提供一种企业画像的构建方法所对应的流程示意图,具体包括如下步骤:
步骤101,获取企业公告文本。
步骤102,对企业公告文本进行预处理,得到预处理后的企业公告文本。
步骤103,从预处理后的企业公告文本中,识别出自然人的属性信息和组织机构的属性信息。
步骤104,根据自然人的属性信息和组织机构的属性信息,构建企业画像。
本申请实施例中,对获取到的企业公告文本进行预处理,得到预处理后的企业公告文本,再从预处理后的企业公告文本中,识别出自然人的属性信息和组织机构的属性信息,进而可以根据自然人的属性信息和组织机构的属性信息,构建企业画像。如此,一方面,本申请实施例基于企业公告文本来构建企业画像,企业公告文本能够更加全面、清楚且准确地反映企业的经营情况,从而可以提高构建企业画像的准确度;另一方面,本申请实施例通过识别出自然人的属性信息和组织机构的属性信息来构建企业画像,相比于现有技术中人工手动映射分类的方式而言,大大降低了构建企业画像所需的时间,提高构建企业画像的效率。
具体来说,步骤101中,企业公告文本是企业向社会公开地告知其重要事项的一种文书。根据公告的内容、性质、作用等的不同,公告可以划分为企业招募公告、企业物权资产转移公告、企业事务公告、企业交易公告、企业注册公告、企业变更公告和企业资产公告等。
企业公告文本中一般包含企业的相关信息,比如组织机构名称(即企业名称)、成立时间、法定代表人等信息。因此,通过分析企业公告文本,可以快速构建企业画像。
本申请实施例中,企业公告文本可以是通过互联网获取得到的,通过Python语言编写的网路数据爬虫,可以获取到大量关于各个企业的企业公告文本,这些企业公告文本的来源可以是各企业的官方网站或者搜索引擎。
步骤102中,由于获取到的企业公告文本可能存在重复、数据格式非法或存在不规范编码的问题,因此,需要对企业公告文本进行预处理,提高企业公告文本的质量。
具体地,对企业公告文本进行预处理的方式有多种,下面进行详细说明。
一种可能的实现方式为,对企业公告文本进行名称归一化处理。
需要说明的是,名称归一化处理的前提是确定出企业公告文本种包括的名称信息,具体为从企业公告文本中提取出组织机构全称、组织机构简称和组织机构指代名称,然后可以根据组织机构全称、组织机构简称和组织机构指代名称,对企业公告文本进行名称归一化处理后,得到预处理后的企业公告文本。
下面先就如何从企业公告文本中提取出组织机构全称、组织机构简称和组织机构指代名称,进行具体描述。
从企业公告文本中提取出组织机构全称的过程可以是,采用预设命名实体识别(Name Entity Recognition,NER)模型,从企业公告文本中提取到组织机构全称,预设NER模型是根据多个企业公告信息及每个企业公告信息包含的组织机构全称,通过机器学习算法训练得到的。
具体地,预先在企业公告文本中标注出组织机构全称的语料,利用双向长短时记忆网络与条件随机场(Bi-directional Long Short-Term Memory+Conditional RandomField,Bilstm+CRF)算法训练NER模型,从而得到预设NER模型。
进一步地,如果采用预设NER模型未能从企业公告文本中提取出组织机构全称,那么,可以根据预设的全称提取规则,从企业公告文本中提取出组织机构全称,其中,预设的全称提取规则是根据组织机构全称对应的关键词与组织机构全称对应的语境规则确定的。
组织机构全称对应的关键词可以是根据组织机构的类型来确定的,比如,组织机构的类型可以包括有限责任公司、股份有限公司、集团、研究院和事务所等,那么,组织机构全称对应的关键词可以包括“有限责任公司”、“股份有限公司”、“集团”、“研究院”和“事务所”等,具体不做限定。
组织机构全称对应的语境规则可以是“长度不超过20个字符”和“不包括特殊字符”等规则,具体不做限定。
举个例子,首先采用预设NER模型识别企业公告文本中的组织机构全称,通常将位置索引最小(即首次出现在企业公告文本中的位置)的名称作为组织机构全称;如果预设NER模型未识别到组织机构全称,则可以利用“\n”换行符号分割企业公告文本,得到首段信息,与组织机构全称对应的关键词(如“有限责任公司”、“股份有限公司”等)进行关键词匹配,得到第一个匹配的位置索引;根据该匹配的位置索引对企业公告文本进行信息截取,判断截取到的信息是否满足组织机构全称对应的语境规则(如“长度不超过20个字符”、“不包括特殊字符”),如果满足,则确定该截取到的信息是组织机构全称,如果不满足,则获取第二个匹配的位置索引,直至得到组织机构全称。
从企业公告文本中提取出组织机构简称的过程可以是,根据预设的简称提取规则,从企业公告文本中提取出所述组织机构简称,其中,预设的简称提取规则是根据组织机构简称对应的关键词与组织机构简称对应的语境规则确定的。
具体地,组织机构简称对应的关键词可以包括“简称为”和“以下简称为”等,具体不做限定。
组织机构简称对应的语境规则可以是“长度不超过5个字符”和“不包括特殊字符”等规则,具体不做限定。
进一步地,可以根据预设的简称提取规则,构建组织机构简称提取模型,利用该组织机构简称提取模型对企业公告文本进行分析,得到组织机构简称,进而,还可以将提取得到的组织机构简称与位置索引(即组织机构简称在企业公告文本中的位置)封装到组织机构简称实体对象列表中,以便后续步骤调用。
由于从企业公告文本中提取出组织机构简称是为后续名称归一化处理服务的,对于一些不需要进行归一化处理的简称,即可称之为干扰类简称。
考虑到提取出的信息中可能会包括干扰类简称,其中,干扰类简称是指邻近组织机构全称的简称。
比如,“XXX有限公司(以下简称为‘XXX’)”,此处括号里的内容就是干扰类简称,识别组织机构简称的目的是要替换成对应组织机构全称,实现名称归一化。而这种干扰类简称是不需要替换的,属于公司简称释义,真正需要替换的是独立出现的简称信息。因此,需要识别并去除这种干扰类简称。
下面详细描述去除干扰类简称的方法。
根据预设的简称提取规则,从企业公告文本中提取出候选组织机构简称;从候选组织机构简称中筛选掉干扰类简称后,得到组织机构简称。
具体地,确定候选组织机构简称对应的候选位置索引,判断在候选位置索引前后10个字符范围内是否存在组织机构全称,如果存在,则确定该候选组织机构简称是干扰类简称;如果不存在,则确定该候选组织机构简称是组织机构简称。
从企业公告文本中提取出组织机构指代名称的过程可以是,根据预设的指代名称提取规则,从企业公告文本中提取出组织机构指代名称;其中,预设的指代名称提取规则是根据组织机构指代名称对应的关键词与组织机构指代名称对应的语境规则确定的。
组织机构指代名称对应的关键词可以包括“公司”、“本公司”、“我公司”、“本单位”、“本集团”、“本研究院”和“本事务所”等,具体不做限定。
组织机构指代名称对应的语境规则可以是“组织机构指代名称对应的关键词后N个字符范围内不能出现组织机构全称”、“组织机构指代名称对应的关键词后N个字符范围内不能出现组织机构类型”、“组织机构指代名称对应的关键词后N个字符范围内不能出现组织机构注册资本”和“组织机构指代名称对应的关键词后N个字符范围内不能出现组织机构注册地址”等规则,具体不做限定。
进一步地,对于提取出的候选组织机构指代名称,还需要进一步判断是否是组织机构简称,如果候选组织机构指代名称同时被识别为组织机构简称,则确定该候选组织机构指代名称是组织机构简称;否则,确定该候选组织机构指代名称是组织机构指代名称。
举个例子,企业公告文本包括“以下简称公司或本公司”,从中既可以提取出组织机构指代名称,又可以提取出组织机构简称,则以提取出组织机构简称为准。
下面就如何对企业公告文本进行名称归一化处理进行具体描述。
对企业公告文本进行名称归一化处理的方法有多种,一个示例中,可以将企业公告文本中组织机构简称替换为组织机构全称,将企业公告文本中组织机构指代名称替换为组织机构全称,从而得到预处理后的企业公告文本。
另一个示例中,可以将企业公告文本中组织机构全称替换为组织机构简称,将企业公告文本中组织机构指代名称替换为组织机构简称,从而得到预处理后的企业公告文本。
对企业公告文本进行预处理时,另一种可能的实现方式为,对企业公告文本进行去重处理。由于企业公告文本可以来源于互联网,从不同的网页获取到的内容可能是一样的,因此,可以通过相似度比对来对企业公告文本进行去重处理。具体地,如果两个企业公告文本的相似度值大于预设阈值,则确定这两个企业公告文本是相似文本,删除其中任意一个;否则,确定这两个企业公告文本不是相似文本。
对企业公告文本进行预处理时,又一种可能的实现方式为,对企业公告文本进行格式转换。具体地,数据格式非法和存在不规范编码可以通过一系列标准化操作来处理,比如将获取到的企业公告文本转换成UTF-8格式,以及对企业公告文本中的特殊符号(比如双引号或书名号等)进行处理。
需要说明的是,上述三种实现方式仅为对企业公告文本进行预处理的示例性说明,本领域技术人员可以根据经验和实际情况,采用其它方式对企业公告文本进行预处理。此外,根据各企业公告文本具体内容的不同,本领域技术人员可以采用上述三种实现方式中的任意一种,或任意多种,对企业公告文本进行预处理。
步骤103中,对于预处理后的企业公告文本,需要从中识别出自然人的属性信息和组织机构的属性信息。
其中,自然人的属性信息可以包括自然人的姓名、自然人的性别、自然人的年龄、自然人的学历、自然人的国籍、自然人的身份证号码、自然人的住址和自然人的工作情况中的至少一项。
组织机构的属性信息可以包括组织机构的名称、组织机构的法定代表人、组织机构的法人代表、组织机构的成立日期、组织机构的注册资本、组织机构的注册编号、组织机构的资本金和组织机构的经营范围中的至少一项。
本申请实施例中,根据自然人的属性信息的不同,识别的方式也不同。
如果自然人的属性信息是自然人的姓名,则可以采用自然人的姓名对应的NER模型,从预处理后的企业公告文本中识别出自然人的姓名。
如果自然人的属性信息是除自然人的姓名以外的属性信息(比如自然人的性别、自然人的年龄、自然人的学历、自然人的国籍、自然人的身份证号码、自然人的住址和自然人的工作情况等),则可以根据预设的自然人属性关键词,从预处理后的企业公告文本中识别出自然人的属性信息。
具体地,可以根据预设的自然人属性关键词,构建自然人属性分析模型,通过调用该模型对应的信息抽取算法类型接口,分析输入预处理后的企业公告文本,得到信息抽取结果(即为自然人的属性信息)。
预设自然人属性关键词可以是本领域技术人员根据经验和实际情况确定的,以自然人的性别为例,对应的关键词可以是“男”、“女”、“男士”和“女士”等,其它预设的自然人属性关键词的确定方式类似,此处不再赘述。
在构建自然人属性分析模型时,还可以结合规则表达式(如正则表达式)来构建。如表1所示,为自然人的属性信息对应的规则表达式的一种示例。
表1:自然人属性分析模型对应的规则表达式的一种示例
需要说明的是,表1仅为一种示例性说明,对于不同的自然人的属性,本领域技术人员可以结合实际情况来确定规则表达式,具体不做限定。
类似地,根据组织机构的属性信息的不同,识别的方式也不同。
如果组织机构的属性信息是组织机构的名称,则可以采用组织机构的名称对应的NER模型,从预处理后的企业公告文本中识别出组织机构的名称。
如果组织机构的属性信息是除组织机构的名称以外的属性信息(比如组织机构的法定代表人、组织机构的法人代表、组织机构的成立日期、组织机构的注册资本、组织机构的注册编号、组织机构的资本金和组织机构的经营范围等),则可以根据预设的组织机构属性关键词,从预处理后的企业公告文本中识别出组织机构的属性信息。
具体地,可以根据预设的组织机构属性关键词,构建组织机构属性分析模型,通过调用该模型对应的信息抽取算法类型接口,分析输入预处理后的企业公告文本,得到信息抽取结果(即为组织机构的属性信息)。
预设组织机构属性关键词可以是本领域技术人员根据经验和实际情况确定的,以组织机构的成立日期为例,对应的关键词可以是“成立于”和“X年X月X日成立”等,其它预设的组织机构属性关键词的确定方式类似,此处不再赘述。
在构建组织机构属性分析模型时,还可以结合规则表达式来构建。如表2所示,为组织机构的属性信息对应的规则表达式的一种示例。
表2:组织机构属性分析模型对应的规则表达式的一种示例
步骤104中,可参考图2,其示例性示出了本申请实施例提供的一种具体的构建企业画像的方法所对应的流程示意图,包括如下步骤:
步骤201,根据就近原则,基于自然人的姓名建立自然人的属性信息之间的关联关系。
具体地,在识别出自然人的属性信息时,同时确定各自然人的属性信息分别对应的位置索引(即在企业公告文本中的位置)。针对第一自然人的属性信息,判断第一自然人的属性信息对应的位置索引与自然人的姓名对应的位置索引之间的距离是否小于预设阈值,如果小于预设阈值,则建立第一自然人的属性信息与自然人的姓名之间的关联关系;否则,对第二自然人的属性信息进行判断。
其中,第一自然人的属性信息是各自然人的属性信息中,除自然人的姓名以外的任意一个属性信息;第二自然人的属性信息是各自然人的属性信息中,除自然人的姓名和第一自然人的属性信息以外的任意一个属性信息。
步骤202,根据就近原则,基于组织机构的名称建立组织机构的属性信息之间的关联关系。
具体地,在识别出组织机构的属性信息时,同时确定各组织机构的属性信息分别对应的位置索引(即在企业公告文本中的位置)。针对第一组织机构的属性信息,判断第一组织机构的属性信息对应的位置索引与组织机构的名称对应的位置索引之间的距离是否小于预设阈值,如果小于预设阈值,则建立第一组织机构的属性信息与组织机构的名称之间的关联关系;否则,对第二组织机构的属性信息进行判断。
其中,第一组织机构的属性信息是各组织机构的属性信息中,除组织机构的名称以外的任意一个属性信息;第二组织机构的属性信息是各组织机构的属性信息中,除组织机构的名称和第一组织机构的属性信息以外的任意一个属性信息。
步骤203,根据自然人的姓名以及组织机构的法定代表人,建立自然人的属性信息与组织机构的属性信息之间的关联关系。
如果自然人的姓名与组织机构的法定代表人一致,即根据自然人的姓名的值与组织机构的法定代表人的值,确定该组织机构的法定代表人就是该自然人,则可以以该自然人的姓名为中间纽带,建立自然人的属性信息与组织机构的属性信息之间的关联关系。
举个例子,假设从预处理后的企业公告文本中识别出的自然人的属性信息如下:
自然人的姓名:张三
自然人的性别:男
自然人的学历:硕士
并且,上述自然人的属性信息可以基于自然人的姓名,建立各自然人的属性信息之间的关联关系,即“张三”是“男”性,学历是“硕士”。
同时假设从预处理后的企业公告文本中识别出的组织机构的属性信息如下:
组织机构的名称:XXX有限公司
组织机构的法定代表人:张三
组织机构的注册资金:1000万人民币
并且,上述组织机构的属性信息可以基于组织机构的名称,建立各组织机构的属性信息之间的关联关系,即“XXX有限公司”的法定代表人是“张三”,该公司的注册资金是“1000万人民币”。
由于自然人“张三”就是“XXX有限公司”的法定代表人,因此,可以建立自然人的属性信息与组织机构的属性信息之间的关联关系,即“XXX有限公司”的法定代表人是“张三”,“张三”是“男”性,学历是“硕士”,该公司的注册资金是“1000万人民币”。
步骤204,根据自然人的属性信息、组织机构的属性信息、自然人的属性信息之间的关联关系、组织机构的属性信息之间的关联关系以及自然人的属性信息与组织机构的属性信息之间的关联关系,构建企业画像。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图3示例性示出了本申请实施例提供的一种企业画像构建装置的结构示意图。如图3所示,该装置具有实现上述企业画像构建方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以包括:获取单元301、处理单元302和构建单元303。
获取单元301,用于获取企业公告文本;
处理单元302,用于对所述企业公告文本进行预处理,得到预处理后的企业公告文本;以及,从所述预处理后的企业公告文本中,识别出自然人的属性信息和组织机构的属性信息;
构建单元303,用于根据所述自然人的属性信息和所述组织机构的属性信息,构建企业画像。
可选地,所述自然人的属性信息包括自然人的姓名,所述组织机构的属性信息包括组织机构的名称和组织机构的法定代表人;
所述构建单元303具体用于:
根据就近原则,基于所述自然人的姓名建立自然人的属性信息之间的关联关系,以及基于所述组织机构的名称建立组织机构的属性信息之间的关联关系;以及,根据所述自然人的姓名以及所述组织机构的法定代表人,建立自然人的属性信息与组织机构的属性信息之间的关联关系;以及,根据所述自然人的属性信息、所述组织机构的属性信息、所述自然人的属性信息之间的关联关系、所述组织机构的属性信息之间的关联关系以及所述自然人的属性信息与组织机构的属性信息之间的关联关系,构建企业画像。
可选地,所述处理单元302具体用于:
从所述企业公告文本中提取出组织机构全称、组织机构简称和组织机构指代名称;以及,根据所述组织机构全称、所述组织机构简称和所述组织机构指代名称,对所述企业公告文本进行名称归一化处理后,得到所述预处理后的企业公告文本。
可选地,所述处理单元302具体用于:
将所述企业公告文本中所述组织机构简称替换为所述组织机构全称,将所述企业公告文本中所述组织机构指代名称替换为所述组织机构全称,得到所述预处理后的企业公告文本。
可选地,所述处理单元302具体用于:
采用预设NER模型,从所述企业公告文本中提取到所述组织机构全称;所述预设NER模型是根据多个企业公告信息及每个企业公告信息包含的组织机构全称,通过机器学习算法训练得到的。
可选地,所述处理单元302具体用于:
根据预设的简称提取规则,从所述企业公告文本中提取出所述组织机构简称;所述预设的简称提取规则是根据所述组织机构简称对应的关键词与所述组织机构简称对应的语境规则确定的。
可选地,所述处理单元302具体用于:
根据预设的指代名称提取规则,从所述企业公告文本中提取出所述组织机构指代名称;所述预设的指代名称提取规则是根据所述组织机构指代名称对应的关键词与所述组织机构指代名称对应的语境规则确定的。
可选地,所述处理单元302具体用于:
根据预设的自然人属性关键词,从所述预处理后的企业公告文本中识别出所述自然人的属性信息。
可选地,所述自然人的属性信息包括自然人的姓名、自然人的性别、自然人的年龄、自然人的学历、自然人的国籍、自然人的身份证号码、自然人的住址和自然人的工作情况中的至少一项。
可选地,所述处理单元具体用于:
根据预设的组织机构属性关键词,从所述预处理后的企业公告文本中识别出所述组织机构的属性信息。
可选地,所述组织机构的属性信息包括组织机构的名称、组织机构的法定代表人、组织机构的法人代表、组织机构的成立日期、组织机构的注册资本、组织机构的注册编号、组织机构的资本金和组织机构的经营范围中的至少一项。
本申请实施例中,对获取到的企业公告文本进行预处理,得到预处理后的企业公告文本,再从预处理后的企业公告文本中,识别出自然人的属性信息和组织机构的属性信息,进而可以根据自然人的属性信息和组织机构的属性信息,构建企业画像。如此,一方面,本申请实施例基于企业公告文本来构建企业画像,企业公告文本能够更加全面、清楚且准确地反映企业的经营情况,从而可以提高构建企业画像的准确度;另一方面,本申请实施例通过识别出自然人的属性信息和组织机构的属性信息来构建企业画像,相比于现有技术中人工手动映射分类的方式而言,大大降低了构建企业画像所需的时间,提高构建企业画像的效率。
图4为本申请实施例提供的电子设备硬件结构示意图。如图4所示,本申请实施例提供的电子设备包括:存储器401,用于存储程序指令;处理器402,用于调用并执行所述存储器中的程序指令,以实现上述实施例所述的企业画像构建方法。
本实施例中,处理器402和存储器401可通过总线或其他方式连接。处理器可以是通用处理器,例如中央处理器、数字信号处理器、专用集成电路,或者被配置成实施本发明实施例的一个或多个集成电路。存储器可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘。
本申请实施例还提供了一种存储介质,所述存储介质中存储有计算机程序,当企业画像构建装置的至少一个处理器执行所述计算机程序时,企业画像构建装置执行上述实施例所述的企业画像构建方法。
所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于服务构建装置和服务加载装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。
Claims (9)
1.一种企业画像的构建方法,其特征在于,所述方法包括:
获取企业公告文本;
对所述企业公告文本进行预处理,得到预处理后的企业公告文本;
从所述预处理后的企业公告文本中,识别出自然人的属性信息和组织机构的属性信息,其中,所述自然人的属性信息包括自然人姓名,所述组织机构的属性信息包括组织机构的名称、组织机构的法定代表人;
根据就近原则,基于所述自然人姓名,建立自然人的属性信息之间的关联关系,包括:
在识别出自然人的属性信息时,确定各自然人属性信息分别对应的位置索引,所述位置索引为所述属性信息在企业公告文本中的位置;
判断第一自然人属性信息对应的位置索引与第一自然人姓名对应的位置索引之间的距离是否小于预设阈值,如果小于预设阈值,则建立第一自然人属性信息与第一自然人姓名之间的关联关系;其中,第一自然人属性信息是各自然人的属性信息中,除自然人的姓名以外的任意一个属性信息;
根据就近原则,基于所述组织机构的名称,建立组织机构的属性信息之间的关联关系,包括:
在识别出组织机构的属性信息时,同时确定各组织机构属性信息分别对应的位置索引;
判断第一组织机构属性信息对应的位置索引与第一组织机构名称对应的位置索引之间的距离是否小于预设阈值,如果小于预设阈值,则建立第一组织机构属性信息与第一组织机构名称之间的关联关系;其中,第一组织机构属性信息是各组织机构的属性信息中,除组织机构的名称以外的任意一个属性信息;
根据所述自然人的姓名以及所述组织机构的法定代表人,建立自然人的属性信息与组织机构的属性信息之间的关联关系;
根据所述自然人的属性信息、所述组织机构的属性信息、所述自然人的属性信息之间的关联关系、所述组织机构的属性信息之间的关联关系以及所述自然人的属性信息与组织机构的属性信息之间的关联关系,构建企业画像。
2.根据权利要求1所述的方法,其特征在于,对所述企业公告文本进行预处理,得到预处理后的企业公告文本,包括:
从所述企业公告文本中提取出组织机构全称、组织机构简称和组织机构指代名称;
根据所述组织机构全称、所述组织机构简称和所述组织机构指代名称,对所述企业公告文本进行名称归一化处理后,得到所述预处理后的企业公告文本。
3.根据权利要求2所述的方法,其特征在于,根据所述组织机构全称、所述组织机构简称和所述组织机构指代名称,对所述企业公告文本进行名称归一化处理后,得到所述预处理后的企业公告文本,包括:
将所述企业公告文本中所述组织机构简称替换为所述组织机构全称,将所述企业公告文本中所述组织机构指代名称替换为所述组织机构全称,得到所述预处理后的企业公告文本。
4.根据权利要求2所述的方法,其特征在于,从所述企业公告文本中提取出组织机构全称,包括:
采用预设NER模型,从所述企业公告文本中提取到所述组织机构全称;所述预设NER模型是根据多个企业公告信息及每个企业公告信息包含的组织机构全称,通过机器学习算法训练得到的。
5.根据权利要求2所述的方法,其特征在于,从所述企业公告文本中提取出组织机构简称,包括:
根据预设的简称提取规则,从所述企业公告文本中提取出所述组织机构简称;所述预设的简称提取规则是根据所述组织机构简称对应的关键词与所述组织机构简称对应的语境规则确定的。
6.根据权利要求2所述的方法,其特征在于,从所述企业公告文本中提取出组织机构指代名称,包括:
根据预设的指代名称提取规则,从所述企业公告文本中提取出所述组织机构指代名称;所述预设的指代名称提取规则是根据所述组织机构指代名称对应的关键词与所述组织机构指代名称对应的语境规则确定的。
7.根据权利要求1所述的方法,其特征在于,从所述预处理后的企业公告文本中,识别出自然人的属性信息,包括:
根据预设的自然人属性关键词,从所述预处理后的企业公告文本中识别出所述自然人的属性信息;
其中,所述自然人的属性信息包括自然人的姓名、自然人的性别、自然人的年龄、自然人的学历、自然人的国籍、自然人的身份证号码、自然人的住址和自然人的工作情况中的至少一项。
8.根据权利要求1所述的方法,其特征在于,从所述预处理后的企业公告文本中,识别出组织机构的属性信息,包括:
根据预设的组织机构属性关键词,从所述预处理后的企业公告文本中识别出所述组织机构的属性信息;
其中,所述组织机构的属性信息包括组织机构的名称、组织机构的法定代表人、组织机构的法人代表、组织机构的成立日期、组织机构的注册资本、组织机构的注册编号、组织机构的资本金和组织机构的经营范围中的至少一项。
9.一种企业画像的构建装置,其特征在于,所述装置包括:
获取单元,用于获取企业公告文本;
处理单元,用于对所述企业公告文本进行预处理,得到预处理后的企业公告文本;以及,从所述预处理后的企业公告文本中,识别出自然人的属性信息和组织机构的属性信息,其中,所述自然人的属性信息包括自然人姓名,所述组织机构的属性信息包括组织机构的名称、组织机构的法定代表人;
构建单元,用于根据就近原则,基于所述自然人姓名,建立自然人的属性信息之间的关联关系,包括:
在识别出自然人的属性信息时,确定各自然人的属性信息分别对应的位置索引,所述位置索引为所述属性信息在企业公告文本中的位置;
判断第一自然人的属性信息对应的位置索引与第一自然人的姓名对应的位置索引之间的距离是否小于预设阈值,如果小于预设阈值,则建立第一自然人的属性信息与第一自然人的姓名之间的关联关系;其中,第一自然人属性信息是各自然人的属性信息中,除自然人的姓名以外的任意一个属性信息;
根据就近原则,基于所述组织机构的名称,建立组织机构的属性信息之间的关联关系;包括:
在识别出组织机构的属性信息时,同时确定各组织机构属性信息分别对应的位置索引;
判断第一组织机构属性信息对应的位置索引与第一组织机构名称对应的位置索引之间的距离是否小于预设阈值,如果小于预设阈值,则建立第一组织机构属性信息与第一组织机构名称之间的关联关系;其中,第一组织机构属性信息是各组织机构的属性信息中,除组织机构的名称以外的任意一个属性信息;
根据所述自然人的姓名以及所述组织机构的法定代表人,建立自然人的属性信息与组织机构的属性信息之间的关联关系;
根据所述自然人的属性信息、所述组织机构的属性信息、所述自然人的属性信息之间的关联关系、所述组织机构的属性信息之间的关联关系以及所述自然人的属性信息与组织机构的属性信息之间的关联关系,构建企业画像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010290316.4A CN111539605B (zh) | 2020-04-14 | 2020-04-14 | 企业画像的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010290316.4A CN111539605B (zh) | 2020-04-14 | 2020-04-14 | 企业画像的构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111539605A CN111539605A (zh) | 2020-08-14 |
CN111539605B true CN111539605B (zh) | 2023-12-29 |
Family
ID=71977331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010290316.4A Active CN111539605B (zh) | 2020-04-14 | 2020-04-14 | 企业画像的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111539605B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108572967A (zh) * | 2017-03-09 | 2018-09-25 | 神州数码系统集成服务有限公司 | 一种创建企业画像的方法及装置 |
CN109523153A (zh) * | 2018-11-12 | 2019-03-26 | 平安科技(深圳)有限公司 | 非法集资企业的获取方法、装置、计算机设备和存储介质 |
CN109766552A (zh) * | 2019-01-08 | 2019-05-17 | 安徽省泰岳祥升软件有限公司 | 一种基于公告信息的指代消解方法及装置 |
CN110427406A (zh) * | 2019-08-10 | 2019-11-08 | 吴诚诚 | 组织机构相关人员关系的挖掘方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763507A (zh) * | 2018-05-30 | 2018-11-06 | 北京百度网讯科技有限公司 | 企业关联关系挖掘方法和装置 |
-
2020
- 2020-04-14 CN CN202010290316.4A patent/CN111539605B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108572967A (zh) * | 2017-03-09 | 2018-09-25 | 神州数码系统集成服务有限公司 | 一种创建企业画像的方法及装置 |
CN109523153A (zh) * | 2018-11-12 | 2019-03-26 | 平安科技(深圳)有限公司 | 非法集资企业的获取方法、装置、计算机设备和存储介质 |
CN109766552A (zh) * | 2019-01-08 | 2019-05-17 | 安徽省泰岳祥升软件有限公司 | 一种基于公告信息的指代消解方法及装置 |
CN110427406A (zh) * | 2019-08-10 | 2019-11-08 | 吴诚诚 | 组织机构相关人员关系的挖掘方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111539605A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795919B (zh) | 一种pdf文档中的表格抽取方法、装置、设备及介质 | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
US20200159993A1 (en) | Methods, devices and systems for data augmentation to improve fraud detection | |
CN110134959B (zh) | 命名实体识别模型训练方法及设备、信息抽取方法及设备 | |
US9710769B2 (en) | Methods and systems for crowdsourcing a task | |
US20150242393A1 (en) | System and Method for Classifying Text Sentiment Classes Based on Past Examples | |
US20150186739A1 (en) | Method and system of identifying an entity from a digital image of a physical text | |
US11880435B2 (en) | Determination of intermediate representations of discovered document structures | |
CN111143505A (zh) | 文档处理方法、装置、介质及电子设备 | |
CN112149387A (zh) | 财务数据的可视化方法、装置、计算机设备及存储介质 | |
CN115599885A (zh) | 文档全文检索方法、装置、计算机设备、存储介质及产品 | |
CN114528413A (zh) | 众包标注支持的知识图谱更新方法、系统和可读存储介质 | |
CN114298845A (zh) | 一种理赔票据处理方法和装置 | |
CN111539605B (zh) | 企业画像的构建方法及装置 | |
Vishwanath et al. | Deep reader: Information extraction from document images via relation extraction and natural language | |
Bureš et al. | Automatic information extraction from scanned documents | |
CN112463966B (zh) | 虚假评论检测模型训练方法、检测方法及装置 | |
CN114154480A (zh) | 信息提取方法、装置、设备和存储介质 | |
CN114495138A (zh) | 一种智能文档识别与特征提取方法、装置平台和存储介质 | |
CA3156204A1 (en) | Domain based text extraction | |
CN111782601A (zh) | 电子文件的处理方法、装置、电子设备及机器可读介质 | |
Goossens et al. | Automatically Extracting Insurance Contract Knowledge Using NLP | |
EP4167106A1 (en) | Method and apparatus for data structuring of text | |
CN113168527A (zh) | 用于从实体文档提取信息的系统和方法 | |
US12033413B2 (en) | Method and apparatus for data structuring of text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |