CN107341144A - 一种通过分词形式规范企业名称的方法 - Google Patents
一种通过分词形式规范企业名称的方法 Download PDFInfo
- Publication number
- CN107341144A CN107341144A CN201710452716.9A CN201710452716A CN107341144A CN 107341144 A CN107341144 A CN 107341144A CN 201710452716 A CN201710452716 A CN 201710452716A CN 107341144 A CN107341144 A CN 107341144A
- Authority
- CN
- China
- Prior art keywords
- name
- enterprise name
- processing
- enterprise
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种通过分词形式规范企业名称的方法,根据销售记录中的企业名称的中文词库,将其中文词库中客户的名称信息归纳定义为12类词性,通过这12类的词性,对记录中的客户名称进行分词处理,具体实现步骤如下:接收企业名称,企业名称标准化,企业名称分词,输出分词后的企业名称。本发明可以通过对企业客户信息中杂乱不规范的客户信息进行筛分处理,能将录入的客户信息根据地区、公司性质、行业特点等进行自动分类标示,方便统计和调用,减少了大量的人工清洗名称的工作,对企业后期统计分析及企业决策提供很好的便利性。
Description
技术领域
本发明涉及一种通过分词形式规范企业名称的方法。
背景技术
随着信息技术的飞速发展,企业决策分析中对数据的准确性依赖越来越强,企业名称的完整性直接影响到后期的统计分析及企业决策,因此企业名称的标准化处理非常重要。
通常情况下,注册公司名称的组成是由行政区划、字号、行业特点、组织形式依次组成,具体说明:
行政区划:是国家为了进行分级管理而实行的区域划分。
字号:应当由2个以上汉字组成,行政区划不得用作字号,但县以上行政区划地名具有其他含义的除外。企业名称也可以使用自然人或者投资人的姓名作为公司字号。
行业特点:应当是反映企业经济活动性质所属国民经济行业或者企业经营特点的用语。企业名称中行业用语表述的内容应当与企业经营范围一致。企业经济活动性质分别属于国民经济行业不同大类的应当选择主要经济活动性质所属国民经济行业类别用语表述企业名称中的行业。
组织形式:根据企业经济活动性质与国家有关法律法规确定的,有限公司、有限责任公司或者股份有限公司;
工商注册时,企业注册的名称格式大约分为3种:
行政区划名+字号+行业特点+组织形式,如:济南托普沃信息科技有限公司
字号+(行政区划名)+行业特点+组织形式,如:途牛(南京)信息技术有限公司
字号+行业特点+组织形式,如:小米科技有限责任公司
而在实际的企业录入过程中,记录人员往往会往企业名称上添加很多场景信息,例如:人名信息、手机号、特殊符号、日期等。这些不规范的企业名称在做统计分析之前,必须进行企业名称规范化处理。现阶段的企业名称规范化处理,即便去掉了名称中的乱码,规范了名称的格式,但是效果仍然不明显,后续人工数据清洗工作量还是非常巨大,企业必须为此花费很多资源。
实用新型内容
本发明的目的是为克服上述现有技术的不足,提供了一种通过分词形式规范企业名称的方法。
为实现上述目的,本发明采用下述技术方案:一种通过分词形式规范企业名称的方法,根据销售记录中的企业名称的中文词库,将其中文词库中客户的名称信息归纳定义为12类词性,通过这12类的词性,对记录中的客户名称进行分词处理。具体实现步骤如下:
一、接收企业名称:接收需要处理的企业名称;
二、企业名称标准化:对企业名称格式进行规范化处理,依次包括名称乱码处理、附加信息清除处理、符号处理、数字转义处理、语义转化处理和输出规范名称处理步骤;
三、企业名称分词:对名称进行分词处理,包括传入第二步输出的企业规范名称、标准省市识别、标准单词处理、清理冗余词语、数字信息识别、终端嵌套处理和生成分词步骤;
四、输出分词后的企业名称:输出结果进行汇总、比对。
本发明的有益效果是:本发明可以通过对企业客户信息中杂乱不规范的客户信息进行筛分处理,能将录入的客户信息根据地区、公司性质、行业特点等进行自动分类标示,方便统计和调用,减少了大量的人工清洗名称的工作,对企业后期统计分析及企业决策提供很好的便利性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为12类词性说明;
图2为企业名称进行规范化处理流程图;
图3为对企业名称进行分词处理流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种通过分词形式规范企业名称的方法,根据销售记录中的企业名称的中文词库,将其中文词库中客户的名称信息归纳定义为图1中的12类词性,通过这12类的词性,对记录中的客户名称进行分词处理。具体实现步骤如下:
一、接收需要处理的企业名称,例如:#南京秦淮中国人民解放军空军航空医学研究所附属医院(原:解放军454院陈大夫TEL:02584543211%s。
二、名称标准化
分词之前,首先对企业名称进行规范化处理,具体流程如下图2所示。
流程说明:接受企业名称:#南京秦淮中国人民解放军空军航空医学研究所附属医院(原:解放军454院陈大夫TEL:02584543211%s。
对名称进行乱码处理,例如:
对企业名称中附加信息进行清理,例如:
对企业名称中出现的符号进行规范,例如:
对企业名称中出现的数字进行转义化处理,例如:
对专有名词进行语义化处理,例如:
输出整理后的规范企业名称:南京秦淮空军航空医学研究所附属医院(原: 解放军第四五四医院)。
三、对企业名称进行分词
对整理规范的企业名称进行分词处理,步骤如附图3所示。
流程说明:
接受企业名称:南京秦淮空军航空医学研究所附属医院(原:解放军四五四院)。
标准省市识别处理,例如:
名称 | 转化后 |
南京 | P320101|P |
秦淮 | P320104|P |
对标准单次进行处理,例如:
名称 | 转化后 |
航空医学研究所 | 航空|k医研所|c |
清洗冗余词语,例如:
名称 | 转化后 |
南京秦淮 | P320104|P |
数字识别处理,例如:
清洗名称 | 清洗后名称 |
四五四 | P四五四|m |
对终端嵌套处理,例如:
输出整理后的分词企业名称:P320104|P空军|b航空|k医研所|c附|n医院 |z(解放军|b四五四|m医院|z)。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种通过分词形式规范企业名称的方法,其特征在于:根据销售记录中的企业名称的中文词库,将其中文词库中客户的名称信息归纳定义为12类词性,通过这12类的词性,对记录中的客户名称进行分词处理,具体实现步骤如下:
一、接收企业名称:接收需要处理的企业名称;
二、企业名称标准化:对企业名称格式进行规范化处理,依次包括名称乱码处理、附加信息清除处理、符号处理、数字转义处理、语义转化处理和输出规范名称处理步骤;
三、企业名称分词:对名称进行分词处理,包括传入第二步输出的企业规范名称、标准省市识别、标准单词处理、清理冗余词语、数字信息识别、终端嵌套处理和生成分词步骤;
四、输出分词后的企业名称:输出结果进行汇总、比对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710452716.9A CN107341144A (zh) | 2017-06-15 | 2017-06-15 | 一种通过分词形式规范企业名称的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710452716.9A CN107341144A (zh) | 2017-06-15 | 2017-06-15 | 一种通过分词形式规范企业名称的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107341144A true CN107341144A (zh) | 2017-11-10 |
Family
ID=60221594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710452716.9A Pending CN107341144A (zh) | 2017-06-15 | 2017-06-15 | 一种通过分词形式规范企业名称的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107341144A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902148A (zh) * | 2019-02-21 | 2019-06-18 | 陈包容 | 一种通讯录联系人的企业名称自动补全的方法 |
CN109961324A (zh) * | 2019-03-19 | 2019-07-02 | 山东浪潮云信息技术有限公司 | 一种电商企业打上地域标签的标准化处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101576874A (zh) * | 2008-05-07 | 2009-11-11 | 爱帮聚信(北京)信息技术有限公司 | 商户名称解析方法和装置 |
CN103186524A (zh) * | 2011-12-30 | 2013-07-03 | 高德软件有限公司 | 一种地名识别方法和装置 |
CN104036344A (zh) * | 2014-05-16 | 2014-09-10 | 上海倍通医药科技咨询有限公司 | 一种规范企业名称的方法 |
CN105022748A (zh) * | 2014-04-28 | 2015-11-04 | 北京图盟科技有限公司 | 一种运单地址分级方法及装置 |
-
2017
- 2017-06-15 CN CN201710452716.9A patent/CN107341144A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101576874A (zh) * | 2008-05-07 | 2009-11-11 | 爱帮聚信(北京)信息技术有限公司 | 商户名称解析方法和装置 |
CN103186524A (zh) * | 2011-12-30 | 2013-07-03 | 高德软件有限公司 | 一种地名识别方法和装置 |
CN105022748A (zh) * | 2014-04-28 | 2015-11-04 | 北京图盟科技有限公司 | 一种运单地址分级方法及装置 |
CN104036344A (zh) * | 2014-05-16 | 2014-09-10 | 上海倍通医药科技咨询有限公司 | 一种规范企业名称的方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902148A (zh) * | 2019-02-21 | 2019-06-18 | 陈包容 | 一种通讯录联系人的企业名称自动补全的方法 |
CN109902148B (zh) * | 2019-02-21 | 2023-05-26 | 陈包容 | 一种通讯录联系人的企业名称自动补全的方法 |
CN109961324A (zh) * | 2019-03-19 | 2019-07-02 | 山东浪潮云信息技术有限公司 | 一种电商企业打上地域标签的标准化处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Icdar2019 competition on scanned receipt ocr and information extraction | |
Corner | An introduction to the distribution of Ficus | |
CN104572616B (zh) | 文本倾向性的确定方法和装置 | |
US10050921B2 (en) | Analyzing email threads | |
CN107766371A (zh) | 一种文本信息分类方法及其装置 | |
CN109582861A (zh) | 一种数据隐私信息检测系统 | |
CN103488999A (zh) | 一种发票数据记录方法 | |
CN109992752A (zh) | 合同文件的标签标记方法、装置、计算机装置及存储介质 | |
CN107341144A (zh) | 一种通过分词形式规范企业名称的方法 | |
CN108038441A (zh) | 一种基于图像识别的系统与方法 | |
Shirai et al. | Development of a system for the automated identification of herbarium specimens with high accuracy | |
US20190222702A1 (en) | Using labels in a document processing system | |
Rehman | Impact of job analysis on job performance: A study of public sector organizations of Pakistan | |
JPH07182368A (ja) | データ加工システム | |
US20080307297A1 (en) | Method and System for Click-Thru Capability in Electronic Media | |
CN113570407A (zh) | 一种智慧银行多渠道协作营销系统及方法 | |
CN107066450A (zh) | 一种基于学习的即时通信会话切分技术与方法 | |
JPH11219394A (ja) | 財務諸表自動入力装置 | |
CN107748796A (zh) | 一种会展服务中采购商的推荐方法 | |
CN101576874A (zh) | 商户名称解析方法和装置 | |
CN104978649A (zh) | 一种办公信息工作日志分析处理方法 | |
CN109254963A (zh) | 讯息处理装置 | |
Hassemer | Revision of the typification of the name Hedysarum ovalifolium (Fabaceae) | |
CN112766889B (zh) | 一种工作任务动态分类管理方法及装置 | |
CN110019164A (zh) | 一种异构结构化数据融合概率的计算方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171110 |
|
RJ01 | Rejection of invention patent application after publication |