CN107748745A

CN107748745A - 一种企业名称关键字提取方法

Info

Publication number: CN107748745A
Application number: CN201711088610.1A
Authority: CN
Inventors: 郑旭; 王志永; 郭建辉; 林文东; 吴少茂
Original assignee: Xiamen Us Asia Business Tripod Mdt Infotech Ltd
Current assignee: China Inspection Meiya (Xiamen) Technology Co.,Ltd.
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2018-03-02
Anticipated expiration: 2037-11-08
Also published as: CN107748745B

Abstract

本发明公开了一种企业名称关键字提取方法，包括以下步骤：搭建与企业名称相关的基础热词库；对用户输入的企业名称进行中文分词处理，输出分词结果；声明新的数组arrs_a，遍历所述分词结果，若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词，则将该分词加入到数组arrs_a；依次根据分词词长、分词位置对数组arrs_a进行排序；对排序后的数组arrs_a中进行遍历，针对数组arrs_a中的每个分词，依序对企业名称进行替空操作，将得到的最终词作为企业名称关键字。本发明本发明能够根据企业名称快速提取出企业名称关键字，便于实现大数据量的、高覆盖率的企业名称关键字数据的获得。

Description

一种企业名称关键字提取方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种企业名称关键字提取方法。

背景技术

企业名称关键字是企业名称的最重要组成部分，也是企业核心数据资产，企业名称关键字在对企业数据进行处理过程中具有重要的作用。如果能够根据搜集到的企业名称，快速提取出企业名称关键字，就可以提供给第三方系统用于他途，包括但不仅限于搜索引擎，爬虫，舆情分析等应用场景。

企业名称通常包括行政区划、字号、行业、组织形式四个要素构成，其中字号是构成企业名称关键字的核心部分。由于企业字号的复杂性和多样性，导致利用数据处理技术提取企业名称关键字的难度加大。目前，对于企业名称关键字数据，还只能通过人工去甄别、补充，要想获得大数据量的、高覆盖率的企业名称关键字数据，在实际操作中需要投入大量的人力才能完成。

发明内容

本发明的目的在于提供一种企业名称关键字提取方法，其能够根据企业名称快速提取出企业名称关键字，便于实现大数据量的、高覆盖率的企业名称关键字数据的获得。

为实现上述目的，本发明采用以下技术方案：

一种企业名称关键字提取方法，包括以下步骤：

S1、搭建与企业名称相关的基础热词库；

S2、对用户输入的企业名称进行中文分词处理，输出分词结果；

S3、声明新的数组arrs_a，遍历所述分词结果，若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词，则将该分词加入到数组arrs_a；

S4、依次根据分词词长、分词位置对数组arrs_a进行排序；

S5、对排序后的数组arrs_a中进行遍历，针对数组arrs_a中的每个分词，依序对企业名称进行替空操作，将得到的最终词作为企业名称关键字。

进一步地，还包括以下步骤：

S6、设定关键字长度阈值，判断所述步骤S5中得到的企业名称关键字长度是否达到关键字长度阈值，若达到，则判定企业名称关键字的提取结果正确，若为达到，则执行步骤S7；

S7、针对S5中得到的企业名称关键字与相邻词进行拼接，获得达到关键字长度阈值的企业名称关键字。

更进一步地，所述步骤S1还包括以下步骤：对所述基础热词库中的热词进行打标签处理，用以定义热词的标签类别；

所述步骤S7包括以下分步骤：

S71、依次根据分词位置、分词词长对所述数组arrs_a进行重新排序；

S72、找到步骤S5中得到的企业名称关键字的前、后位置的相邻词，并根据相邻词的标签类型选择是否拼接，拼接后记录拼接结果的词长和位置偏移量；

S73、判断拼接结果的词长是否达到关键字长度阈值，若达到，则停止拼接并认定该拼接结果为正确的企业名称关键字，若未达到，则基于拼接结果的词长和位置偏移量继续向后遍历。

优选地，步骤S1中的搭建与企业名称相关的基础热词库通过以下步骤实现：

S11、预先准备企业名称数据；

S12、对所述企业名称数据进行中文分词处理；

S13、对中文分词处理后获得分词进行词频分析；

S14、设定阈值，剔除出现词频低于阈值的分词，保留出现词频高于阈值的分词并构成所述基础热词库。

优选地，步骤S12中的所述中文分词处理，利用IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器进行中文分词处理。

优选地，步骤S13中的所述词频分析，利用传统关系型数据库或搜索引擎框架进行词频分析。

优选地，所述步骤S4具体为：针对数组arrs_a中的分词，优先按分词词长进行排序，相同词长的按照分词位置进行排序。

优选地，所述步骤S71具体为：针对数组arrs_a中的分词，优先按分词位置进行排序，分词位置相同的，按照分词词长进行排序。

优选地，所述标签类别至少包括热词、地域词、桥接词，当数组arrs_a中分词的类别为热词时，在拼接处理时选择拼接，当数组arrs_a中分词的类别为地域词时，在拼接处理时选择不拼接并找到下一个分词进行拼接，当数组arrs_a中分词的类别为桥接词时，在拼接处理时找到下一个分词进行拼接。

优选地，步骤S14中，对于基础热词库中的某些有干扰作用的属于企业关键字的热词，对这些热词进行禁用操作或者额外配置标签类型。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

本发明能够根据企业名称快速提取出企业名称关键字，便于实现大数据量的、高覆盖率的企业名称关键字数据的获得，而无需投入过多的人力。利用本发明获得的企业名称关键字数据，能够提供给第三方系统使用，有助于企业数据处理工作的开展。

附图说明

图1为本发明的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

请参阅图1，本发明公开了一种企业名称关键字提取方法，包括以下步骤：

S1、搭建与企业名称相关的基础热词库，对所述基础热词库中的热词进行打标签处理，用以定义热词的标签类别。基础热词库通过以下方法进行搭建：

S11、预先准备企业名称数据。本实施例中，企业名称数据通过网络爬虫采集，企业名称数据包含的企业名称数量在4000万条以上。

S12、对所述企业名称数据进行中文分词处理。中文分词处理是利用IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器进行中文分词处理，当然也可以采用其他分词器，本发明不做具体限定。

S13、对中文分词处理后获得分词进行词频分析。词频分析可以利用传统关系型数据库或搜索引擎框架进行词频分析，也可利用主流Mapreduce框架，如Hadoop，Spark，ElasticSearch进行热词排行分析统计。

S14、设定阈值，剔除出现词频低于阈值的分词，保留出现词频高于阈值的分词并构成所述基础热词库。对于基础热词库中的某些有干扰作用的属于企业关键字的热词，原因在于数千万个企业名称中有不少相近的名称，这些相近的名称出现频次高于阈值。对这些热词可进行禁用操作或者额外配置标签类型。

步骤S1中，标签可以扩展，可对标签进行编程。标签类别包括热词、地域词、桥接词，当数组arrs_a中分词的类别为热词时，在后续的拼接处理时选择拼接，当数组arrs_a中分词的类别为地域词时，在后续的拼接处理时选择不拼接并找到下一个分词进行拼接，当数组arrs_a中分词的类别为桥接词时，在后续的拼接处理时找到下一个分词进行拼接。标签类别还可以包括后缀词、特征词等标签类型。为便于更直观的理解，对各个标签类别进行举例说明：

地域词:如“厦门”，“厦门市”,“福建”，“福建省”等。

热词:如“冷冻食品”，“机电厂”，“建筑设计院”，“家具制造”，“有限公司”，“股份有限公司”等，其中热词又包含但不仅限于(可扩展)：地域词，后缀词,特征词，桥接词等。

地域+热词:如“安居”，“六合”，“东海”，“乐业”，“龙游”，“北辰”，等即是地域词，又属于企业核心热词的双重属性的词。

后缀词:如“公司”,“有限公司”,“门市部”，“责任有限公司”等。

特征词:如“信息”，“系统”，“生物”，“科技”等。

桥接词：如“方中”，“中资”，“房地”等。

S2、对用户输入的企业名称进行中文分词处理，输出分词结果。

S3、声明新的数组arrs_a，遍历所述分词结果，若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词，则将该分词加入到数组arrs_a。

S4、依次根据分词词长、分词位置对数组arrs_a进行排序。针对数组arrs_a中的分词，优先按分词词长进行排序，相同词长的按照分词位置进行排序。

S6、设定关键字长度阈值，判断所述步骤S5中得到的企业名称关键字长度是否达到关键字长度阈值，若达到，则判定企业名称关键字的提取结果正确，若为达到，则执行步骤S7。在本实施例中，设定关键字长度阈值为2。

S7、针对S5中得到的企业名称关键字与相邻词进行拼接，获得达到关键字长度阈值的企业名称关键字。本步骤通过以下分步骤实现：

S71、依次根据分词位置、分词词长对所述数组arrs_a进行重新排序。针对数组arrs_a中的分词，优先按分词位置进行排序，分词位置相同的，按照分词词长进行排序。

S72、找到步骤S5中得到的企业名称关键字的前、后位置的相邻词，并根据相邻词的标签类型选择是否拼接，拼接后记录拼接结果的词长和位置偏移量。

为便于更清楚的理解本发明，针对步骤S2-S7的执行过程，通过具体实例进行详细说明。

实例1

1、步骤S2中，用户输入“厦门市美亚商鼎信息科技有限公司”，分词结果为：

{厦门，厦门市，美亚，亚商，信息科技有限公司，信息，科技有限公司，科技有限，科技，有限公司，有限，公司}

2、步骤S3中，得到的数组arrs_a(即与热词库相匹配的分词)为：

{厦门，厦门市，信息科技有限公司，信息，科技有限公司，科技有限，科技，有限公司，公司}

3、步骤S4中，排序后的数组arrs_a为：

{信息科技有限公司，科技有限公司，有限公司，科技有限，厦门市，公司，科技，信息，厦门}

4、步骤S5中，替空操作过程为：

最终结果为：美亚商鼎。

5、步骤S6中，判定“美亚商鼎”的长度大于2，企业名称关键字的提取结果正确。

实例2

1、用户输入“厦门北辰山川文化传播有限公司”，执行步骤S2-S6，企业名称被全部替空，得到的结果为“”，执行步骤S7。

2、步骤S7的执行过程为：

实例3

1、用户输入“厦门华中资源科技有限公司”，执行步骤S2-S6，企业名称被全部替空，得到的结果为“华”，执行步骤S7。

2、步骤S7的执行过程为：

词的分类繁多，如“形容词”，“动词”，“名词”，“定语”，“状语”，“特征词”，“前缀”，“后缀”等，如果能对所有的热词进行详细的分类，且通过插件思想植入关键词提取逻辑，就不仅仅是应用于提取企业关键词的用户场景，相信可以用到各种类型词汇，短语，全文的关键词提取。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种企业名称关键字提取方法，其特征在于，包括以下步骤：

S1、搭建与企业名称相关的基础热词库；

S4、依次根据分词词长、分词位置对数组arrs_a进行排序；

2.如权利要求1所述的一种企业名称关键字提取方法，其特征在于，还包括以下步骤：

3.如权利要求2所述的一种企业名称关键字提取方法，其特征在于：

所述步骤S1还包括以下步骤：对所述基础热词库中的热词进行打标签处理，用以定义热词的标签类别；

所述步骤S7包括以下分步骤：

4.如权利要求1所述的一种企业名称关键字提取方法，其特征在于，步骤S1中的搭建与企业名称相关的基础热词库通过以下步骤实现：

S11、预先准备企业名称数据；

S12、对所述企业名称数据进行中文分词处理；

S13、对中文分词处理后获得分词进行词频分析；

5.如权利要求4所述的一种企业名称关键字提取方法，其特征在于：步骤S12中的所述中文分词处理，利用IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器进行中文分词处理。

6.如权利要求4所述的一种企业名称关键字提取方法，其特征在于：步骤S13中的所述词频分析，利用传统关系型数据库或搜索引擎框架进行词频分析。

7.如权利要求1所述的一种企业名称关键字提取方法，其特征在于，所述步骤S4具体为：针对数组arrs_a中的分词，优先按分词词长进行排序，相同词长的按照分词位置进行排序。

8.如权利要求1所述的一种企业名称关键字提取方法，其特征在于，所述步骤S71具体为：针对数组arrs_a中的分词，优先按分词位置进行排序，分词位置相同的，按照分词词长进行排序。

9.如权利要求3所述的一种企业名称关键字提取方法，其特征在于：所述标签类别至少包括热词、地域词、桥接词，当数组arrs_a中分词的类别为热词时，在拼接处理时选择拼接，当数组arrs_a中分词的类别为地域词时，在拼接处理时选择不拼接并找到下一个分词进行拼接，当数组arrs_a中分词的类别为桥接词时，在拼接处理时找到下一个分词进行拼接。

10.如权利要求3所述的一种企业名称关键字提取方法，其特征在于：步骤S14中，对于基础热词库中的某些有干扰作用的属于企业关键字的热词，对这些热词进行禁用操作或者额外配置标签类型。