CN106777336A - 一种基于深度学习的公司名成分抽取系统和方法 - Google Patents

一种基于深度学习的公司名成分抽取系统和方法 Download PDF

Info

Publication number
CN106777336A
CN106777336A CN201710024098.8A CN201710024098A CN106777336A CN 106777336 A CN106777336 A CN 106777336A CN 201710024098 A CN201710024098 A CN 201710024098A CN 106777336 A CN106777336 A CN 106777336A
Authority
CN
China
Prior art keywords
exabyte
composition
lstm
vector
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710024098.8A
Other languages
English (en)
Inventor
张自强
潘嵘
赵泛舟
李训耕
李锐章
周赖靖竞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ipin Information Technology Co Ltd
Original Assignee
Shenzhen Ipin Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ipin Information Technology Co Ltd filed Critical Shenzhen Ipin Information Technology Co Ltd
Priority to CN201710024098.8A priority Critical patent/CN106777336A/zh
Publication of CN106777336A publication Critical patent/CN106777336A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于深度学习的公司名成分抽取方法及系统,其方法包括:采集公司名并人工标注其各个成分;将所述公司名的文本信息以及标注信息转化为向量的形式作为长短期记忆(LSTM)模型的输入;根据所述标注的向量训练所述LSTM模型,将公司名向量输入训练后的LSTM模型,输出标注结果;将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。本发明的实施不需要人工构建规则以及依赖外部数据,能大大的提高公司名成分提取的准确率和效率。

Description

一种基于深度学习的公司名成分抽取系统和方法
技术领域
本发明涉及一种数据处理方法,更具体的,涉及一种基于深度学习的公司名成分抽取系统和方法。
背景技术
根据《企业名称登记管理规定》第七条第一款和第二款的规定,公司名(企业名称)主要由以下四个部分构成:商号或者字号、行业、组织形式以及所在地的行政区划名称。现有的公司名成分抽取系统都是采用的基于规则的形式,利用规则抽取公司名中的各个成分。这种传统的方法存在下列问题:
1)规则难以正确覆盖全部的公司名形式,个人简历中的公司名书写方式因人而异,从而同一公司名会有很多不同的形式。
2)规则之间容易发生冲突,比如某些公司名中商号是一种行政区划名称,此时提取商号的规则可能会与提取行政区划的规则冲突。
3)人工提取规则的成本很高,需要拥有足够的专业知识以及观察大量的不同形式的公司名。
4)由于基于规则的方法会依赖大量的外部数据(如全国的行政区划、公司组织形式),规则抽取的速度较慢。
由于个人在书写公司名时并不一定会书写企业的注册名称,所以同一公司名在表现形式上会存在多种形式。如果根据规则去抽取公司名的组成成分,会花费大量的成本去构建规则,并且会出现规则覆盖率低和规则冲突的情况,使得抽取成分的准确率不高;基于规则的抽取还会依靠大量的外部数据,使得抽取过程耗时较长,在大规模的应用场景下其效率显得不足。
发明内容
本发明为了克服单一依赖规则抽取公司名成分时效率和准确率不足的问题,提出一种基于深度学习的公司名成分抽取方法。该方法通过训练长短时记忆(LSTM)循环神经网络模型,直接对输入公司名的各个成分进行标注,无需依赖外部数据,无需对公司名各个成分进行规则的制定。
为实现上述目的,本发明提供了一种基于深度学习的公司名成分抽取方法,该方法包括如下步骤:
步骤1,采集公司名并人工标注其各个成分;
步骤2,将所述公司名的文本信息以及标注信息转化为向量的形式作为长短期记忆(LSTM)模型的输入;
步骤3,根据所述步骤2中标注的向量训练所述LSTM模型,将公司名向量输入训练后的LSTM模型,输出标注结果;
步骤4,将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。
更具体的,所述步骤1具体包括:
采集公司名,将采集到的公司名分词,然后按公司名的成分对分词后的结果进行各个部分的人工标注。
更具体的,所述步骤2具体包括:将所述公司名的文本信息以及标注信息按词典映射转化成LSTM可以处理的向量数据,并作为LSTM模型的输入。
更具体的,所述步骤3具体包括:根据标注的向量训练LSTM模型,以公司名向量作为训练后的LSTM模型的输入,通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或标点的分类,提取出公司名的各个成分,并进行各成分的标注,输出标注结果。
根据本发明的另一方面,还提供了一种基于深度学习的公司名成分抽取系统,该系统包括:
数据采集和标注模块,采集公司名并人工标注其各个成分;
数据预处理模块,将所述公司名的文本信息以及标注信息转化为向量的形式作为LSTM模型的输入;
模型训练模块,根据标注的向量训练LSTM模型,将公司名向量输入训练后的LSTM模型,输出标注结果;
标注结果处理模块,将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。
更具体的,所述数据采集和标注模块具体用于:
采集公司名,将采集到的公司名分词,然后按公司名的成分对分词后的结果进行各个部分的人工标注。
更具体的,其特征在于,所述数据预处理模块具体用于:将所述公司名的文本信息以及标注信息按词典映射转化成LSTM可以处理的向量数据,并作为LSTM模型的输入。
更具体的,所述模型训练模块具体用于:根据标注的向量训练LSTM模型,以公司名向量作为训练后的LSTM模型的输入,通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或标点的分类,提取出公司名的各个成分,并进行各成分的标注,输出标注结果。
本发明基于神经网络模型LSTM,训练深度学习中常用的长短时记忆(LSTM)循环神经网络模型,以公司名作为输入,输出公司名的各个组成成分。相对于传统的基于规则的方式,由于不需要人工构建规则以及依赖外部数据,该方法能大大的提高公司名成分提取的准确率和效率。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了根据本发明一种基于深度学习的公司名成分抽取方法流程图;
图2示出了根据本发明一种基于深度学习的公司名成分抽取系统框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
为了更好的说明本发明的方案,下面将结合说明书附图进行说明。
图1示出了根据本发明一种基于深度学习的公司名成分抽取方法流程图。
如图1所示,根据本发明的一种基于深度学习的公司名成分抽取方法,该方法包括如下步骤:
步骤1,采集公司名并人工标注其各个成分。
具体来说,首先,采集公司名,将采集到的公司名进行分词处理,然后按公司名的成分对分词后的结果人工标注为商号或者字号、行业、组织形式以及所在地的行政区划名称四个部分,将与这四个部分以外的部分标注为无关部分。
步骤2,将所述公司名的文本信息以及标注信息转化为向量的形式作为长短期记忆(LSTM)模型的输入。
举例来说,将所述公司名的文本信息以及标注信息按词典映射转化成长短期记忆LSTM(Long Short-Term Memory)模型可以处理的向量数据,并作为LSTM模型的输入。
所述词典映射表为一个二维矩阵,其中矩阵中的每一个行向量代表一个字或者词,而字或者词与行向量的对应关系是在构建词典映射表时所设定的 ,通过词典映射表将待处理的字、词或者标点符号转化成LSTM可以处理的向量数据。本发明不限于此,也可以利用其它自然语言处理方法将公司名的文本信息以及标注信息转化为向量的形式。
步骤3,根据所述步骤2中标注的向量训练所述LSTM模型,将公司名向量输入训练后的LSTM模型,输出标注结果。
更具体的,所述步骤3具体包括:根据标注的向量训练LSTM模型,以公司名向量作为训练后的LSTM模型的输入,通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或标点的分类,提取出公司名的各个成分,并进行各成分的标注,输出标注结果。
步骤4,将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。
根据本发明的一个实施例,对按照上述方法训练好的LSTM模型进行应用。
首先将需要提取的公司名转化为公司名向量;将公司名向量通过训练好的LSTM模型,得到标注向量;最后将标注向量转化为公司名的各个成分。
图2示出了根据本发明一种基于深度学习的公司名成分抽取系统框图。
如图2所示,本发明基于深度学习的公司名成分抽取系统,包括:
数据采集和标注模块,采集公司名并人工标注其各个成分。
具体来说,首先,采集公司名,将采集到的公司名进行分词分词处理,然后按公司名的成分对分词后的结果人工标注为商号或者字号、行业、组织形式以及所在地的行政区划名称四个部分,将与这四个部分以外的部分标注为无关部分。
数据预处理模块,将所述公司名的文本信息以及标注信息转化为向量的形式作为LSTM模型的输入。
举例来说,该模块将所述公司名的文本信息以及标注信息按词典映射转化成LSTM可以处理的向量数据,并作为LSTM模型的输入。
所述词典映射表为一个二维矩阵,其中矩阵中的每一个行向量代表一个字或者词,而字或者词与行向量的对应关系是在构建词典映射表时所设定的 ,通过词典映射表将待处理的字、词或者标点符号转化成LSTM可以处理的向量数据。本发明不限于此,也可以利用其它自然语言处理方法将公司名的文本信息以及标注信息转化为向量的形式。
模型训练模块,根据标注的向量训练LSTM模型,将公司名向量输入训练后的LSTM模型,输出标注结果。
更具体的,该模型训练模块根据标注的向量训练LSTM模型,以公司名向量作为训练后的LSTM模型的输入,通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或标点的分类,提取出公司名的各个成分,并进行各成分的标注,输出标注结果。
标注结果处理模块,将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。
本发明不再使用现有技术中通用的利用规则提取公司名成分的方式,而利用深度学习的方法训练提取公司名成分的长短期记忆(LSTM)循环神经网络模型,对输入的公司名直接得到标注的结果。相对于传统的基于规则的方式,由于不需要人工构建规则以及依赖外部数据,该方法能大大的提高公司名成分提取的准确率和效率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度学习的公司名成分抽取方法,其特征在于,包括如下步骤:
步骤1,采集公司名并人工标注其各个成分;
步骤2,将所述公司名的文本信息以及标注信息转化为向量的形式作为长短期记忆(LSTM)模型的输入;
步骤3,根据所述步骤2中标注的向量训练所述LSTM模型,将公司名向量输入训练后的LSTM模型,输出标注结果;
步骤4,将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。
2.根据权利要求1所述的一种基于深度学习的公司名成分抽取方法,其特征在于,所述步骤1具体包括:
采集公司名,将采集到的公司名分词,然后按公司名的成分对分词后的结果进行各个部分的人工标注。
3.根据权利要求1所述的一种基于深度学习的公司名成分抽取方法,其特征在于,所述步骤2具体包括:将所述公司名的文本信息以及标注信息按词典映射转化成LSTM可以处理的向量数据,并作为LSTM模型的输入。
4.根据权利要求1所述的一种基于LSTM的多标签行业分类方法,其特征在于,所述步骤3具体包括:根据标注的向量训练LSTM模型,以公司名向量作为训练后的LSTM模型的输入,通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或标点的分类,提取出公司名的各个成分,并进行各成分的标注,输出标注结果。
5.一种基于深度学习的公司名成分抽取系统,其特征在于,该系统包括:
数据采集和标注模块,采集公司名并人工标注其各个成分;
数据预处理模块,将所述公司名的文本信息以及标注信息转化为向量的形式作为LSTM模型的输入;
模型训练模块,根据标注的向量训练LSTM模型,将公司名向量输入训练后的LSTM模型,输出标注结果;
标注结果处理模块,将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。
6.根据权利要求5所述的一种基于深度学习的公司名成分抽取系统,其特征在于,所述数据采集和标注模块具体用于:
采集公司名,将采集到的公司名分词,然后按公司名的成分对分词后的结果进行各个部分的人工标注。
7.根据权利要求5所述的一种基于深度学习的公司名成分抽取系统,其特征在于,所述数据预处理模块具体用于:将所述公司名的文本信息以及标注信息按词典映射转化成LSTM可以处理的向量数据,并作为LSTM模型的输入。
8.根据权利要求5所述的一种基于LSTM的多标签行业分类系统,其特征在于,所述模型训练模块具体用于:根据标注的向量训练LSTM模型,以公司名向量作为训练后的LSTM模型的输入,通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或标点的分类,提取出公司名的各个成分,并进行各成分的标注,输出标注结果。
CN201710024098.8A 2017-01-13 2017-01-13 一种基于深度学习的公司名成分抽取系统和方法 Pending CN106777336A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710024098.8A CN106777336A (zh) 2017-01-13 2017-01-13 一种基于深度学习的公司名成分抽取系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710024098.8A CN106777336A (zh) 2017-01-13 2017-01-13 一种基于深度学习的公司名成分抽取系统和方法

Publications (1)

Publication Number Publication Date
CN106777336A true CN106777336A (zh) 2017-05-31

Family

ID=58948218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710024098.8A Pending CN106777336A (zh) 2017-01-13 2017-01-13 一种基于深度学习的公司名成分抽取系统和方法

Country Status (1)

Country Link
CN (1) CN106777336A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943911A (zh) * 2017-11-20 2018-04-20 北京大学深圳研究院 数据抽取方法、装置、计算机设备及可读存储介质
CN109522417A (zh) * 2018-10-26 2019-03-26 浪潮软件股份有限公司 一种公司名的商号抽取方法
CN110826330A (zh) * 2019-10-12 2020-02-21 上海数禾信息科技有限公司 人名识别方法及装置、计算机设备及可读存储介质
CN110866394A (zh) * 2019-10-12 2020-03-06 上海数禾信息科技有限公司 公司名称识别方法及装置、计算机设备及可读存储介质
CN111209595A (zh) * 2020-04-21 2020-05-29 国网四川省电力公司电力科学研究院 一种涉污企业用电信息匹配及数据处理方法
CN112784015A (zh) * 2021-01-25 2021-05-11 北京金堤科技有限公司 信息识别方法和装置、设备、介质和程序

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955954A (zh) * 2016-05-03 2016-09-21 成都数联铭品科技有限公司 一种基于双向递归神经网络的新企业名称发现方法
CN105975555A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于双向递归神经网络的企业简称提取方法
CN105975987A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于全自动学习的企业行业分类方法
CN105975456A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种企业实体名称分析识别系统
CN105975455A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于双向递归神经网络的信息分析系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955954A (zh) * 2016-05-03 2016-09-21 成都数联铭品科技有限公司 一种基于双向递归神经网络的新企业名称发现方法
CN105975555A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于双向递归神经网络的企业简称提取方法
CN105975987A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于全自动学习的企业行业分类方法
CN105975456A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种企业实体名称分析识别系统
CN105975455A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于双向递归神经网络的信息分析系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JASON P.C. CHIUET AL.: "Named Entity Recognition with Bidirectional LSTM-CNNs", 《ARXIV:1511.08308V1》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943911A (zh) * 2017-11-20 2018-04-20 北京大学深圳研究院 数据抽取方法、装置、计算机设备及可读存储介质
CN109522417A (zh) * 2018-10-26 2019-03-26 浪潮软件股份有限公司 一种公司名的商号抽取方法
CN110826330A (zh) * 2019-10-12 2020-02-21 上海数禾信息科技有限公司 人名识别方法及装置、计算机设备及可读存储介质
CN110866394A (zh) * 2019-10-12 2020-03-06 上海数禾信息科技有限公司 公司名称识别方法及装置、计算机设备及可读存储介质
CN110826330B (zh) * 2019-10-12 2023-11-07 上海数禾信息科技有限公司 人名识别方法及装置、计算机设备及可读存储介质
CN111209595A (zh) * 2020-04-21 2020-05-29 国网四川省电力公司电力科学研究院 一种涉污企业用电信息匹配及数据处理方法
CN111209595B (zh) * 2020-04-21 2020-08-11 国网四川省电力公司电力科学研究院 一种涉污企业用电信息匹配及数据处理方法
CN112784015A (zh) * 2021-01-25 2021-05-11 北京金堤科技有限公司 信息识别方法和装置、设备、介质和程序
CN112784015B (zh) * 2021-01-25 2024-03-12 北京金堤科技有限公司 信息识别方法和装置、设备、介质和程序

Similar Documents

Publication Publication Date Title
CN106777336A (zh) 一种基于深度学习的公司名成分抽取系统和方法
Huang et al. Icdar2019 competition on scanned receipt ocr and information extraction
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN110598203B (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN107766371B (zh) 一种文本信息分类方法及其装置
CN105138652B (zh) 一种企业关联关系识别方法及系统
CN108959566B (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN106777275A (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN109492549A (zh) 一种训练样本集处理、模型训练方法及系统
CN108228568B (zh) 一种数学题目语义理解方法
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
Liu et al. Compact feature learning for multi-domain image classification
CN115795056B (zh) 非结构化信息构建知识图谱的方法、服务器及存储介质
CN109522417A (zh) 一种公司名的商号抽取方法
CN105117740A (zh) 字体识别方法及装置
CN108280389A (zh) 医疗票据icr识别系统及其医疗票据识别方法
CN112036166A (zh) 一种数据标注方法、装置、存储介质及计算机设备
CN107330009A (zh) 主题词分类模型创建方法、创建装置及存储介质
CN107436931B (zh) 网页正文抽取方法及装置
CN114240672A (zh) 绿色资产的占比的识别方法及相关产品
CN106484676B (zh) 基于句法树和领域特征的生物文本蛋白质指代消解方法
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN110826330B (zh) 人名识别方法及装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531

RJ01 Rejection of invention patent application after publication