CN110866394A - 公司名称识别方法及装置、计算机设备及可读存储介质 - Google Patents

公司名称识别方法及装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN110866394A
CN110866394A CN201910977282.3A CN201910977282A CN110866394A CN 110866394 A CN110866394 A CN 110866394A CN 201910977282 A CN201910977282 A CN 201910977282A CN 110866394 A CN110866394 A CN 110866394A
Authority
CN
China
Prior art keywords
company name
information
company
training
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910977282.3A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shuhe Information Technology Co Ltd
Original Assignee
Shanghai Shuhe Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shuhe Information Technology Co Ltd filed Critical Shanghai Shuhe Information Technology Co Ltd
Priority to CN201910977282.3A priority Critical patent/CN110866394A/zh
Publication of CN110866394A publication Critical patent/CN110866394A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种公司名称识别方法及装置、计算机设备及可读存储介质。该方法包括:将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型;将待识别公司名称信息输入到所述公司名称标注模型中,以得到已标注公司名称信息;按照第一预设规则提取所述已标注公司名称信息中的公司名称。本申请解决了相关技术中的公司名称识别方法准确度不高的技术问题。通过本申请,达到了通过训练好的网络模型识别公司名称的目的,从而实现了提高公司名称识别的准确度的技术效果。

Description

公司名称识别方法及装置、计算机设备及可读存储介质
技术领域
本申请涉及文本识别技术领域,具体而言,涉及一种公司名称识别方法及装置、计算机设备及可读存储介质。
背景技术
词性标注,是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是很多自然语言处理任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性。词性标注最简单的方法是从语料库中统计每个词所对应的高频词性,将其作为默认词性,这样显然还有上升空间。目前较主流的方法是同分词一样,将句子的词性标注作为一个序列标注问题来解决,同样分词中的常用方法,如隐式马尔科夫模型(HMM),条件随机场(CRF)都可以在词性标注上使用。
公司名称识别也是词性标注中的一种重要形式,目前的公司名称识别主要有以下难点:(1)在不同领域、场景下,命名的外延有差异;(2)数量巨大,不能枚举,难以全部收录;(3)名称变化频繁,并且没有严格的规律可以遵循;(4)表达形式多样。而现在在公司名称识别方面,由于公司名称属于组织机构名,目前针对组织机构名的识别有很多研究成果,出现了很多识别工具包,例如哈工大的LTP,HanLP等等,然而单纯依赖于这些工具对公司名称的识别效果较差。
针对相关技术中的公司名称识别方法准确度不高的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种公司名称识别方法及装置、计算机设备及可读存储介质,以解决相关技术中的公司名称识别方法准确度不高的问题。
为了实现上述目的,根据本申请的第一方面,提供了一种公司名称识别方法。
根据本申请的公司名称识别方法包括:将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型;将待识别公司名称信息输入到所述公司名称标注模型中,以得到已标注公司名称信息;按照第一预设规则提取所述已标注公司名称信息中的公司名称。
进一步地,所述将待识别公司名称信息输入到所述公司名称标注模型中,以得到已标注公司名称信息之前包括:对所述原始公司名称信息进行分词处理;将分词处理后的所述原始公司名称信息按照第二预设规则进行标注,以得到训练样本;将所述训练样本输入到所述预设网络模型进行训练,以得到所述公司名称标注模型。
进一步地,所述将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型包括:对所述原始公司名称信息进行标注,以得到训练样本;将所述训练样本转换成向量格式输入到所述预设网络模型进行训练;根据所述预设网络模型的输出结果提取特征向量;将所述特征向量输入预设分类器,以得到所述公司名称标注模型。
进一步地,所述将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型包括:确定所述原始公司名称信息中是否包括地理位置信息、行业类型信息、公司简称信息或公司类型信息;根据所述地理位置信息、所述行业类型信息、所述公司简称信息或所述公司类型信息对所述原始公司名称信息进行标注。
为了实现上述目的,根据本申请的第二方面,提供了一种公司名称识别装置。
根据本申请的公司名称识别装置包括:第一训练模块,用于将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型;第一标注模块,用于将待识别公司名称信息输入到所述公司名称标注模型中,以得到已标注公司名称信息;提取模块,用于按照第一预设规则提取所述已标注公司名称信息中的公司名称。
进一步地,所述装置还包括:分词模块,用于对所述原始公司名称信息进行分词处理;第二标注模块,用于将分词处理后的所述原始公司名称信息按照第二预设规则进行标注,以得到训练样本;第二训练模块,用于将所述训练样本输入到所述预设网络模型进行训练,以得到所述公司名称标注模型。
进一步地,所述第一训练模块包括:第一标注单元,用于对所述原始公司名称信息进行标注,以得到训练样本;转换单元,用于将所述训练样本转换成向量格式输入到所述预设网络模型进行训练;提取单元,用于根据所述预设网络模型的输出结果提取特征向量;分类单元,用于将所述特征向量输入预设分类器,以得到所述公司名称标注模型。
进一步地,所述第一训练模块还包括:确定单元,用于确定所述原始公司名称信息中是否包括地理位置信息、行业类型信息、公司简称信息或公司类型信息;第二标注单元,用于根据所述地理位置信息、所述行业类型信息、所述公司简称信息或所述公司类型信息对所述原始公司名称信息进行标注。
为了实现上述目的,根据本申请的第一方面,提供了一种用于公司名称识别的计算机设备,
根据本申请的用于公司名称识别的计算机设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前所述的方法。
为了实现上述目的,根据本申请的第一方面,提供了一种计算机可读存储介质。
根据本申请的计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现如前所述方法的步骤。
在本申请实施例中,采用将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型;将待识别公司名称信息输入到所述公司名称标注模型中,以得到已标注公司名称信息的方式,通过按照第一预设规则提取所述已标注公司名称信息中的公司名称,达到了通过训练好的网络模型识别公司名称的目的,从而实现了提高公司名称识别的准确度的技术效果,进而解决了相关技术中的公司名称识别方法准确度不高的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的公司名称识别方法的流程示意图;
图2是根据本申请第二实施例的公司名称识别方法的流程示意图;
图3是根据本申请第三实施例的公司名称识别方法的流程示意图;
图4是根据本申请第四实施例的公司名称识别方法的流程示意图;
图5是根据本申请第一实施例的公司名称识别装置的组成结构示意图;
图6是根据本申请第二实施例的公司名称识别装置的组成结构示意图;以及
图7是根据本申请第三实施例的公司名称识别装置的组成结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明实施例,提供了一种公司名称识别方法,如图1所示,该方法包括如下的步骤S101至步骤S103:
步骤S101,将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型。
具体实施时,首先需要获取海量的公司名称信息作为数据样本,本申请实施例中的原始公司名称信息可以是任何未处理过的包含公司名称的原始信息,这些原始公司名称中往往富含众多信息,例如,“上海XY信息科技有限公司”即为本申请实施例所述的一种原始公司名称信息,其中包含地名(上海)、公司名称(XY)、行业类型(信息科技)和公司类型(有限公司)信息。将上述获取到的原始公司名称信息进行一系列处理后作为训练样本输入到预设网络模型进行训练,以得到公司名称标注模型,用于对尚未标注的公司名称进行公司名称标注和提取。上述预设网络模型可以是LSTM(Long Short-Term Memory)长短期记忆网络模型,LSTM模型是一种时间递归神经网络(RNN),主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。当然本领域技术人员也可以根据实际需要选择其他类型的神经网络模型,任何类型的神经网络模型均应该涵盖在本申请的保护范围之内。
步骤S102,将待识别公司名称信息输入到所述公司名称标注模型中,以得到已标注公司名称信息。
具体实施时,在通过对预设网络模型的训练得到公司名称标注模型之后,获取待识别公司名称信息,输入到公司名称标注模型中,以对待识别公司名称信息中的公司名称进行标注。优选地,可以采用LNIT标注的方法进行公司名称的标注,本申请实施例中的LNIT标注方法是指按照地理位置(Location),公司名称(Name)、行业类型(Industry)和公司类型(Type)对原始公司名称信息中的公司名称进行标注,例如,上述的“上海XY信息科技有限公司”,其中将“上海”两个字符标注为“L”标签,将“XY”两个字符标注为“N”标签,将“信息科技”四个字符标注为“I”标签,将“有限公司”四个字符标注为“T”标签,由此可以得到“上海XY信息科技有限公司”对应的“LNIT”标签。
步骤S103,按照第一预设规则提取所述已标注公司名称信息中的公司名称。
具体实施时,在利用公司名称标注模型标注好待识别公司名称信息中的公司名称后,按照一定规则提取标注后的公司名称。例如将上述待识别公司名称信息通过公司名称标注模型进行标注后得到的“LNIT”标签对应的原始字符信息提取出来即作为最终的公司名称,从而完成整个的公司名称识别过程。上述公司名称识别方法中所训练的神经网络模型相比于现有技术中的隐式马尔科夫模型(HMM),对公司名称的识别准确度和识别效率更高。
作为本申请实施例的一种优选实施方式,如图2所示,所述将待识别公司名称信息输入到所述公司名称标注模型中,以得到已标注公司名称信息之前包括如下的步骤S201至步骤S203:
步骤S201,对所述原始公司名称信息进行分词处理。
具体实施时,首先需要对原始公司名称信息进行一系列的数据处理。例如数据清洗、分词和数据标注等操作。在进行分词操作时,可以采用现有技术中的分词工具如开源的jieba分词对原始公司名称信息进行分词处理,例如利用jieba分词将“上海XY信息科技有限公司”按照一定规则划分为“上海/XY/信息科技/有限公司”四个部分。当然本领域技术人员也可以根据实际需要选择其他类型的分词工具,任何类型的分词工具均应该涵盖在本申请的保护范围之内。
步骤S202,将分词处理后的所述原始公司名称信息按照第二预设规则进行标注,以得到训练样本。
具体实施时,在对原始公司名称信息进行分词处理后,需要对分词处理后得到的原始公司名称进行数据标注,在进行数据标注时,可以按照一定规则进行,如采用如前所述的LNIT标注方式对原始数据进行公司名称标注,将标注后的公司名称信息作为训练样本。
步骤S203,将所述训练样本输入到所述预设网络模型进行训练,以得到所述公司名称标注模型。
具体实施时,将上述标注好的公司名称数据输入到预设网络模型如LSTM神经网络模型中进行训练,以得到公司名称标注模型,用于对尚未标注的公司名称进行公司名称的标注和提取。
作为本申请实施例的一种优选实施方式,如图3所示,所述将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型包括如下的步骤S301至步骤S304:
步骤S301,对所述原始公司名称信息进行标注,以得到训练样本。
具体实施时,需要对原始公司名称进行数据标注,在进行数据标注时,可以按照一定规则进行,如采用如前所述的LNIT标注方式对原始数据进行公司名称标注,将标注后的公司名称信息作为训练样本。
步骤S302,将所述训练样本转换成向量格式输入到所述预设网络模型进行训练。
具体实施时,在得到标注好的训练样本后,需要进一步对训练样本中的数据格式进行转换处理等操作,具体地,将标注好的训练样本转换成向量格式的数据后再输入到预设网络模型进行训练。
步骤S303,根据所述预设网络模型的输出结果提取特征向量。
具体实施时,根据预设网络模型的输出结果进一步提取出公司名称标注的特征向量,基于该特征向量得到最终的公司名称标注模型。
步骤S304,将所述特征向量输入预设分类器,以得到所述公司名称标注模型。
具体实施时,将上述经过训练后得到的公司名称标注特征向量输入到softmax分类器中进行训练,得到最终的公司名称标注模型,通过该公司名称标注模型可以得到公司名称信息中每个字符属于每个标注类型(L/N/I/T)的概率,根据概率的大小确定最终的公司名称标注结果,并进行公司名称的提取。
作为本申请实施例的一种优选实施方式,如图4所示,所述将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型包括如下的步骤S401至步骤S402:
步骤S401,确定所述原始公司名称信息中是否包括地理位置信息、行业类型信息、公司简称信息或公司类型信息。
具体实施时,本申请实施例采用的一种公司名称标注方法可以是LNIT标注,在进行LNIT标注时,需要确定原始公司名称信息中是否包括地理位置信息、行业类型信息、公司简称信息或公司类型信息,因为在有些情况下,一些原始公司名称信息中并不一定完全同时包含地理位置信息、行业类型信息、公司简称信息和公司类型信息,例如采用公司简称“上海XY公司”的形式,此时则可以按照LN的标注方法即地理位置和公司名称的形式对原始公司名称信息进行标注。
步骤S402,根据所述地理位置信息、所述行业类型信息、所述公司简称信息或所述公司类型信息对所述原始公司名称信息进行标注。
具体实施时,在确定原始公司名称信息中包含的地理位置信息、行业类型信息、公司简称信息或公司类型信息后,按照LNIT标注方法分别将地理位置、行业类型、公司简称或公司类型标注为“L”、“N”、“I”和“T”标签。
从以上的描述中,可以看出,本发明实现了如下技术效果:采用将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型;将待识别公司名称信息输入到所述公司名称标注模型中,以得到已标注公司名称信息的方式,通过按照第一预设规则提取所述已标注公司名称信息中的公司名称,达到了通过训练好的网络模型识别公司名称的目的,从而实现了提高公司名称识别准确度和识别效率的技术效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述公司名称识别方法的装置,如图5所示,该装置包括:第一训练模块1、第一标注模块2和提取模块3。
本申请实施例的第一训练模块1,用于将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型。
具体实施时,首先需要获取海量的公司名称信息作为数据样本,本申请实施例中的原始公司名称信息可以是任何未处理过的包含公司名称的原始信息,这些原始公司名称中往往富含众多信息,例如,“上海XY信息科技有限公司”即为本申请实施例所述的一种原始公司名称信息,其中包含地名(上海)、公司名称(XY)、行业类型(信息科技)和公司类型(有限公司)信息。通过第一训练模块将上述获取到的原始公司名称信息进行一系列处理后作为训练样本输入到预设网络模型进行训练,以得到公司名称标注模型,用于对尚未标注的公司名称进行公司名称标注和提取。上述预设网络模型可以是LSTM(Long Short-TermMemory)长短期记忆网络模型,LSTM模型是一种时间递归神经网络(RNN),主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。当然本领域技术人员也可以根据实际需要选择其他类型的神经网络模型,任何类型的神经网络模型均应该涵盖在本申请的保护范围之内。
本申请实施例的第一标注模块2,用于将待识别公司名称信息输入到所述公司名称标注模型中,以得到已标注公司名称信息。
具体实施时,在通过对预设网络模型的训练得到公司名称标注模型之后,通过第一标注模块获取待识别公司名称信息,输入到公司名称标注模型中,以对待识别公司名称信息中的公司名称进行标注。优选地,可以采用LNIT标注的方法进行公司名称的标注,本申请实施例中的LNIT标注方法是指按照地理位置(Location),公司名称(Name)、行业类型(Industry)和公司类型(Type)对原始公司名称信息中的公司名称进行标注,例如,上述的“上海XY信息科技有限公司”,其中将“上海”两个字符标注为“L”标签,将“XY”两个字符标注为“N”标签,将“信息科技”四个字符标注为“I”标签,将“有限公司”四个字符标注为“T”标签,由此可以得到“上海XY信息科技有限公司”对应的“LNIT”标签。
本申请实施例的提取模块3,用于按照第一预设规则提取所述已标注公司名称信息中的公司名称。
具体实施时,在利用公司名称标注模型标注好待识别公司名称信息中的公司名称后,通过提取模块按照一定规则提取标注后的公司名称。例如将上述待识别公司名称信息通过公司名称标注模型进行标注后得到的“LNIT”标签对应的原始字符信息提取出来即作为最终的公司名称,从而完成整个的公司名称识别过程。上述公司名称识别方法中所训练的神经网络模型相比于现有技术中的隐式马尔科夫模型(HMM),对公司名称的识别准确度和识别效率更高。
作为本申请实施例的一种优选实施方式,如图6所示,所述装置还包括:分词模块4、第二标注模块5和第二训练模块6。
本申请实施例的分词模块4,用于对所述原始公司名称信息进行分词处理。
具体实施时,首先需要对原始公司名称信息进行一系列的数据处理。例如数据清洗、分词和数据标注等操作。在通过分词模块进行分词操作时,可以采用现有技术中的分词工具如开源的jieba分词对原始公司名称信息进行分词处理,例如利用jieba分词将“上海XY信息科技有限公司”按照一定规则划分为“上海/XY/信息科技/有限公司”四个部分。当然本领域技术人员也可以根据实际需要选择其他类型的分词工具,任何类型的分词工具均应该涵盖在本申请的保护范围之内。
本申请实施例的第二标注模块5,用于将分词处理后的所述原始公司名称信息按照第二预设规则进行标注,以得到训练样本。
具体实施时,在对原始公司名称信息进行分词处理后,需要通过第二标注模块对分词处理后得到的原始公司名称进行数据标注,在进行数据标注时,可以按照一定规则进行,如采用如前所述的LNIT标注方式对原始数据进行公司名称标注,将标注后的公司名称信息作为训练样本。
本申请实施例的第二训练模块6,用于将所述训练样本输入到所述预设网络模型进行训练,以得到所述公司名称标注模型。
具体实施时,通过第二训练模块将上述标注好的公司名称数据输入到预设网络模型如LSTM神经网络模型中进行训练,以得到公司名称标注模型,用于对尚未标注的公司名称进行公司名称的标注和提取。
作为本申请实施例的一种优选实施方式,如图7所示,所述第一训练模块1包括:第一标注单元11、转换单元12、提取单元13和分类单元14。
本申请实施例的第一标注单元11,用于对所述原始公司名称信息进行标注,以得到训练样本。
具体实施时,需要通过第一标注单元对原始公司名称进行数据标注,在进行数据标注时,可以按照一定规则进行,如采用如前所述的LNIT标注方式对原始数据进行公司名称标注,将标注后的公司名称信息作为训练样本。
本申请实施例的转换单元12,用于将所述训练样本转换成向量格式输入到所述预设网络模型进行训练。
具体实施时,在得到标注好的训练样本后,需要通过转换单元进一步对训练样本中的数据格式进行转换处理等操作,具体地,将标注好的训练样本转换成向量格式的数据后再输入到预设网络模型进行训练。
本申请实施例的提取单元13,用于根据所述预设网络模型的输出结果提取特征向量。
具体实施时,通过提取单元根据预设网络模型的输出结果进一步提取出公司名称标注的特征向量,基于该特征向量得到最终的公司名称标注模型。
本申请实施例的分类单元14,用于将所述特征向量输入预设分类器,以得到所述公司名称标注模型。
具体实施时,通过分类单元将上述经过训练后得到的公司名称标注特征向量输入到softmax分类器中进行训练,得到最终的公司名称标注模型,通过该公司名称标注模型可以得到公司名称信息中每个字符属于每个标注类型(L/N/I/T)的概率,根据概率的大小确定最终的公司名称标注结果,并进行公司名称的提取。
作为本申请实施例的一种优选实施方式,如图7所示,所述第一训练模块1还包括:确定单元15和第二标注单元16。
本申请实施例的确定单元15,用于确定所述原始公司名称信息中是否包括地理位置信息、行业类型信息、公司简称信息或公司类型信息。
具体实施时,本申请实施例采用的一种公司名称标注方法可以是LNIT标注,在进行LNIT标注时,需要通过确定单元确定原始公司名称信息中是否包括地理位置信息、行业类型信息、公司简称信息或公司类型信息,因为在有些情况下,一些原始公司名称信息中并不一定完全同时包含地理位置信息、行业类型信息、公司简称信息和公司类型信息,例如采用公司简称“上海XY公司”的形式,此时则可以按照LN的标注方法即地理位置和公司名称的形式对原始公司名称信息进行标注。
本申请实施例的第二标注单元16,用于根据所述地理位置信息、所述行业类型信息、所述公司简称信息或所述公司类型信息对所述原始公司名称信息进行标注。
具体实施时,在确定原始公司名称信息中包含的地理位置信息、行业类型信息、公司简称信息或公司类型信息后,通过第二标注单元按照LNIT标注方法分别将地理位置、行业类型、公司简称或公司类型标注为“L”、“N”、“I”和“T”标签。
根据本发明实施例,还提供了一种用于公司名称识别的计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前所述的公司名称识别方法。
根据本发明实施例,还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现如前所述的公司名称识别方法的步骤。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种公司名称识别方法,其特征在于,包括:
将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型;
将待识别公司名称信息输入到所述公司名称标注模型中,以得到已标注公司名称信息;
按照第一预设规则提取所述已标注公司名称信息中的公司名称。
2.根据权利要求1所述的公司名称识别方法,其特征在于,所述将待识别公司名称信息输入到所述公司名称标注模型中,以得到已标注公司名称信息之前包括:
对所述原始公司名称信息进行分词处理;
将分词处理后的所述原始公司名称信息按照第二预设规则进行标注,以得到训练样本;
将所述训练样本输入到所述预设网络模型进行训练,以得到所述公司名称标注模型。
3.根据权利要求1所述的公司名称识别方法,其特征在于,所述将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型包括:
对所述原始公司名称信息进行标注,以得到训练样本;
将所述训练样本转换成向量格式输入到所述预设网络模型进行训练;
根据所述预设网络模型的输出结果提取特征向量;
将所述特征向量输入预设分类器,以得到所述公司名称标注模型。
4.根据权利要求1所述的公司名称识别方法,其特征在于,所述将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型包括:
确定所述原始公司名称信息中是否包括地理位置信息、行业类型信息、公司简称信息或公司类型信息;
根据所述地理位置信息、所述行业类型信息、所述公司简称信息或所述公司类型信息对所述原始公司名称信息进行标注。
5.一种公司名称识别装置,其特征在于,包括
第一训练模块,用于将原始公司名称信息输入到预设网络模型进行训练,以得到公司名称标注模型;
第一标注模块,用于将待识别公司名称信息输入到所述公司名称标注模型中,以得到已标注公司名称信息;
提取模块,用于按照第一预设规则提取所述已标注公司名称信息中的公司名称。
6.根据权利要求5所述的公司名称识别装置,其特征在于,还包括:
分词模块,用于对所述原始公司名称信息进行分词处理;
第二标注模块,用于将分词处理后的所述原始公司名称信息按照第二预设规则进行标注,以得到训练样本;
第二训练模块,用于将所述训练样本输入到所述预设网络模型进行训练,以得到所述公司名称标注模型。
7.根据权利要求5所述的公司名称识别装置,其特征在于,所述第一训练模块包括:
第一标注单元,用于对所述原始公司名称信息进行标注,以得到训练样本;
转换单元,用于将所述训练样本转换成向量格式输入到所述预设网络模型进行训练;
提取单元,用于根据所述预设网络模型的输出结果提取特征向量;
分类单元,用于将所述特征向量输入预设分类器,以得到所述公司名称标注模型。
8.根据权利要求5所述的公司名称识别装置,其特征在于,所述第一训练模块还包括:
确定单元,用于确定所述原始公司名称信息中是否包括地理位置信息、行业类型信息、公司简称信息或公司类型信息;
第二标注单元,用于根据所述地理位置信息、所述行业类型信息、所述公司简称信息或所述公司类型信息对所述原始公司名称信息进行标注。
9.一种用于公司名称识别的计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至4中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被处理器执行时实现如权利要求1至4中任一项所述方法的步骤。
CN201910977282.3A 2019-10-12 2019-10-12 公司名称识别方法及装置、计算机设备及可读存储介质 Pending CN110866394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910977282.3A CN110866394A (zh) 2019-10-12 2019-10-12 公司名称识别方法及装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910977282.3A CN110866394A (zh) 2019-10-12 2019-10-12 公司名称识别方法及装置、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN110866394A true CN110866394A (zh) 2020-03-06

Family

ID=69652535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910977282.3A Pending CN110866394A (zh) 2019-10-12 2019-10-12 公司名称识别方法及装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110866394A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784015A (zh) * 2021-01-25 2021-05-11 北京金堤科技有限公司 信息识别方法和装置、设备、介质和程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777336A (zh) * 2017-01-13 2017-05-31 深圳爱拼信息科技有限公司 一种基于深度学习的公司名成分抽取系统和方法
CN109492215A (zh) * 2018-09-18 2019-03-19 平安科技(深圳)有限公司 新闻实体识别方法、装置、计算机设备和存储介质
WO2019184118A1 (zh) * 2018-03-26 2019-10-03 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777336A (zh) * 2017-01-13 2017-05-31 深圳爱拼信息科技有限公司 一种基于深度学习的公司名成分抽取系统和方法
WO2019184118A1 (zh) * 2018-03-26 2019-10-03 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
CN109492215A (zh) * 2018-09-18 2019-03-19 平安科技(深圳)有限公司 新闻实体识别方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
彭嘉毅;方勇;黄诚;刘亮;姜政伟;: "基于深度主动学习的信息安全领域命名实体识别研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784015A (zh) * 2021-01-25 2021-05-11 北京金堤科技有限公司 信息识别方法和装置、设备、介质和程序
CN112784015B (zh) * 2021-01-25 2024-03-12 北京金堤科技有限公司 信息识别方法和装置、设备、介质和程序

Similar Documents

Publication Publication Date Title
CN107291783B (zh) 一种语义匹配方法及智能设备
CN109726293B (zh) 一种因果事件图谱构建方法、系统、装置及存储介质
CN106777275B (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN109902307B (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN104503998B (zh) 针对用户查询句的类型识别方法及装置
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
Kaur et al. A survey of named entity recognition in English and other Indian languages
CN111488468B (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN108932218B (zh) 一种实例扩展方法、装置、设备和介质
US20210326530A1 (en) Device for an automated generation of a knowledge graph
Singh et al. A decision tree based word sense disambiguation system in Manipuri language
CN111309910A (zh) 文本信息挖掘方法及装置
CN112256845A (zh) 意图识别方法、装置、电子设备和计算机可读存储介质
CN111368544A (zh) 命名实体识别方法及装置
CN110909123A (zh) 一种数据提取方法、装置、终端设备及存储介质
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
CN112989043B (zh) 指代消解方法、装置、电子设备及可读存储介质
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN110705211A (zh) 文本重点内容标记方法、装置、计算机设备及存储介质
CN110866394A (zh) 公司名称识别方法及装置、计算机设备及可读存储介质
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN110826330B (zh) 人名识别方法及装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination