CN108763324A - 企业数据的识别方法、装置、存储介质和计算机设备 - Google Patents

企业数据的识别方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN108763324A
CN108763324A CN201810416529.XA CN201810416529A CN108763324A CN 108763324 A CN108763324 A CN 108763324A CN 201810416529 A CN201810416529 A CN 201810416529A CN 108763324 A CN108763324 A CN 108763324A
Authority
CN
China
Prior art keywords
enterprise
business data
mark
data
history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810416529.XA
Other languages
English (en)
Inventor
朱江保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Long Mobile Network Technology Co Ltd
Original Assignee
Suzhou Long Mobile Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Long Mobile Network Technology Co Ltd filed Critical Suzhou Long Mobile Network Technology Co Ltd
Priority to CN201810416529.XA priority Critical patent/CN108763324A/zh
Publication of CN108763324A publication Critical patent/CN108763324A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种企业数据的识别方法、装置、存储介质和计算机设备,其中企业数据的识别方法包括:根据预设的自然语言处理模型从非结构化数据中提取企业数据,其中,企业数据包括企业标识、与企业标识对应的企业人员信息以及属性信息;根据企业标识将对应的企业人员信息和属性信息存储在结构化数据库中。上述方法通过采用预设的自然语言处理模型从非结构化数据库中提取企业数据,从而提高了企业数据的提取率以及准确率;并根据企业数据中的企业标识将对应的企业数据存储在结构化数据库中,进而便于后续关系挖掘时使用。

Description

企业数据的识别方法、装置、存储介质和计算机设备
技术领域
本申请涉及数据分析技术领域,特别是涉及一种企业数据的识别方法、装置、存储介质和计算机设备。
背景技术
随着互联网大数据的应用越来越广泛,企业数据的关联关系、股权结构、关系链图、疑似关系等维度需要更多的挖掘企业与自然人、企业与企业、自然人与自然人的关系。
在上述关系挖掘的过程中,目前主要采用正则或者关键词方式提取数据中的企业名称或自然人名称,导致容易出现提取不准确,即提取不完全或提取错误的情形。而一旦出现数据提取错误或者提取不全,在后续的关系挖掘时则容易出现断链,从而会导致整个关系链出现错误。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效提取相关数据的企业数据的识别方法、装置、计算机设备和存储介质。
一种企业数据的识别方法,包括:
根据预设的自然语言处理模型从非结构化数据中提取企业数据,其中,企业数据包括企业标识、与企业标识对应的企业人员信息以及属性信息;
根据企业标识将对应的企业人员信息和属性信息存储在结构化数据库中。
在其中一个实施例中,根据企业标识将对应的企业人员信息和属性信息存储在结构化数据库中之后,还包括:
获取与企业标识对应的历史企业数据,其中,历史企业数据包括与企业标识对应的企业历史人员信息以及历史属性信息;
将与企业标识对应的企业人员信息以及属性信息与对应的企业历史人员信息以及历史属性信息进行比较;
若存在不同,则根据不同在历史企业数据中增加相应的标注,并将标注后的历史企业数据存储在所述结构化数据库中。
在其中一个实施例中,若存在不同,则还包括:
根据不同在结构化数据库中存储的企业人员信息和属性信息中增加相应的标注。
在其中一个实施例中,企业数据中还包括对应的数据维度,则上述方法还包括:
根据数据维度展示标注后的历史企业数据或/和标注后的企业人员信息和属性信息。
在其中一个实施例中,根据预设的自然语言处理模型从非结构化数据中提取企业数据之前,还包括:
通过网络爬虫实时获取携带企业数据的非结构化数据;
对非结构化数据进行降噪处理;
则根据预设的自然语言处理模型从非结构化数据中提取企业数据,包括:
根据预设的自然语言处理模型从进行降噪处理后的非结构化数据中提取企业数据。
一种企业数据识别装置,其特征在于,包括:
企业数据提取模块,用于根据预设的自然语言处理模型从非结构化数据中提取企业数据,其中,企业数据包括企业标识、与企业标识对应的企业人员信息以及属性信息;
企业数据存储模块,用于根据企业标识将对应的企业人员信息和属性信息存储在结构化数据库中。
在其中一个实施例中,还包括:
历史企业数据获取模块,用于获取与企业标识对应的历史企业数据,其中,历史企业数据包括与企业标识对应的企业历史人员信息以及历史属性信息;
比较模块,用于将与企业标识对应的企业人员信息以及属性信息与对应的企业历史人员信息以及历史属性信息进行比较;
标注模块,用于若存在不同,则根据不同在历史企业数据中增加相应的标注,并将标注后的历史企业数据存储在所述结构化数据库中。
在其中一个实施例中,标注模块还用于:
根据不同在结构化数据库中存储的企业人员信息和属性信息中增加相应的标注。
一种计算机设备,包括内存和处理器,所述内存存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
上述企业数据的识别方法、装置、存储介质和计算机设备,通过采用预设的自然语言处理模型从非结构化数据库中提取企业数据,从而提高了企业数据的提取率以及准确率;并根据企业数据中的企业标识将对应的企业数据存储在结构化数据库中,从而便于后续关系挖掘时使用。
附图说明
图1为一个实施例中企业数据的识别方法的应用环境图;
图2为一个实施例中企业数据的识别方法的流程示意图;
图3为另一个实施例中企业数据的识别方法的流程示意图;
图4为再一个实施例中企业数据的识别方法的流程示意图;
图5为一个实施例中企业数据的识别装置的结构框图;
图6为另一个实施例中企业数据的识别装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的企业数据的识别方法,可以应用于如图1所示的应用环境中。其中,服务器102与结构化数据库104建立通信连接。服务器102通过网络获取携带有企业数据的新闻舆情、工商数据、法院判决数据等非结构化数据,并根据预设的自然语言处理模型从非结构化数据中提取企业数据。其中,企业数据包括企业标识、与企业标识对应的企业人员信息以及属性信息。服各器102根据提取的企业数据中的企业标识将对应的企业人员信息和属性信息存储在结构化数据库104中。具体的,服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。结构化数据库104则是按照一定的数据结构来组织、存储和管理数据并建立在计算机存储设备上的数据仓库。
在一个实施例中,如图2所示,提供了一种企业数据的识别方法,以该方法应用于图1中的服务器102为例进行说明,包括以下步骤:
步骤202,根据预设的自然语言处理模型从非结构化数据中提取企业数据。
其中,预设的自然语言处理模型是采用自然语言处理NLP(Natural LanguageProcessing)对大量的样本中包含的企业数据进行识别、训练而建立的模型。企业指的是以盈利为目的,运用各种生产要素向市场提供商品或服务,实行自主经营、自负盈亏、独立核算的法人或其他社会经济组织。企业数据指的是与企业经营相关的信息数据。具体地,企业数据包括企业标识、与企业标识对应的企业人员信息或属性信息。
其中,企业标识指的是用于唯一表示企业的标识。在本实施例中,企业标识具体可以是企业名称,也可以是企业标志。企业人员信息指的是在企业中担任重要职位或承担企业运营责任的人员信息,其具体可以是企业的董监高对应的人员信息,也可以是企业的法定代表人的人员信息,还可以是股东、监事、理事等对应的人员信息。属性信息指的是企业的注册资本信息、企业的经营范围信息、企业地址信息等。
在本实施例中,服务器102获取的数据为非结构化数据,其具体可以是新闻舆情中携带有企业数据的一段视频、音频或图片等;其也可以是工商数据中的某些报表,其还可以是法院判决数据中的文档等。因此,服务器102根据预设的自然语言处理模型从获取的非结构化数据中提取相关的企业数据。
步骤204,根据企业标识将对应的企业人员信息或属性信息存储在结构化数据库中。
其中,结构化数据库中存储的可以是结构化数据,即可以是通过二维逻辑表来实现的行结构数据。在本实施例中,具体可以根据企业标识将上述企业人员信息或属性信息以二维逻辑表形式存储在结构化数据库中。
上述企业数据的识别方法,通过采用预设的自然语言处理模型从非结构化数据库中提取企业数据,从而提高了企业数据的提取率以及准确率;并根据企业数据中的企业标识将对应的企业数据存储在结构化数据库中,从而便于后续关系挖掘时使用。
在一个实施例中,如图3所示,在根据预设的自然语言处理模型从非结构化数据中提取企业数据之前,还可以包括如下步骤:
步骤302,通过网络爬虫获取携带企业数据的非结构化数据。
具体的,服务器102可以通过网络爬虫获取网络中携带企业数据的非结构化数据。其具体可以是新闻舆情中携带有企业数据的一段视频、音频或图片等;其也可以是工商数据中的某些报表,其还可以是法院判决数据中的文档等。
步骤304,对非结构化数据进行降噪处理。
其中,对非结构化数据进行降噪处理的过程可以是对非结构化数据进行清洗,如检查非结构化数据的一致性、处理非结构化数据中的无效值、缺失值等错误信息,从而纠正非结构化数据中出现的可识别的错误,进而提高后续从非结构化数据中提取企业数据的正确率以及效率。
在一个实施例中,根据预设的自然语言处理模型从非结构化数据中提取企业数据,则包括:根据预设的自然语言处理模型从进行降噪处理后的非结构化数据中提取企业数据。
具体的,预设的自然语言处理模型是通过对大量的样本进行训练而形成的,在对样本进行的训练的过程中,可以引入NLP,并结合上下文语境,对样本中已知的企业信息进行标注和训练,训练完成后保存训练样本,并对训练结果进行验证,以对不准确的结果进行重新标注并更新、重新训练,以形成模型。因此,服务器可以将降噪处理后的非结构化数据输入此模型,从而通过此模型提取非结构化数据中的企业数据,进而提高了企业数据提取的效率和准确率。
在一个实施例中,如图4所示,根据企业标识将对应的企业人员信息或属性信息存储在结构化数据库中之后,还包括如下步骤:
步骤402,获取与企业标识对应的历史企业数据。
其中,历史企业数据包括与企业标识对应的企业历史人员信息或企业历史属性信息。企业历史人员信息指的是在企业中担任重要职位或承担企业运营责任的历史人员信息,其具体可以是企业历史的董监高对应的人员信息,也可以是企业的历史法定代表人的人员信息,还可以是历史股东、监事、理事等对应的人员信息。企业历史属性信息指的是企业的历史注册资本信息、企业的历史经营范围信息、企业的历史地址信息等。
步骤404,将与企业标识对应的企业人员信息或属性信息与对应的企业历史人员信息或历史属性信息进行比较。
在本实施例中,服务器102获取到与企业标识对应的历史企业数据之后,则将存储在结构化数据库中与该企业标识对应的企业数据与历史企业数据进行比较。具体的,将对应同一企业标识的企业人员信息或属性信息与企业历史人员信息或历史属性信息进行比较。
步骤406,若存在不同,则根据不同在历史企业数据中增加相应的标注,并将标注后的历史企业数据存储在结构化数据库中。
服务器102对上述企业数据与历史企业数据进行比较后,若两者存在不同,则根据不同之处在历史企业数据中增加相应的标注,并将标注后的历史企业数据存储在结构化数据库中,以便于后续关系挖掘时使用。
在一个实施例中,如果服务器102确定上述企业数据与历史企业数据之间存在不同,则还包括如下步骤:
步骤408,根据不同在结构化数据库中存储的企业人员信息或属性信息中增加相应的标注。
在本实施例中,服务器102还可以根据上述两者的不同之处对存储在结构化数据库中的企业数据进行标注,即对企业数据中企业人员信息或属性信息发生变化的部分进行标注,从而便于后续关系挖掘时使用。
具体的,假设服务器102根据预设的自然语言处理模型从非结构化数据中提取的企业数据包括与企业标识A对应的A企业的董监高的人员信息,其具体包括:张三(董事长)、李四(董事)、王五(监事)、赵六(经理),并将其存储在结构化数据库中。且服务器102根据企业标识A获取到A企业的历史董监高的人员信息,其具体包括:张三(董事长)、钱二(董事)、王五(监事)、赵六(经理)。
服务器102根据提取的A企业的董监高的人员信息将其与A企业的历史董监高的人员信息进行比较,由比较可知,A企业的董监高的人员信息发生了变化,即A企业的董事由原来的钱二变更为现在的李四了。因此,服务器102可以对A企业的历史董监高的人员信息中的钱二进行标注,即表明钱二已不再是董事,其具体可以在钱二对应的原有数据后加上“退出”标识,同时也可以通过不同的字体、颜色或其他手段对其进行标识,从而使得标注更加明显,也更便于后续使用。
另外,服务器102还可以对存储在结构化数据中的A企业的董监高的人员信息中的李四进行标注,即表明李四是本次新增的董事,其具体可以在李四对应的原有数据后加上“新增”标识,同时也可以通过不同的字体、颜色或其他手段对其进行标识,从而使得标注更加明显。
在一个实施例中,企业数据中还可以包括对应的数据维度,则企业数据的识别方法还可以包括:根据数据维度展示标注后的历史企业数据或/和标注后的企业人员信息或属性信息。
具体的,在本实施例中,数据维度可以是对企业数据的分类,如企业数据中企业人员信息可以是企业的董监高对应的人员信息,也可以是企业的法定代表人的人员信息,还可以是股东、监事、理事等对应的人员信息。属性信息可以是企业的注册资本信息、企业的经营范围信息、企业地址信息等。则企业的董监高可以对应为一个数据维度、企业的注册资本信息可以对应为一个数据维度、企业的经营范围信息可以对应为一个数据维度、企业地址信息也可以对应为一个数据维度。
因此,在提取到同一企业标识对应的企业数据和历史企业数据后,可以根据数据维度展示对应的企业数据或历史企业数据,也可以根据数据维度同时展示对应的企业数据和历史企业数据,从而形成鲜明的对比。当然,展示的数据可以是进行标注后的,也可以是未进行标注的。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本申请实施例还提供了一种企业数据识别装置,如图5所示,包括:
企业数据提取模块501,用于根据预设的自然语言处理模型从非结构化数据中提取企业数据,其中,企业数据包括企业标识、与企业标识对应的企业人员信息或属性信息;
企业数据存储模块502,用于根据企业标识将对应的企业人员信息或属性信息存储在结构化数据库中。
在一个实施例中,如图6所示,该企业数据识别装置还可以包括:
历史企业数据获取模块601,用于获取与企业标识对应的历史企业数据,其中,历史企业数据包括与企业标识对应的企业历史人员信息或历史属性信息;
比较模块602,用于将与企业标识对应的企业人员信息或属性信息与对应的企业历史人员信息或历史属性信息进行比较;
标注模块603,用于若存在不同,则根据不同在历史企业数据中增加相应的标注,并将标注后的历史企业数据存储在结构化数据库中。
在一个实施例中,标注模块还用于:根据不同在结构化数据库中存储的企业人员信息或属性信息中增加相应的标注。
在一个实施例中,企业数据中还包括对应的数据维度,则该企业数据识别装置还包括:展示模块,用于根据数据维度展示标注后的历史企业数据或/和标注后的企业人员信息或属性信息。
在一个实施例中,该企业数据识别装置还包括:预处理模块,用于通过网络爬虫获取携带企业数据的非结构化数据;对非结构化数据进行降噪处理。
关于企业数据识别装置的具体限定可以参见上文中对于企业数据识别方法的限定,在此不再赘述。上述企业数据识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的内存中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、内存、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的内存包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储企业数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种企业数据识别方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本申请实施例还提供了一种计算机设备,包括内存和处理器,其中,内存存储有计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
根据预设的自然语言处理模型从非结构化数据中提取企业数据,其中,企业数据包括企业标识、与企业标识对应的企业人员信息以及属性信息;
根据企业标识将对应的企业人员信息和属性信息存储在结构化数据库中。
在其中一个实施例中,根据企业标识将对应的企业人员信息和属性信息存储在结构化数据库中之后,还包括:获取与企业标识对应的历史企业数据,其中,历史企业数据包括与企业标识对应的企业历史人员信息以及历史属性信息;将与企业标识对应的企业人员信息以及属性信息与对应的企业历史人员信息以及历史属性信息进行比较;若存在不同,则根据不同在历史企业数据中增加相应的标注,并将标注后的历史企业数据存储在所述结构化数据库中。
在其中一个实施例中,若存在不同,则还包括:根据不同在结构化数据库中存储的企业人员信息和属性信息中增加相应的标注。
在其中一个实施例中,企业数据中还包括对应的数据维度,则上述方法还包括:根据数据维度展示标注后的历史企业数据或/和标注后的企业人员信息和属性信息。
在其中一个实施例中,根据预设的自然语言处理模型从非结构化数据中提取企业数据之前,还包括:通过网络爬虫实时获取携带企业数据的非结构化数据;对非结构化数据进行降噪处理;则根据预设的自然语言处理模型从非结构化数据中提取企业数据,包括:根据预设的自然语言处理模型从进行降噪处理后的非结构化数据中提取企业数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:根据预设的自然语言处理模型从非结构化数据中提取企业数据,其中,企业数据包括企业标识、与企业标识对应的企业人员信息以及属性信息;
根据企业标识将对应的企业人员信息和属性信息存储在结构化数据库中。
在其中一个实施例中,根据企业标识将对应的企业人员信息和属性信息存储在结构化数据库中之后,还包括:获取与企业标识对应的历史企业数据,其中,历史企业数据包括与企业标识对应的企业历史人员信息以及历史属性信息;将与企业标识对应的企业人员信息以及属性信息与对应的企业历史人员信息以及历史属性信息进行比较;若存在不同,则根据不同在历史企业数据中增加相应的标注,并将标注后的历史企业数据存储在所述结构化数据库中。
在其中一个实施例中,若存在不同,则还包括:根据不同在结构化数据库中存储的企业人员信息和属性信息中增加相应的标注。
在其中一个实施例中,企业数据中还包括对应的数据维度,则上述方法还包括:根据数据维度展示标注后的历史企业数据或/和标注后的企业人员信息和属性信息。
在其中一个实施例中,根据预设的自然语言处理模型从非结构化数据中提取企业数据之前,还包括:通过网络爬虫实时获取携带企业数据的非结构化数据;对非结构化数据进行降噪处理;则根据预设的自然语言处理模型从非结构化数据中提取企业数据,包括:根据预设的自然语言处理模型从进行降噪处理后的非结构化数据中提取企业数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对内存、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性内存。非易失性内存可包括只读存储器(ROM)、可程序设计ROM(PROM)、电可程序设计ROM(EPROM)、电可擦除可程序设计ROM(EEPROM)或闪存。易失性内存可包括随机存取内存(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、内存总线(Rambus)直接RAM(RDRAM)、直接内存总线动态RAM(DRDRAM)、以及内存总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种企业数据的识别方法,其特征在于,所述方法包括:
根据预设的自然语言处理模型从非结构化数据中提取企业数据,所述企业数据包括企业标识、与所述企业标识对应的企业人员信息或属性信息;
根据所述企业标识将对应的企业人员信息或属性信息存储在结构化数据库中。
2.根据权利要求1所述的企业数据的识别方法,其特征在于,所述根据所述企业标识将对应的企业人员信息或属性信息存储在结构化数据库中之后,还包括:
获取与所述企业标识对应的历史企业数据,所述历史企业数据包括与所述企业标识对应的企业历史人员信息或历史属性信息;
将与所述企业标识对应的企业人员信息或属性信息与对应的企业历史人员信息或历史属性信息进行比较;
若存在不同,则根据所述不同在所述历史企业数据中增加相应的标注,并将标注后的历史企业数据存储在所述结构化数据库中。
3.根据权利要求2所述的企业数据的识别方法,其特征在于,若存在不同,则还包括:
根据所述不同在所述结构化数据库中存储的企业人员信息或属性信息中增加相应的标注。
4.根据权利要求3所述的企业数据的识别方法,其特征在于,所述企业数据中还包括对应的数据维度,则所述方法还包括:
根据所述数据维度展示标注后的历史企业数据或/和标注后的企业人员信息或属性信息。
5.根据权利要求1~4任一项所述的企业数据的识别方法,其特征在于,所述根据预设的自然语言处理模型从非结构化数据中提取企业数据之前,还包括:
通过网络爬虫获取携带所述企业数据的非结构化数据;
对所述非结构化数据进行降噪处理;
所述根据预设的自然语言处理模型从非结构化数据中提取企业数据,包括:
根据预设的自然语言处理模型从进行降噪处理后的非结构化数据中提取企业数据。
6.一种企业数据识别装置,其特征在于,包括:
企业数据提取模块,用于根据预设的自然语言处理模型从非结构化数据中提取企业数据,所述企业数据包括企业标识、与所述企业标识对应的企业人员信息或属性信息;
企业数据存储模块,用于根据所述企业标识将对应的企业人员信息或属性信息存储在结构化数据库中。
7.根据权利要求6所述的企业数据识别装置,其特征在于,还包括:
历史企业数据获取模块,用于获取与所述企业标识对应的历史企业数据,所述历史企业数据包括与所述企业标识对应的企业历史人员信息或历史属性信息;
比较模块,用于将与所述企业标识对应的企业人员信息或属性信息与对应的企业历史人员信息或历史属性信息进行比较;
标注模块,用于若存在不同,则根据所述不同在所述历史企业数据中增加相应的标注,并将标注后的历史企业数据存储在所述结构化数据库中。
8.根据权利要求7所述的企业数据识别装置,其特征在于,所述标注模块还用于:
根据所述不同在所述结构化数据库中存储的企业人员信息或属性信息中增加相应的标注。
9.一种计算机设备,包括内存和处理器,所述内存存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201810416529.XA 2018-05-03 2018-05-03 企业数据的识别方法、装置、存储介质和计算机设备 Pending CN108763324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810416529.XA CN108763324A (zh) 2018-05-03 2018-05-03 企业数据的识别方法、装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810416529.XA CN108763324A (zh) 2018-05-03 2018-05-03 企业数据的识别方法、装置、存储介质和计算机设备

Publications (1)

Publication Number Publication Date
CN108763324A true CN108763324A (zh) 2018-11-06

Family

ID=64009360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810416529.XA Pending CN108763324A (zh) 2018-05-03 2018-05-03 企业数据的识别方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN108763324A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684486A (zh) * 2018-12-26 2019-04-26 中国南方电网有限责任公司 元数据模型的构建方法、装置、计算机设备和存储介质
CN112579539A (zh) * 2021-01-18 2021-03-30 深圳市合纵天下信息科技有限公司 企业集群大数据的管理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279475A (zh) * 2013-04-11 2013-09-04 广东电网公司信息中心 一种web应用系统内容变更的检测方法及系统
CN104063411A (zh) * 2013-09-12 2014-09-24 江苏金鸽网络科技有限公司 基于波特五力模型的企业情报收集方法
CN107491438A (zh) * 2017-08-25 2017-12-19 前海梧桐(深圳)数据有限公司 基于自然语言的企业决策要素提取方法及其系统
CN107563630A (zh) * 2017-08-25 2018-01-09 前海梧桐(深圳)数据有限公司 基于多维度的企业评分方法及其系统
CN107944718A (zh) * 2017-11-29 2018-04-20 北京洪泰同创信息技术有限公司 一种企业政策评估系统及方法
CN107945024A (zh) * 2017-12-12 2018-04-20 厦门市美亚柏科信息股份有限公司 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279475A (zh) * 2013-04-11 2013-09-04 广东电网公司信息中心 一种web应用系统内容变更的检测方法及系统
CN104063411A (zh) * 2013-09-12 2014-09-24 江苏金鸽网络科技有限公司 基于波特五力模型的企业情报收集方法
CN107491438A (zh) * 2017-08-25 2017-12-19 前海梧桐(深圳)数据有限公司 基于自然语言的企业决策要素提取方法及其系统
CN107563630A (zh) * 2017-08-25 2018-01-09 前海梧桐(深圳)数据有限公司 基于多维度的企业评分方法及其系统
CN107944718A (zh) * 2017-11-29 2018-04-20 北京洪泰同创信息技术有限公司 一种企业政策评估系统及方法
CN107945024A (zh) * 2017-12-12 2018-04-20 厦门市美亚柏科信息股份有限公司 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684486A (zh) * 2018-12-26 2019-04-26 中国南方电网有限责任公司 元数据模型的构建方法、装置、计算机设备和存储介质
CN112579539A (zh) * 2021-01-18 2021-03-30 深圳市合纵天下信息科技有限公司 企业集群大数据的管理方法及系统

Similar Documents

Publication Publication Date Title
WO2019218699A1 (zh) 欺诈交易判断方法、装置、计算机设备和存储介质
CN109523153A (zh) 非法集资企业的获取方法、装置、计算机设备和存储介质
CN109670837A (zh) 债券违约风险的识别方法、装置、计算机设备和存储介质
CN109859029A (zh) 异常申请检测方法、装置、计算机设备以及存储介质
EP3876549A1 (en) Video quality inspection method and apparatus, computer device and storage medium
CN109543925B (zh) 基于机器学习的风险预测方法、装置、计算机设备和存储介质
CN109165840A (zh) 风险预测处理方法、装置、计算机设备和介质
CN109800335A (zh) 企业图谱的生成方法、装置、计算机设备和存储介质
CN109829629A (zh) 风险分析报告的生成方法、装置、计算机设备和存储介质
CN110298682A (zh) 基于用户信息分析的智能决策方法、装置、设备及介质
CN109767326A (zh) 可疑交易报告生成方法、装置、计算机设备和存储介质
CN109886554B (zh) 违规行为判别方法、装置、计算机设备和存储介质
CN108306864A (zh) 网络数据检测方法、装置、计算机设备和存储介质
CN109753527A (zh) 异常企业挖掘方法、装置、计算机设备和存储介质
CN109801151B (zh) 财务造假风险监控方法、装置、计算机设备和存储介质
CN110880142B (zh) 一种风险实体获取方法及装置
CN110308946A (zh) 基于人工智能的跑批处理方法、设备、存储介质及装置
CN107329770A (zh) 针对软件安全性bug修复的个性化推荐方法
CN108763324A (zh) 企业数据的识别方法、装置、存储介质和计算机设备
CN109063720A (zh) 手写字训练样本获取方法、装置、计算机设备及存储介质
CN109447412A (zh) 构建企业关系图谱的方法、装置、计算机设备和存储介质
CN114997975A (zh) 一种异常企业识别方法、装置、设备、介质及产品
CN110008180A (zh) 财务数据记录方法、装置、计算机设备和存储介质
CN106022915A (zh) 企业信用风险评估方法和装置
CN112052232B (zh) 一种基于重演技术的业务流程上下文提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106

RJ01 Rejection of invention patent application after publication