CN108763507A - 企业关联关系挖掘方法和装置 - Google Patents

企业关联关系挖掘方法和装置 Download PDF

Info

Publication number
CN108763507A
CN108763507A CN201810541062.1A CN201810541062A CN108763507A CN 108763507 A CN108763507 A CN 108763507A CN 201810541062 A CN201810541062 A CN 201810541062A CN 108763507 A CN108763507 A CN 108763507A
Authority
CN
China
Prior art keywords
enterprise
incidence relation
internet data
correlation degree
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810541062.1A
Other languages
English (en)
Inventor
马海收
汪凯
张发恩
唐进
尹世明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810541062.1A priority Critical patent/CN108763507A/zh
Publication of CN108763507A publication Critical patent/CN108763507A/zh
Priority to US16/286,066 priority patent/US11397778B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提出一种企业关联关系挖掘方法和装置。该方法包括:获取多种类型的互联网数据;采用企业名称识别模型,从所述互联网数据中识别出各企业名称;采用频繁项挖掘算法对所述互联网数据进行挖掘,获取各企业名称之间的关联程度;根据各企业名称之间的关联程度,采用抽取器从所述互联网数据中抽取企业之间的关联关系。采用企业名称识别模型可以从多种类型的互联网数据挖掘出的企业关联关系更加深入、全面。采用频繁项挖掘算法,可以进一步挖掘出关联程度较高的企业间的关联关系,得到的企业关联关系更加准确。

Description

企业关联关系挖掘方法和装置
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种企业关联关系挖掘方法和装置。
背景技术
公司关联关系是企业知识图谱中非常重要的一类信息。公司关联关系对进一步挖掘公司的所属行业、上下游企业、监控企业的风险和行业的兴衰,都有重要的作用。
现有的企业知识图谱系统中,都是基于工商数据获得公司的关联关系。但是,这些工商数据仅是浅层的关联关系,不够深入、全面。
发明内容
本发明实施例提供一种企业关联关系挖掘方法和装置,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种企业关联关系挖掘方法,包括:
获取多种类型的互联网数据;
采用企业名称识别模型,从所述互联网数据中识别出各企业名称;
采用频繁项挖掘算法对所述互联网数据进行挖掘,获取各企业名称之间的关联程度;
根据各企业名称之间的关联程度,采用抽取器从所述互联网数据中抽取企业之间的关联关系。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,获取多种类型的互联网数据,包括以下方式的至少一种:
采用网络爬虫从政府网站获取行政数据;
采用网络爬虫从新闻网站获取新闻舆情类数据;
采用网络爬虫从财经网站获取上市公司公告数据。
结合第一方面,本发明实施例在第一方面的第二种实现方式中,还包括:
采用文档对象模型DOM树的统计方法,从所述互联网数据中抽取出正文内容;
去除所述正文内容的网页标签;
根据所述正文内容中的标点符号,将所述正文内容切割成句子。
结合第一方面的第二种实现方式,本发明实施例在第一方面的第三种实现方式中,采用企业名称识别模型,从所述互联网数据中识别出各企业名称,包括:
将切割后的句子输入隐马尔科夫模型、深度神经网络模型或条件随机场模型,标识出企业名称。
结合第一方面或其任意一种实现方式,本发明实施例在第一方面的第四种实现方式中,采用频繁项挖掘算法对所述互联网数据进行挖掘,获取各企业名称之间的关联程度,包括以下方式的至少一种:
采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容的企业名称之间的第一关联程度;
采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容的相同段落的企业名称之间的第二关联程度;
采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容同一句子的企业名称之间的第三关联程度。
结合第一方面或其任意一种实现方式,本发明实施例在第一方面的第五种实现方式中,还包括:
预先建立所述抽取器的抽取规则,所述抽取规则包括特定关系词对应的企业关联关系,所述企业关联关系包括归属关系、上下游依赖关系和经营往来关系中的至少一种;或
预先建立基于机器学习模型的抽取器,所述机器学习模型采用条件随机场算法构建。
第二方面,本发明实施例提供了一种企业关联关系挖掘装置,包括:
获取模块,用于获取多种类型的互联网数据;
识别模块,用于采用企业名称识别模型,从所述互联网数据中识别出各企业名称;
挖掘模块,用于采用频繁项挖掘算法对所述互联网数据进行挖掘,获取各企业名称之间的关联程度;
抽取模块,用于根据各企业名称之间的关联程度,采用抽取器从所述互联网数据中抽取企业之间的关联关系。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述获取模块包括以下子模块的至少一个:
第一获取子模块,用于采用网络爬虫从政府网站获取行政数据;
第二获取子模块,用于采用网络爬虫从新闻网站获取新闻舆情类数据;
第三获取子模块,用于采用网络爬虫从财经网站获取上市公司公告数据。
结合第二方面,本发明实施例在第二方面的第二种实现方式中,还包括:
预处理模块,用于采用DOM树的统计方法,从所述互联网数据中抽取出正文内容;去除所述正文内容的网页标签;根据所述正文内容中的标点符号,将所述正文内容切割成句子。
结合第二方面的第二种实现方式,本发明实施例在第二方面的第三种实现方式中,所述识别模块还用于将切割后的句子输入隐马尔科夫模型、深度神经网络模型或条件随机场模型,标识出企业名称。
结合第二方面或其任意一种实现方式,本发明实施例在第二方面的第四种实现方式中,所述挖掘模块包括以下子模块的至少一个:
第一挖掘子模块,用于采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容的企业名称之间的第一关联程度;
第二挖掘子模块,用于采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容的相同段落的企业名称之间的第二关联程度;
第三挖掘子模块,用于采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容同一句子的企业名称之间的第三关联程度。
结合第二方面或其任意一种实现方式,本发明实施例在第二方面的第五种实现方式中,还包括:
建立模块,用于预先建立所述抽取器的抽取规则,所述抽取规则包括特定关系词对应的企业关联关系,所述企业关联关系包括归属关系、上下游依赖关系和经营往来关系中的至少一种;或预先建立基于机器学习模型的抽取器,所述机器学习模型采用条件随机场算法构建。
第三方面,本发明实施例提供了一种企业关联关系挖掘装置,所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,企业关联关系挖掘装置的结构中包括处理器和存储器,所述存储器用于存储支持企业关联关系挖掘装置执行上述企业关联关系挖掘方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述企业关联关系挖掘装置还可以包括通信接口,用于企业关联关系挖掘装置与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储企业关联关系挖掘装置所用的计算机软件指令,其包括用于执行上述企业关联关系挖掘方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:采用企业名称识别模型可以从多种类型的互联网数据挖掘出的企业关联关系更加深入、全面,例如能挖掘出企业间的归属关系、上下游依赖关系、经营往来关系等方面的信息。采用频繁项挖掘算法,可以进一步挖掘出关联程度较高的企业间的关联关系,得到的企业关联关系更加准确。
上述技术方案中的另一个技术方案具有如下优点或有益效果:挖掘出深入、全面的企业关联关系,可以有效丰富企业知识图谱,挖掘出企业间的关系网络,对于监控企业的风险和行业的兴衰,具有重要的作用。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出本发明实施例的企业关联关系挖掘方法的流程图。
图2示出本发明实施例的企业关联关系挖掘方法的流程图。
图3示出本发明实施例的企业关联关系挖掘方法的应用示例的示意图。
图4示出根据本发明实施例的企业关联关系挖掘装置的结构框图。
图5示出根据本发明实施例的企业关联关系挖掘装置的结构框图。
图6示出根据本发明实施例的企业关联关系挖掘装置的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出本发明实施例的企业关联关系挖掘方法的流程图。如图1所示,该方法可以包括以下步骤:
101、获取多种类型的互联网数据;
102、采用企业名称识别模型,从所述互联网数据中识别出各企业名称;
103、采用频繁项挖掘算法对所述互联网数据进行挖掘,获取各企业名称之间的关联程度;
104、根据各企业名称之间的关联程度,采用抽取器从所述互联网数据中抽取企业之间的关联关系。
在本发明实施例中,企业包括但不限于个人独资企业、合伙企业以及各种类型的公司等。在互联网的各种网站的数据中包括各种企业的信息。因此,可以采用网络爬虫从各种网站中爬取多种类型的互联网数据。多种类型的互联网数据可以包括结构化数据和/或非机构化数据。机构化数据包括从特定网站例如国家工商数据库中抓取的数据。非结构化数据可以包括从互联网的各种网站抓取的数据。
在一种可能的实现方式中,步骤101包括以下方式的至少一种:
采用网络爬虫从政府网站获取行政数据;
采用网络爬虫从新闻网站获取新闻舆情类数据;
采用网络爬虫从财经网站获取上市公司公告数据。
其中,政府网站包括但不限于各级人民政府网站、各级工商局网站等。例如工商局的网站中包括企业登记信息、信用信息等行政数据。新闻网站的新闻舆情类数据可能包括对一些企业的产品发布、重大投资、人员机构变更等方面的新闻报道。财经网站包括的上市公司公告数据包括但不限于财报、董事会决议、监管信息、诚信信息、交易信息等。基于多种网站的多种类型的互联网信息,能够覆盖更加全面的数据源,有利于得到更加全面的企业关联关系分析结果。上述的政府网站、新闻网站、财经网站及其相关的数据仅是示例,而非对网站类型的限制,可以根据实际需求选择具体的网站。
在一种可能的实现方式中,如图2所示,在步骤102之前,该方法还包括对抓取的数据进行预处理的步骤,例如:
201、采用文档对象模型(Document Object Model,DOM)树的统计方法,从所述互联网数据中抽取出正文内容;
202、去除所述正文内容的网页标签;
203、根据所述正文内容中的标点符号,将所述正文内容切割成句子。
由于抓取的网页中存在大量广告等干扰信息,需要从网页中抽取出正文内容。参见图3,可以采用基于DOM树的统计方法抽取出正文内容。其中,DOM树的统计方法可以将超文本标记语言(HyperText Markup Language,HTML)文档表达为树结构。在DOM树中通过各个节点来记录互联网数据例如网页中的正文内容。在从正文内容中去除表示非必要内容的网页标签例如:网页模板包括的线条、颜色、符号等之后,基于标点符号将正文内容切割成句子。数据预处理之后,可以去除干扰信息,后续在进行名称识别、频繁项挖掘和关联关系抽取的过程中,可以减少处理量,提高处理能力。
在一种可能的实现方式中,步骤102包括:
将切割后的句子输入隐马尔科夫模型(Hidden Markov Model,HMM)、深度神经网络模型或条件随机场模型,标识出企业名称。
其中,隐马尔科夫模型可以简称隐马模型,是一个二重马尔科夫随机过程。HMM中状态之间的转移过程不可观察,转移过程对应了转移概率矩阵。状态转移时生成或接受某个观察值,也是一个随机过程,对应了输出观察值概率矩阵。因此,HMM包括状态数N、从每个状态可能输出的不同的符号数M、状态转移概率矩阵、从状态到某个观察值的概率分布矩阵和初始状态的概率分布。可以预先训练出用于进行企业名称识别的隐马尔科夫模型。将切割好的句子输入HMM,可以标识出识别的企业名称。
在一种可能的实现方式中,步骤103包括以下方式的至少一种:
采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容的企业名称之间的第一关联程度;
采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容的相同段落的企业名称之间的第二关联程度;
采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容同一句子的企业名称之间的第三关联程度。
通常,同时出现于同一篇文章中、同一段或同一句子中的企业名称,可能存在紧密联系。例如两家企业出现在同一篇文章中,表明这两个企业间可能存在联系。因此,基于识别出的企业名称,采用频繁项挖掘算法在互联网数据中进行挖掘,可以得到哪些企业之间的关联程度较高,哪些较低。具体而言,可以按照不同粒度挖掘互联网数据中企业名称之间的关联程度。例如,按照出现在同一文章、同一段或同一句这几种粒度,分别得到企业名称之间的关联程度。如果A公司和公B司出现在同一文章,第一关联程度为0.3;如果A公司和公B司出现在同一段,第二关联程度为0.5;如果A公司和公B司出现在同一句子,第三关联程度为0.7。如果不同文章(段、句子)多次出现A公司和公B司的频次较多,可以再提高A公司和公B司的关联程度。
此外,进行频繁项挖掘算法之后,可以采用例如企业列表的形式表示企业关联程度。例如,可以将关联程度大于0.5的企业的对应关系保存到企业列表中,参见表1。再如,也可以将挖掘出的所有企业的关联程度均保存到企业列表中。
表1
企业名称 关联公司 关联程度
A公司 B公司 0.8
D公司 E公司 0.7
L公司 N公司 0.6
企业列表中可以按照不同更多粒度记录多种关联程度,也可以综合多个粒度的关联程度和出现频次等记录总的关联程度。上述关联程度的数值仅是示例,而非限制,在实际应用中可以根据具体场景设置关联程度的计算方式。
此外,在进行频繁项挖掘之前,也可以先进行数据预处理,去除互联网数据中的非必要内容后再挖掘。
在一种可能的实现方式中,该方法还包括预先建立抽取器的步骤。参见图3,按照实现方式的不同,抽取器可以包括基于规则(或模板)的抽取器和基于机器学习模型的抽取器,因此,可以采用以下任一方式建立抽取器:
方式一、预先建立所述抽取器的抽取规则,所述抽取规则包括特定关系词对应的企业关联关系,所述企业关联关系包括归属关系、上下游依赖关系和经营往来关系中的至少一种。
可以预先设定一些特定关系词对应的企业关联关系,再基于互联网数据中出现的特定关系词抽取企业关联关系。
例如:“子公司”属于一种表示企业归属关系的特定关系词,“子公司”对应的企业关联关系可以包括“XX是XX的子公司”、“XX是XX的母公司”、“XX属于XX”等。如果某一网页中包括“A的子公司B”,可以得到“B是A的子公司”这一企业关联关系。
再如:“客户”属于一种表示企业经营往来关系的特定关系词,“子公司”对应的企业关联关系可以包括“XX是XX的子公司”、“XX是XX的母公司”、“XX属于XX”等。如果某一网页中包括“A公司客户B”,则可以得到“B是A的客户”这一企业关联关系。
再如:公司财报中的“收入信息”和“支出信息”属于一种表示企业上下游依赖关系的特定关系词。根据公司财报中的“收入信息”可以抽取出“下游企业信息”,根据公司财报中的“支出信息”,可以抽取出“上游企业信息”,从而得到对应的上下游依赖关系。
方式二、预先建立基于机器学习模型的抽取器,所述机器学习模型采用条件随机场(Conditional Random Field,CRF)算法构建。
CRF算法常用于句法分析、命名实体识别、词性标注等序列标注问题。将句子输入采用CRF算法构建的机器学习模型后,可以分析出句子的主语、谓语和宾语。如果主语和宾语是两家企业名称,谓语可能代表了两家企业的关系。其中,谓语对应的企业关联关系可以参见上述的特定关系词对应的企业关联关系。
具体而言,可以将从频繁项挖掘算法得到的企业列表中,获取关联程度高例如关联程度大于0.7的企业名称。然后,将这些企业名称和相关的互联网数据(例如预处理之后的句子)输入到基于机器学习模型的抽取器中,通过抽取器抽取到更加具体的企业关联关系。例如抽取到A公司的子公司、上游企业、下游企业、客户关系、所属行业等各种深入、全面的企业关联关系。
本发明实施例的企业关联关系挖掘方法,采用企业名称识别模型可以从多种类型的互联网数据挖掘出的企业关联关系更加深入、全面。具体来说,不仅能够从结构化数据例如从国家工商数据库中抓取的数据中挖掘出企业关联关系,还可以从舆情、公告等非结构化数据中挖掘出企业关联关系,可以有效丰富企业知识图谱,挖掘企业间的关系网络。例如,挖掘出企业的所属行业、企业间的归属关系、上下游依赖关系、经营往来关系等,对于监控企业的风险和行业的兴衰,具有重要的作用。采用频繁项挖掘算法,可以进一步挖掘出关联程度较高的企业间的关联关系,得到的企业关联关系更加准确。本发明实施例可以应用于例如百度营销云的企业知识图谱中。
图4示出根据本发明实施例的企业关联关系挖掘装置的结构框图。如图4所示,该企业关联关系挖掘装置包括:
获取模块41,用于获取多种类型的互联网数据;
识别模块43,用于采用企业名称识别模型,从所述互联网数据中识别出各企业名称;
挖掘模块45,用于采用频繁项挖掘算法对所述互联网数据进行挖掘,获取各企业名称之间的关联程度;
抽取模块47,用于根据各企业名称之间的关联程度,采用抽取器从所述互联网数据中抽取企业之间的关联关系。
在一种可能的实现方式中,如图5所示,所述获取模块41包括以下子模块的至少一个:
第一获取子模块51,用于采用网络爬虫从政府网站获取行政数据;
第二获取子模块52,用于采用网络爬虫从新闻网站获取新闻舆情类数据;
第三获取子模块53,用于采用网络爬虫从财经网站获取上市公司公告数据。
在一种可能的实现方式中,该装置还包括:
预处理模块48,用于采用DOM树的统计方法,从所述互联网数据中抽取出正文内容;去除所述正文内容的网页标签;根据所述正文内容中的标点符号,将所述正文内容切割成句子。
在一种可能的实现方式中,所述识别模块43还用于将切割后的句子输入隐马尔科夫模型、深度神经网络模型或条件随机场模型,标识出企业名称。
在一种可能的实现方式中,所述挖掘模块45包括以下子模块的至少一个:
第一挖掘子模块55,用于采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容的企业名称之间的第一关联程度;
第二挖掘子模块56,用于采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容的相同段落的企业名称之间的第二关联程度;
第三挖掘子模块57,用于采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容同一句子的企业名称之间的第三关联程度。
在一种可能的实现方式中,该装置还包括:
建立模块49,用于预先建立所述抽取器的抽取规则,所述抽取规则包括特定关系词对应的企业关联关系,所述企业关联关系包括归属关系、上下游依赖关系和经营往来关系中的至少一种;或预先建立基于机器学习模型的抽取器,所述机器学习模型采用条件随机场算法构建。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图6示出根据本发明实施例的企业关联关系挖掘装置的结构框图。如图6所示,该企业关联关系挖掘装置包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的企业关联关系挖掘方法。所述存储器910和处理器920的数量可以为一个或多个。
该企业关联关系挖掘装置还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种企业关联关系挖掘方法,其特征在于,包括:
获取多种类型的互联网数据;
采用企业名称识别模型,从所述互联网数据中识别出各企业名称;
采用频繁项挖掘算法对所述互联网数据进行挖掘,获取各企业名称之间的关联程度;
根据各企业名称之间的关联程度,采用抽取器从所述互联网数据中抽取企业之间的关联关系。
2.根据权利要求1所述的方法,其特征在于,获取多种类型的互联网数据,包括以下方式的至少一种:
采用网络爬虫从政府网站获取行政数据;
采用网络爬虫从新闻网站获取新闻舆情类数据;
采用网络爬虫从财经网站获取上市公司公告数据。
3.根据权利要求1所述的方法,其特征在于,还包括:
采用文档对象模型DOM树的统计方法,从所述互联网数据中抽取出正文内容;
去除所述正文内容的网页标签;
根据所述正文内容中的标点符号,将所述正文内容切割成句子。
4.根据权利要求3所述的方法,其特征在于,采用企业名称识别模型,从所述互联网数据中识别出各企业名称,包括:
将切割后的句子输入隐马尔科夫模型、深度神经网络模型或条件随机场模型,标识出企业名称。
5.根据权利要求1至4中任一项所述的方法,其特征在于,采用频繁项挖掘算法对所述互联网数据进行挖掘,获取各企业名称之间的关联程度,包括以下方式的至少一种:
采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容的企业名称之间的第一关联程度;
采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容的相同段落的企业名称之间的第二关联程度;
采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容同一句子的企业名称之间的第三关联程度。
6.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:
预先建立所述抽取器的抽取规则,所述抽取规则包括特定关系词对应的企业关联关系,所述企业关联关系包括归属关系、上下游依赖关系和经营往来关系中的至少一种;或
预先建立基于机器学习模型的抽取器,所述机器学习模型采用条件随机场算法构建。
7.一种企业关联关系挖掘装置,其特征在于,包括:
获取模块,用于获取多种类型的互联网数据;
识别模块,用于采用企业名称识别模型,从所述互联网数据中识别出各企业名称;
挖掘模块,用于采用频繁项挖掘算法对所述互联网数据进行挖掘,获取各企业名称之间的关联程度;
抽取模块,用于根据各企业名称之间的关联程度,采用抽取器从所述互联网数据中抽取企业之间的关联关系。
8.根据权利要求7所述的装置,其特征在于,所述获取模块包括以下子模块的至少一个:
第一获取子模块,用于采用网络爬虫从政府网站获取行政数据;
第二获取子模块,用于采用网络爬虫从新闻网站获取新闻舆情类数据;
第三获取子模块,用于采用网络爬虫从财经网站获取上市公司公告数据。
9.根据权利要求7所述的装置,其特征在于,还包括:
预处理模块,用于采用DOM树的统计方法,从所述互联网数据中抽取出正文内容;去除所述正文内容的网页标签;根据所述正文内容中的标点符号,将所述正文内容切割成句子。
10.根据权利要求9所述的装置,其特征在于,所述识别模块还用于将切割后的句子输入隐马尔科夫模型、深度神经网络模型或条件随机场模型,标识出企业名称。
11.根据权利要求7至10中任一项所述的装置,其特征在于,所述挖掘模块包括以下子模块的至少一个:
第一挖掘子模块,用于采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容的企业名称之间的第一关联程度;
第二挖掘子模块,用于采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容的相同段落的企业名称之间的第二关联程度;
第三挖掘子模块,用于采用频繁项挖掘算法,从所述互联网数据中获取处于相同正文内容同一句子的企业名称之间的第三关联程度。
12.根据权利要求7至10中任一项所述的装置,其特征在于,还包括:
建立模块,用于预先建立所述抽取器的抽取规则,所述抽取规则包括特定关系词对应的企业关联关系,所述企业关联关系包括归属关系、上下游依赖关系和经营往来关系中的至少一种;或预先建立基于机器学习模型的抽取器,所述机器学习模型采用条件随机场算法构建。
13.一种企业关联关系挖掘装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
CN201810541062.1A 2018-05-30 2018-05-30 企业关联关系挖掘方法和装置 Pending CN108763507A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810541062.1A CN108763507A (zh) 2018-05-30 2018-05-30 企业关联关系挖掘方法和装置
US16/286,066 US11397778B2 (en) 2018-05-30 2019-02-26 Method and device for mining an enterprise relationship

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810541062.1A CN108763507A (zh) 2018-05-30 2018-05-30 企业关联关系挖掘方法和装置

Publications (1)

Publication Number Publication Date
CN108763507A true CN108763507A (zh) 2018-11-06

Family

ID=64004518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810541062.1A Pending CN108763507A (zh) 2018-05-30 2018-05-30 企业关联关系挖掘方法和装置

Country Status (2)

Country Link
US (1) US11397778B2 (zh)
CN (1) CN108763507A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558541A (zh) * 2018-11-30 2019-04-02 北京百悟科技有限公司 一种信息处理的方法、装置及计算机存储介质
CN110163413A (zh) * 2019-04-15 2019-08-23 深圳壹账通智能科技有限公司 企业监控及预警方法、装置、计算机设备及可读存储介质
CN110443489A (zh) * 2019-07-31 2019-11-12 北京明略软件系统有限公司 目标行业的获取方法及装置、存储介质、电子装置
CN110489481A (zh) * 2019-08-06 2019-11-22 北京邮电大学 行业数据的数据分析方法、装置及数据分析服务器
CN110619572A (zh) * 2019-09-20 2019-12-27 重庆誉存大数据科技有限公司 一种监控企业公开数据高容错性增长的方法
CN110675172A (zh) * 2019-09-30 2020-01-10 上海仪电(集团)有限公司中央研究院 一种食品溯源数据挖掘方法及系统
CN110968701A (zh) * 2019-11-05 2020-04-07 量子数聚(北京)科技有限公司 用于图神经网络的关系图谱建立方法以及装置、设备
CN112330459A (zh) * 2020-10-22 2021-02-05 北京华彬立成科技有限公司 一种基于工商数据挖掘企业投融资事件的方法及装置
CN112418320A (zh) * 2020-11-24 2021-02-26 杭州未名信科科技有限公司 一种企业关联关系识别方法、装置及存储介质
CN112612937A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种关联信息获取方法及设备
CN112949309A (zh) * 2021-02-26 2021-06-11 中国光大银行股份有限公司 企业关联关系抽取方法、装置、存储介质和电子装置
CN113553400A (zh) * 2021-07-26 2021-10-26 杭州叙简科技股份有限公司 一种企业知识图谱实体链接模型的构建方法及装置
CN114398387A (zh) * 2021-11-30 2022-04-26 北京基智科技有限公司 一种基于大数据的关联企业的识别方法
CN114611515A (zh) * 2022-01-28 2022-06-10 江苏省联合征信有限公司 一种基于企业舆情信息识别企业实际控制人的方法和系统
CN114925112A (zh) * 2022-04-29 2022-08-19 数魔方(北京)医药科技有限公司 投资关系挖掘方法、查询方法、挖掘装置和查询装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191853B (zh) * 2020-01-06 2022-07-15 支付宝(杭州)信息技术有限公司 风险预测方法及装置、风险查询方法及装置
CN111539605B (zh) * 2020-04-14 2023-12-29 鼎富智能科技有限公司 企业画像的构建方法及装置
CN111914064A (zh) * 2020-07-29 2020-11-10 王嘉兴 一种文本挖掘方法、装置、设备和介质
CN112070402B (zh) * 2020-09-09 2024-06-07 深圳前海微众银行股份有限公司 基于图谱的数据处理方法、装置、设备及存储介质
CN112016855B (zh) * 2020-10-22 2021-09-24 北京淇瑀信息科技有限公司 基于关系网匹配的用户行业识别方法、装置和电子设备
CN112528096B (zh) * 2020-12-15 2024-05-07 航天信息股份有限公司 企业分析方法、存储介质以及电子设备
CN113076472B (zh) * 2021-03-16 2022-09-16 合肥工业大学 基于用户需求和标签关联度的电影推荐方法和系统
CN114201663B (zh) * 2021-07-23 2022-09-02 北京恒通慧源大数据技术有限公司 一种基于标签传播的集团客户挖掘方法、装置和电子设备
CN113869640A (zh) * 2021-08-26 2021-12-31 中国环境科学研究院 企业筛选方法、装置、电子设备及存储介质
CN115115380B (zh) * 2022-04-13 2024-07-19 江苏省联合征信有限公司 基于知识图谱识别空壳公司的方法及系统
CN115080706B (zh) * 2022-08-18 2022-11-08 京华信息科技股份有限公司 一种企业关系图谱的构建方法及系统
CN115858875B (zh) * 2023-02-10 2023-05-23 武汉中科通达高新技术股份有限公司 基于频繁图模式挖掘的企业员工层级关系发现方法及装置
CN116452014B (zh) * 2023-03-21 2024-02-27 深圳市蕾奥规划设计咨询股份有限公司 应用于城市规划的企业集群确定方法、装置及电子设备
CN117909559B (zh) * 2024-02-06 2024-08-20 拓尔思信息技术股份有限公司 一种基于互联网公开数据的企业关联信息挖掘方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853292A (zh) * 2010-05-18 2010-10-06 深圳市北科瑞讯信息技术有限公司 商业社会网络构建方法及系统
US20120232955A1 (en) * 2008-11-12 2012-09-13 Reachforce Inc. System and Method for Capturing Information for Conversion into Actionable Sales Leads
CN104657750A (zh) * 2015-03-23 2015-05-27 苏州大学张家港工业技术研究院 一种用于人物关系抽取的方法和装置
CN107657032A (zh) * 2017-09-28 2018-02-02 佛山市南方数据科学研究院 一种互联网大数据分析提取方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055368A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content classification and extraction apparatus, systems, and methods
CN102752729A (zh) * 2012-06-25 2012-10-24 华为终端有限公司 提醒方法、终端、云服务器和系统
US20170011446A1 (en) * 2015-03-03 2017-01-12 Go Daddy Operating Company, LLC Legal service provider recommendations for product ideas
US10706113B2 (en) * 2017-01-06 2020-07-07 Microsoft Technology Licensing, Llc Domain review system for identifying entity relationships and corresponding insights
CN107103094A (zh) 2017-05-18 2017-08-29 前海梧桐(深圳)数据有限公司 基于海量数据的企业间数据关联关系捕捉方法及其系统
CN107247707B (zh) 2017-06-27 2020-08-04 鼎富智能科技有限公司 基于补全策略的企业关联关系信息提取方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120232955A1 (en) * 2008-11-12 2012-09-13 Reachforce Inc. System and Method for Capturing Information for Conversion into Actionable Sales Leads
CN101853292A (zh) * 2010-05-18 2010-10-06 深圳市北科瑞讯信息技术有限公司 商业社会网络构建方法及系统
CN104657750A (zh) * 2015-03-23 2015-05-27 苏州大学张家港工业技术研究院 一种用于人物关系抽取的方法和装置
CN107657032A (zh) * 2017-09-28 2018-02-02 佛山市南方数据科学研究院 一种互联网大数据分析提取方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558541A (zh) * 2018-11-30 2019-04-02 北京百悟科技有限公司 一种信息处理的方法、装置及计算机存储介质
CN109558541B (zh) * 2018-11-30 2021-10-22 北京百悟科技有限公司 一种信息处理的方法、装置及计算机存储介质
CN110163413A (zh) * 2019-04-15 2019-08-23 深圳壹账通智能科技有限公司 企业监控及预警方法、装置、计算机设备及可读存储介质
CN110443489A (zh) * 2019-07-31 2019-11-12 北京明略软件系统有限公司 目标行业的获取方法及装置、存储介质、电子装置
CN110489481A (zh) * 2019-08-06 2019-11-22 北京邮电大学 行业数据的数据分析方法、装置及数据分析服务器
CN110489481B (zh) * 2019-08-06 2022-07-08 北京邮电大学 行业数据的数据分析方法、装置及数据分析服务器
CN110619572A (zh) * 2019-09-20 2019-12-27 重庆誉存大数据科技有限公司 一种监控企业公开数据高容错性增长的方法
CN110675172A (zh) * 2019-09-30 2020-01-10 上海仪电(集团)有限公司中央研究院 一种食品溯源数据挖掘方法及系统
CN110968701A (zh) * 2019-11-05 2020-04-07 量子数聚(北京)科技有限公司 用于图神经网络的关系图谱建立方法以及装置、设备
CN112330459B (zh) * 2020-10-22 2021-09-28 北京华彬立成科技有限公司 一种基于工商数据挖掘企业投融资事件的方法及装置
CN112330459A (zh) * 2020-10-22 2021-02-05 北京华彬立成科技有限公司 一种基于工商数据挖掘企业投融资事件的方法及装置
CN112418320A (zh) * 2020-11-24 2021-02-26 杭州未名信科科技有限公司 一种企业关联关系识别方法、装置及存储介质
CN112418320B (zh) * 2020-11-24 2024-01-19 杭州未名信科科技有限公司 一种企业关联关系识别方法、装置及存储介质
CN112612937A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种关联信息获取方法及设备
CN112949309A (zh) * 2021-02-26 2021-06-11 中国光大银行股份有限公司 企业关联关系抽取方法、装置、存储介质和电子装置
CN113553400A (zh) * 2021-07-26 2021-10-26 杭州叙简科技股份有限公司 一种企业知识图谱实体链接模型的构建方法及装置
CN114398387A (zh) * 2021-11-30 2022-04-26 北京基智科技有限公司 一种基于大数据的关联企业的识别方法
CN114611515A (zh) * 2022-01-28 2022-06-10 江苏省联合征信有限公司 一种基于企业舆情信息识别企业实际控制人的方法和系统
CN114611515B (zh) * 2022-01-28 2023-12-12 江苏省联合征信有限公司 一种基于企业舆情信息识别企业实际控制人的方法和系统
CN114925112A (zh) * 2022-04-29 2022-08-19 数魔方(北京)医药科技有限公司 投资关系挖掘方法、查询方法、挖掘装置和查询装置

Also Published As

Publication number Publication date
US20190370296A1 (en) 2019-12-05
US11397778B2 (en) 2022-07-26

Similar Documents

Publication Publication Date Title
CN108763507A (zh) 企业关联关系挖掘方法和装置
Moffitt et al. AIS in an age of Big Data
Shahab et al. CEO power and corporate social responsibility decoupling
Tsui et al. Knowledge-based extraction of intellectual capital-related information from unstructured data
CN109614550A (zh) 舆情监控方法、装置、计算机设备及存储介质
CN107527151A (zh) 一种构建企业画像的方法及系统
US20070288336A1 (en) Method and System For Advanced Financial Analysis
Greer et al. From hazard mitigation to climate adaptation: a review of home buyout program literature
Gonzalez-Lopez et al. Integration of business process architectures within enterprise architecture approaches: a literature review
Zhou et al. Stock market reactions to environmental disclosures: New evidence from China
CN114492392A (zh) 一种基于短语向量构造的年报风险挖掘系统和方法
Necir et al. Statistical estimate of the proportional hazard premium of loss
Boolaky Doorgakunt et al. Revisiting international public sector accounting standards adoption in developing countries
CN104766240A (zh) 电子银行业务数据处理系统及方法
Wahyulistyo et al. Mapping future research employee fraud with bibliometric analysis
Huang et al. Economic prediction with the FOMC minutes: An application of text mining
Yu et al. Evolution of mariculture insurance policies in China: Review, challenges, and recommendations
Canello et al. Investigating space‐time patterns of regional industrial resilience through a micro‐level approach: An application to the Italian wine industry
Rad et al. Predictability of financial statements fraud-risk using Benford’s Law
US11880394B2 (en) System and method for machine learning architecture for interdependence detection
Liu et al. Linking political attitude and pro-environmental behaviors in China
Chin et al. The monetary model of exchange rate: evidence from the Philippines
Rusydiana et al. Sentiment Analysis of Microtakaful Industry: Comparison between Indonesia and Malaysia
Semenov Financial systems, financing constraints and investment: empirical analysis of OECD countries
Yang External technological sources, subsidies and firm productivity in China

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106