CN111191103B - 从互联网中识别分析企业主体信息方法、装置及存储介质 - Google Patents

从互联网中识别分析企业主体信息方法、装置及存储介质 Download PDF

Info

Publication number
CN111191103B
CN111191103B CN201911391120.8A CN201911391120A CN111191103B CN 111191103 B CN111191103 B CN 111191103B CN 201911391120 A CN201911391120 A CN 201911391120A CN 111191103 B CN111191103 B CN 111191103B
Authority
CN
China
Prior art keywords
node
enterprise
pointer
dictionary
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911391120.8A
Other languages
English (en)
Other versions
CN111191103A (zh
Inventor
贾新
李善平
朱红生
晋梁昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tuopu Fenglian Information Technology Co.,Ltd.
HEFEI TOPNET SYSTEM ENGINEERING CO.,LTD.
Henan Tupu computer network engineering Co.,Ltd.
Original Assignee
Henan Tupu Computer Network Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Tupu Computer Network Engineering Co ltd filed Critical Henan Tupu Computer Network Engineering Co ltd
Priority to CN201911391120.8A priority Critical patent/CN111191103B/zh
Publication of CN111191103A publication Critical patent/CN111191103A/zh
Application granted granted Critical
Publication of CN111191103B publication Critical patent/CN111191103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/547Remote procedure calls [RPC]; Web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及企业主体信息的识别和分析技术领域,具体涉及一种从互联网中识别分析企业主体信息方法、装置及存储介质,该方法包括以下步骤:将N个企业主体信息划分为M个不同的区域,利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;以I个所述字典树为一个小组,将M个字典树分为J个小组;将所述J个小组聚合为一个企业主体信息识别服务;将所述企业主体信息识别服务封装为统一的远程过程调用接口;调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;存储所识别的企业主体信息及相应的查询结果,实现了快速的从互联网信息中快速识别企业主体信息并进行分析的目的。

Description

从互联网中识别分析企业主体信息方法、装置及存储介质
技术领域
本发明涉及企业主体信息的识别和分析技术领域,具体涉及一种从互联网中识别分析企业主体信息方法、装置及存储介质。
背景技术
数据作为大数据时代重要的资源,分散在各行业,其中互联网上的数据资源尤为巨大,并以惊人的速度增长,数据中存在大量的、有价值的信息,如新闻、企业招聘信息、自媒体信息、招投标信息等。国家市场监督总局2019年2月发布信息,全国市场主体数量1.11亿户,其中企业3500万户,而与之关联的数据大量存在互联网中,目前对互联网信息的识别常用的有以下几种技术:
A、正则表达式
正则表达式只适合匹配文本字面,不适合匹配文本意义,写一个复杂的HTML信息匹配识别的正则比较麻烦,不如使用针对特定意义的处理器来处理。
优势在于:只要熟练应用正则表达式,而且匹配的目标是纯文本,那么相比于写分析器来说,正则可以更快速的完成工作。还有在捕获字符串的能力,正则也可以很好的完成工作。
不足之处:写法复杂,替换功能差、容易引起性能问题,可读性差等。
B、DOM分析器
DOM分析器的优点在于:开发人员只需调用建树指令,利用navigation APIs访问所需的树节点来完成任务,编程容易,添加和修改树中的元素容易。
不足之处:DOM分析器在处理很大的XML文档时,需要频繁的改变的服务中,对性能和内存的要求比较高。
C、Jsoup
通过HttpClient先获取到html,直接解析某个URL地址、HTML文本内容。
优点在于:它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
不足之处:ajax加载的异步数据,信息内容无法识别并解析。
发明人在实践中,发现上述现有技术存在以下缺陷:
上述识别方法所采用的搜索技术多为以少数关键词去长文本当中搜索,但是目前的需求是从长文本当中识别短的企业主体名称。并且在无算法情况下,逐条信息与企业名称匹配,时间代价太大。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种从互联网中识别分析企业主体信息方法、装置及存储介质,所采用的技术方案具体如下:
第一方面,本发明实施例提供了一种从互联网中识别分析企业主体信息方法,该方法包括以下步骤:
将N个企业主体信息划分为M个不同的区域,利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;
以I个所述字典树为一个小组,将M个字典树分为J个小组;
将所述J个小组聚合为一个企业主体信息识别服务;
将所述企业主体信息识别服务封装为统一的远程过程调用接口;
调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;
存储所识别的企业主体信息及相应的查询结果。
进一步,所述构建字典树时,采用多线程进行并行构建。
进一步,所述字典树算法采用ac自动机算法,所述ac自动机算法中在构建失败指针之后,还包括以下步骤:
对失败指针的二次处理:在同时满足以下条件时,直接把尾节点的失败指针修改为其父节点的失败指针的失败指针中的子节点:
条件1:某一尾节点的所代表的字符串和其父节点所代表的字符串相同;
条件2:该尾节点的失败指针不是根节点,且其失败指针的父节点是根节点;
条件3:该尾节点的父节点的失败指针的失败指针不是指向根节点,且其父节点的失败指针的失败指针中的子节点中具有和该尾节点所代表的字符串相同的节点。
进一步,所述把尾节点的失败指针修改为其父节点的失败指针的失败指针中的子节点之后,还包括:为每个节点添加是否为一个词的结尾的属性。
进一步,在所述为每个节点添加是否为一个词的结尾的属性之后,还包括:
若某一节点向其根节点回溯的过程中所产生的关键词和该根节点的某个分支的关键词完全相同,则把所述节点的branch列表中添加一个指向所述分支的尾节点的指针。
第二方面,本发明实施例提供了一种从互联网中识别分析企业主体信息装置,该装置包括:
区域划分模块,用于将N个企业主体信息划分为M个不同的区域;
字典树构建模块,用于利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;
分组模块,用于以I个所述字典树为一个小组,将M个字典树分为J个小组;
生成服务模块,用于将所述J个小组聚合为一个企业主体信息识别服务;
封装模块,用于将所述企业主体信息识别服务封装为统一的远程过程调用接口;
查询模块,用于调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;
存储模块,用于存储所识别的企业主体信息及相应的查询结果。
进一步,该装置包括多个并行的字典树构建模块。
进一步,所述字典树构建模块采用ac自动机算法构建所述字典树,在利用所述ac自动机算法构建失败指针之后还包括修正模块,所述修正模块用于在同时满足以下条件时,直接把尾节点的失败指针修改为其父节点的失败指针的失败指针中的子节点:
条件1:某一尾节点的所代表的字符串和其父节点所代表的字符串相同;
条件2:该尾节点的失败指针不是根节点,且其失败指针的父节点是根节点;
条件3:该尾节点的父节点的失败指针的失败指针不是指向根节点,且其父节点的失败指针的失败指针中的子节点中具有和该尾节点所代表的字符串相同的节点。
进一步,所述修正模块,还包括:
添加单词属性模块,用于为每个节点添加是否为一个词的结尾的属性;
添加分支指针模块,用于在某一节点向其根节点回溯的过程中所产生的关键词和该根节点的某个分支的关键词完全相同,则把所述节点的branch列表中添加一个指向所述分支的尾节点的指针。
第三方面,本发明实施例提供了一种存储介质,该存储介质中存储有计算机可读的程序指令,所述程序指令被处理器执行时实现权利要求1至5中任意一项所述的方法。
本发明具有如下有益效果:
本发明实施例提供了一种从互联网中识别分析企业主体信息方法,对部署在互联网上的多个服务节点建立连接,对互联网上的多个新闻资讯站点发起并行连接,快速识别企业主体信息,实现了快速的从互联网信息中快速识别企业主体信息并进行分析的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种从互联网中识别分析企业主体信息方法流程图;
图2为利用say she shr he her构建的字典树的结构示意图;
图3为本发明实施例所提供的实施环境图;
图4为利用he herrr she err rrrtttt构建的字典树的结构示意图;
图5为在图4的基础上构造的失败指针之后的结构示意图;
图6为在图5的基础上对失败指针进行二次处理后的结构示意图;
图7为在图6的基础上为每个节点添加is_word属性之后的结构示意图;
图8为在图7的基础上为每个节点分支branch指针列表属性的结构示意图;
图9为本发明另一个实施例所提供的一种从互联网中识别分析企业主体信息装置的结构框图;
图10为本发明另一个实施例所提供的关于字典树构建模块的结构框图;
图11是本发明实施例提供的一种终端设备的结构示意图;
图12是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种从互联网中识别分析企业主体信息方法、装置及存储介质,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的属于只是为了描述具体的实施例的目的,不是旨在于限制本发明。
下面结合附图具体的说明本发明所提供的一种从互联网中识别分析企业主体信息方法、装置及存储介质的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种从互联网中识别分析企业主体信息方法流程图,为了快速的从互联网信息中快速识别企业主体信息并进行分析,本发明实施例以从互联网信息的新闻资讯识别企业主体分析过程为参考,使用核心的字典树算法对企业名称进行提前构建,构建好之后,新闻咨询在字典树中进行查找,提升查询效率,实现从新闻资讯当中精确抽取企业名称。
需要说明的是本发明实施例中所称的字典树又称为Trie树,是一种树形结构,是一种哈希树的变种。例如存储关键词为:say she shr he her 则构建的trie树如图2所示,在trie树中进行精确匹配,会提升匹配速度。
具体的,该从互联网中识别分析企业主体信息方法,包括以下步骤:
步骤S001,将N个企业主体信息划分为M个不同的区域,利用字典树算法对每个区域中的所有所述企业主体信息构建字典树,得到M个字典树。
其中,企业主体信息包括法人、股东、股权分配比例、注册资金、经营范围、经营地址和经营状况等信息。
划分后的区域中,在每个区域中包含多个企业主体信息,将每个区域中所包含的所有企业主体信息构建为一个字典树。
利用字典树算法对M个区域构建字典树,得到M个字典树。
步骤S002,将I个字典树分为一个小组,分为J个小组。
以每I个字典树为一个小组,将M个字典树分为J个小组,其中,I小于M。例如,若有60个字典树,每10个字典树分为一个小组,则分为6个小组。
步骤S003,将J个小组聚合为一个企业主体信息识别服务。
为了统一管理,将J个小组汇总为一个企业主体信息识别服务。
步骤S004,将所述企业主体信息识别服务封装为统一的远程过程调用接口。
为了像调用本地服务一样远程调用另一台服务器上的企业主体信息识别服务来完成需求,因此将所述企业主体信息识别服务封装为统一的远程过程调用接口。此处的远程过程调用接口也称为rpc接口。
步骤S005,调用远程过程调用接口,同时使用多线程对所述J个小组进行并行查询。
同时使用多线程对多个小组进行并行查询,以便提升查询的速度。
步骤S006,存储所识别的企业主体信息及相应的查询结果。
请参阅图3,其示出了本发明实施例所提供的实施环境图,其中,统一服务中心100采用微服务框架,对部署在互联网500上的多个服务节点:服务节点300~ 30N,进行建立连接,对互联网500上的多个新闻资讯站点:新闻资讯站点400~40N,发起并行链接,快速识别企业主体信息,并将最终结果存储至数据存储服务器200中。
综上所述,本发明实施例提供了一种从互联网中识别分析企业主体信息方法,对部署在互联网上的多个服务节点建立连接,对互联网上的多个新闻资讯站点发起并行连接,快速识别企业主体信息。本发明实施例将一次构建服务的时间降到1小时以内,之后稳定运行。信息识别速度基本实现秒级精确识别。将人工手动式操作改进为流式化处理,整体架构上线后则无需人工再操作识别的整个流程,从接数据,识别主体,情感分析,新闻归类,都按统一的流程进行程序化流式处理。
优选的,考虑日后数据量的增加情况,在步骤S003之后,还包括将服务做成分布式,方便多台机器单独部署并可以协同工作。
优选的,为了进一步提升该方法的效率,所述步骤S001中构建字典树时采用多线程进行并行构建。
在实际应用中,例如,对于企业主体信息超过300W,信息量大,直接构建代价太大,采用本实施例中所提供的方法,首先对数据划分为多个不同的区域,然后进行分布式存储与构建,分布式之后进行聚合,实现统一的调用。具体的,首先将300W的企业主体分成64个区域,多线程并行构建64个字典树。每10个字典树为一小组,分6个组。将6个组再聚合为一个企业主体信息识别服务,统一管理。将企业主体信息识别服务做成分布式,方便多台机器单独部署并可以协同工作。企业主体信息识别服务化,封装成统一的远程过程调用接口。调用企业主体信息识别服务时,同时使用多线程并行对6个分组查询,以提升速度。对识别的主体信息、提出的结果进行统一存储。
为了准确识别企业主体信息,避免遗漏,本发明实施例对构建字典树的方法做了部分改进:
对于传统的ac自动机算法分为三步:构建一棵字典树、构造失败指针和模式匹配过程。在对单词:he herrr she err rrrtttt的构建和匹配过程如下:
a. 根据所有违禁词构建字典树,构建的字典树如图4所示。
b. 构造失败指针,构造的失败指针如图5所示。
其中:1.根节点root的子节点的失败指针都指向根节点root。
2. 某一节点的失败指针指向:从该节点的父节点的失败指针回溯直到找到另一节点的子节点与该节点的字符相同,没有找到就指向根节点root。
c.扫描主串进行匹配。
1.当前字符匹配,表示从当前节点沿着树边有一条路径可以到达目标字符,此时只需沿该路径走向下一个节点继续匹配即可,目标字符串指针移向下个字符继续匹配。
2.当前字符不匹配,则去当前节点失败指针所指向的字符继续匹配,匹配过程随着指针指向根节点root结束。
例如,请再次参阅图5,对于herrrtttt的匹配过程如下:
对于第一个字符h:直接从root的子节点匹配到,设此子节点为1;
对于第二个字符e:直接从1的子节点中匹配到,设此子节点为2;
对于第三个字符r:直接从2的子节点匹配到,设此子节点为3;
对于第四个字符r:直接从3的子节点匹配到, 设此子节点为4;
对于第五个字符r:直接从4的子节点匹配到,设此子节点为5,且此节点是尾节点,所以匹配到词herrr;
对于第六个字符t:无法从5的子节点中匹配到,进入其失败指针节点6,节点6的子节点中没有匹配到,此处失配。回归到root;
对于第七个字符t:无法从root的子节点中匹配到,此处失配,回归到root;
对于第八个字符t:无法从root的子节点中匹配到,此处失配,回归到root;
对于第九个字符t:无法从root的子节点中匹配到,此处失配,回归到root;
搜索结束,匹配到词herrr。但是无法匹配到的单词还包括rrrtttt、errr以及he。
请参阅6~8,本发明实施例对字典树的ac自动机算法中的构造失败指针的过程进行改进,改进步骤包括:
a. 对失败指针的二次处理。
在同时满足以下条件时,直接把尾节点的失败指针修改为其父节点的失败指针的失败指针中的子节点:
条件1:某一尾节点的所代表的字符串和其父节点所代表的字符串相同;
条件2:该尾节点的失败指针不是根节点root,且其失败指针的父节点是根节点root;
条件3:该尾节点的父节点的失败指针的失败指针不是指向根节点root,且其父节点的失败指针的失败指针中的子节点中具有和该尾节点所代表的字符串相同的节点。
在图4的基础上,对失败指针二次处理后,得到的结果,如图6所示。
b. 为每个节点添加是否为一个词的结尾的属性,以便标示这个节点是不是一个词的结尾,如图7所示。
c. 为每个节点分支branch指针列表属性。如果某一节点向其根节点root回溯的过程中所产生的关键词和该根节点的某个分支的关键词完全相同,那么把该节点的branch列表中添加一个指向该分支的尾节点的指针,如图8所示。
根据改进后的ac自动机算法,对于herrrtttt的匹配过程如下:
对于第一个字符h:直接从root的子节点匹配到,设此子节点为1,此节点的branch指针列表为空,不做任何处理;
对于第二个字符e:直接从1的子节点中匹配到,设此子节点为2,此节点是一个词尾,故匹配到此he,此节点的branch指针列表为空,不做任何处理;
对于第三个字符r:直接从2的子节点匹配到,设此子节点为3,此节点的branch指针列表为空,不做任何处理;
对于第四个字符r:直接从3的子节点匹配到,设此子节点为4,此节点的branch指针列表不为空,取出所有branch指针代表的关键词,故匹配到err;
对于第五个字符r:直接从4的子节点匹配到,设此子节点为5,且此节点是一个词尾,所以匹配到词herrr,此节点的branch指针列表为空,不做任何处理;
对于第六个字符t:无法从5的子节点中匹配到,进入其失败指针,节点6,但节点6的子节点中匹配到t,此处匹配,设这个子节点为7,此节点的branch指针列表为空,不做任何处理;
对于第七个字符t:直接从7的子节点中匹配到,设此节点为8,此节点的branch指针列表为空,不做任何处理;
对于第八个字符t:直接从7的子节点中匹配到,设此节点为9,此节点的branch指针列表为空,不做任何处理;
对于第九个字符t:直接从7的子节点中匹配到,设此节点为10,且此节点是一个词尾,所以匹配到词rrrtttt,此节点的branch指针列表为空,不做任何处理;
搜索结束,匹配到词he herrr err rrrtttt。
本发明实施例通过对失败指针进行二次处理之后,能够准确的检测到相应的词,避免了漏检的情况出现。
基于与上述方法实施例相同的发明构思,本发明实施例还提供了从互联网中识别分析企业主体信息装置实施例。
请参阅图9和图10,其示出了本发明一个实施例提供的一种从互联网中识别分析企业主体信息装置的结构框图,该装置包括区域划分模块901、字典树构建模块902、分组模块903、生成服务模块904、封装模块905、查询模块906和存储模块907。
区域划分模块901用于将N个企业主体信息划分为M个不同的区域;字典树构建模块902用于利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;分组模块903用于以I个所述字典树为一个小组,将M个字典树分为J个小组;生成服务模块904用于将所述J个小组聚合为一个企业主体信息识别服务;封装模块905用于将所述企业主体信息识别服务封装为统一的远程过程调用接口;查询模块906用于调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;存储模块907用于存储所识别的企业主体信息及相应的查询结果。
优选的,该装置包括多个并行的字典树构建模块。
优选的,所述字典树构建模块902采用ac自动机算法构建所述字典树,在利用所述ac自动机算法构建失败指针之后还包括修正模块9021,所述修正模块用于在同时满足以下条件时,直接把尾节点的失败指针修改为其父节点的失败指针的失败指针中的子节点:
条件1:某一尾节点的所代表的字符串和其父节点所代表的字符串相同;
条件2:该尾节点的失败指针不是根节点,且其失败指针的父节点是根节点;
条件3:该尾节点的父节点的失败指针的失败指针不是指向根节点,且其父节点的失败指针的失败指针中的子节点中具有和该尾节点所代表的字符串相同的节点。
优选的,所述修正模块9021,还包括添加单词属性模块90211和添加分支指针模块90212。其中,添加单词属性模块90211用于为每个节点添加是否为一个词的结尾的属性;添加分支指针模块90212用于在某一节点向其根节点回溯的过程中所产生的关键词和该根节点的某个分支的关键词完全相同,则把所述节点的branch列表中添加一个指向所述分支的尾节点的指针。
本发明实施例提供了一种电子设备,该电子设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的一种从互联网中识别分析企业主体信息方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
所述电子设备可以为终端设备1100,请参阅图11,其所示为本发明实施例提供的一种终端设备的结构示意图,该终端设备用于实施上述实施例中提供的一种从互联网中识别分析企业主体信息方法。具体来讲:
终端设备1100可以包括RF(RadioFrequency,射频)电路1150、包括有一个或一个以上计算机可读存储介质的存储器1120、输入单元1130、显示单元1140、WiFi(wirelessfidelity,无线保真)模块1160、包括有一个或者一个以上处理核心的处理器1110、以及电源110等部件。本领域技术人员可以理解,图11中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路1150可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器处理;另外,将涉及上行的数据发送给基站。通常,RF电路1150包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(LowNoiseAmplifier,低噪声放大器)、双工器等。此外,RF电路1150还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统) 、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wide band Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。
存储器1120可用于存储软件程序以及模块,处理器1110通过运行存储在存储器1120的软件程序以及模块,从而执行各种功能应用以及数据处理。在存储器1120中存储有一个或者一个以上程序,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法实施例提供的一种从互联网中识别分析企业主体信息方法的指令。
输入单元1130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元1130可包括图像输入设备1131以及其他输入设备1132。图像输入设备1131可以是摄像头,也可以是光电扫描设备。除了图像输入设备1131,输入单元还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1140可包括显示面板1141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板。
WiFi属于短距离无线传输技术,终端设备1100通过WiFi模块1160可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1160,但是可以理解的是,其并不属于终端设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1110是终端设备1100的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行终端设备1100的各种功能和处理数据,从而对终端设备1100进行整体监控。可选的,处理器1110可包括一个或多个处理核心;优选的,处理器1110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
终端设备1100还包括给各个部件供电的电源 (比如电池)110,优选的,电源110可以通过电源管理系统与处理器逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端设备1100还可以包括蓝牙模块等,在此不再赘述。
所述电子设备可以为服务器1200,本发明实施例还提供了一种服务器的结构示意图,请参阅图12服务器用于实施上述实施例中提供的一种从互联网中识别分析企业主体信息方法。该服务器或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1210和存储器1240,一个或一个以上存储应用程序1233或数据1232的存储介质1230。其中,存储器1240和存储介质1230可以是短暂存储或持久存储。存储在存储介质的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1210可以设置为与存储介质1230通信,在服务器1200上执行存储介质1230中的一系列指令操作。服务器1200还可以包括一个或一个以上电源1220,一个或一个以上有线或无线网络接口1250,一个或一个以上输入输出接口1260,和/或,一个或一个以上操作系统1231,例如Windows ServerTM、Mac OS XTM、UnixTM 、LinuxTM、FreeBSDTM等等。
本发明的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种从互联网中识别分析企业主体信息方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的一种从互联网中识别分析企业主体信息方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种从互联网中识别分析企业主体信息方法,其特征在于,该方法包括以下步骤:
将N个企业主体信息划分为M个不同的区域,利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;
以I个所述字典树为一个小组,将M个字典树分为J个小组;
将所述J个小组聚合为一个企业主体信息识别服务;
将所述企业主体信息识别服务封装为统一的远程过程调用接口;
调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;
存储所识别的企业主体信息及相应的查询结果;
所述字典树算法采用ac自动机算法,所述ac自动机算法中在构建失败指针之后,还包括以下步骤:
对失败指针的二次处理:在同时满足以下条件时,直接把尾节点的失败指针修改为其父节点的失败指针的失败指针所指向节点的子节点:
条件1:某一尾节点的所代表的字符串和其父节点所代表的字符串相同;
条件2:该尾节点的失败指针不是根节点,且其失败指针的父节点是根节点;
条件3:该尾节点的父节点的失败指针的失败指针不是指向根节点,且其父节点的失败指针的失败指针所指向节点的子节点中具有和该尾节点所代表的字符串相同的节点。
2.根据权利要求1所述的一种从互联网中识别分析企业主体信息方法,其特征在于,所述构建字典树时,采用多线程进行并行构建。
3.根据权利要求2所述的一种从互联网中识别分析企业主体信息方法,其特征在于,所述把尾节点的失败指针修改为其父节点的失败指针的失败指针所指向节点的子节点之后,还包括:为每个节点添加是否为一个词的结尾的属性。
4.根据权利要求3所述的一种从互联网中识别分析企业主体信息方法,其特征在于,在所述为每个节点添加是否为一个词的结尾的属性之后,还包括:
若某一节点向其根节点回溯的过程中所产生的关键词和该根节点的某个分支的关键词完全相同,则把所述节点的branch列表中添加一个指向所述分支的尾节点的指针。
5.一种从互联网中识别分析企业主体信息装置,其特征在于,该装置包括:
区域划分模块,用于将N个企业主体信息划分为M个不同的区域;
字典树构建模块,用于利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;所述字典树构建模块采用ac自动机算法构建所述字典树,在利用所述ac自动机算法构建失败指针之后还包括修正模块,所述修正模块用于在同时满足以下条件时,直接把尾节点的失败指针修改为其父节点的失败指针的失败指针的所指向节点子节点:
条件1:某一尾节点的所代表的字符串和其父节点所代表的字符串相同;
条件2:该尾节点的失败指针不是根节点,且其失败指针的父节点是根节点;
条件3:该尾节点的父节点的失败指针的失败指针不是指向根节点,且其父节点的失败指针的失败指针所指向节点的子节点中具有和该尾节点所代表的字符串相同的节点;
分组模块,用于以I个所述字典树为一个小组,将M个字典树分为J个小组;
生成服务模块,用于将所述J个小组聚合为一个企业主体信息识别服务;
封装模块,用于将所述企业主体信息识别服务封装为统一的远程过程调用接口;
查询模块,用于调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;
存储模块,用于存储所识别的企业主体信息及相应的查询结果。
6.根据权利要求5所述的一种从互联网中识别分析企业主体信息装置,其特征在于,该装置包括多个并行的字典树构建模块。
7.根据权利要求6所述的一种从互联网中识别分析企业主体信息装置,其特征在于,所述修正模块,还包括:
添加单词属性模块,用于为每个节点添加是否为一个词的结尾的属性;
添加分支指针模块,用于在某一节点向其根节点回溯的过程中所产生的关键词和该根节点的某个分支的关键词完全相同,则把所述节点的branch列表中添加一个指向所述分支的尾节点的指针。
8.一种存储介质,该存储介质中存储有计算机可读的程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至4中任意一项所述的方法。
CN201911391120.8A 2019-12-30 2019-12-30 从互联网中识别分析企业主体信息方法、装置及存储介质 Active CN111191103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911391120.8A CN111191103B (zh) 2019-12-30 2019-12-30 从互联网中识别分析企业主体信息方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911391120.8A CN111191103B (zh) 2019-12-30 2019-12-30 从互联网中识别分析企业主体信息方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111191103A CN111191103A (zh) 2020-05-22
CN111191103B true CN111191103B (zh) 2021-08-24

Family

ID=70709480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911391120.8A Active CN111191103B (zh) 2019-12-30 2019-12-30 从互联网中识别分析企业主体信息方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111191103B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423578B (zh) * 2022-09-01 2023-12-05 广东博成网络科技有限公司 基于微服务容器化云平台的招投标方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252507A (zh) * 2013-06-28 2014-12-31 北京华傲达数据技术有限公司 一种企业数据匹配方法和装置
CN107015868A (zh) * 2017-04-11 2017-08-04 南京大学 一种通用后缀树的分布式并行构建方法
CN107257390A (zh) * 2017-05-27 2017-10-17 北京思特奇信息技术股份有限公司 一种url地址的解析方法和系统
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN108710671A (zh) * 2018-05-16 2018-10-26 北京金堤科技有限公司 文本中公司名称的提取方法及装置
CN109524068A (zh) * 2018-10-16 2019-03-26 东华大学 一种基于ac自动机的疾病症状提取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779174B (zh) * 2012-06-26 2016-03-30 北京奇虎科技有限公司 一种舆情信息展示系统及方法
CN105260354B (zh) * 2015-08-20 2018-08-21 及时标讯网络信息技术(北京)有限公司 一种基于关键词字典树构造的中文ac自动机工作方法
US10282369B2 (en) * 2017-03-08 2019-05-07 Centri Technology, Inc. Fast indexing and searching of encoded documents

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252507A (zh) * 2013-06-28 2014-12-31 北京华傲达数据技术有限公司 一种企业数据匹配方法和装置
CN107015868A (zh) * 2017-04-11 2017-08-04 南京大学 一种通用后缀树的分布式并行构建方法
CN107257390A (zh) * 2017-05-27 2017-10-17 北京思特奇信息技术股份有限公司 一种url地址的解析方法和系统
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN108710671A (zh) * 2018-05-16 2018-10-26 北京金堤科技有限公司 文本中公司名称的提取方法及装置
CN109524068A (zh) * 2018-10-16 2019-03-26 东华大学 一种基于ac自动机的疾病症状提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Aho-Corasick 多模式匹配算法、AC自动机详解";旭东;《https://www.cnblogs.com/xudong-bupt/p/3433506.html》;20131120;第1-6页 *

Also Published As

Publication number Publication date
CN111191103A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
US20180365254A1 (en) Method and apparatus for processing information flow data
US7996000B1 (en) Managing page sizes for a mobile device using estimation of content customizer techniques
CN113839977B (zh) 消息推送方法、装置、计算机设备及存储介质
CN109582289B (zh) 规则引擎中规则流的处理方法、系统、存储介质和处理器
WO2014206289A1 (en) Method and apparatus for outputting log information
US9361277B2 (en) Method and apparatus for implementing microblog message pages
US20160241659A1 (en) Workflow-based push notifications
CN104025520B (zh) 查找表的创建方法、查询方法、控制器、转发设备和系统
RU2605041C2 (ru) Способы и системы для отображения тем микроблогов
CN113568938B (zh) 数据流处理方法、装置、电子设备及存储介质
US20170068579A1 (en) Techniques to share application data through a messaging system
CN112732663A (zh) 一种日志信息处理方法及装置
CN111191103B (zh) 从互联网中识别分析企业主体信息方法、装置及存储介质
CN104750718A (zh) 一种数据信息的搜索方法和设备
CN114817389A (zh) 数据处理方法、装置、存储介质及电子设备
CN115827280A (zh) 消息处理方法、装置、电子设备及存储介质
CN111400060B (zh) 设备联动方法、装置、服务器和介质
US20140108420A1 (en) Index creation method and system
CN112187700A (zh) 一种waf安全规则匹配方法、设备及存储介质
CN115982285B (zh) 数据处理方法、设备及计算机可读存储介质
CN115563183B (zh) 查询方法、装置及程序产品
CN111966641B (zh) 一种通用的日志范化模型配置方法和装置
CN114817315A (zh) 数据处理方法以及系统
CN114675873A (zh) 一种状态机配置方法、装置及电子设备
CN117786199A (zh) 日志查询方法、装置、电子装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211105

Address after: Residential building 2011, block C, Huating Jiayuan, dijunfeng, Jianxiang 3, Huayan Beili, North Fourth Ring Middle Road, Chaoyang District, Beijing

Patentee after: Beijing TOPLINK Information Engineering Co.,Ltd.

Patentee after: HEFEI TOPNET SYSTEM ENGINEERING CO.,LTD.

Address before: 450000 floor 3, building 7, Henan new technology market, No. 199, Yangjin Road, Jinshui District, Zhengzhou City, Henan Province

Patentee before: Henan Tupu computer network engineering Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220125

Address after: Residential building 2011, block C, Huating Jiayuan, dijunfeng, Jianxiang 3, Huayan Beili, North Fourth Ring Middle Road, Chaoyang District, Beijing

Patentee after: Beijing TOPLINK Information Engineering Co.,Ltd.

Patentee after: Henan Tupu computer network engineering Co.,Ltd.

Patentee after: HEFEI TOPNET SYSTEM ENGINEERING CO.,LTD.

Address before: Residential building 2011, block C, Huating Jiayuan, dijunfeng, Jianxiang 3, Huayan Beili, North Fourth Ring Middle Road, Chaoyang District, Beijing

Patentee before: Beijing TOPLINK Information Engineering Co.,Ltd.

Patentee before: Hefei Tuopu Network System Engineering Co., Ltd

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: Residential building 2011, block C, Huating Jiayuan, dijunfeng, Jianxiang 3, Huayan Beili, North Fourth Ring Middle Road, Chaoyang District, Beijing

Patentee after: Beijing Tuopu Fenglian Information Technology Co.,Ltd.

Patentee after: Henan Tupu computer network engineering Co.,Ltd.

Patentee after: HEFEI TOPNET SYSTEM ENGINEERING CO.,LTD.

Address before: Residential building 2011, block C, Huating Jiayuan, dijunfeng, Jianxiang 3, Huayan Beili, North Fourth Ring Middle Road, Chaoyang District, Beijing

Patentee before: Beijing TOPLINK Information Engineering Co.,Ltd.

Patentee before: Henan Tupu computer network engineering Co.,Ltd.

Patentee before: HEFEI TOPNET SYSTEM ENGINEERING CO.,LTD.

CP01 Change in the name or title of a patent holder