CN116467403A - 企业身份信息数据融合方法及装置 - Google Patents
企业身份信息数据融合方法及装置 Download PDFInfo
- Publication number
- CN116467403A CN116467403A CN202310656992.2A CN202310656992A CN116467403A CN 116467403 A CN116467403 A CN 116467403A CN 202310656992 A CN202310656992 A CN 202310656992A CN 116467403 A CN116467403 A CN 116467403A
- Authority
- CN
- China
- Prior art keywords
- data
- fusion
- text
- data set
- information analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims description 17
- 230000004927 fusion Effects 0.000 claims abstract description 141
- 238000004458 analytical method Methods 0.000 claims abstract description 136
- 238000000605 extraction Methods 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 150
- 230000001360 synchronised effect Effects 0.000 claims description 52
- 210000001503 joint Anatomy 0.000 claims description 40
- 108091026890 Coding region Proteins 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000007405 data analysis Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 13
- 230000001502 supplementing effect Effects 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 238000013523 data management Methods 0.000 abstract description 9
- 230000006872 improvement Effects 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000015654 memory Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 6
- 238000012821 model calculation Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Biology (AREA)
- Finance (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种企业身份信息数据融合方法及装置,用以解决数据治理能力差的技术问题。其中,一种数据融合方案,包括:采集企业对象的身份信息数据,并构成原始数据集合;对若干身份信息数据进行预处理,更新为整合数据集合;根据预设识别策略,确定整合数据集合中的唯一标识属性,作为融合键;建立整合数据集合中任意元素与融合键的关联关系,更新为融合数据集合;分别输入至命名实体识别模型、事件抽取模型、文本相似度计算模型、关键词提取模型,得到第一、第二、第三、第四信息分析数据,并以预设存储格式策略存储,作为企业对象在当前周期内的身份信息数据。这样将来自不同数据库的数据规范化,统一治理,提高了企业合规改进效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种企业身份信息数据融合方法及装置。
背景技术
近年来,围绕最新政策,主导开展了涉案企业合规改进。涉案企业合规可以理解为对于涉嫌单位犯罪的企业,在其认罪认罚并自愿制定和实施合规整改计划的条件下,可作出不批准逮捕、变更强制措施、不起诉,或者从宽处罚的量刑简易的一项制度。
为了筛选哪些企业使用企业合规政策办理,监督企业合规切实整改,跟踪合规企业运行质效,需要从不同监管部门获取企业相关数据。
在实现现有技术的过程中,发明人发现:
企业合规案件办理的核心点就是获取数据并进行治理,但是由于不同部门的数据质量参差不齐,缺乏统一的规范和治理体系,难以获取并进行数据分析。因此,需要提供一种企业身份信息数据融合方法及装置,用以解决数据治理能力差的技术问题。
发明内容
本申请实施例提供一种企业身份信息数据融合方法及装置,用以解决数据治理能力差的技术问题。
具体的,一种企业身份信息数据融合方法,应用于筛选涉案企业中的合规企业,包括以下步骤:
从若干区块数据库中,以接口对接、数据库对接、文件包对接、消息队列对接的采集方式,采集包含增量同步数据和全量同步数据的同步数据,作为企业对象的身份信息数据;
将企业对象的若干身份信息数据构成原始数据集合;
对所述原始数据集合中的若干身份信息数据进行预处理,包括填充空值字段、补充必要字段、删除重复字段,更新原始数据集合为整合数据集合;
根据预设识别策略,确定整合数据集合中的唯一标识属性,作为对应企业对象的融合键;
建立整合数据集合中任意元素与融合键的关联关系,更新整合数据集合为融合数据集合;
输入融合数据集合至命名实体识别模型,得到第一信息分析数据;
输入融合数据集合至事件抽取模型,得到第二信息分析数据;
输入融合数据集合至文本相似度计算模型,得到第三信息分析数据;
输入融合数据集合至关键词提取模型,得到第四信息分析数据;
以预设结构化存储格式策略,存储第一信息分析数据、第二信息分析数据、第三信息分析数据、第四信息分析数据,作为企业对象在当前周期内的身份信息数据;
进一步的,所述输入融合数据集合至命名实体识别模型,得到第一信息分析数据,具体步骤包括:
确定融合数据集合中的文本单元;
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;
通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;
通过Word2Vec模型,将所述若干词语单元转变为若干词向量;
通过BILSTM-CRF模型,对所述若干词向量进行序列标定,确定所述文本单元中的命名实体、命名实体位置、命名实体类型,作为第一信息分析数据;
进一步的,所述输入融合数据集合至事件抽取模型,得到第二信息分析数据,具体步骤包括:
确定融合数据集合中的文本单元;
基于预设位置编码、预设向量编码、预设句子分类编码,对所述文本单元进行转码,得到对应所述文本单元的嵌入向量;
输入所述嵌入向量至预训练的BERT模型,得到对应所述嵌入向量的编码序列;
采用与预训练的BERT模型连接的二分类器,基于所述编码序列,预测主实体;
根据主实体,从编码序列中,抽取主实体首部、尾部对应的编码向量;
基于主实体首部、尾部对应的编码向量,预测主实体对应的客实体、主实体客实体之间的关系;
提取主实体、主实体对应的客实体、主实体客实体之间的关系,组成三元组;
将若干三元组,作为第二信息分析数据;
进一步的,所述输入融合数据集合至文本相似度计算模型,得到第三信息分析数据,具体步骤包括:
确定融合数据集合中的第一句子单元、第二句子单元;
基于预设位置编码、预设向量编码、预设句子分类编码,对所述第一句子单元进行转码,得到对应所述第一句子单元的第一嵌入向量;
对所述第二句子单元进行转码,得到对应所述第二句子单元的第二嵌入向量;
输入所述第一嵌入向量、所述第二嵌入向量至预训练的ALBERT模型,得到对应第一嵌入向量的第一文本向量、对应第二嵌入向量的第二文本向量;
输入第一文本向量、第二文本向量至全连接层进行运算,得到预测相似值;
当预测相似值大于预设阈值,确定第一文本、第二文本为相似信息,作为第三信息分析数据;
进一步的,所述输入融合数据集合至关键词提取模型,得到第四信息分析数据,具体步骤包括:
确定融合数据集合中的文本单元;
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;
通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;
确定指定词性的若干词语单元,作为候选关键词;
将候选关键词作为节点,构建节点集合;
当候选关键词对应的词语单元在长度为K的窗口中共现时,将节点之间的关系作为边,构建边集合;
根据节点集合、边集合,构建有向有权图;
定义节点的得分函数:
;
其中,节点Vi、Vj之间边的权重为Wji;In(Vi)为指向节点Vi的点集合;
Out(Vi)为节点Vj指向的点集合;
输入预设初值,迭代计算节点的权重值,直至任意节点的误差率小于预设极限值;
通过TextRank算法,对节点的权重值进行倒序排序;
获取前T个节点,并在候选关键词集合中,标记节点对应的词语单元;
将标记后的词语单元进行组合,得到词组关键词,作为第四信息分析数据。
进一步的,所述采集包含增量同步数据和全量同步数据的同步数据由数据源数量级、变更频率、变更类型、系统架构、数据库表设计确定。
进一步的,所述企业对象在当前周期内的身份信息数据存储于Greenplum数据库。
进一步的,所述Greenplum数据库支持全文检索;
当检索企业对象在当前周期内的身份信息数据时,使用Elasticsearch数据分析引擎存储检索数据。
进一步的,所述方法还包括:
采用关系型数据库,存储所述企业对象在当前周期内的身份信息数据对应的应用支撑数据。
本申请实施例还提供一种企业身份信息数据融合装置。
具体的,一种企业身份信息数据融合装置,应用于筛选涉案企业中的合规企业,包括以下模块:
采集模块,用于从若干区块数据库中,以接口对接、数据库对接、文件包对接、消息队列对接的采集方式,采集包含增量同步数据和全量同步数据的同步数据,作为企业对象的身份信息数据;还用于将企业对象的若干身份信息数据构成原始数据集合;
融合模块,用于对所述原始数据集合中的若干身份信息数据进行预处理,包括填充空值字段、补充必要字段、删除重复字段,更新原始数据集合为整合数据集合;还用于根据预设识别策略,确定整合数据集合中的唯一标识属性,作为对应企业对象的融合键;还用于建立整合数据集合中任意元素与融合键的关联关系,更新整合数据集合为融合数据集合;
分析模块,用于输入融合数据集合至命名实体识别模型,得到第一信息分析数据;还用于输入融合数据集合至事件抽取模型,得到第二信息分析数据;还用于输入融合数据集合至文本相似度计算模型,得到第三信息分析数据;还用于输入融合数据集合至关键词提取模型,得到第四信息分析数据;
存储模块,用于以预设结构化存储格式策略,存储第一信息分析数据、第二信息分析数据、第三信息分析数据、第四信息分析数据,作为企业对象在当前周期内的身份信息数据;
进一步的,所述分析模块,用于输入融合数据集合至命名实体识别模型,得到第一信息分析数据,具体用于:
确定融合数据集合中的文本单元;
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;
通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;
通过Word2Vec模型,将所述若干词语单元转变为若干词向量;
通过BILSTM-CRF模型,对所述若干词向量进行序列标定,确定所述文本单元中的命名实体、命名实体位置、命名实体类型,作为第一信息分析数据;
进一步的,所述分析模块,还用于输入融合数据集合至事件抽取模型,得到第二信息分析数据,具体用于:
确定融合数据集合中的文本单元;
基于预设位置编码、预设向量编码、预设句子分类编码,对所述文本单元进行转码,得到对应所述文本单元的嵌入向量;
输入所述嵌入向量至预训练的BERT模型,得到对应所述嵌入向量的编码序列;
采用与预训练的BERT模型连接的二分类器,基于所述编码序列,预测主实体;
根据主实体,从编码序列中,抽取主实体首部、尾部对应的编码向量;
基于主实体首部、尾部对应的编码向量,预测主实体对应的客实体、主实体客实体之间的关系;
提取主实体、主实体对应的客实体、主实体客实体之间的关系,组成三元组;
将若干三元组,作为第二信息分析数据;
进一步的,所述分析模块,还用于输入融合数据集合至文本相似度计算模型,得到第三信息分析数据,具体用于:
确定融合数据集合中的第一句子单元、第二句子单元;
基于预设位置编码、预设向量编码、预设句子分类编码,对所述第一句子单元进行转码,得到对应所述第一句子单元的第一嵌入向量;
对所述第二句子单元进行转码,得到对应所述第二句子单元的第二嵌入向量;
输入所述第一嵌入向量、所述第二嵌入向量至预训练的ALBERT模型,得到对应第一嵌入向量的第一文本向量、对应第二嵌入向量的第二文本向量;
输入第一文本向量、第二文本向量至全连接层进行运算,得到预测相似值;
当预测相似值大于预设阈值,确定第一文本、第二文本为相似信息,作为第三信息分析数据;
进一步的,所述分析模块,还用于输入融合数据集合至关键词提取模型,得到第四信息分析数据,具体用于:
确定融合数据集合中的文本单元;
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;
通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;
确定指定词性的若干词语单元,作为候选关键词;
将候选关键词作为节点,构建节点集合;
当候选关键词对应的词语单元在长度为K的窗口中共现时,将节点之间的关系作为边,构建边集合;
根据节点集合、边集合,构建有向有权图;
定义节点的得分函数:
;
其中,节点Vi、Vj之间边的权重为Wji;In(Vi)为指向节点Vi的点集合;
Out(Vi)为节点Vj指向的点集合;
输入预设初值,迭代计算节点的权重值,直至任意节点的误差率小于预设极限值;
通过TextRank算法,对节点的权重值进行倒序排序;
获取前T个节点,并在候选关键词集合中,标记节点对应的词语单元;
将标记后的词语单元进行组合,得到词组关键词,作为第四信息分析数据。
进一步的,所述采集模块,采集包含增量同步数据和全量同步数据的同步数据由数据源数量级、变更频率、变更类型、系统架构、数据库表设计确定。
进一步的,所述企业对象在当前周期内的身份信息数据存储于Greenplum数据库。
进一步的,所述Greenplum数据库支持全文检索;
当检索企业对象在当前周期内的身份信息数据时,使用Elasticsearch数据分析引擎存储检索数据。
进一步的,所述存储模块,还用于采用关系型数据库,存储所述企业对象在当前周期内的身份信息数据对应的应用支撑数据。
本申请实施例提供的技术方案,至少具有如下有益效果:
通过接口对接、数据库对接、文件包对接、消息队列对接的采集方式,采集增量同步数据和全量同步数据,接口化抽取数据使得数据采集更完善。对所述原始数据集合中的若干身份信息数据进行数据关联和预处理,将来自不同数据库的数据规范化,统一治理,提高了企业合规改进效率,构建企业数据资产,提高了数据治理、数据挖掘、数据分析的敏捷性、高效性。分别输入至命名实体识别模型、事件抽取模型、文本相似度计算模型、关键词提取模型,得到第一、第二、第三、第四信息分析数据,并以预设存储格式策略存储,在采集到完整数据的情况下,对数据进行分析应用,大幅度提升数据处理能力。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种企业身份信息数据融合方法的流程框图;
图2为本申请实施例提供的一种企业身份信息数据融合装置的结构示意图。
图中附图标记表示为:
100-企业身份信息数据融合装置
11-采集模块
12-融合模块
13-分析模块
14-存储模块。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,为本申请提供的一种企业身份信息数据融合方法,应用于筛选涉案企业中的合规企业,包括以下步骤:
S1001:从若干区块数据库中,以接口对接、数据库对接、文件包对接、消息队列对接的采集方式,采集包含增量同步数据和全量同步数据的同步数据,作为企业对象的身份信息数据。
可以理解的是,若干区块数据库包括但不限于:企业合规办案协同平台数据库、现行公诉量刑辅助系统数据库、行政机关与刑事机关衔接信息共享平台数据库、公安机关业务系统数据库、政法业务协同办案平台数据库、大数据中心数据库。
可以理解的是,数据同步一般分为两种方式:全量和增量。所述全量同步数据可以理解为定时或者周期性把数据从一个地方拷贝到另外一个地方。换句话说,全量数据同步可以用新数据全部覆盖旧数据。所述采集增量同步数据可以理解为采集某个时刻或者检查点后的数据,来实现同步,即不是无规律地采集全量同步数据。换句话说,所述采集增量同步数据的前提是先采集全量同步数据。简言之,在具体数据库数据采集场景中,需要先采集全量同步数据,并拷贝下来。接着,采用增量同步的方式,更新数据。值得注意的是,采用增量数据同步需要引入一个关键性的前提:记录已更新的内容,即需要确定更新点。所述更新点可以采用时间戳、checkpoint等来标识和记录。
增量同步时,需明确标识新增数据、修改数据、删除数据。最后将采集到包含增量同步数据和全量同步数据的同步数据,作为企业对象的身份信息数据。可以理解的是,企业对象的身份信息数据包括但不限于:企业注册信息、企业纳税信息、企业员工规模信息、企业科技创新信息、涉嫌犯罪移送公安机关信息、企业合规办理信息、企业合规办理过程材料等。
在数据采集过程中,若只采集全量同步数据,需要删除历史数据,以免造成资源浪费。但是这会产生一个新的问题,当某时刻的数据发生错误时,不能回溯到某时刻的数据。因此,本申请提出的企业身份信息数据融合方法中,采用增量同步、全量同步的方式,采集包含增量同步数据和全量同步数据的同步数据,减小了数据获取难度,在保证采集到全面的有关企业对象的身份信息数据时,还可以根据更新点回溯历史数据,避免误删重要数据。
进一步的,所述若干区块数据库的推送方式包括数据源主动推送、数据主动查询。在推送方式下,将外部的若干区块数据库中数据采集至内部的数据库。
进一步的,在本申请提供的一种优选实施方式中,所述采集包含增量同步数据和全量同步数据的同步数据由数据源数量级、变更频率、变更类型、系统架构、数据库表设计确定。
可以理解的是,面对数据库中众多数据,具体的数据采集需要提前设计,才可以在采集高质量的数据的同时,减小数据获取的难度,提高后续数据分析、数据融合的效率。
S1002:将企业对象的若干身份信息数据构成原始数据集合。
可以理解的是,从若干区块数据库中,采集到企业对象的身份信息数据后需要将若干企业对象的身份信息数据进行存储,构成原始数据集合。值得注意的是,原始数据集合中是完整的,未经过处理的数据。
S1003:对所述原始数据集合中的若干身份信息数据进行预处理,包括填充空值字段、补充必要字段、删除重复字段,更新原始数据集合为整合数据集合。
可以理解的是,由于不同区块数据库中的数据格式参差不齐,且缺乏统一的规范、治理体系,使得原始数据集合中的数据难以利用。因此,为了提高数据利用率,需要对原始数据集合中的企业对象的身份信息数据预处理。
在具体对原始数据集合中的若干身份信息数据进行预处理的过程中,需要填充空值字段、补充必要字段、删除重复字段。所述数据预处理的目的是数据预处理的目的包括但不限于去除无效数据、不规范数据、错误数据、补齐缺失值、对数据范围、量纲、格式、类型进行规范化处理,以利于后续融合。对于半结构化数据,采用正则表达式对半结构化数据进行筛选,得到有效数据。对于非结构化数据,进行数据清洗、去除多余标点符号、停用词等,得到有效数据。最后将原始数据集合为整合数据集合。例如,从非结构化数据中通过智能语义识别技术提取结构化数据。若企业合规办理信息中没有社会信用统一代码,则依据企业名称查询出维护在企业合规办理信息中,并补充社会信用统一代码,以便于后续数据融合。值得注意的是,整合数据集合中的数据元素只是进行了标准化处理,并未建立数据元素之间的联系,以便融合。因此,需要对整合数据集合中的数据再次进行处理。
S1004:根据预设识别策略,确定整合数据集合中的唯一标识属性,作为对应企业对象的融合键。
S1005:建立整合数据集合中任意元素与融合键的关联关系,更新整合数据集合为融合数据集合。
可以理解的是,整合数据集合中的数据元素来自若干区块数据库。因此,在进行信息数据进行融合的情况下,所需存储的数据量庞大。并且在对融合后的数据进行组织、检索的时,对于数据库的读写性能有着较高的要求。来自多个数据库的而目标对象的属性值并不涉及过多的数据关系,为存储目标对象记录在不同数据库中的属性值,还需要构建融合数据库。因此,需要建立整合数据集合中任意元素与融合键的关联关系,以更新整合数据集合为融合数据集合。具体的,本申请所提供的企业身份信息数据融合方法中,根据预设识别策略,确定整合数据集合中的唯一标识属性,作为对应企业对象的融合键。
在本申请的一种具体融合企业字段实施例中,所述唯一标识属性可以理解为社会信用统一代码。所述企业对象的融合键可以理解为各业务实体的唯一标识,即社会信用统一代码。依据社会信用统一代码,将数据库中所有涉及企业的数据尽可能维护在企业的宽表中,避免后续使用时联表,提升性能。
可以理解的是,当更新整合数据集合为融合数据集合后,需要对融合数据集合进行数据分析,以辅助上层监督模型的应用。具体的,在整体数据分析的过程中,考虑数据情况比较复杂,并且在模型中需要的数据不是直接就能以结构化形式体现,需要一些智能化的提取和识别分析。因此,整个模型中用到了多个智能化方法做数据提取,以完善数据管理框架和数据治理。
S1006:输入融合数据集合至命名实体识别模型,得到第一信息分析数据。
可以理解的是,所述命名实体识别模型的任务是识别出待处理的文本。更详细地说,所述识别任务包括识别出包括但不限于实体类、时间类、数字类的命名实体。具体的,所述命名实体包括但不限于企业名、人名、地名、日期。
进一步的,所述输入融合数据集合至命名实体识别模型,得到第一信息分析数据,具体步骤包括:
确定融合数据集合中的文本单元;
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;
通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;
通过Word2Vec模型,将所述若干词语单元转变为若干词向量;
通过BILSTM-CRF模型,对所述若干词向量进行序列标定,确定所述文本单元中的命名实体、命名实体位置、命名实体类型,作为第一信息分析数据。
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元。在具体分句实施例中,获取企业一段文本,例如“张三在北京上班。张三所在的公司有广州分部”。到文本单元后,对文本单元进行分割,得到单个句子单元。
通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元。可以理解的是,所述Jieba分词库支持三种分词模式:精确模式、全模式和搜索引擎模式,并且支持繁体分词和自定义词典。另外的,Jieba分词库可以对一段文本进行词频的统计,得到该文本的高频率词汇。
通过Word2Vec模型,将所述若干词语单元转变为若干词向量。可以理解的是,所述Word2Vec模型可以理解为一种高效训练词向量的模型。对句子单元进行完预处理得到词语单元后,需要将词语单元用向量化的形式进行表达,即进行编码成分布式词向量,以便于计算矩阵进行数据融合。
通过BILSTM-CRF模型,对所述若干词向量进行序列标定,确定所述文本单元中的命名实体、命名实体位置、命名实体类型,作为第一信息分析数据。可以理解的是,所述命名实体识别模型是预训练后的模型。值得注意的是,所述命名实体模型是可以自定义实体类型,并根据新定义的实体类型再次训练,不断迭代优化模型,使得模型具有更强的泛化能力以适应多种多样的实际场景。
可以理解的是,所述CRF(条件随机场)是一种判别模型,用于预测序列。所述BiLSTM(Bidirectional LSTM,双向长短时记忆网络)相较于单向的LSTM模型,可以同时捕捉正向信息和反向信息,以使分析文本信息更全面。
具体的序列标注场景下,长短时记忆网络单元经过下述四个步骤的计算,再经过CRF进行序列标注。
第一步:输入前一个时刻的隐藏层、当前时刻的输入式(1),计算并得到遗忘门的值。
(1)
其中,ht-1表示历史信息,xt表示当前流入细胞中新的信息。所述xt是为了根据当前输入的新的信息来决定要忘记具体历史信息。
第二步:输入前一个时刻的隐层状态,当前时刻的输入词,计算记忆门,得到记忆门的值,临时细胞状态。其中,通过式(2)选择要记忆的信息。
(2)
第三步:输入记忆门的值,遗忘门的值,临时细胞状态至式(3),得到当前时刻细胞状态。
(3)
第四步:输入前一个时刻的隐层状态,当前时刻的输入词,当前时刻细胞状态至式(4),得到输出门的值当前时刻细胞状态,隐层状态。
(4)
可以理解的是,所述输入门、遗忘门、输出门所对应的函数都是Sigmoid函数。由于Sigmoid函数的输出值范围为[0,1],相当于控制门的百分比过滤。因此,输出的结果是[0,1]。当输出门的值为0时,门完全关闭,当输出门的值为1时,门完全打开。所述输入门控制当前输入值中有多少信息流入到当前的计算中。所述遗忘门控制历史信息中有多少信息流入到当前计算中。所述输出门控制输出值中有多少信息流入到隐层中。其中,细胞状态C代表长期记忆,而状态h代表短期记忆。以上为通过BILSTM-CRF模型,对所述若干词向量进行序列标定,确定所述文本单元中的命名实体、命名实体位置、命名实体类型,作为第一信息分析数据。
在具体模型计算中,所述命名实体识别模型处理速度:30000字/秒。部署环境要求:GPU:8G、8G+,可适配信创。在对速度没有特别要求的前提下,可以适当下降对环境的要求。所述事件抽取模型抽取事件的准确率达89.21%。
S1007:输入融合数据集合至事件抽取模型,得到第二信息分析数据。
可以理解的是,所述事件抽取模型为的作用为从文本单元中抽取出现的事件信息。进一步的,所述输入融合数据集合至事件抽取模型,得到第二信息分析数据,具体步骤包括:
确定融合数据集合中的文本单元;
基于预设位置编码、预设向量编码、预设句子分类编码,对所述文本单元进行转码,得到对应所述文本单元的嵌入向量;
输入所述嵌入向量至预训练的BERT模型,得到对应所述嵌入向量的编码序列;
采用与预训练的BERT模型连接的二分类器,基于所述编码序列,预测主实体;
根据主实体,从编码序列中,抽取主实体首部、尾部对应的编码向量;
基于主实体首部、尾部对应的编码向量,预测主实体对应的客实体、主实体客实体之间的关系;
提取主实体、主实体对应的客实体、主实体客实体之间的关系,组成三元组;
将若干三元组,作为第二信息分析数据。
在具体事件抽取过程中,采取“半指针-半标注”的方式,先抽取文本单元的主实体,然后根据传入的主实体抽取客实体、两个实体之间的关系。
可以理解的是,所述BERT(Bidirectional Encoder Representation fromTransformers,预训练的语言表征模型)在提取词的同时,提取词在句子中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映句子语义。
在本申请的一种实施例中,第一步:将原始的输入文本转为id后,结合PositionEmbedding、Token Embedding以及Segment Embedding传入BERT预训练模型,得到对应的编码序列。所述token embedding层是要将各个词转换成固定维度的向量;SegmentEmbedding层处理对输入句子对的分类任务;Segment Embedding层只有两种向量表示。前一个向量是把0赋给第一个句子中的各个token,后一个向量是把1赋给第二个句子中的各个token。如果输入仅仅只有一个句子,那么它的Segment Embedding就是全0。由于Transformers无法编码输入的序列的顺序性,加入Position Embedding可以不同位置同一词的向量。例如,“I think,therefore I am”中第一个“I”和第二个“I”应该使用不同的向量表示。
值得说明的是,所述BERT预训练模型的输入可以是一个句子对,也可以是单个句子。同时BERT预训练模型增加了标志位,具体如下:[CLS]标志,放在第一个句子的首位,经过BERT得到的表征向量可以用于后续的分类任务;[SEP]标志,用于分开两个输入句子。第二步:编码序列接两个二分类器,用来预测主实体。第三步:根据传入的主实体,从编码序列中抽取出主实体的首、尾对应的编码向量。第四步:以主实体的编码向量作为条件,对编码序列处理,以预测该主实体对应的客实体、主实体客实体之间的关系。提取主实体、主实体对应的客实体、主实体客实体之间的关系,组成三元组,将若干三元组,作为第二信息分析数据。
在具体模型计算中,所述事件抽取模型处理速度:2652字/秒。部署环境要求:GPU:8G、8G+,可适配信创。在对速度没有特别要求的前提下,可以适当下降对环境的要求。所述事件抽取模型抽取事件的准确率达78.43%。
S1008:输入融合数据集合至文本相似度计算模型,得到第三信息分析数据。
可以理解的是,所述文本相似度计算模型用来从语义上分别两个段文本之间的语义相似度,其采用ALBERT与全连接层搭建文本相似度模型。
进一步的,所述输入融合数据集合至文本相似度计算模型,得到第三信息分析数据,具体步骤包括:
确定融合数据集合中的第一句子单元、第二句子单元;
基于预设位置编码、预设向量编码、预设句子分类编码,对所述第一句子单元进行转码,得到对应所述第一句子单元的第一嵌入向量;
对所述第二句子单元进行转码,得到对应所述第二句子单元的第二嵌入向量;
输入所述第一嵌入向量、所述第二嵌入向量至预训练的ALBERT模型,得到对应第一嵌入向量的第一文本向量、对应第二嵌入向量的第二文本向量;
输入第一文本向量、第二文本向量至全连接层进行运算,得到预测相似值;
当预测相似值大于预设阈值,确定第一文本、第二文本为相似信息,作为第三信息分析数据。
在本申请的一种实施例中,第一步:确定融合数据集合中的第一句子单元、第二句子单元,结合Position Embedding、Token Embedding以及Segment Embedding传入ALBERT预训练模型,得到第一嵌入向量的第一文本向量、对应第二嵌入向量的第二文本向量。第二步:输入第一文本向量、第二文本向量至全连接层进行运算,得到预测相似值。所述预测相似值取值范围为0~1。第三步:根据预先设置好的阈值进行判断,当预测相似值大于预设阈值,确定第一文本、第二文本为相似信息,作为第三信息分析数据。
在具体模型计算中,所述文本相似度计算模型处理速度:21000字/秒。部署环境要求:GPU:8G、8G+,可适配信创。在对速度没有特别要求的前提下,可以适当下降对环境的要求。所述事件抽取模型抽取事件的准确率达79.51%。
S1009:输入融合数据集合至关键词提取模型,得到第四信息分析数据。
进一步的,所述输入融合数据集合至关键词提取模型,得到第四信息分析数据,具体步骤包括:
确定融合数据集合中的文本单元;
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;
通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;
确定指定词性的若干词语单元,作为候选关键词;
将候选关键词作为节点,构建节点集合;
当候选关键词对应的词语单元在长度为K的窗口中共现时,将节点之间的关系作为边,构建边集合;
根据节点集合、边集合,构建有向有权图;
定义节点的得分函数:
;
其中,节点Vi、Vj之间边的权重为Wji;In(Vi)为指向节点Vi的点集合;
Out(Vi)为节点Vj指向的点集合;
输入预设初值,迭代计算节点的权重值,直至任意节点的误差率小于预设极限值;
通过TextRank算法,对节点的权重值进行倒序排序;
获取前T个节点,并在候选关键词集合中,标记节点对应的词语单元;
将标记后的词语单元进行组合,得到词组关键词,作为第四信息分析数据。
可以理解的是,所述标注词语单元的词性包括但不限于形容词、副词、数词、名词、动词、名动词。
为了更好地从融合数据集合中,提取相应的关键词,本申请采用Jieba分词与TextRank相结合的关键词提取模型。可以理解的是,所述TextRank算法是一种用于文本的基于图的排序算法。通过把文本分割成若干组成单元(单词、句子),并建立图模型,利用投票机制对文本中的重要成分进行排序。所述关键词提取模型仅利用单篇文本本身的信息即可实现关键词提取。
TextRank模型可以表示为一个有向有权图G(V,E),由点集合V和边集合E组成。其中,E是V*V的子集。
其中,节点Vi、Vj之间边的权重为Wji;In(Vi)为指向节点Vi的点集合;
Out(Vi)为节点Vj指向的点集合;
点Vi的得分定义如下:
其中,d为阻尼系数,取值范围为[0,1],代表从图中某一特定点指向其他任意点的概率,一般取值为0.85。
使用TextRank算法计算图中各点的得分时,需要给图中的点指定任意的初值,并递归计算直到收敛,即图中任意点的误差率小于给定的极限值时就可以达到收敛,一般该极限值取0.0001。
在本申请的一种提取关键词实施例中,第一步:把给定的融合数据集合中的文本单元T按照句子单元进行分割,即T=[S1,S2,…,Sm]。第二步:通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元。接着再通过Jieba分词库进行词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,保留指定词性的词语单元,确定候选关键词集合。第三步:构建候选关键词图G(V,E),其中V为节点集,由第二步生成的候选关键词组成,然后采用共现关系,构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。第四步:定义节点的得分函数,输入预设初值,迭代计算节点的权重值,直至任意节点的误差率小于预设极限值,迭代传播各节点的权重,直至收敛。第五步:通过TextRank算法,对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。第六步:获取前T个节点,并在候选关键词集合中,标记节点对应的词语单元;将标记后的词语单元进行组合,得到词组关键词,作为第四信息分析数据。
在具体模型计算中,所述关键词提取模型部署环境要求:GPU:8G+,可适配信创。在对速度没有特别要求的前提下,可以适当下降对环境的要求。所述事件抽取模型抽取事件的准确率达94.32%。
S1010:以预设结构化存储格式策略,存储第一信息分析数据、第二信息分析数据、第三信息分析数据、第四信息分析数据,作为企业对象在当前周期内的身份信息数据。
可以理解的是,所述得到的企业对象在当前周期内的身份信息数据复用性、迁移性、可推广性比较强,且对文书的书写格式无要求。在具体应用过程中,泛化能力强,可以根据实际想要的结构化信息进行自定义。模型可以进行训练与部署,并且在实际的使用过程中,根据新的数据进行增量训练以达到更优的识别效果。
进一步的,在本申请提供的又一种优选实施方式中,所述企业对象在当前周期内的身份信息数据存储于Greenplum数据库。
进一步的,在本申请提供的另一种优选实施方式中,所述Greenplum数据库支持全文检索;
当检索企业对象在当前周期内的身份信息数据时,使用Elasticsearch数据分析引擎存储检索数据。
进一步的,在本申请提供的另一种优选实施方式中,所述方法还包括:
采用关系型数据库,存储所述企业对象在当前周期内的身份信息数据对应的应用支撑数据。
在数据库技术、产品进行选型和设计时,需要考虑PB级别的数据量。为了解决海量数据情况下的存储、传输、计算问题,采用开源的MPP数据库Greenplum。同时为支持全文检索,使用Elasticsearch存储需检索数据。同时,所述企业对象在当前周期内的身份信息数据,对应的用户数据、配置信息等应用支撑数据,采用关系型数据库进行存储。
本申请提供的企业身份信息数据融合方法,通过接口对接、数据库对接、文件包对接、消息队列对接的采集方式,采集增量同步数据和全量同步数据,接口化抽取数据使得数据采集更完善。对所述原始数据集合中的若干身份信息数据进行数据关联和预处理,将来自不同数据库的数据规范化,统一治理,提高了企业合规改进效率,构建企业数据资产,提高了数据治理、数据挖掘、数据分析的敏捷性、高效性。分别输入至命名实体识别模型、事件抽取模型、文本相似度计算模型、关键词提取模型,得到第一、第二、第三、第四信息分析数据,并以预设存储格式策略存储,在采集到完整数据的情况下,对数据进行分析应用,大幅度提升数据处理能力。
请参照图2,为支持企业身份信息数据融合方法,本申请还提供一种企业身份信息数据融合装置100,应用于筛选涉案企业中的合规企业,包括以下模块:
采集模块11,用于从若干区块数据库中,以接口对接、数据库对接、文件包对接、消息队列对接的采集方式,采集包含增量同步数据和全量同步数据的同步数据,作为企业对象的身份信息数据;还用于将企业对象的若干身份信息数据构成原始数据集合;
融合模块12,用于对所述原始数据集合中的若干身份信息数据进行预处理,包括填充空值字段、补充必要字段、删除重复字段,更新原始数据集合为整合数据集合;还用于根据预设识别策略,确定整合数据集合中的唯一标识属性,作为对应企业对象的融合键;还用于建立整合数据集合中任意元素与融合键的关联关系,更新整合数据集合为融合数据集合;
分析模块13,用于输入融合数据集合至命名实体识别模型,得到第一信息分析数据;还用于输入融合数据集合至事件抽取模型,得到第二信息分析数据;还用于输入融合数据集合至文本相似度计算模型,得到第三信息分析数据;还用于输入融合数据集合至关键词提取模型,得到第四信息分析数据;
存储模块14,用于以预设结构化存储格式策略,存储第一信息分析数据、第二信息分析数据、第三信息分析数据、第四信息分析数据,作为企业对象在当前周期内的身份信息数据。
采集模块11,用于从若干区块数据库中,以接口对接、数据库对接、文件包对接、消息队列对接的采集方式,采集包含增量同步数据和全量同步数据的同步数据,作为企业对象的身份信息数据;还用于将企业对象的若干身份信息数据构成原始数据集合。
在具体数据库数据采集场景中,需要先采集全量同步数据,并拷贝下来。接着,采用增量同步的方式,更新数据。值得注意的是,采用增量数据同步需要引入一个关键性的前提:记录已更新的内容,即需要确定更新点。所述更新点可以采用时间戳、checkpoint等来标识和记录。
增量同步时,需明确标识新增数据、修改数据、删除数据。最后将采集到包含增量同步数据和全量同步数据的同步数据,作为企业对象的身份信息数据。可以理解的是,企业对象的身份信息数据包括但不限于:企业注册信息、企业纳税信息、企业员工规模信息、企业科技创新信息、涉嫌犯罪移送公安机关信息、企业合规办理信息、企业合规办理过程材料等。
因此,本申请提出的企业身份信息数据融合方法中,采用增量同步、全量同步的方式,采集包含增量同步数据和全量同步数据的同步数据,减小了数据获取难度,在保证采集到全面的有关企业对象的身份信息数据时,还可以根据更新点回溯历史数据,避免误删重要数据。
进一步的,所述若干区块数据库的推送方式包括数据源主动推送、数据主动查询。在推送方式下,将外部的若干区块数据库中数据采集至内部的数据库。
进一步的,在本申请提供的一种优选实施方式中,所述采集包含增量同步数据和全量同步数据的同步数据由数据源数量级、变更频率、变更类型、系统架构、数据库表设计确定。
可以理解的是,面对数据库中众多数据,具体的数据采集需要提前设计,才可以在采集高质量的数据的同时,减小数据获取的难度,提高后续数据分析、数据融合的效率。
将企业对象的若干身份信息数据构成原始数据集合。可以理解的是,从若干区块数据库中,采集到企业对象的身份信息数据后需要将若干企业对象的身份信息数据进行存储,构成原始数据集合。值得注意的是,原始数据集合中是完整的,未经过处理的数据。
融合模块12,用于对所述原始数据集合中的若干身份信息数据进行预处理,包括填充空值字段、补充必要字段、删除重复字段,更新原始数据集合为整合数据集合;还用于根据预设识别策略,确定整合数据集合中的唯一标识属性,作为对应企业对象的融合键;还用于建立整合数据集合中任意元素与融合键的关联关系,更新整合数据集合为融合数据集合。
可以理解的是,由于不同区块数据库中的数据格式参差不齐,且缺乏统一的规范、治理体系,使得原始数据集合中的数据难以利用。因此,为了提高数据利用率,需要对原始数据集合中的企业对象的身份信息数据预处理。
在具体对原始数据集合中的若干身份信息数据进行预处理的过程中,需要填充空值字段、补充必要字段、删除重复字段。所述数据预处理的目的是数据预处理的目的包括但不限于去除无效数据、不规范数据、错误数据、补齐缺失值、对数据范围、量纲、格式、类型进行规范化处理,以利于后续融合。对于半结构化数据,采用正则表达式对半结构化数据进行筛选,得到有效数据。对于非结构化数据,进行数据清洗、去除多余标点符号、停用词等,得到有效数据。最后将原始数据集合为整合数据集合。例如,从非结构化数据中通过智能语义识别技术提取结构化数据。若企业合规办理信息中没有社会信用统一代码,则依据企业名称查询出维护在企业合规办理信息中,并补充社会信用统一代码,以便于后续数据融合。值得注意的是,整合数据集合中的数据元素只是进行了标准化处理,并未建立数据元素之间的联系,以便融合。因此,需要对整合数据集合中的数据再次进行处理。
可以理解的是,整合数据集合中的数据元素来自若干区块数据库。因此,在进行信息数据进行融合的情况下,所需存储的数据量庞大。并且在对融合后的数据进行组织、检索的时,对于数据库的读写性能有着较高的要求。来自多个数据库的而目标对象的属性值并不涉及过多的数据关系,为存储目标对象记录在不同数据库中的属性值,还需要构建融合数据库。因此,需要建立整合数据集合中任意元素与融合键的关联关系,以更新整合数据集合为融合数据集合。具体的,本申请所提供的企业身份信息数据融合方法中,根据预设识别策略,确定整合数据集合中的唯一标识属性,作为对应企业对象的融合键。
在本申请的一种具体融合企业字段实施例中,所述唯一标识属性可以理解为社会信用统一代码。所述企业对象的融合键可以理解为各业务实体的唯一标识,即社会信用统一代码。依据社会信用统一代码,将数据库中所有涉及企业的数据尽可能维护在企业的宽表中,避免后续使用时联表,提升性能。
可以理解的是,当更新整合数据集合为融合数据集合后,需要对融合数据集合进行数据分析,以辅助上层监督模型的应用。具体的,在整体数据分析的过程中,考虑数据情况比较复杂,并且在模型中需要的数据不是直接就能以结构化形式体现,需要一些智能化的提取和识别分析。因此,整个模型中用到了多个智能化方法做数据提取,以完善数据管理框架和数据治理。
分析模块13,用于输入融合数据集合至命名实体识别模型,得到第一信息分析数据;还用于输入融合数据集合至事件抽取模型,得到第二信息分析数据;还用于输入融合数据集合至文本相似度计算模型,得到第三信息分析数据;还用于输入融合数据集合至关键词提取模型,得到第四信息分析数据;
其中,所述分析模块,用于输入融合数据集合至命名实体识别模型,得到第一信息分析数据,具体用于:
确定融合数据集合中的文本单元;
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;
通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;
通过Word2Vec模型,将所述若干词语单元转变为若干词向量;
通过BILSTM-CRF模型,对所述若干词向量进行序列标定,确定所述文本单元中的命名实体、命名实体位置、命名实体类型,作为第一信息分析数据。
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元。在具体分句实施例中,获取企业一段文本,例如“张三在北京上班。张三所在的公司有广州分部”。到文本单元后,对文本单元进行分割,得到单个句子单元。
具体的序列标注场景下,长短时记忆网络单元经过下述四个步骤的计算,再经过CRF进行序列标注。
第一步:输入前一个时刻的隐藏层、当前时刻的输入式(1),计算并得到遗忘门的值。
(1)
其中,ht-1表示历史信息,xt表示当前流入细胞中新的信息。所述xt是为了根据当前输入的新的信息来决定要忘记具体历史信息。
第二步:输入前一个时刻的隐层状态,当前时刻的输入词,计算记忆门,得到记忆门的值,临时细胞状态。其中,通过式(2)选择要记忆的信息。
(2)
第三步:输入记忆门的值,遗忘门的值,临时细胞状态至式(3),得到当前时刻细胞状态。
(3)
第四步:输入前一个时刻的隐层状态,当前时刻的输入词,当前时刻细胞状态至式(4),得到输出门的值当前时刻细胞状态,隐层状态。
(4)
所述输入门控制当前输入值中有多少信息流入到当前的计算中。所述遗忘门控制历史信息中有多少信息流入到当前计算中。所述输出门控制输出值中有多少信息流入到隐层中。其中,细胞状态C代表长期记忆,而状态h代表短期记忆。以上为通过BILSTM-CRF模型,对所述若干词向量进行序列标定,确定所述文本单元中的命名实体、命名实体位置、命名实体类型,作为第一信息分析数据。
所述分析模块13,还用于输入融合数据集合至事件抽取模型,得到第二信息分析数据,具体用于:
确定融合数据集合中的文本单元;
基于预设位置编码、预设向量编码、预设句子分类编码,对所述文本单元进行转码,得到对应所述文本单元的嵌入向量;
输入所述嵌入向量至预训练的BERT模型,得到对应所述嵌入向量的编码序列;
采用与预训练的BERT模型连接的二分类器,基于所述编码序列,预测主实体;
根据主实体,从编码序列中,抽取主实体首部、尾部对应的编码向量;
基于主实体首部、尾部对应的编码向量,预测主实体对应的客实体、主实体客实体之间的关系;
提取主实体、主实体对应的客实体、主实体客实体之间的关系,组成三元组;
将若干三元组,作为第二信息分析数据。
在具体事件抽取过程中,采取“半指针-半标注”的方式,先抽取文本单元的主实体,然后根据传入的主实体抽取客实体、两个实体之间的关系。
可以理解的是,所述BERT(Bidirectional Encoder Representation fromTransformers,预训练的语言表征模型)在提取词的同时,提取词在句子中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映句子语义。
在本申请的一种实施例中,第一步:将原始的输入文本转为id后,结合PositionEmbedding、Token Embedding以及Segment Embedding传入BERT预训练模型,得到对应的编码序列。所述token embedding层是要将各个词转换成固定维度的向量;SegmentEmbedding层处理对输入句子对的分类任务;Segment Embedding层只有两种向量表示。前一个向量是把0赋给第一个句子中的各个token,后一个向量是把1赋给第二个句子中的各个token。如果输入仅仅只有一个句子,那么它的Segment Embedding就是全0。由于Transformers无法编码输入的序列的顺序性,加入Position Embedding可以不同位置同一词的向量。例如,“I think,therefore I am”中第一个“I”和第二个“I”应该使用不同的向量表示。
值得说明的是,所述BERT预训练模型的输入可以是一个句子对,也可以是单个句子。同时BERT预训练模型增加了标志位,具体如下:[CLS]标志,放在第一个句子的首位,经过BERT得到的表征向量可以用于后续的分类任务;[SEP]标志,用于分开两个输入句子。第二步:编码序列接两个二分类器,用来预测主实体。第三步:根据传入的主实体,从编码序列中抽取出主实体的首、尾对应的编码向量。第四步:以主实体的编码向量作为条件,对编码序列处理,以预测该主实体对应的客实体、主实体客实体之间的关系。提取主实体、主实体对应的客实体、主实体客实体之间的关系,组成三元组,将若干三元组,作为第二信息分析数据。
在具体模型计算中,所述事件抽取模型处理速度:2652字/秒。部署环境要求:GPU:8G、8G+,可适配信创。在对速度没有特别要求的前提下,可以适当下降对环境的要求。所述事件抽取模型抽取事件的准确率达78.43%。
所述分析模块13,还用于输入融合数据集合至文本相似度计算模型,得到第三信息分析数据,具体用于:
确定融合数据集合中的第一句子单元、第二句子单元;
基于预设位置编码、预设向量编码、预设句子分类编码,对所述第一句子单元进行转码,得到对应所述第一句子单元的第一嵌入向量;
对所述第二句子单元进行转码,得到对应所述第二句子单元的第二嵌入向量;
输入所述第一嵌入向量、所述第二嵌入向量至预训练的ALBERT模型,得到对应第一嵌入向量的第一文本向量、对应第二嵌入向量的第二文本向量;
输入第一文本向量、第二文本向量至全连接层进行运算,得到预测相似值;
当预测相似值大于预设阈值,确定第一文本、第二文本为相似信息,作为第三信息分析数据。
可以理解的是,所述文本相似度计算模型用来从语义上分别两个段文本之间的语义相似度,其采用ALBERT与全连接层搭建文本相似度模型。
在本申请的一种实施例中,第一步:确定融合数据集合中的第一句子单元、第二句子单元,结合Position Embedding、Token Embedding以及Segment Embedding传入ALBERT预训练模型,得到第一嵌入向量的第一文本向量、对应第二嵌入向量的第二文本向量。第二步:输入第一文本向量、第二文本向量至全连接层进行运算,得到预测相似值。所述预测相似值取值范围为0~1。第三步:根据预先设置好的阈值进行判断,当预测相似值大于预设阈值,确定第一文本、第二文本为相似信息,作为第三信息分析数据。
所述分析模块13,还用于输入融合数据集合至关键词提取模型,得到第四信息分析数据,具体用于:
确定融合数据集合中的文本单元;
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;
通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;
确定指定词性的若干词语单元,作为候选关键词;
将候选关键词作为节点,构建节点集合;
当候选关键词对应的词语单元在长度为K的窗口中共现时,将节点之间的关系作为边,构建边集合;
根据节点集合、边集合,构建有向有权图;
定义节点的得分函数:
;
其中,节点Vi、Vj之间边的权重为Wji;In(Vi)为指向节点Vi的点集合;
Out(Vi)为节点Vj指向的点集合;
输入预设初值,迭代计算节点的权重值,直至任意节点的误差率小于预设极限值;
通过TextRank算法,对节点的权重值进行倒序排序;
获取前T个节点,并在候选关键词集合中,标记节点对应的词语单元;
将标记后的词语单元进行组合,得到词组关键词,作为第四信息分析数据。
可以理解的是,所述标注词语单元的词性包括但不限于形容词、副词、数词、名词、动词、名动词。
为了更好地从融合数据集合中,提取相应的关键词,本申请采用Jieba分词与TextRank相结合的关键词提取模型。可以理解的是,所述TextRank算法是一种用于文本的基于图的排序算法。通过把文本分割成若干组成单元(单词、句子),并建立图模型,利用投票机制对文本中的重要成分进行排序。所述关键词提取模型仅利用单篇文本本身的信息即可实现关键词提取。
在本申请的一种提取关键词实施例中,第一步:把给定的融合数据集合中的文本单元T按照句子单元进行分割,即T=[S1,S2,…,Sm]。第二步:通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元。接着再通过Jieba分词库进行词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,保留指定词性的词语单元,确定候选关键词集合。第三步:构建候选关键词图G(V,E),其中V为节点集,由第二步生成的候选关键词组成,然后采用共现关系,构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。第四步:定义节点的得分函数,输入预设初值,迭代计算节点的权重值,直至任意节点的误差率小于预设极限值,迭代传播各节点的权重,直至收敛。第五步:通过TextRank算法,对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。第六步:获取前T个节点,并在候选关键词集合中,标记节点对应的词语单元;将标记后的词语单元进行组合,得到词组关键词,作为第四信息分析数据。
在具体模型计算中,所述关键词提取模型部署环境要求:GPU:8G+,可适配信创。在对速度没有特别要求的前提下,可以适当下降对环境的要求。所述事件抽取模型抽取事件的准确率达94.32%。
存储模块14,用于以预设结构化存储格式策略,存储第一信息分析数据、第二信息分析数据、第三信息分析数据、第四信息分析数据,作为企业对象在当前周期内的身份信息数据。
可以理解的是,所述得到的企业对象在当前周期内的身份信息数据复用性、迁移性、可推广性比较强,且对文书的书写格式无要求。在具体应用过程中,泛化能力强,可以根据实际想要的结构化信息进行自定义。模型可以进行训练与部署,并且在实际的使用过程中,根据新的数据进行增量训练以达到更优的识别效果。
进一步的,在本申请提供的又一种优选实施方式中,所述企业对象在当前周期内的身份信息数据存储于Greenplum数据库。
进一步的,在本申请提供的另一种优选实施方式中,所述Greenplum数据库支持全文检索;
当检索企业对象在当前周期内的身份信息数据时,使用Elasticsearch数据分析引擎存储检索数据。
进一步的,在本申请提供的另一种优选实施方式中,所述存储模块14,还用于采用关系型数据库,存储所述企业对象在当前周期内的身份信息数据对应的应用支撑数据。
在数据库技术、产品进行选型和设计时,需要考虑PB级别的数据量。为了解决海量数据情况下的存储、传输、计算问题,采用开源的MPP数据库Greenplum。同时为支持全文检索,使用Elasticsearch存储需检索数据。同时,所述企业对象在当前周期内的身份信息数据,对应的用户数据、配置信息等应用支撑数据,采用关系型数据库进行存储。
本申请提供的企业身份信息数据融合装置100,在采集模块11中,通过接口对接、数据库对接、文件包对接、消息队列对接的采集方式,采集增量同步数据和全量同步数据,接口化抽取数据使得数据采集更完善。在融合模块12中,对所述原始数据集合中的若干身份信息数据进行数据关联和预处理,将来自不同数据库的数据规范化,统一治理,提高了企业合规改进效率,构建企业数据资产,提高了数据治理、数据挖掘、数据分析的敏捷性、高效性。在分析模块13中,分别输入至命名实体识别模型、事件抽取模型、文本相似度计算模型、关键词提取模型,得到第一、第二、第三、第四信息分析数据,并以预设存储格式策略存储,在采集到完整数据的情况下,对数据进行分析应用,大幅度提升数据处理能力。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种企业身份信息数据融合方法,其特征在于,应用于筛选涉案企业中的合规企业,包括以下步骤:
从若干区块数据库中,以接口对接、数据库对接、文件包对接、消息队列对接的采集方式,采集包含增量同步数据和全量同步数据的同步数据,作为企业对象的身份信息数据;
将企业对象的若干身份信息数据构成原始数据集合;
对所述原始数据集合中的若干身份信息数据进行预处理,包括填充空值字段、补充必要字段、删除重复字段,更新原始数据集合为整合数据集合;
根据预设识别策略,确定整合数据集合中的唯一标识属性,作为对应企业对象的融合键;
建立整合数据集合中任意元素与融合键的关联关系,更新整合数据集合为融合数据集合;
输入融合数据集合至命名实体识别模型,得到第一信息分析数据;
输入融合数据集合至事件抽取模型,得到第二信息分析数据;
输入融合数据集合至文本相似度计算模型,得到第三信息分析数据;
输入融合数据集合至关键词提取模型,得到第四信息分析数据;
以预设结构化存储格式策略,存储第一信息分析数据、第二信息分析数据、第三信息分析数据、第四信息分析数据,作为企业对象在当前周期内的身份信息数据;
其中,所述输入融合数据集合至命名实体识别模型,得到第一信息分析数据,具体步骤包括:
确定融合数据集合中的文本单元;
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;
通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;
通过Word2Vec模型,将所述若干词语单元转变为若干词向量;
通过BILSTM-CRF模型,对所述若干词向量进行序列标定,确定所述文本单元中的命名实体、命名实体位置、命名实体类型,作为第一信息分析数据;
所述输入融合数据集合至事件抽取模型,得到第二信息分析数据,具体步骤包括:
确定融合数据集合中的文本单元;
基于预设位置编码、预设向量编码、预设句子分类编码,对所述文本单元进行转码,得到对应所述文本单元的嵌入向量;
输入所述嵌入向量至预训练的BERT模型,得到对应所述嵌入向量的编码序列;
采用与预训练的BERT模型连接的二分类器,基于所述编码序列,预测主实体;
根据主实体,从编码序列中,抽取主实体首部、尾部对应的编码向量;
基于主实体首部、尾部对应的编码向量,预测主实体对应的客实体、主实体客实体之间的关系;
提取主实体、主实体对应的客实体、主实体客实体之间的关系,组成三元组;
将若干三元组,作为第二信息分析数据;
所述输入融合数据集合至文本相似度计算模型,得到第三信息分析数据,具体步骤包括:
确定融合数据集合中的第一句子单元、第二句子单元;
基于预设位置编码、预设向量编码、预设句子分类编码,对所述第一句子单元进行转码,得到对应所述第一句子单元的第一嵌入向量;
对所述第二句子单元进行转码,得到对应所述第二句子单元的第二嵌入向量;
输入所述第一嵌入向量、所述第二嵌入向量至预训练的ALBERT模型,得到对应第一嵌入向量的第一文本向量、对应第二嵌入向量的第二文本向量;
输入第一文本向量、第二文本向量至全连接层进行运算,得到预测相似值;
当预测相似值大于预设阈值,确定第一文本、第二文本为相似信息,作为第三信息分析数据;
所述输入融合数据集合至关键词提取模型,得到第四信息分析数据,具体步骤包括:
确定融合数据集合中的文本单元;
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;
通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;
确定指定词性的若干词语单元,作为候选关键词;
将候选关键词作为节点,构建节点集合;
当候选关键词对应的词语单元在长度为K的窗口中共现时,将节点之间的关系作为边,构建边集合;
根据节点集合、边集合,构建有向有权图;
定义节点的得分函数:
;
其中,节点Vi、Vj之间边的权重为Wji;In(Vi)为指向节点Vi的点集合;
Out(Vi)为节点Vj指向的点集合;
输入预设初值,迭代计算节点的权重值,直至任意节点的误差率小于预设极限值;
通过TextRank算法,对节点的权重值进行倒序排序;
获取前T个节点,并在候选关键词集合中,标记节点对应的词语单元;
将标记后的词语单元进行组合,得到词组关键词,作为第四信息分析数据。
2.如权利要求1所述的数据融合方法,其特征在于,所述采集包含增量同步数据和全量同步数据的同步数据由数据源数量级、变更频率、变更类型、系统架构、数据库表设计确定。
3.如权利要求1所述的数据融合方法,其特征在于,所述企业对象在当前周期内的身份信息数据存储于Greenplum数据库。
4.如权利要求3所述的数据融合方法,其特征在于,所述Greenplum数据库支持全文检索;
当检索企业对象在当前周期内的身份信息数据时,使用Elasticsearch数据分析引擎存储检索数据。
5.如权利要求1所述的数据融合方法,其特征在于,所述方法还包括:
采用关系型数据库,存储所述企业对象在当前周期内的身份信息数据对应的应用支撑数据。
6.一种企业身份信息数据融合装置,其特征在于,应用于筛选涉案企业中的合规企业,包括以下模块:
采集模块,用于从若干区块数据库中,以接口对接、数据库对接、文件包对接、消息队列对接的采集方式,采集包含增量同步数据和全量同步数据的同步数据,作为企业对象的身份信息数据;还用于将企业对象的若干身份信息数据构成原始数据集合;
融合模块,用于对所述原始数据集合中的若干身份信息数据进行预处理,包括填充空值字段、补充必要字段、删除重复字段,更新原始数据集合为整合数据集合;还用于根据预设识别策略,确定整合数据集合中的唯一标识属性,作为对应企业对象的融合键;还用于建立整合数据集合中任意元素与融合键的关联关系,更新整合数据集合为融合数据集合;
分析模块,用于输入融合数据集合至命名实体识别模型,得到第一信息分析数据;还用于输入融合数据集合至事件抽取模型,得到第二信息分析数据;还用于输入融合数据集合至文本相似度计算模型,得到第三信息分析数据;还用于输入融合数据集合至关键词提取模型,得到第四信息分析数据;
存储模块,用于以预设结构化存储格式策略,存储第一信息分析数据、第二信息分析数据、第三信息分析数据、第四信息分析数据,作为企业对象在当前周期内的身份信息数据;
其中,所述分析模块,用于输入融合数据集合至命名实体识别模型,得到第一信息分析数据,具体用于:
确定融合数据集合中的文本单元;
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;
通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;
通过Word2Vec模型,将所述若干词语单元转变为若干词向量;
通过BILSTM-CRF模型,对所述若干词向量进行序列标定,确定所述文本单元中的命名实体、命名实体位置、命名实体类型,作为第一信息分析数据;
所述分析模块,还用于输入融合数据集合至事件抽取模型,得到第二信息分析数据,具体用于:
确定融合数据集合中的文本单元;
基于预设位置编码、预设向量编码、预设句子分类编码,对所述文本单元进行转码,得到对应所述文本单元的嵌入向量;
输入所述嵌入向量至预训练的BERT模型,得到对应所述嵌入向量的编码序列;
采用与预训练的BERT模型连接的二分类器,基于所述编码序列,预测主实体;
根据主实体,从编码序列中,抽取主实体首部、尾部对应的编码向量;
基于主实体首部、尾部对应的编码向量,预测主实体对应的客实体、主实体客实体之间的关系;
提取主实体、主实体对应的客实体、主实体客实体之间的关系,组成三元组;
将若干三元组,作为第二信息分析数据;
所述分析模块,还用于输入融合数据集合至文本相似度计算模型,得到第三信息分析数据,具体用于:
确定融合数据集合中的第一句子单元、第二句子单元;
基于预设位置编码、预设向量编码、预设句子分类编码,对所述第一句子单元进行转码,得到对应所述第一句子单元的第一嵌入向量;
对所述第二句子单元进行转码,得到对应所述第二句子单元的第二嵌入向量;
输入所述第一嵌入向量、所述第二嵌入向量至预训练的ALBERT模型,得到对应第一嵌入向量的第一文本向量、对应第二嵌入向量的第二文本向量;
输入第一文本向量、第二文本向量至全连接层进行运算,得到预测相似值;
当预测相似值大于预设阈值,确定第一文本、第二文本为相似信息,作为第三信息分析数据;
所述分析模块,还用于输入融合数据集合至关键词提取模型,得到第四信息分析数据,具体步骤包括:
确定融合数据集合中的文本单元;
按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;
通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;
确定指定词性的若干词语单元,作为候选关键词;
将候选关键词作为节点,构建节点集合;
当候选关键词对应的词语单元在长度为K的窗口中共现时,将节点之间的关系作为边,构建边集合;
根据节点集合、边集合,构建有向有权图;
定义节点的得分函数:
;
其中,节点Vi、Vj之间边的权重为Wji;In(Vi)为指向节点Vi的点集合;
Out(Vi)为节点Vj指向的点集合;
输入预设初值,迭代计算节点的权重值,直至任意节点的误差率小于预设极限值;
通过TextRank算法,对节点的权重值进行倒序排序;
获取前T个节点,并在候选关键词集合中,标记节点对应的词语单元;
将标记后的词语单元进行组合,得到词组关键词,作为第四信息分析数据。
7.如权利要求6所述的数据融合装置,其特征在于,所述采集模块,采集包含增量同步数据和全量同步数据的同步数据由数据源数量级、变更频率、变更类型、系统架构、数据库表设计确定。
8.如权利要求6所述的数据融合装置,其特征在于,所述企业对象在当前周期内的身份信息数据存储于Greenplum数据库。
9.如权利要求7所述的数据融合装置,其特征在于,所述Greenplum数据库支持全文检索;
当检索企业对象在当前周期内的身份信息数据时,使用Elasticsearch数据分析引擎存储检索数据。
10.如权利要求6所述的数据融合装置,其特征在于,所述存储模块,还用于采用关系型数据库,存储所述企业对象在当前周期内的身份信息数据对应的应用支撑数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310656992.2A CN116467403A (zh) | 2023-06-05 | 2023-06-05 | 企业身份信息数据融合方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310656992.2A CN116467403A (zh) | 2023-06-05 | 2023-06-05 | 企业身份信息数据融合方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116467403A true CN116467403A (zh) | 2023-07-21 |
Family
ID=87175659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310656992.2A Pending CN116467403A (zh) | 2023-06-05 | 2023-06-05 | 企业身份信息数据融合方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116467403A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349478A (zh) * | 2023-10-08 | 2024-01-05 | 国网江苏省电力有限公司经济技术研究院 | 一种基于数字化转型企业的资源数据重构整合系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390023A (zh) * | 2019-07-02 | 2019-10-29 | 安徽继远软件有限公司 | 一种基于改进bert模型的知识图谱构建方法 |
CN112434532A (zh) * | 2020-11-05 | 2021-03-02 | 西安交通大学 | 一种支持人机双向理解的电网环境模型及建模方法 |
US20220309248A1 (en) * | 2021-03-26 | 2022-09-29 | China Academy of Art | Method and system for product knowledge fusion |
-
2023
- 2023-06-05 CN CN202310656992.2A patent/CN116467403A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390023A (zh) * | 2019-07-02 | 2019-10-29 | 安徽继远软件有限公司 | 一种基于改进bert模型的知识图谱构建方法 |
CN112434532A (zh) * | 2020-11-05 | 2021-03-02 | 西安交通大学 | 一种支持人机双向理解的电网环境模型及建模方法 |
US20220309248A1 (en) * | 2021-03-26 | 2022-09-29 | China Academy of Art | Method and system for product knowledge fusion |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349478A (zh) * | 2023-10-08 | 2024-01-05 | 国网江苏省电力有限公司经济技术研究院 | 一种基于数字化转型企业的资源数据重构整合系统 |
CN117349478B (zh) * | 2023-10-08 | 2024-05-24 | 国网江苏省电力有限公司经济技术研究院 | 一种基于数字化转型企业的资源数据重构整合系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650188B2 (en) | Constructing a narrative based on a collection of images | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN110110335B (zh) | 一种基于层叠模型的命名实体识别方法 | |
US20200279105A1 (en) | Deep learning engine and methods for content and context aware data classification | |
US20230419034A1 (en) | Natural language processing machine learning frameworks trained using multi-task training routines | |
CN113032552B (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
US12112132B2 (en) | Natural language processing machine learning frameworks trained using multi-task training routines | |
CN111723256A (zh) | 一种基于信息资源库的政务用户画像构建方法及其系统 | |
CN113761208A (zh) | 一种基于知识图谱的科技创新资讯分类方法和存储设备 | |
CN112257442B (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
Sarwar et al. | StyloThai: A scalable framework for stylometric authorship identification of thai documents | |
Rafail et al. | Natural language processing | |
CN116467403A (zh) | 企业身份信息数据融合方法及装置 | |
Zhang et al. | Transformer-encoder-gru (te-gru) for Chinese sentiment analysis on Chinese comment text | |
Ye et al. | Chinese Named Entity Recognition Based on Character‐Word Vector Fusion | |
Park et al. | Sensitive data identification in structured data through genner model based on text generation and ner | |
CN117349437A (zh) | 基于智能ai的政府信息管理系统及其方法 | |
CN111563374B (zh) | 一种基于司法裁判文书的人员社交关系抽取方法 | |
US11989240B2 (en) | Natural language processing machine learning frameworks trained using multi-task training routines | |
Li et al. | Automatic classification algorithm for multisearch data association rules in wireless networks | |
CN113222471B (zh) | 一种基于新媒体数据的资产风控方法及设备 | |
Zhang et al. | Research on case preprocessing based on deep learning | |
CN115660000A (zh) | 一种中医药垂直领域中英机器翻译方法 | |
Noursalehi et al. | Machine-learning-augmented analysis of textual data: application in transit disruption management | |
Zhang | Exploration of Cross‐Modal Text Generation Methods in Smart Justice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230721 |