CN117807293A - 一种证据信息按需组织与精准分发方法 - Google Patents
一种证据信息按需组织与精准分发方法 Download PDFInfo
- Publication number
- CN117807293A CN117807293A CN202410199495.9A CN202410199495A CN117807293A CN 117807293 A CN117807293 A CN 117807293A CN 202410199495 A CN202410199495 A CN 202410199495A CN 117807293 A CN117807293 A CN 117807293A
- Authority
- CN
- China
- Prior art keywords
- data
- consistency
- attribute
- representing
- comprehensive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000008520 organization Effects 0.000 title claims abstract description 13
- 230000009193 crawling Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 45
- 238000000605 extraction Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012986 modification Methods 0.000 claims description 10
- 230000004048 modification Effects 0.000 claims description 10
- 238000013500 data storage Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 230000009469 supplementation Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种证据信息按需组织与精准分发方法,其包括:爬取网络上多个领域的相关数据信息并对其进行预处理,并对预处理得到的数据进行结构化存储,得到数据的规范化存储数据集;自动搜集用户行为日志,通过爬取服务器的数据和日志,获得用户行为数据,对用户进行需求画像,提炼总结出用户的需求,生成候选用户订阅条件;该需求包括数据领域偏好、专题偏好、数据来源偏好和重点关注要素;基于候选用户订阅条件和根据用户需求的输入订阅条件,生成综合约束集合,将满足综合约束集合的规范化存储数据集添加到匹配数据集中,并将得到的匹配数据集推送分发给用户。本发明通过对用户需求的精准把握,实现证据信息的高效、精准组织与分发。
Description
技术领域
本发明涉及人工智能和大数据技术领域,特别是一种证据信息按需组织与精准分发方法。
背景技术
证据是指支撑人们在生活工作中做出重要决策信息,如专家在制定前沿技术清单时,需要相关技术的近年专利论文数、基金项目投资额、重要研发机构与研发人员信息等数据,即证据信息,专家通过证据计算研判各类技术的新兴度、技术重要性、技术投入度等,最终综合得到前沿技术清单。
随着信息化时代的建设,使证据素材越来越多可有效支撑决策正确性的提升,但也使得数据信息呈现爆炸式增长,海量数据使人们耗费大量时间、经历在证据的寻找过程中,制约研究进度。
发明内容
鉴于此,本发明提供一种证据信息按需组织与精准分发方法。
本发明公开了一种证据信息按需组织与精准分发方法,其包括:
步骤1:爬取网络上多个领域的相关数据信息并对其进行预处理,并对预处理得到的数据进行结构化存储,得到数据的规范化存储数据集;
步骤2:自动搜集用户行为日志,通过爬取服务器的数据和日志,获得用户行为数据,对用户进行需求画像,提炼总结出用户的需求,生成候选用户订阅条件;该需求包括数据领域偏好、专题偏好、数据来源偏好和重点关注要素;
步骤3:基于候选用户订阅条件和根据用户需求的输入订阅条件,生成综合约束集合,将满足综合约束集合的规范化存储数据集添加到匹配数据集中,并将得到的匹配数据集推送分发给用户。
进一步地,所述步骤1包括:
步骤11:构建分布式数据存储架构,设计三个存储模块,分别存储结构化、半结构化和非结构化的数据信息;
步骤12:对数据进行预处理包括对数据进行时间对齐、空间对齐、属性补齐与去除冗余以及删除不准确与不完整数据;
步骤13:运用通用信息抽取技术,提取经过预处理的数据,并将其进行结构化存储,最终得到数据的规范化存储数据集。
进一步地,在所述步骤12中,对数据进行时间对齐,包括:
首先,利用UIE通用信息抽取技术得到数据的发布时间和时间修饰字符,其中,时间修饰字符包括大前天、前天、昨天、明天和后天;
其次,通过查表方式得到时间转移值与时间修饰字符的映射关系;
最后,将基准时间的规范表达式和偏移时间规范表达式对应的时间单位上的数值进行求和,得到数据发生时间的初始规范化表达/>,所采用的公式为:
其中,G表示时间粒度,同时,基于不同时间单位的取值范围,对进行处理,即让/>中的年、月、日、时和分时间单位满足时间规范,规范后的时间结果记为时间的规范式表达/>;
对数据进行空间对齐,包括:
首先,利用UIE通用信息抽取技术,得到数据中的地点名称,设数据中的空间名称为和/>,则空间名称可表示为多个地点名称单元的组合,即/>,其中,/>,表示所有地点名称单元组成的集合,/>表示第i个地点名称,/>表示第m个地点名称;,其中,/>,/>表示第j个地点名称,/>表示第n个地点名称;
取自然数;若/>=/>,p=1,2,...,q,则/>;通过如下计算公式,得到对空间名称的趋同值:
其中,表示空间名称/>与空间名称/>的趋同值,/>表示空间名称/>与空间名称/>的趋同值;
令,则/>表示/>与/>两个空间名称的趋同值;如果空间名称之间的趋同值超过给定的阈值,则认为两个空间名称是同一个地点名称,实现空间对齐。
进一步地,在所述步骤12中,对数据进行属性补齐与去除冗余,包括:
首先,构造数据特征集合,利用UIE通用信息抽取技术抽取数据的属性,得到数据的规范化表达式,其中,Event表示数据本身,/>表示数据的第i个属性;/>表示数据属性数量;属性包括时间、地点、人物、实体、主题、类型和触发词;
其次,采用数据综合一致性算法,数据Event的文本信息经过bert模型的Embedding层,转化为文本语义向量,计算任何两个数据的语义一致性con_sem,其中,/>为数据Event文本语义向量中的第k个维度分量,p表示数据Event文本语义向量的维数;
在语义一致性的基础上,对数据的每个属性进行一致性检验,即属性一致性con_pro,最后得到数据间的综合一致性con_com。
进一步地,所述计算任何两个数据的语义一致性con_sem,包括:
假设任意两个数据的语义向量分别为、/>,其中,Event1表示第一个数据,/>为数据Event1文本语义向量中的第a个维度分量,p表示数据Event1文本语义向量的维数,Event2表示第二个数据,/>为数据Event2文本语义向量中的第a个维度分量,p表示数据Event2文本语义向量的维数,则数据Event1和数据Event2的语义一致性为:
其中,表示数据语义一致性计算函数;
根据两个数据的语义向量在高维语义向量空间的夹角余弦值,判断该两个数据的语义向量是否一致,如果越趋一致,则夹角越小,其余弦值越大,即越大。
进一步地,所述对数据的每个属性进行一致性检验,即属性一致性con_pro,包括:
,其中/>表示数据Event1的第i个属性,/>,其中/>表示数据Event2的第i个属性;
将同一属性的一致性记为con_pro,和/>在第k个属性分别有/>和/>个元素,分别记为集合/>和/>,和/>分别表示/>和/>在第k个属性中的第i个和第j个元素,对每一个/>和运用bert模型的Embedding层,得到向量表达形式/>和/>,其中/>表示/>在第k个属性中的第i个元素的语义向量中的第r个维度分量,/>表示/>在第k个属性的第j个元素的语义向量中的第r个维度分量,p表示语义向量的维度;记num=0,计算/>和/>的一致性/>;如果/>,则认为元素/>和/>相同,此时,num =num+1,最终得到两个数据在属性k的属性一致性con_pro:
其中,表示两个数据属性一致性计算函数,num是计数参数,用于计量两个数据在属性k中相同属性元素的个数,/>表示求一个集合内元素的个数,如果两个集合中一致的元素越多,表明两个集合越一致,即两个数据在该属性的一致性越高,越大。
进一步地,所述得到数据间的综合一致性con_com,包括:
得到数据和/>在所有属性的综合一致性/>,记count=0,当两个数据的属性k一致时,count=count+1,得到/>和/>的综合一致性,如下式所示:
其中,表示数据的综合一致性计算函数,count是计数参数,用于计量两个数据相同属性的个数;
最后,判断数据集的综合一致性,如果,且/>,则表明数据/>和/>在语义上和属性一致数量上均满足需求,即认为数据/>和/>数据是同一数据,对其进行属性元素的融合,实现数据补充与冗余剔除;其中,/>和/>是两个独立的数据一致性判断阈值,分别用于判断两个数据集在语义一致性方面是否满足条件,以及在综合一致性方面是否满足给定阈值条件。
进一步地,所述步骤3包括:
步骤31:用户根据自身需求,输入订阅条件,其中/>表示用户录入的第/>个需求;结合步骤2得到的候选用户订阅条件,记为/>,其中/>表示机器提炼得到用户的第/>个需求,判断候选用户订阅条件/>和输入订阅条件/>的一致性,最终生成综合约束集合;
步骤32:通过数据综合一致性算法计算规范化存储数据集中的各数据和综合约束集合之间的属性一致性及该属性下的要素一致性,如果数据的属性一致性及该属性下的要素一致性均满足阈值要求,即该数据满足综合约束集合,并将其添加到匹配数据集中;
步骤33:将匹配数据集推送给用户,实现数据信息按需组织分发。
进一步地,所述步骤31包括:
首先,按照数据的属性,分别对候选用户订阅条件和输入订阅条件/>进行划分,获得约束集合/>,其中,/>表示约束中的第j个属性,每个属性下有多个约束要素/>,则属性j下的约束要素集为/>,同理可得到输入订阅条件/>的第j个属性下的约束要素集/>,/>;
其次,运用数据一致性算法计算候选用户订阅条件和输入订阅条件/>在相同属性k下的要素一致性/>,以及属性k的一致性/>;如果/>超过阈值,则认为候选用户订阅条件/>和输入订阅条件/>的相同属性k是一致的;
最后,如果,则认为/>和/>是两个不同的约束要素,将/>和都加到综合约束集合/>中;如果/>,则认为这两个约束要素一致,只保留约束要素/>在综合约束集合/>中,最终形成综合约束集合/>;其中,/>表示判断约束要素是否为同一约束的阈值。
进一步地,所述步骤32包括:
针对步骤1得到的规范化存储数据集,记为,是第q个数据,/>,表示数据/>的第/>个属性,其下有多个属性要素/>,综合约束集合/>,/>是约束条件的属性,每个属性下有多个约束要素/>,判断数据/>是否满足订阅条件的综合约束集合C,只需计算集合/>和综合约束集合C之间的一致性即可,通过数据综合一致性算法得到/>和/>,如果/>和分别满足给定的阈值要求,即/>,/>,则表明证据规范化存储数据集E中的第q个数据/>满足综合约束集合C,此时,将/>添加到匹配数据集TE;同时,根据一致性的结果决定推荐优先级,即一致性越高,在匹配数据集TE中的推荐顺序越靠前;其中,/>和/>分别表示证据与订阅条件的语义一致性阈值和综合一致性阈值。
由于采用了上述技术方案,本发明具有如下的优点:通过对用户需求的精准把握,实现证据信息的高效、精准组织与分发,支撑用户研究的有序、高效开展。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种证据信息按需组织与精准分发方法的流程示意图。
具体实施方式
结合附图和实施例对本发明作进一步说明,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
参见图1,本发明提供了一种证据信息按需组织与精准分发方法的实施例,其包括:
S1:爬取网络上多个领域的相关数据信息并对其进行预处理,并对预处理得到的数据进行结构化存储,得到数据的规范化存储数据集。
S1包括S1至S3:
S11:数据存储。
由于数据量巨大,且数据类型多样,因此考虑构建分布式数据存储架构,设计三个存储模块,分别存储结构化、半结构化和非结构化的数据信息。
S12:数据预处理。
数据预处理主要是对数据进行时空对齐、属性补齐、去除冗余、删除不准确与不完整数据,提升数据的可用性。
S12包括S121至S123:
S121:时间对齐。
首先,利用通用信息抽取技术(UIE),得到数据的发布时间、时间修饰字符,如大前天、前天、昨天、明天、后天等。
UIE是一个基于大规模预训练的文本-结构模型,它利用Transformer学习数据中的基础和通用的知识,再通过通用语义表示,使用Transformer学习与任务相关的知识,运用标注微调技术,可实现文本时间、人物实体、地点名词等信息的抽取,以及文本类型的划分。
其次,通过查表方式得到与时间修饰字符的映射关系,见表1所示。
表1与时间修饰字符的映射关系
根据时间转移值与时间粒度/>(如年、月、时、分、秒等),结合数据的发布时间,即基准时间/>,表达形式XXXX年XX月XX日XX时:XX分:XX秒,通过/>,将偏移时间规范为YYYY年YY月YY日YY时:YY分:YY秒的形式,如时间粒度/>是“天”,时间转移值利用时,则偏移时间规范0年0月-2日0时:0分:0秒。
最后,将的规范表达式和偏移时间规范表达式上对应时间单位(年、月、日、时、分、秒)上的数值进行求和得到数据发生时间初始规范化表达/>,公式如下:
同时,利用时间的基本规则,如月的数值1≤m≤12,日对应的数值1≤d≤31,时的数值0≤h≤24,分对应的数值0≤min≤60,秒的数值0≤s≤60,对初始规范化表达进行处理,即让/>中的年、月、日、时和分等时间单位满足时间规范,规范后的时间结果记为时间的规范式表达/>。
S122:空间对齐。
首先,利用UIE通用信息抽取技术,得到数据中的地点名称,设数据中的空间名称为和,则空间名称可表示为多个地点名称单元的组合,即/>,其中,/>,表示所有地点名称单元组成的集合,/>表示第i个地点名称,/>表示第m个地点名称;,其中,/>,/>表示第j个地点名称,/>表示第n个地点名称;
取自然数;若/>=/>,p=1,2,...,q,则/>;通过如下计算公式,得到对空间名称的趋同值:
其中,表示空间名称/>与空间名称/>的趋同值,/>表示空间名称/>与空间名称/>的趋同值;
令,则/>表示/>与/>两个空间名称的趋同值;如果空间名称之间的趋同值超过给定的阈值,则认为两个空间名称是同一个地点名称,实现空间对齐。
S123:属性补齐与冗余去除。
首先,构造数据特征集合,利用UIE通用信息抽取技术抽取数据的属性,得到数据的规范化表达式,其中,Event表示数据本身,/>表示数据的第i个属性;/>表示数据属性数量;属性包括时间、地点、人物、实体、主题、类型和触发词;
其次,采用数据综合一致性算法,数据Event的文本信息经过bert模型的Embedding层,转化为文本语义向量,计算任何两个数据的语义一致性con_sem,其中,/>为数据Event文本语义向量中的第k个维度分量,p表示数据Event文本语义向量的维数;
在语义一致性的基础上,对数据的每个属性进行一致性检验,即属性一致性con_pro,最后得到数据间的综合一致性con_com。
假设任意两个数据的语义向量分别为、,其中,Event1表示第一个数据,/>为数据Event1文本语义向量中的第a个维度分量,p表示数据Event1文本语义向量的维数,Event2表示第二个数据,为数据Event2文本语义向量中的第a个维度分量,p表示数据Event2文本语义向量的维数,则数据Event1和数据Event2的语义一致性为:
其中,表示数据语义一致性计算函数;
根据两个数据的语义向量在高维语义向量空间的夹角余弦值,判断该两个数据的语义向量是否一致,如果越趋一致,则夹角越小,其余弦值越大,即越大。
但是,仅通过两个数据的语义一致性结果,去判断两个数据的一致性,往往容易出现错判,其原因在于语义一致性只考虑了文本的语义信息,并没有考虑文本的属性中的要素信息是否一致,导致文本语义相近,但是里面的特征要素出入很大,从而很有可能将两个不同对象的数据认定为同一数据或相近数据。因此在语义一致性的基础上,考虑每个数据的规范化表达式,对数据每个属性进行一致性检验,即属性一致性con_pro,最后得到数据间的综合一致性con_com。
,其中/>表示数据Event1的第i个属性,/>,其中/>表示数据Event2的第i个属性;
将同一属性的一致性记为con_pro,和/>在第k个属性分别有/>和/>个元素,分别记为集合/>和/>,和/>分别表示/>和/>在第k个属性中的第i个和第j个元素,对每一个/>和/>运用bert模型的Embedding层,得到向量表达形式/>和/>,其中/>表示/>在第k个属性中的第i个元素的语义向量中的第r个维度分量,/>表示/>在第k个属性的第j个元素的语义向量中的第r个维度分量,p表示语义向量的维度;记num=0,计算/>和/>的一致性/>;如果/>,则认为元素/>和/>相同,此时,num =num+1,最终得到两个数据在属性k的属性一致性con_pro:
其中,表示两个数据属性一致性计算函数,num是计数参数,用于计量两个数据在属性k中相同属性元素的个数,/>表示求一个集合内元素的个数,如果两个集合中一致的元素越多,表明两个集合越一致,即两个数据在该属性的一致性越高,越大。
得到数据和/>在所有属性的综合一致性/>,记count=0,当两个数据的属性k一致时,count=count+1,得到/>和/>的综合一致性,如下式所示:
其中,表示数据的综合一致性计算函数,count是计数参数,用于计量两个数据相同属性的个数;
最后,判断数据集的综合一致性,如果,且/>,则表明数据/>和/>在语义上和属性一致数量上均满足需求,即认为数据/>和/>数据是同一数据,对其进行属性元素的融合,实现数据补充与冗余剔除;其中,/>和/>是两个独立的数据一致性判断阈值,分别用于判断两个数据集在语义一致性方面是否满足条件,以及在综合一致性方面是否满足给定阈值条件。
S13:数据结构化存储。
运用UIE通用信息抽取技术提取经过预处理数据的信息,并将其进行结构化存储,最终得到数据的规范化存储数据集,其中/> 表示第/>个数据,/>表示数据/>的第/>个属性,最后将数据集存储在中间件中。
S2:自动搜集用户行为日志,通过爬取服务器的数据和日志,获得用户行为数据,对用户进行需求画像,提炼总结出用户的需求,生成候选用户订阅条件;该需求包括数据领域偏好、专题偏好、数据来源偏好和重点关注要素。
S2包括S21和S22:
S21:用户数据搜集。
为支撑系统自动生成候选用户订阅条件,需要系统搜集用户信息,主要包括用户基本信息,如性别、姓名、出生年月、从事职业、学历等信息,通过爬取服务器数据、日志,获得用户行为数据,并利用大数据技术对用户的数据进行分析、处理,构建一个用户数据库,支撑用户画像。
S22:用户订阅条件自动生成。
基于用户数据信息,通过分析用户的历史搜索数据、网页浏览数据,结合用户职业等信息,提炼出用户的数据领域偏好、专题偏好、数据来源偏好、重点关注要素等信息,从而生成候选用户订阅条件,其中/>表示机器提炼得到用户的第/>个需求。
S3:基于候选用户订阅条件和根据用户需求的输入订阅条件,生成综合约束集合,将满足综合约束集合的规范化存储数据集添加到匹配数据集中,并将得到的匹配数据集推送分发给用户。
S3包括S31至S33:
S31:用户根据自身需求,输入订阅条件,其中/>表示用户录入的第/>个需求;结合S2得到的候选用户订阅条件,记为/>,其中/>表示机器提炼得到用户的第/>个需求,判断候选用户订阅条件/>和输入订阅条件/>的一致性,最终生成综合约束集合;
S31具体包括:
首先,按照数据的属性,分别对候选用户订阅条件和输入订阅条件/>进行划分,获得约束集合/>,其中,/>表示约束中的第j个属性,每个属性下有多个约束要素/>,则属性j下的约束要素集为/>,同理可得到输入订阅条件/>的第j个属性下的约束要素集/>,/>;
其次,运用数据一致性算法计算候选用户订阅条件和输入订阅条件/>在相同属性k下的要素一致性/>,以及属性k的一致性/>;如果/>超过阈值,则认为候选用户订阅条件/>和输入订阅条件/>的相同属性k是一致的;
最后,如果,则认为/>和/>是两个不同的约束要素,则将/>和/>都加到综合约束集合/>中;如果/>,则认为这两个约束要素一致,只保留约束要素/>在综合约束集合/>中,最终形成综合约束集合/>;其中,/>表示判断约束要素是否为同一约束的阈值。
S32:通过数据综合一致性算法计算规范化存储数据集中的各数据和综合约束集合之间的属性一致性及该属性下的要素一致性,如果数据的属性一致性及该属性下的要素一致性均满足阈值要求,即该数据满足综合约束集合,并将其添加到匹配数据集中;
S32具体包括:
针对S1得到的规范化存储数据集,记为,/>是第q个数据,/>,表示数据/>的第/>个属性,其下有多个属性要素/>,综合约束集合/>,/>是约束条件的属性,每个属性下有多个约束要素/>,判断数据/>是否满足订阅条件的综合约束集合C,只需计算集合/>和综合约束集合C之间的一致性即可,通过数据综合一致性算法得到/>和/>,如果/>和/>分别满足给定的阈值要求,即/>,/>,则表明证据规范化存储数据集E中的第q个数据/>满足综合约束集合C,此时,将/>添加到匹配数据集TE;同时,根据一致性的结果决定推荐优先级,即一致性越高,在匹配数据集TE中的推荐顺序越靠前;其中,/>和/>分别表示证据与订阅条件的语义一致性阈值和综合一致性阈值。
S33:将匹配数据集推送给用户,实现数据信息按需组织分发。
将匹配数据集TE推送给用户,实现数据信息按需组织分发,减少用户在数据搜索、查找上耗费时间。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种证据信息按需组织与精准分发方法,其特征在于,包括:
步骤1:爬取网络上多个领域的相关数据信息并对其进行预处理,并对预处理得到的数据进行结构化存储,得到数据的规范化存储数据集;
步骤2:自动搜集用户行为日志,通过爬取服务器的数据和日志,获得用户行为数据,对用户进行需求画像,提炼总结出用户的需求,生成候选用户订阅条件;该需求包括数据领域偏好、专题偏好、数据来源偏好和重点关注要素;
步骤3:基于候选用户订阅条件和根据用户需求的输入订阅条件,生成综合约束集合,将满足综合约束集合的规范化存储数据集添加到匹配数据集中,并将得到的匹配数据集推送分发给用户。
2.根据权利要求1所述的方法,其特征在于,所述步骤1包括:
步骤11:构建分布式数据存储架构,设计三个存储模块,分别存储结构化、半结构化和非结构化的数据信息;
步骤12:对数据进行预处理包括对数据进行时间对齐、空间对齐、属性补齐与去除冗余以及删除不准确与不完整数据;
步骤13:运用通用信息抽取技术,提取经过预处理的数据,并将其进行结构化存储,最终得到数据的规范化存储数据集。
3.根据权利要求2所述的方法,其特征在于,在所述步骤12中,对数据进行时间对齐,包括:
首先,利用UIE通用信息抽取技术得到数据的发布时间和时间修饰字符,其中,时间修饰字符包括大前天、前天、昨天、明天和后天;
其次,通过查表方式得到时间转移值与时间修饰字符的映射关系;
最后,将基准时间的规范表达式和偏移时间规范表达式对应的时间单位上的数值进行求和,得到数据发生时间的初始规范化表达/>,所采用的公式为:
其中,G表示时间粒度,同时,基于不同时间单位的取值范围,对进行处理,即让/>中的年、月、日、时和分时间单位满足时间规范,规范后的时间结果记为时间的规范式表达/>;
对数据进行空间对齐,包括:
首先,利用UIE通用信息抽取技术,得到数据中的地点名称,设数据中的空间名称为和/>,则空间名称可表示为多个地点名称单元的组合,即/>,其中,,/>表示所有地点名称单元组成的集合,/>表示第i个地点名称,/>表示第m个地点名称;/>,其中,/>,/>表示第j个地点名称,/>表示第n个地点名称;
取自然数;若/>=/>,p=1,2,...,q,则/>;通过如下计算公式,得到对空间名称的趋同值:
其中,表示空间名称/>与空间名称/>的趋同值,/>表示空间名称/>与空间名称/>的趋同值;
令,则/>表示/>与/>两个空间名称的趋同值;如果空间名称之间的趋同值超过给定的阈值,则认为两个空间名称是同一个地点名称,实现空间对齐。
4.根据权利要求2所述的方法,其特征在于,在所述步骤12中,对数据进行属性补齐与去除冗余,包括:
首先,构造数据特征集合,利用UIE通用信息抽取技术抽取数据的属性,得到数据的规范化表达式,其中,Event表示数据本身,/>表示数据的第i个属性;/>表示数据属性数量;属性包括时间、地点、人物、实体、主题、类型和触发词;
其次,采用数据综合一致性算法,数据Event的文本信息经过bert模型的Embedding层,转化为文本语义向量,计算任何两个数据的语义一致性con_sem,其中,/>为数据Event文本语义向量中的第k个维度分量,p表示数据Event文本语义向量的维数;
在语义一致性的基础上,对数据的每个属性进行一致性检验,即属性一致性con_pro,最后得到数据间的综合一致性con_com。
5.根据权利要求4所述的方法,其特征在于,所述计算任何两个数据的语义一致性con_sem,包括:
假设任意两个数据的语义向量分别为、/>,其中,Event1表示第一个数据,/>为数据Event1文本语义向量中的第a个维度分量,p表示数据Event1文本语义向量的维数,Event2表示第二个数据,/>为数据Event2文本语义向量中的第a个维度分量,p表示数据Event2文本语义向量的维数,则数据Event1和数据Event2的语义一致性为:
其中,表示数据语义一致性计算函数;
根据两个数据的语义向量在高维语义向量空间的夹角余弦值,判断该两个数据的语义向量是否一致,如果越趋一致,则夹角越小,其余弦值越大,即越大。
6.根据权利要求4所述的方法,其特征在于,所述对数据的每个属性进行一致性检验,即属性一致性con_pro,包括:
,其中/>表示数据Event1的第i个属性,/>,其中/>表示数据Event2的第i个属性;
将同一属性的一致性记为con_pro,和/>在第k个属性分别有/>和/>个元素,分别记为集合/>和/>,和/>分别表示/>和/>在第k个属性中的第i个和第j个元素,对每一个/>和运用bert模型的Embedding层,得到向量表达形式/>和,其中/>表示/>在第k个属性/>中的第i个元素的语义向量中的第r个维度分量,/>表示/>在第k个属性/>的第j个元素的语义向量中的第r个维度分量,p表示语义向量的维度;记num=0,计算/>和的一致性/>;如果/>,则认为元素/>和/>相同,此时,num =num+1,最终得到两个数据在属性k的属性一致性con_pro:
其中,表示两个数据属性一致性计算函数,num是计数参数,用于计量两个数据在属性k中相同属性元素的个数,/>表示求一个集合内元素的个数,如果两个集合中一致的元素越多,表明两个集合越一致,即两个数据在该属性的一致性越高,越大。
7.根据权利要求6所述的方法,其特征在于,所述得到数据间的综合一致性con_com,包括:
得到数据和/>在所有属性的综合一致性/>,记count=0,当两个数据的属性k一致时,count=count+1,得到/>和/>的综合一致性,如下式所示:
其中,表示数据的综合一致性计算函数,count是计数参数,用于计量两个数据相同属性的个数;
最后,判断数据集的综合一致性,如果,且/>,则表明数据/>和/>在语义上和属性一致数量上均满足需求,即认为数据/>和/>数据是同一数据,对其进行属性元素的融合,实现数据补充与冗余剔除;其中,/>和/>是两个独立的数据一致性判断阈值,分别用于判断两个数据集在语义一致性方面是否满足条件,以及在综合一致性方面是否满足给定阈值条件。
8.根据权利要求1所述的方法,其特征在于,所述步骤3包括:
步骤31:用户根据自身需求,输入订阅条件,其中/>表示用户录入的第/>个需求;结合步骤2得到的候选用户订阅条件,记为/>,其中/>表示机器提炼得到用户的第/>个需求,判断候选用户订阅条件/>和输入订阅条件/>的一致性,最终生成综合约束集合;
步骤32:通过数据综合一致性算法计算规范化存储数据集中的各数据和综合约束集合之间的属性一致性及该属性下的要素一致性,如果数据的属性一致性及该属性下的要素一致性均满足阈值要求,即该数据满足综合约束集合,并将其添加到匹配数据集中;
步骤33:将匹配数据集推送给用户,实现数据信息按需组织分发。
9.根据权利要求8所述的方法,其特征在于,所述步骤31包括:
首先,按照数据的属性,分别对候选用户订阅条件和输入订阅条件/>进行划分,获得约束集合/>,其中,/>表示约束中的第j个属性,每个属性下有多个约束要素/>,则属性j下的约束要素集为/>,同理可得到输入订阅条件的第j个属性下的约束要素集/>,/>;
其次,运用数据一致性算法计算候选用户订阅条件和输入订阅条件/>在相同属性k下的要素一致性/>,以及属性k的一致性/>;如果/>超过阈值,则认为候选用户订阅条件/>和输入订阅条件/>的相同属性k是一致的;
最后,如果,则认为/>和/>是两个不同的约束要素,将/>和都加到综合约束集合/>中;如果/>,则认为这两个约束要素一致,只保留约束要素/>在综合约束集合/>中,最终形成综合约束集合/>;其中,/>表示判断约束要素是否为同一约束的阈值。
10.根据权利要求9所述的方法,其特征在于,所述步骤32包括:
针对步骤1得到的规范化存储数据集,记为,/>是第q个数据,/>,表示数据/>的第/>个属性,其下有多个属性要素/>,综合约束集合/>,/>是约束条件的属性,每个属性下有多个约束要素/>,判断数据/>是否满足订阅条件的综合约束集合C,只需计算集合/>和综合约束集合C之间的一致性即可,通过数据综合一致性算法得到/>和/>,如果/>和/>分别满足给定的阈值要求,即/>,/>,则表明证据规范化存储数据集E中的第q个数据/>满足综合约束集合C,此时,将/>添加到匹配数据集TE;同时,根据一致性的结果决定推荐优先级,即一致性越高,在匹配数据集TE中的推荐顺序越靠前;其中,/>和/>分别表示证据与订阅条件的语义一致性阈值和综合一致性阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410199495.9A CN117807293B (zh) | 2024-02-23 | 一种证据信息按需组织与精准分发方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410199495.9A CN117807293B (zh) | 2024-02-23 | 一种证据信息按需组织与精准分发方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117807293A true CN117807293A (zh) | 2024-04-02 |
CN117807293B CN117807293B (zh) | 2024-05-14 |
Family
ID=
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080155602A1 (en) * | 2006-12-21 | 2008-06-26 | Jean-Luc Collet | Method and system for preferred content identification |
CN105320644A (zh) * | 2015-09-23 | 2016-02-10 | 陕西中医药大学 | 一种基于规则的自动汉语句法分析方法 |
CN107122403A (zh) * | 2017-03-22 | 2017-09-01 | 安徽大学 | 一种网页学术报告信息抽取方法和系统 |
CN108549694A (zh) * | 2018-04-16 | 2018-09-18 | 南京云问网络技术有限公司 | 一种文本中时间信息的处理方法 |
WO2019134274A1 (zh) * | 2018-01-05 | 2019-07-11 | 武汉斗鱼网络科技有限公司 | 兴趣探索方法、存储介质、电子设备及系统 |
CN112347243A (zh) * | 2019-08-06 | 2021-02-09 | 傅天信 | 一种基于大数据收集、处理和个性化展示推送的企业破产信息服务方法 |
CN114547309A (zh) * | 2022-03-01 | 2022-05-27 | 黄连福 | 一种基于改进tfidf的文本特征选择方法 |
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080155602A1 (en) * | 2006-12-21 | 2008-06-26 | Jean-Luc Collet | Method and system for preferred content identification |
CN105320644A (zh) * | 2015-09-23 | 2016-02-10 | 陕西中医药大学 | 一种基于规则的自动汉语句法分析方法 |
CN107122403A (zh) * | 2017-03-22 | 2017-09-01 | 安徽大学 | 一种网页学术报告信息抽取方法和系统 |
WO2019134274A1 (zh) * | 2018-01-05 | 2019-07-11 | 武汉斗鱼网络科技有限公司 | 兴趣探索方法、存储介质、电子设备及系统 |
CN108549694A (zh) * | 2018-04-16 | 2018-09-18 | 南京云问网络技术有限公司 | 一种文本中时间信息的处理方法 |
CN112347243A (zh) * | 2019-08-06 | 2021-02-09 | 傅天信 | 一种基于大数据收集、处理和个性化展示推送的企业破产信息服务方法 |
CN114547309A (zh) * | 2022-03-01 | 2022-05-27 | 黄连福 | 一种基于改进tfidf的文本特征选择方法 |
Non-Patent Citations (3)
Title |
---|
L MARTÍNEZ等: "Multidimensional vector space representation for convergent evolution and molecular phylogeny", 《BMC BIOINFORMATICS》, 22 August 2007 (2007-08-22), pages 1 - 15 * |
韩阿友等: "视觉—语义双重解纠缠的广义零样本学习", 《中国图象图形学报》, 16 September 2023 (2023-09-16), pages 2913 - 2926 * |
高源等: "基于词典特征优化和依存关系的中文时间表达式识别", 《信息工程大学学报》, 15 August 2016 (2016-08-15), pages 490 - 495 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11281626B2 (en) | Systems and methods for management of data platforms | |
US11714831B2 (en) | Data processing and classification | |
US9613024B1 (en) | System and methods for creating datasets representing words and objects | |
US10198460B2 (en) | Systems and methods for management of data platforms | |
US8131684B2 (en) | Adaptive archive data management | |
Deshpande et al. | Text summarization using clustering technique | |
KR20090010185A (ko) | 싱글 및 멀티플 택소노미 관리 방법 및 시스템 | |
US11106719B2 (en) | Heuristic dimension reduction in metadata modeling | |
US20060085405A1 (en) | Method for analyzing and classifying electronic document | |
US20200250212A1 (en) | Methods and Systems for Searching, Reviewing and Organizing Data Using Hierarchical Agglomerative Clustering | |
WO2023134057A1 (zh) | 事务信息查询方法、装置、计算机设备及存储介质 | |
Li et al. | An intelligent approach to data extraction and task identification for process mining | |
Sleeman et al. | Entity type recognition for heterogeneous semantic graphs | |
WO2023035330A1 (zh) | 一种长文本事件抽取方法、装置、计算机设备及存储介质 | |
Färber et al. | The Microsoft Academic Knowledge Graph enhanced: Author name disambiguation, publication classification, and embeddings | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
CN113342976A (zh) | 一种自动采集处理数据的方法、装置、存储介质及设备 | |
CN115982429B (zh) | 一种基于流程控制的知识管理方法及系统 | |
Bhargava et al. | Learning to map wikidata entities to predefined topics | |
CN117807293B (zh) | 一种证据信息按需组织与精准分发方法 | |
CN115878761A (zh) | 事件脉络生成方法、设备及介质 | |
CN117807293A (zh) | 一种证据信息按需组织与精准分发方法 | |
CN113254623B (zh) | 数据处理方法、装置、服务器、介质及产品 | |
Fatemi et al. | Record linkage to match customer names: A probabilistic approach | |
CN112445905A (zh) | 一种信息处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |