CN117560380A - 一种基于智能合约的数据语用提取系统 - Google Patents
一种基于智能合约的数据语用提取系统 Download PDFInfo
- Publication number
- CN117560380A CN117560380A CN202410040026.2A CN202410040026A CN117560380A CN 117560380 A CN117560380 A CN 117560380A CN 202410040026 A CN202410040026 A CN 202410040026A CN 117560380 A CN117560380 A CN 117560380A
- Authority
- CN
- China
- Prior art keywords
- data
- language
- digital
- contract
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000004806 packaging method and process Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 61
- 230000008569 process Effects 0.000 claims description 50
- 230000006855 networking Effects 0.000 claims description 34
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims 1
- 230000001141 propulsive effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 14
- 239000000284 extract Substances 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000005538 encapsulation Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/104—Peer-to-peer [P2P] networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0807—Network architectures or network communication protocols for network security for authentication of entities using tickets, e.g. Kerberos
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
- H04L67/146—Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/50—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种基于智能合约的数据语用提取系统,涉及计算机技术领域,旨在程序化提取数据语用。所述系统包括:用户请求处理模块,用于在接收到数联网的注册账户发送的数据推送请求时,向数据应用仓库请求数据推送请求对应的数据应用标识,并将数据应用标识发送到区块链上;智能合约,用于接收数据应用标识,并调用预言机合约,将数据应用标识传输给预言机合约;预言机合约,用于向数据语用提取推送模块提供数据应用标识;数据语用提取推送模块,用于从数据应用仓库提取数据应用标识对应的业务流程数据,并将业务流程数据转换为数据语用,将数据语用封装为数字对象,并将数字对象发布到数联网的语用网络,将数字对象的标识返回智能合约。
Description
技术领域
本公开涉及计算机技术技术领域,特别是涉及一种基于智能合约的数据语用提取系统。
背景技术
智能合约(Smart Contract)是一种在区块链内部实施的自动执行协议。智能合约实际上是一种在区块链上运行的程序,具有与其他合约互动、做出决策和存储数据等功能。智能合约允许在无需第三方参与的情况下进行可信的交易,这些交易能被追踪且具有不可逆性。在执行过程中,智能合约可以调用其他已经部署的合约,只要知道这些合约的地址和函数签名,这进一步扩展了智能合约的功能。
大语言模型(Large Language Model,LLM)是基于大量数据进行预训练的超大型深度学习模型。其核心构成是转换器(Transformer),这是一种神经网络结构,由自注意力(Self-Attention)机制的编码器和解码器组成。编码器和解码器能从文本序列中提取含义,并理解其中单词和短语间的联系。转换器能进行自我学习,通过这个过程,它可以理解基本的语法、语言构造以及知识表征。
数联网是基于互联网的虚拟数据网络,通过开放式软件体系结构和标准化协议,高效连接各种数据平台和系统,支撑异构异域数据的互联互通互操作,形成“数据互联、应需调度、域内自主、域间协作”的数据空间。数据资源以数据应用的形式存在,数据应用的数据统称为业务流程数据。不同领域内数据使用规约的异构性,使得数联网中数据流转流程和执行规约的检查变得复杂,难以通过程序化方式实现。
发明内容
鉴于上述问题,本公开实施例提供了一种基于智能合约的数据语用提取系统,以便克服上述问题或者至少部分地解决上述问题。
本公开实施例提供了一种基于智能合约的数据语用提取系统,所述系统应用于基于区块链的数联网,所述系统包括:用户请求处理模块、智能合约、预言机合约、数据语用提取推送模块;所述数据语用提取推送模块是基于大语言模型构建的;
所述用户请求处理模块,用于在接收到所述数联网的注册账户发送的数据推送请求时,向数据应用仓库请求所述数据推送请求对应的数据应用标识,并将所述数据应用标识发送到区块链上;
所述智能合约,用于接收所述数据应用标识,并调用所述预言机合约,将所述数据应用标识传输给所述预言机合约;
所述预言机合约,用于向所述数据语用提取推送模块提供所述数据应用标识;
所述数据语用提取推送模块,用于从所述数据应用仓库提取所述数据应用标识对应的业务流程数据,并将所述业务流程数据转换为数据语用,将所述数据语用封装为数字对象,并将所述数字对象发布到所述数联网的语用网络,将所述数字对象的标识返回所述智能合约;其中,所述数据语用为:描述数据在特定数据应用语境中的使用的语句;所述数据语用的格式统一,所述业务流程数据包括多模态数据。
可选地,所述系统还包括:记录区块;
所述记录区块,用于在所述智能合约接收到返回的所述数字对象的标识之后,记录此次交易。
可选地,所述系统还包括:记录追溯模块;
所述用户请求处理模块,还用于在接收到所述数联网的注册账户发送的交易查找请求时,触发所述记录追溯模块;
所述记录追溯模块,用于向所述数联网的中心账户集群提出查找请求,得到所述数联网的中心账户集群查找到的交易记录,并将所述交易记录返回给所述数联网的注册账户。
可选地,所述系统还包括所述区块链下的预言机节点集群;
所述预言机合约,具体用于向预言机节点集群发布合约处理请求,以及通过所述预言机节点集的传递,向所述数据语用提取推送模块提供所述数据应用标识;
所述预言机节点集群,用于在监听到所述合约处理请求后,向所述数据语用提取推送模块发送HTTP GET请求,并传递所述数据应用标识;
所述数据语用提取推送模块,具体用于在监听到所述HTTP GET请求后,从所述数据应用仓库提取所述数据应用标识对应的业务流程数据;
所述数据语用提取推送模块,具体用于通过所述预言机节点集群的传递,将所述数字对象的标识返回所述智能合约。
可选地,所述数据语用提取推送模块包括:预处理层、转换层和推送层;所述转换层包括大语言模型;
所述数据语用提取推送模块将所述业务流程数据转换为所述数据语用,将所述数据语用封装为所述数字对象,包括:
所述预处理层将所述业务流程数据转换为软提示,所述软提示为大语言模型理解的数据;
所述转换层将所述软提示输入所述大语言模型,得到所述数据语用;
所述推送层获取存放所述数据语用的数字仓库的标识和定位,并将所述数字仓库的标识和定位,以及所述数据语用封装为所述数字对象。
可选地,所述系统还包括数字对象封装模块;
所述推送层,具体用于调用所述数字对象封装模块;
所述数字对象封装模块,用于从数联网交换机和数联网定位网络获取所述数字仓库的标识和定位,将所述数据语用封装为所述数字对象,并将所述数字对象存储在所述数字仓库,并返回所述数字对象的标识。
可选地,所述业务流程数据是:数据应用中对数据资源的内容、组织、流动、输入过程和输出过程的序列化描述;所述多模态数据包括:结构化数据、描述文本和流程图;
所述预处理层,具体用于在所述业务流程数据包括流程图、描述文本和结构化数据的情况下,将所述流程图输入到图像编码模块,得到图像特征向量,获取所述描述文本和所述结构化数据的文本信息,将所述图像特征向量和所述文本信息进行融合,得到所述软提示。
可选地,所述转换层是对预训练的大语言模型进行参数高效微调得到的。
可选地,所述数联网的注册账户具有私钥,所述私钥用于访问交易记录。
可选地,所述数据语用包括:定位信息、语用信息和应用;
所述定位信息记录了定位到所述数据语用的信息;
所述语用信息为使用数据语用标记语言进行定义的信息,用于记录应用对数据和算法的使用情况;
所述应用为执行数据操作的客体,用于使用算法对数据进行处理,并产生结果。
本公开实施例包括以下优点:
本公开实施例中,定义了数据语用,基于大语言模型构建的数据语用提取推送模块,可以自动将不同模态的业务流程数据转换为统一格式的数据语用,以便业务流程数据在数联网中进行流转;智能合约可以实现对数据语用的自动化提取过程的防篡改性和可追溯性;预言机合约可以实现链下的数据语用提取推送模块的调用,从而完成业务流程数据向数据语用的转换、数字对象的封装与将数字对象推送至数联网语用网络的功能。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例中数联网运行架构示意图;
图2是本公开实施例中基于智能合约的数据语用提取系统的架构示意图;
图3是本公开实施例中基于智能合约的数据语用提取系统中交互数据流的示意图;
图4是本公开实施例中数据语用的组成部分示意图;
图5是本公开实施例中DPML格式的一个示例;
图6是本公开实施例数据语用提取推送模块的结构示意图;
图7是本公开实施例中预处理层的架构示意图;
图8是本公开实施例中转换层的架构示意图;
图9是本公开实施例中推送层的架构示意图。
具体实施方式
为使本公开的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本公开作进一步详细的说明。
数联网是以数据语用作为一阶实体形成的一张逻辑网络。数据语用和数据资源来自各个数据空间,由各个空间自治管理,在每个空间中,通过数联网交换机接入到数联网基础设施。本公开实施例中,数联网包括数联网定位系统和数联网语用系统。
数据语用(Data Pragmatics,DP)是描述数据在特定数据应用语境中如何使用的语句。DPML(Data Pragamatics Markup Language,数据语用标记语言)是一种标记语言,类似于HTML语言(一种超文本标记语言),用于描述数据的使用。数据语用以DPML格式表现,包含了供方视角的数据语法和语义、供需多方对语用形成的共识(场景)以及需方视角的数据语法和语义(语用)。由于不同空间的标识的异构性、数据资源的异构性和数据应用的异构性,数联网基础设施提供了统一的、简单的抽象。针对异构数据应用,数联网通过DPML进行抽象,仅关注数据应用中,数据、算法之间的关系(即数据语用),并且由空间自治地决定哪些数据语用发布到数联网上。
从数据语用的角度看,数联网就是数据资源通过数据语用形成的一张网络。对于数联网的客户而言,实现不同数据应用业务流程的数据流转需要将各自数据空间内部的数据应用抽象成数据语用,数据语用与存放语用的仓库的标识和定位信息一起组成了数字对象(Digital Object,DO)。如图1所示,数字对象存储在数联网基础设施中,用户可以通过在数联网中访问数字对象以进行数据资源的流转与应用。
如图1所示,数联网南向接口为数联网交换机与数据空间交互的接口。该接口面向数据对象发布者,实现数据定位与标识信息的生成、业务流程数据到数据语用的转换,并将其封装成数字对象发布在数联网上。从协议层面看,数联网南向接口分为DOIP(DigitalObject Interface Protocol,数字对象接口协议)协议和DO-IRP(Digital ObjectIdentifier Resolution Protocol,数字对象标识解析协议)协议;从内容访问角度看,它包括数据的标识、描述和内容三个部分。其中,DO-IRP协议处理数据标识的交互,而DOIP协议负责数据描述和内容的交互。
然而,不同领域内数据使用规约的异构性,使得数据流转流程和执行规约的检查变得复杂,难以通过程序化方式实现。本公开实施例提供的基于智能合约的数据语用提取系统,能够从数据应用中提取数据语用,为数联网客户提供多领域异构规约的统一自动化转换。
本公开实施例提出了一种基于智能合约的业务流程数据语用建模装置,作为数联网南向接口的核心推送机制。本公开实施例的基于智能合约的数据语用提取系统不仅能够从用户数据应用中提取业务流程,将其转换数据语用并封装成数字对象后推送至数联网上,而且通过区块链技术提供了一条追溯数据语用来源的链路。这一设计极大地增强了业务流程数据语用提取过程的安全性和可靠性,确保了数据完整性和透明度。
本公开实施例的创新之处在于它结合了区块链的不可篡改性和智能合约的自动执行特性,解决了传统数据处理方式中常见的安全和效率问题。通过智能合约自动化地执行数据提取和封装流程,不仅提高了操作效率,还降低了人为错误的风险。同时,借助区块链技术,本公开实施例的基于智能合约的数据语用提取系统能够确保一旦数据被记录,就无法被更改或删除,从而提供了数据来源和处理过程的完整可追溯记录。这一特性对于需求高度数据安全性和可靠性的领域尤为重要。
图2是本公开实施例中基于智能合约的数据语用提取系统的架构示意图。本公开实施例中基于智能合约的数据语用提取系统,应用于基于区块链的数联网。基于智能合约的数据语用提取系统包括:用户请求处理模块、智能合约、预言机合约、数据语用提取推送模块;所述数据语用提取推送模块是基于大语言模型构建的。
所述用户请求处理模块,用于在接收到所述数联网的注册账号发送的数据推送请求时,向数据应用仓库请求所述数据推送请求对应的数据应用标识,并将所述数据应用标识发送到区块链上;
所述智能合约,用于接收所述数据应用标识,并调用所述预言机合约,将所述数据应用标识传输给所述预言机合约;
所述预言机合约,用于向所述数据语用提取推送模块提供所述数据应用标识;
所述数据语用提取推送模块,用于从所述数据应用仓库提取所述数据应用标识对应的业务流程数据,并将所述业务流程数据转换为数据语用,将所述数据语用封装为数字对象,并将所述数字对象发布到所述数联网的语用网络,将所述数字对象的标识返回所述智能合约;其中,所述数据语用为:描述数据在特定数据应用语境中的使用的语句;所述数据语用的格式统一,所述业务流程数据包括多模态数据。
为了整合区块链的功能,本公开实施例的基于智能合约的数据语用提取系统中部署了私有链,并为每个数联网数据应用注册以太坊账户,并分配私钥;同时在私有链上部署智能合约,通过以太坊的预言机机制,调用部署在链下分布式集群上的数据语用提取推送模块,完成业务流程向数据语用的转换、数字对象的封装与将数字对象推送至数联网语用网络的功能。预言机合约是指获取、验证外部信息(即存储在链下的信息)并将外部信息传送给在区块链上运行的智能合约的应用程序。除了“拉取”链下数据并在以太坊进行广播之外,预言机合约还将信息从区块链“推送”到外部系统。预言机合约充当一座“桥梁”,连接区块链上的智能合约与链下数据提供者。如果没有预言机合约,智能合约应用程序只能访问链上数据。预言机合约提供了一种使用链下数据触发智能合约功能的机制。用户可以通过私有链的区块记录查询交易记录功能,追溯数据语用的源头数据应用。
为确保仅数联网用户具有系统的使用权限,本公开实施例基于以太坊搭建私有链。每一个数联网用户的注册都会同时在私有链上为其注册一个账户,同时配备了私钥,仅用户本身可以访问私钥。用户可以通过私钥访问交易记录,追溯数字对象的源头数据应用。同时为了确保交易的进行,数联网服务器会注册一个账户集群,作为交易的默认接收方。数联网服务器可以通过私有链接口访问交易区块查看交易记录。
可选地,本公开实施例基于以太坊ERC721(Ethereum Request for Comments721,一种技术标准)开发标准开发智能合约,用以实现系统的数据语用的提取和推送。在编写智能合约后,交由以太坊虚拟机编译字节码,部署在私有链上。以太坊为智能合约生成一个合约账户,并配备地址,用户通过调用合约的接口函数进入基于智能合约的数据语用提取系统,实现业务流程的数据语用提取和推送。
智能合约是确定性系统,意味着智能合约只能通过预言机访问链下数据。本公开实施例设计预言机合约部署在区块链上,预言机合约侦听数据语用提取推送智能合约的请求,接收数据应用的标识信息,将请求转发到链下的预言机节点,预言机节点向数据语用提取推送模块发送HTTP GET(从服务器获取数据)请求,执行数据语用推送提取操作,并返回数字对象的标识。可选地,本公开实施例的预言机网络采用Chainlink(链环)去中心化预言机网络以增强用户数据的安全性。
在上述技术方案的基础上,基于智能合约的数据语用提取系统还包括:记录区块;所述记录区块,用于在所述智能合约接收到返回的所述数字对象的标识之后,记录此次交易。
基于智能合约的数据语用提取系统还包括:记录追溯模块;
所述用户请求处理模块,还用于在接收到所述数联网的注册账户发送的交易查找请求时,触发所述记录追溯模块;
所述记录追溯模块,用于向所述数联网的中心账户集群提出查找请求,得到所述数联网的中心账户集群查找到的交易记录,并将所述交易记录返回给所述数联网的注册账户。
在上述技术方案的基础上,基于智能合约的数据语用提取系统还包括所述区块链下的预言机节点集群;
所述预言机合约向所述数据语用提取推送模块提供所述数据应用标识,具体可以包括:向预言机节点集群发布合约处理请求,以及通过所述预言机节点集的传递,向所述数据语用提取推送模块提供所述数据应用标识;
所述预言机节点集群,用于在监听到所述合约处理请求后,向所述数据语用提取推送模块发送HTTP GET请求,并传递所述数据应用标识;
所述数据语用提取推送模块从所述数据应用仓库提取所述数据应用标识对应的业务流程数据,具体可以包括:在监听到所述HTTP GET请求后,从所述数据应用仓库提取所述数据应用标识对应的业务流程数据;
所述数据语用提取推送模块将所述数字对象的标识返回所述智能合约,具体可以包括:通过所述预言机节点集群的传递,将所述数字对象的标识返回所述智能合约。
图3是本公开实施例中基于智能合约的数据语用提取系统中交互数据流的示意图。数联网的注册账户在调用基于智能合约的数据语用提取系统中的数据语用提取和推送功能、交易记录查找功能时,基于智能合约的数据语用提取系统执行流程如下:
数联网的注册账户向基于智能合约的数据语用提取系统发送数据推送请求,基于智能合约的数据语用提取系统中的用户请求处理模块接收到数据推送请求,并向数据应用仓库请求数据推送请求对应的数据应用标识。
数联网向数联网的注册账户自动请求,访问智能合约账户地址,调用智能合约。
智能合约调用预言机合约,将数据应用标识数据传给预言机合约。预言机合约向链下预言机节点集群发布消息,提供数据应用标识数据。
预言机节点集群向数据语用提取推送模块发送HTTP GET请求,数据语用提取推送模块从数据应用仓库提取对用数据应用的业务流程,自动提取数据语用,封装为数字对象,发布到数联网语用网络,并为预言机节点集群提供数字对象的标识。
预言机节点集群将数字对象标识返回链上,智能合约结束交易流程,将数字对象标识数据发送给数联网中心账户集群,交易记录被存储在记录区块中。
数联网的注册账户向数联网请求交易记录追溯,数联网记录追溯模块通过数联网中心账户集群来访问记录区块,获得交易记录返回该数联网的注册账户。
业务流程数据是指数据应用中对数据资源的内容、组织、流动和输入输出过程的序列化描述。业务流程数据内包含了数据应用中数据资源和数据使用的几乎全部信息,并以序列化的方式给出了数据资源的使用流程和处理结果。业务流程有多种形式,包括结构化语言、文本描述、流程图等多模态数据。
相较于业务流程,数据语用实质上是数据应用在数联网中的一个“快照”,保留了数据应用的关键信息。如图4所示,数据语用的组成部分主要包括:定位信息、语用信息和应用。其中,定位信息记录了如何定位到具体的语用等信息。语用信息使用DPML进行定义,记录应用对于数据和算法的使用情况。应用是执行数据操作的客体,应用执行过程中使用算法对于数据进行处理,并产生结果。
图5是本公开实施例中DPML格式的一个示例。在图5中,DPML格式与数据语用仅关心数据本身,算法本身和输出结果,这大大简化了数据语用的生成、解析与流转。
在上述技术方案的基础上,所述数据语用提取推送模块包括:预处理层、转换层和推送层;所述转换层包括大语言模型;
所述数据语用提取推送模块将所述业务流程数据转换为所述数据语用,将所述数据语用封装为所述数字对象,包括:
所述预处理层将所述业务流程数据转换为软提示,所述软提示为大语言模型理解的数据;
所述转换层将所述软提示输入所述大语言模型,得到所述数据语用;
所述推送层获取存放所述数据语用的数字仓库的标识和定位,并将所述数字仓库的标识和定位,以及所述数据语用封装为所述数字对象。
基于智能合约的数据语用提取系统的核心模块为区块链下的数据语用提取推送模块。如图6所示,数据语用提取推送模块分为三层,分别是预处理层、转换层和推送层。预处理层负责将不同应用场景下的数据应用提供的多模态业务流程数据统一转换为易于被数据语用提取模型理解的软提示(Soft Prompt),然后输入到转换层。转换层负责将预处理层的输出转换为DPML格式的数据语用。最后,推送层负责将数据语用封装成数字对象,并将其推送到数联网上。
预处理层从数据应用中提取业务流程数据,将多模态业务流程数据转换为便于被大语言模型理解的软提示,作为转换层的输入。图7是本公开实施例中预处理层的架构示意图。预处理层基于BLIP2(Bootstrapping Language-Image Pre-training)预训练框架。
硬提示(Hard Prompt)或离散提示(Discrete Prompt)是由自然语言词汇组成提示,它是人工可读的提示。软提示或连续提示(Continuous Prompts)是通过向量空间连续优化得到的提示,从硬提示开始通过过反向传播和梯度下降更新参数来学习提示,而不是人工设计提示。软提示缺乏可解释性,但作为大语言模型的输入时在输出上会具备更好的性能。
预处理层包括业务流程输入接收模块,业务流程输入接收模块从数联网数据应用中提取业务流程数据,输入到预处理层中。若业务流程数据包括流程图,则将流程如输入到图像编码模块,提取图像特征向量;在业务流程数据还包括结构化数据和/或描述文本的情况下,可以根据结构化数据和/或描述文本获取文本信息;将图像编码模块输出的图像特征向量与文本信息(输入到数据融合模块,生成软提示。
图8是本公开实施例中转换层的架构示意图。转换层是对预训练的大语言模型进行参数高效微调得到的,此处的参数高效微调是指一种微调技术。转换层的功能是将预处理层得到的软提示输入到数据语用提取模型。数据语用提取模型是基于大语言模型技术预训练而来。可选地,本公开实施例采用PEFT (Parameter-Efficient Fine-Tuning,参数高效微调)技术中的P-Tuning方法(一种大模型参数微调方法)对基础大语言模型进行微调训练,以完成具体应用场景的转换任务。
基于智能合约的数据语用提取系统还包括数字对象封装模块;
所述推送层获取存放所述数据语用的数字仓库的标识和定位,并将所述数字仓库的标识和定位,以及所述数据语用封装为所述数字对象,可以是推送层调用数字对象封装模块;所述数字对象封装模块从数联网交换机和数联网定位网络获取所述数字仓库的标识和定位,将所述数据语用封装为所述数字对象,并将所述数字对象存储在所述数字仓库,并返回所述数字对象的标识。
图9是本公开实施例中推送层的架构示意图。推送层接口接收数据语用DPML文件,调用数联网数字对象封装模块。数字对象封装模块从数联网交换机和数联网定位网络获取数字仓库标识与定位,将数据语用封装为数字对象。数字对象被存储在语用网络中相应标识的数字仓库中,返回数字对象的标识。
采用本公开实施例的技术方案,基于大语言模型构建的数据语用提取推送模块,可以自动将不同模态的业务流程数据转换为统一格式的数据语用,以便业务流程数据在数联网中进行流转;智能合约可以实现对数据语用的自动化提取过程的防篡改性和可追溯性;预言机合约可以实现链下的数据语用提取推送模块的调用,从而完成业务流程数据向数据语用的转换、数字对象的封装与将数字对象推送至数联网语用网络的功能。
可选地,作为一个实施例,针对某地”电子口岸数据空间“在数联网的具体应用场景,平台数据应用会输入报关数据、物流数据、检疫数据三种数据流,在货运补贴场景和购付汇场景具有两种数据使用方式,即两个数据语用。该平台将数据流转换为数据语用推送到数联网上,以便该数据未来可以被更多的新场景使用。该推送过程被区块链所记录,平台可以通过数联网的接口来查找推送记录。
平台推送数据应用到数联网的具体流程如下所示:
该平台在数联网注册数联网用户,系统会为用户在数联网私有链上注册用户。业务流程数据与数据语用数据会作为预训练数据微调大模型,封装为数据语用推送模块部署在服务器上,以供推送使用,并同时建立智能合约、预言机与模块的联系。
该平台发出数据推送请求,由数联网用户请求处理模块接收请求,从数据应用空间提取数据应用标识,发送到区块链上。智能合约接收数据应用标识和用户私钥,向预言机合约发送处理请求,预言机合约向链下预言机节点集群发布消息。预言机节点监听到合约处理请求后,向数据语用推送模块发出HTTP GET请求,传递数据应用标识信息。
数据语用推送模块监听到HTTP GET请求后,根据数据应用标识从数据应用仓库提取业务流程,处理后得到数字对象,并推送至数联网语用空间,并向预言机节点返回数字对象标识。预言机节点将数字对象标识返回智能合约,本次交易结束,交易记录被记录在区块链上。
平台查询交易记录流程如下所示:
平台作为数联网注册用户向记录追溯模块提出交易查找请求。
记录追溯模块向数联网中心账户集群提出请求,数联网中心账户集群查找本次交易的数联网中心账户,查找交易记录。
记录追溯模块将查找信息返回平台用户,本次查询结束。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本公开实施例所必须的。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本公开的实施例可提供为方法、装置或计算机程序产品。因此,本公开实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开实施例是参照根据本公开实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本公开实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本公开所提供的一种基于智能合约的数据语用提取系统,进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本公开的限制。
Claims (10)
1.一种基于智能合约的数据语用提取系统,其特征在于,所述系统应用于基于区块链的数联网,所述系统包括:用户请求处理模块、智能合约、预言机合约、数据语用提取推送模块;所述数据语用提取推送模块是基于大语言模型构建的;
所述用户请求处理模块,用于在接收到所述数联网的注册账户发送的数据推送请求时,向数据应用仓库请求所述数据推送请求对应的数据应用标识,并将所述数据应用标识发送到区块链上;
所述智能合约,用于接收所述数据应用标识,并调用所述预言机合约,将所述数据应用标识传输给所述预言机合约;
所述预言机合约,用于向所述数据语用提取推送模块提供所述数据应用标识;
所述数据语用提取推送模块,用于从所述数据应用仓库提取所述数据应用标识对应的业务流程数据,并将所述业务流程数据转换为数据语用,将所述数据语用封装为数字对象,并将所述数字对象发布到所述数联网的语用网络,将所述数字对象的标识返回所述智能合约;其中,所述数据语用为:描述数据在特定数据应用语境中的使用的语句;所述数据语用的格式统一,所述业务流程数据包括多模态数据。
2.根据权利要求1所述的系统,其特征在于,所述系统还包括:记录区块;
所述记录区块,用于在所述智能合约接收到返回的所述数字对象的标识之后,记录此次交易。
3.根据权利要求2所述的系统,其特征在于,所述系统还包括:记录追溯模块;
所述用户请求处理模块,还用于在接收到所述数联网的注册账户发送的交易查找请求时,触发所述记录追溯模块;
所述记录追溯模块,用于向所述数联网的中心账户集群提出查找请求,得到所述数联网的中心账户集群查找到的交易记录,并将所述交易记录返回给所述数联网的注册账户。
4.根据权利要求1所述的系统,其特征在于,所述系统还包括所述区块链下的预言机节点集群;
所述预言机合约,具体用于向预言机节点集群发布合约处理请求,以及通过所述预言机节点集的传递,向所述数据语用提取推送模块提供所述数据应用标识;
所述预言机节点集群,用于在监听到所述合约处理请求后,向所述数据语用提取推送模块发送HTTPGET请求,并传递所述数据应用标识;
所述数据语用提取推送模块,具体用于在监听到所述HTTPGET请求后,从所述数据应用仓库提取所述数据应用标识对应的业务流程数据;
所述数据语用提取推送模块,具体用于通过所述预言机节点集群的传递,将所述数字对象的标识返回所述智能合约。
5.根据权利要求1所述的系统,其特征在于,所述数据语用提取推送模块包括:预处理层、转换层和推送层;所述转换层包括大语言模型;
所述数据语用提取推送模块将所述业务流程数据转换为所述数据语用,将所述数据语用封装为所述数字对象,包括:
所述预处理层将所述业务流程数据转换为软提示,所述软提示为大语言模型理解的数据;
所述转换层将所述软提示输入所述大语言模型,得到所述数据语用;
所述推送层获取存放所述数据语用的数字仓库的标识和定位,并将所述数字仓库的标识和定位,以及所述数据语用封装为所述数字对象。
6.根据权利要求5所述的系统,其特征在于,所述系统还包括数字对象封装模块;
所述推送层,具体用于调用所述数字对象封装模块;
所述数字对象封装模块,用于从数联网交换机和数联网定位网络获取所述数字仓库的标识和定位,将所述数据语用封装为所述数字对象,并将所述数字对象存储在所述数字仓库,并返回所述数字对象的标识。
7.根据权利要求5所述的系统,其特征在于,所述业务流程数据是:数据应用中对数据资源的内容、组织、流动、输入过程和输出过程的序列化描述;所述多模态数据包括:结构化数据、描述文本和流程图;
所述预处理层,具体用于在所述业务流程数据包括流程图、描述文本和结构化数据的情况下,将所述流程图输入到图像编码模块,得到图像特征向量,获取所述描述文本和所述结构化数据的文本信息,将所述图像特征向量和所述文本信息进行融合,得到所述软提示。
8.根据权利要求5所述的系统,其特征在于,所述转换层是对预训练的大语言模型进行参数高效微调得到的。
9.根据权利要求1所述的系统,其特征在于,所述数联网的注册账户具有私钥,所述私钥用于访问交易记录。
10.根据权利要求1-9任一所述的系统,其特征在于,所述数据语用包括:定位信息、语用信息和应用;
所述定位信息记录了定位到所述数据语用的信息;
所述语用信息为使用数据语用标记语言进行定义的信息,用于记录应用对数据和算法的使用情况;
所述应用为执行数据操作的客体,用于使用算法对数据进行处理,并产生结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410040026.2A CN117560380B (zh) | 2024-01-11 | 2024-01-11 | 一种基于智能合约的数据语用提取系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410040026.2A CN117560380B (zh) | 2024-01-11 | 2024-01-11 | 一种基于智能合约的数据语用提取系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117560380A true CN117560380A (zh) | 2024-02-13 |
CN117560380B CN117560380B (zh) | 2024-03-19 |
Family
ID=89815096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410040026.2A Active CN117560380B (zh) | 2024-01-11 | 2024-01-11 | 一种基于智能合约的数据语用提取系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117560380B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876618A (zh) * | 2018-06-15 | 2018-11-23 | 浙江华信区块链科技服务有限公司 | 一种交换区块链系统及相应的通用区块链互操作方法和网络 |
CN110121705A (zh) * | 2017-05-03 | 2019-08-13 | 塔谱软件公司 | 将语用学原理应用于与可视分析交互的系统和方法 |
US11068131B1 (en) * | 2020-04-24 | 2021-07-20 | Tableau Software, LLC | Integrated drill down within a natural language interface for a data analysis platform |
CN113488026A (zh) * | 2021-09-02 | 2021-10-08 | 水木智库(北京)科技有限公司 | 基于语用信息的语音理解模型生成方法和智能语音交互方法 |
CN116701063A (zh) * | 2023-08-07 | 2023-09-05 | 北京大学 | 数联网数据语用内存状态数据的持久化方法、装置及系统 |
-
2024
- 2024-01-11 CN CN202410040026.2A patent/CN117560380B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110121705A (zh) * | 2017-05-03 | 2019-08-13 | 塔谱软件公司 | 将语用学原理应用于与可视分析交互的系统和方法 |
CN108876618A (zh) * | 2018-06-15 | 2018-11-23 | 浙江华信区块链科技服务有限公司 | 一种交换区块链系统及相应的通用区块链互操作方法和网络 |
US11068131B1 (en) * | 2020-04-24 | 2021-07-20 | Tableau Software, LLC | Integrated drill down within a natural language interface for a data analysis platform |
CN113488026A (zh) * | 2021-09-02 | 2021-10-08 | 水木智库(北京)科技有限公司 | 基于语用信息的语音理解模型生成方法和智能语音交互方法 |
CN116701063A (zh) * | 2023-08-07 | 2023-09-05 | 北京大学 | 数联网数据语用内存状态数据的持久化方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117560380B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102092722B1 (ko) | 실시간 데이터플로우 프로그래밍 언어를 위한 도구 및 방법 | |
CN110069259B (zh) | 基于idl文件的解析方法、装置、电子设备和存储介质 | |
CN101185116A (zh) | 在软件程序中使用强数据类型表示语音识别语法 | |
US10673789B2 (en) | Bot-invocable software development kits to access legacy systems | |
CN108073587A (zh) | 一种自动问答方法、装置及电子设备 | |
Di Martino et al. | A semantic IoT framework to support RESTful devices' API interoperability | |
US10838999B2 (en) | Method and platform for the elevation of source data into interconnected semantic data | |
Gervais | ODAC: An agent-oriented methodology based on ODP | |
CN115269220A (zh) | 一种业务处理方法及规则服务接口 | |
CN115169333A (zh) | 文本的实体识别方法、装置、设备、存储介质及程序产品 | |
CN112363699B (zh) | 一种应用于多语言开发平台的交互方法及装置 | |
Binildas | Service oriented architecture with Java | |
CN117560380B (zh) | 一种基于智能合约的数据语用提取系统 | |
CN113703935A (zh) | 异步任务调度方法、装置、电子设备及存储介质 | |
Indrasiri et al. | Integrating microservices | |
Fritsch et al. | An integration framework for developing interactive robots | |
CN103176830A (zh) | 基于类图和活动图相结合生成c++代码的方法 | |
Shatnawi et al. | Identifying kdm model of jsp pages | |
Bergweiler | Interactive service composition and query | |
Park et al. | Interworking technology of neural network and data among deep learning frameworks | |
Rosser et al. | Full Meta Object profiling for flexible geoprocessing workflows | |
CN116521155B (zh) | 基于JSON描述动态生成Restful接口的方法 | |
Afsari | COPYRIGHT© 2017 BY KERESHMEH AFSARI | |
Van Assche et al. | How to describe multiple versions of the same? | |
Ferrari | Ontology-based Consistent Specification and Scalable Execution of Sensor Data Acquisition Plans in Cross-Domain loT Platforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |