CN111932174A - 货运监管异常信息获取方法、装置、服务器及存储介质 - Google Patents
货运监管异常信息获取方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN111932174A CN111932174A CN202010739206.1A CN202010739206A CN111932174A CN 111932174 A CN111932174 A CN 111932174A CN 202010739206 A CN202010739206 A CN 202010739206A CN 111932174 A CN111932174 A CN 111932174A
- Authority
- CN
- China
- Prior art keywords
- freight
- sub
- subgraph
- graph
- query result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 31
- 238000012544 monitoring process Methods 0.000 title claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 230000005856 abnormality Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 9
- 238000013075 data extraction Methods 0.000 claims description 7
- 238000005065 mining Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000008676 import Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
- G06Q10/0831—Overseas transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种货运监管异常信息获取方法、装置、服务器及存储介质。该方法包括:基于货运监管数据抽取三元组生成知识网络图谱;基于知识网络图谱通过多个预设子图查询模型得到对应的多个子图查询结果;确定每个子图查询结果的支持度;确定支持度大于支持度阈值的子图查询结果为目标子图查询结果;根据目标子图查询结果确定预设关联规则的置信度,基于置信度和预设关联规则确定货运监管过程的异常信息。与传统方法相比,更注重实体间的关联关系,每一个预设关联规则都是在特定行为模式下有实际意义的,不会出现挖掘出没有实际关联关系的两个实体,效率更高,准确性更高,同时利用图结构的计算方式其结果展现更直观。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种货运监管异常信息获取方法、装置、服务器及存储介质。
背景技术
海关作为国家对外贸易进出口的重要单位,有责任对货物进出口运输全过程进行监管。我们需要关注的是,在海关货运监管的全过程中,是否存在内外勾结的情况。
基于频繁项集模式挖掘是“跟科跟人”数据挖掘领域的一个重要方法,在海关货运监管流程中包含多个实体,如报关货物、企业、海关官员等等。每一个实体都是一项元素,每一条报关单记录都是一个集合,所有的报关单就形成了一个大的数据集。通过挖掘数据集中“跟科跟人”模式的频繁项集,能够有效找出海关官员内外勾结的异常行为。
虽然基于频繁模式挖掘的延伸模型有多个,但是他们往往忽略了频繁项集中各个实体之间的关系。以货运监管行为模式挖掘为例,在基于频繁项集的关联规则挖掘中,一个频繁项集中会出现多个高关联度的企业,它们的出现没有意义,我们无法在频繁项集中判定各个企业之间、企业与其他实体之间的关系。此外,同一类型中多个实体出现在同一个频繁项集的现象,会影响到最终企业异常行为模式的挖掘。
发明内容
有鉴于此,本发明实施例提供了一种货运监管异常信息获取方法、装置、服务器及存储介质,以实现基于实际关联关系的监管过程异常信息获取。
第一方面,本发明实施例提供了一种货运监管异常信息获取方法,包括:
基于货运监管数据抽取三元组生成知识网络图谱;
基于所述知识网络图谱通过多个预设子图查询模型得到对应的多个子图查询结果,每个子图查询结果包括一个或多个子图;
确定每个子图查询结果的支持度;
确定所述支持度大于支持度阈值的所述子图查询结果为目标子图查询结果;
根据所述目标子图查询结果确定预设关联规则的置信度,基于所述置信度和所述预设关联规则确定货运监管过程的异常信息。
第二方面,本发明实施例还提供了一种货运监管异常信息获取装置,包括:
数据抽取模块,用于基于货运监管数据抽取三元组生成知识网络图谱;
子图查询模块,用于基于所述知识网络图谱通过多个预设子图查询模型得到对应的多个子图查询结果,每个子图查询结果包括一个或多个子图;
支持度计算模块,用于确定每个子图查询结果的支持度;
子图查询结果筛选模块,用于确定所述支持度大于支持度阈值的所述子图查询结果为目标子图查询结果;
异常信息确定模块,用于根据所述目标子图查询结果确定预设关联规则的置信度,基于所述置信度和所述预设关联规则确定货运监管过程的异常信息。
第三方面,本发明实施例还提供了一种服务器,包括存储器和处理器,所述存储器上存储有可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如前述的货运监管异常信息获取方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,存储介质存储有计算机程序,该计算机程序被处理器执行时实现如前述的货运监管异常信息获取方法。
本发明实施例提供的技术方案,通过抽取三元组将货运监管数据转换成知识网络图谱,基于知识网络图谱通过预设子图查询模型得到子图查询结果,根据子图查询结果的支持度进行筛选得到目标子图查询结果,基于目标子图查询结果分析预设关联规则的置信度,进而确定货运监管过程中的异常信息,与传统方法挖掘的频繁项集模式相比,更注重实体间的关联关系,每一个预设关联规则都是在特定行为模式下有实际意义的,不会出现挖掘出没有实际关联关系的两个实体,效率更高,准确性更高,同时利用图结构的计算方式其结果展现更直观。
附图说明
图1是本发明实施例一中的货运监管异常信息获取方法的流程图;
图2是本发明实施例二中的货运监管异常信息获取方法的子流程图;
图3是本发明实施例二中的货运监管异常信息获取方法的子流程图;
图4是本发明实施例二中的货运监管异常信息获取方法的子流程图;
图5是本发明实施例二中的货运监管异常信息获取方法的子流程图;
图6是本发明实施例三中的货运监管异常信息获取装置的结构示意图;
图7是本发明实施例四中的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”、“批量”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
实施例一
图1为本发明实施例一的货运监管异常信息获取方法的流程图,该方法可以由终端或服务器执行,本实施例以终端为例,该方法具体包括:
S110、基于货运监管数据抽取三元组生成知识网络图谱。
货运监管数据包括对货物运输过程进行监管所记录的文本数据和表格数据等。三元组是指如“实体A-[关系R]->实体B”和“实体A-属性类别-属性值”形式的数据集合,适用于关系网络的挖掘,其中“实体A-[关系R]->实体B”表示实体间的关系,“实体A-属性类别-属性值”表示单个实体的属性。知识网络图谱是一种图结构,通过节点和边的方式表示货运监管数据中的实体属性和实体间的关联关系。
对于货运监管数据,实体可以为“国家”、“口岸”、“官员”、“商品”、“银行”、“查验记录单”、“企业”、“报关单明细”和“报关单头”等,在知识网络谱图中,不同的实体对应不同的节点,两个节点间若有边连接,表示对应的两个实体间存在关联关系,如“XX商品”由“XX企业”生产,则“XX商品”对应的节点和“XX企业”对应的节点间有一条边,边的属性为“生产”。
S120、基于所述知识网络图谱通过多个预设子图查询模型得到对应的多个子图查询结果,每个子图查询结果包括一个或多个子图。
预设子图查询模型为一个索引模型,用于查询指定特征的实体和关联关系,可以由子图查询算法实现,特征包括实体的属性和关联关系。预设子图查询模型也可以理解为用于查询指定属性的节点和指定属性的边(指定特征中的关联关系可以理解为边的属性)。具体的,预设子图查询模型用于利用广度优先搜索原则,自所述知识网络图谱中确定具备指定属性和指定边关系的查询节点,以报关单对应的查询节点为中心生成子图并得到子图查询结果。
具体的,对于知识网络图谱,图定义为G=(V,E,L),其中V代表结点的集合,代表两个结点之间的边,对于任意的v∈V或e∈E有L(v)代表结点的属性,L(e)代表边的属性。对于预设子图查询模型Q=(Vp,Ep,f,C),其中Vp代表子图查询结果中点的集合,Ep代表子图查询结果中边的集合,其中且f表示节点的属性或边的属性,C表示在预设子图查询模型查询到的单个子图里节点的数量。且对于子图中的每个节点属性都能在L(v)中找到,子图中每个边的属性都能在L(e)中找到。对于每一个在集合Vp中的vp或者在集合Ep中的ep,可以用f(vp)来表示满足子图查询模式的结点的属性,用f(ep)来表示满足子图查询模式的边的属性。
S130、确定每个子图查询结果的支持度。
支持度表示对应的子图查询结果在知识网络图谱中发生的概率。在本实施例中,确定每个子图查询结果中节点的数量,以所述节点的数量作为对应子图查询结果的支持度,即对于一个子图查询结果Q,将其在知识网络图谱G中的支持度定义为supp(Q,G)=||Q(x,G)||,例如子图查询结果Q中有4个节点,则supp(Q,G)=4。
S140、确定所述支持度大于支持度阈值的所述子图查询结果为目标子图查询结果。
目标子图查询结果为根据支持度对子图查询结果进行筛选得到,筛选标准为支持度阈值,支持度阈值可以根据知识网络图谱的复杂程度设置。
S150、根据所述目标子图查询结果确定预设关联规则的置信度,基于所述置信度和所述预设关联规则确定货运监管过程的异常信息。
预设关联规则用于表示目标子图查询结果中特定节点可能存在的特定关联关系,特定节点和特定关联关系可以由终端根据一定的规则自行设置,例如特定节点为A城市顾客对应的节点和B餐厅对应的节点,特定关联关系为用餐。置信度表示在目标子图查询结果中,特定节点间存在特定关联关系的可能性,对于一个预设关联规则,若置信度越高,表示对应的两个实体和特定关联关系的关联度很大。基于置信度可以筛选出目标字体查询结果中异常的节点和对应的关联关系,结合异常的节点对应的实体可以分析出货运监管过程的异常信息。
本实施例一的技术方案,提供了一种基于图结构的货运监管异常信息获取方法,通过抽取三元组将货运监管数据转换成知识网络图谱,基于知识网络图谱通过预设子图查询模型得到子图查询结果,根据子图查询结果的支持度进行筛选得到目标子图查询结果,基于目标子图查询结果分析预设关联规则的置信度,进而确定货运监管过程中的异常信息,与传统方法挖掘的频繁项集模式相比,更注重实体间的关联关系,每一个预设关联规则都是在特定行为模式下有实际意义的,不会出现挖掘出没有实际关联关系的两个实体,效率更高,准确性更高,同时利用图结构的计算方式其结果展现更直观。
实施例二
本实施例在实施例一的基础上对部分内容做了进一步补充,以对部分步骤进行了进一步的解释,具体包括:
如图2所示,步骤S110具体包括步骤S111-112:
S111、基于货运监管数据抽取实体,根据所述实体创建节点。
本实施例中,知识网络图谱存储的数据为NEO4J图数据库,对于初始的全量数据,将使用NEO4J-impot,分别将节点属性与关联关系三元组数据利用csv导入。节点属性类csv的每一列为包含实体需要导入NEO4J的所有属性类型,其中第一列有形如“:ID(Entity)”的标记,ID表示该列的主键,而括号内Entity的值即为该类实体的实体名。关联关系类csv文件包含至少两列,需要包含出射节点与入射节点的信息。其中,“:START_ID(Entity)”列为出射结点的Entity实体类型以及其对应的主键ID,“:ENE_ID(Entity)”列为入射结点的Entity实体类型以及其对应的主键ID。
由于NEO4J图数据库的保护机制,上述过程不支持增量数据的插入。需要使用基于Cypher语句导入NEO4J:将所有实体属性、实体与实体间关联关系的三元组文件抽取后,使用Python将数据导入NEO4J中。在Python与NEO4的连接中,分别使用到py2neo库中“Graph”包进行NEO4J系统的连接以及运行Cypher语言;“Node”包进行结点的创建。
具体的,首先读取所有的实体属性文件,利用py2neo中的“Node”包,以创建Node对象的方式创建结点,其形式为:
node=Node('实体类型':主键=实体.ID,属性类型=属性值)
graph.create(node)。
更具体的,在一实施例中,如图3所示,步骤S111包括步骤S1111-1113:
S1111、基于货运监管数据读取实体,确定实体对应的出度。
S1112、抽取出度为零的实体得到第一实体,根据所述第一实体创建第一节点。
S1113、按照出度自小到大的顺序抽取出度不为零的实体得到第二实体,根据所述第二实体创建第二节点,同时,若所述第二实体指向的第三实体未被抽取,则抽取所述第三实体创建第三节点。
数据抽取算法中,为了方便后续索引,对于每一类实体,本发明默认其主键(即对应ID)为从1开始的自增有序列。进行数据抽取时需要优先对“跟科跟人”知识图谱中结点出度为0的实体,如“国家”、“口岸”、“官员”、“商品”、“银行”等。因为这类实体在抽取时不需要考虑延伸出去的关系及新的实体。随后依照实体出度从小到大的顺序进行抽取,即“查验记录单”、“企业”、“报关单明细”和“报关单头”。对于出度不为0的实体,抽取时需要注意检查该实体指向的另一个实体的JSON文件中是否已存在于所抽数据,如不存在则需要根据其自增量进行补充并插入JSON文件。
S112、基于货运监管数据抽取实体间的关联关系,根据所述关联关系和所述节点创建边,根据所述节点和边得到知识网络图谱。
在读取完实体属性文件创建完所有节点后,读取实体与实体间的关系文件,此时我们需要使用Cypher语言,根据结点的主键获取特定的结点,再构建实体间的关系,其形式为:
query='Create(实体类型:实体.ID)–[关系R]->(实体类型:实体.ID)'
graph.run(query)。
如图4所示,步骤S120包括步骤S121-123:
S121、根据所述预设子图查询模型自所述知识网络图谱中确定具备指定属性和指定边关系的查询结点。
例如在一个知识网络图谱中,节点包括多家餐馆和多个顾客,指定属性为西餐厅或居住在A城市的顾客,指定边关系为在西餐厅用餐,则查询节点为招待过A城市顾客的西餐厅对应的节点,和在西餐厅用过餐的A城市顾客对应的节点。
S122、基于所述查询节点生成第一子图,所述第一子图包括预设数量的查询节点。
在确定了查询节点后,根据预设数量的查询节点可以生成一个子图,若随机选取查询节点,则在预设数量的查询节点中容易出现孤立的节点。因此本实施例中以报关单对应的节点作为查询节点中的核心节点选取预设数量的查询节点,这样在一个子图中,除核心节点外的所有节点均与核心节点存在关联关系。尽可能的将所有查询节点全部使用后可以得到第一子图,第一子图中一般包括多个子图。
S123、将基于同一预设子图查询模型得到的第一子图进行匹配,根据匹配结果对所述第一子图进行合并,得到合并后的子图和未合并的子图,将合并后的子图和未合并的子图作为子图查询结果。
一个预设子图查询模型查询到的第一子图中包括多个子图,本实施例中,对于同一预设子图查询模型查询到的子图,利用MapReduce的原理拼接成大的子图得到合并后的子图,再将合并后的子图和未合并的子图归拢得到子图集合作为该预设子图查询模型对应的目标子图查询结果。例如,预设子图查询模型m查询到的第一子图模型包括子图m1、子图m2和子图m3,其中子图m1和子图m2可以合并,合并后得到子图m4,则子图m3和子图m4作为预设子图查询模型m的子图查询结果。
具体的,在一实施例中,如图5所示,步骤S150中确定预设关联规则的置信度过程包括步骤S151-152:
S151、根据所述知识网络图谱确定所述预设关联规则的支持度和所述目标子图查询结果的支持度。
S152、将所述预设关联规则的支持度除以所述目标子图查询结果的支持度,得到所述预设关联规则的置信度。
定义置信度为conf(R,G),首先定义预设关联规则R(x,y)为Q(x,y)=>q(x,y),其中x与y是两个不相同的结点,Q(x,y)代表目标子图查询结果中的两个节点,即x∈Q(v,G)且y∈Q(v,G)。q(x,y)代表从结点x指向结点y的边。因此R(x,y)可以表示为在子图中两个特定结点所推出的特定关联关系。conf(R,G)=supp(R,G)/supp(Q,G)。即可以理解为,预设关联规则的置信度表示:在满足子图查询结果的所有节点中,具有特定边q(x,y)的可能性。
本实施例提供的货运监管异常信息获取方法,在实施例一的基础上进一步补充了抽取三元组生成知识网络图谱的过程,以及计算预设关联规则置信度的过程,进一步详细解释了本方法对于特定行为模式的关联度确定过程,通过置信度的计算可以挖掘出潜在的异常行为,在获取异常信息时更全面。
实施例三
图6为本发明实施例三提供的一种货运监管异常信息获取装置300,具体包括如下模块:
数据抽取模块310,用于基于货运监管数据抽取三元组生成知识网络图谱;
子图查询模块320,用于基于所述知识网络图谱通过多个预设子图查询模型得到对应的多个子图查询结果,每个子图查询结果包括一个或多个子图;
支持度计算模块330,用于确定每个子图查询结果的支持度;
子图查询结果筛选模块340,用于确定所述支持度大于支持度阈值的所述子图查询结果为目标子图查询结果;
异常信息确定模块350,用于根据所述目标子图查询结果确定预设关联规则的置信度,基于所述置信度和所述预设关联规则确定货运监管过程的异常信息。
更具体的,在一实施例中,数据抽取模块310包括实体抽取单元和关系抽取单元:
实体抽取单元,用于基于货运监管数据抽取实体,根据所述实体创建节点。
关系抽取单元,用于基于货运监管数据抽取实体间的关联关系,根据所述关联关系和所述节点创建边,根据所述节点和边得到知识网络图谱。
更具体的,在一实施例中,实体抽取单元具体用于:
基于货运监管数据读取实体,确定实体对应的出度;
抽取出度为零的实体得到第一实体,根据所述第一实体创建第一节点;
按照出度自小到大的顺序抽取出度不为零的实体得到第二实体,根据所述第二实体创建第二节点,同时,若所述第二实体指向的第三实体未被抽取,则抽取所述第三实体创建第三节点。
更具体的,在一实施例中,子图查询模块320包括:
节点查询单元,用于根据所述预设子图查询模型自所述知识网络图谱中确定具备指定属性和指定边关系的查询结点;
第一子图生成单元,用于基于所述查询节点生成第一子图,所述第一子图包括预设数量的查询节点;
子图合并单元,用于将基于同一预设子图查询模型得到的第一子图进行匹配,根据匹配结果对所述第一子图进行合并,得到合并后的子图和未合并的子图,将合并后的子图和未合并的子图作为子图查询结果。
更具体的,在一实施例中,支持度计算模块330具体用于:
确定每个子图查询结果中节点的数量,以所述节点的数量作为对应子图查询结果的支持度。
更具体的,在一实施例中,异常信息确定模块350包括:
支持度确定单元,用于根据所述知识网络图谱确定所述预设关联规则的支持度和所述目标子图查询结果的支持度;
置信度确定单元,用于将所述预设关联规则的支持度除以所述目标子图查询结果的支持度,得到所述预设关联规则的置信度。
更具体的,子图查询模块320用于利用广度优先搜索原则,自所述知识网络图谱中确定具备指定属性和指定边关系的查询节点,以报关单对应的查询节点为中心生成子图并得到子图查询结果
本实施例提供的货运监管异常信息获取装置,通过抽取三元组将货运监管数据转换成知识网络图谱,基于知识网络图谱通过预设子图查询模型得到子图查询结果,根据子图查询结果的支持度进行筛选得到目标子图查询结果,基于目标子图查询结果分析预设关联规则的置信度,进而确定货运监管过程中的异常信息,与传统方法挖掘的频繁项集模式相比,更注重实体间的关联关系,每一个预设关联规则都是在特定行为模式下有实际意义的,不会出现挖掘出没有实际关联关系的两个实体,效率更高,准确性更高,同时利用图结构的计算方式其结果展现更直观。
实施例四
图7为本发明实施例四提供的一种服务器的结构示意图,如图7所示,该服务器包括处理器70、存储器71、输入装置72和输出装置73;服务器中处理器70的数量可以是一个或多个,图中以一个处理器70为例;服务器中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的货运监管异常信息获取方法对应的程序指令/模块(例如,货运监管异常信息获取装置中的数据抽取模块310、子图查询模块320、支持度计算模块330、子图查询结果筛选模块340和异常信息确定模块350等)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块,从而执行终端/服务器的各种功能应用以及数据处理,即实现上述的货运监管异常信息获取方法。
存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置72可用于接收输入的数字或字符信息,以及产生与终端/服务器的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。
上述服务器可执行本发明实施例一或实施例二所提供的货运监管异常信息获取方法,具备执行方法对应的功能能模块和有益效果。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的一种货运监管异常信息获取方法,该方法可以包括:
基于货运监管数据抽取三元组生成知识网络图谱;
基于所述知识网络图谱通过多个预设子图查询模型得到对应的多个子图查询结果,每个子图查询结果包括一个或多个子图;
确定每个子图查询结果的支持度;
确定所述支持度大于支持度阈值的所述子图查询结果为目标子图查询结果;
根据所述目标子图查询结果确定预设关联规则的置信度,基于所述置信度和所述预设关联规则确定货运监管过程的异常信息。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种货运监管异常信息获取方法,其特征在于,包括:
基于货运监管数据抽取三元组生成知识网络图谱;
基于所述知识网络图谱通过多个预设子图查询模型得到对应的多个子图查询结果,每个子图查询结果包括一个或多个子图;
确定每个子图查询结果的支持度;
确定所述支持度大于支持度阈值的所述子图查询结果为目标子图查询结果;
根据所述目标子图查询结果确定预设关联规则的置信度,基于所述置信度和所述预设关联规则确定货运监管过程的异常信息。
2.根据权利要求1所述的货运监管异常信息获取方法,其特征在于,所述基于货运监管数据抽取三元组生成知识网络图谱包括:
基于货运监管数据抽取实体,根据所述实体创建节点;
基于货运监管数据抽取实体间的关联关系,根据所述关联关系和所述节点创建边,根据所述节点和边得到知识网络图谱。
3.根据权利要求2所述的货运监管异常信息获取方法,其特征在于,所述基于货运监管数据抽取实体,根据所述实体创建节点包括:
基于货运监管数据读取实体,确定实体对应的出度;
抽取出度为零的实体得到第一实体,根据所述第一实体创建第一节点;
按照出度自小到大的顺序抽取出度不为零的实体得到第二实体,根据所述第二实体创建第二节点,同时,若所述第二实体指向的第三实体未被抽取,则抽取所述第三实体创建第三节点。
4.根据权利要求1所述的货运监管异常信息获取方法,其特征在于,所述基于所述知识网络图谱通过多个预设子图查询模型得到对应的多个子图查询结果包括:
根据所述预设子图查询模型自所述知识网络图谱中确定具备指定属性和指定边关系的查询结点;
基于所述查询节点生成第一子图,所述第一子图包括预设数量的查询节点;
将基于同一预设子图查询模型得到的第一子图进行匹配,根据匹配结果对所述第一子图进行合并,得到合并后的子图和未合并的子图,将合并后的子图和未合并的子图作为子图查询结果。
5.根据权利要求1所述的货运监管异常信息获取方法,其特征在于,所述确定每个子图查询结果的支持度包括:
确定每个子图查询结果中节点的数量,以所述节点的数量作为对应子图查询结果的支持度。
6.根据权利要求1所述的货运监管异常信息获取方法,其特征在于,所述根据所述目标子图查询结果确定预设关联规则的置信度包括:
根据所述知识网络图谱确定所述预设关联规则的支持度和所述目标子图查询结果的支持度;
将所述预设关联规则的支持度除以所述目标子图查询结果的支持度,得到所述预设关联规则的置信度。
7.根据权利要求1所述的货运监管异常信息获取方法,其特征在于,所述预设子图查询模型用于利用广度优先搜索原则,自所述知识网络图谱中确定具备指定属性和指定边关系的查询节点,以报关单对应的查询节点为中心生成子图并得到子图查询结果。
8.一种货运监管异常信息获取装置,其特征在于,包括:
数据抽取模块,用于基于货运监管数据抽取三元组生成知识网络图谱;
子图查询模块,用于基于所述知识网络图谱通过多个预设子图查询模型得到对应的多个子图查询结果,每个子图查询结果包括一个或多个子图;
支持度计算模块,用于确定每个子图查询结果的支持度;
子图查询结果筛选模块,用于确定所述支持度大于支持度阈值的所述子图查询结果为目标子图查询结果;
异常信息确定模块,用于根据所述目标子图查询结果确定预设关联规则的置信度,基于所述置信度和所述预设关联规则确定货运监管过程的异常信息。
9.一种服务器,其特征在于,包括存储器和处理器,所述存储器上存储有可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的货运监管异常信息获取方法。
10.一种计算机可读存储介质,存储介质存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的货运监管异常信息获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010739206.1A CN111932174B (zh) | 2020-07-28 | 2020-07-28 | 货运监管异常信息获取方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010739206.1A CN111932174B (zh) | 2020-07-28 | 2020-07-28 | 货运监管异常信息获取方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111932174A true CN111932174A (zh) | 2020-11-13 |
CN111932174B CN111932174B (zh) | 2024-05-28 |
Family
ID=73314724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010739206.1A Active CN111932174B (zh) | 2020-07-28 | 2020-07-28 | 货运监管异常信息获取方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111932174B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112612832A (zh) * | 2020-12-17 | 2021-04-06 | 北京锐安科技有限公司 | 节点分析方法、装置、设备及存储介质 |
CN113225199A (zh) * | 2020-11-17 | 2021-08-06 | 中国人民解放军国防科技大学 | 基于时序网络挖掘的交互行为预测方法、装置及电子设备 |
CN114518172A (zh) * | 2021-08-26 | 2022-05-20 | 中华人民共和国深圳海关 | 体温监测系统运行监控方法、装置、设备及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011151500A1 (en) * | 2010-05-31 | 2011-12-08 | Helsingin Yliopisto | Arrangement and method for finding relationships among data |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN106897273A (zh) * | 2017-04-12 | 2017-06-27 | 福州大学 | 一种基于知识图谱的网络安全动态预警方法 |
CN107798136A (zh) * | 2017-11-23 | 2018-03-13 | 北京百度网讯科技有限公司 | 基于深度学习的实体关系抽取方法、装置及服务器 |
CN108388642A (zh) * | 2018-02-27 | 2018-08-10 | 中南民族大学 | 一种子图查询方法、装置及计算机可读存储介质 |
KR101945406B1 (ko) * | 2018-06-08 | 2019-02-08 | 한국과학기술정보연구원 | 실관계 기반 유사 서브 그래프 매칭 |
CN109614501A (zh) * | 2018-12-13 | 2019-04-12 | 浙江工商大学 | 一种基于知识图谱的工业隐患规范化上报方法及系统 |
CN109783628A (zh) * | 2019-01-16 | 2019-05-21 | 福州大学 | 结合时间窗口和关联规则挖掘的关键词搜索ksaarm算法 |
US20190236469A1 (en) * | 2018-02-01 | 2019-08-01 | International Business Machines Corporation | Establishing a logical connection between an indirect utterance and a transaction |
CN110223168A (zh) * | 2019-06-24 | 2019-09-10 | 浪潮卓数大数据产业发展有限公司 | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 |
CN110941723A (zh) * | 2019-11-18 | 2020-03-31 | 广东宜学通教育科技有限公司 | 一种知识图谱的构建方法、系统及存储介质 |
CN110941664A (zh) * | 2019-12-11 | 2020-03-31 | 北京百度网讯科技有限公司 | 知识图谱的构建方法、检测方法、装置、设备及存储介质 |
CN111274407A (zh) * | 2020-01-15 | 2020-06-12 | 北京百度网讯科技有限公司 | 知识图谱中三元组置信度计算方法和装置 |
CN111309824A (zh) * | 2020-02-18 | 2020-06-19 | 中国工商银行股份有限公司 | 实体关系图谱显示方法及系统 |
WO2020143326A1 (zh) * | 2019-01-11 | 2020-07-16 | 平安科技(深圳)有限公司 | 知识数据存储方法、装置、计算机设备和存储介质 |
-
2020
- 2020-07-28 CN CN202010739206.1A patent/CN111932174B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011151500A1 (en) * | 2010-05-31 | 2011-12-08 | Helsingin Yliopisto | Arrangement and method for finding relationships among data |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN106897273A (zh) * | 2017-04-12 | 2017-06-27 | 福州大学 | 一种基于知识图谱的网络安全动态预警方法 |
CN107798136A (zh) * | 2017-11-23 | 2018-03-13 | 北京百度网讯科技有限公司 | 基于深度学习的实体关系抽取方法、装置及服务器 |
US20190236469A1 (en) * | 2018-02-01 | 2019-08-01 | International Business Machines Corporation | Establishing a logical connection between an indirect utterance and a transaction |
CN108388642A (zh) * | 2018-02-27 | 2018-08-10 | 中南民族大学 | 一种子图查询方法、装置及计算机可读存储介质 |
KR101945406B1 (ko) * | 2018-06-08 | 2019-02-08 | 한국과학기술정보연구원 | 실관계 기반 유사 서브 그래프 매칭 |
CN109614501A (zh) * | 2018-12-13 | 2019-04-12 | 浙江工商大学 | 一种基于知识图谱的工业隐患规范化上报方法及系统 |
WO2020143326A1 (zh) * | 2019-01-11 | 2020-07-16 | 平安科技(深圳)有限公司 | 知识数据存储方法、装置、计算机设备和存储介质 |
CN109783628A (zh) * | 2019-01-16 | 2019-05-21 | 福州大学 | 结合时间窗口和关联规则挖掘的关键词搜索ksaarm算法 |
CN110223168A (zh) * | 2019-06-24 | 2019-09-10 | 浪潮卓数大数据产业发展有限公司 | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 |
CN110941723A (zh) * | 2019-11-18 | 2020-03-31 | 广东宜学通教育科技有限公司 | 一种知识图谱的构建方法、系统及存储介质 |
CN110941664A (zh) * | 2019-12-11 | 2020-03-31 | 北京百度网讯科技有限公司 | 知识图谱的构建方法、检测方法、装置、设备及存储介质 |
CN111274407A (zh) * | 2020-01-15 | 2020-06-12 | 北京百度网讯科技有限公司 | 知识图谱中三元组置信度计算方法和装置 |
CN111309824A (zh) * | 2020-02-18 | 2020-06-19 | 中国工商银行股份有限公司 | 实体关系图谱显示方法及系统 |
Non-Patent Citations (5)
Title |
---|
姜宇星;王曰芬;: "基于大数据的市场监管知识图谱研究", 江苏科技信息, no. 18 * |
巨星海;周刚;王婧;张凤娟;: "用户画像构建技术研究", 信息工程大学学报, no. 02 * |
李明耀;杨静;: "基于依存分析的开放式中文实体关系抽取方法", 计算机工程, no. 06 * |
胡庆勇;李淦山;裴钟哲;: "大数据在交通强国建设中的应用", 科技导报, no. 09 * |
陶耀东;贾新桐;吴云坤;: "一种基于知识图谱的工业互联网安全漏洞研究方法", 信息技术与网络安全, no. 01, 10 January 2020 (2020-01-10) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113225199A (zh) * | 2020-11-17 | 2021-08-06 | 中国人民解放军国防科技大学 | 基于时序网络挖掘的交互行为预测方法、装置及电子设备 |
CN112612832A (zh) * | 2020-12-17 | 2021-04-06 | 北京锐安科技有限公司 | 节点分析方法、装置、设备及存储介质 |
CN114518172A (zh) * | 2021-08-26 | 2022-05-20 | 中华人民共和国深圳海关 | 体温监测系统运行监控方法、装置、设备及存储介质 |
CN114518172B (zh) * | 2021-08-26 | 2023-11-21 | 中华人民共和国深圳海关 | 体温监测系统运行监控方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111932174B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11537369B2 (en) | System and method for dynamic, incremental recommendations within real-time visual simulation | |
CA2940760C (en) | Intelligent data munging | |
US11734233B2 (en) | Method for classifying an unmanaged dataset | |
US9324038B2 (en) | Method and system for clustering, modeling, and visualizing process models from noisy logs | |
JP7392668B2 (ja) | データ処理方法および電子機器 | |
KR102143889B1 (ko) | 메타데이터 관리를 위한 시스템 | |
CN111932174A (zh) | 货运监管异常信息获取方法、装置、服务器及存储介质 | |
US9646262B2 (en) | Data intelligence using machine learning | |
CN111612041B (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
US9466041B2 (en) | User selected flow graph modification | |
EP2625628A2 (en) | Probabilistic data mining model comparison engine | |
US9098630B2 (en) | Data selection | |
US11443234B2 (en) | Machine learning data processing pipeline | |
US20140156591A1 (en) | Knowledge catalysts | |
US20180365294A1 (en) | Artificial intelligence driven declarative analytic platform technology | |
CN113760891A (zh) | 一种数据表的生成方法、装置、设备和存储介质 | |
Kaplunovich et al. | Cloud big data decision support system for machine learning on AWS: Analytics of analytics | |
CN111782824A (zh) | 信息查询方法、装置、系统和介质 | |
US9558462B2 (en) | Identifying and amalgamating conditional actions in business processes | |
Rajbahadur et al. | Pitfalls analyzer: quality control for model-driven data science pipelines | |
Widad et al. | Quality Anomaly Detection Using Predictive Techniques: An Extensive Big Data Quality Framework for Reliable Data Analysis | |
CN117807121A (zh) | 基于知识图谱的电网知识关联方法、装置、设备及介质 | |
CN111259027B (zh) | 一种数据一致性检测方法 | |
Neznanov et al. | Advancing FCA workflow in FCART system for knowledge discovery in quantitative data | |
CN116401145A (zh) | 一种源代码静态分析处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |