CN111626343A - 一种基于pgm与pso聚类的船舰数据关系抽取方法 - Google Patents

一种基于pgm与pso聚类的船舰数据关系抽取方法 Download PDF

Info

Publication number
CN111626343A
CN111626343A CN202010403756.6A CN202010403756A CN111626343A CN 111626343 A CN111626343 A CN 111626343A CN 202010403756 A CN202010403756 A CN 202010403756A CN 111626343 A CN111626343 A CN 111626343A
Authority
CN
China
Prior art keywords
entity
clustering
data
cluster
ship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010403756.6A
Other languages
English (en)
Other versions
CN111626343B (zh
Inventor
周连科
邵璐
何鸣
王红滨
王念滨
薛冬梅
崔琎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010403756.6A priority Critical patent/CN111626343B/zh
Publication of CN111626343A publication Critical patent/CN111626343A/zh
Application granted granted Critical
Publication of CN111626343B publication Critical patent/CN111626343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于PGM与PSO聚类的船舰数据关系抽取方法,涉及数据处理技术领域,针对现有技术中在构建面向知识图谱过程中关系抽取存在的船舰数据抽取准确率低以及效率低的问题,本发明用一个概率图模型来计算相似度分数,依据这个分数对不同候选对象之间的相似程度进行划分,以使实体对更好的进行匹配,使用灵活的相似度准则来消除实体匹配的歧义,可以抽取更多关系。对现有的聚类算法中的适应度函数进行了优化,增加了两个准则,不易局部最优解的情况,使其能够加速收敛,从而获得最优解,在构建面向知识图谱过程中关系抽取准确率以及效率高。

Description

一种基于PGM与PSO聚类的船舰数据关系抽取方法
技术领域
本发明涉及数据处理技术领域,具体为一种基于PGM与PSO聚类的船舰数据关系抽取方法。
背景技术
船舰数据关系抽取主要是从船舰数据中抽取实体间隐含的关系。目前,船舰数据关系 抽取的方法已经有了很多,由于船舰数据关系抽取方法要事先标记,是针对规则进行的抽 取,需进行很多规则的定义,然后进行训练,才能提取关系,而且这种关系的提取是很有 局限性的。对于现在的网络信息很多都是文章性质的,并没有对其使用系统的、规则化的 语言方式进行描述,那么对于这种情况就需要在增加新的规则的制定,这样使得可适用性 不高。而对于无监督关系抽取方法,则能够有效避免这种情况的发生。无监督机器学习在 对船舰数据关系抽取时不必事先将文本中的内容进行人工标注,这使得人们减少了人力、 精力上的消耗。需要做的是将获取到的实体对的进行聚类操作,使相似度高的实体能够聚 为一类,并通过关系标记的方法用某一词汇将这个实体对进行关系标记,从而抽取到三元 组。但是目前来讲,无监督机器学习的技术还不是很完善,在应用到舰船指挥方面存在实 体对获取不全,聚类效果不好的问题。
发明内容
本发明的目的是:针对现有技术中在构建面向知识图谱过程中关系抽取存在的船舰数 据抽取准确率低以及效率低的问题,提出一种基于PGM与PSO聚类的船舰数据关系抽取 方法。
本发明为了解决上述技术问题采取的技术方案是:
一种基于PGM与PSO聚类的船舰数据关系抽取方法,包括以下步骤:
步骤一:获取船舰数据源,并将船舰数据源中的船舰数据进行实体抽取,识别出句子 中存在的命名实体,并进行标注;
步骤二:运用概率图模型从标识后的船舰数据中选择出所有可能的实体对,然后通过 选择最高概率候选实体
Figure BDA0002490476870000011
对所有可能的实体对进行消歧操作;
步骤三:设定k个聚类中心,然后进行实体对和聚类中心距离的计算,并将实体对归 为与其距离最小的聚类中心的簇中,然后利用适应度函数计算船舰数据间的距离,之后根 据最近临近法则调整簇的聚类中心,直到满足下列公式
Figure BDA0002490476870000021
其中,f表示适应度函数,n表示集合中的点总数,K表示集合总数,i表示集合中第i个点,xi表示属于C的数据点,a表示J2标准的权重比,cj表示第j个簇中心,ck表示第k个簇中心,min表示适应度值的最小值;
步骤四:使用粒子群算法对簇中的实体对进行计算;
步骤五:重复步骤三和步骤四,直至函数f得到的适应度值变小。
进一步的,所述步骤二中运用概率图模型从标识后的数据中选择出所有可能的实体对 的具体步骤为:
首先通过将句子中的实体与连接到候选实体的标签进行比较,进而得到实体分配的大 小,然后计算句子中候选实体对之间的相似度。
进一步的,所述相似度的公式为:
Figure BDA0002490476870000022
其中,LinkScore(r,ae)=Cover(r,ae)×Salience(r,ae),
Figure BDA0002490476870000023
Figure BDA0002490476870000024
其中,Cover(·)表示(r,v)在句子中覆盖率,Salience(·)表示标识句子中实体的受欢迎程 度,LinkTotal(r,ae)表示实体-关系总值,e表示ae这个实体,Links(e)表示实体分配的大小, ε表示实体对应的另一端实体为空,r为关系,ae为另一端的实体。
进一步的,所述实体分配的大小公式为:
Links(e)={<r,ae>|<e,r,ae>∈F}
LinkLabels(e,r)={l|<r,ae>∈Links(e),l∈Labels(ae)}
其中,e为实体,r为关系,ae为另一端的实体,Labels(e)包含了e的所有关系链接,而LinkLabels(e,r)代表了e对应另一端的标签,
Figure BDA0002490476870000025
进一步的,所述步骤三利用K-means算法进行聚类。
进一步的,所述K-means算法具体步骤为:
步骤1:确定k个簇,并初始化每个簇的中心
Figure BDA0002490476870000031
集群中心为一个m维向量,
Figure BDA0002490476870000032
m表示m维空间;
步骤2:计算第i个数据集与第k个聚类中心的距离
Figure BDA0002490476870000033
xij表示第i个数据集的j维空间的数据点,
Figure BDA0002490476870000034
表示第k个聚类中心的j维空间中第(t-1) 个数据点,
Figure BDA0002490476870000035
其中,xi表示属于C的数据点,
步骤3:将每个船舰数据对象分配到最近的集群中心;
步骤4:更新每个
Figure BDA0002490476870000036
簇中心,计算分配到该群集中心的所有点的平均值,更新公式为:
Figure BDA0002490476870000037
其中nk为分配给第k个集群的点的数量;
步骤5:计算簇内距离D,计算公式为:
Figure BDA0002490476870000038
其中d(xi,ci)是xi与ci之间的距离;
步骤6:若D值变小,则选择最终的聚类中心,否则,转到t=t+1迭代并返回到步骤2。
本发明的有益效果是:
本发明方法在判断关系抽取的能力的时候通过研究FFPSO算法与其他聚类方法的聚类 效果、基于PGM与PSO聚类的实体关系抽取方法与其他关系抽取方法的抽取程度。
用一个概率图模型来计算相似度分数,依据这个分数对不同候选对象之间的相似程度 进行划分,以使实体对更好的进行匹配,使用灵活的相似度准则来消除实体匹配的歧义, 可以抽取更多关系。
对现有的聚类算法中的适应度函数进行了优化,增加了两个准则,不易局部最优解的 情况,使其能够加速收敛,从而获得最优解,在构建面向知识图谱过程中关系抽取准确率 以及效率高。
附图说明
图1为本发明的流程框图;
图2为本发明的FFPSO算法与其他聚类算法在不同运行次数下的准确度;
图3为本发明的FFPSO算法与其他聚类算法在不同迭代次数下的适应度值变化情况;
图4为本发明的基于PGM与PSO聚类的关系抽取方法与其他抽取方法在不同数据量下的精确度;
图5为本发明的基于PGM与PSO聚类的关系抽取方法与其他抽取方法在不同数据量下的召回率。
具体实施方式
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的一种基于PGM与 PSO聚类的关系抽取方法,包括以下步骤:一种基于PGM与PSO聚类的船舰数据关系抽 取方法,其特征在于包括以下步骤:
步骤一:获取船舰数据源,并将船舰数据源中的船舰数据进行实体抽取,识别出句子 中存在的命名实体,并进行标注,所述的实体,举例来说就是,一个名词,能够代表着一个 事物,例如泰坦尼克号船就是一个实体。
步骤二:运用概率图模型从标识后的船舰数据中选择出所有可能的实体对,然后通过 选择最高概率候选实体
Figure BDA0002490476870000041
对所有可能的实体对进行消歧操作;
步骤三:设定k个聚类中心,然后进行实体对和聚类中心距离的计算,并将实体对归 为与其距离最小的聚类中心的簇中,然后利用适应度函数计算船舰数据间的距离,之后根 据最近临近法则调整簇的聚类中心,直到满足下列公式
Figure BDA0002490476870000042
其中,f表示适应度函数,n表示集合中的点总数,K表示集合总数,i表示集合中第i个点,xi表示属于C的数据点,a表示J2标准的权重比,cj表示第j个簇中心,ck表示第 k个簇中心,min表示适应度值的最小值;
步骤四:使用粒子群算法对簇中的实体对进行计算,寻找最佳位置也就是最优数据;
步骤五:重复步骤三和步骤四,直至函数f得到的适应度值变小,最终f值变小。因为刚开始一直没有变小,在一个比较恒定的值,但是后来变小了,那么表示现在提出的方法比以前的实验方法能得到更好的结果了
本发明将实体对抽取方法与概率图模型方法相结合,提出了基于概率图模型(Probabilistic Graphical model,PGM)的实体对识别方法:EPRPGM。其次,对于实体抽 取方法多是使用聚类的方式进行的。因基于PSO聚类算法是一个人们认可的聚类算法,应 用于舰船指挥方面的数据时,出现了收敛慢,易陷入局部最优解的情况,由于只着重考虑 了簇内问题,未综合簇间进行考量,因此,就这些问题,本章提出了一种基于适应度函数 的PSO聚类算法:FFPSO聚类算法。其主要观点和内容如下:
(1)基于PGM的实体对识别方法。使用了概率图模型的方式进行实体对识别,由于对所有的可能实体对进行了匹配,没有删除出现率低的实体对,所以对于关系的获取变得更加全面了,并且将PGM中置信度传播(Belief Propagation,BP)融入到了相似度计算之中,进而提高了实体对识别的准确率。
首先,使用启发式方法来标识实体(如果有的话),该启发式方法是通过识别句子中的 实体来进行实体与实体之间的匹配。这种试探法在实践中很有效,所以在本次方法中直接 应用它。然后,对于句子选择多组实体候选对,与第三章获取的实体进行对比。这个计算 的函数Cand(ρ)的含义是需要输入一个句子ρ,并且会返回包含句子ρ中潜在候选人的所有实体对E。这个函数是通过:
(1)检索第三章获取到的所有实体,
(2)检索句子中实体,
(3)返回有关的实体并进行关联标签。
让e∈Cand(ρ)成为一种潜在的候选实体对。所说的元组(ρ,e)实际上就是在进行句子实 体对匹配的任务。如果Cand(ρ)是空的,那么表示ρ句子没有实体对。否则,将确定哪些 实体需要进行配对。标签匹配使用长度归一化平滑TF-IDF进行排序。其中的候选项由与这 些标签关联的所有实体组成。
通常,为了检索更多的句子中的信息,实体被显式地链接到具有直接关系的实体标签 (例如,Labels(e))。在此方法中,还将这些标签添加到索引中,因为在研究中发现到这将 导致大量的召回。在此阶段,重要的是要有高的召回率,因为如果不能正确地获取到与之 对应的实体-关系对的话,后续操作将无法恢复。在下面的定义中,将每个实体的这些标签 集表示为Labels(e)。
在此步骤中通过将句子中的实体与连接到候选实体的标签进行比较来计算实体分配的 大小。为此,首先定义一个实体e的关系链接和相关实体标签链接,公式式(1)和公式(2)。
Links(e)={<r,ae>|<e,r,ae>∈F}
(1)
LinkLabels(e,r)={l|<r,ae>∈Links(e),l∈Labels(ae)}
(2)
其中,e为实体,r为关系,ae为另一端的实体,Labels(e)包含了e的所有关系链接,而LinkLabels(e,r)代表了e对应另一端的标签,公式(3)。
Figure BDA0002490476870000061
计算在句子和实体中的关系标签的链接值中字符串相似性最高的实体。在这里,当 TokenJaccard是雅卡尔系数J(A,B)=|A∩B|/|A∪B|。现将实体映射到关系(公式4)的似 然度,将句子中所有实体映射到关系公式(5)的似然度。
Figure BDA0002490476870000062
Figure BDA0002490476870000063
Score(r)是关系r的可能性得分,可以使用这个值来构造所有分配到r关系的分布值, 进而可以使用这些值去提纯可能的实体匹配。因此,可计算这样的可能性,见公式(6)。
Figure BDA0002490476870000064
其中公式(6)计算实体对匹配的可能性,即每个实体与其他实体进行匹配的普遍可能 性。
用公式(4)和公式(5)计算都依赖于Jaccard系数。通过使用这些值来计算句子中候 选实体对之间的相似度。在下一步中,使用之后这些相似度公式来计算比公式(6)更好。首先,需要衡量所有的链接(r,ae),衡量标准依赖于它们在句子中实体之间的一般性以及使 用它们时分配的相应优先级。为此,将函数LinkTotal定义见公式(7)。
Figure RE-GDA0002539857100000065
如果x为真则返回1,否则返回0。注意,由于score返回的值介于0和1之间,所以 在最佳情况下,LinkTotal(·)返回n。
然后,(r,v)表示通过对实体和关系中LinkTotal(r,ae)值进行归一化处理,见公式(8)、 公式(9)和公式(10)。
Figure BDA0002490476870000071
Figure BDA0002490476870000072
LinkScore(r,ae)=Cover(r,ae)×Salience(r,ae)
(10)
Cover(·)直观地计算了(r,v)在句子中覆盖率,Salience(·)用来标识句子中实体的受欢 迎程度。因此,可以根据实体中的覆盖率和受欢迎程度对属性进行排序。这个组合可以为 实体设置一个较低的等级,不会覆盖有效信息。即使是覆盖率低也可以用另一因素来平衡, 从而能够获得更好的相似度结果。
最终用公式(11)计算出实体与实体之间的相似值。计算实体间的相似度公式:
Figure BDA0002490476870000073
计算实体分配是为了增加文本中实体之间的相似性。这些分配是使用PGN的循环信念 传播(LBP)确定的。PGM是计算联合预测的著名形式。此模型主要是在一组随机变量的数据信息的基础上,将变量与变量间的依赖性定义成一个环。如果一个变量的值影响另一个变量的值,那么变量就被连接起来。如果影响是单向的,则连接是定向的;如果两个变 量相互影响,则连接是无定向的。对每条边的影响行为用一个称为势函数的函数来表示。 在PGM中进行计算时,利用势函数将节点信息在网络中传播,以确定随机变量的最终分布。
引入了消歧功能主要是为了提高关系获取的准确度。其中EntitySimilarity(e1,e2)定义为 一个完全图,这个图有循环的图,所以不可能执行精确的推断。因此,通过执行LBP来近 似它。另外,所有的边都是相同的。这将导致所有节点互相接收相同的信息。因此,对于 每个节点来说,并没有为每个节点提供单独的消息,而是使用一个向量值为节点提供信念 更新。
qe表示实体e是对候选实体对的加权,和Cρ,e是实体e对于ρ句子的一致性得分,计算 公式见公式(12)和公式(13)。
Figure BDA0002490476870000081
Cρ,e=Lp,e×qe (13)
BP可以运行多个迭代但不能保证收敛。研究过程中发现,当计算实体相似度得分公式 (11)不准确的时候,就可能会发生次优分配的情况,最终会“覆盖”更准确的实体关系。
最后,通过选择最高概率候选实体
Figure BDA0002490476870000082
来消除歧义。然后,重新计算Score(r),还需更新只包含预测实体
Figure BDA0002490476870000083
的候选实体,以及通过计算得分最高的关系r=argmaxrScore(r)消除歧义实体。
(2)基于适应度函数优化的PSO算法。粒子群算法PSO是一种基于群体思维和行为的改进算法。文献分析表明,与现有的聚类方法相比,基于PSO的聚类方法可以获得更高 的聚类结果。由于目前的聚类算法都是将数据聚类中粒子设定为最小化准则,因此无法调 节获得到目标函数的较高最优解。因此,在聚类过程中使用准则设定是很重要的,使用了 适应度函数优化,可以得到更好的最优解。为了构建消除多个局部最小点、收敛快的聚类 算法,本发明提出基于适应度函数优化的PSO聚类算法,可加快收敛,不易陷入局部最优, 从而得到最优解。
在空间中,聚类问题可以描述为:一个给定的点集,根据点之间的相似之处将这些点 分为K个(已知常数)集合,且集合间无交集。
这里划分时必须满足公式(14)和公式(15)。
Gj≠φ (14)
Figure BDA0002490476870000084
集群是一个将对象分组到多个集群的过程,它允许将类似的对象分配到同一个集群。 K-means是最常用的聚类算法,PSO聚类算法是在K-means算法后进行PSO粒子搜索,因此首先介绍K-means算法这部分。K-means算法试图找到聚类中心,其中距离最近的聚类 中心的平方和最小计算公式(16)。
Figure BDA0002490476870000091
其中d(xi,ci)是xi与ci之间的距离。k-means算法如下。
步骤1:确定k个簇并初始化每个簇的中心
Figure BDA0002490476870000092
集群中心是一个m维向量,例如
Figure BDA0002490476870000093
m表示m维空间;
步骤2:计算第i个数据集(m维空间)与第k个聚类中心的距离
Figure BDA0002490476870000094
见公式(17):
Figure BDA0002490476870000095
步骤3:将每个数据对象分配到最近的集群中心;
步骤4:根据公式(18)更新每个
Figure BDA0002490476870000096
簇中心,计算分配到该群集中心的所有点的平均值:
Figure BDA0002490476870000097
其中nk为分配给第k个集群的点的数量;
步骤5:通过公式(16)计算簇内距离D;
步骤6:如果D值满足,则选择最终的聚类中心。否则,转到t=t+1迭代并返回到步骤2。
将上面的结果再进行PSO粒子搜索位置。每个粒子都是N维空间中的一个位置,通过 调节它们在多维搜索域中的位置,找到最佳位置,其运动方式如下。
(1)粒子的最佳位置;
(2)邻近粒子的最佳位置;
(3)第i个粒子包括:第i个粒子包括:
xi(t)表示第i个粒子的当前位置;
vi(t)表示第i个粒子的电流速度;
yi(t)表示第i个粒子的个人最佳位置;
(4)g(t)表示粒子群中心的最佳位置。
粒子的位置是根据公式(19)和公式(20)求得的参数来调节的。
vil(t+1)=ω×vil(t)+γ1×r1(t)×(yil(t)-xil(t))+γ2×r2(t)×(gl(t)-xil
(19)
xil(t+1)=xil(t)+vil(t+1)
(20)
其中ω是惯性值(ω=0.7462),γ1和γ2是加速系数,r1(t),r2(t)表示在一个时间间隔 (0,1中随机变量的均匀分布,l=1,…,N,i=1,…,P,P是粒子群的大小。
第i个粒子的个人最佳位置计算:f(xi(t+1))<f(yi(t))时,yi(t+1)=xi(t+1);否则, yi(t+1)=yi(t)。
在PSO聚类算法中,每个粒子表示类的中心。在优化算法中,利用适应度函数从分类 方案中选择一个或有支付方案作为候选方案。对于满足给定条件的规划分类方案的选择, 采用适应度函数优化算法。为此,论文提出公式(21)这个适应度函数。
Figure BDA0002490476870000101
这里的目标是最小化由公式(21)给出的代价函数的值。也就是说,在这个函数的最 小值处可以更有效地进行集群化。(1-a)和a分别是J1和J2标准的权重比,代表J1和J2标准 对评价的影响。经过一系列的实验,聚类结果在a=0.687的权重比值下比较稳定,聚类效 果较好。因此,取权重比值为a=0.687。
函数f的最小值满足以下条件:在同类内距离小,不同类间距离大。以函数值取最低 的分类方案为最佳。
两个标准分别是:
1)簇内距离:簇内数据向量与其对应的簇中心之间的距离,目标是最小化簇内距离。 该类内离散度见公式(22)。
Figure BDA0002490476870000102
其中,cj为第j个簇中心,xi表示属于C的数据点。
2)簇间距离:两个簇中心间距,目标是簇间距最大化。该类间离散度见公式(23)。
Figure BDA0002490476870000111
其中ck为第k个簇中心,cj为第j个簇中心。
集群结果基于以上两个标准:簇内距离最小化和簇间距离最大化,通过有效性指标实 现优化标准,提高了收敛的速度且不易陷入局部最优解。
本发明主要针对舰船数据,船舶行业作为一个传统产业,相较其他新兴行业而言,它 与互联网和大数据技术的结合相对滞后。但其实船舶行业本身拥有众多的数据来源,它作 为一个规模庞大的行业集群,不仅包括船舶的设计与制造,还包括全球性的大宗货物运输, 它是联系世界各地贸易市场的纽带,是世界各地人民交往的桥梁。因此,该行业事实上蕴 藏着大量具有潜在价值的数据信息.
虽然就全国范围来看,还有不少船企仍然没有重视对大数据的行业运用,甚至对自有 的一些数据信息都没有完全有效利用,使一堆数据成为无用之物,造成了严重的数据资源 浪费。但是,也有一大批船企和相关行业组织已经启动了对大数据的行业应用。
早在2014年,日本船舶技术研究协会就开始着手开展有关船舶“大数据路标”方面的 工作,他们通过搜集多艘船舶的航行及其相关数据形成大数据,计划为船舶的节能航行、 船型开发、装备远程维护等项目所使用。而实际上对船舶航运数据信息的采集分析是十分 重要的。通过对营运船舶数据进行收集、统计分析和预测,船企可以获得很多有价值的信 息,如船舶的功率与航速、船舶能耗数据、各种节能措施的效果及各类设备的运行状态、 航线航区的海况资料等。
通过对这些数据分析处理,船企可以了解波浪对船舶航速的影响,在获知船舶在波浪 中消耗功率的相关数据信息后,就能够用于对不同船型气象因子的验证与评价。而通过与 不同等级波浪分类统计的数据比较,可以挖掘出波浪对船舶航速以及失速的影响。船企还 可以分类提取节能装置安装前和安装后的相关数据,对其进行统计分析。并借助数据挖掘 得到的相关数据之间的影响关系与修正方法,在消除诸如波浪、吃水、浮态、水深、水流 等因素的影响后,就能获得所用节能装置的节能效果。
大数据技术还能帮助船舶航运企业,准确测量和预判清理船舶水下船体和螺旋桨叶表 面污泥的最佳时间。船舶航运企业应用大数据技术,可以进一步分析出船舶污底与船舶营 运时间及航线间的关系,再结合坞修时清污成本的测算,就能获知最低成本的坞修清污时 间节点。这不仅能提升企业进行船舶营运能效管理的工作效率,还能有效降低船舶的营运 成本。
而对于船企内部的安全生产管理而言,大数据也发挥着重要的作用。船企拥有很多用 于起重、运输、焊接作业的基础设施,同时生产环境复杂。船企在过去一般都是采取人工 监控的方式来进行安全生产管理,但效果却不甚理想。如今,船企通过运用大数据、物联网和云平台等新兴技术,就可以实现多台设备的精准监控和测量,还可以根据实时数据远程指挥相关的作业操作程序。
大数据还能帮助船舶节能减排。通过基于大数据技术开发出的船舶能源需求预测系统,可 以监控船舶位置、发动机油耗和转速信息,实现船舶燃油消耗状况实时远程监测。并对实 时测量数据进行统计分析,根据主机油耗量、船舶排水量和航速之间的关系,对船舶油耗 进行优选,得到一个位移油耗指标,然后再根据该指标,指导船舶在最佳工作点上运作, 实现船舶油耗最经济的目标。最后通过该系统为航运商提供的可以实时监控的数据管理平 台,并结合相关的生产调度系统,可以实现船舶运输产业流程的整合,使管理更轻松,航 运更高效,有效地降低航运业燃油消耗量,最终实现节能减排的目标。
本发明的技术效果为:
本发明方法在判断关系抽取的能力的时候通过研究FFPSO算法与其他聚类方法的聚类 效果、基于PGM与PSO聚类的实体关系抽取方法与其他关系抽取方法的抽取程度。
用一个概率图模型来计算相似度分数,依据这个分数对不同候选对象之间的相似程度 进行划分,以使实体对更好的进行匹配,使用灵活的相似度准则来消除实体匹配的歧义, 可以抽取更多关系。
对现有的聚类算法中的适应度函数进行了优化,增加了两个准则,不易局部最优解的 情况,使其能够加速收敛,从而获得最优解。
通过实验验证其技术效果,聚类准确率CA(Clustering Accuracy),CA是聚类后,被 正确分类的样本数占总样本数的比重。计算见公式(24)。
Figure BDA0002490476870000121
适应度值与收敛速度:通过在数据集上运行算法并考察适应度值指标,用公式(21)、 公式(22)和公式(23)计算。通过公式可知,适应度值越小,算法得到的解越优。收敛速度快慢由适应度值的变化快慢决定。
准确度用于评估聚类效果。准确度的值越大,算法越稳健。
精确率的定义见公式(25)。
Figure BDA0002490476870000122
其中,Cij为属于i类但划分为j类的数目,Ci为属于i类中数目。
为验证不同算法的聚类稳定性,实验多次执行聚类算法,并结合每次聚类结果是否有 很大的浮动进行检验,数据集中部分涵盖了类别,准确率计算见公式(24)。分别对几种算 法进行稳定性测试,在算法各运行10次之后考察各算法的稳定性表现,如图2所示。图2 是各算法在数据集上的运行结果。传统K-Means的表现最差,不仅出现大范围的波动情况且最低准确率下降到仅为60%,是因算法随机初始化引起;GA、PSO教K-Means来讲, 稳定性有了一定提高且平均准确率提升至75%,因GA、PSO采用了进化方法;SAPSO算 法与GA和PSO算法相比,稳定性基本一致,但平均准确率提升了三个百分比。通过实验 对比可以看出,FFPSO算法的整体稳定性较SAPSO有所提升,在10次甚至更多的反复测 试中,保持了很好的稳定性和更高的分类准确率,平均准确率也提升至83%,大概提升了 五个百分比。
对各种算法都各完成了十次实验,得到的适应度变化曲线大致相同,因此仅展示一组 各算法的实验结果,如图3所示。图3中可以看出,k-means和GA几乎都是在第6次迭代时完成了收敛,在最后收敛时二者的适应度值也差不多,但是二者存在不同之处,在迭代开始处k-means的适应度值较大,这也就表明GA相比与k-means可以求出更好的解;PSO 和SAPSO算法是在第4次迭代时完成了收敛,PSO适应值偏大,且最后收敛的适应度值也 是SAPSO偏小,表明二者相比SAPSO能够获得更优的解。论文提出的FFPSO算法,迭代 2次左右开始收敛,且在第一次迭代时也得到了不错的适应度值,和其他算法比,收敛更 快,这表明该算法可得出更优解,是个聚类效果不错的算法。
综上所述,本发明中的FFPSO算法在聚类稳定性、准确率、收敛性方面都有更好的表 现,在原本算法的基础上很好的解决聚类算法结果缺乏鲁棒性、不准确、易陷入局部最优 等问题。
使用精确率(Precision,Pr)、召回率(Recall,Rr)来衡量抽取方法的性能,见公式(26)、 公式(27)。
Pr=Cs/Ns (26)
Rr=Cs/Nts (27)
其中Cs为正确抽取的三元组数目,Ns为抽取出的三元组总数,Nts为测试几中三元组总 数。
本次的实验主要是针对准确率和召回率在不同关系抽取方法、不同的测试数据量下进 行对比的结果图,如图4所示。以图4、图5的实验结果看,论文提出的关系抽取方法(PGM+FFPSO)和其他关系抽取方法相比精确度有了提升,召回率与现有方法的差距也有 稍稍提升。在图4中对比没有PGM的方法,可以看出PGM的加入提高了关系抽取的精确 度,表明论文提出的实体对的匹配是有效的。
总而言之,通过上面几个对比分析可以看出,本方法提出的基于适应度函数优化的PSO 聚类算法、基于PGM与PSO聚类的关系抽取方法能够在关系提取的精确率和召回率上表 现出了其优越性。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定 权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本 发明的保护范围内。

Claims (6)

1.一种基于PGM与PSO聚类的船舰数据关系抽取方法,其特征在于包括以下步骤:
步骤一:获取船舰数据源,并将船舰数据源中的船舰数据进行实体抽取,识别出句子中存在的命名实体,并进行标注;
步骤二:运用概率图模型从标识后的船舰数据中选择出所有可能的实体对,然后通过选择最高概率候选实体
Figure FDA0002490476860000011
对所有可能的实体对进行消歧操作;
步骤三:设定k个聚类中心,然后进行实体对和聚类中心距离的计算,并将实体对归为与其距离最小的聚类中心的簇中,然后利用适应度函数计算船舰数据间的距离,之后根据最近临近法则调整簇的聚类中心,直到满足下列公式
Figure FDA0002490476860000012
其中,f表示适应度函数,n表示集合中的点总数,K表示集合总数,i表示集合中第i个点,xi表示属于C的数据点,a表示J2标准的权重比,cj表示第j个簇中心,ck表示第K个簇中心,min表示适应度值的最小值;
步骤四:使用粒子群算法对簇中的实体对进行计算;
步骤五:重复步骤三和步骤四,直至函数f得到的适应度值变小。
2.根据权利要求1所述的一种基于PGM与PSO聚类的船舰数据关系抽取方法,其特征在于所述步骤二中运用概率图模型从标识后的数据中选择出所有可能的实体对的具体步骤为:
首先通过将句子中的实体与连接到候选实体的标签进行比较,进而得到实体分配的大小,然后计算句子中候选实体对之间的相似度。
3.根据权利要求2所述的一种基于PGM与PSO聚类的船舰数据关系抽取方法,其特征在于所述相似度的公式为:
Figure FDA0002490476860000013
其中,LinkScore(r,ae)=Cover(r,ae)×Salience(r,ae),
Figure FDA0002490476860000014
Figure FDA0002490476860000015
其中,Cover(·)表示(r,v)在句子中覆盖率,Salience(·)表示标识句子中实体的受欢迎程度,LinkTotal(r,ae)表示实体-关系总值,e表示ae这个实体,Links(e)表示实体分配的大小,ε表示实体对应的另一端实体为空,r为关系,ae为另一端的实体。
4.根据权利要求2所述的一种基于PGM与PSO聚类的船舰数据关系抽取方法,其特征在于所述实体分配的大小公式为:
Links(e)={<r,ae>|<e,r,ae>∈F}
LinkLabels(e,r)={l|<r,ae>∈Links(e),l∈Labels(ae)}
其中,e为实体,r为关系,ae为另一端的实体,Labels(e)包含了e的所有关系链接,而LinkLabels(e,r)代表了e对应另一端的标签,
Figure FDA0002490476860000021
5.根据权利要求1所述的一种基于PGM与PSO聚类的船舰数据关系抽取方法,其特征在于所述步骤三利用K-means算法进行聚类。
6.根据权利要求3所述的一种基于PGM与PSO聚类的船舰数据关系抽取方法,其特征在于所述K-means算法具体步骤为:
步骤1:确定k个簇,并初始化每个簇的中心
Figure FDA0002490476860000022
集群中心为一个m维向量,
Figure FDA0002490476860000023
m表示m维空间;
步骤2:计算第i个数据集与第k个聚类中心的距离
Figure FDA0002490476860000024
xij表示第i个数据集的j维空间的数据点,
Figure FDA0002490476860000025
表示第k个聚类中心的j维空间中第(t-1)个数据点,
Figure FDA0002490476860000026
其中,xi表示属于C的数据点,
步骤3:将每个船舰数据对象分配到最近的集群中心;
步骤4:更新每个
Figure FDA0002490476860000027
簇中心,计算分配到该群集中心的所有点的平均值,更新公式为:
Figure FDA0002490476860000028
其中nk为分配给第k个集群的点的数量;
步骤5:计算簇内距离D,计算公式为:
Figure FDA0002490476860000031
其中d(xi,ci)是xi与ci之间的距离;
步骤6:若D值变小,则选择最终的聚类中心,否则,转到t=t+1迭代并返回到步骤2。
CN202010403756.6A 2020-05-13 2020-05-13 一种基于pgm与pso聚类的船舰数据关系抽取方法 Active CN111626343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010403756.6A CN111626343B (zh) 2020-05-13 2020-05-13 一种基于pgm与pso聚类的船舰数据关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010403756.6A CN111626343B (zh) 2020-05-13 2020-05-13 一种基于pgm与pso聚类的船舰数据关系抽取方法

Publications (2)

Publication Number Publication Date
CN111626343A true CN111626343A (zh) 2020-09-04
CN111626343B CN111626343B (zh) 2022-05-03

Family

ID=72260579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010403756.6A Active CN111626343B (zh) 2020-05-13 2020-05-13 一种基于pgm与pso聚类的船舰数据关系抽取方法

Country Status (1)

Country Link
CN (1) CN111626343B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090187525A1 (en) * 2006-07-28 2009-07-23 Persistent Systems Private Limited System and method for network association inference, validation and pruning based on integrated constraints from diverse data
CN103972908A (zh) * 2014-05-23 2014-08-06 国家电网公司 一种基于自适应混沌粒子群算法的多目标无功优化方法
CN106126961A (zh) * 2016-07-28 2016-11-16 上海交通大学 灰色粒子群卫星钟差自适应预测方法及系统
CN110096634A (zh) * 2019-04-29 2019-08-06 成都理工大学 一种基于粒子群优化的房产数据向量对齐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090187525A1 (en) * 2006-07-28 2009-07-23 Persistent Systems Private Limited System and method for network association inference, validation and pruning based on integrated constraints from diverse data
CN103972908A (zh) * 2014-05-23 2014-08-06 国家电网公司 一种基于自适应混沌粒子群算法的多目标无功优化方法
CN106126961A (zh) * 2016-07-28 2016-11-16 上海交通大学 灰色粒子群卫星钟差自适应预测方法及系统
CN110096634A (zh) * 2019-04-29 2019-08-06 成都理工大学 一种基于粒子群优化的房产数据向量对齐方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DAMODAR REDDY EDLA等: "A PSO Based Routing with Novel Fitness Function for Improving Lifetime of WSNs", 《WIRELESS PERSONAL COMMUNICATIONS》 *
LIANKE ZHOU等: "On the Relationship between Contact a-spots Features and Electrodynamic Repulsion Force for Electrical Apparatus", 《IEEE TRANSACTIONS ON COMPONENTS,PACKAGING AND MANUFACTURING TECHNOLOGY》 *
MINGLI LEI等: "A proposed grey model for short-term electricity price forecasting in competitive power markets", 《ELECTRICAL POWER AND ENERGY SYSTEMS》 *
张桔娴等: "大密度舰船电子海图中数据快速检索方法研究", 《舰船科学技术》 *
潘翔: "基于聚类的改进混合推荐算法研究", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN111626343B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
US11816888B2 (en) Accurate tag relevance prediction for image search
CN110532542B (zh) 一种基于正例与未标注学习的发票虚开识别方法及系统
CN106557485B (zh) 一种选取文本分类训练集的方法及装置
Martins et al. A machine learning approach for resolving place references in text
US20170004413A1 (en) Data driven classification and data quality checking system
CN112463976B (zh) 一种以群智感知任务为中心的知识图谱构建方法
CN111177402B (zh) 基于分词处理的评价方法、装置、计算机设备及存储介质
CN113420145B (zh) 一种基于半监督学习的招标文本分类方法与系统
CN111158641B (zh) 基于语义分析和文本挖掘的事务类功能点自动识别方法
Sefidian et al. Estimating missing data using novel correlation maximization based methods
WO2010062445A1 (en) Predictive indexing for fast search
Shen et al. Learning primal heuristics for mixed integer programs
CN109783633B (zh) 数据分析服务流程模型推荐方法
CN109299263A (zh) 文本分类方法、电子设备及计算机程序产品
CN110968693A (zh) 基于集成学习的多标签文本分类计算方法
CN111651597A (zh) 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法
CN114297393A (zh) 融合多元文本信息和报告意图的软件缺陷报告分类方法
Xi et al. Lb-simtsc: An efficient similarity-aware graph neural network for semi-supervised time series classification
CN111626343B (zh) 一种基于pgm与pso聚类的船舰数据关系抽取方法
Kamruzzaman et al. Text classification using association rule with a hybrid concept of naive Bayes classifier and genetic algorithm
US12014140B2 (en) Utilizing machine learning and natural language processing to determine mappings between work items of various tools
CN115456258A (zh) 竞争对手船舶运力预测方法、计算机可读介质
Tian et al. Image annotation with weak labels
CN112800243A (zh) 一种基于知识图谱的项目预算分析方法及系统
Gai et al. Software defect prediction based on weighted extreme learning machine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant