CN104462321A - 一种科技成果的推广方法及系统 - Google Patents

一种科技成果的推广方法及系统 Download PDF

Info

Publication number
CN104462321A
CN104462321A CN201410720436.8A CN201410720436A CN104462321A CN 104462321 A CN104462321 A CN 104462321A CN 201410720436 A CN201410720436 A CN 201410720436A CN 104462321 A CN104462321 A CN 104462321A
Authority
CN
China
Prior art keywords
node
energy
identity
matrix
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410720436.8A
Other languages
English (en)
Inventor
王晶华
陈晰
郭光�
孙辰军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INSTITUTE OF POLICY AND MANAGEMENT CHINESE ACADEMY OF SCIENCES
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Hebei Electric Power Co Ltd
Hengshui Power Supply Co of State Grid Hebei Electric Power Co Ltd
Original Assignee
INSTITUTE OF POLICY AND MANAGEMENT CHINESE ACADEMY OF SCIENCES
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Hebei Electric Power Co Ltd
Hengshui Power Supply Co of State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INSTITUTE OF POLICY AND MANAGEMENT CHINESE ACADEMY OF SCIENCES, State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, State Grid Hebei Electric Power Co Ltd, Hengshui Power Supply Co of State Grid Hebei Electric Power Co Ltd filed Critical INSTITUTE OF POLICY AND MANAGEMENT CHINESE ACADEMY OF SCIENCES
Priority to CN201410720436.8A priority Critical patent/CN104462321A/zh
Publication of CN104462321A publication Critical patent/CN104462321A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种科技成果的推广方法和系统,包括:获取多个网络中的人物身份信息以及人物身份对应关系,将已知人物身份对应关系的人物身份信息集合作为训练集,构建基于人物行为相似度的能量最低模型,获取能量因子和匹配关系分类器;根据匹配关系分类器将任意两个人物身份信息进行匹配,求解此能量矩阵得到单次预测的匹配结果;对多次求解的匹配结果进行集成,得到人物身份对应关系。接收输入的人名,在一个网页中显示同一人物在不同网络中的身份信息以及科技成果信息。本发明的方法及系统,能够将多个网络中具有不同身份信息但名字相同的信息进行同一性确认,并将同一性确认技术应用于科技成果显示,采用的算法高效,计算过程较快。

Description

一种科技成果的推广方法及系统
技术领域
本发明涉及网络通信技术领域,特别是指一种科技成果的推广方法及系统。
背景技术
科技成果推广是将科技成果让更多的人和组织了解、接受,从而达到宣传、普及的作用。网络推广是目前应用比较广泛的一种方式。一般情况下,同一个人物在不同网络中注册有不同的身份信息,例如,电子邮箱、电话等等信息。例如,在在科学研究领域,往往会有大量科技工作者同时在多个科研团队中协同工作,由此导致在发表学术成果时同一个人所使用的个人信息,如电子信箱、单位、地址等,可能并不相同,即相同人名具有不同身份信息。在对领域内相关学术成果信息进行汇总时,由于难以判断这些相同的人名是否为同一个人,这样的冗余信息会直接影响统计结果的准确性。例如,科技工作者在不同的团队中工作,同一个科技工作者的个人信息可能在多个网络中出现,例如,某大学的网站、论文网、技术成果转让网、专利交易网等等,而此科技工作者在多个网络中的个人信息不一定完全相同。
传统的社会网络分析方法通常仅考虑人物在单一网络(如在某高校任职)中的行为特征,忽略了人物可能会处于多个网络中的关联情况,例如一个人物可以同时活跃于高校、国企科研机构和社会性研究机构中,并且在每个社会网络中拥有不同的身份、人际圈子和研究内容,针对单一网络的行为分析方法无法应用于这种多层网络环境。在多个网络中,各网络中的节点可能具有截然不同的属性,并且网络与网络的节点之间存在相互依赖和协作等关联关系。当同一个人具有多项科研成果时,目前的推广网络只是简单的罗列科技成果,并没有根据人物的特征进行整理,人物无法对所述关注的科技信息进行清晰的把握。
发明内容
有鉴于此,本发明的目的在于提出一种科技成果的推广方法及系统,能够将多个网络中同一人物的科技成果进行同一性处理。
基于上述目的本发明提供一种科技成果的推广方法,包括:获取多个网络中的人物身份信息以及人物身份对应关系;将已知人物身份对应关系的人物身份信息集合作为训练集;根据所述训练集中的所述人物身份信息构建基于人物行为相似度的能量最低模型,获取能量因子和匹配关系分类器;根据所述匹配关系分类器将任意两个人物身份信息进行匹配,并采用能量因子进行能量填充形成能量矩阵,求解此能量矩阵得到单次预测的匹配结果;对多次求解的匹配结果进行集成,得到人物身份对应关系并确定具有相同人名人物的身份同一性。接收输入的人名,从多个网络中查询与所述人名对应的科技成果信息;根据相同人名的人物的身份同一性,在一个网页中显示同一人物在不同网络中的身份信息以及科技成果信息,其中,身份信息包括:电子邮件、电话、单位。
根据本发明的一个实施例,进一步的,所述将已知人物身份对应关系的所述人物身份信息的集合作为训练集、根据所述训练集中的所述人物身份信息构建基于人物行为相似度的能量最低模型、获取能量因子和匹配关系分类器包括:对于2个网络P、Q中任意给定的节点V(i),其网络拓扑结构特征向量为:f(i)={f1,f2,…fd},其中,节点代表人物身份信息,f[1-d]为节点基本属性特征,包括:节点出度、入度、聚类系数、邻居节点、平均度、共同邻居;建立节点对特征向量向量,对于2个网络P、Q的节点对特征向量向量为: F P ↔ Q = F ( V P ( i ) , V Q ( i ) ) = { f P ( 1 ) , f P ( 2 ) , . . . , f P ( m ) , f Q ( 1 ) , f Q ( 2 ) , . . . , f Q ( m ) } ; 根据该节点对特征向量向量对匹配节点对进行聚类,获得各聚类类别C中所包含的具有相似特征节点的个数,将其作为粒子特征,节点对特征的分布情况作为能量因子,将具有相似网络行为特征的人物赋予等值的能量因子;构建匹配节点对能量模型:其中,βi为相似特征的匹配节点对集合依据特征进行聚类后的节点对个数,εi为该类别对应的能量因子;根据所述能量模型获取每个聚类类别所对应的能量因子:ε={ε12,...,εk},并将其作为预测过程中节点对所属类别的能量因子;根据聚类类别结果建立K分类器,并赋予每个节点对类别编号。
根据本发明的一个实施例,进一步的,所述根据所述匹配关系分类器将任意两个人物身份信息进行匹配、并采用能量因子进行能量填充形成能量矩阵、求解此能量矩阵得到单次预测的匹配结果包括:对网络P、Q中未知身份对应关系的节点分别提取其拓扑结构特征:FP(i)={fP(1),fP(2),...,fP(m)}和FQ(i)={fQ(1),fQ(2),...,fQ(m)};对于任意未知身份对应关系的节点i∈P,j∈Q,构建n×n个所有未知节点的匹配节点对特征向量: F P ↔ Q = F ( V P ( i ) , V Q ( j ) ) = { f P ( 1 ) , f P ( 2 ) , . . . , f P ( n ) , f Q ( 1 ) , f Q ( 2 ) , . . . , f Q ( n ) } ; 通过K分类器对匹配节点对特征向量进行分类,得到每个节点对类别标签,构建节点对类别矩阵;对类别矩阵进行能量因子填充,将类别矩阵中类别标签替换为该类别所对应的能量因子εi=catogory,构建能量矩阵;计算能量矩阵的最佳匹配。
根据本发明的一个实施例,进一步的,计算该能量矩阵的最佳匹配的算法为:
min Σ i = 1 n Σ j = 1 n E ij λ ij ;
s . t . Σ i = 1 n λ ij = 1 ( i = 1,2 , . . . , n ) ;
Σ j = 1 n λ ij = 1 ( j = 1,2 , . . . , n ) ,
λij∈{0,1};
其中,λij表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,若的对应关系被确立则标记为1,否则标记为0,匹配结果表述为 V P ( i ) ↔ V Q ( j ) .
根据本发明的一个实施例,进一步的,所述对多次求解的匹配结果进行集成,得到人物身份信息的对应关系并确定具有相同人名的身份同一性包括:得到ξ个预测结果,将每次预测结果在节点对匹配矩阵中进行投票,得到投票矩阵V-Matrix=(Vij);求解该投票矩阵V-Matrix的最优匹配问题,采用的公式为:
min Σ i = 1 n Σ j = 1 n v ij λ ij ;
s . t . Σ i = 1 n λ ij = 1 ( i = 1,2 , . . . , n ) ;
Σ j = 1 n λ ij = 1 ( j = 1,2 , . . . , n ) ;
λij∈{0,1};
其中,vij表示表示投票矩阵中第i行第j列的投票结果,λij表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,即表示节点对的最终匹配结果。
基于上述目的本发明提供一种科技成果的推广系统,包括:信息获取单元,用于获取多个网络中的人物身份信息以及人物身份对应关系;训练集生成单元,用于将已知人物身份对应关系的人物身份信息集合作为训练集;根据所述训练集中的所述人物身份信息构建基于人物行为相似度的能量最低模型,获取能量因子和匹配关系分类器;匹配单元,用于根据所述匹配关系分类器将任意两个人物身份信息进行匹配,并采用能量因子进行能量填充形成能量矩阵,求解此能量矩阵得到单次预测的匹配结果;集成单元,用于对多次求解的匹配结果进行集成,得到人物身份对应关系并确定具有相同人名人物的身份同一性。推广信息显示单元,用于接收输入的人名,从多个网络中查询与所述人名对应的科技成果信息;根据相同人名的人物的身份同一性,在一个网页中显示同一人物在不同网络中的身份信息以及科技成果信息,其中,身份信息包括:电子邮件、电话、单位。
根据本发明的一个实施例,进一步的,所述训练集生成单元,包括:节点对特征建立子模块,用于对于2个网络P、Q中任意给定的节点V(i),建立其网络拓扑结构特征向量为:f(i)={f1,f2,…fd},其中,节点代表人物身份信息,f[1-d]为节点基本属性特征,包括:节点出度、入度、聚类系数、邻居节点、平均度、共同邻居;建立节点对特征向量向量,对于2个网络P、Q的节点对特征向量向量为: F P ↔ Q = F ( V P ( i ) , V Q ( i ) ) = { f P ( 1 ) , f P ( 2 ) , . . . , f P ( m ) , f Q ( 1 ) , f Q ( 2 ) , . . . , f Q ( m ) } ; 根据该节点对特征向量向量对匹配节点对进行聚类,获得各聚类类别C中所包含的具有相似特征节点的个数,将其作为粒子特征,节点对特征的分布情况作为能量因子,将具有相似网络行为特征的人物赋予等值的能量因子;分类器生成子模块,用于构建匹配节点对能量模型:其中,βi为相似特征的匹配节点对集合依据特征进行聚类后的节点对个数,εi为该类别对应的能量因子;根据所述能量模型获取每个聚类类别所对应的能量因子:ε={ε12,...,εk},并将其作为预测过程中节点对所属类别的能量因子;根据聚类类别结果建立K分类器,并赋予每个节点对类别编号。
根据本发明的一个实施例,进一步的,所述训练集生成单元,还包括:节点对类别建立子模块,用于对网络P、Q中未知身份对应关系的节点分别提取其拓扑结构特征:FP(i)={fP(1),fP(2),...,fP(m)}和FQ(i)={fQ(1),fQ(2),...,fQ(m)};对于任意未知身份对应关系的节点i∈P,j∈Q,构建n×n个所有未知节点的匹配节点对特征向量: F P ↔ Q = F ( V P ( i ) , V Q ( j ) ) = { f P ( 1 ) , f P ( 2 ) , . . . , f P ( n ) , f Q ( 1 ) , f Q ( 2 ) , . . . , f Q ( n ) } ; 通过K分类器对匹配节点对特征向量进行分类,得到每个节点对类别标签,构建节点对类别矩阵;所述匹配单元,还用于对类别矩阵进行能量因子填充,将类别矩阵中类别标签替换为该类别所对应的能量因子εi=catogory,构建能量矩阵,计算能量矩阵的最佳匹配。
根据本发明的一个实施例,进一步的,所述匹配单元计算该能量矩阵的最佳匹配的算法为:
min Σ i = 1 n Σ j = 1 n E ij λ ij ;
s . t . Σ i = 1 n λ ij = 1 ( i = 1,2 , . . . , n ) ;
Σ j = 1 n λ ij = 1 ( j = 1,2 , . . . , n ) ,
λij∈{0,1};
其中,λij表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,若的对应关系被确立则标记为1,否则标记为0,匹配结果表述为 V P ( i ) ↔ V Q ( j ) .
根据本发明的一个实施例,进一步的,所述集成单元,还用得到ξ个预测结果,将每次预测结果在节点对匹配矩阵中进行投票,得到投票矩阵V-Matrix=(Vij);求解该投票矩阵V-Matrix的最优匹配问题,采用的公式为:
min Σ i = 1 n Σ j = 1 n v ij λ ij ;
s . t . Σ i = 1 n λ ij = 1 ( i = 1,2 , . . . , n ) ;
Σ j = 1 n λ ij = 1 ( j = 1,2 , . . . , n ) ;
λij∈{0,1};
其中,vij表示表示投票矩阵中第i行第j列的投票结果,λij表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,即表示节点对的最终匹配结果。
从上面所述可以看出,本发明的科技成果的推广方法及系统,能够将多个网络中具有不同身份信息但名字相同的信息进行同一性确认,可以确认不同身份信息但名字相同的人是否是同一个人,并将此同一性处理应用于科技成果显示中,采用的算法高效,计算过程较快,随着样本库的增加,计算结果准确率也会不断提高。
附图说明
图1为本发明的科技成果的推广方法的一个实施例的流程图;
图2为本发明的科技成果的推广方法的另一个实施例的流程图;
图3本发明的科技成果的推广方法的两层网络任意节点对类别矩阵示意图;
图4为本发明的科技成果的推广方法的能量矩阵中能量因子填充示意图;
图5为本发明的科技成果的推广方法的ξ=2时投票矩阵的示意图;
图6为本发明的科技成果的推广方法的投票及集成算法过程的示意图;
图7为本发明的科技成果的推广系统的一个实施例的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为本发明的科技成果的推广方法的一个实施例的流程图;如图1所示:
步骤101,获取多个网络中的人物身份信息以及人物身份对应关系。
步骤102,将已知人物身份对应关系的人物身份信息集合作为训练集。
步骤103,根据所述训练集中的所述人物身份信息构建基于人物行为相似度的能量最低模型,获取能量因子和匹配关系分类器。
步骤104,根据所述匹配关系分类器将任意两个人物身份信息进行匹配,并采用能量因子进行能量填充形成能量矩阵,求解此能量矩阵得到单次预测的匹配结果。
步骤105,对多次求解的匹配结果进行集成,得到人物身份对应关系并确定具有相同人名人物的身份同一性。
步骤106,接收输入的人名,从多个网络中查询与所述人名对应的科技成果信息;根据相同人名的人物的身份同一性,在一个网页中显示同一人物在不同网络中的身份信息以及科技成果信息,其中,身份信息包括:电子邮件、电话、单位。科技成果信息包括:论文、科研项目等等。
确定多网络中同名个体的同一性问题的关键在于找出多重身份个体在不同网络中的节点对应关系,即网络间节点匹配问题。而不同网络的拓扑结构信息、社交网站等互联网信息记录中大量个体之间互交互信息等,为解决不同层网络间的耦合问题提供了可能,例如,通过度、簇系数、邻居结构、共同朋友等可以在一定程度上识别不同网络中具有同一身份的节点。
图2为本发明的科技成果的推广方法的另一个实施例的流程图;如图2所示:
步骤201-208为模型表述,将已知身份对应关系的人物集合作为训练集,根据已知的部分节点对信息一方面构建基于人物行为相似度的能量最低模型,从而得到节点对所对应的能量因子,另一方面训练得到节点对匹配关系分类器,用于指导未知匹配关系节点对的匹配。
步骤210-216为节点匹配,根据模型表述过程中的分类器进行任意两个节点的匹配,并采用能量因子进行能量填充,在求解填充后的能量最小化过程中得到单次预测的节点对匹配结果。
步骤217-219为投票集成,在多次节点匹配过程的基础上,对预测结果进行集成,得到最终的多层网络中人物身份的对应关系,并以此判断相同人名的同一性。
伊辛模型是描述物质相变的一种模型。物质经过相变,要出现新的结构和物性。发生相变的系统一般是在分子之间有较强相互作用的系统,又称合作系统。在模型表述过程中,将伊辛理论模型原理运用于双个网络的节点匹配过程中,通过提取网络中节点的拓扑结构特征f,建立匹配节点对特征向量FP-Q
根据该特征向量对匹配节点对进行聚类,得到各聚类类别C中所包含的具有相似特征节点的个数,将其作为粒子特征。节点对特征的分布情况作为磁性概率(能量因子),将具有相似网络行为特征的人物群体赋予等值的能量因子。根据自旋模型的能量最低原理,假设当双层网络中所有节点对被完全正确匹配时,系统总能量值最低,并依此构建匹配节点对能量模型:
min H = Σ i = 1 k β i ϵ i - - - ( 1 )
其中,βi为相似特征的匹配节点对集合依据特征进行聚类后的节点对个数,εi为该类别对应的能量因子。
通过非线性优化方法,将得到每个聚类类别所对应的能量因子:ε={ε12,...,εk},并将其作为预测过程中节点对所属类别的能量因子。根据上述聚类类别结果建立K-分类器(CLASSIFIER),并赋予每个节点对类别编号
在一个实施例中,建立能量模型的前提为网络节点的向量化表示,对于任意给定的节点V(i),定义其网络拓扑结构特征向量为:f(i)={f1,f2,…fd},其中f[1-d]可能为节点基本属性特征,例如节点出度、入度、聚类系数、邻居节点、平均度等,也可能为节点扩展属性特征,例如两节点间共同邻居、Jaccard系数等。
在此基础上,节点对的结构特征向量则为多层网络中基本属性特征和扩展属性特征的集合,以两个网络或两层网络为例,则节点对向量可表示为:
F P ↔ Q = F ( V P ( i ) , V Q ( i ) ) = { f P ( 1 ) , f P ( 2 ) , . . . , f P ( m ) , f Q ( 1 ) , f Q ( 2 ) , . . . , f Q ( m ) } .
在一个实施例中,在节点匹配过程中,以两个或两层网络为例,节点对类别矩阵包含了两层网络中节点匹配的所有可能,从众多可能情况中找到一一对应的正确匹配结果则将节点对的身份预测问题转换为二分图最优匹配问题,即通过优化算法使得矩阵中任意行和列中仅存在一个匹配结果。
而根据能量值最低模型,为了使得匹配结果全局能量值最低,首先需要对类别矩阵进行能量因子填充,即将矩阵中类别标签替换为该类别所对应的能量因子,并构建如图3所示的能量矩阵。在该n×n能量矩阵中,本方法目标为寻找n个最佳匹配结果,满足系统能量值最低。可用算法很多,例如匈牙利算法。
匈牙利算法是众多用于解决线性任务分配问题的算法之一,是用来解决二分图最大匹配问题的经典算法。设G=(V,E)是一个无向图。如顶点集V可分区为两个互不相交的子集V1,V2之并,并且图中每条边依附的两个顶点都分属于这两个不同的子集,则称图G为二分图。二分图也可记为G=(V1,V2,E)。给定一个二分图G,在G的一个子图M中,M的边集{E}中的任意两条边都不依附于同一个顶点,则称M是一个匹配。选择这样的子集中边数最大的子集称为图的最大匹配问题(maximal matching problem)。如果图的所有顶点都与某匹配中的一条边相关联,则称此匹配为完全匹配,也称作完备,完美匹配。
以2个网络为例,首先,对网络中未知身份对应关系的节点,分别提取其拓扑结构特征:FP(i)={fP(1),fP(2),...,fP(m)}和FQ(i)={fQ(1),fQ(2),...,fQ(m)}。
对于任意节点i∈P,j∈Q,构建n×n个所有可能的匹配节点对特征向量:
F P ↔ Q = F ( V P ( i ) , V Q ( j ) ) = { f P ( 1 ) , f P ( 2 ) , . . . , f P ( n ) , f Q ( 1 ) , f Q ( 2 ) , . . . , f Q ( n ) }
通过K分类器进行分类,得到每个节点对类别标签,从而构建如图3所示的节点对类别矩阵。
节点对类别矩阵包含了两层网络中节点匹配的所有可能,从众多可能情况中找到一一对应的正确匹配结果则将节点对的身份预测问题转换为二分图最优匹配问题,即通过优化算法使得矩阵中任意行和列中仅存在一个匹配结果。而根据能量值最低模型,为了使得匹配结果全局能量值最低,首先需要对类别矩阵进行能量因子填充,即将矩阵中类别标签替换为该类别所对应的能量因子εi=catogory,并进一步构建能量矩阵如图4所示。
在能量矩阵中,目标为寻找n个最佳匹配结果,满足系统能量值最低。采用匈牙利算法计算该最佳匹配,其数学模型或算法如下:
min Σ i = 1 n Σ j = 1 n E ij λ ij
s . t . Σ i = 1 n λ ij = 1 ( i = 1,2 , . . . , n )
Σ j = 1 n λ ij = 1 ( j = 1,2 , . . . , n )
λij∈{0,1};
其中,λij表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,若的对应关系被确立则标记为1,否则标记为0。不失一般性,匹配结果表述为
在一个实施例中,在投票集成过程中,由于聚类算法在选取聚类中心时的随机性,并不一定能够保证聚类结果的全局最优,该特性会导致单次预测结果的不确定性。为了得到更加稳定和准确的结果,本发明引入集成算法,通过投票及二次匹配优化最终预测结果。
针对给定的待预测数据,首先重复运行身份对应关系预测算法ξ次,得到ξ个预测结果,再将每次预测结果在节点对匹配矩阵中进行投票,得到投票矩阵V-Matrix=(Vij),如图5所示。例如,给定ξ=2,则将得到两次匹配结果,若第一次匹配结果的节点对应关系为则设置V11,V22,V33和Vnn的值为1,若第二次匹配结果的节点对应关系为则设置V11,V23,V32和Vnn的值为1,并将V11和Vnn的值加1。
再次采用匈牙利算法求解该二分图的最优匹配问题即可,与预测过程中使得系统能量值达到最小的过程不同,投票算法中将采用如下算法使得投票结果达到全局最大:
min Σ i = 1 n Σ j = 1 n v ij λ ij
s . t . Σ i = 1 n λ ij = 1 ( i = 1,2 , . . . , n )
Σ j = 1 n λ ij = 1 ( j = 1,2 , . . . , n )
λij∈{0,1}
其中,vij表示表示投票矩阵中第i行第j列的投票结果,λij表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,即表示节点对的最终匹配结果。对该二分图最优匹配问题求解后,得到如图6所示的节点对最终匹配结果。
在一个实施例中,采用公开的2个网络的真实数据集,分别为Twitter和Friendfeed网络,该数据集包含155,804个同时注册于Twitter和Friendfeed的人物,且包含其人物身份对应关系。其中,Twitter数据集包含13,142,341条有效关注关系记录,而Friendfeed数据集包含5,939,687条有效朋友关系记录。
实验过程中,将数据划分为训练集与测试集,并设置未知身份对应关系的人物比例为α,且α∈(0,1),例如α=5%则表示在已知95%身份对应关系的前提下,预测剩余5%人物的身份对应关系。
在固定聚类个数K和未知数据集比例α的前提下,测试算法的准确率,以及在不同大小的数据集上算法的可扩展性。在所进行的十次实例测试中,参数分别设为K=6,α=5%及ξ={20,100},如下表1所示:
表1-试验数据表
由上表可以看到,本发明所提出的多层网络节点身份预测方法在该真实数据集上平均准确率超过90%,且针对不同大小的数据集具有一致性结果,表明该方法具有较好的可扩展性。
如图7所示,本发明提供一种科技成果的推广系统4,包括:信息获取单元41、训练集生成单元42、匹配单元43、集成单元44。信息获取单元41获取多个网络中的人物身份信息以及人物身份对应关系。训练集生成单元42将已知人物身份对应关系的人物身份信息集合作为训练集;根据所述训练集中的所述人物身份信息构建基于人物行为相似度的能量最低模型,获取能量因子和匹配关系分类器。
匹配单元43根据所述匹配关系分类器将任意两个人物身份信息进行匹配,并采用能量因子进行能量填充形成能量矩阵,求解此能量矩阵得到单次预测的匹配结果。集成单元44对多次求解的匹配结果进行集成,得到人物身份对应关系并确定具有相同人名人物的身份同一性。
推广信息显示单元45接收输入的人名,从多个网络中查询与所述人名对应的科技成果信息;根据相同人名的人物的身份同一性,在一个网页中显示同一人物在不同网络中的身份信息以及科技成果信息,其中,身份信息包括:电子邮件、电话、单位。
在一个实施例中,训练集生成单元42,包括:节点对特征建立子模块,对于2个网络P、Q中任意给定的节点V(i),建立其网络拓扑结构特征向量为:f(i)={f1,f2,…fd},其中,节点代表人物身份信息,f[1-d]为节点基本属性特征,包括:节点出度、入度、聚类系数、邻居节点、平均度、共同邻居;建立节点对特征向量向量,对于2个网络P、Q的节点对特征向量向量为: F P ↔ Q = F ( V P ( i ) , V Q ( i ) ) = { f P ( 1 ) , f P ( 2 ) , . . . , f P ( m ) , f Q ( 1 ) , f Q ( 2 ) , . . . , f Q ( m ) } ; 根据该节点对特征向量向量对匹配节点对进行聚类,获得各聚类类别C中所包含的具有相似特征节点的个数,将其作为粒子特征,节点对特征的分布情况作为能量因子,将具有相似网络行为特征的人物赋予等值的能量因子。
训练集生成单元42包括:分类器生成子模块,构建匹配节点对能量模型:βi为相似特征的匹配节点对集合依据特征进行聚类后的节点对个数,εi为该类别对应的能量因子;根据所述能量模型获取每个聚类类别所对应的能量因子:ε={ε12,...,εk},并将其作为预测过程中节点对所属类别的能量因子;根据聚类类别结果建立K分类器,并赋予每个节点对类别编号。
所述训练集生成单元42还包括:节点对类别建立子模块,对网络P、Q中未知身份对应关系的节点分别提取其拓扑结构特征:FP(i)={fP(1),fP(2),...,fP(m)}和FQ(i)={fQ(1),fQ(2),...,fQ(m)};对于任意未知身份对应关系的节点i∈P,j∈Q,构建n×n个所有未知节点的匹配节点对特征向量: F P ↔ Q = F ( V P ( i ) , V Q ( j ) ) = { f P ( 1 ) , f P ( 2 ) , . . . , f P ( n ) , f Q ( 1 ) , f Q ( 2 ) , . . . , f Q ( n ) } ; 通过K分类器对匹配节点对特征向量进行分类,得到每个节点对类别标签,构建节点对类别矩阵。
所述匹配单元43对类别矩阵进行能量因子填充,将类别矩阵中类别标签替换为该类别所对应的能量因子εi=catogory,构建能量矩阵,计算能量矩阵的最佳匹配。
所述匹配单元43计算该能量矩阵的最佳匹配的算法为:
min Σ i = 1 n Σ j = 1 n E ij λ ij ;
s . t . Σ i = 1 n λ ij = 1 ( i = 1,2 , . . . , n ) ;
Σ j = 1 n λ ij = 1 ( j = 1,2 , . . . , n ) ,
λij∈{0,1};
其中,λij表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,若的对应关系被确立则标记为1,否则标记为0,匹配结果表述为 V P ( i ) ↔ V Q ( j ) .
所述集成单元44得到ξ个预测结果,将每次预测结果在节点对匹配矩阵中进行投票,得到投票矩阵V-Matrix=(Vij);求解该投票矩阵V-Matrix的最优匹配问题,采用的公式为:
min Σ i = 1 n Σ j = 1 n v ij λ ij ;
s . t . Σ i = 1 n λ ij = 1 ( i = 1,2 , . . . , n ) ;
Σ j = 1 n λ ij = 1 ( j = 1,2 , . . . , n ) ;
λij∈{0,1};
其中,vij表示表示投票矩阵中第i行第j列的投票结果,λij表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,即表示节点对的最终匹配结果。
本发明的科技成果的推广方法及系统,能够将多个网络中具有不同身份信息但名字相同的信息进行同一性确认,可以确认不同身份信息但名字相同的人是否是同一个人,能够提高统计结果的准确性。采用的算法高效,计算过程较快,并且,随着样本库的增加,计算结果准确率也会不断提高。
上述实施例提供的智能表库的存储管理方法及系统,借助优化的存储策略解决了根据不同的仓库背景选择合适的存储策略,不仅可以有效利用储位,提高仓库执行效率,降低运作成本,同时也能为整个智能表库在管理上带来很多效益。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种科技成果的推广方法,其特征在于,包括:
获取多个网络中的人物身份信息以及人物身份对应关系;
将已知人物身份对应关系的人物身份信息集合作为训练集;
根据所述训练集中的所述人物身份信息构建基于人物行为相似度的能量最低模型,获取能量因子和匹配关系分类器;
根据所述匹配关系分类器将任意两个人物身份信息进行匹配,并采用能量因子进行能量填充形成能量矩阵,求解此能量矩阵得到单次预测的匹配结果;
对多次求解的匹配结果进行集成,得到人物身份对应关系并确定具有相同人名人物的身份同一性;
接收输入的人名,从多个网络中查询与所述人名对应的科技成果信息;
根据相同人名的人物的身份同一性,在一个网页中显示同一人物在不同网络中的身份信息以及科技成果信息,其中,身份信息包括:电子邮件、电话、单位。
2.如权利要求1所述的方法,其特征在于,所述将已知人物身份对应关系的所述人物身份信息的集合作为训练集、根据所述训练集中的所述人物身份信息构建基于人物行为相似度的能量最低模型、获取能量因子和匹配关系分类器包括:
对于2个网络P、Q中任意给定的节点V(i),其网络拓扑结构特征向量为:f(i)={f1,f2,…fd},其中,节点代表人物身份信息,f[1-d]为节点基本属性特征,包括:节点出度、入度、聚类系数、邻居节点、平均度、共同邻居;
建立节点对特征向量向量,对于2个网络P、Q的节点对特征向量向量为:
F P ↔ Q = F ( V P ( i ) , V Q ( i ) ) = { f P ( 1 ) , f P ( 2 ) , . . . , f P ( m ) , f Q ( 1 ) , f Q ( 2 ) , . . . , f Q ( m ) } ;
根据该节点对特征向量向量对匹配节点对进行聚类,获得各聚类类别C中所包含的具有相似特征节点的个数,将其作为粒子特征,节点对特征的分布情况作为能量因子,将具有相似网络行为特征的人物赋予等值的能量因子;
构建匹配节点对能量模型:其中,βi为相似特征的匹配节点对集合依据特征进行聚类后的节点对个数,εi为该类别对应的能量因子;
根据所述能量模型获取每个聚类类别所对应的能量因子:ε={ε12,...,εk},并将其作为预测过程中节点对所属类别的能量因子;
根据聚类类别结果建立K分类器,并赋予每个节点对类别编号。
3.如权利要求1所述的方法,其特征在于,所述根据所述匹配关系分类器将任意两个人物身份信息进行匹配、并采用能量因子进行能量填充形成能量矩阵、求解此能量矩阵得到单次预测的匹配结果包括:
对网络P、Q中未知身份对应关系的节点分别提取其拓扑结构特征:FP(i)={fP(1),fP(2),...,fP(m)}和FQ(i)={fQ(1),fQ(2),...,fQ(m)};
对于任意未知身份对应关系的节点i∈P,j∈Q,构建n×n个所有未知节点的匹配节点对特征向量:
F P ↔ Q = F ( V P ( i ) , V Q ( i ) ) = { f P ( 1 ) , f P ( 2 ) , . . . , f P ( n ) , f Q ( 1 ) , f Q ( 2 ) , . . . , f Q ( n ) } ;
通过K分类器对匹配节点对特征向量进行分类,得到每个节点对类别标签,构建节点对类别矩阵;
对类别矩阵进行能量因子填充,将类别矩阵中类别标签替换为该类别所对应的能量因子εi=catogory,构建能量矩阵;
计算能量矩阵的最佳匹配。
4.如权利要求3所述的方法,其特征在于,
计算该能量矩阵的最佳匹配的算法为:
min Σ i = 1 n Σ j = 1 n E ij λ ij ;
s . t . Σ i = 1 n λ ij = 1 ( i = 1,2 , . . . , n ) ;
Σ j = 1 n λ ij = 1 ( j = 1,2 , . . . , n ) ,
λij∈{0,1};
其中,λij表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,若的对应关系被确立则标记为1,否则标记为0,匹配结果表述为 V P ( i ) ↔ V Q ( j ) .
5.如权利要求3或4所述的方法,其特征在于,所述对多次求解的匹配结果进行集成,得到人物身份信息的对应关系并确定具有相同人名的身份同一性包括:
得到ξ个预测结果,将每次预测结果在节点对匹配矩阵中进行投票,得到投票矩阵V-Matrix=(Vij);
求解该投票矩阵V-Matrix的最优匹配问题,采用的算法为:
max Σ i = 1 n Σ j = 1 n v ij λ ij ;
s . t . Σ i = 1 n λ ij = 1 ( i = 1,2 , . . . , n ) ;
Σ j = 1 n λ ij = 1 ( j = 1,2 , . . . , n ) ;
λij∈{0,1};
其中,vij表示表示投票矩阵中第i行第j列的投票结果,λij表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,即表示节点对的最终匹配结果。
6.一种科技成果的推广系统,其特征在于,包括:
信息获取单元,用于获取多个网络中的人物身份信息以及人物身份对应关系;
训练集生成单元,用于将已知人物身份对应关系的人物身份信息集合作为训练集;根据所述训练集中的所述人物身份信息构建基于人物行为相似度的能量最低模型,获取能量因子和匹配关系分类器;
匹配单元,用于根据所述匹配关系分类器将任意两个人物身份信息进行匹配,并采用能量因子进行能量填充形成能量矩阵,求解此能量矩阵得到单次预测的匹配结果;
集成单元,用于对多次求解的匹配结果进行集成,得到人物身份对应关系并确定具有相同人名人物的身份同一性;
推广信息显示单元,用于接收输入的人名,从多个网络中查询与所述人名对应的科技成果信息;根据相同人名的人物的身份同一性,在一个网页中显示同一人物在不同网络中的身份信息以及科技成果信息,其中,身份信息包括:电子邮件、电话、单位。
7.如权利要求6所述的系统,其特征在于:
所述训练集生成单元,包括:
节点对特征建立子模块,用于对于2个网络P、Q中任意给定的节点V(i),建立其网络拓扑结构特征向量为:f(i)={f1,f2,…fd},其中,节点代表人物身份信息,f[1-d]为节点基本属性特征,包括:节点出度、入度、聚类系数、邻居节点、平均度、共同邻居;建立节点对特征向量向量,对于2个网络P、Q的节点对特征向量向量为: F P ↔ Q = F ( V P ( i ) , V Q ( i ) ) = { f P ( 1 ) , f P ( 2 ) , . . . , f P ( m ) , f Q ( 1 ) , f Q ( 2 ) , . . . , f Q ( m ) } ; 根据该节点对特征向量向量对匹配节点对进行聚类,获得各聚类类别C中所包含的具有相似特征节点的个数,将其作为粒子特征,节点对特征的分布情况作为能量因子,将具有相似网络行为特征的人物赋予等值的能量因子;
分类器生成子模块,用于构建匹配节点对能量模型:其中,βi为相似特征的匹配节点对集合依据特征进行聚类后的节点对个数,εi为该类别对应的能量因子;根据所述能量模型获取每个聚类类别所对应的能量因子:ε={ε12,...,εk},并将其作为预测过程中节点对所属类别的能量因子;根据聚类类别结果建立K分类器,并赋予每个节点对类别编号。
8.如权利要求6所述的系统,其特征在于:
所述训练集生成单元,还包括:
节点对类别建立子模块,用于对网络P、Q中未知身份对应关系的节点分别提取其拓扑结构特征:FP(i)={fP(1),fP(2),...,fP(m)}和FQ(i)={fQ(1),fQ(2),...,fQ(m)};对于任意未知身份对应关系的节点i∈P,j∈Q,构建n×n个所有未知节点的匹配节点对特征向量: F P ↔ Q = F ( V P ( i ) , V Q ( i ) ) = { f P ( 1 ) , f P ( 2 ) , . . . , f P ( n ) , f Q ( 1 ) , f Q ( 2 ) , . . . , f Q ( n ) } ; 通过K分类器对匹配节点对特征向量进行分类,得到每个节点对类别标签,构建节点对类别矩阵;
所述匹配单元,还用于对类别矩阵进行能量因子填充,将类别矩阵中类别标签替换为该类别所对应的能量因子εi=catogory,构建能量矩阵,计算能量矩阵的最佳匹配。
9.如权利要求8所述的系统,其特征在于,
所述匹配单元计算该能量矩阵的最佳匹配的算法为:
min Σ i = 1 n Σ j = 1 n E ij λ ij ;
s . t . Σ i = 1 n λ ij = 1 ( i = 1,2 , . . . , n ) ;
Σ j = 1 n λ ij = 1 ( j = 1,2 , . . . , n ) ,
λij∈{0,1};
其中,λij表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,若的对应关系被确立则标记为1,否则标记为0,匹配结果表述为 V P ( i ) ↔ V Q ( j ) .
10.如权利要求8或9所述的系统,其特征在于:
所述集成单元,还用得到ξ个预测结果,将每次预测结果在节点对匹配矩阵中进行投票,得到投票矩阵V-Matrix=(Vij);求解该投票矩阵V-Matrix的最优匹配问题,采用的公式为:
max Σ i = 1 n Σ j = 1 n v ij λ ij ;
s . t . Σ i = 1 n λ ij = 1 ( i = 1,2 , . . . , n ) ;
Σ j = 1 n λ ij = 1 ( j = 1,2 , . . . , n ) ;
λij∈{0,1};
其中,vij表示表示投票矩阵中第i行第j列的投票结果,λij表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,即表示节点对的最终匹配结果。
CN201410720436.8A 2014-12-01 2014-12-01 一种科技成果的推广方法及系统 Pending CN104462321A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410720436.8A CN104462321A (zh) 2014-12-01 2014-12-01 一种科技成果的推广方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410720436.8A CN104462321A (zh) 2014-12-01 2014-12-01 一种科技成果的推广方法及系统

Publications (1)

Publication Number Publication Date
CN104462321A true CN104462321A (zh) 2015-03-25

Family

ID=52908356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410720436.8A Pending CN104462321A (zh) 2014-12-01 2014-12-01 一种科技成果的推广方法及系统

Country Status (1)

Country Link
CN (1) CN104462321A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105515859A (zh) * 2015-12-01 2016-04-20 内蒙古工业大学 基于路径相似度对符号网络进行社区检测的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1528834A2 (en) * 2003-10-29 2005-05-04 Nokia Corporation Mobile communication system, short range access points and related handoff procedure
US20080090614A1 (en) * 2006-10-12 2008-04-17 Sicher Alan E Subscriber identity module unlocking service portal
CN103325023A (zh) * 2013-07-16 2013-09-25 国家电网公司 一种信用评价方法
CN104050275A (zh) * 2014-06-25 2014-09-17 国家电网公司 项目评审方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1528834A2 (en) * 2003-10-29 2005-05-04 Nokia Corporation Mobile communication system, short range access points and related handoff procedure
US20080090614A1 (en) * 2006-10-12 2008-04-17 Sicher Alan E Subscriber identity module unlocking service portal
CN103325023A (zh) * 2013-07-16 2013-09-25 国家电网公司 一种信用评价方法
CN104050275A (zh) * 2014-06-25 2014-09-17 国家电网公司 项目评审方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
夏虎: "移动社交网络结构和行为研究及其应用", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105515859A (zh) * 2015-12-01 2016-04-20 内蒙古工业大学 基于路径相似度对符号网络进行社区检测的方法及系统
CN105515859B (zh) * 2015-12-01 2018-09-14 内蒙古工业大学 基于路径相似度对符号网络进行社区检测的方法及系统

Similar Documents

Publication Publication Date Title
CN104462318A (zh) 一种多网络中相同人名的身份识别方法及装置
Yang et al. Bayesian deep learning-based probabilistic load forecasting in smart grids
CN111160954B (zh) 基于图卷积网络模型的面向群组对象的推荐方法
Ying et al. A temporal-aware POI recommendation system using context-aware tensor decomposition and weighted HITS
Rui et al. A reversed node ranking approach for influence maximization in social networks
CN104376116A (zh) 一种人物信息的搜索方法及装置
CN109933666A (zh) 一种好友自动分类方法、装置、计算机设备和存储介质
Li et al. Social influence based community detection in event-based social networks
CN103235822B (zh) 数据库的生成及查询方法
Zuo et al. A large group decision-making method and its application to the evaluation of property perceived service quality
Liao et al. POI recommendation of location-based social networks using tensor factorization
Zhang et al. Aided analysis for quality function deployment with an Apriori-based data mining approach
Xin et al. An overlapping semantic community detection algorithm base on the ARTs multiple sampling models
Yang et al. A VIKOR-based framework to optimize the location of fast-charging stations with proportional hesitant fuzzy information
He et al. Weighted meta paths and networking embedding for patent technology trade recommendations among subjects
Liu et al. A hybrid book recommendation algorithm based on context awareness and social network
Lin et al. Preference attitude-based method for ranking intuitionistic fuzzy numbers and its application in renewable energy selection
Han et al. DeepRouting: A deep neural network approach for ticket routing in expert network
Krishankumar et al. An integrated decision model for cloud vendor selection using probabilistic linguistic information and unknown weights
Shan et al. An optimization design method of express delivery service based on quantitative Kano model and fuzzy qfd model
Guo et al. A multi-stage group decision making for strategic supplier selection based on prospect theory with interval-valued q-rung orthopair fuzzy linguistic sets
Mehta et al. An approach to determine important attributes for engineering change evaluation
CN103034728B (zh) 利用社会化网络学术资源交互平台进行信息交互的方法
Yan et al. An integration of bidding-oriented product conceptualization and supply chain formation
CN104240026A (zh) 产品设计知识管理服务机理及匹配方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150325

RJ01 Rejection of invention patent application after publication