CN109992784A - 一种融合多模态信息的异构网络构建和距离度量方法 - Google Patents
一种融合多模态信息的异构网络构建和距离度量方法 Download PDFInfo
- Publication number
- CN109992784A CN109992784A CN201910277644.8A CN201910277644A CN109992784A CN 109992784 A CN109992784 A CN 109992784A CN 201910277644 A CN201910277644 A CN 201910277644A CN 109992784 A CN109992784 A CN 109992784A
- Authority
- CN
- China
- Prior art keywords
- event
- word
- entity
- similarity
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种融合多模态信息的异构网络构建和距离度量方法,包括以下步骤,步骤1,事件的信息提取,将事件进行分词,并将分词结果进行类别划分;步骤2,将提取的所述分词结果构建为异构信息网络,其中的结点为所述关键词;步骤3,通过设置异构网络中不同类别结点之间构成的路径得到事件相似度矩阵S(i,j),所述S(i,j)为表示事件i与事件j的相似度;步骤4,利用PP_GCN训练得到不同相似度矩阵的系数;步骤5,利用步骤4得到的系数将步骤3中相似度矩阵进行加权求和。
Description
技术领域
本发明涉及异构信息网络,主要涉及到一种融合多模态信息的异构网络构建和距离度量方法。
背景技术
异构信息网络是一种结点和链接类型不同的图结构,现实中很多问题都可以建模为异构信息网络,例如社交媒体事件挖掘。不同于传统网络,异构信息网络明确区分网络中的结点类型和链接类型,即结点可以关联不同类型信息,结点间可以建立不同链接关系,结点和链接都可以附加不同属性。甚至,结点和链接通常附加时间信息,从而反映信息网络的动态性。例如,微博用户之间形成相互交流、发布、分享、关注、转发、评论、点赞等行为,以及推文包括时间、地点和关键词等多类型结点。因此,异构网络的研究和发展具有很重要的作用。
然而,现有技术中没有针对事件的异构信息网络表示学习方法,而且社交媒体事件组成异构信息网络复杂且具有动态性,一方面体现在需要针对HIN设计监督和无监督类型的算法,以及针对在线数据的,特别在基于监督meta-path的random walk等算法,也就是一阶马尔可夫链,不能很好的表达HIN中结点之间的邻近性(proximity),另一方面,现在做的事件相似度比较方面效果使用文本整体内容的embedding进行事件比较的,准确度和速度方面都有所欠缺。
发明内容
针对以上问题,本发明提出一种融合多模态信息的异构网络构建和距离度量方法,这种方式上不再整体比较两个事件的内容,而是从事件中提取entity(实体),word(词),topic(主题)来进行事件的相似度比较。
本发明包括以下步骤:步骤1,事件的信息提取,将事件进行分词,并将分词结果进行类别划分;步骤2,将提取的所述分词结果构建为异构信息网络,其中的结点为所述关键词;步骤3,通过设置异构网络中不同类别结点之间构成的路径得到事件相似度矩阵;步骤4,利用PP_GCN训练得到不同相似度矩阵的系数;步骤5,利用步骤4得到的系数将步骤3中相似度矩阵进行加权求和。
该方法有以下优势:在事件检测中可以达到更好的准确率,本发明在事件信息的提取中不同于之前的工作只做基于语义上的事件比较,本发明提取了实体词,主题信息进行事件检测,这样充分应用了事件的信息,可以达到更好的准确率;由于本发明只是从事件中提取出关键词进行信息处理,因此本发明的系统比现有技术可以达到更高的准确率;算法多参数可调,可根据需求设置,算法内部耦合性低,可移植性好。
附图说明
图1为本发明的整体流程图;
图2-a、图2-b、图2-c为一实施例的搜索展示图;
图3为本发明的异构信息网络图;
图4所示为pair wise GCN的参数训练图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示为整体流程图,本发明包括以下步骤:步骤1,事件的信息提取,将事件进行分词,并将分词结果进行类别划分;步骤2,将提取的所述分词结果构建为异构信息网络,其中的结点为所述关键词;步骤3,通过设置异构网络中不同类别结点之间构成的路径得到事件相似度矩阵;步骤4,利用PP_GCN训练得到不同相似度矩阵的系数;步骤5,利用步骤4得到的系数将步骤3中相似度矩阵进行加权求和。
在所述步骤1中,将事件进行分词,去停用词处理,之后将提取的词语进行类别划分,包括实体,关键词,主题,用户,用所述提取词来代表事件:主体topic是直接存在的,实体entity可以在实体知识图谱中进行查找,如果关键词能够在知识图谱中找到,那么这个词就是实体,否则就是关键词word
搜索实体北京,可查到如图2-a;如图2-b,搜索word,就无法在实体知识图谱中找到
本发明要将之前获得的不同类别的关键词构建为HIN(异构信息网络),:事件分词后的结果分为4类结点(event,entity,word,topic),这些结点之间的边表示它们之间的联系。
实体-实体(entity-entity):可以在复旦的实体知识图谱中直接获得,在知识图谱中通过搜索一个实体,会找到其他和它所有相关的实体。
关键词-关键词(word-word):词与词之间的关系通过近义词获得,如果两个词是近义词,那么这两个词之间就存在一条边
主题(topic-topic):相关主题之间会添加一条边
实体-关键词(entity-word):在复旦的信息知识图谱中通过查找一个实体,能够得到它的相关知识,本发明将这些语句进行分词,去停用词,就可以获得实体entity与关键词word之间的关系
entity-topic,word-topic:前一步过程就可以获得每个事件的主题topic,实体entity与关键词word,因为每个事件所拥有的主题是固定的,比如新闻类,娱乐类,军事类,那么这个事件中的实体与关键词自然就和这个主题相联系,直接建立边即可。
所述构建的异构信息网络大致为如图3所示。
meta path是异构网络中不同类别结点之间构成的路径,所述路径模拟语义信息,是一条包含关系序列的路径。Meta path定义在network Schema T=(A,R)上,具体形式为:
其中A1,A2,Al+1表示不同类别的结点,正如上面提到的entity,word,topic一样,R1表示它们之间的关系。
meta-path中事件的相似度采用:
|{Px→y:Px→y∈P}|表示事件x到事件y的路径条数。
计算出任意两个事件之间的相似度,所述计算出的相似度构建为矩阵S,其中S(i,j)表示第i个事件与第j个事件之间的相似度。
所述PP_GCN是指pair wise GCN,即将数据分为两两一组作为输入,如:事件1与事件4,label(标签)是0或1,0表示这两个事件不相似,1表示这两个事件相似,具体输入为两个事件各自按照不同meta_path得到的相似度矩阵,在GCN中训练,在这个过程中保存准确率最高时的Wi参数。
如图4所示为pair wise GCN的参数训练图。PP_GCN训练是将数据分为两两一组作为输入,所述输入为两个事件各自按照不同meta-path得到的相似度矩阵,用pair-wise的GCN方法来进行训练获得Wi,所述Wi是加权求和的权重参数,将事件两两组合形成训练数据,两个事件属于同一类则设定标签为1,否则为0,然后放入GCN中进行训练。
接下来meta path得到多个相似度矩阵进行合并,所述合并采用加权求和的方式:
所述k为meta_path的条数,首先训练Wi参数,采用pair-wise的GCN方法来进行训练获得Wi,采用pair-wise可以增大数据集,提高训练准确率,将事件两两组合形成训练数据,两个事件属于同一类则设定标签为1,否则为0,然后放入GCN中进行训练,获得Wi后查找相似度就直接在相似度矩阵中进行查找。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种融合多模态信息的异构网络构建和距离度量方法,其特征在于,包括以下步骤,步骤1,事件的信息提取,将事件进行分词,并将分词结果进行类别划分;步骤2,将提取的所述分词结果构建为异构信息网络,其中的结点为所述关键词;步骤3,通过设置异构网络中不同类别结点之间构成的路径得到相似度矩阵;步骤4,利用PP_GCN训练得到不同相似度矩阵的系数;步骤5,利用步骤4得到的系数将步骤3中相似度矩阵进行加权求和。
2.如权利要求1所述的方法,其特征在于,在所述步骤1中,将事件进行分词,去停用词处理,之后将提取的词语进行类别划分,包括实体,关键词,主题,用户,用所述提取的词语词表示事件:实体是直接存在的,主题在实体知识图谱中进行查找,如果所述分词结果能够在知识图谱中找到,则其就是实体,否则就是关键词。
3.如权利要求2所述的方法,其特征在于,在所述步骤2中,将步骤1获得的不同类别的分词结果构建为异构信息网络,结点为所述不同类别的分词结果,分为4类,所述4类为事件,实体,关键词,主题。
4.如权利要求3所述的方法,其特征在于,所述异构信息网络的结构关系包括:word-word,topic-topic,entity-word,entity-topic,word-topic;所述word-word关系中,词与词之间的关系通过近义词获得,如果两个词是近义词,则这两个词之间添加一条边;所述topic-topic关系中,相关主题之间会添加一条边;所述entity-word关系中,通过查找一个实体,能够得到所述实体的相关知识,将所述相关知识的语句进行分词,去停用词,获得实体与关键词之间的关系;所述entity-topic和所述word-topic中,在步骤1中获得每个事件的主题,实体与关键词,直接将主题、实体、关键词之间建立关系。
5.如权利要求4所述的方法,其特征在于,在所述步骤3中,设置异构网络中不同类别结点之间构成的路径得到事件相识度的方式为,构建meta-path路径,所述meta-path路径具体形式为:
其中A1,A2,...Al+1表示不同类别的结点,R1表示所述结点之间的关系,所述l为正整数,;
所述meta-path路径中事件的相似度为:
|{Px→y:Px→y∈P}|表示事件x到事件y的路径条数,
计算出任意两个事件之间的相似度,所述计算出的相似度构建为相似度矩阵S(i,j),所述S(i,j)表示第i个事件与第j个事件之间的相似度,i,j均为正整数。
6.如权利要求5所述的方法,其特征在于,在所述步骤4中,所述PP_GCN训练是将数据分为两两一组作为输入,所述输入为两个事件各自按照不同meta-path得到的相似度矩阵,用pair-wise的GCN方法来进行训练获得Wi,所述Wi是加权求和的权重参数,将事件两两组合形成训练数据,两个事件属于同一类则设定标签为1,否则为0,然后放入GCN中进行训练。
7.如权利要求6所述的方法,其特征在于,在所述步骤5中,对相似度矩阵进行合并的方式为,采用加权求和的方式
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910277644.8A CN109992784B (zh) | 2019-04-08 | 2019-04-08 | 一种融合多模态信息的异构网络构建和距离度量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910277644.8A CN109992784B (zh) | 2019-04-08 | 2019-04-08 | 一种融合多模态信息的异构网络构建和距离度量方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109992784A true CN109992784A (zh) | 2019-07-09 |
CN109992784B CN109992784B (zh) | 2021-03-19 |
Family
ID=67131066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910277644.8A Active CN109992784B (zh) | 2019-04-08 | 2019-04-08 | 一种融合多模态信息的异构网络构建和距离度量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109992784B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704640A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种知识图谱的表示学习方法及装置 |
CN110717042A (zh) * | 2019-09-24 | 2020-01-21 | 北京工商大学 | 一种构建文档-关键词异构网络模型方法 |
CN111858649A (zh) * | 2020-08-05 | 2020-10-30 | 哈尔滨工业大学(威海) | 一种基于本体映射的异构数据融合方法 |
CN112950653A (zh) * | 2021-02-26 | 2021-06-11 | 山东英信计算机技术有限公司 | 一种注意力图像分割方法、装置及介质 |
CN113627977A (zh) * | 2021-07-30 | 2021-11-09 | 北京航空航天大学 | 一种基于异构图的房屋价值预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170111245A1 (en) * | 2015-10-14 | 2017-04-20 | International Business Machines Corporation | Process traces clustering: a heterogeneous information network approach |
CN106802956A (zh) * | 2017-01-19 | 2017-06-06 | 山东大学 | 一种基于加权异构信息网络的电影推荐方法 |
CN109271582A (zh) * | 2018-08-20 | 2019-01-25 | 东南大学 | 一种基于带属性元路径的个性化信息推荐方法 |
-
2019
- 2019-04-08 CN CN201910277644.8A patent/CN109992784B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170111245A1 (en) * | 2015-10-14 | 2017-04-20 | International Business Machines Corporation | Process traces clustering: a heterogeneous information network approach |
CN106802956A (zh) * | 2017-01-19 | 2017-06-06 | 山东大学 | 一种基于加权异构信息网络的电影推荐方法 |
CN109271582A (zh) * | 2018-08-20 | 2019-01-25 | 东南大学 | 一种基于带属性元路径的个性化信息推荐方法 |
Non-Patent Citations (3)
Title |
---|
CHENGUANG WANG ET AL.: "Unsupervised meta-path selection for text similarity measure based on heterogeneous information networks", 《DMKD2018》 * |
HAO PENG ET AL.: "Fine-grained Event Categorization with Heterogeneous Graph Convolutional", 《PROCEEDINGS OF THE TWENTY-EIGHTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
专知: "图卷积神经网络(GCN)文本分类详述", 《HTTP://WWW.JINTIANKANSHA.ME/T/G8M8RP4JYN》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717042A (zh) * | 2019-09-24 | 2020-01-21 | 北京工商大学 | 一种构建文档-关键词异构网络模型方法 |
CN110704640A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种知识图谱的表示学习方法及装置 |
CN111858649A (zh) * | 2020-08-05 | 2020-10-30 | 哈尔滨工业大学(威海) | 一种基于本体映射的异构数据融合方法 |
CN112950653A (zh) * | 2021-02-26 | 2021-06-11 | 山东英信计算机技术有限公司 | 一种注意力图像分割方法、装置及介质 |
CN112950653B (zh) * | 2021-02-26 | 2023-05-23 | 山东英信计算机技术有限公司 | 一种注意力图像分割方法、装置及介质 |
CN113627977A (zh) * | 2021-07-30 | 2021-11-09 | 北京航空航天大学 | 一种基于异构图的房屋价值预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109992784B (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN104933164B (zh) | 互联网海量数据中命名实体间关系提取方法及其系统 | |
CN109992784A (zh) | 一种融合多模态信息的异构网络构建和距离度量方法 | |
Gattani et al. | Entity extraction, linking, classification, and tagging for social media: a wikipedia-based approach | |
Shen et al. | A probabilistic model for linking named entities in web text with heterogeneous information networks | |
CN106484764A (zh) | 基于人群画像技术的用户相似度计算方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN113553429B (zh) | 一种规范化标签体系构建及文本自动标注方法 | |
CN110097125A (zh) | 一种基于嵌入表示的跨网络账户关联方法 | |
CN103049435A (zh) | 文本细粒度情感分析方法及装置 | |
Zhang | Language in our time: An empirical analysis of hashtags | |
CN105630884A (zh) | 一种微博热点事件的地理位置发现方法 | |
Chen et al. | An entity-graph based reasoning method for fact verification | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
Sorokin et al. | End-to-end representation learning for question answering with weak supervision | |
Zhu et al. | Get into the spirit of a location by mining user-generated travelogues | |
Duchateau | Who can best answer a query in my social network? | |
Shan | Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment | |
Campbell et al. | Content+ context networks for user classification in twitter | |
CN103699568B (zh) | 一种从维基中抽取领域术语间上下位关系的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |