CN108959540A - 一种用于隐性关联知识发现的多关系融合方法及智能化系统 - Google Patents

一种用于隐性关联知识发现的多关系融合方法及智能化系统 Download PDF

Info

Publication number
CN108959540A
CN108959540A CN201810702397.7A CN201810702397A CN108959540A CN 108959540 A CN108959540 A CN 108959540A CN 201810702397 A CN201810702397 A CN 201810702397A CN 108959540 A CN108959540 A CN 108959540A
Authority
CN
China
Prior art keywords
word set
term
relationship
msr
beginning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810702397.7A
Other languages
English (en)
Inventor
刘晓勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN201810702397.7A priority Critical patent/CN108959540A/zh
Publication of CN108959540A publication Critical patent/CN108959540A/zh
Priority to US16/627,796 priority patent/US20210334465A1/en
Priority to PCT/CN2019/089509 priority patent/WO2020001233A1/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于隐性关联知识发现的多关系融合方法及智能化系统,该方法步骤如下:首先给出一个始端术语A,通过检索找到初始文献集a,识别出与始端术语A主题紧致度相关的第一术语集合TC‑Terms和语义相关的第一术语集合MSR‑Terms,分别形成中间词集BTC和BMSR矩阵,通过共同关系与语义关系的关系融合得到中间词集B,再通过中间词集B进行检索找到中间文献集b,识别出与中间词集B主题紧致度相关的第二术语集合TC‑Terms和语义相关的第二术语集合MSR‑Terms,分别形成终端词集CTC和CMSR矩阵,通过共同关系与语义关系的关系融合得到终端词集C,将始端术语A与终端词集C进行共现判断。

Description

一种用于隐性关联知识发现的多关系融合方法及智能化系统
技术领域
本发明涉及智能系统与知识工程研究技术领域,具体涉及一种用于隐性关联知识发现的多关系融合方法及智能化系统。
背景技术
Don R.Swanson提出的Literature-Based Discovery(LBD)知识发现技术,经过多年的发展,很多学者投入到该方法的研究当中。该方法能够使得科研人员不再受限于自己所熟悉的狭小的研究领域,相反,可以依靠该方法避免科学孤岛现象,较为有效的支持学科间的交叉创新。但纵观当前国内外的相关研究,该技术及相关的智能化系统存在如下不足:
(1)术语的选择方法有待改进
当前主流的基于术语共现的LBD方法研究中,术语在选择时通常缺少其对文献主题紧致度(Topic Compactness)的考虑。如:中间词集在选择时通常忽略了始端术语对初始文献主题的紧致度。中间词集B一般都是从由始端术语A检索得到的文献集a中进行抽取(选择)的,然后利用A和B的共现,对中间词集进行排序和过滤。但是在选择B的时候可能存在这样两种情况,:
①如果A与文献a的主题强相关,则在a中抽取(选择)的B词可能与A的关联性意义较大;
②如果A与文献a的主题弱相关,则在a中抽取(选择)的B词可能与A的关联性意义不大,很可能不适合作为中间词;
这种由始端术语A与文献a的主题紧致度的不同对于中间词集的选择所造成的影响,尚未见到相关的研究报道。忽略了表征术语与文献主题关联程度的主题紧致度,是导致当前的LBD方法中最终产生的隐性关联数量繁多的主要因素之一。
(2)隐性关联术语对的识别忽略了术语对间客观存在的语义关系
当前LBD的研究主要是从术语共现的角度出发,寻找术语间的关联,缺少对术语对间真正存在的语义关系的考虑。虽然Hu和Hristovski等人也分别提出了基于语义的LBD技术,但是Kostoff指出其算法本质上仍然属于主流LBD的研究中基于简单共现的技术。因为A词和B词共现,并不一定表明A和B在语义上存在关联关系。因此单纯依赖术语共现的LBD技术,最终找到的隐性关联知识并不可靠。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种用于隐性关联知识发现的多关系融合方法及智能化系统。
根据公开的实施例,本发明的第一方面公开了一种用于隐性关联知识发现的多关系融合方法,所述的多关系融合方法包括下列步骤:
给出一个始端术语A,通过检索找到初始文献集a;
识别出与始端术语A主题紧致度相关的第一术语集合TC-Terms,形成中间词集BTC矩阵;
识别出与始端术语A语义相关的第一术语集合MSR-Terms,形成中间词集BMSR矩阵;
通过共同关系与语义关系的关系融合得到中间词集B;
通过中间词集B进行检索找到中间文献集b;
识别出与中间词集B主题紧致度相关的第二术语集合TC-Terms,形成终端词集CTC矩阵;
识别出与中间词集B语义相关的第二术语集合MSR-Terms,形成终端词集CMSR矩阵;
通过共同关系与语义关系的关系融合得到终端词集C;
将始端术语A与终端词集C进行共现检查,如果两者没有在同一篇文献中共现,即可存入隐性关联知识库中;如果两者在同一篇文献中共现,则不保存始端术语A与终端词集C关联。
进一步地,所述的通过共同关系与语义关系的关系融合中通过基于Stouffer的z值融合算法进行关系融合。
根据公开的实施例,本发明的第二方面公开了一种用于隐性关联知识发现的多关系融合智能化系统,所述的多关系融合智能化系统包括:
始端术语检索单元,用于给出一个始端术语A,通过检索找到初始文献集a;
A主题紧致度相关术语识别单元,用于识别出与始端术语A主题紧致度相关的第一术语集合TC-Terms,形成中间词集BTC矩阵;
A语义相关术语识别单元,用于识别出与始端术语A语义相关的第一术语集合MSR-Terms,形成中间词集BMSR矩阵;
中间词集关系融合单元,用于通过共同关系与语义关系的关系融合得到中间词集B;
中间词集检索单元,用于通过中间词集B进行检索找到中间文献集b;
B主题紧致度相关术语识别单元,用于识别出与中间词集B主题紧致度相关的第二术语集合TC-Terms,形成终端词集CTC矩阵;
B语义相关术语识别单元,用于识别出与中间词集B语义相关的第二术语集合MSR-Terms,形成终端词集CMSR矩阵;
终端词集检索单元,用于通过共同关系与语义关系的关系融合得到终端词集C;
共现判断单元,将始端术语A与终端词集C进行共现检查,如果两者没有在同一篇文献中共现,即可存入隐性关联知识库中;如果两者在同一篇文献中共现,则不保存始端术语A与终端词集C关联。
进一步地,所述的中间词集检索单元和所述的终端词集检索单元中采用基于Stouffer的z值融合算法进行共同关系与语义关系的关系融合。
本发明相对于现有技术具有如下的优点及效果:
本发明将基于主题紧致度的术语对共现方法识别出的隐性知识关联和从术语对间蕴含的语义关系研究出发,识别术语对间实际存在的且语义上相关的隐性知识关联,通过基于Stouffer的z值融合算法进行关系融合,相比当前国内外主流的LBD知识发现技术,能够发现更加可靠的、有价值的隐性知识关联。
附图说明
图1是本发明公开的一种用于隐性关联知识发现的多关系融合方法的流程步骤图;
图2是一种用于隐性关联知识发现的多关系融合智能化系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如附图1所示,本实施例公开了一种用于隐性关联知识发现的多关系融合方法,该多关系融合方法包括下列步骤:
给出一个始端术语A(starting concept,即初始词),通过检索找到初始文献集a;
识别出与始端术语A主题紧致度相关的第一术语集合TC-Terms,形成中间词集BTC矩阵;
识别出与始端术语A语义相关的第一术语集合MSR-Terms,形成中间词集BMSR矩阵;
通过共同关系与语义关系的关系融合得到中间词集B(linking concept);
通过中间词集B进行检索找到中间文献集b;
识别出与中间词集B主题紧致度相关的第二术语集合TC-Terms,形成终端词集CTC矩阵;
识别出与中间词集B语义相关的第二术语集合MSR-Terms,形成终端词集CMSR矩阵;
通过共同关系与语义关系的关系融合得到终端词集C(target concept);
将始端术语A与终端词集C进行共现检查,如果两者没有在同一篇文献中共现,即可存入隐性关联知识库中;如果两者在同一篇文献中共现,则不保存始端术语A与终端词集C关联。
在本实施例中,所述的通过共同关系与语义关系的关系融合中通过基于Stouffer的z值融合算法进行关系融合。
实施例二
如附图2所示,本实施例公开了一种用于隐性关联知识发现的多关系融合智能化系统,该多关系融合智能化系统包括:
始端术语检索单元,用于给出一个始端术语A(starting concept,即初始词),通过检索找到初始文献集a;
A主题紧致度相关术语识别单元,用于识别出与始端术语A主题紧致度相关的第一术语集合TC-Terms,形成中间词集BTC矩阵;
A语义相关术语识别单元,用于识别出与始端术语A语义相关的第一术语集合MSR-Terms,形成中间词集BMSR矩阵;
中间词集关系融合单元,用于通过共同关系与语义关系的关系融合得到中间词集B(linking concept);
中间词集检索单元,用于通过中间词集B进行检索找到中间文献集b;
B主题紧致度相关术语识别单元,用于识别出与中间词集B主题紧致度相关的第二术语集合TC-Terms,形成终端词集CTC矩阵;
B语义相关术语识别单元,用于识别出与中间词集B语义相关的第二术语集合MSR-Terms,形成终端词集CMSR矩阵;
终端词集检索单元,用于通过共同关系与语义关系的关系融合得到终端词集C(target concept);
共现判断单元,将始端术语A与终端词集C进行共现检查,如果两者没有在同一篇文献中共现,即可存入隐性关联知识库中;如果两者在同一篇文献中共现,则不保存始端术语A与终端词集C关联。
在本实施例中,所述的中间词集检索单元和所述的终端词集检索单元中采用基于Stouffer的z值融合算法进行共同关系与语义关系的关系融合。
综上所述,本发明解决如何从大量科学文献中发现有价值的、可靠的隐性知识关联,该问题的解决能够为帮助科研人员跨越科学孤岛,促进学科交叉提供一种新的方法。本发明通过提出的改进的共现关系和语义关系融合挖掘的方法去显示揭示出依靠当前的LBD方法无法有效识别的、隐藏在大量科学文献中的有意义的潜在知识关联。
在本发明各方法实施例中,所述各步骤的序号并不能用于限定各步骤的先后顺序,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,对各步骤的先后变化也在本发明的保护范围之内。
值得注意的是,上述智能化系统实施例中,所包括的各个模块和单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各模块和单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种用于隐性关联知识发现的多关系融合方法,其特征在于,所述的多关系融合方法包括下列步骤:
给出一个始端术语A,通过检索找到初始文献集a;
识别出与始端术语A主题紧致度相关的第一术语集合TC-Terms,形成中间词集BTC矩阵;
识别出与始端术语A语义相关的第一术语集合MSR-Terms,形成中间词集BMSR矩阵;
通过共同关系与语义关系的关系融合得到中间词集B;
通过中间词集B进行检索找到中间文献集b;
识别出与中间词集B主题紧致度相关的第二术语集合TC-Terms,形成终端词集CTC矩阵;
识别出与中间词集B语义相关的第二术语集合MSR-Terms,形成终端词集CMSR矩阵;
通过共同关系与语义关系的关系融合得到终端词集C;
将始端术语A与终端词集C进行共现检查,如果两者没有在同一篇文献中共现,即可存入隐性关联知识库中;如果两者在同一篇文献中共现,则不保存始端术语A与终端词集C关联。
2.根据权利要求1所述的一种用于隐性关联知识发现的多关系融合方法,其特征在于,
所述的通过共同关系与语义关系的关系融合中通过基于Stouffer的z值融合算法进行关系融合。
3.一种用于隐性关联知识发现的多关系融合智能化系统,其特征在于,所述的多关系融合智能化系统包括:
始端术语检索单元,用于给出一个始端术语A,通过检索找到初始文献集a;
A主题紧致度相关术语识别单元,用于识别出与始端术语A主题紧致度相关的第一术语集合TC-Terms,形成中间词集BTC矩阵;
A语义相关术语识别单元,用于识别出与始端术语A语义相关的第一术语集合MSR-Terms,形成中间词集BMSR矩阵;
中间词集关系融合单元,用于通过共同关系与语义关系的关系融合得到中间词集B;
中间词集检索单元,用于通过中间词集B进行检索找到中间文献集b;
B主题紧致度相关术语识别单元,用于识别出与中间词集B主题紧致度相关的第二术语集合TC-Terms,形成终端词集CTC矩阵;
B语义相关术语识别单元,用于识别出与中间词集B语义相关的第二术语集合MSR-Terms,形成终端词集CMSR矩阵;
终端词集检索单元,用于通过共同关系与语义关系的关系融合得到终端词集C;
共现判断单元,将始端术语A与终端词集C进行共现检查,如果两者没有在同一篇文献中共现,即可存入隐性关联知识库中;如果两者在同一篇文献中共现,则不保存始端术语A与终端词集C关联。
4.根据权利要求3所述的一种用于隐性关联知识发现的多关系融合智能化系统,其特征在于,所述的中间词集检索单元和所述的终端词集检索单元中采用基于Stouffer的z值融合算法进行共同关系与语义关系的关系融合。
CN201810702397.7A 2018-06-30 2018-06-30 一种用于隐性关联知识发现的多关系融合方法及智能化系统 Withdrawn CN108959540A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810702397.7A CN108959540A (zh) 2018-06-30 2018-06-30 一种用于隐性关联知识发现的多关系融合方法及智能化系统
US16/627,796 US20210334465A1 (en) 2018-06-30 2019-05-31 Multi-relation fusion method and intelligent system for latent-association lbd
PCT/CN2019/089509 WO2020001233A1 (zh) 2018-06-30 2019-05-31 一种用于隐性关联知识发现的多关系融合方法及智能化系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810702397.7A CN108959540A (zh) 2018-06-30 2018-06-30 一种用于隐性关联知识发现的多关系融合方法及智能化系统

Publications (1)

Publication Number Publication Date
CN108959540A true CN108959540A (zh) 2018-12-07

Family

ID=64484285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810702397.7A Withdrawn CN108959540A (zh) 2018-06-30 2018-06-30 一种用于隐性关联知识发现的多关系融合方法及智能化系统

Country Status (3)

Country Link
US (1) US20210334465A1 (zh)
CN (1) CN108959540A (zh)
WO (1) WO2020001233A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580339A (zh) * 2019-08-21 2019-12-17 华东理工大学 一种医疗术语知识库完善的方法和装置
WO2020001233A1 (zh) * 2018-06-30 2020-01-02 广东技术师范大学 一种用于隐性关联知识发现的多关系融合方法及智能化系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022270994A1 (ko) 2021-06-25 2022-12-29 한국화학연구원 유비퀴틴 프로테오좀 경로를 통해 비티케이 분해작용을 가지는 신규한 이작용성 헤테로사이클릭 화합물과 이의 용도

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047441A1 (en) * 2004-08-31 2006-03-02 Ramin Homayouni Semantic gene organizer
US20100114890A1 (en) * 2008-10-31 2010-05-06 Purediscovery Corporation System and Method for Discovering Latent Relationships in Data
CN106547739B (zh) * 2016-11-03 2019-04-02 同济大学 一种文本语义相似度分析方法
CN106919689B (zh) * 2017-03-03 2018-05-11 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN107301218A (zh) * 2017-06-15 2017-10-27 北京航天长征科技信息研究所 一种非相关文献隐性关联知识发现方法
CN108959540A (zh) * 2018-06-30 2018-12-07 广东技术师范学院 一种用于隐性关联知识发现的多关系融合方法及智能化系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020001233A1 (zh) * 2018-06-30 2020-01-02 广东技术师范大学 一种用于隐性关联知识发现的多关系融合方法及智能化系统
CN110580339A (zh) * 2019-08-21 2019-12-17 华东理工大学 一种医疗术语知识库完善的方法和装置
CN110580339B (zh) * 2019-08-21 2023-04-07 华东理工大学 一种医疗术语知识库完善的方法和装置

Also Published As

Publication number Publication date
WO2020001233A1 (zh) 2020-01-02
US20210334465A1 (en) 2021-10-28

Similar Documents

Publication Publication Date Title
CN109710701B (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
US7113954B2 (en) System and method for generating a taxonomy from a plurality of documents
US8645385B2 (en) System and method for automating categorization and aggregation of content from network sites
CN108959540A (zh) 一种用于隐性关联知识发现的多关系融合方法及智能化系统
WO2022141803A1 (zh) 一种自动发现热点关键词和热点新闻的方法
CN104112020A (zh) 一种导航设备的一框式检索方法
CN104298683A (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
Klosa et al. New German words: Detection and description
CN107577744A (zh) 非标地址自动匹配模型、匹配方法以及模型建立方法
JP2021192237A (ja) 関連スコア算出システム、方法およびプログラム
CN111428093A (zh) 基于实体对齐的可视化图谱融合方法及系统
CN100562872C (zh) 针对结构化网页的自动模板信息定位方法
CN106250456A (zh) 一种中标公告的抽取方法及装置
CN117390299A (zh) 基于图证据的可解释性虚假新闻检测方法
CN104881420A (zh) 语义网络建立系统及其建立方法
Wang et al. Hyperrelations in version space
CN105119961B (zh) 基于本体的语义Web服务自动组合方法
CN104484464A (zh) 一种检索系统和检索方法
CN114281884A (zh) 知识图谱的主题知识子模型提取方法
Olawumi et al. Scientometric review and analysis: A case example of smart buildings and smart cities
JP6816621B2 (ja) 判別方法、判別プログラム及び判別装置
CN103838765B (zh) 联系人信息存储方法及装置、电子设备
CN101071432A (zh) 一种相关问题检索方法及系统
CN102063428B (zh) 互联网信息中重名人物的处理方法及系统
CN108960880A (zh) 一种跨境电商商务大数据决策分析与数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20181207

WW01 Invention patent application withdrawn after publication