CN111309922A - 图谱构建方法、事故分类方法、装置、计算机设备和介质 - Google Patents

图谱构建方法、事故分类方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN111309922A
CN111309922A CN202010062305.0A CN202010062305A CN111309922A CN 111309922 A CN111309922 A CN 111309922A CN 202010062305 A CN202010062305 A CN 202010062305A CN 111309922 A CN111309922 A CN 111309922A
Authority
CN
China
Prior art keywords
chemical
words
dangerous
association
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010062305.0A
Other languages
English (en)
Other versions
CN111309922B (zh
Inventor
师丽
潘世豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010062305.0A priority Critical patent/CN111309922B/zh
Publication of CN111309922A publication Critical patent/CN111309922A/zh
Application granted granted Critical
Publication of CN111309922B publication Critical patent/CN111309922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种图谱构建方法、事故分类方法、装置、计算机设备和介质。所述方法包括:根据元数据之间的逻辑关联关系构建本体结构;其中,所述元数据包括表征危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少两种的词语;对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关联关系、相反关联关系以及因果关联关系中的至少一种;根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。采用本方法能够提高所构建的化学品事故知识图谱的准确性,并避免花费巨大的人力和时间成本构建化学品事故知识图谱。

Description

图谱构建方法、事故分类方法、装置、计算机设备和介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种图谱构建方法、事故分类方法、装置、计算机设备和介质。
背景技术
近年来,随着互联网的发展,网络上汇集了大量关于危险化学品事故的数据信息,然而,上述信息主要是由文本构成的非结构化数据,具有数据量难以扩充、关键词内容相似度高等特点,难以训练分类器基于文本中的词语特征进行分类。所以,对危险化学品事故文本信息进行准确分类需要建立在对文本信息理解的基础之上,而对文本信息的理解需要依靠大量的常识知识和领域知识,而上述知识的表示需要借助知识图谱来实现。
现有的领域知识图谱构建方法有两种:一种是自顶向下的构建方式,一种是自底向上的构建方式。自顶向下的构建方式指的是预先为知识库定义好本体结构或数据模式,然后再将结构化知识库中的实体加入到知识库中。这种方法需要花费巨大的人力和时间成本。自底向上的构建方式指的是首先利用相关技术把开放链接数据和在线百科数据等结构化数据中有用的实体提取出来,从中选择置信度较高的实体添加到知识库中,在此基础上构建出顶层本体模式。在该方法中,网络数据中广泛存在的噪声对知识图谱的准确性有很大影响。
发明内容
基于此,有必要针对上述技术问题,提供一种图谱构建方法、事故分类方法、装置、计算机设备和介质。
一方面,提供一种化学品事故知识图谱构建方法,所述方法包括:
根据元数据之间的逻辑关联关系构建本体结构;其中,所述元数据包括表征危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少两种的词语;
对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关联关系、相反关联关系以及因果关联关系中的至少一种;
根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。
在其中一个实施例中,所述根据元数据之间的逻辑关联关系构建本体结构,包括:
根据所述元数据中表征所述危险化学品名称的词语和表征所述危险化学品名称所属的所述危险化学品类别的词语进行所属关联,得到所属关联关系;
根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别对应的所述危险特征诱因的词语进行条件关联,得到条件关联关系;
根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别具备的所述危险特征的词语进行属性关联,得到属性关联关系;
根据所述所属关联关系、所述条件关联关系以及所述属性关联关系构建所述本体结构。
在其中一个实施例中,所述对化学品事故的语料数据进行聚类,得到至少一个聚类簇,包括:
根据中文分词算法对每一化学品事故的语料数据进行中文分词,对应得到分词列表;其中,所述分词列表中包括按照在所述化学品事故的语料数据的出现顺序排列的词语;
根据所述分词列表中的词语之间以及所述分词列表之间的词语之间的临近关系,采用预设的图嵌入算法构建多维空间结构;其中,所述临近关系可根据所述分词列表中词语的排列顺序确定;
将所述多维空间结构转化为二维平面结构;
对所述二维平面结构中的所述词语进行聚类操作,得到至少一个聚类簇。
在其中一个实施例中,所述将所述多维空间结构转化为二维平面结构,包括:
采用t分布随机邻域嵌入降维算法将所述多维空间结构转化为二维平面结构。
在其中一个实施例中,所述对所述二维平面结构中的所述词语进行聚类操作,得到至少一个聚类簇,包括:
采用层次聚类算法将二维平面结构中的所述词语进行聚类,得到至少两个初始簇;
判断每一所述初始簇内的词语之间是否具有所述特征关联关系中的任意一种;
若是,则将所述初始簇作为所述聚类簇;
若否,则删除所述初始簇内与所述初始簇内的词语不具有所述特征关联关系的词语,得到所述聚类簇。
在其中一个实施例中,所述根据每一所述初始簇得到所述聚类簇,包括:
判断每一所述初始簇内的词语之间是否具有所述特征关联关系中的任意一种;
若是,则将所述初始簇作为所述聚类簇;
若否,则删除所述初始簇内与所述初始簇内的词语不具有所述特征关联关系的词语,得到所述聚类簇。
在其中一个实施例中,所述元数据的获取方式为:在预设标准文件中获取所述危险化学品名称、所述危险化学品类别、所述危险特征以及所述危险特征诱因中至少一种,作为所述元数据;
所述语料数据的获取方式为:采用网络爬虫算法从互联网获取化学品事故信息,作为所述语料数据。
另一方面,提供一种化学品事故分类方法,所述方法包括:
根据元数据之间的逻辑关联关系构建本体结构;其中,所述元数据包括表征危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少两种的词语;
对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关联关系、相反关联关系以及因果关联关系中的至少一种;
根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到化学品事故知识图谱;
根据所述化学品事故知识图谱对化学品事故进行分类,得到所述化学品事故的所属类别。
另一方面,提供一种化学品事故知识图谱构建装置,所述装置包括:
本体构建模块,用于根据元数据之间的关联关系构建本体结构;其中,所述元数据包括危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少一个;
语料聚类模块,用于对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关系、相反关系以及因果关系中的至少一个;
图谱构建模块,用于根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。
另一方面,提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
根据元数据之间的逻辑关联关系构建本体结构;其中,所述元数据包括表征危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少两种的词语;
对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关联关系、相反关联关系以及因果关联关系中的至少一种;
根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。
另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
根据元数据之间的逻辑关联关系构建本体结构;其中,所述元数据包括表征危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少两种的词语;
对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关联关系、相反关联关系以及因果关联关系中的至少一种;
根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。
上述图谱构建方法、事故分类方法、装置、计算机设备和介质,化学品事故图谱构建方法包括:根据元数据之间的逻辑关联关系构建本体结构,所述元数据包括表征所述危险化学品名称、所述危险化学品类别、所述危险特征以及所述危险特征诱因中至少两种的词语,基于较少的元数据结合简单的逻辑关系先获取整个化学品事故知识图谱中的基础骨架,减少了构建所述本体结构的数据量,提高了构建所述本体结构的效果。对化学品事故的语料数据进行聚类,得到至少一个聚类簇,每个所述聚类簇包括若干具有特征关联关系的词语,在根据特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到完整所述化学品事故知识图谱,无需从大量的结构化数据中提取所述本体结构,避免了化学品事故的语料数据中噪声对所构建的化学品事故知识图谱的准确性的影响,提高了所构建的化学品事故知识图谱的准确性,同时避免了花费巨大的人力和时间成本构建化学品事故知识图谱。采用通过上述方法所构建的化学品事故知识图谱可对任意一起化学品事故进行分类,根据分类结果研究事故规律,以减少事故数量、提高事故发生时的应急处置能力和降低事故造成的损失。
附图说明
图1为一个实施例中化学品事故知识图谱构建方法的流程示意图;
图2为一个实施例中本体结构的示意图;
图3a为一个实施例中聚类簇的示意图;
图3b为另一个实施例中聚类簇的示意图;
图4为另一个实施例中S110的流程示意图;
图5a为另一个实施例中的所属关联图;
图5b为另一个实施例中的条件关联图;
图5c为另一个实施例中的属性关联图;
图5d为另一个实施例中的化学品事故知识图谱的示意图;
图6为另一个实施例中S120的流程示意图;
图7为另一个实施例中S620的流程示意图;
图8为另一个实施例中S640的流程示意图;
图9为一个实施例中化学品事分类方法的流程示意图;
图10为一个实施例中化学品事故知识图谱构建装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种化学品事故知识图谱构建方法,包括以下步骤:
S110、根据元数据之间的逻辑关联关系构建本体结构。
其中,所述元数据包括表征危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少两种的词语。
进一步地,所述本体结构用于表征所述元数据之间的逻辑关系。
进一步地,如图2所示本体结构,所述逻辑关联关系可以包括所属关联关系,如表征所述危险化学品名称的元数据,属于表征所述危险化学品类别的元数据。所述逻辑关联关系可以包括条件关联关系,如表征所述危险化学品类别的元数据在表征所述危险特征诱因如高温、氧化剂、碱性物质、酸性物质等元数据的条件下会发生类似火灾、爆炸的危险事件。所述逻辑关联关系可以包括属性关联关系,如表征所述危险化学品类别的元数据具有表征所述危险特性如静电性、自燃性、易爆性、毒害性等元数据的属性特征。所述逻辑关联关系还包括因果关联关系,如表征所述危险特性的元数据如静电性、自燃性、易爆性、易燃性等会导致发生表征危险事件的元数据如火灾、爆炸、闪爆。
进一步地,所述元数据的获取方式为:在预设标准文件中获取所述危险化学品名称、所述危险化学品类别、所述危险特征以及所述危险特征诱因中至少一种,作为所述元数据。
进一步地,所述预设标准文件可以是相关国家标准和行业管理条例。例如,GB13690-92《常用危险化学品分类及标志》和《危险化学品安全管理条例》等。
具体地,计算机设备根据表征所述危险化学品名称、所述危险化学品类别、所述危险特征以及所述危险特征诱因中至少两种的词语作为所述元数据,根据所述元数据所表征的词语之间的所述逻辑关联关系构建所述本体结构。例如,以表征所述危险化学品名称和所述危险化学品类别的词语作为所述元数据,则可根据表征所述危险化学品名称的元数据1(甲烷),与表征所述危险化学品类别的元数据2(可燃性气体)之间的所述所属关联关系,以及表征所述危险化学品类别的元数据2(可燃性气体)与表征所述危险特性诱因的元数据3(火源)之间的所述条件关联关系,构建得到所述本体结构。
S120、对化学品事故的语料数据进行聚类,得到至少一个聚类簇。
其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关联关系、相反关联关系以及因果关联关系中的至少一种。
进一步地,所述语料数据的获取方式为:采用网络爬虫算法从互联网获取化学品事故信息,作为所述语料数据。
进一步地,可以有关政府机构和行业协会门户网站的相关版块,如国家应急管理部网站的灾害事故信息版块和国家化学品安全协会的事故案例版块获取所述化学品事故信息。
进一步地,所述化学品事故的语料数据可以是基于语音识别直接获取电视上播报的化学品事故的大量新闻报道音频得到的,也可以是基于文本识别直接获取化学品事故的大量报告文稿文本得到的。所述新闻报道音频或所述报告文稿文本也可以预先存储在外部存储介质或存储单元中,以调用的方式获取得到。
具体地,计算机设备根据所述化学品事故的语料数据中词语之间的所述相近关联关系、所述相反关联关系以及所述因果关联关系中的至少一种,进行聚类,得到至少一个所述聚类簇。例如,根据一起化学品事故的所述新闻报道音频得到的所述语料数据包括(部分词语):XXXX、XXXX年、Y、Y月、Z、Z日、23点30分、左右、WWW、WWW地区、地区、WWWW、WWWW化工厂、化工、化工厂、燃气、燃气罐、发生、天然、天然气、泄漏、导致、火灾、爆炸、事故、周围、地区、居民、反映、爆炸、发生、发生时、伴随、伴随着、巨大、震响、震感、明显、现场、发火、火光、浓烟、浓烟滚滚、滚滚、燃起、熊熊大火、大火。相应的,根据多起所述化学品事故的所述新闻报道音频得到的所述语料数据即为大量上述可以表征整个化学品事故发展情况的词语,基于词语之间的所述特征关联关系,到至少一个聚类簇,如以所述相近关联关系作为所述特征关联关系,得到聚类簇1{起火,着火,大火,火灾、明火、火势、火苗},如以所述因果关联关系作为所述特征关联关系,可得到聚类簇2{起火,着火,大火,火灾、明火、火势、火苗,雷击,雷电,引燃,可燃,着火点,烧毁},如以所述相反关联关系作为所述特征关联关系,可得到聚类簇3{起火,着火,大火,火灾、明火、火势、火苗,扑灭}。
S130、根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。
具体地,计算机设备根据所述聚类簇内的词语与所述本体结构中元数据所表征的词语之间是否具有任意一种上述特征关联关系,以将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。例如,图3a为得到的聚类簇{相撞,泄漏,泄露…},图3b为得到的聚类簇{大火,明火,燃烧…},图3a中聚类簇内的词语与图2中表征孔隙的元数据之间具有所述因果关联关系,则可将该聚类簇与表征孔隙的元数据根据所述因果关联关系关联起来,图3b中聚类簇内的词语与图2中表征火源的元数据之间具有所述相近关联关系,则可将该聚类簇与表征火源的元数据根据所述相近关联关系关联起来,构建得到所述化学品事故知识图谱。
本实施例中,计算机设备根据元数据之间的逻辑关联关系构建本体结构,所述元数据包括表征所述危险化学品名称、所述危险化学品类别、所述危险特征以及所述危险特征诱因中至少两种的词语,基于较少的元数据结合简单的逻辑关系先获取整个化学品事故知识图谱中的基础骨架,减少了构建所述本体结构的数据量,提高了构建所述本体结构的效果。对化学品事故的语料数据进行聚类,得到至少一个聚类簇,每个所述聚类簇包括若干具有特征关联关系的词语,在根据特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到完整所述化学品事故知识图谱,无需从大量的结构化数据中提取所述本体结构,避免了化学品事故的语料数据中噪声对所构建的化学品事故知识图谱的准确性的影响,提高了所构建的化学品事故知识图谱的准确性,同时避免了花费巨大的人力和时间成本构建化学品事故知识图谱。采用通过上述方法所构建的化学品事故知识图谱可对任意一起化学品事故进行分类,根据分类结果研究事故规律,以减少事故数量、提高事故发生时的应急处置能力和降低事故造成的损失。
在一个实施例中,如图4所示,所述S110、根据元数据之间的逻辑关联关系构建本体结构,包括:
S410、根据所述元数据中表征所述危险化学品名称的词语和表征所述危险化学品名称所属的所述危险化学品类别的词语进行所属关联,得到所属关联关系。
具体地,计算机设备将所述元数据中表征所述危险化学品名称的词语和表征所述危险化学品名称所属的所述危险化学品类别的词语关联起来,并将所述危险化学品名称与所述危险化学品类型之间的关系作为所述所属关联关系。例如,将表征危险化学品名称为甲烷的元数据1与表征危险化学品类别的为可燃性气体的元数据2关联,得到如图5a所示的所属关联图,并将元数据1(甲烷)属于元数据2(可燃性气体)的关系作为所述所属关联关系。
S420、根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别对应的所述危险特征诱因的词语进行条件关联,得到条件关联关系。
具体地,计算机设备将所述元数据中表征所述化危险学品类别的词语和表征所述危险化学品类别对应的所述危险特征诱因的词语关联起来,并将所述危险化学品类别和与所述危险化学品类别对应的所述危险特征诱因之间的关系作为所述条件关联关系。例如,将表征危险化学品类别为可燃性气体的元数据2和表征与所述可燃性气体对应的所述危险特征诱因为火源的元数据3关联,得到如图5b所示的条件关联图,并将元数据2(可燃性气体)在具有元数据3(火源)的条件下会导致危险事件的关系作为所述条件关联关系。
S430、根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别具备的所述危险特征的词语进行属性关联,得到属性关联关系。
具体地,计算机设备将所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别具备的所述危险特征的词语关联起来,并将所述危险化学品类别和与所述危险化学品类别具备的所述危险特征之间的关系作为所述所属关联关系。例如,将表征危险化学品类别为可燃性气体的元数据2和表征所述可燃性气体具备的所述危险特征为易燃性的元数据4关联,得到如图5c所示的属性关联图,并将元数据2(可燃性气体)具有元数据4(易燃性)属性的关系作为所述属性关联关系。
S440、根据所述所属关联关系、所述条件关联关系以及所述属性关联关系构建所述本体结构。
具体地,计算机设备将根据所述所属关联关系构建的所述元数据之间的关联结构,根据所述条件关联关系构建的所述元数据之间的关联结构,以及根据所述属性关联关系构建的所述元数据之间的关联结构,组合在一起形成所述本体结构。例如,根据上述所属关联图(图5a)、条件关联图(图5b)以及属性关联图(图5c)中重复的所述元数据,将上述三幅图组合起来,得到如图5d所示的所述本体结构。由所述本体结构中可以得到其中各个所述元数据之间的逻辑关系。
本实施例中,计算机设备以所述危险化学品名称、所述危险化学品类别、所述危险特征以及所述危险特征诱因作为元数据,这些元数据覆盖了任一危险化学品的基础属性,可作为构建整个化学品事故知识图谱的基础元素。采用所述所属关联关系、所述条件关联关系以及所述属性关联关系作为所述逻辑关联关系,这些关联关系可涵盖上述基础属性之间的关联关系。通过上述基础元素和关联关系此构建所述本体结构,使得构件所述基本结构的数据量最小,同时保证了数据的多样性,使得最终构建的所述化学品事故知识图谱内容充实,足够全面,进行化学品事故分类时,得到的分类结果更准确,有利于后续的研究分析。
在一个实施例中,如图6所示,所述S120、对化学品事故的语料数据进行聚类,得到至少一个聚类簇,包括:
S610、根据中文分词算法对每一化学品事故的语料数据进行中文分词,对应得到分词列表。
其中,所述分词列表中包括按照在所述化学品事故的语料数据的出现顺序排列的词语。
进一步地,一起化学品事故对应一组所述化学品事故的语料数据,一组所述化学品事故的语料数据对应一组所述分词列表。
进一步地,所述中文分词算法大概分为三大类,第一类是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,比如机械分词方法。第二类是基于统计以及机器学习的分词方法,它们基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行训练,在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。第三类是通过让计算机模拟人对句子的理解,达到识别词的效果。所述中文分词算法具体可用过中文分词组件jieba来实现,还可根据用户需求事先设置停用词和用户词典,便于用户的个性化使用。
具体地,计算机设备中可采用上述三大类的所述中文分词算法中的任意一种对所述化学品事故的语料数据进行词语分割,并按照在所述化学品事故的语料数据的出现顺序排列得到所述分词列表。例如,获取的某一起化学品事故信息即所述化学品事故的语料数据(部分内容)为:XXXX年Y月Z日23点30分左右,WWW地区WWWW化工厂的燃气罐发生天然气泄漏,导致火灾爆炸事故,周围地区居民反映爆炸发生时伴随着巨大震响,震感明显,随后现场发火光,浓烟滚滚,燃起熊熊大火。采用所述基于字符串匹配的所述中文分词算法,对应得到的所述分词列表包括:XXXX、XXXX年、Y、Y月、Z、Z日、23点30分、左右、WWW、WWW地区、地区、WWWW、WWWW化工厂、化工、化工厂、燃气、燃气罐、发生、天然、天然气、泄漏、导致、火灾、爆炸、事故、周围、地区、居民、反映、爆炸、发生、发生时、伴随、伴随着、巨大、震响、震感、明显、现场、发火、火光、浓烟、浓烟滚滚、滚滚、燃起、熊熊大火、大火。
S620、根据所述分词列表中的词语之间以及所述分词列表之间的词语之间的临近关系,采用预设的图嵌入算法构建多维空间结构。
其中,所述多维空间结构用于表征所有所述分词列表中词语之间的关联关系。
进一步地,所述临近关系可根据所述分词列表中词语的排列顺序确定。例如,某一分词列表为:化工厂、燃气、燃气罐、发生、天然、天然气、泄漏、导致、火灾,以燃气作为节点时,则化工厂与燃气罐与燃气临近,则化工厂与燃气具有所述临近关系,燃气罐与燃气具有所述临近关系。
具体地,计算机设备将每一所述分词列表中的词语和对应该词语的所述临近关系,以及将不同所述分词列表之间的词语和对应不同所述分词列表之间的词语的所述临近关系转换为多维空间中的向量,得到多个多维空间向量。每一所述多维空间向量均可表征一所述词语,以及该词语对应的所述临近关系,将表征相同词语的所述多维空间向量组合起来,得到用于表征所有所述分词列表中所述词语之间的相近关联关系、相反关联关系以及因果关联关系中的至少一种关联关系的所述多维空间结构。
如图7所示,采用预设的图嵌入算法构建多维空间结构具体过程包括:
S710、以所述分词列表中的所述词语为节点,以所述词语的临近关系作为边,构建得到无向图结构。
S720、采用预设的图嵌入算法将所述无向图结构嵌入多维向量空间,得到所述多维空间结构。
其中,可选的所述图嵌入算法有多种,如DeepWalk、Node2Vec和TransE等。
具体地,计算机设备采用基于DeepWalk的图嵌入算法将不规则的所述无向图结构转化为线性数据结构,并捕捉所述无向图结构中的局部结构,在保持所述局部结构的同时,将所述无向图结构中的所述节点嵌入多维向量空间,得到所述多维空间结构。
计算机室设备以所述分词列表中的所述词语为节点,以所述词语的临近关系作为边,构建得到无向图结构,并采用预设的图嵌入算法将所述无向图结构嵌入多维向量空间,得到所述多维空间结构。将抽象的概念性关联关系转换为多维向量关系,实现关系量化,以将所有词语之间的关系具体展现,从而提高所构建的化学品事故知识图谱的准确性。
S630、将所述多维空间结构转化为二维平面结构。
其中,所述多维空间结构转化得到的二维平面结构可将所有所述分词列表中的词语之间的所述特征关联关系平面化展示。
具体地,计算机设备可采用t分布随机邻域嵌入降维算法将所述多维空间结构转化为二维平面结构,以将所述将所有所述分词列表中的词语之间的所述特征关联关系可视化,便于用户直观而高效的确认词语之间的关联关系。
S640、对所述二维平面结构中的所述词语进行聚类操作,得到至少一个聚类簇。
具体地,计算机设备可以采用基于欧式距离的层次聚类方法对所述二维平面结构中的所述词语进行所述聚类操作,得到至少一个所述聚类簇。每一所述聚类簇中词语在所述多维空间结构中的所述多维空间向量具有相似性。
本实施例中,通过中文分词算法对每一化学品事故的语料数据进行中文分词,对应得到分词列表,将所有所述分词列表中的词语结合所述临近关系构建到多维空间结构,以在多维空间中将所有所述词语以及所述词语之间的关联关系具体量化表征,再将所述多维空间结构转化为二维平面结构,以将所有词语可视化展示,对所述二维平面结构中的所述词语进行聚类操作,得到至少一个聚类簇,实现对大量多维数据的聚类,进一步提高所构建的所述化学品事故知识图谱内容的全面性。
在一个实施例中,如图8所示,所述S640、对所述二维平面结构中的所述词语进行聚类操作,得到至少一个聚类簇,包括:
S810、采用层次聚类算法将二维平面结构中的所述词语进行聚类,得到至少两个初始簇。
其中,所述层聚类算法包括如下步骤:
首先,以所述二维平面结构中的每一所述节点所表征的所述词语作为一个初始簇。然后,获取任意两所述初始簇之间的距离,将所述距离最小的两所述初始簇作为一新的初始簇。再获取所述初始簇的个数。
其中,当所述初始簇的个数等于预设个数时,根据每一所述初始簇得到对应的所述聚类簇。当所述初始簇的个数大于所述预设个数时,则执行所述获取任意两所述初始簇之间的距离,将所述距离最小的两所述初始簇作为一个新的初始簇,直至所述初始簇的个数等于所述预设个数。
具体地,计算机设备可根据所述二维平面结构中所述节点的分布密度预估获得的所述聚类簇的个数,作为所述预设个数。具体可将所述分布密度超过预设密度的个数作为所述预设个数。计算机设备比较得到的所述初始簇的个数与所述预设个数,当所述初始簇的个数等于预设个数时,则聚类结束,执行根据每一所述初始簇得到对应的所述聚类簇;而当所述初始簇的个数大于所述预设个数时,则表明聚类还未达到预期要求,还需继续进行聚类操作,执行S820,直至所述初始簇的个数等于所述预设个数,得到所述预设个数的所述聚类簇,结束所述聚类操作。
计算机设备以所述二维平面结构中的每一节点所表征的词语作为一个初始簇,根据初始簇之间的距离进行聚类操作。再将距离最小的初始簇作为一新的初始簇,当初始簇的个数等于预设个数时,即可停止聚类操作,根据此时的初始簇得到聚类簇。而当初始簇的个数大于预设个数,则继续获取初始簇之间的距离,将距离最小的初始簇作为一个新的初始簇,直至初始簇的个数等于预设个数,并根据此时的初始簇得到聚类簇。在二维平面结构中,距离便于获取和计算,以距离作为聚类依据可简化聚类过程,可提高聚类效率,进而提高化学品事故知识图谱的构建效率。
S820、判断每一所述初始簇内的词语之间是否具有所述特征关联关系中的至少一种。
若是,则将所述初始簇作为所述聚类簇。
若否,则删除所述初始簇内与所述初始簇内的词语不具有所述特征关联关系的词语,得到所述聚类簇。
具体地,计算机设备获取每一所述初始簇中每一词语与其他词语之间的关联关系,得到多个所述关联关系,判断多个所述关联关系中是否包所述特征关联关系中的任意一种,若是即多个所述关联关系中包所述特征关联关系中的至少一种,则该初始簇准确,可作为所述聚类簇。例如,得到的初始簇1{起火,着火,大火,火灾、明火、火势、火苗},该初始簇1内每一词语与其他词语之间都具有所述相近关联关系,则将所述初始簇1作为所述聚类簇;得到的初始簇2{起火,着火,大火,火灾、明火、火势、火苗,雷击,雷电,引燃,可燃,着火点,烧毁},该初始簇1内起火、着火,大火,火灾、明火、火势、火苗,之些词语之间具有所述相近关联关系,雷击,雷电之间具有所述相近关联关系,且与起火、着火,大火,火灾、明火、火势、火苗之间具有因果关联关系,引燃,可燃,烧毁与起火、着火,大火,火灾、明火、火势、火苗之间具有因果关联关系,着火点与可燃之间具有因果关联关系,则判断得到的所述初始簇1准确,因此可将所述初始簇1作为所述聚类簇。而若否即多个所述关联关系中不包所述特征关联关系中的任何一种,则该初始簇不准确,需删除所述初始簇内与所述初始簇内的词语不具有所述特征关联关系的词语,得到所述聚类簇。例如,得到的初始簇3{起火,着火,大火,火灾、明火、火势、火苗、火爆},该初始簇3中的火爆与其他词语之间不具有上述特征关联关系中的任一中,则判断得到的所述初始簇3不准确,因此将该“火爆”一词从所述初始簇3中删除,得到所述聚类簇{起火,着火,大火,火灾、明火、火势、火苗}。
本实施例中,计算机设备对得到的初始簇内的词语进一步根据词语间是否具有上述相近关联关系、相反关联关系以及因果关联关系中任意一种所述特征关联关系,判断所得到的初始簇是否准确,是否可以作为最终聚类操作得到的聚类簇。若得到的初始簇内的词语之间具有所述特征关联关系中的至少一种,则该初始簇准确,可作为所述聚类簇,若得到的初始簇内的词语之间不具有所述特征关联关系中的任意一种,则该初始簇不准确,需删除初始簇内与初始簇内的词语不具有特征关联关系的词语,再得到聚类簇。通过上述对初始簇内词语之间关联关系的验证,以进一步确保聚类结果的准确性,从而确保最终所构建化学品事故知识图谱的准确性。
在一个实施例中,如图9所示,提供了一种化学品事故分类方法,所述方法包括:
S910、根据元数据之间的逻辑关联关系构建本体结构;其中,所述元数据包括表征危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少两种的词语;
S920、对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关联关系、相反关联关系以及因果关联关系中的至少一种;
S930、根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到化学品事故知识图谱;
S940、根据所述化学品事故知识图谱对化学品事故进行分类,得到所述化学品事故的所属类别。
在另一实施例中,所述化学品事故分类方法还包括上述任一所述化学品事故知识图谱构建方法,以此实现对任意一起化学品事故进行分类,根据分类结果研究事故规律,以减少事故数量、提高事故发生时的应急处置能力和降低事故造成的损失。
应该理解的是,虽然图1-9中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-9中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种危险化学品知识图谱构建装置,包括:本体构建模块101、语料聚类模102和图谱构建模块103,其中:
所述本体构建模块101用于根据元数据之间的关联关系构建本体结构;其中,所述元数据包括危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少一个;
所述语料聚类模块102用于对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关系、相反关系以及因果关系中的至少一个;
所述图谱构建模块103用于根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。
在一个实施例中,所述本体构建模块101还用于:
根据所述元数据中表征所述危险化学品名称的词语和表征所述危险化学品名称所属的所述危险化学品类别的词语进行所属关联,得到所属关联关系;
根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别对应的所述危险特征诱因的词语进行条件关联,得到条件关联关系;
根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别具备的所述危险特征的词语进行属性关联,得到属性关联关系;
根据所述所属关联关系、所述条件关联关系以及所述属性关联关系构建所述本体结构。
在一个实施例中,所述语料聚类模块102还用于:
根据中文分词算法对每一化学品事故的语料数据进行中文分词,对应得到分词列表;其中,所述分词列表中包括按照在所述化学品事故的语料数据的出现顺序排列的词语;
根据所述分词列表中的词语之间以及所述分词列表之间的词语之间的临近关系,采用预设的图嵌入算法构建多维空间结构;其中,所述临近关系可根据所述分词列表中词语的排列顺序确定;
将所述多维空间结构转化为二维平面结构;
对所述二维平面结构中的所述词语进行聚类操作,得到至少一个聚类簇。
在一个实施例中,所述语料聚类模块102还用于:
采用t分布随机邻域嵌入降维算法将所述多维空间结构转化为二维平面结构。
在一个实施例中,所述语料聚类模块102还用于:
采用层次聚类算法将二维平面结构中的所述词语进行聚类,得到至少两个初始簇;
判断每一所述初始簇内的词语之间是否具有所述特征关联关系中的任意一种;
若是,则将所述初始簇作为所述聚类簇;
若否,则删除所述初始簇内与所述初始簇内的词语不具有所述特征关联关系的词语,得到所述聚类簇。
在一个实施例中,所述元数据的获取方式为:在预设标准文件中获取所述危险化学品名称、所述危险化学品类别、所述危险特征以及所述危险特征诱因中至少一种,作为所述元数据;
所述语料数据的获取方式为:采用网络爬虫算法从互联网获取化学品事故信息,作为所述语料数据。
关于危险化学品知识图谱构建装置的具体限定可以参见上文中对于危险化学品知识图谱构建方法的限定,在此不再赘述。上述危险化学品知识图谱构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种危险化学品知识图谱构建方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
根据元数据之间的逻辑关联关系构建本体结构;其中,所述元数据包括表征危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少两种的词语;
对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关联关系、相反关联关系以及因果关联关系中的至少一种;
根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据所述元数据中表征所述危险化学品名称的词语和表征所述危险化学品名称所属的所述危险化学品类别的词语进行所属关联,得到所属关联关系;
根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别对应的所述危险特征诱因的词语进行条件关联,得到条件关联关系;
根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别具备的所述危险特征的词语进行属性关联,得到属性关联关系;
根据所述所属关联关系、所述条件关联关系以及所述属性关联关系构建所述本体结构。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据中文分词算法对每一化学品事故的语料数据进行中文分词,对应得到分词列表;其中,所述分词列表中包括按照在所述化学品事故的语料数据的出现顺序排列的词语;
根据所述分词列表中的词语之间以及所述分词列表之间的词语之间的临近关系,采用预设的图嵌入算法构建多维空间结构;其中,所述临近关系可根据所述分词列表中词语的排列顺序确定;
将所述多维空间结构转化为二维平面结构;
对所述二维平面结构中的所述词语进行聚类操作,得到至少一个聚类簇。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
采用t分布随机邻域嵌入降维算法将所述多维空间结构转化为二维平面结构。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
采用层次聚类算法将二维平面结构中的所述词语进行聚类,得到至少两个初始簇;
判断每一所述初始簇内的词语之间是否具有所述特征关联关系中的任意一种;
若是,则将所述初始簇作为所述聚类簇;
若否,则删除所述初始簇内与所述初始簇内的词语不具有所述特征关联关系的词语,得到所述聚类簇。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述元数据的获取方式为:在预设标准文件中获取所述危险化学品名称、所述危险化学品类别、所述危险特征以及所述危险特征诱因中至少一种,作为所述元数据;
所述语料数据的获取方式为:采用网络爬虫算法从互联网获取化学品事故信息,作为所述语料数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
根据元数据之间的逻辑关联关系构建本体结构;其中,所述元数据包括表征危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少两种的词语;
对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关联关系、相反关联关系以及因果关联关系中的至少一种;
根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据所述元数据中表征所述危险化学品名称的词语和表征所述危险化学品名称所属的所述危险化学品类别的词语进行所属关联,得到所属关联关系;
根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别对应的所述危险特征诱因的词语进行条件关联,得到条件关联关系;
根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别具备的所述危险特征的词语进行属性关联,得到属性关联关系;
根据所述所属关联关系、所述条件关联关系以及所述属性关联关系构建所述本体结构。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据中文分词算法对每一化学品事故的语料数据进行中文分词,对应得到分词列表;其中,所述分词列表中包括按照在所述化学品事故的语料数据的出现顺序排列的词语;
根据所述分词列表中的词语之间以及所述分词列表之间的词语之间的临近关系,采用预设的图嵌入算法构建多维空间结构;其中,所述临近关系可根据所述分词列表中词语的排列顺序确定;
将所述多维空间结构转化为二维平面结构;
对所述二维平面结构中的所述词语进行聚类操作,得到至少一个聚类簇。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
采用t分布随机邻域嵌入降维算法将所述多维空间结构转化为二维平面结构。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
采用层次聚类算法将二维平面结构中的所述词语进行聚类,得到至少两个初始簇;
判断每一所述初始簇内的词语之间是否具有所述特征关联关系中的任意一种;
若是,则将所述初始簇作为所述聚类簇;
若否,则删除所述初始簇内与所述初始簇内的词语不具有所述特征关联关系的词语,得到所述聚类簇。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述元数据的获取方式为:在预设标准文件中获取所述危险化学品名称、所述危险化学品类别、所述危险特征以及所述危险特征诱因中至少一种,作为所述元数据;
所述语料数据的获取方式为:采用网络爬虫算法从互联网获取化学品事故信息,作为所述语料数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种化学品事故知识图谱构建方法,其特征在于,所述方法包括:
根据元数据之间的逻辑关联关系构建本体结构;其中,所述元数据包括表征危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少两种的词语;
对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关联关系、相反关联关系以及因果关联关系中的至少一种;
根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述根据元数据之间的逻辑关联关系构建本体结构,包括:
根据所述元数据中表征所述危险化学品名称的词语和表征所述危险化学品名称所属的所述危险化学品类别的词语进行所属关联,得到所属关联关系;
根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别对应的所述危险特征诱因的词语进行条件关联,得到条件关联关系;
根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别具备的所述危险特征的词语进行属性关联,得到属性关联关系;
根据所述所属关联关系、所述条件关联关系以及所述属性关联关系构建所述本体结构。
3.根据权利要求1所述的方法,其特征在于,所述对化学品事故的语料数据进行聚类,得到至少一个聚类簇,包括:
根据中文分词算法对每一化学品事故的语料数据进行中文分词,对应得到分词列表;其中,所述分词列表中包括按照在所述化学品事故的语料数据的出现顺序排列的词语;
根据所述分词列表中的词语之间以及所述分词列表之间的词语之间的临近关系,采用预设的图嵌入算法构建多维空间结构;其中,所述临近关系可根据所述分词列表中词语的排列顺序确定;
将所述多维空间结构转化为二维平面结构;
对所述二维平面结构中的所述词语进行聚类操作,得到至少一个聚类簇。
4.根据权利要求3所述的方法,其特征在于,所述将所述多维空间结构转化为二维平面结构,包括:
采用t分布随机邻域嵌入降维算法将所述多维空间结构转化为二维平面结构。
5.根据权力要求3所述的方法,其特征在于,所述对所述二维平面结构中的所述词语进行聚类操作,得到至少一个聚类簇,包括:
采用层次聚类算法将二维平面结构中的所述词语进行聚类,得到至少两个初始簇;
判断每一所述初始簇内的词语之间是否具有所述特征关联关系中的任意一种;
若是,则将所述初始簇作为所述聚类簇;
若否,则删除所述初始簇内与所述初始簇内的词语不具有所述特征关联关系的词语,得到所述聚类簇。
6.根据权利要求1所述的方法,其特征在于,
所述元数据的获取方式为:在预设标准文件中获取所述危险化学品名称、所述危险化学品类别、所述危险特征以及所述危险特征诱因中至少一种,作为所述元数据;
所述语料数据的获取方式为:采用网络爬虫算法从互联网获取化学品事故信息,作为所述语料数据。
7.一种化学品事故分类方法,其特征在于,所述方法包括:
根据元数据之间的逻辑关联关系构建本体结构;其中,所述元数据包括表征危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少两种的词语;
对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关联关系、相反关联关系以及因果关联关系中的至少一种;
根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到化学品事故知识图谱;
根据所述化学品事故知识图谱对化学品事故进行分类,得到所述化学品事故的所属类别。
8.一种化学品事故知识图谱构建装置,其特征在于,所述装置包括:
本体构建模块,用于根据元数据之间的关联关系构建本体结构;其中,所述元数据包括危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少一个;
语料聚类模块,用于对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关系、相反关系以及因果关系中的至少一个;
图谱构建模块,用于根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010062305.0A 2020-01-19 2020-01-19 图谱构建方法、事故分类方法、装置、计算机设备和介质 Active CN111309922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010062305.0A CN111309922B (zh) 2020-01-19 2020-01-19 图谱构建方法、事故分类方法、装置、计算机设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010062305.0A CN111309922B (zh) 2020-01-19 2020-01-19 图谱构建方法、事故分类方法、装置、计算机设备和介质

Publications (2)

Publication Number Publication Date
CN111309922A true CN111309922A (zh) 2020-06-19
CN111309922B CN111309922B (zh) 2023-11-17

Family

ID=71146853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010062305.0A Active CN111309922B (zh) 2020-01-19 2020-01-19 图谱构建方法、事故分类方法、装置、计算机设备和介质

Country Status (1)

Country Link
CN (1) CN111309922B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930965A (zh) * 2020-09-18 2020-11-13 成都数联铭品科技有限公司 一种用于知识图谱的本体结构的构建方法及系统
CN116541503A (zh) * 2023-06-05 2023-08-04 北京建筑大学 一种燃气输配系统应急处置辅助决策系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150095331A1 (en) * 2012-12-21 2015-04-02 Cloud Computing Center Chinese Academy Of Sciences Establishing and querying methods of knowledge library engine based on emergency management
CN107480125A (zh) * 2017-07-05 2017-12-15 重庆邮电大学 一种基于知识图谱的关系链接方法
CN109447261A (zh) * 2018-10-09 2019-03-08 北京邮电大学 一种基于多阶邻近相似度的网络表示学习的方法
CN110597969A (zh) * 2019-08-12 2019-12-20 中国农业大学 一种农业知识智能问答方法、系统以及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150095331A1 (en) * 2012-12-21 2015-04-02 Cloud Computing Center Chinese Academy Of Sciences Establishing and querying methods of knowledge library engine based on emergency management
CN107480125A (zh) * 2017-07-05 2017-12-15 重庆邮电大学 一种基于知识图谱的关系链接方法
CN109447261A (zh) * 2018-10-09 2019-03-08 北京邮电大学 一种基于多阶邻近相似度的网络表示学习的方法
CN110597969A (zh) * 2019-08-12 2019-12-20 中国农业大学 一种农业知识智能问答方法、系统以及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘宝 等: "基于自然语言处理(NLP)技术建立化学品危险评估知识图谱的研究" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930965A (zh) * 2020-09-18 2020-11-13 成都数联铭品科技有限公司 一种用于知识图谱的本体结构的构建方法及系统
CN111930965B (zh) * 2020-09-18 2020-12-29 成都数联铭品科技有限公司 一种用于知识图谱的本体结构的构建方法及系统
CN116541503A (zh) * 2023-06-05 2023-08-04 北京建筑大学 一种燃气输配系统应急处置辅助决策系统
CN116541503B (zh) * 2023-06-05 2023-12-08 北京建筑大学 一种燃气输配系统应急处置辅助决策系统

Also Published As

Publication number Publication date
CN111309922B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
US9923931B1 (en) Systems and methods for identifying violation conditions from electronic communications
CN110301117B (zh) 用于在会话中提供响应的方法和装置
Vo et al. Twitter emotion analysis in earthquake situations.
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
JP2022534377A (ja) テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体
US9965726B1 (en) Adding to a knowledge base using an ontological analysis of unstructured text
Ghahremanlou et al. Geotagging twitter messages in crisis management
Cai et al. Ranking through clustering: An integrated approach to multi-document summarization
CN102622453A (zh) 基于本体的食品安全事件语义检索系统
Chowdhury et al. On identifying hashtags in disaster twitter data
CN111259149B (zh) 化学品事故分类方法、装置、计算机设备和存储介质
CN111309922A (zh) 图谱构建方法、事故分类方法、装置、计算机设备和介质
Van Quan et al. Real-time earthquake detection using convolutional neural network and social data
Fu et al. Improving distributed word representation and topic model by word-topic mixture model
Zavarella et al. An Ontology-Based Approach to Social Media Mining for Crisis Management.
Overell et al. Geographic Co-occurrence as a tool for GIR.
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
Shimoji et al. Dynamic thesaurus construction from english-japanese dictionary
US9104755B2 (en) Ontology enhancement method and system
CN112818212B (zh) 语料数据采集方法、装置、计算机设备和存储介质
Weischedel et al. What can be accomplished with the state of the art in information extraction? A personal view
Dashdorj et al. High‐level event identification in social media
Syliongka et al. Combining automatic and manual approaches: Towards a framework for discovering themes in disaster-related Tweets
Phengsuwan et al. Context-based knowledge discovery and querying for social media data
Gokcimen et al. Exploring Climate Change Discourse on Social Media and Blogs Using a Topic Modeling Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant