CN116881476A - 一种知识图谱构建方法、平台及计算机存储介质 - Google Patents
一种知识图谱构建方法、平台及计算机存储介质 Download PDFInfo
- Publication number
- CN116881476A CN116881476A CN202310959565.1A CN202310959565A CN116881476A CN 116881476 A CN116881476 A CN 116881476A CN 202310959565 A CN202310959565 A CN 202310959565A CN 116881476 A CN116881476 A CN 116881476A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- knowledge graph
- user
- entities
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 230000000007 visual effect Effects 0.000 claims abstract description 18
- 230000002452 interceptive effect Effects 0.000 claims abstract description 12
- 238000003058 natural language processing Methods 0.000 claims abstract description 5
- 238000004590 computer program Methods 0.000 claims description 23
- 238000013461 design Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 8
- 238000005065 mining Methods 0.000 claims description 7
- 238000012800 visualization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 230000001960 triggered effect Effects 0.000 claims description 2
- 238000007726 management method Methods 0.000 abstract description 8
- 238000012545 processing Methods 0.000 description 12
- 230000009286 beneficial effect Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000003339 best practice Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003446 memory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04883—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了信息科学领域的一种知识图谱构建方法、平台及计算机存储介质,其方法包括收集整理知识、实体识别与关系抽取、知识建模、图谱构建、知识推理与分析和可视化展示;利用自然语言处理和信息抽取技术,对文档中的实体进行识别和抽取,并抽取实体之间的关系,能够自动化地从文本中提取出有用的知识,并捕获实体之间的关联。将抽取得到的实体和关系转化为图谱的节点和边,利用图数据库Neo4j来存储和管理图谱数据。通过直观的方式将知识图谱展示给用户,并提供交互操作。利用可视化展示帮助用户发现关联、查找详细信息,并进行深入的数据探索。由此提高了知识图谱的质量和效率,使其能够更好地应用于各个领域的知识管理和智能应用中。
Description
技术领域
本发明属于信息科学领域,具体是一种知识图谱构建方法、平台及计算机存储介质。
背景技术
随着5G技术的快速发展,为了能够将人、流程、数据和事物结合一起使得网络连接变得更加相关,而知识图谱作为一种整合数据和治理数据的有效工具,能够利用图谱分析进行关联关系挖掘的技术手段,洞察数据之间的关系和逻辑,为决策提供支持。此外,在搭建领域知识库的过程中,知识图谱实现了知识的建模、抽取、融合、存储、应用,同时将相关知识进行关联,达到智能化的知识应用水平,成为了企业推进人工智能应用部署的重要技术手段之一,当前,知识图谱技术已被越来越多的行业所采纳。由于构建一套知识图谱需要复杂的信息抽取和数据处理流程,相关技术中的知识图谱仅能针对于一个特定领域,因此目前知识图谱所应用的范围和作用较小。
为了解决上述问题,中国专利公布号为CN 116089623 A的专利公开了一种知识图谱构建方法、平台及计算机存储介质,该方法应用于知识图谱构建平台,知识图谱构建平台包括来自于第一平台的异构数据和来自于第二平台的第一知识图谱数据,该方法包括:获取来自于第一平台的异构数据和来自于第二平台的第一知识图谱数据;对异构数据进行信息抽取处理,得到第一转化数据;对第一转化数据和第一知识图谱数据进行相似度比较处理,得到相似度数据;根据相似度数据和预设阈值条件,对第一转化数据和第一知识图谱数据进行融合构建处理,得到第二知识图谱数据。
该方案能够实现利用不同领域、不同平台的数据自动对知识图谱进行更新构建处理,提高知识图谱的准确性和效率。但是,确定相似度数据的预设阈值条件是构建过程中关键的一步,决定了哪些异构数据应该被融合到第二知识图谱中。然而,在实际场景中,确定合适的阈值并非易事,可能需要进行多次试验和调整以达到最佳结果。同时,异构数据来自不同平台和领域,可能存在数据质量差异,包括准确性、完整性和一致性等方面的问题。这可能导致信息抽取和相似度比较的结果不准确或存在偏差,影响最终构建的第二知识图谱数据的准确性。由此,本方案提出了一种知识图谱构建方法、平台及计算机存储介质,提高知识图谱的质量和效率,使其能够更好地应用于各个领域的知识管理和智能应用中。
发明内容
为了解决上述异构数据来自不同平台和领域,可能存在数据质量差异,包括准确性、完整性和一致性等方面的问题,本发明提供一种知识图谱构建方法、平台及计算机存储介质,以提高知识图谱的质量和效率,使其能够更好地应用于各个领域的知识管理和智能应用中。
为了实现上述目的,本发明的技术方案如下:一种知识图谱构建方法,包括如下步骤:
步骤一,收集整理知识:收集和整理公司项目和文档的数据,并将这些数据转换为结构化的形式。
步骤二,实体识别与关系抽取:使用自然语言处理和信息抽取技术,对文档中的实体进行识别和抽取;同时,抽取实体之间的关系。
步骤三,知识建模:将抽取的实体和关系转化为图谱的节点和边;利用节点表示实体、边表示实体之间的关系,并使用图数据库Neo4j来存储和管理图谱数据。
步骤四,图谱构建:根据已有的数据,逐步构建初始的知识图谱;同时,可以结合外部数据源。
步骤五,知识推理与分析:利用图谱的结构和关系,进行知识推理和分析。
步骤六,可视化展示:将知识图谱以直观的方式展示给用户,并进行交互操作。
采用上述方案的原理及有益效果:知识图谱采用图形数据结构来表示知识,这种图结构有助于表达实体之间的复杂关联和语义关系,知识图谱构建需要整合来自多个数据源的知识,包括结构化数据、半结构化数据和非结构化数据。技术上解决了数据格式不一致、数据质量差异等问题,知识图谱具备推理能力,可以进行逻辑推理、关联推理和推断。通过利用图谱中的结构和关系,可以发现新的事实、填补知识空白,并生成新的知识。推理引擎可以使用规则引擎、图算法或机器学习方法,以支持推理功能为了方便用户浏览和查询知识图谱。用户可以通过图形化的界面进行图谱的浏览、搜索和交互操作,以获取所需的知识和信息。
通过收集和整理公司项目和文档的数据,并将其转换为结构化形式,可以更好地组织和管理大量的知识信息。利用自然语言处理和信息抽取技术,对文档中的实体进行识别和抽取,并抽取实体之间的关系。这样可以自动化地从文本中提取出有用的知识,并捕获实体之间的关联。将抽取得到的实体和关系转化为图谱的节点和边。利用图数据库Neo4j来存储和管理图谱数据,能够高效地存储和查询大规模的图数据。
根据已有的数据,逐步构建初始的知识图谱。同时,可以结合外部数据源来增强和扩展图谱的内容。这种增量式的构建方式使得知识图谱具有可伸缩性和灵活性。基于图谱的结构和关系,可以进行复杂的知识推理和分析。通过图算法和查询语言,可以发现隐藏在图中的模式、关联和趋势,从而提供深入的洞察和智能决策支持。通过直观的方式将知识图谱展示给用户,并提供交互操作,使用户能够更好地理解和探索图谱中的知识。可视化展示可以帮助用户发现关联、查找详细信息,并进行深入的数据探索。由此提高了知识图谱的质量和效率,使其能够更好地应用于各个领域的知识管理和智能应用中。
进一步,步骤一中,公司项目和文档的数据包括但不限于项目计划、需求文档、设计文档和测试报告。
有益效果:这些数据以结构化的形式组织,可以按照不同的模块和阶段进行分类和归档,使得项目管理更加有序和清晰。通过这些数据,可以了解项目的起源、进展和变更情况,以及相关决策和问题的处理过程,便于回顾和追溯项目的历史记录。这些数据记录了项目开发和管理过程中的经验、教训和最佳实践,可以为团队成员提供有价值的指导和参考,促进知识的共享和积累。基于这些数据,可以进行数据分析和挖掘,提取出有关项目进度、质量和风险等方面的关键指标和趋势,为决策者提供科学依据。通过这些数据,团队成员和利益相关者之间可以进行沟通和协作,分享信息和意见,消除误解和不确定性,促进项目的顺利进行。
进一步,步骤二中,对文档中的实体进行识别和抽取包括但不限于项目名称、人员名称和关键术语;实体之间的关系包括但不限于人员的关联和需求与设计。
有益效果:通过自动化的方式进行实体识别和关系抽取,可以大大减少人工处理的工作量和时间成本,提高效率和准确性。将文档中的实体和关系进行识别和抽取后,可以生成结构化的数据,使得信息更易于组织、存储和分析。通过对实体和关系的抽取,可以发现文档中隐藏的知识和信息,包括项目中涉及的人员、关键术语和相关性,从而加深对文档内容的理解和利用。基于实体和关系的抽取结果,可以进行数据分析和挖掘,揭示出实体之间的模式、趋势和关联规律,为决策和分析提供依据。通过实体和关系的抽取,可以帮助团队成员更快地定位和识别相关信息,促进合作和沟通的效率和准确性。
进一步,步骤四中,构建初始的知识图谱时,可以利用包括但不限于人工标注、规则引擎和机器学习的方法,辅助构建和扩展图谱;结合外部的数据源包括但不限于公司内部系统和公共数据集,丰富图谱的内容。
有益效果:通过人工标注的方式,可以准确地为图谱中的实体和关系进行标注,保证知识的正确性和一致性。利用规则引擎可以定义和应用一系列规则,根据已有的知识和规则逻辑,自动进行实体和关系的抽取和链接,提高图谱构建的效率。通过机器学习算法,可以从大量的文本数据中学习模式和规律,自动发现实体和关系,并将其应用于图谱构建中,提高自动化程度和准确性。利用公司内部系统和公共数据集等外部数据源,可以丰富图谱的内容,增加实体和关系的数量和多样性,提升图谱的全面性和价值。通过利用不同的方法和数据源,可以综合各种信息和知识,发现隐藏的模式和关联规律,进一步推进知识的发现和应用。
进一步,步骤五中,进行知识推理和分析的技术包括但不限于路径分析、相似性计算和关联规则挖掘。
有益效果:路径分析可以通过分析实体之间的连接路径,发现实体之间的关系和影响,揭示出复杂的结构和模式,帮助我们深入理解知识图谱中的信息和关联。相似性计算可以度量实体之间的相似程度,基于各种指标和特征,比较实体的属性和关系,从而找到相似的实体或者推断新的关系。这可以帮助我们发现隐藏的相关性和潜在的知识。通过关联规则挖掘,可以从大量的数据中发现实体之间的频繁关联或者共同出现的规律,提取出有用的关联规则,进一步拓展和补充知识图谱的内容,辅助决策和推荐系统的设计。通过知识推理和分析技术,可以获取更全面、准确的知识,推断出新的关系和结论,并基于这些推断结果进行决策和推荐。这可以提高决策的可靠性和效果,为用户提供个性化的服务和建议。通过对知识图谱的推理和分析,可以发现隐藏的模式、趋势和规律,揭示出未知的关系和知识,进一步促进知识的发现和创新。
进一步,步骤六中,将知识图谱以直观的方式展示给用户的方式包括但不限于通过图形、图表和搜索。
有益效果:通过图形和图表展示知识图谱,可以形象地展示实体之间的关系和属性,使复杂的知识结构更易于理解和掌握。图形和图表能够将抽象的知识转化为可视化的形式,让用户通过观察和感知来获取信息,提升用户的信息接收效率和记忆效果。用户可以通过图形和图表与知识图谱进行交互,例如放大缩小、拖拽移动、点击查看详细信息等操作,增强用户参与感和探索的乐趣。通过搜索功能,用户可以迅速定位到所需的实体或关系,避免了在庞大的知识图谱中漫无目的地浏览。图形、图表和搜索等多种展示方式的结合使用,可以以不同的视角和层次展示知识图谱的内容,帮助用户从多个方面理解和分析知识。
进一步,步骤六中,进行交互操作时,用户可以通过输入关键词、实体名称或属性条件来进行查询和搜索;用户可以浏览和导航知识图谱中的节点和边,通过点击节点或边来获取更多相关内容;用户可以根据需求对知识图谱中的实体或关系进行过滤和排序;用户可以使用图算法和可视化工具进行探索和发现;用户可以通过交互操作对知识图谱中的数据进行编辑和更新。
有益效果:通过输入关键词、实体名称或属性条件进行查询和搜索,用户可以根据自己的需求快速找到所需的信息,不受固定界面和预设路径的限制。用户可以根据自己的兴趣和偏好浏览和导航知识图谱中的节点和边,点击节点或边来获取更多相关内容,从而获得个性化的知识获取体验。用户可以根据需求对知识图谱中的实体或关系进行过滤和排序,实现定制化的数据展示,提高信息的准确性和适配性。借助图算法和可视化工具,用户可以以更直观的方式探索和发现知识图谱中隐藏的模式、规律和关联,发现新的信息和见解。用户可以通过交互操作对知识图谱中的数据进行编辑和更新,增加和完善知识图谱的内容,实现知识共享与协作。
进一步,进行查询和搜索时,可以使用手势输入关键词或实体名称,并通过点击搜索按钮或者进行滑动手势来触发查询操作,若有多个搜索结果,用户可以使用滑动手势来切换和查看不同的结果。
进行浏览和导航时,用户可以使用手势在可视化界面上进行拖动和缩放操作,以导航和浏览知识图谱中的节点和边,通过捏合手势可以缩小图谱的显示范围,通过拖动手势可以移动图谱的位置。
进行过滤和排序时,在可视化界面中,用户可以使用滑动手势来调整某个属性的取值范围,以过滤符合条件的实体或关系,同时,用户可以使用手势双击某个属性列的标题,触发排序操作。
进行探索和发现时,用户可以在可视化界面中使用双指点击某个节点,从而展开该节点的相关信息;用户还可以使用手势进行路径搜索,路径搜索时将手指从一个节点拖动到另一个节点,系统会自动寻找两个节点之间的最短路径。
进行编辑和更新时,用户可以长按某个节点或边进行拖动,当该节点或边拖动至指定位置时,可以进行删除或修改操作;用户还可以使用划动手势,在屏幕上的空白位置画出圆圈以添加新的节点,用户还可以将两个或多个节点圈入一个圆圈内,将圆圈内的节点进行连接。
有益效果:手势输入和操作更贴近日常生活中的自然动作,让用户能够直观地与系统进行交互,无需额外的学习成本。通过手势触发查询、切换搜索结果、拖动缩放导航等操作,用户可以轻松快速地完成任务,提高了操作的便捷性和效率。手势操作增加了交互的身临其境感,使用户能够更深入地探索知识图谱,提供了一种沉浸式的交互体验。手势操作可以根据用户的意图自由调整查询条件、浏览路径、过滤规则等,使用户能够根据自己的需要个性化地进行操作和控制,增强了灵活性和定制性。手势操作通常能够实时反馈用户的输入和动作,用户可以及时获得结果并进行相应的调整和反馈,提高了交互的实时性和效果。
一种知识图谱构建平台,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述的知识图谱构建方法。
有益效果:利用计算机程序和处理器的高速计算和处理能力,能够实现对大规模数据的高效处理和分析,提高知识图谱构建的效率和速度。通过存储器的容量和计算机程序的可编程特性,知识图谱构建平台能够适应不同规模和复杂度的知识图谱构建任务,并灵活地进行扩展和升级。使用计算机程序来执行知识图谱构建方法,可以实现自动化的数据抽取、清洗、融合、推理等过程,减少了人工操作和错误的风险,提高了构建的准确性和一致性。由于计算机程序的可编程性,知识图谱构建平台可以根据不同的需求和场景进行定制和调整,支持各种复杂的数据处理和分析操作,满足用户的个性化需求。通过存储器的存储和管理功能,知识图谱构建平台可以集成多个来源的数据,并进行统一的表示和管理,实现跨数据源的知识关联和查询。结合处理器的计算能力和计算机程序的可视化技术,知识图谱构建平台可以生成直观的可视化图形,帮助用户理解和分析知识图谱,发现潜在的关联和模式。
一种计算机存储介质,存储有计算机程序,计算机程序被处理器执行时,实现如上述的知识图谱构建方法。
有益效果:计算机存储介质通常具有较快的读取和写入速度,能够高效地加载和保存计算机程序,以提高知识图谱构建的处理效率。计算机存储介质通常具有数据的持久性,即数据在断电或重启后仍能保留。这确保了计算机程序和相关数据的长期存储,避免了丢失关键信息。计算机存储介质通常具有较大的存储容量,可以容纳大规模的计算机程序和相关数据,满足复杂知识图谱的构建需求。许多计算机存储介质支持可扩展性,可以通过增加额外存储设备或升级存储容量来满足更大规模的知识图谱构建需要。计算机存储介质可以对数据进行隔离和保护,防止未经授权的访问和篡改,确保构建的知识图谱的安全性和完整性。
附图说明
图1为本发明实施例的知识图谱构建方法流程图。
具体实施方式
下面通过具体实施方式进一步详细说明:
实施例一
实施例基本如附图1所示:
一种知识图谱构建方法,包括如下步骤:
步骤一,收集整理知识:收集和整理公司项目和文档的数据,公司项目和文档的数据包括但不限于项目计划、需求文档、设计文档和测试报告,项目计划是对公司项目进行规划和安排的文件,其中包含项目的目标、阶段、里程碑和时间计划等信息;需求文档记录了项目的需求和功能要求,包括用户需求、系统需求和功能列表等详细描述;设计文档用于描述项目的架构、模块设计和接口设计等方面的内容,包括系统设计、数据库设计和界面设计等;测试报告是对项目进行测试和评估的结果总结,包括测试方案、测试用例、测试结果和缺陷报告等。再将这些数据转换为结构化的形式。
步骤二,实体识别与关系抽取:使用自然语言处理和信息抽取技术,对文档中的实体进行识别和抽取,对文档中的实体进行识别和抽取包括但不限于项目名称、人员名称和关键术语;实体之间的关系包括但不限于人员的关联和需求与设计;同时,抽取实体之间的关系。
步骤三,知识建模:将抽取的实体和关系转化为图谱的节点和边。实体指现实世界中可以独立存在并具有具体或抽象概念的事物,如人物、地点、组织、产品等。将从文本中抽取到的实体,通过标准化和唯一标识符进行命名,形成图谱中的节点。关系是实体之间的连接和关联,描述了实体之间的各种联系和交互。例如,对于公司项目文档的数据,可以建立“拥有”、“属于”和“包含”等关系来表示不同实体之间的关联。通过标注抽取出的关系类型,形成图谱中的边。利用节点表示实体、边表示实体之间的关系,并使用图数据库Neo4j来存储和管理图谱数据。Neo4j提供高效的图数据存储和查询功能,并支持灵活的图计算和图分析操作,将抽取到的实体和关系转化为节点和边后,可以使用Neo4j作为图数据的存储引擎,通过图数据库的特性来查询、分析和融合数据。
步骤四,图谱构建:根据已有的数据,逐步构建初始的知识图谱,可以利用包括但不限于人工标注、规则引擎和机器学习的方法,辅助构建和扩展图谱;结合外部的数据源包括但不限于公司内部系统和公共数据集,丰富图谱的内容;同时,可以结合外部数据源。
步骤五,知识推理与分析:利用图谱的结构和关系,进行知识推理和分析,进行知识推理和分析的技术包括但不限于路径分析、相似性计算和关联规则挖掘。通过分析实体之间的路径,发现它们之间的关系和连接。例如,可以利用图谱中的路径信息找到两个实体之间的最短路径,或者发现具有相似关系模式的实体。基于属性和关系的相似性度量,评估实体之间的相似程度。这可以帮助发现具有相似特征或行为的实体,并支持推理和推荐任务。通过挖掘实体之间的关联规则,发现它们之间的隐藏关系和关联模式。关联规则挖掘可以揭示实体之间的共同出现模式,从而提供洞察力和预测能力。基于图谱中的规则和约束,进行逻辑推理和推断。推理可以根据已知事实,自动地推导出新的事实或推理结论,从而填补知识图谱中的空白或不完整部分。应用图算法和网络分析技术,如社区检测、中心性分析、路径发现等,对知识图谱进行结构化分析,揭示实体和关系之间的重要特征和模式。
步骤六,可视化展示:将知识图谱以直观的方式展示给用户,方式包括但不限于通过图形、图表和搜索,并进行交互操作。其中,通过图形展示的方式具体为:通过节点和边的形式,使用图形来表示知识图谱中的实体和它们之间的关系。节点通常代表实体,边表示实体之间的关联或属性。图形展示可以体现实体之间的拓扑结构、层级关系和连接方式。利用各种图表(如柱状图、折线图、饼图等)展示知识图谱中的统计信息和属性特征。
通过图表的方式展示给用户具体为:展示实体数量分布、属性值分布、关系类型占比等,帮助用户了解知识图谱的整体情况。通过搜索功能进行展示的方式具体为:让用户可以输入关键词或查询条件,在知识图谱中快速定位相关实体或关系。
同时,还可以根据用户需求,通过过滤条件限定实体类型、属性值范围等,提高搜索的精确性和效率。交互操作可以提供更细粒度的展示和控制,增加用户的参与感和使用便利性。并且,还可以显示实体的属性信息,如名称、描述、相关链接等,使用户能够更全面地了解各个实体的特征和背景信息。可以展示实体之间的关系路径,帮助用户理解实体之间的关联和连接方式。可以通过可视化方式呈现最短路径、多层路径或重要路径,从而揭示知识图谱中隐藏的相关性。
实施例二
本实施例与上述实施例的区别在于:进行交互操作时,用户可以通过输入关键词、实体名称或属性条件来进行查询和搜索;用户可以浏览和导航知识图谱中的节点和边,通过点击节点或边来获取更多相关内容;用户可以根据需求对知识图谱中的实体或关系进行过滤和排序;用户可以使用图算法和可视化工具进行探索和发现;用户可以通过交互操作对知识图谱中的数据进行编辑和更新。
进行查询和搜索时,可以使用手势输入关键词或实体名称,并通过点击搜索按钮或者进行滑动手势来触发查询操作,若有多个搜索结果,用户可以使用滑动手势来切换和查看不同的结果。
进行浏览和导航时,用户可以使用手势在可视化界面上进行拖动和缩放操作,以导航和浏览知识图谱中的节点和边,通过捏合手势可以缩小图谱的显示范围,通过拖动手势可以移动图谱的位置。
进行过滤和排序时,在可视化界面中,用户可以使用滑动手势来调整某个属性的取值范围,以过滤符合条件的实体或关系,同时,用户可以使用手势双击某个属性列的标题,触发排序操作。
进行探索和发现时,用户可以在可视化界面中使用双指点击某个节点,从而展开该节点的相关信息;用户还可以使用手势进行路径搜索,路径搜索时将手指从一个节点拖动到另一个节点,系统会自动寻找两个节点之间的最短路径。
进行编辑和更新时,用户可以长按某个节点或边进行拖动,当该节点或边拖动至指定位置时,可以进行删除或修改操作;用户还可以使用划动手势,在屏幕上的空白位置画出圆圈以添加新的节点,用户还可以将两个或多个节点圈入一个圆圈内,将圆圈内的节点进行连接。
实施例三
一种知识图谱构建平台,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现实施例一和实施例二中的知识图谱构建方法。
具体实施过程如下:利用存储器负责存储知识图谱中的数据,包括实体、属性和关系等信息。存储器可以采用不同的技术,如图数据库、关系数据库或者其他适合存储大规模图数据的存储系统。利用处理器执行计算机程序,并进行知识图谱的相关处理操作。处理器可以对存储器中的数据进行查询、分析和计算,以构建、更新和优化知识图谱。它包括了各种算法和方法,以实现知识图谱的构建过程。利用计算机程序,使用存储在存储器上并在处理器上运行的软件程序。该程序负责实现具体的知识图谱构建方法,如实体识别、关系抽取、知识融合、知识推理等。通过编程和算法设计,计算机程序能够处理输入数据、执行相应的操作,并产生输出结果。
实施例四
一种计算机存储介质,存储有计算机程序,计算机程序被处理器执行时,实现实施例一和实施例二中的知识图谱构建方法。
具体实施过程如下:计算机存储介质可以是硬盘、固态硬盘、闪存驱动器和光盘等。其存储有实现知识图谱构建方法的计算机程序,这些程序被处理器执行时,能够对数据进行相应的操作和计算,以实现知识图谱的构建。该计算机程序可以包括各种模块和算法,用于实现知识图谱构建过程中的不同任务,如数据预处理、实体识别、关系抽取、知识融合、知识推理等。由此实现知识图谱构建方法所需的计算机程序,通过处理器的执行,能够将原始数据转化为结构化的知识表示,进而构建出完整的知识图谱。
以上所述的仅是本发明的实施例,方案中公知的具体结构和/或特性等常识在此未作过多描述。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (10)
1.一种知识图谱构建方法,其特征在于:包括如下步骤:
步骤一,收集整理知识:收集和整理公司项目和文档的数据,并将这些数据转换为结构化的形式;
步骤二,实体识别与关系抽取:使用自然语言处理和信息抽取技术,对文档中的实体进行识别和抽取;同时,抽取实体之间的关系;
步骤三,知识建模:将抽取的实体和关系转化为图谱的节点和边;利用节点表示实体、边表示实体之间的关系,并使用图数据库Neo4j来存储和管理图谱数据;
步骤四,图谱构建:根据已有的数据,逐步构建初始的知识图谱;同时,可以结合外部数据源;
步骤五,知识推理与分析:利用图谱的结构和关系,进行知识推理和分析;
步骤六,可视化展示:将知识图谱以直观的方式展示给用户,并进行交互操作。
2.根据权利要求1所述的知识图谱构建方法,其特征在于:步骤一中,公司项目和文档的数据包括但不限于项目计划、需求文档、设计文档和测试报告。
3.根据权利要求2所述的知识图谱构建方法,其特征在于:步骤二中,对文档中的实体进行识别和抽取包括但不限于项目名称、人员名称和关键术语;实体之间的关系包括但不限于人员的关联和需求与设计。
4.根据权利要求3所述的知识图谱构建方法,其特征在于:步骤四中,构建初始的知识图谱时,可以利用包括但不限于人工标注、规则引擎和机器学习的方法,辅助构建和扩展图谱;结合外部的数据源包括但不限于公司内部系统和公共数据集,丰富图谱的内容。
5.根据权利要求4所述的知识图谱构建方法,其特征在于:步骤五中,进行知识推理和分析的技术包括但不限于路径分析、相似性计算和关联规则挖掘。
6.根据权利要求5所述的知识图谱构建方法,其特征在于:步骤六中,将知识图谱以直观的方式展示给用户的方式包括但不限于通过图形、图表和搜索。
7.根据权利要求6所述的知识图谱构建方法,其特征在于:步骤六中,进行交互操作时,用户可以通过输入关键词、实体名称或属性条件来进行查询和搜索;用户可以浏览和导航知识图谱中的节点和边,通过点击节点或边来获取更多相关内容;用户可以根据需求对知识图谱中的实体或关系进行过滤和排序;用户可以使用图算法和可视化工具进行探索和发现;用户可以通过交互操作对知识图谱中的数据进行编辑和更新。
8.根据权利要求7所述的知识图谱构建方法,其特征在于:进行查询和搜索时,可以使用手势输入关键词或实体名称,并通过点击搜索按钮或者进行滑动手势来触发查询操作,若有多个搜索结果,用户可以使用滑动手势来切换和查看不同的结果;
进行浏览和导航时,用户可以使用手势在可视化界面上进行拖动和缩放操作,以导航和浏览知识图谱中的节点和边,通过捏合手势可以缩小图谱的显示范围,通过拖动手势可以移动图谱的位置;
进行过滤和排序时,在可视化界面中,用户可以使用滑动手势来调整某个属性的取值范围,以过滤符合条件的实体或关系,同时,用户可以使用手势双击某个属性列的标题,触发排序操作;
进行探索和发现时,用户可以在可视化界面中使用双指点击某个节点,从而展开该节点的相关信息;用户还可以使用手势进行路径搜索,路径搜索时将手指从一个节点拖动到另一个节点,系统会自动寻找两个节点之间的最短路径;
进行编辑和更新时,用户可以长按某个节点或边进行拖动,当该节点或边拖动至指定位置时,可以进行删除或修改操作;用户还可以使用划动手势,在屏幕上的空白位置画出圆圈以添加新的节点,用户还可以将两个或多个节点圈入一个圆圈内,将圆圈内的节点进行连接。
9.一种知识图谱构建平台,其特征在于:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现权利要求1至8中任意一项中的知识图谱构建方法。
10.一种计算机存储介质,其特征在于:存储有计算机程序,计算机程序被处理器执行时,实现如权利要求1至8中任意一项中的知识图谱构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310959565.1A CN116881476A (zh) | 2023-08-01 | 2023-08-01 | 一种知识图谱构建方法、平台及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310959565.1A CN116881476A (zh) | 2023-08-01 | 2023-08-01 | 一种知识图谱构建方法、平台及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116881476A true CN116881476A (zh) | 2023-10-13 |
Family
ID=88266323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310959565.1A Pending CN116881476A (zh) | 2023-08-01 | 2023-08-01 | 一种知识图谱构建方法、平台及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116881476A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117112807A (zh) * | 2023-10-23 | 2023-11-24 | 浙江大学 | 基于力学模型的知识图谱关联信息焦点可视化方法及系统 |
CN117112809A (zh) * | 2023-10-25 | 2023-11-24 | 卓世科技(海南)有限公司 | 一种知识追踪方法及系统 |
CN118227804A (zh) * | 2024-05-27 | 2024-06-21 | 江西微博科技有限公司 | 一种基于知识图谱实现事项办理的智能导航方法 |
-
2023
- 2023-08-01 CN CN202310959565.1A patent/CN116881476A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117112807A (zh) * | 2023-10-23 | 2023-11-24 | 浙江大学 | 基于力学模型的知识图谱关联信息焦点可视化方法及系统 |
CN117112807B (zh) * | 2023-10-23 | 2024-01-30 | 浙江大学 | 基于力学模型的知识图谱关联信息焦点可视化方法及系统 |
CN117112809A (zh) * | 2023-10-25 | 2023-11-24 | 卓世科技(海南)有限公司 | 一种知识追踪方法及系统 |
CN117112809B (zh) * | 2023-10-25 | 2024-01-26 | 卓世科技(海南)有限公司 | 一种知识追踪方法及系统 |
CN118227804A (zh) * | 2024-05-27 | 2024-06-21 | 江西微博科技有限公司 | 一种基于知识图谱实现事项办理的智能导航方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10853383B2 (en) | Interactive parallel coordinates visualizations | |
US20200019548A1 (en) | Interactive punchcard visualizations | |
US8296666B2 (en) | System and method for interactive visual representation of information content and relationships using layout and gestures | |
US11037342B1 (en) | Visualization modules for use within a framework for displaying interactive visualizations of event data | |
Falconer et al. | Interactive techniques to support ontology matching | |
CN116881476A (zh) | 一种知识图谱构建方法、平台及计算机存储介质 | |
US20020049705A1 (en) | Method for creating content oriented databases and content files | |
Desimoni et al. | Empirical evaluation of linked data visualization tools | |
US10861202B1 (en) | Sankey graph visualization for machine data search and analysis system | |
Fernandez et al. | Robotic process automation: bibliometric reflection and future opportunities | |
CN111191047A (zh) | 一种面向人机协作拆卸任务的知识图谱构建方法 | |
EP1667034A2 (en) | System and method for interactive multi-dimensional visual representation of information content and properties | |
US20230244218A1 (en) | Data Extraction in Industrial Automation Systems | |
Gou et al. | SocialNetSense: supporting sensemaking of social and structural features in networks with interactive visualization | |
CN110069668B (zh) | 一种基于农业大数据知识库管理系统及其功能设计方法 | |
Chan et al. | Interactive visual analysis of hierarchical enterprise data | |
Roith et al. | Supporting the building design process with graph-based methods using centrally coordinated federated databases | |
Rinker et al. | A multi-model reviewing approach for production systems engineering models | |
Zhang et al. | MEGAnno: Exploratory labeling for NLP in computational notebooks | |
CA2528506A1 (en) | System and method for interactive multi-dimensional visual representation of information content and properties | |
Pretorius | Lexon visualization: visualizing binary fact types in ontology bases | |
Gujral et al. | Knowledge Graphs: Connecting Information over the Semantic Web | |
Krasic et al. | Big data and business intelligence: research and challenges in telecom industry | |
CA2528555A1 (en) | System and method for interactive visual representation of information content and relationships using layout and gestures | |
Naveen et al. | Geospatial semantic information modeling: Concepts and research issues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |