CN113268602A - 一种组织知识图谱构建方法及装置 - Google Patents
一种组织知识图谱构建方法及装置 Download PDFInfo
- Publication number
- CN113268602A CN113268602A CN202110333447.0A CN202110333447A CN113268602A CN 113268602 A CN113268602 A CN 113268602A CN 202110333447 A CN202110333447 A CN 202110333447A CN 113268602 A CN113268602 A CN 113268602A
- Authority
- CN
- China
- Prior art keywords
- knowledge graph
- organization
- entities
- entity
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 28
- 230000008520 organization Effects 0.000 claims abstract description 33
- 238000013499 data model Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 4
- 238000007667 floating Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机技术领域,尤其涉及一种组织知识图谱构建方法及装置。一种组织知识图谱构建方法,根据包括实体、属性和关系的数据信息,建立数据模型,根据建立的数据模型构建知识图谱,通过构建的知识图谱进行数据检索。利用齐普父省力法则,提取组织论文的高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱,使得知识图谱检索足够精准。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种组织知识图谱构建方法及装置。
背景技术
信息技术的发展不断推动着互联网技术的变革,搜索引擎由于使得用户寻找信息的范围缩小,已经成为人们查找海量信息不可或缺的工具。
论文的关键词是文章主要意思的集中体现与核心内容的提炼,根据齐普父省力法则,分析词频分布规律可以掌握该领域的研究热点和前言,通过关键词出现的次数可以找出高频关键词,通过关键词进行聚类合并探测突变关键词,可以把握组织知识的研究热点和发展前沿。
但是,在高频关键词中,很多的论文都会出现“组织的建设”或/和“组织”等不具有区别的关键词,这样导致知识图谱检索不够精准。
发明内容
为了克服现有技术存在的缺点,本发明提供一种组织知识图谱构建方法及装置,利用齐普父省力法则,提取组织论文的高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱。
为达此目的,本发明采用以下技术方案:
本发明提供了一种组织知识图谱构建方法,根据包括实体、属性和关系的数据信息,建立数据模型,根据建立的数据模型构建知识图谱,通过构建的知识图谱进行数据检索,所述实体包括高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱。
作为上述技术方案的进一步改进,对预先确定的数据信息进行爬取,提取从中的高频关键词,把“组织的建设”或“组织”的高频关键词去除,再将同义的关键词合并为一个词。
作为上述技术方案的进一步改进,所述实体包括关键词实体、组织事件实体和单位实体;
其中,所述关键词实体包括“思想体系”、“非公有制企业”、“三大法宝”、“领导人”、“流动组员”、“廉政建设”、“领导小组”、“大学生组员”和“活动”;
所述组织事件实体包括活动事件、体育事件、和文化事件;
所述单位实体包括地方委员会、地方教育机关、地方党校和地方高校。
作为上述技术方案的进一步改进,所述实体包括以下一种或一种以上属性:
内容属性和主键属性;
其中,所述主键属性用于区分各实体,所述内容属性包括从所述数据信息提取的属性值;所述属性值包括以下一种或一种以上的属性信息:所属样本、地理位置、发生时间。
作为上述技术方案的进一步改进,所述关系包括职级关系和关键词词义关联关系。
本发明提供了一种基于组织知识图谱的构建装置,包括:
创建单元,用于创建数据模型,所述数据模型中定义有至少一个实体,以及每一个所述实体对应的至少一个属性和至少一个关系;
数据处理单元:对预先确定的数据信息进行爬取,提取从中的高频关键词,把“组织的建设”或“组织”的高频关键词去除;
关键词融合单元:将同义的关键词合并为一个词。
本发明的有益效果为:利用齐普父省力法则,提取组织论文的高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱,使得知识图谱检索足够精准。
附图说明
图1为本实施例知识图谱的示意图。
图2为本实施例知识图谱构建装置的流程示意图
具体实施方式
现在将参照附图在下文中更全面地描述本发明,在附图中示出了本发明当前优选的实施方式。然而,本发明可以以许多不同的形式实施,并且不应被解释为限于本文所阐述的实施方式;而是为了透彻性和完整性而提供这些实施方式,并且这些实施方式将本发明的范围充分地传达给技术人员。
如图1所示,本实施例提供一种组织知识图谱构建方法,根据包括实体、属性和关系的数据信息,建立数据模型,根据建立的数据模型构建知识图谱,通过构建的知识图谱进行数据检索,所述实体包括高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱。
在本申请一个实施例中,对预先确定的数据信息进行爬取,提取从中的高频关键词,把“组织的建设”或“组织”的高频关键词去除,再将同义的关键词合并为一个词。
在本申请一个实施例中,所述实体包括关键词实体、组织事件实体和单位实体;
其中,所述关键词实体包括“思想体系”、“非公有制企业”、“三大法宝”、“领导人”、“流动组员”、“廉政建设”、“领导小组”、“大学生组员”和“活动”;
所述组织事件实体包括活动事件、体育事件、和文化事件;
所述单位实体包括地方委员会、地方教育机关、地方党校和地方高校。
作为上述技术方案的进一步改进,所述实体包括以下一种或一种以上属性:
内容属性和主键属性;
其中,所述主键属性用于区分各实体,所述内容属性包括从所述数据信息提取的属性值;所述属性值包括以下一种或一种以上的属性信息:所属样本、地理位置、发生时间。
在本申请一个实施例中,所述关系包括职级关系和关键词词义关联关系。
在本申请一个实施例中,实体包括组织事件、高频关键词、论文样本、作者、所属单位,配合单位、上级单位。
在本申请一个实施例中,所述作者属性包括职级、年龄、姓名。
在本申请一个实施例中,所述组织事件属性包括地理位置、时间。
在本申请一个实施例中,所述所属单位属性包括地理位置、领导小组。
利用齐普父省力法则,提取组织论文的高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱。
本实施例还提供种基于组织知识图谱的构建装置,包括:
创建单元,用于创建数据模型,所述数据模型中定义有至少一个实体,以及每一个所述实体对应的至少一个属性和至少一个关系;
数据处理单元:对预先确定的数据信息进行爬取,提取从中的高频关键词,把“组织的建设”或“组织”的高频关键词去除;
关键词融合单元:将同义的关键词合并为一个词。
在本申请实施例中,创建定义有至少一个实体及各实体对应的至少一个属性和至少一个关系的数据模型;针对各组织数据来源:采集当前医疗数据来源中的实体类字段内容、各属性类字段内容、各关系类字段内容,基于数据模型对采集到的各字段内容执行相应填充以构建出一知识图谱;针对构建出的各知识图谱:针对知识图谱中的关键词实体中的“组织的建设”或“组织”的高频关键词去除,再将同义的关键词合并为一个词,以便后续的检索。
以上所述实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种组织知识图谱构建方法,根据包括实体、属性和关系的数据信息,建立数据模型,根据建立的数据模型构建知识图谱,通过构建的知识图谱进行数据检索,其特征在于:
所述实体包括高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱。
2.根据权利要求1所述的一种组织知识图谱构建方法,其特征在于:
对预先确定的数据信息进行爬取,提取从中的高频关键词,把“组织的建设”或“组织”的高频关键词去除,再将同义的关键词合并为一个词。
3.根据权利要求2所述的一种组织知识图谱构建方法,其特征在于:
所述实体包括关键词实体、组织事件实体和单位实体;
其中,所述关键词实体包括“思想体系”、“非公有制企业”、“三大法宝”、“领导人”、“流动组员”、“廉政建设”、“领导小组”、“大学生组员”和“活动”;
所述组织事件实体包括活动事件、体育事件、和文化事件;
所述单位实体包括地方委员会、地方教育机关、地方党校和地方高校。
4.根据权利要求3所述的一种组织知识图谱构建方法,其特征在于,所述实体包括以下一种或一种以上属性:
内容属性和主键属性;
其中,所述主键属性用于区分各实体,所述内容属性包括从所述数据信息提取的属性值;所述属性值包括以下一种或一种以上的属性信息:所属样本、地理位置、发生时间。
5.根据权利要求3所述的一种组织知识图谱构建方法,其特征在于:
所述关系包括职级关系和关键词词义关联关系。
6.一种基于组织知识图谱的构建装置,其特征在于,包括:
创建单元,用于创建数据模型,所述数据模型中定义有至少一个实体,以及每一个所述实体对应的至少一个属性和至少一个关系;
数据处理单元:对预先确定的数据信息进行爬取,提取从中的高频关键词,把“组织的建设”或“组织”的高频关键词去除;
关键词融合单元:将同义的关键词合并为一个词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110333447.0A CN113268602A (zh) | 2021-03-29 | 2021-03-29 | 一种组织知识图谱构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110333447.0A CN113268602A (zh) | 2021-03-29 | 2021-03-29 | 一种组织知识图谱构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113268602A true CN113268602A (zh) | 2021-08-17 |
Family
ID=77228355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110333447.0A Pending CN113268602A (zh) | 2021-03-29 | 2021-03-29 | 一种组织知识图谱构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268602A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及系统 |
CN111737471A (zh) * | 2020-06-28 | 2020-10-02 | 中国农业科学院农业信息研究所 | 一种基于知识图谱的档案管理模型构建方法及系统 |
CN112069327A (zh) * | 2020-09-04 | 2020-12-11 | 西南大学 | 一种在线教育课堂教学资源的知识图谱构建方法及系统 |
CN112434169A (zh) * | 2020-11-13 | 2021-03-02 | 北京创业光荣信息科技有限责任公司 | 一种知识图谱的构建方法及其系统和计算机设备 |
-
2021
- 2021-03-29 CN CN202110333447.0A patent/CN113268602A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及系统 |
CN111737471A (zh) * | 2020-06-28 | 2020-10-02 | 中国农业科学院农业信息研究所 | 一种基于知识图谱的档案管理模型构建方法及系统 |
CN112069327A (zh) * | 2020-09-04 | 2020-12-11 | 西南大学 | 一种在线教育课堂教学资源的知识图谱构建方法及系统 |
CN112434169A (zh) * | 2020-11-13 | 2021-03-02 | 北京创业光荣信息科技有限责任公司 | 一种知识图谱的构建方法及其系统和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN107220295B (zh) | 一种人民矛盾调解案例搜索和调解策略推荐方法 | |
Inzalkar et al. | A survey on text mining-techniques and application | |
CN108305180B (zh) | 一种好友推荐方法及装置 | |
CN108549723B (zh) | 一种文本概念分类方法、装置及服务器 | |
CN111475625A (zh) | 基于知识图谱的新闻稿件生成方法及系统 | |
Shardlow | The cw corpus: A new resource for evaluating the identification of complex words | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
CN113779983B (zh) | 文本数据处理方法以及装置、存储介质、电子装置 | |
CN111966792A (zh) | 一种文本处理方法、装置、电子设备及可读存储介质 | |
Gong et al. | Phrase-based hashtag recommendation for microblog posts. | |
CN116304308A (zh) | 一种基于技术创新知识情境超网络的研发伙伴推荐方法 | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN107169065B (zh) | 一种特定内容的去除方法和装置 | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
Griazev et al. | Web mining taxonomy | |
CN113268602A (zh) | 一种组织知识图谱构建方法及装置 | |
CN115146030A (zh) | 一种基于知识图谱的公务文书写作方法及系统 | |
Tran et al. | A named entity recognition approach for tweet streams using active learning | |
Fuller et al. | Structuring, recording, and analyzing historical networks in the china biographical database | |
CN107783957B (zh) | 本体创建方法和装置 | |
Azman et al. | Towards an enhanced aspect-based contradiction detection approach for online review content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210817 |