CN115017335A - 知识图谱构建方法和系统 - Google Patents
知识图谱构建方法和系统 Download PDFInfo
- Publication number
- CN115017335A CN115017335A CN202210686237.4A CN202210686237A CN115017335A CN 115017335 A CN115017335 A CN 115017335A CN 202210686237 A CN202210686237 A CN 202210686237A CN 115017335 A CN115017335 A CN 115017335A
- Authority
- CN
- China
- Prior art keywords
- triples
- knowledge graph
- text
- knowledge
- open
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims abstract description 58
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000003860 storage Methods 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000002688 persistence Effects 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 15
- 238000003058 natural language processing Methods 0.000 description 9
- 239000003607 modifier Substances 0.000 description 8
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005054 agglomeration Methods 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Marketing (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种知识图谱构建方法和系统以及电子设备、存储介质,包括设置新词发现算法,并组织专用名词以及开放知识图谱作为分词识别的数据库;获取输入的文本,基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果;在开放知识图谱中查询与抽取的三元组对应节点相关的三元组,并将所有三元组组成新的知识图谱。本申请解决了相关技术中的数据依赖问题,实现自动从海量营销领域文本中抽取、构建知识图谱。
Description
技术领域
本发明涉及知识图谱构建技术领域,具体涉及一种知识图谱构建方法和系统以及电子设备、存储介质。
背景技术
目前的OIE技术大都依赖于自然语言处理(Natural Language Processing,NLP)技术,目前的知识抽取到图谱构建的过程分为如下几个步骤:
1、定义领域中的本体(ontology)关系,包含:定义领域内存在的实体类型、定义实体之间存在的链接关系;
2、标注一部分所在领域文本词汇的实体类型,使用NLP技术中的实体识别技术,训练实体识别模型,以抽取海量文本中符合本体定义的命名实体;
3、标注一部分所在领域文本实体词汇之间的关系类型,使用NLP技术中的关系预测技术,训练关系预测模型,以对海量文本中的命名实体建立关系链接;
4、对已抽取的命名实体以及实体关系链接对齐到预先定义的图谱本体中,完成知识图谱的抽取与构建。
如上过程中,业界存在分步式的实体识别到关系预测的技术方案,也存在端到端的实体与关系同步抽取的技术方案。但是,其本质上是一种有监督深度学习技术,其中依赖大量的领域标注语料,而在开放的语料数据集中没有针对营销领域标注的中文语料,人工标注海量营销文本会耗费大量人力与时间,这使得营销场景的知识抽取陷入数据困境。
因此本专利结合了多种自然语言处理技术与预训练语言模型(PreTrainLanguage Model,PLM),声明了一种无监督的中文OIE技术,避免了数据依赖问题,可以自动从海量营销领域文本中抽取、构建知识图谱。
发明内容
本发明实施例的目的在于提供一种知识图谱构建方法和系统以及电子设备、存储介质,用以解决现有技术中的数据依赖问题,实现自动从海量营销领域文本中抽取、构建知识图谱。
为实现上述目的,本发明实施例提供一种知识图谱构建方法,包括:
设置新词发现算法,并组织专用名词以及开放知识图谱作为分词识别的数据库;
获取输入的文本,基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果;
在开放知识图谱中查询与抽取的三元组对应节点相关的三元组,并将所有三元组组成新的知识图谱。
进一步的,所述设置新词发现算法,并组织专用名词以及开放知识图谱作为分词识别的数据库,包括:
设置新词发现算法优化分词器,通过优化的分词器对文本进行专用领域中文分词;
获取专用领域的数据,将专用领域的专有名词加入优化的分词器的数据库;
获取开放社区的开放知识图谱,对其进行整理并加入数据库。
进一步的,所述获取输入的文本,基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果,包括:
获取输入的文本,并通过分词器对文本分词;
对分词后的文本进行句法解析,得到分出的词在文本的句中承担的主谓宾语法成分、成分依赖和词性;
将提取的包括主语、谓语、宾语在内的三元组持续化存储。
进一步的,所述在开放知识图谱中查询与抽取的三元组对应节点相关的三元组,并将所有三元组组成新的知识图谱,包括:
获取提取的三元组对应的节点,在开放知识图谱中查询相关的三元组并添加到三元组列表中;
连接三元组列表中的所有三元组称为新知识图谱,并存储在知识图谱的数据库中;
获取新文本时,自动抽取新的三元组加入知识图谱以更新构建的知识图谱。
一种知识图谱构建系统,包括:
前置处理模块,用于设置新词发现算法,并组织专用名词以及开放知识图谱作为分词识别的数据库;
三元组提取模块,用于获取输入的文本,基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果;
知识图谱构建模块,用于在开放知识图谱中查询与抽取的三元组对应节点相关的三元组,并将所有三元组组成新的知识图谱。
进一步的,所述前置处理模块,包括:
专用领域分词单元,用于设置新词发现算法优化分词器,通过优化的分词器对文本进行专用领域中文分词;
专有名词准备单元,用于获取专用领域的数据,将专用领域的专有名词加入优化的分词器的数据库;
开放知识图谱整理单元,用于获取开放社区的开放知识图谱,对其进行整理并加入数据库。
进一步的,所述三元组提取模块,包括
文本获取单元,用于获取输入的文本,并通过分词器对文本分词;
文本解析单元,用于对分词后的文本进行句法解析,得到分出的词在文本的句中承担的主谓宾语法成分、成分依赖和词性;
持续化存储单元,用于将提取的包括主语、谓语、宾语在内的三元组持续化存储。
进一步的,所述知识图谱构建模块,包括:
三元组添加单元,用于获取提取的三元组对应的节点,在开放知识图谱中查询相关的三元组并添加到三元组列表中;
三元组连接单元,用于连接三元组列表中的所有三元组称为新知识图谱,并存储在知识图谱的数据库中;
知识图谱更新单元,用于获取新文本时,自动抽取新的三元组加入知识图谱以更新构建的知识图谱。
一种电子设备,包括存储器和处理器,所述存储器存储计算机程序,其特征在于,所述计算机程序在所述处理器中执行可实现上述中任一种方法。
一种存储介质,存储计算机程序,其特征在于,所述计算机程序在处理器中执行可实现上述中任一种方法。
本发明实施例具有如下优点:
1、摆脱了有监督的图谱构建过程中对数据标注的依赖;
2、能够自发性的在数据中获取领域知识,而非人工预先定义;
3、充分利用了PLM、开放知识,在知识丰富度上本营销领域图谱比传统预定义的图谱要广泛;
4、实现了结合内部营销领域知识、外部开放知识来共同服务下游任务。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例提供的知识图谱构建方法的流程示意图。
图2为本发明实施例提供的知识图谱信息的示意图。
图3为本发明实施例提供的知识图谱构建结果的示意图。
图4为本发明实施例提供的知识图谱构建系统的示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本申请技术方案提供一种知识图谱构建方法,如图1所示,包括:
S100、设置新词发现算法,并组织专用名词以及开放知识图谱作为分词识别的数据库;
S200、获取输入的文本,基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果;
S300、在开放知识图谱中查询与抽取的三元组对应节点相关的三元组,并将所有三元组组成新的知识图谱。
在进一步的此实施例中,所述设置新词发现算法,并组织专用名词以及开放知识图谱作为分词识别的数据库,包括:
S110、设置新词发现算法优化分词器,通过优化的分词器对文本进行专用领域中文分词;
S120、获取专用领域的数据,将专用领域的专有名词加入优化的分词器的数据库;
S130、获取开放社区的开放知识图谱,对其进行整理并加入数据库。
在更进一步的此实施例中,新词发现算法是一种基于统计的、无监督的NLP算法,包括:
首先,按照一定的窗口n,在语料文本字符串序列上进行滑动获取长度为窗口n的候选字符序列;
计算每个候选字符序列出现的频率,以及该候选字符序列的左右信息熵、候选字符序列互信息,
其中左右信息熵衡量了候选字符序列的左右文字的变化程度,词汇的左右变化程度都非常高;
其中互信息衡量了候选字符序列的内部凝聚程度,词汇的内部字符相关性凝聚度都非常高;
按照一定的阈值在如上衡量指标上进行筛选,最终将符合阈值规则的候选字符序列判定为领域词汇;
最后通过添加分词词典的方式来优化通用分词器。经过如上新词发现技术优化分词器,“618电商节”将被划分为一个词汇“618电商节”。
在进一步的此实施例中,所述获取输入的文本,基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果,包括:
S210、获取输入的文本,并通过分词器对文本分词;
S220、对分词后的文本进行句法解析,得到分出的词在文本的句中承担的主谓宾语法成分、成分依赖和词性;
S230、将提取的包括主语、谓语、宾语在内的三元组持续化存储。
在更进一步的此实施例中,对分词后的文本进行句法解析,得到分出的词在文本的句中承担的主谓宾语法成分、成分依赖和词性,包括:
当句子中存在主谓宾结构,而且主语是一个实体词并该实体类型存在于营销领域实体类型列表中,那么针对主语、宾语在其上下文上搜索前置形容词、副词的修饰,以构建完整的知识性短语,将【修饰词+主语,谓语,修饰词+宾语】三元组作为知识抽取结果进行存储;
当句子中存在指代结构,那么同样对主语和指代词进行修饰补充,将【修饰词+主语,“是”,修饰词+指代词】三元组作为知识抽取结果进行存储;
当句子中存在通用实体类型,且该实体类型存在于营销领域实体类型列表中,将【案例ID,“提及”,实体词】三元组作为知识抽取结果进行存储。
在进一步的此实施例中,所述在开放知识图谱中查询与抽取的三元组对应节点相关的三元组,并将所有三元组组成新的知识图谱,如图2所示,包括:
S310、获取提取的三元组对应的节点,在开放知识图谱中查询相关的三元组并添加到三元组列表中;
S320、连接三元组列表中的所有三元组称为新知识图谱,并存储在知识图谱的数据库中;
S330、获取新文本时,自动抽取新的三元组加入知识图谱以更新构建的知识图谱。
实施例2
本发明实施例还提供一种知识图谱构建方法。
本申请的知识图谱构建方法,包括:
S100、前置处理。
如图1所示,数据来源于已存储的海量营销案例文本。
S110、专用领域中文分词。
中文自然语言处理技术中,分词技术是基础且核心的部分。分词是指(分割文本中在文法上有其特殊性而存在的词汇),分词的正确与否影响着下游任务的部分能力,通用的中文分词技术可以处理大部分文本分词,但是对专用领域的文本分词性能差强人意,易将领域词汇分错,例如营销领域中“618电商节”这一营销领域词,使用通用分词器会被分为【“618”、“电商”、“节”】,对后续的知识抽取的准确性有很大的影响。
针对这个问题,本专利使用了新词发现技术来从领域文本中自动识别出可能为领域专用词汇的字符串。这是知识抽取过程中保证准确性的重要一步。
其中,新词发现技术是一种基于统计的、无监督的NLP算法:
首先,按照一定的窗口n,在语料文本字符串序列上进行滑动获取长度为窗口n的候选字符序列;
计算每个候选字符序列出现的频率,以及该候选字符序列的左右信息熵、候选字符序列互信息,
其中左右信息熵衡量了候选字符序列的左右文字的变化程度,词汇的左右变化程度都非常高;
其中互信息衡量了候选字符序列的内部凝聚程度,词汇的内部字符相关性凝聚度都非常高;
按照一定的阈值在如上衡量指标上进行筛选,最终将符合阈值规则的候选字符序列判定为领域词汇;
最后通过添加分词词典的方式来优化通用分词器。经过如上新词发现技术优化分词器,“618电商节”将被划分为一个词汇“618电商节”。
S120、已知专用词汇准备
营销领域中,有部分已结构化的数据,如品牌、明星等,将这些专用名词组织起来并加入分词器,将提升分词、命名实体识别能力。
S130、开放中文知识图谱
开源社区公布了1.4亿中文开放知识图谱,包含通用领域的大量知识,如人物关系、企业详情、自然科学等知识,该开放知识图谱经过对齐后将用于后续知识扩展、修正。
S200、OIE提取器。
Spacy是一款开源NLP工具,其基于开源PLM预训练语言模型,实现了句法解析、通用命名实体识别能力。本专利基于该开源工具实现营销领域OIE提取器构建句法模式挖掘方法,其主要步骤如下:
S210、输入一条营销领域文本。
S220、对该文本进行分词。
S230、对该文本进行句法解析,解析出文本中每个词在句子中承担的主谓宾语法成分、成分依赖、词性,包括:
S231、若,句子中存在主谓宾结构,而且主语是一个实体词并该实体类型存在于营销领域实体类型列表中,那么针对主语、宾语在其上下文上搜索前置形容词、副词的修饰,以构建完整的知识性短语,将【修饰词+主语,谓语,修饰词+宾语】三元组作为知识抽取结果进行存储;
S232、若,句子中存在指代结构,那么同样对主语和指代词进行修饰补充,将【修饰词+主语,“是”,修饰词+指代词】三元组作为知识抽取结果进行存储;
S233、若,句子中存在通用实体类型,且该实体类型存在于营销领域实体类型列表中,将【案例ID,“提及”,实体词】三元组作为知识抽取结果进行存储。
S240、如上,三种方法可提取出以案例ID为中心的三元组子图,该文本提取的所有三元组持久化存储,作为后续构建图谱的数据。
S300、开放领域知识对齐。
在如上已抽取的三元组中,对每个节点,在开放知识图谱中查询,寻找与其相关的三元组,添加到三元组列表中。
S400、构建知识图谱。
对所有以上步骤获取的三元组,打通链接,组织成最终的图谱,存储在图数据库Neo4j中。
S500、图谱自动更新。
每日对新增营销案例执行OIE和开放领域知识对齐操作,将新抽取的三元组加入已存在的图谱中。
构建的图谱信息如图2所示,构建的图谱结果如图3所示。
实施例3
提供一种知识图谱构建系统,如图4所示,包括:
前置处理模块,用于设置新词发现算法,并组织专用名词以及开放知识图谱作为分词识别的数据库;
三元组提取模块,用于获取输入的文本,基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果;
知识图谱构建模块,用于在开放知识图谱中查询与抽取的三元组对应节点相关的三元组,并将所有三元组组成新的知识图谱。
在进一步的此实施例中,所述前置处理模块,包括:
专用领域分词单元,用于设置新词发现算法优化分词器,通过优化的分词器对文本进行专用领域中文分词;
专有名词准备单元,用于获取专用领域的数据,将专用领域的专有名词加入优化的分词器的数据库;
开放知识图谱整理单元,用于获取开放社区的开放知识图谱,对其进行整理并加入数据库。
在进一步的此实施例中,所述三元组提取模块,包括
文本获取单元,用于获取输入的文本,并通过分词器对文本分词;
文本解析单元,用于对分词后的文本进行句法解析,得到分出的词在文本的句中承担的主谓宾语法成分、成分依赖和词性;
持续化存储单元,用于将提取的包括主语、谓语、宾语在内的三元组持续化存储。
在进一步的此实施例中,所述知识图谱构建模块,包括:
三元组添加单元,用于获取提取的三元组对应的节点,在开放知识图谱中查询相关的三元组并添加到三元组列表中;
三元组连接单元,用于连接三元组列表中的所有三元组称为新知识图谱,并存储在知识图谱的数据库中;
知识图谱更新单元,用于获取新文本时,自动抽取新的三元组加入知识图谱以更新构建的知识图谱。
实施例4
本发明实施例,还包括一种电子设备,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序在所述处理器中执行时用于实现上述的知识图谱构建方法,该方法包括:
S100、设置新词发现算法,并组织专用名词以及开放知识图谱作为分词识别的数据库;
S200、获取输入的文本,基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果;
S300、在开放知识图谱中查询与抽取的三元组对应节点相关的三元组,并将所有三元组组成新的知识图谱。
实施例5
本发明实施例还提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的知识图谱构建方法,该方法包括:
S100、设置新词发现算法,并组织专用名词以及开放知识图谱作为分词识别的数据库;
S200、获取输入的文本,基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果;
S300、在开放知识图谱中查询与抽取的三元组对应节点相关的三元组,并将所有三元组组成新的知识图谱。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种知识图谱构建方法,其特征在于,包括:
设置新词发现算法,并组织专用名词以及开放知识图谱作为分词识别的数据库;
获取输入的文本,基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果;
在开放知识图谱中查询与抽取的三元组对应节点相关的三元组,并将所有三元组组成新的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述设置新词发现算法,并组织专用名词以及开放知识图谱作为分词识别的数据库,包括:
设置新词发现算法优化分词器,通过优化的分词器对文本进行专用领域中文分词;
获取专用领域的数据,将专用领域的专有名词加入优化的分词器的数据库;
获取开放社区的开放知识图谱,对其进行整理并加入数据库。
3.根据权利要求1所述的方法,其特征在于,所述获取输入的文本,基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果,包括:
获取输入的文本,并通过分词器对文本分词;
对分词后的文本进行句法解析,得到分出的词在文本的句中承担的主谓宾语法成分、成分依赖和词性;
将提取的包括主语、谓语、宾语在内的三元组持续化存储。
4.根据权利要求1所述的方法,其特征在于,所述在开放知识图谱中查询与抽取的三元组对应节点相关的三元组,并将所有三元组组成新的知识图谱,包括:
获取提取的三元组对应的节点,在开放知识图谱中查询相关的三元组并添加到三元组列表中;
连接三元组列表中的所有三元组称为新知识图谱,并存储在知识图谱的数据库中;
获取新文本时,自动抽取新的三元组加入知识图谱以更新构建的知识图谱。
5.一种知识图谱构建系统,其特征在于,包括:
前置处理模块,用于设置新词发现算法,并组织专用名词以及开放知识图谱作为分词识别的数据库;
三元组提取模块,用于获取输入的文本,基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果;
知识图谱构建模块,用于在开放知识图谱中查询与抽取的三元组对应节点相关的三元组,并将所有三元组组成新的知识图谱。
6.根据权利要求5所述的系统,其特征在于,所述前置处理模块,包括:
专用领域分词单元,用于设置新词发现算法优化分词器,通过优化的分词器对文本进行专用领域中文分词;
专有名词准备单元,用于获取专用领域的数据,将专用领域的专有名词加入优化的分词器的数据库;
开放知识图谱整理单元,用于获取开放社区的开放知识图谱,对其进行整理并加入数据库。
7.根据权利要求5所述的系统,其特征在于,所述三元组提取模块,包括
文本获取单元,用于获取输入的文本,并通过分词器对文本分词;
文本解析单元,用于对分词后的文本进行句法解析,得到分出的词在文本的句中承担的主谓宾语法成分、成分依赖和词性;
持续化存储单元,用于将提取的包括主语、谓语、宾语在内的三元组持续化存储。
8.根据权利要求5所述的系统其特征在于,所述知识图谱构建模块,包括:
三元组添加单元,用于获取提取的三元组对应的节点,在开放知识图谱中查询相关的三元组并添加到三元组列表中;
三元组连接单元,用于连接三元组列表中的所有三元组称为新知识图谱,并存储在知识图谱的数据库中;
知识图谱更新单元,用于获取新文本时,自动抽取新的三元组加入知识图谱以更新构建的知识图谱。
9.一种电子设备,包括存储器和处理器,所述存储器存储计算机程序,其特征在于,所述计算机程序在所述处理器中执行可实现权利要求1至4中任一种方法。
10.一种存储介质,存储计算机程序,其特征在于,所述计算机程序在处理器中执行可实现权利要求1至4中任一种方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210686237.4A CN115017335A (zh) | 2022-06-16 | 2022-06-16 | 知识图谱构建方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210686237.4A CN115017335A (zh) | 2022-06-16 | 2022-06-16 | 知识图谱构建方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115017335A true CN115017335A (zh) | 2022-09-06 |
Family
ID=83074173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210686237.4A Pending CN115017335A (zh) | 2022-06-16 | 2022-06-16 | 知识图谱构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017335A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115271683A (zh) * | 2022-09-26 | 2022-11-01 | 西南交通大学 | 基于标准知识图谱元结构的bim自动标准审查系统 |
CN116882494A (zh) * | 2023-09-07 | 2023-10-13 | 山东山大鸥玛软件股份有限公司 | 面向专业文本的无监督知识图构建方法和装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509420A (zh) * | 2018-03-29 | 2018-09-07 | 赵维平 | 古谱及古文化知识图谱自然语言处理方法 |
CN110555153A (zh) * | 2019-08-20 | 2019-12-10 | 暨南大学 | 一种基于领域知识图谱的问答系统及其构建方法 |
CN110853625A (zh) * | 2019-09-18 | 2020-02-28 | 厦门快商通科技股份有限公司 | 语音识别模型分词训练方法、系统、移动终端及存储介质 |
CN111353050A (zh) * | 2019-12-27 | 2020-06-30 | 北京合力亿捷科技股份有限公司 | 一种电信客服垂直领域的词库构建方法及工具 |
CN111931501A (zh) * | 2020-09-22 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本挖掘方法、相关装置及设备 |
CN112699665A (zh) * | 2021-03-25 | 2021-04-23 | 北京智源人工智能研究院 | 一种安全报告文本的三元组抽取方法、装置及电子设备 |
CN112732934A (zh) * | 2021-01-11 | 2021-04-30 | 国网山东省电力公司电力科学研究院 | 电网设备分词词典和故障案例库构建方法 |
CN112818694A (zh) * | 2021-03-02 | 2021-05-18 | 浙江工业大学 | 一种基于规则和改进预训练模型的命名实体识别方法 |
CN113486189A (zh) * | 2021-06-08 | 2021-10-08 | 广州数说故事信息科技有限公司 | 一种开放性知识图谱挖掘方法及系统 |
CN114117070A (zh) * | 2021-11-19 | 2022-03-01 | 重庆电子工程职业学院 | 一种知识图谱的构建方法、系统及存储介质 |
CN114328951A (zh) * | 2021-12-15 | 2022-04-12 | 广东工业大学 | 一种融合信息获取和三元组抽取的知识图谱构建方法 |
CN114462401A (zh) * | 2022-01-12 | 2022-05-10 | 车智互联(北京)科技有限公司 | 一种针对领域的新词发现方法及计算设备 |
CN114611486A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息抽取引擎的生成方法及装置、电子设备 |
-
2022
- 2022-06-16 CN CN202210686237.4A patent/CN115017335A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509420A (zh) * | 2018-03-29 | 2018-09-07 | 赵维平 | 古谱及古文化知识图谱自然语言处理方法 |
CN110555153A (zh) * | 2019-08-20 | 2019-12-10 | 暨南大学 | 一种基于领域知识图谱的问答系统及其构建方法 |
CN110853625A (zh) * | 2019-09-18 | 2020-02-28 | 厦门快商通科技股份有限公司 | 语音识别模型分词训练方法、系统、移动终端及存储介质 |
CN111353050A (zh) * | 2019-12-27 | 2020-06-30 | 北京合力亿捷科技股份有限公司 | 一种电信客服垂直领域的词库构建方法及工具 |
CN111931501A (zh) * | 2020-09-22 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本挖掘方法、相关装置及设备 |
CN112732934A (zh) * | 2021-01-11 | 2021-04-30 | 国网山东省电力公司电力科学研究院 | 电网设备分词词典和故障案例库构建方法 |
CN112818694A (zh) * | 2021-03-02 | 2021-05-18 | 浙江工业大学 | 一种基于规则和改进预训练模型的命名实体识别方法 |
CN112699665A (zh) * | 2021-03-25 | 2021-04-23 | 北京智源人工智能研究院 | 一种安全报告文本的三元组抽取方法、装置及电子设备 |
CN113486189A (zh) * | 2021-06-08 | 2021-10-08 | 广州数说故事信息科技有限公司 | 一种开放性知识图谱挖掘方法及系统 |
CN114117070A (zh) * | 2021-11-19 | 2022-03-01 | 重庆电子工程职业学院 | 一种知识图谱的构建方法、系统及存储介质 |
CN114328951A (zh) * | 2021-12-15 | 2022-04-12 | 广东工业大学 | 一种融合信息获取和三元组抽取的知识图谱构建方法 |
CN114462401A (zh) * | 2022-01-12 | 2022-05-10 | 车智互联(北京)科技有限公司 | 一种针对领域的新词发现方法及计算设备 |
CN114611486A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息抽取引擎的生成方法及装置、电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115271683A (zh) * | 2022-09-26 | 2022-11-01 | 西南交通大学 | 基于标准知识图谱元结构的bim自动标准审查系统 |
CN115271683B (zh) * | 2022-09-26 | 2023-01-13 | 西南交通大学 | 基于标准知识图谱元结构的bim自动标准审查系统 |
CN116882494A (zh) * | 2023-09-07 | 2023-10-13 | 山东山大鸥玛软件股份有限公司 | 面向专业文本的无监督知识图构建方法和装置 |
CN116882494B (zh) * | 2023-09-07 | 2023-11-28 | 山东山大鸥玛软件股份有限公司 | 面向专业文本的无监督知识图构建方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109388795B (zh) | 一种命名实体识别方法、语言识别方法及系统 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
CN111737496A (zh) | 一种电力设备故障知识图谱构建方法 | |
CN115017335A (zh) | 知识图谱构建方法和系统 | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN111091009B (zh) | 一种基于语义分析的文档关联审核方法 | |
CN112417891B (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
CN109614493B (zh) | 一种基于监督词向量的文本缩写识别方法及系统 | |
CN112528653B (zh) | 短文本实体识别方法和系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN113886527A (zh) | 一种自然语言语义提取方法和系统 | |
CN115713072A (zh) | 一种基于提示学习和上下文感知的关系类别推断系统及方法 | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及系统 | |
CN104572632B (zh) | 一种确定具有专名译文的词汇的翻译方向的方法 | |
CN115618883A (zh) | 一种业务语义识别方法及装置 | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
CN111737541A (zh) | 一种支持多语言的语义识别评估方法 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN114996462A (zh) | 基于人机协作的科技文献专业知识候选挖掘方法及系统 | |
CN116521829A (zh) | 图谱问答方法及装置、设备、存储介质 | |
CN113656556A (zh) | 一种文本特征抽取方法及知识图谱构建方法 | |
CN113486666A (zh) | 一种医学命名实体识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |