CN111488468B - 地理信息知识点抽取方法、装置、存储介质及计算机设备 - Google Patents
地理信息知识点抽取方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN111488468B CN111488468B CN202010363296.9A CN202010363296A CN111488468B CN 111488468 B CN111488468 B CN 111488468B CN 202010363296 A CN202010363296 A CN 202010363296A CN 111488468 B CN111488468 B CN 111488468B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- entity
- corpus information
- geographic
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 122
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000003058 natural language processing Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 14
- 238000011160 research Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Remote Sensing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种地理信息知识点抽取方法、装置、存储介质及计算机设备,涉及知识图谱技术领域,主要目的在于能够通过地理知识图谱构建实体词典作为训练语料,从而减少人工标注语料,同时利用知识图谱推理进行深层语义分析,从而挖掘隐性知识点,提高地理信息知识点抽取准确率。所述方法包括:接收知识点抽取请求,所述请求中携带有待抽取语料信息;利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;利用所述知识实体和知识点响应所述知识点抽取请求。本发明适用于地理信息知识点的抽取。
Description
技术领域
本发明涉及知识图谱技术领域,特别是涉及一种地理信息知识点抽取方法、装置、存储介质及计算机设备。
背景技术
在地理信息大数据、测绘科技转型升级的大环境下,对地理信息知识服务有迫切的需求,但是由于文献载体中所包含的知识不能被自动化系统使用,也不能被人以很方便的方式进行管理,使得我们面临“数据海量,信息爆炸,知识难求”的局面。知识抽取技术,即从不同来源、不同结构的数据中进行知识提取,形成结构化知识数据,并存入到知识元库,可以为地理科技的发展提供强大的数据基础。
目前,面向文献的地理知识抽取研究成果较少,抽取方法通常以知识库结合机器学习及模式匹配为主。然而,这种方式需要依赖大量的手工标注语料,从而导致知识库的利用率低,且抽取过程只能进行浅层语义分析,知识点抽取结果准确率低。
发明内容
有鉴于此,本发明提供一种地理信息知识点抽取方法、装置、存储介质及计算机设备,主要目的在于能够通过地理知识图谱构建实体词典作为训练语料,从而减少人工标注语料,同时利用知识图谱推理进行深层语义分析,从而挖掘隐性知识点,提高知识点抽取准确率。
依据本发明一个方面,提供了一种地理信息知识点抽取方法,包括:
接收知识点抽取请求,所述请求中携带有待抽取语料信息;
利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;
基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;
利用所述知识实体和知识点响应所述知识点抽取请求。
进一步地,所述基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到所述知识实体的知识点,包括:
根据预先建立的抽取模板、预先构建的触发词库以及语料信息进行知识点抽取,得到知识点;
利用预设的知识图谱推理算法对所述知识点进行修正。
进一步地,所述利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体,包括:
利用预先训练的实体识别模型对所述语料信息进行实体识别,得到知识实体;
基于知识图谱的语义查询,对所述语料信息进行二次实体识别,并对得到的知识实体进行修正。
进一步地,所述方法还包括:
基于预先构建的地名本体以及所述语料信息进行地理实体识别和消歧,得到地理实体;
利用所述地理实体响应所述知识点抽取请求。
进一步地,所述基于预先构建的地名本体以及所述语料信息进行地理实体识别和消歧,得到地理实体,包括:
对所述语料信息进行自然语言处理;
对预先构建的地名本体进行本体解析,得到地名领域知识库;
根据所述地名领域知识库对所述自然语言处理后的语料信息进行地理解析,得到地理实体;
利用预设的歧义消除算法以及地名本体,对所述地理实体进行消歧,并进行地理编码。
进一步地,所述预先构建的触发词库,包括:
利用分词工具对所述语料信息进行处理,并对处理结果进行词性筛选,得到触发词;
通过word2vec词向量模型对所述触发词进行训练,构建词向量空间;
根据island算法以及获取的基础词表对所述词向量空间进行词族提取,得到触发词库。
进一步地,所述利用预先训练的实体识别模型对所述语料信息进行实体识别,得到知识实体之前,所述方法还包括:
利用获取的地理知识图谱生成实体词典,并利用所述实体词典构建特征集合;
根据条件随机场模型以及所述特征集合,训练实体识别模型。
依据本发明二个方面,提供了一种地理信息知识点抽取装置,包括:
接收单元,用于接收知识点抽取请求,所述请求中携带有待抽取语料信息;
识别单元,用于利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;
抽取单元,用于基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;
响应单元,用于利用所述知识实体和知识点响应所述知识点抽取请求。
进一步地,所述识别单元,包括:
第一识别模块,用于利用预先训练的实体识别模型对所述语料信息进行实体识别,得到知识实体;
第二识别模块,用于基于知识图谱的语义查询,对所述语料信息进行二次实体识别,并对得到的知识实体进行修正。
进一步地,所述装置还包括:消歧单元,
消歧单元,用于基于预先构建的地名本体以及所述语料信息进行地理实体识别和消歧,得到地理实体;
所述响应单元具体还用于利用所述地理实体响应所述知识点抽取请求。
进一步地,所述消歧单元,包括:
处理模块,用于对所述语料信息进行自然语言处理;
本体解析模块,对预先构建的地名本体进行本体解析,得到地名领域知识库;
地理解析模块,用于根据所述地名领域知识库对所述自然语言处理后的语料信息进行地理解析,得到地理实体;
消歧模块,用于利用预设的歧义消除算法以及地名本体,对所述地理实体进行消歧,并进行地理编码。
进一步地,为了构建触发词库,所述装置还包括构建单元,所述构建单元包括:
筛选模块,用于利用分词工具对所述语料信息进行处理,并对处理结果进行词性筛选,得到触发词;
训练模块,用于通过word2vec词向量模型对所述触发词进行训练,构建词向量空间;
提取模块,用于根据island算法以及获取的基础词表对所述词向量空间进行词族提取,得到触发词库。
进一步地,所述装置还包括:
生成单元,用于利用获取的地理知识图谱生成实体词典,并利用所述实体词典构建特征集合;
训练单元,用于根据条件随机场模型以及所述特征集合,训练实体识别模型。
依据本发明第三方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:接收知识点抽取请求,所述请求中携带有待抽取语料信息;利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;利用所述知识实体和知识点响应所述知识点抽取请求。
依据本发明第四方面,提供了一种计算机设备,包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下步骤:接收知识点抽取请求,所述请求中携带有待抽取语料信息;利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;利用所述知识实体和知识点响应所述知识点抽取请求。
本发明提供一种地理信息知识点抽取方法、装置、存储介质及计算机设备,与现有技术面向文献的地理知识抽取研究成果较少,抽取方法通常以知识库结合机器学习及模式匹配为主相比,本发明通过接收知识点抽取请求,所述请求中携带有待抽取语料信息;利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;利用所述知识实体和知识点响应所述知识点抽取请求。从而能够通过地理知识图谱构建实体词典作为训练语料,从而减少人工标注语料,同时利用知识图谱推理进行深层语义分析,从而挖掘隐性知识点,提高知识点抽取准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种知识点识别方法流程图;
图2示出了本发明实施例提供的一种基于实体词典和条件随机场模型的实体识别技术流程图;
图3示出了本发明实施例提供的一种地理信息知识点抽取技术流程图;
图4示出了本发明实施例提供的一种地理信息知识点识别装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如背景技术所述,目前,面向文献的地理知识抽取研究成果较少,抽取方法通常以知识库结合机器学习及模式匹配为主。然而,这种方式需要依赖大量的手工标注语料,从而导致知识库的利用率低,且抽取过程只能进行浅层语义分析,地理信息知识点抽取结果准确率低
为了解决上述问题,本发明实施例提供了一种地理信息知识点抽取方法,如图1所示,所述方法包括:
101、接收知识点抽取请求,所述请求中携带有待抽取语料信息。
其中,所述待抽取语料信息具体可以包括网页信息、文献信息等。具体地,接收知识点抽取请求后,可以解析所述请求,得到待抽取语料信息,所述语料信息可以为非结构化语料信息。
102、利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体。
其中,所述利用预设的实体识别算法对所述语料信息进行实体识别可以包括:对所述语料信息进行地理实体识别和知识实体识别。所述实体识别算法具体可以包括:通过预先训练的条件随机场模型对所述语料信息进行实体识别,得到知识实体;通过预先构建的本体对所述语料信息进行地理实体识别,得到地理实体。具体地,可以利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体。需要说明的是,本发明实施例可以通过条件随机场模型对实体进行自动识别,且可以利用地理知识图谱构建条件随机场模型的训练语料,从而减少人工标注和训练的过程,提高实体识别的效率和准确率。
103、基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点。
其中,所述知识点具体可以包括所述知识实体的类型和深层语义关系。一般来讲,信息抽取对象以短文本为主,重在获取命名实体以及实体之间的关系等信息,而本发明实施例中知识点抽取的对象以句子或相当于句子的复杂文本为主,重在把蕴含于文本文献中的知识经过识别、理解、筛选、格式化等过程,把文献的每个知识元抽取出来以一定形式存入知识库中。知识点抽取不仅需要获取知识实体的类型,还需要识别该实体在其位于的知识片段中的“语义角色”。所述抽取模板可以为预先在知识图谱引导下进行,模块按需求分为研究区抽取模板、研究方法模板和空间数据模板,所有模板采用人工制作并保存至模板库。
具体地,可以基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点。对于本发明实施例,通过知识图谱对抽取模板的构建进行指导,可以简化模板抽取规则,从而提高抽取的效率。
104、利用所述知识实体和知识点响应所述知识点抽取请求。
其中,对于知识点抽取,一般是将抽取的实体以及实体关系的三元组作为知识点,而对于本发明实施例,不仅抽取了知识实体和关系,还将知识实体的类型以及深层语义关系作为抽取维度。从而可以使抽取的知识点信息更加丰富,且能够挖掘隐性知识点,提高知识点抽取的准确性。
进一步的,为了更好的说明上述地理信息知识点抽取方法的过程,作为对上述实施例的细化和扩展,本发明实施例提供了几种可选实施例,但不限于此,具体如下所示:
在本发明的一个可选实施例,所述步骤103具体可以包括:根据预先建立的抽取模板、预先构建的触发词库以及语料信息进行知识点抽取,得到知识点;利用预设的知识图谱推理算法对所述知识点进行修正。
其中,所述模板构建可以在知识图谱引导下进行,模块按需求可以分为研究区抽取模板、研究方法模板和空间数据模板,所有模板可以通过预先训练的模型进行制定,也可以采用人工制作并保存至模板库,本发明实施例不做具体指定。所述知识抽取是基于抽取的先后顺序从模板库中选择对应的抽取模板,利用模块中的抽取规则进行知识抽取。
另外,在得到知识点后,可以利用预设的知识图谱推理算法对所述知识点进行修正。具体过程可以包括:模拟上下文中不同知识点之间的关系构建推理规则,以及利用图谱模式层知识类型约束条件来选择推理规则,利用建立的规则基于知识图谱本体层的一致性原理对模板抽取结果进行验证和纠错,所述一致性包括本体固有的语法一致性和语义一致性,以及约束条件构建的自定义一致性规则,利用建立推理规则,使用一致性检测能够实现在对文献深层语义分析,充分发掘隐性知识点,提高知识抽取准确率。
在本发明的另一个可选实施例,所述步骤102具体可以包括:利用预先训练的实体识别模型对所述语料信息进行实体识别,得到知识实体;基于知识图谱的语义查询,对所述语料信息进行二次实体识别,并对得到的知识实体进行修正。
对于本发明实施例,由于所述知识实体相对于传统的实体具有专业性强、类型多、更新快的特点,因此,可以采用知识图谱结合机器学习法来解决上述问题,如图2所示,示出了基于实体词典与机器学习(CRF条件随机场)的实体识别过程。
另外,本发明实施例具体还包括:如图3所示,基于知识图谱语义查询,对CRF识别后的结果进行二次实体识别或修正。其中,所述二次实体识别可以包括:假设实体A为CRF无法识别的实体,将A传入知识图谱,查询到A的相近词为B,而B隶属于类别C,则可将A标注为类C;所述结果修正可以包括:假设已有实体A经过CRF识别为乡镇,但存在县级地名A,可将A所在文本的所有地名都传入知识图谱,通过判断这些地方所在行政区划的范围,对实体A进行修正。
需要说明的是,本发明实施例通过对语料信息进行2词实体识别,并对识别结果进行修正,从而可以保证实体识别的准确率,剔除无关实体信息,以减少后续知识点抽取的工作量,提高工作效率。
在本发明的又一个可选实施例,所述装置还可以包括:基于预先构建的地名本体以及所述语料信息进行地理实体识别和消歧,得到地理实体;利用所述地理实体响应所述知识点抽取请求。
对于本发明实施例,所述基于预先构建的地名本体以及所述语料信息进行地理实体识别和消歧,得到地理实体,具体可以包括:对所述语料信息进行自然语言处理;对预先构建的地名本体进行本体解析,得到地名领域知识库;根据所述地名领域知识库对所述自然语言处理后的语料信息进行地理解析,得到地理实体;利用预设的歧义消除算法以及地名本体,对所述地理实体进行消歧,并进行地理编码。
其中,所述对所述语料信息进行自然语言处理的过程可以包括:利用开源分词工具如HLP、ICTCLAS等对文献语料进行中文分词、词性标注等自然语言处理。所述对预先构建的地名本体进行本体解析,得到地名领域知识库的过程可以包括:通过GATE框架提供的处理资源OntoGazetteer把地名本体转化为地名领域知识库。所述根据所述地名领域知识库对所述自然语言处理后的语料信息进行地理解析,得到地理实体的过程可以包括:自然语言理解的基础上,对经过自然语言处理的中文文本进行分析,参照本体解析得到的地名领域知识库,确定那些可能是中国行政区划地名的文本片段在文本中的起始位置和终止位置,从而将它们从文本中标识并分离出来。所述利用预设的歧义消除算法以及地名本体,对所述地理实体进行消歧,并进行地理编码的过程可以包括:利用geo/non-geo歧义消除算法对所述地理实体进行消歧处理,并给予空间定位技术,将地名映射为地理坐标。
需要说明的是,本发明实施例通过对文献语料信息进行地理识别,得到地理实体,从而扩大知识点抽取的维度,提高知识点抽取的准确率。
在本发明的再一个可选实施例,所述装置具体可以包括:利用分词工具对所述语料信息进行处理,并对处理结果进行词性筛选,得到触发词;通过word2vec词向量模型对所述触发词进行训练,构建词向量空间;根据island算法以及获取的基础词表对所述词向量空间进行词族提取,得到触发词库。
其中,所述触发词可以直接引发知识类型的产生,是决定知识类型的重要特征。因此知识抽取首先需要研究触发词库的构建方法,首先可以使用分词工具对语料进行预处理,包括分词,习性标注等环节,筛选出词性为名词、动名词的触发词,对筛选后的出发词构建向量空间,使用条件随机场模型对测试数据集进行分类得到基础词表。通过网络爬取文本,使用word2vec训练词向量,基于基础词表使用island对词向量集进行词族提取,以扩展触发词库。
需要说明的是,本发明实施例通过预先构建并扩充触发词库,从而可以有效地识别语料信息中的触发词,以便于能够准确地识别预料信息中的知识点,提高知识点识别的准确率。
在本发明的再一个可选实施例,所述装置具体可以包括:利用获取的地理知识图谱生成实体词典,并利用所述实体词典构建特征集合;根据条件随机场模型以及所述特征集合,训练实体识别模型。
其中,在知识实体识别阶段,可以通过地理知识图谱生成实体词典,构建词典特征集合作为条件随机场(CRF,Conditional random fields)模型的训练语料,减少人工标注工作量,提高算法识别效率,对于CRF模型未识别出的知识实体,再结合地理知识图谱推理生成识别规则,进一步提高实体识别准确率和效率。
本发明提供一种地理信息知识点抽取方法,能够通过接收知识点抽取请求,所述请求中携带有待抽取语料信息;利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;利用所述知识实体和知识点响应所述知识点抽取请求。从而能够通过地理知识图谱构建实体词典作为训练语料,从而减少人工标注语料,同时利用知识图谱推理进行深层语义分析,从而挖掘隐性知识点,提高知识点抽取准确率。
进一步地,作为图1的具体实现,本发明实施例提供了一种地理信息知识点抽取装置,如图4所示,所述装置包括:接收单元21、识别单元22、抽取单元23和响应单元24。
所述接收单元21,可以用于接收知识点抽取请求,所述请求中携带有待抽取语料信息;
所述识别单元22,可以用于利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;
所述抽取单元23,可以用于基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;
所述响应单元24,可以用于利用所述知识实体和知识点响应所述知识点抽取请求。
进一步地,所述识别单元22,包括:
第一识别模块221,可以用于利用预先训练的实体识别模型对所述语料信息进行实体识别,得到知识实体;
第二识别模块222,可以用于基于知识图谱的语义查询,对所述语料信息进行二次实体识别,并对得到的知识实体进行修正。
进一步地,所述装置还包括:消歧单元25,
所述消歧单元25,可以用于基于预先构建的地名本体以及所述语料信息进行地理实体识别和消歧,得到地理实体;
所述响应单元24具体还可以用于利用所述地理实体响应所述知识点抽取请求。
进一步地,所述消歧单元25,包括:
处理模块251,可以用于对所述语料信息进行自然语言处理;
本体解析模块252,可以对预先构建的地名本体进行本体解析,得到地名领域知识库;
地理解析模块253,可以用于根据所述地名领域知识库对所述自然语言处理后的语料信息进行地理解析,得到地理实体;
消歧模块254,可以用于利用预设的歧义消除算法以及地名本体,对所述地理实体进行消歧,并进行地理编码。
进一步地,为了构建触发词库,所述装置还包括构建单元26,所述构建单元26包括:
筛选模块261,可以用于利用分词工具对所述语料信息进行处理,并对处理结果进行词性筛选,得到触发词;
训练模块262,可以用于通过word2vec词向量模型对所述触发词进行训练,构建词向量空间;
提取模块263,可以用于根据island算法以及获取的基础词表对所述词向量空间进行词族提取,得到触发词库。
进一步地,所述装置还包括:
生成单元27,可以用于利用获取的地理知识图谱生成实体词典,并利用所述实体词典构建特征集合;
训练单元28,可以用于根据条件随机场模型以及所述特征集合,训练实体识别模型。
本发明提供一种地理信息知识点抽取装置,能够通过接收知识点抽取请求,所述请求中携带有待抽取语料信息;利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;利用所述知识实体和知识点响应所述知识点抽取请求。从而能够通过地理知识图谱构建实体词典作为训练语料,从而减少人工标注语料,同时利用知识图谱推理进行深层语义分析,从而挖掘隐性知识点,提高知识点抽取准确率。
需要说明的是,本发明实施例提供的一种地理信息知识点抽取装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:接收知识点抽取请求,所述请求中携带有待抽取语料信息;利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;利用所述知识实体和知识点响应所述知识点抽取请求。
基于上述如图1所示方法和如图4所示装置的实施例,本发明实施例还提供了一种计算机设备,如图5所示,处理器(processor)31、通信接口(Communications Interface)32、存储器(memory)33、以及通信总线34。其中:处理器31、通信接口32、以及存储器33通过通信总线34完成相互间的通信。通信接口34,用于与其它设备比如用户端或其它服务器等的网元通信。处理器31,用于执行程序,具体可以执行上述地理信息知识点抽取方法实施例中的相关步骤。具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。处理器31可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific IntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。存储器33,用于存放程序。存储器33可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。程序具体可以用于使得处理器31执行以下操作:接收知识点抽取请求,所述请求中携带有待抽取语料信息;利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;利用所述知识实体和知识点响应所述知识点抽取请求。
通过本发明的技术方案,能够通过接收知识点抽取请求,所述请求中携带有待抽取语料信息;利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;利用所述知识实体和知识点响应所述知识点抽取请求。从而能够通过地理知识图谱构建实体词典作为训练语料,从而减少人工标注语料,同时利用知识图谱推理进行深层语义分析,从而挖掘隐性知识点,提高知识点抽取准确率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (8)
1.一种地理信息知识点抽取方法,其特征在于,包括:
接收知识点抽取请求,所述请求中携带有待抽取语料信息;
利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;
基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;其中,所述知识点包括知识实体的类型和深层语义关系;所述深层语义关系为所述知识实体在其位于的知识片段中的语义角色;
利用所述知识实体和知识点响应所述知识点抽取请求;
所述利用预设的实体识别算法对所述语料信息进行实体识别,包括:对所述语料信息进行地理实体识别和知识实体识别;
所述利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体,包括:
利用预先训练的实体识别模型对所述语料信息进行实体识别,得到所述知识实体;
基于知识图谱的语义查询,对所述语料信息进行二次实体识别,并对得到的所述知识实体进行修正;
基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点,包括:
根据所述预先建立的抽取模板、预先构建的触发词库以及所述语料信息进行知识点抽取,得到所述知识点;
利用预设的知识图谱推理算法对所述知识点进行修正;
所述利用预设的知识图谱推理算法对所述知识点进行修正,包括:
模拟上下文中不同知识点之间的关系构建推理规则,以及利用图谱模式层知识类型约束条件来选择推理规则,利用建立的规则基于知识图谱本体层的一致性原理对模板抽取结果进行验证和纠错,所述一致性包括本体固有的语法一致性和语义一致性,以及约束条件构建的自定义一致性规则。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于预先构建的地名本体以及所述语料信息进行地理实体识别和消歧,得到地理实体;
利用所述地理实体响应所述知识点抽取请求。
3.根据权利要求2所述的方法,其特征在于,所述基于预先构建的地名本体以及所述语料信息进行地理实体识别和消歧,得到地理实体,包括:
对所述语料信息进行自然语言处理;
对预先构建的地名本体进行本体解析,得到地名领域知识库;
根据所述地名领域知识库对所述自然语言处理后的语料信息进行地理解析,得到地理实体;
利用预设的歧义消除算法以及所述地名本体,对所述地理实体进行消歧,并进行地理编码。
4.根据权利要求1所述的方法,其特征在于,所述预先构建的触发词库,包括:
利用分词工具对所述语料信息进行处理,并对处理结果进行词性筛选,得到触发词;
通过word2vec词向量模型对所述触发词进行训练,构建词向量空间;
根据island算法以及获取的基础词表对所述词向量空间进行词族提取,得到触发词库。
5.根据权利要求1所述的方法,其特征在于,所述利用预先训练的实体识别模型对所述语料信息进行实体识别,得到知识实体之前,所述方法还包括:
利用获取的地理知识图谱生成实体词典,并利用所述实体词典构建特征集合;
根据条件随机场模型以及所述特征集合,训练实体识别模型。
6.一种地理信息知识点抽取装置,其特征在于,包括:
接收单元,用于接收知识点抽取请求,所述请求中携带有待抽取语料信息;
识别单元,用于利用预设的实体识别算法对所述语料信息进行实体识别,得到知识实体;
抽取单元,用于基于预先构建的抽取模板对所述语料信息进行知识点抽取,得到知识点;其中,所述知识点包括知识实体的类型和深层语义关系;所述深层语义关系为所述知识实体在其位于的知识片段中的语义角色;
响应单元,用于利用所述知识实体和知识点响应所述知识点抽取请求;
所述识别单元还用于:对所述语料信息进行地理实体识别和知识实体识别;
所述识别单元,包括:
第一识别模块,用于利用预先训练的实体识别模型对所述语料信息进行实体识别,得到知识实体;第二识别模块,用于基于知识图谱的语义查询,对所述语料信息进行二次实体识别,并对得到的知识实体进行修正;
所述抽取单元还用于:根据所述预先建立的抽取模板、预先构建的触发词库以及所述语料信息进行知识点抽取,得到所述知识点;利用预设的知识图谱推理算法对所述知识点进行修正;模拟上下文中不同知识点之间的关系构建推理规则,以及利用图谱模式层知识类型约束条件来选择推理规则,利用建立的规则基于知识图谱本体层的一致性原理对模板抽取结果进行验证和纠错,所述一致性包括本体固有的语法一致性和语义一致性,以及约束条件构建的自定义一致性规则。
7.一种存储介质,其上存储有计算机程序,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行如权利要求1-5中任一项所述的地理信息知识点抽取方法对应的操作。
8.一种计算机设备,包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的地理信息知识点抽取对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010363296.9A CN111488468B (zh) | 2020-04-30 | 2020-04-30 | 地理信息知识点抽取方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010363296.9A CN111488468B (zh) | 2020-04-30 | 2020-04-30 | 地理信息知识点抽取方法、装置、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488468A CN111488468A (zh) | 2020-08-04 |
CN111488468B true CN111488468B (zh) | 2021-12-14 |
Family
ID=71811883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010363296.9A Active CN111488468B (zh) | 2020-04-30 | 2020-04-30 | 地理信息知识点抽取方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488468B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966836A (zh) * | 2020-08-29 | 2020-11-20 | 深圳呗佬智能有限公司 | 知识图谱向量表示方法、装置、计算机设备及存储介质 |
CN112101592A (zh) * | 2020-09-08 | 2020-12-18 | 中国电力科学研究院有限公司 | 电力二次设备缺陷诊断方法、系统、设备及存储介质 |
CN112650859A (zh) * | 2020-12-29 | 2021-04-13 | 北京欧拉认知智能科技有限公司 | 一种用户意图识别方法、设备及模型构建方法 |
CN113220900B (zh) * | 2021-05-10 | 2023-08-25 | 深圳价值在线信息科技股份有限公司 | 实体消歧模型的建模方法和实体消歧预测方法 |
CN113297419B (zh) * | 2021-06-23 | 2024-04-09 | 南京谦萃智能科技服务有限公司 | 视频知识点确定方法、装置、电子设备和存储介质 |
CN116737862A (zh) * | 2023-08-03 | 2023-09-12 | 航天宏图信息技术股份有限公司 | 基于事件图谱的地理变化信息的检测方法、装置和设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885698A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种知识图谱构建方法及装置、电子设备 |
CN110348024A (zh) * | 2019-07-23 | 2019-10-18 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的智能识别系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013059906A1 (en) * | 2011-10-28 | 2013-05-02 | Research In Motion Limited | Electronic device management using interdomain profile-based inferences |
CN108885623B (zh) * | 2016-09-02 | 2022-05-10 | 浙江核新同花顺网络信息股份有限公司 | 基于知识图谱的语意分析系统及方法 |
CN107967267A (zh) * | 2016-10-18 | 2018-04-27 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110889275A (zh) * | 2018-09-07 | 2020-03-17 | 鼎复数据科技(北京)有限公司 | 一种基于深度语义理解的信息抽取方法 |
-
2020
- 2020-04-30 CN CN202010363296.9A patent/CN111488468B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885698A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种知识图谱构建方法及装置、电子设备 |
CN110348024A (zh) * | 2019-07-23 | 2019-10-18 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的智能识别系统 |
Non-Patent Citations (1)
Title |
---|
"基于社交网络数据的地理信息抽取技术研究与实现";李凌峰;《中国优秀硕士学位论文全文数据库 基础科学辑》;20200215;第A008-170页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111488468A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488468B (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
CN109918673B (zh) | 语义仲裁方法、装置、电子设备和计算机可读存储介质 | |
CN109408526B (zh) | Sql语句生成方法、装置、计算机设备及存储介质 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
EP3153978B1 (en) | Address search method and device | |
EP3627398A1 (en) | Method, system, and computer program for artificial intelligence answer | |
KR20110083623A (ko) | 음역을 위한 기계 학습 | |
US20180173694A1 (en) | Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion | |
CN111046656A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN111488467A (zh) | 地理知识图谱的构建方法、装置、存储介质及计算机设备 | |
US20220414463A1 (en) | Automated troubleshooter | |
Zhang et al. | Rule-based extraction of spatial relations in natural language text | |
CN112256845A (zh) | 意图识别方法、装置、电子设备和计算机可读存储介质 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
KR20220134695A (ko) | 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법 | |
CN110738055A (zh) | 文本的实体识别方法、设备及存储介质 | |
CN112579733A (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN113157959A (zh) | 基于多模态主题补充的跨模态检索方法、装置及系统 | |
CN111859013A (zh) | 数据处理方法、装置、终端和存储介质 | |
CN107480197B (zh) | 实体词识别方法及装置 | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
CN114020886A (zh) | 语音意图识别方法、装置、设备及存储介质 | |
CN117371406A (zh) | 基于大型语言模型的注释生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20200804 Assignee: Yuhai Technology (Beijing) Co.,Ltd. Assignor: Beijing University of Civil Engineering and Architecture Contract record no.: X2024980007037 Denomination of invention: Method, device, storage medium, and computer equipment for extracting geographic information knowledge points Granted publication date: 20211214 License type: Common License Record date: 20240611 |
|
EE01 | Entry into force of recordation of patent licensing contract |