CN112101013A - 地点抽取方法、装置、设备以及存储介质 - Google Patents
地点抽取方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN112101013A CN112101013A CN202011034863.2A CN202011034863A CN112101013A CN 112101013 A CN112101013 A CN 112101013A CN 202011034863 A CN202011034863 A CN 202011034863A CN 112101013 A CN112101013 A CN 112101013A
- Authority
- CN
- China
- Prior art keywords
- place
- chain
- entities
- relationship
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种地点抽取方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其智能搜索、知识图谱和深度学习技术。具体实现方案为:识别目标文本中的至少两个地点实体;确定所述至少两个地点实体之间的属性关系;根据所述属性关系,建立所述至少两个地点实体之间的关联关系,得到与所述目标文本关联的地点链。根据本申请的技术实现了对文本的细粒度地点信息的提取。
Description
技术领域
本申请涉及人工智能技术领域,尤其智能搜索、知识图谱和深度学习技术,具体涉及一种地点抽取方法、装置、设备以及存储介质。
背景技术
在从文章中进行舆情信息提取的时候,往往需要进行舆情相关地点的提取。由于当前存在不同地点命名相同的问题。所以当提取地点的粒度较粗时,读者无法根据粗粒度的地点进行舆情信息的准确定位。例如,红旗大街,多个城市均有以此命名的道路。当提取到红旗大街时,读者并不清楚具体是哪个城市的红旗大街。
发明内容
本公开提供了一种地点抽取方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种地点抽取方法,包括:
识别目标文本中的至少两个地点实体;
确定所述至少两个地点实体之间的属性关系;
根据所述属性关系,建立所述至少两个地点实体之间的关联关系,得到与所述目标文本关联的地点链。
根据本公开的另一方面,提供了一种地点抽取装置,包括:
实体识别模块,用于识别目标文本中的至少两个地点实体;
关系确定模块,用于确定所述至少两个地点实体之间的属性关系;
实体关联模块,用于根据所述属性关系,建立所述至少两个地点实体之间的关联关系,得到与所述目标文本关联的地点链。
根据本公开的又一方面,提供了一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例中任一项所述的方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本申请实施例中任一项所述的方法。
根据本申请的技术实现了对文本的细粒度地点信息的提取。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例提供的一种地点抽取方法的流程图;
图2是本申请实施例提供的另一种地点抽取方法的流程图;
图3是本申请实施例提供的又一种地点抽取方法的流程图;
图4是本申请实施例提供的一种地点抽取装置的结构示意图;
图5是根据本申请实施例的地点抽取方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是本申请实施例提供的一种地点抽取方法的流程图。本实施例可适用于识别文本中细粒度地点信息的情况。该方法可以由一种地点抽取装置来执行。该装置可以由软件和/或硬件的方式实现。参见图1,本申请实施例提供的地点抽取方法,包括:
S110、识别目标文本中的至少两个地点实体。
其中,目标文本是指待识别地点信息的文本。
地点实体是指描述地点信息的实体。例如,某公园、某道路、某区、某城市等。
识别目标文本中地点实体的方法可以是现有技术中任一地点实体的识别方法,例如可以通过命名实体识别技术,确定目标文本中是否包括地点实体。本实施例对此并不进行限定。
S120、确定所述至少两个地点实体之间的属性关系。
其中,不同地点实体之间的属性关系是指不同地点实体之间的位置从属关系,具有属性关系的不同地点实体所属的行政区划等级不同。在行政区划等级相对较低的地点实体位于行政区划等级相对较高的地点实体内部情况下,行政区划等级相对较高的地点实体是行政区划等级相对较低的地点实体的属性。以第一地点实体为某某街道属于四级乡级行政区,第二地点实体为某某县属于三级县级行政区,且某某街道位于某某县内部为例,则第二地点实体是第一地点实体的属性。为了便于表述,可以将第二地点实体称作第一地点实体的上一级地点实体,也就是说如果一个地点实体的行政区域等级仅比另一地点实体的行政区域等级高一级,且二者具有从属关系,则可以将行政区划等级相对较高的地点实体作为行政区划等级相对较低的地点实体的上一级地点实体。
S130、根据所述属性关系,建立所述至少两个地点实体之间的关联关系,得到与所述目标文本关联的地点链。
其中,地点链中包括至少两个地点实体,且地点链中不同地点实体之间可以按照行政区划等级由大到小的顺序进行排序。针对地点链中的每一地点实体,在地点链中还存在与该地点实体具有属性关系的至少一个其他地点实体,也就是说地点链中还存在每一地点实体的上级地点实体或者下级地点实体。示例性地,地点链可以是某城市-某地区-某公园。需要说明的是,对地点链中不同地点实体的排序方式不作具体限定,也可以按照行政区划等级由小到大的顺序进行排序。通过识别目标文本中的至少两个地点实体,并根据不同地点实体之间的从属关系,建立不同地点实体之间的关联关系,得到与目标文本关联的地点链,便于基于地点链进行地点信息处理,能够提高地点信息处理效率和准确度。
本申请实施例的技术方案,通过识别目标文本中至少两个地点实体,并确定不同地点实体之间的属性关系,根据地点实体之间的属性关系构建地点链,实现了细粒度地点信息的提取,且便于基于地点链进行地点信息处理,能够提高地点信息处理效率和准确度。
图2是本申请实施例提供的另一种地点抽取方法的流程图。本方案是在上述方案的基础上,对步骤“确定所述至少两个地点实体之间的属性关系”的具体优化。参见图2,本方案提供的地点抽取方法包括:
S210、识别目标文本中的至少两个地点实体。
S220、组合所述至少两个地点实体,得到至少一个地点对。
具体的,对从目标文本中识别得到的地点实体进行两两组合,得到地点对。可以将目标文本中每一地点实体,与目标文本中其他地点实体均分别组合得到不同地点对。需要说明的是,本申请实施例对地点对的组合方式不作具体限定。
S230、识别所述地点对中两地点实体之间的属性关系。
具体的,根据地点对中两地点实体之间的行政区划从属关系,确定两地点实体的属性关系,即确定两地点实体之间是否具有从属关系,以及在有从属关系情况下,哪个地点实体是另一地点实体的属性。
在一个实施例中,识别所述地点对中两地点实体之间的属性关系,可以包括:将所述地点对中两地点实体输入预先训练的属性识别模型,输出所述地点对中两地点之间的属性关系。其中,属性识别模型可以基于BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆网络)训练得到。具体的,若属性识别模型输出结果为第一数值例如0,则二者之间没有从属关系;若属性识别模型输出结果为第二数值例如1,则二者之间具有从属关系。
在属性识别模型的训练阶段,可以将已知具有属性关系的地点对作为正样本,将已知没有属性关系的地点对作为负样本,基于正样本和负样本对初始属性识别模型进行训练。其中,正样本和负样本中关系可以人为标注确定,也可以通过其他方式确定。基于属性识别模型进行属性关系识别,能够进一步提高属性关系识别的准确度、效率。
S240、根据所述属性关系,建立所述至少两个地点实体之间的关联关系,得到与所述目标文本关联的地点链。
本申请实施例的技术方案,通过属性识别模型对地点对中两个地点实体之间关系进行识别,确定两个地点实体之间是否有属性关系,能够进一步提高属性关系识别的准确度、效率,从而进一步提高地点信息处理效率和准确度。
图3是本申请实施例提供的又一种地点抽取方法的流程图。本方案是在上述方案的基础上,对方案的进一步扩展。参见图3,本方案提供的地点抽取方法包括:
S310、识别目标文本中的至少两个地点实体。
S320、确定所述至少两个地点实体之间的属性关系。
S330、根据所述属性关系,建立所述至少两个地点实体之间的关联关系,得到与所述目标文本关联的地点链。
S340、利用知识图谱中的地点链对所述目标文本关联的地点链进行补充,得到目标地点链。
其中,与目标文本关联的地点链中不同地点实体之间可能还有其他行政区划等级(即跨行政区划),例如与目标文本关联的地点链中一地点实体为三级县级行政区划,另一地点实体为一级省级行政区划,则二者之间还缺少二级地级行政区划,需要补充。另外,可以将诸如国家或一级省级行政区划之类的固定行政区划作为与目标文本关联的地点链中最高行政区划,如果与目标文本关联的地点链中缺少固定行政区划,或者缺少固定行政区划的下级行政区划,则也需要对所述目标文本关联的地点链进行补充。
其中,知识图谱可以为地点知识图谱,也就是说知识图谱中实体是地点。可以预先根据地图中包括的至少一个地点以及至少一个地点的各上级地点,构建知识图谱,具体的,可以将至少一个地点分别与上级地点之间的关系,以及不同上级地点之间的关系作为知识图谱中的边。知识图谱的地点链中包括至少两个地点实体,以及不同地点实体之间的属性关系。
具体的,对目标文本关联的地点链进行处理,得到目标文本关联的地点链中缺少地点的行政区划等级,通过知识图谱中地点链,根据缺少地点的行政区划等级,确定缺少地点信息,即对目标文本关联的地点链进行补充,得到目标地点链。通过利用知识图谱进行地点链补充,能够进一步提高目标地点链的精细度。
在一个实施例中,所述利用知识图谱中的地点链对所述目标文本关联的地点链进行补充,得到目标地点链,包括:匹配知识图谱中的地点链与所述目标文本关联的地点链;根据匹配结果,从知识图谱中的地点链中确定目标地点链。具体的,可以将与目标文本关联的地点链中至少两个地点名称,与知识图谱的地点链中至少两个地点名称进行匹配,并根据匹配结果进行补充得到目标地点链。通过地点链之间的匹配,能够进一步缩小比对范围,提高效率。
为提高目标地点链的准确率,所述根据匹配结果,从知识图谱中的地点链中确定目标地点链,包括:根据匹配结果,从知识图谱中的地点链中确定至少一个候选地点链;根据所述目标文本中除所述至少两个地点实体外的其他地点信息,从所述至少一个候选地点链中确定目标地点链。
其中,其他地点信息可以是地点名称,也可以是地点相关的描述例如某某大厦是某区域的地标性建筑。尤其是,目标文本中的某些地点,通过知识图谱可以召回至少两个候选地点链情况下,通过目标文本中其他地点信息可以从至少两个候选地点链中选择目标地点链。
本方案是在上述方案的基础上,提供的一种可选方案。本方案提供的地点抽取方法包括:
将待识别文本输入预先训练的实体及关系识别模型,输出待识别文本的至少一条地点链;
利用知识图谱对输出的地点链进行补充,得到目标地点链。
其中,知识图谱可以是一个包括全国全部地点的图谱,比如:“北京市-海淀区-某地铁站”就是地图上的每一个点以及全部的上级地点链条。
将模型输出的地点链放入知识图谱中,会召回多个候选地点链。比如“红旗大街”,在知识图谱中会召回多条候选地点链。
通过文中出现的其他地点,将召回的多条候选地点链进行排序,根据排序结果从多条候选地点链中确定目标地点链。
示例性地,以待识别文本为“我出生在杭州,现在在某大厦工作”为例,识别得到两条地点链,分别为:杭州和某大厦,补充后的完整地点链分别为:“中国-浙江省-杭州市”和“中国-广东省-深圳市-某地区-某大厦”。
上述实体及关系识别模型的训练过程包括:离线标注语料阶段、训练实体与关系识别模型训练阶段。
其中,离线标注语料阶段具体可以包括如下:收集文本语料;标注其中出现的地点实体,比如,在某地区某大厦工作可以标注为:在[某地区][某大厦]工作;标注地点实体间的属性关系。继续以在[某地区][某大厦]工作为例,标注的地点实体间的属性关系为:[某地区,某大厦],该关系表示“某地区”是“某大厦”的属性。
其中,在实体与关系识别模型训练阶段,可以将文本中每两个地点放在一起,形成一个地点对,将具有属性关系的地点对作为正样本,将不具有属性关系的地点对作为负样本;利用上述正样本和负样本,基于BiLstm-CRF(Conditional Random Field,条件随机场)网络结构训练上述实体及关系识别模型。
本申请实施例的技术方案,通过使用实体关系技术识别出至少两个地点,以及不同地点之间属性关系,并且通过地点知识图谱,对没有出现的上级地点进行补充,从而得到细粒度的地点信息。
图4是本申请实施例提供的一种地点抽取装置的结构示意图。参见图4,本申请实施例提供的地点抽取装置400,包括:实体识别模块401、关系确定模块402和实体关联模块403。
其中,实体识别模块401,用于识别目标文本中的至少两个地点实体;
关系确定模块402,用于确定所述至少两个地点实体之间的属性关系;
实体关联模块403,用于根据所述属性关系,建立所述至少两个地点实体之间的关联关系,得到与所述目标文本关联的地点链。
本申请实施例的技术方案,通过确定目标文本中至少两个地点实体之间的属性关系,根据确定的属性关系,串联地点实体,得到地点链,从而实现细粒度地点信息的提取。
进一步地,所述确关系确定模块,包括:
实体组合单元,用于组合所述至少两个地点实体,得到至少一个地点对;
关系识别单元,用于识别所述地点对中两地点实体之间的属性关系。
进一步地,所述关系识别单元具体用于:
将所述地点对中两地点实体输入预先训练的属性识别模型,输出所述地点对中两地点之间的属性关系;
其中所述属性识别模型利用存在属性关系的地点对作为正样本训练得到。
进一步地,所述装置还包括:
地点链补充模块,用于所述根据所述属性关系,建立所述至少两个地点实体之间的关联关系,得到与所述目标文本关联的地点链之后,利用知识图谱中的地点链对所述目标文本关联的地点链进行补充,得到目标地点链。
进一步地,所述地点链补充模块,包括:
地点链匹配单元,用于匹配知识图谱中的地点链与所述目标文本关联的地点链;
地点链确定单元,用于根据匹配结果,从知识图谱中的地点链中确定所述目标地点链。
进一步地,所述地点链确定单元具体用于:
根据匹配结果,从知识图谱中的地点链中确定至少一个候选地点链;
根据所述目标文本中除所述至少两个地点实体外的其他地点信息,从所述至少一个候选地点链中确定所述目标地点链。
本申请实施例的技术方案,通过使用实体关系技术识别出至少两个地点,以及不同地点之间属性关系,并且通过地点知识图谱,对没有出现的上级地点进行补充,从而得到细粒度的地点信息。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的地点抽取方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的地点抽取方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的地点抽取方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的地点抽取方法对应的程序指令/模块(例如,附图4所示的实体识别模块401、关系确定模块402和实体关联模块403)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的地点抽取方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据地点抽取电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至地点抽取电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
地点抽取方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与地点抽取电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
根据本申请实施例的技术方案,实现了对文本的细粒度地点信息的提取。应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (14)
1.一种地点抽取方法,包括:
识别目标文本中的至少两个地点实体;
确定所述至少两个地点实体之间的属性关系;
根据所述属性关系,建立所述至少两个地点实体之间的关联关系,得到与所述目标文本关联的地点链。
2.根据权利要求1所述的方法,其中,所述确定所述至少两个地点实体之间的属性关系,包括:
组合所述至少两个地点实体,得到至少一个地点对;
识别所述地点对中两地点实体之间的属性关系。
3.根据权利要求2所述的方法,其中,所述识别所述地点对中两地点实体之间的属性关系,包括:
将所述地点对中两地点实体输入预先训练的属性识别模型,输出所述地点对中两地点之间的属性关系;
其中所述属性识别模型利用存在属性关系的地点对作为正样本训练得到。
4.根据权利要求1-3中任一所述的方法,所述根据所述属性关系,建立所述至少两个地点实体之间的关联关系,得到与所述目标文本关联的地点链之后,所述方法还包括:
利用知识图谱中的地点链对所述目标文本关联的地点链进行补充,得到目标地点链。
5.根据权利要求4所述的方法,其中,所述利用知识图谱中的地点链对所述目标文本关联的地点链进行补充,得到目标地点链,包括:
匹配知识图谱中的地点链与所述目标文本关联的地点链;
根据匹配结果,从知识图谱中的地点链中确定所述目标地点链。
6.根据权利要求5所述的方法,其中,所述根据匹配结果,从知识图谱中的地点链中确定所述目标地点链,包括:
根据匹配结果,从知识图谱中的地点链中确定至少一个候选地点链;
根据所述目标文本中除所述至少两个地点实体外的其他地点信息,从所述至少一个候选地点链中确定所述目标地点链。
7.一种地点抽取装置,包括:
实体识别模块,用于识别目标文本中的至少两个地点实体;
关系确定模块,用于确定所述至少两个地点实体之间的属性关系;
实体关联模块,用于根据所述属性关系,建立所述至少两个地点实体之间的关联关系,得到与所述目标文本关联的地点链。
8.根据权利要求7所述的装置,其中,所述确关系确定模块,包括:
实体组合单元,用于组合所述至少两个地点实体,得到至少一个地点对;
关系识别单元,用于识别所述地点对中两地点实体之间的属性关系。
9.根据权利要求8所述的装置,其中,所述关系识别单元具体用于:
将所述地点对中两地点实体输入预先训练的属性识别模型,输出所述地点对中两地点之间的属性关系;
其中所述属性识别模型利用存在属性关系的地点对作为正样本训练得到。
10.根据权利要求7-9中任一所述的装置,所述装置还包括:
地点链补充模块,用于所述根据所述属性关系,建立所述至少两个地点实体之间的关联关系,得到与所述目标文本关联的地点链之后,利用知识图谱中的地点链对所述目标文本关联的地点链进行补充,得到目标地点链。
11.根据权利要求10所述的装置,其中,所述地点链补充模块,包括:
地点链匹配单元,用于匹配知识图谱中的地点链与所述目标文本关联的地点链;
地点链确定单元,用于根据匹配结果,从知识图谱中的地点链中确定所述目标地点链。
12.根据权利要求11所述的装置,其中,所述地点链确定单元具体用于:
根据匹配结果,从知识图谱中的地点链中确定至少一个候选地点链;
根据所述目标文本中除所述至少两个地点实体外的其他地点信息,从所述至少一个候选地点链中确定所述目标地点链。
13.一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011034863.2A CN112101013A (zh) | 2020-09-27 | 2020-09-27 | 地点抽取方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011034863.2A CN112101013A (zh) | 2020-09-27 | 2020-09-27 | 地点抽取方法、装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112101013A true CN112101013A (zh) | 2020-12-18 |
Family
ID=73783715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011034863.2A Pending CN112101013A (zh) | 2020-09-27 | 2020-09-27 | 地点抽取方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101013A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906394A (zh) * | 2021-03-18 | 2021-06-04 | 北京字节跳动网络技术有限公司 | 地址识别方法、装置、设备和存储介质 |
CN113393916A (zh) * | 2021-08-17 | 2021-09-14 | 浙江卡易智慧医疗科技有限公司 | 一种冠脉医疗报告结构关系提取的方法和装置 |
CN113822057A (zh) * | 2021-08-06 | 2021-12-21 | 北京百度网讯科技有限公司 | 地点信息确定方法、装置、电子设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657074A (zh) * | 2018-09-28 | 2019-04-19 | 北京信息科技大学 | 基于地址树的新闻知识图谱构建方法 |
CN110377696A (zh) * | 2019-06-19 | 2019-10-25 | 新华智云科技有限公司 | 一种商品期货新闻舆情分析方法及系统 |
CN110543574A (zh) * | 2019-08-30 | 2019-12-06 | 北京百度网讯科技有限公司 | 一种知识图谱的构建方法、装置、设备及介质 |
CN111428049A (zh) * | 2020-03-20 | 2020-07-17 | 北京百度网讯科技有限公司 | 一种事件专题的生成方法、装置、设备和存储介质 |
-
2020
- 2020-09-27 CN CN202011034863.2A patent/CN112101013A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657074A (zh) * | 2018-09-28 | 2019-04-19 | 北京信息科技大学 | 基于地址树的新闻知识图谱构建方法 |
CN110377696A (zh) * | 2019-06-19 | 2019-10-25 | 新华智云科技有限公司 | 一种商品期货新闻舆情分析方法及系统 |
CN110543574A (zh) * | 2019-08-30 | 2019-12-06 | 北京百度网讯科技有限公司 | 一种知识图谱的构建方法、装置、设备及介质 |
CN111428049A (zh) * | 2020-03-20 | 2020-07-17 | 北京百度网讯科技有限公司 | 一种事件专题的生成方法、装置、设备和存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906394A (zh) * | 2021-03-18 | 2021-06-04 | 北京字节跳动网络技术有限公司 | 地址识别方法、装置、设备和存储介质 |
CN113822057A (zh) * | 2021-08-06 | 2021-12-21 | 北京百度网讯科技有限公司 | 地点信息确定方法、装置、电子设备以及存储介质 |
CN113393916A (zh) * | 2021-08-17 | 2021-09-14 | 浙江卡易智慧医疗科技有限公司 | 一种冠脉医疗报告结构关系提取的方法和装置 |
CN113393916B (zh) * | 2021-08-17 | 2021-12-31 | 浙江卡易智慧医疗科技有限公司 | 一种冠脉医疗报告结构关系提取的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507104B (zh) | 建立标签标注模型的方法、装置、电子设备和可读存储介质 | |
CN111966890B (zh) | 基于文本的事件推送方法、装置、电子设备和存储介质 | |
CN112101013A (zh) | 地点抽取方法、装置、设备以及存储介质 | |
CN111522967B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
CN110851738B (zh) | 获取poi状态信息的方法、装置、设备和计算机存储介质 | |
CN111860506A (zh) | 识别文字的方法和装置 | |
CN111026937B (zh) | 提取poi名称的方法、装置、设备和计算机存储介质 | |
CN110597994A (zh) | 事件元素识别方法和装置 | |
CN111881908B (zh) | 目标检测模型的修正方法、检测方法、装置、设备及介质 | |
CN111737430B (zh) | 实体链接方法、装置、设备以及存储介质 | |
CN111339759A (zh) | 领域要素识别模型训练方法、装置及电子设备 | |
CN113220835B (zh) | 文本信息处理方法、装置、电子设备以及存储介质 | |
CN111767359A (zh) | 兴趣点分类方法、装置、设备以及存储介质 | |
CN110543558A (zh) | 问题匹配方法、装置、设备和介质 | |
CN113160693B (zh) | 一种道路路口的处理方法、装置、设备和存储介质 | |
CN111523007A (zh) | 用户感兴趣信息确定方法、装置、设备以及存储介质 | |
CN112380847A (zh) | 兴趣点处理方法、装置、电子设备及存储介质 | |
CN111523061A (zh) | 用于生成兴趣面的方法和装置 | |
CN113127669A (zh) | 广告配图方法、装置、设备和存储介质 | |
CN113342946A (zh) | 客服机器人的模型训练方法、装置、电子设备及介质 | |
CN112466277B (zh) | 韵律模型训练方法、装置、电子设备及存储介质 | |
CN111694914B (zh) | 用户常驻区域确定方法及装置 | |
CN115688802B (zh) | 文本风险检测方法及其装置 | |
CN113344121B (zh) | 训练招牌分类模型和招牌分类的方法 | |
CN111832483B (zh) | 一种兴趣点有效性识别方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |