CN107180045A - 一种互联网文本蕴含地理实体关系的抽取方法 - Google Patents

一种互联网文本蕴含地理实体关系的抽取方法 Download PDF

Info

Publication number
CN107180045A
CN107180045A CN201610135332.XA CN201610135332A CN107180045A CN 107180045 A CN107180045 A CN 107180045A CN 201610135332 A CN201610135332 A CN 201610135332A CN 107180045 A CN107180045 A CN 107180045A
Authority
CN
China
Prior art keywords
text
word
sentence
geographical
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610135332.XA
Other languages
English (en)
Other versions
CN107180045B (zh
Inventor
陆锋
余丽
张恒才
彭澎
仇培元
牟乃夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Geographic Sciences and Natural Resources of CAS
Original Assignee
Institute of Geographic Sciences and Natural Resources of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Geographic Sciences and Natural Resources of CAS filed Critical Institute of Geographic Sciences and Natural Resources of CAS
Priority to CN201610135332.XA priority Critical patent/CN107180045B/zh
Publication of CN107180045A publication Critical patent/CN107180045A/zh
Application granted granted Critical
Publication of CN107180045B publication Critical patent/CN107180045B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种互联网文本蕴含地理实体关系的抽取方法,包括以下步骤:数据预处理、文档向量化、权值计算、关键词提取、关系元组构建;输入包含地理实体的网络文本,经过数据预处理抽取地理实体间的空间关系或语义关系,得到网页纯文本和候选关键词;采用词语级别的向量空间模型对文本进行向量化,建立word‑context矩阵;设计了新型的权值计算方法对地理实体进行权值计算;从语境向量中选择权值最大的词语作为关键词,构建关系元组,最后完成地理实体抽取。本发明提供了基于语义的检索方式,改变了传统依赖关键词的搜索技术;在缺乏大规模标注语料和地理知识库的前提下,能快速抽取地理关系描述词,提高运行效率,大大的降低人工成本。

Description

一种互联网文本蕴含地理实体关系的抽取方法
技术领域
本发明涉及一种互联网文本抽取方法,尤其涉及一种互联网文本蕴含地理实体关系的抽取方法。
背景技术
实体关系抽取研究核心是自动从互联网文本数据中抽取命名实体之间的联系,形成网状关系网络,方便用户查询实体各方面信息。例如“中国大陆阿里巴巴集团董事局主席马云”,可以抽取实体“阿里巴巴”与“马云”是雇佣关系。地理实体关系抽取研究是实体关系研究的子集,目的是从互联网网络文本中抽取地理实体之间的关系。例如:从“遥感所位于地理所的北面”中可以抽取实体“地理所”与“遥感所”,存在方位关系“北面”。
地理实体关系通常可以分为空间关系与语义关系。空间关系表示两个空间实体之间的在地理场景中的各种绝对与相对的位置关系,例如“附近”、“相邻”、“远近”等。部分地理实体之间的位置关系是可计算的,例如北京距离济南为500公里,但是不能描述所有的定性的空间关系描述,例如“远近”。如果要准备获取地理实体的实体关系,需要通过文本中进行抽取。
地理实体关系抽取是构建地理知识图的研究基础,识别并抽取地理实体间的空间和语义关系,构建铰链的地图数据库,是改善基于位置服务的用户体验的关键。地理信息泛化已成为新地理信息时代重要的发展趋势之一。泛化地理信息更加关注地理实体之间复杂的动态关系,如时变空间关系和语义关系等。而目前国内各大地图数据服务提供商(如四维图新、天地图、百度、高德等)提供的地图数据缺乏地理实体之间的关系描述,千万级的地理实体存储“扁平化”。地理实体存储“扁平化”,地理实体关系描述欠缺,导致地理信息检索依赖于关键词,不能有效发挥基于实体关系的内容搜索的优势。如何快速识别并抽取地理实体间的空间和语义关系,是地理空间信息服务产业发展面临的难题。
目前,国内外针对解决实体关系抽取的传统技术方法主要有模式匹配法,监督学习法和频率统计法。模式匹配法需要对关系语料库进行深入分析,人工抽取组织关系模式,这种方法虽然准确性较高,但是需要耗费大量的人力物力,并且不适用于文本大范围关系的抽取;监督学习法在提取速度及准确率上都有所提升,但是该方法需要大规模的人工标注语料,开放文本涉及的文本繁杂,长文本、短文本、网络用语等增加了语料库构建难度,并且人工定义的有限关系类型难以适应文本的快速增长和变化;频率统计法要求表征关系的词语频繁出现,难以适用于稀疏分布的地理实体关系实例。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种互联网文本蕴含地理实体关系的抽取方法。
为了解决以上技术问题,本发明采用的技术方案是: 一种互联网文本蕴含地理实体关系的抽取方法,包括以下步骤:
数据预处理:输入包含地理实体的网络文本,抽取地理实体间的空间关系或语义关系,得到原始语料,进一步得到原始语料对应的网页正文文本;对上述网页正文文本进行预处理得到候选关键词;
文档向量化:上述网页正文文本进行预处理之后,对文本进行相关的数学计算;采用词语级别的向量空间模型对文本进行向量化,按照下述公式(1)-(2)计算方法建立词语-语境矩阵,即word-context矩阵;
(1)
(2)
其中,C为所有语境的集合,语境的总数为N;语境是一系列词汇的集合;cj为词汇集合W的向量(j=1,2,…,N),向量cj中的元素wij为第i个词语wi在第j个语境中的权值(i=1,2,…,v);
权值计算:将输入的网络文本中的地理实体与句子中的其它地理实体组成一对,记作entityA和entityB;假设一对地理实体间隔越远语义越弱,当一对地理实体之间的词语个数大于5时,两者没有关系,不予处理;常用权值计算方法有三种,统计wi在cj中出现的次数方法,记作Frequency;Term Frequency-Inverse Document Frequency方法记作TF-IDF;Positive Pointwise Mutual Information方法记作PPMI;
观察语料得出以下结论:词语的词性、长度和位置在一定程度上反映了它在句中的重要性;描述地理实体间空间和语义关系的词语大多是简短的名词,例如“东边”、“北部”、“别名”,很少使用3个字以上的词语;关系词大多位于句子尾部,部分位于两个地理实体之间,很少位于句首;基于上述特征,提出以下假设:名词的权值更大;词语越短,权值越大;词语距离entityB越远,权值越大;基于以上假设,设计了新的权值计算方法,如公式(3)-(6);
(3)
(4)
(5)
(6)
其中,为词语词性的权值,词语词性记作为由词性和长度联合作用的影响因子,为词语wi的长度,分别为entityA、entityB、wi在句中的位置编号,为由和位置联合作用的影响因子,值的绝对值,为Frequency、TF-IDF或PPMI中任意一种权值,为词语wi在语境cj中的权值;
关键词提取:经过上述权值计算得到word-context权值矩阵;每个语境向量中的数字,即矩阵里的行中的数字体现了对应单词在当前语境中的重要性,直接从语境向量中选择权值最大的词语作为关键词,作为每个语境的关系名称;由于每个语境与地理实体对绑定,关键词提取后,即可得到地理实体对的关系;
关系元组构建:每个句子提取关键词之后,首先将它与句中的一对地理实体组成一个关系三元组,如公式(7);其中,为句子k存在的关系,为句子k中的一对地理实体;该三元组的形式将语义关系实例作为属性表达式,用于描述地理实体指定类型的属性值;
再采用自适应多元组,将空间关系实例作为位置表达式,描述地理实体间的空间关系和语义关系:若句中存在数量词,且位于entityB右边的3个窗口内,则提取该数量词和单位;根据关键词在句中的位置,按照句子原始的逻辑调整元组中各元素的顺序,并自适应地确定关系的维度以自动补齐数量词,如公式(8);为句子k中描述地理实体关系的数量词;当表示非度量关系时,该元素省去。
(7)
(8)
数据预处理的步骤包括:网页爬取、正文提取、分句、中文分词和词性标注、地理实体识别、语境构建;
网页爬取:获取包含地理实体的网络文本,从网络文本中抽取两个地理实体间的空间关系或语义关系;以现有地名数据库中的元素为地理实体,以地理实体为关键词,逐一在搜索引擎中查询相关HTML网页,爬取HTML网页内容作为地理实体关系抽取的原始语料;
正文提取:将上述爬取到的HTML网页找到相应的网页正文,对网页正文所在的位置进行处理,提取出网页正文纯文本;
分句:将网页正文纯文本拆分成句子,然后以逗号“,”、分号“;”、句号“。”、省略号“…”做为分割点将句子分割成多个子句,并采用简单的规则自动补齐句子中被省略或者替代的主语;对于没有查询词条的句子,若句首是“它”或者“她”,则将其替换成查询的词条,否则在句首添加查询的词条;
中文分词和词性标注:采用Stanfod CoreNLP集成套件对纯文本进行中文分词和词性标注;过滤掉与语义表达无关的停用词,包括标点、字符和虚词;
地理实体识别:对纯文本进行中文分词和词性标注之后,使用Stanfod CoreNLP集成套件识别命名句子中的地理实体,再将标签LOC、GPE和ORG替换为GEO,最后合并多个连续的GEO为一个地理实体;
语境构建:过滤停用词之后,将句中除地理实体对以外的所有名词、动词和介词作为语境,语境中的词语称为候选关键词。
本发明跟现有地理实体抽取技术相比,展现的优势为:将“扁平化”的地理实体库转化为“垂直网状”地理实体库来为地理实体推荐提供技术支持,丰富了地理信息检索方式,改变了传统的依赖关键词的搜索技术,提供地理知识图的新内容检索方式;在缺乏大规模标注语料和地理知识库的前提下,能快速抽取地理关系描述词,提高运行效率,大大的降低人工成本,并且适用于表征关系词语稀疏分布的地理实体关系实例。
附图说明
图1为本发明的整体步骤流程图。
图2为数据预处理的步骤流程图。
图3为地理实体关系抽取生成关系元组示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1、图2、图3所示,本发明包括以下步骤:
1、数据预处理:数据预处理的步骤包括:网页爬取、正文提取、分句、中文分词和词性标注、地理实体识别、语境构建;
网页爬取:获取包含地理实体的网络文本,从网络文本中抽取两个地理实体间的空间关系或语义关系;以现有地名数据库中的元素为地理实体,以地理实体为关键词,逐一在搜索引擎中查询相关HTML网页,爬取HTML网页内容作为地理实体关系抽取的原始语料;
正文提取:将上述爬取到的HTML网页找到相应的网页正文,对网页正文所在的位置进行处理,提取出网页正文纯文本;
分句:将网页正文纯文本拆分成句子,然后以逗号“,”、分号“;”、句号“。”、省略号“…”做为分割点将句子分割成多个子句,并采用简单的规则自动补齐句子中被省略或者替代的主语,以保证语义表达的完整性;对于没有查询词条的句子,若句首是“它”或者“她”,则将其替换成查询的词条,否则在句首添加查询的词条;
中文分词和词性标注:Stanfod CoreNLP集成套件为具有高效性、开放性和可扩展性的自然语言处理工具,选用该套件对纯文本进行中文分词和词性标注;然后,过滤掉与语义表达无关的停用词,包括标点、字符和虚词(助词、叹词、语气词和拟声词),以便降低实体关系表达的复杂度、节省存储空间、提高计算效率;
地理实体识别:对纯文本进行中文分词和词性标注之后,使用Stanfod CoreNLP集成套件识别命名句子中的地理实体,再将标签LOC、GPE和ORG替换为GEO,最后合并多个连续的GEO为一个地理实体;例如将“厦门市湖滨西路”识别成“厦门市/GPE 湖滨/LOC 西路/LOC”,再将标签替换并合并最终识别成“厦门市湖滨西路/GEO”;
语境构建:分析语料发现,地理实体之间的空间关系通常由动词或者介词修饰,语义关系通常由动词或者名词描述;当过滤停用词之后,将句中除地理实体对以外的所有名词、动词和介词作为语境,语境中的词语称为候选关键词。
2、文档向量化:对上述网页正文文本进行预处理之后,需要对文本进行相关的数学计算;采用词语级别的向量空间模型对文本进行向量化,按照下述公式(1)-(3)计算方法建立word-context矩阵,即word-context矩阵;
(1)
(2)
其中,C为所有语境的集合,语境的总数为N;语境是一系列词汇的集合;cj为词汇集合W的向量(j=1,2,…,N),向量cj中的元素wij为第i个词语wi在第j个语境中的权值(i=1,2,…,v);
3、权值计算:将输入的网络文本中的地理实体与句子中的其它地理实体组成一对,记作entityA和entityB;假设一对地理实体间隔越远语义越弱,当一对地理实体之间的词语个数大于5时,两者没有关系,不予处理;常用权值计算方法有三种,统计wi在cj中出现的次数方法,记作Frequency;Term Frequency-Inverse Document Frequency方法记作TF-IDF;Positive Pointwise Mutual Information方法记作PPMI;
观察语料得出以下结论:词语的词性、长度和位置在一定程度上反映了它在句中的重要性;描述地理实体间空间和语义关系的词语大多是简短的名词,例如“东边”、“北部”、“别名”等,很少使用3个字以上的词语;关系词大多位于句子尾部,部分位于两个地理实体之间,很少位于句首;基于上述特征,提出以下假设:名词的权值更大;词语越短,权值越大;词语距离entityB越远,权值越大;基于以上假设,设计了一种的新的权值计算方法,如公式(3)-(6);
(3)
(4)
(5)
(6)
其中,为词语词性的权值,词语词性记作为由词性和长度联合作用的影响因子,为词语wi的长度,分别为entityA、entityB、wi在句中的位置编号,为由和位置联合作用的影响因子,值的绝对值,为Frequency、TF-IDF或PPMI中任意一种权值,为词语wi在语境cj中的权值;
4、关键词提取:经过权值计算得到word-context权值矩阵;每个语境向量中的数字,即矩阵里的行中的数字体现了对应单词在当前语境中的重要性,直接从语境向量中选择权值最大的词语作为关键词,作为每个语境的关系名称;由于每个语境与地理实体对绑定,关键词提取后,即可得到地理实体对的关系;
5、关系元组构建:对每个句子提取关键词之后,首先将它与句中的一对地理实体组成一个关系三元组,如公式(7);其中,为句子k存在的关系,为句子k中的一对地理实体;该三元组的形式将语义关系实例作为属性表达式,用于描述地理实体指定类型的属性值;
再采用自适应多元组,将空间关系实例作为位置表达式,描述地理实体间的空间关系和语义关系,以弥补上述三元组因不能识别句中数量词,例如“3km”,而不能完整刻画地理实体间的度量关系的不足;自适应多元组的实施方法如下:若句中存在数量词,且位于entityB右边的3个窗口内,则提取该数量词和单位;根据关键词在句中的位置,按照句子原始的逻辑调整元组中各元素的顺序,并自适应地确定关系的维度以自动补齐数量词,如公式(8);为句子k中描述地理实体关系的数量词;当表示非度量关系时,该元素省去。
(7)
(8)
本发明解决的技术问题是:从海量的互联网资源中抽取出地理实体关系信息,构建形成地理实体的关系网络,如图3所示。以表1中一段文本为例,展示地理实体关系抽取;其中,左侧栏是一段自然语言描述的文本,右侧栏为抽取出的地理实体关系元组。
表1 地理实体关系抽取案例
本发明从巨大的互联网资源中抽取地理实体的关系描述关键词,构建地理实体关系元组,跟现有地理实体抽取技术相比,具有以下优势:
(1)将“扁平化”的地理实体库转化为“垂直网状”地理实体库来为地理实体推荐提供技术支持,同时丰富了地理信息检索方式,改变了传统的依赖关键词的搜索技术,提供地理知识图的新内容检索方式,可以提高在线地图网站、位置服务等应用产品服务水平。
(2)在缺乏大规模标注语料和地理知识库的前提下,能快速抽取地理关系描述词,提高运行效率,大大的降低人工成本,并且适用于表征关系词语稀疏分布的地理实体关系实例。
上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

Claims (2)

1.一种互联网文本蕴含地理实体关系的抽取方法,其特征在于:所述抽取方法包括以下步骤:
数据预处理:输入包含地理实体的网络文本,抽取地理实体间的空间关系或语义关系,得到原始语料,进一步得到原始语料对应的网页正文文本;对上述网页正文文本进行预处理得到候选关键词;
文档向量化:上述网页正文文本进行预处理之后,对文本进行相关的数学计算;采用词语级别的向量空间模型对文本进行向量化,按照下述公式(1)-(2)计算方法建立词语-语境矩阵,即word-context矩阵;
(1)
(2)
其中,C为所有语境的集合,语境的总数为N;语境是一系列词汇的集合;cj为词汇集合W的向量(j=1,2,…,N),向量cj中的元素wij为第i个词语wi在第j个语境中的权值(i=1,2,…,v);
权值计算:将输入的网络文本中的地理实体与句子中的其它地理实体组成一对,记作entityA和entityB;假设一对地理实体间隔越远语义越弱,当一对地理实体之间的词语个数大于5时,两者没有关系,不予处理;常用权值计算方法有三种,统计wi在cj中出现的次数方法,记作Frequency;Term Frequency-Inverse Document Frequency方法记作TF-IDF;Positive Pointwise Mutual Information方法记作PPMI;
观察语料得出以下结论:词语的词性、长度和位置在一定程度上反映了它在句中的重要性;描述地理实体间空间和语义关系的词语大多是简短的名词,例如“东边”、“北部”、“别名”,很少使用3个字以上的词语;关系词大多位于句子尾部,部分位于两个地理实体之间,很少位于句首;基于上述特征,提出以下假设:名词的权值更大;词语越短,权值越大;词语距离entityB越远,权值越大;基于以上假设,设计了新的权值计算方法,如公式(3)-(6);
(3)
(4)
(5)
(6)
其中,为词语词性的权值,词语词性记作为由词性和长度联合作用的影响因子,为词语wi的长度,分别为entityA、entityB、wi在句中的位置编号,为由和位置联合作用的影响因子,值的绝对值,为Frequency、TF-IDF或PPMI中任意一种权值,为词语wi在语境cj中的权值;
关键词提取:经过上述权值计算得到word-context权值矩阵;每个语境向量中的数字,即矩阵里的行中的数字体现了对应单词在当前语境中的重要性,直接从语境向量中选择权值最大的词语作为关键词,作为每个语境的关系名称;由于每个语境与地理实体对绑定,关键词提取后,即可得到地理实体对的关系;
关系元组构建:每个句子提取关键词之后,首先将它与句中的一对地理实体组成一个关系三元组,如公式(7);其中,为句子k存在的关系,为句子k中的一对地理实体;该三元组的形式将语义关系实例作为属性表达式,用于描述地理实体指定类型的属性值;
再采用自适应多元组,将空间关系实例作为位置表达式,描述地理实体间的空间关系和语义关系:若句中存在数量词,且位于entityB右边的3个窗口内,则提取该数量词和单位;根据关键词在句中的位置,按照句子原始的逻辑调整元组中各元素的顺序,并自适应地确定关系的维度以自动补齐数量词,如公式(8);为句子k中描述地理实体关系的数量词;当表示非度量关系时,该元素省去
(7)
(8)。
2.根据权利要求1所述的互联网文本蕴含地理实体关系的抽取方法,其特征在于:所述数据预处理的步骤包括:网页爬取、正文提取、分句、中文分词和词性标注、地理实体识别、语境构建;
网页爬取:获取包含地理实体的网络文本,从网络文本中抽取两个地理实体间的空间关系或语义关系;以现有地名数据库中的元素为地理实体,以地理实体为关键词,逐一在搜索引擎中查询相关HTML网页,爬取HTML网页内容作为地理实体关系抽取的原始语料;
正文提取:将上述爬取到的HTML网页找到相应的网页正文,对网页正文所在的位置进行处理,提取出网页正文纯文本;
分句:将网页正文纯文本拆分成句子,然后以逗号、分号、句号、省略号作为分割点将句子分割成多个子句,并采用简单的规则自动补齐句子中被省略或者替代的主语;对于没有查询词条的句子,若句首是“它”或者“她”,则将其替换成查询的词条,否则在句首添加查询的词条;
中文分词和词性标注:采用Stanfod CoreNLP集成套件对纯文本进行中文分词和词性标注;过滤掉与语义表达无关的停用词,包括标点、字符和虚词;
地理实体识别:对纯文本进行中文分词和词性标注之后,使用Stanfod CoreNLP集成套件识别命名句子中的地理实体,再将标签LOC、GPE和ORG替换为GEO,最后合并多个连续的GEO为一个地理实体;
语境构建:过滤停用词之后,将句中除地理实体对以外的所有名词、动词和介词作为语境,语境中的词语称为候选关键词。
CN201610135332.XA 2016-03-10 2016-03-10 一种互联网文本蕴含地理实体关系的抽取方法 Expired - Fee Related CN107180045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610135332.XA CN107180045B (zh) 2016-03-10 2016-03-10 一种互联网文本蕴含地理实体关系的抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610135332.XA CN107180045B (zh) 2016-03-10 2016-03-10 一种互联网文本蕴含地理实体关系的抽取方法

Publications (2)

Publication Number Publication Date
CN107180045A true CN107180045A (zh) 2017-09-19
CN107180045B CN107180045B (zh) 2020-10-16

Family

ID=59830225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610135332.XA Expired - Fee Related CN107180045B (zh) 2016-03-10 2016-03-10 一种互联网文本蕴含地理实体关系的抽取方法

Country Status (1)

Country Link
CN (1) CN107180045B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895285A (zh) * 2017-11-11 2018-04-10 北京小子科技有限公司 一种互联网广告的流量匹配算法
CN108564256A (zh) * 2018-03-22 2018-09-21 五邑大学 一种基于语义分析的水果电商产地适宜度评级方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109471936A (zh) * 2018-10-11 2019-03-15 上海叔本华智能科技有限公司 一种用于对设备维护信息进行特征分类的方法和系统
CN110275928A (zh) * 2019-06-24 2019-09-24 复旦大学 迭代式实体关系抽取方法
CN110750994A (zh) * 2019-10-23 2020-02-04 北京字节跳动网络技术有限公司 一种实体关系抽取方法、装置、电子设备及存储介质
CN110795573A (zh) * 2019-10-31 2020-02-14 北京邮电大学 一种网页内容的地理位置预测方法及装置
CN111241836A (zh) * 2020-01-03 2020-06-05 南京师范大学 基于文本中地理实体重要性的地图符号显示方法与装置
CN111444713A (zh) * 2019-01-16 2020-07-24 清华大学 新闻事件内实体关系抽取方法及装置
CN111737383A (zh) * 2020-05-21 2020-10-02 百度在线网络技术(北京)有限公司 提取地理位置点空间关系的方法、训练提取模型的方法及装置
CN111901450A (zh) * 2020-07-15 2020-11-06 安徽淘云科技有限公司 实体的地址确定方法、装置、设备及存储介质
CN112487196A (zh) * 2020-06-29 2021-03-12 孙炜 一种训练关系抽取模型并抽取嵌套命名实体关系的方法
CN112836062A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN113190655A (zh) * 2021-05-10 2021-07-30 南京大学 一种基于语义依赖的空间关系抽取方法及装置
CN113486676A (zh) * 2021-04-08 2021-10-08 中国地质大学(武汉) 一种面向地质文本的地质实体语义关系提取方法及装置
CN113505598A (zh) * 2021-08-06 2021-10-15 贵州江南航天信息网络通信有限公司 一种基于混合神经网络的网络文本实体关系抽取算法
CN113609312A (zh) * 2021-06-08 2021-11-05 电子科技大学 一种基于特征评估和关键词相似度的地理文本语料标注方法
CN114564966A (zh) * 2022-03-04 2022-05-31 中国科学院地理科学与资源研究所 一种基于知识图谱的空间关系语义分析的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040236730A1 (en) * 2003-03-18 2004-11-25 Metacarta, Inc. Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval
CN103207860A (zh) * 2012-01-11 2013-07-17 北大方正集团有限公司 舆情事件的实体关系抽取方法和装置
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040236730A1 (en) * 2003-03-18 2004-11-25 Metacarta, Inc. Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval
CN103207860A (zh) * 2012-01-11 2013-07-17 北大方正集团有限公司 舆情事件的实体关系抽取方法和装置
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895285A (zh) * 2017-11-11 2018-04-10 北京小子科技有限公司 一种互联网广告的流量匹配算法
CN108564256A (zh) * 2018-03-22 2018-09-21 五邑大学 一种基于语义分析的水果电商产地适宜度评级方法
CN109241538B (zh) * 2018-09-26 2022-12-20 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109471936A (zh) * 2018-10-11 2019-03-15 上海叔本华智能科技有限公司 一种用于对设备维护信息进行特征分类的方法和系统
CN111444713A (zh) * 2019-01-16 2020-07-24 清华大学 新闻事件内实体关系抽取方法及装置
CN111444713B (zh) * 2019-01-16 2022-04-29 清华大学 新闻事件内实体关系抽取方法及装置
CN110275928A (zh) * 2019-06-24 2019-09-24 复旦大学 迭代式实体关系抽取方法
CN110275928B (zh) * 2019-06-24 2022-11-22 复旦大学 迭代式实体关系抽取方法
CN110750994A (zh) * 2019-10-23 2020-02-04 北京字节跳动网络技术有限公司 一种实体关系抽取方法、装置、电子设备及存储介质
CN110795573A (zh) * 2019-10-31 2020-02-14 北京邮电大学 一种网页内容的地理位置预测方法及装置
CN110795573B (zh) * 2019-10-31 2021-09-28 北京邮电大学 一种网页内容的地理位置预测方法及装置
CN111241836A (zh) * 2020-01-03 2020-06-05 南京师范大学 基于文本中地理实体重要性的地图符号显示方法与装置
CN111737383B (zh) * 2020-05-21 2021-11-23 百度在线网络技术(北京)有限公司 提取地理位置点空间关系的方法、训练提取模型的方法及装置
CN111737383A (zh) * 2020-05-21 2020-10-02 百度在线网络技术(北京)有限公司 提取地理位置点空间关系的方法、训练提取模型的方法及装置
CN112487196A (zh) * 2020-06-29 2021-03-12 孙炜 一种训练关系抽取模型并抽取嵌套命名实体关系的方法
CN111901450A (zh) * 2020-07-15 2020-11-06 安徽淘云科技有限公司 实体的地址确定方法、装置、设备及存储介质
CN112836062A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN112836062B (zh) * 2021-01-13 2022-05-13 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN113486676A (zh) * 2021-04-08 2021-10-08 中国地质大学(武汉) 一种面向地质文本的地质实体语义关系提取方法及装置
CN113486676B (zh) * 2021-04-08 2023-08-11 中国地质大学(武汉) 一种面向地质文本的地质实体语义关系提取方法及装置
CN113190655A (zh) * 2021-05-10 2021-07-30 南京大学 一种基于语义依赖的空间关系抽取方法及装置
CN113190655B (zh) * 2021-05-10 2023-08-11 南京大学 一种基于语义依赖的空间关系抽取方法及装置
CN113609312A (zh) * 2021-06-08 2021-11-05 电子科技大学 一种基于特征评估和关键词相似度的地理文本语料标注方法
CN113505598A (zh) * 2021-08-06 2021-10-15 贵州江南航天信息网络通信有限公司 一种基于混合神经网络的网络文本实体关系抽取算法
CN114564966A (zh) * 2022-03-04 2022-05-31 中国科学院地理科学与资源研究所 一种基于知识图谱的空间关系语义分析的方法

Also Published As

Publication number Publication date
CN107180045B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN107180045A (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN109710701B (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN102890713B (zh) 一种基于用户当前地理位置和物理环境的音乐推荐方法
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
Su et al. Making sense of trajectory data: A partition-and-summarization approach
CN105045875B (zh) 个性化信息检索方法及装置
CN103455487B (zh) 一种搜索词的提取方法及装置
CN108446367A (zh) 一种基于知识图谱的包装行业数据搜索方法及设备
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN108446368A (zh) 一种包装产业大数据知识图谱的构建方法及设备
CN105468605A (zh) 一种实体信息图谱生成方法及装置
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN104834679B (zh) 一种行为轨迹的表示、查询方法及装置
Shen et al. SHINE+: A general framework for domain-specific entity linking with heterogeneous information networks
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN104699786A (zh) 一种语义智能搜索的通信网络投诉系统
CN102968465A (zh) 网络信息服务平台及其基于该平台的搜索服务方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN109582868A (zh) 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法
CN107016566A (zh) 基于本体的用户模型构建方法
CN109857952A (zh) 一种具有分类显示的搜索引擎及快速检索方法
Jiang et al. An indexing network: Model and applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201016