CN112307364B - 一种面向人物表征的新闻文本发生地抽取方法 - Google Patents

一种面向人物表征的新闻文本发生地抽取方法 Download PDF

Info

Publication number
CN112307364B
CN112307364B CN202011336057.0A CN202011336057A CN112307364B CN 112307364 B CN112307364 B CN 112307364B CN 202011336057 A CN202011336057 A CN 202011336057A CN 112307364 B CN112307364 B CN 112307364B
Authority
CN
China
Prior art keywords
news
text
sentence
extraction
news text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011336057.0A
Other languages
English (en)
Other versions
CN112307364A (zh
Inventor
张宏莉
关皓天
王星
方滨兴
杨语晨
方依
孟超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202011336057.0A priority Critical patent/CN112307364B/zh
Publication of CN112307364A publication Critical patent/CN112307364A/zh
Application granted granted Critical
Publication of CN112307364B publication Critical patent/CN112307364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Remote Sensing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种面向人物表征的新闻文本发生地抽取方法,属于信息提取领域,用以解决在人物表征过程中现有的命名实体识别算法缺少语义结构信息分析,导致新闻文本中出现多个地名时难以分辨新闻发生地的问题。本发明的技术要点包括,对新闻文本数据集中新闻文本进行预处理;对预处理后的新闻文本中的实体及实体类别、段落特征、句子特征、词特征进行标注;对标注后的新闻文本中的地名关系进行抽取,构建新的地名实体知识图谱;并采用基于深度森林算法gcForest对新闻文本数据集中的新闻发生地进行预测抽取。本发明可用于新闻事件相关人物的特性表征。

Description

一种面向人物表征的新闻文本发生地抽取方法
技术领域
本发明涉及信息提取领域,具体涉及一种面向人物表征的新闻文本发生地抽取方法。
背景技术
目前,众多的研究人员就事件发生地抽取工作进行了广泛的研究。其中,有一些研究政治科学(political science)的研究人员提出了一些相关的研究成果。例如在一些相关工作中,作者分别以俄罗斯高加索地区(Russia’s North Caucasus)犯罪数据以及茅茅起义数据(Mau Mau rebellion)为数据集,分析事件发生地与政治事件之间的关系,两篇文章均使用了地名字典库作为事件发生地分析的依据,这种方式的优点是提高了地点识别的精准度(precision),但缺点是如果出现了其中不存在的地名便无法识别,模型也难以在其他系统中复用。
事件的分析需要对文本信息进行处理,识别文本中的位置名称是命名实体识别(NER)的一部分。目前,众多的研究人员就NER技术以及事件提取技术等方面进行了广泛的研究工作,并取得了很多重要的研究成果。Agarwal等提出的模型结合了Stanford NER工具和基于概念的词汇表,从推文中提取位置信息。为了从提取的位置短语中滤除噪声项,他们使用了具有以下三个特征的朴素贝叶斯分类器,分别是单词本身的POS标签,该单词前后各三个单词。为了消除地名的歧义,作者从世界地名录数据的倒排索引搜索和谷歌地图API的搜索组合中提取了经度和纬度信息用于地理位置的优化。Kazama等提出使用动词和多字名词之间依赖关系的大规模聚类来构建用于检测日文文本中的命名实体的地名词典。他们认为,由于依赖关系捕获了多个单词的语义,因此他们的集群字典是NER的一个很好的地名词典。此外,他们还将群集地名录与从维基百科中提取的地名词典相结合,以提高准确性。Ozer Ozdikis等提出了运用词汇之间的范式关系抽取Twitter文本中地点发生地的方式,由于其规定的范式有限,所以算法并不具有普适性;综上所述,现有技术在解决特定人物的表征问题时缺少对语义结构信息的分析,且当新闻文本中出现多个地名时难以分辨新闻发生的地点。
发明内容
鉴于以上问题,本发明提出一种面向人物表征的新闻文本发生地抽取方法,用以解决在人物表征过程中现有的命名实体识别算法缺少语义结构信息分析,导致新闻文本中出现多个地名时难以分辨新闻发生地的问题。
一种面向人物表征的新闻文本发生地抽取方法,包括以下步骤,
步骤一、建立新闻文本数据集;
步骤二、对新闻文本数据集中新闻文本进行预处理;
步骤三、利用命名实体识别算法对预处理后的新闻文本的句子中的实体及实体类别进行标注;
步骤四、对预处理后的新闻文本中的段落特征进行标注,包括段落文本类别特征提取、段落词性特征标注和段落语义依存关系标注;
步骤五、对预处理后的新闻文本中的句子特征进行标注,包括新闻文本与句子的类别特征提取,句子与标题的相对距离特征提取,句子标题相似度特征提取以及相邻句子相似度提取;
步骤六、对预处理后的新闻文本中的词特征进行标注,包括地名地理特征提取和地名频次特征提取;
步骤七、对经过步骤三、步骤四、步骤五、步骤六标注后的新闻文本中的发生地关系进行抽取,构建新的地名实体知识图谱;
步骤八、根据所述新的地名实体知识图谱,采用基于深度森林算法gcForest对新闻文本数据集中的新闻发生地进行预测抽取。
进一步地,步骤二中所述预处理包括缩略词处理、指代消解和词向量微调。
进一步地,所述缩略词处理包括通过构建的缩略词词库将缩略词进行展开,以识别新闻文本中出现的指代性缩略词;所述指代消解包括通过对句子进行语义结构分析,将句子中的指代词替换为相对应的名词实物;所述词向量微调包括引入预训练语言模型Bert,根据新闻文本数据集对Bert模型生成的词向量进行微调,获得词向量结果。
进一步地,步骤四中所述段落文本类别特征提取包括通过文本分类算法判断新闻文本所属类别;所述段落词性特征标注包括结合POS tagging词性标注方法构建Bi-LSTM模型,获得段落词性特征标注;所述段落语义依存关系标注包括通过对句子语义结构分析,获得段落语义依存关系标注。
进一步地,步骤五中所述新闻文本与句子的类别特征提取包括通过文本分类算法判断句子所属类别,并将该类别与段落文本类别特征进行比较来判断句子与整篇新闻文本的相关度;所述句子与段落标题的相对距离特征提取包括通过对新闻文本长度及句子,与新闻文本标题距离的计算,获得句子与段落标题的相对距离;所述句子标题相似度特征提取包括通过文本相似度算子计算句子与标题的相似度;所述相邻句子相似度提取包括通过文本相似度算子计算句子与其相邻句子的相似度。
进一步地,步骤六中所述地名地理特征提取包括对已知地名数据集及已知地名实体知识图谱信息的查询,获得地名的行政区划、经纬度;所述地名频次特征提取包括结合地名地理特征获取的地名的出现频次特征对叫法不同但指代地点相同的地名进行分析。
进一步地,步骤七具体包括以下步骤,
步骤七一、采取基于Bi-LSTM的关系抽取方法分析新闻文本句子中实体间的关系;
步骤七二、训练关系抽取模型KGM,并使用所述关系抽取模型KGM从新闻文本中抽取出构成关系的地名实体对;
步骤七三、将实体对加入到地名实体知识图谱中,即获得新的地名实体知识图谱。
进一步地,步骤八具体包括以下步骤,
步骤八一、使用动态扫描窗对待抽取新闻数据集进行多粒度扫描,获得待抽取新闻数据集的特征向量;
步骤八二、将得到的特征向量输入到级联森林模型中进行预测训练,获取新闻发生地抽取结果。
进一步地,步骤八二中级联森林模型中每一层选取多种不同类型的随机森林。
进一步地,步骤八二中级联森林模型中每一层输入数据通过以下步骤获取,每个随机森林中的每一个决策树对于输入特征向量会产生一个针对生成类别的分布向量,将所有决策树产生的分布向量进行平均,获取每个随机森林对应的类分布向量;然后将每个随机森林输出的类分布向量与初始输入特征向量进行拼接,作为下一层的输入数据。
本发明的有益技术效果是:在人物画像应用中,针对人物表征过程中命名实体识别算法缺少语义结构信息分析,导致新闻文本中出现多个地名时难以分辨新闻发生地的问题,提出一种全新的基于深度森林算法以及知识图谱的面向人物表征的新闻文本发生地抽取方法,相比于经典的命名实体识别方法,加入了对于语义信息的理解,具有较高的准确度,实现了较高的新闻文本发生地识别率和鲁棒性。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。
图1示出了根据本发明实施方式一种面向人物表征的新闻文本发生地抽取方法的示意性流程图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本发明内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明将新闻中所描述的主题内容称为该篇新闻的文本事件,新闻文本事件定义如下:一个新闻文本事件至少要有一个参与者和事件触发词:参与者可以是人或者指代词(美国总统,她,我)、动物(猫,狗)、物体(火车,飞机),通常情况下文本事件参与者都是作为主语或宾语出现;文本事件触发词同时是动词,描述了一个行为或者结果;且文本事件与文本主题密切相关。新闻文本事件包含几大要素:包括时间、地点、人物等,由于文本事件与文本主题密切相关,则文本事件地点即本发明所要抽取的发生地,称之为新闻文本发生地。
针对人物表征过程中命名实体识别算法缺少语义结构信息分析,导致新闻文本中出现多个地名时难以分辨新闻发生地的问题,本发明提出一种全新的基于深度森林算法以及知识图谱的面向人物表征的新闻文本发生地抽取方法,抽取人物相关新闻文本的发生地可作为该人物地理属性的一部分,从而进一步完善该人物的人物表征。图1示出了根据本发明实施方式一种面向人物表征的新闻文本发生地抽取方法的示意性流程图。
该方法包括以下步骤:
步骤一、建立新闻文本数据集;
根据本发明实施例,本发明采用的两个数据集为The Atrocities Event Data新闻数据集和自行爬取的网络新闻数据集,其中,The Atrocities Event Data是关于若干地点的暴行和大规模杀戮的新闻报道的集合,数据集中已进行人工标注,标注注释包括受害者、焦点位置以及报告事件的报告;自行爬取的网络新闻数据集是从近100个英文新闻网站中使用网络爬虫爬取得到的共334782条新闻文本。
步骤二、对新闻文本数据集中新闻文本进行预处理,从而使得新闻文本中的句子包含的信息更充实;其中,预处理包括缩略词处理、指代消解和词向量微调;
缩略词处理包括通过构建的缩略词词库将缩略词进行展开,以识别新闻文本中出现的指代性缩略词;
根据本发明实施例,在英文文本中,通常具有大量的缩略词,比如通常使用NYC表示New York City,使用US表示United States等,本发明建立了一个与地名有关的缩略词库,可以将其理解为一个“缩略词-地名”的字典。处理时将新闻文本中遇到的缩略词在缩略词词库中进行搜索,如果存在则替换为完整的地名,否则不进行处理。
指代消解包括通过对句子进行语义结构分析,将句子中的指代词替换为相对应的名词实物,以避免之后的步骤中对于语义的理解出现偏差。
根据本发明实施例,在新闻文本中关于地名指代可能会出现两种不同的情况:1)在前文中提及了某城市的名称,如White House,在后文中可能会使用The House指代前文的White House;2)极少数新闻中可能会出现包含our country、our city等词的句子。这些情况都是噪声,为了避免这种情况,本发明先对训练集中的每篇新闻文本进行指代消解,去除噪声,提高特征提取的效果进而能够提升最终的抽取结果。
词向量微调包括引入预训练语言模型Bert,根据新闻文本数据集对Bert模型生成的词向量进行微调,获得词向量结果;
根据本发明实施例,现有模型无法理解自然语言的词语,因此需要将这些词转化为机器能够理解的向量,简单的做法是用一个高维的向量表示词,将这些词进行编码,即可用向量表示词。Bert模型是基于Transformers架构的双向编码器,通过对左右的上下文的联合来预训练未标记文本得到深层的双向表示,是一个能力较强的预训练模型。
步骤三、利用命名实体识别算法对预处理后的新闻文本的句子中的实体及实体类别进行标注;
根据本发明实施例,通过引入命名实体识别算法spaCy(开源的第三方库),将句子中的实体及实体类别进行标注,为之后步骤中的地点判定提供依据。首先对新闻文本进行实体识别,识别出其中的人名与地名集合后,再对新闻文本进行人工标注。
步骤四、对预处理后的新闻文本中的段落特征进行标注,包括段落文本类别特征提取、段落词性特征标注和段落语义依存关系标注。
步骤四一、段落文本类别特征提取包括通过文本分类算法判断新闻文本所属类别;
根据本发明实施例,将新闻文本分成9个类别,分别是食品安全、突发事件、民生权益、吏治反腐、社会矛盾、政治、经济、军事以及其他;目前已知的文本分类算法有很多,比如贝叶斯分类算法、K近邻算法、决策树、遗传算法等,本发明中文本分类算法采用非监督学习算法-隐含狄利克雷分布LDA算法。
步骤四二、段落词性特征标注包括结合POS tagging词性标注方法构建Bi-LSTM模型,获得段落词性特征标注;
根据本发明实施例,长短期记忆网络LSTM(Long Short-Term Memory)是一个特殊的循环神经网络,前向的LSTM与后向的LSTM结合成Bi-LSTM模型,该模型通过深度学习方法可以获得较高的词性标注准确率。
步骤四三、段落语义依存关系标注包括通过对句子语义结构分析,获得段落语义依存关系标注。
步骤五、对预处理后的新闻文本中的句子特征进行标注,包括新闻文本与句子的类别特征提取,句子与标题的相对距离特征提取,句子标题相似度特征提取以及相邻句子相似度提取。
步骤五一、新闻文本与句子的类别特征提取,包括通过文本分类算法判断句子所属类别,并将该类别与段落文本类别特征进行比较来判断句子与整篇新闻文本的相关度;
根据本发明实施例,句子与整篇新闻文本的相关度高说明句子中包含新闻发生地的可能性大。
步骤五二、句子与段落标题的相对距离特征提取,包括通过对新闻文本长度及句子,与新闻文本标题距离的计算,获得句子与段落标题的相对距离;
根据本发明实施例,由于大多数新闻文本具有主题句大多位于段落较前位置的特征,计算句子与标题的相对距离可作为判定句子重要程度的依据。
步骤五三、句子标题相似度特征提取,包括通过文本相似度算子计算句子与标题的相似度;
根据本发明实施例,使用TF-IDF算法计算句子与标题之间的相似度,句子与标题的相似度可作为该句子是否是文章的中心句子的判断依据。
步骤五四、相邻句子相似度提取,包括通过文本相似度算子计算句子与其相邻句子的相似度;
根据本发明实施例,使用TF-IDF算法计算相邻句子之间的文本相似度,用以解决在自然语言文本中可能会出现的事件指代现象,即可能在一篇文章中出现如下的情况:在某关联度很高的句子中不包含任何地名,其后的句子中出现了地名,但与标题的相似度不高。因此,在抽取发生地时需要考虑附近关联度。
步骤六、对预处理后的新闻文本中的词特征进行标注,包括地名地理特征提取和地名频次特征提取。
步骤六一、地名地理特征提取,包括对已知地名数据集及已知地名实体知识图谱信息的查询,获得地名的行政区划、经纬度;
根据本发明实施例,已知地名数据集为Mordecai数据集。
步骤六二、地名频次特征提取,包括结合地名地理特征获取的地名的出现频次特征对叫法不同但指代地点相同的地名进行分析。
步骤七、对经过步骤三、步骤四、步骤五、步骤六标注后的新闻文本中的发生地关系进行抽取,构建新的地名实体知识图谱。
根据本发明实施例,在计算地点频次特征和发生地的关系识别时,需要识别地点间的包含关系,其中部分地名可以在Mordecai数据集中找到,且能发现与该地名有关的包含与被包含关系。但是有以下四种情况是地名库无法应对的:(1)非标准地名,即通过一些关于名人或著名事件来描述的地名,例如“今天来到了亚伯拉罕林肯的出生地”,对于这种地名的描述,是无法在地名库中发现的,只能通过将地名与林肯关联起来,才能找到相应的地名;(2)详细地名,即地名已经精确到了街道或门牌号;这种地名是无法在地址库中收录的,因为这些信息数据量庞大无法存储,并且非常详细的地点通常不是固定的,城市规划改变后相应的信息也会改变,无法及时的更新地名库;(3)未收录的地名,地名库中无法将世界上每个国家的地名都进行收录,很多地名都无法在地址库中查询;(4)不常见地名缩写,一些情况下,新闻文本为了保证其行文的简洁性,会在文章中使用缩写代替,如果不是文章中有所交代,很难将其成功识别。因此,需要构建新的地名实体知识图谱以获取地名之间的关系。
本发明采用一种基于关系抽取模型(KGM,Knowledge Graph Model)的知识图谱构建方法。该知识图谱构建方法包括,首先,采取基于Bi-LSTM的关系抽取方法分析句子中实体间的关系;然后,训练关系抽取模型KGM模型,并使用该模型从文章中抽取出构成关系的实体对;最后,将实体对加入到地名实体知识图谱中。
步骤八、根据新的地名实体知识图谱,采用基于深度森林算法gcForest对新闻文本数据集中的新闻发生地进行预测抽取。
根据本发明实施例,深度森林算法gcForest是一种决策树集成方法,性能比深度神经网络具有更强的竞争力。相比于深度神经网络对参数的依赖,gcForest算法在训练速度方面有着巨大优势,其训练过程效率高且可扩展。
步骤八一、使用动态扫描窗对待抽取新闻数据集进行多粒度扫描,获得待抽取新闻数据集的特征向量;
根据本发明实施例,多粒度扫描模块通过扫描窗将全部数据集分为多个子数据集,本发明根据数据长度自定义了动态扫描窗,以获得多样化的子数据集。
设每个特征向量的维数为Nx,则动态扫描窗的长度为Wx,可表示为:
Wx=CxNx(Cx=1,...,Cmax)
其中,Cx表示扫描窗个数,其取值根据情况动态变化。
由于新闻发生地抽取任务需要对语句进行语义理解,本发明采用动态扫描窗,以句中词语的依存关系为依据,由句中核心动词开始扫描,每次窗口中获取的特征为与当前特征存在语义依存关系的特征,直至无法获取依存关系结束。
步骤八二、将得到的特征向量输入到级联森林模型中进行预测训练,获取新闻发生地抽取结果。
根据本发明实施例,级联森林模块中每一层都由多个随机森林组成,通过随机森林学习输入特征向量的特征信息,经过处理后输入到下一层。为了增强模型的泛化能力,每一层选取多种不同类型的随机森林,随机森林分为两类,分别为completely-random treeforests和random forests。其中,每个completely-random tree forests包含500棵树,每个节点通过随机选取一个特征作为判别条件,并根据这个判别条件生成子节点,直到每个叶子节点只包含同一类的实例而停止;每个random forests同样包含500棵树,节点特征的选择通过随机选择
Figure BDA0002797243200000081
个特征(d为输入特征的数量),然后选择基尼系数最大特征作为该节点划分的条件。
计算过程中,每棵决策树都会对输入特征向量产生一个针对生成类别的分布向量,由于本发明将该问题定义为二分类问题,这里的分布向量即为二维度矩阵。每棵树产生分布矩阵后,将所有树的产生概率分布向量进行平均来产生随机森林输出的类分布向量;然后对当前层的每个随机森林输出的类分布向量与原始的特征向量进行拼接,作为下一层的输入。
将每一颗决策树的类别参数记为v,将不同层树中决策森林的位置编号记为k,q,则一对原始向量(xi,yj)为k,q位置处的第t树属于第c类的概率即为
Figure BDA0002797243200000082
则该位置的类别参数即可记为:
Figure BDA0002797243200000083
其中,T为树参数集。依次计算便可获得类向量
Figure BDA0002797243200000084
Figure BDA0002797243200000091
由此,第一层级联后的级联向量
Figure BDA0002797243200000092
便可表示为:
Figure BDA0002797243200000093
最后通过层层级联得到最后的预测结果。
将本发明方法与文献[1]中的ProfileKMM模型在新闻文本发生地抽取上进行比较,ProfileKMM模型通过提取语义特征来解决自动预测基于事件的新闻报道的主要焦点位置的问题,在相同数据集上的测评结果如表1所示。其中,F1分数是统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的精确率和召回率,F1分数可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0,F1分数被广泛应用在自然语言处理领域,用来衡量算法或系统的性能。
表1测评结果
Figure BDA0002797243200000094
由表1可以看出,本发明方法在准确率、召回率和F1值方面要优于ProfileKMM模型。这是由于输入向量的不同造成的,在验证过程中,ProfileKMM模型的输入为地名的向量表示,即输入的每个特征向量均是地名的特征向量,而在测试阶段,ProfileKMM模型的输入为包含地名的句子,并且该句子中的每个词均用相应的向量表示,即ProfileKMM模型并不知道句子中的哪个词是地名,很有可能会将地名词识别成其它。由此可见,本发明方法在新闻文本发生地的识别率上有一定的优势。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
本发明援引的文献如下:
[1]Imani M B,Chandra S,Ma S,et al.Focus location extraction frompolitical news reports with bias correction[C]//2017 IEEE InternationalConference on Big Data(Big Data).IEEE,2017:1956-1964.

Claims (8)

1.一种面向人物表征的新闻文本发生地抽取方法,其特征在于,包括以下步骤,
步骤一、建立新闻文本数据集;
步骤二、对新闻文本数据集中新闻文本进行预处理;
步骤三、利用命名实体识别算法对预处理后的新闻文本的句子中的实体及实体类别进行标注;
步骤四、对预处理后的新闻文本中的段落特征进行标注,包括段落文本类别特征提取、段落词性特征标注和段落语义依存关系标注;所述段落文本类别特征提取包括通过文本分类算法判断新闻文本所属类别;所述段落词性特征标注包括结合POS tagging词性标注方法构建Bi-LSTM模型,获得段落词性特征标注;所述段落语义依存关系标注包括通过对句子语义结构分析,获得段落语义依存关系标注;
步骤五、对预处理后的新闻文本中的句子特征进行标注,包括新闻文本与句子的类别特征提取,句子与标题的相对距离特征提取,句子标题相似度特征提取以及相邻句子相似度提取;
步骤六、对预处理后的新闻文本中的词特征进行标注,包括地名地理特征提取和地名频次特征提取;其中,所述地名地理特征提取包括对已知地名数据集及已知地名实体知识图谱信息的查询,获得地名的行政区划、经纬度;
步骤七、对经过步骤三、步骤四、步骤五、步骤六标注后的新闻文本中的发生地关系进行抽取,构建新的地名实体知识图谱;
步骤八、根据所述新的地名实体知识图谱,采用基于深度森林算法gcForest对新闻文本数据集中的新闻发生地进行预测抽取;具体包括以下步骤:
步骤八一、使用动态扫描窗对待抽取新闻数据集进行多粒度扫描,获得待抽取新闻数据集的特征向量,以句中词语的依存关系为依据,由句中核心动词开始扫描,每次窗口中获取的特征为与当前特征存在语义依存关系的特征,直至无法获取依存关系结束;所述动态扫描窗为:
Wx=CxNx
其中,Wx表示动态扫描窗的长度;Cx表示动态扫描窗个数,Cx=1,...,Cmax,Cmax是扫描窗动态变化的最大个数;Nx表示每个特征向量的维数;
步骤八二、将得到的特征向量输入到级联森林模型中进行预测训练,获取新闻发生地抽取结果。
2.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤二中所述预处理包括缩略词处理、指代消解和词向量微调。
3.根据权利要求2所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,所述缩略词处理包括通过构建的缩略词词库将缩略词进行展开,以识别新闻文本中出现的指代性缩略词;所述指代消解包括通过对句子进行语义结构分析,将句子中的指代词替换为相对应的名词实物;所述词向量微调包括引入预训练语言模型Bert,根据新闻文本数据集对Bert模型生成的词向量进行微调,获得词向量结果。
4.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤五中所述新闻文本与句子的类别特征提取包括通过文本分类算法判断句子所属类别,并将该类别与段落文本类别特征进行比较来判断句子与整篇新闻文本的相关度;所述句子与段落标题的相对距离特征提取包括通过对新闻文本长度及句子,与新闻文本标题距离的计算,获得句子与段落标题的相对距离;所述句子标题相似度特征提取包括通过文本相似度算子计算句子与标题的相似度;所述相邻句子相似度提取包括通过文本相似度算子计算句子与其相邻句子的相似度。
5.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤六中所述地名频次特征提取包括结合地名地理特征获取的地名的出现频次特征对叫法不同但指代地点相同的地名进行分析。
6.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤七具体包括以下步骤,
步骤七一、采取基于Bi-LSTM的关系抽取方法分析新闻文本句子中实体间的关系;
步骤七二、训练关系抽取模型KGM,并使用所述关系抽取模型KGM从新闻文本中抽取出构成关系的地名实体对;
步骤七三、将实体对加入到地名实体知识图谱中,即获得新的地名实体知识图谱。
7.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤八二中级联森林模型中每一层选取多种不同类型的随机森林。
8.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤八二中级联森林模型中每一层输入数据通过以下步骤获取,每个随机森林中的每一个决策树对于输入特征向量会产生一个针对生成类别的分布向量,将所有决策树产生的分布向量进行平均,获取每个随机森林对应的类分布向量;然后将每个随机森林输出的类分布向量与初始输入特征向量进行拼接,作为下一层的输入数据。
CN202011336057.0A 2020-11-25 2020-11-25 一种面向人物表征的新闻文本发生地抽取方法 Active CN112307364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011336057.0A CN112307364B (zh) 2020-11-25 2020-11-25 一种面向人物表征的新闻文本发生地抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011336057.0A CN112307364B (zh) 2020-11-25 2020-11-25 一种面向人物表征的新闻文本发生地抽取方法

Publications (2)

Publication Number Publication Date
CN112307364A CN112307364A (zh) 2021-02-02
CN112307364B true CN112307364B (zh) 2021-10-29

Family

ID=74335622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011336057.0A Active CN112307364B (zh) 2020-11-25 2020-11-25 一种面向人物表征的新闻文本发生地抽取方法

Country Status (1)

Country Link
CN (1) CN112307364B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926304B (zh) * 2021-04-06 2021-11-09 数库(上海)科技有限公司 判断新闻中主要关联公司的方法及相关设备
CN113268680A (zh) * 2021-06-11 2021-08-17 完美世界控股集团有限公司 一种新闻发生地识别方法、装置、存储介质及计算设备
CN113626536B (zh) * 2021-07-02 2023-08-15 武汉大学 一种基于深度学习的新闻地理编码方法
CN114416992A (zh) * 2022-01-18 2022-04-29 新华智云科技有限公司 一种基于机器学习的实体文本相关度计算方法和系统
CN114758790A (zh) * 2022-05-10 2022-07-15 中电云数智科技有限公司 一种涉疫信息的存储和查询方法和装置
CN118151763B (zh) * 2024-05-11 2024-07-02 南京审计大学 一种人机交互系统和人机交互方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105573981A (zh) * 2015-12-17 2016-05-11 厦门市美亚柏科信息股份有限公司 一种提取中文人名地名的方法及装置
CN109033358A (zh) * 2018-07-26 2018-12-18 李辰洋 新闻聚合与智能实体关联的方法
CN109408806A (zh) * 2018-09-11 2019-03-01 中国电子科技集团公司第二十八研究所 一种基于英文语法规则的事件提取方法
CN110532390A (zh) * 2019-08-26 2019-12-03 南京邮电大学 一种基于ner与复杂网络特征的新闻关键词提取方法
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法
WO2020183316A1 (en) * 2019-03-12 2020-09-17 International Business Machines Corporation Deep forest model development and training
CN111860673A (zh) * 2020-07-28 2020-10-30 河北工业大学 基于分箱置信度筛选深度森林的机器学习分类方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408093B (zh) * 2014-11-14 2018-01-26 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN104731768B (zh) * 2015-03-05 2017-10-20 西安交通大学城市学院 一种面向中文新闻文本的事件地点抽取方法
US20180018333A1 (en) * 2016-07-18 2018-01-18 Bioz, Inc. Continuous evaluation and adjustment of search engine results
CN108536673B (zh) * 2018-03-16 2022-06-21 数库(上海)科技有限公司 新闻事件抽取方法及装置
CN108776820A (zh) * 2018-06-07 2018-11-09 中国矿业大学 一种利用宽度神经网络改进的随机森林集成方法
CN110633409B (zh) * 2018-06-20 2023-06-09 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法
CN110377738A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105573981A (zh) * 2015-12-17 2016-05-11 厦门市美亚柏科信息股份有限公司 一种提取中文人名地名的方法及装置
CN109033358A (zh) * 2018-07-26 2018-12-18 李辰洋 新闻聚合与智能实体关联的方法
CN109408806A (zh) * 2018-09-11 2019-03-01 中国电子科技集团公司第二十八研究所 一种基于英文语法规则的事件提取方法
WO2020183316A1 (en) * 2019-03-12 2020-09-17 International Business Machines Corporation Deep forest model development and training
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法
CN110532390A (zh) * 2019-08-26 2019-12-03 南京邮电大学 一种基于ner与复杂网络特征的新闻关键词提取方法
CN111860673A (zh) * 2020-07-28 2020-10-30 河北工业大学 基于分箱置信度筛选深度森林的机器学习分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于隐语义模型与深度森林的人力资源推荐算法";古振威;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第12期);I138-1821 *
"面向新闻的发生地抽取研究";方依;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第01期);I138-4416 *

Also Published As

Publication number Publication date
CN112307364A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
Gupta et al. A survey of text question answering techniques
US9183274B1 (en) System, methods, and data structure for representing object and properties associations
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
Atia et al. Increasing the accuracy of opinion mining in Arabic
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
CN114661872B (zh) 一种面向初学者的api自适应推荐方法与系统
Prabowo et al. Hierarchical multi-label classification to identify hate speech and abusive language on Indonesian twitter
CN113157859A (zh) 一种基于上位概念信息的事件检测方法
CN114756733A (zh) 一种相似文档搜索方法、装置、电子设备及存储介质
CN114997288A (zh) 一种设计资源关联方法
Kamdi et al. Keywords based closed domain question answering system for indian penal code sections and indian amendment laws
Inan et al. A sequence learning method for domain-specific entity linking
Defersha et al. Deep learning based multilabel hateful speech text comments recognition and classification model for resource scarce ethiopian language: The case of afaan oromo
Belliardo et al. Leave no Place Behind: Improved Geolocation in Humanitarian Documents
CN112269852B (zh) 生成舆情专题方法、系统及存储介质
Singh et al. Deep neural based name entity recognizer and classifier for English language
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN114756650A (zh) 一种超大规模数据自动化比对分析处理方法及系统
CN114154496A (zh) 基于深度学习bert模型的煤监类案对比方法及装置
Shirafuji et al. Argument extraction for key point generation using mmr-based methods
Arnfield Enhanced Content-Based Fake News Detection Methods with Context-Labeled News Sources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant