CA2917153A1

CA2917153A1 - Procede et systeme permettant de simplifier une prediction de relations rhetoriques implicites dans un corpus annote a grande echelle

Info

Publication number: CA2917153A1
Application number: CA2917153A
Authority: CA
Inventors: Blake HOWALD; Andrew NYSTROM
Original assignee: Thomson Reuters Global Resources ULC
Current assignee: Thomson Reuters Enterprise Centre GmbH
Priority date: 2013-07-03
Filing date: 2014-07-03
Publication date: 2015-01-08
Anticipated expiration: 2034-07-03
Also published as: CA2917153C; WO2015003143A3; WO2015003143A2; AU2014285073B2; AU2014285073B9; AU2014285073A1

Abstract

La présente invention se rapporte à un procédé et à un système permettant de prédire des relations rhétoriques implicites entre deux fragments d'un texte, par exemple dans un important corpus annoté, tel que le Penn Discourse Treebank (« PDTB »), le Rhetorical Structure Theory corpus et le Discourse Graph Bank, et permettent, en particulier, de déterminer une relation rhétorique en l'absence d'un marqueur de discours explicite. Des caractéristiques de niveau de surface peuvent être utilisées pour capturer des informations pragmatiques codées dans le marqueur absent. Selon une manière, une caractéristique simplifiée déterminée sur la base seulement d'un texte brut et de fonctions sémantiques est utilisée pour améliorer la performance de toutes les relations. En utilisant des caractéristiques de niveau de surface pour prédire des relations rhétoriques implicites pour l'important corpus annoté, l'invention se rapproche d'une performance maximale théorique, suggérant que davantage de données n'amélioreront pas nécessairement la performance sur la base de ces caractéristiques et de caractéristiques similaires.