DE202022100824U1 - Ein System zur Erstellung von Zusammenfassungen aus den Geschichten durch Extraktion wichtiger Merkmale - Google Patents

Ein System zur Erstellung von Zusammenfassungen aus den Geschichten durch Extraktion wichtiger Merkmale Download PDF

Info

Publication number
DE202022100824U1
DE202022100824U1 DE202022100824.8U DE202022100824U DE202022100824U1 DE 202022100824 U1 DE202022100824 U1 DE 202022100824U1 DE 202022100824 U DE202022100824 U DE 202022100824U DE 202022100824 U1 DE202022100824 U1 DE 202022100824U1
Authority
DE
Germany
Prior art keywords
processing unit
stories
extracting
relationship
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE202022100824.8U
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE202022100824.8U priority Critical patent/DE202022100824U1/de
Publication of DE202022100824U1 publication Critical patent/DE202022100824U1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Ein System zur Erstellung von Zusammenfassungen aus den Kurzgeschichten durch Extraktion wichtiger Merkmale, wobei das System umfasst:
eine Vorverarbeitungseinheit zur Identifizierung wichtiger Entitäten, in der Prozesse wie Satz- und Werk-Tokenisierung, POS-Tagging und Named Entity Recognition durchgeführt werden;
eine Verarbeitungseinheit für die Merkmalsextraktion zum Extrahieren wichtiger Merkmale wie Akteur, Beziehung, Ort und Ereignis aus den Geschichten, um eine aussagekräftige Zusammenfassung zu erstellen;
eine Merkmalsbeziehungs-Verarbeitungseinheit zum Extrahieren von Bedeutungsbeziehungen zwischen zwei oder mehr Entitäten aus den Texten, wie Ort, Person, Beziehung und Ereignis; und
eine Zusammenfassungs-Verarbeitungseinheit zum Erzeugen einer Zusammenfassung in Abhängigkeit von den hoch bewerteten Sätzen, die aus der maximalen Anzahl von Merkmalen besteht, die in aufsteigender Reihenfolge angeordnet sind.

Description

  • BEREICH DER ERFINDUNG
  • Die vorliegende Offenlegung bezieht sich auf ein System zur Erstellung von Zusammenfassungen aus den Kurzgeschichten durch Extraktion wichtiger Merkmale.
  • HINTERGRUND DER ERFINDUNG
  • Das Internet ist mit zahlreichen Datenmengen gefüllt und es wird immer schwieriger, die relevantesten Inhalte daraus zu finden. Die Prozesse der manuellen Zusammenfassung eines Textdokuments durch den Menschen ist sehr mühsame Arbeit, die einen Bedarf an einem Ansatz, der ein Textdokument in kürzerer Zeit zusammenfassen kann und dass auch in seiner genauen für schafft, und diese Prozesse ist bekannt als Text-Zusammenfassung und durch diese das Dokument in weniger Zeit mit einer reduzierten Größe zusammengefasst werden kann.
  • Ein Prozess der Textzusammenfassung kann durch das Verständnis wichtiger Texte aus den Dokumenten unter Verwendung linguistischer Techniken erfolgen. Eine extraktive Zusammenfassung ist ein Prozess, bei dem die wesentlichen Informationen aus dem Quelltextdokument extrahiert werden, um eine Zusammenfassung dieses bestimmten Dokuments zu erstellen, ohne die Bedeutung während der Zusammenfassung zu verändern.
  • Um die Notwendigkeit der Zusammenfassung eines Textdokuments in kürzerer Zeit zu erleichtern, besteht ein Bedarf an einem solchen Ansatz, der wichtige Merkmale aus dem Quelldokument extrahieren und das Dokument zusammenfassen kann, ohne dessen Bedeutung zu verändern.
  • In Anbetracht der vorangegangenen Diskussion wird deutlich, dass ein System zur Erstellung von Zusammenfassungen aus Kurzgeschichten durch Extraktion wichtiger Merkmale benötigt wird.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Offenlegung bezieht sich auf ein System zur Erzeugung von Zusammenfassungen aus den Kurzgeschichten durch Extraktion wichtiger Merkmale. In dem vorgeschlagenen System werden die Kurzgeschichten zunächst vorverarbeitet, wobei Tokenisierung, POS-Tagging und Named Entity Recognition durchgeführt werden, wobei in dieser Offenlegung zehn Geschichten genommen werden, die aus dem Web extrahiert werden, und wobei die Textdateien als S1, S2, S3, S4, S5, S6, S7, S8, S9 und S10 bezeichnet werden und alle diese Geschichten moralische Geschichten sind.Das vorgeschlagene System erstellt Zusammenfassungen, indem es Merkmale wie Schauspieler, Beziehungen, Orte und Ereignisse aus den Kurzgeschichten extrahiert, indem es einige Regeln verwendet, wobei das vorgeschlagene System ein hybrider Ansatz ist, da es die Merkmale von überwachten und unbeaufsichtigten Methoden miteinander verknüpft. Das System identifiziert die Hauptfiguren und die Sätze, die mit ihnen in Verbindung stehen. Danach werden die Sätze analysiert, um Beziehungen und Orte zu extrahieren, die ein wichtiger Bestandteil der Zusammenfassung sind. Die extrahierten Begriffe werden zum Extrahieren der Sätze verwendet, und schließlich werden die Sätze geordnet und eine Zusammenfassung erstellt.
  • Die vorliegende Offenlegung zielt darauf ab, ein System zur Erzeugung von Zusammenfassungen aus den Kurzgeschichten durch Extraktion wichtiger Merkmale bereitzustellen. Das System umfasst: eine Vorverarbeitungseinheit zum Identifizieren wichtiger Entitäten, wobei Prozesse wie Satz- und Arbeits-Tokenisierung, POS-Tagging und Named-Entity-Recognition durchgeführt werden; eine Merkmalsextraktions-Verarbeitungseinheit zum Extrahieren wichtiger Merkmale wie Schauspieler, Beziehung, Ort und Ereignis aus den Geschichten, um eine aussagekräftige Zusammenfassung zu erzeugen; eine Merkmalsbeziehungs-Verarbeitungseinheit zum Extrahieren von Bedeutungsbeziehungen zwischen zwei oder mehr Entitäten aus den Texten wie Ort, Person, Beziehung und Ereignis; und eine Zusammenfassungs-Verarbeitungseinheit zum Erzeugen von Zusammenfassungen in Abhängigkeit von den hochrangigen Sätzen, die aus der maximalen Anzahl von Merkmalen bestehen, die in aufsteigender Reihenfolge angeordnet sind.
  • Ein Ziel der vorliegenden Offenlegung ist es, ein System zur Erstellung von Zusammenfassungen aus den Kurzgeschichten durch Extraktion wichtiger Merkmale bereitzustellen.
  • Ein weiterer Gegenstand der vorliegenden Offenbarung ist die Durchführung von Tokenisierung, POS-Tagging und Named Entity Recognition auf dem Textdokument von zehn Kurzgeschichten, wobei Textdokumente in Token unterteilt werden.
  • Ein weiterer Gegenstand der vorliegenden Offenbarung ist die Tokenisierung des Textdokuments in Sätze und die anschließende Tokenisierung der Sätze in Wörter.
  • Ein weiteres Ziel der vorliegenden Offenlegung ist es, wichtige Merkmale aus den Geschichten zu extrahieren, wie z. B. Schauspieler, Beziehungen, Orte und Ereignisse.
  • Ein weiteres Ziel der vorliegenden Offenbarung ist die Erstellung der Zusammenfassung unter Verwendung der extrahierten Merkmale.
  • Zur weiteren Verdeutlichung der Vorteile und Merkmale der vorliegenden Offenbarung wird eine genauere Beschreibung der Erfindung durch Bezugnahme auf bestimmte Ausführungsformen gegeben, die in den beigefügten Figuren dargestellt sind. Es wird davon ausgegangen, dass diese Figuren nur typische Ausführungsformen der Erfindung darstellen und daher nicht als Einschränkung des Umfangs der Erfindung zu betrachten sind. Die Erfindung wird mit zusätzlicher Spezifität und Detail mit den beigefügten Figuren beschrieben und erläutert werden.
  • Figurenliste
  • Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Offenbarung werden besser verstanden, wenn die folgende detaillierte Beschreibung unter Bezugnahme auf die beigefügten Figuren gelesen wird, in denen gleiche Zeichen gleiche Teile in den Figuren darstellen, wobei:
    • 1 ein Blockdiagramm eines Systems zur Erstellung von Zusammenfassungen aus den Kurzgeschichten durch Extraktion wichtiger Merkmale gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt;
    • 2 ein Blockdiagramm einer Vorverarbeitungseinheit gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt;
    • 3 ein Blockdiagramm einer Verarbeitungseinheit zur Merkmalsextraktion in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung zeigt; und
    • 4 eine Tabelle mit den Ergebnissen der Zusammenfassungserstellung gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt.
  • Der Fachmann wird verstehen, dass die Elemente in den Figuren der Einfachheit halber dargestellt sind und nicht unbedingt maßstabsgetreu gezeichnet wurden. Die Flussdiagramme veranschaulichen beispielsweise das Verfahren anhand der wichtigsten Schritte, um das Verständnis der Aspekte der vorliegenden Offenbarung zu verbessern. Darüber hinaus kann es sein, dass ein oder mehrere Bestandteile der Vorrichtung in den Figuren durch herkömmliche Symbole dargestellt sind, und dass die Figuren nur die spezifischen Details zeigen, die für das Verständnis der Ausführungsformen der vorliegenden Offenbarung relevant sind, um die Figuren nicht mit Details zu verdecken, die für Fachleute, die mit der vorliegenden Beschreibung vertraut sind, leicht erkennbar sind.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Um das Verständnis der Erfindung zu fördern, wird nun auf die in den Figuren dargestellte Ausführungsform Bezug genommen und diese mit bestimmten Worten beschrieben. Es versteht sich jedoch von selbst, dass damit keine Einschränkung des Umfangs der Erfindung beabsichtigt ist, wobei solche Änderungen und weitere Modifikationen des dargestellten Systems und solche weiteren Anwendungen der darin dargestellten Grundsätze der Erfindung in Betracht gezogen werden, wie sie einem Fachmann auf dem Gebiet der Erfindung normalerweise einfallen würden auf die sich die Erfindung bezieht.
  • Der Fachmann wird verstehen, dass die vorstehende allgemeine Beschreibung und die folgende detaillierte Beschreibung beispielhaft und erläuternd für die Erfindung sind und nicht als einschränkend angesehen werden.
  • Wenn in dieser Beschreibung von „einem Aspekt“, „einem anderen Aspekt“ oder ähnlichem die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Offenbarung enthalten ist. Daher können sich die Ausdrücke „in einer Ausführungsform“, „in einer anderen Ausführungsform“ und ähnliche Ausdrücke in dieser Beschreibung alle auf dieselbe Ausführungsform beziehen, müssen es aber nicht.
  • Die Ausdrücke „umfasst“, „enthaltend“ oder andere Variationen davon sollen eine nicht ausschließliche Einbeziehung abdecken, so dass ein Verfahren oder eine Methode, die eine Liste von Schritten umfasst, nicht nur diese Schritte umfasst, sondern auch andere Schritte enthalten kann, die nicht ausdrücklich aufgeführt sind oder zu einem solchen Verfahren oder einer solchen Methode gehören. Ebenso schließen eine oder mehrere Vorrichtungen oder Teilsysteme oder Elemente oder Strukturen oder Komponenten, die mit „umfasst...a“ eingeleitet werden, nicht ohne weitere Einschränkungen die Existenz anderer Vorrichtungen oder anderer Teilsysteme oder anderer Elemente oder anderer Strukturen oder anderer Komponenten oder zusätzlicher Vorrichtungen oder zusätzlicher Teilsysteme oder zusätzlicher Elemente oder zusätzlicher Strukturen oder zusätzlicher Komponenten aus.
  • Sofern nicht anders definiert, haben alle hierin verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung, wie sie von einem Fachmann auf dem Gebiet, zu dem diese Erfindung gehört, allgemein verstanden wird. Das System, die Methoden und die Beispiele, die hier angegeben werden, dienen nur der Veranschaulichung und sind nicht als Einschränkung gedacht.
  • Ausführungsformen der vorliegenden Offenbarung werden im Folgenden unter Bezugnahme auf die beigefügten Figuren im Detail beschrieben.
  • Die in dieser Spezifikation beschriebenen Funktionseinheiten werden als Geräte bezeichnet. Ein Gerät kann in programmierbaren Hardware-Geräten wie Prozessoren, digitalen Signalprozessoren, zentralen Verarbeitungseinheiten, feldprogrammierbaren Gate-Arrays, programmierbaren Logik-Arrays, programmierbaren Logik-Geräten, Cloud-Verarbeitungssystemen oder Ähnlichem implementiert sein. Die Geräte können auch in Software zur Ausführung durch verschiedene Arten von Prozessoren implementiert werden. Ein identifiziertes Gerät kann einen ausführbaren Code enthalten und zum Beispiel einen oder mehrere physische oder logische Blöcke von Computeranweisungen umfassen, die zum Beispiel als Objekt, Prozedur, Funktion oder anderes Konstrukt organisiert sein können. Die ausführbare Datei eines identifizierten Geräts muss jedoch nicht physisch zusammen liegen, sondern kann aus verschiedenen, an unterschiedlichen Orten gespeicherten Anweisungen bestehen, die, wenn sie logisch zusammengefügt werden, das Gerät bilden und den erklärten Zweck des Geräts erfüllen.
  • Der ausführbare Code eines Geräts oder Moduls kann ein einziger Befehl oder eine Vielzahl von Befehlen sein und kann sogar über mehrere verschiedene Codesegmente, verschiedene Anwendungen und mehrere Speichergeräte verteilt sein. In ähnlicher Weise können Betriebsdaten innerhalb des Geräts identifiziert und dargestellt werden, wobei sie in jeder geeigneten Form vorliegen und in jeder geeigneten Art von Datenstruktur organisiert sein können. Die Betriebsdaten können als ein einziger Datensatz gesammelt werden oder über verschiedene Orte, einschließlich verschiedener Speichergeräte, verteilt sein und können zumindest teilweise als elektronische Signale in einem System oder Netzwerk vorliegen.
  • Wenn in dieser Beschreibung von „einer ausgewählten Ausführungsform“, „einer Ausführungsform“ oder „einer Ausführungsform“ die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform des offengelegten Gegenstands enthalten ist. Daher beziehen sich die Ausdrücke „eine ausgewählte Ausführungsform“, „in einer Ausführungsform“ oder „in einer Ausführungsform“ an verschiedenen Stellen in dieser Beschreibung nicht unbedingt auf dieselbe Ausführungsform.
  • Darüber hinaus können die beschriebenen Merkmale, Strukturen oder Eigenschaften in jeder geeigneten Weise in einer oder mehreren Ausführungsformen kombiniert werden. In der folgenden Beschreibung werden zahlreiche spezifische Details angegeben, um ein umfassendes Verständnis der Ausführungsformen des offengelegten Gegenstands zu ermöglichen. Der Fachmann wird jedoch erkennen, dass der offengelegte Gegenstand auch ohne eines oder mehrere der spezifischen Details oder mit anderen Methoden, Komponenten, Materialien usw. ausgeführt werden kann. In anderen Fällen werden bekannte Strukturen, Materialien oder Vorgänge nicht im Detail gezeigt oder beschrieben, um zu vermeiden, dass Aspekte des offengelegten Gegenstandes verdeckt werden.
  • Gemäß den beispielhaften Ausführungsformen können die offengelegten Computerprogramme oder -module auf viele beispielhafte Arten ausgeführt werden, beispielsweise als Anwendung, die im Speicher eines Geräts resident ist, oder als gehostete Anwendung, die auf einem Server ausgeführt wird und mit der Geräteanwendung oder dem Browser über eine Reihe von Standardprotokollen wie TCP/IP, HTTP, XML, SOAP, REST, JSON und anderen ausreichenden Protokollen kommuniziert. Die offengelegten Computerprogramme können in beispielhaften Programmiersprachen geschrieben werden, die vom Speicher auf dem Gerät oder von einem gehosteten Server ausgeführt werden, wie BASIC, COBOL, C, C++, Java, Pascal oder Skriptsprachen wie JavaScript, Python, Ruby, PHP, Perl oder andere ausreichende Programmiersprachen.
  • Einige der offengelegten Ausführungsformen umfassen oder beinhalten die Datenübertragung über ein Netzwerk, z. B. die Übermittlung verschiedener Eingaben oder Dateien über das Netzwerk. Das Netzwerk kann beispielsweise das Internet, Wide Area Networks (WANs), Local Area Networks (LANs), analoge oder digitale drahtgebundene und drahtlose Telefonnetzwerke (z. B. PSTN, Integrated Services Digital Network (ISDN), ein zellulares Netzwerk und Digital Subscriber Line (xDSL)), Radio, Fernsehen, Kabel, Satellit und/oder andere Übertragungs- oder Tunnelmechanismen zur Übertragung von Daten umfassen. Das Netz kann mehrere Netze oder Teilnetze umfassen, von denen jedes z. B. einen drahtgebundenen oder drahtlosen Datenpfad enthalten kann. Das Netz kann ein leitungsvermitteltes Sprachnetz, ein paketvermitteltes Datennetz oder ein beliebiges anderes Netz für die Übertragung elektronischer Kommunikation umfassen. Das Netzwerk kann beispielsweise Netzwerke umfassen, die auf dem Internet-Protokoll (IP) oder dem asynchronen Übertragungsmodus (ATM) basieren, und es kann Sprache unterstützen, indem es z. B. VoIP, Voice-over-ATM oder andere vergleichbare Protokolle für die Sprachdatenkommunikation verwendet. In einer Implementierung umfasst das Netzwerk ein zellulares Telefonnetz, das so konfiguriert ist, dass es den Austausch von Text- oder SMS-Nachrichten ermöglicht.
  • Beispiele für ein Netzwerk sind unter anderem ein Personal Area Network (PAN), ein Storage Area Network (SAN), ein Home Area Network (HAN), ein Campus Area Network (CAN), ein Local Area Network (LAN), ein Wide Area Network (WAN), ein Metropolitan Area Network (MAN), ein Virtual Private Network (VPN), ein Enterprise Private Network (EPN), das Internet, ein Global Area Network (GAN) und so weiter.
  • 1 zeigt ein Blockdiagramm eines Systems zur Erzeugung von Zusammenfassungen aus den Kurzgeschichten durch Extraktion wichtiger Merkmale gemäß einer Ausführungsform der vorliegenden Offenbarung. Das System 100 umfasst eine Vorverarbeitungseinheit 102 zur Identifizierung wichtiger Entitäten, wobei Prozesse wie Satz- und Arbeits-Tokenisierung, POS-Tagging und Named Entity Recognition durchgeführt werden.
  • In einer Ausführungsform wird eine Merkmalsextraktions-Verarbeitungseinheit 104 verwendet, um wichtige Merkmale wie Akteur, Beziehung, Ort und Ereignis aus den Geschichten zu extrahieren und eine aussagekräftige Zusammenfassung zu erstellen.
  • In einer Ausführungsform wird eine Einheit 106 zur Verarbeitung von Merkmalsbeziehungen verwendet, um Bedeutungsbeziehungen zwischen zwei oder mehr Entitäten aus den Texten zu extrahieren, z. B. Ort, Person, Beziehung und Ereignis.
  • In einer Ausführungsform wird eine Zusammenfassungs-Verarbeitungseinheit 108 verwendet, um eine Zusammenfassung in Abhängigkeit von den hochrangigen Sätzen zu erstellen, die aus der maximalen Anzahl von Merkmalen bestehen, die in aufsteigender Reihenfolge angeordnet sind.
  • In einer Ausführungsform werden zehn verschiedene moralische Kurzgeschichten, die dem Internet entnommen wurden, zur Erstellung von Zusammenfassungen herangezogen, wobei die Geschichten als S1, S2, S3, S4, S5, S6, S7, S8, S9 und S10 bezeichnet werden.
  • In einer Ausführungsform komprimiert die generierte Zusammenfassung einer Geschichte die Texte des Originaldokuments, ohne die Bedeutung des Originaldokuments in irgendeiner Weise zu verändern, wobei nur die Sätze, die eine hohe Punktzahl haben, in die Zusammenfassung aufgenommen werden.
  • In einer Ausführungsform wird zur Analyse der Wirksamkeit der Zusammenfassungserstellung ein Komprimierungsverhältnis berechnet, indem die Länge der Zusammenfassung durch die Länge des Volltextes dividiert wird.
  • 2 zeigt ein Blockdiagramm einer Vorverarbeitungseinheit 102 in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung. Die Vorverarbeitungseinheit 102 umfasst eine Tokenisierungsverarbeitungseinheit 202 zum Aufteilen eines großen Textdokuments in kleinere Textdokumente, wobei die Textdokumente tokenisiert werden, so dass sie für einen Extraktionsprozess verwendet werden können, und wobei die Wörter in Leerzeichen und Satzzeichen getrennt werden, wobei die Tokenisierungsverarbeitungseinheit 202 umfasst: eine Satzverarbeitungseinheit 204 zum Tokenisieren der großen Textabsätze in kleinere Sätze; und eine Wortverarbeitungseinheit 206 zum Tokenisieren der Sätze in Wörter.
  • In einer Ausführungsform wird eine Tagging-Verarbeitungseinheit 208 zur Durchführung von POS-Tagging verwendet, bei dem die Wörter mit ihrem entsprechenden Part-Of-The-Speech gekennzeichnet werden, wobei das POS-Tagging erklärt, wie ein Wort in dem Satz verwendet wird, der Substantive, Verben, Adverbien, Adjektive, Pronomen, Konjunktionen und ihre Unterkategorien umfasst.
  • In einer Ausführungsform wird eine Erkennungsverarbeitungseinheit 210 zur Durchführung der Erkennung von benannten Entitäten verwendet, um Personen, Unternehmen, Städte, Orte, Länder und andere Entitäten zu identifizieren, was ein wichtiger Schritt zur Identifizierung von Personen, Beziehungen, Organisationen und Orten aus den Geschichten ist, wobei die Erkennung von benannten Entitäten die Hauptfiguren in der Geschichte identifiziert und die Sätze sammelt, die sich auf sie beziehen, und dann die ausgewählten Sätze analysiert und getrennt werden, um die Beziehung und den Ort aus ihnen zu extrahieren.
  • 3 zeigt ein Blockdiagramm einer Merkmalsextraktions-Verarbeitungseinheit 104 in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung. Die Merkmalsextraktions-Verarbeitungseinheit 104 umfasst eine Akteur-Extraktions-Verarbeitungseinheit 302 zum Extrahieren von Substantiven und Eigennamen, die als Akteure betrachtet werden, wie z. B. Name einer Person, Name eines Tieres.
  • In einer Ausführungsform wird eine Beziehungsextraktions-Verarbeitungseinheit 304 zum Extrahieren von benannten Beziehungen zwischen den Entitäten der Geschichten verwendet und verknüpft die Beziehung zwischen einer Figur zu einer anderen Figur oder Organisation.
  • In einer Ausführungsform wird eine Ortsextraktions-Verarbeitungseinheit 306 verwendet, um die Aufgabe der Ortsextraktion aus den Geschichten unter Verwendung der benannten Entitätserkennung durchzuführen, wobei die Orte wie See oder Palast extrahiert werden.
  • In einer Ausführungsform ist eine Ereignis-Extraktions-Verarbeitungseinheit 308 zur Extraktion der durchgeführten lebenswichtigen Aktivitäten zwischen den Akteuren der Geschichten
  • In einer Ausführungsform können die Vorverarbeitungseinheit (102), die Merkmalsextraktions-Verarbeitungseinheit (104), die Merkmalsbeziehungs-Verarbeitungseinheit (106), die Zusammenfassungs-Verarbeitungseinheit (108), die TokenisierungsVerarbeitungseinheit (202), die Satz-Verarbeitungseinheit (204), die Wort-Verarbeitungseinheit (206), die Tagging-Verarbeitungseinheit (208), die Erkennungs-Verarbeitungseinheit (210), die Akteur-Verarbeitungseinheit (302), Beziehungsverarbeitungseinheit (304), Standortverarbeitungseinheit (306) und Ereignisverarbeitungseinheit (308) können in programmierbaren Hardwarevorrichtungen wie Prozessoren, digitalen Signalprozessoren, zentralen Verarbeitungseinheiten, feldprogrammierbaren Gate-Arrays, programmierbarer Array-Logik, programmierbaren Logikvorrichtungen, Cloud-Verarbeitungssystemen oder dergleichen implementiert werden.
  • 4 zeigt eine Tabelle mit den Ergebnissen der Zusammenfassungserstellung gemäß einer Ausführungsform der vorliegenden Offenbarung. Die Tabelle zeigt das Komprimierungsverhältnis jeder zusammengefassten Geschichte S1, S2, S3, S4, S5, S6, S7, S8, S9 und S10, und die Länge der Zusammenfassung und der zusammengefassten Sätze ist ebenfalls angegeben. Eine Zusammenfassung einer Geschichte umfasst nur die Sätze, die eine hohe Punktzahl aufweisen, wobei die Punktzahl von der maximalen Anzahl der Merkmale abhängt, die ein Satz enthält, der in aufsteigender Reihenfolge der Satznummer dieser Geschichte angeordnet ist. Die Ergebnisse zeigen, dass die Gesamtkomprimierungsrate 50 % beträgt.
  • Die Figuren und die vorangehende Beschreibung geben Beispiele für Ausführungsformen. Der Fachmann wird verstehen, dass eines oder mehrere der beschriebenen Elemente durchaus zu einem einzigen Funktionselement kombiniert werden können. Alternativ dazu können bestimmte Elemente in mehrere Funktionselemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. Die Reihenfolge der hier beschriebenen Prozesse kann beispielsweise geändert werden und ist nicht auf die hier beschriebene Weise beschränkt. Außerdem müssen die Handlungen eines Flussdiagramms nicht in der dargestellten Reihenfolge ausgeführt werden, auch müssen nicht unbedingt alle Handlungen durchgeführt werden. Auch können die Handlungen, die nicht von anderen Handlungen abhängig sind, parallel zu den anderen Handlungen ausgeführt werden. Der Umfang der Ausführungsformen ist durch diese spezifischen Beispiele keineswegs begrenzt. Zahlreiche Variationen sind möglich, unabhängig davon, ob sie in der Beschreibung explizit aufgeführt sind oder nicht, wie z. B. Unterschiede in der Struktur, den Abmessungen und der Verwendung von Materialien. Der Umfang der Ausführungsformen ist mindestens so groß wie in den folgenden Ansprüchen angegeben.
  • Vorteile, andere Vorzüge und Problemlösungen wurden oben im Hinblick auf bestimmte Ausführungsformen beschrieben. Die Vorteile, Vorzüge, Problemlösungen und Komponenten, die dazu führen können, dass ein Vorteil, ein Nutzen oder eine Lösung auftritt oder ausgeprägter wird, sind jedoch nicht als kritisches, erforderliches oder wesentliches Merkmal oder Komponente eines oder aller Ansprüche zu verstehen.
  • Bezugszeichenliste
  • 100
    Ein System zur Erstellung von Zusammenfassungen aus Kurzgeschichten durch Extraktion wichtiger Merkmale
    102
    Eine Vorverarbeitungseinheit
    104
    Eine Verarbeitungseinheit zur Merkmalsextraktion
    106
    Eine Verarbeitungseinheit für Merkmalsbeziehungen
    108
    Eine Verarbeitungseinheit für Zusammenfassungen
    202
    Eine Verarbeitungseinheit zur Tokenisierung
    204
    Eine Satzverarbeitungseinheit
    206
    Eine Einheit zur Verarbeitung von Wörtern
    208
    Eine Tagging-Verarbeitungseinheit
    210
    Eine Erkennungsverarbeitungseinheit
    302
    Eine Verarbeitungseinheit für die Extraktion von Akteuren
    304
    Eine Verarbeitungseinheit zur Extraktion von Beziehungen
    306
    Eine Verarbeitungseinheit zur Ortsextraktion
    308
    Eine Verarbeitungseinheit zur Ereignisextraktion

Claims (8)

  1. Ein System zur Erstellung von Zusammenfassungen aus den Kurzgeschichten durch Extraktion wichtiger Merkmale, wobei das System umfasst: eine Vorverarbeitungseinheit zur Identifizierung wichtiger Entitäten, in der Prozesse wie Satz- und Werk-Tokenisierung, POS-Tagging und Named Entity Recognition durchgeführt werden; eine Verarbeitungseinheit für die Merkmalsextraktion zum Extrahieren wichtiger Merkmale wie Akteur, Beziehung, Ort und Ereignis aus den Geschichten, um eine aussagekräftige Zusammenfassung zu erstellen; eine Merkmalsbeziehungs-Verarbeitungseinheit zum Extrahieren von Bedeutungsbeziehungen zwischen zwei oder mehr Entitäten aus den Texten, wie Ort, Person, Beziehung und Ereignis; und eine Zusammenfassungs-Verarbeitungseinheit zum Erzeugen einer Zusammenfassung in Abhängigkeit von den hoch bewerteten Sätzen, die aus der maximalen Anzahl von Merkmalen besteht, die in aufsteigender Reihenfolge angeordnet sind.
  2. System nach Anspruch 1, wobei zehn verschiedene moralische Kurzgeschichten, die dem Internet entnommen werden, zur Erstellung von Zusammenfassungen herangezogen werden, wobei die Geschichten als S1, S2, S3, S4, S5, S6, S7, S8, S9 und S10 bezeichnet werden.
  3. System nach Anspruch 1, wobei die Vorverarbeitungseinheit umfasst: eine Tokenisierungsverarbeitungseinheit zum Aufteilen eines großen Textdokuments in kleinere Textdokumente, wobei die Textdokumente tokenisiert werden, so dass sie für einen Extraktionsprozess verwendet werden können, und wobei die Wörter in Leerzeichen und Interpunktionszeichen getrennt werden; eine Tagging-Verarbeitungseinheit zum Durchführen von POS-Tagging, bei dem die Wörter mit ihrem entsprechenden Part-Of-The-Speech gekennzeichnet werden, wobei das POS-Tagging erklärt, wie ein Wort in dem Satz verwendet wird, der Substantive, Verben, Adverbien, Adjektive, Pronomen, Konjunktionen und ihre Unterkategorien umfasst; und eine Erkennungsverarbeitungseinheit zur Durchführung der Erkennung benannter Entitäten, um Personen, Unternehmen, Städte, Orte, Länder und andere Entitäten zu identifizieren, was ein wichtiger Schritt zur Identifizierung von Personen, Beziehungen, Organisationen und Orten aus den Geschichten ist.
  4. System nach Anspruch 3, wobei die Tokenisierungsverarbeitungseinheit umfasst: eine Satzverarbeitungseinheit zum Tokenisieren der großen Textabsätze in kleinere Sätze; und eine Textverarbeitungseinheit zur Tokenisierung der Sätze in Wörter.
  5. System nach Anspruch 3, wobei die Named-Entity-Erkennung die Hauptfiguren in der Geschichte identifiziert und die Sätze sammelt, die mit ihnen in Beziehung stehen, und dann die ausgewählten Sätze analysiert und getrennt werden, um die Beziehung und den Ort aus ihnen zu extrahieren.
  6. System nach Anspruch 1, wobei die Verarbeitungseinheit zur Merkmalsextraktion umfasst: eine Verarbeitungseinheit für die Extraktion von Substantiven und Eigennamen, die als Akteure betrachtet werden, wie z. B. Personennamen oder Tiernamen; eine Beziehungsextraktions-Verarbeitungseinheit zum Extrahieren von benannten Beziehungen zwischen den Entitäten der Geschichten und zum Verknüpfen der Beziehung zwischen einer Figur und einer anderen Figur oder Organisation; eine Ortsextraktions-Verarbeitungseinheit zum Durchführen der Aufgabe der Ortsextraktion aus den Geschichten unter Verwendung der Erkennung benannter Entitäten, wobei die Orte wie See oder Palast extrahiert werden; und eine Ereignis-Extraktions-Verarbeitungseinheit zur Extraktion der durchgeführten lebenswichtigen Aktivitäten zwischen den Akteuren der Geschichten.
  7. System nach Anspruch 1, wobei die erzeugte Zusammenfassung einer Geschichte die Texte des Originaldokuments komprimiert, ohne die Bedeutung des Originaldokuments in irgendeiner Weise zu verändern, und wobei nur die Sätze, die eine hohe Punktzahl haben, in die Zusammenfassung aufgenommen werden.
  8. System nach Anspruch 1, wobei zur Analyse der Wirksamkeit der Zusammenfassungserstellung ein Komprimierungsverhältnis berechnet wird, das durch Division der Länge der Zusammenfassung durch die Länge des Volltextes berechnet wird.
DE202022100824.8U 2022-02-14 2022-02-14 Ein System zur Erstellung von Zusammenfassungen aus den Geschichten durch Extraktion wichtiger Merkmale Active DE202022100824U1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE202022100824.8U DE202022100824U1 (de) 2022-02-14 2022-02-14 Ein System zur Erstellung von Zusammenfassungen aus den Geschichten durch Extraktion wichtiger Merkmale

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE202022100824.8U DE202022100824U1 (de) 2022-02-14 2022-02-14 Ein System zur Erstellung von Zusammenfassungen aus den Geschichten durch Extraktion wichtiger Merkmale

Publications (1)

Publication Number Publication Date
DE202022100824U1 true DE202022100824U1 (de) 2022-03-03

Family

ID=80818421

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202022100824.8U Active DE202022100824U1 (de) 2022-02-14 2022-02-14 Ein System zur Erstellung von Zusammenfassungen aus den Geschichten durch Extraktion wichtiger Merkmale

Country Status (1)

Country Link
DE (1) DE202022100824U1 (de)

Similar Documents

Publication Publication Date Title
DE112018000334T5 (de) System und Verfahren zur domänenunabhängigen Aspektebenen-Stimmungserkennung
DE102005032734B4 (de) Indexextraktion von Dokumenten
DE102013205737A1 (de) System und Verfahren zum automatischen Erkennen und interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignisse aus multimodalen natürlichen Sprachquellen
DE102005032744A1 (de) Indexextraktion von Dokumenten
DE10308550A1 (de) System und Verfahren zur automatischen Daten-Prüfung und -Korrektur
DE10343228A1 (de) Verfahren und Systeme zum Organisieren elektronischer Dokumente
DE112020003365T5 (de) Überwachte kreuzmodale wiedergewinnung für zeitreihen und text unter verwendung von multimodalen triplettverlusten
DE102005051617A1 (de) Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken
DE60101668T2 (de) Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument
DE102015121509A1 (de) Methodik und Vorrichtung zur Konsistenzprüfung durch Vergleich von Ontologiemodellen
DE60212304T2 (de) Verbesserungen zur Datenübertragung
DE112021006602T5 (de) Verfeinern von abfrage-erzeugungsmustern
CH712988B1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
DE102012025349B4 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
DE102005032733A1 (de) Indexextraktion von Dokumenten
DE202022100824U1 (de) Ein System zur Erstellung von Zusammenfassungen aus den Geschichten durch Extraktion wichtiger Merkmale
DE102012025350A1 (de) Verarbeitungn eines elektronischen Dokuments
EP2601594A1 (de) Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format
DE202022101839U1 (de) Ein datenschutzgerechtes System zur Durchsetzung des Schutzes sensibler Daten
DE202022102752U1 (de) Ein neuartiges System gestapelter paralleler Faltungsschichten mit einem Aufmerksamkeitsmodul zur Klassifizierung von Bildern diabetischer Fußgeschwüre und normaler Haut
DE102021108675A1 (de) Schwach überwachte erkennung einer semantischen einheit unter verwendung von allgemeinwissen und zieldomänenkenntnis
DE202022104028U1 (de) Ein System zur Untersuchung und Durchführung des Part-of-Speech-Tagging für die MIZO-Sprache
DE202022105418U1 (de) Ein automatisiertes System zur Erzeugung einer komischen Darstellung von aktuellen Nachrichtenartikeln
DE202022106224U1 (de) Ein System für Sprachbefehle durch virtuelle Assistenten unter Verwendung von Deep Learning
DE202022104673U1 (de) System zur Rückverfolgbarkeit von sozialen Netzwerken

Legal Events

Date Code Title Description
R207 Utility model specification
R082 Change of representative

Representative=s name: LIPPERT STACHOW PATENTANWAELTE RECHTSANWAELTE , DE