DE102019204382A1

DE102019204382A1 - Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments

Info

Publication number: DE102019204382A1
Application number: DE102019204382.8A
Authority: DE
Inventors: Mark-Oliver Giereth; Sina Bunzendahl
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2020-10-01

Abstract

Verfahren (10) zum maschinellen Verarbeiten eines technischen Dokuments, gekennzeichnet durch folgende Merkmale:- Text (12) und inhaltliche Eingruppierung (13) des Dokuments werden durch ein Vektorraum-Retrieval (14) auf einen Informationsvektor (15) abgebildet und- anhand des Informationsvektors (15) wird das Dokument einer zumindest teilautomatisierten Analyse (17) unterzogen.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum maschinellen Verarbeiten eines technischen Dokuments. Die vorliegende Erfindung betrifft darüber hinaus eine entsprechende Vorrichtung, ein entsprechendes Computerprogramm sowie ein entsprechendes Speichermedium.
Stand der Technik
Die Auswertung eines Bestands von unstrukturiert gespeicherten Daten (meist Texten) nach Suchbegriffen sowie Suche und Bereitstellung der gefundenen Daten wird in Informationswissenschaft, Informatik und Computerlinguistik als Informationsrückgewinnung (information retrieval, IR) bezeichnet. Als Vektorraum-Retrieval (vector space model, VSM) ist in diesem Zusammenhang ein Verfahren bekannt, bei dem Informationen als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert werden. Der Abstand der resultierenden sogenannten Informationsvektoren kann als Maß für die Ähnlichkeit von Dokumenten oder zu einer Suche in selbigen herangezogen werden.
US9037464B1 offenbart auf dieser Grundlage Verfahren, Systeme und Vorrichtungen, einschließlich Computerprogramme, die auf Computerspeichermedien codiert sind, zum Berechnen numerischer Repräsentationen von Wörtern. Eines der Verfahren umfasst das Erhalten eines Satzes von Trainingsdaten, wobei der Satz von Trainingsdaten Folgen von Wörtern umfasst; Trainieren eines Klassifizierers und einer Einbettungsfunktion auf den Satz von Trainingsdaten, wobei das Trainieren der Einbettungsfunktion erhaltene trainierte Werte der Einbettungsfunktionsparameter umfasst; Verarbeiten jedes Wortes im Vokabular unter Verwendung der Einbettungsfunktion in Übereinstimmung mit den trainierten Werten der Einbettungsfunktionsparameter, um eine entsprechende numerische Darstellung jedes Wortes im Vokabular im hochdimensionalen Raum zu erzeugen; und Zuordnen jedes Wortes im Vokabular zu der jeweiligen numerischen Darstellung des Wortes im hochdimensionalen Raum. Dieser Algorithmus ist als „Word2vec“ bekannt.
Gemäß DE112015002286T9 wird eine Datenbank bereitgestellt, die einen Katalog von Dokumenten in einem Einbettungsraum identifiziert, wobei die Datenbank einen Abstand in dem Einbettungsraum zwischen jedem Paar von Dokumenten identifiziert, entsprechend einem vorbestimmten Maß der Unähnlichkeit zwischen dem Paar von Dokumenten. Das System präsentiert eine erste Sammlung der Dokumente gegenüber dem Benutzer, aus einem anfänglichen Kandidatenraum, der Teil des Einbettungsraums ist. Das System verfeinert dann iterativ den Kandidatenraum unter Verwendung von geometrischen Randbedingungen für den Einbettungsraum in Antwort auf ein relatives Feedback durch den Benutzer. Bei jeder Iteration identifiziert das System dem Benutzer eine Untermenge von Dokumenten aus dem dann aktuellen Kandidatenraum, worauf basierend der Benutzer das relative Feedback liefert. In einer Ausführungsform sind diese Untermengen von Dokumenten diskriminativer als die durchschnittliche Unterscheidbarkeit von ähnlichen Sätzen von Dokumenten in dem dann aktuellen Kandidatenraum.
Offenbarung der Erfindung
Die Erfindung stellt ein Verfahren zum maschinellen Verarbeiten eines technischen Dokuments, eine entsprechende Vorrichtung, ein entsprechendes Computerprogramm sowie ein entsprechendes Speichermedium gemäß den unabhängigen Ansprüchen bereit.
Ein Vorzug dieser Lösung liegt in der auf diese Weise erzielbaren Verbesserung der Repräsentation von Patentdokumenten als Vektorraum. Eine nachgelagerte Verarbeitung wie Clustering, Klassifikation, Visualisierung etc. liefert dadurch bessere Ergebnisse. Hierzu werden die amtlich vergebenen Patentklassifikationen ebenfalls als Vektor in einem gleichsam „gelernten“ Raum angegeben.
Durch die in den abhängigen Ansprüchen aufgeführten Maßnahmen sind vorteilhafte Weiterbildungen und Verbesserungen des im unabhängigen Anspruch angegebenen Grundgedankens möglich. So kann vorgesehen sein, dass im Rahmen einer Vorverarbeitung im Text enthaltene Schlagwörter und in der Eingruppierung enthaltene Eingruppierungssymbole ausgewählt und beim Retrieval auf Wort- bzw. Symbolvektoren abgebildet werden. Im Rahmen einer Nachverarbeitung wird sodann jeweils ein Repräsentant der Wortvektoren und der Symbolvektoren gebildet; diese Repräsentanten werden schließlich zu einem erweiterten Vektor kombiniert. Ein nachfolgendes, auf der Nähe der Vektoren im Raum basierendes Clustering wird auf diese Weise verbessert. Dies ermöglicht auch weiterführende Verbesserungen von z. B. Klassifikationsalgorithmen.
Figurenliste
Ausführungsbeispiele der Erfindung sind in den Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert. Es zeigt:

1 das Flussdiagramm eines Verfahrens gemäß einer ersten Ausführungsform.
2 schematisch einen Datenbankserver gemäß einer zweiten Ausführungsform.

Ausführungsformen der Erfindung
1 illustriert den grundlegenden Ablauf eines Verfahrens (10) gemäß einer Ausführungsform der Erfindung. Hierbei werden Wörter aus den Patentdokumenten zunächst einer Vorverarbeitung (11) unterzogen. Der auf diese Weise präprozessierte Text (12) wird mittels Word2Vec in einen Vektorraum der Größe (n_w,m) überführt, wobei n_w die Anzahl der Dimensionen des Zeilenvektors der Wörter aus den Patentdokumenten und m die Anzahl der Patentdokumente bezeichnet. Zum anderen werden präprozessierte Eingruppierungssymbole (13) aus internationaler Patentklassifikation (international patentclassification, IPC), kooperativer Patentklassifikation (cooperative patent classification, CPC), den vom japanischen Patentamt verwendeten FI oder F-Terms, dem Patentklassifikationssystem der Vereinigten Staaten von Amerika (United States patent classification system, USPC), den vom Privatanbieter Clarivate Analytics verwendeten Derwent Manual Codes oder ähnlichen Klassifikations- oder Indexierungssystemen zunächst sortiert und mittels Word2Vec in einen zweiten Vektorraum der Größe (n_v,m) überführt, wobei n_v die Anzahl der Dimensionen des Zeilenvektors der Klassifikationssymbole aus den Patentdokumenten bezeichnet.
Generell lässt sich zwischen dokumentbasierter und wortbasierter Einbettung (embedding) unterscheiden. Wortbasierte Verfahren wie Word2Vec erfordern in der Regel eine Nachverarbeitung (16), sodass ein Repräsentant aus der Vielzahl der erzeugten Vektoren (für ausgewählte vorverarbeitete Wörter und Eingruppierungssymbole) eines Dokuments gebildet wird. In Betracht kommen beispielsweise Minimum, Maximum, arithmetisches Mittel, Median oder ein anderweitiger Mittelwert. Die besagte Nachverarbeitung (16) erfolgt dann jeweils getrennt für wortbasierten und eingruppierungssymbolbasierten Vektor.
Anschließend werden für jedes Patentdokument die beiden Zeilenvektoren konkateniert und ein Zeilenvektor (15) der Dimension n_w + n_v erzeugt. Anstelle der beschriebenen Verkettung können die Zeilenvektoren (15) auch anders zusammengebracht und weiteren Normalisierungs-, Matrixreduktions- oder anderweitigen Verarbeitungsschritten unterzogen werden. Der solchermaßen aufgespannte Vektorraum hat die Größe (n_w + n_v,m). Durch Wahl geeigneter Werte für n_w und n_v lässt sich die relative Gewichtung von Wörtern aus Text (12) und Eingruppierung (13) steuern. Eine sinnvolle Wahl ist beispielsweise n_w = 200 und n_v = 40.
Neben der unmittelbaren Verwendung der Eingruppierung (13) ist es auch möglich, Wörter aus Titeln, Hinweisen und Beschreibungen zu verwenden, welche im jeweiligen Klassifikationssystem (IPC, CPC etc.) mit den Eingruppierungssymbolen assoziiert sind.
Gemäß einer alternativen Ausführungsform mögen anstelle des Volltexts (12) eines Patentdokuments nur diejenigen Wörter zur Erstellung der Wortkomponente eines Vektorraums verwendet werden, welche den inhaltlichen Gegenstand des Dokuments im engeren Sinn beschreiben.
In einer erweiterten Ausgestaltung könnten neben Text (12) und Eingruppierung (13) weitere Dimensionen miteinbezogen werden, z. B. Anmelde, Prioritäts- oder Publikationsdatum, Zitate, Anmelder, Erfinder etc. Auch könnten indirekte Metadaten miteinbezogen werden. Zu denken ist etwa an Umsatz, Gewinn, Rechtsstreitigkeiten (litigation) oder Höhe des Forschungs- und Entwicklungsbudgets des jeweiligen Patentanmelders bzw. -inhabers.
Dieses Verfahren (10) kann beispielsweise in Software oder Hardware oder in einer Mischform aus Software und Hardware beispielsweise in einer Datenbank (20) implementiert sein, wie die schematische Darstellung der 2 verdeutlicht.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 9037464 B1 [0003]
DE 112015002286 T9 [0004]

Claims

Verfahren (10) zum maschinellen Verarbeiten eines technischen Dokuments, gekennzeichnet durch folgende Merkmale: - Text (12) und inhaltliche Eingruppierung (13) des Dokuments werden durch ein Vektorraum-Retrieval (14) auf einen Informationsvektor (15) abgebildet und - anhand des Informationsvektors (15) wird das Dokument einer zumindest teilautomatisierten Analyse (17) unterzogen.
Verfahren (10) nach Anspruch 1, gekennzeichnet durch folgende Merkmale: - bei einer Vorverarbeitung (11) werden im Text (12) enthaltene Schlagwörter und in der Eingruppierung (13) enthaltene Eingruppierungssymbole ausgewählt, - beim Retrieval (14) werden die Schlagwörter auf Wortvektoren und die Eingruppierungssymbole auf Symbolvektoren abgebildet, - bei einer Nachverarbeitung (16) wird jeweils ein Repräsentant der Wortvektoren und der Symbolvektoren gebildet und - die Repräsentanten werden zum Informationsvektor (15) verkettet.
Verfahren (10) nach Anspruch 2, gekennzeichnet durch mindestens eines der folgenden Merkmale: - der Repräsentant der Wortvektoren wird durch eine skalare Verknüpfung der Wortvektoren gebildet oder - der Repräsentant der Symbolvektoren wird durch eine skalare Mittelwertbildung unter den Symbolvektoren gebildet.
Verfahren (10) nach Anspruch 2 oder 3, gekennzeichnet durch mindestens eines der folgenden Merkmale: - die Wortvektoren werden in einen Vektorraum mit Dimensionalität zwischen 100 und 1000 eingebettet oder - die Symbolvektoren werden in einen Vektorraum mit Dimensionalität zwischen 20 und 200 eingebettet.
Verfahren (10) nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Analyse (17) eine Klassifikation (1) mittels eines der Folgenden umfasst: - eine logistische Regression, - eine Stützvektormaschine, - künstliche neuronale Netze oder - Entscheidungsbäume.
Verfahren (10) nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Analyse (17) eine Clusteranalyse (2) mittels eines der Folgenden umfasst: - eine Kerndichteschätzung, - eine Mittelwertverschiebung, - eine dichtebasierte räumliche Clusteranalyse mit Rauschen, - ein k-Means-Algorithmus oder - Ordering Points to Identify the Clustering Structure (OPTICS).
Verfahren (10) nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die Analyse (17) eine zwei- oder dreidimensionale Visualisierung und vorangehende Dimensionsreduktion (3) mittels eines der Folgenden umfasst: - eine Hauptkomponentenanalyse und/oder - eine t-verteilte stochastische Nachbareinbettung.
Verfahren (10) nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Analyse (17) eine Ähnlichkeitssuche, insbesondere mittels eines Kosinus-Maßes umfasst.
Computerprogramm, welches eingerichtet ist, das Verfahren (10) nach einem der Ansprüche 1 bis 8 auszuführen.
Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 9 gespeichert ist.
Vorrichtung (20), die eingerichtet ist, das Verfahren (10) nach einem der Ansprüche 1 bis 8 auszuführen.