DE102019204382A1 - Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments - Google Patents

Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments Download PDF

Info

Publication number
DE102019204382A1
DE102019204382A1 DE102019204382.8A DE102019204382A DE102019204382A1 DE 102019204382 A1 DE102019204382 A1 DE 102019204382A1 DE 102019204382 A DE102019204382 A DE 102019204382A DE 102019204382 A1 DE102019204382 A1 DE 102019204382A1
Authority
DE
Germany
Prior art keywords
analysis
vectors
vector
document
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019204382.8A
Other languages
English (en)
Inventor
Mark-Oliver Giereth
Sina Bunzendahl
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102019204382.8A priority Critical patent/DE102019204382A1/de
Publication of DE102019204382A1 publication Critical patent/DE102019204382A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Verfahren (10) zum maschinellen Verarbeiten eines technischen Dokuments, gekennzeichnet durch folgende Merkmale:- Text (12) und inhaltliche Eingruppierung (13) des Dokuments werden durch ein Vektorraum-Retrieval (14) auf einen Informationsvektor (15) abgebildet und- anhand des Informationsvektors (15) wird das Dokument einer zumindest teilautomatisierten Analyse (17) unterzogen.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zum maschinellen Verarbeiten eines technischen Dokuments. Die vorliegende Erfindung betrifft darüber hinaus eine entsprechende Vorrichtung, ein entsprechendes Computerprogramm sowie ein entsprechendes Speichermedium.
  • Stand der Technik
  • Die Auswertung eines Bestands von unstrukturiert gespeicherten Daten (meist Texten) nach Suchbegriffen sowie Suche und Bereitstellung der gefundenen Daten wird in Informationswissenschaft, Informatik und Computerlinguistik als Informationsrückgewinnung (information retrieval, IR) bezeichnet. Als Vektorraum-Retrieval (vector space model, VSM) ist in diesem Zusammenhang ein Verfahren bekannt, bei dem Informationen als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert werden. Der Abstand der resultierenden sogenannten Informationsvektoren kann als Maß für die Ähnlichkeit von Dokumenten oder zu einer Suche in selbigen herangezogen werden.
  • US9037464B1 offenbart auf dieser Grundlage Verfahren, Systeme und Vorrichtungen, einschließlich Computerprogramme, die auf Computerspeichermedien codiert sind, zum Berechnen numerischer Repräsentationen von Wörtern. Eines der Verfahren umfasst das Erhalten eines Satzes von Trainingsdaten, wobei der Satz von Trainingsdaten Folgen von Wörtern umfasst; Trainieren eines Klassifizierers und einer Einbettungsfunktion auf den Satz von Trainingsdaten, wobei das Trainieren der Einbettungsfunktion erhaltene trainierte Werte der Einbettungsfunktionsparameter umfasst; Verarbeiten jedes Wortes im Vokabular unter Verwendung der Einbettungsfunktion in Übereinstimmung mit den trainierten Werten der Einbettungsfunktionsparameter, um eine entsprechende numerische Darstellung jedes Wortes im Vokabular im hochdimensionalen Raum zu erzeugen; und Zuordnen jedes Wortes im Vokabular zu der jeweiligen numerischen Darstellung des Wortes im hochdimensionalen Raum. Dieser Algorithmus ist als „Word2vec“ bekannt.
  • Gemäß DE112015002286T9 wird eine Datenbank bereitgestellt, die einen Katalog von Dokumenten in einem Einbettungsraum identifiziert, wobei die Datenbank einen Abstand in dem Einbettungsraum zwischen jedem Paar von Dokumenten identifiziert, entsprechend einem vorbestimmten Maß der Unähnlichkeit zwischen dem Paar von Dokumenten. Das System präsentiert eine erste Sammlung der Dokumente gegenüber dem Benutzer, aus einem anfänglichen Kandidatenraum, der Teil des Einbettungsraums ist. Das System verfeinert dann iterativ den Kandidatenraum unter Verwendung von geometrischen Randbedingungen für den Einbettungsraum in Antwort auf ein relatives Feedback durch den Benutzer. Bei jeder Iteration identifiziert das System dem Benutzer eine Untermenge von Dokumenten aus dem dann aktuellen Kandidatenraum, worauf basierend der Benutzer das relative Feedback liefert. In einer Ausführungsform sind diese Untermengen von Dokumenten diskriminativer als die durchschnittliche Unterscheidbarkeit von ähnlichen Sätzen von Dokumenten in dem dann aktuellen Kandidatenraum.
  • Offenbarung der Erfindung
  • Die Erfindung stellt ein Verfahren zum maschinellen Verarbeiten eines technischen Dokuments, eine entsprechende Vorrichtung, ein entsprechendes Computerprogramm sowie ein entsprechendes Speichermedium gemäß den unabhängigen Ansprüchen bereit.
  • Ein Vorzug dieser Lösung liegt in der auf diese Weise erzielbaren Verbesserung der Repräsentation von Patentdokumenten als Vektorraum. Eine nachgelagerte Verarbeitung wie Clustering, Klassifikation, Visualisierung etc. liefert dadurch bessere Ergebnisse. Hierzu werden die amtlich vergebenen Patentklassifikationen ebenfalls als Vektor in einem gleichsam „gelernten“ Raum angegeben.
  • Durch die in den abhängigen Ansprüchen aufgeführten Maßnahmen sind vorteilhafte Weiterbildungen und Verbesserungen des im unabhängigen Anspruch angegebenen Grundgedankens möglich. So kann vorgesehen sein, dass im Rahmen einer Vorverarbeitung im Text enthaltene Schlagwörter und in der Eingruppierung enthaltene Eingruppierungssymbole ausgewählt und beim Retrieval auf Wort- bzw. Symbolvektoren abgebildet werden. Im Rahmen einer Nachverarbeitung wird sodann jeweils ein Repräsentant der Wortvektoren und der Symbolvektoren gebildet; diese Repräsentanten werden schließlich zu einem erweiterten Vektor kombiniert. Ein nachfolgendes, auf der Nähe der Vektoren im Raum basierendes Clustering wird auf diese Weise verbessert. Dies ermöglicht auch weiterführende Verbesserungen von z. B. Klassifikationsalgorithmen.
  • Figurenliste
  • Ausführungsbeispiele der Erfindung sind in den Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert. Es zeigt:
    • 1 das Flussdiagramm eines Verfahrens gemäß einer ersten Ausführungsform.
    • 2 schematisch einen Datenbankserver gemäß einer zweiten Ausführungsform.
  • Ausführungsformen der Erfindung
  • 1 illustriert den grundlegenden Ablauf eines Verfahrens (10) gemäß einer Ausführungsform der Erfindung. Hierbei werden Wörter aus den Patentdokumenten zunächst einer Vorverarbeitung (11) unterzogen. Der auf diese Weise präprozessierte Text (12) wird mittels Word2Vec in einen Vektorraum der Größe (nw,m) überführt, wobei nw die Anzahl der Dimensionen des Zeilenvektors der Wörter aus den Patentdokumenten und m die Anzahl der Patentdokumente bezeichnet. Zum anderen werden präprozessierte Eingruppierungssymbole (13) aus internationaler Patentklassifikation (international patentclassification, IPC), kooperativer Patentklassifikation (cooperative patent classification, CPC), den vom japanischen Patentamt verwendeten FI oder F-Terms, dem Patentklassifikationssystem der Vereinigten Staaten von Amerika (United States patent classification system, USPC), den vom Privatanbieter Clarivate Analytics verwendeten Derwent Manual Codes oder ähnlichen Klassifikations- oder Indexierungssystemen zunächst sortiert und mittels Word2Vec in einen zweiten Vektorraum der Größe (nv,m) überführt, wobei nv die Anzahl der Dimensionen des Zeilenvektors der Klassifikationssymbole aus den Patentdokumenten bezeichnet.
  • Generell lässt sich zwischen dokumentbasierter und wortbasierter Einbettung (embedding) unterscheiden. Wortbasierte Verfahren wie Word2Vec erfordern in der Regel eine Nachverarbeitung (16), sodass ein Repräsentant aus der Vielzahl der erzeugten Vektoren (für ausgewählte vorverarbeitete Wörter und Eingruppierungssymbole) eines Dokuments gebildet wird. In Betracht kommen beispielsweise Minimum, Maximum, arithmetisches Mittel, Median oder ein anderweitiger Mittelwert. Die besagte Nachverarbeitung (16) erfolgt dann jeweils getrennt für wortbasierten und eingruppierungssymbolbasierten Vektor.
  • Anschließend werden für jedes Patentdokument die beiden Zeilenvektoren konkateniert und ein Zeilenvektor (15) der Dimension nw + nv erzeugt. Anstelle der beschriebenen Verkettung können die Zeilenvektoren (15) auch anders zusammengebracht und weiteren Normalisierungs-, Matrixreduktions- oder anderweitigen Verarbeitungsschritten unterzogen werden. Der solchermaßen aufgespannte Vektorraum hat die Größe (nw + nv,m). Durch Wahl geeigneter Werte für nw und nv lässt sich die relative Gewichtung von Wörtern aus Text (12) und Eingruppierung (13) steuern. Eine sinnvolle Wahl ist beispielsweise nw = 200 und nv = 40.
  • Neben der unmittelbaren Verwendung der Eingruppierung (13) ist es auch möglich, Wörter aus Titeln, Hinweisen und Beschreibungen zu verwenden, welche im jeweiligen Klassifikationssystem (IPC, CPC etc.) mit den Eingruppierungssymbolen assoziiert sind.
  • Gemäß einer alternativen Ausführungsform mögen anstelle des Volltexts (12) eines Patentdokuments nur diejenigen Wörter zur Erstellung der Wortkomponente eines Vektorraums verwendet werden, welche den inhaltlichen Gegenstand des Dokuments im engeren Sinn beschreiben.
  • In einer erweiterten Ausgestaltung könnten neben Text (12) und Eingruppierung (13) weitere Dimensionen miteinbezogen werden, z. B. Anmelde, Prioritäts- oder Publikationsdatum, Zitate, Anmelder, Erfinder etc. Auch könnten indirekte Metadaten miteinbezogen werden. Zu denken ist etwa an Umsatz, Gewinn, Rechtsstreitigkeiten (litigation) oder Höhe des Forschungs- und Entwicklungsbudgets des jeweiligen Patentanmelders bzw. -inhabers.
  • Dieses Verfahren (10) kann beispielsweise in Software oder Hardware oder in einer Mischform aus Software und Hardware beispielsweise in einer Datenbank (20) implementiert sein, wie die schematische Darstellung der 2 verdeutlicht.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 9037464 B1 [0003]
    • DE 112015002286 T9 [0004]

Claims (11)

  1. Verfahren (10) zum maschinellen Verarbeiten eines technischen Dokuments, gekennzeichnet durch folgende Merkmale: - Text (12) und inhaltliche Eingruppierung (13) des Dokuments werden durch ein Vektorraum-Retrieval (14) auf einen Informationsvektor (15) abgebildet und - anhand des Informationsvektors (15) wird das Dokument einer zumindest teilautomatisierten Analyse (17) unterzogen.
  2. Verfahren (10) nach Anspruch 1, gekennzeichnet durch folgende Merkmale: - bei einer Vorverarbeitung (11) werden im Text (12) enthaltene Schlagwörter und in der Eingruppierung (13) enthaltene Eingruppierungssymbole ausgewählt, - beim Retrieval (14) werden die Schlagwörter auf Wortvektoren und die Eingruppierungssymbole auf Symbolvektoren abgebildet, - bei einer Nachverarbeitung (16) wird jeweils ein Repräsentant der Wortvektoren und der Symbolvektoren gebildet und - die Repräsentanten werden zum Informationsvektor (15) verkettet.
  3. Verfahren (10) nach Anspruch 2, gekennzeichnet durch mindestens eines der folgenden Merkmale: - der Repräsentant der Wortvektoren wird durch eine skalare Verknüpfung der Wortvektoren gebildet oder - der Repräsentant der Symbolvektoren wird durch eine skalare Mittelwertbildung unter den Symbolvektoren gebildet.
  4. Verfahren (10) nach Anspruch 2 oder 3, gekennzeichnet durch mindestens eines der folgenden Merkmale: - die Wortvektoren werden in einen Vektorraum mit Dimensionalität zwischen 100 und 1000 eingebettet oder - die Symbolvektoren werden in einen Vektorraum mit Dimensionalität zwischen 20 und 200 eingebettet.
  5. Verfahren (10) nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Analyse (17) eine Klassifikation (1) mittels eines der Folgenden umfasst: - eine logistische Regression, - eine Stützvektormaschine, - künstliche neuronale Netze oder - Entscheidungsbäume.
  6. Verfahren (10) nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Analyse (17) eine Clusteranalyse (2) mittels eines der Folgenden umfasst: - eine Kerndichteschätzung, - eine Mittelwertverschiebung, - eine dichtebasierte räumliche Clusteranalyse mit Rauschen, - ein k-Means-Algorithmus oder - Ordering Points to Identify the Clustering Structure (OPTICS).
  7. Verfahren (10) nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die Analyse (17) eine zwei- oder dreidimensionale Visualisierung und vorangehende Dimensionsreduktion (3) mittels eines der Folgenden umfasst: - eine Hauptkomponentenanalyse und/oder - eine t-verteilte stochastische Nachbareinbettung.
  8. Verfahren (10) nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Analyse (17) eine Ähnlichkeitssuche, insbesondere mittels eines Kosinus-Maßes umfasst.
  9. Computerprogramm, welches eingerichtet ist, das Verfahren (10) nach einem der Ansprüche 1 bis 8 auszuführen.
  10. Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 9 gespeichert ist.
  11. Vorrichtung (20), die eingerichtet ist, das Verfahren (10) nach einem der Ansprüche 1 bis 8 auszuführen.
DE102019204382.8A 2019-03-28 2019-03-28 Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments Pending DE102019204382A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102019204382.8A DE102019204382A1 (de) 2019-03-28 2019-03-28 Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019204382.8A DE102019204382A1 (de) 2019-03-28 2019-03-28 Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments

Publications (1)

Publication Number Publication Date
DE102019204382A1 true DE102019204382A1 (de) 2020-10-01

Family

ID=72612571

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019204382.8A Pending DE102019204382A1 (de) 2019-03-28 2019-03-28 Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments

Country Status (1)

Country Link
DE (1) DE102019204382A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022201854A1 (de) 2022-02-22 2023-08-24 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Setzen oder zur Aktualisierung einer Klassifikation in einem Datenbankeintrag eines Datenbanksystems

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GRAWE, Mattyws F.; MARTINS, Claudia A.; BONFANTE, Andreia G. Automated patent classification using word embedding. In: 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA). S. 408-411. DOI: 10.1109/ICMLA.2017.0-127 *
LILLEBERG, Joseph; ZHU, Yun; ZHANG, Yanqing. Support vector machines and word2vec for text classification with semantic features. In: 14th International Conference on Cognitive Informatics & Cognitive Computing (ICCI* CC). IEEE, 2015. S. 136-140. DOI: 10.1109/ICCI-CC.2015.7259377 *
REINKE, Mark, et al. Einsatz kognitiver Verfahren am Deutschen Patent-und Markenamt. BTW 2019, 2019. Rostock/Germany, 4.-8. März 2019 [online] URL: https://dl.gi.de/handle/20.500.12116/21705 [Abgerufen am: 13.01.2020] *
SENEVIRATNE, Dilesha, et al. A signature approach to patent classification. In: AIRS. Springer, Cham, 2015. S. 413-419. DOI: 10.1007/978-3-319-28940-3_35 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022201854A1 (de) 2022-02-22 2023-08-24 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Setzen oder zur Aktualisierung einer Klassifikation in einem Datenbankeintrag eines Datenbanksystems

Similar Documents

Publication Publication Date Title
DE102014204827A1 (de) Auflösen ähnlicher Entitäten aus einer Transaktionsdatenbank
EP3736817A1 (de) Überprüfung und/oder verbesserung der konsistenz von datenkennzeichnungen bei der medizinischen bildverarbeitung
DE112013002654T5 (de) Verfahren zum Klassifizieren von Text
DE112018002047T5 (de) Dokumentenanalyse mit mehreren faktoren
DE112020003538T5 (de) Kreuzmodale wiedergewinnung mit wortüberlappungsbasiertem clustern
DE102012214196A1 (de) Erkennen nicht eindeutiger Namen in einer Gruppe von Namen
DE60032258T2 (de) Bestimmen ob eine variable numerisch oder nicht numerisch ist
DE112021006604T5 (de) Dynamisches in-rangordnung-bringen von facetten
DE102021209171A1 (de) System zum wählen eines lernenden modells
DE202023102803U1 (de) System zur Erkennung von Emotionen und zur Stimmungsanalyse durch maschinelles Lernen
DE102012025349B4 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
DE102019204382A1 (de) Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments
DE102019108857A1 (de) Automatisiertes maschinelles Lernen auf Basis gespeicherten Daten
DE112018006438T5 (de) Clustering von facetten auf einem zweidimensionalen facettenwürfel für text-mining
DE102020215589A1 (de) Steuern eines deep-sequence-modells mit prototypen
DE102012025350A1 (de) Verarbeitungn eines elektronischen Dokuments
DE202022105338U1 (de) Ein neuronales Netzwerksystem zur Klassifizierung von Musikgenres auf der Grundlage einer evolutionären stochastischen Hyperparameterauswahl
DE112021003010T5 (de) Automatisierte datenverknüpfungen zwischen datensätzen
DE112020003537T5 (de) Unüberwachte konzeptfindung und kreuzmodale wiedergewinnung in zeitreihenund textkommentaren basierend auf kanonischer korrelationsanalyse
DE112021000251T5 (de) Verfahren zum auswählen von datensätzen zum aktualisieren eines moduls mit künstlicher intelligenz
EP1170678B1 (de) Verfahren und Vorrichtung zur automatischen Suche relevanter Bilddatensätze
DE102020206187A1 (de) System und verfahren für interpretierbare sequenz- und zeitreihen-datenmodellierung
DE102014201540A1 (de) Verfahren und Vorrichtung zur Analyse von Texten
DE102016217191A1 (de) Verfahren zum Auswählen und Bewerten von einer Vielzahl von Datensätzen aus zumindest einer Datenquelle
DE102007000954A1 (de) Verfahren zur rechnergestützten Verarbeitung von digitalen semantisch annotierten Informationen

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0016310000

Ipc: G06F0016350000

R163 Identified publications notified
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0016350000

Ipc: G06F0040300000

R084 Declaration of willingness to licence