DE102019204382A1 - Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments - Google Patents
Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments Download PDFInfo
- Publication number
- DE102019204382A1 DE102019204382A1 DE102019204382.8A DE102019204382A DE102019204382A1 DE 102019204382 A1 DE102019204382 A1 DE 102019204382A1 DE 102019204382 A DE102019204382 A DE 102019204382A DE 102019204382 A1 DE102019204382 A1 DE 102019204382A1
- Authority
- DE
- Germany
- Prior art keywords
- analysis
- vectors
- vector
- document
- grouping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Verfahren (10) zum maschinellen Verarbeiten eines technischen Dokuments, gekennzeichnet durch folgende Merkmale:- Text (12) und inhaltliche Eingruppierung (13) des Dokuments werden durch ein Vektorraum-Retrieval (14) auf einen Informationsvektor (15) abgebildet und- anhand des Informationsvektors (15) wird das Dokument einer zumindest teilautomatisierten Analyse (17) unterzogen.
Description
- Die vorliegende Erfindung betrifft ein Verfahren zum maschinellen Verarbeiten eines technischen Dokuments. Die vorliegende Erfindung betrifft darüber hinaus eine entsprechende Vorrichtung, ein entsprechendes Computerprogramm sowie ein entsprechendes Speichermedium.
- Stand der Technik
- Die Auswertung eines Bestands von unstrukturiert gespeicherten Daten (meist Texten) nach Suchbegriffen sowie Suche und Bereitstellung der gefundenen Daten wird in Informationswissenschaft, Informatik und Computerlinguistik als Informationsrückgewinnung (information retrieval, IR) bezeichnet. Als Vektorraum-Retrieval (vector space model, VSM) ist in diesem Zusammenhang ein Verfahren bekannt, bei dem Informationen als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert werden. Der Abstand der resultierenden sogenannten Informationsvektoren kann als Maß für die Ähnlichkeit von Dokumenten oder zu einer Suche in selbigen herangezogen werden.
-
US9037464B1 - Gemäß
DE112015002286T9 wird eine Datenbank bereitgestellt, die einen Katalog von Dokumenten in einem Einbettungsraum identifiziert, wobei die Datenbank einen Abstand in dem Einbettungsraum zwischen jedem Paar von Dokumenten identifiziert, entsprechend einem vorbestimmten Maß der Unähnlichkeit zwischen dem Paar von Dokumenten. Das System präsentiert eine erste Sammlung der Dokumente gegenüber dem Benutzer, aus einem anfänglichen Kandidatenraum, der Teil des Einbettungsraums ist. Das System verfeinert dann iterativ den Kandidatenraum unter Verwendung von geometrischen Randbedingungen für den Einbettungsraum in Antwort auf ein relatives Feedback durch den Benutzer. Bei jeder Iteration identifiziert das System dem Benutzer eine Untermenge von Dokumenten aus dem dann aktuellen Kandidatenraum, worauf basierend der Benutzer das relative Feedback liefert. In einer Ausführungsform sind diese Untermengen von Dokumenten diskriminativer als die durchschnittliche Unterscheidbarkeit von ähnlichen Sätzen von Dokumenten in dem dann aktuellen Kandidatenraum. - Offenbarung der Erfindung
- Die Erfindung stellt ein Verfahren zum maschinellen Verarbeiten eines technischen Dokuments, eine entsprechende Vorrichtung, ein entsprechendes Computerprogramm sowie ein entsprechendes Speichermedium gemäß den unabhängigen Ansprüchen bereit.
- Ein Vorzug dieser Lösung liegt in der auf diese Weise erzielbaren Verbesserung der Repräsentation von Patentdokumenten als Vektorraum. Eine nachgelagerte Verarbeitung wie Clustering, Klassifikation, Visualisierung etc. liefert dadurch bessere Ergebnisse. Hierzu werden die amtlich vergebenen Patentklassifikationen ebenfalls als Vektor in einem gleichsam „gelernten“ Raum angegeben.
- Durch die in den abhängigen Ansprüchen aufgeführten Maßnahmen sind vorteilhafte Weiterbildungen und Verbesserungen des im unabhängigen Anspruch angegebenen Grundgedankens möglich. So kann vorgesehen sein, dass im Rahmen einer Vorverarbeitung im Text enthaltene Schlagwörter und in der Eingruppierung enthaltene Eingruppierungssymbole ausgewählt und beim Retrieval auf Wort- bzw. Symbolvektoren abgebildet werden. Im Rahmen einer Nachverarbeitung wird sodann jeweils ein Repräsentant der Wortvektoren und der Symbolvektoren gebildet; diese Repräsentanten werden schließlich zu einem erweiterten Vektor kombiniert. Ein nachfolgendes, auf der Nähe der Vektoren im Raum basierendes Clustering wird auf diese Weise verbessert. Dies ermöglicht auch weiterführende Verbesserungen von z. B. Klassifikationsalgorithmen.
- Figurenliste
- Ausführungsbeispiele der Erfindung sind in den Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert. Es zeigt:
-
1 das Flussdiagramm eines Verfahrens gemäß einer ersten Ausführungsform. -
2 schematisch einen Datenbankserver gemäß einer zweiten Ausführungsform. - Ausführungsformen der Erfindung
-
1 illustriert den grundlegenden Ablauf eines Verfahrens (10 ) gemäß einer Ausführungsform der Erfindung. Hierbei werden Wörter aus den Patentdokumenten zunächst einer Vorverarbeitung (11 ) unterzogen. Der auf diese Weise präprozessierte Text (12 ) wird mittels Word2Vec in einen Vektorraum der Größe (nw,m) überführt, wobei nw die Anzahl der Dimensionen des Zeilenvektors der Wörter aus den Patentdokumenten und m die Anzahl der Patentdokumente bezeichnet. Zum anderen werden präprozessierte Eingruppierungssymbole (13 ) aus internationaler Patentklassifikation (international patentclassification, IPC), kooperativer Patentklassifikation (cooperative patent classification, CPC), den vom japanischen Patentamt verwendeten FI oder F-Terms, dem Patentklassifikationssystem der Vereinigten Staaten von Amerika (United States patent classification system, USPC), den vom Privatanbieter Clarivate Analytics verwendeten Derwent Manual Codes oder ähnlichen Klassifikations- oder Indexierungssystemen zunächst sortiert und mittels Word2Vec in einen zweiten Vektorraum der Größe (nv,m) überführt, wobei nv die Anzahl der Dimensionen des Zeilenvektors der Klassifikationssymbole aus den Patentdokumenten bezeichnet. - Generell lässt sich zwischen dokumentbasierter und wortbasierter Einbettung (embedding) unterscheiden. Wortbasierte Verfahren wie Word2Vec erfordern in der Regel eine Nachverarbeitung (
16 ), sodass ein Repräsentant aus der Vielzahl der erzeugten Vektoren (für ausgewählte vorverarbeitete Wörter und Eingruppierungssymbole) eines Dokuments gebildet wird. In Betracht kommen beispielsweise Minimum, Maximum, arithmetisches Mittel, Median oder ein anderweitiger Mittelwert. Die besagte Nachverarbeitung (16 ) erfolgt dann jeweils getrennt für wortbasierten und eingruppierungssymbolbasierten Vektor. - Anschließend werden für jedes Patentdokument die beiden Zeilenvektoren konkateniert und ein Zeilenvektor (
15 ) der Dimension nw + nv erzeugt. Anstelle der beschriebenen Verkettung können die Zeilenvektoren (15 ) auch anders zusammengebracht und weiteren Normalisierungs-, Matrixreduktions- oder anderweitigen Verarbeitungsschritten unterzogen werden. Der solchermaßen aufgespannte Vektorraum hat die Größe (nw + nv,m). Durch Wahl geeigneter Werte für nw und nv lässt sich die relative Gewichtung von Wörtern aus Text (12 ) und Eingruppierung (13 ) steuern. Eine sinnvolle Wahl ist beispielsweise nw = 200 und nv = 40. - Neben der unmittelbaren Verwendung der Eingruppierung (
13 ) ist es auch möglich, Wörter aus Titeln, Hinweisen und Beschreibungen zu verwenden, welche im jeweiligen Klassifikationssystem (IPC, CPC etc.) mit den Eingruppierungssymbolen assoziiert sind. - Gemäß einer alternativen Ausführungsform mögen anstelle des Volltexts (
12 ) eines Patentdokuments nur diejenigen Wörter zur Erstellung der Wortkomponente eines Vektorraums verwendet werden, welche den inhaltlichen Gegenstand des Dokuments im engeren Sinn beschreiben. - In einer erweiterten Ausgestaltung könnten neben Text (
12 ) und Eingruppierung (13 ) weitere Dimensionen miteinbezogen werden, z. B. Anmelde, Prioritäts- oder Publikationsdatum, Zitate, Anmelder, Erfinder etc. Auch könnten indirekte Metadaten miteinbezogen werden. Zu denken ist etwa an Umsatz, Gewinn, Rechtsstreitigkeiten (litigation) oder Höhe des Forschungs- und Entwicklungsbudgets des jeweiligen Patentanmelders bzw. -inhabers. - Dieses Verfahren (
10 ) kann beispielsweise in Software oder Hardware oder in einer Mischform aus Software und Hardware beispielsweise in einer Datenbank (20 ) implementiert sein, wie die schematische Darstellung der2 verdeutlicht. - ZITATE ENTHALTEN IN DER BESCHREIBUNG
- Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
- Zitierte Patentliteratur
-
- US 9037464 B1 [0003]
- DE 112015002286 T9 [0004]
Claims (11)
- Verfahren (10) zum maschinellen Verarbeiten eines technischen Dokuments, gekennzeichnet durch folgende Merkmale: - Text (12) und inhaltliche Eingruppierung (13) des Dokuments werden durch ein Vektorraum-Retrieval (14) auf einen Informationsvektor (15) abgebildet und - anhand des Informationsvektors (15) wird das Dokument einer zumindest teilautomatisierten Analyse (17) unterzogen.
- Verfahren (10) nach
Anspruch 1 , gekennzeichnet durch folgende Merkmale: - bei einer Vorverarbeitung (11) werden im Text (12) enthaltene Schlagwörter und in der Eingruppierung (13) enthaltene Eingruppierungssymbole ausgewählt, - beim Retrieval (14) werden die Schlagwörter auf Wortvektoren und die Eingruppierungssymbole auf Symbolvektoren abgebildet, - bei einer Nachverarbeitung (16) wird jeweils ein Repräsentant der Wortvektoren und der Symbolvektoren gebildet und - die Repräsentanten werden zum Informationsvektor (15) verkettet. - Verfahren (10) nach
Anspruch 2 , gekennzeichnet durch mindestens eines der folgenden Merkmale: - der Repräsentant der Wortvektoren wird durch eine skalare Verknüpfung der Wortvektoren gebildet oder - der Repräsentant der Symbolvektoren wird durch eine skalare Mittelwertbildung unter den Symbolvektoren gebildet. - Verfahren (10) nach
Anspruch 2 oder3 , gekennzeichnet durch mindestens eines der folgenden Merkmale: - die Wortvektoren werden in einen Vektorraum mit Dimensionalität zwischen 100 und 1000 eingebettet oder - die Symbolvektoren werden in einen Vektorraum mit Dimensionalität zwischen 20 und 200 eingebettet. - Verfahren (10) nach einem der
Ansprüche 1 bis4 , dadurch gekennzeichnet, dass die Analyse (17) eine Klassifikation (1) mittels eines der Folgenden umfasst: - eine logistische Regression, - eine Stützvektormaschine, - künstliche neuronale Netze oder - Entscheidungsbäume. - Verfahren (10) nach einem der
Ansprüche 1 bis5 , dadurch gekennzeichnet, dass die Analyse (17) eine Clusteranalyse (2) mittels eines der Folgenden umfasst: - eine Kerndichteschätzung, - eine Mittelwertverschiebung, - eine dichtebasierte räumliche Clusteranalyse mit Rauschen, - ein k-Means-Algorithmus oder - Ordering Points to Identify the Clustering Structure (OPTICS). - Verfahren (10) nach einem der
Ansprüche 1 bis6 , dadurch gekennzeichnet, dass die Analyse (17) eine zwei- oder dreidimensionale Visualisierung und vorangehende Dimensionsreduktion (3) mittels eines der Folgenden umfasst: - eine Hauptkomponentenanalyse und/oder - eine t-verteilte stochastische Nachbareinbettung. - Verfahren (10) nach einem der
Ansprüche 1 bis7 , dadurch gekennzeichnet, dass die Analyse (17) eine Ähnlichkeitssuche, insbesondere mittels eines Kosinus-Maßes umfasst. - Computerprogramm, welches eingerichtet ist, das Verfahren (10) nach einem der
Ansprüche 1 bis8 auszuführen. - Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach
Anspruch 9 gespeichert ist. - Vorrichtung (20), die eingerichtet ist, das Verfahren (10) nach einem der
Ansprüche 1 bis8 auszuführen.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019204382.8A DE102019204382A1 (de) | 2019-03-28 | 2019-03-28 | Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019204382.8A DE102019204382A1 (de) | 2019-03-28 | 2019-03-28 | Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102019204382A1 true DE102019204382A1 (de) | 2020-10-01 |
Family
ID=72612571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102019204382.8A Pending DE102019204382A1 (de) | 2019-03-28 | 2019-03-28 | Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102019204382A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102022201854A1 (de) | 2022-02-22 | 2023-08-24 | Robert Bosch Gesellschaft mit beschränkter Haftung | Vorrichtung und Verfahren zum Setzen oder zur Aktualisierung einer Klassifikation in einem Datenbankeintrag eines Datenbanksystems |
-
2019
- 2019-03-28 DE DE102019204382.8A patent/DE102019204382A1/de active Pending
Non-Patent Citations (4)
Title |
---|
GRAWE, Mattyws F.; MARTINS, Claudia A.; BONFANTE, Andreia G. Automated patent classification using word embedding. In: 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA). S. 408-411. DOI: 10.1109/ICMLA.2017.0-127 * |
LILLEBERG, Joseph; ZHU, Yun; ZHANG, Yanqing. Support vector machines and word2vec for text classification with semantic features. In: 14th International Conference on Cognitive Informatics & Cognitive Computing (ICCI* CC). IEEE, 2015. S. 136-140. DOI: 10.1109/ICCI-CC.2015.7259377 * |
REINKE, Mark, et al. Einsatz kognitiver Verfahren am Deutschen Patent-und Markenamt. BTW 2019, 2019. Rostock/Germany, 4.-8. März 2019 [online] URL: https://dl.gi.de/handle/20.500.12116/21705 [Abgerufen am: 13.01.2020] * |
SENEVIRATNE, Dilesha, et al. A signature approach to patent classification. In: AIRS. Springer, Cham, 2015. S. 413-419. DOI: 10.1007/978-3-319-28940-3_35 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102022201854A1 (de) | 2022-02-22 | 2023-08-24 | Robert Bosch Gesellschaft mit beschränkter Haftung | Vorrichtung und Verfahren zum Setzen oder zur Aktualisierung einer Klassifikation in einem Datenbankeintrag eines Datenbanksystems |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102014204827A1 (de) | Auflösen ähnlicher Entitäten aus einer Transaktionsdatenbank | |
EP3736817A1 (de) | Überprüfung und/oder verbesserung der konsistenz von datenkennzeichnungen bei der medizinischen bildverarbeitung | |
DE112013002654T5 (de) | Verfahren zum Klassifizieren von Text | |
DE112018002047T5 (de) | Dokumentenanalyse mit mehreren faktoren | |
DE112020003538T5 (de) | Kreuzmodale wiedergewinnung mit wortüberlappungsbasiertem clustern | |
DE102012214196A1 (de) | Erkennen nicht eindeutiger Namen in einer Gruppe von Namen | |
DE60032258T2 (de) | Bestimmen ob eine variable numerisch oder nicht numerisch ist | |
DE112021006604T5 (de) | Dynamisches in-rangordnung-bringen von facetten | |
DE102021209171A1 (de) | System zum wählen eines lernenden modells | |
DE202023102803U1 (de) | System zur Erkennung von Emotionen und zur Stimmungsanalyse durch maschinelles Lernen | |
DE102012025349B4 (de) | Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten | |
DE102019204382A1 (de) | Verfahren und Vorrichtung zum maschinellen Verarbeiten eines technischen Dokuments | |
DE102019108857A1 (de) | Automatisiertes maschinelles Lernen auf Basis gespeicherten Daten | |
DE112018006438T5 (de) | Clustering von facetten auf einem zweidimensionalen facettenwürfel für text-mining | |
DE102020215589A1 (de) | Steuern eines deep-sequence-modells mit prototypen | |
DE102012025350A1 (de) | Verarbeitungn eines elektronischen Dokuments | |
DE202022105338U1 (de) | Ein neuronales Netzwerksystem zur Klassifizierung von Musikgenres auf der Grundlage einer evolutionären stochastischen Hyperparameterauswahl | |
DE112021003010T5 (de) | Automatisierte datenverknüpfungen zwischen datensätzen | |
DE112020003537T5 (de) | Unüberwachte konzeptfindung und kreuzmodale wiedergewinnung in zeitreihenund textkommentaren basierend auf kanonischer korrelationsanalyse | |
DE112021000251T5 (de) | Verfahren zum auswählen von datensätzen zum aktualisieren eines moduls mit künstlicher intelligenz | |
EP1170678B1 (de) | Verfahren und Vorrichtung zur automatischen Suche relevanter Bilddatensätze | |
DE102020206187A1 (de) | System und verfahren für interpretierbare sequenz- und zeitreihen-datenmodellierung | |
DE102014201540A1 (de) | Verfahren und Vorrichtung zur Analyse von Texten | |
DE102016217191A1 (de) | Verfahren zum Auswählen und Bewerten von einer Vielzahl von Datensätzen aus zumindest einer Datenquelle | |
DE102007000954A1 (de) | Verfahren zur rechnergestützten Verarbeitung von digitalen semantisch annotierten Informationen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0016310000 Ipc: G06F0016350000 |
|
R163 | Identified publications notified | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0016350000 Ipc: G06F0040300000 |
|
R084 | Declaration of willingness to licence |