DE112018002047T5 - Dokumentenanalyse mit mehreren faktoren - Google Patents

Dokumentenanalyse mit mehreren faktoren Download PDF

Info

Publication number
DE112018002047T5
DE112018002047T5 DE112018002047.9T DE112018002047T DE112018002047T5 DE 112018002047 T5 DE112018002047 T5 DE 112018002047T5 DE 112018002047 T DE112018002047 T DE 112018002047T DE 112018002047 T5 DE112018002047 T5 DE 112018002047T5
Authority
DE
Germany
Prior art keywords
document
value
documents
score
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112018002047.9T
Other languages
English (en)
Inventor
Lewis C. Lee
Daniel Crouse
Aaron Cunningham
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aon Risk Services Inc of Maryland
Original Assignee
Aon Risk Services Inc of Maryland
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=63790687&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE112018002047(T5) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Aon Risk Services Inc of Maryland filed Critical Aon Risk Services Inc of Maryland
Publication of DE112018002047T5 publication Critical patent/DE112018002047T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Technology Law (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Diese Offenbarung beschreibt, teilweise, technische Verfahrensweisen zum Ausführen automatischer Dokumentenanalyse. Zum Beispiel kann ein System Dokumente analysieren, um jeweilige Reichweitenwerte zu berechnen, die der Reichweite der Dokumente entsprechen, wobei ein jeweiliger Reichweitenwert auf mindestens einem der folgenden Faktoren basiert: Umfang eines Dokuments, Teileanzahl für das Dokument, oder Differenzierung zwischen Teilen des Dokuments. Das System kann ferner die Dokumente analysieren, um mit Risiken der Dokumente verknüpfte Risikowerte zu berechnen, wobei ein jeweiliger Risikowert auf eine Anzahl von anderen Dokumenten, die einem Dokument zeitlich vorangehen, gegründet ist. Des Weiteren kann das System die Dokumente analysieren, um Marktwerte, Marktwerten der Dokumente entsprechend, zu berechnen. Das System kann sodann globale Wertungswerte für die Dokumente berechnen, basierend auf den Reichweitenwerten, den Risikowerten und den Marktwerten.

Description

  • Diese Anmeldung beansprucht die Priorität der am 17. April 2017 eingereichten US-Patentanmeldung Nr. 15/489,080 mit dem Titel „Multi-Factor Document Analysis“, auf deren gesamten Inhalt hiermit ausdrücklich Bezug genommen wird.
  • HINTERGRUND
  • Die Informationsmenge in Dokumenten nimmt rapide zu. Es gibt viele Branchen wie Recht, Bildung, Journalismus, Politik, Wirtschaft oder dergleichen, die von einer schnellen und kostengünstigen Dokumentenanalyse profitieren können. Trotz der jüngsten Fortschritte bei der künstlichen Intelligenz und bei der Datenverarbeitung liefert die manuelle Analyse die besten Ergebnisse für viele Dokumentenanalyseaufgaben, bei denen subjektive Beurteilungen und Expertenwissen erforderlich sind. Die Kosten und die relativ langsame Geschwindigkeit der manuellen Analyse durch den Menschen machen es jedoch effektiv unmöglich oder undurchführbar, eine Dokumentenanalyse in dem Umfang, der Geschwindigkeit und den Kosten durchzuführen, die in vielen Branchen gewünscht werden.
  • „Offshoring“ zur Nutzung geringerer Kosten kann die Einstellung einer größeren Anzahl von Mitarbeitern ermöglichen, um Dokumente zu einem günstigeren Preis pro Arbeitsstunde zu analysieren. Trotzdem gibt es eine Untergrenze für die Kosten und eine Obergrenze für den Durchsatz. Zum Beispiel wäre die Analyse eines Korpus von einer Million 30-seitiger Textdokumente über Nacht nur mit menschlicher Analyse unmöglich. Die automatisierte Dokumentenanalyse mit Computern ist viel schneller als die Analyse durch den Menschen und kostengünstiger. Bei analytischen Aufgaben mit subjektivem Urteilsvermögen ist die Leistung von Computern jedoch viel schlechter als die von Menschen. Geräte und Methoden, die Dokumente auf eine Art und Weise analysieren können, die die Analyse durch den Menschen nachahmt, werden daher in vielen verschiedenen Branchen breite Anwendung finden. Darüber hinaus bieten Geräte und Methoden, die Dokumente mithilfe einheitlicher Regeln analysieren können, möglicherweise eine konsistentere Analyse. Zum Beispiel kann die menschliche Analyse subjektive Unterschiede bei der Analyse von Dokumenten beinhalten, was zu weniger nützlichen Ergebnissen führen kann.
  • Die vorstehenden Herausforderungen verschärfen sich in analytischen Zusammenhängen, in denen jedes Dokument auf der Grundlage mehrerer Faktoren bewertet werden muss.
  • Figurenliste
  • Die detaillierte Beschreibung wird unter Bezugnahme auf die beigefügten Figuren beschrieben. In den Figuren kennzeichnet die am weitesten links stehende(n) Ziffer(n) einer Referenznummer die Figur, in der die Referenznummer zum ersten Mal erscheint. Die Verwendung der gleichen Bezugszeichen in verschiedenen Figuren zeigt ähnliche oder identische Gegenstände an.
    • 1 veranschaulicht eine beispielhafte Verarbeitungspipeline zum Erzeugen einer Benutzerschnittstelle, die Ergebnisse einer automatischen Dokumentenanalyse zeigt, die auf dem Umfang der jeweiligen Dokumente basieren.
    • 2 veranschaulicht eine beispielhafte Verarbeitungspipeline zum Erzeugen einer Benutzerschnittstelle, die Ergebnisse einer automatischen Dokumentenanalyse zeigt, die auf Teileanzahlen jeweiliger Dokumente basieren.
    • 3 veranschaulicht eine beispielhafte Verarbeitungspipeline zum Erzeugen einer Benutzerschnittstelle, die Ergebnisse einer automatischen Dokumentenanalyse zeigt, die auf einer Differenzierung der jeweiligen Dokumente basieren.
    • 4 veranschaulicht eine beispielhafte Verarbeitungspipeline zum Erzeugen einer Benutzerschnittstelle, die Vergleichs-Reichweitenergebnisse einer automatischen Dokumentenanalyse zeigt.
    • 5 veranschaulicht eine beispielhafte Verarbeitungspipeline zum Erzeugen einer Benutzerschnittstelle, die Ergebnisse einer automatischen Dokumentenanalyse zeigt, die auf einem Risiko entsprechender Dokumente basieren.
    • 6 veranschaulicht eine beispielhafte Verarbeitungspipeline zum Erzeugen einer Benutzerschnittstelle, die Ergebnisse einer automatischen Dokumentenanalyse zeigt, die auf einem Marktwert der jeweiligen Dokumente basieren.
    • 7 veranschaulicht eine beispielhafte Verarbeitungspipeline zum Erzeugen einer Benutzerschnittstelle, die globale Ergebnisse einer automatischen Dokumentenanalyse zeigt.
    • 8 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zum Filtern von Dokumenten aus einem Datenspeicher darstellt, um Teile dieser Dokumente für die Analyse zu identifizieren und vorzubereiten.
    • 9 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zum Vorverarbeiten eines Teils eines Dokuments darstellt.
    • 10 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zur automatischen Verarbeitung von Dokumenten zum Erzeugen einer Benutzerschnittstelle darstellt, die Umfangswerte angibt.
    • 11 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zur automatischen Verarbeitung von Dokumenten zum Erzeugen einer Benutzerschnittstelle darstellt, die Teilezählwerte angibt.
    • 12 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zur automatischen Verarbeitung von Dokumenten zum Erzeugen einer Benutzerschnittstelle darstellt, die Differenzierungswerte anzeigt.
    • 13 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zur automatischen Verarbeitung von Dokumenten zur Erzeugung einer Benutzerschnittstelle darstellt, die Vergleichs-Reichweitenwerte anzeigt.
    • 14 ist ein Flussdiagramm, das ein erstes beispielhaftes Verfahren zur automatischen Verarbeitung von Dokumenten zum Erzeugen einer Benutzerschnittstelle darstellt, die Vergleichs-Risikowerte anzeigt.
    • 15 ist ein Flussdiagramm, das ein zweites beispielhaftes Verfahren zur automatischen Verarbeitung von Dokumenten zum Erzeugen einer Benutzerschnittstelle darstellt, die Vergleichs-Risikowerte anzeigt.
    • 16 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zur automatischen Verarbeitung von Dokumenten zur Erzeugung einer Benutzerschnittstelle darstellt, die Vergleichs-Marktwertbewertungen anzeigt.
    • 17 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zum automatischen Verarbeiten von Dokumenten zum Erzeugen einer Benutzerschnittstelle darstellt, die globale Wertungswerte anzeigt.
    • 18 zeigt ein schematisches Diagramm einer oder mehrerer Datenverarbeitungsvorrichtung(en), die für die automatische, menschlich emulative Verarbeitung von Dokumenten ausgelegt ist/sind.
  • DETAILLIERTE BESCHREIBUNG
  • Diese Offenbarung beschreibt, teilweise, technische Verfahrensweisen zum Ausführen automatischer Dokumentenanalyse. Beispielsweise kann auf Dokumente, die in einem oder mehreren Datenspeicher(n) gespeichert ist/sind, automatisch von einem oder mehreren Datenverarbeitungsvorrichtung(en) zugegriffen werden und diese Dokumente können basierend auf einem oder mehreren Regelsätzen analysiert werden. Das Format, die Struktur und der Inhalt von Dokumenten, die in den Datenspeichern gespeichert sind, sind möglicherweise anfangs unbekannt. Daher kann in einigen Fällen ein Teil der Analyse das Filtern von Dokumenten aus einem Datenspeicher und das Vorverarbeiten der Dokumente umfassen, um diejenigen zu identifizieren, die für eine weitere Analyse geeignet sind. Beispiele für Dokumenttypen, die analysiert werden können, sind unter anderem erteilte Patente und veröffentlichte Patentanmeldungen. Die Analyse kann sich auf bestimmte Teile der Dokumente konzentrieren, wie beispielsweise Zusammenfassungen oder Patentansprüche. Die Vorverarbeitung kann die Dokumententeile ändern, indem der Inhalt standardisiert und Inhalte entfernt werden, die die nachfolgende Analyse negativ beeinflussen könnten, durch Techniken wie Entfernen von Stoppwörtern, Stammformreduktion und Entfernen von Wortduplikaten.
  • In einigen Fällen kann die automatische Dokumentenanalyse einen globalen Wertungswert für ein Dokument ergeben, der den wirtschaftlichen Wert des Dokuments widerspiegelt (z. B. durch ein Patent gewährte Rechte). Der globale Wertungswert kann auf einem oder mehreren Komponenten-Wertungswerten basieren. Beispielsweise, und für ein Patent, kann ein Reichweitenwert den Umfang des Patents widerspiegeln, was die Wahrscheinlichkeit angeben kann, dass das Patent Produkte und/oder Dienstleistungen abdeckt oder von diesen verletzt wird. Ein Patent, das eine größere Anzahl von Produkten und/oder Dienstleistungen abdeckt, hat wahrscheinlich einen größeren wirtschaftlichen Wert, da das Patent für mehr Produkte und/oder Dienstleistungen lizenziert oder durchgesetzt werden kann, um Lizenzgebühren und/oder Schadenszahlungen zu generieren. Ein Risikowert kann die Wahrscheinlichkeit widerspiegeln, dass das Patent nicht ungültig wird, wenn es angefochten wird, z. B. durch erneute Prüfung. Ein Patent, dessen Ungültigkeit bei Anfechtung weniger wahrscheinlich ist, hat wahrscheinlich einen höheren wirtschaftlichen Wert als ein Patent, dessen Ungültigkeit während einer Anfechtung wahrscheinlicher ist. Darüber hinaus kann ein Marktwert die relative Größe des Marktes widerspiegeln, der mit den durch das Patent abgedeckten Produkten und/oder Dienstleistungen verbunden ist. Ein höherer Marktwert kann auf einen höheren wirtschaftlichen Wert eines Patents hinweisen, der auf einem höheren Umsatzpotenzial in Verbindung mit den Produkten und/oder Dienstleistungen beruht.
  • In einigen Fällen können die Dokumente analysiert werden, um Vergleichs-Umfangswerte zu bestimmen (z. B. zu berechnen), die den Umfängen der Dokumente zugeordnet sind. Beispielsweise kann in einigen Beispielen der Umfang von Dokumententeilen auf der Grundlage der Berücksichtigung der Wortanzahl und der Gemeinsamkeit von Wörtern analysiert werden. Somit sind die Anzahl der einzigartigen Wörter und die Häufigkeit, mit der diese Wörter in anderen Dokumententeilen (z. B. Dokumententeilen anderer Dokumente) erscheinen, die Grundlage für die automatische Zuweisung eines Umfangswerts zu einem bestimmten Dokumententeil. Beispielsweise wird für einen bestimmten Dokumententeil eines bestimmten Dokuments die Wortanzahl mit der Wortanzahl anderer Dokumententeile in derselben Analyse verglichen. In ähnlicher Weise wird ein Häufigkeitswert für den gegebenen Dokumententeil basierend auf der Gemeinsamkeit von Wörtern in diesem Dokumententeil im Vergleich zu der Gemeinsamkeit von Wörtern in anderen Dokumententeilen aus derselben Analyse bestimmt. Ein gesamtheitlicher Umfangswert des gegebenen Dokuments kann dann basierend auf den Umfangswerten der Dokumententeile innerhalb des gegebenen Dokuments bestimmt werden. Basierend auf den gesamtheitlichen Umfangswerten der Dokumente wird ein mit dem Umfang jedes der Dokumente verbundener Vergleichs-Umfangswert durch Vergleichen des gesamtheitlichen Umfangswerts für ein jeweiliges Dokument mit den gesamtheitlichen Umfangswerten der anderen Dokumente in derselben Analyse ermittelt.
  • In einigen Fällen können die Dokumente analysiert werden, um Vergleichs-Teilezählwerte zu bestimmen (z. B. zu berechnen), die der Anzahl von Dokumententeilen zugeordnet sind, die in den Dokumenten enthalten sind. Beispielsweise kann ein gegebenes Dokument analysiert werden, um eine Anzahl von Dokumententeilen zu bestimmen, die in dem gegebenen Dokument enthalten sind. Der Vergleichs-Teilezählwert für das gegebene Dokument wird dann bestimmt, indem die Anzahl von Dokumententeilen innerhalb des gegebenen Dokuments mit der Anzahl von Dokumententeilen verglichen wird, die in anderen Dokumenten in derselben Analyse enthalten sind. Wenn zum Beispiel das gegebene Dokument ein Patent enthält, kann das Patent analysiert werden, um eine Anzahl von Ansprüchen innerhalb des Patents zu bestimmen. Die Anzahl von Patentansprüchen wird dann mit der Anzahl von Patentansprüchen in anderen Patenten verglichen, die analysiert werden, um den Vergleichs-Teilezählwert für das Patent zu bestimmen. In einigen Fällen kann beim Analysieren von Patenten das Analysieren der Anzahl von Patentansprüchen das Vergleichen der Anzahl von unabhängigen Patentansprüchen und/oder der Anzahl von abhängigen Patentansprüchen innerhalb des Patents mit der Anzahl von unabhängigen Patentansprüchen und/oder der Anzahl von abhängigen Patentansprüchen innerhalb der anderen Patente umfassen. Zum Beispiel können unabhängige Patentansprüche oder abhängige Patentansprüche während der Analyse stärker gewichtet werden, um die Vergleichs-Teilezählwerte zu bestimmen.
  • In einigen Fällen können die Dokumente analysiert werden, um Vergleichs-Differenzierungswerte zu bestimmen (z. B. zu berechnen), die mit Differenzierungen zwischen Dokumententeilen in den Dokumenten verbunden sind. Beispielsweise kann in einigen Beispielen die Differenzierung von Dokumententeilen auf der Grundlage der Berücksichtigung der Wortanzahl und der Differenzierung von Wörtern zwischen Dokumententeilen in einem gegebenen Dokument analysiert werden. Beispielsweise wird für einen gegebenen Dokumententeil eines gegebenen Dokuments eine Anzahl der Wörter innerhalb des gegebenen Dokumententeils bestimmt. Zusätzlich werden Wörter in dem gegebenen Dokumententeil mit Wörtern in mindestens einem anderen Dokumententeil (z. B. dem umfangreichsten Dokumententeil) in dem gegebenen Dokument verglichen, um eine Anzahl von Wörtern in dem gegebenen Dokumententeil zu bestimmen, die einzigartig sind (z. B. in dem mindestens einen anderen Dokumententeil nicht enthalten sind). Ein Differenzierungswert für den gegebenen Dokumententeil wird auf der Grundlage der Anzahl von Wörtern und der Anzahl von einzigartigen Wörtern bestimmt. Wenn zum Beispiel der Dokumententeil zehn Wörter enthält und die Anzahl der einzigartigen Wörter fünf ist, kann der Differenzierungswert für den gegebenen Dokumententeil 50% betragen. Ein gesamtheitlicher Differenzierungswert wird dann für das gegebene Dokument basierend auf den Differenzierungswerten von einem oder mehreren der Dokumententeile des gegebenen Dokuments bestimmt. Basierend auf den gesamtheitlichen Differenzierungswerten für die Dokumente wird ein Vergleichs-Differenzierungswert für jedes der Dokumente auf der Grundlage eines Vergleichs der gesamtheitlichen Differenzierungswerte für ein jeweiliges Dokument mit den gesamtheitlichen Differenzierungswerten der anderen Dokumente in derselben Analyse ermittelt.
  • In einigen Fällen wird ein Vergleichs-Reichweitenwert für jedes der Dokumente in der Analyse basierend auf dem jeweiligen Vergleichs-Umfangswert, dem jeweiligen Vergleichs-Teilezählwert und dem jeweiligen Vergleichs-Differenzierungswert für ein jeweiliges Dokument bestimmt (z. B. berechnet). Beispielsweise kann für ein gegebenes Dokument der Vergleichs-Reichweitenwert einen Durchschnitt (und/oder Mittelwert, Modalwert, niedrigsten Wert, höchsten Wert usw.) des Vergleichs-Umfangswerts, des Vergleichs-Teilezählwerts und des Vergleichs-Differenzierungswerts des gegebenen Dokuments enthalten. Für ein anderes Beispiel kann für ein gegebenes Dokument der Vergleichs-Reichweitenwert einen gewichteten Durchschnitt (und/oder einen gewichteten Mittelwert, einen gewichteten Modalwert, einen gewichteten niedrigsten Wert, einen gewichteten höchsten Wert usw.) des Vergleichs-Umfangswerts, des Vergleichs-Teilezählwerts und/oder des Vergleichs-Differenzierungswerts enthalten. Zum Beispiel kann der Vergleichs-Umfangswert mit einem ersten Gewicht multipliziert werden, um einen gewichteten Umfangswert zu bestimmen, der Vergleichs-Teilezählwert kann mit einem zweiten Gewicht multipliziert werden, um einen gewichteten Teilezählwert zu bestimmen, und der Vergleichs-Differenzierungswert kann mit einem dritten Gewicht multipliziert werden, um einen gewichteten Differenzierungswert zu bestimmen. Der Vergleichs-Reichweitenwert für das Dokument kann dann basierend auf einem Durchschnitt (und/oder Mittelwert, Modalwert, niedrigstem Wert, höchstem Wert usw.) des gewichteten Umfangswerts, des gewichteten Teilezählwert und des gewichteten Differenzierungswerts bestimmt werden.
  • In einigen Fällen können die Dokumente analysiert werden, um Risikowerte für die Dokumente zu bestimmen (z. B. zu berechnen). Wenn Dokumente beispielsweise Patente enthalten, kann jedes der Patente analysiert werden, um einen entsprechenden Risikowert zu ermitteln, der eine Wahrscheinlichkeit angibt, dass das jeweilige Patent ungültig wird, beispielsweise wenn die Gültigkeit in Frage gestellt wird. In einigen Fällen wird ein Risikowert für ein Patent ermittelt, indem eine semantische Suche durchgeführt wird, um einen Satz von Dokumenten (z. B. andere Dokumente wie Referenzen, Patente, Veröffentlichungen, Artikel usw.) zu identifizieren, die in engem Zusammenhang mit dem Konzept des Patents stehen, die Dokumente aus dem Satz entfernt werden, die nicht als Stand der Technik für das Patent qualifiziert sind (z. B. basierend auf dem Manual of Patent Examining Procedure (MPEP)) und/oder dem Patent vordatiert sind (z. B. entworfen, veröffentlicht, eingereicht oder dergleichen nach dem Prioritätsdatum des Patents) und anschließend der Risikowert anhand der Anzahl der verbleibenden Dokumente bestimmt wird. Zusätzlich oder alternativ werden in einigen Fällen Risikowerte für Patente basierend auf anderen Faktoren angepasst oder bestimmt. Beispielsweise kann ein Risikowert für ein Patent auf der Grundlage einer Anzahl von Referenzen, die während der Patentverfolgung zitiert wurden, eines Umfangs der Patentansprüche, eines mit dem Patent verbundenen Verlaufs des Erteilungsverfahrens, einer verbleibenden Patentlaufzeit und einer damit verbundenen Historie von Rechtsstreiten, eines oder mehrerer mit dem Patent verwandter Patente (z. B. ein oder mehrere ausländische verwandte Patente) und/oder dergleichen angepasst oder bestimmt werden.
  • In einigen Fällen können Dokumente analysiert werden, um Marktwerte für die Dokumente zu bestimmen (z. B. zu berechnen). Beispielsweise kann für ein gegebenes Dokument der Gegenstand des gegebenen Dokuments analysiert werden, um eine mit dem gegebenen Dokument verbundene Klassifikation zu bestimmen. In einigen Fällen kann die Klassifikation eine Klassifikation nach dem North American Industry Classification System (NAICS) enthalten, es können jedoch auch andere Klassifikationstypen verwendet werden. Ein mit der Klassifikation verbundener Wert wird dann bestimmt und verwendet, um den Marktwert für das gegebene Dokument zu berechnen. In einigen Fällen kann der Wert dem mit der Klassifikation verbundenen Bruttoinlandsprodukt (BIP) entsprechen. Beispielsweise können jeweilige BIP für eine oder mehrere der NAICS-Klassifikationen bestimmt werden. Die BIP können dann verwendet werden, um normalisierte BIP-Werte für die NAICS-Klassifikationen zu bestimmen. Unter Verwendung der normalisierten BIP-Werte kann ein Marktwert für das gegebene Dokument den normalisierten BIP-Wert für die für das gegebene Dokument identifizierte NAICS-Klassifikation enthalten.
  • In einigen Fällen wird ein globaler Wertungswert für jedes der Dokumente in der Analyse basierend auf dem Vergleichs-Reichweitenwert, dem Risikowert und dem Marktwert für ein jeweiliges Dokument bestimmt (z. B. berechnet). Beispielsweise kann der globale Wertungswert für ein gegebenes Dokument einen Durchschnitt (und/oder Mittelwert, Modalwert, niedrigsten Wert, höchsten Wert usw.) des Vergleichs-Reichweitenwerts, des Risikowerts und des Marktwerts des gegebenen Dokuments enthalten. In einem anderen Beispiel kann der globale Wertungswert für ein bestimmtes Dokument einen gewichteten Durchschnitt (und/oder einen gewichteten Mittelwert, einen gewichteten Modalwert, einen gewichteten niedrigsten Wert, einen gewichteten höchsten Wert usw.) des Vergleichs-Reichweitenwerts, des Risikowerts und des Marktwerts des gegebenen Dokuments umfassen. Beispielsweise können einem oder mehreren von dem Vergleichs-Reichweitenwert, dem Risikowert und dem Marktwert des gegebenen Dokuments ein höheres Gewicht gegeben werden, wenn der globale Wertungswert berechnet wird.
  • In einigen Fällen wird eine Benutzeroberfläche generiert und verwendet, um Wertungswerte basierend auf der Analyse bereitzustellen. Beispielsweise kann die Benutzerschnittstelle eine Liste von jedem der Dokumente aus der Analyse enthalten. Die Benutzerschnittstelle kann ferner einen oder mehrere von dem jeweiligen Vergleichs-Umfangswert, dem jeweiligen Vergleichs-Teilezählwert, dem jeweiligen Vergleichs-Differenzierungswert, dem jeweiligen Vergleichs-Reichweitenwert, dem jeweiligen Risikowert, dem jeweiligen Marktwert und dem jeweiligen globalen Wertungswert für jedes der Dokumente enthalten. Zusätzlich kann die Benutzeroberfläche für jedes Dokument, das sich auf ein anderes zu analysierendes Dokument bezieht, einen gesamtheitlichen Gruppenwertungswert für die Dokumente enthalten. Wenn sich ein Patent beispielsweise auf zwei oder mehr zu analysierende Patente bezieht, beispielsweise auf eine gemeinsame Patentfamilie, kann die Benutzeroberfläche einen der Patentfamilie entsprechenden Gruppenwertungswert enthalten.
  • Der globale Wertungswert für ein Dokument (z. B. ein Patent) kann den wirtschaftlichen Wert des Dokuments (z. B. durch das Patent gewährte Rechte) widerspiegeln. Beispielsweise, und für ein Patent, kann der Reichweitenwert den Umfang des Patents widerspiegeln, was die Wahrscheinlichkeit angeben kann, dass das Patent Produkte und/oder Dienstleistungen abdeckt oder von diesen verletzt wird. Ein Patent, das eine größere Anzahl von Produkten und/oder Dienstleistungen abdeckt, hat wahrscheinlich einen größeren wirtschaftlichen Wert, da das Patent für mehr Produkte und/oder Dienstleistungen lizenziert oder durchgesetzt werden kann, um Lizenzgebühren und/oder Schadenszahlungen zu generieren. Der Risikowert kann die Wahrscheinlichkeit widerspiegeln, dass das Patent nicht ungültig wird, wenn es angefochten wird, z. B. durch erneute Prüfung. Ein Patent, dessen Ungültigkeit bei Anfechtung weniger wahrscheinlich ist, hat wahrscheinlich einen höheren wirtschaftlichen Wert als ein Patent, dessen Ungültigkeit während einer Anfechtung wahrscheinlicher ist. Darüber hinaus kann der Marktwert die relative Größe des Marktes widerspiegeln, der mit den durch das Patent abgedeckten Produkten und/oder Dienstleistungen verbunden ist. Ein höherer Marktwert kann auf einen höheren wirtschaftlichen Wert eines Patents hinweisen, der auf einem höheren Umsatzpotenzial in Verbindung mit den Produkten und/oder Dienstleistungen beruht.
  • In Bezug auf eine Gruppe von Dokumenten, z. B. eine Familie von Patenten, kann der Gruppenwertungswert den wirtschaftlichen Wert der Gruppe von Dokumenten widerspiegeln. Beispielsweise und für eine Familie von Patenten können die Reichweitenwerte für jedes der Patente innerhalb der Familie den Umfang der Familie widerspiegeln, was die Wahrscheinlichkeit anzeigt, dass die Familie Produkte und/oder Dienstleistungen abdeckt, die möglicherweise die Patente verletzen. Eine Familie von Patenten, die eine größere Anzahl von Produkten und/oder Dienstleistungen abdeckt, weist einen größeren wirtschaftlichen Wert auf, da die Familie für mehr Produkte und/oder Dienstleistungen auf Schadensersatz durchgesetzt werden kann. Die Risikowerte für jedes der Patente innerhalb der Familie können die Wahrscheinlichkeit widerspiegeln, dass die Patente nicht ungültig werden, wenn sie angefochten werden, z. B. durch erneute Prüfung. Eine Familie mit Patenten, deren Ungültigkeit bei Anfechtung weniger wahrscheinlich ist, hat einen höheren wirtschaftlichen Wert als eine Familie mit Patenten, deren Ungültigkeit bei einer Anfechtung wahrscheinlicher ist. Darüber hinaus können die Marktwerte für jedes der Patente innerhalb der Familie einen Teil des Gesamtmarktes widerspiegeln, in den die von der Familie abgedeckten Produkte und/oder Dienstleistungen einbezogen sind. Ein höherer Marktwert kann auf einen höheren wirtschaftlichen Wert für eine Familie von Patenten hinweisen, basierend auf den potenziellen Einnahmen, die die Produkte und/oder Dienstleistungen erzielen können. Infolgedessen kann ein höherer Gruppenwertungswert für eine Familie von Patenten einen höheren wirtschaftlichen Wert für die Familie und ein niedrigerer Gruppenwertungswert für eine Familie von Patenten einen geringeren wirtschaftlichen Wert für die Familie widerspiegeln.
  • Unter Verwendung der oben beschriebenen Techniken können globale Wertungswerte für ein Dokument über die Zeit unter Verwendung gemeinsamer grundlegender Metriken berechnet werden. Beispielsweise kann jeder der globalen Wertungswerte für ein Dokument auf der Grundlage der jeweiligen Reichweitenwerte, der jeweiligen Risikowerte und der jeweiligen Marktwerte berechnet werden, wobei jeder Reichweitenwert, Risikowert und Marktwert unter Verwendung eines oder mehrerer jeweiliger Algorithmen berechnet wird, deren Metriken sich von einer Analyse zur nächsten ändern können oder auch nicht. Solange die zur Berechnung der globalen Wertungswerte verwendeten Daten von einer Analyse zur nächsten gleich bleiben, bleiben auch die globalen Wertungswerte für die Dokumente gleich. Wenn sich die zur Berechnung der globalen Wertungswerte verwendeten Daten jedoch im Laufe der Zeit ändern (z. B. eine Änderung des BIP), werden sich die globalen Wertungswerte für das Dokument entsprechend der Änderung der Daten weiterentwickeln. Anhand des Beispiels, in dem sich das BIP im Laufe der Zeit ändert, werden sich die globalen Wertungswerte entsprechend der sich ändernden Wirtschaft entwickeln.
  • Der vorstehende Ansatz zur umfassenden Bewertung bietet einen zusätzlichen Vorteil. Es wird erwartet, dass sich die jeweiligen Algorithmen für den Reichweitenwert, den Risikowert und/oder den Marktwert sowie die zur Unterstützung solcher Algorithmen verfügbaren Daten im Laufe der Zeit weiterentwickeln und verfeinern, um Ergebnisse mit einer höheren wahrgenommenen Genauigkeit oder Nützlichkeit zu erzielen. Diese Weiterentwicklung oder Verfeinerung kann wiederum in den globalen Wertungswert einbezogen werden, um ein Ergebnis zu erhalten, das wahrscheinlich eine höhere wahrgenommene Genauigkeit oder Nützlichkeit aufweist, während es logisch konsistent und mit früheren Bewertungen vergleichbar bleibt. Wenn zum Beispiel ein globaler Wertungswert verwendet wurde, um Patentportfolios zu bewerten, die mit früheren Geschäftstransaktionen in Verbindung stehen (z. B. Erwerb von Vermögenswerten oder Lizenzvereinbarungen), kann die Entwicklung oder Verfeinerung von Komponenten-Bewertungsprozessen und -Daten in die globale Bewertung eines mit einer zukünftigen Transaktion verbundenen Portfolios einbezogen werden, wodurch die wahrgenommene Genauigkeit oder Nützlichkeit des globalen Wertungswerts erhöht wird und dennoch ein logischer Vergleich mit früheren Bewertungen ermöglicht wird, z. B. im Rahmen einer Marktvergleichsanalyse.
  • 1 veranschaulicht eine beispielhafte Analysepipeline 100 zum automatischen Analysieren und Präsentieren von Umfangsinformationen, die von mehreren Dokumenten abgeleitet wurden. Die Dokumente können aus einem oder mehreren Datenspeichern 102 stammen. Bei den Dokumenten kann es sich um jede Art von Dokument handeln, z. B. um erteilte Patente, veröffentlichte Patentanmeldungen, wissenschaftliche Artikel, Nachrichtenartikel, Finanzberichte usw. Die Dokumente können auch in einem von mehreren verschiedenen Formaten wie Klartext, Hypertext Markup Language (HTML), durch Kommas getrennte Werte (CSV) oder Bilder wie PDF-Dateien (Portable Document Format) oder TIFF-Dateien (Tag Image File Format) verfügbar sein. In einigen Dokumentformaten, wie beispielsweise HTML und CSV, können Teile und Attribute der Dokumente individuell identifiziert werden. Beispielsweise kann die Patentnummer in einer Spalte für Patentnummern in einer CSV-Datei platziert oder mit einem Tag <Patentnummer> in einer HTML-Datei gekennzeichnet werden. Ebenso kann der Anspruchsteil als Anspruchsteil identifiziert werden. In anderen Dateiformaten, wie zum Beispiel Klartext oder PDF, enthalten die Dokumente möglicherweise keine identifizierenden Informationen oder Metadaten.
  • Das Format und/oder der Dateityp von Dokumenten, die von einem der Datenspeicher 102 empfangen werden, können anfänglich unbekannt sein, wenn dieses Dokument in die Analysepipeline 100 eintritt. Daher kann, zu Beginn, ein Teil der anfänglichen Analyse das Identifizieren des Dateiformats und/oder der Art des Dokuments umfassen. Für alle Dokumente kann eine gewisse Verarbeitungsstufe erforderlich sein, und bestimmte Dateitypen, z. B. Bilddateien oder Textdateien, denen Metadaten fehlen, erfordern möglicherweise eine umfassendere Verarbeitung, bevor mit der weiteren Analyse begonnen werden kann. In einigen Fällen können die Datenspeicher 102 sowohl erteilte Patente als auch veröffentlichte Anmeldungen für Gebrauchs-, Design- und/oder Anlagenpatente enthalten. Patentdaten aus verschiedenen Gerichtsbarkeiten und in verschiedenen Sprachen können ebenfalls in den Datenspeichern 102 enthalten sein. Beispiele für Datenspeicher 102 umfassen eine von Innography® bereitgestellte Patentdatenbank, die vom United States Patent Trademark Office verwaltete US-Patentdatenbank, von Relacura verwaltete Patentdatenbanken sowie Patentdatenbanken, die von anderen Patentämtern verschiedener Gerichtsbarkeiten verwaltet werden.
  • Die Datenfilterung 104 kann die aus den Datenspeichern 102 erhaltenen Daten auf einen Korpus von Dokumenten beschränken, die bestimmte Eigenschaften gemeinsam haben. Dies kann besonders nützlich sein, wenn die Dokumente aus mehreren verschiedenen Quellen stammen und/oder die Dokumente ohne Kenntnis des Dokumentformats erhalten werden. Beispielsweise kann die Datenfilterung 104 Patentdokumente auf nur erteilte Patente beschränken und veröffentlichte Patentanmeldungen ausschließen. Das Datenfiltern 104 kann nach Patenttyp filtern und zum Beispiel Gebrauchsmuster behalten, während Design- und Anlagenpatente ausgeschlossen werden. Die Datenfilterung 104 kann Dokumente auch nach Sprache, Autor, Erfinder, Rechtsnachfolger, technischem Gebiet, Klassifikation usw. filtern. Filter können durch benutzergenerierte Eingaben über eine Benutzerschnittstelle spezifiziert werden. In einer Implementierung kann die Benutzerschnittstelle zum Spezifizieren, wie Daten gefiltert werden sollen, eine Befehlszeilenschnittstelle sein. In der Befehlszeile übergebene Argumente werden mit dem entsprechenden Code analysiert, um einen Eingabedatensatz und/oder Filter zu bestimmen, die auf eingehende Daten angewendet werden sollen.
  • Die Vorverarbeitung 106 kann die Dokumente oder Teile der Dokumente für eine spätere Verarbeitung modifizieren. Die Vorverarbeitung 106 kann das Entfernen von Interpunktion, das Entfernen von Stoppwörtern 108, das Umwandeln von Akronymen und Abkürzungen 110 in vollständige Wörter, die Stammformreduktion und/oder das Entfernen von Wortduplikaten umfassen. Stoppwörter 108 sind Wörter, die vor der weiteren Verarbeitung herausgefiltert werden. Die Interpunktion kann folgende Zeichen enthalten: . , ! ? , ; : ' " @ # $ % ^ & * ( ) [ ] < > / \ - - - °. Stoppwort bezieht sich normalerweise auf die häufigsten Wörter in einer Sprache. Stoppwörter können kurze Funktionswörter wie „das“, „ist“, „bei“, „welche“ und „an“ sowie andere umfassen. Es gibt jedoch keine universelle Liste von Stoppwörtern. Die Stoppwörter 108 können mit einzelnen Dokumenten oder Teilen der Dokumente verglichen und alle übereinstimmenden Wörter entfernt werden. Die Stoppwörter 108 können direkt in dem Code eines Vorverarbeitungsalgorithmus enthalten sein. Zusätzlich oder alternativ können die Stoppwörter 108 in einer Liste enthalten sein, auf die zugegriffen wird, um Stoppwörter 108 zu identifizieren. Die Liste kann editierbar sein, um Stoppwörter 108 hinzuzufügen oder zu entfernen. Es können mehrere Listen von Stoppwörtern 108 verfügbar sein. Bestimmte Stoppwörter 108 können basierend auf der Art der zu analysierenden Dokumente ausgewählt werden. Beispielsweise können patentspezifische Stoppwörter 108 Wörter wie „Verfahren“ oder „umfassend“ enthalten, die üblicherweise nicht in einer Liste allgemeiner Stoppwörter enthalten sind. In ähnlicher Weise können die Stoppwörter 108 Wörter enthalten, die für den technischen Bereich spezifisch sind, wenn die Datenfilterung 104 die Dokumente auf einen bestimmten technischen Bereich einschränkt.
  • Die Anomalieerkennung 112 identifiziert Teile von Dokumenten, die wahrscheinlich eine Anomalie enthalten, die dazu führt, dass der Teil des Dokuments von der weiteren Analyse ausgeschlossen oder markiert wird, um einen menschlichen Benutzer darauf hinzuweisen, dass es Gründe geben kann, den markierten Dokumententeil manuell zu überprüfen. In einer Implementierung kann die Analyse nur für unabhängige Patentansprüche durchgeführt werden. Die Datenfilterung 104 und die Vorverarbeitung 106 können jedoch Dokumententeile erzeugen, die sowohl unabhängige als auch abhängige Patentansprüche enthalten. Aufgrund der Grenzen der automatischen computergestützten Dokumentenanalyse sind einige Merkmale möglicherweise detektierbar, das automatische Analysesystem kann den Umfang jedoch nicht ordnungsgemäß analysieren. Das Markieren oder sonstige Anzeigen solcher Inhalte ermöglicht es dem Menschen, die manuellen Überprüfungsbemühungen nur auf die Dokumententeile zu konzentrieren, die für die automatischen Analysetechniken nicht vollständig zugänglich waren.
  • Die Umfangsberechnung 114 bestimmt den Umfang eines oder mehrerer Teile eines Dokuments. In einigen Fällen ist der Umfang ein subjektives Konzept, das in einer Form dargestellt wird, die durch Berücksichtigung der Wortanzahl und der Gemeinsamkeit von Wörtern für eine automatische Analyse geeignet ist. Die Wortanzahl ist einfach die Anzahl der Wörter in einem Dokumententeil. Wörter können basierend auf der Roheingabe nach der Datenfilterung 104 oder nach einem gewissen Grad der Vorverarbeitung 106 gezählt werden. Beispielsweise kann die Wortzählung nach dem Entfernen von Wortduplikaten durchgeführt werden, sodass es sich um eine Wortzählung einzigartiger Wörter handelt. Die Wortzählung kann auch vor oder nach dem Entfernen der Stoppwörter 108 durchgeführt werden. In ähnlicher Weise kann die Wortzählung vor oder nach dem Umwandeln der Akronyme und Abkürzungen 110 in ihre vollständigen Wortdarstellungen durchgeführt werden. Im Zusammenhang mit Patentansprüchen gelten kurze Ansprüche im Allgemeinen als weiter gefasst als längere Ansprüche.
  • Die Gemeinsamkeit von Wörtern gibt die Häufigkeit an, mit der ein bestimmtes Wort in einem Korpus von Dokumenten oder Dokumententeilen gefunden wird. Im Allgemeinen ist der relevante Korpus die Ausgabe der Vorverarbeitung 106. Wenn zum Beispiel die Ausgangsdokumente aus den Datenspeichern 102 akademische Arbeiten zur Chemie wären und die Vorverarbeitung auf die Zusammenfassungen dieser Arbeiten beschränkt wäre, dann würde die Gemeinsamkeit eines Wortes auf der Häufigkeit beruhen, mit der dieses Wort in allen Zusammenfassungen gefunden wird. Gängige Wörter korrelieren mit größerem Umfang, während das Vorhandensein komplex gefundener Wörter auf einen geringeren Umfang hinweist. Im Zusammenhang mit Patentansprüchen werden Ansprüche, die Wörter enthalten, die im technischen Bereich häufig vorkommen, im Allgemeinen als weiter gefasst angesehen als Ansprüche mit ungewöhnlichen Wörtern.
  • Die Umfangsberechnung 114 kombiniert sowohl die Wortanzahl als auch die Wortüblichkeit, um einem Dokumententeil einen Umfangswert zuzuweisen. Spezifische Techniken zum Bestimmen der Wortanzahl, der Wortüblichkeit und des Umfangswerts werden nachstehend erörtert. Einige Dokumente enthalten möglicherweise mehrere Teile, die bewertet werden. Beispielsweise könnten ein Abstrakt und eine Zusammenfassung eines Finanzdokuments bewertet werden. In einem anderen Beispiel kann ein einzelnes Patentdokument unabhängige und abhängige Ansprüche bewerten, und jedem von einem oder mehreren unabhängigen Ansprüchen und/oder jedem von einem oder mehreren abhängigen Ansprüchen kann ein unterschiedlicher Umfangswert zugewiesen werden.
  • Die Gesamtumfangsberechnung 116 bestimmt die gesamtheitlichen Umfangswerte für die zu analysierenden Dokumente. In einigen Fällen kann der gesamtheitliche Umfangswert eines Dokuments beispielsweise der Umfangswert des am weitesten gefassten Anspruchs (z. B. des am weitesten gefassten unabhängigen Anspruchs) eines Patentdokuments sein. In einigen Fällen kann der gesamtheitliche Umfangswert eines Dokuments der Umfang seines engsten Abschnitts sein, beispielsweise der Umfangswert des am engsten gefassten Anspruchs eines Patentdokuments. Dennoch kann in einigen Fällen der gesamtheitliche Umfangswert eines Dokuments auf dem (den) Umfangswert(en) von zwei oder mehr der Dokumententeile basieren. Beispielsweise kann der gesamtheitliche Umfangswert für ein Dokument einen Median oder Durchschnitt der Umfangswerte für jeden der Dokumententeile des Dokuments enthalten. Als ein weiteres Beispiel kann der gesamtheitliche Umfangswert für ein Dokument auf dem Bereich von Umfangswerten zwischen dem Umfang des am weitesten gefassten Abschnitts und dem Umfang des am engsten gefassten Abschnitts basieren. In einigen Fällen kann der gesamtheitliche Umfangswert durch mehr als einen Wertungswert (z. B. den weitesten Umfangswert, den Durchschnitt, den Median oder den Mittelwert des Umfangswerts, den Bereich der Umfangswerte) der Dokumententeile dargestellt werden oder kann eine Zusammensetzung (z. B. gewichteter oder ungewichteter Durchschnitt) solcher Bewertungen sein. In einigen Fällen können einer oder mehrere der Dokumententeile ein größeres Gewicht erhalten, wenn der gesamtheitliche Tiefenwert bestimmt wird. Beispielsweise kann unabhängigen Ansprüchen ein größeres Gewicht beigemessen werden als abhängigen Ansprüchen, wenn der gesamtheitliche Umfangswert eines Patents bestimmt wird.
  • Die Vergleichs-Umfangswertberechnung 118 kann Vergleichs-Umfangswerte für die Dokumente im Vergleich zu anderen Dokumenten in der Analyse bestimmen. Beispielsweise wird die Gesamtumfangsberechnung 116 im Kontext der anderen Dokumente in einem Korpus durchgeführt. Daher ist ein gesamtheitlicher Umfangswert eines Dokuments kein absoluter Wertungswert, sondern ein relativer Wertungswert im Vergleich zu anderen Dokumenten, die Teil derselben Analyse sind. Um einen Vergleichs-Umfangswert für ein Dokument im Vergleich zu anderen Dokumenten zu bestimmen, vergleicht die Vergleichs-Umfangswertberechnung 118 den gesamtheitlichen Umfangswert des Dokuments mit den gesamtheitlichen Umfangswerten anderer Dokumente, die in der Analyse enthalten sind.
  • Wenn beispielsweise der gesamtheitliche Umfangswert auf dem Wertungswert eines einzelnen Dokumententeils (z. B. des am weitesten oder am engsten gefassten) basiert, vergleicht die Berechnung 118 diesen Wertungswert mit dem Wertungswert des entsprechenden einzelnen Dokumententeils anderer Dokumente, die sich in der Analyse befinden. Wenn der gesamtheitliche Umfangswert auf dem Wertungswert mehrerer Dokumententeile basiert (z. B. als Durchschnitt, Median oder Mittelwert dargestellt; eine gewichtete oder ungewichtete Zusammensetzung aus dem am weitesten gefassten, durchschnittlichen (oder Median oder Mittelwert) und dem am engsten gefassten oder Bereichswert; oder einzelnen Komponentenwertungswerten, wie z. B. den am weitesten gefassten, durchschnittlichen und Bereich, vergleicht die Berechnung 118 diesen Wertungswert oder diese Wertungswerte mit dem Wertungswert oder den Wertungswerten der entsprechenden mehreren Dokumententeile anderer Dokumente in der Analyse. In einigen Fällen entspricht der Vergleichs-Umfangswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Umfangswert enthalten, der dem gesamtheitlichen Umfangswert des Dokuments entspricht oder darunter liegt. In einigen Fällen entspricht der Vergleichs-Umfangswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Umfangswert enthalten, der unter dem gesamtheitlichen Umfangswert des Dokuments liegt. In einigen Fällen entspricht der Vergleichs-Umfangswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Umfangswert enthalten, der dem gesamtheitlichen Umfangswert des Dokuments entspricht oder darüber liegt. In noch einigen weiteren Fällen entspricht der Vergleichs-Umfangswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Umfangswert enthalten, der über dem gesamtheitlichen Umfangswert des Dokuments liegt.
  • In einigen Fällen basiert das Analysedesign auf der Idee, Äpfel mit Äpfeln zu vergleichen, wenn globale Umfangswerten berechnet werden. Beispielsweise ist der Vergleich des Umfangs eines Biotechnologiepatents mit dem Umfang eines mechanischen Patents weniger aussagekräftig als der Vergleich des Umfangs eines Softwarepatents mit dem Umfang eines anderen Softwarepatents. Da den Dokumenten gesamtheitliche Umfangswerte in Bezug auf die anderen Dokumente in demselben Korpus gegeben werden, können diese gesamtheitlichen Umfangswerte verwendet werden, um die globalen Umfangswerte für jedes der Dokumente zu bestimmen.
  • Die Benutzerschnittstelle 120 kann die Vergleichs-Umfangswerte, Rangfolgen basierend auf den Vergleichs-Umfangswerten und eine Kennung für jedes der analysierten Dokumente anzeigen oder einem Benutzer anderweitig präsentieren. Die Kennung für jedes der Dokumente kann eine eindeutige Kennung sein, beispielsweise eine Patentnummer, eine Nummer einer veröffentlichten Patentanmeldung, eine ISBN (International Standard Book Number), ein Titel, eine URI (Universal Resource Identifier) usw. Die Benutzerschnittstelle (UI) 120 kann durch Verarbeiten einer Textdatei oder einer anderen Textausgabe erzeugt werden. Die UI 120 kann als eine Befehlszeilenschnittstelle, als eine grafische Benutzerschnittstelle oder als eine andere Art von Schnittstelle implementiert sein. Wenn sie als grafische Benutzerschnittstelle implementiert wird, kann die UI 120 durch einen Cloud-Dienst generiert werden, auf den über ein Kommunikationsnetz wie das Internet zugegriffen werden kann. Cloud-Dienste erfordern keine Kenntnisse des Endbenutzers über den physischen Standort oder die Konfiguration des Systems, das die Dienste bereitstellt. Zu den gebräuchlichen Bezeichnungen für Cloud-Dienste gehören „Software as a Service“ oder „SaaS“, „Plattformcomputer“, „On-Dash-Demand-Computing“ usw. Eine beliebige Anzahl von Benutzern kann jederzeit über spezielle Anwendungen oder über Browser (z. B. Internet Explorer®, Firefox®, Safari®, Google Chrome® usw.) auf die UI 120 zugreifen, die sich auf ihren lokalen Computergeräten befinden.
  • 2 zeigt eine beispielhafte Verarbeitungspipeline 200 zum automatischen Analysieren und Präsentieren von Teilzahlinformationen aus mehreren Dokumenten. Die Dokumente können aus einem oder mehreren Datenspeichern 102 stammen. Beispielsweise können die Dokumente dieselben Dokumente enthalten, die von der Verarbeitungspipeline 100 aus 1 analysiert wurden. In einigen Fällen können die Dokumente weiter gefiltert und/oder vorverarbeitet werden, indem ähnliche Techniken wie bei den Dokumenten von 1 verwendet werden. Beispielsweise kann die Datenfilterung 104 die aus den Datenspeichern 102 erhaltenen Daten auf einen Korpus von Dokumenten beschränken, die bestimmte Eigenschaften gemeinsam haben. Die Vorverarbeitung 106 kann die Dokumente oder Teile der Dokumente für eine spätere Verarbeitung auf der Grundlage des Entfernens von Interpunktion, des Entfernens von Stoppwörtern 108, des Umwandelns von Akronymen und Abkürzungen 110 in vollständige Wörter, der Stammformreduktion und/oder des Entfernens von Wortduplikaten modifizieren. Zusätzlich identifiziert die Anomalieerkennung 112 Teile von Dokumenten, die wahrscheinlich eine Anomalie enthalten, die dazu führt, dass der Teil des Dokuments von der weiteren Analyse ausgeschlossen oder markiert wird, um einen menschlichen Benutzer darauf hinzuweisen, dass es Gründe geben kann, den markierten Dokumententeil manuell zu überprüfen.
  • Die Teileanzahl-Berechnung 202 kann einen Wert (z. B. den gesamtheitlichen Teilezählwert) bestimmen, der der Anzahl von Teilen entspricht, die sich in jedem der Dokumente befinden. Beispielsweise kann nach dem Durchführen des Filterns und/oder der Vorverarbeitung eines Dokuments die Teileanzahl-Berechnung 202 einen Wert bestimmen, der der Anzahl von Dokumententeilen entspricht, die für das Dokument identifiziert wurden. In einigen Fällen entspricht der Wert jedem der Dokumententeile, die von der Verarbeitungspipeline 100 von 1 analysiert wurden. In einigen Fällen, wenn ein Dokument ein Patent enthält, kann der Wert, der der Anzahl von Teilen entspricht, die Anzahl von Ansprüchen innerhalb des Patents enthalten. Beispielsweise kann der Wert die Anzahl unabhängiger Ansprüche und/oder abhängiger Ansprüche innerhalb des Patents angeben. Wenn das Patent beispielsweise drei unabhängige Ansprüche und siebzehn abhängige Ansprüche enthält, kann der Wert für das Patent zwanzig umfassen.
  • In einigen Fällen kann die Teileanzahl-Berechnung 202 einen oder mehrere der Dokumententeile gewichten, wenn der Wert für ein Dokument bestimmt wird. Wenn das Dokument beispielsweise ein Patent enthält, können die unabhängigen Ansprüche bei der Bestimmung des Wertes für das Patent stärker gewichtet werden als die abhängigen Ansprüche. Beispielsweise kann für das obige Patent, das drei unabhängige Ansprüche und siebzehn abhängige Ansprüche enthält, der Wert für das Dokument neunundzwanzig umfassen, wenn den unabhängigen Ansprüchen ein viermal höheres Gewicht gegeben wird als den abhängigen Ansprüchen (z. B. (3 * 4) + 17 = 29). Natürlich kann das Gewicht unabhängiger Patentansprüche etwas anderes als das Vierfache sein, wie beispielsweise das 1,1-fache, das 1,2-fache, das 1,3-fache, das 2-fache, das 3-fache und das 5-fache usw. In einigen Fällen kann die höhere Gewichtung von unabhängigen Patentansprüchen gegenüber den abhängigen Patentansprüchen eine bessere Vorhersage für die Qualität der Patente liefern, da Patente, die mehrere unabhängige Patentansprüche enthalten, einen breiteren Geltungsbereich als andere Patente enthalten können oder eine andere Strategie des Patenterstellers widerspiegeln.
  • Die Vergleichs-Teilezählwert-Berechnung 204 kann Vergleichs-Teilezählwerte für die Dokumente auf der Grundlage der Werte bestimmen, die für andere zu analysierende Dokumente ermittelt wurden. Um zum Beispiel einen Vergleichs-Teilezählwert für ein gegebenes Dokument zu bestimmen, kann die Vergleichs-Teilezählwert-Berechnung 204 den mit dem gegebenen Dokument verbundenen Wert mit den Werten der anderen zu analysierenden Dokumente vergleichen. In einigen Fällen entspricht der Vergleichs-Teilezählwert für ein Dokuments dem Prozentsatz der Dokumente, die einen Wert enthalten, der gleich oder kleiner als der Wert des Dokuments ist. In einigen Fällen entspricht der Vergleichs-Teilezählwert eines Dokuments dem Prozentsatz der Dokumente, die einen Wert enthalten, der kleiner als der Wert des Dokuments ist. In einigen Fällen entspricht der Vergleichs-Teilezählwert eines Dokuments dem Prozentsatz der Dokumente, die einen Wert enthalten, der gleich oder größer als der Wert des Dokuments ist. In noch einigen weiteren Fällen entspricht der Vergleichs-Teilezählwert für ein Dokuments dem Prozentsatz der Dokumente, die einen Wert enthalten, der größer als der Wert des Dokuments ist.
  • Die Benutzerschnittstelle 206 kann die Vergleichs-Teilezählwerte, Rangfolgen basierend auf den Vergleichs-Teilezählwerten und eine Kennung für jedes der analysierten Dokumente anzeigen oder einem Benutzer auf andere Weise präsentieren. Die Kennung für jedes der Dokumente kann eine eindeutige Kennung sein, beispielsweise eine Patentnummer, eine Nummer einer veröffentlichten Patentanmeldung, eine ISBN, ein Titel, eine URI usw. Die UI 206 kann durch Verarbeiten einer Textdatei oder einer anderen Textausgabe erzeugt werden. Die UI 206 kann als eine Befehlszeilenschnittstelle, als eine grafische Benutzerschnittstelle oder als eine andere Art von Schnittstelle implementiert sein. Wenn sie als grafische Benutzerschnittstelle implementiert ist, kann die UI 206 durch einen Cloud-Dienst generiert werden, auf den über ein Kommunikationsnetz wie das Internet zugegriffen werden kann. Eine beliebige Anzahl von Benutzern kann jederzeit über spezielle Anwendungen oder über Browser (z. B. Internet Explorer®, Firefox®, Safari®, Google Chrome® usw.) auf die UI 206 zugreifen, die sich auf ihren lokalen Computergeräten befinden.
  • 3 zeigt eine beispielhafte Verarbeitungspipeline 300 zum automatischen Analysieren und Präsentieren von Differenzierungsinformationen aus mehreren Dokumenten. Die Dokumente können aus einem oder mehreren Datenspeichern 102 stammen. Beispielsweise können die Dokumente dieselben Dokumente enthalten, die von der Verarbeitungspipeline 100 aus 1 und/oder der Verarbeitungspipeline 200 von 2 analysiert wurden. In einigen Fällen können die Dokumente gefiltert und/oder vorverarbeitet werden, indem ähnliche Techniken wie bei den Dokumenten von 1 angewendet werden. Beispielsweise kann die Datenfilterung 104 die aus den Datenspeichern 102 erhaltenen Daten auf einen Korpus von Dokumenten beschränken, die bestimmte Eigenschaften gemeinsam haben. Die Vorverarbeitung 106 kann die Dokumente oder Teile der Dokumente für eine spätere Verarbeitung auf der Grundlage des Entfernens von Interpunktion, des Entfernens von Stoppwörtern 108, des Umwandelns von Akronymen und Abkürzungen 110 in vollständige Wörter, der Stammformreduktion und/oder des Entfernens von Wortduplikaten modifizieren. Zusätzlich identifiziert die Anomalieerkennung 112 Teile von Dokumenten, die wahrscheinlich eine Anomalie enthalten, die dazu führt, dass der Teil des Dokuments von der weiteren Analyse ausgeschlossen oder markiert wird, um einen menschlichen Benutzer darauf hinzuweisen, dass es Gründe geben kann, den markierten Dokumententeil manuell zu überprüfen.
  • Die Differenzierungsberechnung 302 kann die Differenzierung zwischen Dokumententeilen in jedem der analysierten Dokumente bestimmen. Die Differenzierung ist ein subjektives Konzept, das in einer Form dargestellt wird, die für eine automatische Analyse geeignet ist, indem mindestens die Wortanzahl und die Differenzierung zwischen Wörtern verschiedener Dokumententeile in einem Dokument berücksichtigt werden. Ähnlich wie bei der oben diskutierten Umfangsanalyse können Wörter basierend auf der Roheingabe nach der Datenfilterung 104 oder nach einem gewissen Grad der Vorverarbeitung 106 gezählt werden. Beispielsweise kann die Wortzählung nach dem Entfernen von Wortduplikaten durchgeführt werden, sodass es sich um eine Wortzählung einzigartiger Wörter handelt. Die Wortzählung kann auch vor oder nach dem Entfernen der Stoppwörter 108 durchgeführt werden. In ähnlicher Weise kann die Wortzählung vor oder nach dem Umwandeln der Akronyme und Abkürzungen 110 in ihre vollständigen Wortdarstellungen durchgeführt werden.
  • Die Differenzierung von Wörtern repräsentiert eine Anzahl von Wörtern in einem Dokumententeil eines Dokuments, die nicht in einem oder mehreren anderen Dokumententeilen des Dokuments gefunden werden. Wenn zum Beispiel ein Dokumententeil die Wörter „Audio“, „Daten“, „Darstellen“, „Sprache“ und „Eingabe“ enthält und mindestens ein anderer Dokumententeil die Wörter „Audio“ und „Daten“ enthält, umfasst die Wortanzahl für den Dokumententeil fünf Wörter und die Wortdifferenzierung für den Dokumententeil umfasst drei. Die Differenzierungsberechnung 302 kombiniert sowohl die Wortanzahl als auch die Differenzierung, um einem Dokumententeil eine Differenzierungswert zuzuweisen. Beispielsweise kann ein Differenzierungswert für das obige Beispiel sechzig Prozent umfassen (z. B. drei einzigartige Wörter/fünf Gesamtwörter). Spezifische Techniken zum Bestimmen der Wortanzahl, der Wortdifferenzierung und des Differenzierungswerts werden unten diskutiert. In einigen Fällen können einige Dokumente mehrere Teile haben, die bewertet werden. Beispielsweise könnten ein Abstrakt und eine Zusammenfassung eines Finanzdokuments bewertet werden. In einem anderen Beispiel kann ein einzelnes Patentdokument unabhängige und abhängige Ansprüche enthalten, und jedem von einem oder mehreren unabhängigen Ansprüchen und/oder jedem von einem oder mehreren abhängigen Ansprüchen kann ein unterschiedlicher Differenzierungswert zugewiesen werden.
  • Für Dokumente, die Patente und/oder veröffentlichte Anmeldungen enthalten, kann es mehrere Arten der Differenzierung zwischen Ansprüchen (z. B. den Dokumententeilen) innerhalb der Patente und/oder veröffentlichten Anmeldungen geben, die unter Verwendung der obigen Wortanzahl-/Differenzierungswert-Technik analysiert werden können. Eine erste Art der Differenzierung zwischen zwei Ansprüchen kann einen ersten Anspruch und einen zweiten Anspruch umfassen, die ähnliche Anspruchskomponenten enthalten, wobei jeder Anspruch einen anderen Wortlaut verwendet. Eine zweite Art der Differenzierung zwischen zwei Ansprüchen kann einen ersten Anspruch und einen zweiten Anspruch umfassen, die ähnliche Komponenten umfassen, jedoch in einer anderen Reihenfolge beansprucht werden. Eine dritte Art der Differenzierung zwischen zwei Ansprüchen kann einen ersten Anspruch und einen zweiten Anspruch umfassen, die unterschiedliche Komponenten beanspruchen.
  • In einigen Fällen kann die Differenzierungsberechnung 302 bestimmen, dass der erste Typ und der zweite Typ weniger Differenzierung enthalten als der dritte Typ. Zum Beispiel und für den ersten Typ kann die Differenzierungsberechnung 302 bestimmen, dass es keine Differenzierung zwischen zwei verschiedenen Wörtern gibt, die eine ähnliche Bedeutung enthalten. Beispielsweise kann die Differenzierungsberechnung 302 bestimmen, dass es keine Wortdifferenzierung zwischen einem ersten Anspruch, der „ein Audiosignal, das einen Ton darstellt“, und einem zweiten Anspruch, der „einen Ton, der durch ein Audiosignal dargestellt ist“, benennt, gibt. In einigen Fällen können Techniken zur Verarbeitung natürlicher Sprache verwendet werden, um zu bestimmen, ob zwei Wörter eine ähnliche oder eine unterschiedliche Bedeutung aufweisen. Für ein zweites Beispiel und für den zweiten Typ kann die Differenzierungsberechnung 302 bestimmen, dass es keine Wortdifferenzierung zwischen einem ersten Anspruch und einem zweiten Anspruch gibt, wenn Komponenten ähnliche Wörter enthalten (z. B. keine Differenzierung), die lediglich unterschiedlich organisiert sind. Für ein drittes Beispiel und für den dritten Typ kann die Differenzierungsberechnung 302 bestimmen, dass es eine Wortdifferenzierung zwischen einem ersten Anspruch und einem zweiten Anspruch gibt, die verschiedene Komponenten benennen. Beispielsweise kann die Differenzierungsberechnung 302 bestimmen, dass es eine Wortdifferenzierung zwischen einem ersten Anspruch, der „eine Kamera zum Erfassen eines Bildes“ benennt, und einem zweiten Anspruch, der „einen Scanner zum Abtasten eines Bildes“ benennt (z. B. das Wort „Kamera“ unterscheidet sich von „Scanner“ und das Wort „Erfassen“ unterscheidet sich von „Abtasten“).
  • Beispielsweise kann ein erster Patentanspruch lauten: „Erfassen eines ersten Bildes einer Umgebung unter Verwendung einer Kamera; Analysieren des ersten Bildes; und Erfassen eines zweiten Bildes der Umgebung unter Verwendung der Kamera“, ein zweiter Patentanspruch kann lauten: „Verwenden einer Kamera zum Erfassen eines ersten Bildes einer Umgebung; Verwenden einer Kamera zum Erfassen eines zweiten Bildes der Umgebung; und Analysieren des ersten Bildes“, und ein dritter Anspruch des Patents kann lauten: „Erhalten einer ersten Tiefenkarte einer Umgebung unter Verwendung eines Sensors; Analysieren der ersten Tiefenkarte; und Erhalten einer zweiten Tiefenkarte der Umgebung unter Verwendung des Sensors“. Die Differenzierungsberechnung 302 kann dann das Patent analysieren, um einen ersten Differenzierungswert zwischen dem ersten Anspruch und dem zweiten Anspruch und einen zweiten Differenzierungswert zwischen dem ersten Anspruch und dem dritten Anspruch zu bestimmen.
  • Beispielsweise kann das Patent unter Verwendung der obigen 104-112 vorverarbeitet werden (z. B. Entfernen von Stoppwörtern, Stammformreduktion und Entfernen von Wortduplikaten). Basierend auf der Vorverarbeitung können die für die Analyse verbleibenden Wörter für den ersten Anspruch „Erfassen“, „erstes“, „Bild“, „Umgebung“, „Kamera“, „zweites“, „Verwenden“ und „Analysieren“ enthalten, die im zweiten Anspruch verbleibenden Wörter können „verwenden“, „Kamera“, „Erfassen“, „erstes“, „Bild“, „Umgebung“, „zweites“ und „Analysieren umfassen und die im dritten Anspruch verbleibenden Wörter können Folgendes umfassen: „Erhalten“, „erstes“, „Tiefe“, „Karte“, „Umgebung“, „Verwenden“, „Sensor“, „zweites“ und „Analysieren“. Die Differenzierungsberechnung 302 kann dann bestimmen, dass der zweite Anspruch acht Wörter enthält, von denen keines im Vergleich zum ersten Anspruch einzigartig ist. Somit kann die Differenzierungsberechnung 302 bestimmen, dass der zweite Anspruch einen ersten Differenzierungswert von 0 % im Vergleich zu dem ersten Anspruch enthält. Zusätzlich kann die Differenzierungsberechnung 302 bestimmen, dass der dritte Anspruch neun Wörter enthält, von denen vier im Vergleich zum ersten Anspruch einzigartig sind. Somit kann die Differenzierungsberechnung 302 bestimmen, dass der dritte Anspruch einen zweiten Differenzierungswert von 44,4% enthält.
  • Wie oben gezeigt, bestimmt die Differenzierungsberechnung 302, dass es eine größere Differenzierung zwischen dem ersten Anspruch und dem dritten Anspruch gibt als zwischen dem ersten Anspruch und dem zweiten Anspruch. Dies liegt daran, dass der erste Anspruch und der zweite Anspruch in den ersten Differenzierungstyp und den zweiten Differenzierungstyp fallen. Beispielsweise umfassen der erste Anspruch und der zweite Anspruch ähnliche Merkmale, jedoch mit unterschiedlicher Formulierung (z. B. „erfassend“ in Anspruch 1 und „Erfassen“ in Anspruch 2), wobei die Merkmale in jedem Anspruch unter Verwendung einer anderen Reihenfolge aufgeführt sind. Zusätzlich fallen der erste Anspruch und der dritte Anspruch in die dritte Art der Differenzierung. Beispielsweise umfassen der erste Anspruch und der dritte Anspruch jeweils einzigartige Merkmale.
  • Die gesamtheitliche Differenzierungsberechnung 304 bestimmt die gesamtheitlichen Differenzierungswerte für die zu analysierenden Dokumente. In einigen Fällen kann der gesamtheitliche Differenzierungswert für ein Dokument basierend auf den Differenzierungswerten von jedem der Dokumententeile, die in dem Dokument enthalten sind, bestimmt werden. Beispielsweise kann der gesamtheitliche Differenzierungswert für ein Dokument den Durchschnitt und/oder den Median der Differenzierungswerte für jeden der in dem Dokument enthaltenen Dokumententeile enthalten. In einem anderen Beispiel kann der gesamtheitliche Differenzierungswert für ein Dokument den höchsten Differenzierungswert, den niedrigsten Differenzierungswert oder einen Differenzierungswert zwischen dem höchsten und dem niedrigsten Differenzierungswert für jeden der in dem Dokument enthaltenen Dokumententeile enthalten.
  • Zusätzlich oder alternativ kann in einigen Fällen der gesamtheitliche Differenzierungswert für ein Dokument auf einem Teil der Differenzierungswerte für jeden der in dem Dokument enthaltenen Dokumententeile basieren. Beispielsweise und basierend auf einem Dokument, das ein Patent enthält, kann der gesamtheitliche Differenzierungswert einen Durchschnitt und/oder Median der Differenzierungswerte für den am weitesten gefassten unabhängigen Anspruch (z. B. unter Verwendung der obigen Umfangswerte) und jeden der abhängigen Ansprüche aus dem am weitesten gefassten unabhängigen Anspruch enthalten. In einem anderen Beispiel und basierend auf einem Dokument, das ein Patent enthält, kann der gesamtheitliche Differenzierungswert einen Durchschnitt und/oder Median der Differenzierungswerte von jedem der unabhängigen Ansprüche enthalten.
  • Obwohl die obigen Berechnungen 302 und 304 das Bestimmen der Differenzierung zwischen einem oder mehreren Teilen und der endgültigen Differenzierungswerte auf der Grundlage der Wortanalyse innerhalb des Dokuments selbst beschreiben, können diese Berechnungen 302 und 304 in einigen Fällen die Differenzierung zwischen einem oder mehreren Teilen und endgültige Differenzierungswerte auf der Grundlage des Differenzierungs-„Fußabdrucks“ des einen oder der mehreren Teile relativ zu einer Gesamtheit des Gegenstands des Korpus von Dokumenten bestimmen. Beispielsweise kann die Differenzierungsberechnung 302 einen Korpus von Wörtern basierend auf Wörtern innerhalb des Dokumentkorpus erzeugen. In einigen Fällen kann die Differenzierungsberechnung 302 das Korpus von Wörtern unter Verwendung jedes Wortes erzeugen, das in dem Korpus von Dokumenten enthalten ist. In einigen Fällen kann die Differenzierungsberechnung 302 das Korpus von Wörtern unter Verwendung jedes Wortes erzeugen, das in den zu analysierenden Dokumententeilen enthalten ist. Wenn beispielsweise das Korpus von Dokumenten ein Korpus von Patenten enthält, kann die Differenzierungsberechnung 302 das Korpus von Wörtern erzeugen, um jedes Wort zu enthalten, das in jedem Anspruch des Korpus von Patenten enthalten ist. In einigen Fällen kann das Korpus von Wörtern basierend auf der Roheingabe nach der Datenfilterung 104 oder nach einem gewissen Vorverarbeitungsgrad 106 erzeugt werden. Beispielsweise kann das Erzeugen des Korpus von Wörtern nach dem Entfernen von Wortduplikaten durchgeführt werden, so dass jedes Wort im Korpus von Wörtern einzigartig ist. Das Erzeugen des Korpus von Wörtern kann auch vor oder nach dem Entfernen der Stoppwörter 108 durchgeführt werden. In ähnlicher Weise kann das Erzeugen des Korpus von Wörtern vor oder nach dem Umwandeln der Akronyme und Abkürzungen 110 in ihre vollständigen Wortdarstellungen durchgeführt werden.
  • Unter Verwendung des Korpus von Wörtern kann die Differenzierungsberechnung 302 einem oder mehreren Dokumententeilen einen Teil-Differenzierungswert zuweisen, indem Wörter innerhalb des einen oder der mehreren Dokumententeile verglichen werden. In einigen Fällen kann die Differenzierungsberechnung 302 die Anzahl von einzigartigen Wörtern in dem Teil bestimmen, von dem bestimmt wird, dass er den weitesten gesamtheitlichen Umfangswert aufweist. Für jeden zusätzlichen Dokumententeil kann die Differenzierungsberechnung 302 die Anzahl von einzigartigen Wörtern in dem Teil bestimmen, die nicht in dem Abschnitt mit dem weitesten gesamtheitlichen Umfangswert enthalten sind. In einem anderen Beispiel kann die Differenzierungsberechnung 302 die Anzahl von einzigartigen Wörtern bestimmen, die in diesem bestimmten Teil enthalten sind und in keinem anderen Teil enthalten sind. In manchen Fällen wird dann die Anzahl einzigartiger Wörter, die jedem Teil zugeordnet ist, als ein Prozentsatz der einzigartigen Wörter innerhalb des Korpus von Wörtern in den entsprechenden Dokumenten ausgedrückt. Wenn beispielsweise das Korpus von Wörtern in den relevanten Dokumenten 10.000 einzigartige Wörter enthält und ein gegebener Dokumententeil (z. B. ein unabhängiger Anspruch) 20 einzigartige Wörter enthält, die sich innerhalb des Korpus von 10.000 einzigartigen Wörtern befinden, dann beträgt der Prozentsatz für den gegebenen Dokumententeil 0,002 %. Wenn ein zweiter Dokumententeil (z. B. ein unabhängiger Anspruch) auch 20 einzigartige Wörter enthält, die sich sowohl innerhalb des Korpus von 10.000 einzigartigen Wörtern als auch ausschließlich der Wörter im ersten (oder in einem anderen zuvor verarbeiteten) Dokumententeil befinden, dann beträgt der Prozentsatz für den zweiten Dokumententeil ebenfalls 0,002 %.
  • Wenn das Dokument von Interesse nur diese zwei Teile enthält, kann die gesamtheitliche Differenzierungsberechnung 304 in einigen Fällen das Summieren des Kehrwerts jedes Prozentsatzes für eine Differenzierungsberechnung von 10,00 (1/0,002 + 1/0,002) umfassen, wodurch den Teilen mehr Gewicht mit einem relativ kleinen Prozentsatz der einzigartigen Wörter des Korpus verliehen wird. In anderen Fällen könnte der Kehrwert von eins minus dem Prozentsatz für jeden Teil summiert werden (d. h. 1/(1-0,002) + 1/(1-0,002) = 2,004), wobei Teilen mit einem relativ großen Prozentsatz der einzigartigen Wörter des Korpus mehr Gewicht zugewiesen wird. In anderen Fällen könnte der Kehrwert des Prozentsatzes für den weitreichendsten Teil genutzt werden und der Kehrwert von eins minus dem Prozentsatz könnte für alle anderen Teile genutzt werden. In noch anderen Fällen könnte die Summation nach weiterer Gewichtung bezüglich des Beitrags einzelner Teile (z. B. im Kontext von Patentschriften das stärkere Gewichten des Beitrags von unabhängigen Ansprüchen gegenüber dem Beitrag von abhängigen Ansprüchen) vorgenommen werden. Auf diese Weise weist ein Dokument mit vielen Dokumententeilen, die einzigartige Wörter aufweisen, die anderen Teilen des Dokuments nicht gemeinsam sind, einen relativ hohen gesamtheitlichen Differenzierungswert und einen großen „Fußabdruck“ auf.
  • Die Vergleichs-Differenzierungswert-Berechnung 306 kann den Vergleichs-Differenzierungswert für die Dokumente im Vergleich zu anderen Dokumenten in der Analyse bestimmen. Um zum Beispiel einen Vergleichs-Differenzierungswert für ein Dokument im Vergleich zu anderen Dokumenten in der Analyse zu bestimmen, vergleicht die Vergleichs-Differenzierungswert-Berechnung 306 den gesamtheitlichen Differenzierungswert des Dokuments mit den gesamtheitlichen Differenzierungswerten anderer Dokumente, die sich in der Analyse befinden. In einigen Fällen entspricht der Vergleichs-Differenzierungswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Differenzierungswert enthalten, der gleich wie oder kleiner als der gesamtheitliche Differenzierungswert des Dokuments ist. In einigen Fällen entspricht der Vergleichs-Differenzierungswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Differenzierungswert enthalten, der kleiner als der gesamtheitliche Differenzierungswert des Dokuments ist. In einigen Fällen entspricht der Vergleichs-Differenzierungswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Differenzierungswert enthalten, der gleich wie oder größer als der gesamtheitliche Differenzierungswert des Dokuments ist. In noch einigen weiteren Fällen entspricht der Vergleichs-Differenzierungswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Differenzierungswert enthalten, der größer als der gesamtheitliche Differenzierungswert des Dokuments ist.
  • Die UI 308 kann die Vergleichs-Differenzierungswerte für die Dokumente, Rangfolgen basierend auf den Vergleichs-Differenzierungswerten und eine Kennung für jedes der analysierten Dokumente einem Benutzer anzeigen oder auf andere Weise präsentieren. Die Kennung für jedes der Dokumente kann eine eindeutige Kennung sein, beispielsweise eine Patentnummer, eine Nummer einer veröffentlichten Patentanmeldung, eine ISBN, ein Titel, eine URL usw. Die UI 308 kann durch Verarbeiten einer Textdatei oder einer anderen Textausgabe erzeugt werden. Die UI 308 kann als eine Befehlszeilenschnittstelle, als eine grafische Benutzerschnittstelle oder als eine andere Art von Schnittstelle implementiert sein. Wenn sie als grafische Benutzerschnittstelle implementiert ist, kann die UI 308 durch einen Cloud-Dienst generiert werden, auf den über ein Kommunikationsnetz wie das Internet zugegriffen werden kann. Eine beliebige Anzahl von Benutzern kann jederzeit über spezielle Anwendungen oder über Browser (z. B. Internet Explorer®, Firefox®, Safari®, Google Chrome® usw.) auf die UI 308 zugreifen, die sich auf ihren lokalen Computergeräten befinden.
  • 4 veranschaulicht eine beispielhafte Verarbeitungspipeline 400 zum Erzeugen einer Benutzerschnittstelle, die endgültige Vergleichs-Reichweitenergebnisse einer automatischen Dokumentenanalyse zeigt. Wie gezeigt, kann die Vergleichs-Reichweitenwert-Berechnung 402 die Wertungswerte von jeder der Verarbeitungspipelines 100, 200 und 300 empfangen und dann die Wertungswerte verwenden, um Vergleichs-Reichweitenwerte für jedes der zu analysierenden Dokumente zu bestimmen. In einigen Fällen bestimmt die Vergleichs-Reichweitenwert-Berechnung 402 den Vergleichs-Reichweitenwert für jedes der Dokumente, indem ein Durchschnitt der drei Wertungswerte für die jeweiligen Dokumente gebildet wird. Zum Beispiel und wie für das Patent 349.983 gezeigt, enthält der Vergleichs-Reichweitenwert 404 einen Durchschnitt des Vergleichs-Umfangswerts 406 (von der Verarbeitungspipeline 100), des Vergleichs-Teilezählwerts 408 (von der Verarbeitungspipeline 200) und des Vergleichs-Differenzierungswerts 410 (von Verarbeitungspipeline 300) für das Patent. In einigen Fällen kann der Vergleichs-Reichweitenwert 402 einen oder mehrere der drei Wertungswerte gewichten, wenn die Vergleichs-Reichweitenwerte für jedes der Dokumente bestimmt werden. Wenn zum Beispiel die Vergleichs-Reichweitenwert-Berechnung 402 den Vergleichs-Umfangswerten 406 doppelt so viel Gewicht gibt wie jedem von den Vergleichs-Teilezählwerten 408 und dem Vergleichs-Differenzierungswerten 410, würde der Vergleichs-Reichweitenwert für das Patent 349.983 den Wert 83,25 haben (z. B. ((87*2) + 60 + 90) / 4 = 83,25).
  • In einigen Fällen kann die Vergleichs-Reichweitenwert-Berechnung 402 die Vergleichs-Reichweitenwerte unter Verwendung eines oder mehrerer der Vergleichs-Umfangswerte, der Vergleichs-Teilezählwerte und der Vergleichs-Differenzierungswerte berechnen. Beispielsweise kann die Vergleichs-Reichweitenwert-Berechnung 402 den Vergleichs-Reichweitenwert für ein Patent basierend auf dem Vergleichs-Umfangswert (z. B. dem Umfangswert für den am weitesten gefassten unabhängigen Anspruch) ohne Berücksichtigung des Vergleichs-Teilezählwerts oder des Vergleichs-Differenzierungswerts berechnen.
  • 4 zeigt ferner eine Implementierung einer UI 412, die einem Benutzer endgültige Ergebnisse einer Analyse bereitstellen kann. Die UI 412 kann Informationen anzeigen, die von jeder der Verarbeitungspipelines 100, 220, 300 für eine Anzahl verschiedener Dokumente oder Dokumententeile erzeugt wurden. In diesem Beispiel handelt es sich bei den Dokumenten um erteilte Patente und bei den analysierten Teilen um Patentansprüche innerhalb der Patente. Dieselbe oder eine ähnliche UI kann jedoch die Analyse verschiedener Dokumenttypen anzeigen. Ein beispielhafter Typ von UI ist eine grafische Benutzerschnittstelle (GUI), wie sie in 4 gezeigt ist. Eine GUI ist eine Art Benutzeroberfläche, mit der Benutzer mit elektronischen Geräten über grafische Symbole und visuelle Indikatoren wie die Sekundärnotation interagieren können, anstatt über textbasierte Benutzeroberflächen, eingegebene Befehlsbezeichnungen oder Textnavigation. Aktionen in der GUI können durch direkte Manipulation der grafischen Elemente unter Verwendung eines Zeigegeräts wie einer Maus, eines Stifts oder eines Fingers ausgeführt werden.
  • Es gibt einen Eintrag für ein oder mehrere Dokumente in der UI 412 und Informationen zu diesen Dokumenten. Die Informationen können die Rangordnung 414 für jedes der Dokumente, die Patentnummer 416 für jedes der Dokumente, die Vergleichs-Umfangswerte 406 für jedes der Dokumente, die Vergleichs-Teilezählwerte 408 für jedes der Dokumente, die Vergleichs-Differenzierungswerte 410 für jedes der Dokumente und die Vergleichs-Reichweitenwerte 404 für jedes der Dokumente umfassen. Die UI 412 kann auch interaktive Elemente 418 enthalten, die jedem der Einträge zugeordnet sind. Eines der interaktiven Elemente 418 kann in Reaktion auf einen Befehl aktiviert werden, der auf einer Eingabevorrichtung erzeugt wird, um eines der Dokumente auszuwählen. Informationen zur Analyse des ausgewählten Dokuments können in einer separaten Datei gespeichert, in einem separaten Teil des Speichers abgelegt oder einer Liste für den späteren Zugriff und/oder die Analyse hinzugefügt werden.
  • Darüber hinaus kann die UI 412 in einigen Fällen Gruppenwertungswerte 420 für die zu analysierenden Dokumente enthalten. Beispielsweise kann ein Dokument mit einem oder mehreren anderen Dokumenten verknüpft sein, die analysiert werden. Beispielsweise kann ein Patent in eine Patentfamilie aufgenommen werden, die zwei oder mehr Patente enthalten kann. In einigen Fällen umfasst die Patentfamilie Patente, die Priorität zueinander beanspruchen, beispielsweise in Form von Folgeanmeldungen, Teilanmeldungen, Auslandsanmeldungen oder dergleichen. Somit können der Gruppenwertungswerte 420 eine Bewertung für jedes der Dokumente enthalten, die in einer Gruppe enthalten sind. In einigen Fällen kann der Gruppenwertungswert 420 für ein Dokument den Durchschnitt jedes der Vergleichs-Reichweitenwerte der Dokumente innerhalb der Gruppe enthalten. In einigen Fällen kann der Gruppenwertungswert 420 für ein Dokument den Median, den Modalwert, den niedrigsten Vergleichs-Reichweitenwert, den höchsten Vergleichs-Reichweitenwert oder dergleichen der Vergleichs-Reichweitenwerte der Dokumente innerhalb der Gruppe enthalten. In einigen Fällen können eines oder mehrere der analysierten Dokumente nicht in einer Gruppe enthalten sein und als solches möglicherweise keinen Gruppenwertungswert 420 enthalten. Zum Beispiel enthalten die ersten zwei Patente, die in der UI 412 enthalten sind, entsprechende Gruppenwertungswerte 420, während die letzten zwei Patente keine entsprechenden Gruppenwertungswerte 420 enthalten.
  • Es ist zu beachten, dass die Vergleichs-Reichweitenwert-Berechnung 402 in einigen Fällen anstelle der Ergebnisse aus der Vergleichs-Umfangswertberechnung 118, der Vergleichs-Teilezählwert-Berechnung 204 und der Vergleichs-Differenzwert-Berechnung 306 zusätzlich oder alternativ eines oder mehrere der Ergebnisse aus der Gesamtumfangsberechnung 116, der Teileanzahl-Berechnung 202 und der gesamtheitlichen Differenzierungsberechnung 304 zur Berechnung der Vergleichs-Reichweitenwerte für die Dokumente verwenden kann. Beispielsweise kann in einigen Beispielen die Vergleichs-Reichweitenwert-Berechnung 402 die gesamtheitlichen Wertungswerte für die Dokumente nicht normalisieren, wenn die Vergleichs-Reichweitenwerte für die Dokumente bestimmt werden. Zusätzlich können in einigen Fällen die Vergleichs-Reichweitenwerte auf nur einem oder zwei von der Vergleichs-Umfangswertberechnung 118, der Vergleichs-Teilezählwert-Berechnung 204 und der Vergleichs-Differenzierungswert-Berechnung 306 basieren.
  • 5 zeigt eine beispielhafte Verarbeitungspipeline 500 zum automatischen Analysieren und Präsentieren von Risikoinformationen aus mehreren Dokumenten. Die Dokumente können aus einem oder mehreren Datenspeichern 102 stammen. Beispielsweise können die Dokumente die gleichen Dokumente enthalten, die jeweils von einer der Verarbeitungspipelines 100 - 400 aus den 1-4 analysiert wurden. In einigen Fällen können die Dokumente weiter gefiltert und/oder vorverarbeitet werden, indem ähnliche Techniken wie bei den Dokumenten von 1 verwendet werden. Beispielsweise kann die Datenfilterung 104 die aus den Datenspeichern 102 erhaltenen Daten auf einen Korpus von Dokumenten beschränken, die bestimmte Eigenschaften gemeinsam haben. Die Vorverarbeitung 106 kann die Dokumente oder Teile der Dokumente für eine spätere Verarbeitung auf der Grundlage des Entfernens von Interpunktion, des Entfernens von Stoppwörtern 108, des Umwandelns von Akronymen und Abkürzungen 110 in vollständige Wörter, der Stammformreduktion und/oder des Entfernens von Wortduplikaten modifizieren. Zusätzlich identifiziert die Anomalieerkennung 112 Teile von Dokumenten, die wahrscheinlich eine Anomalie enthalten, die dazu führt, dass der Teil des Dokuments von der weiteren Analyse ausgeschlossen oder markiert wird, um einen menschlichen Benutzer darauf hinzuweisen, dass es Gründe geben kann, den markierten Dokumententeil manuell zu überprüfen.
  • Die Risikowertberechnung 502 kann die Risiken der zu analysierenden Dokumente bestimmen. Wenn Dokumente beispielsweise Patente enthalten, kann das Risiko die Wahrscheinlichkeit widerspiegeln, dass die Patente ungültig werden, wenn die Patente angefochten werden, z. B. durch erneute Prüfung. Um die berechneten Risikowerte mit jedem der berechneten Reichweitenwerte und Marktwerte abzugleichen, wobei eine höherer Wertungswert eine bessere Qualität für die Dokumente (z. B. die Patente) anzeigt, kann die Risikowertberechnung 502 alternativ die Risikowerte als Umkehrung des Risikos der Dokumente berechnen. Wenn beispielsweise ein Dokument ein Patent enthält, kann der mit dem Patent verbundene Risikowert die Wahrscheinlichkeit widerspiegeln, dass das Patent bei Anfechtung (z. B. erneuter Prüfung) nicht ungültig wird.
  • Die Risikowertberechnung 502 kann viele Faktoren verwenden, wenn Risikowerte für Patente berechnet werden. Beispielsweise können Faktoren für ein Patent eine Anzahl von Quellen 504 des möglichen Stands der Technik (z. B. andere Patente, Veröffentlichungen, Artikel, Referenzen oder dergleichen) umfassen, die sich auf den Gegenstand des Patents beziehen, eine Anzahl von Referenzen 506, die während des Erteilungsverfahrens des Patents zitiert wurden, den Umfang der Ansprüche innerhalb des Patents 508 (z. B. den Umfang der unabhängigen Ansprüche sowie der abhängigen Ansprüche), den Verlauf des Erteilungsverfahrens 510 (der die zitierten Dokumente 506 enthalten kann) des Patents und/oder dergleichen.
  • In einigen Fällen kann beispielsweise eine semantische Suche unter Verwendung eines Patents durchgeführt werden, um eine festgelegte Anzahl von Dokumenten 504 (z. B. eins, fünf, zehn, einhundert oder eine beliebige andere Anzahl) zu identifizieren, die sich auf das Patent beziehen. In einigen Fällen wird die semantische Suche basierend auf einem oder mehreren Patentansprüchen durchgeführt. Beispielsweise kann eine semantische Suche unter Verwendung des am weitesten gefassten unabhängigen Anspruchs, jedes der unabhängigen Ansprüche, des am weitesten gefassten unabhängigen Anspruchs sowie von dem am weitesten gefassten unabhängigen Anspruch abhängiger Ansprüche, jedes Anspruchs oder jeder anderen Kombination der Ansprüche durchgeführt werden. In anderen Fällen wird die semantische Suche unter Verwendung eines oder mehrerer zusätzlicher oder alternativer Teile des Patents durchgeführt, wie beispielsweise der Zusammenfassung, der Beschreibung, der Beschreibung der Figuren, des Hintergrunds oder einer beliebigen Kombination davon. Der Dokumentensatz wird dann analysiert, um alle Dokumente zu entfernen, die nicht als Stand der Technik für das Patent qualifiziert sind. Beispielsweise kann der Satz von Dokumenten analysiert werden, um alle Dokumente zu entfernen, die ein Prioritätsdatum enthalten (z. B. Entwurfsdatum, Veröffentlichungsdatum, Anmeldetag oder dergleichen), das den Prioritätsdaten des Patents vorausgeht. In einigen Fällen kann der Satz von Dokumenten weiter analysiert werden, um alle Dokumente (z. B. Referenzen) zu entfernen, die während des Erteilungsverfahrens des Patents zitiert wurden. Darüber hinaus kann in einigen Fällen der Satz von Dokumenten weiter analysiert werden, um alle Dokumente zu entfernen, die üblicherweise dem Anmelder des Patents zugewiesen werden, was dazu führen würde, dass die Dokumente nicht als Stand der Technik gelten, wie in den Regeln des MPEP dargelegt. Aus der Anzahl der bei der semantischen Suche identifizierten Dokumente und der Anzahl der verbleibenden Dokumente kann dann ein Risikowert für das Patent berechnet werden. Spezifische Techniken zur Berechnung des Risikowerts unter Verwendung eines solchen Prozesses werden nachstehend ausführlich beschrieben.
  • In einigen Fällen kann ein Risikowert für ein Patent basierend auf der Anzahl der Referenzen 506 berechnet oder angepasst werden, die während des Erteilungsverfahrens des Patents zitiert wurden. Beispielsweise kann eine Suche durchgeführt werden, um jede Referenz zu identifizieren, die während des Erteilungsverfahrens des Patents zitiert wurde. Die Suche kann das Durchsuchen einer oder mehrerer Datenbanken umfassen, wie beispielsweise einer oder mehrerer Datenbanken, die mit PAIR (Patent Application Information Retrieval), EPO (Europäisches Patentamt), WIPO (Weltorganisation für geistiges Eigentum) oder dergleichen verbunden sind, und die Informationen über während des Erteilungsverfahrens zitierte Referenzen enthalten. Ein Risikowert kann dann basierend auf der Anzahl der Referenzen berechnet werden. In einigen Fällen wird ein höherer Risikowert für ein Patent berechnet, das eine größere Anzahl von Referenzen enthält, die während des Erteilungsverfahrens zitiert werden, als für ein Patent, das eine geringere Anzahl von Referenzen enthält, die während des Erteilungsverfahrens zitiert werden. Dies ist darauf zurückzuführen, dass bei dem Erteilungsverfahren des Patents mit der höheren Anzahl von Referenzen mehr Referenzen berücksichtigt wurden, die als Stand der Technik gelten. Daher gibt es möglicherweise weniger Patentverweise, die als Stand der Technik gelten und bei dem Erteilungsverfahren nicht berücksichtigt wurden. Spezifische Techniken zur Berechnung des Risikowerts unter Verwendung eines solchen Prozesses werden nachstehend ausführlich beschrieben.
  • In einigen Fällen kann ein Risikowert für ein Patent basierend auf dem Umfang 508 der Patentansprüche berechnet oder angepasst werden. Beispielsweise kann der gesamtheitliche Umfangswert eines Patents unter Verwendung des gesamten oder eines Teils des Verfahrens 100 bestimmt werden, wie in 1 beschrieben. Ein Risikowert für das Patent kann dann basierend auf dem gesamtheitlichen Umfangswert berechnet werden. Beispielsweise kann ein höherer Risikowert für ein Patent berechnet werden, das Ansprüche mit einem größeren Bereich von Umfangswerten enthält, als für ein Patent, das einen geringeren Bereich von Umfangswerten enthält. Dies liegt daran, dass selbst dann, wenn ein Patent einen weit gefassten unabhängigen Anspruch enthält, der bei Anfechtung ungültig werden kann, die Wahrscheinlichkeit größer ist, dass ein enger gefasster abhängiger Anspruch, der von dem weiter gefassten unabhängigen Anspruch abhängt, nicht ungültig wird. Als solches ist das Risiko, dass alle Patentansprüche ungültig werden, geringer, wenn das Patent Ansprüche mit einem größeren Bereich von Patentanspruchsweite umfasst. Da das Risiko einer Erklärung als ungültig geringer ist, wäre der Risikowert für das Patent höher. Spezifische Techniken zur Berechnung des Risikowerts unter Verwendung eines solchen Prozesses werden nachstehend ausführlich beschrieben.
  • In einigen Fällen kann ein Risikowert für ein Patent basierend auf dem Verlauf des Erteilungsverfahrens 510 des Patents berechnet oder angepasst werden. Beispielsweise kann eine Suche durchgeführt werden, um Informationen zu identifizieren, die dem Verlauf des Erteilungsverfahrens 510 des Patents entsprechen, wie beispielsweise den Anmeldetag des Patents, das Ausstellungsdatum des Patents, die Anzahl der während des Erteilungsverfahrens ausgegebenen Amtsbescheide, Änderungen, die an den Patentansprüchen während des Erteilungsverfahrens vorgenommen wurden, ob während des Erteilungsverfahrens eine Einspruchsschrift oder dergleichen eingereicht wurde oder dergleichen. Die Suche kann das Durchsuchen einer oder mehrerer Datenbanken umfassen, z. B. einer oder mehrerer Datenbanken, die mit PAIR, EPO, WIPO oder einer anderen Organisation verknüpft sind, die Informationen zu Patenten speichert. Ein Risikowert kann dann für das Patent basierend auf dem Verlauf des Erteilungsverfahrens 510 berechnet werden. Beispielsweise kann ein höherer Risikowert für ein Patent berechnet werden, das für eine geringere Zeitdauer im Erteilungsverfahren war, als für ein Patent, das für eine längere Zeitdauer im Erteilungsverfahren war. Zum anderen kann für ein Patent, für das während des Erteilungsverfahrens eine geringere Anzahl von Amtsbescheiden erteilt wurde, ein höherer Risikowert berechnet werden als für ein Patent, für das während des Erteilungsverfahrens eine größere Anzahl von Amtsbescheiden erteilt wurde. In beiden Fällen basiert der höhere Risikowert auf der Annahme, dass die Wahrscheinlichkeit größer ist, dass während des Erteilungsverfahrens ein Fehler gemacht wurde (z. B. ein höheres Risiko), durch den das Patent ungültig werden kann, jedes Mal wenn die Beschreibung und/oder die Patentansprüche während des Erteilungsverfahrens geändert wurden. Spezifische Techniken zur Berechnung des Risikowerts unter Verwendung eines solchen Prozesses werden nachstehend ausführlich beschrieben.
  • Die UI 512 kann die Risikowerte für die Dokumente, Rangordnungen basierend auf den Risikowerten und eine Kennung für jedes der analysierten Dokumente anzeigen oder einem Benutzer auf andere Weise präsentieren. Die Kennung für jedes der Dokumente kann eine eindeutige Kennung sein, beispielsweise eine Patentnummer, eine Nummer einer veröffentlichten Patentanmeldung, eine ISBN, ein Titel, eine URL usw. Die UI 512 kann durch Verarbeiten einer Textdatei oder einer anderen Textausgabe erzeugt werden. Die UI 512 kann als eine Befehlszeilenschnittstelle, als eine grafische Benutzerschnittstelle oder als eine andere Art von Schnittstelle implementiert sein. Wenn sie als grafische Benutzerschnittstelle implementiert ist, kann die UI 512 durch einen Cloud-Dienst generiert werden, auf den über ein Kommunikationsnetz wie das Internet zugegriffen werden kann. Eine beliebige Anzahl von Benutzern kann jederzeit über spezielle Anwendungen oder über Browser (z. B. Internet Explorer®, Firefox®, Safari®, Google Chrome® usw.) auf die UI 512 zugreifen, die sich auf ihren lokalen Computergeräten befinden.
  • 6 zeigt eine beispielhafte Verarbeitungspipeline 600 zum automatischen Analysieren und Präsentieren von Marktinformationen, die mit mehreren Dokumenten verknüpft werden können. Die Dokumente können aus einem oder mehreren Datenspeichern 102 stammen. Beispielsweise können die Dokumente die gleichen Dokumente enthalten, die jeweils von einer der Verarbeitungspipelines 100 - 500 aus den 1-5 analysiert wurden. In einigen Fällen können die Dokumente weiter gefiltert und/oder vorverarbeitet werden, indem ähnliche Techniken wie bei den Dokumenten von 1 verwendet werden. Beispielsweise kann die Datenfilterung 104 die aus den Datenspeichern 102 erhaltenen Daten auf einen Korpus von Dokumenten beschränken, die bestimmte Eigenschaften gemeinsam haben. Die Vorverarbeitung 106 kann die Dokumente oder Teile der Dokumente für eine spätere Verarbeitung auf der Grundlage des Entfernens von Interpunktion, des Entfernens von Stoppwörtern 108, des Umwandelns von Akronymen und Abkürzungen 110 in vollständige Wörter, der Stammformreduktion und/oder des Entfernens von Wortduplikaten modifizieren. Zusätzlich identifiziert die Anomalieerkennung 112 Teile von Dokumenten, die wahrscheinlich eine Anomalie enthalten, die dazu führt, dass der Teil des Dokuments von der weiteren Analyse ausgeschlossen oder markiert wird, um einen menschlichen Benutzer darauf hinzuweisen, dass es Gründe geben kann, den markierten Dokumententeil manuell zu überprüfen.
  • Die Klassifikationsanalyse 602 kann Marktklassifikationen bestimmen, die den zu analysierenden Dokumenten entsprechen. Wenn beispielsweise ein Dokument ein Patent enthält, kann das Patent analysiert werden, um eine anfängliche Klassifikation zu identifizieren, die dem Patent entspricht. Das Analysieren des Patents kann das Durchsuchen einer oder mehrerer Datenbanken umfassen, beispielsweise einer oder mehrerer Datenbanken, die mit PAIR, EPO, WIPO oder dergleichen in Verbindung stehen, um die dem Patent entsprechende anfängliche Klassifikation zu identifizieren. In einigen Fällen kann die anfängliche Klassifikation eine dem Patent zugewiesene Klassifikation umfassen, die auf der Cooperative Patent Classification (CPC) basiert. In einigen Fällen kann die anfängliche Klassifikation eine dem Patent zugewiesene Klassifikation umfassen, die auf der US-Patentklassifikation (USPC) basiert, eine dem Patent vom EPO zugewiesene Klassifikation oder jede andere Art von Klassifikation, die dem Patent zugewiesen werden kann.
  • Eine semantische Suche kann dann unter Verwendung der anfänglichen Klassifikation durchgeführt werden, um eine Klasse (z. B. eine Marktklassifikation) zu bestimmen, die dem Patent entspricht. In einigen Fällen kann die Marktklassifikation eine Klassifikation nach dem North American Industry Classification System (NAICS) umfassen. In anderen Fällen kann die Marktklassifikation einem anderen Klassifikationssystem entsprechen, beispielsweise dem Standard Industrial Classification (SIC)-System. In beiden Fällen und am Beispiel des NAICS kann eine semantische Suche unter Verwendung der Beschreibungen für eine oder mehrere der NAICS-Klassifikationen durchgeführt werden, um mindestens eine NAICS-Klassifikation zu identifizieren, die mit der dem Patent zugewiesenen anfänglichen Klassifikation zusammenhängt. In einem anderen Beispiel und erneut unter Verwendung des NAICS kann eine Nachschlagetabelle erstellt werden, die jede anfängliche Klassifikation, die einem Patent zugewiesen werden kann, mindestens einer der NAICS-Klassifikationen zuordnet. Eine Suche kann dann mittels der Nachschlagetabelle ausgeführt werden, um eine mit der dem Patent zugeordneten anfänglichen Klassifikation verknüpfte NAICS-Klassifikation zu ermitteln.
  • In einigen Fällen kann zusätzlich oder alternativ zur Verwendung der dem Patent zugewiesenen anfänglichen Klassifikation eine semantische Analyse des Patents durchgeführt werden, um mindestens eine Marktklassifikation für das Patent zu identifizieren. Beispielsweise kann eine semantische Suche unter Verwendung des am weitesten gefassten unabhängigen Anspruchs, jedes der unabhängigen Ansprüche, des am weitesten gefassten unabhängigen Anspruchs sowie der von dem am weitesten gefassten unabhängigen Anspruch abhängigen Ansprüche, jedes Anspruchs oder jeder anderen Kombination der Ansprüche, um eine sich auf das Patent beziehende NAICS-Klassifikation zu identifizieren, durchgeführt werden. In einem anderen Beispiel kann eine semantische Suche unter Verwendung eines oder mehrerer zusätzlicher oder alternativer Teile des Patents durchgeführt werden, wie beispielsweise der Zusammenfassung, der Beschreibung, der Beschreibung der Figuren, des Hintergrunds oder einer beliebigen Kombination davon, um eine NAICS-Klassifikation zu identifizieren, die im Zusammenhang mit dem Patent steht.
  • Die Marktwertberechnung 604 berechnet Werte für die zu analysierenden Dokumente unter Verwendung jeweiliger Werte (z. B. Metriken), die den identifizierten Marktklassifikationen zugeordnet sind. Zum Beispiel kann jede für ein Dokument bestimmte Marktklassifikation mit einem jeweiligen Wert verknüpft sein. In einigen Fällen werden die Werte auf der Grundlage des Bruttoinlandsprodukts (BIP) des Landes berechnet, in dem die Dokumente analysiert werden. Wenn beispielsweise Patente in den Vereinigten Staaten analysiert werden, kann jede für ein entsprechendes Patent identifizierte Marktklassifikation mit der entsprechenden Zuordnung des BIP der Vereinigten Staaten verbunden sein. Um eine Marktklassifikation mit einem BIP zu verknüpfen, kann das BIP für die Marktklassifikation basierend auf dem Gesamt-BIP des Landes normalisiert werden. Beispielsweise kann für jede Marktklassifikation, die einem Dokument zugeordnet werden kann, ein entsprechendes BIP identifiziert werden. Das jeweilige BIP kann dann durch das Gesamt-BIP dividiert werden, um für jede Marktklassifikation einen Teil des Gesamt-BIP zu bestimmen. Die Teile können dann mit 100 multipliziert werden, um die Werte mit einer Skala zwischen 0 und 100 zu normalisieren. In einigen Fällen werden die Werte dann zu der oben beschriebenen Nachschlagetabelle hinzugefügt, sodass Marktwerte für Dokumente unter Verwendung der Nachschlagetabelle identifiziert werden können.
  • Die UI 606 kann die Marktwerten für die Dokumente, die auf den Marktwerten basierenden Rangordnungen und eine Kennung für jedes der analysierten Dokumente anzeigen oder einem Benutzer auf andere Weise präsentieren. Die Kennung für jedes der Dokumente kann eine eindeutige Kennung sein, beispielsweise eine Patentnummer, eine Nummer einer veröffentlichten Patentanmeldung, eine ISBN, ein Titel, eine URI usw. Die UI 606 kann durch Verarbeiten einer Textdatei oder einer anderen Textausgabe erzeugt werden. Die UI 606 kann als eine Befehlszeilenschnittstelle, als eine grafische Benutzerschnittstelle oder als eine andere Art von Schnittstelle implementiert sein. Wenn sie als grafische Benutzerschnittstelle implementiert ist, kann die UI 606 durch einen Cloud-Dienst generiert werden, auf den über ein Kommunikationsnetz wie das Internet zugegriffen werden kann. Eine beliebige Anzahl von Benutzern kann jederzeit über spezielle Anwendungen oder über Browser (z. B. Internet Explorer®, Firefox®, Safari®, Google Chrome® usw.) auf die UI 606 zugreifen, die sich auf ihren lokalen Computergeräten befinden.
  • 7 veranschaulicht eine beispielhafte Verarbeitungspipeline 700 zum Erzeugen einer Benutzerschnittstelle 702, die globale Ergebnisse einer automatischen Dokumentenanalyse zeigt. Wie gezeigt, kann die Globaler-Wertungswert-Berechnung 704 die Wertungswerte von jeder der Verarbeitungspipelines 400, 500 und 600 empfangen und dann die Wertungswerte verwenden, um globale Wertungswerte für jedes der zu analysierenden Dokumente zu bestimmen. In einigen Fällen bestimmt die Globaler-Wertungswert-Berechnung 704 den globalen Wertungswert für jedes der Dokumente, indem ein Durchschnitt der drei Wertungswerte für die jeweiligen Dokumente gebildet wird. Zum Beispiel und wie für das Patent 948.934 gezeigt, enthält der globale Wertungswert 706 einen Durchschnitt des Vergleichs-Reichweitenwerts 708 (von der Verarbeitungspipeline 400), des Risikowerts 710 (von der Verarbeitungspipeline 500) und des Marktwerts 712 (von der Verarbeitungspipeline 600) für das Patent. In einigen Fällen kann die Globaler-Wertungswert-Berechnung 704 eine oder mehrere der drei Bewertungen gewichten, wenn die globalen Wertungswerte für jedes der Dokumente bestimmt werden. Wenn zum Beispiel die Globaler-Wertungswert-Berechnung 704 dem Vergleichs-Reichweitenwert 708 doppelt so viel Gewicht gibt wie dem Risikowert 710 und dem Marktwert 712, hätte der globale Wertungswert für das Patent 948.934 den Wert 78,25 (z. B. ((79*2) + 86 + 80) / 4 = 78,25).
  • 7 zeigt ferner eine Implementierung einer UI 702, die einem Benutzer endgültige globale Ergebnisse einer Analyse bereitstellen kann. Die UI 702 kann Informationen anzeigen, die von jeder der Verarbeitungspipelines 400, 500, 600 für eine Anzahl verschiedener Dokumente oder Dokumententeile erzeugt wurden. In diesem Beispiel sind die Dokumente erteilte Patente. Dieselbe oder eine ähnliche UI kann jedoch die Analyse verschiedener Dokumenttypen anzeigen. Ein veranschaulichender Typ der UI ist die GUI, wie sie in 7 gezeigt ist. Eine GUI ist eine Art Benutzeroberfläche, mit der Benutzer mit elektronischen Geräten über grafische Symbole und visuelle Indikatoren wie die Sekundärnotation interagieren können, anstatt über textbasierte Benutzeroberflächen, eingegebene Befehlsbezeichnungen oder Textnavigation. Aktionen in der GUI können durch direkte Manipulation der grafischen Elemente unter Verwendung eines Zeigegeräts wie einer Maus, eines Stifts oder eines Fingers ausgeführt werden.
  • Es gibt einen Eintrag für ein oder mehrere Dokumente in der UI 702 und Informationen zu diesen Dokumenten. Die Informationen können die Rangordnung 714 für jedes der Dokumente, die Patentnummer 716 für jedes der Dokumente, die Vergleichs-Reichweitenwerte 708 für jedes der Dokumente, die Vergleichs-Risikowerte 710 für jedes der Dokumente, die Vergleichs-Marktwerte 712 für jedes der Dokumente und die globalen Wertungswerte 706 für jedes der Dokumente umfassen. Die UI 702 kann auch interaktive Elemente 718 enthalten, die jedem der Einträge zugeordnet sind. Eines der interaktiven Elemente 718 kann in Reaktion auf einen Befehl aktiviert werden, der auf einer Eingabevorrichtung erzeugt wird, um eines der Dokumente auszuwählen. Informationen zur Analyse des ausgewählten Dokuments können in einer separaten Datei gespeichert, in einem separaten Teil des Speichers abgelegt oder einer Liste für den späteren Zugriff und/oder die Analyse hinzugefügt werden.
  • Darüber hinaus kann die UI 702 in einigen Fällen Gruppenwertungswerte 720 für die zu analysierenden Dokumente enthalten. Beispielsweise kann ein Dokument mit einem oder mehreren anderen Dokumenten verknüpft sein, die analysiert werden. Beispielsweise kann ein Patent in eine Patentfamilie aufgenommen werden, die zwei oder mehr Patente enthalten kann. In einigen Fällen umfasst die Patentfamilie Patente, die Priorität zueinander beanspruchen, beispielsweise in Form von Folgeanmeldungen, Teilanmeldungen, Auslandsanmeldungen oder dergleichen. Somit können der Gruppenwertungswerte 720 eine Bewertung für jedes der Dokumente enthalten, die in einer Gruppe enthalten sind. In einigen Fällen kann der Gruppenwertungswert 720 für ein Dokument den Durchschnitt jedes der globalen Wertungswerte der Dokumente innerhalb der Gruppe enthalten. In einigen Fällen kann der Gruppenwertungswert 720 für ein Dokument den Median, den Modalwert, den niedrigsten globalen Wertungswert, den höchsten globalen Wertungswert oder dergleichen der globalen Wertungswerte der Dokumente in der Gruppe enthalten. In einigen Fällen können eines oder mehrere der analysierten Dokumente nicht in einer Gruppe enthalten sein und als solches möglicherweise keinen Gruppenwertungswert 720 enthalten. Zum Beispiel enthalten die ersten zwei Patente, die in der UI 702 enthalten sind, entsprechende Gruppenwertungswerte 720, während die letzten zwei Patente keine entsprechenden Gruppenwertungswerte 720 enthalten.
  • Es ist zu beachten, dass die Globaler-Wertungswert-Berechnung 704 in einigen Fällen anstelle der Ergebnisse der Vergleichs- Reichweitenwert-Berechnung 402 zusätzlich oder alternativ eines oder mehrere der Ergebnisse aus der Gesamtumfangsberechnung 116, der Vergleichs-Umfangswertberechnung 118, der Teileanzahl-Berechnung 202, der Vergleichs-Teilezählwert-Berechnung 204, der gesamtheitlichen Differenzierungsberechnung 304 oder der Vergleichs-Differenzierungswertberechnung 306 zur Berechnung der globalen Wertungswerte für die Dokumente verwenden kann. Zusätzlich kann in einigen Fällen die Globaler-Wertungswert-Berechnung 704 die globalen Wertungswerte basierend auf nur einem oder zwei von der Vergleichs-Reichweitenwert-Berechnung 402, der Risikowertberechnung 502 und der Marktwertberechnung 604 berechnen.
  • Es sollte ferner beachtet werden, dass in manchen Fällen ein globaler Wertungswert für ein Dokument (z. B. ein Patent) auf anderen Faktoren gegründet berechnet oder angepasst werden kann. Die anderen Faktoren können eine verbleibende Patentlaufzeit, eine mit dem Patent verbundene Historie von Rechtsstreiten, eine mit dem Patent verbundene Historie von Lizenzierungen, ein mit dem Patent verbundenes Sicherungsrecht, eine mit dem Patent verbundene Eigentümerschaft und/oder mehrere verwandte Patente (z. B. ein oder mehrere ausländische verwandte Patente) umfassen, ohne darauf beschränkt zu sein. Beispielsweise kann ein globaler Wertungswert für ein Patent erhöht werden, wenn das Patent eine größere Menge verbleibender Patentlaufzeiten (z. B. 15 Jahre) enthält, und verringert werden, wenn das Patent eine geringere Menge verbleibender Patentlaufzeiten (z. B. 2 Jahre) enthält. Zum anderen kann ein globaler Wertungswert für ein Patent erhöht werden, wenn das Patent bereits lizenziert ist, und verringert werden, wenn das Patent noch nicht lizenziert ist und/oder wenn es schwierig wäre, das Patent zu lizenzieren.
  • VERANSCHAULICHENDE VERFAHREN
  • Die Verfahren sind als Sammlung von Blöcken in einem logischen Flussdiagramm dargestellt, das eine Folge von Operationen darstellt, die in Hardware, Software, Firmware oder einer Kombination davon implementiert werden können. Die Reihenfolge, in der die Verfahrensblöcke beschrieben und beansprucht werden, soll nicht als Einschränkung aufgefasst werden, und eine beliebige Anzahl der beschriebenen Verfahrensblöcke kann in einer beliebigen Reihenfolge kombiniert werden, um das Verfahren oder alternative Verfahren zu implementieren. Zusätzlich können einzelne Blöcke aus dem Verfahren weggelassen werden, ohne vom Geist und Umfang des hierin beschriebenen Gegenstands abzuweichen. Im Kontext von Software stellen die Blöcke Computeranweisungen dar, die, wenn sie von einem oder mehreren Prozessoren ausgeführt werden, die genannten Operationen ausführen. Im Hardware-Kontext können einige oder alle Blöcke anwendungsspezifische integrierte Schaltkreise (ASICs) oder andere physische Komponenten darstellen, die die genannten Operationen ausführen.
  • Die Verfahren 800-1700 werden im allgemeinen Kontext computerausführbarer Anweisungen beschrieben. Im Allgemeinen können computerausführbare Anweisungen Routinen, Programme, Objekte, Komponenten, Datenstrukturen, Prozeduren, Module, Funktionen und dergleichen enthalten, die bestimmte Funktionen ausführen oder bestimmte abstrakte Datentypen implementieren. Die Verfahren können auch in einer verteilten Computerumgebung ausgeführt werden, in der Funktionen von entfernten Verarbeitungsgeräten ausgeführt werden, die über ein Kommunikationsnetzwerk verbunden sind. In einer verteilten Computerumgebung können sich computerausführbare Anweisungen auf lokalen und/oder entfernten Computerspeichermedien befinden, einschließlich Speichervorrichtungen.
  • 8 ist ein Flussdiagramm, das ein beispielhaftes Verfahren 800 zum Filtern von Daten darstellt, die aus einem oder mehreren Datenspeichern stammen. Beispielsweise kann eine Sammlung von Patenten und/oder Anmeldungen aus einem Datenspeicher gesammelt werden, der auf einen Technologiebereich beschränkt ist. Auf diese Weise können die Wörter und/oder Ausdrücke eine gemeinsame Ontologie, ein gemeinsames Vokabular und/oder eine gemeinsame Taxonomie aufweisen. In einigen Fällen kann die Sammlung basierend auf Klassifikationscodes wie den Klassen und Unterklassen des US-Patent- und Markenamts (USPTO) oder den internationalen Patentcodes (IPC) erhalten werden.
  • Bei 802 kann ein einzelnes Dokument von einem Datenspeicher zur Analyse empfangen werden. Jedes Dokument im Datenspeicher kann mit einer eindeutigen Dokumentidentifikationsnummer verknüpft sein. Die eindeutige Dokumentidentifikationsnummer eines Patentdokuments kann eine Anmeldenummer, eine Veröffentlichungsnummer, eine Patentnummer und/oder eine Kombination von mit dem Patentdokument verbundenen Informationen enthalten, die das Patentdokument eindeutig identifizieren können (wie eine Kombination eines Namens eines Erfinders und eines Einreichungsdatums usw.).
  • Dieser Vorgang kann wiederholt werden, bis alle Dokumente in einem Ziel-Datenspeicher analysiert wurden. Die verfügbaren Datenspeicher können eine Patentdatenbank umfassen, die von einem Patentamt eines bestimmten Landes bereitgestellt und/oder unterstützt wird (z. B. eine USPTO-Datenbank (US-Patent- und Markenamt), eine PAIR-Datenbank, eine EPO-Datenbank, WIPO-Datenbank, SIPO-Datenbank (State Intellectual Property Office der VR China) usw.) sowie alle anderen Datenbanken, die von öffentlichen und/oder privaten Institutionen auf der ganzen Welt bereitgestellt werden, sind jedoch nicht darauf beschränkt.
  • Bei 804 wird bestimmt, ob das Dokument maschinenlesbaren Text enthält. Einige in den Datenspeichern verfügbare Dateitypen, z. B. HTML-Dokumente, enthalten möglicherweise bereits maschinenlesbaren Text. Bei anderen Dateitypen, z. B. PDF-Dateien, die Bilder von Papierdokumenten darstellen, fehlt möglicherweise maschinenlesbarer Text. Entwürfe oder unveröffentlichte Dokumente sind beispielsweise möglicherweise nur in Formularen verfügbar, die keinen maschinenlesbaren Text enthalten. Die Bestimmung, ob ein Dokument maschinenlesbaren Text enthält, kann teilweise durch automatische Erkennung des Dateityps unter Verwendung bekannter Techniken zur Identifizierung des Dateityps einschließlich der Erkennung von Dateinamensuffixen erfolgen. Wenn ein Dateityp nicht durch ein Suffix oder andere Metadaten angegeben ist, kann er bestimmt werden, indem die Datei geöffnet und die Dateistruktur mit einer Bibliothek bekannter Strukturen verglichen wird, die bekannten Dateitypen zugeordnet sind. Wenn bestimmt wird, dass ein Dokument keinen maschinenlesbaren Text enthält, kann das Verfahren 800 mit 806 fortfahren, und die optische Zeichenerkennung (OCR) kann verwendet werden, um Text in dem Dokument zu erkennen.
  • Bei 806 kann OCR auf das Dokument angewendet werden, um das Dokument in ein Format zu konvertieren, das maschinenlesbaren Text enthält. OCR ist die mechanische oder elektronische Umwandlung von Bildern aus getipptem, handgeschriebenem oder gedrucktem Text in maschinencodierten Text, unabhängig davon, ob es sich um ein gescanntes Dokument, ein Foto eines Dokuments oder eine andere Quelle handelt. OCR ist eine Methode zur Digitalisierung von abgebildeten Texten, mit der sie elektronisch bearbeitet, durchsucht, kompakter gespeichert, online angezeigt und in maschinellen Prozessen wie kognitivem Rechnen, maschineller Übersetzung und (extrahiertem) Text-in-Sprache, Key Data und Text Mining verwendet werden können. OCR beinhaltet Mustererkennung, künstliche Intelligenz und Computer Vision.
  • Bei 808 wird der Dokumenttyp identifiziert. Dokumenttyp bezeichnet den in einem Dokument enthaltenen Informationstyp und nicht das Computerdateiformat, in dem das Dokument codiert ist. Dokumente können identifizierende Informationen wie eindeutige Dokumentidentifikationsnummern, Artencodes und Quellenangaben enthalten. Eindeutige Dokumentidentifikationsnummern können zum Beispiel Patentnummern enthalten, die verwendet werden können, um verschiedene Arten von Patenten basierend auf der Struktur der Nummer zu unterscheiden. Wenn beispielsweise Dokumentidentifikationsnummern analysiert werden, die aus einer Datenbank von US-Patenten stammen, kann eine siebenstellige Nummer so interpretiert werden, dass sie angibt, dass das Dokument ein Gebrauchsmuster ist, und eine elfstellige Nummer, optional mit einem „/“ nach den ersten vier Ziffern kann eine veröffentlichte Patentanmeldung anzeigen, eine fünf- oder sechsstellige Zahl mit vorangestelltem Buchstaben D weist auf ein Geschmacksmuster hin, und Kennungen für Pflanzenpatente beginnen mit den Buchstaben PP. Artencodes in Patentdokumenten können auch angeben, ob es sich bei einem Dokument um ein Gebrauchsmuster, ein Pflanzenpatent, eine Patentanmeldungsveröffentlichung, eine gesetzliche Erfindungsmeldung oder ein Geschmacksmuster handelt. Die zu analysierenden Dokumente können aus einer Reihe verschiedener Datenspeicher stammen. Wenn bekannt ist, dass ein bestimmter Datenspeicher nur Dokumente eines bestimmten Typs enthält, kann davon ausgegangen werden, dass alle aus diesem Datenspeicher erhaltenen Dokumente vom angegebenen Typ sind. Beispielsweise kann ein Dokument, das aus einem Datenspeicher stammt, der nur wissenschaftliche Arbeiten zur Biotechnologie enthält, als wissenschaftliche Arbeit zur Biotechnologie identifiziert werden, aufgrund dessen, dass es aus diesem spezifischen Datenspeicher stammt. Jedes Dokument in Verfahren 800 enthält zu diesem Zeitpunkt maschinenlesbaren Text und wird einem Dokumenttyp zugeordnet.
  • Bei 810 wird bestimmt, ob das Dokument einem oder mehreren spezifizierten Dokumenttypen zugeordnet ist. Dadurch werden Dokumente basierend auf dem Dokumenttyp gefiltert. Dokumenttypen können vom Benutzer angegeben werden. Wenn keine Benutzerspezifikation vorliegt, kann die Filterung basierend auf einem Standarddokumenttyp durchgeführt werden. In einer Implementierung kann der Standarddokumenttyp erteilte US-Patente sein. Somit wird jedes Dokument, das als US-Patent entweder durch eine eindeutige Dokumentidentifikationsnummer, einen Artencode, der aus einem bestimmten Datenspeicher stammt, oder eine andere Technik identifiziert wird, zur weiteren Analyse aufbewahrt. Ein Benutzer kann auch sowohl erteilte US-Patente als auch erteilte europäische Patente spezifizieren. In diesem Fall würde festgestellt, dass Dokumente beider Art mit dem spezifizierten Dokumententyp übereinstimmen. Wenn jedoch ein Dokument nicht mit dem angegebenen Dokumenttyp übereinstimmt, kehrt das Verfahren 800 zu 802 zurück und ein neues Dokument wird vom Datenspeicher empfangen. Dieser Teil des Verfahrens 800 kann automatisch und kontinuierlich fortgesetzt werden, bis alle Dokumente in dem einen oder den mehreren Datenspeichern analysiert wurden. Diese Verarbeitung und Filterung ermöglicht die Verwendung verschiedener Datenspeicher und die Anwendung der Dokumentenanalyse auf mehrere Datenspeicher, da es Mechanismen gibt, mit denen alle Dokumente in maschinenlesbaren Text konvertiert und Dokumente ausgeschlossen werden können, die nicht mit einem bestimmten Dokumenttyp übereinstimmen.
  • Für diejenigen Dokumente, die bei 810 mit dem angegebenen Dokumenttyp übereinstimmen, fährt das Verfahren 800 mit 812 fort.
  • Bei 812 wird bestimmt, ob der Anspruchsteil des Dokuments gekennzeichnet ist. Ein gekennzeichneter Anspruchsteil wird als ein Teil des Textes identifiziert, der Patentansprüche enthält, die von anderen Teilen eines Patentdokuments getrennt sind. Beispielsweise kann ein Dokument im CSV-Format alle Ansprüche in derselben Spalte enthalten, die als Ansprüche enthaltend bezeichnet wird. Alternativ kann ein HTML-Dokument spezifische Tags für jeden Anspruch haben, die angeben, dass es sich um einen Anspruch handelt und ob es sich um einen unabhängigen oder einen abhängigen Anspruch handelt. Andere Dokumente, z. B. eine OCR-Version eines PDF-Dokuments, enthalten möglicherweise nur undifferenzierten Text. Für solche Dokumente können Ansprüche ohne zusätzliche Analyse nicht als solche identifiziert werden. In diesem Beispiel wird erläutert, wie ermittelt wird, ob ein Anspruchsteil eines Patentdokuments gekennzeichnet ist. Das Identifizieren spezifischer Kennzeichnungsteile eines Dokuments ist jedoch nicht auf diese Anwendung beschränkt und kann auch angewendet werden, um andere Abschnitte von Dokumenten zu bestimmen, die separat identifiziert werden, beispielsweise um zu bestimmen, welche Finanzdokumente Executive Summaries aufweisen, die als Executive Summaries gekennzeichnet sind.
  • Wenn ein Dokument keinen gekennzeichneten Anspruchsteil aufweist, fährt das Verfahren 800 mit 814 fort.
  • Bei 814 wird der Anspruchsteil erfasst. Die spezifische Technik zum Erfassen des Anspruchsteils kann basierend auf dem Dokumentformat variieren. In einer Implementierung kann die Schlüsselworterkennung verwendet werden, um einen Anspruchsteil zu unterscheiden. Wenn zum Beispiel eine Seite eines Dokuments das Wort „Claim“ oder „Claims“ in der ersten Zeile enthält und auf derselben Seite ein Absatz folgt, der mit einer Zahl gefolgt von einem Punkt beginnt, kann dieser Absatz oder die gesamte Seite sein als Anspruchsteil bezeichnet werden. Andere Erkennungstechniken können alternativ oder zusätzlich angewendet werden. Beispielsweise kann jeder Absatz, der eine mit einem Semikolon endende Zeile enthält, als Anspruch interpretiert werden.
  • Bei 816 wird aus dem Dokument ein Datensatz erstellt, der den Anspruchsteil und die eindeutige Dokumentidentifikationsnummer enthält. Dieser Datensatz kann als eigenständige Datei oder als Teil einer anderen Datei gespeichert werden. Der Datensatz hat möglicherweise ein anderes Format als das Format des Quelldokuments. In vielen Implementierungen wird der Datensatz in einem Speicher gespeichert, der sowohl logisch als auch physisch von den Datenspeichern getrennt ist. Dieser Datensatz kann mit dem Quelldokument über die eindeutige Dokumentidentifikationsnummer verknüpft werden. Die Ansprüche in dem Datensatz können als einzelne Ansprüche unterschieden werden oder können eine undifferenzierte Textsammlung sein, die einige oder alle Ansprüche in dem Patentdokument darstellt. Im Zusammenhang mit Patentdokumenten kann dieser Datensatz daher den Anspruchsteil eines Patentdokuments darstellen. Durch die Generierung mehrerer Datensätze aus mehreren Dokumenten kann ein Korpus von Patentansprüchen erstellt werden, die für die weitere Analyse zugänglich sind.
  • 9 ist ein Flussdiagramm, das ein beispielhaftes Verfahren 900 zum Vorverarbeiten von Ansprüchen vor einer Analyse des Anspruchsumfangs darstellt. Die Vorverarbeitung dient dazu, den Inhalt der Ansprüche zu normalisieren, so dass die Bestimmung des Anspruchsumfangs, der Anzahl der Teile und der Differenzierung konsistentere Ergebnisse liefert. Es bietet auch die Möglichkeit, einen Teil der Dokumentenanalyse anzupassen, ohne die Techniken zum Bestimmen des Anspruchsbereichs zu ändern.
  • Bei 902 kann der Anspruchsteil eines Dokuments in separate Wörter zerlegt werden. Dies unterteilt den Text des Anspruchsteils in mehrere diskrete Wörter. Die Wortanalyse kann durchgeführt werden, indem Wortbegrenzer identifiziert und die Wortbegrenzer verwendet werden, um den Text in einzelne Wörter zu trennen. Ein Begrenzer ist ein Leerzeichen, ein Komma oder ein anderes Zeichen oder Symbol, das den Anfang oder das Ende einer Zeichenfolge, eines Wortes oder eines Datenelements angibt. In einer Implementierung sind die Wortbegrenzer sowohl ein <Leerzeichen> als auch ein Bindestrich „-“. Die Wortanalyse kann durchgeführt werden, bevor einzelne Ansprüche voneinander unterschieden werden.
  • Bei 904 werden Akronyme und Abkürzungen durch alternative standardisierte Darstellungen ersetzt. Dies kann durchgeführt werden, indem jedes Wort aus dem Anspruchsteil mit einer Synonymbibliothek (z. B. einer Nachschlagetabelle) verglichen wird, die bekannte Akronyme und Abkürzungen enthält, die mit alternativen Darstellungen gepaart sind. In einigen Fällen können die alternativen Darstellungen vollständig ausgeschriebene Wörter sein. Eine alternative Darstellung kann auch eine standardisierte Form sein, die keine Punkte verwendet. Beispielsweise kann „NASA“ durch die National Air and Space Administration ersetzt werden. In ähnlicher Weise kann „U.S.A.“ durch „USA“ oder in einigen Implementierungen durch „Vereinigte Staaten von Amerika“ ersetzt werden. Dies dient dazu, die in einigen Abkürzungen vorkommenden Punkte zu entfernen und die Wortanzahl zu normalisieren, sodass Ansprüche nicht nur deshalb als kürzer wahrgenommen werden, weil sie mehr Akronyme oder Abkürzungen verwenden. Durch das Entfernen von Punkten in Akronymen kann das Ende des Satzes als Indikator für den Beginn eines ersten und eines zweiten Anspruchs verwendet werden.
  • Bei 906 kann der Anspruchsteil in einzelne Ansprüche unterteilt werden. Es sei angemerkt, dass nach dem Filtern von Dokumenten jeder Datensatz eines Dokuments einen Anspruchsteil enthalten kann, der möglicherweise mehrere Ansprüche enthält, die nicht separat voneinander unterschieden werden. Obwohl es für einen Menschen relativ trivial sein kann, verschiedene Ansprüche in einem Dokument zu identifizieren, kann es für einen automatisierten Prozess sehr viel schwieriger sein, Textfolgen genau in separate Ansprüche zu zerlegen. Bei Patentansprüchen kann dies jedoch dadurch geschehen, dass eine Trennung zwischen einem ersten Anspruch und einem zweiten Anspruch immer dann erzeugt wird, wenn ein Punkt gefolgt von einer Ziffer vorliegt. Die Trennung kann durch Einfügen eines Wagenrücklaufs, eines Zeilenumbruchs oder einer anderen Markierung implementiert werden. Dies ist eine sinnvolle Annäherung für die Aufteilung von Ansprüchen, da nach dem Ersetzen der Abkürzungen mit Punkten durch vollständige Wörter die einzigen in einem Anspruchssatz vorhandenen Punkte am Ende eines Anspruchs stehen. Darüber hinaus beginnt jeder Anspruch mit einer Ziffer (z. B. 1-20). Daher ist jeder Punkt, der auf einen Punkt folgt und einer Ziffer vorausgeht, wahrscheinlich eine Aufteilung zwischen zwei Ansprüchen.
  • Bei 908 kann jede Interpunktion entfernt werden, sobald die Ansprüche in separate Ansprüche unterteilt wurden. Die Interpunktion kann durch Abgleichen mit einer Interpunktionsliste und Löschen aller in der Liste gefundenen Zeichen entfernt werden. Durch das Entfernen der Interpunktion können einige oder alle Punkte, Semikolons, Kommas, Bindestriche, Klammern, Schrägstriche und dergleichen entfernt werden. Unter Interpunktion wird allgemein verstanden, dass sie den Anspruchsumfang nicht beeinflusst. Durch Entfernen der Interpunktion werden Zeichen, die nicht weiter verarbeitet werden, aus dem zu analysierenden Text entfernt.
  • Bei 910 wird bestimmt, ob es bestimmte Stoppwörter gibt. Bestimmte Stoppwörter können auf dem Inhalt der zu analysierenden Dokumente basieren. Wenn es sich bei den Dokumenten beispielsweise um Patentdokumente handelt, können die spezifischen Stoppwörter Wörter enthalten, die in Patentansprüchen üblich sind und wahrscheinlich nicht dazu dienen, einen Anspruch von einem anderen zu unterscheiden. Eine patentspezifische Liste von Stoppwörtern kann Wörter und/oder Ausdrücke wie „computerlesbare Medien“, „System“ „Maschine“, „umfassend“ und „wobei“ sowie Wörter und/oder Ausdrücke enthalten, die gesetzliche Klassen wie „Verfahren“, „Herstellungsartikel“ und „Zusammensetzung der Materie“ anzeigen. Technologiespezifische Stoppwörter können ebenfalls verwendet werden. Wenn beispielsweise alle zu analysierenden Patentdokumente aus derselben Technologieklasse oder -gruppierung stammen, können Stoppwörter verwendet werden, die zuvor für diese Technologie identifiziert wurden. Beispielsweise kann „Stromkreis“ in eine Stoppliste aufgenommen werden, die spezifisch für Dokumente ist, die die Elektrotechnik beschreiben.
  • Wenn keine spezifischen Stoppwörter verfügbar sind, fährt das Verfahren 900 mit 912 fort und verwendet Standardstoppwörter. Wenn jedoch spezifische Stoppwörter verfügbar sind, fährt das Verfahren 900 mit 914 fort und verwendet die spezifischen Stoppwörter. Mehrere Sätze von Stoppwörtern können zusammen verwendet werden. Beispielsweise können eine oder mehrere spezifische Stoppwortlisten in Verbindung mit einer Standardstoppwortliste verwendet werden.
  • Bei 916 werden Stoppwörter entfernt. Wenn mehrere Stoppwortlisten zusammen verwendet werden, werden Wörter entfernt, wenn sie in einer der Stoppwortlisten erscheinen.
  • Bei 918 wird die Stammformreduktion für die verbleibenden Wörter durchgeführt. Stammformreduktion ist der Prozess des Reduzierens von flektierten (oder manchmal abgeleiteten) Wörtern auf ihre Wortstamm-, Basis- oder Wurzelform - im Allgemeinen eine geschriebene Wortform. Der Stamm muss nicht mit der morphologischen Wurzel des Wortes identisch sein; es ist normalerweise ausreichend, dass verwandte Wörter demselben Stamm zugeordnet werden, auch wenn dieser Stamm an sich keine gültige Wurzel ist. Stammformreduktion ist eine zusätzliche Form der Normalisierung, die Unterschiede zwischen ähnlichen Wörtern wie „Vergleichen“ und „Vergleichend“ beseitigt. Es gibt zahlreiche bekannte Techniken zur Stammformreduktion, einschließlich der Verwendung einer Nachschlagetabelle, des Entfernens von Suffixen, der Lemmatisierung, stochastischer Algorithmen, der n-Gramm-Analyse, der Abgleichalgorithmen usw. In einer Implementierung wird der Porter-Stemmer-Algorithmus aus dem öffentlich verfügbaren „nltk“ -Paket verwendet, um Stammformreduktion durchzuführen.
  • Bei 920 können Wortduplikate entfernt werden. Wenn das Entfernen von Wortduplikaten nach der Stammformreduktion erfolgt, werden tatsächlich die doppelten Stammformen der Wörter entfernt. Zum Beispiel würde das Entfernen von Duplikaten vor der Stammformreduktion sowohl „Adapter“ als auch „adapted“ im Text eines Prozessanspruchs belassen, aber nach der Stammformreduktion können beide Wörter in die Stammform „adapt“ konvertiert und eines entfernt werden.
  • Somit werden die verschiedenen Anspruchsteile, die aus Patentdokumenten erhalten werden, durch Vorverarbeitung standardisiert, indem Akronyme und Abkürzungen durch alternative Darstellungen ersetzt werden (z. B. in vollständigen Wörtern ausgeschrieben), Interpunktion entfernt wird, Stoppwörter entfernt werden, Stammformreduktion durchgeführt wird und Wortduplikate gelöscht werden. Diese Vorverarbeitung macht die Daten aus den Datenspeichern für die automatische Analyse des Anspruchsumfangs leichter zugänglich. Es wird auch ein Teil der Variation weggelassen, die durch verschiedene Patentanspruchserstellungstechniken eingeführt werden kann, um den Inhalt eines Patentanspruchs unabhängig von einem bestimmten Schreibstil zu approximieren. Obwohl ein menschlicher Analytiker erkennen kann, wann das Schreiben „wortreich“ ist, kann die automatische Analyse des Umfangs durch unterschiedliche Schreibstile beeinträchtigt werden und möglicherweise ähnliche Ansprüche unterschiedlich bewerten, sofern keine Vorverarbeitung durchgeführt wird.
  • 10 ist ein Flussdiagramm, das ein beispielhaftes Verfahren 1000 zum automatischen Verarbeiten von Dokumenten darstellt, um eine UI zu erzeugen, die vergleichende Umfangswerte für die Dokumente darstellt. Bei 1002 werden Dokumente empfangen. Zum Beispiel können die Dokumente von einem oder mehreren Datenspeichern empfangen werden, wie zum Beispiel Datenspeicher 102. In einigen Fällen können die Dokumente Text entweder in computerlesbarer Form oder auf andere Weise enthalten, und jedem Dokument kann eine eindeutige Dokumentidentifikationsnummer zugeordnet sein. Diese eindeutige Dokumentenidentifikationsnummer kann genutzt werden, um das Dokument sowie beliebige Teilmengen des Dokuments zu kennzeichnen. Bei einigen Dokumenten, insbesondere Patentdokumenten, kann die eindeutige Dokumentidentifikationsnummer eine Patentnummer oder eine Veröffentlichungsnummer der Patentanmeldung sein. In manchen Fällen können die Dokumente lokal in einer Speichervorrichtung gespeichert sein, welche vom Datenspeicher, der die Dokumente bereitstellte, getrennt ist.
  • In einigen Fällen werden die Dokumente vorverarbeitet, um einen oder mehrere verarbeitete Dokumententeile für jedes der Dokumente zu erzeugen. Die Vorverarbeitung kann das gesamte oder einen Teil des in 8 beschriebenen Verfahrens 800 und/oder des in 9 beschriebenen Verfahrens 900 nutzen. Ein verarbeitetes Dokument kann sich zum Beispiel auf das Dokument nach der Vorverarbeitung beziehen. In einigen Fällen kann die Vorverarbeitung selbst ein Dokument in zwei oder mehr verarbeitete Dokumententeile aufteilen. Wenn beispielsweise Text analysiert wird, der Patentansprüche enthält, kann das Dokument an Stellen nach einem Punkt und vor einer Ziffer in Dokumententeile (z. B. einzelne Patentansprüche) unterteilt werden. In manchen Fällen ist jeder Teil des Dokuments mit der eindeutigen Dokumentenidentifikationsnummer des Quelldokuments verknüpft. Beispielsweise wäre jeder Patentanspruch eines Patents mit der Patentnummer verknüpft. Die verarbeiteten Dokumententeile enthalten einen Teil des Textes aus dem Quelldokument. Die spezifischen technischen Verfahrensweisen der Vorverarbeitung umfassen die Syntaxanalyse (Parsing) von Text, um Wörter zu separieren, wobei Stoppwörter, Wortduplikate und Satzzeichen entfernt werden. In einigen Fällen können einige oder alle Stoppwörter spezifisch für eine Dokumentklassifikation der Dokumente sein. Wenn beispielsweise alle Dokumente mit derselben Patentklassifikation verknüpft sind und es für jene Klassifikation spezifische Stoppwörter gibt, dann können jene spezifischen Stoppwörter anstelle von oder zusätzlich zu allgemeinen Stoppwörtern genutzt werden. In manchen Fällen kann die Vorverarbeitung zusätzliche technische Verfahrensweisen der Vorverarbeitung, wie beispielsweise das Ersetzen von Abkürzungen und/oder Akronymen mit den entsprechenden ganzen Wörtern, mit einschließen.
  • Bei 1004 wird eine Wortzählung für jeden der Dokumententeile erzeugt (z. B. verarbeitete oder nicht verarbeitete Dokumententeile). Beispielsweise kann eine Wortzählung für jeden Dokumententeil erzeugt werden, indem eine Anzahl von getrennten Wörtern in den jeweiligen Dokumententeilen gezählt wird. In manchen Fällen kann dies nach der Vorverarbeitung durchgeführt werden, so dass Stoppwörter und Wortduplikate von der Zählung ausgenommen sind. Eine Wortzählung, die nach dem Entfernen von Wortduplikaten durchgeführt wird, wird als Wortzählung einzigartiger Wörter bezeichnet. In manchen Fällen ist die für jeden einbezogenen Dokumententeil (z. B. Patentanspruch) erzeugte Wörterzahl eine Ganzzahl (z. B. eins, zwei, drei usw.).
  • Bei 1006 wird eine referentielle Wörterzahl identifiziert. In einigen Fällen ist die referentielle Wörterzahl eine Zahl, jedoch nicht unbedingt eine ganze Zahl. Die referentielle Wörterzahl kann auf einer Eigenschaft basieren, die aus den Wörterzahlen der einzelnen zu analysierenden Dokumententeile abgeleitet wird. Beispielsweise kann die referentielle Wörterzahl die Wörteranzahl des Dokumententeils sein, der von allen analysierten Dokumententeilen die größte Wörteranzahl aufweist. In einem anderen Beispiel kann die referentielle Wörterzahl die Wörteranzahl des Dokumententeils sein, der von allen analysierten Dokumententeilen die kleinste Wörteranzahl aufweist.
  • In einigen Fällen können auch andere Eigenschaften verwendet werden, um die referentielle Wörterzahl zu erzeugen, wie beispielsweise die durchschnittliche oder mittlere Wörteranzahl der analysierten Dokumententeile. Handelt es sich bei den analysierten Dokumententeilen beispielsweise um Patentansprüche, so kann die referenzielle Wörterzahl die Wörterzahl des längsten Patentanspruchs, die Wörterzahl des kürzesten Patentanspruchs, die durchschnittliche Wörterzahl aller analysierten Patentansprüche, der Median der Wörterzahl aller analysierten Patentansprüche oder eine andere Metrik sein. In einigen Fällen ist die referentielle Wörterzahl für alle Dokumententeile, die zusammen in demselben Korpus analysiert werden, gleich. In einigen Fällen ist jedoch aufgrund der unterschiedlichen Eigenschaften jedes analysierten Korpus von Dokumenten die referentielle Wörteranzahl in unterschiedlichen Analysen unterschiedlich.
  • Bei 1008 werden Wörterzahl-Kennzahlen für die Dokumententeile berechnet. Beispielsweise kann eine Wörterzahl-Kennzahl für jeden Dokumententeil berechnet werden, indem die referentielle Wörterzahl durch die Wörterzahl für einen jeweiligen Dokumententeil geteilt wird. Somit wird in einigen Fällen jedem analysierten Dokumententeil eine Wörterzahl-Kennzahl zugeordnet. In einigen Fällen ist der Zähler für jeden Dokumententeil in einem gegebenen Korpus derselbe, der Nenner ist jedoch unterschiedlich je nach der individuellen Wörteranzahl dieses Dokumententeils. Wenn beispielsweise die Wörterzahl für einen bestimmten Dokumententeil 25 und die referentielle Wörterzahl 72 ist (z. B. die größte Wörterzahl aller analysierten Dokumententeile), beträgt die Wörterzahl-Kennzahl für diesen bestimmten Dokumententeil 72/25 oder 2,88.
  • Bei 1010 wird eine Wörterhäufigkeit für einzelne Wörter bestimmt. Beispielsweise kann eine korpusbasierte Wörterhäufigkeit für jedes Wort bestimmt werden, das in einem der Dokumententeile enthalten ist. In einigen Fällen ist die Wörterhäufigkeit spezifisch für das Wort und nicht für den Dokumententeil, in dem das Wort gefunden wird. Die Wörterhäufigkeit kann als Maß dafür angesehen werden, wie häufig ein bestimmtes Wort in allen analysierten Dokumententeilen vorkommt. In einigen Fällen wird die Wörterhäufigkeit bestimmt, indem gezählt wird, wie oft ein Wort in allen analysierten Dokumententeilen vorkommt. Somit stellt die Wörterhäufigkeit die Anzahl der Fälle dar, in denen ein Wort in der gesamten Menge des zu analysierenden Inhalts gefunden wurde, bevor Wortduplikate entfernt wurden. Wenn zum Beispiel das Korpus der zu analysierenden Dokumente 1000 Patente umfasst, diese Patente jeweils durchschnittlich 20 Patentansprüche aufweisen, dann werden 20.000 Dokumententeile analysiert. Die Häufigkeit, mit der ein bestimmtes Wort wie „Maschine“ in allen 20.000 Dokumententeilen vorkommt, entspricht der Häufigkeit dieses Wortes. Daher haben Wörter, die in einem bestimmten Korpus häufig sind, höhere Wörterhäufigkeitswerte, und Wörter, die in dem bestimmten Korpus selten sind, haben niedrigere Wörterhäufigkeitswerte. Somit ist an diesem Punkt jedem Dokumententeil eine Wörterzahl zugeordnet und jedem Wort (womit notwendigerweise die Wörter in jedem Dokumententeil eingeschlossen sind) ist eine Wörterhäufigkeit zugeordnet.
  • Bei 1012 wird ein Häufigkeitswert für die Dokumententeile erzeugt. Beispielsweise kann jedem Dokumententeil ein eigener Häufigkeitswert zugeordnet werden. Der Häufigkeitswert basiert auf der Häufigkeit, mit der die einzelnen Wörter in einem bestimmten Dokumententeil im gesamten Korpus der zu analysierenden Dokumententeile gefunden werden. Somit basiert der Häufigkeitswert für einen Dokumententeil auf den Wörterhäufigkeiten der Wörter in diesem Dokumententeil. In einigen Fällen basiert der Häufigkeitswert für einen verarbeiteten Dokumententeil auf der Quadratwurzel der Summe der Quadrate der Inversen der Wörterhäufigkeit für jedes der separaten Wörter in diesem verarbeiteten Dokumententeil. Zum Beispiel kann der Häufigkeitswert (commonness score - es) für einen Dokumententeil mit Wörtern 1 bis n mit jeweils einer zugeordneten Wörterhäufigkeit (word frequency - wf), die durch wf1 bis wfn dargestellt wird, durch die folgende Gleichung berechnet werden: H ä u f i g k e i t s w e r t = ( ( 1 w f 1 ) 2 + ( 1 w f 2 ) 2 + ( 1 w f n ) 2 ) × 100
    Figure DE112018002047T5_0001
    Bei dieser Berechnung erhält ein Dokumententeil mit häufiger vorkommenden Wörtern einen niedrigeren Häufigkeitswert und ein Dokumententeil mit selteneren Wörtern einen höheren Häufigkeitswert. Auf diese Weise stellt der Häufigkeitswert eine zugrunde liegende Annahme oder Prämisse dar, dass Patentansprüche mit häufigeren Wörtern tendenziell weiter gefasst sind als Ansprüche mit weniger häufigeren Wörtern. Dies ist möglicherweise nicht immer der Fall, aber eine nützliche Verallgemeinerung für die automatische Dokumentenanalyse.
  • Bei 1014 wird ein Referenz-Häufigkeitswert identifiziert. In einigen Fällen wird der Referenz-Häufigkeitswert als der höchste Häufigkeitswert aller verarbeiteten Dokumententeile identifiziert, die einer Analyse unterzogen werden. Die Häufigkeitswerte für jeden der Dokumententeile können berechnet und sortiert werden, und dann wird der höchste von diesen als der höchste Häufigkeitswert gespeichert. Dies stellt den Wertungswert des Dokumententeils dar, der basierend auf der Häufigkeit und Anzahl der Wörter, die in diesem Dokumententeil enthalten sind, am häufigsten vorkommt. Als solches hat jeder andere Dokumententeil einen Häufigkeitswert, der niedriger als der höchste Häufigkeitswert ist.
  • Bei 1016 werden Häufigkeitswert-Kennzahlen für die verarbeiteten Dokumententeile berechnet. Zum Beispiel können Häufigkeitswert-Kennzahlen berechnet werden, indem der Referenz-Häufigkeitswert (z. B. der höchste Häufigkeitswert) durch den Häufigkeitswert für einzelne der verarbeiteten Dokumententeile dividiert wird. In einigen Fällen hat der Dokumententeil mit dem höchsten Häufigkeitswert (den „seltensten“ Wörtern) eine Häufigkeitswert-Kennzahl von 1 (d.h. er wird durch seinen eigenen Häufigkeitswert dividiert). Darüber hinaus hat ein Dokumententeil mit der Hälfte des höchsten Häufigkeitswerts (weniger „seltene“ Wörter und mehr „häufige“ Wörter) eine Häufigkeitswert-Kennzahl von 2. Wenn die Menge der Wörter in einem Dokumententeil „häufiger“ wird, steigt die Häufigkeitswert-Kennzahl. Eine höhere Häufigkeitswert-Kennzahl gibt daher mehr „häufige“ oder oft vorkommende Wörter in einem verarbeiteten Dokumententeil an. Im Zusammenhang mit Patentansprüchen stellt die Häufigkeitswert-Kennzahl eine zugrunde liegende Annahme oder Prämisse dar, dass Ansprüche mit weniger einzigartigen Wörtern tendenziell weiter gefasst sind als Ansprüche mit mehr einzigartigen Wörtern, und daher steigt die Häufigkeitswert-Kennzahl, wenn es mehr häufige Wörter im Anspruch gibt.
  • Bei 1018 werden Umfangswerte für die Dokumententeile unter Verwendung der Wörterzahl-Kennzahlen und der Häufigkeitswert-Kennzahlen berechnet. Zum Beispiel können die Umfangswerte berechnet werden, indem eine Quadratwurzel aus der Summe des Quadrats der Wörterzahl-Kennzahl (word count ratio - wer) und des Quadrats der Häufigkeitswert-Kennzahl (commonness score ratio - csr) für die einzelnen der verarbeiteten Dokumententeile gezogen wird. In einigen Fällen können die relativen Gewichte der Wörterzahl-Kennzahl und des Häufigkeitswert normalisiert werden. Eine Technik zur Normalisierung besteht darin, die jeweils höchsten Werte sowohl für die Wörterzahl-Kennzahl als auch für die Häufigkeitswert-Kennzahl auf 100 festzulegen. Wenn zum Beispiel die höchste Wörterzahl-Kennzahl h-wcr ist, wird die gesamte wcr für das Korpus mit 100/h-wcr multipliziert. Ähnlich kann in einigen Fällen eine Normalisierung für die Häufigkeitswert-Kennzahl unter Verwendung der höchsten Häufigkeitswert-Kennzahl (h-csr) durchgeführt werden. Natürlich können andere Normalisierungswerte als 100 verwendet werden, wie 1000, 500, 50, 10 oder dergleichen. Beides sind Zahlen, aber die relative Auswirkung auf einen Umfangswert entspricht möglicherweise nicht direkt den jeweiligen numerischen Werten. Beispielsweise kann eine Wörterzahl-Kennzahl von 10 mehr oder weniger Einfluss auf den endgültigen Umfang haben als eine Häufigkeitswert-Kennzahl von 10. Ohne Normalisierung tragen beide jedoch gleichermaßen zum Umfangswert bei. Als solches kann die Wörterzahl-Kennzahl mit einem ersten Normalisierungswert K (z. B. 100/h-wcr) gewichtet werden und die Häufigkeitswert-Kennzahl kann mit einem zweiten Normalisierungswert L (z. B. 100/h-csr) gewichtet werden. Wenn als Gleichung ausgedrückt: U m f a n g s w e r t = K ( w c r 2 ) + L ( c s r ) 2
    Figure DE112018002047T5_0002
    Somit kann jedem Dokumententeil ein eigener Umfangswert zugewiesen werden. Der Umfangswert kann als Messung des Umfangs der Dokumententeile angesehen werden, da der Umfangswert auf Messungen der Wörteranzahl und der Wörterhäufigkeit basiert. Diese Technik zum Bestimmen eines Umfangswerts mildert auch jede der zugrunde liegenden Annahmen oder Prämissen hinter der Wörterzahl-Kennzahl und der Häufigkeitswert-Kennzahl. Wenn beispielsweise ein Patentanspruch relativ kürzer ist, aber sehr ungewöhnliche Ausdrücke verwendet, könnte ein Patentanwender den Anspruch aufgrund der einschränkenden Sprache in dem Anspruch immer noch als eng betrachten. Durch die Definition eines Umfangswerts auf der Grundlage dieser beiden zugrunde liegenden Annahmen können auch kürzere Ansprüche als nicht ganz so weit gefasst eingestuft werden, wenn sie Begriffe verwenden, die als einschränkend oder unterscheidend innerhalb einer Klasse gelten, in der eine Ontologie gut entwickelt ist.
  • Bei 1020 werden gesamtheitliche Umfangswerte für die Dokumente berechnet. Beispielsweise kann ein gesamtheitlicher Umfangswert für jedes zu analysierende Dokument unter Verwendung der Umfangswerte für die Dokumententeile aus dem jeweiligen Dokument berechnet werden. In einigen Beispielen kann das Berechnen des gesamtheitlichen Umfangswerts für ein Dokument das Ermitteln eines Durchschnitts der Umfangswert(e) für einen oder mehrere Dokumententeile innerhalb des Dokuments umfassen. In einigen Fällen kann das Berechnen eines gesamtheitlichen Umfangswerts für ein Dokument das Ermitteln des höchsten, des niedrigsten, des Bereichs, des Durchschnitts, des Medians, des Mittelwerts oder dergleichen des/der Umfangswerts/Umfangswerte des einen oder der mehreren Dokumententeile und Erzeugen eines zusammengesetzten Wertungswerts oder Beibehalten derselben einzeln beinhalten. Zusätzlich kann in einigen Fällen einem oder mehreren der Umfangswerte für einen oder mehrere der Dokumententeile für ein Dokument mehr Gewicht verliehen werden als einem oder mehreren anderen Umfangswerten für einen oder mehrere andere Dokumententeile. Handelt es sich bei einem Dokument beispielsweise um ein Patent, kann/können der/die Umfangswert(e) unabhängiger Ansprüche (z. B. des am weitesten gefassten unabhängigen Anspruchs) des Patents bei der Bestimmung des gesamtheitlichen Umfangswerts stärker gewichtet werden als der/die Umfangswert(e) von abhängigen Patentansprüchen.
  • Wenn Dokumente Patente und/oder veröffentlichte Anmeldungen enthalten, können in einigen Fällen eine oder mehrere Regeln zum Berechnen der gesamtheitlichen Umfangswerte für die Patente und/oder veröffentlichten Anmeldungen verwendet werden. Wenn Dokumente beispielsweise Patente enthalten, kann eine Regel festlegen, dass nur die mit dem am weitesten gefassten unabhängigen Anspruch verbundenen Umfangswerte und alle abhängigen Ansprüche, die von dem am weitesten gefassten unabhängigen Anspruch abhängen, verwendet werden, um den gesamtheitlichen Umfangswert für die Patente unter Verwendung der obigen Techniken zu berechnen (z. B. Durchschnitt, Median usw.). Wenn Dokumente beispielsweise Patente enthalten, kann eine Regel festlegen, dass nur mit unabhängigen Ansprüchen verbundene Umfangswerte verwendet werden, um den gesamtheitlichen Umfangswert für die Patente unter Verwendung der obigen Techniken (z. B. Durchschnitt, Median usw.) zu berechnen.
  • Bei 1022 werden Vergleichs-Umfangswerte für die Dokumente zumindest teilweise auf der Grundlage der gesamtheitlichen Umfangswerte berechnet. Beispielsweise kann ein Vergleichs-Umfangswert für jedes zu analysierende Dokument basierend auf den gesamtheitlichen Umfangswerten der Dokumente berechnet werden. Wenn beispielsweise der gesamtheitliche Umfangswert auf dem Wertungswert eines einzelnen Dokumententeils (z. B. des am weitesten oder am engsten gefassten) basiert, vergleicht die Berechnung 1022 diesen Wertungswert mit dem Wertungswert des entsprechenden einzelnen Dokumententeils anderer Dokumente, die sich in der Analyse befinden. Wenn der gesamtheitliche Umfangswert auf der Bewertung mehrerer Dokumententeile basiert (z. B. als Durchschnitt dargestellt; eine gewichtete oder ungewichtete Zusammensetzung der Wertungswerte für den weitesten, den durchschnittlichen und den Bereichs-Wertungswert; oder als Einzelkomponenten-Wertungswert wie der weiteste, der durchschnittliche und der Bereichs-Wertungswert) vergleicht die Berechnung 1022 diesen Wertungswert oder Wertungswerte mit dem Wertungswert oder den Wertungswerten der entsprechenden mehreren Dokumententeile anderer Dokumente in der Analyse. In einigen Fällen entspricht der Vergleichs-Umfangswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Umfangswert enthalten, der dem gesamtheitlichen Umfangswert des Dokuments entspricht oder darunter liegt. In einigen Fällen entspricht der Vergleichs-Umfangswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Umfangswert enthalten, der unter dem gesamtheitlichen Umfangswert des Dokuments liegt. In einigen Fällen entspricht der Vergleichs-Umfangswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Umfangswert enthalten, der dem gesamtheitlichen Umfangswert des Dokuments entspricht oder darüber liegt. In noch einigen weiteren Fällen entspricht der Vergleichs-Umfangswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Umfangswert enthalten, der über dem gesamtheitlichen Umfangswert des Dokuments liegt.
  • Wenn der gesamtheitliche Umfangswert auf dem Wertungswert mehrerer Dokumententeile basiert und als Einzelkomponenten-Wertungswerte, wie z. B. Wertungswerte, die dem weitesten, dem durchschnittlichen und dem Bereichs-Wertungswert von Dokumententeilen zugeordnet sind, beibehalten wird, kann die Berechnung 1022 jeden dieser Wertungswerte mit den entsprechenden Wertungswerten von den mehreren Dokumententeilen anderer Dokumente innerhalb der Analyse vergleichen. Beispielsweise kann in einem Kontext, in dem die Dokumente Patente sind und die Teile Ansprüche sind, die Berechnung 1022 den Umfangswert des am weitesten gefassten Anspruchs in einem Patent mit dem Umfangswert der am weitesten gefassten Ansprüche in allen Patenten innerhalb der Landschaft vergleichen, wobei eine Rangordnung des Patents durch den weitesten Anspruch bereitgestellt wird. Die Berechnung 1022 kann ferner den durchschnittlichen Umfang der Patentansprüche mit dem durchschnittlichen Umfang der Patentansprüche in jedem der Patente innerhalb der Landschaft vergleichen, wobei eine Rangordnung des Patents nach der durchschnittlichen Patentanspruchsweite bereitgestellt wird. Die Berechnung 1022 kann ferner den Umfangsbereich der Patentansprüche mit dem Umfangsbereich der Patentansprüche in jedem der Patente innerhalb der Landschaft vergleichen, wobei eine Rangordnung des Patents nach dem Umfangsbereich der Patentansprüche bereitgestellt wird. Dann kann die Berechnung 1022 die Rangfolge jedes Komponenten-Wertungswerts gleich gewichten, um den endgültigen Umfangswert zu bestimmen. Ein solcher Ansatz basiert auf der Annahme, dass ein relativ weit gefasster Anspruch mit größerer Wahrscheinlichkeit potenziell verletzende Produkte umfasst, ein relativ hoher durchschnittlicher Anspruchsumfang diese Wahrscheinlichkeit für eine Reihe unabhängiger und abhängiger Ansprüche widerspiegelt und ein relativ großer Umfangsbereich spiegelt zumindest wider, dass einige Ansprüche mit größerer Wahrscheinlichkeit Einschränkungen enthalten, die die Realisierbarkeit potenzieller Herausforderungen für die Geltendmachung von Ansprüchen beeinträchtigen.
  • Bei 1024 wird eine UI erzeugt, die eine oder mehrere der Vergleichs-Umfangswerte enthält. Beispielsweise kann eine UI so erzeugt werden, dass ein Vergleichs-Umfangswert für eines der Dokumente in der Nähe der eindeutigen Dokumentidentifikationsnummer angezeigt wird, die diesem Dokument zugeordnet ist. Beispielsweise kann der Vergleichs-Umfangswert für ein Patent neben der Patentnummer angezeigt werden. In einigen Fällen kann die UI eine textuelle UI oder eine Befehlszeilenschnittstelle sein, die eine Textzeile anzeigt, die mindestens den Vergleichs-Umfangswert und die eindeutige Dokumentidentifikationsnummer enthält. In einigen Fällen kann die UI Informationen zu Dokumenten enthalten, um entweder ein bestimmtes Dokument hervorzuheben (z. B. eines mit dem höchsten Vergleichs-Umfangswert aller Dokumente im analysierten Korpus), und zwar aufgrund von Einschränkungen der Bildschirmfläche, z. B. auf Mobilgeräten, zur Minimierung des über ein Netzwerk übertragenen Datenvolumens oder aus anderen Gründen.
  • Aufgrund der Verarbeitungsleistungsfähigkeiten, die unter Verwendung einer automatischen computergestützten Analyse erhalten werden, wird in einigen Fällen das Erzeugen von Wörterzahlen bei 1004, das Identifizieren von referentiellen Wörterzahlen bei 1006, das Berechnen von Wörterzahl-Kennzahlen bei 1008, das Bestimmen von Wörterhäufigkeiten bei 1010, das Erzeugen von Häufigkeitswerten bei 1012, das Identifizieren von Referenz-Häufigkeitswerten bei 1014, das Berechnen von Häufigkeitswert-Kennzahlen bei 1016, das Berechnen der Umfangswerte bei 1018, das Berechnen der gesamtheitlichen Umfangswerte bei 1020 und das Berechnen der Vergleichs-Umfangswerte bei 1022 mit einer Geschwindigkeit durchgeführt, die viel schneller ist als durch menschliche Analyse erreicht werden kann. Diese Analyse kann beispielsweise mit einer Geschwindigkeit von mehr als einem Dokument pro Minute, mehr als einem Dokument pro 30 Sekunden, mehr als einem Dokument pro 10 Sekunden, oder mit einer anderen Geschwindigkeit ablaufen. Dies ist eine sehr viel höhere Geschwindigkeit als mit manueller menschlicher Analyse erreicht werden kann.
  • 11 ist ein Flussdiagramm, das ein beispielhaftes Verfahren 1100 zum automatischen Verarbeiten von Dokumenten zum Erzeugen einer UI darstellt, die Vergleichs-Teilewerte für die Dokumente darstellt. Bei 1102 werden Dokumente empfangen. Zum Beispiel können die Dokumente von einem oder mehreren Datenspeichern empfangen werden, wie zum Beispiel Datenspeicher 102. In einigen Fällen können die Dokumente Text entweder in computerlesbarer Form oder auf andere Weise enthalten, und jedem Dokument kann eine eindeutige Dokumentidentifikationsnummer zugeordnet sein. Diese eindeutige Dokumentenidentifikationsnummer kann genutzt werden, um das Dokument sowie beliebige Teilmengen des Dokuments zu kennzeichnen. Bei einigen Dokumenten, insbesondere Patentdokumenten, kann die eindeutige Dokumentidentifikationsnummer eine Patentnummer oder eine Veröffentlichungsnummer der Patentanmeldung sein. In manchen Fällen können die Dokumente lokal in einer Speichervorrichtung gespeichert sein, welche vom Datenspeicher, der die Dokumente bereitstellte, getrennt ist.
  • In einigen Fällen werden die Dokumente vorverarbeitet, um einen oder mehrere verarbeitete Dokumententeile für jedes der Dokumente zu erzeugen. Die Vorverarbeitung kann das gesamte oder einen Teil des in 8 beschriebenen Verfahrens 800 und/oder des in 9 beschriebenen Verfahrens 900 nutzen. Ein verarbeitetes Dokument kann sich zum Beispiel auf das Dokument nach der Vorverarbeitung beziehen. In einigen Fällen kann die Vorverarbeitung selbst ein Dokument in zwei oder mehr verarbeitete Dokumententeile aufteilen. Wenn beispielsweise Text analysiert wird, der Patentansprüche enthält, kann das Dokument an Stellen nach einem Punkt und vor einer Ziffer in Dokumententeile (z. B. einzelne Patentansprüche) unterteilt werden. In manchen Fällen ist jeder Teil des Dokuments mit der eindeutigen Dokumentenidentifikationsnummer des Quelldokuments verknüpft. Beispielsweise wäre jeder Patentanspruch eines Patents mit der Patentnummer verknüpft. Die verarbeiteten Dokumententeile enthalten einen Teil des Textes aus dem Quelldokument. Die spezifischen technischen Verfahrensweisen der Vorverarbeitung umfassen die Syntaxanalyse (Parsing) von Text, um Wörter zu separieren, wobei Stoppwörter, Wortduplikate und Satzzeichen entfernt werden. In einigen Fällen können einige oder alle Stoppwörter spezifisch für eine Dokumentklassifikation der Dokumente sein. Wenn beispielsweise alle Dokumente mit derselben Patentklassifikation verknüpft sind und es für jene Klassifikation spezifische Stoppwörter gibt, dann können jene spezifischen Stoppwörter anstelle von oder zusätzlich zu allgemeinen Stoppwörtern genutzt werden. In manchen Fällen kann die Vorverarbeitung zusätzliche technische Verfahrensweisen der Vorverarbeitung, wie beispielsweise das Ersetzen von Abkürzungen und/oder Akronymen mit den entsprechenden ganzen Wörtern, mit einschließen.
  • Bei 1104 werden Teilzählungen für die Dokumente erzeugt. Beispielsweise kann ein Wert, welcher der Anzahl der Dokumententeile innerhalb eines jeden der Dokumente entspricht, erzeugt werden. In manchen Fällen bezeichnet der Wert für ein Dokument jeden der im Dokument enthaltenen Dokumententeile. Zusätzlich oder alternativ bezeichnet der Wert für ein Dokument in manchen Fällen einen oder mehrere der im Dokument enthaltenen Dokumententeile. Wenn ein Dokument beispielsweise ein Patent enthält und die Dokumententeile innerhalb des Patents unabhängige Ansprüche und abhängige Ansprüche enthalten, kann der Wert die Anzahl der unabhängigen Ansprüche im Patent bezeichnen. Zwecks eines weiteren Beispiels und erneut: wenn ein Dokument beispielsweise ein Patent enthält und die Dokumententeile innerhalb des Patents unabhängige Ansprüche und abhängige Ansprüche enthalten, kann der Wert den am weitesten gefassten unabhängigen Anspruch sowie jeden der abhängigen Ansprüche, die vom am weitesten gefassten unabhängigen Anspruch abhängig sind, bezeichnen.
  • Bei 1106 werden die gesamtheitlichen Teilezählwerte für die Dokumente berechnet. Ein gesamtheitlicher Teilezählwert kann zum Beispiel für jedes Dokument basierend auf den jeweiligen Teileanzahlen für das jeweilige Dokument berechnet werden. In manchen Fällen enthält der gesamtheitliche Teilezählwert für ein Dokument den wie bei 804 berechneten Wert. Zusätzlich oder alternativ kann in manchen Fällen einem oder mehreren der Dokumententeile mehr Gewicht zugewiesen werden, wenn die gesamtheitlichen Teilezählwerte für die Dokumente berechnet werden. Wenn die Dokumente zum Beispiel Patente enthalten, kann den unabhängigen Ansprüchen mehr Gewicht als den abhängigen Ansprüchen zugewiesen werden, wenn die gesamtheitlichen Teilezählwerte berechnet werden. Wenn beispielsweise unabhängigen Ansprüchen vier Mal so viel Gewicht wie abhängigen Ansprüchen zugewiesen wird und ein Patent drei unabhängige Ansprüche und siebzehn abhängige Ansprüche enthält, enthält der gesamtheitliche Teilezählwert neunundzwanzig (z. B. (3 * 4) + 17 = 29). Eine beispielhafte Gleichung zum Berechnen der gesamtheitlichen Teilezählwerte für Patente und/oder gedruckte Publikationen kann wie folgt aussehen: G e s a m t h e i t l i c h e r   T e i l e z ä h l w e r t = I T ( w 1 ) + D T ( w 2 )
    Figure DE112018002047T5_0003
    Wie dargestellt, kann der gesamtheitliche Teilezählwert für ein Patent eine Anzahl von unabhängigen Ansprüchen (IT) mal einer unabhängigen Ansprüchen zugeordneten ersten Gewichtung ((w1)) zuzüglich einer Anzahl von abhängigen Ansprüchen (DT) mal einer abhängigen Ansprüchen zugeordneten zweiten Gewichtung ((w2)) enthalten.
  • Bei 1108 werden Vergleichs-Teilezählwerte für die Dokumente, zumindest teilweise auf den gesamtheitlichen Teilezählwerten basierend, berechnet. Ein Vergleichs-Teilezählwert für ein Dokument kann zum Beispiel durch Vergleichen des gesamtheitlichen Teilezählwerts für das Dokument mit den gesamtheitlichen Teilezählwerten der weiteren der Analyse unterzogenen Dokumente bestimmt werden. In manchen Fällen entspricht der Vergleichs-Teilezählwert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Teilezählwert enthalten, der gleich oder kleiner als der gesamtheitliche Teilezählwert des Dokuments ist. In manchen Fällen entspricht der Vergleichs-Teilezählwert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Teilezählwert enthalten, der kleiner als der gesamtheitliche Teilezählwert des Dokuments ist. In manchen Fällen entspricht der Vergleichs-Teilezählwert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Teilezählwert enthalten, der gleich wie oder größer als der gesamtheitliche Teilezählwert des Dokuments ist. Weiterhin entspricht in manchen Fällen der Vergleichs-Teilezählwert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Teilezählwert enthalten, der größer als der gesamtheitliche Teilezählwert des Dokuments ist.
  • Bei 1110 wird eine UI erzeugt, die ein oder mehrere Vergleichs-Teilezählwerte umfasst. Eine UI kann zum Beispiel dergestalt erzeugt werden, dass ein Vergleichs-Teilezählwert für eines der Dokumente in der Nähe der mit jenem Dokument verknüpften eindeutigen Dokumentenidentifikationsnummer angezeigt wird. Der Vergleichs-Teilezählwert für ein Patent kann beispielsweise neben der Patentnummer angezeigt werden. In manchen Fällen kann die UI eine textuelle UI oder eine Befehlszeilenschnittstelle sein, welche eine Textzeile anzeigt, die mindestens den Vergleichs-Teilezählwert und die eindeutige Dokumentenidentifikationsnummer umfasst. In manchen Fällen kann die UI Informationen zu Dokumenten enthalten, um entweder ein bestimmtes Dokument hervorzuheben (z. B. eines das von allen Dokumenten im analysierten Korpus einen höchsten Vergleichs-Teilezählwert aufweist), bedingt durch Begrenzungen des verfügbaren Platzes auf dem Bildschirm, wie beispielsweise auf Mobilgeräten, um eine über ein Netzwerk übertragene Datenmenge zu minimieren, oder aus anderen Gründen.
  • Bedingt durch die durch Nutzung automatischer computerbasierter Analyse erlangten Verarbeitungsleistungsfähigkeiten werden in manchen Fällen das Erzeugen von Teileanzahlen bei 1104, das Berechnen gesamtheitlicher Teilezählwerte bei 1106, sowie das Berechnen der Vergleichs-Teilezählwerte bei 1108 mit einer sehr viel höheren Geschwindigkeit durchgeführt als mit menschlicher Analyse erreicht werden kann. Diese Analyse kann beispielsweise mit einer Geschwindigkeit von mehr als einem Dokument pro Minute, mehr als einem Dokument pro 30 Sekunden, mehr als einem Dokument pro 10 Sekunden, oder mit einer anderen Geschwindigkeit ablaufen. Dies ist eine sehr viel höhere Geschwindigkeit als mit manueller menschlicher Analyse erreicht werden kann.
  • 12 ist ein Ablaufdiagramm, welches ein beispielhaftes Verfahren 1200 der automatischen Dokumentenverarbeitung zum Generieren einer UI, die Vergleichs-Differenzierungswerte für die Dokumente veranschaulicht, bildlich darstellt. Bei 1202 werden Dokumente empfangen. Zum Beispiel können die Dokumente von einem oder mehreren Datenspeichern empfangen werden, wie zum Beispiel Datenspeicher 102. In einigen Fällen können die Dokumente Text entweder in computerlesbarer Form oder auf andere Weise enthalten, und jedem Dokument kann eine eindeutige Dokumentidentifikationsnummer zugeordnet sein. Diese eindeutige Dokumentenidentifikationsnummer kann genutzt werden, um das Dokument sowie beliebige Teilmengen des Dokuments zu kennzeichnen. Bei einigen Dokumenten, insbesondere Patentdokumenten, kann die eindeutige Dokumentidentifikationsnummer eine Patentnummer oder eine Veröffentlichungsnummer der Patentanmeldung sein. In manchen Fällen können die Dokumente lokal in einer Speichervorrichtung gespeichert sein, welche vom Datenspeicher, der die Dokumente bereitstellte, getrennt ist.
  • In einigen Fällen werden die Dokumente vorverarbeitet, um einen oder mehrere verarbeitete Dokumententeile für jedes der Dokumente zu erzeugen. Die Vorverarbeitung kann das gesamte oder einen Teil des in 8 beschriebenen Verfahrens 800 und/oder des in 9 beschriebenen Verfahrens 900 nutzen. Ein verarbeitetes Dokument kann sich zum Beispiel auf das Dokument nach der Vorverarbeitung beziehen. In einigen Fällen kann die Vorverarbeitung selbst ein Dokument in zwei oder mehr verarbeitete Dokumententeile aufteilen. Wenn beispielsweise Text analysiert wird, der Patentansprüche enthält, kann das Dokument an Stellen nach einem Punkt und vor einer Ziffer in Dokumententeile (z. B. einzelne Patentansprüche) unterteilt werden. In manchen Fällen ist jeder Teil des Dokuments mit der eindeutigen Dokumentenidentifikationsnummer des Quelldokuments verknüpft. Beispielsweise wäre jeder Patentanspruch eines Patents mit der Patentnummer verknüpft. Die verarbeiteten Dokumententeile enthalten einen Teil des Textes aus dem Quelldokument. Die spezifischen technischen Verfahrensweisen der Vorverarbeitung umfassen die Syntaxanalyse (Parsing) von Text, um Wörter zu separieren, wobei Stoppwörter, Wortduplikate und Satzzeichen entfernt werden. In einigen Fällen können einige oder alle Stoppwörter spezifisch für eine Dokumentklassifikation der Dokumente sein. Wenn beispielsweise alle Dokumente mit derselben Patentklassifikation verknüpft sind und es für jene Klassifikation spezifische Stoppwörter gibt, dann können jene spezifischen Stoppwörter anstelle von oder zusätzlich zu allgemeinen Stoppwörtern genutzt werden. In manchen Fällen kann die Vorverarbeitung zusätzliche technische Verfahrensweisen der Vorverarbeitung, wie beispielsweise das Ersetzen von Abkürzungen und/oder Akronymen mit den entsprechenden ganzen Wörtern, mit einschließen.
  • Bei 1204 werden Wörteranzahlen für Dokumententeile eines Dokuments erzeugt. Eine Wörterzahl für jeden Dokumententeil eines Dokuments kann erzeugt werden, indem eine Anzahl separater Wörter in den jeweiligen Dokumententeilen gezählt wird. In manchen Fällen kann dies nach der Vorverarbeitung durchgeführt werden, so dass Stoppwörter und Wortduplikate von der Zählung ausgenommen sind. Eine Wortzählung, die nach dem Entfernen von Wortduplikaten durchgeführt wird, wird als Wortzählung einzigartiger Wörter bezeichnet. In manchen Fällen ist die für jeden einbezogenen Dokumententeil (z. B. Patentanspruch) erzeugte Wörterzahl eine Ganzzahl (z. B. eins, zwei, drei usw.).
  • Bei 1206 werden ein oder mehrere Wörter in den Dokumententeilen des Dokuments bestimmt. Zum Beispiel kann jedes der Wörter, die in Schritt 1204 gezählt werden, für jeden Dokumententeil des Dokuments bestimmt werden. Wenn ein Dokumententeil beispielsweise „audio signal representing sound“ („Audiosignal, welches Ton repräsentiert“) wiedergibt, kann jedes von „audio“, „signal“, „representing“ und „sound“ für den Dokumententeil bestimmt werden. In manchen Fällen kann dies nach der Vorverarbeitung durchgeführt werden, so dass Stoppwörter und Wortduplikate von der Bestimmung ausgenommen sind. Eine nach der Entfernung von Wortduplikaten durchgeführte Erkennung wird als Bestimmung einzigartiger Wörter bezeichnet.
  • Bei 1208 werden Unterschiede zwischen einem oder mehreren Wörtern in einem Dokumententeil und einem oder mehreren Wörtern in mindestens einem anderen Dokumententeil bestimmt. Zum Beispiel können die für einen Dokumententeil bestimmten Wörter mit den für mindestens einen anderen Dokumententeil bestimmten Wörtern verglichen werden. In manchen Fällen umfasst das Vergleichen das Bestimmen einer Anzahl von Wörtern von dem Dokumententeil, die in dem mindestens einen anderen Dokumententeil enthalten sind, und/oder das Bestimmen der Anzahl der Wörter vom Dokumententeil, die in dem mindestens einen anderen Dokumententeil nicht enthalten sind. Beispielsweise, und das vorstehende Beispiel verwendend, in dem der Dokumententeil „audio signal representing sound“ wiedergibt, kann das Vergleichen das Bestimmen umfassen, dass die zwei Wörter „audio“ und „signal“ in dem mindestens einen anderen Dokumententeil enthalten sind, jedoch die zwei Wörter „representing“ und „sound“ in dem mindestens einen anderen Dokumententeil nicht enthalten sind.
  • In manchen Fällen, wenn das Dokument ein Patent und/oder eine veröffentlichte Patentanmeldung enthält, kann das Vergleichen der Unterschiede zwischen einem oder mehreren Wörtern in einem Anspruch mit einem oder mehreren Wörtern in mindestens einem anderen Anspruch das Vergleichen von Unterschieden zwischen einem oder mehreren Wörtern in einem abhängigen Anspruch mit einem oder mehreren Wörtern in einem unabhängigen Anspruch umfassen. Ein abhängiger Anspruch kann beispielsweise mit dem unabhängigen Anspruch, von dem er abhängig ist, verglichen werden. Als weiteres Beispiel kann ein abhängiger Anspruch sowohl mit einem unabhängigen Anspruch als auch jedem dazwischenliegenden Anspruch/beliebigen dazwischenliegenden Ansprüchen, von dem/denen der abhängige Anspruch abhängig ist, verglichen werden. Weiterhin, als ein drittes Beispiel, kann ein abhängiger Anspruch mit dem am weitesten gefassten unabhängigen Anspruch innerhalb des Patents und/oder der veröffentlichten Patentanmeldung verglichen werden. Zusätzlich oder alternativ kann in manchen Fällen das Vergleichen der Unterschiede zwischen einem oder mehreren Wörtern in einem Anspruch mit einem oder mehreren Wörtern in mindestens einem anderen Anspruch das Vergleichen von Unterschieden zwischen einem oder mehreren Wörtern in einem unabhängigen Anspruch mit einem oder mehreren Wörtern in mindestens einem anderen unabhängigen Anspruch umfassen. Beispielsweise kann ein enger gefasster unabhängiger Anspruch (z. B. ein unabhängiger Anspruch mit einem Umfangswert, der kleiner ist als der Umfangswert des am weitesten gefassten unabhängigen Anspruchs) mit dem am weitesten gefassten unabhängigen Anspruch im Patent und/oder in der veröffentlichten Patentanmeldung verglichen werden.
  • Bei 1210 wird für den Dokumententeil ein Differenzierungswert berechnet. Ein Differenzierungswert kann zum Beispiel für den Dokumententeil mittels der Wörterzahl für den Dokumententeil und den ermittelten Wortunterschieden für den Dokumententeil berechnet werden. In manchen Fällen kann der Differenzierungswert einer Einzigartigkeit entsprechen, in welcher Wörter im Dokumententeil sich von Wörtern in dem mindestens einen anderen Teil unterscheiden. Beispielsweise, und das vorstehende Beispiel verwendend, in dem der Vergleich bestimmte, dass die zwei Wörter „audio“ und „signal“ in dem mindestens einen anderen Dokumententeil enthalten sind, jedoch die zwei Wörter „representing“ und „sound“ in dem mindestens einen anderen Dokumententeil nicht enthalten sind, kann der Differenzierungswert für den Dokumententeil 2 von 4 Wörtern oder 50 % enthalten. Eine beispielhafte Gleichung, die zum Bestimmen des Differenzierungswerts für einen Dokumententeil verwendet werden kann, kann folgendermaßen aussehen: D i f f e r e n z i e r u n g s w e r t = W U / w c
    Figure DE112018002047T5_0004
    Wie dargestellt, kann der Differenzierungswert für ein Patent eine Anzahl von seltenen Wörtern (WU)), die in dem Dokumententeil enthalten sind, geteilt durch die Wörterzahl (wc) für den Dokumententeil, umfassen.
  • Bei 1212 wird bestimmt, ob im Dokument irgendwelche weiteren Dokumententeile vorhanden sind, die zu analysieren sind. Falls bestimmt wird, dass ein weiterer Dokumententeil zu analysieren ist (d. h. „Ja“), kehrt das Verfahren 1200 zwecks Wiederholung für den weiteren Dokumententeil zu Schritt 1208 zurück. In manchen Fällen wird ein jeweiliger Differenzierungswert für jeden Dokumententeil in einem Dokument berechnet. In manchen Fällen wird ein jeweiliger Differenzierungswert für jeden der ein oder mehreren ausgewählten Dokumententeile in einem Dokument berechnet. Wenn beispielsweise ein Dokument ein Patent und/oder eine veröffentlichte Patentanmeldung enthält, können Differenzierungswerte für den am weitesten gefassten unabhängigen Anspruch und jeden der abhängigen Ansprüche, die von dem am weitesten gefassten unabhängigen Anspruch abhängig sind, berechnet werden. Als weiteres Beispiel, und erneut: wenn das Dokument ein Patent und/oder eine veröffentlichte Patentanmeldung enthält, kann ein jeweiliger Differenzierungswert für jeden der unabhängigen Ansprüche berechnet werden.
  • Falls bei 1212 bestimmt wird, dass kein weiterer Dokumententeil zu analysieren ist (d. h. „Nein“), macht das Verfahren 1200 mit 1214 weiter. Bei 1214 wird ein gesamtheitlicher Differenzierungswert für das Dokument berechnet. Ein gesamtheitlicher Differenzierungswert kann für ein Dokument mittels eines oder mehrerer der Differenzierungswerte für einen oder mehrere der Dokumententeile berechnet werden. In manchen Fällen umfasst das Berechnen des gesamtheitlichen Differenzierungswerts für ein Dokument das Berechnen eines Durchschnitts der ein oder mehreren Differenzierungswerte. Der gesamtheitliche Differenzierungswert kann den Durchschnitt der jeweiligen Differenzierungswerte von jedem Dokumententeil innerhalb des Dokuments mit einschließen. In manchen Fällen umfasst das Berechnen eines gesamtheitlichen Differenzierungswerts für ein Dokument das Ermitteln des höchsten, des niedrigsten, des Medians oder dergleichen von den ein oder mehreren Differenzierungswerten.
  • In manchen Fällen, wenn ein Dokument ein Patent und/oder eine veröffentlichte Patentanmeldung enthält, können andere Verfahrensweisen genutzt werden, um den gesamtheitlichen Differenzierungswert für das Patent und/oder die veröffentlichte Patentanmeldung zu berechnen. Wenn beispielsweise ein Dokument ein Patent enthält, kann der gesamtheitliche Differenzierungswert für das Patent einen Durchschnitt des jeweiligen Differenzierungswerts/der jeweiligen Differenzierungswerte von jedem der abhängigen Ansprüche, der eine Abhängigkeit vom am weitesten gefassten unabhängigen Anspruch innerhalb des Patents enthält, enthalten. Als ein zweites Beispiel, und erneut: falls ein Dokument ein Patent ist, kann der gesamtheitliche Differenzierungswert für das Patent einen Durchschnitt des jeweiligen Differenzierungswerts/der jeweiligen Differenzierungswerte von jedem unabhängigen Anspruch, der den am weitesten gefassten unabhängigen Anspruch nicht einschließt, enthalten.
  • Als ein drittes Beispiel, und erneut: falls ein Dokument ein Patent ist, kann der gesamtheitliche Differenzierungswert einen kombinierten Differenzierungswert für jeden der abhängigen Ansprüche, der von einem gegebenen unabhängigen Anspruch abhängt, enthalten. Zum Beispiel kann der gesamtheitliche Differenzierungswert berechnet werden basierend auf einer Gesamtzahl der Wörter innerhalb von abhängigen Ansprüchen, die von einem am weitesten gefassten unabhängigen Anspruch abhängen, und einer Einzigartigkeit der Wörter innerhalb der abhängigen Ansprüche, verglichen mit dem am weitesten gefassten unabhängigen Anspruch, wobei die vorstehend beschriebenen Verfahren genutzt werden.
  • Bei 1216 wird bestimmt, ob irgendwelche weiteren Dokumente vorhanden sind, die analysiert werden müssen. Falls bestimmt wird, dass ein weiteres Dokument zu analysieren ist (d. h. „Ja“), kehrt das Verfahren 1200 zwecks Wiederholung für das weitere Dokument zu Schritt 1204 zurück. Zum Beispiel werden Wörterzahlen für die Dokumententeile des weiteren Dokuments bei 1204 erzeugt, bei 1206 werden ein oder mehrere Wörter für die Dokumententeile bestimmt, Unterschiede zwischen dem einen oder mehreren Wörtern in einem Dokumententeil und einem oder mehreren Wörtern in mindestens einem anderen Dokumententeil werden bei 1208 bestimmt, jeweilige Differenzierungswerte werden bei 1210 für die Dokumententeile berechnet, und ein gesamtheitlicher Differenzierungswert wird bei 1214 für das weitere Dokument berechnet.
  • Falls bei 1216 bestimmt wird, dass kein weiteres Dokument zu analysieren ist (d. h. „Nein“), macht das Verfahren 1200 mit 1218 weiter. Bei 1218 werden Vergleichs-Differenzierungswerte für die Dokumente, zumindest teilweise auf den gesamtheitlichen Differenzierungswerten basierend, berechnet. Ein Differenzierungswert für ein Dokument kann zum Beispiel durch Vergleichen des gesamtheitlichen Differenzierungswerts für das Dokument mit den gesamtheitlichen Differenzierungswerten der weiteren, der Analyse unterzogenen Dokumente, bestimmt werden. In einigen Fällen entspricht der Vergleichs-Differenzierungswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Differenzierungswert enthalten, der gleich wie oder kleiner als der gesamtheitliche Differenzierungswert des Dokuments ist. In einigen Fällen entspricht der Vergleichs-Differenzierungswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Differenzierungswert enthalten, der kleiner als der gesamtheitliche Differenzierungswert des Dokuments ist. In einigen Fällen entspricht der Vergleichs-Differenzierungswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Differenzierungswert enthalten, der gleich wie oder größer als der gesamtheitliche Differenzierungswert des Dokuments ist. Weiterhin entspricht in manchen Fällen der Vergleichs-Differenzierungswert für ein Dokument dem Prozentsatz der Dokumente, die einen gesamtheitlichen Differenzierungswert enthalten, der größer als der gesamtheitliche Differenzierungswert des Dokuments ist.
  • Bei 1220 wird eine UI erzeugt, die ein oder mehrere Vergleichs-Differenzierungswerte umfasst. Eine UI kann zum Beispiel dergestalt erzeugt werden, dass ein Vergleichs-Differenzierungswert für eines der Dokumente in der Nähe der mit jenem Dokument verknüpften eindeutigen Dokumentenidentifikationsnummer angezeigt wird. Der Vergleichs-Differenzierungswert für ein Patent kann beispielsweise neben der Patentnummer angezeigt werden. In manchen Fällen kann die UI eine textuelle UI oder eine Befehlszeilenschnittstelle sein, welche eine Textzeile anzeigt, die mindestens den Vergleichs-Differenzierungswert und die eindeutige Dokumentenidentifikationsnummer umfasst. In manchen Fällen kann die UI Informationen zu Dokumenten enthalten, um entweder ein bestimmtes Dokument hervorzuheben (z. B. eines das von allen Dokumenten im analysierten Korpus einen höchsten Vergleichs-Differenzierungswert aufweist), bedingt durch Begrenzungen des verfügbaren Platzes auf dem Bildschirm, wie beispielsweise auf Mobilgeräten, um eine über ein Netzwerk übertragene Datenmenge zu minimieren, oder aus anderen Gründen.
  • Obgleich die vorstehenden Schritte 1204-1216 die Differenzierung zwischen einem oder mehreren Teilen und endgültige Differenzierungswerte basierend auf Wortanalyse innerhalb des Dokuments selbst beschreiben, können in manchen Fällen die Differenzierung zwischen einem oder mehreren Teilen und endgültige Differenzierungswerte basierend auf dem Differenzierungs-„Fußabdruck“ der ein oder mehreren Teile bezüglich einer Gesamtheit des Genstands des Korpus von Dokumenten bestimmt werden. Zum Beispiel kann ein Korpus von Wörtern basierend auf Wörtern innerhalb des Korpus von Dokumenten erzeugt werden. Bei Nutzung des Korpus von Wörtern kann einem oder mehreren Dokumententeilen durch Vergleichen von Wörtern innerhalb der ein oder mehreren Dokumententeile ein Teil-Differenzierungswert zugeordnet werden. In manchen Fällen kann die Anzahl einzigartiger Wörter in dem Teil bestimmt werden, der als den weitestgehenden gesamtheitlichen Umfangswert aufweisend bestimmt ist. Für jeden zusätzlichen Dokumententeil kann die Anzahl einzigartiger Wörter bestimmt werden, die nicht in dem Teil, welcher den weitestgehenden gesamtheitlichen Umfangswert aufweist, enthalten sind. In einem weiteren Beispiel kann die Anzahl von Wörtern bestimmt werden, die in jenem bestimmten Teil enthalten und nicht in irgendeinem anderen Teil enthalten sind. In manchen Fällen wird dann die Anzahl einzigartiger Wörter, die jedem Teil zugeordnet ist, als ein Prozentsatz der einzigartigen Wörter innerhalb des Korpus von Wörtern in den entsprechenden Dokumenten ausgedrückt. Wenn beispielsweise das Korpus von Wörtern in den relevanten Dokumenten 10.000 einzigartige Wörter enthält und ein gegebener Dokumententeil (z. B. ein unabhängiger Anspruch) 20 einzigartige Wörter enthält, die sich innerhalb des Korpus von 10.000 einzigartigen Wörtern befinden, dann beträgt der Prozentsatz für den gegebenen Dokumententeil 0,002 %. Wenn ein zweiter Dokumententeil (z. B. ein unabhängiger Anspruch) auch 20 einzigartige Wörter enthält, die sich sowohl innerhalb des Korpus von 10.000 einzigartigen Wörtern als auch ausschließlich der Wörter im ersten (oder in einem anderen zuvor verarbeiteten) Dokumententeil befinden, dann beträgt der Prozentsatz für den zweiten Dokumententeil ebenfalls 0,002 %.
  • Die gesamtheitliche Differenzierungsberechnung kann dann durch Summieren des Kehrwerts jedes Prozentsatzes für eine Differenzierungsberechnung von 1000 (1/0,002 + 1/0,002) bestimmt werden, wobei Teilen mit einem relativ kleinen Prozentsatz der einzigartigen Wörter des Korpus mehr Gewicht zugewiesen wird. In anderen Fällen könnte der Kehrwert von eins minus dem Prozentsatz für jeden Teil summiert werden (d. h. 1/(1-0,002) + 1/(1-0,002) = 2,004), wobei Teilen mit einem relativ großen Prozentsatz der einzigartigen Wörter des Korpus mehr Gewicht zugewiesen wird. In anderen Fällen könnte der Kehrwert des Prozentsatzes für den weitreichendsten Teil genutzt werden und der Kehrwert von eins minus dem Prozentsatz könnte für alle anderen Teile genutzt werden. In noch anderen Fällen könnte die Summation nach weiterer Gewichtung bezüglich des Beitrags einzelner Teile (z. B. im Kontext von Patentschriften das stärkere Gewichten des Beitrags von unabhängigen Ansprüchen gegenüber dem Beitrag von abhängigen Ansprüchen) vorgenommen werden. Auf diese Weise weist ein Dokument mit vielen Dokumententeilen, welche einzigartige Wörter aufweisen, die in keinem anderen Teil innerhalb des Dokuments vorkommen, einen relativ hohen gesamtheitlichen Differenzierungswert auf.
  • Nach dem Bestimmen der gesamtheitlichen Differenzierungswerte können sodann die Schritte 1218 und 1220 ausgeführt werden. Zum Beispiel werden bei 1218 Vergleichs-Differenzierungswerte für die Dokumente, zumindest teilweise auf den gesamtheitlichen Differenzierungswerten basierend, berechnet. Ein Differenzierungswert für ein Dokument kann zum Beispiel durch Vergleichen des gesamtheitlichen Differenzierungswerts für das Dokument mit den gesamtheitlichen Differenzierungswerten der weiteren, der Analyse unterzogenen Dokumente, bestimmt werden. Bei 1220 wird eine UI erzeugt, die ein oder mehrere Vergleichs-Differenzierungswerte umfasst. Eine UI kann zum Beispiel dergestalt erzeugt werden, dass ein Vergleichs-Differenzierungswert für eines der Dokumente in der Nähe der mit jenem Dokument verknüpften eindeutigen Dokumentenidentifikationsnummer angezeigt wird.
  • Bedingt durch die durch Nutzung automatischer computerbasierter Analyse erlangten Verarbeitungsleistungsfähigkeiten werden in manchen Fällen das Erzeugen der Wörterzahl bei 1204, das Bestimmen der ein oder mehreren Wörter bei 1206, das Bestimmen der Differenzen bei 1208, das Berechnen der Differenzierungswerte bei 1210, das Berechnen des gesamtheitlichen Differenzierungswerts bei 1214 sowie das Berechnen der Vergleichs-Differenzierungswerte bei 1218 mit einer sehr viel höheren Geschwindigkeit durchgeführt als mit menschlicher Analyse erreicht werden kann. Diese Analyse kann beispielsweise mit einer Geschwindigkeit von mehr als einem Dokument pro Minute, mehr als einem Dokument pro 30 Sekunden, mehr als einem Dokument pro 10 Sekunden, oder mit einer anderen Geschwindigkeit ablaufen. Dies ist eine sehr viel höhere Geschwindigkeit als mit manueller menschlicher Analyse erreicht werden kann.
  • 13 ist ein Ablaufdiagramm, welches ein beispielhaftes Verfahren 1300 der automatischen Dokumentenverarbeitung zum Generieren einer UI, die Vergleichs-Reichweitenwerte für die Dokumente veranschaulicht, bildlich darstellt. Bei 1302 werden Dokumente empfangen. Zum Beispiel können die Dokumente von einem oder mehreren Datenspeichern empfangen werden, wie zum Beispiel Datenspeicher 102. In einigen Fällen können die Dokumente Text entweder in computerlesbarer Form oder auf andere Weise enthalten, und jedem Dokument kann eine eindeutige Dokumentidentifikationsnummer zugeordnet sein. Diese eindeutige Dokumentenidentifikationsnummer kann genutzt werden, um das Dokument sowie beliebige Teilmengen des Dokuments zu kennzeichnen. Bei einigen Dokumenten, insbesondere Patentdokumenten, kann die eindeutige Dokumentidentifikationsnummer eine Patentnummer oder eine Veröffentlichungsnummer der Patentanmeldung sein. In manchen Fällen können die Dokumente lokal in einer Speichervorrichtung gespeichert sein, welche vom Datenspeicher, der die Dokumente bereitstellte, getrennt ist.
  • In einigen Fällen werden die Dokumente vorverarbeitet, um einen oder mehrere verarbeitete Dokumententeile für jedes der Dokumente zu erzeugen. Die Vorverarbeitung kann das gesamte oder einen Teil des in 8 beschriebenen Verfahrens 800 und/oder des in 9 beschriebenen Verfahrens 900 nutzen. Ein verarbeitetes Dokument kann sich zum Beispiel auf das Dokument nach der Vorverarbeitung beziehen. In einigen Fällen kann die Vorverarbeitung selbst ein Dokument in zwei oder mehr verarbeitete Dokumententeile aufteilen. Wenn beispielsweise Text analysiert wird, der Patentansprüche enthält, kann das Dokument an Stellen nach einem Punkt und vor einer Ziffer in Dokumententeile (z. B. einzelne Patentansprüche) unterteilt werden. In manchen Fällen ist jeder Teil des Dokuments mit der eindeutigen Dokumentenidentifikationsnummer des Quelldokuments verknüpft. Beispielsweise wäre jeder Patentanspruch eines Patents mit der Patentnummer verknüpft. Die verarbeiteten Dokumententeile enthalten einen Teil des Textes aus dem Quelldokument. Die spezifischen technischen Verfahrensweisen der Vorverarbeitung umfassen die Syntaxanalyse (Parsing) von Text, um Wörter zu separieren, wobei Stoppwörter, Wortduplikate und Satzzeichen entfernt werden. In einigen Fällen können einige oder alle Stoppwörter spezifisch für eine Dokumentklassifikation der Dokumente sein. Wenn beispielsweise alle Dokumente mit derselben Patentklassifikation verknüpft sind und es für jene Klassifikation spezifische Stoppwörter gibt, dann können jene spezifischen Stoppwörter anstelle von oder zusätzlich zu allgemeinen Stoppwörtern genutzt werden. In manchen Fällen kann die Vorverarbeitung zusätzliche technische Verfahrensweisen der Vorverarbeitung, wie beispielsweise das Ersetzen von Abkürzungen und/oder Akronymen mit den entsprechenden ganzen Wörtern, mit einschließen.
  • Bei 1304 werden Vergleichs-Umfangswerte, Vergleichs-Teilezählwerte und Vergleichs-Differenzierungswerte für die Dokumente erzeugt. Zum Beispiel können die Dokumente in einigen Beispielen mittels des Verfahrens 1000 analysiert werden, um die Vergleichs-Umfangswerte für die Dokumente zu erzeugen, die Dokumente können mittels des Verfahrens 1100 analysiert werden, um die Vergleichs-Teilezählwerte für die Dokumente zu erzeugen, und die Dokumente können mittels des Verfahrens 1200 analysiert werden, um die Vergleichs-Differenzierungswerte für die Dokumente zu erzeugen. Zusätzlich oder alternativ können in manchen Fällen die Vergleichs-Umfangswerte, die Vergleichs-Teilezählwerte und die Vergleichs-Differenzierungswerte von einer oder mehreren externen Quellen empfangen werden. Zum Beispiel können die Vergleichs-Umfangswerte, die Vergleichs-Teilezählwerte und die Vergleichs-Differenzierungswerte von einem oder mehreren Computer-Geräten empfangen werden.
  • Bei 1306 werden die Vergleichs-Reichweitenwerte für die Dokumente berechnet. Vergleichs-Reichweitenwerte können zum Beispiel für jedes Dokument berechnet werden, wobei für ein jeweiliges Dokument der Vergleichs-Umfangswert, der Vergleichs-Teilezählwert und der Vergleichs-Differenzierungswert genutzt werden. In manchen Fällen kann das Berechnen des Vergleichs-Reichweitenwerts für ein Dokument das Berechnen des Durchschnitts des Vergleichs-Umfangswerts, des Vergleichs-Teilezählwerts und des Vergleichs-Differenzierungswerts umfassen. In manchen Fällen kann das Berechnen des Vergleichs-Reichweitenwerts für ein Dokument das Ermitteln des höchsten, des niedrigsten, des Medians oder dergleichen vom Vergleichs-Umfangswert, vom Vergleichs-Teilezählwert und vom Vergleichs-Differenzierungswert für das Dokument umfassen.
  • Weiterhin können in manchen Fällen einem oder mehreren Vergleichs-Umfangswerten, Vergleichs-Teilezählwerten und Vergleichs-Differenzierungswerten eine höhere Gewichtung zugewiesen werden, wenn die Vergleichs-Reichweitenwerte für die Dokumente berechnet werden. Zum Beispiel können die Vergleichs-Reichweitenwerte für die Dokumente mit der folgenden Formel berechnet werden: V e r g l e i c h s R e i c h w e i t e n w e r t = w 1 ( B F ) + w 2 ( P F ) + w 3 ( D F ) 3
    Figure DE112018002047T5_0005
    In der vorstehenden Gleichung umfasst der Vergleichs-Reichweitenwert für ein Dokument eine erste Gewichtung (W1) mal dem Vergleichs-Umfangswert (BF) des Dokuments plus einer zweiten Gewichtung (W2) mal dem Vergleichs-Teilezählwert (PF) des Dokuments plus einer dritten Gewichtung (W3) mal dem Vergleichs-Differenzierungswert (DF) des Dokuments, geteilt durch drei. In manchen Fällen können ein oder mehrere von erster Gewichtung (H1), von zweiter Gewichtung (W2) oder von dritter Gewichtung (W3) einen ähnlichen Wert enthalten. Zusätzlich oder alternativ kann in manchen Fällen jede von erster Gewichtung (W1), von zweiter Gewichtung (W2) oder von dritter Gewichtung (W3) einen einzigartigen Wert enthalten.
  • Bei 1308 wird eine UI erzeugt, die ein oder mehrere Vergleichs-Reichweitenwerte umfasst. Eine UI kann zum Beispiel dergestalt erzeugt werden, dass ein Vergleichs-Reichweitenwert für eines der Dokumente in der Nähe der mit jenem Dokument verknüpften eindeutigen Dokumentenidentifikationsnummer angezeigt wird. Der Vergleichs-Reichweitenwert für ein Patent kann beispielsweise neben der Patentnummer angezeigt werden. In manchen Fällen kann die UI eine textuelle UI oder eine Befehlszeilenschnittstelle sein, welche eine Textzeile anzeigt, die mindestens den Vergleichs-Reichweitenwert und die eindeutige Dokumentenidentifikationsnummer umfasst. In manchen Fällen kann die UI Informationen zu Dokumenten enthalten, um entweder ein bestimmtes Dokument hervorzuheben (z. B. eines das von allen Dokumenten im analysierten Korpus einen höchsten Vergleichs-Reichweitenwert aufweist), bedingt durch Begrenzungen des verfügbaren Platzes auf dem Bildschirm, wie beispielsweise auf Mobilgeräten, um eine über ein Netzwerk übertragene Datenmenge zu minimieren, oder aus anderen Gründen.
  • 14 ist ein Ablaufdiagramm, das ein erstes beispielhaftes Verfahren 1400 für die automatische Dokumentenverarbeitung zum Erzeugen einer Benutzeroberfläche, die Risikowerte anzeigt, veranschaulicht. Bei 1402 werden Dokumente empfangen. Zum Beispiel können die Dokumente von einem oder mehreren Datenspeichern empfangen werden, wie zum Beispiel Datenspeicher 102. In einigen Fällen können die Dokumente Text entweder in computerlesbarer Form oder auf andere Weise enthalten, und jedem Dokument kann eine eindeutige Dokumentidentifikationsnummer zugeordnet sein. Diese eindeutige Dokumentenidentifikationsnummer kann genutzt werden, um das Dokument sowie beliebige Teilmengen des Dokuments zu kennzeichnen. Bei einigen Dokumenten, insbesondere Patentdokumenten, kann die eindeutige Dokumentidentifikationsnummer eine Patentnummer oder eine Veröffentlichungsnummer der Patentanmeldung sein. In manchen Fällen können die Dokumente lokal in einer Speichervorrichtung gespeichert sein, welche vom Datenspeicher, der die Dokumente bereitstellte, getrennt ist.
  • In einigen Fällen werden die Dokumente vorverarbeitet, um einen oder mehrere verarbeitete Dokumententeile für jedes der Dokumente zu erzeugen. Die Vorverarbeitung kann das gesamte oder einen Teil des in 8 beschriebenen Verfahrens 800 und/oder des in 9 beschriebenen Verfahrens 900 nutzen. Ein verarbeitetes Dokument kann sich zum Beispiel auf das Dokument nach der Vorverarbeitung beziehen. In einigen Fällen kann die Vorverarbeitung selbst ein Dokument in zwei oder mehr verarbeitete Dokumententeile aufteilen. Wenn beispielsweise Text analysiert wird, der Patentansprüche enthält, kann das Dokument an Stellen nach einem Punkt und vor einer Ziffer in Dokumententeile (z. B. einzelne Patentansprüche) unterteilt werden. In manchen Fällen ist jeder Teil des Dokuments mit der eindeutigen Dokumentenidentifikationsnummer des Quelldokuments verknüpft. Beispielsweise wäre jeder Patentanspruch eines Patents mit der Patentnummer verknüpft. Die verarbeiteten Dokumententeile enthalten einen Teil des Textes aus dem Quelldokument. Die spezifischen technischen Verfahrensweisen der Vorverarbeitung umfassen die Syntaxanalyse (Parsing) von Text, um Wörter zu separieren, wobei Stoppwörter, Wortduplikate und Satzzeichen entfernt werden. In einigen Fällen können einige oder alle Stoppwörter spezifisch für eine Dokumentklassifikation der Dokumente sein. Wenn beispielsweise alle Dokumente mit derselben Patentklassifikation verknüpft sind und es für jene Klassifikation spezifische Stoppwörter gibt, dann können jene spezifischen Stoppwörter anstelle von oder zusätzlich zu allgemeinen Stoppwörtern genutzt werden. In manchen Fällen kann die Vorverarbeitung zusätzliche technische Verfahrensweisen der Vorverarbeitung, wie beispielsweise das Ersetzen von Abkürzungen und/oder Akronymen mit den entsprechenden ganzen Wörtern, mit einschließen.
  • Bei 1404 wird ein Dokument analysiert, um mindestens ein werthaltiges Objekt, das mit dem Dokument in Beziehung steht, zu bestimmen. Zum Beispiel kann eine semantische Suche bei Nutzung von Inhalt (z. B. ein oder mehrere Wörter) innerhalb des Dokuments genutzt werden, um eine bestimmte Anzahl von werthaltigen Objekten (z. B. eins, fünf, zehn, einhundert oder jede andere Anzahl), die mit dem Dokument in Beziehung stehen, zu bestimmen. Die Reihe von werthaltigen Objekten kann weitere Dokumente, wie beispielsweise Quellenangaben, Patente, Veröffentlichungen, Artikel oder dergleichen umfassen. Die semantische Suche kann durch Nutzung eines offenen Systems, wie beispielsweise einer web-basierten Suche, oder innerhalb eines geschlossenen Systems, das werthaltige Objekte für die Analyse speichert, ausgeführt werden. In manchen Fällen wird, gegründet auf dem Dokument, welches ein Patent enthält, die semantische Suche auf einem oder mehreren Ansprüchen des Patents basierend ausgeführt. Beispielsweise kann die semantische Suche bei Nutzung von Inhalt aus dem am weitesten gefassten unabhängigen Anspruch, aus jedem der unabhängigen Ansprüche, aus sowohl dem am weitesten gefassten unabhängigen Anspruch als auch aus abhängigen Ansprüchen, die vom am weitesten gefassten unabhängigen Anspruch abhängig sind, aus jedem Anspruch oder jeder sonstigen Kombination von den Ansprüchen ausgeführt werden. Zusätzlich oder alternativ zur Nutzung von Inhalt aus den Ansprüchen kann die semantische Suche bei Nutzung von Inhalt aus einem oder mehreren weiteren Teilen des Patents, wie beispielsweise der Zusammenfassung, der Beschreibung, der Beschreibung der Figuren, dem Hintergrund oder jeder Kombination davon ausgeführt werden.
  • Bei 1406 werden werthaltige Objekte, die dem Dokument nicht zeitlich vorausgehen, aus der Reihe der werthaltigen Objekte entfernt. Zum Beispiel wird jedes werthaltige Objekt aus der Reihe der werthaltigen Objekte analysiert, um ein Datum entsprechend dem Zeitpunkt zu bestimmen, an dem das jeweilige werthaltige Objekt abgefasst, veröffentlicht, eingereicht und/oder dergleichen wurde. Falls ein werthaltiges Objekt ein Patent oder eine gedruckte Publikation umfasst, kann das Patent oder die gedruckte Publikation analysiert werden, um ein Prioritätsdatum des Patents oder der gedruckten Publikation zu bestimmen. Bei Nutzung der bestimmten Datumswerte wird dann jedes werthaltige Objekt aus der Reihe der werthaltigen Objekte, welches ein jeweiliges Datum enthält, das einem Datum des gerade analysierten Dokuments nicht zeitlich vorausgeht, bestimmt und aus der Reihe der werthaltigen Objekte entfernt. Wenn beispielsweise das gerade analysierte Dokument ein Patent enthält, wird die Reihe der werthaltigen Objekte analysiert, um jedes werthaltige Objekt zu bestimmen, das ein Prioritätsdatum enthält, welches bewirken würde, dass das jeweilige werthaltige Objekt bezüglich des Patents nicht als Stand der Technik bezeichnet werden kann (z. B. ein Prioritätsdatum, das dem Prioritätsdatum des Patents nicht zeitlich vorausgeht). Die ermittelten werthaltigen Objekte werden dann aus der Reihe der für das Patent bestimmten werthaltigen Objekte entfernt.
  • Bei 1408 werden werthaltige Objekte, die während des Patenterteilungsverfahrens benannt wurden, aus der Reihe der werthaltigen Objekte entfernt. Wenn zum Beispiel das gerade analysierte Dokument ein Patent enthält, können werthaltige Objekte (z. B. angeführte Referenzen), die während des Patenterteilungsverfahrens benannt wurden, aus der Reihe der werthaltigen Objekte entfernt werden. Diese werthaltigen Objekte werden entfernt, da bereits festgestellt wurde, dass das Patent über derartige werthaltige Objekte gewährbar ist (z. B. gültig über derartige werthaltige Objekte). Deshalb erhöhen die werthaltigen Objekte das Risiko der Ungültigkeit des Patents möglicherweise nicht.
  • Bei 1410 wird ein Risikowert für das Dokument berechnet, zumindest teilweise auf einer Anzahl verbleibender werthaltiger Objekte gegründet. Zum Beispiel wird, basierend auf einer Anzahl von werthaltigen Objekten, die nach Schritt 1406 und, optional, Schritt 1408 verbleiben, für das Dokument ein Risikowert berechnet. Falls das Dokument ein Patent enthält, kann der Risikowert eine Wahrscheinlichkeit bezeichnen, dass das Patent nicht für ungültig erklärt wird, wenn das Patent angefochten wird, wie beispielsweise bei einer erneuten Überprüfung des Patents. In manchen Fällen ist der Risikowert mit dem Prozentsatz von werthaltigen Objekten verknüpft, die nach dem Entfernen von werthaltigen Objekten nach Schritt 1406 und, optional, Schritt 1408 verbleiben. Der Risikowert kann zum Beispiel mit der folgenden Gleichung berechnet werden: R i s i k o w e r t = 100 ( 1 R A N A )
    Figure DE112018002047T5_0006
    In der vorstehenden Gleichung wird der Risikowert durch Dividieren der Anzahl verbleibender werthaltiger Objekte (RA) nach Schritt 1406 und, optional, Schritt 1408, durch die Gesamtanzahl der werthaltigen Objekte (NA), die während der Analyse ermittelt wurden, berechnet. Wie dargestellt, ist der Risikowert für das Dokument umso höher, je mehr werthaltige Objekte während Schritt 1406 und, optional, Schritt 1408 entfernt werden.
  • In manchen Fällen kann bei 1410 der Risikowert für das Dokument bei Nutzung einer oder mehrerer anderer technischen Verfahrensweisen berechnet werden. Zum Beispiel kann der Risikowert rein anhand der Anzahl der werthaltigen Objekte, die nach Schritt 1406 und, optional, Schritt 1408 verbleiben, berechnet werden. Dem Dokument kann beispielsweise ein anfänglicher Risikowert von 100 zugewiesen werden. Bei Nutzung des anfänglichen Werts kann der Risikowert, basierend auf der Anzahl der werthaltigen Objekte, die nach Schritt 1406 und, optional, Schritt 1408 verbleiben, verringert werden. Zum Beispiel kann der Risikowert für jedes werthaltige Objekt, das nach Schritt 1406 und, optional, Schritt 1408 verbleibt, um 1 verringert werden (und/oder, optional, 0,01, 0,1, 5, 10, 15 oder jede andere Zahl). Bei Nutzung einer derartigen technischen Verfahrensweise kann der Risikowert mit der folgenden Gleichung berechnet werden: R i s i k o v e r t = 100 ( R F ( R A ) )
    Figure DE112018002047T5_0007
    In der vorstehenden Gleichung wird der Risikowert basierend auf einem Risikofaktor (RF) (z. B. 0,01, 0, 1, 1, 5, 10, 15 oder jede andere Zahl), multipliziert mit der Anzahl nach Schritt 1406 und, optional, Schritt 1408 verbleibender werthaltiger Objekte (RA) berechnet. In manchen Fällen weist Gleichung 7 eine Untergrenze von Null auf. Der Risikowert für ein Patent kann zum Beispiel keine negative Zahl enthalten.
  • Bei 1412 wird bestimmt, ob irgendwelche weiteren Dokumente vorhanden sind, die analysiert werden müssen. Falls bestimmt wird, dass ein weiteres Dokument zu analysieren ist (d. h. „Ja“), kehrt das Verfahren 1400 zwecks Wiederholung für das weitere Dokument zu Schritt 1404 zurück. Zum Beispiel wird bei 1404 für das zusätzliche Dokument eine Reihe von werthaltigen Objekten bestimmt, werthaltige Objekte, die dem zusätzlichen Dokument nicht zeitlich vorausgehen, werden bei 1406 aus der Reihe von werthaltigen Objekten entfernt, werthaltige Objekte, die während des Erteilungsverfahrens benannt wurden, werden bei 1408 entfernt, und bei 1410 wird für das zusätzliche Dokument ein Risikowert berechnet.
  • Falls bei 1412 bestimmt wird, dass kein weiteres Dokument zu analysieren ist (d. h. „Nein“), macht das Verfahren 1400 mit 1414 weiter. Bei 1414 wird eine UI erzeugt, die einen oder mehrere der Risikowerte umfasst. Eine UI kann zum Beispiel dergestalt erzeugt werden, dass ein Risikowert für eines der Dokumente in der Nähe der mit jenem Dokument verknüpften eindeutigen Dokumentenidentifikationsnummer angezeigt wird. Der Risikowert für ein Patent kann beispielsweise neben der Patentnummer angezeigt werden. In manchen Fällen kann die UI eine textuelle UI oder eine Befehlszeilenschnittstelle sein, welche eine Textzeile anzeigt, die mindestens den Risikowert und die eindeutige Dokumentenidentifikationsnummer umfasst. In manchen Fällen kann die UI Informationen zu Dokumenten enthalten, um entweder ein bestimmtes Dokument hervorzuheben (z. B. eines das von allen Dokumenten im analysierten Korpus einen höchsten Risikowert aufweist), bedingt durch Begrenzungen des verfügbaren Platzes auf dem Bildschirm, wie beispielsweise auf Mobilgeräten, um eine über ein Netzwerk übertragene Datenmenge zu minimieren, oder aus anderen Gründen.
  • 15 ist ein Ablaufdiagramm, das ein zweites beispielhaftes Verfahren 1500 für die automatische Dokumentenverarbeitung zum Erzeugen einer Benutzeroberfläche, die Vergleichs-Risikowerte anzeigt, veranschaulicht. Bei 1502 werden Patente empfangen. Die Patente können zum Beispiel von einem oder mehreren Datenspeichern, wie beispielsweise Datenspeichern 102, empfangen werden. In manchen Fällen können die Patente Text entweder in computerlesbarer oder anderweitig lesbarer Form enthalten und jedes Patent kann mit einer eindeutigen Patentnummer verknüpft sein. In manchen Fällen können die Patente lokal in einer Speichervorrichtung gespeichert sein, welche vom Datenspeicher, der die Patente bereitstellte, getrennt ist.
  • In manchen Fällen werden die Patente vorverarbeitet, um einen oder mehrere verarbeitete Teile für jedes der Patente zu erzeugen. Die Vorverarbeitung kann das gesamte oder einen Teil des in 8 beschriebenen Verfahrens 800 und/oder des in 9 beschriebenen Verfahrens 900 nutzen. Ein verarbeitetes Patent kann sich zum Beispiel auf das Dokument nach der Vorverarbeitung beziehen. In manchen Fällen kann die Vorverarbeitung selbst ein Patent in zwei oder mehr verarbeitete Teile aufteilen. Wenn zum Beispiel Text analysiert wird, der Patentansprüche enthält, kann das Patent in Teile, wie beispielsweise Patentansprüche, den Hintergrund, die Beschreibung der Figuren, die Kurzdarstellung, die detaillierte Beschreibung, die Zusammenfassung oder dergleichen, aufgeteilt werden. Die spezifischen technischen Verfahrensweisen der Vorverarbeitung umfassen die Syntaxanalyse (Parsing) von Text, um Wörter zu separieren, wobei Stoppwörter, Wortduplikate und Satzzeichen entfernt werden. In manchen Fällen können einige oder alle Stoppwörter für eine Patentklassifikation (z. B. eine Facheinheitsnummer) spezifisch sein. Wenn beispielsweise alle Patente mit derselben Patentklassifikation verknüpft sind und es für jene Klassifikation spezifische Stoppwörter gibt, dann können jene spezifischen Stoppwörter anstelle von oder zusätzlich zu allgemeinen Stoppwörtern genutzt werden. In manchen Fällen kann die Vorverarbeitung zusätzliche technische Verfahrensweisen der Vorverarbeitung, wie beispielsweise das Ersetzen von Abkürzungen und/oder Akronymen mit den entsprechenden ganzen Wörtern, mit einschließen.
  • Bei 1504 wird ein Patent analysiert, um mit dem Patent verknüpfte Informationen zu ermitteln. Zum Beispiel wird bei 1506 für einen oder mehrere Ansprüche des Patents der Anspruchsumfang bestimmt. In manchen Fällen wird der Anspruchsumfang bei Nutzung des gesamten oder von Teilen des Verfahrens 1000 von 10 ermittelt. Zum Beispiel können jeweilige Anspruchsumfangswerte für einen oder mehrere Ansprüche innerhalb des Patents ermittelt werden. Bei Nutzung der Anspruchsumfangswerte kann ein gesamtheitlicher Anspruchsumfangswert für das Patent berechnet werden. In manchen Fällen kann der gesamtheitliche Anspruchsumfangswert der Median oder Durchschnitt von einem oder mehreren der Anspruchsumfangswerte sein. In manchen Fällen kann der gesamtheitliche Anspruchsumfangswert auf einem Bereich der Anspruchsumfangswerte gegründet sein. Zum Beispiel kann der gesamtheitliche Umfangswert einen Bereich von Werten vom Anspruchsumfangswert des am weitesten gefassten unabhängigen Anspruchs bis hin zum Anspruchsumfangswert des am engsten gefassten abhängigen Anspruchs umfassen.
  • Zusätzlich oder alternativ werden bei 1508 Referenzen ermittelt, die während des Patenterteilungsverfahrens benannt wurden. Zum Beispiel kann eine Suche durchgeführt werden, um jede Referenz zu ermitteln, die während des Patenterteilungsverfahrens benannt wurde. Die Suche kann das Durchsuchen einer oder mehrerer Datenbanken umfassen, wie beispielsweise eine oder mehrere mit PAIR, der EPO, der WIPO oder dergleichen in Beziehung stehende Datenbanken, die Informationen zu Referenzen enthalten, die während des Patenterteilungsverfahrens benannt wurden. In manchen Fällen wird die Suche mit der Patentnummer des Patents ausgeführt. In manchen Fällen wird die Suche mit einer unterschiedlichen Identifikationsnummer, wie beispielsweise Patentanmeldungsnummer oder Veröffentlichungsnummer des Patents, ausgeführt, welche mit dem Patent verknüpft ist.
  • Zusätzlich oder alternativ werden bei 1510 weitere mit dem Verlauf des Erteilungsverfahrens des Patents in Beziehung stehende Informationen abgerufen. Zum Beispiel kann eine Suche durchgeführt werden, um Informationen zu ermitteln, die mit dem Verlauf des Erteilungsverfahrens des Patents in Beziehung stehen. Die Suche kann das Durchsuchen einer oder mehrerer Datenbanken umfassen, wie beispielsweise eine oder mehrere mit PAIR, der EPO, der WIPO oder dergleichen in Beziehung stehende Datenbanken, um die Informationen abzurufen. Die Informationen können Folgendes enthalten: ein Datum, an dem das Patent eingereicht wurde, ein Datum, an dem das Patent erteilt wurde, eine Anzahl von Bescheiden, die während des Erteilungsverfahrens des Patents ergingen, Veränderungen, die während des Erteilungsverfahrens des Patents vorgenommen wurden, ob eine Einspruchsschrift während des Erteilungsverfahrens des Patents eingereicht wurde, oder dergleichen.
  • In manchen Fällen, obgleich in 15 nicht dargestellt, können andere mit dem Patent in Beziehung stehende Informationen abgerufen werden. Zum Beispiel kann eine Suche durchgeführt werden, um Informationen zu ermitteln, die Folgendes angeben: eine verbleibende Patentlaufzeit, eine Historie von Rechtsstreiten, die mit dem Patent in Beziehung stehen, eine Historie von Lizenzierungen, die mit dem Patent in Beziehung stehen, ein Sicherungsrecht, das mit dem Patent in Beziehung steht, eine Eigentümerschaft, die mit dem Patent in Beziehung steht, eines oder mehrere in Beziehung stehende Patente (z. B. eines oder mehrere in Beziehung stehende Auslandspatente) und/oder dergleichen. In manchen Fällen können die Informationen abgerufen und/oder ermittelt werden, während nach dem Verlauf des Erteilungsverfahrens des Patents gesucht wird. In anderen Fällen können die Informationen durch Ausführen einer separaten Suche abgerufen werden.
  • Bei 1512 wird ein Risikowert für das Patent berechnet, zumindest teilweise auf den Informationen gegründet. Zum Beispiel kann ein Risikowert für das Patent, gegründet auf dem gesamtheitlichen Anspruchsumfangswert des Patents, berechnet werden. In manchen Fällen kann der Risikowert eine Umkehrung („Flip“) des gesamtheitlichen Anspruchsumfangswerts umfassen. Dies ist deshalb so, weil ein Patent mit weit gefassten Ansprüchen einem größeren Risiko ausgesetzt ist, für ungültig erklärt zu werden, als ein Patent mit eng gefassten Ansprüchen und/oder ein Patent mit sowohl weit gefassten als auch eng gefassten Ansprüchen. Wenn beispielsweise das Patent einen gesamtheitlichen Anspruchsumfangswert von 80 von 100 enthält, mit der Bedeutung, dass die Gesamtheit der Ansprüche innerhalb des Patents einen ziemlich weitreichenden Anspruchsbereich umfasst, kann der Risikowert für das Patent 20 von 100 enthalten. Wenn der gesamtheitliche Anspruchsumfangswert für das Patent auf einem Bereich der Anspruchsumfangswerte gegründet ist, dann kann der Risikowert für das Patent eine Umkehrung („Flip“) des niedrigsten Anspruchsumfangswerts innerhalb des Bereichs enthalten. Wenn beispielsweise das Patent einen gesamtheitlichen Anspruchsumfangswert enthält, der sich zwischen 30 und 90 von 100 bewegt, dann kann der Risikowert für das Patent 70 von 100 betragen. Bei wahlweiser Nutzung der technischen Verfahrensweisen kann der Risikowert mit der folgenden Formel berechnet werden: R i s i k o w e r t = ( 1 ( B S B M ) ) R M
    Figure DE112018002047T5_0008
    In der vorstehenden Gleichung entspricht die Umkehrung („Flip“) dem Teil der Gleichung innerhalb der Klammern, wo ein bestimmter Umfangswert (BS ) für einen Anspruch im Patent durch den höchsten Umfangswert (BM ), den ein Patent erhalten kann, dividiert wird. Der Wert innerhalb der Klammern wird dann mit dem höchsten Risikowert (RM ), den ein Patent erhalten kann, multipliziert, um den Risikowert für das Patent zu berechnen. In manchen Fällen kann der bestimmte Anspruchsumfangswert (BS ) den gesamtheitlichen Umfangswert für das Patent enthalten. In manchen Fällen kann der bestimmte Anspruchsumfangswert (BS ) den niedrigsten Umfangswert innerhalb des Bereichs von Umfangswerten enthalten. Weiterhin kann in manchen Fällen der bestimmte Anspruchsumfangswert (BS ) einen unterschiedlichen Anspruchsumfangswert enthalten, wie beispielsweise den Umfangswert des am engsten gefassten Anspruchs (z. B. den niedrigsten Anspruchsumfangswert). In manchen Fällen kann der höchste Risikowert (RM ) einhundert enthalten, obgleich in anderen Fällen der höchste Risikowert (RM ) jeden beliebigen Wert enthalten kann.
  • Zusätzlich oder alternativ zur Nutzung des Anspruchsumfangs zum Berechnen eines Risikowerts kann ein Risikowert berechnet werden und/oder der vorstehende Risikowert kann, basierend auf der Anzahl von Referenzen, die während des Erteilungsverfahrens des Patents benannt wurden, angepasst werden. Beispielsweise kann ein Risikowert für das Patent durch Multiplizieren der Anzahl von benannten Referenzen mit einem Referenzgewichtungsfaktor, wie beispielsweise 0,01, 0,1, 1, 2, 3, 5, 10 oder jede andere Zahl, berechnet werden. Bei Nutzung einer derartigen technischen Verfahrensweise kann der Risikowert mit der folgenden Gleichung berechnet werden: R i s i k o w e r t = N C R W R F
    Figure DE112018002047T5_0009
    In der vorstehenden Gleichung wird der Risikowert basierend auf einem Referenzgewichtungsfaktor (WRF ) (z. B. 0,01, 0,1, 1, 2, 3, 5, 10 oder jede andere Zahl), multipliziert mit der Anzahl von Referenzen, die während des Erteilungsverfahrens benannt wurden (NCR ), berechnet. In manchen Fällen weist Gleichung 9 eine Obergrenze auf. Zum Beispiel darf der Risikowert für das Patent 100 nicht übersteigen.
  • Zusätzlich oder alternativ zur Nutzung des Anspruchsumfangs und/oder der Anzahl benannter Dokumente zum Berechnen eines Risikowerts kann ein Risikowert berechnet werden und/oder die vorstehenden Risikowerte können, basierend auf dem Verlauf des Erteilungsverfahrens des Patents, angepasst werden. Dem Patent kann beispielsweise ein anfänglicher Risikowert von 100 zugewiesen werden. Der anfängliche Risikowert kann dann, basierend auf dem Verlauf des Erteilungsverfahrens des Patents, verringert werden. Zum Beispiel kann der anfängliche Risikowert, basierend auf Folgendem verringert werden: der Zeitdauer, während der das Erteilungsverfahren für das Patent lief (z. B. Anzahl der Tage, Monate, Jahre usw.), einer Anzahl von Bescheiden, die während des Erteilungsverfahrens erteilt wurden, der Häufigkeit (Anzahl), in der die Ansprüche (z. B. die unabhängigen Ansprüche, abhängigen Ansprüche und/oder beides) während des Erteilungsverfahrens verändert wurden, der Häufigkeit (Anzahl), in der eine Einspruchsschrift während des Erteilungsverfahrens eingereicht wurde, und/oder dergleichen. Bei Nutzung einer derartigen technischen Verfahrensweise kann der Risikowert mit der folgenden Gleichung berechnet werden: R i s i k o w e r t = 100 ( N F 1 ( W F 1 ) + N F 2 ( W F 2 ) + N F N ( W F N ) )
    Figure DE112018002047T5_0010
  • In der vorstehenden Gleichung wird der Risikowert wie folgt berechnet: basierend auf einem Wert eines ersten Faktors (NF1 ), multipliziert mit einer Gewichtung, die mit dem ersten Faktor (WF1 ) in Beziehung steht, plus einem Wert eines zweiten Faktors (NF2 ), multipliziert mit einer Gewichtung, die mit dem zweiten Faktor (WF2 ) in Beziehung steht, usw. Ein Wert eines Faktors kann Folgendes enthalten: die Anzahl der Tage, Monate, Jahre oder dergleichen, während der sich das Patent im Erteilungsverfahren befand, die Anzahl von Bescheiden, die während des Erteilungsverfahrens erteilt wurden, die Häufigkeit (Anzahl), in der die Ansprüche (z. B. die unabhängigen Ansprüche, abhängigen Ansprüche und/oder beides) während des Erteilungsverfahrens verändert wurden, die Häufigkeit (Anzahl), in der eine Einspruchsschrift während des Erteilungsverfahrens eingereicht wurde, und/oder dergleichen. Die Gewichtung für jeden Faktor kann dieselbe Zahl (z. B. 0,01, 0,1, 1, 2, 3, 5, 10 oder jede andere Zahl) enthalten oder die Gewichtung für einen oder mehrere der Faktoren kann für jenen Faktor einzigartig sein.
  • Es wird beispielsweise unterstellt, dass der Verlauf des Erteilungsverfahrens für das Patent erkennen lässt, dass sich das Patent zwanzig Monate lang im Erteilungsverfahren befand, das Amt vier Bescheide erließ und die Ansprüche vier Mal verändert wurden. Es wird ferner unterstellt, dass die Gewichtung für den Zeitlängenfaktor 1 pro Monat beträgt, die Gewichtung für den Bescheidefaktor 5 pro Bescheid beträgt, und die Gewichtung für den Veränderungsfaktor 5 pro Veränderung beträgt. Dann wäre bei Nutzung der vorstehenden Gleichung 10 der Risikowert für das Patent 40 (z. B. 20(1) + 4(5) + 4(5)).
  • Bei 1514 wird bestimmt, ob irgendwelche weiteren Patente vorhanden sind, die analysiert werden müssen. Falls bestimmt wird, dass ein weiteres Patent zu analysieren ist (d. h. „Ja“), kehrt das Verfahren 1500 zwecks Wiederholung für das weitere Patent zu Schritt 1504 zurück. Zum Beispiel wird das weitere Patent bei 1504 analysiert, um Informationen zu ermitteln, die mit dem weiteren Patent in Beziehung stehen, und dann wird bei 1512 für das weitere Patent, zumindest teilweise auf die Informationen gegründet, ein Risikowert berechnet.
  • Falls bei 1514 bestimmt wird, dass kein weiteres Patent zu analysieren ist (d. h. „Nein“), macht das Verfahren 1500 mit 1516 weiter. Bei 1516 wird eine UI erzeugt, die einen oder mehrere der Risikowerte umfasst. Eine UI kann zum Beispiel dergestalt erzeugt werden, dass ein Risikowert für eines der Patente in der Nähe der mit jenem Patent verknüpften Patentnummer angezeigt wird. In manchen Fällen kann die UI eine textuelle UI oder eine Befehlszeilenschnittstelle sein, welche eine Textzeile anzeigt, die mindestens den Risikowert und die Patentnummer umfasst. In manchen Fällen kann die UI Informationen zu Patenten enthalten, um entweder ein bestimmtes Patent hervorzuheben (z. B. eines das von allen Patenten im analysierten Korpus einen höchsten Risikowert aufweist), bedingt durch Begrenzungen des verfügbaren Platzes auf dem Bildschirm, wie beispielsweise auf Mobilgeräten, um eine über ein Netzwerk übertragene Datenmenge zu minimieren, oder aus anderen Gründen.
  • 16 ist ein Ablaufdiagramm, das ein beispielhaftes Verfahren 1600 für die automatische Dokumentenverarbeitung zum Erzeugen einer Benutzeroberfläche, die Marktwerte anzeigt, veranschaulicht. Bei 1602 werden Dokumente empfangen. Zum Beispiel können die Dokumente von einem oder mehreren Datenspeichern empfangen werden, wie zum Beispiel Datenspeicher 102. In einigen Fällen können die Dokumente Text entweder in computerlesbarer Form oder auf andere Weise enthalten, und jedem Dokument kann eine eindeutige Dokumentidentifikationsnummer zugeordnet sein. Diese eindeutige Dokumentenidentifikationsnummer kann genutzt werden, um das Dokument sowie beliebige Teilmengen des Dokuments zu kennzeichnen. Bei einigen Dokumenten, insbesondere Patentdokumenten, kann die eindeutige Dokumentidentifikationsnummer eine Patentnummer oder eine Veröffentlichungsnummer der Patentanmeldung sein. In manchen Fällen können die Dokumente lokal in einer Speichervorrichtung gespeichert sein, welche vom Datenspeicher, der die Dokumente bereitstellte, getrennt ist.
  • In einigen Fällen werden die Dokumente vorverarbeitet, um einen oder mehrere verarbeitete Dokumententeile für jedes der Dokumente zu erzeugen. Die Vorverarbeitung kann das gesamte oder einen Teil des in 8 beschriebenen Verfahrens 800 und/oder des in 9 beschriebenen Verfahrens 900 nutzen. Ein verarbeitetes Dokument kann sich zum Beispiel auf das Dokument nach der Vorverarbeitung beziehen. In einigen Fällen kann die Vorverarbeitung selbst ein Dokument in zwei oder mehr verarbeitete Dokumententeile aufteilen. Wenn beispielsweise Text analysiert wird, der Patentansprüche enthält, kann das Dokument an Stellen nach einem Punkt und vor einer Ziffer in Dokumententeile (z. B. einzelne Patentansprüche) unterteilt werden. In manchen Fällen ist jeder Teil des Dokuments mit der eindeutigen Dokumentenidentifikationsnummer des Quelldokuments verknüpft. Beispielsweise wäre jeder Patentanspruch eines Patents mit der Patentnummer verknüpft. Die verarbeiteten Dokumententeile enthalten einen Teil des Textes aus dem Quelldokument. Die spezifischen technischen Verfahrensweisen der Vorverarbeitung umfassen die Syntaxanalyse (Parsing) von Text, um Wörter zu separieren, wobei Stoppwörter, Wortduplikate und Satzzeichen entfernt werden. In einigen Fällen können einige oder alle Stoppwörter spezifisch für eine Dokumentklassifikation der Dokumente sein. Wenn beispielsweise alle Dokumente mit derselben Patentklassifikation verknüpft sind und es für jene Klassifikation spezifische Stoppwörter gibt, dann können jene spezifischen Stoppwörter anstelle von oder zusätzlich zu allgemeinen Stoppwörtern genutzt werden. In manchen Fällen kann die Vorverarbeitung zusätzliche technische Verfahrensweisen der Vorverarbeitung, wie beispielsweise das Ersetzen von Abkürzungen und/oder Akronymen mit den entsprechenden ganzen Wörtern, mit einschließen.
  • Bei 1604 wird ein Dokument analysiert, um eine Marktklassifikation, die mit dem Dokument in Beziehung steht, zu bestimmen. Wenn beispielsweise ein Dokument ein Patent enthält, kann das Patent analysiert werden, um eine anfängliche Klassifikation zu identifizieren, die dem Patent entspricht. Das Analysieren des Patents kann das Durchsuchen einer oder mehrerer Datenbanken umfassen, wie beispielsweise eine oder mehrere mit der USPTO, mit PAIR, der EPO, der WIPO oder dergleichen in Beziehung stehende Datenbanken, um die anfängliche Klassifikation entsprechend dem Patent zu bestimmen. In manchen Fällen kann die anfängliche Klassifikation eine dem Patent zugeordnete Klassifikation umfassen (z. B. die dem Patent zugehörige gedruckte Publikation), die auf der CPC (gemeinsame Patentklassifikation) gegründet ist. In manchen Fällen kann die Klassifikation eine dem Patent zugeordnete Klassifikation umfassen, die auf der USPC gegründet ist, eine Klassifikation, die dem Patent vom EPO zugewiesen ist, oder jede andere Art von Klassifikation, die einem Patent zugeordnet sein kann.
  • Eine semantische Suche kann dann ausgeführt werden, wobei die anfängliche Klassifikation genutzt wird, um die Marktklassifikation entsprechend dem Patent zu bestimmen. Wie vorstehend erörtert, kann die Marktklassifikation in manchen Fällen eine NAICS-Klassifikation enthalten. In anderen Fällen kann sich die Marktklassifikation mit einem anderen Klassifikationssystem, wie beispielsweise dem SIC-System, decken. In jedem Fall, und das NAICS als ein Beispiel nutzend, kann eine semantische Suche mittels der Beschreibung für eine oder mehrere der NAICS-Klassifikationen ausgeführt werden, um mindestens eine NAICS-Klassifikation zu bestimmen, die mit der anfänglichen Klassifikation in Beziehung steht. Als weiteres Beispiel, und erneut das NAICS als ein Beispiel nutzend, kann eine Nachschlagetabelle erzeugt werden, die jede anfängliche Klassifikation, die einem Patent zugewiesen werden kann, mit mindestens einer der NAICS-Klassifikationen verknüpft. Eine Suche kann dann mittels der Nachschlagetabelle ausgeführt werden, um eine mit der dem Patent zugeordneten anfänglichen Klassifikation verknüpfte NAICS-Klassifikation zu ermitteln.
  • In manchen Fällen kann zusätzlich oder alternativ zur Nutzung einer dem Patent zugeordneten anfänglichen Klassifikation am Patent eine semantische Analyse durchgeführt werden, um zumindest eine Marktklassifikation zu bestimmen. Beispielsweise kann eine semantische Suche unter Verwendung des am weitesten gefassten unabhängigen Anspruchs, jedes der unabhängigen Ansprüche, des am weitesten gefassten unabhängigen Anspruchs sowie der von dem am weitesten gefassten unabhängigen Anspruch abhängigen Ansprüche, jedes Anspruchs oder jeder anderen Kombination der Ansprüche, um eine sich auf das Patent beziehende NAICS-Klassifikation zu identifizieren, durchgeführt werden. In einem anderen Beispiel kann eine semantische Suche unter Verwendung eines oder mehrerer zusätzlicher oder alternativer Teile des Patents durchgeführt werden, wie beispielsweise der Zusammenfassung, der Beschreibung, der Beschreibung der Figuren, des Hintergrunds oder einer beliebigen Kombination davon, um eine NAICS-Klassifikation zu identifizieren, die im Zusammenhang mit dem Patent steht.
  • Bei 1606 wird ein mit der Marktklassifikation verknüpfter Wert bestimmt. Zum Beispiel kann jede für ein Dokument bestimmte Marktklassifikation mit einem jeweiligen Wert verknüpft sein. Wie vorstehend erörtert, werden in manchen Fällen die Werte basierend auf dem BIP des Landes berechnet, in dem die Dokumente gerade analysiert werden. Wenn zum Beispiel Patente in den Vereinigten Staaten von Amerika analysiert werden, kann jede Marktklassifikation mit dem BIP der Vereinigten Staaten von Amerika verknüpft werden. In manchen Fällen kann das Bestimmen des mit dem BIP verknüpften Werts für die Marktklassifikation das Durchsuchen einer oder mehrerer Datenbanken des Bureau of Economic Analysis (BEA) mit einschließen, welche Daten enthalten, die das BIP für verschiedene NAICS-Klassifikationen angeben. In manchen Fällen kann das Bestimmen des mit dem BIP verknüpften Werts für die Marktklassifikation das Durchsuchen einer oder mehrerer Datenbanken mit einschließen, welche Daten enthalten, die das BIP für verschiedene NAICS-Klassifikationen angeben (und/oder beliebige andere Arten von den Dokumenten zugeordneter Marktklassifikation).
  • Bei 1608 wird ein Marktwert für das Dokument, zumindest teilweise auf dem Wert basierend, berechnet. Zum Beispiel können Werte, die mit jeder der Marktklassifikationen verknüpft sind, normalisiert werden. Der normalisierte Wert kann dann als der Marktwert für das Dokument genutzt werden. Zum Beispiel kann der Marktwert für das Dokument mit der folgenden Gleichung berechnet werden: M a r k t w e r t = ( V D V T ) 100
    Figure DE112018002047T5_0011
    In der vorstehenden Gleichung umfasst der Marktwert für das Dokument den Teil des Gesamtwerts (VD ) des mit dem Dokument verknüpften Markts, geteilt durch den Gesamtwert (VT ) des Markts, und dann multipliziert mit 100 (und/oder einem anderen Wert in anderen Fällen). Um zum Beispiel den Marktwert des Dokuments, basierend auf dem BIP, zu bestimmen, kann der Marktwert wie folgt berechnet werden: durch Dividieren des Teils des gesamten BIP, das mit der Marktklassifikation dem Dokument entsprechend verknüpft ist, durch das gesamte BIP, und nachfolgende Multiplikation dieses Ergebnisses mit 100. In manchen Fällen wird der Marktwert für jedes Dokument während der Analyse berechnet. In manchen Fällen kann, anstatt den Marktwert für jedes Dokument während der Analyse zu berechnen, die vorstehend beschriebene Nachschlagetabelle bereits einen jeweiligen mit jeder Marktklassifikation verknüpften Wert des Marktes enthalten. Der Marktwert für das Dokument kann dann bei Nutzung der Nachschlagetabelle bestimmt werden.
  • Bei 1610 wird bestimmt, ob irgendwelche weiteren Dokumente vorhanden sind, die analysiert werden müssen. Falls bestimmt wird, dass ein weiteres Dokument zu analysieren ist (d. h. „Ja“), kehrt das Verfahren 1600 zwecks Wiederholung für das weitere Dokument zu Schritt 1604 zurück. Zum Beispiel wird das weitere Dokument bei 1604 analysiert, um eine mit dem Dokument verknüpfte Marktklassifikation zu ermitteln, ein mit der Marktklassifikation verknüpfter Wert wird bei 1606 ermittelt, und dann wird bei 1608 für das weitere Dokument, zumindest teilweise auf den Wert gegründet, ein Marktwert berechnet.
  • Falls bei 1610 bestimmt wird, dass kein weiteres Dokument zu analysieren ist (d. h. „Nein“), macht das Verfahren 1600 mit 1612 weiter. Bei 1612 wird eine UI erzeugt, die einen oder mehrere der Marktwerte umfasst. Eine UI kann zum Beispiel dergestalt erzeugt werden, dass ein Marktwert für eines der Dokumente in der Nähe der mit jenem Dokument verknüpften eindeutigen Dokumentenidentifikationsnummer angezeigt wird. Der Marktwert für ein Patent kann beispielsweise neben der Patentnummer angezeigt werden. In manchen Fällen kann die UI eine textuelle UI oder eine Befehlszeilenschnittstelle sein, welche eine Textzeile anzeigt, die mindestens den Marktwert und die eindeutige Dokumentenidentifikationsnummer umfasst. In manchen Fällen kann die UI Informationen zu Dokumenten enthalten, um entweder ein bestimmtes Dokument hervorzuheben (z. B. eines das von allen Dokumenten im analysierten Korpus einen höchsten Marktwert aufweist), bedingt durch Begrenzungen des verfügbaren Platzes auf dem Bildschirm, wie beispielsweise auf Mobilgeräten, um eine über ein Netzwerk übertragene Datenmenge zu minimieren, oder aus anderen Gründen.
  • 17 ist ein Ablaufdiagramm, welches ein beispielhaftes Verfahren 1700 der automatischen Dokumentenverarbeitung zum Generieren einer UI, die globale Wertungswerte für die Dokumente veranschaulicht, bildlich darstellt. Bei 1702 werden Dokumente empfangen. Zum Beispiel können die Dokumente von einem oder mehreren Datenspeichern empfangen werden, wie zum Beispiel Datenspeicher 102. In einigen Fällen können die Dokumente Text entweder in computerlesbarer Form oder auf andere Weise enthalten, und jedem Dokument kann eine eindeutige Dokumentidentifikationsnummer zugeordnet sein. Diese eindeutige Dokumentenidentifikationsnummer kann genutzt werden, um das Dokument sowie beliebige Teilmengen des Dokuments zu kennzeichnen. Bei einigen Dokumenten, insbesondere Patentdokumenten, kann die eindeutige Dokumentidentifikationsnummer eine Patentnummer oder eine Veröffentlichungsnummer der Patentanmeldung sein. In manchen Fällen können die Dokumente lokal in einer Speichervorrichtung gespeichert sein, welche vom Datenspeicher, der die Dokumente bereitstellte, getrennt ist.
  • In einigen Fällen werden die Dokumente vorverarbeitet, um einen oder mehrere verarbeitete Dokumententeile für jedes der Dokumente zu erzeugen. Die Vorverarbeitung kann das gesamte oder einen Teil des in 8 beschriebenen Verfahrens 800 und/oder des in 9 beschriebenen Verfahrens 900 nutzen. Ein verarbeitetes Dokument kann sich zum Beispiel auf das Dokument nach der Vorverarbeitung beziehen. In einigen Fällen kann die Vorverarbeitung selbst ein Dokument in zwei oder mehr verarbeitete Dokumententeile aufteilen. Wenn beispielsweise Text analysiert wird, der Patentansprüche enthält, kann das Dokument an Stellen nach einem Punkt und vor einer Ziffer in Dokumententeile (z. B. einzelne Patentansprüche) unterteilt werden. In manchen Fällen ist jeder Teil des Dokuments mit der eindeutigen Dokumentenidentifikationsnummer des Quelldokuments verknüpft. Beispielsweise wäre jeder Patentanspruch eines Patents mit der Patentnummer verknüpft. Die verarbeiteten Dokumententeile enthalten einen Teil des Textes aus dem Quelldokument. Die spezifischen technischen Verfahrensweisen der Vorverarbeitung umfassen die Syntaxanalyse (Parsing) von Text, um Wörter zu separieren, wobei Stoppwörter, Wortduplikate und Satzzeichen entfernt werden. In einigen Fällen können einige oder alle Stoppwörter spezifisch für eine Dokumentklassifikation der Dokumente sein. Wenn beispielsweise alle Dokumente mit derselben Patentklassifikation verknüpft sind und es für jene Klassifikation spezifische Stoppwörter gibt, dann können jene spezifischen Stoppwörter anstelle von oder zusätzlich zu allgemeinen Stoppwörtern genutzt werden. In manchen Fällen kann die Vorverarbeitung zusätzliche technische Verfahrensweisen der Vorverarbeitung, wie beispielsweise das Ersetzen von Abkürzungen und/oder Akronymen mit den entsprechenden ganzen Wörtern, mit einschließen.
  • Bei 1704 werden Vergleichs-Reichweitenwerte, Risikowerte und Marktwerte zu den Dokumenten für die Dokumente erzeugt. Zum Beispiel können die Dokumente in einigen Beispielen mittels des Verfahrens 1300 analysiert werden, um die Vergleichs-Reichweitenwerte für die Dokumente zu erzeugen, die Dokumente können mittels des Verfahrens 1400 und/oder Verfahrens 1500 analysiert werden, um die Risikowerte für die Dokumente zu erzeugen, und die Dokumente können mittels des Verfahrens 1600 analysiert werden, um die Marktwerte für die Dokumente zu erzeugen. Zusätzlich oder alternativ können in manchen Fällen die Vergleichs-Reichweitenwerte, die Risikowerte und die Marktwerte von einer oder mehreren externen Quellen empfangen werden. Zum Beispiel können die Vergleichs-Reichweitenwerte, die Risikowerte und die Marktwerte von einem oder mehreren Computer-Geräten empfangen werden.
  • Bei 1706 werden die globalen Wertungswerte für die Dokumente berechnet. Globale Wertungswerte können zum Beispiel für jedes Dokument berechnet werden, wobei für ein jeweiliges Dokument der Vergleichs-Reichweitenwert, der Risikowert und der Marktwert genutzt werden. In manchen Fällen kann das Berechnen des globalen Wertungswerts für ein Dokument das Berechnen des Durchschnitts des Vergleichs-Reichweitenwerts, des Risikowerts und des Marktwerts umfassen. In manchen Fällen kann das Berechnen des Vergleichs-Reichweitenwerts für ein Dokument das Ermitteln des höchsten, des niedrigsten, des Medians oder dergleichen vom Vergleichs-Reichweitenwert, vom Risikowert und vom Marktwert für das Dokument umfassen.
  • Weiterhin können in manchen Fällen einem oder mehreren Vergleichs-Reichweitenwerten, Risikowerten und Marktwerten eine höhere Gewichtung zugewiesen werden, wenn die globalen Wertungswerte für die Dokumente berechnet werden. Zum Beispiel können die globalen Wertungswerte für die Dokumente mit der folgenden Formel berechnet werden: G l o b a l e r   W e r t u n g s w e r t = W C ( C S ) + W R ( R S ) + W M ( M F ) 3
    Figure DE112018002047T5_0012
    In der vorstehenden Gleichung umfasst der globale Wertungswert für ein Dokument eine erste Gewichtung (WC ) mal dem Vergleichs-Reichweitenwert (CS ) des Dokuments plus einer zweiten Gewichtung (WR ) mal dem Risikowert (RF ) des Dokuments plus einer dritten Gewichtung (WM ) mal dem Marktwert (MF ) des Dokuments, geteilt durch drei. In manchen Fällen können ein oder mehrere von erster Gewichtung (WC ), von zweiter Gewichtung (WR ) oder von dritter Gewichtung (WM ) einen ähnlichen Wert enthalten. Zusätzlich oder alternativ kann in manchen Fällen jede von erster Gewichtung (WC ), von zweiter Gewichtung (WR ) oder von dritter Gewichtung (WM ) einen einzigartigen Wert enthalten.
  • Bei 1708 wird eine UI erzeugt, die einen oder mehrere der globalen Wertungswerte umfasst. Eine UI kann zum Beispiel dergestalt erzeugt werden, dass ein globaler Wertungswert für eines der Dokumente in der Nähe der mit jenem Dokument verknüpften eindeutigen Dokumentenidentifikationsnummer angezeigt wird. Der globale Wertungswert für ein Patent kann beispielsweise neben der Patentnummer angezeigt werden. In manchen Fällen kann die UI eine textuelle UI oder eine Befehlszeilenschnittstelle sein, welche eine Textzeile anzeigt, die mindestens den globalen Wertungswert und die eindeutige Dokumentenidentifikationsnummer umfasst. In manchen Fällen kann die UI Informationen zu Dokumenten enthalten, um entweder ein bestimmtes Dokument hervorzuheben (z. B. eines das von allen Dokumenten im analysierten Korpus einen höchsten globalen Wertungswert aufweist), bedingt durch Begrenzungen des verfügbaren Platzes auf dem Bildschirm, wie beispielsweise auf Mobilgeräten, um eine über ein Netzwerk übertragene Datenmenge zu minimieren, oder aus anderen Gründen.
  • Es sollte ferner beachtet werden, dass in manchen Fällen ein globaler Wertungswert für ein Dokument (z. B. ein Patent) auf anderen Faktoren gegründet berechnet oder angepasst werden kann. Die anderen Faktoren können Folgendes umfassen, sind jedoch nicht darauf beschränkt: eine verbleibende Patentlaufzeit für das Patent, eine Historie von Rechtsstreiten, die mit dem Patent in Beziehung stehen, eine Historie von Lizenzierungen, die mit dem Patent in Beziehung stehen, ein Sicherungsrecht, das mit dem Patent in Beziehung steht, eine Eigentümerschaft, die mit dem Patent in Beziehung steht, und/oder eines oder mehrere in Beziehung stehende Patente (z. B. eines oder mehrere in Beziehung stehende Auslandspatente). Im Hinblick auf die verbleibende Patentlaufzeit kann beispielsweise eine bestimmte Patentlaufzeit (z. B. zehn Jahre) genutzt werden, wenn der globale Wertungswert für ein Patent angepasst wird. Zum Beispiel darf der globale Wertungswert für ein Patent nicht angepasst werden, wenn sich die verbleibende Patentlaufzeit mit der festgelegten Patentlaufzeit deckt (z. B. dieser gleich ist), kann jedoch um eine bestimmte Zahl (z. B. 1, 2, 5, 10, usw.) für jedes Jahr verringert werden, bei welchem die verbleibende Patentlaufzeit kleiner als die festgelegte Patentlaufzeit ist, und um eine bestimmte Zahl (z. B. 1, 2, 5, 10, usw.) für jedes Jahr erhöht werden, bei welchem die verbleibende Patentlaufzeit größer als die festgelegte Patentlaufzeit ist.
  • Als ein zweites Beispiel kann ein globaler Wertungswert für ein Patent erhöht werden, wenn das Patent bereits lizenziert ist, und verringert, wenn das Patent noch nicht lizenziert ist und/oder wenn es schwierig wäre, das Patent zu lizenzieren. Als ein drittes Beispiel kann ein globaler Wertungswert für ein Patent erhöht werden, wenn das Patent eines oder mehrere in Beziehung stehende Auslandspatente mit einbezieht, die in einer oder mehreren ausländischen Jurisdiktionen gewährt sind, jedoch verringert werden, wenn das Patent eines oder mehrere in Beziehung stehende Auslandspatente nicht mit einbezieht.
  • VERANSCHAULICHENDE(S) COMPUTER-GERÄT(E)
  • 18 zeigt ein schematisches Blockdiagramm eines beispielhaften Computer-Geräts 1800. Beispiele der Computer-Geräte 1800 können Folgendes umfassen: einen Server, einen Desktop-PC (Personal Computer), ein Notebook oder tragbaren Computer, eine Workstation, einen Mainframe-Computer, ein tragbares Gerät, ein Netbook, eine Internet-Appliance, ein tragbares Lesegerät, ein Lesegerät für elektronische Bücher, ein Tablet oder Slate-Computer, eine Spielekonsole, ein Mobilgerät (z. B. ein Mobiltelefon, ein PDA (Personal Digital Assistant), ein Smartphone usw.) oder eine Kombination davon. Das bzw. die Computer-Gerät(e) 1800 kann/können als ein einzelnes Gerät oder als eine Kombination von mehreren physisch getrennten Geräten realisiert sein. Beispielsweise können das bzw. die Computer-Gerät(e) 1800 als eine Kombination von einem Server und einem Client realisiert sein.
  • Das bzw. die Computer-Geräte) 1800 können eine oder mehrere Verarbeitungseinheiten 1802 und Speicher 1804 umfassen, wobei beide über eine oder mehrere physische oder logische Standorte hinweg verteilt sein können. Die Verarbeitungseinheit(en) 1802 kann bzw. können jede beliebige Kombination von Zentraleinheiten (central processing units, CPUs), grafischen Verarbeitungseinheiten (graphical processing units, GPUs), Einkern-Prozessoren, Mehrkern-Prozessoren, Prozesor-Cluster, anwendungsspezifischer integrierter Schaltung (application-specific integrated circuits, ASICs), programmierbaren Schaltungen, wie beispielsweise feldprogrammierbare Gate-Arrays (field programmable gate arrays, FPGAs), anwendungsspezifischen Standardprodukten (application-specific standard products, ASSPs), System-on-a-Chip-Systemen (SOCs), komplexen programmierbaren Logikbausteinen (complex programmable logic devices, CPLDs) und dergleichen umfassen. Eine oder mehrere der Verarbeitungseinheiten 1802 können, zusätzlich zu Hardware-Implementierungen, in Software oder Firmware implementiert sein. Software- oder Firmware-Implementierungen der Verarbeitungseinheit(en) 1802 können in jeder geeigneten Programmiersprache geschriebene computer- oder maschinenausführbare Anweisungen enthalten, um die verschiedenen beschriebenen Funktionen auszuführen. Software-Implementierungen der Verarbeitungseinheit(en) 1802 können ganz oder teilweise in den Speichern 1804 gespeichert sein.
  • Die Speicher 1804 sind repräsentativ für jede Anzahl an Arten bzw. Formen von Speicher, sowohl persistenten als auch nicht-persistenten Speicher einschließend. In manchen Fällen können die Speicher 1804 computer-lesbare Medien in der Form von flüchtigem Speicher, wie beispielsweise Speicher mit wahlfreiem Zugriff (random access memory, RAM) 1806 und/oder nicht flüchtigem Speicher, wie beispielsweise Nur-Lese-Speicher (read only memory, ROM) 1808 oder Flash-RAM mit einschließen. RAM 1806 umfasst, ist jedoch nicht beschränkt auf integrierte Schaltungen, Phasenwechselspeicher (phase change memory, PRAM), statisches RAM (static random-access memory, SRAM), dynamisches RAM (dynamic random-access memory, DRAM) und andere Arten von RAM. ROM 1808 umfasst löschbaren programmierbaren Nur-Lese-Speicher (erasable programmable read-only memory, EPROM), elektrisch löschbaren programmierbaren Nur-Lese-Speicher (electrically erasable programmable read-only memory, EEPROM), Flash-Speicher und NAND-Flash. Speicher 1804 des bzw. der Computer-Geräte 1800 können außerdem entfernbaren Speicher, nichtentfernbaren Speicher und/oder lokalen Speicher 1810 umfassen, um lang- oder kurzfristige Speicherung von computer-lesbaren Anweisungen, Datenstrukturen, Programmmodulen und sonstigen Daten zu bieten.
  • Die Speicher 1804 sind ein Beispiel computer-lesbarer Medien. Computer-lesbare Medien umfassen mindestens zwei Arten von Medien: computer-lesbare Speichermedien und Kommunikationsmedien. Computer-lesbare Medien umfassen flüchtige und nicht-flüchtige, entfernbare und nicht-entfernbare Medien, die in beliebigem Verfahren oder Technologie zur Speicherung von Daten implementiert sind, wie beispielsweise computer-lesbare Anweisungen, Datenstrukturen, Programmmodule oder sonstige Daten, RAM 1806, ROM 1808, Flash-Speicher oder sonstige Speichertechnologie, Nur-Lese-CD-Speicher (compact disk read-only memory, CD-ROM), DVDs (digital versatile disk) oder sonstiger optischer Speicher, Magnetkassetten, Magnetband-, Magnetplattenspeicher oder sonstige Magnetspeichergeräte, oder jedes sonstige Nicht-Sende-Medium, das zur Speicherung von Daten für den Zugriff durch ein Computer-Gerät genutzt werden kann. Wie hierin definiert, umfassen computer-lesbare Speichermedien keine transitorischen Medien, wie beispielsweise modulierte Datensignale und Trägerwellen.
  • Im Gegensatz dazu können Kommunikationsmedien computer-lesbare Anweisungen, Datenstrukturen, Programmmodule oder sonstige Daten in einem modulierten Datensignal, wie beispielsweise einer Trägerwelle oder einem anderen Übertragungsmechanismus, verkörpern. Wie hierin definiert, schließen sich computer-lesbare Speichermedien und Kommunikationsmedien gegenseitig aus.
  • In manchen Fällen können die Speicher 1804 eine Mehrzahl von Datenbanken, wie beispielsweise den Datenspeicher 102, umfassen. Wie jedoch vorstehend angemerkt, kann der Datenspeicher 102 in anderen Beispielen sowohl von den Speichern 1804 als auch dem bzw. den Computer-Geräten 1800 getrennt sein. Der eine oder die mehreren Datenspeicher 102 können eine Sammlung von Patentschriften, wie beispielsweise erteilte Patente oder veröffentlichte Patentanmeldungen, enthalten. Die Sammlung von Patenten oder Patentanmeldungen können beispielsweise definiert sein durch ein Portfolio eines Patenteigentümers, eine Klassifikation einer Taxonomie (z. B. öffentliche Taxonomie, wie beispielsweise ein Klassifikationssystem eines Patentamts oder Regierungsbehörde, eine private Taxonomie, wie beispielsweise eine Taxonomie für ein Privatunternehmen, eine von einer Normungsorganisation oder einer Branche usw. festgelegte Taxonomie), Ergebnisse einer Suche oder jede sonstige Sammlung von Patentschriften.
  • Beispielhaft und nicht darauf beschränkt, können die Speicher 1804 außerdem mehrere Wörter und/oder Ausdrücke, wie beispielsweise die Stoppwörter 108 sowie die Akronyme und Abkürzungen 110, wie in den 1-3, 5 und 6 dargestellt, sowie weitere Wörter, wie beispielsweise normative Wörter 1812, enthalten. Jede beliebige oder alle der Sammlungen, Wörter und/oder Ausdrücke können in den Speichern 1804 als Listen gespeichert sein oder können direkt im Computer-Code, einem der nachstehend beschriebenen Module entsprechend, enthalten sein.
  • Ein Filtermodul 1814 kann in den Speichern 1804 vorhanden und mit dem einen oder den mehreren Verarbeitungseinheiten 1802 verbunden sein. Das Filtermodul 1814 kann die vom Datenspeicher 102 erlangten Daten modifizieren, um einen reduzierten Satz von Daten zu erzeugen, welcher das Korpus von Dokumenten für die nachfolgende Analyse ist. Das Filtermodul 1814 kann jeden beliebigen oder alle Teile des in 6 beschriebenen Verfahrens 600 ausführen. Das Filtermodul 1814 kann Dokumente aus dem Datenspeicher 102, die nach dem Filtern zurückgehalten werden, im lokalen Speicher 1810 des bzw. der Computer-Geräte 1800 abspeichern. Das Vorhandensein der gefilterten Dokumente im lokalen Speicher 1810 kann eine schnellere Analyse durch die anderen Module, verglichen mit dem Zugriff auf die Dokumente an einem entfernten Speicherort, bieten.
  • Ein Vorverarbeitungsmodul 1816 kann in den Speichern 1804 vorhanden und mit dem einen oder den mehreren Verarbeitungseinheiten 1802 verbunden sein. Das Vorverarbeitungsmodul 1816 kann Dokumententeile, wie beispielsweise Patentansprüche, vor der Bestimmung von Umfang, Anzahl der Teile und Differenzierung verarbeiten. Diese Vorverarbeitung kann Folgendes umfassen: Abgrenzen einzelner Ansprüche, Stammformreduktion von Wörtern zu Wurzelformen, Entfernen von Wurzelformduplikaten, sowie Entfernen von Stoppwörtern 108. Das Vorverarbeitungsmodul 1816 kann jeden beliebigen oder alle Teile des in 9 beschriebenen Verfahrens 900 ausführen. In manchen Fällen können die Stoppwörter 108 von einer Stoppwort-Anpassungsdatei kommen, die eingelesen und für die Verarbeitung von Dokumententeilen genutzt wird. Die Stoppwort-Anpassungsdatei kann für ein bestimmtes Portfolio oder für ein bestimmtes Korpus von Dokumenten spezifisch sein.
  • Das Vorverarbeitungsmodul 1816 kann Stammformreduktionslogik 1818 enthalten. Die Stammformreduktionslogik 1818 erzeugt Wurzelformen von Wörtern mittels eines Stammformreduktionsalgorithmus. Ein Stammformreduktionsalgorithmus ist ein Verfahren der linguistischen Normalisierung, bei welcher die Variantenformen eines Wortes zu einer gemeinsamen Form oder einer Wurzelform reduziert werden. Es gibt viele mögliche Stammformreduktionsalgorithmen, die genutzt werden können, darunter die Nutzung einer Nachschlagetabelle, Suffix-Entfernung, Lemmatisierung, stochastische Algorithmen, N-Gramm-Analyse, Abgleichalgorithmen, Porter, Porter2, Paice-Husk, Lovins und Porter Stemmer. Porter Stemmer folgt dem in Porter, M. „An algorithm for suffix stripping.“ dargestellten Algorithmus. Program 14.3 (1980): 130-137. Die Stammformreduktionslogik 1818 kann teilweise durch Übergeben von Werten an einen externen Stammformreduktionsvorgang und das Zurückerhalten von Ergebnissen arbeiten. Eine technische Verfahrensweise zur Implementierung dessen besteht in der Nutzung einer API zum Aufrufen eines externen Moduls oder Computersystems, welches Stammformreduktionsfunktionalität bereitstellt. Eine Anwendungsprogramm-Schnittstelle (application program interface, API) ist ein Satz von Routinen, Protokollen und Werkzeugen zum Erstellen von Software-Anwendungen. Eine API spezifiziert, wie Software-Komponenten zu interagieren haben. APIs, die Stammformreduktion bereitstellen, umfassen EnClout Stemmer, EnClout Term Analysis und Text-Processing.
  • Ein Anomalieerkennungsmodul 1820 kann in den Speichern 1804 vorhanden und mit dem einen oder den mehreren Verarbeitungseinheiten 1802 verbunden sein. Das Anomalieerkennungsmodul 1820 kann zwei Arten von Anomalien erkennen: Anomalien, die zu einem Entfernen eines Patentanspruchs von der weiteren Analyse fuhren, und Anomalien, die das Kennzeichnen eines Patentanspruchs zur manuellen Überprüfung zur Folge haben. Das Anomalieerkennungsmodul 1820 kann Logik zum Entfernen von Ansprüchen umfassen, welche dafür eingerichtet ist, gelöschte Ansprüche zu erkennen und von den zwecks Analyse von Umfang, Anzahl von Teilen und Differenzierung unter Betrachtung stehenden Ansprüchen zu entfernen. Das Entfernen gelöschter Ansprüche kann das Löschen von Datensätzen, die mit jenen Ansprüchen in Beziehung stehen, umfassen, oder das Kennzeichnen, dass die Datensätze, die mit den Ansprüchen in Beziehung stehen, während der nachfolgenden Analyse zu ignorieren sind. Anspruchskennzeichnungslogik kann im Anomalieerkennungsmodul 1820 vorhanden sein und dafür eingerichtet sein, ein Kennzeichen oder eine andere Markierung zu erzeugen, das bzw. die mit diesen Kennzeichen verknüpft ist, welche eine Art von Anomalie bezeichnen, die eine weitere Überprüfung rechtfertigt, jedoch keine Entfernung.
  • Das Anomalieerkennungsmodul 1820 kann eine oder mehrere Listen mit Stoppwörtern 108 und/oder normativen Wörtern 1812 referenzieren. Die Referenzierung kann während der Verarbeitung durch Einlesen einer Liste bewerkstelligt werden oder die Liste kann in den Code integriert sein, der die Anomalieerkennung ausführt. In beiden Implementierungen kann ein Teil des Abschnitts einen Vergleich zwischen Wörtern in einem Teil des Dokuments und „anomalen“ Wörtern umfassen. Dieser Vergleich kann teilweise durch Nutzung von einer oder mehreren Nachschlagetabellen implementiert sein. Die Nachschlagetabellen können vorberechnet und im statischen Programmspeicher gespeichert sein, als Teil der Initialisierungsphase eines Programms (Memoisation) berechnet (oder „vorabgerufen“) werden, oder sogar in anwendungsspezifischen Plattformen in der Hardware gespeichert sein. Bei einigen programmgesteuerten Implementierungen können die Nachschlagetabellen Zeigerfunktionen (oder Versätze zu Marken) enthalten, um die passende Eingabe zu verarbeiten. Um die Verarbeitungsgeschwindigkeit zu erhöhen, können ein oder mehrere feldprogrammierbare Gate-Arrays (FPGAs) rekonfigurierbare, hardware-implementierte Nachschlagetabellen nutzen, um programmierbare Hardware-Funktionalität zu bieten. Beispielsweise, und um die Verarbeitungsgeschwindigkeit potenziell zu steigern, könnte(n) eine Liste mit standardmäßigen Stoppwörtern und/oder eine Liste der normativen Wörter 1812 als hardware-implementierte Nachschlagetabellen konfiguriert sein.
  • Ein Umfangsberechnungsmodul 1822 kann in den Speichern 1804 vorhanden und mit dem einen oder den mehreren Verarbeitungseinheiten 1802 verbunden sein. Das Umfangsberechnungsmodul 1822 kann dafür eingerichtet sein, Umfangswerte für Dokumententeile von Dokumenten, die gerade analysiert werden, zu berechnen, die Umfangswerte dazu zu nutzen, gesamtheitliche Umfangswerte für Dokumente zu berechnen, und dann die gesamtheitlichen Umfangswerte zum Berechnen von Vergleichs-Umfangswerten für die Dokumente zu nutzen. Falls die Dokumententeile Patentansprüche sind, kann das Umfangsberechnungsmodul 1822 dann Anspruchsumfangswerte für einen oder mehrere der unabhängigen Ansprüche und/oder einen oder mehrere der abhängigen Ansprüche berechnen, und sodann mittels der Anspruchsumfangswerte gesamtheitliche Umfangswerte für Patente berechnen. In manchen Fällen kann die Berechnung lediglich für Ansprüche oder andere Dokumententeile durchgeführt werden, die entweder vom Vorverarbeitungsmodul 1816 oder dem Anomalieerkennungsmodul 1820 nicht entfernt wurden.
  • Wie vorstehend beschrieben, ist der Umfang in manchen Fällen auf den „Fußabdruck“ gegründet, bei dem einer oder mehrere Dokumententeile eine Gesamtheit des Gegenstands des Korpus von Dokumenten abdecken. Zusätzlich oder alternativ ist in manchen Fällen der Umfang auf einen Wörteranzahlwert und einen am-häufigsten-Wert gegründet. Somit kann das Umfangsberechnungsmodul 1822 eines oder beides von einem Wörteranzahlwert-Berechnungsmodul 1824 und einem Häufigkeitswert-Berechnungsmodul 1826 umfassen. Das Umfangsberechnungsmodul 1822 kann beliebige oder alle der Operationen 1004-1022 des in 10 beschriebenen Verfahrens 1000 ausführen.
  • Das Wörteranzahlwert-Berechnungsmodul 1824 kann dafür eingerichtet sein, einen Wörteranzahlwert für einen Dokumententeil zu ermitteln, basierend auf einer Wörterzahl für den Dokumententeil und einer höchsten Wörterzahl für einen anderen Dokumententeil, welcher die höchste Wörterzahl aufweist. In manchen Fällen werden beide, der analysierte Dokumententeil und der andere Dokumententeil mit der höchsten Wörterzahl, von demselben Korpus von Dokumenten herangezogen. Somit kann das Wörteranzahlwert-Berechnungsmodul 1824 eine Wörterzahl für jeden analysierten Dokumententeil ermitteln und bestimmen, welcher dieser Dokumententeile die meisten Wörter aufweist. In manchen Fällen kann das Wörteranzahlwert-Berechnungsmodul 1824 einen Satz von Regeln zur Ermittlung von Wörterzahlen für die Dokumententeile enthalten.
  • Das Häufigkeitswert-Berechnungsmodul 1826 kann dafür eingerichtet sein, einen Häufigkeitswert für den Dokumententeil zu ermitteln, gegründet auf den Häufigkeiten, in welchen einzelne Wörter in dem Dokumententeil über alle Dokumententeile im Korpus von Dokumenten hinweg vorkommen. Das Häufigkeitswert-Berechnungsmodul 1826 kann einen Häufigkeitswert für jeden analysierten Dokumententeil ermitteln und bestimmen, welcher dieser Dokumententeile aufgrund des höchsten Häufigkeitswerts der „allgemeinste“ ist. In manchen Fällen kann das Verhältnis des individuellen Häufigkeitswerts eines Dokumententeils und dem höchsten Häufigkeitswert dazu genutzt werden, den Häufigkeitswert für diesen Dokumententeil für die Zwecke der Umfangsberechnung wiederzugeben. In manchen Fällen kann das Häufigkeitswert-Berechnungsmodul 1826 einen Satz von Regeln zur Ermittlung der Häufigkeitswerte enthalten. Das Umfangsberechnungsmodul 1822 kann vom Wörteranzahlwert-Berechnungsmodul 1824 und dem Häufigkeitswert-Berechnungsmodul 1826 erzeugte Ergebnisse miteinander kombinieren, um einen Umfangswert für jeden Dokumententeil zu erzeugen.
  • Ein Teileanzahl-Berechnungsmodul 1828 kann in den Speichern 1804 vorhanden und mit dem einen oder den mehreren Verarbeitungseinheiten 1802 verbunden sein. Das Teileanzahl-Berechnungsmodul 1828 kann dafür eingerichtet sein, Vergleichs-Teilezählwerte für Dokumente zu berechnen, die gerade analysiert werden. Das Teileanzahl-Berechnungsmodul 1828 kann zum Beispiel einen entsprechenden Wert ermitteln, welcher der Anzahl von Dokumententeilen innerhalb eines jeden der Dokumente entspricht, und dann den jeweiligen Wert für jedes Dokument mit den Werten der anderen analysierten Dokumente vergleichen, um jeweilige gesamtheitliche Teilezählwerte für die Dokumente zu ermitteln. In manchen Fällen, wenn Dokumente Patente und/oder Patentanmeldungen enthalten, kann das Teileanzahl-Berechnungsmodul 1828 einem oder mehreren unabhängigen Ansprüchen oder einem oder mehreren abhängigen Ansprüchen eine höhere Gewichtung zuweisen, wenn die gesamtheitlichen Teilezählwerte berechnet werden. Das Teileanzahl-Berechnungsmodul 1828 kann dann die gesamtheitlichen Teilezählwerte der Dokumente zum Berechnen von Vergleichs-Teilezählwerten für die Dokumente nutzen. Das Teileanzahl-Berechnungsmodul 1828 kann beliebige oder alle der Operationen 1104-1108 des in 11 beschriebenen Verfahrens 1100 ausführen.
  • Ein Differenzierungsberechnungsmodul 1830 kann in den Speichern 1804 vorhanden und mit dem einen oder den mehreren Verarbeitungseinheiten 1802 verbunden sein. Das Differenzierungsberechnungsmodul 1830 kann dafür eingerichtet sein, Vergleichs-Differenzierungswerte für Dokumente zu berechnen, die gerade analysiert werden. Die Differenzierung von Dokumententeilen kann zum Beispiel gegründet auf die Abwägung von Wörterzahlen und der Differenzierung von Wörtern zwischen Dokumententeilen innerhalb eines bestimmten Dokuments analysiert werden. Für einen bestimmten Dokumententeil eines bestimmten Dokuments kann das Differenzierungsberechnungsmodul 1830 beispielsweise die Anzahl der Wörter im bestimmten Dokumententeil ermitteln. Außerdem kann das Differenzierungsberechnungsmodul 1830 Wörter im bestimmten Dokumententeil mit Wörtern in mindestens einem anderen Dokumententeil (z. B. dem umfassendsten Dokumententeil) im bestimmten Dokument vergleichen, um eine Anzahl der Wörter, die einzigartig sind, im bestimmten Dokumententeil zu ermitteln. Das Differenzierungsberechnungsmodul 1830 kann dann einen Differenzierungswert für den bestimmten Dokumententeil, basierend auf der Anzahl der Wörter und der Anzahl einzigartiger Wörter, berechnen. Außerdem kann das Differenzierungsberechnungsmodul 1830 einen gesamtheitlichen Differenzierungswert für das bestimmte Dokument, basierend auf den Differenzierungswerten von einem oder mehreren der Dokumententeile des bestimmten Dokuments, berechnen. Das Differenzierungsberechnungsmodul 1830 kann dann die gesamtheitlichen Differenzierungswerte der Dokumente zum Berechnen von Vergleichs-Differenzierungswerten für das Dokument nutzen. Das Differenzierungsberechnungsmodul 1830 kann beliebige oder alle der Operationen 1204-1218 des in 12 beschriebenen Verfahrens 1200 ausführen.
  • Ein Reichweitenberechnungsmodul 1832 kann in den Speichern 1804 vorhanden und mit dem einen oder den mehreren Verarbeitungseinheiten 1802 verbunden sein. Das Reichweitenberechnungsmodul 1832 kann dafür eingerichtet sein, Vergleichs-Reichweitenwerte für Dokumente zu berechnen, die gerade analysiert werden. Das Reichweitenberechnungsmodul 1832 kann zum Beispiel für jedes Dokument, basierend auf dem Vergleichs-Umfangswert, dem Vergleichs-Teilezählwert und dem Vergleichs-Differenzierungswert für das jeweilige Dokument, einen Vergleichs-Reichweitenwert berechnen. In manchen Fällen kann das Reichweitenberechnungsmodul 1832 den Vergleichs-Reichweitenwert für ein Dokument durch Ermitteln eines Durchschnitts (und/oder Median, Mittelwert, Modalwert, niedrigster Wert, höchster Wert usw.) des Vergleichs-Umfangswerts, des Vergleichs-Teilezählwerts und des Vergleichs-Differenzierungswerts berechnen. In manchen Fällen kann das Reichweitenberechnungsmodul 1832, wenn der Vergleichs-Reichweitenwert für ein Dokument berechnet wird, einen oder mehrere der folgenden Faktoren gewichten: Vergleichs-Umfangswert, Vergleichs-Teilezählwert und Vergleichs-Differenzierungswert. Das Reichweitenberechnungsmodul 1832 kann beliebige oder alle der Operationen 1304 und 1306 des in 13 beschriebenen Verfahrens 1300 ausführen.
  • Ein Risikoberechnungsmodul 1834 kann in den Speichern 1804 vorhanden und mit dem einen oder den mehreren Verarbeitungseinheiten 1802 verbunden sein. Das Risikoberechnungsmodul 1834 kann dafür eingerichtet sein, Risikowerte für Dokumente zu berechnen, die gerade analysiert werden. Das Risikoberechnungsmodul 1834 kann zum Beispiel ein bestimmtes Dokument analysieren, um werthaltige Objekte zu bestimmen, die mit Folgendem in Beziehung stehen: dem bestimmten Dokument, mit Referenzen, die während des Patenterteilungsverfahrens des bestimmten Dokuments benannt wurden, dem Anspruchsumfang von Ansprüchen im bestimmten Dokument und/oder dem mit dem bestimmten Dokument verknüpften Verlauf des Erteilungsverfahrens. Das Risikoberechnungsmodul 1834 kann dann einen Risikowert für das bestimmte Dokument, basierend auf einem oder mehreren der folgenden Faktoren berechnen: den ermittelten werthaltigen Objekten, den benannten Referenzen, dem Anspruchsumfang und dem Verlauf des Erteilungsverfahrens. Zum Beispiel kann das Risikoberechnungsmodul 1834 beliebige oder alle der Operationen 1404-1412 von 14 oder beliebige oder alle der Operationen 1504-1512 von 15 ausführen.
  • Ein Marktberechnungsmodul 1836 kann in den Speichern 1804 vorhanden und mit dem einen oder den mehreren Verarbeitungseinheiten 1802 verbunden sein. Das Marktberechnungsmodul 1836 kann dafür eingerichtet sein, Marktwerte für die Dokumente zu berechnen, die gerade analysiert werden. Das Marktberechnungsmodul 1836 kann zum Beispiel ein bestimmtes Dokument analysieren, um eine dem bestimmten Dokument zugeordnete anfängliche Klassifikation zu bestimmen. In manchen Fällen, wenn das Dokument ein Patent ist, ist die anfängliche Klassifikation auf der CPC gegründet. Das Marktberechnungsmodul 1836 kann dann mittels der anfänglichen Klassifikation für das Dokument eine Marktklassifikation bestimmen. Außerdem kann das Marktberechnungsmodul 1836 einen mit der Marktklassifikation verknüpften Wert bestimmen und, basierend auf dem Wert, für das bestimmte Dokument einen Marktwert berechnen. Zum Beispiel kann das Marktberechnungsmodul 1836, basierend auf dem mit der Marktklassifikation verknüpften BIP, für das bestimmte Dokument einen Marktwert berechnen. Das Marktberechnungsmodul 1836 kann beliebige oder alle der Operationen 1604-1610 von 16 ausführen.
  • Ein globales Berechnungsmodul 1838 kann in den Speichern 1804 vorhanden und mit dem einen oder den mehreren Verarbeitungseinheiten 1802 verbunden sein. Das globale Berechnungsmodul 1838 kann dafür eingerichtet sein, globale Wertungswerte für die Dokumente zu berechnen, die gerade analysiert werden. Das globale Berechnungsmodul 1838 kann zum Beispiel für jedes Dokument, basierend auf dem Vergleichs-Reichweitenwert, dem Risikowert und dem Marktwert für das jeweilige Dokument, einen globalen Wertungswert berechnen. In manchen Fällen kann das globale Berechnungsmodul 1838 den globalen Wertungswert für ein Dokument durch Ermitteln eines Durchschnitts (und/oder Median, Mittelwert, Modalwert, niedrigster Wert, höchster Wert usw.) des Vergleichs-Reichweitenwerts, des Risikowerts und des Marktwerts berechnen. In manchen Fällen kann das globale Berechnungsmodul 1838, wenn der globale Wertungswert für ein Dokument berechnet wird, einen oder mehrere der folgenden Faktoren gewichten: Vergleichs-Reichweitenwert, Risikowert und Marktwert. Das globale Berechnungsmodul 1838 kann beliebige oder alle der Operationen 1704 und 1706 des in 17 beschriebenen Verfahrens 1700 ausführen.
  • Ein Rangordnungsmodul 1840 kann in den Speichern 1804 vorhanden und mit dem einen oder den mehreren Verarbeitungseinheiten 1802 verbunden sein. Das Rangordnungsmodul 1840 kann dafür eingerichtet sein, die analysierten Dokumente nach Vergleichs-Umfangswerten, Vergleichs-Teilezählwerten, Vergleichs-Differenzierungswerten, Vergleichs-Reichweitenwerten, Risikowerten, Marktwerten und/oder globalen Wertungswerten in eine Rangfolge zu bringen. Das Rangordnungsmodul 1840 kann beispielsweise eine Anzahl von Patenten, basierend auf den Vergleichs-Umfangswerten, den Vergleichs-Teilezählwerten, den Vergleichs-Differenzierungswerten, den Vergleichs-Reichweitenwerten, Risikowerten, den Marktwerten und/oder den globalen Wertungswerten, in eine Rangfolge bringen.
  • In einer Implementierung kann das Rangordnungsmodul 1840 die Ergebnisse der Rangordnung zusätzlich in eine von einer bestimmten Anzahl von Werten einteilen. Eine Implementierung der Klasseneinteilung ist die nach Perzentilen. Somit würde allen aus dem obersten 1 % der analysierten Dokumente bezüglich globaler Wertungswerte ein Rang von 100 zugewiesen. Die Klasseneinteilung kann die in Rangordnung gebrachten Dokumente in jede Anzahl unterschiedlicher Klassen aufteilen, wie beispielsweise drei unterschiedliche Klassen (z. B. hoch, mittel und niedrig), 10 unterschiedliche Klassen, 100 unterschiedliche Klassen oder mehr. Somit kann jedes Dokument eine Rangordnung von 1 bis 100 aufweisen, wobei sich mehrere Dokumente auf derselben numerischen Ebene befinden, anstatt dass 100.000 Dokumente bezüglich endgültiger gesamtheitlicher Wertungswerte in eine Rangordnung von 1 bis 100.000 gebracht sind, wobei jeder Rang einmalig ist.
  • Einige der vorstehend beschriebenen Operationen umfassen Summation, Subtraktion, Multiplikation und/oder Division. Die Verarbeitungseinheit(en) 1802 kann bzw. können diese Operationen mittels Gleitkommaberechnungen implementieren. Gleitkomma ist eine formelhafte Repräsentation, die eine reale Zahl approximiert, um einen Kompromiss zwischen Bereichsgröße und Genauigkeit zu unterstützen. Eine Zahl wird im Allgemeinen approximativ zu einer festen Anzahl signifikanter Stellen (die Mantisse) dargestellt und mittels eines Exponenten auf einer festgelegten Basis skaliert; die Basis für die Skalierung ist normalerweise zwei, zehn oder sechzehn. Eine Zahl, die präzise dargestellt werden kann, hat die folgende Form: Mantisse × BasisExponent, wobei die Mantisse eine ganzzahlige Basis ist und eine Ganzzahl größer oder gleich zwei ist, und wobei der Exponent ebenfalls eine Ganzzahl ist. Der Begriff „Gleitkomma“ bezieht sich auf das Faktum, dass der Radixpunkt (Dezimalpunkt, oder bei Computern gebräuchlicher, Binärkomma) „gleiten“ kann; dies bedeutet, dass er an beliebiger Stelle relativ zu den signifikanten Stellen der Zahl platziert sein kann. Diese Position wird als Exponentenkomponente bezeichnet, und somit ist die Gleitkommarepräsentation eine Form wissenschaftlicher Notation.
  • Ein Gleitkommasystem kann dazu genutzt werden, Zahlen unterschiedlicher Größenordnungen mit einer festen Anzahl von Stellen darzustellen. Die Folge dieser dynamischen Bereichsgröße besteht darin, dass die darstellbaren Zahlen nicht einheitlich beabstandet sind; die Differenz zwischen zwei aufeinander folgenden darstellbaren Zahlen wächst mit der gewählten Skalierung. Eine beispielhafte Verfahrensweise für die Gleitkommaberechnung ist in der Norm IEEE 754 beschrieben. Die aktuelle Fassung, IEEE 754-2008, wurde im August 2008 veröffentlicht. Die internationale Norm ISO/IEC/IEEE 60559:2011 (mit Inhalt identisch mit IEEE 754-2008) ist als ISO/IEC/IEEE 60559:2011 „Information technology -- Microprocessor Systems --Floating-Point arithmetic“ veröffentlicht.
  • Eine Gleitkommazahl besteht aus zwei Festpunktkomponenten, deren Bereichsgröße ausschließlich von der Anzahl von Bits oder Stellen in ihrer Repräsentation abhängt. Die Komponenten hängen linear von ihrer Bereichsgröße ab, wobei die Gleitkomma-Bereichsgröße linear von der signifikanten Bereichsgröße und exponentiell von der Bereichsgröße der Exponentenkomponente abhängt, was der Zahl eine außerordentlich weite Bereichsgröße verleiht. Auf einem beispielhaften Computersystem weist eine binäre Gleitkommazahl mit „doppelter Genauigkeit“ (64-Bit) einen Koeffizienten von 53 Bits (eines davon ist implizit), einen Exponenten von 11 Bits und ein Vorzeichenbit auf. Positive Gleitkommazahlen in diesem Format weisen eine approximative Bereichsgröße von 10-308 bis 10308 auf, da die Bereichsgröße des Exponenten [-1022, 1023] beträgt und 308 approximativ log10(21023) ist. Die vollständige Bereichsgröße des Formats reicht von etwa -10308 bis +10308 (siehe IEEE 754).
  • Die Anzahl normalisierter Gleitkommazahlen in einem System (B, P, L, U), wobei B die Basis des Systems ist, P die Genauigkeit des Systems zu P Zahlen ist, L der kleinste im System darstellbare Exponent ist, und U der größte im System genutzte Exponent ist, beträgt 2(B-1)(BP-1)(U-L+1)+1.
  • Es gibt eine kleinste normalisierte positive Gleitkommazahl, Bereichsunterschreitungsniveau (Underflow level) = UFL = BL, welche eine 1 als führende Ziffer und 0 für die verbleibenden Ziffern der Mantisse sowie den kleinstmöglichen Wert für den Exponenten aufweist. Es gibt eine größte Gleitkommazahl, Bereichsüberschreitungsniveau (Overflow level) = OFL = (1-BP)(BU+1), welche B - 1 als Wert für jede Ziffer der Mantisse und den größtmöglichen Wert für den Exponenten aufweist.
  • Ein UI-Erzeugungsmodul 1842 kann in den Speichern 1804 vorhanden und durch die Verarbeitungseinheit(en) 1802 implementiert sein. Das UI-Erzeugungsmodul 1842 kann Anweisungen erzeugen oder bereitstellen, um eine oder mehrere Benutzeroberflächen, wie beispielsweise Befehlszeilenschnittstellen und/oder grafische Benutzeroberflächen, zu erzeugen. Eine Befehlszeilenschnittstelle (auch als ein Befehlssprachen-Interpreter (command language interpreter, CLI), eine Befehlszeilenbenutzeroberfläche, eine Konsolenbenutzeroberfläche oder eine zeichenbasierte Benutzeroberfläche (character user interface, CUI) bekannt) ist eine Schnittstelle für die Interaktion mit einem Computerprogramm, wobei der Benutzer (oder Client) Befehle an das Programm in Form von aufeinanderfolgenden Textzeilen (Befehlszeilen) erteilt. Die Schnittstelle ist normalerweise mit einer Befehlszeilen-Shell implementiert, wobei es sich um ein Programm handelt, das Texteingabe entgegennimmt und Befehle in entsprechende Betriebssystemfunktionen konvertiert.
  • Eine GUI ist eine Programmschnittstelle, welche die Grafikfähigkeiten eines Computers vorteilhaft nutzt, um die Benutzung des Programms einfacher zu gestalten. Gut konzipierte GUIs können einen Benutzer vom Erlernen komplexer Befehlssprachen befreien. In manchen Fällen kann das UI-Erzeugungsmodul 1842 eine GUI erzeugen, wie beispielsweise die in 1 dargestellte UI 120, die in 2 dargestellte UI 206, die in 3 dargestellte UI 308, die in 4 dargestellte UI 412, die UI 512 von 5, die UI 606 von 6 und/oder die UI 702 von 7.
  • Das bzw. die Computer-Gerät(e) 1800 können eine oder mehrere Kommunikationsschnittstellen 1844 zum Empfangen und Senden von Daten umfassen. Die Kommunikationsschnittstellen 1844 können das bzw. die Computer-Gerät(e) 1800 mit einem Kommunikationsnetzwerk mittels jedes beliebigen konventionellen Netzwerkprotokolls oder jeder beliebigen konventionellen Netzwerktechnologie kommunikativ verbinden. Das bzw. die Computer-Gerät(e) 1800 können außerdem Eingabe-/Ausgabekomponenten 1846 zum Empfangen von Eingaben von menschlichen Bedienern (z. B. eine Tastatur) und zum Bereitstellen von Ausgaben (z. B. ein Bildschirm) an die menschlichen Bediener umfassen.
  • SCHLUSSFOLGERUNGEN
  • Obgleich der Gegenstand in einer Sprache beschrieben ist, die für strukturelle Funktionalitäten spezifisch ist, versteht es sich, dass der in den angefügten Ansprüchen definierte Gegenstand nicht notwendigerweise auf die beschriebenen Eigenschaften und Funktionalitäten beschränkt ist. Die spezifischen Eigenschaften und Funktionalitäten werden vielmehr als veranschaulichende Formen der Implementierung der Ansprüche offenbart.
  • Die Begriffe „ein“, der“ und ähnliche Referenten, die im Kontext der Beschreibung der Erfindung (insbesondere im Kontext der nachfolgenden Ansprüche) genutzt werden, sind so auszulegen, dass sie, sofern hierin nicht anders angegeben oder durch den Kontext klar widerlegt, sowohl den Singular als auch den Plural abdecken. Wie hierin verwendet, bedeutet „oder“ in diesem Dokument „und/oder“. Beispielsweise bedeutet „A oder B“ A ohne B, B ohne A oder A und B. Die Begriffe „basierend auf“, „basiert auf“ und „gegründet auf“ sind so auszulegen, dass sie sowohl exklusive als auch nicht-exklusive Beziehungen abdecken. Beispielsweise bedeutet „A basiert auf B“, dass A zumindest teilweise auf B basiert und vollumfänglich auf B basieren kann.
  • Bestimmte Ausführungsformen werden hierin beschrieben, darunter die den Erfindern zur praktischen Anwendung der Erfindung bekannte bestmögliche Ausführungsform. Selbstverständlich werden für Fachleute beim Lesen der vorangehenden Beschreibung Variationen zu diesen beschriebenen Ausführungsformen ersichtlich. Handwerklich geschickte Fachleute wissen, wie sie derartige Variationen, soweit erforderlich, nutzen, und die hierin offenbarten Ausführungsformen können auf andere Art und Weise als im Einzelnen beschrieben praktisch angewendet werden. Dementsprechend sind alle Modifikationen und Entsprechungen des in den hierzu angefügten Ansprüchen wiedergegebenen Gegenstands in den Schutzbereich dieser Offenbarung einbezogen. Darüber hinaus wird, sofern nicht anders angegeben oder anderweitig durch den Kontext klar widerlegt, jegliche Kombination der vorstehend beschriebenen Elemente in allen möglichen Variationen davon von der Erfindung umspannt.
  • Des Weiteren wurden Verweise zu Veröffentlichungen, Patenten oder Patentanmeldungen (gemeinschaftlich „Verweise“ bzw. „Referenzen“) in dieser Patentschrift vermerkt. Jede der benannten Referenzen ist individuell zwecks ihrer bestimmten genannten Lehren sowie zwecks all dem, was sie offenbaren, durch Verweis einbezogen.
  • BEISPIELHAFTE KLAUSELN
  • A: System, Folgendes umfassend: einen oder mehrere Prozessoren; und einen oder mehrere Speicher, die Anweisungen speichern, welche, wenn sie durch den einen oder die mehreren Prozessoren ausgeführt werden, bewirken, dass der eine oder die mehreren Prozessoren Operationen ausführen, Folgendes umfassend: Empfangen einer Mehrzahl von Dokumenten; Berechnen, zumindest für einen in einem Dokument aus der Mehrzahl von Dokumenten enthaltenen Abschnitt, eines Wörteranzahlwerts durch Vergleichen einer mit dem Abschnitt verknüpften Wörterzahl mit jeweiligen Wörterzahlen, die mit Ansprüchen von mindestens einem anderen Dokument aus der Mehrzahl von Dokumenten verknüpft sind; Berechnen eines Häufigkeitswerts für den Abschnitt, zumindest teilweise basierend auf einer Häufigkeit, in der Wörter innerhalb des Abschnitts in den Ansprüchen von dem zumindest einen anderen Dokument gefunden werden; Berechnen eines gesamtheitlichen Umfangswerts für das Dokument, zumindest teilweise basierend auf dem Wörteranzahlwert und dem Häufigkeitswert; Berechnen eines ersten Wertungswerts für das Dokument, zumindest teilweise basierend auf dem Vergleichen des gesamtheitlichen Umfangswerts mit mindestens einem weiteren gesamtheitlichen Umfangswert für das mindestens eine weitere Dokument; Analysieren des Inhalts des Dokuments, um eine Mehrzahl von Dokumenten zu bestimmen, die mit dem Dokument in Beziehung stehen; Ermitteln einer Anzahl von Dokumenten aus der Mehrzahl von Dokumenten, die jeweilige Prioritätsdatumswerte aufweisen, welche einem Prioritätsdatum des Dokuments zeitlich vorausgehen; Berechnen eines zweiten Wertungswerts für das Dokument, zumindest teilweise basierend auf der Anzahl der Dokumente; Analysieren des Inhalts des Dokuments, um aus einer Mehrzahl von Klassifikationen eine Klassifikation, dem Dokument entsprechend, zu bestimmen; Berechnen eines dritten Wertungswerts für das Dokument, zumindest teilweise basierend auf dem Vergleich eines mit der Klassifikation verknüpften Werts mit einem Gesamtwert, der mit der Mehrzahl von Klassifikationen verknüpft ist; Berechnen eines globalen Wertungswerts für das Dokument, zumindest teilweise basierend auf dem ersten Wertungswert, dem zweiten Wertungswert und dem dritten Wertungswert; und Erzeugen einer Benutzeroberfläche, die zumindest den globalen Wertungswert für das Dokument enthält.
  • B: System, wie Abschnitt A wiedergibt, wobei das Berechnen des globalen Wertungswerts für das Dokument das Berechnen eines Durchschnitts vom ersten Wertungswert, vom zweiten Wertungswert und vom dritten Wertungswert umfasst.
  • C: System, wie einer der Abschnitte A oder B wiedergibt, wobei die Operationen ferner Folgendes umfassen: Berechnen eines ersten gewichteten Wertungswerts durch Multiplizieren des ersten Wertungswerts mit einer ersten Gewichtung; Berechnen eines zweiten gewichteten Wertungswerts durch Multiplizieren des zweiten Wertungswerts mit einer zweiten Gewichtung, wobei sich die zweite Gewichtung von der ersten Gewichtung unterscheidet; und Berechnen eines dritten gewichteten Wertungswerts durch Multiplizieren des dritten Wertungswerts mit einer dritten Gewichtung, wobei sich die dritte Gewichtung von mindestens einer Gewichtung, der ersten oder der zweiten Gewichtung, unterscheidet, wobei die Berechnung des globalen Wertungswerts für das Dokument das Berechnen eines Durchschnitts vom ersten gewichteten Wertungswert, vom zweiten gewichteten Wertungswert und vom dritten gewichteten Wertungswert umfasst.
  • D: System, wie einer der Abschnitte A-C wiedergibt, wobei der Abschnitt ein erster Abschnitt ist, und wobei die Operationen ferner Folgendes umfassen: Bestimmen einer ersten Anzahl von im Dokument enthaltenen Ansprüchen; Berechnen eines Vergleichs-Teilezählwerts für ein Dokument durch Vergleichen der ersten Anzahl von Ansprüchen mit zumindest einer zweiten Anzahl von Ansprüchen, die in dem zumindest einen anderen Dokument enthalten sind; und Berechnen eines ersten Differenzierungswerts für das Dokument, wobei der erste Differenzierungswert zumindest teilweise auf Unterschieden zwischen einem oder mehreren ersten Wörtern im ersten Abschnitt gegenüber einem oder mehreren zweiten Wörtern in einem zweiten Abschnitt, der im Dokument enthalten ist, gegründet ist; und Berechnen eines Vergleichs-Differenzierungswerts für das Dokument durch Vergleichen des ersten Differenzierungswerts mit zumindest einem zweiten Differenzierungswert des mindestens einen anderen Dokuments; wobei das Berechnen des ersten Wertungswerts für das Dokument ferner auf den Vergleichs-Teilezählwert und den Vergleichs-Differenzierungswert gegründet ist.
  • E: System, wie einer der Abschnitte A-D wiedergibt, wobei das Dokument ein erstes Dokument ist und der globale Wertungswert ein erster globaler Wertungswert ist, und wobei die Operationen ferner Folgendes umfassen: Bestimmen aus der Mehrzahl von Dokumenten zumindest eines zweiten Dokuments, das mit dem ersten Dokument in Beziehung steht; Berechnen eines zweiten globalen Wertungswerts für das zweite Dokument; und Berechnen eines dritten globalen Wertungswerts durch Ermitteln eines Durchschnitts des ersten globalen Wertungswerts und des zweiten globalen Wertungswerts.
  • F: System, wie einer der Abschnitte A-E wiedergibt, wobei: das Analysieren des Inhalts zur Bestimmung der Klassifikation das Analysieren des Inhalts des Dokuments, um aus einer Mehrzahl von Branchenklassifikationen eine Branchenklassifikation, dem Dokument entsprechend, zu bestimmen, umfasst; und das Berechnen des dritten Wertungswerts für das Dokument, zumindest teilweise auf dem Vergleichen des mit der Klassifikation verknüpften Werts mit dem mit der Mehrzahl von Klassifikationen verknüpften Gesamtwert basierend, das Berechnen des dritten Wertungswerts durch Vergleichen eines Teils einer mit der Branchenklassifikation verknüpften Finanzkennziffer mit der Finanzkennziffer, die mit der Mehrzahl von Branchenklassifikationen verknüpft ist, umfasst.
  • G: System, wie einer der Abschnitte A-E wiedergibt, wobei die Operationen ferner Folgendes umfassen: Bestimmen, zumindest teilweise auf den Prioritätsdatumswerten des Dokuments basierend, einer dem Dokument zugeordneten verbleibenden Dokumentenlaufzeit, und wobei das Berechnen des globalen Wertungswerts ferner auf die verbleibende Dokumentenlaufzeit gegründet ist.
  • H: Verfahren, Folgendes umfassend: Erlangen von erstem Text von einem ersten Dokument und von zweitem Text von einem zweiten Dokument; Erzeugen, für das erste Dokument, eines ersten Umfangswerts, zumindest teilweise auf einem Wörteranzahlwert und einem Häufigkeitswert basierend, für einen Teil des ersten Texts des ersten Dokuments; Erzeugen eines ersten Wertungswerts für das erste Dokument, zumindest teilweise auf dem ersten Umfangswert und einem zweiten Umfangswert des zweiten Dokuments basierend; Analysieren des ersten Texts des ersten Dokuments, um eine Mehrzahl in Beziehung stehender Dokumente zu ermitteln, die mit dem ersten Dokument in Beziehung stehen; Bestimmen einer Anzahl von Dokumenten aus der Mehrzahl von in Beziehung stehenden Dokumenten, die einem Prioritätsdatum des ersten Dokuments zeitlich vorangehen; Erzeugen eines zweiten Wertungswerts für das erste Dokument, zumindest teilweise auf der Anzahl von Dokumenten basierend; Erzeugen eines globalen Wertungswerts für das erste Dokument, zumindest teilweise auf dem ersten Wertungswert und dem zweiten Wertungswert basierend; und Erzeugen einer Benutzeroberfläche, die mindestens den globalen Wertungswert für das erste Dokument enthält.
  • I: Verfahren, wie Abschnitt H wiedergibt, ferner Folgendes umfassend: Analysieren des ersten Texts des ersten Dokuments, um aus einer Mehrzahl von Klassifikationen eine erste Klassifikation, dem ersten Dokument entsprechend, zu bestimmen; und Erzeugen eines dritten Wertungswerts für das erste Dokument durch Vergleichen eines mit der ersten Klassifikation verknüpften ersten Werts mit mindestens einem mit der zweiten Klassifikation aus der Mehrzahl von Klassifikationen verknüpften zweiten Wert, wobei das Erzeugen des globalen Wertungswerts ferner auf dem dritten Wertungswert gegründet ist.
  • J: Verfahren, wie einer der Abschnitte H oder I wiedergibt, ferner Folgendes umfassend: Ermitteln eines Bruttoinlandsprodukts (BIP), das mit den ersten Klassifikationen verknüpft ist, wobei der erste Wert dem BIP entspricht; und ermitteln von BIPs, die mit anderen Klassifikationen aus der Mehrzahl von Klassifikationen verknüpft sind, wobei die BIPs zumindest ein BIP umfassen, das dem zweiten Wert entspricht, und wobei die anderen Klassifikationen die zweite Klassifikation umfassen, wobei das Erzeugen des dritten Wertungswerts für das erste Dokument durch Vergleichen des mit der ersten Klassifikation verknüpften ersten Werts mit zumindest dem mit der zweiten Klassifikation verknüpften zweiten Wert das Berechnen des dritten Wertungswerts durch Vergleichen des mit der ersten Klassifikation verknüpften BIP mit den mit den anderen Klassifikationen verknüpften BIPs umfasst.
  • K: Verfahren, wie einer der Abschnitte H-J wiedergibt, wobei das Erzeugen des globalen Wertungswerts für das erste Dokument das Berechnen eines Durchschnitts vom ersten Wertungswert, vom zweiten Wertungswert und vom dritten Wertungswert umfasst.
  • L: Verfahren, wie einer der Abschnitte H-K wiedergibt, ferner Folgendes umfassend: Berechnen eines ersten gewichteten Wertungswerts durch Multiplizieren des ersten Wertungswerts mit einer ersten Gewichtung; Berechnen eines zweiten gewichteten Wertungswerts durch Multiplizieren des zweiten Wertungswerts mit einer zweiten Gewichtung, wobei sich die zweite Gewichtung von der ersten Gewichtung unterscheidet; und Berechnen eines dritten gewichteten Wertungswerts durch Multiplizieren des dritten Wertungswerts mit einer dritten Gewichtung, wobei sich die dritte Gewichtung von mindestens einer Gewichtung, der ersten oder der zweiten Gewichtung, unterscheidet, wobei das Erzeugen des globalen Wertungswerts für das erste Dokument das Berechnen eines Durchschnitts vom ersten gewichteten Wertungswert, vom zweiten gewichteten Wertungswert und vom dritten gewichteten Wertungswert umfasst.
  • M: Verfahren, wie einer der Abschnitte H-L wiedergibt, wobei das erste Dokument ein Patent ist, und die Mehrzahl in Beziehung stehender Dokumente eine erste Mehrzahl in Beziehung stehender Dokumente ist, und wobei das Verfahren ferner Folgendes umfasst: Bestimmen einer zweiten Mehrzahl in Beziehung stehender Dokumente durch Entfernen eines oder mehrerer in Beziehung stehender Dokumente von der ersten Mehrzahl in Beziehung stehender Dokumente, wobei die ein oder mehreren ersten in Beziehung stehenden Dokumente dem Prioritätsdatum des Patents zeitlich nicht vorangehen; Bestimmen, aus der zweiten Mehrzahl in Beziehung stehender Dokumente, eines oder mehrerer zweiter in Beziehung stehender Dokumente, die während des Erteilungsverfahrens des Patents benannt wurden; Bestimmen einer dritten Mehrzahl in Beziehung stehender Dokumente durch Entfernen der ein oder mehreren zweiten in Beziehung stehenden Dokumente von der zweiten Mehrzahl in Beziehung stehender Dokumente; und Bestimmen einer Anzahl von zusätzlichen Dokumenten, die in der dritten Mehrzahl in Beziehung stehender Dokumente enthalten sind, wobei das Erzeugen des zweiten Wertungswerts für das Patent das Erzeugen des zweiten Wertungswerts basierend auf der Anzahl zusätzlicher Dokumente umfasst.
  • N: Verfahren, wie einer der Abschnitte H-M wiedergibt, ferner Folgendes umfassend: Bestimmen, zumindest teilweise auf den Prioritätsdatumswerten des ersten Dokuments basierend, einer dem ersten Dokument zugeordneten verbleibenden Laufzeit, und wobei das Erzeugen des globalen Wertungswerts ferner auf die verbleibende Patentlaufzeit gegründet ist.
  • O: Verfahren, wie einer der Abschnitte H-N wiedergibt, ferner Folgendes umfassend: Analysieren von mit dem ersten Dokument verknüpften Daten zum Patenterteilungsverfahren, um mindestens eines von dem Folgenden zu ermitteln: Historie von Rechtsstreiten, die mit dem ersten Dokument verknüpft ist; Historie von Lizenzierungen, die mit dem ersten Dokument verknüpft ist; ein Sicherungsrecht, das mit dem ersten Dokument verknüpft ist; eine Eigentümerschaft, die mit dem ersten Dokument verknüpft ist; oder zumindest ein in Beziehung stehendes Auslandsdokument, das mit dem ersten Dokument verknüpft ist, wobei das Erzeugen des globalen Wertungswerts für das erste Dokument ferner auf das Analysieren der Daten gegründet ist.
  • P: System, Folgendes umfassend: einen oder mehrere Prozessoren; und ein oder mehrere computer-lesbare Medien, die Anweisungen speichern, welche, wenn sie durch einen oder mehrere Prozessoren ausgeführt werden, bewirken, dass der eine oder die mehreren Prozessoren Operationen ausführen, Folgendes umfassend: Erlangen einer Mehrzahl von Patenten; Erzeugen, für das erste Patent aus der Mehrzahl von Patenten, eines Abschnittsumfangswerts, zumindest teilweise auf einem Wörteranzahlwert und einem Häufigkeitswert basierend, für zumindest einen Abschnitt aus einer Mehrzahl von Ansprüchen, die im ersten Patent enthalten sind; Erzeugen eines ersten Wertungswerts für das erste Patent, zumindest teilweise auf dem Vergleichen des Abschnittsumfangswerts mit mindestens einem anderen Abschnittsumfangswert für mindestens ein zweites Patent aus der Mehrzahl von Patenten basierend; Analysieren von Inhalt des ersten Patents, um aus einer Mehrzahl von Klassifikationen eine erste Klassifikation, dem ersten Patent entsprechend, zu bestimmen; Analysieren eines mit der ersten Klassifikation verknüpften ersten Werts bezüglich mindestens eines mit der zweiten Klassifikation aus der Mehrzahl von Klassifikationen verknüpften zweiten Werts; Erzeugen eines zweiten Wertungswerts für das erste Patent, zumindest teilweise auf das Analysieren des ersten Werts bezüglich des mindestens zweiten Werts gegründet; Erzeugen eines globalen Wertungswerts für das erste Patent, zumindest teilweise gegründet auf den ersten Wertungswert und den zweiten Wertungswert; und Erzeugen einer Benutzeroberfläche, die zumindest den globalen Wertungswert für das erste Patent enthält.
  • Q: System, wie Abschnitt P wiedergibt, wobei die Operationen ferner Folgendes umfassen: Analysieren von Inhalt des ersten Patents, um eine Mehrzahl von Dokumenten zu ermitteln, die mit dem ersten Patent in Beziehung stehen; Erzeugen einer Liste von nachdatierten Dokumenten durch Entfernen von Dokumenten von der Mehrzahl von Dokumenten, die einem Prioritätsdatum des ersten Patents nicht zeitlich vorangehen; und Erzeugen eines dritten Wertungswerts für das erste Patent, zumindest teilweise auf der Liste nachdatierter Dokumente gegründet, wobei das Erzeugen des globalen Wertungswerts für das erste Patent ferner auf den dritten Wertungswert gegründet ist.
  • R: System, wie einer der Abschnitte P oder Q wiedergibt, wobei die Operationen ferner Folgendes umfassen: Analysieren eines ersten Patents, um Dokumente zu ermitteln, die während des Erteilungsverfahrens des ersten Patents benannt wurden, wobei das Erzeugen der Liste nachdatierter Dokumente ferner das Entfernen von Dokumenten von der Mehrzahl von Dokumenten, die während des Erteilungsverfahrens benannt wurden, umfasst.
  • S: System, wie einer der Abschnitte P-R wiedergibt, wobei das Erzeugen des globalen Wertungswerts für das erste Patent das Berechnen eines Durchschnitts vom ersten Wertungswert, vom zweiten Wertungswert und vom dritten Wertungswert umfasst.
  • T: System, wie einer der Abschnitte P-S wiedergibt, wobei die Operationen ferner Folgendes umfassen: Ermitteln eines Bruttoinlandsprodukts (BIP), das mit den ersten Klassifikationen verknüpft ist, wobei der erste Wert dem BIP entspricht; und ermitteln von BIPs, die mit anderen Klassifikationen aus der Mehrzahl von Klassifikationen verknüpft sind, wobei die BIPs zumindest ein BIP umfassen, das dem zweiten Wert entspricht, und wobei die anderen Klassifikationen die zweite Klassifikation umfassen, wobei das Analysieren des ersten Werts bezüglich des zweiten Werts das Vergleichen des mit der ersten Klassifikation verknüpften BIP mit den mit den anderen Klassifikationen verknüpften BIPs umfasst.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 15489080 [0001]
  • Zitierte Nicht-Patentliteratur
    • ISO/IEC/IEEE 60559:2011 [0216]

Claims (15)

  1. System, Folgendes umfassend: einen oder mehrere Prozessoren; und einen oder mehrere Speicher, die Anweisungen speichern, welche, wenn sie durch den einen oder die mehreren Prozessoren ausgeführt werden, bewirken, dass der eine oder die mehreren Prozessoren Operationen ausführen, Folgendes umfassend: Empfangen einer Mehrzahl von Dokumenten; Berechnen, zumindest für einen in einem Dokument aus der Mehrzahl von Dokumenten enthaltenen Anspruch, eines Wörteranzahlwerts durch Vergleichen einer mit dem Anspruch verknüpften Wörterzahl mit entsprechenden Wörterzahlen, die mit Ansprüchen von zumindest einem anderen Dokument aus der Mehrzahl von Dokumenten verknüpft sind; Berechnen eines Häufigkeitswerts für den Anspruch, zumindest teilweise auf eine Häufigkeit gegründet, in der Wörter innerhalb des Anspruchs in den Ansprüchen von dem zumindest einen anderen Dokument gefunden werden; Berechnen eines gesamtheitlichen Umfangswerts für das Dokument, zumindest teilweise auf dem Wörteranzahlwert und dem Häufigkeitswert basierend; Berechnen eines ersten Wertungswerts für das Dokument, zumindest teilweise basierend auf dem Vergleichen des gesamtheitlichen Umfangswerts mit mindestens einem weiteren gesamtheitlichen Umfangswert für das mindestens eine andere Dokument; Analysieren von Inhalt des Dokuments, um eine Mehrzahl von Dokumenten zu ermitteln, die mit dem Dokument in Beziehung stehen; Ermitteln einer Anzahl von Dokumenten aus der Mehrzahl von Dokumenten, die jeweilige Prioritätsdatumswerte aufweisen, welche einem Prioritätsdatum des Dokuments zeitlich vorausgehen; Berechnen eines zweiten Wertungswerts für das Dokument, zumindest teilweise auf der Anzahl von Dokumenten gegründet; Analysieren des Inhalts des Dokuments, um aus einer Mehrzahl von Klassifikationen eine Klassifikation, dem Dokument entsprechend, zu bestimmen; Berechnen eines dritten Wertungswerts für das Dokument, zumindest teilweise basierend auf dem Vergleichen eines mit der Klassifikation verknüpften Werts mit einem Gesamtwert, der mit der Mehrzahl von Klassifikationen verknüpft ist; Berechnen eines globalen Wertungswerts für das Dokument, zumindest teilweise basierend auf dem ersten Wertungswert, dem zweiten Wertungswert und dem dritten Wertungswert; und Erzeugen einer Benutzeroberfläche, die zumindest den globalen Wertungswert für das Dokument enthält.
  2. System nach Anspruch 1, wobei das Berechnen des globalen Wertungswerts für das Dokument das Berechnen eines Durchschnitts vom ersten Wertungswert, vom zweiten Wertungswert und vom dritten Wertungswert umfasst.
  3. System nach Anspruch 1, wobei die Operationen ferner Folgendes umfassen: Berechnen eines ersten gewichteten Wertungswerts durch Multiplizieren des ersten Wertungswerts mit einer ersten Gewichtung; Berechnen eines zweiten gewichteten Wertungswerts durch Multiplizieren des zweiten Wertungswerts mit einer zweiten Gewichtung, wobei sich die zweite Gewichtung von der ersten Gewichtung unterscheidet; und Berechnen eines dritten gewichteten Wertungswerts durch Multiplizieren des dritten Wertungswerts mit einer dritten Gewichtung, wobei sich die dritte Gewichtung von mindestens einer Gewichtung, der ersten oder der zweiten Gewichtung, unterscheidet, wobei das Berechnen des globalen Wertungswerts für das Dokument das Berechnen eines Durchschnitts vom ersten gewichteten Wertungswert, vom zweiten gewichteten Wertungswert und vom dritten gewichteten Wertungswert umfasst.
  4. System nach Anspruch 1, wobei der Anspruch ein erster Anspruch ist, und wobei die Operationen ferner Folgendes umfassen: Ermitteln einer ersten Anzahl von im Dokument enthaltenen Ansprüchen; Berechnen eines Vergleichs-Teilezählwerts für ein Dokument durch Vergleichen der ersten Anzahl von Ansprüchen mit zumindest einer zweiten Anzahl von Ansprüchen, die in dem zumindest einen anderen Dokument enthalten sind; und Berechnen eines ersten Differenzierungswerts für das Dokument, wobei der erste Differenzierungswert zumindest teilweise auf Unterschieden zwischen einem oder mehreren ersten Wörtern im ersten Anspruch gegenüber einem oder mehreren zweiten Wörtern in einem zweiten Anspruch, der im Dokument enthalten ist, gegründet ist; und Berechnen eines Vergleichs-Differenzierungswerts für das Dokument durch Vergleichen des ersten Differenzierungswerts mit zumindest einem zweiten Differenzierungswert des mindestens einen anderen Dokuments, wobei das Berechnen des ersten Wertungswerts für das Dokument ferner auf den Vergleichs-Teilezählwert und den Vergleichs-Differenzierungswert gegründet ist.
  5. System nach Anspruch 1, wobei das Dokument ein erstes Dokument ist und der globale Wertungswert ein erster globaler Wertungswert ist, und wobei die Operationen ferner Folgendes umfassen: Bestimmen aus der Mehrzahl von Dokumenten zumindest eines zweiten Dokuments, das mit dem ersten Dokument in Beziehung steht; Berechnen eines zweiten globalen Wertungswerts für das zweite Dokument; und Berechnen eines dritten globalen Wertungswerts durch Ermitteln eines Durchschnitts des ersten globalen Wertungswerts und des zweiten globalen Wertungswerts.
  6. Verfahren, Folgendes umfassend: Erlangen von erstem Text von einem ersten Dokument und von zweitem Text von einem zweiten Dokument; Erzeugen, für das erste Dokument, eines ersten Umfangswerts, zumindest teilweise auf einem Wörteranzahlwert und einem Häufigkeitswert basierend, für einen Teil des ersten Texts des ersten Dokuments; Erzeugen eines ersten Wertungswerts für das erste Dokument, zumindest teilweise auf dem ersten Umfangswert und einem zweiten Umfangswert des zweiten Dokuments basierend; Analysieren des ersten Texts des ersten Dokuments, um eine Mehrzahl in Beziehung stehender Dokumente zu ermitteln, die mit dem ersten Dokument in Beziehung stehen; Bestimmen einer Anzahl von Dokumenten aus der Mehrzahl von in Beziehung stehenden Dokumenten, die einem Prioritätsdatum des ersten Dokuments zeitlich vorangehen; Erzeugen eines zweiten Wertungswerts für das erste Dokument, zumindest teilweise auf der Anzahl von Dokumenten basierend; Erzeugen eines globalen Wertungswerts für das erste Dokument, zumindest teilweise auf dem ersten Wertungswert und dem zweiten Wertungswert basierend; und Erzeugen einer Benutzeroberfläche, die mindestens den globalen Wertungswert für das erste Dokument enthält.
  7. Verfahren nach Anspruch 6, ferner Folgendes umfassend: Analysieren des ersten Texts des ersten Dokuments, um aus einer Mehrzahl von Klassifikationen eine erste Klassifikation, dem ersten Dokument entsprechend, zu bestimmen; und Erzeugen eines dritten Wertungswerts für das erste Dokument durch Vergleichen eines mit der ersten Klassifikation verknüpften ersten Werts mit mindestens einem mit der zweiten Klassifikation aus der Mehrzahl von Klassifikationen verknüpften zweiten Wert, wobei das Erzeugen des globalen Wertungswerts ferner auf dem dritten Wertungswert gegründet ist.
  8. Verfahren nach Anspruch 7, ferner Folgendes umfassend: Ermitteln eines Bruttoinlandsprodukts (BIP), das mit den ersten Klassifikationen verknüpft ist, wobei der erste Wert dem BIP entspricht; und Ermitteln von BIPs, die mit anderen Klassifikationen aus der Mehrzahl von Klassifikationen verknüpft sind, wobei die BIPs zumindest ein BIP umfassen, das dem zweiten Wert entspricht, und wobei die anderen Klassifikationen die zweite Klassifikation umfassen, wobei das Erzeugen des dritten Wertungswerts für das erste Dokument durch Vergleichen des mit der ersten Klassifikation verknüpften ersten Werts mit zumindest dem mit der zweiten Klassifikation verknüpften zweiten Wert das Berechnen des dritten Wertungswerts durch Vergleichen des mit der ersten Klassifikation verknüpften BIP mit den mit den anderen Klassifikationen verknüpften BIPs umfasst.
  9. Verfahren nach Anspruch 7, ferner Folgendes umfassend: Berechnen eines ersten gewichteten Wertungswerts durch Multiplizieren des ersten Wertungswerts mit einer ersten Gewichtung; Berechnen eines zweiten gewichteten Wertungswerts durch Multiplizieren des zweiten Wertungswerts mit einer zweiten Gewichtung, wobei sich die zweite Gewichtung von der ersten Gewichtung unterscheidet; und Berechnen eines dritten gewichteten Wertungswerts durch Multiplizieren des dritten Wertungswerts mit einer dritten Gewichtung, wobei sich die dritte Gewichtung von mindestens einer Gewichtung, der ersten oder der zweiten Gewichtung, unterscheidet, wobei das Erzeugen des globalen Wertungswerts für das erste Dokument das Berechnen eines Durchschnitts vom ersten gewichteten Wertungswert, vom zweiten gewichteten Wertungswert und vom dritten gewichteten Wertungswert umfasst.
  10. Verfahren nach Anspruch 6, wobei das erste Dokument ein Patent ist und die Mehrzahl in Beziehung stehender Dokumente eine erste Mehrzahl in Beziehung stehender Dokumente ist, und wobei das Verfahren ferner Folgendes umfasst: Bestimmen einer zweiten Mehrzahl in Beziehung stehender Dokumente durch Entfernen eines oder mehrerer in Beziehung stehender Dokumente von der ersten Mehrzahl in Beziehung stehender Dokumente, wobei das eine oder die mehreren ersten in Beziehung stehenden Dokumente dem Prioritätsdatum des Patents zeitlich nicht vorangehen; Bestimmen, aus der zweiten Mehrzahl in Beziehung stehender Dokumente, eines oder mehrerer zweiter in Beziehung stehender Dokumente, die während des Erteilungsverfahrens des Patents benannt wurden; Bestimmen einer dritten Mehrzahl in Beziehung stehender Dokumente durch Entfernen des einen oder der mehreren zweiten in Beziehung stehenden Dokumente von der zweiten Mehrzahl in Beziehung stehender Dokumente; und Bestimmen einer Anzahl von zusätzlichen Dokumenten, die in der dritten Mehrzahl in Beziehung stehender Dokumente enthalten sind, wobei das Erzeugen des zweiten Wertungswerts für das Patent das Erzeugen des zweiten Wertungswerts basierend auf der Anzahl zusätzlicher Dokumente umfasst.
  11. Verfahren nach Anspruch 6, ferner Folgendes umfassend: Analysieren von mit dem ersten Dokument verknüpften Daten zum Patenterteilungsverfahren, um mindestens eines des Folgenden zu ermitteln: Historie von Rechtsstreiten, die mit dem ersten Dokument verknüpft ist; Historie von Lizenzierungen, die mit dem ersten Dokument verknüpft ist; ein Sicherungsrecht, das mit dem ersten Dokument verknüpft ist; eine Eigentümerschaft, die mit dem ersten Dokument verknüpft ist; zumindest ein in Beziehung stehendes Auslandsdokument, das mit dem ersten Dokument verknüpft ist, wobei das Erzeugen des globalen Wertungswerts für das erste Dokument ferner auf das Analysieren der Daten gegründet ist.
  12. System, Folgendes umfassend: einen oder mehrere Prozessoren; und ein oder mehrere computer-lesbare Medien, die Anweisungen speichern, welche, wenn sie durch die ein oder mehreren Prozessoren ausgeführt werden, bewirken, dass die ein oder mehreren Prozessoren Operationen ausführen, Folgendes umfassend: Erlangen einer Mehrzahl von Patenten; Erzeugen, für das erste Patent aus der Mehrzahl von Patenten, eines Anspruchsumfangswerts, zumindest teilweise auf einem Wörteranzahlwert und einem Häufigkeitswert basierend, für zumindest einen Anspruch aus einer Mehrzahl von Ansprüchen, die im ersten Patent enthalten sind; Erzeugen eines ersten Wertungswerts für das erste Patent, zumindest teilweise auf dem Vergleichen des Anspruchsumfangswerts mit mindestens einem anderen Anspruchsumfangswert für mindestens ein zweites Patent aus der Mehrzahl von Patenten basierend; Analysieren von Inhalt des ersten Patents, um aus einer Mehrzahl von Klassifikationen eine erste Klassifikation, dem ersten Patent entsprechend, zu bestimmen; Analysieren eines mit der ersten Klassifikation verknüpften ersten Werts bezüglich mindestens eines mit der zweiten Klassifikation aus der Mehrzahl von Klassifikationen verknüpften zweiten Werts; Erzeugen eines zweiten Wertungswerts für das erste Patent, zumindest teilweise auf das Analysieren des ersten Werts bezüglich des mindestens zweiten Werts gegründet; Erzeugen eines globalen Wertungswerts für das erste Patent, zumindest teilweise gegründet auf den ersten Wertungswert und den zweiten Wertungswert; und Erzeugen einer Benutzeroberfläche, die zumindest den globalen Wertungswert für das erste Patent enthält.
  13. System nach Anspruch 12, wobei die Operationen ferner Folgendes umfassen: Analysieren von Inhalt des ersten Patents, um eine Mehrzahl von Dokumenten zu ermitteln, die mit dem ersten Patent in Beziehung stehen; Erzeugen einer Liste von nachdatierten Dokumenten durch Entfernen von Dokumenten von der Mehrzahl von Dokumenten, die einem Prioritätsdatum des ersten Patents nicht zeitlich vorangehen; und Erzeugen eines dritten Wertungswerts für das erste Patent, zumindest teilweise auf der Liste nachdatierter Dokumente gegründet, wobei das Erzeugen des globalen Wertungswerts für das erste Patent des Weiteren auf den dritten Wertungswert gegründet ist.
  14. System nach Anspruch 13, wobei die Operationen ferner Folgendes umfassen: Analysieren des ersten Patents, um Dokumente zu ermitteln, die während des Erteilungsverfahrens des ersten Patents benannt wurden, wobei das Erzeugen der Liste nachdatierter Dokumente ferner das Entfernen von Dokumenten von der Mehrzahl von Dokumenten, die während des Erteilungsverfahrens benannt wurden, umfasst.
  15. System nach Anspruch 12, wobei das Erzeugen des globalen Wertungswerts für das erste Patent das Berechnen eines Durchschnitts vom ersten Wertungswert, vom zweiten Wertungswert und vom dritten Wertungswert umfasst.
DE112018002047.9T 2017-04-17 2018-03-27 Dokumentenanalyse mit mehreren faktoren Pending DE112018002047T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/489,080 2017-04-17
US15/489,080 US20180300323A1 (en) 2017-04-17 2017-04-17 Multi-Factor Document Analysis
PCT/US2018/024486 WO2018194799A1 (en) 2017-04-17 2018-03-27 Multi-factor document analysis

Publications (1)

Publication Number Publication Date
DE112018002047T5 true DE112018002047T5 (de) 2019-12-24

Family

ID=63790687

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018002047.9T Pending DE112018002047T5 (de) 2017-04-17 2018-03-27 Dokumentenanalyse mit mehreren faktoren

Country Status (5)

Country Link
US (1) US20180300323A1 (de)
CN (1) CN110892398A (de)
DE (1) DE112018002047T5 (de)
GB (1) GB2574997A (de)
WO (1) WO2018194799A1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11163811B2 (en) * 2017-10-30 2021-11-02 International Business Machines Corporation Ranking of documents based on their semantic richness
FI20185865A1 (fi) * 2018-10-13 2020-04-14 Iprally Tech Oy Menetelmä luonnollisen kielen hakujärjestelmän opettamiseksi, hakujärjestelmä ja vastaava käyttö
US11361567B2 (en) * 2020-01-06 2022-06-14 Catachi Co. Methods and systems for facilitating classification of portions of a regulatory document
US11494588B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Ground truth generation for image segmentation
US11495038B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Digital image processing
US11361146B2 (en) * 2020-03-06 2022-06-14 International Business Machines Corporation Memory-efficient document processing
US11556852B2 (en) 2020-03-06 2023-01-17 International Business Machines Corporation Efficient ground truth annotation
JP2022025339A (ja) * 2020-07-29 2022-02-10 アスタミューゼ株式会社 情報処理装置、情報処理方法、及びプログラム
US11755445B2 (en) * 2021-02-17 2023-09-12 Microsoft Technology Licensing, Llc Distributed virtual data tank for cross service quota management
US20230087206A1 (en) * 2021-09-17 2023-03-23 Aon Risk Services, Inc. Of Maryland Intellectual-property analysis platform

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8095581B2 (en) * 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
AU4796400A (en) * 1999-06-04 2000-12-28 Stockpricepredictor. Com, Llc System and method for valuing patents
US6452613B1 (en) * 2000-03-01 2002-09-17 First Usa Bank, N.A. System and method for an automated scoring tool for assessing new technologies
US7725523B2 (en) * 2000-04-11 2010-05-25 Bolnick David A System, method and computer program product for gathering and delivering personalized user information
US8090717B1 (en) * 2002-09-20 2012-01-03 Google Inc. Methods and apparatus for ranking documents
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US8799107B1 (en) * 2004-09-30 2014-08-05 Google Inc. Systems and methods for scoring documents
US20090228777A1 (en) * 2007-08-17 2009-09-10 Accupatent, Inc. System and Method for Search
CN102160066A (zh) * 2008-06-24 2011-08-17 沙伦·贝伦宗 特别适用于专利文献的搜索引擎和方法
US8402030B1 (en) * 2011-11-21 2013-03-19 Raytheon Company Textual document analysis using word cloud comparison
US9201969B2 (en) * 2013-01-31 2015-12-01 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for identifying documents based on citation history
US20140279584A1 (en) * 2013-03-15 2014-09-18 IP Street Evaluating Intellectual Property with a Mobile Device
US20150206260A1 (en) * 2014-01-21 2015-07-23 Steven W. Lundberg Systems and methods for analyzing prior art rejections
JP5683749B1 (ja) * 2014-02-04 2015-03-11 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ISO/IEC/IEEE 60559:2011

Also Published As

Publication number Publication date
US20180300323A1 (en) 2018-10-18
GB201915026D0 (en) 2019-12-04
CN110892398A (zh) 2020-03-17
GB2574997A (en) 2019-12-25
WO2018194799A1 (en) 2018-10-25

Similar Documents

Publication Publication Date Title
DE112018002047T5 (de) Dokumentenanalyse mit mehreren faktoren
DE69811066T2 (de) Datenzusammenfassungsgerät.
DE112018001165T5 (de) Automatisierte dokumentenanalyse für unterschiedliche natürliche sprachen
US9165254B2 (en) Method and system to predict the likelihood of topics
DE112018000334T5 (de) System und Verfahren zur domänenunabhängigen Aspektebenen-Stimmungserkennung
US10755045B2 (en) Automatic human-emulative document analysis enhancements
US11393237B1 (en) Automatic human-emulative document analysis
US10528609B2 (en) Aggregating procedures for automatic document analysis
DE102021004157A1 (de) Maschinell lernendes Modellieren zum Schutz gegen die Online-Offenlegung empfindlicher Daten
DE102014112983A1 (de) Aktive Wissenslenkung beruhend auf Dokumententiefenanalyse
Koppers et al. tosca: Tools for statistical content analysis
Brandsen et al. User requirement solicitation for an information retrieval system applied to Dutch grey literature in the archaeology domain
EP3563261B1 (de) Bitsequenzbasiertes datenklassifikationssystem
Kim et al. Trend analysis by using text mining of journal articles regarding consumer policy
CN112330510A (zh) 一种志愿推荐方法、装置、服务器及计算机可读存储介质
DE102018007024A1 (de) Dokumentdurchsuchen mittels grammatischer einheiten
US20200073889A1 (en) Database creation apparatus and search system
CH712988A1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
Tsay Knowledge input for the domain of information science: A bibliometric and citation analysis study
US10860678B2 (en) Information extraction from data
CN110109994B (zh) 包含结构化和非结构化数据的汽车金融风控系统
US20200302392A1 (en) Financial documents examination methods and systems
Hutchison Ph D et al. Latent semantic analysis: A Big Data opportunity for tax research
CN113312898B (zh) 语料处理方法、设备、存储介质及装置
Nayak et al. A Semi-automatic Data Extraction System for Heterogeneous Data Sources: a Case Study from Cotton Industry

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R083 Amendment of/additions to inventor(s)