DE112018001165T5 - Automatisierte dokumentenanalyse für unterschiedliche natürliche sprachen - Google Patents

Automatisierte dokumentenanalyse für unterschiedliche natürliche sprachen Download PDF

Info

Publication number
DE112018001165T5
DE112018001165T5 DE112018001165.8T DE112018001165T DE112018001165T5 DE 112018001165 T5 DE112018001165 T5 DE 112018001165T5 DE 112018001165 T DE112018001165 T DE 112018001165T DE 112018001165 T5 DE112018001165 T5 DE 112018001165T5
Authority
DE
Germany
Prior art keywords
words
score
documents
document
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112018001165.8T
Other languages
English (en)
Inventor
William Edmund
Daniel Crouse
John Bradley
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aon Risk Services Inc of Maryland
Original Assignee
Aon Risk Services Inc of Maryland
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=63357374&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE112018001165(T5) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Aon Risk Services Inc of Maryland filed Critical Aon Risk Services Inc of Maryland
Publication of DE112018001165T5 publication Critical patent/DE112018001165T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents
    • G06Q50/184Intellectual property management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

Die manuelle menschliche Verarbeitung von Dokumenten führt oft zu subjektiven Ergebnissen, die auch menschliche Fehler umfassen. Die Kosten und die relativ langsame Geschwindigkeit der manuellen, menschlichen Analyse machen es effektiv unmöglich oder nicht praktikabel, Dokumentenanalysen in dem Umfang, der Geschwindigkeit und den Kosten durchzuführen, die in vielen Branchen gewünscht werden. Dementsprechend kann es vorteilhaft sein, objektive, genaue regelbasierte Techniken zur Bewertung und Verarbeitung von Dokumenten einzusetzen. Diese Anwendung offenbart Datenverarbeitungsvorrichtungen und Verfahren, die speziell für eine bestimmte Anwendung konfiguriert sind: Analyse der Breite von Dokumenten. Die Verarbeitung kann eine kontextabhängige Vorverarbeitung von Dokumenten und Teilabschnitten der Dokumente umfassen. Die Teilabschnitte können basierend auf der Wörterzahl und der Gemeinsamkeit der Wörter in den jeweiligen Teilabschnitten analysiert werden. Die hierin offenbarten Vorrichtungen und Verfahren verbessern andere automatisierte Techniken zur Bereitstellung der Dokumentenverarbeitung, indem sie ein Ergebnis erzielen, das die manuelle, menschliche Verarbeitung quantitativ verbessert.

Description

  • QUERVERWEIS AUF DIE ZUGEHÖRIGE ANMELDUNGEN
  • Diese Anmeldung beansprucht die Priorität der am 6. März 2017 eingereichten US-Patentanmeldung Nr. 15/451,138 mit dem Titel „Automated Document Analysis for Vararying Natural Languages“, deren gesamter Inhalt durch Verweis hierin aufgenommen wird.
  • HINTERGRUND
  • Die Menge der in Dokumenten enthaltenen Informationen nimmt rapide zu. Es gibt viele Branchen wie Recht, Bildung, Journalismus, Politik, Wirtschaft und weitere, die von einer schnellen und kostengünstigen Dokumentenanalyse profitieren können. Die Kosten und die relativ langsame Geschwindigkeit der manuellen, menschlichen Analyse machen es effektiv unmöglich oder nicht praktikabel, Dokumentenanalysen in dem Umfang, der Geschwindigkeit und den Kosten durchzuführen, die in vielen Branchen gewünscht werden. „Auslagerung“, um die Vorteile von niedrigeren Kosten zu nutzen, kann durch die Einstellung einer größeren Anzahl von Personen ermöglichen, Dokumente zu einem niedrigeren Preis pro Arbeitsstunde zu analysieren. Dennoch gibt es eine untere Kostengrenze und eine obere Durchsatzgrenze. Die Verwendung mehrerer verschiedener Personen zur manuellen Analyse hat auch ein starkes Potenzial, Inkonsistenzen aufgrund unterschiedlicher subjektiver Einschätzungen verschiedener Personen zu verursachen. So wäre es beispielsweise unmöglich, einen Korpus von einer Million-seitiger Textdokumente über Nacht zu analysieren, wenn man nur die menschliche Analyse verwendet. Die automatisierte Dokumentenanalyse am Computer ist viel schneller als die menschliche Analyse und führt zu viel niedrigeren Kosten. Darüber hinaus sorgt die automatisierte Dokumentenanalyse für eine konsistente und objektive Analyse, die Diskrepanzen reduziert, die bei der subjektiven, fehleranfälligen menschlichen Analyse auftreten. Darüber hinaus ist die menschliche Analyse bei der Analyse von Dokumenten in verschiedenen Sprachen oft schwierig und unpraktisch. Um Dokumente in einer großen Anzahl von Sprachen zu analysieren, werden große Mengen von Menschen benötigt, die verschiedene Sprachen sprechen und für die Analyse der Dokumente ausgebildet sind. So werden Vorrichtungen und Verfahren, die Dokumente auf eine Weise analysieren können, die der menschlichen Analyse nachempfunden ist und auf eine große Anzahl von Sprachenanwendbar ist, in vielen verschiedenen Branchen breite Anwendung finden.
  • ZUSAMMENFASSUNG
  • Dokumente, die in einem oder mehreren Datenspeichern gespeichert sind, können von einem oder mehreren Rechenvorrichtungen automatisch abgerufen und auf der Grundlage eines oder mehrerer Regelsätze analysiert werden. Format, Struktur und Inhalt eines in den Datenspeichern gespeicherten Dokuments können zunächst unbekannt sein. So kann ein Teil der Analyse das Filtern von Dokumenten aus einem Datenspeicher und die Vorverarbeitung der Dokumente umfassen, um diejenigen zu identifizieren, die für eine weitere Analyse geeignet sind, und um den Inhalt der Dokumente für die Analyse vorzubereiten. Beispiele für Dokumenttypen, die analysiert werden können, sind erteilte Patente und veröffentlichte Patentanmeldungen, sind aber nicht darauf beschränkt. Die Analyse kann sich auf bestimmte Teile der Dokumente konzentrieren, wie beispielsweise Abstracts oder Patentansprüche. Die Vorverarbeitung kann die Dokumentenabschnitte modifizieren, indem sie den Inhalt standardisiert und Inhalte entfernt, die die nachfolgende Analyse negativ beeinflussen könnten, beispielsweise durch Stoppwort-Entfernung, Eindämmung („stemming“) und Entfernen von doppelten Wörtern.
  • Die Breite der Dokumentenabschnitte wird unter Berücksichtigung der Wörterzahl und der Gemeinsamkeit der Wörter analysiert. Die Anzahl der eindeutigen Wörter und die Häufigkeit, mit der diese Wörter in anderen Dokumentenabschnitten vorkommen, sind somit die Grundlage für die automatische Zuordnung eines Breiten-Scores zu einem bestimmten Dokumentenabschnitt. Für einen bestimmten Dokumentenabschnitt wird die Wörterzahl mit der Wörterzahl anderer Dokumentenabschnitte in derselben Analyse verglichen. Ebenso wird für den gegebenen Dokumentenabschnitt ein Gleichheits-Score bestimmt, der auf der Gleichheit der Wörter in diesem Dokumentenabschnitt im Vergleich zur Gleichheit der Wörter in anderen Dokumentenabschnitten aus derselben Analyse basiert.
  • Wenn der Dokumentenabschnitt ein Patentanspruch ist, stellt der Breiten-Score einen automatisch geschätzten Umfang eines Schutzrechts im Vergleich zu anderen Patentansprüchen dar, die Teil derselben Analyse sind. So ist die Dokumentenanalyse in der Lage, automatisch festzustellen, dass Anspruch A breiter ist als Anspruch B. Diese Analyse ist menschenähnlich („human-emulativ“) da die Ergebnisse denen ähneln, die durch manuelle, menschliche Analyse erzielt werden, aber der menschlichen Analyse überlegen sind, indem subjektive Bewertungen und menschlicher Fehler reduziert werden.
  • In einigen Beispielen können die Techniken auf Patentansprüche für Anmeldungen in verschiedenen Rechtsordnungen und in verschiedenen Sprachen angewendet werden. In einigen Beispielen können die Techniken die Patentanspruchssprache in Englisch (oder eine andere Sprache) übersetzen und die Ansprüche analysieren, während in anderen Beispielen keine Übersetzung erforderlich ist und die Patentansprüche in verschiedenen Fremdsprachen analysiert werden können. In verschiedenen Beispielen kann bei der Analyse von Patentansprüchen in verschiedenen Gerichtsbarkeiten unterschiedliches materielles Recht berücksichtigt werden, das rechtsspezifisch ist. So können beispielsweise Worte in der Präambel von Ansprüchen auf chinesische Patentansprüche für die Breite des Patentanspruchs Gewicht erhalten, während die Präambel von Ansprüchen auf Patentanmeldungen in den Vereinigten Staaten für die Bestimmung der Anspruchsbreite nicht gewichtet werden muss. In einigen Beispielen können Patentansprüche in verschiedenen Arten von Gerichtsbarkeiten Patentanmeldungen auf verschiedene Weise analysiert werden. Um beispielsweise die Breite von Patentansprüche in Gebrauchsmustern zu bestimmen, die in einer Rechtsordnung wie China eingereicht wurden, kann das Gebrauchsmuster mit einem Skalierungsfaktor versehen werden, der auf der Grundlage von Anspruchsbreiten-Scores für Erfindungspatente, die in dieser Rechtsordnung eingereicht wurden, ermittelt wird. Weitere Erläuterungen zu diesen Techniken für internationale Ansprüche werden im Folgenden erläutert.
  • Die Breiten-Scores für verschiedene gemeinsam analysierte Dokumentenabschnitte können verglichen werden, um ein Ranking der Dokumentenabschnitte basierend auf den relativen Breiten-Scores zu erstellen. Es wird eine Benutzeroberfläche erzeugt, die eindeutige Dokumenten-Identifikationsnummern und entsprechende Breiten-Scores und/oder Rankings von Dokumentenabschnitten anzeigt.
  • Figurenliste
  • Die ausführliche Beschreibung wird mit Bezug auf die beigefügten Figuren beschrieben. In den Figuren identifiziert/identifizieren die ganz linke(n) Ziffer(n) eines Bezugszeichens die Figur, in der das Bezugszeichen zum ersten Mal erscheint. Die Verwendung desselben Bezugszeichens in verschiedenen Figuren zeigt ähnliche oder identische Positionen an.
    • 1 zeigt eine beispielhafte Verarbeitungspipeline zur Erzeugung einer Benutzeroberfläche, die die Ergebnisse der automatischen Dokumentenanalyse zeigt.
    • 2 zeigt eine beispielhafte Implementierung der Benutzeroberfläche von 1.
    • 3 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zum Filtern von Dokumenten aus einem Datenspeicher zeigt, um Teile dieser Dokumente zu identifizieren und zur Analyse vorzubereiten.
    • 4 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zur Vorverarbeitung eines Teils eines Dokuments darstellt.
    • 5 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zum Bestimmen zeigt, ob ein Teil eines Dokuments ignoriert und von der weiteren Verarbeitung ausgeschlossen oder zur manuellen Überprüfung vorgemerkt wird.
    • 6 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zur automatischen Verarbeitung von Dokumenten zur Erzeugung einer Benutzeroberfläche darstellt.
    • 7 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zur automatischen Verarbeitung von Datendateien nach mehreren Regelwerken darstellt.
    • 8 zeigt eine schematische Darstellung eines oder mehrerer Computergeräte, die für die automatische, menschenähnliche Verarbeitung von Dokumenten ausgelegt sind.
  • AUSFÜRHLICHE BESCHREIBUNG
  • 1 zeigt eine beispielhafte Analysepipeline 100 zur automatischen Analyse und Darstellung von Breiteninformationen aus mehreren Dokumenten. Die Dokumente können aus einem oder mehreren Datenspeichern 102 stammen. Bei den Dokumenten kann es sich um jede Art von Dokument handeln, wie beispielsweise erteilte Patente, veröffentlichte Patentanmeldungen, wissenschaftliche Artikel, Nachrichtenartikel, Finanzberichte und weitere. Die Dokumente können auch in einem von mehreren verschiedenen Formaten verfügbar sein, wie beispielsweise Klartext, Hypertext Markup Language (HTML), Comma Separated Values (CSV) oder Bilder wie Portable Document Format (PDF) oder Tag Image File Format (TIFF) Dateien. In einigen Dokumentenformaten wie beispielsweise HTML und CSV können Teile und Attribute der Dokumente individuell identifiziert werden. So kann beispielsweise die Patentnummer in einer Spalte für Patentnummern in einer CSV-Datei oder mit einem Tag <Patentnummer> in einer HTML-Datei versehen werden. Ebenso kann der Anspruchsabschnitt als Anspruchsabschnitt identifiziert werden. In anderen Dateiformaten, wie beispielsweise Klartext oder PDF, müssen die Dokumente keine solchen Identifizierungsinformationen oder Metadaten umfassen.
  • Das Format und/oder der Dateityp von Dokumenten, die von einem der Datenspeicher 102 empfangen werden, kann zunächst unbekannt sein, wenn dieses Dokument in die Analysepipeline 100 gelangt. Daher kann zu Beginn ein Teil der ersten Analyse die Identifizierung des Dateiformats und/oder der Art des Dokuments umfassen. Ein gewisses Maß an Verarbeitung kann für alle Dokumente erforderlich sein, und bestimmte Dateitypen wie Bilddateien oder Textdateien ohne Metadaten erfordern möglicherweise eine umfangreichere Verarbeitung, bevor die weitere Analyse beginnen kann. In einer Implementierung können die Datenspeicher 102 sowohl erteilte Patente als auch veröffentlichte Anmeldungen von Gebrauchs-, Geschmacksmuster- und/oder Pflanzenpatenten umfassen. Patentdaten aus verschiedenen Rechtsordnungen und in verschiedenen Sprachen können auch in die Datenspeicher 102 aufgenommen werden. Beispiele für Datenspeicher 102 sind eine Patentdatenbank von Innography, die vom United States Patent Trademark Office verwaltete US-Patentdatenbank, Patentdaten, die von Relecura verwaltet werden, sowie Patentdatenbanken, die von anderen wie beispielsweise den Patentämtern verschiedener Länder verwaltet werden.
  • Die Datenfilterung 104 kann die von den Datenspeichern 102 erhaltenen Daten auf einen Korpus von Dokumenten beschränken, die bestimmte Merkmale aufweisen. Dies kann besonders nützlich sein, wenn die Dokumente aus mehreren verschiedenen Quellen stammen und/oder die Dokumente ohne Kenntnis des Dokumentformats bezogen werden. So kann beispielsweise die Datenfilterung 104 Patentdokumente auf nur erteilte Patente beschränken und veröffentlichte Patentanmeldungen ausschließen. Die Datenfilterung 104 kann nach Patentart filtern und beispielsweise Gebrauchsmuster behalten, während Design- und Pflanzenpatente ausgeschlossen werden. Die Datenfilterung 104 kann auch Dokumente nach Sprache, nach Autor, Erfinder, Bevollmächtigter, nach technischem Gebiet, nach Klassifizierung und weitere filtern. Filter können durch benutzererzeugte Eingaben über eine Benutzeroberfläche spezifiziert werden. In einer Implementierung kann die Benutzeroberfläche zum Festlegen, wie Daten gefiltert werden sollen, eine Befehlszeilenschnittstelle sein. Argumente, die auf der Befehlszeile übergeben werden, werden durch entsprechenden Code analysiert, um einen Eingangsdatensatz zu bestimmen und/oder Filter, die auf eingehende Daten angewendet werden.
  • Die Vorverarbeitung 106 ändert die Dokumente oder Teile der Dokumente zur späteren Verarbeitung. Die Vorverarbeitung 106 kann das Ausschließen der Satzzeichen, das Entfernen von Stoppwörtern 108, das Umwandeln von Akronymen und Abkürzungen 110 in ganze Wörter, das Einstammen und/oder das Entfernen doppelter Wörter umfassen. Stoppwörter 108 sind Wörter, die vor der weiteren Verarbeitung herausgefiltert werden. Die Satzzeichen können eines der folgenden Zeichen umfassen: . , ! ? , ; : ' @ # $ % - & * ( ) [ ] < > / \ °. Stoppwörter beziehen sich in der Regel auf die häufigsten Wörter in einer Sprache. Stoppwörter können kurze Funktionswörter wie „der/die/das“ „ist“, „bei“, „welche(r/s)“, und „auf“ sowie andere umfassen. Es gibt jedoch keine universelle Liste von Stoppwörtern. Die Stoppwörter 108 können mit einzelnen Dokumenten oder Teilen der Dokumente verglichen und alle passenden Wörter entfernt werden. Die Stoppwörter 108 können direkt in den Code eines Vorverarbeitungsalgorithmus aufgenommen werden. Zusätzlich oder alternativ können die Stoppwörter 108 in eine Liste aufgenommen werden, auf die zugegriffen wird, um Stoppwörter 108 zu identifizieren. Die Liste kann bearbeitet werden, um Stoppwörter 108 hinzuzufügen oder zu entfernen. Es können mehrere Listen von Stoppwörtern 8 verfügbar sein. Je nach Art der zu analysierenden Dokumente können bestimmte Stoppwörter 108 ausgewählt werden. Beispielsweise können patentspezifische Stoppwörter 108 Wörter wie „Verfahren“ oder „umfassend“ umfassen, die normalerweise nicht in einer Liste allgemeiner Stoppwörter umfassen sind. Wenn die Datenfilterung 104 die Dokumente auf einen bestimmten technischen Bereich beschränkt, können die Stoppwörter 108 auch Wörter umfassen, die für den technischen Bereich spezifisch sind.
  • Die Anomalie-Erkennung 112 identifiziert Teile von Dokumenten, die wahrscheinlich eine Anomalie umfassen, die dazu führt, dass der Teil des Dokuments von der weiteren Analyse ausgeschlossen oder markiert wird, um einen menschlichen Benutzer darauf hinzuweisen, dass es Gründe geben kann, den markierten Teil des Dokuments manuell zu überprüfen. In einer Implementierung könnte die Analyse nur auf unabhängige Patentansprüche angewendet werden. Die Datenfilterung 104 und die Vorverarbeitung 106 können jedoch Dokumentenabschnitte erzeugen, die sowohl unabhängige als auch abhängige Patentansprüche umfassen. Wenn diese Analyse konfiguriert ist, um Merkmale abhängiger Patentansprüche als „anormal“ zu erkennen, kann die Anomalie-Erkennung 112 die Teile der Dokumente, die den abhängigen Ansprüchen entsprechen, ignorieren oder verwerfen. Aufgrund der Grenzen der automatischen computergestützten Dokumentenanalyse gibt es einige Merkmale, die möglicherweise erkennbar sind, aber das automatische Analysesystem wird nicht in der Lage sein, die Breite richtig zu analysieren. Das Markieren oder anderweitige Anzeigen eines solchen Inhalts ermöglicht es Menschen, sich bei der manuellen Überprüfung auf diejenigen Dokumentenabschnitte zu konzentrieren, die für die automatischen Analysetechniken nicht vollständig zugänglich waren.
  • Die Breitenberechnung 114 bestimmt die Breite eines Dokuments oder eines Teils eines Dokuments. Breite ist ein subjektiver Begriff, der in einer Form dargestellt wird, die für eine automatische Analyse unter Berücksichtigung der Wörterzahl und der Gemeinsamkeit der Wörter geeignet ist. Die Wörterzahl ist einfach die Anzahl der Wörter in einem Dokument oder Dokumentenabschnitt. Wörter können basierend auf der Rohdateneingabe nach der Datenfilterung 104 oder nach einer Vorverarbeitung 106 gezählt werden. Beispielsweise kann die Wortzählung nach dem Entfernen doppelter Wörter durchgeführt werden, so dass es sich um eine Wortzählung von eindeutigen Wörtern handelt. Außerdem kann die Wortzählung vor oder nach dem Entfernen der Stoppwörter 108 durchgeführt werden. Ebenso kann die Wortzählung durchgeführt werden, bevor Akronyme und Abkürzungen 110 in ihre Vollwortdarstellung umgewandelt werden. Im Zusammenhang mit Patentansprüchen werden kurze Ansprüche in der Regel breiter betrachtet als längere Ansprüche.
  • Die Gemeinsamkeit von Wörtern stellt die Häufigkeit dar, mit der ein bestimmtes Wort in einem Korpus von Dokumenten oder Dokumentenabschnitten gefunden wird. Im Allgemeinen unterliegt der betreffende Korpus der Vorverarbeitung 106. Wenn beispielsweise die Ausgangsdokumente aus den Datenspeichern 102 akademische Arbeiten zur Chemie waren und die Vorverarbeitung den Korpus auf die Abstracts dieser Arbeiten beschränkte, dann würde die Gemeinsamkeit eines Wortes auf der Häufigkeit basieren, mit der das Wort in allen Abstracts vorkommt. Häufige Wörter korrelieren mit einer größeren Breite, während das Vorhandensein seltener gefundener Wörter auf eine geringere Breite hinweist. Im Zusammenhang mit Patentansprüchen werden Wörter, die häufig im technischen Bereich vorkommen, im Allgemeinen als breiter oder weniger einschränkend angesehen als seltene Wörter.
  • Die Breitenberechnung 114 kombiniert sowohl die Wörterzahl als auch die Wortkommunalität, um einem Dokument oder Dokumentenabschnitt ein Breiten-Score zuzuordnen. Spezifische Techniken zur Bestimmung der Wörterzahl, der Wortkommunalität und der Gesamtbreite werden im Folgenden erläutert. Einige Dokumente können mehrere Abschnitte haben, die bewertet werden. So kann beispielsweise eine Zusammenfassung und eine Zusammenfassung eines Finanzdokuments bewertet werden. Ein einziges Patentdokument kann mehrere unabhängige Ansprüche haben, und jedem unabhängigen Anspruch kann ein unterschiedlicher Breiten-Score zugeordnet werden. Die Breite eines Dokuments kann die Breite seines breitesten Teils sein, wie beispielsweise der breiteste Anspruch eines Patentdokuments. Alternativ kann die Breite eines Dokuments die Breite seines engsten Abschnitts (beispielsweise die schmalere der Zusammenfassung oder des Abstracts) oder alternativ ein Median oder Durchschnitt jedes der einzeln bewerteten Abschnitte des Dokuments sein. So kann beispielsweise ein Patentdokument mit 20 Ansprüchen eine Bewertung für jeden der Ansprüche erhalten, und die diesem Dokument zugewiesene Gesamtnote kann der Durchschnitt der 20 Breiten-Scores sein. In einigen Implementierungen kann die Breitenberechnung 114 ein Patent und/oder eine Patentanmeldung basierend auf der Anspruchssprache und den im Anspruch verwendeten Begriffen im Verhältnis zu allen anderen Ansprüchen, mit denen der Anspruch verglichen werden soll, bewerten. In einer bestimmten Implementierung wird ein Anspruch aus einem bestimmten Patent oder einer bestimmten Anmeldung mit allen Ansprüchen aus allen Patenten und/oder Patentanmeldungen einer bestimmten Klasse oder Unterklasse eines Klassifikations- oder Taxonomiesystems (beispielsweise USPTO-Klassifikation) verglichen.
  • Die Rangfolge 116 ordnet oder reiht die analysierten Dokumente. Die Breitenberechnung 114 wird im Zusammenhang mit den anderen Dokumenten in einem Korpus durchgeführt. Somit ist ein Breiten-Score für ein Dokument oder einen Teil eines Dokuments kein absoluter Wert, sondern ein relativer Wert im Vergleich zu anderen Dokumenten, die Teil derselben Analyse sind. Dieses Design für die Analyse ist menschenähnlich, weil es die Idee des Vergleichs von Äpfeln mit Äpfeln aufgreift. Der Vergleich der Breite eines biotechnologischen Patentanspruchs mit der Breite eines mechanischen Patentanspruchs ist weniger aussagekräftig als der Vergleich der Breite eines Softwareanspruchs mit einem anderen Softwareanspruch. Der Vergleich über verschiedene Technologieräume hinweg kann dazu führen, dass die Gemeinsamkeit eines bestimmten Wortes sehr unterschiedliche Auswirkungen auf die gesamte Anspruchsbreite hat. So könnte beispielsweise „Verschlüsselung“ regelmäßig in Patentansprüchen der Informationstechnologie zu finden sein und nur geringe negative Auswirkungen auf die Anspruchsbreite haben, aber das gleiche Wort in einem biotechnologischen Anspruch kann relativ ungewöhnlich sein und eine bedeutendere Einschränkung der Anspruchsbreite darstellen. Da die Dokumente oder Dokumentenabschnitte im Vergleich zu den anderen Dokumenten im gleichen Korpus ein Breiten-Score erhalten, können diese Breiten-Scores so angeordnet werden, dass eine Rangfolge entsteht, wobei beispielsweise 100 die breiteste (oder alternativ die engste) ist.
  • Die Benutzeroberfläche (UI) 118 kann die Breiten-Scores, die Rangfolge und eine Kennung für jedes der analysierten Dokumente anzeigen oder einem Benutzer anderweitig zur Verfügung stellen. Die Benutzeroberfläche 118 kann auch zusätzliche Informationen über eine Dokumentenfamilie, eine Gruppe von Dokumenten desselben Empfängers oder andere Informationen umfassen. Der Identifikator für jedes der Dokumente kann ein eindeutiger Identifikator sein, wie beispielsweise eine Patentnummer, eine veröffentlichte Patentanmeldenummer, eine internationale Standardbuchnummer (ISBN), ein Titel, ein universeller Ressourcenidentifikator (URI), und so weiter. Die UI 118 kann durch die Verarbeitung einer Textdatei oder einer anderen Textausgabe erzeugt werden. Die UI 118 kann als Befehlszeilenschnittstelle, als grafische Benutzeroberfläche oder als eine andere Art von Schnittstelle implementiert werden. Bei der Implementierung als grafische Benutzeroberfläche kann die UI 118 von einem Cloud-Service erzeugt werden, der über ein Kommunikationsnetzwerk wie das Internet zugänglich ist. Cloud-Services erfordern keine Kenntnisse des Endbenutzers über den physischen Standort oder die Konfiguration des Systems, das die Services bereitstellt. Zu den gebräuchlichen Namen, die mit Cloud-Diensten verbunden sind, gehören „Software as a Service“ oder „SaaS“, „Plattformcomputer“, „On-Dash Demand Computing“ und so weiter. Eine beliebige Anzahl von Benutzern kann jederzeit über spezielle Anwendungen oder über Browser (beispielsweise Internet Explorer, Firefox, Safari, Google Chrome, etc.) auf die Benutzeroberfläche 118 zugreifen, die sich auf ihren lokalen Computergeräten befinden.
  • 2 zeigt eine Implementierung der UI 118 im Detail. Die Benutzeroberfläche 118 kann Informationen anzeigen, die durch die Analysepipeline 100 für eine Reihe verschiedener Dokumente oder Dokumentenabschnitte erzeugt wurden. In diesem Beispiel sind die Dokumente erteilte Patente und die analysierten Teile sind unabhängige Ansprüche. Die gleiche oder ähnliche Benutzeroberfläche könnte jedoch die Analyse verschiedener Arten von Dokumenten anzeigen. Eine veranschaulichende Art der Benutzeroberfläche ist eine grafische Benutzeroberfläche (GUI), wie in 2 dargestellt. Eine GUI ist eine Art von Benutzeroberfläche, die es Benutzern ermöglicht, mit elektronischen Vorrichtungen über grafische Symbole und visuelle Indikatoren wie sekundäre Notation anstelle von textbasierten Benutzeroberflächen, getippten Befehlsbeschriftungen oder Textnavigation zu interagieren. Aktionen in der GUI können durch direkte Manipulation der grafischen Elemente mit einem Zeigegerät wie Maus, Stift oder Finger durchgeführt werden.
  • Es gibt einen Eintrag für ein oder mehrere Dokumente in der Benutzeroberfläche 118 und Informationen über diese Dokumente. Die Informationen können den breitesten Anspruch 200, die Patentnummer 202, den Breiten-Score des breitesten Anspruchs 4, die Rangordnung 206 des Dokuments im Vergleich zu anderen Dokumenten im Korpus, die Anspruchssprache des breitesten Anspruchs 8 und/oder die Identifizierung von Anomalien 210 umfassen. Die Benutzeroberfläche 118 kann auch interaktive Elemente 212 umfassen, die jedem der Einträge zugeordnet sind. Ein interaktives Element 212 kann als Reaktion auf einen auf einer Eingabevorrichtung erzeugten Befehl zum Auswählen eines der Dokumente aktiviert werden. Informationen über die Analyse des ausgewählten Dokuments können in einer separaten Datei gespeichert, in einem separaten Speicherbereich abgelegt oder einer Liste für einen späteren Zugriff und/oder eine spätere Analyse hinzugefügt werden.
  • Die Breiten-Scores 204 können als beliebige Zahlen angesehen werden, die selbst keine inhärente Bedeutung haben, aber der Unterschied in dem Breiten-Score kann zur Erzeugung der Rangliste 206 verwendet werden und ist ein Hinweis auf die Höhe der Abweichung zwischen der Breite 204 verschiedener Patentansprüche oder anderer Dokumentenabschnitte. In diesem Beispiel hat der breiteste Anspruch ein Breiten-Score 204 von 85 und die Rangfolge 206 dieses Anspruchs ist 1. Eine Spalte in dieser Benutzeroberfläche 118 kann die Anspruchssprache 208 des breitesten Anspruchs für das analysierte Dokument anzeigen. In einigen Implementierungen, um weniger Bildschirmraum zu nutzen, wie beispielsweise auf einer mobilen Vorrichtung, kann die Spalte mit der Anspruchssprache 208 nur einen Teil der Anspruchssprache anzeigen oder ein funktionsfähiges Oberflächenelement darstellen, das bei Aktivierung die Anzeige der gesamten Anspruchssprache bewirkt. Die Ansprüche, für die Anomalien festgestellt wurden, können durch Einträge in der Spalte 210 angegeben werden. In einer Implementierung kann das Vorhandensein einer Anomalie durch ein Symbol oder eine Kennzeichnung markiert sein. Diese Anzeige selbst kann ein funktionsfähiges Oberflächenelement sein, das bei Aktivierung die Anzeige der spezifischen Art der erkannten Anomalie bewirkt. In der Implementierung, die durch diese beispielhafte UI 118 gezeigt wird, liefert die Spalte Anomalien 210 eine kurze Beschreibung der in einem Anspruch festgestellten Anomalie oder Anomalien.
  • VERANSCHAULICHENDE VERFAHREN
  • Die Verfahren werden als eine Sammlung von Blöcken in einem logischen Flussdiagramm dargestellt, das eine Folge von Operationen darstellt, die in Hardware, Software, Firmware oder einer Kombination davon implementiert werden können. Die Reihenfolge, in der die Verfahrensblöcke beschrieben und beansprucht werden, ist nicht als Einschränkung zu verstehen, und eine beliebige Anzahl der beschriebenen Verfahrensblöcke kann in beliebiger Reihenfolge zur Implementierung des Verfahrens oder alternativer Verfahren kombiniert werden. Darüber hinaus können einzelne Blöcke des Verfahrens ausgenommen werden, ohne vom Geist und Umfang des hierin beschriebenen Gegenstandes abzuweichen. Im Zusammenhang mit Software stellen die Blöcke Computeranweisungen dar, die, wenn sie von einem oder mehreren Prozessoren ausgeführt werden, die rezitierten Operationen ausführen. Im Zusammenhang mit der Hardware können einige oder alle Blöcke anwendungsspezifische integrierte Schaltungen (ASICs) oder andere physikalische Komponenten darstellen, die die genannten Vorgänge ausführen.
  • Die Verfahren 300-700 werden im allgemeinen Kontext computerausführbarer Anweisungen beschrieben. Im Allgemeinen können computerausführbare Anweisungen Routinen, Programme, Objekte, Komponenten, Datenstrukturen, Verfahren, Module, Funktionen und dergleichen umfassen, die bestimmte Funktionen ausführen oder bestimmte abstrakte Datentypen implementieren. Die Verfahren können auch in einer verteilten Computerumgebung praktiziert werden, in der Funktionen von entfernten Verarbeitungsgeräten ausgeführt werden, die über ein Kommunikationsnetzwerk verbunden sind. In einer verteilten Computerumgebung können sich computerausführbare Anweisungen auf lokalen und/oder entfernten Computerspeichermedien, einschließlich Speichervorrichtungen, befinden.
  • 3 ist ein Flussdiagramm, das ein beispielhaftes Verfahren 300 zum Filtern von Daten darstellt, die aus einem oder mehreren Datenspeichern stammen. So kann beispielsweise eine Sammlung von Patenten und/oder Anmeldungen aus einem Datenspeicher gesammelt werden, der auf einen Technologiebereich beschränkt ist. Dies ermöglicht es den Wörtern und/oder Sätzen, eine gemeinsame Ontologie, einen gemeinsamen Wortschatz und/oder eine gemeinsame Taxonomie zu verwenden. In einer Implementierung kann die Sammlung auf der Grundlage von Klassifizierungscodes wie den Klassen und Unterklassen des USPTO (U.S. Patent and Trademark Office) oder den Internationalen Patentcodes (IPC) bezogen werden.
  • Bei 302 kann ein einzelnes Dokument von einem Datenspeicher zur Analyse empfangen werden. Jedes Dokument im Datenspeicher kann mit einer eindeutigen Dokumentennummer verknüpft werden. Die eindeutige Dokumenten-Identifikationsnummer eines Patentdokuments kann eine Anmeldenummer, eine Veröffentlichungsnummer, eine Patentnummer und/oder eine Kombination von Informationen im Zusammenhang mit dem Patentdokument umfassen, die das Patentdokument eindeutig identifizieren können (wie beispielsweise eine Kombination aus einem Namen eines Erfinders und einem Anmeldetag und weitere).
  • Dieser Prozess kann sich wiederholen, bis alle Dokumente in einem bestimmten Datenspeicher analysiert sind. Zu den verfügbaren Datenspeichern können unter anderem eine Patentdatenbank gehören, die von einem Patentamt eines bestimmten Landes bereitgestellt und/oder unterstützt wird (beispielsweise eine USPTO-Datenbank (United States Patent and Trademark Office), eine PAIR-Datenbank (Patent Application Information Retrieval), eine EPA-Datenbank (European Patent Office), eine WIPO-Datenbank (World Intellectual Property Organization), eine SIPO-Datenbank (State Intellectual Property Office of the P.R.C.) und weitere) und alle anderen Datenbanken, die von öffentlichen und/oder privaten Institutionen auf der ganzen Welt bereitgestellt werden.
  • In einigen Beispielen kann die Sammlung von Patenten, die aus den Datenspeichern gesammelt werden, basierend auf der Gerichtsbarkeit und/oder Sprache, in der die Patente geschrieben sind, gesammelt oder zusammengetragen werden. So können beispielsweise in China eingereichte Patentanmeldungen aus Datenspeichern gesammelt werden. In einigen Beispielen können die Patentanmeldungen auf der Grundlage verschiedener Merkmale gesammelt werden, beispielsweise auf welchem Technologiegebiet die Patentanmeldungen eingereicht werden, wer der Anmelder oder der Bevollmächtigte der Patentanmeldung ist, die Art der Patentanmeldung (beispielsweise Gebrauchsmuster, Erfindungspatent und weitere) oder jede andere Art von Merkmal.
  • Bei 304 wird bestimmt, ob das Dokument maschinenlesbaren Text enthält. Einige Arten von Dateien, die aus den Datenspeichern verfügbar sind, wie beispielsweise HTML-Dokumente, können bereits maschinenlesbaren Text umfassen. Bei anderen Dateitypen, wie beispielsweise PDF-Dateien, die Bilder von Papierdokumenten darstellen, fehlt möglicherweise maschinenlesbarer Text. Entwürfe von Dokumenten oder unveröffentlichte Dokumente können beispielsweise nur in Formularen verfügbar sein, die keinen maschinenlesbaren Text umfassen. Die Bestimmung, ob ein Dokument maschinenlesbaren Text enthält, kann zum Teil durch automatische Erkennung des Dateityps unter Verwendung bekannter Techniken zur Identifizierung von Dateitypen einschließlich der Erkennung von Dateinamensuffixen erfolgen. Wenn ein Dateityp nicht durch ein Suffix oder andere Metadaten angegeben ist, kann er bestimmt werden, indem die Datei geöffnet und die Dateistruktur mit einer Bibliothek bekannter Strukturen verglichen wird, die mit bekannten Dateitypen verknüpft sind. Wenn bestimmt wird, dass ein Dokument keinen maschinenlesbaren Text enthält, kann das Verfahren 300 mit 306 fortfahren und die optische Zeichenerkennung (OCR) kann verwendet werden, um Text im Dokument zu erkennen.
  • Bei 306 kann die OCR auf das Dokument angewendet werden, um das Dokument in ein Format zu konvertieren, das maschinenlesbaren Text enthält. OCR ist die mechanische oder elektronische Umwandlung von Bildern von getipptem, handschriftlichem oder gedrucktem Text in maschinencodierten Text, sei es von einem gescannten Dokument, einem Foto eines Dokuments oder einer anderen Quelle. OCR ist ein Verfahren zur Digitalisierung von Bildtexten, so dass sie elektronisch bearbeitet, gesucht, kompakter gespeichert, online angezeigt und in maschinellen Prozessen wie Cognitive Computing, Machine Translation, (extrahierter) Text-to-Speech, Key Data und Text Mining verwendet werden können. OCR umfasst Mustererkennung, künstliche Intelligenz und Computer Vision.
  • Bei 308 wird die Dokumentart identifiziert. Der Dokumenttyp bezeichnet die Art der Informationen, die in einem Dokument umfassen sind, und nicht das Computerdateiformat, in dem das Dokument kodiert ist. Dokumente können Identifizierungsinformationen wie eindeutige Dokumenten-Identifikationsnummern, Art-Codes und Herkunftsangaben umfassen. Eindeutige Dokumenten-Identifikationsnummern können beispielsweise Patentnummern umfassen, mit denen verschiedene Arten von Patenten aufgrund der Struktur der Nummer unterschieden werden können. Bei der Analyse von Dokumenten-Identifikationsnummern aus einer Datenbank mit US-Patenten kann beispielsweise eine siebenstellige Zahl so interpretiert werden, dass sie anzeigt, dass es sich bei dem Dokument um ein Gebrauchsmuster handelt, und eine elfstellige Zahl, die optional mit einem „I“ nach den ersten vier Ziffern versehen ist, kann eine veröffentlichte Patentanmeldung anzeigen, eine fünf- oder sechsstellige Zahl, der der Buchstabe D vorangestellt ist, steht für ein Geschmacksmuster, und Identifikatoren für Pflanzenpatente beginnen mit den Buchstaben PP. Typenschlüssel in Patentdokumenten können auch angeben, ob es sich bei einem Dokument um ein Gebrauchsmuster, ein Pflanzenpatent, eine Veröffentlichung einer Patentanmeldung, eine gesetzliche Erfindungsanmeldung oder ein Geschmacksmuster handelt. Die zu analysierenden Dokumente können aus einer Vielzahl von verschiedenen Datenspeichern stammen. Wenn bekannt ist, dass sich ein bestimmter Datenspeicher darauf beschränkt, nur Dokumente eines bestimmten Typs zu umfassen, können alle aus diesem Datenspeicher erhaltenen Dokumente als vom angegebenen Typ angenommen werden. So kann beispielsweise ein Dokument aus einem Datenspeicher, der nur wissenschaftliche Arbeiten zur Biotechnologie enthält, aufgrund der Herkunft aus diesem speziellen Datenspeicher als wissenschaftliche Arbeit zur Biotechnologie identifiziert werden. Jedes Dokument an dieser Stelle des Verfahrens 300 enthält maschinenlesbaren Text und wird einem Dokumenttyp zugeordnet.
  • Bei 310 wird bestimmt, ob das Dokument von einer oder mehreren angegebenen Dokumentarten stammt. Hierdurch werden Dokumente nach der Dokumentart gefiltert. Die Dokumentart(en) kann (können) vom Benutzer festgelegt werden. In Ermangelung einer Benutzerangabe kann die Filterung auf der Grundlage einer Standarddokumentart durchgeführt werden. In einer Implementierung kann die Standarddokumentart mit US-Patenten versehen werden. Somit wird jedes Dokument, das als US-Patent identifiziert wird, entweder durch eine eindeutige Dokumenten-Identifikationsnummer, einen Art-Code, durch Herkunft aus einem bestimmten Datenspeicher oder eine andere Technik, für eine weitere Analyse aufbewahrt. Ein Benutzer kann auch sowohl erteilte US-Patente als auch erteilte europäische Patente angeben, wobei in diesem Fall Dokumente beider Arten so bestimmt werden, dass sie mit der angegebenen Dokumentart übereinstimmen. Wenn jedoch ein Dokument nicht mit der angegebenen Dokumentart übereinstimmt, kehrt das Verfahren 300 zu 302 zurück und ein neues Dokument wird vom Datenspeicher empfangen. Dieser Teil des Verfahrens 300 kann automatisch und kontinuierlich ablaufen, bis alle Dokumente innerhalb eines oder mehrerer Datenspeicher analysiert wurden. Diese Verarbeitung und Filterung ermöglicht die Verwendung unterschiedlicher Datenspeicher und ermöglicht die Anwendung der Dokumentenanalyse auf mehrere Datenspeicher, da es Mechanismen gibt, mit denen alle Dokumente in maschinenlesbaren Text umgewandelt und Dokumente ausgeschlossen werden können, die nicht mit einem bestimmten Dokumenttyp übereinstimmen.
  • Für Dokumente, die mit der angegebenen Dokumentart bei 310 übereinstimmen, fährt das Verfahren 300 mit 312 fort.
  • Bei 312 wird bestimmt, ob der Anspruchsteil des Dokuments beschriftet ist. Ein beschrifteter Anspruchsabschnitt wird als Textabschnitt identifiziert, der Patentansprüche enthält, die von anderen Teilen eines Patentdokuments getrennt sind. So kann beispielsweise ein Dokument im CSV-Format alle Ansprüche in derselben Spalte umfassen, die als anspruchshaltig markiert ist. Alternativ kann ein HTML-Dokument spezifische Tags für jeden Anspruch aufweisen, die anzeigen, dass es sich um einen Anspruch handelt und ob es sich um einen unabhängigen oder abhängigen Anspruch handelt. Andere Dokumente, wie beispielsweise eine OCR-Version eines PDF-Dokuments, können jedoch einfach undifferenzierten Text umfassen. Für solche Dokumente können Ansprüche ohne zusätzliche Analyse nicht als solche identifiziert werden. In diesem Beispiel wird das Bestimmen besprochen, ob ein Anspruchsteil einer Patentschrift beschriftet ist. Die Identifizierung spezifischer Etikettenabschnitte eines Dokuments ist jedoch nicht auf diese Anwendung beschränkt und kann auch zur Bestimmung anderer Abschnitte von Dokumenten verwendet werden, die separat identifiziert werden, wie beispielsweise die Bestimmung, welche Finanzdokumente als Executive Summaries bezeichnet sind.
  • Wenn ein Dokument keinen beschrifteten Anspruchsteil hat, fährt das Verfahren 300 mit 314 fort.
  • Bei 314 wird der Anspruchsteil erkannt. Die spezifische Technik zur Erkennung von Anspruchsteilen kann je nach Dokumentenformat variieren. In einer Implementierung kann die Schlüsselworterkennung zur Unterscheidung eines Anspruchsteils verwendet werden. Wenn beispielsweise eine Seite eines Dokuments das Wort „Anspruch“ oder „Ansprüche“ in der ersten Zeile enthält und auf derselben Seite ein Absatz folgt, der mit einer Zahl beginnt, auf die ein Punkt folgt, dann kann dieser Absatz oder diese ganze Seite als Anspruchsteil bezeichnet werden. Andere Erkennungstechniken können alternativ oder zusätzlich angewendet werden. So kann beispielsweise jeder Absatz, der eine Zeile enthält, die mit einem Semikolon endet, als Anspruch interpretiert werden.
  • Bei 316 wird aus dem Dokument, das den Anspruchsanteil und die eindeutige Dokumenten-Identifikationsnummer enthält, ein Datensatz erstellt. Dieser Datensatz kann als eigenständige Datei oder als Teil einer anderen Datei gespeichert werden. Der Datensatz kann in einem anderen Format vorliegen als das Format des Quelldokuments. In vielen Implementierungen wird der Datensatz in einem Speicher gespeichert, der sowohl logisch als auch physisch von einem der Datenspeicher getrennt ist. Dieser Datensatz kann über die eindeutige Dokumenten-Identifikationsnummer mit dem Quelldokument verknüpft werden. Die Ansprüche in der Aufzeichnung können als einzelne Ansprüche unterschieden werden oder eine undifferenzierte Textsammlung sein, die einige oder alle Ansprüche in der Patentschrift repräsentiert. Daher kann diese Aufzeichnung im Zusammenhang mit Patentdokumenten den Anspruchsteil einer Patentdokumentation darstellen. Die Erzeugung mehrerer Datensätze aus mehreren Dokumenten kann einen Korpus von Patentansprüchen erzeugen, die für weitere Analysen zugänglich sind.
  • 4 ist ein Flussdiagramm, das ein beispielhaftes Verfahren 400 zur Vorverarbeitung von Ansprüchen vor einer Analyse der Anspruchsbreite darstellt. Die Vorverarbeitung dient dazu, den Inhalt der Ansprüche zu normalisieren, so dass die Bestimmung der Anspruchsbreite konsistentere Ergebnisse liefert. Es bietet auch eine Möglichkeit, einen Teil der Dokumentenanalyse anzupassen, ohne die Techniken zur Bestimmung des Anspruchsumfangs zu ändern.
  • Bei 402 kann der Anspruchsabschnitt eines Dokuments in separate Wörter unterteilt werden. Dadurch wird der Text des Anspruchsabschnitts in mehrere diskrete Wörter unterteilt. Das Parsen von Wörtern kann durchgeführt werden, indem man Wort-Trenner identifiziert und die Wort-Trenner verwendet, um den Text in einzelne Wörter zu trennen. Ein Trennzeichen ist ein Leerzeichen, Komma oder ein anderes Zeichen oder Symbol, das den Anfang oder das Ende einer Zeichenkette, eines Worts oder Datenelements angibt. In einer Implementierung sind die Wort-Trenner sowohl ein <Leerzeichen> als auch ein Bindestrich. Wort-Parsing kann durchgeführt werden, bevor einzelne Ansprüche voneinander unterschieden werden.
  • Bei 404 werden Akronyme und Abkürzungen durch alternative standardisierte Darstellungen ersetzt. Dies kann durch Vergleich jedes Wort aus dem Anspruchsbereich mit einer Synonymbibliothek (beispielsweise einer Nachschlage-Tabelle) erfolgen, die bekannte Akronyme und Abkürzungen enthält, die mit alternativen Darstellungen gepaart sind. In einigen Implementierungen können die alternativen Darstellungen vollständig ausgeschriebene Wörter sein. Eine alternative Darstellung kann auch eine standardisierte Form sein, die keine Punkte verwendet. So kann beispielsweise „NASA“ durch die National Air and Space Administration ersetzt werden. Ebenso kann „U.S.A.“ durch „USA“ oder in einigen Implementierungen durch „Vereinigte Staaten von Amerika“ ersetzt werden. “Dies dient dazu, die in einigen Abkürzungen vorkommenden Punkten zu entfernen und die Wörterzahl zu normalisieren, so dass Ansprüche nicht als kürzer wahrgenommen werden, nur weil sie mehr Akronyme oder Abkürzungen verwenden. Die Entfernung von Punkten in Abkürzungen ermöglicht es, dass die Verwendung des Satzpunktes ein Indikator dafür ist, wo ein erster Anspruch endet und ein zweiter Anspruch beginnt.
  • Bei 406 kann der Anspruchsteil in einzelne Ansprüche unterteilt werden. Man erinnere sich daran, dass nach der Dokumentenfilterung jeder Datensatz eines Dokuments einen Anspruchsabschnitt umfassen kann, der potenziell mehrere Ansprüche umfassen könnte, die nicht getrennt voneinander unterschieden werden. Obwohl es für einen Menschen relativ trivial sein kann, verschiedene Ansprüche in einem Dokument zu identifizieren, kann es für einen automatisierten Prozess viel schwieriger sein, Textfolgen genau in einzelne Ansprüche zu analysieren. Bei Patentansprüchen kann dies jedoch durch eine Trennung zwischen einem ersten Anspruch und einem zweiten Anspruch erfolgen, wenn ein Zeitraum gefolgt von einer Ziffer folgt. Die Trennung kann durch Einfügen eines Zeilenumbruchs oder einer anderen Markierung realisiert werden. Dies ist eine angemessene Annäherung an die Aufteilung von Ansprüchen, da, sobald die Abkürzungen mit Punkten durch vollständige Wörter ersetzt wurden, die einzigen in einem Satz von Ansprüchen vorhandenen Punkten am Ende eines Anspruchs sein werden. Darüber hinaus beginnt jeder Anspruch mit einer Zahl, wie beispielsweise einer Zahl von 1-20. Daher ist jeder Punkt, der auf einen Zeitraum folgt und einer Zahl vorausgeht, wahrscheinlich eine Aufteilung zwischen zwei Ansprüchen.
  • Bei 408, sobald die Ansprüche in separate Ansprüche aufgeteilt wurden, kann jedes Satzzeichen entfernt werden. Satzzeichen können entfernt werden, indem man sie mit einer Liste von Satzzeichen abgleicht und jedes Zeichen in der Liste löscht. Das Entfernen von Satzzeichen kann einzelne oder alle Punkte, Semikolons, Kommas, Bindestriche, Klammern, Schrägstriche und dergleichen entfernen. Satzzeichen werden im Allgemeinen so verstanden, dass sie die Anspruchsbreite nicht beeinflusst. Durch das Entfernen von Satzzeichen werden also Zeichen, die nicht weiterverarbeitet werden, aus dem zu analysierenden Text herausgenommen.
  • Bei 410 wird bestimmt, ob es bestimmte Stoppwörter gibt. Spezifische Stoppwörter können auf dem Inhalt der zu analysierenden Dokumente basieren. Wenn es sich bei den Dokumenten beispielsweise um Patentdokumente handelt, können die spezifischen Stoppwörter Wörter umfassen, die in Patentansprüchen üblich sind und kaum dazu dienen, einen Anspruch von einem anderen zu unterscheiden. Eine patentspezifische Liste von Stoppwörtern kann Wörter und/oder Phrasen wie „computerlesbare Medien“, „System“, „Maschine“, „umfassend“ und „wobei“ sowie Wörter und/oder Phrasen umfassen, die gesetzliche Klassen wie „Verfahren“, „Herstellungsartikel“ und „Zusammensetzung der Materie“ („composition of matter“) angeben. Technologiespezifische Stoppwörter können ebenfalls verwendet werden. Wenn beispielsweise alle zu analysierenden Patentdokumente aus derselben technologischen Klasse oder Gruppierung stammen, können Stoppwörter verwendet werden, die zuvor für diese Technologie identifiziert wurden. So kann beispielsweise „Schaltung“ in eine Stoppliste aufgenommen werden, die speziell für Dokumente zur Beschreibung der Elektrotechnik gilt. In einigen Beispielen können, abhängig von der jeweiligen Sammlung von Patenten, unterschiedliche Stoppwörter verwendet werden. Wenn beispielsweise die Sammelpatente auf Chinesisch geschrieben sind, können Stoppwörter in chinesischer Sprache verwendet werden. Darüber hinaus, wenn die Sammlung von Patenten Gebrauchsmuster sind, dann können andere Stoppwörter verwendet werden als wenn die Sammlung von Patenten Erfindungspatente sind.
  • In einigen Beispielen können je nach Art der natürlichen Sprache unterschiedliche Stoppwörterlisten gespeichert werden. So können beispielsweise verschiedene Stoppwörter von einer Sprache der Gerichtsbarkeit abhängen, in der die Ansprüche eingereicht werden. So kann beispielsweise eine erste Auflistung von Stoppwörtern verwendet werden, wenn die Gerichtsbarkeit die Vereinigten Staaten von Amerika ist, und eine zweite Auflistung von Stoppwörtern kann verwendet werden, wenn die Gerichtsbarkeit China ist.
  • Wenn bestimmte Stoppwörter nicht verfügbar sind, fährt das Verfahren 400 mit 412 fort und verwendet Standardstoppwörter. Wenn jedoch bestimmte Stoppwörter verfügbar sind, geht das Verfahren 400 zu 414 über und verwendet die spezifischen Stoppwörter. Mehrere Sätze von Stoppwörtern können zusammen verwendet werden. So können beispielsweise eine oder mehrere spezifische Stoppwörterlisten in Verbindung mit einer Standardstoppwortliste verwendet werden.
  • Bei 416 werden Stoppwörter entfernt. Wenn mehrere Stoppwörterlisten zusammen verwendet werden, werden Wörter entfernt, wenn sie in einer der Stoppwörterlisten vorkommen.
  • Bei 418 wird das Einstammen („stemming“) auf die restlichen Wörter angewendet. Einstammen ist der Prozess der Reduzierung von gebeugten (oder manchmal abgeleiteten) Wörtern auf ihren Wortstamm, ihre Basis oder ihre Stammform - im Allgemeinen eine schriftliche Wortform. Der Stamm muss nicht identisch mit der morphologischen Wurzel des Wortes sein; es genügt in der Regel, dass verwandte Wörter auf den gleichen Stamm abgebildet werden, auch wenn dieser Stamm an sich keine gültige Wurzel ist. Einstammen ist eine zusätzliche Form der Normalisierung, die Unterschiede zwischen ähnlichen Wörtern wie „vergleiche“ und „vergleichen“ beseitigt. Es gibt zahlreiche bekannte Techniken für das Einstammen, darunter die Verwendung einer Nachschlage-Tabelle, Suffixstripping, Lemmatisierung, stochastische Algorithmen, n-Gramm-Analyse, Matching-Algorithmen, etc. In einer Implementierung wird der Porter Stemmer Algorithmus aus dem öffentlich zugänglichen „nltk“-Paket verwendet, um das Einstammen durchzuführen.
  • Bei 420 können doppelte Wörter entfernt werden. Wenn die Entfernung von doppelten Wörtern nach dem Einstammen auftritt, sind es tatsächlich die doppelten Stammformen der Wörter, die entfernt werden. So würde beispielsweise das Entfernen von Duplikaten vor dem Einstammen sowohl „Anpasser“ als auch „angepasst“ im Text eines Verfahrensanspruchs hinterlassen, aber nach dem Einstammen können die Wörter beide in die Stammform „anpassen“ umgewandelt und einer entfernt werden.
  • So werden die verschiedenen aus Patentschriften gewonnenen Anspruchssektionen durch Vorverarbeitung standardisiert, indem Akronyme und Abkürzungen durch alternative Darstellungen ersetzt werden (beispielsweise Ausschreibung in ganzen Wörtern), Satzzeichen entfernt, Stoppwörter entfernt, doppelte Wörter abgeleitet und gelöscht werden. Diese Vorverarbeitung macht die Daten aus den Datenspeichern für die automatische Analyse der Anspruchsbreite besser zugänglich. Es entfernt auch einige der Variationen, die durch verschiedene Techniken zur Formulierung von Patentansprüchen eingeführt werden können, um den Inhalt eines Patentanspruchs getrennt von einem bestimmten Schriftstil zu approximieren. Obwohl ein menschlicher Analytiker erkennen kann, wann ein Schreibstil „wortreich“ ist, kann die automatische Analyse der Breite durch verschiedene Schreibstile verfälscht werden und möglicherweise ähnliche Ansprüche unterschiedlich bewerten, es sei denn, es wird eine Vorverarbeitung durchgeführt.
  • 5 ist ein Flussdiagramm, das ein beispielhaftes Verfahren 500 zur Identifizierung und Verarbeitung von Ansprüchen mit einer Anomalie darstellt. Da die automatische Dokumentenanalyse noch nicht so effektiv ist wie die manuelle, menschliche Analyse, kann es einige Fallabschnitte geben, die die Dokumentenfilterung und Vorverarbeitung durchlaufen, aber nicht für die weitere Analyse der Anspruchsbreite geeignet sind. Diese Behauptungen sollten ignoriert werden. Darüber hinaus kann es auch bei der gewünschten Filterung und Vorverarbeitung einige Merkmale von Patentansprüchen geben, die von den Techniken zur automatischen Bestimmung der Anspruchsbreite nicht richtig analysiert werden. Anstatt diese Anomalien einfach zu ignorieren, können sie markiert oder anderweitig vermerkt werden, so dass menschliche Benutzer die tatsächliche Anspruchssprache beurteilen können.
  • Bei 502 wird bestimmt, ob ein Abschnitt eines als Anspruch markierten Dokuments einen gelöschten Anspruch enthält. Wenn ja, fährt das Verfahren 500 mit 504 fort und ignoriert den gelöschten Anspruch, so dass er bei der weiteren Analyse nicht berücksichtigt wird. Jeder Dokumentenabschnitt, der mit einem der folgenden Merkmale markiert ist, kann als gelöschter Anspruch bezeichnet werden:
    • - Enthält eines der Wörter „(abgebrochen)“, „entfernen“, „löschen“, „löschen“, oder „gelöscht“
    • - Ist weniger als 10 Zeichen
  • Wenn ein Dokumentenabschnitt nicht als gelöschter Anspruch markiert ist, fährt das Verfahren 500 mit 506 fort.
  • Bei 506 wird bestimmt, ob ein Abschnitt eines als Anspruch markierten Dokuments einen abhängigen Anspruch enthält. Da abhängige Ansprüche den Umfang eines unabhängigen Anspruchs notwendigerweise einschränken, können abhängige Ansprüche ignoriert werden, wenn das Verfahren 500 zur Identifizierung und Bestimmung der Anspruchsbreite für einen breitesten Anspruch in einem bestimmten Patentdokument implementiert wird. Somit geht das Verfahren 500 für jeden Anspruch, der als abhängiger Anspruch festgestellt wird, zu 504 über und ignoriert diesen Anspruch. Ein Dokumentenabschnitt, der einen Anspruch enthält, der eines der folgenden Wörter oder Sätze enthält, kann als abhängiger Anspruch bezeichnet werden:
    • • „Anspruch“ gefolgt von einer Nummer
    • • „Anspruch“ gefolgt von der römischen Zahl
    • • „gemäß“ gefolgt von einer Nummer
    • • „Verfahren“ gefolgt von einer Nummer
    • • „System“ gefolgt von einer Nummer
    • • „von wobei“
    • • „Schritt“ gefolgt von einer Nummer
    • • „nach“ gefolgt von einer Nummer
    • • „Anspruch bis“ gefolgt von einer Nummer
    • • „rezitiert“ gefolgt von einer Nummer
    • • „rezitiert in“ gefolgt von einer Nummer
    • • „dargelegt in“ gefolgt von einer Nummer
    • • „Artikel von <etwas>“ gefolgt von einer Nummer
    • • „Artikel von <etwas etwas> “ gefolgt von einer Nummer
    • • „Verfahren zum <etwas>“ gefolgt von einer Nummer
    • • „Verfahren zum <etwas etwas>“ gefolgt von einer Nummer
    • • „Anspruch nach gefolgt von einer Nummer
    • • „Clam“ gefolgt von einer Nummer -
    • • „Clan“ gefolgt von einer Nummer
    • • „Ansprüche“ gefolgt von einer Nummer
    • • „claimer“ gefolgt von einer Nummer
    • • „Anspruch“ gefolgt von einem Buchstaben/Nummer
    • • „Anspruch“ gefolgt von einem Buchstaben/Nummer <Komma>
    • • „Anspruch“ <Leerzeichen> <Komma>
    • • „Anspruch“ <kein Leerzeichen> <Nummer>
    • • <Leerzeichen> „Anspruch“ <Punkt>
    • • „gemäß Anspruch“
    • • beginnt mit „Der/Die/Das“ statt „Ein“ oder „Eine“
    • • „nach“ <Komma> „wobei“
  • Wenn ein Dokumentabschnitt nicht als abhängiger Anspruch markiert ist, geht das Verfahren 500 zu 508 über.
  • Bei 508 wird bestimmt, ob ein Anspruch eine andere Art von Anomalie aufweist. Wenn ja, wird der Anspruch nicht ignoriert oder gelöscht, sondern das Verfahren 500 geht zu 510 über und der Anspruch wird markiert, so dass er manuell betrachtet werden kann. Die Markierung von einem Anspruch kann die Art der festgestellten Anomalie angeben oder es kann einfach ein Hinweis darauf geben, dass eine Anomalie festgestellt wurde. Die spezifische Art der Anomalie wird wahrscheinlich selbstverständlich sein, wenn der Anspruch von einem Menschen manuell überprüft wird. Ein Anspruch kann als mit einer anderen Art von Anomalie bezeichnet werden, wenn er eines der folgenden Merkmale aufweist:
    • • leere Zeichenkette
    • • Anspruch beginnt mit einer Zahl
    • • beginnt mit kleinem „ein/eine“
    • • beginnt mit einem anderen Kleinbuchstaben
  • Während der automatischen Analyse, sobald ein Anspruch als eine Art von Anomalie markiert ist, stoppt die weitere Erkennung von Anomalien. Beispielsweise werden Ansprüche als abhängige Ansprüche bestimmt und nicht zusätzlich analysiert, um festzustellen, ob sie Mittel und Funktionssprache umfassen. Diese sequentielle Verarbeitungstechnik spart Rechenleistung, da sie nicht jeden Anspruch für jede mögliche Art von Anomalie analysiert. Dies erhöht auch die Geschwindigkeit, mit der Dokumente automatisch analysiert werden, da es weniger Verarbeitungsschleifen gibt. Wenn bei 508 ein Anspruch keine weiteren Anomalien aufweist, geht das Verfahren 500 zu 512 über.
  • Bei 512 wird bestimmt, ob es sich bei dem Anspruch um ein Mittel-plus-Funktionsanspruch handelt. Mittel-plus-Funktionsanspruch werden durch das Vorhandensein eines <Leerzeichens> erkannt, gefolgt von „Mittel“ in der Sprache des Anspruchs. Ansprüche, die als Mittel-plus-Funktionsansprüche identifiziert wurden, werden markiert, weil der Umfang solcher Ansprüche auf Definitionen basiert, die in der Spezifikation des Patentdokuments vorgesehen sind, so dass eine Bestimmung der Anspruchsbreite basierend auf der Wörterzahl und der Wortfrequenz erfolgt und der Anspruch eine ungenaue Darstellung der tatsächlichen Anspruchsbreite sein kann. Wenn der Anspruch ein Mittel-plus-Funktionsanspruch ist, geht das Verfahren 500 zu 510 über und der Anspruch wird markiert. Wenn nicht, wird das Verfahren 500 jedoch mit 514 fortgesetzt.
  • Bei 510 können andere Arten von Ansprüchen aufgrund des materiellen Rechts, das mit der jeweiligen Gerichtsbarkeit, in der die Ansprüche eingereicht werden, verbunden ist, markiert werden. So sind beispielsweise in einigen Ländern (beispielsweise Indien) bestimmte Arten von Ansprüchen nicht zulässig, wie beispielsweise computerlesbare Medienansprüche. Dementsprechend, wenn die Sprache, die mit computerlesbaren Medien verbunden ist, in in Indien eingereichten Ansprüchen identifiziert wird, können diese Ansprüche mit 510 markiert werden und/oder ihre zugehörigen Anspruchsbreiten-Scores werden gesenkt, basierend auf der Erkennung von Sprache, die in einer bestimmten Gerichtsbarkeit nicht zulässig ist.
  • Bei 514 wird bestimmt, ob es sich bei einem Anspruch um einen möglichen abhängigen Anspruch handelt. Ein möglicher abhängiger Anspruch ist ein Anspruch, der möglicherweise abhängig ist, aber die automatische Analyse ist nicht zuversichtlich genug, um den Anspruch als „abhängig“ zu kennzeichnen und ihn für die Zwecke der weiteren Analyse zu ignorieren. Daher wird der Anspruch markiert, so dass er manuell überprüft und festgestellt werden kann, ob er tatsächlich ein abhängiger Anspruch ist und ignoriert werden sollte. Ein Anspruch mit einer der folgenden Eigenschaften kann als möglicherweise abhängiger Anspruch bezeichnet werden:
    • - <Zahl> <Komma> „wobei“
    • - enthält eine Zahl irgendwo innerhalb
  • Wenn ein Anspruch keine der oben genannten Eigenschaften aufweist, geht das Verfahren 500 zu 516 über.
  • Bei 516 wird bestimmt, ob ein Anspruch normative Sprache enthält. Normative Sprache in einem Anspruch ist eine Sprache, die eine Aussage darüber angibt, wie die Dinge sein sollten oder sollten, im Gegensatz zu einer rein beschreibenden Sprache. Das Vorhandensein einer normativen Sprache kann Techniken zur automatischen Bestimmung des Anspruchsumfangs verwirren, da die normative Sprache das Potenzial hat, Merkmale im Anspruch anzugeben, die die Anspruchsbreite nicht wirklich einschränken. Das Vorhandensein eines der folgenden Wörter oder Sätze in einem Anspruch kann auf eine normative Sprache hinweisen:
    • - „darf nicht“
    • - „erforderlich“
    • - „soll nicht“
    • - „soll“
    • - „kann nicht“
    • - „sollte nicht“
    • - „soll“
    • - „muss“
  • Wenn ein Anspruch normative Sprache enthält, geht Verfahren 500 zu 510 über und markiert den Anspruch. Wenn ein Anspruch jedoch keine normative Sprache enthält, wird der Anspruch nicht markiert und ein Ergebnis der nachfolgenden Analyse wird einem Benutzer ohne eine Markierung oder einen anderen Hinweis auf eine Anomalie vorgelegt. Jeder Anspruch, der bei 510 markiert wird, führt auch zu einer weiteren Analyse, aber die Ergebnisse der Analyse dieses Anspruchs sind mit einer Markierung und/oder einer Beschreibung der Anomalie verbunden. Ein Beispiel für diese Markierung oder diese Beschreibung ist die Spalte Anomalien 210 der Benutzeroberfläche 118.
  • In einer Implementierung kann ein Patentanspruch oder ein anderer Dokumentenabschnitt auf Anomalien geprüft werden, indem jedes der oben beschriebenen potenziell anormalen Merkmale erkannt wird. So kann beispielsweise, anstatt einen Anspruch als abhängigen Anspruch zu identifizieren und dann die weitere Analyse einzustellen, der abhängige Anspruch weiter analysiert werden, um festzustellen, ob es sich um einen Mittelwert plus Funktionsanspruch handelt, normative Sprache enthält oder eine andere Art von Anomalie aufweist. Ein Anspruch oder ein anderer Dokumentenabschnitt kann analysiert werden, um festzustellen, ob es sich um einen gelöschten Anspruch bei 502 handelt, um festzustellen, ob es sich um einen abhängigen Anspruch bei 506 handelt, um festzustellen, ob bei 508 noch andere Anomalien vorhanden sind, um zu bestimmen, ob es sich um einen Mittel-plus-Funktionsanspruch bei 512 handelt, um festzustellen, ob es sich um einen möglichen abhängigen Anspruch bei 514 handelt, und auch um festzustellen, ob er eine normative Sprache bei 516 enthält.
  • 6 ist ein Flussdiagramm, das ein beispielhaftes Verfahren 600 zur automatischen Verarbeitung von Dokumenten darstellt, um eine Benutzeroberfläche zu erzeugen, die die Gesamtbreiten-Scores für die Dokumente anzeigt. Teile des Verfahrens 600 können gleich oder ähnlich sein wie Teile des vorstehend beschriebenen Verfahrens 300-500.
  • Bei 602 wird eine Vielzahl von Dokumenten empfangen. Die Dokumente umfassen Text entweder in computerlesbarer oder anderer Form, und jedes Dokument ist mit einer eindeutigen Dokumenten-Identifikationsnummer versehen. Diese eindeutige Dokumentennummer kann zur Markierung des Dokuments sowie aller Unterabschnitte des Dokuments verwendet werden. Bei einigen Dokumenten, insbesondere bei Patentdokumenten, kann die eindeutige Dokumenten-Identifikationsnummer eine Patentnummer oder eine Veröffentlichungsnummer für Patentanmeldungen sein. Die Vielzahl von Dokumenten kann von einem oder mehreren Datenspeichern empfangen werden, wie die Datenspeicher 102 in 1 zeigen. Die empfangenen Dokumente können lokal in einer Speichervorrichtung gespeichert werden, die von dem Datenspeicher getrennt ist, der die Dokumente bereitgestellt hat.
  • Bei 604 wird die Vielzahl von Dokumenten vorverarbeitet, um einen oder mehrere verarbeitete Dokumentenabschnitte für jedes der Vielzahl von Dokumenten zu erzeugen. Die Vorverarbeitung kann ganz oder teilweise das in 4 beschriebene Verfahren verwenden. So bezieht sich ein verarbeitetes Dokument oder ein verarbeiteter Dokumentenabschnitt nach der Vorverarbeitung auf das Dokument oder einen Teil davon. In einigen Implementierungen kann die Vorverarbeitung selbst ein Dokument in zwei oder mehr verarbeitete Dokumentenabschnitte aufteilen. So kann beispielsweise bei der Analyse von Texten, die Patentansprüche umfassen, das Dokument in Dokumentenabschnitte (beispielsweise einzelne Patentansprüche) an Orten unterteilt werden, die auf einen Zeitraum folgen und einer Ziffer vorangestellt sind. Jeder Abschnitt des Dokuments ist mit der eindeutigen Dokumenten-Identifikationsnummer des Quelldokuments verknüpft. So wäre beispielsweise jeder Patentanspruch aus einem Patent mit der Patentnummer verknüpft. Die bearbeiteten Dokumentenabschnitte umfassen einen Teil des Textes aus dem Quelldokument. Die spezifischen Vorverarbeitungstechniken können das Parsen von Text in einzelne Wörter, das Entfernen von Stoppwörtern, das Entfernen doppelter Wörter und das Entfernen von Satzzeichen umfassen. Einige oder alle Stoppwörter können spezifisch für eine Dokumentenklassifizierung der Vielzahl von Dokumenten sein. Wenn beispielsweise alle Dokumente der Vielzahl von Dokumenten der gleichen Patentklassifizierung zugeordnet sind und es spezifische Stoppwörter für diese Klassifizierung gibt, dann können diese spezifischen Stoppwörter anstelle oder zusätzlich zu allgemeinen Stoppwörtern verwendet werden. In einigen Implementierungen kann die Vorverarbeitung zusätzliche Vorverarbeitungstechniken umfassen, wie beispielsweise das Ersetzen von Abkürzungen und/oder Akronymen durch die entsprechenden vollständigen Wörter.
  • Bei 606 werden Anomalien in den Dokumentenabschnitten festgestellt. Das Erkennen von Anomalien kann nach einem Verfahren erfolgen, das dem in 5 dargestellten Verfahren 500 entspricht oder ähnlich ist. Viele Anomalien können basierend auf anomalen Wörtern oder Phrasen entdeckt werden, die dadurch markiert sind, dass sie auf das Vorhandensein einer Anomalie hinweisen. Eine Art von Anomalie ist das Vorhandensein einer normativen Sprache, und dies kann durch das Vorhandensein von normativen Wörtern in einem Dokumentenabschnitt erkannt werden.
  • Ein Ergebnis der Anomalie-Erkennung kann darin bestehen, den verarbeiteten Dokumententeil von der weiteren Analyse auszuschließen. Bestimmte Anomalien können darauf hindeuten, dass der verarbeitete Dokumentenabschnitt nicht für eine weitere Analyse geeignet ist. Annahmen, die bei der Gestaltung der nachfolgenden Analyse getroffen werden, können zu ungenauen oder irrelevanten Ergebnissen führen, wenn die Analyse auf Dokumentenabschnitte mit bestimmten Arten von Anomalien angewendet wird.
  • Ein weiteres Ergebnis der Anomalie-Erkennung ist das Markieren der verarbeiteten Dokumentenabschnitte, die als anomal bestimmt sind. Die weitere Analyse kann sowohl für markierte Dokumentenabschnitte als auch für nicht markierte Dokumentenabschnitte in gleicher Weise erfolgen. Aber die Markierung oder andere Hinweise auf eine Anomalie ermöglichen es einem Menschen, den analysierten Dokumentenabschnitt zu überprüfen und festzustellen, wie er die Anomalie, wenn überhaupt, erklären kann.
  • Bei 608 wird für jeden der verarbeiteten Dokumentenabschnitte eine Wörterzahl erzeugt, indem eine Anzahl von einzelnen Wörtern in den jeweiligen Dokumentenabschnitten gezählt wird. Dies kann nach der Vorverarbeitung erfolgen, so dass Stoppwörter und doppelte Wörter bei der Zählung weggelassen werden. Eine Wörterzahl, die nach dem Entfernen doppelter Wörter durchgeführt wird, wird als Wörterzahl von eindeutigen Wörtern bezeichnet. Jedem Dokumentenabschnitt (beispielsweise Patentanspruch) ist eine Wörterzahl zugeordnet, die eine ganze Zahl ist.
  • In einigen Beispielen kann die Wörterzahl bei 608 für verschiedene Gerichtsbarkeiten unterschiedlich erzeugt werden. So kann beispielsweise das materielle Recht für bestimmte Gerichtsbarkeiten variieren. So können beispielsweise einige Gerichtsbarkeiten (beispielsweise die Vereinigten Staaten von Amerika) den Wörtern in der Präambel eines Anspruchs kein patentierbares Gewicht oder weniger Gewicht beimessen. Dementsprechend darf die Wörterzahl keine Wörter in der Präambel der in den USA eingereichten Patentansprüche umfassen. Umgekehrt können andere Gerichtsbarkeiten (beispielsweise China) Wörtern in der Präambel von Ansprüchen ein patentierbares Gewicht verleihen, und somit kann die Wörterzahl für in China eingereichte Ansprüche in die Wörterzahl einbezogen werden, die bei 608 erzeugt wurde.
  • Bei 610 wird eine referentielle Wörterzahl identifiziert. Die referentielle Wörterzahl ist eine Zahl, aber nicht unbedingt eine ganze Zahl. Die referentielle Wörterzahl basiert auf einem Merkmal, das sich aus den Wörterzahlen der einzelnen zu analysierenden Dokumentenabschnitte ergibt. Die referentielle Wörterzahl kann die Wörterzahl des Dokumentabschnitts sein, der die größte Wörterzahl aller analysierten Dokumentabschnitte aufweist. Alternativ kann die referentielle Wörterzahl auch die Wörterzahl des Dokumentenabschnitts mit der kürzesten Wörterzahl aus allen analysierten Dokumentenabschnitten sein. Es können auch andere Merkmale zur Erzeugung der referentiellen Wörterzahl verwendet werden, wie beispielsweise die durchschnittliche oder mittlere Wörterzahl der analysierten Dokumentenabschnitte. Wenn es sich bei den analysierten Dokumentenabschnitten beispielsweise um Patentansprüche handelt, dann kann die referentielle Wörterzahl die Wörterzahl des längsten Patentanspruchs, die Wörterzahl des kürzesten Patentanspruchs, die durchschnittliche Wörterzahl aller analysierten Patentansprüche, die mittlere Wörterzahl aller analysierten Patentansprüche oder eine andere Metrik sein. Die referentielle Wörterzahl ist für alle gemeinsam analysierten Dokumentenabschnitte im gleichen Korpus gleich. Aufgrund der unterschiedlichen Eigenschaften jedes analysierten Dokumentenkorpus wird die referentielle Wörterzahl jedoch in verschiedenen Analysen unterschiedlich sein.
  • Bei 612 werden die Wörterzahlverhältnisse für die Dokumentenabschnitte berechnet. Ein Wörterzahlverhältnis ist die referentielle Wörterzahl geteilt durch die Wörterzahl für einen bestimmten Dokumentenabschnitt. Somit wird jedem analysierten Dokumentenabschnitt ein Wörterzahlverhältnis zugeordnet. Der Zähler ist für jeden Dokumentenabschnitt in einem bestimmten Korpus gleich, aber der Nenner ist unterschiedlich, abhängig von der individuellen Wörterzahl dieses Dokumentenabschnitts. Wenn beispielsweise die Wörterzahl für einen bestimmten Dokumentabschnitt 25 und die referentielle Wörterzahl 72 ist (beispielsweise die längste Wörterzahl aller analysierten Dokumentabschnitte), dann ist das Wörterzahlverhältnis für diesen bestimmten Dokumentabschnitt 72/25 oder 2,88.
  • Bei 614 wird für jedes Wort, das in einem der Dokumentenabschnitte enthalten ist, eine korpusbasierte Wortfrequenz bestimmt. Die Wortfrequenz ist wortabhängig und nicht der Dokumentenabschnitt, in dem sich das Wort befindet. Die Wortfrequenz kann als ein Maß dafür angesehen werden, wie häufig ein bestimmtes Wort in allen analysierten Dokumentenabschnitten ist. Die Wortfrequenz wird bestimmt, indem man zählt, wie oft ein Wort in allen analysierten Dokumentenabschnitten vorkommt. So stellt die Wortfrequenz die Anzahl der Fälle dar, in denen ein Wort über den gesamten zu analysierenden Inhalt gefunden wird, bevor doppelte Wörter entfernt werden. Wenn beispielsweise der Korpus der zu analysierenden Dokumente 1000 Patente umfasst, haben diese Patente jeweils durchschnittlich 20 Patentansprüche, dann werden 20.000 Dokumentenabschnitte analysiert. Die Häufigkeit, mit der ein bestimmtes Wort wie „Maschine“ in allen 20.000 Dokumentenabschnitten vorkommt, ist die Häufigkeit dieses Wortes. Wörter, die in einem bestimmten Korpus üblich sind, haben höhere Wortfrequenzwerte und Wörter, die im jeweiligen Korpus ungewöhnlich sind, niedrigere Wortfrequenzwerte. Somit ist an dieser Stelle jedem Dokumentabschnitt eine Wörterzahl zugeordnet und jedem Wort (das notwendigerweise die Wörter in jedem Dokumentabschnitt enthält) eine Wortfrequenz.
  • Bei 616 wird ein Gleichheits-Score für die verarbeiteten Dokumentenabschnitte erzeugt. Jeder Dokumentabschnitt kann mit seinem eigenen Gleichheits-Score verknüpft werden. Der Gleichheits-Score basiert auf der Häufigkeit, mit der die einzelnen Wörter in einem bestimmten Dokumentenabschnitt über den gesamten Korpus der zu analysierenden Dokumentenabschnitte gefunden werden. Somit basiert der Gleichheits-Score für einen Dokumentabschnitt auf den Wortfrequenzen der Wörter in diesem Dokumentabschnitt. In einer Implementierung basiert der Gleichheits-Score für einen verarbeiteten Dokumentabschnitt auf der Quadratwurzel der Summe der Quadrate der Quadrate des Inversen der Wortfrequenz für jedes der einzelnen Wörter in diesem verarbeiteten Dokumentabschnitt. Somit kann der Gleichheits-Score (cs) für einen Dokumentenabschnitt mit den Wörtern 1 bis n jeweils mit einer zugehörigen Wortfrequenz, dargestellt durch wf1 bis wfn, durch die folgende Gleichung berechnet werden: G l e i c h h e i t s S c o r e = ( ( 1 w f 1 ) 2 + ( 1 w f 2 ) 2 + + ( 1 w f n ) 2 ) × 100
    Figure DE112018001165T5_0001
  • Mit dieser Berechnung erhält ein Dokumentenabschnitt, der mehr gemeinsame Wörter hat, einen niedrigeren Gleichheits-Score und ein Dokumentenabschnitt, der mehr ungewöhnliche Wörter hat, einen höheren Gleichheits-Score. Auf diese Weise stellt der Gleichheits-Score eine zugrunde liegende Annahme oder Prämisse dar, dass Patentansprüche mit häufigeren Wörtern tendenziell breiter sind als Ansprüche mit weniger häufig verwendeten Wörtern. Dies ist nicht immer der Fall, aber eine nützliche Verallgemeinerung für die automatische Dokumentenanalyse.
  • Bei 618 wird aus allen verarbeiteten Dokumentenabschnitten, die analysiert werden, der höchste Gleichheits-Score ermittelt. Die Gleichheits-Scores für jeden der Dokumentenabschnitte können berechnet, sortiert und dann wird der höchste dieser Werte als höchster Gleichheits-Score gespeichert. Dies stellt die Punktzahl des Dokumentenabschnitts dar, der der „häufigste“ ist, basierend auf der Häufigkeit und Anzahl der Wörter, die in diesem Dokumentenabschnitt umfassen sind. Somit hat jeder andere Dokumentenabschnitt einen Gleichheits-Score, der niedriger ist als der höchste Gleichheits-Score.
  • Bei 620 werden Gleichheits-Score-Verhältnisse für alle verarbeiteten Dokumentenabschnitte berechnet. Die Gleichheits-Score-Verhältnisse werden berechnet, indem der höchste Gleichheits-Score durch den Gleichheits-Score für einzelne der bearbeiteten Dokumentenabschnitte dividiert wird. Somit hat der Dokumentenabschnitt mit dem höchsten Gleichheits-Score (die „ungewöhnlichsten“ Wörter) ein Gleichheits-Score-Verhältniss von 1 (d.h. er wird durch seinen eigenen Gleichheits-Score dividiert). Während ein Dokumentenabschnitt mit der Hälfte des höchsten Gleichheits-Scores (weniger „ungewöhnliche“ Wörter und mehr „gewöhnliche“ Wörter) ein Gleichheits-Score-Verhältnis von 2 hat, steigt mit zunehmender Häufigkeit des Gleichheits-Score-Verhältnisses die Häufigkeit. Ein höheres Gleichheits-Score-Verhältnis zeigt also mehr „gängige“ oder häufige Wörter in einem verarbeiteten Dokumentenabschnitt an. Im Zusammenhang mit Patentansprüchen stellt das Gleichheits-Score-Verhältnis eine zugrundeliegende Annahme oder Prämisse dar, dass Ansprüche mit weniger eindeutigen Wörtern tendenziell breiter sind als Ansprüche mit mehr eindeutigen Wörtern, und somit steigt das Gleichheits-Score-Verhältnis mit zunehmender Häufigkeit der Wörter im Anspruch.
  • Bei 622 wird der Gesamt-Score aus den Wörterzahlverhältnissen und den Gleichheitsverhältnissen berechnet. Die Gesamtergebnisse können berechnet werden, indem man eine Quadratwurzel aus der Summe der Quadrate des Wörterzahlverhältnisses {wer) und des Quadrats des Gleichheits-Score-Verhältnisses {csr) für die einzelnen der verarbeiteten Dokumentenabschnitte nimmt. Die relativen Gewichte des Wörterzahlverhältnisses und des Gleichheits-Scores können normiert werden. Eine Technik zur Normalisierung besteht darin, die höchsten jeweiligen Werte für Wörterzahlverhältnis und Gleichheits-Score-Verhältnis auf 100 einzustellen. Wenn beispielsweise das höchste Wörterzahlverhältnis h-wcr ist, dann wird das gesamte wer für den Korpus mit 100/h-w-wer multipliziert. Eine ähnliche Normalisierung kann für das Gleichheits-Score-Verhältnis unter Verwendung des höchsten Gleichheits-Scores {h-csr) durchgeführt werden. Natürlich können Normalisierungswerte, die von 100 abweichen, verwendet werden, wie beispielsweise 1000, 500, 50, 10, etc. Beides sind Zahlen, aber die relative Wirkung auf einen Gesamt-Score (beispielsweise Anspruchsbreite) entspricht möglicherweise nicht direkt den jeweiligen Zahlenwerten. So kann beispielsweise ein Wörterzahlverhältnis von 10 mehr oder weniger Einfluss auf die endgültige Breite haben als ein Gleichheits-Score-Verhältnis von 10. Ohne Normalisierung tragen jedoch beide gleichermaßen zum Gesamtergebnis bei. Somit kann das Wörterzahlverhältnis mit einem ersten Normierungswert K (beispieisweise100/h-wcr) und das Gleichheitsverhältnis mit einem zweiten Normierungswert L (beispielsweise 100/h-csr) gewichtet werden. In einer Gleichung beschrieben: G e s a m t S c o r e = K ( w c r 2 ) + L ( c s r 2 )
    Figure DE112018001165T5_0002
  • So kann jedem Dokumentenabschnitt ein eigener Gesamt-Score zugeordnet werden. Die Gesamt-Scores können als Maß für die Breite der Dokumentenabschnitte angesehen werden, da die Gesamt-Scores auf Messungen der Wörterzahl und der Wortgleichmäßigkeit basieren. Diese Technik zum Bestimmen eines Gesamt-Scores moderiert auch jede der zugrunde liegenden Annahmen oder Prämissen hinter dem Wörterzahlverhältnis und dem Gleichheits-Score. Wenn beispielsweise ein Patentanspruch relativ kürzer ist, aber sehr ungewöhnliche Begriffe verwendet, könnte ein Patentanwalt den Anspruch aufgrund der restriktiven Sprache im Anspruch dennoch als eng betrachten. Durch die Definition des Gesamtergebnisses auf der Grundlage dieser beiden zugrunde liegenden Annahmen können noch kürzere Ansprüche nicht ganz so breit eingestuft werden, wenn sie Begriffe verwenden, die als einschränkend oder unverwechselbar innerhalb einer Klasse gelten, in der eine Ontologie gut entwickelt ist.
  • Wenn ein Dokument mehrere Dokumentenabschnitte hat, die analysiert werden, wie beispielsweise ein Patentdokument mit mehreren unabhängigen Ansprüchen, kann dem Dokument eine einzige Gesamtnote basierend auf den Gesamtnoten eines oder mehrerer der Dokumentenabschnitte zugewiesen werden. Die dem Dokument zugeordnete Gesamtnote kann die höchste, niedrigste, durchschnittliche oder mittlere der jeweiligen Gesamtnoten der Dokumentenabschnitte sein. Die Zuordnung einer einzelnen Note zu einem Dokument ermöglicht es dem System, eine Rangfolge vorzunehmen, beispielsweise Patentdokumente in Bezug auf die Anspruchsbreite zueinander.
  • Aufgrund der durch die automatische computergestützte Analyse erzielten Verarbeitungseffizienzen, in einigen Implementierungen die Vorverarbeitung bei 604, das Erkennen von Anomalien bei 606, das Erzeugen von Wortzählungen bei 608, das Identifizieren von referentiellen Wortzählungen bei 610, das Berechnen von Wortzählungsverhältnissen bei 612, das Bestimmen von Wortfrequenzen bei 614, das Erzeugen von Gleichheits-Scores bei 616, das Identifizieren des höchsten Gleichheits-Scores bei 618, das Berechnen von Gleichheits-Scores bei 620 und das Berechnen von Gesamt-Scores bei 622 mit einer Rate durchgeführt werden, die viel schneller ist, als durch menschliche Analyse erreicht werden kann. Diese Analyse kann beispielsweise mit einer Rate von mehr als einem Dokument pro Minute, mehr als einem Dokument pro 30 Sekunden, mehr als einem Dokument pro 10 Sekunden oder einer anderen Rate erfolgen. Dies ist eine viel schnellere Rate, als sie durch manuelle, menschliche Analysen erreicht werden kann. Obwohl die subjektive Bewertung eines sachkundigen Experten wahrscheinlich ein besseres Maß für die Breite liefert (und auch ein anderes, weniger formelhaftes Verfahren zur Bestimmung der Breite verwendet als ein Computer), wird sie viel langsamer sein. Dem Geschwindigkeitsvorteil eines automatisierten Prozesses steht ein Genauigkeitsverlust gegenüber. Daher besteht eine Möglichkeit, verschiedene automatische Techniken zur Dokumentenanalyse zu vergleichen, darin, festzustellen, welche Technik die durch die manuelle Analyse erzielten Analyseergebnisse am besten nachahmt.
  • In einigen Beispielen können einige oder alle von 602-622 auf Dokumenten ausgeführt werden, die in verschiedenen natürlichen Sprachen verfasst sind. So können beispielsweise die verschiedenen Schritte oder Algorithmen so angepasst werden, dass sie in einer bestimmten natürlichen Sprache (beispielsweise Englisch) ausgeführt werden können, und die bei 602 empfangenen Dokumente können aus einer Sprache, in der die Dokumente (beispielsweise Patentanmeldungen) verfasst wurden (beispielsweise Chinesisch, Japanisch und weitere), in die spezifische natürliche Sprache, für die die Schritte zugeschnitten wurden, übersetzt werden, und dann werden die verschiedenen Schritte 602-622 an den übersetzten Dokumenten durchgeführt. In einigen Beispielen müssen die Dokumente jedoch nicht in die spezifische natürliche Sprache übersetzt werden. Die hierin beschriebenen Techniken gehen beispielsweise davon aus, dass die Wörter, Zeichen oder andere Symbole, die in den in verschiedenen natürlichen Sprachen geschriebenen Dokumenten umfassen sind, auf verschiedene Weise dargestellt werden können, beispielsweise durch Computerdarstellungen der Wörter, Zeichen oder anderer Symbole, wie Unicode-Zeichenketten, ASCII-Zeichenketten oder andere Zeichenketten. Anstatt die Dokumente übersetzen zu müssen, können die verschiedenen Schritte oder Algorithmen stattdessen die Computerdarstellungen der Wörter, Zeichen oder anderen Symbole in den Dokumenten verwenden, um die hierin beschriebenen Techniken auszuführen. So kann beispielsweise der Korpus der heruntergeladenen Dokumente alle in derselben Fremdsprache verfasst sein. Anstatt die Dokumente in die spezifische natürliche Sprache (beispielsweise Englisch) zu übersetzen, können die Computerdarstellungen des Korpus von Dokumenten für die verschiedenen Schritte 602-622 analysiert werden. Anstatt beispielsweise den Korpus von Dokumenten nach bestimmten englischen Wörtern bei 608 zu durchsuchen, können die Techniken die Computerdarstellungen (beispielsweise Unicode-Zeichenketten, ASCII-Zeichenketten und weitere) der Wörter, die in den Dokumenten des Korpus von Dokumenten umfassen sind, zählen, um die Wörterzahl für die Dokumentenabschnitte zu identifizieren. Auf diese Weise können die Techniken bestehende Techniken, die Übersetzungen erfordern, verbessern, indem sie weniger Rechenleistung benötigen, um die Schritte 602- 622 auszuführen, während sie gleichzeitig die Vorteile der Schritte 602-622 in verschiedenen natürlichen Sprachen nutzen.
  • In einigen Beispielen können einige oder alle von 602-622 auf einem Korpus von Dokumenten ausgeführt werden, die in mehreren, unterschiedlichen natürlichen Sprachen verfasst sind. So kann beispielsweise bei 604 die Vorverarbeitung der Dokumente das Bestimmen der natürlichen Sprache, in der das Dokument geschrieben wird, für jedes Dokument umfassen. Basierend auf der Art der Sprache für jedes Patent können für jedes Wort in den verschiedenen Sprachen numerische Darstellungen spezifisch für diese Sprache bestimmt werden, und für jedes Dokument kann einer oder mehrere der Schritte von 606-624 durchgeführt werden. In einigen Beispielen können die in einem oder mehreren der Schritte 608, 610, 612, 614, 616, 618, 620 und/oder 622 ermittelten Werte je nach Sprachtyp etwas variieren. So kann es beispielsweise sein, dass ein auf Chinesisch geschriebener Anspruch mehr Wörter umfassen kann als der gleiche auf Englisch geschriebene Anspruch. Um Dokumente in verschiedenen Sprachen genau zu bewerten und zu vergleichen, können Trends oder Durchschnittswerte der Wörterzahlen für jede Sprache ermittelt werden, und Skalierungsfaktoren können verwendet werden, um die Wörterzahlen zwischen verschiedenen Sprachen zu normalisieren. Auf diese Weise kann die genaue Bewertung oder Rangfolge von Dokumenten, wie beispielsweise Patenten, über verschiedene Sprachen hinweg ermittelt werden. In einigen Beispielen können verschiedene Skalierungsfaktoren basierend auf technologischen Klassifizierungen für bestimmte Sprachen oder jede andere Art von Klassifizierung angewendet werden, um die verschiedenen Ergebnisse, die in einem oder mehreren der Schritte 608-622 bestimmt wurden, zu normalisieren. In einigen Beispielen kann dies zu verschiedenen Effizienzsteigerungen gegenüber der menschlichen Analyse führen, beispielsweise durch die Reduzierung von Fehlern zwischen Menschen, die verschiedene Sprachen sprechen, und durch die Reduzierung oder Beseitigung der Subjektivität des Menschen.
  • Bei 624 wird eine Benutzeroberfläche erzeugt, die eine oder mehrere der Gesamtnoten enthält. Die Benutzeroberfläche kann so gestaltet werden, dass eine Gesamtnote für einen der verarbeiteten Dokumentenabschnitte in der Nähe der eindeutigen Dokumenten-Identifikationsnummer angezeigt wird, die dem verarbeiteten Dokumentenabschnitt zugeordnet ist. So kann beispielsweise der Gesamt-Score für einen unabhängigen Patentanspruch neben der Patentnummer angezeigt werden. Zusätzlich kann die Erzeugung der Benutzeroberfläche die Erzeugung von Indikatoren umfassen, die Ergebnisse aus der Erkennung von Anomalien bei der Erkennung von Anomalien bei 606 anzeigen. Die Hinweise können Markierungen sein, die darauf hinweisen, dass eine Anomalie festgestellt wurde. Alternativ oder zusätzlich können die Angaben eine Beschreibung der Art der Anomalie sein.
  • In einer Implementierung kann die Benutzeroberfläche eine textuelle Benutzeroberfläche oder eine Befehlszeilenschnittstelle sein, die eine Textzeile anzeigt, die den Gesamt-Score, die eindeutige Dokumenten-Identifikationsnummer und den Hinweis auf Anomalien enthält. In einer Implementierung kann die Benutzeroberfläche ähnlich der in den 1 und 2 dargestellten Benutzeroberfläche 118 sein. Die Benutzeroberfläche kann Informationen über nur einen verarbeiteten Dokumentenabschnitt umfassen, um entweder ein bestimmtes Dokument hervorzuheben (beispielsweise eines mit dem höchsten Gesamt-Score aller Dokumente im analysierten Korpus), aufgrund von Einschränkungen der Bildschirmimmobilien, beispielsweise auf mobilen Vorrichtungen, um ein über ein Netzwerk übertragenes Datenvolumen zu minimieren, oder aus anderen Gründen. Alternativ kann die Benutzeroberfläche Informationen über einen oder alle verarbeiteten Dokumentenabschnitte anzeigen. Die Benutzeroberfläche kann Informationen über eine Teilmenge der verarbeiteten Dokumentenabschnitte anzeigen, die ein gemeinsames sekundäres Datenfeld aufweisen, wie beispielsweise den Empfänger. In einigen Implementierungen kann es eine große Anzahl von Gesamtergebnissen geben, beispielsweise wenn Tausende von Dokumentenabschnitten analysiert werden, so dass die Benutzeroberfläche ein Scrollen oder eine andere Funktionalität umfassen kann, die es einer Anzeigevorrichtung ermöglicht, verschiedene Abschnitte der Benutzeroberfläche als Reaktion auf Benutzerbefehle anzuzeigen.
  • 7 ist ein Flussdiagramm, das ein beispielhaftes Verfahren 700 zur automatischen Zuordnung einer Anspruchsbreite zu einem Patentanspruch durch Anwendung mehrerer Regelsätze darstellt. Teile des Verfahrens 700 können gleich oder ähnlich sein wie Teile der vorstehend beschriebenen Verfahren 300-500.
  • Bei 702 wird eine Datendatei erhalten. In einer Implementierung kann die Datendatei aus einem der in 1 dargestellten Datenspeicher 102 bezogen werden. Die Datendatei kann alternativ von einem lokalen Speicher oder einer anderen Speichervorrichtung neben einem der Datenspeicher bezogen werden. Die Datendatei kann einen Korpus von Patentansprüchen umfassen und kann ein erteiltes Patent oder eine veröffentlichte Patentanmeldung sein.
  • Bei 704 wird ein erstes Regelwerk erstellt. Das Erhalten des ersten Regelwerks kann das Laden des ersten Regelwerks in den Arbeitsspeicher (RAM) umfassen. Das erste Regelwerk definiert einen anomalen Patentanspruch. Der anomale Patentanspruch kann ein abhängiger Patentanspruch, ein gelöschter Patentanspruch, ein Mittel-plus-Funktion Patentanspruch oder ein Patentanspruch sein, der eine normative Sprache enthält. Anomale Patentansprüche können mit einer Technik identifiziert werden, die gleich oder ähnlich dem in 5 dargestellten Verfahren 500 ist.
  • Bei 706 wird bestimmt, ob das erste Regelwerk einen abhängigen oder einen gelöschten Anspruch identifiziert. Wenn ja, wenn ein Patentanspruch als abhängiger Anspruch oder gelöschter Anspruch bestimmt wird, geht das Verfahren 700 zu 708 über und erzeugt eine Ignorierliste mit diesem Anspruch. Aus dem Korpus der Patentansprüche können alle anhängigen Ansprüche, die als abhängig oder gelöscht identifiziert wurden, in die Ignorierliste aufgenommen werden. In einer Implementierung wird für alle in der Ignorierliste enthaltenen Ansprüche keine weitere Analyse durchgeführt, wie beispielsweise die Erzeugung einer Wörterzahl und eines Gleichheits-Scores. Dies reduziert unnötige Berechnungen und beschleunigt die Verarbeitung im Vergleich zu einer Technik, die Wörterzahl-Scores und/oder Gleichheits-Score erzeugt, nur um diese später zu ignorieren.
  • Wenn ein Anspruch bei 706 nicht durch das erste Regelwerk als abhängiger Anspruch oder gelöschter Anspruch identifiziert wird, geht das Verfahren 700 zu 710 über.
  • Bei 710 wird bestimmt, ob das erste Regelwerk einen Anspruch auf Mittel-plus-Funktion oder einen Anspruch auf normative Sprache identifiziert. Wenn die erste der Regeln dies tut und ein gegebener Anspruch entweder als Mittel-plus-Funktions-Anspruch oder als Anspruch mit normativer Sprache identifiziert wird, geht das Verfahren 700 zu 712 über und erzeugt einen Hinweis auf Anomalie. Der Indikator für Anomalien kann eine Markierung sein, das in einer Datendatei gespeichert ist, die mit einem bestimmten Patentanspruch verbunden ist. Die Markierung kann verwendet werden, um ein Zeichen für Anomalien zu erzeugen, das auf einer Benutzeroberfläche angezeigt wird, wie beispielsweise die in 2 dargestellten Anomalien 210.
  • Jeder Anspruch, der aus der Datendatei bei 702 gewonnen wird, wird nach dem ersten Regelwerk analysiert und entweder ignoriert, mit einem Hinweis auf Anomalien verbunden und für eine weitere Analyse aufbewahrt, oder keiner der beiden, aber nur für eine weitere Analyse aufbewahrt.
  • Bei 714 wird ein zweites Regelwerk erhalten. Das Erhalten des zweiten Regelwerks kann das Laden des zweiten Regelwerks in den RAM umfassen. Das zweite Regelwerk definiert einen Wörterzahl-Score für einen Patentanspruch als Funktion einer Wörterzahl im Patentanspruch. In einer Implementierung kann das zweite Regelwerk eine zweite Regel umfassen, die den Wörterzahl-Score definiert, der auf einer Anzahl von Wörtern im Patentanspruch nach der Vorverarbeitung basiert. Die Vorverarbeitung kann gleich oder ähnlich der in 4 dargestellten Vorverarbeitung sein. Die Vorverarbeitung kann jede der folgenden Schritte umfassen: Einstammen, Entfernen von doppelten Wörtern, Entfernen von Stoppwörtern sowie andere Verarbeitungstechniken.
  • In einer Implementierung kann die Wörterzahl durch ein Verhältnis von einer Anzahl von Wörtern in einem Patentanspruch mit hoher Wörterzahl zu einer Anzahl von Wörtern in dem zu analysierenden Patentanspruch bestimmt werden. Der Patentanspruch mit hoher Wörterzahl ist derjenige aus dem Korpus der zu analysierenden Patentansprüche, der die größte Anzahl von Wörtern nach der Vorverarbeitung aufweist. Die Wörterzahl des zu analysierenden Patentanspruchs ist die Anzahl der Wörter in diesem Anspruch nach der Vorverarbeitung. Wenn die Vorverarbeitung das Entfernen doppelter Wörter umfasst, dann sind die Wörterzahlen Zählungen von eindeutigen Wörtern.
  • Bei 716 wird ein drittes Regelwerk erstellt. Das Erhalten des dritten Regelwerks kann das Laden des dritten Regelwerks in den RAM umfassen. Das dritte Regelwerk definiert einen Gleichheits-Score für den Patentanspruch als Funktion der Häufigkeit, mit der Wörter in diesem Patentanspruch im Korpus aller untersuchten Patentansprüche vorhanden sind. Das dritte Regelwerk kann eine dritte Regel umfassen, die den Gleichheits-Score definiert, der auf einem Gleichheits-Score pro Anspruch basiert. Der Gleichheits-Score pro Anspruch kann durch eine Quadratwurzel aus einer Summe von dem Quadrat des Umkehrwerts einer globalen Wörterzahl für jedes Wort im Patentanspruch nach der Vorverarbeitung für jedes Wort berechnet werden. In einer Implementierung kann die zweite Regel den Gleichheits-Score gemäß Gleichung 1 definieren. Die globale Wörterzahl stellt eine korpusbasierte Zählung der Anzahl der Male dar, die dieses Wort in einem Patentanspruch innerhalb des zu analysierenden Korpus vorkommt. Die globale Wörterzahl kann auf Wörterzahlen basieren, bevor doppelte Wörter während der Vorverarbeitung entfernt werden. Die globale Wortzählung kann auch für Stoppwörter durchgeführt werden. Die Reduzierung der Zeit und der damit verbundenen Berechnungskosten kann jedoch durch das Entfernen von Stoppwörtern vor der Berechnung der globalen Wörterzahlen für die restlichen Wörter erreicht werden.
  • In einer Implementierung kann der Gleichheits-Score ein Verhältnis des Gleichheits-Scores pro Anspruch eines Patentanspruchs mit hoher Gemeinsamkeit zu dem Gleichheits-Score pro Anspruch des zu analysierenden Patentanspruchs sein. Der Patentanspruch mit hoher Gemeinsamkeit ist der Patentanspruch im Korpus der Patentansprüche mit dem größten Gleichheits-Score pro Anspruch. Diese Darstellung der Gemeinsamkeiten berücksichtigt nicht nur die Wörterzahl im Einzelanspruch und in anderen Ansprüchen, sondern auch, wie die „Gemeinsamkeit“ der Wörter in einem bestimmten Patentanspruch mit der „Gemeinsamkeit“ anderer Patentansprüche im gleichen Korpus verglichen wird.
  • Bei 718 werden unter Verwendung des zweiten und dritten Regelwerks ein Wörterzahl-Score und ein Gleichheits-Score erzeugt. Das zweite und dritte Regelwerk kann auf alle Patentansprüche im zu analysierenden Korpus angewendet werden, um Wörterzahl- und Gleichheits-Scores für jeden dieser Patentansprüche zu erhalten. Dadurch entstehen neue Daten, die sich aus der Anwendung des zweiten und dritten Regelwerks ergeben. Diese neuen Daten können im Zusammenhang mit den entsprechenden Patentansprüchen gespeichert werden. So kann beispielsweise der Patentanspruch 1 aus der Patentnummer 8.000.000.000 einer ersten Ganzzahl, die einen Wörterzahl-Score darstellt, und einer zweiten Fließkommazahl, die einen Gleichheits-Score darstellt, zugeordnet werden.
  • Bei 720 wird aus dem Wörterzahl-Score und dem Gleichheits-Score ein Anspruchsbreiten-Score erzeugt. Der Anspruchsbreiten-Score kann durch die Quadratwurzel aus der Summe des Quadrats der Wörterzahl und des Quadrats der Gleichheitsbewertung berechnet werden. Die relative Auswirkung des Wörterzahl-Scores und des Gleichheits-Scores kann durch Gewichtung der rohen Score-Werte geändert werden, um gewichtete Scores zu erstellen. Dies kann für jeden analysierten Patentanspruch wiederholt werden, so dass jeder Patentanspruch nun mit einem neuen Datenelement verknüpft ist, das eine zugehörige Anspruchsbreite darstellt. In einer Implementierung kann der Anspruchsbreiten-Score durch Gleichung 2 oben erzeugt werden.
  • In einigen Beispielen kann der Anspruchsbreiten-Score weiterhin bei 720 basierend auf materiellem Recht im Zusammenhang mit der Gerichtsbarkeit, in der die Ansprüche eingereicht werden, erzeugt werden.
  • Bei 722 wird der Anspruchsbreiten-Score angewendet, um ein Ranking-Ergebnis zu erhalten. Da jeder Patentanspruch mit einem Anspruchsbreiten-Score verbunden ist, können die Werte dieser Werte verwendet werden, um eine Rangfolge der Patentansprüche in einem Korpus zu erstellen. Das Ranking kann durch Erstellen einer sortierten Liste aus den Werten der Fallbreiten-Scores implementiert werden. In einigen Implementierungen können die Daten in einem Array platziert werden, das einen wahlfreien Zugriff ermöglicht, und nicht in einer sortierten Liste. Beispiele für Sortieralgorithmen, die verwendet werden können, sind Merge-Sortierung, Heapsort, binäre Baumsortierung, Blocksortierung, ungerade Sortierung und dergleichen.
  • Bei 724 wird eine Benutzeroberfläche erzeugt, die das bei 722 erzeugte Ranking anzeigt. Das Ranking zeigt den Anspruchsbreiten-Score des zu analysierenden Patentanspruchs. Die Benutzeroberfläche kann auch andere Anspruchsbreite-Scores anderer Patentansprüche aus demselben Korpus anzeigen. Darüber hinaus kann die Benutzeroberfläche Patentnummern anzeigen, die mit einem oder mehreren der einzelnen Patentansprüche verknüpft sind. In einigen Implementierungen kann die Benutzeroberfläche gleich oder ähnlich der in den 1 und 2 dargestellten Benutzeroberfläche 118 sein. Die Benutzeroberfläche kann auch eine Befehlszeilenschnittstelle sein, die die Breiten-Scores, Ranglisten und alle zugehörigen Patent- oder Anmeldenummern als eine oder mehrere Textzeilen anzeigt.
  • In einigen Beispielen kann einer oder mehrere der in den Abschnitten 702-724 beschriebenen Schritte des Verfahrens 700 für verschiedene Zeiträume bei der Bearbeitung (Prosecution) eines Patents oder eines Korpus von Patentdokumenten durchgeführt werden. So kann beispielsweise für Patente in einem Korpus zu einem ersten Zeitpunkt, beispielsweise bei der Anmeldung der Patente oder vor Änderungen der Ansprüche (oder einem anderen Zeitpunkt der Bearbeitung), ein Anspruchsbreiten-Score bestimmt werden. Darüber hinaus können die Anspruchsbreiten-Scores für die Patente zu einem zweiten Zeitpunkt bestimmt werden, beispielsweise zu einem Zeitpunkt, der dem Zeitpunkt entspricht, zu dem die Ansprüche zugelassen wurden (oder zu jedem anderen Zeitpunkt der Bearbeitung). In verschiedenen Beispielen kann ein Unterschied in den Anspruchsbreiten-Scores zwischen dem ersten Punkt in der Bearbeitung und dem zweiten Punkt in der Bearbeitung festgestellt werden, und eine durchschnittliche Änderung der Patentanspruchsbreiten-Scores kann für einzelne Patente oder für einen Korpus von Patenten bestimmt werden. In einigen Beispielen kann der Korpus der Patente mit einer bestimmten Klassifikation verbunden sein, wie beispielsweise einer bestimmten Gerichtsbarkeit, einer bestimmten Patentart (beispielsweise Erfindungspatent, Gebrauchsmuster, Gebrauchsmuster und weitere), einem bestimmten Bevollmächtigten und/oder Anmelder, einem bestimmten Erfinder und weitere In verschiedenen Beispielen kann eine durchschnittliche Änderung der Patentanspruchsbreiten-Scores weiter verwendet werden, um die Anspruchsbreiten-Scores für andere Patente zu bestimmen. So kann beispielsweise eine durchschnittliche Änderung der Patentweitenwerte für Erfindungspatente, die einem bestimmten Bevollmächtigten zugeordnet oder durch eine bestimmte Anmeldung eingereicht wurden, auf Gebrauchsmuster für denselben Bevollmächtigten oder Anmelder angewendet werden. Auf diese Weise können für Gebrauchsmuster mit einer gewissen Sicherheit die Anspruchsbreiten-Scores ermittelt werden, die auf entsprechenden, durchschnittlichen Änderungen der Anspruchsbreiten-Scores für denselben Bevollmächtigten oder Anmelder basieren.
  • VERANSCHAULICHENDE RECHENVORRICHTUNG(EN)
  • 8 zeigt ein schematisches Blockdiagramm (einer) beispielhaften Rechenvorrichtung(en) 800. Beispiele für die Computervorrichtung(en) 800 können einen Server, einen Desktop-PC (PC), ein Notebook oder einen tragbaren Computer, eine Workstation, einen Großrechner, eine Handheld-Vorrichtung, ein Netbook, eine Internet-Vorrichtung, eine tragbare Lesevorrichtung, eine elektronische Buchlesevorrichtung, einen Tablet- oder Schiefercomputer, eine Spielkonsole, eine mobile Vorrichtung (beispielsweise ein Mobiltelefon, einen persönlichen digitalen Assistenten, ein Smartphone und weitere) oder eine Kombination davon sein. Die Rechenvorrichtung(en) 800 können als eine einzige Vorrichtung oder als eine Kombination mehrerer physikalisch unterschiedlicher Vorrichtungen implementiert werden. So können beispielsweise Computervorrichtungen 800 als eine Kombination aus einem Server und einem Client implementiert werden.
  • Die Computervorrichtung(en) 800 können eine oder mehrere Verarbeitungseinheiten 802 und Speicher 804 umfassen, die beide über einen oder mehrere physische oder logische Standorte verteilt sein können. Die Verarbeitungseinheiten 802 können jede beliebige Kombination von zentralen Verarbeitungseinheiten (CPUs), grafischen Verarbeitungseinheiten (GPUs), Single-Core-Prozessoren, Multicore-Prozessoren, Prozessorclustern, anwendungsspezifischen integrierten Schaltungen (ASICs), programmierbaren Schaltungen wie Field Programmable Gate Arrays (FPGA), anwendungsspezifischen Standardprodukten (ASSPs), System-on-a-Chip-Systemen (SOCs), komplexen programmierbaren Logikvorrichtungen (CPLDs) und dergleichen umfassen. Eine oder mehrere der Verarbeitungseinheiten 802 können zusätzlich zu den Hardware-Implementierungen auch in Software oder Firmware implementiert werden. Software- oder Firmware-Implementierungen der Verarbeitungseinheit(en) 802 können computer- oder maschinenausführbare Anweisungen umfassen, die in einer geeigneten Programmiersprache geschrieben sind, um die verschiedenen beschriebenen Funktionen auszuführen. Software-Implementierungen der Verarbeitungseinheit(en) 802 können ganz oder teilweise in den Speichern 804 gespeichert werden.
  • Die Speicher 804 sind repräsentativ für eine beliebige Anzahl von Speicherformen, einschließlich sowohl persistenter als auch nicht-persistenter Speicher. In einer Implementierung können die Speicher 804 computerlesbare Medien in Form von flüchtigen Speichern, wie beispielsweise Random Access Memory (RAM) 806 und/oder nichtflüchtige Speicher, wie beispielsweise Read Only Memory (ROM) 808 oder Flash RAM, umfassen. RAM 806 umfasst, ist aber nicht beschränkt auf, integrierte Schaltungen, Phasenwechselspeicher (PRAM), statische Direktzugriffsspeicher (SRAM), dynamische Direktzugriffsspeicher (DRAM) und andere Arten von RAM. Das ROM 808 umfasst löschbaren programmierbaren Nur-Lese-Speicher (EPROM), elektrisch löschbaren programmierbaren Nur-Lese-Speicher (EEPROM), Flash-Speicher und NAND-Flash. Die Speicher 804 der Datenverarbeitungsvorrichtung(en) 800 können auch Wechselspeicher, nicht entfernbaren Speicher und/oder lokalen Speicher 810 umfassen, um eine lang- oder kurzfristige Speicherung von computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen und anderen Daten bereitzustellen.
  • Die Speicher 804 sind ein Beispiel für computerlesbare Medien. Computerlesbare Medien umfassen wenigstens zwei Arten von Medien: computerlesbare Speichermedien und Kommunikationsmedien. Computerlesbare Speichermedien umfassen flüchtige und nichtflüchtige, entfernbare und nicht entfernbare Medien, die in jedem Verfahren oder jeder Technologie zur Speicherung von Informationen wie computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen oder anderen Daten, RAM 806, ROM 808, Flash-Speicher oder anderen Speichertechnologien, Compact-Disk-Lese-Speichern (CD-ROM), DVDs oder anderen optischen Speichern, Magnetkassetten, Magnetbändern, Magnetplattenspeichern oder anderen magnetischen Speichermedien oder jedem anderen Nicht-Übertragungsmedium, das zum Speichern von Informationen für den Zugriff durch eine Computervorrichtung verwendet werden kann, implementiert sind. Wie hierin definiert, umfassen computerlesbare Speichermedien keine durchgehenden Medien wie modulierte Datensignale und Trägerwellen.
  • Im Gegensatz dazu können Kommunikationsmedien computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, wie beispielsweise einer Trägerwelle oder einem anderen Übertragungsmechanismus, umfassen. Wie hierin definiert, schließen sich computerlesbare Speichermedien und Kommunikationsmedien gegenseitig aus.
  • In einer Implementierung können die Speicher 804 eine Vielzahl von Datenbanken umfassen, wie beispielsweise der Datenspeicher 102. Wie bereits erwähnt, kann jedoch in anderen Beispielen der Datenspeicher 102 sowohl von den Speichern 804 als auch von der/den Rechenvorrichtung(en) 800 getrennt sein. Das eine oder die mehreren Datenspeicher 102 können eine Sammlung von Patentdokumenten wie erteilte Patente oder veröffentlichte Patentanmeldungen umfassen. Die Sammlung von Patenten oder Patentanmeldungen kann beispielsweise durch ein Portfolio eines Patentinhabers, eine Klassifikation einer Taxonomie (beispielsweise öffentliche Taxonomie wie ein Klassifizierungssystem eines Patentamtes oder einer Regierungsbehörde, eine private Taxonomie wie eine Taxonomie für ein Privatunternehmen, eine von einer Normenorganisation oder einer Industrie festgelegte Taxonomie und weitere), Ergebnisse einer Recherche oder eine andere Sammlung von Patentdokumenten definiert werden.
  • Als Beispiel und nicht einschränkend können die Speicher 804 auch mehrere Wörter und/oder Phrasen wie die Stoppwörter 108 und die in 1 dargestellten Akronyme und Abkürzungen 110 sowie andere Wörter wie normative Wörter 812 umfassen. Ein oder alle der gesammelten Wörter und/oder Phrasen können in den Speichern 804 als Listen gespeichert oder direkt in den Computercode aufgenommen werden, der einem der nachfolgend beschriebenen Module entspricht.
  • Ein Filtermodul 814 kann in den Speichern 804 vorhanden sein und mit einer oder mehreren Verarbeitungseinheiten 802 gekoppelt sein. Das Filtermodul 814 kann die aus dem Datenspeicher 102 erhaltenen Daten ändern, um einen reduzierten Datensatz zu erzeugen, der der Korpus von Dokumenten für eine spätere Analyse ist. Das Filtermodul 814 kann eines oder alle der in 3 dargestellten Verfahren 300 durchführen. Das Filtermodul 814 legt Dokumente aus dem Datenspeicher 102, die nach der Filterung aufbewahrt werden, in den lokalen Speicher 810 der Computervorrichtung(en) 800. Das Vorhandensein der gefilterten Dokumente im lokalen Speicher 810 kann eine schnellere Analyse durch die anderen Module ermöglichen, als der Zugriff auf die Dokumente an einem entfernten Speicherort.
  • Ein Vorverarbeitungsmodul 816 kann in den Speichern 804 vorhanden sein und mit einem oder mehreren Verarbeitungseinheiten 802 gekoppelt sein, während das Vorverarbeitungsmodul 816 Dokumentenabschnitte wie Patentansprüche vor der Bestimmung der Breite verarbeiten kann. Diese Vorverarbeitung kann das Abgrenzen einzelner Ansprüche, das Ableiten von Wörtern in Stammformen, das Entfernen doppelter Stammformen und das Entfernen von Stoppwörtern 108 umfassen. Das Vorverarbeitungsmodul 816 kann ein oder alle der in 4 dargestellten Verfahren 400 durchführen. In einer Implementierung können die Stoppwörter 108 aus einer Stoppwortkorrekturdatei stammen, die eingelesen und für die Verarbeitung von Dokumentenabschnitten verwendet wird. Die Stoppwortkorrekturdatei kann spezifisch für ein bestimmtes Portfolio oder einen Dokumentenkorpus sein.
  • Das Vorverarbeitungsmodul 816 kann eine Einstammen-Logik 818 umfassen. Die Einstammen-Logik 818 erzeugt Stammformen von Wörtern unter Verwendung eines Einstammen-Algorithmus. Ein Einstammen-Algorithmus ist ein Prozess der linguistischen Normalisierung, bei dem die Variantenformen eines Wortes auf eine gemeinsame Form oder eine Stammform reduziert werden. Es gibt viele mögliche Einstammen-Algorithmen, die verwendet werden können, einschließlich der Verwendung einer Nachschlage-Tabelle, Suffixstripping, Lemmatisierung, stochastische Algorithmen, n-Gramm-Analyse, Matching-Algorithmen, Porter, Porter2, Paice-Husk, Lovins und Porter Stemmer. Porter folgt dem in Porter, M. „An algorithm for suffix stripping.“ Programm 14.3 (1980): 130-137. Die Einstammen-Logik 818 kann teilweise funktionieren, indem sie Werte an eine externe Einstammen-Operation weiterleitet und Ergebnisse empfängt. Eine Technik zur Implementierung ist die Verwendung einer API zum Aufruf eines externen Moduls oder Computersystems, das die Funktionalität der Einstammen-Funktionalität bereitstellt. Eine Anwendungsprogrammschnittstelle (API) ist eine Reihe von Routinen, Protokollen und Werkzeugen zum Erstellen von Softwareanwendungen. Eine API legt fest, wie Softwarekomponenten interagieren sollen. Zu den APIs, die das Einstammen ermöglichen, gehören EnClout Stemmer, EnClout Term Analysis und Text-Processing.
  • Ein Anomalie-Erkennungsmodul 820 kann in den Speichern 804 vorhanden sein und mit einem oder mehreren Verarbeitungseinheiten 802 gekoppelt sein. Das Anomalie-Erkennungsmodul 820 kann zwei Arten von Anomalien erkennen: Anomalien, die zur Entfernung eines Patentanspruchs aus einer weiteren Analyse führen, und Anomalien, die dazu führen, dass ein Patentanspruch zur manuellen Überprüfung markiert wird. Das Anomalie-Erkennungsmodul 820 kann eine Anspruchs-Lösch-Logik 822 umfassen, die konfiguriert ist, um abhängige Ansprüche und gelöschte Ansprüche aus den betrachteten Ansprüchen zur Analyse der Breite zu erkennen und zu entfernen. Die Entfernung der abhängigen und/oder gelöschten Ansprüche kann das Löschen von Datensätzen umfassen, die diesen Ansprüchen entsprechen, oder das Anzeigen, dass die Datensätze den Ansprüchen entsprechen, sind bei einer späteren Analyse zu ignorieren. Die Anspruchs-Markierungslogik 824, die auch im Anomalie-Erkennungsmodul 820 vorhanden sein kann, ist konfiguriert, um eine Markierung oder ein anderes Kennzeichen zu erzeugen, das denjenigen Markierungen zugeordnet ist, die eine Art von Anomalie aufweisen, die eine weitere Bewertung, aber keine Entfernung rechtfertigt. Das Anomalie-Erkennungsmodul 820 kann ein oder alle der in 5 dargestellten Verfahren 500 durchführen. Das Anomalie-Erkennungsmodul 820 kann zusätzlich oder alternativ den ersten Satz von Regeln umfassen, der in Block 704 von 7 beschrieben ist.
  • Das Anomalie-Erkennungsmodul 820 kann auf eine oder mehrere Listen von Stoppwörtern 108 und/oder normativen Wörtern 812 verweisen. Die Referenzierung kann während der Verarbeitung durch Einlesen einer Liste erfolgen oder die Liste kann in den Code integriert werden, der die Anomalie-Erkennung durchführt. In beiden Implementierungen kann ein Teil des Abschnitts einen Vergleich zwischen Wörtern in einem Abschnitt eines Dokuments und „anomalen“ Wörtern umfassen. Dieser Vergleich kann teilweise durch die Verwendung einer oder mehrerer Nachschlage-Tabellen implementiert werden. Die Nachschlage-Tabellen können vorberechnet und im statischen Programmspeicher gespeichert, im Rahmen der Initialisierungsphase eines Programms (Speicherung) berechnet (oder „vorab abgerufen“) oder sogar auf anwendungsspezifischen Plattformen in Hardware gespeichert werden. In einigen programmatischen Implementierungen können die Nachschlage-Tabellen Zeigerfunktionen (oder Offsets zu Labels) umfassen, um die passende Eingabe zu verarbeiten. Um die Verarbeitungsgeschwindigkeit zu verbessern, können ein oder mehrere feldprogrammierbare Gate-Arrays (FPGA) rekonfigurierbare, hardwareimplementierte Nachschlage-Tabellen verwenden, um programmierbare Hardwarefunktionen bereitzustellen. Um beispielsweise die Verarbeitungsgeschwindigkeit zu erhöhen, kann eine Liste von Standard-Stoppwörtern und/oder eine Liste der normativen Wörter 812 als hardwareimplementierte Nachschlage-Tabellen konfiguriert werden.
  • Ein Breitenberechnungsmodul 826 kann in den Speichern 804 vorhanden und mit einer oder mehreren Verarbeitungseinheiten 802 gekoppelt sein. Das Breitenberechnungsmodul 826 kann konfiguriert werden, um einen Breiten-Score für einzelne Dokumentenabschnitte zu berechnen. Wenn die einzelnen Dokumentenabschnitte Patentansprüche sind, kann das Breitenberechnungsmodul 826 die Breiten-Scores für jeden einzelnen Anspruch berechnen. Diese Berechnung kann nur für die Ansprüche oder andere Dokumentenabschnitte durchgeführt werden, die weder vom Vorverarbeitungsmodul 816 noch vom Anomalie-Erkennungsmodul 820 entfernt werden. Wie vorstehend beschrieben, basiert die Breite auf einer Wörterzahl und einem gemeinsamen Score. Somit kann das Breitenberechnungsmodul 826 einen oder beide von einem Wörterzahl-Berechnungsmodul 828 und einem Gleichheitsberechnungsmodul 830 umfassen. Das Breitenberechnungsmodul 826 kann eine oder alle Operationen 608, 610, 612, 614, 616, 618, 620, 622 des in 6 dargestellten Verfahrens 600 durchführen.
  • Das Wörterzahl-Berechnungsmodul 828 kann konfiguriert werden, um eine Wörterzahl für einen Anspruch basierend auf einer Wörterzahl für den Anspruch und einer maximalen Wörterzahl für einen anderen Anspruch mit der höchsten Wörterzahl zu bestimmen. Der zu analysierende Anspruch und der andere Anspruch mit der höchsten Wörterzahl stammen beide aus demselben Korpus von Patentdokumenten. Somit kann das Wörterzahl-Berechnungsmodul 828 eine Wörterzahl für jeden zu analysierenden Anspruch bestimmen und feststellen, welcher dieser Ansprüche die meisten Worte hat. In einer Implementierung kann das Wortzählberechnungsmodul 828 den zweiten Satz von Regeln umfassen, der in Block 714 von 7 beschrieben ist.
  • Das Gleichheits-Score-Berechnungsmodul 830 kann konfiguriert werden, um einen Gleichheits-Score für den Anspruch basierend auf den Häufigkeiten zu bestimmen, die einzelne Wörter im Anspruch über alle Ansprüche im Korpus von Patentdokumenten hinweg aufweisen. Das Gleichheits-Score-Berechnungsmodul 830 kann für jeden zu analysierenden Anspruch einen Gleichheits-Score bestimmen und bestimmen, welcher dieser Ansprüche aufgrund des höchsten Gleichheits-Scores am „häufigsten“ ist. Das Verhältnis zwischen dem individuellen Gleichheits-Score eines Anspruchs und dem höchsten Gleichheits-Score kann verwendet werden, um den Gleichheits-Score für diesen Anspruch zum Zwecke der Berechnung der Breite darzustellen. In einer Implementierung kann das Gleichheits-Score-Berechnungsmodul 830 den dritten Satz von Regeln umfassen, der in Block 716 von 7 beschrieben ist. Das Breitenberechnungsmodul 826 kann Ergebnisse kombinieren, die durch das Wörterzahl-Berechnungsmodul 828 und das Gleichheitsberechnungsmodul 830 erzeugt werden, um einen Breiten-Score für jeden Anspruch oder anderen Dokumentenabschnitt zu erzeugen. Der Breiten-Score für jeden Anspruch oder Dokumentenabschnitt kann auf eine ähnliche Weise erzeugt werden wie in Block 622 in 6 oder Block 718 in 7 beschrieben.
  • Ein Ranking-Modul 832 kann in den Speichern 804 vorhanden sein und mit einem oder mehreren Verarbeitungseinheiten 802 gekoppelt sein. Das Ranking-Modul 832 kann konfiguriert sein, um die analysierten Dokumente oder Dokumentenabschnitte in der Reihenfolge ihrer Breite zu bewerten. So kann beispielsweise das Ranking-Modul 832 eine Reihe veröffentlichter Patentanmeldungen nach der Breite der in diesen Anmeldungen enthaltenen Ansprüche ordnen. Das Ranking-Modul 832 kann auch einzelne Ansprüche eines bestimmten Patents oder einer bestimmten Patentanmeldung bewerten, um festzustellen, welcher Anspruch der breiteste ist. Einige Arten von Dokumenten können mehrere Abschnitte aufweisen, denen ein Breiten-Score zugeordnet werden kann. Beispielsweise können Patentdokumente mehrere Ansprüche und insbesondere mehrere unabhängige Ansprüche aufweisen. Das Ranking-Modul 832 kann einem Dokument ein einzelner Breiten-Score zuweisen, die auf den Breiten-Scores eines oder mehrerer Abschnitte des Dokuments basiert. So kann beispielsweise der Breiten-Score eines Patentdokuments der Breiten-Score des Anspruchs des am höchsten eingestuften unabhängigen Anspruchs in diesem Patentdokument sein. Die Dokumente können dann anhand dieser Breiten-Scores, die sich aus ihrem breitesten Dokumentenabschnitt ergeben, bewertet werden. Alternativ können die dem Dokument zugeordneten Breiten-Scores auf der Breite eines am niedrigsten eingestuften Dokumentenabschnitts, einem Durchschnitt der Ranglisten der mehreren Dokumentenabschnitte, einem Median der Ranglisten der mehreren Dokumentenabschnitte oder einer anderen Metrik basieren, die aus den einzelnen Breiten-Scores der Abschnitte eines Dokuments abgeleitet ist.
  • In einer Implementierung kann das Ranking-Modul 832 die Ergebnisse der Rangliste zusätzlich in einen von einer vorgegebenen Anzahl von Werten binären. Eine Binning-Implementierung erfolgt nach Perzentilen. So würden die ersten 1% der analysierten Dokumente in Bezug auf die Breite alle einen Rang von 100 erhalten, auch wenn die einzelnen Dokumente leicht unterschiedliche Breiten-Scores aufweisen. Das Binning kann die geordneten Dokumente in eine beliebige Anzahl von verschiedenen Bins unterteilen, wie beispielsweise drei verschiedene Bins (beispielsweise hoch, mittel und niedrig), 10 verschiedene Bins, 100 verschiedene Bins oder mehr. Anstelle von 100.000 Dokumenten, die in Bezug auf die Breite von 1 bis 100.000 geordnet sind, wobei jeder Rang einzigartig ist, kann jedes Dokument einen Rang von 1 bis 100 haben, wobei mehrere Dokumente jede numerische Ebene teilen.
  • Einige der oben beschriebenen Operationen umfassen Summierung, Subtraktion, Multiplikation und/oder Division. Die Verarbeitungseinheit(en) 802 können diese Operationen unter Verwendung von Fließkomma-Berechnungen durchführen. Fließkomma ist eine formelhafte Darstellung, die sich einer realen Zahl annähert, um einen Kompromiss zwischen Bereich und Genauigkeit zu unterstützen. Eine Zahl wird im Allgemeinen etwa auf eine feste Anzahl von signifikanten Ziffern (die Signifikanz) dargestellt und mit einem Exponenten in einer festen Basis skaliert; die Basis für die Skalierung ist normalerweise zwei, zehn oder sechzehn. Eine Zahl, die genau dargestellt werden kann, hat folgende Form: Signifikant x BasisExponent, wobei Signifikant eine ganzzahlige Basis ist, die größer oder gleich zwei ist, und Exponent auch eine ganze Zahl ist. Der Begriff Fließkomma bezieht sich auf die Tatsache, dass das Radixpunkt einer Zahl (Dezimalpunkt oder, in Computern üblicher, Binärpunkt) „Fließkomma“ sein kann, d.h. er kann überall in Bezug auf die signifikanten Ziffern der Zahl platziert werden. Diese Position wird als Exponentenkomponente angegeben, so dass die Fließkommadarstellung eine Form der wissenschaftlichen Notation ist.
  • Ein Fließkomma-System kann verwendet werden, um mit einer festen Anzahl von Stellen Zahlen unterschiedlicher Größenordnung darzustellen. Das Ergebnis dieses Dynamikbereichs ist, dass die darzustellenden Zahlen nicht gleichmäßig verteilt sind; die Differenz zwischen zwei aufeinanderfolgenden darstellbaren Zahlen wächst mit der gewählten Skala. Eine beispielhafte Technik zur Fließkommaberechnung ist im IEEE 754 Standard beschrieben. Die aktuelle Version, IEEE 754- 08, wurde im August 2008 veröffentlicht. Die internationale Norm ISO/IEC/IEEE 60559:2011 (mit identischem Inhalt wie IEEE 754-2008) wird als ISO/IEC/IEEE 60559:2011 „Informationstechnologie - Mikroprozessorsysteme - Fließkommaarithmetik“ veröffentlicht.
  • Eine Fließkommazahl besteht aus zwei Festkommakomponenten, deren Reichweite ausschließlich von der Anzahl der Bits oder Ziffern in ihrer Darstellung abhängt. Die Komponenten hängen linear von ihrem Bereich ab, der Fließkomma-Bereich linear vom signifikanten Bereich und exponentiell vom Bereich der Exponentenkomponente, die der Zahl einen deutlich größeren Bereich zuordnet. Auf einem beispielhaften Computersystem hat eine binäre Fließkommazahl mit doppelter Genauigkeit (64 Bit) einen Koeffizienten von 53 Bit (von denen eines impliziert ist), einen Exponenten von 11 Bit und ein Vorzeichenbit. Positive Fließkommazahlen in diesem Format haben einen ungefähren Bereich von 10-308 bis 10308, da der Bereich des Exponenten [-1022, 1023] ist und 308 ungefähr log10(21023) ist. Der gesamte Formatbereich reicht von ca. -10308 bis +10308 (siehe IEEE 754).
  • Die Anzahl der normierten Fließkommazahlen in einem System (B, P, L, U), wobei B die Basis des Systems ist, P die Genauigkeit des Systems auf P-Zahlen ist, L der kleinste Exponent ist, der im System darstellbar ist, und U der größte Exponent ist, der im System verwendet wird), ist 2(B-1)(BP-1)(U-L+1)+1.
  • Es gibt eine kleinste positive normierte Fließkommazahl, Underflow-Level = UFL = BE, die eine 1 als führende Ziffer und 0 für die restlichen Ziffern der Signifikanz und den kleinstmöglichen Wert für den Exponenten aufweist. Es gibt eine größte Fließkommazahl, Overflow-Level = OFL = (1-B-P)(BU+1), die B-1 als Wert für jede Ziffer der Signifikanz und den größtmöglichen Wert für den Exponenten hat.
  • Ein Ul-Erzeugungsmodul 834 kann in den Speichern 804 vorhanden sein und von der/den Verarbeitungseinheit(en) 802 implementiert werden. Das Ul-Erzeugungsmodul 834 kann eine oder mehrere Benutzeroberflächen wie Befehlszeilen-Benutzeroberflächen und/oder grafische Benutzeroberflächen erzeugen oder Anweisungen bereitstellen. Eine Befehlszeilenschnittstelle (auch bekannt als Command Language Interpreter (CEI), eine Befehlszeilen-Benutzeroberfläche, eine Konsolen-Benutzeroberfläche oder eine Zeichen-Benutzeroberfläche (GUI)) ist eine Schnittstelle zur Interaktion mit einem Computerprogramm, bei der der Benutzer (oder Client) dem Programm Befehle in Form von aufeinanderfolgenden Textzeilen (Befehlszeilen) erteilt. Die Schnittstelle wird in der Regel mit einer Kommandozeilen-Shell implementiert, einem Programm, das Befehle als Texteingabe akzeptiert und Befehle in entsprechende Betriebssystemfunktionen umwandelt.
  • Eine GUI ist eine Programmoberfläche, die die Grafikfunktionen eines Computers nutzt, um die Bedienung des Programms zu vereinfachen. Gut gestaltete GUIs können einen Benutzer davon befreien, komplexe Befehlssprachen zu lernen. In einer Implementierung kann das Ul-Erzeugungsmodul 834 eine GUI wie die in den 1 und 2 dargestellte UI 118 erzeugen.
  • Die Rechenvorrichtung(en) 800 können eine oder mehrere Kommunikationsschnittstellen 836 zum Empfangen und Senden von Informationen umfassen. Die Kommunikationsschnittstellen 836 können die Rechenvorrichtung(en) 800 kommunikativ mit einem Kommunikationsnetzwerk unter Verwendung eines beliebigen herkömmlichen Netzwerkprotokolls oder einer beliebigen Technologie koppeln. Die Rechenvorrichtung(en) 800 können auch Eingabe/Ausgabe (E/A) -Komponenten 838 zum Empfangen von Eingaben von menschlichen Bedienern (beispielsweise eine Tastatur) und zum Bereitstellen von Ausgaben (beispielsweise ein Monitor) für die menschlichen Bediener umfassen.
  • BEISPIEL
  • Ein Datenspeicher mit 8821 verschiedenen erteilten US-Gebrauchsmusterpatenten im Zusammenhang mit der Computersicherheit wurde durch drei verschiedene automatische Breiten-Score-Verfahren bewertet. Eine der automatischen Techniken war die in dieser Offenbarung beschriebene Technik (bezogen auf eine „Anspruchs-Breite“). Die anderen waren Innography PatentStrength und das Relecura Star Rating. Innography PatentStrength ist ein proprietärer Algorithmus, der den Wert und die Relevanz von Patenten vorhersagt, indem er die Wahrscheinlichkeit ableitet, dass ein Patent letztendlich vor Gericht gebracht wird. Die von Innography PatentStrength vergebene Punktzahl reicht von 0-100, wobei 100 die „beste“ ist. „ Das Relecura Star Rating ist ein anderer proprietärer Algorithmus, der die Patentqualität vorhersagt und von 0-5 in Schritten von 0,5 (d.h. 10 verschiedene Bins) reicht. Ein Mensch mit Erfahrung in der Bewertung des Umfangs von Patentansprüchen überprüfte manuell 10 Patente, die aus den 8821 Patenten ausgewählt wurden.
  • Die automatische Dokumentenanalyse mit den in dieser Offenbarung beschriebenen Techniken war in der Lage, die 8821 Patente in 2714 Sekunden oder 30,8 Sekunden pro Patent zu bewerten und zu bewerten. Die manuelle Analyse von nur 10 Patenten dauerte zwischen 10 und 30 Minuten pro Patent. Somit bietet die automatische Dokumentenanalyse mit dieser Technik einen deutlichen Geschwindigkeitsvorteil gegenüber der manuellen Analyse.
  • Die in dieser Offenbarung beschriebene automatische Dokumentenanalysetechnik lieferte auch Ergebnisse, die der manuellen Analyse näher kamen als die anderen automatischen Techniken. Daher können die hier beschriebenen Techniken als effektiver bei der Nachahmung der von einem Menschen erzeugten Ergebnisse beschrieben werden als Innography PatentStrength oder Relecura Star Rating. Tabelle 1 unten zeigt das Ranking der Patente, geordnet nach menschlicher Analyse, und die Rankings, die durch die Techniken dieser Offenbarung („Claim Breadth“), Innography PatentStrength und Relecura Star Rating erzeugt wurden. Tabelle 1. Vergleich der Patent-Rankings
    Pat.-Nr. Menschl Claim Breadth Innography Relecura
    Rank Roh Rang Roh Rang Roh Rang
    breit ‘493 1 96 1 90 4 3 5
    ‘409 2 55 5 22 10* 2.5 9*
    ‘350 3 46 6 91 2 3.5 1
    mittel ‘187 4 86 2 54 9 3 5
    ‘074 5 66 4 83 7 3.5 1
    ‘250 6 35 7 93 1 3.5 1
    ‘041 7 75 3 87 6 2.5 9
    eng ‘583 8 6 10 69 8 3.5 1*
    ‘437 9 23 8 91 2* 3 5
    ‘146 10 14 9 90 4 3 5
  • Alle automatischen Ranking-Techniken erzeugten Ergebnisse, die sich voneinander und von der manuellen Bewertung durch den menschlichen Experten unterscheiden. Um die grobe Korrelation einer automatischen Ranking-Technik mit dem manuellen, menschlichen Ranking zu beurteilen, wurden die 10 Patente in drei Gruppen eingeteilt, deren Breite durch die menschliche Analyse bestimmt wurde. Die drei breitesten Patente wurden in eine breite Gruppe aufgenommen. Die mittleren vier Patente wurden in eine mittlere Gruppe aufgenommen. Und die engsten drei Patente wurden in eine enge Gruppe aufgenommen.
  • Jede automatische Analysetechnik, die ein Patent in der gleichen Gruppe wie das manuelle Ranking richtig eingestuft hat, erhält einen Punkt, um das Patent in der richtigen Gruppe zu platzieren: breit, mittel oder eng. Dies wird in Tabelle 1 durch die kursive Darstellung der Rangfolge angezeigt. Wenn also das Patent, das durch manuelle Analyse an erster Stelle steht, durch eine automatische Technik an erster Stelle steht, dann erhält diese automatische Technik einen Punkt für die korrekte Klassifizierung dieses Patents in der breiten Gruppe. Die automatischen Analysetechniken verloren auch einen Punkt, wenn sie einen signifikanten Fehler machten, indem sie eines der Patente aus der engen Gruppe in der breiten Gruppe platzierten oder umgekehrt. Signifikante Fehler werden in Tabelle 1 durch das Ranking mit einem Sternchen angezeigt.
  • Die Untersuchung von Tabelle 1 zeigt, dass die Anspruchsbreite besser war als die beiden anderen automatischen Analyseverfahren. Die Anspruchsbreite hatte keine signifikanten Fehler und platzierte sechs der zehn Patente korrekt in der gleichen breiten Gruppe wie das manuelle Ranking. So erhielt die Anspruchsbreite-Technik dieser Offenbarung sechs Punkte. Innography PatentStrength hatte zwei signifikante Fehler und platzierte nur vier Patente mit den gleichen breiten Gruppen wie das manuelle Ranking und erhielt damit zwei Punkte. Das Relecura Star Rating hatte auch zwei signifikante Fehler und platzierte zwei Patente innerhalb der gleichen breiten Gruppe wie das manuelle Ranking. So erhielt Relecura Star Rating Null Punkte. Das von Claim Breadth erzeugte Ranking ist ebenfalls viel stärker mit dem menschlichen Ranking korreliert als entweder Innography PatentStrength oder Relecura Star Rating. Die Korrelation ist ein Maß dafür, wie stark zwei Variablen miteinander verbunden sind. Eine Korrelation von +100% zeigt eine perfekte positive Korrelation an, -100% eine perfekte negative Korrelation, und 0% zeigt keine Korrelation. Claim Breadth hatte eine Korrelation von 72,12% mit dem menschlichen Ranking. Dies ist sehr positiv und deutet darauf hin, dass ein Ranking, das durch die Anspruchsbreite erzeugt wird, wahrscheinlich demjenigen ähnelt, das durch eine manuelle Analyse erzeugt wird. Innography PatentStrength hatte eine leicht negative Korrelation bei -23,78%, was darauf hindeutet, dass das von Innography PatentStrength erzeugte Ranking wahrscheinlich nur wenig mit dem Ranking vergleichbar ist, das durch manuelle Analyse erzeugt wurde, aber in die entgegengesetzte Richtung geordnet ist. Relecura Star Rating hatte im Wesentlichen keine Korrelation mit einem Wert von -9,30%. So werden die hierin offenbarten Techniken quantitativ gezeigt, dass sie ein besseres Ranking des menschenähnlichen Patentanspruchs bieten als andere analytische Techniken, die von der Patentanalyse-Industrie verwendet werden.
  • BEISPIELKLAUSELN
  • 1. Computerimplementiertes Verfahren, umfassend: Empfangen einer Vielzahl von Dokumenten, die Text umfassen, der in einer Art natürlicher Sprache geschrieben ist, wobei jedes Dokument einer eindeutigen Dokumenten-Identifikationsnummer zugeordnet ist; Darstellen von Text, der in der Vielzahl von Dokumenten enthalten ist, unter Verwendung eindeutiger Computerdarstellungen für jedes Wort im Text, wobei die Computerdarstellungen ASCII, Unicode oder eine gleichwertige Technologie umfassen; Vorverarbeiten der Verarbeitung der Vielzahl von Dokumenten durch: Erzeugen eines oder mehrerer verarbeiteter Dokumentenabschnitte aus jedem der Vielzahl von Dokumenten, wobei jeder der verarbeiteten Dokumentenabschnitte einer der eindeutigen Dokumenten-Identifikationsnummern zugeordnet ist; und Parsen des in der Vielzahl von Dokumenten enthaltenen Textes in separate Wörter, die wenigstens teilweise auf der zugehörigen Computerdarstellung jedes Wortes basieren; Identifizieren von Stoppwörtern, doppelten Wörtern und Satzzeichen in dem Text, die wenigstens teilweise auf ihren zugehörigen Computerdarstellungen basieren; und Entfernen der Stoppwörter, doppelten Wörter und Satzzeichen aus dem Text; Erzeugen einer Wörterzahl für jeden der verarbeiteten Dokumentabschnitte durch Zählen der Anzahl von Computerdarstellungen einzelner Wörter in jedem der verarbeiteten Dokumentabschnitte; Identifizieren einer referentiellen Wörterzahl; Berechnen eines Wörterzahlverhältnisses für jeden der verarbeiteten Dokumentabschnitte durch Division der referentiellen Wörterzahl durch die Wörterzahl für jeden einzelnen der verarbeiteten Dokumentabschnitte; Bestimmen, wenigstens teilweise basierend auf den Computerdarstellungen, einer Wortfrequenz für jedes Wort, das in einem der Dokumentabschnitte enthalten ist, wobei die Wortfrequenz eine Gesamtanzahl von Fällen ist, in denen ein Wort in den Dokumentabschnitten vor dem Entfernen doppelter Wörter gefunden wird; Erzeugen eines Gleichheits-Scores für jeden der verarbeiteten Dokumentabschnitte durch Auslesen der Quadratwurzel aus der Summe der Quadrate der Umkehrung der Wortfrequenz für jedes der einzelnen Wörter in den einzelnen der verarbeiteten Dokumentabschnitte; Identifizieren eines höchsten Gleichheits-Scores eines der verarbeiteten Dokumentabschnitte; Berechnen eines Gleichheits-Scores für jeden der verarbeiteten Dokumentabschnitte durch Division des höchsten Gleichheits-Scores durch den Gleichheits-Score für die einzelnen der verarbeiteten Dokumentabschnitte; Berechnen eines Gesamt-Scores für jeden der verarbeiteten Dokumentabschnitte basierend auf einer Normalisierung der Quadratwurzel der Summe aus dem Quadrat des Wörterzahlverhältnisses und dem Quadrat des Gleichheits-Score-Verhältnisses für die einzelnen der verarbeiteten Dokumentabschnitte; und Erzeugen der Benutzerschnittstelle, der wenigstens eine Gesamt-Score für einen der verarbeiteten Dokumentabschnitte in der Nähe der eindeutigen Dokumenten-Identifikationsnummer, die dem einen der verarbeiteten Dokumentabschnitte zugeordnet ist, und eine Markierung, die ein Ergebnis aus dem Erfassen von Anomalien für den einen der verarbeiteten Dokumentabschnitte anzeigt, umfasst.
  • 2. Computerimplementiertes Verfahren nach Klausel 1, wobei die Vorverarbeitung des Weiteren umfasst: Identifizieren, basierend wenigstens teilweise auf der Art der natürlichen Sprache, einer Auflistung der Stoppwörter und der für Patentgesetze spezifischen Duplikatwörter einer Jurisdiktion, die der Art der natürlichen Sprache zugeordnet ist; und Bestimmen einer Computerdarstellung, die jedem der Stoppwörter und den Duplikatwörtern für die Art der natürlichen Sprache zugeordnet ist.
  • 3. Computerimplementiertes Verfahren nach Klausel 2, wobei die Auflistung eine erste Auflistung von ersten Stoppwörtern und ersten doppelten Wörtern umfasst, und wobei das Identifizieren der ersten Auflistung umfasst: Abfragen einer Datenbank, die Folgendes umfasst: die erste Auflistung von Computerdarstellungen der ersten Stoppwörter und der ersten doppelten Wörter, der ersten Stoppwörter und der ersten doppelten Wörter, die Wörtern entsprechen, die in der Art der natürlichen Sprache geschrieben sind, wobei die Art der natürlichen Sprache eine andere natürliche Sprache als Englisch ist; und eine zweite Auflistung von Computerdarstellungen von zweiten Stoppwörtern und zweiten doppelten Wörtern, wobei die zweiten Stoppwörter und zweiten doppelten Wörter Wörtern entsprechen, die in Englisch geschrieben sind; und Auswählen der ersten Auflistung der Computerdarstellungen der ersten Stoppwörter und der ersten doppelten Wörter, basierend wenigstens teilweise auf der Art der natürlichen Sprache.
  • 4. Computerimplementiertes Verfahren nach Klausel 1, wobei die Vorverarbeitung der Vielzahl von Dokumenten unabhängig von einer Übersetzung des Textes von der Art der natürlichen Sprache in eine andere Art der natürlichen Sprache durchgeführt wird.
  • 5. Computerimplementiertes Verfahren nach Klausel 4, wobei die Art der natürlichen Sprache eine andere natürliche Sprache als Englisch umfasst, und die andere Art der natürlichen Sprache Englisch umfasst.
  • 6. Computerimplementiertes Verfahren nach Klausel 1, wobei die Vielzahl von Dokumenten, die Text umfassen, Patente umfassen, die eindeutige Dokumenten-Identifikationsnummer eine Patentnummer umfasst und die verarbeiteten Dokumentenabschnitte Patentansprüche umfassen.
  • 7. Verfahren zum automatischen Zuweisen eines Anspruchsbreiten-Scores zu einem Patentanspruch, wobei das Verfahren umfasst: Erhalten einer Datendatei, die einen Korpus von Patentansprüchen enthält; Erhalten eines ersten Regelwerks, das einen anomalen Patentanspruch definiert, wobei der erste Regelwerk eine erste Regel umfasst, um wenigstens einen von einem abhängigen Patentanspruch, einem gelöschten Patentanspruch, einem Mittel-plus-Funktions-Patentanspruch oder einem Patentanspruch, der normative Sprache enthält, zu identifizieren; und wenigstens eines von: Erzeugen einer Ignorierliste für Patentansprüche, die in den Korpus der Patentansprüche aufgenommen sind, durch Anwenden des ersten Regelwerks; oder Erzeugen eines Kennzeichens, das den Patentanspruch markiert, durch Anwenden des ersten Regelwerks; Bestimmen einer Gerichtsbarkeit, in der der Patentanspruch eingereicht wurde; Bestimmen des mit der Gerichtsbarkeit verbundenen materiellen Rechts; Erhalten eines zweiten Regelwerks, das einen Wörterzahl-Score für einen Patentanspruch als Funktion der Wörterzahl im Patentanspruch definiert; Erhalten eines dritten Regelwerks, das einen Gleichheits-Score für den Patentanspruch als Funktion der Häufigkeit definiert, mit der Wörter im Patentanspruch im Korpus der Patentansprüche vorhanden sind; Erzeugen des Wörterzahl-Scores und des Gemeinsamkeitswerts für den Patentanspruch durch Bewerten des Patentanspruchs gegenüber dem zweiten Regelwerk und dem dritten Regelwerk; Erzeugen eines Anspruchsbreiten-Scores für den Patentanspruch, der wenigstens teilweise auf dem Wörterzahl-Score, dem Gemeinsamkeitswert und dem mit der Gerichtsbarkeit verbundenen materiellen Recht basiert; und Anwenden des Anspruchsbreiten-Scores auf den Patentanspruch, um ein Ranking in Bezug auf eine Vielzahl anderer Patentansprüche aus dem Korpus der Patentansprüche zu erstellen.
  • 8. Verfahren von Klausel 7, wobei die Gerichtsbarkeit, in der der Patentanspruch erhoben wurde, China umfasst, und das Bestimmen des materiellen Rechts das Bestimmen umfasst, Wörter einer Präambel des Patentanspruchs in die Wörterzahl in den Patentanspruch aufzunehmen.
  • 9. Verfahren von Klausel 7, wobei die Gerichtsbarkeit, in der der Patentanspruch erhoben wurde, die Vereinigten Staaten von Amerika umfasst, und das Bestimmen des materiellen Rechts das Bestimmen umfasst, um Wörter einer Präambel des Patentanspruchs in der Wörterzahl im Patentanspruch auszuschließen.
  • 10. Verfahren von Klausel 7, wobei, wenn das erste Regelwerk die erste Regel zum Identifizieren des abhängigen Patentanspruchs und des gelöschten Patentanspruchs und zum Erzeugen der Ignorierliste für Patentansprüche, die in den Korpus der Patentansprüche aufgenommen sind, durch Anwenden des ersten Regelwerks umfasst, wobei der Wörterzahl-Score und der Gemeinsamkeitswert nicht für Patentansprüche erzeugt werden, die in der Ignorierliste umfassen sind.
  • 11. Verfahren der Klausel 7, wobei das zweite Regelwerk eine zweite Regel umfasst, die den Wörterzahl-Score basierend auf einer Anzahl von Wörtern im Patentanspruch nach der Vorverarbeitung definiert, wobei die Vorverarbeitung das Einstammen, Entfernen von doppelten Wörtern und das Entfernen von Stoppwörtern umfasst.
  • 12. Verfahren der Klausel 7, wobei das dritte Regelwerk eine dritte Regel umfasst, die den Gleichheits-Score definiert, basierend auf einem Gleichheits-Score pro Anspruch, wobei der Gleichheits-Score pro Anspruch durch eine Quadratwurzel aus einer Summe von für jedes Wort im Patentanspruch nach der Vorverarbeitung das Quadrat des Umkehrwerts einer globalen Wörterzahl für jedes Wort berechnet wird.
  • 13. Eine oder mehrere Rechenvorrichtungen zum automatischen Analysieren eines Korpus von Patentdokumenten, wobei die eine oder die mehreren Rechenvorrichtungen umfassen: eine oder mehrere Verarbeitungseinheiten; einen oder mehrere Speicher, die mit der einen oder den mehreren Verarbeitungseinheiten gekoppelt sind; ein Vorverarbeitungsmodul, das mit der einen oder den mehreren Verarbeitungseinheiten gekoppelt ist und konfiguriert ist zum: für einen ersten Punkt der Bearbeitung für einen ersten Abschnitt des Korpus von Patentdokumenten: Bearbeiten von Anspruchsabschnitten des ersten Abschnitts des Korpus der Patentdokumente, Abgrenzen einzelner Ansprüche, Ableiten von Wörtern in den einzelnen Ansprüchen auf Stammformen, Entfernen von doppelten Stammformen aus den einzelnen Ansprüchen und Entfernen von Stoppwörtern aus den einzelnen Ansprüchen; und für einen zweiten Punkt in der Bearbeitung für den ersten Abschnitt des Korpus der Patentdokumente: Verarbeiten der Anspruchsabschnitte des ersten Abschnitts des Korpus von Patentdokumenten, Abgrenzen einzelner Ansprüche, Ableiten von Wörtern in den einzelnen Ansprüchen auf Stammformen, Entfernen doppelter Stammformen aus den einzelnen Ansprüchen und Entfernen von Stoppwörtern aus den einzelnen Ansprüchen, ein Anomalie-Erkennungsmodul, das mit einer oder mehreren Verarbeitungseinheiten gekoppelt und konfiguriert ist: für den ersten Punkt in der Bearbeitung für den ersten Teil des Korpus von Patentdokumenten: Erkennen und Entfernen von abhängigen Ansprüchen und gelöschten Ansprüchen aus den einzelnen Ansprüchen des ersten Teils des Korpus von Patentdokumenten; und für den zweiten Punkt in der Bearbeitung für den ersten Teil des Korpus von Patentdokumenten: Erkennen und Entfernen von abhängigen Ansprüchen und gelöschten Ansprüchen aus den einzelnen Ansprüchen des ersten Teils des Korpus von Patentdokumenten; und ein Modul zur Berechnung der Anspruchsbreite, das mit einer oder mehreren Verarbeitungseinheiten gekoppelt und konfiguriert ist zum: Berechnen, für den ersten Punkt in der Bearbeitung eines ersten Anspruchsbreiten-Scores für jeden einzelnen Anspruch des ersten Abschnitts des Korpus von Patentdokumenten, der nicht entfernt wurde, Berechnen des ersten Anspruchsbreiten-Scores basierend auf einem Wörterzahl-Score eines Anspruchs und Berechnen eines Gleichheits-Scores des Anspruchs; und für den zweiten Punkt in der Bearbeitung Berechnen eines zweiten Anspruchsbreiten-Scores für jeden einzelnen Anspruch des ersten Abschnitts des Korpus von Patentdokumenten, die nicht entfernt wurden, wobei der zweiten Anspruchsbreiten-Score auf einem Wörterzahl-Score eines Anspruchs und einem Gleichheits-Score des Anspruchs basiert.
  • 14. Eine oder mehrere Rechenvorrichtungen nach Klausel 13, wobei: der erste Punkt in der Bearbeitung ein erstes Mal umfasst, bevor Änderungen an den einzelnen Ansprüchen des ersten Abschnitts des Korpus von Patentdokumenten vorgenommen werden; und der zweite Punkt in der Bearbeitung ein zweites Mal umfasst, das mit einer Mitteilung über die Genehmigung der einzelnen Ansprüche des ersten Abschnitts des Korpus von Patentdokumenten verbunden ist.
  • 15. Eine oder mehrere Rechenvorrichtungen nach Klausel 14, wobei das Anspruchsbreitenberechnungsmodul des Weiteren konfiguriert ist, um eine durchschnittliche Änderung des Anspruchsbreiten-Scores zwischen den ersten Anspruchsbreiten-Scores und den zweiten Anspruchsbreiten-Scores für die einzelnen Ansprüche des ersten Abschnitts des Korpus von Patentdokumenten zu bestimmen.
  • 16. Eine oder mehrere Rechenvorrichtungen nach Klausel 15, wobei: der erste Abschnitt des Korpus der Patentdokumente Erfindungspatenten entspricht; ein zweiter Abschnitt des Korpus der Patentdokumente Gebrauchsmustern entspricht; und das Anspruchsbreitenmodul des Weiteren konfiguriert ist, um einen dritten Anspruchsbreiten-Score für individuelle Ansprüche im zweiten Abschnitt des Korpus der Patentdokumente zu bestimmen, der wenigstens teilweise auf der durchschnittlichen Änderung der Anspruchsbreiten-Scores zwischen den ersten Anspruchsbreiten-Scores und den zweiten Anspruchsbreiten-Scores für die individuellen Ansprüche des ersten Abschnitts des Korpus der Patentdokumente basiert.
  • 17. Eine oder mehrere Rechenvorrichtungen nach Klausel 16, wobei jedes Patent der Korpus von Patentdokumenten einer gemeinsamen Klassifikation zugeordnet ist, wobei die gemeinsame Klassifikation wenigstens eine umfasst von: einer Gerichtsbarkeit, einer Technologieklassifikation, einem Bevollmächtigten, einem Anmelder oder einem Erfinder.
  • 18. Eine oder mehrere Rechenvorrichtungen nach Klausel 13, wobei das Anspruchsbreitenberechnungsmodul ein Wörterzahl-Berechnungsmodul umfasst, das konfiguriert ist, um eine Wörterzahl für jeden der einzelnen Ansprüche basierend auf einer Wörterzahl für jeden der einzelnen Ansprüche und einer maximalen Wörterzahl für einen Anspruch aus dem Korpus von Patentdokumenten mit einer höchsten Wörterzahl zu bestimmen.
  • 19. Eine oder mehrere Rechenvorrichtungen nach Klausel 13, wobei das Anspruchsbreitenberechnungsmodul ein Wörterzahl-Berechnungsmodul umfasst, das konfiguriert ist, um eine Wörterzahl für jeden der einzelnen Ansprüche basierend auf einer Wörterzahl für jeden der einzelnen Ansprüche und einer maximalen Wörterzahl für einen Anspruch aus dem Korpus von Patentdokumenten mit einer höchsten Wörterzahl zu bestimmen.
  • 20. Eine oder mehrere Rechenvorrichtungen der Klausel 1310, wobei das Anspruchsbreitenberechnungsmodul ein Gleichheitsberechnungsmodul umfasst, das konfiguriert ist, um einen Gleichheits-Score für jeden der einzelnen Ansprüche basierend auf den Häufigkeiten zu bestimmen, die einzelne Wörter in jedem der einzelnen Ansprüche während aller Ansprüche im Korpus von Patentdokumenten auftreten.
  • SCHLUSSFOLGERUNG
  • Obwohl der Gegenstand in einer für strukturelle Merkmale spezifischen Sprache beschrieben wurde, ist es verständlich, dass der in den beigefügten Ansprüchen definierte Gegenstand nicht unbedingt auf die beschriebenen spezifischen Merkmale beschränkt ist. Vielmehr werden die spezifischen Merkmale als anschauliche Formen der Umsetzung der Ansprüche offengelegt.
  • Die Begriffe „ein“, „eine“, „der/die/das“ und ähnliche Verweise, die im Zusammenhang mit der Beschreibung der Erfindung verwendet werden (insbesondere im Zusammenhang mit den folgenden Ansprüchen), sind so auszulegen, dass sie sowohl das Singular als auch den Plural umfassen, sofern hierin nichts anderes angegeben ist oder durch den Kontext eindeutig widersprochen wird. Wie hierin in diesem Dokument verwendet, bedeutet „oder“ und/oder. Zum Beispiel bedeutet „A oder B“ A ohne B, B ohne A oder A und B. Der Begriff „basierend auf“ ist so zu verstehen, dass er sowohl exklusive als auch nicht-exklusive Beziehungen umfasst. Zum Beispiel bedeutet „A basiert auf B“, dass A wenigstens teilweise auf B basiert und vollständig auf B basieren kann.
  • Bestimmte Ausführungsformen werden hierin beschrieben, einschließlich des den Erfindern für die Durchführung der Erfindung am besten bekannten Modus. Natürlich werden sich Abweichungen von diesen beschriebenen Ausführungsformen für diejenigen mit gewöhnlichen Fähigkeiten in der Kunst beim Lesen der vorstehenden Beschreibung zeigen. Erfahrene Handwerker werden wissen, wie man solche Variationen entsprechend anwendet, und die hierin offenbarten Ausführungsformen können auch anders als spezifisch beschrieben praktiziert werden. Dementsprechend werden alle Änderungen und Äquivalente des in den beigefügten Ansprüchen genannten Gegenstands in den Umfang dieser Offenbarung einbezogen. Darüber hinaus wird jede Kombination der oben beschriebenen Elemente in allen möglichen Variationen davon von der Erfindung erfasst, sofern hierin nichts anderes angegeben ist oder der Kontext eindeutig widerspricht.
  • Darüber hinaus wurde in dieser Spezifikation auf Veröffentlichungen, Patente oder Patentanmeldungen (zusammen „Referenzen“) verwiesen. Jede der zitierten Referenzen wird hierin einzeln durch Bezugnahme auf ihre jeweils zitierten Lehren sowie auf alles, was sie offenlegen, aufgenommen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 15451138 [0001]
  • Zitierte Nicht-Patentliteratur
    • ISO/IEC/IEEE 60559:2011 [0121]

Claims (15)

  1. Computerimplementiertes Verfahren, umfassend: Empfangen einer Vielzahl von Dokumenten, die Text umfassen, der in einer Art natürlicher Sprache geschrieben ist, wobei jedes Dokument einer eindeutigen Dokumenten-Identifikationsnummer zugeordnet ist; Darstellen von Text, der in der Vielzahl von Dokumenten enthalten ist, unter Verwendung eindeutiger Computerdarstellungen für jedes Wort im Text, wobei die Computerdarstellungen ASCII, Unicode oder eine gleichwertige Technologie umfassen; Vorverarbeitung der Vielzahl von Dokumenten durch: Erzeugen eines oder mehrerer verarbeiteter Dokumentenabschnitte aus jedem der Vielzahl von Dokumenten, wobei jeder der verarbeiteten Dokumentenabschnitte einer der eindeutigen Dokumenten-Identifikationsnummern zugeordnet ist; und Parsen des in der Vielzahl von Dokumenten enthaltenen Textes in separate Wörter, die wenigstens teilweise auf der zugehörigen Computerdarstellung jedes Wortes basieren; Identifizieren von Stoppwörtern, doppelten Wörtern und Satzzeichen im Text, basierend wenigstens teilweise auf den dann zugeordneten Computerdarstellungen; und Entfernen der Stoppwörter, doppelten Wörter und Satzzeichen aus dem Text; Erzeugen einer Wörterzahl für jeden der verarbeiteten Dokumentenabschnitte durch Zählen der Anzahl der Computerdarstellungen einzelner Wörter in jedem der verarbeiteten Dokumentenabschnitte; Identifizieren einer referentiellen Wörterzahl; Berechnen eines Wörterzahlverhältnisses für jeden der verarbeiteten Dokumentenabschnitte durch Division der referentiellen Wörterzahl durch die Wörterzahl für jeden einzelnen der verarbeiteten Dokumentenabschnitte; Bestimmen, basierend wenigstens teilweise auf den Computerdarstellungen, einer Wortfrequenz für jedes Wort, das in einem der Dokumentenabschnitte enthalten ist, wobei die Wortfrequenz eine Gesamtzahl von Fällen ist, in denen ein Wort in den Dokumentenabschnitten vor dem Entfernen doppelter Wörter gefunden wird; Erzeugen eines Gleichheits-Scores für jeden der verarbeiteten Dokumentenabschnitte, indem man die Quadratwurzel aus der Summe der Quadrate der Quadrate des Inversen der Wortfrequenz für jedes der einzelnen Wörter in den einzelnen der verarbeiteten Dokumentenabschnitte nimmt; Identifizieren eines höchsten Gleichheits-Scores eines der verarbeiteten Dokumentenabschnitte; Berechnen eines Gleichheits-Score-Verhältnisses für jeden der verarbeiteten Dokumentenabschnitte durch Division des höchsten Gleichheits-Scores durch den Gleichheits-Score für die einzelnen der verarbeiteten Dokumentenabschnitte; Berechnen eines Gesamt-Scores für jeden der verarbeiteten Dokumentabschnitte basierend auf einer Normierung der Quadratwurzel der Summe aus dem Quadrat des Quadrat des Wörterzahlverhältnisses und dem Quadrat des Gleichheits-Score-Verhältnisses für die einzelnen der verarbeiteten Dokumentabschnitte; und Erzeugen der Benutzerschnittstelle, die wenigstens einen Gesamt-Score für einen der verarbeiteten Dokumentenabschnitte in der Nähe der eindeutigen Dokumenten-Identifikationsnummer, die demjenigen der verarbeiteten Dokumentenabschnitte zugeordnet ist, und eine Markierung, die ein Ergebnis aus dem Erfassen von Anomalien für denjenigen der verarbeiteten Dokumentenabschnitte anzeigt, umfasst.
  2. Computerimplementiertes Verfahren nach Anspruch 1, wobei die Vorverarbeitung des Weiteren umfasst: Identifizieren, basierend wenigstens teilweise auf der Art der natürlichen Sprache, einer Auflistung der Stoppwörter und der doppelten Wörter, die spezifisch für Patentgesetze einer mit der Art der natürlichen Sprache verbundenen Gerichtsbarkeit sind; und Bestimmen einer Computerdarstellung, die jedem der Stoppwörter und der doppelten Wörter für die Art der natürlichen Sprache zugeordnet ist.
  3. Computerimplementiertes Verfahren nach Anspruch 2, wobei die Auflistung eine erste Auflistung von ersten Stoppwörtern und ersten doppelten Wörtern umfasst, und wobei das Identifizieren der ersten Auflistung umfasst: Abfragen einer Datenbank, die Folgendes umfasst: die erste Auflistung von Computerrepräsentationen der ersten Stoppwörter und der ersten doppelten Wörter, der ersten Stoppwörter und der ersten doppelten Wörter, die den Wörtern entsprechen, die in der Art der natürlichen Sprache geschrieben wurden, wobei die Art der natürlichen Sprache eine natürliche Sprache ist, die von Englisch verschieden ist; und eine zweite Auflistung von Computerdarstellungen von zweiten Stoppwörtern und zweiten doppelten Wörtern, wobei die zweiten Stoppwörter und zweiten doppelten Wörter den auf Englisch geschriebenen Wörtern entsprechen; und Auswählen der ersten Auflistung der Computerdarstellungen der ersten Stoppwörter und der ersten doppelten Wörter, basierend wenigstens teilweise auf der Art der natürlichen Sprache.
  4. Computerimplementiertes Verfahren nach Anspruch 1, wobei die Vorverarbeitung der Vielzahl von Dokumenten unabhängig von einer Übersetzung des Textes von der Art der natürlichen Sprache in eine andere Art der natürlichen Sprache durchgeführt wird.
  5. Computerimplementiertes Verfahren nach Anspruch 4, wobei die Art der natürlichen Sprache eine andere natürliche Sprache als Englisch umfasst und die andere Art der natürlichen Sprache Englisch umfasst.
  6. Verfahren zum automatischen Zuweisen eines Anspruchsbreiten-Scores zu einem Patentanspruch, wobei das Verfahren umfasst: Erhalten einer Datendatei, die einen Korpus von Patentansprüchen enthält; Erhalten eines ersten Regelwerks, das einen anomalen Patentanspruch definiert, wobei das erste Regelwerk eine erste Regel zum Identifizieren wenigstens eines von einem abhängigen Patentanspruch, einem gelöschten Patentanspruch, einem Mittelplus-Funktions-Patentanspruch oder einem Patentanspruch mit normativer Sprache umfasst; und wenigstens eines von: Erzeugen einer Ignorierliste für Patentansprüche, die in den Korpus der Patentansprüche aufgenommen sind, durch Anwendung des ersten Regelwerks; oder Erzeugen eines Kennzeichens, das den Patentanspruch markiert, durch Anwendung des ersten Regelwerks; Bestimmen einer Gerichtsbarkeit, in der der Patentanspruch eingereicht wurde; Bestimmung des materiellen Rechts im Zusammenhang mit der Gerichtsbarkeit; Erhalten eines zweiten Satzes von Regeln, die eine Wörterzahl für einen Patentanspruch als Funktion der Wörterzahl im Patentanspruch definieren; Erhalten eines dritten Satzes von Regeln, die einen Gleichheits-Score für den Patentanspruch als Funktion der Häufigkeit definieren, mit der Wörter im Patentanspruch im Korpus der Patentansprüche vorhanden sind; Erzeugen des Wörterzahl-Scores und des Gleichheits-Scores für den Patentanspruch durch Bewerten des Patentanspruchs gegen das zweite Regelwerk und das dritte Regelwerk; Erzeugen eines Anspruchsbreiten-Scores für den Patentanspruch, der wenigstens teilweise auf dem Wörterzahl-Score, dem Gleichheits-Score und dem mit der Gerichtsbarkeit verbundenen materiellen Recht basiert; und Anwenden des Anspruchsbreiten-Scores auf den Patentanspruch, um eine Rangfolge in Bezug auf eine Vielzahl anderer Patentansprüche aus dem Korpus der Patentansprüche zu erstellen.
  7. Verfahren nach Anspruch 6, wobei die Gerichtsbarkeit, in der der Patentanspruch erhoben wurde, China umfasst, und das Bestimmen des materiellen Rechts das Bestimmen umfasst, Wörter einer Präambel des Patentanspruchs in die Wörterzahl in den Patentanspruch aufzunehmen.
  8. Verfahren nach Anspruch 6, wobei die Gerichtsbarkeit, in der der Patentanspruch erhoben wurde, die Vereinigten Staaten von Amerika umfasst, und das Bestimmen des materiellen Rechts das Bestimmen umfasst, um Wörter einer Präambel des Patentanspruchs in der Wörterzahl im Patentanspruch auszuschließen.
  9. Verfahren nach Anspruch 6, wobei der zweite Regelsatz eine zweite Regel umfasst, die den Wörterzahl-Score basierend auf einer Anzahl von Wörtern im Patentanspruch nach der Vorverarbeitung definiert, wobei die Vorverarbeitung das Einstammen, Entfernen von doppelten Wörtern und das Entfernen von Stoppwörtern umfasst.
  10. Eine oder mehrere Rechenvorrichtungen zum automatischen Analysieren eines Korpus von Patentdokumenten, wobei die eine oder die mehreren Rechenvorrichtungen umfassen: eine oder mehrere Verarbeitungseinheiten; einen oder mehrere Speicher, die mit einer oder mehreren Verarbeitungseinheiten gekoppelt sind; ein Vorverarbeitungsmodul, das mit einer oder mehreren Verarbeitungseinheiten gekoppelt ist und konfiguriert ist zum: für einen ersten Punkt in der Bearbeitung für einen ersten Abschnitt des Korpus von Patentdokumenten: Bearbeiten von Abschnitten von Ansprüchen des ersten Abschnitts des Korpus von Patentdokumenten, Abgrenzen einzelner Ansprüche, Einstammen von Wörtern in den einzelnen Ansprüchen auf Stammformen, Entfernen doppelter Stammformen aus den einzelnen Ansprüchen und Entfernen von Stoppwörtern aus den einzelnen Ansprüchen; und für einen zweiten Punkt in der Bearbeitung für den ersten Teil des Korpus von Patentdokumenten: Bearbeiten der Anspruchsabschnitte des ersten Teils des Korpus von Patentdokumenten, Abgrenzen einzelner Ansprüche, Einstammen Wörter in den einzelnen Ansprüchen auf Stammformen, Entfernen von doppelten Stammformen aus den einzelnen Ansprüchen und Entfernen von Stoppwörtern aus den einzelnen Ansprüchen, ein Anomalie-Erkennungsmodul, das mit einer oder mehreren Verarbeitungseinheiten gekoppelt und konfiguriert ist zum: für den ersten Punkt in der Bearbeitung für den ersten Teil des Korpus von Patentdokumenten: Erkennen und Entfernen von abhängigen Ansprüchen und gelöschten Ansprüche aus den einzelnen Ansprüchen des ersten Teils des Korpus von Patentdokumenten; und für den zweiten Punkt in der Bearbeitung für den ersten Teil des Korpus der Patentdokumente: Erkennen und Entfernen von abhängigen Ansprüchen und gelöschten Ansprüchen aus den einzelnen Ansprüchen des ersten Teils des Korpus der Patentdokumente; und ein Anspruchsbreitenberechnungsmodul, das mit einer oder mehreren Verarbeitungseinheiten gekoppelt ist und konfiguriert ist zum: Berechnen, für den ersten Punkt in der Bearbeitung, eines ersten Anspruchsbreiten-Scores für jeden einzelnen Anspruch des ersten Abschnitts des Korpus von Patentdokumenten, die nicht entfernt werden, wobei der ersten Anspruchsbreiten-Score auf einem Wörterzahl-Score eines Anspruchs und einem Gleichheits-Score des Anspruchs basiert; und Berechnen, für den zweiten Punkt in der Bearbeitung, eines zweiten Anspruchsbreiten-Scores für jeden einzelnen Anspruch des ersten Abschnitts des Korpus von Patentdokumenten, die nicht entfernt werden, wobei der zweite Anspruchsbreiten-Score auf einem Wörterzahl-Score eines Anspruchs und einem Gleichheits-Score des Anspruchs basiert.
  11. Eine oder mehrere Rechenvorrichtungen nach Anspruch 10, wobei: der erste Punkt in der Bearbeitung ein erstes Mal umfasst, bevor Änderungen an den einzelnen Ansprüchen des ersten Teils des Korpus von Patentdokumenten vorgenommen werden; und der zweite Punkt in der Bearbeitung ein zweites Mal umfasst, das mit einer Mitteilung über die Genehmigung der einzelnen Ansprüche des ersten Teils des Korpus von Patentdokumenten verbunden ist.
  12. Eine oder mehrere Rechenvorrichtungen nach Anspruch 11, wobei das Anspruchsbreitenberechnungsmodul des Weiteren konfiguriert ist, um eine durchschnittliche Änderung des Anspruchsbreiten-Scores zwischen den ersten Anspruchsbreiten-Scores und den zweiten Anspruchsbreiten-Scores für die einzelnen Ansprüche des ersten Teils des Korpus von Patentdokumenten zu bestimmen.
  13. Eine oder mehrere Rechenvorrichtungen nach Anspruch 12, wobei: der erste Abschnitt des Korpus von Patentdokumenten Erfindungspatenten entspricht; ein zweiter Teil des Korpus der Patentdokumente Gebrauchsmustern entspricht; und das Anspruchsbreitenmodul des Weiteren konfiguriert ist, um einen dritten Anspruchsbreiten-Score für individuelle Ansprüche im zweiten Teil des Korpus von Patentdokumenten zu bestimmen, der wenigstens teilweise auf der durchschnittlichen Änderung der Anspruchsbreiten-Scores zwischen den ersten Anspruchsbreiten-Scores und den zweiten Anspruchsbreiten-Scores für die individuellen Ansprüche des ersten Teils des Korpus von Patentdokumenten basiert.
  14. Eine oder mehrere Rechenvorrichtungen nach Anspruch 13, wobei jedem Patent der Korpus von Patentdokumenten einer gemeinsamen Klassifizierung zugeordnet ist, wobei die gemeinsame Klassifizierung wenigstens eines umfasst von: einer Gerichtsbarkeit; einer Technologieklassifizierung; einem Bevollmächtigten; einem Anmelder; oder einem Erfinder.
  15. Eine oder mehrere Rechenvorrichtungen nach Anspruch 10, wobei das Anspruchsbreitenberechnungsmodul ein Wörterzahl-Berechnungsmodul umfasst, das konfiguriert ist, um eine Wörterzahl für jeden der einzelnen Ansprüche basierend auf einer Wörterzahl für jeden der einzelnen Ansprüche und einer maximalen Wörterzahl für einen Anspruch aus dem Korpus von Patentdokumenten mit einer höchsten Wörterzahl zu bestimmen.
DE112018001165.8T 2017-03-06 2018-03-01 Automatisierte dokumentenanalyse für unterschiedliche natürliche sprachen Pending DE112018001165T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/451,138 2017-03-06
US15/451,138 US10366461B2 (en) 2017-03-06 2017-03-06 Automated document analysis for varying natural languages
PCT/US2018/020382 WO2018164926A1 (en) 2017-03-06 2018-03-01 Automated document analysis for varying natural languages

Publications (1)

Publication Number Publication Date
DE112018001165T5 true DE112018001165T5 (de) 2019-11-14

Family

ID=63357374

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018001165.8T Pending DE112018001165T5 (de) 2017-03-06 2018-03-01 Automatisierte dokumentenanalyse für unterschiedliche natürliche sprachen

Country Status (5)

Country Link
US (3) US10366461B2 (de)
CN (1) CN110741376B (de)
DE (1) DE112018001165T5 (de)
GB (1) GB2574542A (de)
WO (1) WO2018164926A1 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6865183B2 (ja) * 2018-02-26 2021-04-28 日本電信電話株式会社 要約評価装置、方法、プログラム、及び記憶媒体
US11194956B2 (en) * 2018-04-30 2021-12-07 Patent Bots LLC Offline interactive natural language processing results
US11149649B2 (en) 2018-08-17 2021-10-19 Raytheon Technologies Corporation Hybrid gas turbine engine system powered warm-up
JP7211139B2 (ja) * 2019-02-14 2023-01-24 日本電信電話株式会社 校閲方法、情報処理装置および校閲プログラム
US11854706B2 (en) * 2019-10-20 2023-12-26 Cognitivecare Inc. Maternal and infant health insights and cognitive intelligence (MIHIC) system and score to predict the risk of maternal, fetal and infant morbidity and mortality
US11132698B1 (en) 2020-04-10 2021-09-28 Grant Thornton Llp System and methods for general ledger flagging
US20230087206A1 (en) * 2021-09-17 2023-03-23 Aon Risk Services, Inc. Of Maryland Intellectual-property analysis platform
US20230086930A1 (en) * 2021-09-17 2023-03-23 Aon Risk Services, Inc. Of Maryland Intellectual-property analysis platform

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8095581B2 (en) * 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
US7503000B1 (en) * 2000-07-31 2009-03-10 International Business Machines Corporation Method for generation of an N-word phrase dictionary from a text corpus
US6944612B2 (en) * 2002-11-13 2005-09-13 Xerox Corporation Structured contextual clustering method and system in a federated search engine
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
US20050120011A1 (en) 2003-11-26 2005-06-02 Word Data Corp. Code, method, and system for manipulating texts
KR101035197B1 (ko) * 2005-05-26 2011-05-18 샤프 가부시키가이샤 특허 정보 분석 장치, 특허 정보 분석 방법, 및 특허 정보 분석 프로그램을 기록하고 있는 컴퓨터 판독 가능한 기록 매체
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US7734623B2 (en) * 2006-11-07 2010-06-08 Cycorp, Inc. Semantics-based method and apparatus for document analysis
US20090228777A1 (en) * 2007-08-17 2009-09-10 Accupatent, Inc. System and Method for Search
US8082248B2 (en) * 2008-05-29 2011-12-20 Rania Abouyounes Method and system for document classification based on document structure and written style
US8060513B2 (en) * 2008-07-01 2011-11-15 Dossierview Inc. Information processing with integrated semantic contexts
US8392175B2 (en) * 2010-02-01 2013-03-05 Stratify, Inc. Phrase-based document clustering with automatic phrase extraction
US20130282599A1 (en) * 2010-11-02 2013-10-24 Kwanggaeto Co., Ltd. Method of generating patent evaluation model, method of evaluating patent, method of generating patent dispute prediction model, method of generating patent dispute prediction information, and method and system for generating patent risk hedging information
US8316030B2 (en) 2010-11-05 2012-11-20 Nextgen Datacom, Inc. Method and system for document classification or search using discrete words
JP5389130B2 (ja) * 2011-09-15 2014-01-15 株式会社東芝 文書分類装置、方法およびプログラム
US20130110839A1 (en) 2011-10-31 2013-05-02 Evan R. Kirshenbaum Constructing an analysis of a document
US9507867B2 (en) * 2012-04-06 2016-11-29 Enlyton Inc. Discovery engine
US9087044B2 (en) * 2012-08-30 2015-07-21 Wal-Mart Stores, Inc. Establishing “is a” relationships for a taxonomy
US9727371B2 (en) * 2013-11-22 2017-08-08 Decooda International, Inc. Emotion processing systems and methods
EP3007080A1 (de) * 2014-10-06 2016-04-13 Fujitsu Limited Dokumenteinstufungsvorrichtung, -verfahren und Computerprogramm
US9979748B2 (en) * 2015-05-27 2018-05-22 Cisco Technology, Inc. Domain classification and routing using lexical and semantic processing
US20180032608A1 (en) * 2016-07-27 2018-02-01 Linkedin Corporation Flexible summarization of textual content
US10755045B2 (en) * 2017-03-03 2020-08-25 Aon Risk Services, Inc. Of Maryland Automatic human-emulative document analysis enhancements

Also Published As

Publication number Publication date
CN110741376A (zh) 2020-01-31
GB201913243D0 (en) 2019-10-30
US20180253810A1 (en) 2018-09-06
WO2018164926A1 (en) 2018-09-13
CN110741376B (zh) 2024-03-15
US11734782B2 (en) 2023-08-22
US20220343445A1 (en) 2022-10-27
US10366461B2 (en) 2019-07-30
GB2574542A (en) 2019-12-11
US11263714B1 (en) 2022-03-01

Similar Documents

Publication Publication Date Title
DE112018001165T5 (de) Automatisierte dokumentenanalyse für unterschiedliche natürliche sprachen
DE112018002047T5 (de) Dokumentenanalyse mit mehreren faktoren
DE69631457T2 (de) Vorrichtung und verfahren zum übertragbaren indexieren von dokumenten gemäss einer n-gram-wortzerlegung
US10755045B2 (en) Automatic human-emulative document analysis enhancements
DE112018000334T5 (de) System und Verfahren zur domänenunabhängigen Aspektebenen-Stimmungserkennung
DE69432575T2 (de) Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE102013205737A1 (de) System und Verfahren zum automatischen Erkennen und interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignisse aus multimodalen natürlichen Sprachquellen
US20090259670A1 (en) Apparatus and Method for Conditioning Semi-Structured Text for use as a Structured Data Source
DE112018005616T5 (de) Blockweise extraktion von dokumentmetadaten
DE102018007165A1 (de) Vorhersage von stilbrüchen innerhalb eines textinhalts
DE60118399T2 (de) System und verfahren zur automatischen aufbereitung und suche von abgetasteten dokumenten
US20180253486A1 (en) Aggregating Procedures for Automatic Document Analysis
Fagan Big Data Legal Scholarship: Toward a Research Program and Practitionaer's Guide
DE2513566A1 (de) Binaere referenzmatrix
WO2018122269A1 (de) Bitsequenzbasiertes datenklassifikationssystem
US20230376900A1 (en) Financial documents examination methods and systems
Romanov et al. Research of neural networks application efficiency in automatic scientific articles classification according to UDC
Rajeswari et al. Development and customization of in-house developed OCR and its evaluation
DE202023105413U1 (de) System zur automatisierten Texterzeugung mit Fehlerkorrektur
DE102009042659A1 (de) Verfahren zur automatisierten Katalogisierung von digitalen Rasterdaten mit räumlichem Bezug
DE102016217191A1 (de) Verfahren zum Auswählen und Bewerten von einer Vielzahl von Datensätzen aus zumindest einer Datenquelle
Böschen Analyse von statistischen Qualitätsindikatoren psychologischer Studien der Jahre 2010–2021 mit dem R-Paket JATSdecoder
DE102022128157A1 (de) Computerimplementiertes Verfahren zur Standardisierung von Teilenamen
WO2022192771A1 (en) Text mining method for trend identification and research connection

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017270000

Ipc: G06F0040200000