DE102019122223A1 - System und Verfahren zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information aus einem eine Ausschreibung oder eine Anfrage betreffenden Dokument - Google Patents

System und Verfahren zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information aus einem eine Ausschreibung oder eine Anfrage betreffenden Dokument Download PDF

Info

Publication number
DE102019122223A1
DE102019122223A1 DE102019122223.0A DE102019122223A DE102019122223A1 DE 102019122223 A1 DE102019122223 A1 DE 102019122223A1 DE 102019122223 A DE102019122223 A DE 102019122223A DE 102019122223 A1 DE102019122223 A1 DE 102019122223A1
Authority
DE
Germany
Prior art keywords
document
digital
machine
keyword
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019122223.0A
Other languages
English (en)
Inventor
Andreas Buchenscheit
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cortex Media GmbH
Original Assignee
Cortex Media GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cortex Media GmbH filed Critical Cortex Media GmbH
Priority to DE102019122223.0A priority Critical patent/DE102019122223A1/de
Publication of DE102019122223A1 publication Critical patent/DE102019122223A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/08Auctions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Abstract

Die Erfindung betrifft ein Verfahren und ein System (100) zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information aus einem eine Ausschreibung oder eine Anfrage betreffenden Dokument, mit einem Netzwerk (103), mit einem einem Anbieterrechner (101) zugeordneten Sende- und/oder Empfangsmodul (102), und mit einem einem Auswerterechner (104) zugeordneten Sende- und/oder Empfangsmodul (105), das ausgebildet ist, digitale Dokumente (200, 202) über das Netzwerk (103) zum Abruf durch den Anbieterrechner (101) bereitzustellen oder solche über das Netzwerk (103) zu empfangen, wobei der Auswerterechner (104) ein Typisierungsmodul (106), ein Texterkennungsmodul (107), ein Durchsuchungsmodul (108) und ein Ausgabemodul (110) aufweist. Die Erfindung betrifft außerdem ein Computerprogramm, welches das erfindungsgemäße Verfahren implementiert.

Description

  • Die Erfindung betrifft ein System und ein Verfahren zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information/en aus einem eine Ausschreibung oder eine Anfrage betreffenden, insbesondere umfangreichen, Dokument. Die Erfindung betrifft außerdem ein Computerprogramm, das dieses Verfahren implementiert.
  • In vielen Branchen ist es üblich, Anfragen an eine Vielzahl von Anbietern zu senden, um aus mehreren Angeboten das Günstigste auswählen zu können. Weiterhin ist es bekannt, insbesondere bei der Auftragsvergabe durch öffentliche Einrichtungen, dass Projekte im Rahmen einer Ausschreibung bekannt gemacht werden, auf die sich ein Anbieter dann bewerben oder ein entsprechendes Angebot unterbreiten kann. Solche Anfragedokumente oder Ausschreibungsdokumente sind dabei in Abhängigkeit des Projekts sehr umfangreich. Ein umfangreiches Dokument umfasst beispielsweise mehr als zehn Seiten. Gerade bei Großprojekten ist daher für die Anbieter von nur einzelnen Gewerken zumeist nur ein Bruchteil der in der Ausschreibung oder der Anfrage enthaltenen Seiten relevant, wobei es sehr aufwendig ist, das gesamte Dokument nach den relevanten Textstellen oder Ausschreibungsbereichen zu durchsuchen. Eine computerunterstützte Suche nach den relevanten Seiten einer Ausschreibung oder einer Anfrage ist dabei noch immer sehr fehlerbehaftet, da die Dokumente entweder nicht digital vorliegen, oder - wenn sie digital vorliegen - nicht textbasiert sind und daher nicht durchsucht werden können. Zugleich sind die nicht durchsuchbaren Dokumente aufgrund ihres Rasterformats oftmals nicht von ausreichender Qualität. Zusätzlich ist es für die Anbieter aufgrund der vielfältigen Gestaltung der Anfragen oder der Ausschreibungen schwierig, schnell die für sie relevanten Informationen aufzufinden.
  • Es ist daher die Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Informationen aus einem eine Ausschreibung oder eine Anfrage betreffenden umfangreichen Dokument bereitzustellen, die wenigstens einem der vorstehend erwähnten Nachteilen Rechnung tragen. Es ist außerdem Aufgabe der vorliegenden Erfindung, ein entsprechendes Computerprogramm bereitzustellen.
  • Diese Aufgabe wird gelöst mit einem System mit den Merkmalen des Anspruchs 1, mit einem Verfahren mit den Merkmalen des Anspruchs 7 sowie mit einem Computerprogramm mit den Merkmalen des Anspruchs 10. Vorteilhafte Ausgestaltungen mit zweckmäßigen Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen angegeben.
  • Das erfindungsgemäße System ist insbesondere ausgestattet mit einem Netzwerk, das ausgebildet ist, einen Auswerterechner mit mindestens einem Anbieterrechner für den Austausch digitaler Dokumente zumindest zeitweise zu verbinden. Das System umfasst ein dem Anbieterrechner zugeordnetes Sende- und/oder Empfangsmodul, das ausgebildet ist, digitale Dokumente über das Netzwerk an den Auswerterechner zu senden oder solche über das Netzwerk vom Auswerterechner abzurufen. Zusätzlich ist ein dem Auswerterechner zugeordnetes Sende- und/oder Empfangsmodul vorhanden, das ausgebildet ist, digitale Dokumente über das Netzwerk zum Abruf durch den Anbieterrechner bereitzustellen oder solche über das Netzwerk zu empfangen. Der Auswerterechner weist insbesondere auf:
    • - ein Typisierungsmodul, das ausgebildet ist, ein ihm übergebenes digitales Dokument als maschinenlesbares Dokument oder maschinenunlesbares Dokument zu typisieren,
    • - ein Texterkennungsmodul, das ausgebildet ist, in einem zuvor als maschinenunlesbar typisiertes digitales Dokument vorhandene Buchstaben zu detektieren und somit aus dem maschinenunlesbaren Dokument ein maschinenlesbares digitales Dokument zu erzeugen,
    • - ein Durchsuchungsmodul, das ausgebildet ist, das maschinenlesbare digitale Dokument nach mindestens einem Stichwort und/oder nach mindestens einer aufgrund eines regulären Ausdrucks generierten Stichwortabwandlung zu durchsuchen, wobei das mindestens eine Stichwort und/oder der mindestens eine reguläre Ausdruck in einer Datenbank des Auswerterechners hinterlegt sind, sowie
    • - ein Ausgabemodul, das ausgebildet ist, ein digitales Ausgabedokument zu erzeugen, in welchem das mindestens eine aufgefundene Stichwort und/oder die mindestens eine aufgefundene Stichwortanwandlung hervorgehoben und/oder gekennzeichnet ist.
  • Mit dem System ist der Vorteil verbunden, dass eine Anfrage oder eine Ausschreibung automatisiert nach den für eine Angebotsabgabe relevanten Informationen durchsuchbar ist, wobei vorzugsweise das Ausgabedokument dem ursprünglich an den Auswerterechner übergebenen digitalen Dokument entspricht, aber um Kommentierungen oder Hervorhebungen an denjenigen Stellen ergänzt ist, an denen sich das aufgefundene Stichwort oder an denen sich die aufgrund des Einsatzes des regulären Ausdrucks entstandene Stichwortabwandlung vorhanden sind.
  • Als Anbieterrechner ist derjenige Computer oder derjenige Konstituent des Systems zu verstehen, welcher von dem Benutzer bedienbar ist, der an einer Ausschreibung teilnehmen oder auf die Anfrage durch Abgabe eines Angebots reagieren möchte. Der Anbieterrechner kann aber auch als Server agieren, der dann nicht zwingend von einem menschlichen Bediener zu bedienen ist, sondern auch automatisiert arbeiten kann. Als Auswerterechner ist derjenige Computer oder derjenige Konstituent des Systems zu verstehen, der ein die Ausschreibung oder die Anfrage betreffendes Dokument verarbeitet, durchsucht und aufbereitet, um schnell die für den Benutzer relevanten Informationen zur Angebotsabgabe bereitzustellen.
  • Zwischen dem Anbieterrechner und dem Auswerterechner sind durch den Einsatz des Netzwerkes die verschiedensten Kommunikationsmöglichkeiten gegeben. So ist es möglich, dass zwischen dem Auswerterechner und dem Anbieterrechner eine Server-Client-Kommunikationsverbindung zumindest zeitweise wirksam ist. In diesem Falle wäre beispielsweise der Auswerterechner als ein Server, insbesondere als ein Application-Server, gebildet, der mit einem Sende- und Empfangsmodul ausgestattet ist, um von einem Konstituenten des Systems ein digitales Dokument zu empfangen und das dann verarbeitete Ausgabedokument zu versenden. Der Anbieterrechner ist dabei beispielsweise als ein Client ausgebildet, der dabei auch nur mit einem Empfangsmodul ausgestattet sein kann, um das Ausgabedokument zu empfangen. Ferner ist es möglich, dass sowohl der Auswerterechner als auch der Anbieterrechner in einer Server-Server-Kommunikationsverbindung stehen, beispielsweise nämlich dann, wenn der Anbieterrechner selbst ein entsprechendes Dokumentenmanagement zur Verwaltung und Speicherung digitaler Dokumente aufweist, auf das der Auswerterechner Zugriff hat. Beispielsweise kann der Austausch von digitalen Dokumenten und/oder von Ausgabedokumenten über das Netzwerk mittels E-Mail erfolgen, so dass entweder beim Auswerterechner selbst oder auch im Netzwerk ein Mailserver vorhanden ist, um entsprechende eingehende Anfragen oder Ausschreibungen dem Auswerterechner bereitzustellen. Es ist auch die Möglichkeit eröffnet, dass der Auswerterechner ein Portal für den Upload digitaler Dokumente bereitstellt, um anschließend das digitale Dokument zu verarbeiten und dann das Ausgabedokument für einen Download bereitzustellen. Alternativ oder ergänzend können viele weitere Schnittstellen (bspw. TCP/IP, UDP, IMAP, HTTP, HTTPs, FTP, FTPs, scp, ssh, XML etc.) vorhanden sein, die einen Transport des digitalen Dokuments über das Netzwerk erlauben. Mit Hilfe des Netzwerks ist außerdem eine Anbindung an ein Dokumentenmanagementsystem, insbesondere auch von Drittrechnern, möglich.
  • Es besteht aber auch die Möglichkeit, dass das, insbesondere umfangreiche Dokument als ein physikalisches oder digitales Fax-Dokument oder als ein postalisch übersendetes physikalisches Dokument, beispielsweise in Papierform, vorliegt. Für solche Fälle verfügt das System vorzugsweise über eine entsprechende Scaneinrichtung, um aus dem physikalischen Dokument ein digitales Dokument zu erzeugen. Dabei kann die Scaneinrichtung einerseits bereits selbsttätig eine entsprechende Buchstabenerkennung durchführen, so dass dem Auswerterechner also ein maschinenlesbares Dokument zur Verfügung gestellt werden kann. Sollte die Scaneinrichtung demgegenüber lediglich bildbasierte digitale Dokumente erzeugen können, so sieht das erfindungsgemäße System die entsprechende Texterkennung erst in seinem Texterkennungsmodul des Auswerterechners vor, um anschließend ein maschinenlesbares digitales Dokument zu erzeugen.
  • Es hat sich als vorteilhaft herausgestellt, wenn das Ausgabedokument ein gegenüber dem maschinenlesbaren digitalen Dokument in Größe reduziertes Extraktionsdokument ist, in welchem zumindest diejenigen Seiten enthalten sind, auf denen das mindestens eine aufgefundene Stichwort und/oder die mindestens eine aufgefundene Stichwortabwandlung enthalten ist. Somit muss also ein Anbieter nicht mehr das ursprüngliche, gesamte Dokument durchsehen, um zur relevanten Textstelle zu gelangen, da nur noch diejenigen Seiten bereitgestellt werden, auf denen sich die relevanten Informationen befinden. Zusätzlich lässt sich durch eine solche Reduzierung und Bereitstellung des Extraktionsdokuments der Speicherbedarf verringern.
  • Es hat sich als sinnvoll erwiesen, wenn als maschinenlesbares elektronisches Dokument ein Dokument im portablen Dokumentenformat verwendet wird, welches textbasiert und damit durchsuchbar ist (sogenanntes „true PDF“). Im Allgemeinen versteht man unter „Portable Dokument Format“ (PDF) ein Dateiformat, das von Adobe Systems Inc. entwickelt wurde und das es erlaubt, dass in PDF formatierte Dokumente zur online-Betrachtung zum Beispiel unter Verwendung eines Computerbildschirms in der gleichen Weise abgerufen werden können, wie Ausdrucke der Dokumente offline betrachtet werden könnten. Zum Beispiel können PDF-Dokumente je nach den bestimmten Bedürfnissen des Benutzers Seite für Seite betrachtet oder auch online gerollt bzw. gescrollt werden. Der Inhalt des PDF-Dokuments kann dabei alternativ lediglich aus Bildern bestehen oder in Bildform vorliegen (sogenanntes „Image-only Portable Document Format“), so dass es nicht text- oder vektor- sondern rasterbasiert gebildet ist und deshalb ein maschinenunlesbares Dokument darstellt.
  • Als ein anderes oder weiteres maschinenlesbares Dokument könnte ein Dokument im Format der erweiterbaren Auszeichnungssprache (XML = „extensible markup language“) vorliegen. Dieses Dokumentenformat hat sich als ausgezeichnet maschinenlesbares elektronisches Format erwiesen. Insbesondere in der Baubranche existiert ein möglicher Vorschlag oder ein Standard für den Datenaustausch auf Basis solcher XML-Dokumente, wobei sich für eine effiziente Ausschreibung, eine effiziente Vergabe und eine effiziente Abrechnung von Bauleistungen das sogenannte GAEB-XML-Format (GAEB für „Gemeinsamer Ausschuss Elektronik im Bauwesen“) als nützlich erwiesen hat. Dieses ist ein für die Baubranche geeignetes Austausch-Format, um die relevanten Informationen für die Angebotsabgabe maschinell auszulesen. Es hat sich deshalb als sinnvoll für die Auswertung erwiesen, da bei einem digitalen Dokument im XML-Format keine einzelnen Seiten und somit auch keine Seitenumbrüche behandelt werden müssen und zugleich Abschnitte über die XML-Struktur eindeutig definiert sind.
  • Das Typisierungsmodul typisiert zunächst die am Auswerterechner eingelangten digitalen Dokumente anhand ihrer Dateiendung. Es kann aber der Fall eintreten, dass beispielsweise ein Dokument als XML-Dokument und damit als maschinenlesbar typisiert wurde, weil jemand eine „falsche“ Dateiendung für das digitale Dokument angegeben hat. Um diesem Problem zu begegnen, kann in einer Ausgestaltung eine nähere Vorab-Analyse des Inhalts des digitalen Dokuments erfolgen. So wird beispielsweise bei PDF-Dokumenten zunächst der Versuch unternommen, den Text des PDFs zu extrahieren. Hierbei können auch Metadaten hilfreich sein, um eine entsprechende Typisierung des PDFs vorzunehmen. Wird ein vorgegebener Schwellwert für die Anzahl der Buchstaben oder Zeichen im gesamten Dokument überschritten, so kann daraus darauf geschlossen werden, dass es sich um ein textbasiertes (true) PDF-Dokument handelt. Wird der Schwellwert nicht erreicht oder überschritten, so handelt es sich um ein bildbasiertes PDF-Dokument. Bei der Prüfung kann ein Wörterbuchabgleich helfen, zu prüfen, ob der Text des PDF-Dokuments als sinnvoll zu erachten ist, um es eindeutiger als maschinenlesbares, digitales Dokument zu klassifizieren.
  • Die vorstehend erläuterte Prüfung im Typisierungsmodul kann auch seitenweise erfolgen. So wird dann seitenweise geprüft, ob jeweils ein Schwellwert für die Zeichenanzahl oder für die Anzahl sinnvoller Worte überschritten ist, um ein Indiz für das Vorliegen oder Nicht-Vorliegen eines maschinenlesbaren Dokuments zu erhalten.
  • Das Typisierungsmodul ist vorzugsweise außerdem ausgebildet, die im PDF-Dokument enthaltenen Bilder einer Texterkennung zu unterziehen. Hierbei können die Anzahl an Buchstaben und/oder Zeichen ermittelt werden, die in den untersuchten Bildern vorliegen. Die Differenzbildung aus der Anzahl der Zeichen im Dokument vor dem Durchsuchen der Bilder und der Anzahl der im Dokument vorliegenden Zeichen zusammen mit der Anzahl der Zeichen in den Bildern bietet dabei ebenfalls einen Indikator dafür, ob es sich um ein maschinenlesbares Dokument oder um ein maschinenunlesbares Dokument handelt. Auch für diese Differenz kann ein entsprechender Schwellwert vorgegeben sein.
  • Die im PDF-Dokument enthaltenen Bilder können einerseits Text enthalten, also Textblöcke in Bildform sein, oder andererseits „richtige Bilder“ in Form von Grafiken, Logos, Fotos, Abbildungen, Illustrationen oder Skizzen, sein. Eine Texterkennung kann beispielsweise immer erfolgen, wobei nach der Erkennung auch festgestellt werden könnte, dass das PDF-Dokument lediglich Bilder ohne darin enthaltene Textblöcke aufweist. Es hat sich als effizient und ressourcenschonend erwiesen, wenn aber nur diejenigen Bilder einer Erkennung unterzogen werden, die Textblöcke in Bildform enthalten, um den darin enthaltenen Text zu extrahieren. Dabei bleiben beispielsweise diejenigen Bilder außer Betracht, die seitenweise an stets der gleichen Stelle mit denselben Pixeln ausgebildet oder angeordnet sind, so dass sich anhand dieser Information rückschließen lässt, dass es sich bei diesem Bild wohl um ein Logo oder um eine sich nicht verändernde Kopfzeile eines PDF-Dokuments handelt. Für die Bewertung kann ebenfalls ein Schwellwert für das Vorkommen eines solchen Bildes gesetzt sein.
  • Das Texterkennungsmodul ist vorzugsweise ausgebildet, bei maschinenunlesbaren (PDF-)Dokumenten ein maschinenlesbares Layer hinzuzufügen, um das nachfolgend zu durchsuchende maschinenlesbare digitale Dokument zu erzeugen. Um aber die Zeichenerkennung zusätzlich zu verbessern, hat es sich als vorteilhaft erwiesen, wenn das maschinenlesbare Dokument in Form des bildbasierten portablen Dokumentenformats vorliegt und wenn das Texterkennungsmodul in einer Bildoptimierungseinrichtung zur grafischen Vorab-Aufbereitung des im bildbasierten portablen Dokumentenformat vorliegenden Dokuments aufweist, die ihrerseits einer Einrichtung zur optischen Zeichenerkennung des Texterkennungsmoduls vorgeschaltet ist.
  • Die Bildoptimierungseinrichtung weist vorzugsweise eine Ausrichteinheit auf, um eine oder mehrere der Seiten des Dokuments durch eine Drehung auszurichten, so dass die nachfolgende Texterkennung zuverlässiger durchgeführt werden kann. Unter Drehung ist eine beliebige Drehung des Dokuments bzw. von Einzelseiten des Dokuments zwischen 0 Grad und 360 Grad zu verstehen, wobei die Einzelseiten des digitalen Dokuments häufig nur um maximal 10 Grad zu verdrehen sind, um einen schräg eingezogenes und deshalb „schräg“ gescanntes Dokument hinsichtlich seiner Ausrichtung zu korrigieren. Zusätzlich hat es sich als vorteilhaft herausgestellt, wenn die Bildoptimierungseinrichtung eine Kontrastschärfeeinheit aufweist, die ausgebildet ist, die vorhandenen Kontraste zu stärken und/oder zu schärfen, so dass auch dadurch die Zeichenerkennung in der Einrichtung zur optischen Zeichenerkennung zuverlässiger erfolgt.
  • Die Einrichtung zur optischen Zeichenerkennung (OCR = „Optical Character Recognition“) erfolgt dabei insbesondere wörterbuchbasiert. Die Einrichtung zur optischen Zeichenerkennung ist dabei ausgestaltet, zuerst die Sprache des digitalen Dokuments zu erkennen und dann das der erkannten Sprache entsprechende Wörterbuch für die Texterkennung auszuwählen. Bei der Zeichenerkennung erfolgt dann ein Abgleich mit den im gewählten Wörterbuch enthaltenen Wörtern, so dass eine verbesserte und effizientere Zeichenerkennung vorliegt.
  • In einer vorteilhaften Weitergestaltung ist der Einrichtung zur optischen Zeichenerkennung ein künstliches neuronales Netzwerk zugewiesen, das ausgebildet und derart trainiert ist, trotz einzelner unkenntlicher Buchstaben aus dem Kontext heraus das zutreffende Wort zu erkennen. Dieses künstliche neuronale Netzwerk weist dabei vorzugsweise eine rekurrente Verschaltung auf, um eine noch bessere Zeichenerkennung/Wörtererkennung zu bieten. In diesem Zusammenhang ist es von Vorteil, wenn das künstliche neuronale Netzwerk außerdem eine LTSM-Struktur (englisch „long-term short memory“ oder „langes Kurzzeitgedächtnis“) aufweist, so dass beim Training des künstlichen neuronalen Netzwerks auf eine größere Datenmenge zugegriffen werden kann oder zugreifen konnte, was zu einer noch besseren Texterkennung/Worterkennung beiträgt.
  • Es kann bei der optischen Zeichenerkennung der Fall eintreten, dass die Seiteninformation des digitalen Dokuments verloren geht, so dass später nicht mehr zuverlässig diejenigen Bereiche oder diejenigen Seiten angegeben werden können, in denen sich für eine Angebotsabgabe relevante Informationen befinden. Aus diesem Grunde ist es vorteilhaft, wenn der Bildoptimierungseinrichtung und der Einrichtung zur optischen Zeichenerkennung eine Vereinzelungs- und/oder Zusammenführungseinrichtung zwischengeschaltet ist, die eingerichtet ist, die Seiten des digitalen Dokuments der Einrichtung zur optischen Zeichenerkennung vereinzelt bereitzustellen oder vereinzelte Seiten wieder zu dem digitalen gesamten Dokument zusammenzuführen. Somit kann also die Einrichtung zur optischen Zeichenerkennung die Seiten des digitalen Dokuments seitenweise der Erkennungsprozedur unterziehen, wonach anschließend wieder das zusammengesetzte vollständige Dokument mit entsprechender Seiteninformation für die weitere Analyse bereitsteht.
  • Eine weitere wesentliche Kernkomponente des Systems bildet das Durchsuchungsmodul, das mit einer Datenbank zumindest zeitweise in Verbindung steht. In der Datenbank sind vorzugsweise mehrere Stichworte gespeichert. Vorzugsweise ist auch eine Mehrzahl an regulären Ausdrücken in der Datenbank gespeichert, so dass bei einer Suche auch Stichwortabwandlungen oder Varianten von Stichworten aufgefunden werden. Die Verwendung regulärer Ausdrücke bietet ein mächtiges Werkzeug zur zuverlässigen Erkennung von für eine Angebotsabgabe relevanter Informationen, worauf lediglich exemplarisch in der Figurenbeschreibung nochmals näher eingegangen wird. Das Durchsuchungsmodul ist vorzugsweise ausgestaltet, bei ursprünglich als maschinenunlesbar typisierten, dann aber maschinenlesbar gemachten digitalen Dokumenten, bei der Durchsuchung eine vorgegebene oder vorgebbare Hamming-Distanz bei der Auswertung der Zeichenketten zu berücksichtigen. Die Hamming-Distanz kann eins, zwei oder mehr als zwei betragen, wobei die Korrektur einzelner Zeichen in den Zeichenketten nach dem Wahrscheinlichkeitsprinzip erfolgt; ggfs. auch durch einen Abgleich mit Wörtern aus einem digitalen Wörterbuch. Es ist zudem die Möglichkeit eröffnet, die Hamming-Distanz bei als maschinenlesbar typisierten digitalen Dokumenten anzuwenden. Da die Fehler in solchen Dokumenten eher auf Tippfehler im ursprünglichen Dokument zurückgehen, damit also nicht auf etwaige Fehlerkennungen während der Texterkennung, ist es bevorzugt, dass die Durchsuchung mit Berücksichtigung der (Korrektur mit) Hamming-Distanz ausschließlich bei ursprünglich maschinenunlesbar typisierten digitalen Dokumenten erfolgt.
  • Für die Zwecke der vorliegenden Erfindung kann bei dem Einsatz des vorangehend erläuterten künstlichen neuronalen Netzwerks die Berechnung einer Hamming-Distanz entfallen. Umgekehrt ist es möglich, dass das künstliche neuronale Netzwerk entfällt aber die Hamming-Distanz berechnet wird. Zudem ist auch die Möglichkeit eröffnet sowohl das künstliche neuronale Netzwerk als auch die Berechnung der Hamming-Distanz einzusetzen oder zu verwenden.
  • Es ist sinnvoll, wenn das Durchsuchungsmodul oder das Texterkennungsmodul ausgebildet ist, Textabsätze oder Abschnitte oder Kapitel mit identifizierten Stichworten und/oder identifizierten Stichwortabwandlungen im digitalen Dokument zu erkennen, und wenn das Ausgabemodul ausgebildet ist, die Seiten des digitalen Dokuments mit dem mindestens einen vollständigen Textabsatz oder mit dem mindestens einen vollständigen Abschnitt oder Kapitel im Ausgabedokument auszugeben, in welchen das mindestens eine aufgefundene Stichwort und/oder die mindestens eine aufgefundene Stichwortabwandlung enthalten ist. Die Erkennung erfolgt dabei blockweise, indem beispielsweise nach Zahlen und hinter den Zahlen stehendem Text gesucht wird. Eine solche Struktur aus Zahl und Text ist typischerweise ein Indiz für den Beginn eines neuen Kapitels oder eines neuen Abschnitts, so dass das digitale Dokument in einer Vorabuntersuchung in einzelne Blöcke unterteilt werden kann. Wird ein Stichwort oder eine Stichwortabwandlung in einem Block aufgefunden, so wird - auch wenn ein Seitenumbruch vorliegt - der Block als solcher „am Stück“ belassen bei der Ausgabe. Mit anderen Worten wird durch das System gewährleistet, dass die ganzen Abschnittsblöcke und Kapitelblöcke auch über den Seitenumbruch hinweg beibehalten werden, so dass ein Anbieter alle relevanten Informationen im Zusammenhang mit dem aufgefundenen Stichwort oder der aufgefundenen Stichwortabwandlung im späteren Ausgabedokument oder Extraktionsdokument erhält, um anschließend sein Angebot erstellen und abgeben zu können.
  • Das System, insbesondere der Auswerterechner, kann auch ein dem Texterkennungsmodul parallel geschaltetes Dokumentengenerierungsmodul aufweisen, das beispielsweise aus einem maschinenlesbaren digitalen Dokument eines ersten Formates ein maschinenlesbares Dokument eines zweiten Formates erstellt. Somit könnte beispielsweise ein als XML-Datei erkanntes digitales Dokument durch das Dokumentengenerierungsmodul ebenfalls in ein (true) PDF-Dokument gewandelt werden, bevor es dem Durchsuchungsmodul zugeleitet wird. Die Umwandlung der XML-Datei in das PDF-Format ist von Vorteil, weil ein Bearbeiter in der Ausschreibung oder in der Anfrage aufgrund der mit Auszeichnungen von Textteilen gebildeten Struktur des XML-Dokuments nur sehr aufwändig die für ihn relevanten Informationen identifizieren kann. Durch die Umwandlung in ein PDF-Dokument wird für den Bearbeiter die Lesbarkeit des Inhalts des ursprünglichen XML-Dokuments verbessert oder sogar überhaupt erst geschaffen.
  • Das Verfahren zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information aus einem eine Ausschreibung oder eine Anfrage betreffenden umfangreichen Dokument umfasst insbesondere die folgenden Schritte:
    • - Bereitstellen eines digitalen Dokuments an einen Computer oder an einen Auswerterechner;
    • - Typisieren des digitalen Dokuments mittels eines Typisierungsmoduls dahingehend, ob es sich beim digitalen Dokument um ein maschinenlesbares Dokument oder um ein maschinenunlesbares Dokument handelt;
    • - Erstellen eines maschinenlesbaren digitalen Dokuments mittels eines Texterkennungsmoduls, wenn das Dokument zuvor als maschinenunlesbar typisiert wurde;
    • - Durchsuchen des maschinenlesbaren Dokuments mittels eines Durchsuchungsmoduls nach mindestens einem für die Angebotsangabe relevanten Stichwort und/oder nach mindestens einer aufgrund eines regulären Ausdrucks generierten Stichwortabwandlung, wobei das mindestens eine Stichwort und/oder der mindestens eine reguläre Ausdruck in einer Datenbank des Auswerterechners hinterlegt ist;
    • - mittels eines Ausgabemoduls Erzeugen eines digitalen Ausgabedokuments, in welchem das mindestens eine aufgefundene Stichwort und/oder die mindestens eine aufgefundene Stichwortabwandlung hervorgehoben und/oder gekennzeichnet ist; und
    • - Bereitstellen oder Ausgeben des Ausgabedokuments durch den Computer oder den Auswerterechner.
  • Die in Verbindung mit dem System erwähnten Vorteile und vorteilhaften Ausgestaltungen gelten gleichermaßen für das erfindungsgemäße Verfahren, das sich durch ein vereinfachtes Auffinden der für die Angebotsabgabe relevanten Informationen auszeichnet.
  • Da die einzelnen Verfahrensschritte computerimplementiert durchgeführt werden, kann es einerseits in einer nativen Lösung, d.h. ohne Anbindung an ein Netzwerk, durchgeführt werden; es kann andererseits in Form einer E-Mail-Lösung, einer Server-Server-Lösung oder als eine Portallösung mit einer in einem Netzwerk vorliegenden Client-Server-Struktur ausgestaltet und durchgeführt werden. Die unterschiedlichen Kommunikationsmöglichkeiten sind vorangehend bereits erörtert worden.
  • Häufig liegt das maschinenunlesbare Dokument in einem bildbasierten portablen Dokumentenformat vor, weshalb es von Vorteil ist, wenn das Texterkennungsmodul eine Bildoptimierungseinrichtung umfasst, um das in dem bildbasierten portablen Dokumentenformat vorliegende Dokument vorab grafisch aufzubereiten, wobei die Bildoptimierungseinrichtung eine Ausrichteinheit aufweist, die eine oder mehrere der Seiten des Dokuments mittels einer Drehung ausrichtet, wobei die Bildoptimierungseinrichtung außerdem eine Kontrastschärfeeinheit aufweist, die die vorhandenen Kontraste stärkt und/oder schärft. Die Drehung kann dabei nur ein paar wenige Grad betragen; beispielsweise höchstens 10 Grad. Das Texterkennungsmodul umfasst ferner eine Einrichtung zur optischen Zeichenerkennung, die die Buchstaben des vorab grafisch aufbereiteten Dokuments, insbesondere wörterbuchbasiert und insbesondere unter Zuhilfenahme eines künstlichen neuronalen Netzes erkennt, wobei dem maschinenunlesbaren digitalen Dokument ein maschinenlesbares Layer hinzugeführt wird, um aus dem maschinenunlesbaren digitalen Dokument ein maschinenlesbares digitales Dokument zu erzeugen. Das maschinenlesbare Layer kann von einem Benutzer typischerweise zwar markiert werden, es bleibt aber für ihn unsichtbar. Mit anderen Worten ist das maschinenlesbare Layer ein über das Bild gelegter Text mit unsichtbar dargestellter Schriftfarbe.
  • Mit diesen Verfahrensschritten können spätere Komplikationen bei der Texterkennung reduziert werden, die beispielsweise aufgrund mangelhafter Auflösung des maschinenunlesbaren Dokuments, aufgrund zu geringer Bittiefe, aufgrund eines schrägen Einzugs beim Scanvorgang, aufgrund mangelhafter Kontraste oder aufgrund von rauschendem Hintergrund entstehen. Solche Komplikationen lassen unerwünscht Fehlerkennungen entstehen.
  • Das Verfahren weist zudem den Vorteil auf, dass die Seiten des digitalen Dokuments vor der optischen Zeichenerkennung mittels einer Vereinzelungs- und/oder Zusammenführungseinrichtung vereinzelt werden, wobei vorzugsweise die vereinzelten Seiten nach der Zeichenerkennung mittels der Vereinzelungs- und/oder Zusammenführungseinrichtung wieder zu einem vollständigen maschinenlesbaren digitalen Dokument zusammengeführt werden. Damit ist der Vorteil verbunden, dass bei der optischen Zeichenerkennung die Information der Seiten nicht verloren geht, da diese durch die Vereinzelungs- und/oder Zusammenführungseinrichtung beibehalten werden können.
  • Das erfindungsgemäße Computerprogramm weist die gleichen Vorteile und vorteilhaften Ausgestaltungen wie das erfindungsgemäße Verfahren und das erfindungsgemäße System auf. Es hat sich als besonders vorteilhaft erwiesen, wenn es in einen digitalen Speicher eines Computers geladen ist und das entsprechende Verfahren implementiert.
  • Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung genannten und/oder in den Figuren alleine gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar, ohne den Rahmen der Erfindung zu verlassen. Es sind somit auch Ausführungen als von der Erfindung umfasst und offenbart anzusehen, die in den Figuren nicht explizit gezeigt oder erläutert sind, jedoch durch separierte Merkmalskombinationen aus den erläuterten Ausführungen hervorgehen und erzeugbar sind.
  • Weitere Vorteile, Merkmale und Einzelheiten der Erfindung ergeben sich aus den Ansprüchen, der nachfolgenden Beschreibung bevorzugter Ausführungsformen sowie anhand der Zeichnungen. Dabei zeigen:
    • 1 ein schematisch dargestelltes System zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Informationen aus einem eine Ausschreibung oder eine Anfrage betreffenden Dokument;
    • 2 ein zweites schematisch dargestelltes System, wobei ein Ausschreibungsrechner gezeigt ist und wobei der Auswerterechner zusätzlich ein Dokumentengenerierungsmodul aufweist;
    • 3 eine schematische Detailansicht des Texterkennungsmoduls,
    • 4 eine beispielhafte Datenbank des Auswerterechners mit beispielhaften Stichworten und beispielhaften regulären Ausdrücken, und
    • 5 eine schematische Darstellung des Verfahrensablaufs.
  • In den 1 und 2 ist ein System 100 zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Informationen aus einem eine Ausschreibung oder eine Anfrage betreffenden umfangreichen Dokument gezeigt. Hierbei ist mittels eines Netzwerks 103 ein Auswerterechner 104 mit mindestens einem Anbieterrechner 101 für den Austausch digitaler Dokumente 200, 201, 202 zumindest zeitweise verbunden, wobei auch eine Mehrzahl an Anbieterrechnern 101 vorhanden sein können (ein weiterer ist vorliegend gestrichelt dargestellt), um sich über das Netzwerk 103 mit dem insbesondere als dedizierten Server ausgestalteten Auswerterechner 104 zu verbinden. Jeder Anbieterrechner 101 weist ein Sende- und/oder Empfangsmodul 102 auf, das ausgebildet ist, digitale Dokumente 200 über das Netzwerk 103 an den Auswerterechner 104 zu senden und/oder solche über das Netzwerk 103 abzurufen. Auch der Auswerterechner 104 weist ein Sende- und/oder Empfangsmodul 105 auf, das ausgebildet ist, die digitalen Dokumente 200, 202 über das Netzwerk 103 zum Abruf durch einen der Anbieterrechner 101 bereitzustellen und/oder solche über das Netzwerk 103 zu empfangen.
  • Der Auswerterechner 104 umfasst selbst neben seinem Sende- und/oder Empfangsmodul 105 zusätzlich ein Typisierungsmodul 106, ein Texterkennungsmodul 107, ein Durchsuchungsmodul 108, eine Datenbank 109 und ein Ausgabemodul 110. Die Funktionsweise der einzelnen Module und das erfindungsgemäße Verfahren werden nachstehend erläutert.
  • Zunächst erhält der Auswerterechner 104 mittels seines Sende- und/oder Empfangsmoduls 105 ein digitales Dokument 200. Dieses digitale Dokument 200 kann beispielsweise über einen dem System 100 zugewiesenen Mailserver abgerufen werden, wobei der Auswerterechner 104 auch selbst ein entsprechendes Mailmodul aufweisen kann. Es besteht zudem die Möglichkeit, dass der Benutzer am Anbieterrechner 101 sich über ein Portal am Auswerterechner 104 eingeloggt, um das digitale Dokument 200 über das Netzwerk 103 hochzuladen.
  • Im System 100 der 2 ist im Unterschied zum System 100 nach 1 zusätzlich ein Ausschreibungsrechner 111 vorhanden, der ebenfalls ein Sende- und/oder Empfangsmodul 112 umfasst, über welches der Ausschreibungsrechner 111 mit dem Netzwerk 103 kommunizieren kann. Als Ausschreibungsrechner 111 ist derjenige Computer oder derjenige Konstituent des Systems 100 zu verstehen, welcher von dem Benutzer bedienbar ist, der die Ausschreibung oder die Anfrage erstellt und für potentielle Anbieter zur Verfügung stellt. Am Ausschreibungsrechner 111 wird die Ausschreibung oder die Anfrage erstellt und gegebenenfalls als bildbasiertes oder textbasiertes digitales Dokument 200 über das Netzwerk 103 an den Auswertungsserver 104 gesendet. Alternativ oder zusätzlich kann das digitale Dokument 200 via E-Mail an den Anbieterrechner 101 gesendet werden, so dass mittels des Anbieterrechners dann ein entsprechender Upload des digitalen Dokuments auf den Auswerterechner 104 erfolgt, wo es auf seine Relevanz für eine Angebotsabgabe hin überprüft wird.
  • Wenn das umfangreiche Dokument zunächst in Papierform vorliegt, so wird dieses mit einer geeigneten Scaneinrichtung digitalisiert, so dass auch dann ein umfangreiches digitales Dokument 200 vorliegt. Das digitale Dokument 200 wird dann an das Typisierungsmodul 106 übergeben, das das digitale Dokument 200 daraufhin überprüft, ob es sich um ein maschinenlesbares Dokument, beispielsweise um ein GAEB-XML-Dokument oder ein true-PDF-Dokument handelt, oder ob es als ein maschinenunlesbares Dokument, beispielsweise als ein bildbasiertes PDF-Dokument, vorliegt.
  • Ein als maschinenunlesbar typisiertes Dokument wird an das Texterkennungsmodul 107 übergeben, welches aus diesem ein neues maschinenlesbares digitales Dokument 200 erzeugt. Das Texterkennungsmodul 107 ist in 3 schematisch detailliert dargestellt, wobei zu erkennen ist, dass es eine Bildoptimierungseinrichtung 113, eine Vereinzelungs- und/oder Zusammenführungseinrichtung 116 und eine Einrichtung 117 zur optischen Zeichenerkennung umfasst. Die Bildoptimierungseinrichtung 113 untergliedert sich ferner in eine Ausrichteinheit 114 und eine Kontrastschärfeeinheit 115.
  • Das als maschinenunlesbar typisierte digitale Dokument 200 wird zunächst der Ausrichteinheit 114 der Bildoptimierungseinrichtung 113 zugeleitet, welche dort eine Seite oder mehrere der Seiten des digitalen Dokuments 200 durch eine entsprechende Drehung ausrichtet. Eine solche Drehung kann beispielsweise erforderlich werden, wenn ein gescanntes PDF-Dokument schräg oder schief von der Scaneinrichtung eingezogen und gescannt wurde.
  • Sobald die Ausrichteinheit 114 alle Seiten des Dokuments entsprechend ausgerichtet hat, wird das so geformte Dokument an die Kontrastschärfeeinheit 115 übergeben, um dort eine entsprechende Schärfung oder Stärkung der Kontraste hervorzurufen. Eine Schärfung oder eine Vertiefung der Kontraste können erforderlich werden, wenn beispielsweise eine zu geringe Auflösung beim Scanvorgang, eine zu geringe Bit-Farbtiefe, beispielsweise eine 1-Bit-Farbtiefe anstatt von Graustufen und Farben, ein andersgearteter mangelhafter Kontrast oder ein rauschender Hintergrund vorliegen.
  • Wenn das digitale Dokument 200 in der Bildoptimierungseinrichtung 113 vorab grafisch optimiert wurde, gelangt es an die Vereinzelungs- und/oder Zusammenführungseinrichtung 116, die das digitale Dokument 200 in Einzelseiten zerlegt, so dass jede Seite einzeln der nachfolgenden Einrichtung 117 zur optischen Zeichenerkennung zugeleitet wird. Dieses „Zerstückeln“ des Dokuments und das anschließende erneute Zusammenführen der Einzelseiten gewährleistet, dass die Seiteninformationen des digitalen Dokuments 200 nach der optischen Zeichenerkennung noch bzw. wieder vorhanden sind.
  • Die Einrichtung 117 zur optischen Zeichenerkennung ist ausgestaltet, die Texterkennung wörterbuchbasiert durchzuführen, so dass eine verbesserte Texterkennung vorliegt. Im Vorfeld wird dabei zusätzlich die Sprache des digitalen Dokuments 200 ermittelt, so dass auch das der Sprache entsprechende Wörterbuch zur Texterkennung herangezogen wird. Außerdem ist der Einrichtung (117) zur optischen Zeichenerkennung ein künstliches neuronales Netzwerk zugewiesen, das ausgebildet und derart trainiert ist, trotz einzelner unkenntlicher Buchstaben aus dem Kontext heraus das zutreffende Wort zu erkennen. Dieses künstliche neuronale Netzwerk weist eine rekurrente Verschaltung auf und besitzt eine LTSM-Struktur, was zu einer verbesserten Texterkennung/Worterkennung beiträgt.
  • Nach dem erneuten Zusammenführen der Einzelseiten durch die Vereinzelungs- und/oder Zusammenführungseinrichtung 116 wird das digitale, nun maschinenlesbare Dokument an das Durchsuchungsmodul 108 übergeben. Im Durchsuchungsmodul 108 wird das maschinenlesbare digitale Dokument nach mindestens einem Stichwort und/oder nach mindestens einer aufgrund eines regulären Ausdrucks generierten Stichwortabwandlung durchsucht. Die zu suchenden Stichworte oder die zu suchenden regulären Ausdrücke sind in der Datenbank 109 des Auswerterechners 104 hinterlegt. Die Inhalte der Datenbank 104 können von einem, insbesondere autorisierten Benutzer des Anbieterrechners 101 bearbeitet werden, wobei insbesondere weitere Stichworte und weitere reguläre Ausdrücke in der Datenbank 109 hinterlegt werden können, um zukünftige Suchen zu verfeinern oder zu verbessern. Es besteht selbstverständlich auch die Möglichkeit, bestehende Einträge der Datenbank 109 zu verändern oder sogar gänzlich zu löschen.
  • Ein Beispiel des Inhalts der Datenbank 109 ist schematisch in 4 gezeigt, wobei rein exemplarisch zwei Stichworte, vorliegend die Stichworte „Garage“ und „Haustür“, darin enthalten sind. Zusätzlich finden sich ebenfalls rein exemplarisch zwei verschiedene reguläre Ausdrücke, die „Zugang\w*“ und „(elektronische|elektrische)(-| )Sicherung(en)?“ lauten. Das Durchsuchungsmodul 108 ist ausgebildet, im digitalen Dokument 200 Abwandlungen und Varianten von Einzelwörtern oder von zusammengehörigen oder zusammengesetzten Begriffen mit einer vorgegebenen Syntax zu suchen. Anhand der exemplarisch dargestellten Inhalte der Datenbank 109 wird nachfolgend die den regulären Ausdrücken zugrunde liegende Syntax näher erläutert.
  • Die einzelnen Stichworte, die ohne die regulären Ausdrücke versehen sind, liefern nur Treffer im digitalen Dokument 200, die genau dieses Stichwort wiedergeben, wobei die Begriffe „Haustür“ oder „Garage“ aufgefunden werden würden; beispielsweise „Haustürschloss“ oder „Garagentor“ wären jedoch nicht im Trefferergebnis enthalten. Auch „Haustüre“ wäre nicht im Trefferergebnis enthalten, so dass eine Abweichung bei nur einem einzigen Buchstaben dazu führt, dass ein Wort nicht mehr gefunden wird. Es besteht daher die zusätzliche Möglichkeit, „\w*“ der Syntax zu verwenden, was Treffer liefert, für das diesem Element vorangestellten Stichwort mit keinem weiteren Buchstaben, mit einem einzigen weiteren oder mit beliebig vielen weiteren daran angehängten Buchstaben. Somit würden beim gezeigten Beispiel „Zugang\w*“ Treffer geliefert wie „Zugang“, „Zugangstüre“, „Zugangskontrolle“ etc.. Es besteht die Möglichkeit, „|“ der Syntax zu verwenden, was eine Kombination von Begriffen eines logischen Oders darstellt. Im Beispiel würden also bei „(elektronische|elektrische)“ Treffer aufgefunden werden, die entweder „elektronische“ oder „elektrische“ enthielten. Im Beispiel folgt beim Datenbankeintrag dann „(-| )“, was „-“ (Bindestrich) oder „ “ (Leerzeichen) bedeutet. Es besteht die Möglichkeit „()?“ (Klammerinhalt in Klammern mit Fragezeichen) der Syntax zu verwenden, was „optional“ bedeutet, so dass im Beispiel bei „Sicherung(en)?“ Treffer geliefert würden, die sowohl „Sicherung“ als auch „Sicherungen“ lauten. Die einzelnen regulären Ausdrücke lassen sich beliebig miteinander kombinieren, so dass beispielsweise u.a. „elektrische Sicherung“, „elektronische-Sicherungen“ und „elektronische Sicherungen“ unter den Treffern zu finden wären. „\d“ der Syntax steht für beliebige Ziffern zwischen 0 und 9. „\w“ der Syntax steht für einen einzigen beliebigen Buchtstaben, angehängt an das entsprechende Stichwort, der aufzutreten hat, um im Trefferergebnis enthalten zu sein. „\w+“ der Syntax steht für einen oder beliebig viele weitere Buchstaben, angehängt an das entsprechende Stichwort, die aufzutreten haben, um im Trefferergebnis enthalten zu sein.
  • Das Durchsuchungsmodul 108 ist ausgebildet, sich diejenigen Stellen zu merken, an denen die Stichworte oder die Stichwortabwandlungen vorkommen. Das nachfolgend angeordnete Ausgabemodul 110 erzeugt dann ein neues digitales Ausgabedokument 202, in welchem die aufgefundenen Stichworte und die aufgefundenen Stichwortabwandlungen hervorgehoben oder gekennzeichnet sind.
  • Beispielsweise kann in einem PDF-Dokument die „Kommentar-Funktion“ dazu genutzt werden, um die Position eines aufgefundenen Stichworts oder eines aufgefundenen regulären Ausdrucks anzugeben. Im Kommentar steht dann das dem Auffinden zugrunde liegende Stichwort oder der dem Auffinden zugrundeliegende reguläre Ausdruck. Zusätzlich kann die „Hervorheben-Funktion“ für PDF-Dokumente dazu genutzt werden, um die aufgefundenen Treffer hervorzuheben oder zu highlighten. Das digitale Ausgabedokument 202 kann dabei beispielsweise dem ursprünglichen Format des digitalen Dokuments 200 entsprechen, aber ergänzt um Kommentare und/oder Hervorhebungen für die aufgefundenen Stichworte und/oder Stichwortabwandlungen. Der Benutzer kann dabei sehr schnell die entsprechenden Passagen im umfangreichen Dokument auffinden, die für eine spätere Erstellung und Abgabe eines Angebots relevant sind.
  • Alternativ oder ergänzend besteht auch die in 2 gezeigte Möglichkeit, dass das Ausgabemodul 110 ein gegenüber dem maschinenlesbaren digitalen Dokument 200 in der Größe reduziertes Extraktionsdokument 201 erzeugt, in welchem lediglich die für die Angebotsabgabe relevanten Seiten oder Bereiche enthalten sind. Somit ist ein geringerer Datentransfer vonnöten und der Speicherbedarf ist reduziert.
  • Alternativ oder ergänzend kann auch das gesamte ursprüngliche, aber mit Kommentaren oder Hervorhebungen versehene Ausgabedokument 202 ebenfalls an den Anbieterrechner 101 übergeben werden. Das Versenden kann beispielsweise via E-Mail erfolgen, wobei die Möglichkeit besteht, dass auch lediglich eine E-Mail-Benachrichtigung (oder eine Push-Benachrichtigung via Smartphone oder Smartwatch) über neue, im Portal des Systems vorhandene Ausgabedokumente 202 versendet werden. Es besteht auch die Möglichkeit, dass das Ausgabedokument 202 über eine geeignete andere Schnittstelle bereitgestellt ist oder wird, wobei auch die Bereitstellung in einem Dokumentenmanagementsystem möglich ist.
  • Zusätzlich kann das Ausgabemodul 110 ausgebildet sein, ein Ausgabedokument 202 zu erzeugen, welches eine vorgegebene Struktur umfasst, so dass die Formatierung und die Aufbereitung und Ausgestaltung des Ausgabedokuments 202 stets gleich ist und deshalb für einen Anbieter eine vereinfachte und gewohnte Übersicht bietet. Mit anderen Worten wird das Ausgabedokument 202 stets in einem einheitlichen Format bereitgestellt, vorzugsweise als PDF-Dokument.
  • Zusätzlich kann das Ausgabemodul 110 ausgebildet sein, dass es ein XML-Dokument in maschinenlesbarer Form zurück gibt, so dass dieses für spätere Verarbeitungen oder für die Durchsuchung durch andere Anbieter ggfs. abweichender Gewerke zur Verfügung steht. Eine spätere maschinelle Verarbeitung (beispielsweise SAP-Import) des im Auswerterechner 104 verarbeiteten umfangreichen Dokuments ist damit möglich.
  • Strichliert ist optional in 2 noch ein Dokumentengenerierungsmodul 118 gezeigt, das ausgebildet ist, aus maschinenlesbar typisierten Dokumenten ein vorgegebenes Dokumentenformat zu erzeugen, bevor es dem Durchsuchungsmodul 108 zugeführt wird. Die Datenstruktur für die Durchsuchung im Durchsuchungsmodul 108 wird dabei auch bei maschinenlesbar typisierten Dokumenten entsprechend voreingestellt.
  • Anhand von 5 wird ein, beispielsweise auch nativ auf einem Computer durchführbares, Computerprogramm bzw. das erfindungsgemäße Verfahren erläutert.
  • Zunächst wird ein digitales Dokument 200 an einem Computer oder einem Auswerterechner 104 bereitgestellt (Schritt S1). Anschließend erfolgt eine Typisierung des digitalen Dokuments 200 mittels eines Typisierungsmoduls 106 dahingehend, ob es sich beim digitalen Dokument 200 um ein maschinenlesbares Dokument oder um ein maschinenunlesbares Dokument handelt (Abfrage S2). Wurde das digitale Dokument 200 als maschinenlesbar typisiert Variante (+) so erfolgt unmittelbar die Stichwort- und/oder reguläre Ausdrücke-Suche in einem Durchsuchungsmodul 108 (Schritt S8). Liegt dagegen ein maschinenunlesbares digitales Dokument 200 vor, so wird dieses in einem Texterkennungsmodul 107 einer Bildoptimierungseinrichtung 113 zugeführt, um das in dem bildbasierten digitalen Dokumentenformat vorliegende Dokument vorab grafisch aufzubereiten. Hierzu umfasst die Bildoptimierungseinrichtung 113 eine Ausrichteinheit 114, die eine oder mehrere der Seiten des Dokuments 200 mittels einer geeigneten Drehung, ggfs. nur um ein paar Grad gedreht, ausrichtet (Schritt S3). Anschließend werden die Kontraste im Bild gestärkt und/oder geschärft, wozu die Bildoptimierungseinrichtung 113 eine entsprechende Kontrastschärfeeinheit 115 aufweist (Schritt S4). Um die Seiteninformationen nicht zu verlieren, wird das Dokument mittels einer Vereinzelungs- und/oder Zusammenführungseinrichtung 116 in Einzelseiten zergliedert (Schritt S5), wobei jede Seite einzeln einer Einrichtung 117 zur optischen Zeichenerkennung für eine Texterkennung zugeführt wird (Schritt S6). Die einzelnen, mit Text erkannten Seiten werden mit der Vereinzelungs- und/oder Zusammenführungseinrichtung 116 wieder zu einem gemeinsamen, jetzt maschinenlesbaren digitalen Dokument 200 zusammengeführt (Schritt S7). Anschließend daran wird das maschinenlesbare Dokument mittels des Durchsuchungsmoduls nach mindestens einem für die Angebotsabgabe relevanten Stichwort und/oder nach mindestens einer aufgrund eines regulären Ausdrucks generierten Stichwortabwandlung durchsucht (Schritt S8). Anschließend wird durch den Computer oder den Auswerterechner 104 ein Ausgabedokument 202 bereitgestellt oder ausgegeben, in welchem die entsprechenden Stichworte und oder Stichwortabwandlungen hervorgehoben und/oder gekennzeichnet sind (Schritt S9).
  • Mit dem erfindungsgemäßen System, dem erfindungsgemäßen Verfahren und dem erfindungsgemäßen Computerprogramm lassen sich umfangreiche Textdokumente auf ihre Relevanz für die Angebotsabgabe überprüfen, so dass ein Effizienz- und ein Kostengewinn erzielbar sind. Die untersuchten Ausschreibungen oder mit reduzierter Größe versehenen Extraktionsdokumente 201 können dann auch zusätzlich in einem Speicher des Auswerterechners 104 gespeichert werden, um zukünftig erneuten Zugriff darauf zu erlauben.
  • Bezugszeichenliste
  • 100
    System
    101
    Anbieterrechner
    102
    Sende- und/oder Empfangsmodul (Anbieterrechner)
    103
    Netzwerk
    104
    Auswerterechner
    105
    Sende- und/oder Empfangsmodul (Auswerterechner)
    106
    Typisierungsmodul
    107
    Texterkennungsmodul
    108
    Durchsuchungsmodul
    109
    (Stichwort-/reguläre Ausdrücke-)Datenbank
    110
    Ausgabemodul
    111
    Ausschreibungsrechner
    112
    Sende- und/oder Empfangsmodul (Ausschreibungsrechner)
    113
    Bildoptimierungseinrichtung
    114
    Ausrichteinheit
    115
    Kontrastschärfeeinheit
    116
    Vereinzelungs- und/oder Zusammenführungseinrichtung
    117
    Einrichtung zur optischen Zeichenerkennung
    118
    Dokumentengenerierungsmodul
    200
    digitales Dokument
    201
    digitales Extraktionsdokument
    202
    digitales Ausgabedokument

Claims (10)

  1. System (100) zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information aus einem eine Ausschreibung oder eine Anfrage betreffenden Dokument, mit einem Netzwerk (103), das ausgebildet ist, einen Auswerterechner (104) mit mindestens einem Anbieterrechner (101) für den Austausch digitaler Dokumente (200, 201) zumindest zeitweise zu verbinden, mit einem dem Anbieterrechner (101) zugeordneten Sende- und/oder Empfangsmodul (102), das ausgebildet ist, digitale Dokumente (200) über das Netzwerk (103) an den Auswerterechner (104) zu senden oder solche über das Netzwerk (103) abzurufen, und mit einem dem Auswerterechner (104) zugeordneten Sende- und/oder Empfangsmodul (105), das ausgebildet ist, digitale Dokumente (200, 202) über das Netzwerk (103) zum Abruf durch den Anbieterrechner (101) bereitzustellen oder solche über das Netzwerk (103) zu empfangen, wobei der Auswerterechner (104) aufweist: - ein Typisierungsmodul (106), das ausgebildet ist, ein ihm übergebenes digitales Dokument (200) als maschinenlesbares Dokument oder maschinenunlesbares Dokument zu typisieren, - ein Texterkennungsmodul (107), das ausgebildet ist, in einem zuvor als maschinenunlesbar typisiertes digitales Dokument (200) vorhandene Buchstaben zu detektieren und somit aus dem maschinenunlesbaren Dokument ein maschinenlesbares digitales Dokument (200) zu erzeugen, - ein Durchsuchungsmodul (108), das ausgebildet ist, das maschinenlesbare digitale Dokument (200) nach mindestens einem Stichwort und/oder nach mindestens einer aufgrund eines regulären Ausdrucks generierten Stichwortabwandlung zu durchsuchen, wobei das mindestens eine Stichwort und/oder der mindestens eine reguläre Ausdruck in einer Datenbank (109) des Auswerterechners (104) hinterlegt sind, sowie - ein Ausgabemodul (110), das ausgebildet ist, ein digitales Ausgabedokument (202) zu erzeugen, in welchem das mindestens eine aufgefundene Stichwort und/oder die mindestens eine aufgefundene Stichwortabwandlung hervorgehoben und/oder gekennzeichnet ist.
  2. System nach Anspruch 1, dadurch gekennzeichnet, dass das Ausgabedokument (202) ein gegenüber dem maschinenlesbaren digitalen Dokument (200) in Größe reduziertes Extraktionsdokument (201) ist, in welchem zumindest diejenigen Seiten enthalten sind, auf denen das mindestens eine aufgefundene Stichwort und/oder die mindestens eine aufgefundene Stichwortabwandlung enthalten ist.
  3. System (100) nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das maschinenunlesbare Dokument (200) als ein bildbasiertes portables Dokumentenformat vorliegt, und dass das Texterkennungsmodul (107) eine Bildoptimierungseinrichtung (113) zur grafischen Vorab-Aufbereitung des im bildbasierten portablen Dokumentenformat vorliegenden Dokuments aufweist, die einer Einrichtung (117) zur optischen Zeichenerkennung vorgeschaltet ist.
  4. System (100) nach Anspruch 3, dadurch gekennzeichnet, dass die Bildoptimierungseinrichtung (113) eine Ausrichteinheit (114) aufweist, die ausgebildet ist, eine oder mehrere der Seiten des digitalen Dokuments (200) mittels Drehung auszurichten, und dass die Bildoptimierungseinrichtung (113) eine Kontrastschärfeeinheit (115) aufweist, die ausgebildet ist, die vorhandenen Kontraste zu stärken und/oder zu schärfen.
  5. System (100) nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass der Bildoptimierungseinrichtung (113) und der Einrichtung (117) zur optischen Zeichenerkennung eine Vereinzelungs- und/oder Zusammenführeinrichtung (116) zwischengeschaltet ist, die eingerichtet ist, die Seiten des digitalen Dokuments (200) der Einrichtung (117) zur optischen Zeichenerkennung vereinzelt bereitzustellen oder vereinzelte Seiten wieder zu dem digitalen Dokument (200) zusammenzuführen.
  6. System (100) nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass das Durchsuchungsmodul (108) ausgebildet ist, Textabsätze oder Abschnitte/Kapitel mit identifizierten Stichworten und/oder identifizierten Stichwortabwandlungen im digitalen Dokument (200) zu erkennen, und dass das Ausgabemodul (110) ausgebildet ist, die Seiten des digitalen Dokuments (200) mit dem mindestens einen vollständigen Textabsatz oder mit dem mindestens einen vollständigen Abschnitt/Kapitel im Ausgabedokument (202) auszugeben, in welchen das mindestens eine aufgefundene Stichwort und/oder die mindestens eine aufgefundene Stichwortabwandlung enthalten ist.
  7. Verfahren zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information aus einem eine Ausschreibung oder eine Anfrage betreffenden Dokument, umfassend die Schritte: - Bereitstellen eines digitalen Dokuments (200) an einen Computer oder einen Auswerterechner (104); - Typisieren des digitalen Dokuments (200) mittels eines Typisierungsmoduls (106) dahingehend, ob es sich beim digitalen Dokument (200) um ein maschinenlesbares Dokument oder um ein maschinenunlesbares Dokument handelt; - Erstellen eines maschinenlesbaren digitalen Dokuments (200) mittels eines Texterkennungsmoduls (107), wenn das Dokument zuvor als maschinenunlesbar typisiert wurde; - Durchsuchen des maschinenlesbaren Dokuments mittels eines Durchsuchungsmoduls (108) nach mindestens einem für die Angebotsangabe relevanten Stichwort und/oder nach mindestens einer aufgrund eines regulären Ausdrucks generierten Stichwortabwandlung, wobei das mindestens eine Stichwort und/oder der mindestens eine reguläre Ausdruck in einer Datenbank (109) des Auswerterechners (104) hinterlegt ist; - mittels eines Ausgabemoduls (110) Erzeugen eines digitalen Ausgabedokuments (202), in welchem das mindestens eine aufgefundene Stichwort und/oder die mindestens eine aufgefundene Stichwortabwandlung hervorgehoben und/oder gekennzeichnet ist; und - Bereitstellen oder Ausgeben des Ausgabedokuments (202) durch den Computer oder den Auswerterechner (104).
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass das maschinenunlesbare Dokument (200) in einem bildbasierten portablen Dokumentenformat vorliegt, dass das Texterkennungsmodul (107) eine Bildoptimierungseinrichtung (113) umfasst, um das in dem bildbasierten portablen Dokumentenformat vorliegende Dokument vorab grafisch aufzubereiten, wobei die Bildoptimierungseinrichtung (113) eine Ausrichteinheit (114) aufweist, die eine oder mehrere der Seiten des Dokuments (200) mittels Drehung ausrichtet, wobei die Bildoptimierungseinrichtung (113) eine Kontrastschärfeeinheit (115) aufweist, die die vorhandenen Kontraste stärkt und/oder schärft, und dass das Texterkennungsmodul (107) eine Einrichtung (117) zur optischen Zeichenerkennung umfasst, die die Buchstaben des vorab grafisch aufbereiteten Dokuments oder eines Teils davon erkennt, wobei dem maschinenunlesbaren digitalen Dokument (200) ein maschinenlesbares Layer hinzugefügt wird.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Seiten des digitalen Dokuments (200) vor der optischen Zeichenerkennung mittels einer Vereinzelungs- und/oder Zusammenführeinrichtung (116) vereinzelt werden.
  10. Computerprogramm geladen in einen digitalen Speicher eines Computers, das ein Verfahren nach einem der Ansprüche 7 bis 9 implementiert.
DE102019122223.0A 2019-08-19 2019-08-19 System und Verfahren zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information aus einem eine Ausschreibung oder eine Anfrage betreffenden Dokument Pending DE102019122223A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102019122223.0A DE102019122223A1 (de) 2019-08-19 2019-08-19 System und Verfahren zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information aus einem eine Ausschreibung oder eine Anfrage betreffenden Dokument

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019122223.0A DE102019122223A1 (de) 2019-08-19 2019-08-19 System und Verfahren zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information aus einem eine Ausschreibung oder eine Anfrage betreffenden Dokument

Publications (1)

Publication Number Publication Date
DE102019122223A1 true DE102019122223A1 (de) 2021-02-25

Family

ID=74495134

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019122223.0A Pending DE102019122223A1 (de) 2019-08-19 2019-08-19 System und Verfahren zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information aus einem eine Ausschreibung oder eine Anfrage betreffenden Dokument

Country Status (1)

Country Link
DE (1) DE102019122223A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257602A (zh) * 2023-05-16 2023-06-13 北京拓普丰联信息科技股份有限公司 一种基于公共词构建通用词库的方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5825943A (en) * 1993-05-07 1998-10-20 Canon Inc. Selective document retrieval method and system
US20060062453A1 (en) * 2004-09-23 2006-03-23 Sharp Laboratories Of America, Inc. Color highlighting document image processing
US20080246998A1 (en) * 2007-04-03 2008-10-09 Morales Javier A Automatic colorization of monochromatic printed documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5825943A (en) * 1993-05-07 1998-10-20 Canon Inc. Selective document retrieval method and system
US20060062453A1 (en) * 2004-09-23 2006-03-23 Sharp Laboratories Of America, Inc. Color highlighting document image processing
US20080246998A1 (en) * 2007-04-03 2008-10-09 Morales Javier A Automatic colorization of monochromatic printed documents

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257602A (zh) * 2023-05-16 2023-06-13 北京拓普丰联信息科技股份有限公司 一种基于公共词构建通用词库的方法、装置及电子设备
CN116257602B (zh) * 2023-05-16 2023-07-07 北京拓普丰联信息科技股份有限公司 一种基于公共词构建通用词库的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
WO2005029392A1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE60127247T2 (de) Netzwerkeinrichtung zur dokumentengültigkeitserklärung
DE19547812C2 (de) Lesegerät für Schriftzeichenketten
EP1671262B1 (de) Verfahren und system zum erfassen von daten aus maschinell lesbaren dokumenten
DE112015005985T5 (de) Klassifizierung und speicherung von dokumenten
DE10321944A1 (de) Vorrichtungen und Verfahren zum Verarbeiten von textbasierten elektronischen Dokumenten
DE19624977A1 (de) Verfahren zur Verarbeitung von Postsachen
DE102011005579A1 (de) Bildverarbeitungsvorrichtung, Bildverarbeitungsverfahren und Speichermedium
DE102012102797A1 (de) Konvertierung eines Dokuments anhand von aufgenommenen Bildern in ein Format zur optimierten Anzeige auf einem Mobilfunkgerät
WO2009059715A1 (de) Verfahren zur bildanalyse, insbesondere für mobilfunkgerät
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE112018001165T5 (de) Automatisierte dokumentenanalyse für unterschiedliche natürliche sprachen
DE2435889B2 (de) Verfahren und einrichtung zur unterscheidung von zeichengruppen
DE102019122223A1 (de) System und Verfahren zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information aus einem eine Ausschreibung oder eine Anfrage betreffenden Dokument
DE202017105979U1 (de) Systeme und Computerprogrammprodukte zur Handhabung von Formalität in Übersetzungen von Text
DE19933984C2 (de) Verfahren zur Bildung und/oder Aktualisierung von Wörterbüchern zum automatischen Adreßlesen
DE1226339B (de) Anordnung zur Satzanalyse bei elektronischer Datenverarbeitung von Sprachtexten
DE102012025350A1 (de) Verarbeitungn eines elektronischen Dokuments
DE202022106040U1 (de) Handschrifterkennungssystem auf der Grundlage eines neuronalen Netzwerks
DE102012025351B4 (de) Verarbeitung eines elektronischen Dokuments
EP1605368B1 (de) Erstellen elektronisch verarbeitbarer Unterschriftendateien
EP3494488A1 (de) Verfahren zum zumindest teilweise maschinellen transferieren in einer quellsprache abgefassten wortfolge in eine wortfolge einer zielsprache
DE2460757A1 (de) Datenverarbeitungssystem zur korrektur von bei der maschinellen zeichenerkennung aufgetretenen fehldeutungen
EP2315159A2 (de) Verfahren und Vorrichtung zum Erkennen und Klassifizieren von Dokumentteilen eines rechnerverfügbaren Dokuments durch schrittweises Lernen aus mehreren Trainingsmengen
EP1320965B1 (de) Verfahren und vorrichtung zum austausch von informationen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0016300000

Ipc: G06F0016930000

R016 Response to examination communication