DE102005056713A1 - Document e.g. image document, verifying method, involves searching information accepted as correct and to be used uniformly by given information in reference database, and replacing given information by information accepted as correct - Google Patents

Document e.g. image document, verifying method, involves searching information accepted as correct and to be used uniformly by given information in reference database, and replacing given information by information accepted as correct Download PDF

Info

Publication number
DE102005056713A1
DE102005056713A1 DE102005056713A DE102005056713A DE102005056713A1 DE 102005056713 A1 DE102005056713 A1 DE 102005056713A1 DE 102005056713 A DE102005056713 A DE 102005056713A DE 102005056713 A DE102005056713 A DE 102005056713A DE 102005056713 A1 DE102005056713 A1 DE 102005056713A1
Authority
DE
Germany
Prior art keywords
fact
information
correct
document
facts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102005056713A
Other languages
German (de)
Inventor
Arthur Pease
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102005056713A priority Critical patent/DE102005056713A1/en
Priority to PCT/EP2006/067777 priority patent/WO2007060073A1/en
Publication of DE102005056713A1 publication Critical patent/DE102005056713A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

The method involves extracting given information using an information extraction tool according to specified rules for recognition of the information from a document. Information accepted as correct and to be used uniformly is searched by the given information in a reference database using the rules for recognition of comparable information, and the given information is replaced by the information accepted as correct. An independent claim is also included for a device for verifying a document.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Überprüfung von Dokumenten, bei dem/der ein Bild-/Text-Dokument, insbesondere bereits während seiner Erstellung, automatisch auf seine Korrektheit hin überprüft wird und dann evtl. automatisch enthaltene Fehler im Dokument markiert oder beseitigt werden.The The invention relates to a method and a device for checking Documents in which an image / text document, especially during its Creation, automatically checked for correctness and then possibly automatically contained errors in the document marked or be eliminated.

Ein solches Verfahren bzw. eine solche Vorrichtung ist aus modernen Textverarbeitungsprogrammen in Form einer Rechtschreibungs- und Grammatiküberprüfung, also einer Syntax-Prüfung, hinlänglich bekannt.One such a method or device is modern Word processing programs in the form of a spelling and grammar check, ie a syntax check, well known.

Die Richtigkeit der bei der Erstellung des Dokuments verwendeten Fakten bzw. Daten wird dadurch natürlich nicht überprüft. Der Ersteller eines Dokuments benutzt hierfür bislang häufig ein Informationsnetz, z.B. das Internet, zu einer manuellen Überprüfung der im Dokument verwendeten Fakten. Dies ist jedoch zeitaufwändig und es treten bspw. Probleme durch inkonsistente, nicht aktuelle oder zu ungenaue Angaben auf.The Correctness of the facts used in the preparation of the document or data becomes natural not checked. Of the Creator of a document often uses an information network for this, e.g. the Internet, for a manual review of the document used Facts. However, this is time consuming and there are, for example, problems due to inconsistent, non-current or too inaccurate information.

Aus der Veröffentlichung IEEE Computer Society, IT Pro November | Dezember sind so genannte „Information Extraktion Tools" bzw. IE-Werkzeuge bekannt, die in einem „Meer von Text" bestimmte Informationen finden. Dies geschieht dadurch, dass diese Werkzeuge bestimmte Entitäten, wie beispielsweise Personen, Organisationen, Namen, Orte, Zeiten, Geldbeträge; bestimmte Relationen zwischen diesen Entitäten, wie beispielsweise „beschäftigt bei", „Frau von", „Eigentümer von" oder „geboren in" und Ereignisse, wie z.B. „Meeting", „Vertragsabschluss" oder „Kauf von Firma" erkennen. Solche IE-Werkzeuge nutzen linguistische Konventionen sowie Interpretations- und Referenzierungsregeln und sind häufig auch lernfähig.Out the publication IEEE Computer Society, IT Pro November | December are so-called "information Extraction Tools "resp. IE tools known in a "sea of text" specific information Find. This happens because these tools have certain entities, such as for example, persons, organizations, names, locations, times, amounts of money; certain Relations between these entities, such as "busy at", "wife of", "owner of" or "born in "and events, such as. "Meeting", "Contracting" or "Buying Company "recognize. Such IE tools use linguistic conventions as well as interpretation and referencing rules and are often able to learn.

Die Erfindung zu Grunde liegende Aufgabe besteht nun darin ein Verfahren und eine Vorrichtung zur automatischen Überprüfung von Bild-/Text-Dokumenten derart anzugeben, dass die oben angegebenen Nachteile vermieden werden.The Invention underlying task is now a method and a device for automatically checking image / text documents specify so that the above-mentioned disadvantages avoided become.

Diese Aufgabe wird erfindungsgemäß hinsichtlich des Verfahrens durch Merkmale des Anspruchs 1 und hinsichtlich der Vorrichtung durch die Merkmale des Anspruchs 5 gelöst.These The object is achieved according to the invention the method by features of claim 1 and in terms of Device solved by the features of claim 5.

Die weiteren Ansprüche betreffen vorteilhafte Ausgestaltungen des erfindungsgemäßen Verfahrens.The further claims relate to advantageous embodiments of the method according to the invention.

Die Erfindung besteht im Wesentlichen darin, dass mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird, jeweils zu einem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und dann das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird, falls ein solches gefunden wurde.The Invention essentially consists in that with the help of a tool for information extraction according to certain rules for recognition facts from a document at least one specified fact is extracted, each to a specified fact in a reference database using certain rules to detect comparable facts a subject to be used unified and accepted as correct Fact is searched for and then the specified fact automatically or on request by the uniform to use and as correct is replaced, if found.

Nachfolgend wird die Erfindung anhand bevorzugter Anwendungsbeispiele näher erläutert.following The invention is explained in more detail with reference to preferred application examples.

In einem Textdokument wird mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert.In A text document is created using an information extraction tool according to certain rules for recognizing facts from a document extracted at least one specified fact.

Solche Regeln zur Extraktion eines Faktums sind z.B.:
Faktum = Zeitangabe + Firmenname + Ortsangabe „beschäftigt(e)" + Zahl + „Mitarbeiter" | „Ingenieure"
sowie auch semantische Äquivalente dieser Regel wie bspw. Faktum = „auf der Mitarbeiterliste von" + Firmenname + Ortsangabe + „sind in" | „waren in" Zeitangabe + Zahl + „Personen" | Ingenieure + „genannt" | „aufgeführt „eingetragen".
und auch alle syntaktisch korrekten Äquivalente aller dieser semantisch äquivalenten Regeln.
Such rules for extracting a fact include:
Fact = time + company name + location "busy" + number + "employee" | "Engineers"
as well as semantic equivalents of this rule such as factum = "on the employee list of" + company name + location + "are in" | "Were in" time + number + "persons" | Engineers + "called" | "listed" registered ".
and also all syntactically correct equivalents of all these semantically equivalent rules.

Sobald also bspw. der Satz oder Satzteil „2004 Siemens USA beschäftigte 63000 Mitarbeiter" eingegeben wird, wird dieser als Faktum mit Hilfe der oben genannten Regel erkannt und zu diesem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht.As soon as So, for example, the sentence or phrase "2004 Siemens USA employed 63000 Employee "entered This is considered a fact with the help of the above rule detected and to this specified fact in a reference database using certain rules to detect comparable facts a subject to be used unified and accepted as correct Fact searched.

Vergleichbare Fakten könnten hier bspw. alle Fakten mit folgenden Angaben
Firmenname = Siemens
Ortsangabe = USA
Zeitangabe = 2004
Beschäftigte = beliebig
sein und in der Referenzdatenbank gesucht und gefunden werden:
Als Ergebnis erscheinen bspw. folgende vergleichbaren Fakten aus denen der Anwender dann auswählen kann.
Mitarbeiter = 64000
Ingenieure = 30000
Kaufleute = 10000
Comparable facts could, for example, all facts with the following information
Company name = Siemens
Location = USA
Time = 2004
Employees = any
be and be searched and found in the reference database:
As a result, for example, the following comparable facts appear from which the user can then select.
Employee = 64000
Engineers = 30000
Merchants = 10000

Aufgrund der Angabe „Mitarbeiter" im eingegebenen Satz oder Satzteil könnte hier aber bspw. auch gleich eine automatische Ersetzung des angegebenen Wertes „63000" durch den einheitlich zu verwendenden und als richtig angenommenen Wert „64000" der Referenzdatenbank erfolgen.Due to the specification "employee" in the entered sentence or phrase, however, an automatic replacement of the given value "63000" by the uniformly used and taken as correct value "64000" of the reference database.

Neben der Ersetzung einzelner Wörter ist aber auch die Ersetzung mehrerer Wörter bis hin zum gesamten eingegebenen Faktum möglich, wenn bspw. die Reihenfolge der Worte geändert werden muss.Next the replacement of individual words but is also the replacement of several words up to the entire input Fact possible, if, for example, the order of the words has to be changed.

In Dokumenten ist die Bedeutung einer Zahl meist durch eine praktisch ummittelbare folgende Benennungsangabe gut erkennbar und zur Extraktion von Fakten vorteilhaft nutzbar.In Documents is the meaning of a number mostly through a practical one The following naming statement is clearly recognizable and for the extraction of Facts usable.

Eine weitere Ausgestaltung der Erfindung besteht darin, dass auf Bildern dargestellte Textinformationen bspw. mit OCR (optical character recognition) ermittelt werden und damit die Korrektheit diesbezüglicher Angaben in zugehörigen Begleittexten überprüft wird.A Another embodiment of the invention is that on pictures represented text information, for example, with OCR (optical character recognition) and thus the correctness in this regard Information in associated Accompanying texts is checked.

Eine letzte Ausgestaltung der Erfindung besteht darin, dass auf Bilddokumenten dargestellten Personen und/oder Gegenstände mit Hilfe von Bilderkennungs-/Vergleichsverfahren oder aber direkt mit Hilfe der strukturierten Angaben moderner Bildbeschreibungsdateien ermittelt und mit Daten einer Referenzdatenbank verglichen werden, um dann die Korrektheit diesbezüglicher Angaben in zugehörigen Begleittexten zu überprüfen und ggf. Bilder bzw. Fakten in Texten entsprechend passend auszutauschen.A last embodiment of the invention is that on image documents represented persons and / or objects by means of image recognition / comparison method or directly using the structured data of modern image description files determined and compared with data from a reference database, then the correctness in this regard Information in associated accompanying texts to check and If necessary, exchange pictures or facts in texts appropriately.

Das erfindungsgemäße Verfahren erfolgt vorteilhafter Weise weitgehend schritthaltend während der Erstellung eines Textes und einer jeweils vorausgehenden syntaktischen Überprüfung.The inventive method advantageously takes place largely keeping pace during the Creation of a text and a respective preceding syntactic review.

Claims (5)

Verfahren zur Überprüfung von Dokumenten, – bei dem mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird, – bei dem jeweils zu einem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und – bei dem dann das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird.Procedure for checking documents, - in which using a tool for information extraction according to specific Rules for detecting facts from a document at least one extract the specified fact, - in each case to a specified fact in a reference database using certain rules for the detection of comparable facts a subject uniformly sought to be used and accepted as correct fact and - at then the specified fact automatically or by request the uniformly used and accepted as correct fact is replaced. Verfahren nach Anspruch 1, – bei dem ein Faktum mindestens aus einer ersten Entität/Ereignis-Angabe, einer zweiten Entität/Ereignis-Angabe und einer Relation zwischen beiden besteht, – bei dem Fakten dadurch erkannt werden, dass bestimmte Entität/Ereignis-Angaben aus einer vorgegebenen Liste von Entität/Ereignis-Angaben und Relationen aus einer Liste von vorgegebenen Relationen in einer bestimmten Weise im Dokument auftreten, – bei dem vergleichbare Fakten durch gleiche Paare von ersten Entität/Ereignis-Angaben und Relationen erkannt werden und – bei dem die zweiten Entität/Ereignis-Angaben der vergleichbaren Fakten des Dokuments und der Referenzdatenbank mit Hilfe von Toleranzregeln untersucht werden, ob eine Ersetzung des jeweiligen Faktums zu erfolgen hat oder nicht.Method according to claim 1, - where a fact at least from a first entity / event indication, a second entity / event indication and a Relationship exists between the two, - recognized by the facts be that particular entity / event information from a given list of entity / event information and relations from a list of given relations in a given one Way in the document occur - in the comparable facts recognized by equal pairs of first entity / event indications and relations be and - at the second entity / event information the comparable facts of the document and the reference database with the help of tolerance rules are examined, whether a replacement the respective fact or not. Verfahren nach Anspruch 2, bei dem eine Entität/Ereignis-Angabe entweder ein Name oder Beschreibungsparameter einer Bilddatei ist, die weitere Entität/Ereignis-Angabe den Namen des im dem Bild dargestellten Objektes darstellt und die Relation diesen Umstand zum Ausdruck bringt.The method of claim 2, wherein an entity / event indication is either a name or description parameter of an image file, the further entity / event indication represents the name of the object shown in the picture and the Relation expresses this circumstance. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Dokument bereits während seiner Erstellung immer wieder neu überprüft wird.Method according to one of the preceding claims, in the document already during his Creation is checked again and again. Vorrichtung zur Überprüfung von Dokumenten, – bei der ein Werkzeugs zur Informationsextraktion derart vorhanden ist, dass nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird, – bei der eine Referenzdatenbank derart vorhanden ist, mit Hilfe bestimmter Regeln zur Erkennung vergleichbarer Fakten zu einem angegebenen Faktum ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und – bei der eine Programmeinheit zur Textersetzung derart vorhanden ist, dass das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird.Device for checking documents - at an information extraction tool is present in such a way that according to certain rules for recognizing facts from a document at least one specified fact is extracted, - in the a reference database is so available, with the help of certain Rules for identifying comparable facts to a specified Fact a subject to be used consistently and as correct accepted fact is sought and - at the one program unit for text replacement is present such that the specified fact automatically or on request by the uniform to use and as correct accepted fact is replaced.
DE102005056713A 2005-11-28 2005-11-28 Document e.g. image document, verifying method, involves searching information accepted as correct and to be used uniformly by given information in reference database, and replacing given information by information accepted as correct Ceased DE102005056713A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102005056713A DE102005056713A1 (en) 2005-11-28 2005-11-28 Document e.g. image document, verifying method, involves searching information accepted as correct and to be used uniformly by given information in reference database, and replacing given information by information accepted as correct
PCT/EP2006/067777 WO2007060073A1 (en) 2005-11-28 2006-10-26 Method and apparatus for automatically checking documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102005056713A DE102005056713A1 (en) 2005-11-28 2005-11-28 Document e.g. image document, verifying method, involves searching information accepted as correct and to be used uniformly by given information in reference database, and replacing given information by information accepted as correct

Publications (1)

Publication Number Publication Date
DE102005056713A1 true DE102005056713A1 (en) 2007-05-31

Family

ID=37698253

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102005056713A Ceased DE102005056713A1 (en) 2005-11-28 2005-11-28 Document e.g. image document, verifying method, involves searching information accepted as correct and to be used uniformly by given information in reference database, and replacing given information by information accepted as correct

Country Status (2)

Country Link
DE (1) DE102005056713A1 (en)
WO (1) WO2007060073A1 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6523031B1 (en) * 1997-11-21 2003-02-18 International Business Machines Corporation Method for obtaining structured information exists in special data format from a natural language text by aggregation
US20030115080A1 (en) * 2001-10-23 2003-06-19 Kasra Kasravi System and method for managing contracts using text mining

Also Published As

Publication number Publication date
WO2007060073A1 (en) 2007-05-31

Similar Documents

Publication Publication Date Title
DE10342594B4 (en) Method and system for collecting data from a plurality of machine readable documents
DE69829074T2 (en) IDENTIFICATION OF LANGUAGE AND SYMBOLS FROM TEXT-REPRESENTATIVE DATA
DE60123952T2 (en) GENERATION OF A UNIFORM TASK DEPENDENT LANGUAGE MODEL THROUGH INFORMATION DISCUSSION PROCESS
DE69911842T2 (en) Method and device for retrieving information and corresponding storage medium
DE69725883T2 (en) PARSER FOR NATURAL LANGUAGE WITH DICTIONARY-BASED PARTIAL PROBABILITIES
DE112018005272T5 (en) SEARCHING MULTI-LANGUAGE DOCUMENTS BASED ON AN EXTRACTION OF THE DOCUMENT STRUCTURE
EP3100174A1 (en) Method for automatically detecting meaning and measuring the clearness of text
DE602005000308T2 (en) Device for voice-controlled applications
DE202005022113U1 (en) Training for a text-to-text application that uses a string-tree transformation for training and decoding
DE10308550A1 (en) System and method for automatic data checking and correction
DE112013002654T5 (en) Method for classifying text
DE112018002047T5 (en) DOCUMENT ANALYSIS WITH SEVERAL FACTORS
Clematide et al. Crowdsourcing an OCR gold standard for a German and French heritage corpus
DE10393736T5 (en) Automatic evaluation of overly repetitive word usage in an essay
DE602004003609T2 (en) Solution of segmentation ambiguity in grammatical position
DE102017104094B4 (en) VOICE PROCESSING SYSTEM AND VOICE PROCESSING METHOD
EP0813734B1 (en) Method of recognising at least one defined pattern modelled using hidden markov models in a time-variable test signal on which at least one interference signal is superimposed
DE102009031872A1 (en) Method and device for automatically searching for documents in a data memory
DE102012025350A1 (en) Processing an electronic document
DE102016114265A1 (en) Method for at least partially machine transferring a word sequence written in a source language into a word sequence of a target language
DE102005056713A1 (en) Document e.g. image document, verifying method, involves searching information accepted as correct and to be used uniformly by given information in reference database, and replacing given information by information accepted as correct
DE102007042971A1 (en) Speech recognition method and speech recognition device
DE102020205394A1 (en) Computer-implemented method and apparatus for creating a knowledge graph
DE102018222156A1 (en) Method, arrangement and use for generating a response in response to a voice input information
DE69830524T2 (en) Method and system for eliminating ambiguity in syntactic phrases

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection