DE102015108236A1 - Method for linking printed texts with digital content - Google Patents
Method for linking printed texts with digital content Download PDFInfo
- Publication number
- DE102015108236A1 DE102015108236A1 DE102015108236.5A DE102015108236A DE102015108236A1 DE 102015108236 A1 DE102015108236 A1 DE 102015108236A1 DE 102015108236 A DE102015108236 A DE 102015108236A DE 102015108236 A1 DE102015108236 A1 DE 102015108236A1
- Authority
- DE
- Germany
- Prior art keywords
- character
- page
- selection
- groupings
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000011156 evaluation Methods 0.000 claims description 47
- 238000013480 data collection Methods 0.000 claims description 21
- 238000005286 illumination Methods 0.000 claims description 8
- 230000003287 optical effect Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 abstract description 2
- 150000001875 compounds Chemical class 0.000 abstract 1
- BUHVIAUBTBOHAG-FOYDDCNASA-N (2r,3r,4s,5r)-2-[6-[[2-(3,5-dimethoxyphenyl)-2-(2-methylphenyl)ethyl]amino]purin-9-yl]-5-(hydroxymethyl)oxolane-3,4-diol Chemical compound COC1=CC(OC)=CC(C(CNC=2C=3N=CN(C=3N=CN=2)[C@H]2[C@@H]([C@H](O)[C@@H](CO)O2)O)C=2C(=CC=CC=2)C)=C1 BUHVIAUBTBOHAG-FOYDDCNASA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
- G06F16/94—Hypermedia
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/134—Hyperlinking
Abstract
Die vorlegende Erfindung betrifft ein Verfahren zur Verknüpfung von gedruckten Texten mit digitalen Inhalten, sowie ein entsprechendes System und einen entsprechenden Server sowie einen Datenträger beinhaltend eine entsprechende Software, wobei besondere Vergleiche durchgeführt werden. Aufgabe der vorliegenden Erfindung ist es, bekannte Verfahren weiter zu entwickeln, und insbesondere auch die Überprüfung derart weiterzuentwickeln, dass aus herkömmlichem Text entsprechende Verbindungen zu weiteren Inhalten extrahierbar sind und entsprechende Validierungen auch in Bezug auf die Quelle des Textes ermöglicht werden. Gelöst wird die Aufgabe durch ein Verfahren, bei dem ein Vergleich der Texte sowie der Textanordnungen nach vorgegebenen Kriterien durchgeführt wird.The present invention relates to a method for linking printed texts with digital content, as well as a corresponding system and a corresponding server and a data carrier containing a corresponding software, wherein special comparisons are performed. Object of the present invention is to further develop known methods, and in particular to further develop the review such that from conventional text corresponding compounds to other content can be extracted and appropriate validations are also made possible with respect to the source of the text. The problem is solved by a procedure in which a comparison of the texts and the text arrangements is carried out according to predetermined criteria.
Description
Die vorlegende Erfindung betrifft ein Verfahren zur Verknüpfung von gedruckten Texten mit digitalen Inhalten, sowie ein entsprechendes System und einen entsprechenden Server sowie einen Datenträger beinhaltend eine entsprechende Software, wobei besondere Vergleiche durchgeführt werden.The present invention relates to a method for linking printed texts with digital content, as well as a corresponding system and a corresponding server and a data carrier containing a corresponding software, wherein special comparisons are performed.
Aus der
Darüber hinaus ist es auch bekannt, Grafik und Textelemente separat zu überprüfen und diese Überprüfungen einem Gesamtergebnis zuzuführen, wie dies beispielsweise in der
Aufgabe der vorliegenden Erfindung ist es, derartige Verfahren weiter zu entwickeln, und insbesondere auch die Überprüfung derart weiterzuentwickeln, dass aus herkömmlichem Text entsprechende Verbindungen zu weiteren Inhalten extrahierbar sind und entsprechende Validierungen auch in Bezug auf die Quelle des Textes ermöglicht werden. The object of the present invention is to further develop such methods, and in particular to further develop the verification such that corresponding connections to other contents can be extracted from conventional text and corresponding validations are also made possible with respect to the source of the text.
Dabei kann es auch Gegenstand des Verfahrens sein, anstelle der Übermittlung und/oder Wiedergabe von Informationen zusätzlich oder stattdessen andere Schritte einzuleiten, wie beispielsweise Rabatte zu gewähren oder Steuerungsvorgänge oder Verfahren einzuleiten bzw. durchzuführen. It may also be the subject of the method, in addition to the transmission and / or reproduction of information in addition or instead to initiate other steps, such as to grant discounts or initiate or carry out control processes or procedures.
Gelöst wird die Aufgabe durch ein Verfahren gemäß Anspruch 1, ein System oder Server gemäß Anspruch 9 und einen Datenträger gemäß Anspruch 10. Die abhängigen Ansprüche 2 bis 8 geben vorteilhafte Weiterbildungen an. The object is achieved by a method according to claim 1, a system or server according to claim 9 and a data carrier according to claim 10. The dependent claims 2 to 8 indicate advantageous developments.
Das Verfahren zur Übermittlung und/oder Wiedergabe von Informationen kann unterschiedlichste Arten von Informationen übermitteln und/oder wiedergeben. Hier können beispielsweise Textinhalte, Bilder, begleitende Informationen, Audi-, Videoinhalte, Rabattgutscheine und/oder auch die bloße Information über das Überprüfungsergebnis beinhaltet oder umfasst sein. Insbesondere wird bevorzugt, wenn Textabschnitte in der Information enthalten sind oder die Information durch solche Textabschnitte gebildet wird. Die Übermittlung und/oder Wiedergabe kann beispielsweise an bzw. auf einem Endgerät, wie beispielsweise einem Laptop, einem PDA, einem Tablet, einem Notebook oder einem Smartphone erfolgen. Aber auch eine Anzeige zum Beispiel auf einem Display, Monitor oder ähnlichem ist denkbar. Die Übermittlung kann beispielsweise drahtlos, beispielsweise über das Internet oder andere Medien erfolgen. Mit besonderem Vorteil werden die Informationen zumindest übermittelt, insbesondere übermittelt und wiedergegeben, wobei die Wiedergabe insbesondere in einer Anzeige der Information besteht. Andere Wiedergaben, wie beispielsweise das Abspielen von Video- und/oder Audiosignalen sind jedoch ebenfalls möglich. The method for transmitting and / or reproducing information can transmit and / or reproduce various types of information. Here, for example, text contents, images, accompanying information, audio, video content, discount vouchers and / or even the mere information about the check result may be included or included. In particular, it is preferred if text sections are included in the information or the information is formed by such text sections. The transmission and / or reproduction can take place, for example, on or on a terminal, such as a laptop, a PDA, a tablet, a notebook or a smartphone. But even a display, for example, on a display, monitor or the like is conceivable. The transmission can take place, for example, wirelessly, for example via the Internet or other media. With particular advantage, the information is at least transmitted, in particular transmitted and reproduced, wherein the reproduction consists in particular in a display of the information. However, other playbacks such as playing video and / or audio signals are also possible.
Das Verfahren umfasst dabei einen Schritt, in dem mindestens eine Seite oder ein Seitenabschnitt einer Seite optisch erfasst oder eine optische Ablichtung einer Seite oder eines Seitenabschnittes einer Seite empfangen wird. Dabei enthält die Seite oder der Seitenabschnitt mindestens zwei Wörter. Darüber hinaus wird eine Texterkennung von auf der Seite oder dem Seitenabschnitt enthaltenen Zeilen durchgeführt, durch die eine Menge an erkannten Zeichengruppierungen, insbesondere jeweils zusammenhängenden Zeichengruppierungen, insbesondere Wörtern, erhalten wird, die zumindest teilweise den enthaltenden Wörtern auf der Seite vermutlich entspricht und/oder ähnelt. Eine sichere Entsprechung kann auf Grund von Fehlern der Texterkennung nicht erwartet werden.The method in this case comprises a step in which at least one side or a side section of a page is optically detected or an optical illumination of a page or a side section of a page is received. The page or page section contains at least two words. In addition, text recognition is performed on lines contained on the page or page section, by which a set of recognized character groupings, in particular respective contiguous character groupings, in particular words, which at least partially corresponds to and / or resembles the containing words on the page, is obtained , A secure match can not be expected due to text recognition errors.
Alternativ kann auch ein Text empfangen werden, der Zeichengruppierungen und zumindest relative Positionsangaben zu den Zeichengruppierungen enthält. Derartige Zeichengruppierungen sind insbesondere jeweils zusammenhängende Zeichengruppierungen, insbesondere Wörter. Über relative Positionsangaben hinausgehend können auch absolute Positionsangaben enthalten sein. Es ist beispielsweise möglich, jeweils einen Anfangspunkt und ggf. auch eine Erstreckung zu jeder Zeichengruppierung als relative oder absolute Angabe zu empfangen. Es können jedoch auch Positionsangaben zu jedem einzelnen Zeichen empfangen werden. Auch eine Kombination oder eine ähnliche Ausführung sind denkbar. Alternatively, a text can also be received that contains character groupings and at least relative position information to the character groupings. Such character groupings are, in particular, respective contiguous character groupings, in particular words. Beyond relative position information, absolute position information may also be included. For example, it is possible to receive in each case a starting point and possibly also an extension to each character grouping as relative or absolute information. However, position information about each character can also be received. A combination or a similar design are conceivable.
Darüber hinaus wird verfahrensgemäß aus einer digitalen Datensammlung, insbesondere Datenbank, die Informationen zu auf gedruckten Seiten beinhalteten gedruckten Zeichen umfasst, aufgrund mindestens eines Vergleiches der der empfangenen oder durch Texterkennung erkannten Zeichengruppierungen mit Informationen der digitalen Datensammlung, insbesondere mit gedruckten Zeichen, die als Information in der digitalen Datensammlung enthalten sind, mindestens eine gedruckte Seite oder ein Abschnitt mindestens einer gedruckten Seite aus der digitalen Datensammlung als Kandidat ermittelt. Dabei weist der mindestens eine Kandidat möglichst viele Zeichengruppierungen einer Erstauswahl der erkannten oder empfangenen Zeichengruppierungen auf. Moreover, according to the method, from a digital data collection, in particular a database, containing information on printed characters contained on printed pages, due to at least a comparison of the received or recognized text character groups with digital data collection information, in particular with printed characters, as information in contained in the digital data collection, at least one printed page or a section of at least one printed page from the digital data collection determined as a candidate. In this case, the at least one candidate has as many character groupings as possible of an initial selection of the recognized or received character groupings.
In diesem Schritt wird somit mindestens ein Kandidat aus der digitalen Datensammlung ermittelt, der möglichst viele Zeichengruppierungen aufweist, die auch im empfangenen Text oder in den erkannten Zeichengruppierungen enthalten sind. Dabei wird die Wahrscheinlichkeit zugrunde gelegt, mit der es sich bei der optisch erfassten Seite oder der der optischen Abbildung zugrunde liegenden Seite um ein Exemplar des mindestens einen Evaluationskandidaten oder bei dem optisch erfassten Seitenabschnitt um einen Ausschnitt eines Exemplars des mindestens einen Evaluationskandidaten oder bei dem empfangenen Text mit Positionsangaben um zu dem mindestens einen Evaluationskandidaten passenden Text und Positionsangaben handelt. Es wird somit für zumindest einen der Kandidaten, der als Evaluationskandidat behandelt wird, eine solche Wahrscheinlichkeit ermittelt oder es wird ein Ranking zwischen einzelnen als Evaluationskandidaten bestimmten Kandidaten festgelegt. Es kann aber auch eine Wahrscheinlichkeit für jeden der als ermittelten Kandidaten bestimmt werden und können somit alle Kandidaten zu Evaluationskandidaten erhoben werden. Die Festlegung, welcher Kandidat als Evaluationskandidat behandelt wird, kann anhand verschiedener Kriterien durchgeführt werden. Zum einen kann beispielsweise beginnend bei dem Kandidaten mit der höchsten Übereinstimmung im vorhergehenden Vergleich als Evaluationskandidat eine Wahrscheinlichkeit bestimmt werden und dann entschieden werden, ob die Wahrscheinlichkeit ausreicht und somit kein weiterer Kandidat als Evaluationskandidat verwendet wird oder ob, beispielsweise aufgrund des Wahrscheinlichkeitswertes für den ersten Evaluationskandidaten ein weiterer Kandidat als Evaluationskandidat behandelt werden soll. Aber auch andere Vorgehensweisen, bei denen beispielsweise eine festgelegte Anzahl von Kandidaten als Evaluationskandidat behandelt wird, sind denkbar. In this step, at least one candidate is thus determined from the digital data collection which has as many character groupings as possible which are also contained in the received text or in the recognized character groupings. This is based on the probability with which the optically recorded page or the page underlying the optical image is a copy of the at least one evaluation candidate or the optically acquired page section is a section of a copy of the at least one evaluation candidate or the received one Text with position information to which at least one evaluation candidate matches the text and position information. Thus, for at least one of the candidates being treated as an evaluation candidate, such a probability is determined or a ranking is determined between individual candidates determined as evaluation candidates. However, it is also possible to determine a probability for each of the candidates identified, and thus all candidates can be made evaluation candidates. The determination of which candidate is to be considered as an evaluation candidate can be carried out on the basis of various criteria. On the one hand, for example, starting with the candidate with the highest match in the previous comparison as an evaluation candidate, a probability can be determined and then a decision is made as to whether the probability is sufficient and thus no further candidate is used as the evaluation candidate or if, for example, based on the probability value for the first evaluation candidate Another candidate should be treated as an evaluation candidate. But other approaches, for example, where a fixed number of candidates are treated as evaluation candidates, are conceivable.
Auch ist die Bildung des Wahrscheinlichkeitswertes auf verschiedene Arten und Methoden denkbar. Also, the formation of the probability value on different types and methods is conceivable.
Sodann umfasst das erfindungsgemäße Verfahren insbesondere die Wiedergabe und/oder das Übermitteln von mit dem Evaluationskandidaten des mindestens einen Evaluationskandidaten, für den die höchste Wahrscheinlichkeit ermittelt wurde, über die digitale Datensammlung oder Nutzung der Information der digitalen Datensammlung verknüpften Information, wenn der Wahrscheinlichkeitswert eine vorgegebene Grenze überschreitet und Unterlassen des Übermittelns und/oder Wiedergebens oder des anderen Schritts, wie Einräumung eines Rabattes, von dem Evaluationskandidaten des mindestens einen Evaluationskandidaten, für den die höchste Wahrscheinlichkeit ermittelt wurde, wenn der Wahrscheinlichkeitswert eine vorgegebene Grenze unterschreitet. The method according to the invention then comprises, in particular, the reproduction and / or transmission of information linked to the evaluation candidate of the at least one evaluation candidate for which the highest probability has been determined, via the digital data collection or use of the information of the digital data collection, if the probability value has a predetermined limit exceeds and omitting the transmitting and / or reproducing or the other step, such as granting a discount, from the evaluation candidate of the at least one evaluation candidate for which the highest probability was determined when the probability value falls below a predetermined limit.
Dabei ist das erfindungsgemäße Verfahren insbesondere dadurch gekennzeichnet, dass ein zweiter Vergleich einen Vergleich umfasst, bei dem eine Auswahl kombinatorisch möglicher Paare einer Zeichengruppierungsauswahl der erkannten oder empfangenen Zeichengruppierungen gebildet wird. Es wird also eine Zeichengruppierungsauswahl aus den erkannten oder empfangenen Zeichengruppierungen gebildet. Dies kann anhand verschiedener Kriterien durchgeführt werden. Die Auswahl kann auch alle erkannten Zeichengruppierungen bzw. empfangenen Zeichengruppierungen umfassen. Sodann wird eine Auswahl kombinatorisch möglicher Paare der Zeichengruppierungsauswahl gebildet. Diese Auswahl kann wiederum alle kombinatorisch möglichen Paare enthalten, es kann auch eine Auswahl anhand verschiedener Kriterien durchgeführt werden. In this case, the method according to the invention is characterized in particular in that a second comparison comprises a comparison in which a selection of combinatorially possible pairs of a character grouping selection of the recognized or received character groupings is formed. Thus, a character grouping selection is formed from the recognized or received character groupings. This can be done on the basis of different criteria. The selection may also include all recognized character groupings or received character groupings. Then, a selection of combinatorially possible pairs of the character grouping selection is formed. This selection in turn may contain all combinatorially possible pairs, it may also be a selection based on various criteria.
Darüber hinaus werden die relativen Positionen der in der Auswahl kombinatorisch möglicher Paare jeweils enthaltenen Zeichengruppierungen bestimmt und wird für jedes Paar der Auswahl jeweils ein in Bezug auf die relative Position der enthaltenen Zeichengruppierungen nach vorgegebenen Kriterien passendes Referenzzeichengruppenpaar von die Zeichengruppierungen des Paares enthaltenden gedruckten Zeichen in dem mindestens einen Evaluationskandidaten gesucht. Es wird also bestimmt, ob ein räumlich passendes identisches Zeichengruppierungspaar als Referenzzeichengruppenpaar in dem Evaluationskandidaten enthalten ist. Moreover, the relative positions of the character groupings respectively contained in the selection of combinatorially possible pairs are determined, and for each pair of the selection, a reference character group pair corresponding to the relative position of the contained character groupings according to predetermined criteria of printed characters containing the character groupings of the pair is respectively written at least one candidate for evaluation sought. It is thus determined whether a spatially matching identical character grouping pair is included as a reference character group pair in the evaluation candidate.
Alternativ kann, anders herum vorgehend, aus dem mindestens einen Evaluationskandidaten für jedes Paar der Auswahl kombinatorisch möglicher Paare mindestens ein Referenzzeichengruppenpaar mit gedruckten Zeichen aus der als Evaluationskandidat bestimmten gedruckten Seite gesucht werden. Dabei enthält das Referenzzeichengruppenpaar die jeweiligen Zeichengruppierungen des jeweiligen Paares der Auswahl kombinatorisch möglicher Paare. Hier können auch alle möglichen Referenzgruppenpaare des jeweiligen Evaluationskandidaten bestimmt werden. Es kann sich jedoch auch auf eine gewisse, beispielsweise vorgegebene, Anzahl beschränkt werden. Alternatively, conversely, from the at least one evaluation candidate for each pair of combinatorially possible pair selection, at least one reference character group pair of printed characters may be searched from the printed page designated as the evaluation candidate. The reference character group pair contains the respective character groupings of the respective pair of the selection of combinatorially possible pairs. Here also all possible reference group pairs of the respective evaluation candidate can be determined. However, it may also be limited to a certain number, for example predetermined.
Darüber hinaus werden die relativen Positionen der gedruckten Zeichen in den Referenzzeichengruppen auf der als Evaluationskandidat bestimmten gedruckten Seite bestimmt und aus den Referenzzeichengruppenpaaren zu jedem Paar der Auswahl kombinatorisch möglicher Paare ein jeweils zu dem Paar der Auswahl kombinatorisch möglicher Paare in Bezug auf die relative Position nach den vorgegebenen Kriterien passendes Referenzzeichengruppenpaar gesucht. Moreover, the relative positions of the printed characters in the reference character groups are determined on the printed page designated as the evaluation candidate, and from the reference character group pairs to each pair of combinatorially possible pair selection, each pair corresponding to the pair of combinatorially possible pairs in relation to the relative position predefined criteria matching reference character group pair sought.
Es wird also, kurz gesprochen, mindestens ein Referenzzeichengruppenpaar im Evaluationskandidaten bestimmt und geprüft, ob deren Referenzzeichengruppen in Bezug auf die Position auf der Seite bzw. dem Seitenausschnitt zu dem erkannten Text bzw. dem empfangenen Text und den entsprechenden Positionierungen passen. Thus, in short, at least one reference character group pair in the evaluation candidate is determined and checked as to whether their reference character groups with respect to the position on the page or the page detail match the recognized text or the received text and the corresponding positioning.
Dabei können als vorgegebene Kriterien verschiedene angewandt werden. Einige mögliche davon werden weiter unten im nachfolgenden Text näher erläutert und/oder exemplarisch vorgestellt. Different criteria can be applied as predefined criteria. Some of these will be explained in more detail in the following text and / or presented as an example.
Erfindungsgemäß wird für den mindestens einen Evaluationskandidaten ein Evaluationswert bestimmt, der angibt, zu wie vielen der Paare, die in der Auswahl der kombinatorisch möglichen Paare enthalten sind, in dem mindestens einen Evaluationskandidaten nach den vorgegebenen Kriterien in Bezug auf die relative Position mindestens ein passendes Referenzzeichengruppenpaar vorliegen. Erfindungsgemäß basiert der Wahrscheinlichkeitswert und/oder das Wahrscheinlichkeitsranking auf dem Evaluationswert des mindestens einen Evaluationskandidaten. According to the invention, for the at least one evaluation candidate, an evaluation value is determined which specifies to how many of the pairs contained in the selection of combinatorially possible pairs at least one matching reference character group pair in the at least one evaluation candidate according to the predetermined criteria with respect to the relative position available. According to the invention, the probability value and / or the probability ranking are based on the evaluation value of the at least one evaluation candidate.
Dabei kann ein solcher Evaluationswert auf beide zuvor geschilderte Arten erreicht werden, zum Einen in dem basierend auf der Auswahl der kombinatorisch möglichen Paare begonnen wird und zum Anderen in den von den Evaluationskandidaten ausgehend begonnen wird. In this case, such an evaluation value can be achieved in both previously described ways, on the one hand, based on the selection of the combinatorially possible pairs, and on the other hand, starting from the evaluation candidates.
Durch ein derartiges Verfahren lassen sich beispielsweise unterschiedliche Versionen von einem Text unterscheiden, bei denen der Text identisch ist, die Textanordnung sich jedoch unterscheidet, wie dies beispielsweise bei unterschiedlichen Ausgaben eines Buches der Fall sein kann. Darüber hinaus lassen sich auch innerhalb eines Buches mehrere Stellen, die den gleichen Text zeigen, voneinander unterscheiden, sofern sich die Anordnung des Textes, beispielsweise die Zeilenumbrüche, an den unterschiedlichen Stellen unterscheiden. Darüber hinaus lassen sich auch Fotografien beispielsweise von Google-Books von den tatsächlichen gedruckten Büchern unterscheiden, da auch hier ein Unterschied in Bezug auf die Anordnung des Textes meist feststellbar ist. By such a method, for example, different versions can be distinguished from a text in which the text is identical, but the text arrangement differs, as may be the case, for example, in different editions of a book. Moreover, even within a book, several passages showing the same text can be distinguished from each other, as long as the arrangement of the text, for example the line breaks, differs at the different points. In addition, photographs, for example, from Google Books can be distinguished from the actual printed books, as here, too, a difference in terms of the arrangement of the text is usually detectable.
All dies ist möglich, ohne weitere Informationen, wie beispielsweise versteckte Codes oder Barcodes auf die Seiten aufdrucken zu müssen. Die digitale Datensammlung umfasst dabei insbesondere Dokumente, die die gedruckten Seiten beinhalten, beispielsweise als maschinenlesbare pdf-Dokumente, aber auch das Vorhalten von reinen Bilddokumenten ist möglich, sofern der Text auslesbar ist, beispielsweise über eine Texterkennung.All this is possible without having to print further information, such as hidden codes or barcodes on the pages. The digital data collection includes in particular documents that contain the printed pages, such as machine-readable pdf documents, but also the provision of pure image documents is possible if the text is readable, for example via a text recognition.
Mit besonderem Vorteil enthält die Auswahl kombinatorisch möglicher Paare einer Zeichengruppierungsauswahl mindestens ein Zeichen und/oder mindestens eine Zeichenfolge, die in den gedruckten Zeichen des Evaluationskandidaten und/oder Kandidaten und/oder den empfangenen Text und/oder in der Menge der erkannten Zeichengruppierungen jeweils maximal fünfmal, insbesondere maximal dreimal vorkommt. Alternativ oder zusätzlich kann die Auswahl kombinatorisch möglicher Paare einer Zeichengruppierungsauswahl auch derart erfolgen, dass insgesamt im gesamten Sprachgebrauch seltene Zeichen bevorzugt in der Zeichengruppierungsauswahl beinhaltet und in der Auswahl kombinatorisch möglicher Paare einer Zeichengruppierungsauswahl beinhaltet werden. Genauso kann auch mit seltenen Zeichenfolgen vorgegangen werden, die ebenfalls vorteilhaft in der Auswahl und/oder der Zeichengruppierungsauswahl beinhaltet werden. With particular advantage, the selection of combinatorially possible pairs of a character grouping selection contains at least one character and / or at least one character string which is not more than five times in the printed characters of the evaluation candidate and / or candidate and / or the received text and / or in the set of recognized character groupings , In particular, occurs at most three times. Alternatively or additionally, the selection of combinatorially possible pairs of a character grouping selection can also take place in such a way that overall characters that are rare throughout the entire language are preferably included in the character grouping selection and included in the selection of combinatorially possible pairs of a character grouping selection. In the same way, it is also possible to proceed with rare strings, which are likewise advantageously included in the selection and / or the character grouping selection.
Durch eine derartige Durchführung der Zeichengruppierungsauswahl bzw. der Auswahl kombinatorisch möglicher Paare lässt sich mit besonders wenig Rechenaufwand ein besonders effektiver und aussagekräftiger Vergleich erreichen.Such a performance of the character grouping selection or the selection of combinatorially possible pairs makes it possible to achieve a particularly effective and meaningful comparison with very little computational effort.
Mit besonderem Vorteil umfasst die Erstauswahl alle empfangenen oder erkannten Zeichengruppierungen und/oder umfasst die Auswahl kombinatorisch möglicher Paare alle kombinatorisch möglichen Paare und/oder umfasst die Zeichengruppierungsauswahl alle Zeichengruppierungen. With special advantage, the first selection comprises all received or recognized character groupings and / or comprises the selection of combinatorially possible pairs of all combinatorially possible pairs and / or the character grouping selection comprises all character groupings.
Die Erstauswahl kann auf verschiedene Art und Weise gebildet werden. Sie kann beispielsweise die Gesamtheit der erkannten Zeichengruppierungen bzw. der empfangenen Zeichengruppierungen enthalten, sie kann aber auch nur einen Teil enthalten, dabei kann sie insbesondere seltene Zeichen oder Zeichenfolgen bevorzugt enthalten und/oder auf seltene Zeichen oder Zeichenfolgen beschränkt sein, beispielsweise solche bzw. auf solche die in einer oder mehrerer Sprachen insgesamt selten verwendet werden oder solche bzw. auf solche, die in den erkannten oder empfangenen Zeichengruppierungen selten vorkommen, insbesondere maximal fünfmal, insbesondere maximal dreimal.The initial selection can be made in different ways. It may, for example, contain the entirety of the recognized character groupings or of the received character groupings, but it may also contain only one part, in which case it can preferably contain rare characters or character sequences and / or be limited to rare characters or character sequences, for example those or on those that are rarely used in one or more languages altogether or those or those that are rare in the recognized or received character groupings, in particular a maximum of five times, in particular a maximum of three times.
Durch Beinhalten aller Zeichengruppierungen in der Erstauswahl und/oder aller kombinatorisch möglicher Paare in der Auswahl kann ein besonders aussagekräftiger Vergleich erreicht werden, wenn auch die Rechenzeit entsprechend hoch anzusetzen ist. By including all character groupings in the initial selection and / or all combinatorially possible pairs in the selection, a particularly meaningful comparison can be achieved, even if the calculation time is set correspondingly high.
Mit besonderem Vorteil umfasst die Erstauswahl alle Zeichengruppierungen der Zeichengruppierungsauswahl und/oder umfasst die Zeichengruppierungsauswahl alle Zeichengruppierungen der Erstauswahl. Durch eine entsprechende Übereinstimmung bzw. teilweise Übereinstimmung der Auswahl, insbesondere bei Durchführung einer Auswahl zur Verringerung der Rechenzeit, kann dies an beiden Stellen gleichlautend durchgeführt werden. Insbesondere ist dadurch auch sicherstellbar, dass entsprechende Paare zumindest unabhängig von deren Anordnung im Evaluationskandidaten bzw. Kandidaten aufgefunden werden können. With particular advantage, the first selection comprises all character groupings of the character grouping selection and / or the character grouping selection comprises all the character groupings of the initial selection. By an appropriate Correspondence or partial agreement of the selection, in particular when performing a selection to reduce the computing time, this can be carried out identically in both places. In particular, this also makes it possible to ensure that corresponding pairs can be found at least independently of their arrangement in the evaluation candidate or candidate.
Mit besonderem Vorteil ist das vorgegebene Kriterium zumindest zum Teil dadurch gegeben, ob die Anordnung der Referenzzeichengruppen als in der gleichen oder in einer anderen Zeile des Textes angeordnet mit der Anordnung des jeweiligen Paars von Zeichengruppierungen der Auswahl kombinatorisch möglicher Paare der Zeichengruppierungsauswahl übereinstimmt. Ist also im erkannten bzw. empfangenen Text das jeweilige Paar in der gleichen Zeile angeordnet, müsste das Referenzzeichengruppenpaar ebenfalls in einer Zeile angeordnet sein, um diesem Kriterium gerecht zu werden. Sind beispielsweise die Zeilenumbrüche zwischen dem empfangenen bzw. erkannten Text gegenüber denen im Evaluationskandidaten so verschoben, dass dies auch das Referenzzeichengruppenpaar betrifft, und dieses somit beispielsweise in einer Zeile angeordnet ist, während das entsprechende Paar von Zeichengruppierungen der Auswahl kombinatorisch möglicher Paare der Zeichengruppierungsauswahl im empfangenen bzw. erkannten Text in unterschiedlichen Zeilen angeordnet ist, wäre das Kriterium nicht erfüllt. With particular advantage, the predetermined criterion is at least in part given by whether the arrangement of the reference character groups as arranged in the same or in another line of the text matches the arrangement of the respective pair of character groupings of selecting combinationally possible pairs of the character grouping selection. Thus, if the respective pair is arranged in the same line in the recognized or received text, then the reference character group pair would also have to be arranged in one line in order to meet this criterion. If, for example, the line breaks between the received or recognized text are shifted from those in the evaluation candidate, this also concerns the reference character group pair, and this is thus arranged in a line, for example, while the corresponding pair of character groupings selects combinatorially possible pairs of the character grouping selection in the received or recognized text is arranged in different lines, the criterion would not be met.
Zusätzlich oder alternativ kann das vorgegebene Kriterium beinhalten oder darin bestehen, ob die relative Anordnung der Referenzzeichengruppen im Referenzzeichengruppenpaar verglichen mit der relativen Anordnung der Zeichengruppierungen im Paar von Zeichengruppierungen der Auswahl kombinatorisch möglicher Paare der Zeichengruppierungsauswahl mit einer Toleranz von zum Beispiel bis zu 5% der Gesamtabmessung der optischen Ablichtung, des empfangenen Textes und/oder der gedruckten Seite und/oder von zwei Buchstabenhöhen und/oder zwei Buchstabenbreiten übereinstimmt. Dabei beziehen sich die Maße von Buchstabenhöhen bzw. Buchstabenbreiten insbesondere auf den jeweiligen Text, also bei der relativen Anordnung der Referenzzeichengruppen auf die in der digitalen Datensammlung enthaltenen Informationen bzw. gedruckten Zeichen und/oder bei dem Paar der Zeichengruppierungen der Auswahl kombinatorisch möglicher Paare der Zeichengruppierungsauswahl auf den erkannten bzw. empfangenen Text bzw. auf die Ablichtung der Seite bzw. des Seitenabschnittes. Additionally or alternatively, the predetermined criterion may include or consist of determining whether the relative location of the reference character groups in the reference character group pair compared to the relative arrangement of the character groupings in the pair of character groupings selects combinatorially possible pairs of character grouping choices with a tolerance of, for example, up to 5% of the overall dimension the optical illumination, the received text and / or the printed page and / or two letter heights and / or two letter widths. In this case, the dimensions of letter heights or letter widths relate in particular to the respective text, that is to say the relative arrangement of the reference character groups on the information or printed characters contained in the digital data collection and / or on the pair of character groupings of the selection of combinatorially possible pairs of the character grouping selection on the recognized or received text or on the illumination of the page or the side section.
Durch die Vorsehung solcher Toleranzen können insbesondere Erkennungsungenauigkeiten, beispielsweise bei schräger Ablichtung oder andere Toleranzen, wie beispielsweise beim Druck berücksichtigt werden, insbesondere ohne die Erkennungsgenauigkeit wesentlich zu verschlechtern. By providing such tolerances, in particular detection inaccuracies, for example in oblique illumination or other tolerances, such as in printing, can be taken into account, in particular without significantly impairing the recognition accuracy.
Alternativ oder zusätzlich kann das vorgegebene Kriterium dadurch gegeben sein, ob die Reihenfolge der Zeichengruppen und Referenzzeichengruppen in Leserichtung übereinstimmt. Alternatively or additionally, the predetermined criterion can be given by whether the order of the character groups and reference character groups in reading direction matches.
Alternativ und/oder zusätzlich kann das vorgegebene Kriterium dadurch gegeben sein, ob die Anordnung der Zeichengruppen und Referenzzeichengruppen in Kategorien wie oberhalb oder unterhalb und/oder rechts oder links voneinander übereinstimmt. Hier ist somit die Anordnung der Zeichengruppen bzw. Referenzzeichengruppen beispielsweise innerhalb eines XY-Koordinatensystems auf der Seite dahin zu betrachten, ob das Vorzeichen der Differenz der X-Koordinaten bzw. Vorzeichen der Differenz der Y-Koordinaten zwischen Paar der Auswahl und Referenzzeichengruppenpaar übereinstimmt. Dies ist in Abgrenzung von in Leserichtung vor oder nacheinander stehend zu beurteilen, da sich die Leserichtung von einer Zeile am Zeilenende auf die danach folgende Zeile am Zeilenanfang erstreckt. Alternatively and / or additionally, the predetermined criterion can be given by whether the arrangement of the character groups and reference character groups in categories such as above or below and / or right or left match. Here, therefore, the arrangement of the character groups or reference character groups, for example, within an XY coordinate system on the page is to be considered as to whether the sign of the difference of the X coordinates or signs matches the difference of the Y coordinates between the pair of the selection and the reference character group pair. This is to be judged as distinguished from in the reading direction before or after one another, since the reading direction extends from one line at the end of the line to the next following line at the beginning of the line.
Gelöst wird die Aufgabe auch durch ein System oder Server zur Übermittlung und/oder Wiedergabe von Informationen, aufweisend einen Server und eine digitale Datensammlung enthaltend Informationen zur auf gedruckten Seiten beinhalteten gedruckten Zeichen sowie Mittel zum Empfang mindestens einer optischen Ablichtung einer Seite oder eines Seitenabschnittes einer Seite, wobei die Seite oder der Seitenabschnitt mindestens zwei Zeichengruppen enthält. Darüber hinaus weist das System und/oder der Server Mittel zur Texterkennung und/oder Mittel zur optischen Erfassung einer Seite oder eines Seitenabschnittes einer Seite auf, wobei die Seite oder der Seitenabschnitt mindestens zwei Zeichengruppen enthält. Alternativ und/oder zusätzlich weist das System oder der Server Mittel zum Empfangen eines Textes, enthaltend Zeichengruppierungen und zumindest relative Positionsangaben zu den Zeichengruppierungen auf. Darüber hinaus weist das System oder der Server Mittel zur Anzeige und/oder Übermittlung von über die digitale Datensammlung oder unter Nutzung der Informationen der digitalen Datensammlung verknüpften Informationen auf. Dabei ist der Server oder das System eingerichtet, ein erfindungsgemäßes Verfahren auszuführen. Wie schon in Bezug auf das Verfahren ausgeführt kann es sich auch bei dem System nicht nur um ein System zur Ermittlung und/oder Wiedergabe von Informationen handeln. Das System kann auch eingerichtet sein zur Ansteuerung oder Gewährung von Rabatten oder anderen oben in Bezug auf das Verfahren ausgeführten Schritten, Zielen bzw. Ergebnissen. Auch die weiteren Erläuterungen in Bezug auf das Verfahren lassen sich entsprechend übertragen. Auch die vorteilhaften Merkmale des Verfahrens bieten Vorteile, sofern sie im System oder Server implementiert sind. The object is also achieved by a system or server for transmitting and / or reproducing information, comprising a server and a digital data collection containing information on the printed characters contained on printed pages and means for receiving at least one optical illumination of a page or a page portion of a page , where the page or page section contains at least two character groups. In addition, the system and / or the server has means for text recognition and / or means for optically detecting a page or a page section of a page, wherein the page or the page section contains at least two character groups. Alternatively and / or additionally, the system or the server comprises means for receiving a text comprising character groupings and at least relative position information to the character groupings. In addition, the system or server includes means for displaying and / or communicating information associated with the digital data collection or using the digital data collection information. In this case, the server or the system is set up to carry out a method according to the invention. As already stated with respect to the method, the system may not be just a system for detecting and / or reproducing information. The system may also be arranged to trigger or grant rebates or other steps, goals, or results outlined above with respect to the method. The further explanations with respect to the method can be transferred accordingly. Also, the advantageous features of the method offer advantages if they are implemented in the system or server.
Gelöst wird die Aufgabe auch durch einen Datenträger aufweisend eine Software, eingerichtet zur Durchführung eines erfindungsgemäßen Verfahrens. The object is also achieved by a data carrier having a software set up for carrying out a method according to the invention.
ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturCited patent literature
- DE 102013019675 B3 [0002] DE 102013019675 B3 [0002]
- US 2007/0019864 A1 [0002] US 2007/0019864 A1 [0002]
- DE 102012008512 A1 [0003] DE 102012008512 A1 [0003]
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102015108236.5A DE102015108236A1 (en) | 2015-05-26 | 2015-05-26 | Method for linking printed texts with digital content |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102015108236.5A DE102015108236A1 (en) | 2015-05-26 | 2015-05-26 | Method for linking printed texts with digital content |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102015108236A1 true DE102015108236A1 (en) | 2016-12-01 |
Family
ID=57281492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102015108236.5A Withdrawn DE102015108236A1 (en) | 2015-05-26 | 2015-05-26 | Method for linking printed texts with digital content |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102015108236A1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070019864A1 (en) | 2005-07-21 | 2007-01-25 | Takahiro Koyama | Image search system, image search method, and storage medium |
DE102012008512A1 (en) | 2012-05-02 | 2013-11-07 | Eyec Gmbh | Apparatus and method for comparing two graphics and text elements containing files |
DE102013019675B3 (en) | 2013-05-29 | 2014-11-27 | Wolfgang Beyer | System and method for the retrievable storage, recording and reproduction of information of the advertising and information media |
-
2015
- 2015-05-26 DE DE102015108236.5A patent/DE102015108236A1/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070019864A1 (en) | 2005-07-21 | 2007-01-25 | Takahiro Koyama | Image search system, image search method, and storage medium |
DE102012008512A1 (en) | 2012-05-02 | 2013-11-07 | Eyec Gmbh | Apparatus and method for comparing two graphics and text elements containing files |
DE102013019675B3 (en) | 2013-05-29 | 2014-11-27 | Wolfgang Beyer | System and method for the retrievable storage, recording and reproduction of information of the advertising and information media |
Non-Patent Citations (3)
Title |
---|
MURUGAPPAN, Abirami; RAMACHANDRAN, Baskaran; DHAVACHELVAN, P. A survey of keyword spotting techniques for printed document images. Artificial Intelligence Review, 2011, 35. Jg., Nr. 2, S. 119-136. doi: 10.1007/s10462-010-9187-5 * |
TIRILLY, Pierre; CLAVEAU, Vincent; GROS, Patrick. Distances and weighting schemes for bag of visual words image retrieval. In: Proceedings of the international conference on multimedia information retrieval. ACM, 2010. S. 323-332. doi: 10.1145/1743384.1743438 * |
VAN BEUSEKOM, Joost, et al. Distance measures for layout-based document image retrieval. In: Document Image Analysis for Libraries, 2006. DIAL'06. Second International Conference on. IEEE, 2006. S. 11 pp.-242. doi: 10.1109/DIAL.2006.16 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102017008430A1 (en) | Methods and systems for generating virtual reality environments from electronic documents | |
DE60224128T2 (en) | Apparatus and method for recognizing characters and mathematical expressions | |
DE10317234A1 (en) | Systems and methods for improved accuracy from extracted digital content | |
DE10342594B4 (en) | Method and system for collecting data from a plurality of machine readable documents | |
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
DE60204005T2 (en) | METHOD AND DEVICE FOR RECOGNIZING A HANDWRITTEN PATTERN | |
DE19547812C2 (en) | Character string reader | |
EP2463101A1 (en) | System and method for creating and inspecting prints with static and variable content | |
DE60031502T2 (en) | Method and device for determining the type of a form | |
DE102014113817A1 (en) | Device and method for recognizing an object in an image | |
EP1918104A2 (en) | Method for testing an imprint and imprint testing device | |
EP2273383A1 (en) | Method and device for automatic searching for documents in a data storage device | |
CN116012860B (en) | Teacher blackboard writing design level diagnosis method and device based on image recognition | |
DE102017106663A1 (en) | INFORMATION PROCESSING AND ELECTRONIC DEVICE | |
EP2048597A1 (en) | Method for detecting an object | |
DE102015108236A1 (en) | Method for linking printed texts with digital content | |
US8320677B2 (en) | Method for processing optical character recognition (OCR) output data, wherein the output data comprises double printed character images | |
Deshpande et al. | Summarization of graph using question answer approach | |
EP1364337A1 (en) | Method for the identification of stored information | |
WO2011027113A1 (en) | Method and apparatus for segmenting images | |
JP4347675B2 (en) | Form OCR program, method and apparatus | |
EP2315159A2 (en) | Method and device for recognising and classifying sections of a document which can be accessed on a computer by means of step-by-step learning during training sessions | |
Hari Kumar et al. | Optical Letter Recognition for Roman-Text | |
DE202015006393U1 (en) | System for identifying and marking a mathematical expression in an electronic text document | |
DE4345583B4 (en) | Cursive handwritten word recognition from sequential input information - using construction word correlation tables to select strings of vocabulary metastrokes corresponding to candidate word and identifies most likely match |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0017270000 Ipc: G06T0001000000 |
|
R163 | Identified publications notified | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |