DE102008014611A1 - Method for displaying meta-information and device - Google Patents
Method for displaying meta-information and device Download PDFInfo
- Publication number
- DE102008014611A1 DE102008014611A1 DE102008014611A DE102008014611A DE102008014611A1 DE 102008014611 A1 DE102008014611 A1 DE 102008014611A1 DE 102008014611 A DE102008014611 A DE 102008014611A DE 102008014611 A DE102008014611 A DE 102008014611A DE 102008014611 A1 DE102008014611 A1 DE 102008014611A1
- Authority
- DE
- Germany
- Prior art keywords
- character
- string
- converted
- characters
- character encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
Bei einem Verfahren zur Darstellung vom Metainformationen durch lesbare Zeichen, bei dem die Metainformation in einer Bytefolge abgelegt sind, wird die Bytefolge mit einer Standardzeichenkodierung konvertiert, um eine erste Zeichenkette zu erhalten. Ebenso wird die Bytefolge mit wenigstens einer zweiten Zeichenkodierung konvertiert, um wenigstens eine zweite Zeichenkette zu erhalten. Anschließend wird die erste Zeichenkette und die wenigstens eine zweite Zeichenkette miteinander verglichen, um übereinstimmende konvertierte Zeichen in den beiden Zeichenketten zu bestimmen. Anhand der Häufigkeit einer Übereinstimmung konvertierter Zeichen wird bestimmt, welche der Zeichenkodierungen für eine Konvertierung der in der Bytefolge abgelegten Metainformationen verwendet wird.In a method of rendering meta information by readable characters in which the meta information is stored in a byte string, the byte string is converted with a standard character encoding to obtain a first character string. Likewise, the byte sequence is converted with at least one second character encoding to obtain at least one second character string. Subsequently, the first character string and the at least one second character string are compared with each other to determine matching converted characters in the two character strings. Based on the frequency of a match of converted characters, it is determined which of the character encodings will be used to convert the meta information stored in the byte string.
Description
Die Erfindung betrifft ein Verfahren zur Darstellung von Metainformationen durch lesbare Zeichen, bei dem die Metainformation in einer Bytefolge abgelegt sind. Das Verfahren betrifft weiterhin eine diesbezügliche Vorrichtung.The The invention relates to a method for displaying meta-information by readable characters, where the meta information is stored in a byte order are. The method further relates to a related matter Contraption.
Verfahren zur Darstellung von Metainformationen werden angewandt, um aus einer Bytefolge einen für einen Benutzer lesbare Zeichenkette zu erzeugen. Als Metainformationen bezeichnet man allgemein Daten, die Informationen über andere Daten enthalten. Bei den beschriebenen Daten kann es sich beispielsweise um Musikstücke oder Videodaten handeln. Die Metainformationen können als separate Datei abgelegt sein, aber auch einen Teil der Datei sein, welche die von den Metainformationen beschriebenen Daten enthält. Ein Beispiel hierfür bilden mp3-Dateien, an deren Anfang ein so genanntes ID3 Tag eingefügt ist, welches die Metainformationen beinhaltet.method for the representation of metainformationen are applied to from a Byte sequence a user-readable string to create. As meta-information is generally called data, contain the information about other data. Both The data described may be, for example, pieces of music or video data. The meta-information can be called separate file, but also be part of the file, which contains the data described by the metadata. An example of this are mp3 files, at the beginning a so-called ID3 tag is inserted, which contains the meta-information includes.
Bei einer Verarbeitung einer Datei, die derartige Metainformationen enthält, werden die Bytefolge, in welcher die Metainformationen abgelegt sind in eine Zeichenkette konvertiert und diese für einen Benutzer dargestellt. Das Problem liegt in der Konvertierung der Bytefolge in lesbare Zeichen, da der Bytefolge als solche nicht anzusehen ist, welche Zeichen der durch die Bytefolge repräsentiert wird. Insbesondere gibt es Schriftsätze, so genannte Zeichenkodierungen, in welchen das gleiche Byte unterschiedliche Zeichen repräsentiert.at a processing of a file containing such meta-information contains, are the byte sequence in which the meta information are converted into a string and this for a user presented. The problem is in the conversion the byte sequence into readable characters, since the byte order as such is not It is to be seen which character represents the byte sequence becomes. In particular, there are pleadings, so-called character encodings, in which the same byte represents different characters.
Eine Aufgabe, die der Erfindung zugrunde liegt, ist ein Verfahren zur Darstellung von Metainformationen durch lesbare Zeichen zu schaffen, dass eine fehlerhafte Konvertierung der Bytefolge in darstellbare Zeichen vermeidet. Es ist ferner Aufgabe, eine Anordnung bereitzustellen, das derart ausgebil det ist, dass Metainformationen für einen Benutzer lesbare dargestellt werden.A Task underlying the invention is a method for To create representation of meta information by readable characters, that an erroneous conversion of the byte sequence into representable Avoids signs. It is a further object to provide an arrangement which is so constructed that meta information for a user readable be presented.
Diese Aufgaben werden gelöst durch die Merkmale der unabhängigen Patentansprüche. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind Gegenstand der Unteransprüche.These Tasks are solved by the characteristics of the independent ones Claims. Advantageous embodiments and developments The invention are the subject of the dependent claims.
Gemäß einer Ausgestaltung zeichnet sich die Erfindung aus durch ein Verfahren zur Darstellung von Metainformationen durch lesbare Zeichen, bei dem die Metainformationen in einer Bytefolge abgelegt sind. Hierzu wird die Bytefolge mit einer Standardzeichenkodierung konvertiert, um eine erste Zeichenkette zu erhalten. Die Bytefolge wird ebenso mit wenigstens einer zweiten Zeichenkodierung konvertiert, um wenigstens eine zweite Zeichenkette zu erhalten. Anschließend wird die erste Zeichenkette mit der wenigstens einen Zeichenkette verglichen, um übereinstimmende konvertierte Zeichen in den beiden Zeichenketten zu bestimmen. Anhand der Häufigkeit der Übereinstimmung konvertierter Zeichen wird bestimmt, welche der beiden Kodierungen also der Standardzeichenkodierung und der wenigstens einen zweiten Zeichenkodierung für eine Darstellung der Metainformationen verwendet wird.According to one Embodiment, the invention is characterized by a method to display meta-information by readable characters the meta information is stored in a byte sequence. For this the byte sequence is converted with a standard character encoding, to get a first string. The byte sequence will be the same with at least a second character encoding converted to at least to get a second string. Subsequently, will compared the first string with the at least one string, to match converted characters in the two To determine strings. Based on the frequency of agreement Converted character determines which of the two encodings So the standard character encoding and the at least one second Character encoding for a representation of the meta-information is used.
Auf diese Weise ist es möglich, eine Aussage darüber zu treffen, in welcher Zeichenkodierung die in der Bytefolge abgelegten Metainformationen kodiert sind. Das Verfahren erlaubt es somit, auch ohne Kenntnis über die für die Erzeugung der Bytefolge verwendete Zeichenkodierung die Bytefolge in eine für einen Leser sinnvolle Zeichenkette zu konvertieren.On this way it is possible to make a statement about it to meet in which character encoding the ones stored in the byte sequence Meta information is encoded. The method thus allows even without knowledge of those for the generation the byte string used the byte sequence into one to convert a meaningful string for a reader.
Insbesondere können auf diese Weise Bytefolgen identifiziert werden, die durch die verschiedenen Zeichenkodierungen unterschiedliche Sonderzeichen kodieren. Damit ist es möglich, beispielsweise Texte in einer Sprache auch in einem Land lesen zu können, welches im Regelfall eine unterschiedliche Zeichenkodierung verwendet.Especially can be identified in this way byte sequences, the different by the different character encodings Code special characters. This makes it possible, for example To be able to read texts in one language even in one country which usually uses a different character encoding.
Gemäß einer vorteilhaften Ausgestaltung der Erfindung wird hierzu ein Schwellwert bestimmt, wobei bei einer überschreitenden Übereinstimmung konvertierter Zeichen mit dem Schwellwert die Standardzeichenkodierung für eine Darstellung verwendet wird. Die Bestimmung eines geeigneten Schwellwerts, der im Übrigen frei wählbar sein kann, erlaubt es, in einem einzigen Vergleich eine Bestimmung darüber zu treffen, welche Zeichenkodierung für eine Darstellung verwendet werden soll. Insbesondere kann auf diese Weise eine oftmals verwendete Zeichenkodierung als Standardzeichenkodierung benutzt werden, um das Verfahren zu beschleunigen.According to one advantageous embodiment of the invention is for this purpose a threshold determined, where converted at a crossing match Character with the threshold the standard character encoding for a representation is used. The determination of a suitable Threshold, which, moreover, be freely selectable allows, in a single comparison, a determination about it to take which character encoding for a representation should be used. In particular, one can often do so in this way used character encoding as standard character encoding to speed up the process.
In einer weiteren vorteilhaften Ausgestaltung werden die erste und die wenigstens eine zweite Zeichenkette auf nicht darstellbare Zeichen hin untersucht. Sofern nicht darstellbare Zeichen gefunden werden, wird die Zeichenkodierung, welche die nicht darstellbaren Zeichen konvertiert hat, verworfen. Durch diese Bestimmung können sehr schnell nicht geeignete Zeichenkodierungen für die Konvertierung der Bytefolge zur Darstellung der Metainformationen identifiziert und verworfen werden.In In a further advantageous embodiment, the first and the at least one second string to non-representable characters examined. Unless displayable characters are found, becomes the character encoding which is the non-representable character converted, discarded. By this determination can very quickly unsuitable character encodings for the Converting the byte sequence to represent the metadata identified and be discarded.
Gemäß einem weiteren Aspekt zeichnet sich eine Ausgestaltung aus durch eine Decodierung der Bytefolge mit einer dritten Zeichenkodierung, um eine dritte Zeichenkette zu erhalten. Die dritte Zeichenkette wird dann mit der ersten und/oder der zweiten Zeichenkette verglichen, um übereinstimmende konvertierte Zeichen in den beiden Zeichenketten zu bestimmen.According to one Another aspect of an embodiment is characterized by a Decode the byte sequence with a third character encoding to a get third string. The third string then becomes compared with the first and / or the second string to match to determine converted characters in the two strings.
Auf diese Weise kann die Bytefolge durch unterschiedliche Zeichenkodierungen konvertiert werden, um verschiedene Zeichenketten zu erhalten. Dies erlaubt es, bei einem anschließenden Vergleich der Übereinstimmung konvertierter Zeichen bestimmte Zeichenkodierungen für eine Darstellung der in der Bytefolge abgelegten Metainformationen auszuschließen oder diese auszuwählen. Dadurch kann eine automatische Identifikation der verwendeten Zeichenkodierung zur Darstellung der in der Bytefolge abgelegten Metainformationen schnell und fehlervermindert erfolgen.In this way the byte sequence can be replaced by different character encodings are converted to obtain different character strings. This makes it possible to exclude or select certain character encodings for a representation of the meta information stored in the byte sequence when subsequently comparing the match of converted characters. As a result, an automatic identification of the character encoding used to represent the meta information stored in the byte sequence can be done quickly and with reduced errors.
Gemäß einer anderen Ausgestaltung zeichnet sich die Erfindung aus durch eine Anordnung, die ausgestaltet ist, das Verfahren zur Darstellung von Metainformationen durch lesbare Zeichen durchzuführen. Eine derartige Anordnung kann beispielsweise in Form eines ASIC (application specification integrated circuit) realisiert werden.According to one In another embodiment, the invention is characterized by a Arrangement that is designed, the method for displaying meta-information through readable characters. Such an arrangement can for example be in the form of an ASIC (application specification integrated circuit).
In einer weiteren Ausgestaltung zeichnet sich die Erfindung durch ein auf einem Datenspeichermedium abgespeicherte Computerprogrammprodukt aus, das ausgestaltet ist, das Verfahren zur Darstellung von Metainformationen durch lesbare Zeichen auszuführen.In In a further embodiment, the invention is characterized by a computer program product stored on a data storage medium which is designed, the method for displaying meta-information with readable characters.
Im Folgenden wird die Erfindung anhand verschiedener Ausführungsbeispiele unter Verwendung schematischer Zeichnungen näher erläutert. Es zeigen:in the The invention will be described below with reference to various embodiments explained in more detail using schematic drawings. Show it:
Abhängig
von der verwendeten Zeichenkodierung werden nun einige Zeichen unterschiedlich dargestellt.
So ist in der Zeile
Der Bereich TAG umfasst neben einem Kopfteil ”Header” auch einen Datenteil Frame, in dem die eigentlichen Metadaten abgespeichert sind. Diese Metadaten liegen als Bytefolge vor, wobei jedes Byte ein anhand einer Zeichenkodierung darstellbares Zeichen repräsentiert.Of the In addition to a header, the TAG section also includes "headers" a data part frame in which the actual metadata is stored are. These metadata are in the form of a byte sequence, with each byte being one represents representable character based on a character encoding.
In
dem vorliegenden Fall, bei dem es sich um einen ID3-TAG für
Musikwerke nach dem mp3 Standard handelt, besitzt der Kopfteil Header
als auch der Datenbereich Frame keine Information über
die verwendete Zeichenkodierung der Bytefolge im Bereich Frame Data.
Es ist daher nicht möglich, durch Auswertung der Kopfdatei
Header als auch der Information im Bereich Frame ID, Frame Size
und Flags Informationen über eine Zeichenkodierung der
im Bereich Frame Data abgelegten Informationen zu erhalten. Demzufolge
kann es je nach verwendeter Zeichenkodierung zu der in
In einem ersten Schritt S1 werden die zu konvertierende Daten als Bytefolge empfangen. Hierbei kann zum einen die ganze Bytefolge empfangen werden, die später dargestellt werden soll, als auch nur ein Teil davon. In letzterem Fall wird anhand dieses Teils die Kodierung ausgewählt und die restliche Bytefolge damit konvertiert.In In a first step S1, the data to be converted become a byte sequence receive. On the one hand, the whole byte sequence can be received, which will be presented later, as well as only a part from that. In the latter case, the coding is based on this part and converts the remaining byte order with it.
Anschließend wird in Schritt S2 überprüft, ob es sich bei den empfangenen Daten um eine nach dem UTF-Standard codierte Zeichenkette handelt. Der ”UNICODE Transformation Format-Standard” (UTF) beschreibt eine Methode Unicode-Zeichen auf Folgen von Bytes abzubilden. Die Methode stellt alle im UNICODE-Standard enthaltenen Zeichen eindeutig dar, sodass es bei einer Bytefolge, die eine nach der UTF-Methode codierten Zeichenkette beinhaltet bei einer Rückkonvertierung zu keiner falschen Darstellungen kommen kann. Die UTF-Methode als auch der UNICODE-Standard wird hiermit explizit durch Rückbezug in die vorliegende Beschreibung aufgenommen.Subsequently is checked in step S2, whether it is at the received data by a string encoded according to the UTF standard is. The "UNICODE Transformation Format Standard" (UTF) describes a method to map Unicode characters to sequences of bytes. The method represents all characters contained in the UNICODE standard so that it looks like a byte sequence that is one after the UTF method encoded string involves in a reverse conversion can not come to any wrong representations. The UTF method as The UNICODE standard is hereby also explicitly referenced included in the present description.
Ergibt die Überprüfung in Schritt S2, dass die Bytefolge mit einer UTF-Codierung codiert ist, wird in Schritt S21 eine De codierung vorgenommen und die Zeichenkette dargestellt. Das Verfahren kann an dieser Stelle beendet werden, da der UNICODE eindeutig Ergebnisse liefert.results the check in step S2 that the byte order is encoded with a UTF encoding, a decoding is performed in step S21 made and the string represented. The procedure can be terminated at this point, as the UNICODE clearly results supplies.
Ist hingegen die Bytefolge nicht nach der UTF-Methode codiert, beziehungsweise stellt keinen Unicodezeichensatz dar, so wird das Verfahren mit Schritt S3 fortgesetzt. In diesem Schritt wird die Bytefolge nun mittels verschiedener Zeichenkodierungen konvertiert, um die korrespondierenden Zeichenketten zu erhalten. Dabei ist eine Zeichenkodierung als Standardzeichenkodierung festgelegt. Eine derartige Festlegung kann im Vorfeld benutzerseitig erfolgen, jedoch auch an verschiedene andere Parameter, wie beispielsweise einer Ländervariante festgelegt sein. Des Weiteren sind die zusätzlichen Zeichenkodierungen, mit denen die Bytefolge konvertiert wird in einer Reihenfolge bzw. anhand einer Priorität angeordnet. Diese kann beliebig gewählt sein, aber auch vorgegeben sein, z. B. der Häufigkeit einer möglichen Zeichenkodierung.is however, the byte sequence is not encoded according to the UTF method, respectively does not represent a Unicode character set, so the method with step S3 continued. In this step, the byte sequence is now using different character encodings converted to the corresponding ones To get strings. Here is a character encoding as standard character encoding established. Such a determination can be made by the user in advance but also to various other parameters, such as a country variant. Furthermore are the extra character encodings that are used to sequence the byte is converted in an order or by priority arranged. This can be chosen arbitrarily, but also be predetermined, z. B. the frequency of a possible Character encoding.
Die konvertierten Zeichenketten werden im Anschluss daran in Schritt S4 daraufhin untersucht, ob sie nicht darstellbare Zeichen enthalten. Als nicht darstellbare Zeichen werden alle Steuerzeichen angesehen, die sich auf einem Schirm nicht darstellen lassen. Dazu gehören unter anderem ”Line Feed”, ”Form Feed”, ”Carriage Return”, und ”Escape”.The converted strings will follow in step S4 examines whether they contain non-representable characters. Non-representable characters are all control characters, which can not be displayed on a screen. This includes including "Line Feed", "Form Feed", "Carriage Return ", and" Escape ".
Ergibt eine derartige Überprüfung in Schritt S5 ein positives Ergebnis, werden diese Zeichenketten in Schritt S51 als falsch konvertiert bezeichnet. Entsprechend wird die Zeichenkodierung, die die Bytefolge in die Zeichenkette mit den nicht darstellbaren Zeichen konvertiert hat, als nicht korrekte Kodierung angesehen und verworfen. Für die weitere Fortführung des Verfahrens werden diese nicht mehr beachtet. Das Verfahren wird dann mit Schritt S6 fortgeführt.results such a check in step S5 a positive Result, these strings are converted to false in step S51 designated. Similarly, the character encoding that is the byte string into the string with the non-representable characters converted has viewed as incorrect coding and discarded. For the continuation of the procedure will not more attention. The process then proceeds to step S6.
In diesem Schritt wird eine Zeichenkette ausgewählt, die darstellbare Zeichen beinhaltet. Sofern die Zeichenkette, die mit der Standardzeichenkodierung konvertiert worden ist, in Schritt S5 und S51 nicht verworfen wurde, wird diese ausgewählt. Im anschließenden Schritt S7 wird dann überprüft, ob es weitere Zeichenkette mit darstellbaren Zeichen gibt. Ist dies nicht der Fall, so wird die Zeichenkette mit den darstellbaren Zeichen in Schritt S71 dargestellt. Entsprechend wird die Zeichenkodierung, welche die Bytefolge in die dargestellte Zeichenkette konvertiert hat, für eine Konvertierung weiterer möglicher Metainformationen verwendet. Sie wird somit als die korrekte Zeichenkodierung angesehen.In This step selects a string that is displayable Includes characters. Unless the string is the standard character encoding has not been discarded in step S5 and S51, this is selected. In the subsequent step S7 is then checked to see if there is more string with representable characters. If this is not the case, then the character string with the displayable characters is displayed in step S71. Corresponding becomes the character encoding which represents the byte sequence in the Has converted a string for another conversion possible meta information used. It is thus called considered the correct character encoding.
Ergibt im Schritt S7 hingegen die Überprüfung, dass noch weitere konvertierte Zeichenketten vorhanden sind, so wird eine dieser Zeichenketten ausgewählt und in Schritt S8 mit der ersten in Schritt S6 ausgewählten Zeichenkette verglichen. Bevorzugt kann die Zeichenkette gewählt werden, die sofern darstellbar, als nächstes in der in Schritt S3 festgelegten Reihenfolge kommt, beziehungsweise die nächst niedrigere Priorität besitzt.results in step S7, however, the check that still other converted strings are present, then becomes one of these strings selected and in step S8 with the first compared in step S6 selected string. Preferably, the character string can be selected, provided that representable next in the step S3 Order comes, respectively, the next lower one Has priority.
In
Schritt S8 wird damit Zeichenkette (
Hierzu ist ein Schwellwert festgelegt, der in Schritt S9 mit dem Ergebnis der Übereinstimmung aus Schritt S8 verglichen wird. Wenn der Schwellwert nicht überschritten wird, so kann davon ausgegangen werden, dass die Ähnlichkeit zwischen den beiden Zeichenketten gering ist.For this is set a threshold, which in step S9 with the result the match from step S8 is compared. If the threshold is not exceeded, it may be assumed that the similarity between the two Character strings is low.
In
diesem Fall wird in Schritt S92 die Zeichenkette (
Ergibt
hingegen in Schritt S9 eine Überprüfung der Ähnlichkeit
eine recht hohe Übereinstimmung der beiden Zeichenketten,
so wird in Schritt S100 die erste Zeichenkette (
Die letzte noch übrig gebliebene Zeichenkette und die dazu korrespondierende Zeichenkodierung werden dann als korrekte Zeichenkodierung für die Darstellung der Metainformationen angesehen.The last remaining string and the one to Corresponding character encoding will then be considered correct character encoding viewed for the representation of meta-information.
Zeile
Bei
dem darauf folgenden Vergleich der Zeichenkette
Zeilen
Die
Zeichenkette
Sodann
erfolgt ein Vergleich der Zeichenkette
Vielmehr
wird die japanische Zeichenkodierung JIS als korrekte Zeichenkodierung
ausgewählt, da keine weiteren Zeichenketten für
einen folgenden Vergleich vorliegen. Die gezeigte Darstellung der
Zeichenkette
In Schritt S502 wird wiederum überprüft, ob die Bytefolge nach einer UTF-Methode codiert ist und UNICODE bildet. Ist dies der Fall, kann die Darstellung im UNICODE erfolgen und eine weitere Konvertierung ist nicht notwendig. Andernfalls wird das Verfahren in Schritt S503 fortgesetzt, in dem die Bytefolge mit verschiedenen Zeichenkodierungen in entsprechende Zeichenketten konvertiert wird. Hierbei ist wiederum eine Zeichenkodierung als Standardzeichenkodierung ausgewählt.In Step S502 again checks if the byte string is encoded according to a UTF method and forms UNICODE. Is this If so, the presentation can be done in UNICODE and another Conversion is not necessary. Otherwise, the procedure becomes in step S503, in which the byte order is different Character encodings are converted into corresponding character strings. Here again is a character encoding as standard character encoding selected.
Alternativ
zu dieser Auswahl kann auch eine Priorisierung der verschiedenen
Zeichenkodierungen erfolgen. Beispielsweise kann eine erste Zeichenkodierung
als Standardzeichenkodierung und eine zweite Zeichenkodierung als
Ersatzstandardzeichenkodierung definiert werden. S503a stellt die
Zeichenketten nach den verschiedenen Kodierungen, beispielsweise
In Schritt S505 wird die Übereinstimmung der Zeichenkette konvertiert nach SJIS und GBK mit der Zeichenkette konvertiert mittels der ISO-Zeichenkodierung erfasst. Sofern eine hohe Übereinstimmung zwischen den Zeichenketten vorliegt, wird angenommen, dass es sich um die ISO-Zeichenkodierung handelt, mit der die Bytefolge kodiert worden ist. Demzufolge wird die ISO-Codierung als Standardzeichenkodierung in Schritt S506 ausgewählt und für die weitere Decodierung der Bytefolgen verwendet. Andernfalls wird das Verfahren mit Schritt S507 fortgesetzt.In step S505, the match of the character string converted to SJIS and GBK with the character string converted by the ISO character encoding is detected. If a high agreement between the strings, it is assumed that it is the ISO character encoding used to encode the byte sequence. Accordingly, the ISO coding is selected as the standard character encoding in step S506 and used for the further decoding of the byte strings. Otherwise, the process proceeds to step S507.
In diesem Schritt wird überprüft, ob die Zeichenketten die aus der Decodierung der Bytefolge mit den Zeichenkodierungen SJIS und GBK entstanden sind, nicht darstellbare Zeichen aufweisen. Ist dies der Fall, so wird in Schritt S508 die Zeichenkodierung verworfen, die zu der Zeichenkette mit den nicht darstellbaren Zeichen geführt hat. Im folgenden Schritt S509 die Zeichenkodierung ausgewählt, mit der die übrig gebliebene Zeichenkette konvertiert worden ist.In This step checks if the strings that results from decoding the byte sequence with the character encodings SJIS and GBK have arisen, not displayable characters. If so, the character encoding is performed in step S508 discarded that to the string with the non-representable characters has led. In the following step S509 the character encoding selected with which the left-over string has been converted.
Sofern die Zeichenketten hingegen in Schritt S507 und S508 darstellbare Zeichen erhalten, wird eine Datenbankabfrage in Schritt S510 durchgeführt. Diese Datenbankabfrage kann beispielsweise ein Wörterbuch oder eine Multimediadatenbank darstellen. Eine Abfrage trägt zur Entscheidung bei, ob die Zeichen der Zeichenkette korrekt konvertiert wurden. Hierzu werden die verschiedenen konvertierten Zeichenketten an die Datenbank übermittelt und deren Ergebnis überprüft.Provided however, the character strings are representable in steps S507 and S508 Characters, a database query is performed in step S510. These For example, a database query can be a dictionary or represent a multimedia database. Carries a query to decide whether the characters of the string convert correctly were. This is done by the different converted strings transmitted to the database and checked their result.
Ist die Zeichenkette mit einer falschen Zeichenkodierung konvertiert, so enthält sie zwar darstellbare, jedoch in Bezug auf die gesamte Zeichenkette nicht sinnvolle Zeichen. Eine entsprechende Datenbankabfrage im Schritt S510 wird dann kein Ergebnis liefern.is converts the string with an incorrect character encoding, it contains representable, but in relation to the entire string not meaningful characters. A corresponding database query then, in step S510, no result will be provided.
Wenn hingegen die verwendete Zeichenkodierung für die Konvertierung der Bytefolge korrekt ist, sollte die Datenbankabfra ge ein positives Ergebnis liefern, sodass diese Zeichenkodierung in Schritt S511 als korrekte Zeichenkodierung identifiziert und für die weitere Decodierung der Bytefolge herangezogen wird.If however, the character encoding used for the conversion the byte sequence is correct, the database query should be a positive Result, so that character encoding in step S511 identified as correct character encoding and for the further decoding of the byte sequence is used.
Ergibt hingegen eine Datenbankabfrage kein sinnvolles Ergebnis, so kann das Verfahren noch mit einer individuellen Entscheidung, beispielsweise einer Konvertierung mit dem Standardzeichensatz in Schritt S512 fortgesetzt werden. Diese letzte individuelle Entscheidung in Schritt S512 kann beispielsweise anhand einer abgespeicherten Ländervariante erfolgen und erlaubt es, zumindest die Bytefolge, wenn auch mit teilweise nicht korrekten Zeichen auf dem Bildschirm darzustellen.results however, a database query is not a meaningful result, so can the process still with an individual decision, for example a conversion with the standard character set in step S512 to be continued. This last individual decision in step S512 can for example be based on a stored country variant and allows it, at least the byte order, albeit partially incorrect characters on the screen.
Mit den vorgestellten Verfahren lassen sich Metainformationen, abgespeichert in Bytefolgen, auf einem Bildschirm darstellen, in dem eine Entscheidung über die zu verwendende Zeichenkodierung für die Konvertierung der Bytefolge in darstellbarer Zeichen getroffen wird. Durch die vorgeschlagene Heuristik und die statistische Auswertung der konvertierten Zeichenketten untereinander kann zudem eine fehlertolerante Darstellung für verschiedene Ländervarianten realisiert werden. Entsprechend kann ein Schrifttext in einer Sprache in einem Land gelesen werden, das einen anderen Schriftsatz und eine andere Zeichenkodierung verwendet.With the presented method can be meta information stored in sequence of bytes, on a screen in which a decision about the character encoding to be used for the conversion the byte sequence is taken in representable characters. By the proposed heuristic and the statistical evaluation of the converted Strings among each other can also be a fault-tolerant representation be realized for different country variants. Accordingly, a text in a language in a country read that a different font and a different character encoding used.
Der
Mikroprozessor
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDE IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list The documents listed by the applicant have been automated generated and is solely for better information recorded by the reader. The list is not part of the German Patent or utility model application. The DPMA takes over no liability for any errors or omissions.
Zitierte Nicht-PatentliteraturCited non-patent literature
- - ISO-8859-1-Standard [0041] - ISO 8859-1 standard [0041]
- - ISO-8859-Standard [0042] - ISO 8859 standard [0042]
- - ISO-8859 [0050] - ISO-8859 [0050]
Claims (7)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102008014611A DE102008014611A1 (en) | 2008-03-17 | 2008-03-17 | Method for displaying meta-information and device |
PCT/EP2009/052777 WO2009115431A1 (en) | 2008-03-17 | 2009-03-10 | Method for representing meta information and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102008014611A DE102008014611A1 (en) | 2008-03-17 | 2008-03-17 | Method for displaying meta-information and device |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102008014611A1 true DE102008014611A1 (en) | 2009-10-01 |
Family
ID=40718515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102008014611A Ceased DE102008014611A1 (en) | 2008-03-17 | 2008-03-17 | Method for displaying meta-information and device |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE102008014611A1 (en) |
WO (1) | WO2009115431A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2489512A (en) * | 2011-03-31 | 2012-10-03 | Clearswift Ltd | Classifying data using fingerprint of character encoding |
-
2008
- 2008-03-17 DE DE102008014611A patent/DE102008014611A1/en not_active Ceased
-
2009
- 2009-03-10 WO PCT/EP2009/052777 patent/WO2009115431A1/en active Application Filing
Non-Patent Citations (2)
Title |
---|
ISO-8859-1-Standard |
ISO-8859-Standard |
Also Published As
Publication number | Publication date |
---|---|
WO2009115431A1 (en) | 2009-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60209572T2 (en) | METHOD AND DEVICE FOR THE AUTOMATIC DETECTION OF DATA TYPES FOR DATA TYPE DEPENDENT PROCESSING | |
EP1665132B1 (en) | Method and system for collecting data from a plurality of machine readable documents | |
DE69829074T2 (en) | IDENTIFICATION OF LANGUAGE AND SYMBOLS FROM TEXT-REPRESENTATIVE DATA | |
DE69634459T2 (en) | Method and arrangement for comparing structured documents | |
DE102005032734B4 (en) | Index extraction of documents | |
DE69400276T2 (en) | CHARACTER SET FOR TEXT INPUT | |
DE102005032744A1 (en) | Index extraction of documents | |
DE112013006650T5 (en) | Multi-layer system for symbol memory based compression of patterns | |
DE4232507A1 (en) | Identification process for locating and sorting document in different languages - processing information by comparing sequences of characters with those of a reference document | |
DE19627472A1 (en) | Database system | |
DE102005032046A1 (en) | A method, system, and computer program product for transferring data from a document application to a data application | |
DE112018005272T5 (en) | SEARCHING MULTI-LANGUAGE DOCUMENTS BASED ON AN EXTRACTION OF THE DOCUMENT STRUCTURE | |
EP1561281B1 (en) | Method for the creation of a bit stream from an indexing tree | |
WO2005119580A1 (en) | Method and device for the structural analysis of a document | |
DE102021004561A1 (en) | Text Refining Network | |
WO2018122269A1 (en) | Bit-sequence-based data classification system | |
DE102008014611A1 (en) | Method for displaying meta-information and device | |
EP2221735A2 (en) | Method for automatic classification of a text with a computer system | |
EP1616274A1 (en) | Method for encoding a structured document | |
DE102005032733A1 (en) | Index extraction of documents | |
EP3411803A1 (en) | Device and method for processing a binary-coded structure document | |
DE19955717A1 (en) | Converting unstructured data into structured data involves suggesting data structure element for selected input data segment that can be structured, allocating structure element as target element | |
EP1170678B1 (en) | Method and apparatus for automatically searching for relevant sets of images | |
DE202022101133U1 (en) | A conceptual search system for patent similarity matching | |
DE102009016588A1 (en) | Method for determination of text information from portable document format documents, involves reading portable document format document, and analyzing structure of portable document format document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8131 | Rejection |