DE102008014611A1

DE102008014611A1 - Method for displaying meta-information and device

Info

Publication number: DE102008014611A1
Application number: DE102008014611A
Authority: DE
Inventors: Bernd Weymann
Original assignee: Continental Automotive GmbH
Current assignee: Continental Automotive GmbH
Priority date: 2008-03-17
Filing date: 2008-03-17
Publication date: 2009-10-01
Also published as: WO2009115431A1

Abstract

Bei einem Verfahren zur Darstellung vom Metainformationen durch lesbare Zeichen, bei dem die Metainformation in einer Bytefolge abgelegt sind, wird die Bytefolge mit einer Standardzeichenkodierung konvertiert, um eine erste Zeichenkette zu erhalten. Ebenso wird die Bytefolge mit wenigstens einer zweiten Zeichenkodierung konvertiert, um wenigstens eine zweite Zeichenkette zu erhalten. Anschließend wird die erste Zeichenkette und die wenigstens eine zweite Zeichenkette miteinander verglichen, um übereinstimmende konvertierte Zeichen in den beiden Zeichenketten zu bestimmen. Anhand der Häufigkeit einer Übereinstimmung konvertierter Zeichen wird bestimmt, welche der Zeichenkodierungen für eine Konvertierung der in der Bytefolge abgelegten Metainformationen verwendet wird.In a method of rendering meta information by readable characters in which the meta information is stored in a byte string, the byte string is converted with a standard character encoding to obtain a first character string. Likewise, the byte sequence is converted with at least one second character encoding to obtain at least one second character string. Subsequently, the first character string and the at least one second character string are compared with each other to determine matching converted characters in the two character strings. Based on the frequency of a match of converted characters, it is determined which of the character encodings will be used to convert the meta information stored in the byte string.

Description

Die Erfindung betrifft ein Verfahren zur Darstellung von Metainformationen durch lesbare Zeichen, bei dem die Metainformation in einer Bytefolge abgelegt sind. Das Verfahren betrifft weiterhin eine diesbezügliche Vorrichtung.The The invention relates to a method for displaying meta-information by readable characters, where the meta information is stored in a byte order are. The method further relates to a related matter Contraption.

Verfahren zur Darstellung von Metainformationen werden angewandt, um aus einer Bytefolge einen für einen Benutzer lesbare Zeichenkette zu erzeugen. Als Metainformationen bezeichnet man allgemein Daten, die Informationen über andere Daten enthalten. Bei den beschriebenen Daten kann es sich beispielsweise um Musikstücke oder Videodaten handeln. Die Metainformationen können als separate Datei abgelegt sein, aber auch einen Teil der Datei sein, welche die von den Metainformationen beschriebenen Daten enthält. Ein Beispiel hierfür bilden mp3-Dateien, an deren Anfang ein so genanntes ID3 Tag eingefügt ist, welches die Metainformationen beinhaltet.method for the representation of metainformationen are applied to from a Byte sequence a user-readable string to create. As meta-information is generally called data, contain the information about other data. Both The data described may be, for example, pieces of music or video data. The meta-information can be called separate file, but also be part of the file, which contains the data described by the metadata. An example of this are mp3 files, at the beginning a so-called ID3 tag is inserted, which contains the meta-information includes.

Bei einer Verarbeitung einer Datei, die derartige Metainformationen enthält, werden die Bytefolge, in welcher die Metainformationen abgelegt sind in eine Zeichenkette konvertiert und diese für einen Benutzer dargestellt. Das Problem liegt in der Konvertierung der Bytefolge in lesbare Zeichen, da der Bytefolge als solche nicht anzusehen ist, welche Zeichen der durch die Bytefolge repräsentiert wird. Insbesondere gibt es Schriftsätze, so genannte Zeichenkodierungen, in welchen das gleiche Byte unterschiedliche Zeichen repräsentiert.at a processing of a file containing such meta-information contains, are the byte sequence in which the meta information are converted into a string and this for a user presented. The problem is in the conversion the byte sequence into readable characters, since the byte order as such is not It is to be seen which character represents the byte sequence becomes. In particular, there are pleadings, so-called character encodings, in which the same byte represents different characters.

Eine Aufgabe, die der Erfindung zugrunde liegt, ist ein Verfahren zur Darstellung von Metainformationen durch lesbare Zeichen zu schaffen, dass eine fehlerhafte Konvertierung der Bytefolge in darstellbare Zeichen vermeidet. Es ist ferner Aufgabe, eine Anordnung bereitzustellen, das derart ausgebil det ist, dass Metainformationen für einen Benutzer lesbare dargestellt werden.A Task underlying the invention is a method for To create representation of meta information by readable characters, that an erroneous conversion of the byte sequence into representable Avoids signs. It is a further object to provide an arrangement which is so constructed that meta information for a user readable be presented.

Diese Aufgaben werden gelöst durch die Merkmale der unabhängigen Patentansprüche. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind Gegenstand der Unteransprüche.These Tasks are solved by the characteristics of the independent ones Claims. Advantageous embodiments and developments The invention are the subject of the dependent claims.

Gemäß einer Ausgestaltung zeichnet sich die Erfindung aus durch ein Verfahren zur Darstellung von Metainformationen durch lesbare Zeichen, bei dem die Metainformationen in einer Bytefolge abgelegt sind. Hierzu wird die Bytefolge mit einer Standardzeichenkodierung konvertiert, um eine erste Zeichenkette zu erhalten. Die Bytefolge wird ebenso mit wenigstens einer zweiten Zeichenkodierung konvertiert, um wenigstens eine zweite Zeichenkette zu erhalten. Anschließend wird die erste Zeichenkette mit der wenigstens einen Zeichenkette verglichen, um übereinstimmende konvertierte Zeichen in den beiden Zeichenketten zu bestimmen. Anhand der Häufigkeit der Übereinstimmung konvertierter Zeichen wird bestimmt, welche der beiden Kodierungen also der Standardzeichenkodierung und der wenigstens einen zweiten Zeichenkodierung für eine Darstellung der Metainformationen verwendet wird.According to one Embodiment, the invention is characterized by a method to display meta-information by readable characters the meta information is stored in a byte sequence. For this the byte sequence is converted with a standard character encoding, to get a first string. The byte sequence will be the same with at least a second character encoding converted to at least to get a second string. Subsequently, will compared the first string with the at least one string, to match converted characters in the two To determine strings. Based on the frequency of agreement Converted character determines which of the two encodings So the standard character encoding and the at least one second Character encoding for a representation of the meta-information is used.

Auf diese Weise ist es möglich, eine Aussage darüber zu treffen, in welcher Zeichenkodierung die in der Bytefolge abgelegten Metainformationen kodiert sind. Das Verfahren erlaubt es somit, auch ohne Kenntnis über die für die Erzeugung der Bytefolge verwendete Zeichenkodierung die Bytefolge in eine für einen Leser sinnvolle Zeichenkette zu konvertieren.On this way it is possible to make a statement about it to meet in which character encoding the ones stored in the byte sequence Meta information is encoded. The method thus allows even without knowledge of those for the generation the byte string used the byte sequence into one to convert a meaningful string for a reader.

Insbesondere können auf diese Weise Bytefolgen identifiziert werden, die durch die verschiedenen Zeichenkodierungen unterschiedliche Sonderzeichen kodieren. Damit ist es möglich, beispielsweise Texte in einer Sprache auch in einem Land lesen zu können, welches im Regelfall eine unterschiedliche Zeichenkodierung verwendet.Especially can be identified in this way byte sequences, the different by the different character encodings Code special characters. This makes it possible, for example To be able to read texts in one language even in one country which usually uses a different character encoding.

Gemäß einer vorteilhaften Ausgestaltung der Erfindung wird hierzu ein Schwellwert bestimmt, wobei bei einer überschreitenden Übereinstimmung konvertierter Zeichen mit dem Schwellwert die Standardzeichenkodierung für eine Darstellung verwendet wird. Die Bestimmung eines geeigneten Schwellwerts, der im Übrigen frei wählbar sein kann, erlaubt es, in einem einzigen Vergleich eine Bestimmung darüber zu treffen, welche Zeichenkodierung für eine Darstellung verwendet werden soll. Insbesondere kann auf diese Weise eine oftmals verwendete Zeichenkodierung als Standardzeichenkodierung benutzt werden, um das Verfahren zu beschleunigen.According to one advantageous embodiment of the invention is for this purpose a threshold determined, where converted at a crossing match Character with the threshold the standard character encoding for a representation is used. The determination of a suitable Threshold, which, moreover, be freely selectable allows, in a single comparison, a determination about it to take which character encoding for a representation should be used. In particular, one can often do so in this way used character encoding as standard character encoding to speed up the process.

In einer weiteren vorteilhaften Ausgestaltung werden die erste und die wenigstens eine zweite Zeichenkette auf nicht darstellbare Zeichen hin untersucht. Sofern nicht darstellbare Zeichen gefunden werden, wird die Zeichenkodierung, welche die nicht darstellbaren Zeichen konvertiert hat, verworfen. Durch diese Bestimmung können sehr schnell nicht geeignete Zeichenkodierungen für die Konvertierung der Bytefolge zur Darstellung der Metainformationen identifiziert und verworfen werden.In In a further advantageous embodiment, the first and the at least one second string to non-representable characters examined. Unless displayable characters are found, becomes the character encoding which is the non-representable character converted, discarded. By this determination can very quickly unsuitable character encodings for the Converting the byte sequence to represent the metadata identified and be discarded.

Gemäß einem weiteren Aspekt zeichnet sich eine Ausgestaltung aus durch eine Decodierung der Bytefolge mit einer dritten Zeichenkodierung, um eine dritte Zeichenkette zu erhalten. Die dritte Zeichenkette wird dann mit der ersten und/oder der zweiten Zeichenkette verglichen, um übereinstimmende konvertierte Zeichen in den beiden Zeichenketten zu bestimmen.According to one Another aspect of an embodiment is characterized by a Decode the byte sequence with a third character encoding to a get third string. The third string then becomes compared with the first and / or the second string to match to determine converted characters in the two strings.

Auf diese Weise kann die Bytefolge durch unterschiedliche Zeichenkodierungen konvertiert werden, um verschiedene Zeichenketten zu erhalten. Dies erlaubt es, bei einem anschließenden Vergleich der Übereinstimmung konvertierter Zeichen bestimmte Zeichenkodierungen für eine Darstellung der in der Bytefolge abgelegten Metainformationen auszuschließen oder diese auszuwählen. Dadurch kann eine automatische Identifikation der verwendeten Zeichenkodierung zur Darstellung der in der Bytefolge abgelegten Metainformationen schnell und fehlervermindert erfolgen.In this way the byte sequence can be replaced by different character encodings are converted to obtain different character strings. This makes it possible to exclude or select certain character encodings for a representation of the meta information stored in the byte sequence when subsequently comparing the match of converted characters. As a result, an automatic identification of the character encoding used to represent the meta information stored in the byte sequence can be done quickly and with reduced errors.

Gemäß einer anderen Ausgestaltung zeichnet sich die Erfindung aus durch eine Anordnung, die ausgestaltet ist, das Verfahren zur Darstellung von Metainformationen durch lesbare Zeichen durchzuführen. Eine derartige Anordnung kann beispielsweise in Form eines ASIC (application specification integrated circuit) realisiert werden.According to one In another embodiment, the invention is characterized by a Arrangement that is designed, the method for displaying meta-information through readable characters. Such an arrangement can for example be in the form of an ASIC (application specification integrated circuit).

In einer weiteren Ausgestaltung zeichnet sich die Erfindung durch ein auf einem Datenspeichermedium abgespeicherte Computerprogrammprodukt aus, das ausgestaltet ist, das Verfahren zur Darstellung von Metainformationen durch lesbare Zeichen auszuführen.In In a further embodiment, the invention is characterized by a computer program product stored on a data storage medium which is designed, the method for displaying meta-information with readable characters.

Im Folgenden wird die Erfindung anhand verschiedener Ausführungsbeispiele unter Verwendung schematischer Zeichnungen näher erläutert. Es zeigen:in the The invention will be described below with reference to various embodiments explained in more detail using schematic drawings. Show it:

1 eine Bildschirmdarstellung mit falsch konvertierten Metainformationen zur Erläuterung des Problems, 1 a screen shot with incorrectly converted meta-information to explain the problem,

2 eine schematische Darstellung einer Datei mit Metainformationen und deren Struktur, 2 a schematic representation of a file with meta-information and its structure,

3 eine erste Ausführungsform des Verfahrens zur Darstellung von Metainformationen durch lesbare Zeichen, 3 A first embodiment of the method for displaying meta-information by means of readable characters,

4 eine Bildschirmdarstellung mit Metainformationen, die anhand verschiedener Zeichenkodierungen konvertiert sind, 4 a screen display with meta-information that is converted using different character encodings

5 eine zweite Ausführungsform des erfindungsgemäßen Verfahrens zur Darstellung von Metainformationen durch lesbare Zeichen, 5 A second embodiment of the method according to the invention for displaying meta-information by means of readable characters,

6 eine Ausführungsform einer Anordnung zur Durchführung des Verfahrens. 6 an embodiment of an arrangement for carrying out the method.

1 zeigt einen Bildschirm mit einer Reihe von auf dem Schirm dargestellten Metainformationen 1, 2 und 3 in Form von Zeichenketten, die anhand einer Zeichenkodierung konvertiert wurden. Die Metainformationen, die in einer Bytefolge abgelegt sind, werden mittels der Zeichenkodierung in Zeichenketten konvertiert. Die Konvertierung erfolgt beispielsweise und ohne Beschränkung der Allgemeinheit byteweise, sodass jedes Byte ein durch die Zeichenkodierung festgelegtes Zeichen repräsentiert. 1 shows a screen with a series of meta-information displayed on the screen 1 . 2 and 3 in the form of strings converted using a character encoding. The meta-information stored in a byte sequence is converted to character strings by character encoding. For example, the conversion is done byte-by-byte without limiting the generality so that each byte represents a character specified by the character encoding.

Abhängig von der verwendeten Zeichenkodierung werden nun einige Zeichen unterschiedlich dargestellt. So ist in der Zeile 1, das ein Sonderzeichen darstellende Umlaut ”ä” aufgrund der verwendeten Zeichenkodierung für die Konvertierung als japanisches Schriftzeichen dargestellt. Gleiches gilt für die Zeile 2, bei dem der deutsche Umlaut ”Ö” falsch dargestellt ist. Hingegen ist in Zeile 3 die Zeichenkette korrekt, da hier nur reine ASCI-Zeichen verwendet werden, die sowohl in einer deutschen Zeichenkodierung als auch in der verwendeten japanischen Zeichenkodierung gleich sind.Depending on the character encoding used, some characters are now displayed differently. So is in the line 1 , the umlaut representing a special character "ä" due to the character encoding used for the conversion as a Japanese character. The same applies to the line 2 in which the German umlaut "Ö" is misrepresented. On the other hand is in line 3 The string is correct, as it uses only pure ASCI characters that are the same in both German character encoding and Japanese character encoding.

2 zeigt einen Ausschnitt aus einer Datei, an den Metainformationen am Anfang der Datei im Bereich TAG abgelegt sind. In der Datei ist ein Musikstück im Bereich DATA abgelegt, die Metainformationen im Bereich TAG umfassen beispielsweise Informationen über den Titel, den Interpreten und das Album. 2 shows a section of a file where meta information is stored at the beginning of the file in the TAG area. The file contains a piece of music in the DATA area, while the metadata in the TAG area contains, for example, information about the title, the artist and the album.

Der Bereich TAG umfasst neben einem Kopfteil ”Header” auch einen Datenteil Frame, in dem die eigentlichen Metadaten abgespeichert sind. Diese Metadaten liegen als Bytefolge vor, wobei jedes Byte ein anhand einer Zeichenkodierung darstellbares Zeichen repräsentiert.Of the In addition to a header, the TAG section also includes "headers" a data part frame in which the actual metadata is stored are. These metadata are in the form of a byte sequence, with each byte being one represents representable character based on a character encoding.

In dem vorliegenden Fall, bei dem es sich um einen ID3-TAG für Musikwerke nach dem mp3 Standard handelt, besitzt der Kopfteil Header als auch der Datenbereich Frame keine Information über die verwendete Zeichenkodierung der Bytefolge im Bereich Frame Data. Es ist daher nicht möglich, durch Auswertung der Kopfdatei Header als auch der Information im Bereich Frame ID, Frame Size und Flags Informationen über eine Zeichenkodierung der im Bereich Frame Data abgelegten Informationen zu erhalten. Demzufolge kann es je nach verwendeter Zeichenkodierung zu der in 1 gezeigten fehlerhaften Darstellung kommen.In the present case, which is an ID3-TAG for musical works according to the mp3 standard, the header header as well as the data area frame has no information about the used character encoding of the byte sequence in the frame data area. It is therefore not possible to obtain information about a character encoding of the information stored in the frame data area by evaluating the header header and also the information in the area of frame ID, frame size and flags. As a result, depending on the character encoding used, it may be the same as in 1 shown incorrect presentation come.

3 zeigt eine Ausgestaltung des Verfahrens zur Darstellung von Metainformationen durch lesbare Zeichen, bei der das oben genannte Problem reduziert ist. 3 shows an embodiment of the method for displaying meta-information by readable characters, in which the above-mentioned problem is reduced.

In einem ersten Schritt S1 werden die zu konvertierende Daten als Bytefolge empfangen. Hierbei kann zum einen die ganze Bytefolge empfangen werden, die später dargestellt werden soll, als auch nur ein Teil davon. In letzterem Fall wird anhand dieses Teils die Kodierung ausgewählt und die restliche Bytefolge damit konvertiert.In In a first step S1, the data to be converted become a byte sequence receive. On the one hand, the whole byte sequence can be received, which will be presented later, as well as only a part from that. In the latter case, the coding is based on this part and converts the remaining byte order with it.

Anschließend wird in Schritt S2 überprüft, ob es sich bei den empfangenen Daten um eine nach dem UTF-Standard codierte Zeichenkette handelt. Der ”UNICODE Transformation Format-Standard” (UTF) beschreibt eine Methode Unicode-Zeichen auf Folgen von Bytes abzubilden. Die Methode stellt alle im UNICODE-Standard enthaltenen Zeichen eindeutig dar, sodass es bei einer Bytefolge, die eine nach der UTF-Methode codierten Zeichenkette beinhaltet bei einer Rückkonvertierung zu keiner falschen Darstellungen kommen kann. Die UTF-Methode als auch der UNICODE-Standard wird hiermit explizit durch Rückbezug in die vorliegende Beschreibung aufgenommen.Subsequently is checked in step S2, whether it is at the received data by a string encoded according to the UTF standard is. The "UNICODE Transformation Format Standard" (UTF) describes a method to map Unicode characters to sequences of bytes. The method represents all characters contained in the UNICODE standard so that it looks like a byte sequence that is one after the UTF method encoded string involves in a reverse conversion can not come to any wrong representations. The UTF method as The UNICODE standard is hereby also explicitly referenced included in the present description.

Ergibt die Überprüfung in Schritt S2, dass die Bytefolge mit einer UTF-Codierung codiert ist, wird in Schritt S21 eine De codierung vorgenommen und die Zeichenkette dargestellt. Das Verfahren kann an dieser Stelle beendet werden, da der UNICODE eindeutig Ergebnisse liefert.results the check in step S2 that the byte order is encoded with a UTF encoding, a decoding is performed in step S21 made and the string represented. The procedure can be terminated at this point, as the UNICODE clearly results supplies.

Ist hingegen die Bytefolge nicht nach der UTF-Methode codiert, beziehungsweise stellt keinen Unicodezeichensatz dar, so wird das Verfahren mit Schritt S3 fortgesetzt. In diesem Schritt wird die Bytefolge nun mittels verschiedener Zeichenkodierungen konvertiert, um die korrespondierenden Zeichenketten zu erhalten. Dabei ist eine Zeichenkodierung als Standardzeichenkodierung festgelegt. Eine derartige Festlegung kann im Vorfeld benutzerseitig erfolgen, jedoch auch an verschiedene andere Parameter, wie beispielsweise einer Ländervariante festgelegt sein. Des Weiteren sind die zusätzlichen Zeichenkodierungen, mit denen die Bytefolge konvertiert wird in einer Reihenfolge bzw. anhand einer Priorität angeordnet. Diese kann beliebig gewählt sein, aber auch vorgegeben sein, z. B. der Häufigkeit einer möglichen Zeichenkodierung.is however, the byte sequence is not encoded according to the UTF method, respectively does not represent a Unicode character set, so the method with step S3 continued. In this step, the byte sequence is now using different character encodings converted to the corresponding ones To get strings. Here is a character encoding as standard character encoding established. Such a determination can be made by the user in advance but also to various other parameters, such as a country variant. Furthermore are the extra character encodings that are used to sequence the byte is converted in an order or by priority arranged. This can be chosen arbitrarily, but also be predetermined, z. B. the frequency of a possible Character encoding.

Die konvertierten Zeichenketten werden im Anschluss daran in Schritt S4 daraufhin untersucht, ob sie nicht darstellbare Zeichen enthalten. Als nicht darstellbare Zeichen werden alle Steuerzeichen angesehen, die sich auf einem Schirm nicht darstellen lassen. Dazu gehören unter anderem ”Line Feed”, ”Form Feed”, ”Carriage Return”, und ”Escape”.The converted strings will follow in step S4 examines whether they contain non-representable characters. Non-representable characters are all control characters, which can not be displayed on a screen. This includes including "Line Feed", "Form Feed", "Carriage Return ", and" Escape ".

Ergibt eine derartige Überprüfung in Schritt S5 ein positives Ergebnis, werden diese Zeichenketten in Schritt S51 als falsch konvertiert bezeichnet. Entsprechend wird die Zeichenkodierung, die die Bytefolge in die Zeichenkette mit den nicht darstellbaren Zeichen konvertiert hat, als nicht korrekte Kodierung angesehen und verworfen. Für die weitere Fortführung des Verfahrens werden diese nicht mehr beachtet. Das Verfahren wird dann mit Schritt S6 fortgeführt.results such a check in step S5 a positive Result, these strings are converted to false in step S51 designated. Similarly, the character encoding that is the byte string into the string with the non-representable characters converted has viewed as incorrect coding and discarded. For the continuation of the procedure will not more attention. The process then proceeds to step S6.

In diesem Schritt wird eine Zeichenkette ausgewählt, die darstellbare Zeichen beinhaltet. Sofern die Zeichenkette, die mit der Standardzeichenkodierung konvertiert worden ist, in Schritt S5 und S51 nicht verworfen wurde, wird diese ausgewählt. Im anschließenden Schritt S7 wird dann überprüft, ob es weitere Zeichenkette mit darstellbaren Zeichen gibt. Ist dies nicht der Fall, so wird die Zeichenkette mit den darstellbaren Zeichen in Schritt S71 dargestellt. Entsprechend wird die Zeichenkodierung, welche die Bytefolge in die dargestellte Zeichenkette konvertiert hat, für eine Konvertierung weiterer möglicher Metainformationen verwendet. Sie wird somit als die korrekte Zeichenkodierung angesehen.In This step selects a string that is displayable Includes characters. Unless the string is the standard character encoding has not been discarded in step S5 and S51, this is selected. In the subsequent step S7 is then checked to see if there is more string with representable characters. If this is not the case, then the character string with the displayable characters is displayed in step S71. Corresponding becomes the character encoding which represents the byte sequence in the Has converted a string for another conversion possible meta information used. It is thus called considered the correct character encoding.

Ergibt im Schritt S7 hingegen die Überprüfung, dass noch weitere konvertierte Zeichenketten vorhanden sind, so wird eine dieser Zeichenketten ausgewählt und in Schritt S8 mit der ersten in Schritt S6 ausgewählten Zeichenkette verglichen. Bevorzugt kann die Zeichenkette gewählt werden, die sofern darstellbar, als nächstes in der in Schritt S3 festgelegten Reihenfolge kommt, beziehungsweise die nächst niedrigere Priorität besitzt.results in step S7, however, the check that still other converted strings are present, then becomes one of these strings selected and in step S8 with the first compared in step S6 selected string. Preferably, the character string can be selected, provided that representable next in the step S3 Order comes, respectively, the next lower one Has priority.

In Schritt S8 wird damit Zeichenkette (1) mit Zeichenkette (2) verglichen. Dabei wird die Ähnlichkeit der beiden Zeichenketten überprüft. Der Begriff Ähnlichkeit ist nicht streng definiert, soll aber im Folgenden eine Übereinstimmung einzelner Zeichen der ersten und der zweiten Zeichenkette beinhalten. Mit anderen Worten wird demzufolge in Schritt S8 bestimmt, wie weit die beiden miteinander verglichenen Zeichenketten in ihren einzelnen Zeichen übereinstimmen.In step S8, this makes string ( 1 ) with string ( 2 ) compared. The similarity of the two strings is checked. The term similarity is not strictly defined, but in the following is intended to include a match of individual characters of the first and the second character string. In other words, it is determined in step S8 how far the two strings compared in their individual characters match.

Hierzu ist ein Schwellwert festgelegt, der in Schritt S9 mit dem Ergebnis der Übereinstimmung aus Schritt S8 verglichen wird. Wenn der Schwellwert nicht überschritten wird, so kann davon ausgegangen werden, dass die Ähnlichkeit zwischen den beiden Zeichenketten gering ist.For this is set a threshold, which in step S9 with the result the match from step S8 is compared. If the threshold is not exceeded, it may be assumed that the similarity between the two Character strings is low.

In diesem Fall wird in Schritt S92 die Zeichenkette (2) ausgewählt. Es kann nämlich davon ausgegangen werden, dass die Zeichenkodierung, welche die erste Zeichenkette (1) konvertiert hat, aufgrund der Überprüfung in en Schritten S8 und S9 nicht die korrekte Zeichenkodierung bildet. Das Verfahren wird dann ausgehend von Schritt S92 mit Schritt S7 fortgeführt. Sofern weitere Zeichenketten vorhanden sind sollte in Schritt S8 diejenige Zeichenkette gewählt werden, die mit einer Zeichenkodierung mit der nächst niedrigeren Priorität konvertiert wurde.In this case, in step S92, the character string ( 2 ). Namely, it can be assumed that the character encoding which the first character string ( 1 ) has not formed the correct character encoding due to the verification in steps S8 and S9. The method is then continued from step S92 to step S7. If further character strings are present, the character string which was converted with a character encoding with the next lower priority should be selected in step S8.

Ergibt hingegen in Schritt S9 eine Überprüfung der Ähnlichkeit eine recht hohe Übereinstimmung der beiden Zeichenketten, so wird in Schritt S100 die erste Zeichenkette (1) und die dazu korrespondierende Zeichenkodierung ausgewählt. Sodann wird auch hier das Verfahren in Schritt S7 so lange fortgesetzt, bis keine weiteren Zeichenketten mehr zu überprüfen sind.If, on the other hand, a similarity check in step S9 results in a fairly high agreement between the two character strings, then in step S100 the first character string ( 1 ) and the corresponding character encoding selected. thereupon Here too, the method in step S7 is continued until no further character strings are to be checked.

Die letzte noch übrig gebliebene Zeichenkette und die dazu korrespondierende Zeichenkodierung werden dann als korrekte Zeichenkodierung für die Darstellung der Metainformationen angesehen.The last remaining string and the one to Corresponding character encoding will then be considered correct character encoding viewed for the representation of meta-information.

4 zeigt diesbezüglich ein Beispiel, bei der jeweils drei unterschiedliche Zeichenkodierungen verwendet werden. Hierbei ist die Zeichenkodierung ISO als Standardzeichenkodierung festgelegt und entspricht dem ISO-8859-1-Standard . Eine weitere Zeichenkodierung ist die JIS-Codierung, die neben dem ASCII-Zeichen auch zur Darstellung japanischer Schriftzeichen dient. In diesem Beispiel ist als dritte Zeichenkodierung die GBK-Zeichenkodierung gewählt, welche zusätzlich zur Darstellung chinesischer Schriftzeichen verwendet wird. 4 shows in this regard an example in which three different character codes are used. Here, the character encoding ISO is set as standard character encoding and corresponds to the ISO 8859-1 standard , Another character encoding is the JIS encoding, which also serves to represent Japanese characters in addition to the ASCII character. In this example, the third character encoding is GBK character encoding, which is also used to represent Chinese characters.

Zeile 41 der 4 stellt die Metainformation in der nach dem ISO-8859-Standard konvertierten Zeichenkette dar. Es ergibt sich der Text ”Herbert Grönemeyer” mit dem deutschen Umlaut ”ö”, welches ein Sonderzeichen innerhalb der Zeichenko dierung bildet. Eine Konvertierung mit der Zeichenkodierung JIS ergibt eine Zeichenkette 42. Bei dieser ist das Byte, das nach der ISO-Kodierung den Umlaut bildet in ein nicht darstellbares Zeichen konvertiert. Daher wird die Zeichenkette und die korrespondierende Zeichenkodierung JIS gemäß dem vorgeschlagenen Verfahren als nicht korrekte Zeichenkodierung verworfen und nicht weiter berücksichtigt. Die dritte Zeichenkette ergibt sich nach einer Konvertierung der Bytefolge mit der Zeichenkodierung GBK.row 41 of the 4 puts the metainformation in after the ISO 8859 Standard The result is the text "Herbert Grönemeyer" with the German umlaut "ö", which forms a special character within the Zeichenko dation. A conversion with the character encoding JIS results in a character string 42 , In this case, the byte that forms the umlaut after the ISO coding is converted into a non-representable character. Therefore, according to the proposed method, the character string and the corresponding character coding JIS are rejected as incorrect character coding and are not considered further. The third character string results after a conversion of the byte sequence with the character encoding GBK.

Bei dem darauf folgenden Vergleich der Zeichenkette 41 mit der Zeichenkette 44 ergibt sich eine Übereinstimmung der Zeichenketten in 16 von 18 Zeichen. Die Übereinstimmung liegt über einem vorher definierten Schwellwert, obwohl zwei Zeichen offenbar nicht korrekt konvertiert wurden. Aufgrund der großen Übereinstimmung wird die Zeichenkodierung ISO als korrekte Zeichenkodierung erkannt und ausgewählt.In the following comparison of the string 41 with the string 44 results in a match of the strings in 16 of 18 characters. The match is above a predefined threshold, although two characters did not seem to be converted correctly. Due to the large match, the character encoding ISO is recognized and selected as correct character encoding.

Zeilen 45 bis 48 zeigen ein zweites Beispiel, bei dem die Metainformation den Namen eines japanischen Künstlers enthält. Der Name ergibt kein sinnvolles Ergebnis nach einer Konvertierung mit der Standardzeichenkodierung ISO. Vielmehr enthält die Zeichenkette 45 eine Reihe im Regelfall nicht auftretender Sonderzeichen. Die Zeichenkette 46 ergibt sich nach einer Konvertierung mit der japanischen Zeichenkodierung JIS, die Zeichenkette 47 nach einer Konvertierung mit der chinesischen Zeichenkodierung GBK.row 45 to 48 show a second example in which the meta information contains the name of a Japanese artist. The name does not give a meaningful result after a conversion with the standard character coding ISO. Rather, contains the string 45 a series of non-occurring special characters. The string 46 results after a conversion with the Japanese character encoding JIS, the string 47 after a conversion with the Chinese character encoding GBK.

Die Zeichenkette 47 enthält wiederum ein nicht darstellbares Zeichen angedeutet durch das Kästchen, und wird im weiteren Verlauf als nicht korrekte Zeichenkodierung verworfen.The string 47 again contains a non-representable character indicated by the box, and is subsequently discarded as incorrect character encoding.

Sodann erfolgt ein Vergleich der Zeichenkette 45 mit der Zeichenkette 46, welche nur eine geringe Übereinstimmung in den ersten beiden Buchstaben ergibt. Diese Übereinstimmung liegt unterhalb des Schwellwertes, sodass die Standardzeichenkodierung ISO als nicht korrekte Zeichenkodierung angesehen wird.Then there is a comparison of the string 45 with the string 46 which gives only a small match in the first two letters. This match is below the threshold, so the standard ISO character encoding is considered incorrect character encoding.

Vielmehr wird die japanische Zeichenkodierung JIS als korrekte Zeichenkodierung ausgewählt, da keine weiteren Zeichenketten für einen folgenden Vergleich vorliegen. Die gezeigte Darstellung der Zeichenkette 46 ist somit die korrekte.Rather, the Japanese character encoding JIS is selected as the correct character encoding since there are no more strings for a subsequent comparison. The shown representation of the string 46 is thus the correct one.

5 zeigt eine weitere Ausgestaltungsform des Verfahrens zur Darstellung von Metainformationen durch lesbare Zeichen. Im Schritt S501 wird die Bytefolge empfangen und anhand dieser entschieden, wie viele Zeichen für eine Bestimmung der korrekten Zeichenkodierung konvertiert werden soll. Dies kann beispielsweise die ganze Bytefolge oder auch nur ein Teil der Bytefolge sein. Im Multimediabereich können zum Beispiel die den Künstler, den Titel oder das Album repräsentierende Bytefolgen komplett konvertiert werden, um die korrekte Zeichenkodierung zu ermitteln. 5 shows another embodiment of the method for displaying meta information by readable characters. In step S501, the byte string is received and used to decide how many characters to convert for a determination of correct character encoding. This can be, for example, the entire byte sequence or only part of the byte sequence. In the multimedia area, for example, the byte strings representing the artist, title or album can be completely converted to determine the correct character encoding.

In Schritt S502 wird wiederum überprüft, ob die Bytefolge nach einer UTF-Methode codiert ist und UNICODE bildet. Ist dies der Fall, kann die Darstellung im UNICODE erfolgen und eine weitere Konvertierung ist nicht notwendig. Andernfalls wird das Verfahren in Schritt S503 fortgesetzt, in dem die Bytefolge mit verschiedenen Zeichenkodierungen in entsprechende Zeichenketten konvertiert wird. Hierbei ist wiederum eine Zeichenkodierung als Standardzeichenkodierung ausgewählt.In Step S502 again checks if the byte string is encoded according to a UTF method and forms UNICODE. Is this If so, the presentation can be done in UNICODE and another Conversion is not necessary. Otherwise, the procedure becomes in step S503, in which the byte order is different Character encodings are converted into corresponding character strings. Here again is a character encoding as standard character encoding selected.

Alternativ zu dieser Auswahl kann auch eine Priorisierung der verschiedenen Zeichenkodierungen erfolgen. Beispielsweise kann eine erste Zeichenkodierung als Standardzeichenkodierung und eine zweite Zeichenkodierung als Ersatzstandardzeichenkodierung definiert werden. S503a stellt die Zeichenketten nach den verschiedenen Kodierungen, beispielsweise ISO-8859 , SJIS und GBK dar. SJIS ist eine Kodierung zur Darstellung japanischer Zeichen. Anschließend erfolgt in Schritt S504 ein statistischer Vergleich der Zeichenketten untereinander, in dem die Übereinstimmung einzelner Zeichen der Zeichenkette ermittelt wird.As an alternative to this selection, it is also possible to prioritize the various character encodings. For example, a first character encoding may be defined as standard character encoding and a second character encoding as substitute standard character encoding. S503a sets the strings according to the different encodings, for example ISO-8859 , SJIS and GBK. SJIS is a coding for representing Japanese characters. Subsequently, in step S504, a statistical comparison of the character strings with one another is determined in which the match of individual characters of the character string is determined.

In Schritt S505 wird die Übereinstimmung der Zeichenkette konvertiert nach SJIS und GBK mit der Zeichenkette konvertiert mittels der ISO-Zeichenkodierung erfasst. Sofern eine hohe Übereinstimmung zwischen den Zeichenketten vorliegt, wird angenommen, dass es sich um die ISO-Zeichenkodierung handelt, mit der die Bytefolge kodiert worden ist. Demzufolge wird die ISO-Codierung als Standardzeichenkodierung in Schritt S506 ausgewählt und für die weitere Decodierung der Bytefolgen verwendet. Andernfalls wird das Verfahren mit Schritt S507 fortgesetzt.In step S505, the match of the character string converted to SJIS and GBK with the character string converted by the ISO character encoding is detected. If a high agreement between the strings, it is assumed that it is the ISO character encoding used to encode the byte sequence. Accordingly, the ISO coding is selected as the standard character encoding in step S506 and used for the further decoding of the byte strings. Otherwise, the process proceeds to step S507.

In diesem Schritt wird überprüft, ob die Zeichenketten die aus der Decodierung der Bytefolge mit den Zeichenkodierungen SJIS und GBK entstanden sind, nicht darstellbare Zeichen aufweisen. Ist dies der Fall, so wird in Schritt S508 die Zeichenkodierung verworfen, die zu der Zeichenkette mit den nicht darstellbaren Zeichen geführt hat. Im folgenden Schritt S509 die Zeichenkodierung ausgewählt, mit der die übrig gebliebene Zeichenkette konvertiert worden ist.In This step checks if the strings that results from decoding the byte sequence with the character encodings SJIS and GBK have arisen, not displayable characters. If so, the character encoding is performed in step S508 discarded that to the string with the non-representable characters has led. In the following step S509 the character encoding selected with which the left-over string has been converted.

Sofern die Zeichenketten hingegen in Schritt S507 und S508 darstellbare Zeichen erhalten, wird eine Datenbankabfrage in Schritt S510 durchgeführt. Diese Datenbankabfrage kann beispielsweise ein Wörterbuch oder eine Multimediadatenbank darstellen. Eine Abfrage trägt zur Entscheidung bei, ob die Zeichen der Zeichenkette korrekt konvertiert wurden. Hierzu werden die verschiedenen konvertierten Zeichenketten an die Datenbank übermittelt und deren Ergebnis überprüft.Provided however, the character strings are representable in steps S507 and S508 Characters, a database query is performed in step S510. These For example, a database query can be a dictionary or represent a multimedia database. Carries a query to decide whether the characters of the string convert correctly were. This is done by the different converted strings transmitted to the database and checked their result.

Ist die Zeichenkette mit einer falschen Zeichenkodierung konvertiert, so enthält sie zwar darstellbare, jedoch in Bezug auf die gesamte Zeichenkette nicht sinnvolle Zeichen. Eine entsprechende Datenbankabfrage im Schritt S510 wird dann kein Ergebnis liefern.is converts the string with an incorrect character encoding, it contains representable, but in relation to the entire string not meaningful characters. A corresponding database query then, in step S510, no result will be provided.

Wenn hingegen die verwendete Zeichenkodierung für die Konvertierung der Bytefolge korrekt ist, sollte die Datenbankabfra ge ein positives Ergebnis liefern, sodass diese Zeichenkodierung in Schritt S511 als korrekte Zeichenkodierung identifiziert und für die weitere Decodierung der Bytefolge herangezogen wird.If however, the character encoding used for the conversion the byte sequence is correct, the database query should be a positive Result, so that character encoding in step S511 identified as correct character encoding and for the further decoding of the byte sequence is used.

Ergibt hingegen eine Datenbankabfrage kein sinnvolles Ergebnis, so kann das Verfahren noch mit einer individuellen Entscheidung, beispielsweise einer Konvertierung mit dem Standardzeichensatz in Schritt S512 fortgesetzt werden. Diese letzte individuelle Entscheidung in Schritt S512 kann beispielsweise anhand einer abgespeicherten Ländervariante erfolgen und erlaubt es, zumindest die Bytefolge, wenn auch mit teilweise nicht korrekten Zeichen auf dem Bildschirm darzustellen.results however, a database query is not a meaningful result, so can the process still with an individual decision, for example a conversion with the standard character set in step S512 to be continued. This last individual decision in step S512 can for example be based on a stored country variant and allows it, at least the byte order, albeit partially incorrect characters on the screen.

Mit den vorgestellten Verfahren lassen sich Metainformationen, abgespeichert in Bytefolgen, auf einem Bildschirm darstellen, in dem eine Entscheidung über die zu verwendende Zeichenkodierung für die Konvertierung der Bytefolge in darstellbarer Zeichen getroffen wird. Durch die vorgeschlagene Heuristik und die statistische Auswertung der konvertierten Zeichenketten untereinander kann zudem eine fehlertolerante Darstellung für verschiedene Ländervarianten realisiert werden. Entsprechend kann ein Schrifttext in einer Sprache in einem Land gelesen werden, das einen anderen Schriftsatz und eine andere Zeichenkodierung verwendet.With the presented method can be meta information stored in sequence of bytes, on a screen in which a decision about the character encoding to be used for the conversion the byte sequence is taken in representable characters. By the proposed heuristic and the statistical evaluation of the converted Strings among each other can also be a fault-tolerant representation be realized for different country variants. Accordingly, a text in a language in a country read that a different font and a different character encoding used.

6 zeigt eine Anordnung, die ausgestaltet ist, das vorgeschlagene Verfahren durchzuführen. Hierbei ist ein Bildschirm 60 vorgesehen, auf dem eine Vielzahl unterschiedlicher Zeichen dargestellt werden können. Der Bildschirm 60 ist beispielsweise als TFT- oder LCD-Bildschirm ausgestaltet. Angeschlossen ist der Bildschirm 60 an eine Mikroprozessoreinheit 62. Die Mikroprozessoreinheit 62 ist an einen Speicher 61 angeschlossen. In dem Speicher 61 ist eine Vielzahl von Dateien abgelegt, die Metainformationen in Bytefolgen enthalten. Zur Verarbeitung wird eine der Datei in dem Mikroprozessor 62 ge laden und die Bytefolge extrahiert, die die Metainformationen enthalten. 6 shows an arrangement configured to perform the proposed method. Here is a screen 60 provided on which a variety of different characters can be displayed. The screen 60 is designed for example as a TFT or LCD screen. Connected is the screen 60 to a microprocessor unit 62 , The microprocessor unit 62 is to a store 61 connected. In the store 61 a large number of files containing meta information in byte sequences are stored. For processing, one of the files in the microprocessor 62 load and extract the byte strings containing the metadata.

Der Mikroprozessor 62 konvertiert nun mittels verschiedener Zeichenkodierungen die Bytefolge oder einen Teil davon und wählt nach dem vorgeschlagenen Prinzip die korrekte Zeichenkodierung für die Darstellung der Metainformationen aus. Anschließend wird die Bytefolge vollständig mit dem ausgewählten Zeichensatz konvertiert und auf dem Bildschirm 60 dargestellt. Der Speicher 61 mit den Dateien kann unter anderem ein Festplattenspeicher, eine SD-Karte oder auch ein CD-Laufwerk beinhalten. Entsprechend können die Metainformationen ID3 Daten für Musikdateien nach dem mp3-Standard, aber auch Playlisten wie m3u oder asx beinhalten. Metadaten für Videoinformationen und/oder Navigationsinformationen sind ebenso möglich.The microprocessor 62 now converts the byte sequence or a part thereof by means of different character encodings and selects according to the proposed principle the correct character encoding for the representation of the meta information. Then the byte sequence is completely converted with the selected character set and displayed on the screen 60 shown. The memory 61 The files may include a hard disk space, an SD card, or a CD drive. Accordingly, the meta information may include ID3 data for music files according to the mp3 standard, but also playlists such as m3u or asx. Metadata for video information and / or navigation information is also possible.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list The documents listed by the applicant have been automated generated and is solely for better information recorded by the reader. The list is not part of the German Patent or utility model application. The DPMA takes over no liability for any errors or omissions.

Zitierte Nicht-PatentliteraturCited non-patent literature

- ISO 8859-1 standard [0041]
- ISO 8859 standard [0042]
- ISO-8859 [0050]

Claims

Method for converting metainformation in readable characters, where the metainformation is in a byte order are stored, where - converted the byte sequence with a standard character encoding is to get a first string; - the Byte sequence converted with at least a second character encoding to obtain at least a second string; - the first string with the at least one second string is compared to matching converted characters in the two strings to determine and - based the frequency of the match converted Character is determined which of the standard character encoding and the at least one second character encoding used for a conversion becomes.

The method of claim 1, wherein the first and the at least one second string to non-representable characters is examined and if non-representable characters are found, the character encoding that converts the non-representable characters has been discarded.

Method according to one of claims 1 to 3, wherein at a threshold exceeding agreement converted character between the first and the second character string uses the default character encoding for a conversion becomes.

Method according to one of claims 1 to 3 in which the byte sequence is converted with a character encoding is to get a third string and this third string is compared with the first and / or the second character string to match decoded characters in the two strings to determine.

Method according to one of the claims, in where the sequence of bytes is examined before conversion, whether it is encoded in UNICODE.

Method according to one of claims 1 to 6, in which the method uses only part of the byte sequence is performed and a conversion of the remaining Byte sequence with the specific character encoding is done.

Device that is executed according to the method to carry out any of claims 1 to 6 and the To display a string on a screen that is in the process certain string is converted.