DE102004052247A1 - Verfahren und Anordnung zur Bestimmung des Ähnlichkeitsgrades von Toninformationen - Google Patents

Verfahren und Anordnung zur Bestimmung des Ähnlichkeitsgrades von Toninformationen Download PDF

Info

Publication number
DE102004052247A1
DE102004052247A1 DE200410052247 DE102004052247A DE102004052247A1 DE 102004052247 A1 DE102004052247 A1 DE 102004052247A1 DE 200410052247 DE200410052247 DE 200410052247 DE 102004052247 A DE102004052247 A DE 102004052247A DE 102004052247 A1 DE102004052247 A1 DE 102004052247A1
Authority
DE
Germany
Prior art keywords
similarity
tone signals
tone
measure
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE200410052247
Other languages
English (en)
Inventor
Horst Kaltschmidt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE200410052247 priority Critical patent/DE102004052247A1/de
Publication of DE102004052247A1 publication Critical patent/DE102004052247A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

Es wird beschrieben ein Verfahren sowie eine Vorrichtung zur Ermittlung eines Ähnlichkeitsmaßes für ein erstes und ein zweites Tonsignal, wobei eine Kreuzkorrelation zwischen den beiden Tonsignalen durchgeführt wird, die einen als Ähnlichkeitsmaß dienenden Korrelationsfaktor liefert.

Description

  • So wie für Erfindungen unter bestimmten Bedingungen gewerblicher Rechtsschutz beansprucht werden kann, ist dies im Markenrecht für Toninformation auch mit sogenannten Hörmarken möglich. Toninformation kann in Form von Musikstücken auch urheberrechtlichen Schutz genießen.
  • Hörmarken sind akustische Darstellungen, also Schallereignisse, wie Folgen von Tönen (z.B. Klänge, Akkorde, Melodien), Geräusche, Knalle oder in besonderer Weise gesprochene Wörter (Texte), die für bestimmte Waren/Dienstleistungen geschützt sind. Diese Darstellungen werden nachfolgend Hörzeichen genannt. Stehen sich in markenrechtlichen Widerspruchs- oder Verletzungsverfahren zwei Hörmarken gegenüber, geht es u.a. um die bedeutende Frage, ob die zwei Hörzeichen verwechselbar ähnlich oder unterschiedlich sind. Da Hörzeichen aus Tausenden von Einzelinformationen bestehen, würde es bei zwei völlig gleichen Hörzeichen schon genügen, eine einzige Information zu verändern, um zur Ungleichheit zu kommen. Der Schutzbereich einer Hörmarke wäre also äußerst gering. Deshalb hat der Gesetzgeber auf den Begriff der Verwechslungsgefahr abgestellt. Für die Frage der Verwechslungsgefahr ist unter anderem die Ähnlichkeit der gegenüberstehenden Hörzeichen relevant.
  • Eine ähnliche Problematik stellt sich, wenn es um die Verletzung urheberrechtlicher Tonwerke geht.
  • Es stellt sich also die interessante Frage, wie man die Ähnlichkeit zweier Toninformationen, z.B. Hörzeichen, feststellen kann. Wenn es gelingt, ein Ähnlichkeitsmaß M zu ermitteln (mit dem Wert M = 0 für absolute Unähnlichkeit und M =1 für absolute Ähnlichkeit (Gleichheit)), so kann die Beurteilung einer Verwechslungsgefahr oder Schutzrechtsverletzung deutlich erleichtert werden.
  • Es existieren bereits eine Reihe von physikalisch-mathematischen Verfahren zur Bestimmung von Ähnlichkeitsmaßen, die insbesondere zur Bestimmung melodischer Ähnlichkeiten von Musikstücken entwickelt und jüngst vom Fraunhofer Institut für Medienkommunikation abgehaltenen MPEG 7 Workshop breit diskutiert wurden. Insbesondere wurde in einem Vortrag, Daniel Müllensieven, "Messungen melodischer Ähnlichkeit", am 17. Dezember 2003 dargelegt, inwieweit physikalisch-mathematische Verfahren mit subjektiv, d.h. von Testpersonen, bestimmten Ähnlichkeitsmaßen konkurrieren können (vgl, http://iv.tu-berlin.de/coll/2004/frieler.html und http://www.imk.fraunhofer.de/sixcms/media.php/208/muellensiefen_messungmelodischeraehnli chkeit.pdf). Dabei wurden drei Klassen von Ähnlichkeitsmaßen angegeben: Vektormaße (Tonhöhen- und Dauernfolgen als Vektoren); Ähnlichkeitsmaße als Differenzen und Korrelationen; Symbolische Maße (Tonhöhen- und Dauernfolgen als Zeichenketten); Musikalische Maße, darunter auch harmonische Korrelationen (musikalische Distanz des harmonischen Contents).
  • Ein Hörzeichen ist ein physikalisches Schallereignis, genauer gesagt ein zeitabhängiges Luftdrucksignal s(t). Man könnte also daran denken, um die Ähnlichkeit (Gleichheit) zwischen zwei Signalen s1(t) (Hörmarke 1) und s2(t) (Hörmarke 2) festzustellen (t ist der Parameter Zeit), das zweite Signal vom ersten Signal abzuziehen und zu prüfen, ob diese Differenz Null ist (Differenzmethode). Es würde also geprüft, ob die Gleichung s1(t) – s2(t) = 0 erfüllt ist. Durch einfache, für einen Hörer sofort erkennbare, kleine Abweichungen wie unterschiedliche Lautstärke, Zeitverschiebungen oder Wahl eines anderen zeitlichen Ablaufes wie schnelleres oder langsameres Abspielen würde die Differenzmethode Unähnlichkeit feststellen, obwohl hörphysiologisch große Ähnlichkeit vorliegt. Diese Methode ist also zum Hörzeichenvergleich offensichtlich ungeeignet.
  • Abgesehen davon, daß es unübersichtlich viele Verfahren mit völlig unterschiedlichen Leistungsmerkmalen gibt, taugen all die genannten Methoden zur Beurteilung von Ähnlichkeiten verschiedener Hörzeichen recht wenig, da diese, wie oben beschrieben, ja nicht nur aus Musikstücken bestehen, sondern beliebige Schallereignisse als Toninformation enthalten können. Auch sind die genannten Ansätze kaum zum Massen-Screening verwendbar. Ein solches Massen-Screening wäre insbesondere bei Markenrecherchen in der Phase der Entwicklung eines neuen Hörzeichens sehr wertvoll.
  • Der Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung anzugeben, mit dem einfach die Ähnlichkeit von Toninformationen, insbesondere Hörzeichen, bestimmt werden kann.
  • Diese Aufgabe wird gelöst durch ein Verfahren zur Ermittlung eines Ähnlichkeitsmaßes für ein erstes und ein zweites Tonsignal, wobei eine Kreuzkorrelation zwischen den beiden Tonsignalen durchgeführt wird, die einen als Ähnlichkeitsmaß dienenden Korrelationsfaktor liefert. Sie wird weiter gelöst durch eine Vorrichtung zur Ermittlung eines Ähnlichkeitsmaßes für ein erstes und ein zweites Tonsignal, die eine Eingabeeinrichtung sowie einen Korrelator aufweist, der ein Verfahren der genannten Art ausführt.
  • Die Efindung setzt nun ein Verfahren ein, das dem Problemkreis der Objekt- oder Hindernisortung entstammt. Es erfolgt eine automatische Prüfung, ob ein zu prüfendes Testsignal gleich und ähnlich einem Vergleichssignal ist. Test- und Vergleichssignal sind z.B. zwei zu untersuchende Hörzeichen in geeigneter Tonsignalform.
  • Um das Testsignal als dem Vergleichssignal ähnlichen Signal zu erkennen, wird eine Korrelation mit Schwellwertüberwachung verwendet. Ein Ähnlichkeitsmaß zwischen dem Vergleichssignal s1(t) und dem Testsignal s2(t) wird durch den Maximalwert einer Korrelationsfunktion Ψ(t) bestimmt. Üblicherweise wird ein in einem Korrelator gespeichertes Referenzsignal mit dem Testsignal s2(t) korreliert. Hier wird nun anstatt eines gespeicherten Referenzsignals das Vergleichssignal s1(t) verwendet.
  • Dabei wird die mathematische Operation Ψ(τ) = ∫s1(t – τ)·s2(t)·dt (τ ist eine Verschiebung zwischen dem Vergleichssignal und dem Testsignal) ausgeführt und geprüft, ob der Maximalwert der Korrelationsfunktion einen festgelegten Schwellwert MS überschreitet. Wird dieser Schwellwert überschritten, so wird entschieden "die beiden Signale sind sehr ähnlich".
  • Um Stauchungen oder Dehnungen des Testsignals zu berücksichtigen, wird das Vergleichssignal zeitlich mit dem Faktor k gedehnt oder zeitlich gestaucht, das heißt, es wird Ψk(τ) = ∫s1(kt – τ)·s2(t)·dt bestimmt und auf das Maximum geprüft.
  • Zur Ähnlichkeitsüberprüfung zweier in Frage stehender Hörzeichen s1(t) und s2(t) wird die mathematische Operation Ψk·(τ)= ∫s1(kt – τ)·s2(t)·dt auf einem Prozessor oder Computer ausgeführt und geprüft, ob das so definierte ggf. geeignet normierte Ähnlichkeitsmaß über einem festzulegenden Schwellwert liegt. Der Faktor k berücksichtigt dabei, daß eines der beiden Schallsignale womöglich schneller oder langsamer abgespielt wird oder zeitlich gestaucht oder gedehnt vorliegt.
  • Das Verfahren berücksichtigt vorteilhafterweise auch den Fall, daß sich die beiden Hörzeichen nur in den Obertönen unterscheiden, beispielsweise wenn es sich um eine Melodie handelt, die mit unterschiedlichen Musikinstrumenten gespielt wird. Damit dann das Ähnlichkeitsmaß nicht kleiner ausfällt, wird eines der beiden Hörzeichensignale quadriert, wodurch automatisch Obertöne gebildet werden. Ausschließlich wird das Maximum der Korrelationsfunktion Ψk(τ)= ∫sn 1 (kt – τ)·s2(t)·dt ermittelt.
  • Mit n = 2 werden geradzahlige, mit n = 3 ungeradzahlige Harmonische erfaßt.
  • Längere Hörzeichen könnten nach den beschriebenen Verfahren als unähnlich eingestuft werden, auch wenn sie kurzzeitig sehr große Ähnlichkeit miteinander haben. Es ist deshalb, um eine kurzzeitige Ähnlichkeiten zweier Hörmarken zu ermitteln, vorteilhaft, das oben beschriebene Verfahren auf zeitlich begrenzte Fenster anzuwenden. Die Länge TF der zeitlich begrenzten Fenster kann von einem Bediener oder automatisch von einem Ähnlichkeitsbestimmungsprogramm gewählt werden.
  • Vorteilhafterweise wird das Verfahren mit einem geeignet programmierten Computer ausgeführt.
  • Nachfolgend wird das Verfahren anhand von 1 näher erläutert, die Struktur und Signalflüsse eines z. B. computerbasierten Verfahrens zur Bestimmung eines Ähnlichkeitsmaßes zweier Hörzeichen zeigt. Die auf Ähnlichkeit zu prüfenden Hörzeichensignale 1 und 2 befinden sich auf Tonträgern 3 und 4 und werden einem als Korrelator dienenden Computer 5 eingegeben. Desweiteren wird ein k-Bereich (beispielsweise 0,5 ≤ k ≤2 ) und ggf. eine zeitliche Länge TF von auf Teilbereichsähnlichkeit zu untersuchenden Fenstern festgelegt. Ein Computer 5 berechnet mit diesen Werten aus dem Hörzeichensignal 1 k-Referenzsignale. Das im Computer 5 installierte Korrelationsprogramm 6 korreliert nun sämtliche k-Referenzsignale mit dem Hörzeichensignal 2. Ein Programmteil 7 zur Bestimmung des Maximums bestimmt das jeweilige Maximum der einzelnen Korrelationsfunktionen, und ein Programmteil 8 zur Bestimmung des größten Ähnlichkeitsmaßes stellt das größte Maximum unter den Korrelationsmaxima fest und ordnet die Parameter k,Δk zu. Diese Werte werden ausgegeben. In einem nächsten Schritt können in den beiden Hörzeichensignalen 1 und 2 Teilähnlichkeiten der beiden Hörmarken gesucht werden. Dazu werden die k-Referenzsignale in Zeitabschnitte der Länge TF geteilt. Die so Bringt das oben beschriebenen Verfahren für den Benutzer eine zu große Ergebnisdatenflut, so können die ausgegebenen Ergebniswerte einem Schwellwertwächter/Entscheider 9 zugeführt werden, dem seinerseits Schwellwerte und ihre Bedeutungen wie unähnlich, leicht ähnlich, sehr ähnlich eingegeben werden. Die Ausgabe der Ergebnisdaten ist somit hier im Beispiel auf drei Daten reduziert.
  • Das hier beschriebene Verfahren kann mit großer Zeitersparnis beim Screening, bei dem ein zu beurteilendes Hörzeichen mit vielen bereits existierenden Hörzeichen zu vergleichen ist, angewendet werden.

Claims (9)

  1. Verfahren zur Ermittlung eines Ähnlichkeitsmaßes für ein erstes und ein zweites Tonsignal s1(t) und s2(t), wobei eine Kreuzkorrelation zwischen den beiden Tonsignalen durchgeführt wird, die einen als Ähnlichkeitsmaß dienenden Korrelationsfaktor liefert.
  2. Verfahren nach Anspruch 1, wobei für verschiedene Werte k > 0 die Funktion ak(τ) = ∫sn 1 (kt – τ)·s2(t)·dt mit n = 1, 2 und/oder 3 berechnet, das jeweilige Maximum der einzelnen Funktionen bestimmt und das größte dieser bestimmten Maxima festgestellt und als Ähnlichkeitsmaß verwendet wird.
  3. Verfahren nach Anspruch 2, wobei ein oder mehrere Ausschnitte des zweiten Tonsignals extrahiert, zur Berechnung der Funktion ak(τ) verwendet und für jeden Ausschnitt ein Ähnlichkeitsmaß erzeugt wird.
  4. Verfahren nach einem der obigen Ansprüche, wobei sowohl mit n = 1 als auch n = 2 sowie n = 3 ein Ähnlichkeitsmaß erzeugt wird.
  5. Verfahren nach einem der obigen Ansprüche, wobei eine Schwellwertentscheidung durchgeführt wird, ob das Ähnlichkeitsmaß einen Schwellwert überschreitet.
  6. Vorrichtung zur Ermittlung eines Ähnlichkeitsmaßes für ein erstes und ein zweites Tonsignal s1(t) und s2(t), die eine Eingabeeinrichtung sowie einen Korrelator (5) aufweist, der ein Verfahren nach einem der Ansprüche 1 bis 4 ausführt.
  7. Vorrichtung nach Anspruch 7, mit einem Schwellwertwächter (8).
  8. Vorrichtung nach Anspruch 7 oder 8, die einen Computer (5) sowie Computerprogrammmittel aufweist.
  9. Computerprogrammprodukt, das das Verfahren nach einem der Ansprüche 1 bis 4 auf einen Computer (5) ausführt.
DE200410052247 2004-10-27 2004-10-27 Verfahren und Anordnung zur Bestimmung des Ähnlichkeitsgrades von Toninformationen Withdrawn DE102004052247A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE200410052247 DE102004052247A1 (de) 2004-10-27 2004-10-27 Verfahren und Anordnung zur Bestimmung des Ähnlichkeitsgrades von Toninformationen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE200410052247 DE102004052247A1 (de) 2004-10-27 2004-10-27 Verfahren und Anordnung zur Bestimmung des Ähnlichkeitsgrades von Toninformationen

Publications (1)

Publication Number Publication Date
DE102004052247A1 true DE102004052247A1 (de) 2005-06-09

Family

ID=34559900

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200410052247 Withdrawn DE102004052247A1 (de) 2004-10-27 2004-10-27 Verfahren und Anordnung zur Bestimmung des Ähnlichkeitsgrades von Toninformationen

Country Status (1)

Country Link
DE (1) DE102004052247A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190364354A1 (en) * 2018-05-22 2019-11-28 Staton Techiya LLC Hearing sensitivity acquisition methods and devices

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190364354A1 (en) * 2018-05-22 2019-11-28 Staton Techiya LLC Hearing sensitivity acquisition methods and devices
US11122354B2 (en) * 2018-05-22 2021-09-14 Staton Techiya, Llc Hearing sensitivity acquisition methods and devices

Similar Documents

Publication Publication Date Title
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
Pollard et al. A tristimulus method for the specification of musical timbre
DE69837107T2 (de) Gerät und verfahren zum feststellen von gefühlen
DE69334139T2 (de) Testen von Nachrichtenübertragungsgerät
Suied et al. Auditory gist: recognition of very short sounds from timbre cues
KR100880480B1 (ko) 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
DE69124360T2 (de) Vorrichtung zur Anzeige von Gesangseigenschaften
Kostek et al. Parametric representation of musical sounds
DE60223391T2 (de) Tonhöhenbestimmungsverfahren und vorrichtung zur spektralanalyse
WO2004010327A2 (de) Vorrichtung und verfahren zum charakterisieren eines informationssignals
EP1217603A1 (de) Verfahren zur Identifizierung von Musikstücken
Mercer et al. Decay uncovered in nonverbal short-term memory
Gontier et al. Estimation of the perceived time of presence of sources in urban acoustic environments using deep learning techniques
Derr et al. The contribution of vowel duration, F 0 contour, and frication duration as cues to the/juz/-/jus/distinction
DE10223735A1 (de) Verfahren und Vorrichtung zum Ermitteln von Rhythmuseinheiten in einem Musikstück
Hoopen et al. A new illusion of time perception—II
Dean et al. Modeling perceptions of valence in diverse music: Roles of acoustic features, agency, and individual variation
CN105895079A (zh) 语音数据的处理方法和装置
DE60214409T2 (de) Verfahren und vorrichtung zur zweiphasen-grundfrequenzdetektion
DE102004052247A1 (de) Verfahren und Anordnung zur Bestimmung des Ähnlichkeitsgrades von Toninformationen
Effa et al. Convolutional Neural Network for Audibility Assessment of Acoustic Alarms.
DE68911858T2 (de) Verfahren und Vorrichtung zum automatischen Transkribieren.
Safavi et al. Predicting the perceived level of reverberation using machine learning
Półrolniczak et al. Computer analysis of the noise component in the singing voice for assessing the quality of singing
Berardi et al. Talker age estimation using machine learning

Legal Events

Date Code Title Description
OAV Applicant agreed to the publication of the unexamined application as to paragraph 31 lit. 2 z1
8139 Disposal/non-payment of the annual fee