DE112017001277T5 - Tonsignalverarbeitungsverfahren und Tonsignalverarbeitungsvorrichtung - Google Patents

Tonsignalverarbeitungsverfahren und Tonsignalverarbeitungsvorrichtung Download PDF

Info

Publication number
DE112017001277T5
DE112017001277T5 DE112017001277.5T DE112017001277T DE112017001277T5 DE 112017001277 T5 DE112017001277 T5 DE 112017001277T5 DE 112017001277 T DE112017001277 T DE 112017001277T DE 112017001277 T5 DE112017001277 T5 DE 112017001277T5
Authority
DE
Germany
Prior art keywords
sound signal
beat
time length
index
clock
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112017001277.5T
Other languages
English (en)
Other versions
DE112017001277B4 (de
Inventor
Akira MAEZAWA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of DE112017001277T5 publication Critical patent/DE112017001277T5/de
Application granted granted Critical
Publication of DE112017001277B4 publication Critical patent/DE112017001277B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • G10H1/42Rhythm comprising tone forming circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

Es wird ein Tonsignalverarbeitungsverfahren bereitgestellt, einschließlich eines Schrittes (S2) des Erfassens einer Einheitzeitlänge in einem Eingabetonsignal, eines Schrittes (S3) des Berechnens eines Tonmerkmalbetrags aus dem Eingabetonsignal, eines Schrittes (S4) des Berechnens eines Index, der Gültigkeit der Zeitlängen in einem Fall angibt, in dem die Zeitlängen als die Zeitlängen eines Taktschlags und eines Takts unter Verwendung der Einheitzeitlänge als eine Referenz in dem Eingabetonsignal in Hinsicht auf den Tonmerkmalbetrag angenommen werden, und eines Schrittes (S5) des Schätzens der Zeitlängen eines Taktschlags und eines Takts unter Verwendung der Einheitzeitlänge als eine Referenz auf Basis des Index.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft eine Technologie zum Schätzen von Zeitlängen von Taktschlägen und Takten in einem Musikstück aus einem Tonsignal, das das Musikstück angibt.
  • STAND DER TECHNIK
  • Es ist eine Technik zum Analysieren eines Tonsignals bekannt. Patentliteratur 1 und 2 offenbaren zum Beispiel Techniken, die ein Wahrscheinlichkeitsmodell zum Schätzen von Taktschlagpunkten, Tempi, Taktpositionen und Akkorden eines Musikstücks aus einem Tonsignal, das das Musikstück angibt, verwenden.
  • ZITIERLISTE
  • PATENTLITERATUR
    • Patentliteratur 1: JP-A-2015-114361
    • Patentliteratur 2: JP-A-2015-200803
  • KURZDARSTELLUNG DER ERFINDUNG
  • TECHNISCHE AUFGABE
  • In den in Patentliteratur 1 und 2 offenbarten Techniken ist es notwendig, ein Übergangswahrscheinlichkeitsmodell von Taktschlagpunkten, Tempi, Takten und Akkordprogression im Voraus zu definieren.
  • In dieser Hinsicht stellt die vorliegende Erfindung eine Technologie für ein einfacheres Schätzen der Längen von Taktschlägen und Takten aus einem Eingabetonsignal bereit.
  • LÖSUNG DER AUFGABE
  • Ein Aspekt der vorliegenden Erfindung stellt ein Tonsignalverarbeitungsverfahren bereit, das die Schritte beinhaltet: Erfassen einer Einheitzeitlänge in einem Eingabetonsignal, das ein Musikstück angibt; Berechnen eines Tonmerkmalbetrags aus dem Eingabetonsignal; Berechnen, in einem Fall, in dem die Zeitlängen eines Taktschlags und eines Takts in dem Musikstück unter Verwendung der Einheitzeitlänge als eine Referenz in dem Eingabetonsignal in Hinsicht auf den Tonmerkmalbetrag angenommen werden, eines Index, der die Gültigkeit der angenommenen Zeitlängen angibt; und Schätzen der Zeitlängen eines Taktschlags und eines Takts unter Verwendung der Zeiteinheitlänge als eine Referenz auf Basis des Index.
  • Ein anderer Aspekt der vorliegenden Erfindung stellt ein Tonsignalverarbeitungsverfahren bereit, das die Schritte beinhaltet: Erfassen einer Zeiteinheitlänge in einem Eingabetonsignal, das ein Musikstück angibt; Berechnen eines Tonmerkmalbetrags aus dem Eingabetonsignal; Durchführen einer amplitudendiskreten Fourier-Transformation an dem Tonmerkmalbetrag in einer Zeitdomäne unter Verwendung der Einheitzeitlänge als eine Referenz; Berechnen eines Index der Zeitlängen eines Taktschlags und eines Takts durch Anwenden einer Fensterfunktion, die den Zeitlängen eines Taktschlags und eines Takts in dem Musikstück entsprechen, unter Verwendung der Einheitzeitlänge als eine Referenz in der Zeitdomäne in Hinblick auf ein Resultat der amplitudendiskreten Fourier-Transformation; und Schätzen der Zeitlänge eines Taktschlags und der Zeitlänge eines Takts unter Verwendung der Einheitszeitlänge als eine Referenz auf Basis des Index.
  • Der Index kann unter Verwendung einer Priorität berechnet werden, die im Voraus in Hinblick auf eine Kombination der Zeitlängen eines Taktschlags und eines Takts festgelegt wird.
  • VORTEILHAFTE WIRKUNGEN DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung ist es möglich, die Längen von Taktschlägen und Takten aus einem Eingabetonsignal einfacher zu schätzen.
  • Figurenliste
    • 1 ist ein Diagramm, das eine funktionale Konfiguration einer Tonsignalverarbeitungsvorrichtung 1 gemäß einer Ausführungsform veranschaulicht.
    • 2 ist ein Diagramm, das eine Hardwarekonfiguration der Tonsignalverarbeitungsvorrichtung 1 veranschaulicht.
    • 3 ist ein Flussdiagramm, das eine Operation der Tonsignalverarbeitungsvorrichtung 1 veranschaulicht.
    • 4 ist ein Flussdiagramm, das Details eines Indexberechnungsprozesses veranschaulicht.
    • 5 ist ein Diagramm, das DFT-Resultate veranschaulicht.
    • 6 ist ein Diagramm, das integrierte DFT-Resultate veranschaulicht.
    • 7 ist eine Tabelle, die gespeicherte Prioritäten veranschaulicht.
  • BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
  • Konfigurationen
  • 1 ist ein Diagramm, das eine funktionale Konfiguration einer Tonsignalverarbeitungsvorrichtung 1 einer Ausführungsform veranschaulicht. Die Tonsignalverarbeitungsvorrichtung 1 ist eine Vorrichtung, die einen Taktschlag in einem Musikstück aus einem Tonsignal (nachfolgend als „Eingabetonsignal“ bezeichnet), das das Musikstück angibt, schätzt.
  • Die Tonsignalverarbeitungsvorrichtung 1 beinhaltet eine Eingabetonerfassungseinheit 11, eine Einheitzeiterfassungseinheit 12, eine Merkmalbetragberechnungseinheit 13, eine Indexberechnungseinheit 14, eine Schätzeinheit 15, eine Speichereinheit 16 und eine Ausgabeeinheit 17. Die Eingabetonerfassungseinheit 11 erfasst ein Tonsignal, das das Musikstück angibt und ein Eingabetonsignal ist, das ein nachfolgend beschriebenes Verarbeitungsziel ist. Die Einheitzeiterfassungseinheit 12 erfasst eine Einheitzeitlänge in dem Eingabetonsignal. Die Merkmalbetragberechnungseinheit 13 berechnet einen Tonmerkmalbetrag aus dem Eingabetonsignal. In einem Fall, in dem die Zeitlängen eines Taktschlags und eines Takts unter Verwendung der Einheitzeitlänge als eine Referenz in dem Eingabetonsignal in Hinblick auf den Tonmerkmalbetrag, der von der Merkmalbetragberechnungseinheit 13 berechnet wird, angenommen werden, berechnet die Indexberechnungseinheit 14 einen Index, der Gültigkeit der angenommenen Zeitlängen angibt. Die Schätzeinheit 15 schätzt die Zeitlängen eines Taktschlags und eines Takts unter Verwendung der Einheitzeitlänge als eine Referenz auf Basis des Index, der von der Indexberechnungseinheit 14 berechnet wurde.
  • Die Speichereinheit 16 speichert eine Priorität, die im Voraus in Hinblick auf eine Kombination der Zeitlängen eines Taktschlags und eines Takts festgestellt wurde. In diesem Beispiel schätzt die Schätzeinheit 15 die Zeitlängen eines Taktschlags und eines Takts auf Basis der in der Speichereinheit 16 gespeicherten Priorität. Die Ausgabeeinheit 17 gibt Informationen zu den Zeitlängen eines Taktschlags und eines Takts, die von der Schätzeinheit 15 geschätzt werden, aus.
  • 2 ist ein Diagramm, das eine Hardwarekonfiguration der Tonsignalverarbeitungsvorrichtung 1 veranschaulicht. Die Tonsignalverarbeitungsvorrichtung 1 ist ein Computer, der eine zentrale Verarbeitungseinheit (Central Processing Unit; CPU) 101, einen Speicher 102, eine Speicherung 103, eine Kommunikationsschnittstelle 104, eine Eingabevorrichtung 105 und eine Ausgabevorrichtung 106 beinhaltet. Die CPU 101 ist eine Steuervorrichtung, die jedes Teil der Tonsignalverarbeitungsvorrichtung 1 steuert. Der Speicher 102 ist eine Hauptspeichervorrichtung als ein Arbeitsbereich, wenn die CPU 101 ein Programm ausführt. Die Speicherung 103 ist eine nichtflüchtige Speicherungsvorrichtung, die verschiedene Arten von Programmen und Daten speichert. Die Kommunikationsschnittstelle 104 ist eine Vorrichtung, die mit anderen Vorrichtungen in Konformität mit einem vorbestimmten Kommunikationsprotokoll kommuniziert. Die Eingabevorrichtung 105 ist eine Vorrichtung zur Eingabe von Informationen an die Tonsignalverarbeitungsvorrichtung und beinhaltet beispielsweise ein Mikrofon, ein Touchscreen, ein Tastenfeld und/oder eine Taste. Die Ausgabevorrichtung 106 ist eine Vorrichtung zur Ausgabe von Informationen und beinhaltet beispielsweise ein Display und/oder einen Lautsprecher.
  • Die Speicherung 103 speichert ein Programm, das den Computer veranlasst, als die Tonsignalverarbeitungsvorrichtung 1 zu dienen. Die CPU 101 führt das Programm zum Installieren der in 1 veranschaulichten Funktion aus. Die CPU 101, die das Programm ausführt, ist ein Beispiel der Eingabetonerfassungseinheit 11, der Einheitzeiterfassungseinheit 12, der Merkmalbetragberechnungseinheit 13, der Indexberechnungseinheit 14 und der Schätzeinheit 15. Der Speicher 102 und die Speicherung 103 sind ein Beispiel der Speicherungseinheit 16. Die Ausgabevorrichtung 106 ist ein Beispiel der Ausgabeeinheit 17.
  • Operationen
  • 3 ist ein Flussdiagramm, das eine Operation der Tonsignalverarbeitungsvorrichtung 1 veranschaulicht. Der Ablauf in 3 beginnt beispielsweise, wenn das Programm aktiviert wird. Der Ablauf bezieht sich auf ein Tonsignalverarbeitungsverfahren des Schätzens der Zeitlängen von Taktschlägen und Takten des Musikstücks. Wenn der Taktschlag zum Beispiel ein Vielfaches einer Achtelnote ist, entspricht das Schätzen der Zeitlängen der Taktschläge und Takte dem Einholen der Anzahl b von Achtelnoten für einen Taktschlag und die Anzahl m von Taktschlägen für einen Takt. Der Parameter m gibt an, dass das Musikstück aus m Takten besteht. Das Musikstück mit zwei Taktschlägen gibt zum Beispiel m = 2 an, das Musikstück mit drei Taktschlägen gibt m = 3 an und das Musikstück mit vier Taktschlägen gibt m = 4 an. Die Schätzung der Zeitlängen der Taktschläge und Takte wird im Detail wie folgt durchgeführt.
  • Im Schritt 1 erfasst die Eingabetonerfassungseinheit 11 das Eingabetonsignal. Das Eingabetonsignal ist beispielsweise ein Tonsignal des Musikstücks auf Basis von nichtkomprimierten oder komprimierten (wav, mp3 usw.) Tondaten, die vorliegende Erfindung ist aber nicht hierauf beschränkt. Die Tondaten können im Voraus in der Speicherung 103 gespeichert werden oder von außerhalb der Tonsignalverarbeitungsvorrichtung 1 eingegeben werden.
  • In Schritt S2 erfasst die Einheitzeiterfassungseinheit 12 eine Einheitzeitlänge ta. Die Einheitzeitlänge ta bedeutet zum Beispiel eine Mindesteinheit musikalischer Zeit in dem Musikstück, wie eine sich wiederholende Einheit des gespielten Tons eines Musikinstruments (zum Beispiel ein Intervall von einem Schlag zum nächsten Schlag eines Hi-Hat, in einem Fall, in dem ein Rhythmus unter Verwendung des Hi-Hat aufgeteilt ist). Die Einheitzeitlänge ta entspricht zum Beispiel der Länge einer Achtelnote oder einer Sechzehntelnote in dem Musikstück. Die Einheitzeiterfassungseinheit 12 berechnet zum Beispiel die Einheitzeitlänge ta durch Analysieren des Eingabetonsignals. Es wird zum Berechnen der Einheitzeitlänge ta eine weithin bekannte Technik verwendet. Alternativ kann die Einheitzeitlänge ta durch die Befehlseingabe eines Benutzers zugewiesen werden. In diesem Fall erfasst die Einheitzeiterfassungseinheit 12 die Einheitzeitlänge ta gemäß der Befehlseingabe des Benutzers. Insbesondere drückt der Benutzer beispielsweise wiederholt eine Taste (oder klopft auf ein Touchscreen) mit einer zeitlichen Abstimmung (Timing), die der Einheitzeitlänge entspricht, in Synchronisation mit einem Eingabeton. Die Einheitzeiterfassungseinheit 12 stellt die Einheitzeitlänge ta entsprechend der Wiederholungseingabe fest.
  • Das Timing (zum Beispiel das Timing einer erklingenden Hi-Hat), das von der Tonsignalverarbeitungsvorrichtung 1 automatisch berechnet und durch eine Befehlseingabe eines Benutzers zugewiesen wird, ist nicht immer exakt periodisch. Daher muss die Einheitzeitlänge ta, die in Schritt S2 erfasst wird, nicht über alle der Analysezielabschnitte in dem Eingabetonsignal konstant sein. Das Eingabetonsignal wird in eine Vielzahl von Abschnitten aufgeteilt. Die Einheitzeitlänge ta in jedem Abschnitt kann unterschiedlich sein. Mit anderen Worten, die Einheitzeitlänge ta ist ein Beispiel der Zeitlänge zum Glätten des nachfolgend beschriebenen Tonmerkmalbetrags. Alternativ kann die Tonsignalverarbeitungsvorrichtung 1 ein Verfahren der Berechnung eines Durchschnittswerts verwenden, um eine konstante Einheitzeitlänge ta über alle der Analysezielabschnitte festzustellen. In diesem Fall kann ein Abschnitt (zum Beispiel ein Abschnitt, in dem sich ein Tempo in der Musik ändert), in dem eine Variation des Timingintervalls in dem Musikstück einen Schwellenwert (zum Beispiel 10 % eines Durchschnittswerts) überschreitet, unterschiedlich von den anderen Abschnitten von der Tonsignalverarbeitungsvorrichtung 1 verarbeitet werden.
  • Die Beschreibung erfolgt wiederum unter Bezugnahme auf 3. In Schritt S3 berechnet die Merkmalbetragberechnungseinheit 13 den Tonmerkmalbetrag. In diesem Beispiel wird ein MFCC (Mel-Frequenz-Cepstrum-Koeffizient) als der Tonmerkmalbetrag verwendet. Der MFCC ist ein multidimensionaler Vektor (zum Beispiel 12-dimensional). Der MFCC ist als ein Parameter, der eine Toneigenschaft in dem Tonsignal angibt, weithin bekannt. Der MFCC wird unter Verwendung einer weithin bekannten Technik berechnet. Der MFCC wird an jedem Zeit-Frame unter Verwendung der Einheitzeitlänge ta, die in jedem Zeit-Frame als eine Einheit zugewiesen wird, berechnet. Mit anderen Worten, in Schritt S3 wird eine Eigenschaftsserie x[d, t] des MFCC erhalten. Die Eigenschaftsserie x[d, t] gibt einen d-ten Dimensionseigenschaftbetrag zur Zeit t (d ∈ [0, D], t ∈ [0, T]) an. Zeit t wird unter Verwendung der Einheitzeitlänge ta als eine Einheit repräsentiert.
  • In Schritt S4 berechnet die Indexberechnungseinheit 14 einen Index. Der Index gibt die Gültigkeit der angenommenen Zeitlänge in einem Fall an, in dem die Zeitlängen eines Taktschlags und eines Takts unter Verwendung der Einheitzeitlänge ta als eine Referenz in dem Eingabetonsignal in Hinblick auf den Tonmerkmalbetrag angenommen werden.
  • 4 ist ein Flussdiagramm, das Details eines Indexberechnungsprozesses in Schritt S4 veranschaulicht. In Schritt S41 führt die Indexberechnungseinheit 13 eine diskrete Fourier-Transformation (DFT) an dem MFCC in einer Zeitdomäne durch. Mit dieser Konfiguration wird ein absoluter Wert R[d, n] der DFT erhalten (die folgende Gleichung (1)). „n“ ist ein Parameter, der einer Frequenz (n ∈ [0, N]) entspricht.
    [Gleichung 1] R [ d , n ] = | DFT { x [ d , t ] } |
    Figure DE112017001277T5_0001
  • 5 ist ein Diagramm, das DFT-Resultate veranschaulicht. Die DFT-Resultate werden durch die Zahl erhalten, die der Dimension des MFCC entspricht. Zwölf Resultate der DFT werden zum Beispiel in einem Fall erhalten, in dem der MFCC ein zwölfdimensionaler Vektor ist. In den DFT-Resultaten repräsentiert die vertikale Achse eine spektrale Intensität und die horizontale Achse repräsentiert eine Periode τ[ta] unter Verwendung der Einheitzeitlänge ta als eine Referenz. Eine Spitze, die zum Beispiel in Periode τ = 3 auftritt, ist eine Spitze, die einer Wiederholung der Periode 3ta entspricht.
  • Die Beschreibung erfolgt wiederum unter Bezugnahme auf 4. In Schritt S42 berechnet die Indexberechnungseinheit 14 einen Index S[1] aus einer Vielzahl von DFT-Spektren. Der Index S[1] gibt eine Stärke an, die von der Wiederholung einer Periode 1 in dem Eingabetonsignal (1 ∈ [0, L]) repräsentiert wird. Insbesondere berechnet die Indexberechnungseinheit 14 eine Summe der Produkte S[1] unter Verwendung der folgenden Gleichung (2).
    [Gleichung 2] S [ l ] = n w [ l , n ] ( d R [ d , n ] )
    Figure DE112017001277T5_0002
    Hierin ist w[l, n] wie folgt.
    [Gleichung 3] w [ l , n ] = u [ l , n ] n ' u [ l , n ' ]
    Figure DE112017001277T5_0003
    Ferner ist u[l, n] wie folgt.
    [Gleichung 4] u [ l , n ] = exp { λ ( N l n ) 2 }
    Figure DE112017001277T5_0004
  • Die Gleichungen (2) bis (4) zeigen, dass Daten von Umgebungen, die der Periode 1 in der Amplitude DFT der Länge N entsprechen, der Summe der Produkte unterzogen werden. Mit anderen Worten, w[1, n] ist eine Fensterfunktion zum Ausschneiden der Daten aus Umgebungen der Periode 1. „λ“ in Gleichung (4) ist eine Konstante, die experimentell festgestellt wird. Mit anderen Worten, in Schritt S42 wird der Index der Zeitlängen eines Taktschlags und eines Takts durch Anwenden der DFT-Resultate mit der Fensterfunktion, die den Zeitlängen eines Taktschlags und eines Takts in dem Musikstück entsprechen, unter Verwendung der Einheitzeitlänge ta als eine Referenz in einer Zeitdomäne berechnet.
  • 6 ist ein Diagramm, das den Index S[1] veranschaulicht. Hierin werden ein DFT-Wert ΣRd und die Fensterfunktion w[1, n] zur besseren Erklärung zusammen gezeigt. Die Zeichnung veranschaulicht ein Beispiel von 1 = 4. Der Index S[1] entspricht der Stärke (eine Fläche der in der Zeichnung schraffierten Region) in der Umgebung der Periode 1 des DFT-Spektrums. Die Indexberechnungseinheit 14 berechnet den Index S[1] in jeder der Vielzahl der Perioden 1. Die Indexberechnungseinheit 14 speichert den berechneten S[1] in der Speichereinheit 16.
  • Die Beschreibung erfolgt wiederum unter Bezugnahme auf 4. In Schritt S43 nimmt die Indexberechnungseinheit 14 die Anzahl der Einheitzeitlängen ta, die Taktschläge und Takte konfigurieren, an. Insbesondere nimmt die Indexberechnungseinheit 14 die Zahl b der Einheitzeitlänge ta eines Taktschlags und die Zahl m von Taktschlägen eines Takts an. Mit anderen Worten, die Indexberechnungseinheit 14 nimmt die Länge eines Taktschlags als b · ta an und nimmt die Länge eines Takts als m · b · ta an.
  • In diesem Beispiel sind die Kandidaten der Kombinationen (m, b) von m und b im Voraus von dem Standpunkt der Musik aus begrenzt. Erstens weisen die meisten Musikstücke zwei Taktschläge, drei Taktschläge oder vier Taktschläge auf. Somit gibt es, zum Beispiel selbst in einem Fall, in dem eine Begrenzung auf m ∈ {2, 3, 4} besteht, in vielen Fällen kein Problem. Wird die Einheitzeitlänge ta als mit einer Achtelnote einer Sechzehntelnote korrespondierend erwogen, gibt es selbst in einem Fall, in dem eine Begrenzung m ∈ {2, 3, 4} besteht, in vielen Fällen kein Problem. Wenn m und b wie vorstehend beschrieben begrenzt sind, sind die Kandidaten der Kombinationen (m, b) auf neun Kandidaten begrenzt. Die Speichereinheit 16 speichert Informationen, die verwendet werden um einen Kandidaten der Kombination zu spezifizieren. Die Indexberechnungseinheit 14 wählt sequenziell eine Kombination aus diesen neun Kandidaten aus. Die Begrenzung der Kandidaten auf die hierin beschriebenen Kombinationen (m, b) wird lediglich beispielhaft gegeben, die Erfindung ist aber nicht hierauf beschränkt.
  • In Schritt S44 erfasst die Indexberechnungseinheit 14 eine Priorität P0[m, b], die der ausgewählten Kombination [m, b] entspricht. Die Priorität P0 wird im Voraus festgelegt und in der Speichereinheit 16 gespeichert.
  • 7 ist ein Diagramm, das die Priorität P0, die in der Speichereinheit 16 gespeichert ist, veranschaulicht. Hierin ist die Priorität P0 auf jede der Kombinationen (m, b) eingestellt. Hierin wird, zur besseren Erklärung, die Spalte Anmerkungen bereitgestellt, um die Taktschläge der Kombinationen (m, b) zu zeigen. Die Spalte Anmerkungen selber muss nicht in der Speichereinheit 16 gespeichert sein. In diesem Beispiel repräsentiert die Priorität P0, dass eine hohe Wahrscheinlichkeit, dass die Kombination (m, b) auftritt, zunimmt, da der Prioritätswert erhöht wird. (m, b) = (4, 2) entspricht zum Beispiel 4/4 Taktschlägen (die Einheitzeitlänge ta entspricht einer Achtelnote). Da das Musikstück mit 4/4 Taktschlägen häufig verwendet wird, ist P0[4, 2] auf 1,0 eingestellt. Andererseits entspricht (m, b) = (4, 3) 12/8 Taktschlägen und das Musikstück mit 12/8 Taktschlägen wird im Vergleich zu dem Musikstück mit den 4/4 Taktschlägen nicht so häufig verwendet. Daher ist P0[4, 3] hierin auf 0,1 eingestellt. Die Indexberechnungseinheit 14 liest die ausgewählte Kombination (m, b) aus den Prioritäten, die in der Speichereinheit gespeichert sind.
  • Die Beschreibung erfolgt wiederum unter Bezugnahme auf 4. In Schritt S45 berechnet die Indexberechnungseinheit 14 einen Index P[m, b]. Der Index P[m, b] gibt die Gültigkeit der angenommenen Kombination (m, b) an. In diesem Beispiel ist die Kombination (m, b) gültig, da der Wert erhöht wird. Insbesondere berechnet die Indexberechnungseinheit 14 den Index P[m, b] unter Verwendung der folgenden Gleichung (5).
    [Gleichung 5] P [ m , n ] = s [ b ] + S [ m b ] + P 0 [ m , b ]
    Figure DE112017001277T5_0005
  • In einem Fall, in dem zum Beispiel (m, b) (4, 4) ist, wird die folgende Gleichung (6) erhalten.
    [Gleichung 6] P [ 4,4 ] = s [ 4 ] + S [ 16 ] + P 0 [ 4,4 ]
    Figure DE112017001277T5_0006
    Die Indexberechnungseinheit 14 speichert den berechneten Index P[m, b] in der Speichereinheit 16.
  • Der Index S[1] wird zwangsläufig bis hinauf zu S[mb] berechnet, was einem Produkt von m und b entspricht. Mit anderen Worten, Maximalwerte mmax und bmax von m und b sind zwangsläufig derart festgelegt, dass die Periode 1 die folgende Gleichung (7) abdeckt.
    [Gleichung 7] l m a x = m m a x b m a x
    Figure DE112017001277T5_0007
    In einem Fall, in dem zum Beispiel mmax = 4 und bmax = 4, wird die folgende Gleichung (8) erhalten.
    [Gleichung 8] l { 2,3,4,6,8,9,12,16 }
    Figure DE112017001277T5_0008
    Die Indexberechnungseinheit 14 berechnet daher den Index S[1] in Schritt S42 in einem Bereich der Gleichung (8).
  • In Schritt S46 stellt die Indexberechnungseinheit 14 fest, ob die Indizes P[m, b] aller Kandidaten der Kombinationen von (m, b) vollständig berechnet sind. Zusätzlich veranlasst die Indexberechnungseinheit 14, in einem Fall, in dem festgestellt wird, dass es eine Kombination (m, b) gibt, deren Index P[m, b] nicht berechnet ist (S46: NEIN), dass der Prozess sich zu Schritt S43 bewegt. Nachfolgend wird die Kombination (m, b) aktualisiert; die Prozesse der Schritte S44 und S45 werden wiederholt durchgeführt. In einem Fall, in dem festgestellt wird, dass die Indizes P[m, b] aller Kandidaten der Kombinationen vollständig berechnet sind (S46: JA), beendet die Indexberechnungseinheit 14 den Ablauf in 4.
  • Die Beschreibung erfolgt wiederum unter Bezugnahme auf 3. In Schritt S5 schätzt die Schätzeinheit 15 die plausibelste Kombination (m, b) in dem Eingabetonsignal. Insbesondere schätzt die Indexberechnungseinheit 14, dass die Kombination (m, b) mit dem höchsten Index P[m, b] plausibel ist.
  • In Schritt S6 gibt die Ausgabeeinheit 17 Informationen zu der Kombination (m, b), die von der Schätzeinheit 15 geschätzt wurde, aus. Die Informationen zu der Kombination (m, b) sind zum Beispiel ein Taktschlag (4/4 Taktschlag, 4/3 Taktschlag usw.) des Musikstücks in Bezug auf das Eingabetonsignal. Alternativ gibt die Ausgabeeinheit 17 einen Parameter zum Spezifizieren der Kombination (m, b) aus. In einem Fall, in dem das Ausgabeziel der Benutzer ist, werden die Ausgabeinformationen zum Beispiel auf einem Display dargestellt. In einem Fall, in dem das Ausgabeziel eine andere Tonsignalverarbeitungsvorrichtung ist, werden die Ausgabeinformationen zum Beispiel als Daten ausgegeben.
  • Beispiel
  • Tabelle 1 zeigt Resultate der Taktschlagschätzung, die durch ein Verfahren (Beispiel) gemäß den Ausführungsformen erhalten wurden, und ein vergleichendes Beispiel. Die Erfinder dieser Patentanmeldung haben die Taktschlagschätzung unter Verwendung der Verfahren gemäß dem Beispiel und das vergleichende Beispiel an einem tatsächlichen Musikstück durchgeführt und eine Genauigkeitsquote beurteilt. Als das vergleichende Beispiel wurde ein Algorithmus zum Schätzen aller Taktschläge des Musikstücks als ein 4/4 Takt verwendet. Als ein Ziel für die Taktschlagschätzung wurden 100 Musikstücke populärer Lieder ausgewählt. Das Musikstück wurde in ein 4-Taktschlagsystem (ein Zähler des Taktschlags ist ein Vielfaches von „2“) und ein 3-Taktschlagsystem (ein Zähler des Taktschlags ist ein Vielfaches von „3“) klassifiziert. [Tabelle 1]
    Klassifizierung Genauigkeitsquote (%)
    Beispiel Vergleichendes Beispiel
    4-Taktschlagsystem 92 100
    3-Taktschlagsystem 100 0
  • In dem Beispiel ist die Genauigkeitsquote für das Musikstück des 4-Taktschlagsystems etwas geringer als bei dem vergleichenden Beispiel. Allerdings hat sich die Genauigkeitsquote des Musikstücks des 3-Taktschlagsystems drastisch verbessert. Daher hat sich die Genauigkeitsquote des Beispiels im Vergleich zu dem vergleichenden Beispiel insgesamt signifikant verbessert.
  • Modifikationen
  • Die vorliegende Erfindung ist nicht auf die Ausführungsform beschränkt, sondern es können verschiedene Modifikationen vorgenommen werden. Nachfolgend werden manche Modifikationen beschrieben. In den folgenden Modifikationen können zwei oder mehr kombiniert werden.
  • Ein spezifisches Berechnungsverfahren des Index P[m, b] ist nicht auf das eine, in der Ausführungsform beispielhaft dargestellte, beschränkt. Die Priorität P0 kann zum Beispiel nicht berücksichtigt werden. Mit anderen Worten, der dritte Term auf der rechten Seite der Gleichung (5) kann weggelassen werden.
  • In der Ausführungsform sind die Kandidaten der Kombinationen (m, b) aus einer musikalischen Sichtweise begrenzt, solch eine Begrenzung muss aber nicht berücksichtigt werden, „m“ und „b“ können zum Beispiel jeweils in einem unterschiedlichen Bereich verwendbarer Werte festgelegt werden. Alle der möglichen Kombinationen (m, b) in diesen Bereichen können Kandidaten sein. In diesem Fall kann eine Möglichkeit ausgeschlossen werden, dass eine Kombination (m, b), die keine musikalische Bedeutung hat, von der Priorität P0 als die plausibelste geschätzt wird. Eine Kombination von (m, b) = (7, 3) entspricht zum Beispiel einem 7/8 Takt. Da jedoch ein Musikstück mit einem 7/8 Takt an sich selten ist, kann die Priorität P0 auf einen niedrigen Wert (zum Beispiel einen Negativwert) festgelegt werden.
  • In dem Beispiel gemäß der Ausführungsform gibt die Zahl „m“ Taktschläge an, die in einem Takt enthalten sind. Die Zahl „m“ kann jedoch die Einheitzeitlänge ta, die in einem Takt enthalten ist, angeben. In diesem Fall muss die Zahl „m“ ein ganzzahliges Vielfaches der Zahl „b“ sein. Daher kann ein Fall, in dem die Zahl „m“ kein ganzzahliges Vielfaches der Zahl „b“ ist, ausgeschlossen werden, wenn die Kandidaten der Kombinationen (m, b) begrenzt sind. Alternativ sind die Kandidaten der Kombinationen (m, b) nicht begrenzt. Die Priorität P0, die der Kombination (m, b) entspricht, deren Zahl „m“ kein ganzzahliges Vielfaches der Zahl „b“ ist, kann auf einen extrem niedrigen Wert (zum Beispiel - ∞) festgelegt werden.
  • Der Tonmerkmalbetrag ist nicht auf den in der Ausführungsform beschriebenen beschränkt. Es kann zum Beispiel ein anderer Merkmalbetrag als der MFCC, wie etwa eine Formant-Frequenz und ein LPC (Linear Predictive Coding) Cepstrum, verwendet werden.
  • Die Fensterfunktion ist nicht auf die in Gleichung (3) beispielhaft dargestellte beschränkt. Es kann jedwedes Funktionsformat eingesetzt werden, solange ein Spektrum der Umgebung der Periode 1 ausgeschnitten werden kann.
  • In dem Beispiel gemäß der Ausführungsform verfügt eine einzelne Verarbeitungsvorrichtung über alle Funktionen der 1. Die Funktionen der 1 können in eine Clientvorrichtung und einen Server aufgeteilt werden. Die Merkmalbetragberechnungseinheit 13, die Indexberechnungseinheit 14, die Schätzeinheit 15 und die Speichereinheit 16 können zum Beispiel in dem Server untergebracht sein und die Eingabetonerfassungseinheit 11, die Einheitzeiterfassungseinheit 12 und die Ausgabeeinheit 17 können in dem Client untergebracht sein.
  • Ein Programm, das von der CPU 101 der Tonsignalverarbeitungsvorrichtung 1 ausgeführt wird, kann von einem Speichermedium, wie etwa einer optischen Diskette, einer magnetischen Diskette und einem Halbleiterspeicher, bereitgestellt werden oder über eine Kommunikationsleitung, wie etwa das Internet, heruntergeladen werden. Das Programm muss nicht alle der Schritte in 3 beinhalten. Zum Beispiel kann das Programm nur Schritte S1, S2 und S6 beinhalten. Das Programm kann nur die Schritte S1, S2 und S3 beinhalten. Ferner kann das Programm nur Schritte S1 und S6 beinhalten.
  • Diese Patentanmeldung basiert auf und beansprucht den Vorteil der Priorität der japanischen Patentanmeldung Nr. 2016-048562 , die am 11. März 2016 eingereicht wurde, und deren Inhalte hierin durch Bezugnahme mit aufgenommen werden.
  • Bezugszeichenliste
  • 1: Tonsignalverarbeitungsvorrichtung, 11: Eingabetonerfassungseinheit, 12: Einheitzeiterfassungseinheit, 13: Merkmalbetragberechnungseinheit, 14: Indexberechnungseinheit, 15: Schätzeinheit, 16: Speichereinheit, 17: Ausgabeeinheit, 101: CPU, 102: Speicher, 103: Speicherung, 104: Kommunikationsschnittstelle, 105: Eingabevorrichtung, 106: Ausgabevorrichtung
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2015114361 A [0002]
    • JP 2015200803 A [0002]
    • JP 2016048562 [0045]

Claims (12)

  1. Tonsignalverarbeitungsverfahren, aufweisend die Schritte: Erfassen einer Einheitzeitlänge in einem Eingabetonsignal, das ein Musikstück angibt; Berechnen eines Tonmerkmalbetrags aus dem Eingabetonsignal; Berechnen, in einem Fall, in dem Zeitlängen eines Taktschlags und eines Takts in dem Musikstück unter Verwendung der Einheitzeitlänge als eine Referenz in dem Eingabetonsignal in Hinblick auf den Tonmerkmalbetrag angenommen werden, eines Index, der Gültigkeit der angenommenen Zeitlängen angibt; und Schätzen der Zeitlängen eines Taktschlags und eines Takts unter Verwendung der Einheitzeitlänge als eine Referenz auf Basis des Index.
  2. Tonsignalverarbeitungsverfahren, aufweisend die Schritte: Erfassen einer Einheitzeitlänge in einem Eingabetonsignal, das ein Musikstück angibt; Berechnen eines Tonmerkmalbetrags aus dem Eingabetonsignal; Durchführen einer amplitudendiskreten Fourier-Transformation an dem Tonmerkmalbetrag in einer Zeitdomäne unter Verwendung der Einheitzeitlänge als eine Referenz; Berechnen eines Index der Zeitlängen des einen Taktschlags und des einen Takts durch Anwenden einer Fensterfunktion, die Zeitlängen eines Taktschlags und eines Takts in dem Musikstück entspricht, unter Verwendung der Einheitzeitlänge als eine Referenz in der Zeitdomäne in Hinblick auf ein Resultat der amplitudendiskreten Fourier-Transformation; und Schätzen der Zeitlänge eines Taktschlags und der Zeitlänge eines Takts unter Verwendung der Einheitzeitlänge als eine Referenz auf Basis des Index.
  3. Tonsignalverarbeitungsverfahren nach Anspruch 1 oder 2, wobei der Index unter Verwendung einer Priorität berechnet wird, die im Voraus in Hinblick auf eine Kombination der Zeitlängen eines Taktschlags und eines Takts festgelegt wird.
  4. Tonsignalverarbeitungsverfahren nach einem der Ansprüche 1 bis 3, wobei der Index für jeden einer Vielzahl von Kandidaten der Kombinationen der Zeitlängen von einem Taktschlag und einem Takt berechnet wird, und eine Kombination der Zeitlängen eines Taktschlags und eines Takts aus der Vielzahl der Kandidaten auf Basis des Index ausgewählt wird.
  5. Tonsignalverarbeitungsverfahren nach Anspruch 4, wobei eine Kombination der Zeitlängen eines Taktschlags und eines Takts, in dem der Index einen höchsten Wert angibt, aus den Indizes, die in Hinsicht auf die Vielzahl der Kandidaten berechnet wurden, ausgewählt wird.
  6. Tonsignalverarbeitungsverfahren nach einem der Ansprüche 1 bis 5, ferner aufweisend einen Schritt des: Ausgebens von Informationen zu der Zeitlänge eines Taktschlags und der Zeitlänge eines Takts.
  7. Tonsignalverarbeitungsvorrichtung, aufweisend: eine Einheitzeiterfassungseinheit, die eine Einheitzeitlänge in einem Eingabetonsignal, das ein Musikstück angibt, erfasst; eine Merkmalbetragberechnungseinheit, die einen Tonmerkmalbetrag aus dem Eingabetonsignal berechnet; eine Indexberechnungseinheit, die, in einem Fall, in dem Zeitlängen eines Taktschlags und eines Takts in dem Musikstück unter Verwendung der Einheitzeitlänge als eine Referenz in dem Eingabetonsignal in Hinsicht auf den Tonmerkmalbetrag angenommen werden, einen Index berechnet, der Gültigkeit der angenommenen Zeitlängen angibt; und eine Schätzeinheit, die die Zeitlängen eines Taktschlags und eines Takts unter Verwendung der Einheitzeitlänge als eine Referenz auf Basis des Index schätzt.
  8. Tonsignalverarbeitungsvorrichtung, aufweisend: eine Einheitzeiterfassungseinheit, die eine Einheitzeitlänge in einem Eingabetonsignal, das ein Musikstück angibt, erfasst; eine Merkmalbetragberechnungseinheit, die einen Tonmerkmalbetrag aus dem Eingabetonsignal berechnet; eine Indexberechnungseinheit, die eine amplitudendiskrete Fourier-Transformation an dem Tonmerkmalbetrag in einer Zeitdömäne unter Verwendung der Einheitzeitlänge als eine Referenz durchführt, und einen Index der Zeitlängen eines Taktschlags und eines Takts durch Anwenden einer Fensterfunktion, die Zeitlängen eines Taktschlags und eines Takts in dem Musikstück entspricht, unter Verwendung der Einheitzeitlänge als eine Referenz in der Zeitdomäne in Hinblick auf ein Resultat der amplitudendiskreten Fourier-Transformation berechnet; und eine Schätzeinheit, die die Zeitlänge eines Taktschlags und die Zeitlänge eines Takts unter Verwendung der Einheitzeitlänge als eine Referenz auf Basis des Index schätzt.
  9. Tonsignalverarbeitungsvorrichtung nach Anspruch 7 oder 8, wobei die Indexberechnungseinheit den Index unter Verwendung einer Priorität berechnet, die im Voraus in Hinblick auf eine Kombination der Zeitlängen eines Taktschlags und eines Takts festgelegt wird.
  10. Tonsignalverarbeitungsvorrichtung nach einem der Ansprüche 7 bis 9, ferner umfassend: eine Speichereinheit, die im Voraus Informationen zu einer Vielzahl von Kandidaten der Kombinationen der Zeitlängen eines Taktschlags und eines Takts speichert, wobei die Indexberechnungseinheit den Index für jeden der Vielzahl der Kandidaten der Kombinationen der Zeitlängen eines Taktschlags und eines Takts aus den in der Speichereinheit gespeicherten Informationen berechnet, und die Schätzeinheit eine Kombination der Zeitlängen eines Taktschlags und eines Takts aus der Vielzahl der Kandidaten auf Basis des Index auswählt.
  11. Tonsignalverarbeitungsvorrichtung nach Anspruch 10, wobei die Schätzeinheit eine Kombination der Zeitlängen eines Taktschlags und eines Takts, in dem der Index einen höchsten Wert angibt, aus den Indizes, die in Hinsicht auf die Vielzahl der Kandidaten berechnet wurden, auswählt.
  12. Tonsignalverarbeitungsvorrichtung nach einem der Ansprüche 7 bis 11, ferner umfassend: eine Ausgabeeinheit, die Informationen zu der Zeitlänge eines Taktschlags und der Zeitlänge eines Takts ausgibt.
DE112017001277.5T 2016-03-11 2017-03-10 Tonsignalverarbeitungsverfahren und Tonsignalverarbeitungsvorrichtung Active DE112017001277B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016-048562 2016-03-11
JP2016048562A JP6693189B2 (ja) 2016-03-11 2016-03-11 音信号処理方法
PCT/JP2017/009745 WO2017155098A1 (ja) 2016-03-11 2017-03-10 音信号処理方法および音信号処理装置

Publications (2)

Publication Number Publication Date
DE112017001277T5 true DE112017001277T5 (de) 2018-11-29
DE112017001277B4 DE112017001277B4 (de) 2021-06-10

Family

ID=59789409

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017001277.5T Active DE112017001277B4 (de) 2016-03-11 2017-03-10 Tonsignalverarbeitungsverfahren und Tonsignalverarbeitungsvorrichtung

Country Status (5)

Country Link
US (1) US10629177B2 (de)
JP (1) JP6693189B2 (de)
CN (1) CN108780634B (de)
DE (1) DE112017001277B4 (de)
WO (1) WO2017155098A1 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015114361A (ja) 2013-12-09 2015-06-22 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP2015200803A (ja) 2014-04-09 2015-11-12 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP2016048562A (ja) 2014-03-06 2016-04-07 パナソニックIpマネジメント株式会社 表示制御装置および表示制御プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000221979A (ja) * 1999-02-02 2000-08-11 Roland Corp テンポ等の演算装置
JP2002116454A (ja) * 2000-10-10 2002-04-19 Seiko Epson Corp 液晶装置および電子機器
JP3982443B2 (ja) * 2003-03-31 2007-09-26 ソニー株式会社 テンポ解析装置およびテンポ解析方法
WO2007010637A1 (ja) * 2005-07-19 2007-01-25 Kabushiki Kaisha Kawai Gakki Seisakusho テンポ検出装置、コード名検出装置及びプログラム
JP4767691B2 (ja) * 2005-07-19 2011-09-07 株式会社河合楽器製作所 テンポ検出装置、コード名検出装置及びプログラム
US7518053B1 (en) * 2005-09-01 2009-04-14 Texas Instruments Incorporated Beat matching for portable audio
JP4672613B2 (ja) * 2006-08-09 2011-04-20 株式会社河合楽器製作所 テンポ検出装置及びテンポ検出用コンピュータプログラム
JP4916947B2 (ja) * 2007-05-01 2012-04-18 株式会社河合楽器製作所 リズム検出装置及びリズム検出用コンピュータ・プログラム
WO2009125489A1 (ja) * 2008-04-11 2009-10-15 パイオニア株式会社 テンポ検出装置及びテンポ検出プログラム
JP5282548B2 (ja) * 2008-12-05 2013-09-04 ソニー株式会社 情報処理装置、音素材の切り出し方法、及びプログラム
JP5203404B2 (ja) * 2010-02-13 2013-06-05 学校法人 龍谷大学 テンポ値検出装置およびテンポ値検出方法
US8983082B2 (en) * 2010-04-14 2015-03-17 Apple Inc. Detecting musical structures
JP2012022221A (ja) * 2010-07-16 2012-02-02 Ryukoku Univ 拍時刻推定装置および拍時刻推定方法
WO2013080210A1 (en) * 2011-12-01 2013-06-06 Play My Tone Ltd. Method for extracting representative segments from music
JP6179140B2 (ja) * 2013-03-14 2017-08-16 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
CN104217729A (zh) * 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
GB201310861D0 (en) * 2013-06-18 2013-07-31 Nokia Corp Audio signal analysis
GB2518663A (en) * 2013-09-27 2015-04-01 Nokia Corp Audio analysis apparatus
WO2017145800A1 (ja) * 2016-02-25 2017-08-31 株式会社ソニー・インタラクティブエンタテインメント 音声解析装置、音声解析方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015114361A (ja) 2013-12-09 2015-06-22 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP2016048562A (ja) 2014-03-06 2016-04-07 パナソニックIpマネジメント株式会社 表示制御装置および表示制御プログラム
JP2015200803A (ja) 2014-04-09 2015-11-12 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム

Also Published As

Publication number Publication date
JP2017161852A (ja) 2017-09-14
CN108780634B (zh) 2023-05-09
US20180374463A1 (en) 2018-12-27
DE112017001277B4 (de) 2021-06-10
JP6693189B2 (ja) 2020-05-13
WO2017155098A1 (ja) 2017-09-14
CN108780634A (zh) 2018-11-09
US10629177B2 (en) 2020-04-21

Similar Documents

Publication Publication Date Title
DE3306730C2 (de)
DE102004049457B3 (de) Verfahren und Vorrichtung zur Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
US7565285B2 (en) Detecting near-term suicidal risk utilizing vocal jitter
EP2019384B1 (de) Verfahren, Vorrichtung und Programm zur Beurteilung der Ähnlichkeit eines Vorführtons
DE10232916B4 (de) Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
DE102014118075B4 (de) Audio und Video synchronisierendes Wahrnehmungsmodell
US20110058685A1 (en) Method of separating sound signal
DE10117870B4 (de) Verfahren und Vorrichtung zum Überführen eines Musiksignals in eine Noten-basierte Beschreibung und Verfahren und Vorrichtung zum Referenzieren eines Musiksignals in einer Datenbank
JP6005510B2 (ja) 調音およびキー分析のためのオーディオスペクトル中の音成分の選択
US20130066631A1 (en) Parametric speech synthesis method and system
DE112018006885B4 (de) Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität
US7672834B2 (en) Method and system for detecting and temporally relating components in non-stationary signals
DE112013006770T5 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
Kohn et al. Evaluating acoustic speaker normalization algorithms: Evidence from longitudinal child data
DE102004049477A1 (de) Verfahren und Vorrichtung zur harmonischen Aufbereitung einer Melodielinie
EP3291234A1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE102004028693B4 (de) Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
DE102004028694B3 (de) Vorrichtung und Verfahren zum Umsetzen eines Informationssignals in eine Spektraldarstellung mit variabler Auflösung
DE112017006049B4 (de) Verfahren und Vorrichtung zur Klangidentifizierung anhand periodischer Anzeichen
DE112017001277B4 (de) Tonsignalverarbeitungsverfahren und Tonsignalverarbeitungsvorrichtung
CN117037840A (zh) 异响源识别方法、装置、设备及可读存储介质
CN109841232B (zh) 音乐信号中音符位置的提取方法和装置及存储介质
DE102004049517B4 (de) Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
CN109584902B (zh) 一种音乐节奏确定方法、装置、设备及存储介质
EP1377924B1 (de) VERFAHREN UND VORRICHTUNG ZUM EXTRAHIEREN EINER SIGNALKENNUNG, VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER DAZUGEHÖRIGEN DATABANK und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10G0003040000

Ipc: G10H0001000000

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final