DE112022002371T5 - Datenverarbeitungsvorrichtung, datenverarbeitungsverfahren, datenverarbeitungssystem und programm - Google Patents

Datenverarbeitungsvorrichtung, datenverarbeitungsverfahren, datenverarbeitungssystem und programm Download PDF

Info

Publication number
DE112022002371T5
DE112022002371T5 DE112022002371.6T DE112022002371T DE112022002371T5 DE 112022002371 T5 DE112022002371 T5 DE 112022002371T5 DE 112022002371 T DE112022002371 T DE 112022002371T DE 112022002371 T5 DE112022002371 T5 DE 112022002371T5
Authority
DE
Germany
Prior art keywords
data
reverberation
sound
unit
reverb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112022002371.6T
Other languages
English (en)
Inventor
Takao Fukui
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of DE112022002371T5 publication Critical patent/DE112022002371T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Beispielsweise kann eine Hallverarbeitung unter Berücksichtigung der Tonqualität ausgeführt werden.Es wird eine Datenverarbeitungsvorrichtung bereitgestellt, die eine Trainingsverarbeitungseinheit aufweist, die Trainingsdaten erzeugt, indem sie ein Messsignal, das akustische Eigenschaften repräsentiert, die durch dieselbe Schallsammeleinheit gesammelt werden wie eine Schallsammeleinheit, die zum Sammeln eines Beobachtungssignals verwendet wird, mit einem Referenzsignal faltet, das Tonqualität und Halleigenschaften aufweist, die sich von dem Beobachtungssignal unterscheiden, Lerndaten erzeugt, indem ein mittlerer Pegel und ein Verzögerungswert eines Faltungssignals, das durch Faltung einer Direktschallkomponente des Messsignals mit dem Referenzsignal erzeugt wird, an das Referenzsignal angepasst werden, und ein Lernmodell zum Ausführen einer Hallverarbeitung des durch die Schallsammeleinheit gesammelten Beobachtungssignals unter Verwendung der Trainingsdaten und der Lerndaten als Eingangsdaten trainiert.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Offenbarung bezieht sich auf eine Datenverarbeitungsvorrichtung, ein Datenverarbeitungsverfahren und ein Datenverarbeitungssystem und ein Programm.
  • STAND DER TECHNIK
  • Eine Technologie zur Entfernung von Hall aus Schall ist bekannt. Beispielsweise offenbaren die nachstehenden Patentdokumente 1 und 2 eine Enthallungstechnologie unter Verwendung von Maschinenlernen.
  • ENTGEGENHALTUNGSLISTE
  • PATENTDOKUMENT
    • Patentdokument 1: Japanische Offenlegungsschrift Nr. 2018-146683
    • Patentdokument 2: Internationale Veröffentlichungsschrift Nr. WO2019-026973
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • DURCH DIE ERFINDUNG ZU LÖSENDE AUFGABEN
  • Die in den vorstehend beschriebenen Patentdokumenten 1 und 2 offenbarten Technologien entfernen jedoch lediglich den Hall aus dem Ton einer Konferenz oder dergleichen, um den Ton so einzustellen, dass er leicht zu hören ist, und berücksichtigen nicht die Tonqualität.
  • Eine Aufgabe der vorliegenden Technologie ist es, eine Datenverarbeitungsvorrichtung, ein Datenverarbeitungsverfahren, ein Datenverarbeitungssystem und ein Programm vorzuschlagen, die in der Lage sind, eine Hallverarbeitung unter Berücksichtigung der Tonqualität auszuführen.
  • LÖSUNG DER AUFGABEN
  • Die vorliegende Offenbarung ist zum Beispiel
    eine Datenverarbeitungsvorrichtung, die eine Trainingsverarbeitungseinheit aufweist, die Trainingsdaten erzeugt, indem sie ein Messsignal, das akustische Eigenschaften repräsentiert, die durch dieselbe Schallsammeleinheit gesammelt werden wie eine Schallsammeleinheit, die zum Sammeln eines Beobachtungssignals verwendet wird, mit einem Referenzsignal faltet, das Tonqualität und Halleigenschaften aufweist, die sich von dem Beobachtungssignal unterscheiden, Lerndaten erzeugt, indem ein mittlerer Pegel und ein Verzögerungswert eines Faltungssignals, das durch Faltung einer Direktschallkomponente des Messsignals mit dem Referenzsignal erzeugt wird, an das Referenzsignal angepasst werden, und ein Lernmodell zum Ausführen einer Hallverarbeitung des durch die Schallsammeleinheit gesammelten Beobachtungssignals unter Verwendung der Trainingsdaten und der Lerndaten als Eingangsdaten trainiert.
  • Die vorliegende Offenbarung ist zum Beispiel
    ein Datenverarbeitungsverfahren, das das Ausführen einer Trainingsverarbeitung zum Erzeugen von Trainingsdaten durch Falten eines Messsignals, das akustische Eigenschaften repräsentiert und durch dieselbe Schallsammeleinheit gesammelt wird wie eine Schallsammeleinheit, die zum Sammeln eines Bobachtungssignals verwendet wird, mit einem Referenzsignal, das Schallqualität und Halleigenschaften aufweist, die sich von dem Beobachtungssignal unterscheiden, Erzeugen von Lerndaten durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Faltung einer Direktschallkomponente des Messsignals mit dem Referenzsignal erzeugt wird, an das Referenzsignal, und Trainieren eines Lernmodells zum Ausführen einer Hallverarbeitung des durch die Schallsammeleinheit gesammelten Beobachtungssignals unter Verwendung der Trainingsdaten und der Lerndaten als Eingangsdaten aufweist.
  • Die vorliegende Offenbarung ist zum Beispiel
    ein Programm zum Veranlassen eines Computers, eine Trainingsverarbeitung zum Erzeugen von Trainingsdaten durch Falten eines Messsignals, das akustische Eigenschaften repräsentiert und durch dieselbe Schallsammeleinheit gesammelt wird wie eine Schallsammeleinheit, die zum Sammeln eines Bobachtungssignals verwendet wird, mit einem Referenzsignal, das Schallqualität und Halleigenschaften aufweist, die sich von dem Beobachtungssignal unterscheiden, Erzeugen von Lerndaten durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente des Messsignals mit dem Referenzsignal erzeugt wird, an das Referenzsignal, und Trainieren eines Lernmodells zum Ausführen einer Hallverarbeitung des durch die Schallsammeleinheit gesammelten Beobachtungssignals unter Verwendung der Trainingsdaten und der Lerndaten als Eingangsdaten auszuführen.
  • Die vorliegende Offenbarung ist zum Beispiel
    eine Datenverarbeitungsvorrichtung, die Folgendes aufweist:
    • eine Enthallungseinheit, die zweite Akustikdaten, die durch ein Mikrofon gesammelt wurden, eingibt und dritte Akustikdaten ausgibt, die durch Entfernen einer Hallkomponente aus den zweiten Akustikdaten unter Verwendung eines Lernmodells erhalten werden, das durch Ausführen von Maschinenlernen unter Verwendung erster Daten, die durch Falten erster Akustikdaten, die durch das Mikrofon gesammelt wurden, mit Trockendaten, die keinen Hall enthalten, erzeugt werden, und zweiter Daten, die durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten mit den Trockendaten erzeugt wird, an die trockenen Daten erzeugt werden, erhalten wird,
    • eine Nachhallkomponenten-Merkmalextraktionseinheit, die Merkmalsdaten, die eine Nachhallkomponente der zweiten akustischen Daten repräsentieren, unter Verwendung der zweiten akustischen Daten und der dritten akustischen Daten extrahiert, und
    • eine Hallhinzufügungseinheit, die Schallquellendaten eingibt, Hall mit Eigenschaften basierend auf den Merkmalsdaten hinzufügt und die Schallquellendaten ausgibt.
  • Die vorliegende Offenbarung ist zum Beispiel
    ein Datenverarbeitungsverfahren das das Veranlassen eines Computers aufweist, eine Verarbeitung auszuführen zum
    Eingeben zweiter Akustikdaten, die durch ein Mikrofon gesammelt wurden, und Ausgeben dritter Akustikdaten, die durch Entfernen einer Hallkomponente aus den zweiten Akustikdaten unter Verwendung eines Lernmodells erhalten werden, das durch Ausführen von Maschinenlernen unter Verwendung erster Daten, die durch Falten erster Akustikdaten, die durch das Mikrofon gesammelt werden, mit Trockendaten, die keinen Hall enthalten, erzeugt werden, und zweiter Daten, die durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten mit den Trockendaten erzeugt wird, an die Trockendaten erzeugt werden, erhalten wird,
    Extrahieren von Merkmalsdaten, die eine Hallkomponente der zweiten Akustikdaten repräsentieren, unter Verwendung der zweiten Akustikdaten und der dritten Akustikdaten, und
    Eingeben von Schallquellendaten, Hinzufügen von Hall mit Eigenschaften basierend auf den Merkmalsdaten und Ausgeben der Schallquellendaten.
  • Die vorliegende Offenbarung ist zum Beispiel Programm zum Veranlassen, dass ein Computer eine Verarbeitung ausführt zum
    Eingeben zweiter Akustikdaten, die durch ein Mikrofon gesammelt wurden, und Ausgeben dritter Akustikdaten, die durch Entfernen einer Hallkomponente aus den zweiten Akustikdaten unter Verwendung eines Lernmodells erhalten werden, das durch Ausführen von Maschinenlernen unter Verwendung erster Daten, die durch Falten erster Akustikdaten, die durch das Mikrofon gesammelt werden, mit Trockendaten, die keinen Hall enthalten, erzeugt werden, und zweiter Daten, die durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten mit den Trockendaten erzeugt wird, an die Trockendaten erzeugt werden, erhalten wird,
    Extrahieren von Merkmalsdaten, die eine Hallkomponente der zweiten Akustikdaten repräsentieren, unter Verwendung der zweiten Akustikdaten und der dritten Akustikdaten, und
    Eingeben von Schallquellendaten, Hinzufügen von Hall mit Eigenschaften basierend auf den Merkmalsdaten und Ausgeben der Schallquellendaten.
  • Die vorliegende Offenbarung ist zum Beispiel
    ein Datenverarbeitungssystem, das Folgendes aufweist:
    • ein Mikrofon,
    • ein Lernmodell, das durch Ausführen von Maschinenlernen unter Verwendung erster Daten, die durch Falten erster Akustikdaten, die durch das Mikrofon gesammelt werden, mit Trockendaten, die keinen Hall enthalten, erzeugt werden, und zweiter Daten, die durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten mit den Trockendaten erzeugt wird, an die Trockendaten erzeugt werden, erhalten wird,
    • eine Schallquellenausgabeeinheit, die Schallquellendaten ausgibt,
    • einen Speicher, der die durch das Mikrofon gesammelten zweiten Akustikdaten und die Schallquellendaten speichert,
    • eine Enthallungseinheit, die die zweiten Akustikdaten eingibt und dritte Akustikdaten, die durch Entfernen einer Hallkomponente aus den zweiten Akustikdaten unter Verwendung des Lernmodells erhalten werden, ausgibt,
    • eine Hallkomponentenmerkmalsextraktionseinheit, die Merkmalsdaten, die eine Hallkomponente der zweiten Akustikdaten repräsentieren, unter Verwendung der zweiten Akustikdaten und der dritten Akustikdaten extrahiert, und
    • eine Hallhinzufügungseinheit, die die Schallquellendaten eingibt, Hall mit Eigenschaften basierend auf den Merkmalsdaten hinzufügt und die Schallquellendaten ausgibt.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
    • 1 ist ein Diagramm, das ein Konfigurationsbeispiel eines Datenverarbeitungssystems gemäß einer Ausführungsform darstellt.
    • 2 ist ein Diagramm, das ein Konfigurationsbeispiel einer Datenverarbeitungsvorrichtung gemäß der Ausführungsform darstellt.
    • 3 ist ein Diagramm, das ein Konfigurationsbeispiel einer Lerndatenerzeugungseinheit darstellt.
    • 4 ist ein Diagramm, das ein Wellenformbeispiel eines allgemeinen Impulsantwortsignals darstellt.
    • 5 ist ein Diagramm, das ein Wellenformbeispiel eines Impulsantwortsignals in einem Fall, in dem Schall in einem hallfreien Raum unter Verwendung eines Smartphones gesammelt wird, darstellt.
    • 6 ist ein Diagramm zum Beschreiben eines Extraktionsbeispiels einer Direktschallkomponente des im hallfreien Raum gesammelten Impulsantwortsignals.
    • 7 ist ein Diagramm zum Beschreiben der Messung eines Verzögerungswertes.
    • 8 ist ein Diagramm zum Beschreiben eines Extraktionsbeispiels einer Direktschallkomponente eines zum Lernen gesammelten Impulsantwortsignals.
    • 9 ist ein Diagramm zum Beschreiben des Hinzufügens von Eigenschaften.
    • 10 ist Ablaufplan, der einen Ablauf der Trainingsverarbeitung durch die Datenverarbeitungsvorrichtung darstellt.
    • 11 ist ein Diagramm, das ein Hardwarekonfigurationsbeispiel der Datenverarbeitungsvorrichtung darstellt.
    • 12 ist ein Diagramm, das ein Konfigurationsbeispiel eines Datenverarbeitungssystems zum Zeitpunkt der Aufnahme gemäß einem Modifikationsbeispiel darstellt.
    • 13 ist ein Diagramm, das ein Konfigurationsbeispiel einer Datenverarbeitungsvorrichtung zum Zeitpunkt des Bearbeitens gemäß dem Modifikationsbeispiel darstellt.
    • 14 ist ein Diagramm, das ein Wellenformbeispiel eines Eingangssignals darstellt.
    • 15 ist ein Diagramm, das ein Wellenformbeispiel eines Enthallungssignals darstellt.
    • 16 ist ein Diagramm, das ein Wellenformbeispiel einer Hallkomponente darstellt.
    • 17 ist ein Diagramm, das ein weiteres Konfigurationsbeispiel der Datenverarbeitungsvorrichtung zum Zeitpunkt des Bearbeitens gemäß dem Modifikationsbeispiel darstellt.
  • ART UND WEISE ZUM AUSFÜHREN DER ERFINDUNG
  • Nachstehend wird eine Ausführungsform und dergleichen der vorliegenden Offenbarung unter Bezugnahme auf die Zeichnungen beschrieben. Es wird darauf hingewiesen, dass eine Ausführungsform und dergleichen, die nachstehend zu beschreiben ist, ein bevorzugtes spezifisches Beispiel der vorliegenden Offenbarung ist und der Inhalt der vorliegenden Offenbarung nicht auf diese Ausführungsform und dergleichen beschränkt ist. Die Beschreibung erfolgt in der folgenden Reihenfolge.
    1. <1. Hintergrund>
    2. <2. Ausführungsform>
    3. <3. Modifikationsbeispiel>
  • <1. Hintergrund>
  • Zunächst wird ein Hintergrund der vorliegenden Offenbarung beschrieben. Die Produktion von Inhalten muss geändert werden. Im Stand der Technik ist ein Inhalt (z. B. ein kommerzieller Inhalt), der das Aufzeichnen von Schall wie z. B. Musik erfordert, an einem Ort (z. B. einem Studio), an dem eine ausreichende Aufnahmeumgebung hergestellt ist, produziert worden. Im Übrigen hat den letzten Jahren die Fernarbeit durch Infektionskontrollmaßnahmen und dergleichen, der Internetvertrieb durch unabhängige Produktion und dergleichen zugenommen. Daher ist es wünschenswert, eine Umgebung herzustellen, in der die Produktion von Inhalten mit Schwerpunkt auf der Tonqualität sogar an einem Ort, an dem keine ausreichende Aufnahmeumgebung hergestellt ist (z. B. zu Hause), einfach ausgeführt werden kann.
  • In Musikgenres wie z. B. Popmusik kann die Aufnahme häufig zu Hause bei einem einzelnen Musiker oder dergleichen, im Fall von Orchestern in vielen Fällen ausgeführt werden, im Fall von Gesang wird die Aufnahme jedoch im Allgemeinen in einem Studio ausgeführt. Für die Zukunft besteht jedoch im Fall von Gesang eine Nachfrage nach einfachen Aufnahmen zu Hause oder dergleichen.
  • Ein Problem ist hier die Entfernung von Hall, wenn die Aufnahme an einem Ort ausgeführt wird, an dem keine ausreichende Aufnahmeumgebung hergestellt ist, wie z. B. zu Hause. In der Musikproduktion wird die Musik beispielsweise dadurch vervollständigt, dass zunächst eine Aufnahme mit Ton ohne Hall ausgeführt wird und der Hall in vielen Fällen später hinzugefügt wird. Wie vorstehend beschrieben, gibt es im Stand der Technik jedoch nur eine Enthallungstechnologie in dem Maße, dass der Ton leicht gehört werden kann, und es gibt keine Enthallungsfunktion auf einem klaren Produktqualitätsniveau. Daher musste sich ein Studiotechniker die Zeit nehmen, den Hall auf der Grundlage der Betrachtung zu entfernen. Ferner ist, selbst wenn der Hall entfernt werden kann, anzunehmen, dass die Tonqualität bei der Aufnahme unter Verwendung eines Mikrofons, das nicht für eine professionelle Verwendung bestimmt ist, wie z. B. eines Smartphone-Mikrofons, im Vergleich zu einer Aufnahme mit professioneller Ausrüstung in einem Studio zu einem Problem werden kann.
  • Dementsprechend ist es derzeit notwendig, dass ein Tontechniker eine zu Hause aufgenommene Schallquelle oder dergleichen in ein Studio oder dergleichen bringt und die Aufnahme ausführt, während er die Prüfung der Tonqualität, die Entfernung von Hall und dergleichen unter Verwendung professioneller Ausrüstung für die Musikproduktion betrachtet, was eine enorme Bearbeitungszeit erfordert. Darüber hinaus ist in einigen Fällen zu berücksichtigen, dass es einen Fall geben kann, in dem die Qualität der kommerziellen Inhalte nicht erreicht wird und die Aufnahme in einem Studio wiederholt werden muss. Aus einem solchen Grund wird eine Hallverarbeitungstechnologie gewünscht, die die Tonqualität berücksichtigt.
  • <2. Ausführungsform>
  • [2-1. Konfigurationsbeispiel des Systems]
  • 1 ist ein Diagramm, das ein Konfigurationsbeispiel eines Datenverarbeitungssystems (Datenverarbeitungssystem 1) gemäß einer Ausführungsform darstellt. Das Datenverarbeitungssystem 1 ist ein System zur Musikproduktion. Das Datenverarbeitungssystem 1 weist ein Benutzer-Equipment 2, eine Datenverarbeitungsvorrichtung 3 und eine Studiovorrichtung 4 auf.
  • Das Benutzer-Equipment 2 ist eine Vorrichtung, die von einem Benutzer verwendet wird. Das Benutzer-Equipment 2 weist beispielsweise eine Endgerätevorrichtung wie z. B. ein Smartphone, ein Tablet oder einen Personalcomputer auf. Das Benutzer-Equipment 2 weist eine Kommunikationsfunktion auf, die zur Kommunikation mit der Datenverarbeitungsvorrichtung 3 fähig ist. Das Benutzer-Equipment 2 weist eine Schallsammeleinheit 20, wie z. B. ein Mikrofon, auf und weist eine Schallsammelfunktion auf, die in der Lage ist, einen externen Schall zu sammeln. Beispielsweise in einem Fall, in dem das Benutzer-Equipment 2 ein Smartphone ist, kann ein Mikrofon des Smartphones als die Schallsammeleinheit 20 verwendet werden.
  • Insbesondere überträgt das Benutzer-Equipment 2 ein durch die Schallsammeleinheit 20 gesammeltes Beobachtungssignal (in diesem Beispiel ein Stimmensignal, das durch das Sammeln von Stimmenschall eines Sängers erhalten wird) an einem Ort, an dem keine ausreichende Aufnahmeumgebung hergestellt ist (beispielsweise bei dem Benutzer zu Hause), an die Datenverarbeitungsvorrichtung 3. Das Benutzer-Equipment 2 weist die Schallsammeleinheit 20 auf, und somit ist es möglich, das Stimmensignal ohne Zeit und Aufwand an die Datenverarbeitungsvorrichtung 3 zu übertragen. Es wird darauf hingewiesen, dass die Schallsammeleinheit 20 verwendet werden kann, während sie separat mit dem Benutzer-Equipment 2 verbunden ist, oder in einer anderen Vorrichtung als dem Benutzer-Equipment 2 enthalten sein kann. Kurz gesagt ist es ausreichend, wenn das an die Datenverarbeitungsvorrichtung 3 gesendete Stimmensignal durch die Schallsammeleinheit 20 gesammelt wird, und es spielt keine Rolle, ob das Benutzer-Equipment 2 und die Schallsammeleinheit 20 verbunden sind oder nicht.
  • Die Datenverarbeitungsvorrichtung 3 ist eine Vorrichtung, die Hallverarbeitung an einem Eingangssignal ausführt, und ist beispielsweise als ein Cloud-Server in einem Netz wie z. B. dem Internet bereitgestellt. Insbesondere besitzt die Datenverarbeitungsvorrichtung 3 eine Funktion zum Entfernen von Hall und Eigenschaften eines Aufnahmesystems unter Verwendung von Maschinenlernen. Die hier genannten Eigenschaften des Aufnahmesystems sind Eigenschaften, die durch das Aufnehmen unbeabsichtigt hinzugefügt werden, und sind beispielsweise Rauscheigenschaften und Eigenschaften, die nicht notwendigerweise auf das Equipment wie z. B. ein Mikrofon und einen Lautsprecher, die zum Aufnehmen verwendet werden, zurückzuführen sind. Die Datenverarbeitungsvorrichtung 3 weist eine Trainingsverarbeitungseinheit 30 (Einzelheiten werden später beschrieben), die ein Lernmodell zum Entfernen des Halls und der Eigenschaften des Aufnahmesystems trainiert, auf.
  • Darüber hinaus besitzt die Datenverarbeitungsvorrichtung 3 eine Kommunikationsfunktion, die zum Kommunizieren mit sowohl dem Benutzer-Equipment 2 als auch der Studiovorrichtung 4 fähig ist. Insbesondere empfängt die Datenverarbeitungsvorrichtung 3 das von dem Benutzer-Equipment 2 übertragene Stimmensignal, erzeugt ein verarbeitetes Signal durch Entfernen des Halls und der Eigenschaften des Aufnahmesystems aus dem empfangenen Stimmensignal und überträgt das verarbeitete Signal an die Studiovorrichtung 4. Es wird darauf hingewiesen, dass diese Reihe der Verarbeitung eine Echtzeitverarbeitung sein kann.
  • Die Studiovorrichtung 4 ist eine Vorrichtung mit einer Funktion zum Produzieren kommerzieller Inhalte wie z. B. Mischen und Mastern. Die Studiovorrichtung 4 weist beispielsweise einen Personalcomputer auf und ist an einem Ort vorgesehen, an dem eine ausreichende Aufnahmeumgebung hergestellt ist, wie z. B. in einem Studio. Die Studiovorrichtung 4 besitzt eine Kommunikationsfunktion, die zum Kommunizieren mit der Datenverarbeitungsvorrichtung 3 fähig ist. Die Studiovorrichtung 4 empfängt das von der Datenverarbeitungsvorrichtung 3 übertragene verarbeitete Signal und führt eine Verarbeitung wie z. B. Mischen und Mastern aus.
  • Es wird darauf hingewiesen, dass, wie in der Zeichnung dargestellt, das verarbeitete Signal, das durch die Datenverarbeitungsvorrichtung 3 verarbeitet worden ist, von der Datenverarbeitungsvorrichtung 3 an das Benutzer-Equipment 2 übertragen werden kann. Daher ist es beispielsweise möglich, mit einem Fall, in dem die Musikproduktion durch eine persönliche Verwendung ausgeführt wird (ein Fall, in dem eine Studioproduktion unnötig ist), und dergleichen umzugehen. Das verarbeitet Signal kann sowohl an das Benutzer-Equipment 2 als auch an die Studiovorrichtung 4 übertragen werden. Darüber hinaus können mehrere Einheiten eines Benutzer-Equipment 2 bereitgestellt sein, und die Übertragung des Stimmsignals und der Empfang des verarbeiteten Signals können durch unterschiedliche Einheiten des Benutzer-Equipment 2 ausgeführt werden. Beispielsweise kann eine Betriebsart eingesetzt werden, in der das Stimmensignal von dem Smartphone übertragen wird und das verarbeitete Signal durch den Personalcomputer zu Hause empfangen wird.
  • Es wird darauf hingewiesen, dass, wie vorstehend beschrieben, die Datenverarbeitungsvorrichtung 3 nicht im Netz bereitgestellt sein kann und Funktionen des Benutzer-Equipments 2 und der Studiovorrichtung 4 besitzen kann und fähig sein kann, als das Benutzer-Equipment 2 und/oder die Studiovorrichtung 4 verwendet zu werden (zu funktionieren). Wie vorstehend beschrieben kann die Datenverarbeitungsvorrichtung 3 auf einer Betriebsseite, die durch den Benutzer betrieben wird, oder auf einer Studioseite vorgesehen sein. Es wird darauf hingewiesen, dass die Verbindung zwischen den jeweiligen Vorrichtungen, die die vorstehend beschriebene Schallsammeleinheit 20 aufweisen (beispielsweise eine Verbindungsbetriebsart wie z. B. drahtgebunden oder drahtlos, ein Kommunikationsverfahren und dergleichen) nicht auf eine spezifische Verbindung beschränkt ist.
  • [2-2. Konfiguration der Datenverarbeitungsvorrichtung]
  • 2 ist ein Diagramm, das ein Konfigurationsbeispiel der Datenverarbeitungsvorrichtung 3 gemäß der Ausführungsform darstellt. Wie vorstehend beschrieben weist die Datenverarbeitungsvorrichtung 3 die Trainingsverarbeitungseinheit 30 auf, und die Trainingsverarbeitungseinheit 30 weist eine Trainingsdatenerzeugungseinheit 31, eine Lerndatenerzeugungseinheit 32 und eine DNN-Trainingseinheit 33 auf. Es wird darauf hingewiesen, dass in der folgenden Beschreibung ein Fall, in dem ein Musiker den Hall eines zu Hause unter Verwendung eines Smartphones aufgenommenen Stimmensignals entfernt, als ein Beispiel beschrieben wird.
  • Die Trainingsdatenerzeugungseinheit 31 erzeugt Trainingsdaten zum Trainieren (Trainingsschallquelle) durch Falten von Aufnahme-IR-Daten zum Trainieren mit Trockendaten (Trockenschallquelle). Die durch die Trainingsdatenerzeugungseinheit 31 erzeugten Trainingsdaten werden in die DNN-Trainingseinheit 33 eingegeben. Die Trockendaten und die Aufnahme-IR-Daten zum Trainieren werden im Voraus vorbereitet, so dass sie durch die Datenverarbeitungsvorrichtung 3 verarbeitet werden können. Diese Dateneinheiten werden vorbereitet, während sie beispielsweise in einer Speichereinheit (hier nicht dargestellt) der Datenverarbeitungsvorrichtung 3 im Voraus gespeichert werden.
  • Die Trockendaten sind ein Referenzsignal, auf das während des Trainierens Bezug genommen wird. Die Trockendaten sind ein Stimmenschall mit hoher Tonqualität ohne Hall, die getrennt von dem Aufnahme-IR-Daten zum Trainieren aufgenommen sind (beispielsweise eine mit professionellem Equipment eines Aufnahmestudios aufgenommene Schallquelle). Insbesondere besitzt die hier genannte hohe Tonqualität verschiedene Eigenschaften (beispielsweise Frequenzeigenschaften, Rauscheigenschaften und dergleichen), die gleich einem oder höher als ein Niveau sind, mit dem kommerzieller Inhalt produziert werden kann, und beispielsweise eine Sampling-Frequenz von 48 kHz oder höher (insbesondere 96 kHz, 192 kHz und dergleichen) besitzen. Die Trockendaten werden beispielsweise für eine große Menge (beispielsweise für etwa 500 Lieder) von verschiedenem Stimmenschall (beispielsweise Lieder für männlich, weiblich, Kind, erwachsen, Japanisch, Englisch und dergleichen) vorbereitet, um fähig zu sein, mit der Enthallung einer großen Vielfalt von Stimmensignalen umzugehen.
  • Die Aufnahme-IR-Daten zum Trainieren sind ein Messsignal, das akustische Eigenschaften repräsentiert, die unter Verwendung eines Smartphones zu Hause bei einem Musiker gesammelt und gemessen werden. Dieses Smartphone wird zum Sammeln des Stimmensignals (Beobachtungssignal), das vorstehend beschrieben ist, verwendet. Das Messsignal ist beispielsweise ein Impulsantwortsignal und kann unter Verwendung eines zeitlich gestreckten Impulssignals (TSP-Signal) aufgenommen sein. Es wird darauf hingewiesen, dass das Signal zur Messung, das zum Sammeln des Impulsantwortsignals verwendet wird, nicht auf das TSP-Signal beschränkt ist und andere Signale, wie z. B. ein Signal einer Folge mit maximaler Länge (M-Folge) verwendet werden können. In den Aufnahme-IR-Daten zum Trainieren sind beispielsweise eine große Menge (beispielsweise etwa 300 Lieder) von Impulsantworten, die an verschiedenen Orten (beispielsweise verschiedenen Orten in einem Arbeitsraum oder einem Wohnzimmer) gesammelt wurden, vorbereitet, um mit der Enthallung von in verschiedenen Umgebungen gesammelten Stimmensignalen umgehen zu können.
  • Die Lerndatenerzeugungseinheit 32 erzeugt Lerndaten (Lernschallquelle) zum Trainieren unter Verwendung der Trockendaten. Die durch die Lerndatenerzeugungseinheit 32 erzeugten Lerndaten werden in die DNN-Trainingseinheit 33 eingegeben. Die DNN-Trainingseinheit 33 trainiert und konstruiert ein Lernmodell durch ein tiefes neuronales Netz (DNN), das Enthallung eines Stimmensignals ausführt, unter Verwendung der Trainingsdaten und der Lerndaten als Eingangsdaten.
  • Hier können beispielsweise die Eigenschaften des Aufnahmesystems in dem Smartphone unter Verwendung der Trockendaten als die Lerndaten ebenfalls unterdrückt werden, und es kann auch Aufnehmen mit einer hohen Tonqualität ausgeführt werden. In einem Fall jedoch, in dem die Trockendaten einfach unter Verwendung der Lerndaten als die Trainingsdaten trainiert werden, wird das Trainieren der Enthallung nicht ausgeführt, und es kann nur Trainieren mit einer Pegeländerung ausgeführt werden. Der Grund dafür ist, dass eine Verzögerung und ein Pegel der Trockenschallquelle (Zielschallquelle), die verschiedenen Arten von Trainingsdaten zu eigen sind, nicht mit den Lerndaten zusammenfallen. Das liegt daran, dass es, da das Trainieren des DNN in einer Richtung fortschreitet, in der ein mittlerer Fehler abnimmt, nicht möglich ist, ein Trainieren bis zu einer wesentlichen Enthallung auszuführen, in dem man sich darauf konzentriert zu bewirken, dass diese Dateneinheiten miteinander zusammenfallen.
  • Daher erzeugt die Lerndatenerzeugungseinheit 32 die Lerndaten durch Anpassen der Verzögerung und des Pegels der Trockendaten unter Verwendung der Aufnahme-IR-Daten zum Trainieren und Aufnahme-IR-Daten des hallfreien Raums. Die Aufnahme-IR-Daten des hallfreien Raums sind ein Messsignal (beispielsweise ein Impulsantwortsignal), das in einem hallfreien Raum unter Verwendung des zum Sammeln des Stimmensignals (Beobachtungssignals) verwendeten Smartphones gesammelt und gemessen wird. Die Aufnahme-IR-Daten des hallfreien Raums werden im Voraus beispielsweise in der Speichereinheit der Datenverarbeitungsvorrichtung 3 gespeichert und vorbereitet.
  • Die Aufnahme-IR-Daten des hallfreien Raums und die Aufnahme-IR-Daten zum Trainieren, die vorstehend beschrieben sind, müssen nur unter Verwendung desselben Aufnahmesystems (beispielsweise eines Aufnahme-Equipments wie z. B. einem Mikrofon) wie für die Aufnahme des Stimmensignals (Beobachtungssignals) aufgenommen werden. Es ist vorzuziehen, tatsächlich das zum Aufnehmen des Stimmensignals verwendete Aufnahmesystem zu verwenden, und es ist ausreichend, falls die Aufnahmesysteme verwendet werden, die die gleichen Aufnahmeeigenschaften einschließlich eines zulässigen Bereichs aufweisen. Das Aufnahmesystem ist nicht auf das Aufnahmesystem des gleichen Modells beschränkt, und es kann beispielsweise ein Aufnahmesystem eines anderen Modells verwendet werden. In dem Aufnahmesystem der Aufnahme-IR-Daten des hallfreien Raums und dem Aufnahmesystem der Aufnahme-IR-Daten zum Trainieren (beispielsweise einem Equipment wie z. B. einem Mikrofon und einem Lautsprecher) werden die Aufnahmesysteme mit den gleichen Eigenschaften verwendet.
  • 3 ist ein Diagramm, das ein Konfigurationsbeispiel der Lerndatenerzeugungseinheit 32 darstellt. Die Lerndatenerzeugungseinheit 32 weist eine Direktschallextraktionseinheit 321, eine Verzögerungswertmesseinheit 322, eine Direktschallfaltungseinheit 323, eine Mittelpegelverhältnisberechnungseinheit 324 und eine Eigenschaftshinzufügungseinheit 325 auf.
  • Die Direktschallextraktionseinheit 321 extrahiert eine Direktschallkomponente aus den Aufnahme-IR-Daten des hallfreien Raums. Die Extraktion dieser Direktschallkomponente wird hier genau beschrieben. 4 ist ein Wellenformbeispiel eines allgemeinen Impulsantwortsignals, und 5 ist ein Wellenformbeispiel eines Impulsantwortsignals in einem Fall, in dem Schall in dem hallfreien Raum unter Verwendung des Smartphones gesammelt wird. In der Zeichnung repräsentiert eine horizontale Achse eine Zeit, und eine vertikale Achse repräsentiert einen Pegel.
  • Wie in 4 dargestellt, erscheinen in dem allgemeinen Impulsantwortsignal Wellenformen in der Reihenfolge Direktschall (Impuls), Erstreflexion und Nachhall. Die Erstreflexion ist der reflektierte Schall, den ein Direktschall durch Reflexion an einem Boden, einer Wand, einer Decke oder dergleichen erreicht, und der Nachhall ist der Hall, der sich bei der Wiederholung der nachfolgenden Reflexion abschwächt. Da ein allgemeines Impulsantwortsignal eine solche Wellenform aufweist, werden die Eigenschaften der in dem allgemeinen Impulsantwortsignal enthaltenen Direktschallkomponente durch Falten einer Verzögerung (insbesondere einer Verzögerung von der Ausgabe bis zur Detektion) ein eines Pegels eines Impulses der Direktschallkomponente mit den Trockendaten erhalten. Somit können die Trockendaten als die Lerndaten trainiert werden.
  • Im Übrigen besitzt das durch das Smartphone gesammelte Impulsantwortsignal eine in 5 dargestellte Wellenform, und der Direktschall kann nicht klar getrennt werden. Der Grund dafür, dass eine solche Wellenform erhalten wird, ist, dass es auch erforderlich ist, dass das zum Aufnehmen verwendete Equipment eine flache Eigenschaft in einem Verarbeitungsband aufweisen muss, um die in 4 dargestellte Wellenform zu erhalten. In einem Fall, in dem ein Schall durch das Smartphone gesammelt wird, ist das Mikrofon des Smartphones wesentlich, und ein Lautsprecher, der zu Hause mitgeführt und aufgenommen werden kann, besitzt ein schmaleres Band als ein in einem professionellen Studio installierter Lautsprecher, und seine Flachheit ist nicht gut. Daher werden die Eigenschaften des Mikrofons des Smartphones, des Lautsprechers zur Zeit der Impulsmessung und dergleichen hinzugefügt, und die in 5 dargestellte Wellenform wird erhalten. Dies ist nicht auf die Schallsammlung im Smartphone beschränkt.
  • Daher schätzt die Direktschallextraktionseinheit 321 die Direktschallkomponente aus den Aufnahme-IR-Daten des hallfreien Raums und extrahiert die geschätzte Direktschallkomponente aus den Aufnahme-IR-Daten des hallfreien Raums. Insbesondere schneidet die Direktschallextraktionseinheit 321 die Aufnahme-IR-Daten des hallfreien Raums in die Anzahl tatsächlich benötigter Samples (N).
  • 6 ist ein Diagramm zum Beschreiben eines Extraktionsbeispiels der Direktschallkomponente des im in diesem hallfreien Raum gesammelten Impulsantwortsignals. Beispielsweise schneidet die Direktschallextraktionseinheit 321 eine Länge des Impulsantwortsignals innerhalb eines Bereichs, in dem keine Änderung der Frequenzeigenschaften vorhanden ist (ein zulässiger Fehler kann enthalten sein). Das heißt, der Bereich, in dem sich die Frequenzeigenschaften nicht ändern, wird als die Direktschallkomponente geschätzt. Beispielsweise wird eine Länge L eines Extraktionsabschnitts P so angepasst, dass die Frequenzeigenschaften der Faltung eines gesamten W und die Frequenzeigenschaften der Faltung des Extraktionsabschnitts P gleich sind. Dann werden die anderen Abschnitte als der Extraktionsabschnitt P geschnitten, und die Anzahl erforderlicher Samples (N) wird aus den Aufnahme-IR-Daten des hallfreien Raums extrahiert. Die Einheiten von Aufnahme-IR-Daten des hallfreien Raums der N Samples werden an die in 3 dargestellte Verzögerungswertmesseinheit 322 gesendet. Es wird darauf hingewiesen, dass die Schätzung und Extraktion der Direktschallkomponente durch die Direktschallextraktionseinheit 321 im Voraus ausgeführt werden können. Darüber hinaus kann die Anzahl erforderlicher Samples (N) durch manuelles Schätzen der Direktschallkomponenten eingestellt (gespeichert) werden.
  • Die Verzögerungswertmesseinheit 322 erhält einen Verzögerungswert (D) der Aufnahme-IR-Daten zum Trainieren durch Falten der Einheiten der Aufnahme-IR-Daten des hallfreien Raums der N Samples mit den Trockendaten. 7 ist ein Diagramm zum Beschreiben der Messung des Verzögerungswertes (D). Die Verzögerungswertmesseinheit 322 erhält den Verzögerungswert (D) durch Vergleichen der Trockendaten (Trockenschallquelle) mit einem Faltungssignal (Faltungsschallquelle). Der auf diese Weise erhaltene Verzögerungswert (D) wird der Eigenschaftshinzufügungseinheit 325 zugeführt.
  • Andererseits extrahiert die Direktschallfaltungseinheit 323 die Direktschallkomponenten aus den Einheiten von Aufnahme-IR-Daten zum Trainieren und erzeugt das Faltungssignal (Faltungsschallquelle) durch Falten der Einheiten der Aufnahme-IR-Daten zum Trainieren der extrahierten N Samples mit den Trockendaten. 8 ist ein Diagramm zum Beschreiben eines Extraktionsbeispiels der Direktschallkomponente des gesammelten Impulsantwortsignals zum Trainieren. Wie in der Zeichnung dargestellt, extrahiert die Direktschallfaltungseinheit 323 einen Kopfabschnitt der Aufnahme-IR-Daten zum Trainieren (Faltungs-IR). Insbesondere extrahiert die Direktschallfaltungseinheit 323 die vorstehend beschriebenen N Samples. Dann erzeugt die Direktschallfaltungseinheit 323 das Faltungssignal durch Falten der Einheiten von Aufnahme-IR-Daten zum Trainieren der extrahierten N Samples mit den Trockendaten. Dieses Faltungssignal wird an die in 3 dargestellte Mittelpegelverhältnisberechnungseinheit 324 gesendet.
  • Wie in 3 dargestellt, berechnet die Mittelpegelverhältnisberechnungseinheit 324 ein Verhältnis (A) der mittleren Pegel unter Verwendung eines mittleren Pegels von Trockendaten S1 und eines mittleren Pegels eines Faltungssignals S2, das von der Direktschallfaltungseinheit 323 übertragen wird. Das Verhältnis (A) der mittleren Pegel wird durch die folgende Gleichung bestimmt. A = ( S 2  mittlerer Pegel ) / ( S 1  mittlerer Pegel )
    Figure DE112022002371T5_0001
  • Das erhaltene Verhältnis (A) der mittleren Pegel wird der Eigenschaftshinzufügungseinheit 325 zugeführt.
  • Die Eigenschaftshinzufügungseinheit 325 erzeugt die Lerndaten durch Anpassen der Verzögerung und des Pegels der Trockendaten. Insbesondere fügt die Eigenschaftshinzufügungseinheit 325 Eigenschaften des Verzögerungswertes (D) und das Verhältnis (A) der mittleren Pegel den Trockendaten hinzu.
  • 9 ist ein Diagramm zum Beschreiben des Hinzufügens von Eigenschaften. Wie in der Zeichnung dargestellt, ist eine Schallquelle ohne Hall mit hoher Tonqualität (Trockendaten S1) X(n), und ihr mittlerer Pegel (mittlerer Pegel des ursprünglichen Schalls) ist Tref. Darüber hinaus ist ein mittlerer Pegel der Schallquelle (Faltungssignal S2), der durch Falten der Direktschallkomponenten der Einheiten von Aufnahme-IR-Daten zum Trainieren, die wie vorstehend beschrieben geschätzt und extrahiert werden, Tconv, und der Verzögerungswert (D) ist Δ. Zu diesem Zeitpunkt wird eine Lernschallquelle Y(n), die zum Trainieren verwendet wird, durch die folgende Gleichung erhalten. Y ( n ) = ( Tconv / Tref ) × X ( n Δ )
    Figure DE112022002371T5_0002
  • Es wird darauf hingewiesen, dass (Tconv/Tref) das Verhältnis (A) der mittleren Pegel ist.
  • Die auf diese Weise erzeugte Lernschallquelle (Lerndaten) wird an die in 2 dargestellte DNN-Trainingseinheit 33 gesendet und wie vorstehend beschrieben zum Trainieren verwendet. Alle Kombinationen der Einheiten von Aufnahme-IR-Daten zum Trainieren und der Trockendaten werden unter Verwendung der Trainingsschallquelle und der Lernschallquelle trainiert. Daher ist es, wenn das Stimmensignal eingegeben wird, möglich, ein durch Entfernen von Hall und Aufnahmeeigenschaften aus dem Stimmensignal erhaltenes verarbeitetes Signal auszugeben.
  • Es wird darauf hingewiesen, dass das Trainieren in der DNN-Trainingseinheit 33 Zeitachsendaten oder Frequenzachsendaten verwenden kann. In einem Fall, in dem die Frequenzachsendaten verwendet werden, kann das Trainieren unter Einbeziehung einer Phase ausgeführt werden, oder es kann nur ein Amplitudenwert trainiert werden. Das Trainieren des Amplitudenwerts kann einen linearen Amplitudenwert verwenden oder kann einen Wert verwenden, der durch Normalisieren eines dB-Wertes erhalten wird. Im letzteren Fall kann das Trainieren selbst in den Eigenschaften des Halls, in denen der Amplitudenwert im Laufe der Zeit exponentiell abnimmt, gut ausgeführt werden. Darüber hinaus kann eine Gewichtung mit einem linearen Amplitudenwert ausgeführt werden, so dass die Verarbeitung an einem Signal mit einem größeren Pegel, das leichter gehört werden kann, effizient ausgeführt wird. Daher kann die Verarbeitungsgenauigkeit ohne Verschlechterung der Tonqualität erhalten bleiben, und eine gute Bewertung kann nicht nur numerisch, sondern auch in der subjektiven Wahrnehmung erhalten werden.
  • [2-3. Beispiel für den Verarbeitungsablauf]
  • 10 ist Ablaufplan, der einen Ablauf der Trainingsverarbeitung durch die Datenverarbeitungsvorrichtung 3 darstellt. Wenn die Trainingsverarbeitung gestartet wird, erfasst die Datenverarbeitungsvorrichtung 3 notwendige Daten wie z. B. die Trockendaten und die Aufnahme-IR-Daten zum Trainieren (Schritt S1). Insbesondere werden diese Dateneinheiten durch Lesen aus der Speichereinheit oder dergleichen erfasst.
  • Dann erzeugt die Datenverarbeitungsvorrichtung 3 die Trainingsdaten durch die vorstehend beschriebene Trainingsdatenerzeugungseinheit 31 (Schritt S2). Darüber hinaus erzeugt die Datenverarbeitungsvorrichtung 3 die Lerndaten durch die Lerndatenerzeugungseinheit 32. Das heißt, die folgende Verarbeitung wird ausgeführt.
  • Die Datenverarbeitungsvorrichtung 3 extrahiert die Direktschallkomponente aus Aufnahme-IR-Daten des hallfreien Raums durch die Direktschallextraktionseinheit 321 (Schritt S3). Als Nächstes veranlasst die Datenverarbeitungsvorrichtung 3 die Verzögerungswertmesseinheit 322, den Verzögerungswert (D) zu messen (Schritt S4).
  • Darüber hinaus extrahiert die Datenverarbeitungsvorrichtung 3 die Direktschallkomponenten (insbesondere N Samples) aus der Einheit von Aufnahme-IR-Daten zum Trainieren durch die Direktschallfaltungseinheit 323 und erzeugt durch Falten der extrahierten Direktschallkomponenten mit den Trockendaten das Faltungssignal (Schritt S5). Als Nächstes berechnet die Datenverarbeitungsvorrichtung 3 das Verhältnis (A) der mittleren Pegel durch die Mittelpegelverhältnisberechnungseinheit 324 (Schritt S6). Dann erzeugt die Datenverarbeitungsvorrichtung 3 die Lerndaten durch Hinzufügen der Eigenschaften des Verzögerungswertes (D) und des Verhältnisses (A) der mittleren Pegel zu den Trockendaten durch die Eigenschaftshinzufügungseinheit 325 (Schritt S7).
  • Schließlich trainiert die Datenverarbeitungsvorrichtung 3 das Lernmodell durch das DNN unter Verwendung der Trainingsdaten und der Lerndaten als die Eingabedaten durch die DNN-Trainingseinheit 33, beendet die Verarbeitung und konstruiert das Lernmodell.
  • [2-4. Hardwarekonfigurationsbeispiel]
  • 11 stellt ein Hardwarekonfigurationsbeispiel der Datenverarbeitungsvorrichtung 3 (Computer) dar. Die Datenverarbeitungsvorrichtung 3 weist eine Steuereinheit 101, eine Speichereinheit 102, eine Eingabeeinheit 103, eine Kommunikationseinheit 104 und eine Ausgabeeinheit 105 auf, die durch einen Bus miteinander verbunden sind.
  • Die Steuereinheit 101 weist beispielsweise eine zentrale Verarbeitungseinheit (CPU), einen Direktzugriffsspeicher (RAM), einen Festwertspeicher (ROM) und dergleichen auf. Der ROM speichert Programme, die durch die CPU gelesen und ausgeführt werden, und dergleichen. Der RAM wird als ein Arbeitsspeicher der CPU verwendet. Die CPU steuert die gesamte Datenverarbeitungsvorrichtung 3 durch Ausführen verschiedener Arten der Verarbeitung gemäß den in dem ROM gespeicherten Programmen und Ausgeben von Befehlen. Die Steuereinheit 101 führt beispielsweise die Hallverarbeitung und die Trainingsverarbeitung, die vorstehend beschrieben sind, aus.
  • Die Speichereinheit 102 ist ein Speichermedium, das beispielsweise ein Festplattenlaufwerk (HDD), ein Festkörperlaufwerk (SSD), einen Halbleiterspeicher oder dergleichen aufweist und Daten von Programmen (beispielsweise Anwendungen) und dergleichen zusätzlich zu Inhaltsdaten wie z. B. Bilddaten, Videodaten, Tondaten, Textdaten speichert. Die Speichereinheit 102 speichert beispielsweise ein Programm zum Veranlassen der Datenverarbeitungsvorrichtung 3, die vorstehend beschriebenen verschiedenen Arten von Verarbeitung auszuführen, und Daten wie z. B. die Trockendaten, die Aufnahme-IR-Daten des hallfreien Raums und die Aufnahme-IR-Daten zum Trainieren.
  • Es wird darauf hingewiesen, dass diese Programme und Daten nicht in der Speichereinheit 102 gespeichert sein müssen. Beispielsweise können ein Programm oder Daten, die in einem durch die Datenverarbeitungsvorrichtung 3 lesbaren Speichermedium gespeichert sind, gelesen und verwendet werden. Beispiele für das Speichermedium weisen beispielsweise eine optische Platte, eine Magnetplatte, einen Halbleiterspeicher, ein HDD und dergleichen auf, die an der Datenverarbeitungsvorrichtung 3 angebracht und von ihr abgenommen werden können. Darüber hinaus können ein Programm oder Daten in einer mit einem Netz wie z. B. dem Internet verbundenen Vorrichtung gespeichert sein, und die Datenverarbeitungsvorrichtung 3 kann das Programm oder die Daten aus der Vorrichtung lesen und das Programm oder die Daten verwenden. Das Programm kann beispielsweise ein Plug-in-Programm sein, dass einen Teil der oder die gesamte vorstehend beschriebene Verarbeitung einem existierenden Programm hinzufügt.
  • Die Eingabeeinheit 103 ist eine Vorrichtung zum Eingeben verschiedener Arten von Informationen in die Datenverarbeitungsvorrichtung 3. Wenn Informationen durch die Eingabeeinheit 103 eingegeben werden, führt die Steuereinheit 101 verschiedene Arten von Verarbeitung entsprechend den eingegebenen Informationen aus. Zusätzlich zu einer Maus und einer Tastatur kann die Eingabeeinheit 103 eine berührungssensitive Tafel, ein integral mit einem Monitor gebildeter berührungssensitiver Bildschirm, eine physische Taste oder dergleichen sein. Die Eingabeeinheit 103 kann ein Sensor wie z. B. ein Mikrofon sein. Es wird darauf hingewiesen, dass verschiedene Arten von Informationen über die Kommunikationseinheit 104 in die Datenverarbeitungsvorrichtung 3 eingegeben werden können, wie später beschrieben ist.
  • Die Kommunikationseinheit 104 ist ein Kommunikationsmodul, das mit anderen Vorrichtungen und dem Internet gemäß einem vorgegebenen Kommunikationsstandard kommuniziert. Kommunikationsverfahren weisen ein drahtloses lokales Netz (LAN) wie z. B. „Wireless Fidelity“ (Wi-Fi), ein Mobilkommunikationssystem der vierten Generation (4G), Breitband, Bluetooth (eingetragenes Warenzeichen) und dergleichen auf.
  • Die Ausgabeeinheit 105 ist eine Vorrichtung zum Ausgeben verschiedener Arten von Informationen aus der Datenverarbeitungsvorrichtung 3. Die Ausgabeeinheit 105 ist eine Anzeigevorrichtung, die ein Bild oder ein Video anzeigt, ein Lautsprecher, der Ton ausgibt, oder dergleichen. Es wird darauf hingewiesen, dass verschiedene Arten von Informationen über die Kommunikationseinheit 104 aus der Datenverarbeitungsvorrichtung 3 ausgegeben werden können.
  • [2-5. Schlussfolgerung]
  • In der vorliegenden Ausführungsform werden die Trainingsdaten durch Falten des Messsignals (beispielsweise Impulsantwortsignals), das durch das Mikrofon des zum Sammeln des Stimmsignals (Beobachtungssignals) verwendeten Smartphones gesammelt wird, mit Trockendaten (Referenzsignal), die eine höhere Tonqualität als das Stimmsignal und keinen Hall aufweisen, erzeugt. Darüber hinaus werden die Lerndaten durch Anpassen des mittleren Pegels und des Verzögerungswertes des durch Falten der Direktschallkomponente des Messsignals mit den Trockendaten erzeugten Faltungssignals an die Trockendaten erzeugt. Dann wird das Lernmodell zum Ausführen der Enthallung des Stimmensignals unter Verwendung der erzeugten Trainingsdaten und Lerndaten als Eingabedaten trainiert.
  • Wie vorstehend beschrieben kann aufgrund der Verwendung der Lerndaten, in denen die Verzögerung und der Pegel der Trockendaten so angepasst sind, dass sie mit den Trainingsdaten übereinstimmen, obwohl die Aufnahme an einem Ort ausgeführt wird, an dem ein Hall vorhanden ist, wie z. B. zu Hause im Wohnzimmer, der Hall unter Berücksichtigung der Tonqualität entfernt werden. Eine Hallkomponente wird entfernt, und somit ist es möglich, dass ein Studiotechniker oder dergleichen einen für den Inhalt optimalen Hall frei hinzufügen kann.
  • Da das Aufnehmen des Messsignals unter Verwendung des Aufnahmesystems (insbesondere des Smartphones), das zum Aufnehmen des Stimmenschalls verwendet wird, ausgeführt wird, können die Eigenschaften des Aufnahmesystems aufgehoben werden. Daher kann eine Aufnahme mit hoher Tonqualität ausgeführt werden, ohne ein teures professionelles Mikrofon zu verwenden. Beispielsweise in einem Fall, in dem die Aufnahme mit dem Smartphone ausgeführt wird, kann die Aufnahme nur mit dem Smartphone ausgeführt werden, ohne ein teures professionelles Aufnahme-Equipment zu verwenden.
  • Darüber hinaus wird Trainieren basierend auf Einheiten von Trockendaten einer großen Vielzahl von verschiedenem Stimmenschall ausgeführt, und somit kann die Enthallungsverarbeitung unabhängig von den Sängern ausgeführt werden. Darüber hinaus werden Einheiten von Aufnahme-IR-Daten zum Trainieren an verschiedenen Orten, an denen Stimmenschall als zu sammeln geschätzt wird, gesammelt und Enthallungsverarbeitung kann unabhängig von den Orten ausgeführt werden. Dementsprechend kann eine Enthallung unter Berücksichtigung der Tonqualität unabhängig von der Aufnahmeumgebung ausgeführt werden.
  • <3. Modifikationsbeispiel>
  • Obwohl die Ausführungsform der vorliegenden Offenbarung vorstehend spezifisch beschrieben ist, ist die vorliegende Offenbarung nicht auf die vorstehend beschriebene Ausführungsform beschränkt, und es können verschiedene Modifikationen basierend auf der technischen Idee der vorliegenden Offenbarung vorgenommen werden. Beispielsweise können verschiedene, nachstehend zu beschreibende Modifikationen vorgenommen werden. Darüber hinaus können einer oder mehrere beliebig ausgewählter Aspekte auf geeignete Weise kombiniert werden. Ferner können Konfigurationen, Verfahren, Prozesse, Formen, Materialien, numerischen Werte und dergleichen der vorstehend beschriebenen Ausführungsform miteinander kombiniert und durch einander ersetzt werden, ohne von der Kernaussage der vorliegenden Offenbarung abzuweichen. Darüber hinaus ist es auch möglich, ein Element in zwei oder mehr Elemente aufzuteilen, und es ist auch möglich, zwei oder mehr Elemente in ein Element zu kombinieren. Außerdem ist es auch möglich, einen Teil davon wegzulassen.
  • In der vorstehend beschriebenen Ausführungsform ist ein Beispiel für das Entfernen des Halls des Stimmenschalls und der Aufnahmeeigenschaften in der Musikproduktion beschrieben worden, jedoch ist der Schall des Entfernungsziels (Beobachtungssignals) des Halls und der Aufnahmeeigenschaften nicht darauf beschränkt, und es kann ein beliebiger Schall verwendet werden, solange der Hall entfernt werden soll. Beispielsweise kann der Schall ein Schall für andere Musikproduktionen sein, wie z. B. der Schall jedes Musikinstruments von Orchestern. Darüber hinaus ist der Inhalt nicht auf Musikinhalt eingeschränkt und kann beispielsweise Inhalt wie z. B. ein Film, ein Fernsehprogramm, ein Spiel oder eine Ratgebersendung sein. In diesem Fall kann die vorliegende Offenbarung beispielsweise auf das Entfernen eines Halls des Schalls und von Aufnahmeeigenschaften wie z. B. Erzählung, Nachvertonung (Nachaufnahme), ein eingefügtges Lied und eine Ansage angewandt werden. Darüber hinaus kann die vorliegende Offenbarung auch auf einen Schall wie z. B. ein Sprachaufzeichnungsgerät, ein Online-Konferenzsystem, eine Übersetzungsmaschine und ein Kfz-Navigationssystem angewandt werden. In diesen Fällen ist es nur erforderlich, eine Schallquelle, die dem Schall als das Entfernungsziel des Halls entspricht, als die Trockendaten einzustellen.
  • Darüber hinaus ist in der vorliegenden Ausführungsform, obwohl die Trockendaten mit hoher Tonqualität und ohne Hall als das Referenzsignal verwendet sind, das Referenzsignal nicht darauf beschränkt und kann irgendein Schall sein, solange der Schall ein Ziel des Trainings ist. Beispielsweise in einem Fall, in dem das Referenzsignal durch Ausführen einer Aufnahme mit einem Schall, der eine höhere Tonqualität als das Stimmensignal (Beobachtungssignal) aufweist, erhalten wird, kann die Tonqualität des verarbeiteten Signals verbessert werden. Darüber hinaus kann beispielsweise eine Verarbeitung zum absichtlichen Hinzufügen von Hall zu dem Beobachtungssignal unter Verwendung des Referenzsignals, das einen Hall aufweist, ausgeführt werden. Das heißt, die vorliegende Offenbarung kann auf eine andere Hallverarbeitung als Enthallung angewandt werden.
  • Darüber hinaus ist in der vorstehend beschrieben Ausführungsform, obwohl angenommen ist, dass das Zuhause als der Ort der Schallsammlung des Stimmensignals ist, und angenommen ist, dass das Smartphone das Aufnahme-Equipment ist, die Aufnahmeumgebung (Ort, Equipment und dergleichen) nicht darauf beschränkt und kann eine beliebige Umgebung sein. Beispielsweise kann der Ort der Schallsammlung das Zuhause einer Familie, eines Verwandten oder eines Bekannten, ein individuelles Studio, ein Musikzimmer, das Innere eines Autos, ein Mietraum, eine Veranstaltungshalle, ein Karaoke-Raum oder dergleichen sein. In diesem Fall müssen die Aufnahme-IR-Daten zum Trainieren nur an einem Ort gesammelt werden, an dem die Schallsammlung angenommen wird. Darüber hinaus kann beispielsweise das Mikrofon zur Schallsammlung ein Mikrofon, das an einem Kopfhörer, einem Tablet, einem Notebook-Computer, einem intelligenten Haushaltsgerät, einer Videokamera oder dergleichen angebracht ist, ein Tischmikrofon, ein Handmikrofon oder dergleichen sein, unabhängig vom Typ. In diesem Fall kann das Benutzer-Equipment 2 diese Vorrichtungen aufweisen.
  • Darüber hinaus können in der vorstehend beschriebenen Ausführungsform, obwohl ein Typ eines Mikrofons (insbesondere das Mikrofon des Smartphones) als das zur Schallsammlung verwendete Mikrofon angenommen ist, mehrere Typen von Mikrofonen (beispielsweise Smartphones mehrerer Hersteller) zur Schallsammlung verwendet werden. In diesem Fall kann das Messsignal für jedes Mikrofon gesammelt werden. Daher kann die Enthallung in Übereinstimmung mit dem zu verwendenden Mikrofon auf geeignete Weise ausgeführt werden.
  • Darüber hinaus kann, obwohl beschrieben worden ist, dass die Datenverarbeitungsvorrichtung 3 in der vorstehend beschriebenen Ausführungsform die Funktion zum Entfernen von Hall und Eigenschaften des Aufnahmesystems (nachstehend als die Enthallungstechnologie bezeichnet) besitzt, diese Enthallungstechnologie beispielsweise auch für eine neue Musikproduktionstechnologie verwendet werden. Nachstehend werden Einzelheiten jeder Konfiguration beschrieben.
  • Ein Einnahmemodell ändert sich von Paketmedien hin zur Live-Musikproduktion, insbesondere in der Popmusik. Bei der Aufzeichnung einer Musik-Live-Show wird jede Schallquelle grundsätzlich als separate Spur aufgenommen. Beispielsweise wird eine akustische Schallquelle (beispielsweise Stimmen, Trommel und dergleichen) unter Verwendung eines Mikrofons aufgenommen, und ein elektronisches Musikinstrument (beispielsweise ein Keyboard oder dergleichen) zeichnet seine Ausgabe unverändert auf (direkt von dem Musikinstrument ohne Verwendung eines Mikrofons). Darüber hinaus werden im Allgemeinen mehrere Publikumsmikrofone separat verwendet, um den Hall eines Veranstaltungsortes, den Beifall des Publikums und dergleichen aufzunehmen.
  • Beispielsweise ist im Fall von Popmusik eine Schallquellenposition einer akustischen Schallquelle (insbesondere Stimmen) extrem nahe an einem Mikrofon, oder es wird hauptsächlich ein dynamisches Mikrofon verwendet, und eine extrem trockene Schallquelle, die nicht viel Hall enthält, wird häufig in vielen Fällen aufgenommen. Deshalb wurde im Stand der Technik, um die Schallquelle (beispielsweise das Mikrofonsignal) mit der Atmosphäre des Veranstaltungsortes abzugleichen, in vielen Fällen das vorstehend beschriebene Publikumsmikrofons gemischt, um die Hallkomponente zu erhalten. Wie vorstehend beschrieben, wird bei der Produktion einer Live-Schallquelle die Atmosphäre des Veranstaltungsortes im Allgemeinen hinzugefügt, indem mehrere Publikumsmikrofone verwendet werden, um den Hall des Veranstaltungsortes, den Beifall des Publikums und dergleichen aufzunehmen, und die Signale je nach Bedarf in jede Schallquelle gemischt werden.
  • Im Übrigen wird in den letzten Jahren, da Korrekturverarbeitung wie z. B. Tonhöhenkorrektur häufig an einer Schallquelle vor dem Mischen ausgeführt wird (insbesondere einer Stimmenschallquelle), wenn das Signal des Publikumsmikrofons mit einer Schallquelle nach der Verarbeitung gemischt wird, ein Problem wie z. B. Doppelschall verursacht. In diesem Fall kann das Signal des Publikumsmikrofons nicht verwendet werden, und der Techniker berücksichtigt einen Hall, der mit dem Schall des Veranstaltungsortes übereinstimmt, separat (erzeugt ihn beispielsweise künstlich) und erzeugt Schall unter Verwendung des Halls. Daher ist es schwierig, den Schall des Veranstaltungsortes genau zu reproduzieren, und es gab ein Problem mit der Arbeitseffizienz.
  • Die vorstehende beschriebene Enthallungstechnologie kann beispielsweise zum Hinzufügen von Hall in einem solchen Fall verwendet werden. Das heißt, aufgrund der Verwendung der vorstehend beschriebenen Enthallungstechnologie ist es möglich, einen tatsächlichen Schall des Veranstaltungsortes ohne Mischen des Signals des Publikumsmikrofons wie vorstehend beschrieben hinzuzufügen, indem Merkmale des Halls des Veranstaltungsortes in umgekehrter Richtung extrahiert und geschätzt werden und dieser Effekt der Schallquelle wie z. B. den Stimmen hinzugefügt werden.
  • Insbesondere wird zuerst die Enthallung des Signals des Publikumsmikrofons unter Verwendung der vorstehend beschriebenen Enthallungstechnologie ausgeführt, und die Hallkomponente wird aus dem Signal extrahiert. Als Nächstes werden die Halleigenschaften des Veranstaltungsortes in umgekehrter Richtung aus der extrahierten Hallkomponente erzeugt. Dann wird der Hall der Schallquelle (beispielsweise der korrigierten Schallquelle wie z. B. Stimmen und Gitarre) unter Verwendung des erzeugten Halleigenschaften als beispielsweise ein Koeffizient zum Hinzufügen des Halls hinzugefügt. Infolgedessen kann der tatsächliche Hall des Veranstaltungsortes der Schallquelle hinzugefügt werden. Nachstehend wird eine genaue Beschreibung unter Bezugnahme auf die Zeichnungen gegeben.
  • [Konfigurationsbeispiel zum Zeitpunkt der Aufnahme]
  • 12 stellt ein Konfigurationsbeispiel eines Datenverarbeitungssystems (Datenverarbeitungssystems 1A) gemäß einem Modifikationsbeispiel dar. Es wird darauf hingewiesen, dass 12 ein Konfigurationsbeispiel zum Zeitpunkt der Aufnahme darstellt. Das Datenverarbeitungssystem 1A ist beispielsweise ein System zur Musikproduktion. Das Datenverarbeitungssystem 1A weist eine Datenverarbeitungsvorrichtung 3A, mehrere (erste bis N-te) Mikrofone 5 und mehrere (erste bis M-te) Schallquellenausgabeeinheiten 6 auf. Es wird darauf hingewiesen, dass im Fall einer allgemeinen Live-Aufnahme, wie in der Zeichnung dargestellt, die mehreren Mikrofone 5 und die mehreren Schallquellenausgabeeinheiten 6 verwendet werden, diese Mikrofone und Schallquellenausgabeeinheiten jedoch nur einmal vorhanden sein können.
  • Die Datenverarbeitungsvorrichtung 3A nimmt verschiedene Schallquellen, Schall und dergleichen auf und bearbeitet sie. Die Datenverarbeitungsvorrichtung 3A besitzt beispielsweise eine Hardwarekonfiguration ähnlich der Datenverarbeitungsvorrichtung 3 der vorstehend beschriebenen Ausführungsform (siehe 11). Beispielsweise realisiert die Datenverarbeitungsvorrichtung 3A die Musikproduktion durch eine digitale Audio-Workstation (DAW). Die Datenverarbeitungsvorrichtung 3A ist mit den jeweiligen Mikrofonen 5 und den jeweiligen Schallquellenausgabeeinheiten 6 beispielsweise über eine Audioschnittstelle (nicht dargestellt) wie z. B. einen Mischer verbunden.
  • Die Mikrofone 5 sammeln Schall des Veranstaltungsortes (Schall an einem Ort, an dem hinzuzufügender Hall auftritt) wie z. B. Schall des Veranstaltungsortes wie z. B. Stimmen des Publikums, und geben den Schall als das Mikrofonsignal aus. Das Mikrofon 5 ist beispielsweise ein gerichtetes Publikumsmikrofon und ist so installiert, dass es Schall an verschiedenen Orten des Veranstaltungsortes sammelt. Als das Mikrofon 5 sind beispielsweise ein Paar von Mikrofonen 5 für einen L-Kanal und einen R-Kanal an mehreren Orten mit unterschiedlichen Zielen von Schallsammelorten installiert, um Schall an einem Gästesitz nahe einer Bühne, einem Gästesitz entfernt von der Bühne, einer Oberseite des Gästesitzes und dergleichen zu sammeln. Ausgangssignale (Ausgaben des ersten bis N-ten Mikrofons) der jeweiligen Mikrofone 5 werden in die Datenverarbeitungsvorrichtung 3A eingegeben.
  • Die Schallquellenausgabeeinheit 6 gibt ein Schallquellensignal (Schallquellendaten) aus. Die Schallquellenausgabeeinheit 6 weist beispielsweise ein Mikrofon, das Schall einer Schallquelle wie z. B. einer Stimme, einer Trommel oder eines Klavier sammelt und den Schall als das Mikrofonsignal ausgibt, ein Musikinstrument (beispielsweise ein Keyboard), das das Schallquellensignal direkt ausgeben kann (Leitungsausgabe), oder dergleichen auf. Die Ausgangssignale (Ausgaben der ersten bis M-ten Schallquelle) der jeweiligen Schallquellenausgabeeinheiten 6 werden in die Datenverarbeitungsvorrichtung 3A eingegeben.
  • Die Datenverarbeitungsvorrichtung 3A weist eine Aufzeichnungseinheit 7 und einen Speicher 8 auf. Die Aufzeichnungseinheit 7 zeichnet jedes von jedem Mikrofon 5 und jeder Schallquellenausgabeeinheit 6 eingegebenes Signal in dem Speicher 8 auf. Beispielsweise weist die Aufzeichnungseinheit 7 einen Analog/Digital-Umsetzer (ADC) und dergleichen auf, setzt jedes von jedem Mikrofon 5 und jeder Schallquellenausgabeeinheit 6 eingegebene Signal in Aufzeichnungsdaten um und speichert die Aufzeichnungsdaten in dem Speicher 8.
  • Der Speicher 8 weist beispielsweise eine Speichervorrichtung wie z. B. eine HDD oder eine SSD auf und speichert die durch die Aufnahmeeinheit 7 umgesetzten Aufnahmedaten. Es wird darauf hingewiesen, dass es ausreichend ist, falls der Speicher 8 Aufnahmedaten aufzeichnen kann und beispielsweise eine optische Platte wie z. B. eine „Digital Versatile Disc“ (DVD), ein anschließbares und lösbares Aufzeichnungsmedium wie z. B. ein tragbarer Halbleiterspeicher oder dergleichen sein kann.
  • [Konfigurationsbeispiel zum Zeitpunkt der Bearbeitung]
  • 13 stellt ein Konfigurationsbeispiel zum Zeitpunkt der Bearbeitung dar. Es wird darauf hingewiesen, dass in dem vorliegenden Modifikationsbeispiel zum Zeitpunkt der Aufnahme und zum Zeitpunkt der Bearbeitung die gleiche Datenverarbeitungsvorrichtung 3A verwendet wird, jedoch unterschiedliche Datenverarbeitungsvorrichtungen verwendet werden können. In einem Fall, in dem zum Zeitpunkt der Aufnahme und zum Zeitpunkt der Bearbeitung unterschiedliche Vorrichtungen verwendet werden, ist es beispielsweise ausreichend, falls die in einer Vorrichtung auf der Aufnahmeseite aufgezeichneten Aufnahmedaten durch Datenkommunikation, dem Anbringen und Entfernen des Aufzeichnungsmediums oder dergleichen in einer Vorrichtung auf der Bearbeitungsseite verwendet werden können.
  • Die Datenverarbeitungsvorrichtung 3A besitzt eine Funktion zum Hinzufügen von Hall (einschließlich des Schalls des Veranstaltungsortes wie z. B. Stimmen des Publikums, Applaus und dergleichen) zur Aufnahmeschallquelle. Die Datenverarbeitungsvorrichtung 3A weist eine Enthallungseinheit 9, eine Hallkomponentenmerkmalsextraktionseinheit 10, eine Benutzerschnittstelleneinheit 11, eine Hallkoeffizientenableitungseinheit 12 und eine Hallhinzufügungseinheit 13 auf.
  • Die Enthallungseinheit 9 führt eine Enthallung durch die vorstehend beschriebene Enthallungstechnologie aus. Die Datenverarbeitungsvorrichtung 3A besitzt beispielsweise das trainierte Lernmodell (siehe 2, 3 und dergleichen), das in der Ausführungsform beschrieben ist, und die Enthallungseinheit 9 kann das Lernmodell verwenden.
  • Insbesondere wird dieses Lernmodell im Voraus durch Ausführen von Maschinenlernen unter Verwendung erster Daten (Trainingsdaten), die durch Falten erster Akustikdaten (Messsignal), die durch ein vorgegebenes Mikrofon 5 gesammelt wurden (siehe 12), mit den Trockendaten (Referenzsignal), die keinen Hall enthalten, erzeugt werden, und zweiter Daten (Lerndaten), die durch Anpassen des mittleren Pegels und des Verzögerungswertes des Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten (Messsignal) mit den Trockendaten (Referenzsignal) erzeugt wird, an die Trockendaten erzeugt werden, erhalten.
  • Aufgrund der Verwendung dieses Lernmodells gibt die Enthallungseinheit 9 die zweiten Akustikdaten (Beobachtungssignal), die durch das vorstehend beschriebene vorgegebene Mikrofon 5 gesammelt werden, ein und gibt dritte Akustikdaten, die durch Entfernen der Hallkomponente aus den zweiten Akustikdaten (Beobachtungssignal) erhalten werden, aus. Um es auf eine leicht verständliche Art zu beschreiben, nimmt die Enthallungseinheit 9 das Mikrofonsignal des vorgegebenen Mikrofons 5, das vorstehend beschrieben ist, die in dem Speicher 8 aufgezeichnet sind, auf, führt die Enthallung des eingegebenen Mikrofonsignals (beispielsweise des Eingangssignals mit den in 14 dargestellten Eigenschaften) unter Verwendung des vorstehend beschriebenen Lernmodells aus und gibt das durch Entfernen des Halls erhaltene Signal (beispielsweise das Enthallungssignal mit den in 15 dargestellten Eigenschaften) aus. Die durch die Enthallungseinheit 9 ausgegebenen dritten Akustikdaten (Enthallungssignal) werden in die Hallkomponentenmerkmalsextraktionseinheit 10 eingegeben.
  • Die Hallkomponentenmerkmalsextraktionseinheit 10 extrahiert Merkmalsdaten, die die Hallkomponente der zweiten Akustikdaten repräsentieren, unter Verwendung der zweiten Akustikdaten und der dritten Akustikdaten. Dieses Merkmal ist beispielsweise ein Merkmal der Impulsantwort. Die Hallkomponentenmerkmalsextraktionseinheit 10 gibt das im Speicher 8 gespeicherte vorstehend beschriebene Mikrofonsignal des vorgegebenen Mikrofons 5 (das ursprüngliche Signal vor der Enthallung durch die Enthallungseinheit 9) ein, extrahiert eine Differenz zwischen dem Mikrofonsignal und dem von der Enthallungseinheit 9 eingegebenen Enthallungssignal, um das Merkmal der Enthallungskomponente (beispielsweise der Enthallungskomponente mit den in 16 dargestellten Eigenschaften) zu berechnen, und erzeugt Merkmalsdaten, die das berechnete Merkmal angeben. Die durch die Hallkomponentenmerkmalsextraktionseinheit 10 extrahierten (erzeugten) Merkmalsdaten werden in die Hallkoeffizientenableitungseinheit 12 eingegeben.
  • Die Benutzerschnittstelleneinheit 11 erzeugt Steuerdaten, die einer Benutzeroperation entsprechen. Die Benutzerschnittstelleneinheit 11 weist beispielsweise eine Eingabevorrichtung wie z. B. eine Tastatur, eine Maus, einen physische Taste auf, und ein Techniker hört tatsächlich zu und verwendet den Schall. Die Benutzerschnittstelleneinheit 11 wird verwendet, um dem Benutzer zu ermöglichen, die Einstellungen zum Hinzufügen des Halls in der Hallhinzufügungseinheit 13 zu steuern. Beispielsweise gibt es als die Einstellung zum Hinzufügen von Hall Nass- und Trockenpegelanpassung und dergleichen. Insbesondere erzeugt die Benutzerschnittstelleneinheit 11 Steuerdaten (Steuerdaten für zusätzliche Einstellungen) zum Steuern der Einstellungen einer Hallzeit (beispielsweise 1 Sekunde oder dergleichen), einer Hallgröße (beispielsweise -40 dB oder dergleichen) und dergleichen. Die durch die Benutzerschnittstelleneinheit 11 erzeugten Steuerdaten werden in die Hallhinzufügungseinheit 13 eingegeben.
  • Die Hallkoeffizientenableitungseinheit 12 (Eigenschaftsbestimmungseinheit) bestimmt die Eigenschaften des zu den Schallquellendaten durch die Hallhinzufügungseinheit 13 hinzuzufügenden Halls. Es wird darauf hingewiesen, dass in dem vorliegenden Konfigurationsbeispiel die Eigenschaften als die Eigenschaften der durch die Hallkomponentenmerkmalsextraktionseinheit 10 extrahierten Hallkomponente bestimmt werden. Insbesondere setzt die Hallkoeffizientenableitungseinheit 12 die von der Hallkomponentenmerkmalsextraktionseinheit 10 eingegebenen Merkmalsdaten in Koeffizientendaten um, die in der nachfolgenden Stufe in der Hallhinzufügungseinheit 13 verfügbar sind. Die durch die Hallkoeffizientenableitungseinheit 12 umgesetzten Koeffizientendaten werden in die Hallhinzufügungseinheit 13 eingegeben.
  • Die Hallhinzufügungseinheit 13 fügt den Hall den Schallquellendaten hinzu und gibt die Schallquellendaten aus. Die Hallhinzufügungseinheit 13 gibt die Schallquellendaten (beispielsweise die Schallquellendaten nach der Korrekturverarbeitung wie z. B. der vorstehend beschriebenen Tonhöhenkorrektur) aus dem Speicher 8 ein, fügt basierend auf den durch die Hallkomponentenmerkmalsextraktionseinheit 10 extrahierten (erzeugten) Merkmalsdaten den eingegebenen Schallquellendaten einen Hall hinzu und gibt die Schallquellendaten aus. Insbesondere synthetisiert die Hallhinzufügungseinheit 13 die Hallkomponente, die die Eigenschaften der vorstehend beschriebenen Merkmalsdaten aufweist, mit den eingegebenen Schallquellendaten unter Verwendung der von der Hallkoeffizientenableitungseinheit 12 eingegebenen Koeffizientendaten. Zu diesem Zeitpunkt ändert die Hallhinzufügungseinheit 13 die Einstellung zum Hinzufügen des Halls in Übereinstimmung mit den von der Benutzerschnittstelleneinheit 11 eingegebenen Steuerdaten.
  • Es wird darauf hingewiesen, dass die Schallquellendaten, denen der Hall hinzugefügt worden ist, nicht auf die zum vorstehend beschriebenen Zeitpunkt der Aufnahme aufgenommenen Schallquellendaten beschränkt sind, und es können getrennt vorbereitete Schallquellendaten verwendet werden. Da die Schallproduktion so ausgeführt wird, dass sich ein Hörverfahren nicht in Abhängigkeit vom Ort unterscheidet, wird davon ausgegangen, dass die Schallquelle, die am Live-Veranstaltungsort zu hören ist, zur Musikproduktion nicht optimal ist. In einem solchen Fall wird die Musikproduktion durch individuelles Vorbereiten von Schallquellen ausgeführt, jedoch auch mit diesem Fall kann man umgehen. Die Schallquellendaten mit dem Hall, die von der Hallhinzufügungseinheit 13 ausgegeben werden, werden beispielsweise im Speicher 8 gespeichert und werden zur Musikproduktion und dergleichen verwendet.
  • Wie vorstehend beschrieben gibt in dem vorliegenden Modifikationsbeispiel zuerst die Enthallungseinheit 9 die zweiten Akustikdaten, die durch das vorstehend beschriebene vorgegebene Mikrofon 5 gesammelt wurden, ein und gibt die dritten Akustikdaten, die durch Entfernen einer Hallkomponente aus den zweiten Akustikdaten unter Verwendung eines Lernmodells erhalten werden, das durch Ausführen von Maschinenlernen unter Verwendung der ersten Daten, die durch Falten der ersten Akustikdaten, die durch das vorgegebene Mikrofon 5 gesammelt wurden, mit den Trockendaten, die keinen Hall enthalten, erzeugt werden, und den zweiten Daten, die durch Anpassen des mittleren Pegels und des Verzögerungswertes des Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten mit den Trockendaten erzeugt wird, an die Trockendaten erzeugt werden, erhalten wird, aus.
  • Als Nächstes extrahiert die Hallkomponentenmerkmalsextraktionseinheit 10 die Merkmalsdaten, die die Hallkomponente der zweiten Akustikdaten repräsentieren, unter Verwendung der zweiten Akustikdaten und der dritten Akustikdaten. Danach gibt die Hallhinzufügungseinheit 13 die Schallquellendaten ein, fügt den Hall der Eigenschaften (insbesondere den durch die Merkmalsdaten repräsentierten Eigenschaften) basierend auf den Merkmalsdaten den eingegebenen Schallquellendaten hinzu und gibt die Schallquellendaten aus.
  • Daher kann der tatsächliche Schall des Veranstaltungsortes hinzugefügt werden, ohne das Signal des Publikumsmikrofons zu der Aufnahmeschallquelle zu mischen, wie vorstehend beschrieben. Daher tritt ein Problem, dass Schall doppelt gehört wird, wie vorstehend beschrieben, nicht auf, obwohl der Hall hinzugefügt wird. Dementsprechend ist es nicht notwendig, einen ähnlichen Hall zu berücksichtigen und hinzuzufügen, und die Arbeitsstunden des Technikers können erheblich reduziert werden. Darüber hinaus verwendet die Enthallungseinheit 9 die Enthallungstechnologie der vorstehend beschriebenen Ausführungsform. Dementsprechend ist die Tonqualität verbessert, und es kann eine genaue Enthallung ausgeführt werden. Infolgedessen kann eine genauere Verarbeitung ausgeführt werden.
  • [Weiteres Konfigurationsbeispiel zum Zeitpunkt der Bearbeitung]
  • 17 stellt ein weiteres Konfigurationsbeispiel zum Zeitpunkt der Bearbeitung dar. Es wird darauf hingewiesen, dass in der Beschreibung des vorliegenden Konfigurationsbeispiels die gleichen Bezugszeichen für gleiche oder ähnliche Konfigurationen wie die Konfigurationsbeispiel in der vorstehenden Beschreibung vergeben sind und redundante Beschreibungen gegebenenfalls weggelassen werden.
  • Die Datenverarbeitungsvorrichtung 3A in dem vorliegenden Konfigurationsbeispiel weist einen Speicher 8, mehrere (erste bis N-te) Enthallungseinheiten 9, mehrere (erste bis N-te) Hallkomponentenmerkmalsextraktionseinheiten 10, eine Benutzerschnittstelleneinheit 11, eine Hallkoeffizientenableitungseinheit 12A, mehrere (erste bis M-te) Hallhinzufügungseinheiten 13, eine Mischereinheit 14 und eine Gesamthallhinzufügungseinheit 15 auf. Es wird darauf hingewiesen, dass die Anzahl jeder aus den Enthallungseinheiten 9, den Hallkomponentenmerkmalsextraktionseinheiten 10 und den Hallhinzufügungseinheiten 13 gegebenenfalls geändert werden kann.
  • Die jeweiligen Enthallungseinheiten 9 geben die Einheiten zweiter Akustikdaten (erste bis N-te Mikrofonsignale in der Zeichnung), die jeweils durch die jeweiligen Mikrofone 5 (siehe 12) gesammelt werden, ein und geben die Einheiten dritter Akustikdaten, die jeweils durch Entfernen der Hallkomponenten aus den Einheiten zweiter Akustikdaten erhalten werden, aus. Beispielsweise gibt die erste Enthallungseinheit 9 das erste Mikrofonsignal, das durch das erste Mikrofon 5 gesammelt und aufgenommen wurde, aus dem Speicher 8 ein und gibt das Enthallungssignal, das durch Entfernen des Halls aus dem eingegebenen ersten Mikrofonsignal erhalten wird, aus. Es wird darauf hingewiesen, dass die erste Enthallungseinheit 9 das durch Ausführen von Maschinenlernen unter Verwendung der ersten, durch das erste Mikrofon 5 gesammelten Akustikdaten (Messsignal) erhaltene Lernmodell verwendet. Das Gleiche gilt für die zweite bis N-te Enthallungseinheit 9.
  • Die durch die jeweiligen Enthallungseinheiten 9 ausgegebenen Einheiten dritter Akustikdaten werden jeweils in die entsprechenden Hallkomponentenmerkmalsextraktionseinheiten 10 eingegeben. Beispielsweise werden die von der ersten Enthallungseinheit 9 ausgegebenen dritten Akustikdaten in die erste Hallkomponentenmerkmalsextraktionseinheit 10 eingegeben.
  • Die jeweiligen Hallkomponentenmerkmalsextraktionseinheiten 10 extrahieren die Einheiten von Merkmalsdaten, die die Hallkomponenten der Einheiten zweiter Akustikdaten repräsentieren, unter Verwendung der Einheiten zweiter Akustikdaten bzw. der Einheiten dritter Akustikdaten. Beispielsweise gibt die erste Hallkomponentenmerkmalsextraktionseinheit 10 das erste Mikrofonsignal aus dem Speicher 8 ein und extrahiert die Merkmalsdaten, die die Hallkomponente des ersten Mikrofonsignals repräsentieren, unter Verwendung des eingegebenen ersten Mikrofonsignals und des von der ersten Enthallungseinheit 9 ausgegebenen Enthallungssignals. Die durch jede Hallkomponentenmerkmalsextraktionseinheit 10 extrahierten Merkmalsdaten werden in die Hallkoeffizientenableitungseinheit 12A eingegeben.
  • Wie vorstehend beschrieben erzeugt die Benutzerschnittstelleneinheit 11 die der Benutzeroperation entsprechenden Steuerdaten und wird verwendet, um dem Benutzer zu ermöglichen, jede Einstellung zum Hinzufügen des Halls in jeder der mehreren Hallhinzufügungseinheiten 13 und der Gesamthallhinzufügungseinheit 15 zu steuern. Insbesondere erzeugt die Benutzerschnittstelleneinheit 11 Steuerdaten (Steuerdaten für zusätzliche Einstellungen) zum Steuern jeder Einstellung zum Hinzufügen des Halls. Diese Steuerdaten werden in die mehreren entsprechenden Hallhinzufügungseinheiten 13 und die Gesamthallhinzufügungseinheit 15 eingegeben.
  • Darüber hinaus wird die Benutzerschnittstelleneinheit 11 in dem vorliegenden Konfigurationsbeispiel verwendet, um den Benutzer zu ermöglichen, die Auswahl von Eigenschaften in der Hallkoeffizientenableitungseinheit 12A zu steuern, wie später beschrieben ist. Insbesondere erzeugt die Benutzerschnittstelleneinheit 11 Steuerdaten (Steuerdaten zur Auswahl von Eigenschaften) zum Steuern der Auswahl der Eigenschaften. Die Steuerdaten werden in die Hallkoeffizientenableitungseinheit 12A eingegeben.
  • Die Hallkoeffizientenableitungseinheit 12A (Eigenschaftsbestimmungseinheit) bestimmt die Eigenschaften des Halls, der den Schallquellendaten in jeder der mehreren Hallhinzufügungseinheiten 13 und der Gesamthallhinzufügungseinheit 15 hinzuzufügen ist. Beispielsweise bestimmt die Hallkoeffizientenableitungseinheit 12A selektiv jede der Eigenschaften unter Verwendung der Merkmalsdaten, die durch jede der mehreren Hallkomponentenmerkmalsextraktionseinheiten 10 extrahiert werden. Insbesondere wählt die Hallkoeffizientenableitungseinheit 12A die Eigenschaften des zu den Schallquellendaten hinzuzufügenden Hall in Übereinstimmung mit den Steuerdaten (Steuerdaten zur Auswahl von Eigenschaften), die von der Benutzerschnittstelleneinheit 11 eingegeben werden, aus.
  • Beispielsweise bestimmt die Hallkoeffizientenableitungseinheit 12A die Eigenschaften der unter den Einheiten der Merkmalsdaten, die jeweils durch die mehreren Hallkomponentenmerkmalsextraktionseinheiten 10 extrahiert sind, ausgewählt sind, als die Eigenschaften des den Schallquellendaten hinzuzufügenden Halls. Das heißt, die Hallkoeffizientenableitungseinheit 12A wählt die den Schallquellendaten durch jede der mehreren Hallhinzufügungseinheiten 13 und die Gesamthallhinzufügungseinheit 15 hinzuzufügenden Eigenschaften unter den Einheiten von Merkmalsdaten, die jeweils durch die mehreren Hallkomponentenmerkmalsextraktionseinheiten 10 extrahiert sind, aus. Dann gibt die Hallkoeffizientenableitungseinheit 12A die Koeffizientendaten der ausgewählten Merkmalsdaten an die mehreren entsprechenden Hallhinzufügungseinheiten 13 und die Gesamthallhinzufügungseinheit 15 aus. Aus diesem Grund ist es beispielsweise ausreichend, falls jede Einheit von Merkmalsdaten als jede Koeffizientendaten erweitert wird, wie vorstehend beschrieben, und in jeder der mehreren Hallhinzufügungseinheiten 13 und der Gesamthallhinzufügungseinheit 15 in der nachfolgenden Stufe verwendet wird.
  • Es wird darauf hingewiesen, dass die Hallkoeffizientenableitungseinheit 12A beispielsweise mittlere Eigenschaften der Merkmale, die durch die durch die mehreren Hallkomponentenmerkmalsextraktionseinheiten 10 jeweils ausgewählten Einheiten von Merkmalsdaten repräsentiert werden, als die Eigenschaften des den Schallquellendaten hinzuzufügenden Halls bestimmen kann und die Koeffizientendaten, denen der Hall der bestimmten Eigenschaften hinzugefügt ist, an die mehreren entsprechenden Hallhinzufügungseinheiten 13 und die Gesamthallhinzufügungseinheit 15 ausgeben kann. Als die mittlere Eigenschaft kann ein mittleres Merkmal der Merkmale, die durch die jeweiligen Einheiten von Merkmalsdaten repräsentiert sind, als ein repräsentativer Wert verwendet werden, oder es wird nicht nur ein repräsentativer Wert verwendet, sondern auch die Merkmale durch Ausführen einer Verarbeitung wie z. B. teilweises Mitteln in mehreren Mustern, wie z. B. schwach, mittel und stark, verwendet werden können. Das heißt, die Eigenschaften des hinzuzufügenden Halls können aus mehreren Kandidaten unter Verwendung des partiellen Mittelwerts der Merkmale ausgewählt werden. Diese Auswahl kann beispielsweise in Übereinstimmung mit den Steuerdaten (Steuerdaten für Auswahl von Eigenschaften), die vorstehend beschrieben sind, ausgeführt werden.
  • Alle durch die Hallkoeffizientenableitungseinheit 12A erzeugten und ausgegeben Koeffizientendaten werden in die mehreren entsprechenden Hallhinzufügungseinheiten 13 und die Gesamthallhinzufügungseinheit 15 eingegeben. Jede Hallhinzufügungseinheit (Hallhinzufügungseinheit für jede Schallquelle) 13 gibt alle Schallquellendaten (beispielsweise Schallquellendaten nach der vorstehend beschriebenen Korrekturverarbeitung) aus dem Speicher 8 ein, fügt den Hall allen eingegebenen Schallquellendaten hinzu und gibt die Schallquellendaten mit Hall aus. Die Schallquellendaten mit Hall, die durch jede Hallhinzufügungseinheit 13 ausgegeben werden, werden in die Mischereinheit 14 eingegeben. Die Mischereinheit 14 gibt die Schallquellendaten mit Hall, die aus jeder der mehreren Hallhinzufügungseinheiten 13 ausgegeben werden, ein und synthetisiert sie. Die gemischten Schallquellendaten, die durch die Mischereinheit 14 synthetisiert sind, werden an die Gesamthallhinzufügungseinheit 15 ausgegeben.
  • Die Gesamthallhinzufügungseinheit 15 fügt den Hall den gemischten Schallquellendaten hinzu und gibt die gemischten Schallquellendaten aus. Die Gesamthallhinzufügungseinheit 15 gibt die gemischten Schallquellendaten nach der Synthese durch die Mischereinheit 14 ein, fügt den Hall basierend auf den durch jede der mehreren Hallkomponentenmerkmalsextraktionseinheiten 10 extrahierten (erzeugten) Merkmalsdaten zu den eingegebenen gemischten Schallquellendaten hinzu und gibt die Schallquellendaten aus. Insbesondere synthetisiert die Gesamthallhinzufügungseinheit 15 auf ähnliche Weise wie die Hallhinzufügungseinheit 13 die Hallkomponente mit den gemischten Schallquellendaten unter Verwendung der von der Hallkoeffizientenableitungseinheit 12A eingegebenen Koeffizientendaten. Die gemischten Schallquellendaten mit dem Hall, die von der Gesamthallhinzufügungseinheit 15 ausgegeben werden, werden beispielsweise im Speicher 8 gespeichert.
  • Das vorliegende Konfigurationsbeispiel besitzt die folgenden Effekte zusätzlich zu den in 13 dargestellten Effekten. Die mehreren Einheiten von Merkmalsdaten können durch die jeweiligen Arten der Verarbeitung unter Verwendung der zweiten Akustiksignale, die jeweils durch die mehreren Mikrofone 5 gesammelt werden, verwendet werden. Die Eigenschaften des aufgenommenen Halls ändern sich abhängig von einem Typ, einem Ort der Anbringung, einer Richtung und dergleichen des Mikrofons 5. Daher werden die mehreren Einheiten von Merkmalsdaten, die Hallkomponenten mit leicht unterschiedlichen Eigenschaften repräsentieren, in die Hallkoeffizientenableitungseinheit 12A eingegeben. Daher wird die Anzahl von Optionen für Halleigenschaften, die den Schallquellendaten hinzuzufügen sind, erhöht, und somit kann der Techniker die Tonqualität unter diesen Optionen auswählen. Das heißt, verschiedene Geräusche (reale Geräusche) im Veranstaltungsort können verwendet werden, und der Bereich der Ausdrucksmöglichkeiten des Technikers kann erweitert sein.
  • Darüber hinaus kann der Hall für jede Schallquelle durch das Integrieren der mehreren Hallhinzufügungseinheiten 13 hinzugefügt werden, und der Hall kann auch den gemischten Schallquellendaten, die durch Mischen der jeweiligen Einheiten von Hallschallquellendaten hinzugefügt werden, indem die Mischereinheit 14 und die Gesamthallhinzufügungseinheit 15 integriert werden. Dementsprechend ist es möglich, eine feine Hallhinzufügung gemäß einer tatsächlichen Situation zu realisieren, wie beispielsweise in einem Fall, in dem ein starker und kurzer Hall für die individuelle Schallquelle vergeben wird und ein schwacher und langer Hall für die gemischte Schallquelle vergeben wird.
  • Es wird darauf hingewiesen, dass die vorliegende Offenbarung auch die folgende Konfiguration besitzen kann.
    1. (1) eine Datenverarbeitungsvorrichtung, die Folgendes aufweist: eine Trainingsverarbeitungseinheit, die Trainingsdaten erzeugt, indem sie ein Messsignal, das akustische Eigenschaften repräsentiert, die durch dieselbe Schallsammeleinheit gesammelt werden wie eine Schallsammeleinheit, die zum Sammeln eines Beobachtungssignals verwendet wird, mit einem Referenzsignal faltet, das Tonqualität und Halleigenschaften aufweist, die sich von dem Beobachtungssignal unterscheiden, Lerndaten erzeugt, indem ein mittlerer Pegel und ein Verzögerungswert eines Faltungssignals, das durch Faltung einer Direktschallkomponente des Messsignals mit dem Referenzsignal erzeugt wird, an das Referenzsignal angepasst werden, und ein Lernmodell zum Ausführen einer Hallverarbeitung des durch die Schallsammeleinheit gesammelten Beobachtungssignals unter Verwendung der Trainingsdaten und der Lerndaten als Eingangsdaten trainiert.
    2. (2) Datenverarbeitungsvorrichtung nach (1), wobei die Direktschallkomponente aus dem in einem hallfreien Raum gesammelten Messsignal geschätzt wird.
    3. (3) Datenverarbeitungsvorrichtung nach (2), wobei der Verzögerungswert ein Verzögerungswert eines Faltungssignals, das durch Extrahieren der geschätzten Direktschallkomponente und Falten der Direktschallkomponente mit dem Referenzsignal erhalten wird, ist.
    4. (4) Datenverarbeitungsvorrichtung nach einem aus (1) bis (3), wobei die Hallverarbeitung eine Verarbeitung von Enthallung unter Verwendung eines Signals mit Eigenschaften ohne Hall als Referenzsignal ist.
    5. (5) Datenverarbeitungsvorrichtung nach einem aus (1) bis (4), wobei das Referenzsignal als ein Schall mit einer höheren Tonqualität als das Beobachtungssignal aufgenommen wird.
    6. (6) Datenverarbeitungsvorrichtung nach einem aus (1) bis (5), wobei das Beobachtungssignal und das Referenzsignal Signale eines Stimmenschalls sind.
    7. (7) Datenverarbeitungsvorrichtung nach einem aus (1) bis (6), wobei das Beobachtungssignal und das Referenzsignal durch ein Mikrofon einer Endgerätevorrichtung aufgenommen werden.
    8. (8) Datenverarbeitungsverfahren, das aufweist: Ausführen einer Trainingsverarbeitung zum Erzeugen von Trainingsdaten durch Falten eines Messsignals, das akustische Eigenschaften repräsentiert und durch dieselbe Schallsammeleinheit gesammelt wird wie eine Schallsammeleinheit, die zum Sammeln eines Bobachtungssignals verwendet wird, mit einem Referenzsignal, das Tonqualität und Halleigenschaften aufweist, die sich von dem Beobachtungssignal unterscheiden, Erzeugen von Lerndaten durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente des Messsignals mit dem Referenzsignal erzeugt wird, an das Referenzsignal, und Trainieren eines Lernmodells zum Ausführen einer Hallverarbeitung des durch die Schallsammeleinheit gesammelten Beobachtungssignals unter Verwendung der Trainingsdaten und der Lerndaten als Eingangsdaten.
    9. (9) Programm zum Veranlassen eines Computers, eine Trainingsverarbeitung auszuführen zum: Erzeugen von Trainingsdaten durch Falten eines Messsignals, das akustische Eigenschaften repräsentiert und durch dieselbe Schallsammeleinheit gesammelt wird wie eine Schallsammeleinheit, die zum Sammeln eines Bobachtungssignals verwendet wird, mit einem Referenzsignal, das Tonqualität und Halleigenschaften aufweist, die sich von dem Beobachtungssignal unterscheiden, Erzeugen von Lerndaten durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente des Messsignals mit dem Referenzsignal erzeugt wird, an das Referenzsignal, und Trainieren eines Lernmodells zum Ausführen einer Hallverarbeitung des durch die Schallsammeleinheit gesammelten Beobachtungssignals unter Verwendung der Trainingsdaten und der Lerndaten als Eingangsdaten.
    10. (10) Datenverarbeitungsvorrichtung, die Folgendes aufweist:
      • eine Enthallungseinheit, die zweite Akustikdaten, die durch ein Mikrofon gesammelt werden, eingibt und dritte Akustikdaten ausgibt, die durch Entfernen einer Hallkomponente aus den zweiten Akustikdaten unter Verwendung eines Lernmodells erhalten werden, das durch Ausführen von Maschinenlernen unter Verwendung erster Daten, die durch Falten erster Akustikdaten, die durch das Mikrofon gesammelt wurden, mit Trockendaten, die keinen Hall enthalten, erzeugt werden, und zweiter Daten, die durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten mit den Trockendaten erzeugt wird, an die Trockendaten erzeugt werden, erhalten wird;
      • eine Hallkomponentenmerkmalsextraktionseinheit, die Merkmalsdaten, die eine Hallkomponente der zweiten Akustikdaten repräsentieren, unter Verwendung der zweiten Akustikdaten und der dritten Akustikdaten extrahiert; und
      • eine Hallhinzufügungseinheit, die Schallquellendaten eingibt, Hall mit Eigenschaften basierend auf den Merkmalsdaten hinzufügt und die Schallquellendaten ausgibt.
    11. (11) Datenverarbeitungsvorrichtung nach (10), die ferner Folgendes aufweist:
      • mehrere der Enthallungseinheiten und mehrere der Hallkomponentenmerkmalsextraktionseinheiten; und
      • eine Eigenschaftsbestimmungseinheit, die selektiv Eigenschaften des zu den Schallquellendaten hinzuzufügenden Halls unter Verwendung der Einheiten von Merkmalsdaten, die jeweils durch die mehreren der Hallkomponentenmerkmalsextraktionseinheiten extrahiert werden, bestimmt.
    12. (12) Datenverarbeitungsvorrichtung nach (11), die ferner Folgendes aufweist:
      • eine Benutzerschnittstelleneinheit, die Steuerdaten erzeugt, die einer Benutzeroperation entsprechen, wobei
      • die Eigenschaftsbestimmungseinheit die Eigenschaften des den Schallquellendaten hinzuzufügenden Halls in Übereinstimmung mit den Steuerdaten auswählt.
    13. (13) Datenverarbeitungsvorrichtung nach (11) oder (12), wobei die Eigenschaftsbestimmungseinheit Eigenschaften von Merkmalsdaten, die aus den Einheiten von Merkmalsdaten ausgewählt sind, die durch die mehreren der Hallkomponentenmerkmalsextraktionseinheiten extrahiert werden, als die Eigenschaften des Halls, der den Schallquellendaten hinzuzufügen ist, bestimmt.
    14. (14) Datenverarbeitungsvorrichtung nach einem aus (10) bis (12), die ferner Folgendes aufweist:
      • mehrere der Enthallungseinheiten und mehrere der Hallkomponentenmerkmalsextraktionseinheiten; und
      • eine Eigenschaftsbestimmungseinheit, die mittlere Eigenschaften von Merkmalen, die durch die Einheiten von Merkmalsdaten, die durch die mehreren der Hallkomponentenmerkmalsextraktionseinheiten extrahiert werden, repräsentiert werden, als die Eigenschaften des Halls, der den Schallquellendaten hinzuzufügen ist, bestimmt.
    15. (15) Datenverarbeitungsvorrichtung nach einem aus (10) bis (14), die ferner Folgendes aufweist:
      • mehrere der Hallhinzufügungseinheiten;
      • eine Mischereinheit, die Einheiten von Schallquellendaten mit Hall, die jeweils von den mehreren der Hallhinzufügungseinheiten ausgegeben werden, synthetisiert; und
      • eine Gesamthallhinzufügungseinheit, die einen Hall mit Eigenschaften basierend auf den Merkmalsdaten den Schallquellendaten mit Hall, die durch die Mischereinheit synthetisiert werden, hinzufügt und die Schallquellendaten ausgibt.
    16. (16) Datenverarbeitungsvorrichtung nach einem aus (10) bis (15), wobei die Schallquellendaten Daten nach einer Korrekturverarbeitung sind.
    17. (17) Datenverarbeitungsvorrichtung nach einem aus (10) bis (16), die ferner Folgendes aufweist:
      • eine Benutzerschnittstelleneinheit, die Steuerdaten erzeugt, die einer Benutzeroperation entsprechen, wobei
      • die Hallhinzufügungseinheit die Einstellung zum Hinzufügen des Halls in Übereinstimmung mit den Steuerdaten ändert.
    18. (18) Datenverarbeitungsverfahren, das Folgendes aufweist:
      • Veranlassen eines Computers, eine Verarbeitung auszuführen zum:
        • Eingeben zweiter Akustikdaten, die durch ein Mikrofon gesammelt wurden, und Ausgeben dritter Akustikdaten, die durch Entfernen einer Hallkomponente aus den zweiten Akustikdaten unter Verwendung eines Lernmodells erhalten werden, das durch Ausführen von Maschinenlernen unter Verwendung erster Daten, die durch Falten erster Akustikdaten, die durch das Mikrofon gesammelt werden, mit Trockendaten, die keinen Hall enthalten, erzeugt werden, und zweiter Daten, die durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten mit den Trockendaten erzeugt wird, an die Trockendaten erzeugt werden, erhalten wird,
        • Extrahieren von Merkmalsdaten, die eine Hallkomponente der zweiten Akustikdaten repräsentieren, unter Verwendung der zweiten Akustikdaten und der dritten Akustikdaten, und
        • Eingeben von Schallquellendaten, Hinzufügen von Hall mit Eigenschaften basierend auf den Merkmalsdaten und Ausgeben der Schallquellendaten.
    19. (19) Programm zum Veranlassen, dass ein Computer eine Verarbeitung ausführt zum:
      • Eingeben zweiter Akustikdaten, die durch ein Mikrofon gesammelt wurden, und Ausgeben dritter Akustikdaten, die durch Entfernen einer Hallkomponente aus den zweiten Akustikdaten unter Verwendung eines Lernmodells erhalten werden, das durch Ausführen von Maschinenlernen unter Verwendung erster Daten, die durch Falten erster Akustikdaten, die durch das Mikrofon gesammelt werden, mit Trockendaten, die keinen Hall enthalten, erzeugt werden, und zweiter Daten, die durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten mit den Trockendaten erzeugt wird, an die Trockendaten erzeugt werden, erhalten wird;
      • Extrahieren von Merkmalsdaten, die eine Hallkomponente der zweiten Akustikdaten repräsentieren, unter Verwendung der zweiten Akustikdaten und der dritten Akustikdaten; und
      • Eingeben von Schallquellendaten, Hinzufügen von Hall mit Eigenschaften basierend auf den Merkmalsdaten und Ausgeben der Schallquellendaten.
    20. (20) Datenverarbeitungssystem, das Folgendes aufweist:
      • ein Mikrofon;
      • ein Lernmodell, das durch Ausführen von Maschinenlernen unter Verwendung erster Daten, die durch Falten erster Akustikdaten, die durch das Mikrofon gesammelt wurden, mit Trockendaten, die keinen Hall enthalten, erzeugt werden, und zweiter Daten, die durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten mit den Trockendaten erzeugt wird, an die Trockendaten erzeugt werden, erhalten wird;
      • eine Schallquellenausgabeeinheit, die Schallquellendaten ausgibt;
      • einen Speicher, der die durch das Mikrofon gesammelten zweiten Akustikdaten und die Schallquellendaten speichert;
      • eine Enthallungseinheit, die die zweiten Akustikdaten eingibt und dritte Akustikdaten, die durch Entfernen einer Hallkomponente aus den zweiten Akustikdaten unter Verwendung des Lernmodells erhalten werden, ausgibt;
      • eine Hallkomponentenmerkmalsextraktionseinheit, die Merkmalsdaten, die eine Hallkomponente der zweiten Akustikdaten repräsentieren, unter Verwendung der zweiten Akustikdaten und der dritten Akustikdaten extrahiert; und
      • eine Hallhinzufügungseinheit, die die Schallquellendaten eingibt, Hall mit Eigenschaften basierend auf den Merkmalsdaten hinzufügt und die Schallquellendaten ausgibt.
  • BEZUGSZEICHENLISTE
  • 1, 1A
    Datenverarbeitungssystem
    3, 3A
    Datenverarbeitungsvorrichtung
    5
    Mikrofon
    6
    Schallquellenausgabeeinheit
    8
    Speicher
    9
    Enthallungseinheit
    10
    Hallkomponentenmerkmalsextraktionseinheit
    11
    Benutzerschnittstelleneinheit
    12, 12A
    Hallkoeffizientenableitungseinheit
    13
    Hallhinzufügungseinheit
    14
    Mischereinheit
    15
    Gesamthallhinzufügungseinheit
    30
    Trainingsverarbeitungseinheit
    31
    Trainingsdatenerzeugungseinheit
    20
    Schallsammeleinheit
    32
    Lerndatenerzeugungseinheit
    33
    DNN-Trainingseinheit
    321
    Direktschallextraktionseinheit
    322
    Verzögerungswertmesseinheit
    323
    Direktschallfaltungseinheit
    324
    Mittelpegelverhältnisberechnungseinheit
    325
    Eigenschaftshinzufügungseinheit
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2018146683 [0002]
    • WO 2019026973 [0002]

Claims (20)

  1. Datenverarbeitungsvorrichtung, die Folgendes umfasst: eine Trainingsverarbeitungseinheit, die Trainingsdaten erzeugt, indem sie ein Messsignal, das akustische Eigenschaften repräsentiert, die durch dieselbe Schallsammeleinheit gesammelt werden wie eine Schallsammeleinheit, die zum Sammeln eines Beobachtungssignals verwendet wird, mit einem Referenzsignal faltet, das Tonqualität und Halleigenschaften aufweist, die sich von dem Beobachtungssignal unterscheiden, Lerndaten erzeugt, indem ein mittlerer Pegel und ein Verzögerungswert eines Faltungssignals, das durch Faltung einer Direktschallkomponente des Messsignals mit dem Referenzsignal erzeugt wird, an das Referenzsignal angepasst werden, und ein Lernmodell zum Ausführen einer Hallverarbeitung des durch die Schallsammeleinheit gesammelten Beobachtungssignals unter Verwendung der Trainingsdaten und der Lerndaten als Eingangsdaten trainiert.
  2. Datenverarbeitungsvorrichtung nach Anspruch 1, wobei die Direktschallkomponente aus dem in einem hallfreien Raum gesammelten Messsignal geschätzt wird.
  3. Datenverarbeitungsvorrichtung nach Anspruch 2, wobei der Verzögerungswert ein Verzögerungswert eines Faltungssignals, das durch Extrahieren der geschätzten Direktschallkomponente und Falten der Direktschallkomponente mit dem Referenzsignal erhalten wird, ist.
  4. Datenverarbeitungsvorrichtung nach Anspruch 1, wobei die Hallverarbeitung eine Verarbeitung von Enthallung unter Verwendung eines Signals mit Eigenschaften ohne Hall als Referenzsignal ist.
  5. Datenverarbeitungsvorrichtung nach Anspruch 1, wobei das Referenzsignal als ein Schall mit einer höheren Tonqualität als das Beobachtungssignal aufgenommen wird.
  6. Datenverarbeitungsvorrichtung nach Anspruch 1, wobei das Beobachtungssignal und das Referenzsignal Signale eines Stimmenschalls sind.
  7. Datenverarbeitungsvorrichtung nach Anspruch 1, wobei das Beobachtungssignal und das Referenzsignal durch ein Mikrofon einer Endgerätevorrichtung aufgenommen werden.
  8. Datenverarbeitungsverfahren, das Folgendes umfasst: Ausführen einer Trainingsverarbeitung zum Erzeugen von Trainingsdaten durch Falten eines Messsignals, das akustische Eigenschaften repräsentiert und durch dieselbe Schallsammeleinheit gesammelt wird wie eine Schallsammeleinheit, die zum Sammeln eines Bobachtungssignals verwendet wird, mit einem Referenzsignal, das Schallqualität und Halleigenschaften aufweist, die sich von dem Beobachtungssignal unterscheiden, Erzeugen von Lerndaten durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Faltung einer Direktschallkomponente des Messsignals mit dem Referenzsignal erzeugt wird, an das Referenzsignal, und Trainieren eines Lernmodells zum Ausführen einer Hallverarbeitung des durch die Schallsammeleinheit gesammelten Beobachtungssignals unter Verwendung der Trainingsdaten und der Lerndaten als Eingangsdaten.
  9. Programm zum Veranlassen eines Computers, eine Trainingsverarbeitung auszuführen zum: Erzeugen von Trainingsdaten durch Falten eines Messsignals, das akustische Eigenschaften repräsentiert und durch dieselbe Schallsammeleinheit gesammelt wird wie eine Schallsammeleinheit, die zum Sammeln eines Bobachtungssignals verwendet wird, mit einem Referenzsignal, das Tonqualität und Halleigenschaften aufweist, die sich von dem Beobachtungssignal unterscheiden, Erzeugen von Lerndaten durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente des Messsignals mit dem Referenzsignal erzeugt wird, an das Referenzsignal, und Trainieren eines Lernmodells zum Ausführen einer Hallverarbeitung des durch die Schallsammeleinheit gesammelten Beobachtungssignals unter Verwendung der Trainingsdaten und der Lerndaten als Eingangsdaten.
  10. Datenverarbeitungsvorrichtung, die Folgendes umfasst: eine Enthallungseinheit, die zweite Akustikdaten, die durch ein Mikrofon gesammelt wurden, eingibt und dritte Akustikdaten ausgibt, die durch Entfernen einer Hallkomponente aus den zweiten Akustikdaten unter Verwendung eines Lernmodells erhalten werden, das durch Ausführen von Maschinenlernen unter Verwendung erster Daten, die durch Falten erster Akustikdaten, die durch das Mikrofon gesammelt wurden, mit Trockendaten, die keinen Hall enthalten, erzeugt werden, und zweiter Daten, die durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten mit den Trockendaten erzeugt wird, an die Trockendaten erzeugt werden, erhalten wird, eine Hallkomponentenmerkmalsextraktionseinheit, die Merkmalsdaten, die eine Hallkomponente der zweiten Akustikdaten repräsentieren, unter Verwendung der zweiten Akustikdaten und der dritten Akustikdaten extrahiert, und eine Hallhinzufügungseinheit, die Schallquellendaten eingibt, Hall mit Eigenschaften basierend auf den Merkmalsdaten hinzufügt und die Schallquellendaten ausgibt.
  11. Datenverarbeitungsvorrichtung nach Anspruch 10, die ferner Folgendes umfasst: mehrere der Enthallungseinheiten und mehrere der Hallkomponentenmerkmalsextraktionseinheiten; und eine Eigenschaftsbestimmungseinheit, die selektiv Eigenschaften des zu den Schallquellendaten hinzuzufügenden Halls unter Verwendung der Einheiten von Merkmalsdaten, die jeweils durch die mehreren der Hallkomponentenmerkmalsextraktionseinheiten extrahiert werden, bestimmt.
  12. Datenverarbeitungsvorrichtung nach Anspruch 11, die ferner Folgendes umfasst: eine Benutzerschnittstelleneinheit, die Steuerdaten erzeugt, die einer Benutzeroperation entsprechen, wobei die Eigenschaftsbestimmungseinheit die Eigenschaften des den Schallquellendaten hinzuzufügenden Halls in Übereinstimmung mit den Steuerdaten auswählt.
  13. Datenverarbeitungsvorrichtung nach Anspruch 11, wobei die Eigenschaftsbestimmungseinheit Eigenschaften von Merkmalsdaten, die aus den Einheiten von Merkmalsdaten ausgewählt sind, die durch die mehreren der Hallkomponentenmerkmalsextraktionseinheiten extrahiert werden, als die Eigenschaften des Halls, der den Schallquellendaten hinzuzufügen ist, bestimmt.
  14. Datenverarbeitungsvorrichtung nach Anspruch 10, die ferner Folgendes umfasst: mehrere der Enthallungseinheiten und mehrere der Hallkomponentenmerkmalsextraktionseinheiten; und eine Eigenschaftsbestimmungseinheit, die mittlere Eigenschaften von Merkmalen, die durch die Einheiten von Merkmalsdaten, die durch die mehreren der Hallkomponentenmerkmalsextraktionseinheiten extrahiert werden, repräsentiert werden, als die Eigenschaften des Halls, der den Schallquellendaten hinzuzufügen ist, bestimmt.
  15. Datenverarbeitungsvorrichtung nach Anspruch 10, die ferner Folgendes umfasst: mehrere der Hallhinzufügungseinheiten; eine Mischereinheit, die Einheiten von Schallquellendaten mit Hall, die jeweils von den mehreren der Hallhinzufügungseinheiten ausgegeben werden, synthetisiert; und eine Gesamthallhinzufügungseinheit, die einen Hall mit Eigenschaften basierend auf den Merkmalsdaten den Schallquellendaten mit Hall, die durch die Mischereinheit synthetisiert werden, hinzufügt und die Schallquellendaten ausgibt.
  16. Datenverarbeitungsvorrichtung nach Anspruch 10, wobei die Schallquellendaten Daten nach einer Korrekturverarbeitung sind.
  17. Datenverarbeitungsvorrichtung nach Anspruch 10, die ferner Folgendes umfasst: eine Benutzerschnittstelleneinheit, die Steuerdaten erzeugt, die einer Benutzeroperation entsprechen, wobei die Hallhinzufügungseinheit die Einstellung zum Hinzufügen des Halls in Übereinstimmung mit den Steuerdaten ändert.
  18. Datenverarbeitungsverfahren, das Folgendes umfasst: Veranlassen eines Computers, eine Verarbeitung auszuführen zum: Eingeben zweiter Akustikdaten, die durch ein Mikrofon gesammelt wurden, und Ausgeben dritter Akustikdaten, die durch Entfernen einer Hallkomponente aus den zweiten Akustikdaten unter Verwendung eines Lernmodells erhalten werden, das durch Ausführen von Maschinenlernen unter Verwendung erster Daten, die durch Falten erster Akustikdaten, die durch das Mikrofon gesammelt werden, mit Trockendaten, die keinen Hall enthalten, erzeugt werden, und zweiter Daten, die durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten mit den Trockendaten erzeugt wird, an die Trockendaten erzeugt werden, erhalten wird, Extrahieren von Merkmalsdaten, die eine Hallkomponente der zweiten Akustikdaten repräsentieren, unter Verwendung der zweiten Akustikdaten und der dritten Akustikdaten, und Eingeben von Schallquellendaten, Hinzufügen von Hall mit Eigenschaften basierend auf den Merkmalsdaten und Ausgeben der Schallquellendaten.
  19. Programm zum Veranlassen, dass ein Computer eine Verarbeitung ausführt zum: Eingeben zweiter Akustikdaten, die durch ein Mikrofon gesammelt wurden, und Ausgeben dritter Akustikdaten, die durch Entfernen einer Hallkomponente aus den zweiten Akustikdaten unter Verwendung eines Lernmodells erhalten werden, das durch Ausführen von Maschinenlernen unter Verwendung erster Daten, die durch Falten erster Akustikdaten, die durch das Mikrofon gesammelt werden, mit Trockendaten, die keinen Hall enthalten, erzeugt werden, und zweiter Daten, die durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten mit den Trockendaten erzeugt wird, an die Trockendaten erzeugt werden, erhalten wird; Extrahieren von Merkmalsdaten, die eine Hallkomponente der zweiten Akustikdaten repräsentieren, unter Verwendung der zweiten Akustikdaten und der dritten Akustikdaten; und Eingeben von Schallquellendaten, Hinzufügen von Hall mit Eigenschaften basierend auf den Merkmalsdaten und Ausgeben der Schallquellendaten.
  20. Datenverarbeitungssystem, das Folgendes umfasst: ein Mikrofon; ein Lernmodell, das durch Ausführen von Maschinenlernen unter Verwendung erster Daten, die durch Falten erster Akustikdaten, die durch das Mikrofon gesammelt wurden, mit Trockendaten, die keinen Hall enthalten, erzeugt werden, und zweiter Daten, die durch Anpassen eines mittleren Pegels und eines Verzögerungswertes eines Faltungssignals, das durch Falten einer Direktschallkomponente der ersten Akustikdaten mit den Trockendaten erzeugt wird, an die Trockendaten erzeugt werden, erhalten wird; eine Schallquellenausgabeeinheit, die Schallquellendaten ausgibt; einen Speicher, der die durch das Mikrofon gesammelten zweiten Akustikdaten und die Schallquellendaten speichert; eine Enthallungseinheit, die die zweiten Akustikdaten eingibt und dritte Akustikdaten, die durch Entfernen einer Hallkomponente aus den zweiten Akustikdaten unter Verwendung des Lernmodells erhalten werden, ausgibt; eine Hallkomponentenmerkmalsextraktionseinheit, die Merkmalsdaten, die eine Hallkomponente der zweiten Akustikdaten repräsentieren, unter Verwendung der zweiten Akustikdaten und der dritten Akustikdaten extrahiert, und eine Hallhinzufügungseinheit, die die Schallquellendaten eingibt, Hall mit Eigenschaften basierend auf den Merkmalsdaten hinzufügt und die Schallquellendaten ausgibt.
DE112022002371.6T 2021-04-30 2022-03-22 Datenverarbeitungsvorrichtung, datenverarbeitungsverfahren, datenverarbeitungssystem und programm Pending DE112022002371T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021-077370 2021-04-30
JP2021077370 2021-04-30
PCT/JP2022/012940 WO2022230450A1 (ja) 2021-04-30 2022-03-22 情報処理装置、情報処理方法、情報処理システムおよびプログラム

Publications (1)

Publication Number Publication Date
DE112022002371T5 true DE112022002371T5 (de) 2024-04-04

Family

ID=83847937

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112022002371.6T Pending DE112022002371T5 (de) 2021-04-30 2022-03-22 Datenverarbeitungsvorrichtung, datenverarbeitungsverfahren, datenverarbeitungssystem und programm

Country Status (3)

Country Link
JP (1) JPWO2022230450A1 (de)
DE (1) DE112022002371T5 (de)
WO (1) WO2022230450A1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018146683A (ja) 2017-03-02 2018-09-20 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム
WO2019026973A1 (ja) 2017-08-04 2019-02-07 日本電信電話株式会社 ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009276365A (ja) * 2008-05-12 2009-11-26 Toyota Motor Corp 処理装置、音声認識装置、音声認識システム、音声認識方法
JP6036141B2 (ja) * 2012-10-11 2016-11-30 ヤマハ株式会社 音響処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018146683A (ja) 2017-03-02 2018-09-20 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム
WO2019026973A1 (ja) 2017-08-04 2019-02-07 日本電信電話株式会社 ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム

Also Published As

Publication number Publication date
WO2022230450A1 (ja) 2022-11-03
JPWO2022230450A1 (de) 2022-11-03

Similar Documents

Publication Publication Date Title
Postma et al. Perceptive and objective evaluation of calibrated room acoustic simulation auralizations
EP1520447B1 (de) Verfahren und vorrichtung zur erzeugung von daten über die gegenseitige lage von mindestens drei schallwandlern
CN101454827B (zh) 语音状况数据生成装置、语音状况可视化装置、语音状况数据编辑装置、语音数据再现装置以及语音通信系统
Hafezi et al. Autonomous multitrack equalization based on masking reduction
DE112005002281T5 (de) System und Verfahren zum Optimieren des Tons eines Mediencenters mittels in einer Fernbedienung eingelassenen Mikrofonen
DE60314039T2 (de) Erzeugung von Nachhall durch Abschätzung von Impulsantwort
DE102009059167A1 (de) Mischpultsystem und Verfahren zur Erzeugung einer Vielzahl von Mischsummensignalen
DE102014118075A1 (de) Audio und Video synchronisierendes Wahrnehmungsmodell
DE69934069T2 (de) Schalleffekt Addiergerät
Choi et al. A proposal for foley sound synthesis challenge
DE102017124621A1 (de) Fühlbare Basswiedergabe
US7526348B1 (en) Computer based automatic audio mixer
DE112022002371T5 (de) Datenverarbeitungsvorrichtung, datenverarbeitungsverfahren, datenverarbeitungssystem und programm
JP2005173055A (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
DE112019003209T5 (de) Codiervorrichtung, Codierverfahren, Decodiervorrichtung, Decodierverfahren und Programm
DE112019004528T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahrenund programm
DE112021006957T5 (de) Datenverarbeitungsvorrichtung, Datenverarbeitungsverfahren und Programm
CN115512718A (zh) 用于存量语音文件的语音质量评价方法、装置及系统
Berkovitz Digital equalization of audio signals
DE112021001695T5 (de) Schallverarbeitungsvorrichtung, schallverarbeitungsverfahren und schallverarbeitungsprogramm
WO2013174797A1 (de) Wellenfeldanalyseverfahren
Roginska et al. Measuring spectral directivity of an electric guitar amplifier
Kanda et al. Objective evaluation of sound quality for audio system in car
DE19745392A1 (de) Tonwiedergabevorrichtung und Verfahren zur Tonwiedergabe
Hilmkil et al. Perceiving music quality with gans