DE102022121955A1

DE102022121955A1 - Audioverarbeitungsverfahren, audioverarbeitungsgerät, elektronische vorrichtung zur audioverarbeitung und speichermedium

Info

Publication number: DE102022121955A1
Application number: DE102022121955.0A
Authority: DE
Inventors: Junning Han; Rongbin Xiao
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2021-09-07
Filing date: 2022-08-31
Publication date: 2023-03-09
Also published as: GB2610459A; CN113707165B; US20230074395A1; US11902754B2; CN113707165A; GB202205269D0

Abstract

Ausführungsformen der vorliegenden Offenbarung offenbaren ein Audioverarbeitungsverfahren, ein Audioverarbeitungsgerät und ein Speichermedium. Das Audioverarbeitungsgerät erhält erste Audiodaten eines Zielsprechers, die von der Audioerfassungsvorrichtung an dem Zielsprecher erfasst werden, und erhält zweite Audiodaten, die von der elektronischen Vorrichtung erfasst werden, auf der sich der Zielsprecher befindet. Entsprechend einer Position des Zielsprechers relativ zur elektronischen Vorrichtung werden die ersten Audiodaten mit den zweiten Audiodaten kombiniert, um Zielaudiodaten zu erhalten, wobei bei der Ausgabe der Zielaudiodaten die Stimme des Zielsprechers mit der räumlichen Position übereinstimmt. Die Genauigkeit der Raumwirkung der Stimme des Zielsprechers in den Ziel-Audiodaten ist relativ gewährleistet.

Description

VERWANDTE(R) ANMELDUNG(EN)
Diese Anmeldung beansprucht die Priorität für die chinesische Patentanmeldung Nr. 202111046004.X, die am 07. September 2021 bei der Chinese National Intellectual Property Administration, PRC, eingereicht wurde und durch Bezugnahme hierin vollständig eingeführt ist.
TECHNISCHER BEREICH
Die vorliegende Offenbarung bezieht sich auf das technische Gebiet der Audioverarbeitung und insbesondere auf ein Audioverarbeitungsverfahren, ein Audioverarbeitungsgerät, eine elektronische Vorrichtung zur Audioverarbeitung und ein Speichermedium.
HINTERGRUND
Mit der Popularität von Videoaufnahmen und -freigaben nehmen Menschen Videos mit tragbaren Vorrichtungen (wie Mobiltelefonen und Tablets) auf und geben sie weiter. Wenn jedoch tragbare Vorrichtungen zur Aufnahme von Audio/Video verwendet werden, kann der Audioaufnahmeeffekt nicht zufriedenstellend sein. Wenn sich die Vorrichtung beispielsweise relativ nahe an der Audio-/Videoperson befindet, kann die Stimme der Person aufgenommen werden, aber die Aufnahme deckt möglicherweise nicht die gesamte Tonszene ab. Das heißt, die Aufnahme gibt möglicherweise nicht die Umgebung wieder, in der sich die Person befindet. Wenn die Vorrichtung relativ weit von der Person entfernt ist, kann die Videoaufnahme den Ton der gesamten Szene abdecken, aber aufgrund der Entfernung kann die Stimme der Person zu schwach oder undeutlich werden.
Daher muss ein technisches Problem gelöst werden, wie der Ton der gesamten Szene abgedeckt und die Stimme des Charakters während der Audio-/Videoaufnahme klar aufgenommen werden kann.
ZUSAMMENFASSUNG
In bestimmten Ausführungsbeispielen stellt die vorliegende Offenbarung ein Audioverarbeitungsverfahren, eine Audioverarbeitungsvorrichtung, eine elektronische Vorrichtung und ein Speichermedium bereit, die die folgenden technischen Lösungen einschließen:
Ein Audioverarbeitungsverfahren, das auf eine elektronische Vorrichtung angewendet wird, wobei das Verfahren Folgendes umfasst: Erhalten erster Audiodaten eines Zielsprechers und zweiter Audiodaten der Umgebung, in der sich der Zielsprecher befindet, wobei die ersten Audiodaten von einer Audioerfassungsvorrichtung am Zielsprecher erfasst werden und die zweiten Audiodaten von der elektronischen Vorrichtung erfasst werden; Erhalten einer Position des Zielsprechers relativ zur elektronischen Vorrichtung; Kombinieren der ersten Audiodaten mit den zweiten Audiodaten entsprechend der Position, um Zielaudiodaten zu erhalten, wobei eine Stimme des Zielsprechers mit der Position übereinstimmt, wenn die Zielaudiodaten ausgegeben werden.
In bestimmten Ausführungsbeispielen werden die zweiten Audiodaten gemäß Audiodaten erhalten, die von einem Mikrofonarray der elektronischen Vorrichtung erfasst werden; und das Erhalten der Position des Zielsprechers relativ zu der elektronischen Vorrichtung umfasst: Erhalten der Position des Zielsprechers relativ zu der elektronischen Vorrichtung durch Berechnung gemäß den von dem Mikrofonarray erfassten Audiodaten.
In bestimmten Ausführungsbeispielen umfasst das Ermitteln der Position des Zielsprechers relativ zur elektronischen Vorrichtung: Erfassen eines Bildes des Zielsprechers; und Verarbeiten des Bildes, um die Position des Zielsprechers relativ zur elektronischen Vorrichtung zu bestimmen.
In bestimmten Ausführungsbeispielen umfasst das Kombinieren der ersten Audiodaten mit den zweiten Audiodaten gemäß der Position: Bestimmen von Audioparametern der ersten Audiodaten in der elektronischen Vorrichtung gemäß der Position; und Kombinieren der ersten Audiodaten mit den zweiten Audiodaten gemäß den Audioparametern.
In bestimmten Ausführungsbeispielen umfasst die Position: eine Ausrichtung und einen Abstand des Zielsprechers relativ zu der elektronischen Vorrichtung; und das Bestimmen der Audioparameter der ersten Audiodaten in der elektronischen Vorrichtung gemäß der Position umfasst: das Bestimmen von Audioparametern eines Audiokanals der ersten Audiodaten in den zweiten Audiodaten gemäß der Ausrichtung und dem Abstand des Zielsprechers relativ zu der elektronischen Vorrichtung; und das Kombinieren der ersten Audiodaten mit den zweiten Audiodaten gemäß den Audioparametern umfasst: das Kombinieren von Audioparametern, die dem Audiokanal entsprechen, mit dem Audiokanal, entsprechend dem Audiokanal der zweiten Audiodaten.
In bestimmten Ausführungsbeispielen umfassen die Audioparameter mindestens einen der folgenden Parameter: Schalldruck, Phase und Zeitverzögerung.
In bestimmten Ausführungsbeispielen umfasst das Erhalten der ersten Audiodaten des Zielsprechers: Empfangen der ersten Audiodaten über einen drahtlosen Übertragungskanal von der Audioerfassungsvorrichtung am Zielsprecher.
Eine Audioverarbeitungsvorrichtung, die auf eine elektronische Vorrichtung angewendet wird, wobei die Audioverarbeitungsvorrichtung Folgendes umfasst: ein Audiodatenerfassungsmodul, das so konfiguriert ist, dass es die ersten Audiodaten des Zielsprechers und die zweiten Audiodaten der Umgebung, in der sich der Zielsprecher befindet, erhält; wobei die ersten Audiodaten von der Audioerfassungsvorrichtung am Zielsprecher erfasst werden und die zweiten Audiodaten von der elektronischen Vorrichtung erfasst werden; ein Positionsermittlungsmodul, das so konfiguriert ist, dass es die Position des Zielsprechers relativ zu der elektronischen Vorrichtung ermittelt; und ein Datenverarbeitungsmodul, das so konfiguriert ist, dass es die ersten Audiodaten mit den zweiten Audiodaten entsprechend der Position kombiniert, um Zielaudiodaten zu erhalten; wobei, wenn die Zielaudiodaten ausgegeben werden, eine Stimme des Zielsprechers mit dem Ort übereinstimmt.
Eine elektronische Vorrichtung, die Folgendes umfasst: einen Speicher zum Speichern eines Programms; einen Prozessor zum Aufrufen und Ausführen des Programms im Speicher und zum Implementieren jedes Schritts eines der oben genannten Audioverarbeitungsverfahren durch Ausführen des Programms.
Ein lesbares Speichermedium, auf dem ein Computerprogramm gespeichert ist, das, wenn es von einem Prozessor ausgeführt wird, jeden Schritt des in einem der oben genannten Verfahren beschriebenen Audioverarbeitungsverfahrens implementiert.
In bestimmten Ausführungsbeispielen erhält in dem Audioverarbeitungsverfahren, der Vorrichtung, der elektronischen Vorrichtung und dem Speichermedium, die durch die vorliegende Offenbarung vorgesehen werden, die elektronische Vorrichtung die ersten Audiodaten des Zielsprechers, die durch die Audioerfassungsvorrichtung an dem Zielsprecher erfasst werden, und die zweiten Audiodaten, die durch die elektronische Vorrichtung von der Umgebung erfasst werden, in der sich der Zielsprecher befindet, entsprechend einer Position des Zielsprechers relativ zu der elektronischen Vorrichtung, wobei die ersten Audiodaten mit den zweiten Audiodaten kombiniert werden, um Zielaudiodaten zu erhalten; wobei, wenn die Zielaudiodaten ausgegeben werden, die Stimme des Zielsprechers mit dem Standort übereinstimmt. Da die ersten Audiodaten von der Audioerfassungsvorrichtung am Zielsprecher erfasst werden, ist die Klarheit der ersten Audiodaten gewährleistet, während die zweiten Audiodaten von der elektronischen Vorrichtung erfasst werden, was dazu beiträgt sicherzustellen, dass die zweiten Audiodaten den Ton der gesamten Szene abdecken. Entsprechend der Position des Zielsprechers relativ zur elektronischen Vorrichtung wird nach der Kombination der ersten Audiodaten mit den zweiten Audiodaten relativ sichergestellt, dass die Ziel-Audiodaten nicht nur den Ton der gesamten Szene abdecken, sondern auch die Zielsprache klar wiedergeben können. Darüber hinaus stimmt die Stimme des Zielsprechers mit der Position überein, wenn die Ziel-Audiodaten ausgegeben werden, so dass die Genauigkeit des räumlichen Effekts der Stimme des Zielsprechers in den Ziel-Audiodaten relativ gewährleistet ist.
Figurenliste
Um die technischen Lösungen der Ausführungsbeispiele der vorliegenden Offenbarung klarer zu erläutern, werden im Folgenden die begleitenden Zeichnungen für die Ausführungsbeispiele kurz vorgestellt. Die Zeichnungen in der folgenden Beschreibung sind nur einige Ausführungsbeispiele der vorliegenden Offenbarung. Für den Fachmann lassen sich aus diesen Zeichnungen ohne kreativen Aufwand auch andere Zeichnungen ableiten.

1 ist ein schematisches Flussdiagramm eines Audioverarbeitungsverfahrens gemäß Ausführungsbeispiel(en) der vorliegenden Offenbarung;
2 ist ein schematisches Flussdiagramm der Kombination erster Audiodaten mit zweiten Audiodaten gemäß Ausführungsbeispiel(en) der vorliegenden Offenbarung;
3a ist ein schematisches Flussdiagramm der Kombination erster Audiodaten mit zweiten Audiodaten gemäß Ausführungsbeispiel(en) der vorliegenden Offenbarung;
3b ist ein schematisches Diagramm einer Positionsbeziehung zwischen der Person und der elektronischen Vorrichtung in 3a gemäß Ausführungsbeispiel(en) der vorliegenden Offenbarung;
4 ist ein schematisches Strukturdiagramm eines sprachverarbeitenden Geräts gemäß Ausführungsbeispiel(en) der vorliegenden Offenbarung; und
5 ist ein schematisches Strukturdiagramm einer elektronischen Vorrichtung gemäß Ausführungsbeispiel(en) der vorliegenden Offenbarung.

Die Begriffe „erster“, „zweiter“, „dritter“, „vierter“ usw. (soweit zutreffend) in der Beschreibung, den Ansprüchen und den Zeichnungen dienen zur Unterscheidung ähnlicher Teile und nicht unbedingt zur Beschreibung einer bestimmten Reihenfolge oder Sequenz. Die auf diese Weise verwendeten Daten können unter geeigneten Umständen austauschbar sein, so dass Ausführungsbeispiele der vorliegenden Offenbarung auch in anderen als den hier dargestellten Reihenfolgen ausgeführt werden können.
AUSFÜHRLICHE BESCHREIBUNG
Die technischen Lösungen in den Ausführungsbeispielen der vorliegenden Offenbarung werden im Folgenden unter Bezugnahme auf die beigefügten Zeichnungen beschrieben. Die beschriebenen Ausführungsbeispiele sind nur ein Teil der Ausführungsbeispiele der vorliegenden Offenbarung, und sind nicht alle Ausführungsbeispiele. Ausgehend von den Ausführungsbeispielen der vorliegenden Offenbarung können auch alle anderen Ausführungsbeispiele, die von Fachleuten ohne schöpferischen Aufwand hergeleitet werden können, in den Schutzbereich der vorliegenden Offenbarung fallen.
Das in dem Ausführungsbeispiel der vorliegenden Offenbarung vorgesehene Audioverarbeitungsverfahren wird auf eine elektronische Vorrichtung angewendet, und die elektronische Vorrichtung kann eine tragbare elektronische Vorrichtung sein, wie z. B. ein Smartphone, ein Tablet-Computer und dergleichen. Die elektronische Vorrichtung nimmt Audiodaten auf.
Wie in 1 gezeigt ist, kann ein Flussdiagramm des Audioverarbeitungsverfahrens, das durch Ausführungsbeispiele der vorliegenden Offenbarung bereitgestellt wird, Folgendes umfassen:

Schritt S101: Gewinnen von ersten Audiodaten eines Zielsprechers und zweiten Audiodaten einer Umgebung, in der sich der Zielsprecher befindet, wobei die ersten Audiodaten durch eine Audioerfassungsvorrichtung am Zielsprecher und die zweiten Audiodaten durch eine elektronische Vorrichtung erfasst werden.

In bestimmten Ausführungsbeispielen kann die Vorrichtung zur Audioerfassung vom Zielsprecher getragen werden oder auf andere Weise am Körper des Zielsprechers befestigt werden.
Die Vorrichtung zur Audioaufnahme am Zielsprecher kann ein kabelgebundenes/drahtloses Headset oder ein kabelgebundenes/drahtloses Mikrofon sein. Da es am Zielsprecher getragen werden kann, kann die Stimme des Zielsprechers deutlich aufgenommen werden. Im Vergleich zu der vom Zielsprecher getragenen Audioaufnahmevorrichtung ist die elektronische Vorrichtung weiter vom Zielsprecher entfernt, so dass die elektronische Vorrichtung den Ton der Umgebung des Zielsprechers (d. h. den Ton einer größeren Szene) aufnehmen kann.
Die Audioerfassungsvorrichtung kann die ersten Audiodaten über einen drahtgebundenen Übertragungskanal (z. B. über einen universellen seriellen Bus) an die elektronische Vorrichtung übertragen. Alternativ kann die Audioerfassungsvorrichtung die ersten Audiodaten über einen drahtlosen Übertragungskanal (z. B. über Bluetooth oder WiFi) an die elektronische Vorrichtung übertragen.
Es kann nur einen Zielsprecher geben oder mehrere. Wenn es mehrere Zielsprecher gibt, trägt jeder Sprecher eine Vorrichtung zur Audioaufnahme.
Schritt S102: Ermitteln der Position des Zielsprechers relativ zur elektronischen Vorrichtung.
In bestimmten Ausführungsbeispielen wird die Position alternativ als räumliche Position bezeichnet.
Die räumliche Position des Zielsprechers in Bezug auf die elektronische Vorrichtung kann mindestens eines der folgenden Merkmale umfassen: eine Ausrichtung des Zielsprechers in Bezug auf die elektronische Vorrichtung (d. h., in welcher Richtung sich der Zielsprecher in Bezug auf die elektronische Vorrichtung befindet) und einen Abstand des Zielsprechers in Bezug auf die elektronische Vorrichtung (d. h., der Abstand zwischen dem Zielsprecher und der elektronischen Vorrichtung).
Die räumliche Position des Zielsprechers in Bezug auf die elektronische Vorrichtung kann durch eine Kamera bestimmt werden. Alternativ kann die räumliche Position des Zielsprechers in Bezug auf die elektronische Vorrichtung durch ein Mikrofon-Array bestimmt werden.
Wenn es mehrere Zielsprecher gibt, wird die räumliche Position jedes Zielsprechers relativ zur elektronischen Vorrichtung ermittelt.
Schritt S103 : Kombinieren der ersten Audiodaten mit den zweiten Audiodaten entsprechend der räumlichen Position, um Zielaudiodaten zu erhalten, wobei die Stimme des Zielsprechers der räumlichen Position entspricht oder mit ihr übereinstimmt, wenn die Zielaudiodaten ausgegeben werden.
In bestimmten Ausführungsbeispielen kann die Kombination der ersten Audiodaten mit den zweiten Audiodaten durch Mischen der ersten Audiodaten mit den zweiten Audiodaten erfolgen.
Bei mehreren Zielsprechern werden die ersten Audiodaten jedes Zielsprechers in die zweiten Audiodaten entsprechend der räumlichen Position jedes Zielsprechers relativ zur elektronischen Vorrichtung gemischt. In bestimmten Ausführungsbeispielen werden für den Zielsprecher i die ersten Audiodaten des Zielsprechers i mit den zweiten Audiodaten entsprechend der räumlichen Position des Zielsprechers i relativ zur elektronischen Vorrichtung gemischt. Das heißt, wenn es mehrere Zielsprecher gibt, werden mehrere Teile der ersten Audiodaten in die zweiten Audiodaten gemischt.
Darüber hinaus können beim Mischen der ersten Audiodaten mit den zweiten Audiodaten die ersten Audiodaten und die zweiten Audiodaten zeitseriell ausgerichtet werden. Wenn beispielsweise die ersten Audiodaten und die zweiten Audiodaten die gleichen Audiosignale enthalten (d. h. die vom Zielsprecher gesprochenen Wörter werden sowohl von der Audioerfassungsvorrichtung des Benutzers als auch vom Mikrofon der elektronischen Vorrichtung erfasst), werden sie zeitlich aufeinander abgestimmt, und dann werden die ersten Audiodaten entsprechend der räumlichen Position in die ersten Audiodaten gemischt.
In bestimmten Ausführungsbeispielen wird beim Mischen der ersten Audiodaten mit den zweiten Audiodaten die Ausrichtung der Audioerfassungsvorrichtung relativ zur elektronischen Vorrichtung berücksichtigt, so dass beim Mischen der ersten Audiodaten mit den zweiten Audiodaten, um die Zielaudiodaten zu erhalten, und bei der Ausgabe der Zielaudiodaten die Stimme des Zielsprechers mit der räumlichen Position der Audioerfassungsvorrichtung relativ zur elektronischen Vorrichtung übereinstimmt. In bestimmten Ausführungsbeispielen, wenn sich beispielsweise der Zielsprecher 5 Meter links von der elektronischen Vorrichtung befindet, kann man bei der Ausgabe der Ziel-Audiodaten, die durch Mischen der ersten Audiodaten mit den zweiten Audiodaten erhalten werden, erkennen, dass sich der Zielsprecher 5 Meter links von der elektronischen Vorrichtung befindet. Wird jedoch die räumliche Position der Audioerfassungsvorrichtung relativ zur elektronischen Vorrichtung nicht berücksichtigt und werden stattdessen die ersten Audiodaten direkt mit den zweiten Audiodaten gemischt, ohne die räumliche Position zu berücksichtigen, können die erhaltenen Zielaudiodaten so klingen, als würde der Zielsprecher 10 Meter oberhalb der elektronischen Vorrichtung sprechen.
In bestimmten Ausführungsbeispielen kann die Klarheit der ersten Audiodaten gewährleistet werden, da die ersten Audiodaten von der Audioerfassungsvorrichtung auf dem Zielsprecher erfasst werden, während die zweiten Audiodaten von der elektronischen Vorrichtung erfasst werden, wodurch sichergestellt werden kann, dass die nach dem Mischen erhaltenen Zielaudiodaten den gesamten Ton einer größeren Szene abdecken, während die Stimme des Zielsprechers klar übertragen wird. Darüber hinaus kann aufgrund der Ausrichtung der Stimme des Zielsprechers mit der räumlichen Position bei der Ausgabe der Ziel-Audiodaten eine Raumwirkungs-Genauigkeit der Stimme des Zielsprechers in den Ziel-Audiodaten entsprechend sichergestellt werden.
In bestimmten Ausführungsbeispielen können die zweiten Audiodaten auf der Grundlage von Audiodaten gewonnen werden, die von einem Mikrofon-Array (z. B. mit mindestens drei Mikrofonen) der elektronischen Vorrichtung erfasst wurden.
In bestimmten Ausführungsbeispielen können die zweiten Audiodaten 360-Grad-Rundum-Audiodaten sein, die von der elektronischen Vorrichtung über das Mikrofonarray erfasst werden, oder Audiodaten in der linken und rechten Richtung der elektronischen Vorrichtung, die von dem Mikrofonarray erfasst werden, um unter Verwendung der erfassten Audiodaten dreidimensionalen (3D) Stereoton zu erzeugen. Die Richtungen links und rechts beziehen sich auf zwei Außenseiten von zwei parallelen Seiten der elektronischen Vorrichtung. Zum Beispiel bezieht sich die linke Außenseite auf eine Außenseite einer Längsseite oder langen Seite (bezeichnet als die erste Längsseite) der elektronischen Vorrichtung in einer horizontalen Ausrichtung, und bezieht sich die rechte Außenseite auf eine Außenseite einer anderen Längsseite oder langen Seite (bezeichnet als die zweite Längsseite) parallel zu der ersten Längsseite der elektronischen Vorrichtung. Alternativ bezieht sich die linke Außenseite auf eine Außenseite einer breiten oder kurzen Seite (als erste Breitseite bezeichnet) der elektronischen Vorrichtung in einer horizontalen Ausrichtung, und bezieht sich die rechte Außenseite auf eine Außenseite einer anderen breiten oder kurzen Seite (als zweite Breitseite bezeichnet) parallel zur ersten Breitseite der elektronischen Vorrichtung.
In bestimmten Ausführungsbeispielen, basierend auf einer räumlichen Ausrichtung, die zwischen einer linken räumlichen Position und einem ersten Empfangsstrahl gebildet wird, der auf der linken Seite der elektronischen Vorrichtung durch das Mikrofonarray erzeugt wird, und basierend auf einer räumlichen Ausrichtung, die zwischen einer rechten räumlichen Position und einem zweiten Empfangsstrahl gebildet wird, der auf der rechten Seite der elektronischen Vorrichtung durch das Mikrofonarray erzeugt wird, so dass Audiosignale auf der linken Seite der elektronischen Vorrichtung durch den ersten Empfangsstrahl fokussiert werden können und so dass Audiosignale von einer anderen als der linken Seite der elektronischen Vorrichtung unterdrückt werden können, können Audiosignale auf der rechten Seite der elektronischen Vorrichtung durch den zweiten Empfangsstrahl fokussiert werden ,so dass Audiosignale von einer anderen als der rechten Seite der elektronischen Vorrichtung unterdrückt werden können, um den 3D-Stereoton zu erzeugen.
In bestimmten Ausführungsbeispielen kann es sich bei den zweiten Audiodaten um ein Audiosignal handeln, das über das linke und das rechte Mikrofon der elektronischen Vorrichtung richtungsbezogen erfasst wird. Zum Beispiel erfasst das linke Mikrofon ein Audiosignal innerhalb eines 60-Grad-Bereichs, der sich vom linken Mikrofon als Zentrum nach links ausbreitet, und das rechte Mikrofon erfasst Audiosignale innerhalb eines 60-Grad-Bereichs, der sich vom rechten Mikrofon als Zentrum nach rechts ausbreitet.
In bestimmten Ausführungsbeispielen umfasst das Audioverarbeitungsverfahren ferner die Bestimmung eines Zielsprechers. Eine Tonquelle, die relativ zu einem räumlichen Bereich der elektronischen Vorrichtung existiert, wird durch ein Mikrofonarray der elektronischen Vorrichtung bestimmt, wobei das Mikrofonarray eine Vielzahl von Mikrofonen umfasst und es eine Tonquelle oder mehrere Tonquellen geben kann. Eine Tonpositionierungs- und -verfolgungs-Engine der elektronischen Vorrichtung bestimmt, gemäß vorbestimmten Bedingungen, eine Tonquelle, die die vorbestimmten Bedingungen erfüllt als Zielsprecher zur Positionierung und Verfolgung (beispielsweise um eine Positionsänderung der Tonquelle, die die Bedingungen erfüllt, aufzuzeichnen). Wenn sich der Zielsprecher während des Sprechens bewegt, kann die Tonpositionierungs- und -verfolgungs-engine den Zielsprecher kontinuierlich lokalisieren und aufzeichnen, so dass die ersten Audiodaten, die von der von dem Zielsprecher getragenen Audioerfassungsvorrichtung erfasst und später mit den zweiten Audiodaten gemischt werden, Teile enthalten können, die jeweils jedem der von dem Zielsprecher eingenommenen räumlichen Orte entsprechen. Dementsprechend kann ein Zuhörer bei der Ausgabe der Ziel-Audiodaten wahrnehmen, dass sich der Zielsprecher beim Sprechen bewegt. Die vorbestimmten Bedingungen umfassen mindestens eine der folgenden Bedingungen: ein Lautstärkeparameter der Tonquelle überschreitet einen Schwellenwert, ein Tonqualitätsparameter der Tonquelle überschreitet einen Schwellenwert, eine Lautstärke unter den mehreren Tonquellen ist die größte, und eine Tonqualität unter den mehreren Tonquellen ist die beste.
Ferner kann die Bestimmung des Zielsprechers auch über die Kamera der elektronischen Vorrichtung erfolgen. Beispielsweise wird während der Videoaufzeichnung der Zielsprecher über die aktivierte Kamera und/oder die Einstellparameter (Fokus) der aktivierten Kamera ermittelt. In der Videoaufnahmeszene wird die Kamera auf den Zielsprecher gerichtet. In bestimmten Ausführungsbeispielen sind das Sichtfeld (FOV) und die Aufnahmerichtung jeder Kamera der in der elektronischen Vorrichtung integrierten Mehrfachkameras vorgespeichert. Wenn eine beliebige Kamera aktiviert wird, können das vorgespeicherte Sichtfeld (FOV) und die Erfassungsrichtung abgefragt werden, um die Erfassungsausrichtung und den Erfassungsbereich der aktivierten Kamera relativ zur elektronischen Vorrichtung zu bestimmen. Der Erfassungsbereich und die Erfassungsausrichtung der aktivierten Kamera werden als Indikationsinformationen für das Tonortungs- und -verfolgungssystem verwendet. Die Tonerfassungs- und -verfolgungs-Engine bestimmt als Zielsprecher eine Zieltonquelle, die auf der Grundlage der Indikationsinformationen bestimmt wird. Alternativ bestimmt die Tonerfassungs- und -verfolgungs-Engine als Zielsprecher eine Tonquelle, für die auf der Grundlage der Indikationsinformationen festgestellt wurde, dass sie die vorbestimmte Bedingung erfüllt.
In bestimmten Ausführungsbeispielen können die Erfassungsausrichtung und der Erfassungsbereich auf der Grundlage des Erfassungsbereichs und der Erfassungsausrichtung entsprechend der aktivierten Kamera auf der Grundlage der Einstellungsparameter (Fokus) der aktivierten Kamera angepasst werden. Die so angepasste Erfassungsausrichtung und der Erfassungsbereich können dann als Befehlsinformation für die Tonpositionierungs- und Verfolgungsmaschine verwendet werden.
In bestimmten Ausführungsbeispielen kann die räumliche Position des Zielsprechers in Bezug auf die obige elektronische Vorrichtung wie folgt ermittelt werden: Die räumliche Position des Zielsprechers in Bezug auf die elektronische Vorrichtung wird anhand der von dem Mikrofonarray erfassten Audiodaten berechnet.
Die Ausrichtung des Zielsprechers kann anhand der vom Mikrofonarray erfassten Audiodaten ermittelt werden. Zum Beispiel ist eine aufzeichnende Person in der Regel am nächsten an der elektronischen Vorrichtung, und eine Tonrichtung, die die Bedingungen erfüllt, kann als die Ausrichtung des Zielsprechers bestimmt werden. Wenn die Ausrichtung des Zielsprechers bestimmt ist, kann auch das Tonsignal des Zielsprechers bestimmt werden. Der Ton, der die Bedingung erfüllt, kann der Ton sein, der mindestens eines der folgenden Kriterien erfüllt: maximale Lautstärke, beste Tonqualität und ähnliches.
Anhand der Zeit, zu der die Stimme des Zielsprechers jedes Mikrofon im Mikrofon-Array erreicht, wird die Zeitverzögerung bestimmt, mit der die Stimme des Zielsprechers zwei beliebige Mikrofone erreicht. In Anbetracht der Positionen der Mikrofone im Mikrofon-Array und der relativen Positionsbeziehung zwischen den Mikrofonen kann die Position des Zielsprechers relativ zur elektronischen Vorrichtung durch Berechnung bestimmt werden. Der Abstand zwischen dem Zielsprecher und der elektronischen Vorrichtung kann auf der Grundlage der Position des Zielsprechers relativ zur elektronischen Vorrichtung und der Position der elektronischen Vorrichtung bestimmt werden.
Die oben beschriebene Lösung zur Ermittlung der räumlichen Position des Zielsprechers in Bezug auf die elektronische Vorrichtung kann bei einem Audio- oder Videoaufnahmeverfahren verwendet werden.
In bestimmten Ausführungsbeispielen wird bei der Identifizierung des Zielsprechers auf der Grundlage der Audiodaten, wenn die Stimme einer anderen Person (nicht der aufzeichnenden Person) in der Umgebung lauter ist als die Stimme des Zielsprechers, stattdessen die andere Person als der Zielsprecher identifiziert.
Wenn bei der Aufnahme von Audio- oder Videodaten eine neue Audioquelle erkannt wird, die die Bedingungen erfüllt, wird die Fokusrichtung der Vorrichtung für die Bilderfassung entsprechend dem von der Vorrichtung für die Bilderfassung erfassten Bild bestimmt. Wenn die Fokusausrichtung der Vorrichtung mit der auf der Grundlage der Audiodaten ermittelten Ausrichtung des Zielsprechers relativ zur elektronischen Vorrichtung übereinstimmt, wird der Zielsprecher nicht auf die neue Audioquelle umgeschaltet. Unterscheidet sich die Fokusausrichtung von der anhand der Audiodaten ermittelten Ausrichtung des Zielsprechers relativ zu der elektronischen Vorrichtung, wird der Zielsprecher auf die neue Audioquelle umgeschaltet. Dadurch wird vermieden, dass die Stimme einer nicht aufgenommenen oder unbeabsichtigten Person aufgezeichnet wird.
In bestimmten Ausführungsbeispielen kann die Ermittlung der räumlichen Position des Zielsprechers in Bezug auf die elektronische Vorrichtung Folgendes umfassen: Aufnahme eines Bildes des Zielsprechers (in der Regel die Person, die dem Kameraobjektiv am nächsten ist, oder eine vorher festgelegte Person). Das Bild des Zielsprechers kann mit einer binokularen Kamera aufgenommen werden.
Die Bilder werden verarbeitet, um die räumliche Position des Zielsprechers relativ zur elektronischen Vorrichtung zu bestimmen. Basierend auf einem Abstand zwischen zwei Kameras in der binokularen Kamera, einer Brennweite jeder Kamera und einer Position des Zielsprechers in einem erfassten Bild kann ein Abstand des Zielsprechers relativ zur elektronischen Vorrichtung bestimmt werden. Entsprechend der Ausrichtung der Kamera in der elektronischen Vorrichtung sowie der Ausrichtung der elektronischen Vorrichtung kann die Ausrichtung des Zielsprechers relativ zur elektronischen Vorrichtung bestimmt werden.
Diese Art der Ermittlung der räumlichen Position des Zielsprechers in Bezug auf die elektronische Vorrichtung kann auch bei der Audioaufnahme und bei der Videoaufnahme verwendet werden. Da der Benutzer während der Audioaufzeichnung möglicherweise nicht darauf achtet, was der Videoinhalt ist, muss das von der Kamera aufgenommene Bild nicht angezeigt werden. Um dem Benutzer die Benutzung der elektronischen Vorrichtung zu erleichtern, kann ein von einer der Kameras aufgenommenes Bild in einem kleinen Fenster, z. B. einem schwebenden Fenster oder einem Pop-up-Fenster, angezeigt werden, so dass der Benutzer feststellen kann, wer das aktuelle Aufnahmeobjekt ist.
Bei einer Audio- oder Videoaufzeichnung kann ein Sprecher, der innerhalb eines Erfassungsbereichs von der Bilderfassungsvorrichtung erfasst wird, als Zielsprecher bestimmt werden. Ob eine Änderung des Zielsprechers vorliegt (z.B. ob der Zielsprecher von Zielsprecher A zu Zielsprecher B gewechselt ist), kann durch die Bilderfassung der Bilderfassungsvorrichtung bestimmt werden. Wenn eine Änderung des Zielsprechers erkannt wurde, wird eine Orientierung des Zielsprechers, wie sie sich relativ zur elektronischen Vorrichtung geändert hat, bestimmt, die geänderten ersten Audiodaten in der Richtung des Zielsprechers relativ zur elektronischen Vorrichtung werden erfasst, die zweiten Audiodaten der Umgebung, in der sich der Zielsprecher befindet, werden erfasst, um die geänderte räumliche Position des Zielsprechers relativ zur elektronischen Vorrichtung zu erhalten (kann basierend auf dem Mikrofonarray bestimmt werden und kann auch basierend auf der Kamera bestimmt werden). Entsprechend der räumlichen Position werden die geänderten ersten Audiodaten des Zielsprechers mit den von der elektronischen Vorrichtung erfassten zweiten Audiodaten gemischt, um die Zielaudiodaten zu erhalten.
In bestimmten Ausführungsbeispielen ist in 2 ein Flussdiagramm zum Mischen der ersten Audiodaten in die zweiten Audiodaten entsprechend der räumlichen Position dargestellt, das Folgendes umfassen kann:
Schritt S201: Bestimmen von Audioparametern der ersten Audiodaten in der elektronischen Vorrichtung in Abhängigkeit von der räumlichen Position.
Die Audioparameter der ersten Audiodaten in der elektronischen Vorrichtung beziehen sich auf Audioparameter, die vorhanden sind, wenn die Stimme des Zielsprechers von der elektronischen Vorrichtung erfasst wird.
In bestimmten Ausführungsbeispielen können die Audioparameter mindestens einen der folgenden Parameter umfassen, sind aber nicht darauf beschränkt: Schalldruck, Phase und Zeitverzögerung. Der Schalldruck entspricht einem Abstand, der die Größe des Tons darstellt. Die Phase und die Zeitverzögerung entsprechen jeweils sowohl dem Abstand als auch der Ausrichtung, die die Ausrichtung der Tonquelle relativ zur elektronischen Vorrichtung darstellt.
In bestimmten Ausführungsbeispielen sind die Audiodaten in der elektronischen Vorrichtung in einen linken Audiokanal und einen rechten Audiokanal unterteilt oder enthalten diese. Die Audioparameter jedes Audiokanals der ersten Audiodaten in den zweiten Audiodaten können in Abhängigkeit von der räumlichen Position bestimmt werden. Die Audioparameter jedes Audiokanals können mindestens einen der oben aufgeführten Audioparameter umfassen, sind aber nicht darauf beschränkt.
In bestimmten Ausführungsbeispielen können die Audioparameter der ersten Audiodaten in jedem Audiokanal der zweiten Audiodaten in Abhängigkeit von der Ausrichtung und dem Abstand des Zielsprechers relativ zur elektronischen Vorrichtung bestimmt werden.
Entsprechend dem Abstand des Zielsprechers zur elektronischen Vorrichtung und dem Abstand zwischen den beiden Ohren einer Person (in bestimmten Ausführungsbeispielen kann der Abstand der Abstand zwischen den beiden Ohren eines menschlichen Kopfmodells sein, das durch statistische Analyse mehrerer Personen im Voraus ermittelt wurde) wird der Schalldruck jedes Audiokanals in den zweiten Audiodaten aus den ersten Audiodaten bestimmt. Je größer der Abstand zwischen der Tonquelle und dem menschlichen Ohr ist, desto geringer ist der Schalldruck, und je geringer der Abstand zwischen der Tonquelle und dem menschlichen Ohr ist, desto größer ist der Schalldruck. Die Phase und die Zeitverzögerung der Stimme des Zielsprechers in jedem Audiokanal des zweiten Videos, wenn die Stimme des Zielsprechers an der elektronischen Vorrichtung ankommt, können in Abhängigkeit von der Position und der Ausrichtung des Zielsprechers relativ zur elektronischen Vorrichtung bestimmt werden.
Schritt S202: Kombinieren der ersten Audiodaten mit den zweiten Audiodaten entsprechend den Audioparametern.
In bestimmten Ausführungsbeispielen werden die ersten Audiodaten für jeden Audiokanal der zweiten Audiodaten entsprechend den Audioparametern des jeweiligen Audiokanals in den Audiokanal gemischt.
Wie in den 3a-3b gezeigt ist, ist 3a ein Flussdiagramm eines Audioverarbeitungsverfahrens gemäß bestimmten Ausführungsbeispielen, und 3b stellt eine relative Positionsbeziehung zwischen der Person und der in 3a gezeigten elektronischen Vorrichtung dar. Gezeigt wird ein Verfahren zum Aufnehmen einer Aktivitätsszene mit mehreren Personen im Freien. In dieser Szene trägt die Person (d.h. die Person, die der Kamera der elektronischen Vorrichtung am nächsten ist) ein Bluetooth-Headset, um den Dialog zu sprechen, während eine elektronische Vorrichtung (in einem bestimmten Abstand von der Person) mit einem Mikrofon-Array mit mehreren Mikrofonen (wie hier gezeigt, 3 Mikrofone, nämlich micl, mic2, mic3) das Video der Ereignisszene aufnimmt. In dieser Szene werden die drei Mikrofone verwendet, um den Ton der Szene (in der Regel 3D-Sound) aufzunehmen und die Person zu lokalisieren. Mit Hilfe der Sound-Positionierungs- und Tracking-Engine können die Positionsdaten der Person (d. h. die räumliche Position der Person relativ zur elektronischen Vorrichtung) ermittelt werden. Eine Tonmisch-Engine kann den Ton des Dialogs auf der Grundlage der Positionsdaten der Person in den 3D-Ton der großen Szene mischen.
Die Ausführungsbeispiele der vorliegenden Offenbarung sind nicht nur auf Szenarien im Freien anwendbar. Ausführungsbeispiele der vorliegenden Offenbarung sind auch auf Szenarien in Innenräumen anwendbar, und zwar nicht nur auf Szenarien mit mehreren Personen, sondern auch auf Szenarien mit einer einzelnen Person und einer lauten Umgebung (z. B. eine Person, die an einem windigen und regnerischen Tag Videoaufnahmen im Freien macht, usw.).
In bestimmten Ausführungsbeispielen stellt die vorliegende Offenbarung ferner ein sprachverarbeitendes Gerät bereit. Ein schematisches Strukturdiagramm des durch das/die Ausführungsbeispiel(e) der vorliegenden Offenbarung bereitgestellten Sprachverarbeitungsgeräts ist in 4 dargestellt, das Folgendes umfassen kann: ein Audiodaten-Erfassungsmodul 401, ein Räumliche-Position-Erfassungsmodul 402 und ein Datenverarbeitungsmodul 403.
Das Audiodatenerfassungsmodul 401 ist so konfiguriert, dass es die ersten Audiodaten des Zielsprechers und die zweiten Audiodaten der Umgebung, in der sich der Zielsprecher befindet, erfasst; wobei die ersten Audiodaten von der Audioerfassungsvorrichtung erfasst werden, die der Zielsprecher trägt, und die zweiten Audiodaten von der elektronischen Vorrichtung erfasst werden.
Das Räumliche-Position-Erfassungsmodul 402 ist so konfiguriert, dass es die räumliche Position des Zielsprechers relativ zu der elektronischen Vorrichtung ermittelt.
Das Datenverarbeitungsmodul 403 ist so konfiguriert, dass es die ersten Audiodaten mit den zweiten Audiodaten entsprechend der räumlichen Position mischt, um Ziel-Audiodaten zu erhalten; wenn die Ziel-Audiodaten ausgegeben werden, entspricht die Stimme des Zielsprechers der räumlichen Position.
In der Audioverarbeitungsvorrichtung, die durch das/die Ausführungsbeispiel(e) der vorliegenden Offenbarung bereitgestellt wird, kann die Klarheit der ersten Audiodaten gewährleistet werden, da die ersten Audiodaten durch die Audioerfassungsvorrichtung am Zielsprecher erfasst werden, während die zweiten Audiodaten durch die elektronische Vorrichtung erfasst werden, wodurch sichergestellt werden kann, dass die nach dem Mischen erhaltenen Zielaudiodaten den gesamten Ton einer größeren Szene abdecken. Entsprechend der räumlichen Position des Zielsprechers relativ zur elektronischen Vorrichtung ist nach dem Mischen der ersten Audiodaten mit den zweiten Audiodaten relativ sichergestellt, dass die gemischten Zielaudiodaten den gesamten Umgebungston abdecken können, während der Ton des Zielsprechers klar ausgegeben wird. Darüber hinaus kann aufgrund der Ausrichtung der Stimme des Zielsprechers mit der räumlichen Position bei der Ausgabe der Ziel-Audiodaten eine räumliche Wirkungsgenauigkeit der Stimme des Zielsprechers in den Ziel-Audiodaten entsprechend sichergestellt werden.
In bestimmten Ausführungsbeispielen werden die zweiten Audiodaten gemäß Audiodaten erhalten, die von einem Mikrofonarray der elektronischen Vorrichtung erfasst werden; das Modul zum Erhalten der räumlichen Position ist so konfiguriert, dass es: die räumliche Position des Zielsprechers relativ zur elektronischen Vorrichtung gemäß den von dem Mikrofonarray erfassten Audiodaten berechnet und erhält.
In bestimmten Ausführungsbeispielen ist das Modul zur Ermittlung der räumlichen Position so konfiguriert, dass es: ein Bild des Zielsprechers erfasst; das Bild verarbeitet, um die räumliche Position des Zielsprechers relativ zu der elektronischen Vorrichtung zu bestimmen.
In bestimmten Ausführungsbeispielen ist das Datenverarbeitungsmodul konfiguriert, um: Audioparameter der ersten Audiodaten in der elektronischen Vorrichtung entsprechend der räumlichen Position zu bestimmen; und die ersten Audiodaten entsprechend den Audioparametern in die zweiten Audiodaten zu mischen.
In bestimmten Ausführungsbeispielen umfasst die räumliche Position: eine Ausrichtung und Entfernung des Zielsprechers relativ zu der elektronischen Vorrichtung; wenn die Audioparameter der ersten Audiodaten in der elektronischen Vorrichtung gemäß der räumlichen Position bestimmt werden, ist das Modul zur Gewinnung der räumlichen Position konfiguriert, um: Bestimmen von Audioparametern der ersten Audiodaten in einem Audiokanal der zweiten Audiodaten entsprechend der Ausrichtung und Entfernung des Zielsprechers relativ zu der elektronischen Vorrichtung; beim Mischen der ersten Audiodaten in die zweiten Audiodaten entsprechend den Audioparametern ist das Datenverarbeitungsmodul so konfiguriert, dass es entsprechend jedem Audiokanal der zweiten Audiodaten Audioparameter der ersten Audiodaten entsprechend dem jeweiligen Audiokanal in den jeweiligen Audiokanal mischt.
In bestimmten Ausführungsbeispielen umfassen die Audioparameter mindestens einen der folgenden Parameter: Schalldruck, Phase und Zeitverzögerung.
In bestimmten Ausführungsbeispielen ist das Audiodaten-Erfassungsmodul bei der Erfassung der ersten Audiodaten des Zielsprechers so konfiguriert, dass es über einen drahtlosen Übertragungskanal die von der Audioerfassungsvorrichtung auf dem Zielsprecher übertragenen Audiodaten empfängt.
In bestimmten Ausführungsbeispielen stellt die vorliegende Offenbarung ferner eine elektronische Vorrichtung bereit. Ein schematisches Strukturdiagramm der elektronischen Vorrichtung ist in 5 dargestellt, die Folgendes umfassen kann: mindestens einen Prozessor 1 , mindestens eine Kommunikationsschnittstelle 2, mindestens einen Speicher 3 und mindestens einen Kommunikationsbus 4.
In bestimmten Ausführungsbeispielen ist die Anzahl des Prozessors 1, der Kommunikationsschnittstelle 2, des Speichers 3 und des Kommunikationsbusses 4 mindestens eins, und der Prozessor 1, die Kommunikationsschnittstelle 2 und der Speicher 3 kommunizieren miteinander über den Kommunikationsbus 4.
Der Prozessor 1 kann eine Zentraleinheit (CPU) oder ein anwendungsspezifischer integrierter Schaltkreis (ASIC) oder ein oder mehrere integrierte Schaltkreise sein, die so konfiguriert sind, dass sie die Ausführungsbeispiele der vorliegenden Offenbarung implementieren, usw.
Der Speicher 3 kann einen Hochgeschwindigkeits-RAM-Speicher, einen nichtflüchtigen Speicher (nicht-flüchtiger Speicher) usw. umfassen, wie z.B. mindestens einen Plattenspeicher, wobei der Speicher 3 ein Programm speichert und der Prozessor 1 das im Speicher 3 gespeicherte Programm aufrufen kann. Das Programm wird verwendet, um: die ersten Audiodaten des Zielsprechers und die zweiten Audiodaten der Umgebung, in der sich der Zielsprecher befindet, zu erhalten, wobei die ersten Audiodaten durch die Audioerfassungsvorrichtung am Zielsprecher erfasst werden und die zweiten Audiodaten durch die elektronische Vorrichtung erfasst werden; die räumliche Position des Zielsprechers relativ zur elektronischen Vorrichtung erhalten wird; und die ersten Audiodaten mit den zweiten Audiodaten gemäß der räumlichen Position gemischt werden, um Zielaudiodaten zu erhalten; und wobei, wenn die Zielaudiodaten ausgegeben werden, die Stimme des Zielsprechers mit der räumlichen Position übereinstimmt.
In bestimmten Ausführungsbeispielen kann für die Verfeinerungsfunktion und die Erweiterungsfunktion des Programms auf die obige Beschreibung verwiesen werden.
Ausführungsbeispiele der vorliegenden Offenbarung stellen ferner ein Speichermedium zur Verfügung, auf dem ein zur Ausführung durch einen Prozessor geeignetes Programm gespeichert werden kann, wobei das Programm verwendet wird, um: erste Audiodaten eines Zielsprechers und zweite Audiodaten über eine Umgebung, in der sich der Zielsprecher befindet, zu erhalten; wobei die ersten Audiodaten durch eine Audioerfassungsvorrichtung auf dem Zielsprecher erfasst werden und die zweiten Audiodaten durch die elektronische Vorrichtung erfasst werden; die räumliche Position der elektronischen Vorrichtung entsprechend der räumlichen Position erhalten wird, die ersten Audiodaten mit den zweiten Audiodaten gemischt werden, um Zielaudiodaten zu erhalten; wobei, wenn die Zielaudiodaten ausgegeben werden, die Stimme des Zielsprechers mit der räumlichen Position übereinstimmt.
In bestimmten Ausführungsbeispielen kann für die Verfeinerungsfunktion und die Erweiterungsfunktion des Programms auf die obige Beschreibung verwiesen werden.
Fachleute wissen, dass die Einheiten und Algorithmusschritte, die in Verbindung mit den hier offengelegten Ausführungsbeispielen beschrieben werden, in elektronischer Hardware oder in einer Kombination aus Computersoftware und elektronischer Hardware implementiert werden können. Ob die Funktionen durch die Hardware oder die Software ausgeführt werden, hängt von den jeweiligen Implementierungen und den konstruktiven Beschränkungen der technischen Lösung ab. Fachleute können die beschriebene Funktionalität durch die Anwendung verschiedener Methoden für jede einzelne Implementierung umsetzen, und solche Implementierungen sollten nicht als über den Rahmen der vorliegenden Offenbarung hinausgehend betrachtet werden.
In den Ausführungsbeispielen, die in der vorliegenden Offenbarung vorgesehen sind, können das offengelegte System, Gerät und Verfahren auf andere Weise implementiert werden. Die gezeigte oder erörterte relationale Kopplung oder direkte Kopplung oder Kommunikationsverbindung kann über Schnittstellen, indirekte Kopplung oder Kommunikationsverbindung von Vorrichtungen oder Einheiten ausgeführt werden und kann in elektrischer, mechanischer oder anderer Form erfolgen.
Die als separate Komponenten beschriebenen Einheiten können physisch getrennt sein oder auch nicht, und die als Einheiten dargestellten Komponenten können physische Einheiten sein oder auch nicht, d. h. sie können sich an einem Ort befinden oder auf mehrere Netzeinheiten verteilt sein. Einige oder alle Einheiten können entsprechend den tatsächlichen Bedürfnissen ausgewählt werden, um den Zweck der Lösung in den Ausführungsbeispielen zu erreichen.
Darüber hinaus kann jede Funktionseinheit gemäß Ausführungsbeispiel(en) der vorliegenden Offenbarung in eine Verarbeitungseinheit integriert sein, oder jede kann als unabhängige physische Einheit existieren, oder zwei oder mehr Einheiten können in eine Einheit integriert werden.
Gemäß Ausführungsbeispiel(en) der vorliegenden Offenbarung können abhängige Ansprüche, verschiedene Ausführungsformen und Merkmale miteinander kombiniert werden, um die vorgenannten technischen Probleme zu lösen.
Wenn die Funktionen in Form von Software-Funktionseinheiten implementiert und als unabhängige Produkte verkauft oder verwendet werden, können sie in einem computerlesbaren Speichermedium gespeichert werden. Die technische Lösung der vorliegenden Offenbarung im Wesentlichen oder ein Teil der technischen Lösung, der einen Beitrag zum Stand der Technik darstellt, oder ein Teil der technischen Lösung kann in Form eines Softwareprodukts verkörpert sein. Die Computersoftware kann in einem Speichermedium gespeichert sein, das mehrere Anweisungen enthält, die dazu verwendet werden, eine Vorrichtung (bei der es sich beispielsweise um einen Personal Computer, einen Server oder ein Netzwerkgerät handeln kann) zu veranlassen, alle oder einen Teil der Schritte der in den verschiedenen Ausführungsbeispielen der vorliegenden Offenbarung beschriebenen Verfahren auszuführen. Das Speichermedium umfasst: U-Disk, mobile Festplatte, Festwertspeicher (ROM, Read-Only Memory), Direktzugriffsspeicher (RAM, Random Access Memory), Magnetplatte oder optische Platte und andere Medien, die Programmcodes speichern können .
Die obige Beschreibung der offengelegten Ausführungsbeispiele ermöglicht es jedem Fachmann, die vorliegende Offenbarung herzustellen oder zu verwenden. Verschiedene Modifikationen dieser Ausführungsbeispiele sind für den Fachmann leicht erkennbar, und die hierin definierten allgemeinen Grundsätze können in anderen Ausführungsbeispielen umgesetzt werden, ohne vom Geist oder Umfang der vorliegenden Offenbarung abzuweichen. Daher ist die vorliegende Offenbarung nicht auf die hier gezeigten Ausführungsbeispiele beschränkt, sondern hat den größtmöglichen Anwendungsbereich, der mit den hier offenbarten Grundsätzen und neuen Merkmalen vereinbar ist.

Claims

Ein Audioverarbeitungsverfahren, angewandt auf eine elektronische Vorrichtung, wobei das Verfahren aufweist: Erhalten von ersten Audiodaten eines Zielsprechers und zweiten Audiodaten einer Umgebung, in der sich der Zielsprecher befindet, wobei die ersten Audiodaten durch eine Audioerfassungsvorrichtung am Zielsprecher und die zweiten Audiodaten durch die elektronische Vorrichtung erfasst werden; Erhalten einer Position des Zielsprechers relativ zu der elektronischen Vorrichtung; und Kombinieren der ersten Audiodaten mit den zweiten Audiodaten entsprechend der Position, um Zielaudiodaten zu erhalten, wobei eine Stimme des Zielsprechers mit der Position übereinstimmt, wenn die Zielaudiodaten ausgegeben werden.
Das Audioverarbeitungsverfahren nach Anspruch 1, wobei die zweiten Audiodaten gemäß Audiodaten erhalten werden, die von einem Mikrofonarray der elektronischen Vorrichtung erfasst werden, und wobei das Erhalten der Position des Zielsprechers relativ zu der elektronischen Vorrichtung aufweist: Erhalten der Position des Zielsprechers relativ zu elektronischen Vorrichtung anhand der von dem Mikrofon-Array erfassten Audiodaten.
Das Audioverarbeitungsverfahren nach Anspruch 1, wobei das Erhalten der Position des Zielsprechers relativ zur elektronischen Vorrichtung aufweist: Erhalten eines Bildes des Zielsprechers; Verarbeiten des Bildes zur Bestimmung des Standorts des Zielsprechers in Bezug auf die elektronische Vorrichtung.
Das Audioverarbeitungsverfahren nach Anspruch 1, wobei das Kombinieren der ersten Audiodaten mit den zweiten Audiodaten gemäß dem Ort aufweist: Bestimmen von Audioparametern der ersten Audiodaten in der elektronischen Vorrichtung in Abhängigkeit von der Position; und Kombinieren der ersten Audiodaten mit den zweiten Audiodaten gemäß den Audioparametern.
Das Audioverarbeitungsverfahren nach Anspruch 4, wobei der Standort eine Ausrichtung und einen Abstand des Zielsprechers relativ zu der elektronischen Vorrichtung aufweist, und wobei das Bestimmen der Audioparameter der ersten Audiodaten in der elektronischen Vorrichtung entsprechend der Position aufweist: Bestimmen eines Audioparameters eines Audiokanals der ersten Audiodaten in den zweiten Audiodaten entsprechend der Ausrichtung und dem Abstand des Zielsprechers relativ zu der elektronischen Vorrichtung; und wobei das Kombinieren der ersten Audiodaten mit den zweiten Audiodaten gemäß den Audioparametern aufweist: Kombinieren der ersten Audiodaten mit dem Audiokanal entsprechend jedem Audiokanal der zweiten Audiodaten, gemäß dem Audioparameter, der dem Audiokanal entspricht.
Das Audioverarbeitungsverfahren nach Anspruch 4, wobei der Audioparameter mindestens einen der Parameter Schalldruck, Phase und Zeitverzögerung umfasst.
Das Audioverarbeitungsverfahren nach Anspruch 1, wobei das Erhalten der ersten Audiodaten des Zielsprechers aufweist: Empfang der ersten Audiodaten über einen drahtlosen Übertragungskanal von der Audioerfassungsvorrichtung auf dem Zielsprecher.
Ein Audioverarbeitungsgerät, das aufweist: einen Speicher, der Computerprogrammanweisungen speichert; und einen Prozessor, der mit dem Speicher gekoppelt und so konfiguriert ist, dass er die Computerprogrammanweisungen ausführt und durchführt: Erhalten von ersten Audiodaten eines Zielsprechers und zweiten Audiodaten einer Umgebung, in der sich der Zielsprecher befindet, wobei die ersten Audiodaten durch eine Audioerfassungsvorrichtung am Zielsprecher und die zweiten Audiodaten durch die elektronische Vorrichtung erfasst werden; Erhalten einer Position des Zielsprechers relativ zu der elektronischen Vorrichtung; und Kombinieren der ersten Audiodaten mit den zweiten Audiodaten entsprechend der Position, um Zielaudiodaten zu erhalten, wobei eine Stimme des Zielsprechers mit der Position übereinstimmt, wenn die Zielaudiodaten ausgegeben werden.
Das Audioverarbeitungsgerät nach Anspruch 8, wobei die zweiten Audiodaten gemäß Audiodaten erhalten werden, die von einem Mikrofonarray der elektronischen Vorrichtung erfasst werden, und wobei das Erhalten der Position des Zielsprechers relativ zu der elektronischen Vorrichtung umfasst: Erhalten der Position des Zielsprechers relativ zu der elektronischen Vorrichtung anhand der von dem Mikrofon-Array erfassten Audiodaten.
Das Audioverarbeitungsgerät nach Anspruch 8, wobei das Ermitteln der Position des Zielsprechers relativ zu der elektronischen Vorrichtung umfasst: Erhalten eines Bildes des Zielsprechers; Verarbeiten des Bildes zur Bestimmung des Standorts des Zielsprechers in Bezug auf die elektronische Vorrichtung.