DE102007030546A1

DE102007030546A1 - Sprechverhaltenüberwachung

Info

Publication number: DE102007030546A1
Application number: DE102007030546A
Authority: DE
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-06-28
Filing date: 2007-06-28
Publication date: 2009-01-02

Abstract

Ein Verfahren und eine Einrichtung zur Erfassung der tatsächliche Sprechdauer und prozentualer Sprechdauer (Sprechverhalten) von Personen in einem Kollektiv von Personen in einer Sprechrunde dadurch gekennzeichnet, daß das akustische Signal erfaßt und verarbeitet wird um den Sprecher zu identifizieren und die tatsächliche Sprechdauer und die prozentuale Sprechdauer sowie die Häufigkeit der Unterbrechungen in Anzahl pro Zeiteinheit ab einem vorgegebenen Zeitpunkt zu ermitteln und zur Anzeige zu bringen.

Description

1 Einleitung
Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur Erfassung und Anzeige von Sprechdauer und prozentualer Sprechdauer sowie Häufigkeit von Unterbrechungen von Gesprächsteilnehmern, die sich in einem Kollektiv befinden, wie in einer Besprechung, Talk-show oder ähnlichen Runden, indem Sprachsignale kontinuierlich mittels eines oder mehreren Mikrofonen aufgenommen, und zur Berechnung, Ermittlung und Anzeige der Sprechdauer, der prozentualen Sprechdauer sowie der Häufigkeit von Unterbrechungen der einzelnen Personen verarbeitet werden. Damit wird das generische System geschaffen, mit dem man Aufgaben der Überwachung und Kontrolle von Gesprächsverhalten einzelner Teilnehmer in der Gesprächsrunde lösen kann.
2 Stand der Technik
Um fest zu stellen, welche Person in einer örtlich festen Kollektiv von Personen gerade spricht, kann man entweder die Merkmale seines Sprachsignals erkennen und/oder explizit oder implizit die Person orten. Verfahren zur Sprechererkennung anhand Betrachtungen des Sprachsignals in Zeit-, Spektral- oder Cepstralbereichen werden seit einigen Jahrzehnten in der Literatur behandelt. Man unterscheidet dabei zwischen Sprecheridentifikation und Sprecherverifikation. Bei der ersten geht es um die Feststellung, ob ein vorliegendes Sprachsignal von einer bestimmten Person gesprochen wurde. Bei der Sprecherverifikation, die hier vom Interesse ist, wird festgestellt, ob das vorliegende Sprachaufzeichnung von einen aus einer Anzahl von bestimmten Personen gesprochen worden ist /O'Shaughnessy, 1986/.
Die Verfahren werden meist als off-line Verfahren zur Bearbeitung von Signalen, die auf einen Tonträger wie z. B. auf ein Tonband aufgenommen wurden, realisiert. Die Zuverlässigkeit der Verfahren, vor allem beim on-line Anwendung, wie es im vorliegenden Aufgabenstellung erforderlich ist, ist beschränkt. Die Identifikation von Sprechern in einer Gruppe von sich nicht bewegenden Personen kann durch Bestimmung der Direction of Arrival (Antreffwinkel) ermittelt werden. Hierzu wird eine räumlich verteilte Mikrofonenanordnung eingesetzt. Eine derartige Anwendung im akustischen Spektralbereich wird in /Takeshi et al, 1996/ vorgeschlagen.
In der Erfindung wird ein Verfahren und eine Einrichtung zur Sprechererkennung angegeben, das durch Verwertung von örtlichen und spektralen Eigenschaften des empfangenen Signals eine zuverlässigere Erkennung vom Sprecher gewährleistet. Sprechererkennung ist nicht bekannt.
Zur Verarbeitung der Signale werden A-D.Wandler und digitale Signalprozessoren eingesetzt.
Die Verarbeitung erfolgt im Zeit-Spektrum und Zeit-Raum-Verfahren.
3 Funktionsweise des neuen Verfahrens und der neuen Einrichtung
Das Verfahren besteht aus folgenden Funktionen:

(a) Erfassung des akustischen Signals s(t), das mit einem Mikrofon bzw. der akustischen Signale
die mit m richtungsempfindlichen Mikrofonen aufgenommen werden.
(b) Abtastung der Signale mit einer Abtastrate 1/Ta. Zerlegung der Signalfolgen in Ausschnitte geeigneter Länge T_D (gleitendes Fenster)
(c) Verarbeitung der Signalausschnitte s(t), s θ(t), TD ≤ t ≤ (k + 1)TD, k = 0, 1, 2...um einen Schätzwert für den Ankunftswinkel θ d zu ermitteln.
(d) Verarbeitung der Signalausschnitte im Spektralbereich um einen Satz von geeigneten Merkmalen M_i = mm_i1, m_i2, ... m_in der Signale s_i, i = 1, 2, ..., m zu ermitteln.
(e) Durchführung einer Trainingsphase, um eine Zuordnung von Ankunftswinkel und von Merkmalsbereichen zu den Sprechern vorzunehmen. Übergang zur Betriebsphase in der der gerade sprechende /die gerade sprechenden Sprecher laufend identifiziert wird/ werden, um die Daten des Ablaufs des Gesprächs zu erfassen und abzuspeichern. Zur Identifikation wird das Empfangssignal verarbeitet, um θ und M_i zu berechnen, um daraus mit einem geeigneten Klassifikationsverfahren der Sprecher identifiziert.
(f) Nach der Identifikation des Sprechers σ_i wird durch Aufsummieren der Zeitdauer N_σ _; von Intervallen, während der er gesprochen hat ermittelt. Zugleich wird festgestellt, ob er einen Vorredner unterbrochen hat.
(g) Die einzelnen Sprechzeiten, die prozentualen Sprechzeiten und die Anzahl von Unterbrechungen werden an einem Monitor laufend zur Anzeige gebracht bzw. abgespeichert.

Literatur:

O'Shaughnessy. D. Speaker recognition. IEEE Acoustics, Speech and Signal Processing Magazine, 1986
Takeshi et al, Robust speech recognition with speaker localisation by a microphone array Proc. Conference an Spoken Language, 1996

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

- O'Shaughnessy, 1986 [0002]
- Takeshi et al, 1996 [0003]
- O'Shaughnessy. D. Speaker recognition. IEEE Acoustics, Speech and Signal Processing Magazine, 1986 [0007]
- Takeshi et al, Robust speech recognition with speaker localisation by a microphone array Proc. Conference an Spoken Language, 1996 [0007]

Claims

Ein Verfahren und eine Einrichtung zur Erfassung der tatsächliche Sprechdauer und prozentualer Sprechdauer (Sprechverhalten) von Personen in einem Kollektiv von Personen in einer Sprechrunde dadurch gekennzeichnet, daß das akustische Signal erfaßt und verarbeitet wird um den Sprecher zu identifizieren und die tatsächliche Sprechdauer und die prozentuale Sprechdauer sowie die Häufigkeit der Unterbrechungen in Anzahl pro Zeiteinheit ab einem vorgegebenen Zeitpunkt zu ermitteln und zur Anzeige zu bringen.
Verfahren nach Anspruch 1 dadurch gekennzeichnet, daß die Richtung des ankommenden Signals mit Hilfe einer räumlich verteilten Anordnung von n richtungsempfindliche Mikrofonen erfaßt und zur Sprecheridentifikation herangezogen wird, und/oder, daß die empfangene Signale s₁(t), s₂(t), ..., s_n(t) einer Spektralanalyse unterworfen werden und die Ergebnisse der Spektralanalyse in Merkmale umgesetzt werden, die zur Identifikation des Sprechers herangezogen werden.
Verfahren nach 1 und 2 dadurch gekennzeichnet, daß zur Identifikation der Person ein Klassifikationsverfahren mit einer Trainingsphase und einer Betriebsphase eingesetzt wird.
Verfahren nach 1 und 2, dadurch gekennzeichnet, dass die ankommenden n Signale s₁(t), s₂(t), ..., s_n(t) in den Abschnitten [m.Ta, (m + 1).Ta], m = 0, k.T_a, 2k.T_a, ..., fortlaufend zerlegt werden und die Abschnitte jeweils zu den Zeitpunkten mT_a + j.T_a, j = 1, 2, ..., k abgetastet werden, um für den m. Abschnitt die Folgen
zu bilden, mit denen durch implizit oder explizite Korrelation die Antreffwinkel der akustischen Signale bestimmt werden, bzw. durch Verwendung einer Fast Fourier Transform (FFT) und/oder Waveletanalyse die Merkmale der Zeit-Frequenz-Charakteristiken der Signale erfasst und durch einen Merkmalsvektor m, v = [v1, v2, ..., vp]abgebildet werden.
Verfahren nach 1, 2, 3 und 4 dadurch gekennzeichnet, daß die Zuordnung von einzelnen Sprechern jeweils zu einem Bereich des Merkmalsvektors v durch eine Trainingsphase nach einem geeigneten Verfahren vorgenommen wird.
Verfahren nach 1, 2, 3, 4 und 5 dadurch gekennzeichnet, dass ein künstliches neuronales Netz für das Antrainieren eingesetzt wird.
Verfahren nach 1, 2, 3, 4 und 5 dadurch gekennzeichnet, dass ein k – Nearest Neighbour Verfahren für das Antrainieren und Klassifikation der Merkmalsvektoren eingesetzt wird.
Verfahren nach 1, 2 und 3 dadurch gekennzeichnet, dass nach in der Betriebsphase, die der Trainigsphase anschliesst, die ankommenden n Signale s₁(t), s₂(t), ..., s_n(t) in den Abschnitten [m.Ta, (m + 1).Ta] , m = 0, k.T_a, 2k.T_a, ..., fortlaufend zerlegt werden und die Abschnitte jeweils zu den Zeitpunkten mT_a + j.T_a, j = 1, 2, ..., k abgetastet werden, um für den m. Abschnitt die Folgen
zu bilden, die auf Zugehörigkeit zu den antrainierten Bereichen des Merkmalsraums geprüft werden, um die sprechende(n) Person(en) zu erkennen.
Verfahren nach 1, 2, 3 und 8 dadurch gekennzeichnet, dass die Zeitabschnitte [m.kTa, (m + 1)kTa], während welche die Person P_i als sprechende Person identifiziert wurde, laufend aufsummiert und die Summen S_i zur jeweiligen Personen P_i zugeordnet werden und aus den Summen S_i die Sprechzeiten T_i = S_im.T_a und die prozentualen Sprechzeiten r_i = 100.s_i/(s_i + s₂ + s₃ + ... + s_n) berechnet werden.
Verfahren nach 1, 2, 3 und 8 dadurch gekennzeichnet, dass die Identfikation der Person P_i im m. Abschnitt als sprechende Person, wobei im m. und/oder (m – 1). Abschnitt eine andere Person als sprechende Person ermittelt wird, als eine Unterbrechung der Person P_i aufgefasst und registriert wird und die registrierten Anzahlen der Unterbrechungen der einzelnen Personen ermittelt und zur Anzeige gebracht werden.