DE102007030546A1 - Sprechverhaltenüberwachung - Google Patents

Sprechverhaltenüberwachung Download PDF

Info

Publication number
DE102007030546A1
DE102007030546A1 DE102007030546A DE102007030546A DE102007030546A1 DE 102007030546 A1 DE102007030546 A1 DE 102007030546A1 DE 102007030546 A DE102007030546 A DE 102007030546A DE 102007030546 A DE102007030546 A DE 102007030546A DE 102007030546 A1 DE102007030546 A1 DE 102007030546A1
Authority
DE
Germany
Prior art keywords
person
speaker
percentage
speaking
speech duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102007030546A
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE102007030546A priority Critical patent/DE102007030546A1/de
Publication of DE102007030546A1 publication Critical patent/DE102007030546A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Ein Verfahren und eine Einrichtung zur Erfassung der tatsächliche Sprechdauer und prozentualer Sprechdauer (Sprechverhalten) von Personen in einem Kollektiv von Personen in einer Sprechrunde dadurch gekennzeichnet, daß das akustische Signal erfaßt und verarbeitet wird um den Sprecher zu identifizieren und die tatsächliche Sprechdauer und die prozentuale Sprechdauer sowie die Häufigkeit der Unterbrechungen in Anzahl pro Zeiteinheit ab einem vorgegebenen Zeitpunkt zu ermitteln und zur Anzeige zu bringen.

Description

  • 1 Einleitung
  • Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur Erfassung und Anzeige von Sprechdauer und prozentualer Sprechdauer sowie Häufigkeit von Unterbrechungen von Gesprächsteilnehmern, die sich in einem Kollektiv befinden, wie in einer Besprechung, Talk-show oder ähnlichen Runden, indem Sprachsignale kontinuierlich mittels eines oder mehreren Mikrofonen aufgenommen, und zur Berechnung, Ermittlung und Anzeige der Sprechdauer, der prozentualen Sprechdauer sowie der Häufigkeit von Unterbrechungen der einzelnen Personen verarbeitet werden. Damit wird das generische System geschaffen, mit dem man Aufgaben der Überwachung und Kontrolle von Gesprächsverhalten einzelner Teilnehmer in der Gesprächsrunde lösen kann.
  • 2 Stand der Technik
  • Um fest zu stellen, welche Person in einer örtlich festen Kollektiv von Personen gerade spricht, kann man entweder die Merkmale seines Sprachsignals erkennen und/oder explizit oder implizit die Person orten. Verfahren zur Sprechererkennung anhand Betrachtungen des Sprachsignals in Zeit-, Spektral- oder Cepstralbereichen werden seit einigen Jahrzehnten in der Literatur behandelt. Man unterscheidet dabei zwischen Sprecheridentifikation und Sprecherverifikation. Bei der ersten geht es um die Feststellung, ob ein vorliegendes Sprachsignal von einer bestimmten Person gesprochen wurde. Bei der Sprecherverifikation, die hier vom Interesse ist, wird festgestellt, ob das vorliegende Sprachaufzeichnung von einen aus einer Anzahl von bestimmten Personen gesprochen worden ist /O'Shaughnessy, 1986/.
  • Die Verfahren werden meist als off-line Verfahren zur Bearbeitung von Signalen, die auf einen Tonträger wie z. B. auf ein Tonband aufgenommen wurden, realisiert. Die Zuverlässigkeit der Verfahren, vor allem beim on-line Anwendung, wie es im vorliegenden Aufgabenstellung erforderlich ist, ist beschränkt. Die Identifikation von Sprechern in einer Gruppe von sich nicht bewegenden Personen kann durch Bestimmung der Direction of Arrival (Antreffwinkel) ermittelt werden. Hierzu wird eine räumlich verteilte Mikrofonenanordnung eingesetzt. Eine derartige Anwendung im akustischen Spektralbereich wird in /Takeshi et al, 1996/ vorgeschlagen.
  • In der Erfindung wird ein Verfahren und eine Einrichtung zur Sprechererkennung angegeben, das durch Verwertung von örtlichen und spektralen Eigenschaften des empfangenen Signals eine zuverlässigere Erkennung vom Sprecher gewährleistet. Sprechererkennung ist nicht bekannt.
  • Zur Verarbeitung der Signale werden A-D.Wandler und digitale Signalprozessoren eingesetzt.
  • Die Verarbeitung erfolgt im Zeit-Spektrum und Zeit-Raum-Verfahren.
  • 3 Funktionsweise des neuen Verfahrens und der neuen Einrichtung
  • Das Verfahren besteht aus folgenden Funktionen:
    • (a) Erfassung des akustischen Signals s(t), das mit einem Mikrofon bzw. der akustischen Signale
      Figure 00020001
      die mit m richtungsempfindlichen Mikrofonen aufgenommen werden.
    • (b) Abtastung der Signale mit einer Abtastrate 1/Ta. Zerlegung der Signalfolgen in Ausschnitte geeigneter Länge TD (gleitendes Fenster)
    • (c) Verarbeitung der Signalausschnitte s(t), s θ(t), TD ≤ t ≤ (k + 1)TD, k = 0, 1, 2...um einen Schätzwert für den Ankunftswinkel θ d zu ermitteln.
    • (d) Verarbeitung der Signalausschnitte im Spektralbereich um einen Satz von geeigneten Merkmalen Mi = mmi1, mi2, ... min der Signale si, i = 1, 2, ..., m zu ermitteln.
    • (e) Durchführung einer Trainingsphase, um eine Zuordnung von Ankunftswinkel und von Merkmalsbereichen zu den Sprechern vorzunehmen. Übergang zur Betriebsphase in der der gerade sprechende /die gerade sprechenden Sprecher laufend identifiziert wird/ werden, um die Daten des Ablaufs des Gesprächs zu erfassen und abzuspeichern. Zur Identifikation wird das Empfangssignal verarbeitet, um θ und Mi zu berechnen, um daraus mit einem geeigneten Klassifikationsverfahren der Sprecher identifiziert.
    • (f) Nach der Identifikation des Sprechers σi wird durch Aufsummieren der Zeitdauer Nσ ; von Intervallen, während der er gesprochen hat ermittelt. Zugleich wird festgestellt, ob er einen Vorredner unterbrochen hat.
    • (g) Die einzelnen Sprechzeiten, die prozentualen Sprechzeiten und die Anzahl von Unterbrechungen werden an einem Monitor laufend zur Anzeige gebracht bzw. abgespeichert.
  • Literatur:
    • O'Shaughnessy. D. Speaker recognition. IEEE Acoustics, Speech and Signal Processing Magazine, 1986
    • Takeshi et al, Robust speech recognition with speaker localisation by a microphone array Proc. Conference an Spoken Language, 1996
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • - O'Shaughnessy, 1986 [0002]
    • - Takeshi et al, 1996 [0003]
    • - O'Shaughnessy. D. Speaker recognition. IEEE Acoustics, Speech and Signal Processing Magazine, 1986 [0007]
    • - Takeshi et al, Robust speech recognition with speaker localisation by a microphone array Proc. Conference an Spoken Language, 1996 [0007]

Claims (10)

  1. Ein Verfahren und eine Einrichtung zur Erfassung der tatsächliche Sprechdauer und prozentualer Sprechdauer (Sprechverhalten) von Personen in einem Kollektiv von Personen in einer Sprechrunde dadurch gekennzeichnet, daß das akustische Signal erfaßt und verarbeitet wird um den Sprecher zu identifizieren und die tatsächliche Sprechdauer und die prozentuale Sprechdauer sowie die Häufigkeit der Unterbrechungen in Anzahl pro Zeiteinheit ab einem vorgegebenen Zeitpunkt zu ermitteln und zur Anzeige zu bringen.
  2. Verfahren nach Anspruch 1 dadurch gekennzeichnet, daß die Richtung des ankommenden Signals mit Hilfe einer räumlich verteilten Anordnung von n richtungsempfindliche Mikrofonen erfaßt und zur Sprecheridentifikation herangezogen wird, und/oder, daß die empfangene Signale s1(t), s2(t), ..., sn(t) einer Spektralanalyse unterworfen werden und die Ergebnisse der Spektralanalyse in Merkmale umgesetzt werden, die zur Identifikation des Sprechers herangezogen werden.
  3. Verfahren nach 1 und 2 dadurch gekennzeichnet, daß zur Identifikation der Person ein Klassifikationsverfahren mit einer Trainingsphase und einer Betriebsphase eingesetzt wird.
  4. Verfahren nach 1 und 2, dadurch gekennzeichnet, dass die ankommenden n Signale s1(t), s2(t), ..., sn(t) in den Abschnitten [m.Ta, (m + 1).Ta], m = 0, k.Ta, 2k.Ta, ..., fortlaufend zerlegt werden und die Abschnitte jeweils zu den Zeitpunkten mTa + j.Ta, j = 1, 2, ..., k abgetastet werden, um für den m. Abschnitt die Folgen
    Figure 00030001
    zu bilden, mit denen durch implizit oder explizite Korrelation die Antreffwinkel der akustischen Signale bestimmt werden, bzw. durch Verwendung einer Fast Fourier Transform (FFT) und/oder Waveletanalyse die Merkmale der Zeit-Frequenz-Charakteristiken der Signale erfasst und durch einen Merkmalsvektor m, v = [v1, v2, ..., vp]abgebildet werden.
  5. Verfahren nach 1, 2, 3 und 4 dadurch gekennzeichnet, daß die Zuordnung von einzelnen Sprechern jeweils zu einem Bereich des Merkmalsvektors v durch eine Trainingsphase nach einem geeigneten Verfahren vorgenommen wird.
  6. Verfahren nach 1, 2, 3, 4 und 5 dadurch gekennzeichnet, dass ein künstliches neuronales Netz für das Antrainieren eingesetzt wird.
  7. Verfahren nach 1, 2, 3, 4 und 5 dadurch gekennzeichnet, dass ein k – Nearest Neighbour Verfahren für das Antrainieren und Klassifikation der Merkmalsvektoren eingesetzt wird.
  8. Verfahren nach 1, 2 und 3 dadurch gekennzeichnet, dass nach in der Betriebsphase, die der Trainigsphase anschliesst, die ankommenden n Signale s1(t), s2(t), ..., sn(t) in den Abschnitten [m.Ta, (m + 1).Ta] , m = 0, k.Ta, 2k.Ta, ..., fortlaufend zerlegt werden und die Abschnitte jeweils zu den Zeitpunkten mTa + j.Ta, j = 1, 2, ..., k abgetastet werden, um für den m. Abschnitt die Folgen
    Figure 00030002
    zu bilden, die auf Zugehörigkeit zu den antrainierten Bereichen des Merkmalsraums geprüft werden, um die sprechende(n) Person(en) zu erkennen.
  9. Verfahren nach 1, 2, 3 und 8 dadurch gekennzeichnet, dass die Zeitabschnitte [m.kTa, (m + 1)kTa], während welche die Person Pi als sprechende Person identifiziert wurde, laufend aufsummiert und die Summen Si zur jeweiligen Personen Pi zugeordnet werden und aus den Summen Si die Sprechzeiten Ti = Sim.Ta und die prozentualen Sprechzeiten ri = 100.si/(si + s2 + s3 + ... + sn) berechnet werden.
  10. Verfahren nach 1, 2, 3 und 8 dadurch gekennzeichnet, dass die Identfikation der Person Pi im m. Abschnitt als sprechende Person, wobei im m. und/oder (m – 1). Abschnitt eine andere Person als sprechende Person ermittelt wird, als eine Unterbrechung der Person Pi aufgefasst und registriert wird und die registrierten Anzahlen der Unterbrechungen der einzelnen Personen ermittelt und zur Anzeige gebracht werden.
DE102007030546A 2007-06-28 2007-06-28 Sprechverhaltenüberwachung Ceased DE102007030546A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102007030546A DE102007030546A1 (de) 2007-06-28 2007-06-28 Sprechverhaltenüberwachung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102007030546A DE102007030546A1 (de) 2007-06-28 2007-06-28 Sprechverhaltenüberwachung

Publications (1)

Publication Number Publication Date
DE102007030546A1 true DE102007030546A1 (de) 2009-01-02

Family

ID=40076062

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102007030546A Ceased DE102007030546A1 (de) 2007-06-28 2007-06-28 Sprechverhaltenüberwachung

Country Status (1)

Country Link
DE (1) DE102007030546A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120179466A1 (en) * 2011-01-11 2012-07-12 Hon Hai Precision Industry Co., Ltd. Speech to text converting device and method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005027454A1 (de) * 2004-06-14 2006-02-02 Mediatek Inc. Mehrfach-Zeitmessvorrichtung
US20070071206A1 (en) * 2005-06-24 2007-03-29 Gainsboro Jay L Multi-party conversation analyzer & logger

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005027454A1 (de) * 2004-06-14 2006-02-02 Mediatek Inc. Mehrfach-Zeitmessvorrichtung
US20070071206A1 (en) * 2005-06-24 2007-03-29 Gainsboro Jay L Multi-party conversation analyzer & logger

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
O'Shaughnessy, 1986
O'Shaughnessy. D. Speaker recognition. IEEE Acoustics, Speech and Signal Processing Magazine, 1986
Takeshi et al, 1996
Takeshi et al, Robust speech recognition with speaker localisation by a microphone array Proc. Conference an Spoken Language, 1996
Takeshi et al.: "Robust Speech Recognition with Sp eaker Localization by a Microphone Array". In: Pro c on Spoken Language (ICSLP 96), Vol. 3, 1996, S. 1317-1320
Takeshi et al.: "Robust Speech Recognition with Speaker …Localization by a Microphone Array". In: Proc on Spoken Language (ICSLP 96), Vol. 3, 1996, S. 1317-1320; *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120179466A1 (en) * 2011-01-11 2012-07-12 Hon Hai Precision Industry Co., Ltd. Speech to text converting device and method

Similar Documents

Publication Publication Date Title
Sakashita et al. Acoustic scene classification by ensemble of spectrograms based on adaptive temporal divisions
Mohan Speech recognition using MFCC and DTW
US6453284B1 (en) Multiple voice tracking system and method
US10511712B2 (en) Caller identification in a secure environment using voice biometrics
CN110299142A (zh) 一种基于网络融合的声纹识别方法及装置
DE60319796T2 (de) Rauschreduzierung und audiovisuelle Sprachaktivitätsdetektion
Cristani et al. Look at who’s talking: Voice activity detection by automated gesture analysis
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
Richardson et al. Channel compensation for speaker recognition using map adapted plda and denoising dnns.
Zeppelzauer et al. Acoustic detection of elephant presence in noisy environments
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
DE112018007847T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
Yella et al. A comparison of neural network feature transforms for speaker diarization.
CN105679323A (zh) 一种号码发现方法及系统
DE102019201456B3 (de) Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgerätes
JPWO2011007497A1 (ja) 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
DE102007030546A1 (de) Sprechverhaltenüberwachung
KR20200140235A (ko) 대상 화자의 음성 모델을 구축하기 위한 방법 및 디바이스
JP6404780B2 (ja) ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム
Du et al. Dnn feature compensation for noise robust speaker verification
Wang et al. Performance of gaussian mixture models as a classifier for pathological voice
Inoue et al. Speaker diarization using eye-gaze information in multi-party conversations
EP1489597A2 (de) Vorrichtung zur Sprachdetektion
Saraf et al. Distribution learning for age estimation from speech
Srivastava et al. Classification of emotions from speech using implicit features

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8122 Nonbinding interest in granting licences declared
8131 Rejection