DE60210739T2 - Spracheingabegerät mit Geräuschunterdrückung - Google Patents

Spracheingabegerät mit Geräuschunterdrückung Download PDF

Info

Publication number
DE60210739T2
DE60210739T2 DE60210739T DE60210739T DE60210739T2 DE 60210739 T2 DE60210739 T2 DE 60210739T2 DE 60210739 T DE60210739 T DE 60210739T DE 60210739 T DE60210739 T DE 60210739T DE 60210739 T2 DE60210739 T2 DE 60210739T2
Authority
DE
Germany
Prior art keywords
machine interface
unit
information
voice
detection unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60210739T
Other languages
English (en)
Other versions
DE60210739D1 (de
Inventor
Fujitsu Limited Takeshi Kawasaki-shi Otani
Fujitsu Limited Yasushi Kawasaki-shi Yamazaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Application granted granted Critical
Publication of DE60210739D1 publication Critical patent/DE60210739D1/de
Publication of DE60210739T2 publication Critical patent/DE60210739T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Noise Elimination (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Spracheingabegerät, das eine Spracheingabe, wie etwa Aufzeichnungsausrüstung, ein Mobiltelefonendgerät oder einen Personalcomputer, benötigt.
  • In den letzten Jahren wird oftmals, neben einer Telefongesprächsfunktion, eine Datenkommunikationsfunktion zum Senden und Empfangen von Textdaten von ungefähr mehreren hundert Zeichen als Standardausrüstung in ein tragbares Endgerät, wie etwa ein Mobiltelefonendgerät oder ein Endgerät eines Personal Handyphone Systems (PHS) installiert.
  • Nach IMT-2000 (International Mobile Telecommunications-2000), das ein Kommunikationsmodell der nächsten Generation ist, verwendet ein tragbares Endgerät eine Vielzahl von Leitungen, und es ist dadurch möglich, Datenkommunikation durchzuführen, ohne Sprachkommunikation zu unterbrechen, während die Sprachkommunikation gehalten wird. Dementsprechend kann ein tragbares Endgerät dieser Art möglicherweise in einem Fall verwendet werden, bei dem Text während eines Telefongesprächs mittels Betätigungstasten eingegeben wird, und dann auch Datenkommunikation durchgeführt wird.
  • In den letzten Jahren wurde einem Internet Protocol (IP) Telefonsystem, das weniger teure Gesprächsgebühren benötigt, als ein normales Telefongespräch, Aufmerksamkeit gewidmet. Dieses IP-Telefonsystem wird als ein Internet-Telefonsystem bezeichnet. Dies ist ein Kommunikationssystem, das ein Telefongespräch, ähnlich einem normalen Telefongespräch, ermöglicht, indem Sprachdaten zwischen IP-Telefongeräten, von denen jedes mit einem Mikrofon und einem Lautsprecher versehen ist, ausgetauscht werden.
  • Das IP-Telefongerät ist ein Computer, der Netzwerkkommunikation ermöglicht und mit einer E-Mail-Sende-/Empfangsfunktion ausgerüstet ist durch die Betätigung einer Mensch-Maschine-Schnittstelle, wie etwa einer Tastatur und einer Maus.
  • Wie oben erklärt, wird indessen, wenn eine Mensch-Maschine-Schnittstelle (Tasten, Tastatur, Maus) während eines Telefongesprächs betätigt wird, wenn ein herkömmliches Telefonendgerät oder ein IP-Telefongerät verwendet wird, ein Betätigungsgeräusch (Klickgeräusch oder dergleichen), das als Störgeräusch empfunden wird, durch das Mikrofon erfasst und auf die Sprache überlagert. Daher wird die Tonqualität in nachteiliger Weise stark beeinträchtigt.
  • Um dieses Problem zu lösen, kann man in Betracht ziehen, ein Verfahren einzusetzen, die Komponente des Störgeräuschs (Betätigungsgeräusch), die in Sprachsignalen enthalten ist, die in das Mikrofon eingegeben werden, mittels eines Störgeräuschbeseitigungsgeräts zu beseitigen. Nach diesem Verfahren kann jedoch die Seite des Störgeräuschbeseitigungsgeräts nicht das Auftreten eines Betätigungsgeräusches vorhersagen, und daher muss die Störgeräuschbeseitigungsverarbeitung stets an dem Geräuschsignal, das in das Mikrofon eingegeben wird, ausgeführt werden. Somit wird bei diesem Verfahren die Störgeräuschbeseitigungsverarbeitung auf dem Geräuschsignal durchgeführt, auch, wenn kein Störgeräusch vorhanden ist, was unausweichlich die Beeinträchtigung der Tonqualität nach sich zieht.
  • US-A-5930372 offenbart ein Spracheingabegerät, dass die Bewegung eines Stifts über ein berührungsempfindliches Feld detektieren und ein geräuschlöschendes Signal, das dem Reibungsgeräusch der Bewegung des Stifts entspricht, erzeugen kann, wenn die Bewegungsgeschwindigkeit einen Schwellenwert übersteigt.
  • Es ist wünschenswert, ein Spracheingabegerät bereitzustellen, das in der Lage ist, ein als Störgeräusch angesehenes Betätigungsgeräusch, das erzeugt wird, wenn eine Mensch-Maschine-Schnittstelle betätigt wird, effizient zu beseitigen und die Tonqualität zu verbessern.
  • Die Erfindung ist in den unabhängigen Ansprüchen, auf die nun Bezug genommen werden sollte, definiert. Vorteilhafte Merkmale werden in den Unteransprüchen detailliert beschrieben.
  • Bevorzugte Merkmale der vorliegenden Erfindung werden nun rein beispielhaft beschrieben, unter Bezugnahme auf die beigefügten Zeichnungen, in denen:
  • 1 ein Blockdiagramm ist, das den Aufbau einer ersten Ausführungsform der vorliegenden Erfindung zeigt,
  • 2 eine Ansicht ist, die den äußeren Aufbau eines in 1 gezeigten tragbaren Endgeräts 10 zeigt,
  • 3 ein Diagramm ist, das den Aufbau eines in 1 gezeigten Tastenabschnitts 20 zeigt,
  • 4 ein Diagramm ist, das die Wellenform eines in 1 gezeigten Tastendetektierungssignals S2 zeigt,
  • 5A und 5B Diagramme sind, die die Verarbeitung für Wellenforminterpolation in der ersten Ausführungsform erklären,
  • 6 ein Ablaufdiagramm ist, das die Betätigungen der ersten Ausführungsform erklärt,
  • 7 ein Ablaufdiagramm ist, das die Verarbeitung für die Wellenforminterpolation, die 6 gezeigt wird, erklärt,
  • 8 ein Blockdiagramm ist, das den Aufbau einer zweiten Ausführungsform der vorliegenden Erfindung zeigt,
  • 9 ein Blockdiagramm ist, das den Aufbau einer dritten Ausführungsform der vorliegenden Erfindung zeigt,
  • 10 ein Blockdiagramm ist, das den Aufbau einer vierten Ausführungsform der vorliegenden Erfindung zeigt,
  • 11 ein Blockdiagramm ist, das den Aufbau einer fünften Ausführungsform der vorliegenden Erfindung zeigt,
  • 12 ein Blockdiagramm ist, das den Aufbau einer sechsten Ausführungsform der vorliegenden Erfindung zeigt,
  • 13 ein Diagramm ist, das die Wellenform eines in 12 gezeigten Referenzsignals S4 zeigt,
  • 14 ein Blockdiagramm ist, das den schematischen Aufbau einer siebten Ausführungsform der vorliegenden Erfindung zeigt,
  • 15 ein Blockdiagramm ist, dass den Aufbau eines in 14 gezeigten IP-Telefongerätes 710 zeigt, und
  • 16 ein Blockdiagramm ist, dass den Aufbau einer Modifikation der ersten bis siebten Ausführungsformen der vorliegenden Erfindung zeigt.
  • Die vorliegende Erfindung bezieht sich auf ein Spracheingabegerät, das eine Spracheingabe, wie etwa Aufzeichnungsausrüstung, ein Mobiltelefonendgerät oder einen Personalcomputer, benötigt. Noch genauer bezieht sich die vorliegende Erfindung auf das Spracheingabegerät, das in der Lage ist, ein als Störgeräusch angesehenes Betätigungsgeräusch (Klickgeräusch oder dergleichen), das erzeugt wird, wenn eine Mensch-Maschine-Schnittstelle, wie etwa eine Taste oder eine Maus, parallel zur Spracheingabe betätigt wird, effizient zu beseitigen und die Tonqualität zu verbessern.
  • Ausführungsformen des Spracheingabegeräts gemäß der vorliegenden Erfindung werden im Folgenden im Detail unter Bezugnahme auf die Zeichnungen erklärt.
  • 1 ist ein Blockdiagramm, das den Aufbau einer ersten Ausführungsform der vorliegenden Erfindung zeigt. In 1, der Aufbau der Hauptteile eines tragbaren Endgeräts 10, welches sowohl eine Telefongesprächsfunktion als auch eine Datenkommunikationsfunktion hat. 2 ist eine Ansicht, die den äußeren Aufbau eines in 1 gezeigten tragbaren Endgeräts 10 zeigt. In 2 werden Teile, die denen in 1 entsprechen, jeweils mit denselben Bezugszeichen bezeichnet wie die in 1.
  • Ein in den 1 und 2 gezeigter Tastenabschnitt 20 ist eine Mensch-Maschinen-Schnittstelle, die aus einer Vielzahl von Tasten besteht, die verwendet werden, um Zahlen, Text und dergleichen einzugeben. Dieser Tastenabschnitt 20 wird durch einen Nutzer betätigt, wenn eine Telefonnummer eingegeben wird oder der Text einer E-Mail eingegeben wird.
  • Während dieser Betätigung wird ein Betätigungsgeräusch (Klickgeräusch) erzeugt. Dieses Tastenklickgeräusch wird durch ein später erklärtes Mikrofon 60 während eines Telefongesprächs erfasst und eingegeben, während es auf die Sprache eines Sprechers überlagert wird.
  • Ein Tastensignal S1, das einem Tastencode oder dergleichen entspricht, wird von dem Tastenabschnitt 20 während der Betätigung des Tastenabschnitts 20 ausgegeben. Ein Tasteneingabedetektor 30 gibt ein Tastendetektionssignal S2 aus, das anzeigt, dass eine entsprechende Taste betätigt wurde, als Reaktion auf die Eingabe des Tastensignals S1.
  • Ein Steuergerät 40 erzeugt ein Steuersignal (digital) auf der Basis des Tastensignals S1 und steuert jeweilige Abschnitte. Zum Beispiel führt das Steuergerät 40 Steuerungen durch, wie etwa das Interpretieren von Text aus dem Tastensignal S1 und das Darstellen dieses Textes auf einer Anzeige 50 (siehe 2).
  • Das Mikrofon 60 (siehe 2) wandelt die Sprache des Sprechers und das Betätigungsgeräusch von dem Tastenabschnitt 20 in ein Sprachsignal um. Ein A/D-Wandler (Analog-Digital-Wandler) 70 digitalisiert das analoge Sprachsignal vom Mikrofon 60. Ein erster Speicher 80 puffert das Sprachsignal, das von dem A/D-Wandler 70 ausgegeben wird.
  • Ein Störgeräuschbeseitiger 90 funktioniert, um die Komponente des Betätigungsgeräusches in einem Intervall zu beseitigen, in dem die Komponente des Betätigungsgeräusches auf das Sprachsignal aus dem ersten Speicher 80 als Störgeräusch überlagert wird, während das Tastendetektionssignal S2 als Trigger verwendet wird.
  • Wie später erklärt werden wird, wird das Störgeräusch spezifisch durch die Durchführung einer Wellenforminterpolation (siehe 5A und 5B) zum Interpolieren einer Signalwellenform in diesem Intervall in eine entsprechende Sprachsignalwellenform beseitigt. Des Weiteren, während das Tastendetektionssignal S2 nicht eingegeben wird, gibt der Störgeräuschbeseitiger 90 direkt das Sprachsignal aus dem ersten Speicher 80 an einen Schreibabschnitt 100 aus, der sich im hinteren Teil des ersten Speichers 80 befindet.
  • Der Schreibabschnitt 100 schreibt das Sprachsignal (oder das Sprachsignal, aus dem die Betätigungsgeräuschkomponente beseitigt wurde) aus dem Störgeräuschbeseitiger 90 in einen zweiten Speicher 110. Ein Codierer 120 codiert das Sprachsignal aus dem zweiten Speicher 110. Ein Sender 130 sendet das Ausgabesignal des Codierers 120.
  • 3 ist ein Diagramm, das den Aufbau eines in 1 gezeigten Tastenabschnitts 20 zeigt. In 3 wird eine Taste 21 über eine Feder 22 bereitgestellt. Wenn die Taste betätigt wird, wird eine Vorspannungsversorgung 23 (Spannung V0) eingeschaltet, und das Tastensignal S1 wird ausgegeben. Tatsächlich besteht der Tastenabschnitt 20 aus einer Vielzahl von Tasten.
  • 4 ist ein Diagramm, das die Wellenform des in 1 gezeigten Tastendetektierungssignals S2 zeigt. Wenn die Taste 21 (siehe 3) zum Beispiel während einer Periode in der Zeit zwischen t0 und t1 betätigt wird, wird das Tastensignal S1 in den Tasteneingabedetektor 30 eingegeben. In diesem Falle wird das in 4 gezeigte Tastendetektionssignal S2 aus dem Tasteneingabedetektor 30 ausgegeben.
  • Der Betrieb der ersten Ausführungsform wird als nächstes unter Bezugnahme auf die in den 6 und 7 gezeigten Ablaufdiagramme erklärt. Ein Fall, der so ist, dass der Tastenabschnitt 20 betätigt und die Komponente des Betätigungsgeräusches, das durch das Mikrofon 60 erfasst wird, als Störgeräusch beseitigt wird, wird unten beschrieben.
  • Bei dem in 6 gezeigten Schritt SA1 bestimmt der A/D-Wandler 70, ob ein Sprachsignal von dem Mikrofon 60 eingegeben wird oder nicht. Es wird hier angenommen, dass das Ergebnis der Bestimmung "Nein" ist, und diese Bestimmung wird wiederholt. Wenn ein Telefongespräch beginnt, wird die Sprache eines Sprechers als ein Sprachsignal durch das Mikrofon 60 in den A/D-Wandler 70 eingegeben.
  • Dementsprechend gibt der A/D-Wandler 70 das Ergebnis der Bestimmung beim Schritt SA1 als „Ja" aus. Beim Schritt SA2 digitalisiert der A/D-Wandler 70 das analoge Sprachsignal. Bei Schritt SA3 wird das Sprachsignal (digital) in dem ersten Speicher 80 gespeichert.
  • Beim Schritt SA4 bestimmt der Störgeräuschbeseitiger 90, ob das Tastendetektionssignal S2 vom Tasteneingabedetektor 30 eingegeben ist oder nicht. In diesem Fall wird angenommen, dass das Ergebnis der Bestimmung "Nein" ist, und das Sprachsignal aus dem ersten Speicher 80 wird direkt an den Schreibabschnitt 100 ausgegeben. Beim Schritt SA5 speichert der Schreibabschnitt 100 das Sprachsignal in dem zweiten Speicher 110.
  • Beim Schritt SA6 codiert der Codierer 120 das Sprachsignal aus dem zweiten Speicher 110. Beim Schritt SA7 sendet der Sender 130 das so codierte Ausgabesignal. Danach werden eine Reihe von Operationen wiederholt während das Sprachsignal, das eine in 5A gezeigte Wellenform aufweist, eingegeben wird.
  • Wenn der Tastenabschnitt 20 bei der Zeit t0 (siehe 5A) betätigt wird, wird das Tastensignal S1 in den Tasteneingabedetektor 30 und das Steuergerät 40 eingegeben. Zusätzlich wird zur Zeit t0 von dem Mikrofon 60 ein Betätigungsgeräusch erfasst, und daher wird das Betätigungsgeräusch der Sprache überlagert. Infolgedessen steigt die Amplitude des Sprachsignals plötzlich zur Zeit t0 an, wie in 5A gezeigt.
  • Als Reaktion darauf gibt der Störgeräuschbeseitiger 90 das Bestimmungsergebnis von Schritt SA4 als "Ja" aus und führt beim Schritt SA8 Wellenforminterpolation aus. Diese Wellenforminterpolation ist die Verarbeitung, bei der eine Wellenform in einem N-Stichprobenintervall, das länger ist als ein Intervall von der Zeit t0 bis zur Zeit t1, während dem das Betätigungsgeräusch der Sprache überlagert wird, durch eine Wellenform interpoliert wird, die eine Wellenform von vor der Zeit t0 ist und einen hohen Korrelationskoeffizienten aufweist (5B; Wellenform D), wodurch die Komponente des Betätigungs geräusches, das als Störgeräusch angesehen wird, aus dem Sprachsignal entfernt wird.
  • Spezifisch substituiert der Störgeräuschbeseitiger 90 beim in 7 gezeigten Schritt SB1 0 für [k] eines Korrelationskoeffizienten cor[k], wie durch die folgende Gleichung ausgedrückt.
    Figure 00080001
    ps ≤ k ≤ pe
  • ps:
    Anfangspunkt des Suchintervalls der k- Stichprobe,
    pe:
    Endpunkt des Suchintervalls der k-Stichprobe,
    x[]:
    Eingabesprachsignal, und
    t0:
    Anfangszeit des Detektierens des Betätigungsgeräusches.
  • Der Korrelationskoeffizient stellt die Korrelation zwischen einer Wellenform A in einem M-Stichprobenintervall kurz vor der in 5A gezeigten Zeit t0 (siehe 4) dar, d.h., der Zeit, zu der das Betätigungsgeräusch erzeugt wird, und einer Wellenform (z.B. die in 5A gezeigte Wellenform B in einem M-Stichprobenintervall) innerhalb des Suchintervalls der k-Stichprobe (Anfangspunkt ps bis Endpunkt pe) vor dem M-Stichprobenintervall, das die Wellenform A aufweist. Der höhere Koeffizient der Korrelation bedeutet, dass die Ähnlichkeit der beiden Wellenform groß ist.
  • Bei den Schritten SB1 bis SB5, die als nächstes erklärt werden sollen, wird, während das M-Stichprobenintervall nach rechts einzeln nacheinander vom Anfangspunkt ps innerhalb der Suchintervalls der k-Stichprobe ("k-Stichprobensuchintervall") verschoben wird, der Koeffizient der Korrelation zwischen der Wellenform A und einer Wellenform (in dem M-Stichprobenintervall) in dem k-Stichprobensuchintervall aus der Gleichung (1) berechnet.
  • Beim Schritt SB2 berechnet der Störgeräuschbeseitiger 90 den Koeffizienten der Korrelation zwischen der Wellenform A und einer Wellenform B bei k = 0 aus der Gleichung (1). Bei Schritt SB3 speichert der Störgeräuschbeseitiger 90 Information für berechnete Intervalle (für die M Stichproben vom Anfangspunkt ps), von denen in jedem der Koeffizient der Korrelation berechnet wird, und speichert die Korrelationskoeffizienten in einem Speicher (nicht gezeigt). Beim Schritt SB4 bestimmt der Störgeräuschbeseitiger 90, ob eine Wellenform (in diesem Fall die Wellenform B), die der Wellenform A entspricht, in dem k-Stichprobensuchintervall ist oder nicht, und gibt ein Bestimmungsresultat von, in diesem Falle, "Ja", aus.
  • Beim Schritt SB5 inkrementiert der Störgeräuschbeseitiger 90 k in der Gleichung (1) um eins. Dementsprechend wird eine Wellenform, die von der in 5A gezeigten Wellenform um eine Stichprobe verschoben wird, ein Berechnungsziel für den Koeffizienten der Korrelation mit der Wellenform A.
  • Danach wird die Verarbeitung im Schritt SB2 bis SB5 wiederholt, um nacheinander die Koeffizienten der Korrelation zwischen jeweiligen Wellenformen in dem k-Stichprobensuchintervall (die Stichprobe für Stichprobe nach rechts verschoben werden) und der Wellenform A zu berechnen.
  • Wenn das Bestimmungsergebnis bei Schritt SB4 „Nein" wird, dann berechnet der Störgeräuschbeseitiger 90 aus der folgenden Gleichung (2) beim Schritt SB6 die Zeit tL, bei der der Korrelationskoeffizient cor[k] am größten wird. Der Korrelationskoeffizient cor[k] wird aus der Gleichung (1) berechnet. tL = argpek=ps max(cor[k]) (2)
  • In der Gleichung (2) ist "arg max(cor[k])" eine Funktion, die anzeigt, dass die Zeit tL, zu der der Korrelationskoeffizient cor[k] am größten wird, in der Periode vom Anfangspunkt ps bis zum Endpunkt pe, die in 5A gezeigt werden, zu berechnen ist. Das heißt, dass die Zeit zur Spezifizierung einer Wellenform, die der in 5A gezeigten Wellenform am ähnlichsten ist, in der Gleichung (2) berechnet wird. Wenn bestimmt wird, dass der Koeffizient der Korrelation zwischen der Wellenform A und der in 5A gezeigten Wellenform C der größte ist, dann wird die Zeit tL, die das linke Ende der Wellenform C anzeigt, berechnet.
  • Beim Schritt SB7 interpoliert der Störgeräuschbeseitiger 90 eine Wellenform (die eine Betätigungsgeräuschkomponente umfasst) in einem N-Stichprobenintervall von der Zeit t0 durch die Wellenform in einem N-Stichprobenintervall von der Zeit tm, die das rechte Ende der Wellenform C anzeigt. Dementsprechend wird die Wellenform in der ersten Ausführungsform durch die Wellenform D, wie in 5B gezeigt, interpoliert, und die Betätigungsgeräuschkomponente wird beseitigt, wodurch die Tonqualität verbessert wird.
  • Wie soweit erklärt, wird gemäß der ersten Ausführungsform die in 5A gezeigte Wellenforminterpolation durchgeführt, um die Komponente des Betätigungsgeräusches zu beseitigen, wenn die Betätigung des Tastenabschnitts 20, das als Mensch-Maschine-Schnittstelle dient, detektiert wird. Daher ist es möglich, das als Störgeräusch angesehene Betätigungsgeräusch zu beseitigen und die Tonqualität verbessern.
  • In der ersten Ausführungsform wurde das Aufbaubeispiel, bei dem das Tastendetektionssignal S2 basierend auf dem Tastensignal S1 von dem in 1 gezeigten Tastenabschnitt 20 ausgegeben wird, erklärt. Dieser Aufbau kann durch ein anderes Aufbaubeispiel ersetzt werden, bei dem das Tastendetektionssignal S2 basierend auf einem Steuersignal von dem Steuergerät 40 ausgegeben wird. Dieses Aufbaubeispiel wird unten als eine zweite Ausführungsform erklärt.
  • 8 ist ein Blockdiagramm, das den Aufbau der zweiten Ausführungsform der vorliegenden Erfindung zeigt. Bei 8 werden Teile, die denen in 1 entsprechen, mit jeweils denselben Bezugzeichen wie denen in 1 bezeichnet und hier nicht erklärt. In einem in 8 gezeigten tragbaren Endgerät 200 wird ein Tasteneingabedetektor 210 anstelle eines in 1 gezeigten Tasteneingabedetektors 30 bereitgestellt.
  • Dieser Tasteneingabedetektor 210 erzeugt ein Tastendetektionssignal S2 aus einem Steuersignal (digitales Signal) von einem Steuergerät 40, und gibt das Tastendetektionssignal S2 an den Störgeräuschbeseitiger 90 aus. Man bemerkt, dass die grundlegenden Operationen der zweiten Ausführungsform dieselben sind wie die der ersten Ausführungsform, mit Ausnahme der obigen Operation.
  • Wie bisher erklärt, kann die zweite Ausführungsform dieselben Vorteile wie die der ersten Ausführungsform erreichen. Bei der zweiten Ausführungsform ist das Aufbaubeispiel, bei dem der in der 8 gezeigte erste Speicher 80 bereitgestellt wird, erklärt. Alternativ kann der Aufbau durch ein Aufbaubeispiel ersetzt werden, bei dem dieser erste Speicher 80 nicht bereitgestellt wird. Dieses Aufbaubeispiel wird unten als eine dritte Ausführungsform erklärt.
  • 9 ist ein Blockdiagramm, das den Aufbau der dritten Ausführungsform der vorliegenden Erfindung zeigt. Bei 9 werden Teile, die denen in 8 entsprechen, mit jeweils denselben Bezugzeichen wie denen in 8 bezeichnet und hier nicht erklärt. In einem in 9 gezeigten tragbaren Endgerät 300 ist der erste Speicher 80, der in 8 gezeigt wird, nicht bereitgestellt. Man bemerkt, dass die grundlegenden Operationen der dritten Ausführungsform dieselben sind wie die der ersten Ausführungsform, mit Ausnahme der obigen Operation.
  • Wie bisher erklärt, kann die dritte Ausführungsform dieselben Vorteile wie die der ersten Ausführungsform erreichen.
  • In der ersten Ausführungsform wurde das Aufbaubeispiel, bei dem das Tastendetektionssignal S2 basierend auf dem Tastensignal S1 von dem in 1 gezeigten Tastenabschnitt 20 ausgegeben wird, erklärt. Dieser Aufbau kann durch ein anderes Aufbaubeispiel ersetzt werden, bei dem ein A/D-Wandler und ein Tastensignalhalter bereitgestellt werden, und das Tastendetektionssignal S2 wird basierend auf einem Tastensignal von dem Tastensignalhalter ausgegeben. Dieses Aufbaubeispiel wird unten als eine vierte Ausführungsform erklärt.
  • 10 ist ein Blockdiagramm, das den Aufbau der vierten Ausführungsform der vorliegenden Erfindung zeigt. Bei 10 werden Teile, die denen in 1 entsprechen, mit jeweils denselben Bezugzeichen wie denen in 1 bezeichnet und hier nicht erklärt. In einem in 10 gezeigten tragbaren Endgerät 400 werden anstelle des in 1 gezeigten Tasteneingabedetektors 30 ein A/D-Wandler 410, ein Tastensignalhalter 420 und ein Tasteneingabedetektor 430 bereitgestellt.
  • Der A/D-Wandler 410 digitalisiert ein Tastensignal S1 (analoges Signal) von dem Tastenabschnitt 20. Der Tastensignalhalter 420 hält das Tastensignal (digitales Signal) von dem A/D-Wandler 410. Der Tasteneingabedetektor 430 erzeugt das Tastendetektionssignal S2, basierend auf dem Tastensignal, das in dem Tastensignalhalter 420 gehalten wird, und gibt das Tastendetektionssignal S2 an den Störgeräuschbeseitiger 90 aus. Die grundlegenden Operationen der vierten Ausführungsform sind dieselben wie die der ersten Ausführungsform, mit Ausnahme der obigen Operation.
  • Wie bisher erklärt, kann die vierte Ausführungsform dieselben Vorteile wie die der ersten Ausführungsform erreichen. In der ersten Ausführungsform wurde das Aufbaubeispiel, bei dem das Tastendetektionssignal S2 direkt vom Tasteneingabedetektor 30 an den in 1 gezeigten Störgeräuschbeseitiger 90 ausgegeben wurde, erklärt. Dieser Aufbau kann durch ein Aufbaubeispiel, bei dem eine Zeit des Detektierens der Betätigung basierend auf dem Tastendetektionssignal S2 überwacht wird, und ein Signal, das eine Zeit, in der die Betätigung detektiert wird („ein Detektionszeitsignal") anzeigt, wird an den Störgeräuschbeseitiger 90 ausgegeben. Dieses Aufbaubeispiel wird unten als eine fünfte Ausführungsform erklärt.
  • 11 ist ein Blockdiagramm, das den Aufbau der fünften Ausführungsform der vorliegenden Erfindung zeigt. Bei 11 werden Teile, die denen in 1 entsprechen, mit jeweils denselben Bezugzeichen wie denen in 1 bezeichnet und hier nicht erklärt. In einem in 11 gezeigten tragbaren Endgerät 500 wird ein Detektionszeitüberwachungsgerät 510 zwischen dem Tasteneingabedetektor 30 und dem in 1 gezeigten Störgeräuschbeseitiger 90 eingesetzt.
  • Dieses Detektionszeitüberwachungsgerät 510 überwacht eine Tasteneingabe, während es den Anstieg und Abfall des Tastendetektionssignals S2 von dem Tasteneingabedetektor 30 als Trigger nutzt (siehe 4) und gibt die Zeit des Anstiegs (Anfangszeit der Betätigung) und die Zeit des Abfalls (Endzeit der Betätigung) an den Störgeräuschbeseitiger 90 als ein Detektionszeitsignal S3 aus.
  • Der Störgeräuschbeseitiger 90 führt die Verarbeitung zur Wellenforminterpolation basierend auf der Anfangszeit der Betätigung ("Betätigungsanfangszeit") und der Endzeit der Betätigung ("Betätigungsendzeit"), die von dem Detektionszeitsignal S3 erhalten werden, aus. Es wird angemerkt, dass die grundlegenden Operationen der fünften Ausführungsform dieselben sind wie die der ersten Ausführungsform, mit Ausnahme der oben erklärten Operationen.
  • Wie bisher erklärt, kann die fünfte Ausführungsform dieselben Vorteile wie die der ersten Ausführungsform erreichen.
  • In der fünften Ausführungsform wurde das Aufbaubeispiel, bei dem das Detektionszeitsignal S3 von dem Detektionszeitüberwachungsgerät 510 an den in 11 gezeigten Störgeräuschbeseitiger 90 ausgegeben wird, erklärt.
  • Dieser Aufbau kann durch ein Aufbaubeispiel ersetzt werden, bei dem ein Referenzsignal sowohl dem Detektionszeitüberwachungsgerät 510 wie auch dem Störgeräuschbeseitiger 90 zugeführt wird, um die Abschnitte 510 und 90 unter Verwendung dieses Referenzsignals zu synchronisieren. Dieses Aufbaubeispiel wird unten als eine sechste Ausführungsform erklärt.
  • 12 ist ein Blockdiagramm, das den Aufbau der sechsten Ausführungsform der vorliegenden Erfindung zeigt. Bei 12 werden Teile, die denen in 11 entsprechen, mit jeweils denselben Bezugzeichen wie denen in 11 bezeichnet und hier nicht erklärt. Ein Referenzsignalgenerator 610 wird in einem in 12 gezeigten tragbaren Endgerät 600 bereitgestellt.
  • Der Referenzsignalgenerator 610 erzeugt ein Referenzsignal S4, das einen in 13 gezeigten festen Zyklus (bekannt) aufweist, und führt das Referenzsignal S4 sowohl dem Detektionszeitüberwachungsgerät 510 und dem Störgeräuschbeseitiger 90 zu. Das Detektionszeitüberwachungsgerät 510 erzeugt das Detektionszeitsignal S3 basierend auf dem Referenzsignal S4. Das Detektionszeitüberwachungsgerät 510 und der Störgeräuschbeseitiger 90 werden miteinander durch das Referenzsignal S4 synchronisiert. Es wird angemerkt, dass die grundlegenden Operationen der sechsten Ausführungsform dieselben sind wie die der ersten Ausführungsform, mit Ausnahme der oben erklärten Operationen.
  • Wie bisher erklärt, kann die sechste Ausführungsform dieselben Vorteile wie die der ersten Ausführungsform erreichen.
  • In jedem der Ausführungsformen eins bis sechs wurde das Aufbaubeispiel, in dem der Aufbau des Beseitigens der Komponente des Betätigungsgeräusches aus dem Sprachsignal auf das tragbare Endgerät angewandt wurde, erklärt. Dieser Aufbau kann durch ein Aufbaubeispiel ersetzt werden, bei dem der Aufbau des Beseitigens der Komponente des Betätigungsgeräusches aus dem Sprachsignal auf ein IP-Telefonsystem angewendet wird. Dieses Aufbaubeispiel wird unten als eine siebte Ausführungsform erklärt.
  • 14 ist ein Blockdiagramm, das den Aufbau der siebten Ausführungsform der vorliegenden Erfindung schematisch zeigt. In 14 wird ein IP-Telefonsystem 700 gezeigt. Das IP-Telefonsystem macht die Durchführung von Datenkommunikation (E-mail-Kommunikation) zusätzlich zu einem Telefongespräch zwischen einem IP-Telefongerät 710 und einem IP-Telefongerät 720 über ein IP-Netzwerk 730 möglich.
  • Das IP-Telefongerät 710 umfasst ein Computerendgerät 711, eine Tastatur 712, eine Maus 713, ein Mikrofon 714, einen Lautsprecher 715 und eine Anzeige 716. Das IP-Telefongerät 710 weist eine Telefonfunktion und eine Datenkommunikationsfunktion auf. Die Tastatur 712 und die Maus 713 werden verwendet, um Text einzugeben und verschiedene Operationen während der Datenkommunikation durchzuführen. Das Mikrofon 714 wandelt während des Telefongesprächs Sprache eines Sprechers in Sprachsignale um. Der Lautsprecher 715 gibt während des Telefongesprächs die Sprache eines Gesprächspartners aus.
  • Das IP-Telefongerät 720 weist denselben Aufbau wie den des IP-Telefongeräts 710 auf. Das IP-Telefongerät 720 umfasst ein Computerendgerät 721, eine Tastatur 722, eine Maus 723, ein Mikrofon 724, einen Lautsprecher 725 und eine Anzeige 726. Das IP-Telefongerät 720 weist eine Telefonfunktion und eine Datenkommunikationsfunktion auf. Die Tastatur 722 und die Maus 723 werden verwendet, um Text einzugeben und verschiedene Operationen während der Datenkommunikation durchzuführen. Das Mikrofon 724 wandelt während des Telefongesprächs Sprache eines Sprechers in Sprachsignale um. Der Lautsprecher 725 gibt während des Telefongesprächs die Sprache eines Gesprächspartners aus.
  • 15 ist ein Blockdiagramm, das den Aufbau des in 14 gezeigten IP-Telefongerätes 710 zeigt. Bei 15 werden Teile, die denen in den 14 und 1 entsprechen, mit jeweils denselben Bezugzeichen wie denen in den 14 und 1 bezeichnet. 15 zeigt nur einen Aufbau zur Durchführung von Telefongesprächen und verschiedenen Betätigungen und zur Beseitigung der Komponente eines Betätigungsgeräusches.
  • Ein Tasten/Maus-Eingabedetektor 717 detektiert ein Tastensignal, das anzeigt, dass die Tastatur 712 betätigt wird und ein Maussignal, das anzeigt, dass die Maus 713 betätigt wird, und gibt das Ergebnis der Detektierung als ein Tasten/Maus-Detektionssignal aus.
  • Wenn bei der siebten Ausführungsform die Tastatur 712 oder die Maus 713 während eines Telefongesprächs betätigt wird, wird ein Betätigungsgeräusch durch das Mikrofon 714 aufgefan gen und einem Sprachsignal überlagert. Ein Steuergerät 718 erzeugt ein Steuersignal, basierend auf dem Tastensignal oder dem Maussignal. Das Steuergerät steuert die jeweiligen Abschnitte basierend auf dem Steuersignal.
  • Ein Detektionszeitüberwachungsgerät 719 überwacht eine Tasteneingabe, während es den Anstieg und Abfall des Tasten/Maus-Detektionssignals von dem Tasten/Maus-Eingabedetektor 717 als Trigger nutzt. Das Detektionszeitüberwachungsgerät 719 gibt die Zeit des Anstiegs (Anfangszeit der Betätigung) und die Zeit des Abfalls (Endzeit der Betätigung) an den Störgeräuschbeseitiger 90 als ein Detektionszeitsignal aus. Der Störgeräuschbeseitiger 90 führt die Verarbeitung zur Wellenforminterpolation basierend auf der Betätigungsanfangszeit und der Betätigungsendzeit, die von dem Detektionszeitsignal erhalten werden, aus.
  • Die grundlegenden Operationen der siebten Ausführungsform dieselben sind wie die der ersten Ausführungsform, mit Ausnahme der oben erklärten Operationen. Wenn nämlich die Tastatur 712 oder die Maus 713 während eines Telefongespräches betätigt werden, wird ein Betätigungsgeräusch von dem Mikrofon 714 aufgefangen und dem Sprachsignal überlagert. Dementsprechend führt der Störgeräuschbeseitiger 90 die Wellenforminterpolationsverarbeitung in derselben Weise wie in der ersten Ausführungsform aus, um dadurch die Komponente des Betätigungsgeräusches aus dem Sprachsignal zu beseitigen und die Tonqualität zu verbessern.
  • Wie bisher erklärt, kann die siebte Ausführungsform dieselben Vorteile wie die der ersten Ausführungsform erreichen.
  • Die ersten bis siebten Ausführungsformen der vorliegenden Erfindung wurden bisher detailliert unter Bezugnahme auf die Zeichnungen beschrieben. Die konkreten Aufbaubeispiele der Erfindung sind nicht auf diese ersten bis siebten Ausführungsformen beschränkt. Jedwede Änderungen und dergleichen der Gestaltung, die im Umfang des Geistes der vorliegenden Erfindung liegen, sind in der vorliegenden Erfindung enthalten.
  • Zum Beispiel kann bei den ersten bis siebten Ausführungsformen ein Programm, dass die Funktionen (Wellenforminterpolation) des tragbaren Endgerätes oder des IP-Telefongerätes verwirklicht, auf einem in 16 gezeigten computerlesbaren Aufzeichnungsmedium 900 aufgezeichnet werden, und das Programm, das auf diesem Aufzeichnungsmedium 900 aufgezeichnet ist, kann in einen in 16 gezeigten Computer 800 geladen und darauf ausgeführt werden, um so die jeweiligen Funktionen zu verwirklichen.
  • Der in 16 gezeigte Computer 800 umfasst eine CPU (Zentrale Verarbeitungseinheit) 810, die das Programm ausführt, ein Eingabegerät 820, wie etwa eine Tastatur und eine Maus, ein ROM (Nur-Lese-Speicher) 830, das verschiedene Daten speichert, ein RAM (Schreib/Lesespeicher) 840, das arithmetische Parameter und dergleichen speichert, einen Leser 850, der das Programm von dem Aufzeichnungsmedium 900 liest, ein Ausgabegerät 860, wie etwa eine Anzeige oder ein Drucker, und einen Bus 870, der die jeweiligen Abschnitte des Computers 800 miteinander verbindet.
  • Die CPU 810 lädt das auf dem Aufzeichnungsmedium 900 aufgezeichnete Programm durch den Leser 850 und führt dann das Programm aus, wodurch sie die Funktionen verwirklicht. Als Beispiel für das Aufzeichnungsmedium 900 dienen eine optische Disk, eine flexible Disk, eine Festplatte und dergleichen.
  • Wie bisher erklärt, wird, wenn die Betätigung der Mensch-Maschine-Schnittstelle detektiert wird, gemäß der vorliegenden Erfindung die Komponente des Betätigungsgeräusches der Mensch-Maschine-Schnittstelle aus der Sprache beseitigt, die innerhalb einer Zeitspanne eingegeben wurde, in der eine Betätigung detektiert wurde. Daher ist es vorteilhafterweise möglich, das Betätigungsgeräusch als Störgeräusch, das erzeugt wird, wenn die Mensch-Maschine-Schnittstelle betätigt wird, effizient zu beseitigen, und die Tonqualität zu verbessern.
  • Gemäß der vorliegenden Erfindung wird, wenn die Betätigung der Mensch-Maschine-Schnittstelle detektiert wird, die Kompo nente des Betätigungsgeräusches der Mensch-Maschine-Schnittstelle aus der Sprache beseitigt, die innerhalb einer Zeitspanne eingegeben wurde, in der eine Betätigung detektiert wurde, die aufgrund der Information für die Betätigungszeit bestimmt wurde. Daher ist es vorteilhafterweise möglich, das Betätigungsgeräusch als Störgeräusch, das erzeugt wird, wenn die Mensch-Maschine-Schnittstelle betätigt wird, effizient zu beseitigen, und die Tonqualität zu verbessern.
  • Gemäß der vorliegenden Erfindung wird, wenn die Betätigung der Mensch-Maschine-Schnittstelle detektiert wird, die Information für eine Betätigungszeit auf der Basis eines Referenzsignals ausgegeben, und die Komponente des Betätigungsgeräusches der Mensch-Maschine-Schnittstelle aus der Sprache beseitigt, die innerhalb einer Zeitspanne eingegeben wurde, in der eine Betätigung detektiert wurde, die aufgrund der Information für die Betätigungszeit bestimmt wurde. Daher ist es vorteilhafterweise möglich, das Betätigungsgeräusch als Störgeräusch, das erzeugt wird, wenn die Mensch-Maschine-Schnittstelle betätigt wird, effizient zu beseitigen, und die Tonqualität zu verbessern.
  • Gemäß der vorliegenden Erfindung wird, wenn die Betätigung der Mensch-Maschine-Schnittstelle detektiert wird, die Komponente des Betätigungsgeräusches der Mensch-Maschine-Schnittstelle aus der Sprache beseitigt, die innerhalb einer Zeitspanne eingegeben wurde, in der eine Betätigung detektiert wurde, indem Wellenforminterpolation durchgeführt wird. Daher ist es vorteilhafterweise möglich, das Betätigungsgeräusch als Störgeräusch, das erzeugt wird, wenn die Mensch-Maschine-Schnittstelle betätigt wird, effizient zu beseitigen, und die Tonqualität zu verbessern.
  • Gemäß der vorliegenden Erfindung wird, wenn die Betätigung der Mensch-Maschine-Schnittstelle detektiert wird, eine Zeitspanne, in der die Betätigung der Mensch-Maschine-Schnittstelle detektiert wird, in der Sprache unterdrückt, die innerhalb der Zeitspanne eingegeben wurde, in der eine Betäti gung detektiert wurde. Daher ist es vorteilhafterweise möglich, das Betätigungsgeräusch als Störgeräusch, das erzeugt wird, wenn die Mensch-Maschine-Schnittstelle betätigt wird, effizient zu beseitigen, und die Tonqualität zu verbessern.
  • Obwohl die Erfindung für eine vollständige und klare Offenbarung unter Bezugnahme auf eine spezifische Ausführungsform beschrieben wurde, sind die beigefügten Ansprüche nicht derart zu beschränken, sondern sollten so gedeutet werden, dass sie alle Modifikationen und alternative Aufbauweisen verkörpern, die einem Fachmann einfallen könnten, die gerechterweise in die grundlegende Lehre, die hier dargelegt ist, fallen.

Claims (17)

  1. Ein Spracheingabegerät, umfassend: eine Spracheingabeeinheit (60), die Sprache eingibt; eine Detektionseinheit (30), die eine Betätigung einer Mensch-Maschine-Schnittstelle detektiert; und einen Störgeräuschbeseitiger (90), der eine Komponente eines Betätigungsgeräusches der Mensch-Maschine-Schnittstelle aus der Sprache, die in die Spracheingabeeinheit eingegeben wird, innerhalb eines Zeitabschnitts, in der die Betätigung durch die Detektionseinheit detektiert wird, beseitigt; dadurch gekennzeichnet, dass der Störgeräuschbeseitiger (90) eine Komponente eines Betätigungsgeräusches der Mensch-Maschine-Schnittstelle aus der Sprache, die in die Spracheingabeeinheit eingegeben wird, beseitigt, indem er Wellenforminterpolation durchführt.
  2. Das Spracheingabegerät nach Anspruch 1, weiterhin umfassend: eine Steuereinheit (40), die an die Detektionseinheit ein Steuersignal zum Steuern von jeweiligen Abschnitten auf der Basis eines Betätigungssignals, das anzeigt, das eine Mensch-Maschine-Schnittstelle betätigt wird, ausgibt, wobei die Detektionseinheit (30) eine Betätigung der Mensch-Maschine-Schnittstelle auf der Basis des Steuersignals detektiert.
  3. Das Spracheingabegerät nach Anspruch 1, weiterhin umfassend eine Wandlungseinheit (70), die analoge Information, die ausgegeben wird, wenn die Mensch-Maschine-Schnittstelle betätigt wird, in digitale Information wandelt, wobei Die Detektionseinheit die Betätigung auf der Basis der digitalen Information detektiert.
  4. Das Spracheingabegerät nach Anspruch 2 oder 3, wobei die Mensch-Maschine-Schnittstelle Tasten (20) eines tragbaren End gerätes, das eine Datenkommunikationsfunktion und eine Telefongesprächsfunktion aufweist, umfasst.
  5. Das Spracheingabegerät nach Anspruch 2 oder 3, wobei die Mensch-Maschine-Schnittstelle eine Tastatur eines Computers, der eine Datenkommunikationsfunktion und eine Telefongesprächsfunktion aufweist, umfasst.
  6. Das Spracheingabegerät nach Anspruch 2 oder 3, wobei die Mensch-Maschine-Schnittstelle eine Maus des Computers umfasst.
  7. Das Spracheingabegerät nach Anspruch 2 oder 3, wobei die Mensch-Maschine-Schnittstelle einen Betätigungsabschnitt von Aufzeichnungsausrüstung umfasst, die eine Sprachaufzeichnungsfunktion aufweist.
  8. Das Spracheingabegerät nach irgendeinem der vorhergehenden Ansprüche, weiterhin umfassend: eine Sprachinformationssammeleinheit, die Information über die Sprache, die in die Spracheingabeeinheit eingegeben wird, sammelt wobei der Störgeräuschbeseitiger (90) die Sprachinformation der Sprachinformationssammeleinheit liest, wenn die Betätigung von der Detektionseinheit detektiert wird.
  9. Das Spracheingabegerät nach Anspruch 8, wobei: die Sprachinformationssammeleinheit eine digitale Sprachinformationssammeleinheit zum Sammeln der digitalen Information ist, und die Detektionseinheit (30) angeordnet ist, um die Betätigung auf der Basis der digitalen Information, die aus der digitalen Sprachinformationssammeleinheit gelesen wird, zu detektieren.
  10. Das Spracheingabegerät nach irgendeinem der vorhergehenden Ansprüche, weiterhin umfassend: die Detektionseinheit (30) gibt Information für eine Betätigungszeit, die einem Beginn der Betätigung und einem Ende der Betätigung entspricht, aus; und wobei der Störgeräuschbeseitiger (90) eine Komponente eines Betätigungsgeräusches der Mensch-Maschine-Schnittstelle aus der Sprache, die in die Spracheingabeeinheit eingegeben wird, innerhalb eines Zeitabschnitts, in der die Betätigung detektiert wird, beseitigt, wobei der Zeitabschnitt auf der Basis der Information für die Betätigungszeit bestimmt wird, wenn die Betätigung durch die Detektionseinheit detektiert wird.
  11. Das Spracheingabegerät nach Anspruch 10, weiterhin umfassend einen Referenzsignalgenerator, der ein Referenzsignal erzeugt, das einen festen Zyklus aufweist, wobei die Detektionseinheit die Information für die Betätigung auf der Basis des Referenzsignals ausgibt.
  12. Ein Spracheingabeverfahren, umfassend die Schritte: Eingeben von Sprache; Detektieren der Betätigung einer Mensch-Maschine-Schnittstelle; und Beseitigung einer Komponente eines Betätigungsgeräusches der Mensch-Maschine-Schnittstelle aus der Sprache, die in die Spracheingabeeinheit eingegeben wird, innerhalb eines Zeitabschnitts, in der die Betätigung während des Detektionsschrittes detektiert wird; dadurch gekennzeichnet, dass die Komponente durch das Durchführen von Wellenforminterpolation beseitigt wird.
  13. Ein Spracheingabeprogramm, das, wenn es auf einem Computer ausgeführt wird, den Computer veranlasst, jeden der Schritte eines Verfahrens nach Anspruch 12 durchzuführen.
  14. Ein Spracheingabeprogramm nach Anspruch 13, das, wenn es auf einem Computer ausgeführt wird, den Computer veranlasst, des Weiteren zu fungieren als: eine Steuereinheit (40), die an die Detektionseinheit (30) ein Steuersignal zum Steuern von jeweiligen Abschnitten auf der Basis eines Betätigungssignals, das anzeigt, das eine Mensch-Maschine-Schnittstelle betätigt wird, ausgibt; wobei die Detektionseinheit (30) eine Betätigung der Mensch-Maschine-Schnittstelle auf der Basis des Steuersignals detektiert.
  15. Ein Spracheingabeprogramm nach Anspruch 13 oder 14, das, wenn es auf einem Computer ausgeführt wird, den Computer veranlasst, des Weiteren zu fungieren als: eine Sprachinformationssammeleinheit zum Sammeln von Information über die Sprache, die in die Spracheingabeeinheit eingegeben wird; wobei der Störgeräuschbeseitiger die Sprachinformation der Sprachinformationssammeleinheit liest, wenn die Detektionseinheit die Betätigung detektiert.
  16. Ein Spracheingabeprogramm nach irgendeinem der Ansprüche 13–15, das, wenn es auf einem Computer ausgeführt wird, veranlasst: die Detektionseinheit (30) detektiert eine Operation einer Mensch-Maschine-Schnittstelle, und gibt Information für eine Betätigungszeit, die einem Beginn der Betätigung und ein Ende der Betätigung; und der Störgeräuschbeseitiger (90) beseitigt eine Komponente eines Betätigungsgeräusches der Mensch-Maschine-Schnittstelle aus der Sprache, die in die Spracheingabeeinheit eingegeben wird, innerhalb eines Zeitabschnitts, in der die Betätigung detektiert wird, wobei der Zeitabschnitt auf der Basis der Information für die Betätigungszeit bestimmt wird, wenn die Betätigung durch die Detektionseinheit detektiert wird.
  17. Ein computerlesbares Speichermedium, das darauf ein Programm gemäß irgendeinem der Ansprüche 13 bis 16 gespeichert hat.
DE60210739T 2002-03-28 2002-11-15 Spracheingabegerät mit Geräuschunterdrückung Expired - Lifetime DE60210739T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002093165 2002-03-28
JP2002093165A JP2003295899A (ja) 2002-03-28 2002-03-28 音声入力装置

Publications (2)

Publication Number Publication Date
DE60210739D1 DE60210739D1 (de) 2006-05-24
DE60210739T2 true DE60210739T2 (de) 2006-08-31

Family

ID=27800534

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60210739T Expired - Lifetime DE60210739T2 (de) 2002-03-28 2002-11-15 Spracheingabegerät mit Geräuschunterdrückung

Country Status (4)

Country Link
US (1) US7254537B2 (de)
EP (1) EP1349149B1 (de)
JP (1) JP2003295899A (de)
DE (1) DE60210739T2 (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7924324B2 (en) 2003-11-05 2011-04-12 Sanyo Electric Co., Ltd. Sound-controlled electronic apparatus
JP4876378B2 (ja) * 2004-08-27 2012-02-15 日本電気株式会社 音声処理装置、音声処理方法及び音声処理プログラム
JP5182556B2 (ja) * 2005-10-26 2013-04-17 日本電気株式会社 電話端末および信号処理方法
CN101268715B (zh) * 2005-11-02 2012-04-18 雅马哈株式会社 电话会议装置
US9922640B2 (en) * 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
GB2472992A (en) * 2009-08-25 2011-03-02 Zarlink Semiconductor Inc Reduction of clicking sounds in audio data streams
GB0919672D0 (en) 2009-11-10 2009-12-23 Skype Ltd Noise suppression
GB0919673D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Gain control for an audio signal
JP5538918B2 (ja) * 2010-01-19 2014-07-02 キヤノン株式会社 音声信号処理装置、音声信号処理システム
JP5017441B2 (ja) * 2010-10-28 2012-09-05 株式会社東芝 携帯型電子機器
JP5630828B2 (ja) * 2011-01-24 2014-11-26 埼玉日本電気株式会社 携帯端末、ノイズ除去処理方法
US8867757B1 (en) * 2013-06-28 2014-10-21 Google Inc. Microphone under keyboard to assist in noise cancellation
WO2021100436A1 (ja) * 2019-11-19 2021-05-27 株式会社ソニー・インタラクティブエンタテインメント 操作デバイス
CN114974320A (zh) * 2021-02-24 2022-08-30 瑞昱半导体股份有限公司 音频转接器的控制电路及控制方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5584010A (en) 1978-12-19 1980-06-24 Sharp Corp Code error correction system for pcm-system signal regenarator
CA1157939A (en) * 1980-07-14 1983-11-29 Yoshizumi Watatani Noise elimination circuit in a magnetic recording and reproducing apparatus
JPS57184334A (en) 1981-05-09 1982-11-13 Nippon Gakki Seizo Kk Noise eliminating device
JPH021661A (ja) 1988-06-10 1990-01-05 Oki Electric Ind Co Ltd パケット補間方式
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
JPH05307432A (ja) 1992-04-30 1993-11-19 Nippon Telegr & Teleph Corp <Ntt> 時刻タグ付加による多チャネル間同期統合装置
JPH06314162A (ja) 1993-04-29 1994-11-08 Internatl Business Mach Corp <Ibm> マルチメディア・スタイラス
JPH09149157A (ja) 1995-11-24 1997-06-06 Casio Comput Co Ltd 通信端末装置
JPH09204290A (ja) 1996-01-25 1997-08-05 Nec Corp 操作音消去装置
US6240383B1 (en) * 1997-07-25 2001-05-29 Nec Corporation Celp speech coding and decoding system for creating comfort noise dependent on the spectral envelope of the speech signal
DE19736517A1 (de) 1997-08-22 1999-02-25 Alsthom Cge Alcatel Verfahren zur Reduzierung von Störungen bei der Übertragung eines elektrischen Nachrichtensignals
US6324499B1 (en) * 1999-03-08 2001-11-27 International Business Machines Corp. Noise recognizer for speech recognition systems
US6778959B1 (en) * 1999-10-21 2004-08-17 Sony Corporation System and method for speech verification using out-of-vocabulary models

Also Published As

Publication number Publication date
US7254537B2 (en) 2007-08-07
US20030187640A1 (en) 2003-10-02
JP2003295899A (ja) 2003-10-15
EP1349149A2 (de) 2003-10-01
DE60210739D1 (de) 2006-05-24
EP1349149A3 (de) 2004-05-19
EP1349149B1 (de) 2006-04-19

Similar Documents

Publication Publication Date Title
DE60210739T2 (de) Spracheingabegerät mit Geräuschunterdrückung
EP3422022B1 (de) Digitales oszilloskop mit digitaler triggerung
DE60316259T2 (de) Berührungs-pad
DE69829802T2 (de) Spracherkennungsapparat zum Übertragen von Sprachdaten auf einem Datenträger in Textdaten
CN101370195A (zh) 移动终端中实现情绪调节的方法及装置
DE102007041947A1 (de) Mobile Kommunikationsendeinrichtung und Verfahren zur Steuerung mittels Mustererkennung
DE60029121T2 (de) Adaptive detektion der energie hochfrequenter vibrationen
DE102014118075A1 (de) Audio und Video synchronisierendes Wahrnehmungsmodell
EP0319777A3 (de) Verfahren und Schaltungsanordnung zur selbsttätigen störgeräuschabhängigen Lautstärkeregelung
DE112007003625T5 (de) Echounterdrückungsvorrichtung, echounterdrückungssystem, Echounterdrückungsverfahren und Computerprogramm
EP0703565A2 (de) Verfahren und System zur Sprachsynthese
DE60023398T2 (de) Verfahren und Vorrichtung zur Verbesserung der Spracherkennungsgenauigkeit mittels ereignis-basierter Beschränkungen
DE69112705T2 (de) Methode und System zur Spracherkennung mit Rauschverminderung.
CN104092809A (zh) 通话录音方法、通话录音播放方法及其相应装置
JP6182895B2 (ja) 処理装置、処理方法、プログラム及び処理システム
DE102019201456B3 (de) Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgerätes
DE102018113112A1 (de) Verfahren zum Betreiben einer Lautsprechereinheit sowie eine Lautsprechereinheit
KR100323011B1 (ko) 음성신호의피치주기추출장치
DE2922091A1 (de) Analog-digitale umwandlungsmethode sowie diese anwendende bildreproduktionsmethode
CN106385489A (zh) 一种确定上行语音数据的方法及移动终端
WO2013020792A1 (de) Hörer und verfahren zum steuern eines hörers
JP2007174011A (ja) 収音装置
DE112017008076T5 (de) Datenerzeugungsvorrichtung und -programm
DE3875894T2 (de) Adaptive multivariable analyseeinrichtung.
CN114333894A (zh) 增益补偿方法及相关装置、设备、系统和存储介质

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: SEEGER SEEGER LINDNER PARTNERSCHAFT PATENTANWAELTE