DE102006002603A1 - Verfahrern und System zur Durchführung einer Sprachkonferenz - Google Patents

Verfahrern und System zur Durchführung einer Sprachkonferenz Download PDF

Info

Publication number
DE102006002603A1
DE102006002603A1 DE200610002603 DE102006002603A DE102006002603A1 DE 102006002603 A1 DE102006002603 A1 DE 102006002603A1 DE 200610002603 DE200610002603 DE 200610002603 DE 102006002603 A DE102006002603 A DE 102006002603A DE 102006002603 A1 DE102006002603 A1 DE 102006002603A1
Authority
DE
Germany
Prior art keywords
speech
participants
participant
words
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE200610002603
Other languages
English (en)
Inventor
Marian Trinkel
Christel Müller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Priority to DE200610002603 priority Critical patent/DE102006002603A1/de
Publication of DE102006002603A1 publication Critical patent/DE102006002603A1/de
Ceased legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42221Conversation recording systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Durchführung einer Sprachkonferenz mit mehreren Teilnehmern, die miteinander kommunizieren, insbesondere über ein Telekommunikationsnetzwerk mittels Telekommunikationsgeräten, wobei die von einem Teilnehmer gesprochenen Worte mittels einer Spracherkennung erkannt und gespeichert werden und wobei bei einem zeitgleichen Sprechen von wenigstens zwei Teilnehmern eine Aufforderung zum seriellen Sprechen signalisiert wird. Die Erfindung betrifft weiterhin ein System zur Durchführung einer Sprachkonferenz mit mehreren Teilnehmern, die miteinander kommunizieren.

Description

  • Die Erfindung betrifft ein Verfahren und ein System zur Durchführung einer Sprachkonferenz mit mehreren Teilnehmern, die miteinander kommunizieren, insbesondere über ein Telekommunikationsnetzwerk mittels Telekommunikationsgeräten, wobei die von einem Teilnehmer gesprochenen Worte mittels einer Spracherkennung erkannt und gespeichert werden.
  • Ein derartiges Verfahren und System ist beispielsweise aus der deutschen Patentanmeldung DE 102 61 478 bekannt. Es ist beispielsweise offenbart, Sprachdaten, die während einer Konferenzschaltung entstehen, für einen späteren Abruf zu speichern.
  • Bei Konferenzen, bei denen mehrere Teilnehmer miteinander kommunizieren, ist das Problem bekannt, dass oftmals mehrere Teilnehmer gleichzeitig sprechen, sich also beispielsweise ins Wort fallen, ohne dass einer der Teilnehmer zunächst zu Ende sprechen konnte, was insbesondere eine automatische Spracherkennung zur Erkennung und Speicherung der gesprochenen Worte an ihre Grenzen bringt. So ist bislang ein zuverlässiges Erkennen gesprochener Worte nur möglich, wenn die sprechende Person sauber und deutlich und bevorzugt mit zumindest leichten Pausen zwischen den einzelnen Worten spricht. Überlappen die Worte, insbesondere wenn mehrere Personen gleichzeitig sprechen, so kann eine Erkennung und Speicherung der Worte nicht mehr erfolgen.
  • Aufgabe der Erfindung ist es, ein Verfahren und ein System bereitzustellen, mittels dem eine optimale Spracherkennung und Speicherung erreicht wird.
  • Diese Aufgabe wird mit einem Verfahren und einem System der eingangs genannten Art gelöst, bei dem bei einem zeitgleichen Sprechen von wenigstens zwei Teilnehmern, eine Aufforderung zum seriellen Sprechen signalisiert wird.
  • Der Einsatz eines derartigen Verfahrens oder Systems ist hierbei nicht zwingend auf die Durchführung einer Sprachkonferenz beschränkt, bei der die einzelnen Teilnehmer über Telekommunikationsgeräte und somit über ein Telekommunikationsnetzwerk zusammengeschaltet sind, sondern grundsätzlich auch bei einer Sprachkonferenz einsetzbar, bei der sämtliche teilnehmenden Personen in einer großen Runde zusammensitzen oder nur ein Teil der Teilnehmer über ein Telekommunikationsnetzwerk hinzugeschaltet ist.
  • Hierbei macht sich die Erfindung zunutze, dass durch ein automatisiertes und somit objektiviertes Signalisieren sich die teilnehmenden Personen genötigt sehen, die für eine Spracherkennung und Speicherung der erkannten Worte notwendige Sprechkultur einzuhalten. Das erfindungsgemäße Verfahren oder System hat somit den besonderen Vorteil, dass durch die Signalisierung die Teilnehmer an einer Sprachkonferenz, zumindest einige dieser Teilnehmer automatisch gezügelt werden, wenn sie anderen Teilnehmern ins Wort fallen, diese beispielsweise nicht ausreden lassen. Mittels des Systems bzw. des Verfahren wird somit die Funktion eines Moderators implementiert.
  • Hierbei kann das Verfahren beispielsweise implementiert sein durch eine Software, die auf einen hierfür vorgesehenen Rechner abläuft. Ein derartiger Rechner kann beispielsweise innerhalb eines Telekommunikationsnetzwerkes vorhanden sein, beispielsweise in einer Vermittlungsstelle, über welche insbesondere bei einer über ein Telekommunikationsnetzwerk stattfindenden Sprachkonferenz die Konferenzschaltung schaltungstechnisch abgewickelt wird. So kann demnach automatisch beispielsweise die Spracherkennung der gesprochenen Worte und die Speicherung intern in einem Telekommunikationsnetzwerk stattfinden.
  • Gemäß einer möglichen Ausführungsvariante kann ein zeitgleiches Sprechen beispielsweise dadurch erkannt werden, dass mittels der Spracherkennung kein Wort oder kein sinnvolles Wort erkannt wird. Beispielsweise kann es vorkommen, dass bei einem zeitgleichen Sprechen bzw. bei einem zumindest teilweise zeitlichen Überlapp der von verschiedenen Teilnehmern der Sprachkonferenz gesprochener Worte eine Spracherkennung, also beispielsweise eine Software zur Spracherkennung, die auf einem Computer implementiert ist, nicht mehr in der Lage ist, anhand seines üblicherweise vorgesehenen Sprachwortschatzes dem gesprochenen Wort ein erkanntes Wort zuzuordnen. Es findet somit keine Spracherkennung statt bzw. es wird kein sinnvolles Wort erkannt. Hierbei kann insbesondere zur Prüfung, ob es sich um ein erkanntes sinnvolles oder ein erkanntes nicht sinnvolles Wort handelt, Rückgriff genommen werden auf die bislang bei der Konferenz erkannten Worte, um sodann durch einen Vergleich des neu erkannten Wortes mit den bislang erkannten Worten auf eine Sinnkorrelation zu schließen und so festzustellen, ob es sich bei dem Wort, welches aktuell erkannt wurde, um eines handelt, welches im Sinnzusammenhang mit den vorher erkannten Worten steht oder nicht.
  • Die vorgenannten Möglichkeiten führen somit zu einer Erkennbarkeit, ob wenigstens zwei Personen gleichzeitig sprechen, um sodann in Abhängigkeit hiervon gegebenenfalls ein Signal zu generieren.
  • Wird das entsprechende Signal generiert, so werden hierdurch die teilnehmenden Personen aufgefordert, seriell zu sprechen, wobei unter dem Begriff des seriellen Sprechens im Rahmen der Erfindung verstanden wird, dass unterschiedliche Personen nacheinander Sprachbeiträge in der Konferenz liefern.
  • In einer bevorzugten Ausgestaltung kann es auch vorgesehen sein, dass neben einer Spracherkennung zur Erkennung des gesprochenen Wortes eines Teilnehmers auch eine Sprechererkennung durchgeführt wird zur Erkennung, welcher der Teilnehmer ein Wort gesprochen hat.
  • Dies ist besonders vorteilhaft, da nach einer Speicherung der erkannten gesprochenen Worte auch nachträglich festgestellt werden kann, von welchem der Teilnehmer der entsprechende Wortbeitrag stammt. So kann bei einer derartigen Ausführung ein zeitgleiches Sprechen auch erkannt werden durch ein Erkennen von wenigstens zwei Teilnehmern, beispielsweise, die innerhalb eines vorgegebenen Zeitintervalls und insbesondere gleichzeitig gesprochen haben.
  • Hierbei kommt es nicht darauf an, dass die Worte, die die entsprechenden Teilnehmer geäußert haben, durch die Spracherkennung erkannt werden, sondern vielmehr, dass in den Äußerungen der Teilnehmer Sprachcharakteristika bzw. Sprachparameter erkannt werden, die für einen der Teilnehmer typisch sind und diesen identifizieren. So kann demnach eine Sprechererkennung, die insbesondere auch innerhalb einer Spracherkennung implementiert sein kann, selbst dann einen Teilnehmer identifizieren, wenn eine Erkennung des bzw. der gesprochenen Worte nicht möglich ist, da sich z.B. die für einen Teilnehmer typischen Sprachparameter auch aus überlagerten Sprachbeiträgen erkennen lassen.
  • So kann eine Sprechererkennung somit bevorzugt durchgeführt werden mittels wenigstens eines Sprachparameters eines Teilnehmers, der im Rahmen der Durchführung des Verfahrens bzw. dem System bekannt ist, z.B. durch eine vorherige Abspeicherung. Es kann so beispielsweise ein Vergleich stattfinden zwischen einem aktuell zu einem Wortbeitrag ermittelten Sprachparameter mit einem oder einer Gruppe von Referenzparametern, die in Verbindung mit einem bzw. bevorzugt allen Teilnehmern gespeichert sind. Durch diesen Vergleich kann somit eine Zuordnung stattfinden, welcher der Teilnehmer an der Sprachkonferenz den Sprachbeitrag geleistet hat.
  • Eine Identifizierung und somit eine Sprechererkennung kann neben dem wenigstens einen Sprachparameter, insbesondere der sich aus biometrischen Merkmalen der Sprache des Teilnehmers ableiten lässt, ergänzend auch erfolgen durch eine Auswertung der Telekommunikationskennung des bzw. derjenigen Teilnehmer der Sprachkonferenz, von dem bzw. denen ein Sprachbeitrag kommt. Dies ist insbesondere vorteilhaft, wenn eine Sprachkonferenz mit mehreren Teilnehmern derart erfolgt, dass diese Teilnehmer über ein Telekommunikationsnetzwerk zusammengeschaltet sind.
  • Sodann ist jedem Teilnehmer bzw. jedem Telekommunikationsgerät, welches durch einen oder gegebenenfalls mehrere Teilnehmer verwendet wird, wenigstens eine Telekommunikationskennung zugeordnet. Unter einer Telekommunikationskennung können mit oder ohne einer Gerätekennung z.B. und nicht abschließend verstanden werden: die CLI (Calling Line Identity), das HLR (Home Location Register) oder auch andere Kennungen, wie z.B. diejenigen einer SIM-Karte bei Mobiltelefonen oder sonstige Kennungen im Zusammenhang mit Telekommunikation, wie z.B. auch IP-Adresse, z.B. bei Voice-Over-IP oder auch Gerätekennungen alleine (z.B. IMEI – International Mobile Equipment Identity, oder MAC-Adressen – Media Access Control, insbesondere bei Netzwerkkomponenten). Telekommunikationskennungen im Sinne der Erfindung können auch Kombinationen, insbesondere der vorgenannten Kennungen sein.
  • So kann durch die Auswertung dieser vorgenannten Telekommunikationskennung im Rahmen einer Sprechererkennung zusätzlich ein Teilnehmer bzw. zumindest eine Gruppe von Teilnehmern erkannt werden, sofern mehrere Teilnehmer über dasselbe Telekommunikationsgerät bzw. über denselben Telekommunikationsanschluss und somit auch über dieselbe Telekommunikationskennung an der Konferenz teilnehmen.
  • Gemäß einer weiteren bevorzugten Ausführung kann es vorgesehen sein, dass bei einer nicht erfolgten Sprechererkennung, also wenn anhand des Sprachbeitrags, z.B. eines gesprochenen Wortes nicht derjenige Teilnehmer identifiziert werden konnte, von dem dieser Sprachbeitrag kommt, dieser Teilnehmer aufgefordert wird, sich zu identifizieren.
  • Eine derartige Identifizierung kann beispielsweise durch eine Sprachaufforderung im Rahmen des Verfahrens bzw. durch das System erfolgen. Hierbei kann beispielsweise die Sprachaufforderung nur an denjenigen Teilnehmer übersendet werden, der von dem System bzw. im Rahmen des Verfahrens nicht erkannt wurde, was z.B. durch eine Telekommunikation an die Telekommunikationskennung des nicht erkannten Teilnehmers erfolgen kann.
  • Somit erhalten alle anderen Teilnehmer der Sprachkonferenz keine derartige Aufforderung bzw. nehmen diese nicht wahr, da die Aufforderung nur an den nicht erkannten Teilnehmer kommuniziert wird. Gegebenenfalls kann es hierbei vorkommen, dass bei Teilnahme mehrerer Teilnehmer über dasselbe Telekommunikationsgerät bzw. denselben Anschluss mit nur einer Telekommunikationskennung mehrere Teilnehmer gleichzeitig die Aufforderung erhalten.
  • Nach Erhalt einer derartigen Aufforderung kann der bislang nicht identifizierte Teilnehmer beispielsweise seinen Namen nennen oder vorgegebene bzw. beliebige Worte sprechen, woraufhin wenigstens ein für die Identifizierung eines Teilnehmers nötiger Sprachparameter erfasst wird, der sodann als Referenzparameter gespeichert wird und für die zukünftige Sprechererkennung zur Verfügung steht. Auf diese Weise können bislang nicht erkannte Sprachkonferenzteilnehmer als erkannte Teilnehmer in die Sprachkonferenz integriert werden.
  • Gegebenenfalls kann es auch vorgesehen sein, bei einem bislang nicht erkannten bzw. identifizierten Teilnehmer diesen im Rahmen des Verfahrens bzw. im System zunächst als unerkannt zu führen und eine entsprechende Zuordnung zu den erkannten Worten vorzunehmen, demgemäß die gesprochenen Worte nicht einer bestimmten konkreten und gegebenenfalls namentlich bekannten Person zugeordnet werden, sondern der unerkannten Person zugeordnet werden.
  • Es kann sodann verfahrensgemäß vorgesehen sein, erst nach Beendigung einer Sprachkonferenz durch eine dann nachträglich durchzuführende Identifizierung die Wortbeiträge einer unerkannten Person der dann nachträglich identifizierten Person zuzuordnen, beispielsweise durch Änderung eines Zuordnungsparameters von dem Status „unerkannt" auf den Status „erkannt" bzw. den Parameter, der eine bestimmte Person identifiziert.
  • Eine Signalisierung im Sinne des erfindungsgemäßen Verfahren kann grundsätzlich durch jede Art von Signal erfolgen, welches mit den Sinnen eines Teilnehmers erfassbar ist. Hierbei kann es bevorzugt vorgesehen sein, dass eine Signalisierung zur Aufforderung, seriell zu sprechen, z.B. durch ein optisches und/oder akustisches Signal erfolgt. Besonders bevorzugt wird es hierbei vorgesehen sein, das akustische Signal in Form einer Sprachansage erfolgen zu lassen.
  • Hierbei kann es in einer besonders bevorzugten Ausgestaltung des Verfahrens vorgesehen sein, dass eine Signalisierung nur an denjenigen Teilnehmer erfolgt, von dem eine Störung ausgeht. Beispielsweise kann die Signalisierung erfolgen an eine Telekommunikationskennung, die einem Teilnehmer zugeordnet ist. Gegebenenfalls kann der Sprachansage eine direkte Anrede namentlicher Art hinzugefügt werden, insbesondere dann, wenn eine namentliche Anrede in Verbindung mit dem vorgenannten sprachlichen Referenzparameter zur Identifizierung eines Teilnehmers gespeichert ist.
  • Es kann sodann gezielt nur derjenige Teilnehmer die Aufforderung erhalten, von dem die Störung ausgeht, d.h. der dazwischen gesprochen oder einen anderen Teilnehmer unterbrochen hat, ohne die Aufforderung auch an die anderen Teilnehmer zu signalisieren und diese hierdurch zu stören.
  • Insbesondere zur Feststellung, welcher von zwei festgestellten Teilnehmern derjenige ist, der störend auffällt, also den Wortbeitrag eines anderen Teilnehmers durch Dazwischenreden stört oder unterbricht, kann es vorgesehen sein, die Häufigkeit einer Identifikation eines Teilnehmers zu erkannten Worten, insbesondere innerhalb eines bestimmten Zeitintervalls, zu prüfen. Wird beispielsweise festgestellt, dass innerhalb eines zurückliegenden Zeitintervalls von beispielsweise nur wenigen Sekunden, beispielsweise 10 oder 20 Sekunden oder gegebenenfalls auch einer Minute oder anderen beliebigen Zeitintervallen zu einem bestimmten Teilnehmer A eine sehr häufige, gegebenenfalls sogar ausschließlich nur für diesen Teilnehmer durchgeführte Zuordnung der erkannten Worte zu diesem speziellen Teilnehmer stattgefunden hat, so kann davon ausgegangen werden, dass bei einer sodann nur z.B. singulären oder nur mit einer geringen Häufigkeit vorgenommenen Zuordnung eines Wortbeitrags eines Teilnehmers B dieser Teilnehmer B derjenige ist, der in den Wortbeitrag des Teilnehmers A hineingesprochen und diesen somit gestört hat.
  • Ebenso ist es möglich, dass alle Teilnehmer einer Konferenz eine Signalisierung erhalten, wenn eine Spracherkennung nicht erfolgreich war, insbesondere wenn die Sprachbeiträge aller Teilnehmer mittels derselben Spracherkennung, also z.B. einer Software verarbeitet werden.
  • Gemäß dem erfindungsgemäßen Verfahren bzw. mit dem erfindungsgemäßen System kann es vorgesehen sein, dass ein erkanntes, gesprochenes Wort gespeichert wird mit einer Information, welcher der Teilnehmer das Wort gesprochen hat.
  • Dies ist insbesondere sinnvoll im Zusammenhang mit der Erstellung von Gesprächsprotokollen, so dass auch noch im Nachhinein festgestellt werden kann, von wem ein gespeichertes, gesprochenes Wort ursprünglich gekommen ist. So kann beispielsweise in Verbindung mit einem gesprochenen und erkannten Wort eine Zuordnungskennung abgespeichert werden.
  • Jeder der Teilnehmer einer Sprachkonferenz kann beispielsweise eine derartige Kennung aufweisen, die beispielsweise vorgegeben ist oder im Rahmen einer automatischen Erkennung in Verbindung mit dem vorgenannten Referenzparameter erstellt wird. Eine derartige Zuordnungskennung kann jeglicher Art sein, beispielsweise kann es sich um einen bestimmten Inhalt eines Datensatzes handeln, z.B. um eine Zahl, eine Ziffer, den Namen, ein gesetztes oder gelöschtes Bit und/oder um eine Telekommunikationskennung und/oder Gerätekennung, z.B. der jeweils vorgenannten Art.
  • Es besteht so in erfindungsgemäß besonders bevorzugter Ausgestaltung auch die Möglichkeit, dass mittels der Zuordnungskennung und/oder der Telekommunikationskennung aus den gespeicherten Worten der Teilnehmer diejenigen wenigstens eines gewünschten Teilnehmers gelöscht oder selektiert werden.
  • Beispielsweise kann hierdurch erreicht werden, dass aus der Ansammlung der gespeicherten Worte, also dem somit z. B. erstellten Protokoll einer Sprachkonferenz, diejenigen Worte erneut abgerufen oder aber auch gelöscht werden, die einem ganz bestimmten Teilnehmer zugeordnet sind.
  • Insbesondere die vorgenannten Merkmale der Zuordnung einer Kennung betreffend die Identifikation eines bestimmten Teilnehmers zu einem erkannten Wort können ganz allgemein eingesetzt werden in Verbindung mit dem vorgenannten gattungsgemäßen Verfahren zur Durchführung einer Sprachkonferenz bzw. dem vorgenannten gattungsgemäßen System, auch wenn gemäß der vorbeschriebenen Erfindung das Signalisieren einer Aufforderung zum seriellen Sprechen bei einem zeitgleichen Sprechen von wenigstens zwei Teilnehmern nicht vorgesehen ist.
  • Gemäß einer weiteren Ausführungsvariante, die in Verbindung mit allen zuvor beschriebenen Varianten einsetzbar ist, kann es vorgesehen sein, dass jedem Teilnehmer oder einer Gruppe von Teilnehmern eine eigene Spracherkennung und/oder Sprechererkennung zugeordnet ist.
  • In einer anderen Ausführung kann es auch vorgesehen sein, dass eine bezogen auf wenigstens einen, insbesondere alle Teilnehmer sprachfremde Spracherkennung eingesetzt wird. Dies führt sodann dazu, dass zwangsläufig die erkannten Worte nicht diejenigen sind, die der Teilnehmer gesprochen hat, da die gesprochenen Worte nicht im Wortschatz der sprachfremden Spracherkennung vorliegen. Dennoch werden selbst mit einer sprachfremden Spracherkennung Worte erkannt, die gespeichert, also z. B. zur Herstellung eines Protokolls mitgeschrieben werden können. Das so erstellte Protokoll bzw. der gespeicherte Satz von erkannten Worten stellt jedoch sodann keinen Klartext dar, so dass durch dieses erfindungsgemäße Verfahren eine anonymisierte Speicherung der Sprachbeiträge erfolgt.
  • Dennoch besteht die Möglichkeit, aus den gespeicherten Worten zurückzuschließen auf die tatsächlichen Wortbeiträge.
  • In einer anderen Ausgestaltung kann es auch vorgesehen sein, dass die Teilnehmer einer Sprachkonferenz in verschiedenen Sprachen kommunizieren, wobei jedem Teilnehmer bzw. einer Gruppe von Teilnehmern eine eigene Spracherkennung und/oder Sprechererkennung zugeordnet ist.
  • Eine derartige Zuordnung kann beispielsweise über die Auswertung der Telekommunikationskennung des oder derjenigen Telekommunikationsgeräte erfolgen, über das bzw. die der oder die Teilnehmer an der Sprachkonferenz teilnehmen.
  • Anhand dieser Kennung kann beispielsweise der Sprachraum ermittelt werden, d.h. die sprachliche Region, aus der die Teilnehmer stammen. So kann beispielsweise festgestellt werden, dass bei einer Telefonkonferenz mit einer CLI aus Frankreich aller Voraussicht nach die teilnehmenden Personen französisch sprechen, so dass einer französischsprachigen Person sodann eine Spracherkennung und gegebenenfalls Sprechererkennung zugeordnet wird, die auf die französische Sprache trainiert ist, also im Wesentlichen den Wortschatz der französischen Sprache umfasst.
  • Es kann sodann vorgesehen sein, dass bei der Speicherung erkannter Worte im Rahmen des erfindungsgemäßen Verfahrens die Worte der Teilnehmer in jeweils unterschiedlichen Sprachen, jedoch für die jeweilige Sprache im Klartext, abgespeichert werden. Ebenso kann es vorgesehen sein, dass in einer anderen Alternative zusätzlich zur Spracherkennung auch eine Übersetzung stattfindet, so dass trotz fremdsprachigen Wortbeitrags eine Speicherung der erkannten Wörter in einer übersetzten Sprache, beispielsweise eine für alle Teilnehmer gleiche Sprache gespeichert wird.
  • So kann beispielsweise zum Anfang einer Konferenz zwischen den Teilnehmern festgelegt werden, welches die Sprache für die Protokollierung bzw. Speicherung der Wortbeiträge sein soll, so dass sodann unabhängig von der tatsächlich verwendeten Sprache der Teilnehmer die Protokollierung nach einer Erkennung der gesprochenen Worte und gegebenenfalls Übersetzung in der gewünschten Protokollsprache gespeichert werden.
  • In einer weiteren bevorzugten Ausgestaltung des Verfahrens kann es vorgesehen sein, den gesamten Datensatz der gespeicherten erkannten und gegebenenfalls den Personen zugeordneten Worte aufzuspalten in mehrere Datensätze, wobei sodann jeder aufgespaltene Datensatz einem bestimmten Teilnehmer zugeordnet ist, so dass die einzelnen Wortbeiträge jedes Teilnehmers separierbar sind. Gegebenenfalls können Aufspaltungen der Datensätze nicht wie vorgenannt teilnehmerbezogen, sondern bezogen auf die Telekommunikationskennung, also z.B. CLI, HLR etc. vorgenommen werden.
  • Bei einer Durchführung einer Sprachkonferenz mit mehreren fremdsprachigen Teilnehmern kann es auch vorgesehen sein, dass jeder der Teilnehmer in seiner Muttersprache spricht und weiterhin die Möglichkeit gegeben ist, die Wortbeiträge anderer Teilnehmer nach einer vorangegangenen Übersetzung, gegebenenfalls einer automatischen oder durch einen Dolmetscher erfolgten Übersetzung zu hören.
  • So kann ein Teilnehmer jeweils in seiner eigenen Muttersprache sprechen und hören, wodurch Verständigungsschwierigkeiten ausgeschlossen werden. Die Protokollierung, d.h. Speicherung der erkannten Worte kann sodann wie vorgeschrieben erfolgen, also beispielsweise im Klartext der konkreten Fremdsprache oder gegebenenfalls nach einer Übersetzung in eine gewünschte Sprache.
  • Der Ablauf des erfindungsgemäßen Verfahrens wird anhand des schematisch dargestellten Ausführungsbeispiels näher erläutert.
  • Unter Punkt 1 der Darstellung ist erkennbar, dass eine Konferenz mit den einzelnen Teilnehmern A, B und C stattfinden soll. Diese Teilnehmer kommunizieren über ein Telekommunikationsnetzwerk miteinander, was beispielsweise über die Vermittlungsstelle V erfolgen kann. Die einzelnen Telekommunikationsteilnehmer A, B und C werden so über die Vermittlungsstelle zu einer Sprachkonferenz zusammengeschaltet, wobei die Wortbeiträge von einer übergeordneten zentralen Einheit, die beispielsweise auch in der Vermittlungsstelle V realisiert sein kann oder separat im Telekommunikationsnetz angeordnet ist, erfasst werden.
  • Dies bedeutet im Zusammenhang mit diesem Ausführungsbeispiel, dass neben einer Spracherkennung zur inhaltlichen Erkennung der Worte auch eine Sprechererkennung, z.B. anhand eines oder mehrerer Sprachparameter und/oder anhand weiterer Parameter, wie die Telekommunikationsanschlusskennung erfolgt.
  • Dies erfolgt in dieser Ausführung durch die Einheit zur Sprach- bzw. Sprechererkennung SE im Schritt 2. Hierbei kann Rückgriff genommen werden auf gegebenenfalls vorhandene Datenbanken D mit Informationen über die Telekommunikationskennung bzw. die jeweils zu einem Teilnehmer gespeicherten Sprachparameter, um einen Vergleich vornehmen zu können. Ebenso können die Datenbanken D die Wortschätze gespeichert vorhalten, die der jeweils verwendeten Spracherkennung zugrunde liegen.
  • Es kann sodann in dem weiteren 3. Verfahrensschritt SE2 festgestellt werden, ob eine erkannte sinnvolle Wortfolge vorliegt, was nur dann gegeben ist, wenn die jeweiligen Teilnehmer nacheinander sprechen, nicht jedoch, wenn sich Wortbeiträge überlagern.
  • Wird hierbei festgestellt, dass keine sinnvolle Wortfolge vorliegt, so kann im 4. Verfahrensschritt SE3 das akustische Signal an alle oder nur an den störenden Teilnehmer signalisiert werden. In der Ausführung gemäß diesem Beispiel kann es sich dabei um den gesprochenen Satz handeln „Bitte den Sprecher aussprechen lassen".
  • Es kann sodann die weitere Verarbeitung und Speicherung des erkannten Wortes im Schritt 5. erfolgen oder gegebenenfalls auch der gestörte Teilnehmer gebeten werden, seinen Wortbeitrag zu wiederholen. Das erfindungsgemäße Verfahren wird sodann iterativ wiederholt.

Claims (14)

  1. Verfahren zur Durchführung einer Sprachkonferenz mit mehreren Teilnehmern, die miteinander kommunizieren, insbesondere über ein Telekommunikationsnetzwerk mittels Telekommunikationsgeräten, wobei die von einem Teilnehmer gesprochenen Worte mittels einer Spracherkennung erkannt und gespeichert werden, dadurch gekennzeichnet, dass bei einem zeitgleichen Sprechen von wenigstens zwei Teilnehmern eine Aufforderung zum seriellen Sprechen signalisiert wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein zeitgleiches Sprechen dadurch erkannt wird, dass mittels der Spracherkennung kein Wort oder kein sinnvolles Wort erkannt wird.
  3. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass neben einer Spracherkennung zur Erkennung der gesprochenen Worte auch eine Sprechererkennung durchgeführt wird zur Erkennung welcher der Teilnehmer ein Wort gesprochen hat.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass ein zeitgleiches Sprechen erkannt wird durch ein Erkennen von wenigstens zwei Teilnehmern innerhalb eines vorgegebenen Zeitintervalls, insbesondere gleichzeitig.
  5. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass eine Sprechererkennung durchgeführt wird mittels wenigstens eines Sprachparameters eines Teilnehmers, insbesondere durch Vergleich mit einem oder einer Gruppe von Referenzparametern, insbesondere in Verbindung mittels einer Telekommunikationskennung (CLI, HLR, SIM etc) und/oder Gerätekennung (IMEI, MAC etc.).
  6. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass bei einer nicht erfolgten Sprechererkennung ein nicht erkannter Teilnehmer aufgefordert wird, sich zu identifizieren, insbesondere wonach wenigstens ein Referenzparameter des identifizierten Teilnehmers gespeichert wird.
  7. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass eine Signalisierung zur Aufforderung seriell zu sprechen erfolgt durch ein optisches und/oder akustisches Signal, insbesondere wobei ein akustisches Signal ausgebildet ist als eine Sprachansage.
  8. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass eine Signalisierung nur an denjenigen Teilnehmer erfolgt, von dem eine Störung ausgeht, insbesondere durch Signalisierung an die Telekommunikationsadresse und/oder Gerätekennung, die einem Teilnehmer zugeordnet ist.
  9. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass ein erkanntes gesprochenes Wort gespeichert wird mit einer Information, welcher der Teilnehmer das Wort gesprochen hat, insbesondere durch Abspeichern einer Zuordnungskennung in Verbindung mit einem gesprochenem Wort.
  10. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass mittels der Zuordnungskennung und oder der Telekommunikationskennung aus den gespeicherten Worten der Teilnehmer diejenigen wenigstens eines gewünschten Teilnehmers gelöscht oder selektiert werden, insbesondere zum Abrufen der Worte dieses wenigstens einen Teilnehmers.
  11. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass jedem Teilnehmer oder einer Gruppe von Teilnehmern eine eigene Spracherkennung und/oder Sprechererkennung zugeordnet ist.
  12. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass eine bezogen auf wenigstens einen, insbesondere alle Teilnehmer sprachfremde Spracherkennung eingesetzt wird.
  13. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass Teilnehmer in verschiedenen Sprachen kommunizieren, wobei die erkannten Worte in der jeweiligen Sprache und/oder in einer übersetzten Sprache, insbesondere für alle Teilnehmer gleiche Sprache gespeichert werden.
  14. System zur Durchführung einer Sprachkonferenz mit mehreren Teilnehmern, die miteinander kommunizieren, insbesondere über ein Telekommunikationsnetzwerk mittels Telekommunikationsgeräten, wobei die von einem Teilnehmer gesprochenen Worte mittels einer Spracherkennung erkennbar und speicherbar sind, dadurch gekennzeichnet, dass bei einem zeitgleichen Sprechen von wenigstens zwei Teilnehmern eine Aufforderung zum seriellen Sprechen signalisierbar ist.
DE200610002603 2006-01-13 2006-01-13 Verfahrern und System zur Durchführung einer Sprachkonferenz Ceased DE102006002603A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE200610002603 DE102006002603A1 (de) 2006-01-13 2006-01-13 Verfahrern und System zur Durchführung einer Sprachkonferenz

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE200610002603 DE102006002603A1 (de) 2006-01-13 2006-01-13 Verfahrern und System zur Durchführung einer Sprachkonferenz

Publications (1)

Publication Number Publication Date
DE102006002603A1 true DE102006002603A1 (de) 2007-07-19

Family

ID=38190145

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200610002603 Ceased DE102006002603A1 (de) 2006-01-13 2006-01-13 Verfahrern und System zur Durchführung einer Sprachkonferenz

Country Status (1)

Country Link
DE (1) DE102006002603A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014043555A3 (en) * 2012-09-14 2014-07-10 Google Inc. Handling concurrent speech

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5631904A (en) * 1994-11-21 1997-05-20 Lucent Technologies Inc. Method for automatically establishing a conference call
GB2311684A (en) * 1996-03-27 1997-10-01 Intellprop Ltd Telephone conferencing systems
EP0973312A1 (de) * 1998-07-11 2000-01-19 Matthias Stöffler Verfahren und Vorrichtung zur Simultanübersetzung von Telefongesprächen
DE69604268T2 (de) * 1995-12-05 2000-03-23 Nokia Telecommunications Oy Espoo Sprachberechtigungzuteilung an mobilen Einheiten, die auf einem direkten Modus-Kanal kommunizieren
EP1292090A1 (de) * 2001-09-05 2003-03-12 Motorola, Inc. Telefon Konferenz mit Sprechererkennung
US20030125954A1 (en) * 1999-09-28 2003-07-03 Bradley James Frederick System and method at a conference call bridge server for identifying speakers in a conference call
DE10238287A1 (de) * 2002-08-21 2004-03-04 Siemens Ag Verfahren und Vorrichtung zum Bereitstellen von Konferenzen
DE10261478A1 (de) * 2002-12-31 2004-07-15 Trinkel, Gabriele Lisa System und Verfahren zur Kommunikationsarchivierung durch einen unparteiischen Dritten
EP1453287A1 (de) * 2003-02-28 2004-09-01 Xerox Corporation Automatische Behandlung von Konversationsgruppen

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5631904A (en) * 1994-11-21 1997-05-20 Lucent Technologies Inc. Method for automatically establishing a conference call
DE69604268T2 (de) * 1995-12-05 2000-03-23 Nokia Telecommunications Oy Espoo Sprachberechtigungzuteilung an mobilen Einheiten, die auf einem direkten Modus-Kanal kommunizieren
GB2311684A (en) * 1996-03-27 1997-10-01 Intellprop Ltd Telephone conferencing systems
EP0973312A1 (de) * 1998-07-11 2000-01-19 Matthias Stöffler Verfahren und Vorrichtung zur Simultanübersetzung von Telefongesprächen
US20030125954A1 (en) * 1999-09-28 2003-07-03 Bradley James Frederick System and method at a conference call bridge server for identifying speakers in a conference call
EP1292090A1 (de) * 2001-09-05 2003-03-12 Motorola, Inc. Telefon Konferenz mit Sprechererkennung
DE10238287A1 (de) * 2002-08-21 2004-03-04 Siemens Ag Verfahren und Vorrichtung zum Bereitstellen von Konferenzen
DE10261478A1 (de) * 2002-12-31 2004-07-15 Trinkel, Gabriele Lisa System und Verfahren zur Kommunikationsarchivierung durch einen unparteiischen Dritten
EP1453287A1 (de) * 2003-02-28 2004-09-01 Xerox Corporation Automatische Behandlung von Konversationsgruppen

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014043555A3 (en) * 2012-09-14 2014-07-10 Google Inc. Handling concurrent speech
US9313335B2 (en) 2012-09-14 2016-04-12 Google Inc. Handling concurrent speech
US9491300B2 (en) 2012-09-14 2016-11-08 Google Inc. Handling concurrent speech
US9742921B2 (en) 2012-09-14 2017-08-22 Google Inc. Handling concurrent speech
US10084921B2 (en) 2012-09-14 2018-09-25 Google Llc Handling concurrent speech

Similar Documents

Publication Publication Date Title
DE10220524B4 (de) Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE10220521B4 (de) Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
DE10100725C1 (de) Automatisches Dialogsystem mit Datenbanksprachmodell
EP1590797B1 (de) Kommunikationssystem, kommunikationsendeinrichtung und vorrichtung zum erkennen fehlerbehafteter text-nachrichten
EP1361740A1 (de) Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE19837102A1 (de) Verfahren und Anordnung zum Durchführen einer Datenbankanfrage
EP2962296A2 (de) Wortwahlbasierte sprachanalyse und sprachanalyseeinrichtung
DE60018349T2 (de) Erzeugung von einem Namenwörterbuch aus aufgezeichneten telephonischen Grüssen für die Spracherkennung
WO2003054856A1 (de) Verfahren und vorrichtung zur spracherkennung
DE102010040553A1 (de) Spracherkennungsverfahren
EP1340169B1 (de) Verfahren und vorrichtung zur automatischen auskunfterleitung mittels einer suchmaschine
EP1361738A1 (de) Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE102006002603A1 (de) Verfahrern und System zur Durchführung einer Sprachkonferenz
EP1444855A1 (de) Rücksetzen von versendeten informationen
DE69814442T2 (de) Strukturerkennung
EP1363271A1 (de) Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
EP3893476B1 (de) Verfahren zur verbesserten identifizierung und/oder authentifizierung eines nutzers im rahmen einer telefonverbindung oder eines sprachanrufs des nutzers mit einem sprachtelefoniesystem, system, telekommunikationsnetz, computerprogramm und computerlesbares medium
DE10127852A1 (de) Verfahren zur Erkennung von Sprachinformationen
DE10046208A1 (de) Voicefilter
DE10220519B4 (de) Verfahren und System zur Verarbeitung von Sprachinformation
DE10220518B4 (de) Verfahren und System zur Verarbeitung und Speicherung von Sprachinformation

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
R012 Request for examination validly filed

Effective date: 20121103

R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final
R003 Refusal decision now final

Effective date: 20150113