DE10054583A1 - Verfahren und Vorrichtung zur Behandlung von Sprachinformationen - Google Patents
Verfahren und Vorrichtung zur Behandlung von SprachinformationenInfo
- Publication number
- DE10054583A1 DE10054583A1 DE10054583A DE10054583A DE10054583A1 DE 10054583 A1 DE10054583 A1 DE 10054583A1 DE 10054583 A DE10054583 A DE 10054583A DE 10054583 A DE10054583 A DE 10054583A DE 10054583 A1 DE10054583 A1 DE 10054583A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- voice
- search
- recorded
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000005540 biological transmission Effects 0.000 claims abstract description 13
- 230000015654 memory Effects 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims 2
- 230000007787 long-term memory Effects 0.000 claims 1
- 230000007774 longterm Effects 0.000 claims 1
- 238000010845 search algorithm Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 9
- 238000007906 compression Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Durchführung des Verfahrens zur Behandlung von Sprachinformationen wie Abspeicherung und/oder Wiedergabe und/oder Übertragung, welches Mittel zur Eingabe und/oder Abspeicherung und/oder akustischen Wiedergabe und/oder zur Übertragung von Sprach- und Dateninformationen zu anderen Vorrichtungen zur dortigen Abspeicherung und/oder Wiedergabe verwendet sowie Mittel zum Suchen nach einem oder mehreren Sprachsegmenten in den abgespeicherten Sprachinformationen benutzt. DOLLAR A Die Aufgabe der Erfindung, ein gattungsgemäßes Verfahren und eine gattungsgemäße Vorrichtung zu entwickeln, mit denen die Nachteile des Standes der Technik vermieden werden, und mit denen ein Aufzeichnen und Suchen/Wiedergeben von Sprachinformationen ohne manuelle Kennzeichnung und Klassifizierung und ohne die Vorgabe eines Wortschatzes gewährleistet werden, wird dadurch gelöst, daß gesprochene Worte und/oder zusammenhängende Sätze (Notizen) als Sprachsignale in einem Speicher digital aufgezeichnet werden, die in einem Teilumfang von mindestens einem Wort zum Suchen erneut gesprochen und in einer Vorrichtung mit den Aufzeichnungen verglichen und bewertet werden, woraus ein Abstandswert zwischen den beiden Sprachmustern ermittelt und die Notiz mit dem geringsten Abstandswert akustisch ausgegeben wird.
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur
Behandlung von Sprachinformationen wie Abspeicherung und/oder
Wiedergabe und/oder Übertragung, die Mittel zur Eingabe
und/oder Abspeicherung und/oder akustischen Wiedergabe
und/oder zur Übertragung von Sprach- und Dateninformationen zu
anderen Vorrichtungen zur dortigen Abspeicherung und/oder
Wiedergabe aufweisen sowie Mittel zum Suchen nach einem oder
mehreren Sprachsegmenten in den abgespeicherten Sprach
informationen enthalten.
Es sind bereits Verfahren und Vorrichtungen bekannt, mit denen
es möglich ist, Sprachinformationen abzuspeichern, wobei die
abgespeicherten Sprachinformationen mit Digital-Kennzeich
nungssignalworten versehen werden, um das Auffinden bestimmter
Sprachinformationen zur Wiedergabe oder zur Übertragung zu
erleichtern.
In der Offenlegungsschrift DE 33 33 958 A1 ist eine Vorrich
tung zum Abspeichern von Sprachinformationen beschrieben, die
einen steuerbaren Generator enthält, durch welchen mittels
Tastatur Digital-Kennungssignalworte erzeugt werden. Diese
werden mit oder getrennt von den Sprachinformationen aufge
zeichnet und beim späteren Suchen zum Auffinden der gesuchten
Information verwendet.
Nachteilig ist es, dass der Benutzer die Sprachinformationen
klassifizieren muß, um einen Suchvorgang nach bestimmten
Sprachinformationen starten zu können.
In der US 5,602,963 wird ein elektronischer Personal Organizer
beschrieben, welcher Sprachnotizen aufzeichnen und wiedergeben
kann. Der Organizer weist auch eine Funktion auf, welche es
dem Benutzer ermöglicht, nach dem Aufzeichnen einer Sprach
notiz, diese durch Eingabe eines oder mehrerer gesprochener
Worte zum späteren Wiederauffinden zu markieren.
Diese Vorgehensweise hat den Nachteil, dass für jede Notiz,
sofern eine Klassifikation erwünscht ist, die Klassifikation
vom Benutzer explizit nach dem Aufzeichnen der Notiz vorge
nommen werden muß. Die Menge der Worte, nach denen gesucht
werden kann, muß vorher festgelegt werden. Diese Worte müssen
vorher in einer Trainingsphase vorgesprochen werden. Die
Verarbeitung der Sprachsignale im Organizer erfolgt durch
unterschiedliche Verarbeitungsfunktionen, je nachdem, ob die
Sprache aufgezeichnet oder mit vorgezeichnetem Wortschatz
verglichen werden soll.
In der US 4,829,576 wird zur Erhöhung der Wahrscheinlichkeit
für die richtige Erkennung eines Wortes vorgeschlagen, aus dem
vorgegebenen Wortschatz nur diejenigen Worte zum Vergleich
heranzuziehen, welche in dem zu durchsuchenden Textteil
enthalten sind. Dazu wird in einem gesonderten Schritt eine
SEARCH-WORD-LIST gebildet.
Aufgabe der Erfindung ist es, ein gattungsgemäßes Verfahren
und eine gattungsgemäße Vorrichtung zu entwickeln, mit denen
die Nachteile des Standes der Technik vermieden werden, und
mit denen ein Aufzeichnen und Suchen/Wiedergeben von
Sprachinformationen ohne manuelle Kennzeichnung und
Klassifizierung und ohne die Vorgabe eines Wortschatzes
gewährleistet werden.
Erfindungsgemäß wird diese Aufgabe durch die Merkmale der
Ansprüche 1 und 22 gelöst.
Das Verfahren ist dadurch gekennzeichnete, daß gesprochene
Worte und/oder zusammenhängende Sätze als Sprachsignale der
Notiz in einem Speicher digital aufgezeichnet werden, die in
einem Teilumfang von mindestens einem Wort zum Suchen erneut
gesprochen und in einer Vorrichtung mit den Aufzeichnungen
verglichen und bewertet werden, woraus ein Abstandswert
zwischen den beiden Sprachmustern ermittelt und die Notiz mit
dem geringsten Abstandswert akustisch ausgegeben wird.
Im Vergleich zu Spracherkennungssystemen hat der Benutzer eine
größere Toleranz gegenüber Fehlern beim Klassifizieren. Die
Sprecherabhängigkeit ist bei der Suche nicht nachteilig,
sondern ein angenehmer Nebeneffekt hinsichtlich der Vertrau
lichkeit.
Es erfolgt keine explizite Zuordnung der Sprachnotizen zu be
stimmten Worten durch den Benutzer, der Wortschatz muß nicht
explizit vorgegeben werden. Es wird keine Trainingsphase
benötigt.
Die Vorrichtung zur Durchführung des Verfahrens ist dadurch
gekennzeichnet, daß ein Telekommunikationsendgerät wie ein
Handy/Telefon mit einer Speicherkarte wie FlashROM und/oder
eine Datenverarbeitungseinrichtung wie ein PC, ein Server mit
einer speziellen Zusatzsoftware ausgestattet verwendet werden.
Die Grundfunktionen des Verfahrens und der Vorrichtung gemäss
dieser Erfindung können durch zwei Vorgänge beschrieben
werden: Aufzeichnen und Suchen/Wiedergeben.
Beim Aufzeichnen werden Notizen in Form von einzelnen,
gesprochenen Stichworten, z. B. Begriffe, Namen, Nummern, oder
zusammenhängenden Sätzen aufgezeichnet. Stichworte, an deren
sicherem Wiederfinden dem Benutzer besonders gelegen ist, kann
er mehrfach innerhalb einer Notiz sprechen. Die Aufzeichnung
kann sowohl in der Vorrichtung (Gerät), z. B. auf einer in
einem Handy eingebauten Speicherkarte, als auch mittels
Sprach/Datenübertragung auf einem entfernten Gerät, z. B. einem
Server oder einem PC, erfolgen.
Zum Suchen spricht der Benutzer die gesuchten Stichworte,
Namen, usw. vor. In der Vorrichtung (z. B. Handy) oder in dem
anderen, entfernten Gerät (Server oder PC) werden die vorge
sprochenen Sprachmuster mit den abgespeicherten Sprachinfor
mationen verglichen und hinsichtlich ihrer Ähnlichkeit
bewertet bzw. es wird ein Abstandswert zwischen den beiden
Sprachmustern ermittelt. Die Notizen mit der größten
Ähnlichkeit (geringstem Abstandswert) werden dann akustisch
wiedergegeben. Bei mehreren Fundstellen kann die Wiedergabe in
der Reihenfolge der Aufzeichnung (z. B. letzte Aufzeichnungen
zuerst) oder nach der Ähnlichkeit von gesuchtem Sprachmuster
und gespeicherten Sprachinformationen erfolgen. Suchbefehle
können ein oder mehrere Stichworte enthalten. Bei mehreren
Stichworten kann die Suche nach Notizen, welche eines der
Stichworte, mehrere oder alle enthalten, erfolgen.
In einer bevorzugten Ausführung werden die Notizen zuerst
wiedergegeben, welche die höchste Anzahl der gesuchten
Stichworte enthalten.
In einer bevorzugten Ausführung der Erfindung werden die
Sprachsignale komprimiert aufgezeichnet.
In der Praxis sind eine Reihe von Verfahren zur Sprachkompres
sion bekannt, z. B. die Recommendations G.723 oder G.729 der
ITU (International Telecommunication Union) oder die Recommen
dation GSM 06.10 von ETSI. Diese Verfahren arbeiten mehrstufig.
Nach einer Vorbehandlung durch Filter folgt eine
Unterteilung in Segmente und eine Signalanalyse, z. B. mittels
LPC (Linear Predictive Coding). Die dabei bestimmten Segmente
(Sprache/Sprachpause, stimmhaft/stimmlos) und die berechneten
Parameter (z. B. Energiegehalt, die Autokorrelationskoeffi
zienten, die LPC Koeffizienten, die LSP Line Spectral Pair
Koeffizienten und Parameter weiterer Verarbeitungsstufen)
eignen sich auch zum Vergleich von Sprachmustern. Die Zerle
gung der Sprache mit diesen Verfahren und das komprimierte
Abspeichern reduzieren den benötigten Speicherplatz gegenüber
der unkomprimierten Abspeicherung. Gleichzeitig wird der
spätere Mustervergleich beschleunigt.
Eine weitere Ausführung der Erfindung speichert neben der
komprimierten Sprachinformation auch unkomprimierte Signale.
Zweck dieser Vorgehensweise ist, zu einem späteren Zeitpunkt
bessere Algorithmen einsetzen zu können. Die aufgezeichneten
Sprachinformationen können über einen längeren Zeitraum
(Jahrzehnte) benötigt werden. Bei einer Sprachkompression
gehen unweigerlich Detailinformationen verloren. Da sich
sowohl die Leistungsfähigkeit der Informationsverar
beitungsgeräte als auch die Qualität der Algorithmen zum
Mustervergleich ständig weiterentwickeln dürften, sollen die
Originalsignale zur späteren Verwendung aufbewahrt werden. Der
zu erwartende weitere kontinuierliche Kapazitätszuwachs (bei
gleichzeitigem Preisverfall) der Speichermedien macht diese
Option für den Benutzer erschwinglich.
Ebenso ist es erfindungsgemäß möglich, beim Eingeben anzuge
ben, welcher Teil der Sprachinformationen auch unkomprimiert
gespeichert wird. Die unkomprimierten Signale können auch auf
einem anderen Speicher, einem Offline-Speicher, abgelegt
werden.
Das Verfahren erlaubt es ferner, verdeckt zu suchen. Wenn bei
einem Suchvorgang eine Sprachnotiz gefunden wurde, bei wel
cher der Vergleich der Sprachmuster des Suchbefehls und
Sprachmustern der Sprachnotiz eine vorgegebene Schwelle von
Ähnlichkeit überschreitet, wird diese wiedergegeben. Während
der Wiedergabe wird die Suche im Hintergrund weitergeführt.
Der Zeitaufwand zum Suchen wird hierdurch dem Benutzer
teilweise verdeckt.
In einer weiteren Ausführung werden auch die Sprachmuster der
in den Suchbefehlen enthaltenen Stichworte, die Zeiger auf
die gefundenen Sprachnotizen, die berechneten Abstandswerte
und die Reaktion des Benutzers gespeichert. In dieser
Ausführung wird davon ausgegangen, dass der Benutzer nach der
Wiedergabe einer Notiz eine Wertung vornimmt: GUT, FALSCH.
Diese Reaktion wird zusammen mit den Zeigern auf die
wiedergegebene Notiz abgespeichert. Bei einem neuen Suchbefehl
werden die aktuellen Sprachmuster des Suchbefehls mit den
Sprachmustern von früherer Suchvorgängen verglichen. Bei
Übereinstimmung der Muster bzw. großer Ähnlichkeit, wird die
gespeicherte frühere Reaktion des Benutzers geprüft und sofern
positiv, die Sprachnotiz, auf welche der Zeiger der Aufzeich
nung des früheren Suchbefehls zeigt, ausgegeben. Die
anschließende Reaktion des Benutzers wird wieder mit dem
Zeiger zur ausgegebenen Sprachnotiz gespeichert. Diese
Vorgehensweise hat einige Vorteile:
- - sie verkürzt das Suchen,
- - die Treffsicherheit erhöht sich kontinuierlich,
- - allmähliche Veränderungen in der Aussprache oder der Stimme des Benutzers werden kompensiert
- - die gespeicherten Sprachmuster und Wertungen von Entscheidungen können zur Optimierung der Verfahren benutzt werden.
Das Durchsuchen der Originalnotizen ist weiterhin möglich.
Ferner ist es erfindungsgemäß möglich, nach dem indirekten
Suchen mittels Zeiger eines vorherigen Suchbefehls, die
Sprachmuster des neuen Suchbefehls mit den Sprachmustern der
aufgezeigten Notiz zu vergleichen, und das Ergebnis zur
Bestimmung des Abstandswertes zu verwenden.
Ebenso ist es erfindungsgemäß möglich, dass die Wertungen
feinstufiger erfolgen: z. B. GANZ FALSCH, SEHR-GUT.
Eine GANZ-FALSCH-Wertung unterbindet dann auf jeden Fall eine
Wiedergabe der entsprechenden Notiz bei einem späteren
Suchvorgang. Eine FALSCH-Wertung stellt die Notiz in der
Reihenfolge der gefundenen Kandidaten zurück, z. B. indem
dessen Abstandswert durch Multiplikation mit einem Faktor
größer eins vergrößert wird. Entsprechend wird eine SEHR-GUT-
Bewertung bei einer späteren Suche die gefundene Notiz,
sofern deren Abstandswert unter einer vorgegebenen Schwelle
liegt, in der Reihenfolge der Ausgabe bevorzugen.
In einer weiteren Ausführung wird auch ein Zeiger auf die
Aufzeichnung des früheren Suchbefehls, zusätzlich zum Zeiger
auf die Notiz, mit der Wertung des Benutzers zur Aufzeichnung
des aktuellen Suchbefehls abgespeichert.
Eine zusätzliche Verfeinerung der Suchfunktion erweitert die
Suchfunktionalität: Assoziationen. Das Gerät sucht nach den im
Suchbefehl enthalten Stichworten. Findet es die gesuchten
Stichworte in einem früheren Suchbefehl oder in einer Notiz,
und enthält der frühere Suchbefehl oder die Sprachnotiz
weitere Stichworte, fragt das Gerät durch akustische
Wiedergabe dieser Stichworte, ob der Suchvorgang um diese
Stichworte erweitert werden soll.
In einer weiteren Verfeinerung werden nur solche Stichworte
abgefragt, welche bei mehreren gefundenen Suchbefehlen oder.
Notizen mehrfach vorkommen.
In der bevorzugten Ausführung werden die Sprachmuster mit dem
häufigsten Vorkommen zuerst wiedergegeben.
Der Benutzer kann dann die Liste der zu suchenden Sprachmuster
um diese Muster erweitern, die Muster ignorieren lassen, oder
Sprachnotizen, welche dieses Sprachmuster enthalten, von der
Wiedergabe ausschließen. Diese Funktion erlaubt es zum Einen,
die Menge der gefundenen Sprachnotizen sukzessive einzu
grenzen, zum Anderen, themenverwandte Aufzeichnungen zu
finden.
Zur Beschleunigung des Suchens in umfangreicheren Aufzeich
nungen kann das Gerät eine Liste mit Stichworten und Zeigern
auf Sprachnotizen, in welchen diese Stichworte vorkommen,
anlegen. Zu jedem Stichwort können mehrere Zeiger existieren.
Bei mehreren Zeigern pro Stichwort, kann die Liste zu jedem
Zeiger den Abstandswert zwischen dem Stichwort (Sprachmuster)
in der Index-Liste und dem Stichwort (Sprachmuster) in der
referenzierten Notiz enthalten. Bei einem Zeiger pro Stichwort
entfällt der Abstandswert, da das Sprachmuster in der Notiz
und in der Index-Liste identisch sind. Dem Benutzer kann eine
Sonderfunktion zur Verfügung gestellt werden, mit welcher er
zu jeder Notiz Stichpunkte diktieren kann. Alternativ können
automatisch alle Worte welche einzeln gesprochen werden, (mit
deutlicher Pause am Wortanfang und -ende) in die Indexliste
aufgenommen werden. Die Erstellung dieser Liste erfordert
Rechenleistung. Deshalb wird sie bevorzugt erstellt, wenn das
Gerät an eine externe Stromversorgung angeschlossen ist, z. B.
während dem Laden des Akkus oder in einem anderen Gerät
(Server).
Darüber hinaus können zusammen mit den Sprachinformationen
andere Daten gespeichert werden.
Ein Beispiel hierfür sind Bilddaten von einer im Gerät
integrierten digitalen Kamera, welche zusammen mit Sprach
notizen gespeichert werden. In dieser Ausführung erfolgt die
Suche, wie bereits dargelegt, mittels Vergleich der im
Suchbefehl enthaltenen Sprachmuster und den abgespeicherten
Sprachsignalen. Die gefundenen Notizen werden zusammen mit den
anderen gespeicherten Daten wiedergegeben. Textdaten oder
Bilder werden z. B. auf einem Bildschirm ausgegeben; auch
Melodien, Musik, Links können zum Beispiel auf Web-Seiten und
Emails ausgegeben werden.
Ein weiteres Beispiel ist die Aufzeichnung von Telefonaten
oder Teilen davon, mit oder ohne zusätzlichen Kommentaren und
den Telefonnummern. Gesucht werden kann nach Stichworten,
zusammen mit Telfonnummern, und mittels der oben beschriebenen
Assoziativ-Funktion nach Sprachmustern des Gesprächspartners,
z. B. nach dem Sprachmuster seiner Namensnennung beim Melden am
Gesprächsanfang.
Bei allen Suchvorgängen können natürlich auch zeitliche
Einschränkungen bei der Suche (zwischen Datum und Datum, nach
Tageszeit, nach Wochentag, Jahreszeit, usw.) zur Einschränkung
des Suchraumes verwendet werden.
In einer Ausführung dieser Erfindung, bei der das Ein- und
Ausgabegerät (Handy) mittels Sprach- oder Datenübertragungs
vorrichtung an eine entfernte Speicher- und Rechenvorrichtung
angeschlossen ist, ergeben sich die folgenden, zusätzlichen
Funktionsabläufe: offline Eingeben, offline Suchen, getrennte
Speicher mit unterschiedlichem Speicherumfang, Notwendigkeit
von Verschlüsselung.
Offline Eingeben: zur Aufzeichnung neuer Sprachnotizen ist es
nicht notwendig, dass eine Kommunikationsverbindung zu dem
entfernten Gerät besteht. Die Informationen werden z. B. auf
einer Flash-Speicherkarte komprimiert oder unkomprimiert
zwischengespeichert. Es können mehrer Notizen gesammelt und
zusammen übertragen werden. Die Übertragung kann zu Zeiten
erfolgen, in denen günstigere Verbindungstarife gelten oder
der Benutzer ohnehin in der Nähe des zweiten Gerätes ist, z. B.
Überspielung im Büro auf Arbeits-PC.
Offline Suchen: wenn der Suchvorgang auf dem entfernten Gerät
erfolgen soll, muss keine ständige Verbindung zwischen den
beiden Geräten bestehen. Es genügt, wenn der Suchbefehl mit
den Sprachmustern, z. B. per IP-Paket, an das entfernte Gerät
übertragen wird und das Ergebnis ebenfalls per IP-Paket oder
Rückruf übermittelt wird.
Ebenso ist es erfindungsgemäß möglich, Sprachaufzeichnungen
auf verschiedenen Geräten gleichzeitig zu speichern. Der
Benutzer wird typischerweise ein Ein- und Ausgabegerät in Form
eines Handy mit sich führen. Dort können in einer Flash-
Speicherkarte, nach heutigem Stand der Speichertechnik und der
Kompressionsalgorithmen, Sprachaufzeichnungen bis zu einer
Gesamtzeit von einigen Stunden gespeichert werden. Dieser
Speicher kann z. B. die letzten Aufzeichnungen (offline Einge
ben) und die aktuell sowie die häufig benötigten Notizen bein
halten. Die Aufzeichnungen im Handy werden periodisch, siehe
"offline Eingeben" auf das entfernte Gerät übertragen. Das
Suchen kann auf dem lokalen Gerät in den lokalen
Aufzeichnungen oder auf dem entfernten Gerät erfolgen.
Das entfernte Gerät kann ein großer, von einem Provider,
ähnlich wie bei Sprachboxdiensten, bereitgestellter Server
sein. In dieser Ausführung ist eine verschlüsselte Übertragung
und eine verschlüsselte Speicherung auf dem Server des
Providers besonders wichtig. Verfahren zur Verschlüsselung von
Sprache und Daten sind bekannt. Die Daten sollten zu keinem
Zeitpunkt unverschlüsselt auf dem Server oder auf der Über
tragungsstrecke vorliegen. Die Suche erfolgt ausschließlich im
Handy anhand der Index-Listen oder mittels Durchsuchen der
Stichworte und Zeiger von vorherigen, gespeicherten Suchbe
fehlen. Der Server dient nur zum Abspeichern der Notizen.
In einer weiteren Ausführung kann die Index-Liste oder die
Aufzeichnung der früheren Suchbefehle teilweise auf dem Server
liegen. Die Indexliste ist dazu hierarchisch gegliedert, die
Liste der früheren Suchbefehle ist zeitlich untergliedert.
Listen mit älteren Suchbefehlen liegen auf dem Server. Zum
Durchsuchen werden die Listen bei Bedarf in das Handy
übertragen.
Nachfolgend wird die Erfindung in einem Ausführungsbeispiel
näher erläutert. Die einzige Figur zeigt die schematische
Darstellung einer möglichen Kommunikationskonfiguration.
In der folgenden Beschreibung werden die Befehle des Benutzers
durch Betätigung von Tasten ausgelöst. Dies können auch Soft-
Tasten sein. Es ist auch erfindungsgemäß möglich, die Befehle
durch Sprachkommandos zu geben.
Der Benutzer betätigt die RECORD-Taste eines
Handys 10 und spricht seine Notiz in das Handy 10. Am Ende
drückt er die STOP-Taste. Die Eingabe der Sprache erfolgt über
ein Mikrofon des Handys 10. Die analogen Sprachsignale werden
in einem Analog-Digital-Wandler digitalisiert und in einen DSP
11 geleitet. Dort werden die Signale durch einen Vorfilter
(Hoch- und Tiefpass) geführt, anschließend in Segmente
unterteilt (typischerweise 10 bis 20 ms Segmente). Je nach
verwendetem Kompressionsstandard überlappen sich die Segmente
(z. B. um 10 ms). Die Signalwerte in den Segmenten werden durch
eine Hamming-Window-Funktion gewichtet. Danach erfolgt die
Berechnung der Autokorrelationsfunktion der Signalwerte in den
einzelnen Segmenten. Daraus werden die LPC-Koeffizienten
berechnet. Zum Zwecke der Kompression und der Abspeicherung
werden diese Koeffizienten und die Sprachsignale entsprechend
den Vorgaben des verwendeten Kompressions-Standards weiter
verarbeitet. Zum Zwecke des Mustervergleichs werden die LPC-
Koeffizienten, oder transformierte Darstellungen (z. B.
Cepstrum-Koeffizienten, PARCOR-Koeffizienten) als Bestandteil
der komprimierten Sprachinformation in einer Speicherkarte 12
abgespeichert. Zusätzlich wird eine Datum- und Zeitmarke
abgespeichert.
An Stelle der Verwendung des LPC-Verfahrens können auch andere
Verfahren zur Sprachkompression und Mustererkennung eingesetzt
werden, welche z. B. auf der Kurzzeit-Fourier-Analyse oder
Filterbänken beruhen.
Die Aufzeichnung kann auch mittels einer Sprach-/Daten
übertragung 13 auf einem entfernten Gerät, hier einem Rechner
14 oder einem Server 15, erfolgen.
Der Benutzer drückt die SEARCH-Taste des Handys 10 und
spricht während er die Taste gedrückt hält die zu suchenden
Stichworte. Das Gerät 10 sucht nach entsprechenden Notizen und
gibt die erste, gefundene Sprachinformation akustisch wieder.
Der Benutzer kann dann zum Weitersuchen bzw. zur Ausgabe der
nächsten gefundenen Notizen die NEXT-Taste drücken, oder eine
Taste zur Bewertung (GUT, FALSCH) drücken und anschließend bei
Bedarf die NEXT-Taste. Die Verarbeitung der Sprachsignale
erfolgt analog der beim 'Aufzeichnen' beschriebenen. Die
Sprachmuster werden ebenso abgespeichert. Anschließend werden
die LPC-Parameter oder transformierte Darstellungen, z. B.
Ceptrum-Koeffizienten, der Mustererkennung zugeführt. Zur
Mustererkennung werden die Parameter zu Vektoren
zusammengefasst. Die einzelnen Stichworte werden zu Gruppen
von Vektoren zusammengefasst. Anschließend werden sie mit den
abgespeicherten Sprachinformationen verglichen. Die Anpassung
an die unterschiedliche Sprechgeschwindigkeit der Muster
erfolgt mit dem als 'Dynamische Programmierung' bekannten
Verfahren. Für jedes Stichwort werden in jeder Notiz der
Abstandswert (Score) zu dem ähnlichsten abgespeicherten Muster
ermittelt. Je nach Einstellung des Gerätes wird die erste
gefundene Notiz, welche Muster enthält, deren Abstandswerte
unter einem vorgegebenen Schwellenwert liegen, ausgegeben und
weitergesucht. In einer anderen Einstellung werden zuerst alle
Aufzeichnungen durchsucht, die Notizen nach ihren
Abstandswerten sortiert und die mit den kleinsten
Abstandswerten zuerst ausgegeben. Bei jedem Betätigen der
NEXT-Taste wird die Notiz mit der nächst niedrigeren Wertung
wiedergegeben. Vor dem Wiedergeben einer Notiz wird der Zeiger
auf diese Notiz zur Aufzeichnung des Suchbefehls hinzugefügt.
Ebenso werden Wertungen, welche der Benutzer nach Anhörung der
Notiz eingibt, zur Aufzeichnung des Zeigers hinzugefügt.
Spracherkennungssysteme sind für andere Aufgaben konstruiert.
Ihr Zweck besteht darin, eine diktierte Eingabe möglichst
fehlerfrei in Schriftform zu konvertieren. In
Spracherkennungssystemen erfolgt eine Abbildung von
gesprochener Sprache auf eine vorgegebene, im allgemeinen
erweiterbare Menge von Worten oder Funktionen. Entsprechend
ist der Aufbau der Algorithmen. Die Abbildung erfolgt in
mehreren Schritten. Insbesondere die letzten Schritte
unterschieden sich von der Vorgehensweise gemäß dieser
Erfindung. Sie verwenden statistische Modelle (meistens
Hidden-Markov-Modelle) mit Angaben über die Häufigkeiten von
Übergängen zwischen Sprachsegmenten (Sprachlaute oder
Phoneme). Diese werden teilweise durch eine für den Benutzer
lästige Trainingsphase vor der Erstbenutzung erstellt. Bei dem
erfindungsgemäßen Verfahren entfällt die Trainingsphase vor
der Erstbenutzung. Auch ist der Wortschatz (Stichworte) nicht
a priori festgelegt, sondern ergibt sich dynamisch und
automatisch beim Aufzeichnen und Suchen. Ein weiterer
Unterschied: beim Spracherkennungssystem gibt es zu jedem
gesprochenen Wort eine 'richtige' Abbildung, nämlich die,
welche der Benutzer beabsichtigt hat. Im erfindungsgemäßen
Gerät kann ein Stichwort mehrere richtige 'Treffer' haben.
10
Handy
11
Digital Signal Prozessor DSP
12
Speicherkarte
13
Sprach-/Datenübertragung
14
Rechner
15
Server
Claims (24)
1. Verfahren zur Behandlung von Sprachinformationen wie
Abspeicherung und/oder Wiedergabe und/oder Über
tragung, welches Mittel zur Eingabe und/oder
Abspeicherung und/oder akustischen Wiedergabe und/oder
zur Übertragung von Sprach- und Dateninformationen zu
anderen Vorrichtungen zur dortigen Abspeicherung
und/oder Wiedergabe verwendet sowie Mittel zum Suchen
nach einem oder mehreren Sprachsegmenten in den abge
speicherten Sprachinformationen benutzt,
dadurch gekennzeichnet, daß
gesprochene Warte und/oder zusammenhängende Sätze (Notizen) als Sprachsignale in einem Speicher digital aufgezeichnet werden,
die in einem Teilumfang von mindestens einem Wort zum Suchen erneut gesprochen und in einer Vorrichtung mit den Aufzeichnungen verglichen und bewertet werden,
woraus ein Abstandswert zwischen den beiden Sprachmustern ermittelt
und die Notiz mit dem geringsten Abstandswert akustisch ausgegeben wird.
gesprochene Warte und/oder zusammenhängende Sätze (Notizen) als Sprachsignale in einem Speicher digital aufgezeichnet werden,
die in einem Teilumfang von mindestens einem Wort zum Suchen erneut gesprochen und in einer Vorrichtung mit den Aufzeichnungen verglichen und bewertet werden,
woraus ein Abstandswert zwischen den beiden Sprachmustern ermittelt
und die Notiz mit dem geringsten Abstandswert akustisch ausgegeben wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
dass die Sprachsignale komprimiert aufgezeichnet
werden.
3. Verfahren nach den Ansprüchen 1 und 2, dadurch
gekennzeichnet, dass neben der komprimierten
Sprachinformation auch unkomprimierte Signale
gespeichert werden.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
dass weitere Sprachsignale wie Sprachmuster der in den
Suchbefehlen enthaltenen Stichworte, wie Zeiger auf
die gefundenen Sprachnotizen, wie berechnete
Abstandswerte und wie die Reaktion des Benutzers
gespeichert werden.
5. . Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die Notizen zuerst wiedergegeben werden, welche die
höchste Anzahl der gesuchten Stichworte enthalten.
6. Verfähren nach den Ansprüchen 1 bis 5, dadurch
gekennzeichnet, daß die Sprachmuster beim Suchen mit
den gleichen Datensätzen verglichen, welche auch zur
Wiedergabe verwendet werden.
7. Verfahren nach den Ansprüchen 1 bis 6, dadurch
gekennzeichnet, daß die Reaktionen des Benutzers auf
die Ergebnisse eines Suchvorganges wie GUT, FALSCH,
WEITER und/oder GANZ FALSCH, SEHR GUT aufgezeichnet
werden.
8. Verfahren nach den Ansprüchen 1 bis 7, dadurch
gekennzeichnet, daß bei späteren Suchvorgängen die
Sprachmuster der früheren Suchbefehle unter
Berücksichtigung der aufgezeichneten Wertungen und
Zeiger durchsucht werden.
9. Verfahren nach den Ansprüchen 1 bis 8, dadurch
gekennzeichnet, daß während der Wiedergabe einer
Fundstelle verdeckt weitergesucht wird.
10. Verfahren nach den Ansprüchen 1 bis 9, dadurch
gekennzeichnet, daß die Suchalgorithmen und -parameter
auf der Grundlage der aufgezeichneten Muster und
Wertungen optimiert werden.
11. Verfahren nach den Ansprüchen 1 bis 10, dadurch
gekennzeichnet, daß verschlüsselt gespeichert und ein
Zugangsschutz installiert werden.
12. Verfahren nach den Ansprüchen 1 bis 11, dadurch
gekennzeichnet, daß die Spracheingabe über
Mikrofon, Telefon oder offline über Diktiergerät,
Sprachbox erfolgt.
13. Verfahren nach den Ansprüchen 1 bis 11, dadurch
gekennzeichnet, daß die Wiedergabe über Kopfhörer,
Telefon erfolgt.
14. Verfahren nach den Ansprüchen 1 bis 13, dadurch
gekennzeichnet, daß eine Kurzzeitspeicherung in einem
Handy, eine Langzeitspeicherung auf einem Server
vorgenommen werden, wobei periodisch und/oder bei
Zugriff in den Langzeitspeicher überspielt wird oder
Sprachaufzeichnungen auf verschiedenen Geräten
gleichzeitig vorgenommen werden.
15. Verfahren nach den Ansprüchen 1 bis 14, dadurch
gekennzeichnet, daß ein Index aufgebaut wird, indem
einzelne Sprachmuster gesondert abgelegt und mit
Zeigern auf die aufgezeichneten Notizen versehen
werden und Übereinstimmungskoeffizienten (Scores)
gespeichert werden.
16. Verfahren nach den Ansprüchen 1 bis 15, dadurch
gekennzeichnet, daß die Indexmuster durch den Benutzer
durch das Sprechen einzelner Worte festgelegt wird.
17. Verfahren nach den Ansprüchen 15 und 16, dadurch
gekennzeichnet, daß der Index offline erstellt wird.
18. Verfahren nach den Ansprüchen 15 bis 17, dadurch
gekennzeichnet, daß die Offline-Optimierung und
Indexerzeugung vorgenommen werden, wenn das Handy an
die Stromversorgung (Netz) angeschlossen ist.
19. Verfahren nach den Ansprüchen 15 bis 17, dadurch
gekennzeichnet, daß die Offline-Optimierung auf einem
speziellen, leistungsfähigen Rechner vorgenommen wird.
20. Verfahren nach den Ansprüchen 1 bis 14, dadurch
gekennzeichnet, daß das Suchen mit einer Zeitangabe
erfolgt.
21. Verfahren nach den Ansprüchen 1 bis 19, dadurch
gekennzeichnet, daß andere Dokumente wie Bilder mit
Link auf den Kontext aufgezeichnet werden.
22. Vorrichtung zur Durchführung des Verfahrens nach den
Ansprüchen 1 bis 21, dadurch gekennzeichnet, daß ein
Telekommunikationsendgerät wie ein Handy/Telefon (10)
mit einer Speicherkarte (12) wie FlashROM und/oder
eine Datenverarbeitungseinrichtung wie PC, Server mit
einer speziellen Zusatzsoftware (11) ausgestattet
verwendet werden.
23. Vorrichtung zur Durchführung des Verfahrens nach
Anspruch 22, dadurch gekennzeichnet, daß
eine spezielle Software auf einem Rechner (14) wie PC
mit Spracheingabe und Sprachausgabe verwendet wird.
24. Vorrichtung zur Durchführung des Verfahrens nach
Anspruch 22, dadurch gekennzeichnet, daß ein
Telefon über ein Netz an einen Rechner wie PC oder an
einen speziellen Server angeschlossen verwendet wird.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10054583A DE10054583C2 (de) | 2000-11-03 | 2000-11-03 | Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen |
EP01250380A EP1209658A3 (de) | 2000-11-03 | 2001-10-29 | Verfahren und Vorrichtung zur Behandlung von Sprachinformationen |
US09/985,430 US7177800B2 (en) | 2000-11-03 | 2001-11-02 | Method and device for the processing of speech information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10054583A DE10054583C2 (de) | 2000-11-03 | 2000-11-03 | Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10054583A1 true DE10054583A1 (de) | 2002-05-23 |
DE10054583C2 DE10054583C2 (de) | 2003-06-18 |
Family
ID=7662074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10054583A Expired - Fee Related DE10054583C2 (de) | 2000-11-03 | 2000-11-03 | Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen |
Country Status (3)
Country | Link |
---|---|
US (1) | US7177800B2 (de) |
EP (1) | EP1209658A3 (de) |
DE (1) | DE10054583C2 (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10253868B3 (de) * | 2002-11-15 | 2004-07-29 | Digital Design Gmbh | Verfahren und Anordnung zur Synchronisation von Test- und Referenzmustern sowie ein entsprechendes Computerprogramm-Erzeugnis und ein entsprechendes computerlesbares Speichermedium |
DE10336243A1 (de) * | 2003-08-07 | 2005-03-10 | Uc Logic Technology Corp | Mehrzweckiges digitales Notizbuch |
DE10328501B4 (de) * | 2003-06-25 | 2006-05-18 | Abb Patent Gmbh | Elektrisches Installationsgerät mit digitalem Sprachchip |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1628338A (zh) * | 2002-04-29 | 2005-06-15 | 阿德诺塔有限公司 | 处理语音信息的方法和装置 |
EP1359566A1 (de) * | 2002-04-29 | 2003-11-05 | Digital Design GmbH | Verfahren und Anordnung zur sprachbasierten Nutzung von Speichersystemen sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium |
JP2004289530A (ja) * | 2003-03-24 | 2004-10-14 | Orion Denki Kk | 記録再生装置 |
US8209185B2 (en) * | 2003-09-05 | 2012-06-26 | Emc Corporation | Interface for management of auditory communications |
WO2005069302A1 (en) * | 2004-01-07 | 2005-07-28 | Johnson Controls Technology Company | System and method for searching stored audio data based on a search pattern |
WO2005121288A1 (ja) * | 2004-06-10 | 2005-12-22 | Ntn Corporation | 摺動材料およびすべり軸受 |
US8244542B2 (en) | 2004-07-01 | 2012-08-14 | Emc Corporation | Video surveillance |
US8180743B2 (en) * | 2004-07-01 | 2012-05-15 | Emc Corporation | Information management |
US9268780B2 (en) | 2004-07-01 | 2016-02-23 | Emc Corporation | Content-driven information lifecycle management |
US8180742B2 (en) | 2004-07-01 | 2012-05-15 | Emc Corporation | Policy-based information management |
US8229904B2 (en) | 2004-07-01 | 2012-07-24 | Emc Corporation | Storage pools for information management |
US20060004818A1 (en) * | 2004-07-01 | 2006-01-05 | Claudatos Christopher H | Efficient information management |
US8626514B2 (en) | 2004-08-31 | 2014-01-07 | Emc Corporation | Interface for management of multiple auditory communications |
US7783594B1 (en) * | 2005-08-29 | 2010-08-24 | Evernote Corp. | System and method for enabling individuals to select desired audio |
US20070286358A1 (en) * | 2006-04-29 | 2007-12-13 | Msystems Ltd. | Digital audio recorder |
US20080162472A1 (en) * | 2006-12-28 | 2008-07-03 | Motorola, Inc. | Method and apparatus for voice searching in a mobile communication device |
US20090210233A1 (en) * | 2008-02-15 | 2009-08-20 | Microsoft Corporation | Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns |
US20100153112A1 (en) * | 2008-12-16 | 2010-06-17 | Motorola, Inc. | Progressively refining a speech-based search |
CN106710597B (zh) * | 2017-01-04 | 2020-12-11 | 广东小天才科技有限公司 | 语音数据的录音方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3333958A1 (de) * | 1983-09-20 | 1985-04-11 | Siemens AG, 1000 Berlin und 8000 München | Vorrichtung zur abspeicherung von sprachinformationen |
US4829576A (en) * | 1986-10-21 | 1989-05-09 | Dragon Systems, Inc. | Voice recognition system |
US5602963A (en) * | 1993-10-12 | 1997-02-11 | Voice Powered Technology International, Inc. | Voice activated personal organizer |
DE19742054A1 (de) * | 1997-09-24 | 1999-04-01 | Philips Patentverwaltung | Eingabesystem wenigstens für Orts- und/oder Straßennamen |
US6041300A (en) * | 1997-03-21 | 2000-03-21 | International Business Machines Corporation | System and method of using pre-enrolled speech sub-units for efficient speech synthesis |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0797373B2 (ja) * | 1985-08-23 | 1995-10-18 | 株式会社日立製作所 | 文書フアイリングシステム |
CA1299750C (en) * | 1986-01-03 | 1992-04-28 | Ira Alan Gerson | Optimal method of data reduction in a speech recognition system |
US5717914A (en) * | 1995-09-15 | 1998-02-10 | Infonautics Corporation | Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query |
US5842161A (en) * | 1996-06-25 | 1998-11-24 | Lucent Technologies Inc. | Telecommunications instrument employing variable criteria speech recognition |
EP0938053B1 (de) * | 1998-02-20 | 2003-08-20 | Hewlett-Packard Company, A Delaware Corporation | Verfahren zum Verfeinern von Deskriptoren |
EP1056265A2 (de) * | 1999-05-26 | 2000-11-29 | Lucent Technologies Inc. | Sprachnachrichtensuchsystem und Verfahren |
-
2000
- 2000-11-03 DE DE10054583A patent/DE10054583C2/de not_active Expired - Fee Related
-
2001
- 2001-10-29 EP EP01250380A patent/EP1209658A3/de not_active Withdrawn
- 2001-11-02 US US09/985,430 patent/US7177800B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3333958A1 (de) * | 1983-09-20 | 1985-04-11 | Siemens AG, 1000 Berlin und 8000 München | Vorrichtung zur abspeicherung von sprachinformationen |
US4829576A (en) * | 1986-10-21 | 1989-05-09 | Dragon Systems, Inc. | Voice recognition system |
US5602963A (en) * | 1993-10-12 | 1997-02-11 | Voice Powered Technology International, Inc. | Voice activated personal organizer |
US6041300A (en) * | 1997-03-21 | 2000-03-21 | International Business Machines Corporation | System and method of using pre-enrolled speech sub-units for efficient speech synthesis |
DE19742054A1 (de) * | 1997-09-24 | 1999-04-01 | Philips Patentverwaltung | Eingabesystem wenigstens für Orts- und/oder Straßennamen |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10253868B3 (de) * | 2002-11-15 | 2004-07-29 | Digital Design Gmbh | Verfahren und Anordnung zur Synchronisation von Test- und Referenzmustern sowie ein entsprechendes Computerprogramm-Erzeugnis und ein entsprechendes computerlesbares Speichermedium |
DE10328501B4 (de) * | 2003-06-25 | 2006-05-18 | Abb Patent Gmbh | Elektrisches Installationsgerät mit digitalem Sprachchip |
DE10336243A1 (de) * | 2003-08-07 | 2005-03-10 | Uc Logic Technology Corp | Mehrzweckiges digitales Notizbuch |
Also Published As
Publication number | Publication date |
---|---|
EP1209658A2 (de) | 2002-05-29 |
EP1209658A3 (de) | 2002-12-04 |
DE10054583C2 (de) | 2003-06-18 |
US20020082841A1 (en) | 2002-06-27 |
US7177800B2 (en) | 2007-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10054583C2 (de) | Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen | |
DE4397100C2 (de) | Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
DE10040214B4 (de) | Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem | |
EP1649450A1 (de) | Verfahren zur spracherkennung und kommunikationsger t | |
DE2918533A1 (de) | Spracherkennungssystem | |
DE112005000924T5 (de) | Stimme über Short Message Service | |
DE102018113034A1 (de) | Stimmenerkennungssystem und stimmenerkennungsverfahren zum analysieren eines befehls, welcher mehrere absichten hat | |
WO1998010413A1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE112004000187T5 (de) | Verfahren und Vorrichtung der prosodischen Simulations-Synthese | |
EP0508547B1 (de) | Schaltungsanordnung zur Spracherkennung | |
DE60128372T2 (de) | Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
EP0987682B1 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
DE102010040553A1 (de) | Spracherkennungsverfahren | |
WO2001067435A9 (de) | Verfahren zum sprachgesteuerten initiieren von in einem gerät ausführbaren aktionen durch einen begrenzten benutzerkreis | |
EP1361738A1 (de) | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse | |
EP1359566A1 (de) | Verfahren und Anordnung zur sprachbasierten Nutzung von Speichersystemen sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium | |
WO1999005681A1 (de) | Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz | |
DE4111781A1 (de) | Computersystem zur spracherkennung | |
WO2003094153A1 (de) | Verfahren und vorrichtung zur behandlung von sprachinformationen | |
DE10033104C2 (de) | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese | |
JPH06175698A (ja) | 音声検索装置 | |
DE60225536T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP0833303A2 (de) | Verfahren und Anordnung zum Durchführen von Datenbankanfragen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8181 | Inventor (new situation) |
Free format text: WALLERS, JOSEPH, 10787 BERLIN, DE Inventor name: WALLERS, JOSEPH, 10787 BERLIN, DE |
|
8304 | Grant after examination procedure | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: ADNOTA GMBH, 10787 BERLIN, DE |
|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20130601 |