DE102021103221A1 - Method of recognizing speech and translating it into written text - Google Patents

Method of recognizing speech and translating it into written text Download PDF

Info

Publication number
DE102021103221A1
DE102021103221A1 DE102021103221.0A DE102021103221A DE102021103221A1 DE 102021103221 A1 DE102021103221 A1 DE 102021103221A1 DE 102021103221 A DE102021103221 A DE 102021103221A DE 102021103221 A1 DE102021103221 A1 DE 102021103221A1
Authority
DE
Germany
Prior art keywords
acoustic
syllable
text
speech
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021103221.0A
Other languages
German (de)
Inventor
Florian Bock
Michael Grabowski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Audi AG
Original Assignee
Audi AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audi AG filed Critical Audi AG
Priority to DE102021103221.0A priority Critical patent/DE102021103221A1/en
Publication of DE102021103221A1 publication Critical patent/DE102021103221A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Abstract

Die Erfindung betrifft ein Verfahren zum Erkennen von Sprache und deren Übersetzung in geschriebenen Text mit einem Sprachtextübersetzungssystem, wobei jede Silbe der Sprache durch mindestens einen Buchstaben gemäß einer Vorgabe schriftlich dargestellt wird, wobei die Sprache von einer Person (4) gesprochen wird, wobei für jede Silbe hinsichtlich ihrer Aussprache mindestens ein akustischer Parameter vorgesehen wird, der der schriftlichen Vorgabe zugeordnet wird, wobei mindestens eine von der Person (4) aktuell gesprochene Silbe mit einem Referenzwert für den mindestens einen hierfür vorgesehenen akustischen Parameter verglichen wird, wobei für den Fall, dass für die mindestens eine aktuell gesprochene Silbe von dem Sprachtextübersetzungssystem eine akustische Abweichung von dem jeweils vorgesehenen akustischen Referenzwert für den mindestens einen akustischen Parameter erfasst wird, diese mindestens eine Silbe von dem Sprachtextübersetzungssystem gemäß der akustischen Abweichung als Text schriftlich variiert wird.

Figure DE102021103221A1_0000
The invention relates to a method for recognizing speech and translating it into written text using a speech text translation system, with each syllable of the language being represented in writing by at least one letter according to a specification, with the language being spoken by a person (4), with each At least one acoustic parameter is provided for each syllable with regard to its pronunciation, which is assigned to the written specification, with at least one syllable currently being spoken by the person (4) being compared with a reference value for the at least one acoustic parameter provided for this purpose, with the case that for the at least one currently spoken syllable of the speech text translation system an acoustic deviation from the respectively provided acoustic reference value for the at least one acoustic parameter is detected, this at least one syllable from the speech text translation system according to the acoustic deviation as Te xt is varied in writing.
Figure DE102021103221A1_0000

Description

Die Erfindung betrifft ein Verfahren zum Erkennen von Sprache und deren Übersetzung in geschriebenen Text und ein Sprachtextübersetzungssystem.The invention relates to a method for recognizing speech and translating it into written text and a speech text translation system.

Es sind bspw. Diktiergeräte bekannt, mit denen es möglich ist, gesprochene Worte in geschriebene Worte zu transformieren.For example, dictating devices are known with which it is possible to transform spoken words into written words.

Die Druckschrift EP 2 385 520 A2 beschreibt ein Verfahren und ein Gerät zum Erzeugen von Text aus gesprochenen Worten.The pamphlet EP 2 385 520 A2 describes a method and apparatus for generating text from spoken words.

Ein Textverbesserungssystem ist aus der Druckschrift EP 2 391 105 A1 bekannt.A text correction system is from the reference EP 2 391 105 A1 known.

Aus dem Artikel „ ‚Good Luck with That!‘: Teaching Machines to Understand Sarcasm“ von Xinyi Ou ist eine Vorgehensweise zum maschinellen Verstehen von Sarkasmus bekannt.From the article "'Good Luck with That!': Teaching Machines to Understand Sarcasm" by Xinyi Ou, a procedure for machine understanding of sarcasm is known.

Vor diesem Hintergrund war es eine Aufgabe, eine Spracherkennung zu verbessern.Against this background, it was an object to improve speech recognition.

Diese Aufgabe wird durch ein Verfahren und ein Sprachtextübersetzungssystem mit den Merkmalen der unabhängigen Patentansprüche gelöst. Ausführungsformen des Verfahrens und des Sprachtextübersetzungssystems gehen aus den abhängigen Patentansprüchen hervor.This object is achieved by a method and a language text translation system having the features of the independent patent claims. Embodiments of the method and the language text translation system are evident from the dependent patent claims.

Das erfindungsgemäße Verfahren ist zum Erkennen von gesprochener Sprache und deren Übersetzung bzw. Transformation in geschriebenen Text vorgesehen, wobei ein Sprachtextübersetzungssystem verwendet wird.The method according to the invention is intended for recognizing spoken language and translating or transforming it into written text using a language text translation system.

Dabei wird berücksichtigt, dass jede Silbe der Sprache durch mindestens einen Buchstaben gemäß einer Vorgabe schriftlich dargestellt wird. Hierbei wird berücksichtigt, dass jede Silbe mindestens einen Laut umfasst, der durch mindestens einen Buchstaben, d. h. durch mindestens einen Vokal und/oder mindestens einen Konsonanten, schriftlich dargestellt wird. Gemäß der Vorgabe ist es möglich, dass jeder üblicherweise bekannten Silbe gemäß der Vorgabe eine Zeichenkette als Text zugeordnet ist. Dabei wird die Sprache von einer bestimmten Person gesprochen. Außerdem wird für jede üblicherweise bekannte Silbe hinsichtlich ihrer Aussprache bzw. mündlichen Artikulierung durch die Person mindestens ein akustischer Parameter vorgesehen, mit dem es möglich ist, eine für die jeweilige Silbe normierte Aussprache zu definieren. Dabei ist dieser mindestens eine akustische Parameter der jeweiligen schriftlichen Vorgabe zugeordnet.It is taken into account that each syllable of the language is represented in writing by at least one letter according to a specification. Here it is taken into account that each syllable comprises at least one sound, which is represented by at least one letter, i. H. represented in writing by at least one vowel and/or at least one consonant. According to the specification, it is possible for each commonly known syllable to be assigned a character string as text according to the specification. The language is spoken by a specific person. In addition, at least one acoustic parameter is provided for each commonly known syllable with regard to its pronunciation or oral articulation by the person, with which it is possible to define a standardized pronunciation for the respective syllable. In this case, at least one acoustic parameter is assigned to the respective written specification.

Bei einer Realisierung des Verfahrens wird die von der Person gesprochene Sprache mit einem Mikrofon aufgenommen bzw. erfasst. Dabei wird mindestens eine von der Person aktuell gesprochene und weiterhin aufgenommene Silbe mit einem Referenzwert für den mindestens einen hierfür vorgesehenen akustischen Parameter verglichen. Dabei wird für den Fall, dass für die mindestens eine aktuell gesprochene Silbe von dem Sprachtextübersetzungssystem eine akustische Abweichung von einem jeweils vorgesehenen akustischen Referenzwert erfasst wird, diese mindestens eine Silbe von dem Sprachtextübersetzungssystem gemäß der akustischen Abweichung als Text entsprechend schriftlich variiert bereitgestellt und/oder dargestellt. Der zu schreibende Text wird bei dem Verfahren ausgehend von der gesprochenen Sprache von dem Sprachtextübersetzungssystem unter Berücksichtigung der akustischen Abweichung geschrieben bzw. niedergeschrieben.In one implementation of the method, the language spoken by the person is recorded or recorded with a microphone. At least one syllable currently spoken by the person and recorded further is compared with a reference value for the at least one acoustic parameter provided for this purpose. In the event that the voice text translation system detects an acoustic deviation from a respectively provided acoustic reference value for the at least one currently spoken syllable, this at least one syllable is provided and/or represented in writing by the voice text translation system according to the acoustic deviation as text that varies accordingly . In the method, the text to be written is written or written down on the basis of the spoken language by the language text translation system, taking into account the acoustic deviation.

In Ausgestaltung kann für die akustische Abweichung des mindestens einen akustischen Parameters von dem Referenzwert ein Toleranzwert vorgesehen und/oder berücksichtigt werden, wobei die akustische Abweichung von dem Referenzwert mit dem Toleranzwert verglichen wird. Falls die Abweichung maximal so groß wie der Toleranzwert ist, wird der Text schriftlich nicht variiert. Falls die akustische Abweichung größer als der Toleranzwert ist, wird der Text gemäß der akustischen Abweichung schriftlich variiert.In one embodiment, a tolerance value can be provided and/or taken into account for the acoustic deviation of the at least one acoustic parameter from the reference value, with the acoustic deviation from the reference value being compared with the tolerance value. If the deviation is at most as large as the tolerance value, the text will not be varied in writing. If the acoustic deviation is greater than the tolerance value, the text is varied in writing according to the acoustic deviation.

Bei dem Verfahren ist es u. a. möglich, dass eine Dauer der mindestens einen Silbe des mindestens einen Buchstabens, d. h. des Vokals und/oder des Konsonanten, der diese Silbe bildet, als akustischer Parameter ermittelt wird. Dabei wird die Dauer der Silbe als akustischer Parameter berücksichtigt. Außerdem wird eine Abweichung der Dauer der Silbe von einer hierfür vorgesehenen Referenzdauer als Referenzwert berücksichtigt. Hierbei ist es möglich, dass die Dauer der gesprochenen Silbe um mehr als eine Toleranzdauer als Toleranzwert von der hierfür vorgesehenen Referenzdauer abweicht. In diesem Fall wird zum Variieren des schriftlichen Textes die Anzahl an Buchstaben vergrößert, falls die Dauer größer als die Referenzdauer zuzüglich einer ersten Toleranzdauer ist, oder verringert, falls die Dauer kürzer als die Referenzdauer abzüglich einer zweiten Toleranzdauer ist. Falls die Dauer höchstens um eine jeweilige Toleranzdauer von der Referenzdauer abweicht, bleibt der gemäß der Vorgabe vorgesehene Text zum schriftlichen Darstellen der Silbe gleich.In the process it is u. a. possible that a duration of the at least one syllable of the at least one letter, i. H. of the vowel and/or the consonant that forms this syllable is determined as an acoustic parameter. The duration of the syllable is taken into account as an acoustic parameter. In addition, a deviation in the duration of the syllable from a reference duration provided for this purpose is taken into account as a reference value. It is possible here for the duration of the spoken syllable to deviate from the reference duration provided for this purpose by more than one tolerance duration as a tolerance value. In this case, to vary the written text, the number of letters is increased if the duration is greater than the reference duration plus a first tolerance duration, or decreased if the duration is shorter than the reference duration minus a second tolerance duration. If the duration deviates from the reference duration by no more than a respective tolerance duration, the text provided for the written representation of the syllable remains the same according to the specification.

Außerdem ist es möglich, dass eine Frequenz der mindestens einen Silbe, die den mindestens einen Buchstaben umfasst, und somit eine entsprechende Tonhöhe der mindestens einen Silbe ermittelt wird. In diesem Fall wird eine Abweichung der Frequenz der gesprochenen Silbe als akustischer Parameter berücksichtigt. Weiterhin wird eine Abweichung der Frequenz der gesprochenen Silbe von einer hierfür vorgesehenen Referenzfrequenz als Referenzwert berücksichtigt. Hierbei ist es möglich, dass die Frequenz der gesprochenen Silbe um mehr als eine Toleranzfrequenz als Toleranzwert von der hierfür vorgesehenen Referenzfrequenz abweicht. Dabei kann die Frequenz höher als die Referenzfrequenz zuzüglich einer ersten Toleranzfrequenz sein, wobei die Anzahl an Buchstaben zum Darstellen der Silbe in diesem Fall verringert wird. Alternativ ist es möglich, dass die Frequenz niedriger als die hierfür vorgesehene Referenzfrequenz abzüglich einer zweiten Toleranzfrequenz ist, wobei die Anzahl an Buchstaben in diesem Fall vergrößert wird.It is also possible that a frequency of the at least one syllable comprising the at least one letter and thus a corresponding pitch of the at least one syllable is determined. In this case, a deviation in the frequency of the spoken syllable is taken into account as an acoustic parameter. Furthermore, a deviation in the frequency of the spoken syllable from a reference frequency provided for this purpose is taken into account as a reference value. It is possible here for the frequency of the spoken syllable to deviate by more than one tolerance frequency as a tolerance value from the reference frequency provided for this purpose. The frequency can be higher than the reference frequency plus a first tolerance frequency, in which case the number of letters to represent the syllable is reduced. Alternatively, it is possible that the frequency is lower than the reference frequency provided for this purpose minus a second tolerance frequency, in which case the number of letters is increased.

Es ist auch möglich, dass eine Laustärke bzw. ein Pegel der mindestens einen gesprochenen Silbe ermittelt wird. Dabei wird eine Lautstärke als akustischer Parameter berücksichtigt. Außerdem wird eine Abweichung der Lautstärke von einer hierfür vorgesehenen Referenzlautstärke als Referenzwert berücksichtigt. Hierbei ist es möglich, dass die Lautstärke der gesprochenen Silbe um mehr als eine Toleranzlautstärke als Toleranzwert von der hierfür vorgesehenen Referenzlautstärke abweicht. Hierbei ist es möglich, dass zum Darstellen der jeweiligen Silbe mindestens ein großer Buchstabe verwendet wird, falls die Lautstärke der gesprochenen Silbe lauter als die Referenzlautstärke zuzüglich einer ersten Toleranzlautstärke ist. Alternativ wird mindestens ein kleiner Buchstabe zum Darstellen der Silbe als Text verwendet, falls die Lautstärke leiser als die Referenzlautstärke abzüglich einer zweiten Toleranzlautstärke sein sollte.It is also possible for a volume or a level of the at least one spoken syllable to be determined. A volume is taken into account as an acoustic parameter. In addition, a deviation of the volume from a reference volume provided for this purpose is taken into account as a reference value. It is possible here for the volume of the spoken syllable to deviate by more than a tolerance volume as a tolerance value from the reference volume provided for this purpose. It is possible here that at least one capital letter is used to represent the respective syllable if the volume of the spoken syllable is louder than the reference volume plus a first tolerance volume. Alternatively, at least one small letter is used to represent the syllable as text if the volume should be lower than the reference volume minus a second tolerance volume.

Üblicherweise ist die mindestens eine aktuell gesprochene Silbe Teil einer mündlichen Mitteilung und/oder Rede der Person. Dabei wird aus der Mitteilung bzw. Rede als gesprochene Sprache, üblicherweise stets, zunächst der Referenzwert für den mindestens einen akustischen Parameter ermittelt, gegenüber welchem dann im späteren Verlauf die mindestens eine gesprochene Silbe abgeglichen wird, was alternativ oder ergänzend bedeutet, dass die mindestens eine gesprochene Silbe mit dem Referenzwert verglichen wird, wobei auf Grundlage eines derartigen Vergleichs für die mindestens eine aktuell gesprochene Silbe von dem Sprachtextübersetzungssystem die akustische Abweichung von dem Referenzwert für den jeweils vorgesehenen akustischen Parameter erfasst wird, wobei diese mindestens eine Silbe von dem Sprachtextübersetzungssystem gemäß der akustischen Abweichung als Text entsprechend schriftlich variiert bereitgestellt und/oder dargestellt wird.Typically, the at least one currently spoken syllable is part of an oral communication and/or speech by the person. The reference value for the at least one acoustic parameter is determined from the message or speech as spoken language, usually always, against which the at least one spoken syllable is then later compared, which alternatively or additionally means that the at least one spoken syllable is compared with the reference value, on the basis of such a comparison for the at least one currently spoken syllable of the speech text translation system the acoustic deviation from the reference value for the acoustic parameter provided in each case is detected, this at least one syllable from the speech text translation system according to the acoustic Deviation is provided and/or illustrated as text varies accordingly in writing.

In weiterer Ausgestaltung ist es möglich, dass die Sprache der Person vorab bzw. früher aufgenommen wird und der Referenzwert für den akustischen Parameter für eine jeweilige Silbe auf bislang erfasster und/oder aufgenommener Sprache dieser Person beruht, die die jeweilige Silbe umfasst. Hierbei ist es denkbar, dass für das Sprachtextübersetzungssystem ein Training durchgeführt wird, bei dem dieses Sprachtextübersetzungssystem an die Sprache bzw. Aussprache der jeweiligen Person, üblicherweise unter Nutzung von künstlicher Intelligenz, automatisch angelernt bzw. gelernt wird. Auf Grundlage eines derartigen Trainings und/oder Anlernens ist es auch möglich, Silben zu erkennen und als bekannt vorzusehen und einer jeweiligen Silbe die hierfür vorgesehene schriftliche Vorgabe gemäß dem Referenzwert zuzuordnen. Hierbei ist es auch möglich, dass von dem Sprachtextübersetzungssystem bislang unbekannte Silben gelernt werden, wobei für eine neue bzw. bislang unbekannte Silbe der Referenzwert für den mindestens einen voranstehend beschriebenen akustischen Parameter als Vorgabe ermittelt wird.In a further refinement, it is possible for the person's speech to be recorded in advance or earlier and for the reference value for the acoustic parameter for a respective syllable to be based on the previously recorded and/or recorded speech of this person which includes the respective syllable. It is conceivable here that training is carried out for the voice text translation system, in which this voice text translation system is automatically taught or learned to the language or pronunciation of the respective person, usually using artificial intelligence. On the basis of such training and/or learning, it is also possible to recognize syllables and to provide them as known and to assign the written specification provided for this purpose to a respective syllable according to the reference value. It is also possible here for previously unknown syllables to be learned by the language text translation system, with the reference value for the at least one acoustic parameter described above being determined as a specification for a new or previously unknown syllable.

Weiterhin ist es alternativ oder ergänzend möglich, dass von dem Sprachtextübersetzungssystem jeweils eine von der Person aktuell gesprochene Sprache und somit die entsprechende aktuelle Rede bzw. Mitteilung über ein Zeitintervall, das einige Minuten umfassen kann, aufgenommen, erfasst und berücksichtigt wird. Eine derartige Rede der Person umfasst eine Vielzahl von Silben. Dabei wird für diese Rede und die entsprechend aktuell gesprochene Sprache der Person für den mindestens einen jeweils voranstehend genannten akustischen Parameter ein Mittelwert, d. h. ein Mittelwert für eine Dauer für sämtliche gesprochenen Silben, eine Frequenz für sämtliche gesprochenen Silben und/oder eine Lautstärke für sämtliche gesprochenen Silben ermittelt, wobei ein jeweiliger Mittelwert als Referenzwert für den jeweiligen akustischen Parameter für mindestens eine während der Rede aktuell gesprochene Silbe berücksichtigt wird. Dabei ist es möglich, innerhalb der Rede Schwankungen hinsichtlich der Dauer, der Frequenz und/oder der Lautstärke bezüglich der insgesamt gesprochenen Silben innerhalb der Rede zu berücksichtigen und den aus dieser Rede abzuleitenden bzw. schriftlich festzuhaltenden Text gemäß der Schwankungen und somit gemäß entsprechender Abweichungen von jeweiligen Mittelwerten als Referenzwerte zu variieren. Somit ist es möglich, den Referenzwert für den mindestens einen akustischen Parameter sprachbegleitend festzulegen und/oder zu ermitteln.Furthermore, it is alternatively or additionally possible for the language text translation system to record, record and take into account a language currently spoken by the person and thus the corresponding current speech or message over a time interval that can span a few minutes. Such a person's speech comprises a plurality of syllables. For this speech and the currently spoken language of the person, a mean value, i. H. a mean value for a duration for all spoken syllables, a frequency for all spoken syllables and/or a volume for all spoken syllables is determined, with a respective mean value being taken into account as a reference value for the respective acoustic parameter for at least one syllable currently spoken during the speech. It is possible to take into account fluctuations in the speech in terms of duration, frequency and/or volume with regard to the total number of syllables spoken within the speech and to derive the text from this speech or to record it in writing according to the fluctuations and thus according to corresponding deviations from to vary the respective mean values as reference values. It is thus possible to define and/or determine the reference value for the at least one acoustic parameter while speaking.

Es ist vorgesehen, dass die von der Person gesprochene Sprache von einem Mikrofon aufgenommen wird. Außerdem wird eine Entfernung des Munds der Person zu diesem Mikrofon, mit dem die Sprache aufgenommen wird, ermittelt. Diese Entfernung wird beim Vergleichen der mindestens einen gesprochenen Silbe mit dem Referenzwert des mindestens einen hierfür vorgesehenen akustischen Parameters, insbesondere eine Abweichung von der Referenzlautstärke, berücksichtigt. Hierbei wird zum Beurteilen der Lautstärke von dem Sprachtextübersetzungssystem eine entsprechende Entfernungskorrektur vorgenommen, da die Lautstärke, mit der die gesprochene Sprache der Person von dem Mikrofon letztendlich erfasst wird, von der Entfernung bzw. einem Abstand des Munds der Person von dem Mikrofon abhängig ist.It is provided that the speech spoken by the person is picked up by a microphone. In addition, a distance from the person's mouth to this microphone, with which the speech is recorded, is determined. This remover When comparing the at least one spoken syllable with the reference value of the at least one acoustic parameter provided for this purpose, in particular a deviation from the reference volume is taken into account. In order to assess the volume, a corresponding distance correction is made by the voice text translation system, since the volume with which the spoken language of the person is finally recorded by the microphone depends on the distance or distance of the person's mouth from the microphone.

Das erfindungsgemäße Sprachtextübersetzungssystem ist zum Erkennen von Sprache und zu deren Übersetzung bzw. Umsetzung in geschriebenen Text bzw. in Schrift ausgebildet. Dabei weist dieses Sprachtextübersetzungssystem ein Mikrofon und eine Recheneinheit auf. Hierbei wird berücksichtigt, dass jede Silbe der Sprache durch mindestens einen Buchstaben gemäß einer Vorgabe schriftlich bzw. als Text darstellbar bzw. darzustellen ist. Außerdem wird die Sprache von einer bestimmten Person gesprochen, an die das Sprachtextübersetzungssystem üblicherweise angelernt und/oder antrainiert ist. Die Recheneinheit ist dazu ausgebildet, für jede üblicherweise bekannte Silbe hinsichtlich ihrer Aussprache den jeweiligen Referenzwert für den mindestens einen akustischen Parameter vorzusehen und der schriftlichen bzw. textlichen Vorgabe zuzuordnen. Das Mikrofon ist dazu ausgebildet, mindestens eine aktuell gesprochene Silbe der Person aufzunehmen. Die Recheneinheit ist weiterhin dazu ausgebildet, die mindestens eine aufgenommene Silbe mit dem Referenzwert für den mindestens einen hierfür vorgesehenen akustischen Parameter zu vergleichen und für den Fall, dass die Recheneinheit für die mindestens eine aktuell gesprochene Silbe eine akustische Abweichung von dem jeweils hierfür vorgesehenen akustischen Referenzwert erfasst, diese mindestens eine Silbe gemäß der erfassten akustischen Abweichung als Text schriftlich variiert darzustellen.The language text translation system according to the invention is designed to recognize speech and to translate it or convert it into written text or writing. In this case, this voice text translation system has a microphone and a computing unit. It is taken into account here that each syllable of the language can be represented or represented in writing or as text by at least one letter according to a specification. In addition, the language is spoken by a specific person to whom the language text translation system is usually taught and/or trained. The processing unit is designed to provide the respective reference value for the at least one acoustic parameter for each commonly known syllable with regard to its pronunciation and to assign it to the written or textual specification. The microphone is designed to record at least one syllable currently being spoken by the person. The processing unit is also designed to compare the at least one recorded syllable with the reference value for the at least one acoustic parameter provided for this purpose and, in the event that the processing unit detects an acoustic deviation from the acoustic reference value provided for this purpose for the at least one syllable currently spoken detected, this at least one syllable according to the detected acoustic deviation as text varies in writing.

Dieses Sprachtextübersetzungssystem ist dazu ausgebildet, mindestens eine Ausführungsform des voranstehend beschriebenen Verfahrens üblicherweise softwaregestützt durchzuführen, wobei von dem Sprachtextübersetzungssystem zum Erfassen und/oder Erkennen der akustischen Abweichung und zur Variation des Textes auf Basis der akustischen Abweichung in Ausgestaltung künstliche Intelligenz verwendet wird.This speech text translation system is designed to carry out at least one embodiment of the method described above, usually with software support, with artificial intelligence being used by the speech text translation system to detect and/or recognize the acoustic deviation and to vary the text on the basis of the acoustic deviation.

Das Sprachtextübersetzungssystem ist bei einer Ausgestaltung des Verfahrens dazu ausgebildet, für die akustische Abweichung von dem jeweils vorgesehenen akustischen Referenzwert für den mindestens einen akustischen Parameter einen Toleranzwert zu berücksichtigen und/oder vorzusehen, wobei die mindestens eine Silbe von dem Sprachtextübersetzungssystem gemäß der akustischen Abweichung als Text schriftlich variiert wird, wenn die akustische Abweichung von dem Referenzwert größer als der zu berücksichtigende Toleranzwert ist.In one embodiment of the method, the speech text translation system is designed to take into account and/or provide a tolerance value for the acoustic deviation from the respectively provided acoustic reference value for the at least one acoustic parameter, with the at least one syllable being interpreted as text by the speech text translation system according to the acoustic deviation is varied in writing if the acoustic deviation from the reference value is greater than the tolerance value to be taken into account.

In weiterer Ausgestaltung kann das Sprachtextübersetzungssystem mindestens ein Textausgabemodul, bspw. ein Anzeigefeld, zum Darstellen des Textes auf Grundlage der jeweils erfassten Sprache und/oder einen Texteditor aufweisen. Weiterhin kann das Sprachtextübersetzungssystem auch eine Kamera als optischen Sensor aufweisen, mit der es möglich ist, die Entfernung bzw. den Abstand des Munds der Person zu dem Mikrofon zu erfassen, wobei die Recheneinheit dazu ausgebildet ist, auf Grundlage der erfassten Entfernung die voranstehend beschriebene Entfernungskorrektur durchzuführen.In a further refinement, the language text translation system can have at least one text output module, for example a display field, for displaying the text on the basis of the language recorded in each case and/or a text editor. Furthermore, the speech text translation system can also have a camera as an optical sensor, with which it is possible to detect the distance or the distance between the person's mouth and the microphone, the processing unit being designed to perform the distance correction described above on the basis of the detected distance to perform.

Mit dem Verfahren und dem Sprachtextübersetzungssystem ist u. a. eine Emotionalisierung und Individualisierung von Sprach-zu-Text-Botschaften, bspw. für soziale Medien und/oder für Nachrichten, möglich.The method and the language text translation system are i.a. an emotionalization and individualization of speech-to-text messages, e.g. for social media and/or for news, is possible.

Mit dem Sprachtextübersetzungssystem bzw. einem entsprechenden Spracherkennungssystem von natürlich gesprochener Sprache werden bestimmte Kriterien bzw. Eigenschaften der Sprache, z. B. eine Sprachlautstärke und eine Dauer eines gehaltenen Vokals einer Silbe, berücksichtigt.With the speech text translation system or a corresponding speech recognition system of naturally spoken language, certain criteria or properties of the language, e.g. B. a speech volume and a duration of a sustained vowel of a syllable taken into account.

In weiterer Ausgestaltung des Verfahrens ist vorgesehen, dass die akustische Abweichung durch eine jeweilige Formatierung als Variation des Textes darzustellen ist und/oder dargestellt wird, wobei auf die akustische Abweichung von der sprechenden Person durch ein jeweiliges Codewort hingewiesen wird. Dabei wird die akustische Abweichung des mindestens einen akustischen Parameters von dem Referenzwert definitionsgemäß durch das Codewort angezeigt und/oder signalisiert, wobei mit dem Codewort definiert wird, dass die akustische Abweichung größer als der Toleranzwert ist. In diesem Fall wird der Text, bspw. hinsichtlich einer Schreibweise von Buchstaben, formatiert und/oder schriftlich variiert, wobei eine definierbare bzw. zu definierende und/oder definierte Formatierung des Textes, bspw. seiner Buchstaben, durch das Codewort aktiviert und nachfolgend bspw. durch ein weiteres Codewort, das die Formatierung des Textes aufhebt, deaktiviert wird. Dabei ist es möglich, für den geschriebenen Text über die bzw. mit der Formatierung einen Modus einzustellen. In diesem Fall ist über eine derartige Formatierung bspw. auch die Einführung eines neuen Sprachstils, wie bspw. eine „Ironie-Schreibweise“ denkbar, wie sie etwa in sozialen Medien in einigen Kreisen heute bereits verwendet wird und weiterhin in der Pop-Kultur als sogenannte „SpongeBob-Meme-Sprache“ verwendet wird. Dabei kann z. B. bei aktivierter Ironie-Schreibweise die gesprochene Mitteilung „Achtung, das ist Ironie“ mit „aChTuNg DaS iSt iRoNiE“ als Text schriftlich dargestellt werden. Dieses Feature könnte bspw. durch das vorherige Nennen des Codeworts „Ironiemodus“ aktiviert werden. Demnach wird der geschriebene Text bei einer Realisierung des Ironiemodus ausgehend von der gesprochenen Sprache bzw. der mindestens einen gesprochenen Silbe dahingehend formatiert, dass die Buchstaben abwechselnd groß und klein geschrieben werden, wobei auf einen großen Buchstaben jeweils ein kleiner Buchstabe und auf einen kleinen Buchstaben jeweils ein großer Buchstabe folgt. Als weitere Formatierung und/oder als weiterer Modus kann der geschriebene Text ausgehend von der gesprochenen Sprache gemäß einem Lautschriftmodus in Lautschrift geschrieben werden. Es ist weiterhin möglich, dass der Text in einem Falschrechtschreibungsmodus ausgehend von der gesprochenen Sprache gezielt falsch geschrieben wird. Ergänzend ist auch ein Kursivmodus möglich, bei dem der Text ausgehend von der gesprochenen Sprache kursiv geschrieben wird. Es ist üblicherweise vorgesehen, dass ein jeweiliger Modus und das ihm zugeordnete Codewort mit den damit verbundenen Funktionen, d. h. einer jeweiligen Formatierung, einer jeweiligen Sprache etc., in einer Datenbank hinterlegt sind, wobei bei bspw. mündlicher Eingabe des Codeworts die jeweilige damit assoziierte Funktion bzw. Formatierung von der Datenbank abgerufen wird.In a further refinement of the method, it is provided that the acoustic deviation is to be and/or is displayed by a respective formatting as a variation of the text, with the acoustic deviation from the speaking person being indicated by a respective code word. According to the definition, the acoustic deviation of the at least one acoustic parameter from the reference value is indicated and/or signaled by the code word, the code word defining that the acoustic deviation is greater than the tolerance value. In this case, the text is formatted and/or varied in writing, e.g. with regard to the spelling of letters, with a definable or to be defined and/or defined formatting of the text, e.g. is deactivated by another code word that unformats the text. It is possible to set a mode for the written text via or with the formatting. In this case, such formatting can also be used, for example, to introduce a new style of language, such as an "ironic spelling", such as is already used in social media in some circles today and continues to be used in pop culture as so-called "SpongeBob meme language". In doing so, e.g. For example, if irony spelling is activated, the spoken message "Caution, that's irony" is displayed as text with "WARNING THAT IS IRONY". This feature could be activated, for example, by naming the code word "irony mode" beforehand. Accordingly, when the irony mode is implemented, the written text is formatted based on the spoken language or the at least one spoken syllable in such a way that the letters are written alternately in upper and lower case, with a small letter on each large letter and a small letter on each a capital letter follows. As a further formatting and/or as a further mode, the written text can be written in phonetic transcription based on the spoken language according to a phonetic transcription mode. It is also possible for the text to be intentionally misspelled in a misspelling mode based on the spoken language. In addition, a cursive mode is also possible, in which the text is written in italics based on the spoken language. Provision is usually made for a particular mode and the code word assigned to it to be stored in a database with the associated functions, ie a particular formatting, a particular language, etc., with the associated function being stored, for example, when the code word is entered verbally or formatting is retrieved from the database.

Es ist auch ein Dialektmodus denkbar, gemäß dem der Text ausgehend von der gesprochenen Sprache in einem auswählbaren Dialekt, bspw. bayrisch, geschrieben wird. Alternativ oder ergänzend ist auch ein Sprachtextübersetzungsmodus ausgehend von einer ersten von der Person aktuell gesprochenen Sprache, bspw. Ausgangssprache, über ein Codewort aktivierbar bzw. zu aktivieren, wobei die aktuell gesprochene Sprache übersetzt und als übersetzter Text in einer zweiten Sprache bzw. Zielsprache geschrieben wird. In diesem Fall wird die akustische Abweichung des mindestens einen akustischen Parameters von dem Referenzwert, die größer als der Toleranzwert ist, definitionsgemäß durch dieses Codewort angezeigt und/oder signalisiert. Dabei sind Übersetzungen zwischen Sprachen unterschiedlicher Länder und/oder Völker möglich. Eine derartige Übersetzung zwischen unterschiedlichen Sprachen kann durch einen Übersetzungs- bzw. Translationsmodus aktiviert werden. In diesem Fall ist vorgesehen, dass die akustische Abweichung durch eine Sprachübersetzung als Variation des Textes darzustellen ist bzw. dargestellt wird, wobei die mindestens eine Silbe in einer ersten gesprochenen Sprache gesprochen ist und von dem Sprachtextübersetzungssystem durch eine Übersetzung in eine zweite Sprache übersetzt und in der zweiten Sprache als Text schriftlich variiert geschrieben wird.A dialect mode is also conceivable, according to which the text is written in a selectable dialect, for example Bavarian, based on the spoken language. Alternatively or additionally, a language text translation mode can be activated or activated based on a first language currently spoken by the person, e.g . In this case, the acoustic deviation of the at least one acoustic parameter from the reference value, which is greater than the tolerance value, is indicated and/or signaled by this code word by definition. Translations between languages of different countries and/or peoples are possible. Such a translation between different languages can be activated by a translation or translation mode. In this case, it is provided that the acoustic deviation is to be represented or is represented by a language translation as a variation of the text, with the at least one syllable being spoken in a first spoken language and translated into a second language by the language text translation system and translated into the second language is written as text writing varied.

In Ausgestaltung ist es möglich, dass das Sprachtextübersetzungssystem einen Referenzlautstärkepegel als Referenzwert bestimmt und eine Überschreitung dieses Referenzlautstärkepegels mit Großbuchstaben im Text übersetzt. Dabei kann der Referenzwert für einen jeweils voranstehend beschriebenen akustischen Parameter von dem Sprachtextübersetzungssystem auf die jeweilige Person bzw. einen entsprechenden Kunden angelernt werden. Hierbei ist eine Anpassung an einen leisen oder einen lauten Sprech- bzw. Sprachtypen der jeweiligen Person möglich. Dasselbe ist entsprechend auch für die Frequenz und/oder Dauer der von der jeweiligen Person gesprochenen Sprache möglich.In one embodiment, it is possible for the speech text translation system to determine a reference volume level as a reference value and to translate upper-case letters in the text if this reference volume level is exceeded. In this case, the reference value for an acoustic parameter described above can be learned by the speech text translation system for the respective person or a corresponding customer. Here, an adaptation to a quiet or a loud speech or language type of the respective person is possible. The same is correspondingly also possible for the frequency and/or duration of the language spoken by the respective person.

Mit dem Verfahren wird in Ausgestaltung berücksichtigt, dass die Lautstärke der gesprochenen Sprache auch von der Entfernung des Munds der Person von dem Mikrofon abhängig ist, weshalb die entsprechende Entfernungskorrektur vorgesehen wird. Bei einer Anwendung des Verfahrens und des Sprachtextübersetzungssystems in einem Kraftfahrzeug bzw. in einem Auto ist die Position des Mikrofons relativ zu dem Kopf der Person als Passagier bzw. Insassen vergleichsweise unveränderlich.In one embodiment, the method takes into account that the volume of the spoken language also depends on the distance between the person's mouth and the microphone, which is why the corresponding distance correction is provided. In an application of the method and the voice text translation system in a motor vehicle or in a car, the position of the microphone relative to the head of the person as a passenger or occupant is relatively fixed.

In Ausgestaltung des Verfahrens wird auch ein Halten von Vokalen detektiert und in einer mehrfachen Ausführung als Schrift bzw. Text festgehalten. Dies ist durch Erfassen und/oder Messen der Dauer einer jeweiligen Silbe, die diesen Vokal umfasst, möglich, wobei eine Anzahl an Buchstaben zum Repräsentieren eines jeweiligen Vokals in dem zu schreibenden Text zum schriftlichen Darstellen einer jeweiligen Silbe verlängert wird.In an embodiment of the method, a holding of vowels is also detected and recorded in a multiple version as writing or text. This is possible by detecting and/or measuring the duration of each syllable comprising that vowel, lengthening a number of letters representing each vowel in the text to be written to represent each syllable in writing.

Mit dem Verfahren und dem Sprachtextübersetzungssystem ist eine Individualisierung und Emotionalisierung von Spracheingaben für soziale Medien in Wort und Schrift möglich. Somit ist es weiterhin u. a. möglich, etwaige Missverständnisse aufgrund ansonsten falsch interpretierter Textnachrichten auszuräumen.With the method and the language text translation system, individualization and emotionalization of voice inputs for social media in spoken and written form is possible. Thus it is still u. a. possible to eliminate any misunderstandings due to otherwise misinterpreted text messages.

Falls die Person energisch: „WIESO WILLST DU DAS?“ sagt und auch gerne transportieren würde, dass dieser Satz nicht im Ruhepuls gesprochen bzw. gesagt wurde, kann dies über die erfasste Lautstärke der Sprache erfasst werden. Somit kann mit dem Verfahren im Vergleich zu einer konventionellen Spracherfassung vermieden werden, dass der als Sprache mündlich eingegebene Text in „Wieso willst du das?“ geändert wird.If the person says energetically: "WHY DO YOU WANT THAT?" and would also like to convey that this sentence was not spoken or said in the resting heart rate, this can be recorded via the recorded volume of the speech. In comparison to conventional voice recording, the method can thus be used to avoid the text that was entered orally as voice being changed to “Why do you want that?”.

Gemäß einem weiteren Beispiel sagt die Person „Haaaaaaallo?“ und möchte damit eine ganz andere Bedeutung ausdrücken als eine bloße Begrüßungsformel. Möglicherweise soll zum Ausdruck gebracht werden, dass der Angesprochene bzw. Angeschriebene sich bei dem Absender melden soll. Zumindest soll eine gewisse Nachdrücklichkeit zum Ausdruck kommen. Eine derartige Betonung wird über die Länge bzw. Dauer des gesprochenen Vokals „a“ der Silbe erfasst. Dabei wird die Sprache anders als von einer üblichen Spracherkennungseinheit aufgezeichnet, die daraus lediglich ein „Hallo“ macht.According to another example, the person says "Haaaaaaallo?" and wants to express a completely different meaning than a mere greeting. Possibly it should be expressed that the addressee or addressee should report to the sender. At least a certain emphasis should be expressed. Such stress is detected by the length or duration of the spoken vowel "a" of the syllable. The speech is recorded differently than by a normal speech recognition unit, which only makes a "Hello" out of it.

Das vorgestellte Verfahren und das vorgestellte Sprachtextübersetzungssystem können im Zeitalter zunehmender Digitalisierung und einer Pflege von sozialen Netzwerken verwendet werden, da hierbei eine zunehmende Individualisierung und Emotionalisierung von Bedeutung ist. Dabei ist eine Anwendung des Verfahrens und des Sprachtextübersetzungssystems auch für einen Fahrer eines Fahrzeugs als Person verwendbar, da der Fahrer bei einer Fahrt mit dem Fahrzeug vorrangig Fahraufgaben übernehmen muss und nicht auf konventionelle Weise Nachrichten schreiben, bspw. tippen, kann. Mit dem Verfahren und dem Sprachtextübersetzungssystem wird für den Fahrer das Verfassen von Texten erleichtert.The presented method and the presented language text translation system can be used in the age of increasing digitization and maintenance of social networks, since increasing individualization and emotionalization is important here. An application of the method and the language text translation system can also be used by a driver of a vehicle as a person, since the driver must primarily take on driving tasks when driving the vehicle and cannot write messages in a conventional way, for example typing. With the method and the language text translation system, the writing of texts is made easier for the driver.

Mit dem Verfahren kann im Unterschied zu einer konventionellen Spracheingabe nun auch Sprache in Text übertragen bzw. übersetzt werden, der über eine übliche Standard-Didaktik hinausgeht. Bei einer Realisierung des Verfahrens wird von dem Sprachtextübersetzungssystem ein üblicherweise softwaregestützter Algorithmus zum Übersetzen der gesprochenen Sprache in geschriebenen Text verwendet, wobei es möglich ist, die Sprache der Person in einen stimmungsbehafteten Text statt in einen normalen stimmungsneutralen Text umzuwandeln bzw. zu transformieren. Das Verfahren geht über übliche Maßnahmen zur Spracherkennung hinaus, die lediglich dazu ausgelegt sind, diktierte Satzzeichen, wie z. B. ein Ausrufezeichen, als ein solches zu erkennen. Mit dem Verfahren kann somit eine Stimme der Person zur Artikulierung von Sprache in eine differenzierte Darstellung als Text übersetzt und/oder gewandelt werden. Mit dem Verfahren wird für die von der Person gesprochene Sprache jeweils ein akustischer Referenzwert für die Lautstärke bzw. den Pegel und/oder einen Tonus bzw. eine Betonung ermittelt. Falls Abweichungen von diesem akustischen Referenzwert erfasst werden, die größer als der Toleranzwert sind, ist es bspw. möglich, eine Groß- und Kleinschreibung sowie eine Interpunktion des bereitzustellenden Textes zu beeinflussen.In contrast to conventional speech input, the method can now also be used to transfer or translate speech into text, which goes beyond the usual standard didactics. In one implementation of the method, an algorithm, typically software-based, is used by the voice text translation system to translate spoken language into written text, with the ability to transform the person's speech into moody text rather than normal mood-neutral text. The method goes beyond conventional speech recognition measures, which are only designed to recognize dictated punctuation marks, such as e.g. B. an exclamation mark to be recognized as such. The method can thus be used to translate and/or convert a person's voice to articulate speech into a differentiated representation as text. With the method, an acoustic reference value for the volume or the level and/or a tone or an emphasis is determined for the language spoken by the person. If deviations from this acoustic reference value are detected that are greater than the tolerance value, it is possible, for example, to influence capitalization and punctuation of the text to be provided.

Unter Berücksichtigung des Tonus bzw. der Betonung, bspw. einer Stimmlage, der gesprochenen Sprache werden Satzzeichen für den zu schreibenden Text aufgrund der Betonung von dem Sprachtextübersetzungssystem automatisch erkannt und müssen nicht mehr diktiert werden, wobei die Satzzeichen in dem Text entsprechend gesetzt werden. Weiterhin können auch Absätze bei einer bestimmten Sprachpausenlänge zwischen zwei Silben in der gesprochenen Sprache als solche erkannt werden. Weiterhin werden Ausdrücke wie „hmmh“ oder „äh“ auch als solche erkannt und in dem Text geschrieben bzw. niedergeschrieben, um neben einem reinen Textinhalt auch eine „mitschwingende“ Gefühlslage der sprechenden Person, bspw. zustimmend, nachdenklich, zweifelnd, spöttisch oder ablehnend, zu fixieren.Taking into account the tone or emphasis, e.g. a voice pitch, of the spoken language, punctuation marks for the text to be written are automatically recognized by the language text translation system due to the emphasis and no longer have to be dictated, with the punctuation marks in the text being set accordingly. Furthermore, paragraphs with a specific speech pause length between two syllables in the spoken language can be recognized as such. Furthermore, expressions such as "hmmh" or "eh" are also recognized as such and written or written down in the text in order to convey not only a pure text content but also a "resonating" emotional state of the speaking person, e.g. approving, thoughtful, doubting, mocking or rejecting , to fix.

Das Sprachtextübersetzungssystem ist dazu ausgebildet, bei einer Nutzung des Verfahrens und/oder des Sprachtextübersetzungssystems durch die Person, bspw. durch einen Fahrer, deren bzw. dessen Spracheigenarten und/oder Sprechweise, bspw. unter Nutzung von künstlicher Intelligenz, automatisch zu lernen. Weiterhin ist das Sprachtextübersetzungssystem dazu ausgebildet, durch gezielte Abfragen bei der Person, bspw. dem Fahrer, deren bzw. dessen individuelle Sprechweise kennenzulernen. Dabei kann das Sprachtextübersetzungssystem einen natürlichen Sprachfluss der Person kennenlernen. In diesem Fall werden ebenfalls Referenzwerte für akustische Parameter für die von der Person regelmäßig und/oder individuell gesprochene Sprache angelernt und/oder antrainiert.The language text translation system is designed to automatically learn when the method and/or the language text translation system is used by the person, e.g. by a driver, his or her language characteristics and/or way of speaking, e.g. using artificial intelligence. Furthermore, the voice text translation system is designed to get to know his or her individual way of speaking by means of targeted queries to the person, for example the driver. Thereby, the speech text translation system can learn a natural speech flow of the person. In this case, reference values for acoustic parameters for the language spoken regularly and/or individually by the person are learned and/or trained.

In weiterer Ausgestaltung wird von dem Sprachtextübersetzungssystem erkannt, ob die Person ihre Sprache und somit ihre Silben singt. In diesem Fall wird der geschriebene Text mit Sonderzeichen, bspw. mit Musiknoten, die auf eine gesungene Melodie hinweisen, versehen.In a further refinement, the language text translation system recognizes whether the person is singing their language and thus their syllables. In this case, the written text is provided with special characters, e.g. with music notes that indicate a melody that has been sung.

Es versteht sich, dass die voranstehend genannten und die nachstehend noch zu erläuternden Merkmale nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar sind, ohne den Rahmen der vorliegenden Erfindung zu verlassen.It goes without saying that the features mentioned above and those still to be explained below can be used not only in the combination specified in each case, but also in other combinations or on their own, without departing from the scope of the present invention.

Die Erfindung ist anhand von Ausführungsformen in der Zeichnung schematisch dargestellt und wird unter Bezugnahme auf die Zeichnung schematisch und ausführlich beschrieben.

  • 1 zeigt in schematischer Darstellung ein Kraftfahrzeug, das eine Ausführungsform des erfindungsgemäßen Sprachtextübersetzungssystems zur Durchführung einer Ausführungsform des erfindungsgemäßen Verfahrens aufweist.
The invention is shown schematically on the basis of embodiments in the drawing and is described schematically and in detail with reference to the drawing.
  • 1 shows a schematic representation of a motor vehicle which has an embodiment of the speech text translation system according to the invention for carrying out an embodiment of the method according to the invention.

Die in 1 schematisch dargestellte Ausführungsform des erfindungsgemäßen Sprachtextübersetzungssystems ist in einem Kraftfahrzeug 2 angeordnet und weist als Komponenten ein Mikrofon 6, eine Recheneinheit 8, ein Textausgabemodul 10 und eine Kamera 12 auf. Außerdem zeigt 1, dass sich in einem Innenraum des Kraftfahrzeugs 2 eine Person 4 befindet.In the 1 Schematically illustrated embodiment of the speech text translation system according to the invention is arranged in a motor vehicle 2 and has a microphone 6, a computing unit 8, a text output module 10 and a camera 12 as components. Also shows 1 that there is a person 4 in an interior of the motor vehicle 2 .

Bei der Ausführungsform des erfindungsgemäßen Verfahrens ist vorgesehen, dass das Sprachtextübersetzungssystem an eine übliche Sprache bzw. Aussprache von Silben durch die Person 4 angelernt und/oder antrainiert ist bzw. worden ist. Unter Berücksichtigung dessen wird für jede Silbe der Sprache der Person 4 mindestens ein akustischer Parameter bezüglich einer Dauer einer jeweiligen Silbe, einer Lautstärke einer jeweiligen Silbe und einer Frequenz einer jeweiligen Silbe vorgesehen. Außerdem ist der jeweiligen Silbe eine schriftliche Vorgabe zur Darstellung der Silbe als Text zugeordnet, wobei eine entsprechende Zuordnung einer Silbe zu ihrer schriftlichen Vorgabe von dem Sprachtextübersetzungssystem trainiert und/oder gelernt wurde bzw. worden ist. Dabei wird für jeden akustischen Parameter ein Referenzwert vorgesehen und/oder berücksichtigt, der der Vorgabe für die Darstellung als Text zugeordnet wird. Außerdem wird für jeden akustischen Parameter ein Toleranzwert vorgesehen, der zum Beurteilen der Abweichung von dem Referenzwert berücksichtigt wird.In the embodiment of the method according to the invention, it is provided that the language text translation system is or has been taught and/or trained to a common language or pronunciation of syllables by the person 4 . Taking this into account, at least one acoustic parameter is provided for each syllable of the speech of the person 4 with regard to a duration of a respective syllable, a loudness of a respective syllable and a frequency of a respective syllable. In addition, the respective syllable is assigned a written specification for representing the syllable as text, with a corresponding assignment of a syllable to its written specification being trained and/or learned by the language text translation system. In this case, a reference value is provided and/or taken into account for each acoustic parameter, which is assigned to the specification for the display as text. In addition, a tolerance value is provided for each acoustic parameter, which is taken into account for assessing the deviation from the reference value.

Bei dem Verfahren wird aktuell gesprochene Sprache der Person 4 von dem Mikrofon 6 aufgenommen und von der Recheneinheit 8 unter Nutzung eines Algorithmus softwaregestützt analysiert und/oder ausgewertet, wobei jede aktuell gesprochene und von dem Mikrofon 6 aufgenommene Silbe mit dem hierfür vorgesehenen Referenzwert für den mindestens einen akustischen Parameter verglichen wird. Falls hierbei von der Recheneinheit 8 für mindestens eine aktuell gesprochene Silbe eine akustische Abweichung von dem jeweils hierfür vorgesehenen Referenzwert des akustischen Parameters erfasst wird, die größer als der Toleranzwert ist, wird diese mindestens eine Silbe von dem Textausgabemodul 10 gemäß der akustischen Abweichung als Text schriftlich variiert dargestellt und/oder festgehalten.In the method, the currently spoken speech of the person 4 is recorded by the microphone 6 and analyzed and/or evaluated by the computing unit 8 using an algorithm with software support, each syllable currently being spoken and recorded by the microphone 6 being matched with the reference value provided for this purpose for the at least an acoustic parameter is compared. If the computing unit 8 detects an acoustic deviation from the reference value of the acoustic parameter provided for this purpose for at least one currently spoken syllable that is greater than the tolerance value, this at least one syllable is written as text by the text output module 10 according to the acoustic deviation varied and/or recorded.

Mit der Kamera 12 wird hierbei der Abstand des sprechenden Munds der Person 4 von dem Mikrofon 6 erfasst, um die Lautstärke der gesprochenen Sprache und somit von gesprochenen Silben unter Berücksichtigung dieser Entfernung bzw. eines entsprechenden Abstands mit dem hierfür vorgesehenen akustischen Referenzwert vergleichen zu können.The camera 12 detects the distance between the speaking mouth of the person 4 and the microphone 6 in order to be able to compare the volume of the spoken language and thus of spoken syllables, taking this distance or a corresponding distance into account, with the acoustic reference value provided for this purpose.

BezugszeichenlisteReference List

22
Fahrzeugvehicle
44
Personperson
66
Mikrofonmicrophone
88th
Recheneinheitunit of account
1010
Textausgabemodultext output module
1212
Kameracamera

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent Literature Cited

  • EP 2385520 A2 [0003]EP 2385520 A2 [0003]
  • EP 2391105 A1 [0004]EP 2391105 A1 [0004]

Claims (10)

Verfahren zum Erkennen von Sprache und deren Übersetzung in geschriebenen Text mit einem Sprachtextübersetzungssystem, wobei jede Silbe der Sprache durch mindestens einen Buchstaben gemäß einer Vorgabe schriftlich dargestellt wird, wobei die Sprache von einer Person (4) gesprochen wird, wobei für jede Silbe hinsichtlich ihrer Aussprache mindestens ein akustischer Parameter vorgesehen wird, der der schriftlichen Vorgabe zugeordnet wird, wobei mindestens eine von der Person (4) aktuell gesprochene Silbe mit einem Referenzwert für den mindestens einen hierfür vorgesehenen akustischen Parameter verglichen wird, wobei für den Fall, dass für die mindestens eine aktuell gesprochene Silbe von dem Sprachtextübersetzungssystem eine akustische Abweichung von dem jeweils vorgesehenen akustischen Referenzwert für den mindestens einen akustischen Parameter erfasst wird, diese mindestens eine Silbe von dem Sprachtextübersetzungssystem gemäß der akustischen Abweichung als Text schriftlich variiert wird.A method of recognizing speech and translating it into written text using a speech text translation system, each syllable of the language being written by at least one letter according to a specification, the language being spoken by a person (4), each syllable being as to its pronunciation at least one acoustic parameter is provided, which is assigned to the written specification, with at least one syllable currently being spoken by the person (4) being compared with a reference value for the at least one acoustic parameter provided for this purpose, with the case that for the at least one currently spoken syllable of the voice text translation system, an acoustic deviation from the respectively provided acoustic reference value for the at least one acoustic parameter is detected, this at least one syllable is varied by the voice text translation system according to the acoustic deviation as text in writing i.e. Verfahren nach Anspruch 1, bei dem eine Dauer der mindestens einen Silbe ermittelt und als akustischer Parameter berücksichtigt wird, wobei eine Abweichung der Dauer von einer hierfür als Referenzwert vorgesehenen Referenzdauer berücksichtigt wird.procedure after claim 1 , in which a duration of the at least one syllable is determined and taken into account as an acoustic parameter, a deviation of the duration from a reference duration provided for this purpose being taken into account. Verfahren nach Anspruch 1 oder 2, bei dem eine Frequenz der mindestens einen Silbe ermittelt und als akustischer Parameter berücksichtigt wird, wobei eine Abweichung der Frequenz von einer hierfür als Referenzwert vorgesehenen Referenzfrequenz berücksichtigt wird.procedure after claim 1 or 2 , in which a frequency of the at least one syllable is determined and taken into account as an acoustic parameter, a deviation of the frequency from a reference frequency provided for this purpose being taken into account. Verfahren nach einem der voranstehenden Ansprüche, bei dem eine Lautstärke der mindestens einen Silbe ermittelt und als akustischer Parameter berücksichtigt wird, wobei eine Abweichung der Lautstärke von einer hierfür als Referenzwert vorgesehenen Referenzlautstärke berücksichtigt wird.Method according to one of the preceding claims, in which a volume of the at least one syllable is determined and taken into account as an acoustic parameter, a deviation of the volume from a reference volume provided for this purpose as a reference value being taken into account. Verfahren nach einem der voranstehenden Ansprüche, bei dem die Sprache der Person (4) vorab erfasst wird, wobei der akustische Referenzwert für den mindestens einen akustischen Parameter für eine jeweilige Silbe auf einem Mittelwert von bislang erfasster die jeweilige Silbe umfassender Sprache beruht.Method according to one of the preceding claims, in which the speech of the person (4) is detected in advance, the acoustic reference value for the at least one acoustic parameter for a respective syllable being based on an average of previously detected speech comprising the respective syllable. Verfahren nach einem der voranstehenden Ansprüche, bei dem zum Festlegen des akustischen Referenzwerts für den mindestens einen akustischen Parameter von der Person (4) gesprochene Sprache berücksichtigt wird, wobei für die gesprochene Sprache ein Mittelwert für sämtliche gesprochenen Silben ermittelt und als jeweiliger akustischer Referenzwert für den mindestens einen akustischen Parameter für die mindestens eine Silbe berücksichtigt wird.Method according to one of the preceding claims, in which speech spoken by the person (4) is taken into account to determine the acoustic reference value for the at least one acoustic parameter, a mean value being determined for all spoken syllables for the spoken language and used as the respective acoustic reference value for the at least one acoustic parameter for the at least one syllable is taken into account. Verfahren nach einem der voranstehenden Ansprüche, bei dem die akustische Abweichung von dem jeweils vorgesehenen akustischen Referenzwert für den mindestens einen akustischen Parameter mit einem Toleranzwert verglichen wird, wobei die mindestens eine Silbe von dem Sprachtextübersetzungssystem gemäß der akustischen Abweichung als Text schriftlich variiert wird, wenn die akustische Abweichung von dem Referenzwert größer als der Toleranzwert ist.Method according to one of the preceding claims, in which the acoustic deviation from the respectively provided acoustic reference value for the at least one acoustic parameter is compared with a tolerance value, the at least one syllable being varied as text in writing by the speech text translation system according to the acoustic deviation if the acoustic deviation from the reference value is greater than the tolerance value. Verfahren nach einem der voranstehenden Ansprüche, bei dem die akustische Abweichung durch eine jeweilige Formatierung als Variation des Textes darzustellen ist, wobei auf die akustische Abweichung durch ein jeweiliges Codewort hingewiesen wird, wobei die jeweilige Formatierung des Textes durch das jeweilige Codewort aktiviert wird.Method according to one of the preceding claims, in which the acoustic deviation is to be represented by a respective formatting as a variation of the text, the acoustic deviation being indicated by a respective code word, the respective formatting of the text being activated by the respective code word. Verfahren nach einem der voranstehenden Ansprüche, bei dem die akustische Abweichung durch eine Sprachübersetzung als Variation des Textes darzustellen ist, wobei die mindestens eine Silbe in einer ersten Sprache gesprochen ist und von dem Sprachtextübersetzungssystem durch eine Übersetzung in eine zweite Sprache als Text schriftlich variiert wird.Method according to one of the preceding claims, in which the acoustic deviation is to be represented by a language translation as a variation of the text, the at least one syllable being spoken in a first language and being varied by the language text translation system by a translation into a second language as text in writing. Sprachtextübersetzungssystem zum Erkennen von Sprache und zu deren Übersetzung in geschriebenen Text, wobei das Sprachtextübersetzungssystem dazu ausgebildet ist, jede Silbe der Sprache durch mindestens einen Buchstaben gemäß einer Vorgabe schriftlich darzustellen, wobei die Sprache von einer Person (4) gesprochen wird, wobei das Sprachtextübersetzungssystem dazu ausgebildet ist, für jede Silbe hinsichtlich ihrer Aussprache mindestens einen akustischen Parameter vorzusehen und der schriftlichen Vorgabe zuzuordnen, wobei das Sprachtextübersetzungssystem dazu ausgebildet ist, mindestens eine von der Person (4) aktuell gesprochene Silbe mit einem Referenzwert für den mindestens einen hierfür vorgesehenen akustischen Parameter zu vergleichen und für den Fall, dass von dem Sprachtextübersetzungssystem für die mindestens eine aktuell gesprochene Silbe von dem Sprachtextübersetzungssystem eine akustische Abweichung von dem jeweils vorgesehenen akustischen Referenzwert für den mindestens einen akustischen Parameter erfasst wird, das Sprachtextübersetzungssystem dazu ausgebildet ist, diese mindestens eine Silbe gemäß der akustischen Abweichung als Text schriftlich zu variieren.Speech text translation system for recognizing speech and translating it into written text, the speech text translation system being adapted to write each syllable of the speech by at least one letter according to a specification, the speech being spoken by a person (4), the speech text translation system to is designed to provide at least one acoustic parameter for each syllable with regard to its pronunciation and to assign it to the written specification, the voice text translation system being designed to assign at least one syllable currently spoken by the person (4) with a reference value for the at least one acoustic parameter provided for this purpose compare and in the event that the speech text translation system for the at least one currently spoken syllable of the speech text translation system an acoustic deviation from the respectively provided acoustic reference value for the at least one acoustic parameters is detected, the speech text translation system is adapted to vary this at least one syllable according to the acoustic deviation as text in writing.
DE102021103221.0A 2021-02-11 2021-02-11 Method of recognizing speech and translating it into written text Pending DE102021103221A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102021103221.0A DE102021103221A1 (en) 2021-02-11 2021-02-11 Method of recognizing speech and translating it into written text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021103221.0A DE102021103221A1 (en) 2021-02-11 2021-02-11 Method of recognizing speech and translating it into written text

Publications (1)

Publication Number Publication Date
DE102021103221A1 true DE102021103221A1 (en) 2022-08-11

Family

ID=82493333

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021103221.0A Pending DE102021103221A1 (en) 2021-02-11 2021-02-11 Method of recognizing speech and translating it into written text

Country Status (1)

Country Link
DE (1) DE102021103221A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055175A1 (en) 2007-08-22 2009-02-26 Terrell Ii James Richard Continuous speech transcription performance indication
EP2385520A2 (en) 2010-05-06 2011-11-09 Sony Ericsson Mobile Communications AB Method and device for generating text from spoken word
EP2391105A1 (en) 2010-05-25 2011-11-30 Sony Ericsson Mobile Communications AB Text enhancement system
US20180068662A1 (en) 2016-09-02 2018-03-08 Tim Schlippe Generation of text from an audio speech signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055175A1 (en) 2007-08-22 2009-02-26 Terrell Ii James Richard Continuous speech transcription performance indication
EP2385520A2 (en) 2010-05-06 2011-11-09 Sony Ericsson Mobile Communications AB Method and device for generating text from spoken word
EP2391105A1 (en) 2010-05-25 2011-11-30 Sony Ericsson Mobile Communications AB Text enhancement system
US20180068662A1 (en) 2016-09-02 2018-03-08 Tim Schlippe Generation of text from an audio speech signal

Similar Documents

Publication Publication Date Title
DE69914131T2 (en) Position handling in speech recognition
DE60215272T2 (en) Method and apparatus for inputting linguistic data under unfavorable conditions
DE60207742T2 (en) CORRECTION OF A TEXT RECOGNIZED BY A LANGUAGE RECOGNITION BY COMPARING THE PHONES OF THE RECOGNIZED TEXT WITH A PHONETIC TRANSCRIPTION OF A MANUALLY ENTERED CORRECTION WRITING
DE69923379T2 (en) Non-interactive registration for speech recognition
US7266495B1 (en) Method and system for learning linguistically valid word pronunciations from acoustic data
DE60216069T2 (en) LANGUAGE-TO-LANGUAGE GENERATION SYSTEM AND METHOD
EP0925578B1 (en) Speech-processing system and method
DE60124559T2 (en) DEVICE AND METHOD FOR LANGUAGE RECOGNITION
DE602004010069T2 (en) DEVICE AND METHOD FOR TINTING LANGUAGES, AS WELL AS A KEYBOARD FOR OPERATING SUCH A DEVICE
DE19825205C2 (en) Method, device and product for generating post-lexical pronunciations from lexical pronunciations with a neural network
DE3910467A1 (en) METHOD AND DEVICE FOR GENERATING REPORTS
US7280963B1 (en) Method for learning linguistically valid word pronunciations from acoustic data
DE60318385T2 (en) LANGUAGE PROCESSING APPARATUS AND METHOD, RECORDING MEDIUM AND PROGRAM
DE10018134A1 (en) Determining prosodic markings for text-to-speech systems - using neural network to determine prosodic markings based on linguistic categories such as number, verb, verb particle, pronoun, preposition etc.
EP1058235B1 (en) Reproduction method for voice controlled systems with text based speech synthesis
DE112006000225B4 (en) Dialogue system and dialog software
DE102009021124A1 (en) Operating system for vehicle, has input unit, output unit and speller function, with which information is entered into operating system character by character
EP1282897B1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
DE19532114C2 (en) Speech dialog system for the automated output of information
EP1125278B1 (en) Data processing system or communications terminal with a device for recognising speech and method for recognising certain acoustic objects
DE102021103221A1 (en) Method of recognizing speech and translating it into written text
DE10204924A1 (en) Method and device for the rapid pattern recognition-supported transcription of spoken and written utterances
DE102005030965A1 (en) Extension of the dynamic vocabulary of a speech recognition system by further voice enrollments
DE69723449T2 (en) METHOD AND SYSTEM FOR LANGUAGE-TO-LANGUAGE IMPLEMENTATION
EP1224661B1 (en) Method and arrangement for verifying a speaker with a computer

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015180000

Ipc: G10L0015260000

R163 Identified publications notified
R082 Change of representative

Representative=s name: RDL PATENTANWAELTE PARTG MBB, DE

Representative=s name: RAIBLE, DEISSLER, LEHMANN PATENTANWAELTE PARTG, DE

R012 Request for examination validly filed