DE102022108033A1 - Method for visually representing speech and an arrangement for carrying out the method - Google Patents
Method for visually representing speech and an arrangement for carrying out the method Download PDFInfo
- Publication number
- DE102022108033A1 DE102022108033A1 DE102022108033.1A DE102022108033A DE102022108033A1 DE 102022108033 A1 DE102022108033 A1 DE 102022108033A1 DE 102022108033 A DE102022108033 A DE 102022108033A DE 102022108033 A1 DE102022108033 A1 DE 102022108033A1
- Authority
- DE
- Germany
- Prior art keywords
- represented
- writing
- voice
- property
- medium
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000005236 sound signal Effects 0.000 claims abstract description 17
- 230000003287 optical effect Effects 0.000 claims abstract description 11
- 230000002996 emotional effect Effects 0.000 claims description 7
- 230000001755 vocal effect Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 5
- 230000000704 physical effect Effects 0.000 claims description 4
- 230000008451 emotion Effects 0.000 description 11
- 208000032041 Hearing impaired Diseases 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 208000003028 Stuttering Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4318—Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
- H04N21/4858—End-user interface for client configuration for modifying screen layout parameters, e.g. fonts, size of the windows
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/445—Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
Abstract
Ein Verfahren, bei welchem zu einem optisch dargestellten Hintergrund oder Film Gesprochenes durch eine Schrift visuell dargestellt wird, ist im Hinblick auf die Aufgabe, Schallereignisse von Gesprochenem oder durch Audiosignale übermittelte Informationen visuell darzustellen, dadurch gekennzeichnet, dass mindestens eine Stimmeigenschaft oder phonetische Eigenschaft der das Gesprochene sprechenden Stimme in graphisch angezeigter Schrift visuell dargestellt wird, indem eine der jeweiligen Stimmeigenschaft oder phonetischen Eigenschaft zugeordnete jeweilige optische Aufmachung der Schrift verwendet wird. Eine Anordnung führt mit ihren technischen Mitteln dieses Verfahren aus und löst ebenfalls die Aufgabe.A method in which spoken words are visually represented by a written text in addition to a visually represented background or film is, with regard to the task of visually representing sound events of spoken words or information transmitted by audio signals, characterized in that at least one voice property or phonetic property of the Spoken speaking voice is visually represented in graphically displayed font by using a respective optical presentation of the font assigned to the respective voice characteristic or phonetic characteristic. An arrangement uses its technical means to carry out this procedure and also solves the task.
Description
Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Anspruchs 1 und eine Anordnung zur Ausführung des Verfahrens.The invention relates to a method according to the preamble of claim 1 and an arrangement for carrying out the method.
Es ist bekannt, Filme mit Untertiteln zu versehen, um Hörgeschädigten oder Menschen, die nicht die gesprochene Sprache des Films verstehen, Inhalte des Films zu vermitteln. Um das Gesprochene visuell darzustellen, werden derzeit möglichst neutrale Schriftarten verwendet. Als Schriftarten in Bezug auf den deutschsprachigen Raum könnten merkmalarme Schriftgruppen, wie Grotesk oder Monospace verwendet werden.It is known to provide films with subtitles in order to convey the content of the film to people who are hearing impaired or who do not understand the spoken language of the film. In order to visually represent what is being said, fonts that are as neutral as possible are currently used. Font groups with few features, such as Grotesk or Monospace, could be used as fonts for German-speaking countries.
Mit den bekannten Untertiteln können aber lautsprachliche Situationen eines Films oder die Gemütsverfassung und sprachliche Eigenheiten eines Schauspielers, insbesondere dessen Emotionen, nicht dargestellt werden, da lediglich Sprachinhalte kommuniziert werden.However, with the well-known subtitles, the spoken language situations of a film or the state of mind and linguistic peculiarities of an actor, especially their emotions, cannot be represented, as only linguistic content is communicated.
Der Erfindung liegt daher die Aufgabe zu Grunde, Schallereignisse von Gesprochenem oder durch Audiosignale übermittelte Informationen visuell darzustellen.The invention is therefore based on the object of visually representing sound events from spoken words or information transmitted by audio signals.
Die vorliegende Erfindung löst die zuvor genannte Aufgabe durch die Merkmale des Anspruchs 1.The present invention solves the aforementioned problem through the features of claim 1.
Erfindungsgemäß ist zunächst erkannt worden, dass Schrift, insbesondere als Untertitel, bisher ein recht eindimensionales Erlebnis ist, weil die gesprochene Sprache häufig nur durch neutrale, merkmalarme Schriftarten dargestellt wird.According to the invention, it was first recognized that writing, especially as subtitles, has so far been a rather one-dimensional experience because spoken language is often only represented by neutral fonts with few features.
Weiter ist erkannt worden, dass eine bestimmte Darstellung von Schrift verwendet werden muss, um dem rein optisch dargestellten Bild oder Film eine Vielschichtigkeit und Nahbarkeit zu verleihen.It has also been recognized that a specific representation of writing must be used in order to give the purely visual image or film a complexity and approachability.
Konkret ist vor diesem Hintergrund erkannt worden, dass mindestens eine Stimmeigenschaft einer die Sprache sprechenden Stimme in graphisch angezeigter Schrift visuell dargestellt werden muss, indem eine der jeweiligen Stimmeigenschaft zugeordnete optische Aufmachung der Schrift verwendet wird.Specifically, against this background, it has been recognized that at least one voice characteristic of a voice speaking the language must be visually represented in graphically displayed font by using an optical presentation of the font assigned to the respective voice characteristic.
Durch die jeweiligen Aufmachungen können Grundemotionen wie Trauer, Angst, Wut oder Freude, aber auch Zuneigung oder Ablehnung dargestellt und optisch transportiert werden.The respective designs can be used to represent and visually convey basic emotions such as sadness, fear, anger or joy, but also affection or rejection.
Die verwendete Schrift passt sich erfindungsgemäß an die Phonetik des Gesprochenen an. So wird hörgeschädigten Menschen mehr Teilhabe an Sprachkultur und allen ein tieferes Leseerlebnis ermöglicht.According to the invention, the font used adapts to the phonetics of what is spoken. This enables hearing-impaired people to participate more in language culture and gives everyone a deeper reading experience.
Durch das beschriebene Verfahren können Schallereignisse von gesprochener Sprache visuell dargestellt werden. Diverse Sprachaspekte können visuell übersetzt werden.Using the method described, sound events from spoken language can be visually represented. Various language aspects can be translated visually.
Mehrere oder verschiedene Stimmeigenschaften oder phonetische Eigenschaften könnten durch unterschiedliche Typographien oder typografische Aufmachungen von Schriftarten für die Schrift dargestellt werden. So ist es möglich, beispielsweise harte Töne durch hart anmutende Buchstaben darzustellen und weiche Töne durch weich anmutende Buchstaben darzustellen. Harte Sprachabschnitte könnten beispielsweise kantig sein bzw. durch kantige Buchstaben dargestellt werden oder spitze Formen aufweisen bzw. durch spitze Buchstaben dargestellt werden, wogegen weiche Sprachabschnitte eher abgerundet oder fließend durch entsprechende Buchstaben dargestellt werden. Die Aufmachung der Buchstaben transportiert die jeweilige Charakteristik der gesprochenen Sprache.Multiple or different vocal characteristics or phonetic characteristics could be represented by different typographies or typographical presentations of typefaces. For example, it is possible to represent hard tones with hard-looking letters and soft tones with soft-looking letters. For example, hard sections of language could be angular or represented by angular letters or have pointed shapes or be represented by pointed letters, whereas soft sections of language could be represented in a more rounded or flowing manner by corresponding letters. The layout of the letters conveys the respective characteristics of the spoken language.
Es könnten komplette Sätze durch die Schrift dargestellt werden. Im Gegensatz zu einer visuell-spezifischen Darstellung lediglich einzelner Wörter können ganze Sätze emotionale oder akustische Verläufe einer Stimme vollständiger darstellen, und der Lesefluss wird bewahrt. Überdies können die Stimmen unterschiedlicher Personen klarer den jeweils sprechenden Personen zugeordnet werden, wenn für unterschiedliche Stimmen unterschiedlich aufgemachte Schriftarten für die jeweilige Schrift verwendet werden.Complete sentences could be represented through writing. In contrast to a visual-specific representation of just individual words, entire sentences can represent emotional or acoustic progressions of a voice more completely and the reading flow is preserved. In addition, the voices of different people can be assigned more clearly to the people speaking if different fonts are used for different voices.
Es könnten unterschiedlich aufgemachte Schriftarten für die Schrift zur visuellen Darstellung unterschiedlicher Landessprachen oder Dialekte verwendet werden. Zum Beispiel könnte für die Darstellung einer Landessprache eine Typographie verwendet werden, die den Betrachter an das jeweilige Land erinnert, weil die Typographie für das Land charakteristische Symbole und Schriftarten in die Buchstaben integriert. Auch Soziolekte, individuelle Sprachfehler oder Akzente könnten durch die Typographie der jeweiligen Schrift visuell dargestellt werden.Differently designed fonts could be used for writing to visually represent different national languages or dialects. For example, to represent a national language, typography could be used that reminds the viewer of that country because the typography integrates symbols and fonts characteristic of the country into the letters. Sociolects, individual language errors or accents could also be visually represented through the typography of the respective font.
Unterschiedlich aufgemachte Schriftarten für die Schrift könnten zur visuellen Darstellung sich zeitlich ändernder Stimmeigenschaften oder phonetischer Eigenschaften einander zeitlich nacheinander abfolgen. Konkret könnte sich die Aufmachung von Buchstaben im Satzverlauf ändern, während diese Buchstaben zeitlich nacheinander dargestellt werden. Beispielsweise kann ein gesprochener Satz mit Buchstaben einer ersten Aufmachung beginnen und mit Buchstaben einer zweiten oder weiteren Aufmachung enden. So kann dargestellt werden, dass eine Stimme erst akzentfrei und dann mit Akzent spricht. Buchstaben könnten zeitlich nacheinander eingeblendet werden, um den gesprochenen Satz darzustellen, wobei sich die Aufmachung der nacheinander eingeblendeten Buchstaben ändert. So kann beispielsweise die in diesem Moment ablaufende Änderung einer Stimmeigenschaft, bspw. die Lautstärke, optisch dargestellt werden.Differently designed fonts for writing could be sequenced in time to visually represent changing vocal properties or phonetic properties over time. Specifically, the appearance of letters could change over the course of a sentence, while these letters are presented one after the other in time. For example, a spoken sentence may begin with letters from a first presentation and end with letters from a second or further presentation. This way it can be shown that a voice first speaks without an accent and then with an accent. Letters could be shown one after the other in time to represent the spoken sentence, with the layout of the letters shown one after the other changing. For example, the change in a voice characteristic that is occurring at this moment, for example the volume, can be displayed visually.
Der Lautstärkenverlauf einer Stimme könnte durch Schriftarten für die Schrift dargestellt werden, wobei mindestens ein bestimmt aufgemachtes Schriftzeichen einer bestimmten Lautstärke oder einem Lautstärkenbereich zugeordnet ist. So kann durch bestimmte Schriftzeichen dargestellt werden, dass eine Stimme gerade laut oder leise spricht. Konkret kann beispielsweise zum Anstieg der Lautstärke die Strichstärke der verwendeten Buchstaben ansteigen.The volume progression of a voice could be represented by fonts for the writing, with at least one particular character being assigned to a specific volume or a volume range. Certain characters can be used to show that a voice is currently speaking loudly or quietly. Specifically, for example, the line thickness of the letters used can increase to increase the volume.
Die Klangfarbe einer Stimme könnte durch Schriftarten für die Schrift dargestellt werden, wobei mindestens ein bestimmt aufgemachtes Schriftzeichen einem bestimmten Frequenzbereich zugeordnet ist. So kann durch bestimmte Schriftzeichen dargestellt werden, dass eine Stimme gerade dunkel oder hell spricht.The timbre of a voice could be represented by fonts for writing, with at least one specific character assigned to a specific frequency range. Certain characters can be used to show that a voice is currently speaking in a dark or light tone.
Schriftarten für die Schrift könnten fließend ineinander übergehen. Eine Interpolation verschiedener Schriftarten, nämlich ein fließendes Übergehen von einer Schriftart zur anderen, könnte im Kontext von mehreren gleichzeitig auftretenden auditiven Eigenschaften innerhalb einer typografischen Darstellung erfolgen. So könnte beispielsweise eine leise spanische Wutrede visuell durch eine Interpolation verschiedener Schriftarten dargestellt werden. Fonts for writing could flow smoothly into one another. An interpolation of different fonts, namely a smooth transition from one font to another, could occur in the context of several simultaneously occurring auditory properties within a typographic representation. For example, a quiet angry Spanish speech could be visually represented by interpolating different fonts.
Beispielsweise könnte ein gesprochener Satz visuell sowohl Lautstärke, Emotion, als auch einen linguistischen Aspekt wiedergeben.For example, a spoken sentence could visually reflect volume, emotion, and a linguistic aspect.
Die Sprechgeschwindigkeit einer Stimme könnte durch eine Schriftart für die Schrift dargestellt werden, wobei mindestens ein bestimmt aufgemachtes Schriftzeichen einer bestimmten Sprechgeschwindigkeit zugeordnet ist. So kann durch bestimmte Schriftzeichen dargestellt werden, dass eine Stimme gerade hektisch spricht, druckst oder stottert.The speaking rate of a voice could be represented by a font for the writing, with at least one particular character being assigned to a particular speaking rate. Certain characters can be used to show that a voice is speaking frantically, printing or stuttering.
Räumliches Hören könnte durch die Ausrichtung der Schrift simuliert werden, indem die Schrift dem jeweiligen Bildrand eines Bildschirms zugeordnet wird, an dem die jeweilige stereofonische Schallquelle Audiosignale in einen Raum abgibt. So kann beispielsweise die Schrift linksbündig angeordnet werden, wenn gerade ein linker Lautsprecher Audiosignale abstrahlt, und die Schrift könnte rechtsbündig angeordnet werden, wenn ein rechter Lautsprecher Audiosignale abstrahlt. Einer hörgeschädigten Person kann so die räumliche Schallverteilung visuell dargestellt werden.Spatial hearing could be simulated by the orientation of the font by assigning the font to the respective edge of a screen on which the respective stereophonic sound source emits audio signals into a room. For example, the font could be aligned left if a left speaker is emitting audio signals, and the font could be aligned right if a right speaker is emitting audio signals. The spatial distribution of sound can be visually displayed to a hearing-impaired person.
Eine parasprachliche Eigenschaft der Stimme, die mit dem emotionalen Ausdruck einer sprechenden Figur in Verbindung steht, könnte durch Schrift dargestellt werden, wobei mindestens eine bestimmte Aufmachung der Schriftzeichen einem bestimmten emotionalen Ausdruck zugeordnet ist. Als Stimmeigenschaft oder phonetische Eigenschaft könnte eine Grundemotion, insbesondere Trauer, Angst, Wut, Freude, Zuneigung oder Ablehnung, durch eine Schriftart für die Schrift dargestellt und optisch transportiert werden. In eine Schriftart könnte beispielsweise ein grafisches Symbol integriert sein, welches einer Grundemotion zugeordnet ist. Ein solches Symbol könnte beispielsweise eine Träne sein, das der Grundemotion Trauer zugeordnet ist.A paralinguistic feature of the voice that is associated with the emotional expression of a speaking character could be represented by writing, with at least a particular appearance of the characters associated with a particular emotional expression. As a vocal property or phonetic property, a basic emotion, in particular sadness, fear, anger, joy, affection or rejection, could be represented and visually conveyed by a font for writing. For example, a graphic symbol that is assigned to a basic emotion could be integrated into a font. Such a symbol could be, for example, a tear, which is associated with the basic emotion of sadness.
Unter bestimmter Aufmachung der Schrift im Sinne dieser Beschreibung wird ein bestimmtes optisches Erscheinungsbild eines Schriftzeichens, aber auch eventuell verwendeter Piktogramme, Satz- und Sonderzeichen verstanden. For the purposes of this description, a certain presentation of the font means a certain visual appearance of a character, but also any pictograms, punctuation marks and special characters that may be used.
Durch eine Anordnung, die ein Medium umfasst, könnte ein Verfahren der hier beschriebenen Art ausgeführt werden.A method of the type described here could be carried out by an arrangement that includes a medium.
Die Anordnung könnte ein Medium umfassen, welches darstellt, wie ein von einer Einrichtung ausgeführter Algorithmus Audiosignale des Mediums, die parallel zu mindestens einem vom Medium optisch dargestellten Hintergrund in einen Raum abgestrahlt werden, in optisch dargestellte Schriftzeichen umwandelt. Mindestens eine akustische oder physikalische Eigenschaft des Audiosignals könnte optisch durch eine der jeweiligen Eigenschaft zugeordnete optische Struktur eines oder mehrerer Schriftzeichen auf dem Medium dargestellt werden.The arrangement could include a medium which represents how an algorithm executed by a device converts audio signals of the medium, which are emitted into a room parallel to at least one background optically represented by the medium, into optically represented characters. At least one acoustic or physical property of the audio signal could be represented optically by an optical structure of one or more characters on the medium that is assigned to the respective property.
Konkret könnte das Medium als Fernseher, Laptop, Computer, Bildschirm in Bus, Bahn oder Zug, oder als Mobiltelefon ausgestaltet sein. So können die auditiven Inhalte von Filmen oder Bildern mit Schrift erläutert werden, welche die Phonetik des Erläuterten transportiert.Specifically, the medium could be designed as a television, laptop, computer, screen on a bus, train or train, or as a mobile phone. In this way, the auditory content of films or images can be explained with writing that conveys the phonetics of what is being explained.
Es sollen folgende weitere Möglichkeiten und Aspekte zur oder bei der Durchführung des hier beschriebenen Verfahrens optional offenbart sein:
- Es wird ein Verfahren offenbart, welches repräsentative bildschirmoptimierte Schriftschnitte einsetzt, um eine barrierefreie Vermittlung gesprochener Sprachkultur durch Typografie zu ermöglichen. Mithilfe dieses Verfahrens wird das eindimensionale Medium Schrift um Vielschichtigkeit und Nahbarkeit bereichert und bisher unzugängliche phonetische Informationen für Hörgeschädigte transkribiert. Durch den Einsatz in Untertiteln entsteht ein tieferes Film-Erlebnis.
- A process is disclosed that uses representative, screen-optimized font styles to enable barrier-free communication of spoken language culture through typography. With the help of this process, the one-dimensional medium of writing becomes much larger layered and approachable and transcribes previously inaccessible phonetic information for the hearing impaired. Using subtitles creates a deeper film experience.
Es wird ein Verfahren zur Visualisierung von Attributen, welche ein Sprechvorgang hörbar aufweist, durch den automatisierten Einsatz mikrotypografisch unterschiedlich gestalteter, repräsentativer Schriftschnitte offenbart.A method for visualizing attributes that a speaking process audibly exhibits is disclosed through the automated use of microtypographically differently designed, representative font styles.
Das Verfahren vereinfacht, insbesondere Hörgeschädigten, die Teilhabe an der Sprachkultur, indem die abgebildete Schrift, z.B. in Untertiteln audiovisueller Medien, über die phonetischen Eigenschaften gesprochener Sprache Aufschluss gibt.The process makes it easier for people with hearing impairments to participate in linguistic culture by providing information about the phonetic properties of spoken language from the script depicted, e.g. in subtitles of audiovisual media.
Eine Ansammlung auditiver Stimuli wird nach festgelegtem Muster mit visuellen Stimuli verknüpft, indem sich einzelne der auditiven Signale durch eine
- a) Symbolik (Bedeutung) oder
- b) physikalische Verknüpfung oder
- c) konkrete Assoziation (Objekt-/Ideen-Identifikation) oder
- d) intermodale Analogie (Korrelation der Eigenschaften) oder
- e) Beobachtungen genuin synästhetischer Wahrnehmungsphänomene
- a) Symbolism (meaning) or
- b) physical connection or
- c) concrete association (object/idea identification) or
- d) intermodal analogy (correlation of properties) or
- e) Observations of genuinely synesthetic perception phenomena
Die zu berücksichtigenden Sprachaspekte beinhalten vorteilhaft
- a) die konstanten phonetischen Eigenschaften verschiedener Landessprachen, Akzente, Dialekte oder Soziolekte und
- b) konstante und temporäre individuelle Stimmeigenschaften (z.B. Sprechgeschwindigkeit, Lautstärke, Höhe, Betonung) und
- c) temporären emotionalen Ausdruck (Parasprache).
- a) the constant phonetic properties of different national languages, accents, dialects or sociolects and
- b) constant and temporary individual voice characteristics (e.g. speech rate, volume, pitch, intonation) and
- c) temporary emotional expression (paralanguage).
Die sprachlichen Einheiten, welche das Verfahren verwertet, sind in erster Linie Sätze und in Einzelfällen einzelne Wörter, um eine einheitliche Gestaltung und Lesbarkeit zu wahren.The linguistic units that the process uses are primarily sentences and, in individual cases, individual words in order to maintain uniform design and readability.
Sprachabschnitte, welche über eine hohe Konsonantendichte, darunter insbesondere Frikative und Plosive, sowie eine starke Betonung dieser Konsonanten verfügen, werden durch eine kantigere und spitzere Formgebung ausgedrückt, als Sprachabschnitte, die weich anmuten und über viele Vokale, sowie eine hohe Betonung dieser Vokale verfügen. Diese werden abgerundet und geschwungen dargestellt.Sections of language that have a high density of consonants, including especially fricatives and plosives, as well as a strong emphasis on these consonants, are expressed by a more angular and pointed shape than sections of language that appear soft and have many vowels and a high emphasis on these vowels. These are shown rounded and curved.
Zunehmende Lautstärke kann zunehmender Schriftstärke entsprechen.Increasing volume can correspond to increasing font weight.
Zunehmende Sprechgeschwindigkeit kann abnehmender Schriftbreite entsprechen.Increasing speaking speed can correspond to decreasing font width.
Zunehmende Tonhöhe kann zunehmender Oberlänge entsprechen.Increasing pitch can correspond to increasing ascender.
Passive Emotionen werden durch gegen die Leserichtung geneigte Schrift dargestellt, aktive Emotionen werden durch sich mit der Leserichtung neigende Schrift dargestellt.Passive emotions are represented by writing slanted against the direction of reading, active emotions are represented by writing slanted with the direction of reading.
Positive Emotionen werden durch sich nach oben orientierende und negative Emotionen durch sich nach unten orientierende Schrift dargestellt.Positive emotions are represented by upward-oriented writing and negative emotions are represented by downward-oriented writing.
Mit Orientierung ist die Ausrichtung einzelner Buchstabenelemente gemeint, eine entsprechende Strichführung und teilweise der Einsatz von entsprechenden Serifen.Orientation refers to the alignment of individual letter elements, appropriate strokes and, in some cases, the use of appropriate serifs.
Der gängige Winkel einer Feder von 45° drückt Harmonie und jeder abweichende Winkel, der Abweichung entsprechend zunehmende, Disharmonie aus.The usual angle of a spring of 45° expresses harmony and any deviating angle, increasing in proportion to the deviation, expresses disharmony.
Ein gleichmäßiger Strichstärkenkontrast steht für Ausgeglichenheit. Hoher Strichstärkenkontrast steht für Unausgeglichenheit.An even line width contrast represents balance. High line width contrast represents imbalance.
Buchstaben imitieren Mimik und Gestik welche mit Emotionen üblicherweise in Verbindung stehen. Auch Symbole, wie z.B. Tränen für Trauer, sind in die Buchstaben eingearbeitet.Letters imitate facial expressions and gestures that are usually associated with emotions. Symbols, such as tears for sadness, are also incorporated into the letters.
Die Statik der Buchstaben gibt die emotionale Stabilität der Sprechenden wieder. Disharmonie wird durch einen Bruch mit Sehgewohnheiten ausgedrückt.The statics of the letters reflect the emotional stability of the speakers. Disharmony is expressed through a break with viewing habits.
Der Zeichenabstand deckt sich mit der Lautdichte.The character spacing corresponds to the sound density.
Lautsprachliche Besonderheiten, z.B. »gerolltes R« oder »stummes h«, einzelner Buchstaben im jeweiligen Sprachkontext, z.B. Akzent oder Sprachfehler, finden sich im jeweiligen Schriftzeichen typografisch übersetzt wieder.Phonetic linguistic peculiarities, e.g. "rolled R" or "silent h", individual letters in the respective language context, e.g. accent or speech errors, can be found typographically translated in the respective characters.
Einzelne Glyphen erinnern an die im Heimatland der Sprache bevorzugt eingesetzten Schriftarten oder Schriften, z.B. Kyrillisch.Individual glyphs are reminiscent of the fonts or scripts preferred in the language's home country, e.g. Cyrillic.
Von der Norm abweichende An- oder Abklänge von Lauten werden durch ein - in die entsprechende Richtung deutendes - Ende des Glyphen ausgedrückt.Incidences or decays of sounds that deviate from the norm are indicated by a - in the corresponding corresponding direction - expressed at the end of the glyph.
Eine Simulation des räumlichen Hörens wird durch die Ausrichtung der Schrift bzw. des Textes am Bildrand der entsprechenden stereofonischen Lautquelle simuliert.A simulation of spatial hearing is simulated by aligning the writing or text at the edge of the image of the corresponding stereophonic sound source.
In der Zeichnung zeigt die einzige
- Fig. einen Bildschirm, auf dem als Hintergrund ein Bild oder eine Bildfolge dargestellt wird, wobei das zum Bild oder der Bildfolge Gesprochene visuell dargestellt wird und wobei das Gesprochene durch einen Lautsprecher in einen Raum durch Audiosignale abgestrahlt wird.
- Fig. a screen on which an image or a sequence of images is displayed as a background, with what is spoken about the image or the sequence of images being displayed visually and with what is spoken being broadcast through a loudspeaker into a room using audio signals.
Die einzige Figur zeigt eine Anordnung, mittels welcher ein Verfahren der nachfolgend beschriebenen Art ausgeführt wird.The only figure shows an arrangement by means of which a method of the type described below is carried out.
Die Anordnung umfasst ein Medium 1, wobei das Medium 1 darstellt, wie ein von einer Einrichtung 6 ausgeführter Algorithmus Audiosignale 5 des Mediums 1, die zeitlich parallel zu mindestens einem vom Medium 1 optisch dargestellten Hintergrund, konkret einem Bild 3, in einen Raum abgestrahlt werden, in optisch dargestellte Schriftzeichen umwandelt.The arrangement comprises a medium 1, wherein the medium 1 represents, like an algorithm carried out by a device 6, audio signals 5 of the medium 1, which are emitted into a room in parallel with at least one background optically represented by the medium 1, specifically an image 3 , converted into visually displayed characters.
Mindestens eine akustische oder physikalische Eigenschaft des Audiosignals 5 wird optisch durch eine der jeweiligen Eigenschaft zugeordnete optische Struktur eines oder mehrerer Schriftzeichen auf dem Medium 1 dargestellt.At least one acoustic or physical property of the audio signal 5 is represented optically by an optical structure of one or more characters on the medium 1 that is assigned to the respective property.
Das Medium 1 ist hier konkret ein Fernseher, auf welchem ein Verfahren der nachfolgenden Art ausgeführt wird.The medium 1 here is specifically a television on which a method of the following type is carried out.
Der Fernseher weist einen Bildschirm 2 auf, auf welchem eine Szene eines Films oder ein Bild 3 dargestellt ist, zu dem eine Stimme das im Untertitel 4 durch Schrift visuell dargestellte Gesprochene spricht.The television has a screen 2 on which a scene from a film or an image 3 is shown, to which a voice speaks what is visually represented in writing in the subtitle 4.
Das Audiosignal 5, nämlich die Stimme, die das Gesprochene spricht, ist schematisch dargestellt und wird als akustisches Signal durch einen nicht gezeigten Lautsprecher in den Raum abgestrahlt, in dem sich das Medium 1 befindet. Das akustische Signal wird mit Mitteln des Verfahrens wie folgt optisch visualisiert.The audio signal 5, namely the voice that speaks what is being spoken, is shown schematically and is emitted as an acoustic signal through a loudspeaker, not shown, into the room in which the medium 1 is located. The acoustic signal is visually visualized using the method as follows.
Bei dem Verfahren wird zu dem Bild 3 Gesprochenes visuell dargestellt, indem mindestens eine Stimmeigenschaft oder phonetische Eigenschaft der das Gesprochene sprechenden Stimme in graphisch angezeigter Schrift visuell dargestellt wird. Konkret wird dabei eine der jeweiligen Stimmeigenschaft oder phonetischen Eigenschaft zugeordnete jeweilige optische Aufmachung der Schrift verwendet.In the method, what is spoken is visually represented in the image 3 by visually representing at least one voice characteristic or phonetic characteristic of the voice speaking what is being spoken in graphically displayed font. Specifically, a respective optical presentation of the writing that is assigned to the respective voice characteristic or phonetic characteristic is used.
Mehrere oder verschiedene Stimmeigenschaften oder phonetische Eigenschaften werden durch unterschiedliche Typographien oder typografische Aufmachungen von Schriftarten für die Schrift im Untertitel 4 dargestellt. Es wird ein kompletter Satz durch die Schrift dargestellt.Multiple or different vocal characteristics or phonetic characteristics are represented by different typographies or typographical presentations of fonts for the writing in subtitle 4. A complete sentence is represented by the scripture.
Der Lautstärkenverlauf einer Stimme wird durch Schriftarten für die Schrift dargestellt, wobei mindestens ein bestimmt aufgemachtes Schriftzeichen einer bestimmten Lautstärke oder einem Lautstärkenbereich zugeordnet ist.The volume progression of a voice is represented by fonts for the writing, with at least one particular character being assigned to a specific volume or a volume range.
Durch die vom Algorithmus vorgegebenen Schriftarten für die Schrift der Wörter »dicker«, »dünner«, »breiter«, »schmaler«, »ängstlich« und »wütend« wird ausgedrückt, dass die Stimme während des Sprechens des jeweiligen Worts eine bestimmte phonetische Eigenschaft hat.The fonts specified by the algorithm for writing the words “thicker”, “thinner”, “wider”, “narrower”, “scared” and “angry” express that the voice has a certain phonetic property while speaking the respective word has.
Die Sprechgeschwindigkeit einer Stimme wird durch eine Schriftart für die Schrift im Untertitel 4 dargestellt, wobei mindestens ein bestimmt optisch aufgemachtes Schriftzeichen einer bestimmten Sprechgeschwindigkeit zugeordnet ist.The speaking speed of a voice is represented by a font for the writing in subtitle 4, with at least one visually designed character being assigned to a specific speaking speed.
Das hier beschriebene Medium 1 stellt dar, wie die Einrichtung 6 mittels des Algorithmus Audiosignale 5 des Mediums 1, nämlich die Stimme, die verknüpft zum im Medium 1 optisch dargestellten Hintergrund, nämlich zum Bild 3, in einen Raum abgestrahlt werden, in optisch dargestellte Schriftzeichen, nämlich den Untertitel 4, umwandelt.The medium 1 described here shows how the device 6 uses the algorithm to emit audio signals 5 of the medium 1, namely the voice, which are linked to the background optically displayed in the medium 1, namely to the image 3, into a room, into optically displayed characters , namely subtitle 4.
Dabei wird mindestens eine akustische oder physikalische Eigenschaft des Audiosignals 5, nämlich eine sprachliche oder Stimmeigenschaft, optisch durch eine der jeweiligen Eigenschaft zugeordnete optische Struktur, nämlich eine optische Aufmachung, eines oder mehrerer Schriftzeichen auf dem Medium 1 dargestellt.At least one acoustic or physical property of the audio signal 5, namely a linguistic or vocal property, is optically represented on the medium 1 by an optical structure assigned to the respective property, namely an optical presentation, of one or more characters.
Insoweit wird mittels der Anordnung ein Verfahren durchgeführt, bei dem zu dem Bild 3 Gesprochenes visuell dargestellt wird, indem mindestens eine Stimmeigenschaft oder phonetische Eigenschaft der das Gesprochene sprechenden Stimme in graphisch angezeigter Schrift visuell dargestellt wird. Konkret wird dabei eine der jeweiligen Stimmeigenschaft oder phonetischen Eigenschaft zugeordnete jeweilige optische Aufmachung der Schrift verwendet.In this respect, the arrangement is used to carry out a method in which what is spoken is visually represented in the image 3 by visually representing at least one voice characteristic or phonetic characteristic of the voice speaking what is being spoken in graphically displayed font. Specifically, a respective optical presentation of the writing that is assigned to the respective voice characteristic or phonetic characteristic is used.
BezugszeichenReference symbols
- 11
- Mediummedium
- 22
- BildschirmScreen
- 33
- Bild, Film oder optischer HintergrundImage, film or optical background
- 44
- Untertitel mit SchriftSubtitles with font
- 55
- AudiosignalAudio signal
- 66
- Einrichtung, von der ein Algorithmus ausgeführt wirdDevice from which an algorithm is executed
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102022108033.1A DE102022108033A1 (en) | 2022-04-04 | 2022-04-04 | Method for visually representing speech and an arrangement for carrying out the method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102022108033.1A DE102022108033A1 (en) | 2022-04-04 | 2022-04-04 | Method for visually representing speech and an arrangement for carrying out the method |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102022108033A1 true DE102022108033A1 (en) | 2023-10-05 |
Family
ID=88019230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102022108033.1A Pending DE102022108033A1 (en) | 2022-04-04 | 2022-04-04 | Method for visually representing speech and an arrangement for carrying out the method |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102022108033A1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001095631A2 (en) | 2000-06-09 | 2001-12-13 | British Broadcasting Corporation | Generation subtitles or captions for moving pictures |
US20200105263A1 (en) | 2018-09-28 | 2020-04-02 | Benjamin E. Barrowes | Method for graphical speech representation |
EP3787285A1 (en) | 2018-05-29 | 2021-03-03 | Sony Corporation | Image processing device, image processing method, and program |
-
2022
- 2022-04-04 DE DE102022108033.1A patent/DE102022108033A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001095631A2 (en) | 2000-06-09 | 2001-12-13 | British Broadcasting Corporation | Generation subtitles or captions for moving pictures |
EP3787285A1 (en) | 2018-05-29 | 2021-03-03 | Sony Corporation | Image processing device, image processing method, and program |
US20200105263A1 (en) | 2018-09-28 | 2020-04-02 | Benjamin E. Barrowes | Method for graphical speech representation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60203705T2 (en) | DESCRIPTION AND DISPLAY OF A PRESENT LANGUAGE SIGNAL | |
DE602004010069T2 (en) | DEVICE AND METHOD FOR TINTING LANGUAGES, AS WELL AS A KEYBOARD FOR OPERATING SUCH A DEVICE | |
EP1282112A2 (en) | Method of supporting proofreading of a recognized text in a speech to text system with playback speed adapted to confidence of recognition | |
Stibbard | The spoken English of Hong Kong: A study of co-occurring segmental errors | |
EP1058235B1 (en) | Reproduction method for voice controlled systems with text based speech synthesis | |
DE102020134752B4 (en) | METHOD OF EVALUATING THE QUALITY OF READING A TEXT, COMPUTER PROGRAM PRODUCT, COMPUTER READABLE MEDIA AND EVALUATION DEVICE | |
Olaniyi | The taxonomy of Nigerian varieties of spoken English | |
DE102022108033A1 (en) | Method for visually representing speech and an arrangement for carrying out the method | |
DE10204924A1 (en) | Method and device for the rapid pattern recognition-supported transcription of spoken and written utterances | |
DE3105518A1 (en) | METHOD FOR SYNTHESIS OF LANGUAGE WITH UNLIMITED VOCUS, AND CIRCUIT ARRANGEMENT FOR IMPLEMENTING THE METHOD | |
JP6126339B2 (en) | Chinese teaching materials | |
Elumalai et al. | English Language Pronunciation Barriers Encountered by the Expatriate Students at King Saud University, Riyadh. | |
WO2006105897A1 (en) | Electronic reading aid and method that uses an electronic reading aid | |
Qian | Phonological features of China English: An acoustic investigation on segmental features of educated China English speakers | |
Mackert | Franz Boas’ theory of phonetics | |
Herlina | Phonological Analysis of University Students’ Spoken Discourse | |
DE19939947C2 (en) | Digital speech synthesis process with intonation simulation | |
Peerachachayanee | Towards the phonology of Thai English | |
Aziz et al. | Phonemic Analysis of English Suprasegmental Features Produced by the Students of Kresna English Institute | |
Anwar | Learners' Problem in Phonetics with the Intelligibility at Segmental and Supra-segmental Level | |
Kilarski et al. | On extremes in linguistic complexity: Phonetic accounts of Iroquoian, Polynesian and Khoesan | |
Vadakalur Elumalai et al. | English Language Pronunciation Barriers Encountered by the Expatriate Students at King Saud University, Riyadh | |
Perry | DAVID ODDEN, Introducing phonology, 2nd edn. Cambridge: Cambridge University Press, 2013. Pp. xii+ 338. ISBN 978-1-107-62797-0 | |
Wahyuningrum | Segmental Sound Changes Produced by Madurese EFL Learners | |
Juan-Checa | Comparing phonetic difficulties by EFL learners from Spain and Japan. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R082 | Change of representative |
Representative=s name: BOEHMERT & BOEHMERT ANWALTSPARTNERSCHAFT MBB -, DE |
|
R082 | Change of representative |
Representative=s name: BOEHMERT & BOEHMERT ANWALTSPARTNERSCHAFT MBB -, DE |