DE102014203818A1 - Verfahren und Vorrichtung zum Umwandeln von Sprachsignalen in Text - Google Patents

Verfahren und Vorrichtung zum Umwandeln von Sprachsignalen in Text Download PDF

Info

Publication number
DE102014203818A1
DE102014203818A1 DE102014203818.9A DE102014203818A DE102014203818A1 DE 102014203818 A1 DE102014203818 A1 DE 102014203818A1 DE 102014203818 A DE102014203818 A DE 102014203818A DE 102014203818 A1 DE102014203818 A1 DE 102014203818A1
Authority
DE
Germany
Prior art keywords
audio
text
signal
video signal
time information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102014203818.9A
Other languages
English (en)
Inventor
Achim Gleissner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sennheiser Electronic GmbH and Co KG
Original Assignee
Sennheiser Electronic GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sennheiser Electronic GmbH and Co KG filed Critical Sennheiser Electronic GmbH and Co KG
Priority to DE102014203818.9A priority Critical patent/DE102014203818A1/de
Priority to PCT/EP2015/054427 priority patent/WO2015132263A1/de
Publication of DE102014203818A1 publication Critical patent/DE102014203818A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Abstract

Es wird ein Verfahren zum Umwandeln von Sprache in einem Audiosignal oder Audio-/Videosignal in Text vorgesehen. Ein erfasstes oder gespeichertes Audiosignal oder Audio-/Videosignal wird analysiert. Die Sprache in dem Audiosignal oder Audio-/Videosignal wird in Textinformationen umgewandelt. Die Zeitinformationen des Audiosignals oder des Audio-/Videosignals werden den Textinformationen zugeordnet.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Umwandeln von Sprachsignalen in Text.
  • Die Umwandlung von Sprachsignalen in Text ist seit längerem bekannt und wird in vielen Bereichen, z. B. bei einer Diktatsoftware, aber auch zwischenzeitlich bei Smartphones verwendet.
  • Es ist eine Aufgabe der vorliegenden Erfindung, ein verbessertes Verfahren und eine verbesserte Vorrichtung zum Umwandeln von Sprachsignalen in Text vorzusehen.
  • Diese Aufgabe wird durch ein Verfahren zum Umwandeln von Sprachsignalen in Text nach Anspruch 1 und durch eine entsprechende Vorrichtung nach Anspruch 5 gelöst.
  • Somit wird ein Verfahren zum Umwandeln von Sprache in einem Audiosignal oder einem Audio-/Videosignal in Text vorgesehen. Dies erfolgt durch Analysieren eines erfassten oder gespeicherten Audiosignals oder Audio-/Videosignals. Das Audiosignal oder das Audio-/Videosignal verfügt über Zeitinformationen. Sprache in dem Audiosignal oder in dem Audio-/Videosignal wird in Textinformation umgewandelt. Die Zeitinformationen des Audiosignals oder des Audio-/Videosignals werden den umgewandelten Textinformationen zugeordnet. Damit wird eine eindeutige Zuordnung von Textinformationen zu dem Zeitpunkt vorgesehen, an welchem die Textinformationen als Sprache in dem Audiosignal oder dem Audio-/Videosignal auftauchen. Damit wird eine einfache Recherchierbarkeit der Sprachinformationen in Audiosignalen oder in Audio-/Videosignalen ermöglicht.
  • Gemäß einem Aspekt der vorliegenden Erfindung werden die Zeitinformationen des Audiosignals oder des Audio-/Videosignals als Metadaten in die Textinformationen eingebettet, d. h. die Zeitinformationen (nämlich die Information, wann ein Text in dem Audiosignal oder in dem Audio-/Videosignal auftaucht) werden mit den Textinformationen fest verknüpft.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung erfolgt ein Analysieren der umgewandelten Textinformationen im Hinblick auf mindestens einen Suchbegriff. Die Zeitinformationen des Suchbegriffes in dem Text werden ausgegeben, welche den Zeitinformationen des Audiosignals oder des Audio-/Videosignals an der Stelle entsprechen, wo dieser Suchbegriff im Text auftaucht. Wenn z. B. der Suchbegriff „Sennheiser” eingegeben wird, dann werden die umgewandelten Textinformationen nach diesem Suchbegriff durchsucht. Wenn der Begriff „Sennheiser” in den Textinformationen auftaucht, dann wird die dazugehörige Zeitinformation, nämlich die Zeitangabe, wann dieser Begriff in dem Audiosignal oder dem Audio-/Videosignal auftaucht, ausgegeben.
  • Die Erfindung betrifft ebenfalls eine Vorrichtung zum Umwandeln von Sprache in einem Audiosignal oder in einem Audio-/Videosignal in Text. Dazu weist die Vorrichtung eine Analyseeinheit zum Analysieren des erfassten oder gespeicherten Audiosignals oder Audio-/Videosignals auf. Das Audiosignal oder das Audio-/Videosignal verfügt über Zeitinformationen (beispielsweise ein Zeitcode oder Timestamp). Die Vorrichtung weist ferner eine Umwandlungseinheit zum Umwandeln der Sprache in dem Audiosignal oder dem Audio-/Videosignal in Textinformationen auf. Ferner weist die Vorrichtung eine Zuordnungseinheit zum Zuordnen der Zeitinformationen des Audiosignals oder des Audio-/Videosignals zu den Zeitinformationen auf.
  • Die vorliegende Erfindung betrifft den Gedanken, bei der Umwandlung von Sprachsignalen in Text die in dem Sprachsignal vorhandenen Zeitinformationen z. B. als Metadaten in die Textdaten einzubetten. Somit weisen die Textdaten auch eine Zeitinformation (z. B. einen Timecode, Timestamp oder eine Stoppuhr) auf, welche der Zeitinformation des Audio-/Videosignals entspricht. Somit kann eine Stelle des umgewandelten Textes ohne Weiteres einer Stelle des Audiosignals oder des Audio-/Videosignals zugeordnet werden. Wenn somit eine Stelle des umgewandelten Textes ausgewählt wird, dann kann anhand der Zeitinformationen die entsprechende Stelle des Audiosignals oder des Audio-/Videosignals ausgewählt und wiedergegeben werden. Somit wird eine effektive Möglichkeit der zeitgenauen Wiedergabe einer gewünschten Stelle des Audio-/Videosignals ermöglicht.
  • Somit betrifft die Erfindung ein Verfahren zum Umwandeln von Sprachsignalen in Text. Ein Audio- oder ein Audio-/Videosignal wird zusammen mit den Zeitinformationen (time code, time stamp, Uhr etc.) erfasst oder das Verfahren greift auf ein gespeichertes Audio- und/oder Videosignal mit Zeitinformationen zu. Die Sprachsignale werden nach Sprache analysiert und unter Berücksichtigung der Zeitinformationen in Text umgewandelt. Die Zeitinformationen des Sprachsignals werden dem umgewandelten Text zugeordnet, so dass der umgewandelte Text Metadaten (nämlich Zeitinformationen) aufweist. Diese Metadaten (Zeitinformationen) ermöglichen eine direkte Zuordnung einer Textstelle zu der entsprechenden Stelle bzw. Zeit in dem Audio- und/oder Videosignal. Mit dem erfindungsgemäßen Verfahren ist es somit möglich, den umgewandelten Text nach Stichworten zu recherchieren und dann mit Hilfe der Metadaten (Zeitinformationen) genau an diese Stelle in dem Audio- und/oder Videosignal zu springen und das Audio- und/oder Videosignal dann an dieser Stelle wiederzugeben.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren zum Analysieren eines Audiosignals oder eines Audio-/Videosignals nach Sprache vorgesehen. Hierbei wird Sprache in dem Audiosignal oder in dem Audio-/Videosignal in Text gemäß einem oben beschriebenen Verfahren umgewandelt.
  • Mit dem erfindungsgemäßen Verfahren kann eine Textdatei erzeugt werden, welche Metadaten z. B. in Form von einem Zeitcode, Timestamp oder Zeitinformationen aufweist. Mit dem erfindungsgemäßen Verfahren wird eine neue Referenzierbarkeit von Audio- und/oder Videosignalen ermöglicht. Durch die Recherchierbarkeit des umgewandelten Textes und der damit assoziierten Zeitinformationen lässt sich der Text recherchieren und wenn die entsprechende Textstelle gefunden ist, dann kann anhand der damit assoziierten Zeitinformation die entsprechende Stelle des Audio-/Videosignals gefunden und wiedergegeben werden.
  • Dies ist insbesondere vorteilhaft, da damit eine Recherchierbarkeit von Audiosignalen oder Audio-/Videosignalen gegeben ist. Dies kann insbesondere vorteilhaft sein im Broadcast-Bereich, d. h. bei Rundfunk- und TV-Ausstrahlungen.
  • Weitere Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
  • Vorteile und Ausführungsbeispiele der Erfindung werden nachstehend unter Bezugnahme auf die Zeichnung näher erläutert.
  • 1 zeigt ein Flussablaufdiagramm eines Verfahrens zum Umwandeln von Sprache in Text gemäß einem ersten Ausführungsbeispiel,
  • 2 zeigt ein Blockschaltbild einer Vorrichtung zum Umwandeln von Sprache in Text, und
  • 3A3C zeigen eine Darstellung zur Veranschaulichung des erfindungsgemäßen Verfahrens.
  • 1 zeigt ein Flussablaufdiagramm eines Verfahrens zum Umwandeln von Sprache in Text gemäß einem ersten Ausführungsbeispiel. In Schritt S1 wird ein erfasstes oder gespeichertes Audio- und/oder Videosignal insbesondere im Hinblick auf Sprache analysiert. Die Sprache in dem Audiosignal oder dem Audio-/Videosignal AS wird in Text T (Textinformationen) in Schritt S2 umgewandelt. Das Audiosignal oder das Audio-/Videosignal weist Zeitinformationen ZI auf, welche beispielsweise eine mitlaufende Uhr, einen Zeitcode oder Timestamp darstellen können. In Schritt S3 wird die Zeitinformation ZI des Audiosignals oder des Audio-/Videosignals AS dem umgewandelten Text T als Text-Zeit-Information TZI zugeordnet. Bei der Umwandlung der Sprache in Text wird der Timestamp bzw. die Zeitinformation mit berücksichtigt und z. B. als Metadaten des Textes mit aufgenommen. Somit ist jeder Stelle des Textes T auch eine Zeitinformation ZTI zugeordnet.
  • 2 zeigt ein schematisches Blockschaltbild einer Vorrichtung zum Umwandeln von Sprache in Text. Die Vorrichtung weist eine Analyseeinheit AE auf, welche z. B. den Schritt S1 von 1 durchführt und damit das Audiosignal oder das Audio-/Videosignal AS nach Sprachsignalen analysiert. Die Vorrichtung weist ferner eine Umwandlungseinheit UE auf, welche die Sprache aus dem Audiosignal oder Audio-/Videosignal AS in Text T umwandelt. Die Vorrichtung weist ferner eine Zuordnungseinheit ZE auf, welche die Zeitinformation ZI des Audiosignals oder des Audio-/Videosignals AS dem umgewandelten Text T als Text-Zeit-Information TZI zuordnet.
  • 3A3C zeigen eine Darstellung zur Veranschaulichung des erfindungsgemäßen Verfahrens. In 3A ist ein Audiosignal AS mit seinen Zeitinformationen ZI gezeigt. Die Zeitinformationen stellen dabei eine mitlaufende Uhr da. Das Audiosignal AS wird in einen Text T (Lorem ipsum dolor sit amet, consectetur adipisici elit, sed eiusmod tempor incidunt ut labore et dolore) umgewandelt. Damit stellt 3A den Stand der Technik dar.
  • In 3B ist das Audiosignal AS mit seinen Zeitinformationen ZI und der umgewandelte Text T mit den assoziierten Zeitinformationen TZI gezeigt. In 3B ist somit erfindungsgemäß dem umgewandelten Text T eine Zeitinformation TZI zugeordnet. Somit ist die mitlaufende Uhr diesem Text zugeordnet bzw. als Metadaten in den Text eingebettet.
  • 3C zeigt eine Textsuche. Hierbei wurde beispielsweise das Wort „labore” gesucht. Dieses Wort taucht bei 13 Sekunden auf. Ausgehend von diesen Zeitinformationen kann dann auf das Audiosignal AS genau bei diesem Zeitpunkt, nämlich bei 13 Sekunden, zugegriffen werden. Hierbei kann dann das Audiosignal wiedergegeben werden.
  • Somit kann gemäß der Erfindung eine leichte Recherchierbarkeit und Zuordbarkeit der Audiosignale oder Audio-/Videosignale ermöglicht werden.
  • Gemäß der Erfindung wird ein Zeitsignal in den umgewandelten Text eingebettet. Damit ist eine Verbindung zwischen dem Audiosignal und dem umgewandelten Text im Sinne einer Referenzierungsinformation möglich.
  • Die Erfindung betrifft den Gedanken, dass ein Audiosignal oder Audio-/Videosignal nicht ohne Weiteres nach bestimmten Begriffen recherchiert werden kann. Dies ist jedoch sehr wohl möglich, wenn die Sprache in dem Audiosignal oder dem Audio-/Videosignal in Text umgewandelt worden ist. Gemäß der Erfindung weist der umgewandelte Text Metadaten z. B. hinsichtlich der Zeitinformation des Audiosignals oder Audio-/Videosignals auf. Somit wird die Zeitinformation des Audiosignals in die Textinformation bzw. die Textdatei übertragen und eingebettet.
  • Gemäß der Erfindung kann wie in 3C gezeigt dann nach bestimmten Begriffen recherchiert werden und wenn ein Begriff in dem Text T gefunden wird, dann kann anhand der dazugehörigen Metadaten auf die Zeitinformation geschlossen werden, wann dieser Begriff in dem Audiosignal vorhanden ist. Anschließend kann das Audio- und/oder Videosignal genau an dieser Stelle wiedergegeben werden.
  • Gemäß der Erfindung kann ein Dateiformat vorgesehen werden, bei welchem mehrere Audiosignale oder Audio-/Videospuren vorgesehen sind. Zusätzlich dazu kann eine Textspur zeitsynchron angezeigt werden. Dies kann beispielsweise so erfolgen, dass die Wortanfänge entsprechend zugeordnet sind.

Claims (5)

  1. Verfahren zum Umwandeln von Sprache in einem Audiosignal oder einem Audio-/Videosignal in Text, mit den Schritten: Analysieren eines erfassten oder gespeicherten Audiosignals oder eines Audio-/Videosignals, wobei das Audiosignal oder Audio-/Videosignal über Zeitinformationen verfügt, Umwandeln von Sprache in dem Audiosignal oder Audio-/Videosignal in Textinformationen, und Zuordnen der Zeitinformationen des Audiosignals oder Audio-/Videosignals zu den umgewandelten Textinformationen.
  2. Verfahren nach Anspruch 1, wobei die Zeitinformationen des Audiosignals oder des Audio-/Videosignals als Metadaten in die Textinformation eingebettet werden.
  3. Verfahren nach Anspruch 1 oder 2, ferner mit den Schritten: Analysieren der umgewandelten Textinformationen im Hinblick auf mindestens einen Suchbegriff, und Ausgeben von Zeitinformationen des Suchbegriffes in dem Text, welche den Zeitinformationen des Audiosignals oder des Audio-/Videosignals an der Stelle entsprechen, wo dieser Suchbegriff im Text auftaucht.
  4. Verfahren zum Analysieren eines Audiosignals oder eines Audio-/Videosignals nach in diesem Signal enthaltenen Sprachinformationen, wobei die Sprache in dem Audiosignal oder in dem Audio-/Videosignal mittels eines Verfahrens nach einem der Ansprüche 1 bis 3 in Text umgewandelt wird.
  5. Vorrichtung zum Umwandeln von Sprache in einem Audiosignal oder Audio-/Videosignal in Text, mit einer Analyseeinheit (AE) zum Analysieren eines erfassten oder gespeicherten Audiosignals oder Audio-/Videosignals, wobei das Audiosignal oder das Audio-/Videosignal über Zeitinformationen verfügt, einer Umwandlungseinheit (UE) zum Umwandeln der Sprache in dem Audiosignal oder dem Audio-/Videosignal in Textinformationen, und einer Zuordnungseinheit (ZE) zum Zuordnen der Zeitinformationen des Audiosignals oder des Audio-/Videosignals zu den Textinformationen.
DE102014203818.9A 2014-03-03 2014-03-03 Verfahren und Vorrichtung zum Umwandeln von Sprachsignalen in Text Withdrawn DE102014203818A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102014203818.9A DE102014203818A1 (de) 2014-03-03 2014-03-03 Verfahren und Vorrichtung zum Umwandeln von Sprachsignalen in Text
PCT/EP2015/054427 WO2015132263A1 (de) 2014-03-03 2015-03-03 Verfahren und vorrichtung zum umwandeln von sprachsignalen in text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102014203818.9A DE102014203818A1 (de) 2014-03-03 2014-03-03 Verfahren und Vorrichtung zum Umwandeln von Sprachsignalen in Text

Publications (1)

Publication Number Publication Date
DE102014203818A1 true DE102014203818A1 (de) 2015-09-03

Family

ID=52633256

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102014203818.9A Withdrawn DE102014203818A1 (de) 2014-03-03 2014-03-03 Verfahren und Vorrichtung zum Umwandeln von Sprachsignalen in Text

Country Status (2)

Country Link
DE (1) DE102014203818A1 (de)
WO (1) WO2015132263A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895575A (zh) * 2018-08-24 2020-03-20 阿里巴巴集团控股有限公司 一种音频处理方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051985A (zh) * 2019-12-26 2021-06-29 深圳云天励飞技术有限公司 信息提示方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT6921U1 (de) * 2002-11-28 2004-05-25 Sail Labs Technology Ag Verfahren zur automatischen übereinstimmung von audio-segmenten mit textelementen

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100929688B1 (ko) * 2007-02-12 2009-12-03 주식회사 이지씨앤씨 음성 데이터를 이용하여 멀티미디어 데이터 파일의 인덱싱정보를 생성하는 시스템 및 방법과 멀티미디어 데이터파일의 인덱싱 정보를 검색하는 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT6921U1 (de) * 2002-11-28 2004-05-25 Sail Labs Technology Ag Verfahren zur automatischen übereinstimmung von audio-segmenten mit textelementen

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895575A (zh) * 2018-08-24 2020-03-20 阿里巴巴集团控股有限公司 一种音频处理方法及装置
CN110895575B (zh) * 2018-08-24 2023-06-23 阿里巴巴集团控股有限公司 一种音频处理方法及装置

Also Published As

Publication number Publication date
WO2015132263A1 (de) 2015-09-11

Similar Documents

Publication Publication Date Title
DE102004023436B4 (de) Vorrichtung und Verfahren zum Analysieren eines Informationssignals
EP3317878A1 (de) Verfahren und vorrichtung zum erzeugen einer datenbank
EP2448240A3 (de) GPS/Video-Datenkommunikationssystem, Datenkommunikationsverfahren, sowie Vorrichtung zur Verwendung in einem GPS/Video-Datenkommunikationssystem
DE112013000760B4 (de) Automatisches korrigieren von Sprechfehlern in Echtzeit
EP2047668B1 (de) Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe
DE102014203818A1 (de) Verfahren und Vorrichtung zum Umwandeln von Sprachsignalen in Text
DE102014200570A1 (de) Verfahren und System zur Erzeugung eines Steuerungsbefehls
DE102019126688A1 (de) System und verfahren zur automatischen untertitelanzeige
EP3833052A1 (de) Verfahren zum trainieren eines hörsituationen-klassifikators für ein hörgerät
DE10311581A1 (de) Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen
DE102007006841A9 (de) Digitales BDA-Signalverarbeitungssystem für Microsoft Windows, und Verarbeitungsverfahren dafür
EP1433328A1 (de) Verfahren zur umwandlung eines video- und/oder audio-datenstromes
EP1363271A1 (de) Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE102013102992A1 (de) Szenenaufbausystem und - verfahren durch Szenenausschnitte sowie deren Aufzeichnungsmedien
DE102018133453A1 (de) Verfahren und Vorrichtung zum Überwachen eines Insassen eines Fahrzeugs
WO2019081633A1 (de) Synchronisiertes aufnehmen von video und audio mit drahtlos verbundenen video- und audioaufnahmevorrichtungen
DE102021130955A1 (de) Computer-implementiertes Videokonferenz-Verfahren
EP3020039B1 (de) Verfahren und einrichtung zur identifizierung und ausgabe des inhalts eines hinweistextes
DE102012105043B4 (de) Streckenvorschau
DE102015106420A1 (de) Verfahren und Vorrichtung zur Entwicklung eines Simulators für ein Fahrzeug
DE102020114845A1 (de) Verfahren zur Ermittlung wenigstens einer eine Videolatenz beschreibenden Latenzinformation in einer Bildaufnahme- und Anzeigeanordnung und Messvorrichtung
DE102014108371B4 (de) Verfahren zur Sprachsteuerung von unterhaltungselektronischen Geräten
DE102022002561A1 (de) Verfahren zum Anbinden eines Fahrzeugs an das lnternet
EP4040433A1 (de) Dynamische generierung einer kette von funktionsmodulen eines virtuellen assistenten
DE1926362C (de) Einrichtung zur Sprachanalyse und synthe se nach dem Vocoderpnnzip

Legal Events

Date Code Title Description
R163 Identified publications notified
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee