CZ27055U1 - Zařízení a systém pro převod řeči do textu v reálném čase - Google Patents

Zařízení a systém pro převod řeči do textu v reálném čase Download PDF

Info

Publication number
CZ27055U1
CZ27055U1 CZ2013-28130U CZ201328130U CZ27055U1 CZ 27055 U1 CZ27055 U1 CZ 27055U1 CZ 201328130 U CZ201328130 U CZ 201328130U CZ 27055 U1 CZ27055 U1 CZ 27055U1
Authority
CZ
Czechia
Prior art keywords
module
language
words
repository
text
Prior art date
Application number
CZ2013-28130U
Other languages
English (en)
Inventor
Aleš Pražák
Zdeněk Loose
Jan Vaněk
Luděk Müller
Josef Psutka
Josef V. Psutka
Original Assignee
Speechtech, S.R.O.
Západočeská Univerzita V Plzni
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Speechtech, S.R.O., Západočeská Univerzita V Plzni filed Critical Speechtech, S.R.O.
Priority to CZ2013-28130U priority Critical patent/CZ27055U1/cs
Publication of CZ27055U1 publication Critical patent/CZ27055U1/cs

Links

Landscapes

  • Machine Translation (AREA)

Description

Zařízení a systém pro převod řeči do textu v reálném čase
Oblast techniky
Technické řešení se týká zařízení a systému pro převod řeči do textu v reálném čase, tzn. převádějící řeč do textové podoby průběžně tak, jak jsou slova vyřčena, s prodlevou maximálně jednoho slova.
Dosavadní stav techniky
Současná zařízení pro převod řeči do textu v reálném čase obsahují předem daná slova a slovní tvary, na které mohou převést lidskou řeč. Všechna tato slova jsou nejprve získána z velkého množství „zdrojových“ textů a uložena do tzv. jazykového modulu včetně jejich výslovností a statistik jejich řazení ve větách. Pro odlišení bude takto získaný jazykový modul dále označován jako „ústřední jazykový modul“. Protože ale ve zdrojových textech (tj. textech dostupných z libovolných zdrojů - veřejných i neveřejných, knih, publikací, přepisů lidské řeči, elektronických textových záznamů apod.) nikdy nejsou přítomna všechna možná slova a slovní tvary daného jazyka (pro češtinu minimálně 5 milionů běžných slov a jejich slovních tvarů), některá málo častá slova a slovní tvary není možno současnými zařízeními do textu převést. Častými chybějícími slovy jsou například jména a příjmení osob, názvy měst nebo ulic, názvy firem atd. Ačkoliv se některá z těchto slov ve zdrojových textech vyskytla, málokdy jsou v zařízení pro převod řeči do textu přítomny všechny jejich slovní tvary. Důsledkem je schopnost převodu slova např. v prvním pádu, ale nemožnost převodu v některých dalších slovních tvarech.
Další omezení počtu slov a slovních tvarů, které současná zařízení mohou převést, vyplývá z požadavku na převod v reálném čase, a tedy z požadavku na výkon takového zařízení. Z tohoto důvodu současná zařízení pro převod řeči do textu v reálném čase pracují ve svém ústředním jazykovém modulu s maximálně několika sty tisíci slov a slovních tvarů, protože jejich výkon neumožňuje použít větší objem dat. To má za následek chybu převodu při vyslovení málo častého, pro zařízení neznámého, slova či slovního tvaru.
Pro dosažení vysoké přesnosti převodu řeči do textu současná zařízení využívají statistiky řazení slov ve větě (tzv. jazykový model). Tyto statistiky jsou získány spolu s jednotlivými slovy a slovními tvary z velkého množství zdrojových textů. Ačkoliv většina zařízení pro převod řeči do textu umožňuje uživateli přidávání malého množství slov, k těmto slovům nejsou k dispozici statistiky jejich řazení ve větě (protože tato slova nebyla přítomna ve zdrojových textech), což snižuje úspěšnost jejich převodu.
Doposud není známo zařízení pro převod řeči do textu pracující v reálném čase, které by umožnilo převádět i slova, která nebyla přítomna ve zdrojových textech při vytváření ústředního jazykového modulu, a to ve všech slovních tvarech včetně využití statistik jejich řazení ve větě.
Podstata technického řešení
Podstatou technického řešení je zařízení pro převod řeči do textu v reálném čase. Zařízení obsahuje hardwarovou výpočetní jednotku a úložiště ve formě ústředního jazykového modulu. Výpočetní jednotkou může být například PC, mobilní telefon nebo tablet. Ústřední jazykový modul je sestaven na základě trénovacích textů. Dále obsahuje nejméně jedno úložiště ve formě expertního jazykového modulu, které obsahuje slova a/nebo jejich tvary ze skupiny, která nebyla pozorována v trénovacích textech a nejsou obsažena v úložišti ve formě ústředního jazykového modulu. Tato slova mají ve formě atributů přiřazenou statistiku řazení ve větách.
Je výhodné, pokud úložiště ve formě expertního jazykového modulu obsahuje různé alternativní výslovnosti slov v něm obsažených.
Systém pro převod řeči do textu v reálném čase, obsahující shora popsaného zařízení, obsahuje řídicí modul, vyhodnocovací modul, úložiště ve formě ústředního jazykového modulu, akustický modul, vstupní modul, výstupní modul, zobrazovací modul, zvukový modul, komunikační mo-1 CZ 27055 Ul dul, ovládací modul a výukový modul. Dále obsahuje nejméně jedno úložiště ve formě expertního jazykového modulu. Úložiště ve formě expertního jazykového moduluje připojeno k řídicímu modulu a k vyhodnocovacímu modulu.
Ve variantním provedení systém dále může obsahovat hardwarový urychlovací modul. Urychlovací modul je v takovém případě připojený k vyhodnocovacímu modulu, akustickému modulu a řídicímu modulu.
V dalším variantním provedení může dále obsahovat modul zespisovnění. Modul zespisovnění je v takovém případě připojený k nejméně jednomu úložišti ve formě expertního jazykového modulu a k úložišti ve formě ústředního jazykového modulu.
Zařízení podle předkládaného technického řešení díky svému konstrukčnímu řešení umožňuje převod řeči do textu v reálném čase, tzn., převádí řeč do textové podoby průběžně tak, jak jsou slova vyřčena, s prodlevou maximálně jednoho slova. Zařízení má k dispozici ústřední jazykový modul obsahující až několik milionů slov a slovních tvarů včetně statistik jejich řazení ve větě. Inovativně zařízení obsahuje jeden nebo více expertních jazykových modulů, přičemž každý jeden může obsahovat dalších až několik milionů slov a slovních tvarů včetně statistik jejich řazení ve větách.
Jednotlivé expertní jazykové moduly je vhodné, ne však nezbytné, vytvářet pro ucelené kategorie slov (například jména osob, ulic, názvy měst apod.). Každý expertní jazykový modul obsahuje úplný výčet slov a všech jejich slovních tvarů v dané kategorii, tedy i těch, která nebyla přítomna ve zdrojových textech. Pro všechny slovní tvary jsou ručně expertně (nikoliv automaticky) definovány výslovnostní odchylky. Příkladem může být expertní jazykový modul obsahující všechna mužská příjmení osob s českou národností. Pro každé příjmení jsou obsaženy slovní tvary v sedmi gramatických pádech základních a šesti pádech přivlastňovacích (celkem přes dva miliony slovních tvarů). Pro příjmení, která se nevyslovují stejně, jako se píší (např. příjmení s cizím původem), jsou definovány možné výslovnosti. Expertní jazykový modul dále obsahuje statistiky řazení každého slova a slovního tvaru ve větě, a to na základě expertně definovaných morfologických značek.
Z omezení množství slov v současných zařízeních, popsaného v kapitole Dosavadní stav techniky, vyplývá, že není možno všechna slova a slovní tvary z expertních jazykových modulů přidat do ústředního jazykového modulu a využít je tak při převodu řeči do textu v reálném čase. Tím spíše není možno využít ani statistiky jejich řazení ve větě. Využitím masivní paralelizace ve vyhodnocovacím modulu (který má na starosti určení nejpravděpodobněji vyřčených slov) a retrospektivních technik rozhodování lze kombinovat informace z ústředního jazykového modulu a expertních jazykových modulů již na úrovni slovních hypotéz. Retrospektivní technikou je například zpětné reskórování hypotéz. S využitím expertních statistik řazení přidaných slov a slovních tvarů je tak dosaženo vyšší úspěšnosti převodu řeči do textu, než poskytují současná zařízení. Zařízení umožňuje slova z expertního jazykového modulu převést i s využitím zmíněných statistik řazení slov ve větě, což zvyšuje úspěšnost převodu řeči do textu. Toho je dosaženo paralelním využitím expertních jazykových modulů až ve chvíli, kdy jsou vyslovena slova, která nejsou obsažena v ústředním jazykovém modulu.
Tímto způsobem je několikanásobně navýšeno množství slov, která mohou být předmětným zařízením převedena z řeči do textu.
V systému pro převod řeči do textu v reálném čase, s výhodou zařízení podle shora uvedeného popisu, jsou použity následující moduly:
- Řídicí modul - na základě vstupů uživatele přes ovládací modul řídí vyhodnocovací modul a využití expertních jazykových modulů. Zároveň je řízen zvukový vstupní modul a výstupní modul v podobě obrazového nebo zvukového výstupu. Dále je řízen případně užitý urychlovací modul nebo další hardware přes komunikační modul.
- Vyhodnocovací modul - na základě pravděpodobností akustického modulu, ústředního jazykového modulu a expertních jazykových modulů určuje slova, která byla řečena. K vyhodnocení
-2CZ 27055 Ul je využit tzv. Viterbiho algoritmus a retrospektivní techniky rozhodování. Pro zvýšení výkonu může být využit urychlovací modul.
- Ústřední jazykový modul - obsahuje slova a slovní tvary, včetně statistik jejich řazení ve větě.
- Expertní jazykové moduly 1 až N - obsahují úplný výčet slov a všech jejich slovních tvarů v daných kategoriích, a to včetně statistik jejich řazení ve větě a případně i různých výslovností.
- Akustický modul - na základě vstupního řečového signálu ze vstupního modulu určuje pravděpodobnost shody s předem vytvořenými modely fonémů použitého jazyka (Skryté Markovovy modely). Pro zvýšení výkonu může být využit urychlovací modul.
- Vstupní modul - obstarává vstupní řečový signál z mikrofonu nebo z předem vytvořené nahrávky.
- Výstupní modul - zajišťuje data pro zobrazovací modul nebo zvukový modul a další funkce týkající se formátování přepsaného textu.
- Zobrazovací modul - zajišťuje zobrazení přepsaného textu, případně včetně dalších informací o přepsaném textu.
- Zvukový modul - zajišťuje přehrávání vstupního řečového signálu korespondujícího přepsanému textu.
- Komunikační modul - přes speciální komunikační protokol zajišťuje komunikaci s dalšími zařízeními, která mohou nahradit funkci vyhodnocovacího modulu. Tímto způsobem mohou být hardwarové nároky na výpočetní funkce zařízení alespoň částečně přesunuty na jiné obdobné zařízení.
- Ovládací modul - umožňuje ovládání zařízení uživatelem.
- Výukový modul - zprostředkovává výuku ovládání zařízení ve formě manuálu nebo výukových videí.
- Urychlovací modul - ve variantním řešení může být využit pro zvýšení výkonu vyhodnocovacího modulu nebo akustického modulu paralelním zpracováním jejich výpočtů na urychlovacím HW.
- Modul zespisovnění - ve variantním provedení může provádět automatické zespisovnění (přiřazení spisovného výrazu k nespisovnému slovu) či znespisovnění (generování nespisovných variant spisovných slov) slov a slovních tvarů obsažených v ústředním jazykovém modulu a v expertních jazykových modulech.
Popsané zařízení díky svému konstrukčnímu vytvoření pracuje na obvyklých dostupných technických prostředcích a převádí lidskou řeč na text v reálném čase. To znamená, že je schopno v reálném čase v řeči poznat a převést na text kromě slov obsažených v ústředním jazykovém modulu i slova z expertních jazykových modulů. Zařízení má v součtu ve všech jazykových modulech - tj. v ústředním jazykovém modulu a všech expertních jazykových modulech, při zachování schopnosti převodu v reálném čase, více než 2 miliony slov a slovních spojení, která dokáže v řeči poznat a zapsat je do výsledné textové podoby. Díky tomu poskytuje vysoký výkon (tj. rychlost) a přesnost přepisu, čehož není dosahováno žádným jiným známým zařízením.
Přehled obrázků na výkresech
Příkladné provedení navrhovaného řešení je popsáno s odkazem na výkres, kde je na obr. 1 schéma systému.
Příklad provedení
Příkladné provedení zařízení, umožňující převod řeči do textu v reálném čase, je realizováno tak, že obsahuje výpočetní zařízení a úložiště 3 ve formě ústředního jazykového modulu. Dále obsahuje soustavu úložišť 4Í až ve formě expertních jazykových modulů. Expertní jazykové moduly Ú až 4^ obsahují slova a jejich tvary z objemné skupiny, která nebyla pozorována v trénovacích textech a nejsou obsažena v úložišti 3 ve formě ústředního jazykového modulu. Tato slova a jejich slovní tvary mají ve formě atributů přiřazenou statistiku řazení ve větách. Úložiště 4^ až 4^ ve formě expertních jazykových modulů dále obsahují různé výslovnosti slov v nich obsažených.
-3CZ 27055 Ul
Příkladný systém pro převod řeči do textu v reálném čase, s výhodou podle shora uvedeného příkladu, obsahuje řídicí modul I, vyhodnocovací modul 2, úložiště 3 ve formě ústředního jazykového modulu, akustický modul 5, vstupní modul 6, výstupní modul 7, zobrazovací modul 8, zvukový modul 9, komunikační modul 10, ovládací modul 11 a výukový modul 12. Dále obsahuje soustavu úložišť Á až 4^ ve formě expertních jazykových modulů, připojených k řídicímu modulu I, k vyhodnocovacímu modulu 2 a v tomto případě i k modulu zespisovnění 14. Modul zespisovnění 14 je dále připojený k úložišti 3 ve formě ústředního jazykového modulu.
Systém pro převod řeči do textu v reálném čase dále obsahuje urychlovací modul 13, připojený k vyhodnocovacímu modulu 2, akustickému modulu 5 a řídicímu modulu 1.
Konkrétně je příkladné provedení zařízení provedeno tak, že využívá hardware ve formě 15 notebooku s čtyřjádrovým procesorem (CPU) a 8 GB paměti (RAM). Jako urychlovací modul 13 je využit grafický procesor (GPU). Jako vyhodnocovací modul 2 je využit vysoce paralelizovaný dekodér. Úložiště ve formě ústředního jazykového modulu 3 obsahuje 1033551 slov a slovních tvarů včetně statistik jejich řazení ve větě. Realizováno je osm úložišť Á až 4* ve formě expertních jazykových modulů, a to expertní jazykový modul českých mužských příjmení, českých mužských jmen, českých ženských příjmení, českých ženských jmen, názvů českých obcí, názvů českých ulic a názvů českých firem. Tímto způsobem je množství slov, která mohou být zařízením přepsána, navýšeno na více než 4 miliony slov a slovních tvarů. Akustický modul 5 využívá 14766 skrytých Markovových modelů pro 49 fonémů českého jazyka. Vstupní modul 6 obstarává vstupní řečový signál z externího mikrofonu se vzorkovací frekvencí 22 kHz. Výstupní modul 7 je realizován prostřednictvím prostředku Microsoft .NET Framework 2.0 včetně zobrazovacího modulu 8 ve formě uživatelského interface a zvukového modulu 9 prostřednictvím zvukové karty a reproduktoru notebooku. Ovládací modul 11 využívá klávesnici notebooku. Výukový modul 12 je realizován ve formě manuálu.
Příkladné provedení je patrné z obr. 1.

Claims (14)

  1. NÁROKY NA OCHRANU
    1. Zařízení pro převod řeči do textu v reálném čase, vyznačující se tím, že obsahuje hardwarovou výpočetní jednotku a úložiště (3) ve formě ústředního jazykového modulu a dále obsahuje nejméně jedno úložiště (41 až 4N) ve formě expertního jazykového modulu, přičemž úložiště (41 až 4N) obsahuje slova a/nebo jejich tvary ze skupiny, která nebyla pozorována v trénovacích textech a nejsou obsažena v úložišti (3) ústředního jazykového modulu, přičemž slova mají ve formě atributů přiřazenou statistiku řazení ve větách.
  2. 2. Zařízení podle nároku 1, vyznačující se tím, že úložiště (41 až 4N) ve formě expertního jazykového modulu obsahuje různé výslovnosti slov v něm obsažených.
  3. 3. Systém pro převod řeči do textu v reálném čase, obsahující zařízení podle nároku 1 nebo 2, a dále obsahující řídicí modul (1), propojený s vyhodnocovacím modulem (2), který je propojený s úložištěm (3) ve formě ústředního jazykového modulu, dále obsahující akustický modul (5), propojený se vstupním modulem (6), výstupní modul (7) propojený se zobrazovacím modulem (8) a zvukovým modulem (9), přičemž řídicí modul (1) je dále propojený s komunikačním modulem (10) a ovládacím modulem (11), který je propojený s výukovým modulem (12), vyznačující se tím, že nejméně jedno úložiště (41 až 4N) ve formě expertního jazykového moduluje připojené k řídicímu modulu (1) a k vyhodnocovacímu modulu (2).
  4. 4. Systém podle nároku 3, vyznačující se tím, že dále obsahuje hardwarový urychlovací modul (13), připojený k vyhodnocovacímu modulu (2), akustickému modulu (5) a řídicímu modulu (1).
    -4CZ 27055 Ul
  5. 5. Systém podle nároku 3 nebo 4, vyznačující se tím, že dále obsahuje modul zespisovnění (14), připojený k nejméně jednomu expertnímu jazykovému modulu (41 až 4N) a k ústřednímu jazykovému modulu (3).
    1 výkres
    Seznam vztahových značek:
    ίο 1 - řídicí modul
    2 - vyhodnocovací modul
    3 - úložiště ve formě ústředního jazykového modulu
    4 - úložiště ve formě expertního jazykového modulu
    5 - akustický modul
    15
  6. 6 - vstupní modul
  7. 7 - výstupní modul
  8. 8 - zobrazovací modul
  9. 9 - zvukový modul
  10. 10 - komunikační modul
    20
  11. 11 - ovládací modul
  12. 12 - výukový modul
  13. 13 - urychlovací modul
  14. 14 - modul zespisovnění.
CZ2013-28130U 2013-06-26 2013-06-26 Zařízení a systém pro převod řeči do textu v reálném čase CZ27055U1 (cs)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CZ2013-28130U CZ27055U1 (cs) 2013-06-26 2013-06-26 Zařízení a systém pro převod řeči do textu v reálném čase

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CZ2013-28130U CZ27055U1 (cs) 2013-06-26 2013-06-26 Zařízení a systém pro převod řeči do textu v reálném čase

Publications (1)

Publication Number Publication Date
CZ27055U1 true CZ27055U1 (cs) 2014-06-16

Family

ID=50977187

Family Applications (1)

Application Number Title Priority Date Filing Date
CZ2013-28130U CZ27055U1 (cs) 2013-06-26 2013-06-26 Zařízení a systém pro převod řeči do textu v reálném čase

Country Status (1)

Country Link
CZ (1) CZ27055U1 (cs)

Similar Documents

Publication Publication Date Title
EP2595143B1 (en) Text to speech synthesis for texts with foreign language inclusions
Besacier et al. Automatic speech recognition for under-resourced languages: A survey
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
Riley et al. Stochastic pronunciation modelling from hand-labelled phonetic corpora
Jimerson et al. ASR for documenting acutely under-resourced indigenous languages
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN112466279B (zh) 一种英语口语发音自动纠正方法和装置
Cardinal et al. Speaker adaptation using the i-vector technique for bottleneck features
Khomitsevich et al. A bilingual Kazakh-Russian system for automatic speech recognition and synthesis
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
Yang et al. German speech recognition: A solution for the analysis and processing of lecture recordings
Sazhok et al. Punctuation Restoration for Ukrainian Broadcast Speech Recognition System based on Bidirectional Recurrent Neural Network and Word Embeddings.
Dureja et al. Speech-to-Speech Translation: A Review
Mabokela et al. An integrated language identification for code-switched speech using decoded-phonemes and support vector machine
KR20160060915A (ko) 어근 기반의 언어모델 생성 방법 및 이를 위한 언어처리장치
CZ27055U1 (cs) Zařízení a systém pro převod řeči do textu v reálném čase
KR100511247B1 (ko) 음성 인식 시스템의 언어 모델링 방법
Ni et al. Investigation of using different Chinese word segmentation standards and algorithms for automatic speech recognition
Babykutty et al. Development of multilingual phonetic engine for four Indian languages
CZ307393B6 (cs) Zařízení pro převod řeči do textu v reálném čase
Staš et al. Recent advances in the statistical modeling of the Slovak language
Pandey et al. Development and suitability of indian languages speech database for building watson based asr system

Legal Events

Date Code Title Description
FG1K Utility model registered

Effective date: 20140616

MK1K Utility model expired

Effective date: 20170626